CN109558418A

CN109558418A - 一种自动识别信息的方法

Info

Publication number: CN109558418A
Application number: CN201811465338.9A
Authority: CN
Inventors: 崔宁; 李超; 张芙蕾
Original assignee: SHANGHAI XILING INFORMATION TECHNOLOGY Co Ltd
Current assignee: SHANGHAI XILING INFORMATION TECHNOLOGY Co Ltd
Priority date: 2018-12-03
Filing date: 2018-12-03
Publication date: 2019-04-02
Anticipated expiration: 2038-12-03
Also published as: CN109558418B

Abstract

本发明公开了一种自动识别信息的方法，涉及信息识别领域，包括如下步骤：S10、制定采集数据规则和内容类型识别规则；S20、根据所述采集数据规则采集数据，将所述数据格式化；S30、根据采集数据规则位置标识查找模型，根据所述模型识别所述数据的内容信息，获得所述内容信息与类型信息的对应关系，并将所述内容信息输出。本发明的有益效果在于解决了数据在识别过程中无法动态追加数据来源以及数据识别不准确，识别效率低的问题。通过格式化数据类型，可以在一定程度上保证结构的一致性，消除数据属性在理解上的差异性。同时，当本地模型完善后，可以在动态的提高信息识别效率，提高信息的应用价值。

Description

一种自动识别信息的方法

技术领域

本发明涉及信息识别领域，尤其涉及一种自动识别信息的方法。

背景技术

随着公共信息化快速发展，公共信息资源种类和数据激增，信息集中度和敏感度明显增加，信息应用和共享方式日趋复杂，数据盗取、越权访问等造成公共敏感信息泄露、侵犯公民隐私的现象时有发生，严重威胁公共信息网安全，亟待从安全技术手段上加强对公共信息资源的保护。数据安全保护以数据资产为中心进行展开。全面整合各类安全防护手段的安全数据，利用大数据分析挖掘技术，实现对信息系统、终端、网络、安全设备、网络设备、边界设备、数据库、云平台等各类日志数据中的数据信息进行识别。通过汇总和分析各地收集的数据信息，对数据信息进行监管和追溯，实现威胁发现、精准预警和态势感知。破解当前“跟踪不下去、查不到源头、取不到证据”难题，防范敏感信息泄露、保护数据安全。

目前各地用于信息发现、识别的工具有很多，但大多存在着诸如信息识别不准确、效率低、识别类型少等问题。为了能够有效的识别信息，有人提出针对具体对象通过定制化规则，采集相应数据，但这种方式需要大量的运维投入且无法重复利用，导致项目难以推广使用。

因此，本领域的技术人员致力于开发一种自动识别信息的方法，针对现有信息识别的缺点，提升其准确性、有效性、高效性及降低其实施复杂程度。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是解决数据在识别过程中因数据格式、类型、范围等不同，而无法有效且高效地自动识别的问题。通过采集大量数据，同时对数据进行格式化处理，以屏蔽各类数据在数据汇聚整合过程中的差异性。同时对数据进行解析，通过对同位置下的内容类型进行比对，获取具有普适性的内容类型，从而保证了多样化信息在汇聚过程中的正确性和有效性。为了满足信息识别的高效性，定期对符合条件的数据按照上述步骤分析，动态生成并更新模型，通过模型，高效地识别内容。

为实现上述目的，本发明提供了一种自动识别信息的方法，包括如下步骤：

S10、制定采集数据规则，内容类型识别规则和更新模型集，并加载至缓存中；

S20、根据所述采集数据规则采集数据，将所述数据格式化；

S30、根据采集数据规则位置标识查找所述模型集中的模型，根据所述模型识别所述数据的内容信息，获得所述内容信息与类型信息的对应关系，并将所述内容信息输出，程序终止。

进一步地，所述步骤S30中的所述模型若不存在，则，判断是否存在所述步骤S20中采集的所述数据对应的数据样本目录，若所述数据样本目录存在，则将所述步骤S20中的格式化的所述数据以文件形式保存到所述数据样本目录中，程序终止；

若所述数据样本目录不存在，则创建所述数据样本目录，并将格式化的所述数据以文件形式保存到所述数据样本目录中，程序终止。

进一步地，所述数据样本目录中的样本数量达到学习条件后，启动如下步骤，

S40、解析所述样本，获取所述样本的数据结构信息；

S50、循环解析所述数据结构信息，根据所述内容类型识别规则解析所述数据结构信息的内容，将结果追加至所述数据结构信息中；

S60、合并所述数据结构信息，以所述数据结构信息中的位置信息为主，循环分析所述数据结构信息的内容类型；

S70、若存在普适性的所述内容类型，则，将所述位置信息的所在位置的类型设置为所述内容类型；若不存在所述普适性的内容类型，则抛弃所述位置信息；

S80、汇总分析结果，生成所述模型，将所述模型存储到所述模型集中。

进一步地，所述步骤S80中，生成所述模型后，删除所述模型的所述数据样本目录及所述数据样本目录中的所述样本的数据。

进一步地，所述采集数据规则规定的采集信息包含数据名称、访问路径、参数、状态信息。

进一步地，所述内容类型识别规则包含规则名称、内容类型、匹配方式信息中的一种或多种。

进一步地，所述步骤S20中采集的所述数据包括网页文本信息、JSON信息、XML信息。

进一步地，所述匹配方式信息包括正则表达式匹配或语义分析匹配。

进一步地，所述步骤S20中的所述数据格式化的规则为将所述数据按照格式层级被格式化为树形结构。

进一步地，所述步骤S20中格式化后的所述数据的每层包含内容信息，内容位置标识信息。

本发明达到的技术效果在于，相比于传统的方式，本发明充分解决了数据在识别过程中无法动态追加数据来源以及数据识别不准确，识别效率低的问题。通过格式化数据类型，可以在一定程度上保证结构的一致性，消除数据属性在理解上的差异性。同时，当本地模型完善后，可以在动态的提高信息识别效率，提高信息的应用价值；对于识别失败的数据，因为保留了采集数据的原始值，也可以根据数据之间的关联关系重新进行类型识别，提高了数据的有效性。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明的一个较佳实施例的信息识别流程图；

图2是本发明的一个较佳实施例的模型更新流程图。

具体实施方式

以下参考说明书附图介绍本发明的多个优选实施例，使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现，本发明的保护范围并非仅限于文中提到的实施例。

如图1所示，本发明的一个较佳实施例的信息识别流程图如下：首先定义采集数据规则，用户可以自定义所需采集的数据信息，包括数据名称、访问路径、参数、状态；定义内容类型识别规则，用户可以自定义需要识别的内容，包括规则名称、内容类型、匹配方式信息，匹配方式信息包括正则表达式匹配或语义分析匹配。将采集数据规则和内容类型识别规则初始化并加载入缓存，更新模型集，并将模型集也加载入缓存。

根据采集数据规则采集所需的数据，采集对象包括网页文本信息、JSON信息、XML信息，以及其他信息；数据采集完成后，系统将采集的数据按照格式层级格式化为树形结构，树形结构层信息包含内容信息、内容位置标识信息，根据采集数据规则位置标识查找模型集中的模型，如果查找到对应的模型，则根据模型识别数据的内容信息，获得内容与类型信息的对应关系，并将内容信息输出，程序终止；如果查找不到对应的模型，则判断是否存在对应的数据样本目录，若不存在对应的数据样本目录，则创建相应的数据样本目录，并且与采集数据规则一一对应，再将格式化后的数据以文件形式作为样本信息保存到相应的数据样本目录中，程序终止；若存在对应的数据样本目录，则将格式化的数据信息以文件形式保存到相应的数据样本目录中，程序终止。

如图2所示，本发明的一个较佳实施例的模型更新流程图如下：检查数据样本目录中的样本信息数量是否符合学习条件，若符合学习条件，则解析样本信息获得数据结构信息，数据结构信息为格式化的树型结构信息，数据结构信息包含内容信息，内容位置标识信息；循环解析所述数据结构信息，根据内容类型识别规则解析数据结构信息的内容，将结果追加至数据结构信息中；合并所述数据结构信息，以数据结构信息中的位置信息为主，循环分析数据结构信息的内容类型；若存在普适性的内容类型，则，将位置信息的所在位置的类型设置为内容类型；若不存在普适性的内容类型，则抛弃所述位置信息；汇总分析结果，生成所述模型，将所述模型存储到所述模型集中；生成所述模型后，删除模型对应的数据样本目录及数据样本目录中的样本的数据。

模型更新流程和信息识别流程可以同时进行或依次循环进行。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种自动识别信息的方法，其特征在于，包括如下步骤：

S20、根据所述采集数据规则采集数据，将所述数据格式化；

2.如权利要求1所述的自动识别信息的方法，其特征在于，所述步骤S30中的所述模型若不存在，则，判断是否存在所述步骤S20中采集的所述数据对应的数据样本目录，若所述数据样本目录存在，则将所述步骤S20中的格式化的所述数据以文件形式保存到所述数据样本目录中，程序终止；若所述数据样本目录不存在，则创建所述数据样本目录，并将格式化的所述数据以文件形式保存到所述数据样本目录中，程序终止。

3.如权利要求2所述的自动识别信息的方法，其特征在于，所述数据样本目录中的样本数量达到学习条件后，启动如下步骤，

S40、解析所述样本，获取所述样本的数据结构信息；

4.如权利要求3所述的自动识别信息的方法，其特征在于，所述步骤S80中，生成所述模型后，删除所述模型的所述数据样本目录及所述数据样本目录中的所述样本的数据。

5.如权利要求1-3任一项所述的自动识别信息的方法，其特征在于，所述采集数据规则规定的采集信息包含数据名称、访问路径、参数、状态信息。

6.如权利要求1-3任一项所述的自动识别信息的方法，其特征在于，所述内容类型识别规则包含规则名称、内容类型、匹配方式信息中的一种或多种。

7.如权利要求1-3任一项所述的自动识别信息的方法，其特征在于，所述步骤S20中采集的所述数据包括网页文本信息、JSON信息、XML信息。

8.如权利要求7所述的自动识别信息的方法，其特征在于，所述匹配方式信息包括正则表达式匹配或语义分析匹配。

9.如权利要求1-3任一项所述的自动识别信息的方法，其特征在于，所述步骤S20中的所述数据格式化的规则为将所述数据按照格式层级被格式化为树形结构。

10.如权利要求9所述的自动识别信息的方法，其特征在于，所述步骤S20中格式化后的所述数据的每层包含内容信息，内容位置标识信息。