CN109558418A - 一种自动识别信息的方法 - Google Patents

一种自动识别信息的方法 Download PDF

Info

Publication number
CN109558418A
CN109558418A CN201811465338.9A CN201811465338A CN109558418A CN 109558418 A CN109558418 A CN 109558418A CN 201811465338 A CN201811465338 A CN 201811465338A CN 109558418 A CN109558418 A CN 109558418A
Authority
CN
China
Prior art keywords
data
information
rule
content
automatic identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811465338.9A
Other languages
English (en)
Other versions
CN109558418B (zh
Inventor
崔宁
李超
张芙蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI XILING INFORMATION TECHNOLOGY Co Ltd
Original Assignee
SHANGHAI XILING INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI XILING INFORMATION TECHNOLOGY Co Ltd filed Critical SHANGHAI XILING INFORMATION TECHNOLOGY Co Ltd
Priority to CN201811465338.9A priority Critical patent/CN109558418B/zh
Publication of CN109558418A publication Critical patent/CN109558418A/zh
Application granted granted Critical
Publication of CN109558418B publication Critical patent/CN109558418B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种自动识别信息的方法,涉及信息识别领域,包括如下步骤:S10、制定采集数据规则和内容类型识别规则;S20、根据所述采集数据规则采集数据,将所述数据格式化;S30、根据采集数据规则位置标识查找模型,根据所述模型识别所述数据的内容信息,获得所述内容信息与类型信息的对应关系,并将所述内容信息输出。本发明的有益效果在于解决了数据在识别过程中无法动态追加数据来源以及数据识别不准确,识别效率低的问题。通过格式化数据类型,可以在一定程度上保证结构的一致性,消除数据属性在理解上的差异性。同时,当本地模型完善后,可以在动态的提高信息识别效率,提高信息的应用价值。

Description

一种自动识别信息的方法
技术领域
本发明涉及信息识别领域,尤其涉及一种自动识别信息的方法。
背景技术
随着公共信息化快速发展,公共信息资源种类和数据激增,信息集中度和敏感度明显增加,信息应用和共享方式日趋复杂,数据盗取、越权访问等造成公共敏感信息泄露、侵犯公民隐私的现象时有发生,严重威胁公共信息网安全,亟待从安全技术手段上加强对公共信息资源的保护。数据安全保护以数据资产为中心进行展开。全面整合各类安全防护手段的安全数据,利用大数据分析挖掘技术,实现对信息系统、终端、网络、安全设备、网络设备、边界设备、数据库、云平台等各类日志数据中的数据信息进行识别。通过汇总和分析各地收集的数据信息,对数据信息进行监管和追溯,实现威胁发现、精准预警和态势感知。破解当前“跟踪不下去、查不到源头、取不到证据”难题,防范敏感信息泄露、保护数据安全。
目前各地用于信息发现、识别的工具有很多,但大多存在着诸如信息识别不准确、效率低、识别类型少等问题。为了能够有效的识别信息,有人提出针对具体对象通过定制化规则,采集相应数据,但这种方式需要大量的运维投入且无法重复利用,导致项目难以推广使用。
因此,本领域的技术人员致力于开发一种自动识别信息的方法,针对现有信息识别的缺点,提升其准确性、有效性、高效性及降低其实施复杂程度。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是解决数据在识别过程中因数据格式、类型、范围等不同,而无法有效且高效地自动识别的问题。通过采集大量数据,同时对数据进行格式化处理,以屏蔽各类数据在数据汇聚整合过程中的差异性。同时对数据进行解析,通过对同位置下的内容类型进行比对,获取具有普适性的内容类型,从而保证了多样化信息在汇聚过程中的正确性和有效性。为了满足信息识别的高效性,定期对符合条件的数据按照上述步骤分析,动态生成并更新模型,通过模型,高效地识别内容。
为实现上述目的,本发明提供了一种自动识别信息的方法,包括如下步骤:
S10、制定采集数据规则,内容类型识别规则和更新模型集,并加载至缓存中;
S20、根据所述采集数据规则采集数据,将所述数据格式化;
S30、根据采集数据规则位置标识查找所述模型集中的模型,根据所述模型识别所述数据的内容信息,获得所述内容信息与类型信息的对应关系,并将所述内容信息输出,程序终止。
进一步地,所述步骤S30中的所述模型若不存在,则,判断是否存在所述步骤S20中采集的所述数据对应的数据样本目录,若所述数据样本目录存在,则将所述步骤S20中的格式化的所述数据以文件形式保存到所述数据样本目录中,程序终止;
若所述数据样本目录不存在,则创建所述数据样本目录,并将格式化的所述数据以文件形式保存到所述数据样本目录中,程序终止。
进一步地,所述数据样本目录中的样本数量达到学习条件后,启动如下步骤,
S40、解析所述样本,获取所述样本的数据结构信息;
S50、循环解析所述数据结构信息,根据所述内容类型识别规则解析所述数据结构信息的内容,将结果追加至所述数据结构信息中;
S60、合并所述数据结构信息,以所述数据结构信息中的位置信息为主,循环分析所述数据结构信息的内容类型;
S70、若存在普适性的所述内容类型,则,将所述位置信息的所在位置的类型设置为所述内容类型;若不存在所述普适性的内容类型,则抛弃所述位置信息;
S80、汇总分析结果,生成所述模型,将所述模型存储到所述模型集中。
进一步地,所述步骤S80中,生成所述模型后,删除所述模型的所述数据样本目录及所述数据样本目录中的所述样本的数据。
进一步地,所述采集数据规则规定的采集信息包含数据名称、访问路径、参数、状态信息。
进一步地,所述内容类型识别规则包含规则名称、内容类型、匹配方式信息中的一种或多种。
进一步地,所述步骤S20中采集的所述数据包括网页文本信息、JSON信息、XML信息。
进一步地,所述匹配方式信息包括正则表达式匹配或语义分析匹配。
进一步地,所述步骤S20中的所述数据格式化的规则为将所述数据按照格式层级被格式化为树形结构。
进一步地,所述步骤S20中格式化后的所述数据的每层包含内容信息,内容位置标识信息。
本发明达到的技术效果在于,相比于传统的方式,本发明充分解决了数据在识别过程中无法动态追加数据来源以及数据识别不准确,识别效率低的问题。通过格式化数据类型,可以在一定程度上保证结构的一致性,消除数据属性在理解上的差异性。同时,当本地模型完善后,可以在动态的提高信息识别效率,提高信息的应用价值;对于识别失败的数据,因为保留了采集数据的原始值,也可以根据数据之间的关联关系重新进行类型识别,提高了数据的有效性。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1是本发明的一个较佳实施例的信息识别流程图;
图2是本发明的一个较佳实施例的模型更新流程图。
具体实施方式
以下参考说明书附图介绍本发明的多个优选实施例,使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现,本发明的保护范围并非仅限于文中提到的实施例。
如图1所示,本发明的一个较佳实施例的信息识别流程图如下:首先定义采集数据规则,用户可以自定义所需采集的数据信息,包括数据名称、访问路径、参数、状态;定义内容类型识别规则,用户可以自定义需要识别的内容,包括规则名称、内容类型、匹配方式信息,匹配方式信息包括正则表达式匹配或语义分析匹配。将采集数据规则和内容类型识别规则初始化并加载入缓存,更新模型集,并将模型集也加载入缓存。
根据采集数据规则采集所需的数据,采集对象包括网页文本信息、JSON信息、XML信息,以及其他信息;数据采集完成后,系统将采集的数据按照格式层级格式化为树形结构,树形结构层信息包含内容信息、内容位置标识信息,根据采集数据规则位置标识查找模型集中的模型,如果查找到对应的模型,则根据模型识别数据的内容信息,获得内容与类型信息的对应关系,并将内容信息输出,程序终止;如果查找不到对应的模型,则判断是否存在对应的数据样本目录,若不存在对应的数据样本目录,则创建相应的数据样本目录,并且与采集数据规则一一对应,再将格式化后的数据以文件形式作为样本信息保存到相应的数据样本目录中,程序终止;若存在对应的数据样本目录,则将格式化的数据信息以文件形式保存到相应的数据样本目录中,程序终止。
如图2所示,本发明的一个较佳实施例的模型更新流程图如下:检查数据样本目录中的样本信息数量是否符合学习条件,若符合学习条件,则解析样本信息获得数据结构信息,数据结构信息为格式化的树型结构信息,数据结构信息包含内容信息,内容位置标识信息;循环解析所述数据结构信息,根据内容类型识别规则解析数据结构信息的内容,将结果追加至数据结构信息中;合并所述数据结构信息,以数据结构信息中的位置信息为主,循环分析数据结构信息的内容类型;若存在普适性的内容类型,则,将位置信息的所在位置的类型设置为内容类型;若不存在普适性的内容类型,则抛弃所述位置信息;汇总分析结果,生成所述模型,将所述模型存储到所述模型集中;生成所述模型后,删除模型对应的数据样本目录及数据样本目录中的样本的数据。
模型更新流程和信息识别流程可以同时进行或依次循环进行。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (10)

1.一种自动识别信息的方法,其特征在于,包括如下步骤:
S10、制定采集数据规则,内容类型识别规则和更新模型集,并加载至缓存中;
S20、根据所述采集数据规则采集数据,将所述数据格式化;
S30、根据采集数据规则位置标识查找所述模型集中的模型,根据所述模型识别所述数据的内容信息,获得所述内容信息与类型信息的对应关系,并将所述内容信息输出,程序终止。
2.如权利要求1所述的自动识别信息的方法,其特征在于,所述步骤S30中的所述模型若不存在,则,判断是否存在所述步骤S20中采集的所述数据对应的数据样本目录,若所述数据样本目录存在,则将所述步骤S20中的格式化的所述数据以文件形式保存到所述数据样本目录中,程序终止;若所述数据样本目录不存在,则创建所述数据样本目录,并将格式化的所述数据以文件形式保存到所述数据样本目录中,程序终止。
3.如权利要求2所述的自动识别信息的方法,其特征在于,所述数据样本目录中的样本数量达到学习条件后,启动如下步骤,
S40、解析所述样本,获取所述样本的数据结构信息;
S50、循环解析所述数据结构信息,根据所述内容类型识别规则解析所述数据结构信息的内容,将结果追加至所述数据结构信息中;
S60、合并所述数据结构信息,以所述数据结构信息中的位置信息为主,循环分析所述数据结构信息的内容类型;
S70、若存在普适性的所述内容类型,则,将所述位置信息的所在位置的类型设置为所述内容类型;若不存在所述普适性的内容类型,则抛弃所述位置信息;
S80、汇总分析结果,生成所述模型,将所述模型存储到所述模型集中。
4.如权利要求3所述的自动识别信息的方法,其特征在于,所述步骤S80中,生成所述模型后,删除所述模型的所述数据样本目录及所述数据样本目录中的所述样本的数据。
5.如权利要求1-3任一项所述的自动识别信息的方法,其特征在于,所述采集数据规则规定的采集信息包含数据名称、访问路径、参数、状态信息。
6.如权利要求1-3任一项所述的自动识别信息的方法,其特征在于,所述内容类型识别规则包含规则名称、内容类型、匹配方式信息中的一种或多种。
7.如权利要求1-3任一项所述的自动识别信息的方法,其特征在于,所述步骤S20中采集的所述数据包括网页文本信息、JSON信息、XML信息。
8.如权利要求7所述的自动识别信息的方法,其特征在于,所述匹配方式信息包括正则表达式匹配或语义分析匹配。
9.如权利要求1-3任一项所述的自动识别信息的方法,其特征在于,所述步骤S20中的所述数据格式化的规则为将所述数据按照格式层级被格式化为树形结构。
10.如权利要求9所述的自动识别信息的方法,其特征在于,所述步骤S20中格式化后的所述数据的每层包含内容信息,内容位置标识信息。
CN201811465338.9A 2018-12-03 2018-12-03 一种自动识别信息的方法 Active CN109558418B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811465338.9A CN109558418B (zh) 2018-12-03 2018-12-03 一种自动识别信息的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811465338.9A CN109558418B (zh) 2018-12-03 2018-12-03 一种自动识别信息的方法

Publications (2)

Publication Number Publication Date
CN109558418A true CN109558418A (zh) 2019-04-02
CN109558418B CN109558418B (zh) 2023-04-07

Family

ID=65868639

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811465338.9A Active CN109558418B (zh) 2018-12-03 2018-12-03 一种自动识别信息的方法

Country Status (1)

Country Link
CN (1) CN109558418B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449013A (zh) * 2021-06-21 2021-09-28 北京思路智园科技有限公司 一种特殊作业过程数据采集系统及存储系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080112620A1 (en) * 2006-10-26 2008-05-15 Hubin Jiang Automated system for understanding document content
CN103714812A (zh) * 2013-12-23 2014-04-09 百度在线网络技术(北京)有限公司 一种语音识别方法及装置
CN104679828A (zh) * 2015-01-19 2015-06-03 云南电力调度控制中心 一种基于规则的电网故障诊断智能系统
CN105528403A (zh) * 2015-12-02 2016-04-27 小米科技有限责任公司 目标数据识别方法及装置
CN105989136A (zh) * 2015-02-27 2016-10-05 阿里巴巴集团控股有限公司 一种网页信息识别方法及装置
CN107330004A (zh) * 2017-06-12 2017-11-07 上海连源信息科技有限公司 一种基于url字符串的数据采集方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080112620A1 (en) * 2006-10-26 2008-05-15 Hubin Jiang Automated system for understanding document content
CN103714812A (zh) * 2013-12-23 2014-04-09 百度在线网络技术(北京)有限公司 一种语音识别方法及装置
CN104679828A (zh) * 2015-01-19 2015-06-03 云南电力调度控制中心 一种基于规则的电网故障诊断智能系统
CN105989136A (zh) * 2015-02-27 2016-10-05 阿里巴巴集团控股有限公司 一种网页信息识别方法及装置
CN105528403A (zh) * 2015-12-02 2016-04-27 小米科技有限责任公司 目标数据识别方法及装置
CN107330004A (zh) * 2017-06-12 2017-11-07 上海连源信息科技有限公司 一种基于url字符串的数据采集方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449013A (zh) * 2021-06-21 2021-09-28 北京思路智园科技有限公司 一种特殊作业过程数据采集系统及存储系统

Also Published As

Publication number Publication date
CN109558418B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN109657473B (zh) 一种基于深度特征的细粒度漏洞检测方法
CN106815125A (zh) 一种日志审计方法及平台
CN108549814A (zh) 一种基于机器学习的sql注入检测方法、数据库安全系统
CN104520871A (zh) 漏洞矢量信息分析
CN109104421B (zh) 一种网站内容篡改检测方法、装置、设备及可读存储介质
CN109803152A (zh) 违规审核方法、装置、电子设备以及存储介质
CN110007906B (zh) 脚本文件的处理方法、装置和服务器
KR20220064016A (ko) 빅데이터를 활용한 데이터마이닝기반 건설사고 객체정보 추출 방법
CN110427375B (zh) 字段类别的识别方法及装置
CN112711438A (zh) 依赖组件信息提取方法、设备及计算机可读存储介质
CN109344355A (zh) 针对网页变化的自动回归检测与块匹配自适应方法和装置
CN105184156A (zh) 一种安全威胁管理方法和系统
JP2017068293A (ja) テストdbデータ生成方法及び装置
CN110929110A (zh) 一种电子文档检测方法、装置、设备及存储介质
CN110008701A (zh) 基于elf文件特征的静态检测规则提取方法及检测方法
US20120151581A1 (en) Method and system for information property management
CN109558418A (zh) 一种自动识别信息的方法
CN116541887A (zh) 一种大数据平台数据安全保护方法
CN109409091B (zh) 检测Web页面的方法、装置、设备以及计算机存储介质
CN108038233B (zh) 一种采集文章的方法、装置、电子设备及存储介质
CN116248393A (zh) 一种内网数据传输漏洞扫描装置及系统
KR102217092B1 (ko) 애플리케이션의 품질 정보 제공 방법 및 장치
CN105786929A (zh) 一种信息监测方法及装置
CN115576831A (zh) 一种测试案例推荐方法、装置、设备及存储介质
CN109408525A (zh) 一种农业数据库sql语句安全检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant