CN111737488A - 基于领域实体提取和关联分析的信息溯源方法及装置 - Google Patents

基于领域实体提取和关联分析的信息溯源方法及装置 Download PDF

Info

Publication number
CN111737488A
CN111737488A CN202010533329.XA CN202010533329A CN111737488A CN 111737488 A CN111737488 A CN 111737488A CN 202010533329 A CN202010533329 A CN 202010533329A CN 111737488 A CN111737488 A CN 111737488A
Authority
CN
China
Prior art keywords
entity
data
relationship
query result
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010533329.XA
Other languages
English (en)
Other versions
CN111737488B (zh
Inventor
李欢丽
熊英超
张玉林
李兴国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Zhongfu Information Technology Co Ltd
Original Assignee
Nanjing Zhongfu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Zhongfu Information Technology Co Ltd filed Critical Nanjing Zhongfu Information Technology Co Ltd
Priority to CN202010533329.XA priority Critical patent/CN111737488B/zh
Publication of CN111737488A publication Critical patent/CN111737488A/zh
Application granted granted Critical
Publication of CN111737488B publication Critical patent/CN111737488B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供的一种基于领域实体提取和关联分析的信息溯源方法及装置,通过爬取网络中目标文件的流转数据作为原始数据;对所述原始数据进行实体抽取处理获取实体数据,对所述原始数据中的所述实体数据进行关系抽取处理获取关系数据,对所述实体数据和所述关系数据进行关联处理,获取预设实体关系模型;在所述预设实体关系模型输入查询实体后,获取初始查询结果,实现较准确的定位到与泄密相关的员工信息。当输入要查询的实体后,会从预设实体关系模型中查询到相关信息,由于预设实体关系模型内包含了所有的原始数据,使得数据比较全面,且均提取了原始数据中有用信息,然后利用这些有用信息得到查询结果,可以较准确的定位到与泄密相关的员工信息。

Description

基于领域实体提取和关联分析的信息溯源方法及装置
技术领域
本发明涉及信息处理技术,尤其涉及一种基于领域实体提取和关联分析的信息溯源方法及装置。
背景技术
目前,企业在监测器实际使用过程中,需要对一些有涉密的文件进行监测,以防止泄密情况出现。
现有技术中,当涉密的文件出现泄密风险时,会将涉密风险的文件会以告警的形式推荐给相关管理工作人员,以提示风险。但是,由于告警信息比较单一,所包含的有用数据较少,无法单从一个告警信息里面来明确的得知与泄密相关员工的一些有用信息,导致管理人员即使发现了确凿的告警信息,也无法准确定位到唯一确定的员工或可能的一些员工,这使得后续的责任追究等相关措施无从实施。
因此,现有技术中无法较准确的定位到与泄密相关的员工信息。
发明内容
本发明实施例提供一种基于领域实体提取和关联分析的信息溯源方法及装置,可以较准确的定位到与泄密相关的员工信息。
本发明实施例的第一方面,提供一种基于领域实体提取和关联分析的信息溯源方法,包括:
爬取网络中目标文件的流转数据作为原始数据;
对所述原始数据进行实体抽取处理获取实体数据,对所述原始数据中的所述实体数据进行关系抽取处理获取关系数据,对所述实体数据和所述关系数据进行关联处理,获取预设实体关系模型;
在所述预设实体关系模型输入查询实体后,获取初始查询结果。
可选地,在第一方面的一种可能实现方式中,所述对所述原始数据进行实体抽取处理获取实体数据,包括:
对所述原始数据进行命名实体识别处理,获取所述实体数据,其中,所述实体数据的实体类型包括IP、QQ、email、人名、身份证、手机号码、座机号码、公司和政府机构。
可选地,在第一方面的一种可能实现方式中,所述原始数据包括结构化告警信息和非结构化告警信息;
所述对所述原始数据中的所述实体数据进行关系抽取处理获取关系数据,包括:
对所述结构化告警信息中的所述实体数据进行关系抽取处理,获取第一关系数据;
对所述非结构化告警信息中的所述实体数据进行关系抽取处理,获取第二关系数据;
根据所述第一关系数据和所述第二关系数据,获取所述关系数据。
可选地,在第一方面的一种可能实现方式中,所述对所述结构化告警信息中的所述实体数据进行关系抽取处理,获取第一关系数据,包括:
获取所述结构化告警信息中的有效表头;
根据所述有效表头对每一行所述结构化告警信息中的所述实体数据进行一致性查询处理,获取有效实体数据;
获取所述结构化告警信息中每一行中任意两两所述有效实体数据之间的第一初始关系数据;
根据预设实体关系表对所述第一初始关系数据进行剔除处理,获取所述第一关系数据,其中,所述预设实体关系表包括两两所述实体数据之间的共联关系。
可选地,在第一方面的一种可能实现方式中,所述对所述非结构化告警信息中的所述实体数据进行关系抽取处理,获取第二关系数据,包括:
统计每行所述非结构化告警信息中的所述实体数据中包含实体类型和实体数据的个数,获取每行的类型数量和实体数量;
若所述类型数量大于或等于2,获取该行所述实体类型对应的实体数据,根据所述实体类型和所述实体数据获取第一实体关系;
若所述类型数量和所述实体数量等于1,判断与该行相邻行的所述类型数量和所述实体数量是否等于1;
若是,根据所述实体类型和所述实体数据跨行建立关联关系,获取第二实体关系,若否,删除该行的所述实体类型和所述实体数据;
根据所述第一实体关系和第二实体关系,获取第二初始关系数据;
根据预设实体关系表对所述第二初始关系数据进行剔除处理,获取所述第二关系数据。
可选地,在第一方面的一种可能实现方式中,所述在所述预设实体关系模型输入查询实体后,获取初始查询结果,包括:
根据所述预设实体关系模型对所述查询实体进行多次查询处理,获取所述初始查询结果;
其中,在每次查询处理后,对重复的实体数据进行聚合处理。
可选地,在第一方面的一种可能实现方式中,在所述获取初始查询结果之后,还包括:
根据预设条件对所述初始查询结果进行筛选处理,获取最终查询结果;
显示所述最终查询结果。
可选地,在第一方面的一种可能实现方式中,所述根据预设条件对所述初始查询结果进行筛选处理,获取最终查询结果,包括:
根据所述初始查询结果中实体数据的关联度对所述初始查询结果进行筛选处理,获取所述最终查询结果。
可选地,在第一方面的一种可能实现方式中,在所述根据所述初始查询结果中实体数据的关联度对所述初始查询结果进行筛选处理,获取所述最终查询结果之前,还包括:
根据第一策略获取所述关联度,其中,所述第一策略如下:
Figure BDA0002536169580000031
式中,score代表关联度,depthWeight代表深度权重,widthWeight代表广度权重,intensityWeight代表边强度权重,fathNodeScore代表其父节点的关联度,δ代表每层衰减因子,size代表具有相同实体类型的实体数据的个数,intensity代表关联强度,maxIntensity代表本层搜索中具有相同实体类型的实体数据之间的最大关联强度。
本发明实施例的第二方面,提供一种基于领域实体提取和关联分析的信息溯源装置,包括:
数据模块,用于爬取网络中目标文件的流转数据作为原始数据;
模型模块,用于对所述原始数据进行实体抽取处理获取实体数据,对所述原始数据中的所述实体数据进行关系抽取处理获取关系数据,对所述实体数据和所述关系数据进行关联处理,获取预设实体关系模型;
查询模块,用于在所述预设实体关系模型输入查询实体后,获取初始查询结果。
本发明实施例的第三方面,提供一种基于领域实体提取和关联分析的信息溯源设备,包括:存储器、处理器以及计算机程序,所述计算机程序存储在所述存储器中,所述处理器运行所述计算机程序执行本发明第一方面及第一方面各种可能涉及的所述方法。
本发明实施例的第四方面,提供一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用于实现本发明第一方面及第一方面各种可能涉及的所述方法。
有益效果:
本发明提供的基于领域实体提取和关联分析的信息溯源方法及装置,通过爬取网络中目标文件的流转数据作为原始数据;对所述原始数据进行实体抽取处理获取实体数据,对所述原始数据中的所述实体数据进行关系抽取处理获取关系数据,对所述实体数据和所述关系数据进行关联处理,获取预设实体关系模型;在所述预设实体关系模型输入查询实体后,获取初始查询结果,实现较准确的定位到与泄密相关的员工信息。其中,预设实体关系模型是对平时收集到的原始数据进行一系列的处理得到的,其包含了抽取到的实体数据以及实体之间的关系数据,当输入要查询的实体后,会从预设实体关系模型中查询到相关信息,即初始查询结果,由于预设实体关系模型内包含了所有的原始数据,使得数据比较全面,且均提取了原始数据中有用信息,例如实体数据和关系数据,然后利用这些有用信息得到查询结果,可以较准确的定位到与泄密相关的员工信息。另外,初始查询结果里面可能包含有较多的实体,为了进一步的提高结果的准确性,本发明再利用一些条件对初始查询结果进行筛选处理,得到最终的查询结果,从而得到准确的实体数据和关系数据,进而较准确的定位到与泄密相关的员工信息。
附图说明
图1是本发明实施例提供的一种基于领域实体提取和关联分析的信息溯源方法的流程示意图;
图2是本发明实施例提供的实体与表头属性对应的示意图;
图3是本发明实施例提供的结构化告警信息样例的示意图;
图4是本发明实施例提供的对应图3中的结构化告警信息样例的实体数据的示意图;
图5是本发明实施例提供的对应图4中实体数据的关系数据示意图;
图6是本发明实施例提供的预设实体关系表的示意图;
图7是本发明实施例提供的非结构化告警信息样例的示意图;
图8是本发明实施例提供的对应图7中的非结构化告警信息样例的实体数据的示意图;
图9是本发明实施例提供的对应图8中实体数据的关系数据示意图;
图10是本发明实施例提供的一种查询结果示意图;
图11是本发明实施例提供的另一种查询结果示意图;
图12是本发明实施例提供的另一种查询结果示意图;
图13是本发明实施例提供的另一种查询结果示意图;
图14是本发明实施例提供的一种基于领域实体提取和关联分析的信息溯源装置的结构示意图;
图15是本发明实施例提供的一种基于领域实体提取和关联分析的信息溯源设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
应当理解,在本发明的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
应当理解,在本发明中,“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本发明中,“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含A、B和C”、“包含A、B、C”是指A、B、C三者都包含,“包含A、B或C”是指包含A、B、C三者之一,“包含A、B和/或C”是指包含A、B、C三者中任1个或任2个或3个。
取决于语境,如在此所使用的“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。
下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
参见图1,是本发明实施例提供的一种基于领域实体提取和关联分析的信息溯源方法的流程示意图,图1所示方法的执行主体可以是软件和/或硬件装置。本申请的执行主体可以包括但不限于以下中的至少一个:用户设备、网络设备等。其中,用户设备可以包括但不限于计算机、智能手机、个人数字助理(Personal Digital Assistant,简称:PDA)及上述提及的电子设备等。网络设备可以包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机组成的一个超级虚拟计算机。本实施例对此不做限制。包括步骤S101至步骤S105,具体如下:
S101,爬取网络中目标文件的流转数据作为原始数据。
具体地,原始数据是由爬取网络中目标文件的流转数据得到的,例如可以是一些泄密文件的告警数据。
S102,对所述原始数据进行实体抽取处理获取实体数据,对所述原始数据中的所述实体数据进行关系抽取处理获取关系数据,对所述实体数据和所述关系数据进行关联处理,获取预设实体关系模型。
具体地,预设实体关系模型是对所述原始数据进行实体抽取处理获取实体数据,对所述原始数据中的所述实体数据进行关系抽取处理获取关系数据,对所述实体数据和所述关系数据进行关联处理得到的,可以理解,先从原始数据中获取到实体数据和实体数据之间的关系数据,然后将两者关联建立,形成预设实体关系模型。其中包含了实体数据、关系数据等,在输入一个查询实体后,可以将与其相关的一系列数据输出,作为查询结果,即初始查询结果。
S103,在所述预设实体关系模型输入查询实体后,获取初始查询结果。
具体地,服务器在查询之前,需要先接收到需要查询的查询信息,其中的查询信息例如可以包括待查询的查询实体。
在实际应用中,查询信息可以是由原始数据得到的,例如,在用户得到一条告警信息后,想要查询与告警信息相关的员工信息时,可以先根据告警信息来得到查询信息。
示例性的,可以先获取到告警信息中的实体数据,将其作为查询实体进行后续的查询,例如,告警信息中的实体数据可以是“张三”,将“张三”作为查询实体进行后续的查询。
在预设实体关系模型输入查询实体后,会从预设实体关系模型中查询到相关信息,即初始查询结果,初始查询结果里面包含有较多的有用实体数据和关系数据。
S104,根据预设条件对所述初始查询结果进行筛选处理,获取最终查询结果。
具体地,初始查询结果里面可能包含有较多的实体,导致结果的准确性较低,因此,本实施例再利用一些条件对初始查询结果进行筛选处理,得到最终的查询结果,从而得到准确的实体数据和关系数据,进而较准确的定位到与泄密相关的员工信息。
S105,显示所述最终查询结果。
具体地,在得到最终的查询结果后,可以将最终的查询结果展示出来,以供用户来查看,形成证据等,进而进行后续的追责。
上述实施例提供的基于领域实体提取和关联分析的信息溯源方法,通过预设实体关系模型来得到查询结果,预设实体关系模型是对平时收集到的原始数据进行一系列的处理得到的,其包含了抽取到的实体数据以及实体之间的关系数据,当输入要查询的实体后,会从预设实体关系模型中查询到相关信息,即初始查询结果,由于预设实体关系模型内包含了所有的原始数据,使得数据比较全面,且均提取了原始数据中有用信息,利用实体数据和关系数据,然后利用这些有用信息得到查询结果,可以较准确的定位到与泄密相关的员工信息。另外,初始查询结果里面可能包含有较多的实体,为了进一步的提高结果的准确性,本发明再利用一些条件对初始查询结果进行筛选处理,得到最终的查询结果,从而得到准确的实体数据和关系数据,进而较准确的定位到与泄密相关的员工信息。
在上述实施例的基础上步骤S102(对所述原始数据进行实体抽取处理获取实体数据,对所述原始数据中的所述实体数据进行关系抽取处理获取关系数据,对所述实体数据和所述关系数据进行关联处理,获取预设实体关系模型)的具体实现方式可以是:
预设实体关系模型的建立可以分成实体数据抽取、关系数据抽取以及实体数据和关系数据之间的建立,具体如下:
实体数据抽取:
对原始数据进行命名实体识别处理,获取所述实体数据,其中,所述实体数据的实体类型包括IP、QQ、email、人名(nr)、身份证(idcard)、手机号码(phone)、座机号码(landline)、公司(company)和政府机构(gov)。
需要说明的是,本方案中只针对上述九类实体数据进行了展开说明,但不仅限于上述九类实体数据。
具体地,可以利用隐马尔可夫模型对原始数据中的命名实体进行识别,在此不再阐述。
关系数据抽取:
在实际应用中,原始数据包括结构化原始数据和非结构化原始数据。本实施例中将格式为excel的原始数据分为结构化数据,将其余格式为非excel的原始数据分为非结构化原始数据。其中,针对结构化原始数据和非结构化原始数据的关系数据抽取的过程不同,具体如下:
对所述结构化原始数据中的所述实体数据进行关系抽取处理,获取第一关系数据;对所述非结构化原始数据中的所述实体数据进行关系抽取处理,获取第二关系数据;根据所述第一关系数据和所述第二关系数据,获取所述关系数据。
针对结构化原始数据的关系抽取:
对所述结构化原始数据中的所述实体数据进行关系抽取处理,获取第一关系数据,包括:
b1、获取所述结构化原始数据中的有效表头。
具体地,有效表头即包含表中两个以上的表头属性的行,其中表头属性参见图2,是本发明实施例提供的实体与表头属性对应的示意图,下面具体展开说明:
参见图3,是本发明实施例提供的结构化原始数据样例的示意图,首先获取到结构化原始数据样例中的实体数据,结果参见图4,图4是对图3中的样例提取的实体数据的结果,然后利用步骤b1来获取到图4中的有效表头,即包含表中两个以上的表头属性的行,即图4中的第一行为有效表头。
b2、根据所述有效表头对每一行所述结构化原始数据中的所述实体数据进行一致性查询处理,获取有效实体数据。
具体地,在得到有效表头后,需要对每一行中的实体数据进行一致性查询,即查看实体数据的实体类型是否与有效表头一致,如果不一致进行剔除处理,如果一致则保留,最终得到有效的实体数据。
b3、获取所述结构化原始数据中每一行中任意两两所述有效实体数据之间的第一初始关系数据。
具体地,对每一行中得到有效的实体数据进行任意两两关联,得到第一初始关系数据,参见图5,即得到的第一初始关系数据。
b4、根据预设实体关系表对所述第一初始关系数据进行剔除处理,获取所述第一关系数据,其中,所述预设实体关系表包括两两所述实体数据之间的共联关系。
具体地,由于一些实体数据之间的无法进行关联,例如,人名与人名,IP与IP,因此,需要利用预设实体关系表对得到的第一初始关系数据进行剔除处理,即排除掉一些无法关联或者无需关联的关系,其中,预设实体关系表可以参见图6所示,图6中的1表示两个实体可建立关联关系,0表示两者之间不可建立关联关系。
示例性的,可以将第一初始关系数据中的关系5和关系6剔除,因为关系5和关系6是同类型实体关系。
针对非结构化原始数据的关系抽取:
所述对所述非结构化原始数据中的所述实体数据进行关系抽取处理,获取第二关系数据,包括:
b1、统计每行所述非结构化原始数据中的所述实体数据中包含实体类型和实体数据的个数,获取每行的类型数量和实体数量。
示例性的,非结构化原始数据是非excel的原始数据,例如,可以是邮件格式的,参见图7,是本发明实施例提供的非结构化原始数据样例的示意图。可以理解,在统计数量之前,需要先获取到实体数据,参见图8,是本发明实施例提供的实体数据的示意图。
经过b1,可以得到的结果是,一个类型数量和实体数量的行有4、7、8、9、10、11,两个类型数量和实体数量的行有2、3。
b2、若所述类型数量大于或等于2,获取该行所述实体类型对应的实体数据,根据所述实体类型和所述实体数据获取第一实体关系。
具体地,对于包含两个及其以上实体类型的行,依次获取每个实体类型及其对应的实体值,组成实体关系。
示例性的,参见图8和图9,包含有两个以上实体类型的行有2和3。对于行2,因为每个实体类型只含有一个实体值,所以可以建立关系11。对于行3,按照实体类型和实体值出现的顺序,建立关系12、关系13。
b3、若所述类型数量和所述实体数量等于1,判断与该行相邻行的所述类型数量和所述实体数量是否等于1。
若是,根据所述实体类型和所述实体数据跨行建立关联关系,获取第二实体关系,若否,删除该行的所述实体类型和所述实体数据。
具体地,对于只含有一个实体值和实体类型的行,若与它紧邻的行也是只含有一个实体数据和实体类型,则可以跨行建立实体关联关系;否则,不能建立实体关系,例如可以进行删除操作。
示例性的,包含一个实体值和实体类型的行有4、7、8、9、10、11。因为4的邻近行5和6都不是只含有一个实体值和一个实体类型的行,所以行4的实体丢弃。行7、8、9、10、11之间两两实体类型之间共形成10条关联关系,例如,图9中的关系1-关系10。
b4、根据所述第一实体关系和第二实体关系,获取第二初始关系数据。
可以理解,将上述的第一实体关系和第二实体关系进行组合,得到第二初始关系数据。
b5、根据预设实体关系表对所述第二初始关系数据进行剔除处理,获取所述第二关系数据。
具体地,由于一些实体数据之间的无法进行关联,例如,人名与人名,IP与IP,因此,需要利用预设实体关系表对得到的第一初始关系数据进行剔除处理,即排除掉一些无法关联或者无需关联的关系,其中,预设实体关系表可以参见图6所示,图6中的1表示两个实体可建立关联关系,0表示两者之间不可建立关联关系。
示例性的,可以将图9中的关系6丢弃,最终的结果作为第二关系数据。
在上述实施例的基础上步骤S103(根据预设条件对所述初始查询结果进行筛选处理,获取最终查询结果)的具体实现方式可以是:
所述根据预设实体关系模型对所述查询信息处理,获取初始查询结果,包括:
根据所述预设实体关系模型对所述查询信息进行多次查询处理,获取所述初始查询结果;
具体地,用户输入的查询实体,系统会在预设实体关系模型中查询与之直接关联的其他实体。在根据查询到多个关联实体,继续关联查询,得到二次关联的结果。这个步骤可以根据用户的需求,不断查询下去。其中,用户可以将查询深度设置为三度查询,即三次查询操作。
在一些实施例中,在每次查询处理后,对重复的实体数据进行聚合处理。可以理解,一度查询和二度查询的结果中很可能包含相同的实体,为了避免重复关联,系统在每一度查询之后会对重复的实体做聚合处理。
所述根据预设条件对所述初始查询结果进行筛选处理,获取最终查询结果,包括:
根据所述初始查询结果中实体数据的关联度对所述初始查询结果进行筛选处理,获取所述最终查询结果。
可以理解,经过多次查询,一般可以查询到很多的关联实体,本方案可以根据预设条件来筛选关联实体。
在一些实施例中,可以通过计算关联度,来对所述初始查询结果进行筛选处理,其中,关联度是多次相同关系的合计,相同的关系,出现次数越多,其关联度越强。
可以理解,通过关联度,来对初始查询结果进行筛选处理,可以是在查询到多个实体结果后,按照关联度来对实体进行排序,然后选择排序靠前的几个实体来作为最终的结果,例如可以选择排序靠前的6个实体数据作为最终的结果。
示例性的,如果查到与手机号码相关的实体有10个,那么按照算出的关联度进行强弱排序,然后选择关联度最强的前6个作为最终的结果即可。
关联度的计算具体如下:
在所述根据所述初始查询结果中实体数据的关联度对所述初始查询结果进行筛选处理,获取所述最终查询结果之前,还包括:
根据第一策略获取所述关联度,其中,所述第一策略如下:
Figure BDA0002536169580000121
式中,score代表关联度,depthWeight代表深度权重,widthWeight代表广度权重,intensityWeight代表边强度权重,fathNodeScore代表其父节点的关联度,δ代表每层衰减因子,本发明中的δ可以取值0.5,size代表具有相同实体类型的实体数据的个数,intensity代表关联强度,maxIntensity代表本层搜索中具有相同实体类型的实体数据之间的最大关联强度。
示例性的,以图10为例,查询实体nr1,最终呈现出来的结果是图11,出现了与nr1关联的ip1,图中的2代表与nr1关联的ip1出现了两次。
以图11为例,查询实体nr1,最终呈现出来的结果是图11,出现了与nr1关联的ip1和电话1,图中的2代表与nr1关联的ip1出现了两次,图中的50代表与nr1关联的电话1出现了50次,则电话的关联度是明显比ip1的高。根据第一策略可以理解,电话1的边强度权重是由图中的50和本层搜索中具有相同实体类型的实体数据之间的最大关联强度来决定的,同理,ip1的边强度权重是由图中的2和本层搜索中具有相同实体类型的实体数据之间的最大关联强度来决定的。
以图12为例对深度权重进行说明,查询实体nr1,最终呈现出来的结果是图12,第一层出现了与nr1关联的email1,第二层出现了与email1关联的ip1,可以理解,由于ip1与nr1之间相隔了一个email1,则其中的ip1与nr1的关联度没有图11中的ip1与nr1的关联度强。进一步的,其中的ip1的深度权重depthWeight是与其父节点的email1的关联度相关的,例如,email1的关联度为1,那么ip1的深度权重是由每层衰减因子δ和1计算出来的,例如可以是0.5。
以图13为例对广度权重进行说明,查询实体nr1,最终呈现出来的结果是图13,第一层出现了与nr1关联的ntc1和ntc2,表明在同一层上出现了两个同类型的实体,例如,可以是两家不同的公司名称,然后根据以上的第一策略分别计算出两家公司的广度权重即可。
参见图14,是本发明实施例提供的一种基于领域实体提取和关联分析的信息溯源装置的结构示意图,该基于领域实体提取和关联分析的信息溯源装置10,包括:
数据模块11,用于爬取网络中目标文件的流转数据作为原始数据;
模型模块12,用于对所述原始数据进行实体抽取处理获取实体数据,对所述原始数据中的所述实体数据进行关系抽取处理获取关系数据,对所述实体数据和所述关系数据进行关联处理,获取预设实体关系模型;
查询模块13,用于在所述预设实体关系模型输入查询实体后,获取初始查询结果。
图14所示实施例的装置对应地可用于执行图1所示方法实施例中的步骤,其实现原理和技术效果类似,此处不再赘述。
参见图15,是本发明实施例提供的一种基于领域实体提取和关联分析的信息溯源设备的硬件结构示意图,该基于领域实体提取和关联分析的信息溯源设备20包括:处理器21、存储器22和计算机程序;其中
存储器22,用于存储所述计算机程序,该存储器还可以是闪存(flash)。所述计算机程序例如是实现上述方法的应用程序、功能模块等。
处理器21,用于执行所述存储器存储的计算机程序,以实现上述方法中设备执行的各个步骤。具体可以参见前面方法实施例中的相关描述。
可选地,存储器22既可以是独立的,也可以跟处理器21集成在一起。
当所述存储器22是独立于处理器21之外的器件时,所述设备还可以包括:
总线23,用于连接所述存储器22和处理器21。
本发明还提供一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用于实现上述的各种实施方式提供的方法。
其中,可读存储介质可以是计算机存储介质,也可以是通信介质。通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。计算机存储介质可以是通用或专用计算机能够存取的任何可用介质。例如,可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(ApplicationSpecific Integrated Circuits,简称:ASIC)中。另外,该ASIC可以位于用户设备中。当然,处理器和可读存储介质也可以作为分立组件存在于通信设备中。可读存储介质可以是只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本发明还提供一种程序产品,该程序产品包括执行指令,该执行指令存储在可读存储介质中。设备的至少一个处理器可以从可读存储介质读取该执行指令,至少一个处理器执行该执行指令使得设备实施上述的各种实施方式提供的方法。
在上述设备的实施例中,应理解,处理器可以是中央处理单元(英文:CentralProcessing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:DigitalSignal Processor,简称:DSP)、专用集成电路(英文:Application Specific IntegratedCircuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种基于领域实体提取和关联分析的信息溯源方法,其特征在于,包括:
爬取网络中目标文件的流转数据作为原始数据;
对所述原始数据进行实体抽取处理获取实体数据,对所述原始数据中的所述实体数据进行关系抽取处理获取关系数据,对所述实体数据和所述关系数据进行关联处理,获取预设实体关系模型;
在所述预设实体关系模型输入查询实体后,获取初始查询结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述原始数据进行实体抽取处理获取实体数据,包括:
对所述原始数据进行命名实体识别处理,获取所述实体数据,其中,所述实体数据的实体类型包括IP、QQ、email、人名、身份证、手机号码、座机号码、公司和政府机构。
3.根据权利要求2所述的方法,其特征在于,所述原始数据包括结构化告警信息和非结构化告警信息;
所述对所述原始数据中的所述实体数据进行关系抽取处理获取关系数据,包括:
对所述结构化告警信息中的所述实体数据进行关系抽取处理,获取第一关系数据;
对所述非结构化告警信息中的所述实体数据进行关系抽取处理,获取第二关系数据;
根据所述第一关系数据和所述第二关系数据,获取所述关系数据。
4.根据权利要求3所述的方法,其特征在于,所述对所述结构化告警信息中的所述实体数据进行关系抽取处理,获取第一关系数据,包括:
获取所述结构化告警信息中的有效表头;
根据所述有效表头对每一行所述结构化告警信息中的所述实体数据进行一致性查询处理,获取有效实体数据;
获取所述结构化告警信息中每一行中任意两两所述有效实体数据之间的第一初始关系数据;
根据预设实体关系表对所述第一初始关系数据进行剔除处理,获取所述第一关系数据,其中,所述预设实体关系表包括两两所述实体数据之间的共联关系。
5.根据权利要求4所述的方法,其特征在于,所述对所述非结构化告警信息中的所述实体数据进行关系抽取处理,获取第二关系数据,包括:
统计每行所述非结构化告警信息中的所述实体数据中包含实体类型和实体数据的个数,获取每行的类型数量和实体数量;
若所述类型数量大于或等于2,获取该行所述实体类型对应的实体数据,根据所述实体类型和所述实体数据获取第一实体关系;
若所述类型数量和所述实体数量等于1,判断与该行相邻行的所述类型数量和所述实体数量是否等于1;
若是,根据所述实体类型和所述实体数据跨行建立关联关系,获取第二实体关系,若否,删除该行的所述实体类型和所述实体数据;
根据所述第一实体关系和第二实体关系,获取第二初始关系数据;
根据预设实体关系表对所述第二初始关系数据进行剔除处理,获取所述第二关系数据。
6.根据权利要求1所述的方法,其特征在于,所述在所述预设实体关系模型输入查询实体后,获取初始查询结果,包括:
根据所述预设实体关系模型对所述查询实体进行多次查询处理,获取所述初始查询结果;
其中,在每次查询处理后,对重复的实体数据进行聚合处理。
7.根据权利要求1所述的方法,其特征在于,在所述获取初始查询结果之后,还包括:
根据预设条件对所述初始查询结果进行筛选处理,获取最终查询结果;
显示所述最终查询结果。
8.根据权利要求7所述的方法,其特征在于,所述根据预设条件对所述初始查询结果进行筛选处理,获取最终查询结果,包括:
根据所述初始查询结果中实体数据的关联度对所述初始查询结果进行筛选处理,获取所述最终查询结果。
9.根据权利要求8所述的方法,其特征在于,在所述根据所述初始查询结果中实体数据的关联度对所述初始查询结果进行筛选处理,获取所述最终查询结果之前,还包括:
根据第一策略获取所述关联度,其中,所述第一策略如下:
Figure FDA0002536169570000031
式中,score代表关联度,depthWeight代表深度权重,widthWeight代表广度权重,intensityWeight代表边强度权重,fathNodeScore代表其父节点的关联度,δ代表每层衰减因子,size代表具有相同实体类型的实体数据的个数,intensity代表关联强度,maxIntensity代表本层搜索中具有相同实体类型的实体数据之间的最大关联强度。
10.一种基于领域实体提取和关联分析的信息溯源装置,其特征在于,包括:
数据模块,用于爬取网络中目标文件的流转数据作为原始数据;
模型模块,用于对所述原始数据进行实体抽取处理获取实体数据,对所述原始数据中的所述实体数据进行关系抽取处理获取关系数据,对所述实体数据和所述关系数据进行关联处理,获取预设实体关系模型;
查询模块,用于在所述预设实体关系模型输入查询实体后,获取初始查询结果。
CN202010533329.XA 2020-06-12 2020-06-12 基于领域实体提取和关联分析的信息溯源方法及装置 Active CN111737488B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010533329.XA CN111737488B (zh) 2020-06-12 2020-06-12 基于领域实体提取和关联分析的信息溯源方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010533329.XA CN111737488B (zh) 2020-06-12 2020-06-12 基于领域实体提取和关联分析的信息溯源方法及装置

Publications (2)

Publication Number Publication Date
CN111737488A true CN111737488A (zh) 2020-10-02
CN111737488B CN111737488B (zh) 2021-02-02

Family

ID=72648938

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010533329.XA Active CN111737488B (zh) 2020-06-12 2020-06-12 基于领域实体提取和关联分析的信息溯源方法及装置

Country Status (1)

Country Link
CN (1) CN111737488B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112699107A (zh) * 2020-12-25 2021-04-23 北京优奥创思科技发展有限公司 一种支持高度自定义的数据管理平台

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150095303A1 (en) * 2013-09-27 2015-04-02 Futurewei Technologies, Inc. Knowledge Graph Generator Enabled by Diagonal Search
US9116982B1 (en) * 2012-04-27 2015-08-25 Google Inc. Identifying interesting commonalities between entities
CN107783973A (zh) * 2016-08-24 2018-03-09 慧科讯业有限公司 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统
CN109299334A (zh) * 2018-08-31 2019-02-01 杭州振牛信息科技有限公司 一种知识图谱的数据处理方法及装置
CN109597855A (zh) * 2018-11-29 2019-04-09 北京邮电大学 基于大数据驱动的领域知识图谱构建方法及系统
CN110674360A (zh) * 2019-09-27 2020-01-10 厦门美亚亿安信息科技有限公司 一种用于数据关联图谱的构建和数据的溯源方法和系统
CN110750599A (zh) * 2019-09-20 2020-02-04 中国电子科技集团公司第二十八研究所 一种基于实体建模的关联信息抽取和显示方法
CN110866700A (zh) * 2019-11-19 2020-03-06 支付宝(杭州)信息技术有限公司 确定企业员工信息泄露源的方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9116982B1 (en) * 2012-04-27 2015-08-25 Google Inc. Identifying interesting commonalities between entities
US20150095303A1 (en) * 2013-09-27 2015-04-02 Futurewei Technologies, Inc. Knowledge Graph Generator Enabled by Diagonal Search
CN107783973A (zh) * 2016-08-24 2018-03-09 慧科讯业有限公司 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统
CN109299334A (zh) * 2018-08-31 2019-02-01 杭州振牛信息科技有限公司 一种知识图谱的数据处理方法及装置
CN109597855A (zh) * 2018-11-29 2019-04-09 北京邮电大学 基于大数据驱动的领域知识图谱构建方法及系统
CN110750599A (zh) * 2019-09-20 2020-02-04 中国电子科技集团公司第二十八研究所 一种基于实体建模的关联信息抽取和显示方法
CN110674360A (zh) * 2019-09-27 2020-01-10 厦门美亚亿安信息科技有限公司 一种用于数据关联图谱的构建和数据的溯源方法和系统
CN110866700A (zh) * 2019-11-19 2020-03-06 支付宝(杭州)信息技术有限公司 确定企业员工信息泄露源的方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112699107A (zh) * 2020-12-25 2021-04-23 北京优奥创思科技发展有限公司 一种支持高度自定义的数据管理平台

Also Published As

Publication number Publication date
CN111737488B (zh) 2021-02-02

Similar Documents

Publication Publication Date Title
US10725981B1 (en) Analyzing big data
CN107341220B (zh) 一种多源数据融合方法和装置
Liu et al. U-skyline: A new skyline query for uncertain databases
EP3418910A1 (en) Big data-based method and device for calculating relationship between development objects
CN109299334B (zh) 一种知识图谱的数据处理方法及装置
CN110415107B (zh) 数据处理方法、装置、存储介质及电子设备
CN108804459B (zh) 数据查询方法及装置
CN110457175B (zh) 业务数据处理方法、装置、电子设备及介质
JP2019194864A (ja) ソーシャルネットワークの検索結果提示方法及び装置、並びに記憶媒体
CN111159184A (zh) 元数据追溯方法、装置及服务器
CN106776609A (zh) 网站转载数量的统计方法及装置
CN111737488B (zh) 基于领域实体提取和关联分析的信息溯源方法及装置
CN110825817B (zh) 一种企业疑似关联关系判定方法及系统
CN110737650A (zh) 数据质量检测方法及装置
CN113849702A (zh) 一种确定目标数据的方法、装置、电子设备及存储介质
CN115080552A (zh) 数据质量评价方法、装置、设备和计算机可读存储介质
CN116644102A (zh) 投资对象的智能遴选方法、系统终端及计算机可读存储介质
CN114124484A (zh) 网络攻击识别方法、系统、装置、终端设备以及存储介质
CN112131215B (zh) 自底向上的数据库信息获取方法及装置
CN113742344A (zh) 电力系统数据的索引方法及装置
CN113778996A (zh) 一种大数据流数据处理方法、装置、电子设备及存储介质
CN109685094B (zh) 一种基于网络指纹的身份识别方法和装置
CN113312895A (zh) 自治系统as的组织机构映射方法、装置及电子设备
CN111414364A (zh) 用户信息生成方法、装置、电子设备
CN113723522B (zh) 异常用户的识别方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant