CN115757837A - 知识图谱的置信度评估方法、装置、电子设备及介质 - Google Patents

知识图谱的置信度评估方法、装置、电子设备及介质 Download PDF

Info

Publication number
CN115757837A
CN115757837A CN202310006961.2A CN202310006961A CN115757837A CN 115757837 A CN115757837 A CN 115757837A CN 202310006961 A CN202310006961 A CN 202310006961A CN 115757837 A CN115757837 A CN 115757837A
Authority
CN
China
Prior art keywords
entity
triples
graph
knowledge
confidence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310006961.2A
Other languages
English (en)
Other versions
CN115757837B (zh
Inventor
李璐
段荣成
吴琼
张畅
赵耀
秦瑶
方澄
孙璞
翟立东
吕志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Science And Technology Big Data Research Institute
MILITARY SECRECY QUALIFICATION CERTIFICATION CENTER
Original Assignee
China Science And Technology Big Data Research Institute
MILITARY SECRECY QUALIFICATION CERTIFICATION CENTER
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Science And Technology Big Data Research Institute, MILITARY SECRECY QUALIFICATION CERTIFICATION CENTER filed Critical China Science And Technology Big Data Research Institute
Priority to CN202310006961.2A priority Critical patent/CN115757837B/zh
Publication of CN115757837A publication Critical patent/CN115757837A/zh
Application granted granted Critical
Publication of CN115757837B publication Critical patent/CN115757837B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种知识图谱的置信度评估方法、装置、电子设备及计算机可读介质。该方法包括:提取待评价的知识图谱中的文本数据;提取所述文本数据中的多个命名实体;通过实体关系提取模型生成所述多个命名实体对应的多个实体三元组;将所述多个实体三元组和基准知识图谱的多个基准三元组进行比对;根据比对结果生成待评价的所述知识图谱的置信度评分。本申请涉及的知识图谱的置信度评估方法、装置、电子设备及计算机可读介质,能够对不同厂商或者公司的知识图谱进行公平客观的衡量,为其他研究者或者从业者,在后期进行数据融合时提供了便利和参考依据。

Description

知识图谱的置信度评估方法、装置、电子设备及介质
技术领域
本申请涉及计算机信息处理领域,具体而言,涉及一种知识图谱的置信度评估方法、装置、电子设备及计算机可读介质。
背景技术
随着社会的发展和科技的进步,大数据时代势不可挡的袭来。大数据时代具有两面性,它一方面可以为人们提供更高速、高效、便捷的网络服务,另一方面也衍生了大量的网络安全问题。基于此,我们必须明确这些问题,并采取科学有效的措施加以解决,以期促进信息技术的发展,最大程度的发挥大数据时代的积极影响。知识图谱作为一种实体和概念等知识的高效组织形式,能够充分发挥其知识整合的优势,将零散分布的多源异构数据通过专门设计的框架组织起来,为数据分析和知识挖掘提供支持。
目前,各行各业中的很多公司或者科研机构都建立了自己的知识图谱,数量丰富的知识图谱有利于后续的科研人员或者技术人员进行知识获取,但是,对于同一行业而言,并没有对知识图谱的衡量标准,这使得用户在选择知识图片时,存在着困难。
可例如,网络安全知识图谱作为领域知识图谱基本遵循了通用知识图谱构建的流程与框架。网络安全领域较为成熟,知识体系相对完备,可以采取自顶向下的构建模式。这种知识图谱构建模式首先须结合已有的设计网络安全知识图谱本体,将碎片化的知识通过一定的框架联系起来;然后信息抽取和融合技术则可以将实体和实体间的关系进行结合,通过实体间的关系来识别事件的发生。但是目前各个厂商发布的数据集没有统一的评价标准,数据的置信度没有具体的评估方法,所以各个数据集在相互融合的时候会出现不同的厂商对相同的实体给出不一样的定义,或者相近的描述,为后续的数据应用造成不便。
因此,需要一种新的知识图谱的置信度评估方法、装置、电子设备及计算机可读介质。
在所述背景技术部分公开的上述信息仅用于加强对本申请的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本申请提供一种知识图谱的置信度评估方法、装置、电子设备及计算机可读介质,能够对不同厂商或者公司的知识图谱进行公平客观的衡量,为其他研究者或者从业者,在后期进行数据融合时提供了便利和参考依据。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请的一方面,提出一种知识图谱的置信度评估方法,该方法包括:提取待评价的知识图谱中的文本数据;提取所述文本数据中的多个命名实体;通过实体关系提取模型生成所述多个命名实体对应的多个实体三元组;将所述多个实体三元组和基准知识图谱的多个基准三元组进行比对;根据比对结果生成待评价的所述知识图谱的置信度评分。
在本申请的一种示例性实施例中,还包括:将所述多个命名实体和基准知识图谱中的多个基准实体进行比对;根据比对结果生成待评价的所述知识图谱的实体置信度;基于所述实体置信度生成所述知识图谱的置信度评分。
在本申请的一种示例性实施例中,还包括:通过多个档案源的历史文本数据生成所述基准知识图谱;实时获取所述多个档案源的当前文本数据;通过所述当前文本数据更新所述基准知识图谱。
在本申请的一种示例性实施例中,提取所述文本数据中的多个命名实体,包括:将所述文本数据输入实体提取模型中,生成多个命名实体;和/或将所述文本数据和预设语言规则进行正则匹配,根据匹配结果生成多个命名实体;和/或将所述文本数据和基准知识图谱中的多个基准实体进行相似度比较,根据相似度比较结果生成多个命名实体。
在本申请的一种示例性实施例中,将所述文本数据输入实体提取模型中,生成多个命名实体,包括:获取多个数据源的历史文本数据;基于BIO标注法对所述历史文本数据进行标注,以生成训练样本;通过所述训练样本对BERT-BiLSTM-CRF模型进行训练生成所述实体提取模型。
在本申请的一种示例性实施例中,将所述文本数据和基准知识图谱中的多个基准实体进行相似度比较,根据相似度比较结果生成多个命名实体,包括:对所述文本数据进行分析处理,生成多个字符串;将所述多个字符串和基准知识图谱中的多个基准实体进行相似度比较;通过相似度比较结果大于阈值的字符串生成命名实体。
在本申请的一种示例性实施例中,通过实体关系提取模型生成所述多个命名实体对应的多个实体三元组,包括:通过R-BERT模型训练生成所述实体关系提取模型;将所述多个命名实体进行数据处理以生成多个预处理数据;将所述多个预处理数据输入所述实体关系提取模型中,生成多个实体三元组,所述实体三元组包括:主实体、联系、客实体。
在本申请的一种示例性实施例中,将所述多个实体三元组和基准知识图谱的多个基准三元组进行比对,包括:将实体三元组和基准知识图谱的多个基准三元组进行比对;和/或将实体三元组中的主实体和所述基准知识图谱的多个基准三元组进行比对;和/或将实体三元组中的客实体和所述基准知识图谱的多个基准三元组进行比对。
在本申请的一种示例性实施例中,据比对结果生成待评价的所述知识图谱的置信度评分,包括:设置多个实体三元组的初始评分;根据比对结果更新待评价的所述知识图谱中多个实体三元组的评分。
在本申请的一种示例性实施例中,将所述多个命名实体和基准知识图谱中的多个基准实体进行比对,包括:将通过实体提取模型得到的多个命名实体和和基准知识图谱中的多个基准实体进行比对;和/或将通过正则匹配得到的多个命名实体和和基准知识图谱中的多个基准实体进行比对;和/或将通过相似度比较得到的多个命名实体和和基准知识图谱中的多个基准实体进行比对。
在本申请的一种示例性实施例中,根据比对结果生成待评价的所述知识图谱的实体置信度,包括:设置多个命名实体的初始评分;根据不同的比对方式的比对结果更新所述多个命名实体的评分。
根据本申请的一方面,提出一种知识图谱的置信度评估装置,该装置包括:文本模块,用于提取待评价的知识图谱中的文本数据;实体模块,用于提取所述文本数据中的多个命名实体;提取模块,用于通过实体关系提取模型生成所述多个命名实体对应的多个实体三元组;比对模块,用于将所述多个实体三元组和基准知识图谱的多个基准三元组进行比对;评分模块,用于根据比对结果生成待评价的所述知识图谱的置信度评分。
根据本申请的一方面,提出一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上文的方法。
根据本申请的一方面,提出一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上文中的方法。
根据本申请的知识图谱的置信度评估方法、装置、电子设备及计算机可读介质,通过提取待评价的知识图谱中的文本数据;提取所述文本数据中的多个命名实体;通过实体关系提取模型生成所述多个命名实体对应的多个实体三元组;将所述多个实体三元组和基准知识图谱的多个基准三元组进行比对;根据比对结果生成待评价的所述知识图谱的置信度评分的方式,能够对不同厂商或者公司的知识图谱进行公平客观的衡量,为其他研究者或者从业者,在后期进行数据融合时提供了便利和参考依据。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。
附图说明
通过参照附图详细描述其示例实施例,本申请的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的一种知识图谱的置信度评估方法及装置的系统框图。
图2是根据一示例性实施例示出的一种知识图谱的置信度评估方法的流程图。
图3是根据另一示例性实施例示出的一种知识图谱的置信度评估方法的流程图。
图4是根据另一示例性实施例示出的一种知识图谱的置信度评估方法的流程图。
图5是根据另一示例性实施例示出的一种知识图谱的置信度评估方法的示意图。
图6是根据一示例性实施例示出的一种知识图谱的置信度评估装置的框图。
图7是根据一示例性实施例示出的一种电子设备的框图。
图8是根据一示例性实施例示出的一种计算机可读介质的框图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本申请将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应理解,虽然本文中可能使用术语第一、第二、第三等来描述各种组件,但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此,下文论述的第一组件可称为第二组件而不偏离本申请概念的教示。如本文中所使用,术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。
本领域技术人员可以理解,附图只是示例实施例的示意图,附图中的模块或流程并不一定是实施本申请所必须的,因此不能用于限制本申请的保护范围。
图1是根据一示例性实施例示出的一种知识图谱的置信度评估方法、装置的系统框图。
如图1所示,系统架构10可以包括终端设备101、102、103,网络104和服务器105、档案源106、107、108。网络104用以在终端设备101、102、103和服务器105之间;服务器105和数据源106、107、108之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户可将知识图谱查询请求发送到服务器105中,服务器105给出该知识图谱的置信度评估分数。
服务器105可例如提取待评价的知识图谱中的文本数据;服务器105可例如提取所述文本数据中的多个命名实体;服务器105可例如通过实体关系提取模型生成所述多个命名实体对应的多个实体三元组;服务器105可例如将所述多个实体三元组和基准知识图谱的多个基准三元组进行比对;服务器105可例如根据比对结果生成待评价的所述知识图谱的置信度评分。
服务器105还可例如将所述多个命名实体和基准知识图谱中的多个基准实体进行比对;服务器105还可例如根据比对结果生成待评价的所述知识图谱的实体置信度;服务器105还可例如基于所述实体置信度生成所述知识图谱的置信度评分。
服务器105可以是一个实体的服务器,还可例如为多个服务器组成,需要说明的是,本申请实施例所提供的知识图谱的置信度评估方法可以由服务器105执行,相应地,知识图谱的置信度评估装置可以设置于服务器105中。
在一个实施例中,还包括:通过多个档案源的历史文本数据生成所述基准知识图谱;实时获取所述多个档案源的当前文本数据;通过所述当前文本数据更新所述基准知识图谱。
STIX是由MITRE公司 (The MITRE Corporation) 所定义与开发出用来快速能达到表示事件相关性与涵盖性之语言,以表达出架构性的网络威胁信息。STIX 语言将包含威胁信息的全部范围,并尽可能地达到完整表示、弹性化、可延展性、自动化与可解读性等特性。它是一种语言,目的是为规范网络威胁信息存储及应用的数据框架,包括威胁情报采集、特性和交流。本申请基于STI处理档案文件的数据。
ATT&CK框架是由MITRE公司开发的威胁情报框架,其数据格式也是基于STIX格式。ATT&CK的一个很常见的用法就是分析各个APT家族的行为特征。不同的黑客团伙肯定是擅长不同的技术栈,有不同的入侵理解,那么他们的行为也会有一定的特征,使用ATT&CK总结出各个APT组织的战术、技术、入侵策略,可以很好的帮助防守方进行决策,更好抵御入侵。目前共有三类模型:ATT&CK for Enterprise、ATT&CK for Mobile和ATT&CK for ICS。ATT&CK for Enterprise包含适用于Windows、Linux、MacOS、云平台等技术和战术部分。ATT&CKfor Mobile包含适用于移动设备的战术和技术。ATT&CK for ICS包含适用于工控设备的战术和技术。本申请对ATT&CK框架中的数据进行整理,共提取得到攻击软件659个,攻击组织147,攻击技术907种,应对措施331种
除此之外,本申请还对Threat Group Cards: A Threat Actor Encyclopedia的数据进行整理。文档主要目的是整理全球所有威胁组织的完整档案,这些威胁组织已被反病毒和安全研究组织多年来慷慨共享的所有研究确定,它可以用作“威胁组卡片”,将所有内容集中在每个威胁组的详细配置文件中。目前已有的数据有276个组织,其中78个组织与ATT&CK数据中的威胁组织相同。
对不同的威胁实体类型,构建对应的图谱关系。如果实体类型是攻击方式,则会从已有的数据中,整理出相关联的子攻击方式、有哪些恶意软件或攻击工具使用过,对应的解决措施有哪些;如果实体类型是恶意软件或攻击工具,则会提取数据中该实体曾经使用过的攻击方式,有哪些威胁组织使用过该实体,与其相关的恶意软件有哪些;如果实体类型是漏洞,则会将有关的恶意软件、攻击工具、资产,曾被哪些攻击方式和威胁组织攻击过,以及与该漏洞相关的IP地址、域名、Hash文件,URL地址;如果实体类型是威胁组织,则会抽取出与其有关的威胁组织以及他们之间的关系描述,曾经使用过哪些恶意软件、攻击方式、攻击工具,攻击过的哪些漏洞、行业、国家、地区。
图2是根据一示例性实施例示出的一种知识图谱的置信度评估方法的流程图。知识图谱的置信度评估方法20至少包括步骤S202至S208。
如图2所示,在S202中,提取待评价的知识图谱中的文本数据。在本申请中,将以网络安全评估情报知识图谱为例进行技术说明,可理解的是,本申请的技术还可应用在其他知识图谱的评估中。
对不同的威胁实体类型,构建对应的图谱关系。这样就可以将已有的数据转化为威胁情报相关的知识图谱,由于这些数据都是不同的披露厂商报道的,所以数据具有一定的有效性,固给初始建立的知识图谱库中,所有的实体以及现存的三元组的初始置信度为0.6(置信度最大为1,最小为0)。
在S204中,提取所述文本数据中的多个命名实体。可将所述文本数据输入实体提取模型中,生成多个命名实体;可将所述文本数据和预设语言规则进行正则匹配,根据匹配结果生成多个命名实体;可将所述文本数据和基准知识图谱中的多个基准实体进行相似度比较,根据相似度比较结果生成多个命名实体。
“提取所述文本数据中的多个命名实体。可将所述文本数据输入实体提取模型中,生成多个命名实体”的详细内容将在图4对应的实施例中进行描述。
在S206中,通过实体关系提取模型生成所述多个命名实体对应的多个实体三元组。可通过R-BERT模型训练生成所述实体关系提取模型;将所述多个命名实体进行数据处理以生成多个预处理数据;将所述多个预处理数据输入所述实体关系提取模型中,生成多个实体三元组,所述实体三元组包括:主实体、联系、客实体。
在一个实施例中可基于R-BERT模型进行生成实体关系抽取模型,在文本输入模型之前需要进行一些数据预处理工作,以满足模型的输入。实体关系抽取模型使用了BERT句首的特殊符号[CLS],[CLS]经过BERT处理后的词向量常被用于文本分类等下游任务。此外,在每个实体的两侧,也相应的插入特殊符号,第一个实体两侧的特殊符号是“$”,第二个实体两侧是“#”。例如,原本的语料内容为:
The kitchen is the last renovated part of the house.
文本处理完毕后的效果如下:
[CLS] The $ kitchen $ is the last renovated part of the # house # .
在一个实施例中,可将文本数据按照上述的数据预处理方法进行处理,然后输入BERT模型中,获得每个词的词向量。然后将从BERT模型得到的向量输入全连接层,进行通过tanh激活函数进行激活。最后将[CLS]、Entity 1、Entity 2的向量进行拼接,得到一个大小为(batch_size,3*hidden_state)的矩阵,将这个矩阵通过一个全连接层后接一个Softmax,输出抽取得到的实体之间的三元组。
在S208中,将所述多个实体三元组和基准知识图谱的多个基准三元组进行比对。可将实体三元组和基准知识图谱的多个基准三元组进行比对;可将实体三元组中的主实体和所述基准知识图谱的多个基准三元组进行比对;可将实体三元组中的客实体和所述基准知识图谱的多个基准三元组进行比对。
“将所述多个实体三元组和基准知识图谱的多个基准三元组进行比对”的详细内容将在图3对应的实施例中进行描述。
在S210中,根据比对结果生成待评价的所述知识图谱的置信度评分。可设置多个实体三元组的初始评分;根据比对结果更新待评价的所述知识图谱中多个实体三元组的评分。
根据本申请的知识图谱的置信度评估方法,通过提取待评价的知识图谱中的文本数据;提取所述文本数据中的多个命名实体;通过实体关系提取模型生成所述多个命名实体对应的多个实体三元组;将所述多个实体三元组和基准知识图谱的多个基准三元组进行比对;根据比对结果生成待评价的所述知识图谱的置信度评分的方式,能够对不同厂商或者公司的知识图谱进行公平客观的衡量,为其他研究者或者从业者,在后期进行数据融合时提供了便利和参考依据。
应清楚地理解,本申请描述了如何形成和使用特定示例,但本申请的原理不限于这些示例的任何细节。相反,基于本申请公开的内容的教导,这些原理能够应用于许多其它实施例。
图3是根据另一示例性实施例示出的一种知识图谱的置信度评估方法的流程图。图3所示的流程30是对图2所示的流程中S102“”的详细描述。
如图3所示,在S302中,逐一比较待评价的知识图谱中的三元组。
在S304中,是否存在于基准知识图谱的基准三元组中。
在S306中,存在于则该三元组的置信度增加1/N。
在S308中,否则判断主实体是否存在于基准知识图谱中。
在S310中,存在于则该三元组的置信度设置为0.5。
在S312中,否则判断客实体是否存在于基准知识图谱中。
在S314中,存在于则该三元组的置信度设置为0.5。
在S316中,否则该三元组的置信度设置为0.4。
假设原有图谱库中的三元组初始置信度均为0.6,则可以按照图3所示的规则对抽取得到的三元组置信度进行计算。根据R-BERT模型抽取得到的网络安全领域的三元组与初步构建的图谱库中的三元组进行对比,如果在已建图谱库中则在初始权重的基础上加上1/N(N表示在进行判断时图谱库中已有的三元组数量),如果不在图谱库中则对三元组中的主实体(subject)与客实体(object)是否在图谱库中是否存在进行判断,如果subject或object仅有一项在已建图谱库中,则三元组的初始置信度赋值为0.5,如果object、subject均未出现在已建图谱库中,则三元组的置信度赋值为0.4。
可根据大量文本的三元组关系抽取,可以不断地提升图谱库中已有的三元组的置信度。
图4是根据另一示例性实施例示出的一种知识图谱的置信度评估方法的流程图。图4所示的流程40是对图2所示的流程中S102“”的详细描述。还可设置多个命名实体的初始评分;根据不同的比对方式的比对结果更新所述多个命名实体的评分。
如图4所示,在S402中,通过实体提取模型得到多个命名实体。
在一个实施例中,可获取多个数据源的历史文本数据;基于BIO标注法对所述历史文本数据进行标注,以生成训练样本;通过所述训练样本对BERT-BiLSTM-CRF模型进行训练生成所述实体提取模型。
命名实体识别(Named Entity Recognition,NER)是指识别文本中实体的边界和类别。NER是文本处理中的基础技术,广泛应用在自然语言处理、推荐系统、知识图谱等领域。目前NER任务方面常用的方法是基于深度学习与Attention的方法,本申请实施例中,命名实体识别模块可使用基于Attention方法的BERT- BiLSTM-CRF模型。
在进行模型训练前,首先要对数据想要识别的实体类型的数据进行标注,本申请中用来训练的数据源主要有786个网站,通过爬虫进行源数据的获取,爬取的部分网站可包括:Feed,360博客,国家安全漏洞库,CVE,腾讯安全实验室,DAS恶意软件,VirusTotal,Vmware,Group-ib,Threatpost。
对数据的标注采用BIO标注法,具体的标注做法就是将每个元素标注为“B-X”、“I-X”或者“O”。其中,“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头,“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示不属于任何类型。比如,我们将 X定义为:“CIT”表示城市、“CNT”表示国家两种,则BIO的三个标记为:
(1)B-CIT:城市短语的开头;
(2)I-CIT:城市短语的中间;
(3)O:不是城市短语;
一共标注的数据量约15万条,对数据进行随机划分,70%的数据作为训练数据集,20%的数据作为验证数据集,10%的数据作为验证数据集。
在实际应用中,首先,将文本数据输入BERT模型中,获得每个词的词向量,具体地,通过BERT模型中的Encoder层对网络安全领域文本进行编码学习,得到网络安全相关术语在其领域的多层次特征表示,相比于word2vec的词向量表示,利用BERT模型进行词向量识别提升了实体的表达能力,更进一步地,将生成的词向量输入到Bi L ST M模型中学习文本中词语的深层结构化特征,其中,BiLSTM模型由前向LSTM(Forward LSTM)模型和后向LSTM(Backward LSTM)模型组合而成,最后,在BiLSTM模型后加上一层CRF模型,使用CRF条件随机场约束来保证预测结果的有效性,输出识别出的实体。
在S404中,通过正则匹配得到多个命名实体。在网络安全领域、威胁情报领域的专业术语实体,部分实体在语言上存在一定的规则性,固可以预先设定一些语言规则,根据预设正则表达式从所述文本数据中识别相匹配的实体。主要包括的实体有以下几种:邮箱地址、URL、MD5 、IP地址、域名、CVE漏洞编号(ID)、CNVD漏洞编号(ID)等。
在S406中,通过相似度比较得到多个命名实体。对所述文本数据进行分析处理,生成多个字符串;将所述多个字符串和基准知识图谱中的多个基准实体进行相似度比较;通过相似度比较结果大于阈值的字符串生成命名实体。
在一个实施例中,可首先对输入的文本进行句子分割,然后对每句话进行分词,最后对分词得到的结果与构建的基础库中已有的实体名称进行余弦相似度比较,设定阈值为0.75,当相似度大于该阈值时则判定该词语是一个网络安全相关的实体名称,并将该词语新增到对应实体类型的图谱库中。
例如:在某句话中出现“木马病毒”,但是在命名实体识别模块并没有将其识别到,在进行语义余弦相似度计算时与“木马”的相似度为0.9,与之前设定的阈值0.75相比,大于阈值,所以可以认定“木马病毒”是一个网络安全相关的实体,并且属于一种攻击方式(因为“木马”的分类是一种攻击方式),并将“木马病毒”新增到攻击方式知识图谱库中。
在S408中,不同方式提取到的命名实体均和基准知识图谱中的多个基准实体进行比对。可设置,原有图谱库中的实体初始置信度均为0.6,
在S410中,匹配成功则该命名实体的置信度增加1/N。
在S412中,匹配不成功则将通过实体提取模型得到的多个命名实体的置信度设置为0.6。
在S414中,匹配不成功则将通过正则匹配得到的多个命名实体的置信度设置为0.3。
在S416中,匹配不成功则将通过相似度比较得到的多个命名实体的执行度根据相似度设置。
根据命名实体识别、基于文本分词后的语义相似度计算、基于正则化匹配从文本语料中得到的网络安全实体与初步构建的图谱库中的实体进行对比,如果在已建图谱库中则在初始权重的基础上加上1/N(N表示在进行判断时图谱库中已有的实体数量),如果不在图谱库中则对实体的来源进行判断,如果是由正则化匹配得到的实体,则实体的初始置信度赋值为0.6,如果是由命名实体识别得到的实体,则实体的初始置信度为0.3,如果是由相似度计算得到的实体,则根据实体与库中已有实体的相似度进行置信度给出,相似度在0.6-0.7之间的初始置信度为0.3,0.7-0.8之间的初始置信度0.4,0.8-0.9之间的初始置信度0.5,初始0.9-1之间的置信度为0.6。
因为同一个实体可能出现在不同的文章中,所以通过循环不断的实体抽取过程,可以不断地提升图谱库中已有的实体的置信度。
图5是根据本申请中知识图谱的置信度评估方法的示意图。如图5所述,通过通过对大量的文本数据进行命名实体抽取、语义相似度匹配、正则化匹配得到文本语料中所包含的命名实体,进而根据抽取得到的命名实体对文本进行二次数据处理,再进行关系实体抽取,最终得到网络安全知识图谱库。根据抽取得到的三元组与构建的基础网络安全图谱库中的三元组进行比对分析,计算得到三元组数据的最终置信度。
本申请在基础图谱库的基础上,不断的从威胁情报文章的提取网络安全有关的实体以及三元组来丰富图谱库,并对提取得到的实体以及三元组的置信度进行评估。如图5所示,本申请对威胁情报的实体数据提取的途径主要有三种:(1)命名实体识别(2)正则匹配提取(3)语义相似度,对于威胁情报的三元组的来源途径主要是基于R-Bert深度学习模型进行抽取。
本发明的提出有助于统一各个厂商或者网络安全威胁情报收集机构之间的数据,对各个数据集有一个相对公平的衡量标准,为其他网络安全研究者或者从业者,在后期进行数据融合时提供了便利。
本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU 执行的计算机程序。在该计算机程序被CPU 执行时,执行本申请提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。
此外,需要注意的是,上述附图仅是根据本申请示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图6是根据一示例性实施例示出的一种知识图谱的置信度评估装置的框图。如图6所示,知识图谱的置信度评估装置60包括:文本模块602,实体模块604,提取模块606,比对模块608,评分模块610。
文本模块602用于提取待评价的知识图谱中的文本数据;
实体模块604用于提取所述文本数据中的多个命名实体;
提取模块606用于通过实体关系提取模型生成所述多个命名实体对应的多个实体三元组;
比对模块608用于将所述多个实体三元组和基准知识图谱的多个基准三元组进行比对;
评分模块610用于根据比对结果生成待评价的所述知识图谱的置信度评分。
根据本申请的知识图谱的置信度评估装置,通过提取待评价的知识图谱中的文本数据;提取所述文本数据中的多个命名实体;通过实体关系提取模型生成所述多个命名实体对应的多个实体三元组;将所述多个实体三元组和基准知识图谱的多个基准三元组进行比对;根据比对结果生成待评价的所述知识图谱的置信度评分的方式,能够对不同厂商或者公司的知识图谱进行公平客观的衡量,为其他研究者或者从业者,在后期进行数据融合时提供了便利和参考依据。
图7是根据一示例性实施例示出的一种电子设备的框图。
下面参照图7来描述根据本申请的这种实施方式的电子设备700。图7显示的电子设备700仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于:至少一个处理单元710、至少一个存储单元720、连接不同系统组件(包括存储单元720和处理单元710)的总线730、显示单元740等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元710执行,使得所述处理单元710执行本说明书中描述的根据本申请各种示例性实施方式的步骤。例如,所述处理单元710可以执行如图2,图3,图4中所示的步骤。
所述存储单元720可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)7201和/或高速缓存存储单元7202,还可以进一步包括只读存储单元(ROM)7203。
所述存储单元720还可以包括具有一组(至少一个)程序模块7205的程序/实用工具7204,这样的程序模块7205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线730可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备700也可以与一个或多个外部设备700’(例如键盘、指向设备、蓝牙设备等)通信,使得用户能与该电子设备700交互的设备通信,和/或该电子设备700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口750进行。并且,电子设备700还可以通过网络适配器760与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器760可以通过总线730与电子设备700的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备700使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,如图8所示,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本申请实施方式的上述方法。
所述软件产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该计算机可读介质实现如下功能:提取待评价的知识图谱中的文本数据;提取所述文本数据中的多个命名实体;通过实体关系提取模型生成所述多个命名实体对应的多个实体三元组;将所述多个实体三元组和基准知识图谱的多个基准三元组进行比对;根据比对结果生成待评价的所述知识图谱的置信度评分。
本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中,也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本申请实施例的方法。
以上具体地示出和描述了本申请的示例性实施例。应可理解的是,本申请不限于这里描述的详细结构、设置方式或实现方法;相反,本申请意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims (14)

1.一种知识图谱的置信度评估方法,其特征在于,包括:
提取待评价的知识图谱中的文本数据;
提取所述文本数据中的多个命名实体;
通过实体关系提取模型生成所述多个命名实体对应的多个实体三元组;
将所述多个实体三元组和基准知识图谱的多个基准三元组进行比对;
根据比对结果生成待评价的所述知识图谱的置信度评分。
2.如权利要求1所述的置信度评估方法,其特征在于,还包括:
将所述多个命名实体和基准知识图谱中的多个基准实体进行比对;
根据比对结果生成待评价的所述知识图谱的实体置信度;
基于所述实体置信度生成所述知识图谱的置信度评分。
3.如权利要求2所述的置信度评估方法,其特征在于,还包括:
通过多个档案源的历史文本数据生成所述基准知识图谱;
实时获取所述多个档案源的当前文本数据;
通过所述当前文本数据更新所述基准知识图谱。
4.如权利要求1所述的置信度评估方法,其特征在于,提取所述文本数据中的多个命名实体,包括:
将所述文本数据输入实体提取模型中,生成多个命名实体;和/或
将所述文本数据和预设语言规则进行正则匹配,根据匹配结果生成多个命名实体;和/或
将所述文本数据和基准知识图谱中的多个基准实体进行相似度比较,根据相似度比较结果生成多个命名实体。
5.如权利要求4所述的置信度评估方法,其特征在于,将所述文本数据输入实体提取模型中,生成多个命名实体,包括:
获取多个数据源的历史文本数据;
基于BIO标注法对所述历史文本数据进行标注,以生成训练样本;
通过所述训练样本对BERT-BiLSTM-CRF模型进行训练生成所述实体提取模型。
6.如权利要求4所述的置信度评估方法,其特征在于,将所述文本数据和基准知识图谱中的多个基准实体进行相似度比较,根据相似度比较结果生成多个命名实体,包括:
对所述文本数据进行分析处理,生成多个字符串;
将所述多个字符串和基准知识图谱中的多个基准实体进行相似度比较;
通过相似度比较结果大于阈值的字符串生成命名实体。
7.如权利要求1所述的置信度评估方法,其特征在于,通过实体关系提取模型生成所述多个命名实体对应的多个实体三元组,包括:
通过R-BERT模型训练生成所述实体关系提取模型;
将所述多个命名实体进行数据处理以生成多个预处理数据;
将所述多个预处理数据输入所述实体关系提取模型中,生成多个实体三元组,所述实体三元组包括:主实体、联系、客实体。
8.如权利要求1所述的置信度评估方法,其特征在于,将所述多个实体三元组和基准知识图谱的多个基准三元组进行比对,包括:
将实体三元组和基准知识图谱的多个基准三元组进行比对;和/或
将实体三元组中的主实体和所述基准知识图谱的多个基准三元组进行比对;和/或
将实体三元组中的客实体和所述基准知识图谱的多个基准三元组进行比对。
9.如权利要求1所述的置信度评估方法,其特征在于,据比对结果生成待评价的所述知识图谱的置信度评分,包括:
设置多个实体三元组的初始评分;
根据比对结果更新待评价的所述知识图谱中多个实体三元组的评分。
10.如权利要求4所述的置信度评估方法,其特征在于,将所述多个命名实体和基准知识图谱中的多个基准实体进行比对,包括:
将通过实体提取模型得到的多个命名实体和基准知识图谱中的多个基准实体进行比对;和/或
将通过正则匹配得到的多个命名实体和基准知识图谱中的多个基准实体进行比对;和/或
将通过相似度比较得到的多个命名实体和基准知识图谱中的多个基准实体进行比对。
11.如权利要求10所述的置信度评估方法,其特征在于,根据比对结果生成待评价的所述知识图谱的实体置信度,包括:
设置多个命名实体的初始评分;
根据不同的比对方式的比对结果更新所述多个命名实体的评分。
12.一种知识图谱的置信度评估装置,其特征在于,包括:
文本模块,用于提取待评价的知识图谱中的文本数据;
实体模块,用于提取所述文本数据中的多个命名实体;
提取模块,用于通过实体关系提取模型生成所述多个命名实体对应的多个实体三元组;
比对模块,用于将所述多个实体三元组和基准知识图谱的多个基准三元组进行比对;
评分模块,用于根据比对结果生成待评价的所述知识图谱的置信度评分。
13.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至11中任一所述的方法。
14.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至11中任一所述的方法。
CN202310006961.2A 2023-01-04 2023-01-04 知识图谱的置信度评估方法、装置、电子设备及介质 Active CN115757837B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310006961.2A CN115757837B (zh) 2023-01-04 2023-01-04 知识图谱的置信度评估方法、装置、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310006961.2A CN115757837B (zh) 2023-01-04 2023-01-04 知识图谱的置信度评估方法、装置、电子设备及介质

Publications (2)

Publication Number Publication Date
CN115757837A true CN115757837A (zh) 2023-03-07
CN115757837B CN115757837B (zh) 2023-04-28

Family

ID=85348465

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310006961.2A Active CN115757837B (zh) 2023-01-04 2023-01-04 知识图谱的置信度评估方法、装置、电子设备及介质

Country Status (1)

Country Link
CN (1) CN115757837B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180053099A1 (en) * 2016-08-16 2018-02-22 International Business Machines Corporation Automatic evaluation of a knowledge canvassing application
CN111274407A (zh) * 2020-01-15 2020-06-12 北京百度网讯科技有限公司 知识图谱中三元组置信度计算方法和装置
CN111737496A (zh) * 2020-06-29 2020-10-02 东北电力大学 一种电力设备故障知识图谱构建方法
CN112836064A (zh) * 2021-02-24 2021-05-25 吉林大学 知识图谱补全方法、装置、存储介质及电子设备
CN113032582A (zh) * 2021-04-20 2021-06-25 杭州叙简科技股份有限公司 一种基于知识图谱建立实体统一模型及实体统一方法
CN114580639A (zh) * 2022-02-23 2022-06-03 中南民族大学 一种基于政务三元组自动抽取对齐的知识图谱构建的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180053099A1 (en) * 2016-08-16 2018-02-22 International Business Machines Corporation Automatic evaluation of a knowledge canvassing application
CN111274407A (zh) * 2020-01-15 2020-06-12 北京百度网讯科技有限公司 知识图谱中三元组置信度计算方法和装置
CN111737496A (zh) * 2020-06-29 2020-10-02 东北电力大学 一种电力设备故障知识图谱构建方法
CN112836064A (zh) * 2021-02-24 2021-05-25 吉林大学 知识图谱补全方法、装置、存储介质及电子设备
CN113032582A (zh) * 2021-04-20 2021-06-25 杭州叙简科技股份有限公司 一种基于知识图谱建立实体统一模型及实体统一方法
CN114580639A (zh) * 2022-02-23 2022-06-03 中南民族大学 一种基于政务三元组自动抽取对齐的知识图谱构建的方法

Also Published As

Publication number Publication date
CN115757837B (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
US11481492B2 (en) Method and system for static behavior-predictive malware detection
Popat Assessing the credibility of claims on the web
Layton et al. Automated unsupervised authorship analysis using evidence accumulation clustering
Peng et al. Astroturfing detection in social media: a binary n‐gram–based approach
Boididou et al. Learning to detect misleading content on twitter
CN112686036B (zh) 风险文本识别方法、装置、计算机设备及存储介质
Fan et al. Ctdroid: leveraging a corpus of technical blogs for android malware analysis
CN111181922A (zh) 一种钓鱼链接检测方法及系统
CN115292520B (zh) 一种面向多源移动应用知识图谱构建方法
Vanamala et al. Topic modeling and classification of Common Vulnerabilities And Exposures database
CN113609261A (zh) 基于网络信息安全的知识图谱的漏洞信息挖掘方法和装置
CN113726784A (zh) 一种网络数据的安全监控方法、装置、设备及存储介质
CN111931935A (zh) 基于One-shot学习的网络安全知识抽取方法和装置
Guo et al. CyberRel: Joint entity and relation extraction for cybersecurity concepts
Ullah et al. Programmers' de-anonymization using a hybrid approach of abstract syntax tree and deep learning
CN114398477A (zh) 基于知识图谱的政策推荐方法及其相关设备
Alterkavı et al. Novel authorship verification model for social media accounts compromised by a human
CN112925914B (zh) 数据安全分级方法、系统、设备及存储介质
Du et al. ExpSeeker: Extract public exploit code information from social media
Jiang Detecting scams using large language models
CN115757837B (zh) 知识图谱的置信度评估方法、装置、电子设备及介质
CN115859273A (zh) 一种数据库异常访问的检测方法、装置、设备及存储介质
CN113051900B (zh) 同义词识别方法、装置、计算机设备及存储介质
Gutierrez et al. Contextminer: Mining contextual features for conceptualizing knowledge in security texts
Sun et al. Identify vulnerability fix commits automatically using hierarchical attention network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant