CN111428054B - 一种网络空间安全领域知识图谱的构建与存储方法 - Google Patents

一种网络空间安全领域知识图谱的构建与存储方法 Download PDF

Info

Publication number
CN111428054B
CN111428054B CN202010290298.XA CN202010290298A CN111428054B CN 111428054 B CN111428054 B CN 111428054B CN 202010290298 A CN202010290298 A CN 202010290298A CN 111428054 B CN111428054 B CN 111428054B
Authority
CN
China
Prior art keywords
entity
knowledge
data
layer
knowledge graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010290298.XA
Other languages
English (en)
Other versions
CN111428054A (zh
Inventor
周玉金
孙治
刘正军
张志勇
李春林
陈剑锋
徐锐
饶志宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Electronic Technology Cyber Security Co Ltd
Original Assignee
China Electronic Technology Cyber Security Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Electronic Technology Cyber Security Co Ltd filed Critical China Electronic Technology Cyber Security Co Ltd
Priority to CN202010290298.XA priority Critical patent/CN111428054B/zh
Publication of CN111428054A publication Critical patent/CN111428054A/zh
Application granted granted Critical
Publication of CN111428054B publication Critical patent/CN111428054B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种网络空间安全领域知识图谱的构建与存储方法,根据不同数据源进行知识图谱构建与存储:对于结构化数据,定义对应的转换规则直接将结构化数据转换为多元组知识存入知识图谱;对于半结构化数据、非结构化数据,对半结构化数据和/或非结构数据进行数据预处理得到有效文本数据,对有效文本数据进行知识抽取,将知识抽取结果与已构建的知识图谱中的多元组知识对比验证,进行实体对齐,实现多元组知识转换,并存入知识图谱,完成知识图谱的构建。本发明基于开放域大规模标记语料的XLNet预训练模型与基于专业领域已建知识图谱语料的辅助监督训练方式,高效地抽取安全知识,充分利用多源数据信息,提高了网络空间安全领域知识图谱构建的效率与准确度。

Description

一种网络空间安全领域知识图谱的构建与存储方法
技术领域
本发明涉及网络安全技术领域,特别涉及一种网络空间安全领域知识图谱的构建与存储方法。
背景技术
随着网络技术和信息技术的飞速发展,网络空间安全逐渐成为社会关注的热点和焦点。网络环境日趋复杂,网络用户、硬件设备以及逻辑拓扑在网络空间中彼此互联产生了大量的网络拓扑、网络资产等数据信息。同时,网络安全事件日渐频发,国家、企业部署的入侵检测设备时刻产生着海量的网络漏洞、攻击威胁与安全告警等数据信息。这些安全数据信息呈爆发式增长,面临着数据量庞大,但数据间缺少关联性、无知识的困局,网络空间安全分析人员很难获取以及有效利用安全数据信息。因此,本发明提出一种网络空间安全领域知识图谱的构建与存储方法,解决了海量多源异构网络安全数据的知识抽取与融合等问题,可以用于构建语义关系互联的知识图谱,对网络安全数据的关联分析、特定区域网络空间的态势感知等具有重要的意义。
现有发明专利与网络安全领域知识图谱的构建与存储有关的方法有:基于知识图谱的网络安全数据组织方法及计算机存储介质(申请号:201910614670.5申请日:2019-07-09),该方案通过采集网络安全数据,抽取网络安全知识后,可以构建网络安全知识图谱,实现网络安全数据的组织与存储,但没有将结构化的数据与半结构化、非结构化安全数据分开转化为知识图谱,结构化数据较易转化为多元组知识,能为半结构化、非结构化网络安全知识的抽取提供标记监督信息,且该方案采用BiLSTM作为知识抽取模型,需要耗费大量的人工进行样本的标记工作;网络安全知识图谱构建方法和装置、计算机设备(申请号:201910220853.9申请日:2019-03-22),该方案通过阐释网络安全实体与资产信息、威胁告警事件的提取实施例流程,可以实现以计算机程序为支撑的网络安全知识图谱的构建方法、装置与计算机存储介质,但没有涉及具体的网络安全知识的抽取模型以及网络安全知识图谱的存储方法。一种基于知识图谱的网络安全动态预警方法(有权,申请号:201710234882.1申请日:2017-04-12),该方案通过对安全数据的整理和分析,可以建立面向网络空间安全数据的知识图谱,实现网络安全领域知识的查询和获取,但该方案只针对网络空间安全领域结构化的安全数据库来构建知识图谱,不涉及半结构化、非结构化安全数据。网络安全知识图谱的生成方法、装置、设备及存储介质(申请号:201811062222.0申请日:2018-09-12)该方案从网络安全相关的数据中提取信息,通过聚类的方法提取实体以及实体间关系,可以将广泛的网络安全相关信息变成关系化的知识图谱,但该方案基于人工设计模板提取信息,不涉及智能的信息提取模型,需要大量的人工投入。
发明内容
针对上述存在的问题,提供了一种网络空间安全领域知识图谱的构建与存储方法。本发明采用的技术方案如下:一种网络空间安全领域知识图谱的构建与存储方法,根据不同数据源进行知识图谱构建与存储:
对于结构化数据,定义对应的转换规则直接将结构化数据转换为多元组知识存入知识图谱;
对于半结构化数据、非结构化数据,对半结构化数据和/或非结构数据进行数据预处理得到有效文本数据,对有效文本数据进行知识抽取,将知识抽取结果与已构建的知识图谱中的多元组知识对比验证,进行实体对齐,并进行多元组知识转换,存入知识图谱,完成知识图谱的构建。
进一步的,所述数据预处理的具体方法:
对于半结构化数据,采用正则表达式对半结构化数据进行筛选,去除非文本内容和与网络空间安全无关的内容;对筛选后的半结构化数据提取有效文本数据;
对于非结构化数据,进行数据清洗、去除多余标点符号、停用词,得到有效文本数据。
进一步的,所述知识抽取包括,通过XLNet预训练模型与已建知识图谱进行微调训练,训练过程中针对输入的训练语料,根据训练语料所提及的网络安全实体名称连接已建知识图谱来查询多元组知识,同时将输入的语料与多元组知识进行混合编码,并采用位置向量来区分多元组知识与输入语料,训练过程则是针对混合内容向量与位置向量的自编码学习,最终分别训练出实体识别模型和关系抽取模型,分别基于实体识别模型和关系抽取模型进行网络空间安全实体的识别及实体间关系的抽取。
进一步的,所述实体对齐具体包括:将网络空间安全实体、实体关系与已构建的知识图谱中的多元组知识进行验证,若知识图谱中已存在该实体,则验证该实体间的关系是否冲突及属性是否完备,完成实体属性的合并及关系冲突检测;若知识图谱中不存在该实体,则人工检查实体及关系的正确性。
进一步的,实体识别模型由Input层、Embedding层、XLNet层及CRF层组成,
所述Input层用于输入文本序列,根据序列中的实体名称查询已构建的知识图谱中相关联实体的多元组知识信息,并将输入文本序列与知识信息融合为整体内容;
所述Embedding层将整体内容作为内容编码向量;将文本序列与知识信息融合后的序列位置作为位置编码向量;
所述XLNet层采用transformer-XL作为每层网络的编码器,针对内容编码向量与位置编码向量进行自编码学习;
所述CRF层连接XLNet的最后一层隐状态编码输出层,利用概率图模型获取最优化实体标注序列。
进一步的,关系抽取模型包括由Input层、Embedding层、XLNet层及Softmax全连接层组成,
所述Input层用于输入文本序列,根据序列中的实体名称查询已构建的知识图谱中相关联实体的多元组知识信息,并将输入文本序列与知识信息融合为整体内容;
所述Embedding层将整体内容作为内容编码向量;将文本序列与知识信息融合后的序列位置作为位置编码向量;
所述XLNet层采用transformer-XL作为每层网络的编码器,针对内容编码向量与位置编码向量进行自编码学习;所述Softmax全连接层连接XLNet的最后一层隐状态编码输出层,通过Softmax计算实体关系概率来分类网络空间安全实体关系。
进一步的,所述自编码学习具体方法为:设XLNet层为M层,每一层将上一层的位置编码向量
Figure BDA0002450142100000031
及内容编码向量
Figure BDA0002450142100000032
赋值于Attention机制中的查询向量Q、键K及值V的矩阵向量,计算本层位置编码向量
Figure BDA0002450142100000033
与内容编码向量
Figure BDA0002450142100000034
逐层计算公式为:
Figure BDA0002450142100000035
Figure BDA0002450142100000036
进一步的,对于结构化数据,具体知识图谱存储方法为:
S11、设计结构化数据存储的关系型数据库中每个字段与实体间关系、实体属性的映射模型,提取关系型数据库中带属性的实体和实体关系;
S12、将网络空间安全实体、实体关系及实体属性知识组织为{S,P,O,attr}和{S1,P1,O1}形式的多元组;对于多元组{S,P,O,attr},S和O都表示实体,P表示实体S和实体O间的关系,attr表示关系P的属性;对于多元组{S1,P1,O1},S1表示实体,P1表示实体S1的属性,O1为实体S1的属性P1的值。
S13、链接Neo4j数据库,将多元组按照Neo4j概念模型入库存储;
进一步的,对于半结构化数据、非结构化数据,具体知识图谱存储方法为:
S21、将网络空间安全实体、实体关系及实体属性知识组织为{S,P,O,attr}和{S1,P1,O1}形式的多元组;对于多元组{S,P,O,attr},S和O都表示实体,P表示实体S和实体O间的关系,attr表示关系P的属性;对于多元组{S1,P1,O1},S1表示实体,P1表示实体S1的属性,O1为实体S1的属性P1的值。
S22、链接Neo4j数据库,将多元组按照Neo4j概念模型入库存储;
进一步的,所述结构化数据知识图谱存储方法,所述S11中设计关系型数据表字段与实体间关系、实体属性的转换模型具体方法为:
S111,统计数据库表中的所有安全类数据,确定知识的本体类别标签;
S112,设计表的主外键、特定字段为实体间关系,一部分字段为实体属性;
S113,筛选需要转换的表,针对表中数据提取安全实体;
所述步骤113中,提取时以关系表中的名称字段为唯一标识符,以实体名称为排序依据,检验所提实体以及实体关系、属性字段是否有相同描述,若有相同描述,则针对所提同一实体名称的数据进行聚合操作,聚合为同一条知识。
与现有技术相比,采用上述技术方案的有益效果为:
1.通过大规模标记语言的预训练模型进行知识抽取的微调任务,改善普通神经网络训练缺乏语料的问题,提高知识抽取模型的准确度。
2.通过已建知识图谱辅助监督半结构化与非结构化知识抽取模型的训练,大大减少了人工标记工作量,提高了实体以及实体间关系抽取的效率。
3.通过有效组织结构化数据构建成知识图谱,再利用其构建的知识图谱指导半结构化、非结构化数据的知识图谱构建,构建工作由易到难,实现网络空间安全数据的有效组织与存储。
附图说明
图1是本发明的网络空间安全领域知识图谱的构建流程示意图。
图2是本发明的网络空间安全领域知识图谱的存储流程示意图。
图3是本发明的提出的基于K-XLNet的实体识别模型。
图4是本发明的网络空基于K-XLNet的关系抽取模型。
具体实施方式
下面结合附图对本发明做进一步描述。
本发明主要针对网络空间安全领域数据组织效率低、多源数据融合困难、非结构化知识抽取困难、存储分散等问题提出解决方案。具体而言包括以下几个方面的解决方案:
1)如何统一组织海量的网络安全领域知识,解决多源异构网络安全数据难以关联分析的问题;
2)如何从半结构化、非结构化网络安全数据中识别网络安全实体和抽取网络安全实体关系,解决网络安全专业领域标记样本较少的问题;
3)如何统一存储、管理网络安全领域的知识,解决网络安全知识分散存储、重复利用率低、海量数据入库效率低下的问题。
由此,本发明的技术方案主要从数据源的不同,将知识图谱的构建分为两种方案,如图1所示:
第一种、对于结构化数据,定义对应的转换规则直接将结构化数据转换为多元组知识存入知识图谱;
第二种、对于半结构化数据、非结构化数据,对半结构化数据和/或非结构数据进行数据预处理得到有效文本数据,对有效文本数据进行知识抽取,将知识抽取结果与已构建的知识图谱中的多元组知识对比验证,进行实体对齐,完成知识图谱的构建。
本发明提出了一种新型的模型K-XLNet用于实体识别与关系抽取,本发明的核心思路是根据结构化数据构建一个先验知识图谱,基于这个知识图谱,采用K-XLNet方法从非结构化数据中抽取信息补全这个知识图谱;即利用已建立的网络空间安全领域图谱提供的专业领域知识辅助监督机器学习过程,解决了网络安全专业领域标记样本较少的问题。
其半结构化数据与非结构化数据构建知识图谱的各阶段详细叙述如下:
数据预处理
将采集的半结构化网络空间安全数据,首先采用正则表达式筛选出与网络空间安全相关的描述内容,摒弃非文本内容以及与网络空间安全领域无关的内容,去除噪声,减少信息冗余;接着,再提取出文本数据信息。将非结构化文本数据,经过必要的清洗、去除多余标点符号、去停用词等预处理操作后,针对半结构化与非结构化安全数据经预处理后的有效文本数据进行网络空间安全知识的抽取。
知识抽取
该步骤网络空间安全领域知识图谱构建的核心,分为网络空间安全实体识别以及网络空间安全实体关系抽取两个部分。
采用来自开放领域庞大语料库的XLNet预训练模型与已建网络空间安全领域知识图谱的辅助监督方式进行网络空间安全实体识别与关系抽取,XLNet预训练模型保证语言模型的精确表达,网络空间安全领域知识图谱提供专业领域知识的指导,提高了知识抽取的精确度和有效性。
具体地,通过XLNet预训练模型与已建网络空间安全领域知识图谱进行微调训练,训练过程中针对输入的训练语料,根据训练语料所提及的网络安全实体名称连接已建知识图谱来查询多元组知识,同时将输入的语料与多元组知识进行混合编码,并采用位置向量来区分多元组知识与输入语料,训练过程则是针对混合内容向量与位置向量的自编码学习,经过不断学习最终微调训练出基于K-XLNet预训练与知识库结合的网络模型,基于此模型进行网络空间安全实体的预测识别及实体间关系的分类抽取,在识别与抽取时,同时提取实体属性及关系的属性。
需要区分的是,网络空间安全实体识别与实体关系抽取采用两个模型,两个模型的训练预测过程相同且结构相似,命名实体识别模型基于K-XLNet与CRF结合来进行命名实体的识别,而关系抽取模型则是将命名实体识别模型的最后一个输出层CRF层替换为全连接的Softmax层进行实体间关系的分类抽取。
其中,如图3所示,基于K-XLNet的实体识别网络模型的工作原理如下:
所述实体识别模型由Input层、Embedding层、XLNet层与CRF层组成。
Input层输入文本序列S,根据序列中所涉及的实体名称查询知识图谱K中关联实体的多元组知识信息K,将输入文本序列与知识信息融合为整体内容M,表示为:
S={x0,x1,…,xn}
K=K_Triple(S,K)={(xi,ri0,xi0)}
M=K_Mixed(S,K)
Embedding层将文本序列与知识信息融合的整体内容M作为内容编码向量,同时将文本序列与知识信息融合后的序列位置作为位置编码向量。
XLNet层采用transformer-XL作为每层网络的编码器,针对内容编码向量与位置编码向量进行自编码学习。从1-M层,每一层将上一层的位置编码向量
Figure BDA0002450142100000061
以及内容编码向量
Figure BDA0002450142100000062
赋值于Attention机制中的查询向量Q、键K及值V的矩阵向量,计算出本层位置编码向量
Figure BDA0002450142100000063
与内容编码向量
Figure BDA0002450142100000064
其逐层计算公式为:
Figure BDA0002450142100000065
Figure BDA0002450142100000066
同时,XLNet层通过将内容编码向量的随机排列组合ZT中的一种排列序列
Figure BDA0002450142100000067
作为待编码序列,旨在构建一个基于待编码序列的具有上下文信息的前t-1个字符
Figure BDA0002450142100000068
序列来预测第t个字符
Figure BDA0002450142100000069
的最大概率向量编码的语言模型,其语言模型表示为:
Figure BDA0002450142100000071
CRF层连接XLNet的最后一层隐状态编码输出层,利用概率图模型获取最优的实体标注序列。
如图3所示,基于K-XLNet的关系抽取模型由Input层、Embedding层、XLNet层与Softmax层组成。模型的前三层与基于K-XLNet的命名识别网络模型同一工作原理,第四层采用全连接的Softmax全连接层,通过Softmax计算实体关系概率来分类网络空间安全实体关系。
实体对齐
将抽取的网络空间安全实体以及实体间关系与已构建的知识图谱中多元组知识进行验证;验证知识图谱中是否已存在该实体,针对已存在的实体验证其实体间的关系是否冲突以及属性是否完备,完成实体属性的合并以及关系冲突的检测,针对不存在的实体,人工检查实体及关系的正确性,以保证知识的一致性。
其中,实体间冲突判定方式为:在存入一个新的关系时,检测知识图谱中是否已经存在此关系,若已经存在,则发生冲突,需要进一步验证这个关系是否和已经存在的关系是否完全一样,若关系是相同的则不必重复插入,若不同,表示可能是关系所含有的属性不同,需要检查各自所含有的属性是否完备,根据实际情况判断这个新关系是否需要插入。
本发明还提出了网络空间安全领域知识图谱的存储方案,如图2所示,同样的,对于知识图谱的存储依然根据数据源的不同,采用不同的存储方案。
对于结构化的数据,其存储方案如下:
第一步,设计关系型数据表字段与实体间关系、实体属性的转换模型,提取网络空间安全关系型数据库中带属性的实体以及实体关系。针对结构化的网络空间安全数据先构建一部分知识图谱,由安全领域专家分析并设计网络拓扑、网络资产、漏洞以及其他安全事件关系型数据库的字段与知识图谱的概念转换模型。具体的,首先,统计数据库表中的所有安全类数据,确定知识的本体类别标签;接着,设计表的主外键、特定字段为实体间关系,一部分字段为实体属性;然后,筛选需要转换的表,针对表中数据提取安全实体,提取时以关系表中的名称字段为唯一标识符,以实体名称为排序依据,检验所提实体以及实体关系、属性字段是否有相同描述,若有相同描述,则针对所提同一实体名称的数据进行聚合操作,聚合为同一条知识,避免提取重复的知识。
第二步,将提取的网络空间安全实体、实体关系以及实体属性知识组织为{S,P,O,attr}和{S1,P1,O1}形式的多元组。{S,P,O,attr}为实体间关系的多元组表示方式,S为实体,O为另一个实体,P为“prefix:relationship”,P表示S实体与O实体间的关系,attr为关系P的属性,因网络空间安全拓扑类数据,具有一定的时效性,为避免繁琐的知识表示以及关系边的冗余,所以为实体的关系边添加属性attr,简化实体关系的表示;{S1,P1,O1}为实体属性的多元组表示,S1为实体,P1为“prefix:property”属性的表示,P1表示实体S1的属性,O1为S1实体的P1属性的值,与实体间关系的多元组表示对齐,例如,一个人的实体,属性为:name,值为:小明。
第三步,链接Neo4j数据库,将组织好的多元组知识按照Neo4j的概念模型入库存储。采用Neo4j存储网络空间安全领域的知识图谱,便于灵活地存储安全类知识,高效地进行知识查询操作。存储过程中,依据安全领域专家设计的类别标签作为实体的本体标签,{S,P,O,attr}作为实体间关系多元组,{S1,P1,O1}作为实体属性多元组入库存储。
对于非结构数据、半结构数据知识图谱的存储方法与上述结构化的数据存储方案相似,由于在知识谱图构建过程中的知识提取阶段已进行了实体识别及实体关系提取,此处直接执行其第二步、第三步即可完成知识的存储。
本发明基于开放域大规模标记语料的XLNet预训练模型与基于专业领域已建知识图谱语料的辅助监督训练方式,高效地抽取安全知识,充分利用多源数据信息,提高了网络空间安全领域知识图谱构建的效率与准确度,相比现有方案主要具备以下有益效果和优点:
1.通过大规模标记语言的预训练模型进行知识抽取的微调任务,改善普通神经网络训练缺乏语料的问题,提高知识抽取模型的准确度。
2.通过已建知识图谱辅助监督半结构化与非结构化知识抽取模型的训练,大大减少了人工标记工作量,提高了实体以及实体间关系抽取的效率。
3.通过有效组织结构化数据构建成知识图谱,再利用其构建的知识图谱指导半结构化、非结构化数据的知识图谱构建,构建工作由易到难,实现网络空间安全数据的有效组织与存储。
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。如果本领域技术人员,在不脱离本发明的精神所做的非实质性改变或改进,都应该属于本发明权利要求保护的范围。
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
本说明书中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。

Claims (9)

1.一种网络空间安全领域知识图谱的构建与存储方法,其特征在于,根据不同数据源进行知识图谱构建与存储:
对于结构化数据,定义对应的转换规则直接将结构化数据转换为多元组知识存入知识图谱;
对于半结构化数据、非结构化数据,对半结构化数据和/或非结构数据进行数据预处理得到有效文本数据,对有效文本数据进行知识抽取,将知识抽取结果与已构建的知识图谱中的多元组知识对比验证,进行实体对齐,并进行多元组知识转换,存入知识图谱,完成知识图谱的构建;
所述知识抽取包括,通过XLNet预训练模型与已建知识图谱进行微调训练,训练过程中针对输入的训练语料,根据训练语料所提及的网络安全实体名称连接已建知识图谱来查询多元组知识,同时将输入的语料与多元组知识进行混合编码,并采用位置向量来区分多元组知识与输入语料,训练过程则是针对混合内容向量与位置向量的自编码学习,最终分别训练出实体识别模型和关系抽取模型,分别基于实体识别模型和关系抽取模型进行网络空间安全实体的识别及实体间关系的抽取。
2.根据权利要求1所述的网络空间安全领域知识图谱的构建与存储方法,其特征在于,所述数据预处理的具体方法:
对于半结构化数据,采用正则表达式对半结构化数据进行筛选,去除非文本内容和与网络空间安全无关的内容;对筛选后的半结构化数据提取有效文本数据;
对于非结构化数据,进行数据清洗、去除多余标点符号、停用词,得到有效文本数据。
3.根据权利要求1所述的网络空间安全领域知识图谱的构建与存储方法,其特征在于,所述实体对齐具体包括:将网络空间安全实体、实体关系与已构建的知识图谱中的多元组知识进行验证,若知识图谱中已存在该实体,则验证该实体间的关系是否冲突及属性是否完备,完成实体属性的合并及关系冲突检测;若知识图谱中不存在该实体,则人工检查实体及关系的正确性。
4.根据权利要求1所述的网络空间安全领域知识图谱的构建与存储方法,其特征在于,实体识别模型由Input层、Embedding层、XLNet层及CRF层组成,
所述Input层用于输入文本序列,根据序列中的实体名称查询已构建的知识图谱中相关联实体的多元组知识信息,并将输入文本序列与知识信息融合为整体内容;
所述Embedding层将整体内容作为内容编码向量;将文本序列与知识信息融合后的序列位置作为位置编码向量;
所述XLNet层采用transformer-XL作为每层网络的编码器,针对内容编码向量与位置编码向量进行自编码学习;
所述CRF层连接XLNet的最后一层隐状态编码输出层,利用概率图模型获取最优化实体标注序列。
5.根据权利要求1所述的网络空间安全领域知识图谱的构建与存储方法,其特征在于,关系抽取模型包括由Input层、Embedding层、XLNet层及Softmax全连接层组成,
所述Input层用于输入文本序列,根据序列中的实体名称查询已构建的知识图谱中相关联实体的多元组知识信息,并将输入文本序列与知识信息融合为整体内容;
所述Embedding层将整体内容作为内容编码向量;将文本序列与知识信息融合后的序列位置作为位置编码向量;
所述XLNet层采用transformer-XL作为每层网络的编码器,针对内容编码向量与位置编码向量进行自编码学习;
所述Softmax全连接层连接XLNet的最后一层隐状态编码输出层,通过Softmax计算实体关系概率来分类网络空间安全实体关系。
6.根据权利要求4或5所述的网络空间安全领域知识图谱的构建与存储方法,其特征在于,所述自编码学习具体方法为:设XLNet层为M层,每一层将上一层的位置编码向量
Figure FDA0003779605660000021
及内容编码向量
Figure FDA0003779605660000022
赋值于Attention机制中的查询向量Q、键K及值V的矩阵向量,计算本层位置编码向量
Figure FDA0003779605660000023
与内容编码向量
Figure FDA0003779605660000024
逐层计算公式为:
Figure FDA0003779605660000025
Figure FDA0003779605660000026
7.根据权利要求1所述的网络空间安全领域知识图谱的构建与存储方法,其特征在于,对于结构化数据,具体知识图谱存储方法为:
S11、设计结构化数据存储的关系型数据库中每个字段与实体间关系、实体属性的映射模型,提取关系型数据库中带属性的实体和实体关系;
S12、将网络空间安全实体、实体关系及实体属性知识组织为{S,P,O,attr}和{S1,P1,O1}形式的多元组;对于多元组{S,P,O,attr},S和O都表示实体,P表示实体S和实体O间的关系,attr表示关系P的属性;对于多元组{S1,P1,O1},S1表示实体,P1表示实体S1的属性,O1为实体S1的属性P1的值;
S13、链接Neo4j数据库,将多元组按照Neo4j概念模型入库存储。
8.根据权利要求1所述的网络空间安全领域知识图谱的构建与存储方法,其特征在于,对于半结构化数据、非结构化数据,具体知识图谱存储方法为:
S21、将网络空间安全实体、实体关系及实体属性知识组织为{S,P,O,attr}和{S1,P1,O1}形式的多元组;对于多元组{S,P,O,attr},S和O都表示实体,P表示实体S和实体O间的关系,attr表示关系P的属性;对于多元组{S1,P1,O1},S1表示实体,P1表示实体S1的属性,O1表示实体S1的属性P1的值;
S22、链接Neo4j数据库,将多元组按照Neo4j概念模型入库存储。
9.根据权利要求7所述的网络空间安全领域知识图谱的构建与存储方法,其特征在于,所述S11中,设计关系型数据表字段与实体间关系、实体属性的转换模型具体方法为:
S111,统计数据库表中的所有安全类数据,确定知识的本体类别标签;
S112,设计表的主外键、特定字段为实体间关系,一部分字段为实体属性;
S113,筛选需要转换的表,针对表中数据提取安全实体;
步骤S113中,提取时以关系表中的名称字段为唯一标识符,以实体名称为排序依据,检验所提实体以及实体关系、属性字段是否有相同描述,若有相同描述,则针对所提同一实体名称的数据进行聚合操作,聚合为同一条知识。
CN202010290298.XA 2020-04-14 2020-04-14 一种网络空间安全领域知识图谱的构建与存储方法 Active CN111428054B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010290298.XA CN111428054B (zh) 2020-04-14 2020-04-14 一种网络空间安全领域知识图谱的构建与存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010290298.XA CN111428054B (zh) 2020-04-14 2020-04-14 一种网络空间安全领域知识图谱的构建与存储方法

Publications (2)

Publication Number Publication Date
CN111428054A CN111428054A (zh) 2020-07-17
CN111428054B true CN111428054B (zh) 2022-11-01

Family

ID=71556257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010290298.XA Active CN111428054B (zh) 2020-04-14 2020-04-14 一种网络空间安全领域知识图谱的构建与存储方法

Country Status (1)

Country Link
CN (1) CN111428054B (zh)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111930784B (zh) * 2020-07-23 2022-08-09 南京南瑞信息通信科技有限公司 一种电网知识图谱构建方法及其系统
CN111625659B (zh) * 2020-08-03 2020-11-13 腾讯科技(深圳)有限公司 知识图谱处理方法、装置、服务器及存储介质
CN112000791B (zh) * 2020-08-26 2024-02-02 哈电发电设备国家工程研究中心有限公司 一种电机故障知识抽取系统及方法
CN112000725B (zh) * 2020-08-28 2023-03-21 哈尔滨工业大学 一种面向多源异构资源的本体融合前处理方法
CN111967267B (zh) * 2020-09-23 2022-06-21 中科(厦门)数据智能研究院 一种基于XLNet的新闻文本地域提取的方法及系统
CN112182243B (zh) * 2020-09-27 2023-11-28 中国平安财产保险股份有限公司 基于实体识别模型构建知识图谱的方法、终端及存储介质
CN112328653B (zh) * 2020-10-30 2023-07-28 北京百度网讯科技有限公司 数据识别方法、装置、电子设备及存储介质
CN112417456B (zh) * 2020-11-16 2022-02-08 中国电子科技集团公司第三十研究所 一种基于大数据的结构化敏感数据还原检测的方法
CN112328749B (zh) * 2020-11-25 2024-05-03 北京百度网讯科技有限公司 知识要素提取方法、装置、电子设备、介质和程序产品
CN112597366B (zh) * 2020-11-25 2022-03-18 中国电子科技网络信息安全有限公司 基于Encoder-Decoder的事件抽取方法
CN114595335B (zh) * 2020-12-07 2024-09-27 中国石油天然气股份有限公司 油田联合站安全知识库构建方法及计算机设备
CN112507136B (zh) * 2020-12-18 2023-07-14 中国电子科技集团公司第十五研究所 一种知识驱动的业务操作图谱构建方法
CN112822191B (zh) * 2021-01-06 2021-11-02 大连理工大学 一种网络化协同系统中多维数据安全性检测的方法
CN112860908A (zh) * 2021-01-27 2021-05-28 云南电网有限责任公司电力科学研究院 基于多源异构电力设备数据的知识图谱自动化构建方法
CN112818131B (zh) * 2021-02-01 2023-10-03 亚信科技(成都)有限公司 一种威胁情报的图谱构建方法、系统及存储介质
CN113010688A (zh) * 2021-03-05 2021-06-22 北京信息科技大学 知识图谱构建方法、装置、设备及计算机可读存储介质
CN113128231B (zh) * 2021-04-25 2024-09-24 深圳市慧择时代科技有限公司 一种数据质检方法、装置、存储介质和电子设备
CN113242236B (zh) * 2021-05-08 2022-09-16 国家计算机网络与信息安全管理中心 一种网络实体威胁图谱构建方法
CN113139068B (zh) * 2021-05-10 2023-05-09 内蒙古工业大学 知识图谱构建方法及装置、电子设备和存储介质
CN113806551A (zh) * 2021-07-20 2021-12-17 国网天津市电力公司 一种基于多文本结构数据的领域知识抽取方法
CN113609848A (zh) * 2021-08-23 2021-11-05 国家市场监督管理总局信息中心 一种工业产品质量安全监管方法及装置
CN113761927B (zh) * 2021-08-31 2024-02-06 国网冀北电力有限公司 电网故障处置实时辅助决策方法、系统、设备及存储介质
CN113468345B (zh) * 2021-09-02 2021-12-07 中科雨辰科技有限公司 基于知识图谱的实体共指检测数据处理系统
CN113824707A (zh) * 2021-09-13 2021-12-21 厦门吉快科技有限公司 一种基于知识图谱的网站性能拨测度量方法和装置
CN113963357B (zh) * 2021-12-16 2022-03-11 北京大学 基于知识图谱的敏感文本检测方法及系统
CN114417015B (zh) * 2022-01-26 2023-05-12 西南交通大学 一种高速列车可维修性知识图谱构建方法
CN114186690B (zh) * 2022-02-16 2022-04-19 中国空气动力研究与发展中心计算空气动力研究所 飞行器知识图谱构建方法、装置、设备及存储介质
CN114741526B (zh) * 2022-03-23 2024-02-02 中国人民解放军国防科技大学 一种网络空间安全领域知识图谱云平台
CN114722215A (zh) * 2022-04-18 2022-07-08 成都卓讯智安科技有限公司 一种知识图谱模型的构建方法和系统
CN115099338B (zh) * 2022-06-24 2024-08-30 国网浙江省电力有限公司电力科学研究院 面向电网主设备多源异构质量信息融合处理方法及系统
CN115129719B (zh) * 2022-06-28 2024-06-14 合肥工业大学 一种基于知识图谱的定性位置空间范围构建方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598005A (zh) * 2019-09-06 2019-12-20 中科院合肥技术创新工程院 一种面向公共安全事件的多源异构数据知识图谱构建方法
CN110825890A (zh) * 2020-01-13 2020-02-21 成都四方伟业软件股份有限公司 一种预训练模型知识图谱实体关系抽取方法及装置
CN110825881A (zh) * 2019-09-26 2020-02-21 中国电力科学研究院有限公司 一种建立电力知识图谱的方法
CN110837733A (zh) * 2019-10-31 2020-02-25 创新工场(广州)人工智能研究有限公司 自重建方式的语言模型训练方法、系统及计算机可读介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3116778C (en) * 2018-07-18 2024-06-25 The Dun & Bradstreet Corporation Artificial intelligence engine for generating semantic directions for websites for automated entity targeting to mapped identities

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598005A (zh) * 2019-09-06 2019-12-20 中科院合肥技术创新工程院 一种面向公共安全事件的多源异构数据知识图谱构建方法
CN110825881A (zh) * 2019-09-26 2020-02-21 中国电力科学研究院有限公司 一种建立电力知识图谱的方法
CN110837733A (zh) * 2019-10-31 2020-02-25 创新工场(广州)人工智能研究有限公司 自重建方式的语言模型训练方法、系统及计算机可读介质
CN110825890A (zh) * 2020-01-13 2020-02-21 成都四方伟业软件股份有限公司 一种预训练模型知识图谱实体关系抽取方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Cross-Domain Sentiment Classification With Bidirectional Contextualized Transformer Language Models;Batsergelen Myagmar等;《IEEE Access》;20191108;第7卷;163219-163230 *
基于多种数据源的中文知识图谱构建方法研究;胡芳槐;《中国博士学位论文全文数据库 (信息科技辑)》;20150315(第5期);I138-112 *

Also Published As

Publication number Publication date
CN111428054A (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
CN111428054B (zh) 一种网络空间安全领域知识图谱的构建与存储方法
Li et al. Database integration using neural networks: implementation and experiences
CN110968699A (zh) 一种基于事理推荐的逻辑图谱构建及预警方法和装置
CN109657947A (zh) 一种面向企业行业分类的异常检测方法
CN113254507B (zh) 一种数据资产目录智能构建盘点方法
CN111967761A (zh) 一种基于知识图谱的监控预警方法、装置及电子设备
CN111597347A (zh) 知识嵌入的缺陷报告重构方法及装置
WO2023124191A1 (zh) 基于深度图匹配的医疗数据元自动化分类方法及系统
CN104699767B (zh) 一种面向中文语言的大规模本体映射方法
CN112463981A (zh) 一种基于深度学习的企业内部经营管理风险识别提取方法及系统
CN110633365A (zh) 一种基于词向量的层次多标签文本分类方法及系统
CN116383399A (zh) 一种事件舆情风险预测方法及系统
CN116245107B (zh) 电力审计文本实体识别方法、装置、设备及存储介质
CN117151659B (zh) 一种基于大语言模型的生态修复工程全生命周期追溯方法
CN116127084A (zh) 基于知识图谱的微电网调度策略智能检索系统及方法
CN116484024A (zh) 一种基于知识图谱的多层次知识库构建方法
CN114900346B (zh) 基于知识图谱的网络安全测试方法及系统
CN117574898A (zh) 基于电网设备的领域知识图谱更新方法及系统
CN116244446A (zh) 社交媒体认知威胁检测方法及系统
CN116561264A (zh) 一种基于知识图谱的智能问答系统的构建方法
CN116974799A (zh) 一种基于知识图谱的照明系统的故障诊断方法及系统
Tang et al. Risk minimization based ontology mapping
CN113610194B (zh) 一种数字档案自动分类方法
CN112668836B (zh) 一种面向风险图谱的关联风险证据高效挖掘与监控方法和装置
Zheng Individualized Recommendation Method of Multimedia Network Teaching Resources Based on Classification Algorithm in a Smart University

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant