CN111428054B

CN111428054B - 一种网络空间安全领域知识图谱的构建与存储方法

Info

Publication number: CN111428054B
Application number: CN202010290298.XA
Authority: CN
Inventors: 周玉金; 孙治; 刘正军; 张志勇; 李春林; 陈剑锋; 徐锐; 饶志宏
Original assignee: China Electronic Technology Cyber Security Co Ltd
Current assignee: China Electronic Technology Cyber Security Co Ltd
Priority date: 2020-04-14
Filing date: 2020-04-14
Publication date: 2022-11-01
Anticipated expiration: 2040-04-14
Also published as: CN111428054A

Abstract

本发明涉及一种网络空间安全领域知识图谱的构建与存储方法，根据不同数据源进行知识图谱构建与存储：对于结构化数据，定义对应的转换规则直接将结构化数据转换为多元组知识存入知识图谱；对于半结构化数据、非结构化数据，对半结构化数据和/或非结构数据进行数据预处理得到有效文本数据，对有效文本数据进行知识抽取，将知识抽取结果与已构建的知识图谱中的多元组知识对比验证，进行实体对齐，实现多元组知识转换，并存入知识图谱，完成知识图谱的构建。本发明基于开放域大规模标记语料的XLNet预训练模型与基于专业领域已建知识图谱语料的辅助监督训练方式，高效地抽取安全知识，充分利用多源数据信息，提高了网络空间安全领域知识图谱构建的效率与准确度。

Description

一种网络空间安全领域知识图谱的构建与存储方法

技术领域

本发明涉及网络安全技术领域，特别涉及一种网络空间安全领域知识图谱的构建与存储方法。

背景技术

随着网络技术和信息技术的飞速发展，网络空间安全逐渐成为社会关注的热点和焦点。网络环境日趋复杂，网络用户、硬件设备以及逻辑拓扑在网络空间中彼此互联产生了大量的网络拓扑、网络资产等数据信息。同时，网络安全事件日渐频发，国家、企业部署的入侵检测设备时刻产生着海量的网络漏洞、攻击威胁与安全告警等数据信息。这些安全数据信息呈爆发式增长，面临着数据量庞大，但数据间缺少关联性、无知识的困局，网络空间安全分析人员很难获取以及有效利用安全数据信息。因此，本发明提出一种网络空间安全领域知识图谱的构建与存储方法，解决了海量多源异构网络安全数据的知识抽取与融合等问题，可以用于构建语义关系互联的知识图谱，对网络安全数据的关联分析、特定区域网络空间的态势感知等具有重要的意义。

现有发明专利与网络安全领域知识图谱的构建与存储有关的方法有：基于知识图谱的网络安全数据组织方法及计算机存储介质(申请号：201910614670.5申请日：2019-07-09)，该方案通过采集网络安全数据，抽取网络安全知识后，可以构建网络安全知识图谱，实现网络安全数据的组织与存储，但没有将结构化的数据与半结构化、非结构化安全数据分开转化为知识图谱，结构化数据较易转化为多元组知识，能为半结构化、非结构化网络安全知识的抽取提供标记监督信息，且该方案采用BiLSTM作为知识抽取模型，需要耗费大量的人工进行样本的标记工作；网络安全知识图谱构建方法和装置、计算机设备(申请号：201910220853.9申请日：2019-03-22)，该方案通过阐释网络安全实体与资产信息、威胁告警事件的提取实施例流程，可以实现以计算机程序为支撑的网络安全知识图谱的构建方法、装置与计算机存储介质，但没有涉及具体的网络安全知识的抽取模型以及网络安全知识图谱的存储方法。一种基于知识图谱的网络安全动态预警方法(有权，申请号：201710234882.1申请日：2017-04-12)，该方案通过对安全数据的整理和分析，可以建立面向网络空间安全数据的知识图谱，实现网络安全领域知识的查询和获取，但该方案只针对网络空间安全领域结构化的安全数据库来构建知识图谱，不涉及半结构化、非结构化安全数据。网络安全知识图谱的生成方法、装置、设备及存储介质(申请号：201811062222.0申请日：2018-09-12)该方案从网络安全相关的数据中提取信息，通过聚类的方法提取实体以及实体间关系，可以将广泛的网络安全相关信息变成关系化的知识图谱，但该方案基于人工设计模板提取信息，不涉及智能的信息提取模型，需要大量的人工投入。

发明内容

针对上述存在的问题，提供了一种网络空间安全领域知识图谱的构建与存储方法。本发明采用的技术方案如下：一种网络空间安全领域知识图谱的构建与存储方法，根据不同数据源进行知识图谱构建与存储：

对于结构化数据，定义对应的转换规则直接将结构化数据转换为多元组知识存入知识图谱；

对于半结构化数据、非结构化数据，对半结构化数据和/或非结构数据进行数据预处理得到有效文本数据，对有效文本数据进行知识抽取，将知识抽取结果与已构建的知识图谱中的多元组知识对比验证，进行实体对齐，并进行多元组知识转换，存入知识图谱，完成知识图谱的构建。

进一步的，所述数据预处理的具体方法：

对于半结构化数据，采用正则表达式对半结构化数据进行筛选，去除非文本内容和与网络空间安全无关的内容；对筛选后的半结构化数据提取有效文本数据；

对于非结构化数据，进行数据清洗、去除多余标点符号、停用词，得到有效文本数据。

进一步的，所述知识抽取包括，通过XLNet预训练模型与已建知识图谱进行微调训练，训练过程中针对输入的训练语料，根据训练语料所提及的网络安全实体名称连接已建知识图谱来查询多元组知识，同时将输入的语料与多元组知识进行混合编码，并采用位置向量来区分多元组知识与输入语料，训练过程则是针对混合内容向量与位置向量的自编码学习，最终分别训练出实体识别模型和关系抽取模型，分别基于实体识别模型和关系抽取模型进行网络空间安全实体的识别及实体间关系的抽取。

进一步的，所述实体对齐具体包括：将网络空间安全实体、实体关系与已构建的知识图谱中的多元组知识进行验证，若知识图谱中已存在该实体，则验证该实体间的关系是否冲突及属性是否完备，完成实体属性的合并及关系冲突检测；若知识图谱中不存在该实体，则人工检查实体及关系的正确性。

进一步的，实体识别模型由Input层、Embedding层、XLNet层及CRF层组成，

所述Input层用于输入文本序列，根据序列中的实体名称查询已构建的知识图谱中相关联实体的多元组知识信息，并将输入文本序列与知识信息融合为整体内容；

所述Embedding层将整体内容作为内容编码向量；将文本序列与知识信息融合后的序列位置作为位置编码向量；

所述XLNet层采用transformer-XL作为每层网络的编码器，针对内容编码向量与位置编码向量进行自编码学习；

所述CRF层连接XLNet的最后一层隐状态编码输出层，利用概率图模型获取最优化实体标注序列。

进一步的，关系抽取模型包括由Input层、Embedding层、XLNet层及Softmax全连接层组成，

所述XLNet层采用transformer-XL作为每层网络的编码器，针对内容编码向量与位置编码向量进行自编码学习；所述Softmax全连接层连接XLNet的最后一层隐状态编码输出层，通过Softmax计算实体关系概率来分类网络空间安全实体关系。

进一步的，所述自编码学习具体方法为：设XLNet层为M层，每一层将上一层的位置编码向量

及内容编码向量

赋值于Attention机制中的查询向量Q、键K及值V的矩阵向量，计算本层位置编码向量

与内容编码向量

逐层计算公式为：

进一步的，对于结构化数据,具体知识图谱存储方法为：

S11、设计结构化数据存储的关系型数据库中每个字段与实体间关系、实体属性的映射模型，提取关系型数据库中带属性的实体和实体关系；

S12、将网络空间安全实体、实体关系及实体属性知识组织为{S,P,O,attr}和{S₁,P₁,O₁}形式的多元组；对于多元组{S,P,O,attr}，S和O都表示实体，P表示实体S和实体O间的关系，attr表示关系P的属性；对于多元组{S₁,P₁,O₁}，S₁表示实体，P₁表示实体S₁的属性，O₁为实体S₁的属性P₁的值。

S13、链接Neo4j数据库，将多元组按照Neo4j概念模型入库存储；

进一步的，对于半结构化数据、非结构化数据,具体知识图谱存储方法为：

S21、将网络空间安全实体、实体关系及实体属性知识组织为{S,P,O,attr}和{S₁,P₁,O₁}形式的多元组；对于多元组{S,P,O,attr}，S和O都表示实体，P表示实体S和实体O间的关系，attr表示关系P的属性；对于多元组{S₁,P₁,O₁}，S₁表示实体，P₁表示实体S₁的属性，O₁为实体S₁的属性P₁的值。

S22、链接Neo4j数据库，将多元组按照Neo4j概念模型入库存储；

进一步的，所述结构化数据知识图谱存储方法，所述S11中设计关系型数据表字段与实体间关系、实体属性的转换模型具体方法为：

S111，统计数据库表中的所有安全类数据，确定知识的本体类别标签；

S112，设计表的主外键、特定字段为实体间关系，一部分字段为实体属性；

S113，筛选需要转换的表，针对表中数据提取安全实体；

所述步骤113中，提取时以关系表中的名称字段为唯一标识符，以实体名称为排序依据，检验所提实体以及实体关系、属性字段是否有相同描述，若有相同描述，则针对所提同一实体名称的数据进行聚合操作，聚合为同一条知识。

与现有技术相比，采用上述技术方案的有益效果为：

1.通过大规模标记语言的预训练模型进行知识抽取的微调任务，改善普通神经网络训练缺乏语料的问题，提高知识抽取模型的准确度。

2.通过已建知识图谱辅助监督半结构化与非结构化知识抽取模型的训练，大大减少了人工标记工作量，提高了实体以及实体间关系抽取的效率。

3.通过有效组织结构化数据构建成知识图谱，再利用其构建的知识图谱指导半结构化、非结构化数据的知识图谱构建，构建工作由易到难，实现网络空间安全数据的有效组织与存储。

附图说明

图1是本发明的网络空间安全领域知识图谱的构建流程示意图。

图2是本发明的网络空间安全领域知识图谱的存储流程示意图。

图3是本发明的提出的基于K-XLNet的实体识别模型。

图4是本发明的网络空基于K-XLNet的关系抽取模型。

具体实施方式

下面结合附图对本发明做进一步描述。

本发明主要针对网络空间安全领域数据组织效率低、多源数据融合困难、非结构化知识抽取困难、存储分散等问题提出解决方案。具体而言包括以下几个方面的解决方案：

1)如何统一组织海量的网络安全领域知识，解决多源异构网络安全数据难以关联分析的问题；

2)如何从半结构化、非结构化网络安全数据中识别网络安全实体和抽取网络安全实体关系，解决网络安全专业领域标记样本较少的问题；

3)如何统一存储、管理网络安全领域的知识，解决网络安全知识分散存储、重复利用率低、海量数据入库效率低下的问题。

由此，本发明的技术方案主要从数据源的不同，将知识图谱的构建分为两种方案，如图1所示：

第一种、对于结构化数据，定义对应的转换规则直接将结构化数据转换为多元组知识存入知识图谱；

第二种、对于半结构化数据、非结构化数据，对半结构化数据和/或非结构数据进行数据预处理得到有效文本数据，对有效文本数据进行知识抽取，将知识抽取结果与已构建的知识图谱中的多元组知识对比验证，进行实体对齐，完成知识图谱的构建。

本发明提出了一种新型的模型K-XLNet用于实体识别与关系抽取，本发明的核心思路是根据结构化数据构建一个先验知识图谱，基于这个知识图谱，采用K-XLNet方法从非结构化数据中抽取信息补全这个知识图谱；即利用已建立的网络空间安全领域图谱提供的专业领域知识辅助监督机器学习过程，解决了网络安全专业领域标记样本较少的问题。

其半结构化数据与非结构化数据构建知识图谱的各阶段详细叙述如下：

数据预处理

将采集的半结构化网络空间安全数据，首先采用正则表达式筛选出与网络空间安全相关的描述内容，摒弃非文本内容以及与网络空间安全领域无关的内容，去除噪声，减少信息冗余；接着，再提取出文本数据信息。将非结构化文本数据，经过必要的清洗、去除多余标点符号、去停用词等预处理操作后，针对半结构化与非结构化安全数据经预处理后的有效文本数据进行网络空间安全知识的抽取。

知识抽取

该步骤网络空间安全领域知识图谱构建的核心，分为网络空间安全实体识别以及网络空间安全实体关系抽取两个部分。

采用来自开放领域庞大语料库的XLNet预训练模型与已建网络空间安全领域知识图谱的辅助监督方式进行网络空间安全实体识别与关系抽取，XLNet预训练模型保证语言模型的精确表达，网络空间安全领域知识图谱提供专业领域知识的指导，提高了知识抽取的精确度和有效性。

具体地，通过XLNet预训练模型与已建网络空间安全领域知识图谱进行微调训练，训练过程中针对输入的训练语料，根据训练语料所提及的网络安全实体名称连接已建知识图谱来查询多元组知识，同时将输入的语料与多元组知识进行混合编码，并采用位置向量来区分多元组知识与输入语料，训练过程则是针对混合内容向量与位置向量的自编码学习，经过不断学习最终微调训练出基于K-XLNet预训练与知识库结合的网络模型，基于此模型进行网络空间安全实体的预测识别及实体间关系的分类抽取，在识别与抽取时，同时提取实体属性及关系的属性。

需要区分的是，网络空间安全实体识别与实体关系抽取采用两个模型，两个模型的训练预测过程相同且结构相似，命名实体识别模型基于K-XLNet与CRF结合来进行命名实体的识别，而关系抽取模型则是将命名实体识别模型的最后一个输出层CRF层替换为全连接的Softmax层进行实体间关系的分类抽取。

其中，如图3所示，基于K-XLNet的实体识别网络模型的工作原理如下：

所述实体识别模型由Input层、Embedding层、XLNet层与CRF层组成。

Input层输入文本序列S，根据序列中所涉及的实体名称查询知识图谱K中关联实体的多元组知识信息K，将输入文本序列与知识信息融合为整体内容M，表示为：

S＝{x₀,x₁,…,x_n}

K＝K_Triple(S,K)＝{(x_i,r_i0,x_i0)}

M＝K_Mixed(S,K)

Embedding层将文本序列与知识信息融合的整体内容M作为内容编码向量，同时将文本序列与知识信息融合后的序列位置作为位置编码向量。

XLNet层采用transformer-XL作为每层网络的编码器，针对内容编码向量与位置编码向量进行自编码学习。从1-M层，每一层将上一层的位置编码向量

以及内容编码向量

赋值于Attention机制中的查询向量Q、键K及值V的矩阵向量，计算出本层位置编码向量

与内容编码向量

其逐层计算公式为：

同时，XLNet层通过将内容编码向量的随机排列组合Z_T中的一种排列序列

作为待编码序列，旨在构建一个基于待编码序列的具有上下文信息的前t-1个字符

序列来预测第t个字符

的最大概率向量编码的语言模型，其语言模型表示为：

CRF层连接XLNet的最后一层隐状态编码输出层，利用概率图模型获取最优的实体标注序列。

如图3所示，基于K-XLNet的关系抽取模型由Input层、Embedding层、XLNet层与Softmax层组成。模型的前三层与基于K-XLNet的命名识别网络模型同一工作原理，第四层采用全连接的Softmax全连接层，通过Softmax计算实体关系概率来分类网络空间安全实体关系。

实体对齐

将抽取的网络空间安全实体以及实体间关系与已构建的知识图谱中多元组知识进行验证；验证知识图谱中是否已存在该实体，针对已存在的实体验证其实体间的关系是否冲突以及属性是否完备，完成实体属性的合并以及关系冲突的检测，针对不存在的实体，人工检查实体及关系的正确性，以保证知识的一致性。

其中，实体间冲突判定方式为：在存入一个新的关系时，检测知识图谱中是否已经存在此关系，若已经存在，则发生冲突，需要进一步验证这个关系是否和已经存在的关系是否完全一样，若关系是相同的则不必重复插入，若不同，表示可能是关系所含有的属性不同，需要检查各自所含有的属性是否完备，根据实际情况判断这个新关系是否需要插入。

本发明还提出了网络空间安全领域知识图谱的存储方案，如图2所示，同样的，对于知识图谱的存储依然根据数据源的不同，采用不同的存储方案。

对于结构化的数据，其存储方案如下：

第一步，设计关系型数据表字段与实体间关系、实体属性的转换模型，提取网络空间安全关系型数据库中带属性的实体以及实体关系。针对结构化的网络空间安全数据先构建一部分知识图谱，由安全领域专家分析并设计网络拓扑、网络资产、漏洞以及其他安全事件关系型数据库的字段与知识图谱的概念转换模型。具体的，首先，统计数据库表中的所有安全类数据，确定知识的本体类别标签；接着，设计表的主外键、特定字段为实体间关系，一部分字段为实体属性；然后，筛选需要转换的表，针对表中数据提取安全实体，提取时以关系表中的名称字段为唯一标识符，以实体名称为排序依据，检验所提实体以及实体关系、属性字段是否有相同描述，若有相同描述，则针对所提同一实体名称的数据进行聚合操作，聚合为同一条知识，避免提取重复的知识。

第二步，将提取的网络空间安全实体、实体关系以及实体属性知识组织为{S,P,O,attr}和{S₁,P₁,O₁}形式的多元组。{S,P,O,attr}为实体间关系的多元组表示方式，S为实体，O为另一个实体，P为“prefix：relationship”，P表示S实体与O实体间的关系，attr为关系P的属性，因网络空间安全拓扑类数据，具有一定的时效性，为避免繁琐的知识表示以及关系边的冗余，所以为实体的关系边添加属性attr，简化实体关系的表示；{S₁,P₁,O₁}为实体属性的多元组表示，S₁为实体，P₁为“prefix：property”属性的表示，P₁表示实体S₁的属性，O₁为S₁实体的P₁属性的值，与实体间关系的多元组表示对齐，例如，一个人的实体，属性为：name，值为：小明。

第三步，链接Neo4j数据库，将组织好的多元组知识按照Neo4j的概念模型入库存储。采用Neo4j存储网络空间安全领域的知识图谱，便于灵活地存储安全类知识，高效地进行知识查询操作。存储过程中，依据安全领域专家设计的类别标签作为实体的本体标签，{S,P,O,attr}作为实体间关系多元组，{S₁,P₁,O₁}作为实体属性多元组入库存储。

对于非结构数据、半结构数据知识图谱的存储方法与上述结构化的数据存储方案相似，由于在知识谱图构建过程中的知识提取阶段已进行了实体识别及实体关系提取，此处直接执行其第二步、第三步即可完成知识的存储。

本发明基于开放域大规模标记语料的XLNet预训练模型与基于专业领域已建知识图谱语料的辅助监督训练方式，高效地抽取安全知识，充分利用多源数据信息，提高了网络空间安全领域知识图谱构建的效率与准确度，相比现有方案主要具备以下有益效果和优点：

本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合，以及披露的任一新的方法或过程的步骤或任何新的组合。如果本领域技术人员，在不脱离本发明的精神所做的非实质性改变或改进，都应该属于本发明权利要求保护的范围。

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

本说明书中公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

Claims

1.一种网络空间安全领域知识图谱的构建与存储方法，其特征在于，根据不同数据源进行知识图谱构建与存储：

对于半结构化数据、非结构化数据，对半结构化数据和/或非结构数据进行数据预处理得到有效文本数据，对有效文本数据进行知识抽取，将知识抽取结果与已构建的知识图谱中的多元组知识对比验证，进行实体对齐，并进行多元组知识转换，存入知识图谱，完成知识图谱的构建；

所述知识抽取包括，通过XLNet预训练模型与已建知识图谱进行微调训练，训练过程中针对输入的训练语料，根据训练语料所提及的网络安全实体名称连接已建知识图谱来查询多元组知识，同时将输入的语料与多元组知识进行混合编码，并采用位置向量来区分多元组知识与输入语料，训练过程则是针对混合内容向量与位置向量的自编码学习，最终分别训练出实体识别模型和关系抽取模型，分别基于实体识别模型和关系抽取模型进行网络空间安全实体的识别及实体间关系的抽取。

2.根据权利要求1所述的网络空间安全领域知识图谱的构建与存储方法，其特征在于，所述数据预处理的具体方法：

3.根据权利要求1所述的网络空间安全领域知识图谱的构建与存储方法，其特征在于，所述实体对齐具体包括：将网络空间安全实体、实体关系与已构建的知识图谱中的多元组知识进行验证，若知识图谱中已存在该实体，则验证该实体间的关系是否冲突及属性是否完备，完成实体属性的合并及关系冲突检测；若知识图谱中不存在该实体，则人工检查实体及关系的正确性。

4.根据权利要求1所述的网络空间安全领域知识图谱的构建与存储方法，其特征在于，实体识别模型由Input层、Embedding层、XLNet层及CRF层组成，

5.根据权利要求1所述的网络空间安全领域知识图谱的构建与存储方法，其特征在于，关系抽取模型包括由Input层、Embedding层、XLNet层及Softmax全连接层组成，

所述Softmax全连接层连接XLNet的最后一层隐状态编码输出层，通过Softmax计算实体关系概率来分类网络空间安全实体关系。

6.根据权利要求4或5所述的网络空间安全领域知识图谱的构建与存储方法，其特征在于，所述自编码学习具体方法为：设XLNet层为M层，每一层将上一层的位置编码向量

及内容编码向量

与内容编码向量

逐层计算公式为：

7.根据权利要求1所述的网络空间安全领域知识图谱的构建与存储方法，其特征在于，对于结构化数据,具体知识图谱存储方法为：

S12、将网络空间安全实体、实体关系及实体属性知识组织为{S,P,O,attr}和{S₁,P₁,O₁}形式的多元组；对于多元组{S,P,O,attr}，S和O都表示实体，P表示实体S和实体O间的关系，attr表示关系P的属性；对于多元组{S₁,P₁,O₁}，S₁表示实体，P₁表示实体S₁的属性，O₁为实体S₁的属性P₁的值；

S13、链接Neo4j数据库，将多元组按照Neo4j概念模型入库存储。

8.根据权利要求1所述的网络空间安全领域知识图谱的构建与存储方法，其特征在于，对于半结构化数据、非结构化数据,具体知识图谱存储方法为：

S21、将网络空间安全实体、实体关系及实体属性知识组织为{S,P,O,attr}和{S₁,P₁,O₁}形式的多元组；对于多元组{S,P,O,attr}，S和O都表示实体，P表示实体S和实体O间的关系，attr表示关系P的属性；对于多元组{S₁,P₁,O₁}，S₁表示实体，P₁表示实体S₁的属性，O₁表示实体S₁的属性P₁的值；

S22、链接Neo4j数据库，将多元组按照Neo4j概念模型入库存储。

9.根据权利要求7所述的网络空间安全领域知识图谱的构建与存储方法，其特征在于，所述S11中，设计关系型数据表字段与实体间关系、实体属性的转换模型具体方法为：

S113，筛选需要转换的表，针对表中数据提取安全实体；

步骤S113中，提取时以关系表中的名称字段为唯一标识符，以实体名称为排序依据，检验所提实体以及实体关系、属性字段是否有相同描述，若有相同描述，则针对所提同一实体名称的数据进行聚合操作，聚合为同一条知识。