CN110941716B

CN110941716B - 一种基于深度学习的信息安全知识图谱的自动构建方法

Info

Publication number: CN110941716B
Application number: CN201911069823.9A
Authority: CN
Inventors: 李博; 左光胜
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2019-11-05
Filing date: 2019-11-05
Publication date: 2023-07-18
Anticipated expiration: 2039-11-05
Also published as: CN110941716A

Abstract

一种基于深度学习的信息安全知识图谱的自动构建方法，包括以下步骤，步骤1，构建信息安全知识图谱的本体库；步骤2，对收集的数据基于启发式规则的方式进行标注得到实体识别的训练集，并设计了基于Bi‑LSTM的模型结构进行学习作为实体识别的模型，从而抽取出文本的实体词；步骤3，基于三元组知识来进行自动标注得到关系抽取的训练集，并设计了基于注意力机制的LSTM结构作为关系抽取的模型，从而抽取出文本中的三元组(关系)。

Description

一种基于深度学习的信息安全知识图谱的自动构建方法

技术领域

本发明涉及一种图谱的自动构建方法，尤其涉及一种基于深度学习的信息安全知识图谱的自动构建方法。

背景技术

目前的信息安全知识库大多数采用人工维护和更新的方式进行维护，比较著名的比如CVE(公共漏洞知识库)，但CVE的更新大多采用人工手动更新的方式，不能及时地更新一些新发现地漏洞和攻击知识，而这些知识往往都已经在第一时间发表在相关公司厂商或者安全团队的博客里，所以有必要采用一种自动更新的方式从文本中挖掘和提取知识。

除了公开的知识库之外，现有技术有一些研究比如Stucco，通过采用机器学习的方法从文本中提取三元组从而构建知识图谱，在实体识别过程中采用最大熵模型基于标注的预料进行训练从而从文本提取相关的实体，在提取实体之后，使用基于主动学习的半监督方法进行关系抽取，构建了一个信息安全的知识库。

然而目前现有技术中存在两个问题，第一，基于人工整理的方式，虽然具有较好的准确率，但是存在更新不及时的问题；第二，目前基于机器学习方法的研究，算法的效果不够好，尤其是在关系抽取阶段，介入了人工的辅助才能进行学习，构建过程仍然不是完全自动化。

发明内容

针对上述问题，本发明提出了一种基于深度学习的信息安全知识图谱的自动构建方法，通过建立模型自动识别信息安全相关的实体词以及根据上下文语义判定实体词之间的关系。

一种基于深度学习的信息安全知识图谱的自动构建方法，包括以下步骤，

步骤1，构建信息安全知识图谱的本体库；

步骤2，对收集的数据基于启发式规则的方式进行标注得到实体识别的训练集，并设计了基于Bi-LSTM的模型结构进行学习作为实体识别的模型，从而抽取出文本的实体词；

步骤3，基于三元组知识来进行自动标注得到关系抽取的训练集，并设计了基于注意力机制的LSTM结构作为关系抽取的模型，从而抽取出文本中的三元组(关系)。

进一步，所述本体库的包括实体的类型和实体的关系，所述实体类型共12种，所述实体类型包括软件，软件供应商，漏洞，漏洞类型，攻击，恶意软件，防御工具，软件的更新，软件的版本，文件，代码块，硬件；所述关系共8种。

进一步，所述对本体库的数据集进行标注的具体方式为，首先根据本题库定义的实体类型，对每一种类型的实体收集词汇构成实体词典，然后根据实体词典对文本句子进行标注。

进一步，采用了Bi-LSTM来对句子进行编码的具体方式为首先将句子序列中的每个词转化为词向量，然后作为LSTM的输入，LSTM每一个STEP的输出作为句子中对应词的表征，Bi-LSTM从句子的两个方向分别进行编码，由此对于每一个词语得到了两个表征编码和/>两个向量分别表示该词的上文信息和下文信息。并且使用激活函数得到类别取值的概率分布的具体方式为/>

z_i＝w^TH_i+b

F_i＝softmax(z_i)，

其中以上公式中的H_i对应于第i的词的向量表达，concat是一个连接操作，将两个向量拼接到一起，w^T，b分别为权重和偏差，z_i是经过一个全连接层对于每个词语的向量表示，Fi为最终每个词语的类别概率分布，表示该词语属于哪个类别，softmax是一个权重函数，输出每个类别的概率。

进一步，所述基于三元组知识来进行自动标注得到训练集的方式为首先基于CVE数据中提取出的字段建立一个三元组的词典，然后对于一个句子中识别出来的实体词，两两去查看是否在三元组字典中，如果在，将这个实体对和该句子作为一个训练样本加入到训练集中。从而构造出一个用来做关系抽取的数据集。

进一步，所述建立基于注意力结构的LSTM描述上下文的具体方式为首先将句子中的词对应到一个向量表示，然后通过Bi-LSTM得到对应于每个词的隐状态H_i，然后与实体词L1和L2的向量和通过注意力层计算一个权重分布，最后得到H_i的加权和H_s，公式如下：

e_i＝W_embeddingx_i

H_i＝[forward_LSTM(e_i)，backward_LSTM(e_i)]

SP＝sum_pooling(e_L1，e_L2)

α＝softmax(w^T[SP，H_i，dot_product(SP，H_i)])

H_s＝αH

其中上式中W_embedding对应于每个词的词向量，上式中x_i为对应每个词的编号，通过编号在词向量表中我们索引到对应该词的向量。上式为H为表示[H₁，H₂，...，H_T]，H_s即为注意力层的输出，其中forward_LSTM和backward_LSTM分别对应于前向和后向的LSTM。上式中e_i为每个词对应的词向量，SP对应于实体词对的词向量和，dot_product表示两个向量的点积。

本发明能够自动地从文本中挖掘和提取有用地信息安全知识，从而整合成一个可供检索和使用的信息安全知识库。通过机器学习方法以有监督的方式训练模型，从而能够从一句话中自动识别出信息安全相关的实体词以及根据上下文语义判定实体词之间的关系，而有监督学习的方法需要大量的标注数据集才能使模型获得较好的效果。人工标注的方法需要消耗大量的人力和时间，本发明自动获得一份较好的数据。

附图说明

图1为本发明的具体流程图；

图2为本发明的Bi-LSTM结构图；

图3为本发明的LSTM的关系分类模型结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在进行知识图谱构建之前，首先构建知识图谱存储知识的类型，以及知识之间的关系，本发明结合安全知识库的模式定义了一个全面的信息安全知识图谱的本体库。表1为实体类型表，表2为实体关系的定义表。

表1实体类型表

实体名称	描述
		Software	软件，包括应用软件和系统软件
Vendor	软件供应商或者开发商
		Vulnerability	漏洞
Vul_Type	漏洞类型
		Attack	攻击或者漏洞利用
Malware	恶意软件
		Defense_Tool	防御工具
Update	软件的更新或者补丁
		Version	软件的版本
File	文件或者路径
		Function	代码块或者API接口
Hardware	硬件，网络硬件或者信息存储、计算的硬件

表2实体关系表

表3为解释了关系(Rel)的含义表。

表3

关系(Rel)	对应的含义描述
		AFFECT	影响或者造成威胁
DEFEND	防御或者修复之后从来避免
		DEV	开发与维护
EXPLOIT	利用
		IS_A	是或者属于的关系
PUBLISH	发布或者发行
		RELATED	相关，具有某种联系
RUNON	运行在这之上

目前定义了12种实体类型，8种关系，其中RELATED关系是一种比较泛化或者模糊表达的关系，表示这两个之间有关系，例如某个漏洞可能有某个文件或者某个API或者函数块有关。

在获取到大量的非结构化数据和文本数据之后，为了能够自动地从文本中提取知识，需要通过机器学习方法以有监督的方式训练模型，从而能够从一句话中自动识别出信息安全相关的实体词以及根据上下文语义判定实体词之间的关系。

而有监督学习的方法需要大量的标注数据集才能使模型获得较好的效果。人工标注的方法需要消耗大量的人力和时间，本发明自动获得一份较好的数据。

首先根据本体库定义的实体类型，对每一种类型的实体收集尽可能多的词汇，相当于得到了一个实体词典，然后根据实体词典对文本句子进行标注，本发明BIO-tagging的格式进行标注，例如B-Vendor表示Vendor类型实体词的开始部分，I-Vendor表示Vendor类型实体词的中间和结尾部分，0表示其他词汇，即不属于任何实体类型或者实体词。

实体词典的来源主要是解析自CVE中的相关字段，比如上文提到的affected-vendor，affected-software，可以直接作为vendor和software的词典来源。CVE数据是指前文提到的公共漏洞库，里面每一个目录对应于一个漏洞的详细信息，比如这个漏洞所影响到的软件，软件厂商，以及漏洞的评级，还有漏洞的描述文本，CVE数据基本上是一个结构化数据，可以给我们提供很多实体词源。

通过收集以上的词汇作为不同的类型实体词典，我们可以使用字符串匹配的方式标识句子中出现的实体词。

但对于有些情况来说，比如version、file、update等，严格的字符串匹配是不行的，需要通过启发式的方法或者正则表达式算法进行匹配。本文通过对各种形式定义不同的正则表达式模板或者规则进行匹配。

为了评估自动化标注算法的效果，本发明随机抽取了50条数据，进行人工标注，然后对比与自动化标注的结果，对于每一种实体类别分别统计TP、FP、TN、FN的值，并且进行三次独立的实验评估(每次均随机抽50条)，实验评估的结果如下：

表4

评估实验	Recall	Precision	F1
				1	77.5％	99％	86.9％
2	70％	98％	81％
				3	78％	94.5％	85.6％

本发明采用了Bi-LSTM来对句子进行编码，首先将句子序列中的每个词转化为词向量，然后作为LSTM的输入，LSTM每一个STEP的输出作为句子中对应词的表征，Bi-LSTM从句子的两个方向分别进行编码，由此对于每一个词语得到了两个表征编码和，两个向量分别兼顾了该词的上文信息和下文信息，能够更好进行下一步的识别和分类。如图2是Bi-LSTM的结构图，通过LSTM得到每个词语的表征之后，直接将这个问题看做是单个词语的分类问题，所以对于每个词语的表征通过一个参数共享的前向神经网络，使用激活函数Softmax得到类别取值的概率分布。公式如下：

z_i＝w^TH_i+b

F_i＝softmax(z_i)

本发明通过前向神经网络得到每个词语的类别标签的概率分布，然后使用交叉熵作为损失函数进行权重更新。损失函数公式如下：

在实验数据集上，本发明的准确率较以往的方法，获得了更高的准确率，准确率到了97.5％。

在从句子中抽取出实体词之后，需要挖掘实体词之间的关系，以便能够建立实体之间的关系。对一个句子进行实体词识别之后，会从中抽取出一个集为L实体词列表，L中的每个实体词的类型记为Type_Li，本发明定义了Type之间的关系，我们将Typeⁱ和Type^j之间的关系记为Rel_Ti，Tj，我们根据本体库的定义把可能存在关系的实体词对，记为一个待分类问题，即L_i和L_j之间是否存在关系即计算条件概率/>的条件概率分布，概率最大的Rel即为答案。

在确立好问题模型之后，需要大量的标注数据集来进行模型训练，而在信息安全领域缺乏这样的数据集，人工标注的成本也太高，于是本发明使用了自动标注的方法基于已有的三元组知识来进行标注得到一个训练集，以此来进行训练。具体步骤如下：

(1)首先基于CVE数据中提取出的字段建立一个三元组的词典，比如(Microsoft，DEVELOP，Windows10)。这些知识是被保证是正确的知识。

(2)然后对于一个句子中识别出来的实体词，两两查看是否在三元组字典中，如果在，将这个实体对和该句子作为一个训练样本加入到训练集中去。

本发明设计了基于attention结构的LSTM来刻画上下文，并通过学习实体词的类型向量为模型提供更多的信息，关系分类模型结构图如图3所示，其结构说明如下：

首先将句子中的词Xi通过词向量编码对应到一个向量表示，然后通过Bi-LSTM得到对应于每个词的隐状态H_i，然后与实体词L1和L2的向量和通过a注意力层计算一个权重分布，最后得到H_i的加权和Hs(即图中注意力层的结果)再将两个实体词对应的实体类型进行向量编码为两个8维的向量，与Hs向量拼接到一起得到一个新的向量P(即图中连接层的结果)，向量P输入到一个全连接层，并输出一个softmax的概率分布向量作为最后的结果。公式如下：

e_i＝W_embedddingx_i

H_i＝[forward_LSTM(e_i)，backward_LSTM(e_i)]

SP＝sum_pooling(e_L1，e_L2)

上式中e_i为每个词对应的词向量，SP对应于实体词对的词向量和。Attention层公式如下：

α＝softmax(w^T[SP，H_i，dot_product(SP，H_i)])

H_s＝αH

上式为H为表示[H₁，H₂，...，H_T]，H_s即为attention层的输出，也就是H_i的加权和。

为了提供给网络更直接的信息，减少误分类的情况，本发明将两个实体词对应的实体类型进行向量编码为两个8维的向量，与H_s向量拼接到一起得到一个新的向量P，向量P输入到一个全连接层，并输出一个softmax的概率分布向量作为最后的结果。最终的损失函数采用交叉熵损失。

训练时的主要参数如表6：

表6

在测试集上准确率达到了87％，以及远远超过以往地技术方案。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于深度学习的信息安全知识图谱的自动构建方法，其特征在于，包括以下步骤，步骤1，构建信息安全知识图谱的本体库；步骤2，对收集的数据基于启发式规则的方式进行标注得到实体识别的训练集，并设计了基于Bi-LSTM的模型结构进行学习作为实体识别的模型，从而抽取出文本的实体词；步骤3，基于三元组知识来进行自动标注得到关系抽取的训练集，并设计了基于注意力机制的LSTM结构作为关系抽取的模型，抽取文本中的三元组；本体库包括实体的类型和实体的关系，所述实体类型包括软件，软件供应商，漏洞，漏洞类型，攻击，防御工具，软件的更新，软件的版本，硬件；所述关系包括：影响或者造成威胁、开发与维护、利用、是或者属于的关系、发布或者发行；对本体库的数据集进行标注的具体方式为，首先根据本体库定义的实体类型，对每一种类型的实体收集词汇构成实体词典，然后根据实体词典对文本句子进行标注；所述基于三元组知识来进行自动标注得到训练集的方式为首先基于CVE数据中提取出的字段建立一个三元组的词典，然后对于一个句子中识别出来的实体词，两两去查看是否在三元组词典中，如果在，将这个实体对和该句子作为一个训练样本加入到训练集中，从而构造出一个用来做关系抽取的数据集；

建立基于注意力结构的LSTM描述上下文的具体方式为首先将句子中的词对应到一个向量表示，然后通过Bi-LSTM得到对应于每个词的隐状态H_i，然后与实体词L1和L2的向量和通过注意力层计算一个权重分布，最后得到H_i的加权和H_s,公式如下：

e_i＝W_embeddingx_i；

H_i＝[forward_LSTM(e_i)，backward_LSTM(e_i)]；

SP＝sum_pookling(e_L1，e_L2)；

α＝softmax(w^T[SP，H_i，dot_product(SP，H_i)])；

H_s＝αH；

其中上式中W_embedding对应于每个词的词向量，上式中x_i为对应每个词的编号，通过编号在词向量表中我们索引到对应该词的向量，H表示为[H₁，H₂，...，H_T],H_s即为注意力层的输出，其中forward_LSTM和backward_LSTM分别对应于前向和后向的LSTM，上式中e_i为每个词对应的词向量，SP对应于实体词对e_L1，e_L2的词向量和，dot_product表示两个向量的点积，w^T为权重；

通过前向神经网络得到每个词语的类别标签的概率分布，然后使用交叉熵作为损失函数进行权重更新。