CN116362246A

CN116362246A - 一种面向多源威胁情报的实体识别及关系抽取方法

Info

Publication number: CN116362246A
Application number: CN202310126446.8A
Authority: CN
Inventors: 程克非; 李宗良; 陈京浩; 张亮; 李琳
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-02-16
Filing date: 2023-02-16
Publication date: 2023-06-30

Abstract

本发明涉及一种面向多源威胁情报的实体识别及关系抽取方法，包括：获取与APT攻击相关的原始情报文本数据，并采用YEEDA对原始文本数据中的实体进行标注得到标注语料文本数据；构建实体识别模型和实体关系抽取模型，将标注语料文本数据做为训练样本对实体识别模型和实体关系抽取模型进行训练；获取目标情报文本数据，将目标情报文本数据输入训练好的实体识别模型和实体关系抽取模型，通过实体识别模型识别出目标情报文本中的实体；通过实体关系抽取模型抽取目标情报文本中实体之间的关系，本发明通过实体识别模型和实体关系抽取模型能够自动且准确的识别出文本中的实体与实体之间的关系，及时的发现网络攻击，提高网络的安全。

Description

一种面向多源威胁情报的实体识别及关系抽取方法

技术领域

本发明属于网络空间安全技术领域，具体涉及一种面向多源威胁情报的实体识别及关系抽取方法。

背景技术

近年来，伴随着信息技术的快速发展，网络基础设施不断趋于完善，网络传输速度不断提升，网络安全形势也变得日益严峻。网络已成为生活中必不可少的一部分，在人们越来越依赖网络的同时，网络安全问题也逐渐映入人们的眼帘，各类境外组织和不法分子怀着种种目的，使用各种手段进行网络攻击，致使网络安全事件层出不穷，给国家安全、社会稳定、人民生活造成严重影响，如何有效防范并且抵御网络上的各种攻击已成为保证网络安全的重要环节。

网络空间安全领域的威胁情报数据十分丰富，主要有威胁情报平台(360、奇安信、安恒)发布的APT报告和安全博客等，威胁情报数据往往都是碎片化的情报，情报之间关联性低，独立性高，在追踪溯源问题上无法提供强有力的支撑，难以深度挖掘出潜在的攻击组织、攻击控制资源等，如何从非结构化数据中提取出威胁情报相关的信息，识别出这些信息中的实体以及实体间的关系，目前在该领域还没有一种比较好的解决方案。

目前在通用领域的命名实体识别效果较好，但是无法直接运用到威胁情报领域，相比于通用领域，威胁情报领域命名规则复杂，实体种类较多，中英文混杂，这都为威胁情报实体识别带来了更大的挑战。

传统的实体识别方法大都基于word2vec和双向长短时记忆网络，然而word2vec忽略了上下文语义信息，双向长短时记忆网络忽略了文本的局部特征，对于威胁情报数据这种命名规则复杂，实体种类较多，中英文混杂的文本数据来说，实体识别的效果不佳，从而无法及时准确的发现威胁情报，无法及时的阻止网络攻击。

发明内容

为了解决背景技术中存在的问题，本发明提供一种面向多源威胁情报的实体识别及关系抽取方法，包括：

S1：获取与APT攻击相关的原始情报文本数据，并采用YEEDA对原始文本数据中的实体进行标注得到标注语料文本数据；

S2：构建实体识别模型和实体关系抽取模型，将标注语料文本数据做为训练样本对实体识别模型和实体关系抽取模型进行训练；

S3：获取目标情报文本数据，将目标情报文本数据输入训练好的实体识别模型和实体关系抽取模型，通过实体识别模型识别出目标情报文本中的实体；通过实体关系抽取模型抽取目标情报文本中实体之间的关系。

本发明至少具有以下有益效果

本发明提出BERT-BiLSTM-IDCNN-Attention-CRF的实体识别模型和BERT-TextCNN-BiGRU-Attention实体关系抽取模型，通过使用BERT获得的词向量包括上下文的语义信息特征，解决静态词嵌入不能表征一词多义的缺点，通过引入IDCNN解决了BiLSTM在提取全局特征时忽略局部特征的缺点，在BiLSTM和IDCNN提取的全局特征和局部特征的基础上通过注意力机制对特征向量进行权重分配，对识别实体重要的信息分配更高的权重，对识别实体不重要的信息分配小的权重或忽略，最后输入CRF进行标签预测，数据输入到BERT预训练模型得到威胁情报文本中每个字符的特征向量，将通过BERT模型得到的特征向量输入到BiGRU-Attention模型进行编码得到威胁情报语句的全局语义特征，引入TextCNN提取威胁情报语句的局部语义特征，解决单独使用BiGRU模型可能无法捕获实体对间完备的语义特征的缺点，最后将威胁情报语句全局语义特征、局部语义特征融合利用Softmax进行关系分类，解决了当前威胁情报实体识别中实体关系抽取准确率较低的问题，从而快速从海量威胁情报中获取关键数据保障网络安全。

附图说明

图1为本发明的方法流程图；

图2为本发明实体识别流程图；

图3为本发明实体关系抽取流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

请参阅图1，本发明提供一种面向多源威胁情报的实体识别及关系抽取方法，包括：

优选地，采用YEEDA标注工具对原始情报文本数据进行标注，使用“BIO”标注策略对原始情报文本中的实体进行标注，其中，所述实体包括：攻击组织(Organization)、组织代号(Alisa)、地理位置(Location)、攻击领域(Domain)、恶意软件(Malware)、攻击方式(Method)、CVE编号(CVE)，例如，对于文本“透明部落是位于南非的APT组织”，“BIO”标注策略为对句子中的实体开头标注为B对实体非开头部分标注为I，对非实体标注为O。

获取与APT攻击相关的原始情报文本数据包括：数据采集和数据处理两个步骤：

数据采集：

使用Puppeteer爬虫从360威胁情报平台、奇安信威胁情报中心、安恒威胁分析平台和安全博客获取网页内容并转换为PDF文件；

数据处理；

对获取到的PDF文件进行筛选得到与APT报告相关的文件，然后对与APT报告相关的PDF文件进行数据清洗包括：使用PDFPlumber将PDF文件转换为文本文件，再使用正则表达式过滤页眉和页脚等无效信息得到原始情报文本数据。

优选地，所述实体识别模型包括：第一BERT层、IDCNN模块、Bilstm模块、第一Attention机制模块和CRF模块；

所述实体关系抽取模型包括：第二BERT层、TextCNN模块、BiGRU模块、全连接层、softmax和第二Attention机制模块；

所述将标注语料文本数据作为训练样本对实体识别模型和实体关系抽取模型进行训练包括：

S21：将标注语料文本数据划分为第一训练集和第二训练集；

S22：将第一训练集中的标注语料文本数据作为训练样本对实体识别模型进行训练；利用训练好的实体识别模型对第二训练集中标注语料文本数据的实体进行识别得到标注语料文本数据中的实体对；

请参阅图2，优选地，所述将第一训练集中的标注语料文本数据作为训练样本对实体识别模型进行训练包括：

S221：将标注语料文本数据通过第一BERT层映射到低维的向量空间生成第一中间特征向量；

BERT层的流程为：使用BERT-Base-Chinese将输入的文本映射到低维的向量空间，充分考虑字符、句子和文本间的特征，增加字向量的语义信息。

S222：将第一中间特征向量输入IDCNN模块提取第一中间特征向量的局部特征得到第二中间特征向量；

IDCNN层的流程为：将BERT输出的第二中间特征向量作为IDCNN的输入，对标注语料文本中每个词对应的向量生成一个logits，通过在经典的卷积网络中增加了一个膨胀宽度，通过调整膨胀宽度在卷积核大小不变的情况下增大或缩小视野，IDCNN的膨胀宽度设为1，1，2；并加入dropout解决过拟合的问题并设置为0.5。

S223：将第一中间特征向量输入Bilstm模块提取标注语料文本的上下文语义信息得到第三中间特征向量；

Bilstm流程为：将BERT输出的第一中间特征向量作为Bilstm的输入，正向Lstm隐状态输出

和反向Lstm隐状态输出/>

将/>

和/>

拼接得到具有上下文语义信息的第三中间特征向量/>

其中，隐藏层层数设置为200，学习率为0.001。

S224：将第二中间特征向量和第三中间特征向量拼接后输入第一Attention机制模块利用注意力机制计算得到第四中间特征向量；所述将第二中间特征向量和第三中间特征向量采用ConCat函数进行拼接；

优选地，所述第四中间特征向量包括：

其中，

注意力权重系数，s_t表示第四中间特征向量，h_i表示第二中间特征向量和第三中间特征向量拼接后的特征向量中的第i个词向量，n表示标注语料文本数据中的字符数量。

S225：将第四中间特征向量输入CRF模块预测实体标签序列的概率分布，并将概率最高的实体标签序列作为预测结果；根据预测结果将实体标签映射回实体，输出标注语料文本中的实体对；

对于一个输入序列X＝(x₁,x₂,…,x_n)，其对应的预测序列为Y＝(y₁,y₂,…,y_n)，则Y关于X的概率分数计算公式表达如下：

其中，

表示第四特征向量中的第i个词向量被分类到第j个标签的概率，

是CRF的特征矩阵参数表示第四特征向量中第i个词向量的预测标签y_i到第四特征向量中第i+1个词向量的预测标签y_i+1的转移分数，n表示第四特征向量中的词向量数量，CRF可以学习到句子的约束条件，这些约束可以在训练数据时被CRF自动学习得到，例如，命名实体的开头应该是“B-”而不是“I-”。有了这些有用的约束，错误的预测序列将会大大减少。

S226：根据预测结果和YEEDA标注利用交叉熵损失函数通过反向传播的机制更新实体识别模型的参数。

请参阅图3，S23：对第二训练集中标注语料文本数据中的实体对之间的关系进行标注，并将标注语料文本数据中的实体对、实体对之间的关系和标注语料文本数据作为训练样本对实体关系抽取模型进行训练；其中，实体对之间的关系包括：来源(comes-from)、使用(uses)、有代号(has-alisa)、属于(belongs)、有恶意软件(has-malware)、有领域(has-domain)；

S231：将标注语料文本数据中的实体对、实体对之间的关系和标注语料文本中的词按照次序组成文本序列；例如，透明部落南非来源<e1>透明部落<e1>是位于<e2>南非<e2>的APT组织；

S232：将文本序列通过第二BERT层映射到低维的向量空间生成第五中间特征向量；

S233：将第五中间特征向量输入TextCNN提取文本序列的局部信息得到第六中间特征向量；

S234：将第五中间特征向量通过BiGRU层提取文本序列的上下文信息得到第七中间特征向量；

TextCNN层的流程为：通过第二BERT层处理后的特征向量通过CNN进行卷积，获得卷积特征后，通过池化层，采用最大池化层从多个值中取最大值，然后输出第六中间特征向量。

具体地，首先通过第二BERT层处理后的特征向量作为TextCNN输入层的初始输入E，可以表示为

表示第i个文本有n个词，然后通过卷积层提取窗口内文本的局部特征信息T，即T_i＝f(W·E_i:i+h-1+b)，其中W为权重矩阵，b为偏执项，f(·)为激活函数。

S235：将第七中间特征向量输入第二Attention机制模块利用注意力机制计算得到第八中间特征向量；

优选地，所述第八中间特征向量包括：

其中，

注意力权重系数，s_t为第八中间特征向量，h_B为第七中间特征向量。

S236：将第六中间特征向量和第八中间特征向量进行拼接得到第九中间特征向量；

S237：将第九中间特征向量依次输入全连接层和softmax对文本序列中实体对之间的关系进行关系预测，根据预测的结果和实体对之间的关系标注利用交叉熵损失函数通过反向传播的机制更新实体关系抽取模型的参数：

y＝softmax(W_iS_j+b_i)

其中，S_j表示第九中间特征向量，W_i为权重矩阵，b_i为偏置系数，y为最终的预测结果。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，而非对其限制，本申请的保护范围并不局限于此，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种面向多源威胁情报的实体识别及关系抽取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种面向多源威胁情报的实体识别及关系抽取方法，其特征在于，采用YEEDA标注工具对原始情报文本数据进行标注，使用BIO标注策略对原始情报文本中的实体进行标注，其中，所述实体包括：攻击组织、组织代号、地理位置、攻击领域、恶意软件、攻击方式和CVE编号。

3.根据权力要求1所述的一种面向多源威胁情报的实体识别及关系抽取方法，其特征在于，所述实体识别模型包括：第一BERT层、IDCNN模块、Bilstm模块、第一Attention机制模块和CRF模块；

S21：将标注语料文本数据划分为第一训练集和第二训练集；

S23：对第二训练集中标注语料文本数据中的实体对之间的关系进行标注，并将标注语料文本数据中的实体对、实体对之间的关系和标注语料文本数据作为训练样本对实体关系抽取模型进行训练，其中，实体对之间的关系包括：来源、使用、有代号、属于、有恶意软件和有领域。

4.根据权力要求3所述的一种面向多源威胁情报的实体识别及关系抽取方法，其特征在于，所述将第一训练集中的标注语料文本数据作为训练样本对实体识别模型进行训练包括：

S224：将第二中间特征向量和第三中间特征向量拼接后输入第一Attention机制模块利用注意力机制计算得到第四中间特征向量；

5.根据权力要求4所述的一种面向多源威胁情报的实体识别及关系抽取方法，其特征在于，所述第四中间特征向量包括：

其中，

6.根据权力要求4所述的一种面向多源威胁情报的实体识别及关系抽取方法，其特征在于，所述实体标签序列的概率分布包括：

其中，

表示第四特征向量中的第i个词向量被分类到第j个标签的概率，/>

是CRF的特征矩阵参数表示第四特征向量中第i个词向量的预测标签y_i到第四特征向量中第i+1个词向量的预测标签y_i+1的转移分数，n表示第四特征向量中的词向量数量。

7.根据权力要求3所述的一种面向多源威胁情报的实体识别及关系抽取方法，其特征在于，所述对实体关系抽取模型进行训练包括：

S231：将标注语料文本数据中的实体对、实体对之间的关系和标注语料文本中的词按照次序组成文本序列；

S237：将第九中间特征向量依次输入全连接层和softmax对文本序列中实体对之间的关系进行关系预测，根据预测的结果和实体对之间的关系标注利用交叉熵损失函数通过反向传播的机制更新实体关系抽取模型的参数。

8.根据权力要求7所述的一种面向多源威胁情报的实体识别及关系抽取方法，其特征在于，所述对文本序列中实体对之间的关系进行关系预测包括：

y＝softmax(W_iS_j+b_i)