CN116611436A

CN116611436A - 一种基于威胁情报的网络安全命名实体识别方法

Info

Publication number: CN116611436A
Application number: CN202310416035.2A
Authority: CN
Inventors: 尚文利; 朱鹏程; 曹忠; 丁磊; 张曼; 浣沙; 时昊天; 李淑琦
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2023-04-18
Filing date: 2023-04-18
Publication date: 2023-08-18
Anticipated expiration: 2043-04-18
Also published as: CN116611436B

Abstract

本发明公开了一种基于威胁情报的网络安全命名实体识别方法，基于深度神经网络，采用如下技术方案：(a)使用BERT大规模预训练模型对文本进行向量表示。由于预训练模型包含了从大规模语料库中学习到的上下文信息，可以极大丰富模型对威胁情报文本的语义表达。(b)融合多个句法信息，如词性、语法成分、依赖关系等。添加新特征，增强模型对标签的推理能力，缓解OOV(Out of Vocabulary)问题。(c)添加全局注意力机制层，增强模型对远距离特征的获取能力，缓解实体稀疏问题。

Description

一种基于威胁情报的网络安全命名实体识别方法

技术领域

本发明涉及网络安全的技术领域，具体涉及一种基于威胁情报的网络安全命名实体识别方法。

背景技术

随着5G、云计算、物联网等新一代信息技术的飞速发展，网络空间的攻击面不断拓展延伸，网络安全问题空前严峻，新型攻击行为层出不穷，呈现出复杂多样性、长期持续性、高隐蔽性的特点。传统的被动式网络安全防御手段，已难以应对系统性大规模复杂多变的网络攻击。现如今大数据、人工智能等技术兴起，运用网络安全知识图谱技术，可将专家知识与海量安全数据相结合，模拟专家思维进行威胁分析，推理发现漏洞，制定最佳防御策略，全面提升网络安全风险防范的准确性、预见性及对威胁攻击的反制速度。网络安全知识图谱构建技术主要有安全实体识别和关系抽取等，其中安全实体识别技术是其构建的重中之重。

网络安全实体识别是自然语言处理中特定领域的序列标注问题，主要任务是从海量半结构化、非结构化安全数据中抽取预定义类别的实体，例如黑客组织、安全团队、样本文件、漏洞等类型安全实体。目的是对海量多源异构安全数据进行细粒度的深度关联分析和挖掘，对安全领域内专业词汇进行确认和分类。

网络安全实体识别技术相较于通用领域内的实体识别技术，由于关注的实体类别不同，存在以下难点：(a)安全实体类型且多变化频率高，不断涌现新实体导致未登录词(Out of Vocabulary,OOV)问题。(b)安全实体结构复杂，存在大量嵌套、别名、缩略词等多意现象，没有严格的命名规则。(c)威胁情报通常单句较长，句子中实体稀疏，邻近实体标签间的特征不足，更加依赖于远距离特征的获取。

发明内容

本发明的发明内容在于设计出一种基于结构化威胁情报共享标准2.0(STIX 2.0)的网络安全知识本体，提出一种基于威胁情报的网络安全命名实体识别模型。该模型基于深度神经网络，采用如下技术方案：(a)使用BERT大规模预训练模型对文本进行向量表示。由于预训练模型包含了从大规模语料库中学习到的上下文信息，可以极大丰富模型对威胁情报文本的语义表达。(b)融合多个句法信息，如词性、语法成分、依赖关系等。添加新特征，增强模型对标签的推理能力，缓解OOV(Out of Vocabulary)问题。(c)添加全局注意力机制层，增强模型对远距离特征的获取能力，缓解实体稀疏问题。

本发明提出一种基于威胁情报的网络安全命名实体识别方法，包括以下步骤：

S1：构建网络安全知识本体模型，确定所抽取实体类型；

S2：构建网络安全命名实体识别模型的嵌入表示层；

S3：构建网络安全命名实体识别模型的序列建模层；

S4：构建网络安全命名实体识别模型的标签解码层；

S5：使用DNRTI数据集训练模型；

S6：将海量网络威胁情报输入模型。

优选的，所述S1中，基于MITRE公司制定的结构化威胁情报共享标准STIX 2.0，手工构建安全知识本体，依据所构建安全知识本体，确定抽取以下13类安全实体：黑客组织、攻击、样本文件、安全团队、工具、时间、目的、区域、行业、组织、方式、漏洞和特征。

优选的，所述S2中，将威胁情报以句子为单位进行切分，得到句子序列，将每一个句子序列作为BERT模型的输入进行编码；随后通过使用Stanford CoreNLP工具包，获取输入序列X中每一个x_n所对应的词性标签、语法树、依赖项词和依赖关系标签，其中x_n为中间词。

更优的，通过KVMN网络对所述x_n的每一种句法信息编码后，将三种句法信息合并为一个整体，利用如下公式：

其中，是KVMN网络的输出，c表示每种类型的句法信息，i表示上下文特征数量，s_n是/>汇总的结果。将此汇总结果与初始词向量拼接，即得到蕴含多种句法信息的最终词向量表示。

优选的，所述S3中，首先经过Bi-LSTM网络进行特征提取，提升上下文词的重要性，得到Bi-LSTM网络输出h_n。再经过GAM网络进行特征提取，提升关键词的重要性，得到GAM网络输出z_n。

优选的，所述S4中，经过条件随机场CRF网络，考虑相邻标签关系，对当前位置分别计算13类实体标签的概率，将概率最大的标签序列作为最佳预测结果。

优选的，所述S5中，使用BIOES标注法对DNRTI数据集进行重新标注，输入至网络安全命名实体识别模型进行100次训练，选取最佳效果时的参数设定，得到最佳网络安全命名实体识别模型。

优选的，所述S6中，将海量网络威胁情报以句子为单位进行切分，输入网络安全命名实体识别模型。

本发明与现有技术相比，还存在以下优点：

本发明提出一种融合多句法信息的BERT-BiLSTM-GAM-CRF模型。该模型针对网络安全领域实体识别技术现存难点而设计。使用添加多句法信息的方式，显著增强模型对网络安全类实体标签的推理能力，有效的缓解了未登录词问题。使用添加全局自注意力机制的方式，显著增强模型应对威胁情报中常有的长句标签推理能力。在网络安全领域，相较于传统基于神经网络的实体识别模型，本发明的识别效果具有显著优越性。

附图说明

利用附图对本发明作进一步说明，但附图中的实施例不构成对本发明的任何限制，对于本领域的普通技术人员，在不付出创造性劳动的前提下，还可以根据以下附图获得其它的附图。

图1是本发明一种基于威胁情报的网络安全命名实体识别方法的实现流程图；

图2是本发明网络安全知识本体模型结构图；

图3是本发明LSTM单元详细信息示意图。

具体实施方式

以下结合具体实施例对一种基于威胁情报的网络安全命名实体识别方法作进一步的详细描述，这些实施例只用于比较和解释的目的，本发明不限定于这些实施例中。

本发明的算法流程如图1所示；一种基于威胁情报的网络安全命名实体识别方法，具体步骤包括：

S1：构建网络安全知识本体模型，确定所抽取实体类型；

S2：构建网络安全命名实体识别模型的嵌入表示层；

S3：构建网络安全命名实体识别模型的序列建模层；

S4：构建网络安全命名实体识别模型的标签解码层；

S5：使用DNRTI数据集训练模型；

S6：将海量网络威胁情报输入模型。

首先考虑到安全知识共享问题，构建网络安全领域知识本体，以确定所抽取安全实体类型。构建网络安全知识本体要求对领域内知识的全覆盖，且冗余较少。故基于MITRE公司制定的结构化威胁情报共享标准2.0(STIX 2.0)，手工构建安全知识本体。知识本体具体如图2所示。

嵌入表示层是基于深度学习命名实体识别模型的第一步，目的是将输入的威胁情报文本信息转换为计算机可识别的词向量，同时向量中蕴含多种句法信息以增强模型对语义的表达，缓解OOV问题。据图步骤如下：

步骤2.1、首先将威胁情报以句子为单位进行切分，得到句子序列X＝x₁,x₂,...,x_n，将每一个句子序列作为BERT大规模预训练模型的输入进行编码。在BERT模型中具体流程为：每一个x_n转换成对应的向量表示，该向量由token embedding和position embedding组成。下一步，向量被送入transformer模型中与其他向量进行交互，以获取更多的上下文信息。而交互过程则由多头注意力机制实现。同时每个向量还会通过前反馈神经网络，进一步提取特征。最后，对transformer模型的输出向量进行平均池化，最终得到融合了上下文语义信息且随语境动态变化的初始词向量m_n。

步骤2.2、获取词性标签编码。通过使用Stanford CoreNLP工具包，获取输入序列X中每一个x_n所对应的词性标签。首先，将每一个x_n定为中间词，使用±1个词的窗口获取中心词的前后词及其词性标签。选择中心词和前后词作为上下文信息，其词性标签作为句法信息。将上下文信息和句法信息输入键-值记忆神经网络(key-value memory network,KVMN)，以键-值对形式进行编码。

KVMN网络中具体流程为：对于输入的每一个x_n，首先将其上下文信息和句法信息分别映射到KVMN网络中的键和值，表示为和/>其中c表示每种类型的句法信息，i表示上下文特征数量。然后使用两个矩阵将K和V嵌入，分别用/>和/>表示。接下来，对每一个x_n的三种句法信息设置权重，利用如下公式：

其中，m_n是融合了上下文语义信息的初始词向量。最后，将权重应用于相应的句法信息/>利用如下公式：

其中，是KVMN网络的输出。

步骤2.3、获取语法成分标签编码。通过使用Stanford CoreNLP工具包，获取每一个输入序列X所对应的语法树。以每一个x_n作为语法树的子叶，通过语法树向上搜索，找到第一个语法节点。选择该节点下所有词作为上下文信息，其语法成分标签作为句法信息。将上下文信息和句法信息输入KVMN网络，以键-值对形式进行编码。KVMN网络中具体流程同步骤2.2。

步骤2.4、获取依赖关系标签编码。通过使用Stanford CoreNLP工具包，获取输入序列X中每一个x_n所对应的依赖项词和依赖关系标签。选择当前词x_n和依赖项词作为上下文信息，其依赖关系标签作为句法信息。将上下文信息和句法信息输入KVMN网络，以键-值对形式进行编码。KVMN网络中具体流程同步骤2.2。

步骤2.5、融合多种句法信息编码，获得最终词向量。通过KVMN网络对每一种句法信息编码后，将三种句法信息合并为一个整体，利用如下公式：

其中，s_n是汇总的结果。将此汇总结果与初始词向量拼接，即得到蕴含多种句法信息的最终词向量表示。

序列建模层的目的为利用深度神经网络对输入序列进行建模及特征提取。具体步骤如下：

步骤3.1、经过Bi-LSTM网络进行特征提取。Bi-LSTM网络根据RNN模型改进而来，能有效解决梯度爆炸或梯度消失的问题，且能同时处理上下文信息。Bi-LSTM网络将前向LSTM模型与反向LSTM模型的两个隐藏层输出拼接，生成全局向量h_n。LSTM单元结构包含三个门机制：输入、遗忘和输出。LSTM单元具体如图3所示。LSTM模型中隐藏层输出定义如下：

h_t＝o_t⊙tanh(c_t)

其中，W₁、W₂、b₁是连接隐藏层的可训练变量，σ是sigmoid激活函数，x_t是句子序列X中第n个序列的最终词向量表示(其中n＝t)，f_t、i_t、o_t分别是第t个序列时的输入门、遗忘门、输出门，c_t是第t个序列时LSTM单元的内部记忆状态，⊙是点乘运算，～是归一化，h_t是LSTM单元对第n个序列的输出。最终Bi-LSTM网络的输出为：

其中，是前向LSTM模型的输出，/>是反向LSTM模型的输出，h_n是Bi-LSTM网络最终输出。

步骤3.2、经过GAM(Global self-attention)网络进行特征提取。GAM是全局自注意力机制，核心思想是在特定时间关注更有效的信息，同时忽略其他不重要因素。句子中任意两个字符的依赖关系可以通过全局注意力机制获取，GAM网络与Bi-LSTM网络相结合可以显著增强重要词的作用。

在GAM网络中具体流程为：首先，将Bi-LSTM模型的输出h_n通过全连接层转化为u_n，利用如下公式：

u_n＝tanh(W₃h_n+b₃)

其中，W₃是可训练的权重矩阵，b₃是注意力机制的可训练偏差向量。下一步，计算u_n与上下文向量u_t的相关性，通过Softmax函数得到归一化权重α_n，利用如下公式：

其中，u_t是通过随机初始化和训练获得的对应词对当前句子的贡献。最后，每个词得到的h_n乘以对应的注意力权重α_n得到整个序列的全局特征向量S，利用如下公式：

将全局特征向量S与目标词向量h_n组合成向量[S；h_n]，通过tanh函数增加神经网络的非线性。计算GAM网络输出z_n，利用如下公式：

z_n＝tanh(W[S；h_n])

其中，CRF网络中具体流程为：给句子两端添加一个起始状态和终止状态，用一个(K+2)*(K+2)的矩阵A表示CRF层。从第i个标签转移到第j个标签的转移分数为A_ij。如标签序列y的长度等于句子长度，则网络对句子x的标签打分等于y，利用如下公式：

其中，P是得分矩阵，由BiLSTM-GAM模型计算得到，P的大小为n*k，n和k分别表示词和标签总数，P_ij是第j个词对应的第i个标签的得分，A_ij是标签i转移到标签j的转移分数矩阵。整个序列的得分等于每个位置得分的总和。归一化概率P(y|x)，利用如下公式：

其中，y是真实标签值，是预测标签值，Y_x是所有可能标签的集合。计算正确标签的最大似然概率，利用如下公式：

最后，使用维特比算法得到所有序列中预测准确率最高的序列，作为最终实体识别的标注结果。计算最佳句子级标签序列，利用如下公式：

其中DNRTI数据集是基于同样STIX 2.0标准标注的大规模威胁情报实体识别数据集。该数据集定义了13种不同类别实体，包含175220个词，36412个实体。

BIOES标注法具体为：B-begin，代表实体的开头。I-inside,代表实体的中间。O-outside,代表非实体。E-end，代表实体的结尾。S-single，代表单字符实体。

将海量网络威胁情报以句子为单位进行切分，输入网络安全命名实体识别模型以得到威胁情报中与网络安全相关的13类实体及其实体类型标签。

最后应当说明的是，以上实施例仅用以说明本发明的技术方案，而非对本发明保护范围的限制，尽管参照较佳实施例对本发明作了详细地说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的实质和范围。

Claims

1.一种基于威胁情报的网络安全命名实体识别方法，其特征在于，包括：

S1：构建网络安全知识本体模型，确定所抽取实体类型；

S2：构建网络安全命名实体识别模型的嵌入表示层；

S3：构建网络安全命名实体识别模型的序列建模层；

S4：构建网络安全命名实体识别模型的标签解码层；

S5：使用DNRTI数据集训练模型；

S6：将海量网络威胁情报输入模型。

2.根据权利要求1所述的一种基于威胁情报的网络安全命名实体识别方法，其特征在于，所述S1中，基于MITRE公司制定的结构化威胁情报共享标准STIX 2.0，手工构建安全知识本体，依据所构建安全知识本体，确定抽取以下13类安全实体：黑客组织、攻击、样本文件、安全团队、工具、时间、目的、区域、行业、组织、方式、漏洞和特征。

3.根据权利要求1所述的一种基于威胁情报的网络安全命名实体识别方法，其特征在于，所述S2中，将威胁情报以句子为单位进行切分，得到句子序列，将每一个句子序列作为BERT模型的输入进行编码；随后通过使用Stanford CoreNLP工具包，获取输入序列X中每一个x_n所对应的词性标签、语法树、依赖项词和依赖关系标签，其中x_n为中间词。

4.根据权利要求3所述的一种基于威胁情报的网络安全命名实体识别方法，其特征在于，所述S2中，通过KVMN网络对所述x_n的每一种句法信息编码后，将三种句法信息合并为一个整体，利用如下公式：

5.根据权利要求1所述的一种基于威胁情报的网络安全命名实体识别方法，其特征在于，所述S3中，首先经过Bi-LSTM网络进行特征提取，提升上下文词的重要性，得到Bi-LSTM网络输出h_n。再经过GAM网络进行特征提取，提升关键词的重要性，得到GAM网络输出z_n。

6.根据权利要求1所述的一种基于威胁情报的网络安全命名实体识别方法，其特征在于，所述S4中，经过条件随机场CRF网络，考虑相邻标签关系，对当前位置分别计算13类实体标签的概率，将概率最大的标签序列作为最佳预测结果。

7.根据权利要求1所述的一种基于威胁情报的网络安全命名实体识别方法，其特征在于，所述S5中，使用BIOES标注法对DNRTI数据集进行重新标注，输入至网络安全命名实体识别模型进行100次训练，选取最佳效果时的参数设定，得到最佳网络安全命名实体识别模型。

8.根据权利要求1所述的一种基于威胁情报的网络安全命名实体识别方法，其特征在于，所述S6中，将海量网络威胁情报以句子为单位进行切分，输入网络安全命名实体识别模型。