CN111709241A

CN111709241A - 一种面向网络安全领域的命名实体识别方法

Info

Publication number: CN111709241A
Application number: CN202010464122.1A
Authority: CN
Inventors: 秦涛; 李致远; 王平辉; 管晓宏
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2020-09-25
Anticipated expiration: 2040-05-27
Also published as: CN111709241B

Abstract

本发明公开了一种面向网络安全领域的命名实体识别方法。本发明由模型训练和样本选择两个阶段组成。第一阶段：通过预训练语言模型ALBERT训练得到包含语义信息且动态变化的初始字符向量，将其送入Bi‑LSTM+CRF的网络中训练，输出输入文本序列概率最大的标签序列。第二阶段：基于第一阶段训练得到的模型，采用主动学习和自学习相结合的方式，选择有标记价值和训练价值的网络安全文本数据进行人工和机器标记，添加至已有标记本文数据后迭代训练上述模型。本发明不仅显著提高了网络安全实体识别的准确率，而且有效缓解了网络安全领域标记语料匮乏、标记成本高等难题。

Description

一种面向网络安全领域的命名实体识别方法

技术领域

本发明涉及网络安全文本数据自然语言处理领域，具体涉及一种面向网络安全领域的命名实体识别方法。

背景技术

随着互联网技术和人工智能技术的快速发展和广泛应用，互联网上的信息量呈现出爆炸式的指数级增长，当今社会已经进入信息化和大数据时代。网络信息技术快速发展的同时，网络环境也变得日趋复杂，大量非法组织和个人利用病毒或漏洞通过互联网向多领域目标广泛、持续地发动网络攻击，以窃取相关机密信息或造成相关破坏。当前，人们生产生活对网络信息的依赖性不断增强，网络攻击事件的数量还将持续增多，影响范围也将更加广泛。

为了确保网络空间安全，政府部门、相关企业、网络安全从业人员根据网络监测系统收集得到的网络威胁信息，发布了大量的网络安全分析报告，这些报告中蕴含着难得的专家知识，但是这些知识是典型的碎片化知识，远远没有得到充分利用，这些数据需要经过分析处理，形成结构化数据才具有更强的决策支持力，而利用智能化方法对这些海量的安全分析报告进行专家知识抽取和组织是可行的数据处理方法之一。通过对异质数据中知识点的抽取和组织分析，构建符合特定需求的网络安全事件应对方案，大幅度提升安全分析报告中专家知识的可利用性，利用海量的网络安全专家知识，提升本地网络管理者的工作效率和安防能力。

现有的知识抽取方法主要分为基于规则和词典的方法、基于机器学习的方法和基于深度学习的方法。基于规则和词典的方法识别准确率较高，但是构建领域规则和词典将耗费大量人力、且适用性及迁移性差；基于机器学习的方法，由于网络安全文本数据存在大量专业词汇、中英文混合词汇、一词多义词汇及未登录词汇，人为地构建特征通用性不强且性能依赖训练样本规模；基于深度学习的方法可以实现自动特征提取，但是传统的深度神经网络不能充分地提取有效特征，同时需要大量的标记语料作为训练数据，对网络安全文本数据进行标记时需要耗费大量财力和人力，训练成本极大。

发明内容

本发明的目的在于提供一种面向网络安全领域的命名实体识别方法，以解决上述问题。

为实现上述目的，本发明采用以下技术方案：

一种面向网络安全领域的命名实体识别方法，包括以下步骤：

步骤1，根据爬虫程序，分别从漏洞信息库、安全论坛和企业应急响应中心获取相关的网络安全文本数据并存入数据库；

步骤2，使用BIO标记模式对网络安全文本数据按一定比例进行小规模标记，标记文本数据用于训练网络安全命名实体识别初始模型；其余大规模未标记文本数据用于模型的主动学习和自学习阶段；

步骤3，根据ALBERT预训练语言模型，针对一个包含了大量互不相同的中英文字符、标点符号及特殊字符的词汇表文件构建了字典映射，以句子为单位，根据字典映射将输入文本序列x＝(x₁,x₂,…,x_n)转化为输入id序列；特殊字符为[CLS]和[SEP]，分别表示句子的开始和结束；

步骤4，构建网络安全命名实体识别的深度神经网络模型，模型分为字向量编码层，语义编码层，标签解码层三部分：首先利用预训练语言模型ALBERT训练得到输入文本序列中包含全局语义信息且随语境动态变化的初始字符向量；然后利用Bi-LSTM双向长短期记忆网络获取字符向量的位置信息和上下文信息；最后利用CRF条件随机场作为解码层输出输入文本序列概率最大的标签序列y^*＝(y₁,y₂,…,y_n)，根据标签序列得到输入文本序列包含的实体信息；

步骤5，使用BIO模式标记的文本数据训练上述模型，通过对比训练文本数据中的标签序列和模型预测得到的最大概率标签序列的差异，采用对数最大似然估计得到损失函数，利用梯度下降法，优化模型参数，使得正确的标签序列概率最大。

进一步的，步骤1中，设计爬虫程序，分别从中国国家信息安全漏洞库CNNVD、FreeBuf安全论坛、深信服安全中心爬取获得网络安全文本数据。

进一步的，步骤2中，本文主要识别的是网络安全文本数据中的漏洞编号、漏洞名称、攻击类型、组织名称、软件名称和地名6类安全实体；针对这6类安全实体，采用BIO标记模式进行标记。

进一步的，具体标记为：B-表示该字符是某一类命名实体的第一个字符，I-表示该字符是某一类命名实体的中间字符，O表示该字符不属于任何一类命名实体；上述类型的网络安全实体是一些专业词汇、中英文混合词汇或一词多义词汇，标记人员需要具备一定的网络安全领域知识。

进一步的，步骤4，具体包括以下步骤：

步骤4.1：首先将输入文本序列对应的输入id序列送入ALBERT预训练网络模型进行编码，将每个字符的id转换成对应的字符嵌入token embedding和位置嵌入positionembedding，连接两者构成字嵌入Embedding，然后将句子中所有字符对应的字嵌入Embedding构成字嵌入矩阵送入Muti-Head Attention多头注意力机制层和Feed Forward前馈神经网络层，最终输出各字符融合了全局语义信息且随语境动态变化的初始字符向量；

步骤4.2：将ALBERT预训练网络模型输出的初始字符向量送入Bi-LSTM双向长短期记忆网络，训练得到各个字符的包含序列位置信息和上下文信息的语义向量表示；

步骤4.3：将语义编码层输出的各字符的向量表示送入CRF条件随机场，学习各字符对应标签的分数，以及标签之间的转移分数，输出概率最大的标签序列作为当前训练语句的标记，根据标签序列提取出输入文本序列包含的实体信息。

进一步的，步骤2中，基于主动学习的不确定采样策略，用训练完成的模型预测大规模未标注语料的标签序列，并计算其置信度；选择置信度最小的文本数据，进行人工标记添加至标记文本数据；同时结合自学习加强模型性能，将选择置信度最大且有效的文本数据，经过机器标记添加至标记文本数据；根据主动学习和自学习的学习方式，对具有一定标记价值和训练价值的未标记文本数据进行了标记，更新标记文本数据，迭代训练上述模型直至满足相应的学习终止条件，最终得到高性能网络安全实体识别模型。

与现有技术相比，本发明有以下技术效果：

1.本发明基于深度神经网络的方法，实现高效准确地从网络安全文本数据中提取网络安全相关的实体信息，例如漏洞名称、攻击类型、组织名称等。通常网络安全文本数据中存在大量专业词汇、中英文混合词汇、一词多义词汇等，传统的神经网络模型不能充分地提取这些实体的结构特征和语义信息，导致识别效果不理想。本文通过预训练语言模型ALBERT训练得到包含语义信息且随语境动态变化的初始字符向量，将其送入Bi-LSTM+CRF的网络中训练，输出文本序列概率最大的标签序列，结果显著提高了对上述网络安全实体信息的识别准确率。该框架主要利用了预训练模型ALBERT的字嵌入功能，在此基础上fine-tuning其后面的连接参数，也就是ALBERT内部的训练参数不参与训练。

2.网络安全领域文本数据的命名实体识别属于特殊领域的命名实体识别任务，同许多其他垂直领域的命名实体识别一样，也存在标记语料匮乏、标记成本高等问题。本发明基于深度神经网络模型，采用主动学习和自学习相结合的方式，选择具有一定标记价值和训练价值的网络安全文本数据进行人工和机器标记，添加至已有标记本文数据后迭代训练模型，在保证模型性能的前提下，有效缓解了上述问题。

附图说明

图1是本发明一种面向网络安全领域的命名实体识别方法流程图。

图2是基于ALBERT+Bi-LSTM+CRF的网络安全实体识别模型示意图。

图3是注意力机制网络工作原理图。

具体实施方式

以下结合附图及实施例对本发明的实施方式进行详细说明。应当理解，所述具体实施例是为更好的解释本发明，凡基于本发明内容所实现的技术均属于本发明的范围。

参阅图1至图3，一种面向网络安全领域的命名实体识别方法，包括以下步骤：

步骤1，设计爬虫程序，分别从漏洞信息库、安全论坛和企业应急响应中心等多种信息源获取相关的网络安全文本数据并存入数据库。实施例分别从中国国家信息安全漏洞库(CNNVD)、FreeBuf安全论坛、深信服安全中心爬取获得网络安全文本数据。

步骤2，使用BIO标记模式对网络安全文本数据进行小规模标记，标记文本数据L用于训练网络安全命名实体识别初始模型；其余大规模未标记文本数据U用于模型的主动学习和自学习阶段。

其详细步骤如下：

步骤2.1：采用BIO标记模式对文本数据进行标记，具体标记为：B-表示该字符是某一类命名实体的第一个字符，I-表示该字符是某一类命名实体的中间字符，O表示该字符不属于任何一类命名实体。例如：对句子“Zlib拒绝服务漏洞，攻击者可利用该漏洞造成拒绝服务。”进行标记的结果为：Z(“B-VUL”)l(“I-VUL”)i(“I-VUL”)b(“I-VUL”)拒(“I-VUL”)绝(“I-VUL”)服(“I-VUL”)务(“I-VUL”)漏(“I-VUL”)洞(“I-VUL”)，攻(“O”)击(“O”)者(“O”)可(“O”)以(“O”)利(“O”)用(“O”)该(“O”)漏(“O”)洞(“O”)造(“O”)成(“O”)拒(“B-ATT”)绝(“I-ATT”)服(“I-ATT”)务(“I-ATT”)，其中VUL表示漏洞(Vulnerability)名称，ATT表示攻击(Attack)类型。标记格式为：每行两列，第一列为字符，第二列为标记，用空格隔开；句子与句子以“。”分界，用空格隔开。

步骤2.2：将标记后的小规模文本数据L按7：1：2比例划分为训练集、验证集和测试集，其中训练集用于训练模型，验证集用于调整超参数，防止训练模型过拟合，测试集用于测试模型的性能；其余大规模未标记文本数据U用于模型的主动学习和自学习阶段。

步骤3，ALBERT预训练语言模型针对一个包含了21128个互不相同的中英文字符、标点符号及特殊字符([CLS]、[SEP])的词汇表文件构建了字典映射；ALBERT是以单个字符作为输入的(本文配置最大句长128，短句做padding，长句做截断)，以句子为单位，在输入文本序列x＝(x₁,x₂,…,x_n)两边分别加上开始标识[CLS]和结束标识[SEP]，根据字典映射将其转化为ALBERT内部对应的输入id序列。

步骤4，构建如图2所示的网络安全命名实体识别的深度神经网络模型，模型分为字向量编码层，语义编码层，标签解码层三部分：首先利用预训练语言模型ALBERT训练得到输入文本序列中包含全局语义信息且随语境动态变化的初始字符向量；然后利用Bi-LSTM网络更好地获取字符向量的位置信息和上下文信息；最后利用CRF网络作为解码层输出输入文本序列概率最大的标签序列y^*＝(y₁,y₂,…,y_n)，根据标签序列可以得到输入文本序列包含的实体信息。

其详细步骤如下：

步骤4.1：首先将输入文本序列对应的输入id序列送入ALBERT预训练网络模型进行编码，将每个字符的id转换成对应的token embedding和position embedding的连接构成的Embedding，然后将句子中所有字符对应的Embedding构成字嵌入矩阵送入Muti-HeadAttention多头注意力机制层和Feed Forward前馈神经网络层，最终输出各字符融合了全局语义信息且随语境动态变化的初始字符向量。

具体计算方式如下：

图3是注意力机制网络工作原理图，假设字嵌入矩阵为E，Q＝W^qE，K＝W^kE，V＝W^vE，A＝K^TQ，

其中，Q,K,V,分别代表query矩阵，key矩阵，value矩阵；W^q是query权重矩阵，W^k是key权重矩阵，W^v是value权重矩阵，O表示输出的字向量矩阵。

步骤4.2：将ALBERT预训练网络模型输出的初始字符向量送入Bi-LSTM双向长短期记忆网络，训练得到各个字符的包含序列位置信息和上下文信息的语义向量表示。LSTM的运行机制如图3所示，具体计算方式如下：

遗忘门输出向量f_t＝σ(W_f·[h_t-1,x_t]+b_f)，其中W_f表示遗忘门需要被训练的权重，h_t-1表示前一时刻的输出，x_t表示当前时刻的输入向量，σ表示Sigmoid的非线性映射，b_f为遗忘门阈值；输入门输出向量i_t＝σ(W_i·[h_t-1,x_t]+b_i)及中间状态

W_i,b_i分别代表输入门需要被训练的权重和输入门阈值；当前的细胞状态更新为

输出门输出向量h_t＝O_t·tanh(C_t)，O_t＝σ(W_o·[h_t-1,x_t]+b_o)，W_o,b_o分别代表输出门需要被训练的权重和输出门阈值。

步骤4.3：将语义编码层输出的各字符的向量表示送入CRF网络，学习各字符对应标签的分数h^k(y_k；x)，以及标签之间的转移分数

输出概率最大的标签序列y^*＝(y₁,y₂,…,y_n)作为当前训练语句的标记，根据标签序列提取出输入文本序列包含的实体信息。

具体计算公式如下：

Z(x)为归一化系数。

步骤5，使用BIO模式标记的文本数据训练上述模型，通过对比训练文本数据中的标签序列和模型预测得到的最大概率标签序列的差异，采用对数最大似然估计得到损失函数-log(P(y|x；A))，利用梯度下降法，优化模型参数，使得正确的标签序列概率最大。

一种面向网络安全领域的命名实体识别方法，其特征在于，包括以下两个阶段：

1)训练基于深度神经网络的网络安全命名实体识别模型，主要利用了预训练网络模型ALBERT的字嵌入功能生成输入文本序列中包含全局语义信息且随语境动态变化的初始字符向量，其充分提取了网络安全专业词汇、中英文混合词汇、一词多义词汇的结构特征和语义信息，将其送入Bi-LSTM+CRF的网络中训练，输出文本序列概率最大的标签序列，结果显著提高了对上述网络安全实体信息的识别准确率；

2)基于主动学习的不确定采样策略，用训练完成的模型预测大规模未标注语料的标签序列，并计算其置信度。选择置信度最小(即标记价值最大)的S条文本数据，具体公式为：

进行人工标记添加至标记文本数据；同时结合自学习可以加强模型性能，由于网络安全语料会存在大量不包含任何实体信息的文本数据(即所有token的标记均为O)，为避免对这些文本数据进行无效训练消耗计算资源，选择置信度最大且有效(即训练价值最大)的T条文本数据，具体公式为：

β为人为设置的训练价值阈值，经过机器标记添加至标记文本数据。根据主动学习和自学习的学习方式，对具有一定标记价值和训练价值的未标记文本数据进行了标记，更新标记文本数据，迭代训练上述模型直至满足相应的学习终止条件θ(如F值变化小于0.1％)，最终得到高性能网络安全实体识别模型。

Claims

1.一种面向网络安全领域的命名实体识别方法，其特征在于，包括以下步骤：

步骤3，根据ALBERT预训练语言模型，针对一个包含了互不相同的中英文字符、标点符号及特殊字符的词汇表文件构建了字典映射，以句子为单位，根据字典映射将输入文本序列x＝(x₁,x₂,…,x_n)转化为输入id序列；特殊字符为[CLS]和[SEP]，分别表示句子的开始和结束；

2.根据权利要求1所述的一种面向网络安全领域的命名实体识别方法，其特征在于，步骤1中，设计爬虫程序，分别从中国国家信息安全漏洞库CNNVD、FreeBuf安全论坛、深信服安全中心爬取获得网络安全文本数据。

3.根据权利要求1所述的一种面向网络安全领域的命名实体识别方法，其特征在于，步骤2中，本文主要识别的是网络安全文本数据中的漏洞编号、漏洞名称、攻击类型、组织名称、软件名称和地名6类安全实体；针对这6类安全实体，采用BIO标记模式进行标记。

4.根据权利要求3所述的一种面向网络安全领域的命名实体识别方法，其特征在于，具体标记为：B-表示该字符是某一类命名实体的第一个字符，I-表示该字符是某一类命名实体的中间字符，O表示该字符不属于任何一类命名实体；上述类型的网络安全实体是一些专业词汇、中英文混合词汇或一词多义词汇。

5.根据权利要求1所述的一种面向网络安全领域的命名实体识别方法，其特征在于，步骤4，具体包括以下步骤：

6.根据权利要求1所述的一种面向网络安全领域的命名实体识别方法，其特征在于，步骤2中，基于主动学习的不确定采样策略，用训练完成的模型预测大规模未标注语料的标签序列，并计算其置信度；选择置信度最小的文本数据，进行人工标记添加至标记文本数据；同时结合自学习加强模型性能，将选择置信度最大且有效的文本数据，经过机器标记添加至标记文本数据；根据主动学习和自学习的学习方式，对具有一定标记价值和训练价值的未标记文本数据进行了标记，更新标记文本数据，迭代训练上述模型直至满足相应的学习终止条件，最终得到高性能网络安全实体识别模型。