CN109918647A

CN109918647A - 一种安全领域命名实体识别方法及神经网络模型

Info

Publication number: CN109918647A
Application number: CN201910091654.2A
Authority: CN
Inventors: 马平川; 姜波; 卢志刚; 李宁
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2019-01-30
Filing date: 2019-01-30
Publication date: 2019-06-21

Abstract

本发明公开了一种安全领域命名实体识别方法及神经网络模型。本方法为：1)将安全报告中的非结构化文本按照句子分隔开；2)统计安全报告中出现过的单词和标点符号，构建一词汇表；3)根据该词汇表构建词嵌入向量矩阵；4)将每一句子中的词汇使用对应的词嵌入向量表示；然后利用双向LSTM层对该句子进行训练；5)将词嵌入向量及其双向LSTM输出进行拼接，作为条件随机场的输入；然后使用条件随机场，学习拼接结果对应的单词与各设定标签之间的依赖关系，以及前一个标签和当前标签之间的依赖关系；6)输出具有最大概率的标签序列作为句子的标注，然后根据单词的标签，输出该句子中包含的命名实体。本发明大幅提高实体识别的效率。

Description

一种安全领域命名实体识别方法及神经网络模型

技术领域

本发明提出一种对安全领域非结构化文本中的命名实体进行识别的方法，例如软件、文件、攻击方式等。非结构化文本来源于安全研究人员的技术博文，安全公司发布的安全公告，公开的漏洞数据库等。本发明提出的方法基于长短期记忆网络LSTM和条件随机场CRF，属于自然语言处理与信息安全结合的领域。

背景技术

随着时代的发展，计算机的普及，信息安全也逐渐被人们重视起来。网络上关于信息安全的信息开始泛滥，质量良莠不齐，其中不乏有信息安全领域的专家发布的信息。由于网络攻击的特殊性，关于攻击的信息无法组织成有结构的信息格式，对攻击方式的描述只能使用自然语言。同时，信息安全领域的研究人员更倾向于把自己从攻击中获得的知识发布到个人博客上，信息安全公司也会不定期为自己开发的软件发布补丁公告。由于这些信息具有比较高的实时性，所以高效率和高准确性地获取最新的信息成了亟待解决的问题。长期以来，这些信息都是由安全领域研究人员人工分析，这对分析人员具有比较高的专业性要求，分析的效率也特别低下。所以，实时的自动的文本分析并从中抽取出所需要的信息对信息安全具有非常大的贡献。

随着计算机自动化程度的提高，发动攻击的成本变得很低，很多情况下一个人甚至可以完全不了解攻击的原理就可以使用自动化的工具对信息基础设施进行攻击。这使得信息安全研究人员务必紧跟当下事件的脚步，在攻击造成不良影响之前就要做出相应的防御性措施。一般来说，一旦有一次攻击被检测到，就会有各种各样针对此次攻击行为的分析文档被发布在互联网上，以供防御人员参考。然而，网络攻击的手段特别多，而且新式攻击方式层出不穷，以至于各种各样的安全报告数量也非常巨大，并且不断增加。这就使得人工分析这些安全报告的效率非常低下，而且安全报告的分析对分析人员的专业性要求比较高，这使得整个任务几乎是不可能完成的。

目前，基于神经网络的机器学习算法发展迅速，这种算法不需要太多的人工参与，并且可以做到完全的端到端(输入是获取到的未经处理的数据，输出是数据分类结果或者希望从数据中获取到的信息)，不需要进行繁琐的特征工程，所以被迅速应用到各个领域中。而安全领域的命名实体识别属于特定领域的命名实体识别的范畴，近年来通用领域的命名实体识别已经有了大量的研究经验，因此可以使用安全领域的数据，借用通用领域的命名实体识别的方法，针对安全领域数据的独特性加以改造，构建一个全新的神经网络模型，来提取安全领域相关的命名实体，为安全报告的分析和安全知识谱图的构建提供帮助。有了安全领域相关的命名实体，就可以根据命名实体来构建知识图谱，以表示实体间的联系，更能直观的反映安全报告包含的内容，从整体上把握安全事件。

综上所述，目前安全报告信息抽取需要大量的人工分析并且需要具备极丰富专业知识的专家花费大量精力完成，不能满足需求，而自动化的信息抽取在通用领域已经有了一些初步的应用，但由于安全领域的特殊性，已有的模型并不能完全达到命名实体识别的要求，所以要构建一个新的模型来识别安全领域的命名实体。

发明内容

为解决上述问题，本发明提出一种安全领域命名实体识别方法及神经网络模型，模型的基本处理单位为句子，即输入是一条完整的句子，对句子中每一个单词，都输出一个对应的标签，标签分为实体类别和无关词，如果一个单词属于某一个实体类别，那么它的输出标签就是这个实体类别的标签，否则就是无关词这个标签。该模型是神经网络模型，使用梯度下降的方法进行训练。该模型可以大幅提高文本中命名实体识别的效率。

为达到上述目的，本发明提出了一种安全领域命名实体识别的方法，包括以下步骤：

1)把安全报告中的非结构化文本按照句子分隔开来，并且把句子中的标点符号和单词也都使用空格分开。

2)基于上一步的处理结果，统计所有出现过的单词和标点符号，每个不同的单词和标签符号只计算一次，这些互不相同的单词和标点符号统一称为词汇，使用词汇构建一个列表，称为词汇表。对于每一个词汇，从词汇表中可以知道该词汇的位置，这个位置称为该词汇的索引值，词汇表包括词汇和该词汇对应的索引值，每个词汇都有一个独一无二的索引值。

3)构建词嵌入向量矩阵。词嵌入向量矩阵是一个m行n列的矩阵，m是词汇表中不同词汇的个数，n是指定的词嵌入向量的维度。矩阵每一行表示一个词汇对应的n维向量。矩阵使用随机浮点值初始化，即矩阵中每一个元素的值都是一个随机的浮点数，在整个模型的训练过程中，词嵌入向量也会被自动训练。模型训练结束后，就可以得到安全领域使用的词嵌入向量。训练后的词向量是词汇在高维空间(特征表示空间)的位置，如果两个词汇具有相近的意思，那么它们在高维空间的距离会相应的更近，否则，则会更远。

4)针对步骤1)获得的每一条句子，根据词汇表构建该句子中每个词汇对应的one-hot编码形式，对任意一个词汇来说，one-hot编码形式是一个1行m列的矩阵，m是词汇表中不同词汇的个数，通过矩阵相乘，可以得到该词汇对应的词嵌入向量。对句子中每个词汇都进行这样的处理，就得到了句子中每个词汇的词嵌入向量，整个句子就可以转化成一个矩阵。

5)创建双向传播的LSTM层，前向传播的LSTM用来学习当前单词前面的每个单词对当前单词的影响，后向传播的LSTM用来学习当前单词后面的每个单词对当前单词的影响。LSTM层的输入是步骤4)中的句子，句子中词汇使用词嵌入向量表示。

6)拼接双向LSTM的输出与当前词嵌入向量，作为条件随机场的输入。

7)使用条件随机场，学习当前单词和标签之间的依赖关系，以及相邻标签之间的依赖关系。

8)输出具有最大概率的标签序列作为当前句子的标注。标注中包含每个单词对应的标签，根据标签，输出该句子中包含的命名实体。

与当前已有的相关技术相比，本发明具有以下几点优势：

1、本发明构建了一个新的基于LSTM和CRF的神经网络模型，与传统的LSTM相比，本发明的模型把LSTM的输出与当前单词的词向量拼接在一起，在没有增加模型复杂度的条件下提高了模型表现力。

2、为了验证模型的效果，使用一个开源数据集对模型进行评测。实验结果表明本模型能够达到当前最好的效果。

本发明的目的是自动化提取安全领域非结构化文本中的命名实体，提高知识获取的效率，减轻安全分析人员的分析负担。采用了神经网络的模型，使用大量数据进行训练，从而达到命名实体识别的目的。

附图说明

图1是本发明的模型总览图。

图2是单词的one-hot编码形式转换为词嵌入向量编码形式的转换图。

图3是长短期记忆网络LSTM内部门结构图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例中的技术方案，并使本发明的目的、特征和优点能够更加明显易懂，下面结合附图对本发明中技术核心作进一步详细的说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

在本发明中，设计了一种安全领域的命名实体识别方法，该方法的总体思路是通过神经网络自动提取句子中的特征(即单词的词嵌入向量)，并且经过双向LSTM使用CRF分类，从而判断某一句自然语言中的单词属于何种实体类型。非结构化文本数据来自于安全研究人员发布的技术博客，安全公司的公告和公开的漏洞数据库等。当然，也可以是任何安全领域相关的文字性的描述。使用程序自动化根据标点划分句子，并且通过打表的方式来判断句子中包含的标点符号，把标点符号使用空格分隔开来作为独立的标记。首先通过判断句号或者感叹号等分隔符后面的字符是不是空格来把文章划分为句子。考虑到并不是所有的句子都是规范书写的，有的分隔符后面并没有空格，但是仍然表示一句话的结束，所以使用白名单的方式，把所有不是表示句子结束的单词放入一个集合，例如文件后缀名等，如果分隔符后的单词不在白名单里面，就表示这个分隔符是表示句子结束。接下来，还要把句子中的标点符号使用空格分隔开来，然后就进入了命名实体识别的阶段。

构建模型之前，需要先构建一些模型必须的参数，例如batch_size、learning_rate等，词汇表也要在这个阶段构建出来。词汇表包含数据集中所有出现过的单词和标点符号，并且使用(index,word)的方式存储。假设词汇表T中共计包含4096个单词，其中一项是(1,abandon),表示词汇表的第一项是abandon这个单词，那么神经网络输入层这个单词对应的向量就是一个4096维的向量，这个向量第一维是1，其他维度都是0，这便是abandon这个单词的one-hot编码形式。假设当前的句子s中所包含的单词有w₁,w₂,…,w_m，分别经过词向量嵌入层，双向LSTM层，CRF层之后对每个句子输出一个标签序列label₁,label₂,…,label_m，其中每个标签表示该单词所属的实体类别。然后根据实体类别，输出单词。至此，安全领域的命名实体识别就完成了。

本发明的模型整体流程图如图1所示，模型不同层的具体步骤细节描述如下所示：

(1)把单词从one-hot编码转化为词嵌入向量。

在词嵌入向量技术出现之前，神经网络也是可以使用单词的one-hot编码形式作为输入的，但是one-hot编码只是表示单词在词汇表中的位置，不具有实际意义，最重要的是不能表示单词和单词之间的联系。而词嵌入向量是把每个单词映射到高维空间里的一个点，不同的单词位于不同的位置，意思接近的单词在位置上也会更靠近。单词的one-hot向量转化为词嵌入向量的过程如图2所示，使用W_o表示一个单词的one-hot向量，假设当前词汇表长度是4096，词嵌入向量的维度作为模型的超参数是需要人工指定的，这里为128，使用W_e表示。那么W_o就是一个4096维的向量，W_e是一个128维的向量，设定的参数矩阵该参数矩阵维度中每个元素的值是随机初始化的，模型在训练的时候会自动调整每个元素的值，最终每个元素的值是训练得到的；W_e＝W_o*θ。至此，词嵌入向量构建完成。

(2)经过双向LSTM层获取每一个时刻该单词对应的输出

双向LSTM是一个可以处理具有时序依赖数据的神经网络，如图1的双向LSTM层所示，它可以根据每一个时刻的输入x_t产生一个输出h_t，并且当前时刻的输出经过处理当成隐藏状态C_t和下一时刻的输入x_t+1一起作为神经网络的输入，以产生下一时刻的输出和隐藏状态。通过这种方式，LSTM的输出考虑了当前时刻之前的每一个时刻对当前时刻的影响，直观来说，使用LSTM可以考虑当前单词前面单词的影响，从而使句子获得某种依赖性。然而，一般来说只考虑单方向的依赖性是不够的，往往一个单词会依赖于它两边的单词，所以，反向传播的LSTM就可以在这时候发挥作用。

LSTM还有一个非常重要的门的机制，如图3所示，分别是输入门、输出门、遗忘门。下面以前向传播的LSTM说明此机制，后向传播同理。假设当前时刻的输入也就是当前单词的词向量为x_t，上一个时刻的输出为h_t-1，上一个时刻的隐藏状态为C_t-1，那么遗忘门f_t＝sigmod(W_f·h_t-1+V_f·x_t)，其中W_f和V_f是需要被训练的参数，同理，当前时刻的输入门i_t＝sigmod(W_i·h_t-1+V_f·x_t)，输出门o_t＝sigmod(W_o·h_t-1+V_o·x_t)，和中间状态则当前时刻的隐藏状态其中，遗忘门表示对上一时刻的隐藏状态需要加的遗忘权重，输入门表示对当前时刻的中间状态加的输入权重，当前时刻的输出同理，只要把公式中所有t-1改为t+1就可以得到后向传播的LSTM层的输出那么，双向LSTM层的输出为使用这种方式，双向LSTM就可以学习到前向和后向不同词汇对该词汇的影响。

(3)考虑到安全领域的独特性，把单词的嵌入向量和双向LSTM层的输出拼接起来，作为CRF层的输入。

由于安全领域具有太多的专有词汇，例如软件、操作系统等，这些词语往往都是固定的，所以原始的输入也不得不成为一个需要考虑的因素。通过把当前时刻的输入词嵌入向量x_t和当前时刻双向LSTM的输出h_t拼接起来组成一个新的输出O_t＝concat(x_t,h_t)，假设x_t和h_t都是128维的向量，那么当前时刻的输出O_t一个256维的向量，其中前128维是x_t，后128维是h_t。

(4)经过CRF层的分类，输出对每个单词实体类别的预测。

模型中的CRF层主要作用是为输出层后的分类添加约束，假如没有CRF层，那么每一个时刻的预测标签完全依靠当前时刻LSTM层的输出，并没有考虑到标签之间的关联，CRF层则通过状态转移矩阵的方式来指明标签与标签之间的转移概率，状态转移矩阵的值是被训练出来的，最终通过计算整体的联合分布，得到一个概率最大的标签序列，作为模型的最终输出结果。

本发明提供的安全领域命名实体识别方法，可以较好地满足对安全领域非结构化文本中的实体的识别功能，可以提高安全领域信息抽取的智能化程度，可以极大减轻安全分析人员的工作量，并且为安全领域知识图谱的构建提供帮助。

以上所述实施例仅表达了本发明的实施方式，其描述较为具体，但并不能因此理解为对本发明专利范围的限制。应当指出，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应当以所附权利要求为准。

Claims

1.一种安全领域命名实体识别方法，其步骤包括：

1)将安全报告中的非结构化文本按照句子分隔开；

2)基于步骤1)的处理结果，统计所述安全报告中出现过的单词和标点符号，将所出现的互不相同的单词和标点符号统一称为词汇，使用所述词汇构建一词汇表；

3)根据该词汇表构建词嵌入向量矩阵；其中，该词嵌入向量矩阵为m行n列的矩阵，m是词汇表中词汇的个数，n是词嵌入向量的维度；

4)对步骤1)获得的每一句子，将该句子中的词汇使用对应的词嵌入向量表示；然后利用双向LSTM层对该句子进行训练；

5)将词嵌入向量及其双向LSTM输出进行拼接，作为条件随机场的输入；然后使用条件随机场，学习拼接结果对应的单词与各设定标签之间的依赖关系，以及前一个标签和当前标签之间的依赖关系；

6)输出具有最大概率的标签序列作为当前句子的标注，标注中包含当前句子中每个单词对应的标签；然后根据单词的标签，输出该句子中包含的命名实体。

2.如权利要求1所述的方法，其特征在于，得到词汇的词嵌入向量的方法为：根据所述词汇表构建每个词汇对应的one-hot编码形式，对任意一个词汇，其对应的one-hot编码形式是一个1行m列的矩阵，通过矩阵相乘，得到该词汇对应的词嵌入向量。

3.如权利要求2所述的方法，其特征在于，将词汇的one-hot编码对应的矩阵W_o与一设定的参数矩阵θ相乘，即W_e＝W_o*θ，得到该词汇的词嵌入向量W_e。

4.如权利要求1所述的方法，其特征在于，该词汇表中记录每一个词汇及其在所述安全报告中的位置，将词汇的位置作为该词汇的索引值。

5.如权利要求1所述的方法，其特征在于，使用随机浮点值初始化所述词嵌入向量矩阵，将该词嵌入向量矩阵中每一个元素的值初始化为一个随机的浮点数。

6.一个基于LSTM和CRF的神经网络模型，其特征在于，包括双向LSTM和CRF层；其中，

双向LSTM，用于对输入的句子进行训练并将前向LSTM输出、后向LSTM输出分别输入CRF层；其中，句子中的词汇使用该词汇对应的词嵌入向量表示；

CRF层，用于将词汇对应的词嵌入向量及其双向LSTM输出进行拼接，将拼接结果作为CRF层的输入，然后使用条件随机场，学习拼接结果对应的单词与各设定标签之间的依赖关系，以及前一个标签和当前标签之间的依赖关系；然后输出具有最大概率的标签序列作为当前句子的标注，标注中包含当前句子中每个单词对应的标签；然后根据单词的标签，输出该句子中包含的命名实体。

7.如权利要求6所述的神经网络模型，其特征在于，还包括一词嵌入向量生成模块，用于根据词汇表构建该句子中每个词汇对应的one-hot编码形式，对任意一个词汇，其对应的one-hot编码形式是一个1行m列的矩阵，将词汇的one-hot编码对应的矩阵W_o与一设定的参数矩阵θ相乘，即W_e＝W_o*θ，得到该词汇的词嵌入向量W_e。

8.如权利要求7所述的神经网络模型，其特征在于，所述词嵌入向量生成模块将安全报告中的非结构化文本按照句子分隔开；然后统计所述安全报告中出现过的单词和标点符号，将所出现的互不相同的单词和标点符号统一称为词汇，使用所述词汇构建所述词汇表。

9.如权利要求8所述的神经网络模型，其特征在于，该词汇表中记录每一个词汇及其在所述安全报告中的位置，将词汇的位置作为该词汇的索引值。

10.如权利要求7所述的神经网络模型，其特征在于，所述词嵌入向量生成模块使用随机浮点值初始化所述词嵌入向量矩阵，将该词嵌入向量矩阵中每一个元素的值初始化为一个随机的浮点数。