CN114298041A

CN114298041A - 网络安全命名实体的识别方法及识别装置

Info

Publication number: CN114298041A
Application number: CN202111429755.XA
Authority: CN
Inventors: 姚剑文; 潘季明
Original assignee: Beijing Topsec Technology Co Ltd; Beijing Topsec Network Security Technology Co Ltd; Beijing Topsec Software Co Ltd
Current assignee: Beijing Topsec Technology Co Ltd; Beijing Topsec Network Security Technology Co Ltd; Beijing Topsec Software Co Ltd
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2022-04-08

Abstract

本发明提出了一种网络安全命名实体的识别方法及识别装置。识别方法包括：采集网络安全数据；对采集的网络安全数据进行预处理，形成以句子为单位的输入序列；将输入序列输入预先训练好的实体识别模型中，计算输出识别结果；其中，实体识别模型通过指针网络从输入序列中提取所有实体，生成待分类的候选实体片段序列，再采用分类模型对候选实体片段序列进行分类后输出识别结果。本发明面向网络安全领域的命名实体检测，基于指针网络的思想提出一种新的能识别出嵌套实体以及非连续实体方法及装置，能够提高网络安全实体识别的可靠性和准确性，以及降低网络安全实体识别模型的时间复杂度。

Description

网络安全命名实体的识别方法及识别装置

技术领域

本发明涉及网络安全技术领域，尤其涉及一种网络安全命名实体的识别方法及识别装置。

背景技术

命名实体识别(Named Entity Recognition，简称NER)，又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。简单的讲，就是识别自然文本中的实体指称的边界和类别。

命名实体识别(NER)在网络安全领域非常重要。它帮助研究人员从非结构化文本源中提取网络威胁信息，提取的网络实体或关键表达可用于对开源文本中描述的网络攻击进行建模，目前使用较多的有两种NER模型。第一种是把NER问题当作序列标注问题采用序列标注模型，但由于其模型自身的限制无法解决嵌套实体识别问题。第二种是把NER问题当作片段分类问题采用基于片段序列分类的模型，该模型可以解决嵌套实体识别问题，但却无法解决非连续实体识别问题。本发明提出了一种能解决嵌套和非连续实体识别的模型。

发明内容

本发明要解决的技术问题是如何解决嵌套实体和非连续实体识别，本发明提出一种网络安全命名实体的识别方法及识别装置。

根据本发明实施例的网络安全命名实体的识别方法，包括：

采集网络安全数据；

对采集的所述网络安全数据进行预处理，形成以句子为单位的输入序列；

将所述输入序列输入预先训练好的实体识别模型中，输出识别结果；

其中，所述实体识别模型通过指针网络从所述输入序列中提取所有实体，生成待分类的候选实体片段序列，再采用分类模型对所述候选实体片段序列进行分类后输出识别结果。

根据本发明的一些实施例，所述实体识别模型的训练方法包括：

获取训练文本，并从所述训练文本中提取训练序列；

在训练序列的预设位置插入预设字符，形成训练输入序列；

基于所述训练输入序列，以bert模型作为编码器，以LSTM模型作为解码器，通过指针网络生成待分类的候选实体片段序列；

采用最大池化提取每一个所述候选片段序列的特征，然后拼接[CLS]向量，并使用全连接层进行实体分类。

在本发明的一些实施例中，所述实体识别模型的训练方法还包括：

采用交叉熵损失函数作为损失函数，设置预设参数，并基于测试训练结果调整预设参数。

根据本发明的一些实施例，所述在训练序列的预设位置插入预设字符包括：

在所述训练序列的第一个位置插入[CLS]字符，在所述训练序列的末尾依次插入[IN]和[END]字符。

在本发明的一些实施例中，在通过所述指针网络生成待分类的候选实体片段序列的过程中，当解码器的每个时间步的指针指向[IN]时，表示实体之间分割；当时间步指向END时，表示实体提取结束。

根据本发明实施例的网络安全命名实体的识别装置，包括：

数据收集模块，用于采集网络安全数据；

预处理模块，用于对采集的所述网络安全数据进行预处理，形成以句子为单位的输入序列；

识别模块，用于将所述输入序列输入预先训练好的实体识别模型中，计算输出识别结果；

其中，所述识别模块通过指针网络从所述输入序列中提取所有实体，生成待分类的候选实体片段序列，再采用分类模型对所述候选实体片段序列进行分类后输出识别结果。

根据本发明的一些实施例所述装置还包括模型训练模块，用于训练实体识别模型，所述模型训练模块包括：

训练序列提取模块，用于获取训练文本，并从所述训练文本中提取训练序列；

训练序列处理模块，用于在训练序列的预设位置插入预设字符，形成训练输入序列；

实体片段生成模块，用于基于所述训练输入序列，以bert模型作为编码器，以LSTM模型作为解码器，通过指针网络生成待分类的候选实体片段序列；

分类模块，用于采用最大池化提取每一个所述候选片段序列的特征，然后拼接[CLS]向量，并使用全连接层进行实体分类。

在本发明的一些实施例中，所述训练模块还包括：

模型优化模块，用于采用交叉熵损失函数作为损失函数，设置预设参数，并基于测试训练结果调整预设参数。

根据本发明的一些实施例所述训练序列处理模块在训练序列的预设位置插入预设字符包括：

在本发明的一些实施例中，所述识别模块在通过所述指针网络生成待分类的候选实体片段序列的过程中，当解码器的每个时间步的指针指向[IN]时，表示实体之间分割；当时间步指向END时，表示实体提取结束。

本发明提出的网络安全实体识别方法及识别装置具有如下有益效果：

本发明面向网络安全领域的命名实体检测，基于指针网络的思想提出一种新的能识别出嵌套实体以及非连续实体方法及装置，能够提高网络安全实体识别的可靠性和准确性，以及降低网络安全实体识别模型的时间复杂度。

附图说明

图1为一个描述攻击结果实体的文本示意图；

图2为根据本发明实施例的网络安全命名实体的识别方法流程图；

图3为根据本发明实施例的实体识别模型训练方法流程图；

图4为根据本发明实施例的候选实体片段序列获取方法流程图；

图5为根据本发明实施例的候选实体片段序列分类方法流程图；

图6为根据本发明实施例的网络安全命名实体的识别装置组成示意图；

图7为根据本发明实施例的模型训练模块的组成示意图。

附图标记：

识别装置100，

数据收集模块10，预处理模块20，识别模块30，模型训练模块40，训练序列提取模块410，训练序列处理模块420，实体片段生成模块430，分类模块440。

具体实施方式

为更进一步阐述本发明为达成预定目的所采取的技术手段及功效，以下结合附图及较佳实施例，对本发明进行详细说明如后。

本发明中说明书中对方法流程的描述及本发明说明书附图中流程图的步骤并非必须按步骤标号严格执行，方法步骤是可以改变执行顺序的。而且，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

相关技术中，把命名实体识别问题看作为序列标注问题，一般使用Word2Vec词向量或者预训练语言模型如：Bert作为词嵌入层，顶层为CRF层进行实体分类。最经典的有：Word2Vec+Bilstm+CRF模型。

上述技术手段，对于序列标注问题，由于其模型自身的限制无法解决嵌套实体识别的问题。而对于网络安全领域来说其文本中会包含大量的嵌套实体，比如对于一个描述攻击结果实体其中会包含一些组织机构、日期。如图1所示，而在识别时需要把包含的所有实体都识别出来。而使用基于序列标注的模型将无法解决这些问题。

另有相关技术中，把命名实体识别问题看作为片段序列分类问题，对于一个待识别的样本枚举出所有的片段序列。并获取每一个片段序列的向量表达，然后给每一个片段序列进行分类。把非连续实体当作关系分类来看待，把实体片段两两配对，识别他们是继承关系还是其他关系。

上述技术手段，通过枚举句子中包含的所有片段序列可以有效的解决嵌套实体识别问题，但该方法会带来一个严重的问题：计算成本过高。对于一个长度为N的句子要枚举

个片段序列，其时间复杂度为O(N²)。如此高的时间复杂度让模型在实际使用中变的不太现实。在非连续实体分类阶段则是套用了关系抽取的框架，会出现错误的累积。

本发明针对在网络安全领域上同时解决嵌套实体和非连续实体识别，以及降低时间复杂度的问题。提出一种新的模型及方法不再把非连续实体当作关系分类框架处理，提高模型的性能同时有效的降低时间复杂度。

如图2所示，根据本发明实施例的网络安全命名实体的识别方法，包括：

S100，采集网络安全数据；

例如，可以从网络上各种来源爬取与安全相关的文章，如安全技术博客、各大网络安全公司发布的安全事件文章、APT事件报告、安全事件相关的微信公众号推文等。

S200，对采集的网络安全数据进行预处理，形成以句子为单位的输入序列；

需要说明的是，收集的数据包含文本数据以及PDF数据，需要把PDF数据转换为文本数据。首先，提取PDF文件中包含的图片。然后，使用OCR技术识别出图片中出现的文字内容。然后，使用pdf2text工具把pdf文件转换为文本数据，最后汇总OCR识别的结果以及pdf2text转换后的结果。由于NER识别是以句子为单位，所以把文本数据以句子为单位进行切分。

S300，将输入序列输入预先训练好的实体识别模型中，输出识别结果；

其中，实体识别模型通过指针网络从输入序列中提取所有实体，生成待分类的候选实体片段序列，再采用分类模型对候选实体片段序列进行分类后输出识别结果。

根据本发明的一些实施例，如图3-5所示，实体识别模型的训练方法包括：

A100，获取训练文本，并从训练文本中提取训练序列；

A200，在训练序列的预设位置插入预设字符，形成训练输入序列；

A300，基于训练输入序列，以bert模型作为编码器，以LSTM模型作为解码器，通过指针网络生成待分类的候选实体片段序列；

A400，采用最大池化提取每一个候选片段序列的特征，然后拼接[CLS]向量，并使用全连接层进行实体分类。

在本发明的一些实施例中，实体识别模型的训练方法还包括：

A500，采用交叉熵损失函数作为损失函数，设置预设参数，并基于测试训练结果调整预设参数。

根据本发明的一些实施例，如图4所示，在训练序列的预设位置插入预设字符包括：

在训练序列的第一个位置插入[CLS]字符，在训练序列的末尾依次插入[IN]和[END]字符。

在本发明的一些实施例中，结合图4所示，在通过指针网络生成待分类的候选实体片段序列的过程中，当解码器的每个时间步的指针指向[IN]时，表示实体之间分割；当时间步指向END时，表示实体提取结束。

如图6所示，根据本发明实施例的网络安全命名实体的识别装置100，包括：数据收集模块10、预处理模块20和识别模块30。

其中，数据收集模块10用于采集网络安全数据。例如，数据收集模块10可以从网络上各种来源爬取与安全相关的文章，如安全技术博客、各大网络安全公司发布的安全事件文章、APT事件报告、安全事件相关的微信公众号推文等。

预处理模块20用于对采集的网络安全数据进行预处理，形成以句子为单位的输入序列。

需要说明的是，数据收集模块10收集的数据包含文本数据以及PDF数据，需要把PDF数据转换为文本数据。首先，提取PDF文件中包含的图片。然后，使用OCR技术识别出图片中出现的文字内容。然后，使用pdf2text工具把pdf文件转换为文本数据，最后汇总OCR识别的结果以及pdf2text转换后的结果。由于NER识别是以句子为单位，所以把文本数据以句子为单位进行切分。

识别模块30用于将输入序列输入预先训练好的实体识别模型中，计算输出识别结果。

其中，识别模块30通过指针网络从输入序列中提取所有实体，生成待分类的候选实体片段序列，再采用分类模型对候选实体片段序列进行分类后输出识别结果。

如图7所示，根据本发明的一些实施例装置还包括：用于训练实体识别模型的模型训练模块40，模型训练模块40包括：训练序列提取模块410、训练序列处理模块420、实体片段生成模块430及分类模块440。

其中，训练序列提取模块410用于获取训练文本，并从训练文本中提取训练序列；

训练序列处理模块420用于在训练序列的预设位置插入预设字符，形成训练输入序列；

实体片段生成模块430用于基于训练输入序列，以bert模型作为编码器，以LSTM模型作为解码器，通过指针网络生成待分类的候选实体片段序列；

分类模块440用于采用最大池化提取每一个候选片段序列的特征，然后拼接[CLS]向量，并使用全连接层进行实体分类。

在本发明的一些实施例中，训练模块还包括：模型优化模块，用于采用交叉熵损失函数作为损失函数，设置预设参数，并基于测试训练结果调整预设参数。

根据本发明的一些实施例训练序列处理模块420在训练序列的预设位置插入预设字符包括：

在本发明的一些实施例中，识别模块30在通过指针网络生成待分类的候选实体片段序列的过程中，当解码器的每个时间步的指针指向[IN]时，表示实体之间分割；当时间步指向END时，表示实体提取结束。

本发明提出的网络安全实体识别方法及识别装置100具有如下有益效果：

下面参照附图详细描述根据本发明的网络安全命名实体的识别方法及识别装置100。

如图2所示，网络安全命名实体的识别方法包括以下步骤：数据收集；数据预处理；模型搭建；模型训练；实体识别。

网络安全命名实体的识别装置100包括：数据收集模块10、预处理模块20、模型搭建模块、模型训练模块40及识别模块30。

其中，数据收集模块10用于从网络上各种来源爬取与安全相关的文章，如安全技术博客；各大网络安全公司发布的安全事件文章；APT事件报告；安全事件相关的微信公众号推文等。

数据预处理模块20用于对收集的数据进行预处理，收集的数据包含文本数据以及PDF数据，需要把PDF数据转换为文本数据。首先提取PDF文件中包含的图片，然后使用OCR技术识别出图片中出现的文字内容。然后使用pdf2text工具把pdf文件转换为文本数据，最后汇总OCR识别的结果以及pdf2text转换后的结果。由于NER识别是以句子为单位，所以把文本数据以句子为单位进行切分。

模型搭建模块用于创建识别模型，本发明提出了一种两阶段实体识别模型。首先，通过指针网络来提取所有实体生成待分类的候选实体片段序列。然后，用分类模型来为实体片段序列进行分类任务。通过对指针网络(一种seq2seq模型，pointer network直接将attention作为输出序列中每一个位置输出的概率)加以改进用来提取非连续实体以及嵌套实体，从而有效的枚举出所待识别的片段序列，为后续的实体分类任务降低时间复杂度。

由于预训练模型使用大规模的语料学习到了语义信息，所以使用预训练语言模型BERT作为其单词嵌入器。首先，对于输入序列在第一个位置插入特殊字符[CLS]用于表示捕获整个句子上下文信息，在输入序列的末尾依次插入[IN]、[END]。然后输入BERT模型中得到所返回的向量。

将输入句子表示为L＝{s1,s2,s3,…,sn}，将带注释的实体集合表示为E＝{e1,e2,e3,…,em}其中n表示句子长度，m表示实体数量。其中E中的每个元素为L中的子集。在这一阶段，采取不同于以往的非连续实体识别模型，即先识别实体类型再去判断连续性。

采用指针网络的思想，先识别出实体的边界以及连续性再去识别实体的类型。指针网络在解码阶段不会生成除输入数据以外的其他单词，这一特点符合提取实体的要求。同时，还优化该网络以达到识别实体的目的，具体来说，引入两个哨兵节点来去区分实体的边界[IN]节点以及预测的终止[END]节点。其中在单词嵌入表示阶段的Bert模型作为编码器，LSTM作为解码器用于提取实体片段，如图4所示。

当解码器的每个时间步的指针指向IN时表示实体之间的分割，当时间步指向END时表示实体提取结束。如图4所示，所输出的结果为：

[START,(s1,s3),IN,(s5,s6),END]即s1和s3作为非连续实体输出，s5,s6为连续实体输出。

根据上一阶段的识别结果，提取从bert编码器中提取非连续的片段序列和连续的片段序列。统一采用最大池化来提取每一个候选片段序列的特征，然后拼接[CLS]向量，使用全连接层进行其实体分类。该分类层会输出每个候选片段序列所属的实体类别或者是非实体类别。

模型训练模块40用于对创建的实体识别模型进行训练，在候选实体识别时损失记为L1，在实体识别时损失记为L2，最终的损失为Loss＝L1+L2。都采用交叉熵损失函数作为损失函数。设置训练轮数(epoch)、批次大小(batch size)、学习率(lr)。测试结果并调整超参数至最优状态。

综上所述，本发明面向网络安全领域的命名实体检测，基于指针网络的思想提出一种新的能识别出嵌套实体以及非连续实体方法及装置，能够提高网络安全实体识别的可靠性和准确性，以及降低网络安全实体识别模型的时间复杂度。

通过具体实施方式的说明，应当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解，然而所附图示仅是提供参考与说明之用，并非用来对本发明加以限制。

Claims

1.一种网络安全命名实体的识别方法，其特征在于，包括：

采集网络安全数据；

2.根据权利要求1所述的网络安全命名实体的识别方法，其特征在于，所述实体识别模型的训练方法包括：

获取训练文本，并从所述训练文本中提取训练序列；

在训练序列的预设位置插入预设字符，形成训练输入序列；

3.根据权利要求2所述的网络安全命名实体的识别方法，其特征在于，所述实体识别模型的训练方法还包括：

4.根据权利要求2所述的网络安全命名实体的识别方法，其特征在于，所述在训练序列的预设位置插入预设字符包括：

5.根据权利要求4所述的网络安全命名实体的识别方法，其特征在于，在通过所述指针网络生成待分类的候选实体片段序列的过程中，当解码器的每个时间步的指针指向[IN]时，表示实体之间分割；当时间步指向END时，表示实体提取结束。

6.一种网络安全命名实体的识别装置，其特征在于，包括：

数据收集模块，用于采集网络安全数据；

7.根据权利要求6所述的网络安全命名实体的识别装置，其特征在于，所述装置还包括：模型训练模块，用于训练实体识别模型，所述模型训练模块包括：

8.根据权利要求7所述的网络安全命名实体的识别装置，其特征在于，所述训练模块还包括：

9.根据权利要求7所述的网络安全命名实体的识别装置，其特征在于，所述训练序列处理模块在训练序列的预设位置插入预设字符包括：

10.根据权利要求9所述的网络安全命名实体的识别装置，其特征在于，所述识别模块在通过所述指针网络生成待分类的候选实体片段序列的过程中，当解码器的每个时间步的指针指向[IN]时，表示实体之间分割；当时间步指向END时，表示实体提取结束。