CN111460820A

CN111460820A - 一种基于预训练模型bert的网络空间安全领域命名实体识别方法和装置

Info

Publication number: CN111460820A
Application number: CN202010151014.9A
Authority: CN
Inventors: 韩瑶鹏; 姜波; 卢志刚; 刘玉岭; 刘俊荣
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2020-03-06
Filing date: 2020-03-06
Publication date: 2020-07-28
Anticipated expiration: 2040-03-06
Also published as: CN111460820B

Abstract

本发明涉及一种基于预训练模型BERT的网络空间安全领域命名实体识别方法和装置。该方法对输入的网络空间安全领域的句子文本使用BERT模型的分词器WordPiece进行分词预处理；将分词预处理得到的所有token加载至BERT模型中进行训练，获得输出的向量表示，并将其送至Highway网络和分类器，将token的向量表示的维度映射至与标签数量一致的维度，得到token的最终向量表示；然后只使用每一个单词的第一个token来使用交叉熵损失函数计算损失，将其反向传播以更新模型参数，得到训练完成的安全领域命名实体识别模型，用于安全领域命名实体识别。本发明能够有效地解决安全文本做命名实体识别任务。

Description

一种基于预训练模型BERT的网络空间安全领域命名实体识别方法和装置

技术领域

本发明提出了一种使用预训练模型BERT解决安全领域中的英文文本命名实体识别的方法和装置，涉及使用自然语言处理中的预训练模型来针对网络空间安全领域进行命名实体识别的方法，属于计算机科学与网络安全交叉技术领域。

背景技术

随着如今信息技术的不断发展以及网络空间安全问题不断发生，如何从增长迅速的安全文本中提取出有价值的信息已经成为研究的焦点。网络空间安全命名实体识别是一种基于特定领域的命名实体识别技术，主要目的是从大量安全文本中识别出恶意程序、黑客组织、漏洞、恶意文件名等不同类型的实体。这样不仅更加方便的为之后的构建网络安全知识图谱奠定了基础，还可以省去人工从文本中筛选信息的劳动力。

命名实体识别任务已经发展了好多年，方法已经从传统的基于特征的机器学习过渡到如今基于深度学习模型上，如RNN、CNN。网络空间安全领域的文本在非常迅速地增加，因此从中提取出重要的信息日益重要。但是网络空间安全领域的命名实体识别和传统的命名实体识别任务相比有几个难点。例如安全文本中经常有一些实体是缩写以及连写，经常会出现一些IP、文件名等实体不在词表中，经常会有新的词语作为实体出现和经常有一词多义的问题。RNN、CNN等传统的深度学习模型采用的是Word2Vec、Glove等静态词向量，不能很好地捕获词的上下文信息，不能很好的解决一词多义和未登录词等问题。因此使用经典的RNN、CNN深度学习模型并不能很好的解决这些安全领域的挑战。

近两年随着Transoformer网络结构的提出，基于此网络架构的预训练的模型已经逐渐成为当今自然语言处理领域研究的热点，并且在众多自然语言处理任务中表现超过了之前的基于RNN、CNN网络架构的深度学习模型。而在预训练模型中表现最好的当属BERT模型，并且之后很多的预训练模型都是基于BERT上进行开展研究的。在科学、医疗领域已经有较多的基于预训练模型的研究，但是很少有基于网络空间安全领域的预训练模型研究。因此本发明关注将预训练模型BERT应用于网络空间安全命名实体识别任务上来解决其中的难点。

BERT采用了双向的Transformer网络结构来进行语言建模，可以很好的捕获词的上下文信息。BERT采用了两个新的无监督预测任务，其一是遮蔽语言模型(MaskedLanguage Model，MLM)，MLM首先对输入句子进行分词，对于英文来说每一个词语会被切分若干部分，其中每一部分称为一个token，之后随机mask(遮蔽)句子中一部分token来对其进行预测的任务；另一个是下一句预测(Next Sentence Prediction，NSP)，通过预测每一个句子的之后句子是否是该句子的下一个句子的任务，是一个二分类任务。通过这两个预训练预测任务BERT能够很好的利用每个词的上下文信息，并且可以学习到单词的多义性。BERT还采用了WordPiece来作为分词器，通过首先对输入的文本进行分词预处理进而在输入至模型中。在处理英文数据时，WordPiece会将一些英文词语根据其前缀后缀切分为若干token，这样在处理一些有着不同形态时态的意思相近词语时，这些词可能被切分成包含相同的前缀后缀的token，而这些token也都包含着自己的语义信息，所以这些词有着更加相近准确的语义表示，或者在处理一些未登录词的时候能获取切分后的部分token的语义表示，而不仅仅将该词单独的作为未登录词来处理。通过这种分词不仅可以使词表大小显著较少，而且还可以更好的处理不同形态时态下的相近词和未登录词。

但是使用BERT在处理下游英文命名实体识别任务时，BERT使用的WordPiece会将一些英文词语切分成若干token，这样每个句子中的词语不能与它对应的标签一一对应。如单词Experts被切WordPiece切分成了Ex##pert##s三部分，与这个词语的标签‘<O>’对应不上，所以不能直接来计算交叉熵。根据这个问题本发明提出了一个新的解决方法，不仅能很好的将BERT应用于命名实体识别任务，并且还能很好的应用所有token的语义表示来获取更高的准确率召回率以及F1值。

综上所述，目前基于网络空间安全领域的命名实体识别研究大多集中于RNN、CNN模型上，但是RNN、CNN模型不能很好的解决网络安全领域命名实体识别任务中多义词和未登录词的问题。预训练模型BERT可以很好地解决安全领域的这些挑战，但是在网络安全领域上研究较少，并且BERT在解决英文命名实体识别任务时，会出现经WordPiece分词后，输入与标签对应不上的问题。

发明内容

针对现有RNN、CNN模型处理安全领域命名实体识别任务存在的问题，本发明的目的在于提供一种基于预训练模型的网络空间安全领域的命名实体识别方法和装置。本发明采用了预训练模型BERT解决安全领域命名实体识别的挑战时同时也解决了BERT分词器WordPiece对英文分词的引发的问题。

第一方面，本发明提供一种基于预训练模型BERT的网络空间安全领域命名实体识别模型构建方法，其步骤包括：

(1)对输入的网络空间安全领域的句子文本使用BERT模型的分词器WordPiece进行分词预处理；

(2)将分词预处理得到的所有token加载至BERT模型中进行训练，获得输出的向量表示；

(3)将从BERT模型获得的输出的向量表示送至Highway网络结构和分类器，将token的向量表示的维度映射至与标签数量一致的维度，得到token的最终向量表示；

(4)根据获得的所有token的最终向量表示，只使用每一个单词的第一个token来使用交叉熵损失函数计算损失loss，之后将其反向传播以更新模型参数(更新BERT模型、Highway网络结构、分类器这三部分的参数)，从而得到训练完成的安全领域命名实体识别模型(包括BERT模型、Highway网络和分类器)。

进一步地，步骤(1)首先将英文安全文本中的每一个句子使用BERT的分词器进行分词。BERT分词器采用的是WordPiece分词器，通过将一些长的词根据前后缀分成若干token，这样未登录词可以由每一个被切分的token包含的语义信息组合而成，而不是单一的将未登录词处理为out-of-vocabulary(词汇表以外的词)，并且还有一些具有相同意思不同时态的词语也可以获得相近的语义表示。

进一步地，步骤(2)在将分好词的句子的所有token输入至BERT模型里来获取高层次的语义表示。BERT采用了双向的Transformer网络结构，不像之前的语言模型只能获得词语的上文信息，忽略词语的下文信息。BERT通过设计一个新颖的MLM语言模型预测任务从而可以获得词语的上下文信息，从而使得经过BERT模型获取的获得的向量表示带有更加精确的语义信息。

进一步地，步骤(3)在获得句子中每个token的高级向量表示后，首先将其经过一层Highway网络，可以更容易的训练深层神经网络，并且得到更好的效果，之后经过一个分类器，该分类器是一个线性层映射，可以将步骤(2)获得的每个token的向量表示的维度映射至与标签数量相一致的维度，从而可以将其看成一个多分类任务。

进一步地，步骤(4)在经过步骤(3)获得每个token的最终向量表示后，此时因为输入的句子文本经过WordPiece分词器切分的每个词语的token数量与各自的标签不相等从而在计算交叉熵的时候不能一一对应。这个时候采用了mask机制的交叉熵，通过只将每个词的第一个token的与相对应的标签计算交叉熵，其他token将被mask而不参与交叉熵的计算。从而解决了因分词带来的token数量与标签对应不上的问题。

第二方面，本发明提供一种基于预训练模型BERT的网络空间安全领域命名实体识别方法，使用训练完成的安全领域命名实体识别模型对待识别的安全领域文本进行识别，包括以下步骤：

对待识别的安全领域文本使用BERT模型的分词器WordPiece进行分词预处理；

将分词预处理得到的所有token输入训练完成的安全领域命名实体识别模型中，依次经过BERT模型、Highway网络和分类器，得到安全领域命名实体识结果。

第三方面，本发明提供一种基于预训练模型BERT的网络空间安全领域命名实体识别装置，其包括：

分词预处理模块，用于对待识别的安全领域文本使用BERT模型的分词器WordPiece进行分词预处理；

命名实体识别模块，用于将分词预处理得到的所有token输入训练完成的安全领域命名实体识别模型中，依次经过BERT模型、Highway网络和分类器，得到安全领域命名实体识结果。

进一步地，上述装置还包括模型构建模块，用于采用本发明的上述模型构建方法构建安全领域命名实体识别模型。

与当前的技术研究相比，本发明的积极效果为：本发明将预训练模型BERT应用在了网络空间安全领域的命名实体识别上，可以很好的解决安全文本做命名实体识别任务，并且可以达到更高地准确率、召回率以及F1值。

附图说明

图1是本发明方法的整体模型架构图。

图2是本发明中使用该模型的一个具体样例。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例中的技术方案，并使本发明的目的、特征和优点能够更加明显易懂，下面结合附图对本发明中技术核心作进一步详细的说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

在本发明中，采用了基于预训练模型BERT的方法，本方法在解决安全领域命名实体识别任务中可以很好地满足安全文本中关键词和关键信息的提取，进而为安全事件的分析提供支撑。

本发明的整体模型架构如图1所示，所述方法的具体步骤细节描述如下所示：

(1)首先将输入的安全领域英文文本经过BERT分词器WordPiece，它会根据词的前后缀将一些词语拆分成若干token。这样一些未登录词和长词仍然可以通过前后缀得到每一个token的语义表示，而不是将其仅仅作为未登录词来处理。这样相同意思的英文词即使形态不一致也能得到近似的表示，而且使用该分词技术还能缩小词表的大小。

如图2中的输入文本Experts Warn在经过BERT分词器后被划分成了Ex##pert##sWar##n五个token，这样每一个token都包含着各自的语义信息并且都有着各自的向量表示。

(2)BERT模型首先会根据它设计的两个新型的无监督任务MLM和NSP在大量的无监督文本中预训练一个模型，这样可以获得每个单词准确的语义表示向量，之后利用预训练好的模型针对下游的具体任务微调。这样可以根据当前的具体任务获得更加准确的语义表示并且获得更好的结果，本发明是针对安全领域的命名实体识别任务微调。在获得从WordPiece分词器中得到的句子的每一个token向量后，将其输入至预训练好的BERT模型(图1中的BERT Model)来进行微调，这样可以根据更加具体的安全领域的命名实体识别任务获得更加精确的语义表示。在经过BERT模型微调后会获得每一个token的高层次的语义表示。如图2输入的文本在经过BERT分词器后得到的五个token(Ex##pert##s##War##n)经过BERT Model后得到各自的语义向量表示。

(3)在获得经过BERT模型所有token的语义表示后，之后选择将其经过一层Highway网络和一个线性层，组合成了如图1中的HC Model。Highway网络采用特有的网络结构，能够使得训练深层神经网络变得可行，线性层可以将token的语义向量的维度映射至与标签数量一致的维度进而为计算交叉熵提供支持。如图2中的词语被切分的token(Ex##pert##s##War##n)经过BERT Model得到的语义向量表示之后将其经过HC Model来得到与标签数量一致的维度。

(4)但是在计算交叉熵的时候会遇到输入文本的所有token和标签不能一一对应的问题，如图2中的Experts Warn两个单词有两个标签，但是经过HC Model模块后有(Ex##pert##s##War##n)5个token，与输入的两个标签不能对应。基于此问题提出了一个方法来解决。采用每一个单词的第一个token来与标签组合计算交叉熵(交叉熵的具体计算方式可以采用现有技术)，这样就可以解决不能对应的问题。

如图2中的单词Experts和Warn只取第一个单词Ex和War的第一个token信息来参与和标签进行交叉熵的计算，其他token将被mask从而不参与交叉熵的计算，这也就是图1中的Masked Cross-Entropy Loss模块。这是在经过BERT模型后采用的mask策略，与在BERT模型前就舍弃其他token方法不一样，本发明提出的方法可以将所有词语被分词器划分后的所有token都经过BERT模型，这样BERT可以更好地融合词语的信息于第一个token中，并且每一个词的其他token的信息也可以很好地融进第一个token里，从而使信息损失降低到最少。正比如在做分类模型时，一般都采用句子的首个特殊符号‘[CLS]’来作为句子的表示来用于分类，因为BERT可以很好地将句子中每个单词的信息融合进句子的第一个‘[CLS]’符号中。本发明中的方法与此类似，所以即使在这里只计算第一个token的交叉熵loss时，并不会损害过多的语义信息，可以佐证本发明的有效性。

本发明提供的安全领域的命名实体方法，可以很好的解决安全领域缩写词、多义词以及众多未登录词的问题。可以为之后的英文安全实体抽取以及事件分析提供技术支持。

针对开源的网络安全数据(open source cybersecurity data，参见Joshi,A.,Lal,R.,Finin,T.,Joshi,A.:Extracting cybersecurity related linked data fromtext.In:2013IEEE Seventh International Conference on Semantic Comput-ing.pp.252{259.IEEE(2013))，采用本发明与BiLSTM等模型的实验对比结果如表1所示。

表1.实验对比结果

模型	准确率(％)	召回率(％)	F1(％)
				BiLSTM	85.69	84.41	85.04
BiLSTM-CRF	86.12	84.79	85.45
				BiLSTM-CharCNN-CRF	86.67	85.06	85.85
本发明(MCL-BERT<sub>WWM</sub>)	87.96	87.50	87.73

本发明中的WordPiece分词器可以根据不同国家的语言来选择相应的分词器。本发明主要针对通过分词器将词分成若干部分的一些国家的语言。

基于同一发明构思，本发明的另一个实施例提供一种基于预训练模型BERT的网络空间安全领域命名实体识别装置，其包括：

上述装置进一步可包括模型构建模块，用于采用本发明的上述模型构建方法构建安全领域命名实体识别模型。

基于同一发明构思，本发明的另一个实施例提供一种电子装置(计算机、服务器、智能手机等)，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

基于同一发明构思，本发明的另一个实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

本发明未详细阐述的部分属于本领域技术人员的公知技术。

以上所述实施例仅表达了本发明的实施方式，其描述较为具体，但并不能因此理解为对本发明专利范围的限制。应当指出，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应当以所附权利要求为准。

Claims

1.一种基于预训练模型BERT的网络空间安全领域命名实体识别模型构建方法，其特征在于，包括以下步骤：

对输入的网络空间安全领域的句子文本使用BERT模型的分词器WordPiece进行分词预处理；

将分词预处理得到的所有token加载至BERT模型中进行训练，获得输出的向量表示；

将BERT模型输出的向量表示送至Highway网络和分类器，将token的向量表示的维度映射至与标签数量一致的维度，得到token的最终向量表示；

根据获得的所有token的最终向量表示，只使用每一个单词的第一个token来使用交叉熵损失函数计算损失，之后将其反向传播以更新BERT模型、Highway网络、分类器的参数，从而得到训练完成的安全领域命名实体识别模型。

2.根据权利要求1所述的方法，其特征在于，所述分词预处理将英文安全文本中的每一个句子使用BERT的WordPiece分词器进行分词，根据词的前后缀分成若干token。

3.根据权利要求2所述的方法，其特征在于，通过所述分词预处理，未登录词由每一个被切分的token包含的语义信息组合而成，并且具有相同意思不同时态的词语获得相近的语义表示。

4.根据权利要求1所述的方法，其特征在于，所述将分词预处理得到的所有token加载至BERT模型中进行训练，包括：

将从WordPiece分词器中得到的句子的每一个token输入至预训练的BERT模型；

通过预训练的BERT模型针对安全领域的命名实体识别任务进行微调，获得每一个token的高层次的语义表示。

5.根据权利要求1所述的方法，其特征在于，所述分类器是一个线性层，通过所述线性层将token的向量表示的维度映射至与标签数量一致的维度。

6.一种基于预训练模型BERT的网络空间安全领域命名实体识别方法，其特征在于，包括以下步骤：

将分词预处理得到的所有token输入权利要求1～5中任一权利要求所述方法构建的安全领域命名实体识别模型中，依次经过BERT模型、Highway网络和分类器，得到安全领域命名实体识结果。

7.一种基于预训练模型BERT的网络空间安全领域命名实体识别装置，其特征在于，包括：

命名实体识别模块，用于将分词预处理得到的所有token输入权利要求1～5中任一权利要求所述方法构建的安全领域命名实体识别模型中，依次经过BERT模型、Highway网络和分类器，得到安全领域命名实体识结果。

8.根据权利要求7所述的装置，其特征在于，还包括模型构建模块，用于采用权利要求1～5中任一权利要求所述方法构建安全领域命名实体识别模型。

9.一种电子装置，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1～6中任一权利要求所述方法的指令。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现权利要求1～6中任一权利要求所述的方法。