CN113673248A

CN113673248A - 试验鉴定小样本文本的命名实体识别方法

Info

Publication number: CN113673248A
Application number: CN202110970570.3A
Authority: CN
Inventors: 张静; 胡军; 栾瑞鹏; 李守斌
Original assignee: Chinese People's Liberation Army 32801
Current assignee: Chinese People's Liberation Army 32801
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2021-11-19
Anticipated expiration: 2041-08-23
Also published as: CN113673248B

Abstract

本发明公开了一种试验鉴定小样本文本的命名实体识别方法，其具体步骤包括，进行对照实验，并根据实验结果构建实体识别的基线模型；对基线模型进行改进，得到实体识别模型；实体识别模型包括文本预训练模型、编码模型和解码模型，三个模型依次连接；利用该实体识别模型对实体进行识别，对识别错误的情况分类进行汇总并进行语义分析，针对错误情况制定语义修正规则，并构建语义修正规则模块，实现对实体识别模型识别结果的语义修正。针对试验鉴定等特定领域实体构成较为复杂、实体长度长、实体掺杂无关噪声等问题，本方法对多模型神经网络识别的错误结果进行分类统计分析，制定出多个修正规则对融合结果进行修正。

Description

试验鉴定小样本文本的命名实体识别方法

技术领域

本发明涉及自然语言处理领域，尤其涉及一种试验鉴定小样本文本的命名实体识别方法。

背景技术

命名实体识别(Named Entity Recognition，NER)的任务从属于自然语言处理，作为自然语言处理的一个分支，它的目的是将自然文本中的实体抽取出来并按照标签类别进行划分，例如：人名、地名、组织机构名等等，实体识别目前已经在问答系统、关系抽取、语义分析、句法分析、机器翻译等方面有广泛的应用。对于实体识别的研究早在三十年前就已经开始，目前命名实体识别的研究成果已经十分丰富，根据资料显示，其研究成果已经大量应用于企业及多个领域。根据数据显示，实体识别技术目前达到的识别效率已经在某些方面和人工识别相当。对于通用文本，专家学者提出了各种各样的方法，例如：基于统计的神经网络、基于规则的方法等等。

在实体识别的研究中，知识库的构建是其中重要的一环，国内外关于知识库的构建已经相当成熟，其中不乏有诸如MindNet以及WordNet这样的开放知识库。由于命名实体识别属于自然语言处理的子任务，因此它的基础方法也同样分为基于统计、基于规则和混合的方法。早期方法主要集中在基于人工构建语义规则和词典，比如Sheffield大学的LaSIEII与ISOQuest所做出的的研究。到了21世纪初，随着条件随机场CRF等一系列模型的成熟，其在自然语言处理方面也有了较为广泛的应用。到了近些年，随着神经网络模型的兴起，LSTM、BiLSTM等模型逐渐进入学者的视野。学者们使用CRF和神经网络结合的方式获取语料中的上下文信息，同时又加入了注意力机制 (Attention)来不断调整其中的权重信息。从此，基于统计的深度学习方法就开始成为实体识别的主流，但这个方法需要大量的标注数据进行模型的训练，因此后来学者们又提出了半监督的方法和迁移学习来解决这些问题。

虽然目前的主流方法是基于统计的机器学习方法，但其由于需要大量的标注预料进行模型的训练，因此该类方法也并不是十分完美的方法。在缺少标注预料的时候，可以考虑使用基于规则和词典的方法来进行实体识别任务。这种方法对于通用文本往往可以起到很好的效果，其高效、稳定、快速的特点成为了很多通用领域青睐于基于规则和词典方法的原因。但对于结构更加复杂的领域数据，其效率就会大打折扣。基于规则和词典的方法经常是利用专家人工构建语义规则模板，根据专家对于训练预料的理解制定相应的识别规则，将预料中实体的特点进行概述，使用规则模板和字符串匹配的方法，对语料按照规则进行实体的抽取。同时需要构建一些实体词典，来对规则库进行辅助识别。但这个方法只针对于某些特定领域，一旦领域发生变更，识别规则就会失效，无法进行移植，需要组织专家对新的语料库进行语义分析并重新制定规则。除了基于规则和词典的实体识别方法，学者研究以及使用最多的还是基于统计的机器学习方法，这种方法的核心思路是使用人工事先标注好的语料进行统计分析，使用神经网络、条件随机场等概率模型进行学习，进而构建标注器，最终使用构建出的标注模型对测试文本进行结果预测。目前基于统计的机器学习方法分为以下几类：有监督、无监督、半监督和混合的方法。常用的概率模型有很多，例如：隐马尔科夫模型HMM、条件随机场CRF等等。

在基于统计的机器学习方法中，对于训练数据的选取尤为重要，数据的选取对于模型的训练结果影响十分重大，我们需要从大量的标注数据中选取具备各种特征的数据进行训练。对于实体识别任务，如何从海量标注数据中选取特征最为明显，最容易让模型学习的数据就显得十分重要。面对这类问题，我们通常的做法是在模型训练之前，对训练预料进行充分的数据统计分析，从预料中提取出表层特征，其中例如：上下文特征、单字特征、单词特征、核心词特征等等，然后根据数据统计结果选取合适的语料供模型进行训练。

随着近些年神经网络的热度逐渐递增，研究人员尝试使用NN模型对实体识别任务赋予新的生命力。作为神经网络在实体识别应用的先驱，Collobert 等人尝试使用卷积神经网络CNN与CRF结合的方法，其使用滑动窗口和预料句子相结合，滑动窗口代表了上下文的语义输入，同时模型中尝试加入句子的相对位置用来融合上下文的语义特征，通过这种方式对文中的每一个词进行划分，然后用卷积神经网络CNN进行学习。文中使用词袋模型进行训练预料的输入，同时使用两种目标函数进行模型的评判：第一种是基于词的对数似然，利用Softmax函数来对标签的概率进行预测，这个方法是将实体识别任务当做是一个普通的分类问题；第二种是基于句子的对数似然，这个目标函数利用了条件随机场CRF模型在序列标注任务中的优点，将标签转移的概分数融合在了目标函数中。这种方法启发了后续很多学者将CRF层加入到最后的实体识别模型中。在这片论文的实验结果中显示，其使用的CNN-CRF模型在基于句子的对数似然方法中效果明显优于其他方法。

除了上述的方法之外，目前针对实体识别任务更加常用的是混合方法，以BiLSTM-CNN-CRF的架构为例进行阐述。这个模型的主要思想是使用卷积神经网络CNN对训练预料中的字符转变为词编码，从而进行特征表达，在训练预料输入到双向LSTM之前进行词嵌入的处理，最终将处理的数据输入到模型中。其核心思想就是构造BiLSTM-CRF模型，融合包括字级别、词级别甚至是句子级别的不同类型特征。混合方法一般都在字级别进行模型的训练，然后不断提升数据的粒度，结合词级别以及句子级别的不同维度特征进行特征融合。同时，结合词嵌入作为模型的输入，对训练预料的上下文信息进行融合，构成最终的模型结构。

发明内容

针对现有实体识别方法应用于试验鉴定领域数据所存在的针对性不强、识别效率受限的问题，本发明公开了一种试验鉴定小样本文本的命名实体识别方法，解决试验鉴定领域文本较为特殊的语言形式。

本发明公开了一种试验鉴定小样本文本的命名实体识别方法，其具体步骤包括，

S1，进行对照实验，并根据实验结果构建实体识别的基线模型；首先使用识别模型对试验鉴定小样本文本数据集进行对照实验，识别模型包括： BiLSTM模型、LSTM模型结合CRF模型、BiLSTM模型结合CRF模型和BERT模型结合BiLSTM模型结合CRF模型等，根据实验结果，选取识别准确率最高、识别稳定性最强的BERT-BiLSTM-CRF模型作为基线模型，BERT-BiLSTM-CRF 模型采用BERT模型进行语言预训练，采用BiLSTM模型进行编码，采用CRF 模型进行最优预测；

S2，对基线模型进行改进，得到实体识别模型；实体识别模型包括文本预训练模型、编码模型和解码模型，三个模型依次连接；

选取多种Bert模型的改进模型，利用试验鉴定小样本文本数据集的训练集，进行对照实验，所述的Bert模型的改进模型包括Huawei NEZHA模型、 Google Bert模型和Albert模型等，根据实验结果，选择Huawei NEZHA模型作为实体识别模型的文本预训练模型，用Huawei NEZHA模型对文本进行预训练；

选取多种编码器模型,利用试验鉴定小样本文本数据集的训练集，对多种编码器模型，进行对照实验，并根据实验结果分析各种编码器的优势，利用 BiLSTM模型、TENER模型、RTransfomer模型共同对文本进行识别；将BiLSTM 模型、TENER模型、RTransfomer模型共同构成实体识别模型的编码模型，在实体识别模型中，文本预训练模型的输出结果，输入到其编码模型中，由编码模型中的BiLSTM模型、TENER模型、RTransfomer模型共同对文本进行识别，将该三种模型的识别结果进行投票融合，对于投票融合后的识别结果出现的实体重叠，保留重叠的一组实体中出现次数最多的实体，将该组实体中的其余实体舍弃，从而消除识别结果中实体重叠的现象，得到实体识别模型的编码模型的识别融合结果；

在实体识别模型中，利用CRF模型作为解码模型，该解码模型接收实体识别模型的编码模型的识别融合结果，并对该结果进行解码，得到一个预测标注序列，然后对该预测标注序列中的各个实体进行提取分类；

S3，利用该实体识别模型对试验要素、任务场景、性能指标和系统组成四个实体类别进行识别，得到识别结果，对该识别结果进行分类统计分析，对识别错误的情况分类进行汇总并进行语义分析，针对错误情况制定语义修正规则，并构建语义修正规则模块，将该模块置于实体识别模型的后部，实现对实体识别模型识别结果的语义修正。

在完成上述步骤S1至S3后，利用实体识别模型和语义修正规则模块，实现对试验鉴定小样本文本进行实体识别。

所述的试验鉴定小样本文本数据，其对应的实体分为以下四类：

第一类是试验要素，包括试验鉴定工作的对象、支持完成试验鉴定所需的条件和装备的基本情况。

第二类是性能指标，包括试验要素在技术、使用等性能方面的定性、定量描述。

第三类是系统组成，包括被试对象的组成部分。

第四类是任务场景，包括试验要素在发挥其实际效用和价值中涉及的信息。

所述的步骤S1，利用BERT-BiLSTM-CRF模型作为基线模型，该基线模型包括BERT模型、BiLSTM模型和CRF模型，BERT模型与BiLSTM模型相连接， BiLSTM模型和CRF模型相连接，

步骤S1所述的使用识别模型对试验鉴定小样本文本数据集进行对照实验，识别模型将获取的试验鉴定小样本文本作为语料，对该语料进行标注，将经过标注的语料进行语言预训练，获得该文本的词向量，之后再把该词向量进行编码，最终对编码输出进行解码，得到一个预测标注序列，然后对该预测标注序列中的各个实体进行提取分类，从而得到实验结果。

所述的语义修正规则，其具体包括：

当试验鉴定小样本文本中出现和、与、或、以及的连接词时，需要将连接词前后实体进行相似度检查，计算其前后实体的相似度，当相似度大于设定阈值时，即将连接词前后实体合并标记为一个实体，当相似度小于设定阈值时，将连接词前后实体标记为两个实体。

当实体前面出现成对符号的左边符号时，查看实体后面临近位置是否出现与之匹配的右边符号，如果出现，就将左边符号纳入实体标注的范围；当实体结尾后面出现成对符号的右边符号时，就从实体位置向前搜索是否存在与之匹配的左符号，如果存在，就将右边符号纳入实体标注的范围。

在样本数据中出现问号、空格特殊字符时，针对这些样本数据中出现的特殊符号进行正则匹配并删除，并修正了识别结果中受影响实体的起始位置与结束位置。

在几种预训练模型中，Huawei NEZHA模型对试验鉴定小样本文本数据的识别效果最好，因此采用Huawei NEZHA模型作为文本预训练模型。

基于BiLSTM编码器的模型在各类别实体的识别上表现比较稳定，TENER 编码器对于长实体的识别效果较好，而RTransfomer模型能识别出一些其余两编码器不能识别出的实体。根据这些特点，将以上模型的结果进行投票融合后，得到最终的识别结果。

所述的试验鉴定小样本文本数据集，包括试验鉴定小样本文本数据集的训练集和测试集，该数据集可通过网络上的开源试验鉴定数据获得。

本发明的有益效果为：

1.在针对通用命名实体识别相关技术的研究基础上，对试验鉴定领域数据构建出针对性更强、识别效率更高的实体识别方法。本发明设计了一个基于BERT-Encoder-CRF的实体识别模型，同时，尝试对比BERT模块的多种预训练模型，针对同一特定领域数据集进行实验，最终选取效果最好、针对性最强的Huawei NEZHA作为BERT模块的预训练模型，极大程度地提升了识别效率。

2.本发明在编码器模块结合了BiLSTM、TENER以及RTransformer的自身优势，制定了基于编码器模块的多模型融合策略，扬长避短，利用多模型的优点优化实体识别模型。

3.针对试验鉴定等特定领域实体构成较为复杂、实体长度长、实体掺杂无关噪声而带来的实体识别困难等问题，本发明提出了一种基于特定领域语义规则的修正方法，该方法对多模型神经网络识别的错误结果进行分类统计分析，制定出多个修正规则，对融合结果进行修正与重构。

附图说明

图1为本发明的试验鉴定小样本文本的命名实体识别方法流程图；

图2为本发明的BERT-BiLSTM-CRF模型架构图；

图3本发明的为BERT预训练模型中的Transformer编码器架构图。

具体实施方式

为了更好的了解本发明内容，这里给出一个实施例。

本发明公开了一种试验鉴定小样本文本的命名实体识别方法，采用基于规则以及多模型融合策略的实体识别框架，其具体步骤包括，

由于Bert模型基于大规模训练数据实现，模型本身具有很强的鲁棒性，并且能够高效地应用到具体任务中，因此选取多种Bert模型的改进模型，利用试验鉴定小样本文本数据集的训练集，进行对照实验，所述的Bert模型的改进模型包括Huawei NEZHA模型、Google Bert模型和Albert模型等，根据实验结果，选择Huawei NEZHA模型作为实体识别模型的文本预训练模型，用Huawei NEZHA模型对文本进行预训练；

利用实体识别模型和语义修正规则模块，实现对试验鉴定小样本文本进行实体识别。

图1为本发明的试验鉴定小样本文本的命名实体识别方法流程图；图2 为本发明的BERT-BiLSTM-CRF模型架构图；图3本发明的为BERT预训练模型中的Transformer编码器架构图。

第一类是试验要素，包括试验鉴定工作的对象、支持完成试验鉴定所需的条件和装备的基本情况，对于试验鉴定工作的对象，如列为考核目标的武器装备(系统级)、技术、战术、人员、对象之间的能力等；对于支持完成试验鉴定所需的条件，如陪试品、参试装备、测试、测量、靶标、仿真等，具体包括协同通信与指挥、连续波测量雷达、电影经纬仪、无人机靶标等；对于装备的基本情况，例如：RS-24弹道导弹、SPY-1D相控阵雷达、紫菀防空导弹(Aster)、F-35“闪电”II型联合攻击战斗机、“阿利·伯克”级 Flight IIA型驱逐舰“约翰芬”号。

第二类是性能指标，包括试验要素在技术、使用等性能方面的定性、定量描述，如重量、射程、可靠性等，具体例如：测量精度、圆概率偏差、失效距离、准备时间、反激光毁伤、发射方式等。

第三类是系统组成，包括被试对象的组成部分，如子系统、部件、采用的技术等，例如：动能杀伤飞行器(KKV)、中波红外导引头、助推器、整流罩、箔条红外混合诱饵弹、碰撞杀伤技术、柔性摆动喷管技术、端羟基聚丁二烯等。

第四类是任务场景，包括试验要素在发挥其实际效用和价值中涉及的信息，如人员、对抗目标、体系能力等，具体包括导弹预警、迫击炮威胁等。

所述的语义修正规则，其具体包括：

BERT模型基于Transformer模型进行实现，Transformer模型采用 SelfAttention自注意力机制，该自注意力机制通过不断修改训练数据中词与此之间彼此的连接权重来尽可能多的捕获上下文的语义信息，这对于实体识别和标签预测是至关重要的。同样的，自注意力机制调整连接系数的转换公式为：

式中，Z表示注意力函数的输出，Attension(Q,K,V)表示注意力函数，其中Q 代表了查询向量，K代表了键向量，V代表了值向量，d_k代表词嵌入矩阵的维度。而Transformer结构中的多头注意力机制则通过对于Q、K和V进行不同的线性变换从而获取其新的投影表达，最后将多次变换的结果进行合并和拼接，得到最终的词嵌入矩阵，所述的对于Q、K和V进行不同的线性变换，其公式为：

MultiHead(Q,K,V)＝Concat(head1,…,headn)W^O， (2)

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)， (3)

其中，MultiHead(Q,K,V)表示多头注意力函数，Concat()表示向量拼接函数，head_i表示第i次线性投影后的注意力函数输出，W_i ^Q,W_i ^K,W_i ^V分别表示Q,K,V 的线性变换参数矩阵，W^O表示多头注意力函数的权重矩阵，。

根据对Transformer结构的描述以及词嵌入表示的阐述，BERT模型模块可从原始序列中获取上下文的语义特征，并使用W^O作为特征权重矩阵，对其进行特征变换，从而得到最终的特征输出。但是BERT中的Transformer结构并不像RNN循环神经网络那样从前至后获取到整个序列的特征信息，其只能反映相对位置的上下文语义，因此BERT模型在Transformer结构的输入中添加了位置编码信息向量，将其与输入信息进行加权求和，从而使得输入向量包含了每个字在原始文本中的相对位置信息。

在Transformer结构中放置了两层全连接层进行信息处理，第一层使用 ReLU作为激活函数，第二层则使用线性激活函数，全连接层的前馈神经网络的表达式为：

FFN(Z)＝max(0,ZW₁+b₁)W₂+b₂ (4)

其中，FFN(Z)表示前馈神经网络输出结果，Z表示注意力函数的输出，W₁和 W₂均表示权重矩阵，b₁和b₂均表示偏置向量。

编码层利用BiLSTM模型、TENER模型、RTransfomer模型进行多模型融合实现。以上模型的结果进行投票融合后，得到最终的识别结果。

LSTM作为循环神经网络RNN的优化结构，对RNN中的梯度爆炸和梯度消失情况进行了解决，使用门控的概念更好地捕获长距离信息。

LSTM的核心思想集中在上图中展示的各个门控结构，分别为：输入门、遗忘门、输出门和记忆单元。其中门与门之间是互相协作的关系，例如：输入门和遗忘门主要是将有价值的信息传递到下一层或是下一时刻，并将没有价值的信息进行丢弃。而记忆单元与输出门所得结果的乘积即表示为整个结构的输出，该结构的运算表达式如下所示：

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)

z_t＝tanh(W_xcx_t+W_hch_t-1+b_c)

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f)

c_t＝f_tc_t-1+i_tz_t

o_t＝tanh(W_xox_t+W_hoh_t-1+W_coc_t+b_o)

h_t＝o_ttanh(c_t) (5)

在LSTM表达式中，σ表示为激活函数，W表示为权重矩阵，b表示为偏置向量。Zt表示为需要新增的编码信息，Ct表示为序列在t时刻更新后的状态信息，而最为重要的输入门、输出门以及遗忘门则用it、ft、ot表示。最后，ht表示了整个单元在t时刻的输出结果。

对于LSTM模型结构，由于其从前向后的读取顺序，无法获取上文中的有效信息。Graves A.等人对于LSTM的结构进行了优化，提出了BiLSTM双向长短期记忆网络的概念，其使用一个前向和一个后向的LSTM结构进行实验，并对两者的输出结构进行合并，根据这一模型结构，BiLSTM就可以在同一时刻获取到前向和后向的语义信息，相较于单向结构，BiLSTM的识别效率更好，模型输出结果如下所示：

使用CRF模块对相邻标签的依赖关系进行最优预测，CRF模块基于CRF 模型来实现，在CRF模块中，对于输入序列X＝(x1,x2,…,xn)，xi表示序列中的字符，n表示序列长度。需要使用得分矩阵P对原始序列进行词与标签之间的得分预测，对需要预测的真实标注序列Y＝(y1,y2,…,yn)，其得分表达式为：

其中，A为转换矩阵，

表示从标签yi转换为标签yi+1的得分，

表示第i个标签为真实标签yi的得分，而对于预测序列Y产生的概率和似然函数p(Y,X)，其表达式为：

其中，，Y_X表示所有可能的预测序列，p(Y|X)表示真实标注序列的条件概率。通过CRF模块对编码层输出进行解码后，获得的序列为：

根据本发明选取的基础模型，需要针对数据预处理的BERT进行相应试验，选取针对性更强、识别效果更好的预训练模型。同时，对中间Encoder 编码层也需要选取多种主流编码器进行对比实验，结合多模型优势优化整体实体识别的模型架构，从而进一步提高模型的识别效率。

对于预训练模型的构建，针对BERT模型，分别对主流预训练模型进行对比实验，采用Google原版BERT、Roberta、Albert、Huawei NEZHA、T5、ELECTRA 等预训练模型进行试验鉴定领域标注数据的实体识别实验。

原生的Google BERT预训练模型针对领域数据的识别结果F1值平均不足 0.6，而后续优化的众多预训练模型，如：Albert、Roberta以及T5等，对于英文文本识别结果较好，但对于中文文本尤其是特定领域包含专有名词更多样、更复杂的数据样本则显得并不理想。而Huawei的开源实体识别预训练模型NEZHA，针对中文文本数据的实体识别效果相较于其他几种预训练模型则较为理想，通过分析识别的结果，NEZHA预训练模型针对中文试验鉴定特定领域数据样本的识别效果更好，因此本发明最终采用NEZHA作为BERT数据预处理模型。

当前版本的NEZHA基于BERT模型，并进行了多处优化，能够在一系列中文自然语言理解任务达到先进水平。

对于编码层多模型的构建，根据上文中提到实体识别模型结构，简单来看，首先使用BERT对标注数据进行预处理，然后通过构建好的Encoder编码层进行进一步加工处理，最终使用CRF层进行结果预测。

不仅要对BERT的预训练模型进行多模型尝试，同时也要对Encoder编码层做类似的尝试实验，选取多种编码器对标注数据进行反复的对比实验。本发明所使用的模型结构为BERT+Encoder+CRF的范式。其中，在Encoder部分，本发明尝试了一种经典的编码结构和两种前沿的编码结构，分别为 BiLSTM、TENER以及RTransfomer。

对于BiLSTM，LSTM通过输入门、输出门、遗忘门等门控信息对训练数据的每一时刻进行信息整合，将输入序列中的没有价值的信息进行丢弃，对有价值的信息进行整合并传递到下一个时刻的记忆单元中。

由于LSTM只能从前到后对训练序列进行分析整合，因此无法很好的结合上下文语义信息进行标签的预测，因此BiLSTM就应运而生。BiLSTM的核心思想是使用一个前向LSTM和一个后向LSTM共同进行训练，并将数据进行有效整合。由于这种双向结构的特性，使得每一个时刻网络中的单元都可以获得来自前向和后向的语义信息，这种结构极大程度提升了模型的识别效率。

对于TENER，TENER的结构对于传统Transformer模型进行了相应的优化，其对于训练预料的位置编码信息进行了一些改进，加入了相对位置、相对距离以及相对方向信息，如下公式所示：

在TENER编码器中，使用注意力机制进行计算，针对相对重要的词进行了相对距离和相对方向编码，其中Qt和Kj是t、j位置标签的查询向量和关键词向量，Rt-j是正弦相对位置编码。根据实验结果，TENER对于 Transformer结构的改进以及对于注意力机制的优化，相较于BiLSTM模型，可以更好地捕获长距离依赖关系，最终使得其对于长实体更加敏感。

对于RTransformer，RTransformer模型和TENER模型类似，都是对于 Transformer模型的优化，该模型在原来Transformer模块的自注意力机制中加入名为Local RNN层，该层的目的在于相较于原模型，添加的RNN能将某时刻捕获到的局部语义信息加以利用，最终合并到结果中去。由于RNN的天然时序结构，使得RTransformer模型可以获取到更多的相对位置语义信息，换一个角度思考，实体即表示为文本的局部信息，而RTransformer模型正是利用了一个又一个的局部信息和相对位置信息，对最终的预测进行指导。

对于多模型融合策略，根据对Encoder编码层的多模型对比实验，我们得到了多种模型识别的结果，通过实验结果分析，发现基于BiLSTM编码器的模型结构在各类别实体的识别上表现比较稳定，TENER编码器对于长实体的识别效果较好，而RTransfomer结构能识别出一些其余两编码器不能识别出的实体。根据这些特点，将以上模型的结果进行投票融合后，得到最终的识别结果。

针对融合后的结果中存在的明显的问题，制定了多模型融合规则进行处理：

1)融合后去重叠：投票融合后的最终结果会有实体重叠的情况出现，重叠可分为两类，其一为边界相同，类别不同，其二为边界重叠。对于本领域中出现的数据来说，训练集的标注中是没有重叠实体出现的，而融合后的模型结果中两种重叠情况均有出现。保留重叠的一组实体中出现次数最多的那一个，将其余的舍弃，从而消除模型结果中实体重叠的现象。

2)按照训练集数据的标注习惯，多次出现的实体，只标注一次。

3)删除预测结果中具有明显错误的实体，例如实体内部括号不完全、以“、”、“，”等结尾的实体。

4)对于多模型识别同一个实体出现多标签的情况，结合识别结果综合考虑，暂时将多个标签都进行保留。

对于基于规则的语义修正方法，针对本发明构建的实体识别模型，得到了相应的识别结果，但这些结果中有很多是识别错误的情况，通过模型的迭代学习也很难让识别率有较大的提升。本发明采用引入人工制定语义规则进行结果修正的方式，对模型识别出的结果进行相应修正与完善，从而有效提高整体的识别效果。

通过对试验要素、任务场景、性能指标和系统组成四个标签类别的识别结果进行分类统计分析，将实体识别模型识别错误的情况进行汇总，针对错误的情况进行语义分析，分门别类制定具有针对性的语义修正规则，将这个模块放在多模型识别的后面进行后处理。

根据对试验鉴定领域数据中出现的试验要素、任务场景、性能指标和系统组成四个标签类别的语义分析，对四个标签类别进行相应规则的构建。将先前构建的实体识别模型得到的实体标签与规定的标签规则进行比对，按照标签类别规则对模型识别出的实体标签进行结果的修正。

除此此外，试验鉴定领域文本数据中出现的实体在某些时候也会出现标签类别规则范围之外的情况，这部分实体并非属于标签类别规定的范围，有些属于中文语法出现的错误标注情况，有些则需要结合特定语境进行特定分析，来判定实体的标签类别。

针对上述需要进行进一步判定的情况，根据模型对于训练集语料识别出错误结果分析，我们罗列出错误数相对较多的情况进行分析与修正。下面列举了部分错误结果的统计情况及制定的语义修正规则。根据下面的示例我们可以看到基于规则的修正方法的效果。

1)连接词前后实体拆分错标

当出现“和”、“与”、“或”、“以及”等连接词时，原本应该是一个统一实体却被识别模型拆分标记为两个实体。需要将连接词前后实体进行相似度检查，包括实体前后的相似度，当相似度大于设定阈值，即将其合并标记为一个实体。

2)连接词前后实体标记为同一个实体

当出现“和”、“与”、“或”、“以及”等连接词时，也会出现原本应该被标记为两个实体的情况，而最终却被模型标记为一个实体。在这种情况下，我们仍然需要将连接词前后实体进行相似度检查，包括实体前后的相似度，当相似度小于设定阈值，即将其拆分标记为两个实体。根据示例结果显示，这种规则能很好的将同类实体进行拆分。

3)引号、括号等成对符号少标

当出现单引号、双引号、括号、书名号等成对标点符号实体需要标注的情况，实体识别模型在某些情况会将符号少标，从而导致标注的实体起始位置或结束位置错误的情况。当出现实体前面出现左引号、左括号等成对符号时，查看实体中最近位置是否出现与之匹配的右边符号，如果出现就将左边符号纳入实体标注的范围；如果实体结尾后面出现右符号，就从后向前搜索是否存在与之匹配的左符号，如果存在，即将右符号纳入实体标注范围。

4)任务场景与性能指标标签的区分

在面向试验鉴定实体识别训练数据集和测试数据集中会出现“xxx的能力”等关键词，关键词前面出现的各个实体识别模型往往会出现任务场景和性能指标标签标注混淆的情况。当实体后面出现“能力”关键字时，首先通过句子划分，从后向前查看句子前面是否包含“验证”、“检验”、“证明”等关键词，若出现，其中包含的实体是对试验主体的描述，应被标记为性能指标，否则应当被标记为任务场景。

5)问号、空格等特殊符号的处理

在处理数据的过程中，我们发现由于样本数据中存在诸如问号、空格等特殊字符，这对于实体识别模型的识别结果造成了一定的影响，我们针对这些样本数据中出现的特殊符号进行了处理，并修正了识别结果中受影响实体的起始位置与结束位置。

根据错误结果分析产生错误的原因，制定具有较强针对性的语义修正规则，对症下药，对实体识别模型识别出的结果进行修正完善，根据实验结果，使得整个系统的识别效率有了较大提升，证明本发明中所提出的基于规则的技术方法是可行有效的。

通过规则修正的数据经过评估确定正确之后，本发明将修正数据重新输入到模型中进行迭代训练，使模型的识别效率更好，帮助模型学习制定出的修正规则，根据实验结果显示，这种方法是可行的。

经过本发明中对基线模型选取、BERT预训练模型的选择、编码器多模型融合以及基于语义修正规则的有效性实验，我们对于面向领域数据的实体识别模型进行了优化，选取BERT-BiLSTM-CRF作为模型的基础框架；对BERT 模块的各个中文预训练模型进行了对照实验，选取Huawei NEZHA作为预训练模型；同时，针对编码器模块进行对照实验，结合多种编码器的优势，制定多模型融合策略；最后，针对模型预测的错误结果进行分析，通过人工干预的方式编写语义修正规则对模型识别的错误结果进行修正完善。

经过上述过程的优化，识别框架的整体效率有了明显的提升，F1值从48％提升至了近80％。

本发明在面向试验鉴定实体识别任务提供的开源试验鉴定数据进行评估，结果表明特定领域实体识别模型取得了80.83％的F1值，经过横向和纵向对比分析，相较于同期同类型实体识别任务效果有较为显著的提升。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种试验鉴定小样本文本的命名实体识别方法，其特征在于，其具体步骤包括，

S1，进行对照实验，并根据实验结果构建实体识别的基线模型；首先使用识别模型对试验鉴定小样本文本数据集进行对照实验，根据实验结果，选取识别准确率最高、识别稳定性最强的BERT-BiLSTM-CRF模型作为基线模型，BERT-BiLSTM-CRF模型采用BERT模型进行语言预训练，采用BiLSTM模型进行编码，采用CRF模型进行最优预测；

选取多种Bert模型的改进模型，利用试验鉴定小样本文本数据集的训练集，进行对照实验，根据实验结果，选择Huawei NEZHA模型作为实体识别模型的文本预训练模型，用Huawei NEZHA模型对文本进行预训练；

选取多种编码器模型,利用试验鉴定小样本文本数据集的训练集，对多种编码器模型，进行对照实验，并根据实验结果分析各种编码器的优势，利用BiLSTM模型、TENER模型、RTransfomer模型共同对文本进行识别；将BiLSTM模型、TENER模型、RTransfomer模型共同构成实体识别模型的编码模型，在实体识别模型中，文本预训练模型的输出结果，输入到其编码模型中，由编码模型中的BiLSTM模型、TENER模型、RTransfomer模型共同对文本进行识别，将该三种模型的识别结果进行投票融合，对于投票融合后的识别结果出现的实体重叠，保留重叠的一组实体中出现次数最多的实体，将该组实体中的其余实体舍弃，从而消除识别结果中实体重叠的现象，得到实体识别模型的编码模型的识别融合结果；

S3，利用该实体识别模型对试验要素、任务场景、性能指标和系统组成四个实体类别进行识别，得到识别结果，对该识别结果进行分类统计分析，对识别错误的情况分类进行汇总并进行语义分析，针对错误情况制定语义修正规则，并构建语义修正规则模块，将该模块置于实体识别模型的后部，实现对实体识别模型识别结果的语义修正；

2.如权利要求1所述的试验鉴定小样本文本的命名实体识别方法，其特征在于，

所述的识别模型包括：BiLSTM模型、LSTM模型结合CRF模型、BiLSTM模型结合CRF模型、BERT模型结合BiLSTM模型结合CRF模型。

3.如权利要求1所述的试验鉴定小样本文本的命名实体识别方法，其特征在于，

所述的Bert模型的改进模型包括Huawei NEZHA模型、Google Bert模型和Albert模型。

4.如权利要求1所述的试验鉴定小样本文本的命名实体识别方法，其特征在于，

第一类是试验要素，包括试验鉴定工作的对象、支持完成试验鉴定所需的条件和装备的基本情况；

第二类是性能指标，包括试验要素在技术、使用性能方面的定性、定量描述；

第三类是系统组成，包括被试对象的组成部分；

5.如权利要求1所述的试验鉴定小样本文本的命名实体识别方法，其特征在于，

所述的步骤S1，利用BERT-BiLSTM-CRF模型作为基线模型，该基线模型包括BERT模型、BiLSTM模型和CRF模型，BERT模型与BiLSTM模型相连接，BiLSTM模型和CRF模型相连接。

6.如权利要求1所述的试验鉴定小样本文本的命名实体识别方法，其特征在于，

7.如权利要求1所述的试验鉴定小样本文本的命名实体识别方法，其特征在于，

所述的语义修正规则，其具体包括：

当试验鉴定小样本文本中出现和、与、或、以及的连接词时，需要将连接词前后实体进行相似度检查，计算其前后实体的相似度，当相似度大于设定阈值时，即将连接词前后实体合并标记为一个实体，当相似度小于设定阈值时，将连接词前后实体标记为两个实体；

当实体前面出现成对符号的左边符号时，查看实体后面临近位置是否出现与之匹配的右边符号，如果出现，就将左边符号纳入实体标注的范围；当实体结尾后面出现成对符号的右边符号时，就从实体位置向前搜索是否存在与之匹配的左符号，如果存在，就将右边符号纳入实体标注的范围；