CN114722818A

CN114722818A - 一种基于对抗迁移学习的命名实体识别模型

Info

Publication number: CN114722818A
Application number: CN202210108942.6A
Authority: CN
Inventors: 赵丹丹; 张志浩; 孟佳娜; 苏文
Original assignee: Dalian Minzu University
Current assignee: Dalian Minzu University
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2022-07-08

Abstract

本发明属于自然语言处理领域，涉及一种基于对抗迁移学习的命名实体识别模型。包括：S1.嵌入层；S2.BiLSTM特征提取层；S3.注意力机制层；S4.对抗迁移层；S5.CRF解码层。有益效果：为了更准确的确定实体边界信息，本发明将分词任务中学习到的知识迁移到实体识别任务中，即利用分词任务中对实体边界检测有帮助的信息来提高实体识别任务的效果；本发明利用大量训练好的或者已经标注好的数据集进行迁移学习，将模型在大量语料上学习的知识迁移到特定领域或者特定语言NER任务中，从而提升NER效果。提出了解决跨任务、跨语言和跨领域NER的统一性框架。

Description

一种基于对抗迁移学习的命名实体识别模型

技术领域

本发明属于自然语言处理领域，涉及一种基于对抗迁移学习的命名实体识别模型。

背景技术

在互联网快速发展的时代，海量的文本数据呈现出口语化，网络化等特点，对从大量非结构化文本中抽取出有价值的信息带来了挑战。命名实体识别(Named EntityRecognition，NER)是信息抽取的基本任务之一，也是一项自然语言处理的关键任务。在NER任务中，由于中文文本中词之间没有边界，使得中文NER任务比较困难；英文和中文等语言具有大量的标注数据，但对于小语种而言，已标注的带标签数据资源较少；另外还会遇到某种领域缺少足够标注数据的问题，这都导致NER模型在某个语言或领域效果很好，但是在另外一个语言或领域效果急剧下降的问题，这给模型的领域适应性带来挑战，急需一种解决跨任务NER，跨语言NER和跨领域NER问题的模型。

发明内容

为了解决跨任务NER，跨语言NER和跨领域NER问题，本发明提出如下技术方案：一种基于对抗迁移学习的命名实体识别模型，包括：

S1.嵌入层：用于提取单词级别特征、提取词语字符级别特征及特征融合；

S2.BiLSTM特征提取层：使用BiLSTM获取输入序列的上下文信息；

S3.注意力机制层：使用多头注意力机制捕获语义相互关联信息的多重特征并学习在不同的表示子空间里相关的信息；

S4.对抗迁移层：通过对抗神经网络在迁移学习的数据集之间施以权重以平衡数据集；

S5.CRF解码层：计算最优标签序列；

该模型通过嵌入层将文本X序列转化、提取、池化、特征融合后得到全连接网络的输出v_i；BiLSTM特征提取层以全连接网络的输出v_i为输入，通过门控机制，提取输入序列上下文的单词级特征，输出h^shared、h^source、h^Target；

h^source、h^Target分别作为注意力机制层的输入，通过多头注意力机制捕获文本丰富的信息，提升文本性能，输出为A；

h^shared作为对抗迁移层的输入，通过权重α平衡高低资源的训练规模差异大的影响，使资源域和目标域中提取的特征表示更加兼容；

A作为CRF层的输入，CRF过滤神经网络模型输出的每个标签的分数，分数最高的标签是训练的最好结果。

进一步的，所述嵌入层包括以下步骤：

Glove提取单词级别特征：将文本序列转换为预训练字向量；

CNN提取词语字符级别特征：将字向量送入CNN提取词语字符级别特征，即通过占位符使得词向量矩阵变为统一大小，然后通过卷积从每个词语由字向量构成的矩阵中提取当前词语字符级别的特征，再通过池化提取特征中的关键信息得到词语字符级别特征

特征融合：将单词级向量和字符级向量进行串联操作，然后将串联得到的向量输入到一个全连接的神经网络中，以集成字符级特征和单词级特征。

进一步的，所述BiLSTM特征提取层使用双向LSTM神经网络来提取输入序列上下文的单词级特征。

进一步的，所述BiLSTM特征提取层分为用于提取资源收集数据的资源BiLSTM、用于提取目标数据的目标BiLSTM、用于提取共享特征的共享BiLSTM。

进一步的，所述注意力机制层分别连接作为输入的资源BiLSTM和目标BiLSTM。

进一步的，所述注意力机制层为多头注意力层；注意力机制层的输出为A。

有益效果：(1)有效提高了NER任务中实体边界检测效果；命名实体识别可以认为是两个处理任务，即检测实体边界和确定实体类型。为了更准确的确定实体边界信息，本发明将分词任务中学习到的知识迁移到实体识别任务中，即利用分词任务中对实体边界检测有帮助的信息来提高实体识别任务的效果。

(2)有效解决了特定领域和小语种的实体识别问题。为了解决特定领域和小语种语料匮乏的问题，本发明利用大量训练好的或者已经标注好的数据集进行迁移学习，将模型在大量语料上学习的知识迁移到特定领域或者特定语言NER任务中，从而提升NER效果。

(3)提出了解决跨任务、跨语言和跨领域NER的统一性框架。首先通过词级和字符级特征融合的方式获得更好的特征表示，并通过多头注意力机制在句子的不同表示子空间中学习相关信息。然后，为了使模型更具通用性，所提出的模型利用共享BiLSTM组件提取共享特征表示。最后，引入了对抗迁移学习使得提取的共享特征表示更加兼容。

结果表明，本发明提出的MFAT-NER模型能在一个统一的框架下解决不同场景下的NER问题，并取得了较好的效果，这为解决命名实体识别中迁移学习的领域适应性问题提供了新思路。

附图说明

图1 MFAT-NER模型整体结构图；

图2 CNN提取词语基于字符的特征示意图；

图3字符特征和单词特征拼接示意图；

图4 LSTM单元结构示意图；

图5 BiLSTM模型图；

图6多头注意力结构结构图；

图7 Dropout对实验结果的影响；

图8多头注意力头数对实验结果的影响。

具体实施方式

为了在一个统一的模型上处理跨任务、跨语言和跨领域的NER任务，本发明提出了一种基于对抗迁移学习的命名实体识别模型，命名为MFAT-NER模型。对于跨任务NER，将从CWS任务中学习到的知识迁移到中文NER任务中。对于跨语言NER，将从英语NER学习到的知识迁移到西班牙语NER和荷兰语NER任务中。对于跨领域NER，将从新闻领域学习到的知识迁移到推特评论领域。

MFAT-NER模型主要由嵌入层、BiLSTM特征提取层、注意力机制层、对抗迁移层和CRF解码层等五部分组成，模型的整体结构如图1所示。对于特征融合表示层，将CNN学习到的字符级特征表示，以及Glove学习到的单词级特征表示连接起来；BiLSTM特征提取层使用BiLSTM获取输入序列的上下文信息；然后通过注意力机制层使用多头注意力机制捕获语义相互关联信息的多重特征并学习在不同的表示子空间里相关的信息；对抗迁移层利用对抗神经网络在迁移学习的数据集之间施以权重以平衡数据集规模差异过大所带来的的影响；最后，利用CRF解码器计算最优标签序列，提升模型的效果。

1.1嵌入层

由于字符级特征具有捕获形态信息和语义信息的能力，因此可以提高序列标注模型的性能。字符级CNN或BiLSTM可以对这些字符级特征进行编码。在实际应用中，CNN的效率更高，参数更少。因此，本发明使用字符级CNN来捕获字符级的特征表示。同时为了获得丰富的且包含更多信息的词级特征表示，本发明将CNN学习的单词的基于字符的特征表示和Glove学习的单词级特征表示连接起来，具体的特征提取过程在下面小节进行详细介绍。

1.1.1 Glove提取单词级别特征

词嵌入是一种低维分布式词表示。本发明通过词级向量表示来学习单词的语义和它们之间的关系，利用Glove提取的单词级动态特征，以提高模型的性能。具体而言，对于文本序列X＝(x₁,x₂,...x_i)，其中i是文本长度。通过Glove将文本序列转换为预训练字向量word＝(word₁,word₂,...,word_i)。

1.1.2 CNN提取词语字符级别特征

与词级特征表示相比，字符级特征表示可以解决非词汇量的问题。字符级特征表示可以有效地提取单词的形态信息，特别是在某些特定领域中，一些单词以不规则的形式存在，通过字符级特征表示可以有效解决词语不规范问题，CNN提取词语基于字符的特征的具体过程如图2所示。字符级编码器有RNN和CNN，但是字符级CNN的效率更高，参数更少，因此使用CNN提取词语基于字符级的特征。

具体而言，对于文本序列X＝(x₁,x₂,...x_i)，其中i是文本长度。首先将文本序列转换为预训练字向量char＝(char₁,char₂,...,char_i)，然后将字向量送入CNN提取词语字符级别特征。具体而言,所有的字向量构成的矩阵均通过占位符(padding)以最长的词语长度为标准补充到同一大小，然后通过卷积从每个词语字向量构成的矩阵中提取当前词语字符级别的特征，再通过池化进一步提取特征中的关键信息得到词语字符级别特征

其中i是文本长度。

1.1.3特征融合

单词级嵌入的优势在于可以学习到一句话中单词之间的语义关系，其缺点是对于单词内部之间的依赖关系不能很好的获取。字符级嵌入的优势在于通过对字符的学习可以捕获到单词内部字符之间的相关信息，并且能够很好的解决未登录词问题。于是，为了更好的利用单词级特征和字符级特征的优点，将单词级特征和字符级特征进行特征融合操作。具体而言，将单词级向量和字符级向量进行串联操作，然后将串联得到的向量输入到一个全连接的神经网络中，以集成字符级特征和单词级特征。这种方法的优点是，模型可以生成包含更多信息的单词级特征表示。

如公式(1)所示，三个嵌入向量被串联成一个单一的词向量v_i，实现过程如图3所示。单个词向量与权重矩阵W_i和偏置向量b一起被送入全连接网络。词嵌入是全连接网络的输出，矢量大小为300。全连接网络的输出被用作最终的特征表示，其维度大小为300维。如公式(2)所示。

v_i＝f(W_ivec_i+b) (2)

其中，

表示词语字符级别特征，word_i表示单词级别特征，i是文本长度。

1.2.1 BiLSTM特征提取层

BiLSTM是一种改进的RNN模型。它引入了门控机制，通过输入门、遗忘门和输出门三个门结构使得模型可以有选择地保存上文信息，对长距离信息进行有效利用，克服了传统RNN由于序列过长而产生的梯度消失问题。BiLSTM的双向结构可以有效利用上下文信息，并且不会产生梯度爆炸问题。序列标注任务的一个特征是，给定时间步长的正向输入信息和反向输入信息对于标签推断是有帮助作用的。为了利用这种特性，使用双向LSTM神经网络来提取输入序列上下文的单词级特征。BiLSTM对每个句子可以有效利用上下文信息，并且不会产生梯度爆炸问题，BiLSTM已逐渐成为解决NER任务的标准方法。LSTM单元的结构如图4所示。

LSTM单元的计算方法如公式(3)-(8)所示。LSTM外部和RNN没有什么太大的区别，但是其内部结构是和RNN有区别的，LSTM可以选择性的保留信息，并且选择性的抽取当前最新信息，这样进行处理的好处是在有限的存储空间内可以存储更多以及更长的时序数据信息，也正因为如此，相对于RNN而言，LSTM可以捕获时序更长的数据，从而更好的获取输入序列的长距离依赖关系，并有效的就解决因为文本序列太长而造成的梯度消失问题。

f_i＝σ(W_f·[h_i-1,v_i]+b_f) (3)

i_i＝σ(W_i·[h_i-1,v_i]+b_i) (4)

o_i＝σ(W_o·[h_i-1,v_i]+b_o) (7)

h_i＝o_i*tanh(C_i) (8)

其中，v_i是LSTM的输入信息，W_f，W_i，W_c，W_o，b_f，b_i，b_c和b_o都是可训练的参数，f_i作用是处理忘记了什么信息，i_i代表当前输入信息，

代表所有当前状态信息，C_i代表当前真实状态信息，o_i代表当前输出信息，h_i表示当前隐藏状态。σ表示为sigmoid激活函数，tanh表示为tanh激活函数，h_i-1表示为前一时刻的隐藏状态，C_i-1表示为前一时刻的真实状态信息。

其中，

和

是正向LSTM的输出，

和

是反向LSTM的输出，

表示向量连接，h^sh,h^so和h^ta分别是共享LSTM、资源LSTM和目标LSTM的最终输出。

BiLSTM模型模型如图5所示。对于BiLSTM而言，其是由双向LSTM组成。因为这样的双向结构，当前节点不仅仅由上文信息决定，也会由下文信息决定。于是，当前节点的信息是包含当前节点的上下文信息的。

如公式(18)-(20)所示，

和

是两个方向的输出，

表示向量连接，h_i是最终的输出。

为了考虑不同数据集在词级特征上的差异，MFTA-NER将BiLSTM分解为资源相关BiLSTM(Source BiLSTM)、共享BiLSTM(Shared BiLSTM)和目标BiLSTM(Target BiLSTM)。Source BiLSTM和Target BiLSTM分别提取源数据和目标数据的特征，Shared BiLSTM提取可以共享的特征。其中，

是Shared BiLSTM的输出，

是Source BiLSTM的输出，

是Target BiLSTM的输出。

1.3.1注意力机制层

注意机制可以选择性地聚焦于文本的重要信息，对于输入的文本序列，一句话中的信息可能会由仅仅几个词决定，而其他的组成部分可能仅仅起到修饰词的作用，按照以往的方式进行处理，一句话中的所有单词都被认为是同等重要的，但这样显然是不合理的，通常希望模型重点关注文本序列中重要的信息，这样处理的优势在于模型可以很快的捕获到一句话的语义表示信息，同时也在一定程度上减少了运算量，加快了模型的运算速度。此外，对于输入的文本序列，一句话中的信息可能是包含多个层次、多个方面的，此外，为了更好的捕获到一句话中多个方面或者是不同角度的信息，本文采用头多注意力机制。多头注意力机制主要有两大优势，其一是它可以拓展模型关注不同位置的能力；其二是它为注意力机制层提供多个不同的表示子空间，从而使模型从不同的表示子空间中学习文本不同方面的特征信息。因此资源BiLSTM和目标BiLSTM的输出被送入多头注意力层。

虽然BiLSTM在计算过程中可以将上下文信息都计算在内，但无法突出上下文中关键信息的重要性。所以使用BiLSTM获取上下文依赖关系之后，Source BiLSTM和TargetBiLSTM之后都连接了注意力层。注意力层的输入分别为

和

以

作为注意力层的输入为例，首先进行一次线性变换，以获取查询、键和值。具体计算如公式(21)-(23)。事实上，计算的时候通过矩阵实现并行计算。具体计算如公式(24)。同时，在解析复杂的文本内容时，多头注意力机制可以充分捕获文本丰富的信息，从而使模型的性能得到提升。本文采用8头注意力机制，其具体结构如图5所示，其本质就是把自注意力的值连接起来，具体计算如公式(25)-(26)。

A＝Concat(a₁,a₂,...,a₈)W_o (26)

其中，Q、K、V分别是q_i、k_i和v_i组成的矩阵。d是向量维度，W_q，W_k，W_v，

W_o都是可训练的参数。A为注意力层的输出。

为Source BiLSTM的输出,Concat表示拼接向量。

1.4.1对抗迁移层

本文设计了一个统一的用于解决跨任务，跨语言和跨领域NER的模型架构，其目的就是希望利用现有的易于获取的语料数据进行迁移学习，来提高在稀缺的且不易获得的语料数据上NER的效果。此外，由于资源数据集和目标数据集的大小不平衡，如果不考虑这种不平衡，则从它们提取的特征表示是不兼容的。为了捕获共享特征，本文引入了一个共享的BiLSTM和一个对抗鉴别器。

具体来说，目标数据集中很少有带注释的训练数据。相反，资源数据集包含足够的带注释的训练数据。由于进行跨语言NER、跨领域NER和跨任务NER时，不同语料数据的特征表示不尽相同，于是本文模型利用Shared BiLSTM提取不同数据间相同的且可以共享的特征表示，来实现不同语言，不同领域和不同任务语料数据上的NER迁移。但是有一个问题必须要考虑，例如，在进行跨领域命名实体识别时，资源领域的数据集比目标领域的数据集易于获取且规模大，这就造成在Shared BiLSTM提取数据共享特征表示时，资源域数据占据了主导地位，如果在训练中不考虑这种不平衡，随机梯度下降优化将使模型偏向具有更多注释数据的数据集。为了解决这个问题,通过设置一个权重α来平衡高低资源的训练规模差异较大的影响。

为了让共享特征表示应用于目标语言NER、目标领域NER和目标任务NER上，来进行语料数据特征表示的迁移。只有让其特征表示更加兼容和具有领域无关性，才能更好的进行特征表示迁移，才能使模型更具迁移性。具体地说，对于Shared BiLSTM的输出

通过梯度反转层(Grandient Reversal)使其梯度变为相反的符号，进而通过这种对抗机制，鼓励共享层学习共享特征表示。对于数据集规模差别太大的问题，通过权重α平衡高低资源的训练规模差异较大的影响，使资源域和目标域中提取的特征表示更加兼容，共享BiLSTM的输出与领域无关，并为每个样本提供自适应权重，从而使模型训练的重点放在困难样本上。只有这样才能使共享特征表示更加的兼容，更好地迁移到其它语言、其它领域和其它任务上。之后通过注意力机制，此时对抗迁移层中注意力层的输出为a_i，然后通过线性变换投影到标量a'_i，具体计算如公式(27)。此时对抗鉴别器的计算如公式(28)。

a'_i＝W_s·a_i+b_s (27)

其中W_s，b_s都是可训练的参数。

和

是标识函数，分别表示特征来自资源域还是目标域；参数γ衡量困难和简单样本损失贡献对比，(1-a'_i)^γ(或a'_i ^γ)通过测量预测值与真实标签之间的差异控制各个样本的损失贡献。权重α和(1-a'_i)^γ(或(a'_i)^γ)分别减少了高资源样本和简单样本的损失贡献。

1.5.1 CRF解码层

CRF是一个特征灵活的全局最优标记框架，它从训练数据中学习约束以确保预测标签的有效性。CRF过滤神经网络模型输出的每个标签的分数，分数最高的标签是训练的最好结果。CRF层的输入是A＝(a₁,a₂,...,a_i),对于句子X＝{x₁,x₂,…,x_i}，预测的标签为Y＝{y₁,y₂,…,y_i}，CRF标签预测的具体公式如公式(29)-(31)。概率公式具体计算如公式(32)。损失函数具体计算如公式(33)。

O_i＝W_c·a_i+b_c (29)

其中，W_c和b_c都是可训练的变量，

是x_i预测为第y_i个标签的分值，n是序列长度,T是转移分数矩阵，Y_x是对于句子X的所有候选标签序列，使用维特比算法预测标签序列

是正确的标签序列，Xⁱ表示句子X的第i个标签。

2.1实验与结果分析

在本节中，首先对数据集的详细情进行介绍，介绍实验对比模型，交代了实验的评估指标，实验参数以及实验环境设置。然后，详细报告了并分析了跨任务、跨语言和跨领域命名实体识别的结果，并针对MFAT-NER模型进行了消融实验研究。

2.1.1数据集

为了验证模型的有效性，在不同的数据集上进行了实验。NER任务和分词任务具有许多相似的单词边界，从分词任务学习到的字符特征可能会提供用于标记的关键信息，因此在分词任务和NER任务之间共享特征信息，以增强NER任务的特征表示。分词任务使用来自SIGHAN2005的MSR数据集(此语料是微软兖州研究院提供的语料，语料为简体中文语料)，NER任务使用SIGHAN2006的NER数据集(MSRANER数据集)、微博NER数据集和中文文学数据集。这些数据集的统计信息如表1所示。此外，还对CoNLL-2003英语NER数据集、CoNLL-2002西班牙语和荷兰语NER数据集、WNUT2016和WNUT2017英语Twitter NER数据集进行了实验。在跨语言和跨域的NER任务中，分别使用CoNLL-2003英语NER数据集作为源域和源语言，CoNLL-2002和WNUT数据集分别作为目标域和目标语言。这些数据集的统计信息如表2、如表3所示。

表1跨任务NER数据集统计信息

Tab.1 Cross-task NER dataset statistics

表2跨语言NER数据集统计信息

Tab.2 Cross-language NER dataset statistics

表3跨领域NER数据集统计信息

Tab.3 Cross-domain NER dataset statistics

2.2.1对比模型

BiLSTM：它是NER任务的基线模型。

CRF：是一种统计建模模型，常用于模式识别和机器学习。他们的特征模板包括unigram和bigram特征。

Pipeline Seg.Repr.+NER：这是一个通过多任务学习和中文分词的NER系统。

Lattice：它是一个用于中文NER的格结构LSTM模型，它对输入字符序列以及与词典匹配的所有潜在单词进行编码。

BCAT-NER：它是一种新颖的对抗迁移学习框架，它充分利用了任务共享边界信息并防止了CWS的任务特定特征。

WC-LSTM：它是通过将单词信息添加到单词的开始或结束字符中的单词和字符LSTM模型。它减轻了分词错误的影响。

CAN-NER：它使用基于字符的CNN和门控循环单元来捕获字符级和句子级信息。

DoubADV：它是一个双AD-Versarial模型，它使用两个对抗网络，考虑到中文分词(CWS)任务和中文命名实体识别任务中的共享和私有特征。

LM-LSTM-CRF：它是一个序列标记框架，它同时使用单词级和字符级知识。

BERT-base：它是NER的预训练BERT模型，可以应用到诸多下游任务之中，如命名实体识别任务。

Flair嵌入：它使用语言模型生成一种新型的词嵌入，称为上下文字符串嵌入。

DATNet：它旨在解决资源不足的NER问题。

2.3.1实验环境

本发明中提出的MFAT-NER模型是在tensorflow框架中实现的；使用Adam优化器进行小批量训练；设置学习率为0.001，神经单元失活率为0.5；隐藏层的尺寸为300；权重参数α设置为0.25，γ设置为2.0；所有的实验都是在同一台机器上进行的，使用Inter(R)Xeon(R)CPU E5-2640 v4@2.40GHz和GeForce PTX2080Ti GPU。具体的模型参数如表4所示，实验环境如表5所示。

表4实验中主要参数设置

Tab.4 Main parameter settings in the experiment

表5实验环境设置

Tab.5 Experimental environment settings

2.4.1评价指标

命名实体识别任务检测标准分为两步：即识别实体边界和标注实体类型。

因此针对命名实体识别准确的评估也包括两个方面：

1、正确识别实体边界；

2、正确标注实体类型。

为了评估模型的性能。实验采用准确率(Precision，P)，召回率(Recall,R)，F1值三个评价指标来评价模型精度。具体计算如公式(1)-(3)。

单纯考虑准确率和召回率可能会出现矛盾，例如准确率很高而召回率很低的情况或者召回率很高而准确率很低的情况，因此引入F1值综合考虑两个指标的影响。

2.5.1实验分析

(1)实验结果对比

为了验证模型的有效性，实验结果如表6至8所示。

表6跨任务命名实体识别结果

Tab.6 Cross-task named entity recognition results

表7跨语言命名实体识别结果

Tab.7 Cross-lingual named entity recognition results

表8跨领域命名实体识别结果

Tab.8 Cross-domain named entity recognition results

由表6-8显示，对于跨任务NER实验结果而言，MSRA、中文微博和中文文学三个数据集的F1值分别达到了91.97％、59.79％和81.09％。其中，由于中文微博文本灵活多变，语言逻辑不规范、公开语料少和不具备词边界特征等特点，给NER模型带来一定的困难，导致三个中文语料中，中文微博NER效果最低，但相对于以往处理微博文本的NER模型，本文提出的模型依然取得了优秀的效果，由此可见本文的模型是有效的。对于跨语言NER实验结果而言，在CoNLLl-2002西班牙语数据集上的F1值达到了88.74％，在CoNLL-2002荷兰语数据集上的F1值达到了92.06％。对于跨领域NER实验结果而言，在WNUT-2016数据集上的F1值达到了54.36％，在WNUT-2017数据集上的F1值达到了51.30％。同样由于WNUT-2016和WNUT-2017的数据集规模较小，可用NER模型进行训练的数据集少，导致跨领域的NER效果也相对较低，但本文模型在这两个数据集上依然取得不错的效果，更加充分证明了本文模型的有效性。

表9跨任务NER模型与其他模型F1值对比

Tab.9 Comparison of F1 values between cross-task NER model and othermodels

由表9可以看出，为了验证MFAT-MER模型对跨任务NER的有效性，本文在中文微博和中文文学两个数据集上和以往的SOTA模型进行对比。

对于中文文学数据集而言，BiLSTM[63]和CRF[64]模型相比复杂的网络模型，其结构简单，导致学习能力较差，因此模型性能并不出色。对于微博数据集，与集成模型[65]相比，MFTA-NER模型使用多头注意力机制对BiLSTM模型输出调整不同的权重，以捕捉不同子空间内语义相关信息的多个特征。它使得单个字符之间单词信息的相关性和单个单词之间连接的相关性更加突出。与张等人[66]和刘等人[47]提出的模型相比，MFTA-NER模型共享词边界信息，可以充分利用分词任务丰富的词边界信息来提高NER任务的性能。与BCAT-NER模型[67]相比，MFTA-NER模型使用多头注意力机制代替自注意力机制，可以捕获不同子空间中的特征信息。朱等人[48]探索了使用分词任务来提高NER在中文微博NER数据集中的性能的CAN-NER模型。与CAN-NER模型相比，MFTA-NER模型利用分词任务的边界信息来提高NER任务的性能。此外，MFTA-NER模型引入了对抗迁移学习，可以使分词任务中提取的边界信息和NER任务中提取的边界特征信息更加兼容。与Hu等人[68]设计的DoubADV模型相比，MFTA-NER模型共享字符级特征，源词级嵌入是源BiLSTM的输入，目标词级表示是目标BiLSTM的输入，最终的特征表示通过对抗迁移学习更兼容。

表10跨领域/跨语言NER模型与其他模型F1值对比

Tab.10 Comparison of F1 values between cross-domain/cross-languageNER model and other models

为了评估提出的模型在跨语言NER和跨域NER任务上的性能，将提出的模型与之前在CoNLL-2002(Dutch)和WNUT-2017数据集上的优秀模型进行了比较。结果在表10中描述。

LM-LSTM-CRF模型在多任务上取得了优异的性能。该模型有一个Highway层，用于将LSTM生成的字符级表示映射到另一个表示空间。与LM-LSTM-CRF模型相比，MFTA-NER模型将CNN学习到的基于字符的单词级特征表示和Glove学习到的单词级特征表示串联起来，并且MFTA-NER模型优于仅使用字符级特征或者仅使用单词级特征的模型。对于预训练BERT-base模型，MFTA-NER模型中引入了LSTM神经网络、多头注意力机制和对抗迁移学习，可以使模型学习有关序列内部特征的更多信息。与Akbik等人[71]提出的Flair嵌入模型相比和Zhou等人提出的DATNet模型，MFTA-NER模型在BiLSTM层之后引入了多头注意机制，以捕获语义相关信息的多个特征以及不同子空间中的相关信息。

(2)消融实验

为验证MFAT-NER模型中不同模块对模型总体性能的影响，在MSRA、微博数据集、CoNLL-2002(西班牙语)数据集和WNUT-2016数据集上进行了模型的消融实验研究，消融实验结果如表11所示：

表11消融实验模型结果

Tab.11 Comparison of results of ablation experimental models

通过表11可以看出，在以往的NER任务中，BiLSTM-CRF模型是主流模型之一，因此采用BiLSTM-CRF模型作为基线(Baseline)模型。在基线模型上结合多头自注意力机制来准确地捕获多方面的特征，同时也在较大程度上排除冗余信息的干扰，在四个数据集上F1值分别提升0.58％，1.24％和1.31％和1.17％。

在此基础上加入对抗学习(Adversarial learning)，由于模型的一个子部分是共享特征模块，考虑到共享特征的部分含有噪声问题，同时，也是为了源域和目标域的特征更加兼容。于是引入对抗学习，将共享特征进一步提纯。此外，加入池化层进行特征的提取，利用梯度反转层进行判别器参数的优化，以及利用注意力机制对不同的特征赋予不同的权重表示，在四个数据集上F1值分别提升0.93％，0.83％，0.81和1.12％。

由CNN提取词语字符级别特征，这样既可以保留字向量的优点，也可以充分利用当前字对应词语的语义信息，在四个数据集上F1值分别提升0.33％，4.94％，4.13％和3.78％。其中在中文微博数据集、CoNLL-2002(西班牙语)数据集和WNUT-2016数据集效果显著，首先，是因为三个数据集在NER任务上的提升空间本身都很大，其次，中文微博文本灵活多变，语言逻辑不规范等特点给NER任务造成困难，因为词语字符级别特征表示会包含更深层的语义信息，由此可以让模型学习到更多的知识，因此提升效果变得显著；对于CoNLL-2002(西班牙语)数据集和WNUT-2016数据集，两个数据集的规模都很小，为了让这两个数据集获得更高质量的特征表示，从数据集规模相对较大的CoNLL-2003数据集学习到的字符特征表示可能会提供用于标注的关键信息，尤其使对于稀有单词和词汇不足的单词，通过获取词语字符级别特征，这样既可以保留字向量的优点，也可以充分利用当前字对应词语的语义信息。同时，引入多头注意力机制，捕获多重特征。由此，最终效果提升显著。

2.6.1超参数设置

(1)数据集运行时间分析

由于数据集规模不同，模型学习时间也会有所不同，模型对于不同数据集的运行时间如表12所示：

表12数据集运行时间

Tab.12 Datasets running time

(2)神经单元丢失率分析

为了更好的验证模型的性能，为防止过拟合，针对神经网络的神经单元初始化丢失率(dropout)的值为0.3。为了进一步探讨dropout对实验结果的影响，对dropout分别设置0.1～0.9的值，得出实验曲线如图7所示。

Dropout是在前向传播的时候，让某些神经元以一定的概率值停止工作，这样可以使模型的泛化性更强。因为这样模型不会太依赖于某些局部特征。模型在Dropout为0.5时模型性能达到最优，此时神经元有50％的概率被保留下来，50％的概率被失活，随机生成的网络结构最多。可以很好的学习特征信息的同时，又能够防止过拟合。

(3)多头注意力头数分析

将注意力机制融合到深度网络中，可以提高对输入信息子集的处理能力。注意力机制把关联性更大的特征赋予更重要的权重，一定程度上可以弥补了深度学习的不足。本文在此基础上为了使模型在不同的表示子空间里学习到相关的信息，捕获语义相互关联信息的多重特征并学习句子内部结构特征，因此采用多头注意力机制。图8验证了注意力机制的头数对实验的影响。其中注意力头数为8头时模型效果最优，当头数为1时，不能够充分考虑不同的表示子空间的相关信息，当头数增多为12头时，注意力机制会关注更多的特征信息，此时会带来一定的冗余信息，所以会导致模型效果不增反降。

Claims

1.一种基于对抗迁移学习的命名实体识别模型，其特征在于，包括：

S2.BiLSTM特征提取层：使用BiLSTM获取输入序列的上下文信息；

S5.CRF解码层：计算最优标签序列；

2.根据权利要求1所述的一种基于对抗迁移学习的命名实体识别模型，其特征在于，所述嵌入层包括以下步骤：

Glove提取单词级别特征：将文本序列转换为预训练字向量；

3.根据权利要求1所述的一种基于对抗迁移学习的命名实体识别模型，其特征在于，所述BiLSTM特征提取层使用双向LSTM神经网络来提取输入序列上下文的单词级特征。

4.根据权利要求1所述的一种基于对抗迁移学习的命名实体识别模型，其特征在于，所述BiLSTM特征提取层分为用于提取资源收集数据的资源BiLSTM、用于提取目标数据的目标BiLSTM、用于提取共享特征的共享BiLSTM。

5.根据权利要求1所述的一种基于对抗迁移学习的命名实体识别模型，其特征在于，所述注意力机制层分别连接作为输入的资源BiLSTM和目标BiLSTM。

6.根据权利要求1所述的一种基于对抗迁移学习的命名实体识别模型，其特征在于，所述注意力机制层为多头注意力层；注意力机制层的输出为A。