CN111460824A

CN111460824A - 一种基于对抗迁移学习的无标注命名实体识别方法

Info

Publication number: CN111460824A
Application number: CN202010237531.8A
Authority: CN
Inventors: 蔡毅; 彭淇
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2020-07-28
Anticipated expiration: 2040-03-30
Also published as: CN111460824B

Abstract

本发明公开了一种基于对抗迁移学习的无标注命名实体识别方法，构建无标注命名实体识别模型，包括步骤：输入源领域或者目标领域的文本，并映射为词嵌入向量；将词嵌入向量输入到双向长短期记忆网络中提取出特征向量；将特征向量输入到对抗判别器，将源领域和目标领域的数据映射到同一数据分布空间中；将特征向量输入到条件随机场中，计算输入文本所有可能的标签序列的概率，选择概率最大的标签序列作为最终的预测标签；通过联合训练命名实体识别任务和对抗训练任务，得到最佳的模型参数；输入目标领域的数据，通过CRF层输出预测标签。本发明通过对抗判别器可以将源领域和目标领域数据映射到同一分布的空间内，从而提高目标领域数据的实体预测效果。

Description

一种基于对抗迁移学习的无标注命名实体识别方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于对抗迁移学习的无标注命名实体识别方法。

背景技术

近年来，深度学习技术的迅速发展使其成为自然语言处理领域的主要研究手段和方法。在命名实体识别任务上，使用基于深度学习的序列标注模型在多个数据集上取得了最佳效果，并且可以处理非结构化数据的情景。

但目前绝大多数命名实体识别任务都是基于大量的标注样本训练模型才能达到比较好的预测效果。而训练样本需要大量的人工进行标注，这需要耗费时间以及财力。

为了减少人工标注工作，近年来有一些工作用于无标注的命名实体识别，大致可以分为以下两类工作：1、基于远程监督的命名实体识别，远程监督可以达到一个不错的预测效果，但是需要预先构建领域相关的词典，而领域相关的词典又是需要人工来构建，如果构建的词典中启发种子词的质量不高，就很难达到一个比较好的收敛效果。2、基于迁移学习的方法，在其他领域的数据集上训练好一个模型，然后迁移到新数据中进行预测，但是由于旧领域和新领域的数据分布并不是一致的，所以直接迁移方法的预测效果相对较差。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于对抗迁移学习的无标注命名实体识别方法。本发明利用对抗训练将源领域和目标领域数据映射到同一分布空间，从而提高模型从源领域迁移到目标领域的实体预测效果。

本发明的目的能够通过以下技术方案实现：

一种基于对抗迁移学习的无标注命名实体识别方法，构建无标注命名实体识别模型，模型包括Bi-LSTM、CRF层以及对抗判别器，所述方法包括步骤：

在模型中输入源领域或者目标领域的文本，通过共享的词嵌入层，将文本中的每一个单词映射为词嵌入向量；

以句子为单位，将词嵌入向量输入到双向长短期记忆网络(Bi-direction Long-short term memory network，Bi-LSTM)中，通过双向长短期记忆网络提取出特征向量，特征向量包含单词之间的上下文关系；

将双向长短期记忆网络提取出的特征向量输入到对抗判别器中，通过对抗训练，将源领域和目标领域的数据映射到同一数据分布空间中；

将双向长短期记忆网络提取出的特征向量输入到条件随机场(condition randomfield，CRF)中，通过条件随机场来计算输入文本所有可能的标签序列的概率，选择概率最大的标签序列作为最终的预测标签，完成命名实体识别；

通过联合训练命名实体识别任务和对抗训练任务，得到最佳的模型参数；

得到最终模型后，输入目标领域的数据，通过CRF层输出预测标签，完成目标领域数据的无标注命名实体识别。

具体地，所述在模型中输入源领域或者目标领域的文本，将文本中的每一个单词映射为词嵌入向量的步骤中，每一个词嵌入向量可以表示如下：

其中，x_i代表不同单词对应的索引；e^w(x_i)代表将单词映射到对应预训练的词嵌入向量；其中，预训练的词嵌入向量采用的是Glove预训练的词向量。e^c(x_i)代表将单词内的所有字符映射到对应的字符嵌入向量，这里字符嵌入向量采用了随机初始化的方法，向量中的每个元素的值在正态分布中随机采样；CNN(e^c(x_i))代表将得到的字符嵌入向量通过卷积神经网络(Convolutional Neural Network，CNN)卷积操作得到该单词字符级别的向量表示；

代表向量拼接；通过得到词级别的词嵌入向量和字符级别的向量表示，再通过拼接操作，就可以得到每个单词对应的词嵌入向量。

具体地，所述以句子为单位，将词嵌入向量输入到双向长短期记忆网络中，提取出特征向量的步骤中，双向长短期记忆网络提取上下文关系可以表示如下：

其中，v_i代表单词的词嵌入向量，单向的长短期记忆网络只对过去的序列信息进行编码，而忽略了未来时间步提取出来的序列信息；在此采用了双向Bi-LSTM提取信息，

和

分别表示前向和后向Bi-LSTM提取出来的特征向量。

代表向量拼接。

最后得到句子级别的特征向量表示如下：

H＝{h₁,h₂,…,h_t}

其中t代表句子中的单词数。

具体地，所述将双向长短期记忆网络提取出的特征向量输入到对抗判别器中，通过对抗训练，将源领域和目标领域的数据映射到同一数据分布空间中的步骤中，对抗训练的过程如下：

在此使用了一个对抗判别器，其输入是上一步骤中Bi-LSTM提取出来的特征向量，目的是为了对输入的特征向量进行分类任务，判别输入的特征向量是来自源领域的数据还是目标领域的数据。对抗判别器的计算可以表示如下：

其中，d∈{0,1}代表了输入数据x是源领域数据还是目标领域数据，θ_LSTM表示Bi-LSTM的参数，θ_d表示对抗判别器的参数，w_c表示对抗判别器的权重矩阵，z_d表示输入对抗判别器的向量，z_d计算如下：

average(H)表示对句子级别的特征向量求平均值，w_h表示映射矩阵，f(·)表示非线性激活函数。

至此，对抗判别器的损失函数公式如下：

最终对抗训练的损失函数表示如下：

其中，n_s代表源领域的训练样本数量，n_t代表目标领域的训练样本数量。

由对抗训练得到最优参数可以由下面的式子表示：

通过最大化L_Adv可得到最优对抗判别器参数的θ_d，通过最小化L_Adv可得到最优Bi-LSTM参数的θ_LSTM，这是对抗训练中一个互相制衡的过程，该过程可以通过在对抗判别器之前加入梯度反转层实现，在反向传播时，梯度反转层可以将对抗判别器的损失函数值反转，而在正向传播时，梯度反转层没有作用。

具体地，所述将双向长短期记忆网络提取出的特征向量输入到条件随机场中，计算输入文本所有可能的标签序列的概率，选择概率最大的标签序列作为最终的预测标签，完成命名实体识别的步骤中，条件随机场的输出概率计算如下：

其中，x＝{x₁,x₂,…,x_t}表示输入的句子；y＝l₁,l₂,…,l_i表示实体标签；y′表示可能的标签序列；

表示CRF层中标签l_i的模型参数；

表示CRF层中标签l_i-1到l_i的模型参数。

针对给定的NER标注数据集

CRF层中的损失函数计算如下：

其中，θ_LSTM表示Bi-LSTM的参数，θ_CRF表示CRF的参数。

具体地，所述通过联合训练命名实体识别任务和对抗训练任务，得到最佳的模型参数的步骤中，联合训练的损失函数表示如下：

L_NER+Adv＝λ₁L_ner(θ_LSTM,θ_CRF)+λ₂L_Adv(θ_LSTM,θ_d)

其中λ₁和λ₂分别代表NER任务和对抗训练任务的损失函数权重。

本发明相较于现有技术，具有以下的有益效果：

本发明利用对抗训练将源领域和目标领域数据映射到同一分布空间，从而提高模型从源领域迁移到目标领域的实体预测效果。

附图说明

图1为本发明中一种基于对抗迁移学习的无标注命名实体识别方法的流程图。

图2为本发明实施例中基于对抗迁移学习的无标注命名实体识别的模型结构示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1所示为一种基于对抗迁移学习的无标注命名实体识别方法的流程图，所述方法构建无标注命名实体识别模型，所述模型结构如图2所示，包括Bi-LSTM、CRF层以及对抗判别器，所述方法包括步骤：

(1)在无标注命名实体识别模型中输入源领域或者目标领域的文本，将文本中的每一个单词映射为词嵌入向量。

文本中每一个单词映射得到的词嵌入向量表示为：

其中，x_i代表单词对应的索引，即单词从0开始排序的位置；e^w(x_i)代表将单词映射到对应预训练的词嵌入向量；其中，预训练的词嵌入向量采用的是GloVe预训练的词向量。e^c(x_i)代表将单词内的所有字符映射到对应的字符嵌入向量，这里字符嵌入向量采用了随机初始化的方法，字符嵌入向量中的每个元素的值在正态分布中随机采样；CNN(e^c(x_i))代表将得到的字符嵌入向量通过卷积神经网络(Convolutional Neural Network,CNN)进行卷积操作得到该单词字符级别的向量表示；

代表向量拼接；通过得到词级别的词嵌入向量和字符级别的向量表示，再通过拼接操作，得到每个单词对应的词嵌入向量。

(2)以句子为单位，将词嵌入向量输入到双向长短期记忆网络(Bi-directionLong-short term memory network,Bi-LSTM)中，通过双向长短期记忆网络提取出句子的特征向量。

所述双向长短期记忆网络提取的句子的特征向量包含单词之间的上下文关系，因此提取的句子的特征向量表示为：

其中，v_i代表单词的词嵌入向量，单向的长短期记忆网络只对过去的序列信息进行编码，而忽略了未来时间步提取出来的序列信息；因此采用了双向Bi-LSTM提取信息，

和

分别表示前向和后向LSTM提取出来的特征向量，

代表向量拼接。

最后得到句子级别的特征向量表示为：

H＝{h₁,h₂,…,h_t}

其中，t代表句子中的单词数。

(3)将双向长短期记忆网络提取出的句子级别的特征向量输入到对抗判别器中，通过对抗训练，将源领域和目标领域的数据映射到同一数据分布空间中。

本发明中使用了一个对抗判别器，其输入是上一步骤中Bi-LSTM提取出来的特征向量，目的是为了对输入的特征向量进行分类任务，判别输入的特征向量是来自源领域的数据还是目标领域的数据。所述对抗训练采用用源领域和目标领域的数据对对抗判别器进行训练。

对抗判别器计算输入数据概率分布，计算公式表示为：

其中，d∈{0,1}代表了输入数据x是源领域数据还是目标领域数据：0表示源领域数据，1表示目标领域数据；θ_LSTM表示Bi-LSTM的参数，θ_d表示对抗判别器的参数，w_c表示对抗判别器的权重矩阵，z_d表示对抗判别器的输入向量，z_d计算公式为：

其中，average(H)表示对句子级别的特征向量求平均值，w_h表示映射矩阵，f(·)表示非线性激活函数。

因此，对抗判别器的损失函数公式如下：

最终对抗训练的损失函数表示如下：

由对抗训练得到最优参数可以由下面的式子表示：

(4)将双向长短期记忆网络提取出的特征向量输入到条件随机场(conditionrandom field，CRF)中，通过条件随机场来计算输入文本所有可能的标签序列的概率，然后选择概率最大的标签序列作为最终的预测标签，完成命名实体识别。

条件随机场的输出概率计算公式如下：

表示CRF层中标签l_i的模型参数；

表示CRF层中标签l_i-1到l_i的模型参数。

本发明CRF层通过采用源领域的数据进行训练。针对给定的NER标注数据集

CRF层中的损失函数计算如下：

其中，θ_LSTM表示Bi-LSTM的参数，θ_CRF表示CRF的参数。

(5)通过联合训练命名实体识别任务和对抗训练任务，得到最佳的模型参数。

联合训练的损失函数表示如下：

L_NER+Adv＝λ₁L_ner(θ_LSTM,θ_CRF)+λ₂L_Adv(θ_LSTM,θ_d)

其中，λ₁和λ₂分别代表NER任务和对抗训练任务的损失函数权重。

(6)得到最终无标注命名实体识别模型后，输入目标领域的数据，通过CRF层输出预测标签，完成目标领域数据的无标注命名实体识别。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于对抗迁移学习的无标注命名实体识别方法，其特征在于，构建无标注命名实体识别模型，模型包括Bi-LSTM、CRF层以及对抗判别器，所述方法包括步骤：

在模型中输入源领域或者目标领域的文本，将文本中的每一个单词映射为词嵌入向量；

以句子为单位，将词嵌入向量输入到双向长短期记忆网络中，通过双向长短期记忆网络提取出特征向量；

将双向长短期记忆网络提取出的特征向量输入到条件随机场中，通过条件随机场来计算输入文本所有可能的标签序列的概率，然后选择概率最大的标签序列作为最终的预测标签，完成命名实体识别；

2.根据权利要求1所述的方法，其特征在于，所述在模型中输入源领域或者目标领域的文本，将文本中的每一个单词映射为词嵌入向量的步骤中，文本中每一个单词映射得到的词嵌入向量表示为：

其中，x_i代表单词对应的索引；e^w(x_i)代表将单词映射到对应预训练的词嵌入向量；其中，预训练的词嵌入向量采用的是GloVe预训练的词向量；e^c(x_i)代表将单词内的所有字符映射到对应的字符嵌入向量，字符嵌入向量采用随机初始化的方法，向量中的每个元素的值在正态分布中随机采样；CNN(e^c(x_i))代表将得到的字符嵌入向量通过卷积神经网络进行卷积操作得到该单词字符级别的向量表示；