CN108628823A

CN108628823A - 结合注意力机制和多任务协同训练的命名实体识别方法

Info

Publication number: CN108628823A
Application number: CN201810210591.3A
Authority: CN
Inventors: 卓汉逵; 付豪
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-03-14
Filing date: 2018-03-14
Publication date: 2018-10-09
Anticipated expiration: 2038-03-14
Also published as: CN108628823B

Abstract

本发明提供一种结合注意力机制和多任务协同训练的命名实体识别方法，该方法包括如下步骤：(1)对训练数据进行预处理操作，通过字符层级的映射获得句子的字符向量表征；(2)将步骤(1)中获得的字符向量表征输入一个双向LSTM网络，获得每个词语的字符向量表征；(3)通过词语层级的映射，获得每一个句子的词向量表征；(4)通过注意力机制对步骤(3)中获得的词向量表征和步骤(1)中获得的字符向量表征进行拼接，传入双向LSTM神经网络，获得句子的语义特征向量；(5)针对步骤(4)中得到的语义特征向量，利用条件随机场对每个单词进行实体标注，解码出实体标签。

Description

结合注意力机制和多任务协同训练的命名实体识别方法

技术领域

本发明涉及神经网络的命名实体识别方法领域，更具体地，涉及一种结合注意力机制和多任务协同训练的命名实体识别方法。

背景技术

命名实体识别(Named Entity Recognition，NER)作为自然语言处理(NLP)领域中一些复杂任务(例如信息提取、问答系统、机器翻译)的基础工作，就是从一段自然语言文本中找出相关实体，并标注出其位置以及类型。作为NLP领域的研究热点，命名实体识别是一个充满挑战性的工作。一方面，人们通常很难获取到大量的有标注数据用于模型训练；另一方面，实体的特征往往是千变万化的，因此，想要获得一个泛化能力较强的模型，往往需要大量的特征工程。

基于规则和词典的方法是命名实体识别中最早使用的方法，这种方法严重依赖于人工规则和词典,其缺点是显而易见的：模型构建周期长、移植性差、难以涵盖所有的语言现象。因此基于传统机器学习方法的模型得以广泛推广，主要包括隐马尔可夫模型(HiddenMarkovMode,HMM)、最大熵(MaxmiumEntropy,ME)、支持向量机(SupportVectorMachine,SVM)、条件随机场(ConditionalRandom Fields,CRF)等。

近年来，随着深度学习在人工智能领域的发展，神经网络结构被广泛运用到命名实体识别的工作中，且取得了不错的效果。尤其是2015年左右，涌现出一系列使用RNN结构并结合传统机器学习中条件随机场(CRF)的方法，由于这类方法继承了深度学习方法的优势，无需特征工程，使用词向量以及字符向量就可以达到很好的效果，成为目前基于深度学习的NER方法中的主流。

现有的基于RNN+CRF模式的方法，归纳起来主要包含Embedding层(主要有词向量，字符向量以及一些额外特征)，双向RNN层(通常使用LSTM或者GRU)，tanh隐层以及最后的CRF层。其中绝大多数方法通过LSTM或者CNN处理字符向量，获得词语在字符层级上的向量表达，然后直接拼接词向量和字符向量获得词语的向量表达。这些方法虽然考虑到了词语在字符层面上的形态特征，但是拼接方法比较简单粗暴，难以根据训练数据灵活调整字符特征和词语特征之间的权重；另外，没有考虑到具体的训练数据分布对于字符向量权重的影响，仅仅只通过实体识别任务的反向传播来调整字符向量权重，难以学习到字符间的分布规律。

发明内容

本发明提供一种提升识别准确率的结合注意力机制和多任务协同训练的命名实体识别方法。

为了达到上述技术效果，本发明的技术方案如下：

一种结合注意力机制和多任务协同训练的命名实体识别方法，包括以下步骤：

(1)、对训练数据进行预处理操作，通过字符层级的映射获得句子的字符向量表征；

(2)、将步骤(1)中获得的字符向量表征输入一个双向LSTM网络，获得每个词语的字符向量表征；

(3)、通过词语层级的映射，获得每一个句子的词向量表征；

(4)、通过注意力机制对步骤(3)中获得的词向量表征和步骤1中获得的字符向量表征进行拼接，传入双向LSTM神经网络，获得句子的语义特征向量；

(5)、针对步骤(4)中得到的语义特征向量，利用条件随机场对每个单词进行实体标注，解码出实体标签。

进一步地，所述步骤(1)的具体过程为：

(1.1)、对训练数据进行分句、分词操作，将文档处理为句子的集合，将每个句子处理为单个词语的集合,如果训练数据为中文，需要使用jieba分词等自然语言处理工具；

(1.2)、对单词和标签进行统计，得到词汇表W和标签表L，对单词表中的字符进行统计，得到字符表C；

(1.3)、对于由词语x_i组成的单个句子s＝{x₁，x₂，x₃，...，x_n}，将词语拆解为字符的组合，使用空格作为词与词之间的连接符，最后在句子的的开头和补上一个空格,获得句子的字符表示s＝{c_0，-，c_1，0，c_1，1，c_1，2，...，c_1，-，c_2，1，c_2，2，…，c_n，-}，

其中c_i，-表示空格，记录空格连接符的位置索引p＝{p_0，-，p_1，-，p_2，-，...，p_n，-}，如果训练数据为中文，按照在线新华字典提供的汉字部件构造拆解方式，对单字进行拆解；

(1.4)、通过字符层级的Embedding映射获得句子的字符向量表征。令d_c为每个字符向量的维度，n_c为拆解为字符的句子长度含空格，则获得的句子表达

进一步地，其中步骤(2)的具体过程为：

(2.1)、将步骤(1)中获得的字符向量表征S_c输入双向LSTM网络,以前向传播层为例，令c_t为t时刻输入的字符，h_t为t时刻的输出,C_t为t时刻的cell state，W_i，W_f，W_c，U_o和b_i，b_f，b_c，b_o分别为四个门函数的权重和偏置参数，σ为sigmoid函数；

(2.2)、在t时刻计算forget gate、input gate、cell gate、out gate，计算公式如下所示：

(2.3)在t时刻更新cell state的值：

(2.4)计算t时刻的输出：同理可得到任意时刻的输出和后向传播层的输出将两个输出进行拼接获得双向LSTM的隐藏层输出

(2.5)、按照之前记录的空格连接符的位置索引信息，选出前向传播层的n个输出和后向传播层的n个输出将其级联起来作为单个词语的字符向量表达；

(2.6)、除了提取词语的字符向量，这一层双向LSTM同时承担训练语言模型的任务，采样空格位置在前向传播层上的输出和后向传播层上的输出级联，则i时刻的模型输出将输入的词语x_i(i∈1，2，...，n)作为标签，令为对应于x_i的模型参数，则i时刻输出为x_i的条件概率

(2.7)、定义语言模型部分的损失函数：

进一步地，其中步骤(3)的具体过程为：

(3.1)、初始化预训练词向量为映射矩阵；

(3.2)、令d_w为每个字符向量的维度，n为拆解为词语的句子长度，通过词语层级的Embedding映射，获得的句子的词向量表征

进一步地，其中步骤(4)的具体过程为：

(4.1)、令和分别表示t时刻输入的词向量表征和字符向量表征；

(4.2)、令为构造注意力函数的参数，σ为sigmoid函数，对a中的x_t和m_t实现加权拼接,获得每个词语的语义特征计算公式如下：

(4.3)将b中得到的特征向量输入一个双向LSTM网络，同理可以得到隐藏层输出H＝{h₁，h₂，h₃，h₄...，h_n}(n为输入的句子包含词语的个数)即为句子的句子的语义特征向量。

进一步地，其中步骤(5)的具体过程为：

(5.1)、对于步骤(4)中得到的输出序列H＝{h₁，h₂，h₃，h₄...，h_n}，我们将其作为CRF层的输入，令y＝{y₁，y₂，y₃，y₄...，y_n}表示CRF层可能的输出标签，Y_H表示所有可能输出标签的集合，P和A分别表示CRF层的概率发射矩阵和概率转移矩阵，则对于给定的H，所有可能的输出标签序列的条件可以通过如下公式计算：

(5.2)、在训练阶段，取p(y|H)的负对数作为实体识别部分的损失函数,即

令λ为自定义参数，定义整体的损失函数

L_model＝L_crf+λ·L_{language_model}；

(5.3)在测试阶段，通过下面的公式从所有可能的标签序列中找出条件概率最高的对序列进行标注：

与现有技术相比，本发明技术方案的有益效果是：

本发明利用一个共享的双向LSTM层，同时进行无监督语言模型训练和提取字符向量的工作，在学习字符之间分布规律的同时，通过注意力机制提取出对NER标注任务有用的信息，能够提升NER任务的准确率，同时训练出更有效的字符向量。

附图说明

图1为结合注意力机制和多任务协同训练的命名实体识别方法的模型图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行进一步阐述。本发明是一种基于神经网络的Bi-LSTM+CRF模型的变体，主要是结合了注意力机制和多任务协同训练的方法，将字符向量和词向量进行加权组合，以达到更好的识别效果。如图1所示，每个词语的字符特征向量由一个任务共享的双向LSTM神经网络生成，字符特征向量与预训练的词向量经过注意力函数加权组合(图1中attention部分)，得到的结果输入到上层LSTM网络中生成完整的特征向量，然后经由CRF层生成识别结果。在整个网络的不同层之间都加入了dropout layer以防止神经网络过拟合。

本发明的具体步骤(1)～(5)如下：

(1)对训练数据进行预处理操作，通过字符层级的映射获得句子的字符向量表征。

(1.1)对训练数据进行分句、分词操作，将文档处理为句子的集合，将每个句子处理为单个词语的集合,如果训练数据为中文，需要使用jieba分词等自然语言处理工具；

(1.2)对单词和标签进行统计，得到词汇表W和标签表L，对单词表中的字符进行统计，得到字符表C；

(1.3)对于由词语x_i组成的单个句子s＝{x₁，x₂，x₃，...，x_n},将词语拆解为字符的组合，使用空格作为词与词之间的连接符，最后在句子的的开头和补上一个空格,获得句子的字符表示s＝{c_0，-，c_1，0，c_1，1，c_1，2，...，c_1，-，c_2，1，c_2，2，...，c_n，-}(c_i，-表示空格),记录空格连接符的位置索引p＝{p_0，-，p_1，-_，p_2，-，...，p_n，-}。如果训练数据为中文，按照在线新华字典(http://tool.httpcn.com/Zi/)提供的汉字部件构造拆解方式，对单字进行拆解。

(1.4)通过字符层级的Embedding映射获得句子的字符向量表征。令d_c为每个字符向量的维度，n_c为拆解为字符的句子长度(含空格)，则获得的句子表达

(2)将步骤1.4中获得的字符向量表征输入一个双向LSTM网络，获得每个词语的字符向量表征。

(2.1)将步骤1.4中获得的字符向量表征S_c输入双向LSTM网络,以前向传播层为例，令c_t为t时刻输入的字符，h_t为t时刻的输出,C_t为t时刻的cell state，W_i，W_f，W_c，U_o和b_i，b_f，b_c，b_o分别为四个门函数的权重和偏置参数，σ为sigmoid函数。

(2.2)在t时刻计算forget gate、input gate、cell gate、out gate，计算公式如下所示：

(2.3)在t时刻更新cell state的值：

(2.5)按照之前记录的空格连接符的位置索引信息，选出前向传播层的n个输出和后向传播层的n个输出将其级联起来作为单个词语的字符向量表达；

(2.6)除了提取词语的字符向量，这一层双向LSTM同时承担训练语言模型的任务，采样空格位置在前向传播层上的输出和后向传播层上的输出级联，则i时刻的模型输出将输入的词语x_i(i∈1，2，...，n)作为标签，令为对应于x_i的模型参数，则i时刻输出为x_i的条件概率

(2.7)定义语言模型部分的损失函数：

(3)通过词语层级的映射，获得每一个句子的词向量表征。

(3.1)初始化预训练词向量为映射矩阵；

(3.2)令d_w为每个字符向量的维度，n为拆解为词语的句子长度，通过词语层级的Embedding映射，获得的句子的词向量表征

(4)通过注意力机制对步骤3中获得的词向量表征和步骤1中获得的字符向量表征进行拼接，传入到双向LSTM神经网络，获得句子的语义特征向量。

(4.1)令和分别表示t时刻输入的词向量表征(步骤3.2获得)和字符向量表征(步骤2.5获得)

(4.2)令为构造注意力函数的参数，σ为sigmoid函数，对4.1中的x_t和m_t实现加权拼接,获得每个词语的语义特征计算公式如下：

(4.3)将上一步中得到的特征向量输入一个双向LSTM网络，同理可以得到隐藏层输出H＝{h₁，h₂，h₃，h₄...，h_n}(n为输入的句子包含词语的个数)即为句子的句子的语义特征向量。

(5)针对步骤4.3中得到的语义特征向量，利用条件随机场对每个单词进行实体标注，解码出实体标签。

(5.1)对于步骤4.3中得到的输出序列H＝{h₁，h₂，h₃，h₄...，h_n}，我们将其作为CRF层的输入，令y＝{y₁，y₂，y₃，y₄...，y_n}表示CRF层可能的输出标签，Y_H表示所有可能输出标签的集合，P和A分别表示CRF层的概率发射矩阵和概率转移矩阵，则对于给定的H，所有可能的输出标签序列的条件可以通过如下公式计算：

(5.2)在训练阶段，取p(y|H)的负对数作为实体识别部分的损失函数,即

令λ为自定义参数，定义整体的损失函数

L_model＝L_crf+λ·L_{language_model}

实施例

以CONLL2003数据为例，将上述方法应用于文中进行文本命名识别，个不会走中具体参数和做法如下：

1.对训练数据进行分句、分词操作，将文档处理为句子的集合，将每个句子处理为单个词语的集合,将每个词语处理为单个字符的集合,如果训练数据为中文，需要使用jieba分词等自然语言处理工具；

2.对单词和标签进行统计，得到词汇表W和标签表L，对单词表中的字符进行统计，得到字符表C；训练数据标签含有“PER(人名)”，“LOC(地名)”，“ORG(组织)”，“MISC(杂项)”四类，训练文档共有14987个句子，4915个单词(以<unk>替换低频率词后的结果)；

3.对于由词语x_i组成的单个句子s＝{x₁，x₂，x₃，...，x_n},将词语拆解为字符的组合，使用空格作为词与词之间的连接符，最后在句子的的开头和补上一个空格,获得句子的字符表示s＝{c_0，-，c_1，0，c_1，1，c_1，2，...，c_1，-，c_2，1，c_2，2，...，c_n，-}(c_i，-表示空格),记录空格连接符的位置索引p＝{p_0，-，p_1，-，p_2，-，...，p_n，-}。特别的，如果训练数据为中文，按照在线新华字典(http://tool.httpcn.com/Zi/)提供的汉字部件构造拆解方式，对单字进行拆解。中英文拆解示例如下：

训练语句1(中文)：迎着朝阳奔跑。

词拆解：(空格)/迎着/朝阳/奔跑/。/(空格)

字符拆解：(空格)/卬辶口羊目/(空格)/十日十月阝日/(空格)/大十廾足勹巳/。/(空格)

训练语句2(英文)：Run against the sun.

词拆解：Run/against/the/sun.

字符拆解：(space)/R/u/n/(space)/a/g/a/i/n/s/t/(space)/t/h/e/s/u/n/(space)/./(space)

4.通过字符层级的Embedding映射获得句子的字符向量表征。令d_c为每个字符向量的维度，n_c为拆解为字符的句子长度(含空格)，则获得的句子表达

5.将步骤4中获得的字符向量表征S_c输入双向LSTM网络,得到输出

6.按照之前记录的空格连接符的位置索引信息，选出前向传播层的n个输出和后向传播层的n个输出将其级联起来作为单个词语的字符向量表达；

7.采样空格位置在前向传播层上的输出和后向传播层上的输出并进行级联，令为对应于x_i的模型参数，定义语言模型部分的损失函数：

8.初始化预训练词向量Glove 100维向量，为映射矩阵，令d_w为每个字符向量的维度，n为拆解为词语的句子长度，通过词语层级的Embedding映射，获得的句子的词向量表征

9.令和分别表示t时刻输入的词向量表征(8获得)和字符向量表征(6获得)；

10.令为构造注意力函数的参数，σ为sigmoid函数，对(1)中的x_t和m_t实现加权拼接,获得每个词语的语义特征计算公式如下：

11.将上一步中得到的特征向量输入上层的双向LSTM网络，得到句子的语义特征向量H＝{h₁，h₂，h₃，h₄...，h_n}；

12.将11中得到的H输入CRF层的，对于给定的标签序列y＝{y₁，y₂，y₃，y₄...，y_n}通过如下公式计算损失函数：

13.令λ为自定义参数，定义整体的损失函数

L_model＝L_crf+λ·L_{language_model}

使用反向传播算法对模型参数进行更新，训练过程中取batchsize＝10,动量参数为0.9，dropout rate取0.5，采用SGD算法对参数进行迭代更新；

14.在测试阶段，通过下面的公式从所有可能的标签序列中找出条件概率最高的对序列进行标注，实际操作中，使用Viterbi算法进行解码操作；

15.测试结果:经过74次迭代后，在验证集上取得的最好结果dev_F1＝0.9517,dev_acc＝0.9884,在测试集上取得的最好结果test_F1:0.9193,test_acc:0.9797。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种结合注意力机制和多任务协同训练的命名实体识别方法，其特征在于，包括以下步骤：

(3)、通过词语层级的映射，获得每一个句子的词向量表征；

2.根据权利要求1所述的结合注意力机制和多任务协同训练的命名实体识别方法，其特征在于，所述步骤(1)的具体过程为：

(1.3)、对于由词语x_i组成的单个句子s＝{x₁，x₂，x₃，...，x_n}，将词语拆解为字符的组合，使用空格作为词与词之间的连接符，最后在句子的的开头和补上一个空格,获得句子的字符表示s＝{c_0，-，c_1，0，c_1，1，c_1，2，...，c_1，-，c_2，1，c_2，2，...，c_n，-}，其中c_i，-表示空格，记录空格连接符的位置索引p＝{p_0，-，p_1，-，p_2，-，...，p_n，-}，如果训练数据为中文，按照在线新华字典提供的汉字部件构造拆解方式，对单字进行拆解；

3.根据权利要求2所述的结合注意力机制和多任务协同训练的命名实体识别方法，其特征在于，其中步骤(2)的具体过程为：

(2.3)在t时刻更新cell state的值：

(2.7)、定义语言模型部分的损失函数：

4.根据权利要求3所述的结合注意力机制和多任务协同训练的命名实体识别方法，其特征在于，其中步骤(3)的具体过程为：

(3.1)、初始化预训练词向量为映射矩阵；

5.根据权利要求4所述的结合注意力机制和多任务协同训练的命名实体识别方法，其特征在于，其中步骤(4)的具体过程为：

6.根据权利要求5所述的结合注意力机制和多任务协同训练的命名实体识别方法，其特征在于，其中步骤(5)的具体过程为：

令λ为自定义参数，定义整体的损失函数

L_model＝L_crf+λ·L_{language_model}；