CN114091460A

CN114091460A - 一种多任务中文实体命名识别方法

Info

Publication number: CN114091460A
Application number: CN202111405790.8A
Authority: CN
Inventors: 唐小勇; 黄勇; 许佳豪; 王仕果; 章登勇; 张经宇
Original assignee: Changsha University of Science and Technology
Current assignee: Changsha University of Science and Technology
Priority date: 2021-11-24
Filing date: 2021-11-24
Publication date: 2022-02-25

Abstract

本发明公开了一种多任务中文实体命名识别方法，包括以下步骤：(1)首先对数据进行预处理，划分数据集并进行标注任务设置；(2)通过BERT对输入的主任务数据和辅任务进行特征抽取；(3)对于主任务和辅任务分别采用双层的包括输入、隐藏和输出的LSTM神经网络模型对词向量进行分类训练；(4)将辅任务和主任务的训练好的隐藏层信息经过注意力机制层进行全连接(5)最后经过CRF层考虑了序列中的全局标签信息，输出最优的标签序列；(6)通过验证集对训练好的模型进行性能评估。本发明能够帮助研究者在海量的中文文本数据中高效地获取有价值的信息和知识，有效的缓解了人工抽取信息耗时耗力的问题，对进一步文本挖掘工作的具有重要意义。

Description

一种多任务中文实体命名识别方法

技术领域

本发明涉及文本挖掘技术领域，具体涉及一种多任务中文实体命名识别方法。

背景技术

如今，对于英文文本的实体命名识别问题，已经被广泛研究。然而，中文NER仍然面临中文分词等挑战，往往很难定义一个词的构成。过去的中文NER任务，往往采用循环神经网络(RNN)提高模型在实体分类任务上的性能，但是RNN在长距离训练过程中存在梯度消失和梯度爆炸问题，长短期记忆模型(LSTM)，能够在更长序列中有更好的表现，并为RNN中的LSTM单元提出一个简单的调整技巧能够显著减少过拟合现象。双向长短期记忆网络(Bidirectional Long Short-Term Memory,BiLSTM)和条件随机场(CRF)结合的神经网络模型，将其用于NER或者词性标注，效果比单纯的CRF或者BiLSTM效果都要好，这种双向结构能够获取上下文的序列信息,因此在命名实体识别等任务中得到相当广泛的应用。

由于中文命名实体识别的实体边界难以划分，存在分词错误、词表外(OOV)等问题，BILSTM作为特征抽取器效果并不理想。对于词向量的预训练，都是基于词、字符的特征提取，忽略了词在上下文的相关信息，提取的是一种不包含上下文语境的静态词向量，因此也导致了模型有关实体识别能力的下降。BERT预训练模型可以很好的解决上述问题，它是一个基于微调的多层双向Transformer编码器。BERT可以进一步提高了词向量模型的泛化能力,充分描述字符级、词级、句子级甚至句间关系特征,结合了上下文的语境和语义信息，从而提高模型的实体识别能力。

为了进一步提高NER模型的性能，研究人员继续提出各种尝试，例如将各种最新方法集成到现有工具中，以提高模型性能，然而，如何在现有方法的基础上进一步提高NER系统的性能，特别是在数据集有限的情况下，如何进一步提高NER的性能仍是一个值得研究的领域。

多任务学习(MTL)就是研究方向之一，它通过使用多个相关标记数据集来训练目标模型，从而提高模型在单个数据集上的性能。由于相关数据集可能包含有效的辅助信息，有助于模型在联合训练后更有效地解决单个数据集的任务。

发明内容

本发明要解决的技术问题是，克服现有技术存在的上述缺陷，提供一种提高实体标准水平的高可用性、高效率的一种基于BERT和BiLSTM-AM-CRF的多任务中文实体命名识别方法，模型通过训练集来拟合数据样本，通过验证集调整模型的超参数，在测试集评估模最终模型的泛化能力。

为了实现上述技术目的，本发明的技术方案是，

一种多任务中文实体命名识别方法，包括以下步骤：

步骤一，获取至少两个不同的已标注中文语句数据集，并进行预处理；

步骤二，构建包括双向编码器\解码器、双层长短期记忆网络层、注意力网络、隐藏层和条件随机场层的BERT--BiLSTM-CRF网络结构，其中编码器、解码器、双层长短期记忆网络层和条件随机场层均包括两个平行的相同结构，且两个双层长短期记忆网络层通过同一个注意力网络输出到同一个隐藏层；

步骤三，通过包括解码器和编码器的预训练部分BERT分别对不同的数据集进行特征抽取，获取词向量；

步骤四，将得到的词向量输入到双层长短期记忆网络层BiLSTM中，以通过包括遗忘门，记忆门和输出门在内的神经网络层来对词向量进行信息提取；

步骤五，让两个双层长短期记忆网络层的结果通过注意力网络输入到同一个隐藏层，其中注意力网络结合不同学习率来对两个结果进行全连接，再将隐藏层的输出结果输入到条件随机场层CRF，最后由CRF层约束，输出最优标签序列；

步骤六，重复步骤三-五，并对模型超参数进行调整以得到最优参数从而完成模型训练，然后将待识别的数据集输入到模型中以进行识别。

所述的一种多任务中文实体命名识别方法，所述的步骤一中，预处理包括对数据集中的句子进行长度统一化处理。

所述的一种多任务中文实体命名识别方法，所述的步骤一中，中文语句数据集是采用以下方式对数据集中的实体进行标注：当命名实体由一个字描述时，标记为Begin-named entity；当命名实体由超过一个字的词语描述时，以Begin-named entity标记开头的字，其他字标记成In-named entity；非命名实体的字词都标注成Out。

根据权利要求1所述的一种多任务中文实体命名识别方法，所述的步骤三中，进行特征抽取包括以下步骤：

对于数据集中的句子，首先通过分词处理得到分词文本序列，然后对分词序列的部分词进行全词Mask；然后再用特殊标记[CLS]标记序列即一个句子的开头，用特殊标记[SEP]标记序列的结尾；从而得到由Token Embedding、Segment Embedding和PositionEmbedding这3个部分组成的Embedding，此时将序列向量每个词的输出Embedding输入到双向编码器\解码器进行特征提取，最后得到包含上下文语义特征的序列向量(x₁,x₂,...,x_n)。

所述的一种多任务中文实体命名识别方法，对分词序列的部分词进行全词Mask，是指对分词序列中预设比例的词执行以下处理：将预设比例中80％的词替换成空白；10％的词替换成任意一个其他词；10％的词不变化。

所述的一种多任务中文实体命名识别方法，所述的步骤四中，进行信息提取包括：

通过对网络中细胞状态中信息遗忘和记忆新的信息，使得对后续时刻计算有用的信息得以传递，而无用的信息被丢弃，并在每个时间步都会输出隐层状态，其中双层长短期记忆网络层中的遗忘，记忆与输出由通过上个时刻的隐层状态和当前输入计算出来的遗忘门f，记忆门i和输出门o来控制：

遗忘门公式为：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

其中σ是Sigmoid激活函数，W是权重矩阵，b是偏置向量，h是隐藏层状态，x是输入的词向量，下标t表示t时刻，下标f表示遗忘门下的相应参数；

然后计算记忆门以选择重要信息：

输入：前一时刻的隐层状态h_t-1，偏移量b

输出：记忆门的值i_t，临时细胞状态

i_t＝σ(W_f·[h_t-1,x_t]+b_i)

其中下标i表示记忆门下的相应参数，tanh为Tanh激活函数，下标C表示当前细胞状态下的相应参数；

接下来计算当前细胞状态C_t：

最后计算输出门o_t和当前时刻的隐藏状态h_t：

o_t＝σ(W_o·[h_t-1,x_t]+b_o)

h_t＝o_t*tanh(C_t)

其中下标o表示输出门下的相应参数；

BiLSTM通过对每个词序列分别采取前向和后向LSTM,然后将同一个时刻的输出进行合并，因此对于每一个时刻的h_t而言,都对应着前向的信息

与后向的信息

所述的一种多任务中文实体命名识别方法，所述的步骤五中，对不同的语料句子使用不同学习率，并通过相似度函数自动调整学习率，其中句子的学习率计算为：

α(x)＝α*func(x,IN)

其中α是固定学习速率，func(x,IN)表示句子x和作为语料库的步骤一中获取的数据集IN之间的相似性，相似性的取值从0到1；C为常数，v_x为句子的矩阵表示，v_IN为语料库的矩阵表示，d为维度；

通过得到的不同的学习率，将两个结果经过自注意力机制网络，结合学习率，进行全连接：

其中Softmax为多分类函数，Q,K,V是字向量矩阵，d_k是Embedding维度，上标T表示矩阵的转置。

所述的一种多任务中文实体命名识别方法，所述的步骤五中，由CRF层约束包括：对于任一个序列X＝(x₁,x₂,...,x_n),以P作为BiLSTM的输出得分矩阵，P的大小为n×k，其中n为词的个数，k为标签个数,P_ij表示第i个词的第j个标签的分数；

则对于预测序列Y＝(y₁,y₂,…,y_n),得到它的分数函数s(X,Y)为：

其中A表示转移分数矩阵，A_ij代表标签i转移为标签j的分数，A的大小为k+2；

预测序列Y产生的概率为：

其中e表示自然对数的底；

两头取对数得到预测序列的似然函数：

式中，

表示真实的标注序列，Y|X表示所有可能的标注序列；解码后得到最大分数的输出序列Y^*:

其中

表示当

取最大值时，

的取值。

所述的一种多任务中文实体命名识别方法，所述的步骤六中，对模型超参数进行调整包括：

将数据集分为训练集和验证集，并监控模型训练过程中标签在训练集和验证集上的预测效果，即通过对训练集的损失值trainloss和验证集的损失值dev loss进行检测来进行监控，并以损失值保持稳定时的模型超参数作为最优参数，完成调整。

本发明的技术效果在于，采取BERT进行词向量的特征抽取，通过BiLSTM层训练，结合多任务学习的方法，将两个任务训练后经过注意力机制网络共享隐藏层信息，然后分别输出最后的结果。本发明能够帮助研究者在海量的中文文本数据中高效地获取有价值的信息和知识，有效的缓解了人工抽取信息耗时耗力的问题，对进一步文本挖掘工作的具有重要意义。

附图说明

图1为本实施例的网络结构示意图；

图2为本实施例的模型训练步骤示意图；

图3为本实施例的数据集中句子长短分布示意图；

图4为在人民日报数据集和MASR数据集上采用不同模型得到的精确率P示意图；

图5为在人民日报数据集和MASR数据集上采用不同模型得到的召回率R示意图；

图6为在人民日报数据集和MASR数据集上采用不同模型得到的F1值示意图。

具体实施方式

下面结合实施例对本发明的具体实施方式作进一步详细说明：

建立模型并进行训练：

将实验数据集进行划分训练集，验证集，测试集，并使用BIO标注规则进行实体标注。使用的标签是Begin-named entity、In-named entity和Out，当命名实体是一个字描述时，标记为Begin-named entity，当命名实体由一个词描述时，以Begin-named entity标记开头的字，其他字标记成In-named entity，非命名实体的字词都标注成Out。然后构建BERT-BI-BiLSTM-CRF网络结构，该网络结构包括双向编码器\解码器、双层长短期记忆网络层、注意力网络、隐藏层和条件随机场层。其中编码器、解码器、双层长短期记忆网络层和条件随机场层均包括两个平行的相同结构，且两个双层长短期记忆网络层通过同一个注意力网络输出到同一个隐藏层。

对数据集中的句子进行长度统一化处理，本实施例将句子的长度统一调整为150个字，超出该长度的句子进行截断，小于该长度的句子则以0进行填充。

通过BERT对处理好的训练数据进行特征抽取，获取词向量。对于任意序列,首先通过分词处理得到分词文本序列，然后对分词序列的部分词进行Mask,不同于一般BERT的Mask标记，本实施例中对中文文本采用全词Mask,即对分词序列中预设比例的词执行以下处理：将预设比例中80％的词替换成空白；10％的词替换成任意一个其他词；10％的词不变化。本实施例中的预设比例设为20％，实际运用中也可根据具体需要进行调整。然后用特殊标记[CLS]标记序列的开头,用标记[SEP]分隔句子。这样就得到了由Token Embedding、Segment Embedding和Position Embedding这3个部分组成的Embedding，此时将序列向量每个词的输出Embedding输入到双向Transformer进行特征提取,最后得到包含上下文语义特征的序列向量(x₁,x₂,...,x_n)。

第三步：将两个数据集经过特征抽取后得到的序列向量分别输入到双层长短期记忆网络中，通过对网络中细胞状态中信息遗忘和记忆新的信息使得对后续时刻计算有用的信息得以传递，而无用的信息被丢弃，并在每个时间步都会输出隐层状态，其中遗忘，记忆与输出由通过上个时刻的隐层状态和当前输入计算出来的遗忘门，记忆门，输出门来控制。

遗忘门公式如下，h是隐藏层状态，x是输入的词向量，

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

计算记忆门，选择重要信息，

输入：前一时刻的隐层状态ht-1，偏移量b

输出：记忆门的值i，临时细胞状态C

i_t＝σ(W_f·[h_t-1,x_t]+b_i)

计算当前细胞状态

最后计算输出门和当前时刻的隐藏状态

o_t＝σ(W_o·[h_t-1,x_t]+b_o)

h_t＝o_t*tanh(C_t)

BiLSTM由对每个词序列分别采取前向和后向LSTM,然后将同一个时刻的输出进行合并.因此对于每一个时刻而言,都对应着前向与后向的信息。

第四步：第一个BiLSTM模型训练辅助任务，然后连接第二个主要任务模型，进行功能提取。让主任务和辅任务的训练结果通过attention层，输入到同一个隐藏层，并将最终结果输入CRF，分别输出结果。由于两个数据集的不同，需要识别主任务语料和辅任务语料的相似性，对不同的语料句子使用不同的学习率。通过相似度函数自动调整学习率。

句子的学习率计算如下

α(x)＝α*func(x,IN)

其中α是固定学习速率，func(x,IN)表示句子x和主任务语料库IN之间的相似性，后者从0到1。

通过得到的不同的的学习率结果，将两个结果经过自注意力机制网络，结合学习率，进行全连接。

第五步：隐藏层的输出作为CRF层的输入，经CRF层约束，输出最优标签序列。CRF层可以通过学习数据集中标签之间的转移概率从而修正BiLSTM层的输出，从而保证预测标签的合理性，可以有效地避免类似情况的发生。对于任一个序列X＝(x₁,x₂,…,x_n),在此假定P是BiLSTM的输出得分矩阵,P的大小为n×k,其中n为词的个数,k为标签个数,P_ij表示第i个词的第j个标签的分数.对预测序列Y＝(y₁,y₂,…,y_n)而言,得到它的分数函数为:

A表示转移分数矩阵,A_ij代表标签i转移为标签j的分数,A的大小为k+2.预测序列Y产生的概率为:

两头取对数得到预测序列的似然函数:

式中,Y～表示真实的标注序列,YX表示所有可能的标注序列.解码后得到最大分数的输出序列。

然后重复执行训练步骤，并对模型超参数进行调整：

将数据集分为训练集和验证集，并监控模型训练过程中标签在训练集和验证集上的预测效果，即通过对训练集的损失值trainloss和验证集的损失值dev loss进行检测来进行监控，并以损失值保持稳定时的模型超参数作为最优参数，完成调整。其中对损失值的监控中，根据不同情况可作出如下判断：

如果一直在减小，则将减小的模型作为目标模型，根据以下情况进行判断：

train loss不断下降，dev loss不断下降：说明网络仍在学习；

train loss不断下降，dev loss趋于不变：说明网络过拟合；

train loss趋于不变，dev loss不断下降：说明数据集可能出现问题；

train loss趋于不变，dev loss趋于不变：说明学习遇到瓶颈，可能需要减小学习率或批量数目等方式来调整超参数，或者是数据集有问题等。

train loss不断上升，test loss不断上升：说明网络结构设计不当，训练超参数设置不当，数据集经过清洗等问题。

如果loss值连续20轮未下降，默认当前模型为最优模型，进一步在测试集上进行测试，输出模型最终结果。

实验数据集划分

本实施例使用微软亚洲研究(MSRA)和人民日报数据集提供的来试验本文中介绍的模型。MSRA和《人民日报》包含三种实体类型：人员(PER)、组织(ORG)和Location(LOC)。下面是各个数据集的划分情况

下面的句子长短分布从可以看出，数据集的大部分句子长度分布在150个词以下，当数据被预处理时，句子的最大长度可以设置为150用于训练。在进行预处理时，短于150的句子可补入0作为填充，以将其扩充至150。

实验参数设置

使用Tensorflow的Adam优化器对模型进行培训，初始学习速率为0.001，并且通过反向传播对网络进行了微调。对于消失的梯度和过度拟合的问题，dropout为0.1。将句子的最大长度控制为150，标签的长度为10。否则填充较短的序列，截断较长的部分。下表中列出了详细的超参数。

识别结果

任务一采用的是MSRA中文数据集，任务二采用的是人民日报数据集，进行实验，并将实验结果与BiLSTM-CRF、BERT-CRF、BERT-BiLSTM-CRF等单任务模型在数据上进行对比，在两个数据集上的实验结果均有提高，本方法模型对比其他原有模型，性能有进一步的提升。

本实施例采用精确率P、召回率R和F1值来评判模型的性能，其中F1值是对模型精确率和召回率的一个综合评价，也是对模型的最后评价指标。各评价指标的计算方法如下：

F1在人民日报数据集和MASR数据集上的取得了98.33％和98.36％的得分。

在人民日报数据集上的结果如下：

在MASR数据集上的结果如下：

具体模型在人民日报数据集以及MASR数据集上各个指标对比情况如图3、图4及图5所示。

Claims

1.一种多任务中文实体命名识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种多任务中文实体命名识别方法，其特征在于，所述的步骤一中，预处理包括对数据集中的句子进行长度统一化处理。

3.根据权利要求1所述的一种多任务中文实体命名识别方法，其特征在于，所述的步骤一中，中文语句数据集是采用以下方式对数据集中的实体进行标注：当命名实体由一个字描述时，标记为Begin-named entity；当命名实体由超过一个字的词语描述时，以Begin-named entity标记开头的字，其他字标记成In-named entity；非命名实体的字词都标注成Out。

4.根据权利要求1所述的一种多任务中文实体命名识别方法，其特征在于，所述的步骤三中，进行特征抽取包括以下步骤：

5.根据权利要求4所述的一种多任务中文实体命名识别方法，其特征在于，对分词序列的部分词进行全词Mask，是指对分词序列中预设比例的词执行以下处理：将预设比例中80％的词替换成空白；10％的词替换成任意一个其他词；10％的词不变化。

6.根据权利要求1所述的一种多任务中文实体命名识别方法，其特征在于，所述的步骤四中，进行信息提取包括：

遗忘门公式为：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

然后计算记忆门以选择重要信息：

输入：前一时刻的隐层状态h_t-1，偏移量b

输出：记忆门的值i_t，临时细胞状态