CN114881032A

CN114881032A - 基于多任务学习的层次类别命名实体识别模型设计方法

Info

Publication number: CN114881032A
Application number: CN202210462583.4A
Authority: CN
Inventors: 程耀开; 田宗凯; 宋颖毅; 杨雨婷; 王又辰
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2022-04-28
Filing date: 2022-04-28
Publication date: 2022-08-09

Abstract

本发明涉及一种基于多任务学习的层次类别命名实体识别模型设计方法，属于自然语言处理技术领域。本发明通过在命名实体识别模型中加入对于类别关系的建模，使得模型能够同时识别出命名实体的多个类别，同时，本发明提出了基于多任务学习的模型来解决具有层次类别的命名实体识别问题。模型使用多任务学习机制同时学习多个层次的命名实体识别任务，这些任务共享同一个编码层，这样可以使得编码层学习到的编码向量可以同时适应多个层次的命名实体识别而不是过拟合于某一个单独的层次。最后，还分别设计了两种信息传递机制传递不同层次间的识别信息，以提高模型的识别效果。

Description

基于多任务学习的层次类别命名实体识别模型设计方法

技术领域

本发明属于自然语言处理技术领域，具体涉及一种基于多任务学习的层次类别命名实体识别模型设计方法。

背景技术

命名实体识别任务是自然语言处理领域的基础任务之一，其目标是识别出句中的人名、地名等有意义的命名实体。在现有的命名实体识别的研究中，大部分都只针对于粗粒度类别的命名实体，数据集中事先规定的类别数量大部分在10类以下，并且不考虑类别间的相互关系。然而在现实中，仅仅对命名实体进行粗粒度分类远远不能满足实际需求，命名实体通常有由粒度不同的多个类别构成，大量关键信息包含在细粒度的维度之上。命名实体的类别层级越多、粒度越细，命名实体识别结果给出的信息也就越丰富。因此，研究面向层次类别的命名实体识别模型设计方法具有十分重要的现实意义。

面向简单场景的命名实体识别并不能适应多层次细粒度类别的复杂情景。如果使用多个面向简单场景的命名实体识别模型识别不同层次的类别，必然导致不同层次间实体不一致和实体父子类别关系冲突等两种现象，同时多个任务互相独立工作，不同的模型类别之间没有相关关系的分析。如果使用面向简单场景的命名实体识别模型直接对最细粒度的类别进行识别，将识别出的细粒度类别当作实体的粗粒度类别输出，则可能会存在细粒度实体数据不足导致训练不充分的问题，同时这种方法也没有利用粗粒度的类别信息，没有建模类别的关系。目前，多层次命名实体识别领域的主流方法为两阶段流水线方法，第一阶段识别实体的边界，第二阶段确定实体的各个层次的类别。在分类时，多采用由粗到细逐级分类的思路。这种方法有两个缺点，第一，流水线方法会存在误差累积的问题，前一个任务出错会导致后续任务的错误。第二，流水线方法没有充分地利用数据集中的信息，会导致性能损失。因为实体类型也有助于实体边界的分割，细粒度的类别信息也有助于粗粒度的实体分类。综上而言，层次类别的命名实体识别的核心挑战在于如何同时利用多层次的信息进行命名实体的识别和分类，以及避免不同层次间输出结果的冲突。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：如何设计一种命名实体识别模型，使得模型能够同时识别出命名实体的多个类别、解决具有层次类别的命名实体识别问题，同时提高模型的识别效果。

(二)技术方案

为了解决上述技术问题，本发明提供了一种基于多任务学习的层次类别命名实体识别模型设计方法，该方法中，将所设计的基于多任务学习的层次类别的命名实体识别模型命名为MTBP，该模型设计时，将不同层次的命名实体识别视为多个任务，使用一个模型训练多个任务，使用多任务学习机制同时进行多个层次之间的命名实体识别预测，多个任务之间共享编码器，其中设计两种不同的信息传递机制以进行不同层次任务间识别信息的传递，第一种采用自顶向下的信息传递顺序，先预测顶层的类，再将顶层信息传递给下一层进行预测，将其称之为MTBP-T，第二种为自底向上的传递顺序，将其称之为MTBP-B。

优选地，该方法中，MTBP-T模型的设计原理为：将粗粒度类别的模型输出作为信息传入下一层以辅助细粒度的命名实体识别；MTBP-T模型使用BERT作为编码器，输入字符通过所述编码器得到初步的字向量，低层的表示向量由BERT输出结果与上一层标签预测结果拼接而成。

优选地，该方法中，将MTBP-T模型设计为一个面向具有三层类别结构命名实体识别任务的MBTP-T模型结构：

第一层使用BERT的输出作为嵌入向量，计算过程如下公式所示：

E₀＝BERT(X)

第二层之后均使用上一层的嵌入与上一层的识别结果的拼接作为嵌入向量：

E_k＝Concat(E_k-1，label_k-1)

其中，E₀表示BERT输出，其形状为m×l，l为输入序列的字符数量，m为BERT的字向量的尺寸；E_k代表每一层使用的输入字符向量，0＜k≤n，n为类别的层次数量；label_k-1是由上一层模型输出的抽取结果；

得到每一层字向量后通过线性层和sigmoid激活层得到一个概率矩阵作为预测矩阵，概率矩阵中每一列映射输入序列中的一个字，概率矩阵中每两行映射一个类别，两行中第一行对应该字为该类别实体开始的概率，第二行为结束的概率，具体计算过程如下公式所示：

pred_j＝sigmoid(W_j E_j)

其中，E_j表示第j个字的向量表示，

pred_j即为预测得到的字符为实体开始和结束位置的概率，

其中C_j代表第j层类别的类别个数。

优选地，该方法中，将MTBP-B模型设计为：自下而上传递信息的基于多任务学习的命名实体识别模型，其设计原理为：由于类别之间的从属关系，在实体预测中预测出子类实体实际上就已经预测出了父类实体，模型预测的低层次的实体输出中包含了父类分布的信息，所以可从子类的预测分布中得到父类的预测分布。

优选地，该方法中，将MTBP-B模型设计为一个面向实体类别具有三层结构的MTBP-B模型；

MTBP-B模型也使用BERT作为编码器来将输入序列编码为字符向量，如下公式所示：

E＝Bert(X)

E为输入字符的向量，其中，MTBP-B模型直接使用字符向量进行最细粒度的命名实体预测，预测过程仍然是将字符向量通过两个全连接层和sigmoid激活层得到一个表示字符是否为一类实体开始和结束的矩阵，计算过程如下公式所示：

pred_n＝sigmoid(W_nE)

其中，W_n为全连接层的参数，MTBP-B模型使用低层次的预测结果得到高层次的预测结果，其将同一父类的子类预测数据聚合，得到父类的预测数据，对于开始矩阵，具体转化过程为：将子类的两个预测矩阵按类别进行分割，形成若干个小矩阵，每个矩阵中行映射的类型具有相同的父类；取每一个小矩阵的列最大值形成一个新的行，再将这些行进行拼接得到新的矩阵，这个新的矩阵即为父类的预测矩阵，这个转化过程称之为levelmax操作，整体过程如下公式所示：

pred_j＝levelmax(pred_j+1)

其中0≤j＜n。

优选地，MTBP-B和MTBP-T使用单模型同时进行多个层次的实体识别需要使用多任务学习的范式，因此，在损失中同时引入多任务的损失函数进行多个任务的学习，多任务的损失函数设计为：

每一个层次的命名实体识别的单任务都可以分解为多个二分类问题，使用交叉熵损失函数作为二分类问题的损失函数，损失函数为：

loss_二分类＝-tlogp-(1-t)log(1-p)

其中t∈{0，1}为标签，p为模型输出的矩阵中的一项，如此一来，单个层次的命名实体识别的损失函数为：

loss_单任务＝∑loss_二分类

在多个层次的任务进行加和时，因为低层次的类别数高于高层次，相应的损失函数值大于高层次任务的损失函数值，所以对于每一个任务均设置一个超参数0≤λ_i≤1，1≤i≤n，以调节任务的重要程度，同时限制所有超参数的和为1，总的多任务的损失函数如下公式所示：

优选地，该方法中，通过预测矩阵构造识别结果，取一个阈值z，0＜z＜1，将预测矩阵中大于阈值的值设置为1，小于阈值的值设置为0，即可得到形状相同的标签矩阵label_j，如下公式所示：

labelj即为第j层预测出的标签矩阵，通过标签矩阵的标签值可以得到预测实体的起始和结束位置，从而抽取出该层次类别的命名实体，作为基于多任务学习的层次类别的命名实体识别模型最终输出的结果。

优选地，在训练阶段，使用教师监督学习的方法，直接使用训练集中的细粒度类别信息构造正确的标签矩阵进行指导，即训练时使用的字符标签数据label_j来自于训练集中正确的标签而不是上一层的输出，从而加速基于多任务学习的层次类别的命名实体识别模型的收敛。

优选地，将基于多任务的层次类别命名实体识别模型的多个输出中的高层次类别的输出作为真正的输出结果。

本发明还提供了一种所述方法在自然语言处理技术领域中的应用。

(三)有益效果

本发明通过在命名实体识别模型中加入对于类别关系的建模，使得模型能够同时识别出命名实体的多个类别，同时，本发明提出了基于多任务学习的模型来解决具有层次类别的命名实体识别问题。模型使用多任务学习机制同时学习多个层次的命名实体识别任务，这些任务共享同一个编码层，这样可以使得编码层学习到的编码向量可以同时适应多个层次的命名实体识别而不是过拟合于某一个单独的层次。最后，还分别设计了两种信息传递机制传递不同层次间的识别信息，以提高模型的识别效果。

附图说明

图1为本发明的MTBP-T模型架构图；

图2为本发明的MTBP-B模型架构图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

本发明中，将所设计的基于多任务学习的层次类别的命名实体识别模型命名为MTBP(Multi-Task-BERT-Pointer)，其基本思想为将不同层次的命名实体识别视为多个任务，使用一个模型训练多个任务，使用多任务学习机制同时进行多个层次之间的命名实体识别预测，多个任务之间共享编码层(BERT编码器)。不同层次的命名实体识别任务之间具有很大的关联，多任务学习可以避免过拟合于某一个任务，减小陷入局部极小值的概率。由于不同层次的任务具有很强的相关性，多任务学习可以帮助每一层次的实体识别都有更好的性能。本发明还设计了两种不同的信息传递机制以进行不同层次任务间识别信息的传递，第一种结构采用自顶向下(Top-down)的信息传递顺序，先预测顶层的类，再将顶层信息传递给下一层进行预测，本发明中将其称之为MTBP-T，第二种结构为自底向上(Bottom-up)的传递顺序，本发明中将其称之为MTBP-B，使用时采用其中之一，以下分别介绍。

1、MTBP-T

MTBP-T模型的主要动机在于细粒度的实体识别在得到粗粒度的实体识别信息后会更加准确，所以将粗粒度类别的模型输出作为信息传入下一层以辅助细粒度的命名实体识别。MTBP-T模型的整体架构如图1所示。

MTBP-T模型使用BERT作为编码器，输入字符通过所述编码器得到初步的字向量。低层的表示向量由BERT输出结果与上一层标签预测结果拼接而成。图1展示了一个面向具有三层类别结构命名实体识别任务的MBTP-T模型结构：

E₀＝BERT(X)\*MERGEFORMAT (1)

E_k＝Concat(E_k-1，label_k-1)\*MERGEFORMAT (2)

其中，E₀表示BERT输出，其形状为m×l，l为输入序列的字符数量，m为BERT的字向量的尺寸，通常为768；E_k代表每一层使用的输入字符向量，0＜k≤n，n为类别的层次数量；label_k-1是由上一层模型输出的抽取结果，计算方法在公式中列出。

得到每一层字向量后通过线性层和sigmoid激活层得到一个概率矩阵，概率矩阵中每一列映射输入序列中的一个字，概率矩阵中每两行映射一个类别，两行中第一行对应该字为该类别实体开始的概率，第二行为结束的概率。具体计算过程如下公式所示：

pred_j＝sigmoid(W_jE_j)\*MERGEFORMAT (3)

其中，E_j表示第j个字的向量表示，

pred_j即为预测得到的字符为实体开始和结束位置的概率，

其中C_j代表第j层类别的类别个数。

2、MTBP-B

MTBP-B模型是指自下而上传递信息的基于多任务学习的命名实体识别模型。其动机在于，由于类别之间的从属关系，在实体预测中预测出子类实体实际上就已经预测出了父类实体。模型预测的低层次的实体输出中包含了父类分布的信息，所以可以从子类的预测分布中得到父类的预测分布。图2展示了一个面向实体类别具有三层结构的MTBP-B模型。

与MTBP-T模型相同，MTBP-B模型也使用BERT作为编码器来将输入序列编码为字符向量。如下公式所示：

E＝Bert(X)\*MERGEFORMAT (4)

E为输入字符的向量。不同的地方在于，MTBP-B模型直接使用字符向量进行最细粒度的命名实体预测。预测过程仍然是将字符向量通过两个全连接层和sigmoid激活层得到一个表示字符是否为某类实体开始和结束的矩阵。计算过程如下公式所示：

pred_n＝sigmoid(W_nE)\*MERGEFORMAT (5)

其中，W_n为全连接层的参数。n表示第n层命名实体识别。MTBP-B模型使用低层次的预测结果得到高层次的预测结果，其具体思路为将同一父类的子类预测数据聚合，得到父类的预测数据。以开始矩阵为例，具体转化过程为：将子类的两个预测矩阵按类别进行分割，形成若干个小矩阵，每个矩阵中行映射的类型具有相同的父类；取每一个小矩阵的列最大值形成一个新的行，再将这些行进行拼接得到新的矩阵，这个新的矩阵即为父类的预测矩阵。以上过程称之为levelmax操作，整体过程如下公式所示：

pred_j＝levelmax(pred_j+1)

其中0≤j＜n。

下面介绍多任务损失函数：

MTBP-B和MTBP-T使用单模型同时进行多个层次的实体识别需要使用多任务学习的范式，即在损失中同时引入多任务的损失函数进行多个任务的学习。每一个层次的命名实体识别的单任务都可以分解为多个二分类问题。使用交叉熵损失函数作为二分类问题的损失函数，损失函数为：

loss_二分类＝-tlogp-(1-t)log(1-p)\*MERGEFORMAT (6)

其中t∈{0，1}为标签，p为模型输出的矩阵中的某一项。如此一来，单个层次的命名实体识别的损失函数为：

loss_单任务＝∑loss_二分类\*MERGEFORMAT (7)

在多个层次的任务进行加和时，因为低层次的类别数高于高层次，相应的损失函数值大于高层次任务的损失函数值。所以对于每一个任务均设置一个超参数0≤λ_i≤1，1≤i≤n，以调节任务的重要程度，同时限制所有超参数的和为1。总的多任务损失函数如下公式所示：

最后介绍模型预测输出：

最后，通过预测矩阵可以构造识别结果。取一个阈值z，0＜z＜1，将矩阵中大于阈值的值设置为1，小于阈值的值设置为0，即可得到形状相同的标签矩阵label_j，如下公式所示：

label_j即为第j层预测出的标签矩阵。通过标签矩阵的标签值可以得到预测实体的起始和结束位置，从而抽取出该层次类别的命名实体，作为本发明设计的基于多任务学习的层次类别的命名实体识别模型最终输出的结果。

在训练阶段，模型未经充分训练时，上层给出的标签输出可能含有大量的错误，并不能起到指导作用。所以在训练时使用教师监督学习的方法，直接使用训练集中的细粒度类别信息构造正确的标签矩阵进行指导，即训练时使用的字符标签数据label_j来自于训练集中正确的标签而不是上一层的输出。这样可以起到加速模型的收敛的效果。

基于多任务的命名实体识别模型会有多个输出，每一层次均会有相应的输出。但是不同层次的输出之间缺乏硬约束关系，不同层次的输出结果可能出现以下几种不一致性：1.实体不一致性。具体指不同层次的输出实体并不完全一致，不同层次输出的实体集合不完全一致。2.实体类别的父子关系不一致性。同一实体在不同层次的分类结果不存在父子关系。与此同时，由于每一个低层次类别都有且只有一个父亲。所以当模型识别出低层次实体时实际上也给出了一个高层次类别的输出，并且这个输出和低层次的分类结果没有实体不一致性和类别的父子关系冲突。也就是说，后者(高层次类别的输出)更适合作为基于多任务学习的层次类别的命名实体识别模型的真正输出。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于多任务学习的层次类别命名实体识别模型设计方法，其特征在于，该方法中，将所设计的基于多任务学习的层次类别的命名实体识别模型命名为MTBP，该模型设计时，将不同层次的命名实体识别视为多个任务，使用一个模型训练多个任务，使用多任务学习机制同时进行多个层次之间的命名实体识别预测，多个任务之间共享编码器，其中设计两种不同的信息传递机制以进行不同层次任务间识别信息的传递，第一种采用自顶向下的信息传递顺序，先预测顶层的类，再将顶层信息传递给下一层进行预测，将其称之为MTBP-T，第二种为自底向上的传递顺序，将其称之为MTBP-B。

2.如权利要求1所述的方法，其特征在于，该方法中，MTBP-T模型的设计原理为：将粗粒度类别的模型输出作为信息传入下一层以辅助细粒度的命名实体识别；MTBP-T模型使用BERT作为编码器，输入字符通过所述编码器得到初步的字向量，低层的表示向量由BERT输出结果与上一层标签预测结果拼接而成。

3.如权利要求2所述的方法，其特征在于，该方法中，将MTBP-T模型设计为一个面向具有三层类别结构命名实体识别任务的MBTP-T模型结构：

E₀＝BERT(X)

E_k＝Concat(E_k-1，label_k-1)

pred_j＝sigmoid(W_jE_j)

其中，E_j表示第j个字的向量表示，

pred_j即为预测得到的字符为实体开始和结束位置的概率，

其中C_j代表第j层类别的类别个数。

4.如权利要求3所述的方法，其特征在于，该方法中，将MTBP-B模型设计为：自下而上传递信息的基于多任务学习的命名实体识别模型，其设计原理为：由于类别之间的从属关系，在实体预测中预测出子类实体实际上就已经预测出了父类实体，模型预测的低层次的实体输出中包含了父类分布的信息，所以可从子类的预测分布中得到父类的预测分布。

5.如权利要求4所述的方法，其特征在于，该方法中，将MTBP-B模型设计为一个面向实体类别具有三层结构的MTBP-B模型；

E＝Bert(X)

pred_n＝sigmoid(W_nE)

pred_j＝levelmax(pred_j+1)

其中0≤j＜n。

6.如权利要求3至5中任一项所述的方法，其特征在于，MTBP-B和MTBP-T使用单模型同时进行多个层次的实体识别需要使用多任务学习的范式，因此，在损失中同时引入多任务的损失函数进行多个任务的学习，多任务的损失函数设计为：

loss_二分类＝-tlogp-(1-t)log(1-p)

loss_单任务＝∑loss_二分类

7.如权利要求3至6中任一项所述的方法，其特征在于，该方法中，通过预测矩阵构造识别结果，取一个阈值z，0＜z＜1，将预测矩阵中大于阈值的值设置为1，小于阈值的值设置为0，即可得到形状相同的标签矩阵label_j，如下公式所示：

label_j即为第j层预测出的标签矩阵，通过标签矩阵的标签值可以得到预测实体的起始和结束位置，从而抽取出该层次类别的命名实体，作为基于多任务学习的层次类别的命名实体识别模型最终输出的结果。

8.如权利要求7所述的方法，其特征在于，在训练阶段，使用教师监督学习的方法，直接使用训练集中的细粒度类别信息构造正确的标签矩阵进行指导，即训练时使用的字符标签数据label_j来自于训练集中正确的标签而不是上一层的输出，从而加速基于多任务学习的层次类别的命名实体识别模型的收敛。

9.如权利要求1至8中任一项所述的方法，其特征在于，将基于多任务的层次类别命名实体识别模型的多个输出中的高层次类别的输出作为真正的输出结果。

10.一种如权利要求1至9中任一项所述方法在自然语言处理技术领域中的应用。