CN113298253B

CN113298253B - 用于命名实体识别的模型训练方法、识别方法及装置

Info

Publication number: CN113298253B
Application number: CN202110621275.7A
Authority: CN
Inventors: 许斌; 仝美涵; 李涓子; 侯磊
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2021-12-14
Anticipated expiration: 2041-06-03
Also published as: CN113298253A

Abstract

本发明提供一种用于命名实体识别的模型训练方法、识别方法及装置，该模型训练方法包括：将预定义类数据输入到由编码模块和分类模块构建的第一原型网络，得到学习后的编码模块；将预定义类数据分别输入到学习前后的编码模块，结果分别输入到组分类器进行训练；将其他类数据分别输入到学习前后的编码模块，结果分别输入到训练后的组分类器，得到其他类数据的分组结果；将预定义类数据和其他类数据输入到第二原型网络，对第二原型网络进行训练。本发明提供的用于命名实体识别的模型训练方法、识别方法及装置，通过利用预定义类的弱监督信号，能够有效地从其他类中挖掘更多的未定义类，从而利用其他类中丰富的语义信息，增强小样本命名实体识别能力。

Description

用于命名实体识别的模型训练方法、识别方法及装置

技术领域

本发明涉及机器学习技术领域，尤其涉及一种用于命名实体识别的模型训练方法、识别方法及装置。

背景技术

命名实体识别旨在从句子中找到命名实体并将其分类为预定义的类(Yadav和Bethard，2019)。例如“牛顿是一个数学家。他出生在林肯郡”，命名实体识别任务需要识别出“牛顿”和“林肯郡”是命名实体，并判断他们的类型为人物和地点。实际场景中，新的命名实体类型层出不穷，为这些新的类型标注数据费时费力，因此，如何从少量的标注样本中快速学习吸引了广泛的关注，该任务也称为小样本命名实体识别(Fritzler等，2019)。

传统的命名实体识别模型(例如LSTM+CRF(Lample等人，2016))在少量标注下表现很差，它们基于统计信息计算转移概率矩阵，需要大量数据进行统计优化。原型网络(Snell等人，2017)在小样本命名实体识别上是目前表现很好的模型，它的基本思想是为每个预定义类以及其他类学习一个原型表示，然后根据样例到原型表示距离的远近进行分类(Fritzler et al。，2019)，即最接近哪个类的原型表示就属于哪个类。现有的原型网络方法大多数都集中在如何更好的学习预定义类的原型表示(Hou等，2020)，但是，忽略了其他类(Other类)中隐藏的大量语义。

发明内容

针对现有技术存在的问题，本发明提供一种用于命名实体识别的模型训练方法、识别方法及装置。

本发明提供一种用于命名实体识别的模型训练方法，包括：预训练流程，包括：将预定义类数据输入到由第一编码模块和第一分类模块构建的第一原型网络，以将所述预定义类数据分类到对应的预定义类为目标，对所述第一原型网络进行训练，得到学习后的所述第一编码模块；组分类器训练流程，包括：将所述预定义类数据分别输入到所述学习后的第一编码模块以及随机初始化的所述第一编码模块，将所述学习后的第一编码模块及所述随机初始化的所述第一编码模块的输出结果分别输入到组分类器，对所述组分类器进行训练；其中，所述组分类器用于识别任意两个所述预定义类数据是否属于同一所述预定义类；组分类器预测流程，包括：将其他类数据分别输入到所述学习后的第一编码模块以及随机初始化的所述第一编码模块，将所述学习后的第一编码模块及所述随机初始化的所述第一编码模块的输出结果分别输入到训练后的所述组分类器，得到所述其他类数据的未定义类的分组结果；联合学习流程，包括：将所述预定义类数据和所述其他类数据输入到由第二编码模块和第二分类模块构建的第二原型网络，以将所述预定义类数据分类到对应的所述预定义类及将所述其他类数据分类到对应的所述分组结果为目标，对所述第二原型网络进行训练。

根据本发明提供的一种用于命名实体识别的模型训练方法，所述组分类器的优化目标函数为：

b_ij＝W(h_i；h_j；g_i；g_j；|h_i-h_j|；|g_i-g_j|；|h_i-g_i|；|h_j-g_j|)+b

其中，L(C|B；θ₂)为所述组分类器的优化目标函数，C为所述预定义类的集合，B为b_ij的集合，θ₂为所述组分类器训练时的训练参数；i、j为训练示例的序号，所述训练示例包括对应的所述预定义类数据及所述预定义类的信息，所述预定义类数据包括实体及所述实体所在的句子；N为所述训练示例的数目；y_ij为序号为i的训练示例和序号为j的训练示例是否属于同一个所述预定义类的标注；b_ij为判断序号为i的训练示例和序号为j的训练示例属于同一个所述预定义类的置信度；g_i为对应序号为i的训练示例，所述随机初始化的所述第一编码模块输出的嵌入表示；g_j为对应序号为j的训练示例，所述随机初始化的所述第一编码模块输出的嵌入表示；h_i为对应序号为i的训练示例，所述学习后的第一编码模块输出的嵌入表示；h_j为对应序号为j的训练示例，所述学习后的第一编码模块输出的嵌入表示；W为权重，b为偏置。

根据本发明提供的一种用于命名实体识别的模型训练方法，在得到所述其他类数据的分组结果之后，所述方法还包括：若多个连续的所述实体对应的所述训练示例属于同一个所述分组结果，则将所述多个连续的所述实体组成多词实体。

根据本发明提供的一种用于命名实体识别的模型训练方法，在得到所述其他类数据的分组结果之后，所述方法还包括：根据所述分组结果，计算每个分组中的各个示例的嵌入表示的均值，并将所述均值作为类中心；计算所述分组中的各个所述示例的所述嵌入表示到所述类中心的余弦相似度，利用所述余弦相似度对所述示例打软标签。

根据本发明提供的一种用于命名实体识别的模型训练方法，所述第二原型网络的优化目标函数为：

其中，L(θ₃)为所述第二原型网络的优化目标函数，θ₃为所述第二原型网络训练时的训练参数；x为训练示例中的实体，所述训练示例对应于所述预定义类数据或对应于所述其他类数据，p_y为y类实体的原型表示，p_c为c类实体的原型表示，d(x,p_y)为y类实体与p_y之间的距离，d(x，p_c)为c类实体与p_c之间的距离；s为比例因子；C为所述预定义类的集合，O为所述未定义类的集合。

本发明还提供一种命名实体识别方法，包括：将预定义类数据和/或其他类数据输入到第二原型网络，得到所述预定义类数据和/或所述其他类数据的分类结果。

本发明还提供一种用于命名实体识别的模型训练装置，包括：预训练单元，用于：将预定义类数据输入到由第一编码模块和第一分类模块构建的第一原型网络，以将所述预定义类数据分类到对应的预定义类为目标，对所述第一原型网络进行训练，得到学习后的所述第一编码模块；组分类器训练单元，用于：将所述预定义类数据分别输入到所述学习后的第一编码模块以及随机初始化的所述第一编码模块，将所述学习后的第一编码模块及所述随机初始化的所述第一编码模块的输出结果分别输入到组分类器，对所述组分类器进行训练；其中，所述组分类器用于识别任意两个所述预定义类数据是否属于同一所述预定义类；组分类器预测单元，用于：将其他类数据分别输入到所述学习后的第一编码模块以及随机初始化的所述第一编码模块，将所述学习后的第一编码模块及所述随机初始化的所述第一编码模块的输出结果分别输入到训练后的所述组分类器，得到所述其他类数据的未定义类的分组结果；联合学习单元，用于：将所述预定义类数据和所述其他类数据输入到由第二编码模块和第二分类模块构建的第二原型网络，以将所述预定义类数据分类到对应的所述预定义类及将所述其他类数据分类到对应的所述分组结果为目标，对所述第二原型网络进行训练。

本发明还提供一种命名实体识别装置，包括：识别模块，用于：将预定义类数据和/或其他类数据输入到第二原型网络，得到所述预定义类数据和/或所述其他类数据的分类结果。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述用于命名实体识别的模型训练方法或命名实体识别方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述用于命名实体识别的模型训练方法或命名实体识别方法的步骤。

本发明提供的用于命名实体识别的模型训练方法、识别方法及装置，通过利用预定义类的弱监督信号，在零样本的情境下找到多个未定义类的标注，并通过联合学习的方式，联合训练预定义类和新挖掘的未定义类，能够有效地从其他类中挖掘更多的未定义类，从而利用其他类中丰富的语义信息，增强小样本命名实体识别能力。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的用于命名实体识别的模型训练方法的流程示意图之一；

图2是本发明提供的用于命名实体识别的模型训练方法的流程示意图之二；

图3是本发明提供的命名实体识别方法的流程示意图；

图4是本发明提供的用于命名实体识别的模型训练装置的结构示意图；

图5是本发明提供的命名实体识别装置的结构示意图；

图6是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图6描述本发明的用于命名实体识别的模型训练方法、识别方法及装置。

图1是本发明提供的用于命名实体识别的模型训练方法的流程示意图之一。如图1所示，所述方法包括：

预训练流程101，包括：将预定义类数据输入到由第一编码模块和第一分类模块构建的第一原型网络，以将所述预定义类数据分类到对应的预定义类为目标，对所述第一原型网络进行训练，得到学习后的所述第一编码模块。

组分类器训练流程102，包括：将所述预定义类数据分别输入到所述学习后的第一编码模块以及随机初始化的所述第一编码模块，将所述学习后的第一编码模块及所述随机初始化的所述第一编码模块的输出结果分别输入到组分类器，对所述组分类器进行训练；其中，所述组分类器用于识别任意两个所述预定义类数据是否属于同一所述预定义类；

组分类器预测流程103，包括：将其他类数据分别输入到所述学习后的第一编码模块以及随机初始化的所述第一编码模块，将所述学习后的第一编码模块及所述随机初始化的所述第一编码模块的输出结果分别输入到训练后的所述组分类器，得到所述其他类数据的未定义类的分组结果；

联合学习流程104，包括：将所述预定义类数据和所述其他类数据输入到由第二编码模块和第二分类模块构建的第二原型网络，以将所述预定义类数据分类到对应的所述预定义类及将所述其他类数据分类到对应的所述分组结果为目标，对所述第二原型网络进行训练。

本发明涉及自然语言处理、小样本学习、零样本学习以及命名实体识别领域，提出一种基于未定义类挖掘的小样本命名实体识别深度学习模型的训练方法。在本发明中，提出从其他类中挖掘更细粒度的语义信息，而不是只关注预定义类，以增强小样本命名实体识别的性能。其他类包含丰富的语义，这些知识能够为命名实体识别和消歧提供证据。如果可以从其他类中检测到一个由实体代称组成的未定义类，则由于实体代称和实体的可替换性，将获得有关命名实体位置的先验知识。例如，在“牛顿是一个伟大的科学家，他提出了微积分。”中，牛顿可以由他或者教授代称，如果能够将包括他和教授在内的人称代词组成一个未定义类，将获得更多有关牛顿出现在何处的证据。另外，如果可以从其他类中检测到一个由动作组成的未定义类，可以借助动作对主谓语的语义限制辅助实体消歧，比如动作“出生”的主语大概率是人物，谓语大概率是地点。

然而，从其他类中挖掘未定义类是很困难的，有两个原因：1)其他类中的词汇噪音很大，有很多停用词或者功能词，这些噪音会严重干扰实体识别的性能；2)缺乏监督数据，既没有未定义类的元数据(如类的定义)，也没有监督语料。值得注意的是，这种情况连现有最先进的零样本方法也无法处理，它们需要元数据的支撑。同时，无监督聚类的效果也达不到对数据质量要求。

为了解决这些问题，本发明提出了“从其他类中挖掘未定义的类”(MUCO)模型。将学习多个原型来表示其他类的各种语义，而不是单个原型表示。为了应对没有注释的问题，利用来自预定义类的弱监督信号来挖掘未定义类。通过在类A(通常具有丰富标注)上进行预训练，原型网络可以快速迁移到新类B上。究其原因，如果两个类(A和B)语义相关，则当聚类A中的样例时，B中的样例也会自动倾向于聚集，即使B类上没有明确的监督信号。基于这种现象，首先对预定义类进行原型学习以将预定义类中的单词聚类，然后将也倾向于聚类的其他类(对于其他类数据的分类)中的词语视为未定义类。具体来说，训练一个二分类来判断是否在任何两个词语之间发生了聚类。之后，将找到的未定义类标记回句子中，以共同识别预定义和未定义类以完成知识迁移。

在预训练流程101中，给定实体以及其所在的句子，利用预定义标注数据进行小样本原型学习。将预定义类数据输入到由第一编码模块和第一分类模块依次相连构建的第一原型网络。对于输入实体及其所在的句子，第一编码模块通过多头注意力交互机制以及多层的交互编码，获得对该实体在当前语境下的嵌入表示，即将离散的词语映射到可计算的隐含表示空间。基于第一编码模块获得的实体的嵌入表示，以及标注数据的监督信号，通过全连接神经网络层将实体分类到预定义类型下。具体来说，第一分类模块通过最小化嵌入表示到正确类的原型表示距离，并且最大化嵌入表示到其他类的原型表示距离来完成分类。训练完成后，得到学习后的第一原型网络，学习后的第一原型网络包括学习后的第一编码模块。

在组分类器训练流程102中，基于学习后的第一编码模块，训练了一个零样本的组分类器，以借助预定义类的监督信号，从其他类中挖掘未定义类群组。将预定义类的数据分别输入到学习后的第一编码模块和随机初始化的编码模块(未经训练)中，得到训练前的嵌入表示和训练后的嵌入表示，以训练前的嵌入表示和训练后的嵌入表示作为特征输入二分类器(组分类器)中，判断任何两个预定义类实体是否属于同一个类型。

在组分类器预测流程103中，将其他类数据分别输入到学习后的第一编码模块以及随机初始化的第一编码模块，将学习后的第一编码模块及随机初始化的第一编码模块的输出结果分别输入到训练后的组分类器，得到其他类数据的未定义类的分组结果。在本步骤中，利用训练好的组分类器，判断任何两个其他类中的词是否属于同一个未定义类，从而完成未定义类挖掘。

在联合学习流程104中，基于组分类器预测流程103获得的未定义类标注以及原有的预定义类标注，全部回标到训练集中，进行联合原型网络训练，以完成未定义类到预定义类的知识迁移。将预定义类数据和其他类数据输入到由第二编码模块和第二分类模块构建的第二原型网络，以将预定义类数据分类到对应的预定义类及将其他类数据分类到对应的分组结果为目标，对第二原型网络进行训练。其中，第二编码模块和第一编码模块可以为相同的编码模块，也可以为不同的编码模块。第二分类模块和第一分类模块可以为相同的分类模块，也可以为不同的分类模块。

在小样本命名实体识别中，给出了训练示例D＝D_C∪D_O,其中

是预定义类中的训练示例，

是其他类中的训练示例，预定义类的类型C＝{c₁,c₂,…,c_k}。对于每个示例(x,y),x由S和w_j组成，其S＝<w₁,w₂,…,w_n>代表句子，而w_j是查询的命名实体，y是查询的命名实体w_j的类标签。将类y的原型表示为p_y，并将所有类C∪O的原型表示为P＝{p_y|y∈C∪O}。目标是首先从其他类中检测多个未定义的类O＝{o₁,o₂，…,o_r}以标记D_O中示例到更细粒度的类上，然后在D_C和D_O上最大化预测概率P(y|x)。

本发明提供的用于命名实体识别的模型训练方法，通过利用预定义类的弱监督信号，在零样本的情境下找到多个未定义类的标注，并通过联合学习的方式，联合训练预定义类和新挖掘的未定义类，能够有效地从其他类中挖掘更多的未定义类，从而利用其他类中丰富的语义信息，增强小样本命名实体识别能力。

本发明提供的用于命名实体识别的模型训练方法，通过合理化设置组分类器的优化目标函数，增强了小样本命名实体识别的准确性。

根据本发明提供的一种用于命名实体识别的模型训练方法，若多个连续的所述实体对应的所述训练示例属于同一个所述分组结果，则将所述多个连续的所述实体组成多词实体。

组分类器训练后，将其他类数据中的示例对输入到组分类器，若根据分组结果获知，示例中多个连续的实体对应的训练示例属于同一个分组结果，则将多个连续的实体组成多词实体。其他类数据中的某些示例可能不属于任何组。

本发明提供的用于命名实体识别的模型训练方法，通过在多个连续的实体对应的训练示例属于同一个分组结果时，将多个连续的实体组成多词实体，提高了实体划分的合理性。

在得到其他类数据的分组结果之后，将其他类数据中的示例进一步的划分到了多个未定义类上。不同于传统的硬标签，对于每个未定义类，计算示例的嵌入表示的均值作为类中心，然后计算各个示例的嵌入表示到类中心的余弦相似度作为当前示例的软标签。通过软标记，可以得到示例属于该未定义类的可能性。

本发明提供的用于命名实体识别的模型训练方法，通过在得到其他类数据的分组结果之后，计算分组中各个示例的嵌入表示的均值，根据各个示例的嵌入表示到均值的余弦相似度对示例打软标签，为辨别示例属于所分未定义类的可能性的大小提供依据。

其中，L(θ₃)为所述第二原型网络的优化目标函数，θ₃为所述第二原型网络训练时的训练参数；x为训练示例中的实体，所述训练示例对应于所述预定义类数据或对应于所述其他类数据，p_y为y类实体的原型表示，p_c为c类实体的原型表示，d(x,p_y)为y类实体与p_y之间的距离，d(x,p_c)为c类实体与p_c之间的距离；s为可训练标量；C为所述预定义类的集合，O为所述未定义类的集合。

本发明提供的用于命名实体识别的模型训练方法，通过合理设置第二原型网络的优化目标函数，进一步提高了命名实体识别的准确性。

图2是本发明提供的用于命名实体识别的模型训练方法的流程示意图之二。下面结合图2，进一步详细说明本发明提供的用于命名实体识别的模型训练方法的流程。本发明提供的用于命名实体识别的模型训练方法的步骤包括：

A、原型网络预训练

A1、编码处理

采用BERT模型来获得实体以及其所在句子的隐藏表示。BERT是一种经过预先训练的语言表示模型，它采用的多层堆叠的多头注意力机制(multi-layer multi-headattention mechanism)，该机制不仅有更好的并行性，而且能够有效的提升神经网络对句子整体语义的表示能力，近年来其强大的表示能力在许多任务(例如问题回答和语言推断)上都取得了优异的性能。命名实体场景中也证明了BERT的强大功能。

形式上，给定训练示例(x,y)∈D_c，其中x由两部分组成，分别为查询实体wj和其所在的句子S＝<w1，w2，...，wn>，y是x的实体类型，将x输入到BERT中，取BERT序列输出的第j个位置作为当前查询词的嵌入表示h。

h＝f_θ(x)

其中，θ表示编码模块的参数。

A2、分类处理

在训练开始时为每个预定义类y随机初始化其原型表示p_y，然后在训练过程中缩短y类示例与原型表示p_y之间的距离。与传统的原型学习相比，不需要将部分示例用于原型表示计算，因此提高了标注示例的利用率。y类示例与原型p_y之间的距离d(x,p_y)的计算公式如下：

d(x,p_y)＝-f_θ(x)^Tp_y

其中，f_θ(x)和p_y会首先进行归一化的计算。

给定标注数据

预定义的类型C＝{c₁,c₂，…,c_k}，最终的原型分类的优化目标为：

其中，θ₁为分类模块的参数；d(x,p_c)表示c类示例与原型表示p_c之间的距离。

B、未定义类挖掘

B1、组分类器训练

要检测多个未定义的类，需要找到多个示例组，并且每个组中的示例都应具有聚类的趋势。由于没有每个类的类描述，很难将不同的未定义类区分开。为了解决这个问题，在预定义的类上学习了一个点对二分类器。主要思想是，如果可以确定任何两个示例是否属于同一组，则可以将所有组彼此区分开。

正式地，给定D_c中的一对示例(x_i,y_i)和(x_j,y_j)，先从未经学习的映射函数(BERT的原始参数，没有在任务上微调)中得到它们的原始位置g_i和g_j，再从经过学习的映射函数(BERT的参数经过A步骤描述的预训练的微调)中得到它们受预定义类影响后的位置h_i和h_j。其中，原始位置g_i表示未经学习的编码模块输出的对应示例(x_i,y_i)的嵌入表示，原始位置g_j表示未经学习的编码模块输出的对应示例(x_j,y_j)的嵌入表示；受预定义类影响后的位置h_i表示学习后的编码模块输出的对应示例(x_j,y_j)的嵌入表示，受预定义类影响后的位置h_j表示学习后的编码模块输出的对应示例(x_j,y_j)的嵌入表示。

那么，判断x_i和x_j是否属于同一类的编码公式如下：

其中，b_ij表示示例(x_i，y_i)和示例(x_j,y_j)属于同一个所述预定义类的置信度。

通过比较原始位置g和受预训练影响后的位置h之间的距离变化，可以判断出这两个点之间是否发生了聚合。除了距离变化特征，可以添加了查询实体本身的语义特征(包括第1到第4个特征)，以进一步考虑词之间的语义相似性对判断是否属于一个类的的影响。

组分类器的最终优化目标是

其中N是预定义类中示例的数目，而y_ij是任何两个点是否属于同一个预定义类的标注。具体来说，如果x_i和x_j来自相同的预定义类，即y_i＝y_j，则y_ij为1，否则为0。

B2、组分类器预测

训练后，将D_o中的示例对x_u和x_v馈入二进制组分类器，以获得组划分结果。输出b_uv表示示例对x_u和x_v属于同一组的置信度。设置一个划分组的阈值γ。如果b_uv大于阈值γ，则x_u和x_v应属于同一组(即属于同一个未定义的类)。如果连续的单词属于同一组，会将这些单词视为一个多单词实体。注意，其他类中的某些示例可能不属于任何组。假定这些示例来自与任务无关的类，并对这些示例不再作进一步的划分。

经过上述分组划分的过程，将其他类中的示例进一步的划分到了多个未定义类上O＝{o₁,o₂,…,o_r}。不同于传统的硬标签，可以采用软标签机制。对于每个未定义类o_i，计算示例的均值作为类中心，然后计算各个示例到类中心的余弦相似度作为当前示例的软标签。通过软标记，可以考虑示例属于该未定义类的可能性。

C、联合学习

在本发明中，将同时考虑预定义的类C和找到的未定义的类O进行联合学习。首先，将未定义类中的示例标记回到句子中，如“牛顿是一个伟大的科学家，他提出了微积分。”这句话，现在不仅会把“牛顿”标为“人名”，也会把“他”标为“未定义类1”。然后，对示例进行联合的原型学习，使它们更接近相应的原型，以更好地进行区分。与原型网络预训练中的优化目标相比，添加了其他类中的原型

作为候选原型。

正式地，给定示例

预定义类C和未定义类O的原型表示P＝{p_c|c∈C∪O}，优化目标为：

由于计算余弦距离d，其值限制在[-1，1]范围内，因此当应用softmax激活时，对交叉熵损失施加了下限，输出无法接近真实的标签。例如，即使给出了黄金预测：正确类别给出1，错误类别给出-1，则输出p(y|x)＝e¹/[e¹+(|C∪O|-1)e^-1]仍然无法达到1。其中，|C∪O|表示预定义类C和未定义类O的总个数。随着通过引入更多未定义类，增加命名实体类别的数量，问题变得更加严重。为了缓解该问题，修改了公式。通过添加在所有类之间共享的可训练标量s作为比例因子来进行缩放，新的优化目标为：

本发明提供的用于命名实体识别的模型训练方法，首次尝试从其他类中挖掘更多的未定义类，以利用其他类中的丰富语义来改善小样本命名实体识别。具体来说，首先利用来自预定义类的弱监督信号来检测其他类中的未定义类。然后，执行联合分类，以利用未定义类中的丰富语义来增强对预定义类的理解。

本发明首次探索其他类中丰富语义，提出了一种新颖的“从其他类中挖掘更多未定义类”方法，以利用其他类中的丰富语义来改善小样本命名实体识别的性能。本发明提出了一种新颖的零样本分类方法用于未定义的类别挖掘，在没有标记示例以及类的元数据的情况下，提出的零样本方法创造性地使用了预定义类的弱监督信号来查找未定义的类。本发明提出的方法非常灵活，不仅在命名实体识别的四个基准上取得了最优的效果。而且也可以用于提升意图识别、事件抽取等其他词粒度分类(token-level classification)任务。

图3是本发明提供的命名实体识别方法的流程示意图。如图3所示，所述方法包括：

步骤S1、将预定义类数据和/或其他类数据输入到第二原型网络，得到所述预定义类数据和/或所述其他类数据的分类结果。

经过上述各实例提供的用于命名实体识别的模型训练方法得到训练好的第二原型网络后，可以利用第二原型网络对预定义类数据和/或其他类数据进行分类。具体地，将预定义类数据和/或其他类数据输入到第二原型网络，得到所述预定义类数据和/或所述其他类数据的分类结果。

本发明提供的命名实体识别方法，通过将预定义类数据和/或其他类数据输入到第二原型网络，得到所述预定义类数据和/或所述其他类数据的分类结果，实现了利用其他类中丰富语义进行命名实体识别。

下面对本发明提供的用于命名实体识别的模型训练装置进行描述，下文描述的用于命名实体识别的模型训练装置与上文描述的用于命名实体识别的模型训练方法可相互对应参照。

图4是本发明提供的用于命名实体识别的模型训练装置的结构示意图。如图4所示，所述装置包括预训练单元10、组分类器训练单元20、组分类器预测单元30及联合学习单元40，其中：

预训练单元10用于：将预定义类数据输入到由第一编码模块和第一分类模块构建的第一原型网络，以将所述预定义类数据分类到对应的预定义类为目标，对所述第一原型网络进行训练，得到学习后的所述第一编码模块；

组分类器训练单元20用于：将所述预定义类数据分别输入到所述学习后的第一编码模块以及随机初始化的所述第一编码模块，将所述学习后的第一编码模块及所述随机初始化的所述第一编码模块的输出结果分别输入到组分类器，对所述组分类器进行训练；其中，所述组分类器用于识别任意两个所述预定义类数据是否属于同一所述预定义类；

组分类器预测单元30用于：将其他类数据分别输入到所述学习后的第一编码模块以及随机初始化的所述第一编码模块，将所述学习后的第一编码模块及所述随机初始化的所述第一编码模块的输出结果分别输入到训练后的所述组分类器，得到所述其他类数据的未定义类的分组结果；

联合学习单元40用于：将所述预定义类数据和所述其他类数据输入到由第二编码模块和第二分类模块构建的第二原型网络，以将所述预定义类数据分类到对应的所述预定义类及将所述其他类数据分类到对应的所述分组结果为目标，对所述第二原型网络进行训练。

本发明提供的用于命名实体识别的模型训练装置，通过利用预定义类的弱监督信号，在零样本的情境下找到多个未定义类的标注，并通过联合学习的方式，联合训练预定义类和新挖掘的未定义类，能够有效地从其他类中挖掘更多的未定义类，从而利用其他类中丰富的语义信息，增强小样本命名实体识别能力。

根据本发明提供的用于命名实体识别的模型训练装置，在得到所述其他类数据的分组结果之后，所述组分类器预测单元30还用于：若多个连续的所述实体对应的所述训练示例属于同一个所述分组结果，则将所述多个连续的所述实体组成多词实体。

本发明提供的用于命名实体识别的模型训练装置，通过在多个连续的实体对应的训练示例属于同一个分组结果时，将多个连续的实体组成多词实体，提高了实体划分的合理性。

根据本发明提供的用于命名实体识别的模型训练装置，在得到所述其他类数据的分组结果之后，所述组分类器预测单元30还用于：根据所述分组结果，计算每个分组中的各个示例的嵌入表示的均值，并将所述均值作为类中心；计算所述分组中的各个所述示例的所述嵌入表示到所述类中心的余弦相似度，利用所述余弦相似度对所述示例打软标签。

本发明提供的用于命名实体识别的模型训练装置，通过在得到其他类数据的分组结果之后，计算分组中各个示例的嵌入表示的均值，根据各个示例的嵌入表示到均值的余弦相似度为示例打软标签，为辨别示例属于所分未定义类的可能性的大小提供依据。

图5是本发明提供的命名实体识别装置的结构示意图。如图5所示，所述装置包括识别模块100，所述识别模块100用于：将预定义类数据和/或其他类数据输入到第二原型网络，得到所述预定义类数据和/或所述其他类数据的分类结果。

本发明提供的命名实体识别装置，通过将预定义类数据和/或其他类数据输入到第二原型网络，得到所述预定义类数据和/或所述其他类数据的分类结果，实现了利用其他类中丰富语义进行命名实体识别。

图6是本发明提供的电子设备的结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行用于命名实体识别的模型训练方法，该方法包括：预训练流程，包括：将预定义类数据输入到由第一编码模块和第一分类模块构建的第一原型网络，以将所述预定义类数据分类到对应的预定义类为目标，对所述第一原型网络进行训练，得到学习后的所述第一编码模块；组分类器训练流程，包括：将所述预定义类数据分别输入到所述学习后的第一编码模块以及随机初始化的所述第一编码模块，将所述学习后的第一编码模块及所述随机初始化的所述第一编码模块的输出结果分别输入到组分类器，对所述组分类器进行训练；其中，所述组分类器用于识别任意两个所述预定义类数据是否属于同一所述预定义类；组分类器预测流程，包括：将其他类数据分别输入到所述学习后的第一编码模块以及随机初始化的所述第一编码模块，将所述学习后的第一编码模块及所述随机初始化的所述第一编码模块的输出结果分别输入到训练后的所述组分类器，得到所述其他类数据的未定义类的分组结果；联合学习流程，包括：将所述预定义类数据和所述其他类数据输入到由第二编码模块和第二分类模块构建的第二原型网络，以将所述预定义类数据分类到对应的所述预定义类及将所述其他类数据分类到对应的所述分组结果为目标，对所述第二原型网络进行训练。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的用于命名实体识别的模型训练方法，该方法包括：预训练流程，包括：将预定义类数据输入到由第一编码模块和第一分类模块构建的第一原型网络，以将所述预定义类数据分类到对应的预定义类为目标，对所述第一原型网络进行训练，得到学习后的所述第一编码模块；组分类器训练流程，包括：将所述预定义类数据分别输入到所述学习后的第一编码模块以及随机初始化的所述第一编码模块，将所述学习后的第一编码模块及所述随机初始化的所述第一编码模块的输出结果分别输入到组分类器，对所述组分类器进行训练；其中，所述组分类器用于识别任意两个所述预定义类数据是否属于同一所述预定义类；组分类器预测流程，包括：将其他类数据分别输入到所述学习后的第一编码模块以及随机初始化的所述第一编码模块，将所述学习后的第一编码模块及所述随机初始化的所述第一编码模块的输出结果分别输入到训练后的所述组分类器，得到所述其他类数据的未定义类的分组结果；联合学习流程，包括：将所述预定义类数据和所述其他类数据输入到由第二编码模块和第二分类模块构建的第二原型网络，以将所述预定义类数据分类到对应的所述预定义类及将所述其他类数据分类到对应的所述分组结果为目标，对所述第二原型网络进行训练。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的用于命名实体识别的模型训练方法，该方法包括：预训练流程，包括：将预定义类数据输入到由第一编码模块和第一分类模块构建的第一原型网络，以将所述预定义类数据分类到对应的预定义类为目标，对所述第一原型网络进行训练，得到学习后的所述第一编码模块；组分类器训练流程，包括：将所述预定义类数据分别输入到所述学习后的第一编码模块以及随机初始化的所述第一编码模块，将所述学习后的第一编码模块及所述随机初始化的所述第一编码模块的输出结果分别输入到组分类器，对所述组分类器进行训练；其中，所述组分类器用于识别任意两个所述预定义类数据是否属于同一所述预定义类；组分类器预测流程，包括：将其他类数据分别输入到所述学习后的第一编码模块以及随机初始化的所述第一编码模块，将所述学习后的第一编码模块及所述随机初始化的所述第一编码模块的输出结果分别输入到训练后的所述组分类器，得到所述其他类数据的未定义类的分组结果；联合学习流程，包括：将所述预定义类数据和所述其他类数据输入到由第二编码模块和第二分类模块构建的第二原型网络，以将所述预定义类数据分类到对应的所述预定义类及将所述其他类数据分类到对应的所述分组结果为目标，对所述第二原型网络进行训练。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用于命名实体识别的模型训练方法，其特征在于，包括：

预训练流程，包括：将预定义类数据输入到由第一编码模块和第一分类模块构建的第一原型网络，以将所述预定义类数据分类到对应的预定义类为目标，对所述第一原型网络进行训练，得到学习后的所述第一编码模块；

组分类器训练流程，包括：将所述预定义类数据分别输入到所述学习后的第一编码模块以及随机初始化的所述第一编码模块，将所述学习后的第一编码模块及所述随机初始化的所述第一编码模块的输出结果分别输入到组分类器，对所述组分类器进行训练；其中，所述组分类器用于识别任意两个所述预定义类数据是否属于同一所述预定义类；

组分类器预测流程，包括：将其他类数据分别输入到所述学习后的第一编码模块以及随机初始化的所述第一编码模块，将所述学习后的第一编码模块及所述随机初始化的所述第一编码模块的输出结果分别输入到训练后的所述组分类器，得到所述其他类数据的未定义类的分组结果；

联合学习流程，包括：将所述预定义类数据和所述其他类数据输入到由第二编码模块和第二分类模块构建的第二原型网络，以将所述预定义类数据分类到对应的所述预定义类及将所述其他类数据分类到对应的所述分组结果为目标，对所述第二原型网络进行训练。

2.根据权利要求1所述的用于命名实体识别的模型训练方法，其特征在于，所述组分类器的优化目标函数为：

b_ij＝W*(h_i；h_j；g_i；g_j；|h_i-h_j|；|g_i-g_j|；|h_i-g_i|；|h_j-g_j|)+b

其中，L(C|B；θ₂)为所述组分类器的优化目标函数，C为所述预定义类的集合，B为b_ij的集合，θ₂为所述组分类器训练时的训练参数；i、j为训练示例的序号，所述训练示例包括对应的所述预定义类数据及所述预定义类的信息，所述预定义类数据包括实体及所述实体所在的句子；N为所述训练示例的数目；y_ij为序号为i的训练示例和序号为j的训练示例是否属于同一个所述预定义类的标注；b_ij为判断序号为i的训练示例和序号为j的训练示例属于同一个所述预定义类的置信度；g_i为对应序号为i的训练示例，所述随机初始化的所述第一编码模块输出的嵌入表示；g_j为对应序号为j的训练示例，所述随机初始化的所述第一编码模块输出的嵌入表示；h_i为对应序号为i的训练示例，所述学习后的第一编码模块输出的嵌入表示；h_j为对应序号为j的训练示例，所述学习后的第一编码模块输出的嵌入表示；W为权重，用行向量表示，b为偏置。

3.根据权利要求2所述的用于命名实体识别的模型训练方法，其特征在于，在得到所述其他类数据的分组结果之后，所述方法还包括：

若多个连续的所述实体对应的所述训练示例属于同一个所述分组结果，则将所述多个连续的所述实体组成多词实体。

4.根据权利要求1所述的用于命名实体识别的模型训练方法，其特征在于，在得到所述其他类数据的分组结果之后，所述方法还包括：

根据所述分组结果，计算每个分组中的各个示例的嵌入表示的均值，并将所述均值作为类中心；计算所述分组中的各个所述示例的所述嵌入表示到所述类中心的余弦相似度，利用所述余弦相似度对所述示例打软标签。

5.根据权利要求1所述的用于命名实体识别的模型训练方法，其特征在于，所述第二原型网络的优化目标函数为：

其中，L(θ₃)为所述第二原型网络的优化目标函数，θ₃为所述第二原型网络训练时的训练参数；x为训练示例中的实体，所述训练示例对应于所述预定义类数据或对应于所述其他类数据，y为x对应的类别，即当x为所述预定义类数据时，y为所述预定义类别中对应的类别，当x为其他类数据时，y为所述其他类数据通过所述组分类器进行组划分后对应的组类别，p_y为y类实体的原型表示，p_c为c类实体的原型表示，d(x,p_y)为y类实体与p_y之间的距离，d(x,p_c)为c类实体与p_c之间的距离；s为比例因子；C为所述预定义类的集合，O为所述未定义类的集合，M表示所述训练示例中的实体的数量。

6.一种基于权利要求1至5任一所述模型训练方法的命名实体识别方法，其特征在于，包括：

将预定义类数据和/或其他类数据输入到第二原型网络，得到所述预定义类数据和/或所述其他类数据的分类结果。

7.一种用于命名实体识别的模型训练装置，其特征在于，包括：

预训练单元，用于：将预定义类数据输入到由第一编码模块和第一分类模块构建的第一原型网络，以将所述预定义类数据分类到对应的预定义类为目标，对所述第一原型网络进行训练，得到学习后的所述第一编码模块；

组分类器训练单元，用于：将所述预定义类数据分别输入到所述学习后的第一编码模块以及随机初始化的所述第一编码模块，将所述学习后的第一编码模块及所述随机初始化的所述第一编码模块的输出结果分别输入到组分类器，对所述组分类器进行训练；其中，所述组分类器用于识别任意两个所述预定义类数据是否属于同一所述预定义类；

组分类器预测单元，用于：将其他类数据分别输入到所述学习后的第一编码模块以及随机初始化的所述第一编码模块，将所述学习后的第一编码模块及所述随机初始化的所述第一编码模块的输出结果分别输入到训练后的所述组分类器，得到所述其他类数据的未定义类的分组结果；

联合学习单元，用于：将所述预定义类数据和所述其他类数据输入到由第二编码模块和第二分类模块构建的第二原型网络，以将所述预定义类数据分类到对应的所述预定义类及将所述其他类数据分类到对应的所述分组结果为目标，对所述第二原型网络进行训练。

8.一种基于权利要求7所述模型训练装置的命名实体识别装置，其特征在于，包括：

识别模块，用于：将预定义类数据和/或其他类数据输入到第二原型网络，得到所述预定义类数据和/或所述其他类数据的分类结果。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述用于命名实体识别的模型训练方法的步骤或如权利要求6所述命名实体识别方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至5任一项所述用于命名实体识别的模型训练方法的步骤或如权利要求6所述命名实体识别方法的步骤。