CN110852108A

CN110852108A - 用于实体识别和实体消歧的联合训练方法、装置及介质

Info

Publication number: CN110852108A
Application number: CN201911094561.1A
Authority: CN
Inventors: 任江涛; 高海洋
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-11-11
Filing date: 2019-11-11
Publication date: 2020-02-28
Anticipated expiration: 2039-11-11
Also published as: CN110852108B

Abstract

本发明公开了一种用于实体识别和实体消歧的联合训练方法、装置及介质，所述方法包括：基于实体识别模型，对文本进行命名实体识别，得到待消歧实体；在已构建的知识库中，进行待消歧实体的实体映射，得到用于实体消歧的候选实体；将待消歧实体和候选实体输入实体消歧模型进行实体预测，得到消歧实体，并根据消歧实体调整实体消歧模型的第一参数；通过实体识别模型中增设的实体注意力机制层，将消歧实体反馈给实体识别模型，并根据消歧实体调整实体识别模型的第二参数；当第一参数和第二参数使得第一、第二损失函数的损失值之和满足最小化条件，则联合训练完成。采用本发明解决了现有技术中单模型学习中实体识别和实体消歧的准确率不高的问题。

Description

用于实体识别和实体消歧的联合训练方法、装置及介质

技术领域

本发明涉及信息检索技术领域，尤其涉及一种用于实体识别和实体消歧的联合训练方法、装置及介质。

背景技术

在文本大数据的时代，海量的文本都有待利用。在自然语言处理领域，我们通过挖掘文本中蕴藏的语义信息，让机器可以学习到文本的语义知识，从而理解文本内容。在此过程中，识别文本中的实体(mention)，如人名、地名、组织结构，并对实体进行消歧，以消除文本句子中的歧义，这是让机器理解文本内容的重要步骤。

目前，基于单模型学习，在实体识别阶段，加入了很多人工操作来对文本中潜在的实体进行发掘，并通过语义模板的设置来得到文本中的待消歧实体，而在实体消歧阶段，默认前述实体识别的准确性，这不仅存在实体识别的准确性不可靠，且明显低效的问题，而且由于未能确保实体识别的准确性，也将难以保证实体消歧的准确性。

由此可知，单模型学习中的实体识别和实体消歧仍存在准确率不高的问题。

发明内容

本发明各实施例提供一种用于实体识别和实体消歧的联合训练方法、装置及介质，以解决相关技术中存在的单模型学习中实体识别和实体消歧准确率不高的问题。

其中，本发明所采用的技术方案为：

根据本发明的一个方面，一种用于实体识别和实体消歧的联合训练方法，包括：基于实体识别模型，对训练数据集合中的文本进行命名实体识别，得到待消歧实体；在已构建的知识库中，进行所述待消歧实体的实体映射，得到用于实体消歧的候选实体；将所述待消歧实体和所述候选实体输入实体消歧模型进行实体预测，得到消歧实体，并根据所述消歧实体调整所述实体消歧模型的第一参数；通过所述实体识别模型中增设的实体注意力机制层，将所述消歧实体反馈给所述实体识别模型，并根据所述消歧实体调整所述实体识别模型的第二参数；当调整后的第一参数和调整后的第二参数，使得第一损失函数的损失值与第二损失函数的损失值之和满足最小化条件，则用于实体识别和实体消歧的联合训练完成，所述第一损失函数对应于所述实体消歧模型，所述第二损失函数对应于所述实体识别模型。

根据本发明的一个方面，一种用于实体识别和实体消歧的联合训练装置，包括：实体识别模块，用于基于实体识别模型，对训练数据集合中的文本进行命名实体识别，得到待消歧实体；实体映射模块，用于在已构建的知识库中，进行所述待消歧实体的实体映射，得到用于实体消歧的候选实体；实体预测模块，用于将所述待消歧实体和所述候选实体输入实体消歧模型进行实体预测，得到消歧实体，并根据所述消歧实体调整所述实体消歧模型的第一参数；实体反馈模块，用于通过所述实体识别模型中增设的实体注意力机制层，将所述消歧实体反馈给所述实体识别模型，并根据所述消歧实体调整所述实体识别模型的第二参数；联合训练判断模块，用于当调整后的第一参数和调整后的第二参数，使得第一损失函数的损失值与第二损失函数的损失值之和满足最小化条件，则用于实体识别和实体消歧的联合训练完成。

根据本发明的一个方面，一种用于实体识别和实体消歧的联合训练装置，包括处理器及存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如上所述的用于实体识别和实体消歧的联合训练方法。

根据本发明的一个方面，一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的用于实体识别和实体消歧的联合训练方法。

在上述技术方案中，在实体识别阶段，基于命名实体识别和实体映射，得到待消歧实体及其对应的候选实体，在实体消歧阶段，基于实体消歧模型，由待消歧实体及其对应的候选实体预测得到消歧实体，再通过实体识别模型中增设的实体注意力机制层，将消歧实体反馈给实体识别模型，在此过程中，根据消歧实体分别调整实体消歧模型的第一参数和实体识别模型的第二参数，以在调整后的第一参数和调整后的第二参数使得第一损失函数的损失值和第二损失函数的损失值之和满足最小化条件时，停止用于实体识别和实体消歧的联合训练，由此，对于实体消歧阶段而言，利用了实体识别阶段输出的待消歧实体和候选实体，对于实体识别阶段而言，则利用了实体消歧阶段输出的消歧实体，使得实体识别和实体消歧得以相互补充，不仅运用实体消歧反向增强了实体识别的准确性，而且更好地实体识别也能够提升实体消歧的准确性，从而解决的现有技术中存在的单模型学习中实体识别和实体消歧的准确率不高的问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种服务器的硬件结构框图。

图2是根据一示例性实施例示出的一种用于实体识别和实体消歧的联合训练方法的流程图。

图3是根据一示例性实施例示出的另一种用于实体识别和实体消歧的联合训练方法的流程图。

图4为根据一示例性实施例示出的实体识别模型和实体消歧模型的结构示意图。

图5是图3对应实施例中步骤310在一个实施例的流程图。

图6是图3对应实施例中步骤330在一个实施例的流程图。

图7是图3对应实施例中步骤350在一个实施例的流程图。

图8是根据一示例性实施例示出的一种用于实体识别和实体消歧的联合训练装置的框图。

图9是根据一示例性实施例示出的一种用于实体识别和实体消歧的联合训练装置的框图。

通过上述附图，已示出本发明明确的实施例，后文中将有更详细的描述，这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围，而是通过参考特定实施例为本领域技术人员说明本发明的概念。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

如前所述，现有技术中，尤其是单模型学习中，实体识别和实体消歧过于独立，不仅实体识别的准确性难以保证，而且实体消歧也未能够充分利用实体识别学到的语义知识，从而导致存在实体消歧的准确率不高的问题。

为此，本发明特提出了一种用于实体识别和实体消歧的联合训练方法，在模型训练过程中，就使得实体识别和实体消歧充分地结合，从而有效地同步地提高实体识别的准确率和实体消歧的准确率，相应地，用于实体识别和实体消歧的联合训练装置被部署于具备冯诺依曼体系结构的电子设备，例如，电子设备包括但不限于台式电脑、笔记本电脑、服务器等，以此实现用于实体识别和实体消歧的联合训练方法。

图1是根据一示例性实施例示出的一种服务器的硬件结构框图。该种服务器可用于部署用于实体识别和实体消歧的联合训练装置，以此实现用于实体识别和实体消歧的联合训练方法。

需要说明的是，该种服务器只是一个适配于本发明的示例，不能认为是提供了对本发明的使用范围的任何限制。该种服务器也不能解释为需要依赖于或者必须具有图1中示出的示例性的服务器100中的一个或者多个组件。

服务器100的硬件结构可因配置或者性能的不同而产生较大的差异，如图1所示，服务器100包括：电源110、接口130、至少一存储器150、以及至少一中央处理器(CPU,Central Processing Units)170。

具体地，电源110用于为服务器100上的各硬件设备提供工作电压。

接口130包括至少一有线或无线网络接口，用于与外部设备交互。当然，在其余本发明适配的示例性实施例中，接口130还可以进一步包括至少一串并转换接口133、至少一输入输出接口135以及至少一USB接口137等，如图1所示，在此并非对此构成具体限定。

存储器150作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源包括操作系统151、应用程序153及数据155等，存储方式可以是短暂存储或者永久存储。

其中，操作系统151用于管理与控制服务器100上的各硬件设备以及应用程序153，以实现中央处理器170对存储器150中海量数据155的运算与处理，其可以是WindowsServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTM等。

应用程序153是基于操作系统151之上完成至少一项特定工作的计算机程序，其可以包括至少一模块(图1中未示出)，每个模块都可以分别包含有对服务器100的一系列计算机可读指令。例如，用于实体识别和实体消歧的联合训练装置可视为部署于服务器100的应用程序153。

数据155可以是存储于磁盘中的照片、图片等，还可以是知识库、训练数据集合中的文本等，存储于存储器150中。

中央处理器170可以包括一个或多个以上的处理器，并设置为通过至少一通信总线与存储器150通信，以读取存储器150中存储的计算机可读指令，进而实现对存储器150中海量数据155的运算与处理。例如，通过中央处理器170读取存储器150中存储的一系列计算机可读指令的形式来完成用于实体识别和实体消歧的联合训练方法。

此外，通过硬件电路或者硬件电路结合软件也能同样实现本发明，因此，实现本发明并不限于任何特定硬件电路、软件以及两者的组合。

请参阅图2，在一示例性实施例中，一种用于实体识别和实体消歧的联合训练方法适用于部署了用于实体识别和实体消歧的联合训练装置的服务器，该服务器的结构可以如图1所示。

该种用于实体识别和实体消歧的联合训练方法可以由服务器执行，也可以理解为由服务器中运行的应用程序(即用于实体识别和实体消歧的联合训练装置)执行。在下述方法实施例中，为了便于描述，以各步骤的执行主体为服务器加以说明，但是并不对此构成限定。

该种用于实体识别和实体消歧的联合训练方法可以包括以下步骤：

步骤310，基于实体识别模型，对训练数据集合中的文本进行命名实体识别，得到待消歧实体。

首先说明的是，联合训练，指的是基于实体识别和实体消歧在训练数据上的相关性和串行关系，利用同一个训练数据集合中的文本联合训练实体识别模型和实体消歧模型，由此既可以避免独立学习的不合理性以及对实体识别和实体消歧知识相关性的忽略，同时通过联合训练使得实体识别和实体消歧充分地结合，同步地提升了实体识别的准确率和实体消歧的准确率。

基于此，训练数据集合，包括了多条携带标签的文本，所述标签用于标注文本中实体的边界。也可以理解为，对于联合训练而言，训练数据集合中的每一条文本包括已标注边界的无歧义实体。

其中，标签，实质是标注记号，用于唯一地标记文本中实体的开始位置和结束位置。具体地，标注记号，包括但不限于B、I、E、O，B代表实体的开始位置，I代表实体的中间部分，E代表实体的结束位置，O则代表非实体。当然，在其他实施例中，也可以采用其余标注方案，只要可以唯一地识别出文本中实体的边界即可，此处并非对此构成具体限定。

其次，文本中的待消歧实体，指的是文本中关键的主题词，例如，文本中的人名、地名、组织机构等等，通过命名实体识别获得。

本实施例中，命名实体识别，旨在识别出文本中人名、地名、组织机构等待消歧实体，基于实体识别模型实现。此实体识别模型，便是基于训练数据集合中的文本对深度学习模型进行联合训练生成的。例如，深度学习模型可以是keras、tensorflow、pytorch等深度学习模型。

步骤330，在已构建的知识库中，进行所述待消歧实体的实体映射，得到用于实体消歧的候选实体。

如前所述，在实体消歧阶段，默认实体识别的正确性。在此，发明人意识到，实体识别和实体消歧在训练数据上是具有一定相关性和串行关系的，默认实体识别的正确性并不合理，不仅忽略了实体识别和实体消歧知识相关性，而且浪费了实体识别学习到的语义知识。

为此，本实施例中，通过实体映射，将待消歧实体链接至知识库，以从知识库中获取标准实体作为用于实体消歧的候选实体。

其中，知识库，由标准实体构建，那么，通过实体映射，候选实体，实质上是与待消歧实体相似的标准实体，也可以认为，候选实体，具有与待消歧实体相似的语义表达。

由此，实体识别学习到的语义知识，即待消歧实体的语义表达，便可通过候选实体从实体识别阶段传递至实体消歧阶段，以此实现实体识别和实体消歧的充分结合。

补充说明的是，候选实体的个数可以根据应用场景的实际需求灵活地调整，在此并未加以限定。例如，本实施例中，候选实体的个数为30个。

步骤350，将所述待消歧实体和所述候选实体输入实体消歧模型进行实体预测，得到消歧实体，并根据所述消歧实体调整所述实体消歧模型的第一参数。

首先，实体预测，旨在对文本中人名、地名、组织机构等待消歧实体进行消歧，以得到无歧义实体，即消歧实体，本实施例中，基于实体消歧模型实现。此实体消歧模型，便是基于训练数据集合中的文本对深度学习模型进行联合训练生成的。例如，深度学习模型可以是keras、tensorflow、pytorch等深度学习模型。

应当说明的是，为了便于描述，本发明中实体识别和实体消歧是分别基于实体识别模型和实体消歧模型，但该实体识别模型和实体消歧模型是基于深度学习模型进行联合训练生成的，仍应当视为单模型学习。

其次，应当理解，模型，实质是构建了文本与实体之间的数学映射关系，而训练，则是为了使文本与实体之间的该数学映射关系达到最优。相应地，训练，本质上是不断地调整模型的参数，以根据调整后的参数计算模型所对应损失函数的损失值，使得该损失函数的损失值尽可能达到最小，则训练完成，模型视为收敛，即文本与实体之间的数学映射关系达到最优。

基于此，联合训练，则是不断地调整第一参数和第二参数，使得第一损失函数的损失值与第二损失函数的损失值之和尽可能达到最小。其中，所述第一损失函数对应于所述实体消歧模型，所述第二损失函数对应于所述实体识别模型。

故而，本实施例中，在得到消歧实体之后，需要根据消歧实体调整实体消歧模型的第一参数，以便于后续第一损失函数的损失值与第二损失函数的损失值之和能够随着第一参数的调整尽可能达到最小。

补充说明的是，发明人意识到，对于训练数据集合中的文本而言，势必存在基于知识库无法消歧的待消歧实体，为此，本实施例中，无论是第一损失函数，亦或者是第二损失函数，均采用binary交叉熵作为联合训练的损失函数，那么，只有消歧实体存在于知识库的待消歧实体，才会用于实体识别和实体消歧的联合训练，从而充分保障了训练数据的利用率以及联合训练的效率。

步骤370，通过所述实体识别模型中增设的实体注意力机制层，将所述消歧实体反馈给所述实体识别模型，并根据所述消歧实体调整所述实体识别模型的第二参数。

首先，实体注意力机制层，用于将消歧实体反馈给实体识别模型，以使实体消歧模型的输出(即消歧实体)能够反向增强实体识别效果。

具体地，基于消歧实体，调整实体识别模型的第二参数，也就是注意力权重值。

下面具体描述实体识别模型中增设实体注意力机制层前后的区别。

其中，K、Q、V表示文本中实体的语义表达，softmax表示激活函数。

那么，在实体识别模型中未增设实体注意力机制层时，K、Q、V相同，均为待消歧实体的语义表达。

而在实体识别模型中增设实体注意力机制层之后，通过实体注意力机制层，消歧实体被反馈给实体识别模型，此时，K由待消歧实体的语义表达替换为消歧实体的语义表达，Q、V则保持不变，仍为待消歧实体的语义表达。

由此，实体识别模型的第二参数的调整过程，将随着待消歧实体与消歧实体之间的误差减小而愈发地精准，从而使得实体识别的准确率得以提升，以此达到反向增强实体识别效果的目的。其次，随着第一参数和第二参数的不断调整，将根据调整后的第一参数计算实体消歧模型所对应第一损失函数的损失值，以及根据调整后的第二参数计算实体识别模型所对应第二损失函数的损失值，以便于判断联合训练是否完成，即判断该第一损失函数的损失值与该第二损失函数的损失值之和是否满足最小化条件。

当调整后的第一参数和调整后的第二参数，使得第一损失函数的损失值与第二损失函数的损失值之和满足最小化条件，表示第一损失函数的损失值与第二损失函数的损失值之和达到最小，则判定用于实体识别和实体消歧的联合训练完成，即执行步骤390。

反之，当调整后的第一参数和调整后的第二参数，未使得第一损失函数的损失值与第二损失函数的损失值之和满足最小化条件，表示第一损失函数的损失值与第二损失函数的损失值之和尚未达到最小，则判定继续进行实体识别和实体消歧的联合训练，即从所述训练数据集合中获取区别于所述文本的另一条文本，并基于所述另一条文本再次启动用于实体识别和实体消歧的联合训练，即返回执行步骤310。

步骤390，当调整后的第一参数和调整后的第二参数，使得第一损失函数的损失值与第二损失函数的损失值之和满足最小化条件，则用于实体识别和实体消歧的联合训练完成。

待联合训练完成，实体识别模型和实体消歧模型便具有了预测能力，即能够对未知实体边界的文本进行实体识别和实体消歧，预测过程如下：

(1)在实体识别阶段，将未知实体边界的文本输入实体识别模型，得到待消歧实体。

(2)基于知识库中的实体映射，由待消歧实体生成对应的候选实体。

(3)在实体消歧阶段，基于实体消歧模型，由待消歧实体及其对应的候选实体，预测得到消歧实体，亦已标注边界的无歧义实体。

由此，经过实体识别模型和实体消歧模型之后，便由未知实体边界的文本预测得到包含已标注边界的无歧义实体的文本。

值得一提的是，根据实际运营需求，实体识别模型和实体消歧模型可以分别部署于不同服务器，也可以作为一个完整的联合模型部署于同一个服务器，本实施例并非对此构成具体限定。

通过如上所述的过程，相较于传统单模型学习中将实体识别与实体消歧独立训练学习，本发明利用实体识别和实体消歧在训练数据上的相关性和串行关系，基于同一个训练数据集合中的文本进行实体识别和实体消歧的联合训练，一方面避免了独立学习的不合理性以及对实体识别和实体消歧知识相关性的忽略，另一方面联合训练也将实体识别与实体消歧充分地结合起来，并通过实体注意力机制层的反馈机制，使得实体消歧模型的输出可以反向增强实体识别效果，提升实体识别的准确率，而更好的实体识别模型的输出则可以正向增强实体消歧效果，提升实体消歧的准确率。

此外，随着实体识别和实体消歧的相互补充、相互促进，有利于增强实体识别和实体消歧的鲁棒性，进一步提升实体消歧的准确率。

请参阅图3，在一示例性实施例中，步骤350中所述根据所述消歧实体调整所述实体消歧模型的第一参数步骤，或者，步骤370中所述根据所述消歧实体调整所述实体识别模型的第二参数步骤，可以包括以下步骤：

步骤410，计算所述消歧实体与所述无歧义实体之间的误差。

步骤430，根据所述误差调整所述实体消歧模型的第一参数，或者，所述实体识别模型的第二参数。

如前所述，对于训练数据集合中的文本而言，实质上是包含了已标注边界的无歧义实体。也就是说，在联合训练过程中，基于知识库中的标准实体，无歧义实体是真实的标准实体，而消歧实体是预测得到的标准实体，故而，消歧实体与无歧义实体之间势必存在着误差。

基于此，无论是第一参数，还是第二参数，参数调整过程，便是基于消歧实体与无歧义实体之间的误差进行的。随着消歧实体与无歧义实体之间的误差逐步减小，跟随调整后的第一参数、第二参数便能够逐步使得第一损失函数的损失值与第二损失函数的损失值之和尽可能达到最小。

在上述实施例的作用下，实现了基于误差的参数调整，使得第一损失函数的损失值与第二损失函数的损失值之和能够逐步达到最小，进而使得联合训练得以完成。

请参阅图4，在一示例性实施例中，所述实体识别模型包括编码层、嵌入层、双向长短时记忆层(LSTM)、自注意力机制层、实体注意力机制层和条件随机场层(CRF)。

基于实体识别模型的上述结构，对实体识别过程加以说明如下。

具体地，在一实施例的实现中，如图5所示，步骤310可以包括以下步骤：

步骤311，将所述文本输入所述编码层进行字级别编码，得到所述文本的数字编码。

对于服务器而言，直接进行文本处理的效率要低于直接进行数字处理，也可以认为是，服务器作为计算机设备的一种更容易理解数字语言，因此，文本在进行实体识别之前，需要进行数字编码。然而，发明人意识到，由于实体识别的特殊性，编码粒度会影响实体识别效率。

基于此，本实施例中，编码层采用的编码粒度为字级别编码，也即是，将文本中的每一个单字或者字符转化为数字，不同的数字代表不同的单字或者字符，那么，在经过编码层之后，一条文本即转化为一组数字，视为文本的数字编码。

当然，很可能存在某一个单字不存在相应的数字表示，本实施例中，使用特殊字符表示该单字，例如，特殊字符为UNK，进而将单字借由该特殊字符转为相应的数字表示。

同时，发明人还发现，对于训练数据集合中的文本来说，每一条文本的长度不尽相同，将不利于编码层进行字级别编码。

为此，在文本进入编码层进行字级别编码之前，还需要进行长度填充。

具体地，使用特殊字符填充文本，以此保证每一条文本的固定长度一致。例如，特殊字符为PAD。其中，固定长度可以根据应用场景的实际需求灵活地调整，此处并未加以限定。

步骤313，通过所述嵌入层，对所述文本的数字编码进行字向量初始化，得到所述文本的字向量序列。

嵌入层的作用，主要在于将文本的数字编码表示为一个多维的浮点数向量，即文本的字向量序列。

本实施例中，上述过程是通过字向量初始化实现的。其中，字向量初始化，可以基于预训练的字向量，也可以是随机初始化字向量。

由此，在经过字向量初始化之后，便能够得到文本的字向量序列。

发明人发现，对于训练数据集合而言，其所产生的文本的字向量序列通常很大，在联合训练过程中，服务器总是并行处理多任务，直接处理此维度数据，可能影响处理效率。

因此，本实施例中，在输入双向长短时记忆层之前，此维度数据将根据设定参数进行切分，例如，允许服务器一次处理K条文本，以方便于服务器进行后续的特征提取。其中，K可以根据应用场景的实际需求灵活地设置，此处并未加以限定。

步骤315，在所述双向长短时记忆层和所述自注意力机制层中，依次对所述文本的字向量序列进行特征提取。

双向长短时记忆层，主要作用在于提取文本的字向量序列的局部特征，以此较为粗略地表达文本的语义。

自注意力机制层，主要作用在于进一步得到文本的字向量序列的全局特征，从而更为精细地表达文本的语义。

其中，发明人意识到，对于每一条文本而言，期望实体识别模型更加关注的是文本中的实体，而降低对文本中非实体的关注度。然而，文本中不可避免地存在非实体，也不可避免地可能存在多个实体。

为此，本实施例中，自注意力机制层，实质是一个多头自注意力机制层，其本质是通过每一个头在不同空间上对同一条文本进行学习，进而通过组合多个头的学习结果，最终学习得到文本的语义表达。

步骤317，将提取到的特征输入所述条件随机场层进行实体标签预测，得到所述待消歧实体。

实体标签预测，实质是基于提取到的特征，计算文本中每一个单字或者字符属于不同实体标签的概率，并选择概率最大的实体标签作为文本中每一个单字或者字符的所属标签，由此即预测得到待消歧实体。也可以理解为，待消歧实体，是实体识别模型预测得到的已标注边界的无歧义实体。

其中，实体标签包括但不限于B标签、I标签、E标签、O标签。那么，属于B标签的单字或者字符代表实体的开始位置，属于I标签的单字或者字符代表实体的中间部分，属于E标签的单字或者字符代表实体的结束位置，而属于O标签的单字或者字符则代表非实体。

在上述实施例的作用下，实现了基于实体识别模型的命名实体识别，为后续实体映射提供了依据，使得实体识别阶段学习到的语义知识传递至实体消歧阶段得以实现，进而使得实体识别和实体消歧的联合训练得以实现。

回请参阅图4，在一示例性实施例中，实体识别模型还包括实体及其上下文信息抽取层和实体映射层。

实体及其上下文信息抽取层，主要作用是基于文本中每一个单字或者字符的所属标签，抽取出文本中的实体及其上下文信息，以便于后续的相似度计算。

以前述例子进行说明，文本中每一个单字或者字符的所属标签包括但不限于B标签、I标签、E标签、O标签。那么，介于B标签与E标签之间的单字或者字符即视为一个实体，而在B标签与E标签之外的所有单字或者字符则视为该实体的上下文信息。

实体映射层，主要作用是将待消歧实体链接至知识库，以从知识库中获取标准实体作为用于实体消歧的候选实体。

基于实体识别模型的上述结构，对实体映射过程加以说明如下。

具体地，在一实施例的实现中，如图6所示，步骤330可以包括以下步骤：

步骤331，基于所述知识库中的标准实体，在所述知识库中搜索与所述待消歧实体相似的标准实体。

步骤333，计算搜索到的标准实体与所述待消歧实体之间的相似度。

相似度，表示搜索到标准实体所表达语义与待消歧实体所表达语义之间的相似程度，语义相似程度越高，相似度越高。

相似度的计算，可以采用余弦相似度方法，还可基于欧式距离，或者编辑距离等等，此处并未加以限定。

步骤335，根据计算得到的相似度，由搜索到的标准实体筛选得到用于实体消歧的所述候选实体。

本实施例中，候选实体，是基于相似度，对搜索到的标准实体进行筛选得到的。

具体地，获取搜索到的各标准实体与待消歧实体之间的相似度，并基于该相似度对该些标准实体进行排序，取出排序前k名的标准实体作为候选实体。其中，k可以根据应用场景的实际需求灵活地调整，此处并未加以限定。例如，本实施例中，k为30。

通过上述过程，实现了基于知识库的实体映射，为实体消歧提供了输入，使其成为实体消歧阶段的依据，使得实体识别阶段学习到的语义知识得以传递至实体消歧阶段，进而使得实体识别和实体消歧的联合训练得以实现。

回请参阅图4，在一示例性实施例中，所述实体消歧模型包括相似度计算层、前馈神经网络层(FFNN)和预测输出层。

值得一提的是，所述实体消歧模型还可以包括编码层和嵌入层，类似于实体识别模型中的编码层和嵌入层，差别在于输入输出有所不同，例如，实体识别模型中编码层的输入为训练数据集合中的文本，而实体消歧模型中编码层的输入为知识库中的标准实体，故而，关于实体消歧模型中编码层和嵌入层的作用，此处不再重复赘述。

基于实体消歧模型的上述结构，对实体消歧过程加以说明如下。

具体地，在一实施例的实现中，如图7所示，步骤350可以包括以下步骤：

步骤351，通过所述相似度计算层，计算所述候选实体与所述待消歧实体之间的相似度，并根据计算得到的相似度确定所述候选实体的第一分数。

其中，相似度，表示候选实体所表达语义与待消歧实体所表达语义之间的相似程度，语义相似程度越高，相似度越高。那么，相似度越高，候选实体的第一分数越高。

步骤353，在所述前馈神经网络层中，计算所述候选实体与所述待消歧实体之间的先验概率，并根据计算得到的先验概率确定所述候选实体的第二分数。

步骤355，根据所述候选实体的第一分数和第二分数确定所述候选实体的综合分数，将综合分数最高的候选实体作为所述消歧实体从所述预测输出层输出，并反馈至所述实体注意力机制层。

综合分数，针对每一个候选实体的第一分数和第二分数，可以直接相加得到，还可以通过加权求和得到，本实施例并未对此加以限定。

例如，候选实体的第一分数为m，权重系数为p1，候选实体的第二分数为n，权重系数为p2，则候选实体的综合分数＝m×p1+n×p2。

其中，权重系数可以根据应用场景的实际需求灵活地设置，此处也并未进行限定。

由此，综合分数最高的候选实体即为消歧实体，也可以理解为，消歧实体，是实体消歧模型预测得到的已标注边界的无歧义实体。

在上述过程中，将相似度得分与先验概率得分综合考虑，实现了候选实体的多评分机制，更充分地保障了候选实体预测的准确性，从而进一步地提高实体消歧的准确率。

在一示例性实施例中，步骤310之前，如上所述的方法还可以包括以下步骤：

构建所述训练数据集合，所述训练数据集合包括多条携带标签的文本，所述标签用于标注文本中实体的边界。

下面对训练数据集合的构建过程进行详细地说明。

(1)通过爬取海量的文本，对每条文本进行人工处理，挑选出所有的实体，作为标准实体，并给每个标准实体赋予唯一的数字编码以及相应的解释，由此，知识库就由海量标准实体唯一的数字编码以及相应的解释构建完成。

(2)对无标签的多条文本进行实体边界标注，得到实体集合。

(3)对(2)中得到的实体集合，去除重复的实体，得到新的实体集合，针对新的实体集合的每一个实体，通过与知识库中的标准实体进行相似度计算，选取相似度最高的30个标准实体作为该每一个实体的候选实体。

(4)在(3)中的候选实体中，选取最符合的实体作为消歧实体，由此产生携带标签的文本，并添加至训练数据集合。

为了保证训练数据集合中文本的充分性，一方面，对于每一条文本，我们应该尽量将其中的实体全部都标注出来，并且同一条文本中，可能会出现多个相同实体，我们也需要标注出来；每个实体的候选实体有多个，但是最终的消歧实体只有一个；另一方面，我们也要保证知识库中标准实体的数量远大于训练数据集合中文本所包含实体的数量，而对于在知识库中搜索不到相似的标准实体的实体，我们同样需要标注出来。

由此，实现了训练数据集合的构建，便可基于同一个训练数据集合，进行实体识别和实体消歧的联合训练，进而利用实体识别和实体消歧在训练数据上的相关性和串行关系，使得实体识别和实体消歧知识相关性得以充分应用，以此来同步地提升实体识别的准确率和实体消歧的准确率。

下述为本发明装置实施例，可以用于执行本发明所涉及的用于实体识别和实体消歧的联合训练方法。对于本发明装置实施例中未披露的细节，请参照本发明所涉及的用于实体识别和实体消歧的联合训练方法的方法实施例。

请参阅图8，在一示例性实施例中，一种用于实体识别和实体消歧的联合训练装置900包括但不限于：实体识别模块910、实体映射模块930、实体预测模块950、实体反馈模块970和联合训练判断模块990。

其中，实体识别模块910，用于基于实体识别模型，对训练数据集合中的文本进行命名实体识别，得到待消歧实体。

实体映射模块930，用于在已构建的知识库中，进行所述待消歧实体的实体映射，得到用于实体消歧的候选实体。

实体预测模块950，用于将所述待消歧实体和所述候选实体输入实体消歧模型进行实体预测，得到消歧实体，并根据所述消歧实体调整所述实体消歧模型的第一参数。

实体反馈模块970，用于通过所述实体识别模型中增设的实体注意力机制层，将所述消歧实体反馈给所述实体识别模型，并根据所述消歧实体调整所述实体识别模型的第二参数。

联合训练判断模块990，用于当调整后的第一参数和调整后的第二参数，使得第一损失函数的损失值与第二损失函数的损失值之和满足最小化条件，则用于实体识别和实体消歧的联合训练完成。

需要说明的是，上述实施例所提供的用于实体识别和实体消歧的联合训练装置在进行用于实体识别和实体消歧的联合训练时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即用于实体识别和实体消歧的联合训练装置的内部结构将划分为不同的功能模块，以完成以上描述的全部或者部分功能。

另外，上述实施例所提供的用于实体识别和实体消歧的联合训练装置与用于实体识别和实体消歧的联合训练方法的实施例属于同一构思，其中各个模块执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。

请参阅图9，在一示例性实施例中，一种用于实体识别和实体消歧的联合训练装置1000，包括至少一处理器1001、至少一存储器1002、以及至少一通信总线1003。

其中，存储器1002上存储有计算机可读指令，处理器1001通过通信总线1003读取存储器1002中存储的计算机可读指令。

该计算机可读指令被处理器1001执行时实现上述各实施例中的用于实体识别和实体消歧的联合训练方法。

在一示例性实施例中，一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各实施例中的用于实体识别和实体消歧的联合训练方法。

上述内容，仅为本发明的较佳示例性实施例，并非用于限制本发明的实施方案，本领域普通技术人员根据本发明的主要构思和精神，可以十分方便地进行相应的变通或修改，故本发明的保护范围应以权利要求书所要求的保护范围为准。

Claims

1.一种用于实体识别和实体消歧的联合训练方法，其特征在于，包括：

基于实体识别模型，对训练数据集合中的文本进行命名实体识别，得到待消歧实体；

在已构建的知识库中，进行所述待消歧实体的实体映射，得到用于实体消歧的候选实体；

将所述待消歧实体和所述候选实体输入实体消歧模型进行实体预测，得到消歧实体，并根据所述消歧实体调整所述实体消歧模型的第一参数；

通过所述实体识别模型中增设的实体注意力机制层，将所述消歧实体反馈给所述实体识别模型，并根据所述消歧实体调整所述实体识别模型的第二参数；

当调整后的第一参数和调整后的第二参数，使得第一损失函数的损失值与第二损失函数的损失值之和满足最小化条件，则用于实体识别和实体消歧的联合训练完成，所述第一损失函数对应于所述实体消歧模型，所述第二损失函数对应于所述实体识别模型。

2.如权利要求1所述的方法，其特征在于，所述文本包括已标注边界的无歧义实体；

所述根据所述消歧实体调整所述实体消歧模型的第一参数，或者，所述根据所述消歧实体调整所述实体识别模型的第二参数，包括：

计算所述消歧实体与所述无歧义实体之间的误差；

根据所述误差调整所述实体消歧模型的第一参数，或者，所述实体识别模型的第二参数。

3.如权利要求1所述的方法，其特征在于，所述方法还包括：

当调整后的第一参数和调整后的第二参数，未使得第一损失函数的损失值与第二损失函数的损失值之和满足最小化条件，则从所述训练数据集合中获取区别于所述文本的另一条文本，并基于所述另一条文本再次启动用于实体识别和实体消歧的联合训练。

4.如权利要求1至3任一项所述的方法，其特征在于，所述实体识别模型还包括编码层、嵌入层、双向长短时记忆层、自注意力机制层和条件随机场层；

所述基于实体识别模型，对训练数据集合中的文本进行命名实体识别，得到待消歧实体，包括：

将所述文本输入所述编码层进行字级别编码，得到所述文本的数字编码；

通过所述嵌入层，对所述文本的数字编码进行字向量初始化，得到所述文本的字向量序列；

在所述双向长短时记忆层和所述自注意力机制层中，依次对所述文本的字向量序列进行特征提取；

将提取到的特征输入所述条件随机场层进行实体标签预测，得到所述待消歧实体。

5.如权利要求1至3任一项所述的方法，其特征在于，所述在已构建的知识库中，进行所述待消歧实体的实体映射，得到用于实体消歧的候选实体，包括：

基于所述知识库中的标准实体，在所述知识库中搜索与所述待消歧实体相似的标准实体；

计算搜索到的标准实体与所述待消歧实体之间的相似度；

根据计算得到的相似度，由搜索到的标准实体筛选得到用于实体消歧的所述候选实体。

6.如权利要求1至3任一项所述的方法，其特征在于，所述实体消歧模型包括相似度计算层、前馈神经网络层和预测输出层；

所述将所述待消歧实体和所述候选实体输入实体消歧模型进行实体预测，得到消歧实体，包括：

通过所述相似度计算层，计算所述候选实体与所述待消歧实体之间的相似度，并根据计算得到的相似度确定所述候选实体的第一分数；

在所述前馈神经网络层中，计算所述候选实体与所述待消歧实体之间的先验概率，并根据计算得到的先验概率确定所述候选实体的第二分数；

根据所述候选实体的第一分数和第二分数确定所述候选实体的综合分数，将综合分数最高的候选实体作为所述消歧实体从所述预测输出层输出，并反馈至所述实体注意力机制层。

7.如权利要求1至3任一项所述的方法，其特征在于，所述基于实体识别模型，对训练数据集合中的文本进行命名实体识别，得到待消歧实体之前，所述方法还包括：

8.一种用于实体识别和实体消歧的联合训练装置，其特征在于，包括：

实体识别模块，用于基于实体识别模型，对训练数据集合中的文本进行命名实体识别，得到待消歧实体；

实体映射模块，用于在已构建的知识库中，进行所述待消歧实体的实体映射，得到用于实体消歧的候选实体；

实体预测模块，用于将所述待消歧实体和所述候选实体输入实体消歧模型进行实体预测，得到消歧实体，并根据所述消歧实体调整所述实体消歧模型的第一参数；

实体反馈模块，用于通过所述实体识别模型中增设的实体注意力机制层，将所述消歧实体反馈给所述实体识别模型，并根据所述消歧实体调整所述实体识别模型的第二参数；

联合训练判断模块，用于当调整后的第一参数和调整后的第二参数，使得第一损失函数的损失值与第二损失函数的损失值之和满足最小化条件，则用于实体识别和实体消歧的联合训练完成。

9.一种用于实体识别和实体消歧的联合训练装置，其特征在于，包括：

处理器；及存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如权利要求1至7中任一项所述的用于实体识别和实体消歧的联合训练方法。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的用于实体识别和实体消歧的联合训练方法。