CN112740200A

CN112740200A - 用于基于共指消解的端到端深度强化学习的系统和方法

Info

Publication number: CN112740200A
Application number: CN201980059129.0A
Authority: CN
Inventors: 费洪亮; 李旭; 李定成; 李平
Original assignee: Baidu com Times Technology Beijing Co Ltd; Baidu USA LLC
Current assignee: Baidu com Times Technology Beijing Co Ltd; Baidu USA LLC
Priority date: 2019-07-25
Filing date: 2019-07-25
Publication date: 2021-04-30
Anticipated expiration: 2039-07-25
Also published as: US20210240929A1; US11630953B2; CN112740200B; WO2021012263A1

Abstract

本文描述了用于基于共指消解模型的端到端强化学习以直接优化共指评估度量的实施例。公开了强化策略梯度模型的实施例以将与共指链接动作序列相关联的奖励进行合并。此外，最大熵正则化可以用于进行适当的探索，以防止模型实施例过早地收敛到不良的局部最优。与现有技术的方法相比，在数据集上的实验验证了实施例的有效性。

Description

用于基于共指消解的端到端深度强化学习的系统和方法

技术领域

本公开大体上涉及一种用于自然语言处理的系统和方法。更具体地，本公开涉及一种用于自然语言处理中的共指消解的系统和方法。

背景技术

共指消解是自然语言处理(NLP)中最基本的任务之一，它对许多下游应用(包括信息提取、问答和实体链接)具有重要影响。在给定输入文本的情况下，共指消解旨在对涉及相同实体的所有指称进行标识并进行分组。

近年来，用于共指消解的深度神经网络模型已较普遍。然而，这些模型或者假设指称已给定而仅开发共指链接模型，或者首先建立流水线系统来检测指称，然后来消解共指。每种情况都依赖于手动设计的特征并且使用语法分析器，这可能不能较好地进行概括，或者可能传播错误。

因此，需要用于自然语言处理中的共指消解的系统和方法以提高性能的系统和方法。

发明内容

在第一方面，提供了一种用于训练共指消解模型的计算机实现方法。该方法包括：[a]将包括文本组的文档输入策略网络以标识文档中的指称；[b]当在文档中给出当前标识的指称的情况下，使用策略网络获得动作组的概率分布，其中该动作组包括将当前标识的指称与先前标识的指称进行链接或者不将当前标识的指称与任何先前标识的指称进行链接；[c]使用动作的概率分布从动作组中选择动作；[d]基于所选择的动作，更新文档的共指图，其中共指图包括作为节点的指称和表示指称之间的共指连接的链接；[e]响应于文档具有另一指称，选择另一指称作为当前标识的指称并返回步骤[b]；[f]响应于文档不具有另一指称，输出文档的共指图；[g]使用所输出的共指图和文档的地面真值共指信息，来基于一个或多个度量计算奖励；[h]使用奖励和所选择的动作的轨迹来计算梯度；以及[i]使用梯度来更新策略网络。

在第二方面，提供了一种使用共指消解模型的共指消解的计算机实现方法。该方法包括：接收包括单词组的文档；使用字符和单词嵌入编码器生成多个嵌入，每个嵌入作为固定单词嵌入和卷积神经网络(CNN)字符嵌入的级联；使用双向长短期存储器(LSTM)层从两个方向计算并级联文档中的每个单词的语境化表示；执行迭代操作，包括：利用报头寻找注意从所级联的语境化表示为当前指称生成文段表示；基于所生成的文段表示，使用具有自注意机制的指称前馈神经网络来获得指称得分；基于所生成的文段表示，使用具有自注意机制的先行词前馈神经网络来获得先行词得分；以及至少基于所生成的指称得分和所生成的先行词得分来获得用于所述当前指称的共指得分；以及使用掩蔽的softmax层，至少基于共指得分来针对当前指称计算动作组上的概率分布，其中动作组包括将当前标识的指称与先前标识的指称进行链接或者不将当前标识的指称与任何先前标识的指称进行链接；使用动作的概率分布从动作组中选择动作；以及基于所选择的动作，更新文档的共指图，其中共指图包括作为节点的指称和表示指称之间的共指连接的链接。

在第三方面，提供了包括一个或多个指令序列的非暂时性计算机可读介质。当指令在由一个或多个处理器执行时，致使一个或多个处理器执行第一方面的方法。

在第四方面，提供了一种用于训练共指消解模型的系统。该系统包括至少一个处理器和存储指令的存储器，其中当指令在由至少一个处理器执行时，致使所述至少一个处理器执行第一方面的方法。

附图说明

将参考本发明的实施方式，它们的示例可示于附图中。这些附图旨在是说明性的而非限制性的。虽然本发明大体上在这些实施方式的上下文中描述，但应理解，本发明的范围并不旨在限于这些特定实施方式。附图中的项目未按比例绘制。

图(“图”)1描述了根据本公开的实施例的用于一个轨迹的共指消解模型的框架。

图2描述了根据本公开的实施例的用于训练共指消解模型的方法。

图3图示了根据本公开的实施例的用于在具有6个指称的文档上演示强化的共指消解方法的示例性共指图。

图4描述了根据本公开的实施例的策略网络的架构。

图5描述了根据本公开的实施例的用于使用策略网络获得动作上的概率分布的方法。

图6描述了根据本公开的实施例的用于初始文段表示计算的架构。

图7描述了根据本公开的实施例的具有不同正则化参数的开发组上的平均F1得分。

图8描述了根据本文档的实施例的计算设备/信息处理系统的简化框图。

具体实施方式

在以下描述中，出于解释目的，阐明具体细节以便提供对本公开的理解。然而，将对本领域的技术人员显而易见的是，可在没有这些细节的情况下实践实施方式。此外，本领域的技术人员将认识到，下文描述的本公开的实施方式可以以各种方式(例如过程、装置、系统、设备或方法)在有形的计算机可读介质上实施。

附图中示出的组件或模块是本发明实施方式的示例性说明，并且意图避免使本公开不清楚。还应理解，在本论述的全文中，组件可描述为单独的功能单元(可包括子单元)，但是本领域的技术人员将认识到，各种组件或其部分可划分成单独组件，或者可整合在一起(包括整合在单个的系统或组件内)。应注意，本文论述的功能或操作可实施为组件。组件可以以软件、硬件、或它们的组合实施。

此外，附图内的组件或系统之间的连接并不旨在限于直接连接。相反，在这些组件之间的数据可由中间组件修改、重格式化、或以其它方式改变。另外，可使用另外或更少的连接。还应注意，术语“联接”、“连接”、或“通信地联接”应理解为包括直接连接、通过一个或多个中间设备来进行的间接连接、和无线连接。

在本说明书中对“一个实施方式”、“优选实施方式”、“实施方式”或“多个实施方式”的指称表示结合实施方式所描述的具体特征、结构、特性或功能包括在本发明的至少一个实施方式中，以及可包括在多于一个的实施方式中。另外，在本说明书的各个地方出现以上所提到的短语并不一定全都是指相同的实施方式或多个相同实施方式。

在本说明书的各个地方使用某些术语目的在于说明，并且不应被理解为限制。服务、功能或资源并不限于单个服务、单个功能或单个资源；这些术语的使用可指代相关服务、功能或资源的可分布或聚合的分组。

“文档”应理解为是指文本组。“指称”应被理解为意味着文档中的相同真实世界实体、属性、情形、不同概念(无论是有形的还是无形的)或前指(例如，代词、名词、名词短语)的文本文段。

术语“包括”、“包括有”、“包含”和“包含有”应理解为开放性的术语，并且其后任何列出内容都是实例，而不旨在限于所列项目。本文所使用的任何标题仅是为了组织目的，并且不应被用于限制说明书或权利要求的范围。本专利文献中提到的每个参考文献以其全文通过引用并入本文。

此外，本领域的技术人员应认识到：(1)某些步骤可以可选地执行；(2)步骤可不限于本文中所阐述的特定次序；(3)某些步骤可以以不同次序执行；以及(4)某些步骤可同时地进行。

A.引言

为了避免流水线系统的级联误差，已经开发了端到端方法。这种方法直接考虑所有的文本文段、共同标识实体指称，并对它们进行群集。这些端到端模型的核心是表示文档中的文本文段的向量嵌入以及计算文本文段的指称得分和文段对的先行词得分的得分函数。根据如何计算文段嵌入，端到端共指模型还可以划分为一阶方法或更高阶方法。

尽管最近的端到端神经共指模型已经提高了共指消解的现有技术性能，但是仍然使用启发式损失函数来训练它们，并且为每对指称作出一系列局部决策。然而，如Clark和Manning(对指称排序共指模型的深度强化学习“Deep reinforcement learning formention-ranking coreference model”。发表于2016年关于自然语言处理中的经验方法的会议(EMNLP)，第2256-2262页，Austin，TX)和Yin等人(汉语零代词解析的深度强化学习“Deep reinforcement learning for Chinese zero pronoun resolution”。发表于计算语言学协会(ACL)第56届年会的会议，2018，第569-578页，澳大利亚，墨尔本)所研究的，大多数共指消解评估测量在局部决策上是不可访问的，而仅在作出所有其他决策之时才能获知。因此，下一个关键研究问题是如何以端到端的方式集成和直接优化共指评估度量。

图1示出了根据本公开的实施例的用于消解共指的面向目标的端到端深度强化学习框架，图2描述了根据本公开的实施例的用于训练深度强化学习框架的过程。图1中的实线表示模型探索，而虚线表示梯度更新。在一个或多个实施例中，策略网络120接收当前共指状态S_t110(205)，以在共指链接的多个动作a_t上生成概率分布p_θ(a_t|S_t)120(210)。时间t上的状态可以定义为S_t＝{g₁，···，g_t-1，g_t}，其中g_i是指称i的表示。这些动作可用于更新环境或共指图140，共指图140包括作为节点的指称和表示指称之间的共指连接的链接。对于文档，基于所选择的动作来更新共指图，文档中共指图包括作为节点的指称和表示指称之间的共指连接的链接。在执行多个动作中的动作a_t之后，下一状态S_t+1 130从指称t转换到指称t+1。在一个或多个实施例中，在不考虑动作a_t的情况下，基于开始位置的自然顺序，以及然后基于指称的结束位置来生成下一状态S_t+1。在预定的时间步长T获得或更新针对共指状态的动作150的轨迹(220)。

在一个或多个实施例中，策略网络120是端到端神经模块。奖励函数基于共指评估度量计算给定的动作的轨迹的奖励。在一个或多个实施例中，神经架构被用作策略网络，其包括学习文段表示、对潜在实体指称进行评分以及生成从当前指称到其先行词的所有可能的共指链接动作上的概率分布。一旦进行了链接动作的序列，就获得奖励函数160并用来测量所生成的共指群集有多好(225)，这与共指评估度量直接相关。在一个或多个实施例中，可以基于一个或多个度量使用文档的输出的共指图和地面真值共指信息来计算奖励。在一个或多个实施例中，引入熵正则化项以鼓励探索且防止策略过早地收敛到不良局部最优。最后，使用梯度来更新正则化策略网络参数，其中梯度是使用奖励或所选择的动作的轨迹中的至少一个来计算的(230)。

在一个或多个实验设置中，使用一个或多个数据集来评估所公开的端对端强化共指消解模型的实施例。所提出的模型在统计学意义上取得了73.8％的新的现有技术F1得分，优于Lee等人以前发表的一些最佳结果(73.0％)。(具有粗到细推理的高阶共指消解“Higher-order coreference resolution with coarse-to-fine inference”。发表于2018年的计算语言学协会的北美章节的会议：人类语言技术(NAACL-HLT)，第687-692页，New Orleans，LA，下文称为“Lee 2018”)。

B.一些相关工作

在该部分中，讨论了一些先前相关的工作，以帮助理解本发明的实施例。

尽管显而易见的是，所提出的专利公开内容的一些实施例在某种程度上类似于Lee 2018和Lee等人开发的端到端共指模型(端到端神经共指消解“End-to-end NeuralCoreference Resolution”。发表在2017年的关于自然语言处理中的经验方法的会议(EMNLP)，第188-197页，哥本哈根，丹麦，下文称为“Lee 2017”)，但还是存在显著的差异。Lee 2017和Lee 2018似乎使用神经网络来在不使用语法分析器的情况下学习指称表示以及计算指称和先行词得分。然而，它们的模型基于局部决策而不是实际的共指评估度量来优化启发式损失，而本文的强化模型实施例基于从动作序列计算的奖励来直接优化评估度量。

Clark和Manning以及Yin等人用强化学习技术来消解共指。他们似乎是将指称排序模型视为采取一系列动作的代理，其中每个动作将每个指称链接到候选先行词。他们还使用预训练进行初始化。然而，他们的模型假设指称已给出，而本专利公开的实施例是端对端的。此外，在一个或多个实施例中，添加熵正则化以鼓励更多的探索并防止模型过早地收敛到次优(或不良的)局部最优。

C.方法实施例

1.任务定义

在给定文档的情况下，端到端共指消解的任务旨在标识一组指称群集，每个指称群集指代相同的实体。在一个或多个实施例中，任务被表示为用于每个文段i到其可能的先行词集的链接决策的序列，表示为Y(i)＝{∈，1，…，i-1}、伪先行词∈和所有先前的文段。特别地，对于文段使用伪先行词∈是为了处理两个可能的情形：(i)文段不是实体指称或者(ii)文段是实体指称，但是它不共指任何先前的文段。在一个或多个实施例中，可用关于先行词预测的回溯步骤来恢复最终共指群集。在一个或多个实施例中，回溯步骤可以实现为或深度优先搜索或宽度优先搜索的图形搜索过程。

2.模型实施例

图3示出了用于在具有六个指称的文档上演示所呈现的迭代共指消解模型的示例性共指图。上行和下行分别与指称(5)和指称(6)的步骤对应，其中策略网络选择指称(2)作为指称(5)的先行词，并留下指称(6)作为单独指称。黑暗和灰色节点表示处理(当前)的指称，以及它们之间的边缘指示当前预测的共指关系。圆周围的灰色矩形是文段嵌入，以及奖励r在轨迹末端进行计算。

在一个或多个实施例中，在给定文档的情况下，所呈现的模型首先标识最高得分的指称，以及然后对它们执行动作序列a_1:T＝{a₁，a₂，···，a_T}，其中T是指称的数目，并且每个动作a_t将指称t分配给候选先行词Y_t＝{∈，1，…，i-1}中的y_t。时间t的状态被定义为S_t＝{g₁，···，g_t-1，g_t}，其中g_i是指称i的表示。

在一个或多个实施例中，一旦模型完成所有动作，它就观察奖励R(a_1:T)。然后传播所计算的梯度以更新模型参数。在一个或多个实施例中，使用三个度量的平均值作为奖励：MUC(Grishman和Sundheim，1995，MUC-6评估的设计“Design of the MUC-6evaluation”。发表于第6届消息理解会议(MUC)，第1-11页，Columbia，MD)、B³(Bagga，A.，和Baldwin，B.1998，用于评分共指链的算法“Algorithms for scoring coreference chains”。发表于关于语言共指LREC 1998研讨会，第563-566页。Granada，西班牙)和CEAFφ₄(Cai和Strube，2010。用于端到端共指消解系统的评估度量“Evaluation metrics for end-to-endcoreference resolution systems”。发表于关于话语和对话的特别兴趣组(SIGDIAL)的第11届年会，第28-36页，东京，日本)。对于CEAFφ₄度量，φ₄(*·*)使用关键字和响应中的总计数目的指称，为每个实体对计算归一化的相似性。CEAF(约束的实体对准F测量)精度于是将该相似性均匀地分布在响应集中。

在一个或多个实施例中，假定动作是独立的，以及在不考虑动作a_t的情况下基于开始位置的自然顺序以及然后基于指称的结束位置来生成下一状态S_t+1。

策略网络：在一个或多个实施例中，采用来自Lee 2018的现有技术的端到端神经共指评分架构，并且还添加了掩蔽的softmax层以计算动作上的概率分布，如图4所示。策略网络可以包括字符和单词编码器405、报头寻找注意模块410、文段表示420、第一门425和第二门435、自注意模块430和掩蔽的softmax层455。虚线正方形415中的组件迭代地细化文段表示。在一个或多个实施例中，最后一层是掩蔽的softmax层455，其仅为每一指称计算候选先行词上的概率分布。在一个或多个实施例中，策略网络还可以包括文段生成和剪除组件，为了简化附图，在图4中省略了文段生成和剪除组件。两个方面有助于成功完成：(i)粗到细进行剪除以减少搜索空间，以及(ii)用自注意机制来细化文段表示的迭代过程，该自注意机制在由归一化的共指得分进行加权的前一轮的表示上求平均。

在图5中示出了使用策略网络400获得动作上的概率分布的过程。在一个或多个实施例中，使用字符和单词嵌入编码器生成多个嵌入，其中每个嵌入为固定的预训练单词嵌入和字符嵌入的级联(505)。在一个或多个实施例中，卷积神经网络(CNN)应用于具有最大池的字符嵌入。在双向长期存储器(BiLSTM)层处计算来自两个方向的输入文本中的每个单词的语境化表示并进行级联(510)。根据每个单词的级联的语境化表示，利用报头寻找注意来生成文段表示(515)。使用具有基于所生成的文段表示的自注意机制的指称前馈神经网络(FFNNm)来获得指称得分440(520)。使用具有基于所生成的文段表示的自注意机制的先行词前馈神经网络(FFNNa)来获得先行词得分445(525)。在一个或多个实施例中，自注意机制在由归一化的共指得分加权的前一轮的表示上求平均。于是，可以至少基于所生成的指称得分440和所生成的先行词得分445来获得共指得分450(530)。掩蔽的softmax层455至少基于共指得分来计算(535)每个指称的候选先行词上的概率分布。

策略网络实施例中的组件的其他细节公开如下：

字符和单词嵌入编码器：在一个或多个实施例中，编码器405生成多个嵌入，其中每个嵌入为固定预训练单词嵌入和CNN字符嵌入的级联。在另一实施例中，可以替代为使用BiLSTM来学习字符嵌入。

BiLSTM层：双向LSTM层被用于从两个方向计算输入文本中的每个单词的语境化表示并进行级联。

或者，BiLSTM组件可替换为时间卷积网络(TCN)(Bai等人，2017，序列建模的一般卷积和递归网络的经验评估“An Empirical Evaluation of Generic Convolutional andRecurrent Networks for Sequence Modeling”，arXiv:1803.01271)，时间卷积网络(TCN)也可捕获时间依赖性但计算快得多。

报头寻找注意：报头寻找注意模块410计算文段s_i中不同单词的加权和。在一个或多个实施例中，文段的参与表示可以表示为：

其中：

在可选实施例中，可以使用其它流行的注意机制，例如余弦注意、内部产品注意等。在实施例中，可以用最大/平均合并过程来替换该组件。

文段表示：图6描述了根据本专利公开的实施例的用于从字符和单词嵌入605来计算初始文段表示的架构。在图6中，仅示出了具有高指称得分的两个文本文段。嵌入605被馈送到BiLSTM层，用于从两个方向生成输入文本中的每个单词的语境化表示610。该模型可以考虑所有可能的文段直到最大宽度，但是这里仅描述了两个文本文段作为示例。在一个或多个实施例中，剪除例如概率得分小于预定阈值的低得分文段，以便仅考虑文段615的可管理的数目用于共指决策。

在实施例中，级联等式(1)中的文段信息以产生文段i的最终表示g_i：

其中，φ_i(.)是捕获文本文段的表面表单或类型信息中的其他属性的固定长度的特征向量。

迭代文段表示细化：在实施例中，可以利用来自先前模型迭代的共指得分来进一步细化文段表示。该过程包括细化文段表示的N次迭代，表示为

以表示第n次迭代的文段i。在第n次迭代时，利用自注意机制计算

该自注意机制在先前的表示

上求平均，该先前的表示

根据每个指称j是i的先行词的可能程度而被加权，如下面所定义的。

在实施例中，基线模型可用于在

初始化文段表示。细化的文段表示允许模型迭代地细化先行词分布P_n(y_i)：

在一个或多个实施例中，使用P_n(y_i)作为注意权重，可以如下获得参与的文段表示：

在一个或多个实施例中，当前文段表示

可以然后通过与其预期的先行词表示

的内插来更新：

其中

是学习的门向量以为每个维度确定是保持当前文段表示

还是根据从其预期的先行词表示

集成的新信息。

共指评分：在一个或多个实施例中，给定状态S_t和当前网络参数θ，动作a_t选择y_t的概率可以表示为：

其中s(i，j)是在文段i和文段j之间的成对共指得分450，定义如下：

s(i，j)＝s_m(i)+s_m(j)+s_c(i，j)+s_a(i，j) (8)

在一个或多个实施例中，对于伪先行词，得分s(i，∈)固定为0。这里s_m(.)是指称得分函数，s_c(.，.)是用于剪除先行词的双线性得分函数，以及s_a(.，.)是先行词得分函数。使用g_i来表示门控之后文段i的细化表示，函数s_m(i)和S_c(i，j)可以表示为：

以及S_a(i，j)可以表示为：

其中FFNN表示前馈神经网络以及°表示元素形式的乘积。θ_m，Θ_c和θ_a是网络参数。φ(i，J)是对来自元数据的说话者和类型信息进行编码的特征向量。

强化算法：在一个或多个实施例中，探索策略梯度算法以最大化预期奖励：

由于在所有可能的动作序列上的期望，计算J(θ)的精确梯度可能是不可行的。相反，在一个或多个实施例中使用蒙特卡罗方法，以通过根据p_θ的随机采样N_s轨迹来近似实际梯度，并仅在采样轨迹上计算梯度。在一个或多个实施例中，从奖励中减去基线值以减小梯度估计的方差。在一个或多个实施例中，梯度估计可以如下表示：

其中N_s是采样轨迹的数目，τ_i＝{a_i1，···，a_iT}是第i个采样轨迹，并且

是基线奖励。

熵正则化：在一个或多个实施例中，为了防止所呈现的模型陷入朝向几个动作的高峰值策略中，添加熵正则化项以鼓励探索。最终的正则化策略梯度可以如下进行估计：

其中λ_expr≥0是控制所提出的模型可以如何多样地进行探索的正则化参数。λ_expr越大，所提出的模型可以进行更加多样化的探索。如果λ_expr→∞，则可以在不考虑当前策略的情况下均匀地采样所有动作。相反，如果λ_expr＝0，则可以基于当前策略采样所有动作。

预训练：在一个或多个实施例中，可以使用以下损失函数对由包含策略网络中的所有参数的θ参数化的策略网络进行预训练：

其中N是指称的数目，如果指称和j是共指的则I(i，j)＝1，否则为0。Y_i是指称i的候选先行词的集合。

奖励函数：在一个或多个实施例中，一旦获得预测的共指群集和地面真值群集，就计算三个度量MUC，B³和CEAFφ₄的平均值并将其用作奖励。

D.部分实验

应注意的是，这些实验和结果是通过举例说明的方式来提供的，并且这些实验和结果是使用一个或多个具体实施例在具体条件下进行的；因此，这些实验和它们的结果都不应用于限制本专利文件的公开内容的范围。

在一个或多个数据集上使用多个训练文档、开发文档和测试文档来评估所提出的模型的实施例。在一个或多个实验设置中，除了一些例外情况重新使用来自Lee 2018的超参数和评估度量。首先，使用等式(13)对所提出的模型的实施例预训练大约200K的步骤，并且将所学习的参数用于初始化。此外，采样轨迹的数目被设置为N_s＝100，正则化参数λ_expr调整为{10^-5，10^-4，0.001，0.01，0.1，1}，并且基于开发组设置为10^-4。

在一个或多个实验设置中，使用三个标准度量：MUC,B³和CEAFφ₄。对于每个度量报告精度、召回和F1得分。最后的评估是上述三个度量的平均F1。

1.部分结果

在表1中，将所提出的模型的实施例与在过去3年中产生显著改进的共指系统进行比较。报告的结果或者采用自它们的论文中或者从它们的代码中再现。表的第一部分列出流水线模型，而第二部分列出端到端方法。第三部分列出了所提出的具有不同变型的模型的实施例的结果。

表1：在一个或多个测试集上使用MUC,B³和CEAF4φ₄度量的实验结果。用*标记的模型利用来自深层语言模型ElMo的单词嵌入(来自语言模型的嵌入，Peters等人，深度语境化的单词表示“Deep contextualized word representations”。发表于2018年的计算语言学协会的北美章节的会议：人类语言技术(NAACL-HLT)，第2227-2237页，新奥尔兰，LA)。

与Lee 2018相比，在t检测下F1在统计学意义上得到显著改善，p<0.05。

¹:Wiseman等人，2016.共指消解方案的学习全局特征“Learning globalfeatures for coreference resolution”。发表于2016年的计算语言学协会的北美章节的会议：人类语言技术(NAACL-HLT)，第994-1004页，圣地亚哥，CA。

²:Kevin Clark和Christopher D Manning，2016a.指称排序模型的一种深度强化学习“Deep reinforcement learning for mention-ranking coreference models”。发表于2016年关于自然语言处理中的经验方法的会议(EMNLP)，第2256-2262页，Austin，TX。

³:Kevin Clark和Christopher D Manning，2016b.通过学习实体级分布式表示来提高共指消解“Improving coreference resolution by learning entity-leveldistributed representations”。发表于计算语言学协会(ACL)第54届年会，第643-653页，柏林，德国。

⁴:Rui Zhang等人，通过联合指称检测和指称群集的具有深度仿射关注的神经共指消解“Neural coreference resolution with deep biaffine attention by jointmention detection and mention clustering”。发表于计算语言学协会(ACL)第56届年会，第102-107页，墨尔本，澳大利亚。

⁵:Yi Luan等人，多任务地标识科学知识图的构建的实体、关系以及共指“Multi-task identification of entities,relations,and coreference for scientificknowledge graph construction”。发表于2018年关于自然语言处理中的经验方法的会议(EMNLP)，3219-3232页，布鲁塞尔，比利时。

应当注意，Luan等人的方法包含3个任务：命名实体识别、关系推理和共指消解。在一个或多个实施例中，禁用关系推理任务并且训练其它两个任务。

与Lee 2017和Zhang等人相比，建造在Lee 2018中的模型顶部但不包括ElMo的基础强化模型实施例提高了2点(统计学上显著的t检测，p<0.05)附近的平均F1得分。它甚至可以与具有ElMo支持的端到端多任务共指模型(Luan等人)进行比较，其结合现有技术的端到端模型来展示强化学习的能力。关于本模型的实施例，示出了使用熵正则化来鼓励探索可以将结果提高1个点。此外，将上下文相关的ElMo嵌入引入到基础模型实施例可以进一步提高性能，这与Lee 2018中的结果一致。还注意到的是，对完整模型实施例的改进主要来自更高的精度得分和合理良好的召回得分，这表明强化模型实施例与更积极的探索相结合将产生更好的共指得分以减少假阳性共指链接。

总的来说，当使用Elmo和熵正则化(与用表1中的*标记的模型相比)时，全模型的实施例实现73.8％F1得分的现有技术性能，并且当仅使用固定单词嵌入时，方法实施例同时获得70.5％的最佳F1得分。

表2：对测试集的总体指称的检测结果。在t检测下F1的改善在统计学上是显著的，p<0.05。

由于指称检测是共指消解的子任务，因此指称检测的性能也是在一个或多个实验中进行研究的。表2显示了测试组的上述检测结果。与共指链接结果类似，全模型实施例实现了更高的精度和更高的F1得分，这表明全模型实施例可以显著减少假阳性指称，而仍然可以找到合理数目的指称。

2.一些分析和讨论

烧蚀研究：在一个或多个实验设置中，为了理解不同组分的效果，进行了具有表3所示结果的烧蚀研究。显然，去除熵正则化使得平均F1得分劣化1％。此外，禁用粗到细剪除或二级推理降低了0.3/0.5F1得分。在所有组分之中，ElMo嵌入的贡献最大，并将结果提高了3.1％。

表3：对开发组的烧蚀研究。采用来自Lee 2018的“粗至细剪除”和“二级推理”。

参数λ_expr的影响：由于参数λ_expr直接控制模型在训练期间进行探索的多样性，因此有必要研究其对模型性能的影响。图7示出了关于完整模型实施例和Lee 2018的开发组的平均F1得分。Lee 2018的结果也被绘制用于比较，也因为它不依赖于λ_expr，所以是一条平直的线。观察到的是，λ_expr对性能确实具有较强影响，并且最佳值为约10^-4。此外，全模型实施例在λ_expr的很宽的范围内始终优于Lee 2018。

E.部分结论

本文公开了基于共指消解模型的端到端强化学习的实施例。模型的实施例将监督的高阶共指模型转换为策略梯度模型，该策略梯度模型可以直接优化共指评估度量。实验各种基准表明，所提出的模型与熵正则化相结合的效果明显优于现有的共指系统。

在实施例中，所提出的模型实施例的性能可以通过结合作为奖励的部分的指称检测结果或者为每个动作引入中间步骤奖励来进行改善，以更好地引导强化学习(RL)模型的行为。

F.系统实施方式

在实施方式中，本专利文献的方面可涉及、可包括一个或多个信息处理系统/计算系统或者可在一个或多个信息处理系统/计算系统上实施。计算系统可包括可操作来计算、运算、确定、分类、处理、传输、接收、检索、发起、路由、交换、存储、显示、通信、显现、检测、记录、再现、处理或利用任何形式信息、智能或数据的任何手段或手段的组合。例如，计算系统可为或可包括个人计算机(例如，膝上型计算机)、平板电脑、平板手机、个人数字助理(PDA)、智能手机、智能手表、智能包装、服务器(例如，刀片式服务器或机架式服务器)、网络存储设备、摄像机或任何其他合适设备，并且可在大小、形状、性能、功能和价格方面改变。计算系统可包括随机存取存储器(RAM)、一个或多个处理资源(例如中央处理单元(CPU)或硬件或软件控制逻辑)、ROM和/或其他类型的存储器。计算系统的另外组件可包括一个或多个盘驱动器、用于与外部设备通信的一个或多个网络端口、以及各种输入和输出(I/O)设备(例如键盘、鼠标、触摸屏和/或视频显示器)。计算系统还可包括可操作为在各种硬件组件之间传输通信的一个或多个总线。

图8描绘根据本公开的实施方式的计算设备/信息处理系统(或是计算系统)的简化框图。应理解，计算系统可不同地配置并且包括不同组件，包括如图8中所示的更少或更多的部件，但应理解，针对系统800所示出的功能可操作为支持计算系统的各种实施方式。

如图8所示，计算系统800包括一个或多个中央处理单元(CPU)801，CPU 801提供计算资源并控制计算机。CPU 801可实施有微处理器等，并且还可包括一个或多个图形处理单元(GPU)819和/或用于数学计算的浮点协处理器。系统800还可包括系统存储器802，系统存储器802可呈随机存取存储器(RAM)、只读存储器(ROM)、或两者的形式。

如图8所示，还可提供多个控制器和外围设备。输入控制器803表示至各种输入设备804的接口，例如键盘、鼠标、触摸屏和/或触笔。计算系统800还可包括存储控制器807，该存储控制器807用于与一个或多个存储设备1008对接，存储设备中的每个包括存储介质(诸如磁带或盘)或光学介质(其可用于记录用于操作系统、实用工具和应用程序的指令的程序，它们可包括实施本发明的各方面的程序的实施方式)。存储设备808还可用于存储经处理的数据或是将要根据本发明处理的数据。系统800还可包括显示控制器809，该显示控制器809用于为显示设备811提供接口，显示设备811可为阴极射线管(CRT)、薄膜晶体管(TFT)显示器、有机发光二极管、电致发光面板、等离子面板或其他类型的显示器。计算系统800还可包括用于一个或多个外围设备806的一个或多个外围控制器或接口805。外围设备的示例可包括一个或多个打印机、扫描仪、输入设备、输出设备、传感器等。通信控制器814可与一个或多个通信设备815对接，这使系统800能够通过各种网络(包括互联网、云资源(例如以太云、经以太网的光纤通道(FCoE)/数据中心桥接(DCB)云等)、局域网(LAN)、广域网(WAN)、存储区域网络(SAN))中的任一网络，或通过任何合适电磁载波信号(包括红外信号)来连接至远程设备。

在示出的系统中，所有主要系统组件可连接至总线816，总线816可表示多于一个的物理总线。然而，各种系统组件可在物理上彼此接近或可不在物理上彼此接近。例如，输入数据和/或输出数据可远程地从一个物理位置传输到另一物理位置。另外，实现本发明的各方面的程序可经由网络从远程位置(例如，服务器)访问。此类数据和/或程序可通过各种机器可读介质中的任一机器可读介质来传送，机器可读介质包括但不限于：诸如硬盘、软盘和磁带的磁性介质；诸如CD-ROM和全息设备的光学介质；磁光介质；以及硬件设备，该硬件设备专门被配置成存储或存储并执行程序代码，该硬件设备例如专用集成电路(ASIC)、可编程逻辑器件(PLD)、闪存设备、以及ROM和RAM设备。

本发明的方面可利用用于一个或多个处理器或处理单元以使步骤执行的指令在一个或多个非暂态计算机可读介质上编码。应注意，一个或多个非暂态计算机可读介质应当包括易失性存储器和非易失性存储器。应注意，替代实现方式是可能的，其包括硬件实现方式或软件/硬件实现方式。硬件实施的功能可使用ASIC、可编程的阵列、数字信号处理电路等来实现。因此，任何权利要求中的术语“手段”旨在涵盖软件实现方式和硬件实现方式两者。类似地，如本文使用的术语“计算机可读媒介或介质”包括具有实施在其上的指令程序的软件和/或硬件或它们的组合。利用所构想的这些替代实现方式，应当理解，附图以及随附描述提供本领域的技术人员编写程序代码(即，软件)和/或制造电路(即，硬件)以执行所需处理所要求的功能信息。

应当注意，本发明的实施方式还可涉及具有其上具有用于执行各种计算机实施的操作的计算机代码的非暂态有形计算机可读介质的计算机产品。介质和计算机代码可为出于本发明的目的而专门设计和构造的介质和计算机代码，或者它们可为相关领域中的技术人员已知或可用的。有形计算机可读介质的示例包括但不限于：诸如硬盘、软盘和磁带的磁性介质；诸如CD-ROM和全息设备的光学介质；磁光介质；以及专门配置成存储或存储并执行程序代码的硬件设备，例如，专用集成电路(ASIC)、可编程逻辑器件(PLD)、闪存设备、以及ROM和RAM设备。计算机代码的示例包括机器代码(例如，编译器产生的代码)以及包含可由计算机使用解释器来执行的更高级代码的文件。本发明的实施方式可整体地或部分地实施为可在由处理设备执行的程序模块中的机器可执行指令。程序模块的示例包括库、程序、例程、对象、组件和数据结构。在分布的计算环境中，程序模块可物理上定位在本地、远程或两者的设定中。

本领域的技术人员将认识到，计算系统或编程语言对本发明的实践来说均不重要。本领域的技术人员将还将认识到，多个上述元件可物理地和/或在功能上划分成子模块或组合在一起。

本领域技术人员将理解，前文的示例和实施方式是示例性的，并且不限制本公开的范围。旨在说明的是，在本领域的技术人员阅读本说明书并研究附图后将对本领域的技术人员显而易见的本发明的所有置换、增强、等同、组合或改进包括在本公开的真实精神和范围内。还应注意，任何权利要求书的元素可不同地布置，包括具有多个从属、配置和组合。

Claims

1.一种用于训练共指消解模型的计算机实现方法，包括：

[a]将包括文本组的文档输入策略网络以标识所述文档中的指称；

[b]当在所述文档中给出当前标识的指称的情况下，使用所述策略网络获得动作组的概率分布，其中所述动作组包括将所述当前标识的指称与先前标识的指称进行链接或者不将所述当前标识的指称与任何先前标识的指称进行链接；

[c]使用动作的所述概率分布从所述动作组中选择动作；

[d]基于所选择的动作，更新所述文档的共指图，其中所述共指图包括作为节点的指称和表示指称之间的共指连接的链接；

[e]响应于所述文档具有另一指称，选择所述另一指称作为所述当前标识的指称并返回步骤[b]；

[f]响应于所述文档不具有另一指称，输出所述文档的所述共指图；

[g]使用所输出的共指图和所述文档的地面真值共指信息，基于一个或多个度量计算奖励；

[h]使用所述奖励和所选择的动作的轨迹来计算梯度；以及

[i]使用所述梯度来更新所述策略网络。

2.根据权利要求1所述的计算机实现方法，其中，所述策略网络使用训练步骤来进行预训练，所述训练步骤包括：

将文档组输入所述策略网络，所述策略网络标识所述文档中的指称，并为每个文档生成共指图；

使用所述文档的相应的地面真值共指图来计算相对于从所述策略网络获得的所生成的共指图的损失；

使用所述损失来更新所述策略网络；以及

迭代上述训练步骤，直到达到停止条件，所述步骤条件包括一个或多个来自时元数目、错误级别或迭代次数的标准。

3.根据权利要求1所述的计算机实现方法，还包括：

对所述文档重复步骤[a]-[f]，以在迭代操作中获得每个文档的共指图组和相应的动作的轨迹组；

从所述共指图组中获得共指图的样本组；

从所述共指图的样本组中计算每个共指图的奖励；以及

使用所述奖励和所述样本组中的动作的轨迹来计算梯度。

4.根据权利要求1所述的计算机实现方法，其中，将包括文本组的文档输入策略网络以标识所述文档中的指称包括：

使用字符和单词嵌入编码器生成多个嵌入，每个嵌入作为固定预训练单词嵌入和卷积神经网络(CNN)字符嵌入的级联；

使用双向长短期存储器(LSTM)层从两个方向计算并级联所输入的文档中的每个单词的语境化表示；

执行迭代操作，包括：

利用报头寻找注意从每个单词的所级联的语境化表示生成文段表示；

基于所生成的文段表示，使用具有自注意机制的指称前馈神经网络来获得指称得分；

基于所生成的文段表示，使用具有所述自注意机制的先行词前馈神经网络来获得先行词得分；以及

至少基于所生成的指称得分和所生成的先行词得分来获得共指得分；以及

使用掩蔽的softmax层，至少基于所述共指得分来计算每个指称的概率分布。

5.根据权利要求4所述的计算机实现方法，其中，所述概率分布仅在每个指称的候选先行词上，其中在所述文档中的所述当前指称之后的指称的概率分布被所述掩蔽的softmax层掩蔽。

6.根据权利要求4所述的计算机实现方法，其中，所述自注意机制在先前迭代的表示上求平均，所述先前迭代的表示由归一化的共指得分进行加权。

7.根据权利要求4所述的计算机实现方法，其中，概率得分小于预定阈值的所生成的文段表示从共指决策中剪除。

8.一种使用共指消解模型的共指消解的计算机实现方法，包括：

接收包括单词组的文档；

使用字符和单词嵌入编码器生成多个嵌入，每个嵌入作为固定单词嵌入和卷积神经网络(CNN)字符嵌入的级联；

使用双向长短期存储器(LSTM)层从两个方向计算并级联所述文档中的每个单词的语境化表示；

执行迭代操作，包括：

利用报头寻找注意从所级联的语境化表示为当前指称生成文段表示；

至少基于所生成的指称得分和所生成的先行词得分来获得用于所述当前指称的共指得分；以及

使用掩蔽的softmax层，至少基于所述共指得分来针对所述当前指称计算动作组上的概率分布，其中所述动作组包括将所述当前标识的指称与先前标识的指称进行链接或者不将所述当前标识的指称与任何先前标识的指称进行链接；

使用动作的所述概率分布从动作组中选择动作；以及

基于所选择的动作，更新所述文档的共指图，其中所述共指图包括作为节点的指称和表示指称之间的共指连接的链接。

9.根据权利要求8所述的计算机实现方法，其中，所述共指消解模型使用以下步骤进行预训练，所述步骤包括：

在迭代操作中，将训练文档输入所述共指消解模型中，以为每个文档生成共指图组和相应的动作的轨迹组；

从所述共指图组中获得共指图的样本组；

从所述共指图的所述样本组中计算每个共指图的奖励；

使用所述奖励和所述样本组中的动作的轨迹来计算梯度；以及

利用所述梯度来更新所述共指消解模型的参数。

10.根据权利要求9所述的计算机实现方法，其中，所述梯度还包括熵正则化参数，以控制对所述动作的轨迹组的探索。

11.根据权利要求10所述的计算机实现方法，其中，当所述熵正则化参数被设置为0时，基于当前策略对所述动作的轨迹组进行采样。

12.根据权利要求10所述的计算机实现方法，其中，当所述熵正则化参数被设置为∞时，无论当前策略如何，对所述动作的轨迹组进行均匀地采样。

13.根据权利要求9所述的计算机实现方法，其中，所述概率分布仅在每个指称的候选先行词上，其中在所述文档中的所述当前指称之后的指称的概率分布被所述掩蔽的softmax层掩蔽。

14.根据权利要求9所述的计算机实现方法，其中，所述自注意机制在先前迭代的表示上求平均，所述先前迭代的表示由归一化的共指得分进行加权。

15.一种包括一个或多个指令序列的非暂时性计算机可读介质或媒介，当所述一个或多个指令序列在由一个或多个处理器执行时，使得用于训练共指消解模型的步骤被执行，所述步骤包括：

[c]使用动作的所述概率分布从所述动作组中选择动作；

[h]使用所述奖励和所选择的动作的轨迹来计算梯度；以及

[i]使用所述梯度来更新所述策略网络。

16.根据权利要求15所述的非暂时性计算机可读介质或媒介，所述策略网络使用训练步骤进行预训练，所述训练步骤包括：

使用所述损失来更新所述策略网络；以及

17.根据权利要求16所述的非暂时性计算机可读介质或媒介，其中，还包括：

从所述共指图组中获得共指图的样本组；

从所述共指图的样本组中计算每个共指图的奖励；以及

使用所述奖励和所述样本组中的动作的轨迹来计算梯度。

18.根据权利要求15所述的非暂时性计算机可读介质或媒介，其中，步骤[a]还包括：

执行迭代操作，包括：

19.根据权利要求18所述的非暂时性计算机可读介质或媒介，其中，所述概率分布仅在每个指称的候选先行词上，其中在所述文档中的所述当前指称之后的指称的概率分布被所述掩蔽的softmax层掩蔽。

20.根据权利要求18所述的非暂时性计算机可读介质或媒介，其中，所述自注意机制在先前迭代的表示上求平均，所述先前迭代的表示由归一化的共指得分进行加权。

21.一种用于训练共指消解模型的系统，包括至少一个处理器和存储指令的存储器，其中，所述指令在由所述至少一个处理器执行时，使得所述至少一个处理器执行根据权利要求1所述的计算机实现方法。