CN111401036A

CN111401036A - 一种指代消解文本的生成方法、装置及电子设备

Info

Publication number: CN111401036A
Application number: CN202010467473.8A
Authority: CN
Inventors: 梁忠平; 温祖杰
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2020-07-10
Anticipated expiration: 2040-05-28
Also published as: CN111401036B

Abstract

本说明书一个或多个实施例提供一种指代消解文本的生成方法、装置及电子设备；本说明书一个或多个实施例的方案，基于端到端的模式设计指代消解文本生成模型，该指代消解文本生成模型使用编码器‑解码器的结构，将输入的用户的历史对话文本和该用户的当前输入文本进行编码，并基于自注意力机制相应生成史对话文本和当前输入文本包括的各个词的自注意力特征，进一步结合编码器生成的自注意力特征以及解码器生成的自注意力特征，由解码器逐步输出输出词以最终得到对应于当前输入文本的指代消解文本。

Description

一种指代消解文本的生成方法、装置及电子设备

技术领域

本说明书一个或多个实施例涉及自然语言处理技术领域，尤其涉及一种指代消解文本的生成方法、装置及电子设备。

背景技术

在自然语言处理技术领域，需要处理的文本中往往存在大量的指代项和零指代项。指代项是指文本中的指代词，用于代替上文中的另一个词。零指代项是指本文中被省略的指代词，被省略的指代词本应在本文中承担相应的语法成分，且用户通常能够根据句子本身推断出被省略的指代词。例如，对于一人机交互对话场景，用户：“请帮我查一下我的额度是多少”；机器人：“查询到您的额度是1000元”；用户：“怎么才能提升它”，或者是“怎么才能提升”。上述对话中，用户回复对应的完整语法表达应为“怎么才能提升额度”。用户回复中，“它”即为一个指代项，而当省略“它”时，则其为一个零指代项，其指代的对象为“额度”。

指代消解是一项被广泛应用的自然语言处理任务，其主要目的在于发现文本中包含的指代项和零指代项，并确定出指代项和零指代项实际指代的对象。因此，如何有效的实现指代消解，是目前自然语言处理技术领域亟需解决的一个问题。

发明内容

有鉴于此，本说明书一个或多个实施例的目的在于提出一种指代消解文本的生成方法、装置及电子设备。

基于上述目的，本说明书一个或多个实施例提供了一种指代消解文本的生成方法，包括：

获取用户的历史对话文本和所述用户的当前输入文本；

将所述历史对话文本和所述当前输入文本输入预先训练的指代消解文本生成模型，以使所述指代消解文本生成模型生成对应于所述当前输入文本的指代消解文本；所述指代消解文本包括由所述指代消解文本生成模型逐步输出的若干输出词；

其中，所述指代消解文本生成模型包括第一编码器、第二编码器和解码器；所述指代消解文本生成模型在每一步输出的输出词是根据所述第一编码器基于自注意力机制为所述历史对话文本中的各个词生成的第一自注意力特征、所述第二编码器基于自注意力机制为所述当前输入文本中的各个词生成的第二自注意力特征以及所述解码器基于自注意力机制在当前步生成的第三自注意力特征来确定的。

基于同一发明构思，本说明书一个或多个实施例还提供了一种指代消解文本的生成装置，包括：

获取模块，被配置为获取用户的历史对话文本和所述用户的当前输入文本；

指代消解模块，被配置为将所述历史对话文本和所述当前输入文本输入预先训练的指代消解文本生成模型，以使所述指代消解文本生成模型生成对应于所述当前输入文本的指代消解文本；所述指代消解文本包括由所述指代消解文本生成模型逐步输出的若干输出词；

基于同一发明构思，本说明书一个或多个实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上任意一项所述的指代消解文本的生成方法。

从上面所述可以看出，本说明书一个或多个实施例提供的指代消解文本的生成方法、装置及电子设备，基于端到端的模式设计指代消解文本生成模型，该指代消解文本生成模型使用编码器-解码器的结构，将输入的用户的历史对话文本和所述用户的当前输入文本进行编码，并基于自注意力机制相应生成史对话文本和当前输入文本包括的各个词的自注意力特征，进一步结合编码器生成的自注意力特征以及解码器生成的自注意力特征，由解码器逐步输出输出词以最终得到对应于当前输入文本的指代消解文本，有效的解决了现有技术中的误差传播问题，提升了指代消解的效果。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书一个或多个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书一个或多个实施例的指代消解文本的生成方法流程图；

图2为本说明书一个或多个实施例中的指代消解文本生成模型结构示意图；

图3为本说明书一个或多个实施例的指代消解文本的生成装置结构示意图；

图4为本说明书一个或多个实施例的电子设备结构示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

需要说明的是，除非另外定义，本说明书一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本说明书一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。

如背景技术部分所述，指代消解是一项被广泛应用的自然语言处理任务。在自然语言处理中，往往是通过机器学习的方式，通过训练具有指代消解能力的机器学习来实现指代消解。在实现本公开的过程中申请人发现，现有的指代消解方案普遍存在效果不佳的问题。而现有的指代消解方案效果不佳的主要原因在于，现有的指代消解方案是分为两阶段的，即先发现和识别指代项（为简化表述，在后续内容和本说明书各个实施例中，指代项这一表述均是指：指代项和/或零指代项），然后对指代项选择其实际指代的对象。在机器学习过程中，会不可避免的产生误差，而现有的上述方案把指代消解拆解成两个阶段，指代项识别阶段产生的误差会传播到指代消解阶段，这严重的影响了最终的指代消解效果。

针对于上述问题，本说明书一个或多个实施例提供了一种指代消解方案，基于端到端的模式设计指代消解文本生成模型，该指代消解文本生成模型使用编码器-解码器的结构，将输入的用户的历史对话文本和该用户的当前输入文本进行编码，并基于自注意力机制相应生成历史对话文本和当前输入文本包括的各个词的自注意力特征，进一步结合编码器生成的自注意力特征以及解码器生成的自注意力特征，由解码器逐步输出输出词以最终得到对应于当前输入文本的指代消解文本。端到端的模型有效解决了误差传播问题；此外，通过对于用户的历史对话文本和该用户的当前输入文本进行综合考虑，以及自注意力机制的使用，体现历史对话文本和当前输入文本中各个词，以及各个输出词之间的相互影响，显著的提升了指代消解效果。

以下，通过具体的实施例来详细说明本说明书一个或多个实施例的指代消解方案。

本说明书一个或多个实施例提供了一种指代消解文本的生成方法。参考图1，所述的指代消解文本的生成方法，包括以下步骤：

步骤S101、获取用户的历史对话文本和所述用户的当前输入文本；

步骤S102、将所述历史对话文本和所述当前输入文本输入预先训练的指代消解文本生成模型，以使所述指代消解文本生成模型生成对应于所述当前输入文本的指代消解文本。

本实施例中，首先获取用户的历史对话文本和该用户的当前输入文本。其中，历史对话文本为用户历史上在人机交互过程中，机器与用户的交互对话所包括的所有文本，包括机器发输出的全部用于人机交互对话的文本，也包括用户输入的全部用于人机交互对话的文本。历史对话文本经过分词处理，被划分为若干个词，且该若干个词以人机交互对话的顺序排列为一词序列。当前输入文本为用户当前输入的本文，本实施例的方法即要对当前输入文本进行指代消解，从而得到当前输入文本对应的指代消解文本。对于当前输入文本，同样进行分词处理，以划分得到若干个词，且同样按照当前输入文本中各个词的输入顺序排列为一词序列。

本实施例中，使用一预先训练的指代消解文本生成模型。该指代消解文本生成模型为采用编码器-解码器结构的语言处理模型，其输入为词序列，其输出为逐步输出的输出词，全部输出的输出词则构成所述的指代消解文本。

具体的，参考图2，所述指代消解文本生成模型可以包括：第一输入层201、第二输入层202、第一编码器203、第二编码器204、解码器205和输出层209。其中，第一输入层201和第二输入层202分别用于接收历史对话文本和当前输入文本，并对历史对话文本和当前输入文本进行词嵌入处理，以得到词向量。所述指代消解文本生成模型在每一步由输出层209输出的输出词，是根据第一编码器203基于自注意力机制为历史对话文本中的各个词生成的第一自注意力特征、第二编码器204基于自注意力机制为当前输入文本中的各个词生成的第二自注意力特征以及解码器205基于自注意力机制在当前步生成的第三自注意力特征来确定的。

本实施例中，第一编码器203、第二编码器204和解码器205可采用循环神经网络，具体的可以是长短期记忆网络、门控循环单元神经网络等。第一编码器203、第二编码器204和解码器205均预先经过训练，训练所使用的训练样本可以为大量不同用户的人机交互对话语料，其包括训练用对话文本以及其对应的目标指代消解后文本。具体的，以训练用对话文本中各个词的词向量为输入，以目标指代消解后文本为对应的目标，采用任意的机器学习算法进行训练，以得到训练好的第一编码器203、第二编码器204和解码器205。

将用户的历史对话文本和当前输入文本输入本实施例的指代消解文本生成模型，指代消解文本生成模型即能够输出对应于当前输入文本的指代消解文本。参考图2，指代消解文本生成模型具体处理过程可以包括如下内容：

将获取到的用户的历史对话文本输入第一输入层201，具体的，输入第一输入层201的为历史对话文本经过分词得到的顺序排列的词序列，各个词可以通过one-hot方式编码为向量形式。第一输入层201会对历史对话文本进行词嵌入处理，以提取各词的特征得到历史对话文本中的各个词的第一词向量，如图2中的V ^X所示。其中，词嵌入处理所使用的算法可以任意选择，如Word2Vec、GloVe等。

将历史对话文本中的各个词的第一词向量逐步输入第一编码器203，第一编码器203会逐步为各个词生成第一隐状态，该第一隐状态用于表示当前步的词以及之前所有步的词的综合语义。第一隐状态为一向量，其维度等于第一编码器203的隐藏层包括的神经元的数量，而其各维度的取值为各神经元的激活函数的输出值。进一步的，基于自注意力机制（Self-Attention）对各个词的第一隐状态进行自注意力处理，以得到历史对话文本中的各个词的第一自注意力特征，如图2中的H ^X所示，图2中第一编码器203内的双向箭头即表示进行了自注意力处理。具体的，对于任意一个词，将其第一隐状态与其自身以及其他所有词的第一隐状态分别进行点积计算，得到与各个词的第一隐状态一一对应的若干点积值，将该若干点积值经过Softmax归一化后，分别作为对应的词的第一隐状态的权重并进行加权求和，即得到上述词的第一自注意力特征；对每个词均进行上述自注意力处理，即能够得到历史对话文本中的各个词对应的第一自注意力特征。通过自注意力处理得到的第一自注意力特征，其能够反映历史对话文本中的各个词相互之间的影响。

将当前输入文本输入第二输入层202，当前输入文本同样经过分词以向量表示的词序列输入，第二输入层202对前输入文本进行词嵌入处理，得到当前输入文本中的各个词的第二词向量，如图2中的H ^U所示。当前输入文本中的各个词的第二词向量输入第二编码器204，第二编码器204为当前输入文本中的各个词生成第二隐状态，并基于自注意力机制，根据第二隐状态为当前输入文本中的各个词生成第二自注意力特征，如图2中的H ^U所示。第二词向量和第二自注意力特征的生成过程及具体使用的算法均与第一词向量和第一自注意力特征类似，具体可参考上述第一词向量和第一自注意力特征的的生成过程。通过自注意力处理得到的第二自注意力特征，其能够反映当前输入文本中的各个词相互之间的影响。

对于解码器205的第一步，将第一编码器203和第二编码器204最后一步分别生成的第一隐状态和第二隐状态输入解码器205，由于此时解码器205没有前一步的生成，则同时将一开始符输入解码器205，解码器205能够根据第一编码器203和第二编码器204最后一步分别生成的第一隐状态和第二隐状态以及开始符，生成对应于第一个输出词的第三隐状态。对于第一步之后的每一步，解码器205能够根据前一步生成的第三隐状态以及前一步生成的输出词，生成当前步的第三隐状态。

具体的，对于当前步的输出词，解码器205均会获取当前步以及之前每一步生成的第三隐状态，并基于自注意力机制对当前步的第三隐状态进行自注意力处理。其中，将当前步的第三隐状态与其自身和当前步之前的每一步生成的第三隐状态分别进行点积计算，得到各个第三隐状态一一对应的若干点积值，将该若干点积值经过Softmax归一化后，分别作为各个第三隐状态的权重并进行加权求和，即得到当前步的第三自注意力特征。其中，第三隐状态用于表示当前步的输出词以及之前所有步的输出词的综合语义，如图2中的H ^R所示，其中，带有斜纹的图示对象代表当前步的第三自注意力特征。第三隐状态为一向量，其维度等于解码器205的隐藏层包括的神经元的数量，而其各维度的取值为各神经元的激活函数的输出值。通过自注意力处理得到的第三自注意力特征，其能够反映已经输出的输出词和当前输出词相互之间的影响。

本实施例中，解码器205生成的第三自注意力特征还并不直接决定当前步最终要输出的输出词，还需要通过指代消解文本生成模型进行进一步的处理。参考图2，本实施例的指代消解文本生成模型还包括：第一指针网络206、第二指针网络207和感知器208。对于解码器205当前步生成的第三自注意力特征，还进行以下处理：

将第一自注意力特征和第三自注意力特征输入第一指针网络206，以使第一指针网络206根据第一自注意力特征和第三自注意力特征，生成当前步的输出词对应为历史对话文本中的各个词的第一输出概率分布。具体的，指针网络的特点为其输出为输入中的一个，而其能够生成输出对应为输入每一个的概率大小，即概率分布。本实施例中，第一指针网络206对于第一自注意力特征和第三自注意力特征的处理为：将解码器205当前步生成的第三自注意力特征分别与历史对话文本中的各个词的第一自注意力特征进行点积计算，然后通过Softmax函数进行归一化（使第一输出概率分布中各个概率值的和为1），从而得到当前步的输出词对应为历史对话文本中的各个词的第一输出概率分布，如图2中的p ^history所示；其中，柱状对象的高度越高表示其值越大。对于历史对话文本中任意一个词，其对应的第一自注意力特征与解码器205当前步生成的第三自注意力特征的点积值，即为当前步生成的输出词为该词的概率值。

将第二自注意力特征和第三自注意力特征输入第二指针网络207，以使第二指针网络207根据第二自注意力特征和第三自注意力特征，生成当前步的输出词对应为当前输入文本中的各个词的第二输出概率分布，如图2中的p ^input所示；其中，柱状对象的高度越高表示其值越大。第二输出概率分布的生成过程与第一输出概率分布类似，可以具体参考前述第一输出概率分布的生成过程。

将第一输出概率分布、第一自注意力特征、第二输出概率分布和第二自注意力特征输入感知器208，由感知器208执行一个二分类过程，目的在于预测当前步生成的输出词是来自于历史对话文本还是当前输入文本。具体的，感知器208可以选择单隐藏层人工神经网络或多隐藏层人工神经网络，其以基于第一输出概率分布、第一自注意力特征、第二输出概率分布和第二自注意力特征构建的上下文特征为输入，以当前步生成的输出词分别来自于历史对话文本、当前输入文本的概率为输出。

本实施例中，上下文特征的构建方式为：以第一输出概率分布为权重，对第一自注意力特征进行加权求和；具体的，第一输出概率分布包括的各个概率值与第一自注意力特征均与当前输入文本中的各个词是一一对应的，故第一输出概率分布包括的各个概率值与第一自注意力特征之间也为一一对应的；对于每个第一自注意力特征均乘以其对应的第一输出概率分布中的概率值，然后求和即得到一向量。类似于前述的第一输出概率分布和第一自注意力特征，以第二输出概率分布为权重，对第二自注意力特征进行加权求和，同样可得到一向量；将上述得到的两个向量相加，以得到上下文特征，如图2中的C所示。

感知器208根据输入的上下文特征进行预测，经过Softmax函数进行归一化后生成第一输出权值和第二输出权值，参考图2中的q ^history和q ^input。其中，第一输出权值表示当前步的输出词来自于历史对话文本的概率，第二输出权值表示当前步的输出词来自于当前输入文本的概率。

将第一输出权值、第一输出概率分布、第二输出权值和第二输出概率分布输入输出层209，输出层209根据第一输出权值、第一输出概率分布、第二输出权值和第二输出概率，计算加权输出概率分布。具体的，将第一输出权值与第一输出概率分布相乘，即第一输出概率分布包括的各个概率均乘以第一输出权值。将第二输出权值与第二输出概率分布相乘，即第二输出概率分布包括的各个概率均乘以第二输出权值。上述两组相乘之后得到的若干概率，即为加权输出概率分布，参考图2中p ^final所示，其中，柱状对象的高度越高表示其值越大，也即对应的词被作为输出词输出的概率更高。

该加权输出概率分布，即表示当前步生成的输出词对应为历史对话文本中各个字，以及对应为前输入文本中的各个字的概率；也即，当前步生成的输出词对应于历史对话文本中各个字以及对应为前输入文本中的各个字，均有一加权输出概率。

最后，将加权输出概率分布中的加权输出概率值最大的对应的词作为当前步输出的输出词。

参考图2所示，作为一个示例，用户的历史对话文本（包括若干历史上用户与机器进行人机交互对话，人机交互对话的内容可以涉及额度的询问、说明等）和当前输入文本（“怎么提升它”）输入指代消解文本生成模型，指代消解文本生成模型将逐步输出输出词，以得到指代消解文本（“怎么提升额度”）。

可见，本实施例的指代消解文本的生成方法，基于端到端的模式设计构建指代消解文本生成模型来生成指代消解文本，有效的解决了现有技术中的误差传播问题。其中，指代消解文本生成模型采用的自注意力机制机制，充分考虑了本文内部各个词之间的相互影响；同时，采用指针网络使得输出词均来自于输入的用户的历史对话文本或当前输入文本，有效的实现对当前输入文本的指代消解；此外，在最终输出输出词时，还考虑了用户的历史对话文本和该用户的当前输入文本对输出词的综合影响，进一步提升了指代消解的效果。

需要说明的是，为保证图2的简洁，本实施例中的第一自注意力特征、第二自注意力特征、第三自注意力特征、第一输出概率分布、第二输出概率分布以及加权输出概率分布等技术特征在图2中的附图标记均仅指向了一个图示对象，而上述技术特征均有多个，其具体数量应与相应文本包括的词的数量相同。也即，图2中处于指代消解文本生成模型的同一组成部分内的相同图示对象均表示相应的技术特征。

需要说明的是，本说明书一个或多个实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本说明书一个或多个实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于同一发明构思，本说明书一个或多个实施例还提供了一种指代消解文本的生成装置。参考图3，所述指代消解文本的生成装置包括：

获取模块301，被配置为获取用户的历史对话文本和所述用户的当前输入文本；

指代消解模块302，被配置为将所述历史对话文本和所述当前输入文本输入预先训练的指代消解文本生成模型，以使所述指代消解文本生成模型生成对应于所述当前输入文本的指代消解文本；所述指代消解文本包括由所述指代消解文本生成模型逐步输出的若干输出词；

作为一个可选的实施例，所述指代消解文本生成模型还包括第一输入层；

所述指代消解模块，具体被配置为将所述历史对话文本输入所述第一输入层，以使所述第一输入层生成所述历史对话文本中的各个词的第一词向量；将所述第一词向量输入所述第一编码器，以使所述第一编码器为所述历史对话文本中的各个词生成第一隐状态，并基于自注意力机制，根据所述第一隐状态为所述历史对话文本中的各个词生成所述第一自注意力特征。

作为一个可选的实施例，所述指代消解文本生成模型还包括第二输入层；

所述指代消解模块，具体被配置为将所述当前输入文本输入所述第二输入层，以使所述第二输入层生成所述当前输入文本中的各个词的第二词向量；将所述第二词向量输入所述第二编码器，以使所述第二编码器为所述当前输入文本中的各个词生成第二隐状态，并基于自注意力机制，根据所述第二隐状态为所述当前输入文本中的各个词生成所述第二自注意力特征。

作为一个可选的实施例，所述指代消解模块，具体被配置为使所述解码器获取当前步以及之前每一步生成的第三隐状态，并基于自注意力机制，根据所述第三隐状态生成当前步的所述第三自注意力特征。

作为一个可选的实施例，所述指代消解文本生成模型还包括第一指针网络和第二指针网络；

所述指代消解模块，具体被配置为将所述第一自注意力特征和所述第三自注意力特征输入所述第一指针网络，以使所述第一指针网络根据所述第一自注意力特征和所述第三自注意力特征，生成当前步的输出词对应为所述历史对话文本中的各个词的第一输出概率分布；将所述第二自注意力特征和所述第三自注意力特征输入所述第二指针网络，以使所述第二指针网络根据所述第二自注意力特征和所述第三自注意力特征，生成当前步的输出词对应为所述当前输入文本中的各个词的第二输出概率分布。

作为一个可选的实施例，所述指代消解文本生成模型还包括感知器和输出层；

所述指代消解模块，具体被配置为将所述第一输出概率分布、所述第一自注意力特征、所述第二输出概率分布和所述第二自注意力特征输入所述感知器，以使所述感知器生成当前步的上下文特征，并根据所述上下文特征和所述第三自注意力特征预测生成当前步的第一输出权值和第二输出权值；其中，所述第一输出权值表示当前步的输出词来自于所述历史对话文本的概率，所述第二输出权值表示当前步的输出词来自于所述当前输入文本的概率；将所述第一输出权值、所述第一输出概率分布、所述第二输出权值和所述第二输出概率分布输入所述输出层，以使所述输出层生成当前步的输出词对应为所述历史对话文本和所述当前输入文本中的各个字的加权输出概率分布，并将所述加权输出概率分布中的最大值对应的词作为当前步输出的输出词。

作为一个可选的实施例，所述将所述第一输出概率分布、所述第一自注意力特征、所述第二输出概率分布和所述第二自注意力特征输入所述感知器，以使所述感知器生成当前步的上下文特征，具体包括：

使所述感知器以所述第一输出概率分布为权重，对所述第一自注意力特征进行加权求和；以所述第二输出概率分布为权重，对所述第二自注意力特征进行加权求和；将上述两加权求和的结果相加，以得到所述上下文特征。

作为一个可选的实施例，所述将所述第一输出权值、所述第二输出权值、第一输出概率分布和第二输出概率分布输入所述输出层，以使所述输出层生成当前步的输出词对应为所述历史对话文本和所述当前输入文本中的各个字的加权输出概率分布，具体包括：

将所述第一输出权值与所述第一输出概率分布相乘，将所述第二输出权值与所述第二输出概率分布相乘，以得到所述加权输出概率分布。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述实施例中相应的方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，本说明书一个或多个实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上任意一实施例所述的指代消解文本的生成方法。

图4示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线 1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU（Central Processing Unit，中央处理器）、微处理器、应用专用集成电路（Application Specific Integrated Circuit，ASIC）、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM（Read Only Memory，只读存储器）、RAM（Random AccessMemory，随机存取存储器）、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中（图中未示出），也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块（图中未示出），以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式（例如USB、网线等）实现通信，也可以通过无线方式（例如移动网络、WIFI、蓝牙等）实现通信。

总线1050包括一通路，在设备的各个组件（例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040）之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围（包括权利要求）被限于这些例子；在本公开的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本说明书一个或多个实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

本说明书一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种指代消解文本的生成方法，包括：

获取用户的历史对话文本和所述用户的当前输入文本；

2.根据权利要求1所述的方法，所述指代消解文本生成模型还包括第一输入层；

所述将所述历史对话文本和所述当前输入文本输入预先训练的指代消解文本生成模型，以使所述指代消解文本生成模型生成对应于所述当前输入文本的指代消解文本，具体包括：

将所述历史对话文本输入所述第一输入层，以使所述第一输入层生成所述历史对话文本中的各个词的第一词向量；

将所述第一词向量输入所述第一编码器，以使所述第一编码器为所述历史对话文本中的各个词生成第一隐状态，并基于自注意力机制，根据所述第一隐状态为所述历史对话文本中的各个词生成所述第一自注意力特征。

3.根据权利要求2所述的方法，所述指代消解文本生成模型还包括第二输入层；

将所述当前输入文本输入所述第二输入层，以使所述第二输入层生成所述当前输入文本中的各个词的第二词向量；

将所述第二词向量输入所述第二编码器，以使所述第二编码器为所述当前输入文本中的各个词生成第二隐状态，并基于自注意力机制，根据所述第二隐状态为所述当前输入文本中的各个词生成所述第二自注意力特征。

4.根据权利要求3所述的方法，所述将所述历史对话文本和所述当前输入文本输入预先训练的指代消解文本生成模型，以使所述指代消解文本生成模型生成对应于所述当前输入文本的指代消解文本，具体包括：

使所述解码器获取当前步以及之前每一步生成的第三隐状态，并基于自注意力机制，根据所述第三隐状态生成当前步的所述第三自注意力特征。

5.根据权利要求4所述的方法，所述指代消解文本生成模型还包括第一指针网络和第二指针网络；

将所述第一自注意力特征和所述第三自注意力特征输入所述第一指针网络，以使所述第一指针网络根据所述第一自注意力特征和所述第三自注意力特征，生成当前步的输出词对应为所述历史对话文本中的各个词的第一输出概率分布；

将所述第二自注意力特征和所述第三自注意力特征输入所述第二指针网络，以使所述第二指针网络根据所述第二自注意力特征和所述第三自注意力特征，生成当前步的输出词对应为所述当前输入文本中的各个词的第二输出概率分布。

6.根据权利要求5所述的方法，所述指代消解文本生成模型还包括感知器和输出层；

将所述第一输出概率分布、所述第一自注意力特征、所述第二输出概率分布和所述第二自注意力特征输入所述感知器，以使所述感知器生成当前步的上下文特征，并根据所述上下文特征和所述第三自注意力特征预测生成当前步的第一输出权值和第二输出权值；其中，所述第一输出权值表示当前步的输出词来自于所述历史对话文本的概率，所述第二输出权值表示当前步的输出词来自于所述当前输入文本的概率；

将所述第一输出权值、所述第一输出概率分布、所述第二输出权值和所述第二输出概率分布输入所述输出层，以使所述输出层生成当前步的输出词对应为所述历史对话文本和所述当前输入文本中的各个字的加权输出概率分布，并将所述加权输出概率分布中的最大值对应的词作为当前步输出的输出词。

7.根据权利要求6所述的方法，所述将所述第一输出概率分布、所述第一自注意力特征、所述第二输出概率分布和所述第二自注意力特征输入所述感知器，以使所述感知器生成当前步的上下文特征，具体包括：

8.根据权利要求6所述的方法，所述将所述第一输出权值、所述第二输出权值、第一输出概率分布和第二输出概率分布输入所述输出层，以使所述输出层生成当前步的输出词对应为所述历史对话文本和所述当前输入文本中的各个字的加权输出概率分布，具体包括：

9.一种指代消解文本的生成装置，包括：

10.根据权利要求9所述的装置，所述指代消解文本生成模型还包括第一输入层；

11.根据权利要求10所述的装置，所述指代消解文本生成模型还包括第二输入层；

12.根据权利要求11所述的装置，所述指代消解模块，具体被配置为使所述解码器获取当前步以及之前每一步生成的第三隐状态，并基于自注意力机制，根据所述第三隐状态生成当前步的所述第三自注意力特征。

13.根据权利要求12所述的装置，所述指代消解文本生成模型还包括第一指针网络和第二指针网络；

14.根据权利要求13所述的装置，所述指代消解文本生成模型还包括感知器和输出层；

15.根据权利要求14所述的装置，所述将所述第一输出概率分布、所述第一自注意力特征、所述第二输出概率分布和所述第二自注意力特征输入所述感知器，以使所述感知器生成当前步的上下文特征，具体包括：

以所述第一输出概率分布为权重，对所述第一自注意力特征进行加权求和；以所述第二输出概率分布为权重，对所述第二自注意力特征进行加权求和；将上述两加权求和的结果相加，以得到所述上下文特征。

16.根据权利要求14所述的装置，所述将所述第一输出权值、所述第二输出权值、第一输出概率分布和第二输出概率分布输入所述输出层，以使所述输出层生成当前步的输出词对应为所述历史对话文本和所述当前输入文本中的各个字的加权输出概率分布，具体包括：

17.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1至8任意一项所述的方法。