CN112541325A

CN112541325A - 文本处理装置、方法、设备以及计算机可读存储介质

Info

Publication number: CN112541325A
Application number: CN201910894221.0A
Authority: CN
Inventors: 刘天赏; 郭垿宏; 郭心语; 李安新; 陈岚; 池田大志; 藤本拓
Original assignee: NTT Korea Co Ltd
Current assignee: NTT Docomo Inc; NTT Korea Co Ltd
Priority date: 2019-09-20
Filing date: 2019-09-20
Publication date: 2021-03-23
Also published as: JP2021051710A

Abstract

本申请涉及一种文本处理装置、方法、设备以及计算机可读存储介质。所述文本处理装置包括：编码单元，配置成对所述源文本进行编码以得到源文本编码隐藏状态；解码单元，配置成确定解码隐藏状态；注意力生成单元，配置成根据外部信息、所述源文本编码隐藏状态和所述解码隐藏状态确定当前时间步的注意力分布；输出单元，配置成根据所述注意力分布、所述源文本编码隐藏状态、所述解码隐藏状态确定输出词语概率分布，以确定输出词语。

Description

文本处理装置、方法、设备以及计算机可读存储介质

技术领域

本公开涉及文本处理领域，并且具体涉及一种文本处理装置、方法、设备以及计算机可读存储介质。

背景技术

在现有的文本处理，例如文本转换、文本生成等过程中，可以通过对输入的源文本进行处理以得到最终的文本处理结果。

在一些情况下，为了得到更理想的结果，用户可以为文本处理过程指定一些外部信息，这样的外部信息可以是用户指定的文本中的重要的信息，也可以是与源文本相关联的其他文本的信息。为了使得这样的外部信息更可能出现在文本处理结果中，需要一种在文本处理过程中充分考虑外部信息的文本处理方法。

发明内容

为了在文本处理过程中充分考虑外部信息，本公开提供了一种文本处理方法、装置、设备以及计算机可读存储介质。

根据本公开的一个方面，提供了一种文本处理装置，包括：编码单元，配置成对所述源文本进行编码以得到源文本编码隐藏状态；解码单元，配置成确定解码隐藏状态；注意力生成单元，配置成根据所述外部信息、所述源文本编码隐藏状态和所述解码隐藏状态确定当前时间步的注意力分布；输出单元，配置成根据所述注意力分布、所述源文本编码隐藏状态、所述解码隐藏状态确定输出词语概率分布，以确定输出词语。

在一些实施例中，所述注意力生成单元配置成：根据所述源文本编码隐藏状态和所述解码隐藏状态确定所述源文本的编码注意力分布；根据外部信息确定针对所述源文本的选择概率分布，所述选择概率分布包括用于所述源文本中每个词语的选择概率；以及针对所述源文本中的每个词语，根据该词语的选择概率确定该词语的注意力以得到所述注意力分布。

在一些实施例中，根据外部信息确定所述源文本的选择概率包括：针对所述源文本中属于所述外部信息的至少一个词语，将该至少一个词语的选择概率至少确定为预定义的概率值。

在一些实施例中，针对所述源文本中的每个词语，根据该词语的选择概率确定该词语的注意力包括：当该词语的选择概率低于预设的选择概率阈值时，将所述当前时间步的注意力分布中用于该词语的注意力确定为零；以及当该词语的选择概率大于等于预设的选择概率阈值时，将当前时间步的注意力分布中用于该词语的注意力确定为源文本的编码注意力分布中该词语的注意力。

在一些实施例中，所述注意力分布包括外部信息的编码注意力分布和源文本的编码注意力分布，所述编码单元还配置成对所述外部信息进行编码以得到外部信息编码隐藏状态，，所述注意力生成单元配置成：根据所述外部信息编码隐藏状态和所述解码隐藏状态确定外部信息的编码注意力分布，根据所述源文本编码隐藏状态和所述解码隐藏状态确定源文本的编码注意力分布；以及所述输出单元配置成根据所述源文本编码隐藏状态、所述解码隐藏状态、所述外部信息的编码注意力分布和所述源文本的编码注意力分布确定所述输出词语概率分布。

在一些实施例中，所述输出单元配置成：根据所述源文本编码隐藏状态和所述解码隐藏状态确定生成概率分布；根据所述外部信息注意力分布确定用于所述生成概率分布、所述编码注意力分布和所述外部信息注意力分布的权重；基于所述权重对所述生成概率分布、所述编码注意力分布和所述外部信息注意力分布进行加和以确定所述输出词语概率分布。

在一些实施例中，所述编码单元、所述注意力生成单元、所述解码单元是通过以下步骤训练的：对训练源文本进行编码以得到训练源文本编码隐藏状态；确定训练解码隐藏状态；根据所述外部信息、所述训练源文本编码隐藏状态和所述训练解码隐藏状态确定当前时间步的训练注意力分布；根据所述训练注意力分布、所述训练源文本编码隐藏状态、所述训练解码隐藏状态确定训练输出词语概率分布，以确定训练输出词语；以及调整所述编码单元、所述注意力生成单元、所述解码单元中的参数以使得训练输出词语和外部信息中包含的词语之间的差异最小。

根据本公开的另一方面，还提供了一种文本处理方法，包括：对所述源文本进行编码以得到源文本编码隐藏状态；确定解码隐藏状态；根据所述外部信息、所述源文本编码隐藏状态和所述解码隐藏状态确定当前时间步的注意力分布；根据所述注意力分布、所述源文本编码隐藏状态、所述解码隐藏状态确定输出词语概率分布，以确定输出词语。

在一些实施例中，根据所述外部信息、所述源文本编码隐藏状态和所述解码隐藏状态确定当前时间步的注意力分布包括：根据所述源文本编码隐藏状态和所述解码隐藏状态确定所述源文本的编码注意力分布；根据外部信息确定针对所述源文本的选择概率分布，所述选择概率分布包括用于所述源文本中每个词语的选择概率；以及针对所述源文本中的每个词语，根据该词语的选择概率确定该词语的注意力以得到所述注意力分布。

在一些实施例中，所述注意力分布包括外部信息的编码注意力分布和源文本的编码注意力分布，所述编码还包括对所述外部信息进行编码以得到外部信息编码隐藏状态，，根据所述外部信息、所述源文本编码隐藏状态和所述解码隐藏状态确定当前时间步的注意力分布包括：根据所述外部信息编码隐藏状态和所述解码隐藏状态确定外部信息的编码注意力分布，根据所述源文本编码隐藏状态和所述解码隐藏状态确定源文本的编码注意力分布；以及所述输出单元配置成根据所述源文本编码隐藏状态、所述解码隐藏状态、所述外部信息的编码注意力分布和所述源文本的编码注意力分布确定所述输出词语概率分布。

在一些实施例中，根据所述注意力分布、所述源文本编码隐藏状态、所述解码隐藏状态确定输出词语概率分布，以确定输出词语包括：根据所述源文本编码隐藏状态和所述解码隐藏状态确定生成概率分布；根据所述外部信息注意力分布确定用于所述生成概率分布、所述编码注意力分布和所述外部信息注意力分布的权重；基于所述权重对所述生成概率分布、所述编码注意力分布和所述外部信息注意力分布进行加和以确定所述输出词语概率分布。

根据本公开的又一个方面，提供了一种文本处理设备，包括：处理器；以及存储器，其中存储计算机可读程序指令，其中，在所述计算机可读程序指令被所述处理器运行时执行如前所述的文本处理方法。

根据本公开的再一个方面，提供了一种计算机可读存储介质，其上存储计算机可读指令，当所述计算机可读指令由计算机执行时，所述计算机执行如前所述的文本处理方法。

利用本公开提供的文本处理方法、装置、设备以及计算机可读存储介质，在文本的生成过程中，通过利用外部信息确定当前时间步的注意力分布和/或根据外部信息确定当前时间步的输出词语，能够有效地在文本处理的过程中考虑外部信息的内容，并在文本生成的过程中提高生成外部信息的概率，从而改善在考虑外部信息的情况下生成文本的效果。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出了根据本公开的文本处理装置的示意性的框图；

图2A和图2B示出了根据本申请的实施例的根据输出概率分部确定候选输出词语的示意性的实施例；

图3A示出了根据本公开的实施例的注意力生成单元的示意性的框图；

图3B示出了根据本申请的实施例的注意力生成单元确定当前时间步的注意力分布的示意性的过程；

图4示出了根据本申请实施例的注意力生成单元的另一种示意性的框图；

图5示出了根据本申请的时候实施例的文本处理装置的另一种示意性的实施例；

图6示出了根据本申请的文本处理方法的示意性的流程图；

图7示出了根据本申请的实施例的根据外部信息确定当前时间步的注意力分布的示意性的流程图；

图8示出了根据本申请的实施例的根据外部信息确定当前时间步的注意力分布的另一示意性的流程图；

图9示出了根据本申请的实施例的另一种文本处理方法的示意性的流程图；

图10示出了根据本申请的实施例的又一种文本处理方法的示意性的流程图；以及

图11是根据本公开实施例的计算设备的示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本公开一部分的实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另作定义，此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本申请中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

下文中将以生成文本摘要为例描述本公开的原理。然而，本领域技术人员可以理解的是，在不脱离本公开原理的情况下，本公开提供的方法也可以用于其他文本处理过程，例如文本转换过程、机器翻译过程等等。

图1示出了根据本公开的文本处理装置的示意性的框图。如图1所示，文本处理装置100可以包括编码单元110、解码单元120、注意力生成单元130以及输出单元140。文本处理装置100可以用于对源文本I进行文本处理以生成相应的文本处理结果。例如，可以利用文本处理装置100生成用于源文本I的摘要。其中，源文本I可以包括至少一个句子，其中每个句子至少包括一个词语。

本公开提供的文本处理装置100可以用于接收外部信息，并根据外部信息执行针对源文本的文本处理过程。在一些实施例中，外部信息指的是预定义的期望作为源文本的处理结果的文本信息。在一些示例中，外部信息可以是源文本中的至少一个词语或句子。在另一些示例中，外部信息可以是源文本中预定位置的词语或句子，例如源文本的第一句、最后一句、或任意其他指定位置处的文本信息。在又一些示例中，外部信息可以是与源文本相关联的附加文本。例如源文本的标题。在一种实现方式中，外部信息可以是根据用户输入确定的附加文本。本申请在此不对外部信息的确定方式加以限制。事实上，可以使用任何可能的方式确定文本处理过程中要使用的外部信息。

当利用文本处理装置100对源文本进行处理时，可以通过在文本处理的各个阶段考虑外部信息来增加外部信息在文本处理结果中出现的概率。例如，当源文本中的文章标题被确定为外部信息时，利用本申请提供的文本处理装置100输出的源文本的摘要中将很可能或一定会出现文章标题中的词语和/或句子。

在利用计算机执行文本处理方法时，由于计算机往往无法直接处理文本数据，因此在对源文本和/或外部信息进行处理时，需要先将源文本转换为数值型数据。

在一些实施例中，源文本I被实现为自然语言的形式。在这种情况下，文本处理装置100还可以包括预处理单元(未示出)。预处理单元可以用于在源文本被输入编码单元前将源文本转换为数值型数据。例如，可以通过对源文本I中的每个句子执行分词处理以将每个句子分割为多个单词。然后，可以通过例如词嵌入(word embedding)的方式将分词处理得到的多个单词分别转换为特定维度的词向量。

类似地，也可以对外部信息进行转换以得到对应于外部信息的至少一个词向量，以用于后续的文本处理。

在一些实施例中，本公开涉及的源文本I也可以实现为数值型数据的形式，例如，可以用利用至少一个词向量表示源文本I。在这种情况下，可以直接利用编码单元110对源文本I进行处理。可以利用独立于文本处理装置100设置的预处理装置对自然语言进行预处理。

在下文中不再区分外部信息和源文本是自然语言的形式或数值型数据的形式，当需要使用计算机对自然语言形式的外部信息和/或源文本进行处理时，本领域技术人员可以根据需要将自然语言形式的外部信息和/或源文本转换为数值型数据。

编码单元110可以配置成对待处理的源文本I进行编码以得到源文本编码隐藏状态h。

在一些实施例中，编码单元110可以实现为编码网络。示例性的编码网络包括长短期记忆(LSTM)网络，基于LSTM网络的系统可以应用于诸如机器翻译、生成文本摘要等任务。可以理解的是，编码网络也可以被实现为能够对词向量进行编码的任何机器学习模型。

例如，将对应于源文本I的至少一个词向量作为输入，编码单元可以输出与各词向量x₁、x₂、x₃…分别对应的源文本编码隐藏状态h₁、h₂、h₃…。源文本编码隐藏状态的数量和源文本的词向量的数量可以是相同的，也可以是不同的。例如，当根据源文本I生成k个词向量时，编码单元可以对这k个词向量进行处理以生成k个对应的源文本编码隐藏状态。k是大于一的整数。

解码单元120可以用于确定解码隐藏状态s。在一些实施例中，解码单元120可以用于接收上一时间步t-1的解码隐藏状态s_t-1以及上一时间步文本处理装置得到的输出词语x_t，并对s_t-1和x_t进行处理以得到当前时间步的解码隐藏状态s_t。在第一个时间步的处理中s₀和x₁可以被确定为默认的初始值。其中解码隐藏状态s也可以包含对应于源文本I的多个解码隐藏状态s₁、s₂、s₃…。

在一些实施例中，解码单元120可以实现为解码网络。示例性的解码网络包括长短期记忆网络。可以理解的是，解码网络也可以被实现为能够对编码网络的输出进行解码的任何机器学习模型。

在一些实施例中，可以将所述编码网络和解码网络表示为序列-序列模型(Sequence to Sequence,Seq2Seq)，其用于实现将一个输入序列，诸如“WXYZ”(例如，作为输入文本)转换成另一输出序列，诸如“AXY”(诸如，作为文本摘要)。

注意力生成单元130可以配置成根据所述源文本编码隐藏状态h和所述解码隐藏状态s确定注意力分布A，并可以输出注意力分布A用于当前时间步的后续的文本处理过程。

在一些实施例中，当前时间步t的注意力分布A^t可以是源文本的编码注意力分布。

在一些实现方式中，在每一时间步(time step)t，可以利用当前时间步的源文本编码隐藏状态h_t和解码隐藏状态s_t确定当前时间步的源文本的编码注意力分布a^t。例如，可以利用公式(1)、(2)确定源文本的编码注意力分布a^t。

a^t＝softmax(e^t) (1)

其中t表示当前时间步，softmax指的是归一化指数函数，e^t可以利用公式(2)确定为：

其中，i是词向量的索引序号，h_i是对应于第i个词向量的源文本编码隐藏状态，v^T、W_h、W_S、b_attn是要训练的学习参数，h是当前时间步的源文本编码隐藏状态，s_t是当前时间步的解码隐藏状态。

在另一些实施例中，注意力生成单元130可以根据外部信息以及根据公式(1)确定的源文本的注意力分布a^t确定包含外部信息的当前时间步的注意力分布A^t，并输出包含外部信息的注意力分布A^t用于后续单元的处理过程。

在一些实现方式中，包含外部信息的当前时间步的注意力分布A^t可以是利用外部信息对源文本的注意力分布a^t进行调整后确定的。

在另一些实现方式中，包含外部信息的当前时间步的注意力分布A^t也可以包括源文本的注意力分布a^t和外部信息的注意力分布a’^t两者。

下文中将参考图3A、图3B和图4描述包含外部信息的注意力分布A^t的确定过程，在此不再加以赘述。

输出单元140可以配置成根据所述注意力分布A、所述源文本编码隐藏状态h、所述解码隐藏状态s确定输出词语概率分布，以确定当前时间步的输出词语O。

输出词语概率分布可以包括生成概率分布P_vocab。可以利用公式(3)和公式(4)确定生成概率分布P_vocab。

其中V’、V、b、b’是输出单元中待训练的学习参数，h_t ^*是根据注意力分布a^t确定的上下文向量。例如，可以利用公式(4)确定h_t ^*：

其中

是注意力生成单元输出的注意力分布A^t中的第i个元素，h_i是第i个词向量的源文本编码隐藏状态。

在一些实施例中，输出词语概率分布还可以包括注意力生成单元130输出的注意力分布A^t。

例如，可以通过对所述生成概率分布和所述注意力分布A进行加权求和可以确定输出词语概率分布。

在一些实现方式中，可以根据当前时间步的源文本编码隐藏状态、解码隐藏状态、注意力分布以及当前时间步解码单元的输入x_t确定用于生成概率分布和注意力分布的权重P_gen。

例如，用于对所述生成概率分布和所述注意力分布进行加权和的权重P_gen可以表示为公式(5)：

其中σ表示激活函数，例如sigmoid函数，w_h ^T、w_s ^T、w_x ^T和b_ptr是训练参数，h_t ^*是在时间步t通过公式(4)确定的参数，s_t是在时间步t的解码隐藏状态，x_t是在时间步t解码单元的输入，也就是在上一时间步t-1输出单元的输出。公式(5)中确定的权重P_gen可以实现为标量的形式。通过利用权重P_gen对生成概率分布P_vocab和注意力分布A^t进行加权平均可以得到输出词语概率分布。

在注意力分布A^t包括源文本的注意力分布a^t和外部信息的注意力分布a’^t两者的情况下，源文本的注意力分布a^t和外部信息的注意力分布a’^t的权重参数可以是相同的，也可以是不同的，下文中将结合图4描述分别确定生成概率分布P_vocab、源文本的注意力分布a^t和外部信息的注意力分布a’^t的权重参数的方法，在此不再加以赘述。

在一些实施例中，输出单元140可以将输出词语概率分布中概率最高的词语确定为当前时间步的输出词语。

在另一些实施例中，输出单元140还可以根据外部信息确定和输出词语概率分布确定当前时间步的输出词语。

在一些实现方式中，输出单元140可以用于根据所述外部信息，将所述候选输出词语中概率大于等于输出概率阈值并且属于所述外部信息的词语确定为当前时间步的候选输出词语。在一些示例中，输出单元140可以利用集束搜索的原则确定所述候选输出词语。

例如，输出单元140在每个时间步可以确定至少两个词语作为当前时间步的候选输出词语，然后，可以将候选输出词语用于下一时间步的文本处理过程。类似地，在下一时间步，输出单元140也可以确定至少两个候选输出词语。

具体地，以候选输出词语的数量是2为例，在时间步t可以输出两个候选输出词语a、b。然后，将候选输出词语a、b用于下一时间步的文本处理过程，可以确定时间步t+1的候选输出词语c、d。

图2A和图2B示出了根据本申请的实施例的根据输出概率分部确定候选输出词语的示意性的实施例。

在一些实施例中，在确定每个时间步的候选输出词语时，可以将输出概率分布中输出概率最高的预定数量的M个(在上述示例中，M等于2)的词语确定为候选输出词语。其中M是大于等于2的整数。

在图2A示出的输出词语概率分布中输出概率最高的两个词语是w3和w11，因此，可以将w3和w11确定为候选输出词语。

另一些实施例中，在确定每个时间步的候选输出词语时，可以根据预定义的方式确定在输出概率分布中选择输出概率最高的N个词语，并从这N个词语中确定M个词语作为候选输出词语。其中N是大于M的整数。在一些实现方式中，可以预先指定N的数值。

在另一些实现方式中，可以预先确定输出概率阈值，并从输出概率大于所述输出概率阈值的N个词语中确定M个词语作为候选输出词语。

如果在输出概率最高的N个词语中不存在属于外部信息的词语，那么可以将这N个词语中输出概率最高的M个词语确定为候选输出词语。

如果在输出概率最高的N个词语中存在属于外部信息的词语，那么如果这N个词语中存在的属于外部信息的词语数量n大于等于M，则可以将这N个词语中输出概率最高并且属于外部信息的M个词语确定为候选输出词语。如果这N个词语中存在的属于外部信息的词语数量n小于预定数量M，则可以将这N个词语中属于外部信息的词语和剩余的N-n个词语中输出概率最高的M-n个词语确定为候选输出词语。

如图2B所示，输出词语概率分布中最高的两个词语是w3和w11，而输出概率大于预设的输出概率阈值的词语包括w3、w7和w11，并且w2和w7属于外部信息。

在这种情况下，由于w7属于外部信息并且w7的输出概率大于输出概率阈值，因此可以选择w7和w11作为候选输出词语，而不选择输出概率更高的w3。

通过这样的方式可以增加外部信息中的词语被确定为输出词语的概率。

利用时间步t输出的候选输出词语a、b和时间步t+1的候选输出词语c、d可以确定至少四个候选输出序列ac、ad、bc、bd，可以通过联合概率的方式确定每个候选输出序列的输出概率，并将四个候选输出序列ac、ad、bc、bd中输出概率最高的两个作为时间步t+1后的候选文本。

例如，候选输出词语a、b、c、d的输出概率可以分别表示为P_a、P_b、P_c和P_d。那么候选输出序列ac、ad、bc、bd可以分别表示为P_ac＝P_a*P_c、P_ad＝P_a*P_d、P_bc＝P_b*P_c、以及P_bd＝P_b*P_d。如果P_ac＞P_ad＞P_bc＞P_bd，那么时间步t+1将输出序列ac、ad用于后续的文本处理。

在一些实施例中，还可以根据外部信息定候选输出序列。例如，可以利用公式(6)确定候选输出序列的惩罚值。利用公式(6)确定的惩罚值可以对候选输出序列的联合输出概率进行调整。

s(x,y)＝logP(y_t|x)+sim(y_＜t,h) (6)

其中P(y_t|x)表示在时间步t输出词语x的概率，h标识外部信息，sim(y_＜t,h)表示在时间步t之前生成的候选文本序列与外部信息之间的相似度。

在一种实现方式中，可以利用任何可能的文本相似度算法确定时间步t之前生成的候选文本序列与外部信息之间的相似度。例如，可以使用余弦相似度的方法确定时间步t之前生成的候选文本序列和外部信息之间的相似度。

利用上述公式(6)，如果时间步t之前生成的候选文本序列与外部信息之间的相似度越高，那么惩罚值将用于调增候选输出序列的输出概率。在一些实现方式中，可以将惩罚值s(x,y)与候选输出序列中输出概率进行相乘或相加，从而实现根据确定时间步t之前生成的候选文本序列和外部信息之间的相似度确定候选输出序列的效果。

也就是说，通过根据外部信息确定用于上述候选输出序列的惩罚值，可以提高外部信息出现在候选文本序列中的概率。因而可以提高外部信息出现在最终输出的文本处理结果中的概率。

在另一种实现方式中，所述输出单元可以配置成确定外部信息和所述源文本编码隐藏状态之间的相似度，并且根据外部信息和所述源文本编码隐藏状态之间的相似度确定当前时间步要输出的词语。

例如，可以利用编码单元110对所述外部信息进行编码以得到外部信息编码隐藏状态。

输出单元140可以配置成确定所述外部信息编码隐藏状态和所述解码隐藏状态的相似度。当外部信息编码隐藏状态和所述解码隐藏状态的相似度大于等于预定义的相似度阈值时，所述输出单元输出所述外部信息作为当前时间步的输出。

在所述外部信息是词语的情况下，可以将所述外部信息作为当前时间步的词语进行输出。在所述外部信息是句子的情况下，可以直接将所述外部信息插入到在当前时间步t之前已经生成的文本序列之后。

可以理解的是，在当前时间步t之前已经生成的文本序列可以是基于前述输出概率分布中概率最高的词语生成的，也可以是根据输出概率分布中概率最高的几个候选词语生成的。可以采用前述实现方式中描述的过程确定候选词语，在此不再加以赘述。

当外部信息编码隐藏状态和所述解码隐藏状态的相似度小于预定义的相似度阈值时，所述输出单元可以根据解码单元和注意力生成单元输出的结果确定当前时间步的输出词语概率分布，并基于当前时间步的输出词语概率分布确定当前时间步的输出词语。

利用上述方法，当解码单元输出的结果和外部信息之间的相似度较高时，可以直接用外部信息代替解码单元输出的结果。也就是说，在这种情况下，当前时间步输出后确定的文本序列的结果是在上一时间步输出后确定的文本序列后插入外部信息得到的结果。

然后，在进行下一时间步的处理时，可以利用解码单元对外部信息进行编码以得到下一时间步的解码隐藏状态，从而使得后续的解码过程能够利用外部信息的结果，保证后续解码得到的结果和插入的外部信息之间的语义连贯性。

在外部信息是词语的情况下，可以利用上一时间步的解码隐藏状态和外部信息作为解码单元的输入进行处理，并得到当前时间步的解码隐藏状态。

在外部信息包括多个词语的情况下，可以利用解码单元进行多次循环处理。其中，第一个循环中解码单元的输入是上一时间步的解码隐藏状态和外部信息的第一个词语，之后的循环中解码单元的输入是上一个循环得到的解码隐藏状态和外部信息的下一个词语。通过多次循环可以对外部信息中的每个词语进行处理，以得到包含所有外部信息的解码隐藏状态作为当前时间步的解码隐藏状态。

在一些实现方式中，当已经将外部信息代替解码单元输出的结果插入文本处理结果中之后，不再执行上述外部信息编码隐藏状态和所述解码隐藏状态的相似度的比较。

在一些示例中，上述相似度阈值可以被实现为预设的关于时间步t的函数。

如前所述，当外部信息编码隐藏状态和所述解码隐藏状态的相似度小于预定义的相似度阈值时，不执行上述利用外部信息代替解码单元作为输出的操作，而是根据输出词语概率分布确定输出结果。在这种情况下，为了提高外部信息出现在最后的文本处理结果中的概率，可以调整所述当前时间步的相似度阈值以确定调整后的相似度阈值，其中所述调整后的相似度阈值小于所述当前时间步的相似度阈值，并且所述调整后的相似度阈值用作下一时间步的相似度阈值。

例如，可以利用公式(7)对相似度阈值进行调整：

ε_SIM,t+1＝ε_sIM,t*f(t) (7)

其中ε_SIM,t+1是用于时间步t+1的相似度阈值，ε_SIM,t是用于时间步t的相似度阈值，f(t)是关于时间t的单调递减函数。例如，f(t)可以被实现为公式(8)。

f(t)＝e^-t/k (8)

其中t是当前时间步，k是源文本的长度，e是自然对数。在一些替代的示例中，k也可以被表示为源文本长度的函数。例如，可以将k表示为β和源文本长度的乘积，其中β是大于零小于1的预定义的参数。

利用上述方法，通过在每一时间步对相似度阈值执行单调递减的调整，即使外部信息和解码单元的输出结果之间的相似度，在文本处理过程中相似度阈值也可以下降到一个很低的程度，从而使得外部信息和解码单元的输出结果之间的相似度大于当前时间步的相似度阈值的概率增加。也就是能够使得外部信息出现在最终的文本处理结果中的概率增加。

利用本申请提供的文本处理装置100，在文本摘要的生成过程中，通过利用外部信息确定当前时间步的注意力分布和/或根据外部信息确定当前时间步的输出词语，能够有效地在文本处理的过程中考虑外部信息的内容，并在文本生成的过程中提高生成外部信息的概率，从而改善在考虑外部信息的情况下生成文本的效果。

在实现本申请提供的文本处理装置100时，本领域技术人员可以对上述技术方案进行任意的组合。例如，在文本处理装置100对源文本进行文本处理的过程中，可以仅利用注意力生成单元根据外部信息生成包含外部信息的注意力分布用于后续的文本处理，并且在后续的文本处理过程中不再考虑外部信息。又例如，也可以仅利用输出单元根据外部信息确定当前时间步要输出的词语，在之前的编码、解码和注意力生成过程中都不考虑外部信息。再例如，也可以在注意力生成单元生成当前时间步的注意力分布以及输出单元确定当前时间步要输出的词语的过程中都考虑外部信息，以进一步提高在文本处理结果中包含外部信息的可能性。

图3A示出了根据本公开的实施例的注意力生成单元的示意性的框图。利用图3A中示出的注意力生成单元300，可以利用外部信息对源文本的注意力分布a^t进行调整并确定包含外部信息的注意力分布A’。

如图3A所示，注意力生成单元300可以包括源文本注意力确定单元310、内容选择单元320。

源文本注意力确定单元310可以用于根据所述源文本编码隐藏状态和所述解码隐藏状态确定所述源文本的编码注意力分布a^t。在一些实施例中，可以利用前述公式(1)确定源文本的编码注意力分布a^t。

内容选择单元320可以用于确定源文本中的每个词语的选择概率。在一些实施例中，内容选择单元320可以根据外部信息确定针对所述源文本的选择概率分布，所述选择概率分布包括用于所述源文本中每个词语的选择概率。

在一些实施例中，内容选择单元220可以利用内容选择网络(例如LSTM网络)对源文本I进行处理以确定所述源文本中每个词语的第一选择概率。

可以利用参考的文本处理结果ref(也就是预先确定的训练数据的文本处理结果)对这里使用的内容选择网络进行训练。在内容选择网络的训练过程中，可以将根据源文本I和参考的文本处理结果ref生成的标记序列输入内容选择网络进行处理。其中，这里的标记序列与源文本I的词序列的长度相同，标记序列的第i个元素的值可以用于指示源文本I的第i个词是否属于参考的文本处理结果ref的内容。通过利用上述方法对内容选择网络进行训练，内容选择网络能够实现对源文本I进行处理并输出所述源文本中每个词语的第一选择概率的结果，其中第一选择概率表示根据内容选择网络源文本I中的这个词被选择出现在最终的文本处理结果中的概率。

在一些实施例中，针对所述源文本中属于外部信息的至少一个词语，可以将该至少一个词语的选择概率至少确定为预定义的概率值λ。例如，可以将源文本中每个属于外部信息的词语的第二选择概率确定为预定义的概率值λ，将不属于外部信息的其它词语的第二选择概率确定为0。

可以根据上述第一选择概率和第二选择概率确定源文本中每个词语的选择概率。例如，可以将源文本中每个词语的选择概率确定为第一选择概率和第二选择概率的和。由此可见，对于属于外部信息的词语，其选择概率将大于等于预定义的概率值λ。

基于上所述选择概率分布，内容选择单元220可以用于针对所述源文本中的每个词语，根据该词语的选择概率确定该词语的注意力以得到注意力分布A。在一种实施例中，内容选择单元220可以配置成当该词语的选择概率低于预设的选择概率阈值ε时，将当前时间步的注意力分布中用于该词语的注意力确定为零。此外，内容选择单元220还可以配置成当该词语的选择概率大于等于预设的选择概率阈值ε时，将当前时间步的注意力分布中用于该词语的注意力确定为源文本的编码注意力分布a^t中该词语的注意力。

利用上述注意力生成单元，可以为源文本中的每个词语生成选择概率，也就是说，在确定每个词语的注意力时，需要至少考虑利用公式(1)计算的注意力的大小以及该词语的选择概率两者。当该词语的选择概率低于预设的选择阈值时，可以认为该词语在当前时间步中出现的概率很低，因此，在后续的文本处理过程中可以不考虑该词语的注意力。

可以利用公式(9)表示利用内容选择单元确定的注意力分布的结果：

其中

是经过内容选择确定的当前时间步的注意力分布，x是当前要输出的词语，j是当前时间步的序号，y_1:j-1是已经输出的文本序列，

是源文本的编码注意力分布，例如

可以是利用前述公式(1)、(2)计算得到的结果。q是上述第一选择概率，λ*hint_tag是上述第二选择概率。其中对于属于外部信息的第i个词语，q+λhint_tag的第i项的值可以是q_i+λ，对于不属于外部信息的第k个词语，q+λhint_tag的第k项的值可以是q_k。

通过将外部信息中包含的词语的选择概率设置为至少预定义的概率值λ，如果预定义的概率值大于预设的选择概率阈值ε，则可以确保外部信息中的词语在内容选择的步骤中不会被过滤，保证外部信息中的词语能够进入后续的文本处理过程，因此提高了外部信息中的词语在文本处理结果中出现的概率。可以理解的是，在一些实现方式中，预定义的概率值λ也可以被设置成小于等于预设的选择概率阈值ε。在这种情况下，通过将每个词语的选择概率确定为上述第一选择概率和第二选择概率的和，也能够实现增加外部信息中的词语的选择概率，并且提高外部信息中的词语在文本处理结果中出现的概率的效果。

图3B示出了根据图3A中示出的注意力生成单元确定当前时间步的注意力分布的示意性的过程。

如图3B所示，以源文本中的四个词语为例，利用内容选择网络可以选择第1、3项词语的注意力用于后续的文本处理过程。

图4示出了根据本申请实施例的注意力生成单元的另一种示意性的框图。如图4所示，注意力生成单元400可以包括源文本注意力确定单元410和外部信息注意力确定单元420。利用图4中示出的注意力生成单元确定的注意力分布A包括源文本的注意力分布a^t和外部信息的注意力分布a’^t两者。

源在一些实施例中，源文本注意力确定单元410可以利用公式(2)基于当前时间步的源文本编码隐藏状态和当前时间步的解码隐藏状态确定源文本中每个词语的编码注意力参数

外部信息注意力确定单元420可以用于确定所述源文本中每个词语的外部注意力参数，其中属于外部信息的词语的外部注意力参数被确定为预设的第一外部注意力参数，不属于外部信息的词语的外部注意力参数被确定为预设的第二外部注意力参数。在一些实现方式中，第一外部注意力参数可以被设置为λ’，第二外部注意力参数可以被设置为0，其中λ’可以是大于0的值。

基于所述编码注意力参数和外部注意力参数确定用于所述源文本中每个词语的注意力参数.例如，可以通过对每个词语的编码注意力参数和外部注意力参数进行求和以确定该词语的注意力参数

然后，可以基于注意力参数

确定源文本的当前时间步的注意力分布。例如，通过对注意力参数

应用softmax函数，可以得到用于源文本的每个词语的当前时间步的注意力。

利用上述方法，可以通过预定义的外部注意力参数调整源文本中属于外部信息的词语的注意力参数，进而实现对于属于外部信息的词语注意力调整。可以理解的是，在第一外部注意力参数被设置为大于0的超参数λ’，第二外部注意力参数被设置为0的情况下，可以基于外部信息调整源文本的每个词语的注意力分布，使得属于外部信息的词语的注意力更重要。

尽管上述示例中以第一外部注意力参数为λ’，第二外部注意力参数为0为例介绍了本申请的原理，可以理解的是，本申请的范围不限于此。本领域技术人员可以根据实际情况设置用于源文本中的每个词语的外部注意力的参数，只要最终能够实现使得属于外部信息的词语的注意力更重要的效果即可。例如，第一外部注意力参数可以被设置为λ₁’，第二外部注意力参数可以被设置为λ₂’，λ₁’、λ₂’可以是任何实数，只要λ₁’＞λ₂’即可。

在一些实施例中，源文本注意力确定单元410可以用于利用前述公式(1)、(2)确定源文本的编码注意力分布a^t。外部信息注意力确定单元420可以用于确定所述外部信息的编码注意力分布a’^t。

在这种情况下，可以利用图1中示出的编码单元110对所述外部信息进行编码以得到外部信息编码隐藏状态h’。外部信息注意力单元420可以根据外部信息编码隐藏状态h’和解码隐藏状态s确定外部信息的编码注意力分布。

例如，可以利用上述公式(1)、(2)确定外部信息的编码注意力分布a’^t，其中公式(1)、(2)中的源文本编码隐藏状态h应当被替换为外部信息编码隐藏状态h’。

在一些实现方式中，在分别计算外部信息的编码注意力分布a’^t和源文本的编码注意力分布a^t时，可以利用共享参数的公式(1)、(2)进行计算，即，计算外部信息的编码注意力分布a’^t和源文本的编码注意力分布a^t时使用的参数v^T、W_h、W_S、b_attn可以是相同的。在另一些实现方式中，也可以分别训练用于计算外部信息的编码注意力分布a’^t和用于计算源文本的编码注意力分布a^t的训练参数，即，计算外部信息的编码注意力分布a’^t和源文本的编码注意力分布a^t时使用的参数v^T、W_h、W_S、b_attn可以是不同的。

利用图4中示出的注意力生成单元400生成的外部信息的编码注意力分布a’^t和源文本的编码注意力分布a^t，可以利用图1中示出的输出单元对外部信息的编码注意力分布a’^t和源文本的编码注意力分布a^t进行进一步的处理以确定当前时间步的输出词语概率分布。

在注意力分布A^t包括源文本的注意力分布a^t和外部信息的注意力分布a’^t两者的情况下，输出词语概率分布可以表示为生成概率分布、源文本的注意力分布a^t和外部信息的注意力分布a’^t的加权平均。

在一些实施例中，可以由公式(10)确定输出词语概率分布。

其中，生成概率分布P_vocab可以是根据源文本的编码隐藏状态、解码隐藏状态以及源文本的编码注意力分布由公式(3)确定的，

表示源文本的编码注意力分布中第i个词的注意力，

表示外部信息的编码注意力分布中第i个词的注意力。P_generator、P_pointer、以及P_T分别表示用于生成概率分布P_vocab、源文本的编码注意力分布a^t以及外部信息的编码注意力分布a’^t的权重。

在一些实现方式中，可以根据当前时间步t的源文本的编码隐藏状态、解码隐藏状态、外部信息的编码注意力分布以及上一时间步t-1的输出单元的输出确定P_generator、P_pointer、以及P_T。

例如，可以根据公式(11)确定P_generator、P_pointer、以及P_T。

其中σ表示激活函数，例如sigmoid函数，

是要训练的参数，h_t ^*是在时间步t根据源文本的编码隐藏状态h和解码隐藏状态s通过公式(3)、(4)确定的参数，s_t是在时间步t的解码隐藏状态，x_t是在时间步t解码单元的输入，也就是在上一时间步t-1输出单元的输出，a′^t是注意力生成单元400输出的外部信息的编码注意力分布。

在一些实施例中，输出单元在确定输出词语概率分布时，还可以考虑其他方式确定的概率分布结果。例如可以通过考虑源文本I中的词向量形成的多个句子向量之间的相关性确定源文本I中的每个词语在源文本中的重要性。输出词语概率分布还可以包括利用上述重要性形成的词语概率分布。本领域技术人员，输出词语概率分布的生成方式不限于此，在不脱离本公开原理的情况下，输出词语概率分布还可包括各种形式的词语概率分布。

利用上述方式，可以利用注意力生成单元400确定外部信息在当前时间步的注意力分布a′^t，并且将外部信息在当前时间步的注意力分布a′^t用于确定当前时间步的输出概率分布。在本公开提供的实施例中，利用外部信息的注意力分布而不是外部信息的特征确定当前时间步的输出概率分布，可以避免外部信息的特征中的无效信息对当前时间步的输出概率分布造成影响。

图5示出了根据本申请的时候实施例的文本处理装置的另一种示意性的实施例。

如图5所示，文本处理装置500可以包括编码单元510、解码单元520、注意力生成单元530、输出单元540以及后处理单元550。其中，编码单元510、解码单元520、注意力生成单元530、输出单元540可以实现为结合图1-图3描述的编码单元110、解码单元120、注意力生成单元130和输出单元140，在此不再加以赘述。

后处理单元550可以配置成根据外部信息对所述候选文本进行后处理，以确定包含外部信息的输出文本。

如前所述，通过将编码单元510、解码单元520、注意力生成单元530、输出单元540可以实现为结合图1-图3描述的编码单元110、解码单元120、注意力生成单元130和输出单元140，输出单元540可能可以输出包含有外部信息的文本处理结果。

在输出单元540输出的结果中已经包含有外部信息的情况下，可以直接将输出单元540输出的结果作为文本处理的结果。

在输出单元540输出的结果中仍不包含外部信息的情况下，可以将输出单元540输出的结果作为候选文本，并可以利用后处理单元550根据外部信息对所述候选文本进行后处理，以确定包含外部信息的输出文本。

在一些实施例中，外部信息可以是包含预先指定的信息。例如，外部信息可以是预先指定的句子，或包含有预先指定的词语的源文本中的句子。

当所述预先确定的外部信息是句子的情况下，后处理单元550可以配置成确定所述候选文本中的句子和所述外部信息的相似度。当所述相似度大于预设的候选相似度阈值时，可以将所述候选文本中的所述句子替换为所述外部信息。

如果预先确定的外部信息是词语，那么后处理单元550可以配置成确定包含所述外部信息的句子和所述候选文本中的句子的相似度，并且当所述相似度大于预设的候选相似度阈值时，可以将所述候选文本中的所述句子替换为所述外部信息。

在一些实现方式中，当所述相似度大于预设的候选相似度阈值时，后处理单元550可以配置成删除所述候选文本中的所述句子，并用作为外部信息的句子或包含有作为外部信息的词语的句子取代被删除的候选文本中的句子。

在一些示例中，可以根据源文本中外部信息和候选文本中剩余信息在源文本中的相关性在所述剩余信息中插入外部信息。例如，可以根据外部信息和候选文本中剩余信息在源文本中出现的顺序将外部信息插入候选文本的剩余信息。

在另一些实现方式中，当所述相似度小于预设的候选相似度阈值时，后处理单元550可以配置成根据所述外部信息和所述候选文本中的句子在所述源文本中的相关性，在所述候选文本中插入外部信息。

可以比较所述外部信息和所述候选文本中每个句子之间的相似度。如果所述外部信息和所述候选文本中每个句子的相似度都小于预设的候选相似度阈值，那么意味着生成的文本处理结果中不包括与外部信息相似的信息。在这种情况下，可以通过将外部信息和候选文本直接进行拼接以确定最终的文本处理结果。

例如，可以根据外部信息和候选文本中的句子在在源文本中出现的顺序将外部信息插入候选文本，以确定最终的文本处理结果。

利用本申请提供的上述文本处理装置，可以有效地在文本处理结果中加入外部信息的内容，从而保证文本处理结果中包括期望出现的外部信息的内容。

如前所述，结合图1-图3描述文本处理装置中的编码单元110、解码单元120、注意力生成单元130中都包含需要训练的参数。因此，需要利用机器学习的方式对编码单元110、解码单元120、注意力生成单元130中的至少一项进行训练。

在一些实施例中，可以利用预设的源文本训练集对所述编码单元、所述注意力生成单元、所述解码单元进行训练的。其中所述源文本训练集包括多个训练源文本。

可以利用图1中示出的文本处理装置对训练源文本进行处理，以得到针对训练源文本的训练文本处理结果。例如，可以利用编码单元对训练源文本进行编码以得到训练源文本编码隐藏状态。然后，可以利用解码单元确定训练解码隐藏状态。然后，可以利用注意力生成单元根据所述外部信息、所述训练源文本编码隐藏状态和所述训练解码隐藏状态确定当前时间步的训练注意力分布。利用输出单元可以根据所述训练注意力分布、所述训练源文本编码隐藏状态、所述训练解码隐藏状态确定训练输出词语概率分布，以确定训练输出词语。

可以调整所述编码单元、所述注意力生成单元、所述解码单元中的参数以使得训练过程中使用的损失函数最小化实现对于所述编码单元、所述注意力生成单元、所述解码单元的训练。

在一些示例中，训练过程中使用的损失函数loss可以实现为公式(12)。

其中，

是时间步t的正解词语在时间步t的训练输出词语概率分布中的概率值，

是训练输出词语概率分布中正解的概率值与训练输出词语概率分布中外部信息的概率值之间的差异。当训练输出词语中出现属于外部信息的词语时，

的值越小，当训练输出词语中没出现属于外部信息的词语时，

的值越大。

在另一些示例中，训练过程中使用的损失函数loss可以利用公式(13)、(14)来实现。

其中，T是文本处理过程中总的时间步，t表示当前时间步，

表示负对数似然/交叉熵项，

是源文本的汇聚机制损失项，其中

是当前时间步t的源文本注意力分布，

即

是先前所有时间步源文本注意力分布的总和，

是训练输出词语概率分布中正解的概率值与训练输出词语概率分布中外部信息的概率值之间的差异，

是外部信息的汇聚机制损失项，其中

是当前时间步t的外部信息注意力分布

γ、β是预先设置的超参数。

图6示出了根据本申请的文本处理方法的示意性的流程图。如图6所示，在步骤S602中，可以对所述源文本进行编码以得到源文本编码隐藏状态。在一些实施例中，可以利用编码网络对源文本进行编码。示例性的编码网络包括长短期记忆(LSTM)网络，基于LSTM网络的系统可以应用于诸如机器翻译、生成文本摘要等任务。可以理解的是，编码网络也可以被实现为能够对词向量进行编码的任何机器学习模型。

例如，将对应于源文本I的至少一个词向量作为输入，编码网络可以输出与各词向量x₁、x₂、x₃…分别对应的源文本编码隐藏状态h₁、h₂、h₃…。源文本编码隐藏状态的数量和源文本的词向量的数量可以是相同的，也可以是不同的。例如，当根据源文本I生成k个词向量时，编码网络以对这k个词向量进行处理以生成k个对应的源文本编码隐藏状态。k是大于一的整数。

在步骤S604中，可以确定解码隐藏状态。在一些实施例中，解码单元120可以用于接收上一时间步t-1的解码隐藏状态s_t-1以及上一时间步文本处理装置得到的输出词语x_t，并对s_t-1和x_t进行处理以得到当前时间步的解码隐藏状态s_t。在第一个时间步的处理中s₀和x₁可以被确定为默认的初始值。其中解码隐藏状态s也可以包含对应于源文本的S的多个解码隐藏状态s₁、s₂、s₃…。示例性的解码网络包括长短期记忆网络。可以理解的是，解码网络也可以被实现为能够对编码网络的输出进行解码的任何机器学习模型。

在步骤S606中，可以根据外部信息、所述源文本编码隐藏状态和所述解码隐藏状态确定当前时间步的注意力分布。

在一些实施例中，当前时间步t的注意力分布A^t可以是源文本的编码注意力分布。例如，可以利用公式(1)、(2)确定源文本的编码注意力分布a^t。

在另一些实施例中，可以根据外部信息以及根据公式(1)确定的源文本的注意力分布a^t确定包含外部信息的当前时间步的注意力分布A^t，并输出包含外部信息的注意力分布A^t用于后续的文本处理过程。

图7示出了根据本申请的实施例的根据外部信息确定当前时间步的注意力分布的示意性的流程图。

在步骤S702中，可以根据所述源文本编码隐藏状态和所述解码隐藏状态确定所述源文本的编码注意力分布。在一些实施例中，可以利用前述公式(1)确定源文本的编码注意力分布a^t。

在步骤S704中，可以根据外部信息确定针对所述源文本的选择概率分布，所述选择概率分布包括用于所述源文本中每个词语的选择概率。

在一些实施例中，可以利用内容选择网络(例如LSTM网络)对源文本I进行处理以确定所述源文本中每个词语的第一选择概率。

内容选择网络能够实现对源文本I进行处理并输出所述源文本中每个词语的第一选择概率的结果，其中第一选择概率表示根据内容选择网络源文本I中的这个词被选择出现在最终的文本处理结果中的概率。

在步骤S706中，针对所述源文本中的每个词语，可以根据该词语的选择概率确定该词语的注意力以得到所述注意力分布。

基于上所述选择概率分布，步骤S706可以包括针对所述源文本中的每个词语，根据该词语的选择概率确定该词语的注意力以得到注意力分布A。在一种实施例中，步骤S706可以包括当该词语的选择概率低于预设的选择概率阈值ε时，将当前时间步的注意力分布中用于该词语的注意力确定为零。此外，步骤S706还可以包括当该词语的选择概率大于等于预设的选择概率阈值ε时，将当前时间步的注意力分布中用于该词语的注意力确定为源文本的编码注意力分布a^t中该词语的注意力。

利用上述注意力生成的方法，可以为源文本中的每个词语生成选择概率，也就是说，在确定每个词语的注意力时，需要至少考虑利用公式(1)计算的注意力的大小以及该词语的选择概率两者。当该词语的选择概率低于预设的选择阈值时，可以认为该词语在当前时间步中出现的概率很低，因此，在后续的文本处理过程中可以不考虑该词语的注意力。

图8示出了根据本申请的实施例的根据外部信息确定当前时间步的注意力分布的另一示意性的流程图。

在步骤S802中，可以确定当前时间步的源文本的编码注意力。

在一些实施例中，可以利用公式(2)基于当前时间步的源文本编码隐藏状态和当前时间步的解码隐藏状态确定源文本中每个词语的编码注意力参数

然后，可以利用前述公式(1)、(2)确定源文本的编码注意力分布a^t。

在步骤S804中，可以确定当前时间步的外部信息编码注意力。

在一些实施例中，可以确定所述源文本中每个词语的外部注意力参数，其中属于外部信息的词语的外部注意力参数被确定为预设的第一外部注意力参数，不属于外部信息的词语的外部注意力参数被确定为预设的第二外部注意力参数。在一些实现方式中，第一外部注意力参数可以被设置为λ’，第二外部注意力参数可以被设置为0，其中λ’可以是大于0的值。

基于步骤S802中确定的所述编码注意力参数和上述外部注意力参数确定用于所述源文本中每个词语的注意力参数.例如，可以通过对每个词语的编码注意力参数和外部注意力参数进行求和以确定该词语的注意力参数

然后，可以基于注意力参数

一些实施例中，可以对所述外部信息进行编码以得到外部信息编码隐藏状态h’。在可以利用上述公式(1)、(2)确定外部信息的编码注意力分布a’^t，其中公式(1)、(2)中的源文本编码隐藏状态h应当被替换为外部信息编码隐藏状态h’。

返回参考图6，在步骤S608中，可以根据所述注意力分布、所述源文本编码隐藏状态、所述解码隐藏状态确定输出词语概率分布。

在一些实施例中，输出词语概率分布还可以包括当前时间步的注意力分布A^t。

在一些实现方式中，可以根据当前时间步的源文本编码隐藏状态、源文本解码隐藏状态、注意力分布以及上一时间步解码网络的输出确定用于生成概率分布和注意力分布的权重P_gen。

例如，用于对所述生成概率分布和所述注意力分布进行加权和的权重P_gen可以表示为公式(5)。

在注意力分布A^t包括源文本的注意力分布a^t和外部信息的注意力分布a’^t两者的情况下，源文本的注意力分布a^t和外部信息的注意力分布a’^t的权重参数可以是相同的，也可以是不同的。

在一些实施例中，可以由公式(10)确定输出词语概率分布。

在一些实现方式中，可以根据当前时间步t的源文本的编码隐藏状态、源文本的解码隐藏状态、外部信息的编码注意力分布以及上一时间步t-1的解码网络的输出确定P_generator、P_pointer、以及P_T。例如，可以利用公式(11)确定P_generator、P_pointer、以及P_T。

在一些实施例中，步骤S608可以包括将输出词语概率分布中概率最高的词语确定为当前时间步的输出词语。

图9示出了根据本申请的实施例的一种文本处理方法的示意性的流程图。

如图9所示，在步骤S902中，可以对所述源文本进行编码以得到源文本编码隐藏状态。

在步骤S904中，可以确定解码隐藏状态。在一些实施例中，可以利用图6中示出的步骤S604确定解码隐藏状态，在此不再加以赘述。

在步骤S906中，可以根据外部信息、所述源文本编码隐藏状态、所述解码隐藏状态确定输出词语概率分布，以确定输出词语。

在另一些实施例中，步骤S906还可以包括根据外部信息确定和输出词语概率分布确定当前时间步的输出词语。

在一种实现方式中，步骤S906可以包括根据所述外部信息，将所述候选输出词语中概率大于等于输出概率阈值并且属于所述外部信息的词语确定为当前时间步的候选输出词语。

例如，在每个时间步可以确定至少两个词语作为当前时间步的候选输出词语，然后，可以将候选输出词语用于下一时间步的文本处理过程。类似地，在下一时间步，也可以确定至少两个候选输出词语。

在一些实施例中，还可以根据外部信息定候选输出序列。例如，可以利用公式(6)确定候选输出序列的惩罚值。

在另一种实现方式中，步骤S906可以包括确定外部信息和所述源文本编码隐藏状态之间的相似度，并且根据外部信息和所述源文本编码隐藏状态之间的相似度确定当前时间步要输出的词语。

例如，可以利用编码网络对所述外部信息进行编码以得到外部信息编码隐藏状态。

步骤S906可以包括确定所述外部信息编码隐藏状态和所述解码隐藏状态的相似度。当外部信息编码隐藏状态和所述解码隐藏状态的相似度大于等于预定义的相似度阈值时，可以输出所述外部信息作为当前时间步的输出。

当外部信息编码隐藏状态和所述源文本解码隐藏状态的相似度小于预定义的相似度阈值时，可以根据解码网络输出的结果确定当前时间步的输出词语概率分布，并基于当前时间步的输出词语概率分布确定当前时间步的输出词语。

利用上述方法，当解码网络输出的结果和外部信息之间的相似度较高时，可以直接用外部信息代替解码网络输出的结果。也就是说，在这种情况下，当前时间步输出后确定的文本序列的结果是在上一时间步输出后确定的文本序列后插入外部信息得到的结果。

然后，在进行下一时间步的处理时，可以利用解码网络对外部信息进行编码以得到下一时间步的解码隐藏状态，从而使得后续的解码过程能够利用外部信息的结果，保证后续解码得到的结果和插入的外部信息之间的语义连贯性。

在外部信息是词语的情况下，可以利用上一时间步的解码隐藏状态和外部信息作为解码网络的输入进行处理，并得到当前时间步的解码隐藏状态。

在外部信息包括多个词语的情况下，可以利用解码网络进行多次循环处理。其中，第一个循环中解码网络的输入是上一时间步的解码隐藏状态和外部信息的第一个词语，之后的循环中解码网络的输入是上一个循环得到的解码隐藏状态和外部信息的下一个词语。通过多次循环可以对外部信息中的每个词语进行处理，以得到包含所有外部信息的解码隐藏状态作为当前时间步的解码隐藏状态。

在一些实现方式中，当已经将外部信息代替解码网络输出的结果插入文本处理结果中之后，不再执行上述外部信息编码隐藏状态和所述解码隐藏状态的相似度的比较。

如前所述，当外部信息编码隐藏状态和所述解码隐藏状态的相似度小于预定义的相似度阈值时，不执行上述利用外部信息代替解码网络的输出作为输出的操作，而是根据输出词语概率分布确定输出结果。在这种情况下，为了提高外部信息出现在最后的文本处理结果中的概率，可以调整所述当前时间步的相似度阈值以确定调整后的相似度阈值，其中所述调整后的相似度阈值小于所述当前时间步的相似度阈值，并且所述调整后的相似度阈值用作下一时间步的相似度阈值。

例如，可以利用公式(7)对相似度阈值进行调整。

通过在每一时间步对相似度阈值执行单调递减的调整，即使外部信息和解码网络的输出结果之间的相似度，在文本处理过程中相似度阈值也可以下降到一个很低的程度，从而使得外部信息和解码网络的输出结果之间的相似度大于当前时间步的相似度阈值的概率增加。也就是能够使得外部信息出现在最终的文本处理结果中的概率增加。

图10示出了根据本申请的实施例的一种文本处理方法的示意性的流程图。

在步骤S1002中，可以对所述源文本进行编码以得到源文本编码隐藏状态。

在步骤S1004中，可以确定解码隐藏状态。

在步骤S1006中，可以根据所述源文本编码隐藏状态和所述解码隐藏状态确定每个时间步的输出词语，以确定候选文本。

在步骤S1008中，可以根据外部信息对所述候选文本进行后处理，以确定包含外部信息的输出文本。

在步骤S1006输出的结果中仍不包含外部信息的情况下，可以将步骤S1006输出的结果作为候选文本，并可以根据外部信息对所述候选文本进行后处理，以确定包含外部信息的输出文本。

当所述预先确定的外部信息是句子的情况下，可以确定所述候选文本中的句子和所述外部信息的相似度。当所述相似度大于预设的候选相似度阈值时，可以将所述候选文本中的所述句子替换为所述外部信息。

如果预先确定的外部信息是词语，可以确定包含所述外部信息的句子和所述候选文本中的句子的相似度，并且当所述相似度大于预设的候选相似度阈值时，可以将所述候选文本中的所述句子替换为所述外部信息。

在一些实现方式中，当所述相似度大于预设的候选相似度阈值时，可以删除所述候选文本中的所述句子，并用作为外部信息的句子或包含有作为外部信息的词语的句子取代被删除的候选文本中的句子。

在另一些实现方式中，当所述相似度小于预设的候选相似度阈值时，可以根据所述外部信息和所述候选文本中的句子在所述源文本中的相关性，在所述候选文本中插入外部信息。

利用本申请提供的上述文本处理方法，可以有效地在文本处理结果中加入外部信息的内容，从而保证文本处理结果中包括期望出现的外部信息的内容。

利用本申请提供的文本处理方法，在文本的生成过程中，通过利用外部信息确定当前时间步的注意力分布和/或根据外部信息确定当前时间步的输出词语，能够有效地在文本处理的过程中考虑外部信息的内容，并在文本生成的过程中提高生成外部信息的概率，从而改善在考虑外部信息的情况下生成文本的效果。

此外，根据本申请实施例的方法或装置也可以借助于图11所示的计算设备的架构来实现。图11示出了该计算设备的架构。如图11所示，计算设备1100可以包括总线1110、一个或至少两个CPU 1120、只读存储器(ROM)1130、随机存取存储器(RAM)1140、连接到网络的通信端口1150、输入/输出组件1160、硬盘1170等。计算设备1100中的存储设备，例如ROM1130或硬盘1170可以存储本申请提供的用于在视频中对目标进行检测的方法的处理和/或通信使用的各种数据或文件以及CPU所执行的程序指令。计算设备1100还可以包括用户界面1180。当然，图11所示的架构只是示例性的，在实现不同的设备时，根据实际需要，可以省略图11示出的计算设备中的一个或至少两个组件。

本申请的实施例也可以被实现为计算机可读存储介质。根据本申请实施例的计算机可读存储介质上存储有计算机可读指令。当所述计算机可读指令由处理器运行时，可以执行参照以上附图描述的根据本申请实施例的方法。所述计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。

本领域技术人员能够理解，本申请所披露的内容可以出现多种变型和改进。例如，以上所描述的各种设备或组件可以通过硬件实现，也可以通过软件、固件、或者三者中的一些或全部的组合实现。

此外，如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。

此外，虽然本申请对根据本申请的实施例的系统中的某些单元做出了各种引用，然而，任何数量的不同单元可以被使用并运行在客户端和/或服务器上。所述单元仅是说明性的，并且所述系统和方法的不同方面可以使用不同单元。

此外，本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

除非另有定义，这里使用的所有术语(包括技术和科学术语)具有与本发明所属领域的普通技术人员共同理解的相同含义。还应当理解，诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

上面是对本发明的说明，而不应被认为是对其的限制。尽管描述了本发明的若干示例性实施例，但本领域技术人员将容易地理解，在不背离本发明的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此，所有这些修改都意图包含在权利要求书所限定的本发明范围内。应当理解，上面是对本发明的说明，而不应被认为是限于所公开的特定实施例，并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本发明由权利要求书及其等效物限定。

Claims

1.一种文本处理装置，包括：

编码单元，配置成对源文本进行编码以得到源文本编码隐藏状态；

解码单元，配置成确定解码隐藏状态；

注意力生成单元，配置成根据外部信息、所述源文本编码隐藏状态和所述解码隐藏状态确定当前时间步的注意力分布；

输出单元，配置成根据所述注意力分布、所述源文本编码隐藏状态、所述解码隐藏状态确定输出词语概率分布，以确定输出词语。

2.如权利要求1所述的文本处理装置，其中，所述注意力生成单元配置成：

根据所述源文本编码隐藏状态和所述解码隐藏状态确定所述源文本中每个词语的编码注意力参数；

确定所述源文本中每个词语的外部注意力参数，其中属于外部信息的词语的外部注意力参数被确定为预设的第一外部注意力参数，不属于外部信息的词语的外部注意力参数被确定为预设的第二外部注意力参数；

基于所述编码注意力参数和外部注意力参数确定用于所述源文本中每个词语的注意力参数；

基于所述注意力参数确定用于所述源文本的当前时间步的注意力分布。

3.如权利要求1所述的文本处理装置，其中，所述注意力生成单元配置成：

根据所述源文本编码隐藏状态和所述解码隐藏状态确定所述源文本的编码注意力分布；

根据外部信息确定针对所述源文本的选择概率分布，所述选择概率分布包括用于所述源文本中每个词语的选择概率；以及

针对所述源文本中的每个词语，根据该词语的选择概率确定该词语的注意力以得到所述注意力分布。

4.如权利要求3所述的文本处理装置，其中，根据外部信息确定所述源文本的选择概率包括：

针对所述源文本中属于所述外部信息的至少一个词语，将该至少一个词语的选择概率至少确定为预定义的概率值。

5.如权利要求3所述的文本处理装置，其中，针对所述源文本中的每个词语，根据该词语的选择概率确定该词语的注意力包括：

当该词语的选择概率低于预设的选择概率阈值时，将所述当前时间步的注意力分布中用于该词语的注意力确定为零；以及

当该词语的选择概率大于等于预设的选择概率阈值时，将当前时间步的注意力分布中用于该词语的注意力确定为源文本的编码注意力分布中该词语的注意力。

6.如权利要求1所述的文本处理装置，其中，所述注意力分布包括外部信息的编码注意力分布和源文本的编码注意力分布，

所述编码单元还配置成对所述外部信息进行编码以得到外部信息编码隐藏状态，

所述注意力生成单元配置成：

根据所述外部信息编码隐藏状态和所述解码隐藏状态确定外部信息的编码注意力分布，

根据所述源文本编码隐藏状态和所述解码隐藏状态确定源文本的编码注意力分布；以及

所述输出单元配置成根据所述源文本编码隐藏状态、所述解码隐藏状态、所述外部信息的编码注意力分布和所述源文本的编码注意力分布确定所述输出词语概率分布。

7.如权利要求6所述的文本处理装置，其中所述输出单元配置成：

根据所述源文本编码隐藏状态和所述解码隐藏状态确定生成概率分布；

根据所述外部信息注意力分布确定用于所述生成概率分布、所述编码注意力分布和所述外部信息注意力分布的权重；

基于所述权重对所述生成概率分布、所述编码注意力分布和所述外部信息注意力分布进行加和以确定所述输出词语概率分布。

8.如权利要求1-7任一项所述的文本处理装置，其中所述编码单元、所述注意力生成单元、所述解码单元是通过以下步骤训练的：

对训练源文本进行编码以得到训练源文本编码隐藏状态；

确定训练解码隐藏状态；

根据所述外部信息、所述训练源文本编码隐藏状态和所述训练解码隐藏状态确定当前时间步的训练注意力分布；

根据所述训练注意力分布、所述训练源文本编码隐藏状态、所述训练解码隐藏状态确定训练输出词语概率分布，以确定训练输出词语；以及

调整所述编码单元、所述注意力生成单元、所述解码单元中的参数以使得训练输出词语和外部信息中包含的词语之间的差异最小。

9.一种文本处理方法，包括：

对源文本进行编码以得到源文本编码隐藏状态；

确定解码隐藏状态；

根据所述外部信息、所述源文本编码隐藏状态和所述解码隐藏状态确定当前时间步的注意力分布；

根据所述注意力分布、所述源文本编码隐藏状态、所述解码隐藏状态确定输出词语概率分布，以确定输出词语。

10.一种文本处理设备，包括：

处理器；以及

存储器，其中存储计算机可读程序指令，

其中，在所述计算机可读程序指令被所述处理器运行时执行如权利要求9所述的文本处理方法。