CN112487136A

CN112487136A - 文本处理方法、装置、设备以及计算机可读存储介质

Info

Publication number: CN112487136A
Application number: CN201910768816.1A
Authority: CN
Inventors: 郭垿宏; 郭心语; 李安新; 陈岚; 池田大志; 吉村健; 藤本拓
Original assignee: NTT Korea Co Ltd
Current assignee: NTT Docomo Inc; NTT Korea Co Ltd
Priority date: 2019-08-20
Filing date: 2019-08-20
Publication date: 2021-03-12
Also published as: JP7414357B2; JP2021033994A

Abstract

本申请涉及一种文本处理装置、方法、设备以及计算机可读存储介质。所述文本处理装置包括：预处理单元，配置成对源文本进行预处理，以产生用于所述多个词语的多个词向量；句向量确定单元，配置成基于多个初始推荐权重向量和所述多个词向量确定多个句向量；推荐概率确定单元，配置成基于每个句向量与所述多个句向量中另一句向量之间的相关性调整所述多个初始推荐权重向量，以确定用于所述多个词语的推荐概率分布；以及输出单元，配置成基于所述推荐概率分布确定要输出的词语。

Description

文本处理方法、装置、设备以及计算机可读存储介质

技术领域

本公开涉及文本处理领域，并且具体涉及一种文本处理方法、装置、设备以及计算机可读存储介质。

背景技术

在现有的文本生成过程中，生成文本的网络的输出的内容是通过学习训练数据获得的结果。对于例如摘要这样的文本生成场景，由于大部分的训练数据的正解集中在文本内容的前几句话中，因此，利用这样的训练数据训练得到的网络也倾向于将文本内容的前几句话生成新的文本内容。因此，目前的文本处理方法缺乏有效的对文本内容进行概括和提取的方法。

发明内容

为了有效地从文本中提取和生成摘要，本公开提供了一种文本处理方法、装置、设备以及计算机可读存储介质。

根据本公开的一个方面，提供了一种文本处理装置，包括：预处理单元，配置成对源文本进行预处理，以产生用于所述多个词语的多个词向量；句向量确定单元，配置成基于多个初始推荐权重向量和所述多个词向量确定多个句向量；推荐概率确定单元，配置成基于每个句向量与所述多个句向量中另一句向量之间的相关性调整所述多个初始推荐权重向量，以确定用于所述多个词语的推荐概率分布；以及输出单元，配置成基于所述推荐概率分布确定要输出的词语。

在一些实施例中，所述句向量确定单元配置成：利用编码神经网络对所述多个词向量进行处理，以确定分别与各词向量对应的当前编码隐藏状态向量，基于每个初始推荐权重向量和所述当前编码隐藏状态向量确定对应于该初始推荐权重向量的句向量。

在一些实施例中，所述输出单元配置成：基于所述当前编码隐藏状态向量，利用解码神经网络确定当前解码隐藏状态向量；利用所述当前编码隐藏状态向量和所述当前解码隐藏状态向量确定当前词语概率分布；基于所述当前词语概率分布和所述推荐概率分布确定要输出的词语。

在一些实施例中，所述当前词语概率分布包括生成概率分布和注意力概率分布，所述输出单元配置成：利用所述推荐概率分布对所述注意力概率分布进行调整，以确定调整后的注意力概率分布；对所述生成概率分布和所述调整后的注意力概率分布进行加权求和以确定输出词语概率分布；以及并将输出词语概率分布中概率最大的词语确定为要输出的词语。

在一些实施例中，所述当前词语概率分布包括生成概率分布和注意力概率分布，所述输出单元配置成：确定用于所述生成概率分布、所述注意力概率分布以及所述推荐概率分布的权重，以基于所述权重确定所述输出词语概率分布；以及将输出词语概率分布中概率最大的词语确定为要输出的词语。

在一些实施例中，推荐概率确定单元还包括相关性确定子单元，所述相关性确定子单元配置成：针对每个句向量，将该句向量与另一句向量进行组合，以生成组合句向量；利用相关性矩阵对所述组合句向量进行处理，以确定该句向量与该另一句向量之间的相关性。

在一些实施例中，推荐概率确定单元还包括调整子单元，所述调整子单元配置成：基于该句向量与所述多个句向量中每个其他句向量的相关性确定该句向量的推荐系数；对于所述初始推荐权重向量中的每一个，利用对应于该初始推荐权重向量的句向量的推荐系数对该初始推荐权重向量进行调整，以得到调整后的词概率向量；基于调整后的词概率向量确定所述多个词语的推荐概率分布。

根据本公开的另一个方面，提供了一种文本处理方法，包括：对源文本进行预处理，以产生用于所述多个词语的多个词向量；基于多个初始推荐权重向量和所述多个词向量确定多个句向量；基于每个句向量与所述多个句向量中另一句向量之间的相关性调整所述多个初始推荐权重向量，以确定用于所述多个词语的推荐概率分布；以及基于所述推荐概率分布确定要输出的词语。

在一些实施例中，基于多个初始推荐权重向量和所述多个词向量确定多个句向量包括：利用编码神经网络对所述多个词向量进行处理，以确定分别与各词向量对应的当前编码隐藏状态向量，基于每个初始推荐权重向量和所述当前编码隐藏状态向量确定对应于该初始推荐权重向量的句向量。

在一些实施例中，基于所述推荐概率分布确定要输出的词语包括：基于所述当前编码隐藏状态向量，利用解码神经网络确定当前解码隐藏状态向量；利用所述当前编码隐藏状态向量和所述当前解码隐藏状态向量确定当前词语概率分布；基于所述当前词语概率分布和所述推荐概率分布确定要输出的词语。

在一些实施例中，所述当前词语概率分布包括生成概率分布和注意力概率分布，其中，基于所述当前词语概率分布和所述推荐概率分布确定要输出的词语包括：利用所述推荐概率分布对所述注意力概率分布进行调整，以确定调整后的注意力概率分布；对所述生成概率分布和所述调整后的注意力概率分布进行加权求和以确定输出词语概率分布；以及并将输出词语概率分布中概率最大的词语确定为要输出的词语。

在一些实施例中，所述当前词语概率分布包括生成概率分布和注意力概率分布，其中，基于所述当前词语概率分布和所述推荐概率分布确定要输出的词语包括：确定用于所述生成概率分布、所述注意力概率分布以及所述推荐概率分布的权重，以基于所述权重确定所述输出词语概率分布；以及将输出词语概率分布中概率最大的词语确定为要输出的词语。

在一些实施例中，每个句向量与所述多个句向量中另一句向量之间的相关性是通过以下步骤确定的：针对每个句向量，将该句向量与另一句向量进行组合，以生成组合句向量；利用相关性矩阵对所述组合句向量进行处理，以确定该句向量与该另一句向量之间的相关性。

在一些实施例中，基于每个句向量与所述多个句向量中另一句向量之间的相关性调整所述多个初始推荐权重向量，以确定用于所述多个词语的推荐概率分布包括：基于该句向量与所述多个句向量中每个其他句向量的相关性确定该句向量的推荐系数；对于所述初始推荐权重向量中的每一个，利用对应于该初始推荐权重向量的句向量的推荐系数对该初始推荐权重向量进行调整，以得到调整后的词概率向量；基于调整后的词概率向量确定所述多个词语的推荐概率分布。

根据本公开的再一个方面，提供了一种文本处理设备，包括：处理器；以及存储器，其中存储计算机可读程序指令，其中，在所述计算机可读程序指令被所述处理器运行时执行如前所述的文本处理方法。

根据本公开的再一个方面，提供了一种计算机可读存储介质，其上存储计算机可读指令，当所述计算机可读指令由计算机执行时，所述计算机执行如前所述的文本处理方法。

利用本公开提供的文本处理方法、装置、设备以及计算机可读存储介质，能够基于文本内各词语以及各词语构成的句子之间的相关性提高文本摘要提取方法对于文本内容的理解能力，从而更好地对文本内容进行抽象和概括，以生成文本摘要。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出了根据本公开的文本处理方法的示意性的流程图；

图2示出了根据本公开的实施例的确定每个句向量与所述多个句向量中另一句向量之间的相关性的示意图；

图3A示出了利用本公开的实施例的确定输出词语概率分布的示意图；

图3B示出了根据本申请实施例的利用生成概率分布和调整后的注意力概率分布确定输出词语概率分布的示意图；

图3C示出了根据本申请实施例的利用生成概率分布、注意力概率分布以及推荐概率分布确定输出词语概率分布的示意图；

图4示出了根据本公开的实施例的文本处理装置的示意性的框图；以及

图5是根据本公开实施例的计算设备的示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本公开一部分的实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另作定义，此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本申请中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

图1示出了根据本公开的文本处理方法的示意性的流程图。如图1所示，在步骤S102中，可以对源文本进行预处理，以产生用于所述多个词语的多个词向量。

在利用计算机执行文本处理方法时，由于计算机往往无法直接处理文本数据，因此在对源文本进行处理时，需要先将源文本转换为数值型数据。例如，源文本的内容可以是一个或多个句子。所述预处理可以包括对每个句子执行分词处理以将句子分割为多个单词，将多个单词分别转换为特定维度的词向量。例如，可以通过词嵌入(word embedding)的方式来实现这种转换。

在步骤S104中，可以基于多个初始推荐权重向量和所述多个词向量确定多个句向量S。

在一些实施例中，对于每一时间步(time step)，可以利用编码神经网络对步骤S102中生成的多个词向量进行处理，以确定分别与各词向量对应的当前编码隐藏状态向量。在一些实现方式中，编码神经网络可以实现为长短期记忆(lstm)网络。可以理解的是，编码神经网络也可以被实现为能够对词向量进行编码的任何机器学习模型。

通过将步骤S102中生成的词向量作为输入，编码神经网络可以输出当前时间步与各词向量x₁、x₂、x₃…分别对应的当前编码隐藏状态向量h₁、h₂、h₃…。编码隐藏状态向量的数量和词向量的数量可以是相同的，也可以是不同的。例如，当根据源文本生成k个词向量时，编码神经网络可以对这k个词向量进行处理以生成k个对应的编码隐藏状态向量。k是大于一的整数。

然后，可以基于每个初始推荐权重向量和所述当前编码隐藏状态向量确定对应于该初始推荐权重向量的句向量。

在一些实施例中，初始推荐权重向量W可以被表示为向量[w₁、w₂…、w_k]。其中W的元素数量与编码隐藏状态向量的数量相同。其中初始推荐权重向量W中的每个元素表示用于利用当前编码隐藏状态向量确定句向量时各编码隐藏状态向量的权重系数。利用这些权重系数可以组合对应于编码神经网络输入的各词向量的编码隐藏状态向量的信息，从而形成包括各词向量信息的句向量。可以理解的是，这里所说的句向量可以是抽象的句向量。抽象的句向量可以不和输入文本中包含的句子信息一一对应。句向量S可以包括S102中生成的多个词向量中的部分或全部词向量的信息。

在一些实现方式中，句向量S可以表示为当前编码隐藏状态向量h₁、h₂…h_k的加权平均值。例如，句向量S可以表示为W*h，其中W＝[w₁、w₂…、w_k]，h＝[h₁、h₂…、h_k]^T。因此，利用预先训练好的预设数量的初始推荐权重向量W₁、W₂…、W_n可以得到预设数量的句向量S₁、S₂…、S_n。其中n、m是大于1的整数。

在步骤S106中，可以基于每个句向量与所述多个句向量中另一句向量之间的相关性调整所述多个初始推荐权重向量，以确定用于所述多个词语的推荐概率分布。

图2示出了根据本公开的实施例的确定每个句向量与所述多个句向量中另一句向量之间的相关性的示意图。图2中以5个词向量为例描述了本公开的原理，然而可以理解的是，本公开的范围不限于此，可以利用任何其他数量的词向量实现本公开提供的文本处理方法。

如图2所示，x₁、x₂、x₃、x₄、x₅是从源文本生成的对应于源文本中的词语的词向量。利用编码神经网络可以生成分别对应于x₁、x₂、x₃、x₄、x₅的编码隐藏状态向量h₁、h₂、h₃、h₄、h₅。

图2中示出了3个初始推荐权重向量W₁、W₂、W₃。可以理解的是，本公开的范围不限于此，可以利用任何其他数量的初始推荐权重向量实现本公开提供的文本处理方法。如图2所示，利用初始推荐权重向量W₁、W₂、W₃可以确定句向量S₁、S₂以及S₃。

针对句向量S₁、S₂、S₃中的每个句向量，可以将该句向量与另一句向量进行组合，以生成组合句向量。其中组合句向量中包括被组合的至少两个句向量的信息。下文中将以确定两个句向量之间的相关性为例描述本公开的原理，然而本领域技术人员可以理解，也可以通过组合三个或更多句向量来确定被组合的句向量之间的相关性。

例如，如图2所示，可以计算句向量S₁和S₂之间的相关性λ_1,2、句向量S₁和S₃之间的相关性λ_1,3以及句向量S₂和S₃之间的相关性λ_2,3。

在一些实现方式中，可以对该句向量与另一句向量进行拼接，以得到一个维度更高的组合句向量。例如，当句向量S的维度为d时，通过拼接句向量S₁和S₂可以得到一个维度为2d的组合句向量S_1,2。其中d是大于1的整数。

可以理解的是，当针对S₁计算S₁和S₂之间的相关性时，可以利用S₁在前、S₂在后的方式对句向量S₁和S₂进行拼接。当针对S₂计算S₂和S₁之间的相关性时，可以利用S₂在前、S₁在后的方式对句向量S₂和S₁进行拼接。因此，在这种情况下，组合句向量S_1,2和组合句向量S_2,1是不同的。

在另一些实现方式中，也可以通过对两个句向量进行向量间运算(例如相加、相减、向量积等)以生成组合句向量。在这种情况下，组合句向量S_1,2和组合句向量S_2,1可以是相同的。

事实上，本领域技术人员可以通过任何方式生成组合有至少两个句向量的信息的组合句向量。

然后，可以利用相关性矩阵对所述组合句向量进行处理，以确定该句向量与该另一句向量之间的相关性。在一些实施例中，句向量S₁和S₂之间的相关性λ_1,2可以表示为λ＝S_1,2*Z。其中S_1,2表示句向量S₁和S₂的组合句向量，Z表示训练好的相关性矩阵。利用Z可以计算出S₁和S₂之间的相关性系数λ_1,2。在一些实施例中，相关性矩阵Z可以用于将组合句向量S_1,2投影为一个实数形式的相关性系数。

利用上述方法，可以计算句向量S₁、S₂…、S_n中任意两个句向量之间的相关性。

针对上述任一句向量，可以基于该句向量与所述多个句向量中每个其他句向量的相关性确定该句向量的推荐系数。在一些实现方式中，该句向量的推荐系数可以表示为该句向量与所述多个句向量中每个其他句向量的相关性的总和。

例如，针对句向量S₁的推荐系数可以表示为Σλ₁＝λ_1,2+λ_1,3+…λ_1,m。针对句向量S₂的推荐系数可以表示为Σλ₂＝λ_2,1+λ_2,3+…λ_2,m。以此类推，可以确定每个句向量的推荐系数。

在另一些实现方式中，句向量的推荐系数也可以表示为该句向量与所述多个句向量中每个其他句向量的相关性的加权和。可以利用预先确定的加权系数对每个句向量与其他句向量之间的相关性进行加权求和。

上述推荐系数可以用于对用于生成对应句向量的初始推荐权重向量进行调整，以得到调整后的词概率向量。例如，如图2所示，可以利用分别对应于句向量S₁、S₂以及S₃的推荐系数Σλ₁、Σλ₂以及Σλ₃对初始推荐权重向量W₁、W₂、W₃进行处理。

如前所述，推荐系数是根据句向量和其他句向量之间的相关性确定的。由于在文本摘要生成的过程中需要对文本内容进行概括，因此可以认为，与其他句向量之间相关性越高，那么该句向量中包含的词向量的信息在文本内容中的重要性越高，也因此越有可能成为文本摘要的内容。

在一些实施例中，可以将每个句向量的推荐系数与该句向量对应的词概率向量进行相乘，以调整该词概率向量中包含的针对每个词向量的编码隐藏状态向量的权重系数。例如，调整后的第i个词概率向量W_i’可以表示为W_i’＝Σλ_i*W_i。

在利用每个句向量的推荐系数对该句向量的词概率向量进行调整后，可以基于利用上述方式得到的多个调整后的词概率向量W’确定所述多个词语的推荐概率分布。

在一些实施例中，推荐概率分布P_V可以表示为P_V＝ΣW_i’，即利用上述方法得到的多个调整后的词概率向量W’的和。在一些实现方式中，推荐概率分布P_V也可以表示为多个调整后的词概率向量W_i’的加权和。

返回参考图1，在步骤S108中，可以基于所述推荐概率分布确定要输出的词语。

步骤S106中输出的推荐概率分布可以表示输入的源文本中每个词语在源文本中的重要程度，其中在推荐概率分布中概率越大，则代表对于当前时间步，该词语在源文本中的重要性最高。因此在一些示例中，可以将推荐概率分布中概率最大的词语确定为当前时间步要输出的词语。

在一些实施例中，可以基于推荐概率对现有的生成式网络生成的词语概率分布进行调整，以确定输出词语概率分布。

对于每一时间步，可以基于所述当前编码隐藏状态向量，利用解码神经网络确定当前解码隐藏状态向量。利用所述当前编码隐藏状态向量和当前解码隐藏状态向量可以确定当前词语概率分布。基于所述当前词语概率分布和所述推荐概率分布可以确定对于当前时间步的输出词语概率分布，并可以从输出词语概率分布中选择具有最大概率的词向量对应的词语作为当前时间步要输出的词语。

其中所述当前词语概率分布可以是注意力概率分布。所述注意力概率分布表示所述输入文本中的词语作为文本摘要中的词语的概率分布。

图3A示出了利用本公开的实施例的确定输出词语概率分布的示意图。如图3A所示，可以利用推荐概率分布P_V对所述注意力概率分布进行调整，从而形成调整后的注意力概率分布。

在一种实现方式中，可以根据当前时间步的编码隐藏状态向量和解码隐藏状态向量确定注意力概率分布。例如，可以利用公式(1)确定上述注意力概率分布。

a^t＝softmax(e^t) (1)

其中t表示当前时间步，a^t表示当前时间步的注意力概率分布，softmax指的是归一化指数函数，e^t可以利用公式(2)确定为：

其中，v^T、W_h、W_S、b_attn是指针生成网络中的学习参数，h_i是当前编码隐藏状态向量，s_t是当前解码隐藏状态向量。

在一些实施例中，可以利用所述推荐概率分布对所述注意力概率分布进行调整，以确定调整后的注意力概率分布。

例如，可以利用公式(3)确定调整后的注意力概率分布a’：

a’^t＝softmax(P_V·e^t) (3)

其中t是当前时间步，a’^t表示当前时间步的调整后的注意力概率分布，e^t是由公式(2)确定的参数。

利用调整后的注意力概率分布，可以确定所述输入文本中的词语作为文本摘要中的词语的概率分布。例如，可以从输入文本中选择概率最大的词语作为要输出的词语。

在一些实施例中，所述当前词语概率分布还可以包括生成概率分布P_vocab。所述生成词语概率分布表示所述文字实体词典中的词语作为文本摘要中的词语的概率分布。

图3B示出了根据本申请实施例的利用生成概率分布和调整后的注意力概率分布确定输出词语概率分布的示意图。

在一些实施例中，可以基于上述上下文向量和当前时间步的解码隐藏状态向量确定上述生成概率分布。例如，可以进一步利用公式(4)和公式(5)确定上述生成概率分布P_vocab。

其中V’、V、b、b’是指针生成网络中的学习参数，h_t ^*是根据注意力概率分布确定的上下文向量。例如，可以利用公式(4)确定h_t ^*：

其中a_i ^t是公式(2)中确定的注意力概率分布a^t中的第i个元素，h_i是当前第i个编码隐藏状态向量。

然后，可以通过对所述生成概率分布和所述调整后的注意力概率分布进行加权求和可以确定输出词语概率分布。

在一些实施例中，可以根据当前时间步的编码隐藏状态向量、解码隐藏状态向量、注意力概率分布以及上一时间步解码神经网络的输出确定生成概率分布和调整后的注意力概率分布的第一权重P_gen。

例如，用于对所述生成概率分布和所述调整后的注意力概率分布进行加权和的第一权重P_gen可以表示为公式(6)：

其中σ表示激活函数，例如sigmoid函数，w_h ^T、w_s ^T、w_x ^T和b_ptr是训练参数，h_t ^*是在时间步t通过公式(4)确定的参数，s_t是在时间步t的解码隐藏状态向量，x_t是在时间步t解码神经网络的输入，也就是在上一时间步t-1解码神经网络的输出。公式(6)中确定的第一权重P_gen可以实现为标量的形式。通过利用第一权重P_gen对生成概率分布P_vocab和调整后的注意力概率分布a’^t进行加权平均可以得到输出词语概率分布。

图3C示出了根据本申请实施例的利用生成概率分布、注意力概率分布以及推荐概率分布确定输出词语概率分布的示意图。

如图3C所示，可以对所述生成概率分布、所述注意力概率分布以及所述推荐概率分布进行加权求和以确定输出词语概率分布。在一种实现方式中，可以根据当前时间步的编码隐藏状态向量、解码隐藏状态向量、注意力概率分布、推荐概率分布以及上一时间步解码神经网络的输出确定用于对所述生成概率分布、所述注意力概率分布以及所述推荐概率分布进行加权求和的第二权重P_gen2。

可以利用公式(7)确定用于对所述生成概率分布、所述注意力概率分布以及所述推荐概率分布进行加权求和的第二权重P_gen2。

其中σ表示激活函数，例如sigmoid函数，w_h ^T、w_s ^T、w_x ^T、w_V ^T和b_ptr是训练参数，h_t ^*是在时间步t通过公式(4)确定的参数，s_t是在时间步t的解码隐藏状态向量，x_t是在时间步t解码神经网络的输入，也就是在上一时间步t-1解码神经网络的输出、P_V是时间步t的推荐概率分布。

公式(7)中确定的权重P_gen2可以实现为一个三维的向量的形式，其中该三维向量中的元素分别表示生成概率分布P_gen、注意力概率分布a_t以及推荐概率分布P_V的权重系数。

上述文本处理过程中使用的模型中的训练参数可以是利用预定的训练数据集训练的。例如，可以将训练数据输入上述文本处理模型中，并利用编码神经网络、解码神经网络以及用语确定句向量之间的关联性的初始推荐权重向量对源文本的词向量进行处理，以得到上述训练的输出词语概率分布。通过计算训练的输出词语概率分布中正解词语的概率损失可以对上述文本处理模型中的训练参数进行调整。其中，本公开涉及的文本生成网络的损失函数可以表示为：

其中w_t ^*是时间步t的正解词语在时间步t的训练的输出词语概率分布中的概率值，T是生个生成序列中的总时间步。通过统计整个生成序列中所有时间步的损失值可以确定文本生成网络的总损失。

通过调整文本处理模型中的训练参数以使得上述损失最小能够实现针对上述文本处理模型的参数的训练。

利用本公开提供的文本处理方法，在生成例如文本摘要的内容时，可以根据输入文本中各词语之间组成的句向量之间的相关性确定输入文本中的词语在该文本内容中的重要程度，实现根据词语在文本内容中的重要性确定生成文本的内容的技术效果。尽管本公开中以生成摘要文本为例描述了本公开的原理，然而，本公开的内容不限于此。在不脱离本公开原理的情况下，也可以将本公开提供的文本处理方法用于文本扩充、文本改写等其他应用场景。

图4示出了根据本公开的实施例的文本处理装置的示意性的框图。如图4所示，文本处理装置400可以包括预处理单元410、句向量确定单元420、推荐概率确定单元430以及输出单元440。

预处理单元410可以配置成对源文本进行预处理，以产生用于所述多个词语的多个词向量。例如，可以通过词嵌入(word embedding)的方式来实现这种预处理。

句向量确定单元420可以配置成基于多个初始推荐权重向量和所述多个词向量确定多个句向量S。

在一些实施例中，对于每一时间步，可以利用编码神经网络对预处理单元410生成的多个词向量进行处理，以确定分别与各词向量对应的当前编码隐藏状态向量。

通过将预处理单元410中生成的词向量作为输入，编码神经网络可以输出当前时间步与各词向量x₁、x₂、x₃…分别对应的当前编码隐藏状态向量h₁、h₂、h₃…。编码隐藏状态向量的数量和词向量的数量可以是相同的，也可以是不同的。例如，当根据源文本生成k个词向量时，编码神经网络可以对这k个词向量进行处理以生成k个对应的编码隐藏状态向量。k是大于一的整数。

在一些实施例中，初始推荐权重向量W可以被表示为向量[w₁、w₂…、w_k]。其中W的元素数量与编码隐藏状态向量的数量相同。其中初始推荐权重向量W中的每个元素表示用于利用当前编码隐藏状态向量确定句向量时各编码隐藏状态向量的权重系数。利用这些权重系数可以组合对应于编码神经网络输入的各词向量的编码隐藏状态向量的信息，从而形成包括各词向量信息的句向量。在一些实现方式中，句向量S可以表示为当前编码隐藏状态向量h₁、h₂…h_n的加权平均值。因此，利用预先训练好的预设数量的初始推荐权重向量W₁、W₂…、W_n可以得到预设数量的句向量S₁、S₂…、S_n。

推荐概率处理单元430可以配置成基于每个句向量与所述多个句向量中另一句向量之间的相关性调整所述多个初始推荐权重向量，以确定用于所述多个词语的推荐概率分布。

如图4所示，推荐概率处理单元430可以包括相关性确定子单元431和调整子单元432。

相关性确定子单元431可以配置成确定句向量之间的相关性。例如，可以将每个句向量与另一句向量进行组合，以生成组合句向量。

针对上述任一句向量，调整子单元432可以配置成基于该句向量与所述多个句向量中每个其他句向量的相关性确定该句向量的推荐系数。在一些实现方式中，该句向量的推荐系数可以表示为该句向量与所述多个句向量中每个其他句向量的相关性的总和。

上述推荐系数可以用于对用于生成对应句向量的初始推荐权重向量进行调整，以得到调整后的词概率向量。

在一些实施例中，调整子单元432可以将每个句向量的推荐系数与该句向量对应的词概率向量进行相乘，以调整该词概率向量中包含的针对每个词向量的编码隐藏状态向量的权重系数。例如，调整后的第i个词概率向量W_i’可以表示为W_i’＝Σλ_i*W_i。

在利用每个句向量的推荐系数对该句向量的词概率向量进行调整后，调整子单元432可以基于利用上述方式得到的多个调整后的词概率向量W’确定所述多个词语的推荐概率分布。

输出单元440可以配置成基于所述推荐概率分布确定要输出的词语。

其中所述当前词语概率分布可以是注意力概率分布a^t。所述注意力概率分布表示所述输入文本中的词语作为文本摘要中的词语的概率分布。在一种实现方式中，可以根据当前时间步的编码隐藏状态向量和解码隐藏状态向量确定注意力概率分布。

在一些实施例中，可以利用所述推荐概率分布对所述注意力概率分布进行调整，以确定调整后的注意力概率分布a’^t。利用调整后的注意力概率分布，可以确定所述输入文本中的词语作为文本摘要中的词语的概率分布。例如，可以从输入文本中选择概率最大的词语作为要输出的词语。

在一些实施例中，所述当前词语概率分布还可以包括生成概率分布P_vocab。所述生成词语概率分布表示所述文字实体词典中的词语作为文本摘要中的词语的概率分布。可以基于上述上下文向量和当前时间步的解码隐藏状态向量确定上述生成概率分布。然后，可以通过对所述生成概率分布和所述调整后的注意力概率分布进行加权求和可以确定输出词语概率分布。

在一些实施例中，可以对所述生成概率分布、所述注意力概率分布以及所述推荐概率分布进行加权求和以确定输出词语概率分布。在一种实现方式中，可以根据当前时间步的编码隐藏状态向量、解码隐藏状态向量、注意力概率分布、推荐概率分布以及上一时间步解码神经网络的输出确定用于对所述生成概率分布、所述注意力概率分布以及所述推荐概率分布进行加权求和的第二权重P_gen2。第二权重P_gen2可以实现为一个三维的向量的形式，其中该三维向量中的元素分别表示生成概率分布P_gen、注意力概率分布a_t以及推荐概率分布P_V的权重系数。

上述文本处理装置中使用的训练参数可以是利用预定的训练数据集训练的。例如，可以将训练数据输入上述文本处理装置中，并利用编码神经网络、解码神经网络以及用语确定句向量之间的关联性的初始推荐权重向量对源文本的词向量进行处理，以得到上述训练的输出词语概率分布。通过计算训练的输出词语概率分布中正解词语的概率损失可以对上述文本处理装置中的训练参数进行调整。其中，本公开涉及的文本生成网络的损失函数可以表示为公式(8)。

通过调整文本处理装置中的训练参数以使得上述损失最小能够实现针对上述文本处理装置的参数的训练。

利用本公开提供的文本处理装置，在生成例如文本摘要的内容时，可以根据输入文本中各词语之间组成的句向量之间的相关性确定输入文本中的词语在该文本内容中的重要程度，实现根据词语在文本内容中的重要性确定生成文本的内容的技术效果。尽管本公开中以生成摘要文本为例描述了本公开的原理，然而，本公开的内容不限于此。在不脱离本公开原理的情况下，也可以将本公开提供的文本处理方法用于文本扩充、文本改写等其他应用场景。

此外，根据本申请实施例的方法或装置也可以借助于图5所示的计算设备的架构来实现。图5示出了该计算设备的架构。如图5所示，计算设备500可以包括总线510、一个或至少两个CPU 520、只读存储器(ROM)530、随机存取存储器(RAM)540、连接到网络的通信端口550、输入/输出组件560、硬盘570等。计算设备500中的存储设备，例如ROM 530或硬盘570可以存储本申请提供的用于在视频中对目标进行检测的方法的处理和/或通信使用的各种数据或文件以及CPU所执行的程序指令。计算设备500还可以包括用户界面580。当然，图5所示的架构只是示例性的，在实现不同的设备时，根据实际需要，可以省略图5示出的计算设备中的一个或至少两个组件。

本申请的实施例也可以被实现为计算机可读存储介质。根据本申请实施例的计算机可读存储介质上存储有计算机可读指令。当所述计算机可读指令由处理器运行时，可以执行参照以上附图描述的根据本申请实施例的方法。所述计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。

本领域技术人员能够理解，本申请所披露的内容可以出现多种变型和改进。例如，以上所描述的各种设备或组件可以通过硬件实现，也可以通过软件、固件、或者三者中的一些或全部的组合实现。

此外，如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。

此外，虽然本申请对根据本申请的实施例的系统中的某些单元做出了各种引用，然而，任何数量的不同单元可以被使用并运行在客户端和/或服务器上。所述单元仅是说明性的，并且所述系统和方法的不同方面可以使用不同单元。

此外，本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

除非另有定义，这里使用的所有术语(包括技术和科学术语)具有与本发明所属领域的普通技术人员共同理解的相同含义。还应当理解，诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

上面是对本发明的说明，而不应被认为是对其的限制。尽管描述了本发明的若干示例性实施例，但本领域技术人员将容易地理解，在不背离本发明的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此，所有这些修改都意图包含在权利要求书所限定的本发明范围内。应当理解，上面是对本发明的说明，而不应被认为是限于所公开的特定实施例，并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本发明由权利要求书及其等效物限定。

Claims

1.一种文本处理装置，包括：

预处理单元，配置成对源文本进行预处理，以产生用于所述多个词语的多个词向量；

句向量确定单元，配置成基于多个初始推荐权重向量和所述多个词向量确定多个句向量；

推荐概率确定单元，配置成基于每个句向量与所述多个句向量中另一句向量之间的相关性调整所述多个初始推荐权重向量，以确定用于所述多个词语的推荐概率分布；以及

输出单元，配置成基于所述推荐概率分布确定要输出的词语。

2.如权利要求1所述的文本处理装置，其中，所述句向量确定单元配置成：

利用编码神经网络对所述多个词向量进行处理，以确定分别与各词向量对应的当前编码隐藏状态向量，

基于每个初始推荐权重向量和所述当前编码隐藏状态向量确定对应于该初始推荐权重向量的句向量。

3.如权利要求2所述的文本处理装置，其中，所述输出单元配置成：

基于所述当前编码隐藏状态向量，利用解码神经网络确定当前解码隐藏状态向量；

利用所述当前编码隐藏状态向量和所述当前解码隐藏状态向量确定当前词语概率分布；

基于所述当前词语概率分布和所述推荐概率分布确定要输出的词语。

4.如权利要求3所述的文本处理装置，其中所述当前词语概率分布包括生成概率分布和注意力概率分布，

所述输出单元配置成：

利用所述推荐概率分布对所述注意力概率分布进行调整，以确定调整后的注意力概率分布；

对所述生成概率分布和所述调整后的注意力概率分布进行加权求和以确定输出词语概率分布；以及

并将输出词语概率分布中概率最大的词语确定为要输出的词语。

5.如权利要求3所述的文本处理装置，其中所述当前词语概率分布包括生成概率分布和注意力概率分布，

所述输出单元配置成：

确定用于所述生成概率分布、所述注意力概率分布以及所述推荐概率分布的权重，以基于所述权重确定所述输出词语概率分布；以及

将输出词语概率分布中概率最大的词语确定为要输出的词语。

6.如权利要求1-5任一项所述的文本处理装置，其中推荐概率确定单元还包括相关性确定子单元，所述相关性确定子单元配置成：

针对每个句向量，将该句向量与另一句向量进行组合，以生成组合句向量；

利用相关性矩阵对所述组合句向量进行处理，以确定该句向量与该另一句向量之间的相关性。

7.如权利要求6所述的文本处理方法，其中，推荐概率确定单元还包括调整子单元，所述调整子单元配置成：

基于该句向量与所述多个句向量中每个其他句向量的相关性确定该句向量的推荐系数；

对于所述初始推荐权重向量中的每一个，利用对应于该初始推荐权重向量的句向量的推荐系数对该初始推荐权重向量进行调整，以得到调整后的词概率向量；

基于调整后的词概率向量确定所述多个词语的推荐概率分布。

8.一种文本处理方法，包括：

对源文本进行预处理，以产生用于所述多个词语的多个词向量；

基于多个初始推荐权重向量和所述多个词向量确定多个句向量；

基于每个句向量与所述多个句向量中另一句向量之间的相关性调整所述多个初始推荐权重向量，以确定用于所述多个词语的推荐概率分布；以及

基于所述推荐概率分布确定要输出的词语。

9.一种文本处理设备，包括：

处理器；以及

存储器，其中存储计算机可读程序指令，

其中，在所述计算机可读程序指令被所述处理器运行时执行如权利要求8所述的文本处理方法。

10.一种计算机可读存储介质，其上存储计算机可读指令，当所述计算机可读指令由计算机执行时，所述计算机执行如权利要求8所述的文本处理方法。