CN109635302A

CN109635302A - 一种训练文本摘要生成模型的方法和装置

Info

Publication number: CN109635302A
Application number: CN201811541752.3A
Authority: CN
Inventors: 卞东海; 蒋帅; 陈思姣; 罗雨; 曾启飞
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-12-17
Filing date: 2018-12-17
Publication date: 2019-04-16
Anticipated expiration: 2038-12-17
Also published as: CN109635302B

Abstract

本发明实施例提出一种训练文本摘要生成模型的方法和装置，其中方法包括：确定与文本摘要生成模型的目标似然函数等价的等价目标函数；所述等价目标函数由采用第一动态词汇表生成摘要的第一损失回报、采用第二动态词汇表生成摘要的第二损失回报、所述第一动态词汇表的生成概率、以及所述第二动态词汇表的生成概率确定；其中，所述第一动态词汇表包括词汇选择概率最大的多个词汇，所述第二动态词汇表包括根据词汇选择概率进行加权采样得到的词汇；计算所述等价目标函数的值，对所述等价目标函数的值进行优化，以训练所述文本摘要生成模型。本发明实施例能够使文本摘要生成的结果更快、生成质量更高。

Description

一种训练文本摘要生成模型的方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种训练文本摘要生成模型的方法和装置。

背景技术

现有的文本摘要生成技术主要有两大类。一种称为抽取式摘要生成方式，即从原文中抽取部分文本组合成摘要。另一种称为理解式摘要生成方式，即像人一样去总结文章内容，然后生成文章的摘要。第二种方法目前已经取得了相当大的进展，且更加符合摘要的本质，因此变得越来越流行。在理解式摘要生成方法中，绝大部分是使用了深度学习的方法，该方法在编码阶段将文章内容高度抽象化，概括文章最核心的部分，最后解码将该概括信息进行整合输出。理解式摘要生成方法一般采用基于注意力机制的序列到序列(Seq2Seq，Sequence to Sequence)深度学习文本摘要生成模型。

在解码阶段，现有的深度学习方法使用的解码词汇是固定的，当文本摘要生成模型使用的词汇量比较大时(中文分词后在数十万量级)，解码的计算量巨大，并且耗时长。例如，基于集束搜索(beam-search)解码方法，解码时间会随着集束(beam)的增长变得非常长。例如，当beam＝20，文本摘要生成模型使用词汇量v＝1万时，每次输出的搜索范围是20万；当词汇量v＝10万时，搜索范围就变成了200万，二者相差一个量级。一般生成摘要的长度在50-100字，这种千万量级的计算在时间差距上非常明显。另外，解码时巨大的词汇搜索空间也使得文本摘要生成模型在做生成词汇选择时变得困难，导致最终生成的摘要质量差。

发明内容

本发明实施例提供一种训练文本摘要生成模型的方法及装置，以至少解决现有技术中的以上技术问题。

第一方面，本发明实施例提供了一种训练文本摘要生成模型的方法，包括：

确定与文本摘要生成模型的目标似然函数等价的等价目标函数；

所述等价目标函数由采用第一动态词汇表生成摘要的第一损失回报、采用第二动态词汇表生成摘要的第二损失回报、所述第一动态词汇表的生成概率、以及所述第二动态词汇表的生成概率确定；其中，所述第一动态词汇表包括词汇选择概率最大的多个词汇，所述第二动态词汇表包括根据词汇选择概率进行加权采样得到的词汇；

计算所述等价目标函数的值，对所述等价目标函数的值进行优化，以训练所述文本摘要生成模型。

在一种实施方式中，所述文本摘要生成模型为序列到序列模型；

所述等价目标函数为：

其中，所述D_m为所述第一动态词汇表；

所述Ds为所述第二动态词汇表；

所述R(D_m)为所述采用第一动态词汇表生成摘要的第一损失回报；

所述R(Ds)为采用所述第二动态词汇表生成摘要的第二损失回报；

所述A(Dm，X)为所述第一动态词汇表的生成概率；

所述A(Ds，X)为所述第二动态词汇表的生成概率；

所述X为输入所述文本摘要生成模型的文本；

所述函数为指示函数，当所述函数的自变量取值大于0时，函数的取值为1；当所述函数的自变量取值小于或等于0时，函数的取值为0。

在一种实施方式中，所述词汇选择概率由以下式子确定：

其中，所述B_n为所述词汇选择概率；

所述n为词汇索引，1≤n≤|V|，|V|为所述文本摘要生成模型的训练集的词汇数；

h_t为所述文本摘要生成模型的编码端的最后输出向量；

为所述文本摘要生成模型的权重；

b_n为附加项；

δ为概率函数。

在一种实施方式中，还包括：采用训练完成的所述文本摘要生成模型预测待处理文本的摘要。

在一种实施方式中，所述预测包括：

采用所述训练完成的文本摘要生成模型，预测所述待处理文本对应的第一动态词汇表所包含的词汇；

采用所述训练完成的文本摘要生成模型及所述第一动态词汇表所包含的词汇，预测所述待处理文本对应的摘要。

第二方面，本发明实施例还提出一种训练文本摘要生成模型的装置，包括：

等价目标函数确定模块，用于确定与文本摘要生成模型的目标似然函数等价的等价目标函数；所述等价目标函数由采用第一动态词汇表生成摘要的第一损失回报、采用第二动态词汇表生成摘要的第二损失回报、所述第一动态词汇表的生成概率、以及所述第二动态词汇表的生成概率确定；其中，所述第一动态词汇表包括词汇选择概率最大的多个词汇，所述第二动态词汇表包括根据词汇选择概率进行加权采样得到的词汇；

训练模块，用于计算所述等价目标函数的值，对所述等价目标函数的值进行优化，以训练所述文本摘要生成模型。

所述等价目标函数确定模块确定的等价目标函数为：

其中，所述D_m为所述第一动态词汇表；

所述Ds为所述第二动态词汇表；

所述A(Dm，X)为所述第一动态词汇表的生成概率；

所述A(Ds，X)为所述第二动态词汇表的生成概率；

所述X为输入所述文本摘要生成模型的文本；

在一种实施方式中，所述词汇选择概率由以下式子确定：

其中，所述B_n为所述词汇选择概率；

h_t为所述文本摘要生成模型的编码端的最后输出向量；

为所述文本摘要生成模型的权重；

b_n为附加项；

δ为概率函数。

在一种实施方式中，还包括：

预测模块，用于采用训练完成的所述文本摘要生成模型预测待处理文本的摘要。

在一种实施方式中，所述预测模块，用于采用所述训练完成的文本摘要生成模型，预测所述待处理文本对应的第一动态词汇表所包含的词汇；采用所述训练完成的文本摘要生成模型及所述第一动态词汇表所包含的词汇，预测所述待处理文本对应的摘要。第三方面，本发明实施例提供了一种训练文本摘要生成模型的设备，所述设备的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，所述设备的结构中包括处理器和存储器，所述存储器用于存储支持所述设备执行上述训练文本摘要生成模型的方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述设备还可以包括通信接口，用于与其他设备或通信网络通信。

第四方面，本发明实施例提供了一种计算机可读存储介质，用于存储训练文本摘要生成模型的设备所用的计算机软件指令，其包括用于执行上述训练文本摘要生成模型的方法所涉及的程序。

上述技术方案中的一个技术方案具有如下优点或有益效果：

本发明实施例提出一种训练文本摘要生成模型的方法，确定与文本摘要生成模型的损失目标函数等价的等价目标函数，在训练文本摘要生成模型时，通过优化该等价目标函数的值实现对文本摘要生成模型的损失目标函数进行优化的目的，从而建立文本摘要生成模型。由于采用动态词汇表的方式训练模型，本发明实施例能够使得文本摘要生成的结果更快、生成质量更高。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1为本发明实施例训练文本摘要生成模型的方法中文本摘要生成模型的架构示意图；

图2为本发明实施例的一种训练文本摘要生成模型的方法实现流程图；

图3为本发明实施例的另一种训练文本摘要生成模型的方法实现流程图；

图4为本发明实施例训练文本摘要生成模型的方法中，对Seq2Seq模型进行预处理的方法示意图；

图5为本发明实施例的另一种训练文本摘要生成模型的方法实现流程图；

图6为本发明实施例的一种训练文本摘要生成模型的装置结构示意图；

图7为本发明实施例的一种训练文本摘要生成模型的设备结构示意图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

本发明实施例主要提供了一种文本摘要生成方法和装置，该方法基于动态词汇表。其设计的基本思路是：生成摘要的词汇应该大部分来源于原文本，同时含有少量的新词。如果有一种方法可以选出其需要的这部分词汇，那么无论是解码效率还是摘要生成质量应该都会有所提升。基于这一思路，本发明实施例提出的文本摘要生成方法首先预测用于生成摘要的动态词汇表，然后基于该动态词汇表预测最终生成的摘要。形式化地表示该思想如公式(1)所示。

p(Y|X)＝p(Y|D，X)p(D|X) (1)

其中，X为输入的文本；Y为输出的摘要；D为动态词汇表；一般而言，D的长度远小于文本摘要生成模型固定词典的长度；

p(Y|X)为在输入文本为X的条件下，输出摘要为Y的概率；

p(D|X)为在输入文本为X的条件下，动态词汇表为D的概率；

p(Y|D，X)为在输入文本为X并且动态词汇表为D的条件下，输出摘要为Y的概率。

动态词汇表的构建是整个文本摘要生成模型最终效果好坏的关键部分。一个好的动态词表应该包含原文本中的大部分词汇，同时包含摘要需要的一些新颖性词汇。因此，本发明实施例的动态词汇表分为2部分，第一部分为原文本中出现的词汇，称为局部词；第二部分为在原文本中没有出现的词汇，称为新颖词。

如图1为本发明实施例训练文本摘要生成模型的方法中文本摘要生成模型的架构示意图。

在图1中，左侧为现有的用于生成文本摘要的Seq2Seq模型，包括编码端和解码端。现有的文本摘要生成方法中，文本从左侧的编码端输入，编码端的输出为固定长度的序列；该序列进一步输入解码端，解码端输出该文本的摘要。

图1的右侧为本发明实施例的文本摘要生成模型。根据解码端输出的序列获取包含新颖词的词汇集，将包含新颖词的词汇集及包含局部词的原文本词汇输入采样器(sampler)，得到动态词汇表。

以下公式(2)为词汇概率计算公式：

其中，B_n为一个向量，表示文本摘要生成模型的训练集中每一个词汇被选择输入采样器的概率，以下简称为词汇选择概率；

n为词汇索引，1≤n≤|V|，|V|为文本摘要生成模型的训练集的词汇数；

h_t为文本摘要生成模型的编码端的最后输出向量；

为文本摘要生成模型的权重；

b_n为附加项；b_n可以具体为偏置或者截距，其主要功能是扩展δ函数可表示的空间范围，提高文本摘要生成模型的学习精度；

δ为概率函数；δ可以采用逻辑回归函数。

以下公式(3)为采样计算公式：

D＝ψ(B_n) (3)

其中，ψ为动态词汇采样函数；

D为采样后的得到动态词汇表。

其中，ψ有两种形式。第一种为取词汇选择概率最大的T个词汇作为动态词汇表，这种情况称为第一动态词汇表。第二种为根据词汇选择概率进行加权采样，将采样得到的T个词汇作为动态词汇表，这种情况称为第二动态词汇表。在加权采样过程中，每个词汇的采样权重设置为该词汇的词汇选择概率；这样，一个词汇的词汇选择概率越大，则该词汇被采样出的概率也越大，但并不一定每次都会被采样出。因此，每一次加权采样得到的第二动态词汇表结果可能是不同的。

上述第一动态词汇表和第二动态词汇表中，词汇个数T的大小依据文本的长度设定，一般比文本的词汇量多10％。在采用文本摘要生成模型预测文本的摘要时，采用第一动态词汇表；在对文本摘要生成模型进行训练时，采用第一动态词汇表和第二动态词汇表。

采样之后就可以获得摘要生成需要的动态词汇表。如果文本中出现了训练集中所没有的词汇(即未登录词)，则可以将生成的动态词汇表与未登录词拼接整合，获得最终预测需要用到的动态词汇表。

对于训练集中的输入样本X，本发明实施例提出的基于动态词汇表机制的文本摘要生成模型的目标似然函数可以采用公式(4)表示。

L’＝log[p(Y|X)]

＝log[∑_Dp(Y|D，X)p(D|X)] (4)

其中，p(Y|X)为在输入文本为X的条件下，输出摘要为Y的概率；

D为动态词汇表；

p(Y|D，X)为在输入文本为X并且动态词汇表为D的条件下，输出摘要为Y的概率；

p(D|X)为在输入文本为X的条件下，动态词汇表为D的概率；

log默认以2为底数，通常省略。在本发明实施例以下的公式中，log均默认以2为底数。

在训练文本摘要生成模型时，需要优化目标似然函数L’。由于D的本质为要学习的动态词汇概率，因此D是一个隐变量，并且D还是对数函数的真数，因此优化起来十分困难。鉴于此，本发明实施例可以将对目标似然函数L’的优化转化为对其他函数的优化问题，以下详细介绍。

如公式(5)所示：

其中，D为动态词汇表；

p(D|X)为在输入文本为X的条件下，动态词汇表为D的概率；

|V|为文本摘要生成模型的训练集的词汇数；

K为预测时到当前为止摘要输出的词汇数；

y_k为预测结果中的第k个输出词汇。

如公式(5)可见，L≤L’，因此L是L’的下界。那么，对L’的优化可以转化为对L的优化问题。

由于每个词汇都有加入动态词汇表或不加入动态词汇表两种可能性，故D的取值可能性为2^|V|种。因此，优化L是一个非确定性多项式难题(NP-hard，non-deterministicpolynomial-hard)问题，直接优化L不可行。鉴于此，可以采用以下思路实现对L的优化。

采用将D的生成概率与文本摘要生成模型的最终目标联合学习的方式，该方式可以学习到最优的模型参数。考虑到模型性能问题，本发明实施例采用了联合学习的方式，提出了一种基于蒙特卡洛采样的强化学习方法来近似解决优化L的问题。

蒙特卡洛采样是常用的随机采样方法，该方法的优势是可以在随机采样时得到近似结果，且随着采样数增多，近似结果将会无限逼近于真实结果。在强化学习中，蒙特卡洛方法被用来估计不同的动作行为在将来可能的回报，并根据该回报确定当前动作的好坏。

采用强化学习方法，可以将动态词汇表的生成概率看作强化学习中的动作发出的概率，采用公式(6)表示：

A(D，X)＝-logp(D|X)＝-∑_W∈DlogB_W (6)

其中，A(D，X)表示动态词汇表D的生成概率；

p(D，X)为在输入文本为X的条件下，动态词汇表为D的概率；

B_w为词汇w被选择输入采样器的概率；

词汇w为动态词汇表D中的任意词汇。

训练文本摘要生成模型的似然函数得分可以看做动作A的回报R，则对于任意采样出的动态词汇表D，我们可以使用公式(7)近似计算其回报R。

R(D)＝log[p(Y|X，D)] (7)

其中，R(D)为采用所述动态词汇表D生成摘要的损失回报；

可见，为了可以在文本摘要生成模型的训练过程中联合地训练摘要生成和动态词汇表选择，可以将上述优化L的问题转化为优化以下公式(8)中的L_rl的问题。

由以上的分析可见，对文本摘要生成模型的目标似然函数L’的优化等同于对L的优化，而对L的优化又等同于对L_rl的优化。因此，对L_rl的优化等同于对L’的优化，L_rl可以被认为是与L’等价的函数，以下将L_rl称为等价目标函数。

其中，D_m为第一动态词汇表，D_m包括词汇选择概率最大的T个词汇；T的大小依据文本的长度定义，一般比文本的词汇量多10％。其中，词汇选择概率由公式(2)确定。

Ds为第二动态词汇表，Ds包括根据词汇选择概率进行加权采样得到的T个词汇；其中，词汇选择概率由公式(2)确定。

R(D_m)为采用D_m生成摘要的第一损失回报；

R(D_S)为采用D_S生成摘要的第二损失回报；

R(D_m)和R(D_m)采用上述公式(7)计算得到；

A(Dm，X)为D_m的生成概率；

A(Ds，X)为D_S的生成概率；

A(Dm，X)和A(Ds，X)采用上述公式(6)计算得到；

X为输入文本摘要生成模型的文本；

函数为指示函数，当函数的自变量取值大于0时，函数的取值为1；当函数的自变量取值小于或等于0时，函数的取值为0。

可见，当R(D_m)<R(D_s)时，最小化L_rl等价于最大化采样出的词汇下次被选中的概率；反之，当R(D_m)≥R(D_s)时，最小化L_rl等价于最小化采样出的词汇下次被选中的概率。

并且，最小化L_rl等价于最大化最终的摘要生成似然函数。

可见，本发明实施例设计的基于动态词汇表的文本摘要生成模型，可以通过对等价目标函数L_rl的优化实现同时训练文本摘要生成和词汇选择，等价于对文本摘要生成模型的目标似然函数的优化。

综合上述分析，本发明实施例提出一种训练文本摘要生成模型的方法，该模型基于强化学习的动态词汇表机制。如图2所示，该方法包括：

S21：确定与文本摘要生成模型的目标似然函数等价的等价目标函数；

S22：计算所述等价目标函数的值，对所述等价目标函数的值进行优化，以训练所述文本摘要生成模型。

在一种可能的实施方式中，文本摘要生成模型为Seq2Seq模型；

所述等价目标函数为：

其中，所述D_m为所述第一动态词汇表；

所述Ds为所述第二动态词汇表；

所述R(D_s)为采用所述第二动态词汇表生成摘要的第二损失回报；

所述A(Dm，X)为所述第一动态词汇表的生成概率；

所述A(Ds，X)为所述第二动态词汇表的生成概率；

所述X为输入文本摘要生成模型的文本；

在一种可能的实施方式中，A(Dm，X)和A(Ds，X)可以由上述公式(6)确定，R(D_m)和R(D_s)可以由上述公式(7)确定。

在一种可能的实施方式中，词汇选择概率由以下式子确定：

其中，所述B_n为所述词汇选择概率；

h_t为所述文本摘要生成模型的编码端的最后输出向量；

为所述文本摘要生成模型的权重；

b_n为附加项；

δ为概率函数。

如图3为本发明实施例的另一种训练文本摘要生成模型的方法实现流程图，该方法包括：

S22：计算所述等价目标函数的值，对所述等价目标函数的值进行优化，以训练所述文本摘要生成模型；

S33：采用训练完成的所述文本摘要生成模型预测待处理文本的摘要。

其中，步骤S21和S22与上述实施例中的步骤S21和S22相同。

在采用本发明实施例提出的训练方法训练文本摘要生成模型之前，可以首先对文本摘要生成模型进行预处理。以Seq2Seq模型为例，如图4为对Seq2Seq模型进行预处理的方法示意图。

预训练的步骤包括：首先，将训练集数据转换为深度学习常用的表示方式，即[0,1,0,…0,1,0]向量表示。然后，为了获得更好的模型，用训练集数据作为输入，预训练一个基本的Seq2Seq深度学习模型。

在图4中，上侧的虚线部分为对Seq2Seq模型进行预训练的过程，下侧为采用Seq2Seq模型进行预测的过程。本发明实施例提出的训练文本摘要生成模型的方法是基于该预训练框架的。图4中的适应性矩估计(ADAM，adaptive moment estimation)算法是一种梯度下降学习算法。在深度学习中，梯度下降用来优化模型参数，而ADAM算法会使整个优化过程更加高效稳定。图4中的学习率代表采用ADAM算法进行优化时的步长，用于调整深度学习算法优化的速度和方向。

如图5为本发明实施例训练Seq2Seq模型的一种方法实现流程图，包括：

S501：初始化Seq2Seq模型。具体可以包括确定Seq2Seq模型的训练集V，初始化Seq2Seq模型的所有参数，将平均最低损失(BestLoss)的取值设置为100，将当前平均损失值(CurrentLoss)的取值设置为0。

S502：采用图4所示的预训练方式对Seq2Seq模型进行预训练。

S503：判断是否达到最大训练轮次；如果是，则确定训练后的Seq2Seq模型的参数，对Seq2Seq模型的训练完成，结束本实施例执行流程；否则，执行步骤S504。

S504：判断验证集损失在连续两轮中是否持续增长；如果是，则确定训练后的Seq2Seq模型的参数，对Seq2Seq模型的训练完成；否则，执行步骤S505。

S505：判断一轮训练是否结束；如果是，则返回执行步骤S503；否则，执行步骤506。

S506：计算训练集中每个词的词汇选择概率，具体可以采用前述公式(2)进行计算。

S507：选择词汇选择概率最大的多个词汇，将选择的词汇作为第一动态词汇表，即D_m。

S508：计算采用D_m生成摘要的第一损失回报，即R(D_m)。

S509：采用步骤S508计算得到的R(D_m)更新CurrentLoss，具体可以将CurrentLoss的取值更新为R(D_m)的值。

S510：采用更新后的CurrentLoss更新BestLoss，具体可以将本轮训练已计算出的所有CurrentLoss的平均值作为BestLoss的值。

S511：判断BestLoss在一轮训练中是否连续1000次增长，如果是，则将梯度算法的学习率减半，继续执行步骤S512；否则，直接执行步骤S512。

S512：根据词汇选择概率进行加权采样，得到第二动态词汇表，即Ds。

S513：计算采用Ds生成摘要的第二损失回报，即R(D_s)。

S514：判断是否达到预设的采样次数，在本实施例中，预设的采样次数可以为20次。如果是，执行步骤S515；否则，则返回执行步骤S512。

S515：采用上述S508中计算得到的R(D_m)、以及每次采样时步骤S513中计算得到的R(D_s)，利用上述公式(8)计算每次采样对应的L_rl。对于采样次数为20次的实施方式，本步骤能够计算出20个L_rl。将每次采样对应的L_rl求平均值，得到Seq2Seq模型本次训练的L_rl。

S516：使用梯度算法对L_rl进行优化，更新Seq2Seq模型的参数，训练Seq2Seq模型。之后，返回执行步骤S505。

由上述流程可见，本发明实施例计算Seq2Seq模型的L_rl，将计算得出的L_rl作为与Seq2Seq模型的目标似然函数等价的等价目标函数；在训练过程中，通过对L_rl进行优化，达到训练Seq2Seq模型的效果。

以上介绍了训练文本摘要生成模型的实施方式。在训练完成之后，本发明实施例可以进一步采用训练完成的文本摘要生成模型进行文本摘要的预测，即执行上述步骤S33。在一种可能的实施方式中，预测文本摘要的过程包括：

第一步：采用训练完成的文本摘要生成模型，预测待处理文本(也就是被预测摘要的文本)对应的第一动态词汇表所包含的词汇。

在本步骤中，可以采用上述公式(2)和(3)，利用训练完成的文本摘要生成模型，生成待处理文本对应的第一动态词汇表所包含的词汇。

其中，由于文本摘要生成模型已被训练完成，公式(2)中的的具体取值可以确定，因此可以采用公式(2)计算出每个词汇的词汇选择概率。之后，采用公式(3)的第一种形式，即取词汇选择概率最大的T个词汇作为第一动态词汇表所包含的词汇。

第二步：采用所述训练完成的文本摘要生成模型及所述第一动态词汇表所包含的词汇，预测所述待处理文本对应的摘要。

在本步骤中，摘要所使用的词汇全部来自于上述第一步中确定的第一动态词汇表(包括局部词和新颖词)，由于使用了较小的词汇量，因此预测摘要的速度较快，并且预测结果更准确。

本发明实施例还提出一种训练文本摘要生成模型的装置。参见图6，图6为该装置结构示意图，包括：

等价目标函数确定模块601，用于确定与文本摘要生成模型的目标似然函数等价的等价目标函数；所述等价目标函数由采用第一动态词汇表生成摘要的第一损失回报、采用第二动态词汇表生成摘要的第二损失回报、所述第一动态词汇表的生成概率、以及所述第二动态词汇表的生成概率确定；其中，所述第一动态词汇表包括词汇选择概率最大的多个词汇，所述第二动态词汇表包括根据词汇选择概率进行加权采样得到的词汇；

训练模块602，用于计算所述等价目标函数的值，对所述等价目标函数的值进行优化，以训练所述文本摘要生成模型。

在一种可能的实施方式中，所述文本摘要生成模型为序列到序列模型；

所述等价目标函数确定模块确定的等价目标函数为：

其中，所述D_m为所述第一动态词汇表；

所述Ds为所述第二动态词汇表；

所述A(Dm，X)为所述第一动态词汇表的生成概率；

所述A(Ds，X)为所述第二动态词汇表的生成概率；

所述X为输入所述文本摘要生成模型的文本；

在一种可能的实施方式中，所述词汇选择概率由以下式子确定：

其中，所述B_n为所述词汇选择概率；

h_t为所述文本摘要生成模型的编码端的最后输出向量；

为所述文本摘要生成模型的权重；

b_n为附加项；

δ为概率函数。

在一种可能的实施方式中，所述装置还可以包括：

预测模块603，用于采用训练完成的所述文本摘要生成模型预测待处理文本的摘要。

在一种可能的实施方式中，预测模块603，用于采用所述训练完成的文本摘要生成模型，预测所述待处理文本对应的第一动态词汇表所包含的词汇；采用所述训练完成的文本摘要生成模型及所述第一动态词汇表所包含的词汇，预测所述待处理文本对应的摘要。

本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述，在此不再赘述。

本发明实施例还提出一种训练文本摘要生成模型的设备，如图7为本发明实施例的训练文本摘要生成模型的设备结构示意图，包括：

存储器11和处理器12，存储器11存储有可在处理器12上运行的计算机程序。所述处理器12执行所述计算机程序时实现上述实施例中的获取推荐系统最优参数组合的方法。所述存储器11和处理器12的数量可以为一个或多个。

所述设备还可以包括：

通信接口13，用于与外界设备进行通信，进行数据交换传输。

存储器11可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

如果存储器11、处理器12和通信接口13独立实现，则存储器11、处理器12和通信接口13可以通过总线相互连接并完成相互之间的通信。所述总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线，外部设备互连(PCI，PeripheralComponent Interconnect)总线或扩展工业标准体系结构(EISA，Extended IndustryStandard Architecture)等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器11、处理器12和通信接口13集成在一块芯片上，则存储器11、处理器12和通信接口13可以通过内部接口完成相互间的通信。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

综上所述，本发明实施例提出的训练文本摘要生成模型的方法和装置，采用基于强化学习的动态词汇表方式训练文本摘要生成模型，确定与文本摘要生成模型的损失目标函数等价的等价目标函数。在训练文本摘要生成模型时，通过优化该等价目标函数的值实现对文本摘要生成模型的损失目标函数进行优化的目的，从而建立文本摘要生成模型。后续在预测摘要的过程中，可以采用训练完成的文本摘要生成模型首先训练文本对应的动态词汇表，再采用动态词汇表及文本摘要生成模型训练文本的摘要。由于摘要所需的词汇全部来自于动态词汇表，预测过程采用的词汇量较小，因此预测速度较快，并且预测结果更准确。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种训练文本摘要生成模型的方法，其特征在于，包括：

2.根据权利要求的1所述的方法，其特征在于，所述文本摘要生成模型为序列到序列模型；

所述等价目标函数为：

其中，所述D_m为所述第一动态词汇表；

所述Ds为所述第二动态词汇表；

所述A(Dm，X)为所述第一动态词汇表的生成概率；

所述A(Ds，X)为所述第二动态词汇表的生成概率；

所述X为输入所述文本摘要生成模型的文本；

3.根据权利要求的1或2所述的方法，其特征在于，所述词汇选择概率由以下式子确定：

其中，所述B_n为所述词汇选择概率；

h_t为所述文本摘要生成模型的编码端的最后输出向量；

为所述文本摘要生成模型的权重；

b_n为附加项；

δ为概率函数。

4.根据权利要求的1或2所述的方法，其特征在于，还包括：

采用训练完成的所述文本摘要生成模型预测待处理文本的摘要。

5.根据权利要求的4所述的方法，其特征在于，所述预测包括：

6.一种训练文本摘要生成模型的装置，其特征在于，包括：

7.根据权利要求的6所述的装置，其特征在于，所述文本摘要生成模型为序列到序列模型；

所述等价目标函数确定模块确定的等价目标函数为：

其中，所述D_m为所述第一动态词汇表；

所述Ds为所述第二动态词汇表；

所述A(Dm，X)为所述第一动态词汇表的生成概率；

所述A(Dx，X)为所述第二动态词汇表的生成概率；

所述X为输入所述文本摘要生成模型的文本；

8.根据权利要求的6或7所述的装置，其特征在于，所述词汇选择概率由以下式子确定：

其中，所述B_n为所述词汇选择概率；

h_t为所述文本摘要生成模型的编码端的最后输出向量；

为所述文本摘要生成模型的权重；

b_n为附加项；

δ为概率函数。

9.根据权利要求的6或7所述的装置，其特征在于，还包括：

10.根据权利要求的9所述的装置，其特征在于，所述预测模块，用于采用所述训练完成的文本摘要生成模型，预测所述待处理文本对应的第一动态词汇表所包含的词汇；采用所述训练完成的文本摘要生成模型及所述第一动态词汇表所包含的词汇，预测所述待处理文本对应的摘要。

11.一种训练文本摘要生成模型的设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。

12.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一所述的方法。