CN110414003B

CN110414003B - 建立文本生成模型的方法、装置、介质和计算设备

Info

Publication number: CN110414003B
Application number: CN201910690023.2A
Authority: CN
Inventors: 黄民烈; 柯沛; 朱小燕
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-07-29
Filing date: 2019-07-29
Publication date: 2021-09-14
Anticipated expiration: 2039-07-29
Also published as: CN110414003A

Abstract

本发明的实施方式提供了一种建立文本生成模型的方法。该方法包括：将基于真实数据采样生成的至少一个训练样本输入鉴别器，以得到所述训练样本的奖励分数；基于所述训练样本及其奖励分数训练生成器。通过基于真实数据获得的训练样本以及鉴别器输出的奖励分数训练生成器，本发明的方法使得训练过程更加稳定，并且显著地提升了生成文本的质量。此外，本发明的实施方式提供了一种建立文本生成模型的装置、介质和计算设备。

Description

建立文本生成模型的方法、装置、介质和计算设备

技术领域

本发明的实施方式涉及自然语言处理领域，更具体地，本发明的实施方式涉及一种建立文本生成模型的方法、装置、介质和计算设备。

背景技术

文本自动生成是自然语言处理领域的一个重要研究方向，实现文本自动生成也是人工智能走向成熟的一个重要标志。我们期待未来有一天计算机能够像人类一样写作，撰写出高质量的自然语言文本。文本生成的应用在生活中十分广泛，例如机器翻译、智能问答、对话系统、文本摘要和诗歌创作。利用文本生成，我们可以实现更加智能和自然的人机交互，我们也可以通过文本自动生成系统替代编辑，实现新闻的自动撰写与发布。

在早期，使用循环神经网络语言模型来进行文本生成，使用最大似然估计来进行训练，该方法在训练时根据真实数据的上文信息生成下文，测试时则根据模型生成的上文信息来生成下文，训练和测试的不一致性影响了生成效果。后面使用强化学习和对抗网络来进行文本生成，解决了这个问题，虽然改进之后，可以生成质量比较高的文本，但是由于强化学习训练算法(如策略梯度)的不稳定性，模型的性能容易出现较大波动。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，该概述并不是关于本发明的穷举性概述，它并非意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为后文的具体实施方式部分的铺垫。

鉴于以上提出的问题，本发明提出了一种建立文本生成模型的方法，包括：

将基于真实数据采样生成的至少一个训练样本输入鉴别器，以得到所述训练样本的奖励分数；

基于所述训练样本及其奖励分数训练生成器。

在本发明的一个实施例中，基于真实数据以及生成器生成的数据以为真实数据分配更高的奖励分数为目标训练所述鉴别器。

在本发明的一个实施例中，基于所述真实数据采样生成训练样本，包括：

基于真实数据构建静态分布并从中获取训练样本。

在本发明的一个实施例中，训练样本包括从所述静态分布中获得的多个以真实数据样本为基础生成的新样本。

在本发明的一个实施例中，所述新样本由以下步骤获得：

获取一个真实数据文本；

从所述真实数据文本中选取至少一个可替换词/字；

确定替换每一个可替换词/字的候选替换词/字；

采用候选替换词/字替换所述真实数据文本中相应位置的可替换词/字，以生成所述新样本。

在本发明的一个实施例中，根据所述真实数据文本与待生成新样本之间的编辑距离确定所述真实数据文本中的可替换的位置。

在本发明的一个实施例中，基于所述真实数据文本的长度确定编辑距离。

在本发明的一个实施例中，基于每一个可替换位置的上下文确定候选替换词/字。

在本发明的一个实施例中，从词汇表中进行采样以替换相应的可替换词/字。

在本发明的一个实施例中，采样的策略至少包括随机采样和约束采样中的一个。

在本发明的一个实施例中，采用含奖励的最大似然的方法基于所述训练样本及其奖励分数训练生成器。

在本发明的一个实施例中，采用强化学习的理论从现有的生成式对抗网络中导出所述生成器的训练目标。

在本发明的一个实施例中，所述生成器的训练目标被配置为生成能够获得更高奖励分数且多样化的文本。

在本发明的一个实施例中，引入指数收益分布来连接训练所述生成器时强化学习的目标函数与含奖励的最大似然方法的目标函数。

在本发明的一个实施例中，通过重要性采样将鉴别器输出奖励分数的过程从所述指数收益分布采样的过程中分离。

在本发明的一个实施例中，基于所述训练样本及其奖励分数训练生成器，包括：

基于所述静态分布以及鉴别器输出的奖励分数设计奖励函数；

基于所述训练样本以及根据所述奖励函数得到的奖励训练所述生成器。

在本发明的一个实施例中，所述奖励函数被设计为鼓励所述生成器生成采样概率高且能够获得鉴别器的高奖励分数的文本。

在本发明的一个实施例中，所述真实数据为对话文本数据。

本发明还提供一种建立文本生成模型的装置，包括：

训练数据获取模块，被配置为将基于真实数据采样生成的至少一个训练样本输入鉴别器，以得到所述训练样本的奖励分数；

生成器训练模块，被配置为基于所述训练样本及其奖励分数训练生成器。

在本发明的一个实施例中，所述装置还包括：

鉴别器训练模块，被配置为基于真实数据以及生成器生成的数据以为真实数据分配更高的奖励分数为目标训练所述鉴别器。

在本发明的一个实施例中，所述训练数据获取模块包括：

训练样本获取单元，被配置为基于真实数据构建静态分布并从中获取训练样本。

在本发明的一个实施例中，所述训练样本获取单元还包括：

真实样本获取子单元，被配置为获取一个真实数据文本；

可替换词/字子单元，被配置为从所述真实数据文本中选取至少一个可替换词/字；

候选替换词/字子单元，被配置为确定替换每一个可替换词/字的候选替换词/字；

新样本生成子单元，被配置为采用候选替换词/字替换所述真实数据文本中相应位置的可替换词/字，以生成所述新样本。

在本发明的一个实施例中，所述生成器训练模块包括：

奖励函数配置单元，被配置为基于所述静态分布以及鉴别器输出的奖励分数设计奖励函数；

生成器训练单元，被配置为基于所述训练样本以及根据所述奖励函数得到的奖励训练所述生成器。

在本发明的一个实施例中，所述真实数据为对话文本数据。

本发明还提供一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行前述任一方法。

本发明还提供一种计算设备，所述计算设备包括：处理器；用于存储所述处理器可执行指令的存储器；

所述处理器，用于执行前述任一方法。

根据本发明实施方式的建立文本生成模型的方法、介质、装置和计算设备，通过基于真实数据获得的训练样本以及鉴别器输出的奖励分数训练生成器，使得训练过程更加稳定，并且显著地提升了文本生成的质量。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1为根据本发明实施方式提供的一种建立文本生成模型的方法的步骤流程图；

图2为根据本发明实施方式提供的整体模型图；

图3为根据本发明实施方式提供的一种建立文本生成模型装置的结构示意图；

图4为根据本发明实施方式提供的一种计算设备的示意图；

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

现参照附图对本发明的实施方式进行详细描述。应注意，以下描述仅仅是示例性的，而并不旨在限制本发明。此外，在以下描述中，将采用相同的附图标记表示不同附图中的相同或相似的部件。在以下描述的不同实施方式中的不同特征，可彼此结合，以形成本发明范围内的其他实施方式。

下面结合图1来描述根据本发明示例性实施方式的建立文本生成模型的方法，所述方法包括：

步骤S110，将基于真实数据采样生成的至少一个训练样本输入鉴别器，以得到所述训练样本的奖励分数；

文本生成可以采用公式化语言表示如下:给定真实数据分布P_data(X),任务是训练文本生成模型(生成器)G_θ,其中P_Gθ(X)可以很好地拟合P_data(X)。在这个公式中,X＝x₁x₂…x_m，x_t(1≤t≤m)表示词汇表V中的单词。

首先，在本发明的实施方式中，训练鉴别器

以区分真实数据和生成器(生成模型)生成的数据，在本实施例中，基于真实数据以及生成器生成的数据训练所述鉴别器，需要说明的是，在训练所述鉴别器

时，以为真实数据分配更高的奖励分数为训练目标进行训练，具体的，可以通过设计如下的损失函数：

以迫使鉴别器为真实数据分配比生成数据更高的奖励分数，使得所述鉴别器在训练过程中学习提供更适当的奖励分数。

另外，本发明的实施方式中，还基于所述真实数据采样生成训练样本，具体的，在本实施方式的一个实施例中，基于真实数据构建静态分布并从中获取训练样本，其中，从所述静态分布中可获得多个以真实数据样本为基础生成的新样本，例如，基于真实数据分布P_data构建静态分布P_s：

通过以上公式，可以设计P_s(X_s|X)以保证P_s(X)接近P_data(X)，使得生成器的训练过程更加稳定，为了从真实数据样本X获取新样本X_s，在本实施方式的一个实施例中，通过以下步骤获得所述新样本：

获取一个真实数据文本；

从所述真实数据文本中选取至少一个可替换词/字；

在本实施方式的一个实施例中，可以根据所述真实数据文本与待生成新样本之间的编辑距离确定所述真实数据文本中的可替换的位置，即可替换词/字，其中，可以基于所述真实数据文本的长度确定编辑距离；

在确定编辑距离后，即可根据基于所述编辑距离确定的可替换词/字确定替换每一个可替换词/字的候选替换词/字；

由此，在本实施方式的一个实施例中，

P_s(X_s|X)＝P(d，p，w|X)

＝P(d|X)P(p|X，d)P(w|X，d，p) (3)，

具体的，首先基于真实数据样本X对所述编辑距离进行采样，其中X＝x1x2…xm是长度为m的序列。与某个输入句子(X)具有编辑距离e的句子数可以通过以下方式计算：

其中c(e,m)表示到长度为m的句子具有编辑距离e(e∈{0,1,2,...,m}的句子数,|V|表示词汇表的大小。然后通过exp{-e/τ}调整c(e,m)的权值并进行归一化,以便可以通过以下方式采样编辑距离d*：

其中τ是超参数，可以限制原始句子(真实数据样本)周围的搜索空间。较大的τ可以产生更多具有较长编辑距离的新样本。

接下来，基于采样的编辑距离d*选择所述真实数据文本中可替换的位置，即所述可替换词/字的位置。在本实施例中，可以在X中随机选择d*个不同的位置，然后使用新词替换。选择位置p*的概率可以通过以下方式计算：

通过以上方式，在本实施例中，可以获得可替换词/字的位置集{p₁，p₂，…，p_d*}。另外，通过以上方式还可以基本保证新句子(新样本)与原始句子(真实数据样本)之间的编辑距离为d*。

最后，在每个位置P_j(j＝1,2，…，d*)处确定作为替换的新单词。通过以上采样过程可以基于真实数据样本X生成新样本Xs，其中从X到Xs的顺序过渡如下：X＝X₀→X₁→…→X_d*＝X_s。在从X_j-1到X_j(j＝1，…，d*)的每一步中，首先从分布P(w|X_j-1，p＝p_j)中采样一个新词w_j，然后在X_j-1的位置p_j处替换旧词，获得X_j。以上过程可以表示如下：

在本实施例中，P(w|X_j-1,p＝p_j)可以采用两种采样策略，即随机采样和约束采样，由于约束采样策略能够采样字/词w_j以最大化目标句子X_j的语言模型得分，因此，在本实施方式的一个实施例中，采用约束采样策略。

另外，在本实施方式的一个实施例中，还可以根据每一个可替换位置的上下文确定候选替换词/字，具体的，可以将所述可替换的词/字从所述真实数据样本的相应位置处扣出，预测相应位置处可能填入的词/字，例如，使用预设的语言模型预测可替换位置处的候选替换词/字，所述语言模型可以选用现有的任一模型，例如LSTM和BERT等神经网络模型。需要说明的是，所述语言模型可以基于上下文预测生成任意数量的单词，因此在进行候选替换词/字的确定时，需要对要生成的单词数量进行限制，例如，第一个空白位置被扣出的单词为一个，则相应生成的单词也为一个；另外，所述语言模型可以同时对多处的缺失文本进行预测，也即，可以同时扣出真实数据样本中的多个可替换词/字，然后输入到预设语言模型中进行候选替换词/字的确定。

接下来，采用候选替换词/字替换所述真实数据文本中相应位置的可替换词/字，以生成所述新样本。

通过以上方式即可根据真实数据从静态分布中采样训练样本，在获取到训练样本后，即可输入鉴别器获取相应的奖励分数以进行生成器的训练，参照图2，即执行步骤S120，基于所述训练样本及其奖励分数训练生成器。在本实施方式中，采用含奖励的最大似然的方法(RAML Reward Augmented Maximum Likelihood)基于所述训练样本及其奖励分数训练生成器,具体的，首先，采用强化学习的理论从现有的生成式对抗网络中导出所述生成器的训练目标，例如：

其中

表示来自鉴别器

的奖励，熵正则化项

鼓励G_θ生成多样性高的文本样本；τ是平衡这两项的超参数，由此，所述生成器的训练目标被配置为生成能够获得更高奖励分数且多样化的文本。

需要说明的是，离散的生成式对抗网络GAN由于策略梯度而容易产生不稳定的问题，因此非常难以训练，在本实施方式的一个实施例中，引入指数收益分布

来连接训练所述生成器时强化学习的目标函数与含奖励的最大似然方法的目标函数：

其中

因此，在本实施例中，可以用

和

重写

如下：

在RAML之后，可以删除常数项并在相反方向上优化KL散度：

其中，

是生成器训练阶段的常数。已经证明

和

在一阶泰勒展开时是等价的，并且它们具有相同的全局最优。

可以以类似最大似然估计MLE的方式训练，但是，由于

随着鉴别器

而变化，从分布

中的采样是难以处理的。因此，在本实施例中，采用重要性采样将鉴别器输出奖励分数的过程从所述指数收益分布采样的过程中分离并获得最终的损失函数：

其中Ps(X)即为以上实施例中基于真实数据构建的静态分布，

在本实施例中，通过在先构造的静态分布Ps(X)来获得样本，可以优化上式中的损失函数，另外，在本实施方式的一个实施例中，还一并设计适当的奖励函数

以稳定有效的方式训练生成器，具体的，基于所述静态分布以及鉴别器输出的奖励分数设计奖励函数：

r_φ(X)＝τ·[logP_s(X)+D_φ(X)] (13)；

其中，所述奖励函数被设计为鼓励所述生成器生成采样概率高且能够获得鉴别器的高奖励分数的文本，另外，样本

的权重可以通过以下方式计算:

接下来，基于所述训练样本以及根据所述奖励函数得到的奖励训练所述生成器。

需要说明的是，本发明所提出的文本生成模型也适用于条件文本生成任务，如对话生成。例如，给出对话文本的真实数据分布P_data(C,X)，其中C，X分别表示上下文和回复，本发明所提出的生成器的目标函数可以修改如下：

其中，

且

被训练以区分X_s是否是对C的真实回复。

参照图3，本发明的实施方式还提供了一种建立文本生成模型的装置，包括：

训练数据获取模块310，被配置为将基于真实数据采样生成的至少一个训练样本输入鉴别器，以得到所述训练样本的奖励分数；

生成器训练模块320，被配置为基于所述训练样本及其奖励分数训练生成器。

在本发明的一个实施例中，所述装置还包括：

在本发明的一个实施例中，所述训练数据获取模块310包括：

在本发明的一个实施例中，所述训练样本获取单元还包括：

真实样本获取子单元，被配置为获取一个真实数据文本；

在本发明的一个实施例中，所述生成器训练模块包括：

在本发明的一个实施例中，所述真实数据为对话文本数据。

另外，这里尚需指出的是，上述装置中各个组成部件可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知，在此不再赘述。在通过软件或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机(例如图4所示的通用计算机400)安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等。

图4示出了可用于实施根据本发明实施例的方法和系统的计算机的示意性框图。

在图4中，中央处理单元(CPU)401根据只读存储器(ROM)402中存储的程序或从存储部分408加载到随机存取存储器(RAM)403的程序执行各种处理。在RAM403中，还根据需要存储当CPU401执行各种处理等时所需的数据。CPU401、ROM402和RAM403经由总线404彼此连接。输入/输出接口405也连接到总线404。

下述部件连接到输入/输出接口405：输入部分406(包括键盘、鼠标等等)、输出部分407(包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分408(包括硬盘等)、通信部分409(包括网络接口卡比如LAN卡、调制解调器等)。通信部分409经由网络比如因特网执行通信处理。根据需要，驱动器410也可连接到输入/输出接口405。可拆卸介质411比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器410上，使得从中读出的计算机程序根据需要被安装到存储部分408中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质411安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图4所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质411。可拆卸介质411的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM402、存储部分408中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时，可执行上述根据本发明实施方式的方法。

相应地，用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的范围内。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

应当注意，本发明的方法不限于按照说明书中描述的时间顺序来执行，也可以按照其他的次序顺序地、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

以上对本发明各实施方式的描述是为了更好地理解本发明，其仅仅是示例性的，而非旨在对本发明进行限制。应注意，在以上描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。本领域技术人员可以理解，在不脱离本发明的发明构思的情况下，针对以上所描述的实施方式进行的各种变化和修改，均属于本发明的范围内。

综上，在根据本发明的实施例中，本发明提供了如下技术方案。

方案1.一种建立文本生成模型的方法，包括：

基于所述训练样本及其奖励分数训练生成器。

2.如方案1所述的方法，其中，基于真实数据以及生成器生成的数据以为真实数据分配更高的奖励分数为目标训练所述鉴别器。

3.如方案1所述的方法，其中，基于所述真实数据采样生成训练样本，包括：

基于真实数据构建静态分布并从中获取训练样本。

4.如方案3所述的方法，其中，训练样本包括从所述静态分布中获得的多个以真实数据样本为基础生成的新样本。

5.如方案4所述的方法，其中，所述新样本由以下步骤获得：

获取一个真实数据文本；

从所述真实数据文本中选取至少一个可替换词/字；

确定替换每一个可替换词/字的候选替换词/字；

6.如方案5所述的方法，其中，根据所述真实数据文本与待生成新样本之间的编辑距离确定所述真实数据文本中的可替换的位置。

7.如方案6所述的方法，其中，基于所述真实数据文本的长度确定编辑距离。

8.如方案5所述的方法，其中，基于每一个可替换位置的上下文确定候选替换词/字。

9.如方案5所述的方法，其中，从词汇表中进行采样以替换相应的可替换词/字。

10.如方案9所述的方法，其中，采样的策略至少包括随机采样和约束采样中的一个。

11.如方案10所述的方法，其中，采用含奖励的最大似然的方法基于所述训练样本及其奖励分数训练生成器。

12.如方案11所述的方法，其中，采用强化学习的理论从现有的生成式对抗网络中导出所述生成器的训练目标。

13.如方案12所述的方法，其中，所述生成器的训练目标被配置为生成能够获得更高奖励分数且多样化的文本。

14.如方案13所述的方法，其中，引入指数收益分布来连接训练所述生成器时强化学习的目标函数与含奖励的最大似然方法的目标函数。

15.如方案14所述的方法，其中，通过重要性采样将鉴别器输出奖励分数的过程从所述指数收益分布采样的过程中分离。

16.如方案11-15任一所述的方法，其中，基于所述训练样本及其奖励分数训练生成器，包括：

17.如方案16所述的方法，其中，所述奖励函数被设计为鼓励所述生成器生成采样概率高且能够获得鉴别器的高奖励分数的文本。

18.如方案1所述的方法，其中，所述真实数据为对话文本数据。

19.一种建立文本生成模型的装置，包括：

20.如方案19所述的装置，其中，所述装置还包括：

21.如方案20所述的装置，其中，所述训练数据获取模块包括：

22.如方案21所述的装置，其中，训练样本包括从所述静态分布中获得的多个以真实数据样本为基础生成的新样本。

23.如方案22所述的装置，其中，所述训练样本获取单元还包括：

真实样本获取子单元，被配置为获取一个真实数据文本；

24.如方案23所述的装置，其中，根据所述真实数据文本与待生成新样本之间的编辑距离确定所述真实数据文本中的可替换的位置。

25.如方案24所述的装置，其中，基于所述真实数据文本的长度确定编辑距离。

26.如方案23所述的装置，其中，基于每一个可替换位置的上下文确定候选替换词/字。

27.如方案23所述的装置，其中，从词汇表中进行采样以替换相应的可替换词/字。

28.如方案27所述的装置，其中，采样的策略至少包括随机采样和约束采样中的一个。

29.如方案28所述的装置，其中，采用含奖励的最大似然的方法基于所述训练样本及其奖励分数训练生成器。

30.如方案29所述的装置，其中，采用强化学习的理论从现有的生成式对抗网络中导出所述生成器的训练目标。

31.如方案30所述的装置，其中，所述生成器的训练目标被配置为生成能够获得更高奖励分数且多样化的文本。

32.如方案31所述的装置，其中，引入指数收益分布来连接训练所述生成器时强化学习的目标函数与含奖励的最大似然方法的目标函数。

33.如方案32所述的装置，其中，通过重要性采样将鉴别器输出奖励分数的过程从所述指数收益分布采样的过程中分离。

34.如方案29-33任一所述的装置，其中，所述生成器训练模块包括：

35.如方案34所述的装置，其中，所述奖励函数被设计为鼓励所述生成器生成采样概率高且能够获得鉴别器的高奖励分数的文本。

36.如方案19所述的装置，其中，所述真实数据为对话文本数据。

37.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述方案1-18任一所述的方法。

38.一种计算设备，所述计算设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于执行上述方案1-18任一所述的方法。

Claims

1.一种建立文本生成模型的方法，包括：

基于所述训练样本及其奖励分数训练生成器；

其中，基于所述真实数据采样生成训练样本，包括：

基于所述真实数据构建静态分布并从中获取训练样本，其中，训练样本包括从所述静态分布中获得的多个以真实数据样本为基础生成的新样本；

其中，所述新样本由以下步骤获得：

获取一个真实数据文本；

从所述真实数据文本中选取至少一个可替换词/字；

确定替换每一个可替换词/字的候选替换词/字；

采用候选替换词/字替换所述真实数据文本中相应位置的可替换词/字，以生成所述新样本；其中，根据所述真实数据文本与待生成新样本之间的编辑距离确定所述真实数据文本中的可替换的位置；所述编辑距离基于所述真实数据文本的长度确定。

2.如权利要求1所述的方法，其中，基于真实数据以及生成器生成的数据以为真实数据分配更高的奖励分数为目标训练所述鉴别器。

3.如权利要求1所述的方法，其中，基于每一个可替换位置的上下文确定候选替换词/字。

4.如权利要求1所述的方法，其中，从词汇表中进行采样以替换相应的可替换词/字。

5.如权利要求4所述的方法，其中，采样的策略至少包括随机采样和约束采样中的一个。

6.如权利要求1所述的方法，其中，采用含奖励的最大似然的方法基于所述训练样本及其奖励分数训练生成器。

7.如权利要求6所述的方法，其中，采用强化学习的理论从现有的生成式对抗网络中导出所述生成器的训练目标。

8.如权利要求7所述的方法，其中，所述生成器的训练目标被配置为生成能够获得更高奖励分数且多样化的文本。

9.如权利要求8所述的方法，其中，引入指数收益分布来连接训练所述生成器时强化学习的目标函数与含奖励的最大似然方法的目标函数。

10.如权利要求9所述的方法，其中，通过重要性采样将鉴别器输出奖励分数的过程从所述指数收益分布采样的过程中分离。

11.如权利要求6-10任一所述的方法，其中，基于所述训练样本及其奖励分数训练生成器，包括：

12.如权利要求11所述的方法，其中，所述奖励函数被设计为鼓励所述生成器生成采样概率高且能够获得鉴别器的高奖励分数的文本。

13.如权利要求1所述的方法，其中，所述真实数据为对话文本数据。

14.一种建立文本生成模型的装置，包括：

生成器训练模块，被配置为基于所述训练样本及其奖励分数训练生成器；

其中，所述训练数据获取模块包括：训练样本获取单元，被配置为基于真实数据构建静态分布并从中获取训练样本，其中，训练样本包括从所述静态分布中获得的多个以真实数据样本为基础生成的新样本；

其中，所述训练样本获取单元还包括：

真实样本获取子单元，被配置为获取一个真实数据文本；

新样本生成子单元，被配置为采用候选替换词/字替换所述真实数据文本中相应位置的可替换词/字，以生成所述新样本；其中，根据所述真实数据文本与待生成新样本之间的编辑距离确定所述真实数据文本中的可替换的位置；所述编辑距离基于所述真实数据文本的长度确定。

15.如权利要求14所述的装置，其中，所述装置还包括：

16.如权利要求14所述的装置，其中，基于每一个可替换位置的上下文确定候选替换词/字。

17.如权利要求14所述的装置，其中，从词汇表中进行采样以替换相应的可替换词/字。

18.如权利要求17所述的装置，其中，采样的策略至少包括随机采样和约束采样中的一个。

19.如权利要求14所述的装置，其中，采用含奖励的最大似然的方法基于所述训练样本及其奖励分数训练生成器。

20.如权利要求19所述的装置，其中，采用强化学习的理论从现有的生成式对抗网络中导出所述生成器的训练目标。

21.如权利要求20所述的装置，其中，所述生成器的训练目标被配置为生成能够获得更高奖励分数且多样化的文本。

22.如权利要求21所述的装置，其中，引入指数收益分布来连接训练所述生成器时强化学习的目标函数与含奖励的最大似然方法的目标函数。

23.如权利要求22所述的装置，其中，通过重要性采样将鉴别器输出奖励分数的过程从所述指数收益分布采样的过程中分离。

24.如权利要求19-23任一所述的装置，其中，所述生成器训练模块包括：

25.如权利要求24所述的装置，其中，所述奖励函数被设计为鼓励所述生成器生成采样概率高且能够获得鉴别器的高奖励分数的文本。

26.如权利要求14所述的装置，其中，所述真实数据为对话文本数据。

27.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-13任一所述的方法。

28.一种计算设备，所述计算设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于执行上述权利要求1-13任一所述的方法。