CN112329404A

CN112329404A - 基于事实导向的文本生成方法、装置和计算机设备

Info

Publication number: CN112329404A
Application number: CN202110000752.8A
Authority: CN
Inventors: 刘晓艺
Original assignee: Hunan Kedi Yunfei Information Technology Co ltd
Current assignee: Hunan Kedi Yunfei Information Technology Co ltd
Priority date: 2021-01-04
Filing date: 2021-01-04
Publication date: 2021-02-05
Anticipated expiration: 2041-01-04
Also published as: CN112329404B

Abstract

本申请涉及一种基于事实导向的文本生成方法、装置和计算机设备。所述方法包括：根据输入预先设置的强化学习自生成式对抗性网络中的待生成文本和真实文本之间的完整单词序列信息，确定强化学习自生成式对抗性网络中判别器的网络奖励；根据待生成文本和真实文本之间的当前单词序列信息，确定判别器的事实导向奖励；根据网络奖励和所述事实导向奖励构建损失函数，通过损失函数对强化学习自生成式对抗性网络的整体目标函数进行优化，得到训练好的强化学习自生成式对抗性网络；将待生成文本输入训练好的强化学习自生成式对抗性网络，输出目标文本。采用本方法能够提高文本生成准确率。

Description

基于事实导向的文本生成方法、装置和计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种基于事实导向的文本生成方法、装置和计算机设备。

背景技术

自生成式对抗性网络GANs 出现以来，它和它的变体已经无数次在图像生成任务中证明了自己的有效性，也不断地吸引着越来越多的研究人员加入到提高GANs训练的可控性和稳定性的研究中。每个文本生成过程都被视为一个决策，而判别器D用于判断当前决策的奖励值。生成器G的目的是使下一个决策获得更高的奖励值。两者的乘积是网络在当前时刻想要最大化的目标函数。

目前基于序列决策的文本生成方法中有一个很大的不足，那就是来自判别器 D的概率标量反馈信号是稀疏的，因为文本虽然是由生成器G在多轮行动中逐个词生成的，但只有当整个句子都生成完毕后生成器G才能收到来自判别器D的反馈信号。而且，生成器G本应是在判别器D的指导下更新自己的策略的，但判别器D对这整段文字的反馈是一个标量，信息量极为有限，不足以保留过程中的句法结构和文本语意。

发明内容

基于此，有必要针对上述技术问题，提供一种能够解决基于序列决策信息量有限问题的基于事实导向的文本生成方法、装置和计算机设备。

一种基于事实导向的文本生成方法，所述方法包括：

根据输入预先设置的强化学习自生成式对抗性网络中的待生成文本和真实文本之间的完整单词序列信息，确定所述强化学习自生成式对抗性网络中判别器的网络奖励；

根据待生成文本和真实文本之间的当前单词序列信息，确定所述判别器的事实导向奖励；

根据所述网络奖励和所述事实导向奖励构建损失函数，通过所述损失函数对所述强化学习自生成式对抗性网络的整体目标函数进行优化，得到训练好的强化学习自生成式对抗性网络；

将待生成文本输入训练好的强化学习自生成式对抗性网络，输出目标文本。

在其中一个实施例中，还包括：根据输入预先设置的强化学习自生成式对抗性网络中的待生成文本和真实文本之间的完整单词序列信息，确定所述完整单词序列信息中每个单词对应单个时间步的奖励计算公式如下：

其中，

表示在参数θ和状态S _i下生成的文本向量。D表示判别器D的判别分数；Y_i表示时刻i得到的完整单词序列信息，从时刻1到时刻T-1可得状态S，输出为时间步1到T的累计奖励结果；

根据单个时间的累计奖励，取平均值得到所述强化学习自生成式对抗性网络中判别器的网络奖励为：

其中，t表示当前时间步。

在其中一个实施例中，还包括：获取当前时间步生成单词的总数占完整单词序列信息中单词总数的比例信息；

若所述比例信息大于阈值，则根据所述网络奖励和所述判别器构建损失函数。

在其中一个实施例中，还包括：根据待生成文本和真实文本之间的当前单词序列信息，确定所述判别器的事实导向奖励为：

其中，

表示生成器在参数θ和状态S _i下生成的文本向量，gt表示真实文本的矢量表示，Dis _cosθ表示两个向量之间的余弦距离；Dis _o表示欧氏距离。

在其中一个实施例中，还包括：将状态S _i输入预先设置的神经网络，得到泄露奖励为：

其中，

，D_φ表示神经网络，f是D_φ的最后一层中s的特征向量。

在其中一个实施例中，还包括：根据所述网络奖励、所述事实导向奖励以及所述泄露奖励构建损失函数为：

。

其中，α表示不同时间步的可信度，β和γ表示比例系数；

根据所述损失函数所述强化学习自生成式对抗性网络的整体目标函数进行优化，所述整体目标函数为：

其中，D表示判别器，G表示生成器。

在其中一个实施例中，还包括：通过预先设置的判别模型求解所述整体目标函数；其中，所述判别模型包括：句子特征提取器和分布距离计算模型；所述句子提取器通过预设的卷积神经网络将待生成文本和真实文本映射至同一特征空间的特征向量；所述分布距离计算模型通过所述待生成文本对应的特征向量映射至所述真实文本对应的特征向量的代价矩阵，根据所述代价矩阵求解所述整体目标函数。

一种基于事实导向的文本生成装置，所述装置包括：

网络奖励计算模块，用于根据输入预先设置的强化学习自生成式对抗性网络中的待生成文本和真实文本之间的完整单词序列信息，确定所述强化学习自生成式对抗性网络中判别器的网络奖励；

事实导向奖励计算模块，用于根据待生成文本和真实文本之间的当前单词序列信息，确定所述判别器的事实导向奖励；

训练模块，用于根据所述网络奖励和所述事实导向奖励构建损失函数，通过所述损失函数对所述强化学习自生成式对抗性网络的整体目标函数进行优化，得到训练好的强化学习自生成式对抗性网络；

输出模块，用于将待生成文本输入训练好的强化学习自生成式对抗性网络，输出目标文本。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述基于事实导向的文本生成方法、装置、计算机设备和存储介质，通过重新定义返回给生成器的奖励值，可以解决来自判别器 D的概率标量反馈信号是稀疏的问题，提高信息量。

附图说明

图1为一个实施例中基于事实导向的文本生成方法的流程示意图；

图2为一个实施例中强化学习自生成式对抗性网络的结构示意图；

图3为另一个实施例中判别器的结构示意图；

图4为一个实施例中基于事实导向的文本生成装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种基于事实导向的文本生成方法，包括以下步骤：

步骤102，根据输入预先设置的强化学习自生成式对抗性网络中的待生成文本和真实文本之间的完整单词序列信息，确定强化学习自生成式对抗性网络中判别器的网络奖励。

强化学习自生成式对抗性网络（SeqGAN）包括判别器、生成器以及蒙特卡洛采样网络，具体网络结构如图2所示，其中，网络奖励为正常获得的奖励，TG奖励即事实导向奖励。

待生成文本为多个单词按照序列组成的文本，其表达可能存在问题，导致语义表达不清楚，而真实文本也是多个单词按照序列组成的文本，其语义表达清楚。在输入时，真实文本和待生成文本均输入判别器。

以具体实施例进行说明：

真实文本是“I have an orange and it tastes good.”，待生成文本的初始状态是一个随机序列向量，表示为S _Random，它表示语义信息不清楚的文本。由于训练GAN的难度很大，因此使用最大似然法进行预训练。在预训练之后，获得输入到强化学习自生成式对抗性网络中的初始序列S ₀。对于每个序列状态S _i，总奖励值与判别器泄露的高维信息确定下一步要转移的状态S _{i + 1}。在N个时间步长之后，最终达到了目标文本S _epoh。

步骤104，根据待生成文本和真实文本之间的当前单词序列信息，确定判别器的事实导向奖励。

事实导向奖励表示了待生成文本当前序列与真实文本之间的相似度，判别器只能计算完整的单词序列信息，使用蒙特卡洛搜索方法对句子进行采样。因此，未采样部分的比例也随时间步长而变化。非采样部分的比例越大，句子表达生成器G的生成能力的能力就越大，就越可信。

步骤106，根据网络奖励和事实导向奖励构建损失函数，通过损失函数对强化学习自生成式对抗性网络的整体目标函数进行优化，得到训练好的强化学习自生成式对抗性网络。

对于整体目标函数，生成器G希望最小化该代价函数，以使得判别器D不能区分其生成的文本和真实文本数据。判别器D恰好相反，试图使这种差异最大化以区分当前文本数据是否是生成的数据。其中，通过强化学习来计算与每个时间步相对应的奖励值作为生成器G成本函数的一部分。奖励值可以作为损失函数。

步骤108，将待生成文本输入训练好的强化学习自生成式对抗性网络，输出目标文本。

上述基于事实导向的文本生成方法中，通过重新定义返回给生成器的奖励值，可以解决来自判别器 D的概率标量反馈信号是稀疏的问题，提高信息量。

在其中一个实施例中，根据输入预先设置的强化学习自生成式对抗性网络中的待生成文本和真实文本之间的完整单词序列信息，确定完整单词序列信息中每个单词对应单个时间步的奖励计算公式如下：

其中，

根据单个时间的累计奖励，取平均值得到强化学习自生成式对抗性网络中判别器的网络奖励为：

其中，t表示当前时间步。

具体的，单个时间步长的网络奖励值

是指与每个时间步长生成的新单词相对应的奖励值，该奖励值累加起来可计算出整个网络生成的句子的总网络奖励值。由于判别器D只能对完整序列进行评分，因此，如果当前生成的单词不是句子的最后一个单词，则所有可能的序列都需要通过蒙特卡洛搜索来填充。然后计算每个可能序列的奖励值。

仅通过判别器D的反馈来计算网络奖励值，然后调整与训练RNN有相同问题的网络。在训练开始时，由于初始值S ₀的随机性，由判别器D判断后，许多文本明显为“fakedata”。在没有真实数据启动的情况下，这种重复生成会造成浪费。在本文中，我们建议在此奖励的计算过程中增加事实导向，并通过计算当前文本序列与训练文本数据之间的距离来优化网络。

奖励值的计算取决于当前状态S _i和蒙特卡洛采样的结果。对于每个时间步长T，假设可以正确生成生成器的当前第T个词汇，则需要其余词汇来使此序列完整。最后，计算所有时间步骤的网络奖励总和，以获得目标状态转移的总奖励。

在其中一个实施例中，获取当前时间步生成单词的总数占完整单词序列信息中单词总数的比例信息；若比例信息大于阈值，则根据网络奖励和事实导向奖励构建损失函数。

具体的，句子可信度

是在当前时间步中生成的单词占句子中单词总数的比例。当比率大于设置的阈值时，表示当前句子可信，并且将计算结果添加到最终损失函数中。否则，句子的随机性太大，无法添加到损失函数的计算中。

其中，n表示生成器生成的单词数，N表示该句子中的单词总数，F表示是否将文本序列添加到最终损失函数中。

在其中一个实施例中，根据待生成文本和真实文本之间的当前单词序列信息，确定判别器的事实导向奖励为：

其中，

表示生成器在参数θ和状态S _i下生成的文本向量，gt表示真实文本的矢量表示，

表示两个向量之间的余弦距离；Dis _o表示欧氏距离。

具体的，当状态S在1和T-1之间时，判别器D只能计算完整的序列。SeqGAN使用蒙特卡洛搜索方法对句子进行采样。因此，未采样部分的比例也随时间步长而变化。非采样部分的比例越大，句子表达生成器G的生成能力的能力就越大，它就越可信。总奖励是指事实导向奖励和网络奖励的总和。两个奖励值是同时获得的，句子的可靠性主要来自网络奖励，事实导向奖励仅通过向量距离来计算，并且可以与训练同步获得。

在其中一个实施例中，将状态S _i输入预先设置的神经网络，得到泄露奖励为：

其中，

，

表示神经网络，f是

的最后一层中s的特征向量。

具体的，与奖励功能为黑匣子的典型无模型强化学习设置不同，该对抗文本生成使用D_φ作为学习的奖励之一。通常，

是一个神经网络，可以分解为特征提取器F和具有权重矢量的最终分类层。对于给定的

，每个状态s的奖励值主要取决于提取的特征f。这样，从

获得更高奖励的目标等同于在此提取的特征空间中找到较高的奖励区域。具体来说，我们在

中的特征提取器F是由CNN实现的；因此，F在卷积层、池化层、激活层之后将CNN特征图矢量输出为f。其他神经网络模型（例如LSTM）也可以用于实现D_φ。与标量信号

相比，特征向量f是G_θ的更具指导意义的引导信号，因为它表明当前生成的单词在提取的特征空间中的位置。

在其中一个实施例中，根据网络奖励、事实导向奖励以及泄露奖励构建损失函数为：

。

其中，α表示不同时间步的可信度，β和γ表示比例系数；

根据损失函数所述强化学习自生成式对抗性网络的整体目标函数进行优化，所述整体目标函数为：

其中，D表示判别器，G表示生成器。

在另一个实施例中，判别器包括：句子特征提取器和分布距离计算模型；句子提取器通过预设的卷积神经网络将待生成文本和真实文本映射至同一特征空间的特征向量；分布距离计算模型通过待生成文本对应的特征向量映射至所述真实文本对应的特征向量的代价矩阵，根据代价矩阵和采用IPOT算法计算得到的传输矩阵，计算代价变换距离，根据代价变换距离，确定待生成文本和真实文本在特征空间下的分布间距离。

具体的，判别器主要由一个句子特征提取器F(•)、分布距离计算模块组成，其中分布距离计算模块中又分为代价矩阵计算模块、基于IPOT算法的传输矩阵计算模块，具体模型结构如图3所示。

在实际前向推导过程中，生成文本和真实文本都会同时送入判别器中的特征提取器，下面分别介绍这两个部分。

（1）句子特征提取器

其中句子特征提取器的作用为提取输入句子的内部特征。在深度学习中，有很多方式可以用于提取特征，比如RNN，CNN等，虽然输入的句子是序列数据，对于RNN来说比较适合处理这样的数据，但是RNN的缺点在于无法并行计算每个神经元，因此在训练速度上不如CNN。历史上，已经有Collobert，Kim等人使用CNN架构来提取句子特征并用于相关任务，本文也将采用类似的CNN架构来作为特征提取器。

假设输入的句子在经过词嵌入矩阵投影后表示为

，d是词向量维度。卷积操作需要有卷积核，这里设置一个卷积核为

，设置核的第一维与句子向量的词向量长度相同，这样便能使它在原句子中每l个词便提取出新特征，于是就有了一个特征映射：

其中

表示卷积操作，函数

是激活函数，b是偏置项，并且有

，这种方法是将卷积操作与n-gram方法相结合，使得句子局部特征提取的操作独立于句子整体。然后本文接着使用了一个最大池化层，即：

该最大池化层将一个卷积操作提取到的局部词组特征集合作为输入，取其最凸出的特征，同时也保证了提取出的特征向量长度与输入的句子长度无关。上述的过程描述了一种尺寸的卷积核如何提取句子的一种特征，类似于Kim等人的操作，本文使用多种不同尺寸的卷积核来对句子表征做卷积操作，每种卷积核都可以看做是一种语言特征检测器，它学习并识别一类特定的n-gram，假设本文设定有a ₁种检测器尺寸，每种检测器共使用a ₂个卷积核，则最终产生的句子特征向量表示为：

其中

，有了句子的特征向量表示，接下来便是从真实文本数据采样句子并提取特征，这样就有了句子特征空间，真实句子集合Y和生成句子集合X在该特征空间中都满足一定的分布，因此将它们送往分布距离计算模块。

（2）分布距离计算模块

在分布距离计算模块中，首先需要计算代价矩阵C，C_ij表示生成句子集合X的第i个特征向量传输数据到真实句子集合Y的第j个特征向量的代价，相应的计算方法如公式（13）所示。

可以看出，代价的计算使用了一个神经网络d(•)的转换和余弦函数。在不考虑d(•)的情况下，如果两个特征向量完全相等，那么在它们之间传输数据的代价为0，如果两个特征向量完全不等，则代价为1，因此是完全有可能会出现代价矩阵C中的某一元素接近于0的情况。然而判别器的作用是使得两个分布的距离尽量得大，因此这里使用了一个转换网络d(•)来对输入的句子特征进行一次转换。

在转换网络d(•)的模型架构上，本文主要使用的全连接层，全连接层的作用为在输出层输出的转换后的向量长度与输入的句子特征向量长度保持一致。在计算完代价矩阵后，使用IPOT算法计算相对应的传输矩阵T。借由得到的矩阵C和T，根据公式（14）计算得到最终的代价变化距离D_CVD，并以此来表示一个mini-batch大小的生成句子集合和真实句子集合在特征空间下的分布间距离。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种基于事实导向的文本生成装置，包括：网络奖励计算模块402、事实导向奖励计算模块404、训练模块406和输出模块408，其中：

网络奖励计算模块402，用于根据输入预先设置的强化学习自生成式对抗性网络中的待生成文本和真实文本之间的完整单词序列信息，确定所述强化学习自生成式对抗性网络中判别器的网络奖励；

事实导向奖励计算模块404，用于根据待生成文本和真实文本之间的当前单词序列信息，确定所述判别器的事实导向奖励；

训练模块406，用于根据所述网络奖励和所述事实导向奖励构建损失函数，通过所述损失函数对所述强化学习自生成式对抗性网络的整体目标函数进行优化，得到训练好的强化学习自生成式对抗性网络；

输出模块408，用于将待生成文本输入训练好的强化学习自生成式对抗性网络，输出目标文本。

在其中一个实施例中，网络奖励计算模块402还用于根据输入预先设置的强化学习自生成式对抗性网络中的待生成文本和真实文本之间的完整单词序列信息，确定所述完整单词序列信息中每个单词对应单个时间步的奖励计算公式如下：

其中，

其中，t表示当前时间步。

在其中一个实施例中，网络奖励计算模块402还用于获取当前时间步生成单词的总数占完整单词序列信息中单词总数的比例信息；

若所述比例信息大于阈值，则根据所述网络奖励和所述事实导向奖励构建损失函数。

在其中一个实施例中，事实导向奖励计算模块404还用于根据待生成文本和真实文本之间的当前单词序列信息，确定所述判别器的事实导向奖励为：

其中，

其中，

，

表示神经网络，f是

的最后一层中s的特征向量。

在其中一个实施例中，训练模块406还用于根据所述网络奖励、所述事实导向奖励以及所述泄露奖励构建损失函数为：

。

其中，α表示不同时间步的可信度，β和γ表示比例系数；

其中，D表示判别器，G表示生成器。

在其中一个实施例中，所述判别器包括：句子特征提取器和分布距离计算模型；所述句子提取器通过预设的卷积神经网络将待生成文本和真实文本映射至同一特征空间的特征向量；所述分布距离计算模型通过所述待生成文本对应的特征向量映射至所述真实文本对应的特征向量的代价矩阵，根据所述代价矩阵和采用IPOT算法计算得到的传输矩阵，计算代价变换距离，根据所述代价变换距离，确定待生成文本和真实文本在特征空间下的分布间距离。

关于基于事实导向的文本生成装置的具体限定可以参见上文中对于基于事实导向的文本生成方法的限定，在此不再赘述。上述基于事实导向的文本生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于事实导向的文本生成方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述实施例中方法的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于事实导向的文本生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据输入预先设置的强化学习自生成式对抗性网络中的待生成文本和真实文本之间的完整单词序列信息，确定所述强化学习自生成式对抗性网络中判别器的网络奖励，包括：

根据输入预先设置的强化学习自生成式对抗性网络中的待生成文本和真实文本之间的完整单词序列信息，确定所述完整单词序列信息中每个单词对应单个时间步的奖励计算公式如下：

其中，

表示在参数θ和状态S _i下生成的文本向量，

D表示判别器D的判别分数；Y_i表示时刻i得到的完整单词序列信息，从时刻1到时刻T-1可得状态S，输出为时间步1到T的累计奖励结果；

其中，t表示当前时间步。

3.根据权利要求2所述的方法，其特征在于，在根据所述网络奖励和所述事实导向奖励构建损失函数之前，所述方法还包括：

获取当前时间步生成单词的总数占完整单词序列信息中单词总数的比例信息；

4.根据权利要求1所述的方法，其特征在于，所述根据待生成文本和真实文本之间的当前单词序列信息，确定所述判别器的事实导向奖励，包括：

根据待生成文本和真实文本之间的当前单词序列信息，确定所述判别器的事实导向奖励为：

其中，

5.根据权利要求2至4任一项所述的方法，其特征在于，所述方法还包括：

将状态S _i输入预先设置的神经网络，得到泄露奖励为：

其中，

，D_φ表示神经网络，f是D_φ的最后一层中s的特征向量。

6.根据权利要求5所述的方法，其特征在于，根据所述网络奖励和所述事实导向奖励构建损失函数，通过所述损失函数对所述强化学习自生成式对抗性网络的整体目标函数进行优化，得到训练好的强化学习自生成式对抗性网络，包括：

根据所述网络奖励、所述事实导向奖励以及所述泄露奖励构建损失函数为：

其中，α表示不同时间步的可信度，β和γ表示比例系数；

其中，D表示判别器，G表示生成器。

7.根据权利要求6所述的方法，其特征在于，

所述判别器包括：句子特征提取器和分布距离计算模型；所述句子提取器通过预设的卷积神经网络将待生成文本和真实文本映射至同一特征空间的特征向量；所述分布距离计算模型通过所述待生成文本对应的特征向量映射至所述真实文本对应的特征向量的代价矩阵，根据所述代价矩阵和采用IPOT算法计算得到的传输矩阵，计算代价变换距离，根据所述代价变换距离，确定待生成文本和真实文本在特征空间下的分布间距离。

8.一种基于事实导向的文本生成装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。