CN112329404A - 基于事实导向的文本生成方法、装置和计算机设备 - Google Patents

基于事实导向的文本生成方法、装置和计算机设备 Download PDF

Info

Publication number
CN112329404A
CN112329404A CN202110000752.8A CN202110000752A CN112329404A CN 112329404 A CN112329404 A CN 112329404A CN 202110000752 A CN202110000752 A CN 202110000752A CN 112329404 A CN112329404 A CN 112329404A
Authority
CN
China
Prior art keywords
text
network
reward
reinforcement learning
generated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110000752.8A
Other languages
English (en)
Other versions
CN112329404B (zh
Inventor
刘晓艺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Kedi Yunfei Information Technology Co ltd
Original Assignee
Hunan Kedi Yunfei Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Kedi Yunfei Information Technology Co ltd filed Critical Hunan Kedi Yunfei Information Technology Co ltd
Priority to CN202110000752.8A priority Critical patent/CN112329404B/zh
Publication of CN112329404A publication Critical patent/CN112329404A/zh
Application granted granted Critical
Publication of CN112329404B publication Critical patent/CN112329404B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种基于事实导向的文本生成方法、装置和计算机设备。所述方法包括:根据输入预先设置的强化学习自生成式对抗性网络中的待生成文本和真实文本之间的完整单词序列信息,确定强化学习自生成式对抗性网络中判别器的网络奖励;根据待生成文本和真实文本之间的当前单词序列信息,确定判别器的事实导向奖励;根据网络奖励和所述事实导向奖励构建损失函数,通过损失函数对强化学习自生成式对抗性网络的整体目标函数进行优化,得到训练好的强化学习自生成式对抗性网络;将待生成文本输入训练好的强化学习自生成式对抗性网络,输出目标文本。采用本方法能够提高文本生成准确率。

Description

基于事实导向的文本生成方法、装置和计算机设备
技术领域
本申请涉及计算机技术领域,特别是涉及一种基于事实导向的文本生成方法、装置和计算机设备。
背景技术
自生成式对抗性网络GANs 出现以来,它和它的变体已经无数次在图像生成任务中证明了自己的有效性,也不断地吸引着越来越多的研究人员加入到提高GANs训练的可控性和稳定性的研究中。每个文本生成过程都被视为一个决策,而判别器D用于判断当前决策的奖励值。生成器G的目的是使下一个决策获得更高的奖励值。两者的乘积是网络在当前时刻想要最大化的目标函数。
目前基于序列决策的文本生成方法中有一个很大的不足,那就是来自判别器 D的概率标量反馈信号是稀疏的,因为文本虽然是由生成器G在多轮行动中逐个词生成的,但只有当整个句子都生成完毕后生成器G才能收到来自判别器D的反馈信号。而且,生成器G本应是在判别器D的指导下更新自己的策略的,但判别器D对这整段文字的反馈是一个标量,信息量极为有限,不足以保留过程中的句法结构和文本语意。
发明内容
基于此,有必要针对上述技术问题,提供一种能够解决基于序列决策信息量有限问题的基于事实导向的文本生成方法、装置和计算机设备。
一种基于事实导向的文本生成方法,所述方法包括:
根据输入预先设置的强化学习自生成式对抗性网络中的待生成文本和真实文本之间的完整单词序列信息,确定所述强化学习自生成式对抗性网络中判别器的网络奖励;
根据待生成文本和真实文本之间的当前单词序列信息,确定所述判别器的事实导向奖励;
根据所述网络奖励和所述事实导向奖励构建损失函数,通过所述损失函数对所述强化学习自生成式对抗性网络的整体目标函数进行优化,得到训练好的强化学习自生成式对抗性网络;
将待生成文本输入训练好的强化学习自生成式对抗性网络,输出目标文本。
在其中一个实施例中,还包括:根据输入预先设置的强化学习自生成式对抗性网络中的待生成文本和真实文本之间的完整单词序列信息,确定所述完整单词序列信息中每个单词对应单个时间步的奖励计算公式如下:
Figure 833164DEST_PATH_IMAGE001
其中,
Figure 304597DEST_PATH_IMAGE002
表示在参数θ和状态S i 下生成的文本向量。D表示判别器D的判别分数;Y i 表示时刻i得到的完整单词序列信息,从时刻1到时刻T-1可得状态S,输出为时间步1到T的累计奖励结果;
根据单个时间的累计奖励,取平均值得到所述强化学习自生成式对抗性网络中判别器的网络奖励为:
Figure 359140DEST_PATH_IMAGE003
其中,t表示当前时间步。
在其中一个实施例中,还包括:获取当前时间步生成单词的总数占完整单词序列信息中单词总数的比例信息;
若所述比例信息大于阈值,则根据所述网络奖励和所述判别器构建损失函数。
在其中一个实施例中,还包括:根据待生成文本和真实文本之间的当前单词序列信息,确定所述判别器的事实导向奖励为:
Figure 710356DEST_PATH_IMAGE004
其中,
Figure 686402DEST_PATH_IMAGE005
表示生成器在参数θ和状态S i 下生成的文本向量,gt表示真实文本的矢量表示,Dis cosθ表示两个向量之间的余弦距离;Dis o 表示欧氏距离。
在其中一个实施例中,还包括:将状态S i 输入预先设置的神经网络,得到泄露奖励为:
Figure 758264DEST_PATH_IMAGE006
其中,
Figure 808259DEST_PATH_IMAGE007
,D φ 表示神经网络,f是D φ 的最后一层中s的特征向量。
在其中一个实施例中,还包括:根据所述网络奖励、所述事实导向奖励以及所述泄露奖励构建损失函数为:
Figure 674584DEST_PATH_IMAGE008
Figure 137926DEST_PATH_IMAGE009
其中,α表示不同时间步的可信度,β和γ表示比例系数;
根据所述损失函数所述强化学习自生成式对抗性网络的整体目标函数进行优化,所述整体目标函数为:
Figure 872533DEST_PATH_IMAGE010
其中,D表示判别器,G表示生成器。
在其中一个实施例中,还包括:通过预先设置的判别模型求解所述整体目标函数;其中,所述判别模型包括:句子特征提取器和分布距离计算模型;所述句子提取器通过预设的卷积神经网络将待生成文本和真实文本映射至同一特征空间的特征向量;所述分布距离计算模型通过所述待生成文本对应的特征向量映射至所述真实文本对应的特征向量的代价矩阵,根据所述代价矩阵求解所述整体目标函数。
一种基于事实导向的文本生成装置,所述装置包括:
网络奖励计算模块,用于根据输入预先设置的强化学习自生成式对抗性网络中的待生成文本和真实文本之间的完整单词序列信息,确定所述强化学习自生成式对抗性网络中判别器的网络奖励;
事实导向奖励计算模块,用于根据待生成文本和真实文本之间的当前单词序列信息,确定所述判别器的事实导向奖励;
训练模块,用于根据所述网络奖励和所述事实导向奖励构建损失函数,通过所述损失函数对所述强化学习自生成式对抗性网络的整体目标函数进行优化,得到训练好的强化学习自生成式对抗性网络;
输出模块,用于将待生成文本输入训练好的强化学习自生成式对抗性网络,输出目标文本。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
根据输入预先设置的强化学习自生成式对抗性网络中的待生成文本和真实文本之间的完整单词序列信息,确定所述强化学习自生成式对抗性网络中判别器的网络奖励;
根据待生成文本和真实文本之间的当前单词序列信息,确定所述判别器的事实导向奖励;
根据所述网络奖励和所述事实导向奖励构建损失函数,通过所述损失函数对所述强化学习自生成式对抗性网络的整体目标函数进行优化,得到训练好的强化学习自生成式对抗性网络;
将待生成文本输入训练好的强化学习自生成式对抗性网络,输出目标文本。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
根据输入预先设置的强化学习自生成式对抗性网络中的待生成文本和真实文本之间的完整单词序列信息,确定所述强化学习自生成式对抗性网络中判别器的网络奖励;
根据待生成文本和真实文本之间的当前单词序列信息,确定所述判别器的事实导向奖励;
根据所述网络奖励和所述事实导向奖励构建损失函数,通过所述损失函数对所述强化学习自生成式对抗性网络的整体目标函数进行优化,得到训练好的强化学习自生成式对抗性网络;
将待生成文本输入训练好的强化学习自生成式对抗性网络,输出目标文本。
上述基于事实导向的文本生成方法、装置、计算机设备和存储介质,通过重新定义返回给生成器的奖励值,可以解决来自判别器 D的概率标量反馈信号是稀疏的问题,提高信息量。
附图说明
图1为一个实施例中基于事实导向的文本生成方法的流程示意图;
图2为一个实施例中强化学习自生成式对抗性网络的结构示意图;
图3为另一个实施例中判别器的结构示意图;
图4为一个实施例中基于事实导向的文本生成装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种基于事实导向的文本生成方法,包括以下步骤:
步骤102,根据输入预先设置的强化学习自生成式对抗性网络中的待生成文本和真实文本之间的完整单词序列信息,确定强化学习自生成式对抗性网络中判别器的网络奖励。
强化学习自生成式对抗性网络(SeqGAN)包括判别器、生成器以及蒙特卡洛采样网络,具体网络结构如图2所示,其中,网络奖励为正常获得的奖励,TG奖励即事实导向奖励。
待生成文本为多个单词按照序列组成的文本,其表达可能存在问题,导致语义表达不清楚,而真实文本也是多个单词按照序列组成的文本,其语义表达清楚。在输入时,真实文本和待生成文本均输入判别器。
以具体实施例进行说明:
真实文本是“I have an orange and it tastes good.”,待生成文本的初始状态是一个随机序列向量,表示为S Random ,它表示语义信息不清楚的文本。由于训练GAN的难度很大,因此使用最大似然法进行预训练。在预训练之后,获得输入到强化学习自生成式对抗性网络中的初始序列S 0 。对于每个序列状态S i ,总奖励值与判别器泄露的高维信息确定下一步要转移的状态S i + 1 。在N个时间步长之后,最终达到了目标文本S epoh
步骤104,根据待生成文本和真实文本之间的当前单词序列信息,确定判别器的事实导向奖励。
事实导向奖励表示了待生成文本当前序列与真实文本之间的相似度,判别器只能计算完整的单词序列信息,使用蒙特卡洛搜索方法对句子进行采样。因此,未采样部分的比例也随时间步长而变化。非采样部分的比例越大,句子表达生成器G的生成能力的能力就越大,就越可信。
步骤106,根据网络奖励和事实导向奖励构建损失函数,通过损失函数对强化学习自生成式对抗性网络的整体目标函数进行优化,得到训练好的强化学习自生成式对抗性网络。
对于整体目标函数,生成器G希望最小化该代价函数,以使得判别器D不能区分其生成的文本和真实文本数据。判别器D恰好相反,试图使这种差异最大化以区分当前文本数据是否是生成的数据。其中,通过强化学习来计算与每个时间步相对应的奖励值作为生成器G成本函数的一部分。奖励值可以作为损失函数。
步骤108,将待生成文本输入训练好的强化学习自生成式对抗性网络,输出目标文本。
上述基于事实导向的文本生成方法中,通过重新定义返回给生成器的奖励值,可以解决来自判别器 D的概率标量反馈信号是稀疏的问题,提高信息量。
在其中一个实施例中,根据输入预先设置的强化学习自生成式对抗性网络中的待生成文本和真实文本之间的完整单词序列信息,确定完整单词序列信息中每个单词对应单个时间步的奖励计算公式如下:
Figure 167248DEST_PATH_IMAGE011
其中,
Figure 345420DEST_PATH_IMAGE012
表示在参数θ和状态S i 下生成的文本向量。D表示判别器D的判别分数;Y i 表示时刻i得到的完整单词序列信息,从时刻1到时刻T-1可得状态S,输出为时间步1到T的累计奖励结果;
根据单个时间的累计奖励,取平均值得到强化学习自生成式对抗性网络中判别器的网络奖励为:
Figure 30479DEST_PATH_IMAGE013
其中,t表示当前时间步。
具体的,单个时间步长的网络奖励值
Figure 709722DEST_PATH_IMAGE014
是指与每个时间步长生成的新单词相对应的奖励值,该奖励值累加起来可计算出整个网络生成的句子的总网络奖励值。由于判别器D只能对完整序列进行评分,因此,如果当前生成的单词不是句子的最后一个单词,则所有可能的序列都需要通过蒙特卡洛搜索来填充。然后计算每个可能序列的奖励值。
仅通过判别器D的反馈来计算网络奖励值,然后调整与训练RNN有相同问题的网络。在训练开始时,由于初始值S 0 的随机性,由判别器D判断后,许多文本明显为“fakedata”。在没有真实数据启动的情况下,这种重复生成会造成浪费。在本文中,我们建议在此奖励的计算过程中增加事实导向,并通过计算当前文本序列与训练文本数据之间的距离来优化网络。
奖励值的计算取决于当前状态S i 和蒙特卡洛采样的结果。对于每个时间步长T,假设可以正确生成生成器的当前第T个词汇,则需要其余词汇来使此序列完整。最后,计算所有时间步骤的网络奖励总和,以获得目标状态转移的总奖励。
在其中一个实施例中,获取当前时间步生成单词的总数占完整单词序列信息中单词总数的比例信息;若比例信息大于阈值,则根据网络奖励和事实导向奖励构建损失函数。
具体的,句子可信度
Figure 796627DEST_PATH_IMAGE016
是在当前时间步中生成的单词占句子中单词总数的比例。当比率大于设置的阈值时,表示当前句子可信,并且将计算结果添加到最终损失函数中。否则,句子的随机性太大,无法添加到损失函数的计算中。
Figure 392038DEST_PATH_IMAGE017
Figure 626710DEST_PATH_IMAGE018
其中,n表示生成器生成的单词数,N表示该句子中的单词总数,F表示是否将文本序列添加到最终损失函数中。
在其中一个实施例中,根据待生成文本和真实文本之间的当前单词序列信息,确定判别器的事实导向奖励为:
Figure 453851DEST_PATH_IMAGE019
其中,
Figure 660842DEST_PATH_IMAGE020
表示生成器在参数θ和状态S i 下生成的文本向量,gt表示真实文本的矢量表示,
Figure 571029DEST_PATH_IMAGE021
表示两个向量之间的余弦距离;Dis o 表示欧氏距离。
具体的,当状态S在1和T-1之间时,判别器D只能计算完整的序列。SeqGAN使用蒙特卡洛搜索方法对句子进行采样。因此,未采样部分的比例也随时间步长而变化。非采样部分的比例越大,句子表达生成器G的生成能力的能力就越大,它就越可信。总奖励是指事实导向奖励和网络奖励的总和。两个奖励值是同时获得的,句子的可靠性主要来自网络奖励,事实导向奖励仅通过向量距离来计算,并且可以与训练同步获得。
在其中一个实施例中,将状态S i 输入预先设置的神经网络,得到泄露奖励为:
Figure 230681DEST_PATH_IMAGE022
其中,
Figure 110781DEST_PATH_IMAGE023
Figure 969015DEST_PATH_IMAGE024
表示神经网络,f是
Figure 659891DEST_PATH_IMAGE025
的最后一层中s的特征向量。
具体的,与奖励功能为黑匣子的典型无模型强化学习设置不同,该对抗文本生成使用D φ 作为学习的奖励之一。通常,
Figure 806838DEST_PATH_IMAGE025
是一个神经网络,可以分解为特征提取器F和具有权重矢量的最终分类层。对于给定的
Figure 631575DEST_PATH_IMAGE025
,每个状态s的奖励值主要取决于提取的特征f。这样,从
Figure 468950DEST_PATH_IMAGE025
获得更高奖励的目标等同于在此提取的特征空间中找到较高的奖励区域。具体来说,我们在
Figure 393043DEST_PATH_IMAGE025
中的特征提取器F是由CNN实现的;因此,F在卷积层、池化层、激活层之后将CNN特征图矢量输出为f。其他神经网络模型(例如LSTM)也可以用于实现D φ 。与标量信号
Figure 824025DEST_PATH_IMAGE026
相比,特征向量f是Gθ的更具指导意义的引导信号,因为它表明当前生成的单词在提取的特征空间中的位置。
在其中一个实施例中,根据网络奖励、事实导向奖励以及泄露奖励构建损失函数为:
Figure 62239DEST_PATH_IMAGE027
Figure 98328DEST_PATH_IMAGE028
其中,α表示不同时间步的可信度,β和γ表示比例系数;
根据损失函数所述强化学习自生成式对抗性网络的整体目标函数进行优化,所述整体目标函数为:
Figure 990061DEST_PATH_IMAGE010
其中,D表示判别器,G表示生成器。
在另一个实施例中,判别器包括:句子特征提取器和分布距离计算模型;句子提取器通过预设的卷积神经网络将待生成文本和真实文本映射至同一特征空间的特征向量;分布距离计算模型通过待生成文本对应的特征向量映射至所述真实文本对应的特征向量的代价矩阵,根据代价矩阵和采用IPOT算法计算得到的传输矩阵,计算代价变换距离,根据代价变换距离,确定待生成文本和真实文本在特征空间下的分布间距离。
具体的,判别器主要由一个句子特征提取器F(•)、分布距离计算模块组成,其中分布距离计算模块中又分为代价矩阵计算模块、基于IPOT算法的传输矩阵计算模块,具体模型结构如图3所示。
在实际前向推导过程中,生成文本和真实文本都会同时送入判别器中的特征提取器,下面分别介绍这两个部分。
(1)句子特征提取器
其中句子特征提取器的作用为提取输入句子的内部特征。在深度学习中,有很多方式可以用于提取特征,比如RNN,CNN等,虽然输入的句子是序列数据,对于RNN来说比较适合处理这样的数据,但是RNN的缺点在于无法并行计算每个神经元,因此在训练速度上不如CNN。历史上,已经有Collobert,Kim等人使用CNN架构来提取句子特征并用于相关任务,本文也将采用类似的CNN架构来作为特征提取器。
假设输入的句子在经过词嵌入矩阵投影后表示为
Figure 298551DEST_PATH_IMAGE029
,d是词向量维度。卷积操作需要有卷积核,这里设置一个卷积核为
Figure 199511DEST_PATH_IMAGE030
,设置核的第一维与句子向量的词向量长度相同,这样便能使它在原句子中每l个词便提取出新特征,于是就有了一个特征映射:
Figure 824528DEST_PATH_IMAGE031
其中
Figure 293686DEST_PATH_IMAGE032
表示卷积操作,函数
Figure 433681DEST_PATH_IMAGE033
是激活函数,b是偏置项,并且有
Figure 341594DEST_PATH_IMAGE034
,这种方法是将卷积操作与n-gram方法相结合,使得句子局部特征提取的操作独立于句子整体。然后本文接着使用了一个最大池化层,即:
Figure 276576DEST_PATH_IMAGE035
该最大池化层将一个卷积操作提取到的局部词组特征集合作为输入,取其最凸出的特征,同时也保证了提取出的特征向量长度与输入的句子长度无关。上述的过程描述了一种尺寸的卷积核如何提取句子的一种特征,类似于Kim等人的操作,本文使用多种不同尺寸的卷积核来对句子表征做卷积操作,每种卷积核都可以看做是一种语言特征检测器,它学习并识别一类特定的n-gram,假设本文设定有a 1种检测器尺寸,每种检测器共使用a 2个卷积核,则最终产生的句子特征向量表示为:
Figure 775691DEST_PATH_IMAGE036
其中
Figure 606243DEST_PATH_IMAGE037
,有了句子的特征向量表示,接下来便是从真实文本数据采样句子并提取特征,这样就有了句子特征空间,真实句子集合Y和生成句子集合X在该特征空间中都满足一定的分布,因此将它们送往分布距离计算模块。
(2)分布距离计算模块
在分布距离计算模块中,首先需要计算代价矩阵C,C ij 表示生成句子集合X的第i个特征向量传输数据到真实句子集合Y的第j个特征向量的代价,相应的计算方法如公式(13)所示。
Figure 724372DEST_PATH_IMAGE038
Figure 386298DEST_PATH_IMAGE039
可以看出,代价的计算使用了一个神经网络d(•)的转换和余弦函数。在不考虑d(•)的情况下,如果两个特征向量完全相等,那么在它们之间传输数据的代价为0,如果两个特征向量完全不等,则代价为1,因此是完全有可能会出现代价矩阵C中的某一元素接近于0的情况。然而判别器的作用是使得两个分布的距离尽量得大,因此这里使用了一个转换网络d(•)来对输入的句子特征进行一次转换。
在转换网络d(•)的模型架构上,本文主要使用的全连接层,全连接层的作用为在输出层输出的转换后的向量长度与输入的句子特征向量长度保持一致。在计算完代价矩阵后,使用IPOT算法计算相对应的传输矩阵T。借由得到的矩阵C和T,根据公式(14)计算得到最终的代价变化距离DCVD,并以此来表示一个mini-batch大小的生成句子集合和真实句子集合在特征空间下的分布间距离。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种基于事实导向的文本生成装置,包括:网络奖励计算模块402、事实导向奖励计算模块404、训练模块406和输出模块408,其中:
网络奖励计算模块402,用于根据输入预先设置的强化学习自生成式对抗性网络中的待生成文本和真实文本之间的完整单词序列信息,确定所述强化学习自生成式对抗性网络中判别器的网络奖励;
事实导向奖励计算模块404,用于根据待生成文本和真实文本之间的当前单词序列信息,确定所述判别器的事实导向奖励;
训练模块406,用于根据所述网络奖励和所述事实导向奖励构建损失函数,通过所述损失函数对所述强化学习自生成式对抗性网络的整体目标函数进行优化,得到训练好的强化学习自生成式对抗性网络;
输出模块408,用于将待生成文本输入训练好的强化学习自生成式对抗性网络,输出目标文本。
在其中一个实施例中,网络奖励计算模块402还用于根据输入预先设置的强化学习自生成式对抗性网络中的待生成文本和真实文本之间的完整单词序列信息,确定所述完整单词序列信息中每个单词对应单个时间步的奖励计算公式如下:
Figure 259576DEST_PATH_IMAGE040
其中,
Figure 498796DEST_PATH_IMAGE041
表示在参数θ和状态S i 下生成的文本向量。D表示判别器D的判别分数;Y i 表示时刻i得到的完整单词序列信息,从时刻1到时刻T-1可得状态S,输出为时间步1到T的累计奖励结果;
根据单个时间的累计奖励,取平均值得到所述强化学习自生成式对抗性网络中判别器的网络奖励为:
Figure 545249DEST_PATH_IMAGE042
其中,t表示当前时间步。
在其中一个实施例中,网络奖励计算模块402还用于获取当前时间步生成单词的总数占完整单词序列信息中单词总数的比例信息;
若所述比例信息大于阈值,则根据所述网络奖励和所述事实导向奖励构建损失函数。
在其中一个实施例中,事实导向奖励计算模块404还用于根据待生成文本和真实文本之间的当前单词序列信息,确定所述判别器的事实导向奖励为:
Figure 264944DEST_PATH_IMAGE043
其中,
Figure 981227DEST_PATH_IMAGE044
表示生成器在参数θ和状态S i 下生成的文本向量,gt表示真实文本的矢量表示,Dis cosθ表示两个向量之间的余弦距离;Dis o 表示欧氏距离。
在其中一个实施例中,将状态S i 输入预先设置的神经网络,得到泄露奖励为:
Figure 848689DEST_PATH_IMAGE045
其中,
Figure 636516DEST_PATH_IMAGE046
Figure 132089DEST_PATH_IMAGE047
表示神经网络,f是
Figure 409486DEST_PATH_IMAGE047
的最后一层中s的特征向量。
在其中一个实施例中,训练模块406还用于根据所述网络奖励、所述事实导向奖励以及所述泄露奖励构建损失函数为:
Figure 436348DEST_PATH_IMAGE048
Figure 699970DEST_PATH_IMAGE049
其中,α表示不同时间步的可信度,β和γ表示比例系数;
根据所述损失函数所述强化学习自生成式对抗性网络的整体目标函数进行优化,所述整体目标函数为:
Figure 190994DEST_PATH_IMAGE050
其中,D表示判别器,G表示生成器。
在其中一个实施例中,所述判别器包括:句子特征提取器和分布距离计算模型;所述句子提取器通过预设的卷积神经网络将待生成文本和真实文本映射至同一特征空间的特征向量;所述分布距离计算模型通过所述待生成文本对应的特征向量映射至所述真实文本对应的特征向量的代价矩阵,根据所述代价矩阵和采用IPOT算法计算得到的传输矩阵,计算代价变换距离,根据所述代价变换距离,确定待生成文本和真实文本在特征空间下的分布间距离。
关于基于事实导向的文本生成装置的具体限定可以参见上文中对于基于事实导向的文本生成方法的限定,在此不再赘述。上述基于事实导向的文本生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于事实导向的文本生成方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于事实导向的文本生成方法,其特征在于,所述方法包括:
根据输入预先设置的强化学习自生成式对抗性网络中的待生成文本和真实文本之间的完整单词序列信息,确定所述强化学习自生成式对抗性网络中判别器的网络奖励;
根据待生成文本和真实文本之间的当前单词序列信息,确定所述判别器的事实导向奖励;
根据所述网络奖励和所述事实导向奖励构建损失函数,通过所述损失函数对所述强化学习自生成式对抗性网络的整体目标函数进行优化,得到训练好的强化学习自生成式对抗性网络;
将待生成文本输入训练好的强化学习自生成式对抗性网络,输出目标文本。
2.根据权利要求1所述的方法,其特征在于,所述根据输入预先设置的强化学习自生成式对抗性网络中的待生成文本和真实文本之间的完整单词序列信息,确定所述强化学习自生成式对抗性网络中判别器的网络奖励,包括:
根据输入预先设置的强化学习自生成式对抗性网络中的待生成文本和真实文本之间的完整单词序列信息,确定所述完整单词序列信息中每个单词对应单个时间步的奖励计算公式如下:
Figure 336865DEST_PATH_IMAGE001
其中,
Figure 660530DEST_PATH_IMAGE002
表示在参数θ和状态S i 下生成的文本向量,
D表示判别器D的判别分数;Y i 表示时刻i得到的完整单词序列信息,从时刻1到时刻T-1可得状态S,输出为时间步1到T的累计奖励结果;
根据单个时间的累计奖励,取平均值得到所述强化学习自生成式对抗性网络中判别器的网络奖励为:
Figure 237005DEST_PATH_IMAGE003
其中,t表示当前时间步。
3.根据权利要求2所述的方法,其特征在于,在根据所述网络奖励和所述事实导向奖励构建损失函数之前,所述方法还包括:
获取当前时间步生成单词的总数占完整单词序列信息中单词总数的比例信息;
若所述比例信息大于阈值,则根据所述网络奖励和所述事实导向奖励构建损失函数。
4.根据权利要求1所述的方法,其特征在于,所述根据待生成文本和真实文本之间的当前单词序列信息,确定所述判别器的事实导向奖励,包括:
根据待生成文本和真实文本之间的当前单词序列信息,确定所述判别器的事实导向奖励为:
Figure 288006DEST_PATH_IMAGE004
其中,
Figure 836799DEST_PATH_IMAGE005
表示生成器在参数θ和状态S i 下生成的文本向量,gt表示真实文本的矢量表示,Dis cosθ表示两个向量之间的余弦距离;Dis o 表示欧氏距离。
5.根据权利要求2至4任一项所述的方法,其特征在于,所述方法还包括:
将状态S i 输入预先设置的神经网络,得到泄露奖励为:
Figure 455999DEST_PATH_IMAGE006
其中,
Figure 457453DEST_PATH_IMAGE007
,D φ 表示神经网络,f是D φ 的最后一层中s的特征向量。
6.根据权利要求5所述的方法,其特征在于,根据所述网络奖励和所述事实导向奖励构建损失函数,通过所述损失函数对所述强化学习自生成式对抗性网络的整体目标函数进行优化,得到训练好的强化学习自生成式对抗性网络,包括:
根据所述网络奖励、所述事实导向奖励以及所述泄露奖励构建损失函数为:
Figure 328457DEST_PATH_IMAGE008
Figure 528495DEST_PATH_IMAGE009
其中,α表示不同时间步的可信度,β和γ表示比例系数;
根据所述损失函数所述强化学习自生成式对抗性网络的整体目标函数进行优化,所述整体目标函数为:
Figure 256279DEST_PATH_IMAGE010
其中,D表示判别器,G表示生成器。
7.根据权利要求6所述的方法,其特征在于,
所述判别器包括:句子特征提取器和分布距离计算模型;所述句子提取器通过预设的卷积神经网络将待生成文本和真实文本映射至同一特征空间的特征向量;所述分布距离计算模型通过所述待生成文本对应的特征向量映射至所述真实文本对应的特征向量的代价矩阵,根据所述代价矩阵和采用IPOT算法计算得到的传输矩阵,计算代价变换距离,根据所述代价变换距离,确定待生成文本和真实文本在特征空间下的分布间距离。
8.一种基于事实导向的文本生成装置,其特征在于,所述装置包括:
网络奖励计算模块,用于根据输入预先设置的强化学习自生成式对抗性网络中的待生成文本和真实文本之间的完整单词序列信息,确定所述强化学习自生成式对抗性网络中判别器的网络奖励;
事实导向奖励计算模块,用于根据待生成文本和真实文本之间的当前单词序列信息,确定所述判别器的事实导向奖励;
训练模块,用于根据所述网络奖励和所述事实导向奖励构建损失函数,通过所述损失函数对所述强化学习自生成式对抗性网络的整体目标函数进行优化,得到训练好的强化学习自生成式对抗性网络;
输出模块,用于将待生成文本输入训练好的强化学习自生成式对抗性网络,输出目标文本。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202110000752.8A 2021-01-04 2021-01-04 基于事实导向的文本生成方法、装置和计算机设备 Active CN112329404B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110000752.8A CN112329404B (zh) 2021-01-04 2021-01-04 基于事实导向的文本生成方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110000752.8A CN112329404B (zh) 2021-01-04 2021-01-04 基于事实导向的文本生成方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN112329404A true CN112329404A (zh) 2021-02-05
CN112329404B CN112329404B (zh) 2021-08-24

Family

ID=74301959

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110000752.8A Active CN112329404B (zh) 2021-01-04 2021-01-04 基于事实导向的文本生成方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN112329404B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111638A (zh) * 2021-04-13 2021-07-13 北京沃东天骏信息技术有限公司 自然语言生成模型的训练方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492764A (zh) * 2018-10-24 2019-03-19 平安科技(深圳)有限公司 生成式对抗网络的训练方法、相关设备及介质
CN110554866A (zh) * 2019-09-12 2019-12-10 北京工商大学 一种基于mvc交易类智能合约交互式设计方法
CN111143617A (zh) * 2019-12-12 2020-05-12 浙江大学 一种图片或视频文本描述自动生成方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492764A (zh) * 2018-10-24 2019-03-19 平安科技(深圳)有限公司 生成式对抗网络的训练方法、相关设备及介质
CN110554866A (zh) * 2019-09-12 2019-12-10 北京工商大学 一种基于mvc交易类智能合约交互式设计方法
CN111143617A (zh) * 2019-12-12 2020-05-12 浙江大学 一种图片或视频文本描述自动生成方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LANTAO YU, WEINAN ZHANG, JUNWANG, YONG YU: ""SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient"", 《PROCEEDINGS OF THE THIRTY-FIRST AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE (AAAI-17)》 *
张志远,李媛媛: ""加入目标指导的强化对抗文本生成方法研究"", 《计算机应用研究》 *
谭红叶, 闫真, 李茹, 敬毅民: ""迈向创造性语言生成: 汉语幽默自动生成的探索"", 《中国科学: 信息科学》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111638A (zh) * 2021-04-13 2021-07-13 北京沃东天骏信息技术有限公司 自然语言生成模型的训练方法和装置

Also Published As

Publication number Publication date
CN112329404B (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
CN112487182B (zh) 文本处理模型的训练方法、文本处理方法及装置
CN110598206B (zh) 文本语义识别方法、装置、计算机设备和存储介质
CN109992773B (zh) 基于多任务学习的词向量训练方法、系统、设备及介质
CN113239700A (zh) 改进bert的文本语义匹配设备、系统、方法及存储介质
Cho Natural language understanding with distributed representation
US20220083868A1 (en) Neural network training method and apparatus, and electronic device
CN114565104A (zh) 语言模型的预训练方法、结果推荐方法及相关装置
US10628529B2 (en) Device and method for natural language processing
CN109684449B (zh) 一种基于注意力机制的自然语言语义表征方法
CN111414749B (zh) 基于深度神经网络的社交文本依存句法分析系统
CN111191457B (zh) 自然语言语义识别方法、装置、计算机设备和存储介质
CN112819023A (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN112380344B (zh) 文本分类的方法、话题生成的方法、装置、设备及介质
CN112257449A (zh) 命名实体识别方法、装置、计算机设备和存储介质
CN112528634A (zh) 文本纠错模型训练、识别方法、装置、设备及存储介质
CN112000788B (zh) 一种数据处理方法、装置以及计算机可读存储介质
Yang et al. Recurrent neural network-based language models with variation in net topology, language, and granularity
CN113849648A (zh) 分类模型训练方法、装置、计算机设备和存储介质
CN112580369A (zh) 语句复述方法、训练语句复述模型的方法及其装置
CN113157919A (zh) 语句文本方面级情感分类方法及系统
CN112329404B (zh) 基于事实导向的文本生成方法、装置和计算机设备
CN114492451B (zh) 文本匹配方法、装置、电子设备及计算机可读存储介质
KR20190103011A (ko) 거리 기반 딥 러닝
CN111309923B (zh) 对象向量确定、模型训练方法、装置、设备和存储介质
CN113342927A (zh) 敏感词识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant