CN110866101B - 一种基于近端策略优化与对抗学习的对话生成方法 - Google Patents

一种基于近端策略优化与对抗学习的对话生成方法 Download PDF

Info

Publication number
CN110866101B
CN110866101B CN201911082368.6A CN201911082368A CN110866101B CN 110866101 B CN110866101 B CN 110866101B CN 201911082368 A CN201911082368 A CN 201911082368A CN 110866101 B CN110866101 B CN 110866101B
Authority
CN
China
Prior art keywords
model
generated
dialogue
generation
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911082368.6A
Other languages
English (en)
Other versions
CN110866101A (zh
Inventor
游进国
蔡钺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201911082368.6A priority Critical patent/CN110866101B/zh
Publication of CN110866101A publication Critical patent/CN110866101A/zh
Application granted granted Critical
Publication of CN110866101B publication Critical patent/CN110866101B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于近端策略优化与对抗学习的对话生成方法,属于计算机自然语言处理领域。该方法首先预训练对抗生成网络的生成模型和判别模型;然后,利用蒙特卡罗采样的方法计算生成的句子中每个单词对应的奖励,奖励值的大小代表单词生成的好坏;其次,将对抗生成网络的训练过程当作一个强化学习的过程,利用近端策略优化算法训练对抗生成网络,使判别模型得到的奖励能指导生成模型的生成,生成模型得到的对话又能指导判别模型的训练;最后,使用强迫指导的方法训练生成模型。本发明通过控制生成模型自适应的多次迭代提高了模型的训练效率,通过近端策略优化算法提高了样本的复杂性进而提高了对话生成的质量,可以生成更接近人类的对话。

Description

一种基于近端策略优化与对抗学习的对话生成方法
技术领域
本发明涉及一种基于近端策略优化与对抗学习的对话生成方法,属于计算机自然语言处理领域。
背景技术
对话生成的问题是自然语言处理重点研究的方向之一,它是训练聊天机器人的主要技术。现在,微软小冰、小爱同学等聊天机器人已经慢慢的融入了我们的生活,生成更加接近人类的对话可以增强这些软件的用户体验。对话生成的问题最先的突破是将带有注意力机制的序列到序列模型运用到了对话的生成,但同时它又面临了没有好的对话评估指标的问题,影响了对话生成的质量。对抗生成网络可以使用判别模型来评估整个句子生成的好坏,可以很好的解决对话评估的问题。但是对抗生成网络在处理离散语言的生成时,会面临在反向传播中不可微分的问题,生成模型与判别模型不能作为一个整体进行训练。解决对抗生成网络在离散数据生成上不可微分的问题,用对抗生成网络训练对话的生成是最近活跃的一个研究领域。
对抗生成网络用于对话生成的过程中,判别模型只能评估整个句子生成的好坏,即得到整个句子的奖励,为了更好的使用判别模型得到的奖励训练生成模型,需要得到中间对话的奖励,蒙特卡罗采样的方法是一种常用的得到中间对话的奖励的方法,但是它是非常耗时的。目前,在将对抗生成网络用于对话生成方面存在有两个问题:1.对于蒙特卡罗采样方法得到的奖励的利用率是非常低的,这样就大大的降低了训练的效率。2.用于训练的样本数的复杂性往往是不够的,这样会影响对话生成的质量。本文提出使用近端策略优化算法来训练对抗生成网络,近端策略优化算法是一种异策略的强化学习方法,将其用于训练对抗生成网络的过程中,首先,它将对抗生成网络对抗训练的过程视为一个强化学习的过程,解决对抗生成网络反向传播不可微分的问题;其次,它通过控制生成模型自适应的多次迭代,提高了对判别模型返回奖励的利用率;最后,近端策略优化算法通过提高样本的复杂性,提高了对话生成的质量,可以生成更接近人类的对话。
发明内容
为了弥补先有技术的不足,本发明提供了一种基于近端策略优化与对抗学习的对话生成方法,提高了对话训练的效率以及对话生成的质量,可以生成更接近人类的对话。
为实现上述目的,设计了五个部分:预训练生成模型、预训练判别模型、根据蒙特卡罗采样的方法计算奖励、利用近端策略优化算法训练对抗生成网络以及使用强迫指导训练生成模型。
具体的,预训练生成模型的方法如下:
生成模型使用的是一个带有注意力机制的编码器-解码器的架构。生成模型的编码部分和解码部分都是由循环神经网络构成的。编码部分将输入的对话编码为一个向量表示,并使用注意力机制得到输入对话中的每个单词对解码的过程中将要产生的单词的影响,然后有条件的生成输出。
生成模型的目的是最大化每个输出是真实回答的概率:
Figure GDA0003712781010000021
式(1)中,θ表示生成模型的参数,对话的输入用h表示,真实对话的回答用x表示,pθ(xt|x1:t-1,h)表示在给定输入对话h和真实对话单词(x1,…,xt-1)的情况下,产生的下一个单词是真实对话单词xt的概率。
使用极大似然估计作为损失函数训练生成模型:
Figure GDA0003712781010000022
式(2)中,θ表示生成模型的参数,对话的输入用h表示,真实对话的回答用x表示,(x,h)表示一对真实的问答对,S1表示所有真实的问答对。pθ(xt|x1:t-1,h)表示在给定输入对话h和真实对话单词(x1,...,xt-1)的情况下,产生的下一个单词是真实对话单词xt的概率。
具体的,预训练判别模型的方法如下:
首先分别用两个循环神经网络将对话的问题和回答进行编码,将循环神经网络中最后一个时刻的隐藏状态作为句子的编码向量,得到每句话句子层面的信息。之后再将其作为下一层循环神经网络的输入向量,第二层循环神经网络的隐藏状态就包含了整个对话层面的信息。之后加入一个二分类的softmax层进行分类。使用交叉熵作为损失函数训练判别模型:
Figure GDA0003712781010000031
式(3)中,
Figure GDA0003712781010000032
表示判别模型的参数,对话的输入用h表示,真实对话的回答用x表示,生成对话的回答用c表示。(x,h)表示一对真实的问答对,(c,h)表示一对生成的问答对,S1表示所有真实的问答对,S2表示所有生成的问答对。D(x,h)表示判别模型将真实回答判断为真实回答的概率,D(c,h)表示判别模型将生成的回答判断为生成的回答的概率。
具体的,根据蒙特卡罗采样的方法计算奖励值的方法如下:
判别模型只能得到一个完整句子的奖励,利用蒙特卡罗采样的方法得到生成的对话,再将其用于判别模型可以得到每个单词对应的奖励。利用蒙特卡罗采样计算第t个单词的奖励的过程是,在已知前t个单词的情况下,保持前t个单词不变,继续从模型分布中完成整句话的生成,重复这个过程N次,生成N句话。之后将这N句话输入判别模型得到奖励,计算这N句话得到奖励的平均值,即为第t个单词的奖励。
在使用判别模型计算奖励时,将问题与生成模型生成的对话作为一个问答对输入判别模型,我们将判别模型判断对话为真实对话的概率作为奖励,奖励的值越大表示生成模型生成的对话的质量越高。
Figure GDA0003712781010000033
式(4)中,M是指生成回复中的单词数,对话的输入用h表示,生成对话的回答用c表示,ct表示生成的第t个单词,R(ct,h)是指生成单词ct的奖励,
Figure GDA0003712781010000034
表示在使用蒙特卡罗采样计算第t个单词的奖励时生成的第i句对话,
Figure GDA0003712781010000035
表示将对话的输入h与生成的对话
Figure GDA0003712781010000036
作为判别模型的输入时,被判断为真实对话的概率。D(c,h)表示将生成的整句对话作为判别模型的输入时,被判断为真实对话的概率,将其为最后一个单词的奖励值。
具体的,利用近端策略优化算法训练对抗生成网络的方法如下:
生成模型不再使用极大似然估计作为损失函数更新参数,而是将其看作一个强化学习的问题。强化学习的目的就是在状态s下通过策略π得到要执行的动作a,通过执行动作a可以获得最大的期望奖励。近端策略优化算法是一个异策略的强化学习算法,用于生成模型迭代训练的策略π和用于生成回答得到奖励值的策略πold是不同的,这样使用蒙特卡罗采样得到的奖励值就可以重复被用于生成模型的迭代训练,从而提高模型训练的效率。
近端策略优化算法训练生成模型的损失函数为:
Figure GDA0003712781010000041
其中,
Figure GDA0003712781010000042
Rt=R(ct,h) (7)
式(5)中,θ表示生成模型的参数,对话的输入用h表示,生成对话的回答用c表示,(c,h)表示一对生成的问答对,S2表示所有生成的问答对,mt(θ)表示在训练单词t时模型参数的变化率,Rt表示单词t的奖励值,clip(mt(θ),1-ε,1+ε)保证了模型参数的变化率在范围(1-ε,1+ε)之间,当mt(θ)的值小于1-ε时就为1-ε,当mt(θ)的值大于1+ε时就为1+ε。这个损失函数确保了得到高的奖励时,mt(θ)的值增大但是不会超过1+ε,得到低的奖励时,mt(θ)的值减少但是不会小于1-ε。
式(6)中,pθ(ct∣c1:t-1,h)是指在给定输入的对话h和已生成的单词(c1,…,ct-1)的情况下,下一个生成的单词为ct的概率,θ为策略π的参数,即为正在迭代的生成模型的参数,θold为策略πold的参数,即为上一次对抗训练的生成模型的参数,(c1,…,ct)是由策略πold生成的。式(7)中,R(ct,h)是指使用策略πold生成单词ct的奖励。
具体的,使用强迫指导训练生成模型的方法如下:
在使用对抗生成网络训练模型的时候,生成模型和判别模型的训练需要在一个平衡的状态才能达到对抗训练的效果。因此,在通过对抗生成网络训练一次生成模型之后,我们需要再对生成模型进行一次强迫指导的训练。使用数据集中的真实对话,将极大似然估计作为损失函数更新一次生成模型的参数。
本发明的与现有的主流相关对话生成方法相比,其优点在于:
1、本文提出的方法通过控制生成模型自适应的多次迭代,提高了对判别模型返回奖励的利用率,进而提高了模型训练的效率。
2、在训练对抗生成网络的过程中,样本的复杂性不够会影响对话生成的质量。近端策略优化算法可以提高样本的复杂性,本文将其用于训练对抗生成网络的过程中由于样本的复杂性的提高,进而提高了对话生成的质量,可以生成更加接近人类的对话。
附图说明
图1是本发明的方法流程图。
具体实施方式
为了对本发明的模型架构、目的和效果有更加清楚的理解,现对照附图说明本发明的具体实施方式。
图1是本发明的方法流程图:
第一步:预训练生成模型。
生成模型使用的是一个带有注意力机制的编码器-解码器的架构。生成模型的编码部分和解码部分都是由循环神经网络构成的。编码部分将输入的对话编码为一个向量表示,并使用注意力机制得到输入对话中的每个单词对解码的过程中将要产生的单词的影响,然后有条件的生成输出。
生成模型的目的是最大化每个输出是真实回答的概率:
Figure GDA0003712781010000051
式(1)中,θ表示生成模型的参数,对话的输入用h表示,真实对话的回答用x表示,pθ(xt|x1:t-1,h)表示在给定输入对话h和真实对话单词(x1,…,xt-1)的情况下,产生的下一个单词是真实对话单词xt的概率。
使用极大似然估计作为损失函数训练生成模型:
Figure GDA0003712781010000052
式(2)中,θ表示生成模型的参数,对话的输入用h表示,真实对话的回答用x表示,(x,h)表示一对真实的问答对,S1表示所有真实的问答对。pθ(xt∣x1:t-1,h)表示在给定输入对话h和真实对话单词(x1,…,xt-1)的情况下,产生的下一个单词是真实对话单词xt的概率。
因为在使用极大似然估计训练生成模型的过程中是知道真实的对话回答x的,所以在解码的过程中可以将前一步的正确对话单词xt-1作为输入。但是在测试时是不知道正确回答的,只能将前一步的输出ct-1作为输入。
第二步:预训练判别模型。
判别模型使用的是层次神经网络的架构。首先分别用两个循环神经网络将对话的问题和回答进行编码,将循环神经网络中最后一个时刻的隐藏状态作为句子的编码向量,得到每句话句子层面的信息。之后再将其作为下一层循环神经网络的输入向量,第二层循环神经网络的隐藏状态就包含了整个对话层面的信息。之后加入一个二分类的softmax层进行分类。
使用交叉熵作为损失函数训练判别模型:
Figure GDA0003712781010000061
式(3)中,
Figure GDA0003712781010000062
表示判别模型的参数,对话的输入用h表示,真实对话的回答用x表示,生成对话的回答用c表示。(x,h)表示一对真实的问答对,(c,h)表示一对生成的问答对,S1表示所有真实的问答对,S2表示所有生成的问答对。D(x,h)表示判别模型将真实回答判断为真实回答的概率,D(c,h)表示判别模型将生成的回答判断为生成的回答的概率。
第三步:训练对抗生成网络中的判别模型。
在训练对抗生成网络中的判别模型的时候,需要设定每一次对抗训练的过程中,判别模型迭代次数的超参数。判别模型是根据前一次生成模型生成的对话以及真实的对话进行训练的。与判别模型的预训练过程一样,也是使用的交叉熵作为损失函数,即损失函数为公式(3)。
第四步:得到生成对话的奖励值。
判别模型只能得到一个完整句子的奖励,利用蒙特卡罗采样的方法得到生成的对话,再将其用于判别模型可以得到每个单词对应的奖励。利用蒙特卡罗采样计算第t个单词的奖励的过程是,在已知前t个单词的情况下,保持前t个单词不变,继续从模型分布中完成整句话的生成,重复这个过程N次,生成N句话。之后将这N句话输入判别模型得到奖励,计算这N句话得到奖励的平均值,即为第t个单词的奖励。
在使用判别模型计算奖励时,将问题与生成模型生成的对话作为一个问答对输入判别模型,我们将判别模型判断对话为真实对话的概率作为奖励值,奖励值越大表示生成模型生成的对话的质量越高。
Figure GDA0003712781010000071
式(4)中,M是指生成回复中的单词数,对话的输入用h表示,生成对话的回答用c表示,ct表示生成的第t个单词,R(ct,h)是指生成单词ct的奖励,
Figure GDA0003712781010000072
表示在使用蒙特卡罗采样计算第t个单词的奖励时生成的第i句对话,
Figure GDA0003712781010000073
表示将对话的输入h与生成的对话
Figure GDA0003712781010000074
作为判别模型的输入时,被判断为真实对话的概率。D(c,h)表示将生成的整句对话作为判别模型的输入时,被判断为真实对话的概率,将其为最后一个单词的奖励值。
第五步:使用近端策略优化算法训练生成模型。
使用近端策略优化算法训练生成模型时也需要设定迭代次数的超参数。近端策略优化算法限制了生成模型迭代的梯度,随着迭代的次数的增加,生成模型参数的变化慢慢趋于稳定,迭代次数过多的意义不大。当迭代次数过少的时候,生成对话奖励值的利用率会变低。
在使用近端策略优化算法训练生成模型的过程中,生成模型不再使用极大似然估计作为损失函数更新参数,而是将其看作一个强化学习的问题。强化学习的目的就是在状态s下通过策略π得到要执行的动作a,通过执行动作a可以获得最大的期望奖励。近端策略优化算法是一个异策略的强化学习算法,用于生成模型迭代训练的策略π和用于生成回答得到奖励值的策略πold是不同的,这样使用蒙特卡罗采样得到的奖励值就可以重复被用于生成模型的迭代训练,从而提高模型训练的效率。
近端策略优化算法对用对话生成的损失函数为:
Figure GDA0003712781010000075
其中,
Figure GDA0003712781010000076
Rt=R(ct,h) (7)
式(5)中,θ表示生成模型的参数,对话的输入用h表示,生成对话的回答用c表示,(c,h)表示一对生成的问答对,S2表示所有生成的问答对,mt(θ)表示在训练单词t时模型参数的变化率,Rt表示单词t的奖励值,clip(mt(θ),1-ε,1+ε)保证了模型参数的变化率在范围(1-ε,1+ε)之间,当mt(θ)的值小于1-ε时就为1-ε,当mt(θ)的值大于1+ε时就为1+ε。这个损失函数确保了得到高的奖励时,mt(θ)的值增大但是不会超过1+ε,得到低的奖励时,mt(θ)的值减少但是不会小于1-ε。
式(6)中,pθ(ct|c1:t-1,h)是指在给定输入的对话h和已生成的单词(c1,…,ct-1)的情况下,下一个生成的单词为ct的概率,θ为策略π的参数,即为正在迭代的生成模型的参数,θold为策略πold的参数,即为上一次对抗训练的生成模型的参数,(c1,…,ct)是由策略πold生成的。式(7)中,R(ct,h)是指使用策略πold生成单词ct的奖励。
第六步:使用强迫指导训练生成模型
强迫指导的方法是指在模型训练中加入使用数据集中的真实对话训练生成模型的步骤。在使用对抗生成网络训练模型的时候,生成模型和判别模型的训练需要在一个平衡的状态才能达到对抗训练的效果。因此,在通过对抗生成网络训练一次生成模型之后,我们需要再对生成模型进行一次强迫指导的训练。使用数据集中的真实对话,将极大似然估计作为损失函数更新一次生成模型的参数。这个强迫指导可以避免在对抗生成的过程中,判别模型训练的足够好而生成模型训练不够时,判别模型很容易判断出是否是生成模型产生的对话,而生成模型不会生成足够真实的对话“欺骗”判别模型,导致判别模型得到的奖励失去指导意义的情况。
以上所述仅是本发明的优选实施,不限制本发明的范围。因此,在本发明的权利要求中进行的等同变化仍然在本发明的范围内。

Claims (6)

1.一种基于近端策略优化与对抗学习的对话生成方法,其特征在于,所述一种基于近端策略优化与对抗学习的对话生成方法的具体步骤如下:
第一步:训练一个模型对输入的对话生成回答,并将其作为对抗生成网络的生成模型;
第二步:训练一个模型判断第一步中生成模型生成的整句回答的好坏,并将其作为对抗生成网络的判别模型;
第三步:由第一步得到的生成模型和第二步得到的判别模型构成一个对抗生成网络,利用蒙特卡罗采样的方法计算对抗生成网络生成模型生成的句子中每个单词对应的奖励;
第四步:将对抗生成网络的训练过程当作一个强化学习的过程,利用近端策略优化算法训练对抗生成网络,使判别模型得到的奖励值能指导生成模型的生成,生成模型得到的对话又能指导判别模型的训练,是一个对抗学习的过程;
第五步:使用强迫指导的方法训练生成模型,其中,强迫指导的方法是指在模型训练中加入使用数据集中的真实对话训练生成模型的步骤。
2.根据权利要求1所述基于近端策略优化与对抗学习的对话生成方法,其特征在于:所述第一步中生成模型使用的是一个带有注意力机制的编码器-解码器的架构;
生成模型的编码部分和解码部分都是由循环神经网络构成的;编码部分将输入的对话编码为一个向量表示,并使用注意力机制得到输入对话中的每个单词对解码的过程中将要产生的单词的影响,然后有条件的生成输出;
生成模型的目的是最大化每个输出是真实回答的概率:
Figure FDA0003712781000000011
式(1)中,θ表示生成模型的参数,对话的输入用h表示,真实对话的回答用x表示,pθ(xt|x1:t-1,h)表示在给定输入对话h和真实对话单词(x1,…,xt-1)的情况下,产生的下一个单词是真实对话单词xt的概率;
使用极大似然估计作为损失函数训练生成模型:
Figure FDA0003712781000000012
式(2)中,θ表示生成模型的参数,对话的输入用h表示,真实对话的回答用x表示,(x,h)表示一对真实的问答对,S1表示所有真实的问答对;pθ(xt∣x1:t-1,h)表示在给定输入对话h和真实对话单词(x1,…,xt-1)的情况下,产生的下一个单词是真实对话单词xt的概率。
3.根据权利要求1所述基于近端策略优化与对抗学习的对话生成方法,其特征在于:所述第二步中判别模型使用的是层次神经网络的架构;首先分别用两个循环神经网络将对话的问题和回答进行编码,将循环神经网络中最后一个时刻的隐藏状态作为句子的编码向量,得到每句话句子层面的信息;之后再将其作为下一层循环神经网络的输入向量,第二层循环神经网络的隐藏状态就包含了整个对话层面的信息;之后加入一个二分类的softmax层进行分类;
使用交叉熵作为损失函数训练判别模型:
Figure FDA0003712781000000021
式(3)中,
Figure FDA0003712781000000022
表示判别模型的参数,对话的输入用h表示,真实对话的回答用x表示,生成对话的回答用c表示;(x,h)表示一对真实的问答对,(c,h)表示一对生成的问答对,S1表示所有真实的问答对,S2表示所有生成的问答对;D(x,h)表示判别模型将真实回答判断为真实回答的概率,D(c,h)表示判别模型将生成的回答判断为生成的回答的概率。
4.根据权利要求1所述基于近端策略优化与对抗学习的对话生成方法,其特征在于:所述第三步中,判别模型只能得到一个完整句子的奖励,利用蒙特卡罗采样的方法得到生成的对话,再将其用于判别模型可以得到每个单词对应的奖励;
利用蒙特卡罗采样计算第t个单词的奖励的过程是,在已知前t个单词的情况下,保持前t个单词不变,继续从模型分布中完成整句话的生成,重复这个过程N次,生成N句话;之后将这N句话输入判别模型得到奖励,计算这N句话得到奖励的平均值,即为第t个单词的奖励;
在使用判别模型计算奖励时,将问题与生成模型生成的对话作为一个问答对输入判别模型,我们将判别模型判断对话为真实对话的概率作为奖励,奖励的值越大表示生成模型生成的对话的质量越高;
Figure FDA0003712781000000031
式(4)中,M是指生成回复中的单词数,对话的输入用h表示,生成对话的回答用c表示,ct表示生成的第t个单词,R(ct,h)是指生成单词ct的奖励,
Figure FDA0003712781000000032
表示在使用蒙特卡罗采样计算第t个单词的奖励时生成的第i句对话,D(ci,h)表示将对话的输入h与生成的对话ci作为判别模型的输入时,被判断为真实对话的概率;D(c,h)表示将生成的整句对话作为判别模型的输入时,被判断为真实对话的概率,将其为最后一个单词的奖励值。
5.根据权利要求1所述基于近端策略优化与对抗学习的对话生成方法,其特征在于:所述第四步中,生成模型不再使用极大似然估计作为损失函数更新参数,而是将其看作一个强化学习的问题;
强化学习的目的就是在状态s下通过策略π得到要执行的动作a,通过执行动作a可以获得最大的期望奖励;近端策略优化算法是一个异策略的强化学习算法,用于生成模型迭代训练的策略π和用于生成回答得到奖励值的策略πold是不同的,这样使用蒙特卡罗采样得到的奖励值就可以重复被用于生成模型的迭代训练,从而提高模型训练的效率;
近端策略优化算法训练生成模型的损失函数为:
Figure FDA0003712781000000033
其中,
Figure FDA0003712781000000034
Rt=R(ct,h) (7)
式(5)中,θ表示生成模型的参数,对话的输入用h表示,生成对话的回答用c表示,(c,h)表示一对生成的问答对,S2表示所有生成的问答对,mt(θ)表示在训练单词t时模型参数的变化率,Rt表示单词t的奖励值,clip(mt(θ),1-ε,1+ε)保证了模型参数的变化率在范围(1-ε,1+ε)之间,当mt(θ)的值小于1-ε时就为1-ε,当mt(θ)的值大于1+ε时就为1+ε;这个损失函数确保了得到高的奖励时,mt(θ)的值增大但是不会超过1+ε,得到低的奖励时,mt(θ)的值减少但是不会小于1-ε;
式(6)中,pθ(ct∣c1:t-1,h)是指在给定输入的对话h和已生成的单词(c1,…,ct-1)的情况下,下一个生成的单词为ct的概率,θ为策略π的参数,即为正在迭代的生成模型的参数,θold为策略πold的参数,即为上一次对抗训练的生成模型的参数,(c1,…,ct)是由策略πold生成的;式(7)中,R(ct,h)是指使用策略πold生成单词ct的奖励。
6.根据权利要求1所述基于近端策略优化与对抗学习的对话生成方法,其特征在于:所述第五步中,使用强迫指导的方法,利用极大似然估计作为损失函数训练生成模型;在使用对抗生成网络训练模型的时候,生成模型和判别模型的训练需要在一个平衡的状态才能达到对抗训练的效果;因此,在通过对抗生成网络训练一次生成模型之后,我们需要再对生成模型进行一次强迫指导的训练;使用数据集中的真实对话,将极大似然估计作为损失函数更新一次生成模型的参数。
CN201911082368.6A 2019-11-07 2019-11-07 一种基于近端策略优化与对抗学习的对话生成方法 Active CN110866101B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911082368.6A CN110866101B (zh) 2019-11-07 2019-11-07 一种基于近端策略优化与对抗学习的对话生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911082368.6A CN110866101B (zh) 2019-11-07 2019-11-07 一种基于近端策略优化与对抗学习的对话生成方法

Publications (2)

Publication Number Publication Date
CN110866101A CN110866101A (zh) 2020-03-06
CN110866101B true CN110866101B (zh) 2022-11-01

Family

ID=69654449

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911082368.6A Active CN110866101B (zh) 2019-11-07 2019-11-07 一种基于近端策略优化与对抗学习的对话生成方法

Country Status (1)

Country Link
CN (1) CN110866101B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797218B (zh) * 2020-07-07 2022-03-29 海南中智信信息技术有限公司 一种基于Cycle-Seq2Seq的开放域对话生成方法
CN112131362B (zh) * 2020-09-22 2023-12-12 腾讯科技(深圳)有限公司 对话语句生成方法和装置、存储介质及电子设备
CN112541060B (zh) * 2020-11-19 2021-08-13 中国科学院深圳先进技术研究院 一种基于对抗训练的端到端任务型对话学习框架和方法
CN113220851A (zh) * 2021-04-28 2021-08-06 山东师范大学 一种基于推理对话模型的人机个性化对话方法及系统
CN113657129A (zh) * 2021-09-06 2021-11-16 内蒙古工业大学 一种结合生成对抗网络与近端优化策略的蒙汉神经机器翻译方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423437A (zh) * 2017-08-04 2017-12-01 逸途(北京)科技有限公司 一种基于对抗网络强化学习的问答模型优化方法
CN107562863A (zh) * 2017-08-30 2018-01-09 深圳狗尾草智能科技有限公司 聊天机器人回复自动生成方法及系统
CN108734276A (zh) * 2018-04-28 2018-11-02 同济大学 一种基于对抗生成网络的模仿学习对话生成方法
CN110297894A (zh) * 2019-05-22 2019-10-01 同济大学 一种基于辅助网络的智能对话生成方法
CN110413754A (zh) * 2019-07-22 2019-11-05 清华大学 对话(中)奖励评估和对话方法、介质、装置和计算设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10705967B2 (en) * 2018-10-15 2020-07-07 Intel Corporation Programmable interface to in-memory cache processor

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423437A (zh) * 2017-08-04 2017-12-01 逸途(北京)科技有限公司 一种基于对抗网络强化学习的问答模型优化方法
CN107562863A (zh) * 2017-08-30 2018-01-09 深圳狗尾草智能科技有限公司 聊天机器人回复自动生成方法及系统
CN108734276A (zh) * 2018-04-28 2018-11-02 同济大学 一种基于对抗生成网络的模仿学习对话生成方法
CN110297894A (zh) * 2019-05-22 2019-10-01 同济大学 一种基于辅助网络的智能对话生成方法
CN110413754A (zh) * 2019-07-22 2019-11-05 清华大学 对话(中)奖励评估和对话方法、介质、装置和计算设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Intelligent Control of a Quadrotor with Proximal Policy Optimization Reinforcement Learning;Guilherme Cano Lopes等;《2018 Latin American Robotic Symposium, 2018 Brazilian Symposium on Robotics (SBR) and 2018 Workshop on Robotics in Education (WRE)》;20181227;503-508 *
对话生成的对抗学习的研究;张海平;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20190115(第1期);I138-5321 *

Also Published As

Publication number Publication date
CN110866101A (zh) 2020-03-06

Similar Documents

Publication Publication Date Title
CN110866101B (zh) 一种基于近端策略优化与对抗学习的对话生成方法
CN108734276B (zh) 一种基于对抗生成网络的模仿学习对话生成方法
CN108763444B (zh) 利用分层编码解码器网络机制来解决视频问答的方法
Henderson et al. Hybrid reinforcement/supervised learning of dialogue policies from fixed data sets
CN112541063B (zh) 一种基于自学习对话模型的人机对话方法及系统
CN104077595B (zh) 基于贝叶斯正则化的深度学习网络图像识别方法
CN108491514B (zh) 对话系统中提问的方法及装置、电子设备、计算机可读介质
CN109271629B (zh) 基于强化学习的生成式文本摘要方法
CN111160467A (zh) 一种基于条件随机场和内部语义注意力的图像描述方法
CN108829756B (zh) 一种利用分层注意力上下文网络解决多轮视频问答的方法
CN108549703B (zh) 一种基于循环神经网络的蒙古语语言模型的训练方法
CN113360618B (zh) 一种基于离线强化学习的智能机器人对话方法及系统
CN116306686B (zh) 一种多情绪指导的共情对话生成方法
CN112527966A (zh) 基于Bi-GRU神经网络和自注意力机制的网络文本情感分析方法
CN110032636A (zh) 基于强化学习的情感对话异步生成模型生成文本的方法
Manuvinakurike et al. Using reinforcement learning to model incrementality in a fast-paced dialogue game
CN110390399A (zh) 一种强化学习的高效探索方法
CN111782788A (zh) 一种面向开放域对话系统的情感回复自动生成方法
KR20220066554A (ko) Qa 모델을 이용하여 지식 그래프를 구축하는 방법, 장치 및 컴퓨터 프로그램
CN115525743B (zh) 基于自学习白化网络的人机交互方法及电子设备
CN115796187A (zh) 一种基于对话结构图约束的开放域对话方法
Cuayáhuitl et al. Towards learning human-robot dialogue policies combining speech and visual beliefs
CN112668344A (zh) 基于混合专家模型的复杂度可控的多样化问题生成方法
Liu et al. Goal-directed sequence generation with simulation feedback method
Minami et al. Trigram dialogue control using POMDPs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant