CN110866101B

CN110866101B - 一种基于近端策略优化与对抗学习的对话生成方法

Info

Publication number: CN110866101B
Application number: CN201911082368.6A
Authority: CN
Inventors: 游进国; 蔡钺
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2019-11-07
Filing date: 2019-11-07
Publication date: 2022-11-01
Anticipated expiration: 2039-11-07
Also published as: CN110866101A

Abstract

本发明涉及一种基于近端策略优化与对抗学习的对话生成方法，属于计算机自然语言处理领域。该方法首先预训练对抗生成网络的生成模型和判别模型；然后，利用蒙特卡罗采样的方法计算生成的句子中每个单词对应的奖励，奖励值的大小代表单词生成的好坏；其次，将对抗生成网络的训练过程当作一个强化学习的过程，利用近端策略优化算法训练对抗生成网络，使判别模型得到的奖励能指导生成模型的生成，生成模型得到的对话又能指导判别模型的训练；最后，使用强迫指导的方法训练生成模型。本发明通过控制生成模型自适应的多次迭代提高了模型的训练效率，通过近端策略优化算法提高了样本的复杂性进而提高了对话生成的质量，可以生成更接近人类的对话。

Description

一种基于近端策略优化与对抗学习的对话生成方法

技术领域

本发明涉及一种基于近端策略优化与对抗学习的对话生成方法，属于计算机自然语言处理领域。

背景技术

对话生成的问题是自然语言处理重点研究的方向之一，它是训练聊天机器人的主要技术。现在，微软小冰、小爱同学等聊天机器人已经慢慢的融入了我们的生活，生成更加接近人类的对话可以增强这些软件的用户体验。对话生成的问题最先的突破是将带有注意力机制的序列到序列模型运用到了对话的生成，但同时它又面临了没有好的对话评估指标的问题，影响了对话生成的质量。对抗生成网络可以使用判别模型来评估整个句子生成的好坏，可以很好的解决对话评估的问题。但是对抗生成网络在处理离散语言的生成时，会面临在反向传播中不可微分的问题，生成模型与判别模型不能作为一个整体进行训练。解决对抗生成网络在离散数据生成上不可微分的问题，用对抗生成网络训练对话的生成是最近活跃的一个研究领域。

对抗生成网络用于对话生成的过程中，判别模型只能评估整个句子生成的好坏，即得到整个句子的奖励，为了更好的使用判别模型得到的奖励训练生成模型，需要得到中间对话的奖励，蒙特卡罗采样的方法是一种常用的得到中间对话的奖励的方法，但是它是非常耗时的。目前，在将对抗生成网络用于对话生成方面存在有两个问题：1.对于蒙特卡罗采样方法得到的奖励的利用率是非常低的，这样就大大的降低了训练的效率。2.用于训练的样本数的复杂性往往是不够的，这样会影响对话生成的质量。本文提出使用近端策略优化算法来训练对抗生成网络，近端策略优化算法是一种异策略的强化学习方法，将其用于训练对抗生成网络的过程中，首先，它将对抗生成网络对抗训练的过程视为一个强化学习的过程，解决对抗生成网络反向传播不可微分的问题；其次，它通过控制生成模型自适应的多次迭代，提高了对判别模型返回奖励的利用率；最后，近端策略优化算法通过提高样本的复杂性，提高了对话生成的质量，可以生成更接近人类的对话。

发明内容

为了弥补先有技术的不足，本发明提供了一种基于近端策略优化与对抗学习的对话生成方法，提高了对话训练的效率以及对话生成的质量，可以生成更接近人类的对话。

为实现上述目的，设计了五个部分：预训练生成模型、预训练判别模型、根据蒙特卡罗采样的方法计算奖励、利用近端策略优化算法训练对抗生成网络以及使用强迫指导训练生成模型。

具体的，预训练生成模型的方法如下：

生成模型使用的是一个带有注意力机制的编码器-解码器的架构。生成模型的编码部分和解码部分都是由循环神经网络构成的。编码部分将输入的对话编码为一个向量表示，并使用注意力机制得到输入对话中的每个单词对解码的过程中将要产生的单词的影响，然后有条件的生成输出。

生成模型的目的是最大化每个输出是真实回答的概率：

式(1)中，θ表示生成模型的参数，对话的输入用h表示，真实对话的回答用x表示，p_θ(x_t|x_1:t-1,h)表示在给定输入对话h和真实对话单词(x₁,…,x_t-1)的情况下，产生的下一个单词是真实对话单词x_t的概率。

使用极大似然估计作为损失函数训练生成模型：

式(2)中，θ表示生成模型的参数，对话的输入用h表示，真实对话的回答用x表示，(x,h)表示一对真实的问答对，S₁表示所有真实的问答对。p_θ(x_t|x_1:t-1,h)表示在给定输入对话h和真实对话单词(x₁,...,x_t-1)的情况下，产生的下一个单词是真实对话单词x_t的概率。

具体的，预训练判别模型的方法如下：

首先分别用两个循环神经网络将对话的问题和回答进行编码，将循环神经网络中最后一个时刻的隐藏状态作为句子的编码向量，得到每句话句子层面的信息。之后再将其作为下一层循环神经网络的输入向量，第二层循环神经网络的隐藏状态就包含了整个对话层面的信息。之后加入一个二分类的softmax层进行分类。使用交叉熵作为损失函数训练判别模型：

式(3)中，

表示判别模型的参数，对话的输入用h表示，真实对话的回答用x表示，生成对话的回答用c表示。(x,h)表示一对真实的问答对，(c,h)表示一对生成的问答对，S₁表示所有真实的问答对，S₂表示所有生成的问答对。D(x,h)表示判别模型将真实回答判断为真实回答的概率，D(c,h)表示判别模型将生成的回答判断为生成的回答的概率。

具体的，根据蒙特卡罗采样的方法计算奖励值的方法如下：

判别模型只能得到一个完整句子的奖励，利用蒙特卡罗采样的方法得到生成的对话，再将其用于判别模型可以得到每个单词对应的奖励。利用蒙特卡罗采样计算第t个单词的奖励的过程是，在已知前t个单词的情况下，保持前t个单词不变，继续从模型分布中完成整句话的生成，重复这个过程N次，生成N句话。之后将这N句话输入判别模型得到奖励，计算这N句话得到奖励的平均值，即为第t个单词的奖励。

在使用判别模型计算奖励时，将问题与生成模型生成的对话作为一个问答对输入判别模型，我们将判别模型判断对话为真实对话的概率作为奖励，奖励的值越大表示生成模型生成的对话的质量越高。

式(4)中，M是指生成回复中的单词数，对话的输入用h表示，生成对话的回答用c表示，c_t表示生成的第t个单词，R(c_t,h)是指生成单词c_t的奖励，

表示在使用蒙特卡罗采样计算第t个单词的奖励时生成的第i句对话，

表示将对话的输入h与生成的对话

作为判别模型的输入时，被判断为真实对话的概率。D(c,h)表示将生成的整句对话作为判别模型的输入时，被判断为真实对话的概率，将其为最后一个单词的奖励值。

具体的，利用近端策略优化算法训练对抗生成网络的方法如下：

生成模型不再使用极大似然估计作为损失函数更新参数，而是将其看作一个强化学习的问题。强化学习的目的就是在状态s下通过策略π得到要执行的动作a，通过执行动作a可以获得最大的期望奖励。近端策略优化算法是一个异策略的强化学习算法，用于生成模型迭代训练的策略π和用于生成回答得到奖励值的策略π_old是不同的，这样使用蒙特卡罗采样得到的奖励值就可以重复被用于生成模型的迭代训练，从而提高模型训练的效率。

近端策略优化算法训练生成模型的损失函数为：

其中，

R^t＝R(c_t,h) (7)

式(5)中，θ表示生成模型的参数，对话的输入用h表示，生成对话的回答用c表示，(c,h)表示一对生成的问答对，S₂表示所有生成的问答对，m^t(θ)表示在训练单词t时模型参数的变化率，R^t表示单词t的奖励值,clip(m^t(θ),1-ε,1+ε)保证了模型参数的变化率在范围(1-ε,1+ε)之间，当m^t(θ)的值小于1-ε时就为1-ε，当m^t(θ)的值大于1+ε时就为1+ε。这个损失函数确保了得到高的奖励时，m^t(θ)的值增大但是不会超过1+ε，得到低的奖励时，m^t(θ)的值减少但是不会小于1-ε。

式(6)中，p_θ(c_t∣c_1:t-1,h)是指在给定输入的对话h和已生成的单词(c₁,…,c_t-1)的情况下，下一个生成的单词为c_t的概率，θ为策略π的参数，即为正在迭代的生成模型的参数，θ_old为策略π_old的参数，即为上一次对抗训练的生成模型的参数，(c₁,…,c_t)是由策略π_old生成的。式(7)中，R(c_t,h)是指使用策略π_old生成单词c_t的奖励。

具体的，使用强迫指导训练生成模型的方法如下：

在使用对抗生成网络训练模型的时候，生成模型和判别模型的训练需要在一个平衡的状态才能达到对抗训练的效果。因此，在通过对抗生成网络训练一次生成模型之后，我们需要再对生成模型进行一次强迫指导的训练。使用数据集中的真实对话，将极大似然估计作为损失函数更新一次生成模型的参数。

本发明的与现有的主流相关对话生成方法相比，其优点在于：

1、本文提出的方法通过控制生成模型自适应的多次迭代，提高了对判别模型返回奖励的利用率，进而提高了模型训练的效率。

2、在训练对抗生成网络的过程中，样本的复杂性不够会影响对话生成的质量。近端策略优化算法可以提高样本的复杂性，本文将其用于训练对抗生成网络的过程中由于样本的复杂性的提高，进而提高了对话生成的质量，可以生成更加接近人类的对话。

附图说明

图1是本发明的方法流程图。

具体实施方式

为了对本发明的模型架构、目的和效果有更加清楚的理解，现对照附图说明本发明的具体实施方式。

图1是本发明的方法流程图：

第一步：预训练生成模型。

生成模型的目的是最大化每个输出是真实回答的概率：

使用极大似然估计作为损失函数训练生成模型：

式(2)中，θ表示生成模型的参数，对话的输入用h表示，真实对话的回答用x表示，(x,h)表示一对真实的问答对，S₁表示所有真实的问答对。p_θ(x_t∣x_1:t-1,h)表示在给定输入对话h和真实对话单词(x₁,…,x_t-1)的情况下，产生的下一个单词是真实对话单词x_t的概率。

因为在使用极大似然估计训练生成模型的过程中是知道真实的对话回答x的，所以在解码的过程中可以将前一步的正确对话单词x_t-1作为输入。但是在测试时是不知道正确回答的，只能将前一步的输出c_t-1作为输入。

第二步：预训练判别模型。

判别模型使用的是层次神经网络的架构。首先分别用两个循环神经网络将对话的问题和回答进行编码，将循环神经网络中最后一个时刻的隐藏状态作为句子的编码向量，得到每句话句子层面的信息。之后再将其作为下一层循环神经网络的输入向量，第二层循环神经网络的隐藏状态就包含了整个对话层面的信息。之后加入一个二分类的softmax层进行分类。

使用交叉熵作为损失函数训练判别模型：

式(3)中，

第三步：训练对抗生成网络中的判别模型。

在训练对抗生成网络中的判别模型的时候，需要设定每一次对抗训练的过程中，判别模型迭代次数的超参数。判别模型是根据前一次生成模型生成的对话以及真实的对话进行训练的。与判别模型的预训练过程一样，也是使用的交叉熵作为损失函数，即损失函数为公式(3)。

第四步：得到生成对话的奖励值。

在使用判别模型计算奖励时，将问题与生成模型生成的对话作为一个问答对输入判别模型，我们将判别模型判断对话为真实对话的概率作为奖励值，奖励值越大表示生成模型生成的对话的质量越高。

表示将对话的输入h与生成的对话

第五步：使用近端策略优化算法训练生成模型。

使用近端策略优化算法训练生成模型时也需要设定迭代次数的超参数。近端策略优化算法限制了生成模型迭代的梯度，随着迭代的次数的增加，生成模型参数的变化慢慢趋于稳定，迭代次数过多的意义不大。当迭代次数过少的时候，生成对话奖励值的利用率会变低。

在使用近端策略优化算法训练生成模型的过程中，生成模型不再使用极大似然估计作为损失函数更新参数，而是将其看作一个强化学习的问题。强化学习的目的就是在状态s下通过策略π得到要执行的动作a，通过执行动作a可以获得最大的期望奖励。近端策略优化算法是一个异策略的强化学习算法，用于生成模型迭代训练的策略π和用于生成回答得到奖励值的策略π_old是不同的，这样使用蒙特卡罗采样得到的奖励值就可以重复被用于生成模型的迭代训练，从而提高模型训练的效率。

近端策略优化算法对用对话生成的损失函数为：

其中，

R^t＝R(c_t,h) (7)

式(6)中，p_θ(c_t|c_1:t-1,h)是指在给定输入的对话h和已生成的单词(c₁，…,c_t-₁)的情况下，下一个生成的单词为c_t的概率，θ为策略π的参数，即为正在迭代的生成模型的参数，θ_old为策略π_old的参数，即为上一次对抗训练的生成模型的参数，(c₁,…,c_t)是由策略π_old生成的。式(7)中，R(c_t,h)是指使用策略π_old生成单词c_t的奖励。

第六步：使用强迫指导训练生成模型

强迫指导的方法是指在模型训练中加入使用数据集中的真实对话训练生成模型的步骤。在使用对抗生成网络训练模型的时候，生成模型和判别模型的训练需要在一个平衡的状态才能达到对抗训练的效果。因此，在通过对抗生成网络训练一次生成模型之后，我们需要再对生成模型进行一次强迫指导的训练。使用数据集中的真实对话，将极大似然估计作为损失函数更新一次生成模型的参数。这个强迫指导可以避免在对抗生成的过程中，判别模型训练的足够好而生成模型训练不够时，判别模型很容易判断出是否是生成模型产生的对话，而生成模型不会生成足够真实的对话“欺骗”判别模型，导致判别模型得到的奖励失去指导意义的情况。

以上所述仅是本发明的优选实施，不限制本发明的范围。因此，在本发明的权利要求中进行的等同变化仍然在本发明的范围内。

Claims

1.一种基于近端策略优化与对抗学习的对话生成方法，其特征在于，所述一种基于近端策略优化与对抗学习的对话生成方法的具体步骤如下：

第一步：训练一个模型对输入的对话生成回答，并将其作为对抗生成网络的生成模型；

第二步：训练一个模型判断第一步中生成模型生成的整句回答的好坏，并将其作为对抗生成网络的判别模型；

第三步：由第一步得到的生成模型和第二步得到的判别模型构成一个对抗生成网络，利用蒙特卡罗采样的方法计算对抗生成网络生成模型生成的句子中每个单词对应的奖励；

第四步：将对抗生成网络的训练过程当作一个强化学习的过程，利用近端策略优化算法训练对抗生成网络，使判别模型得到的奖励值能指导生成模型的生成，生成模型得到的对话又能指导判别模型的训练，是一个对抗学习的过程；

第五步：使用强迫指导的方法训练生成模型，其中，强迫指导的方法是指在模型训练中加入使用数据集中的真实对话训练生成模型的步骤。

2.根据权利要求1所述基于近端策略优化与对抗学习的对话生成方法，其特征在于：所述第一步中生成模型使用的是一个带有注意力机制的编码器-解码器的架构；

生成模型的编码部分和解码部分都是由循环神经网络构成的；编码部分将输入的对话编码为一个向量表示，并使用注意力机制得到输入对话中的每个单词对解码的过程中将要产生的单词的影响，然后有条件的生成输出；

生成模型的目的是最大化每个输出是真实回答的概率：

式(1)中，θ表示生成模型的参数，对话的输入用h表示，真实对话的回答用x表示，p_θ(x_t|x_1:t-1,h)表示在给定输入对话h和真实对话单词(x₁,…,x_t-1)的情况下，产生的下一个单词是真实对话单词xt的概率；

使用极大似然估计作为损失函数训练生成模型：

式(2)中，θ表示生成模型的参数，对话的输入用h表示，真实对话的回答用x表示，(x,h)表示一对真实的问答对，S₁表示所有真实的问答对；p_θ(x_t∣x_1:t-1,h)表示在给定输入对话h和真实对话单词(x1,…,xt-1)的情况下，产生的下一个单词是真实对话单词xt的概率。

3.根据权利要求1所述基于近端策略优化与对抗学习的对话生成方法，其特征在于：所述第二步中判别模型使用的是层次神经网络的架构；首先分别用两个循环神经网络将对话的问题和回答进行编码，将循环神经网络中最后一个时刻的隐藏状态作为句子的编码向量，得到每句话句子层面的信息；之后再将其作为下一层循环神经网络的输入向量，第二层循环神经网络的隐藏状态就包含了整个对话层面的信息；之后加入一个二分类的softmax层进行分类；

使用交叉熵作为损失函数训练判别模型：

式(3)中，

表示判别模型的参数，对话的输入用h表示，真实对话的回答用x表示，生成对话的回答用c表示；(x,h)表示一对真实的问答对，(c,h)表示一对生成的问答对，S₁表示所有真实的问答对，S₂表示所有生成的问答对；D(x,h)表示判别模型将真实回答判断为真实回答的概率，D(c,h)表示判别模型将生成的回答判断为生成的回答的概率。

4.根据权利要求1所述基于近端策略优化与对抗学习的对话生成方法，其特征在于：所述第三步中，判别模型只能得到一个完整句子的奖励，利用蒙特卡罗采样的方法得到生成的对话，再将其用于判别模型可以得到每个单词对应的奖励；

利用蒙特卡罗采样计算第t个单词的奖励的过程是，在已知前t个单词的情况下，保持前t个单词不变，继续从模型分布中完成整句话的生成，重复这个过程N次，生成N句话；之后将这N句话输入判别模型得到奖励，计算这N句话得到奖励的平均值，即为第t个单词的奖励；

在使用判别模型计算奖励时，将问题与生成模型生成的对话作为一个问答对输入判别模型，我们将判别模型判断对话为真实对话的概率作为奖励，奖励的值越大表示生成模型生成的对话的质量越高；

表示在使用蒙特卡罗采样计算第t个单词的奖励时生成的第i句对话，D(cⁱ,h)表示将对话的输入h与生成的对话cⁱ作为判别模型的输入时，被判断为真实对话的概率；D(c,h)表示将生成的整句对话作为判别模型的输入时，被判断为真实对话的概率，将其为最后一个单词的奖励值。

5.根据权利要求1所述基于近端策略优化与对抗学习的对话生成方法，其特征在于：所述第四步中，生成模型不再使用极大似然估计作为损失函数更新参数，而是将其看作一个强化学习的问题；

强化学习的目的就是在状态s下通过策略π得到要执行的动作a，通过执行动作a可以获得最大的期望奖励；近端策略优化算法是一个异策略的强化学习算法，用于生成模型迭代训练的策略π和用于生成回答得到奖励值的策略π_old是不同的，这样使用蒙特卡罗采样得到的奖励值就可以重复被用于生成模型的迭代训练，从而提高模型训练的效率；

近端策略优化算法训练生成模型的损失函数为：

其中，

R^t＝R(c_t,h) (7)

式(5)中，θ表示生成模型的参数，对话的输入用h表示，生成对话的回答用c表示，(c,h)表示一对生成的问答对，S₂表示所有生成的问答对，m^t(θ)表示在训练单词t时模型参数的变化率，R^t表示单词t的奖励值,clip(m^t(θ),1-ε,1+ε)保证了模型参数的变化率在范围(1-ε,1+ε)之间，当m^t(θ)的值小于1-ε时就为1-ε，当m^t(θ)的值大于1+ε时就为1+ε；这个损失函数确保了得到高的奖励时，m^t(θ)的值增大但是不会超过1+ε，得到低的奖励时，m^t(θ)的值减少但是不会小于1-ε；

式(6)中，p_θ(c_t∣c_1:t-1,h)是指在给定输入的对话h和已生成的单词(c₁,…,c_t-1)的情况下，下一个生成的单词为c_t的概率，θ为策略π的参数，即为正在迭代的生成模型的参数，θ_old为策略π_old的参数，即为上一次对抗训练的生成模型的参数，(c1,…,ct)是由策略π_old生成的；式(7)中，R(c_t,h)是指使用策略π_old生成单词ct的奖励。

6.根据权利要求1所述基于近端策略优化与对抗学习的对话生成方法，其特征在于：所述第五步中，使用强迫指导的方法，利用极大似然估计作为损失函数训练生成模型；在使用对抗生成网络训练模型的时候，生成模型和判别模型的训练需要在一个平衡的状态才能达到对抗训练的效果；因此，在通过对抗生成网络训练一次生成模型之后，我们需要再对生成模型进行一次强迫指导的训练；使用数据集中的真实对话，将极大似然估计作为损失函数更新一次生成模型的参数。