CN108734276B

CN108734276B - 一种基于对抗生成网络的模仿学习对话生成方法

Info

Publication number: CN108734276B
Application number: CN201810401081.4A
Authority: CN
Inventors: 向阳; 赵宇晴; 张默涵
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2018-04-28
Filing date: 2018-04-28
Publication date: 2021-12-31
Anticipated expiration: 2038-04-28
Also published as: CN108734276A

Abstract

本发明涉及一种基于对抗生成网络的模仿学习对话生成方法，该方法包括以下步骤：1)建立对话语句专家语料库；2)建立对抗生成网络，对抗生成网络中的生成器包括一对编码器和译码器；3)建立假语料库；4)对判别器进行第一次分类训练；5)将输入语句输入至生成器中，并采用强化学习架构对生成器中的编码器和译码器进行训练；6)将步骤5)生成的输出语句加入到假语料库中，继续训练判别器；7)采用对抗生成网络的训练方式交替进行生成器的训练和判别器的训练，直至生成器和判别器均收敛。与现有技术相比，本发明可生成更类似人类的对话语句并避免出现过多通用回答，且能够提升对话生成模型的训练效果，解决了通用回答频率过高的问题。

Description

一种基于对抗生成网络的模仿学习对话生成方法

技术领域

本发明涉及人工智能与认知计算领域的对话生成研究技术，尤其是涉及一种基于对抗生成网络的模仿学习对话生成方法。

背景技术

互联网已经成为世界上十分重要的信息传播工具，其海量的文本数据中存在着巨大的价值。对话系统，也称作交互式会话代理、虚拟代理或聊天机器人，有着广泛的应用场景，如技术支持服务、语言学习工具、个人助理等等。对话系统作为实现自然语言理解和体现机器智能的重要交互接口受到了广泛关注。目前，如何让机器与人类进行持续的、有意义的、有个性风格的对话是对话生成领域待解决的重要问题之一。

自然语言对话系统的技术主要分为两类：基于手写规则技术和基于数据驱动技术。基于规则的解决方案过于依赖精心设计的有限的对话参数或是一些手工模板，而模板又是领域敏感的，因此这类解决方案泛化能力和通用性较差，离复杂场景下的实用化还有很大距离。基于数据驱动的方法又分为基于检索的方式和基于生成的方式。基于检索的方式将大量的单轮对话实例存储在索引里，每一个实例由一个对话输入和其所对应的回复组成。每输入一个信息，检索模块从索引中检索与其相关的信息和回复，并将最适合的回复返回，作为给出的回答。这种方式的优点是不会出现语法错误，但模式是通过检索的方式给出索引库中已有的回答，而符合自然语言处理宗旨的模式应该是通过结合之前的经验进行思考以给出回答，因此受到广泛关注的是基于生成的方式。现有的基于生成方式的对话生成模型往往存在生成语句中不符合人类语言习惯的语句占比很高、生成通用语句的频率很高等问题。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于对抗生成网络的模仿学习对话生成方法。

本发明的目的可以通过以下技术方案来实现：

一种基于对抗生成网络的模仿学习对话生成方法，包括以下步骤：

1)建立相应类型的专家语料库。

2)建立一个包括生成器和判别器的对抗生成网络(GAN，Generative AdversarialNetworks)，GAN中的生成器(Generator)由一对编码器(Encoder)和译码器(Decoder)组成，GAN中的判别器是由前馈神经网络构成的分类器。

分类器最优解的形式如下：

其中，p_data(x)为来自专家语料库的真实样本分布，可将其标签设置为1；p_g为来自假语料的样本分布，可将其标签设置为0；G代表GAN中的生成器，D代表GAN中的判别器。

生成器的用途是：编码器利用循环神经网络(RNN，Recurrent neural Network)或长短期记忆网络(LSTM，Long Short-Term Memory)按时间步逐次处理输入语句中的每个词语的词向量，将最后处理得到的语句向量输入到译码器中，译码器利用RNN或LSTM处理语句向量，每个时间步接受上一时间步的输出词语及译码器循环神经网络的隐藏层状态生成当前时间步的输出词语直至生成终止符号，从而实现对答语句的输出。

3)初始化GAN的参数，并利用初始化参数后的生成器生成假语料库。

4)利用步骤1)获取的专家语料库和步骤3)获取的假语料库对步骤2)中的判别器进行第一次基于有监督学习的分类训练，使判别器能够正确判断其输入是人类的专家语料还是不符合人类语言习惯的假语料。

5)将输入语句输入至步骤2)所得到的生成器中，生成器所输出的输出语句输入到步骤4)所得到的判别器中，判别器将返回的分类结果(真为1，假为0)作为回报(Return)信号输入到步骤2)得到的生成器中，其梯度计算公式如下：

其中，J(θ)为参数θ下的梯度，π_θ是指在参数θ下的策略π，s是状态state，a是动作action，R是在状态s下执行动作a所获得的累计回报Return。

译码器最后一个时间步的循环神经网络隐藏层状态则作为状态(State)，译码器生成输出语句则作为动作(Action)，获取状态、动作、回报后，生成器中的编码器和译码器将作为一个整体进行强化学习训练。

输入语句由一系列词语(x₁,…,x_T)构成，输出语句由一系列词语(y₁,…,y_T＇)构成，则有：

h_t＝sigm(W^hxx_t+W^hhh_t-1)

y_t＝W^yhh_t

其中，h_t为t时刻的隐藏层向量，W为神经网络的参数矩阵，W^hx代表输入层的参数矩阵，W^hh代表隐藏层的参数矩阵，W^yh代表输出层的参数矩阵。x_t为t时刻的输入，y_t为t时刻的输出。p(y₁,…,y_T′|x₁,…,x_T)表示输入语句生成输出语句的概率。

6)将步骤5)获取的生成语句加入到假语料库中，与步骤1)所得的专家语料库一起进行判别器的训练；

7)按照对抗生成网络的训练方式交替进行步骤5)中的训练和步骤6)中的训练，直至生成器和判别器均收敛。

利用GAN将采用对抗生成的方式来同时训练生成器和判别器，其优化目标函数为：

其中，p_z(z)是生成器生成的样本的分布。判别器D尽可能地区分真实样本和生成样本，即其生成值D(x)尽可能大、D(G(z))尽可能小，即由生成器及判别器的输出共同构建的目标函数值V(D,G)整体尽可能大；生成器G希望能尽可能地骗过判别器D，即D(G(z))尽可能大，即V(D,G)整体尽可能小。生成器G和判别器D相互对抗，即min_Gmax_DV(D,G)，最后达到全局最优。

与现有技术相比，本发明具有以下优点：

(1)本发明在对话生成的训练过程中同时采用了基于对抗生成网络的有监督学习方法和强化学习方法，避免了传统的对话生成方法单纯采用有监督学习导致容易出现过拟合的问题。同时强化学习中的计算累计回报的机制可以一定程度上考虑长期依赖，从而改善通用回答出现频率过高的问题，提升对话生成的多样性；

(2)本发明在对抗生成网络的基础上引入了强化学习的训练框架，直接通过对抗生成网络中判别器的信号来避免强化学习耗时耗力的奖励函数设计，同时基于图灵测试的思想，将判别器的输出信号定为判别“采自人类专家的真实语料”还是“生成器生成的语料”，从而提升整个对话生成的效果，使得生成的对话语句更类似真实的人类专家的语句；

(3)本发明通过对对话生成过程中的生成器和判别器进行训练，能够生成符合专家语料库中的语句风格的回答，且随着专家语料库的积累，能够在原有的模型基础上继续训练，进一步提升回答语句的多样性。

附图说明

图1为本发明方法的流程原理示意图；

图2为本发明实施例中LSTM细胞结构示意图；

图3为本发明实施例中编码器-译码器的结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例

本发明涉及一种基于对抗生成网络的模仿学习对话生成方法，包括以下步骤：

1)建立相应类型的专家语料库。

2)建立一个包括生成器和判别器的对抗生成网络(GAN)，GAN中的生成器(Generator)由一对编码器(Encoder)和译码器(Decoder)组成，GAN中的判别器是由前馈神经网络构成的分类器。

分类器最优解的形式如下：

生成器的用途是：编码器利用循环神经网络(RNN)或长短期记忆网络(LSTM)按时间步逐次处理输入语句中的每个词语的词向量，将最后处理得到的语句向量输入到译码器中，译码器利用RNN或LSTM处理语句向量，每个时间步接受上一时间步的输出词语及译码器循环神经网络的隐藏层状态生成当前时间步的输出词语直至生成终止符号，从而实现对答语句的输出。

3)初始化GAN的参数，并利用初始化参数后的生成器生成一系列假语料，构成假语料库。

4)利用步骤1)获取的专家语料库和步骤3)获取的假语料对步骤2)中的判别器进行第一次基于有监督学习的分类训练，使判别器能够正确判断其输入是人类的专家语料还是不符合人类语言习惯的假语料。

输入语句由一系列词语(x₁,…,x_T)构成，输出语句由一系列词语(y₁,…,y_T′)构成，则有：

h_t＝sigm(W^hxx_t+W^hhh_t-1)

y_t＝W^yhh_t

其中，W为神经网络的参数矩阵，W^hx代表输入层的参数矩阵，W^hh代表隐藏层的参数矩阵，W^yh代表输出层的参数矩阵。x_t为t时刻的输入，y_t为t时刻的输出，h_t为t时刻的隐藏层向量。p(y₁,…,y_T′|x₁,…,x_T)表示输入语句生成输出语句的概率。

在本实施例中，所指的模仿学习是一种监督学习问题，是一类重要的机器学习问题。在模仿学习问题中，已知的信息只有专家的行为数据，没有其他强化信号，模仿学习希望能够利用已知的专家数据产生与专家行为表现相似的策略。传统的实现模仿学习的方法主要分为两种：行为克隆法和逆强化学习法，在本实施例中所述的基于对抗生成网络的模仿学习方法利用了一种较为新颖的对抗生成式的深度学习机制，其目的是为了产生与专家样本相近的生成样本。最基本的对抗生成网络由两部分组成：生成器(简称G)用来产生样本，判别器(简称D)用来评判专家样本和生成样本。GAN定义了一个G和D相互对抗的博弈问题，通过不断迭代的对抗训练方式来生成逐渐靠近专家样本的生成样本。在本实施例中，基于对抗生成网络的模仿学习将对抗生成机制用在模仿学习中，以生成与专家数据表现相近的行为策略，这种方法与行为克隆法相似，都利用状态动作对作为训练的对象，但该方法又具有较好泛化能力；这种方法与逆强化学习法相似，都存在奖赏函数参与到训练过程中，但该方法又避开了奖赏函数的自身强化学习过程，减少了训练时间。

在本实施例中，对话语句的生成采用了编码器(Encoder)和译码器(Decoder)结构，编码器和译码器均由循环神经网络变体LSTM构成，编码器利用一个LSTM网络按时间步逐次处理输入语句中的每个词语的词向量，将最后处理得到的语句向量输入到译码器中，译码器利用另一个或同一个LSTM处理语句向量，每个时间步接受上一时间步的输出词语及译码器循环神经网络的隐藏层状态生成当前时间步的输出词语直至生成终止符号，从而实现对答语句的输出。LSTM的计算公式如下：

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f)

c_t＝f_tc_t-1+i_ttanh(W_xcx_t+W_hch_t-1+b_c)

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b_o)

h_t＝o_ttanh(c_t)

其中，σ是sigmoid函数，i,f,c,o(包括下标中出现的i,f,c,o)分别代表输入门(input gate)、忘记门(forget gate)、细胞门(cell)和输出门(output gate)。W代表参数矩阵，不同的下标区分了在计算中与不同的向量相乘的参数矩阵。b代表偏置量。如图2所示，细胞门保存了隐层的状态，输入门表示是否允许当前的输入信息加入到隐层状态中，输出门表示是否允许当前隐层节点的输出值传递到下一层，忘记门表示是否保留当前节点的历史状态。

编码器和译码器的结构如图3所示，图中在每一时间步输入编码器的词语分别是A、B、C，译码器每一时间步输出的词语分别是W、X、Y、Z。

在本实施例中，假语句由尚未训练收敛的生成器G提供，判别专家语句和假语句的是GAN中的判别器D，D由一层循环神经网络变体LSTM和两个全连接层构成，采用图灵测试的方式，如果输入是专家语句，则输出类别为1，反之如果输入是假语句，则输出类别为0。

在本实施例中，如图1所示，判别器返回的类别将作为生成器获得的回报信号R，译码器此时最后一层隐藏层状态作为状态s，输出语句这一行为作为动作a，采用策略梯度的方式来对生成器进行梯度更新，计算公式如下：

在本实施例中，GAN将采用对抗生成的方式来同时训练生成器和判别器，其优化目标函数为：

其中，p_z(z)是生成器生成的样本的分布。判别器D希望能尽可能地区分真实样本和生成样本，即D(x)尽可能大、D(G(z))尽可能小，即V(D,G)整体尽可能大；生成器G希望能尽可能地骗过判别器D，即D(G(z))尽可能大，即V(D,G)整体尽可能小。生成器G和判别器D相互对抗，即min_Gmax_DV(D,G)，最后达到全局最优。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的工作人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于对抗生成网络的模仿学习对话生成方法，其特征在于，该方法包括以下步骤：

S1：建立相应类型的专家语料库；

S2：建立一个包括生成器和判别器的对抗生成网络，其中，生成器包括一对编码器和译码器；

S3：初始化对抗生成网络的参数，并利用初始化参数后的生成器生成假语料库；

S4：利用步骤S1获取的专家语料库和步骤S3获取的假语料库对判别器进行第一次分类训练；

S5：将输入语句输入至生成器中，生成器所输出的输出语句输入到步骤S4训练后的判别器中，判别器将返回的分类结果作为回报，采用强化学习架构训练生成器；

S6：将步骤S5生成的输出语句加入到假语料库中，与步骤S1所获取的专家语料库一同采用对抗生成网络的训练方式进行判别器的训练；

S7：交替进行步骤S5中生成器的训练和步骤S6中判别器的训练，直至生成器和判别器均收敛；

步骤S2中，对抗生成网络中的判别器为前馈神经网络构成的分类器；

所述的对抗生成网络的训练方式的优化目标函数为：

其中，

式中，G为GAN中的生成器，D为GAN中的判别器，V(D,G)为由生成器及判别器的输出共同构建的目标函数值，p_data(x)为来自专家语料库的真实样本分布，p_z(z)为生成器的生成样本分布。

2.根据权利要求1所述的一种基于对抗生成网络的模仿学习对话生成方法，其特征在于，判别器的训练过程采用有监督学习方法。

3.根据权利要求1所述的一种基于对抗生成网络的模仿学习对话生成方法，其特征在于，步骤S5中，分类结果包括输入为专家语句时，输出类别为1，输入为假语句时，输出类别为0。

4.根据权利要求1所述的一种基于对抗生成网络的模仿学习对话生成方法，其特征在于，所述的编码器采用循环神经网络或长短期记忆网络按时间步逐次处理输入语句中的每个词语的词向量。

5.根据权利要求4所述的一种基于对抗生成网络的模仿学习对话生成方法，其特征在于，所述的译码器利用循环神经网络或长短期记忆网络处理语句向量。

6.根据权利要求1所述的一种基于对抗生成网络的模仿学习对话生成方法，其特征在于，所述的步骤S5的具体内容为：

输入语句输入到步骤S2所获得的生成器中，生成器将输出的输出语句输入到步骤S4所得到的判别器中，判别器将返回的分类结果作为回报信号输入至生成器，译码器最后一个时间步的循环神经网络隐藏层状态作为状态，译码器生成输出语句作为动作，获取状态、动作、回报后，生成器中的编码器和译码器将作为一个整体进行强化学习训练。

7.根据权利要求1所述的一种基于对抗生成网络的模仿学习对话生成方法，其特征在于，分类器的最优解D_G(x)的表达式为：

其中，p_g为来自假语料库的样本分布。

8.根据权利要求6所述的一种基于对抗生成网络的模仿学习对话生成方法，其特征在于，判别器将返回的分类结果作为回报的梯度计算公式为：

其中，J(θ)为参数θ下的梯度，π_θ为参数θ下的策略π，s为状态，a为动作，R为在状态s下执行动作a所获得的累计回报。