CN108763504B

CN108763504B - 一种基于强化双通道序列学习的对话回复生成方法及系统

Info

Publication number: CN108763504B
Application number: CN201810539095.2A
Authority: CN
Inventors: 陈哲乾; 蔡登�; 赵洲; 何晓飞
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-05-30
Filing date: 2018-05-30
Publication date: 2020-07-24
Anticipated expiration: 2038-05-30
Also published as: CN108763504A

Abstract

本发明公开了一种基于强化双通道序列学习的对话回复生成方法及系统，本发明方法的步骤如下：(1)对上下文进行建模，获取上下文语义向量；(2)利用编码器将当前对话和上下文语义向量结合学习，得到当前对话向量以及编码器向量；(3)将上下文语义向量和当前对话向量输入解码器，得到第一通道对话回复草稿以及解码器向量；(4)将编码器向量与解码器向量以及第一通道对话回复草稿输入润饰器进行润饰，生成第二通道经过润饰的对话回复；(5)利用强化学习算法优化目标函数；(6)模型训练完毕，生成对话回复并输出。利用本发明，可以使对话生成模型对全局信息的把握更加深入，生成更加符合对话场景的有实质性内容的回复。

Description

一种基于强化双通道序列学习的对话回复生成方法及系统

技术领域

本发明涉及自然语言处理对话系统领域，具体涉及一种基于强化双通道序列学习的对话回复生成方法及系统。

背景技术

近年来，我们目睹了人机交互系统的繁荣发展。伴随着大量公开可利用的网上在线对话语料库，对话系统受到了广泛来自工业界和学术界研究者的关注。诸如苹果siri助手，微软的cortana助手以及小冰聊天机器人等的出现，让人机交互系统走入了千家万户。本发明的主要研究领域，是对话系统中最核心的技术——对话回复生成。在给定对话上下文语境的前提下，模型被要求能够根据当前对话内容，自动生成符合正常聊天逻辑的对话回复。一个高效的对话回复生成模型，需要能够明确捕捉上下文语境信息，以及对当前对话的语义理解，并能够生成符合人类口语，且具有逻辑的合理回复。

目前，主流的对话生成技术，主要依赖Bahdanau等人在2014年Computer Science期刊上提出的编码器-解码器生成框架Attn-Seq2Seq《Neural Machine Translation byJointly Learning to Align and Translate》。即输入一句对话，框架先对这句对话进行编码，得到一个对该句话整体的表示向量。再利用解码器，以该向量作为输入，一个词一个词地生成另一句话，生成的这句话，可以看出就是机器生成的对话回复。众多的对话生成算法，都是基于该框架的基础上，做出自己的相应改进。2016年美国人工智能协会Association for the Advancement of Artificial Intelligence在会上收录的《Building end-to-end dialogue systems using generative hierarchical neuralnetwork models》一文中，提出HRED模型，通过将编码器进行多层结构的分解，从单词层到句子层再到对话层，使得编码器获取到的信息更加多元化。而2017年同样在美国人工智能协会上，HRED模型的作者Serban等人在《AHierarchical Latent Variable Encoder-Decoder Model for Generating Dialogues》一文中提出HRED的改进版VHRED，通过引入变量结构参数，提高了对话生成的多样性。还有在2017年康奈尔大学Arxiv网站上的技术文章《Learning discourse-level diversity for neural dialog models usingconditional variational autoencoders.》中，公布了名为CVAE的模型，利用变分自动编码器方式捕捉对话多样性，从而仅仅利用贪心解码策略即可生成多样性对话回复。在众多编码器-解码器改进版的算法中，最为有效的方法还是结合强化学习来完成的。在2016年的第54届计算语言学协会Annual Meeting of the Association for ComputationalLinguistics上的一篇文章《Deep Reinforcement Learning for dialogue generation》提出利用三种奖励策略，提高对话系统的可扩展性的方法，名为RL-Seq2Seq。这些方法的提出，在一定程度上提高了对话回复生成的质量和多样性。

然而，目前主流的编码器-解码器框架，忽略了一个很重要的文本生成要点。在训练过程中，利用解码器生成句子是一个单词一个单词的组合而成的。每个新的单词仅仅利用到了之前已经生成的词汇，却无法利用还未生成的单词。这种文本生成技术，违背了人类天然的语言组织规律。对于人类来说，人类往往是先在脑子里有想要表达意思的完整概念，再组织语言将意思表达出来。也就是说，人类是先有了全局的意思表达概念，再有了文本生成步骤。而编码器-解码器这一框架，直接跳过了全局概念生成过程，直接就组织生成完整的对话回复。这就好比最终的输出只是一个草稿，并没有经过润饰，也没有学习到全局想要表达的概念。

发明内容

本发明提供了一种基于强化双通道序列学习的对话回复生成方法及系统，使对话生成模型在最终生成的对话效果中，能够对全局信息的把握更加深入，生成更加符合对话场景的有实质性内容的回复，提高文本生成质量。

一种基于强化双通道序列学习的对话回复生成方法，包括以下步骤：

(1)对上下文进行建模，获取上下文语义向量；

(2)利用编码器将当前对话和上下文语义向量结合学习，得到当前对话向量以及编码器向量；

(3)将上下文语义向量和当前对话向量输入解码器，得到第一通道对话回复草稿以及解码器向量；

(4)将编码器向量与解码器向量以及第一通道对话回复草稿输入润饰器进行润饰，生成第二通道经过润饰的对话回复；

(5)利用强化学习算法优化目标函数；

(6)模型训练完毕，生成对话回复并输出。

在多轮对话中，生成的回复必须参考上下文语境，才能避免出现跑题偏题现象。由于对话均为序列型数据，步骤(1)中，采用深度循环神经网络和注意力机制相结合的方式进行上下文信息建模，所述上下文语义向量的计算公式为：

其中，C_u表示上下文语义向量，a_j,t表示第j个单词受到第t个隐含状态影响的注意力权重，M为上下文出现的所有单词个数，w_j为上下文中出现第j个单词的词向量表示，a_j,t计算公式为：

其中，h_t为第t个当前单词的隐含状态表示，z_j为训练到第j个上下文单词时，受与它相近的前后词影响：

z_j＝tanh(W_m-1z_j-1+W_m+1z_j+1+b_m)

其中，z_j表示为第j个单词在上下文语境中的语义表示，z_j-1和z_j+1为前个单词和后个单词隐含表示，W_m-1，W_m+1，b_m是训练得到的参数。Tanh是激活函数。也就是说，在上下文语境中，第j个单词受到它上个单词和下一个单词的共同影响。

在所有上下文语境组成的单词中，上下文的最终表示向量，由经过深度循环神经网络学习到的隐含因袭平均值获得。在整个对话上下文的建模中，我们把上下文出现的所有单词都看成了一个整体，从而可以用整段话的学习方式来表示上下文信息。

步骤(2)中，所述编码器向量C_x由下面方式计算得出：

其中，C_x为初始编码器得到的上下文语义表示，可以理解成生成的第一版本草稿。α_i代表初始解码器受到上下文语境C_u和当前单词学习到的隐含状态的注意力权重。

三个均为可学习的参数。Tanh为正切激活函数，控制注意力权重的范围。

步骤(3)中，所述第一通道对话回复草稿的具体生成步骤为：

其中，h_i是通过深度循环神经网络学习到对话的原始隐含状态，C_u为对话的上下文信息，

表示第一通道解码器最终生成的第i个单词隐含信息，s^*表示一系列

组合而成的完整表示。通过softmax函数，最终的每个生成隐含信息

可以用来从多模态信息中采样得到

由隐含函数决定的第一通道生成的单词。

步骤(3)中，所述的解码器向量计算公式为：

该步骤与第二步骤有一定的相似度。其中，β_i表示上下文信息与第一通道生成的第i个单词

之间的注意力权重，

表示第二通道生成的上下文语义信息，理解成草稿经过润饰后的第二个上下文理解版本。

同样为可学习参数，tanh为激活函数。

从第一通道编码器-解码器框架中，模型得到所生成的回复草稿y^*以及两个上下文表示C_x和

这意味着现在已经有了一份即将生成的对话原始草稿，以及通过这份草稿和两个上下文全局的理解，生成模型可以跳出所生成单词的局部限制，从全局角度来重新润饰草稿，得到更加有全局意识的对话回复。用理论的方式表示，即在第二通道中的每一步t，都利用了第一通道中的C_x全局上下文表示和

编码器全局表示。

步骤(4)中，最终经过二次润饰的输出可以表示成：

其中，s_t为最终生成经过润饰后的第t个单词。

表示第二通道解码器最终生成的第t个单词隐含信息，y表示一系列

可以用来从多模态信息中采样得到，s_t由隐含函数决定的最终生成单词。

本发明使用交叉熵损失来最大化所观测到的序列生成概率。给定一个目标真实序列

目标是为了最小化交叉熵损失函数：

步骤(5)的具体步骤为：

(5-1)训练过程中，输入要学习的句子

并得到新生成的采样句子

从而得到在具体评判标准下的训练奖励值r(w^s)；

(5-2)测试过程中，输入要测试的对话

以及预测出的句子

得到在具体评判标准下的测试奖励值r(w^t)；

(5-3)设计目标函数，基于训练奖励值r(w^s)和测试奖励值r(w^t)，通过计算策略梯度，采用蒙特卡洛采样法优化最终目标。

由于在文本生成过程中，训练和测试生成分布不同，模型训练无法直接对测试评判标准进行优化，本发明采用了强化学习策略来解决这类问题。生成模型可以看做一个智能体和外部环境的交互。这个智能体即生成模型，外部环境可以理解为上下文语境以及当前对话所包含的各类词汇。在训练过程中，模型会根据当前策略选择合适行为，并对最终生成序列进行评分计算奖励值。训练过程可以理解为最小化引入强化学习后的负期望奖励值：

其中，

是生成序列并且

是在第t步采样得到的单词。

本发明所采用的强化学习策略，是改进版的演员-评论家强化学习算法。具体来说，本发明引进了奖励基准线结合到序列学习系统，从而减少梯度估计策略由于大规模词搜索空间的影响，结合基准线策略的梯度计算可以表示成：

实际上期望梯度可以通过蒙特卡洛采样法来估计得到：

其中，

为损失函数的梯度下降表示。

表示每个最终生成的单词与真实单词之间的误差累积期望值。r(w^s)和r(w^t)分别代表生成的单词与真实单词之间的奖励值差。p_θ(w^s)为单词的采样分布概率。

通过使用链式法则，模型参数可以计算成：

其中s_t是softmax的输入，

是负奖励值的期望梯度。

本发明还提供了一种基于强化双通道序列学习的对话回复生成系统，包括计算机系统，所述计算机系统包括：

上下文语义理解模块，利用深度循环神经网络及注意力机制，用于捕捉对话过程中的上下文信息；

初始化对话状态模块，用于初始化对话模型在训练过程和测试过程中的超参数；

编码器模块，基于上下文语义理解模块得到的向量表示，将当前对话和上下文语义信息结合学习，得到对当前对话的向量表示，以及对编码器整体状态的向量表示。

解码器模块，基于上下文语义理解模块和编码器模块，将上下文语义向量和当前对话向量作为输入，生成第一通道对话回复草稿，以及对解码器整体状态的向量表示。

润饰器模块，在得到编码器模块和解码器模块的整体状态表示后，将两者向量以及第一通道对话回复草稿作为同步输入，生成最后的第二通道经过润饰的对话回复。

强化学习模块，基于训练过程和测试过程所得到的两个奖励值，计算两个奖励值之间的差，并利用策略梯度下降策略，优化目标函数。

对话生成模块，在整体强化双通道序列学习算法训练完毕之后，对外输出对话回复。

本发明基于强化双通道序列学习的对话回复生成方法及系统具有以下优点：

1、本发明提出的强化双通道序列学习算法，通过引入新的对话润饰模块，可以将编码器-解码器生成的对话草稿进一步进行润饰，从而生成对全局更加了解，更加有实质意义的对话回复。

2、本发明利用的新强化学习优化算法，通过使用测试输出的参照，可以直接优化所得到的奖励函数，从而避免传统强化学习难以正则化的难题，大规模缩小文本生成所需的词搜索空间，提高了文本生成效率。

3、本发明相比其他基准线算法，具有更好的模型性能。

附图说明

图1为本发明方法的整体框架设计图；

图2为本发明系统的整体流程示意图；

图3为本发明方法与其他方法在不同对话长度下的BLEU4分值对比图；

图4为本发明方法与其他方法在不同对话长度下的ROUGE-L分值对比图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。

如图1所示，本发明框架主要分为两部分：(a)润饰神经网络，改编自传统的编码器-解码器框架，添加了润饰模块。(b)新强化学习模块，通过计算训练和测试分别得到的奖励值差，优化自学策略梯度。具体步骤分别阐述如下：

(a)润饰神经网络，先生成草稿，再基于草稿基础上进一步润饰得到最终输出。基本步骤如下：

1.对上下文进行建模，得到上下文表示向量C_u。其中C_u的获取，是通过将上下文所有句子看成一个整体，利用注意力机制和深度循环神经网络，得到整体向量表示。

2.对于当前对话{x₁，x₂，…,x_M}，先利用深度循环神经网络，得到关于当前对话的整体原始向量表示。接着，利用所得到的整体原始向量表示，以及第一步得到的上下文向量表示C_u，对两者进行加权求注意力值A_X，最后将原始对话向量与所得注意力值A_X进行相乘，得到最终编码向量C_x。该编码向量C_x表示着经过对上下文的语义理解，模型学到当前对话合理的语义表示。

3.解码器模块与第二步骤编码器的解法类似。将编码器得到的原始向量表示，作为解码器的输入，通过注意力机制生成原始对话回复。该回复可以看成是生成初步的对话草稿。紧接着，同样利用第一步骤得到的上下文语义表示和解码器生成的原始对话回复，采用注意力机制得到注意力值

最后将得到的

与原始对话回复相乘，得到解码器向量

该解码向量

表示受上下文语义和当前对话的影响，模型生成原始草稿作为对话第一通道回复。

4.在得到编码器向量表示C_x和解码器向量表示

后，本发明所提出的第三模块润饰模块开始运作。该步骤同样采用深度循环神经网络，将C_x和

同步以及每一步预测得到的单词y_t作为合并输入，得到了最终经过润饰的对话回复输出。

(b)新强化学习算法。本发明所采用的新强化学习算法，替代了传统演员-评论家策略，改进训练过程，进而提高句子生成的稳定性。基本步骤如下：

1.通过训练模块，输入要学习的句子

并得到新生成的采样句子

从而得到在具体评判标准下的奖励值r(w^s)。

2.在测试模块中，与训练模型相似，输入要测试的对话

以及预测出的句子

得到在具体评判标准下的奖励值r(w^t)。

3.新设计的目标函数，是基于训练模块得到的奖励值r(w^s)和测试模块得到的奖励值r(w^t)，通过计算策略梯度

采用蒙特卡洛采样法优化最终目标。

图2是本发明设计的对话生成系统流程示意图。系统流程与图1的算法流程相似，总共分为七大模块，分别是上下文语义理解模块，对话状态初始化模块，编码器模块，解码器模块，润饰器模块，强化学习模块，以及对话生成模块。

本发明在一个大型公开数据集DailyDialog上与其他目前最前沿的对话生成方式进行对比。DailyDialog是一个多轮对话的数据集，是从一些英语学习网站中，将英语学习者练习英语对话的数据爬取整理得到的。整个数据集包含13118个多轮对话，每个对话平均有8轮交互，每次交互句子长度约为15个单词。数据集分成三个部分：训练集、验证集、测试集，分别有11118、1000，1000个对话轮数。在所有实验中，单词词汇表个数限制在25000个高频词汇，所有超出词汇表的词汇，均已OOV符号表示。

本发明主要在三大评判指标上进行对比，分别是：BLEU，ROUGE，RATIO。总共比较了8个目前主流的对话回复生成算法：Seq2seq，Attn-Seq2seq，RL-seq2seq，HRED，VHRED，CVAE，另外还有2个模型拆解对比，分别是普通编码器-解码器加强化学习算法，润饰神经网络去掉强化学习算法。整体对比结果如表1所示：

表1

从表1可以看出，本发明提出的强化双通道序列学习框架，在各大评判指标下均获得最优效果，充分展示了本发明算法的优越性。另外经过拆解实验对照，本发明所提出的润饰神经网络模块，以及所采用的新强化学习算法，均一定程度上提高了模型的整体效果。

另外，本发明在针对生成对话的不同长度得分对比中，也侧面证明了本发明所提出的模型在对比其他前沿算法的优越性。如图3和图4所示，本发明提出的算法(Embellish-rl)，在生成的不同对话长度下，均能够获得最优的评判分。这充分说明本发明所提出的算法，在生成对话回复的稳定性上，比其他模型更加优异。