CN111797218B

CN111797218B - 一种基于Cycle-Seq2Seq的开放域对话生成方法

Info

Publication number: CN111797218B
Application number: CN202010646644.3A
Authority: CN
Inventors: 吴嘉琪; 于建港; 肖定和; 刘嵩
Original assignee: Hainan Zhongzhixin Information Technology Co ltd
Current assignee: Hainan Zhongzhixin Information Technology Co ltd
Priority date: 2020-07-07
Filing date: 2020-07-07
Publication date: 2022-03-29
Anticipated expiration: 2040-07-07
Also published as: CN111797218A

Abstract

本发明提供一种基于Cycle‑Seq2Seq的开放域对话生成方法，该方法包括：基于正向任务input‑to‑response和反向任务response‑to‑input建立Cycle‑Seq2Seq模型，所述正向任务input‑to‑response和反向任务response‑to‑input都使用一个NCG模型去完成对应的任务目标，正向任务input‑to‑response对应的NCG模型任务目标为根据用户的输入生成相应的回复，反向任务response‑to‑input对应的NCG模型任务目标为根据问答的回复生成可能的用户输入；对正向任务和反向任务迭代进行联合训练，共同优化联合任务的目标，每次迭代通过模型更新优化生成更准确的input‑to‑response句子和response‑to‑input句子，在联合训练过程中通过交替迭代生成质量更高的训练数据。所述方法使用较少的语料就能够训练出性能较高的模型，生成的对话内容关联性强。

Description

一种基于Cycle-Seq2Seq的开放域对话生成方法

技术领域

本发明涉及开放域聊天技术领域，尤其涉及一种基于Cycle-Seq2Seq的开放域对话生成方法。

背景技术

近年来，随着互联网和社交媒体的快速发展,开放域聊天机器人在生活中发挥着广泛作用。它不仅可以解决用户的交流需求，也能降低企业为用户提供服务的成本。因此，研究开放域对话生成具有一定意义，也是当下的热点研究之一。

开放域对话生成任务的主要目标是在开放域对话过程中,根据提问者的问题给出合适的回复。目前，针对该任务的主流解决方案是基于神经网络的开放域对话生成模型(Neural Conversation Generation Model,NCG)，其中，现有的Seq2Seq模型取得了较好的效果，但仍然存在以下问题：

1.模型采用最大似然估计(Maximum Likelihood Estimation,MLE)生成回复，导致生成的回复常常包含大量无意义的安全回复，例如：“我不知道(I don't know)”，“对不起(Sorry)”,“没事(Nothing)”等万能答案；

2.仅使用seq2seq模型生成的回答，通常是与问题关联性弱且非常低效愚笨，容易导致对话的多样性和持续性极大程度地缺失；

3.为了尽可能满足开放域的内容覆盖需求以及对话生成的多样性，需要大量的开放域对话训练语料，导致词表过大，增加模型训练难度以及模型对话准确性等其他方面的效果。

发明内容

本发明的目的在于提供一种基于Cycle-Seq2Seq的开放域对话生成方法，通过基于多任务联合训练的完全基于数据驱动的Cycle-Seq2Seq模型来生成对话内容强关联的回复，以克服或至少部分解决现有技术所存在的上述问题。

本发明第一方面提供一种基于Cycle-Seq2Seq的开放域对话生成方法，所述方法包括：

基于正向任务input-to-response和反向任务response-to-input建立Cycle-Seq2Seq模型，所述正向任务input-to-response和反向任务response-to-input都使用一个NCG模型去完成对应的任务目标，正向任务input-to-response对应的NCG模型任务目标为根据用户的输入生成相应的回复，反向任务response-to-input对应的NCG模型任务目标为根据问答的回复生成可能的用户输入；

对正向任务和反向任务迭代进行联合训练，共同优化联合任务的目标，每次迭代通过模型更新优化生成更准确的input-to-response句子和response-to-input句子，在联合训练过程中通过交替迭代生成质量更高的训练数据。

进一步的，对正向任务和反向任务迭代进行联合训练，具体包括：

使用成对对话数据集对正向任务和反向任务的NCG模型进行预训练，通过最大似然估计进行模型的参数学习，得到两个训练好的NCG模型，正向任务NCG模型表示为G_x→y，反向任务NCG模型表示为G_y→x，成对对话数据集表示为D＝{x⁽ⁿ⁾,y⁽ⁿ⁾}，其中x为输入语句，y为回复语句；

添加未成对对话数据集进行正向任务NCG模型和反向任务NCG模型的联合训练，所述未成对对话数据集包括输入语句集合X＝{x^(t)}和回复语句集合Y＝{y^(m)}，将未成对对话数据集输入到正向任务NCG模型和反向任务NCG模型中，通过多次迭代方式进行不断的对话生成更新，同时不断更新G_x→y和G_y→x的模型参数以优化模型。

进一步的，所述添加未成对对话数据集进行正向任务NCG模型和反向任务NCG模型的联合训练，具体包括：

在初次迭代中，使用两个预训练好的NCG模型分别对输入语句集合和回复语句集合生成相应的成对对话数据，数据更新后，再使用更新的训练数据分别对G_x→y和G_y→x进行训练，更新模型参数，得到更新后的模型

和

完成初次迭代，更新的训练数据包括成对对话数据集D、合成的训练数据集X'和Y'；

在后续迭代中，重复初次迭代的操作，每次迭代使用的更新的合成的训练数据集是通过上一次迭代中更新的模型

和

分别生成的新的训练数据，直至整个联合训练的模型达到收敛后停止迭代，i为当前迭代代数。

进一步的，正向任务NCG模型和反向任务NCG模型的目标是最大化数据源的似然率，Cycle-Seq2Seq模型的整体联合训练目标为正向任务和反向任务的似然估计的总和，其目标函数如下：

L(θ)＝L^*(θ_x→y)+L^*(θ_y→x)。

进一步的，正向任务NCG模型G_x→y对于给定的成对对话数据集D和回复语句集合

训练目标为最大化两个数据源的似然率，目标函数如下：

其中第一项表示成对对话数据的似然率，第二项表示未成对对话数据的似然率，考虑优化过程中的相互关系，将输入语句的生成作为回复语句的隐藏状态，将logp(y^(m))分解如下：

log p(y^(m))≥∑_x[Q(x)logp(y^(m)|x)-KL(Q(x)||p(x))]

其中x是隐变量，表示回复语句y^(m)的可能的输入语句的生成，Q(x)是x的近似概率分布，∑_xQ(x)＝1，p(x)表示语句x的边缘分布，KL(Q(x)||p(x))是两个概率分布的KL散度，Q(x)满足以下条件：

其中a是常数，不依赖于x或y，因此Q(x)可以用下式计算：

其中p'(x|y^(m))表示真实的response-to-input的生成概率。

进一步的，引入反向任务NCG模型获取L^*(θ_x→y)，具体为使用反向任务NCG模型的生成概率p(x|y^(m))作为Q(x)，可得：

其中L^*(θ_x→y)为L(θ_x→y)的下界，因此KL估计与参数θ_x→y不相关，L^*(θ_x→y)可以简化为：

进一步的，反向任务NCG模型G_y→x对于给定的成对对话数据集D和输入语句集合

训练目标为最大化两个数据源的似然率，目标函数如下：

其中第一项表示成对对话数据的似然率，第二项表示未成对对话数据的似然率，考虑优化过程中的相互关系，将回复语句的生成作为输入语句的隐藏状态，将logp(x^(t))分解如下：

logp(x^(t))≥∑_y[Q(y)log p(x^(t)|y)-KL(Q(y)||p(y))]

其中y是隐变量，表示输入语句x^(t)的可能的回复语句的生成，Q(y)是y的近似概率分布，∑_yQ(y)＝1，p(y)表示语句y的边缘分布，KL(Q(y)||p(y))是两个概率分布的KL散度，Q(y)满足以下条件：

其中a是常数，不依赖于x或y，因此Q(y)可以用下式计算：

其中p'(y|x^(t))表示真实的input-to-response的生成概率。

进一步的，引入正向任务NCG模型获取L^*(θ_y→x)，具体为使用正向任务NCG模型的生成概率p(y|x^(t))作为Q(y)，可得：

其中L^*(θ_y→x)为L(θ_y→x)的下界，因此KL估计与参数θ_y→x不相关，L^*(θ_y→x)可以简化为：

进一步的，采用加权方法控制质量较差的数据对模型的影响，具体包括：

将原始的成对对话数据权重设置为1，同时将未成对对话数据通过正向任务NCG模型和反向任务NCG模型生成的合成响应的权重设置为模型输出概率的归一化值；

在基于对成对对话数据进行MLE估计的基础上，通过JointEM估计对新生成的input/response数据进行度量。

本发明第二方面提供一种计算机可读介质，其存储有可由终端设备执行的计算机程序，当所述程序在终端设备上运行时，使得所述终端设备执行前述第一方面所述方法的步骤。

与现有技术相比，本发明的有益效果是：

(1)Cycle-Seq2Seq模型第一个采用联合训练的方式迭代优化两个NCG模型，以避免生成的开放域对话单调且与输入无关，实验结果表明，在联合训练过程中，输入遗传和响应遗传的相互关系被成功地建立起来；

(2)Cycle-Seq2Seq模型考虑了输入和响应在生成过程中的训练数据更新和双重学习，这有助于更好地利用数据对进行训练，并生成信息和输入相关的响应；

(3)通过不断迭代的联合训练方式，能够生成质量高的对话数据，生成的高质量数据可以补充训练数据，辅助训练模型，使得模型使用较少的语料就能够训练出性能较高的模型。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的优选实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的Cycle-Seq2Seq模型整体框架示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所列举实施例只用于解释本发明，并非用于限定本发明的范围。

参照图1，本发明提供一种基于Cycle-Seq2Seq的开放域对话生成方法，所述方法包括：

对正向任务和反向任务迭代进行联合训练，共同优化联合任务的目标，每次迭代通过模型更新优化生成更准确的input-to-response句子和response-to-input句子，在联合训练过程中通过交替迭代生成质量更高的训练数据。本领域技术人员可以理解，建立NCG模型实现任务目标以及进行联合训练可以通过不同的算法来实现，模型的构建方式和联合训练的方式可以根据需要选择相应的算法来实现。

作为一种示例，对正向任务和反向任务进行联合训练，具体可以包括：

首先使用高质量的成对对话数据集对正向任务和反向任务的NCG模型进行预训练，通过最大似然估计进行模型的参数学习，得到两个训练好的NCG模型，正向任务NCG模型表示为G_x→y，其中x为输入语句，y为相应的回复语句；反向任务NCG模型表示为G_y→x，其中y为回复语句，x为可能的用户输入语句；成对对话数据集表示为D＝{x⁽ⁿ⁾,y⁽ⁿ⁾}，其中n为变量，其取值范围为[1,N]，N表示成对对话数据集D的语料数量；

得到预训练的两个模型后，在高质量的成对对话数据基础上，添加未成对对话数据集进行正向任务NCG模型和反向任务NCG模型的联合训练，所述未成对对话数据集包括输入语句集合X＝{x^(t)}和回复语句集合Y＝{y^(m)}，其中t为变量，其取值范围为[1,T]，T表示输入语句集合X的语料数量；m为变量，其取值范围为[1,M]，M表示回复语句集合Y的语料数量。将未成对对话数据集输入到正向任务NCG模型和反向任务NCG模型中，通过多次迭代方式进行不断的对话生成更新，同时不断更新G_x→y和G_y→x的模型参数以优化模型。

其中，所述添加未成对对话数据集进行正向任务NCG模型和反向任务NCG模型的联合训练，具体包括：

在初次迭代中，使用预训练好的正向任务NCG模型和反向任务NCG模型分别对输入语句集合和回复语句集合生成相应的成对对话数据，具体为：

使用G_y→x对

生成对应的x并且形成合成的训练数据集

使用G_x→y对

生成对应的y并且形成合成的训练数据集

数据更新后，再使用更新的训练数据分别对G_x→y和G_y→x进行训练，更新模型参数，得到更新后的模型

和

在后续的迭代中，将初次迭代的操作重复进行，区别在于每次迭代使用的更新的合成的训练数据集是通过上一次迭代中更新的模型

和

分别生成的新的训练数据，数据的质量相较于前一次迭代更加的准确可靠，更新后的模型性能也相较上一次迭代有所提升，在每次迭代过程中，生成的训练语料和模型性能都得到了不断的提升，直到整个联合训练的模型达到收敛后停止迭代，i为当前迭代代数。

作为一个优选的示例，正向任务NCG模型和反向任务NCG模型的目标是最大化数据源的似然率，Cycle-Seq2Seq模型的整体联合训练目标为正向任务和反向任务的似然估计的总和，其目标函数如下：

L(θ)＝L^*(θ_x→y)+L^*(θ_y→x)。

以正向任务NCG模型G_x→y为例，对于给定的成对对话数据集D和单独的未成对对话语料

半监督训练目标为最大化两个数据源的似然率，其目标函数如下：

log p(y^(m))≥∑_x[Q(x)log p(y^(m)|x)-KL(Q(x)||p(x))]

其中x为隐变量，表示回复语句y^(m)的可能的输入语句的生成，Q(x)是x的近似概率分布，∑_xQ(x)＝1，p(x)表示语句x的边缘分布，KL(Q(x)||p(x))是两个概率分布的KL散度，Q(x)满足以下条件：

其中a是常数，不依赖于x或y，因此Q(x)可以用下式计算：

其中p'(x|y^(m))表示真实的response-to-input的生成概率。

由于p'(x|y^(m))通常无法直接计算，因此，作为一种示例，通过引入反向任务NCG模型获取L^*(θ_x→y)，即使用反向任务NCG模型的生成概率p(x|y^(m))作为Q(x)，结合上述公式可得：

其中，L^*(θ_x→y)的第一部分为MLE训练，第二部分可以通过EM算法进行优化，也可以通过其他算法进行优化。

以反向任务NCG模型G_y→x为例，其获得L^*(θ_y→x)的原理与L^*(θ_x→y)相同，对于给定的成对对话数据集D和输入语句集合

训练目标为最大化两个数据源的似然率，目标函数如下：

log p(x^(t))≥∑_y[Q(y)log p(x^(t)|y)-KL(Q(y)||p(y))]

其中a是常数，不依赖于x或y，因此Q(y)可以用下式计算：

其中p'(y|x^(t))表示真实的input-to-response的生成概率。

由于p'(y|x^(t))通常无法直接计算，因此，作为一种示例，通过引入正向任务NCG模型获取L*(θ_y→x)，具体为使用正向任务NCG模型的生成概率p(y|x^(t))作为Q(y)，可得：

作为一种优选的方法，在模型优化的部分根据数据情况以及联合训练的特点，考虑到直接引入未成对的数据可能会因为初始数据质量问题导致模型初始存在缺陷影响模型性能，因此可以采取在训练过程中自动测量通过模型生成的问答对数据的质量。为了联合优化两个NCG模型，本发明采用加权方法控制质量较差的数据对模型的影响，通过对迭代过程中生成的训练问答对数据进行加权处理，使得数据产生的噪声对模型的负面影响最小化，具体包括：

将原始的成对对话数据权重设置为1，与此同时，将未成对对话数据通过正向任务NCG模型和反向任务NCG模型生成的合成响应的权重设置为模型输出概率的归一化值；

将本发明提供的Cycle-Seq2Seq模型在Cornell(C)和Opensubtitle(O)数据集上进行实验，实验结果表明，Cycle-Seq2Seq模型可以生成话题相关的、适当的多样性响应。在评估指标和人工评估方面，相较于传统的Seq2Seq模型，Cycle-Seq2Seq模型在perplexity、BLEU以及基于两类规则的人工打分值等各指标都有显著的提升，这两种评价指标的结果如表1所示，人工打分评估结果如表2所示。

表1 Cycle-Seq2Seq模型在两个数据集上perplexity和BLEU评价结果

模型	Perplexity(C)	Perplexity(O)	BLEU(C)	BLEU(O)
					Seq2seq_attetion(unp)	12.1	1.86	0.1	0.11
Bi-Seq2Seq_attention(unp)	11.75	7.67	0.15	0.15
					Cyccle-Seq2seq_attention	1.47	1.53	0.20	0.21

表2针对内容可信性和内容相关性的人工打分评估结果

本发明还提供一种终端设备，包括至少一个处理单元、以及至少一个存储单元，其中，存储单元存储有计算机程序，当程序被处理单元执行时，使得处理单元执行上述方法的步骤。

本发明还提供一种计算机可读介质，其存储有可由终端设备执行的计算机程序，当程序在终端设备上运行时，使得终端设备上述方法的步骤。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于Cycle-Seq2Seq的开放域对话生成方法，其特征在于，所述方法包括：

基于正向任务input-to-response和反向任务response-to-input建立Cycle-Seq2Seq模型，所述正向任务input-to-response和反向任务response-to-input都使用一个NCG模型去完成对应的任务目标，所述NCG模型为开放域对话生成模型，正向任务input-to-response对应的NCG模型任务目标为根据用户的输入生成相应的回复，反向任务response-to-input对应的NCG模型任务目标为根据问答的回复生成可能的用户输入；

对正向任务和反向任务迭代进行联合训练，共同优化联合任务的目标，每次迭代通过模型更新优化生成更准确的input-to-response句子和response-to-input句子，在联合训练过程中通过交替迭代生成质量更高的训练数据；

对正向任务和反向任务迭代进行联合训练，具体包括：

添加未成对对话数据集进行正向任务NCG模型和反向任务NCG模型的联合训练，所述未成对对话数据集包括输入语句集合X＝{x^(t)}和回复语句集合Y＝{y^(m)}，将未成对对话数据集输入到正向任务NCG模型和反向任务NCG模型中，通过多次迭代方式进行不断的对话生成更新，同时不断更新G_x→y和G_y→x的模型参数以优化模型，其中t为变量，其取值范围为[1,T]，T表示输入语句集合X的语料数量；m为变量，其取值范围为[1,M]，M表示回复语句集合Y的语料数量。

2.根据权利要求1所述的一种基于Cycle-Seq2Seq的开放域对话生成方法，其特征在于，所述添加未成对对话数据集进行正向任务NCG模型和反向任务NCG模型的联合训练，具体包括：

和

和

3.根据权利要求1或2所述的一种基于Cycle-Seq2Seq的开放域对话生成方法，其特征在于，正向任务NCG模型和反向任务NCG模型的目标是最大化数据源的似然率，Cycle-Seq2Seq模型的整体联合训练目标为正向任务和反向任务的似然估计的总和，其目标函数如下：

L(θ)＝L^*(θ_x→y)+L^*(θ_y→x)。

4.根据权利要求3所述的一种基于Cycle-Seq2Seq的开放域对话生成方法，其特征在于，正向任务NCG模型G_x→y对于给定的成对对话数据集D和回复语句集合

训练目标为最大化两个数据源的似然率，目标函数如下：

logp(y^(m))≥∑_x[Q(x)logp(y^(m)|x)-KL(Q(x)||p(x))]

其中a是常数，不依赖于x或y，因此Q(x)可以用下式计算：

其中p'(x|y^(m))表示真实的response-to-input的生成概率。

5.根据权利要求4所述的一种基于Cycle-Seq2Seq的开放域对话生成方法，其特征在于，引入反向任务NCG模型获取L^*(θ_x→y)，具体为使用反向任务NCG模型的生成概率p(x|y^(m))作为Q(x)，可得：

6.根据权利要求3所述的一种基于Cycle-Seq2Seq的开放域对话生成方法，其特征在于，反向任务NCG模型G_y→x对于给定的成对对话数据集D和输入语句集合

训练目标为最大化两个数据源的似然率，目标函数如下：

logp(x^(t))≥∑_y[Q(y)logp(x^(t)|y)-KL(Q(y)||p(y))]

其中a是常数，不依赖于x或y，因此Q(y)可以用下式计算：

其中p'(y|x^(t))表示真实的input-to-response的生成概率。

7.根据权利要求6所述的一种基于Cycle-Seq2Seq的开放域对话生成方法，其特征在于，引入正向任务NCG模型获取L^*(θ_y→x)，具体为使用正向任务NCG模型的生成概率p(y|x^(t))作为Q(y)，可得：

8.根据权利要求1所述的一种基于Cycle-Seq2Seq的开放域对话生成方法，其特征在于，采用加权方法控制质量较差的数据对模型的影响，具体包括：

9.一种计算机可读介质，其特征在于，其存储有可由终端设备执行的计算机程序，当所述程序在终端设备上运行时，使得所述终端设备执行权利要求1～8任一权利要求所述方法的步骤。