CN111143509A

CN111143509A - 一种基于静态-动态注意力变分网络的对话生成方法

Info

Publication number: CN111143509A
Application number: CN201911250610.6A
Authority: CN
Inventors: 贺瑞芳; 王瑞芳; 常金鑫; 王龙标; 党建武
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2020-05-12
Anticipated expiration: 2039-12-09
Also published as: CN111143509B

Abstract

本发明公开一种基于静态‑动态注意力变分网络的对话生成方法，包括如下步骤：1)构建上下文理解模块：利用包括句子编码器和上下文编码器构成的分层编码器，编码输入的上下文，得到关于对话上下文的历史向量；2)构建主旨提取模块：引入基于vMF分布的识别/先验(recognition/prior)网络和静态注意力机制得到全局结构信息的潜在表示和关于回复中心思想的主旨表示；3)构建回复生成模块：结合解码器、动态注意力机制，将历史向量，潜在表示和主旨表示作为输入，捕获局部产生更加多样性和有意义的回复。该对话生成方法利用静态和动态注意力机制从全局和局部的角度捕获相关信息，生成更加语义相关和多样化的回复。其实验结果在相较现在的模型在各项实验指标上取得了更好的结果。

Description

一种基于静态-动态注意力变分网络的对话生成方法

技术领域

本发明涉及自然语言处理以及对话系统技术领域，具体为一种基于静态-动态注意力变分网络的对话生成方法。

背景技术

目前人工智能与深度学习顺应了互联网时代潮流，智能对话系统已经成为目前人工智能领域中非常热门的处理技术，相对于传统的页面简单交互，智能对话系统更加自然和灵活。例如Siri、Cortana和Google Now，它们的作用是提供各种被动性和主动性的帮助，以辅助用户在多个垂直领域完成任务。该类对话系统是目标导向型的，对话的目的是在有限的轮次内解决某些问题，主要采用的是空位填槽的方式，每个空位代表了一个特征量。这类系统只适合于特定问题，很难推广到其他应用场景下，例如推荐电影的对话系统不能实现餐厅预订。

随着社交网络的发展，面向开放域的对话系统^[1]吸引了越来越多的研究者的关注。该类对话系统旨在与人类就广泛的主题进行自然和一致的互动，可以满足用户对于沟通、情感及社会归属感的感性需求。面向开放域对话系统的主要技术包括：(1)基于检索的方法：根据用户给出的话语与数据库中的候选回复进行匹配，选择匹配分数最高的一项作为回复；(2) 基于生成的方法：利用基于encoder-decoder框架的seq2seq模型^[2]，根据用户的输入直接生成输出；(3)混合方法：将检索和生成方法结合在一起得到最终的回复^[3]。

开放域对话系统研究重点是产生更加多样化且与主题一致的回复。多样性使得产生的回复新颖性更强，一致性让回复与用户上下文更相关。基于检索的方法生成效果更为稳定，但是无法获得数据库之外的回答；基于生成的方法会生成一些敷衍式的没有太多信息量的无用语句，这不满足回复的多样性并且无法有效利用上下文中的主旨信息。

发明内容

本发明的目的是为了克服现有技术中的不足，提供一种基于静态-动态注意力变分网络的对话生成方法，其利用静态-动态注意力变分网络提取主旨信息并生成回复，得到的对话生成结果相较于现有模型在Average，Greedy，Extreme，Distinct-1和Distinct-2这5个指标中的结果最好。

本发明的目的是通过以下技术方案实现的：

一种基于静态-动态注意力变分网络的对话生成方法，包括以下步骤：

(1)构建上下文理解模块：

上下文理解模块是利用句子编码器和上下文编码器对训练语料中的对话上下文进行编码得到关于对话上下文的历史向量l_n；该模块中给定对话上下文x＝(x₁,x₂,…x_i,…,x_n)，其中n 表示上下文中句子的个数，x_i＝(x_i,1,x_i,2,…,x_i,Ni)表示句子x_i中有Ni个单词；生成回复 y＝(y₁,y₂,…,y_i,…,y_m)，其中y_i表示回复中的第i个单词，m表示回复中单词的个数；

(2)构建主旨提取模块：

主旨提取模块利用基于vMF分布的识别/先验(recognition/prior)网络得到全局结构信息潜在表示z并利用静态注意力机制提炼出一个能够代表回复中心思想的主旨表示c_sta；

(3)构建回复生成模块：

基于主旨的回复生成模块利用了动态注意力机制；该模块中的解码器以历史向量l_n，全局结构信息潜在表示z和主旨表示c_sta作为初始潜在状态，最终生成语义相关且多样性的回复。

进一步的，步骤(1)中为得到训练语料包括以下步骤：

(101)规范对话长度，保留原始训练语料中对话长度为2-10轮的对话；

(102)将(101)中得到的对话中最后一句视为回复，其余句子视为上下文。

进一步的，步骤(1)中，句子编码器由双向GRU构成，针对上下文中每一个句子x_i进行编码得到句子向量h_i，其具体计算公式如下：

分别表示上下文句子x_i中第j个单词在前向GRU和后向GRU中的潜在状态， N_i表示句子x_i中单词的个数；

表示句子编码器中的前向GRU，

表示句子编码器中的后向GRU；h_i,j则为上下文句子x_i中第j个单词在双向GRU中状态向量；h_i是表示上下文句子x_i的句子向量；同理可得到回复y的向量表示h_y；

上下文编码器由GRU构成，将上下文中每一个句子的句子向量按顺序作为输入，计算得到关于对话上下文的历史向量l_n，具体计算公式如下：

其中

表示GRU构成的上下文编码器，h₁,h₂,…,h_n表示输入的句子向量，n为输入句子向量的个数，

为上下文编码器得到的n个潜在向量，将上下文编码器最后的潜在向量l_n作为关于对话上下文的历史向量。

进一步的，步骤(2)中，主旨提取模块由基于vMF分布的识别/先验网络和静态注意力机制组成；具体包括以下步骤：

首先，利用基于vMF分布的识别/先验网络采样得到关于上下文的全局结构信息的潜在表示z；vMF分布即von Mises-Fisher分布，用于表示单位球面上的概率分布，其密度函数如下：

上述公式中，

d表示

空间的维度，z表示d维的单元随机向量；

表示单位球面上的方向向量，||μ||＝1；κ≥0表示浓度参数；I_ρ表示ρ阶的修正Bessel函数，其中ρ＝d/2-1；上述分布指出了单位向量在球面上的分布情况；

全局结构信息的潜在表示z，根据如下公式进行采样：

其中，ω∈[-1,1]；

利用基于vMF分布的识别/先验网络的损失函数表示如下：

由上述公式可知，损失中主要包含两个分布，q_φ(z|x,y)为后验分布用于表示识别网络，具体表示为q_φ(z|x,y)＝vMF(μ_re,k_re)；p_θ(z|x)为先验分布用于表示先验网络，具体表示为 p_θ(z|x)＝vMF(μ_prior,k_prior)；KL(q_φ(z|x,y)||p_θ(z|x))用于计算识别网络和先验网络之间的 KL散度；其中k_re,k_prior为常量，μ_re是后验分布的参数，μ_prior是先验分布的参数，具体计算如下：

其中f_re(·)和f_prior(·)是两个线性函数，||·||用于确保正则化；

其次，利用静态注意力机制得到关于回复中心思想的主旨表示c_sta；

在通过基于vMF分布的识别/先验网络采样得到全局结构信息的潜在表示z后，利用z与

作为静态注意力机制的输入得到权重α，计算如下：

α＝softmax(e) (15)

其中，v_sta,W_l,W_z,b_sta是待学习的参数，α＝(α₁,α₂,…,α_n)是通过softmax函数计算得到的关于

的权重，它衡量了每个句子对于中心思想所做的贡献。

通过以下公式计算主旨表示c_sta：

c_sta＝∑_iα_ih_i (16)

进一步的，步骤(3)中，具体步骤如下：

首先利用动态注意力机制在每个时间步t学习上下文向量

目的是选择解码器在生成下一个单词y_t时应该关注的信息；在每个时间步t，解码器都会处理前一个单词的嵌入，并产生解码器状态s_t，用于确定上下文向量

利用s_t与h′_i作为动态注意力机制的输入得到β^t，计算如下：

β^t＝softmax(d^t) (18)

其中，h′_i表示整个上下文中第i个词的潜在向量；β^t表示在第t时间步由softmax函数得到的动态注意力分布；v_dyn,W_h′,W_s,b_dyn是待学习的参数；

计算如下：

表示在时间t学习到的上下文向量。

其次，将主旨表示c_sta、上下文向量

和解码器状态s_t结合在一起，最终计算得到词表分布p_vocab：

V′,,b,b′都是待学习的参数，p_vocab是整个词表的概率分布，该概率分布可以用于学习回复中生成单词的概率p_vocab(y_t)；最终回复的生成概率如下：

上述解码过程中的损失函数表示如下：

表示重构误差。

整个过程的损失函数表示：

与现有技术相比，本发明的技术方案所带来的有益效果是：

1.为了解决KL散度消失问题，本发明在步骤(2)在进行主旨提取时，引入vMF分布代替之前模型中的Gaussian分布作为识别网络和先验网络，使用Gaussian分布的模型中KL散度是利用Gaussian分布的均值和方差进行计算的，但是在训练中均值和方差在不断进行变化，会引起KL散度消失问题；因此本发明中利用vMF分布代替Gaussian分布，该分布中KL散度是由参数κ决定的，该参数κ为常量，在训练中不会进行变化，因此不会引起KL散度消失问题，从而可以充分使用潜在空间。

2.为了提高回复的一致性和多样性，本发明在步骤(2)利用静态注意力机制，提取能够代表回复中心思想的主旨表示c_sta；在步骤(3)利用动态注意力机制生成上下文向量

用于决定生成下一个单词y_t应当关注的信息；在生成过程中，将主旨表示c_sta和上下文向量

作为解码器的输入，最终产生更加有意义和多样化的回复。通过实验表明，该信息量的引入可以有效提高Average，Greedy，Extreme，Distinct-1和Distinct-2指标，说明上述两项的引入有益于增强响应中一致性和信息量。

附图说明

图1为本发明提供的基于静态-动态注意力变分网络的对话生成方法框架图。

图2为SdavNet模型中采用Gaussian分布和vMF分布在训练中KL散度计算结果。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以康奈尔电影数据集(Cornell Movie Dialogs Corpus)和Ubuntu对话数据集(Ubuntu Dialogue Corpus)为例给出本发明的实施方法。该方法整体框架见图1所示。整个系统算法流程包括上下文理解模块的输入、主旨提取过程、生成回复这3个步骤。

具体步骤如下：

(1)上下文理解模块的输入：

本发明主要利用了以下两个数据集：Cornell Movie Dialogs Corpus和UbuntuDialogue Corpus。其中Cornell Movie Dialogs Corpus包含了超过80000个电影中的会话；Ubuntu Dialogue Corpus包含了大约500000个从Ubuntu Internet Relayed Chat中收集的多轮对话，每个对话都以一个技术问题的解决方案为相应回答。本发明以这两个对话数据集为原始语料构建上下文理解模块并对原始语料进行如下处理：(1)删除语料库中不符合语法的词语；(2) 删除对话数据集中对话回合数少于2或者大于10的对话；(3)将每个对话中的最后一句作为响应，其之前的句子都作为对话上下文。表1展示了两个数据集的详细统计信息。其中，Cornell Movie Dialogs Corpus中有用于训练的对话135155个，用于验证的对话1393个，用于测试的对话1193个，其中每轮对话包含的平均句子数为3.93，平均单词数为16.7，词表大小为10000； Ubuntu Dialogue Corpus中有用于训练的对话448833个，用于验证的对话19584个，用于测试的对话18920个，其中每轮对话包含的平均句子数为4.94，平均单词数为23.67，词表大小为20000。

表1对话数据集统计信息

语料库	训练	验证	测试	平均句子数	平均单词数	词表数
							Cornell	135155	1393	1193	3.93	16.7	10000
Ubuntu	448833	19584	18920	4.94	23.67	20000

基于以上数据集，本发明利用双向GRU和单向GRU分别构成句子编码器和上下文编码器共同构成上下文理解模块，最终得到关于对话上下文的历史向量l_n：

表示句子编码器中的前向GRU，

表示句子编码器中的后向GRU；h_i,j则为上下文句子x_i中第j个单词在双向GRU中状态向量；h_i是表示上下文句子x_i的句子向量；

为上下文编码器得到的n个潜在向量，l_n表示对话上下文的历史向量。

(2)主旨提取过程：

按照上一步得到的上下文历史向量l_n，进行主旨表示提取：

为了得到关于回复中心思想的主旨表示，首先利用基于vMF分布的识别/先验网络得到全局结构信息表示z，并按照如下的目标函数进行训练：

其中，q_φ(z|x,y)为后验分布用于表示识别网络，具体表示为q_φ(z|x,y)＝vMF(μ_re,k_re)； p_θ(z|x)为先验分布用于表示先验网络，具体表示为p_θ(z|x)＝vMF(μ_prior,k_prior)； KL(q_φ(z|x,y)||p_θ(z|x))用于计算识别网络和先验网络之间的KL散度；其中k_re,k_prior为常量，μ_re是后验分布的参数，μ_prior是先验分布的参数

然后利用静态注意力机制得到主旨表示c_sta：

α＝softmax(e)

c_sta＝∑_iα_ih_i

(3)生成回复

为了得到最终的回复，要求以历史向量l_n、全局结构信息z和主旨表示c_sta作为输入，通过动态注意力机制得到生成回复中每个时间步应关注的上下文向量

β^t＝softmax(d^t)

其中，

表示在时间步t学习到的上下文向量，h′_i表示整个上下文中第i个词的潜在向量；β^t表示在时间步t由softmax函数得到的动态注意力分布；v_dyn,W_h′,W_s,b_dyn是待学习的参数；

利用一下目标函数训练生成过程：

E_qφ(z|x,y)[logp(y|x,z)]表示重构误差，p(y|x,z)表示响应y的生成概率，p_vocab(y_i)表示响应中词表分布。

上式表示整个模型的训练目标。

在具体的实施过程中，该方法是基于tensorflow实现的并在Nvidia GPU上进行训练。提前设定了各种参数，词向量的维度为200并随机初始化，编码器和解码器中的GRUs的隐藏大小为500。从vMF分布中采样得到的潜在变量z的维度是100。使用Adam^[4]算法以0.001的初始学习率更新参数，在训练中，采用early-stop strategy^[5]，使用测试集上的变分下界来选择最佳模型。

表2-1至表2-3显示了本模型(SdavNet)、本模型的简化版本(SdavNet_dyn、SdavNet_sta) 以及其它模型(S2SA、HRED、VHRED、HVMN)在两个数据集和五个评价指标上(Average、 Greedy、Extreme、Distinct-1、Distinct-2)的结果。

表2-1 Cornell Movie Dialogs Corpus对话数据集的自动评估结果

表2-2 Ubuntu Dialogue Corpus对话数据集的自动评估结果

表2-3 Cornell Movie Dialogs Corpus对话数据集上的模型消融性能

表中的对比实验算法描述如下：

S2SA：带有注意机制的标准seq2seq模型；

HRED：多回合对话模型的分层编码框架；

VHRED：一种具有潜在随机变量的分层编码解码器；

HVMN：一种包含层次结构和可变存储器的编解码网络；

SdavNet_dyn、SdavNet_sta：是我们提出的2个退化模型；

备注：本发明提供的方法为SdavNet，dyn表示动态注意力机制，sta表示静态注意力机制，由此产生了2个SdavNet的退化模型。

图2显示了主旨提取过程中采用不同的不同分布解决KL散度消失的结果。

表3显示了本模型(SdavNet)、以及其它模型(S2SA、HRED、VHRED、HVMN)在CornellMovie Dialogs Corpus数据集上人工评测结果的结果。

表3 Cornell Movie Dialogs Corpus对话数据集的人工评估结果

本实施例邀请了3位人工注释员来判断生成的响应的质量。向他们展示了300个上下文，每个模型都生成了回复。根据以下标准对每个响应进行评级：1.回复不符合语法或语义；2. 回复符合语法且相关性较弱，但信息量可能不够(例如，“I don’t know”)；3.回复不仅符合语法和语义，而且内容丰富有趣。注释员之间的一致性用Fleiss’kappa^[6]计算。

从表2-1至表2-3的实验结果中可以看出，通过静态注意力机制利用全局信息进行主旨提取并通过动态注意力机制利用局部信息生成回复生成过程中每个时间步应该关注的对象，可以极大地提升自动评估标准的结果。从表3的实验结果可以看出本发明生成的响应在结果上更加丰富有趣，其内容更加符合开放域对话生成方法中的多样性的需求。

本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案，上述的具体实施方式仅仅是示意性的，并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下，本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换，这些均属于本发明的保护范围之内。

参考文献：

[1]Perez-Marin,D.:Conversational agents and natural languageinteraction:Techniques and e ective practices.IGI Global(2011)

[2]Shang,L.,Lu,Z.,Li,H.:Neural responding machine for short-textconversation.In: Proceedings of the 53rd Annual Meeting of the Associationfor Computational Linguistics(ACL), pp.1577–1586(2015)

[3]Y.Song,R.Yan,X.Li,D.Zhao,and M.Zhang.Two are better than one:Anensemble of retrievaland generation-based dialog systems.arXiv preprintarXiv:1610.07149,2016.

[4]Kingma,D.,Ba,J.:Adam:Amethod for stochastic optimization.arXiv:1412.6980(2014)

[5]Caruana,R.,Lawrence,S.,Giles,C.L.:Overfitting in neural nets:Backpropagation, conjugate gradient,and early stopping.In:Advances in neuralinformation processing systems 13 (NIPS),pp.402–408(2000)

[6]Fleiss,J.L.,Cohen,J.:The equivalence of weighted kappa and theintra class correlation coecient as measures of reliability.Educational andpsychological mea-surement.33(3),613-619 (1973)。

Claims

1.一种基于静态-动态注意力变分网络的对话生成方法，其特征在于，包括以下步骤：

(1)构建上下文理解模块：

上下文理解模块是利用句子编码器和上下文编码器对训练语料中的对话上下文进行编码得到关于对话上下文的历史向量l_n；该模块中给定对话上下文x＝(x₁，x₂，...x_i，...，x_n)，其中n表示上下文中句子的个数，x_i＝(x_i，1，x_i，2，...，x_i，Ni)表示句子x_i中有Ni个单词；生成回复y＝(y₁，y₂，...，y_i，...，y_m)，其中y_i表示回复中的第i个单词，m表示回复中单词的个数；

(2)构建主旨提取模块：

(3)构建回复生成模块：

基于主旨的回复生成模块利用了动态注意力机制；该模块中的解码器以历史向量l_n、全局结构信息潜在表示z和主旨表示c_sta作为初始潜在状态，最终生成语义相关且多样性的回复。

2.根据权利要求1所述一种基于静态-动态注意力变分网络的对话生成方法，其特征在于，步骤(1)中为得到训练语料包括以下步骤：

3.根据权利要求1所述一种基于静态-动态注意力变分网络的对话生成方法，其特征在于，步骤(1)中，句子编码器由双向GRU构成，针对上下文中每一个句子x_i进行编码得到句子向量h_i，其具体计算公式如下：

分别表示上下文句子x_i中第j个单词在前向GRU和后向GRU中的潜在状态，N_i表示句子x_i中单词的个数；

表示句子编码器中的前向GRU，

表示句子编码器中的后向GRU；h_i，j则为上下文句子x_i中第j个单词在双向GRU中的状态向量；h_i是表示上下文句子x_i的句子向量；同理可得到回复y的向量表示h_y；

上下文编码器由GRU构成，将上下文中每一个句子的句子向量按顺序作为输入，计算得到关于对话上下文的历史向量l_n；具体计算公式如下：

其中

表示GRU构成的上下文编码器，h₁，h₂，...，h_n表示输入的句子向量，n为输入句子向量的个数，

4.根据权利要求1所述一种基于静态-动态注意力变分网络的对话生成方法，其特征在于，步骤(2)中，主旨提取模块由基于vMF分布的识别/先验网络和静态注意力机制组成；具体包括以下步骤：

上述公式中，

d表示

空间的维度，z表示d维的单元随机向量；

全局结构信息的潜在表示z，根据如下公式进行采样：

其中，ω∈[-1，1]；

利用基于vMF分布的识别/先验网络的损失函数表示如下：

由上述公式可知，损失中主要包含两个分布，q_φ(z|x，y)为后验分布用于表示识别网络，具体表示为q_φ(z|x，y)＝vMF(μ_re，k_re)；p_θ(z|x)为先验分布用于表示先验网络，具体表示为p_θ(z|x)＝vMF(μ_prior，k_prior)；KL(q_φ(z|x，y)||p_θ(z|x))用于计算识别网络和先验网络之间的KL散度；其中k_re，k_prior为常量，μ_re是后验分布的参数，μ_prior是先验分布的参数，具体计算如下：