CN110413729A

CN110413729A - 基于尾句-上下文双重注意力模型的多轮对话生成方法

Info

Publication number: CN110413729A
Application number: CN201910554079.5A
Authority: CN
Inventors: 孙俊; 张国栋; 吴豪; 吴小俊; 方伟; 陈祺东; 李超; 游琪; 冒钟杰
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2019-11-05
Anticipated expiration: 2039-06-25
Also published as: CN110413729B

Abstract

基于尾句‑上下文双重注意力模型的多轮对话生成方法，属于人机对话领域。一个合适的回复应该是符合最后一个句子的语义且能够利用到整个上下文的信息。当前多轮对话生成主要基于层次的编码器‑解码器结构。本发明提出了一个尾句‑上下文双重注意力模型。每句话都通过编码器获取句子的语义表示。对最后一句话中每个词做注意力，同时对每句话的语义表示做注意力。二者拼接作为解码阶段的上下文向量。此外，本发明还引入了多头自注意力机制使得在获取每句话的语义表示时能更关注于关键的词。实验证明本发明方法的模型在自动评价和人工评价两个方面都超出了基准模型。

Description

基于尾句-上下文双重注意力模型的多轮对话生成方法

技术领域

本发明属于人机对话领域，提供了一种基于尾句-上下文双重注意力模型的多轮对话生成方法。

背景技术

对话系统主要可以分为任务导向型和非任务导向型两种。任务导向型对话系统主要是帮助用户去完成特定任务，比如找商品，订住宿，订餐厅等。非任务导向型对话系统，通常也被称为对话机器人，主流有两类：生成式对话和抽取式对话。抽取式对话是从候选答案中选出一个答案作为回答，需要大量对话库来支撑。近年来，随着深度学习在自然语言处理领域获得巨大成功，数据驱动的生成式对话系统越来越成为研究的热点。

基于神经网络的seq2seq模型可以完成如下的任务，给定一个输入序列q，模型可以生成一个回复r。基于这样的编码-解码(encoder-decoder)结构，研究者们已经在单轮开放域对话生成中取得了很多的进展。在真实的人类对话场景中，上下文信息起到尤为关键的作用。如何更好地使用一段对话的上下文信息，使得生成的回复能够更具有一致性和上下文敏感性，是当前多轮对话地研究重点。

本发明研究了开放域中的多轮对话生成问题。当已有几个轮次的对话前提下，本发明构建一个能够生成最后一个语句的回复的模型。对于如何利用上下文信息，研究者们提出了很多种方法。Yan等人直接将上下文语句与最后一个语句拼接起来；Serban等人使用分层的seq2seq模型构建对话系统，以获取对话过程中的意图、主体等相关信息。Tian等人分析了上下文信息在对话系统中的作用以及如何能更好地利用上下文信息。然而，一个好的多轮对话的回复应该首先具有与最后一个语句的对应关系，避免答非所问。其次，一个好的回复应当具有情境的一致性。另外，每一个语句中希望能更关注于关键的词，显然这样能够提升对话的生成质量。基于上述观念，本发明提出了一种基于尾句-上下文双重注意力模型的多轮对话生成方法。将编码器部分的自注意力机制应用在上下文语句的编码阶段，取得了更佳的效果。

发明内容

本发明提出基于尾句-上下文双重注意力模型的多轮对话生成方法。首先，对于每句话在字词层面引入多头自注意力机制，然后通过GRU获得每句话的句子表示。解码的时候同时考虑对尾句和上下文的注意力。对于尾句，将每个词与解码器的前一个时刻的隐藏状态做注意力计算。对于上下文，将每句话的句子表示与解码器前一个时刻的隐藏状态做注意力计算。最后将两次得到的语义向量拼接供解码时使用。

为了获得句子的语义表示，一般可以将句中的每个词按次序作为长短期记忆网络的输入，取网络最后一步的输出作为句子向量的表示。这样得到的句子向量表示难以区分不同词的重要程度。在单轮对话中，解码阶段可以引入注意力机制，将编码器每个时刻的输出与解码器前一个时刻的隐藏状态做注意力计算，这样可以得到句子中不同词的权重。

在使用分层结构模型的多轮对话中，编码每个上下文语句的句子向量表示并不直接与解码阶段相联系，所以并不能适用单轮对话中的注意力机制。而自注意力机制可以在不需要外部信息加入的前提下衡量句子中不同词的重要程度。提出的多头自注意力机制在机器翻译任务中相较以往的模型取得了明显的提升。

本发明的技术方案：

基于尾句-上下文双重注意力模型的多轮对话生成方法，步骤如下：

步骤1：设一段对话，包含的上下文语句为U＝(u₁,...u_i,...u_n)，其对应的一个回复为Y＝(y₁,...y_j,...y_m)，其中n为上下文语句的数量，m为回复语句中词的数量；对于任意一个语句u_i，W_i＝(w_i,1,...w_i,k,...w_i,p)为该句中的词，其中p为词的数量；尾句-上下文双重注意力模型接收n个句子u₁,...u_i,...u_n作为输入。

步骤2：对于语句u_i中的词w_i,1,...w_i,k,...w_i,p，对每个词做多头自注意力计算，得到W'_i＝(w'_i,1,...w'_i,k,...w'_i,p)，此时新的词向量可以认为具有了区分每个词重要程度的能力。多头自注意力计算公式如下：

w'_i,k＝MultiHead(w_i,k,w_i,k,w_i,k)＝Concat(head₁,...,head_h)W^O

其中，w_i,k代表u_i中第k个单词，w'_i,k代表经过多头自注意力计算后的词向量；MultiHead()代表多头注意力方法，Concat()代表拼接操作，h是多头注意力中线性变换的个数，表示用h个不同的线性变换分别将d_model维的key、value和 query映射成d_k维、d_k维和d_v维，然后再代入缩放点积注意力机制，产生总共h× d_v维输出，然后拼起来，再用一个线性变换得到最终的输出； head_i＝Attention(w_i,kW_i ^Q,w_i,kW_i ^K,w_i,kW_i ^V)，Attention()表示缩放点击注意力方法，它接收三个参数Q,K,V，在本模型中Q＝w_i,kW_i ^Q，K＝w_i,kW_i ^K，V＝w_i,kW_i ^V。W_i ^Q，W_i ^K，W_i ^V， W^O为预设参数矩阵。

缩放点积注意力机制输入包含d_k维的query和key，以及d_v维的value。通过计算query和各个key的点积，除以√d_k归一化，然后经过softmax激活变成权重，最后再乘value。输出计算如下：

其中除以起到调节作用，使得内积不至于太大。Q，K，V分别是query，key，value的集合矩阵，使得缩放点积的计算可以批量进行。

步骤3：采用经典的编码器结构，对于语句u_i中经过多头自注意力计算的到的词w'_i,1,...w'_i,k,...w'_i,p，从第一个单词开始通过GRU计算加密隐函数， h_i,k＝f(w'_i,k,h_i,k-1)，其中h_i,0记为预设参数。将最后一个计算完毕的h_i,p作为整个句子 u_i的加密隐函数h_i：h_i＝GRU(w'_i,1,...w'_i,k,...w'_i,p)；将每个上下文语句都按上文计算，得到所有上下文语句的句子表示H＝(h₁,...h_i,...h_n)。

步骤4：计算上下文每个句子的注意力权重：其中 e_i,t＝V^Ttanh(Wh_i+Us_t-1)，V，W,U均为注意力机制中的预设参数矩阵，t代表解码的每个时刻，tanh为激活函数，s_t-1是解码器在t-1时刻的隐藏状态。由得到的每句句子的权重计算上下文语境表示向量

步骤5：对于末尾语句u_n，W_n＝(w_n,1,...w_n,k,...w_n,p)是句中的词，计算末尾语句u_n中每个词的注意力权重：其中e_k,t＝V'^Ttanh(W'w_n,k+U's_t-1)，V'，W'， U'均为注意力机制中的预设参数矩阵，tanh为激活函数。由得到的每个词的权重计算末尾句的语境表示向量

步骤6：一个合适的回复应该是符合最后一个句子的语义且能够利用到整个上下文的信息，所以在解码阶段同时关注最后一个句子以及所有上下文语句。对于最后一个句子，注意力关注于句子中的每个词。对于上下文，注意力关注于上下文每个句子的句子表示。最终用于解码的上下文语义向量由二者拼接得到。

将末尾语句和整个上下文语句两个语境表示向量拼接起来作为最终的语境表示向量C_t＝[c_t；c'_t]。

步骤7：针对末尾句子u_n，从第一个单词开始通过GRU计算加密隐函数， h'_n,k＝f(w_i,k,h'_n,k-1)，其中h'_n,0记为预设参数。将最后一个计算完毕的h'_n,p作为整个句子u_n的加密隐函数h'_n。

步骤8：计算t时刻解码器的隐藏状态：s_t＝f(y_t-1,s_t-1,C_t)，y_t-1表示t-1时刻的迭代输入量，y₀为预设值，s₀＝h'_n。t时刻的输出可以用条件概率表示为：

可以简化为：

P(y_t|y_t-1,y_t-2,...y₁,C_t)＝g(s_t,y_t-1,C_t)

步骤9：将s₁…s_t…s_m的值作为生成的回复语句进行输出。

本发明的有益效果：

1.本发明应用了多头自注意力机制使得在编码句子的语义表示的时候能更准确的突出句中的关键词汇。

2.本发明将注意力机制应用在最后一个语句的每个词和经过编码器得到的每个上下文语句的语义表示上，然后拼接二者作为解码阶段的上下文向量。

3.实验证明本发明的模型在自动评价和人工评价两个方面都超出了当前最新的基准模型。

附图说明

图1为尾句-上下文双重注意力模型。

图2为本发明多轮对话生成方法的流程图。

具体实施方式

现有的对话数据集很多并非源自真正的对话，比如主流的有来自社交网络，也有来自电影台词的。有来自社交网络的语料往往会掺杂很多非正式的缩写与网络用语，而且也会有信息残缺的问题；来自电影台词的语料往往过短，台词轮数过多，导致模型训练不够好。本实施例使用一个针对日常聊天场景的多轮对话数据集DailyDialog(Yanran Li,HuiSu,Xiaoyu Shen,Wenjie Li,Ziqiang Cao, and Shuzi Niu.2017.Dailydialog:Amanually labelled multi-turn dialogue dataset.In Proceedings of the EighthInternational Joint Conference on Natural Language Processing,IJCNLP 2017,Taipei,Taiwan,November 27-December 1,2017- Volume 1:Long Papers,pages 986–995.)，该数据集比起以前的语料库具有更少的噪声且覆盖生活的几大主题。总共有13000多个对话，平均每个对话有8轮，其中取1000个对话为验证集，1000个对话为测试集，其余作为训练集。

我们提出的尾句-上下文双重注意力模型适用于多轮对话领域，它采用了分层的编码器-解码器框架。输入n个上下文句子，首先采用多头自注意力机制对每句话中的每个词进行处理，得到的新词向量具有一定的突出关键词的能力。对于每句句子，分别通过编码器得到句子表示。对于所有的上下文句子表示和尾句中的每个词，分别采用上下文注意力和尾句注意力得到相应的语境向量表示，然后拼接起来得到最终的语境向量。另外单独将尾句通过编码器获得句子表示作为解码器的初始状态，再利用得到的最终的语境向量解码生成回复语句。本实施例中对话轮次的最大值设置为15，同时去除小于3个轮次的对话。隐藏单元的数量设置为512，词向量维度设置为300，采用Adam优化算法对参数进行更新。

基准模型——S2SA：把整个对话中的所有语句拼接起来作为一个长句子，与回复句子一起形成一个问答对。这样就把多轮对话生成任务转化为单轮对话生成任务。使用经典的sequence to sequence with attention模型作为基准。HRED：层次化编码-解码模型。Dynamic Attention：动态注意力解码模型。

自动评价——本实施例采用BLEU作为自动评价指标，BLEU是一种对模型输出和参考答案的n-gram进行比较并计算匹配片段个数的方法。将BLEU-4 作为最主要的BLEU分数。结果如表1所示。我们的模型在各个BLEU分数上都超越了基准模型。

表1：各个模型的BLEU分数

为了验证模型每个组成部分的作用，本实施例还做了消融实验。分别去掉多头自注意力，尾句注意力，上下文注意力，结果如表2所示。可以看到，去除自注意力的情况下模型效果是最接近原始模型的，说明在解码阶段的注意力机制对生成回复质量的提升远比句子编码阶段的自注意力机制大。但是原始模型在总体上还是超越了去除自注意力机制的模型，这也表明了加入多头自注意力机制对模型具有一定的提升效果，在句子编码阶段先衡量句子中的关键词有助于后续生成更高质量的回复。去除尾句注意力的模型效果是最差的，这说明回复语句首先关注的是距离最近的句子，其次才应该考虑上下文信息。这也吻合人类语言的习惯。仅知道最后一句询问，而不知道前因后果，往往可以做出合理的回复，而仅知道前因后果却不知道最后一句询问很可能答非所问。去除了上下文注意力的模型差于去除了自注意力机制的模型，好于去除了尾句注意力的模型。这表明仅关注于当前语句或许可以做出合理的回复，但是会缺乏信息，回复的质量不高。这也不符合多轮对话关注于对话情境，希望能生成富含信息的，与上下文相一致的回复的研究初衷。

表2：模型消融实验结果

人工评价——如何自动评价对话系统的质量一直以来都是一个困难的问题。当前的各种主流评价指标都有着各种各样的缺陷，所以BLEU分数并不能非常准确地衡量模型所生成回复地质量。由于人类语言的复杂性和多样性，有些语句可能没有重叠的词汇，在不看上下文的前提下是毫不相关的句子，然而却可以作为同一个对话情境的回复。在这种情况下，本实施例引入了人工评价来进一步衡量所提出的模型与各个基准模型生成回复的质量。本实施例设定的人工评价指标包括相关性和流畅性。相关性衡量生成的回复与上下文语境是否相一致，是否能衔接这段对话。相关性评分范围为0到2。0代表没有相关性，不能作为当前对话的回复，1代表一般相关，可以作为当前对话的回复，2代表十分吻合当前对话情境，回答地很贴切。流畅性衡量生成地回复是否在语法上流畅无错误。流畅性评分范围为0和1。0代表句子不通顺，有语法错误，1代表句子通顺，没有语法错误。对于每一个模型，本实施例随机挑选了200句测试语句用于人工评价。评价者对于实验内容完全不知情。评价结果如表3所示。本实施例的模型在相关性和流畅性两个方面都取得了最好的效果。

表3：人工评价结果

实施例分析——表4是本实施例的模型与基准模型中表现最好的模型的几个典型案例。可以看到，第一个案例中，本实施例的模型准确地获得了上下文中美国总统名字奥巴马这个关键信息，而基准模型地回复虽然也可以作为整个对话地回复，但是明显缺乏上下文信息，显得很乏味。第二个案例中，本实施例的模型捕捉到了上下文约见医生这个情境，回复不仅流畅而且比较有趣。而基准模型虽然也捕捉到了医生这个上下文信息，但是却不通顺，难以表达一个流畅的意思。第三个案例中，本实施例的模型生成的回复符合人物的角色而且信息较为丰富，而基准模型同样陷入到了生成通用回复的问题中。

表4：几个案例。__eou__用于分隔两个对话者

本实施例提出了一个用于多轮对话生成任务的尾句-上下文双重注意力模型。首先为了能够突出每句话中关键词的重要性，本实施例在句子编码阶段引入了多头自注意力机制。其次，本实施例的模型同时考虑到末尾句子与回复的连贯性，以及对上下文信息的捕捉，在解码阶段使用了尾句和上下文的双重注意力机制。实验结果显示本实施例的模型在自动评价指标上超越了基准模型。在对相关性和流畅性指标进行的人工评价中，本实施例的模型同样超越了基准模型。尤其是在相关性方面，具有比较突出的表现。

Claims

1.基于尾句-上下文双重注意力模型的多轮对话生成方法，其特征在于，步骤如下：

步骤1：设一段对话，包含的上下文语句为U＝(u₁,...u_i,...u_n)，其对应的一个回复为Y＝(y₁,...y_j,...y_m)，其中n为上下文语句的数量，m为回复语句中词的数量；对于任意一个语句u_i，W_i＝(w_i,1,...w_i,k,...w_i,p)为该句中的词，其中p为词的数量；尾句-上下文双重注意力模型接收n个句子u₁,...u_i,...u_n作为输入；

步骤2：对于语句u_i中的词w_i,1,...w_i,k,...w_i,p，对每个词做多头自注意力计算，得到W'_i＝(w'_i,1,...w'_i,k,...w'_i,p)，公式如下：

w'_i,k＝MultiHead(w_i,k,w_i,k,w_i,k)＝Concat(head₁,...,head_h)W^O

其中，w_i,k代表u_i中第k个单词，w'_i,k代表经过多头自注意力计算后的词向量；MultiHead(g)表示多头注意力方法，Concat(g)表示拼接操作，h是多头注意力中线性变换个数；head_i＝Attention(w_i,kW_i ^Q,w_i,kW_i ^K,w_i,kW_i ^V)，其中Attention(g)表示缩放点击注意力方法，它接收三个参数Q,K,V，定义为d_k为Q的维度；在本模型中Q＝w_i, _kW_i ^Q，K＝w_i,kW_i ^K，V＝w_i,kW_i ^V；W_i ^Q、W_i ^K、W_i ^V、W^O为预设参数矩阵，softmax(g)为激活函数；

步骤3：对于语句u_i中经过多头自注意力计算的到的词w'_i,1,...w'_i,k,...w'_i,p，从第一个单词开始通过GRU计算加密隐函数，h_i,k＝f(w'_i,k,h_i,k-1)，其中h_i,0记为预设参数；将最后一个计算完毕的h_i,p作为整个句子u_i的加密隐函数h_i：h_i＝GRU(w'_i,1,...w'_i,k,...w'_i,p)，将每个上下文语句都按上文计算，得到所有上下文语句的句子表示H＝(h₁,...h_i,...h_n)；

步骤4：计算上下文每个句子的注意力权重：其中e_i,t＝V^Ttanh(Wh_i+Us_t-1)，V、W、U均为注意力机制中的预设参数矩阵，t代表解码的每个时刻，tanh为激活函数，s_t-1是解码器在t-1时刻的隐藏状态；由得到的每句句子的权重计算上下文语境表示向量

步骤5：对于末尾语句u_n，W_n＝(w_n,1,...w_n,k,...w_n,p)是句中的词，计算末尾语句u_n中每个词的注意力权重：其中e_k,t＝V'^Ttanh(W'w_n,k+U's_t-1)，V'、W'、U'均为注意力机制中的预设参数矩阵，tanh为激活函数；由得到的每个词的权重计算末尾句的语境表示向量

步骤6：将末尾语句和整个上下文语句两个语境表示向量拼接起来作为最终的语境表示向量C_t＝[c_t；c'_t]；

步骤7：针对末尾句子u_n，从第一个单词开始通过GRU计算加密隐函数，h'_n,k＝f(w_i,k,h'_n,k-1)，其中h'_n,0记为预设参数；将最后一个计算完毕的h'_n,p作为整个句子u_n的加密隐函数h'_n；

步骤8：计算t时刻解码器的隐藏状态：s_t＝f(y_t-1,s_t-1,C_t)，y_t-1表示t-1时刻的迭代输入量，y₀为预设值，s₀＝h'_n；

步骤9：将s₁…s_t…s_m的值作为生成的回复语句进行输出。