CN113342947A

CN113342947A - 能感知对话上下文相对位置信息的多轮对话文本生成方法

Info

Publication number: CN113342947A
Application number: CN202110575909.XA
Authority: CN
Inventors: 曾碧卿; 甘子邦; 池俊龙; 邓会敏
Original assignee: GUANGDONG AIB POLYTECHNIC COLLEGE; South China Normal University
Current assignee: GUANGDONG AIB POLYTECHNIC COLLEGE; South China Normal University
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2021-09-03
Anticipated expiration: 2041-05-26
Also published as: CN113342947B

Abstract

本发明涉及一种能感知对话上下文相对位置信息的多轮对话文本生成方法。本发明所述的能感知对话上下文相对位置信息的多轮对话文本生成方法包括以下步骤：构建多轮对话文本生成模型，包括输入层、上下文自注意力层、响应自注意力层、隐变量层、角色嵌入层和解码器层；其中，所述输入层包括词嵌入层和编码器；将对话输入至多轮对话文本生成模型，经输入层、上下文自注意力层处理得到词嵌入序列和对话上下文话语间注意力表示；经响应自注意力层处理得到对话响应的注意力表示；经角色嵌入层处理得到角色嵌入；经隐变量层和解码器层处理，生成对话结果。本发明所述的能感知对话上下文相对位置信息的多轮对话文本生成方法最终生成的对话文本逻辑性更强。

Description

能感知对话上下文相对位置信息的多轮对话文本生成方法

技术领域

本发明涉及自然对话生成领域，特别是涉及一种能感知对话上下文相对位置信息的多轮对话文本生成方法。

背景技术

深度学习的不断进步极大地推动了生成式对话系统的发展。序列到序列模型(sequence to sequence model，Seq2Seq)被广泛用于解决序列建模问题，使用循环神经网络(Recurrent neural network，RNN)，如门控循环单元(Gated Recurrent Unit，GRU)、长期短期记忆网络，作为序列到序列模型的基本组成单元。对话文本生成的主流方法采用序列到序列模型，利用深度循环神经网络(RNN)结合注意力机制作为基本构件。

2016年，有学者首次提出层级递归编码器解码器模型(Hierarchical RecurrentEncoder-Decoder)，首先编码句子内部的依赖关系，然后编码上下文句子之间的依赖关系。2017年，有学者在前面工作的基础上提出VHRED(Hierarchical Latent VariableEncoder-Decoder)模型，引入隐变量来提高生成文本的多样性。随后，有学者提出计算回答与上下文之间的余弦相似度分数来区分不同上下文句子的注意力权重，但他们的方法受限于文本级别的匹配，缺乏考虑更深入的语义匹配。2018年，有学者首次把传统的注意力机制引入到HRED模型中，但注意力位置偏差问题仍然存在。近两年，有学者提出ReCoSa模型(Detecting the Relevant Contexts with Self-Attention)，是一种使用自注意力机制检测相关上下文的对话文本生成方法，缓解了注意力偏差问题和语义匹配问题，但其仍然受限于有限的训练语料和单词的语义。

现有的基于深度学习的对话文本生成方法普遍存在以下问题：

其一，这些方法受限于有限的训练语料，不可避免会忽略一些概念知识，导致生成有常识错误的对话回复。如把句子“Hey,taxi.”中的“taxi”错误地当作是一个人名，给出如句子“Hey,tom.”的错误回复。以上问题一般可以通过更好地建模多轮对话中的知识来解决。

其二，基线模型生成的对话回复存在“角色模糊”问题。如图1所示，显然，在第四轮对话中，对话模型应作为一个司机的角色根据对话上下文给乘客一个回复，但司机询问乘客有关行程的时间和票价问题，显然有些身份的颠倒，说明了基线模型生成的回复与当前的说话者身份不符，我们把它称为“角色模糊”问题。我们分析，“角色模糊”问题是在缺乏角色对象语义引导下生成回复导致的，需要额外编码角色对象的语义信息。

发明内容

基于此，本发明的目的在于，提供一种能感知对话上下文相对位置信息的多轮对话文本生成方法，增加了角色嵌入计算，缓解了传统方法“角色模糊”问题；并引入隐变量，在保证相关性的前提下提升了对话文本生成的多样性。

一种能感知对话上下文相对位置信息的多轮对话文本生成方法，包括以下步骤：

构建多轮对话文本生成模型，包括输入层、上下文自注意力层、响应自注意力层、隐变量层、角色嵌入层和解码器层；其中，所述输入层包括词嵌入层和编码器；

将一个由多个话语序列

组成的对话u＝(u₀，u₁，...，u_n-1)输入至所述输入层，经过双向编码处理得到由词嵌入序列组成的词嵌入表示矩阵

针对话语i，经过输入层的编码器处理得到话语表示C_i＝h_i＝uRNN(U_i，h_i-1)；

将所述话语表示Ci输入至所述上下文自注意力层，引入话语的位置嵌入PE，基于多头自注意力机制，得到带有相对位置信息的对话上下文话语间注意力表示O_c；其中，位置嵌入PE为自注意力层的学习参数，计算公式如下：

将对话响应R和位置嵌入PE输入至所述响应自注意力层，得到对话响应的注意力表示O_R；其中，对话响应R为在训练预料中对一个样例的候选回复进行编码后的语义向量，由候选回复经过RNN编码后得到。

将所述上下文话语间注意力表示O_c和所述对话响应的注意力表示O_R输入至所述隐变量层，计算得到隐变量l；

将上下文话语文本输入至所角色嵌入层，得到角色嵌入RE_i；

将所述词嵌入序列e、所述对话上下文话语间注意力表示O_c和所述角色嵌入RE输入至所述解码器层，计算词汇表中词的输出概率，输出概率最大的词。

本发明所述的能感知对话上下文相对位置信息的多轮对话文本生成方法，使用了能感知相对位置信息的自注意力机制，能够更好提取多轮对话输入文本的隐藏特征，使得最终生成的对话文本前后话语富有逻辑性；加入角色嵌入层，根据当前轮的相关上下文计算角色嵌入，程度上缓解了“角色模糊”问题；解码器阶段还引入了隐变量，在对话文本的生成过程加入了一点噪声，从而在保证相关性的情况下提升了对话文本生成的多样性。

进一步地，将所述上下文话语间注意力表示O_c和所述对话响应的注意力表示O_R输入至所述隐变量层，计算得到隐变量l，包括：

将所述上下文话语间注意力表示O_c和所述对话响应的注意力表示O_R连接在一起，通过激活函数tanh馈入一个两层前馈网络；

对前馈网络的输出进行线性变换来定义后验均值μ_posterior；

对前馈网络的输出进行不同的线性变换；

使用softplus函数定义后验协方差矩阵∑_posterior；

利用公式P_θ(l|u₀，...，u_n-1)＝N(μ_posterior，∑_posterior)，从多变量正态分布N(μ，∑)中采样隐变量l。

进一步地，将话语输入至所角色嵌入层，得到角色嵌入RE_i，包括：

初始化两个门控循环单元模块EvenGRU和OddGRU；其中，EvenGRU为针对当前响应是对话的偶数轮的门控循环单元模块，OddGRU为针对当前响应是对话的奇数轮的门控循环单元模块；

将上下文话语文本输入EvenGRU和OddGRU，根据如下公式，得到角色嵌入RE_i：

其中，i为上下文话语文本的序号，c_n为上下文话语文本。

进一步地，将所述话语表示Ci输入至所述上下文自注意力层，引入话语的位置嵌入PE，基于多头自注意力机制，得到带有相对位置信息的对话上下文话语间注意力表示O_c，包括，利用以下公式：

head_i＝Attention(QW_i ^Q，KW_i ^K，VW_i ^V)

MultiheadAttention(Q，K，V)＝Concat(head₁，...，head_h)·W^O

x_i＝C_i+PE_i，i∈[0，n)

O_c＝MultiheadAttention(x，x，x)

其中，eij为计算序列第i个词对第j个词的注意力能量值，α_ij为计算序列第i个词对第j个词的注意力权重；Zi为计算序列第i个词对整个序列的加权注意力权重；W表示查询Q、键K和值V矩阵的权重矩阵，PE表示位置嵌入，为学习的参数；head_i表示多头注意力机制中，第i个头的输出；a_ij ^V表示针对多头注意力机制引入的相对位置的值V矩阵，a_ij ^K表示针对多头注意力机制引入的相对位置的键k矩阵。

进一步地，所述解码器层包括多头自注意力层和解码器GRU。

进一步地，所述多头自注意力层注意力头个数为8，层数为3。

进一步地，计算词汇表中词的输出概率，输出概率最大的词，之前还包括：

将所述对话上下文话语间注意力表示O_c和所述解码器GRU的隐藏状态h，输入至所述多头自注意力层，计算得到上下文-响应注意力权重CE。

将所述连接对话上下文中最后一个话语表示C_n-1和隐变量l输入至所述解码器GRU，作为解码器初始状态h₀，用h₀初始化解码器GRU；

将所述词嵌入序列e、所述上下文-响应注意力权重CE和所述角色嵌入RE输入到解码器GRU中，计算词汇表中词的输出概率，输出概率最大的词。

进一步地，计算词汇表中词的输出概率，输出概率最大的词，包括，利用以下公式：

h⁰＝tanh(concat(C_n-1，l))

CE_t-1＝MultiheadAttention(h^t-1，O_C，O_C)

output，h^t＝GRU(h^t-1，[e_r，t，CE_t-1，RE_i])，t≥1

Output Probabilities＝Softmax(Linear(output))

其中，C_n-1是对话历史中最后一句话的话语表示，l是隐变量，两者进行了连接concat操作，经过激活函数tanh，得到解码器GRU的隐藏状态的初始化值h⁰。每生成一个单词，要经过几个过程，通过把当前的隐藏状态值h^t-1和对话上下文话语间注意力表示O_c作为多头注意力机制层MultiheadAttention的输入，完成的上下文-响应注意力权重CE的计算。完成了这些计算以后，最后在解码阶段把GRU的输入初始为上下文-响应注意力权重CE、角色嵌入RE_i和词嵌入e_r，t的合并体，把GRU的隐藏状态初始为h^t-1，计算得到下一步的隐藏状态h^t和输出语义向量output，对output进行全连接层Linear的维度变换后，输入进Softmax激活层进行输出词概率的计算，取概率最大的词作为这一步生成的单词，过程中，生成的单词是依据隐藏状态h^t和多轮对话上文w_r，t-1在循环神经网络多次迭代中进行条件概率计算出来的。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为本发明提供的能感知对话上下文相对位置信息的多轮对话文本生成方法的步骤图；

图2为本发明提供的能感知对话上下文相对位置信息的多轮对话文本生成方法的模型整体框架示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

应当明确，所描述的实施例仅仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请实施例保护的范围。

在本申请实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中，需要理解的是，术语“第一”、“第二”、“第三”等仅用于区别类似的对象，而不必用于描述特定的顺序或先后次序，也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

如图1所示，图1为本发明提供的能感知对话上下文相对位置信息的多轮对话文本生成方法的步骤图，包括以下步骤：

S1：构建多轮对话文本生成模型，包括输入层、上下文自注意力层、响应自注意力层、隐变量层、角色嵌入层和解码器层；其中，所述输入层包括词嵌入层和编码器。

在一个具体的实施例中，本发明提供的能感知对话上下文相对位置信息的多轮对话文本生成方法的多轮对话文本生成模型的整体框架如图2所示。

其中，词嵌入层为双向编码词嵌入层，编码器为GRU编码器，解码器为GRU解码器，上下文自注意力层和响应自注意力层均为多头自注意力层。

优选的，解码器层包括多头自注意力层和解码器GRU。

多轮对话文本生成模型的相关参数设置如下：

词嵌入层：词向量的维度为512；

隐变量层：隐变量的维度为100；

多头注意力层：注意力头个数为8，层数为3；

编码器和解码器：编码器隐藏层维度为512，解码器隐藏层维度为512。

多轮对话文本生成模型使用AdamOptimizer优化器，学习率的初始值设置为0.03，增量器初始值(initial_accumulator_value)设为0.1。所有RNN模型参数均由Xavier正态分布初始化。

S2：将一个由多个话语序列

组成的对话u＝(u₀，u₁，...，u_n-1)输入至所述输入层，经过词嵌入层的双向编码处理得到由词嵌入序列组成的词嵌入表示矩阵

将每个话语i输入至编码器，经处理得到话语表示C_i＝h_i＝uRNN(U_i，h_i-1)。

优选的，话语表示C_i的计算方式为：

对于话语i，在第j步，给定隐藏状态h_j-1和词嵌入

GRU编码器生成隐藏状态h_j，把最后一步生成的隐藏状态作为话语i的话语表示C_i。

S3：将所述话语表示C_i输入至所述上下文自注意力层，引入话语的位置嵌入PE，基于多头自注意力机制，得到带有相对位置信息的对话上下文话语间注意力表示O_c。

自注意力层无RNN的循环结构，无法感知一个句子中词语出现的先后顺序，而词语的位置是相当重要的一个信息。因此，在自注意力层提出了位置编码PositionalEncoding，即PE，为自注意力层训练学习的参数。

优选的，通过增加a_ij ^V和a_ij ^K表示，将不同话语i和话语j间的相对位置信息引入到多头注意力机制中，将它应用到输入序列。最后，加权计算上下文话语间的注意力分数，将步骤1输出的第i个话语的话语表示Ci作为能感知相对位置的多头注意力机制的输入。

利用如下公式计算带有相对位置信息的对话上下文话语间注意力表示O_c：

head_i＝Attention(QW_i ^Q，KW_i ^K，VW_i ^V)

MultiheadAttention(Q，K，V)＝Concat(head₁，...，head_h)·W^O

x_i＝C_i+PE_i，i∈[0，n)

O_c＝MultiheadAttention(x，x，x)

其中，e_iij为计算序列第i个词对第j个词的注意力能量值，α_ij为计算序列第i个词对第j个词的注意力权重；Zi为计算序列第i个词对整个序列的加权注意力权重；W表示查询Q、键K和值V矩阵的权重矩阵，PE表示位置嵌入，为模型学习的参数；head_i表示多头注意力机制中，第i个头的输出；a_ij ^V表示针对多头注意力机制引入的相对位置的值V矩阵，a_ij ^K表示针对多头注意力机制引入的相对位置的键k矩阵。

S4：将对话响应R和位置嵌入PE输入至所述响应自注意力层，得到对话响应的注意力表示O_R。

其中，对话响应R是在训练预料中，对一个样例的候选回复进行编码后的语义向量。候选回复经过RNN编码后得到一个一个词的编码w，每个位置对应一个位置编码PE。

优选的，利用如下公式计算对话响应的注意力表示O_R：

R_i＝(w_r，i+PE_i)

O_R＝MultiheadAttention(R，R，R)

S5：将所述上下文话语间注意力表示O_c和所述对话响应的注意力表示O_R输入至所述隐变量层，计算得到隐变量l。

具体算法为：

对前馈网络的输出进行线性变换来定义后验均值μ_posterior；

对前馈网络的输出进行不同的线性变换；

使用softplus函数定义后验协方差矩阵∑_posterior；

计算公式如下：

h_posterior＝tanh(FFN(concat(O_c，O_R)))

μ_posterior＝Linear(h_posterior)

∑_posterior＝softplus(Linear(h_posterior))

P_θ(l|u₀，...，u_n-1)＝N(μ_posterior，∑_posterior)

其中，本发明从一个多变量正态分布N(μ，∑)中采样隐变量l，均值

和协方差矩阵

共同决定着这个多变量正太分布，二者均为深度学习模型要学习的参数。模型的训练阶段，将上下文话语间注意力表示O_c和对话响应的注意力表示O_R作为隐变量层的输入，它们被连接在一起，并通过激活函数tanh馈入一个两层前馈网络，之后对前馈网络的输出进行线性变换来定义后验均值μ_posterior。接着，通过对前馈网络的输出进行不同的线性变换，然后加上一个softplus函数来定义后验协方差矩阵∑_posterior。值得注意的是，在对话响应生成阶段中，实际上是根据先验的均值μ_prior和协方差矩阵∑_prior计算隐变量l，在推导过程中看不见候选的对话响应R，所以不能利用O_R的信息，为了让先验分布近似后验分布，在训练过程中，在先验和后验分布之间应用了KL散度。

KL散度，即相对熵(relative entropy)，又被称为Kullback-Leibler散度(Kullback-Leibler divergence)或信息散度(information divergence)，是两个概率分布(probability distribution)间差异的非对称性度量。在信息理论中，相对熵等价于两个概率分布的信息熵(Shannon entropy)的差值。

相对熵是一些优化算法，例如最大期望算法(Expectation-Maximizationalgorithm，EM)的损失函数。此时参与计算的一个概率分布为真实分布，另一个为理论(拟合)分布，相对熵表示使用理论分布拟合真实分布时产生的信息损耗。

S6：将上下文话语文本输入至所角色嵌入层，得到角色嵌入RE_i。

在一个多轮的对话中，假设两个讲话者携带着可识别的信息，如司机和乘客，对于不同的讲话者，可以通过对其历史话语的解读来挖掘身份语义信息。

因此，本发明提供的能感知对话上下文相对位置信息的多轮对话文本生成方法，增加了一个额外的输入，角色嵌入RE_i，用于在多轮对话响应的解码过程中区分不同的说话者。

具体的，初始化两个门控循环单元模块EvenGRU和OddGRU；其中，EvenGRU为针对当前响应是对话的偶数轮的门控循环单元模块，OddGRU为针对当前响应是对话的奇数轮的门控循环单元模块；

其中，i为上下文话语文本的序号，c_n为上下文话语文本。

S7：将所述词嵌入序列e、所述对话上下文话语间注意力表示O_c和所述角色嵌入RE输入至所述解码器层，计算词汇表中词的输出概率，输出概率最大的词。

优选的，在此之前，还包括计算上下文-响应注意力权重CE。

具体的，将所述对话上下文话语间注意力表示O_c和所述解码器GRU的隐藏状态h，输入至所述多头自注意力层，计算得到上下文-响应注意力权重CE。

CE_t-1＝MultiheadAttention(h^t-1，O_C，O_C)

具体的，计算词汇表中词的输出概率，包括：

在一个具体的实施例中，计算过程采用以下公式：

h⁰＝tanh(concat(C_n-1，l))

CE_t-1＝MultiheadAttention(h^t-1，O_C，O_C)

output，h^t＝GRU(h^t-1，[e_r，t，CE_t-1，RE_i])，t≥1

Output Probabilities＝Softmax(Linear(output))

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种能感知对话上下文相对位置信息的多轮对话文本生成方法，其特征在于，包括以下步骤：

将一个由多个话语序列

将上下文话语文本输入至所角色嵌入层，得到角色嵌入RE_i；

2.根据权利要求1所述的一种能感知对话上下文相对位置信息的多轮对话文本生成方法，其特征在于，将所述上下文话语间注意力表示O_c和所述对话响应的注意力表示O_R输入至所述隐变量层，计算得到隐变量l，包括：

对前馈网络的输出进行线性变换来定义后验均值μ_posterior；

对前馈网络的输出进行不同的线性变换；

使用softplus函数定义后验协方差矩阵∑_posterior；

利用公式P_θ(l|u₀，...，u_n-1)＝N(μ_posterior，∑_posterior)，从多变量正态分布N(μ，∑)中采样隐变量1。

3.根据权利要求1所述的一种能感知对话上下文相对位置信息的多轮对话文本生成方法，其特征在于，将话语输入至所角色嵌入层，得到角色嵌入RE_i，包括：

其中，i为上下文话语文本的序号，c_n为上下文话语文本。

4.根据权利要求1所述的一种能感知对话上下文相对位置信息的多轮对话文本生成方法，其特征在于，将所述话语表示Ci输入至所述上下文自注意力层，引入话语的位置嵌入PE，基于多头自注意力机制，得到带有相对位置信息的对话上下文话语间注意力表示O_c，包括，利用以下公式：

head_i＝Attention(QW_i ^Q，KW_i ^K，VW_i ^V)

MultiheadAttention(Q，K，V)＝Concat(head₁，...，head_h)·W^O

x_i＝C_i+PE_i，i∈[0，n)

O_c＝MultiheadAttention(x，x，x)

其中，e_ij为计算序列第i个词对第j个词的注意力能量值，α_ij为计算序列第i个词对第j个词的注意力权重；Zi为计算序列第i个词对整个序列的加权注意力权重；W表示查询Q、键K和值V矩阵的权重矩阵，PE表示位置嵌入，为学习的参数；head_i表示多头注意力机制中，第i个头的输出；a_ij ^V表示针对多头注意力机制引入的相对位置的值V矩阵，a_ij ^K表示针对多头注意力机制引入的相对位置的键k矩阵。

5.根据权利要求1所述的一种能感知对话上下文相对位置信息的多轮对话文本生成方法，其特征在于：

所述解码器层包括多头自注意力层和解码器GRU。

6.根据权利要求5所述的一种能感知对话上下文相对位置信息的多轮对话文本生成方法，其特征在于：

所述多头自注意力层注意力头个数为8，层数为3。

7.根据权利要求6所述的一种能感知对话上下文相对位置信息的多轮对话文本生成方法，其特征在于，计算词汇表中词的输出概率，输出概率最大的词，之前还包括：

8.根据权利要求7所述的一种能感知对话上下文相对位置信息的多轮对话文本生成方法，其特征在于，计算词汇表中词的输出概率，输出概率最大的词，包括：

9.根据权利要求8所述的一种能感知对话上下文相对位置信息的多轮对话文本生成方法，其特征在于，计算词汇表中词的输出概率，输出概率最大的词，包括，利用以下公式：

h⁰＝tanh(concat(C_n-1，l))

CE_t-1＝MultiheadAttention(h^t-1，O_C，O_C)

output，h^t＝GRU(h^t-1，[e_r，t，CE_t-1，RE_i])，t≥1

Output Probabilities＝Softmax(Linear(output))

其中，C_n-1为对话历史中最后一句话的话语表示，l为隐变量，concat()为连接函数，tanh()为激活函数，h⁰为解码器GRU的隐藏状态的初始化值；CE_t-1为经多头注意力层计算得到的上下文-响应注意力权重；output为语义向量，e_r，t为经过双向编码得到的词嵌入；

表示生成单词依据隐藏状态h^t和多轮对话上文w_r，t-1在循环神经网络多次迭代中进行条件概率计算得出。