CN113553860A

CN113553860A - 基于多任务学习的回复多样性多轮对话生成方法和系统

Info

Publication number: CN113553860A
Application number: CN202110651374.XA
Authority: CN
Inventors: 孙晓; 王佳敏; 汪萌
Original assignee: Hefei University of Technology; Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Current assignee: Hefei University of Technology; Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2021-10-26

Abstract

本发明提供一种基于多任务学习的回复多样性多轮对话生成方法、系统、存储介质和电子设备，涉及多轮对话生成技术领域。本发明首先构建多任务学习模型，所述多任务学习模型包括预先训练的多轮对话模型和VAE模型,所述多轮对话模型包括话语级编码器、话语间编码器和第一解码器；将预处理后的多轮对话历史信息中的每个句子序列向量依次输入所述话语级编码器和话语间编码器，获取包含整个所述多轮对话历史信息的隐藏向量；将所述隐藏向量输入第一解码器，所述第一解码器的参数加载自所述VAE模型中的第二解码器参数，获取回复句子序列。将VAE模型解码器参数与多轮对话生成模型共享，增强了多轮对话生成模型里解码器的解码能力，提高了生成回复的文本质量。

Description

基于多任务学习的回复多样性多轮对话生成方法和系统

技术领域

本发明涉及多轮对话生成技术领域，具体涉及一种基于多任务学习的回复多样性多轮对话生成方法、系统、存储介质和电子设备。

背景技术

深度学习在多轮对话生成中的应用主要包括神经语言模型、序列到序列模型、注意力机制和层次序列到序列模型。

早期的模型大多基于不分层的结构(包括神经语言模型和序列到序列模型)。但是，在不分层的框架中，无论是直接拼接历史话语和查询，还是按顺序接收话语作为输入，都会减弱查询和回复之间的依赖关系，引入噪音。近期的多轮对话生成模型大多基于层次序列到序列模型框架实现，并通过改进该框架来优化对话上下文的向量表示。将基于层次框架的模型和基于不分层框架的模型相比，改进的层次框架模型对话语层级关系直接建模，效果更好，能生成更多样、更有意义的回复。

但是，在多轮对话生成中，单纯地利用attention机制进行对话历史信息的提取容易存在大量信息冗余情况，通常情况下，生成的回复文本质量得不到保证，且容易出现上下文不一致的问题。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于多任务学习的回复多样性多轮对话生成方法、系统、存储介质和电子设备，解决了现有多轮对话生成中生成的回复文本质量低的技术问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

一种基于多任务学习的回复多样性多轮对话生成方法，该方法首先构建多任务学习模型，所述多任务学习模型包括预先训练的多轮对话模型和VAE模型，所述多轮对话模型包括话语级编码器、话语间编码器和第一解码器；包括：

获取并预处理多轮对话历史信息；

将预处理后的多轮对话历史信息中的每个句子序列向量输入所述话语级编码器，获取所述多轮对话历史信息对应的话语级编码向量；

将所述话语级编码向量输入所述话语间编码器，获取包含整个所述多轮对话历史信息的隐藏向量；

将所述隐藏向量输入第一解码器，所述第一解码器的参数加载自所述VAE模型中的第二解码器参数，获取回复句子序列。

优选的，所述VAE模型包括编码器和第二解码器，该模型构建过程具体包括：

获取并预处理多组完整多轮对话历史信息，得到每组完整多轮对话历史信息中的真实回复句子序列，构建训练向量集；

将每一条所述真实回复句子序列输入所述编码器中，获取编码后的真实回复句子序列向量；

根据所述真实回复句子序列向量，采用线性层采样获取加入噪音的中间向量；

将所述加入噪音的中间向量输入第二解码器，进行无监督逐层训练，获取所述第二解码器参数，完成构建所述预先训练的VAE模型。

优选的，所述VAE模型构建过程选择第一损失函数：

L_VAE＝L_{reconstruction}+λ_vaeL_kl (1)

其中，L_VAE表示第一损失函数；λ_vae为超参数；L_{reconstruction}表示重构损失函数，所述重构损失函数采用第一交叉熵损失函数：

L_{reconstruction}＝CrossEntropy₁(y，y′) (2)

y表示真实回复句子序列中的字符；y′表示通过所述VAE模型获取的回复句子序列中的字符；

L_kl表示kl损失函数：

L_KL＝μ²+σ²-log(σ²) (3)

μ表示所述线性层中第一神经网络拟合参数σ表示所述线性层中第二神经网络拟合参数。

优选的，所述多任务学习模型构建过程中选择损失函数：

L＝λ₁L_Dialog+λ₂L_VAE+λ₃L_Laten (4)

其中，L表示多任务学习共同训练的损失函数；λ₁、λ₂、λ₃均表示超参数；L_Dialog表示所述多轮对话模型构建过程中选择的第二损失函数，所述第二损失函数采用第二交叉熵损失函数：

表示通过所述多轮对话模型获取的回复句子序列中的字符；

L_Laten＝D(Z，C_s) (6)

L_Laten表示将所述加入噪音的中间向量Z与每组完整多轮对话历史信息对应的隐藏向量C_s，在语义空间上约束两者逼近的第三损失函数；D表示距离函数。

优选的，所述话语级编码器采用RNN模型；

优选的，话语间编码器采用RNN模型

优选的，第一解码器采用带注意力机制的RNN模型。

优选的，所述预处理包括数据清洗和对所述多轮对话历史信息进行词嵌入。

一种基于多任务学习的回复多样性多轮对话生成系统，该系统首先构建多任务学习模型，所述多任务学习模型包括预先训练的多轮对话模型和VAE模型，所述多轮对话模型包括话语级编码器、话语间编码器和第一解码器；包括：

原始信息预处理模块，用于获取并预处理多轮对话历史信息；

第一向量获取模块，用于将预处理后的多轮对话历史信息中的每个句子序列向量输入所述话语级编码器，获取所述多轮对话历史信息对应的话语级编码向量；

第二向量获取模块，用于将所述话语级编码向量输入所述话语间编码器，获取包含整个所述多轮对话历史信息的隐藏向量；

回复句子序列获取模块，用于将所述隐藏向量输入第一解码器，所述第一解码器的参数加载自所述VAE模型中的第二解码器参数，获取回复句子序列。

一种存储介质，其存储有用于基于多任务学习的回复多样性多轮对话生成的计算机程序，其中，所述计算机程序使得计算机执行如上所述的回复多样性多轮对话生成方法。

一种电子设备，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行如上所述的回复多样性多轮对话生成方法。

(三)有益效果

本发明提供了一种基于多任务学习的回复多样性多轮对话生成方法、系统、存储介质和电子设备。与现有技术相比，具备以下有益效果：

本发明首先构建多任务学习模型，所述多任务学习模型包括预先训练的多轮对话模型和VAE模型，所述多轮对话模型包括话语级编码器、话语间编码器和第一解码器；将预处理后的多轮对话历史信息中的每个句子序列向量依次输入所述话语级编码器和话语间编码器，获取包含整个所述多轮对话历史信息的隐藏向量；将所述隐藏向量输入第一解码器，所述第一解码器的参数加载自所述VAE模型中的第二解码器参数，获取回复句子序列。将VAE模型解码器参数与多轮对话生成模型共享，增强了多轮对话生成模型里解码器的解码能力，提高了生成回复的文本质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于多任务学习的回复多样性多轮对话生成方法的流程示意图；

图2为本发明实施例提供的一种VAE模型的结构框架图；

图3为本发明实施例提供的一种基于多任务学习的回复多样性多轮对话生成系统的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种基于多任务学习的回复多样性多轮对话生成方法、系统、存储介质和电子设备，解决了现有多轮对话生成中生成的回复文本质量低的技术问题，保证了回复文本的准确性和多样性。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

本发明实施例首先构建多任务学习模型，所述多任务学习模型包括预先训练的多轮对话模型和VAE模型，所述多轮对话模型包括话语级编码器、话语间编码器和第一解码器；将预处理后的多轮对话历史信息中的每个句子序列向量依次输入所述话语级编码器和话语间编码器，获取包含整个所述多轮对话历史信息的隐藏向量；将所述隐藏向量输入第一解码器，所述第一解码器的参数加载自所述VAE模型中的第二解码器参数，获取回复句子序列。将VAE模型解码器参数与多轮对话生成模型共享，增强了多轮对话生成模型里解码器的解码能力，提高了生成回复的文本质量。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

实施例1：

第一方面，如图1所示，本发明实施例提供了一种基于多任务学习的回复多样性多轮对话生成方法，该方法首先构建多任务学习模型，所述多任务学习模型包括预先训练的多轮对话模型和VAE模型，所述多轮对话模型包括话语级编码器、话语间编码器和第一解码器；包括：

获取并预处理多轮对话历史信息；

本发明实施例将VAE模型解码器参数与多轮对话生成模型共享，增强了多轮对话生成模型里解码器的解码能力，提高了生成回复的文本质量。

下面将结合具体内容对方案的各步骤进行介绍：

需要理解的是，开放领域的多轮对话生成方案，首先将其形式化描述为：在历史对话信息背景下，将完整的对话历史作为模型输入，输出回复语句，也可称为响应或回答。

S1、获取并预处理多轮对话历史信息。

所述多轮对话历史信息可表示为U＝(u₁,...,u_i,...,u_s)，u_i是对话中第i个句子，u_s是对话中最后一个句子，即当前的询问语句；每个句子序列向量表示为：

其中w_j,k是第j个句子里的第k个字符。

所述预处理包括数据清洗：

1)构建停用词词典，删除掉语料中的停用词。将多轮对话历史信息语料中全部英文字母更改为小写。

2)删除多轮对话历史信息中对话轮次小于2的对话语料

对所述多轮对话历史信息进行词嵌入。采用glove模型获取所述多轮对话历史信息中每个词语的词向量。具体地，使用e(x)表示对字符x进行词嵌入。

如图2所示，所述VAE模型，即变分自编码器模型包括编码器和第二解码器，该模型构建过程具体包括：

S100、获取并预处理多组完整多轮对话历史信息，得到每组完整多轮对话历史信息中的真实回复句子序列，构建训练向量集。

所述多组完整多轮对话历史信息数据集与上述多轮对话历史信息相比，包括当前回复的内容，可表示为：

对于每轮对话，(U，Y)包含一个回复句子，即真实回复句子序列Y＝(y₁，...，y_T)和对话历史U＝(u₁，...，u_s)，其中，y_j是当前回复句子中第j个字符，u_i是对话中第i个句子，u_s是对话中最后一个句子，即当前的询问语句，U＝(u₁，...，u_s-1)是对话中之前的对话句子。对于多轮对话，设置s≥2，即对话中包含至少两个句子(即满足多轮的要求)；

其中w_j，k是对话历史中第j个句子里的第k个字符。

例如，对话历史U＝((明天天气晴朗，我们组织大家春游吧)，(好呀，可以放松一下心情)，(我去超市买些春游要用的东西))，当前回复Y＝(那我在家做几个三明治)。其中，每个词语之间用空格隔开。

将所述真实回复句子序列Y＝(y₁，...，y_T)经过词嵌入，获取e(Y)＝(e(y₁)，...，e(y_t)，...，e(y_T))。

S200、将每一条所述真实回复句子序列e(Y)输入所述编码器中，获取编码后的真实回复句子序列向量h_T。

所述VAE模型的编码器采用RNN模型，将e(Y)＝(e(y₁)，...，e(y_T))输入RNN模型，获取RNN模型的隐藏状态：

h_t＝f₁(h_t-1，e(y_t)) (1)

其中，f₁表示RNN模型，具体地，采用的RNN模型为了避免出现梯度爆炸的问题，可以采用RNN模型中的LSTM模型。h_t表示在时间步t时的隐藏状态，将最后时间步T的隐藏状态h_T当作句子的特征向量表示。

S300、根据所述真实回复句子序列向量h_T，采用线性层采样获取加入噪音的中间向量Z。

构建第一神经网络拟合参数：

其中

表示第一线性函数。

构建第二神经网络拟合参数：

其中

表示第二线性函数，注意这与所述第一线性函数，参数互不共享。

根据拟合的参数u和σ²采样获得包含回复句子信息的加入噪音的中间向量

Z＝μ+h_T×σ (2)

S400、将所述加入噪音的中间向量Z输入第二解码器，进行无监督逐层训练，获取所述第二解码器参数，完成构建所述预先训练的VAE模型。

所述VAE模型构建过程选择第一损失函数：

L_VAE＝L_{reconstruction}+λ_vaeL_kl (3)

L_{reconstruction}＝CrossEntropy₁(y，y′) (4)

L_kl表示kl损失函数：

L_KL＝μ²+σ²-log(σ²) (5)

μ表示所述线性层中第一神经网络拟合参数；σ表示所述线性层中第二神经网络拟合参数。

S2、将预处理后的多轮对话历史信息中的每个句子序列向量u_i输入所述话语级编码器，获取所述多轮对话历史信息对应的话语级编码向量H。

将所述每个句子序列向量

中每一个字符经过词嵌入，获取e(w_i，t)。所述话语级编码器采用RNN模型，将e(w_i，t)输入RNN模型，获取RNN模型的隐藏状态：

h′_t＝f₂(h_t-1，e(w_i，t)) (6)

f₂表示RNN模型，具体地，采用的RNN模型为了避免出现梯度爆炸的问题，可以采用RNN模型中的LSTM模型；h′_t表示在时间步t时的隐藏状态，将最后时步T的隐藏状态当作句子的特征向量表示h_i；最终获取所述多轮对话历史信息对应的话语级编码向量H＝(h₁，...，h_i，...，h_s)。

S3、将所述话语级编码向量H输入所述话语间编码器，获取包含整个所述多轮对话历史信息的隐藏向量C_s。

所述话语间编码器采用RNN模型，将所述话语级编码向量H输入RNN模型中，在每个时间步t，模型的公式表示如下：C_t＝f(C_t-1，h_t)，在最后时间步s获取C_s。

具体地，采用RNN模型为了避免出现梯度爆炸的问题，可以采用RNN模型中的LSTM模型

S4、将所述隐藏向量C_s输入第一解码器，所述第一解码器的参数加载自所述VAE模型中的第二解码器参数(随机初始化对话模型其余参数)，获取回复句子序列。

所述第一解码器采用带注意力机制的RNN模型，且其模型参数加载自所述VAE模型中的第二解码器参数，在前述步骤对VAE模型的预训练操作基础上，增强了多轮对话生成模型里解码器的解码能力。

本步骤首先计算每个句子序列向量u_i的注意力权重：

e_i，t＝V^Ttanh(Wh_i+Us_t-1) (7)

其中，V、W和U均为注意力机制的参数，上标T代表对V的转置；tanh表示激活函数；s_t-1为t-1时步解码器的隐藏状态。

计算出的权重进行归一化，获取归一化后的权重：

根据计算得到的归一化后的权重α_i，t对每个句子的隐藏状态向量hi进行加权和计算，获取采用注意力机制后的对话历史的向量表示：

c_t＝∑_iα_i，th_i (9)

在解码阶段，解码器根据概率公式(10)，选择使得概率p最大的输出字符

作为解码结果，并最终获取回复句子序列

其中，

表示时步t通过解码器获取的回复句子序列中的字符。

特别的，所述多任务学习模型构建过程中选择损失函数：

L＝λ₁L_Dialog+λ₂L_VAE+λ₃L_Laten (11)

表示通过所述多轮对话模型获取的回复句子序列中的字符；

L_Laten＝D(Z,C_s) (13)

由上述可知，本发明实施例提出将所述加入噪音的中间向量Z与每组完整多轮对话历史信息对应的隐藏向量C_s，在语义空间上约束两者逼近。在多任务训练过程中，控制多轮对话模型在经过话语级编码器和话语间编码器编码后，包含整个对话历史信息的向量在语意空间上与VAE模型对回复进行自编码获取的隐藏向量接近，从而保证对话历史信息向量既包含回复中包含的信息(提高编码器的编码能力)，又包含额外的采样信息(提高回复生成的多样性)。

第二方面，如图3所示，本发明实施例提供了一种基于多任务学习的回复多样性多轮对话生成系统，该系统首先构建多任务学习模型，所述多任务学习模型包括预先训练的多轮对话模型和VAE模型，所述多轮对话模型包括话语级编码器、话语间编码器和第一解码器；包括：

可理解的是，本发明提供的基于多任务学习的回复多样性多轮对话生成系统与本发明提供的基于多任务学习的回复多样性多轮对话生成方法相对应，其有关内容的解释、举例和有益效果等部分可以参考回复多样性多轮对话生成方法中的相应部分，此处不再赘述。

第三方面，本发明实施例提供了一种存储介质于，其存储有用于基于多任务学习的回复多样性多轮对话生成的计算机程序，其中，所述计算机程序使得计算机执行如上所述的回复多样性多轮对话生成方法。

第四方面，本发明实施例提供了一种电子设备，包括：

一个或多个处理器；

存储器；以及

综上所述，与现有技术相比，具备以下有益效果：

1、本发明实施例首先构建多任务学习模型，所述多任务学习模型包括预先训练的多轮对话模型和VAE模型，所述多轮对话模型包括话语级编码器、话语间编码器和第一解码器；将预处理后的多轮对话历史信息中的每个句子序列向量依次输入所述话语级编码器和话语间编码器，获取包含整个所述多轮对话历史信息的隐藏向量；将所述隐藏向量输入第一解码器，所述第一解码器的参数加载自所述VAE模型中的第二解码器参数，获取回复句子序列。将VAE模型解码器参数与多轮对话生成模型共享，增强了多轮对话生成模型里解码器的解码能力，提高了生成回复的文本质量。

2、本发明实施例提出将所述加入噪音的中间向量Z与每组完整多轮对话历史信息对应的隐藏向量C_s，在语义空间上约束两者逼近。在多任务训练过程中，控制多轮对话模型在经过话语级编码器和话语间编码器编码后，包含整个对话历史信息的向量在语意空间上与VAE模型对回复进行自编码获取的隐藏向量接近，从而保证对话历史信息向量既包含回复中包含的信息(提高编码器的编码能力)，又包含额外的采样信息(提高回复生成的多样性)。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于多任务学习的回复多样性多轮对话生成方法，其特征在于，该方法首先构建多任务学习模型，所述多任务学习模型包括预先训练的多轮对话模型和VAE模型，所述多轮对话模型包括话语级编码器、话语间编码器和第一解码器；包括：

获取并预处理多轮对话历史信息；

2.如权利要求1所述的回复多样性多轮对话生成方法，其特征在于，所述VAE模型包括编码器和第二解码器，该模型构建过程具体包括：

3.如权利要求2所述的回复多样性多轮对话生成方法，其特征在于，所述VAE模型构建过程选择第一损失函数：

L_VAE＝L_{reconstruction}+λ_vaeL_kl (1)

L_{reconstruction}＝CrossEntropy₁(y，y′) (2)

L_kl表示kl损失函数：

L_KL＝μ²+σ²-log(σ²) (3)

4.如权利要求3所述的回复多样性多轮对话生成方法，其特征在于，所述多任务学习模型构建过程中选择损失函数：

L＝λ₁L_Dialog+λ₂L_VAE+λ₃L_Laten (4)

表示通过所述多轮对话模型获取的回复句子序列中的字符；

L_Laten＝D(Z，C_s) (6)

5.如权利要求1～4任一项所述的回复多样性多轮对话生成方法，其特征在于，所述话语级编码器采用RNN模型；

和/或话语间编码器采用RNN模型；

和/或第一解码器采用带注意力机制的RNN模型。

6.如权利要求1～4任一项所述的回复多样性多轮对话生成方法，其特征在于，所述预处理包括数据清洗和对所述多轮对话历史信息进行词嵌入。

7.一种基于多任务学习的回复多样性多轮对话生成系统，其特征在于，该系统首先构建多任务学习模型，所述多任务学习模型包括预先训练的多轮对话模型和VAE模型，所述多轮对话模型包括话语级编码器、话语间编码器和第一解码器；包括：

8.一种存储介质，其特征在于，其存储有用于基于多任务学习的回复多样性多轮对话生成的计算机程序，其中，所述计算机程序使得计算机执行如权利要求1～6任一项所述的回复多样性多轮对话生成方法。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行如权利要求1～6任一项所述的回复多样性多轮对话生成方法。