CN114357976A

CN114357976A - 基于信息增强的多轮对话生成方法和系统

Info

Publication number: CN114357976A
Application number: CN202210032590.0A
Authority: CN
Inventors: 孙晓; 王佳敏; 陈倩; 汪萌
Original assignee: Hefei University of Technology; Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Current assignee: Hefei University of Technology; Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority date: 2022-01-12
Filing date: 2022-01-12
Publication date: 2022-04-15

Abstract

本发明提供一种基于信息增强的多轮对话生成方法和系统，涉及多轮对话生成技术领域。本发明通过预先构建的多轮对话模型生成回复，所述多轮对话模型包括多维单词级别编码器、话语级别编码器和解码器，生成回复的过程包括：获取多轮对话历史信息，并对所述多轮对话历史信息进行预处理；预处理后的多轮对话历史信息经过基于多信息嵌入机制的多维单词级别编码器，得到句向量；将所述句向量输入到话语级别编码器，得到话语级编码向量；对所述话语级编码向量通过解码器进行解码，生成回复。本发明通过多信息嵌入机制，全面的捕捉上下文信息，生成更相关的上下文信息生成回复。

Description

基于信息增强的多轮对话生成方法和系统

技术领域

本发明涉及多轮对话生成技术领域，具体涉及一种基于信息增强的多轮对话生成方法、系统、存储介质和电子设备。

背景技术

现有的多轮对话生成方法大多基于层次序列到序列模型框架实现，具体可以归纳为基于RNN的层次模型，和基于Transformer的层次模型。基于RNN的层次模型通常通过注意力机制或者相似度来筛选上下文信息，但是RNN存在位置偏差问题，通常更关注近距离的上下文，无法更好地学习对话中上下文信息之间长期依赖关系，生成的对话缺乏连贯性。基于Transformer的层次模型，由于多头注意力机制的引入可以很好地捕捉对话中上下文信息的长期依赖信息。但是研究表明，Transformer结构它不能高效地捕捉序列中局部结构，且过度依赖于位置嵌入机制，会忽略语句中包含的局部信息。

通过上述描述可知，现有的多轮对话生成方法不能全面的捕捉上下文信息，导致生成的回复连贯性较差。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于信息增强的多轮对话生成方法、系统、存储介质和电子设备，解决了现有的多轮对话生成方法不能全面的捕捉上下文信息的技术问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

第一方面，本发明提供一种基于信息增强的多轮对话生成方法，所述方法通过预先构建的多轮对话模型生成回复，所述多轮对话模型包括多维单词级别编码器、话语级别编码器和解码器，生成回复的过程包括：

S1、获取多轮对话历史信息，并对所述多轮对话历史信息进行预处理；

S2、预处理后的多轮对话历史信息经过基于多信息嵌入机制的多维单词级别编码器，得到句向量；

S3、将所述句向量输入到话语级别编码器，得到话语级编码向量；

S4、对所述话语级编码向量通过解码器进行解码，生成回复。

优选的，所述多维单词级别编码器包括：

多维单词级别编码器包括多头注意力机制和前向反馈网络。

优选的，所述多信息嵌入机制包括多信息嵌入机制包含句法特征嵌入和局部特征嵌入。

优选的，所述句法特征嵌入包括：

将单词序列经过StanfordNlp提供的依存句法分析后，组织成包含句法信息的依存句法链表

由一个参数共享的循环神经网络独立且相同地处理，选择最后隐藏状态作为依存句法序列的特征向量，公式如下：

其中，x_i,m是第i个句子里第m个单词，listx_i,m为单词x_i,m的依存句法序列，x_i,j是第i个句子里第j个单词，listx_i,j为单词x_i,j的依存句法序列。

优选的，所述局部特征嵌入包括：

设定局部特征嵌入的窗口大小为M；

将原始的句子序列处理为大量的包含局部位置信息的短序列，短序列通过另一个参数共享的循环神经网络编码每个单词的局部依赖关系，生成M个隐藏状态表示，选择最后的隐藏状态作为局部序列的特征表示，公式如下：

优选的，所述S3具体包括：

经过单词级别编码器编码得到对话历史的多个句向量，多个句向量组成向量序列

对句向量进行位置嵌入得到如下：

其中：t指的是对话历史的向量序列中第t个句向量，取值范围是[0,n)，d_model指的是句向量的维度，i指的是句向量的维度序号，取值范围是

将对话历史包含的全部句向量都进行位置嵌入，位置嵌入表示用P^utt表示；

将句向量和对应的位置嵌入相加后依次输入多头注意力机制和前向反馈网络去更新上下文表示，得到话语级编码向量，公式如下：

H^con＝FNN(MultiHead(H^utt+P^utt,H^utt+P^utt,H^utt+P^utt))。

优选的，所述预先构建的多轮对话模型在训练过程中通过最小化生成回复与参考回复之间的负极大似然概率进行学习，

其中：Y为生成回复，C为参考回复。

第二方面，本发明提供一种基于信息增强的多轮对话生成系统，所述系统通过预先构建的多轮对话模型生成回复，所述多轮对话模型包括多维单词级别编码器、话语级别编码器和解码器，所述系统包括：

获取模块，用于获取多轮对话历史信息，并对所述多轮对话历史信息进行预处理；

单词级别编码模块，用于预处理后的多轮对话历史信息经过基于多信息嵌入机制的多维单词级别编码器，得到句向量；

话语级别编码模块，用于将所述句向量输入到话语级别编码器，得到话语级编码向量；

解码模块，用于对所述话语级编码向量通过解码器进行解码，生成回复。

第三方面，本发明提供一种计算机可读存储介质，其特征在于，其存储用于基于信息增强的多轮对话生成的计算机程序，其中，所述计算机程序使得计算机执行如上述所述的基于信息增强的多轮对话生成方法。

第四方面，本发明提供一种电子设备，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行如上述所述的基于信息增强的多轮对话生成方法。

(三)有益效果

本发明提供了一种基于信息增强的多轮对话生成方法、系统、存储介质和电子设备。与现有技术相比，具备以下有益效果：

本发明通过预先构建的多轮对话模型生成回复，所述多轮对话模型包括多维单词级别编码器、话语级别编码器和解码器，生成回复的过程包括：获取多轮对话历史信息，并对所述多轮对话历史信息进行预处理；预处理后的多轮对话历史信息经过基于多信息嵌入机制的多维单词级别编码器，得到句向量；将所述句向量输入到话语级别编码器，得到话语级编码向量；对所述话语级编码向量通过解码器进行解码，生成回复。本发明通过多信息嵌入机制，全面的捕捉上下文信息，生成更相关的上下文信息生成回复。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一种基于信息增强的多轮对话生成方法的框图；

图2为本发明实施例中单词级别编码器的架构；

图3为本发明实施例中句法特征嵌入的示意图；

图4为本发明实施例中局部信息嵌入的示意图；

图5为本发明实施例中话语级别编码器的架构；

图6为本发明实施例中解码器的架构。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种基于信息增强的多轮对话生成方法和系统，解决了现有的多轮对话生成方法不能全面的捕捉上下文信息的技术问题，实现有效地捕捉到序列中的局部信息和全局的长期依赖关系，生成更相关的上下文信息生成回复。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

本发明实施例提出一种新的多信息嵌入机制，构建信息增强层次自注意力网络，用于多轮对话生成系统。多信息嵌入机制包括句法信息嵌入和局部信息嵌入。对与句子进行依存句法分析，基于邻接表思想为每个位置单词构建一个句法信息链表，经过循环神经网络编码获取句法信息嵌入。句中每个单词从其所在位置开始按窗口大小截取一定长度的单词构成短序列，经过循环神经网络编码获取局部信息嵌入。将句法信息嵌入和局部信息嵌入融合得到多信息嵌入。在单词级编码器上，将经过多信息嵌入的单词送入Transformer编码器结构去更新单词表示，经过循环神经网络编码得到话语表示；基于Transformer编码器结构构建话语级编码器，更新得到上下文表示；最后，送入基于Transformer解码器结构构建的解码器。通过多信息嵌入机制，全面的捕捉上下文信息，生成更相关的上下文信息生成回复。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

本发明实施例提供一种基于信息增强的多轮对话生成方法，该方法通过预先构建的多轮对话模型生成回复，该模型包括多维单词级别编码器、话语级别编码器和解码器，生成回复的过程包括S1～S4，如图1所示：

S4、对所述话语级编码向量进行解码，生成回复。

本发明实施例通过多信息嵌入机制，全面的捕捉上下文信息，生成更相关的上下文信息生成回复。

下面对各个步骤进行详细说明：

需要说明的是，在本发明实施例中的多轮对话为开放领域的，其定义为：在历史对话信息背景下，将无领域限制的话语作为模型输入，输出回复语句。

多轮对话历史包含大于两轮的对话，多轮对话模型输入为对话历史，包括n个句子

每个句子定义为

其中x_i,m是第i个句子里第m个单词，是第i个句子的长度，并且n＞2。根据输入的对话历史，生成回复Y＝{y₁,y₂,…,y_|Y|}，其中y_i为生成回复的第i个单词，生成回复的长度为|Y|。

本发明实施例中的多轮对话模型预先构建训练，该模型主要包括：多维单词级别编码器、话语级别编码器和解码器。

在步骤S1中，获取多轮对话历史信息，并对所述多轮对话历史信息进行预处理。具体实施过程如下：

对多轮对话历史信息进行预处理，预处理主要包括：

构建停用词词典，删除掉语料中的停用词。

将语料中全部英文字母更改为小写。删除对话轮次小于2的对话语料。

筛选出词频大于2的单词，构建词典。

预处理后的多轮对话历史信息包括n个句子的句子序列

每个句子定义为单词序列

其中x_i,m是第i个句子里第m个单词，是第i个句子的长度，并且n＞2，|X_i|代表第i个句子的长度。

在步骤S2中，预处理后的多轮对话历史信息经过基于多信息嵌入机制的多维单词级别编码器，得到句向量。具体实施过程如下：

在本发明实施例中，如图2所示，多维单词级别编码器结构由两个子层组成：多头注意力机制和前向反馈网络。同时，在多头注意力机制之前，添加了多信息嵌入机制来进行信息增强。多信息嵌入机制包含句法特征嵌入和局部特征嵌入。

如图3所示，句法特征嵌入包括：

由一个参数共享的循环神经网络(命名为ParsingRNN)独立且相同地处理，选择最后隐藏状态作为依存句法序列的特征向量。

其中，listx_i,m为单词x_i,m的依存句法序列，利用StanfordNlp工具包对句子进行依赖关系解析(dependency_parse)，获取元素为三元组的列表。三元组包含三个属性，即依存关系类型、从属词在句子中的索引位置、支配词在句子中的索引位置。三元组列表的数量为整个句子中单词数量，即它为句子中的每个单词都分析了依存关系，每个单词都给出了(依存关系类型、从属词在句子中的索引位置、支配词在句子中的索引位置)。基于三元组列表来构建“句法信息的依存句法链表”。具体地，每个支配词可能会有多个从属词，对于句子中的某个单词x_i,n，它的多个从属词组成了listx_i,n。对于没有从属词的，补充填充词<Pad>，作为它的依存句法序列。

使用参数共享的ParsingRNN对第i个句子中第j个单词建模句法信息表示

公式如下：

在句法特征嵌入的同时，进行局部信息嵌入，如图4所示。以窗口大小M＝3为例。

将原始的长序列(句子序列)处理为大量的包含局部位置信息的短序列，短序列通过另一个参数共享的循环神经网络(命名为LocalRNN)编码每个单词的局部依赖关系，生成M个隐藏状态表示，选择最后的隐藏状态作为局部序列的特征表示。也即，局部时序特征提取模块为每个单词构建一个大小为M的局部窗口，该窗口包含M个连续的位置，并在单词位置结束。

使用参数共享的LocalRNN对第i个句子中第j个单词建模局部位置特征表示

公式如下：

将局部位置特征表示

和句法信息特征表示

进行拼接，获取同时包含局部位置和依存句法信息的特征表示，公式如下：

其中：

表示每个位置的依存向量表示和局部依赖向量表示在维度上进行拼接。

句子中的每个词符经过多维特征嵌入后获得同时包含句法信息和局部信息的特征表示，

依次输入多头注意力机制和前向反馈网络，获取更新后的词符特征表示:

将输出送入循环神经网络编码获取初始的每个上下文的句向量：

要注意的是，每一子层后都进行了残差连接和归一化处理，即LayerNorm(x+Sublayer(x))，其中Sublayer(x)是子层本身实现的函数，x是子层的输入。

在步骤S3中，将所述句向量输入到话语级别编码器，得到话语级编码向量。具体实施过程如下：

在本发明实施例中，话语级别编码器如图5所示。

对句向量进行位置嵌入得到如下：

将对话历史包含的全部句向量都进行位置嵌入，位置嵌入表示用P^utt表示。

H^con＝FNN(MultiHead(H^utt+P^utt,H^utt+P^utt,H^utt+P^utt))。

在步骤S4中，对所述话语级编码向量进行解码，生成回复。具体实施过程如下：

如图6所示，解码器使用Transformer中的单层decoder结构，根据用话语级别编码器输出的话语级编码向量，生成预测单词序列(即生成回复)。给定参考回复Y＝{y₁,y₂,…,y_|Y|}，将原始词嵌入与位置嵌入之和定义为词符y_i的分布表示e(y_i)。

e(y_i)＝embed(y_i)+PE(y_i)

其中，embed(·)代表代表随机词嵌入函数，PE(·)代表位置嵌入函数同上述话语级别编码器中的位置嵌入。

需要说明的是，本发明实施例中的多轮对话模型在训练阶段，对回复采用掩码操作，屏蔽掉解码器中未来的单词。在推理阶段，在生成的回复上使用循环函数。之后，依次送入跨越注意力机制和前向反馈网络中。跨越多头注意力机制和自注意力机制的区别在于，跨越注意力机制的键K和查询Q可以不同。将上下文向量作为键K和值V,将回复作为查询Q，送入跨越多头注意力机制中，去获取与回复相关的上下文信息：

H^dec＝MultiHead(e(Y),e(Y),e(Y))

Y′＝FNN(MultiHead(H^dec,H^con,H^con))

其中：e(.)代表句子中词符的分布表示，H^dec代表根据回复生成的回复编码向量，H^con代表话语级编码器中生成的话语级编码向量。

在本发明实施例中，多头注意机制使模型能够同时关注不同位置的不同表示子空间中的信息，并有效地检索输入序列中的依赖项。它将模型分为多头，从而形成表示子空间。多个头允许它捕获信息的不同方面，可以并行地训练多个值向量，再将它们拼接在一起。给定输入查询Q，键K，值V。这可以形式化为:

MultiHead(Q,K,V)＝Concat(head₁,…,head_h)W^O

where head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)

其中：

和

都是可训练的参数,d_k和d_v分别是键K和值V的维度。

将输出馈送到前向反馈网络，前向反馈网络由两个线性变换组成，中间有一个ReLU函数作为激活函数。

FFN(x)＝max(0,xW₁+b₁)W₂+b₂

其中，W₁，b₁，W₂和b₂都是可训练的参数。

最后，送入softmax层去获取在生成过程中单词的概率，采样概率最大的单词作为当前生成的单词。

P(y_i∣C,y₁,...,y_i-1；θ)＝softmax(W_oY′)

其中：W_o为可学习的参数，θ代表模型中全部可训练的参数。

在训练过程中通过最小化生成回复与参考回复之间的负极大似然概率进行学习。

本发明实施例还提供一种基于信息增强的多轮对话生成系统，所述系统通过预先构建的多轮对话模型生成回复，所述多轮对话模型包括多维单词级别编码器、话语级别编码器和解码器，所述系统包括：

理解的是，本发明实施例提供的基于信息增强的多轮对话生成系统与上述基于信息增强的多轮对话生成方法相对应，其有关内容的解释、举例、有益效果等部分可以参考基于信息增强的多轮对话生成方法中的相应内容，此处不再赘述。

本发明实施例提供一种计算机可读存储介质，其存储用于基于信息增强的多轮对话生成的计算机程序，其中，所述计算机程序使得计算机执行如上述所述的基于信息增强的多轮对话生成方法。

本发明实施例一种电子设备，包括：

一个或多个处理器；

存储器；以及

综上所述，与现有技术相比，具备以下有益效果：

本发明实施例通过多信息嵌入机制，全面的捕捉上下文信息，生成更相关的上下文信息生成回复。具体提出在单词级别进行句法和局部区域信息增强，综合考虑了句子中局部的句法信息和结构信息。通过依存句法可以对语句进行有效分析，能有效提高自然语言处理任务的性能。通过为支配词捕捉从属词，可以有效的捕捉单词的句法信息，经过循环神经网络编码得到包含句法信息的词嵌入。通过移动窗口捕捉的局部序列，能很好的弥补原始Transformer机制中位置嵌入的不足。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于信息增强的多轮对话生成方法，其特征在于，所述方法通过预先构建的多轮对话模型生成回复，所述多轮对话模型包括多维单词级别编码器、话语级别编码器和解码器，生成回复的过程包括：

2.如权利要求1所述的基于信息增强的多轮对话生成方法，其特征在于，所述多维单词级别编码器包括：

多维单词级别编码器包括多头注意力机制和前向反馈网络。

3.如权利要求1所述的基于信息增强的多轮对话生成方法，其特征在于，所述多信息嵌入机制包括多信息嵌入机制包含句法特征嵌入和局部特征嵌入。

4.如权利要求3所述的基于信息增强的多轮对话生成方法，其特征在于，所述句法特征嵌入包括：

5.如权利要求3所述的基于信息增强的多轮对话生成方法，其特征在于，所述局部特征嵌入包括：

设定局部特征嵌入的窗口大小为M；

6.如权利要求1～5任一所述的基于信息增强的多轮对话生成方法，其特征在于，所述S3具体包括：

对句向量进行位置嵌入得到如下：

H^con＝FNN(MultiHead(H^utt+P^utt,H^utt+P^utt,H^utt+P^utt))。

7.如权利要求1～5任一所述的基于信息增强的多轮对话生成方法，其特征在于，所述预先构建的多轮对话模型在训练过程中通过最小化生成回复与参考回复之间的负极大似然概率进行学习，

其中：Y为生成回复，C为参考回复。

8.一种基于信息增强的多轮对话生成系统，其特征在于，所述系统通过预先构建的多轮对话模型生成回复，所述多轮对话模型包括多维单词级别编码器、话语级别编码器和解码器，所述系统包括：

9.一种计算机可读存储介质，其特征在于，其存储用于基于信息增强的多轮对话生成的计算机程序，其中，所述计算机程序使得计算机执行如权利要求1～7任一项所述的基于信息增强的多轮对话生成方法。

10.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行如权利要求1～7任一项所述的基于信息增强的多轮对话生成方法。