CN113505208B

CN113505208B - 一种融合多路注意力机制的智能对话系统

Info

Publication number: CN113505208B
Application number: CN202110776034.XA
Authority: CN
Inventors: 廖祥文; 陈甘霖; 蔡鸿杰; 林建洲; 杨思源
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2021-07-09
Filing date: 2021-07-09
Publication date: 2024-02-02
Anticipated expiration: 2041-07-09
Also published as: CN113505208A

Abstract

本发明涉及一种融合多路注意力机制的智能对话系统，包括依次连接的编码器模块、多路注意力模块、动态融合模块、外部知识模块和解码器模块；所述编码器模块，用于针对历史上下文进行多领域的编码；所述多路注意力模块，用于提取上下文单词之间的注意力关系；所述动态融合模块，用于融合编码器和注意力的编码结果；所述外部知识模块，用于辅助生成特定领域知识的句子内容；所述解码器模块，用于生成具体的句子内容。本发明能够通过对话的历史上下文信息，抽取不同领域细粒度和句子细粒度的编码信息，并利用记忆网络从外部知识库中抽取有用的外部知识信息，最终将二者信息融合生成具体的句子，提高对话智能化。

Description

一种融合多路注意力机制的智能对话系统

技术领域

本发明涉及任务型对话系统领域，具体涉及一种融合多路注意力机制的智能对话系统。

背景技术

人机交互技术的发展已经到了一定阶段，许多基于人机交互实现的产品和技术都已在许多领域广泛应用。

目前人机交互在多通道多媒体的自然用户界面方面的研究发展较为迅猛。不同于传统的图形界面，多通道指通过触觉、听觉、视觉等人类五感以及手势、表情、眼神等这些信息最大程度收集用户的反馈，用户不再依靠机械的设备，而是通过肢体语言，面部表情与计算机交流，交互更为直接和自然。由于研究的进展，近年来，语音合成识别，触摸识别等通过听觉，触觉交互的方式也趋向成熟并得到广泛应用。也有将多通道技术应用于教育领域，通过自然用户界面提高学生沉浸感，并解决部分残疾学生的学习困难问题。但还面临着技术成本高，实现困难等问题。

虚拟现实和增强现实上的应用也是人机交互研究的热门。利用计算机分析改变人类的五感尤其是视觉和听觉，其在许多领域都有广泛应用。比如在工业领域将增强现实技术引入工业自动软件上，通过在理想位置投射相关信息，提高检测设备或流程的效率。但支持多人的交互方式还有待发展。

随着深度学习的进步，近年来人机对话领域的研究得到飞速发展，产生了许多智能语音系统和产品，尤其在封闭域任务型对话中较为明显，已经能够支持多轮对话。目前有应用于封闭域的方法是将计算机的对话循环生成，即自然语言理解，对话策略学习，自然语言生成，然后等待下一次输入，并将该输入联系上下文进行回答。广泛使用来解析用户发送信息的模型如seq2seq，并且结合注意力机制，在结合上下文方面得到了更好的效果。在深度学习，强化学习的发展下，产生了基于端到端的封闭域对话系统，其扩充了原始模型的状态空间，并帮助生成特定语料库之外的文本，具有很好的延展性。回答用户的对话通常需要外部数据库的支持，即需要从已建立的数据库中查询能作为机器回答的知识。利用知识图谱作为外部数据库的方式也被越来越多学者研究利用，引入知识图谱对提高对话系统性能，但是有效地将知识图谱和对话系统相结合的方法还需进一步发展。

开放域聊天性质的人机对话也有了显著提高，通过向量描述用户意图并结合上下文的方式使得计算机能更准确地理解用户，并产生较为自然的回复语句，使得交流更为顺畅。但是目前人机对话的稳定性在长期对话时会有所下降，其回复的语句会自相矛盾，缺乏上下文联系，进一步提高对话中上下文的联系，增强稳定性是目前的对话系统研究方向之一。而开放域的对话用户都带有一定的情感因素，不少文献都有依据人的认知，个性等心理学知识在计算机上加入情感建模，如通过大五人格理论，PAD情感空间等赋予模型情感个性特征。但目前计算机对话模型的情感相对单一不够丰富，无法被广泛使用，如何提高计算机模型的情感深度，使其对话带有理想的情感因素是开放域对话存在的问题之一。

发明内容

有鉴于此，本发明的目的在于提供一种融合多路注意力机制的智能对话系统，能够通过对话的历史上下文信息，抽取不同领域细粒度和句子细粒度的编码信息，并利用记忆网络从外部知识库中抽取有用的外部知识信息，最终将二者信息融合生成具体的句子。

为实现上述目的，本发明采用如下技术方案：

一种融合多路注意力机制的智能对话系统，包括依次连接的编码器模块、多路注意力模块、动态融合模块、外部知识模块和解码器模块；

所述编码器模块，用于针对历史上下文进行多领域的编码；

所述多路注意力模块，用于提取上下文单词之间的注意力关系；

所述动态融合模块，用于融合编码器和注意力的编码结果；

所述外部知识模块，用于辅助生成特定领域知识的句子内容；

所述解码器模块，用于生成具体的句子内容。

进一步的，所述编码器模块包括私有编码器和共享编码器。

进一步的，所述编码器模块从历史上下文中提取通用领域的编码信息，特定领域的编码信息以及领域与领域之间的编码信息，具体如下：

利用双向GRU对历史上下文进行编码，每个领域都有自己特有的专属的私有编码器，以及一个共享编码器，故在编码器模块的编码器总数为领域总数+1；

所述专属的私有编码器用于提取领域的特定知识，共享编码器用于提取领域之间的公有特征；

编码器公式如下：

hi＝BiGRU(e(x),h_i-1)

其中h_i是i时刻的隐含层向量，e(x)代表历史上下文单词x的词嵌入表示。最终生成全局上下文隐含层向量定义共享编码器生成的全局上下文隐含层表示为/>特定域的全局上下文隐含层向量为/>这里上标d_i代表领域i的编码。

进一步的，所述编码器在训练过程中引入一个对抗训练的方式，具体是：构建一个CNN的域分类器来识别对话历史和回复表示的共享表示域，通过引入梯度反转层，使得模型一方面最小化领域分类的误差，另一方面更新分类器底层网络最大化域分类损失。

进一步的，所述多路注意力模块融合多头注意力，双线性注意力以及拼接注意力机制，并在融合机制后追加一个注意力模块。

进一步的，所述多头自注意力公式如下：

对于多头自注意力而言，Q＝K＝V＝H，为当前编码的单词矩阵；d_k代表Q和K的维度；

拼接自注意力公式如下：

其中代表t时刻第j个单词的自注意力，/>代表t时刻单词i的权重，/>代表t时刻的拼接自注意力，/>和/>代表拼接注意力的权重矩阵，/>是权重向量，N是单词的总数；最终生成一个拼接自注意力表示H^concat；

双线性自注意力公式如下：

其中代表t时刻第j个单词的自注意力，/>代表t时刻单词i的权重，/>代表t时刻的双线性自注意力，W_bi双线性注意力的权重矩阵，N是单词的总数；最终生成一个双线性自注意力表示H^bi。

进一步的，所述在融合机制后追加一个注意力模块，具体为：利用GLU网络，公式如下：

其中，W₁、W₂是可训练矩阵，b₁、b₂是偏置，X是注意力的输入,即双向GRU编码的结果H^Att代表注意力的结果包括H^Att、H^bi和H^concat，δ是sigmoid激活函数，/>代表矩阵元素点乘，/>代表拼接。

进一步的，所述动态融合模块将多领域编码信息进行融合，从而生成兼具特异性和泛化性的对话上下文表示，具体如下：定义私有编码器的上下文编码向量为共享编码器的上下文编码向量为/>

融合多路注意力机制的全局上下文私有的编码信息通过以下公式将进行融合：

其中代表t时刻领域i的编码层隐含层状态，这里W、W₁、W₂是可训练的权重，b是偏置；a_t代表t时刻私有编码器的权重；

最终某个特定领域私有编码器的编码器结果和共享编码器的编码结果通过专家机制动态融合生成最终的结果/>

进一步的，所述外部知识模块，利用记忆网络将不同细粒度的编码信息对外部知识进行查询，从而提取有用的外部知识，具体如下：

外部知识模块的原型是一个记忆网络，定义可训练的权重矩阵C＝(C¹,C²,…,C^k ⁺¹)；初始时刻有这里h_T是/>最后一个时刻的隐含层向量；利用k次跳跃计算注意力权重，公式如下：

其中代表C^k+1矩阵在第i个记忆的嵌入位置；

定义全局上下文指针G＝(g₁,g₂,…,g_b+T)，这里的用于初步筛选对生成有用的知识；

整个记忆网络的流程可以看作是记忆的读出和写入的过程，公式如下：

是查询向量，视为外部知识库的编码结果，并且被用于初始化解码器；/>代表k次跳跃后记忆网络的读出内容；

最终外部知识的分布计算需要依托于解码器的隐含层状态，其公式如下：

其中，h_dec,t和h'_dec,t代表解码器隐含层状态以及经过注意力后的隐含层状态，h_dec,t是由多个共享解码器和私有解码器经过融合网络的解码结果，最终经过k次跳跃得到一个查询的外部知识概率分布。

进一步的，所述解码器模块采用了Sketch RNN作为解码器，包括若干专属的私有解码器以及一个共享编码器。

本发明与现有技术相比具有以下有益效果：本申请能够通过对话的历史上下文信息，抽取不同领域细粒度和句子细粒度的编码信息，并利用记忆网络从外部知识库中抽取有用的外部知识信息，最终将二者信息融合生成具体的句子。

附图说明

图1是本发明一实施例中的系统原理框图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

请参照图1，本发明提供一种融合多路注意力机制的智能对话系统，包括依次连接的编码器模块、多路注意力模块、动态融合模块、外部知识模块和解码器模块；

编码器模块，用于针对历史上下文进行多领域的编码；

多路注意力模块，用于提取上下文单词之间的注意力关系；

动态融合模块，用于融合编码器和注意力的编码结果；

外部知识模块，用于辅助生成特定领域知识的句子内容；

解码器模块，用于生成具体的句子内容。

在本实施例中，优选的，编码器模块首先利用双向GRU对历史上下文进行编码。每个领域都有自己特有的专属的私有编码器，以及一个共享编码器，故在编码器模块的编码器总数为领域总数+1。专属的私有编码器用于提取领域的特定知识，共享编码器用于提取领域之间的公有特征。因而在该编码器模型下，能够针对不同领域抽取领域层次的编码信息，也能够抓取领域之间的相关性，最终融合的编码信息不仅具有领域的特异性，同时也具备了跨领域的泛化性。编码器公式如下：

h_i＝BiGRU(e(x),h_i-1)

编码器在训练过程中需要引入一个对抗训练的方式，具体方法是构建一个CNN的域分类器来识别对话历史和回复表示的共享表示域，通过引入梯度反转层，使得模型一方面最小化领域分类的误差，另一方面更新分类器底层网络最大化域分类损失，使得模型对领域分类器不利，以此来鼓励共享编码器提取共享特征。

在本实施例中，优选的，引入了一个新型的多路注意力模块，该模块融合了多种的注意力机制，包括：多头注意力，双线性注意力以及拼接注意力。这里的双线性注意力和拼接注意力为线性注意力，以提取不同注意力下的特征粒度信息。

在多个注意力后，本文再次追加了一个注意力模块，即注意力上的注意力，用于解决查询和注意力输出不匹配的问题。这三种注意力分别从上一模块得到编码器信息抽取注意力信息，最后利用一个双向GRU网络将三种注意力融合，生成具有多路注意力特征的编码信息。特别地，为了更好地传递误差信息以及利用原始的网络特征，本文还使用了Highway网络，直接从初始的双向GRU网络提取特征，使得模型既能够获得句子中多路注意力下的高级语义特征，又能够不丢失低级的语义特征。

多头自注意力公式如下：

对于多头自注意力而言，Q＝K＝V＝H，为当前编码的单词矩阵。d_k代表Q和K的维度。

拼接自注意力公式如下：

其中代表t时刻第j个单词的自注意力，/>代表t时刻单词i的权重，/>代表t时刻的拼接自注意力，/>和/>代表拼接注意力的权重矩阵，/>是权重向量，N是单词的总数。最终生成一个拼接自注意力表示H^concat。

类似地，双线性自注意力公式如下：

其中代表t时刻第j个单词的自注意力，/>代表t时刻单词i的权重，/>代表t时刻的双线性自注意力，W_bi双线性注意力的权重矩阵，N是单词的总数。最终生成一个双线性自注意力表示H^bi。

为解决注意力查询和注意力结果不匹配的问题。引入了注意力的注意力，具体方式是利用GLU网络(Gated Linear Units)，公式如下：

其中，W₁、W₂是可训练矩阵，b₁、b₂是偏置，X是注意力的输入,即双向GRU编码的结果H^Att代表注意力的结果(包括上述的H^Att、H^bi和H^concat)，δ是sigmoid激活函数，/>代表矩阵元素点乘，/>代表拼接。

最终，将三者的注意力结果依次喂入双向GRU中进行融合，最终得到融合多路注意力机制的全局上下文编码向量同样地，在多领域任务中，多路注意力模块数量和编码器数量保持一致。最终的编码表示还需要在经过Highway网络(Highway网络可叠加多层)，在更好地获得低层次的原始特征以及高层次的注意力特征的同时还加速了误差的传播。具体公式如下：

其中，W₁、W₂、W_linear和W_{non_linear}，这里的是从双向GRU出来的原始特征信息，是多路注意力融合的结果。

在本实施例中，优选的，动态融合模块将多领域的编码信息进行融合，定义私有编码器的上下文编码向量为共享编码器的上下文编码向量为/>

其中代表t时刻领域i的编码层隐含层状态，这里W、W₁、W₂是可训练的权重，b是偏置。a_t代表t时刻私有编码器的权重。在某一时刻，模型倾向于让某个特定领域的编码器发挥指导作用，而其他领域的编码器对当前的领域不造成影响，最终某个特定领域私有编码器的编码器结果/>和共享编码器的编码结果/>通过专家机制动态融合生成最终的结果/>

在本实施例中，优选的，外部知识模块的原型是一个记忆网络，定义可训练的权重矩阵C＝(C¹,C²,…,C^k+1)。初始时刻有这里h_T是/>最后一个时刻的隐含层向量。利用k次跳跃计算注意力权重，公式如下：

其中代表C^k+1矩阵在第i个记忆的嵌入位置。定义全局上下文指针G＝(g₁,g₂,…,g_b+T)，这里的/>用于初步筛选对生成有用的知识。整个记忆网络的流程可以看作是记忆的读出和写入的过程，公式如下：

是查询向量，可以视为外部知识库的编码结果，并且被用于初始化解码器。代表k次跳跃后记忆网络的读出内容。最终外部知识的分布计算需要依托于解码器的隐含层状态，其公式如下：

其中，h_dec,t和h'_dec,t代表解码器隐含层状态以及经过注意力后的隐含层状态(h'_dec,t是h_dec,t在上计算的注意力结果)，请注意h_dec,t是由多个共享解码器和私有解码器经过融合网络的解码结果，最终经过k次跳跃得到一个查询的外部知识概率分布。在生成的过程中选择知识概率最高的结果。

在本实施例中，优选的，由于编码器总数为领域数+1，故解码器的总数依然是领域总数+1。解码器依旧分为多个专属的私有解码器以及一个共享编码器。在本发明中采用了Sketch RNN作为解码器。这是一种特殊的GRU网络。在任意一个时刻，解码器可能会生成具体的一个单词，或者生成一个粗略标签(sketch tags)。比如生成了粗略标签@address，则代表此处生成了一个任意的地点。这个地点具体的值由记忆网络查询的概率分布决定。下面是一个具体的例子：

@poi is@poi distance away---->Starbucks is 1mile away

解码器的构成和编码器保持一致，最终的解码结果是由多个专属的私有解码器以及一个共享编码器通过与相同的融合计算方式得到/>本发明的整体编解码器框架和基于注意力机制的序列到序列模型(Seq2Seq+Att)保持一致。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种融合多路注意力机制的智能对话系统，其特征在于，包括依次连接的编码器模块、多路注意力模块、动态融合模块、外部知识模块和解码器模块；

所述编码器模块，用于针对历史上下文进行多领域的编码；

所述动态融合模块，用于融合编码器和注意力的编码结果；

所述解码器模块，用于生成具体的句子内容；

所述编码器模块包括私有编码器和共享编码器；

所述编码器模块从历史上下文中提取通用领域的编码信息，特定领域的编码信息以及领域与领域之间的编码信息，具体如下：

编码器公式如下：

h_i＝BiGRU(e(x),h_i-1)

其中h_i是i时刻的隐含层向量，e(x)代表历史上下文单词x的词嵌入表示；最终生成全局上下文隐含层向量定义共享编码器生成的全局上下文隐含层表示为/>特定域的全局上下文隐含层向量为/>这里上标d_i代表领域i的编码；

所述多路注意力模块融合多头自注意力，双线性注意力以及拼接注意力机制，并在融合机制后追加一个注意力模块；

所述在融合机制后追加一个注意力模块，具体为：利用GLU网络，公式如下：

其中，W₁、W₂是可训练矩阵，b₁、b₂是偏置，X是注意力的输入,即双向GRU编码的结果H^Att代表注意力的结果包括H^Att、H^bi和H^concat，δ是sigmoid激活函数，/>代表矩阵元素点乘，/>代表拼接；

所述多头自注意力公式如下：

拼接自注意力公式如下：

双线性自注意力公式如下：

2.根据权利要求1所述的一种融合多路注意力机制的智能对话系统，其特征在于，所述编码器在训练过程中引入一个对抗训练的方式，具体是：构建一个CNN的域分类器来识别对话历史和回复表示的共享表示域，通过引入梯度反转层，使得模型一方面最小化领域分类的误差，另一方面更新分类器底层网络最大化域分类损失。

3.根据权利要求1所述的一种融合多路注意力机制的智能对话系统，其特征在于，所述动态融合模块将多领域编码信息进行融合，从而生成兼具特异性和泛化性的对话上下文表示，具体如下：定义私有编码器的上下文编码向量为共享编码器的上下文编码向量为/>

最终某个特定领域私有编码器的编码器结果和共享编码器的编码结果/>通过专家机制动态融合生成最终的结果/>

4.根据权利要求1所述的一种融合多路注意力机制的智能对话系统，其特征在于，所述外部知识模块，利用记忆网络将不同细粒度的编码信息对外部知识进行查询，从而提取有用的外部知识，具体如下：

外部知识模块的原型是一个记忆网络，定义可训练的权重矩阵C＝(C¹,C²,…,C^k+1)；初始时刻有这里h_T是/>最后一个时刻的隐含层向量；利用k次跳跃计算注意力权重，公式如下：

其中代表C^k+1矩阵在第i个记忆的嵌入位置；

其中，h_dec,t和h′_dec,t代表解码器隐含层状态以及经过注意力后的隐含层状态，h_dec,t是由多个共享解码器和私有解码器经过融合网络的解码结果，最终经过k次跳跃得到一个查询的外部知识概率分布。

5.根据权利要求1所述的一种融合多路注意力机制的智能对话系统，其特征在于，所述解码器模块采用了Sketch RNN作为解码器，包括若干专属的私有解码器以及一个共享编码器。