CN113505208A - 一种融合多路注意力机制的智能对话系统 - Google Patents

一种融合多路注意力机制的智能对话系统 Download PDF

Info

Publication number
CN113505208A
CN113505208A CN202110776034.XA CN202110776034A CN113505208A CN 113505208 A CN113505208 A CN 113505208A CN 202110776034 A CN202110776034 A CN 202110776034A CN 113505208 A CN113505208 A CN 113505208A
Authority
CN
China
Prior art keywords
attention
module
encoder
representing
context
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110776034.XA
Other languages
English (en)
Other versions
CN113505208B (zh
Inventor
廖祥文
陈甘霖
蔡鸿杰
林建洲
杨思源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202110776034.XA priority Critical patent/CN113505208B/zh
Publication of CN113505208A publication Critical patent/CN113505208A/zh
Application granted granted Critical
Publication of CN113505208B publication Critical patent/CN113505208B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种融合多路注意力机制的智能对话系统,包括依次连接的编码器模块、多路注意力模块、动态融合模块、外部知识模块和解码器模块;所述编码器模块,用于针对历史上下文进行多领域的编码;所述多路注意力模块,用于提取上下文单词之间的注意力关系;所述动态融合模块,用于融合编码器和注意力的编码结果;所述外部知识模块,用于辅助生成特定领域知识的句子内容;所述解码器模块,用于生成具体的句子内容。本发明能够通过对话的历史上下文信息,抽取不同领域细粒度和句子细粒度的编码信息,并利用记忆网络从外部知识库中抽取有用的外部知识信息,最终将二者信息融合生成具体的句子,提高对话智能化。

Description

一种融合多路注意力机制的智能对话系统
技术领域
本发明涉及任务型对话系统领域,具体涉及一种融合多路注意力机制的智能对话系统。
背景技术
人机交互技术的发展已经到了一定阶段,许多基于人机交互实现的产品和技术都已在许多领域广泛应用。
目前人机交互在多通道多媒体的自然用户界面方面的研究发展较为迅猛。不同于传统的图形界面,多通道指通过触觉、听觉、视觉等人类五感以及手势、表情、眼神等这些信息最大程度收集用户的反馈,用户不再依靠机械的设备,而是通过肢体语言,面部表情与计算机交流,交互更为直接和自然。由于研究的进展,近年来,语音合成识别,触摸识别等通过听觉,触觉交互的方式也趋向成熟并得到广泛应用。也有将多通道技术应用于教育领域,通过自然用户界面提高学生沉浸感,并解决部分残疾学生的学习困难问题。但还面临着技术成本高,实现困难等问题。
虚拟现实和增强现实上的应用也是人机交互研究的热门。利用计算机分析改变人类的五感尤其是视觉和听觉,其在许多领域都有广泛应用。比如在工业领域将增强现实技术引入工业自动软件上,通过在理想位置投射相关信息,提高检测设备或流程的效率。但支持多人的交互方式还有待发展。
随着深度学习的进步,近年来人机对话领域的研究得到飞速发展,产生了许多智能语音系统和产品,尤其在封闭域任务型对话中较为明显,已经能够支持多轮对话。目前有应用于封闭域的方法是将计算机的对话循环生成,即自然语言理解,对话策略学习,自然语言生成,然后等待下一次输入,并将该输入联系上下文进行回答。广泛使用来解析用户发送信息的模型如seq2seq,并且结合注意力机制,在结合上下文方面得到了更好的效果。在深度学习,强化学习的发展下,产生了基于端到端的封闭域对话系统,其扩充了原始模型的状态空间,并帮助生成特定语料库之外的文本,具有很好的延展性。回答用户的对话通常需要外部数据库的支持,即需要从已建立的数据库中查询能作为机器回答的知识。利用知识图谱作为外部数据库的方式也被越来越多学者研究利用,引入知识图谱对提高对话系统性能,但是有效地将知识图谱和对话系统相结合的方法还需进一步发展。
开放域聊天性质的人机对话也有了显著提高,通过向量描述用户意图并结合上下文的方式使得计算机能更准确地理解用户,并产生较为自然的回复语句,使得交流更为顺畅。但是目前人机对话的稳定性在长期对话时会有所下降,其回复的语句会自相矛盾,缺乏上下文联系,进一步提高对话中上下文的联系,增强稳定性是目前的对话系统研究方向之一。而开放域的对话用户都带有一定的情感因素,不少文献都有依据人的认知,个性等心理学知识在计算机上加入情感建模,如通过大五人格理论,PAD情感空间等赋予模型情感个性特征。但目前计算机对话模型的情感相对单一不够丰富,无法被广泛使用,如何提高计算机模型的情感深度,使其对话带有理想的情感因素是开放域对话存在的问题之一。
发明内容
有鉴于此,本发明的目的在于提供一种融合多路注意力机制的智能对话系统,能够通过对话的历史上下文信息,抽取不同领域细粒度和句子细粒度的编码信息,并利用记忆网络从外部知识库中抽取有用的外部知识信息,最终将二者信息融合生成具体的句子。
为实现上述目的,本发明采用如下技术方案:
一种融合多路注意力机制的智能对话系统,包括依次连接的编码器模块、多路注意力模块、动态融合模块、外部知识模块和解码器模块;
所述编码器模块,用于针对历史上下文进行多领域的编码;
所述多路注意力模块,用于提取上下文单词之间的注意力关系;
所述动态融合模块,用于融合编码器和注意力的编码结果;
所述外部知识模块,用于辅助生成特定领域知识的句子内容;
所述解码器模块,用于生成具体的句子内容。
进一步的,所述编码器模块包括私有编码器和共享编码器。
进一步的,所述编码器模块从历史上下文中提取通用领域的编码信息,特定领域的编码信息以及领域与领域之间的编码信息,具体如下:
利用双向GRU对历史上下文进行编码,每个领域都有自己特有的专属的私有编码器,以及一个共享编码器,故在编码器模块的编码器总数为领域总数+1;
所述专属的私有编码器用于提取领域的特定知识,共享编码器用于提取领域之间的公有特征;
编码器公式如下:
hi=BiGRU(e(x),hi-1)
其中hi是i时刻的隐含层向量,e(x)代表历史上下文单词x的词嵌入表示。最终生成全局上下文隐含层向量
Figure BDA0003155334150000031
定义共享编码器生成的全局上下文隐含层表示为
Figure BDA0003155334150000032
特定域的全局上下文隐含层向量为
Figure BDA0003155334150000033
这里上标di代表领域i的编码。
进一步的,所述编码器在训练过程中引入一个对抗训练的方式,具体是:构建一个CNN的域分类器来识别对话历史和回复表示的共享表示域,通过引入梯度反转层,使得模型一方面最小化领域分类的误差,另一方面更新分类器底层网络最大化域分类损失。
进一步的,所述多路注意力模块融合多头注意力,双线性注意力以及拼接注意力注意力机制,并在融合机制后追加一个注意力模块。
进一步的,所述多头自注意力公式如下:
Figure BDA0003155334150000041
对于多头自注意力而言,Q=K=V=H,为当前编码的单词矩阵;dk代表Q和K的维度;
拼接自注意力公式如下:
Figure BDA0003155334150000042
Figure BDA0003155334150000043
Figure BDA0003155334150000044
其中
Figure BDA0003155334150000045
代表t时刻第j个单词的自注意力,
Figure BDA0003155334150000046
代表t时刻单词i的权重,
Figure BDA0003155334150000047
代表t时刻的拼接自注意力,
Figure BDA0003155334150000048
Figure BDA0003155334150000049
代表拼接注意力的权重矩阵,
Figure BDA00031553341500000410
是权重向量,N是单词的总数;最终生成一个拼接自注意力表示Hconcqt
双线性自注意力公式如下:
Figure BDA00031553341500000411
Figure BDA00031553341500000412
Figure BDA00031553341500000413
其中
Figure BDA00031553341500000414
代表t时刻第j个单词的自注意力,
Figure BDA00031553341500000415
代表t时刻单词i的权重,
Figure BDA00031553341500000416
代表t时刻的双线性自注意力,Wbi双线性注意力的权重矩阵,N是单词的总数;最终生成一个双线性自注意力表示Hbi
进一步的,所述在融合机制后追加一个注意力模块,具体为:利用GLU网络,公式如下:
Figure BDA0003155334150000051
其中,W1、W2是可训练矩阵,b1、b2是偏置,X是注意力的输入,即双向GRU编码的结果
Figure BDA0003155334150000052
HAtt代表注意力的结果包括HAtt、Hbi和Hconcat,δ是sigmoid激活函数,
Figure BDA0003155334150000053
代表矩阵元素点乘,
Figure BDA0003155334150000054
代表拼接。
进一步的,所述动态融合模块将多领域编码信息进行融合,从而生成兼具特异性和泛化性的对话上下文表示,具体如下:定义私有编码器的上下文编码向量为
Figure BDA0003155334150000055
共享编码器的上下文编码向量为
Figure BDA0003155334150000056
融合多路注意力机制的全局上下文私有的编码信息通过以下公式将进行融合:
Figure BDA0003155334150000057
Figure BDA0003155334150000058
Figure BDA0003155334150000059
其中
Figure BDA00031553341500000510
代表t时刻领域i的编码层隐含层状态,这里W、W1、W2是可训练的权重,b是偏置;at代表t时刻私有编码器的权重;
最终某个特定领域私有编码器的编码器结果
Figure BDA00031553341500000511
和共享编码器的编码结果
Figure BDA00031553341500000512
通过专家机制动态融合生成最终的结果
Figure BDA00031553341500000513
进一步的,所述外部知识模块,利用记忆网络将不同细粒度的编码信息对外部知识进行查询,从而提取有用的外部知识,具体如下:
外部知识模块的原型是一个记忆网络,定义可训练的权重矩阵C=(C1,C2,…,Ck +1);初始时刻有
Figure BDA0003155334150000061
这里hT
Figure BDA0003155334150000062
最后一个时刻的隐含层向量;利用k次跳跃计算注意力权重,公式如下:
Figure BDA0003155334150000063
其中
Figure BDA0003155334150000064
代表Ck+1矩阵在第i个记忆的嵌入位置;
定义全局上下文指针G=(g1,g2,…,gb+T),这里的
Figure BDA0003155334150000065
Figure BDA0003155334150000066
用于初步筛选对生成有用的知识;
整个记忆网络的流程可以看作是记忆的读出和写入的过程,公式如下:
Figure BDA0003155334150000067
Figure BDA0003155334150000068
Figure BDA0003155334150000069
是查询向量,视为外部知识库的编码结果,并且被用于初始化解码器;
Figure BDA00031553341500000610
代表k次跳跃后记忆网络的读出内容;
最终外部知识的分布计算需要依托于解码器的隐含层状态,其公式如下:
Figure BDA00031553341500000611
Figure BDA00031553341500000612
其中,hdec,t和h′dec,t代表解码器隐含层状态以及经过注意力后的隐含层状态,hdec,t是由多个共享解码器和私有解码器经过融合网络的解码结果,最终经过k次跳跃得到一个查询的外部知识概率分布。
进一步的,所述解码器模块采用了Sketch RNN作为解码器,包括若干专属的私有解码器以及一个共享编码器。
本发明与现有技术相比具有以下有益效果:
附图说明
图1是本发明一实施例中的系统原理框图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图1,本发明提供一种融合多路注意力机制的智能对话系统,包括依次连接的编码器模块、多路注意力模块、动态融合模块、外部知识模块和解码器模块;
编码器模块,用于针对历史上下文进行多领域的编码;
多路注意力模块,用于提取上下文单词之间的注意力关系;
动态融合模块,用于融合编码器和注意力的编码结果;
外部知识模块,用于辅助生成特定领域知识的句子内容;
解码器模块,用于生成具体的句子内容。
在本实施例中,优选的,编码器模块首先利用双向GRU对历史上下文进行编码。每个领域都有自己特有的专属的私有编码器,以及一个共享编码器,故在编码器模块的编码器总数为领域总数+1。专属的私有编码器用于提取领域的特定知识,共享编码器用于提取领域之间的公有特征。因而在该编码器模型下,能够针对不同领域抽取领域层次的编码信息,也能够抓取领域之间的相关性,最终融合的编码信息不仅具有领域的特异性,同时也具备了跨领域的泛化性。编码器公式如下:
hi=BiGRU(e(x),hi-1)
其中hi是i时刻的隐含层向量,e(x)代表历史上下文单词x的词嵌入表示。最终生成全局上下文隐含层向量
Figure BDA0003155334150000081
定义共享编码器生成的全局上下文隐含层表示为
Figure BDA0003155334150000082
特定域的全局上下文隐含层向量为
Figure BDA0003155334150000083
这里上标di代表领域i的编码。
编码器在训练过程中需要引入一个对抗训练的方式,具体方法是构建一个CNN的域分类器来识别对话历史和回复表示的共享表示域,通过引入梯度反转层,使得模型一方面最小化领域分类的误差,另一方面更新分类器底层网络最大化域分类损失,使得模型对领域分类器不利,以此来鼓励共享编码器提取共享特征。
在本实施例中,优选的,引入了一个新型的多路注意力模块,该模块融合了多种的注意力机制,包括:多头注意力,双线性注意力以及拼接注意力。这里的双线性注意力和拼接注意力为线性注意力,以提取不同注意力下的特征粒度信息。
在多个注意力后,本文再次追加了一个注意力模块,即注意力上的注意力,用于解决查询和注意力输出不匹配的问题。这三种注意力分别从上一模块得到编码器信息抽取注意力信息,最后利用一个双向GRU网络将三种注意力融合,生成具有多路注意力特征的编码信息。特别地,为了更好地传递误差信息以及利用原始的网络特征,本文还使用了Highway网络,直接从初始的双向GRU网络提取特征,使得模型既能够获得句子中多路注意力下的高级语义特征,又能够不丢失低级的语义特征。
多头自注意力公式如下:
Figure BDA0003155334150000091
对于多头自注意力而言,Q=K=V=H,为当前编码的单词矩阵。dk代表Q和K的维度。
拼接自注意力公式如下:
Figure BDA0003155334150000092
Figure BDA0003155334150000093
Figure BDA0003155334150000094
其中
Figure BDA0003155334150000095
代表t时刻第j个单词的自注意力,
Figure BDA0003155334150000096
代表t时刻单词i的权重,
Figure BDA0003155334150000097
代表t时刻的拼接自注意力,
Figure BDA0003155334150000098
Figure BDA0003155334150000099
代表拼接注意力的权重矩阵,
Figure BDA00031553341500000910
是权重向量,N是单词的总数。最终生成一个拼接自注意力表示Hconcat
类似地,双线性自注意力公式如下:
Figure BDA00031553341500000911
Figure BDA00031553341500000912
Figure BDA00031553341500000913
其中
Figure BDA0003155334150000101
代表t时刻第j个单词的自注意力,
Figure BDA0003155334150000102
代表t时刻单词i的权重,
Figure BDA0003155334150000103
表t时刻的双线性自注意力,Wbi双线性注意力的权重矩阵,N是单词的总数。最终生成一个双线性自注意力表示Hbi
为解决注意力查询和注意力结果不匹配的问题。引入了注意力的注意力,具体方式是利用GLU网络(Gated LinearUnits),公式如下:
Figure BDA0003155334150000104
其中,W1、W2是可训练矩阵,b1、b2是偏置,X是注意力的输入,即双向GRU编码的结果
Figure BDA0003155334150000105
HAtt代表注意力的结果(包括上述的HAtt、Hbi和Hconcat),δ是sigmoid激活函数,
Figure BDA0003155334150000106
代表矩阵元素点乘,
Figure BDA0003155334150000107
代表拼接。
最终,将三者的注意力结果依次喂入双向GRU中进行融合,最终得到融合多路注意力机制的全局上下文编码向量
Figure BDA0003155334150000108
Figure BDA0003155334150000109
同样地,在多领域任务中,多路注意力模块数量和编码器数量保持一致。最终的编码表示还需要在经过Highway网络(Highway网络可叠加多层),在更好地获得低层次的原始特征以及高层次的注意力特征的同时还加速了误差的传播。具体公式如下:
Figure BDA00031553341500001010
Figure BDA00031553341500001011
其中,W1、W2、Wlinear和Wnon_linear,这里的
Figure BDA00031553341500001012
是从双向GRU出来的原始特征信息,
Figure BDA00031553341500001013
是多路注意力融合的结果。
在本实施例中,优选的,动态融合模块将多领域的编码信息进行融合,定义私有编码器的上下文编码向量为
Figure BDA0003155334150000111
共享编码器的上下文编码向量为
Figure BDA0003155334150000112
融合多路注意力机制的全局上下文私有的编码信息通过以下公式将进行融合:
Figure BDA0003155334150000113
Figure BDA0003155334150000114
Figure BDA0003155334150000115
其中
Figure BDA0003155334150000116
代表t时刻领域i的编码层隐含层状态,这里W、W1、W2是可训练的权重,b是偏置。at代表t时刻私有编码器的权重。在某一时刻,模型倾向于让某个特定领域的编码器发挥指导作用,而其他领域的编码器对当前的领域不造成影响,最终某个特定领域私有编码器的编码器结果
Figure BDA0003155334150000117
和共享编码器的编码结果
Figure BDA0003155334150000118
通过专家机制动态融合生成最终的结果
Figure BDA0003155334150000119
在本实施例中,优选的,外部知识模块的原型是一个记忆网络,定义可训练的权重矩阵C=(C1,C2,…,Ck+1)。初始时刻有
Figure BDA00031553341500001110
这里hT
Figure BDA00031553341500001111
最后一个时刻的隐含层向量。利用k次跳跃计算注意力权重,公式如下:
Figure BDA00031553341500001112
其中
Figure BDA00031553341500001113
代表Ck+1矩阵在第i个记忆的嵌入位置。定义全局上下文指针G=(g1,g2,…,gb+T),这里的
Figure BDA00031553341500001114
用于初步筛选对生成有用的知识。整个记忆网络的流程可以看作是记忆的读出和写入的过程,公式如下:
Figure BDA0003155334150000121
Figure BDA0003155334150000122
Figure BDA0003155334150000123
是查询向量,可以视为外部知识库的编码结果,并且被用于初始化解码器。
Figure BDA0003155334150000124
代表k次跳跃后记忆网络的读出内容。最终外部知识的分布计算需要依托于解码器的隐含层状态,其公式如下:
Figure BDA0003155334150000125
Figure BDA0003155334150000126
其中,hdec,t和h′dec,t代表解码器隐含层状态以及经过注意力后的隐含层状态(h′dec,t是hdec,t
Figure BDA0003155334150000127
上计算的注意力结果),请注意hdec,t是由多个共享解码器和私有解码器经过融合网络的解码结果,最终经过k次跳跃得到一个查询的外部知识概率分布。在生成的过程中选择知识概率最高的结果。
在本实施例中,优选的,由于编码器总数为领域数+1,故解码器的总数依然是领域总数+1。解码器依旧分为多个专属的私有解码器以及一个共享编码器。在本发明中采用了Sketch RNN作为解码器。这是一种特殊的GRU网络。在任意一个时刻,解码器可能会生成具体的一个单词,或者生成一个粗略标签(sketchtags)。比如生成了粗略标签@address,则代表此处生成了一个任意的地点。这个地点具体的值由记忆网络查询的概率分布决定。下面是一个具体的例子:
@poi is@poi distance away---->Starbucks is 1mile away
解码器的构成和编码器保持一致,最终的解码结果是由多个专属的私有解码器以及一个共享编码器通过与
Figure BDA0003155334150000131
相同的融合计算方式得到
Figure BDA0003155334150000132
本发明的整体编解码器框架和基于注意力机制的序列到序列模型(Seq2Seq+Att)保持一致。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

Claims (10)

1.一种融合多路注意力机制的智能对话系统,其特征在于,包括依次连接的编码器模块、多路注意力模块、动态融合模块、外部知识模块和解码器模块;
所述编码器模块,用于针对历史上下文进行多领域的编码;
所述多路注意力模块,用于提取上下文单词之间的注意力关系;
所述动态融合模块,用于融合编码器和注意力的编码结果;
所述外部知识模块,用于辅助生成特定领域知识的句子内容;
所述解码器模块,用于生成具体的句子内容。
2.根据权利要求1所述的一种融合多路注意力机制的智能对话系统,其特征在于,所述编码器模块包括私有编码器和共享编码器。
3.根据权利要求2所述的一种融合多路注意力机制的智能对话系统,其特征在于,所述编码器模块从历史上下文中提取通用领域的编码信息,特定领域的编码信息以及领域与领域之间的编码信息,具体如下:
利用双向GRU对历史上下文进行编码,每个领域都有自己特有的专属的私有编码器,以及一个共享编码器,故在编码器模块的编码器总数为领域总数+1;
所述专属的私有编码器用于提取领域的特定知识,共享编码器用于提取领域之间的公有特征;
编码器公式如下:
hi=BiGRU(e(x),hi-1)
其中hi是i时刻的隐含层向量,e(x)代表历史上下文单词x的词嵌入表示。最终生成全局上下文隐含层向量
Figure FDA0003155334140000021
定义共享编码器生成的全局上下文隐含层表示为
Figure FDA0003155334140000022
特定域的全局上下文隐含层向量为
Figure FDA0003155334140000023
这里上标di代表领域i的编码。
4.根据权利要求3所述的一种融合多路注意力机制的智能对话系统,其特征在于,所述编码器在训练过程中引入一个对抗训练的方式,具体是:构建一个CNN的域分类器来识别对话历史和回复表示的共享表示域,通过引入梯度反转层,使得模型一方面最小化领域分类的误差,另一方面更新分类器底层网络最大化域分类损失。
5.根据权利要求1所述的一种融合多路注意力机制的智能对话系统,其特征在于,所述多路注意力模块融合多头注意力,双线性注意力以及拼接注意力注意力机制,并在融合机制后追加一个注意力模块。
6.根据权利要求5所述的一种融合多路注意力机制的智能对话系统,其特征在于,所述多头自注意力公式如下:
Figure FDA0003155334140000024
对于多头自注意力而言,Q=K=V=H,为当前编码的单词矩阵;dk代表Q和K的维度;
拼接自注意力公式如下:
Figure FDA0003155334140000025
Figure FDA0003155334140000026
Figure FDA0003155334140000031
其中
Figure FDA0003155334140000032
代表t时刻第j个单词的自注意力,
Figure FDA0003155334140000033
代表t时刻单词i的权重,
Figure FDA0003155334140000034
代表t时刻的拼接自注意力,
Figure FDA0003155334140000035
Figure FDA0003155334140000036
代表拼接注意力的权重矩阵,
Figure FDA0003155334140000037
是权重向量,N是单词的总数;最终生成一个拼接自注意力表示Hconcat
双线性自注意力公式如下:
Figure FDA0003155334140000038
Figure FDA0003155334140000039
Figure FDA00031553341400000310
其中
Figure FDA00031553341400000311
代表t时刻第j个单词的自注意力,
Figure FDA00031553341400000312
代表t时刻单词i的权重,
Figure FDA00031553341400000313
代表t时刻的双线性自注意力,Wbi双线性注意力的权重矩阵,N是单词的总数;最终生成一个双线性自注意力表示Hbi
7.根据权利要求5所述的一种融合多路注意力机制的智能对话系统,其特征在于,所述在融合机制后追加一个注意力模块,具体为:利用GLU网络,公式如下:
Figure FDA00031553341400000314
其中,W1、W2是可训练矩阵,b1、b2是偏置,X是注意力的输入,即双向GRU编码的结果
Figure FDA00031553341400000315
HAtt代表注意力的结果包括HAtt、Hbi和Hconcat,δ是sigmoid激活函数,
Figure FDA00031553341400000316
代表矩阵元素点乘,
Figure FDA00031553341400000317
代表拼接。
8.根据权利要求1所述的一种融合多路注意力机制的智能对话系统,其特征在于,所述动态融合模块将多领域编码信息进行融合,从而生成兼具特异性和泛化性的对话上下文表示,具体如下:定义私有编码器的上下文编码向量为
Figure FDA0003155334140000041
共享编码器的上下文编码向量为
Figure FDA0003155334140000042
融合多路注意力机制的全局上下文私有的编码信息通过以下公式将进行融合:
Figure FDA0003155334140000043
Figure FDA0003155334140000044
Figure FDA0003155334140000045
其中
Figure FDA0003155334140000046
代表t时刻领域i的编码层隐含层状态,这里W、W1、W2是可训练的权重,b是偏置;at代表t时刻私有编码器的权重;
最终某个特定领域私有编码器的编码器结果
Figure FDA0003155334140000047
和共享编码器的编码结果
Figure FDA0003155334140000048
通过专家机制动态融合生成最终的结果
Figure FDA0003155334140000049
9.根据权利要求1所述的一种融合多路注意力机制的智能对话系统,其特征在于,所述外部知识模块,利用记忆网络将不同细粒度的编码信息对外部知识进行查询,从而提取有用的外部知识,具体如下:
外部知识模块的原型是一个记忆网络,定义可训练的权重矩阵C=(C1,C2,…,Ck+1);初始时刻有
Figure FDA00031553341400000410
这里hT
Figure FDA00031553341400000411
最后一个时刻的隐含层向量;利用k次跳跃计算注意力权重,公式如下:
Figure FDA00031553341400000412
其中
Figure FDA00031553341400000413
代表Ck+1矩阵在第i个记忆的嵌入位置;
定义全局上下文指针G=(g1,g2,…,gb+T),这里的
Figure FDA0003155334140000051
Figure FDA0003155334140000052
用于初步筛选对生成有用的知识;
整个记忆网络的流程可以看作是记忆的读出和写入的过程,公式如下:
Figure FDA0003155334140000053
Figure FDA0003155334140000054
Figure FDA0003155334140000055
是查询向量,视为外部知识库的编码结果,并且被用于初始化解码器;
Figure FDA0003155334140000056
代表k次跳跃后记忆网络的读出内容;
最终外部知识的分布计算需要依托于解码器的隐含层状态,其公式如下:
Figure FDA0003155334140000057
Figure FDA0003155334140000058
其中,hdec,t和h′dec,t代表解码器隐含层状态以及经过注意力后的隐含层状态,hdec,t是由多个共享解码器和私有解码器经过融合网络的解码结果,最终经过k次跳跃得到一个查询的外部知识概率分布。
10.根据权利要求1所述的一种融合多路注意力机制的智能对话系统,其特征在于,所述解码器模块采用了SketchRNN作为解码器,包括若干专属的私有解码器以及一个共享编码器。
CN202110776034.XA 2021-07-09 2021-07-09 一种融合多路注意力机制的智能对话系统 Active CN113505208B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110776034.XA CN113505208B (zh) 2021-07-09 2021-07-09 一种融合多路注意力机制的智能对话系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110776034.XA CN113505208B (zh) 2021-07-09 2021-07-09 一种融合多路注意力机制的智能对话系统

Publications (2)

Publication Number Publication Date
CN113505208A true CN113505208A (zh) 2021-10-15
CN113505208B CN113505208B (zh) 2024-02-02

Family

ID=78012442

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110776034.XA Active CN113505208B (zh) 2021-07-09 2021-07-09 一种融合多路注意力机制的智能对话系统

Country Status (1)

Country Link
CN (1) CN113505208B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114860914A (zh) * 2022-05-26 2022-08-05 南京信息工程大学 一种基于知识库增强的端到端多领域任务型对话生成方法
CN115658908A (zh) * 2022-12-29 2023-01-31 华南理工大学 一种基于对话交互过程的大五人格感知方法及其系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120122397A1 (en) * 2009-01-27 2012-05-17 Brown Stephen J Semantic Note Taking System
US20180329884A1 (en) * 2017-05-12 2018-11-15 Rsvp Technologies Inc. Neural contextual conversation learning
CN109472031A (zh) * 2018-11-09 2019-03-15 电子科技大学 一种基于双记忆注意力的方面级别情感分类模型及方法
CN110309287A (zh) * 2019-07-08 2019-10-08 北京邮电大学 建模对话轮次信息的检索式闲聊对话打分方法
CN111540468A (zh) * 2020-04-21 2020-08-14 重庆大学 一种诊断原因可视化的icd自动编码方法与系统
CN112084314A (zh) * 2020-08-20 2020-12-15 电子科技大学 一种引入知识的生成式会话系统
CN112463935A (zh) * 2020-09-11 2021-03-09 湖南大学 一种带有强泛化知识选择的开放域对话生成方法及模型

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120122397A1 (en) * 2009-01-27 2012-05-17 Brown Stephen J Semantic Note Taking System
US20180329884A1 (en) * 2017-05-12 2018-11-15 Rsvp Technologies Inc. Neural contextual conversation learning
CN109472031A (zh) * 2018-11-09 2019-03-15 电子科技大学 一种基于双记忆注意力的方面级别情感分类模型及方法
CN110309287A (zh) * 2019-07-08 2019-10-08 北京邮电大学 建模对话轮次信息的检索式闲聊对话打分方法
CN111540468A (zh) * 2020-04-21 2020-08-14 重庆大学 一种诊断原因可视化的icd自动编码方法与系统
CN112084314A (zh) * 2020-08-20 2020-12-15 电子科技大学 一种引入知识的生成式会话系统
CN112463935A (zh) * 2020-09-11 2021-03-09 湖南大学 一种带有强泛化知识选择的开放域对话生成方法及模型

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHONGQING CHEN, ...: "Multimodal Encoder-Decoder Attention Networks for Visual Question Answering", IEEE ACCESS *
杨成彪;吕荣荣;吴刚;: "一种基于记忆网络的多轮对话下的意图识别方法", 电子技术与软件工程, no. 10 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114860914A (zh) * 2022-05-26 2022-08-05 南京信息工程大学 一种基于知识库增强的端到端多领域任务型对话生成方法
CN115658908A (zh) * 2022-12-29 2023-01-31 华南理工大学 一种基于对话交互过程的大五人格感知方法及其系统

Also Published As

Publication number Publication date
CN113505208B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
CN110188182A (zh) 模型训练方法、对话生成方法、装置、设备及介质
CN109086408A (zh) 文本生成方法、装置、电子设备及计算机可读介质
Nyatsanga et al. A Comprehensive Review of Data‐Driven Co‐Speech Gesture Generation
CN108595436A (zh) 情感对话内容的生成方法和系统、存储介质
CN113505208A (zh) 一种融合多路注意力机制的智能对话系统
Tarek et al. Towards highly adaptive edu-chatbot
CN112767910A (zh) 音频信息合成方法、装置、计算机可读介质及电子设备
Triantafyllopoulos et al. An overview of affective speech synthesis and conversion in the deep learning era
CN111382257A (zh) 一种生成对话下文的方法和系统
Dethlefs Domain transfer for deep natural language generation from abstract meaning representations
CN112101044A (zh) 一种意图识别方法、装置及电子设备
CN111986687A (zh) 基于交互式解码的双语情感对话生成系统
Firdaus et al. Persona aware response generation with emotions
Liu et al. Cross-domain slot filling as machine reading comprehension: A new perspective
Wu et al. Rapid Style Adaptation Using Residual Error Embedding for Expressive Speech Synthesis.
CN112463935B (zh) 一种带有强泛化知识选择的开放域对话生成方法及系统
Wang et al. Information-enhanced hierarchical self-attention network for multiturn dialog generation
Farella et al. Question Answering with BERT: designing a 3D virtual avatar for Cultural Heritage exploration
Maslennikova ELMo Word Representations For News Protection.
CN112115718A (zh) 内容文本生成方法和装置、音乐评论文本生成方法
CN111414466A (zh) 一种基于深度模型融合的多轮对话建模方法
CN116561265A (zh) 个性化对话生成方法和模型训练方法以及设备
Ai et al. DER-GCN: Dialog and Event Relation-Aware Graph Convolutional Neural Network for Multimodal Dialog Emotion Recognition
Lv et al. StyleBERT: Chinese pretraining by font style information
Park et al. Music-aided affective interaction between human and service robot

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant