CN113505208B - 一种融合多路注意力机制的智能对话系统 - Google Patents
一种融合多路注意力机制的智能对话系统 Download PDFInfo
- Publication number
- CN113505208B CN113505208B CN202110776034.XA CN202110776034A CN113505208B CN 113505208 B CN113505208 B CN 113505208B CN 202110776034 A CN202110776034 A CN 202110776034A CN 113505208 B CN113505208 B CN 113505208B
- Authority
- CN
- China
- Prior art keywords
- attention
- module
- encoder
- context
- self
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 claims abstract description 30
- 230000004927 fusion Effects 0.000 claims abstract description 20
- 230000010354 integration Effects 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 25
- 239000011159 matrix material Substances 0.000 claims description 21
- 235000008694 Humulus lupulus Nutrition 0.000 claims description 9
- 238000009826 distribution Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 206010063385 Intellectualisation Diseases 0.000 abstract 1
- 238000004590 computer program Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000008451 emotion Effects 0.000 description 7
- 230000003993 interaction Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000009954 braiding Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种融合多路注意力机制的智能对话系统,包括依次连接的编码器模块、多路注意力模块、动态融合模块、外部知识模块和解码器模块;所述编码器模块,用于针对历史上下文进行多领域的编码;所述多路注意力模块,用于提取上下文单词之间的注意力关系;所述动态融合模块,用于融合编码器和注意力的编码结果;所述外部知识模块,用于辅助生成特定领域知识的句子内容;所述解码器模块,用于生成具体的句子内容。本发明能够通过对话的历史上下文信息,抽取不同领域细粒度和句子细粒度的编码信息,并利用记忆网络从外部知识库中抽取有用的外部知识信息,最终将二者信息融合生成具体的句子,提高对话智能化。
Description
技术领域
本发明涉及任务型对话系统领域,具体涉及一种融合多路注意力机制的智能对话系统。
背景技术
人机交互技术的发展已经到了一定阶段,许多基于人机交互实现的产品和技术都已在许多领域广泛应用。
目前人机交互在多通道多媒体的自然用户界面方面的研究发展较为迅猛。不同于传统的图形界面,多通道指通过触觉、听觉、视觉等人类五感以及手势、表情、眼神等这些信息最大程度收集用户的反馈,用户不再依靠机械的设备,而是通过肢体语言,面部表情与计算机交流,交互更为直接和自然。由于研究的进展,近年来,语音合成识别,触摸识别等通过听觉,触觉交互的方式也趋向成熟并得到广泛应用。也有将多通道技术应用于教育领域,通过自然用户界面提高学生沉浸感,并解决部分残疾学生的学习困难问题。但还面临着技术成本高,实现困难等问题。
虚拟现实和增强现实上的应用也是人机交互研究的热门。利用计算机分析改变人类的五感尤其是视觉和听觉,其在许多领域都有广泛应用。比如在工业领域将增强现实技术引入工业自动软件上,通过在理想位置投射相关信息,提高检测设备或流程的效率。但支持多人的交互方式还有待发展。
随着深度学习的进步,近年来人机对话领域的研究得到飞速发展,产生了许多智能语音系统和产品,尤其在封闭域任务型对话中较为明显,已经能够支持多轮对话。目前有应用于封闭域的方法是将计算机的对话循环生成,即自然语言理解,对话策略学习,自然语言生成,然后等待下一次输入,并将该输入联系上下文进行回答。广泛使用来解析用户发送信息的模型如seq2seq,并且结合注意力机制,在结合上下文方面得到了更好的效果。在深度学习,强化学习的发展下,产生了基于端到端的封闭域对话系统,其扩充了原始模型的状态空间,并帮助生成特定语料库之外的文本,具有很好的延展性。回答用户的对话通常需要外部数据库的支持,即需要从已建立的数据库中查询能作为机器回答的知识。利用知识图谱作为外部数据库的方式也被越来越多学者研究利用,引入知识图谱对提高对话系统性能,但是有效地将知识图谱和对话系统相结合的方法还需进一步发展。
开放域聊天性质的人机对话也有了显著提高,通过向量描述用户意图并结合上下文的方式使得计算机能更准确地理解用户,并产生较为自然的回复语句,使得交流更为顺畅。但是目前人机对话的稳定性在长期对话时会有所下降,其回复的语句会自相矛盾,缺乏上下文联系,进一步提高对话中上下文的联系,增强稳定性是目前的对话系统研究方向之一。而开放域的对话用户都带有一定的情感因素,不少文献都有依据人的认知,个性等心理学知识在计算机上加入情感建模,如通过大五人格理论,PAD情感空间等赋予模型情感个性特征。但目前计算机对话模型的情感相对单一不够丰富,无法被广泛使用,如何提高计算机模型的情感深度,使其对话带有理想的情感因素是开放域对话存在的问题之一。
发明内容
有鉴于此,本发明的目的在于提供一种融合多路注意力机制的智能对话系统,能够通过对话的历史上下文信息,抽取不同领域细粒度和句子细粒度的编码信息,并利用记忆网络从外部知识库中抽取有用的外部知识信息,最终将二者信息融合生成具体的句子。
为实现上述目的,本发明采用如下技术方案:
一种融合多路注意力机制的智能对话系统,包括依次连接的编码器模块、多路注意力模块、动态融合模块、外部知识模块和解码器模块;
所述编码器模块,用于针对历史上下文进行多领域的编码;
所述多路注意力模块,用于提取上下文单词之间的注意力关系;
所述动态融合模块,用于融合编码器和注意力的编码结果;
所述外部知识模块,用于辅助生成特定领域知识的句子内容;
所述解码器模块,用于生成具体的句子内容。
进一步的,所述编码器模块包括私有编码器和共享编码器。
进一步的,所述编码器模块从历史上下文中提取通用领域的编码信息,特定领域的编码信息以及领域与领域之间的编码信息,具体如下:
利用双向GRU对历史上下文进行编码,每个领域都有自己特有的专属的私有编码器,以及一个共享编码器,故在编码器模块的编码器总数为领域总数+1;
所述专属的私有编码器用于提取领域的特定知识,共享编码器用于提取领域之间的公有特征;
编码器公式如下:
hi=BiGRU(e(x),hi-1)
其中hi是i时刻的隐含层向量,e(x)代表历史上下文单词x的词嵌入表示。最终生成全局上下文隐含层向量定义共享编码器生成的全局上下文隐含层表示为/>特定域的全局上下文隐含层向量为/>这里上标di代表领域i的编码。
进一步的,所述编码器在训练过程中引入一个对抗训练的方式,具体是:构建一个CNN的域分类器来识别对话历史和回复表示的共享表示域,通过引入梯度反转层,使得模型一方面最小化领域分类的误差,另一方面更新分类器底层网络最大化域分类损失。
进一步的,所述多路注意力模块融合多头注意力,双线性注意力以及拼接注意力机制,并在融合机制后追加一个注意力模块。
进一步的,所述多头自注意力公式如下:
对于多头自注意力而言,Q=K=V=H,为当前编码的单词矩阵;dk代表Q和K的维度;
拼接自注意力公式如下:
其中代表t时刻第j个单词的自注意力,/>代表t时刻单词i的权重,/>代表t时刻的拼接自注意力,/>和/>代表拼接注意力的权重矩阵,/>是权重向量,N是单词的总数;最终生成一个拼接自注意力表示Hconcat;
双线性自注意力公式如下:
其中代表t时刻第j个单词的自注意力,/>代表t时刻单词i的权重,/>代表t时刻的双线性自注意力,Wbi双线性注意力的权重矩阵,N是单词的总数;最终生成一个双线性自注意力表示Hbi。
进一步的,所述在融合机制后追加一个注意力模块,具体为:利用GLU网络,公式如下:
其中,W1、W2是可训练矩阵,b1、b2是偏置,X是注意力的输入,即双向GRU编码的结果HAtt代表注意力的结果包括HAtt、Hbi和Hconcat,δ是sigmoid激活函数,/>代表矩阵元素点乘,/>代表拼接。
进一步的,所述动态融合模块将多领域编码信息进行融合,从而生成兼具特异性和泛化性的对话上下文表示,具体如下:定义私有编码器的上下文编码向量为共享编码器的上下文编码向量为/>
融合多路注意力机制的全局上下文私有的编码信息通过以下公式将进行融合:
其中代表t时刻领域i的编码层隐含层状态,这里W、W1、W2是可训练的权重,b是偏置;at代表t时刻私有编码器的权重;
最终某个特定领域私有编码器的编码器结果和共享编码器的编码结果通过专家机制动态融合生成最终的结果/>
进一步的,所述外部知识模块,利用记忆网络将不同细粒度的编码信息对外部知识进行查询,从而提取有用的外部知识,具体如下:
外部知识模块的原型是一个记忆网络,定义可训练的权重矩阵C=(C1,C2,…,Ck +1);初始时刻有这里hT是/>最后一个时刻的隐含层向量;利用k次跳跃计算注意力权重,公式如下:
其中代表Ck+1矩阵在第i个记忆的嵌入位置;
定义全局上下文指针G=(g1,g2,…,gb+T),这里的 用于初步筛选对生成有用的知识;
整个记忆网络的流程可以看作是记忆的读出和写入的过程,公式如下:
是查询向量,视为外部知识库的编码结果,并且被用于初始化解码器;/>代表k次跳跃后记忆网络的读出内容;
最终外部知识的分布计算需要依托于解码器的隐含层状态,其公式如下:
其中,hdec,t和h'dec,t代表解码器隐含层状态以及经过注意力后的隐含层状态,hdec,t是由多个共享解码器和私有解码器经过融合网络的解码结果,最终经过k次跳跃得到一个查询的外部知识概率分布。
进一步的,所述解码器模块采用了Sketch RNN作为解码器,包括若干专属的私有解码器以及一个共享编码器。
本发明与现有技术相比具有以下有益效果:本申请能够通过对话的历史上下文信息,抽取不同领域细粒度和句子细粒度的编码信息,并利用记忆网络从外部知识库中抽取有用的外部知识信息,最终将二者信息融合生成具体的句子。
附图说明
图1是本发明一实施例中的系统原理框图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图1,本发明提供一种融合多路注意力机制的智能对话系统,包括依次连接的编码器模块、多路注意力模块、动态融合模块、外部知识模块和解码器模块;
编码器模块,用于针对历史上下文进行多领域的编码;
多路注意力模块,用于提取上下文单词之间的注意力关系;
动态融合模块,用于融合编码器和注意力的编码结果;
外部知识模块,用于辅助生成特定领域知识的句子内容;
解码器模块,用于生成具体的句子内容。
在本实施例中,优选的,编码器模块首先利用双向GRU对历史上下文进行编码。每个领域都有自己特有的专属的私有编码器,以及一个共享编码器,故在编码器模块的编码器总数为领域总数+1。专属的私有编码器用于提取领域的特定知识,共享编码器用于提取领域之间的公有特征。因而在该编码器模型下,能够针对不同领域抽取领域层次的编码信息,也能够抓取领域之间的相关性,最终融合的编码信息不仅具有领域的特异性,同时也具备了跨领域的泛化性。编码器公式如下:
hi=BiGRU(e(x),hi-1)
其中hi是i时刻的隐含层向量,e(x)代表历史上下文单词x的词嵌入表示。最终生成全局上下文隐含层向量定义共享编码器生成的全局上下文隐含层表示为/>特定域的全局上下文隐含层向量为/>这里上标di代表领域i的编码。
编码器在训练过程中需要引入一个对抗训练的方式,具体方法是构建一个CNN的域分类器来识别对话历史和回复表示的共享表示域,通过引入梯度反转层,使得模型一方面最小化领域分类的误差,另一方面更新分类器底层网络最大化域分类损失,使得模型对领域分类器不利,以此来鼓励共享编码器提取共享特征。
在本实施例中,优选的,引入了一个新型的多路注意力模块,该模块融合了多种的注意力机制,包括:多头注意力,双线性注意力以及拼接注意力。这里的双线性注意力和拼接注意力为线性注意力,以提取不同注意力下的特征粒度信息。
在多个注意力后,本文再次追加了一个注意力模块,即注意力上的注意力,用于解决查询和注意力输出不匹配的问题。这三种注意力分别从上一模块得到编码器信息抽取注意力信息,最后利用一个双向GRU网络将三种注意力融合,生成具有多路注意力特征的编码信息。特别地,为了更好地传递误差信息以及利用原始的网络特征,本文还使用了Highway网络,直接从初始的双向GRU网络提取特征,使得模型既能够获得句子中多路注意力下的高级语义特征,又能够不丢失低级的语义特征。
多头自注意力公式如下:
对于多头自注意力而言,Q=K=V=H,为当前编码的单词矩阵。dk代表Q和K的维度。
拼接自注意力公式如下:
其中代表t时刻第j个单词的自注意力,/>代表t时刻单词i的权重,/>代表t时刻的拼接自注意力,/>和/>代表拼接注意力的权重矩阵,/>是权重向量,N是单词的总数。最终生成一个拼接自注意力表示Hconcat。
类似地,双线性自注意力公式如下:
其中代表t时刻第j个单词的自注意力,/>代表t时刻单词i的权重,/>代表t时刻的双线性自注意力,Wbi双线性注意力的权重矩阵,N是单词的总数。最终生成一个双线性自注意力表示Hbi。
为解决注意力查询和注意力结果不匹配的问题。引入了注意力的注意力,具体方式是利用GLU网络(Gated Linear Units),公式如下:
其中,W1、W2是可训练矩阵,b1、b2是偏置,X是注意力的输入,即双向GRU编码的结果HAtt代表注意力的结果(包括上述的HAtt、Hbi和Hconcat),δ是sigmoid激活函数,/>代表矩阵元素点乘,/>代表拼接。
最终,将三者的注意力结果依次喂入双向GRU中进行融合,最终得到融合多路注意力机制的全局上下文编码向量 同样地,在多领域任务中,多路注意力模块数量和编码器数量保持一致。最终的编码表示还需要在经过Highway网络(Highway网络可叠加多层),在更好地获得低层次的原始特征以及高层次的注意力特征的同时还加速了误差的传播。具体公式如下:
其中,W1、W2、Wlinear和Wnon_linear,这里的是从双向GRU出来的原始特征信息,是多路注意力融合的结果。
在本实施例中,优选的,动态融合模块将多领域的编码信息进行融合,定义私有编码器的上下文编码向量为共享编码器的上下文编码向量为/>
融合多路注意力机制的全局上下文私有的编码信息通过以下公式将进行融合:
其中代表t时刻领域i的编码层隐含层状态,这里W、W1、W2是可训练的权重,b是偏置。at代表t时刻私有编码器的权重。在某一时刻,模型倾向于让某个特定领域的编码器发挥指导作用,而其他领域的编码器对当前的领域不造成影响,最终某个特定领域私有编码器的编码器结果/>和共享编码器的编码结果/>通过专家机制动态融合生成最终的结果/>
在本实施例中,优选的,外部知识模块的原型是一个记忆网络,定义可训练的权重矩阵C=(C1,C2,…,Ck+1)。初始时刻有这里hT是/>最后一个时刻的隐含层向量。利用k次跳跃计算注意力权重,公式如下:
其中代表Ck+1矩阵在第i个记忆的嵌入位置。定义全局上下文指针G=(g1,g2,…,gb+T),这里的/>用于初步筛选对生成有用的知识。整个记忆网络的流程可以看作是记忆的读出和写入的过程,公式如下:
是查询向量,可以视为外部知识库的编码结果,并且被用于初始化解码器。代表k次跳跃后记忆网络的读出内容。最终外部知识的分布计算需要依托于解码器的隐含层状态,其公式如下:
其中,hdec,t和h'dec,t代表解码器隐含层状态以及经过注意力后的隐含层状态(h'dec,t是hdec,t在上计算的注意力结果),请注意hdec,t是由多个共享解码器和私有解码器经过融合网络的解码结果,最终经过k次跳跃得到一个查询的外部知识概率分布。在生成的过程中选择知识概率最高的结果。
在本实施例中,优选的,由于编码器总数为领域数+1,故解码器的总数依然是领域总数+1。解码器依旧分为多个专属的私有解码器以及一个共享编码器。在本发明中采用了Sketch RNN作为解码器。这是一种特殊的GRU网络。在任意一个时刻,解码器可能会生成具体的一个单词,或者生成一个粗略标签(sketch tags)。比如生成了粗略标签@address,则代表此处生成了一个任意的地点。这个地点具体的值由记忆网络查询的概率分布决定。下面是一个具体的例子:
@poi is@poi distance away---->Starbucks is 1mile away
解码器的构成和编码器保持一致,最终的解码结果是由多个专属的私有解码器以及一个共享编码器通过与相同的融合计算方式得到/>本发明的整体编解码器框架和基于注意力机制的序列到序列模型(Seq2Seq+Att)保持一致。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。
Claims (5)
1.一种融合多路注意力机制的智能对话系统,其特征在于,包括依次连接的编码器模块、多路注意力模块、动态融合模块、外部知识模块和解码器模块;
所述编码器模块,用于针对历史上下文进行多领域的编码;
所述多路注意力模块,用于提取上下文单词之间的注意力关系;
所述动态融合模块,用于融合编码器和注意力的编码结果;
所述外部知识模块,用于辅助生成特定领域知识的句子内容;
所述解码器模块,用于生成具体的句子内容;
所述编码器模块包括私有编码器和共享编码器;
所述编码器模块从历史上下文中提取通用领域的编码信息,特定领域的编码信息以及领域与领域之间的编码信息,具体如下:
利用双向GRU对历史上下文进行编码,每个领域都有自己特有的专属的私有编码器,以及一个共享编码器,故在编码器模块的编码器总数为领域总数+1;
所述专属的私有编码器用于提取领域的特定知识,共享编码器用于提取领域之间的公有特征;
编码器公式如下:
hi=BiGRU(e(x),hi-1)
其中hi是i时刻的隐含层向量,e(x)代表历史上下文单词x的词嵌入表示;最终生成全局上下文隐含层向量定义共享编码器生成的全局上下文隐含层表示为/>特定域的全局上下文隐含层向量为/>这里上标di代表领域i的编码;
所述多路注意力模块融合多头自注意力,双线性注意力以及拼接注意力机制,并在融合机制后追加一个注意力模块;
所述在融合机制后追加一个注意力模块,具体为:利用GLU网络,公式如下:
其中,W1、W2是可训练矩阵,b1、b2是偏置,X是注意力的输入,即双向GRU编码的结果HAtt代表注意力的结果包括HAtt、Hbi和Hconcat,δ是sigmoid激活函数,/>代表矩阵元素点乘,/>代表拼接;
所述多头自注意力公式如下:
对于多头自注意力而言,Q=K=V=H,为当前编码的单词矩阵;dk代表Q和K的维度;
拼接自注意力公式如下:
其中代表t时刻第j个单词的自注意力,/>代表t时刻单词i的权重,/>代表t时刻的拼接自注意力,/>和/>代表拼接注意力的权重矩阵,/>是权重向量,N是单词的总数;最终生成一个拼接自注意力表示Hconcat;
双线性自注意力公式如下:
其中代表t时刻第j个单词的自注意力,/>代表t时刻单词i的权重,/>代表t时刻的双线性自注意力,Wbi双线性注意力的权重矩阵,N是单词的总数;最终生成一个双线性自注意力表示Hbi。
2.根据权利要求1所述的一种融合多路注意力机制的智能对话系统,其特征在于,所述编码器在训练过程中引入一个对抗训练的方式,具体是:构建一个CNN的域分类器来识别对话历史和回复表示的共享表示域,通过引入梯度反转层,使得模型一方面最小化领域分类的误差,另一方面更新分类器底层网络最大化域分类损失。
3.根据权利要求1所述的一种融合多路注意力机制的智能对话系统,其特征在于,所述动态融合模块将多领域编码信息进行融合,从而生成兼具特异性和泛化性的对话上下文表示,具体如下:定义私有编码器的上下文编码向量为共享编码器的上下文编码向量为/>
融合多路注意力机制的全局上下文私有的编码信息通过以下公式将进行融合:
其中代表t时刻领域i的编码层隐含层状态,这里W、W1、W2是可训练的权重,b是偏置;at代表t时刻私有编码器的权重;
最终某个特定领域私有编码器的编码器结果和共享编码器的编码结果/>通过专家机制动态融合生成最终的结果/>
4.根据权利要求1所述的一种融合多路注意力机制的智能对话系统,其特征在于,所述外部知识模块,利用记忆网络将不同细粒度的编码信息对外部知识进行查询,从而提取有用的外部知识,具体如下:
外部知识模块的原型是一个记忆网络,定义可训练的权重矩阵C=(C1,C2,…,Ck+1);初始时刻有这里hT是/>最后一个时刻的隐含层向量;利用k次跳跃计算注意力权重,公式如下:
其中代表Ck+1矩阵在第i个记忆的嵌入位置;
定义全局上下文指针G=(g1,g2,…,gb+T),这里的 用于初步筛选对生成有用的知识;
整个记忆网络的流程可以看作是记忆的读出和写入的过程,公式如下:
是查询向量,视为外部知识库的编码结果,并且被用于初始化解码器;/>代表k次跳跃后记忆网络的读出内容;
最终外部知识的分布计算需要依托于解码器的隐含层状态,其公式如下:
其中,hdec,t和h′dec,t代表解码器隐含层状态以及经过注意力后的隐含层状态,hdec,t是由多个共享解码器和私有解码器经过融合网络的解码结果,最终经过k次跳跃得到一个查询的外部知识概率分布。
5.根据权利要求1所述的一种融合多路注意力机制的智能对话系统,其特征在于,所述解码器模块采用了Sketch RNN作为解码器,包括若干专属的私有解码器以及一个共享编码器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110776034.XA CN113505208B (zh) | 2021-07-09 | 2021-07-09 | 一种融合多路注意力机制的智能对话系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110776034.XA CN113505208B (zh) | 2021-07-09 | 2021-07-09 | 一种融合多路注意力机制的智能对话系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113505208A CN113505208A (zh) | 2021-10-15 |
CN113505208B true CN113505208B (zh) | 2024-02-02 |
Family
ID=78012442
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110776034.XA Active CN113505208B (zh) | 2021-07-09 | 2021-07-09 | 一种融合多路注意力机制的智能对话系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113505208B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114860914B (zh) * | 2022-05-26 | 2023-06-16 | 南京信息工程大学 | 一种基于知识库增强的端到端多领域任务型对话生成方法 |
CN115658908B (zh) * | 2022-12-29 | 2023-04-11 | 华南理工大学 | 一种基于对话交互过程的大五人格感知方法及其系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109472031A (zh) * | 2018-11-09 | 2019-03-15 | 电子科技大学 | 一种基于双记忆注意力的方面级别情感分类模型及方法 |
CN110309287A (zh) * | 2019-07-08 | 2019-10-08 | 北京邮电大学 | 建模对话轮次信息的检索式闲聊对话打分方法 |
CN111540468A (zh) * | 2020-04-21 | 2020-08-14 | 重庆大学 | 一种诊断原因可视化的icd自动编码方法与系统 |
CN112084314A (zh) * | 2020-08-20 | 2020-12-15 | 电子科技大学 | 一种引入知识的生成式会话系统 |
CN112463935A (zh) * | 2020-09-11 | 2021-03-09 | 湖南大学 | 一种带有强泛化知识选择的开放域对话生成方法及模型 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120122397A1 (en) * | 2009-01-27 | 2012-05-17 | Brown Stephen J | Semantic Note Taking System |
US20180329884A1 (en) * | 2017-05-12 | 2018-11-15 | Rsvp Technologies Inc. | Neural contextual conversation learning |
-
2021
- 2021-07-09 CN CN202110776034.XA patent/CN113505208B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109472031A (zh) * | 2018-11-09 | 2019-03-15 | 电子科技大学 | 一种基于双记忆注意力的方面级别情感分类模型及方法 |
CN110309287A (zh) * | 2019-07-08 | 2019-10-08 | 北京邮电大学 | 建模对话轮次信息的检索式闲聊对话打分方法 |
CN111540468A (zh) * | 2020-04-21 | 2020-08-14 | 重庆大学 | 一种诊断原因可视化的icd自动编码方法与系统 |
CN112084314A (zh) * | 2020-08-20 | 2020-12-15 | 电子科技大学 | 一种引入知识的生成式会话系统 |
CN112463935A (zh) * | 2020-09-11 | 2021-03-09 | 湖南大学 | 一种带有强泛化知识选择的开放域对话生成方法及模型 |
Non-Patent Citations (2)
Title |
---|
Chongqing Chen,....Multimodal Encoder-Decoder Attention Networks for Visual Question Answering.IEEE Access.2020,全文. * |
一种基于记忆网络的多轮对话下的意图识别方法;杨成彪;吕荣荣;吴刚;;电子技术与软件工程(第10期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113505208A (zh) | 2021-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Vashisht et al. | Speech recognition using machine learning | |
CN110321417B (zh) | 一种对话生成方法、系统、可读存储介质及计算机设备 | |
CN110297887B (zh) | 基于云平台的服务机器人个性化对话系统及方法 | |
CN113505208B (zh) | 一种融合多路注意力机制的智能对话系统 | |
CN112214591B (zh) | 一种对话预测的方法及装置 | |
CN108595436A (zh) | 情感对话内容的生成方法和系统、存储介质 | |
CN112633364A (zh) | 一种基于Transformer-ESIM注意力机制的多模态情绪识别方法 | |
Tarek et al. | Towards highly adaptive edu-chatbot | |
CN115964467A (zh) | 一种融合视觉情境的富语义对话生成方法 | |
CN112101044B (zh) | 一种意图识别方法、装置及电子设备 | |
CN112364148B (zh) | 一种基于深度学习方法的生成型聊天机器人 | |
CN112100350B (zh) | 一种用于强化回复个性化表达的开放域对话方法 | |
CN109933773A (zh) | 一种多重语义语句解析系统及方法 | |
Maslennikova | ELMo Word Representations For News Protection. | |
CN115858756A (zh) | 基于感知情绪倾向的共情人机对话系统 | |
Chou et al. | A task-oriented chatbot based on LSTM and reinforcement learning | |
Farella et al. | Question Answering with BERT: designing a 3D virtual avatar for Cultural Heritage exploration | |
CN117994622A (zh) | 多模态感知融合的情感识别方法和机器人情感交互方法 | |
CN112463935B (zh) | 一种带有强泛化知识选择的开放域对话生成方法及系统 | |
CN114328866A (zh) | 应答流畅准确的强拟人化智能对话机器人 | |
CN112115718B (zh) | 内容文本生成方法和装置、音乐评论文本生成方法 | |
CN112417125B (zh) | 基于深度强化学习的开放域对话回复方法及系统 | |
Belainine et al. | End-to-end dialogue generation using a single encoder and a decoder cascade with a multidimension attention mechanism | |
Chaurasia et al. | Conversational AI Unleashed: A Comprehensive Review of NLP-Powered Chatbot Platforms | |
CN114861627B (zh) | 一种基于深度学习的选择题干扰项自动化生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |