CN111143509B - 一种基于静态-动态注意力变分网络的对话生成方法 - Google Patents

一种基于静态-动态注意力变分网络的对话生成方法 Download PDF

Info

Publication number
CN111143509B
CN111143509B CN201911250610.6A CN201911250610A CN111143509B CN 111143509 B CN111143509 B CN 111143509B CN 201911250610 A CN201911250610 A CN 201911250610A CN 111143509 B CN111143509 B CN 111143509B
Authority
CN
China
Prior art keywords
context
vector
sentence
representing
reply
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911250610.6A
Other languages
English (en)
Other versions
CN111143509A (zh
Inventor
贺瑞芳
王瑞芳
常金鑫
王龙标
党建武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201911250610.6A priority Critical patent/CN111143509B/zh
Publication of CN111143509A publication Critical patent/CN111143509A/zh
Application granted granted Critical
Publication of CN111143509B publication Critical patent/CN111143509B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种基于静态‑动态注意力变分网络的对话生成方法,包括如下步骤:1)构建上下文理解模块:利用包括句子编码器和上下文编码器构成的分层编码器,编码输入的上下文,得到关于对话上下文的历史向量;2)构建主旨提取模块:引入基于vMF分布的识别/先验(recognition/prior)网络和静态注意力机制得到全局结构信息的潜在表示和关于回复中心思想的主旨表示;3)构建回复生成模块:结合解码器、动态注意力机制,将历史向量,潜在表示和主旨表示作为输入,捕获局部产生更加多样性和有意义的回复。该对话生成方法利用静态和动态注意力机制从全局和局部的角度捕获相关信息,生成更加语义相关和多样化的回复。其实验结果在相较现在的模型在各项实验指标上取得了更好的结果。

Description

一种基于静态-动态注意力变分网络的对话生成方法
技术领域
本发明涉及自然语言处理以及对话系统技术领域,具体为一种基于静态-动态注意力变分网络的对话生成方法。
背景技术
目前人工智能与深度学习顺应了互联网时代潮流,智能对话系统已经成为目前人工智能领域中非常热门的处理技术,相对于传统的页面简单交互,智能对话系统更加自然和灵活。例如Siri、Cortana和Google Now,它们的作用是提供各种被动性和主动性的帮助,以辅助用户在多个垂直领域完成任务。该类对话系统是目标导向型的,对话的目的是在有限的轮次内解决某些问题,主要采用的是空位填槽的方式,每个空位代表了一个特征量。这类系统只适合于特定问题,很难推广到其他应用场景下,例如推荐电影的对话系统不能实现餐厅预订。
随着社交网络的发展,面向开放域的对话系统[1]吸引了越来越多的研究者的关注。该类对话系统旨在与人类就广泛的主题进行自然和一致的互动,可以满足用户对于沟通、情感及社会归属感的感性需求。面向开放域对话系统的主要技术包括:(1)基于检索的方法:根据用户给出的话语与数据库中的候选回复进行匹配,选择匹配分数最高的一项作为回复;(2)基于生成的方法:利用基于encoder-decoder框架的seq2seq模型[2],根据用户的输入直接生成输出;(3)混合方法:将检索和生成方法结合在一起得到最终的回复[3]
开放域对话系统研究重点是产生更加多样化且与主题一致的回复。多样性使得产生的回复新颖性更强,一致性让回复与用户上下文更相关。基于检索的方法生成效果更为稳定,但是无法获得数据库之外的回答;基于生成的方法会生成一些敷衍式的没有太多信息量的无用语句,这不满足回复的多样性并且无法有效利用上下文中的主旨信息。
发明内容
本发明的目的是为了克服现有技术中的不足,提供一种基于静态-动态注意力变分网络的对话生成方法,其利用静态-动态注意力变分网络提取主旨信息并生成回复,得到的对话生成结果相较于现有模型在Average,Greedy,Extreme,Distinct-1和Distinct-2这5个指标中的结果最好。
本发明的目的是通过以下技术方案实现的:
一种基于静态-动态注意力变分网络的对话生成方法,包括以下步骤:
(1)构建上下文理解模块:
上下文理解模块是利用句子编码器和上下文编码器对训练语料中的对话上下文进行编码得到关于对话上下文的历史向量ln;该模块中给定对话上下文x=(x1,x2,…xi,…,xn),其中n表示上下文中句子的个数,xi=(xi,1,xi,2,…,xi,Ni)表示句子xi中有Ni个单词;生成回复y=(y1,y2,…,yi,…,ym),其中yi表示回复中的第i个单词,m表示回复中单词的个数;
(2)构建主旨提取模块:
主旨提取模块利用基于vMF分布的识别/先验(recognition/prior)网络得到全局结构信息潜在表示z并利用静态注意力机制提炼出一个能够代表回复中心思想的主旨表示csta
(3)构建回复生成模块:
基于主旨的回复生成模块利用了动态注意力机制;该模块中的解码器以历史向量ln,全局结构信息潜在表示z和主旨表示csta作为初始潜在状态,最终生成语义相关且多样性的回复。
进一步的,步骤(1)中为得到训练语料包括以下步骤:
(101)规范对话长度,保留原始训练语料中对话长度为2-10轮的对话;
(102)将(101)中得到的对话中最后一句视为回复,其余句子视为上下文。
进一步的,步骤(1)中,句子编码器由双向GRU构成,针对上下文中每一个句子xi进行编码得到句子向量hi,其具体计算公式如下:
Figure BDA0002308934120000021
Figure BDA0002308934120000022
Figure BDA0002308934120000023
Figure BDA0002308934120000024
Figure BDA0002308934120000025
分别表示上下文句子xi中第j个单词在前向GRU和后向GRU中的潜在状态,Ni表示句子xi中单词的个数;/>
Figure BDA0002308934120000026
表示句子编码器中的前向GRU,/>
Figure BDA0002308934120000027
表示句子编码器中的后向GRU;hi,j则为上下文句子xi中第j个单词在双向GRU中状态向量;hi是表示上下文句子xi的句子向量;同理可得到回复y的向量表示hy
上下文编码器由GRU构成,将上下文中每一个句子的句子向量按顺序作为输入,计算得到关于对话上下文的历史向量ln,具体计算公式如下:
Figure BDA0002308934120000028
其中
Figure BDA0002308934120000031
表示GRU构成的上下文编码器,h1,h2,…,hn表示输入的句子向量,n为输入句子向量的个数,/>
Figure BDA0002308934120000032
为上下文编码器得到的n个潜在向量,将上下文编码器最后的潜在向量ln作为关于对话上下文的历史向量。
进一步的,步骤(2)中,主旨提取模块由基于vMF分布的识别/先验网络和静态注意力机制组成;具体包括以下步骤:
首先,利用基于vMF分布的识别/先验网络采样得到关于上下文的全局结构信息的潜在表示z;vMF分布即von Mises-Fisher分布,用于表示单位球面上的概率分布,其密度函数如下:
Figure BDA0002308934120000033
Figure BDA0002308934120000034
上述公式中,
Figure BDA0002308934120000035
d表示/>
Figure BDA0002308934120000036
空间的维度,z表示d维的单元随机向量;/>
Figure BDA0002308934120000037
表示单位球面上的方向向量,||μ||=1;κ≥0表示浓度参数;Iρ表示ρ阶的修正Bessel函数,其中ρ=d/2-1;上述分布指出了单位向量在球面上的分布情况;
全局结构信息的潜在表示z,根据如下公式进行采样:
Figure BDA0002308934120000038
其中,ω∈[-1,1];
利用基于vMF分布的识别/先验网络的损失函数表示如下:
Figure BDA0002308934120000039
由上述公式可知,损失中主要包含两个分布,qφ(z|x,y)为后验分布用于表示识别网络,具体表示为qφ(z|x,y)=vMF(μre,kre);pθ(z|x)为先验分布用于表示先验网络,具体表示为pθ(z|x)=vMF(μprior,kprior);KL(qφ(z|x,y)||pθ(z|x))用于计算识别网络和先验网络之间的KL散度;其中kre,kprior为常量,μre是后验分布的参数,μprior是先验分布的参数,具体计算如下:
Figure BDA00023089341200000310
Figure BDA00023089341200000311
Figure BDA00023089341200000312
Figure BDA0002308934120000041
其中fre(·)和fprior(·)是两个线性函数,||·||用于确保正则化;
其次,利用静态注意力机制得到关于回复中心思想的主旨表示csta
在通过基于vMF分布的识别/先验网络采样得到全局结构信息的潜在表示z后,利用z与
Figure BDA0002308934120000042
作为静态注意力机制的输入得到权重α,计算如下:
Figure BDA0002308934120000043
α=softmax(e) (15)
其中,vsta,Wl,Wz,bsta是待学习的参数,α=(α12,…,αn)是通过softmax函数计算得到的关于
Figure BDA0002308934120000044
的权重,它衡量了每个句子对于中心思想所做的贡献。
通过以下公式计算主旨表示csta
csta=∑iαihi (16)
进一步的,步骤(3)中,具体步骤如下:
首先利用动态注意力机制在每个时间步t学习上下文向量
Figure BDA0002308934120000045
目的是选择解码器在生成下一个单词yt时应该关注的信息;在每个时间步t,解码器都会处理前一个单词的嵌入,并产生解码器状态st,用于确定上下文向量/>
Figure BDA0002308934120000046
利用st与h′i作为动态注意力机制的输入得到βt,计算如下:
Figure BDA0002308934120000047
βt=softmax(dt) (18)
其中,h′i表示整个上下文中第i个词的潜在向量;βt表示在第t时间步由softmax函数得到的动态注意力分布;vdyn,Wh′,Ws,bdyn是待学习的参数;
Figure BDA0002308934120000048
计算如下:
Figure BDA0002308934120000049
Figure BDA00023089341200000410
表示在时间t学习到的上下文向量。
其次,将主旨表示csta、上下文向量
Figure BDA00023089341200000411
和解码器状态st结合在一起,最终计算得到词表分布pvocab
Figure BDA00023089341200000412
V′,,b,b′都是待学习的参数,pvocab是整个词表的概率分布,该概率分布可以用于学习回复中生成单词的概率pvocab(yt);最终回复的生成概率如下:
Figure BDA0002308934120000051
上述解码过程中的损失函数表示如下:
Figure BDA0002308934120000052
Figure BDA0002308934120000053
表示重构误差。
整个过程的损失函数表示:
Figure BDA0002308934120000054
与现有技术相比,本发明的技术方案所带来的有益效果是:
1.为了解决KL散度消失问题,本发明在步骤(2)在进行主旨提取时,引入vMF分布代替之前模型中的Gaussian分布作为识别网络和先验网络,使用Gaussian分布的模型中KL散度是利用Gaussian分布的均值和方差进行计算的,但是在训练中均值和方差在不断进行变化,会引起KL散度消失问题;因此本发明中利用vMF分布代替Gaussian分布,该分布中KL散度是由参数κ决定的,该参数κ为常量,在训练中不会进行变化,因此不会引起KL散度消失问题,从而可以充分使用潜在空间。
2.为了提高回复的一致性和多样性,本发明在步骤(2)利用静态注意力机制,提取能够代表回复中心思想的主旨表示csta;在步骤(3)利用动态注意力机制生成上下文向量
Figure BDA0002308934120000055
用于决定生成下一个单词yt应当关注的信息;在生成过程中,将主旨表示csta和上下文向量/>
Figure BDA0002308934120000056
作为解码器的输入,最终产生更加有意义和多样化的回复。通过实验表明,该信息量的引入可以有效提高Average,Greedy,Extreme,Distinct-1和Distinct-2指标,说明上述两项的引入有益于增强响应中一致性和信息量。
附图说明
图1为本发明提供的基于静态-动态注意力变分网络的对话生成方法框架图。
图2为SdavNet模型中采用Gaussian分布和vMF分布在训练中KL散度计算结果。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以康奈尔电影数据集(Cornell Movie Dialogs Corpus)和Ubuntu对话数据集(Ubuntu Dialogue Corpus)为例给出本发明的实施方法。该方法整体框架见图1所示。整个系统算法流程包括上下文理解模块的输入、主旨提取过程、生成回复这3个步骤。
具体步骤如下:
(1)上下文理解模块的输入:
本发明主要利用了以下两个数据集:Cornell Movie Dialogs Corpus和UbuntuDialogue Corpus。其中Cornell Movie Dialogs Corpus包含了超过80000个电影中的会话;Ubuntu Dialogue Corpus包含了大约500000个从Ubuntu Internet Relayed Chat中收集的多轮对话,每个对话都以一个技术问题的解决方案为相应回答。本发明以这两个对话数据集为原始语料构建上下文理解模块并对原始语料进行如下处理:(1)删除语料库中不符合语法的词语;(2)删除对话数据集中对话回合数少于2或者大于10的对话;(3)将每个对话中的最后一句作为响应,其之前的句子都作为对话上下文。表1展示了两个数据集的详细统计信息。其中,Cornell Movie Dialogs Corpus中有用于训练的对话135155个,用于验证的对话1393个,用于测试的对话1193个,其中每轮对话包含的平均句子数为3.93,平均单词数为16.7,词表大小为10000;Ubuntu Dialogue Corpus中有用于训练的对话448833个,用于验证的对话19584个,用于测试的对话18920个,其中每轮对话包含的平均句子数为4.94,平均单词数为23.67,词表大小为20000。
表1对话数据集统计信息
语料库 训练 验证 测试 平均句子数 平均单词数 词表数
Cornell 135155 1393 1193 3.93 16.7 10000
Ubuntu 448833 19584 18920 4.94 23.67 20000
基于以上数据集,本发明利用双向GRU和单向GRU分别构成句子编码器和上下文编码器共同构成上下文理解模块,最终得到关于对话上下文的历史向量ln
Figure BDA0002308934120000061
Figure BDA0002308934120000062
Figure BDA0002308934120000063
Figure BDA0002308934120000064
Figure BDA0002308934120000065
Figure BDA0002308934120000066
分别表示上下文句子xi中第j个单词在前向GRU和后向GRU中的潜在状态,Ni表示句子xi中单词的个数;/>
Figure BDA0002308934120000067
表示句子编码器中的前向GRU,/>
Figure BDA0002308934120000068
表示句子编码器中的后向GRU;hi,j则为上下文句子xi中第j个单词在双向GRU中状态向量;hi是表示上下文句子xi的句子向量;/>
Figure BDA0002308934120000071
表示GRU构成的上下文编码器,h1,h2,…,hn表示输入的句子向量,n为输入句子向量的个数,/>
Figure BDA0002308934120000072
为上下文编码器得到的n个潜在向量,ln表示对话上下文的历史向量。
(2)主旨提取过程:
按照上一步得到的上下文历史向量ln,进行主旨表示提取:
为了得到关于回复中心思想的主旨表示,首先利用基于vMF分布的识别/先验网络得到全局结构信息表示z,并按照如下的目标函数进行训练:
Figure BDA0002308934120000073
其中,qφ(z|x,y)为后验分布用于表示识别网络,具体表示为qφ(z|x,y)=vMF(μre,kre);pθ(z|x)为先验分布用于表示先验网络,具体表示为pθ(z|x)=vMF(μprior,kprior);KL(qφ(z|x,y)||pθ(z|x))用于计算识别网络和先验网络之间的KL散度;其中kre,kprior为常量,μre是后验分布的参数,μprior是先验分布的参数
然后利用静态注意力机制得到主旨表示csta
Figure BDA0002308934120000074
α=softmax(e)
csta=∑iαihi
(3)生成回复
为了得到最终的回复,要求以历史向量ln、全局结构信息z和主旨表示csta作为输入,通过动态注意力机制得到生成回复中每个时间步应关注的上下文向量
Figure BDA0002308934120000075
Figure BDA0002308934120000076
βt=softmax(dt)
Figure BDA0002308934120000077
其中,
Figure BDA0002308934120000078
表示在时间步t学习到的上下文向量,h′i表示整个上下文中第i个词的潜在向量;βt表示在时间步t由softmax函数得到的动态注意力分布;vdyn,Wh′,Ws,bdyn是待学习的参数;
利用一下目标函数训练生成过程:
Figure BDA0002308934120000081
Eqφ(z|x,y)[logp(y|x,z)]表示重构误差,p(y|x,z)表示响应y的生成概率,pvocab(yi)表示响应中词表分布。
Figure BDA0002308934120000082
上式表示整个模型的训练目标。
在具体的实施过程中,该方法是基于tensorflow实现的并在Nvidia GPU上进行训练。提前设定了各种参数,词向量的维度为200并随机初始化,编码器和解码器中的GRUs的隐藏大小为500。从vMF分布中采样得到的潜在变量z的维度是100。使用Adam[4]算法以0.001的初始学习率更新参数,在训练中,采用early-stop strategy[5],使用测试集上的变分下界来选择最佳模型。
表2-1至表2-3显示了本模型(SdavNet)、本模型的简化版本(SdavNetdyn、SdavNetsta)以及其它模型(S2SA、HRED、VHRED、HVMN)在两个数据集和五个评价指标上(Average、Greedy、Extreme、Distinct-1、Distinct-2)的结果。
表2-1 Cornell Movie Dialogs Corpus对话数据集的自动评估结果
Figure BDA0002308934120000083
表2-2 Ubuntu Dialogue Corpus对话数据集的自动评估结果
Figure BDA0002308934120000084
Figure BDA0002308934120000091
表2-3 Cornell Movie Dialogs Corpus对话数据集上的模型消融性能
Figure BDA0002308934120000092
表中的对比实验算法描述如下:
S2SA:带有注意机制的标准seq2seq模型;
HRED:多回合对话模型的分层编码框架;
VHRED:一种具有潜在随机变量的分层编码解码器;
HVMN:一种包含层次结构和可变存储器的编解码网络;
SdavNetdyn、SdavNetsta:是我们提出的2个退化模型;
备注:本发明提供的方法为SdavNet,dyn表示动态注意力机制,sta表示静态注意力机制,由此产生了2个SdavNet的退化模型。
图2显示了主旨提取过程中采用不同的不同分布解决KL散度消失的结果。
表3显示了本模型(SdavNet)、以及其它模型(S2SA、HRED、VHRED、HVMN)在CornellMovie Dialogs Corpus数据集上人工评测结果的结果。
表3 Cornell Movie Dialogs Corpus对话数据集的人工评估结果
Figure BDA0002308934120000093
本实施例邀请了3位人工注释员来判断生成的响应的质量。向他们展示了300个上下文,每个模型都生成了回复。根据以下标准对每个响应进行评级:1.回复不符合语法或语义;2.回复符合语法且相关性较弱,但信息量可能不够(例如,“I don’t know”);3.回复不仅符合语法和语义,而且内容丰富有趣。注释员之间的一致性用Fleiss’kappa[6]计算。
从表2-1至表2-3的实验结果中可以看出,通过静态注意力机制利用全局信息进行主旨提取并通过动态注意力机制利用局部信息生成回复生成过程中每个时间步应该关注的对象,可以极大地提升自动评估标准的结果。从表3的实验结果可以看出本发明生成的响应在结果上更加丰富有趣,其内容更加符合开放域对话生成方法中的多样性的需求。
本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案,上述的具体实施方式仅仅是示意性的,并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。
参考文献:
[1]Perez-Marin,D.:Conversational agents and natural languageinteraction:Techniques and e ective practices.IGI Global(2011)
[2]Shang,L.,Lu,Z.,Li,H.:Neural responding machine for short-textconversation.In:Proceedings of the 53rd Annual Meeting of the Association forComputational Linguistics(ACL),pp.1577–1586(2015)
[3]Y.Song,R.Yan,X.Li,D.Zhao,and M.Zhang.Two are better than one:Anensemble of retrievaland generation-based dialog systems.arXiv preprintarXiv:1610.07149,2016.
[4]Kingma,D.,Ba,J.:Adam:Amethod for stochastic optimization.arXiv:1412.6980(2014)
[5]Caruana,R.,Lawrence,S.,Giles,C.L.:Overfitting in neural nets:Backpropagation,conjugate gradient,and early stopping.In:Advances in neuralinformation processing systems 13(NIPS),pp.402–408(2000)
[6]Fleiss,J.L.,Cohen,J.:The equivalence of weighted kappa and theintra class correlation coecient as measures of reliability.Educational andpsychological mea-surement.33(3),613-619(1973)

Claims (2)

1.一种基于静态-动态注意力变分网络的对话生成方法,其特征在于,包括以下步骤:
(1)构建上下文理解模块:
上下文理解模块是利用句子编码器和上下文编码器对训练语料中的对话上下文进行编码得到关于对话上下文的历史向量ln;该模块中给定对话上下文x=(x1,x2,…xi,…,xn),其中n表示上下文中句子的个数,xi=(xi,1,xi,2,…,xi,Ni)表示句子xi中有Ni个单词;生成回复y=(y1,y2,…,yi,…,ym),其中yi表示回复中的第i个单词,m表示回复中单词的个数;
句子编码器由双向GRU构成,针对上下文中每一个句子xi进行编码得到句子向量hi,其具体计算公式如下:
Figure FDA0004250087390000011
Figure FDA0004250087390000012
Figure FDA0004250087390000013
Figure FDA0004250087390000014
Figure FDA0004250087390000015
分别表示上下文句子xi中第j个单词在前向GRU和后向GRU中的潜在状态,Ni表示句子xi中单词的个数;/>
Figure FDA0004250087390000016
表示句子编码器中的前向GRU,/>
Figure FDA0004250087390000017
表示句子编码器中的后向GRU;hi,j则为上下文句子xi中第j个单词在双向GRU中的状态向量;hi是表示上下文句子xi的句子向量;同理可得到回复y的向量表示hy
上下文编码器由GRU构成,将上下文中每一个句子的句子向量按顺序作为输入,计算得到关于对话上下文的历史向量ln;具体计算公式如下:
Figure FDA0004250087390000018
其中
Figure FDA0004250087390000019
表示GRU构成的上下文编码器,h1,h2,…,hn表示输入的句子向量,n为输入句子向量的个数,/>
Figure FDA00042500873900000110
为上下文编码器得到的n个潜在向量,将上下文编码器最后的潜在向量ln作为关于对话上下文的历史向量;
(2)构建主旨提取模块:
主旨提取模块利用基于vMF分布的识别/先验recognition/prior网络得到全局结构信息潜在表示z并利用静态注意力机制提炼出一个能够代表回复中心思想的主旨表示csta;主旨提取模块由基于vMF分布的识别/先验网络和静态注意力机制组成;具体包括以下步骤:
首先,利用基于vMF分布的识别/先验网络采样得到关于上下文的全局结构信息的潜在表示z;vMF分布即von Mises-Fisher分布,用于表示单位球面上的概率分布,其密度函数如下:
Figure FDA0004250087390000021
Figure FDA0004250087390000022
上述公式中,
Figure FDA0004250087390000023
d表示/>
Figure FDA0004250087390000024
空间的维度,z表示d维的单元随机向量;/>
Figure FDA0004250087390000025
表示单位球面上的方向向量,||μ||=1;κ≥0表示浓度参数;Iρ表示ρ阶的修正Bessel函数,其中ρ=d/2-1;上述分布指出了单位向量在球面上的分布情况;
全局结构信息的潜在表示z,根据如下公式进行采样:
Figure FDA0004250087390000026
其中,ω∈[-1,1];
利用基于vMF分布的识别/先验网络的损失函数表示如下:
Figure FDA0004250087390000027
由上述公式可知,损失中包含两个分布,qφ(z|x,y)为后验分布用于表示识别网络,具体表示为qφ(z|x,y)=vMF(μre,kre);pθ(z|x)为先验分布用于表示先验网络,具体表示为pθ(z|x)=vMF(μprior,kprior);KL(qφ(z|x,y)||pθ(z|x))用于计算识别网络和先验网络之间的KL散度;其中kre,kprior为常量,μre是后验分布的参数,μprior是先验分布的参数,具体计算如下:
Figure FDA0004250087390000028
Figure FDA0004250087390000029
Figure FDA00042500873900000210
Figure FDA00042500873900000211
其中fre(·)和fprior(·)是两个线性函数,||·||用于确保正则化;
其次,利用静态注意力机制得到关于回复中心思想的主旨表示csta
在通过基于vMF分布的识别/先验网络采样得到全局结构信息的潜在表示z后,利用z与
Figure FDA00042500873900000212
作为静态注意力机制的输入得到权重α,计算如下:
Figure FDA00042500873900000213
α=spftmax(e) (15)
其中,vsta,Wl,Wz,bsta是待学习的参数,α=(α12,…,αn)是通过softmax函数计算得到的关于
Figure FDA0004250087390000031
的权重,它衡量了每个句子对于中心思想所做的贡献;
通过以下公式计算主旨表示csta
csta=∑iαihi (16);
(3)构建回复生成模块:
基于主旨的回复生成模块利用了动态注意力机制;该模块中的解码器以历史向量ln、全局结构信息潜在表示z和主旨表示csta作为初始潜在状态,最终生成语义相关且多样性的回复;
具体步骤如下:
首先利用动态注意力机制在每个时间步t学习上下文向量
Figure FDA0004250087390000032
目的是选择解码器在生成下一个单词yt时应该关注的信息;在每个时间步t,解码器都会处理前一个单词的嵌入,并产生解码器状态st,用于确定上下文向量/>
Figure FDA0004250087390000033
利用st与h′i作为动态注意力机制的输入得到βt,计算如下:
Figure FDA0004250087390000034
βt=softmax(dt) (18)
其中,h′i表示整个上下文中第i个词的潜在向量;βt表示在第t时间步由softmax函数得到的动态注意力分布;vdyn,Wh′,Ws,bdyn是待学习的参数;
Figure FDA0004250087390000035
计算如下:
Figure FDA0004250087390000036
Figure FDA0004250087390000037
表示在时间t学习到的上下文向量;
其次,将主旨表示csta、上下文向量
Figure FDA0004250087390000038
和解码器状态st结合在一起,最终计算得到词表分布pvocab
Figure FDA0004250087390000039
V′,V,b,b′都是待学习的参数,Pvocab是整个词表的概率分布,该概率分布用于学习回复中生成单词的概率pvocab(yt);最终回复的生成概率如下:
Figure FDA00042500873900000310
上述解码过程中的损失函数表示如下:
Figure FDA00042500873900000311
Figure FDA00042500873900000312
表示重构误差;
整个过程的损失函数表示:
Figure FDA0004250087390000041
2.根据权利要求1所述一种基于静态-动态注意力变分网络的对话生成方法,其特征在于,步骤(1)中为得到训练语料包括以下步骤:
(101)规范对话长度,保留原始训练语料中对话长度为2-10轮的对话;
(102)将(101)中得到的对话中最后一句视为回复,其余句子视为上下文。
CN201911250610.6A 2019-12-09 2019-12-09 一种基于静态-动态注意力变分网络的对话生成方法 Active CN111143509B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911250610.6A CN111143509B (zh) 2019-12-09 2019-12-09 一种基于静态-动态注意力变分网络的对话生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911250610.6A CN111143509B (zh) 2019-12-09 2019-12-09 一种基于静态-动态注意力变分网络的对话生成方法

Publications (2)

Publication Number Publication Date
CN111143509A CN111143509A (zh) 2020-05-12
CN111143509B true CN111143509B (zh) 2023-06-30

Family

ID=70517865

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911250610.6A Active CN111143509B (zh) 2019-12-09 2019-12-09 一种基于静态-动态注意力变分网络的对话生成方法

Country Status (1)

Country Link
CN (1) CN111143509B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111680123B (zh) * 2020-05-25 2024-01-26 腾讯科技(深圳)有限公司 对话模型的训练方法、装置、计算机设备及存储介质
CN111625639B (zh) * 2020-06-02 2022-07-12 中国人民解放军国防科技大学 一种基于多轮响应生成的上下文建模方法
CN111931859B (zh) * 2020-08-28 2023-10-24 中国科学院深圳先进技术研究院 一种多标签图像识别方法和装置
CN112199481B (zh) * 2020-09-30 2023-06-16 中国人民大学 一种采用pcc对话模型的单用户个性化对话方法和系统
CN112417890B (zh) * 2020-11-29 2023-11-24 中国科学院电子学研究所苏州研究院 一种基于多样化语义注意力模型的细粒度实体分类方法
CN113470649A (zh) * 2021-08-18 2021-10-01 三星电子(中国)研发中心 语音交互方法及装置
CN113705652B (zh) * 2021-08-23 2024-05-28 西安交通大学 一种基于指针生成网络的任务型对话状态追踪系统及方法
CN114416948A (zh) * 2022-01-18 2022-04-29 重庆邮电大学 一种基于语义感知的一对多对话生成方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763504A (zh) * 2018-05-30 2018-11-06 浙江大学 一种基于强化双通道序列学习的对话回复生成方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10049106B2 (en) * 2017-01-18 2018-08-14 Xerox Corporation Natural language generation through character-based recurrent neural networks with finite-state prior knowledge
US20180329884A1 (en) * 2017-05-12 2018-11-15 Rsvp Technologies Inc. Neural contextual conversation learning
US11568236B2 (en) * 2018-01-25 2023-01-31 The Research Foundation For The State University Of New York Framework and methods of diverse exploration for fast and safe policy improvement
CN108804611B (zh) * 2018-05-30 2021-11-19 浙江大学 一种基于自我评论序列学习的对话回复生成方法及系统
CN109033069B (zh) * 2018-06-16 2022-05-17 天津大学 一种基于社会媒体用户动态行为的微博主题挖掘方法
CN110059190A (zh) * 2019-04-18 2019-07-26 东南大学 一种基于社交媒体内容和结构的用户实时观点检测方法
CN110472730A (zh) * 2019-08-07 2019-11-19 交叉信息核心技术研究院(西安)有限公司 一种卷积神经网络的自蒸馏训练方法和可伸缩动态预测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763504A (zh) * 2018-05-30 2018-11-06 浙江大学 一种基于强化双通道序列学习的对话回复生成方法及系统

Also Published As

Publication number Publication date
CN111143509A (zh) 2020-05-12

Similar Documents

Publication Publication Date Title
CN111143509B (zh) 一种基于静态-动态注意力变分网络的对话生成方法
Zhu et al. Topic-driven and knowledge-aware transformer for dialogue emotion detection
CN110427617B (zh) 推送信息的生成方法及装置
Bosselut et al. Dynamic neuro-symbolic knowledge graph construction for zero-shot commonsense question answering
Liu et al. Knowledge diffusion for neural dialogue generation
Li et al. A persona-based neural conversation model
Li et al. Dialogue generation: From imitation learning to inverse reinforcement learning
Zhang et al. Combining cross-modal knowledge transfer and semi-supervised learning for speech emotion recognition
CN110069612B (zh) 一种回复生成方法及装置
Li et al. Adaptive hierarchical graph reasoning with semantic coherence for video-and-language inference
CN110069611B (zh) 一种主题增强的聊天机器人回复生成方法及装置
Chi et al. Speaker role contextual modeling for language understanding and dialogue policy learning
CN110457661A (zh) 自然语言生成方法、装置、设备及存储介质
CN113178193A (zh) 一种基于智能语音芯片的中文自定义唤醒与物联交互方法
Elshaer et al. Transfer learning from sound representations for anger detection in speech
CN110597968A (zh) 一种回复选择方法及装置
CN111708878A (zh) 一种体育文本摘要提取方法、装置、存储介质及设备
Fu et al. CONSK-GCN: conversational semantic-and knowledge-oriented graph convolutional network for multimodal emotion recognition
CN114547293A (zh) 一种跨平台虚假新闻检测方法及系统
Zhang et al. Emotional text generation based on cross-domain sentiment transfer
Cho et al. A personalized dialogue generator with implicit user persona detection
Sun et al. Neural network with hierarchical attention mechanism for contextual topic dialogue generation
Ai et al. A Two-Stage Multimodal Emotion Recognition Model Based on Graph Contrastive Learning
Mei et al. Towards generating diverse audio captions via adversarial training
CN111046134B (zh) 一种基于回复者个人特征增强的对话生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant