CN114860914A - 一种基于知识库增强的端到端多领域任务型对话生成方法 - Google Patents
一种基于知识库增强的端到端多领域任务型对话生成方法 Download PDFInfo
- Publication number
- CN114860914A CN114860914A CN202210578769.6A CN202210578769A CN114860914A CN 114860914 A CN114860914 A CN 114860914A CN 202210578769 A CN202210578769 A CN 202210578769A CN 114860914 A CN114860914 A CN 114860914A
- Authority
- CN
- China
- Prior art keywords
- dialogue
- attention
- state
- dialog
- calculation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/251—Fusion techniques of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Computational Biology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于知识库增强的端到端多领域任务型对话生成方法,涉及自然语言处理领域。首先将对话数据进行编码,获得向量表示;再通过计算各向量之间的注意力权重,并通过对话状态解码器获得当前对话状态;最后将得到的当前对话状态、知识库信息和对话历史传入解码端,通过行为解码器与响应解码器进行交互生成系统响应。通过多编码器的方式分开编码各类对话数据,使用堆叠注意力层计算各数据向量之间的注意力,能够获得当前完整的对话状态信息,大大提高了任务型对话系统在多领域对话时对用户请求的理解,也提高了系统响应生成的准确度。在解码阶段同时考虑对话行为和对话响应,并引入知识库信息,增加了系统响应内容的丰富性。
Description
技术领域
本发明涉及一种基于知识库增强的端到端多领域任务型对话生成方法,属于自然语言处理技术领域。
背景技术
自然语言处理领域中,对话系统根据应用场景的不同可以分为开放域对话系统和封闭域对话系统。开放域对话系统也称为闲聊型对话系统,其没有任何限定的主题或者明确的目的,用户与系统之间的交互是自由且可以进行任何话题的对话。封闭域对话系统也称为任务型对话系统,任务型对话系统具有明确的目标以及限定的知识范围,旨在为用户提供完成特定任务工作,如购买车票、预订酒店和导航助理等服务。任务型对话系统在工业界也已经进入了应用阶段,如苹果公司的Siri、亚马逊的Echo、谷歌的Allo和微软的Cortana等。这些系统都可以给其用户提供帮助,用户可以方便快捷地处理复杂的任务,大大地减轻了人工负担。
任务型多轮对话系统最广泛应用的方法是将对话过程视为一条管道,包含语音识别(ASR,automatic speech recognition)、自然语言理解(NLU,natural languageunderstanding)、对话管理器(DM,dialogue manager)、语言生成(NLG,natural languagegeneration)、语音合成(TTS,text to speech)等独立模块。但是管道方法的问题也很明显:(1)领域相关性强。针对每个领域都需要人工设计语义槽、动作空间和决策,导致系统的设计和领域非常相关,难以扩展到新的领域。(2)模块之间独立。各个模块之间相互独立,需要为每个模块提供大量的领域相关的标注数据。(3)模块处理相互依赖。上游模块的错误会级联到下游模块,下游模块的反馈难以传到上游模块,使其很难识别错误来源。
随着深度神经网络模型的发展,研究人员提出了端到端的人机对话系统架构。与管道式架构不同,端到端模型根据误差的反向传播共同调整和优化模型内部的网络结构和参数,直到模型收敛或达到预期的效果,中间所有的操作都包含在神经网络内部,不再分成多个独立模块分别处理。目前,大多数任务型对话系统的研究通常只针对某一个特定的领域,对多领域任务的支持并不是很好。多领域对话任务是指系统通过对话完成不同领域的对话任务,并且构建这样的系统往往与实际任务更加相符合。
现有的任务对话系统普遍存在以下几个问题:
1.大多数任务型对话只适用于单个领域,在用户提出跨领域对话时不能有效做出系统回应;
2.多领域对话时,对话状态难以跟踪,包括用户的意图和当前对话领域等信息;
3.现有的模型没有有效地融入外部知识信息,难以生成内容丰富的系统响应;
4.现有工作在系统响应生成过程中,没有考虑到对话行为和系统响应之间的联系,缺少对对话行为的建模。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种基于知识库的端到端多领域任务型对话生成方法,解决现有任务型对话系统在多领域任务对话中生成响应耗时耗力,效率差,准确率低的问题。
为达到上述目的,本发明是采用下述技术方案实现的:
第一方面,一种基于知识库增强的端到端多领域任务型对话生成方法,所述对话生成方法采用深度神经网络模型,模型包括编码端、堆叠注意力层和解码端,编码端包括多个独立的编码器,解码端包括对话状态解码器、行为解码器和响应解码器;多个独立编码器并联后同时与堆叠注意力层和解码端的行为解码器连接,堆叠注意力层与解码端的对话状态解码器连接,行为解码器与响应解码器中连接;
所述任务型对话生成方法包括:
将对话数据进行编码处理,得到对话数据的编码向量,所述对话数据包括对话插槽、对话状态、对话历史、用户语句、知识库、对话领域以及对话行为;
对对话数据的编码向量进行注意力计算,获得堆叠注意力权重;
对堆叠注意力权重进行第一数据融合,并对第一数据融合后的注意力权重进行对话状态解码计算,获得当前对话状态;
将对话历史和知识库进行第二数据融合,并对结果进行编码计算,获得融合隐藏状态;
对当前对话状态和融合隐藏状态进行行为解码计算,获得行为隐藏状态;
将行为隐藏状态进行响应解码计算,获得生成词概率分布,输出任务型对话响应序列。
进一步的,其特征在于,所述将对话数据进行编码处理,得到对话数据的编码向量具体包括:
将各类对话数据Z编码表示记为X,并将文本的词嵌入和位置嵌入通过归一化进行编码,分别得到对话数据中的对话插槽的编码向量XS、对话状态的编码向量Xst、用户语句的编码向量Xuser、对话历史的编码向量Xhis和对话领域的编码向量Xd;t时刻对话行为的编码向量
编码计算公式为:
X=LayerNorm(Xemb+PEmb(Z))
式中,Xemb为文本词嵌入,记为Xemb=Emb(Z),Emb()为词嵌入函数;PEmb()为位置嵌入函数。
进一步的,所述对对话数据的编码向量进行注意力计算,获得堆叠注意力权重;具体包括:
计算对话插槽Xs的自注意力,再将其结果与用户语句Xuser进行计算,然后将结果与对话历史Xhis进行计算,最后结果与上一时间步时的对话状态进行计算;最终经过N次循环的得到第一堆叠注意力权重循环的计算公式包括:
式中,Att(,)为Transformer的注意力计算函数;为对话插槽Xs的自注意力权重;为与用户语句Xuser的注意力权重;为与对话历史Xhis的注意力权重;为与上一时间步时的对话状态的注意力权重。
进一步的,所述对堆叠注意力权重进行第一数据融合,并对第一数据融合后的注意力权重进行对话状态解码计算,获得当前对话状态;具体包括:
式中,pinf为通知槽概率分布;preq为请求槽概率分布;ht表示对话状态解码过程中时间步t的隐藏状态,初始时将融合后的注意力权重作为对话状态解码时的初始隐藏状态h0;Winf和Wreq为在对话状态解码RNN神经网络中使用到的训练参数。
进一步的,所述将对话历史和知识库进行第二数据融合,并对结果进行编码计算,获得融合隐藏状态;具体包括:
第二数据融合的计算公式包括:
XH;B=Emb([H;E])
式中,Emb()为对话历史H和知识库信息B的连接词嵌入函数;
对结果进行编码计算:
He=Transf(XH;B,XH;B,XH;B)
=XH;B+FeedForward(MultiHead(XH;B,XH;B,XH;B))
式中,Transf()表示Transformer编码计算函数;MultiHead(,,)为多头注意力计算函数;FeedForward()为前馈神经网络计算函数;He为融合隐藏状态。
进一步的,所述对当前对话状态的隐藏状态和融合隐藏状态进行行为解码计算,获得行为隐藏状态;解码计算公式包括:
Xst=Emb(Xstate)
进一步的,所述将行为隐藏状态进行响应解码计算,获得生成词概率分布,输出任务型对话响应序列;具体包括:
其中,Wres为神经网络使用到的线性层中的可训练参数;
最后根据当前时间步t的生成词yt的概率值p(yt)生成任务型对话响应序列R=y1,y2,…,yt-1,yt。
进一步的,还包括对生成的任务型对话响应序列进行质量判断,所述质量判断通过深度神经网络模型对响应序列进行循环训练,直至损失函数稳定后完成训练,输出最终的任务型对话响应序列,损失函数的计算公式包括:
L=Linf+Lreq+Lact+Lres
式中,Linf为对话状态解码时对话状态的通知槽的损失函数;Lreq对话状态解码时对话状态的请求槽的损失函数;Lact为行为解码的损失函数;Lres为响应解码时的损失函数;
其中各个损失函数采用交叉熵进行计算,采用softmax()函数为激活函数时的损失函数的计算公式包括:
式中,yi为对话数据中数据x属于第i类的真实概率,pi为对话数据中数据x属于第i类的预测概率;
和/或,采用以sigmoid()函数为激活函数时,损失函数的计算公式为:
L(p,q)=-(plog q+(1-p)log(1-q))
其中,p为对话数据中训练样本x1的真实概率;1-p为对话数据中训练样本x2的真实概率;q为预测出x1的概率值;1-q为预测出x2的概率值。
第二方面,一种基于知识库增强的端到端多领域任务型对话生成系统,包括:
编码端模块:包括多个独立的编码器;用于将对话数据进行编码处理,得到对话数据的编码向量;以及将对话历史和知识库进行第二数据融合,并对结果进行编码计算,获得融合隐藏状态;
堆叠注意力层计算模块:用于对对话数据的编码向量进行注意力计算,获得堆叠注意力权重;
解码端模块:包括对话状态解码器、行为解码器和响应解码器;对话状态解码器用于对堆叠注意力权重进行第一数据融合,并对第一数据融合后的注意力权重进行对话状态解码计算,获得当前对话状态;行为解码器用于对当前对话状态和融合隐藏状态进行行为解码计算,获得行为隐藏状态;响应解码器用于对将行为隐藏状态进行响应解码计算,获得生成词概率分布,输出任务型对话响应序列。
第三方面,一种基于知识库增强的端到端多领域任务型对话生成装置,其特征在于,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据上述任一项所述方法的步骤。
与现有技术相比,本发明所达到的有益效果:
本发明通过多编码器的方式分开编码各类数据,使用堆叠注意力层计算各数据向量之间的注意力,能够获得当前完整的对话状态信息,大大提高了任务型对话系统在多领域对话时对用户请求的理解,也提高了系统响应生成的准确度。本发明在解码阶段同时考虑对话行为和对话响应,将二者进行有效的交互,并引入知识库信息,增加了系统响应内容的丰富性。
附图说明
图1为本发明提供的一种基于知识库的端到端多领域任务型对话生成方法的步骤图;
图2为本发明提供的一种基于知识库的端到端多领域任务型对话生成方法使用的深度神经网络模型结构图;
图3为本发明提供的一种基于知识库的端到端多领域任务型对话生成方法的对话数据中涉及到火车(train)和旅馆(hotel)两个领域的对话示例图;
图4为Transformer的模型结构图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
目前,大多数任务型对话系统的研究通常只针对某一个特定的领域,对多领域任务的支持并不是很好。多领域对话任务是指系统通过对话完成不同领域的对话任务,并且构建这样的系统往往与实际任务更加相符合。因为实际上用户与系统的对话过程中,用户所提出的问题,往往涉及到多个领域,如图3所示,对话数据中涉及到火车(train)和旅馆(hotel)两个领域。如图3所示,对话行为与系统响应存在着一定的联系,如果没有考虑到对话行为的建模,那么生成的响应语句的准确性就比较低。
实施例一:
本实施例提供了一种基于知识库增强的端到端多领域任务型对话生成方法,方法基于深度神经网络模型实现在多领域对话中引入知识信息提升系统响应内容的丰富性,同时提高生成系统响应的质量。方法包括以下几个阶段:
第一阶段,构建深度神经网络模型;
第二阶段,应用阶段;
第三阶段,优化训练阶段。
接下来通过这三个阶段对任务型对话生成方法进行介绍。
一、构建深度神经网络模型
深度神经网络模型包括编码端、堆叠注意力层和解码端,编码端包括多个独立的编码器,解码端包括对话状态解码器、行为解码器和响应解码器。其中多个独立编码器并联后同时与堆叠注意力层和解码端的行为解码器连接,堆叠注意力层与解码端的对话状态解码器连接,行为解码器与响应解码器交互连接。
如图4所示,本实施例中模型的编码端中使用Transformer模型的编码方式,堆叠注意力层以及解码端中的注意力计算使用Transformer模型的注意力计算方式。
Transformer模型中编码方式的位置嵌入函数为:
PE(pos,2i)=sin(pos/100002i/d)
PE(pos,2i+1)=cos(pos/100002i/d)
式中,pos为位置索引,i为维度索引,d为输入的对话数据中每个词token的位置嵌入向量维度。Transformer模型中的多头注意力计算过程核心公式为:
headi=Attention(QWi Q,KWi K,VWi V)
MultiHead(Q,K,V)=Concat(head1,...,headh)Wo
Trasf(Q,K,V)=V+FFN(MultiHead(Q,K,V)
其中,Q,K,V分别为查询向量(query),键向量(key),值向量(value);dk为比例因子数值;WQ,WK,WV分别为注意力计算过程中Q,K,V进行线性变换时的可训练参数;在后面步骤中,使用Att()表示Transformer模型中的注意力计算,例如Att(A,B)表示A和B之间的注意力计算;使用Transf()表示Transformer模型的编码部分的计算过程,包含多头注意力计算(Multi-Head Attention)以及前馈神经网络(Feed Forward Neural Network)等神经网络。
二、应用阶段
根据上述的深度神经网络模型进行端到端多领域任务型对话生成,具体方法包括:
S1,将对话数据进行编码处理,得到对话数据的编码向量,所述对话数据包括对话插槽、对话状态、对话历史、用户语句、知识库、对话领域以及对话行为;本发明所使用的对话数据为已经公开的MultiWOZ 2.0数据集;
S2,对对话数据的编码向量进行注意力计算,获得堆叠注意力权重;
S3,对堆叠注意力权重进行第一数据融合,并对第一数据融合后的注意力权重进行对话状态解码计算,获得当前对话状态;
S4,将对话历史和知识库进行第二数据融合,并对结果进行编码计算,获得融合隐藏状态;
S5,对当前对话状态的隐藏状态和融合隐藏状态进行行为解码计算,获得行为隐藏状态;
S6,将行为隐藏状态进行响应解码计算,获得生成词概率分布,输出任务型对话响应序列。
需要说明的是,步骤S1和S4均在编码器中进行数据处理,理论上同时进行部分先后,如图1所示。
其中对于步骤S1,具体包括:
将各类对话数据Z编码表示记为X,其中各类对话数据Z除了包括历史H={U1,R1,...,Ut-1,Rt-1,Ut}和知识库为B={b1,b2,...,bn},还包括对话插槽ZS、对话状态Zst、用户语句Zuser、对话历史Zhis、对话领域Zd以及对话行为Zact,并将文本的词嵌入和位置嵌入通过归一化进行编码,分别得到对话数据中的对话插槽的编码向量XS、对话状态的编码向量Xst、用户语句的编码向量Xuser、对话历史的编码向量Xhis和对话领域的编码向量Xd;t时刻对话行为的编码向量
编码计算公式为:
X=LayerNorm(Xemb+PEmb(Z))
式中,Xemb为文本词嵌入,记为Xemb=Emb(Z),Emb()为词嵌入函数;PEmb()为位置嵌入函数。
对于步骤S2,具体包括:
计算对话插槽Xs的自注意力,再将其结果与用户语句Xuser进行计算,然后将结果与对话历史Xhis进行计算,最后结果与上一时间步时的对话状态进行计算;最终经过3次循环的得到第一堆叠注意力权重循环次数不限于3次,大于3次的循环能是的最终获得的第一堆叠注意力权重的计算结果更加准确,循环的计算公式包括:
式中,Att(,)为Transformer的注意力计算函数;为对话插槽Xs的自注意力权重;为与用户语句Xuser的注意力权重;为与对话历史Xhis的注意力权重;为与上一时间步时的对话状态的注意力权重。
计算对话领域Xd的自注意力,再将其结果与用户语句Xuser进行计算,最后将结果与对话历史Xhis进行计算;最后经过3次循环得到第二堆叠注意力权重循环次数不限于3次,大于3次的循环能是的最终获得的第二堆叠注意力权重的计算结果更加准确,循环的计算公式包括:
对于步骤S3,具体包括:
其中哈达玛积运算规则为:
式中,pinf为通知槽概率分布;preq为请求槽概率分布;ht表示对话状态解码过程中时间步t的隐藏状态,初始时将融合后的注意力权重作为对话状态解码时的初始隐藏状态h0;Winf和Wreq为在对话状态解码RNN神经网络中使用到的训练参数。
对于步骤S4,具体包括:
第二数据融合的计算公式包括:
XH;B=Emb([H;B])
式中,Emb()为对话历史H和知识库信息B的连接词嵌入函数;
对结果进行编码计算:
He=Transf(XH;B,XH;B,XH;B)
=XH;B+FeedForward(MultiHead(XH;B,XH;B,XH;B))
式中,Transf()表示Transformer编码计算函数;MultiHead(,,)为多头注意力计算函数;FeedForward()为前馈神经网络计算函数;He为融合隐藏状态。
对于步骤S5,具体包括:
在行为解码器解码过程中,首先将步骤S3中对话状态跟踪得到的融合注意力权重记为Xstate,再对其进行编码表示为Xst=Emb(Xstate),同时与步骤S1中所描述的对话数据中对话行为的词嵌入向量表示进行相加,可以得到行为解码器的输入为这一步的公式表示为:
对于步骤S6,具体包括:
其中,Wres为神经网络使用到的线性层中的可训练参数;
最后根据当前时间步t的生成词yt的概率值p(yt),取概率值最大的生成词,生成任务型对话响应序列R=y1,y2,...,yt-1,yt。
三、优化训练阶段
在通过上述步骤得到任务型对话响应序列后,为了进一步的生成高质量的系统响应,还需要对生成的任务型对话响应序列进行质量判断,所述质量判断通过深度神经网络模型对响应序列进行循环训练,直至损失函数稳定后完成训练,输出最终的任务型对话响应序列,损失函数的计算公式包括:
L=Linf+Lreq+Lact+Lres
式中,Linf为对话状态解码时对话状态的通知槽的损失函数;Lreq对话状态解码时对话状态的请求槽的损失函数;Lact为行为解码的损失函数;Lres为响应解码时的损失函数。
其中模型的损失函数采用交叉熵损失函数进行计算,具体为:
以softmax()函数为激活函数时,交叉熵损失函数的计算公式为:
其中,yi为对话数据中数据x属于第i类的真实概率,pi为对话数据中数据x属于第i类的预测概率。
以sigmoid()函数为激活函数时,二分类交叉熵损失函数的计算公式为:
L(p,q)=-(plogq+(1-p)log(1-q))
其中,p为对话数据中训练样本x1的真实概率,1-p为对话数据中训练样本x2的真实概率;q为预测出x1的概率值,1-q为预测出x2的概率值。
在本实施例中,模型通过epoch=50次循环训练,总损失函数L对模型优化稳定,生成高质量的系统响应,也即得到了质量优化后的任务型对话响应序列。训练次数不限于50次,在条件允许的情况下,更多的循环训练,也能得到优化质量较高的任务型对话响应序列。
本发明通过多编码器的方式分开编码各类数据,使用计算过程简单且高效的堆叠注意力层计算各数据向量之间的注意力,堆叠注意力层和对话状态解码器交互,可以获得当前对话完整的对话状态,提高在解码过程中响应序列生成的速度和效率。同时能够获得当前完整的对话状态信息,大大提高了任务型对话系统在多领域对话时对用户请求的理解,也提高了系统响应生成的准确度。本发明在解码阶段同时考虑对话行为和对话响应,将二者进行有效的交互,并引入知识库信息,增加了系统响应内容的丰富性。
实施例二:
本实施例提供了基于知识库增强的端到端多领域任务型对话生成系统,包括:
编码端模块:包括多个独立的编码器;用于将对话数据进行编码处理,得到对话数据的编码向量;以及将对话历史和知识库进行第二数据融合,并对结果进行编码计算,获得融合隐藏状态;
堆叠注意力层计算模块:用于对对话数据的编码向量进行注意力计算,获得堆叠注意力权重;
解码端模块:包括对话状态解码器、行为解码器和响应解码器;对话状态解码器用于对堆叠注意力权重进行第一数据融合,并对第一数据融合后的注意力权重进行对话状态解码计算,获得当前对话状态;行为解码器用于对当前对话状态和融合隐藏状态进行行为解码计算,获得行为隐藏状态;响应解码器用于对将行为隐藏状态进行响应解码计算,获得生成词概率分布,输出任务型对话响应序列。
实施例三:
一种基于知识库增强的端到端多领域任务型对话生成装置,其特征在于,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行下述方法的步骤:
将对话数据进行编码处理,得到对话数据的编码向量,所述对话数据包括对话插槽、对话状态、对话历史、用户语句、知识库、对话领域以及对话行为;
对对话数据的编码向量进行注意力计算,获得堆叠注意力权重;
对堆叠注意力权重进行第一数据融合,并对第一数据融合后的注意力权重进行对话状态解码计算,获得当前对话状态;
将对话历史和知识库进行第二数据融合,并对结果进行编码计算,获得融合隐藏状态;
对当前对话状态和融合隐藏状态进行行为解码计算,获得行为隐藏状态;
将行为隐藏状态进行响应解码计算,获得生成词概率分布,输出任务型对话响应序列。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (10)
1.一种基于知识库增强的端到端多领域任务型对话生成方法,其特征在于,所述对话生成方法采用深度神经网络模型,模型包括编码端、堆叠注意力层和解码端,编码端包括多个独立的编码器,解码端包括对话状态解码器、行为解码器和响应解码器;多个独立编码器并联后同时与堆叠注意力层和解码端的行为解码器连接,堆叠注意力层与解码端的对话状态解码器连接,行为解码器与响应解码器中连接;
所述任务型对话生成方法包括:
将对话数据进行编码处理,得到对话数据的编码向量,所述对话数据包括对话插槽、对话状态、对话历史、用户语句、知识库、对话领域以及对话行为;
对对话数据的编码向量进行注意力计算,获得堆叠注意力权重;
对堆叠注意力权重进行第一数据融合,得到融合注意力权重;
将对话历史和知识库进行第二数据融合,并对结果进行编码计算,获得融合隐藏状态;
对得到融合注意力权重和融合隐藏状态进行行为解码计算,获得行为隐藏状态;
将行为隐藏状态进行响应解码计算,获得生成词概率分布,输出任务型对话响应序列。
2.根据权利要求1所述的基于知识库增强的端到端多领域任务型对话生成方法,还包括对融合注意力权重进行对话状态解码计算,得到当前对话状态;所述当前对话状态包括通知槽概率分布和请求槽概率分布。
4.根据权利要求3所述的基于知识库增强的端到端多领域任务型对话生成方法,其特征在于,所述对对话数据的编码向量进行注意力计算,获得堆叠注意力权重;具体包括:
计算对话插槽Xs的自注意力,再将其结果与用户语句Xuser进行计算,然后将结果与对话历史Xhis进行计算,最后结果与上一时间步时的对话状态进行计算;最终经过N次循环的得到第一堆叠注意力权重循环的计算公式包括:
式中,Att(,)为Transformer的注意力计算函数;为对话插槽Xs的自注意力权重;为与用户语句Xuser的注意力权重;为与对话历史Xhis的注意力权重;为与上一时间步时的对话状态的注意力权重。
6.根据权利要求5所述的基于知识库增强的端到端多领域任务型对话生成方法,其特征在于,所述将对话历史和知识库进行第二数据融合,并对结果进行编码计算,获得融合隐藏状态;具体包括:
第二数据融合的计算公式包括:
XH;B=Emb([H;B])
式中,Emb()为连接词嵌入函数;
对结果进行编码计算:
He=Transf(XH;B,XH;B,XH;B)
=XH;B+FeedForward(MultiHead(XH;B,XH;B,XH;B))
式中,Transf()表示Transformer编码计算函数;MultiHead(,,)为多头注意力计算函数;FeedForward()为前馈神经网络计算函数;He为融合隐藏状态。
8.根据权利要求7所述的基于知识库增强的端到端多领域任务型对话生成方法,其特征在于,所述将行为隐藏状态进行响应解码计算,获得生成词概率分布,输出任务型对话响应序列;具体包括:
其中,Wres为神经网络使用到的线性层中的可训练参数;
最后根据当前时间步t的生成词yt的概率值p(yt)生成任务型对话响应序列R=y1,y2,...,yt-1,yt。
9.根据权利要求1所述的基于知识库增强的端到端多领域任务型对话生成方法,还包括对生成的任务型对话响应序列进行质量判断,所述质量判断通过深度神经网络模型对响应序列进行循环训练,直至损失函数稳定后完成训练,输出最终的任务型对话响应序列,损失函数的计算公式包括:
L=Linf+Lreq+Lact+Lres
式中,Linf为对话状态解码时对话状态的通知槽的损失函数;Lreq对话状态解码时对话状态的请求槽的损失函数;Lact为行为解码的损失函数;Lres为响应解码时的损失函数;
其中各个损失函数采用交叉熵进行计算,采用softmax()函数为激活函数时的损失函数的计算公式包括:
式中,yi为对话数据中数据x属于第i类的真实概率,pi为对话数据中数据x属于第i类的预测概率;
和/或,采用以sigmoid()函数为激活函数时,损失函数的计算公式为:
L(p,q)=-(plogq+(1-p)log(1-q))
其中,p为对话数据中训练样本x1的真实概率;1-p为对话数据中训练样本x2的真实概率;q为预测出x1的概率值;1一q为预测出x2的概率值。
10.一种基于知识库增强的端到端多领域任务型对话生成系统,其特征在于,包括:
编码端模块:包括多个独立的编码器;用于将对话数据进行编码处理,得到对话数据的编码向量;以及将对话历史和知识库进行第二数据融合,并对结果进行编码计算,获得融合隐藏状态;
堆叠注意力层计算模块:用于对对话数据的编码向量进行注意力计算,获得堆叠注意力权重;
解码端模块:包括对话状态解码器、行为解码器和响应解码器;对话状态解码器用于对堆叠注意力权重进行第一数据融合,并对第一数据融合后的注意力权重进行对话状态解码计算,获得当前对话状态;行为解码器用于对当前对话状态和融合隐藏状态进行行为解码计算,获得行为隐藏状态;响应解码器用于对将行为隐藏状态进行响应解码计算,获得生成词概率分布,输出任务型对话响应序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210578769.6A CN114860914B (zh) | 2022-05-26 | 2022-05-26 | 一种基于知识库增强的端到端多领域任务型对话生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210578769.6A CN114860914B (zh) | 2022-05-26 | 2022-05-26 | 一种基于知识库增强的端到端多领域任务型对话生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114860914A true CN114860914A (zh) | 2022-08-05 |
CN114860914B CN114860914B (zh) | 2023-06-16 |
Family
ID=82638551
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210578769.6A Active CN114860914B (zh) | 2022-05-26 | 2022-05-26 | 一种基于知识库增强的端到端多领域任务型对话生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114860914B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116245114A (zh) * | 2022-11-23 | 2023-06-09 | 重庆大学 | 一种基于对话状态指导的端到端任务型对话系统 |
CN116450784A (zh) * | 2023-02-03 | 2023-07-18 | 北京邮电大学 | 基于任务型对话的图像编辑系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188167A (zh) * | 2019-05-17 | 2019-08-30 | 北京邮电大学 | 一种融入外部知识的端到端对话方法及系统 |
CN110196928A (zh) * | 2019-05-17 | 2019-09-03 | 北京邮电大学 | 完全并行化具有领域扩展性的端到端多轮对话系统及方法 |
US20200090651A1 (en) * | 2018-09-17 | 2020-03-19 | Adobe Inc. | Generating dialogue responses in end-to-end dialogue systems utilizing a context-dependent additive recurrent neural network |
CN111401003A (zh) * | 2020-03-11 | 2020-07-10 | 四川大学 | 一种外部知识增强的幽默文本生成方法 |
CN112084314A (zh) * | 2020-08-20 | 2020-12-15 | 电子科技大学 | 一种引入知识的生成式会话系统 |
CN113033189A (zh) * | 2021-04-08 | 2021-06-25 | 北京理工大学 | 一种基于注意力分散的长短期记忆网络的语义编码方法 |
US20210217408A1 (en) * | 2018-09-06 | 2021-07-15 | Google Llc | Dialogue systems |
CN113505208A (zh) * | 2021-07-09 | 2021-10-15 | 福州大学 | 一种融合多路注意力机制的智能对话系统 |
-
2022
- 2022-05-26 CN CN202210578769.6A patent/CN114860914B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210217408A1 (en) * | 2018-09-06 | 2021-07-15 | Google Llc | Dialogue systems |
US20200090651A1 (en) * | 2018-09-17 | 2020-03-19 | Adobe Inc. | Generating dialogue responses in end-to-end dialogue systems utilizing a context-dependent additive recurrent neural network |
CN110188167A (zh) * | 2019-05-17 | 2019-08-30 | 北京邮电大学 | 一种融入外部知识的端到端对话方法及系统 |
CN110196928A (zh) * | 2019-05-17 | 2019-09-03 | 北京邮电大学 | 完全并行化具有领域扩展性的端到端多轮对话系统及方法 |
CN111401003A (zh) * | 2020-03-11 | 2020-07-10 | 四川大学 | 一种外部知识增强的幽默文本生成方法 |
CN112084314A (zh) * | 2020-08-20 | 2020-12-15 | 电子科技大学 | 一种引入知识的生成式会话系统 |
CN113033189A (zh) * | 2021-04-08 | 2021-06-25 | 北京理工大学 | 一种基于注意力分散的长短期记忆网络的语义编码方法 |
CN113505208A (zh) * | 2021-07-09 | 2021-10-15 | 福州大学 | 一种融合多路注意力机制的智能对话系统 |
Non-Patent Citations (3)
Title |
---|
HEINRICH DINKEL等: "Investigating Raw Wave Deep Neural Networks for End-to-End Speaker Spoofing Detection", vol. 26, no. 11, XP011688313, DOI: 10.1109/TASLP.2018.2851155 * |
洪佳乐: "融合对话状态和知识库的端到端任务型对话系统研究" * |
邓正凯: "基于深度学习端到端的对话状态跟踪研究" * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116245114A (zh) * | 2022-11-23 | 2023-06-09 | 重庆大学 | 一种基于对话状态指导的端到端任务型对话系统 |
CN116245114B (zh) * | 2022-11-23 | 2023-09-12 | 重庆大学 | 一种基于对话状态指导的端到端任务型对话系统 |
CN116450784A (zh) * | 2023-02-03 | 2023-07-18 | 北京邮电大学 | 基于任务型对话的图像编辑系统 |
CN116450784B (zh) * | 2023-02-03 | 2024-09-27 | 北京邮电大学 | 基于任务型对话的图像编辑系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114860914B (zh) | 2023-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hosseini-Asl et al. | A simple language model for task-oriented dialogue | |
Mehri et al. | Structured fusion networks for dialog | |
Wang et al. | Multi-domain dialogue acts and response co-generation | |
CN114860914B (zh) | 一种基于知识库增强的端到端多领域任务型对话生成方法 | |
CN108595436A (zh) | 情感对话内容的生成方法和系统、存储介质 | |
CN110990555B (zh) | 端到端检索式对话方法与系统及计算机设备 | |
CN110196928B (zh) | 完全并行化具有领域扩展性的端到端多轮对话系统及方法 | |
CN114091478A (zh) | 基于有监督对比学习与回复生成辅助的对话情感识别方法 | |
Su et al. | Towards unsupervised language understanding and generation by joint dual learning | |
CN112183061A (zh) | 一种多意图口语理解方法、电子设备和存储介质 | |
CN111382257A (zh) | 一种生成对话下文的方法和系统 | |
Paul et al. | Towards universal dialogue act tagging for task-oriented dialogues | |
WO2023231513A1 (zh) | 对话内容的生成方法及装置、存储介质、终端 | |
Liu et al. | Jointly encoding word confusion network and dialogue context with bert for spoken language understanding | |
Xu et al. | Audio caption in a car setting with a sentence-level loss | |
CN115858756A (zh) | 基于感知情绪倾向的共情人机对话系统 | |
CN116483995A (zh) | 一种文本识别方法及装置 | |
Wu et al. | Knowledge augmented bert mutual network in multi-turn spoken dialogues | |
CN111414466A (zh) | 一种基于深度模型融合的多轮对话建模方法 | |
CN116595985A (zh) | 一种基于生成式常识辅助增强对话中情绪识别的方法 | |
Thorat et al. | Improving conversation modelling using attention based variational hierarchical RNN | |
Pan et al. | A Multiple Utterances based Neural Network Model for Joint Intent Detection and Slot Filling. | |
Dasgupta et al. | A Review of Generative AI from Historical Perspectives | |
CN114490974A (zh) | 信息自动回复方法、装置、系统、电子设备及可读介质 | |
Xue et al. | BiosERC: Integrating Biography Speakers Supported by LLMs for ERC Tasks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |