CN114357976A - 基于信息增强的多轮对话生成方法和系统 - Google Patents

基于信息增强的多轮对话生成方法和系统 Download PDF

Info

Publication number
CN114357976A
CN114357976A CN202210032590.0A CN202210032590A CN114357976A CN 114357976 A CN114357976 A CN 114357976A CN 202210032590 A CN202210032590 A CN 202210032590A CN 114357976 A CN114357976 A CN 114357976A
Authority
CN
China
Prior art keywords
information
round
word
sentence
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210032590.0A
Other languages
English (en)
Inventor
孙晓
王佳敏
陈倩
汪萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Original Assignee
Hefei University of Technology
Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology, Institute of Artificial Intelligence of Hefei Comprehensive National Science Center filed Critical Hefei University of Technology
Priority to CN202210032590.0A priority Critical patent/CN114357976A/zh
Publication of CN114357976A publication Critical patent/CN114357976A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供一种基于信息增强的多轮对话生成方法和系统,涉及多轮对话生成技术领域。本发明通过预先构建的多轮对话模型生成回复,所述多轮对话模型包括多维单词级别编码器、话语级别编码器和解码器,生成回复的过程包括:获取多轮对话历史信息,并对所述多轮对话历史信息进行预处理;预处理后的多轮对话历史信息经过基于多信息嵌入机制的多维单词级别编码器,得到句向量;将所述句向量输入到话语级别编码器,得到话语级编码向量;对所述话语级编码向量通过解码器进行解码,生成回复。本发明通过多信息嵌入机制,全面的捕捉上下文信息,生成更相关的上下文信息生成回复。

Description

基于信息增强的多轮对话生成方法和系统
技术领域
本发明涉及多轮对话生成技术领域,具体涉及一种基于信息增强的多轮对话生成方法、系统、存储介质和电子设备。
背景技术
现有的多轮对话生成方法大多基于层次序列到序列模型框架实现,具体可以归纳为基于RNN的层次模型,和基于Transformer的层次模型。基于RNN的层次模型通常通过注意力机制或者相似度来筛选上下文信息,但是RNN存在位置偏差问题,通常更关注近距离的上下文,无法更好地学习对话中上下文信息之间长期依赖关系,生成的对话缺乏连贯性。基于Transformer的层次模型,由于多头注意力机制的引入可以很好地捕捉对话中上下文信息的长期依赖信息。但是研究表明,Transformer结构它不能高效地捕捉序列中局部结构,且过度依赖于位置嵌入机制,会忽略语句中包含的局部信息。
通过上述描述可知,现有的多轮对话生成方法不能全面的捕捉上下文信息,导致生成的回复连贯性较差。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于信息增强的多轮对话生成方法、系统、存储介质和电子设备,解决了现有的多轮对话生成方法不能全面的捕捉上下文信息的技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
第一方面,本发明提供一种基于信息增强的多轮对话生成方法,所述方法通过预先构建的多轮对话模型生成回复,所述多轮对话模型包括多维单词级别编码器、话语级别编码器和解码器,生成回复的过程包括:
S1、获取多轮对话历史信息,并对所述多轮对话历史信息进行预处理;
S2、预处理后的多轮对话历史信息经过基于多信息嵌入机制的多维单词级别编码器,得到句向量;
S3、将所述句向量输入到话语级别编码器,得到话语级编码向量;
S4、对所述话语级编码向量通过解码器进行解码,生成回复。
优选的,所述多维单词级别编码器包括:
多维单词级别编码器包括多头注意力机制和前向反馈网络。
优选的,所述多信息嵌入机制包括多信息嵌入机制包含句法特征嵌入和局部特征嵌入。
优选的,所述句法特征嵌入包括:
将单词序列经过StanfordNlp提供的依存句法分析后,组织成包含句法信息的依存句法链表
Figure BDA0003467000960000021
由一个参数共享的循环神经网络独立且相同地处理,选择最后隐藏状态作为依存句法序列的特征向量,公式如下:
Figure BDA0003467000960000031
其中,xi,m是第i个句子里第m个单词,listxi,m为单词xi,m的依存句法序列,xi,j是第i个句子里第j个单词,listxi,j为单词xi,j的依存句法序列。
优选的,所述局部特征嵌入包括:
设定局部特征嵌入的窗口大小为M;
将原始的句子序列处理为大量的包含局部位置信息的短序列,短序列通过另一个参数共享的循环神经网络编码每个单词的局部依赖关系,生成M个隐藏状态表示,选择最后的隐藏状态作为局部序列的特征表示,公式如下:
Figure BDA0003467000960000032
优选的,所述S3具体包括:
经过单词级别编码器编码得到对话历史的多个句向量,多个句向量组成向量序列
Figure BDA0003467000960000033
对句向量进行位置嵌入得到如下:
Figure BDA0003467000960000034
其中:t指的是对话历史的向量序列中第t个句向量,取值范围是[0,n),dmodel指的是句向量的维度,i指的是句向量的维度序号,取值范围是
Figure BDA0003467000960000035
将对话历史包含的全部句向量都进行位置嵌入,位置嵌入表示用Putt表示;
将句向量和对应的位置嵌入相加后依次输入多头注意力机制和前向反馈网络去更新上下文表示,得到话语级编码向量,公式如下:
Hcon=FNN(MultiHead(Hutt+Putt,Hutt+Putt,Hutt+Putt))。
优选的,所述预先构建的多轮对话模型在训练过程中通过最小化生成回复与参考回复之间的负极大似然概率进行学习,
Figure BDA0003467000960000041
其中:Y为生成回复,C为参考回复。
第二方面,本发明提供一种基于信息增强的多轮对话生成系统,所述系统通过预先构建的多轮对话模型生成回复,所述多轮对话模型包括多维单词级别编码器、话语级别编码器和解码器,所述系统包括:
获取模块,用于获取多轮对话历史信息,并对所述多轮对话历史信息进行预处理;
单词级别编码模块,用于预处理后的多轮对话历史信息经过基于多信息嵌入机制的多维单词级别编码器,得到句向量;
话语级别编码模块,用于将所述句向量输入到话语级别编码器,得到话语级编码向量;
解码模块,用于对所述话语级编码向量通过解码器进行解码,生成回复。
第三方面,本发明提供一种计算机可读存储介质,其特征在于,其存储用于基于信息增强的多轮对话生成的计算机程序,其中,所述计算机程序使得计算机执行如上述所述的基于信息增强的多轮对话生成方法。
第四方面,本发明提供一种电子设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上述所述的基于信息增强的多轮对话生成方法。
(三)有益效果
本发明提供了一种基于信息增强的多轮对话生成方法、系统、存储介质和电子设备。与现有技术相比,具备以下有益效果:
本发明通过预先构建的多轮对话模型生成回复,所述多轮对话模型包括多维单词级别编码器、话语级别编码器和解码器,生成回复的过程包括:获取多轮对话历史信息,并对所述多轮对话历史信息进行预处理;预处理后的多轮对话历史信息经过基于多信息嵌入机制的多维单词级别编码器,得到句向量;将所述句向量输入到话语级别编码器,得到话语级编码向量;对所述话语级编码向量通过解码器进行解码,生成回复。本发明通过多信息嵌入机制,全面的捕捉上下文信息,生成更相关的上下文信息生成回复。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种基于信息增强的多轮对话生成方法的框图;
图2为本发明实施例中单词级别编码器的架构;
图3为本发明实施例中句法特征嵌入的示意图;
图4为本发明实施例中局部信息嵌入的示意图;
图5为本发明实施例中话语级别编码器的架构;
图6为本发明实施例中解码器的架构。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种基于信息增强的多轮对话生成方法和系统,解决了现有的多轮对话生成方法不能全面的捕捉上下文信息的技术问题,实现有效地捕捉到序列中的局部信息和全局的长期依赖关系,生成更相关的上下文信息生成回复。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
本发明实施例提出一种新的多信息嵌入机制,构建信息增强层次自注意力网络,用于多轮对话生成系统。多信息嵌入机制包括句法信息嵌入和局部信息嵌入。对与句子进行依存句法分析,基于邻接表思想为每个位置单词构建一个句法信息链表,经过循环神经网络编码获取句法信息嵌入。句中每个单词从其所在位置开始按窗口大小截取一定长度的单词构成短序列,经过循环神经网络编码获取局部信息嵌入。将句法信息嵌入和局部信息嵌入融合得到多信息嵌入。在单词级编码器上,将经过多信息嵌入的单词送入Transformer编码器结构去更新单词表示,经过循环神经网络编码得到话语表示;基于Transformer编码器结构构建话语级编码器,更新得到上下文表示;最后,送入基于Transformer解码器结构构建的解码器。通过多信息嵌入机制,全面的捕捉上下文信息,生成更相关的上下文信息生成回复。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
本发明实施例提供一种基于信息增强的多轮对话生成方法,该方法通过预先构建的多轮对话模型生成回复,该模型包括多维单词级别编码器、话语级别编码器和解码器,生成回复的过程包括S1~S4,如图1所示:
S1、获取多轮对话历史信息,并对所述多轮对话历史信息进行预处理;
S2、预处理后的多轮对话历史信息经过基于多信息嵌入机制的多维单词级别编码器,得到句向量;
S3、将所述句向量输入到话语级别编码器,得到话语级编码向量;
S4、对所述话语级编码向量进行解码,生成回复。
本发明实施例通过多信息嵌入机制,全面的捕捉上下文信息,生成更相关的上下文信息生成回复。
下面对各个步骤进行详细说明:
需要说明的是,在本发明实施例中的多轮对话为开放领域的,其定义为:在历史对话信息背景下,将无领域限制的话语作为模型输入,输出回复语句。
多轮对话历史包含大于两轮的对话,多轮对话模型输入为对话历史,包括n个句子
Figure BDA0003467000960000081
每个句子定义为
Figure BDA0003467000960000082
其中xi,m是第i个句子里第m个单词,是第i个句子的长度,并且n>2。根据输入的对话历史,生成回复Y={y1,y2,…,y|Y|},其中yi为生成回复的第i个单词,生成回复的长度为|Y|。
本发明实施例中的多轮对话模型预先构建训练,该模型主要包括:多维单词级别编码器、话语级别编码器和解码器。
在步骤S1中,获取多轮对话历史信息,并对所述多轮对话历史信息进行预处理。具体实施过程如下:
对多轮对话历史信息进行预处理,预处理主要包括:
构建停用词词典,删除掉语料中的停用词。
将语料中全部英文字母更改为小写。删除对话轮次小于2的对话语料。
筛选出词频大于2的单词,构建词典。
预处理后的多轮对话历史信息包括n个句子的句子序列
Figure BDA0003467000960000083
每个句子定义为单词序列
Figure BDA0003467000960000084
其中xi,m是第i个句子里第m个单词,是第i个句子的长度,并且n>2,|Xi|代表第i个句子的长度。
在步骤S2中,预处理后的多轮对话历史信息经过基于多信息嵌入机制的多维单词级别编码器,得到句向量。具体实施过程如下:
在本发明实施例中,如图2所示,多维单词级别编码器结构由两个子层组成:多头注意力机制和前向反馈网络。同时,在多头注意力机制之前,添加了多信息嵌入机制来进行信息增强。多信息嵌入机制包含句法特征嵌入和局部特征嵌入。
如图3所示,句法特征嵌入包括:
将单词序列经过StanfordNlp提供的依存句法分析后,组织成包含句法信息的依存句法链表
Figure BDA0003467000960000091
由一个参数共享的循环神经网络(命名为ParsingRNN)独立且相同地处理,选择最后隐藏状态作为依存句法序列的特征向量。
其中,listxi,m为单词xi,m的依存句法序列,利用StanfordNlp工具包对句子进行依赖关系解析(dependency_parse),获取元素为三元组的列表。三元组包含三个属性,即依存关系类型、从属词在句子中的索引位置、支配词在句子中的索引位置。三元组列表的数量为整个句子中单词数量,即它为句子中的每个单词都分析了依存关系,每个单词都给出了(依存关系类型、从属词在句子中的索引位置、支配词在句子中的索引位置)。基于三元组列表来构建“句法信息的依存句法链表”。具体地,每个支配词可能会有多个从属词,对于句子中的某个单词xi,n,它的多个从属词组成了listxi,n。对于没有从属词的,补充填充词<Pad>,作为它的依存句法序列。
使用参数共享的ParsingRNN对第i个句子中第j个单词建模句法信息表示
Figure BDA0003467000960000092
公式如下:
Figure BDA0003467000960000093
在句法特征嵌入的同时,进行局部信息嵌入,如图4所示。以窗口大小M=3为例。
将原始的长序列(句子序列)处理为大量的包含局部位置信息的短序列,短序列通过另一个参数共享的循环神经网络(命名为LocalRNN)编码每个单词的局部依赖关系,生成M个隐藏状态表示,选择最后的隐藏状态作为局部序列的特征表示。也即,局部时序特征提取模块为每个单词构建一个大小为M的局部窗口,该窗口包含M个连续的位置,并在单词位置结束。
使用参数共享的LocalRNN对第i个句子中第j个单词建模局部位置特征表示
Figure BDA0003467000960000101
公式如下:
Figure BDA0003467000960000102
将局部位置特征表示
Figure BDA0003467000960000103
和句法信息特征表示
Figure BDA0003467000960000104
进行拼接,获取同时包含局部位置和依存句法信息的特征表示,公式如下:
Figure BDA0003467000960000105
其中:
Figure BDA0003467000960000106
表示每个位置的依存向量表示和局部依赖向量表示在维度上进行拼接。
句子中的每个词符经过多维特征嵌入后获得同时包含句法信息和局部信息的特征表示,
依次输入多头注意力机制和前向反馈网络,获取更新后的词符特征表示:
Figure BDA0003467000960000107
将输出送入循环神经网络编码获取初始的每个上下文的句向量:
Figure BDA0003467000960000111
要注意的是,每一子层后都进行了残差连接和归一化处理,即LayerNorm(x+Sublayer(x)),其中Sublayer(x)是子层本身实现的函数,x是子层的输入。
在步骤S3中,将所述句向量输入到话语级别编码器,得到话语级编码向量。具体实施过程如下:
在本发明实施例中,话语级别编码器如图5所示。
经过单词级别编码器编码得到对话历史的多个句向量,多个句向量组成向量序列
Figure BDA0003467000960000112
对句向量进行位置嵌入得到如下:
Figure BDA0003467000960000113
其中:t指的是对话历史的向量序列中第t个句向量,取值范围是[0,n),dmodel指的是句向量的维度,i指的是句向量的维度序号,取值范围是
Figure BDA0003467000960000114
将对话历史包含的全部句向量都进行位置嵌入,位置嵌入表示用Putt表示。
将句向量和对应的位置嵌入相加后依次输入多头注意力机制和前向反馈网络去更新上下文表示,得到话语级编码向量,公式如下:
Hcon=FNN(MultiHead(Hutt+Putt,Hutt+Putt,Hutt+Putt))。
在步骤S4中,对所述话语级编码向量进行解码,生成回复。具体实施过程如下:
如图6所示,解码器使用Transformer中的单层decoder结构,根据用话语级别编码器输出的话语级编码向量,生成预测单词序列(即生成回复)。给定参考回复Y={y1,y2,…,y|Y|},将原始词嵌入与位置嵌入之和定义为词符yi的分布表示e(yi)。
e(yi)=embed(yi)+PE(yi)
其中,embed(·)代表代表随机词嵌入函数,PE(·)代表位置嵌入函数同上述话语级别编码器中的位置嵌入。
需要说明的是,本发明实施例中的多轮对话模型在训练阶段,对回复采用掩码操作,屏蔽掉解码器中未来的单词。在推理阶段,在生成的回复上使用循环函数。之后,依次送入跨越注意力机制和前向反馈网络中。跨越多头注意力机制和自注意力机制的区别在于,跨越注意力机制的键K和查询Q可以不同。将上下文向量作为键K和值V,将回复作为查询Q,送入跨越多头注意力机制中,去获取与回复相关的上下文信息:
Hdec=MultiHead(e(Y),e(Y),e(Y))
Y′=FNN(MultiHead(Hdec,Hcon,Hcon))
其中:e(.)代表句子中词符的分布表示,Hdec代表根据回复生成的回复编码向量,Hcon代表话语级编码器中生成的话语级编码向量。
在本发明实施例中,多头注意机制使模型能够同时关注不同位置的不同表示子空间中的信息,并有效地检索输入序列中的依赖项。它将模型分为多头,从而形成表示子空间。多个头允许它捕获信息的不同方面,可以并行地训练多个值向量,再将它们拼接在一起。给定输入查询Q,键K,值V。这可以形式化为:
MultiHead(Q,K,V)=Concat(head1,…,headh)WO
where headi=Attention(QWi Q,KWi K,VWi V)
Figure BDA0003467000960000131
其中:
Figure BDA0003467000960000132
Figure BDA0003467000960000133
都是可训练的参数,dk和dv分别是键K和值V的维度。
将输出馈送到前向反馈网络,前向反馈网络由两个线性变换组成,中间有一个ReLU函数作为激活函数。
FFN(x)=max(0,xW1+b1)W2+b2
其中,W1,b1,W2和b2都是可训练的参数。
最后,送入softmax层去获取在生成过程中单词的概率,采样概率最大的单词作为当前生成的单词。
P(yi∣C,y1,...,yi-1;θ)=softmax(WoY′)
其中:Wo为可学习的参数,θ代表模型中全部可训练的参数。
在训练过程中通过最小化生成回复与参考回复之间的负极大似然概率进行学习。
Figure BDA0003467000960000134
本发明实施例还提供一种基于信息增强的多轮对话生成系统,所述系统通过预先构建的多轮对话模型生成回复,所述多轮对话模型包括多维单词级别编码器、话语级别编码器和解码器,所述系统包括:
获取模块,用于获取多轮对话历史信息,并对所述多轮对话历史信息进行预处理;
单词级别编码模块,用于预处理后的多轮对话历史信息经过基于多信息嵌入机制的多维单词级别编码器,得到句向量;
话语级别编码模块,用于将所述句向量输入到话语级别编码器,得到话语级编码向量;
解码模块,用于对所述话语级编码向量通过解码器进行解码,生成回复。
理解的是,本发明实施例提供的基于信息增强的多轮对话生成系统与上述基于信息增强的多轮对话生成方法相对应,其有关内容的解释、举例、有益效果等部分可以参考基于信息增强的多轮对话生成方法中的相应内容,此处不再赘述。
本发明实施例提供一种计算机可读存储介质,其存储用于基于信息增强的多轮对话生成的计算机程序,其中,所述计算机程序使得计算机执行如上述所述的基于信息增强的多轮对话生成方法。
本发明实施例一种电子设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上述所述的基于信息增强的多轮对话生成方法。
综上所述,与现有技术相比,具备以下有益效果:
本发明实施例通过多信息嵌入机制,全面的捕捉上下文信息,生成更相关的上下文信息生成回复。具体提出在单词级别进行句法和局部区域信息增强,综合考虑了句子中局部的句法信息和结构信息。通过依存句法可以对语句进行有效分析,能有效提高自然语言处理任务的性能。通过为支配词捕捉从属词,可以有效的捕捉单词的句法信息,经过循环神经网络编码得到包含句法信息的词嵌入。通过移动窗口捕捉的局部序列,能很好的弥补原始Transformer机制中位置嵌入的不足。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于信息增强的多轮对话生成方法,其特征在于,所述方法通过预先构建的多轮对话模型生成回复,所述多轮对话模型包括多维单词级别编码器、话语级别编码器和解码器,生成回复的过程包括:
S1、获取多轮对话历史信息,并对所述多轮对话历史信息进行预处理;
S2、预处理后的多轮对话历史信息经过基于多信息嵌入机制的多维单词级别编码器,得到句向量;
S3、将所述句向量输入到话语级别编码器,得到话语级编码向量;
S4、对所述话语级编码向量通过解码器进行解码,生成回复。
2.如权利要求1所述的基于信息增强的多轮对话生成方法,其特征在于,所述多维单词级别编码器包括:
多维单词级别编码器包括多头注意力机制和前向反馈网络。
3.如权利要求1所述的基于信息增强的多轮对话生成方法,其特征在于,所述多信息嵌入机制包括多信息嵌入机制包含句法特征嵌入和局部特征嵌入。
4.如权利要求3所述的基于信息增强的多轮对话生成方法,其特征在于,所述句法特征嵌入包括:
将单词序列经过StanfordNlp提供的依存句法分析后,组织成包含句法信息的依存句法链表
Figure FDA0003467000950000011
由一个参数共享的循环神经网络独立且相同地处理,选择最后隐藏状态作为依存句法序列的特征向量,公式如下:
Figure FDA0003467000950000021
其中,xi,m是第i个句子里第m个单词,listxi,m为单词xi,m的依存句法序列,xi,j是第i个句子里第j个单词,listxi,j为单词xi,j的依存句法序列。
5.如权利要求3所述的基于信息增强的多轮对话生成方法,其特征在于,所述局部特征嵌入包括:
设定局部特征嵌入的窗口大小为M;
将原始的句子序列处理为大量的包含局部位置信息的短序列,短序列通过另一个参数共享的循环神经网络编码每个单词的局部依赖关系,生成M个隐藏状态表示,选择最后的隐藏状态作为局部序列的特征表示,公式如下:
Figure FDA0003467000950000022
6.如权利要求1~5任一所述的基于信息增强的多轮对话生成方法,其特征在于,所述S3具体包括:
经过单词级别编码器编码得到对话历史的多个句向量,多个句向量组成向量序列
Figure FDA0003467000950000023
对句向量进行位置嵌入得到如下:
Figure FDA0003467000950000024
其中:t指的是对话历史的向量序列中第t个句向量,取值范围是[0,n),dmodel指的是句向量的维度,i指的是句向量的维度序号,取值范围是
Figure FDA0003467000950000025
将对话历史包含的全部句向量都进行位置嵌入,位置嵌入表示用Putt表示;
将句向量和对应的位置嵌入相加后依次输入多头注意力机制和前向反馈网络去更新上下文表示,得到话语级编码向量,公式如下:
Hcon=FNN(MultiHead(Hutt+Putt,Hutt+Putt,Hutt+Putt))。
7.如权利要求1~5任一所述的基于信息增强的多轮对话生成方法,其特征在于,所述预先构建的多轮对话模型在训练过程中通过最小化生成回复与参考回复之间的负极大似然概率进行学习,
Figure FDA0003467000950000031
其中:Y为生成回复,C为参考回复。
8.一种基于信息增强的多轮对话生成系统,其特征在于,所述系统通过预先构建的多轮对话模型生成回复,所述多轮对话模型包括多维单词级别编码器、话语级别编码器和解码器,所述系统包括:
获取模块,用于获取多轮对话历史信息,并对所述多轮对话历史信息进行预处理;
单词级别编码模块,用于预处理后的多轮对话历史信息经过基于多信息嵌入机制的多维单词级别编码器,得到句向量;
话语级别编码模块,用于将所述句向量输入到话语级别编码器,得到话语级编码向量;
解码模块,用于对所述话语级编码向量通过解码器进行解码,生成回复。
9.一种计算机可读存储介质,其特征在于,其存储用于基于信息增强的多轮对话生成的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1~7任一项所述的基于信息增强的多轮对话生成方法。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如权利要求1~7任一项所述的基于信息增强的多轮对话生成方法。
CN202210032590.0A 2022-01-12 2022-01-12 基于信息增强的多轮对话生成方法和系统 Pending CN114357976A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210032590.0A CN114357976A (zh) 2022-01-12 2022-01-12 基于信息增强的多轮对话生成方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210032590.0A CN114357976A (zh) 2022-01-12 2022-01-12 基于信息增强的多轮对话生成方法和系统

Publications (1)

Publication Number Publication Date
CN114357976A true CN114357976A (zh) 2022-04-15

Family

ID=81109139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210032590.0A Pending CN114357976A (zh) 2022-01-12 2022-01-12 基于信息增强的多轮对话生成方法和系统

Country Status (1)

Country Link
CN (1) CN114357976A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114969292A (zh) * 2022-05-31 2022-08-30 福州大学 一种基于多回复解码器的对话系统
CN115048946A (zh) * 2022-06-14 2022-09-13 昆明理工大学 融合主题信息的篇章级神经机器翻译方法
CN115617975A (zh) * 2022-12-20 2023-01-17 国家电网有限公司客户服务中心 针对少样本多轮对话的意图识别方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114969292A (zh) * 2022-05-31 2022-08-30 福州大学 一种基于多回复解码器的对话系统
CN115048946A (zh) * 2022-06-14 2022-09-13 昆明理工大学 融合主题信息的篇章级神经机器翻译方法
CN115617975A (zh) * 2022-12-20 2023-01-17 国家电网有限公司客户服务中心 针对少样本多轮对话的意图识别方法及装置
CN115617975B (zh) * 2022-12-20 2023-04-18 国家电网有限公司客户服务中心 针对少样本多轮对话的意图识别方法及装置

Similar Documents

Publication Publication Date Title
CN114169330B (zh) 融合时序卷积与Transformer编码器的中文命名实体识别方法
US20210397610A1 (en) Machine learning system for digital assistants
CN114357976A (zh) 基于信息增强的多轮对话生成方法和系统
CN111339278B (zh) 训练话术生成模型、生成应答话术的方法和装置
CN110837733A (zh) 自重建方式的语言模型训练方法、系统及计算机可读介质
CN113297841A (zh) 基于预训练双语词向量的神经机器翻译方法
CN111108501A (zh) 一种基于上下文的多轮对话方法、装置、设备及存储介质
CN110516244B (zh) 一种基于bert的句子自动填充方法
CN111522581B (zh) 一种增强型代码注释自动生成方法及系统
CN113553860A (zh) 基于多任务学习的回复多样性多轮对话生成方法和系统
CN112528643A (zh) 一种基于神经网络的文本信息提取方法及装置
CN112183106B (zh) 一种基于音素联想及深度学习的语义理解方法及装置
CN115831102A (zh) 基于预训练特征表示的语音识别方法、装置及电子设备
CN113270103A (zh) 基于语义增强的智能语音对话方法、装置、设备及介质
CN114489669A (zh) 一种基于图学习的Python语言代码片段生成方法
CN115268868B (zh) 一种基于有监督学习的智能源码转换方法
CN110175330B (zh) 一种基于注意力机制的命名实体识别方法
CN116167362A (zh) 模型训练方法、中文文本纠错方法、电子设备和存储介质
Mamatov et al. Speech recognition based on transformer neural networks
CN114416948A (zh) 一种基于语义感知的一对多对话生成方法及装置
JP7466784B2 (ja) グラフベースの時間的分類を用いたニューラルネットワークの訓練
Hadwan et al. An End-to-End Transformer-Based Automatic Speech Recognition for Qur'an Reciters.
CN113887836A (zh) 一种融合事件环境信息的叙述性事件预测方法
CN113223504A (zh) 声学模型的训练方法、装置、设备和存储介质
Kim et al. Enclap: Combining neural audio codec and audio-text joint embedding for automated audio captioning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination