CN108763504B - 一种基于强化双通道序列学习的对话回复生成方法及系统 - Google Patents

一种基于强化双通道序列学习的对话回复生成方法及系统 Download PDF

Info

Publication number
CN108763504B
CN108763504B CN201810539095.2A CN201810539095A CN108763504B CN 108763504 B CN108763504 B CN 108763504B CN 201810539095 A CN201810539095 A CN 201810539095A CN 108763504 B CN108763504 B CN 108763504B
Authority
CN
China
Prior art keywords
vector
context
dialogue
channel
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810539095.2A
Other languages
English (en)
Other versions
CN108763504A (zh
Inventor
陈哲乾
蔡登�
赵洲
何晓飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201810539095.2A priority Critical patent/CN108763504B/zh
Publication of CN108763504A publication Critical patent/CN108763504A/zh
Application granted granted Critical
Publication of CN108763504B publication Critical patent/CN108763504B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于强化双通道序列学习的对话回复生成方法及系统,本发明方法的步骤如下:(1)对上下文进行建模,获取上下文语义向量;(2)利用编码器将当前对话和上下文语义向量结合学习,得到当前对话向量以及编码器向量;(3)将上下文语义向量和当前对话向量输入解码器,得到第一通道对话回复草稿以及解码器向量;(4)将编码器向量与解码器向量以及第一通道对话回复草稿输入润饰器进行润饰,生成第二通道经过润饰的对话回复;(5)利用强化学习算法优化目标函数;(6)模型训练完毕,生成对话回复并输出。利用本发明,可以使对话生成模型对全局信息的把握更加深入,生成更加符合对话场景的有实质性内容的回复。

Description

一种基于强化双通道序列学习的对话回复生成方法及系统
技术领域
本发明涉及自然语言处理对话系统领域,具体涉及一种基于强化双通道序列学习的对话回复生成方法及系统。
背景技术
近年来,我们目睹了人机交互系统的繁荣发展。伴随着大量公开可利用的网上在线对话语料库,对话系统受到了广泛来自工业界和学术界研究者的关注。诸如苹果siri助手,微软的cortana助手以及小冰聊天机器人等的出现,让人机交互系统走入了千家万户。本发明的主要研究领域,是对话系统中最核心的技术——对话回复生成。在给定对话上下文语境的前提下,模型被要求能够根据当前对话内容,自动生成符合正常聊天逻辑的对话回复。一个高效的对话回复生成模型,需要能够明确捕捉上下文语境信息,以及对当前对话的语义理解,并能够生成符合人类口语,且具有逻辑的合理回复。
目前,主流的对话生成技术,主要依赖Bahdanau等人在2014年Computer Science期刊上提出的编码器-解码器生成框架Attn-Seq2Seq《Neural Machine Translation byJointly Learning to Align and Translate》。即输入一句对话,框架先对这句对话进行编码,得到一个对该句话整体的表示向量。再利用解码器,以该向量作为输入,一个词一个词地生成另一句话,生成的这句话,可以看出就是机器生成的对话回复。众多的对话生成算法,都是基于该框架的基础上,做出自己的相应改进。2016年美国人工智能协会Association for the Advancement of Artificial Intelligence在会上收录的《Building end-to-end dialogue systems using generative hierarchical neuralnetwork models》一文中,提出HRED模型,通过将编码器进行多层结构的分解,从单词层到句子层再到对话层,使得编码器获取到的信息更加多元化。而2017年同样在美国人工智能协会上,HRED模型的作者Serban等人在《AHierarchical Latent Variable Encoder-Decoder Model for Generating Dialogues》一文中提出HRED的改进版VHRED,通过引入变量结构参数,提高了对话生成的多样性。还有在2017年康奈尔大学Arxiv网站上的技术文章《Learning discourse-level diversity for neural dialog models usingconditional variational autoencoders.》中,公布了名为CVAE的模型,利用变分自动编码器方式捕捉对话多样性,从而仅仅利用贪心解码策略即可生成多样性对话回复。在众多编码器-解码器改进版的算法中,最为有效的方法还是结合强化学习来完成的。在2016年的第54届计算语言学协会Annual Meeting of the Association for ComputationalLinguistics上的一篇文章《Deep Reinforcement Learning for dialogue generation》提出利用三种奖励策略,提高对话系统的可扩展性的方法,名为RL-Seq2Seq。这些方法的提出,在一定程度上提高了对话回复生成的质量和多样性。
然而,目前主流的编码器-解码器框架,忽略了一个很重要的文本生成要点。在训练过程中,利用解码器生成句子是一个单词一个单词的组合而成的。每个新的单词仅仅利用到了之前已经生成的词汇,却无法利用还未生成的单词。这种文本生成技术,违背了人类天然的语言组织规律。对于人类来说,人类往往是先在脑子里有想要表达意思的完整概念,再组织语言将意思表达出来。也就是说,人类是先有了全局的意思表达概念,再有了文本生成步骤。而编码器-解码器这一框架,直接跳过了全局概念生成过程,直接就组织生成完整的对话回复。这就好比最终的输出只是一个草稿,并没有经过润饰,也没有学习到全局想要表达的概念。
发明内容
本发明提供了一种基于强化双通道序列学习的对话回复生成方法及系统,使对话生成模型在最终生成的对话效果中,能够对全局信息的把握更加深入,生成更加符合对话场景的有实质性内容的回复,提高文本生成质量。
一种基于强化双通道序列学习的对话回复生成方法,包括以下步骤:
(1)对上下文进行建模,获取上下文语义向量;
(2)利用编码器将当前对话和上下文语义向量结合学习,得到当前对话向量以及编码器向量;
(3)将上下文语义向量和当前对话向量输入解码器,得到第一通道对话回复草稿以及解码器向量;
(4)将编码器向量与解码器向量以及第一通道对话回复草稿输入润饰器进行润饰,生成第二通道经过润饰的对话回复;
(5)利用强化学习算法优化目标函数;
(6)模型训练完毕,生成对话回复并输出。
在多轮对话中,生成的回复必须参考上下文语境,才能避免出现跑题偏题现象。由于对话均为序列型数据,步骤(1)中,采用深度循环神经网络和注意力机制相结合的方式进行上下文信息建模,所述上下文语义向量的计算公式为:
Figure GDA0002451352530000031
其中,Cu表示上下文语义向量,aj,t表示第j个单词受到第t个隐含状态影响的注意力权重,M为上下文出现的所有单词个数,wj为上下文中出现第j个单词的词向量表示,aj,t计算公式为:
Figure GDA0002451352530000041
其中,ht为第t个当前单词的隐含状态表示,zj为训练到第j个上下文单词时,受与它相近的前后词影响:
zj=tanh(Wm-1zj-1+Wm+1zj+1+bm)
其中,zj表示为第j个单词在上下文语境中的语义表示,zj-1和zj+1为前个单词和后个单词隐含表示,Wm-1,Wm+1,bm是训练得到的参数。Tanh是激活函数。也就是说,在上下文语境中,第j个单词受到它上个单词和下一个单词的共同影响。
在所有上下文语境组成的单词中,上下文的最终表示向量,由经过深度循环神经网络学习到的隐含因袭平均值获得。在整个对话上下文的建模中,我们把上下文出现的所有单词都看成了一个整体,从而可以用整段话的学习方式来表示上下文信息。
步骤(2)中,所述编码器向量Cx由下面方式计算得出:
Figure GDA0002451352530000042
其中,Cx为初始编码器得到的上下文语义表示,可以理解成生成的第一版本草稿。αi代表初始解码器受到上下文语境Cu和当前单词学习到的隐含状态的注意力权重。
Figure GDA0002451352530000043
三个均为可学习的参数。Tanh为正切激活函数,控制注意力权重的范围。
步骤(3)中,所述第一通道对话回复草稿的具体生成步骤为:
Figure GDA0002451352530000044
其中,hi是通过深度循环神经网络学习到对话的原始隐含状态,Cu为对话的上下文信息,
Figure GDA0002451352530000045
表示第一通道解码器最终生成的第i个单词隐含信息,s*表示一系列
Figure GDA0002451352530000046
组合而成的完整表示。通过softmax函数,最终的每个生成隐含信息
Figure GDA0002451352530000051
可以用来从多模态信息中采样得到
Figure GDA0002451352530000052
Figure GDA0002451352530000053
由隐含函数决定的第一通道生成的单词。
步骤(3)中,所述的解码器向量计算公式为:
Figure GDA0002451352530000054
该步骤与第二步骤有一定的相似度。其中,βi表示上下文信息与第一通道生成的第i个单词
Figure GDA0002451352530000055
之间的注意力权重,
Figure GDA0002451352530000056
表示第二通道生成的上下文语义信息,理解成草稿经过润饰后的第二个上下文理解版本。
Figure GDA0002451352530000057
Figure GDA0002451352530000058
同样为可学习参数,tanh为激活函数。
从第一通道编码器-解码器框架中,模型得到所生成的回复草稿y*以及两个上下文表示Cx
Figure GDA0002451352530000059
这意味着现在已经有了一份即将生成的对话原始草稿,以及通过这份草稿和两个上下文全局的理解,生成模型可以跳出所生成单词的局部限制,从全局角度来重新润饰草稿,得到更加有全局意识的对话回复。用理论的方式表示,即在第二通道中的每一步t,都利用了第一通道中的Cx全局上下文表示和
Figure GDA00024513525300000510
编码器全局表示。
步骤(4)中,最终经过二次润饰的输出可以表示成:
Figure GDA00024513525300000511
其中,st为最终生成经过润饰后的第t个单词。
Figure GDA00024513525300000512
表示第二通道解码器最终生成的第t个单词隐含信息,y表示一系列
Figure GDA00024513525300000513
组合而成的完整表示。通过softmax函数,最终的每个生成隐含信息
Figure GDA00024513525300000514
可以用来从多模态信息中采样得到,st由隐含函数决定的最终生成单词。
本发明使用交叉熵损失来最大化所观测到的序列生成概率。给定一个目标真实序列
Figure GDA00024513525300000515
目标是为了最小化交叉熵损失函数:
Figure GDA00024513525300000516
步骤(5)的具体步骤为:
(5-1)训练过程中,输入要学习的句子
Figure GDA0002451352530000061
并得到新生成的采样句子
Figure GDA0002451352530000062
从而得到在具体评判标准下的训练奖励值r(ws);
(5-2)测试过程中,输入要测试的对话
Figure GDA0002451352530000063
以及预测出的句子
Figure GDA0002451352530000064
得到在具体评判标准下的测试奖励值r(wt);
(5-3)设计目标函数,基于训练奖励值r(ws)和测试奖励值r(wt),通过计算策略梯度,采用蒙特卡洛采样法优化最终目标。
由于在文本生成过程中,训练和测试生成分布不同,模型训练无法直接对测试评判标准进行优化,本发明采用了强化学习策略来解决这类问题。生成模型可以看做一个智能体和外部环境的交互。这个智能体即生成模型,外部环境可以理解为上下文语境以及当前对话所包含的各类词汇。在训练过程中,模型会根据当前策略选择合适行为,并对最终生成序列进行评分计算奖励值。训练过程可以理解为最小化引入强化学习后的负期望奖励值:
Figure GDA0002451352530000065
其中,
Figure GDA0002451352530000066
是生成序列并且
Figure GDA0002451352530000067
是在第t步采样得到的单词。
本发明所采用的强化学习策略,是改进版的演员-评论家强化学习算法。具体来说,本发明引进了奖励基准线结合到序列学习系统,从而减少梯度估计策略由于大规模词搜索空间的影响,结合基准线策略的梯度计算可以表示成:
Figure GDA0002451352530000068
实际上期望梯度可以通过蒙特卡洛采样法来估计得到:
Figure GDA0002451352530000069
其中,
Figure GDA00024513525300000610
为损失函数的梯度下降表示。
Figure GDA00024513525300000611
表示每个最终生成的单词与真实单词之间的误差累积期望值。r(ws)和r(wt)分别代表生成的单词与真实单词之间的奖励值差。pθ(ws)为单词的采样分布概率。
通过使用链式法则,模型参数可以计算成:
Figure GDA0002451352530000071
其中st是softmax的输入,
Figure GDA0002451352530000072
是负奖励值的期望梯度。
本发明还提供了一种基于强化双通道序列学习的对话回复生成系统,包括计算机系统,所述计算机系统包括:
上下文语义理解模块,利用深度循环神经网络及注意力机制,用于捕捉对话过程中的上下文信息;
初始化对话状态模块,用于初始化对话模型在训练过程和测试过程中的超参数;
编码器模块,基于上下文语义理解模块得到的向量表示,将当前对话和上下文语义信息结合学习,得到对当前对话的向量表示,以及对编码器整体状态的向量表示。
解码器模块,基于上下文语义理解模块和编码器模块,将上下文语义向量和当前对话向量作为输入,生成第一通道对话回复草稿,以及对解码器整体状态的向量表示。
润饰器模块,在得到编码器模块和解码器模块的整体状态表示后,将两者向量以及第一通道对话回复草稿作为同步输入,生成最后的第二通道经过润饰的对话回复。
强化学习模块,基于训练过程和测试过程所得到的两个奖励值,计算两个奖励值之间的差,并利用策略梯度下降策略,优化目标函数。
对话生成模块,在整体强化双通道序列学习算法训练完毕之后,对外输出对话回复。
本发明基于强化双通道序列学习的对话回复生成方法及系统具有以下优点:
1、本发明提出的强化双通道序列学习算法,通过引入新的对话润饰模块,可以将编码器-解码器生成的对话草稿进一步进行润饰,从而生成对全局更加了解,更加有实质意义的对话回复。
2、本发明利用的新强化学习优化算法,通过使用测试输出的参照,可以直接优化所得到的奖励函数,从而避免传统强化学习难以正则化的难题,大规模缩小文本生成所需的词搜索空间,提高了文本生成效率。
3、本发明相比其他基准线算法,具有更好的模型性能。
附图说明
图1为本发明方法的整体框架设计图;
图2为本发明系统的整体流程示意图;
图3为本发明方法与其他方法在不同对话长度下的BLEU4分值对比图;
图4为本发明方法与其他方法在不同对话长度下的ROUGE-L分值对比图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1所示,本发明框架主要分为两部分:(a)润饰神经网络,改编自传统的编码器-解码器框架,添加了润饰模块。(b)新强化学习模块,通过计算训练和测试分别得到的奖励值差,优化自学策略梯度。具体步骤分别阐述如下:
(a)润饰神经网络,先生成草稿,再基于草稿基础上进一步润饰得到最终输出。基本步骤如下:
1.对上下文进行建模,得到上下文表示向量Cu。其中Cu的获取,是通过将上下文所有句子看成一个整体,利用注意力机制和深度循环神经网络,得到整体向量表示。
2.对于当前对话{x1,x2,…,xM},先利用深度循环神经网络,得到关于当前对话的整体原始向量表示。接着,利用所得到的整体原始向量表示,以及第一步得到的上下文向量表示Cu,对两者进行加权求注意力值AX,最后将原始对话向量与所得注意力值AX进行相乘,得到最终编码向量Cx。该编码向量Cx表示着经过对上下文的语义理解,模型学到当前对话合理的语义表示。
3.解码器模块与第二步骤编码器的解法类似。将编码器得到的原始向量表示,作为解码器的输入,通过注意力机制生成原始对话回复。该回复可以看成是生成初步的对话草稿。紧接着,同样利用第一步骤得到的上下文语义表示和解码器生成的原始对话回复,采用注意力机制得到注意力值
Figure GDA0002451352530000091
最后将得到的
Figure GDA0002451352530000092
与原始对话回复相乘,得到解码器向量
Figure GDA0002451352530000093
该解码向量
Figure GDA0002451352530000094
表示受上下文语义和当前对话的影响,模型生成原始草稿作为对话第一通道回复。
4.在得到编码器向量表示Cx和解码器向量表示
Figure GDA0002451352530000095
后,本发明所提出的第三模块润饰模块开始运作。该步骤同样采用深度循环神经网络,将Cx
Figure GDA0002451352530000096
同步以及每一步预测得到的单词yt作为合并输入,得到了最终经过润饰的对话回复输出。
(b)新强化学习算法。本发明所采用的新强化学习算法,替代了传统演员-评论家策略,改进训练过程,进而提高句子生成的稳定性。基本步骤如下:
1.通过训练模块,输入要学习的句子
Figure GDA0002451352530000097
并得到新生成的采样句子
Figure GDA0002451352530000101
从而得到在具体评判标准下的奖励值r(ws)。
2.在测试模块中,与训练模型相似,输入要测试的对话
Figure GDA0002451352530000102
以及预测出的句子
Figure GDA0002451352530000103
得到在具体评判标准下的奖励值r(wt)。
3.新设计的目标函数,是基于训练模块得到的奖励值r(ws)和测试模块得到的奖励值r(wt),通过计算策略梯度
Figure GDA0002451352530000104
Figure GDA0002451352530000105
采用蒙特卡洛采样法优化最终目标。
图2是本发明设计的对话生成系统流程示意图。系统流程与图1的算法流程相似,总共分为七大模块,分别是上下文语义理解模块,对话状态初始化模块,编码器模块,解码器模块,润饰器模块,强化学习模块,以及对话生成模块。
本发明在一个大型公开数据集DailyDialog上与其他目前最前沿的对话生成方式进行对比。DailyDialog是一个多轮对话的数据集,是从一些英语学习网站中,将英语学习者练习英语对话的数据爬取整理得到的。整个数据集包含13118个多轮对话,每个对话平均有8轮交互,每次交互句子长度约为15个单词。数据集分成三个部分:训练集、验证集、测试集,分别有11118、1000,1000个对话轮数。在所有实验中,单词词汇表个数限制在25000个高频词汇,所有超出词汇表的词汇,均已OOV符号表示。
本发明主要在三大评判指标上进行对比,分别是:BLEU,ROUGE,RATIO。总共比较了8个目前主流的对话回复生成算法:Seq2seq,Attn-Seq2seq,RL-seq2seq,HRED,VHRED,CVAE,另外还有2个模型拆解对比,分别是普通编码器-解码器加强化学习算法,润饰神经网络去掉强化学习算法。整体对比结果如表1所示:
表1
Figure GDA0002451352530000106
Figure GDA0002451352530000111
从表1可以看出,本发明提出的强化双通道序列学习框架,在各大评判指标下均获得最优效果,充分展示了本发明算法的优越性。另外经过拆解实验对照,本发明所提出的润饰神经网络模块,以及所采用的新强化学习算法,均一定程度上提高了模型的整体效果。
另外,本发明在针对生成对话的不同长度得分对比中,也侧面证明了本发明所提出的模型在对比其他前沿算法的优越性。如图3和图4所示,本发明提出的算法(Embellish-rl),在生成的不同对话长度下,均能够获得最优的评判分。这充分说明本发明所提出的算法,在生成对话回复的稳定性上,比其他模型更加优异。

Claims (1)

1.一种基于强化双通道序列学习的对话回复生成方法,其特征在于,包括以下步骤:
(1)采用深度循环神经网络和注意力机制相结合的方式进行上下文信息建模,获取上下文语义向量;所述上下文语义向量的计算公式为:
Figure FDA0002451352520000011
其中,Cu表示上下文语义向量,aj,t表示第j个单词受到第t个隐含状态影响的注意力权重,M为上下文出现的所有单词个数,wj为上下文中出现第j个单词的词向量表示,aj,t计算公式为:
Figure FDA0002451352520000012
其中,ht为第t个当前单词的隐含状态表示,zj为第j个单词在上下文语境中的语义表示,zj的计算公式为:
zj=tanh(Wm-1zj-1+Wm+1zj+1+bm)
其中,zj-1和zj+1为前个单词和后个单词隐含表示,Wm-1,Wm+1,bm是训练得到的参数,tanh是正切激活函数;
(2)利用编码器将当前对话和上下文语义向量结合学习,得到当前对话向量以及编码器向量;所述的编码器向量计算公式为:
Figure FDA0002451352520000013
Figure FDA0002451352520000014
其中,Cx为初始编码器得到的上下文语义表示,αi代表初始解码器受到上下文语境Cu和当前单词学习到的隐含状态的注意力权重,
Figure FDA0002451352520000015
Figure FDA0002451352520000016
为学习的参数,tanh为正切激活函数,控制注意力权重的范围;
(3)将上下文语义向量和当前对话向量输入解码器,得到第一通道对话回复草稿以及解码器向量;所述第一通道对话回复草稿生成的公式为:
Figure FDA0002451352520000021
Figure FDA0002451352520000022
其中,hi是通过深度循环神经网络学习到对话的原始隐含状态,Cu为对话的上下文信息,
Figure FDA0002451352520000023
表示第一通道解码器最终生成的第i个单词隐含信息,s*表示一系列
Figure FDA0002451352520000024
组合而成的完整表示;pθ表示模型参数θ下的条件概率;
通过softmax函数,最终的每个生成隐含信息
Figure FDA0002451352520000025
用来从多模态信息中采样得到
Figure FDA0002451352520000026
Figure FDA0002451352520000027
由隐含函数决定的第一通道生成的单词;
所述的解码器向量计算公式为:
Figure FDA0002451352520000028
Figure FDA0002451352520000029
其中,βi表示上下文信息与第一通道生成的第i个单词
Figure FDA00024513525200000210
之间的注意力权重,
Figure FDA00024513525200000211
表示第二通道生成的上下文语义信息,为草稿经过润饰后的第二个上下文理解版本,
Figure FDA00024513525200000212
为学习的参数,tanh为正切激活函数;
(4)将编码器向量与解码器向量以及第一通道对话回复草稿输入润饰器进行润饰,生成第二通道经过润饰的对话回复;所述第二通道经过润饰的对话回复计算公式为:
Figure FDA00024513525200000213
Figure FDA00024513525200000214
其中,st为最终生成经过润饰后的第t个单词,
Figure FDA00024513525200000215
表示第二通道解码器最终生成的第t个单词隐含信息,y表示一系列
Figure FDA00024513525200000216
组合而成的完整表示;
Figure FDA00024513525200000217
表示第二通道生成的上下文语义信息;
通过softmax函数,最终的每个生成隐含信息
Figure FDA00024513525200000218
从多模态信息中采样得到,st由隐含函数决定的最终生成单词;
(5)利用强化学习算法优化目标函数;具体步骤为:
(5-1)训练过程中,输入要学习的句子并得到新生成的采样句子,从而得到在具体评判标准下的训练奖励值;
(5-2)测试过程中,输入要测试的对话以及预测出的句子,得到在具体评判标准下的测试奖励值;
(5-3)设计目标函数,基于训练奖励值和测试奖励值,通过计算策略梯度,采用蒙特卡洛采样法优化最终目标;所述计算策略梯度的公式为:
Figure FDA0002451352520000031
其中,
Figure FDA0002451352520000032
为损失函数的梯度下降表示,
Figure FDA0002451352520000033
表示每个最终生成的单词与真实单词之间的误差累积期望值,r(ws)为训练奖励值,r(wt)代表测试奖励值,pθ(ws)为单词的采样分布概率;
(6)模型训练完毕,生成对话回复并输出。
CN201810539095.2A 2018-05-30 2018-05-30 一种基于强化双通道序列学习的对话回复生成方法及系统 Active CN108763504B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810539095.2A CN108763504B (zh) 2018-05-30 2018-05-30 一种基于强化双通道序列学习的对话回复生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810539095.2A CN108763504B (zh) 2018-05-30 2018-05-30 一种基于强化双通道序列学习的对话回复生成方法及系统

Publications (2)

Publication Number Publication Date
CN108763504A CN108763504A (zh) 2018-11-06
CN108763504B true CN108763504B (zh) 2020-07-24

Family

ID=64004097

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810539095.2A Active CN108763504B (zh) 2018-05-30 2018-05-30 一种基于强化双通道序列学习的对话回复生成方法及系统

Country Status (1)

Country Link
CN (1) CN108763504B (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109597876B (zh) * 2018-11-07 2023-04-11 中山大学 一种基于强化学习的多轮对话答复选择模型及其方法
CN109460463B (zh) * 2018-11-15 2023-06-20 平安科技(深圳)有限公司 基于数据处理的模型训练方法、装置、终端及存储介质
CN109597884B (zh) * 2018-12-28 2021-07-20 北京百度网讯科技有限公司 对话生成的方法、装置、存储介质和终端设备
CN110033096B (zh) * 2019-03-07 2021-04-02 北京大学 一种用于强化学习的状态数据生成方法和系统
CN109977212B (zh) * 2019-03-28 2020-11-24 清华大学深圳研究生院 对话机器人的回复内容生成方法和终端设备
CN110297895B (zh) * 2019-05-24 2021-09-17 山东大学 一种基于自由文本知识的对话方法及系统
CN110321417B (zh) * 2019-05-30 2021-06-11 山东大学 一种对话生成方法、系统、可读存储介质及计算机设备
CN110309287B (zh) * 2019-07-08 2021-07-06 北京邮电大学 建模对话轮次信息的检索式闲聊对话打分方法
CN110472229B (zh) * 2019-07-11 2022-09-09 新华三大数据技术有限公司 序列标注模型训练方法、电子病历处理方法及相关装置
CN110347368B (zh) * 2019-07-18 2023-01-17 北京香侬慧语科技有限责任公司 一种对话生成的方法、装置、存储介质及电子设备
CN110399460A (zh) * 2019-07-19 2019-11-01 腾讯科技(深圳)有限公司 对话处理方法、装置、设备及存储介质
CN110929476B (zh) * 2019-09-27 2022-09-30 中国人民解放军63626部队 一种基于混合粒度注意力机制的任务型多轮对话模型构建方法
CN111143509B (zh) * 2019-12-09 2023-06-30 天津大学 一种基于静态-动态注意力变分网络的对话生成方法
CN111026848B (zh) * 2019-12-17 2022-08-02 电子科技大学 一种基于相似上下文和强化学习的中文词向量生成方法
CN111104997B (zh) * 2019-12-25 2023-05-23 青岛创新奇智科技集团股份有限公司 一种基于深度学习的商品二维码生成方法及系统
CN111241830B (zh) * 2020-01-14 2023-09-01 思必驰科技股份有限公司 对语词向量生成方法、对语生成模型训练方法
CN111274362B (zh) * 2020-02-01 2021-09-03 武汉大学 一种基于transformer架构的对话生成方法
CN113495943B (zh) * 2020-04-02 2023-07-14 山东大学 一种基于知识追踪与转移的人机对话方法
CN111563148B (zh) * 2020-04-17 2023-06-20 华南理工大学 一种基于词组多样性的对话生成方法
CN111985934B (zh) * 2020-07-30 2024-07-12 浙江百世技术有限公司 智能客服对话模型构建方法及应用
CN111985645A (zh) * 2020-08-28 2020-11-24 北京市商汤科技开发有限公司 一种神经网络的训练方法、装置、电子设备及存储介质
CN112017742B (zh) * 2020-09-08 2024-05-24 平安科技(深圳)有限公司 分诊数据处理方法、装置、计算机设备及存储介质
CN113159368A (zh) * 2021-01-20 2021-07-23 国电南瑞科技股份有限公司 基于环境上下文和用户反馈信息的用电模型优化方法
CN113704443B (zh) * 2021-09-08 2023-10-13 天津大学 一种融合显式和隐式个性化信息的对话生成方法
CN114201974A (zh) * 2021-12-13 2022-03-18 国网电子商务有限公司 一种对话处理方法及相关设备
CN114443828B (zh) * 2022-02-09 2023-07-28 北京百度网讯科技有限公司 一种通用对话模型的训练方法、装置、电子设备及介质
CN115809669B (zh) * 2022-12-30 2024-03-29 联通智网科技股份有限公司 一种对话管理方法和电子设备
CN115757749B (zh) * 2023-01-05 2023-05-16 北京红棉小冰科技有限公司 一种对话处理方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776578A (zh) * 2017-01-03 2017-05-31 竹间智能科技(上海)有限公司 用于提升对话系统对话性能的方法及装置
CN106844368A (zh) * 2015-12-03 2017-06-13 华为技术有限公司 用于人机对话的方法、神经网络系统和用户设备
CN107038159A (zh) * 2017-03-09 2017-08-11 清华大学 一种基于无监督领域自适应的神经网络机器翻译方法
CN107844469A (zh) * 2017-10-26 2018-03-27 北京大学 基于词向量查询模型的文本简化方法
CN108763444A (zh) * 2018-05-25 2018-11-06 杭州知智能科技有限公司 利用分层编码解码器网络机制来解决视频问答的方法
CN108804611A (zh) * 2018-05-30 2018-11-13 浙江大学 一种基于自我评论序列学习的对话回复生成方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9842106B2 (en) * 2015-12-04 2017-12-12 Mitsubishi Electric Research Laboratories, Inc Method and system for role dependent context sensitive spoken and textual language understanding with neural networks
US10431205B2 (en) * 2016-04-27 2019-10-01 Conduent Business Services, Llc Dialog device with dialog support generated using a mixture of language models combined using a recurrent neural network

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844368A (zh) * 2015-12-03 2017-06-13 华为技术有限公司 用于人机对话的方法、神经网络系统和用户设备
CN106776578A (zh) * 2017-01-03 2017-05-31 竹间智能科技(上海)有限公司 用于提升对话系统对话性能的方法及装置
CN107038159A (zh) * 2017-03-09 2017-08-11 清华大学 一种基于无监督领域自适应的神经网络机器翻译方法
CN107844469A (zh) * 2017-10-26 2018-03-27 北京大学 基于词向量查询模型的文本简化方法
CN108763444A (zh) * 2018-05-25 2018-11-06 杭州知智能科技有限公司 利用分层编码解码器网络机制来解决视频问答的方法
CN108804611A (zh) * 2018-05-30 2018-11-13 浙江大学 一种基于自我评论序列学习的对话回复生成方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于深度学习技术的中国传统诗歌生成方法研究;王哲;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180115;I138-2123 *
基于深度学习的自然场景文字识别;黄攀;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160715;I138-1239 *

Also Published As

Publication number Publication date
CN108763504A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
CN108763504B (zh) 一种基于强化双通道序列学习的对话回复生成方法及系统
Liu et al. Diffsinger: Singing voice synthesis via shallow diffusion mechanism
CN108804611B (zh) 一种基于自我评论序列学习的对话回复生成方法及系统
CN109948152B (zh) 一种基于lstm的中文文本语法纠错模型方法
CN107590138B (zh) 一种基于词性注意力机制的神经机器翻译方法
CN109359294B (zh) 一种基于神经机器翻译的古汉语翻译方法
CN106484682B (zh) 基于统计的机器翻译方法、装置及电子设备
CN111401084B (zh) 一种机器翻译的方法、设备以及计算机可读存储介质
CN111210807B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
CN110457661B (zh) 自然语言生成方法、装置、设备及存储介质
CN110459208B (zh) 一种基于知识迁移的序列到序列语音识别模型训练方法
CN110085215A (zh) 一种基于生成对抗网络的语言模型数据增强方法
Dua et al. Discriminatively trained continuous Hindi speech recognition system using interpolated recurrent neural network language modeling
CN112420024A (zh) 一种全端到端的中英文混合空管语音识别方法及装置
CN111782788A (zh) 一种面向开放域对话系统的情感回复自动生成方法
Variani et al. Neural oracle search on n-best hypotheses
CN116663578A (zh) 一种基于策略梯度方法改进的神经机器翻译方法
CN111563148A (zh) 一种基于词组多样性的对话生成方法
CN112380882B (zh) 一种具有误差修正功能的蒙汉神经机器翻译方法
Zhao et al. Tibetan multi-dialect speech recognition using latent regression Bayesian network and end-to-end mode
CN110188342B (zh) 一种基于知识图谱与语义图技术的口语理解方法
Vu et al. Exploration of the impact of maximum entropy in recurrent neural network language models for code-switching speech
Kazakova et al. Analysis of natural language processing technology: Modern problems and approaches
CN115796187A (zh) 一种基于对话结构图约束的开放域对话方法
Lu et al. Implementation of embedded unspecific continuous English speech recognition based on HMM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant