CN111986687A - 基于交互式解码的双语情感对话生成系统 - Google Patents

基于交互式解码的双语情感对话生成系统 Download PDF

Info

Publication number
CN111986687A
CN111986687A CN202010577720.XA CN202010577720A CN111986687A CN 111986687 A CN111986687 A CN 111986687A CN 202010577720 A CN202010577720 A CN 202010577720A CN 111986687 A CN111986687 A CN 111986687A
Authority
CN
China
Prior art keywords
emotion
bilingual
reply
decoders
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010577720.XA
Other languages
English (en)
Other versions
CN111986687B (zh
Inventor
孙晓
王佳敏
汪萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202010577720.XA priority Critical patent/CN111986687B/zh
Publication of CN111986687A publication Critical patent/CN111986687A/zh
Application granted granted Critical
Publication of CN111986687B publication Critical patent/CN111986687B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种交互式解码的双语情感对话生成系统。本发明采用多语种信息互补,可以生成高质量的情感回复。以往的情感对话生成模型都是使用单语料进行训练和测试,本发明使用双语料(中文和英文)来训练和测试模型,在生成情感回复的过程中,中文解码器和英文解码器通过内部、外部交互机制进行信息的互补。其中,内部交互借助语言之间冗余信息的辅助作用,挖掘不同语种回答之间的动态上下文信息,利用更充足的信息生成回复,从而降低困惑度,提高回答内容的质量,生成高质量的情感回复;外部交互在充分考虑另一解码器的上下文信息后,通过类型选择器来选择生成情感单词或者普通单词,平衡了回复的语法合理性和情感自然性。

Description

基于交互式解码的双语情感对话生成系统
技术领域
本发明实施例涉及语言处理技术领域,具体涉及一种基于交互式解码的双语情感对话生成系统。
背景技术
目前,人机对话系统的应用范围越来越广。例如,在医疗领域,对话系统可以更便捷地为患者和消费者提供健康信息服务;在电子商务领域,面向任务的对话系统能协助客户完成网上购物。
随着情感在提高会话质量上的重要性的凸显,情感对话生成领域逐渐引起了人们的注意。研究者发现在对话过程中引入情感因素更能提升用户的体验感。为了让对话系统更加智能、生成的回复能更全面地满足人们需求,引入情感是必不可少的。因此,在对话生成过程中合理地引入情感因素,并生成高质量的文本内容是提高人机对话体验的关键,也是实现真正自然的人机交互的必经之路。
通过增加回复的多样性、引入外部知识库等方法可以提高生成回复的文本质量。然而,情感对话生成的一个难点在于如何以一种自然的、连贯的方式表达情感。
目前已提出的对话系统包括:1)通过预测情感关键词和主题关键词来指导回答的生成,增强主题相关度和情感相关度;2)通过引入情感编辑机制去生成高质量的情感回复;3)通过一种基于Transformer机制的多维度生成网络,使用贝叶斯深度学习,提升情感对话生成模型的多样性。
以上对话生成模型虽然注意到情感因素在对话系统中的重要性,但取得的效果却不尽人意,不能够很好的挖掘对话内容中的情感要素,生成的回答情感强度不可控、不细致,难以充分发挥情感在对话中的作用,生成的句子显得十分生硬和呆板。因此,目前已提出的对话系统有待改进。
发明内容
本发明实施例提供了一种基于交互式解码的双语情感对话生成系统,用以解决上述至少一个技术问题。
本发明实施例提供一种基于交互式解码的双语情感对话生成系统,包括:一个编码器和两个解码器;
所述编码器包括6个相同的网络块,每个网络块由2个子层组成,分别是Multi-HeadAttention层和FeedForward层,每个网络块的内部结构和Transformer相同;所述编码器的输出同时传递给所述两个解码器;
所述两个解码器分别为中文解码器和英文解码器,所述两个解码器的结构相同,每个解码器包括6个相同的网络块,每个网络块由3个子层组成,分别是MaskedMulti-HeadAttention层、Multi-Head Attention层以及FeedForward层,每个网络块的内部结构和Transformer相同,每个解码器的输入由三部分组成:已生成的子句、所述编码器的输出和来自另一解码器的上下文信息;所述两个解码器之间通过内部交互和外部交互来传递信息,并行生成原语言的情感回复和辅助语言的情感回复,其中,中文回复为原语言的情感回复,英文回复为辅助语言的情感回复。
可选地,所述两个解码器各自执行的内部交互操作的流程相同且同步进行,其中,内部交互操作的流程为:
在时间步t时,根据所述两个解码器在t-1时刻各自输出的已经生成的文本
Figure BDA0002551855520000021
Figure BDA0002551855520000022
,得到所述两个解码器各自的输入queries(Q1、Q2)、keys(K1、K2)和values(V1、V2);
针对所述两个解码器中的第i个解码器,使用内部交互机制,将该解码器的当前状态更新为H′i
H′1=Inter(Q1,[K1;K2],[V1;V2])
H′2=Inter(Q2,[K1;K2],[V1;V2])
其中[;]表示连接操作,Inter()表示内部交互机制。
可选地,所述两个解码器中的第i个解码器采用内部交互机制Inter()得到更新后的当前状态H′i的具体描述如下:
H′i=ri⊙Hi+fi⊙zi
H1=Attention(Q1,K1,V1)
Figure BDA0002551855520000031
H2=Attention(Q2,K2,V2)
Figure BDA0002551855520000032
Figure BDA0002551855520000033
Figure BDA0002551855520000034
Figure BDA0002551855520000035
其中[;]表示连接操作,tanh和σ是激活函数,⊙表示元素点积,
Figure BDA0002551855520000036
Figure BDA0002551855520000037
均是可训练的参数,zi表示来自另一解码器的上下文信息,ri是第i个解码器的保留门,fi是第i个解码器的遗忘门,Attention()表示注意力机制,指transformer的Scaled Dot-ProductAttention。
可选地,所述两个解码器各自执行的外部交互操作的流程相同且同步进行,其中,外部交互操作的流程为:
通过匹配层对所述两个解码器各自在在时间步t时的上下文信息
Figure BDA0002551855520000038
进行融合,得到特征向量v;
通过类型选择器确定所述两个解码器中每个解码器生成情感单词的权重α和普通单词的权重1-α;
分别使用情感softmax和普通softmax,获得情感词典和普通词典上的概率分布Pe和Pg,其中,情感词典和普通词典没有交集;
将Pe和Pg两个概率分布进行加权、连接操作,得到所述两个解码器中每个解码器各自输出的下一单词yt
可选地,特征向量v符合以下公式:
Figure BDA0002551855520000041
其中,[;]表示连接操作,σ是激活函数,⊙表示元素点积,用来衡量所述两个解码器各自在t时刻的上下文信息
Figure BDA0002551855520000042
之间的相似度。
可选地,所述两个解码器中第i个解码器输出的下一单词
Figure BDA0002551855520000043
符合以下公式:
Figure BDA0002551855520000044
Figure BDA0002551855520000045
Figure BDA0002551855520000046
Figure BDA0002551855520000047
其中,[;]表示连接操作,e是情感嵌入向量,
Figure BDA0002551855520000048
是用来衡量当前单词是情感单词we还是普通单词wg的标量,Pg、Pe分别是普通词典和情感词典上的概率分布,
Figure BDA0002551855520000049
均是可训练的参数,
Figure BDA00025518555200000410
是Pg和Pe两个概率分布的连接。
可选地,所述交互式解码的双语情感对话生成系统输出的双语情感回复满足三方面的约束:流畅度、连贯度和情感度;
通过最小化以下损失函数值L(θ),同时优化所述编码器和所述两个解码器:
L(θ)=-(lf+lc+le)
其中,θ表示可训练的参数,lf表示所述交互式解码的双语情感对话生成系统输出的双语情感回复的流畅度,lc表示所述交互式解码的双语情感对话生成系统输出的双语情感回复的连贯度,le表示所述交互式解码的双语情感对话生成系统输出的双语情感回复的情感度。
可选地,所述交互式解码的双语情感对话生成系统输出的双语情感回复的流畅度lf满足以下公式:
Figure BDA0002551855520000051
y1表示所述交互式解码的双语情感对话生成系统输出的中文情感回复,
y2所述交互式解码的双语情感对话生成系统输出的英文情感回复,
N1代表y1的长度,N2代表y2的长度,PCh代表中文语言模型,PEn代表英文语言模型,PCh和PEn是两个预训练的N-Gram语言模型。
可选地,所述交互式解码的双语情感对话生成系统输出的双语情感回复的连贯度lc满足以下公式:
Figure BDA0002551855520000052
其中,y1表示所述交互式解码的双语情感对话生成系统输出的中文情感回复,y2所述交互式解码的双语情感对话生成系统输出的英文情感回复,x代表给定问句,Pseq2seq(yi|x)代表表示给定问句x时生成回复yi的概率,
Figure BDA0002551855520000053
代表基于回复yi生成问句x的概率,Pseq2seq
Figure BDA0002551855520000054
是两个预训练的Seq2Seq模型。
可选地,所述交互式解码的双语情感对话生成系统输出的双语情感回复的情感度le满足以下公式:
Figure BDA0002551855520000055
其中,
Figure BDA0002551855520000056
为针对所述两个解码器中第i个解码器定义的期望的情感类别,
Figure BDA0002551855520000057
表示情感分类器Det针对所述两个解码器中第i个解码器预测的概率分布,Net定义为情感类别的数量,其中,所述情感分类器Det是预训练的BERT模型,训练样本为人工标注情感类别的文本语料。
本发明的有益效果如下:
1、本发明采用多语种信息互补,可以生成高质量的情感回复。以往的情感对话生成模型都是使用单语料进行训练和测试,本发明使用双语料(中文和英文)来训练和测试模型,在生成情感回复的过程中充分利用了不同语言之间的互补信息来提高回复质量。具体地,中文解码器和英文解码器通过内部、外部交互机制进行信息的互补。其中,内部交互借助语言之间冗余信息的辅助作用,挖掘不同语种回答之间的动态上下文信息,利用更充足的信息生成回复,从而降低困惑度,提高回答内容的质量,生成高质量的情感回复;外部交互在充分考虑另一解码器的上下文信息后,通过类型选择器来选择生成情感单词或者普通单词,平衡了回复的语法合理性和情感自然性。
2、本发明可以生成双语情感回复。在本发明的情感对话生成系统中,能同时生成多种语言的情感回复,让模型能不限制于特定语言的约束,满足更多场景的需求。最终获取中文、英文情感回复,中文是使用人数最多的母语,英文是通用的语言,两者结合的情感对话生成模型能够丰富使用场景。
3、本发明克服目前已提出的对话系统生成的回答的情感强度不可控的缺点。在本发明的情感对话生成系统中,采用外部交互机制来根据不同解码器上下文信息选择更合适的情感单词或普通单词生成回答,能明显地提升生成情感回复的情感相关性,保证文本生成过程中受到准确的约束。
4、本发明克服目前已提出的对话系统的生成的回答不能兼顾语法合理性和情感准确度的缺点。从流畅度、连贯度和情感度三方面综合考虑来设计损失函数,来进一步降低了文本的困惑度,提高情感的准确率和强度。
5、本发明可以做到真正的“情感交互”。目前已提出的对话系统只能做到检测情感、分析情感,但无法做到在对话中反馈用户的情感。本发明在分析用户情感的同时,生成合适的情感关键词,再以此为基础扩展出带有情感色彩的回复,使系统与用户做到“情感交互”。此外,生成的回答较目前已提出的对话系统具有更强的情感相关度、情感强度,更能够提升用户体验感。这是本发明相比于目前已提出的对话系统最大的优势。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是transformer模型的示意图;
图2是本发明实施例中一种基于交互式解码的双语情感对话生成系统的示意图;
图3是本发明实施例中内部交互机制的示意图;
图4是本发明实施例中外部交互机制的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例发现目前已提出的对话系统存在的问题至少包括:没有考虑使用多语料库进行训练时,在生成回复过程中不同语言之间补充信息的辅助作用;只依靠单一的约束无法满足实际需求。因此,本发明实施例提出需要同时从文本流畅度、文本连贯度和情感相关度来进行全面的约束,指导情感文本的生成。此外,本发明实施例提出使用类型选择器在生成回复的过程中选择生成情感单词或普通单词,指导生成的回复更好地平衡语法和情感强度。
基于此,本发明的一个实施例提供了一种基于交互式解码的双语情感对话生成系统。参考图1和图2,图1是transformer模型的示意图,图2是本发明实施例提供的一种基于交互式解码的双语情感对话生成系统的示意图。本发明实施例提供的一种基于交互式解码的双语情感对话生成系统遵循Transformer的总体架构,包括:一个编码器和两个解码器,一个编码器和两个解码器使用堆叠式自注意力和逐点全连接层实现。
编码器包括6个相同的网络块,参考图1,图1示出了一个网络块的具体结构,图1中“N×”表示N个相同的网络块,示例地,N为6。如图1所示,每个网络块由2个子层组成,分别是Multi-Head Attention层(多头注意力层)和Feed Forward层(前馈层),每个网络块的内部结构和Transformer相同。编码器的输出同时传递给两个解码器。
两个解码器分别为中文解码器和英文解码器,两个解码器的结构相同,每个解码器包括6个相同的网络块。参考图1,图1示出了一个网络块的具体结构,图1中“N×”表示N个相同的网络块,示例地,N为6。如图1所示,每个网络块由3个子层组成,分别是MaskedMulti-Head Attention层(带掩码操作的多头注意力层)、Multi-Head Attention层(多头注意力层)以及Feed Forward层(前馈层),每个网络块的内部结构和Transformer相同。
参考图2,每个解码器的输入由三部分组成:已生成的子句、所述编码器的输出和来自另一解码器的上下文信息,两个解码器之间通过内部交互和外部交互来传递信息,并行生成原语言的情感回复和辅助语言的情感回复,其中,中文回复为原语言的情感回复,英文回复为辅助语言的情感回复。
在具体实施时,所述两个解码器各自执行的内部交互操作的流程相同且同步进行。参考图3,图3是是本发明实施例中内部交互机制的示意图。内部交互操作的流程为:
在时间步t时,根据所述两个解码器在t-1时刻各自输出的已经生成的文本
Figure BDA0002551855520000108
Figure BDA0002551855520000109
,得到所述两个解码器各自的输入queries(Q1、Q2)、keys(K1、K2)和values(V1、V2);
针对所述两个解码器中的第i个解码器,使用内部交互机制,将该解码器的当前状态更新为H′i
H′1=Inter(Q1,[K1;K2],[V1;V2])
H′2=Inter(Q2,[K1;K2],[V1;V2])
其中[;]表示连接操作,Inter()表示内部交互机制。本发明中,“连接操作”代表两个向量的连接,连接可以按照行或列,在此不做具体限定。例如:维度为2×1的向量A和维度是3×1的向量B,对两个向量进行连接操作,得到的是维度为5×1的向量C(即,对两个向量按行拼接)。
本发明中,如未特别说明,t表示时间步t。
在具体实施时,所述两个解码器采用内部交互机制Inter()得到更新后的当前隐藏状态H′i的具体描述如下::
H′i=ri⊙Hi+fi⊙zi
H1=Attention(Q1,K1,V1)
Figure BDA0002551855520000101
H2=Attention(Q2,K2,V2)
Figure BDA0002551855520000102
Figure BDA0002551855520000103
Figure BDA0002551855520000104
Figure BDA0002551855520000105
其中[;]表示连接操作,tanh和σ是激活函数,⊙表示元素点积,
Figure BDA0002551855520000106
Figure BDA0002551855520000107
均是可训练的参数,zi表示来自另一解码器的上下文信息,ri是第i个解码器的保留门,fi是第i个解码器的遗忘门,Attention()表示注意力机制,指transformer的Scaled Dot-Product Attention。
在具体实施时,所述两个解码器各自执行的外部交互操作的流程相同且同步进行。参考图4,图4是是本发明实施例中内部交互机制的示意图。外部交互操作的流程为:
通过匹配层(Matching Layer)对所述两个解码器各自在时间步t的上下文信息
Figure BDA0002551855520000111
进行融合,得到特征向量v;
通过分类层(ClassificationLayer)执行以下操作:
通过类型选择器(Type Layer)确定所述两个解码器中每个解码器生成情感单词的权重α和普通单词的权重1-α;
分别使用情感softmax(Emotion softmax)和普通softmax(Generic softmax),获得情感词典和普通词典上的概率分布Pe和Pg,其中,情感词典和普通词典没有交集;
将Pe和Pg两个概率分布进行加权、连接操作,得到所述两个解码器中每个解码器各自输出的下一单词yt
在具体实施时,特征向量v符合以下公式:
Figure BDA0002551855520000112
其中,[;]表示连接操作,σ是激活函数,⊙表示元素点积,用来衡量所述两个解码器各自在t时刻的上下文信息
Figure BDA0002551855520000113
之间的相似度。
在具体实施时,所述两个解码器中第i个解码器输出的下一单词
Figure BDA0002551855520000114
符合以下公式:
Figure BDA0002551855520000115
Figure BDA0002551855520000116
Figure BDA0002551855520000121
Figure BDA0002551855520000122
其中,[;]表示连接操作,e是情感嵌入向量,
Figure BDA0002551855520000123
是用来衡量当前单词是情感单词we还是普通单词wg的标量,Pg、Pe分别是普通词典和情感词典上的概率分布,
Figure BDA0002551855520000124
均是可训练的参数,
Figure BDA0002551855520000125
是Pg和Pe两个概率分布的连接。
其中,
Figure BDA0002551855520000126
代表根据概率
Figure BDA0002551855520000127
进行采样,获取
Figure BDA0002551855520000128
Figure BDA0002551855520000129
中,[]表示概率之间的连接,代表上述的“将两个概率进行加权、连接操作”中针对两个概率的连接操作。
Figure BDA00025518555200001210
代表将按照权重(1-α)加权后的Pg和按照权重α加权后的Pe两个概率分布连起来,共同采样。连接后获取的即所有单词的概率(包含了情感词典里的情感单词和普通词典里的普通单词)。
在具体实施时,所述交互式解码的双语情感对话生成系统的输出双语情感回复满足三方面的约束:流畅度、连贯度和情感度;
通过最小化以下损失函数值L(θ),同时优化所述编码器和所述两个解码器:
L(θ)=-(lf+lc+le)
其中,θ表示可训练的参数,lf表示所述交互式解码的双语情感对话生成系统输出的双语情感回复的流畅度,lc表示所述交互式解码的双语情感对话生成系统输出的双语情感回复的连贯度,le表示所述交互式解码的双语情感对话生成系统输出的双语情感回复的情感度。
在具体实施时,所述交互式解码的双语情感对话生成系统输出的双语情感回复的流畅度lf满足以下公式:
Figure BDA0002551855520000131
y1表示所述交互式解码的双语情感对话生成系统输出的中文情感回复,
y2所述交互式解码的双语情感对话生成系统输出的英文情感回复,
N1代表y1的长度,N2代表y2的长度,PCh代表中文语言模型,PEn代表英文语言模型,PCh和PEn是两个预训练的N-Gram语言模型。
本发明考虑到过短的回复通常是无意义的回复,而过长的回复常存在冗余。所以在语言模型的基础上按回复的长度进行缩放,从而控制回复的长度。
在具体实施时,所述交互式解码的双语情感对话生成系统输出的双语情感回复的连贯度lc满足以下公式:
Figure BDA0002551855520000132
其中,y1表示所述交互式解码的双语情感对话生成系统输出的中文情感回复,y2所述交互式解码的双语情感对话生成系统输出的英文情感回复,x代表给定问句,Pseq2seq(yi|x)代表表示给定问句x时生成回复yi的概率,
Figure BDA0002551855520000133
代表基于回复yi生成问句x的概率,Pseq2seq
Figure BDA0002551855520000134
是两个预训练的Seq2Seq模型。
在具体实施时,所述交互式解码的双语情感对话生成系统输出的双语情感回复的情感度le满足以下公式:
Figure BDA0002551855520000135
其中,
Figure BDA0002551855520000136
为针对所述两个解码器中第i个解码器定义的期望的情感类别,
Figure BDA0002551855520000141
表示情感分类器Det针对所述两个解码器中第i个解码器预测的概率分布,Net定义为情感类别的数量,其中,所述情感分类器Det是预训练的BERT模型,训练样本为人工标注情感类别的文本语料。
本发明的有益效果如下:
1、本发明采用多语种信息互补,可以生成高质量的情感回复。以往的情感对话生成模型都是使用单语料进行训练和测试,本发明使用双语料(中文和英文)来训练和测试模型,在生成情感回复的过程中充分利用了不同语言之间的互补信息来提高回复质量。具体地,中文解码器和英文解码器通过内部、外部交互机制进行信息的互补。其中,内部交互借助语言之间冗余信息的辅助作用,挖掘不同语种回答之间的动态上下文信息,利用更充足的信息生成回复,从而降低困惑度,提高回答内容的质量,生成高质量的情感回复;外部交互在充分考虑另一解码器的上下文信息后,通过类型选择器来选择生成情感单词或者普通单词,平衡了回复的语法合理性和情感自然性。
2、本发明可以生成双语情感回复。在本发明的情感对话生成系统中,能同时生成多种语言的情感回复,让模型能不限制于特定语言的约束,满足更多场景的需求。最终获取中文、英文情感回复,中文是使用人数最多的母语,英文是通用的语言,两者结合的情感对话生成模型能够丰富使用场景。
3、本发明克服目前已提出的对话系统生成的回答的情感强度不可控的缺点。在本发明的情感对话生成系统中,采用外部交互机制来根据不同解码器上下文信息选择更合适的情感单词或普通单词生成回答,能明显地提升生成情感回复的情感相关性,保证文本生成过程中受到准确的约束。
4、本发明克服目前已提出的对话系统的生成的回答不能兼顾语法合理性和情感准确度的缺点。从流畅度、连贯度和情感度三方面综合考虑来设计损失函数,来进一步降低了文本的困惑度,提高情感的准确率和强度。
5、本发明可以做到真正的“情感交互”。目前已提出的对话系统只能做到检测情感、分析情感,但无法做到在对话中反馈用户的情感。本发明在分析用户情感的同时,生成合适的情感关键词,再以此为基础扩展出带有情感色彩的回复,使系统与用户做到“情感交互”。此外,生成的回答较目前已提出的对话系统具有更强的情感相关度、情感强度,更能够提升用户体验感。这是本发明相比于目前已提出的对话系统最大的优势。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本公开的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本公开的示例性实施例的描述中,本公开的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本公开要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本公开的单独实施例。

Claims (10)

1.一种基于交互式解码的双语情感对话生成系统,其特征在于,包括:一个编码器和两个解码器;
所述编码器包括6个相同的网络块,每个网络块由2个子层组成,分别是Multi-HeadAttention层和Feed Forward层,每个网络块的内部结构和Transformer相同;所述编码器的输出同时传递给所述两个解码器;
所述两个解码器分别为中文解码器和英文解码器,所述两个解码器的结构相同,每个解码器包括6个相同的网络块,每个网络块由3个子层组成,分别是Masked Multi-HeadAttention层、Multi-Head Attention层以及Feed Forward层,每个网络块的内部结构和Transformer相同,每个解码器的输入由三部分组成:已生成的子句、所述编码器的输出和来自另一解码器的上下文信息;所述两个解码器之间通过内部交互和外部交互来传递信息,并行生成原语言的情感回复和辅助语言的情感回复,其中,中文回复为原语言的情感回复,英文回复为辅助语言的情感回复。
2.根据权利要求1所述的一种基于交互式解码的双语情感对话生成系统,其特征在于,所述两个解码器各自执行的内部交互操作的流程相同且同步进行,其中,内部交互操作的流程为:
在时间步t时,根据所述两个解码器在t-1时刻各自输出的已经生成的文本y1t-1和y2t-1,得到所述两个解码器各自的输入queries(Q1、Q2)、keys(K1、K2)和values(V1、V2);
针对所述两个解码器中的第i个解码器,使用内部交互机制,将该解码器的当前状态更新为H′i
H′1=Inter(Q1,[K1;K2],[V1;V2])
H′2=Inter(Q2,[K1;K2],[V1;V2])
其中[;]表示连接操作,Inter()表示内部交互机制。
3.根据权利要求2所述的一种基于交互式解码的双语情感对话生成系统,其特征在于,所述两个解码器采用内部交互机制Inter()得到更新后的当前隐藏状态H′i的具体描述如下:
H′i=ri⊙Hi+fi⊙zi
H1=Attention(Q1,K1,y1)
Figure FDA0002551855510000021
H2=Attention(Q2,K2,V2)
Figure FDA0002551855510000022
Figure FDA0002551855510000023
Figure FDA0002551855510000024
Figure FDA0002551855510000025
其中[;]表示连接操作,tanh和σ是激活函数,⊙表示元素点积,
Figure FDA0002551855510000026
Figure FDA0002551855510000027
均是可训练的参数,zi表示来自另一解码器的上下文信息,ri是第i个解码器的保留门,fi是第i个解码器的遗忘门,Attention()表示注意力机制,指transformer的Scaled Dot-Product Attention。
4.根据权利要求1所述的一种基于交互式解码的双语情感对话生成系统,其特征在于,所述两个解码器各自执行的外部交互操作的流程相同且同步进行,其中,外部交互操作的流程为:
通过匹配层对所述两个解码器各自在t时刻的上下文信息
Figure FDA0002551855510000028
进行融合,得到特征向量v;
通过类型选择器确定所述两个解码器中每个解码器生成情感单词的权重α和普通单词的权重1-α;
分别使用情感softmax和普通softmax,获得情感词典和普通词典上的概率分布Pe和Pg,其中,情感词典和普通词典没有交集;
将Pe和Pg两个概率分布进行加权、连接操作,得到所述两个解码器中每个解码器各自输出的下一单词yt
5.根据权利要求4所述的一种基于交互式解码的双语情感对话生成系统,其特征在于,特征向量v符合以下公式:
Figure FDA0002551855510000031
其中,[;]表示连接操作,σ是激活函数,⊙表示元素点积,用来衡量所述两个解码器各自在在时间步t时的上下文信息
Figure FDA0002551855510000032
之间的相似度。
6.根据权利要求4所述的一种基于交互式解码的双语情感对话生成系统,其特征在于,所述两个解码器中第i个解码器输出的下一单词
Figure FDA0002551855510000033
符合以下公式:
Figure FDA0002551855510000034
Figure FDA0002551855510000035
Figure FDA0002551855510000036
Figure FDA0002551855510000037
其中,[;]表示连接操作,e是情感嵌入向量,
Figure FDA0002551855510000038
是用来衡量当前单词是情感单词we还是普通单词wg的标量,Pg、Pe分别是普通词典和情感词典上的概率分布,
Figure FDA0002551855510000039
均是可训练的参数,
Figure FDA00025518555100000310
是Pg和Pe两个概率分布的连接。
7.根据权利要求1所述的一种基于交互式解码的双语情感对话生成系统,其特征在于,所述交互式解码的双语情感对话生成系统输出的双语情感回复满足三方面的约束:流畅度、连贯度和情感度;
通过最小化以下损失函数值L(θ),同时优化所述编码器和所述两个解码器:
L(θ)=-(lf+lc+le)
其中,θ表示可训练的参数,lf表示所述交互式解码的双语情感对话生成系统输出的双语情感回复的流畅度,lc表示所述交互式解码的双语情感对话生成系统输出的双语情感回复的连贯度,le表示所述交互式解码的双语情感对话生成系统输出的双语情感回复的情感度。
8.根据权利要求7所述的一种基于交互式解码的双语情感对话生成系统,其特征在于,所述交互式解码的双语情感对话生成系统输出的双语情感回复的流畅度lf满足以下公式:
Figure FDA0002551855510000041
y1表示所述交互式解码的双语情感对话生成系统输出的中文情感回复,
y2所述交互式解码的双语情感对话生成系统输出的英文情感回复,
N1代表y1的长度,N2代表y2的长度,PCh代表中文语言模型,PEn代表英文语言模型,PCh和PEn是两个预训练的N-Gram语言模型。
9.根据权利要求7所述的一种基于交互式解码的双语情感对话生成系统,其特征在于,所述交互式解码的双语情感对话生成系统输出的双语情感回复的连贯度lc满足以下公式:
Figure FDA0002551855510000042
其中,y1表示所述交互式解码的双语情感对话生成系统输出的中文情感回复,y2所述交互式解码的双语情感对话生成系统输出的英文情感回复,x代表给定问句,Pseq2seq(yi|x)代表表示给定问句x时生成回复yi的概率,
Figure FDA0002551855510000051
代表基于回复yi生成问句x的概率,Pseq2seq
Figure FDA0002551855510000052
是两个预训练的Seq2Seq模型。
10.根据权利要求7所述的一种基于交互式解码的双语情感对话生成系统,其特征在于,所述交互式解码的双语情感对话生成系统的输出双语情感回复的情感度le满足以下公式:
Figure FDA0002551855510000053
其中,
Figure FDA0002551855510000054
为针对所述两个解码器中第i个解码器定义的期望的情感类别,
Figure FDA0002551855510000055
表示情感分类器Det针对所述两个解码器中第i个解码器预测的概率分布,Net定义为情感类别的数量,其中,所述情感分类器Det是预训练的BERT模型,训练样本为人工标注情感类别的文本语料。
CN202010577720.XA 2020-06-23 2020-06-23 基于交互式解码的双语情感对话生成系统 Active CN111986687B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010577720.XA CN111986687B (zh) 2020-06-23 2020-06-23 基于交互式解码的双语情感对话生成系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010577720.XA CN111986687B (zh) 2020-06-23 2020-06-23 基于交互式解码的双语情感对话生成系统

Publications (2)

Publication Number Publication Date
CN111986687A true CN111986687A (zh) 2020-11-24
CN111986687B CN111986687B (zh) 2022-08-02

Family

ID=73442127

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010577720.XA Active CN111986687B (zh) 2020-06-23 2020-06-23 基于交互式解码的双语情感对话生成系统

Country Status (1)

Country Link
CN (1) CN111986687B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417125A (zh) * 2020-12-01 2021-02-26 南开大学 基于深度强化学习的开放域对话回复方法及系统
CN112765333A (zh) * 2021-01-08 2021-05-07 山东师范大学 基于情感与提示词结合的自动对话生成方法及系统
CN113254625A (zh) * 2021-07-15 2021-08-13 国网电子商务有限公司 一种基于交互融合的情感对话生成方法及系统
CN113627196A (zh) * 2021-07-21 2021-11-09 前海企保科技(深圳)有限公司 一种基于语境和Transformer的多语言对话机器人系统及其对话方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070208569A1 (en) * 2006-03-03 2007-09-06 Balan Subramanian Communicating across voice and text channels with emotion preservation
WO2016085409A1 (en) * 2014-11-24 2016-06-02 Agency For Science, Technology And Research A method and system for sentiment classification and emotion classification
CN108536756A (zh) * 2018-03-16 2018-09-14 苏州大学 基于双语信息的情绪分类方法及系统
CN108874972A (zh) * 2018-06-08 2018-11-23 青岛里奥机器人技术有限公司 一种基于深度学习的多轮情感对话方法
CN108877801A (zh) * 2018-06-14 2018-11-23 南京云思创智信息科技有限公司 基于多模态情绪识别系统的多轮对话语义理解子系统
CN109697232A (zh) * 2018-12-28 2019-04-30 四川新网银行股份有限公司 一种基于深度学习的中文文本情感分析方法
US20190171660A1 (en) * 2017-06-22 2019-06-06 NewVoiceMedia Ltd. System and method for text categorization and sentiment analysis
CN110032636A (zh) * 2019-04-30 2019-07-19 合肥工业大学 基于强化学习的情感对话异步生成模型生成文本的方法
CN111274362A (zh) * 2020-02-01 2020-06-12 武汉大学 一种基于transformer架构的对话生成方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070208569A1 (en) * 2006-03-03 2007-09-06 Balan Subramanian Communicating across voice and text channels with emotion preservation
WO2016085409A1 (en) * 2014-11-24 2016-06-02 Agency For Science, Technology And Research A method and system for sentiment classification and emotion classification
US20190171660A1 (en) * 2017-06-22 2019-06-06 NewVoiceMedia Ltd. System and method for text categorization and sentiment analysis
CN108536756A (zh) * 2018-03-16 2018-09-14 苏州大学 基于双语信息的情绪分类方法及系统
CN108874972A (zh) * 2018-06-08 2018-11-23 青岛里奥机器人技术有限公司 一种基于深度学习的多轮情感对话方法
CN108877801A (zh) * 2018-06-14 2018-11-23 南京云思创智信息科技有限公司 基于多模态情绪识别系统的多轮对话语义理解子系统
CN109697232A (zh) * 2018-12-28 2019-04-30 四川新网银行股份有限公司 一种基于深度学习的中文文本情感分析方法
CN110032636A (zh) * 2019-04-30 2019-07-19 合肥工业大学 基于强化学习的情感对话异步生成模型生成文本的方法
CN111274362A (zh) * 2020-02-01 2020-06-12 武汉大学 一种基于transformer架构的对话生成方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
孙晓等: "基于深度模型的社会新闻对用户情感影响挖掘", 《中文信息学报》 *
王豪等: "基于深度学习的个性化对话内容生成方法", 《图学学报》 *
翟社平等: "基于注意力机制Bi-LSTM算法的双语文本情感分析", 《计算机应用与软件》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417125A (zh) * 2020-12-01 2021-02-26 南开大学 基于深度强化学习的开放域对话回复方法及系统
CN112417125B (zh) * 2020-12-01 2023-03-24 南开大学 基于深度强化学习的开放域对话回复方法及系统
CN112765333A (zh) * 2021-01-08 2021-05-07 山东师范大学 基于情感与提示词结合的自动对话生成方法及系统
CN112765333B (zh) * 2021-01-08 2023-04-07 山东师范大学 基于情感与提示词结合的自动对话生成方法及系统
CN113254625A (zh) * 2021-07-15 2021-08-13 国网电子商务有限公司 一种基于交互融合的情感对话生成方法及系统
CN113254625B (zh) * 2021-07-15 2021-11-16 国网电子商务有限公司 一种基于交互融合的情感对话生成方法及系统
CN113627196A (zh) * 2021-07-21 2021-11-09 前海企保科技(深圳)有限公司 一种基于语境和Transformer的多语言对话机器人系统及其对话方法

Also Published As

Publication number Publication date
CN111986687B (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
CN111986687B (zh) 基于交互式解码的双语情感对话生成系统
Chauhan et al. Sentiment and emotion help sarcasm? A multi-task learning framework for multi-modal sarcasm, sentiment and emotion analysis
CN111198937B (zh) 对话生成及装置、计算机可读存储介质、电子设备
Merdivan et al. Dialogue systems for intelligent human computer interactions
CN112214591B (zh) 一种对话预测的方法及装置
WO2019160100A1 (ja) 非言語情報生成装置、非言語情報生成モデル学習装置、方法、及びプログラム
Latif et al. Self supervised adversarial domain adaptation for cross-corpus and cross-language speech emotion recognition
CN115329779A (zh) 一种多人对话情感识别方法
WO2019160090A1 (ja) 非言語情報生成装置、方法、及びプログラム
WO2019160105A1 (ja) 非言語情報生成装置、非言語情報生成モデル学習装置、方法、及びプログラム
Chen et al. Learning multi-scale features for speech emotion recognition with connection attention mechanism
CN113254625B (zh) 一种基于交互融合的情感对话生成方法及系统
CN111951781A (zh) 一种基于图到序列的中文韵律边界预测的方法
Wu et al. Rapid Style Adaptation Using Residual Error Embedding for Expressive Speech Synthesis.
Choi et al. Deep learning based response generation using emotion feature extraction
Malik et al. A preliminary study on augmenting speech emotion recognition using a diffusion model
CN117370534A (zh) 一种面向虚拟现实的多源融合情感支持对话方法
Wang et al. Emotional conversation generation with bilingual interactive decoding
CN117349427A (zh) 一种面向舆情事件应对的人工智能多模态内容生成系统
Kang et al. Connectionist temporal classification loss for vector quantized variational autoencoder in zero-shot voice conversion
Xu et al. Generating emotional controllable response based on multi-task and dual attention framework
WO2019160104A1 (ja) 非言語情報生成装置、非言語情報生成モデル学習装置、方法、及びプログラム
Balayn et al. Data-driven development of virtual sign language communication agents
Reddy et al. Indian sign language generation from live audio or text for tamil
Ananthanarayana et al. Effects of feature scaling and fusion on sign language translation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant