CN110427490B - 一种基于自注意力机制的情感对话生成方法与装置 - Google Patents

一种基于自注意力机制的情感对话生成方法与装置 Download PDF

Info

Publication number
CN110427490B
CN110427490B CN201910596166.7A CN201910596166A CN110427490B CN 110427490 B CN110427490 B CN 110427490B CN 201910596166 A CN201910596166 A CN 201910596166A CN 110427490 B CN110427490 B CN 110427490B
Authority
CN
China
Prior art keywords
emotion
vector
semantic
layer
reply
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910596166.7A
Other languages
English (en)
Other versions
CN110427490A (zh
Inventor
魏巍
刘家邑
陈志毅
王子扬
王赞博
李恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201910596166.7A priority Critical patent/CN110427490B/zh
Publication of CN110427490A publication Critical patent/CN110427490A/zh
Application granted granted Critical
Publication of CN110427490B publication Critical patent/CN110427490B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于自注意力机制的情感对话生成方法与装置,该方法包括以下步骤:1)接收用户Post的输入语句以及对应的情感标签Ep;2)根据接收语句的情感信息和语义信息,获得回复情感Er;3)根据回复情感Er和接收语句的语义信息,生成对应的回复。本发明能够自动感知上文语义和情感信息并生成带有合适情感的回复。

Description

一种基于自注意力机制的情感对话生成方法与装置
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于自注意力机制的情感对话生成方法与装置。
背景技术
传统的闲聊型聊天机器人主要采用的是模式匹配、人工智能标记语言(AIML)、基于检索的和基于统计理论等技术。这些技术大多依赖预定义的模板规则或者人工标注,仅能较好地解决特定领域的对话生成问题,然而其针对开放领域的对话生成效果则会较差。得益于互联网大量的聊天数据和设备计算能力的提升,基于深度学习技术的对话生成逐渐成为目前聊天机器人主流技术,因为序列到序列模型(Sequence to Sequence Model,Seq2seq)能够减少构建对话引擎过程中的特征工程量、能够产生原始数据以外的回复、且能够端到端的训练。最近,基于Seq2seq模型,许多研究工作提出了带有情感的对话生成模型,如Hao Zhou提出的ECM模型、Xianda Zhou提出的Reinforced CVAE模型等,这些模型能够指定回复的情感类别,从而生成带有特定情感的回复。虽然上述方法为传统的Seq2seq模型增加了情绪表达机制,但它们仍然需要人工指定输出情感类别,并不能实现自动选取合适的回复情感。主要原因在于,这些模型并未考虑会话(Session)中上文的情感信息,无法获取到有用信息来建模对话当中的情感交互的模式,因而也就无法根据上文场景建模以实现智能化生成带有合理情感的回复。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于自注意力机制的情感对话生成方法与装置。
本发明解决其技术问题所采用的技术方案是:一种基于自注意力机制的情感对话生成方法,包括以下步骤:
1)接收用户Post的输入语句,所述用户输入语句包括词的特征向量表示序列X={x1,x2,……,xn},以及对应的情感标签Ep
2)根据接收语句的情感信息和语义信息,获得回复情感Er
2.1)根据接收语句,将用户输入的序列的文字符号转换为情感向量表示;
2.2)根据接收语句,将用户输入的序列的文字符号转换为语义向量表示;
2.3)将上述语义向量和情感向量拼接后通过一个多层感知机,自动学习产生一个权值,并根据这个权值将he和hs融合起来,输出情感-语义信息融合后的句子向量hes
2.4)根据上述融合后的句子向量预测得到回复情感;
3)根据回复情感Er和接收语句的语义信息,生成对应的回复。
按上述方案,所述步骤2.1)将用户输入的序列的文字符号转换为情感向量表示,具体步骤如下:
2.1.1)将用户输入的序列的文字符号表示向量化,通过查询预训练的情感词嵌入列表,得到每个文字符号的情感向量表示;
2.1.2)对情感词嵌入层输出的字符级别的情感向量表示按照序列顺序进行GRU编码,得到情感隐含层向量;
2.1.3)判断输入语句当中每个词的情感重要性,根据情感重要性对情感隐含层向量赋予相应的权重,同时输出所有隐含层向量加权求和后的整个句子的加权情感向量表示;
2.1.4)将加权情感向量表示映射成和情感标签类别同维度的情感分布向量,作为最终的情感向量表示。
按上述方案,所述步骤2.2)将用户输入的序列的文字符号转换为语义向量表示,具体步骤如下:
2.2.1)将用户输入的序列的文字符号表示向量化,得到每个文字符号的语义向量表示;
2.2.2)对语义向量表示按照序列顺序进行GRU编码,得到情感隐含层向量;
2.2.3)判断输入语句当中每个词的语义重要性,根据语义重要性对语义隐含层向量赋予相应的权重,同时输出所有隐含层向量加权求和后的整个句子的加权语义向量表示。
按上述方案,所述步骤2.4)根据上述融合后的句子向量预测得到回复情感,具体如下:
在融合后的句子向量的基础上通过一个激活函数为sigmoid函数的全连接层,将其映射成和情感标签类别同维度的情感分布向量,最终得到一个情感向量,即为所需要获得的回复情感向量。
按上述方案,所述步骤3)中根据回复情感Er和接收语句的语义信息,生成对应的回复,具体如下:
对步骤2)产生的回复情感向量乘以一个情感嵌入矩阵,得到一个向量Ve之后,将此向量注入序列到序列模型中生成回复。
一种基于自注意力机制的情感对话生成装置,包括:
基于自注意力机制的情绪选择器和回复生成器;
所述基于自注意力机制的情绪选择器包括:用于情感信息编码和语义信息编码的编码网络、用于情感信息和语义信息融合的融合网络,以及根据融合网络信息进行情感选择的预测网络;
所述编码网络包括:情感信息编码器和语义信息编码器;
所述情感信息编码器包括情感词嵌入层、GRU层和自注意力机制层和全连接层;
所述情感词嵌入层用于将用户输入的序列的文字符号表示向量化,通过查询预训练的情感词嵌入列表,输出每个文字符号的情感向量表示;
所述GRU层用于对情感词嵌入层输出的字符级别的情感向量表示按照序列顺序进行GRU编码,输出情感隐含层向量
Figure GDA0002213792870000051
所述自注意力层用于判断输入语句当中每个词的情感重要性,对于包含关键情感信息的隐含层向量赋予对应的权重,同时输出所有隐含层向量加权求和后的整个句子的情感向量表示;
所述全连接层在上述句子的情感向量表示的基础上,通过一个激活函数是Sigmoid函数的全连接网络,将其映射成和情感标签类别同维度的向量,用于预测Post的情感标签,同时采用交叉熵的约束损失函数来强迫整个情感信息编码网络(情感信息编码器)学习情感信息;其中交叉熵的约束损失函数根据映射获得的向量生成;
所述语义信息编码器包括语义词嵌入层、GRU层和自注意力层;
所述语义词嵌入层将用户输入的序列的文字符号表示向量化,与情感词嵌入不同的是,语义词嵌入层重点关注语义信息,输出每个文字符号的语义向量表示。
GRU层对于字符级别的语义向量表示按照序列顺序进行GRU编码,输出语义隐含层向量
Figure GDA0002213792870000061
自注意力层用于判断输入语句当中每个词的语义重要性,对于包含关键语义信息的隐含层向量赋予其更高的权重,同时输出所有隐含层向量加权求和后的整个句子的语义向量表示;
所述融合网络用于计算接收语句中情感信息和语义信息的重要性分布,将上述语义向量和情感向量拼接后通过一个多层感知机,自动学习产生一个权值,并根据这个权值将he和hs融合起来;最后输出情感-语义信息融合后的句子向量hes
所述预测网络,用于根据上述融合后的句子向量去预测最合适的回复情感;具体如下:
通过一个激活函数为sigmoid函数的全连接层,将融合后的句子向量映射成回复情感标签维度上的情感分布向量,同时采用交叉熵损失函数让此向量逼近真实数据集当中回复Response的情感标签。通过预测网络,产生的回复情感向量,将会被注入到回复生成器里用于指导带情感的回复生成。
所述回复生成器包括情感偏差的注意力机制层和传统的序列到序列模型;
所述的情感偏差的注意力机制层,是指对上述情绪选择器产生的回复情感向量乘以一个情感嵌入矩阵,得到一个向量Ve之后,将此向量注入到传统序列到序列模型当中的一种方式;具体来说,对于序列到序列机制的自注意力机制来说,额外考虑情感向量Ve的影响,让解码过程中生成的词语更加关注上文当中的情感词,从而产生合适情感的回复;
所述的传统序列到序列模型,则在注意力机制的基础上,用于生成回复。
本发明产生的有益效果是:
本发明能够自动感知上文的语义信息和情感信息并生成带有合适情感的回复。其中,基于自注意力机制的情绪选择器能够自动编码上文的情感和语义信息用于预测情感标签,而基于情感偏差的回复生成器能够利用这种情感标签生成指定情感的回复。
本发明引入基于自注意力机制的信息编码网络抽取上文的情感和语义信息,通过融合-预测网络自动预测合适的回复情感标签,引入基于情感偏差的回复生成器能够利用这种情感标签生成合理情感的回复。相比传统对话生成方法,本发明生成的回复在情感合理性和语义相关性上有显著提升。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例的结构示意图;
图2是本发明实施例的自注意力机制的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,一种基于自注意力机制的情感对话生成装置,包括:
基于自注意力机制的情绪选择器和回复生成器;
所述基于自注意力机制的情绪选择器包括:用于情感信息编码和语义信息编码的编码网络、用于情感信息和语义信息融合的融合网络,以及根据融合网络信息进行情感选择的预测网络;
所述回复生成器包括情感偏差的注意力机制层和传统的序列到序列模型;
假设用户输入语句Post:X={x1,x2,……,xn},其对应的情感标签为Ep,而针对这个语句的回复语句Response:Y={y1,y2,……,yn},其对应的情感标签为Er,则目前的目标即是让模型能够去感知Post的情感信息Ep然后自动选择最合适的回复情感Er并在当前情感的指导下去生成合理的回复,即生成回复需要包含此情感且不影响其语法连贯性和上下文相关性。
本发明提出的自注意力机制的情感对话生成模型(Emotion-aware ChatMachine,EACM)能够实现对人们交谈过程中的情绪选择过程和回复生成过程进行建模。其中情绪选择过程主要是模拟人们的情感交互模式,即根据Post的情感信息和语义信息,来选择一个最合适的情感作为回复:
Figure GDA0002213792870000091
其中Sp代表Post的语义信息(Semantic meaning)。而回复生成过程则是在当前选择好的情感和Sp的条件下生成对应的回复:
Figure GDA0002213792870000092
EACM的模型构架如附图1所示,本部分接下来详细阐述:基于自注意力机制的情绪选择器和基于情感偏差的回复生成器。
基于自注意力机制的情绪选择器
1)基于自注意力机制的编码网络
编码网络主要包含两个部分:情感信息编码器和语义信息编码器,模型利用这两个编码器来显性地抽取上文句子当中的情感信息和语义信息,然后将这些信息输入到融合网络(Fusion Network),最后通过预测网络(Prediction Network)做情感选择。
首先,情感信息编码器(Emotion Encoder)采用GRU单元,将上文的Post序列:X={x1,x2,……,xm}编码成一系列的隐含向量
Figure GDA0002213792870000101
Figure GDA0002213792870000102
如图2,为了让编码器更加关注和情绪相关的词语,并且提高隐含层向量的表达能力,本发明采用自注意力机制来让模型自主学习和情感有关的词语信息,因此最终得到的隐含层向量是所有GRU单元的加权求和:
Figure GDA0002213792870000103
其中ai是第i个隐含层
Figure GDA0002213792870000104
的权值,此权值的计算方法是通过将
Figure GDA0002213792870000105
输入一个多层感知机,然后通过一个softmax层来让所有的权值之和为1:
Figure GDA0002213792870000106
为了让情感信息编码器更倾向于去关注情感信息,在当前的
Figure GDA0002213792870000107
的基础上加上一个全连接层,其激活函数采用sigmoid函数,将词向量映射成和情感类别同维度,然后用交叉熵函数来强迫情感信息编码网络(情感信息编码器)学习情感信息:
Figure GDA0002213792870000108
Figure GDA0002213792870000109
其中ep是上文情感标签的向量表示。类似的,通过另外一个GRU网络来编码Post的语义信息,最后得到加权过后的隐含向量
Figure GDA0002213792870000111
2)情感词嵌入和语义词嵌入
为了让模型更好的去分别学习上文的情感信息和语义信息,本发明还引入了情感词嵌入和语义词嵌入(如图1)。传统的词嵌入通常用其上下文来表示这个词语,根据连续的词特征来对词语进语义建模,而忽略了词的情感信息。而情感词嵌入Sentiment SpecificWord Embedding(SSWE)则不同,其能够将句子的情感信息考虑进去,从而能够有效的将情感不同的词语映射到空间的不同位置。
因此,本发明采用以下方法:将SSWE模型生成的嵌入用于情感信息编码器,将普通的Word2Vec产生的词嵌入用于语义信息编码器,从而让情感编码器和语义编码器更加倾向于去关注情感信息和语义信息。
3)融合和预测网络
融合和预测网络(Fusion-Prediction Network)主要作用是将上面抽取到的信息通过融合网络来自主学习一个两者的重要性分布,然后合在一起用来对回复的情感做预测。这个网络实现的即是情感选择的功能。
融合网络主要是基于一个控制门,他可以自动的权衡当前这句话情感信息和语义信息的重要性,并根据这个权值将两者融合起来。其主要原理如下:首先,先将两个信息编码器的最终输出做拼接,然后输入一个sigmoid变换层里面,产生的最终结果即是两者的权值:
Figure GDA0002213792870000121
然后将两者输入非线性层,最后使用这个权值加权输出:
Figure GDA0002213792870000122
Figure GDA0002213792870000123
Figure GDA0002213792870000124
其中
Figure GDA0002213792870000125
代表元素之间的点乘。将两个编码器的信息融合成
Figure GDA0002213792870000126
过后,接下来就是利用这个向量去预测回复的情感,因此在这个向量的基础上通过一个激活函数为sigmoid函数的全连接层,将其映射成Er维度上的分布,即是每个情感上面的概率值,然后通过这个概率值去计算交叉熵损失函数:
Figure GDA0002213792870000127
Figure GDA0002213792870000128
其中er是Er的向量表示,而
Figure GDA0002213792870000129
则是我们最终期望在情绪选择器里面得到的情感向量,这个向量最后会注入到回复生成器里面,用于控制生成回复的情感。
基于情感偏差的回复生成器
EACM的回复生成部分本质上是个情感控制的Seq2seq模型,这部分能够在不牺牲语法正确性和语句连贯性的同时去产生富有情感的回复。首先,将情感选择器产生的情感向量
Figure GDA0002213792870000131
乘以一个情感矩阵,得到最后的情感嵌入:
Figure GDA0002213792870000132
其中We是情感嵌入矩阵,是对于每一种情感标签的高度抽象的向量表示。之后,在常规的Seq2seq with attention的基础上,采用了情感偏差的方法,解码器在解码的过程中对于Post的词语关注,不止取决于上一个解码器的状态,还取决于注入的情感信息
Figure GDA0002213792870000133
因此,区别于传统的注意力机制,本发明采用另外的计算方法来赋予其权值:
Figure GDA0002213792870000134
Figure GDA0002213792870000135
即在计算权值的时候就把情感嵌入Ve考虑在内。最后通过计算以下式子得到的上下文向量ct
Figure GDA0002213792870000136
最后上下文向量ct和上一个隐含层向量st做拼接,用于最后的解码输出:
s′t=W4[st;ct] 式(17)
st=GRU(s′t-1,[yt-1;Ve]) 式(18)
和传统的Seq2seq模型一样,回复生成器也采用交叉熵损失函数,但是不同之处就是指定了回复的情感:
Figure GDA0002213792870000141
因此,本模型的最终损失函数即是三部分损失函数的和:
LEACM(θ)=αLosse+(1-α)Lseq2seq 式(20)
其中,Losse情绪选择器的损失函数,包含两部分:
Losse=Lossp+Lossr 式(21)
本发明还提供一种基于自注意力机制的情感对话生成方法,包括以下步骤:
1)接收用户Post的输入语句,所述用户输入语句包括词的特征向量表示序列X={x1,x2,……,xn},以及对应的情感标签Ep
2)根据接收语句的情感信息和语义信息,获得回复情感Er
2.1)根据接收语句的信息,将用户输入的序列的文字符号转换为情感向量表示;
所述步骤2.1)将用户输入的序列的文字符号转换为情感向量表示,具体步骤如下:
2.1.1)将用户输入的序列的文字符号表示向量化,通过查询预训练的情感词嵌入列表,得到每个文字符号的情感向量表示;
2.1.2)对情感词嵌入层输出的字符级别的情感向量表示按照序列顺序进行GRU编码,得到情感隐含层向量;
2.1.3)判断输入语句当中每个词的情感重要性,根据情感重要性对情感隐含层向量赋予相应的权重,同时输出所有隐含层向量加权求和后的整个句子的加权情感向量表示;
2.1.4)将加权情感向量表示映射成和情感标签类别同维度的情感分布向量,作为最终的情感向量表示。
2.2)根据接收语句,将用户输入的序列的文字符号转换为语义向量表示;
所述步骤2.2)将用户输入的序列的文字符号转换为语义向量表示,具体步骤如下:
2.2.1)将用户输入的序列的文字符号表示向量化,得到每个文字符号的语义向量表示;
2.2.2)对语义向量表示按照序列顺序进行GRU编码,得到情感隐含层向量;
2.2.3)判断输入语句当中每个词的语义重要性,根据语义重要性对语义隐含层向量赋予相应的权重,同时输出所有隐含层向量加权求和后的整个句子的加权语义向量表示。
2.3)将上述语义向量和情感向量拼接后通过一个多层感知机,自动学习产生一个权值,并根据这个权值将he和hs融合起来,输出情感-语义信息融合后的句子向量hes
2.4)根据上述融合后的句子向量预测得到回复情感;
步骤2.4)根据上述融合后的句子向量预测得到回复情感,具体如下:
在融合后的句子向量的基础上通过一个激活函数为sigmoid函数的全连接层,将其映射成和情感标签类别同维度的情感分布向量,最终得到一个情感向量,即为所需要获得的回复情感向量。
3)根据回复情感Er和接收语句的语义信息,生成对应的回复。
步骤3)中根据回复情感Er和接收语句的语义信息,生成对应的回复,具体如下:
对步骤2)产生的回复情感向量乘以一个情感嵌入矩阵,得到一个向量Ve之后,将此向量注入序列到序列模型中生成回复。
经实验表明,相比已有主流方法,本发明的对话生成模型与方法取得了更好的效果。实验采用NLPCC2017情感对话数据集进行评估,此数据集包含超过100万条从微博上爬取的上文-回复数据对,每条数据的上文和回复被标注上了其对应的情感标签(包括“开心”,“喜欢”,“伤心”,“厌恶”,“愤怒”,“其他”六种情感,其中没有情感的属于“其他”类)。此数据集的详细信息如表1所示。
表1 NLPCC2017数据集信息
Figure GDA0002213792870000171
实验部分旨在评估本发明所提出的基于情感的对话生成方法的有效性,主要包含两方面:生成的回复的情感合理性和语义相关性。其中情感合理性通过情感得分(越高效果越好)来衡量,语义相关性通过困惑度(越低效果越好)来反映。同时为了让实验结果更加接近人类直观感受,我们还开展了人工测评,让标注者为每句生成的回复在情感方面和语义方面打分。实验对比结果分别在表2和表3中给出。
表2自动指标实验结果:困惑度和情感得分
Figure GDA0002213792870000172
Figure GDA0002213792870000181
可以看到Seq2seq-emb模型的困惑度最低,而本发明所提出EACM模型则结果并非最好。究其原因,是因为EACM模型不仅仅需要考虑其语义连贯性,还仍然需要同时考虑情感的合理性,因此其并不只在困惑指标的监督下学习,所以此指标略差。但是情感得分上EACM模型则超过了其余所有模型,达到了最好的结果,因此本发明所提出的情感对话生成模型是有效的。
表3人工测评实验结果
Figure GDA0002213792870000182
从人工评测的实验结果可以发现,本发明提出的EACM模型的结果好于其余所有的基线模型。事实上,我们发现尽管EACM模型的困惑度指标偏高,但是其产生的回复的流畅度都比其余的结果要好。ECM模型虽然情感得分较高,但是其主要牺牲了部分语义连贯性,
所以其综合得分不如EACM模型好。
从以上二表中可以观察到,本发明提出的基于情感的对话生成方法在多项指标上优于所有的基线模型。为了更加直观的展示本发明提出的EACM模型感知和表达情绪的能力,我们挑选了一些对话生成实例结果作为展示(表4)。
表4不同模型实际回复生成结果
Figure GDA0002213792870000191
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (5)

1.一种基于自注意力机制的情感对话生成方法,其特征在于,包括以下步骤:
1)接收用户Post的输入语句以及对应的情感标签Ep,所述用户输入语句包括词的特征向量表示序列X={x1,x2,......,xn};
2)根据步骤1)接收语句的情感信息和语义信息,获得回复情感Er
2.1)根据接收语句信息,将用户输入的序列转换为情感向量表示;
具体步骤如下:
2.1.1)将用户输入的序列的文字符号表示向量化,通过查询预训练的情感词嵌入列表,得到每个文字符号的情感向量表示;
2.1.2)对情感词嵌入层输出的字符级别的情感向量表示按照序列顺序进行GRU编码,得到情感隐含层向量;
2.1.3)判断输入语句当中每个词的情感重要性,根据情感重要性对情感隐含层向量赋予相应的权重,同时输出所有隐含层向量加权求和后的整个句子的加权情感向量表示;
2.1.4)将加权情感向量表示映射成和情感标签类别同维度的情感分布向量,作为接收语句情感向量表示;
2.2)根据接收语句信息,将用户输入的序列转换为语义向量表示;
具体步骤如下:
2.2.1)将用户输入的序列的文字符号表示向量化,得到每个文字符号的语义向量表示;
2.2.2)对语义向量表示按照序列顺序进行GRU编码,得到情感隐含层向量;
2.2.3)判断输入语句当中每个词的语义重要性,根据语义重要性对语义隐含层向量赋予相应的权重,同时输出所有隐含层向量加权求和后的整个句子的加权语义向量表示;
2.3)将上述语义向量和情感向量拼接后,输出情感-语义信息融合后的句子向量hes
2.4)根据上述融合后的句子向量预测得到回复情感;
3)根据回复情感Er和接收语句的语义信息,生成对应的回复。
2.根据权利要求1所述的基于自注意力机制的情感对话生成方法,其特征在于,所述步骤2.4)根据上述融合后的句子向量预测得到回复情感,具体如下:
在融合后的句子向量的基础上通过一个激活函数为sigmoid函数的全连接层,将其映射成和情感标签类别同维度的情感分布向量,即为所需要获得的回复情感向量。
3.根据权利要求1所述的基于自注意力机制的情感对话生成方法,其特征在于,所述步骤3)中根据回复情感Er和接收语句的语义信息,生成对应的回复,具体如下:
对步骤2)产生的回复情感向量乘以一个情感嵌入矩阵,得到一个向量Ve之后,将此向量注入序列到序列模型中生成回复。
4.根据权利要求1所述的基于自注意力机制的情感对话生成方法,其特征在于,所述步骤2.1.3)判断输入语句当中每个词的情感重要性,根据情感重要性对情感隐含层向量赋予相应的权重,同时输出所有隐含层向量加权求和后的整个句子的加权情感向量表示,具体如下:
最终得到的隐含层向量
Figure FDA0003115018290000031
是所有GRU单元的加权求和:
Figure FDA0003115018290000032
其中,ai是第i个隐含层
Figure FDA0003115018290000033
的权重值,
Figure FDA0003115018290000034
为GRU层中采用GRU单元,将序列X={x1,x2,......,xm}编码得到的隐含向量
Figure FDA0003115018290000035
权值ai的计算方法是将
Figure FDA0003115018290000036
输入一个多层感知机,然后通过一个softmax层使得所有的权值之和为1获得,
Figure FDA0003115018290000037
5.一种基于自注意力机制的情感对话生成装置,其特征在于,包括:
基于自注意力机制的情绪选择器和回复生成器;
所述基于自注意力机制的情绪选择器包括:用于情感信息编码和语义信息编码的编码网络、用于情感信息和语义信息融合的融合网络,以及根据融合网络信息进行情感选择的预测网络;
所述编码网络包括:情感信息编码器和语义信息编码器;
所述情感信息编码器包括情感词嵌入层、GRU层和自注意力机制层和全连接层;
所述情感词嵌入层用于将用户输入的序列的文字符号表示向量化,通过查询预训练的情感词嵌入列表,输出每个文字符号的情感向量表示;
所述GRU层用于对情感词嵌入层输出的字符级别的情感向量表示按照序列顺序进行GRU编码,输出情感隐含层向量
Figure FDA0003115018290000041
所述自注意力机制 层用于判断输入语句当中每个词的情感重要性,对于包含关键情感信息的隐含层向量赋予对应的权重,同时输出所有隐含层向量加权求和后的整个句子的情感向量表示;
所述全连接层在自注意力层得到的情感向量表示的基础上,通过一个激活函数为Sigmoid函数的全连接网络,将其映射成和情感标签类别同维度的向量,用于预测Post的情感标签,同时采用交叉熵的约束损失函数来强迫情感信息编码器学习情感信息;
所述语义信息编码器包括语义词嵌入层、GRU层和自注意力层;
所述语义词嵌入层将用户输入的序列的文字符号表示向量化,与情感词嵌入不同的是,语义词嵌入层重点关注语义信息,输出每个文字符号的语义向量表示;
GRU层对于字符级别的语义向量表示按照序列顺序进行GRU编码,输出语义隐含层向量
Figure FDA0003115018290000051
自注意力层用于判断输入语句当中每个词的语义重要性,对于包含关键语义信息的隐含层向量赋予其更高的权重,同时输出所有隐含层向量加权求和后的整个句子的语义向量表示;
所述融合网络用于计算接收语句中情感信息和语义信息的重要性分布,将上述语义向量和情感向量拼接后通过一个多层感知机,自动学习产生一个权值,并根据这个权值将he和hs融合起来;最后输出情感-语义信息融合后的句子向量hes
所述预测网络,用于根据上述融合后的句子向量去预测最合适的回复情感;具体如下:
通过一个激活函数为sigmoid函数的全连接层,将融合后的句子向量映射成回复情感标签维度上的情感分布向量,同时采用交叉熵损失函数让此向量逼近真实数据集当中回复Response的情感标签;通过预测网络,产生的回复情感向量,将会被注入到回复生成器里用于指导带情感的回复生成;
所述回复生成器包括情感偏差的注意力机制层和传统的序列到序列模型;
所述的情感偏差的注意力机制层,是指对上述情绪选择器产生的回复情感向量乘以一个情感嵌入矩阵,得到一个向量Ve之后,将此向量注入到传统序列到序列模型当中;
所述的传统序列到序列模型,用于在注意力机制的基础上,生成回复。
CN201910596166.7A 2019-07-03 2019-07-03 一种基于自注意力机制的情感对话生成方法与装置 Active CN110427490B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910596166.7A CN110427490B (zh) 2019-07-03 2019-07-03 一种基于自注意力机制的情感对话生成方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910596166.7A CN110427490B (zh) 2019-07-03 2019-07-03 一种基于自注意力机制的情感对话生成方法与装置

Publications (2)

Publication Number Publication Date
CN110427490A CN110427490A (zh) 2019-11-08
CN110427490B true CN110427490B (zh) 2021-11-09

Family

ID=68410255

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910596166.7A Active CN110427490B (zh) 2019-07-03 2019-07-03 一种基于自注意力机制的情感对话生成方法与装置

Country Status (1)

Country Link
CN (1) CN110427490B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159467B (zh) * 2019-12-31 2022-05-10 青岛海信智慧家居系统股份有限公司 一种处理信息交互的方法及设备
CN111241789A (zh) * 2020-01-14 2020-06-05 平安科技(深圳)有限公司 一种文本生成的方法及装置
CN111241250B (zh) * 2020-01-22 2023-10-24 中国人民大学 一种情感对话生成系统和方法
CN111428015B (zh) * 2020-03-20 2023-03-14 腾讯科技(深圳)有限公司 一种信息生成方法、装置、设备及存储介质
CN113449087B (zh) * 2020-03-25 2024-03-08 阿里巴巴集团控股有限公司 信息处理方法、装置、设备及计算机可读存储介质
CN111522924A (zh) * 2020-03-31 2020-08-11 华东师范大学 一种带有主题感知的情感聊天式回复生成方法
CN111522936B (zh) * 2020-04-24 2023-08-04 上海智臻智能网络科技股份有限公司 一种包含情感的智能客服对话回复生成方法、装置及电子设备
CN111859957B (zh) * 2020-07-15 2023-11-07 中南民族大学 情感原因子句标签的抽取方法、装置、设备及存储介质
CN111897933B (zh) * 2020-07-27 2024-02-06 腾讯科技(深圳)有限公司 情感对话生成方法、装置及情感对话模型训练方法、装置
CN112100325A (zh) * 2020-08-28 2020-12-18 广州探迹科技有限公司 一种基于分层门控循环单元的人机对话情感分析方法
CN112214585B (zh) * 2020-09-10 2024-03-12 中国科学院深圳先进技术研究院 回复消息生成方法、系统、计算机设备及存储介质
CN112434143B (zh) * 2020-11-20 2022-12-09 西安交通大学 基于gru单元隐藏状态约束的对话方法、存储介质及系统
CN113139042B (zh) * 2021-04-25 2022-04-29 内蒙古工业大学 一种利用微调和重排序策略的情感可控回复生成方法
CN113360614A (zh) * 2021-05-31 2021-09-07 多益网络有限公司 生成式聊天机器人回复情感控制方法、装置、终端及介质
CN113220887B (zh) * 2021-05-31 2022-03-15 华南师范大学 一种利用目标知识增强模型的情感分类方法
CN113326367B (zh) * 2021-06-30 2023-06-16 四川启睿克科技有限公司 基于端到端文本生成的任务型对话方法和系统
CN113254625B (zh) * 2021-07-15 2021-11-16 国网电子商务有限公司 一种基于交互融合的情感对话生成方法及系统
CN113761204B (zh) * 2021-09-06 2023-07-28 南京大学 一种基于深度学习的emoji文本情感分析方法及系统
CN114519353B (zh) * 2022-02-22 2023-07-25 平安科技(深圳)有限公司 模型的训练方法、情感消息生成方法和装置、设备、介质
CN114970561B (zh) * 2022-05-27 2023-08-01 华东师范大学 一种性格加强的对话情感预测模型及其构建方法
CN114896385A (zh) * 2022-07-15 2022-08-12 北京聆心智能科技有限公司 一种对话生成模型的训练以及对话生成方法、装置及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109857909A (zh) * 2019-01-22 2019-06-07 杭州一知智能科技有限公司 多粒度卷积自注意力上下文网络解决视频对话任务的方法
CN109902164A (zh) * 2019-03-06 2019-06-18 杭州一知智能科技有限公司 利用卷积双向自注意网络解决开放长格式视频问答的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10776581B2 (en) * 2018-02-09 2020-09-15 Salesforce.Com, Inc. Multitask learning as question answering

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109857909A (zh) * 2019-01-22 2019-06-07 杭州一知智能科技有限公司 多粒度卷积自注意力上下文网络解决视频对话任务的方法
CN109902164A (zh) * 2019-03-06 2019-06-18 杭州一知智能科技有限公司 利用卷积双向自注意网络解决开放长格式视频问答的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Emotional chatting machine:emotional conversation generation with internal and external memory;Hao Zhou等;《AAAI》;20181231;正文第1-7页 *
sequence to sequence learning with neural networks;Oriol Vinyals等;《NLPS》;20141231;正文第3104-3112页 *

Also Published As

Publication number Publication date
CN110427490A (zh) 2019-11-08

Similar Documents

Publication Publication Date Title
CN110427490B (zh) 一种基于自注意力机制的情感对话生成方法与装置
CN110134771B (zh) 一种基于多注意力机制融合网络问答系统的实现方法
CN110347792B (zh) 对话生成方法及装置、存储介质、电子设备
CN111159368B (zh) 一种个性化对话的回复生成方法
CN111897933B (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
Nie et al. Long dialogue emotion detection based on commonsense knowledge graph guidance
CN108595436B (zh) 情感对话内容的生成方法和系统、存储介质
CN109992669B (zh) 一种基于语言模型和强化学习的关键词问答方法
CN111966800A (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
CN110796160A (zh) 一种文本分类方法、装置和存储介质
CN110795549B (zh) 短文本对话方法、装置、设备及存储介质
CN112364148B (zh) 一种基于深度学习方法的生成型聊天机器人
CN112765333B (zh) 基于情感与提示词结合的自动对话生成方法及系统
CN113360618B (zh) 一种基于离线强化学习的智能机器人对话方法及系统
Lee et al. Word-level emotion embedding based on semi-supervised learning for emotional classification in dialogue
CN113779310A (zh) 一种基于层级表征网络的视频理解文本生成方法
CN112131367A (zh) 自审核的人机对话方法、系统及可读存储介质
CN111259668A (zh) 阅读任务处理方法、模型训练方法、装置和计算机设备
CN114911932A (zh) 基于主题语义增强的异构图结构多会话者情感分析方法
CN116975288A (zh) 文本处理方法及文本处理模型训练方法
CN115525744A (zh) 一种基于提示学习方法的对话推荐系统
CN111522924A (zh) 一种带有主题感知的情感聊天式回复生成方法
CN114328866A (zh) 应答流畅准确的强拟人化智能对话机器人
CN112905776B (zh) 一种情感对话模型构建方法、情感对话系统及方法
CN116882450B (zh) 问答模型的编辑方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant