CN113254625A

CN113254625A - 一种基于交互融合的情感对话生成方法及系统

Info

Publication number: CN113254625A
Application number: CN202110798849.8A
Authority: CN
Inventors: 张宾; 孙喜民; 高亚斌; 贾江凯; 王帅; 李慧超; 刘丹; 王明达
Original assignee: State Grid E Commerce Co Ltd; State Grid E Commerce Technology Co Ltd
Current assignee: State Grid E Commerce Co Ltd; State Grid E Commerce Technology Co Ltd
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2021-08-13
Anticipated expiration: 2041-07-15
Also published as: CN113254625B

Abstract

本发明公开了一种基于交互融合的情感对话生成方法及系统，包括：S100：接收对话语句文本；S200：情感分类器识别对话语句文本所蕴含的情感类别，并表示为向量；S300：编码器将对话语句文本编码为上下文向量；S400：细粒度交互模块将对话语句文本的情感类别表示向量和上下文向量融合，生成交互式向量；S500：解码器利用交互式向量进行解码，生成回复；S600：输出回复。本发明可解决现有人机对话系统情感感知能力较弱，情感表达能力不足的问题。

Description

一种基于交互融合的情感对话生成方法及系统

技术领域

本发明属于自然语言处理中的智能人机对话技术领域，具体涉及一种基于交互融合的情感对话生成方法及系统。

背景技术

构建智能人机对话系统是自然语言处理（NLP）中一项极具挑战性和重要意义的任务，目前被学术界和工业界广泛关注。情感是人类区别于机器的一种重要特征，在社交场景中发挥着重要作用。例如在医疗保健领域，情感预测可用于心理健康咨询，帮助预测和预防自杀或抑郁。有研究表明，在对话系统中处理情感可以提高用户满意度，并减少对话故障的发生。让机器理解情感一直是人工智能的一个长期目标。

现有的相关技术普遍存在三方面问题：（1）生成回复的情感类别需提前指定，这不符合实际情况。日常生活中，对话发起者不会在说话的同时告诉应答者希望得到的回复情感。（2）将内容与情感独立进行编码，但内容与情感间的依赖不足。（3）由于缺乏对生成过程的有效控制，模型容易生成诸如“yes”、“no”、“I don’t know”、“I’m not sure”等安全回复问题。以上问题导致对话模型的情感感知能力较弱并且情感表达能力不足。

发明内容

本发明的目的是提供一种基于交互融合的情感对话生成方法及系统，以解决现有人机对话系统情感感知能力较弱、情感表达能力不足的问题。

本发明实施例提供一种基于交互融合的情感对话生成方法，包括：

S100：接收对话语句文本；

S200：情感分类器识别对话语句文本所蕴含的情感类别，并表示为向量；

S300：编码器将对话语句文本编码为上下文向量；

S400：细粒度交互模块将对话语句文本的情感类别表示向量和上下文向量融合，生成交互式向量；

本步骤进一步包括：

S410：将情感类别表示向量映射到高维的向量空间；

S420：根据注意力机制，基于情感类别表示向量和上下文向量，学习情感类别表示向量每一维的权重；

S430：对情感类别表示向量的每一维乘以相应权重，再与上下文向量拼接，得交互式向量；

S500：解码器利用交互式向量进行解码，生成回复；

S600：输出回复。

可选的，在一些实施例中，情感分类器采用基于BERT的情感分类器。

可选的，在一些实施例中，步骤S300具体为：

编码器将对话语句文本编码成隐藏状态序列；利用注意力机制对隐藏状态序列中各隐藏状态求加权和，得上下文向量。

可选的，在一些实施例中，解码器采用单向LSTM神经网络。

可选的，在一些实施例中，步骤S500中，解码器的总损失函数

为Seq2Seq模型损失

和最大化情感表达损失

的加权和：

；其中：权重

是待学习参数，

为Seq2Seq模型的参数；最大化情感表达损失

，

表示Seq2Seq模型的损失，

通过惩罚生成词

的情感表示与中性情感词

之间的距离，

为生成词

的情感表示，当

为VAD词典中存在的词，则其情感表示为

；否则，其情感表示为

。

可选的，在一些实施例中，采用情感分类数据集训练情感分类器；

采用已训练的情感分类器对对话语料集进行情感标记，情感标记后的对话语料集即情感对话语料库；

以情感对话语料库作为训练使用的数据集，按如下步骤进行训练：

接收训练数据；

情感分类器识别训练数据所蕴含的情感类别，并表示为向量；

编码器将训练数据编码为上下文向量；

将训练数据的情感类别表示向量和上下文向量融合，生成交互式向量；

解码器利用交互式向量进行解码，生成回复。

相应的，本发明实施例提供一种基于交互融合的情感对话生成系统，包括：

接收模块，用来接收对话语句文本；

情感分类模块，用来识别对话语句文本所蕴含的情感类别，并表示为向量；

编码模块，用来将对话语句文本编码为上下文向量；

细粒度交互模块，用来将对话语句文本的情感类别表示向量和上下文向量融合，生成交互式向量；

所述细粒度交互模块进一步包括：

第一子模块，用来将情感类别表示向量映射到高维的向量空间；

第二子模块，用来根据注意力机制，基于情感类别表示向量和上下文向量，学习情感类别表示向量每一维的权重；

第三子模块，用来对情感类别表示向量的每一维乘以相应权重，再与上下文向量拼接，得交互式向量；

解码模块，用来利用交互式向量进行解码，生成回复；

输出模块，用来输出回复。

和现有技术相比，本发明的特点为：

本发明可解决现有人机对话系统情感感知能力较弱，情感表达能力不足，以及生成回复的安全性问题，可应用于情感聊天机器人、心理健康智能咨询等。

附图说明

图1为实施例的情感对话生成方法流程示意图；

图2为实施例中模型训练流程示意图。

具体实施方式

下面将结合附图对本发明的具体实施方式做详细说明。显然，所描述的具体实施方式仅仅是本发明的一部分实施例，而不是全部的实施例。基于所描述的具体实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他具体实施方式，都属于本发明保护的范围。

本发明实施例提供的一种基于交互融合的情感对话生成方法，其执行主体可以是具有文本输入输出功能的智能终端设备，例如平板电脑、智能手机等。本发明实施例提供的一种基于交互融合的情感对话生成系统，其可集成于上述终端设备中。

本发明的一个具体实施例为情感聊天机器人，显然情感聊天机器人仅为本发明的实施例之一，其并不限定本发明的保护范围。用户通过输入模块输入对话语句文本，终端设备通过对对话语句进行语义分析和情感分析，输出具情感表达的回复。

图1所示为实施例中的基于交互融合的情感对话生成方法，具体过程如下：

S100：接收由输入模块输入的对话语句文本。

S200：情感分类器识别接收的对话语句文本所蕴含的情感类别，并将情感类别表示为向量，本实施例采用基于BERT情感分类器。

S300：编码器将接收的对话语句文本编码为上下文向量。

将接收的对话语句文本记为文本序列

，

表示对话语句所包含的T个单词。本实施例中编码器基于BiLSTM神经网络实现，使用BiLSTM神经网络可更好的捕捉双向的语义依赖。编码过程如下所示：

（1）

式（1）中，

表示当前时刻i编码器中BiLSTM网络的隐藏状态，

表示前一时刻i-1编码器中BiLSTM网络的隐藏状态；

表示当前时刻i输入单词

的表示向量。

最终编码器将文本序列

编码成隐藏状态的序列

。再使用注意力机制，时刻i的上下文向量

为输入序列所有时刻的隐藏状态的加权和，即

；其中

的权重

由公式

计算得到，

表示一个多层感知器，

为时刻i-1解码器的隐藏状态，

和

分别表示时刻k和j的隐藏状态。

S400：细粒度交互模块将对话语句文本的情感类别表示向量和上下文向量融合，生成交互式向量。

情感类别表示向量采用emo表示，为情感分类器的输出。上下文向量采用

表示，

为时刻i的上下文向量，细粒度交互模块对emo和

进行交互式表示，以促进情感和文本的充分交互融合。细粒度交互模块通过控制对话过程中文本和情感之间的信息交互，使用情感面向整个对话文本进行注意力机制编码，在每一个向量维度上分别控制混合比例，进而得到情感与文本的交互式表示。

本实施例中，交互向量的生成具体为：

S410：将情感类别表示向量emo映射到高维的向量空间。

S420：为能着重关注输入文本序列所蕴含的情感词汇，基于情感类别表示向量emo和上下文向量

，学习情感类别表示向量每一维的权重ATTN，根据self-attention（注意力）机制思想计算权重：

（2）

式（2）中，

、

为self-attention机制中的参数向量，

为向量

的维度。

S430：将情感类别表示向量emo的每一维乘以对应权重

，之后再与时刻i的上下文向量

拼接，得到情感和文本的交互式向量

：

（3）

式（3）中，

表示拼接函数。

S500：解码器利用交互式向量

生成回复并输出。

解码器利用交互式向量

进行解码，生成输出序列，即回复。本实施例中解码器采用单向LSTM神经网络。

本实施例中，回复的生成具体为：

（1）将交互式向量

、前一时刻已解码的词向量

和前一时刻解码器的隐藏状态

作为解码器的输入，更新解码器在时刻i的隐藏状态

：

（4）

式（4）中，词向量

为解码器在时刻i-1的输出。

（2）解码器从输出的概率分布

中抽样生成单词

，即：

（5）

式（5）中，

为待学习参数，由训练确定。

在时刻i，Seq2Seq模型损失函数

计算如下所示：

（6）

为了对生成过程进行有效控制，避免生成安全回复，一种优选方案为，在解码器引入最大化情感表达损失函数。

引入一个常用的外部情感词典——VAD词典。VAD词典由13915个英语单词组成，它将单词映射到一个三维的情感空间，即每个单词根据三个情感维度进行评价，每个维度的取值范围为1-9，其中V(Valence)表示情感的极性，1对应非常情感消极的单词，9对应情感非常积极的单词。A(Arousal)表示情感唤起人兴奋的强度，1对应的情感强度最低，9对应的情感强度最高。D(Dominance)表示情感的控制力，1、5、9分别对应非常无力、中性和非常有力。例如bored在VAD词典中的表示为

。

给定一个词

，其情感表示

为：

（7）

当词

为VAD词典

中存在的词，则其情感表示为

；否则其情感表示定义为

，代表中性情感词。

引入最大化情感表达损失函数，对生成过程进行控制，鼓励模型生成的回复尽可能地表达情感，避免生成安全回复。

在i时刻，最大化情感表达损失

计算如下所示：

（8）

式（8）中，

为Seq2Seq模型的参数。

第一部分

表示Seq2Seq模型的损失，第二部分

通过惩罚生成词

的情感表示与中性情感词

之间的距离，使模型能够在生成过程中主动选择情感丰富的词汇。

在i时刻，总损失函数

为Seq2Seq模型损失

和最大化情感表达损失

的加权和：

（9）

其（9）中，权重

是待学习参数，由训练确定。

在本发明基于交互融合的情感对话生成方法实现前，需要进行模型训练，图2所示为本实施例的训练过程，具体包括：

（1）训练出较精确的情感分类器，具体为：

使用情感分类数据集CBET训练出较精确的情感分类器。CBET是带情感类别标签的数据集，包含81163条文本，是目前情感分类领域可用的最大语料库，涵盖9种情感类别，包括Anger（愤怒）、Fear（恐惧）、Joy（高兴）、Love（喜欢）、Sadness（悲伤）、Surprise（惊讶）、Thankfulness（感恩）、Disgust（厌恶）、Guilt（内疚）等。情感类别标签见表1所示。TwitterPersona是英文对话语料库，数据来自于Twitter FireHose，由从中采样的12000轮次对话组成。

表1 情感类别标签化

Anger	Fear	Joy	Love	Sadness	Surprise	Thankfulness	Disgust	Guilt
									0	1	2	3	4	5	6	7	8

训练时，首先利用CBET数据集分别训练多种基于不同模型的情感分类器，其中包括常用的基于机器学习的情感分类模型SVM（支持向量机）、MLP（多层感知器）、LSTM（循环神经网络）、Bi-LSTM（双向循环神经网络）、CNN（卷积神经网络）、BERT（语言表示模型）。最终选择基于语言表示模型（BERT）的情感分类器，其分类效果最佳，精确度可达93.2%。

（2）利用训练的情感分类器构建情感对话语料库，具体为：

利用训练的情感分类器对不带情感类别标签的Twitter Persona对话语料集进行情感标记，情感标记后的Twitter Persona对话语料集即情感对话语料库。

（3）以情感对话语料库作为训练数据集，对所构建的情感对话生成模型进行训练，训练过程包括输入训练数据、情感分类器识别训练数据所蕴含的情感类别并表示为向量、编码器将训练数据编码为上下文向量、将训练数据的情感类别表示向量和上下文向量融合成交互式向量、解码器利用交互式向量进行解码。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。