CN112949684B

CN112949684B - 一种基于强化学习框架的多模态检测对话情感信息的方法

Info

Publication number: CN112949684B
Application number: CN202110121506.8A
Authority: CN
Inventors: 聂为之; 任敏捷; 刘安安; 张勇东
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2022-07-29
Anticipated expiration: 2041-01-28
Also published as: CN112949684A

Abstract

本发明公开了一种基于强化学习框架的多模态检测对话情感信息的方法，包括：将话语特征描述符输入到所建立的智能体中得到当前话语情感信息；对话语情感信息采取滑窗和最大池化操作融合滑窗窗口内的话语情感信息，并与当前话语的特征描述符拼接作为当前输入智能体的状态；智能体识别当前话语的情感并进行分类，获取分类标签；根据分类标签通过最大化智能体所得的回报来优化策略，优化后的策略指导智能体在后续过程根据状态采取优化的动作，输出分类结果。本发明捕捉了情绪状态和累积的情绪变化的影响，以提升多模态场景下对话中的情感检测的精度。

Description

一种基于强化学习框架的多模态检测对话情感信息的方法

技术领域

本发明涉及对话情感检测领域，尤其涉及一种基于强化学习框架的多模态检测对话情感信息的方法。

背景技术

作为人类交流的基本方面，情感在我们的日常生活中起着重要的作用，对于更自然的人机交互至关重要，使文本中的情感检测成为自然语言处理(NLP)的长期目标。在文献中，大多数作品集中于非对话文本，包括短文本级别^[1]，句子级别文本^[2]和文档级别文本^[3]。但是，近年来，由于许多新兴任务，例如：基于聊天记录的舆论挖掘^[4]，Facebook，YouTube，Twitter等中的社交媒体分析^[5]，对话中的情感检测在更多的应用场景中得到了应用，以及智能系统(如智能家居和聊天机器人)^[6]。因此，对话中的情感检测已引起研究界的越来越多的关注。

与非会话案例相比，会话案例的最大区别在于会话中的邻近话语与语义密切相关，因此邻近话语的情感类别也具有密切相关性。此外，上下文信息是会话情感检测和单句情感检测任务之间的另一个主要区别。有时，可以基于对话的上下文信息来增强，减弱或反转话语的原始情感。Li等^[7]提出了BiERU，它可以解决在建模用于对话情感检测的上下文信息时的计算效率问题。BiERU引入了广义神经张量块，然后是两通道分类器，分别执行上下文组合和情感分类。为了解决当前基于RNN(循环递归神经网络)的方法中存在的上下文传播问题，Ghosal等人^[8]提出了DialogueGCN(对话图卷积网络)。DialogueGCN基于图神经网络，通过利用对话者的自身和说话者之间的依存关系来建模用于情感检测的对话上下文。

但是，就像人类在谈话过程中感知情感的过程一样，当前话语的情感状态受先前话语的内容和情感状态影响和决定。有效地在整个对话中对这些累积的情感信息进行建模既重要又充满挑战。例如，如图1所示，第三话语的情感(由说话者2说)令人惊讶。在第四次讲话(由发言者1说)因在观看史诗期间对讲话者2入睡而生气之后，第四次讲话(由发言者2说)变得悲伤。这种情绪上的变化不仅是因为说话人2无法掩盖自己入睡的真相，而且还受到说话人1所表达的愤怒情绪的影响。从这个例子中，可以看到当前的情绪状态可以在两个方面基于对话而改变，一个方面是前面话语给出的上下文，另一个是前面话语背后的情感。最近的研究主要集中于利用上下文和说话者信息来促进对话中的情感检测，并且通常利用递归神经网络(RNN)或图神经网络对该信息进行建模，例如参考文献[8]和[5]，在上述基于RNN的方法中，忽略了先前的情绪状态和累积的情绪变化的影响。

参考文献

[1]Felbo,Bjarke,Alan Mislove,Anders

Iyad Rahwan,and SuneLehmann."Using millions of emoji occurrences to learn any-domainrepresentations for detecting sentiment,emotion and sarcasm."arXiv preprintarXiv:1708.00524(2017).

[2]Li,Shoushan,Lei Huang,Rong Wang,and Guodong Zhou."Sentence-levelemotion classification with label and context dependence."In Proceedings ofthe 53rd Annual Meeting of the Association for Computational Linguistics andthe 7th International Joint Conference on Natural Language Processing (Volume1:Long Papers),pp.1045-1053.2015.

[3]Wang,Jin,Liang-Chih Yu,K.Robert Lai,and Xuejie Zhang."Dimensionalsentiment analysis using a regionalCNN-LSTM model."In Proceedings of fthe54th Annual Meeting ofthe Association for Computational Linguistics(Volume 2:Short Papers),pp.225-230.2016.

[4]Cambria,Erik,Soujanya Poria,Alexander Gelbukh,and Mike Thelwall."Sentiment analysis is a big suitcase."IEEE Intelligent Systems 32,no.6(2017):74-80.

[5]Majumder,Navonil,Soujanya Poria,Devamanyu Hazarika,Rada Mihalcea,Alexander Gelbukh,and Erik Cambria."Dialoguernn:An attentive rnn for emotiondetection in conversations."In Proceedings of the AAAI Conference onArtificial Intelligence,vol.33,pp.6818-6825.2019.

[6]Young,Tom,Erik Cambria,Iti Chaturvedi,Minlie Huang,Hao Zhou,andSubham Biswas."Augmenting end-to-end dialog systems with commonsenseknowledge."arXiv preprint arXiv:1709.05453(2017).

[7]Li,Wei,Wei Shao,Shaoxiong Ji,and Erik Cambria."BiERU:BidirectionalEmotional Recurrent Unit for Conversational Sentiment Analysis."arXivpreprint arXiv:2006.00492(2020).

[8]Ghosal,Deepanway,Navonil Majumder,Soujanya Poria,Niyati Chhaya,andAlexander Gelbukh."Dialoguegcn:A graph convolutionalneural network foremotion recognition in conversation."arXiv preprint arXiv:1908.11540(2019).

[9]Zadeh,Amir,Paul Pu Liang,Navonil Mazumder,Soujanya Poria,ErikCambria,and Louis-Philippe Morency."Memory Fusion Network for Multi-viewSequential Learning."(2018).

[10]Poria,Soujanya,Erik Cambria,Devamanyu Hazarika,Navonil Majumder,Amir Zadeh,and Louis-Philippe Morency."Context-dependent sentiment analysisin user-generated videos."In Proceedings of the 55th annual meeting of theassociation for computational linguistics(volume 1:Long papers),pp.873-883.2017.

[11]Hazarika,Devamanyu,Soujanya Poria,Amir Zadeh,Erik Cambria,Louis-Philippe Morency,and Roger Zimmermann."Conversational memory network foremotion recognition in dyadic dialogue videos."In Proceedings of theconference.Association for Computational Linguistics.North AmericanChapter.Meeting,vol.2018,p.2122.NIH Public Access,2018.

[12]Hazarika,Devamanyu,Soujanya Poria,Rada Mihalcea,Erik Cambria,andRoger Zimmermann."Icon:Interactive conversational memory network formultimodal emotion detection."In Proceedings of the 2018Conference onEmpirical Methods in Natural Language Processing,pp.2594-2604.2018.

[13]Zhang,Dong,Liangqing Wu,Changlong Sun,Shoushan Li,Qiaoming Zhu,and Guodong Zhou."Modeling both Context-and Speaker-Sensitive Dependence forEmotion Detection in Multi-speaker Conversations."In IJCAI,pp.5415-5421.2019.

[14]Jiao,Wenxiang,Michael R.Lyu,and Irwin King."Real-Time EmotionRecognition via Attention Gated Hierarchical Memory Network."

发明内容

本发明提供了一种基于强化学习框架的多模态检测对话情感信息的方法，本发明的目的在于捕捉情绪状态和累积的情绪变化的影响，以提升多模态场景下对话中的情感检测的精度，详见下文描述：

一种基于强化学习框架的多模态检测对话情感信息的方法，所述方法包括：

将话语特征描述符输入到所建立的智能体中得到当前话语情感信息；

对话语情感信息采取滑窗和最大池化操作融合滑窗窗口内的话语情感信息，并与当前话语的特征描述符拼接作为当前输入智能体的状态；

智能体识别当前话语的情感并进行分类，获取分类标签；

根据分类标签通过最大化智能体所得的回报来优化策略，优化后的策略指导智能体在后续过程根据状态采取优化的动作，输出分类结果。

其中，所述智能体源于卷积神经网络，由两个全连接层和一个softmax层组成。

进一步地，所述回报定义为交叉熵损失的倒数。

本发明提供的技术方案的有益效果是：

1、本发明针对多模态对话情感分类问题，提出了一种强化学习方法，可以在特征学习的步骤中充分考虑对话中话语的情感积累；

2、本发明利用滑动窗口对累积的情感信息进行建模，所得情感信息与包含上下文信息的话语特征拼接，形成强化学习框架的状态输入，明显提高分类精度。

附图说明

图1为动机描述图；

图2为基于强化学习框架的多模态检测对话情感信息的方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

与背景技术不同的是，本发明实施例不仅利用RNN来提取上下文信息，而且还采用强化学习(RL)来模拟先前情绪状态对当前话语情绪的影响，目的是模仿对话过程中人类对情绪的感知过程。话语级别的特征和先前话语的情绪状态都用作强化学习网络的输入，以确定当前话语的情绪，这使本发明实施例的情绪检测网络能够像旁观者一样在对话中见证情绪变化。

实施例1

一种基于强化学习框架的多模态检测对话情感信息的方法，参见图2，该方法包括以下步骤：

101：获取数据库中对话数据，数据库中包含多段对话，每个对话包含多句话语，获取每句话语的语音和文本信息；

102：根据所得每句话语的语音和文本信息分别提取特征；

103：对所得的语音特征与文本特征融合，生成每个话语的特征描述符；

104：将所得的话语特征描述符输入到所建立的智能体中得到当前话语情感信息；

其中，本发明实施例构建的智能体源于卷积神经网络，由两个全连接层和一个softmax层组成。

105：对所得的话语情感信息采取滑窗和最大池化操作融合滑窗窗口内的话语情感信息，并与当前话语的特征描述符拼接作为当前输入智能体的状态；

106：根据所得的输入智能体的状态，智能体识别当前话语的情感，将当前话语的情感进行分类，获取分类标签；

107：根据所得的当前话语的分类标签通过最大化智能体所得的回报来优化策略π(A_t|S_t)，回报在此定义为交叉熵损失的倒数。优化后的策略指导智能体在后续过程根据状态采取优化的动作，也就是输出更优的分类结果。

其中，A_t为t时刻的动作，S_t为t时刻的状态，t为时刻标号。

综上所述，本发明实施例通过上述步骤101-107实现了捕捉情绪状态和累积的情绪变化的影响，以提升多模态场景下对话中的情感检测的精度。

实施例2

下面结合具体的计算公式、实例对实施例1中的方案进行进一步的介绍，详见下文描述：

201：获取数据库中对话数据，数据库中包含多段对话，每个对话包含多句话语，获取每句话语的语音和文本信息；

202：根据所得每句话语的语音和文本信息分别提取特征；

在本实施例中，根据每个对话获取其语音特征包括：

对语音进行预处理转化为16位PCM WAV文件；

使用开源软件openSMILE来提取每个话语的语音特征，并使用Min-Max对提取的语音特征进行规范化，然后进行基于L2的特征选择得到话语的语音特征。第t个话语的语音特征被表示为

维度为d_a，a表示语音信息。

在本实施例中，根据每个对话获取其文本信息包括：

使用预训练好的文本特征提取器提取每个话语的词嵌入特征；

对所得的词嵌入馈送到卷积层，卷积层由三个大小分别为{f₁，f₂，f₃}的滤波器组成，每个滤波器都输出f_out的特征图；

对所得的f_out的特征图，利用最大池化层来获得池化特征；

对所得的池化特征通过一个深度卷积层中，激活后作为话语的文本特征。第t个话语的文本特征被表示为

维度为d_w，w表示文本信息

203：对所得的语音特征与文本特征融合，生成每个话语特征描述符；

在本实施例中，语音与文本特征拼接融合得到

并且维度为d_m＝d_a+d_w，m多模态信息将拼接后的特征传输至双向长短时记忆神经网络中，获取对话的上下文信息，从而得到包含上下文信息的每个话语的特征。长短时记忆网络包含多个记忆块，每个记忆块包括记忆单元，输入门，遗忘门和输出门，该计算过程可表示为：

定义拼接后的包含多模态信息的t时刻的话语特征为

则：

z_t＝σ(V^zx_t+W^zs_t-1+b^z) (1)

r_t＝σ(V^rx_t+W^rs_t-1+b^r) (2)

其中，z_t为t时刻的输入门的输出，r_t为t时刻的遗忘门的输出，v_t为t时刻的记忆单元的输出，s_t为t时刻的输出门的输出，z对应输入门，r对应遗忘门，v对应记忆单元。

在上述等式中，

且s_t＝u_t。V，W和b为参数矩阵和偏置向量，σ为激活函数。输出得到的s_j为最后所得到的包含上下文信息的话语特征描述符。

204：将话语特征描述符输入到所建立的智能体中得到当前话语情感信息；

205：对所得的话语情感信息采取滑窗和最大池化操作融合滑窗窗口内的话语情感信息，并与当前话语的特征描述符拼接作为当前输入智能体的状态；

在本实施例中，状态表示为

即当前话语特征与前一时刻滑动窗口输出的情感特征。

的计算如下：

在该等式中e_t-1是智能体在时刻t-1中生成的情感状态，而n是滑动窗口的大小。当t-i＜0时，e_t-i是零向量。对于第一个状态

随机初始化情感状态

为t-1时刻窗口输出的情感状态。

考虑到先前时刻的影响，定义状态集以表示当前状态下的智能体输入。具体来说，智能体是卷积神经网络，由两个完全连接的层和一个softmax层组成。e_t由最后一个完全连接的层生成，以表示t时刻的情绪状态。

206：根据所得的输入智能体的状态，智能体采取相应的动作，动作即为当前话语的分类标签；

在本实施例中，定义动作集以决定当前话语的情感类别。在每个时刻t，当遇到当前状态S_t时，智能体都会根据其策略π(A_t|S_t)决定采取哪种操作，π(A_t|S_t)表示当前状态为S_t时要选择的动作A_t。因此，动作A_t将由智能体基于先前的情绪状态和当前话语特征来选择。一旦选择了A_t，就会为从环境到智能体的反馈计算奖励，该奖励可用于智能体中的参数学习。

207：根据所得的当前话语的分类标签对整个方法进行优化，具体而言通过最大化智能体所得的回报来进行优化，回报在此定义为交叉熵损失的倒数。

在本实施例中，标准主动学习方法采用不确定性度量，假设分歧或信息密度作为分类和检索任务的选择函数。在这里，将数据不确定性用作强化学习策略的目标函数。对于数据不确定性测量，较高的不确定性表示难以区分样品。执行交叉熵损失以测量数据的不确定性。奖励定义为交叉熵损失的倒数，计算为：

其中，K是对话中的话语数量，A_t是时刻t的智能体选定动作，y_t是第t话语的真实情感标签。因此，在时间t处所有未来奖励(R_t+1，R_t+2...)在惩罚因子γ的情况下可计算为：

Q^*＝maxE[R_t+γR_t+1+…|π，S_t，A_t] (7)

智能体目标是通过最大化与环境交互过程中获得的奖励总和来逐步学习情绪变化。核心问题是找到一种策略来指导智能体商的决策过程。该策略是函数π(强化学习中的公知函数)，它指定当前状态为s时要选择的动作a，即为π(A_t|S_t)。由于没有状态转移概率，并且奖励函数与数据有关，因此该问题被公式化为使用Q的强化学习问题。

综上所述，本发明实施例通过上述步骤201-207实现了捕捉情绪状态和累积的情绪变化的影响，以提升多模态场景下对话中的情感检测的精度。

实施例3

下面结合表1-表3对实施例1和2中的方案进行可行性验证，详见下文描述：

在本实施例中，本申请在实验中应用MELD和IEMOCAP数据集。

MELD是EmotionLines数据集的扩展和增强版本。MELD从“老友记”电视连续剧中大约有1400个对话和13000个语音，这些语音包含三种形式，包括视觉，音频和文本。每种话语都带有情感标签，其中包含七个类别：“愤怒”，“厌恶”，“悲伤”，“欢乐”，“中立”，“惊奇”和“恐惧”。

IEMOCAP是记录为双向对话的视频剪辑的数据集，涉及十个不同的参与者。在每个视频剪辑中，都有一个单独的二元对话，并且每个对话都进一步细分为语音。每种言语上都有六种情感类别，包括快乐，悲伤，神经，愤怒，激动和沮丧。IEMOCAP数据集包含三种模式：音频，文本和视觉。为了与最新研究更好地进行比较，在实验中仅使用来自IEMOCAP数据集的文本信息。

在PyTorch框架中实现了建议的EDRLF方法。在训练期间，采用Adam优化器\进行优化，权重衰减0.0001，学习率设置0.0001。所有实验均在配备一个NVDIA 1080TI GPU和Intel i7 CPU的服务器上进行。

对于IEMOCAP数据集，使用准确性和f1分数的加权平均值来评估整体性能。对于MELD数据集，使用准确性的加权平均值作为评估性能的度量。

表1 MELD数据集上与最新方法的比较

与MELD数据集上的方法比较

MELD：评估了提出的方法，并与各种方法进行了比较，在MELD上使用了多模式信息。表1给出了实验结果。如表1所示，MFN的性能显然低于其他方法。例如，MFN的F1分数平均比BC-LSTM低2.1％。这表明使用多模式功能时上下文信息很有帮助。与所有基线方法相比，ConGCN的平均性能最佳，并且以权重均值达到59.4％，这表明通过图神经网络同时对说话人和上下文信息进行建模比使用RNN架构更为有效。从表1中，还可以看到，所提方法的w-average为60.2％，具有非常好的竞争性能，胜过基线方法。本方法的优越性能可以解释为，已建立的智能体有效地学习了先前情绪状态对当前话语情绪分类的影响，使强化学习网络像旁观者一样在对话中见证了情绪变化。

表2 IEMOCAP数据集上与最新方法的比较

Methods	Angry	Excited	Happy	Neutral	Sad	Frustrated	Average(w)
								BC-LSTM[10]	59.41	52.84	30.56	57.55	56.73	65.88	56.32
CMN[11]	61.76	55.52	25.00	52.86	55.92	71.13	56.56
								DialogueRNN[5]	64.71	80.27	25.69	58.59	75.10	61.15	63.40
DialogueGCN[7]	67.53	65.46	40.62	61.92	89.14	64.18	65.25
								AGHMN[14]	57.5	68.10	48.30	61.60	68.30	67.10	63.5
Ours	63.03	67.90	51.89	64.50	80.93	58.94	65.37

与IEMOCAP数据集上的方法比较

IEMOCAP数据集的比较结果显示在表2中，本方法在加权平均准确度方面比最佳模型DialogueGCN高出0.12％。对于IEMOCAP数据集上的所有14个指标，本方法的表现在3个指标上达到了最优，并且在这六个类别的实验结果表现更为均衡。实验结果表明，本方法可以捕获累积的情绪信息，并可以通过强化学习框架有效地利用该信息来提高整体表现。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。