CN112949684B - 一种基于强化学习框架的多模态检测对话情感信息的方法 - Google Patents

一种基于强化学习框架的多模态检测对话情感信息的方法 Download PDF

Info

Publication number
CN112949684B
CN112949684B CN202110121506.8A CN202110121506A CN112949684B CN 112949684 B CN112949684 B CN 112949684B CN 202110121506 A CN202110121506 A CN 202110121506A CN 112949684 B CN112949684 B CN 112949684B
Authority
CN
China
Prior art keywords
emotion
emotion information
agent
speech
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110121506.8A
Other languages
English (en)
Other versions
CN112949684A (zh
Inventor
聂为之
任敏捷
刘安安
张勇东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202110121506.8A priority Critical patent/CN112949684B/zh
Publication of CN112949684A publication Critical patent/CN112949684A/zh
Application granted granted Critical
Publication of CN112949684B publication Critical patent/CN112949684B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于强化学习框架的多模态检测对话情感信息的方法,包括:将话语特征描述符输入到所建立的智能体中得到当前话语情感信息;对话语情感信息采取滑窗和最大池化操作融合滑窗窗口内的话语情感信息,并与当前话语的特征描述符拼接作为当前输入智能体的状态;智能体识别当前话语的情感并进行分类,获取分类标签;根据分类标签通过最大化智能体所得的回报来优化策略,优化后的策略指导智能体在后续过程根据状态采取优化的动作,输出分类结果。本发明捕捉了情绪状态和累积的情绪变化的影响,以提升多模态场景下对话中的情感检测的精度。

Description

一种基于强化学习框架的多模态检测对话情感信息的方法
技术领域
本发明涉及对话情感检测领域,尤其涉及一种基于强化学习框架的多模态检测对话情感信息的方法。
背景技术
作为人类交流的基本方面,情感在我们的日常生活中起着重要的作用,对于更自然的人机交互至关重要,使文本中的情感检测成为自然语言处理(NLP)的长期目标。在文献中,大多数作品集中于非对话文本,包括短文本级别[1],句子级别文本[2]和文档级别文本[3]。但是,近年来,由于许多新兴任务,例如:基于聊天记录的舆论挖掘[4],Facebook,YouTube,Twitter等中的社交媒体分析[5],对话中的情感检测在更多的应用场景中得到了应用,以及智能系统(如智能家居和聊天机器人)[6]。因此,对话中的情感检测已引起研究界的越来越多的关注。
与非会话案例相比,会话案例的最大区别在于会话中的邻近话语与语义密切相关,因此邻近话语的情感类别也具有密切相关性。此外,上下文信息是会话情感检测和单句情感检测任务之间的另一个主要区别。有时,可以基于对话的上下文信息来增强,减弱或反转话语的原始情感。Li等[7]提出了BiERU,它可以解决在建模用于对话情感检测的上下文信息时的计算效率问题。BiERU引入了广义神经张量块,然后是两通道分类器,分别执行上下文组合和情感分类。为了解决当前基于RNN(循环递归神经网络)的方法中存在的上下文传播问题,Ghosal等人[8]提出了DialogueGCN(对话图卷积网络)。DialogueGCN基于图神经网络,通过利用对话者的自身和说话者之间的依存关系来建模用于情感检测的对话上下文。
但是,就像人类在谈话过程中感知情感的过程一样,当前话语的情感状态受先前话语的内容和情感状态影响和决定。有效地在整个对话中对这些累积的情感信息进行建模既重要又充满挑战。例如,如图1所示,第三话语的情感(由说话者2说)令人惊讶。在第四次讲话(由发言者1说)因在观看史诗期间对讲话者2入睡而生气之后,第四次讲话(由发言者2说)变得悲伤。这种情绪上的变化不仅是因为说话人2无法掩盖自己入睡的真相,而且还受到说话人1所表达的愤怒情绪的影响。从这个例子中,可以看到当前的情绪状态可以在两个方面基于对话而改变,一个方面是前面话语给出的上下文,另一个是前面话语背后的情感。最近的研究主要集中于利用上下文和说话者信息来促进对话中的情感检测,并且通常利用递归神经网络(RNN)或图神经网络对该信息进行建模,例如参考文献[8]和[5],在上述基于RNN的方法中,忽略了先前的情绪状态和累积的情绪变化的影响。
参考文献
[1]Felbo,Bjarke,Alan Mislove,Anders
Figure BDA0002922422630000021
Iyad Rahwan,and SuneLehmann."Using millions of emoji occurrences to learn any-domainrepresentations for detecting sentiment,emotion and sarcasm."arXiv preprintarXiv:1708.00524(2017).
[2]Li,Shoushan,Lei Huang,Rong Wang,and Guodong Zhou."Sentence-levelemotion classification with label and context dependence."In Proceedings ofthe 53rd Annual Meeting of the Association for Computational Linguistics andthe 7th International Joint Conference on Natural Language Processing (Volume1:Long Papers),pp.1045-1053.2015.
[3]Wang,Jin,Liang-Chih Yu,K.Robert Lai,and Xuejie Zhang."Dimensionalsentiment analysis using a regionalCNN-LSTM model."In Proceedings of fthe54th Annual Meeting ofthe Association for Computational Linguistics(Volume 2:Short Papers),pp.225-230.2016.
[4]Cambria,Erik,Soujanya Poria,Alexander Gelbukh,and Mike Thelwall."Sentiment analysis is a big suitcase."IEEE Intelligent Systems 32,no.6(2017):74-80.
[5]Majumder,Navonil,Soujanya Poria,Devamanyu Hazarika,Rada Mihalcea,Alexander Gelbukh,and Erik Cambria."Dialoguernn:An attentive rnn for emotiondetection in conversations."In Proceedings of the AAAI Conference onArtificial Intelligence,vol.33,pp.6818-6825.2019.
[6]Young,Tom,Erik Cambria,Iti Chaturvedi,Minlie Huang,Hao Zhou,andSubham Biswas."Augmenting end-to-end dialog systems with commonsenseknowledge."arXiv preprint arXiv:1709.05453(2017).
[7]Li,Wei,Wei Shao,Shaoxiong Ji,and Erik Cambria."BiERU:BidirectionalEmotional Recurrent Unit for Conversational Sentiment Analysis."arXivpreprint arXiv:2006.00492(2020).
[8]Ghosal,Deepanway,Navonil Majumder,Soujanya Poria,Niyati Chhaya,andAlexander Gelbukh."Dialoguegcn:A graph convolutionalneural network foremotion recognition in conversation."arXiv preprint arXiv:1908.11540(2019).
[9]Zadeh,Amir,Paul Pu Liang,Navonil Mazumder,Soujanya Poria,ErikCambria,and Louis-Philippe Morency."Memory Fusion Network for Multi-viewSequential Learning."(2018).
[10]Poria,Soujanya,Erik Cambria,Devamanyu Hazarika,Navonil Majumder,Amir Zadeh,and Louis-Philippe Morency."Context-dependent sentiment analysisin user-generated videos."In Proceedings of the 55th annual meeting of theassociation for computational linguistics(volume 1:Long papers),pp.873-883.2017.
[11]Hazarika,Devamanyu,Soujanya Poria,Amir Zadeh,Erik Cambria,Louis-Philippe Morency,and Roger Zimmermann."Conversational memory network foremotion recognition in dyadic dialogue videos."In Proceedings of theconference.Association for Computational Linguistics.North AmericanChapter.Meeting,vol.2018,p.2122.NIH Public Access,2018.
[12]Hazarika,Devamanyu,Soujanya Poria,Rada Mihalcea,Erik Cambria,andRoger Zimmermann."Icon:Interactive conversational memory network formultimodal emotion detection."In Proceedings of the 2018Conference onEmpirical Methods in Natural Language Processing,pp.2594-2604.2018.
[13]Zhang,Dong,Liangqing Wu,Changlong Sun,Shoushan Li,Qiaoming Zhu,and Guodong Zhou."Modeling both Context-and Speaker-Sensitive Dependence forEmotion Detection in Multi-speaker Conversations."In IJCAI,pp.5415-5421.2019.
[14]Jiao,Wenxiang,Michael R.Lyu,and Irwin King."Real-Time EmotionRecognition via Attention Gated Hierarchical Memory Network."
发明内容
本发明提供了一种基于强化学习框架的多模态检测对话情感信息的方法,本发明的目的在于捕捉情绪状态和累积的情绪变化的影响,以提升多模态场景下对话中的情感检测的精度,详见下文描述:
一种基于强化学习框架的多模态检测对话情感信息的方法,所述方法包括:
将话语特征描述符输入到所建立的智能体中得到当前话语情感信息;
对话语情感信息采取滑窗和最大池化操作融合滑窗窗口内的话语情感信息,并与当前话语的特征描述符拼接作为当前输入智能体的状态;
智能体识别当前话语的情感并进行分类,获取分类标签;
根据分类标签通过最大化智能体所得的回报来优化策略,优化后的策略指导智能体在后续过程根据状态采取优化的动作,输出分类结果。
其中,所述智能体源于卷积神经网络,由两个全连接层和一个softmax层组成。
进一步地,所述回报定义为交叉熵损失的倒数。
本发明提供的技术方案的有益效果是:
1、本发明针对多模态对话情感分类问题,提出了一种强化学习方法,可以在特征学习的步骤中充分考虑对话中话语的情感积累;
2、本发明利用滑动窗口对累积的情感信息进行建模,所得情感信息与包含上下文信息的话语特征拼接,形成强化学习框架的状态输入,明显提高分类精度。
附图说明
图1为动机描述图;
图2为基于强化学习框架的多模态检测对话情感信息的方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
与背景技术不同的是,本发明实施例不仅利用RNN来提取上下文信息,而且还采用强化学习(RL)来模拟先前情绪状态对当前话语情绪的影响,目的是模仿对话过程中人类对情绪的感知过程。话语级别的特征和先前话语的情绪状态都用作强化学习网络的输入,以确定当前话语的情绪,这使本发明实施例的情绪检测网络能够像旁观者一样在对话中见证情绪变化。
实施例1
一种基于强化学习框架的多模态检测对话情感信息的方法,参见图2,该方法包括以下步骤:
101:获取数据库中对话数据,数据库中包含多段对话,每个对话包含多句话语,获取每句话语的语音和文本信息;
102:根据所得每句话语的语音和文本信息分别提取特征;
103:对所得的语音特征与文本特征融合,生成每个话语的特征描述符;
104:将所得的话语特征描述符输入到所建立的智能体中得到当前话语情感信息;
其中,本发明实施例构建的智能体源于卷积神经网络,由两个全连接层和一个softmax层组成。
105:对所得的话语情感信息采取滑窗和最大池化操作融合滑窗窗口内的话语情感信息,并与当前话语的特征描述符拼接作为当前输入智能体的状态;
106:根据所得的输入智能体的状态,智能体识别当前话语的情感,将当前话语的情感进行分类,获取分类标签;
107:根据所得的当前话语的分类标签通过最大化智能体所得的回报来优化策略π(At|St),回报在此定义为交叉熵损失的倒数。优化后的策略指导智能体在后续过程根据状态采取优化的动作,也就是输出更优的分类结果。
其中,At为t时刻的动作,St为t时刻的状态,t为时刻标号。
综上所述,本发明实施例通过上述步骤101-107实现了捕捉情绪状态和累积的情绪变化的影响,以提升多模态场景下对话中的情感检测的精度。
实施例2
下面结合具体的计算公式、实例对实施例1中的方案进行进一步的介绍,详见下文描述:
201:获取数据库中对话数据,数据库中包含多段对话,每个对话包含多句话语,获取每句话语的语音和文本信息;
202:根据所得每句话语的语音和文本信息分别提取特征;
在本实施例中,根据每个对话获取其语音特征包括:
对语音进行预处理转化为16位PCM WAV文件;
使用开源软件openSMILE来提取每个话语的语音特征,并使用Min-Max对提取的语音特征进行规范化,然后进行基于L2的特征选择得到话语的语音特征。第t个话语的语音特征被表示为
Figure BDA0002922422630000051
维度为da,a表示语音信息。
在本实施例中,根据每个对话获取其文本信息包括:
使用预训练好的文本特征提取器提取每个话语的词嵌入特征;
对所得的词嵌入馈送到卷积层,卷积层由三个大小分别为{f1,f2,f3}的滤波器组成,每个滤波器都输出fout的特征图;
对所得的fout的特征图,利用最大池化层来获得池化特征;
对所得的池化特征通过一个深度卷积层中,激活后作为话语的文本特征。第t个话语的文本特征被表示为
Figure BDA0002922422630000061
维度为dw,w表示文本信息
203:对所得的语音特征与文本特征融合,生成每个话语特征描述符;
在本实施例中,语音与文本特征拼接融合得到
Figure BDA0002922422630000062
并且维度为dm=da+dw,m多模态信息将拼接后的特征传输至双向长短时记忆神经网络中,获取对话的上下文信息,从而得到包含上下文信息的每个话语的特征。长短时记忆网络包含多个记忆块,每个记忆块包括记忆单元,输入门,遗忘门和输出门,该计算过程可表示为:
定义拼接后的包含多模态信息的t时刻的话语特征为
Figure BDA0002922422630000063
则:
zt=σ(Vzxt+Wzst-1+bz) (1)
rt=σ(Vrxt+Wrst-1+br) (2)
Figure BDA0002922422630000064
Figure BDA0002922422630000065
其中,zt为t时刻的输入门的输出,rt为t时刻的遗忘门的输出,vt为t时刻的记忆单元的输出,st为t时刻的输出门的输出,z对应输入门,r对应遗忘门,v对应记忆单元。
在上述等式中,
Figure BDA0002922422630000066
且st=ut。V,W和b为参数矩阵和偏置向量,σ为激活函数。输出得到的sj为最后所得到的包含上下文信息的话语特征描述符。
204:将话语特征描述符输入到所建立的智能体中得到当前话语情感信息;
205:对所得的话语情感信息采取滑窗和最大池化操作融合滑窗窗口内的话语情感信息,并与当前话语的特征描述符拼接作为当前输入智能体的状态;
在本实施例中,状态表示为
Figure BDA0002922422630000067
即当前话语特征与前一时刻滑动窗口输出的情感特征。
Figure BDA0002922422630000068
的计算如下:
Figure BDA0002922422630000069
在该等式中et-1是智能体在时刻t-1中生成的情感状态,而n是滑动窗口的大小。当t-i<0时,et-i是零向量。对于第一个状态
Figure BDA00029224226300000610
随机初始化情感状态
Figure BDA00029224226300000611
为t-1时刻窗口输出的情感状态。
考虑到先前时刻的影响,定义状态集以表示当前状态下的智能体输入。具体来说,智能体是卷积神经网络,由两个完全连接的层和一个softmax层组成。et由最后一个完全连接的层生成,以表示t时刻的情绪状态。
206:根据所得的输入智能体的状态,智能体采取相应的动作,动作即为当前话语的分类标签;
在本实施例中,定义动作集以决定当前话语的情感类别。在每个时刻t,当遇到当前状态St时,智能体都会根据其策略π(At|St)决定采取哪种操作,π(At|St)表示当前状态为St时要选择的动作At。因此,动作At将由智能体基于先前的情绪状态和当前话语特征来选择。一旦选择了At,就会为从环境到智能体的反馈计算奖励,该奖励可用于智能体中的参数学习。
207:根据所得的当前话语的分类标签对整个方法进行优化,具体而言通过最大化智能体所得的回报来进行优化,回报在此定义为交叉熵损失的倒数。
在本实施例中,标准主动学习方法采用不确定性度量,假设分歧或信息密度作为分类和检索任务的选择函数。在这里,将数据不确定性用作强化学习策略的目标函数。对于数据不确定性测量,较高的不确定性表示难以区分样品。执行交叉熵损失以测量数据的不确定性。奖励定义为交叉熵损失的倒数,计算为:
Figure BDA0002922422630000071
其中,K是对话中的话语数量,At是时刻t的智能体选定动作,yt是第t话语的真实情感标签。因此,在时间t处所有未来奖励(Rt+1,Rt+2...)在惩罚因子γ的情况下可计算为:
Q*=maxE[Rt+γRt+1+…|π,St,At] (7)
智能体目标是通过最大化与环境交互过程中获得的奖励总和来逐步学习情绪变化。核心问题是找到一种策略来指导智能体商的决策过程。该策略是函数π(强化学习中的公知函数),它指定当前状态为s时要选择的动作a,即为π(At|St)。由于没有状态转移概率,并且奖励函数与数据有关,因此该问题被公式化为使用Q的强化学习问题。
综上所述,本发明实施例通过上述步骤201-207实现了捕捉情绪状态和累积的情绪变化的影响,以提升多模态场景下对话中的情感检测的精度。
实施例3
下面结合表1-表3对实施例1和2中的方案进行可行性验证,详见下文描述:
在本实施例中,本申请在实验中应用MELD和IEMOCAP数据集。
MELD是EmotionLines数据集的扩展和增强版本。MELD从“老友记”电视连续剧中大约有1400个对话和13000个语音,这些语音包含三种形式,包括视觉,音频和文本。每种话语都带有情感标签,其中包含七个类别:“愤怒”,“厌恶”,“悲伤”,“欢乐”,“中立”,“惊奇”和“恐惧”。
IEMOCAP是记录为双向对话的视频剪辑的数据集,涉及十个不同的参与者。在每个视频剪辑中,都有一个单独的二元对话,并且每个对话都进一步细分为语音。每种言语上都有六种情感类别,包括快乐,悲伤,神经,愤怒,激动和沮丧。IEMOCAP数据集包含三种模式:音频,文本和视觉。为了与最新研究更好地进行比较,在实验中仅使用来自IEMOCAP数据集的文本信息。
在PyTorch框架中实现了建议的EDRLF方法。在训练期间,采用Adam优化器\进行优化,权重衰减0.0001,学习率设置0.0001。所有实验均在配备一个NVDIA 1080TI GPU和Intel i7 CPU的服务器上进行。
对于IEMOCAP数据集,使用准确性和f1分数的加权平均值来评估整体性能。对于MELD数据集,使用准确性的加权平均值作为评估性能的度量。
表1 MELD数据集上与最新方法的比较
Figure BDA0002922422630000081
与MELD数据集上的方法比较
MELD:评估了提出的方法,并与各种方法进行了比较,在MELD上使用了多模式信息。表1给出了实验结果。如表1所示,MFN的性能显然低于其他方法。例如,MFN的F1分数平均比BC-LSTM低2.1%。这表明使用多模式功能时上下文信息很有帮助。与所有基线方法相比,ConGCN的平均性能最佳,并且以权重均值达到59.4%,这表明通过图神经网络同时对说话人和上下文信息进行建模比使用RNN架构更为有效。从表1中,还可以看到,所提方法的w-average为60.2%,具有非常好的竞争性能,胜过基线方法。本方法的优越性能可以解释为,已建立的智能体有效地学习了先前情绪状态对当前话语情绪分类的影响,使强化学习网络像旁观者一样在对话中见证了情绪变化。
表2 IEMOCAP数据集上与最新方法的比较
Methods Angry Excited Happy Neutral Sad Frustrated Average(w)
BC-LSTM[10] 59.41 52.84 30.56 57.55 56.73 65.88 56.32
CMN[11] 61.76 55.52 25.00 52.86 55.92 71.13 56.56
DialogueRNN[5] 64.71 80.27 25.69 58.59 75.10 61.15 63.40
DialogueGCN[7] 67.53 65.46 40.62 61.92 89.14 64.18 65.25
AGHMN[14] 57.5 68.10 48.30 61.60 68.30 67.10 63.5
Ours 63.03 67.90 51.89 64.50 80.93 58.94 65.37
与IEMOCAP数据集上的方法比较
IEMOCAP数据集的比较结果显示在表2中,本方法在加权平均准确度方面比最佳模型DialogueGCN高出0.12%。对于IEMOCAP数据集上的所有14个指标,本方法的表现在3个指标上达到了最优,并且在这六个类别的实验结果表现更为均衡。实验结果表明,本方法可以捕获累积的情绪信息,并可以通过强化学习框架有效地利用该信息来提高整体表现。
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于强化学习框架的多模态检测对话情感信息的方法,其特征在于,所述方法包括:
将话语特征描述符输入到所建立的智能体中得到当前话语情感信息;
对话语情感信息采取滑窗和最大池化操作融合滑窗窗口内的话语情感信息,并与当前话语的特征描述符拼接作为当前输入智能体的状态;
智能体识别当前话语的情感并进行分类,获取分类标签;
根据分类标签通过最大化智能体所得的回报来优化策略,优化后的策略指导智能体在后续过程根据状态采取优化的动作,输出分类结果;
其中,所述对话语情感信息采取滑窗和最大池化操作融合滑窗窗口内的话语情感信息,并与当前话语的特征描述符拼接作为当前输入智能体的状态具体为:
Figure FDA0003641245540000011
Figure FDA0003641245540000012
等式中et-1是智能体在时刻t-1中生成的情感状态,ut是当前话语特征,n是滑动窗口的大小,当t-i<0时,et-i是零向量;St为t时刻智能体输入的状态,t为时刻标号,对于第一个状态
Figure FDA0003641245540000013
随机初始化情感状态
Figure FDA0003641245540000014
Figure FDA0003641245540000015
为t-1时刻窗口输出的情感状态。
2.根据权利要求1所述的一种基于强化学习框架的多模态检测对话情感信息的方法,其特征在于,所述智能体源于卷积神经网络,由两个全连接层和一个softmax层组成。
3.根据权利要求1所述的一种基于强化学习框架的多模态检测对话情感信息的方法,其特征在于,所述回报定义为交叉熵损失的倒数。
4.根据权利要求3所述的一种基于强化学习框架的多模态检测对话情感信息的方法,其特征在于,所述交叉熵损失的倒数为:
Figure FDA0003641245540000016
其中,K是对话中的话语数量,At是时刻t的智能体选定动作,yt是第t话语的真实情感标签。
5.根据权利要求4所述的一种基于强化学习框架的多模态检测对话情感信息的方法,其特征在于,所述方法还包括:
在时间t处所有未来奖励(Rt+1,Rt+2...)在惩罚因子γ的情况下计算为:
Q*=maxπE[Rt+γRt+1+…|π,St,At]
其中,Q*为在策略π指导下智能体获得的最大未来奖励,E为数学期望,St为t时刻智能体输入的状态,At为t时刻的智能体输出的动作即分类标签。
CN202110121506.8A 2021-01-28 2021-01-28 一种基于强化学习框架的多模态检测对话情感信息的方法 Active CN112949684B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110121506.8A CN112949684B (zh) 2021-01-28 2021-01-28 一种基于强化学习框架的多模态检测对话情感信息的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110121506.8A CN112949684B (zh) 2021-01-28 2021-01-28 一种基于强化学习框架的多模态检测对话情感信息的方法

Publications (2)

Publication Number Publication Date
CN112949684A CN112949684A (zh) 2021-06-11
CN112949684B true CN112949684B (zh) 2022-07-29

Family

ID=76239571

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110121506.8A Active CN112949684B (zh) 2021-01-28 2021-01-28 一种基于强化学习框架的多模态检测对话情感信息的方法

Country Status (1)

Country Link
CN (1) CN112949684B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113946670B (zh) * 2021-10-19 2024-05-10 北京理工大学 一种面向对话情感识别的对比式上下文理解增强方法
WO2023084348A1 (en) * 2021-11-12 2023-05-19 Sony Group Corporation Emotion recognition in multimedia videos using multi-modal fusion-based deep neural network
CN114722808B (zh) * 2022-03-14 2023-05-23 天津大学 基于多上下文和多词段图卷积网络的特定目标情感识别方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110675860A (zh) * 2019-09-24 2020-01-10 山东大学 基于改进注意力机制并结合语义的语音信息识别方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874972B (zh) * 2018-06-08 2021-10-19 合肥工业大学 一种基于深度学习的多轮情感对话方法
CN109241912B (zh) * 2018-09-08 2020-08-07 河南大学 面向无人自主系统的基于类脑跨媒体智能的目标识别方法
CN109388698A (zh) * 2018-10-22 2019-02-26 北京工业大学 一种基于深度强化学习的指导性自动聊天方法
CN110008338B (zh) * 2019-03-04 2021-01-19 华南理工大学 一种融合gan和迁移学习的电商评价情感分析方法
CN110175227B (zh) * 2019-05-10 2021-03-02 神思电子技术股份有限公司 一种基于组队学习和层级推理的对话辅助系统
CN111407269A (zh) * 2020-03-30 2020-07-14 华南理工大学 一种基于增强学习的eeg信号情感识别方法
CN111897933B (zh) * 2020-07-27 2024-02-06 腾讯科技(深圳)有限公司 情感对话生成方法、装置及情感对话模型训练方法、装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110675860A (zh) * 2019-09-24 2020-01-10 山东大学 基于改进注意力机制并结合语义的语音信息识别方法及系统

Also Published As

Publication number Publication date
CN112949684A (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
Zadeh et al. Memory fusion network for multi-view sequential learning
Sebastian et al. Fusion Techniques for Utterance-Level Emotion Recognition Combining Speech and Transcripts.
Majumder et al. Dialoguernn: An attentive rnn for emotion detection in conversations
Ghosal et al. Dialoguegcn: A graph convolutional neural network for emotion recognition in conversation
Wang et al. Contextualized emotion recognition in conversation as sequence tagging
CN112949684B (zh) 一种基于强化学习框架的多模态检测对话情感信息的方法
Chen et al. Multimodal sentiment analysis with word-level fusion and reinforcement learning
Shou et al. Conversational emotion recognition studies based on graph convolutional neural networks and a dependent syntactic analysis
Joshi et al. COGMEN: COntextualized GNN based multimodal emotion recognitioN
Nie et al. Long dialogue emotion detection based on commonsense knowledge graph guidance
Huddar et al. Attention-based multi-modal sentiment analysis and emotion detection in conversation using RNN
CN113987179B (zh) 基于知识增强和回溯损失的对话情绪识别网络模型、构建方法、电子设备及存储介质
Young et al. Dialogue systems with audio context
Shen et al. WISE: Word-Level Interaction-Based Multimodal Fusion for Speech Emotion Recognition.
KR20210070213A (ko) 음성 사용자 인터페이스
Li et al. Enhancing emotion inference in conversations with commonsense knowledge
Gogate et al. A novel brain-inspired compression-based optimised multimodal fusion for emotion recognition
WO2024066920A1 (zh) 虚拟场景的对话方法、装置、电子设备、计算机程序产品及计算机存储介质
Li et al. GA2MIF: graph and attention based two-stage multi-source information fusion for conversational emotion detection
Klaylat et al. Enhancement of an Arabic speech emotion recognition system
CN114676259A (zh) 一种基于因果感知交互网络的对话情绪识别方法
Gong et al. Lanser: Language-model supported speech emotion recognition
Jia et al. A deep learning system for sentiment analysis of service calls
Luo et al. Cross-modal fusion techniques for utterance-level emotion recognition from text and speech
CN115374281B (zh) 基于多粒度融合和图卷积网络的会话情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant