CN112348075B - 一种基于情景注意力神经网络的多模态情感识别方法 - Google Patents

一种基于情景注意力神经网络的多模态情感识别方法 Download PDF

Info

Publication number
CN112348075B
CN112348075B CN202011206336.5A CN202011206336A CN112348075B CN 112348075 B CN112348075 B CN 112348075B CN 202011206336 A CN202011206336 A CN 202011206336A CN 112348075 B CN112348075 B CN 112348075B
Authority
CN
China
Prior art keywords
emotion
features
sentence
feature
modal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011206336.5A
Other languages
English (en)
Other versions
CN112348075A (zh
Inventor
王塔娜
候亚庆
张强
周东生
王鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202011206336.5A priority Critical patent/CN112348075B/zh
Publication of CN112348075A publication Critical patent/CN112348075A/zh
Application granted granted Critical
Publication of CN112348075B publication Critical patent/CN112348075B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于多模态情感计算、深度学习领域,涉及一种基于情景注意力神经网络的多模态情感识别方法。通过本发明方法,针对情感多模态信息进行特征提取和基于注意力机制的特征融合操作,能够有效提取各模态之间的相互作用,然后将得到的特征向量送入神经网络。通过神经网络中嵌入的情景注意力模块来挖掘说话人个人情感依赖特征和全局对话情景特征在空间和通道上的关联性,达到更优的分类效果,更好地针对对话中目标说话人进行情感分析并做出情绪状态判断。

Description

一种基于情景注意力神经网络的多模态情感识别方法
技术领域
本发明属于多模态情感计算、深度学习领域,涉及一种基于情景注意力神经网络的多模态情感识别方法。
背景技术
情感计算最早在1997年由MIT多媒体实验室Picard教授首次提出,旨在通过赋予计算机识别、理解、表达和适应人的情感能力来构建和谐的人机环境,并使计算机具有更加高效全面的智能。作为人工智能的重要分支,情感计算与分析不仅在实现机器智能化方面不可或缺,在舆论舆情监控、临床心理动态检测以及人机交互等领域更是十分重要。此外,随着移动设备的普及和互联网平台的不断发展,语音信号、文本文字、视频图像等多模态信息变得来越来越容易获取和处理。这为提升人机交互体验感提供了更加开阔的思路和更加便捷的技术手段。
近些年,深度学习在语音处理、图像分类和其他机器学习相关领域表现优异,这其中就包括人类的情感识别和认知理解,很多工作都是在卷积神经网络 (CNN)、循环神经网络(RNN)等及其变种模型上进行,取得了一定的进步。最初的研究多是通过表情或文字等单模态来识别目标人物的情感状态,而多模态之间相互的信息补给会对情感分析更有所助益。此外,相关心理学研究表明对话参与者的情感状态会受到情景情感状态的转变和影响,对话中存在情感传染现象,即相互作用的会话者有能力影响彼此的情感状态和行为。因此,有效提取各模态之间的依赖关系和捕捉对话中说话人的情感变化特征对于说话人情感识别至关重要。
由于不同模态是从不同的信道传达信息,因此有效的多模式融合模型在挖掘情感互补信息方面起着关键作用。不同阶段的融合是目前多模式情感特征融合的常规策略,例如决策级融合,特征级融合和模型融合。决策级融合是对每个模态进行试探性推断,然后将它们融合再进行最终预测,这很容易忽略每个模态之间的交互作用;而特征融合方法是将连接的特征直接输入到分类器中,或者使用浅层融合模型,这较难捕捉到模态间的动态关系。模型级融合方法结合了以上两种方法并加以利用,性能较好,但比较复杂。近年来,注意力机制由于其在时间融合模型中良好的性能而被广泛提及,该机制可以动态地关注时间上的相关形态特征。而对于捕捉对话中说话人情感变化特征的问题,目前多用循环神经网络或其变种模型来处理和预测时间序列中情感特征相互作用。
发明内容
基于上述对话中情感动态特征提取的难点,本发明提出了一种基于情景注意力神经网络的多模态情感识别方法。通过本发明方法,首先针对常见的情感多模态信息进行特征提取和基于注意力机制的特征融合操作,能够有效提取各模态之间的相互作用,然后将得到的特征向量送入神经网络。通过神经网络中嵌入的情景注意力模块来挖掘个人情感依赖特征和全局对话情景特征分别在空间和通道中的关联性,从而达到更好的分类效果,针对对话中目标说话人的情感进行分析并做出情绪状态判断。
为了达到上述目的,本发明采用的技术方案如下:
一种基于情景注意力神经网络的多模态情感识别方法,具体步骤如下:
S1:将视频中的对话部分划分为t条的语句U=[u1,u2,…,ut],选取对话中所有说话人的多模态数据,多模态数据包括语音、文本和图像数据。
S2:针对步骤S1划分好的每条语句,在多模态数据中的各个单模态上分别进行特征提取,得到每条语句上的各模态的高维特征向量,即语音特征向量、文本特征向量、图像特征向量,具体特征提取方法如下:
语音特征提取:首先,对视频中所含的语音文件进行分割处理,形成.wav 序列文件;为了识别有语音和无语音样本,采用z标准化技术进行语音归一化;使用openSMILE工具箱提取语音特征,包括响度、频率、Mel倒谱系数、过零率等以及其统计量,统计量包括均值、平方根、二次均值等,计算得到第i条语句的语音特征
Figure RE-GDA0002822250650000031
openSMILE是一个高度封装的语音特征提取工具,不仅可以提取基础的语音特征,而且还可以提取重要的情感特征参数。
文本特征提取:使用CNN进行文本特征提取,将要提取特征的文本输入到神经网络中,全连接层的输出作为第i条语句的文本模态特征
Figure RE-GDA0002822250650000032
图像特征提取:使用3D-CNN进行视频中图像特征提取,将要提取特征的视频输入到神经网络中,计算得到第i条语句的图像特征
Figure RE-GDA0002822250650000033
3D-CNN不仅可以学习每一帧的相关特征,还可以学习给定连续帧数之间的变化。
S3:将步骤S2中提取到的三类单模态特征进行融合。由于每一种模态都对于情绪分类都有模态独有的特征,为了选取重要的模态信息进行优先排序,引入基于注意力机制的融合网络,将音频、文本和图像模态作为输入,并为每个模态输出一个注意分数,进而保留各模态中的重要信息。针对各个模态,引入注意力机制,将步骤S2中获得的各模态特征,进行特征融合并得到融合后的特征F。
设X=[Xa,Xt,Xv]为尺寸为d的维度均衡后的特征集,其中Xa为声学特征,Xt文本特征,Xv为视觉特征,且
Figure RE-GDA0002822250650000034
注意力权重系数αfuse和融合之后的多模态特征向量F的计算如下:
PF=tanh(WF·X)
Figure RE-GDA0002822250650000035
Figure RE-GDA0002822250650000041
其中,PF是X的隐藏单元状态,权重矩阵
Figure RE-GDA0002822250650000042
注意力权重系数
Figure RE-GDA0002822250650000043
S4:提取说话人的个人情感依赖关系和全局对话情景特征。
S4.1:对于说话人的个人情感依赖关系特征的提取,为每位说话人都设置门控循环单元
Figure RE-GDA0002822250650000044
其中λ∈{1,2,…,n},用于捕捉说话人λ对历史情感状态的依赖关系,并将步骤S3中融合后的多模态特征向量F送入门控循环单元,并输出目标说话人λ的待检测目标语句t的多模态特征hλ,t和个人情感依赖关系特征矩阵Hp
对于说话人λ的某一语句t的历史情感状态更新公式如下:
rt=σ(Wr·[hλ,t-1,xt]+br)
zt=σ(Wz·[hλ,t-1,xt]+bz)
Figure RE-GDA0002822250650000045
Figure RE-GDA0002822250650000046
其中,xt是第t个句子的特征表示,σ表示sigmoid激活函数,W*为权重矩阵,b*为偏置量,rt为重置门状态输出,zt为更新门状态输出,
Figure RE-GDA0002822250650000047
是句子t的候选隐藏状态,hλ,t为目标语句t的隐藏层状态,在此基础上,可以得到个人情感依赖关系特征矩阵Hp=[h1,1,h1,2,…,h1,t-1,…,hn,t-1]。
S4.2:对于全局对话全局特征的提取,将视频中T条语句序列逐次输入到双向GRU网络中提取全局对话的特征信息,得到的全局对话特征HG,正向隐藏状态
Figure RE-GDA0002822250650000048
和反向隐藏状态
Figure RE-GDA0002822250650000049
的具体计算公式如下:
Figure RE-GDA00028222506500000410
Figure RE-GDA00028222506500000411
其中,Ut表示第t条语句,经过双向GRU网络得到对话全局特征
Figure RE-GDA0002822250650000051
Figure RE-GDA0002822250650000052
S5:在对话中说话人的情感状态不仅受个人情感历史的影响还会受到当前情景环境的影响。在基于情景注意力机制的多模态情感识别模型中,将目标语句的多模态特征hλ,t、目标说话人的个人情感依赖关系特征Hp一起组成个人特征向量组,与对话全局特征HG一起送入到情感特征检测网络中进行计算。所述的基于情景注意力机制的多模态情感识别模型如下:
Figure RE-GDA0002822250650000053
Figure RE-GDA0002822250650000054
Figure RE-GDA0002822250650000055
其中,e(·)为分类评分计算公式,αt为注意力权重系数,hc为基于情景注意力机制的多模态情感识别模型的隐藏层状态;权重向量
Figure RE-GDA0002822250650000056
权重矩阵
Figure RE-GDA0002822250650000057
偏差向量
Figure RE-GDA0002822250650000058
最终输出隐藏层状态hc用于情感分类。定义的评分计算公式e(·)根据个人情感依赖关系特征Hp和对话全局特征HG,迭代遍历对话的隐含状态hλ,t。利用获得的注意力权重系数αt,对目标语句的多模态特征hλ,t进行加权池化,不断地修正目标语句的情感表示hc
S6:使用softmax分类器对目标语句进行情感分类并得到各类情感的识别率。使用分类交叉熵损失函数作为训练的代价度量,最终结果输出目标语句的情感分类矩阵,从而能够判断每个句子说话人所处的情感状态。
softmax分类器的分类计算以及训练过程中的损失函数Loss计算表达式如下:
y=softmax(Wo·hc+bo)
Figure RE-GDA0002822250650000061
Figure RE-GDA0002822250650000062
其中,y是所有真实的情感标签,Wo是权重矩阵,bo为偏差项,
Figure RE-GDA0002822250650000063
为预测概率,c为情感类数,N表示样本数量,yi,j表示第i句话是第j类情感的真实标签,
Figure RE-GDA0002822250650000064
表示第i句话是第j类情感的预测概率。
本发明的有益效果:本发明提出了一种基于情景注意力神经网络的多模态情感识别方法,该方法中多模态特征融合网络基于注意力机制构建,能够有效地进行对话环境中多模态特征融合并提取到各模态之间的相互作用;分类网络通过神经网络中嵌入的情景注意力模块来挖掘说话人个人情感依赖特征和全局对话情景特征在空间和通道上的关联性,达到更优的分类效果,更好地针对对话中目标说话人进行情感分析并做出情绪状态判断。
附图说明
图1为本发明的框架流程图。
图2为个人与全局情感特征提取与融合网络结构图。
图3为情景注意力机制驱动的情感分类网络结构图。
具体实施方式
以下结合附图和技术方案,进一步说明本发明的具体实施方式。
本发明可用于基于多模态信息的说话人情感识别任务,本发明的流程如图1 所示,所采用网络结构如图2和图3所示。本实施例应用到了视频中说话人所处情感分类任务,下面主要针对视频中说话人情感识别问题对本发明的实施方式进行详细说明,具体包括以下步骤(以两人对话为例,可扩展至多人):
(1)进行单模态特征提取,即语音特征、文本特征和图像特征。
对于语音数据,预处理过程包括:通过openSMILE软件包,将每一个语音文件转换成数字化表示。在本实施例中,以30Hz帧速率和100ms的滑动窗口来提取音频特征;为了识别语音样本,使用z标准化技术对语音样本进行归一化处理,并对语音强度进行阈值处理。openSMILE提取的特征由若干低阶统计量 (LLD)组成,如响度、频率,Mel倒谱系数,过零率等以及它们的统计量(如均值、平方根、二次均值)等,特别地使用IS13_ComParE特征集,该特征集是2013年ComParE,Computational Paralinguistics ChallengE挑战赛所用特征集,能够为每条语句提供一共6373维特征,130维的LLD。使输入矩阵符合卷积神经网络模型的输入要求;所述卷积神经网络模型依次包括二维卷积层、第二Dropout层、第一池化层以及第二全连接层,二维卷积层用于提取语音特征,第二Dropout 层用于避免所述卷积神经网络模型产生过拟合,池化层对输入的特征图进行压缩;简化计算复杂度,提取主要特征,第二全连接层100维的向量作为语音的特征向量。
对于文本数据,预处理过程包括:通过训练词向量,将文本数据转化为向量,即将每一条文本中的词转换成词向量的表示,将视频i中的每个话语表示为组成单词向量的连接,最后被表示为一个维度为[50,300]的词向量矩阵,将其作为CNN的输入层;其中CNN有2个卷积层,第一个卷积层有2个大小分别为 3、4的卷积核,每个卷积核有50个特征图,第二个卷积层有1个大小为2的卷积核,该卷积核有100个特征图;卷积层之间是窗口大小为2*2的最大池化层;最后是大小为100维的全连接层,并使用非线性整流单元ReLU作为激活函数,将全连接层的激活值作为话语的文本特征表示。
对于视频数据,预处理过程包括:获取到每一段视频的总帧数并采样,用这若干帧图像作为整个视频的数据表示,使其符合3D-CNN的输入要求; 3D-CNN即三维神经网络模型,相比二维卷积神经网络多了一个时间维度,这样提取到的情感特征含有更多的时序信息。在本实施例中,对每段视频平均取十帧,作为整段视频的表示。模型依次包括三维卷积层、第三Dropout层、第二池化层以及第三全连接层,三维卷积层用于提取视频特征,同时在时间和空间上进行卷积操作,首先将整段视频的表示作为3D-CNN的输入层;使用三维卷积滤波器,与2D-CNN类似,该滤波器可以在视频中滑动并生成输出,滤波器大小为5*5*5;对卷积层输出使用窗口大小为3*3*3的最大池化层,最后是大小为300维的全连接层,使用线性整流单元ReLU作为激活函数,将全连接层的激活值作为视频i中每个话语的图像特征表示。
(2)将得到每条语句上的各模态的高维特征向量,即语音特征向量、文本特征向量、图像特征向量,选取重要的模态信息进行优先排序,将语音、文本和图像模态作为输入,送入注意力机制的融合网络,为每个模态输出一个注意力分数,全连接层大小为300维,最终输出融合后的特征向量,该向量将作为后续上下文网络的输入。
(3)将步骤(2)中融合后的特征向量送入GRU网络,提取说话人个人情感依赖关系特征,这种方法的优点是充分利用了GRU处理时间序列数据的优势,使我们最后提取到的说话人情感特征含有丰富的语义特征和时序特征。对于说话人个人情感依赖关系特征的提取,为每位说话人都设置门控循环单元
Figure RE-GDA0002822250650000081
其中λ∈{1,2},用于捕捉说话人λ对历史情感状态的依赖关系,并将步骤S3中融合后的特征向量F送入门控循环单元,并输出目标说话人λ的待检测目标语句t的多模态特征hλ,t和个人情感依赖关系特征矩阵Hp
对于说话人λ,对某一语句t的历史情感状态更新公式如下:
rt=σ(Wr·[hλ,t-1,xt]+br)
zt=σ(Wz·[hλ,t-1,xt]+bz)
Figure RE-GDA0002822250650000091
Figure RE-GDA0002822250650000092
其中,xt是第t个句子的特征表示,σ表示sigmoid激活函数,W*为权重矩阵,b*为偏置量,rt为重置门状态输出,zt为更新门状态输出,
Figure RE-GDA0002822250650000093
是句子t的候选隐藏状态,hλ,t为话语t的隐藏层状态,在此基础上,可以得到个人情感依赖关系特征矩阵Hp=[h1,1,h1,2,…,h1,t-1,h2,1,h2,2,…,h2,t-1]。
(4)使用双向GRU网络针对整段对话中的每一帧提取全局对话情景特征,得到的全局对话特征HG。将视频中T条语句序列逐次输入到双向GRU网络中提取全局对话的特征信息,其中正向隐藏状态
Figure RE-GDA0002822250650000094
和反向隐藏状态
Figure RE-GDA0002822250650000095
的具体计算公式如下:
Figure RE-GDA0002822250650000096
Figure RE-GDA0002822250650000097
其中,Ut表示第t条语句,经过双向GRU网络得到全局对话特征
Figure RE-GDA0002822250650000098
Figure RE-GDA0002822250650000099
(5)将目标语句的多模态特征hλ,t、目标说话人的个人情感依赖关系特征 Hp一起组成个人特征向量组,与对话全局特征HG一起送入到基于情景注意力机制的多模态情感特征检测网络中进行计算,设置分类评分计算公式e(·),根据个人情感依赖关系特征Hp和对话全局特征HG,迭代遍历对话的隐含状态hλ,t。利用获得的注意力权重系数αt,对目标语句的多模态特征hλ,t进行加权池化,不断地修正目标语句的情感表示hc
具体计算如下:
Figure RE-GDA0002822250650000101
Figure RE-GDA0002822250650000102
Figure RE-GDA0002822250650000103
其中,权重向量
Figure RE-GDA0002822250650000104
权重矩阵
Figure RE-GDA0002822250650000105
偏差向量
Figure RE-GDA0002822250650000106
最终输出隐藏层状态hc用于情感分类。
(6)使用softmax分类器对目标语句进行情感分类并得到各类情感的识别率。使用分类交叉熵损失函数作为训练的代价度量,最终结果输出目标语句的情感分类矩阵,从而能够判断每个句子说话人所处的情感状态。
softmax分类器的分类计算以及训练过程中的损失函数Loss计算表达式如下:
y=softmax(Wo·hc+bo)
Figure RE-GDA0002822250650000107
Figure RE-GDA0002822250650000108
其中,y是所有真实的情感标签,Wo是权重矩阵,bo为偏差项,
Figure RE-GDA0002822250650000109
为预测概率,c为情感类数,N表示样本数量,yi,j表示第i句话是第j类情感的真实标签,
Figure RE-GDA00028222506500001010
表示第i句话是第j类情感的预测概率。
本发明使用Adam优化器来优化训练网络学习参数,使用Dropout来防止过拟合,初始学习率设置为0.001,使用十折交叉验证方法,即把数据集分成十份,轮流将其中8份作为训练数据,1份作为测试数据,1份作为验证数据。本发明在Interactive Emotional DyadicMotion Capture(IEMOCAP)开源数据集上基于单模态、双模态以及多模态的实验结果如下:
表1本发明所提发方法在各个模态上的实验结果对比
Figure RE-GDA0002822250650000111
表中A表示语音模态,T表示文本模态,V表示视频模态,T+V表示文本和视频模态融合,A+V表示语音和视频模态融合,T+A表示文本和语音模态融合,A+T+V表示语音、文本、视频三种模态融合。由表1中实验数据显示,相比于单模态,多模态的融合有了很大的提升,表明本发明提出的融合方法的有效性。
表2本发明所提发方法在IEMOCAP数据集上与目前主流模型的实验对比结果
Figure RE-GDA0002822250650000112
上表中展示了本发明的模型在IEMOCAP数据集上与基础方法(LSTM和RNN)的实验对比,acc表示准确率,F1表示F1分数值。其中,bc-LSTM是一种竞争性的上下文相关模型,用于语句级情绪识别。在bc-LSTM中,目标话语的分类取决于与其相邻的话语,DialogueRNN跟踪每个参与者的情绪状态,并使用全局GRU单元对他们的互动进行建模。由表2中实验数据显示,相比于基础模型,表明本发明提出的基于情景注意力神经网络方法的有效性。

Claims (1)

1.一种基于情景注意力神经网络的多模态情感识别方法,其特征在于,具体步骤如下:
S1:将视频中的对话部分划分为t条的语句U=[u1,u2,…,ut],选取对话中所有说话人的多模态数据,多模态数据包括语音、文本和图像数据;
S2:针对步骤S1划分好的每条语句,在多模态数据中的各个单模态上分别进行特征提取,得到每条语句上的各模态的高维特征向量,即语音特征向量、文本特征向量、图像特征向量,具体特征提取方法如下:
语音特征提取:首先,对视频中所含的语音文件进行分割处理,形成.wav序列文件;为了识别有语音和无语音样本,采用z标准化技术进行语音归一化;使用openSMILE工具箱提取语音特征,包括响度、频率、Mel倒谱系数、过零率等以及其统计量,统计量包括均值、平方根、二次均值,计算得到第i条语句的语音特征
Figure RE-FDA0002822250640000011
文本特征提取:使用CNN进行文本特征提取,将要提取特征的文本输入到神经网络中,全连接层的输出作为第i条语句的文本模态特征
Figure RE-FDA0002822250640000012
图像特征提取:使用3D-CNN进行视频中图像特征提取,将要提取特征的视频输入到神经网络中,计算得到第i条语句的图像特征
Figure RE-FDA0002822250640000013
S3:将步骤S2中提取到的三类单模态特征进行融合;引入基于注意力机制的融合网络,将音频、文本和图像模态作为输入,并为每个模态输出一个注意分数,进而保留各模态中的重要信息;将步骤S2中获得的各模态特征,进行特征融合并得到融合后的特征F;
设X=[Xa,Xt,Xv]为尺寸为d的维度均衡后的特征集,其中Xa为声学特征,Xt文本特征,Xv为视觉特征,且
Figure RE-FDA0002822250640000014
注意力权重系数αfuse和融合之后的多模态特征向量F的计算如下:
PF=tanh(WF·X)
Figure RE-FDA0002822250640000021
Figure RE-FDA0002822250640000022
其中,PF是X的隐藏单元状态,权重矩阵
Figure RE-FDA0002822250640000023
注意力权重系数
Figure RE-FDA0002822250640000024
S4:提取说话人的个人情感依赖关系和全局对话情景特征;
S4.1:对于说话人的个人情感依赖关系特征的提取,为每位说话人都设置门控循环单元
Figure RE-FDA0002822250640000025
其中λ∈{1,2,…,n},用于捕捉说话人λ对历史情感状态的依赖关系,并将步骤S3中融合后的多模态特征向量F送入门控循环单元,并输出目标说话人λ的待检测目标语句t的多模态特征hλ,t和个人情感依赖关系特征矩阵Hp
对于说话人λ的某一语句t的历史情感状态更新公式如下:
rt=σ(Wr·[hλ,t-1,xt]+br)
zt=σ(Wz·[hλ,t-1,xt]+bz)
Figure RE-FDA0002822250640000026
Figure RE-FDA0002822250640000027
其中,xt是第t个句子的特征表示,σ表示sigmoid激活函数,W*为权重矩阵,b*为偏置量,rt为重置门状态输出,zt为更新门状态输出,
Figure RE-FDA0002822250640000028
是句子t的候选隐藏状态,hλ,t为目标语句t的隐藏层状态;得到个人情感依赖关系特征矩阵Hp=[h1,1,h1,2,…,h1,t-1,…,hn,t-1];
S4.2:对于全局对话全局特征的提取,将视频中T条语句序列逐次输入到双向GRU网络中提取全局对话的特征信息,得到的全局对话特征HG,正向隐藏状态
Figure RE-FDA0002822250640000029
和反向隐藏状态
Figure RE-FDA00028222506400000210
的具体公式如下:
Figure RE-FDA0002822250640000031
Figure RE-FDA0002822250640000032
其中,Ut表示第t条语句,经过双向GRU网络得到对话全局特征
Figure RE-FDA0002822250640000033
Figure RE-FDA0002822250640000034
S5:在基于情景注意力机制的多模态情感识别模型中,将目标语句的多模态特征hλ,t、目标说话人的个人情感依赖关系特征Hp一起组成个人特征向量组,与对话全局特征HG一起送入到情感特征检测网络中进行计算;所述的基于情景注意力机制的多模态情感识别模型如下:
Figure RE-FDA0002822250640000035
Figure RE-FDA0002822250640000036
Figure RE-FDA0002822250640000037
其中,e(·)为分类评分计算公式,αt为注意力权重系数,hc为基于情景注意力机制的多模态情感识别模型的隐藏层状态;权重向量
Figure RE-FDA0002822250640000038
权重矩阵Wc,Wp,
Figure RE-FDA0002822250640000039
偏差向量
Figure RE-FDA00028222506400000310
最终输出隐藏层状态hc用于情感分类;定义的评分计算公式e(·)根据个人情感依赖关系特征Hp和对话全局特征HG,迭代遍历对话的隐含状态hλ,t;利用获得的注意力权重系数αt,对目标语句的多模态特征hλ,t进行加权池化,不断地修正目标语句的情感表示hc
S6:使用softmax分类器对目标语句进行情感分类并得到各类情感的识别率;使用分类交叉熵损失函数作为训练的代价度量,最终结果输出目标语句的情感分类矩阵,从而能够判断每个句子说话人所处的情感状态;
softmax分类器的分类计算以及训练过程中的损失函数Loss计算表达式如下:
y=softmax(Wo·hc+bo)
Figure RE-FDA0002822250640000041
Figure RE-FDA0002822250640000042
其中,y是所有真实的情感标签,Wo是权重矩阵,bo为偏差项,
Figure RE-FDA0002822250640000043
为预测概率,c为情感类数,N表示样本数量,yi,j表示第i句话是第j类情感的真实标签,
Figure RE-FDA0002822250640000044
表示第i句话是第j类情感的预测概率。
CN202011206336.5A 2020-11-02 2020-11-02 一种基于情景注意力神经网络的多模态情感识别方法 Active CN112348075B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011206336.5A CN112348075B (zh) 2020-11-02 2020-11-02 一种基于情景注意力神经网络的多模态情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011206336.5A CN112348075B (zh) 2020-11-02 2020-11-02 一种基于情景注意力神经网络的多模态情感识别方法

Publications (2)

Publication Number Publication Date
CN112348075A CN112348075A (zh) 2021-02-09
CN112348075B true CN112348075B (zh) 2022-09-20

Family

ID=74355917

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011206336.5A Active CN112348075B (zh) 2020-11-02 2020-11-02 一种基于情景注意力神经网络的多模态情感识别方法

Country Status (1)

Country Link
CN (1) CN112348075B (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112579745B (zh) * 2021-02-22 2021-06-08 中国科学院自动化研究所 基于图神经网络的对话情感纠错系统
CN113095357A (zh) * 2021-03-04 2021-07-09 山东大学 基于注意力机制与gmn的多模态情感识别方法及系统
CN113180666A (zh) * 2021-04-29 2021-07-30 扬州大学 基于双模态Attention-GRU的抑郁症分析模型
CN113139525B (zh) * 2021-05-21 2022-03-01 国家康复辅具研究中心 一种基于多源信息融合的情感识别方法和人机交互系统
CN113257280A (zh) * 2021-06-07 2021-08-13 苏州大学 基于wav2vec的语音情感识别方法
CN113392781A (zh) * 2021-06-18 2021-09-14 山东浪潮科学研究院有限公司 一种基于图神经网络的视频情感语义分析方法
CN113297383B (zh) * 2021-06-22 2023-08-04 苏州大学 基于知识蒸馏的语音情感分类方法
CN113435496B (zh) * 2021-06-24 2022-09-02 湖南大学 一种基于注意力机制的自适应融合的多模态情感分类方法
CN113609289A (zh) * 2021-07-06 2021-11-05 河南工业大学 一种基于多模态对话文本的情感识别方法
CN113469260B (zh) * 2021-07-12 2022-10-04 天津理工大学 一种基于卷积神经网络、注意力机制及自注意力变换器的视觉描述方法
WO2023004528A1 (zh) * 2021-07-26 2023-02-02 深圳市检验检疫科学研究院 一种基于分布式系统的并行化命名实体识别方法及装置
CN113657380B (zh) * 2021-08-17 2023-08-18 福州大学 融合多模态注意力机制的图像美学质量评价方法
CN113889149B (zh) * 2021-10-15 2023-08-29 北京工业大学 语音情感识别方法及装置
CN113723112B (zh) * 2021-11-02 2022-02-22 天津海翼科技有限公司 多模态情感分析预测方法、装置、设备及存储介质
CN113988201B (zh) * 2021-11-03 2024-04-26 哈尔滨工程大学 一种基于神经网络的多模态情感分类方法
CN116090474A (zh) * 2021-11-03 2023-05-09 中兴通讯股份有限公司 对话情绪分析方法、装置和计算机可读存储介质
CN114357414B (zh) * 2021-12-07 2024-04-02 华南理工大学 一种基于跨梯度训练的情感说话人认证方法
CN114386515B (zh) * 2022-01-13 2024-02-20 合肥工业大学 基于Transformer算法的单模态标签生成和多模态情感判别方法
CN114548067B (zh) * 2022-01-14 2023-04-18 哈尔滨工业大学(深圳) 一种基于模板的多模态命名实体识别方法及相关设备
CN114550313A (zh) * 2022-02-18 2022-05-27 北京百度网讯科技有限公司 图像处理方法、神经网络及其训练方法、设备和介质
CN114724222B (zh) * 2022-04-14 2024-04-19 康旭科技有限公司 一种基于多模态的ai数字人情感分析方法
CN115017900B (zh) * 2022-04-24 2024-05-10 北京理工大学 一种基于多模态多去偏见的对话情感识别方法
CN115329779B (zh) * 2022-08-10 2023-10-13 天津大学 一种多人对话情感识别方法
CN116049743B (zh) * 2022-12-14 2023-10-31 深圳市仰和技术有限公司 基于多模态数据的认知识别方法、计算机设备和存储介质
CN115690553B (zh) * 2023-01-03 2023-04-11 华南理工大学 一种基于多模态对话内容联合建模的情感分析方法及系统
CN116089906B (zh) * 2023-03-13 2023-06-16 山东大学 基于动态上下文表示和模态融合的多模态分类方法及系统
CN116415137B (zh) * 2023-06-08 2023-10-10 讯飞医疗科技股份有限公司 基于多模态特征的情绪定量方法、装置、设备及存储介质
CN117153195B (zh) * 2023-10-31 2024-03-12 中国传媒大学 基于自适应区域遮挡的说话人脸视频生成方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614895A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于attention特征融合的多模态情感识别的方法
CN111144448A (zh) * 2019-12-09 2020-05-12 江南大学 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法
CN111275085B (zh) * 2020-01-15 2022-09-13 重庆邮电大学 基于注意力融合的在线短视频多模态情感识别方法
CN111522956A (zh) * 2020-05-08 2020-08-11 河南理工大学 基于双通道和层次化注意力网络的文本情感分类方法

Also Published As

Publication number Publication date
CN112348075A (zh) 2021-02-09

Similar Documents

Publication Publication Date Title
CN112348075B (zh) 一种基于情景注意力神经网络的多模态情感识别方法
CN110188343B (zh) 基于融合注意力网络的多模态情感识别方法
Wang et al. Human emotion recognition by optimally fusing facial expression and speech feature
CN108597541B (zh) 一种增强愤怒与开心识别的语音情感识别方法及系统
CN108805087B (zh) 基于多模态情绪识别系统的时序语义融合关联判断子系统
CN108717856B (zh) 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
CN108805089B (zh) 基于多模态的情绪识别方法
CN108899050B (zh) 基于多模态情绪识别系统的语音信号分析子系统
CN108877801B (zh) 基于多模态情绪识别系统的多轮对话语义理解子系统
CN108805088B (zh) 基于多模态情绪识别系统的生理信号分析子系统
Bejani et al. Audiovisual emotion recognition using ANOVA feature selection method and multi-classifier neural networks
CN113420807A (zh) 基于多任务学习与注意力机制的多模态融合情感识别系统、方法及实验评价方法
CN111583964B (zh) 一种基于多模深度特征学习的自然语音情感识别方法
CN115329779B (zh) 一种多人对话情感识别方法
CN112699774A (zh) 视频中人物的情绪识别方法及装置、计算机设备及介质
CN115631267A (zh) 生成动画的方法及装置
Latif et al. Multitask learning from augmented auxiliary data for improving speech emotion recognition
Zhang et al. Multi-modal emotion recognition based on deep learning in speech, video and text
CN114898779A (zh) 融合多模态的语音情感识别方法及系统
Atkar et al. Speech Emotion Recognition using Dialogue Emotion Decoder and CNN Classifier
Dweik et al. Read my lips: Artificial intelligence word-level arabic lipreading system
Lee Deep structured learning: architectures and applications
Zaferani et al. Automatic personality traits perception using asymmetric auto-encoder
Akinpelu et al. Lightweight Deep Learning Framework for Speech Emotion Recognition
Kilimci et al. Evaluating raw waveforms with deep learning frameworks for speech emotion recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant