CN113592001A - 一种基于深度典型相关性分析的多模态情感识别方法 - Google Patents
一种基于深度典型相关性分析的多模态情感识别方法 Download PDFInfo
- Publication number
- CN113592001A CN113592001A CN202110888040.4A CN202110888040A CN113592001A CN 113592001 A CN113592001 A CN 113592001A CN 202110888040 A CN202110888040 A CN 202110888040A CN 113592001 A CN113592001 A CN 113592001A
- Authority
- CN
- China
- Prior art keywords
- layer
- information
- loss
- neural network
- modal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 31
- 238000010219 correlation analysis Methods 0.000 title claims abstract description 26
- 238000013528 artificial neural network Methods 0.000 claims abstract description 50
- 230000000306 recurrent effect Effects 0.000 claims abstract description 38
- 230000006870 function Effects 0.000 claims description 23
- 230000008451 emotion Effects 0.000 claims description 22
- 230000002902 bimodal effect Effects 0.000 claims description 21
- 238000004458 analytical method Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 17
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 230000004927 fusion Effects 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 8
- 125000004122 cyclic group Chemical group 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 description 8
- 238000012544 monitoring process Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 206010003805 Autism Diseases 0.000 description 1
- 208000020706 Autistic disease Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012847 principal component analysis method Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种或基于深度典型相关性分析的多模态情感识别方法,针对多模态情感识别方法需要同时提取单模态特征和跨模态特征的特点,通过循环神经网络和典型相关性分析相结合,设计了新的模型、损失函数和网络结构,同时对单模态特征和跨模态特征进行提取、融合和分析,最后在分类阶段采用K聚类方法,提升识别效率和精度。
Description
技术领域
本发明属于用户情感倾向分析技术领域,特别涉及一种基于深度典型相关性分析的多模态情感识别方法。
背景技术
用户多模态情感倾向分析是近年来十分热门的一个研究领域,具有广泛的发展潜力和应用前景,例如:自动驾驶系统司机疲劳驾驶监测,机场对于人群中危险分子安全保障监控,医疗领域的自闭症陪护和监测,智能家居领域中独居老人小孩的陪护、报警和监测等。现有多模态情感分析技术中,用于分析的模态根据不同的研究方向而多种多样,其中主要有以下四种:视觉信号,声音信号,文字信息和脑电信号。其中,脑电信号具有相对最高的准确率,但必须配套相应的专用信号采集传感器设备,因此在日常生活领域难以方便地大范围普及。因此,视觉、声音和文字是最常见的多模态用户情感分析研究的输入模态。使用这三种模态的现有相关技术中,对于这三种模态的特征提取方法主要分为两种,一种为单模态内部有效特征提取,即各个模态信息分别提取,不考虑模态信息之间的相关性;另一种将三模态信息作为一个整体,按一定顺序分析单个特征对整体信息的有效性,即一次只计算有一类特征对于情感识别的有效性。前一种技术在单模态信息下具有很好的识别率,但在多模态信息混合后并不能保持这样的准确度,后一种方法虽然将多模态信息作为一个整体进行分析,但每次只计算一种特征有效性的做法显然计算速度慢且忽略了特征之间的相关性。
循环神经网络是近年来人工智能机器学习领域中非常热门的研究方向,非常适合于处理具有顺序特征的高维复杂信号,例如具有时序标的的声音信号、文字信号等,具有计算速度较快,收敛效果好和设计简洁等优点,因此在多模态情感分析领域得到了广泛的应用。典型相关分析具有非常广泛的用途,在实际分析问题中,当面临两组多变量数据,并希望研究两组变量之间的关系时,就要用到典型相关分析。典型相关性分析是利用综合变量对之间的相关关系来反映两组指标之间的整体相关性的多元统计分析方法。通过典型相关分析和深度循环神经网络的结合,就可以在提取与情感有关的特征时,更多地关注到模态之间的相互关系,从而提取到更多的跨模态特征。
林敏鸿,蒙祖强(《基于注意力神经网络的多模态情感分析》.计算机科学,2020,47(S2):508-514+548.)为了解决多模态情感分类任务中的信息冗余的问题, 提出了一种基于注意力神经网络的多模态情感分析方法。该方法构造了基于注意力神经网络的文本特征提取模型和图像特征提取模型,突出了图像情感信息关键区域和包含情感信息的单词,将各模态的张量积作为多模态数据的联合特征表达,采用主成分分析法剔除联合特征的冗余信息,进而使用支持向量机获取多模态数据的情感类别。该算法在公共数据集上取得了很好识别准确率,并大大提升了训练速度。但该多模态情感识别方法在多模态特征提取上侧重单模态内部的有效特征提取,忽略了跨模态特征的相互关系。
发明内容
本发明解决的技术问题是:现有的多模态情感识别方法在选取与情感有关的特征时,大多侧重于单模态内部的有效特征选择,忽略了跨模态特征的选择,不符合多模态情感识别问题的需要和实际应用情况。本发明针对多模态情感识别方法需要同时提取单模态特征和跨模态特征的特点,通过循环神经网络和典型相关性分析相结合,设计了新的模型、损失函数和网络结构,同时对单模态特征和跨模态特征进行提取、融合和分析,最后在分类阶段采用K聚类方法,提升识别效率和精度。
本发明的技术方案是:一种基于深度典型相关性分析的多模态情感识别方法,包括以下步骤:
步骤1:构建基于循环神经网络的算法模型并对该模型进行训练,包括以下子步骤:
步骤1.1:建立循环神经网络的算法模型,且该模型的输入信息为:
M=[V,T,A]
M为当前待识别信息,V为图像信息,T为文字信息,A为语音信息。
步骤1.2:对模型进行训练:
HVT=FVT(V,T,WVT)
HAT=FAT(A,T,WAT)
Classification=F(V,T,A,WVTA)
其中F为依照图1构建基于循环神经网络的强化学习算法模型,WVT,WAT和WVTA分别为模型中涉及到的参数变量,HVT为图像与文字双模态融合信息经过全连接层线性变换后的二维综合变量,HAT为语音与文字双模态融合信息经过全连接层线性变换后的二维综合变量,Classification为模型的输出结果;
步骤1.3:计算损失函数:
loss=lossCCA+lossclass
通过反向传播损失函数loss,完成对模型的训练
步骤2:采用数据集中未被训练过的数据作为测试实例,使用基于循环神经网络和相关典型性分析的多模态情感识别模型进行识别,得到最后的分类结果,包括以下子步骤:
步骤2.1:通过基于循环神经网络和相关典型性分析的多模态情感识别模型进行输出结果计算;
步骤2.2:计算输出结果与六种基本情感类型各自的聚类中心的欧氏距离大小,距离最近的聚类中心所代表的情感类型作为最终的识别结果。
本发明进一步的技术方案是:所述步骤1.1中,循环神经网络的算法模型共12 层,其中,1层输出层,1层输入层,10层为隐含层,包括2层循环神经网络层,1 层归一化层,1层激活层,1层注意力层和5层全连接层。
本发明进一步的技术方案是:所述循环神经网络的算法模型输入为当前对话采样段内的图像、文字和语音三模态信息,首先分别进行单模态的特征处理。图像特征处理层、文字特征处理层和语音特征处理层均各自包含一层归一化层和一层循环神经网络层,之后文字与语音,文字与图像分别通过一层注意力层进行双模态信息的融合。两组双模态信息分别通过相互独立的三层全连接层进行线性变换,输出维度均为2,之后再分别通过两层全连接层重构两组融合的双模态信息,输出维度与第一层注意力层相同。两组信息通过一层循环神经网络层和一层激活层进行特征融合,最后经过一层全连阶层输出。输出结果采用K聚类方法进行分类,以数据的真实标签数据作为K 聚类的聚类中心点,计算输出值与聚类中心点的欧氏距离,以距离最小的聚类中心点作为分类识别结果。
本发明进一步的技术方案是:所述步骤1.3中,损失函数包含两个部分:
一部分为对综合变量HVT和HAT进行典型相关性分析,
corr=arg max CCA(HVT,HAT)
lossCCA=-corr
其中,corr为计算出的相关性大小,CCA为典型相关性分析计算过程,为了通过反向传播使得corr最大化,跨模态特征损失函数lossCCA取corr负值;
另一部分损失函数lossclass为模型输出结果Classification与正确标签所代表的聚类中心Label的欧式距离:
lossclass=Eu(Classification,Label)
其中,Eu为欧氏距离计算。
因此,损失函数loss为:
loss=lossCCA+lossclass。
发明效果
本发明的技术效果在于:与已有的多模态情感识别模型相比,本发明的模型中,通过注意力机制的循环神经网络和典型相关性分析,实现单模态情感特征和跨模态情感特征的提取并重,并一起构成最终的损失函数,从而进行反向传播、训练和优化,从而实现有效的多模态情感识别。采用本发明的方法有益效果主要包括:
(1)本发明中的循环神经网络和相关典型性分析相结合的新型多模态情感识别模型能够实现同时有效提取单模态特征和跨模态特征,相较于传统的特征提取方法来说,能够更加充分的挖掘多模态信息和模态间隐含的相互关系,提升识别准确率。
(2)本发明在多模态情感分析公开数据集CMU-MOSI上进行了有效性验证。测试结果,文字、图像及语音信息输入模型前分布如图3中左边小图所示,经过多模态特征提取和融合,完成分类的结果如图3中右边小图所示,F1-score为80.6%,分类准确度81.2%,证明了本发明所述方法的有效性。
附图说明
图1是基于深度典型相关性分析的多模态情感识别方法结构图
图2是方法流程图
图3是测试结果图
具体实施方式
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
参加图1-图3,为了实现更加合理有效的多模态情感识别,本发明提出了一种循环神经网络与深度典型相关性分析相结合的新型多模态情感识别模型,采用循环神经网络对单模态特征进行提取,经过注意力机制对模态两两融合后,通过深度典型相关性分析最大化与跨模态相关的特征,最后,以真实分类标签为六种基本情感类型的中心点,采取K聚类方法完成分类的训练和优化。
在多模态情感识别中,对话中的多模态对话信息(图像,文字和语音)分别作为三种单模态信息通过循环神经网络对各自模态进行特征提取,之后,通过注意力机制分别对文字与声音信息,文字与图像信息进行双模态间的初步融合。融合后对这两组信息通过相互独立的两组全连接层进行线性变换,分别提取有代表性的两个综合变量用于表达两组信息之间的相互关系,并记录这两组综合变量。之后再通过对称的两组独立的全连接层重建两组融合的双模态信息,这两组信息通过一个循环神经网络完成三模态信息融合。最后,以数据的真实标签数据作为K聚类的聚类中心点,通过计算融合后的信息与聚类中心点的欧氏距离完成分类。其中,训练过程中,损失函数共包含两个部分,一个对两组综合变量进行典型性分析,对两组综合变量的相关行进行计算,对计算值取负数作为跨模态特征计算部分的损失函数值,以期通过反向传播最大化两组综合变量之间的相关性;另一部分为最后的分类结果与真实标签所代表的聚类中心的欧氏距离作为损失函数,以期通过反向传播最小化此距离,从而得到正确的分类结果。
请参见图1,本发明中,基于循环神经网络强化学习算法结构共12层,其中,1 层输出层,1层输入层,10层为隐含层,包括2层循环神经网络层,1层归一化层,1 层激活层,1层注意力层和5层全连接层。归一化层输入为当前待识别信息的图像、文字和语音三模态信息,首先分别进行单模态的特征处理。图像特征处理层、文字特征处理层和语音特征处理层均各自包含一层归一化层和一层循环神经网络层,之后文字与语音,文字与图像分别通过一层注意力层进行双模态信息的融合。两组双模态信息分别通过相互独立的三层全连接层进行线性变换,输出维度均为2,之后再分别通过两层全连接层重构两组融合的双模态信息,输出维度与第一层注意力层相同。两组信息通过一层循环神经网络层和一层激活层进行特征融合,最后经过一层全连阶层输出。输出结果采用K聚类方法进行分类,以数据的真实标签数据作为K聚类的聚类中心点,计算输出值与聚类中心点的欧氏距离,以距离最小的聚类中心点作为分类识别结果。
现结合附图对本发明做进一步描述。
为了实现多模态情感识别,本发明提出了一种基于深度典型相关性分析的多模态情感识别模型,采用循环神经网络为网络模型,深度典型相关性分析最大化与跨模态相关的特征,以真实分类标签为六种基本情感类型(快乐,兴奋,沮丧,悲伤,愤怒和中性)的中心点,采取K聚类方法完成分类的训练和优化。
参见图1,本发明中,基于循环神经网络强化学习算法结构共12层,其中,1层输出层,1层输入层,10层为隐含层,包括2层循环神经网络层,1层归一化层,1 层激活层,1层注意力层和5层全连接层。神经网络输入为当前对话采样段内的图像、文字和语音三模态信息,首先分别进行单模态的特征处理。图像特征处理层、文字特征处理层和语音特征处理层均各自包含一层归一化层和一层循环神经网络层,之后文字与语音,文字与图像分别通过一层注意力层进行双模态信息的融合。两组双模态信息分别通过相互独立的三层全连接层进行线性变换,输出维度均为2,之后再分别通过两层全连接层重构两组融合的双模态信息,输出维度与第一层注意力层相同。两组信息通过一层循环神经网络层和一层激活层进行特征融合,最后经过一层全连阶层输出。输出结果采用K聚类方法进行分类,以数据的真实标签数据作为K聚类的聚类中心点,计算输出值与聚类中心点的欧氏距离,以距离最小的聚类中心点作为分类识别结果。
参见图2,本发明一种基于深度典型相关性分析的多模态情感识别方法,具体实施方式包括以下步骤:
步骤一、搭建基于循环神经网络的算法模型,并采用梯度下降和反向传播算法训练该模型,具体过程如下:
依照图1构建基于循环神经网络的算法模型,用随机数初始化所有的参数及权重。将输入多模态信息表示为:
M=[V,T,A]
M为当前待识别信息,V为图像信息,T为文字信息,A为语音信息。
在多模态对话信息数据库上对模型进行训练,对于待识别信息所包含的图像、文字和语音模态信息,分别计算其经过归一化层,循环神经网络层和全连接层后得到的两组双模态融合综合变量和最终输出的用于K聚类的六维向量,公式为:
HVT=FVT(V,T,WVT)
HAT=FAT(A,T,WAT)
Classification=F(V,T,A,WVTA)
其中F为依照图1构建基于循环神经网络的强化学习算法模型,WVT,WAT和WVTA分别为模型中涉及到的参数变量,HVT为图像与文字双模态融合信息经过全连接层线性变换后的二维综合变量,HAT为语音与文字双模态融合信息经过全连接层线性变换后的二维综合变量,Classification为模型的输出结果。
接下来进行损失函数计算,损失函数包含两个部分,一部分为对综合变量HVT和HAT进行典型相关性分析,
corr=arg max CCA(HVT,HAT)
lossCCA=-corr
其中,corr为计算出的相关性大小,CCA为典型相关性分析计算过程,为了通过反向传播使得corr最大化,因此跨模态特征损失函数lossCCA取corr负值。另一部分损失函数lossclass为模型输出结果Classification与正确标签所代表的聚类中心Label的欧式距离。
lossclass=Eu(Classification,Label)
其中,Eu为欧氏距离计算。
最终,损失函数loss为:
loss=lossCCA+lossclass
通过反向传播损失函数loss,完成对模型的训练。
步骤二、采用数据集中未被训练过的数据作为测试实例,使用基于循环神经网络和相关典型性分析的多模态情感识别模型进行识别,得到最后的分类结果。具体过程如下:
通过基于循环神经网络和相关典型性分析的多模态情感识别模型进行输出结果计算;
计算输出结果与六种基本情感类型各自的聚类中心的欧氏距离大小,距离最近的聚类中心所代表的情感类型作为最终的识别结果。
本实施例中,CMU-MOSI数据集中训练集包含1616条样本,训练集包含583条样本,符合3:1的训练测试比,每条样本均包含文字、图像及语音信息,标签分为两类,分别是正向情感及负向情感,评估指标为F-score,并通过T测试进行显著性检验,显著性水平为0.05。所建立模型循环神经网络层隐藏节点数为512,五层全连接层的隐藏节点数分别为512,256,2,256和512,学习率为0.0015。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明公开的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。
Claims (4)
1.一种基于深度典型相关性分析的多模态情感识别方法,其特征在于,包括以下步骤:
步骤1:构建基于循环神经网络的算法模型并对该模型进行训练,包括以下子步骤:
步骤1.1:建立循环神经网络的算法模型,且该模型的输入信息为:
M=[V,T,A]
M为当前待识别信息,V为图像信息,T为文字信息,A为语音信息。
步骤1.2:对模型进行训练:
HVT=FVT(V,T,WVT)
HAT=FAT(A,T,WAT)
Classification=F(V,T,A,WVTA)
其中F为依照图1构建基于循环神经网络的强化学习算法模型,WVT,WAT和WVTA分别为模型中涉及到的参数变量,HVT为图像与文字双模态融合信息经过全连接层线性变换后的二维综合变量,HAT为语音与文字双模态融合信息经过全连接层线性变换后的二维综合变量,Classification为模型的输出结果;
步骤1.3:计算损失函数:
loss=lossCCA+lossclass
通过反向传播损失函数loss,完成对模型的训练
步骤2:采用数据集中未被训练过的数据作为测试实例,使用基于循环神经网络和相关典型性分析的多模态情感识别模型进行识别,得到最后的分类结果,包括以下子步骤:
步骤2.1:通过基于循环神经网络和相关典型性分析的多模态情感识别模型进行输出结果计算;
步骤2.2:计算输出结果与六种基本情感类型各自的聚类中心的欧氏距离大小,距离最近的聚类中心所代表的情感类型作为最终的识别结果。
2.如权利要求1所述的一种基于深度典型相关性分析的多模态情感识别方法,其特征在于,所述步骤1.1中,循环神经网络的算法模型共12层,其中,1层输出层,1层输入层,10层为隐含层,包括2层循环神经网络层,1层归一化层,1层激活层,1层注意力层和5层全连接层。
3.如权利要求2所述的一种基于深度典型相关性分析的多模态情感识别方法,其特征在于,所述循环神经网络的算法模型输入为当前对话采样段内的图像、文字和语音三模态信息,首先分别进行单模态的特征处理。图像特征处理层、文字特征处理层和语音特征处理层均各自包含一层归一化层和一层循环神经网络层,之后文字与语音,文字与图像分别通过一层注意力层进行双模态信息的融合。两组双模态信息分别通过相互独立的三层全连接层进行线性变换,输出维度均为2,之后再分别通过两层全连接层重构两组融合的双模态信息,输出维度与第一层注意力层相同。两组信息通过一层循环神经网络层和一层激活层进行特征融合,最后经过一层全连阶层输出。输出结果采用K聚类方法进行分类,以数据的真实标签数据作为K聚类的聚类中心点,计算输出值与聚类中心点的欧氏距离,以距离最小的聚类中心点作为分类识别结果。
4.如权利要求1所述的一种基于深度典型相关性分析的多模态情感识别方法,其特征在于,所述步骤1.3中,损失函数包含两个部分:
一部分为对综合变量HVT和HAT进行典型相关性分析,
corr=argmaxCCA(HVT,HAT)
lossCCA=-corr
其中,corr为计算出的相关性大小,CCA为典型相关性分析计算过程,为了通过反向传播使得corr最大化,跨模态特征损失函数lossCCA取corr负值;
另一部分损失函数lossclass为模型输出结果Classification与正确标签所代表的聚类中心Label的欧式距离:
lossclass=Eu(Classification,Label)
其中,Eu为欧氏距离计算。
因此,损失函数loss为:
loss=lossCCA+lossclass。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110888040.4A CN113592001B (zh) | 2021-08-03 | 2021-08-03 | 一种基于深度典型相关性分析的多模态情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110888040.4A CN113592001B (zh) | 2021-08-03 | 2021-08-03 | 一种基于深度典型相关性分析的多模态情感识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113592001A true CN113592001A (zh) | 2021-11-02 |
CN113592001B CN113592001B (zh) | 2024-02-02 |
Family
ID=78254580
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110888040.4A Active CN113592001B (zh) | 2021-08-03 | 2021-08-03 | 一种基于深度典型相关性分析的多模态情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113592001B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020173133A1 (zh) * | 2019-02-27 | 2020-09-03 | 平安科技(深圳)有限公司 | 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质 |
CN111667559A (zh) * | 2020-05-27 | 2020-09-15 | 西北工业大学 | 一种基于深度迁移网络的多形态人脸情感生成方法 |
CN112948554A (zh) * | 2021-02-28 | 2021-06-11 | 西北工业大学 | 基于强化学习和领域知识的实时多模态对话情感分析方法 |
-
2021
- 2021-08-03 CN CN202110888040.4A patent/CN113592001B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020173133A1 (zh) * | 2019-02-27 | 2020-09-03 | 平安科技(深圳)有限公司 | 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质 |
CN111667559A (zh) * | 2020-05-27 | 2020-09-15 | 西北工业大学 | 一种基于深度迁移网络的多形态人脸情感生成方法 |
CN112948554A (zh) * | 2021-02-28 | 2021-06-11 | 西北工业大学 | 基于强化学习和领域知识的实时多模态对话情感分析方法 |
Non-Patent Citations (3)
Title |
---|
SHIQING ZHANG ET AL.: ""Learning Affective Features With a Hybrid Deep Model for Audio–Visual Emotion Recognition"", 《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》, vol. 28, no. 10 * |
YUANQING LI ET AL.: ""A cognitive brain model for multimodal sentiment analysis based on attention neural networks"", 《NEUROCOMPUTING》, vol. 430 * |
闫静杰;卢官明;李海波;王珊珊;: "基于人脸表情和语音的双模态情感识别", 南京邮电大学学报(自然科学版), no. 01 * |
Also Published As
Publication number | Publication date |
---|---|
CN113592001B (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Harwath et al. | Jointly discovering visual objects and spoken words from raw sensory input | |
Chen et al. | Two-layer fuzzy multiple random forest for speech emotion recognition in human-robot interaction | |
Gao et al. | Deep label distribution learning with label ambiguity | |
Huang et al. | Speech emotion recognition from variable-length inputs with triplet loss function. | |
CN112800998B (zh) | 融合注意力机制和dmcca的多模态情感识别方法及系统 | |
CN103366618B (zh) | 基于人工智能与虚拟现实用于汉语学习培训的场景设备 | |
CN111210846B (zh) | 基于集成流形降维的帕金森语音识别系统 | |
CN110046671A (zh) | 一种基于胶囊网络的文本分类方法 | |
CN111324765A (zh) | 基于深度级联跨模态相关性的细粒度草图图像检索方法 | |
CN106803098A (zh) | 一种基于语音、表情与姿态的三模态情感识别方法 | |
Audhkhasi et al. | A globally-variant locally-constant model for fusion of labels from multiple diverse experts without using reference labels | |
Ocquaye et al. | Dual exclusive attentive transfer for unsupervised deep convolutional domain adaptation in speech emotion recognition | |
CN111858940A (zh) | 一种基于多头注意力的法律案例相似度计算方法及系统 | |
CN114239585A (zh) | 一种生物医学嵌套命名实体识别方法 | |
CN112732921A (zh) | 一种虚假用户评论检测方法及系统 | |
CN117765981A (zh) | 一种基于语音文本跨模态融合的情感识别方法及系统 | |
CN110348482A (zh) | 一种基于深度模型集成架构的语音情感识别系统 | |
Sahu et al. | Modeling feature representations for affective speech using generative adversarial networks | |
CN116524960A (zh) | 一种基于混合熵下采样和集成分类器的语音情感识别系统 | |
CN116363712A (zh) | 一种基于模态信息度评估策略的掌纹掌静脉识别方法 | |
Xu et al. | Inconsistency-based multi-task cooperative learning for emotion recognition | |
CN113868374A (zh) | 基于多头注意力机制的图卷积网络生物医学信息提取方法 | |
CN117609863A (zh) | 基于脑电微状态的长时脑电情绪识别方法 | |
CN116311477B (zh) | 一种面向跨身份一致性的面部运动单元检测模型构建方法 | |
Zhang et al. | Speech emotion recognition method in educational scene based on machine learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |