CN112418166A - 一种基于多模态信息的情感分布学习方法 - Google Patents
一种基于多模态信息的情感分布学习方法 Download PDFInfo
- Publication number
- CN112418166A CN112418166A CN202011434335.6A CN202011434335A CN112418166A CN 112418166 A CN112418166 A CN 112418166A CN 202011434335 A CN202011434335 A CN 202011434335A CN 112418166 A CN112418166 A CN 112418166A
- Authority
- CN
- China
- Prior art keywords
- matrix
- emotion
- learning
- distribution
- modal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 78
- 238000000034 method Methods 0.000 title claims abstract description 68
- 239000011159 matrix material Substances 0.000 claims abstract description 67
- 238000012549 training Methods 0.000 claims abstract description 31
- 238000012360 testing method Methods 0.000 claims abstract description 12
- 230000004927 fusion Effects 0.000 claims abstract description 9
- 238000002360 preparation method Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 36
- 230000002996 emotional effect Effects 0.000 claims description 23
- 238000005457 optimization Methods 0.000 claims description 17
- 238000000354 decomposition reaction Methods 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 6
- 230000005236 sound signal Effects 0.000 claims description 5
- 230000014509 gene expression Effects 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 6
- 238000012545 processing Methods 0.000 abstract description 3
- 239000013589 supplement Substances 0.000 abstract description 2
- 230000008909 emotion recognition Effects 0.000 description 12
- 230000008921 facial expression Effects 0.000 description 9
- 239000000047 product Substances 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 230000001815 facial effect Effects 0.000 description 4
- 206010063659 Aversion Diseases 0.000 description 2
- 230000036772 blood pressure Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Psychiatry (AREA)
- Hospice & Palliative Care (AREA)
- Child & Adolescent Psychology (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多模态信息的情感分布学习方法,包括:S1、数据准备:提取多模态数据特征,并将多模态数据特征数据集分为训练集和测试集,分别用于模型训练部分和情感预测部分;S2、模型训练:在训练集上学习每个模态的情感分布;S3、情感预测:基于步骤S2中训练好的模型在测试集上进行预测,并通过融合策略将所有模态结果结合起来得到最终结果。本发明通过学习来获取更加准确的标记相关性矩阵,另外,在进行多模态数据处理时采用了后期融合策略,同时,在训练过程中通过约束不同模态的标记相关性矩阵尽可能相似来实现不同模态之间的相互印证和相互补充。本发明通过引入多模态信息可以提高情感分布学习模型的性能。
Description
技术领域
本发明涉及机器学习技术,特别是涉及一种基于多模态信息的情感分布学习方法。
背景技术
情感识别是一个热门研究领域,在计算语言学、计算机视觉和机器学习等多个领域具有相当大的实践和理论价值。先前的大量研究只是能够解决“什么描述了情感”这一不明确的问题,即假设每个表情都与一个或多个预定义的情感标签相关联,而忽略了多种情绪始终具有不同强度的事实。因此,耿新等人将标记分布学习(LDL)框架引入到情感识别中。与以往的情感分类研究不同,LDL框架对一个实例分配一组具有描述度的标签,对情感的描述更加明确。
近年来,已经进行了一些基于LDL的情绪识别工作。例如,通过基于Plutchik的情感理论捕获标记的关系来进行情感学习的方法;利用标记相关性来构建情感识别模型的方法,等等。
但是,只通过面部表情或某单一模态来进行情感识别时具有一定的片面性。例如,在刑事案件中,被审讯人可以控制自己的面部表情来掩饰自己真实的情感,但是,心跳血压等生理信号很难控制,这时候多模态信息就显得尤为重要。多模态数据可以为情感识别提供更全面、更丰富的信息。
因此,现有的情感分布学习模型的主要缺点是:它们都是基于面部表情的单一模态学习,然而在现实世界中,只通过面部表情或某单一模态来进行情感识别时具有一定的片面性,且可能产生错误结果。例如,在刑事案件中,被审讯人可以控制自己的面部表情来掩饰自己真实的情感,但是,心跳血压等生理信号很难控制,这时候多模态信息就显得尤为重要。而且随着各种数据收集技术的出现,收集身体姿态、声音以及生理信号等多种模态的信息得以实现。
发明内容
发明目的:本发明的目的是提供一种基于多模态信息的情感分布学习方法,通过引入多模态信息可以提高情感分布学习模型的性能。
技术方案:本发明的基于多模态信息的情感分布学习方法,包括以下步骤:
S1、数据准备:提取多模态数据特征,并将多模态数据特征数据集分为训练集和测试集,分别用于模型训练部分和情感预测部分;
S2、模型训练:在步骤S1得到的训练集上学习每个模态的情感分布,具体地:首先为每个模态学习一个标记相关性矩阵,然后,利用希尔伯特-施密特独立标准约束每个模态的标记相关性矩阵相似构建出目标函数;最后,利用优化方法交替方向乘子算法ADMM对该目标函数进行最优化,求解出模型参数矩阵的最优值,即模型训练完成;
S3、情感预测:基于步骤S2中训练好的模型在测试集上进行预测,并通过融合策略将所有模态结果结合起来得到最终结果。
进一步的,步骤S1中提取多模态数据特征包括音频数据特征和视频数据特征,其中,音频数据特征提取中先对原始音频进行去躁,然后对去躁后的音频提取情感特征,具体为:
S101、删除原始音频中首尾各1s的内容;
S102、将经步骤S11处理后的音频信号在各尺度上进行小波分解,保留大尺度下的全部分解值;对于小尺度下的分解值,设定阈值:其中,σ=MAD/0.6745,MAD为首层小波分解系数绝对值的中间值,0.6745为高斯噪声标准方差的调整系数,N为信号的尺寸或长度,幅值低于该阈值的小波系数置为零,高于该阈值的小波系数完整保留;
S103、将经步骤S102处理后的小波系数利用逆小波变换进行重构,恢复出有效的信号;
S104、根据步骤S103中去躁后的音频信号,依次经过预加重、分帧、加窗、快速傅里叶变换、梅尔滤波器组和离散余弦变换,计算得到MFCC特征;
S105、将步骤S104中获取的高维MFCC特征通过调用PCA方法降维;
视频数据特征提取的方法为:
S111、使用一个关键帧来表示视频中被试的情绪状态,该关键帧提取为语音振幅最高的那一帧;
S112、使用由RESNET预训练的VGG19网络来提取步骤S111中关键帧的特征,具体地:将含有通道维的关键帧图片矩阵输入到预训练好的VGG19网络,取分类器层之前的最后隐层的输出作为图片特征;使用由RESNET预训练的VGG19网络来提取图片特征,具体地:将含有通道维的图片矩阵输入到预训练好的VGG网络,取分类器层之前的最后隐层的输出作为图片特征。
进一步的,步骤S2具体包括以下步骤:
S21、在步骤S1得到的训练集上为每个模态各学习一个标记相关性矩阵,该标记相关性矩阵是一个二维对称矩阵,表示标记x与标记y之间的相关性,数值越大表示相关性越大;
S22、利用希尔伯特-施密特独立标准HSIC约束M个模态的标记相关性矩阵相似构建出目标函数;
S23、利用优化方法交替方向乘子算法ADMM对目标函数进行最优化,求解出模型参数矩阵的最优值,即模型训练完成。
更进一步的,步骤S21具体为:
采用核回归模型为每个模态来学习情感分布,给出一个核k,令H为对应的RKHS。对于模态m,输出函数为:
φ(m)=[φ([X(m)]1),φ([X(m)]2),…,φ([X(m)]n)];
s.t.φ(m)·W(m)×1l×1=1n×1;
φ(m)·W(m)1≥0n×1;
其中,D是真实的情感分布,‖·‖是RKHS范式,λ1是权重系数;根据表示定理将损失函数优化;表示定理优化策略如下:
其中,k(xi,x)表示样本i的特征xi与特征x的内积,αij为系数;因此,根据表示定理,优化后的损失函数为:
s.t.K(m)·α(m)×1l×1=1n×1;
K(m)·α(m)1≥0n×1;
更进一步的,步骤S22具体为:
首先,标记流行正则化器定义为:
min tr(K(m)α(m)Z(m)Z(m)Tα(m)TK(m)T);
s.t.diag(Z(m),Z(m)T)=1;
其中,diag(Z(m),Z(m)T)=1是为了防止在优化过程中Z(m)变为0;
在多模态学习中,多个模态的相关性应该被充分利用来促进模型的健壮性;希尔伯特-施密特独立标准HSIC度量两个变量在相似空间中的一致性,不同模态的标记相关矩阵是独立学习的,利用HSIC能够加强不同标记相关矩阵之间的依赖性;接下来给出HSIC的简略定义:首先,令φ(xi)为一个从到核空间的映射,该空间中向量的内积由核函数k1(xi,xj)=<φ(xi),φ(xj)>给出;令为另一个关于的核空间,该空间中向量的内积由核函数给出;HSIC的实验版定义如下:
其中K1和K2为克矩阵,k1,ij=k1(xi,xj),k2,ij=k2(yi,yj)。N约束克矩阵在特征空间中的均值为零;
因此,具体的目标函数最终形式如下:
s.t.diag(Z(m)Z(m)T)=1;
K(m)α(m)×1l×1=1n×1;
K(m)α(m)≥0n×1;
(for m=1,2,…,M)。
更进一步的,步骤S23具体为:
针对目标函数采用优化方法交替方向乘子算法ADMM进行最优化,求解出模型参数矩阵的最优值,即训练结束;具体为:
首先,将目标函数拆解成关于α和Z的两个子问题;
其次,在每次迭代中对每个子问题采用拟牛顿下降法L-BFGS算法对其优化;
然后,使用交替方向乘子算法ADMM进行整体优化,最终达到收敛,停止迭代,获得最优的参数矩阵α和Z。
进一步的,步骤S3具体为:融合策略采用线性意见池方法,并定义了加权规则来组合每个决策的预测值,如下所示:
有益效果:与现有技术相比,本发明具有以下好的技术效果:
(1)本发明首次提出多模态情感分布学习来解决现有情感分布学习中信息不全面、容易受噪声干扰等缺陷;
(2)本发明设计了一个适用于多模态情感分布学习的方法,它既保留了多模态中信息全面的优势,又充分利用了标记分布中有价值的语义信息;
(3)本发明对两个真实多模态情感数据集进行了特征提取,为多模态情感分布学习提供了实验基础;
(4)实验验证了本发明的方法明显优于一些最新的多模态情感预测方法和单模态情感分布学习方法。
附图说明
图1是本发明提出的基于多模态信息的情感分布学习方法流程图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。以下所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
本发明提出了一种适用于多模态情感分布学习的方法,它既保留了多模态中信息全面的优势,又充分利用了标记分布中有价值的语义信息。情感分布最显著特点是情感标记之间的相关性。比如,当一个人在生气的时候,很有可能带有一部分厌恶的情绪,因此,“生气”和“厌恶”属于正相关的一对标签,相反,当一个人生气的时候,不大可能会有开心的情绪,因此,“生气”和“开心”属于负相关的一对标签。不同于前人通过先验知识挖掘标记相关性的方法,本发明通过学习来获取更加准确的标记相关性矩阵。另外,本发明在进行多模态数据处理时采用了后期融合策略,同时,在训练过程中通过约束不同模态的标记相关性矩阵尽可能相似来实现不同模态之间的相互印证和相互补充。
多模态情感识别问题可以定义为,在X={x(1),…,x(m),…,x(M)}为M个多模态的特征空间,其中qm为第m个模态的特征纬度。标记空间为D=[d1;d2;…;dn],其中表示标记j对样本i的描述程度,并且满足且多模态情绪分布学习的目标是学习一个映射函数f:X→D能够预测新样本的情感分布。
如图1所示,本发明的一种多模态情感分布学习方法,首先提取多模态数据特征,其次利用核回归模型学习每个模态的情感分布,并同时采用希尔伯特-施密特独立标准(HSIC)来促进不同模态间的相互印证和相互补充,最后,通过融合策略将将所有模态结果结合起来得到最终结果。本发明适用于各种多模态情感识别问题,包含但不限于音频、视频、心电图等,实验过程中采用了典型的音频和视频作为多模态数据。
具体流程为:
S1、数据准备:提取多模态数据特征,并将多模态数据特征数据集分为训练集和测试集,分别用于模型训练部分和情感预测部分;
特征提取中,不同的模态采用的方法不同,本发明基于音频数据和视频数据展开介绍;其中,音频数据特征提取中先对原始音频进行去躁,然后对去躁后的音频提取情感特征。
音频数据所收集到的情绪数据通常含有背景噪声和录音机的“嘶嘶声”。一般情况下,噪声的存在会对信号造成破坏,使特征提取和分类的准确性降低。在本发明中,我们通过对小波阈值去噪来实现降噪。由于前部分和后部分不能提供有用的信息,因此可以消除它们。要实现情感识别,提取出真正能代表预期情感的普遍特征是一个挑战。对于情感型言语而言,良好的参考模型是人类听觉系统。经过大量前人的研究,韵律被认为是衡量说话人情绪状态的主要指标,因此大部分作品都采用了韵律特征,即Mel-frequency CepstralCoefficient(MFCC)\cite,也被广泛应用于语音识别和其他一些语音处理应用中,也有针对情绪识别的研究。由于本发明的目标是模拟人类对情绪的感知,并确定可能的特征来传达讲话中潜在的情绪,而不考虑语言、说话者和上下文,因此本发明研究了所有这两种类型的特征。由于我们提取的音频特征是高维的,我们使用PCA将其降至168维。
面部表情是人类情感识别的另一个重要因素。一般首先从图像中检测出人脸区域,然后从观察到的人脸图像或图像序列中提取出人脸表情信息。对于静止图像,提取面部表情信息是指从一幅图像中对人脸及其特征进行定位。在图像序列的情况下,它意味着跟踪人脸的运动及其在图像序列中的特征。虽然后一种情况可以提供更准确的面部表征,但它通常需要更多的计算。在本文中,我们使用一个关键帧来表示视频中被试的情绪状态,该关键帧提取为语音振幅最高的那一帧。选择关键帧的基本想法是基于直觉和观察,即在较大的声音幅度下,人脸特征会被夸大。得到关键帧的人脸区域后,将其输入到VGG网络中,学习视频特征。
音频去躁过程具体如下:
S101、由于原始音频的前部分和后部分不能提供有用的信息,因此删除原始音频中首尾各1s的内容;
S102、音频数据所收集到的情绪数据通常含有背景噪声和录音机的“嘶嘶声”。一般情况下,噪声的存在会对信号造成破坏,使特征提取和分类的准确性降低。在本发明中,我们通过对小波阈值去噪来实现降噪。具体地,将经步骤S101处理后的音频信号在各尺度上进行小波分解,保留大尺度下的全部分解值;对于小尺度下的分解值,设定阈值:其中,σ=MAD/0.6745,MAD为首层小波分解系数绝对值的中间值,0.6745为高斯噪声标准方差的调整系数,N为信号的尺寸或长度,幅值低于该阈值的小波系数置为零,高于该阈值的小波系数完整保留。
S103、将经步骤S102处理后的小波系数利用逆小波变换进行重构,恢复出有效的信号。
音频特征提取的方法为:
S103、经过大量前人的研究,韵律被认为是衡量说话人情绪状态的主要指标,因此大部分作品都采用了韵律特征,即梅尔频率倒谱系数(MFCC)。具体地,首先根据上述步骤3)中去躁后的音频计算MFCC特征,经过步骤为:预加重,分帧,加窗,快速傅里叶变换(FFT),梅尔滤波器组,离散余弦变换(DCT)。
S104、由于本发明提取的音频特征是高维的,因此将步骤1)中获取的高维特征通过调用PCA方法降至168维。
视频数据特征提取的方法为:
S111、对于静止图像,提取面部表情信息是指从一幅图像中对人脸及其特征进行定位。在图像序列的情况下,它意味着跟踪人脸的运动及其在图像序列中的特征。虽然后一种情况可以提供更准确的面部表征,但它通常需要更多的计算。在本发明中,我们使用一个关键帧来表示视频中被试的情绪状态,该关键帧提取为语音振幅最高的那一帧。选择关键帧的基本想法是基于直觉和观察,即在较大的声音幅度下,人脸特征会被夸大。
S112、使用由RESNET预训练的VGG19网络来提取步骤(1)中关键帧的特征,具体地:将含有通道维的关键帧图片矩阵输入到预训练好的VGG19网络,取分类器层之前的最后隐层的输出作为图片特征。使用由RESNET预训练的VGG19网络来提取图片特征,具体地:将含有通道维的图片矩阵输入到预训练好的VGG网络,取分类器层之前的最后隐层的输出作为图片特征。
以上提取到的音频和视频特征将被数据集分为训练集和测试集,分别作为模型训练部分的输入特征和情感预测部分的输入特征。
S2、模型训练:在步骤S1得到的训练集上学习每个模态的情感分布。具体地,首先为每个模态学习一个标记相关性矩阵(即一个二维对称矩阵,表示标记x与标记y之间的相关性,数值越大表示相关性越大);然后,利用希尔伯特-施密特独立标准(HSIC)约束每个模态的标记相关性矩阵相似构建出目标函数;最后,利用优化方法交替方向乘子算法ADMM对该目标函数进行最优化,求解出模型参数矩阵的最优值,即模型训练完成。具体为:
S21、在步骤S1得到的训练集上,为每个模态各学习一个标记相关性矩阵;
本发明采用核回归模型为每个模态来学习情感分布。给出一个核k,令H为对应的RKHS。对于模态m,输出函数为:
φ(m)=[φ([X(m)]1),φ([X(m)]2),…,φ([X(m)]n)];
s.t.φ(m)·W(m)×1l×1=1n×1;
φ(m)·W(m)1≥0n×1;
其中,D是真实的情感分布,‖·‖是RKHS范式,λ1是权重系数。根据表示定理可将损失函数优化。表示定理优化策略如下:
其中,k(xi,x)表示样本i的特征xi与特征x的内积,αij为系数。因此,根据表示定理,优化后的损失函数为:
s.t.K(m)·α(m)×1l×1=1n×1;
K(m)·α(m)1≥0n×1;
其中,tr(·)为均方矩阵的迹,K为核矩阵,即,[K(m)]i,j=k([X(m)]i,[X(m)]j),α(m)为第m个模态的系数,[X(m)]i表示第m个模态中样本i的特征向量,X(m)为第m个模态的特征矩阵,D为真是的情感分别矩阵,为权重系数。
S22、利用希尔伯特-施密特独立标准(HSIC)约束M个模态的标记相关性矩阵相似构建出目标函数;
挖掘标签相关性对情感分布学习至关重要。本发明使用了流行正则化器来改进模型。具体来说,两个标签的正相关程度越高,对应的输出越接近,反之亦然。也就是说,正相关的标签会促使对应的输出相似,而负相关的标签会将对应的输出推向相反的方向。标签流形正则化器的成功与否取决于一个好的标记关联矩阵(或者等同于一个好的标记拉普拉斯矩阵)。在LDL中,一个基本的方法是通过皮尔森相关理论计算两个标签之间的相关系数。但是在数据获取的过程中不可避免地会引入一些噪声,因此根据先验知识得到的情感标签的相关系数是不准确的,甚至会产生误导。在本发明中直接学习拉普拉斯矩阵,而不是指定任何相关度量或标号相关矩阵。因此,标记流行正则化器可定义为:
min tr(K(m)α(m)Z(m)Z(m)Tα(m)TK(m)T);
s.t.diag(Z(m),Z(m)T)=1;
其中,diag(Z(m),Z(m)T)=1是为了防止在优化过程中Z(m)变为0。
在多模态学习中,多个模态的相关性应该被充分利用来促进模型的健壮性。希尔伯特-施密特独立标准(HSIC)度量两个变量在相似空间中的一致性,不同模态的标记相关矩阵是独立学习的,利用HSIC能够加强不同标记相关矩阵之间的依赖性。接下来给出HSIC的简略定义。首先,令φ(xi)为一个从到核空间的映射,该空间中向量的内积由核函数k1(xi,xj)=<φ(xi),φ(xj)>给出;令为另一个关于的核空间,该空间中向量的内积由核函数给出。HSIC的实验版定义如下:
其中K1和K2为克矩阵,k1,ij=k1(xi,xj),k2,ij=k2(yi,yj)。N约束克矩阵在特征空间中的均值为零。
因此,具体的目标函数最终形式如下:
s.t.diag(Z(m)Z(m)T)=1;
K(m)α(m)×1l×1=1n×1;
K(m)α(m)≥0n×1;
(for m=1,2,…,M);
S23、利用优化方法交替方向乘子算法ADMM对该目标函数进行最优化,求解出模型参数矩阵的最优值,即模型训练完成;
具体如下:
首先,将目标函数拆解成关于α和Z的两个子问题;
其次,在每次迭代中对每个子问题采用拟牛顿下降法L-BFGS算法对其优化;
然后,使用交替方向乘子算法ADMM进行整体优化,最终达到收敛,停止迭代,获得最优的参数矩阵α和Z。
S3、情感预测:基于步骤S2中训练好的模型在测试集上进行预测,并通过融合策略将所有模态结果结合起来得到最终结果。
情感预测:
本发明的融合策略采用线性意见池方法,并定义了加权规则来组合每个决策的预测值,如下所示:
为了验证本发明提出的多模态情感方法的有益性,本发明进行了大量实验。本发明的实验是在两个真实的多模态情感数据集上进行,分别为RAVDESS和SAVEE,包含视频和音频两个模态。本发明采用6个常用的情感分布学习评价指标:K-L、Chebyshev、Intersetcion、Cosine、Clark、Canberra。
首先,本发明与6个先进的情感分布学习方法进行了对比。实验中单模态的情感分布学习方法包含EDL-LRL、LDL-SCL、LDLLC、EDL、BFGS和PT-Bayes,在表一中每个单模态情感分布算法第一行展示的是最佳模态的实验结果,第二行展现的是将两个模态数据拼接在一起的结果。除此之外,本发明还与多模态情感预测方法进行了对比,具体地,包含SEE-SVR和ADR-PLS,如表1所示:
表1 9个算法在2个数据集上的实验结果
在表1中,算法MEDL(Multimodal Emotion Distribution Learning)为本发明提出的方法,显然MEDL在所有评价指标上均表现最优。
Claims (7)
1.一种基于多模态信息的情感分布学习方法,其特征在于,包括以下步骤:
S1、数据准备:提取多模态数据特征,并将多模态数据特征数据集分为训练集和测试集,分别用于模型训练部分和情感预测部分;
S2、模型训练:在步骤S1得到的训练集上学习每个模态的情感分布,具体地:首先为每个模态学习一个标记相关性矩阵,然后,利用希尔伯特-施密特独立标准约束每个模态的标记相关性矩阵相似构建出目标函数;最后,利用优化方法交替方向乘子算法ADMM对该目标函数进行最优化,求解出模型参数矩阵的最优值,即模型训练完成;
S3、情感预测:基于步骤S2中训练好的模型在测试集上进行预测,并通过融合策略将所有模态结果结合起来得到最终结果。
2.根据权利要求1所述的基于多模态信息的情感分布学习方法,其特征在于,步骤S1中提取多模态数据特征包括音频数据特征和视频数据特征,其中,音频数据特征提取中先对原始音频进行去躁,然后对去躁后的音频提取情感特征,具体为:
S101、删除原始音频中首尾各1s的内容;
S102、将经步骤S11处理后的音频信号在各尺度上进行小波分解,保留大尺度下的全部分解值;对于小尺度下的分解值,设定阈值:其中,σ=MAD/0.6745,MAD为首层小波分解系数绝对值的中间值,0.6745为高斯噪声标准方差的调整系数,N为信号的尺寸或长度,幅值低于该阈值的小波系数置为零,高于该阈值的小波系数完整保留;
S103、将经步骤S102处理后的小波系数利用逆小波变换进行重构,恢复出有效的信号;
S104、根据步骤S103中去躁后的音频信号,依次经过预加重、分帧、加窗、快速傅里叶变换、梅尔滤波器组和离散余弦变换,计算得到MFCC特征;
S105、将步骤S104中获取的高维MFCC特征通过调用PCA方法降维;
视频数据特征提取的方法为:
S111、使用一个关键帧来表示视频中被试的情绪状态,该关键帧提取为语音振幅最高的那一帧;
S112、使用由RESNET预训练的VGG19网络来提取步骤S111中关键帧的特征,具体地:将含有通道维的关键帧图片矩阵输入到预训练好的VGG19网络,取分类器层之前的最后隐层的输出作为图片特征;使用由RESNET预训练的VGG19网络来提取图片特征,具体地:将含有通道维的图片矩阵输入到预训练好的VGG网络,取分类器层之前的最后隐层的输出作为图片特征。
3.根据权利要求1所述的基于多模态信息的情感分布学习方法,其特征在于,步骤S2具体包括以下步骤:
S21、在步骤S1得到的训练集上为每个模态各学习一个标记相关性矩阵,该标记相关性矩阵是一个二维对称矩阵,表示标记x与标记y之间的相关性,数值越大表示相关性越大;
S22、利用希尔伯特-施密特独立标准HSIC约束M个模态的标记相关性矩阵相似构建出目标函数;
S23、利用优化方法交替方向乘子算法ADMM对目标函数进行最优化,求解出模型参数矩阵的最优值,即模型训练完成。
4.根据权利要求3所述的基于多模态信息的情感分布学习方法,其特征在于,步骤S21具体为:
采用核回归模型为每个模态来学习情感分布,给出一个核k,令H为对应的RKHS。对于模态m,输出函数为:
φ(m)=[φ([X(m)]1),φ([X(m)]2),…,φ([X(m)]n)];
s.t.φ(m)·W(m)×1l×1=1n×1;
φ(m)·W(m)1≥0n×1;
其中,D是真实的情感分布,‖·‖是RKHS范式,λ1是权重系数;根据表示定理将损失函数优化;表示定理优化策略如下:
其中,k(xi,x)表示样本i的特征xi与特征x的内积,αij为系数;因此,根据表示定理,优化后的损失函数为:
s.t.K(m)·α(m)×1l×1=1n×1;
K(m)·α(m)1≥0n×1;
5.根据权利要求3所述的基于多模态信息的情感分布学习方法,其特征在于,步骤S22具体为:
首先,标记流行正则化器定义为:
min tr(K(m)α(m)Z(m)Z(m)Tα(m)TK(m)T);
s.t.diag(Z(m),Z(m)T)=1;
其中,diag(Z(m),Z(m)T)=1是为了防止在优化过程中Z(m)变为0;
在多模态学习中,多个模态的相关性应该被充分利用来促进模型的健壮性;希尔伯特-施密特独立标准HSIC度量两个变量在相似空间中的一致性,不同模态的标记相关矩阵是独立学习的,利用HSIC能够加强不同标记相关矩阵之间的依赖性;接下来给出HSIC的简略定义:首先,令φ(xi)为一个从到核空间的映射,该空间中向量的内积由核函数k1(xi,xj)=<φ(xi),φ(xj)>给出;令为另一个关于的核空间,该空间中向量的内积由核函数给出;HSIC的实验版定义如下:
其中K1和K2为克矩阵,k1,ij=k1(xi,xj),k2,ij=k2(yi,yj);N约束克矩阵在特征空间中的均值为零;
因此,具体的目标函数最终形式如下:
s.t.diag(Z(m)Z(m)T)=1;
K(m)α(m)×1l×1=1n×1;
K(m)α(m)≥0n×1;
(for m=1,2,…,M)。
6.根据权利要求3所述的基于多模态信息的情感分布学习方法,其特征在于,步骤S23具体为:
针对目标函数采用优化方法交替方向乘子算法ADMM进行最优化,求解出模型参数矩阵的最优值,即训练结束;具体为:
首先,将目标函数拆解成关于α和Z的两个子问题;
其次,在每次迭代中对每个子问题采用拟牛顿下降法L-BFGS算法对其优化;
然后,使用交替方向乘子算法ADMM进行整体优化,最终达到收敛,停止迭代,获得最优的参数矩阵α和Z。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011434335.6A CN112418166B (zh) | 2020-12-10 | 2020-12-10 | 一种基于多模态信息的情感分布学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011434335.6A CN112418166B (zh) | 2020-12-10 | 2020-12-10 | 一种基于多模态信息的情感分布学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112418166A true CN112418166A (zh) | 2021-02-26 |
CN112418166B CN112418166B (zh) | 2022-11-11 |
Family
ID=74775410
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011434335.6A Active CN112418166B (zh) | 2020-12-10 | 2020-12-10 | 一种基于多模态信息的情感分布学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112418166B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114548262A (zh) * | 2022-02-21 | 2022-05-27 | 华中科技大学鄂州工业技术研究院 | 一种情感计算中多模态生理信号的特征级融合方法 |
CN114722812A (zh) * | 2022-04-02 | 2022-07-08 | 尚蝉(浙江)科技有限公司 | 一种多模态深度学习模型脆弱性的分析方法和系统 |
CN114722723A (zh) * | 2022-04-29 | 2022-07-08 | 湖北工业大学 | 基于核极限学习机优化的情感倾向预测方法及设备 |
CN115982395A (zh) * | 2023-03-20 | 2023-04-18 | 北京中科闻歌科技股份有限公司 | 一种基于量子的媒体信息的情感预测方法、介质及设备 |
CN117133277A (zh) * | 2023-10-20 | 2023-11-28 | 中影年年(北京)文化传媒有限公司 | 用于人机交互的虚拟人物表情控制方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160053455A (ko) * | 2014-11-04 | 2016-05-13 | 경북대학교 산학협력단 | 로봇의 표정 기반 연속적 정서 인식 방법, 이를 수행하기 위한 기록 매체 및 장치 |
CN106250855A (zh) * | 2016-08-02 | 2016-12-21 | 南京邮电大学 | 一种基于多核学习的多模态情感识别方法 |
CN110598299A (zh) * | 2019-09-04 | 2019-12-20 | 北京理工大学 | 一种基于传感器融合与深度学习的表面完整性评价方法 |
-
2020
- 2020-12-10 CN CN202011434335.6A patent/CN112418166B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160053455A (ko) * | 2014-11-04 | 2016-05-13 | 경북대학교 산학협력단 | 로봇의 표정 기반 연속적 정서 인식 방법, 이를 수행하기 위한 기록 매체 및 장치 |
CN106250855A (zh) * | 2016-08-02 | 2016-12-21 | 南京邮电大学 | 一种基于多核学习的多模态情感识别方法 |
CN110598299A (zh) * | 2019-09-04 | 2019-12-20 | 北京理工大学 | 一种基于传感器融合与深度学习的表面完整性评价方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114548262A (zh) * | 2022-02-21 | 2022-05-27 | 华中科技大学鄂州工业技术研究院 | 一种情感计算中多模态生理信号的特征级融合方法 |
CN114548262B (zh) * | 2022-02-21 | 2024-03-22 | 华中科技大学鄂州工业技术研究院 | 一种情感计算中多模态生理信号的特征级融合方法 |
CN114722812A (zh) * | 2022-04-02 | 2022-07-08 | 尚蝉(浙江)科技有限公司 | 一种多模态深度学习模型脆弱性的分析方法和系统 |
CN114722723A (zh) * | 2022-04-29 | 2022-07-08 | 湖北工业大学 | 基于核极限学习机优化的情感倾向预测方法及设备 |
CN115982395A (zh) * | 2023-03-20 | 2023-04-18 | 北京中科闻歌科技股份有限公司 | 一种基于量子的媒体信息的情感预测方法、介质及设备 |
CN115982395B (zh) * | 2023-03-20 | 2023-05-23 | 北京中科闻歌科技股份有限公司 | 一种基于量子的媒体信息的情感预测方法、介质及设备 |
CN117133277A (zh) * | 2023-10-20 | 2023-11-28 | 中影年年(北京)文化传媒有限公司 | 用于人机交互的虚拟人物表情控制方法及系统 |
CN117133277B (zh) * | 2023-10-20 | 2024-01-05 | 中影年年(北京)文化传媒有限公司 | 用于人机交互的虚拟人物表情控制方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112418166B (zh) | 2022-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112418166B (zh) | 一种基于多模态信息的情感分布学习方法 | |
Wadhawan et al. | Deep learning-based sign language recognition system for static signs | |
CN108899050B (zh) | 基于多模态情绪识别系统的语音信号分析子系统 | |
CN111461176A (zh) | 基于归一化互信息的多模态融合方法、装置、介质及设备 | |
Praveen et al. | Audio–visual fusion for emotion recognition in the valence–arousal space using joint cross-attention | |
Farhoudi et al. | Fusion of deep learning features with mixture of brain emotional learning for audio-visual emotion recognition | |
CN111128242B (zh) | 一种基于双深度网络的多模式情感信息融合与识别方法 | |
CN115169507B (zh) | 类脑多模态情感识别网络、识别方法及情感机器人 | |
Kaluri et al. | An enhanced framework for sign gesture recognition using hidden Markov model and adaptive histogram technique. | |
García-Ordás et al. | Sentiment analysis in non-fixed length audios using a Fully Convolutional Neural Network | |
CN106096642B (zh) | 基于鉴别局部保持投影的多模态情感特征融合方法 | |
Elmadany et al. | Multiview learning via deep discriminative canonical correlation analysis | |
CN115359576A (zh) | 一种多模态情绪识别方法、装置、电子设备及存储介质 | |
Fan et al. | Transformer-based multimodal feature enhancement networks for multimodal depression detection integrating video, audio and remote photoplethysmograph signals | |
Mangin et al. | Learning semantic components from subsymbolic multimodal perception | |
CN114140885A (zh) | 一种情感分析模型的生成方法、装置、电子设备以及存储介质 | |
CN114550057A (zh) | 一种基于多模态表示学习的视频情绪识别方法 | |
CN114881668A (zh) | 一种基于多模态的欺骗检测方法 | |
Haq et al. | Using lip reading recognition to predict daily Mandarin conversation | |
Akinpelu et al. | Lightweight deep learning framework for speech emotion recognition | |
Chelali | Bimodal fusion of visual and speech data for audiovisual speaker recognition in noisy environment | |
Dixit et al. | Multi-feature based automatic facial expression recognition using deep convolutional neural network | |
Mohammed et al. | Speech Emotion Recognition Using MELBP Variants of Spectrogram Image. | |
CN115116117A (zh) | 一种基于多模态融合网络的学习投入度数据的获取方法 | |
CN115472182A (zh) | 一种基于注意力特征融合的多通道自编码器的语音情感识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |