CN112418166B - 一种基于多模态信息的情感分布学习方法 - Google Patents

一种基于多模态信息的情感分布学习方法 Download PDF

Info

Publication number
CN112418166B
CN112418166B CN202011434335.6A CN202011434335A CN112418166B CN 112418166 B CN112418166 B CN 112418166B CN 202011434335 A CN202011434335 A CN 202011434335A CN 112418166 B CN112418166 B CN 112418166B
Authority
CN
China
Prior art keywords
matrix
emotion
learning
distribution
correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011434335.6A
Other languages
English (en)
Other versions
CN112418166A (zh
Inventor
贾修一
沈小霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202011434335.6A priority Critical patent/CN112418166B/zh
Publication of CN112418166A publication Critical patent/CN112418166A/zh
Application granted granted Critical
Publication of CN112418166B publication Critical patent/CN112418166B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • Child & Adolescent Psychology (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多模态信息的情感分布学习方法,包括:S1、数据准备:提取多模态数据特征,并将多模态数据特征数据集分为训练集和测试集,分别用于模型训练部分和情感预测部分;S2、模型训练:在训练集上学习每个模态的情感分布;S3、情感预测:基于步骤S2中训练好的模型在测试集上进行预测,并通过融合策略将所有模态结果结合起来得到最终结果。本发明通过学习来获取更加准确的标记相关性矩阵,另外,在进行多模态数据处理时采用了后期融合策略,同时,在训练过程中通过约束不同模态的标记相关性矩阵尽可能相似来实现不同模态之间的相互印证和相互补充。本发明通过引入多模态信息可以提高情感分布学习模型的性能。

Description

一种基于多模态信息的情感分布学习方法
技术领域
本发明涉及机器学习技术,特别是涉及一种基于多模态信息的情感分布学习方法。
背景技术
情感识别是一个热门研究领域,在计算语言学、计算机视觉和机器学习等多个领域具有相当大的实践和理论价值。先前的大量研究只是能够解决“什么描述了情感”这一不明确的问题,即假设每个表情都与一个或多个预定义的情感标签相关联,而忽略了多种情绪始终具有不同强度的事实。因此,耿新等人将标记分布学习(LDL)框架引入到情感识别中。与以往的情感分类研究不同,LDL框架对一个实例分配一组具有描述度的标签,对情感的描述更加明确。
近年来,已经进行了一些基于LDL的情绪识别工作。例如,通过基于Plutchik的情感理论捕获标记的关系来进行情感学习的方法;利用标记相关性来构建情感识别模型的方法,等等。
但是,只通过面部表情或某单一模态来进行情感识别时具有一定的片面性。例如,在刑事案件中,被审讯人可以控制自己的面部表情来掩饰自己真实的情感,但是,心跳血压等生理信号很难控制,这时候多模态信息就显得尤为重要。多模态数据可以为情感识别提供更全面、更丰富的信息。
因此,现有的情感分布学习模型的主要缺点是:它们都是基于面部表情的单一模态学习,然而在现实世界中,只通过面部表情或某单一模态来进行情感识别时具有一定的片面性,且可能产生错误结果。例如,在刑事案件中,被审讯人可以控制自己的面部表情来掩饰自己真实的情感,但是,心跳血压等生理信号很难控制,这时候多模态信息就显得尤为重要。而且随着各种数据收集技术的出现,收集身体姿态、声音以及生理信号等多种模态的信息得以实现。
发明内容
发明目的:本发明的目的是提供一种基于多模态信息的情感分布学习方法,通过引入多模态信息可以提高情感分布学习模型的性能。
技术方案:本发明的基于多模态信息的情感分布学习方法,包括以下步骤:
S1、数据准备:提取多模态数据特征,并将多模态数据特征数据集分为训练集和测试集,分别用于模型训练部分和情感预测部分;
S2、模型训练:在步骤S1得到的训练集上学习每个模态的情感分布,具体地:首先为每个模态学习一个标记相关性矩阵,然后,利用希尔伯特-施密特独立标准约束每个模态的标记相关性矩阵相似构建出目标函数;最后,利用优化方法交替方向乘子算法ADMM对该目标函数进行最优化,求解出模型参数矩阵的最优值,即模型训练完成;
S3、情感预测:基于步骤S2中训练好的模型在测试集上进行预测,并通过融合策略将所有模态结果结合起来得到最终结果。
进一步的,步骤S1中提取多模态数据特征包括音频数据特征和视频数据特征,其中,音频数据特征提取中先对原始音频进行去躁,然后对去躁后的音频提取情感特征,具体为:
S101、删除原始音频中首尾各1s的内容;
S102、将经步骤S11处理后的音频信号在各尺度上进行小波分解,保留大尺度下的全部分解值;对于小尺度下的分解值,设定阈值:
Figure GDA0003781392280000021
其中,σ=MAD/0.6745,MAD为首层小波分解系数绝对值的中间值,0.6745为高斯噪声标准方差的调整系数,N为信号的尺寸或长度,幅值低于该阈值的小波系数置为零,高于该阈值的小波系数完整保留;
S103、将经步骤S102处理后的小波系数利用逆小波变换进行重构,恢复出有效的信号;
S104、根据步骤S103中去躁后的音频信号,依次经过预加重、分帧、加窗、快速傅里叶变换、梅尔滤波器组和离散余弦变换,计算得到MFCC特征;
S105、将步骤S104中获取的高维MFCC特征通过调用PCA方法降维;
视频数据特征提取的方法为:
S111、使用一个关键帧来表示视频中被试的情绪状态,该关键帧提取为语音振幅最高的那一帧;
S112、使用由RESNET预训练的VGG19网络来提取步骤S111中关键帧的特征,具体地:将含有通道维的关键帧图片矩阵输入到预训练好的VGG19网络,取分类器层之前的最后隐层的输出作为图片特征;使用由RESNET预训练的VGG19网络来提取图片特征,具体地:将含有通道维的图片矩阵输入到预训练好的VGG网络,取分类器层之前的最后隐层的输出作为图片特征。
进一步的,步骤S2具体包括以下步骤:
S21、在步骤S1得到的训练集上为每个模态各学习一个标记相关性矩阵,该标记相关性矩阵是一个二维对称矩阵,表示标记x与标记y之间的相关性,数值越大表示相关性越大;
S22、利用希尔伯特-施密特独立标准HSIC约束M个模态的标记相关性矩阵相似构建出目标函数;
S23、利用优化方法交替方向乘子算法ADMM对目标函数进行最优化,求解出模型参数矩阵的最优值,即模型训练完成。
更进一步的,步骤S21具体为:
采用核回归模型为每个模态来学习情感分布,给出一个核k,令H为对应的RKHS。对于模态m,输出函数为:
Figure GDA0003781392280000031
其中,
Figure GDA0003781392280000032
是基于模态m预测的情感分布,W(m)∈H是求解的参数矩阵,φ(m)具体为:
φ(m)=[φ([X(m)]1),φ([X(m)]2),…,φ([X(m)]n)];
其中,m表示第m个模态,
Figure GDA0003781392280000033
是一种核函数,[X(m)]n表示第m个模态中样本n的特征向量;为了拟合情感分布,采用均方误差作为损失函数,具体如下:
Figure GDA0003781392280000034
s.t.φ(m)·W(m)×1l×1=1n×1
φ(m)·W(m)≥0n×1
其中,D是真实的情感分布,‖·‖是RKHS范式,λ1是权重系数;根据表示定理将损失函数优化;表示定理优化策略如下:
Figure GDA0003781392280000035
其中,k(xi,x)表示样本i的特征xi与特征x的内积,αij为系数;因此,根据表示定理,优化后的损失函数为:
Figure GDA0003781392280000041
s.t.K(m)·α(m)×1l×1=1n×1
K(m)·α(m)≥0n×1
其中,tr(·)为均方矩阵的迹,K为核矩阵,即,[K(m)]i,j=k([X(m)]i,[X(m)]j),X(m)为第m个模态的特征矩阵,D为真实的情感分布矩阵,
Figure GDA0003781392280000042
为权重系数;
更进一步的,步骤S22具体为:
首先,标记流行正则化器定义为:
Figure GDA0003781392280000043
其中,
Figure GDA0003781392280000044
是关于m模态的预测情感分布,C(m)是l×l的标记相关性矩阵;定义
Figure GDA0003781392280000045
作为对角矩阵,其对角元素表示为
Figure GDA0003781392280000046
由于拉普拉斯矩阵是对称正定的,定义
Figure GDA0003781392280000047
那么,标记正则化项重新化简为:
min tr(K(m)α(m)Z(m)Z(m)Tα(m)TK(m)T);
s.t.diag(Z(m),Z(m)T)=1;
其中,diag(Z(m),Z(m)T)=1是为了防止在优化过程中Z(m)变为0;
在多模态学习中,多个模态的相关性应该被充分利用来促进模型的健壮性;希尔伯特-施密特独立标准HSIC度量两个变量在相似空间中的一致性,不同模态的标记相关矩阵是独立学习的,利用HSIC能够加强不同标记相关矩阵之间的依赖性;接下来给出HSIC的简略定义:首先,令φ(xi)为一个从
Figure GDA0003781392280000048
到核空间
Figure GDA0003781392280000049
的映射,该空间中向量的内积由核函数k1(xi,xj)=<φ(xi),φ(xj)>给出;令
Figure GDA00037813922800000410
为另一个关于
Figure GDA00037813922800000411
的核空间,该空间中向量的内积由核函数
Figure GDA00037813922800000412
给出;HSIC的实验版定义如下:
考虑一些列来自pxy的N个独立观察数据:
Figure GDA00037813922800000413
那么HSIC可以定义为:
Figure GDA00037813922800000414
其中K1和K2为克矩阵,k1,ij=k1(xi,xj),k2,ij=k2(yi,yj)。N约束克矩阵在特征空间中的均值为零;
因此,具体的目标函数最终形式如下:
Figure GDA0003781392280000051
s.t.diag(Z(m)Z(m)T)=1;
K(m)α(m)×1l×1=1n×1
K(m)α(m)≥0n×1
for m=1,2,…,M。
更进一步的,步骤S23具体为:
针对目标函数采用优化方法交替方向乘子算法ADMM进行最优化,求解出模型参数矩阵的最优值,即训练结束;具体为:
首先,将目标函数拆解成关于α和Z的两个子问题;
其次,在每次迭代中对每个子问题采用拟牛顿下降法L-BFGS算法对其优化;
然后,使用交替方向乘子算法ADMM进行整体优化,最终达到收敛,停止迭代,获得最优的参数矩阵α和Z。
进一步的,步骤S3具体为:融合策略采用线性意见池方法,并定义了加权规则来组合每个决策的预测值,如下所示:
Figure GDA0003781392280000052
其中,
Figure GDA0003781392280000053
是预测的情感分布矩阵,表示第m模态的测试集
Figure GDA0003781392280000054
γ(m)是对应的权重,并满足
Figure GDA0003781392280000055
是最终的预测情感分布。
有益效果:与现有技术相比,本发明具有以下好的技术效果:
(1)本发明首次提出多模态情感分布学习来解决现有情感分布学习中信息不全面、容易受噪声干扰等缺陷;
(2)本发明设计了一个适用于多模态情感分布学习的方法,它既保留了多模态中信息全面的优势,又充分利用了标记分布中有价值的语义信息;
(3)本发明对两个真实多模态情感数据集进行了特征提取,为多模态情感分布学习提供了实验基础;
(4)实验验证了本发明的方法明显优于一些最新的多模态情感预测方法和单模态情感分布学习方法。
附图说明
图1是本发明提出的基于多模态信息的情感分布学习方法流程图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。以下所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
本发明提出了一种适用于多模态情感分布学习的方法,它既保留了多模态中信息全面的优势,又充分利用了标记分布中有价值的语义信息。情感分布最显著特点是情感标记之间的相关性。比如,当一个人在生气的时候,很有可能带有一部分厌恶的情绪,因此,“生气”和“厌恶”属于正相关的一对标签,相反,当一个人生气的时候,不大可能会有开心的情绪,因此,“生气”和“开心”属于负相关的一对标签。不同于前人通过先验知识挖掘标记相关性的方法,本发明通过学习来获取更加准确的标记相关性矩阵。另外,本发明在进行多模态数据处理时采用了后期融合策略,同时,在训练过程中通过约束不同模态的标记相关性矩阵尽可能相似来实现不同模态之间的相互印证和相互补充。
多模态情感识别问题可以定义为,在X={x(1),…,x(m),…,x(M)}为M个多模态的特征空间,其中
Figure GDA0003781392280000061
qm为第m个模态的特征纬度。标记空间为D=[d1;d2;…;dn],其中
Figure GDA0003781392280000062
表示标记j对样本i的描述程度,并且满足
Figure GDA0003781392280000063
Figure GDA0003781392280000064
多模态情绪分布学习的目标是学习一个映射函数f:X→D能够预测新样本的情感分布。
如图1所示,本发明的一种多模态情感分布学习方法,首先提取多模态数据特征,其次利用核回归模型学习每个模态的情感分布,并同时采用希尔伯特-施密特独立标准(HSIC)来促进不同模态间的相互印证和相互补充,最后,通过融合策略将将所有模态结果结合起来得到最终结果。本发明适用于各种多模态情感识别问题,包含但不限于音频、视频、心电图等,实验过程中采用了典型的音频和视频作为多模态数据。
具体流程为:
S1、数据准备:提取多模态数据特征,并将多模态数据特征数据集分为训练集和测试集,分别用于模型训练部分和情感预测部分;
特征提取中,不同的模态采用的方法不同,本发明基于音频数据和视频数据展开介绍;其中,音频数据特征提取中先对原始音频进行去躁,然后对去躁后的音频提取情感特征。
音频数据所收集到的情绪数据通常含有背景噪声和录音机的“嘶嘶声”。一般情况下,噪声的存在会对信号造成破坏,使特征提取和分类的准确性降低。在本发明中,我们通过对小波阈值去噪来实现降噪。由于前部分和后部分不能提供有用的信息,因此可以消除它们。要实现情感识别,提取出真正能代表预期情感的普遍特征是一个挑战。对于情感型言语而言,良好的参考模型是人类听觉系统。经过大量前人的研究,韵律被认为是衡量说话人情绪状态的主要指标,因此大部分作品都采用了韵律特征,即Mel-frequency CepstralCoefficient(MFCC)\cite,也被广泛应用于语音识别和其他一些语音处理应用中,也有针对情绪识别的研究。由于本发明的目标是模拟人类对情绪的感知,并确定可能的特征来传达讲话中潜在的情绪,而不考虑语言、说话者和上下文,因此本发明研究了所有这两种类型的特征。由于我们提取的音频特征是高维的,我们使用PCA将其降至168维。
面部表情是人类情感识别的另一个重要因素。一般首先从图像中检测出人脸区域,然后从观察到的人脸图像或图像序列中提取出人脸表情信息。对于静止图像,提取面部表情信息是指从一幅图像中对人脸及其特征进行定位。在图像序列的情况下,它意味着跟踪人脸的运动及其在图像序列中的特征。虽然后一种情况可以提供更准确的面部表征,但它通常需要更多的计算。在本文中,我们使用一个关键帧来表示视频中被试的情绪状态,该关键帧提取为语音振幅最高的那一帧。选择关键帧的基本想法是基于直觉和观察,即在较大的声音幅度下,人脸特征会被夸大。得到关键帧的人脸区域后,将其输入到VGG网络中,学习视频特征。
音频去躁过程具体如下:
S101、由于原始音频的前部分和后部分不能提供有用的信息,因此删除原始音频中首尾各1s的内容;
S102、音频数据所收集到的情绪数据通常含有背景噪声和录音机的“嘶嘶声”。一般情况下,噪声的存在会对信号造成破坏,使特征提取和分类的准确性降低。在本发明中,我们通过对小波阈值去噪来实现降噪。具体地,将经步骤S101处理后的音频信号在各尺度上进行小波分解,保留大尺度下的全部分解值;对于小尺度下的分解值,设定阈值:
Figure GDA0003781392280000081
其中,σ=MAD/0.6745,MAD为首层小波分解系数绝对值的中间值,0.6745为高斯噪声标准方差的调整系数,N为信号的尺寸或长度,幅值低于该阈值的小波系数置为零,高于该阈值的小波系数完整保留。
S103、将经步骤S102处理后的小波系数利用逆小波变换进行重构,恢复出有效的信号。
音频特征提取的方法为:
S103、经过大量前人的研究,韵律被认为是衡量说话人情绪状态的主要指标,因此大部分作品都采用了韵律特征,即梅尔频率倒谱系数(MFCC)。具体地,首先根据上述步骤3)中去躁后的音频计算MFCC特征,经过步骤为:预加重,分帧,加窗,快速傅里叶变换(FFT),梅尔滤波器组,离散余弦变换(DCT)。
S104、由于本发明提取的音频特征是高维的,因此将步骤1)中获取的高维特征通过调用PCA方法降至168维。
视频数据特征提取的方法为:
S111、对于静止图像,提取面部表情信息是指从一幅图像中对人脸及其特征进行定位。在图像序列的情况下,它意味着跟踪人脸的运动及其在图像序列中的特征。虽然后一种情况可以提供更准确的面部表征,但它通常需要更多的计算。在本发明中,我们使用一个关键帧来表示视频中被试的情绪状态,该关键帧提取为语音振幅最高的那一帧。选择关键帧的基本想法是基于直觉和观察,即在较大的声音幅度下,人脸特征会被夸大。
S112、使用由RESNET预训练的VGG19网络来提取步骤(1)中关键帧的特征,具体地:将含有通道维的关键帧图片矩阵输入到预训练好的VGG19网络,取分类器层之前的最后隐层的输出作为图片特征。使用由RESNET预训练的VGG19网络来提取图片特征,具体地:将含有通道维的图片矩阵输入到预训练好的VGG网络,取分类器层之前的最后隐层的输出作为图片特征。
以上提取到的音频和视频特征将被数据集分为训练集和测试集,分别作为模型训练部分的输入特征和情感预测部分的输入特征。
S2、模型训练:在步骤S1得到的训练集上学习每个模态的情感分布。具体地,首先为每个模态学习一个标记相关性矩阵(即一个二维对称矩阵,表示标记x与标记y之间的相关性,数值越大表示相关性越大);然后,利用希尔伯特-施密特独立标准(HSIC)约束每个模态的标记相关性矩阵相似构建出目标函数;最后,利用优化方法交替方向乘子算法ADMM对该目标函数进行最优化,求解出模型参数矩阵的最优值,即模型训练完成。具体为:
S21、在步骤S1得到的训练集上,为每个模态各学习一个标记相关性矩阵;
本发明采用核回归模型为每个模态来学习情感分布。给出一个核k,令H为对应的RKHS。对于模态m,输出函数为:
Figure GDA0003781392280000091
其中,
Figure GDA0003781392280000092
是基于模态m预测的情感分布,W(m)∈H是求解的参数矩阵,φ(m)具体为:
Figure GDA0003781392280000093
其中,m表示第m个模态,
Figure GDA0003781392280000094
是一种核函数,[X(m)]n表示第m个模态中样本n的特征向量。为了拟合情感分布,本发明采用均方误差作为损失函数,具体如下:
Figure GDA0003781392280000095
s.t.φ(m)·W(m)×1l×1=1n×1
φ(m)·W(m)≥0n×1
其中,D是真实的情感分布,‖·‖是RKHS范式,λ1是权重系数。根据表示定理可将损失函数优化。表示定理优化策略如下:
Figure GDA0003781392280000096
其中,k(xi,x)表示样本i的特征xi与特征x的内积,αij为系数。因此,根据表示定理,优化后的损失函数为:
Figure GDA0003781392280000101
s.t.K(m)·α(m)×1l×1=1n×1
K(m)·α(m)≥0n×1
其中,tr(·)为均方矩阵的迹,K为核矩阵,即,[K(m)]i,j=k([X(m)]i,[X(m)]j),α(m)为第m个模态的系数,[X(m)]i表示第m个模态中样本i的特征向量,X(m)为第m个模态的特征矩阵,D为真是的情感分别矩阵,
Figure GDA0003781392280000102
为权重系数。
S22、利用希尔伯特-施密特独立标准(HSIC)约束M个模态的标记相关性矩阵相似构建出目标函数;
挖掘标签相关性对情感分布学习至关重要。本发明使用了流行正则化器来改进模型。具体来说,两个标签的正相关程度越高,对应的输出越接近,反之亦然。也就是说,正相关的标签会促使对应的输出相似,而负相关的标签会将对应的输出推向相反的方向。标签流形正则化器的成功与否取决于一个好的标记关联矩阵(或者等同于一个好的标记拉普拉斯矩阵)。在LDL中,一个基本的方法是通过皮尔森相关理论计算两个标签之间的相关系数。但是在数据获取的过程中不可避免地会引入一些噪声,因此根据先验知识得到的情感标签的相关系数是不准确的,甚至会产生误导。在本发明中直接学习拉普拉斯矩阵,而不是指定任何相关度量或标号相关矩阵。因此,标记流行正则化器可定义为:
Figure GDA0003781392280000103
其中,
Figure GDA0003781392280000104
是关于m模态的预测情感分布,C(m)是l×l的标记相关性矩阵。定义
Figure GDA0003781392280000105
作为对角矩阵,其对角元素表示为
Figure GDA0003781392280000106
由于拉普拉斯矩阵是对称正定的,定义
Figure GDA0003781392280000107
那么,标记正则化项可以重新化简为:
min tr(K(m)α(m)Z(m)Z(m)Tα(m)TK(m)T);
s.t.diag(Z(m),Z(m)T)=1;
其中,diag(Z(m),Z(m)T)=1是为了防止在优化过程中Z(m)变为0。
在多模态学习中,多个模态的相关性应该被充分利用来促进模型的健壮性。希尔伯特-施密特独立标准(HSIC)度量两个变量在相似空间中的一致性,不同模态的标记相关矩阵是独立学习的,利用HSIC能够加强不同标记相关矩阵之间的依赖性。接下来给出HSIC的简略定义。首先,令φ(xi)为一个从
Figure GDA0003781392280000111
到核空间
Figure GDA0003781392280000112
的映射,该空间中向量的内积由核函数k1(xi,xj)=<φ(xi),φ(xj)>给出;令
Figure GDA0003781392280000113
为另一个关于
Figure GDA0003781392280000114
的核空间,该空间中向量的内积由核函数
Figure GDA0003781392280000115
给出。HSIC的实验版定义如下:
考虑一些列来自pxy的N个独立观察数据:
Figure GDA0003781392280000116
那么HSIC可以定义为:
Figure GDA0003781392280000117
其中K1和K2为克矩阵,k1,ij=k1(xi,xj),k2,ij=k2(yi,yj)。N约束克矩阵在特征空间中的均值为零。
因此,具体的目标函数最终形式如下:
Figure GDA0003781392280000118
s.t.diag(Z(m)Z(m)T)=1;
K(m)α(m)×1l×1=1n×1
K(m)α(m)≥0n×1
for m=1,2,…,M;
S23、利用优化方法交替方向乘子算法ADMM对该目标函数进行最优化,求解出模型参数矩阵的最优值,即模型训练完成;
具体如下:
首先,将目标函数拆解成关于α和Z的两个子问题;
其次,在每次迭代中对每个子问题采用拟牛顿下降法L-BFGS算法对其优化;
然后,使用交替方向乘子算法ADMM进行整体优化,最终达到收敛,停止迭代,获得最优的参数矩阵α和Z。
S3、情感预测:基于步骤S2中训练好的模型在测试集上进行预测,并通过融合策略将所有模态结果结合起来得到最终结果。
情感预测:
本发明的融合策略采用线性意见池方法,并定义了加权规则来组合每个决策的预测值,如下所示:
Figure GDA0003781392280000121
其中,
Figure GDA0003781392280000122
是预测的情感分布矩阵,表示第m模态的测试集
Figure GDA0003781392280000123
γ(m)是对应的权重,并满足
Figure GDA0003781392280000124
是最终的预测情感分布。
为了验证本发明提出的多模态情感方法的有益性,本发明进行了大量实验。本发明的实验是在两个真实的多模态情感数据集上进行,分别为RAVDESS和SAVEE,包含视频和音频两个模态。本发明采用6个常用的情感分布学习评价指标:K-L、Chebyshev、Intersetcion、Cosine、Clark、Canberra。
首先,本发明与6个先进的情感分布学习方法进行了对比。实验中单模态的情感分布学习方法包含EDL-LRL、LDL-SCL、LDLLC、EDL、BFGS和PT-Bayes,在表一中每个单模态情感分布算法第一行展示的是最佳模态的实验结果,第二行展现的是将两个模态数据拼接在一起的结果。除此之外,本发明还与多模态情感预测方法进行了对比,具体地,包含SEE-SVR和ADR-PLS,如表1所示:
表1 9个算法在2个数据集上的实验结果
Figure GDA0003781392280000125
Figure GDA0003781392280000131
在表1中,算法MEDL(Multimodal Emotion Distribution Learning)为本发明提出的方法,显然MEDL在所有评价指标上均表现最优。

Claims (4)

1.一种基于多模态信息的情感分布学习方法,其特征在于,包括以下步骤:
S1、数据准备:提取多模态数据特征,并将多模态数据特征数据集分为训练集和测试集,分别用于模型训练部分和情感预测部分;
S2、模型训练:在步骤S1得到的训练集上学习每个模态的情感分布,具体地:首先为每个模态学习一个标记相关性矩阵,然后,利用希尔伯特-施密特独立标准约束每个模态的标记相关性矩阵相似构建出目标函数;最后,利用优化方法交替方向乘子算法ADMM对该目标函数进行最优化,求解出模型参数矩阵的最优值,即模型训练完成;具体包括以下步骤:
S21、在步骤S1得到的训练集上为每个模态各学习一个标记相关性矩阵,该标记相关性矩阵是一个二维对称矩阵,表示标记x与标记y之间的相关性,数值越大表示相关性越大;具体的:
采用核回归模型为每个模态来学习情感分布,给出一个核k,令H为对应的RKHS;对于模态m,输出函数为:
Figure FDA0003781392270000011
其中,
Figure FDA0003781392270000012
是基于模态m预测的情感分布,W(m)∈H是求解的参数矩阵,φ(m)具体为:
φ(m)=[φ([X(m)]1),φ([X(m)]2),…,φ([X(m)]n)];
其中,m表示第m个模态,
Figure FDA0003781392270000013
是一种核函数,[X(m)]n表示第m个模态中样本n的特征向量;为了拟合情感分布,采用均方误差作为损失函数,具体如下:
Figure FDA0003781392270000014
s.t.φ(m)·W(m)×1l×1=1n×1
φ(m)·W(m)≥0n×1
其中,D是真实的情感分布,‖·‖是RKHS范式,λ1是权重系数;根据表示定理将损失函数优化;表示定理优化策略如下:
Figure FDA0003781392270000015
其中,k(xi,x)表示样本i的特征xi与特征x的内积,αij为系数;因此,根据表示定理,优化后的损失函数为:
Figure FDA0003781392270000021
s.t.K(m)·α(m)×1l×1=1n×1
K(m)·α(m)≥0n×1
其中,tr(·)为均方矩阵的迹,K为核矩阵,即,[K(m)]i,j=k([X(m)]i,[X(m)]j),X(m)为第m个模态的特征矩阵,D为真实的情感分布矩阵,
Figure FDA0003781392270000022
为权重系数;
S22、利用希尔伯特-施密特独立标准HSIC约束M个模态的标记相关性矩阵相似构建出目标函数;具体为:
首先,标记流行正则化器定义为:
Figure FDA0003781392270000023
其中,
Figure FDA0003781392270000024
是关于m模态的预测情感分布,C(m)是l×l的标记相关性矩阵;定义
Figure FDA0003781392270000025
作为对角矩阵,其对角元素表示为
Figure FDA0003781392270000026
由于拉普拉斯矩阵是对称正定的,定义
Figure FDA0003781392270000027
那么,标记正则化项重新化简为:
min tr(K(m)α(m)Z(m)Z(m)Tα(m)TK(m)T);
s.t.diag(Z(m),Z(m)T)=1;
其中,diag(Z(m),Z(m)T)=1是为了防止在优化过程中Z(m)变为0;
在多模态学习中,多个模态的相关性应该被充分利用来促进模型的健壮性;希尔伯特-施密特独立标准HSIC度量两个变量在相似空间中的一致性,不同模态的标记相关矩阵是独立学习的,利用HSIC能够加强不同标记相关矩阵之间的依赖性;接下来给出HSIC的简略定义:首先,令φ(xi)为一个从
Figure FDA0003781392270000028
到核空间
Figure FDA0003781392270000029
的映射,该空间中向量的内积由核函数k1(xi,xj)=<φ(xi),φ(xj)>给出;令
Figure FDA00037813922700000210
为另一个关于
Figure FDA00037813922700000211
的核空间,该空间中向量的内积由核函数
Figure FDA00037813922700000212
给出;HSIC的实验版定义如下:
考虑一系 列来自pxy的N个独立观察数据:
Figure FDA00037813922700000213
那么HSIC定义为:
Figure FDA0003781392270000031
其中K1和K2为克矩阵,k1,ij=k1(xi,xj),k2,ij=k2(yi,yj);N约束克矩阵在特征空间中的均值为零;
因此,具体的目标函数最终形式如下:
Figure FDA0003781392270000032
s.t.diag(Z(m)Z(m)T)=1;
K(m)α(m)×1l×1=1n×1
K(m)α(m)≥0n×1
for m=1,2,…,M;
S23、利用优化方法交替方向乘子算法ADMM对目标函数进行最优化,求解出模型参数矩阵的最优值,即模型训练完成;
S3、情感预测:基于步骤S2中训练好的模型在测试集上进行预测,并通过融合策略将所有模态结果结合起来得到最终结果。
2.根据权利要求1所述的基于多模态信息的情感分布学习方法,其特征在于,步骤S1中提取多模态数据特征包括音频数据特征和视频数据特征,其中,音频数据特征提取中先对原始音频进行去躁,然后对去躁后的音频提取情感特征,具体为:
S101、删除原始音频中首尾各1s的内容;
S102、将经步骤S11处理后的音频信号在各尺度上进行小波分解,保留大尺度下的全部分解值;对于小尺度下的分解值,设定阈值:
Figure FDA0003781392270000033
其中,σ=MAD/0.6745,MAD为首层小波分解系数绝对值的中间值,0.6745为高斯噪声标准方差的调整系数,N为信号的尺寸或长度,幅值低于该阈值的小波系数置为零,高于该阈值的小波系数完整保留;
S103、将经步骤S102处理后的小波系数利用逆小波变换进行重构,恢复出有效的信号;
S104、根据步骤S103中去躁后的音频信号,依次经过预加重、分帧、加窗、快速傅里叶变换、梅尔滤波器组和离散余弦变换,计算得到MFCC特征;
S105、将步骤S104中获取的高维MFCC特征通过调用PCA方法降维;
视频数据特征提取的方法为:
S111、使用一个关键帧来表示视频中被试的情绪状态,该关键帧提取为语音振幅最高的那一帧;
S112、使用由RESNET预训练的VGG19网络来提取步骤S111中关键帧的特征,具体地:将含有通道维的关键帧图片矩阵输入到预训练好的VGG19网络,取分类器层之前的最后隐层的输出作为图片特征;使用由RESNET预训练的VGG19网络来提取图片特征,具体地:将含有通道维的图片矩阵输入到预训练好的VGG网络,取分类器层之前的最后隐层的输出作为图片特征。
3.根据权利要求1所述的基于多模态信息的情感分布学习方法,其特征在于,步骤S23具体为:
针对目标函数采用优化方法交替方向乘子算法ADMM进行最优化,求解出模型参数矩阵的最优值,即训练结束;具体为:
首先,将目标函数拆解成关于α和Z的两个子问题;
其次,在每次迭代中对每个子问题采用拟牛顿下降法L-BFGS算法对其优化;
然后,使用交替方向乘子算法ADMM进行整体优化,最终达到收敛,停止迭代,获得最优的参数矩阵α和Z。
4.根据权利要求1所述的基于多模态信息的情感分布学习方法,其特征在于,步骤S3具体为:融合策略采用线性意见池方法,并定义了加权规则来组合每个决策的预测值,如下所示:
Figure FDA0003781392270000041
其中,
Figure FDA0003781392270000042
是预测的情感分布矩阵,表示第m模态的测试集
Figure FDA0003781392270000043
γ(m)是对应的权重,并满足
Figure FDA0003781392270000044
Figure FDA0003781392270000045
是最终的预测情感分布。
CN202011434335.6A 2020-12-10 2020-12-10 一种基于多模态信息的情感分布学习方法 Active CN112418166B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011434335.6A CN112418166B (zh) 2020-12-10 2020-12-10 一种基于多模态信息的情感分布学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011434335.6A CN112418166B (zh) 2020-12-10 2020-12-10 一种基于多模态信息的情感分布学习方法

Publications (2)

Publication Number Publication Date
CN112418166A CN112418166A (zh) 2021-02-26
CN112418166B true CN112418166B (zh) 2022-11-11

Family

ID=74775410

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011434335.6A Active CN112418166B (zh) 2020-12-10 2020-12-10 一种基于多模态信息的情感分布学习方法

Country Status (1)

Country Link
CN (1) CN112418166B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114548262B (zh) * 2022-02-21 2024-03-22 华中科技大学鄂州工业技术研究院 一种情感计算中多模态生理信号的特征级融合方法
CN114722812A (zh) * 2022-04-02 2022-07-08 尚蝉(浙江)科技有限公司 一种多模态深度学习模型脆弱性的分析方法和系统
CN114722723B (zh) * 2022-04-29 2024-06-21 湖北工业大学 基于核极限学习机优化的情感倾向预测方法及设备
CN115982395B (zh) * 2023-03-20 2023-05-23 北京中科闻歌科技股份有限公司 一种基于量子的媒体信息的情感预测方法、介质及设备
CN117133277B (zh) * 2023-10-20 2024-01-05 中影年年(北京)文化传媒有限公司 用于人机交互的虚拟人物表情控制方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160053455A (ko) * 2014-11-04 2016-05-13 경북대학교 산학협력단 로봇의 표정 기반 연속적 정서 인식 방법, 이를 수행하기 위한 기록 매체 및 장치
CN106250855A (zh) * 2016-08-02 2016-12-21 南京邮电大学 一种基于多核学习的多模态情感识别方法
CN110598299A (zh) * 2019-09-04 2019-12-20 北京理工大学 一种基于传感器融合与深度学习的表面完整性评价方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160053455A (ko) * 2014-11-04 2016-05-13 경북대학교 산학협력단 로봇의 표정 기반 연속적 정서 인식 방법, 이를 수행하기 위한 기록 매체 및 장치
CN106250855A (zh) * 2016-08-02 2016-12-21 南京邮电大学 一种基于多核学习的多模态情感识别方法
CN110598299A (zh) * 2019-09-04 2019-12-20 北京理工大学 一种基于传感器融合与深度学习的表面完整性评价方法

Also Published As

Publication number Publication date
CN112418166A (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
CN112418166B (zh) 一种基于多模态信息的情感分布学习方法
CN111461176A (zh) 基于归一化互信息的多模态融合方法、装置、介质及设备
CN110826466A (zh) 基于lstm音像融合的情感识别方法、装置及存储介质
CN112151030A (zh) 一种基于多模态的复杂场景语音识别方法和装置
CN111128242B (zh) 一种基于双深度网络的多模式情感信息融合与识别方法
Kaluri et al. An enhanced framework for sign gesture recognition using hidden Markov model and adaptive histogram technique.
Praveen et al. Audio–visual fusion for emotion recognition in the valence–arousal space using joint cross-attention
CN115169507B (zh) 类脑多模态情感识别网络、识别方法及情感机器人
García-Ordás et al. Sentiment analysis in non-fixed length audios using a Fully Convolutional Neural Network
CN106096642B (zh) 基于鉴别局部保持投影的多模态情感特征融合方法
Elmadany et al. Multiview learning via deep discriminative canonical correlation analysis
Mangin et al. Learning semantic components from subsymbolic multimodal perception
CN112101096A (zh) 一种基于语音和微表情的多模态融合的自杀情绪感知方法
CN114140885A (zh) 一种情感分析模型的生成方法、装置、电子设备以及存储介质
CN114724224A (zh) 一种用于医疗护理机器人的多模态情感识别方法
CN114550057A (zh) 一种基于多模态表示学习的视频情绪识别方法
Fan et al. Transformer-based multimodal feature enhancement networks for multimodal depression detection integrating video, audio and remote photoplethysmograph signals
CN115641533A (zh) 目标对象情绪识别方法、装置和计算机设备
CN116129141A (zh) 医学数据处理方法、装置、设备、介质和计算机程序产品
Ivanko et al. An experimental analysis of different approaches to audio–visual speech recognition and lip-reading
Akinpelu et al. Lightweight deep learning framework for speech emotion recognition
Razzaq et al. A hybrid multimodal emotion recognition framework for UX evaluation using generalized mixture functions
CN111462762A (zh) 一种说话人向量正则化方法、装置、电子设备和存储介质
Haq et al. Using lip reading recognition to predict daily Mandarin conversation
CN116244474A (zh) 一种基于多模态情感特征融合的学习者学习状态获取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant