CN111242155A - 一种基于多模深度学习的双模态情感识别方法 - Google Patents

一种基于多模深度学习的双模态情感识别方法 Download PDF

Info

Publication number
CN111242155A
CN111242155A CN201910951187.6A CN201910951187A CN111242155A CN 111242155 A CN111242155 A CN 111242155A CN 201910951187 A CN201910951187 A CN 201910951187A CN 111242155 A CN111242155 A CN 111242155A
Authority
CN
China
Prior art keywords
audio
video
network
convolutional neural
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910951187.6A
Other languages
English (en)
Inventor
赵小明
张石清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taizhou University
Original Assignee
Taizhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taizhou University filed Critical Taizhou University
Priority to CN201910951187.6A priority Critical patent/CN111242155A/zh
Publication of CN111242155A publication Critical patent/CN111242155A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及语音和图像处理、模式识别领域,公开了一种基于多模深度学习的双模态情感识别方法,包括步骤:A)分别获得音频和视频RGB图像三通道输入矩阵,获得音频数据样本和视频数据样本;B)构建音频深度卷积神经网络和视频深度卷积神经网络,获得高层次音频特征和获得高层次视频特征;C)建立由全连接层构成的融合网络,构建高层次音视频统一特征;D)将融合网络最后一层全连接层输出的音视频统一特征聚合成全局特征,将全局特征输入到分类器中,获得音视频情感识别分类结果。本发明采用了全连接层构成的融合网络,实现对音视频情感信息的融合,构建高层次的音视频统一特征表示,有效地提高音视频情感识别性能。

Description

一种基于多模深度学习的双模态情感识别方法
技术领域
本发明涉及语音和图像处理、模式识别领域,特别是涉及一种基于多模深度学习的双模态情感识别方法。
背景技术
语音信号和人脸表情是人类之间情感交流的两种主要方式。融合音视频中的情感语音信息和人脸表情信息进行情感识别,通常称为“音视频情感识别”。音视频情感识别研究的最终目标是让计算机通过情感语音和人脸表情同时对用户的情感信息进行获取、识别和响应,以便帮助用户在和谐、自然地交互模式下高效地完成既定的任务。因此,该研究在人工智能、自然人机交互等领域具有重要的应用价值。
在音视频情感特征的提取方面,现有技术采用手工设计的典型的音视频情感特征参数,即语音情感识别领域和人脸表情识别领域中常用的主流特征参数,具体包括:与情感语音相关的韵律特征、音质特征、谱特征,以及与人脸表情相关的形变特征、运动特征等(比如文献:Y.Wang and L.Guan.Recognizing human emotional state from audiovisualsignals.IEEE Transaction on Multimedia,10(5):936–946,2008.)。尽管这些手工设计的典型的音视频情感特征参数已经成为音视频情感识别研究中的主流特征参数,但是手工设计的情感特征依赖于设计者的经验和专业知识,可靠性不够,很难利用大数据的优势。此外,手工设计的特征都属于低层次的情感特征,因为它们对于情感语义的表示力非常有限,尤其与人脑理解的高层次的情感语义之间存在较大差异,即存在“情感鸿沟”问题。
在音视频情感信息的融合策略方面,现有的融合方法,如特征层融合和决策层融合,都是采用某种规则或模型对最后获得的手工设计的音视频情感特征数据进行一次简单的融合操作,如串联,因此它们都属于浅层融合方法。这些浅层融合方法无法对具有高度非线性的音视频情感特征数据之间的内在关系进行深度建模,因而也无法构建出高层次的跨媒体的音视频情感特征数据的统一表征。
发明内容
本发明是为了解决手工设计特征对于情感语义的表示力有限以及现有融合方法无法构建高层次的音视频统一特征表示的问题,提供一种基于多模深度学习的双模态情感识别方法,本发明采用两个深度卷积神经网络(CNN)模型分别对音频、视频信号进行高层次的特征学习,然后采用全连接层构成的融合网络实现音视频情感信息的融合,构建高层次的音视频统一特征表示,用于音视频情感的分类。
为了实现上述目的,本发明采用以下技术方案:
一种基于多模深度学习的双模态情感识别方法,包括步骤:
A)采集音视频信号,获取语音Mel频谱片段和与语音Mel频谱片段对应的视频片段,获得音频RGB图像三通道输入矩阵和视频RGB图像三通道输入矩阵,获得音频数据样本和视频数据样本;
B)构建音频深度卷积神经网络和视频深度卷积神经网络,利用音频数据样本训练音频深度卷积神经网络,获得高层次音频特征;利用视频数据样本训练深度卷积神经网络,获得高层次视频特征;
C)构建高层次的音视频统一特征,建立由全连接层构成的融合网络,融合网络最后一层全连接层与分类器相连;
D)将最后一层全连接层的输出聚合成全局特征,将全局特征输入到分类器中,获得音视频情感识别分类结果,验证融合网络的识别率。
通过采用两个深度卷积神经网络模型分别对音频、视频信号进行高层次的特征学习,然后采用全连接层构成的融合网络实现音视频情感信息的融合,构建高层次的音视频统一特征表示,用于音视频情感的分类。
进一步地,步骤A)中,获得音频数据样本包括步骤:
A1)采集一维的情感语音信号,采用N1个Mel滤波器和N2帧的文本窗大小,获得N1×N2的二维静态频谱片段特征;
A2)对二维静态频谱片段特征在时间轴上进行一阶求导,获得一阶求导系数;
A3)对二维静态频谱片段特征在时间轴上进行二阶求导,获得二阶求导系数;
A4)将语音信号的二维静态频谱片段特征、一阶求导系数和二阶求导系数分别作为RGB图像的三通道,获得特征为N1×N2×3的音频RGB图像三通道输入矩阵;
A5)对特征为N1×N2×3的音频RGB图像三通道输入矩阵进行缩放处理,获得预设特征大小的音频RGB图像三通道输入矩阵;
A6)依次重复步骤A1)至A5),获得K个音频数据样本,记为{α1,α2,...,αK}。
对于一维的情感语音信号,先采用N1个Mel滤波器和N2帧的文本窗大小,计算出二维的静态频谱片段N1×N2,然后对其在时间轴上进行一阶和二阶求导,以便抓住该频谱片段的时间动态特性。最后,将语音信号的静态的频谱片段特征、以及它的一阶求导系数和二阶求导系数作为RGB图像的三个通道,从而得到一个类似于RGB图像的三维Mel频谱片段,特征为N1×N2×3,然后缩放成预设特征大小的音频RGB图像三通道输入矩阵,将其作为音频深度卷积神经网络的音频输入,获得K个音频数据样本。
进一步地,步骤A)中,获得视频数据样本包括步骤:
A11)选取与语音Mel频谱片段对应的视频片段最中心的一帧图像作为关键帧图像;
A22)对每一幅关键帧图像进行实时性人脸检测与定位;
A33)计算出人脸双眼瞳孔中心之间的距离,将双眼瞳孔中心之间的距离统一缩放到n个像素大小的距离;
A44)把图像裁切成包含嘴巴、鼻子、额头等关键表情部位的N3×N4×3大小区域图像;
A55)对N3×N4×3大小区域图像进行缩放处理,获得预设特征大小的视频RGB图像三通道输入矩阵;
A66)依次重复步骤A11)至A55),获得K个视频数据样本,记为{v1,v2,...,vK}。
在产生的语音Mel频谱片段所对应的视频片段中,选取该视频片段最中心的一帧图像作为关键帧图像,用于视频的表情识别。
进一步地,步骤A5)中,采用双线性内插法对特征为N1×N2×3的音频RGB图像三通道输入矩阵进行缩放处理;步骤A55)中,采用双线性内插法对N3×N4×3大小区域图像进行缩放处理。
通过采用双线性内插法对图像进行缩放处理,使缩放处理后的图像能够满足深度卷积神经网络模型的图像输入特征要求。
进一步地,步骤B)中,对音频深度卷积神经网络和视频深度卷积神经网络进行初始化,卷积神经网络均包含5个卷积层、3个池化层和3个全连接层,所有池化层均采用平均池化,最后一层全连接层与分类器相连。
对每个音视频片段,均采用两个深度卷积神经网络,在目标情感数据集上进行微调,分别学习出高层次的音频、视频情感特征表示。这两个深度卷积神经网络模型都采用深度卷积神经网络,对其进行初始化,两个卷积神经网络均包含5个卷积层、3个池化层和3个全连接层,3个全连接层分别为fc6,fc7和fc8。其中,fc7层表示卷积神经网络所学习到的高层次的属性特征;而fc8层与分类器相连,利用分类器输出情感识别分类结果。
进一步地,步骤B)中,还包括计算总样本损失函数,更新网络权重值;通过计算
Figure BDA0002225744800000031
得到损失函数,其中,
Figure BDA0002225744800000032
表示第j个情感识别类别的真实值,Sj表示深度卷积神经网络的分类器输出的第j个情感识别类别预测值,l表示情感类别数目;通过计算
Figure BDA0002225744800000041
得到总样本损失函数,Li(S,y)为第i个样本的损失函数,K为样本总数。
获得音视频样本{(a1,v1,y1),...(ai,vi,yi),...,(aK,vk,yK)},其中(ai,vi,yi)表示第i个音视频数据样本,ai表示第i个音频数据样本,vi表示第i个视频数据样本,yi表示第i个音视频数据样本真实的情感识别类别向量,将分类器设为softmax分类器,利用音频数据训练样本对音频深度卷积神经网络A进行训练,则相当于求解最优化问题:
Figure BDA0002225744800000042
其中,ai表示第i个音频数据样本,θA为网络A的网络参数,ΥA(ai;θA)为网络A的最后一层全连接层的特征表示,WA为网络A的最后一层全连接层的权重值。
利用视频数据训练样本对深度卷积神经网络V进行训练,则相当于求解最优化问题:
Figure BDA0002225744800000043
其中,vi表示第i个视频数据样本,θV为网络V的网络参数,γV(vi;θV)为网络V的最后一层全连接层的特征表示,WV为网络V的最后一层全连接层的权重值。
进一步地,步骤C)中,构建高层次的音视频统一特征,包括:
C1)对训练好的音频深度卷积神经网络的权重值WA和视频深度卷积神经网络的权重值WV进行固定;
C2)去掉音频深度卷积神经网络的分类器和视频深度卷积神经网络的分类器;
C3)将去掉分类器后的音频深度卷积神经网络最后一层全连接层的输出与去掉分类器后的视频深度卷积神经网络最后一层全连接层的输出进行串联,获得总的特征向量,将总的特征向量作为融合模型F的输入,获得高层次的音视频统一特征。
采用全连接层构成的融合网络对多模深度卷积神经网络学习到的音频、视频特征进行融合学习,构建高层次的音视频统一特征表示,包括:
将训练好的音频网络A和视频网络V的权重值(WA,WV)进行固定,并去掉这两个网路最后连接的分类器,然后把这两个网络的最后一层全连接层输出(ΥA=ΥA(ai;θA)和ΥV=ΥV(vi;θV))串联在一起,得到一个总的特征向量f([ΥAV],把总的特征向量f([ΥAV]作为融合模型F的输入。此时融合模型F的训练相当于求解最优化问题:
Figure BDA0002225744800000051
其中,soft max(f[γAV];WF;θF)表示融合模型F的分类器的输出,WF表示网络F所有全连接层的权重值,θF为网络F的网络参数。
进一步地,融合网络包括输入数据层和全连接层,将高层次的音视频统一特征作为融合网络的输入数据层,全连接层之间采用随机失活优化方法,融合网络的分类器采用线性支持向量机分类器或softmax分类器,线性支持向量机采用线性核函数。
随机失活(dropout)是对具有深度结构的人工神经网络进行优化的方法,在学习过程中通过将部分权重或输出随机归零,降低节点间的相互依赖性,从而实现神经网络的正则化,提高模型的泛化能力,降低网络的结构风险。
进一步地,融合网络采用深度信念网络,深度信念网络包括可见层和隐藏层,将高层次的音视频统一特征直接输入到深度信念网络的可见层。
深度信念网络是由多个受限玻尔兹曼机(RBM)堆栈而成,层与层之间全连接,层内无连接,通过多个RBM的无监督学习,使得网络参数接近局部最优,以便网络能有效学习出输入数据的结构特点。由于深度信念网络中的每个RBM都可以用来对音视频情感特征数据进行融合学习,因此深度信念网络能够通过多个RBM的学习实现音视频情感特征数据的深度融合,从而构建出高层次的音视频统一特征表示,用于音视频情感识别。
进一步地,步骤D)中,验证融合网络的识别率采用留一法交叉验证方式,计算平均识别率,将平均识别率作为最终融合网络的识别率。
留一法交叉验证方式使得每次迭代中都使用了最大可能数目的样本来训练。
本发明具有如下有益效果:解决了现有特征提取方法提取的特征对于情感语义的表示力比较有限的问题,采用多模深度卷积神经网络从原始的音视频信号来学习高层次的音视频情感特征。并且解决了现有融合方法无法构建高层次的音视频统一特征表示的问题,采用全连接层构成的融合网络对多模深度卷积神经网络学习到的音视频情感特征进行融合学习,从而构建出高层次的音视频统一特征,对音视频情感识别进行分类。
附图说明
图1是本发明的实施例一流程示意图。
图2是本发明的实施例一获得音频数据样本流程示意图。
图3是本发明的实施例一获得视频数据样本流程示意图。
图4是本发明的实施例一多模深度卷积神经网络结构示意图。
图5是本发明的实施例一音视频情感数据集RML表情样本示例图。
具体实施方式
下面结合附图与具体实施方式对本发明做进一步的描述。
实施例一,一种基于多模深度学习的双模态情感识别方法,如图1所示,包括:A)采集音视频信号,采用音视频情感数据集RML进行音视频情感识别性能测试(见文献:Y.Wangand L.Guan.Recognizing human emotional state from audiovisual signals.IEEETransaction on Multimedia,10(5):936–946,2008.)。如图5所示,该数据集由8个人录制而成,包含720个音视频样本,6种情感,即生气(Anger)、高兴(Joy)、悲伤(Sadness)、厌恶(Disgust)、惊奇(Surprise)以及害怕(Fear)。获取语音Mel频谱片段和与语音Mel频谱片段对应的视频片段,获得音频RGB图像三通道输入矩阵和视频RGB图像三通道输入矩阵,如图2所示,获得音频数据样本包括步骤:
A1)采集一维的情感语音信号,采用64个Mel滤波器和64帧的文本窗大小,获得64×64的二维静态频谱片段特征;
A2)对二维静态频谱片段特征在时间轴上进行一阶求导,获得一阶求导系数;
A3)对二维静态频谱片段特征在时间轴上进行二阶求导,获得二阶求导系数;
A4)将语音信号的二维静态频谱片段特征、一阶求导系数和二阶求导系数分别作为RGB图像的三通道,获得特征为64×64×3的音频RGB图像三通道输入矩阵;
A5)采用双线性内插法对特征为64×64×3的音频RGB图像三通道输入矩阵进行缩放处理,获得特征为227×227×3的音频RGB图像三通道输入矩阵;
A6)依次重复步骤A1)至A5),获得K个音频数据样本,记为{a1,a2,...,aK}。
如图3所示,获得视频数据样本包括步骤:
A11)选取与语音Mel频谱片段对应的视频片段最中心的一帧图像作为关键帧图像;
A22)对每一幅关键帧图像进行实时性人脸检测与定位;
A33)计算出人脸双眼瞳孔中心之间的距离,将双眼瞳孔中心之间的距离统一缩放到55个像素大小的距离;
A44)把图像裁切成包含嘴巴、鼻子、额头等关键表情部位的150×110×3大小区域图像;
A55)采用双线性内插法对150×110×3大小区域图像进行缩放处理,获得特征为227×227×3视频RGB图像三通道输入矩阵;
A66)依次重复步骤A11)至A55),获得K个视频数据样本,记为{v1,v2,...,vK}。
B)构建音频深度卷积神经网络和视频深度卷积神经网络,如图4所示,音频深度卷积神经网络和视频深度卷积神经网络均采用ImageNet数据集上预训练好的AlexNet网络模型,对网络进行初始化,两个深度卷积神经网络均包含5个卷积层、3个池化层和3个全连接层,3个全连接层分别为fc6,fc7和fc8。其中,fc7层表示卷积神经网络所学习到的高层次的属性特征,fc8层与分类器相连,利用分类器输出情感识别分类结果,所有池化层均采用平均池化,分类器采用softmax分类器。利用音频数据样本训练音频深度卷积神经网络,计算音频深度卷积神经网络的总样本损失函数,更新音频深度卷积神经网络权重值,获得高层次音频特征;利用视频数据样本训练深度卷积神经网络,计算视频深度卷积神经网络的总样本损失函数,更新视频深度卷积神经网络权重值,获得高层次视频特征。
其中通过计算
Figure BDA0002225744800000071
得到损失函数,其中,
Figure BDA0002225744800000072
表示第j个情感识别类别的真实值,Sj表示深度卷积神经网络的分类器输出的第j个情感识别类别预测值,l表示情感类别数目;通过计算
Figure BDA0002225744800000073
得到总样本损失函数,Li(S,y)为第i个样本的损失函数,K为样本总数。
C)构建高层次的音视频统一特征包括:
C1)对训练好的音频深度卷积神经网络的权重值WA和视频深度卷积神经网络的权重值WV进行固定;
C2)去掉音频深度卷积神经网络的分类器和视频深度卷积神经网络的分类器;
C3)将去掉分类器后的音频深度卷积神经网络最后一层全连接层的输出与去掉分类器后的视频深度卷积神经网络最后一层全连接层的输出进行串联,获得总的特征向量,将总的特征向量作为融合模型F的输入,获得高层次的音视频统一特征。
建立由全连接层构成的融合网络,融合网络最后一层全连接层与分类器相连。
D)将最后一层全连接层的输出聚合成全局特征,将全局特征输入到分类器中,获得音视频情感识别分类结果。融合网络包括输入层和三层全连接层,将高层次的音视频统一特征作为融合网络的输入层,全连接层之间采用随机失活优化方法,令dropout为0.3,防止过拟合。最后一层全连接层与分类器相连,融合网络的分类器采用线性支持向量机分类器,线性支持向量机采用线性核函数。验证融合网络的识别率时采用留一法交叉验证方式,计算平均识别率,将平均识别率作为最终融合网络的识别率。
对采用线性支持向量机和采用低层次手工音视频情感特征得到的情感识别结果进行对比分析。采用低层次手工音视频情感特征进行情感识别的方法时,对每一句情感语音提取出1582维声学特征参数(LLD),对每一幅关键帧表情图像提取出2478维的局部二元模式(LBP)特征作为表情特征。其中,AlexAudio、AlexVisual分别表示AlexNet网络模型的FC7直接作为特征提取的方法,EFLLD+LBP表示将1582维声学特征参数与2478维的局部二元模式特征进行特征层融合的融合方法。如表1所示,AlexNet网络模型不做微调,直接用于特征提取的性能接近手工特征的性能。可见,采用预训练好的AlexNet模型进行CNN的网络初始化是可行的。
表1采用线性支持向量机和手工音视频情感特征得到的情感识别结果分析
方法 LLD LBP Alex<sub>Audio</sub> Alex<sub>Visual</sub> EF<sub>LLD+LBP</sub>
正确识别率(%) 61.86 56.90 59.46 54.49 70.62
表1
将本实施例采用的全连接层融合网络分别与特征层融合方法、决策层融合方法的性能进行比较。其中,特征层融合方法是在分类前将音视频特征进行直接串联,称为前期融合(Early Fusion,EF)方法。决策层融合方法采用多数投票方法对音视频的分类结果进行融合,称为后期融合LF(LateFusion,LF)方法。三种方法的正确识别率分析结果如表2所示。
表2基于多模CNN方法的识别结果分析
方法 A<sub>net</sub> V<sub>net</sub> F<sub>net</sub> LF EF
正确识别率(%) 66.17 60.79 74.32 57.45 72.18
表2
表中,Anet、Vnet分别表示AlexNet网络模型微调之后的音频情感识别方法和视频情感识别方法,Fnet表示采用全连接层构成的融合网络方法,LF表示后期融合方法,EF表示前期融合方法。通过对比,可以看出全连接层融合网络方法的性能也明显优于后期融合方法和前期融合方法,这表明全连接层构成的融合网络可以学习到更具判别力的音视频情感特征用于情感的分类。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明保护范围以内。

Claims (10)

1.一种基于多模深度学习的双模态情感识别方法,其特征在于,包括步骤:
A)采集音视频信号,获取语音Mel频谱片段和与语音Mel频谱片段对应的视频片段,获得音频RGB图像三通道输入矩阵和视频RGB图像三通道输入矩阵,获得音频数据样本和视频数据样本;
B)构建音频深度卷积神经网络和视频深度卷积神经网络,利用音频数据样本训练音频深度卷积神经网络,获得高层次音频特征;利用视频数据样本训练深度卷积神经网络,获得高层次视频特征;
C)构建高层次的音视频统一特征,建立由全连接层构成的融合网络,融合网络最后一层全连接层与分类器相连;
D)将最后一层全连接层的输出聚合成全局特征,将全局特征输入到分类器中,获得音视频情感识别分类结果,验证融合网络的识别率。
2.根据权利要求1所述的一种基于多模深度学习的双模态情感识别方法,其特征在于,步骤A)中,获得音频数据样本包括步骤:
A1)采集一维的情感语音信号,采用N1个Mel滤波器和N2帧的文本窗大小,获得N1×N2的二维静态频谱片段特征;
A2)对二维静态频谱片段特征在时间轴上进行一阶求导,获得一阶求导系数;
A3)对二维静态频谱片段特征在时间轴上进行二阶求导,获得二阶求导系数;
A4)将语音信号的二维静态频谱片段特征、一阶求导系数和二阶求导系数分别作为RGB图像的三通道,获得特征为N1×N2×3的音频RGB图像三通道输入矩阵;
A5)对特征为N1×N2×3的音频RGB图像三通道输入矩阵进行缩放处理,获得预设特征大小的音频RGB图像三通道输入矩阵;
A6)依次重复步骤A1)至A5),获得K个音频数据样本,记为{α1,α2,...,αK}。
3.根据权利要求2所述的一种基于多模深度学习的双模态情感识别方法,其特征在于,步骤A)中,获得视频数据样本包括步骤:
A11)选取与语音Mel频谱片段对应的视频片段最中心的一帧图像作为关键帧图像;
A22)对每一幅关键帧图像进行实时性人脸检测与定位;
A33)计算出人脸双眼瞳孔中心之间的距离,将双眼瞳孔中心之间的距离统一缩放到n个像素大小的距离;
A44)把图像裁切成包含嘴巴、鼻子、额头等关键表情部位的N3×N4×3大小区域图像;
A55)对N3×N4×3大小区域图像进行缩放处理,获得预设特征大小的视频RGB图像三通道输入矩阵;
A66)依次重复步骤A11)至A55),获得K个视频数据样本,记为{v1,v2,...,vK}。
4.根据权利要求3所述的一种基于多模深度学习的双模态情感识别方法,其特征在于,步骤A5)中,采用双线性内插法对特征为N1×N2×3的音频RGB图像三通道输入矩阵进行缩放处理;步骤A55)中,采用双线性内插法对N3×N4×3大小区域图像进行缩放处理。
5.根据权利要求1所述的一种基于多模深度学习的双模态情感识别方法,其特征在于,步骤B)中,对音频深度卷积神经网络和视频深度卷积神经网络进行初始化,所述卷积神经网络均包含5个卷积层、3个池化层和3个全连接层,所有池化层均采用平均池化,最后一层全连接层与分类器相连。
6.根据权利要求1所述的一种基于多模深度学习的双模态情感识别方法,其特征在于,步骤B)中,还包括计算总样本损失函数,更新网络权重值;通过计算
Figure FDA0002225744790000021
得到损失函数,其中,
Figure FDA0002225744790000022
表示第j个情感识别类别的真实值,Sj表示深度卷积神经网络的分类器输出的第j个情感识别类别预测值,l表示情感类别数目;通过计算
Figure FDA0002225744790000023
得到总样本损失函数,Li(S,y)为第i个样本的损失函数,K为样本总数。
7.根据权利要求5所述的一种基于多模深度学习的双模态情感识别方法,其特征在于,步骤C)中,构建高层次的音视频统一特征,包括:
C1)对训练好的音频深度卷积神经网络的权重值WA和视频深度卷积神经网络的权重值WV进行固定;
C2)去掉音频深度卷积神经网络的分类器和视频深度卷积神经网络的分类器;
C3)将去掉分类器后的音频深度卷积神经网络最后一层全连接层的输出与去掉分类器后的视频深度卷积神经网络最后一层全连接层的输出进行串联,获得总的特征向量,将总的特征向量作为融合模型F的输入,获得高层次的音视频统一特征。
8.根据权利要求1或7所述的一种基于多模深度学习的双模态情感识别方法,其特征在于,所述融合网络包括输入数据层和全连接层,将高层次的音视频统一特征作为所述融合网络的输入数据层,全连接层之间采用随机失活优化方法,所述融合网络的分类器采用线性支持向量机分类器或softmax分类器,所述线性支持向量机采用线性核函数。
9.根据权利要求1或7所述的一种基于多模深度学习的双模态情感识别方法,其特征在于,所述融合网络采用深度信念网络,所述深度信念网络包括可见层和隐藏层,将高层次的音视频统一特征直接输入到所述深度信念网络的可见层。
10.根据权利要求1或9所述的一种基于多模深度学习的双模态情感识别方法,其特征在于,步骤D)中,验证融合网络的识别率采用留一法交叉验证方式,计算平均识别率,将平均识别率作为最终融合网络的识别率。
CN201910951187.6A 2019-10-08 2019-10-08 一种基于多模深度学习的双模态情感识别方法 Pending CN111242155A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910951187.6A CN111242155A (zh) 2019-10-08 2019-10-08 一种基于多模深度学习的双模态情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910951187.6A CN111242155A (zh) 2019-10-08 2019-10-08 一种基于多模深度学习的双模态情感识别方法

Publications (1)

Publication Number Publication Date
CN111242155A true CN111242155A (zh) 2020-06-05

Family

ID=70872677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910951187.6A Pending CN111242155A (zh) 2019-10-08 2019-10-08 一种基于多模深度学习的双模态情感识别方法

Country Status (1)

Country Link
CN (1) CN111242155A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112200001A (zh) * 2020-09-11 2021-01-08 南京星耀智能科技有限公司 一种指定场景下深度伪造视频识别方法
CN112308116A (zh) * 2020-09-28 2021-02-02 济南大学 一种助老陪护机器人的自调优多通道融合方法和系统
CN113158727A (zh) * 2020-12-31 2021-07-23 长春理工大学 一种基于视频和语音信息的双模态融合情绪识别方法
CN113343860A (zh) * 2021-06-10 2021-09-03 南京工业大学 一种基于视频图像和语音的双模态融合情感识别方法
CN113591525A (zh) * 2020-10-27 2021-11-02 蓝海(福建)信息科技有限公司 一种深度融合面部表情和语音的驾驶员路怒症识别方法
CN113807249A (zh) * 2021-09-17 2021-12-17 广州大学 基于多模态特征融合的情感识别方法、系统、装置及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107808146A (zh) * 2017-11-17 2018-03-16 北京师范大学 一种多模态情感识别分类方法
CN108717856A (zh) * 2018-06-16 2018-10-30 台州学院 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
CN109614895A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于attention特征融合的多模态情感识别的方法
CN109815903A (zh) * 2019-01-24 2019-05-28 同济大学 一种基于自适应融合网络的视频情感分类方法
CN110084266A (zh) * 2019-03-11 2019-08-02 中国地质大学(武汉) 一种基于视听特征深度融合的动态情感识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107808146A (zh) * 2017-11-17 2018-03-16 北京师范大学 一种多模态情感识别分类方法
CN108717856A (zh) * 2018-06-16 2018-10-30 台州学院 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
CN109614895A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于attention特征融合的多模态情感识别的方法
CN109815903A (zh) * 2019-01-24 2019-05-28 同济大学 一种基于自适应融合网络的视频情感分类方法
CN110084266A (zh) * 2019-03-11 2019-08-02 中国地质大学(武汉) 一种基于视听特征深度融合的动态情感识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
魏冬青等, 上海:上海交通大学出版社 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112200001A (zh) * 2020-09-11 2021-01-08 南京星耀智能科技有限公司 一种指定场景下深度伪造视频识别方法
CN112308116A (zh) * 2020-09-28 2021-02-02 济南大学 一种助老陪护机器人的自调优多通道融合方法和系统
CN112308116B (zh) * 2020-09-28 2023-04-07 济南大学 一种助老陪护机器人的自调优多通道融合方法和系统
CN113591525A (zh) * 2020-10-27 2021-11-02 蓝海(福建)信息科技有限公司 一种深度融合面部表情和语音的驾驶员路怒症识别方法
CN113591525B (zh) * 2020-10-27 2024-03-01 蓝海(福建)信息科技有限公司 一种深度融合面部表情和语音的驾驶员路怒症识别方法
CN113158727A (zh) * 2020-12-31 2021-07-23 长春理工大学 一种基于视频和语音信息的双模态融合情绪识别方法
CN113343860A (zh) * 2021-06-10 2021-09-03 南京工业大学 一种基于视频图像和语音的双模态融合情感识别方法
CN113807249A (zh) * 2021-09-17 2021-12-17 广州大学 基于多模态特征融合的情感识别方法、系统、装置及介质
CN113807249B (zh) * 2021-09-17 2024-01-12 广州大学 基于多模态特征融合的情感识别方法、系统、装置及介质

Similar Documents

Publication Publication Date Title
CN111292765B (zh) 一种融合多个深度学习模型的双模态情感识别方法
CN108596039B (zh) 一种基于3d卷积神经网络的双模态情感识别方法及系统
CN111242155A (zh) 一种基于多模深度学习的双模态情感识别方法
CN108717856B (zh) 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
KR102071582B1 (ko) 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치
CN110188343B (zh) 基于融合注意力网络的多模态情感识别方法
CN106250855B (zh) 一种基于多核学习的多模态情感识别方法
CN110515456B (zh) 基于注意力机制的脑电信号情感判别方法及装置
WO2020248376A1 (zh) 情绪检测方法、装置、电子设备及存储介质
CN111507311B (zh) 一种基于多模态特征融合深度网络的视频人物识别方法
CN112784798A (zh) 一种基于特征-时间注意力机制的多模态情感识别方法
CN112818861A (zh) 一种基于多模态上下文语义特征的情感分类方法及系统
CN112699774A (zh) 视频中人物的情绪识别方法及装置、计算机设备及介质
CN110147548A (zh) 基于双向门控循环单元网络和新型网络初始化的情感识别方法
CN112766355A (zh) 一种标签噪声下的脑电信号情绪识别方法
CN113343860A (zh) 一种基于视频图像和语音的双模态融合情感识别方法
CN112101096A (zh) 一种基于语音和微表情的多模态融合的自杀情绪感知方法
CN115393933A (zh) 一种基于帧注意力机制的视频人脸情绪识别方法
Vimal et al. Mfcc based audio classification using machine learning
CN109934281B (zh) 一种二分类网络的非监督训练方法
Capozzi et al. Toward vehicle occupant-invariant models for activity characterization
CN116758451A (zh) 基于多尺度和全局交叉注意力的视听情感识别方法及系统
CN114863572B (zh) 一种多通道异构传感器的肌电手势识别方法
CN116434758A (zh) 声纹识别模型训练方法、装置、电子设备及存储介质
Zhu et al. Emotion Recognition of College Students Based on Audio and Video Image.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination