CN111292765B - 一种融合多个深度学习模型的双模态情感识别方法 - Google Patents

一种融合多个深度学习模型的双模态情感识别方法 Download PDF

Info

Publication number
CN111292765B
CN111292765B CN201911149238.XA CN201911149238A CN111292765B CN 111292765 B CN111292765 B CN 111292765B CN 201911149238 A CN201911149238 A CN 201911149238A CN 111292765 B CN111292765 B CN 111292765B
Authority
CN
China
Prior art keywords
video
audio
neural network
convolutional neural
emotion recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911149238.XA
Other languages
English (en)
Other versions
CN111292765A (zh
Inventor
赵小明
张石清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taizhou University
Original Assignee
Taizhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taizhou University filed Critical Taizhou University
Priority to CN201911149238.XA priority Critical patent/CN111292765B/zh
Publication of CN111292765A publication Critical patent/CN111292765A/zh
Application granted granted Critical
Publication of CN111292765B publication Critical patent/CN111292765B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Hospice & Palliative Care (AREA)
  • Child & Adolescent Psychology (AREA)
  • Psychiatry (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及语音和图像处理、模式识别领域,公开了一种融合多个深度学习模型的双模态情感识别方法,包括步骤:A)采集音视频信号,获得音频数据样本和视频数据样本;B)构建音频深度卷积神经网络和多模视频深度卷积神经网络,获得高层次音频特征和高层次视频特征;C)构建高层次的音视频统一特征,建立由受限玻尔兹曼机构成的深度信念网络,深度信念网络最后一层隐藏层的输出做平均池化之后与线性支持向量机分类器相连;D)获得音视频情感识别分类结果,验证深度信念网络的识别率。本发明采用了采用多个深度卷积神经网络进行两次融合,实现对音视频情感信息的融合,构建高层次的音视频统一特征表示,有效地提高音视频情感识别性能。

Description

一种融合多个深度学习模型的双模态情感识别方法
技术领域
本发明涉及语音和图像处理、模式识别领域,特别是涉及一种融合多个深度学习模型 的双模态情感识别方法。
背景技术
语音信号和人脸表情是人类之间情感交流的两种主要方式。融合音视频中的情感语音 信息和人脸表情信息进行情感识别,通常称为“音视频情感识别”。音视频情感识别研究的最 终目标是让计算机通过情感语音和人脸表情同时对用户的情感信息进行获取、识别和响应,以便帮助用户在和谐、自然地交互模式下高效地完成既定的任务。因此,该研究在人工智能、 自然人机交互等领域具有重要的应用价值。
在音视频情感特征的提取方面,现有技术采用手工设计的典型的音视频情感特征参 数,即语音情感识别领域和人脸表情识别领域中常用的主流特征参数,具体包括:与情感语 音相关的韵律特征、音质特征、谱特征,以及与人脸表情相关的形变特征、运动特征等(比 如文献:Y.Wang and L.Guan.Recognizing human emotional state fromaudiovisual signals.IEEE Transaction on Multimedia,10(5):936–946,2008.)。尽管这些手工设计的典型的音视频情感特 征参数已经成为音视频情感识别研究中的主流特征参数,但是手工设计的情感特征依赖于设 计者的经验和专业知识,可靠性不够,很难利用大数据的优势。此外,手工设计的特征都属于低层次的情感特征,因为它们对于情感语义的表示力非常有限,尤其与人脑理解的高层次 的情感语义之间存在较大差异,即存在“情感鸿沟”问题。
在音视频情感信息的融合策略方面,现有的融合方法,如特征层融合和决策层融合, 都是采用某种规则或模型对最后获得的手工设计的音视频情感特征数据进行一次简单的融合 操作,如串联,因此它们都属于浅层融合方法。这些浅层融合方法无法对具有高度非线性的音视频情感特征数据之间的内在关系进行深度建模,因而也无法构建出高层次的跨媒体的音 视频情感特征数据的统一表征。
发明内容
本发明是为了解决手工设计特征对于情感语义的表示力有限以及现有融合方法无法 构建高层次的音视频统一特征表示的问题,提供一种融合多个深度学习模型的双模态情感识 别方法,本发明采用多个深度卷积神经网络(CNN)模型分别对音频、视频信号进行高层次的特征学习,然后采用由受限玻尔兹曼机构成的深度信念网络实现音视频情感信息的融合, 构建高层次的音视频统一特征表示,用于音视频情感的分类。
为了实现上述目的,本发明采用以下技术方案:
一种融合多个深度学习模型的双模态情感识别方法,包括步骤:
A)采集音视频信号,获取语音Mel频谱片段和与语音Mel频谱片段对应的视频片段,获得 音频数据样本和视频数据样本;
B)构建音频深度卷积神经网络(Audio Network)和多模视频深度卷积神经网络(Visual Network,Optical Flow Network),获得高层次音频特征和高层次视频特征;
C)构建高层次的音视频统一特征,建立由受限玻尔兹曼机构成的深度信念网络(Fusion Network),深度信念网络最后一层隐藏层的输出做平均池化之后与线性SVM分类器相连;
D)获得音视频情感识别分类结果,验证深度信念网络的识别率。
通过构建音频深度卷积神经网络和多模视频深度卷积神经网络分别对音频、视频信号 进行高层次的特征学习,然后采用由受限玻尔兹曼机构成的深度信念网络实现音视频情感信 息的融合,构建高层次的音视频统一特征表示,用于音视频情感的分类。
进一步地,步骤A)中获得音频数据样本,包括步骤:
A1)采集一维的情感语音信号,采用N1个Mel滤波器和N2帧的文本窗大小,获得N1×N2的 二维静态频谱片段特征;
A2)对二维静态频谱片段特征在时间轴上进行一阶求导,获得一阶求导系数;
A3)对二维静态频谱片段特征在时间轴上进行二阶求导,获得二阶求导系数;
A4)将语音信号的二维静态频谱片段特征、一阶求导系数和二阶求导系数分别作为RGB图 像的三通道,获得特征为N1×N2×3的音频RGB图像三通道输入矩阵;
A5)对特征为N1×N2×3的音频RGB图像三通道输入矩阵进行缩放处理,获得预设特征大 小的音频RGB图像三通道输入矩阵;
A6)依次重复步骤A1)至A5),获得K个音频数据样本,记为{a1,a2,...,aK}。
对于一维的情感语音信号,先采用N1个Mel滤波器和N2帧的文本窗大小,计算出二维的静态频谱片段N1×N2,然后对其在时间轴上进行一阶和二阶求导,以便抓住该频谱片段的时间动态特性。最后,将语音信号的静态的频谱片段特征、以及它的一阶求导系数和二阶求导系数作为RGB图像的三个通道,从而得到一个类似于RGB图像的三维Mel频谱片段, 特征为N1×N2×3,然后缩放成预设特征大小的音频RGB图像三通道输入矩阵,将其作为 音频深度卷积神经网络的音频输入,获得K个音频数据样本。
进一步地,步骤A)中获得视频数据样本,包括步骤:
A11)按照视频片段的时间先后顺序依次获得t帧视频图像;
A22)对每一帧视频图像进行实时性人脸检测与定位;
A33)计算出人脸双眼瞳孔中心之间的距离,将双眼瞳孔中心之间的距离统一缩放到n个像 素大小的距离;
A44)把图像裁切成包含嘴巴、鼻子、额头等关键表情部位的N3×N4×3大小区域图像;
A55)依次重复步骤A11)至A44),获得K个特征为t×N3×N4×3视频数据样本,记为{v1,v2,...,vK}。
首先对语音Mel频谱片段所对应的视频片段中的每一帧图像采用人脸定位方法进行人 脸检测及定位,然后把图像裁切成包含嘴巴、鼻子、额头等关键表情部位的N3×N4×3大小 区域图像。进行网络训练微调时设置每次训练输入的视频片段帧数为t帧。因此,为了保证 每个视频片段的帧数达到t帧,需要对原始视频片段的帧数进行预处理,对不足t帧的视频 片段,采用首尾帧重复的方式进行预处理;对超过t帧的视频片段,采用首尾帧删除的方式 进行预处理。每一帧关键表情部位的视频图像特征为N3×N4×3,一个视频数据样本对应t 帧视频图像,所以每个视频数据样本的特征为t×N3×N4×3。
进一步地,步骤A5)中,采用双线性内插法对特征为N1×N2×3的音频RGB图像三 通道输入矩阵进行缩放处理。
通过采用双线性内插法对图像进行缩放处理,使缩放处理后的图像能够满足深度卷积 神经网络模型的图像输入特征要求。
进一步地,步骤B)中,音频卷积神经网络包含k1个卷积层、k2个池化层和k3个全连接层,k2个池化层均采用平均池化或最大池化,最后一层全连接层与分类器相连。
对每个语音Mel频谱片段,采用音频卷积神经网络,在目标情感数据集上进行微调, 分别学习出高层次的音频情感特征表示。最后一层全连接层与分类器相连,利用分类器输出 情感识别分类结果。
进一步地,步骤B)中构建多模视频深度卷积神经网络,包括步骤:
B1)获取视频片段的有序光流图;
B2)构建长时运动流视频卷积神经网络模型,长时运动流视频卷积神经网络模型包含m1个卷 积层、m2个池化层和m3个全连接层,m2个池化层均采用平均池化或最大池化;
B3)构建短时运动流视频卷积神经网络模型,短时运动流视频卷积神经网络模型包含m4个卷 积层、m5个池化层和m6个全连接层,m5个池化层均采用平均池化或最大池化;
B4)把长时运动流视频卷积神经网络模型的最后一层全连接层的输出特征与短时运动流视频 卷积神经网络模型的最后一层全连接层的输出特征进行串联,输入到一个全连接层网络进行 特征层融合,获得总的视频特征,并将总的视频特征与线性SVM分类器相连;
B5)将有序光流图作为长时运动流视频卷积神经网络模型的输入,将步骤A55)中的视频数 据样本作为短时运动流视频卷积神经网络模型的输入,训练多模视频深度卷积神经网络,获 得高层次视频特征。
为了充分利用视频片段的表观短时信息和长时信息,构建了长时运动流视频卷积神经 网络模型和短时运动流视频卷积神经网络模型,以视频片段帧序列即步骤A55)中的视频数 据样本作为输入,采用短时运动流视频卷积神经网络模型即3D-CNN时空特征学习方法提取 视频片段的表观和短时运动特征。有序光流图是单幅图像,采用长时运动流视频卷积神经网 络模型即二维卷积神经网络(2D-CNN)特征学习方法提取视频片段的长时运动特征。
进一步地,步骤B)中,还包括计算总样本损失函数,更新网络权重值;通过计算得到损失函数,其中,/>表示第j个情感识别类别的真实值,Sj表示深度卷积神经网络的分类器输出的第j个情感识别类别预测值,l表示情感类别数目;通过 计算/>得到总样本损失函数,Li(S,y)为第i个样本的损失函数,K为样本总 数。
获得音视频样本{(a1,v1,y1),...(ai,vi,yi),...,(aK,vk,yK)},其中(ai,vi,yi)表示 第i个音视频数据样本,ai表示第i个音频数据样本,vi表示第i个视频数据样本,yi表示第i个音视频数据样本真实的情感识别类别向量,将分类器设为softmax分类器,利用音频数 据训练样本对音频深度卷积神经网络A进行训练,则相当于求解最优化问题:
其中,ai表示第i个音频数据样本,θA为网络A的网络参数,ΥA(ai;θA)为网络A的最后一 层全连接层的特征表示,WA为网络A的最后一层全连接层的权重值。
进一步地,步骤C)中构建高层次的音视频统一特征,包括步骤:
C1)对训练好的音频深度卷积神经网络的权重值WA和多模视频深度卷积神经网络的权重值 WV进行固定;
C2)去掉音频深度卷积神经网络的分类器和多模视频深度卷积神经网络的SVM分类器;
C3)将去掉分类器后的音频深度卷积神经网络最后一层全连接层的输出特征与去掉SVM分 类器后的多模视频深度卷积神经网络最后一层全连接层的输出特征进行串联,输入到一个深 度信念网络进行特征层融合,获得总的特征向量,获得高层次的音视频统一特征。
采用深度信念网络对深度卷积神经网络学习到的音频、视频特征进行融合学习,构建 高层次的音视频统一特征表示。
进一步地,深度信念网络包括可见层、隐藏层和输出层,将高层次的音视频统一特征 直接输入到所述深度信念网络的可见层。
深度信念网络是由多个受限玻尔兹曼机(RBM)堆栈而成,层与层之间全连接,层内无连接,通过多个RBM的无监督学习,使得网络参数接近局部最优,以便网络能有效学习 出输入数据的结构特点。由于深度信念网络中的每个RBM都可以用来对音视频情感特征数 据进行融合学习,因此深度信念网络能够通过多个RBM的学习实现音视频情感特征数据的深度融合,从而构建出高层次的音视频统一特征表示,用于音视频情感识别。
进一步地,步骤D)中,验证深度信念网络的识别率采用留一法交叉验证方式,计算平均识别率,将平均识别率作为最终深度信念网络的识别率。
留一法交叉验证方式使得每次迭代中都使用了最大可能数目的样本来训练模型。
本发明具有如下有益效果:解决了现有特征提取方法提取的特征对于情感语义的表 示力比较有限的问题,采用多模视频深度卷积神经网络进行两次融合,一次融合为长时视频 信息和短时视频信息的融合,一次为音频和视频信息的融合,从原始的音视频信号来学习高层次的音视频情感特征。并且解决了现有融合方法无法构建高层次的音视频统一特征表示的 问题,采用由受限玻尔兹曼机构成的深度信念网络对多模视频深度卷积神经网络学习到的音 视频情感特征进行融合学习,从而构建出高层次的音视频统一特征,对音视频情感识别进行 分类。
附图说明
图1是本发明的实施例一流程示意图。
图2是本发明的实施例一获得音频数据样本流程示意图。
图3是本发明的实施例一获得视频数据样本流程示意图。
图4是本发明的实施例一深度卷积神经网络整体结构示意图。
图5是本发明的实施例一多模视频深度卷积神经网络结构示意图。
图6是本发明的实施例一音视频情感数据集RML表情样本示例图。
图7是本发明方法取得的各种情感的正确识别率(%)。
具体实施方式
下面结合附图与具体实施方式对本发明做进一步的描述。
实施例一,一种融合多个深度学习模型的双模态情感识别方法,如图1所示,包括:A)采集音视频信号,采用音视频情感数据集RML进行音视频情感识别性能测试(见文献:Y.Wang and L.Guan.Recognizing human emotional state from audiovisualsignals.IEEE Transaction on Multimedia,10(5):936–946,2008.)。如图6所示,该数据集由8个人录制而成, 包含720个音视频样本,6种情感,即生气(Anger)、高兴(Joy)、悲伤(Sadness)、厌恶(Disgust)、 惊奇(Surprise)以及害怕(Fear)。获取语音Mel频谱片段和与语音Mel频谱片段对应的视 频片段,获得音频RGB图像三通道输入矩阵和视频RGB图像三通道输入矩阵,如图2所示, 获得音频数据样本包括步骤:
A1)采集一维的情感语音信号,采用64个Mel滤波器和64帧的文本窗大小,获得64×64的 二维静态频谱片段特征;
A2)对二维静态频谱片段特征在时间轴上进行一阶求导,获得一阶求导系数;
A3)对二维静态频谱片段特征在时间轴上进行二阶求导,获得二阶求导系数;
A4)将语音信号的二维静态频谱片段特征、一阶求导系数和二阶求导系数分别作为RGB图 像的三通道,获得特征为64×64×3的音频RGB图像三通道输入矩阵;
A5)采用双线性内插法对特征为64×64×3的音频RGB图像三通道输入矩阵进行缩放处理, 获得特征为227×227×3的音频RGB图像三通道输入矩阵;
A6)依次重复步骤A1)至A5),获得K个音频数据样本,记为{a1,a2,...,aK}。
如图3所示,获得视频数据样本包括步骤:
A11)按照视频片段的时间先后顺序依次获得16帧视频图像;
A22)对每一帧视频图像进行实时性人脸检测与定位;
A33)计算出人脸双眼瞳孔中心之间的距离,将双眼瞳孔中心之间的距离统一缩放到55个像 素大小的距离;
A44)把图像裁切成包含嘴巴、鼻子、额头等关键表情部位的150×110×3大小区域图像;
A55)依次重复步骤A11)至A44),获得K个特征为16×150×110×3视频数据样本,记为 {v1,v2,...,vK}。
B)构建音频深度卷积神经网络和多模视频深度卷积神经网络,如图4所示,音频深度 卷积神经网络采用ImageNet数据集上预训练好的AlexNet网络模型,对网络进行初始化, AlexNet网络模型包含5个卷积层、3个池化层和3个全连接层,3个全连接层分别为fc6,fc7 和fc8。其中,fc7层表示卷积神经网络所学习到的高层次的属性特征,fc8层与分类器相连, 利用分类器输出情感识别分类结果,3个池化层均采用平均池化,分类器采用softmax分类器。 利用音频数据样本训练音频深度卷积神经网络,计算音频深度卷积神经网络的总样本损失函 数,更新音频深度卷积神经网络权重值,获得高层次音频特征。
步骤B)中构建多模视频深度卷积神经网络,如图5所示,包括步骤:
B1)获取视频片段的有序光流图;
B2)构建长时运动流视频卷积神经网络模型,长时运动流视频卷积神经网络模型包含5个卷 积层、3个池化层和3个全连接层,5个池化层均采用最大池化;
B3)构建短时运动流视频卷积神经网络模型,短时运动流视频卷积神经网络模型包含8个卷 积层、5个池化层和3个全连接层,8个池化层均采用最大池化;
B4)把长时运动流视频卷积神经网络模型的最后一层全连接层的输出特征与短时运动流视频 卷积神经网络模型的最后一层全连接层的输出特征进行串联,输入到一个全连接层网络进行 特征层融合,获得8192维的特征向量,再与一层全连接层,获得4096维的总的视频特征, 将4096维的总的视频特征与线性SVM分类器相连;
B5)将有序光流图作为长时运动流视频卷积神经网络模型的输入,将步骤A55)中的视频数 据样本作为短时运动流视频卷积神经网络模型的输入,训练多模视频深度卷积神经网络,获 得高层次视频特征。
其中通过计算得到损失函数,其中,/>表示第j个情感识 别类别的真实值,Sj表示深度卷积神经网络的分类器输出的第j个情感识别类别预测值,l表 示情感类别数目;通过计算/>得到总样本损失函数,Li(S,y)为第i个样本的 损失函数,K为样本总数。
C)构建高层次的音视频统一特征,如图4所示,包括:
C1)对训练好的音频深度卷积神经网络的权重值WA和多模视频深度卷积神经网络的权重值 WV进行固定;
C2)去掉音频深度卷积神经网络的softmax分类器和多模视频深度卷积神经网络的SVM分类 器;
C3)将去掉softmax分类器后的音频深度卷积神经网络最后一层全连接层的输出特征与去掉 SVM分类器后的多模视频深度卷积神经网络最后一层全连接层的输出特征进行串联,输入到 一个深度信念网络进行特征层融合,获得总的特征向量,获得高层次的音视频统一特征。
建立由受限玻尔兹曼机构成的深度信念网络,深度信念网络包括可见层、隐藏层和输 出层,将高层次的音视频统一特征直接输入到深度信念网络的可见层。深度信念网络最后一 层隐藏层的输出做平均池化之后与分类器线性SVM相连。
D)获得音视频情感识别分类结果,验证深度信念网络的识别率时采用留一法交叉验证 方式,计算平均识别率,将平均识别率作为最终深度信念网络的识别率。表1给出了本发明 方法在音视频情感数据集RML上取得的平均正确识别率。由表1可见,音频深度卷积神经 网络获得了66.17%的正确识别率,多模视频深度卷积神经网络获得了72.14%的正确识别率,而基于深度信念网络的音视频融合网络获得了81.05%的正确识别率。这说明了本发明方法的 有效性。表1给出了本发明方法取得81.05%的识别性能时的各种情感类型的正确识别率。其中,表1中对角线粗体数据表示每一种具体的情感类型所获得的正确识别率。
表1本实施例在音视频情感数据集RML上取得的平均正确识别率(%)
方法 平均正确识别率(%)
音频深度卷积神经网络 66.17
多模视频深度卷积神经网络 72.14
基于深度信念网络的音视频融合网络 81.05
本发明解决了现有特征提取方法提取的特征对于情感语义的表示力比较有限的问题,采用多 模视频深度卷积神经网络进行两次融合,一次融合为长时视频信息和短时视频信息的融合, 一次为音频和视频信息的融合,从原始的音视频信号来学习高层次的音视频情感特征。并且解决了现有融合方法无法构建高层次的音视频统一特征表示的问题,采用由受限玻尔兹曼机 构成的深度信念网络对多模视频深度卷积神经网络学习到的音视频情感特征进行融合学习, 从而构建出高层次的音视频统一特征,对音视频情感识别进行分类。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的 限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要 付出创造性劳动即可做出的各种修改或变形仍在本发明保护范围以内。

Claims (10)

1.一种融合多个深度学习模型的双模态情感识别方法,其特征在于,包括步骤:
A)采集音视频信号,获取语音Mel频谱片段和与语音Mel频谱片段对应的视频片段,生成音频RGB图像三通道输入矩阵,获得音频数据样本和视频数据样本;
B)构建音频深度卷积神经网络,获得高层次音频特征;
构建多模视频深度卷积神经网络,获得高层次视频特征;获取视频片段的有序光流图,构建长时运动流视频卷积神经网络模型和短时运动流视频卷积神经网络模型,获得总的视频特征;将有序光流图作为长时运动流视频卷积神经网络模型的输入,将视频数据样本作为短时运动流视频卷积神经网络模型的输入,训练多模视频深度卷积神经网络,获得高层次视频特征;
C)构建高层次的音视频统一特征,建立由受限玻尔兹曼机构成的深度信念网络,深度信念网络最后一层隐藏层的输出做平均池化之后与线性支持向量机分类器相连;
D)获得音视频情感识别分类结果,验证深度信念网络的识别率。
2.根据权利要求1所述的一种融合多个深度学习模型的双模态情感识别方法,其特征在于,步骤A)中获得音频数据样本,包括步骤:
A1)采集一维的情感语音信号,采用N1个Mel滤波器和N2帧的文本窗大小,获得N1×N2的二维静态频谱片段特征;
A2)对二维静态频谱片段特征在时间轴上进行一阶求导,获得一阶求导系数;
A3)对二维静态频谱片段特征在时间轴上进行二阶求导,获得二阶求导系数;
A4)将语音信号的二维静态频谱片段特征、一阶求导系数和二阶求导系数分别作为RGB图像的三通道,获得特征为N1×N2×3的音频RGB图像三通道输入矩阵;
A5)对特征为N1×N2×3的音频RGB图像三通道输入矩阵进行缩放处理,获得预设特征大小的音频RGB图像三通道输入矩阵;
A6)依次重复步骤A1)至A5),获得K个音频数据样本,记为a1,a2,...,ak
3.根据权利要求1或2所述的一种融合多个深度学习模型的双模态情感识别方法,其特征在于,步骤A)中获得视频数据样本,包括步骤:
A11)按照视频片段的时间先后顺序依次获得t帧视频图像;
A22)对每一帧视频图像进行实时性人脸检测与定位;
A33)计算出人脸双眼瞳孔中心之间的距离,将双眼瞳孔中心之间的距离统一缩放到n个像素大小的距离;
A44)把图像裁切成包含嘴巴、鼻子、额头关键表情部位的N3×N4×3大小区域图像;
A55)依次重复步骤A11)至A44),获得K个特征为t×N3×N4×3视频数据样本,记为v1,v2,…,vK
4.根据权利要求3所述的一种融合多个深度学习模型的双模态情感识别方法,其特征在于,步骤A5)中,采用双线性内插法对特征为N1×N2×3的音频RGB图像三通道输入矩阵进行缩放处理。
5.根据权利要求4所述的一种融合多个深度学习模型的双模态情感识别方法,其特征在于,步骤B)中,所述音频卷积神经网络包含k1个卷积层、k2个池化层和k3个全连接层,k2个池化层均采用平均池化或最大池化,最后一层全连接层与分类器相连。
6.根据权利要求4或5所述的一种融合多个深度学习模型的双模态情感识别方法,其特征在于,步骤B)中构建多模视频深度卷积神经网络,包括步骤:
B1)获取视频片段的有序光流图;
B2)构建长时运动流视频卷积神经网络模型,所述长时运动流视频卷积神经网络模型包含m1个卷积层、m2个池化层和m3个全连接层,m2个池化层均采用平均池化或最大池化;
B3)构建短时运动流视频卷积神经网络模型,所述短时运动流视频卷积神经网络模型包含m4个卷积层、m5个池化层和m6个全连接层,m5个池化层均采用平均池化或最大池化;
B4)把长时运动流视频卷积神经网络模型的最后一层全连接层的输出特征与短时运动流视频卷积神经网络模型的最后一层全连接层的输出特征进行串联,输入到一个全连接层网络进行特征层融合,获得总的视频特征,并将总的视频特征与线性SVM分类器相连;
B5)将有序光流图作为长时运动流视频卷积神经网络模型的输入,将步骤A55)中的视频数据样本作为短时运动流视频卷积神经网络模型的输入,训练多模视频深度卷积神经网络,获得高层次视频特征。
7.根据权利要求6所述的一种融合多个深度学习模型的双模态情感识别方法,其特征在于,步骤B)中,还包括计算总样本损失函数,更新网络权重值;通过计算得到损失函数,其中,/>表示第j个情感识别类别的真实值,Sj表示深度卷积神经网络的分类器输出的第j个情感识别类别预测值,l表示情感类别数目;通过计算/>得到总样本损失函数,Li(S,y)为第i个样本的损失函数,K为样本总数。
8.根据权利要求1或7所述的一种融合多个深度学习模型的双模态情感识别方法,其特征在于,步骤C)中构建高层次的音视频统一特征,包括步骤:
C1)对训练好的音频深度卷积神经网络的权重值WA和多模视频深度卷积神经网络的权重值WV进行固定;
C2)去掉音频深度卷积神经网络的分类器和多模视频深度卷积神经网络的SVM分类器;
C3)将去掉分类器后的音频深度卷积神经网络最后一层全连接层的输出特征与去掉SVM分类器后的多模视频深度卷积神经网络最后一层全连接层的输出特征进行串联,输入到一个深度信念网络进行特征层融合,获得总的特征向量,获得高层次的音视频统一特征。
9.根据权利要求8所述的一种融合多个深度学习模型的双模态情感识别方法,其特征在于,所述深度信念网络包括可见层、隐藏层和输出层,将高层次的音视频统一特征直接输入到所述深度信念网络的可见层。
10.根据权利要求1或9所述的一种融合多个深度学习模型的双模态情感识别方法,其特征在于,步骤D)中,验证深度信念网络的识别率采用留一法交叉验证方式,计算平均识别率,将平均识别率作为最终深度信念网络的识别率。
CN201911149238.XA 2019-11-21 2019-11-21 一种融合多个深度学习模型的双模态情感识别方法 Active CN111292765B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911149238.XA CN111292765B (zh) 2019-11-21 2019-11-21 一种融合多个深度学习模型的双模态情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911149238.XA CN111292765B (zh) 2019-11-21 2019-11-21 一种融合多个深度学习模型的双模态情感识别方法

Publications (2)

Publication Number Publication Date
CN111292765A CN111292765A (zh) 2020-06-16
CN111292765B true CN111292765B (zh) 2023-07-28

Family

ID=71018700

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911149238.XA Active CN111292765B (zh) 2019-11-21 2019-11-21 一种融合多个深度学习模型的双模态情感识别方法

Country Status (1)

Country Link
CN (1) CN111292765B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111898670B (zh) * 2020-07-24 2024-04-05 深圳市声希科技有限公司 多模态情感识别方法、装置、设备及存储介质
US11663823B2 (en) * 2020-08-10 2023-05-30 International Business Machines Corporation Dual-modality relation networks for audio-visual event localization
CN112712824B (zh) * 2021-03-26 2021-06-29 之江实验室 一种融合人群信息的语音情感识别方法和系统
CN113408649A (zh) * 2021-07-09 2021-09-17 南京工业大学 基于视频图像面部表情和语音的多模态儿童情绪识别融合模型
CN113592251B (zh) * 2021-07-12 2023-04-14 北京师范大学 一种多模态融合的教态分析系统
CN113674767A (zh) * 2021-10-09 2021-11-19 复旦大学 一种基于多模态融合的抑郁状态识别方法
CN117577140B (zh) * 2024-01-16 2024-03-19 北京岷德生物科技有限公司 面向脑瘫儿童的语音和面部表情数据处理方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017107188A1 (zh) * 2015-12-25 2017-06-29 中国科学院深圳先进技术研究院 视频分类快速识别的方法及装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10628741B2 (en) * 2010-06-07 2020-04-21 Affectiva, Inc. Multimodal machine learning for emotion metrics
BR102016007265B1 (pt) * 2016-04-01 2022-11-16 Samsung Eletrônica da Amazônia Ltda. Método multimodal e em tempo real para filtragem de conteúdo sensível
CN105976809B (zh) * 2016-05-25 2019-12-17 中国地质大学(武汉) 基于语音和面部表情的双模态情感融合的识别方法及系统
CN107247919A (zh) * 2017-04-28 2017-10-13 深圳大学 一种视频情感内容的获取方法及系统
CN107609572B (zh) * 2017-08-15 2021-04-02 中国科学院自动化研究所 基于神经网络和迁移学习的多模态情感识别方法、系统
CN108288035A (zh) * 2018-01-11 2018-07-17 华南理工大学 基于深度学习的多通道图像特征融合的人体动作识别方法
CN108596039B (zh) * 2018-03-29 2020-05-05 南京邮电大学 一种基于3d卷积神经网络的双模态情感识别方法及系统
CN108805089B (zh) * 2018-06-14 2021-06-29 南京云思创智信息科技有限公司 基于多模态的情绪识别方法
CN108717856B (zh) * 2018-06-16 2022-03-08 台州学院 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
CN109171769A (zh) * 2018-07-12 2019-01-11 西北师范大学 一种应用于抑郁症检测的语音、面部特征提取方法及系统
CN109190479A (zh) * 2018-08-04 2019-01-11 台州学院 一种基于混合深度学习的视频序列表情识别方法
CN109815785A (zh) * 2018-12-05 2019-05-28 四川大学 一种基于双流卷积神经网络的人脸情绪识别方法
CN109919031B (zh) * 2019-01-31 2021-04-09 厦门大学 一种基于深度神经网络的人体行为识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017107188A1 (zh) * 2015-12-25 2017-06-29 中国科学院深圳先进技术研究院 视频分类快速识别的方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Learning Affective Features With a Hybrid Deep Model for Audio–Visual Emotion Recognition;Shiqing Zhang 等;IEEE Transactions on Circuits and Systems for Video Technology;第28卷(第10期);第3030-3043页 *
基于视听觉感知系统的情感识别技术研究;朱晨岗;中国优秀硕士学位论文全文数据库信息科技辑(第11期);I138-460 *
多模深度卷积神经网络应用于视频表情识别;潘仙张;张石清;郭文平;;光学精密工程(第04期);第963-970页 *

Also Published As

Publication number Publication date
CN111292765A (zh) 2020-06-16

Similar Documents

Publication Publication Date Title
CN111292765B (zh) 一种融合多个深度学习模型的双模态情感识别方法
CN110188343B (zh) 基于融合注意力网络的多模态情感识别方法
CN108717856B (zh) 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
CN108596039B (zh) 一种基于3d卷积神经网络的双模态情感识别方法及系统
CN106250855B (zh) 一种基于多核学习的多模态情感识别方法
CN109508669B (zh) 一种基于生成式对抗网络的人脸表情识别方法
CN111242155A (zh) 一种基于多模深度学习的双模态情感识别方法
Zhang et al. Study on CNN in the recognition of emotion in audio and images
CN112699774B (zh) 视频中人物的情绪识别方法及装置、计算机设备及介质
CN112784763B (zh) 基于局部与整体特征自适应融合的表情识别方法及系统
CN112348075A (zh) 一种基于情景注意力神经网络的多模态情感识别方法
CN109508375A (zh) 一种基于多模态融合的社交情感分类方法
CN112784798A (zh) 一种基于特征-时间注意力机制的多模态情感识别方法
CN109190479A (zh) 一种基于混合深度学习的视频序列表情识别方法
CN112818861A (zh) 一种基于多模态上下文语义特征的情感分类方法及系统
CN112151030A (zh) 一种基于多模态的复杂场景语音识别方法和装置
CN113343860A (zh) 一种基于视频图像和语音的双模态融合情感识别方法
CN109509484A (zh) 一种婴儿啼哭原因的预测方法及装置
CN112101096B (zh) 一种基于语音和微表情的多模态融合的自杀情绪感知方法
CN106096642B (zh) 基于鉴别局部保持投影的多模态情感特征融合方法
Ocquaye et al. Dual exclusive attentive transfer for unsupervised deep convolutional domain adaptation in speech emotion recognition
CN116304973A (zh) 一种基于多模态融合的课堂教学情感识别方法和系统
CN114550057A (zh) 一种基于多模态表示学习的视频情绪识别方法
CN114724224A (zh) 一种用于医疗护理机器人的多模态情感识别方法
CN115393933A (zh) 一种基于帧注意力机制的视频人脸情绪识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant