CN111128242A - 一种基于双深度网络的多模式情感信息融合与识别方法 - Google Patents

一种基于双深度网络的多模式情感信息融合与识别方法 Download PDF

Info

Publication number
CN111128242A
CN111128242A CN202010000791.3A CN202010000791A CN111128242A CN 111128242 A CN111128242 A CN 111128242A CN 202010000791 A CN202010000791 A CN 202010000791A CN 111128242 A CN111128242 A CN 111128242A
Authority
CN
China
Prior art keywords
emotion
layer
facial expression
training
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010000791.3A
Other languages
English (en)
Other versions
CN111128242B (zh
Inventor
韩志艳
王健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bohai University
Original Assignee
Bohai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bohai University filed Critical Bohai University
Priority to CN202010000791.3A priority Critical patent/CN111128242B/zh
Publication of CN111128242A publication Critical patent/CN111128242A/zh
Application granted granted Critical
Publication of CN111128242B publication Critical patent/CN111128242B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Abstract

本发明提供一种基于双深度网络的多模式情感信息融合与识别方法,涉及情感识别技术领域。本发明方法首先用深度信念网络从预处理后的语音情感信号中自动地提取出新的语音情感特征,用深度卷积神经网络从预处理后的面部表情信号中自动地提取出新的面部表情特征,然后将提取的新的语音情感特征和面部表情特征参数进行组合获得组合特征向量,再利用AdaBoost算法和类可靠度来获得最终识别结果,实现对人类基本情感进行识别。该方法充分发挥了深度学习算法和集成学习算法的优点,使整个情感信息的识别过程更加接近人类情感识别,从而提高了情感识别的准确性。

Description

一种基于双深度网络的多模式情感信息融合与识别方法
技术领域
本发明涉及情感识别技术领域,尤其涉及一种基于双深度网络的多模式情感信息融合与识别方法。
背景技术
情感识别是一个跨学科的研究领域,近年来受到越来越多的关注。虽然单一地依靠语音信号、面部表情信号和生理参数来进行情感识别的研究取得了一定的成果,但却存在着很多局限性,因为人类是通过多模式的方式表达情感信息的,它具有表达的复杂性和文化的相对性。如美国MIT媒体实验室情感计算研究小组Picard教授等人率先以图片为诱发材料,从人体肌电、脉搏、皮肤电导和呼吸信号中提取特征,并对愤怒、憎恶、悲伤、柏拉图式的爱、罗曼蒂克的爱、高兴、崇敬以及中性状态共8种情感进行分类,取得了较好的分类效果。东南大学的赵力、黄程韦等通过融合语音信号与心电信号进行了多模式情感识别,获得较高的融合识别率。但是上述方法均为与生理信号相融合,而生理信号的测量必须与身体接触,因此对于此通道的信号获取有一定的困难,所以语音和面部表情作为两种最为主要的表征情感的方式,得到了广泛的研究。如Patwadhan提出了一种利用多模态音视频连续数据自动检测情感的方法,采用特征层融合的方法建立组合特征向量,利用支持向量机分类器进行情感检测。Esam等使用不同的融合方案利用每种模式的属性,提出了一种基于信息增益原理的分层决策方法,并利用遗传算法对其参数进行了优化。中国人民大学的陈师哲等在多文化场景下进行了多模态情感识别,验证了文化因素对于情感识别的重要影响。从一定意义上说,不同信道信息的融合是多模式情感识别研究的瓶颈问题,它直接关系到情感识别的准确性。因此,基于语音与面部表情信号的多模式情感识别研究是一个具有重要理论意义和很高实用价值的科学问题。
目前,融合多模式情感信息的方法主要有2种:决策层的融合和特征层的融合。决策层的融合技术是先把各个模式的信息提取出来,输入相应的分类器得到单模式识别结果,然后用规则的方法将单模式的结果综合起来,得到最终的识别结果;特征层的融合方法则是将各个模式的信息提取出来,将这些信息组成一个统一的特征向量,然后再输入到分类器中,得到最终的识别结果。这两种方法各有优缺点,决策层的融合技术考虑了不同模式对于情感识别重要性的不同,因此他们通过主观感知实验给不同的模式赋予不同的权重,但往往对同一模式仅赋一个权重,由于各模式对不同类别数据的分类能力是不同的,因此这种通过主观感知实验得到的权重能否应用到其他的情况下是值得怀疑的。特征层的融合技术更接近人类识别情感的过程,能更好地利用统计机器学习的技术,但是这种方法没有考虑到识别不同情感时,不同模式重要性的不同,因此这种方法不能最大程度地发挥多模式融合的优势。可以看出,目前对于情感信息融合技术的研究尚处于起步阶段,相应的基础理论和方法框架仍很欠缺。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种基于双深度网络的多模式情感信息融合与识别方法,通过语音特征和面部表情特征相融合,对情感信息进行识别。
为解决上述技术问题,本发明所采取的技术方案是:一种基于双深度网络的多模式情感信息融合与识别方法,包括以下步骤:
步骤1、情感信号获取;
首先诱发情感,再同步获取相应情感状态下的语音信号和面部表情信号,并将二者绑定存储,获得多个情感样本;
所述获取相应情感状态下的语音信号和面部表情信号的具体方法为:利用麦克风接收语音数据后,再通过采样量化获得相应的语音信号;而面部表情信号则通过摄像机拍摄获得;
所述的采样量化的采样频率为11.025kHz、量化精度为16bit;所述的通过摄像机拍摄获得的每幅面部表情信号图像大小为256×256像素;
步骤2、对每个情感样本的情感信号进行预处理;
步骤2-1、语音信号预处理;
对获取的情感样本中的语音信号进行预处理,包括预加重、分帧加窗和端点检测;
所述预加重采用一阶数字预加重滤波器实现,预加重滤波器的系数取值为0.93~0.97;所述分帧加窗为以帧长256点的标准进行分帧,并对分帧后的数据加汉明窗处理;所述端点检测利用基于短时能零积和鉴别信息的语音端点检测法进行;
步骤2-2、面部表情信号预处理;
对获取的情感样本中的面部表情信号,首先进行脸部定位,然后进行图像几何特性和光学特性的归一化处理;
所述脸部定位利用肤色模型实现;所述图像几何特性归一化根据左右两眼的坐标值旋转图像实现;所述图像光学特性的归一化处理先采用直方图均衡化方法对图像灰度做拉伸,然后对图像像素灰度值进行归一化处理,使标准人脸图像的像素灰度值为0,方差为1;
步骤3、对每个情感样本中的情感特征参数进行提取;
步骤3-1、训练深度信念网络,并将预处理后的语音信号送入训练好的深度信念网络来自动提取语音信号中的情感特征;
所述深度信念网络包括四个隐含层,每层的每个单元连接到每个相邻层中的每个单元,没有层内连接,即使用多个受限玻尔兹曼机堆叠而成;
所述训练深度信念网络的具体方法为:
1)训练第一个受限玻尔兹曼机,其联合概率分布由能量函数指定,如下式所示:
Figure BDA0002353292240000031
其中,P(v,h;θ)为第一个受限玻尔兹曼机的联合概率,v为M维的可见层向量,M是可见层的神经元个数,h为N维的隐含层向量,N是隐含层的神经元个数,θ={a,b,W},W为权重矩阵,b为可见层的偏置向量,a为隐含层的偏置向量,Z(θ)为配分函数的归一化常数,如下公式所示:
Figure BDA0002353292240000032
其中,E(v,h;θ)为能量函数,公式为:
Figure BDA0002353292240000033
其中,Wij是可见层的第i个神经元和隐含层的第j个神经元之间的对称权值,bi是可见层的第i个神经元的偏置,aj是隐含层的第j个神经元的偏置,vi是可见层向量的第i个元素,hj是隐含层向量的第j个元素;
2)训练第二个受限玻尔兹曼机,并将第一个受限玻尔兹曼机的隐含层作为第二个受限玻尔兹曼机的可见层,并依此添加任意多层继续扩展,其中每个新的受限玻尔兹曼机对前一个受限玻尔兹曼机的样本建模;
步骤3-2、用深度卷积神经网络自动提取情感样本中的面部表情特征;
步骤3-2-1、建立深度卷积神经网络结构;所述深度卷积神经网络结构包括卷积层、最大池化层、第一组残差块、第二组残差块、平均池化层和全连接层;并分别在第一组残差块的始端与末端之间加入跨层连接支路,第二组残差块的始端与末端之间加入跨层连接支路;
所述第一组残差块包括两种类型的残差块,分别是ResNet-34和ResNet-50;第二组残差块包括三种类型的残差块,分别是ResNet-34、ResNet-50和ResNet-101;
步骤3-2-2、采用梯度下降算法训练建立好的深度卷积神经网络;
步骤3-2-3、将预处理后的面部表情信号作为训练好的深度卷积神经网络的输入,其输出即为面部表情特征参数;
步骤4、将每个情感样本中的情感特征参数进行组合,获得情感样本的组合特征向量;
将用深度信念网络提取的语音情感特征和用深度卷积神经网络自动提取的面部表情特征顺序组合起来获得情感样本的组合特征向量;
步骤5、基于AdaBoost算法和类可靠度实现情感识别;
步骤5-1、将获得的所有情感样本的组合特征向量构成一个集合称为组合特征向量集,并将该组合特征向量集等分成三份,分别作为训练样本集、可靠度预测样本集和测试样本集;
步骤5-2、通过对训练样本集做有放回的抽样,获得若干个子训练样本集;
步骤5-3、利用Adaboost算法对各子训练样本集分别进行训练,获得每个子训练样本集上的强分类器;所述强分类器的输出层有6个神经元,代表6种人类基本情感,即高兴、愤怒、惊奇、悲伤、恐惧和中性;
步骤5-4、用可靠度预测样本集中的数据作为各强分类器的测试样本来预测各强分类器输出各情感类别的正确率,作为各情感类别的可靠度值;
步骤5-5、将待测样本送入各强分类器进行识别,每个强分类器对每类情感均产生一个可能性比率;将各强分类器输出的每类情感的可靠度值与可能性比率作乘积,然后将各强分类器类别相同的乘积值累加,将累加值最大的情感类别作为最终的情感识别结果。
采用上述技术方案所产生的有益效果在于:本发明提供的一种基于双深度网络的多模式情感信息融合与识别方法,(1)将语音信号和面部表情信号进行融合,弥补了单模式的不足;(2)充分利用了深度学习模型可提取抽象特征的优势,有效地降低了运算量,提高了特征参数的鲁棒性;(3)在深度卷积神经网络结构中加入跨层连接支路,使低层残差块可以向高层残差块传递信息,起到抑制梯度消失的作用;(4)依据集成学习多分类器共同决策的思想,基于AdaBoost算法和类可靠度实现多模式情感识别算法,充分发挥了决策层融合与特征层融合的优点,使整个识别过程更加接近人类情感识别,有利于提升分类的可靠性和效率;(5)由于各强分类器训练集数据的代表性差异,对不同类别数据的分类能力是不同的,通过计算每个强分类器的各情感类别的可靠度值的方式来获得最终识别结果,提高了情感识别的准确率。
附图说明
图1为本发明实施例提供的一种基于双深度网络的多模式情感信息融合与识别方法的流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
一种基于双深度网络的多模式情感信息融合与识别方法,如图1所示,包括以下步骤:
步骤1、情感信号获取;
首先诱发情感,再同步获取相应情感状态下的语音信号和面部表情信号,并将二者绑定存储,获得多个情感样本;
所述获取相应情感状态下的语音信号和面部表情信号的具体方法为:利用麦克风接收语音数据后,再通过采样量化获得相应的语音信号;而面部表情信号则通过摄像机拍摄获得;
所述的采样量化的采样频率为11.025kHz、量化精度为16bit;所述的通过摄像机拍摄获得的每幅面部表情信号图像大小为256×256像素;
本实施例中,利用麦克风输入语音数据,然后利用计算机、单片机或DSP芯片等处理单元以11.025kHz的采样频率、16bit的量化精度进行采样量化,获得相应的语音信号;本实施例中的面部表情信号则是通过摄像机拍摄,每幅图像大小为256×256像素;
步骤2、对每个情感样本的情感信号进行预处理;
步骤2-1、语音信号预处理;
对获取的情感样本中语音信号进行预处理,包括预加重、分帧加窗和端点检测;
所述预加重采用一阶数字预加重滤波器实现,预加重滤波器的系数取值为0.93~0.97;所述分帧加窗为以帧长256点的标准进行分帧,并对分帧后的数据加汉明窗处理;所述端点检测利用基于短时能零积和鉴别信息的语音端点检测法进行;
步骤2-2、面部表情信号预处理;
对获取的情感样本中面部表情信号,首先进行脸部定位,然后进行图像几何特性归一化处理和图像光学特性归一化处理;
所述脸部定位利用肤色模型实现;所述图像几何特性归一化根据左右两眼的坐标值旋转图像实现,以保证人脸方向的一致性;所述图像光学特性的归一化处理先采用直方图均衡化方法对图像灰度做拉伸,以改善图像的对比度,然后对图像像素灰度值进行归一化处理,使标准人脸图像的像素灰度值为0,方差为1,如此可以部分消除光照对识别结果的影响;本发明实施例中,归一化后的图像大小为75×100像素;
步骤3、对每个情感样本中的情感特征参数进行提取;
步骤3-1、训练深度信念网络,并将预处理后的语音信号送入训练好的深度信念网络来自动提取语音信号中的情感特征;
所述深度信念网络包括四个隐含层,每层的每个单元连接到每个相邻层中的每个单元,没有层内连接,即使用多个受限玻尔兹曼机堆叠而成;
所述训练深度信念网络的具体方法为:
1)训练第一个受限玻尔兹曼机,其联合概率分布由能量函数指定,如下式所示:
Figure BDA0002353292240000061
其中,P(v,h;θ)为第一个受限玻尔兹曼机的联合概率,v为M维的可见层向量,M是可见层的神经元个数,h为N维的隐含层向量,N是隐含层的神经元个数,本实施例中,第一隐含层神经元个数为176个,第二隐含层神经元个数为116个,第三隐含层神经元个数为58个,第四隐含层神经元的个数即情感特征参数个数为20个,θ={a,b,W},W为权重矩阵,b为可见层的偏置向量,a为隐含层的偏置向量,Z(θ)为配分函数的归一化常数,如下公式所示:
Figure BDA0002353292240000062
其中,E(v,h;θ)为能量函数,公式为:
Figure BDA0002353292240000063
其中,Wij是可见层的第i个神经元和隐含层的第j个神经元之间的对称权值,bi是可见层的第i个神经元的偏置,aj是隐含层的第j个神经元的偏置,vi是可见层向量的第i个元素,hj是隐含层向量的第j个元素;
2)训练第二个受限玻尔兹曼机,并将第一个受限玻尔兹曼机的隐含层作为第二个受限玻尔兹曼机的可见层,并依此添加任意多层继续扩展,其中每个新的受限玻尔兹曼机对前一个受限玻尔兹曼机的样本建模;
步骤3-2、用深度卷积神经网络自动提取情感样本中的面部表情特征;
步骤3-2-1、建立深度卷积神经网络结构;所述深度卷积神经网络结构包括卷积层、最大池化层、第一组残差块、第二组残差块、平均池化层和全连接层;并分别在第一组残差块的始端与末端之间加入跨层连接支路,第二组残差块的始端与末端之间加入跨层连接支路;
所述第一组残差块包括两种类型的残差块,分别是ResNet-34和ResNet-50;第二组残差块包括三种类型的残差块,分别是ResNet-34、ResNet-50和ResNet-101;
本实施例中,深度卷积神经网络首先经过卷积层,卷积核大小为7×7,步长为2,再经过最大池化层,卷积核大小为3×3,步长为2;其次经过第一组残差块,该组残差块包含两种类型的残差块,分别是ResNet-34和ResNet-50,此两种残差块数量均为3;接着经过第二组残差块,该组残差块包含三种类型的残差块,分别是ResNet-34、ResNet-50和ResNet-101,此三种残差块数量均为2;并分别在第一组残差块的始端与末端之间加入跨层连接支路,第二组残差块的始端与末端之间加入跨层连接支路;最后经过平均池化层和全连接层;
步骤3-2-2、采用梯度下降算法训练建立好的深度卷积神经网络;
步骤3-2-3、将预处理后的面部表情信号作为训练好的深度卷积神经网络的输入,其输出即为面部表情特征参数;
步骤4、将每个情感样本中的情感特征参数进行组合,获得情感样本的组合特征向量;
将用深度信念网络提取的语音情感特征和用深度卷积神经网络自动提取的面部表情特征顺序组合起来获得情感样本的组合特征向量,其中前20个特征为用深度信念网络提取的新的语音情感特征,后32个特征为用深度卷积神经网络提取的新的面部表情特征;
步骤5、基于AdaBoost算法和类可靠度实现情感识别;
步骤5-1、将获得的所有情感样本的组合特征向量u1,u2,…,ur,ur+1,ur+2,…,u2r,u2r+1,u2r+2,…,u3r构成一个集合称为组合特征向量集,本实施例中,r取值为6000;并将该组合特征向量集等分成三份,分别作为训练样本集、可靠度预测样本集和测试样本集,其中u1,u2,…,ur为训练样本集中元素,ur+1,ur+2,…,u2r为可靠度预测样本集中元素,u2r+1,u2r+2,…,u3r为测试样本集中元素;
步骤5-2、通过对训练样本集做有放回的抽样N′(N′的取值不要超过训练样本集中向量的数量即可)次,获得若干个子训练样本集;本实施例中,首先获得子训练样本集S1,S1中包含3000个特征向量,而且是随机获得的;然后依此继续抽取样本获得子训练样本集S2,…,SM′,即获得M′个子训练样本集;本实施例中,N′取值为3000,M′取值为25;
步骤5-3、利用Adaboost算法对各子训练样本集分别进行训练,获得每个子训练样本集上的强分类器;
本实施例中利用Adaboost算法对各子训练样本集进行训练时,使用的弱分类器是三层小波神经网络,输入层有52个神经元,代表52个情感特征参数(20个语音情感特征参数加上32个面部表情特征参数),输出层有6个神经元,代表6种人类基本情感,即高兴、愤怒、惊奇、悲伤、恐惧和中性;
步骤5-4、用可靠度预测样本集中的数据作为各强分类器H′t,t=1,2,…,M′的测试样本来预测各强分类器输出各情感类别的正确率,作为各情感类别的可靠度值CRkt,k=1,2,…,6,k表示6种人类基本情感,即k=1代表高兴,k=2代表愤怒,k=3代表惊奇,k=4代表悲伤,k=5代表恐惧和k=6代表中性情感;
步骤5-5、将待测样本x送入各强分类器进行识别,每个强分类器对每类情感均产生一个可能性比率,其中,Pkt表示第t个强分类器对第k个情感类别产生的可能性比率。将各强分类器输出的每类情感的可靠度值与可能性比率作乘积,即CRkt×Pkt,然后将各强分类器类别相同的乘积值累加,将累加值最大的类别作为最终的情感识别结果,即通过下式获得最终情感识别结果:
Figure BDA0002353292240000081
本发明实施例中,为证明本发明方法的情感识别效果,将单模式条件下的情感识别结果与本发明多模式条件下的情感识别结果进行对比。本实施例中,训练样本集、,可靠度预测样本集和测试样本集均包含每种情感的1000条语句。在单模式条件下,仅通过语音信号进行情感识别的情感识别正确率如表1所示,仅通过面部表情信号进行情感识别的情感识别正确率如表2所示;本发明方法的多模式情感识别方法的情感识别正确率如表3所示。
表1 仅通过语音信号进行情感识别的情感识别正确率
情感类别 高兴 愤怒 惊奇 悲伤 恐惧 中性
高兴 90% 1% 2% 2% 5% 0
愤怒 3% 89% 0 6% 1% 1%
惊奇 4% 6% 83% 5% 1% 1%
悲伤 2% 2% 4% 86% 3% 3%
恐惧 6% 1% 0 2% 84% 7%
中性 4% 5% 0 1% 6% 84%
表2 仅通过面部表情信号进行情感识别的情感识别正确率
情感类别 高兴 愤怒 惊奇 悲伤 恐惧 中性
高兴 80% 8% 1% 0 7% 4%
愤怒 4% 93% 2% 1% 0 0
惊奇 3% 8% 80% 7% 1% 1%
悲伤 1% 6% 8% 82% 2% 1%
恐惧 1% 2% 3% 15% 76% 3%
中性 0 5% 1% 10% 3% 81%
表3 本发明方法的多模式情感识别方法的情感识别正确率
情感类别 高兴 愤怒 惊奇 悲伤 恐惧 中性
高兴 96% 0 1% 0 1% 2%
愤怒 1% 99% 0 0 0 0
惊奇 2% 0 95% 0 2% 1%
悲伤 0 1% 0 95% 0 4%
恐惧 0 0 1% 0 99% 0
中性 0 1% 0 4% 1% 94%
由表1和表2可知,仅通过语音信号进行情感识别的平均识别正确率是86%(该平均识别正确率86%是通过表1中高兴的识别正确率90%、愤怒的识别正确率89%、惊奇的识别正确率83%、悲伤的识别正确率86%、恐惧的识别正确率84%和中性的识别正确率84%求和后取平均值得到的,即86%=(90%+89%+83%+86%+84%+84%)/6);仅通过面部表情信号进行情感识别的平均识别正确率是82%。因此,单纯依靠语音信号或面部表情信号进行识别在实际应用中会遇到一定的困难,因为人类是通过多模式的方式表达情感信息的,所以研究多模式情感识别的方法十分必要。从表3可以看出,通过本发明方法中的多模式情感识别方法进行情感识别的识别正确率达到了96.3%,明显有所提高,因此不同模式信息的融合是多模式情感识别研究的瓶颈问题,它直接关系到情感识别的准确性。本发明方法充分发挥了决策层融合与特征层融合的优点,整个融合过程更加接近人类情感识别,从而提高了情感识别的平均正确率。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (5)

1.一种基于双深度网络的多模式情感信息融合与识别方法,其特征在于:包括以下步骤:
步骤1、情感信号获取;
首先诱发情感,再同步获取相应情感状态下的语音信号和面部表情信号,并将二者绑定存储,获得多个情感样本;
步骤2、对每个情感样本的情感信号进行预处理;
步骤2-1、语音信号预处理;
对获取的情感样本中的语音信号进行预处理,包括预加重、分帧加窗和端点检测;
步骤2-2、面部表情信号预处理;
对获取的情感样本中的面部表情信号,首先进行脸部定位,然后进行图像几何特性和光学特性的归一化处理;
步骤3、对每个情感样本中的情感特征参数进行提取;
步骤3-1、训练深度信念网络,并将预处理后的语音信号送入训练好的深度信念网络来自动提取语音信号中的情感特征;
步骤3-2、用深度卷积神经网络自动提取情感样本中的面部表情特征;
步骤4、将每个情感样本中的情感特征参数进行组合,获得情感样本的组合特征向量;
将用深度信念网络提取的语音情感特征和用深度卷积神经网络自动提取的面部表情特征顺序组合起来获得情感样本的组合特征向量;
步骤5、基于AdaBoost算法和类可靠度实现情感识别;
步骤5-1、将获得的所有情感样本的组合特征向量构成一个集合称为组合特征向量集,并将该组合特征向量集等分成三份,分别作为训练样本集、可靠度预测样本集和测试样本集;
步骤5-2、通过对训练样本集做有放回的抽样,获得若干个子训练样本集;
步骤5-3、利用Adaboost算法对各子训练样本集分别进行训练,获得每个子训练样本集上的强分类器;所述强分类器的输出层有6个神经元,代表6种人类基本情感,即高兴、愤怒、惊奇、悲伤、恐惧和中性;
步骤5-4、用可靠度预测样本集中的数据作为各强分类器的测试样本来预测各强分类器输出各情感类别的正确率,作为各情感类别的可靠度值;
步骤5-5、将待测样本送入各强分类器进行识别,每个强分类器对每类情感均产生一个可能性比率;将各强分类器输出的每类情感的可靠度值与可能性比率作乘积,然后将各强分类器类别相同的乘积值累加,将累加值最大的情感类别作为最终的情感识别结果。
2.根据权利要求1所述的一种基于双深度网络的多模式情感信息融合与识别方法,其特征在于:步骤1所述获取相应情感状态下的语音信号和面部表情信号的具体方法为:利用麦克风接收语音数据后,再通过采样量化获得相应的语音信号;而面部表情信号则通过摄像机拍摄获得;
所述的采样量化的采样频率为11.025kHz、量化精度为16bit;所述的通过摄像机拍摄获得的每幅面部表情信号图像大小为256×256像素。
3.根据权利要求2所述的一种基于双深度网络的多模式情感信息融合与识别方法,其特征在于:步骤2-1所述预加重采用一阶数字预加重滤波器实现,预加重滤波器的系数取值为0.93~0.97;所述分帧加窗为以帧长256点的标准进行分帧,并对分帧后的数据加汉明窗处理;所述端点检测利用基于短时能零积和鉴别信息的语音端点检测法进行;步骤2-2所述脸部定位利用肤色模型实现;所述图像几何特性归一化根据左右两眼的坐标值旋转图像实现;所述图像光学特性的归一化处理先采用直方图均衡化方法对图像灰度做拉伸,然后对图像像素灰度值进行归一化处理,使标准人脸图像的像素灰度值为0,方差为1。
4.根据权利要求1所述的一种基于双深度网络的多模式情感信息融合与识别方法,其特征在于:步骤3-1所述深度信念网络包括四个隐含层,每层的每个单元连接到每个相邻层中的每个单元,没有层内连接,即使用多个受限玻尔兹曼机堆叠而成;
所述训练深度信念网络的具体方法为:
1)训练第一个受限玻尔兹曼机,其联合概率分布由能量函数指定,如下式所示:
Figure FDA0002353292230000021
其中,P(v,h;θ)为第一个受限玻尔兹曼机的联合概率,v为M维的可见层向量,M是可见层的神经元个数,h为N维的隐含层向量,N是隐含层的神经元个数,θ={a,b,W},W为权重矩阵,b为可见层的偏置向量,a为隐含层的偏置向量,Z(θ)为配分函数的归一化常数,如下公式所示:
Figure FDA0002353292230000022
其中,E(v,h;θ)为能量函数,公式为:
Figure FDA0002353292230000023
其中,Wij是可见层的第i个神经元和隐含层的第j个神经元之间的对称权值,bi是可见层的第i个神经元的偏置,aj是隐含层的第j个神经元的偏置,vi是可见层向量的第i个元素,hj是隐含层向量的第j个元素;
2)训练第二个受限玻尔兹曼机,并将第一个受限玻尔兹曼机的隐含层作为第二个受限玻尔兹曼机的可见层,并依此添加任意多层继续扩展,其中每个新的受限玻尔兹曼机对前一个受限玻尔兹曼机的样本建模。
5.根据权利要求1所述的一种基于双深度网络的多模式情感信息融合与识别方法,其特征在于:所述步骤3-2的具体方法为:
步骤3-2-1、建立深度卷积神经网络结构;所述深度卷积神经网络结构包括卷积层、最大池化层、第一组残差块、第二组残差块、平均池化层和全连接层;并分别在第一组残差块的始端与末端之间加入跨层连接支路,第二组残差块的始端与末端之间加入跨层连接支路;
所述第一组残差块包括两种类型的残差块,分别是ResNet-34和ResNet-50;第二组残差块包括三种类型的残差块,分别是ResNet-34、ResNet-50和ResNet-101;
步骤3-2-2、采用梯度下降算法训练建立好的深度卷积神经网络;
步骤3-2-3、将预处理后的面部表情信号作为训练好的深度卷积神经网络的输入,其输出即为面部表情特征参数。
CN202010000791.3A 2020-01-02 2020-01-02 一种基于双深度网络的多模式情感信息融合与识别方法 Active CN111128242B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010000791.3A CN111128242B (zh) 2020-01-02 2020-01-02 一种基于双深度网络的多模式情感信息融合与识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010000791.3A CN111128242B (zh) 2020-01-02 2020-01-02 一种基于双深度网络的多模式情感信息融合与识别方法

Publications (2)

Publication Number Publication Date
CN111128242A true CN111128242A (zh) 2020-05-08
CN111128242B CN111128242B (zh) 2023-01-24

Family

ID=70507303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010000791.3A Active CN111128242B (zh) 2020-01-02 2020-01-02 一种基于双深度网络的多模式情感信息融合与识别方法

Country Status (1)

Country Link
CN (1) CN111128242B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112120716A (zh) * 2020-09-02 2020-12-25 中国人民解放军军事科学院国防科技创新研究院 一种可穿戴式多模态情绪状态监测装置
CN112163449A (zh) * 2020-08-21 2021-01-01 同济大学 一种轻量化的多分支特征跨层融合图像语义分割方法
CN113065449A (zh) * 2021-03-29 2021-07-02 济南大学 面部图像采集方法、装置、计算机设备及存储介质
CN113076847A (zh) * 2021-03-29 2021-07-06 济南大学 一种多模态情感识别方法及系统
CN113469269A (zh) * 2021-07-16 2021-10-01 上海电力大学 基于多通道融合的残差卷积自编码风光荷场景生成方法
CN113591525A (zh) * 2020-10-27 2021-11-02 蓝海(福建)信息科技有限公司 一种深度融合面部表情和语音的驾驶员路怒症识别方法
CN113593526A (zh) * 2021-07-27 2021-11-02 哈尔滨理工大学 一种基于深度学习的语音情感识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104835507A (zh) * 2015-03-30 2015-08-12 渤海大学 一种串并结合的多模式情感信息融合与识别方法
CN106340309A (zh) * 2016-08-23 2017-01-18 南京大空翼信息技术有限公司 一种基于深度学习的狗叫情感识别方法及装置
CN108388890A (zh) * 2018-03-26 2018-08-10 南京邮电大学 一种基于面部表情识别的新生儿疼痛程度评估方法及系统
CN109036468A (zh) * 2018-11-06 2018-12-18 渤海大学 基于深度信念网络和核非线性psvm的语音情感识别方法
CN109471942A (zh) * 2018-11-07 2019-03-15 合肥工业大学 基于证据推理规则的中文评论情感分类方法及装置
WO2019103484A1 (ko) * 2017-11-24 2019-05-31 주식회사 제네시스랩 인공지능을 이용한 멀티모달 감성인식 장치, 방법 및 저장매체

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104835507A (zh) * 2015-03-30 2015-08-12 渤海大学 一种串并结合的多模式情感信息融合与识别方法
CN106340309A (zh) * 2016-08-23 2017-01-18 南京大空翼信息技术有限公司 一种基于深度学习的狗叫情感识别方法及装置
WO2019103484A1 (ko) * 2017-11-24 2019-05-31 주식회사 제네시스랩 인공지능을 이용한 멀티모달 감성인식 장치, 방법 및 저장매체
CN108388890A (zh) * 2018-03-26 2018-08-10 南京邮电大学 一种基于面部表情识别的新生儿疼痛程度评估方法及系统
CN109036468A (zh) * 2018-11-06 2018-12-18 渤海大学 基于深度信念网络和核非线性psvm的语音情感识别方法
CN109471942A (zh) * 2018-11-07 2019-03-15 合肥工业大学 基于证据推理规则的中文评论情感分类方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
韩志艳,王健: "多模型情感识别特征参数融合算法研究", 《计算机技术与发展》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112163449A (zh) * 2020-08-21 2021-01-01 同济大学 一种轻量化的多分支特征跨层融合图像语义分割方法
CN112163449B (zh) * 2020-08-21 2022-12-16 同济大学 一种轻量化的多分支特征跨层融合图像语义分割方法
CN112120716A (zh) * 2020-09-02 2020-12-25 中国人民解放军军事科学院国防科技创新研究院 一种可穿戴式多模态情绪状态监测装置
CN113591525A (zh) * 2020-10-27 2021-11-02 蓝海(福建)信息科技有限公司 一种深度融合面部表情和语音的驾驶员路怒症识别方法
CN113591525B (zh) * 2020-10-27 2024-03-01 蓝海(福建)信息科技有限公司 一种深度融合面部表情和语音的驾驶员路怒症识别方法
CN113065449A (zh) * 2021-03-29 2021-07-02 济南大学 面部图像采集方法、装置、计算机设备及存储介质
CN113076847A (zh) * 2021-03-29 2021-07-06 济南大学 一种多模态情感识别方法及系统
CN113469269A (zh) * 2021-07-16 2021-10-01 上海电力大学 基于多通道融合的残差卷积自编码风光荷场景生成方法
CN113593526A (zh) * 2021-07-27 2021-11-02 哈尔滨理工大学 一种基于深度学习的语音情感识别方法

Also Published As

Publication number Publication date
CN111128242B (zh) 2023-01-24

Similar Documents

Publication Publication Date Title
CN111128242B (zh) 一种基于双深度网络的多模式情感信息融合与识别方法
CN108615010B (zh) 基于平行卷积神经网络特征图融合的人脸表情识别方法
CN110427867B (zh) 基于残差注意力机制的面部表情识别方法及系统
CN111523462B (zh) 基于自注意增强cnn的视频序列表情识别系统及方法
CN113158727A (zh) 一种基于视频和语音信息的双模态融合情绪识别方法
CN106909938B (zh) 基于深度学习网络的视角无关性行为识别方法
CN116645716B (zh) 基于局部特征和全局特征的表情识别方法
CN112418166B (zh) 一种基于多模态信息的情感分布学习方法
CN112801015A (zh) 一种基于注意力机制的多模态人脸识别方法
CN113343860A (zh) 一种基于视频图像和语音的双模态融合情感识别方法
CN112101096A (zh) 一种基于语音和微表情的多模态融合的自杀情绪感知方法
CN112200110A (zh) 一种基于深度干扰分离学习的人脸表情识别方法
CN111967361A (zh) 一种基于婴儿表情识别与哭声的情绪检测方法
Liu et al. Audio and video bimodal emotion recognition in social networks based on improved alexnet network and attention mechanism.
CN112329716A (zh) 一种基于步态特征的行人年龄段识别方法
CN113705339B (zh) 基于对抗性域适应策略的跨用户人体行为识别方法
CN108197593B (zh) 基于三点定位方法的多尺寸人脸表情识别方法及装置
Dixit et al. Multi-feature based automatic facial expression recognition using deep convolutional neural network
Monisha et al. Enhanced automatic recognition of human emotions using machine learning techniques
Chelali Bimodal fusion of visual and speech data for audiovisual speaker recognition in noisy environment
Mathew et al. Performance improvement of Facial Expression Recognition Deep neural network models using Histogram Equalization and Contrast Stretching
CN116524563B (zh) 一种基于transformer与不确定性的动态人脸表情识别方法
Amma et al. Real Time Facial Expression Recognition Based On Deep Neural Network
TWI758665B (zh) 狀態辨識系統與方法
Jiang et al. Abnormal Emotion Recognition Based on Audio-Visual Modality Fusion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant