CN104835507A - 一种串并结合的多模式情感信息融合与识别方法 - Google Patents
一种串并结合的多模式情感信息融合与识别方法 Download PDFInfo
- Publication number
- CN104835507A CN104835507A CN201510142265.XA CN201510142265A CN104835507A CN 104835507 A CN104835507 A CN 104835507A CN 201510142265 A CN201510142265 A CN 201510142265A CN 104835507 A CN104835507 A CN 104835507A
- Authority
- CN
- China
- Prior art keywords
- emotion
- facial expression
- signal
- mode
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 61
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000004927 fusion Effects 0.000 title claims abstract description 27
- 230000008921 facial expression Effects 0.000 claims abstract description 55
- 238000012549 training Methods 0.000 claims abstract description 22
- 239000013598 vector Substances 0.000 claims abstract description 17
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000005070 sampling Methods 0.000 claims abstract description 4
- 238000000605 extraction Methods 0.000 claims description 16
- 230000002996 emotional effect Effects 0.000 claims description 14
- 238000000513 principal component analysis Methods 0.000 claims description 9
- 238000009432 framing Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000010354 integration Effects 0.000 claims description 6
- 230000003287 optical effect Effects 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 5
- 238000013139 quantization Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 230000001360 synchronised effect Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000007499 fusion processing Methods 0.000 abstract description 2
- 230000009977 dual effect Effects 0.000 abstract 1
- 230000008909 emotion recognition Effects 0.000 description 39
- 238000011160 research Methods 0.000 description 9
- 108090000623 proteins and genes Proteins 0.000 description 6
- 230000007812 deficiency Effects 0.000 description 3
- 239000012141 concentrate Substances 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000029058 respiratory gaseous exchange Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000036772 blood pressure Effects 0.000 description 1
- 230000036760 body temperature Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- VLCQZHSMCYCDJL-UHFFFAOYSA-N tribenuron methyl Chemical compound COC(=O)C1=CC=CC=C1S(=O)(=O)NC(=O)N(C)C1=NC(C)=NC(OC)=N1 VLCQZHSMCYCDJL-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/758—Involving statistics of pixels or of feature values, e.g. histogram matching
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- General Physics & Mathematics (AREA)
- Psychiatry (AREA)
- Hospice & Palliative Care (AREA)
- Child & Adolescent Psychology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种串并结合的多模式情感信息融合与识别方法,属于情感识别技术领域。主要包括:情感信号获取;情感信号预处理;情感特征参数提取;特征参数融合与识别;本发明首先将提取的语音信号和面部表情信号特征参数进行融合,获得串行特征向量集,然后通过有放回的抽样获得M个并行的训练样本集,并利用Adaboost算法训练获得各子分类器。再采用双误差异性选择策略来度量两两分类器之间的差异性,最后运用多数投票原则进行投票,得到最终识别结果,实现对高兴、愤怒、惊奇、悲伤和恐惧五种人类基本情感进行识别。该方法充分发挥了决策层融合与特征层融合的优点,使整个情感信息的融合过程更加接近人类情感识别,从而提高了情感识别的准确性。
Description
技术领域
本发明属于情感识别技术领域,具体涉及一种串并结合的多模式情感信息融合与识别方法。
背景技术
近年来,情感识别的研究工作在人机交互领域中已经成为一个热点问题。国内外情感识别的研究主要有两大类,一类是单模式情感识别,另一类是多模式情感识别。所谓单模式情感识别为只从单一信息通道中获得当前对象的情感状态,如从语音信号、面部表情信号或生理信号(血压、体温、脉搏、心电、脑电、皮肤电阻等)等。虽然单一地依靠语音信号、面部表情信号或生理参数来进行情感识别的研究取得了一定的成果,但却存在着很多局限性,因为人类是通过多模式的方式表达情感信息的,它具有表达的复杂性和文化的相对性。比如,在噪声环境下,当某一个通道的特征受到干扰或缺失时,多模式方法能在某种程度上产生互补的效应,弥补了单模式的不足,所以研究多模式情感识别的方法十分必要。如Wagner等通过融合肌动电流、心电、皮肤电阻和呼吸4个通道的生理参数,进行了多模式情感识别,获得了较高的融合识别率。Kim等融合了肌动电流、心电、皮肤电导和呼吸4个通道的生理参数,并采用听音乐的方式来诱发情感,实现了对积极和消极两大类情感的高效识别。东南大学的赵力、黄程韦等通过融合语音信号与心电信号进行了多模式情感识别,获得较高的融合识别率。但是上述方法均为与生理信号相融合,而生理信号的测量必须与身体接触,因此对于此通道的信号获取有一定的困难,所以语音和面部表情作为两种最为主要的表征情感的方式,得到了广泛的研究。如Busso等分析了单一的语音情感识别与人脸表情识别在识别性能上的互补性,并分别讨论了在决策层融合与在特征层融合的效果。Hoch等通过融合语音与表情信息,在车载环境下进行了正面(愉快)、负面(愤怒)与平静等3种情感状态的识别,但该方法只是通过用加权线性组合的方式在决策层进行了融合。从一定意义上说,不同信道信息的融合是多模式情感识别研究的瓶颈问题,它直接关系到情感识别的准确性。目前,融合多模式情感信息的方法主要有2种:决策层的融合和特征层的融合。这两种方法各有优缺点,决策层的融合技术考虑了不同模式对于情感识别重要性的不同,因此他们通过主观感知实验给不同的模式赋予不同的权重,但是这种通过主观感知实验得到的权重能否应用到其他的情况下是值得怀疑的。特征层的融合技术更接近人类识别情感的过程,能更好地利用统计机器学习的技术,但是这种方法没有考虑到识别不同情感时,不同模式重要性的不同,因此这种方法不能最大程度地发挥多模式融合的优势。可以看出,目前对于情感信息融合技术的研究尚处于起步阶段,相应的基础理论和方法框架仍很欠缺。
发明内容
针对上述现有技术存在的不足,本发明提供一种串并结合的多模式情感信息融合与识别方法。
本发明的技术方案是:
一种串并结合的多模式情感信息融合与识别方法,包括以下步骤:
步骤1:情感信号获取;
首先诱发情感,再同步获取相应情感状态下的语音信号和面部表情信号,并将二者绑定存储;
步骤2、情感信号预处理;
步骤2-1、语音信号预处理;
对获取的语音信号进行预处理,包括预加重、分帧加窗和端点检测;
步骤2-2、面部表情信号预处理;
对获取的面部表情信号,首先进行脸部定位,然后进行图像几何特性归一化处理和图像光学特性归一化处理;
步骤3、情感特征参数提取;
步骤3-1、语音情感特征参数提取;
包括韵律特征和音质特征;
步骤3-2、面部表情特征参数提取;
对预处理后的面部表情信号,采用Gabor小波变换来提取面部表情特征参数,具体过程如下:
1)将预处理后的面部表情图像网格化;
2)用Gabor小波和网格化后的图像进行卷积;
3)取卷积结果的模的均值和方差作为面部表情特征参数;
4)用主成分分析法PCA对上述面部表情特征参数进行降维处理,获得最终的面部表情特征参数;
步骤4、特征参数融合与识别;
步骤4-1、将提取的语音信号特征参数和面部表情特征参数顺序组合起来,获得多模式特征向量,依此将原始训练样本集中所有多模式特征向量构成的集合称为串行特征向量集;
步骤4-2、通过对上述串行特征向量集有放回的抽样,获得若干个并行的训练样本集;
步骤4-3、利用Adaboost算法对各并行训练样本集分别进行训练,获得每个训练样本集上的强分类器;
步骤4-4、采用双误差异性选择策略来度量两两强分类器之间的差异性,并挑选出大于平均差异性的强分类器作为识别分类器;
步骤4-5、运用多数优先投票原则对上述识别分类器进行投票,得到最终识别结果。
所述的步骤1中情感信号获取时,是利用麦克风输入语音数据后,再通过采样量化获得相应的语音信号,而面部表情信号则是由摄像机拍摄获得;
所述的采样量化的采样频率为11.025kHz、量化精度为16bit;所述的由摄像机拍摄获得的每幅面部表情信号图像大小为256×256像素。
所述的步骤2-1中语音信号预处理时,其中预加重是通过一阶数字预加重滤波器实现,预加重滤波器的系数取值为0.93~0.97;分帧是以帧长256点的标准进行,并对分帧后的数据加汉明窗处理;端点检测是利用短时能零积法进行。
所述的步骤2-2中面部表情信号预处理时,其中利用肤色模型进行脸部定位;图像几何特性归一化主要以两眼位置为依据,而图像光学特性的归一化处理包括先用直方图均衡化方法对图像灰度做拉伸,以改善图像的对比度,然后对图像像素灰度值进行归一化处理,使标准人脸图像的像素灰度值为0,方差为1,如此可以部分消除光照对识别结果的影响。
所述的步骤3-2中用Gabor小波和网格化后的图像进行卷积,公式如下:
r(x,y)=∫∫I(ε,η)g(x-ε,y-η)dεdη (1)
其中,r(x,y)为Gabor小波变换后的结果;I(ε,η)为对应像素坐标(ε,η)的像素值;
i为复数算子,σ是与小波频率带宽有关的常数,v的取值决定了Gabor滤波的波长,u的取值表示Gabor核函数的方向,c表示总的方向数;ε,η为积分变量。
所述的步骤4-3中利用Adaboost算法对并行训练样本集进行训练,使用的弱分类器是三层BP神经网络。
所述的步骤4-4中度量两两强分类器Hi和Hj(i≠j)之间的差异性公式Div(i,j)如下:
其中,numab代表两两强分类器分类正确/错误的样本数,a=1和a=0分别表示强分类器Hi分类正确和错误,b=1和b=0分别表示强分类器Hj分类正确和错误。
有益效果:(1)本发明克服了单模式情感识别的局限性,将语音信号和面部表情信号进行融合,弥补了单模式的不足;
(2)本发明中将语音信号特征参数与面部表情特征参数顺序组合在一起,构成一个多模式特征向量,即在特征层进行了融合,并利用了AdaBoost算法、双误差异性选择策略和多数优先投票原则,使得多模式情感信息能在决策层进行充分融合,可见本发明充分发挥了决策层融合与特征层融合的优点,使整个信息融合与识别过程更加接近人类情感识别,从而提高了情感识别的准确性;
(3)本发明利用了AdaBoost算法,与现有方法相比,这种方法能够得到更高的识别率。
附图说明
图1为本发明一种实施方式的串并结合的多模式情感信息融合与识别方法流程图;
图2为本发明一种实施方式的的三层BP神经网络结构示意图。
具体实施方式
本实施方式的一种串并结合的多模式情感信息融合与识别方法,如图1所示,通过情感信号获取模块、情感信号预处理模块、情感特征参数提取模块和参数融合与识别模块实现,且具体包括如下步骤:
步骤1:情感信号获取;
首先通过噪声刺激或者观看影视片段等诱发方式诱发人的情感,再同步获取相应情感状态下的语音信号和面部表情信号,并将二者绑定存储。本实施方式利用麦克风输入语音数据,然后利用计算机、单片机或DSP芯片等处理单元以11.025kHz的采样频率、16bit的量化精度进行采样量化,获得相应的语音信号;本实施方式的面部表情信号则是通过摄像机拍摄,每幅图像大小为256×256像素;
步骤2:情感信号预处理;
步骤2-1:语音信号预处理;
利用一阶数字预加重滤波器对获取的语音信号进行预加重处理,其中利用的预加重滤波器的系数取值范围为0.93-0.97之间,本发明实施例中取0.9375。接下来以帧长256点的标准进行分帧处理,并对分帧后的语音信号加汉明窗处理,再利用短时能零积法进行端点检测。
步骤2-2、面部表情信号预处理;
对获取的面部表情信号,首先用肤色模型进行脸部定位,然后进行图像几何特性归一化处理和图像光学特性归一化处理,其中图像几何特性归一化主要以两眼位置为依据,而图像光学特性的归一化处理包括先用直方图均衡化方法对图像灰度做拉伸,以改善图像的对比度,然后对图像像素灰度值进行归一化处理,使标准人脸图像的像素灰度值为0,方差为1,如此可以部分消除光照对识别结果的影响。本发明实施例中,归一化后的图像大小为75×100像素;
步骤3、情感特征参数提取;
步骤3-1、语音情感特征参数提取;
以往对情感特征参数的有效提取主要以韵律特征为主,然而近年来通过深入研究发现,音质特征和韵律特征相互结合才能更准确地识别情感。为了尽可能地利用语音信号中所包含的有关情感方面的信息,本实施方式提取了16个语音情感特征,其中前9个语音情感特征为韵律特征,后7个语音情感特征为音质特征;
所述前9个语音情感特征分别为:语句发音持续时间与相应的平静语句持续时间的比值、基因频率平均值、基因频率最大值、基因频率平均值与相应平静语句的基因频率平均值的差值、基因频率最大值与相应平静语句的基因频率最大值的差值、振幅平均能量、振幅能量的动态范围、振幅平均能量与相应平静语句的振幅平均能量的差值、振幅能量动态范围与相应平静语句的振幅能量动态范围的差值;
所述后7个语音情感特征分别为:第一共振峰频率的平均值、第二共振峰频率的平均值、第三共振峰频率的平均值、谐波噪声比的均值、谐波噪声比的最大值、谐波噪声比的最小值、谐波噪声比的方差;
步骤3-2:面部表情特征参数提取;
目前面部表情特征的提取根据图像性质的不同可分为静态图像特征提取和序列图像特征提取,静态图像中提取的是表情的形变特征,而序列图像中提取的是运动特征。本发明实施例中,以静态图像为研究对象,采用Gabor小波变换来提取面部表情特征参数,具体过程如下:
(1)将预处理后的面部表情图像网格化为25×25像素,即每张脸共有4行3列共12个网格;
(2)用Gabor小波和网格化后的图像进行卷积,公式如下:
r(x,y)=∫∫I(ε,η)g(x-ε,y-η)dεdη (3)
其中,r(x,y)为Gabor小波变换后的结果;I(ε,η)为对应像素坐标(ε,η)的像素值;
i为复数算子,σ是与小波频率带宽有关的常数,取值为v的取值决定了Gabor滤波的波长,取值为0,1,2,u的取值表示Gabor核函数的方向,取值为1,2,3,4,5,6,c表示总的方向数,取值为6;ε,η为积分变量;
(3)取模||r(x,y)||的均值和方差作为面部表情特征参数;
(4)用主成分分析法PCA对上述面部表情特征参数进行降维处理,本发明实施例中,将初始的75*100*2,即15000个维数降为30维;
步骤4、特征参数融合与识别;
步骤4-1、将提取的语音情感特征参数和面部表情特征参数顺序组合起来,获得多模式特征向量u1,依此类推,获得了原始训练样本集中所有的多模式特征向量u2,…,ur,…,uW,其中r=1,2,…,W,W为原始训练样本集中语音信号样本数,即面部表情信号样本数,本发明实施方式中,W取值为1000;ur=(ur1,ur2,…,ur46),ur1,ur2,…,ur16为语音情感特征参数,ur17,ur18,…,ur46为面部表情特征参数;将从原始训练样本集中获得的所有多模式特征向量u1,u2,…,ur,…,uW构成的集合称为串行特征向量集;
步骤4-2、通过对上述串行特征向量集有放回的抽样N(N的取值不要超过串行特征向量集中向量的数量即可)次,获得训练样本集S1,本实施方式中S1包含500个多模式特征,而且是随机的获得的;然后依此继续抽取样本获得训练样本集S2,…,SM,即获得M个并行的训练样本集;本实施方式中,N取值为500,M取值为20。
步骤4-3、利用Adaboost算法对上述每个并行训练样本集Sk,k=1,2,…,M分别进行训练,获得每个并行训练样本集上的强分类器;本实施方式利用Adaboost算法对并行训练样本集进行训练时,使用的弱分类器是三层BP神经网络,如图2所示,输入层有46个神经元,代表46个情感特征参数(16个语音情感特征参数加上30个面部表情特征参数),输出层有5个神经元,代表5种人类基本情感,即高兴、愤怒、惊奇、悲伤和恐惧;
步骤4-4、采用双误差异性选择策略来度量两两强分类器之间的差异性,并挑选出大于平均差异性的强分类器作为识别分类器,其强分类器Hi和Hj(i≠j)之间的差异性公式Div(i,j)如下:
其中,numab代表两两强分类器分类正确/错误的样本数,a=1和a=0分别表示强分类器Hi分类正确和错误,b=1和b=0分别表示强分类器Hj分类正确和错误;
步骤4-5:运用多数优先投票原则对上述识别分类器进行投票,得到最终识别结果。
本发明实施例中,为证明本发明的识别效果,将单模式条件下的情感识别结果与多模式条件下的情感识别结果进行对比。原始训练样本集包含每种情感的200条语音信号样本与200条面部表情信号样本,测试集包含每种情感的100条语音信号样本和100条面部表情信号样本。在单模式条件下,仅通过语音信号进行情感识别的情感识别正确率如表1所示,仅通过面部表情信号进行情感识别的情感识别正确率如表2所示;在多模式条件下,通过顺序组合本发明中的语音情感特征参数和面部表情特征参数进行识别的情感识别正确率如表3所示,本发明的情感识别方法的情感识别正确率如表4所示。
表1仅通过语音信号进行情感识别的情感识别正确率
情感类别 | 高兴 | 愤怒 | 惊奇 | 悲伤 | 恐惧 |
高兴 | 86% | 0 | 12% | 2% | 0 |
愤怒 | 4% | 81% | 0 | 7% | 8% |
惊奇 | 20% | 1% | 77% | 2% | 0 |
悲伤 | 5% | 4% | 0 | 88% | 3% |
恐惧 | 5% | 10% | 6% | 4% | 75% |
表2仅通过面部表情信号进行情感识别的情感识别正确率
情感类别 | 高兴 | 愤怒 | 惊奇 | 悲伤 | 恐惧 |
高兴 | 85% | 2% | 13% | 0 | 0 |
愤怒 | 0 | 79% | 7% | 10% | 4% |
惊奇 | 0 | 0 | 81% | 9% | 10% |
悲伤 | 0 | 20% | 4% | 66% | 10% |
恐惧 | 3% | 8% | 2% | 9% | 78% |
表3通过顺序组合本发明中的语音情感特征参数和面部表情特征参数进行情感识别的情感识别正确率
情感类别 | 高兴 | 愤怒 | 惊奇 | 悲伤 | 恐惧 |
高兴 | 92% | 1% | 6% | 1% | 0 |
愤怒 | 1% | 88% | 2% | 7% | 2% |
惊奇 | 4% | 0 | 90% | 4% | 2% |
悲伤 | 5% | 8% | 2% | 85% | 0 |
恐惧 | 1% | 3% | 2% | 6% | 88% |
表4本发明的情感识别方法的情感识别正确率
情感类别 | 高兴 | 愤怒 | 惊奇 | 悲伤 | 恐惧 |
高兴 | 99% | 0 | 1% | 0 | 0 |
愤怒 | 0 | 88% | 4% | 6% | 2% |
惊奇 | 4% | 0 | 96% | 0 | 0 |
悲伤 | 2% | 7% | 1% | 90% | 0 |
恐惧 | 0 | 0 | 0 | 7% | 93% |
由表1和表2可知,仅通过语音信号进行情感识别的平均识别正确率是81.4%(该平均识别正确率81.4%是通过表1中高兴的识别正确率86%、愤怒的识别正确率81%、惊奇的识别正确率77%、悲伤的识别正确率88%和恐惧的识别正确率75%求和后取平均值得到的,即81.4%=(86%+81%+77%+88%+75%)/5);仅通过面部表情信号进行情感识别的平均识别正确率是77.8%。因此,单纯依靠语音信号或面部表情信号进行识别在实际应用中会遇到一定的困难,因为人类是通过多模式的方式表达情感信息的,所以研究多模式情感识别的方法十分必要。从表3可以看出,通过顺序组合本发明中的语音情感特征参数和面部表情特征参数进行识别的情感识别正确率有所提高,但是提高的并不太明显,因此不同模式信息的融合是多模式情感识别研究的瓶颈问题,它直接关系到情感识别的准确性。从表4可以看出,本发明的情感识别方法的情感识别平均正确率达到了93.2%,因此本发明方法充分发挥了决策层融合与特征层融合的优点,整个融合过程更加接近人类情感识别,从而提高了情感识别的平均正确率。
Claims (8)
1.一种串并结合的多模式情感信息融合与识别方法,其特征在于:包括以下步骤:
步骤1:情感信号获取;
首先诱发情感,再同步获取相应情感状态下的语音信号和面部表情信号,并将二者绑定存储;
步骤2、情感信号预处理;
步骤2-1、语音信号预处理;
对获取的语音信号进行预处理,包括预加重、分帧加窗和端点检测;
步骤2-2、面部表情信号预处理;
对获取的面部表情信号,首先进行脸部定位,然后进行图像几何特性归一化处理和图像光学特性归一化处理;
步骤3、情感特征参数提取;
步骤3-1、语音情感特征参数提取;
包括韵律特征和音质特征;
步骤3-2、面部表情特征参数提取;
对预处理后的面部表情信号,采用Gabor小波变换来提取面部表情特征参数,具体过程如下:
1)将预处理后的面部表情图像网格化;
2)用Gabor小波和网格化后的图像进行卷积;
3)取卷积结果的模的均值和方差作为面部表情特征参数;
4)用主成分分析法PCA对上述面部表情特征参数进行降维处理,获得最终的面部表情特征参数;
步骤4、特征参数融合与识别;
步骤4-1、将提取的语音信号特征参数和面部表情特征参数顺序组合起来,获得多模式特征向量,依此将原始训练样本集中所有多模式特征向量构成的集合称为串行特征向量集;
步骤4-2、通过对上述串行特征向量集有放回的抽样,获得若干个并行的训练样本集;
步骤4-3、利用Adaboost算法对各并行训练样本集分别进行训练,获得每个训练样本集上的强分类器;
步骤4-4、采用双误差异性选择策略来度量两两强分类器之间的差异性,并挑选出大于平均差异性的强分类器作为识别分类器;
步骤4-5、运用多数优先投票原则对上述识别分类器进行投票,得到最终识别结果。
2.根据权利要求1所述的串并结合的多模式情感信息融合与识别方法,其特征在于:所述的步骤1中的情感信号获取时,是利用麦克风输入语音数据后,再通过采样量化获得相应的语音信号,而面部表情信号则是由摄像机拍摄获得。
3.根据权利要求2所述的串并结合的多模式情感信息融合与识别方法,其特征在于:所述的采样量化的采样频率为11.025kHz、量化精度为16bit;所述的由摄像机拍摄获得的每幅面部表情信号图像大小为256×256像素。
4.根据权利要求1所述的串并结合的多模式情感信息融合与识别方法,其特征在于:所述的步骤2-1中语音信号预处理时,其中预加重是通过一阶数字预加重滤波器实现,预加重滤波器的系数取值为0.93~0.97之间;分帧是以帧长256点的标准进行,并对分帧后的数据加汉明窗处理;端点检测是利用短时能零积法进行。
5.根据权利要求1所述的串并结合的多模式情感信息融合与识别方法,其特征在于:所述的步骤2-2中面部表情信号预处理时,其中利用肤色模型进行脸部定位;图像几何特性归一化主要以两眼位置为依据,而图像光学特性的归一化处理包括先用直方图均衡化方法对图像灰度做拉伸,以改善图像的对比度,然后对图像像素灰度值进行归一化处理,使标准人脸图像的像素灰度值为0,方差为1。
6.根据权利要求1所述的串并结合的多模式情感信息融合与识别方法,其特征在于:所述的步骤3-2中用Gabor小波和网格化后的图像进行卷积,公式如下:
r(x,y)=∫∫I(ε,η)g(x-ε,y-η)dεdη (1)
其中,r(x,y)为Gabor小波变换后的结果;I(ε,η)为对应像素坐标(ε,η)的像素值; i为复数算子,σ是与小波频率带宽有关的常数,v的取值决定了Gabor滤波的波长,u的取值表示Gabor核函数的方向,c表示总的方向数;ε,η为积分变量。
7.根据权利要求1所述的串并结合的多模式情感信息融合与识别方法,其特征在于:所述的步骤4-3中利用Adaboost算法对并行训练样本集进行训练,使用的弱分类器是三层BP神经网络。
8.根据权利要求1所述的串并结合的多模式情感信息融合与识别方法,其特征在于:所述的步骤4-4中度量两两强分类器Hi和Hj(i≠j)之间的差异性公式Div(i,j)如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510142265.XA CN104835507B (zh) | 2015-03-30 | 2015-03-30 | 一种串并结合的多模式情感信息融合与识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510142265.XA CN104835507B (zh) | 2015-03-30 | 2015-03-30 | 一种串并结合的多模式情感信息融合与识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104835507A true CN104835507A (zh) | 2015-08-12 |
CN104835507B CN104835507B (zh) | 2018-01-16 |
Family
ID=53813345
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510142265.XA Expired - Fee Related CN104835507B (zh) | 2015-03-30 | 2015-03-30 | 一种串并结合的多模式情感信息融合与识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104835507B (zh) |
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105551499A (zh) * | 2015-12-14 | 2016-05-04 | 渤海大学 | 面向语音与面部表情信号的情感可视化方法 |
CN106024010A (zh) * | 2016-05-19 | 2016-10-12 | 渤海大学 | 一种基于共振峰曲线的语音信号动态特征提取方法 |
CN106157973A (zh) * | 2016-07-22 | 2016-11-23 | 南京理工大学 | 音乐检测与识别方法 |
CN106293074A (zh) * | 2016-07-29 | 2017-01-04 | 维沃移动通信有限公司 | 一种情绪识别方法和移动终端 |
CN106650830A (zh) * | 2017-01-06 | 2017-05-10 | 西北工业大学 | 基于深层模型和浅层模型决策融合的肺结节ct图像自动分类方法 |
CN106919884A (zh) * | 2015-12-24 | 2017-07-04 | 北京汉王智远科技有限公司 | 面部表情识别方法及装置 |
CN106960217A (zh) * | 2017-02-27 | 2017-07-18 | 浙江工业大学 | 基于采用深度Adaboost算法的BP人工神经元网络的喷射器性能的预测方法 |
CN107103913A (zh) * | 2017-04-28 | 2017-08-29 | 西北大学 | 一种基于功率谱Gabor特征序列递归模型的语音识别方法 |
CN107169409A (zh) * | 2017-03-31 | 2017-09-15 | 北京奇艺世纪科技有限公司 | 一种情感识别方法及装置 |
CN107220591A (zh) * | 2017-04-28 | 2017-09-29 | 哈尔滨工业大学深圳研究生院 | 多模态智能情绪感知系统 |
CN107239769A (zh) * | 2017-06-16 | 2017-10-10 | 西南大学 | 一种使用多通道信息融合的个人情感效价识别方法 |
CN107256392A (zh) * | 2017-06-05 | 2017-10-17 | 南京邮电大学 | 一种联合图像、语音的全面情绪识别方法 |
CN107633851A (zh) * | 2017-07-31 | 2018-01-26 | 中国科学院自动化研究所 | 基于情感维度预测的离散语音情感识别方法、装置及系统 |
CN107798318A (zh) * | 2017-12-05 | 2018-03-13 | 四川文理学院 | 一种机器人识别面部快乐微表情的方法及其装置 |
CN107845390A (zh) * | 2017-09-21 | 2018-03-27 | 太原理工大学 | 一种基于pcnn语谱图特征融合的情感语音识别系统 |
CN108053840A (zh) * | 2017-12-29 | 2018-05-18 | 广州势必可赢网络科技有限公司 | 一种基于pca-bp的情绪识别方法及系统 |
CN108320735A (zh) * | 2018-01-23 | 2018-07-24 | 北京易智能科技有限公司 | 一种多数据融合的情感识别方法及系统 |
CN108922556A (zh) * | 2018-07-16 | 2018-11-30 | 百度在线网络技术(北京)有限公司 | 声音处理方法、装置及设备 |
CN108985358A (zh) * | 2018-06-29 | 2018-12-11 | 北京百度网讯科技有限公司 | 情绪识别方法、装置、设备及存储介质 |
CN109498041A (zh) * | 2019-01-15 | 2019-03-22 | 吉林大学 | 基于脑电与脉搏信息的驾驶员路怒状态识别方法 |
CN109685156A (zh) * | 2018-12-30 | 2019-04-26 | 浙江新铭智能科技有限公司 | 一种用于识别情绪的分类器的获取方法 |
CN109767788A (zh) * | 2019-02-25 | 2019-05-17 | 南京信息工程大学 | 一种基于lld和dss融合特征的语音情感识别方法 |
CN109829363A (zh) * | 2018-12-18 | 2019-05-31 | 深圳壹账通智能科技有限公司 | 表情识别方法、装置、计算机设备和存储介质 |
CN110135196A (zh) * | 2019-05-10 | 2019-08-16 | 内蒙古工业大学 | 一种基于输入数据压缩表示关联分析的数据融合防篡改方法 |
CN110148194A (zh) * | 2019-05-07 | 2019-08-20 | 北京航空航天大学 | 图像重建方法和装置 |
CN110363148A (zh) * | 2019-07-16 | 2019-10-22 | 中用科技有限公司 | 一种人脸声纹特征融合验证的方法 |
CN110363074A (zh) * | 2019-06-03 | 2019-10-22 | 华南理工大学 | 一种针对复杂抽象化事物的类人化识别交互方法 |
WO2020073665A1 (zh) * | 2018-10-11 | 2020-04-16 | 平安科技(深圳)有限公司 | 在频谱上对语音进行情绪识别的方法、系统及存储介质 |
CN111128242A (zh) * | 2020-01-02 | 2020-05-08 | 渤海大学 | 一种基于双深度网络的多模式情感信息融合与识别方法 |
US11087091B2 (en) | 2018-12-27 | 2021-08-10 | Wipro Limited | Method and system for providing contextual responses to user interaction |
CN113421545A (zh) * | 2021-06-30 | 2021-09-21 | 平安科技(深圳)有限公司 | 多模态的语音合成方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298694A (zh) * | 2011-06-21 | 2011-12-28 | 广东爱科数字科技有限公司 | 一种应用于远程信息服务的人机交互识别系统 |
CN103413113A (zh) * | 2013-01-15 | 2013-11-27 | 上海大学 | 一种服务机器人智能情感交互的方法 |
CN103679203A (zh) * | 2013-12-18 | 2014-03-26 | 江苏久祥汽车电器集团有限公司 | 机器人的人脸检测与情感识别系统及方法 |
CN103942247A (zh) * | 2014-02-25 | 2014-07-23 | 华为技术有限公司 | 多媒体资源的信息提供方法及装置 |
-
2015
- 2015-03-30 CN CN201510142265.XA patent/CN104835507B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298694A (zh) * | 2011-06-21 | 2011-12-28 | 广东爱科数字科技有限公司 | 一种应用于远程信息服务的人机交互识别系统 |
CN103413113A (zh) * | 2013-01-15 | 2013-11-27 | 上海大学 | 一种服务机器人智能情感交互的方法 |
CN103679203A (zh) * | 2013-12-18 | 2014-03-26 | 江苏久祥汽车电器集团有限公司 | 机器人的人脸检测与情感识别系统及方法 |
CN103942247A (zh) * | 2014-02-25 | 2014-07-23 | 华为技术有限公司 | 多媒体资源的信息提供方法及装置 |
Non-Patent Citations (2)
Title |
---|
张石清: "基于语音和人脸的情感识别研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
熊海涛: "《面向复杂数据的推荐分析研究》", 31 January 2015, 北京理工大学出版社 * |
Cited By (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105551499A (zh) * | 2015-12-14 | 2016-05-04 | 渤海大学 | 面向语音与面部表情信号的情感可视化方法 |
CN106919884A (zh) * | 2015-12-24 | 2017-07-04 | 北京汉王智远科技有限公司 | 面部表情识别方法及装置 |
CN106024010A (zh) * | 2016-05-19 | 2016-10-12 | 渤海大学 | 一种基于共振峰曲线的语音信号动态特征提取方法 |
CN106024010B (zh) * | 2016-05-19 | 2019-08-20 | 渤海大学 | 一种基于共振峰曲线的语音信号动态特征提取方法 |
CN106157973A (zh) * | 2016-07-22 | 2016-11-23 | 南京理工大学 | 音乐检测与识别方法 |
CN106293074A (zh) * | 2016-07-29 | 2017-01-04 | 维沃移动通信有限公司 | 一种情绪识别方法和移动终端 |
CN106293074B (zh) * | 2016-07-29 | 2020-02-21 | 维沃移动通信有限公司 | 一种情绪识别方法和移动终端 |
CN106650830A (zh) * | 2017-01-06 | 2017-05-10 | 西北工业大学 | 基于深层模型和浅层模型决策融合的肺结节ct图像自动分类方法 |
CN106960217A (zh) * | 2017-02-27 | 2017-07-18 | 浙江工业大学 | 基于采用深度Adaboost算法的BP人工神经元网络的喷射器性能的预测方法 |
CN107169409A (zh) * | 2017-03-31 | 2017-09-15 | 北京奇艺世纪科技有限公司 | 一种情感识别方法及装置 |
CN107220591A (zh) * | 2017-04-28 | 2017-09-29 | 哈尔滨工业大学深圳研究生院 | 多模态智能情绪感知系统 |
CN107103913A (zh) * | 2017-04-28 | 2017-08-29 | 西北大学 | 一种基于功率谱Gabor特征序列递归模型的语音识别方法 |
CN107103913B (zh) * | 2017-04-28 | 2020-02-04 | 西北大学 | 一种基于功率谱Gabor特征序列递归模型的语音识别方法 |
CN107256392A (zh) * | 2017-06-05 | 2017-10-17 | 南京邮电大学 | 一种联合图像、语音的全面情绪识别方法 |
CN107239769A (zh) * | 2017-06-16 | 2017-10-10 | 西南大学 | 一种使用多通道信息融合的个人情感效价识别方法 |
CN107633851A (zh) * | 2017-07-31 | 2018-01-26 | 中国科学院自动化研究所 | 基于情感维度预测的离散语音情感识别方法、装置及系统 |
CN107633851B (zh) * | 2017-07-31 | 2020-07-28 | 极限元(杭州)智能科技股份有限公司 | 基于情感维度预测的离散语音情感识别方法、装置及系统 |
CN107845390A (zh) * | 2017-09-21 | 2018-03-27 | 太原理工大学 | 一种基于pcnn语谱图特征融合的情感语音识别系统 |
CN107798318A (zh) * | 2017-12-05 | 2018-03-13 | 四川文理学院 | 一种机器人识别面部快乐微表情的方法及其装置 |
CN108053840A (zh) * | 2017-12-29 | 2018-05-18 | 广州势必可赢网络科技有限公司 | 一种基于pca-bp的情绪识别方法及系统 |
CN108320735A (zh) * | 2018-01-23 | 2018-07-24 | 北京易智能科技有限公司 | 一种多数据融合的情感识别方法及系统 |
CN108985358A (zh) * | 2018-06-29 | 2018-12-11 | 北京百度网讯科技有限公司 | 情绪识别方法、装置、设备及存储介质 |
CN108922556B (zh) * | 2018-07-16 | 2019-08-27 | 百度在线网络技术(北京)有限公司 | 声音处理方法、装置及设备 |
CN108922556A (zh) * | 2018-07-16 | 2018-11-30 | 百度在线网络技术(北京)有限公司 | 声音处理方法、装置及设备 |
WO2020073665A1 (zh) * | 2018-10-11 | 2020-04-16 | 平安科技(深圳)有限公司 | 在频谱上对语音进行情绪识别的方法、系统及存储介质 |
CN109829363A (zh) * | 2018-12-18 | 2019-05-31 | 深圳壹账通智能科技有限公司 | 表情识别方法、装置、计算机设备和存储介质 |
US11087091B2 (en) | 2018-12-27 | 2021-08-10 | Wipro Limited | Method and system for providing contextual responses to user interaction |
CN109685156A (zh) * | 2018-12-30 | 2019-04-26 | 浙江新铭智能科技有限公司 | 一种用于识别情绪的分类器的获取方法 |
CN109498041B (zh) * | 2019-01-15 | 2021-04-16 | 吉林大学 | 基于脑电与脉搏信息的驾驶员路怒状态识别方法 |
CN109498041A (zh) * | 2019-01-15 | 2019-03-22 | 吉林大学 | 基于脑电与脉搏信息的驾驶员路怒状态识别方法 |
CN109767788A (zh) * | 2019-02-25 | 2019-05-17 | 南京信息工程大学 | 一种基于lld和dss融合特征的语音情感识别方法 |
CN110148194B (zh) * | 2019-05-07 | 2021-03-16 | 北京航空航天大学 | 图像重建方法和装置 |
CN110148194A (zh) * | 2019-05-07 | 2019-08-20 | 北京航空航天大学 | 图像重建方法和装置 |
CN110135196A (zh) * | 2019-05-10 | 2019-08-16 | 内蒙古工业大学 | 一种基于输入数据压缩表示关联分析的数据融合防篡改方法 |
CN110363074A (zh) * | 2019-06-03 | 2019-10-22 | 华南理工大学 | 一种针对复杂抽象化事物的类人化识别交互方法 |
CN110363148A (zh) * | 2019-07-16 | 2019-10-22 | 中用科技有限公司 | 一种人脸声纹特征融合验证的方法 |
CN111128242A (zh) * | 2020-01-02 | 2020-05-08 | 渤海大学 | 一种基于双深度网络的多模式情感信息融合与识别方法 |
CN111128242B (zh) * | 2020-01-02 | 2023-01-24 | 渤海大学 | 一种基于双深度网络的多模式情感信息融合与识别方法 |
CN113421545A (zh) * | 2021-06-30 | 2021-09-21 | 平安科技(深圳)有限公司 | 多模态的语音合成方法、装置、设备及存储介质 |
CN113421545B (zh) * | 2021-06-30 | 2023-09-29 | 平安科技(深圳)有限公司 | 多模态的语音合成方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN104835507B (zh) | 2018-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104835507A (zh) | 一种串并结合的多模式情感信息融合与识别方法 | |
Latif et al. | Direct modelling of speech emotion from raw speech | |
Yang et al. | Multimodal measurement of depression using deep learning models | |
CN105469065B (zh) | 一种基于递归神经网络的离散情感识别方法 | |
CN103824054B (zh) | 一种基于级联深度神经网络的人脸属性识别方法 | |
CN110459225B (zh) | 一种基于cnn融合特征的说话人辨认系统 | |
CN106250855A (zh) | 一种基于多核学习的多模态情感识别方法 | |
CN110353702A (zh) | 一种基于浅层卷积神经网络的情感识别方法及系统 | |
CN111461176A (zh) | 基于归一化互信息的多模态融合方法、装置、介质及设备 | |
CN105261367B (zh) | 一种说话人识别方法 | |
Yang et al. | Feature augmenting networks for improving depression severity estimation from speech signals | |
CN103400145A (zh) | 基于线索神经网络的语音-视觉融合情感识别方法 | |
CN111128242B (zh) | 一种基于双深度网络的多模式情感信息融合与识别方法 | |
CN105005765A (zh) | 一种基于Gabor小波和灰度共生矩阵的人脸表情识别方法 | |
CN109637545A (zh) | 基于一维卷积非对称双向长短时记忆网络的声纹识别方法 | |
CN105551499A (zh) | 面向语音与面部表情信号的情感可视化方法 | |
CN110969073B (zh) | 一种基于特征融合与bp神经网络的人脸表情识别方法 | |
CN110534133A (zh) | 一种语音情感识别系统及语音情感识别方法 | |
CN106529377A (zh) | 一种基于图像的年龄估计方法、装置及系统 | |
CN109767789A (zh) | 一种用于语音情感识别的新特征提取方法 | |
CN113920568A (zh) | 基于视频图像的人脸和人体姿态情绪识别方法 | |
CN104464738B (zh) | 一种面向智能移动设备的声纹识别方法 | |
CN111785262B (zh) | 一种基于残差网络及融合特征的说话人年龄性别分类方法 | |
CN112006696A (zh) | 基于皮肤电信号的情绪识别方法 | |
Gao et al. | Metric Learning Based Feature Representation with Gated Fusion Model for Speech Emotion Recognition. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180116 Termination date: 20190330 |
|
CF01 | Termination of patent right due to non-payment of annual fee |