CN107256392A - 一种联合图像、语音的全面情绪识别方法 - Google Patents
一种联合图像、语音的全面情绪识别方法 Download PDFInfo
- Publication number
- CN107256392A CN107256392A CN201710413642.8A CN201710413642A CN107256392A CN 107256392 A CN107256392 A CN 107256392A CN 201710413642 A CN201710413642 A CN 201710413642A CN 107256392 A CN107256392 A CN 107256392A
- Authority
- CN
- China
- Prior art keywords
- sample
- voice
- emotion
- expression
- emotional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 75
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000002996 emotional effect Effects 0.000 claims abstract description 57
- 230000014509 gene expression Effects 0.000 claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 17
- 230000008909 emotion recognition Effects 0.000 claims description 9
- 230000008921 facial expression Effects 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 7
- 238000002790 cross-validation Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000012706 support-vector machine Methods 0.000 claims 1
- 230000002457 bidirectional effect Effects 0.000 abstract description 2
- 230000036651 mood Effects 0.000 description 7
- 230000003993 interaction Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000001815 facial effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000007418 data mining Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 241000218691 Cupressaceae Species 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/175—Static expression
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Probability & Statistics with Applications (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种联合图像、语音的全面情绪识别方法和系统,识别的过程是信息采集装置从输入视频中采集到相应语音、视频信号后,分别传送到对应的情感分类模块,经分类处理后,集成学习训练器分配权重,经加权处理后,输出识别结果,完成识别过程。系统由信息采集装置、情感分类器和集成处理器组成,信息采集装置包括视频采集器和音频采集器;情感分类器包括对采集的视频信息进行情感分类的表情情感分类模块和对采集的音频信息进行情感分类的语音情感分类模块;集成处理器包括加权模块、集成学习训练器。本发明具有情感分类可靠性更高、调整置信度参量灵活、精度高的优点,通过表情语音双向识别,极大程度上模拟了人类情感识别过程。
Description
技术领域
本发明属于计算机技术、信息技术、数据挖掘交叉技术领域,涉及一种联合图像、语音的全面情绪识别方法和系统,在人机交互中,主要利用同一个人的人脸图像和语音这两个方面进行有权重分配的情绪识别。
背景技术
人脸情绪识别是指利用计算机对人类面部表情信息进行特征提取分析,按照目前大众的认识和思维方式归类和理解,综合人类具有的情感信息的先验知识使计算机独立联想、思考及推理,最后从人脸信息中去分析人类情绪。由于人脸表情识别有着广泛的应用前景,因而逐渐成为当前人机交互、图像理解、模式识别、机器视觉等领域的研究热点之一。
在当下的人机交互中,语音是交流中最基本最直接的方式,因此语音信号中的情感信息也受到了广泛技术人员的重视,语音情绪识别就是通过分析人的语音信号在不同情感表达方面的变化规律,使用计算机从语音信号中准确提取并选取合适的语音情感特征参数,并根据选取的情感参数来判别人的情绪。
集成学习就是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。目前,机器学习方法已经在科学研究、语音识别、人脸识别、手写识别、数据挖掘、医疗诊断、游戏等等领域之中得到应用。
目前现有的人类情绪识别只是单一的人脸图像情绪识别或单一的语音情绪识别,在光线昏暗、图像模糊的背景下使用图像情绪识别,或在环境噪声大的背景下使用语音识别都会使得人类情绪识别产生很大误差,甚至误判为其他情绪类别。单一方面的人类情绪识别技术遇到瓶颈,准确率难以提高。此外,在人机交互中,现有的情绪识别计算量仍然巨大,产生延时,这种延时会造成数据的误差,在人机交互中是很不友好的。
发明内容
本发明所要解决的技术问题是克服现有技术的不足而提供一种联合图像、语音的全面情绪识别系统,通过联合的信号处理方法,以对应用中的语音和图像环境进行一种认知识别,这里称为可靠程度识别。本发明可有效的提高人类情绪识别的实时性、准确性。
本发明为解决上述技术问题采用的技术方案为一种联合图像、语音的全面情绪识别方法,包括以下步骤:
步骤1:从CASIA汉语情感语音数据库收集N个语音情感样本,并从人脸表情识别图片库收集N个表情情感样本,根据原始情感分类标记将获得的语音和表情样本,归结为n种情感类别ej,1≤j≤n;
步骤2:对N个语音样本构建元分类器样本训练特征数组:xmeta=<p1(e1|x),p2(e1|x),p1(e2|x),p2(e2|x),…,p1(en|x),p2(en|x)>,其中,x表示语音样本,pi(ej|x)表示第i(i=1,2)个语音情感弱分类器判断x属于类别ej的后验概率;
步骤3:对N个表情样本构建元分类器样本训练特征数组,ymeta=<p1(e1|y),p2(e1|y),p1(e2|y),p2(e2|y),…,p1(en|y),p2(en|y)>,其中,y表示表情样本,pi(ej|y)表示第i(i=1,2)个表情情感弱分类器判断y属于类别ej的后验概率;
步骤4:使用M倍交叉验证的方式处理语音、表情样本的原始标注集Lx和Ly,Lx=[xmeta]N×2n,Ly=[ymeta]N×2n,其中,Lx,Ly分别表示语音、表情样本的原始标注集,是含有N个样本后验概率的N行2n列的矩阵;
步骤5:将原始标注数据集平均分成M(M≤N/n)份,每份包含所有情感类别,分别为L1,L2,…,LM,赋予k初值1,1≤k≤M;
步骤6:将Lk作为新的未标注样本,其余作为新的标注样本,即:Unew=Lk,Lnew=L-Lk,其中,Unew表示新的未标注样本集,作为训练样本;Lnew表示新的标注样本集,并令
步骤7:分别使用两种语音情感弱分类器F1,F2对语音样本集训练,得到分类的后验概率P1(c|x)=F1(x),P2(c|x)=F2(x);
步骤8:再分别使用两种表情情感弱分类器G1,G2对语音样本集训练,得到分类的后验概率P1(c|y)=G1(y),P2(c|y)=G2(y),设置置信度要求η;
步骤9:对于分类结果与样本初始标记c0一致的后验概率P(c0|c)≥η的样本xmeta和ymeta,移入新的标注样本集Lnew,剩余的样本作为不可信样本留在训练样本集Unew继续参与迭代,判断此时k值:小于N返回步骤6;否则进入步骤10;
步骤10:令可信的新样本集Lnew中xmeta和ymeta个数分别为Nx和Ny,将和Ny|(Nx+Ny)分别作为置信度为η的语音和表情情感识别的权重;
步骤11:输入音频流,截取表情图片并提取语音信号,分别用上述四种情感识别方法分类,对分类结果加权获得可信度较高的情感分类结果。
进一步,上述步骤1中n种情感类别包含正常、喜悦、愤怒、悲伤、惊讶五种状态。
进一步,上述步骤7中,根据弱分类器结果与原始标记的比较,用后验概率表征该分类器可信度。
进一步,上述步骤7中,语音情感弱分类器F1,F2具体包括如下步骤:
步骤701:分别提取语音样本的特征参数:语速、瞬时能量、瞬时过零率、共振峰和基频,并构成样本特征数据集,进入步骤702;
步骤702:使用PNN分类算法对获得的特征数据集分类,得到F1弱分类器,并进入步骤703;
步骤703:提取语音信号样本的特征参数:信号的持续时间、信号的振幅、基音周期和共振峰频率,并构成样本特征数据集,进入步骤704;
步骤704:采用带有高斯概率分布的参数方法对获得的特征数据集分类:估算完参数的均值和方差后,利用Bayes准则计算出最大后验概率对情感进行分类,得到F2弱分类器。
进一步,上述步骤8中表情情感弱分类器G1,G2具体包括如下步骤:
步骤801:使用Adaboost算法进行人脸检测;
步骤802:对每类表情图像系列进行FastICA处理,并将得出的特征值作为表情图像的特征向量,初始化HMM模型,采用前向-后向算法训练HMM模型,得到G1弱分类器;
步骤803:采用Gabor小波变换方法对表情图像的Gabor特征提取,并运用支持向量机对表情进行分类识别,得到G2弱分类器。
本发明还进一步提出一种实现上述联合图像、语音的全面情绪识别方法的系统,该系统由信息采集装置、情感分类器和集成处理器组成,信息采集装置包括视频采集器和音频采集器;情感分类器包括对采集的视频信息进行情感分类的表情情感分类模块和对采集的音频信息进行情感分类的语音情感分类模块;集成处理器包括加权模块、集成学习训练器,当信息采集装置采集到相应语音、视频信号后,分别传送到对应的情感分类模块,经分类处理后,集成学习训练器分配权重,经加权处理后,输出识别结果,完成识别过程。
进一步,上述情感分类器对情感的分类包括五类:正常、喜悦、愤怒、悲伤、惊讶。
进一步,上述情感分类器对语音情感分类采用PNN分类算法、Bayes准则两种分类算法得到语音情感弱分类器,表情情感分类采用HMM模型、Gabor小波变换两种分类算法得到表情情感弱分类器。
进一步,上述集成学习训练器经由标准语音和表情情感库训练。
进一步,上述加权模块中生成的权值是以样本语音和表情情感弱分类器的识别后验概率作为参数,进行加权处理。
与现有技术相比,本发明具有的有益效果:
1、本发明提出的系统自适应性强,同时具有更好的抗噪性能,整体性能稳健。
2、情感分类可靠性更高,调整置信度参量可灵活完成识别要求,达到高精度要求。
3、通过表情语音双向识别,实现新型联合识别系统,极大程度上模拟了人类情感识别过程。
附图说明
图1是本发明联合图像、语音的全面情绪识别系统的结构示意图。
图2是联合图像、语音的全面情绪识别方法的流程图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明。
联合图像、语音的全面情绪识别系统研究人类情绪识别的两大主要方法(语音情绪识别、人脸图像情绪识别)的合理配置,增加识别人类情绪的时效性和准确性。首先从柏林情感语音数据库和人脸表情识别图片库收集语音情感样本、表情情感样本。接着采用弱分类器PNN算法和LDC方法对语音样本训练,采用弱分类器HMM模型和Gabor变换对表情样本训练,通过设置置信度、集成学习得到可靠的语音、表情情绪分类结果的后验概率,并以此为权重,对语音、表情加权。最后输入语音和流表情图像,对分类结果加权获得可信度较高的情感分类结果。这种训练使得我们对人类情绪的识别更为准确,更具有实时性。
联合图像、语音的全面情绪识别系统的结构如图1所示。系统包含信息采集装置、情感分类器和集成处理器组成。信息采集装置包括视频采集器和音频采集器;情感分类器包括对采集的视频信息进行情感分类的表情情感分类模块和对采集的音频信息进行情感分类的语音情感分类模块;集成处理器包括加权模块、集成学习训练器。当信息采集装置从输入视频中采集到相应语音、视频信号后,分别传送到对应的情感分类模块,经分类处理后,集成学习训练器分配权重,经加权处理后,输出识别结果,完成全过程。
如图2所示,联合图像、语音的全面情绪识别方法包含以下步骤:
步骤001.从CASIA汉语情感语音数据库收集N个语音情感样本,并从人脸表情识别图片库收集N个表情情感样本,根据原始情感分类标记将获得的语音和表情样本,归结为n种情感类别ej,1≤j≤n,根据母语的特点和其它学者研究的经验,在我们的研究中设置待识别的情绪为:正常(e1)、喜悦(e2)、愤怒(e3)、悲伤(e4)、惊讶(e5)五种状态,即n=5,然后进入步骤002;
步骤002.为了方便大量样本训练计算,我们对N个语音样本构建元分类器样本训练特征数组:xmeta=<p1(e1|x),p2(e1|x),p1(e2|x),p2(e2|x),…,p1(en|x),p2(en|x)>。其中,x表示语音样本,pi(ej|x)表示第i(i=1,2)个语音情感弱分类器判断x属于类别ej,1≤j≤5的后验概率。并进入步骤003;
步骤003.对于表情情感样本,同样的对N个表情样本构建元分类器样本训练特征数组:ymeta=<p1(e1|y),p2(e1|y),p1(e2|y),p2(e2|y),…,p1(en|y),p2(en|y)>。其中,y表示表情样本,pi(ej|y)表示第i(i=1,2)个表情情感弱分类器判断y属于类别ej,1≤j≤5的后验概率。然后进入步骤004;
步骤004.为了提高训练质量,以及对标准样本的冲分利用,我们采用M倍交叉验证的方式处理语音、表情样本的原始标注集:Lx=[xmeta]N×2n和Ly=[ymeta]N×2n。其中,Lx,Ly分别表示语音、表情样本的原始标注集,是含有N个样本后验概率的N行2n列的矩阵,方便后续筛选统计。然后进入步骤005;
步骤005.将原始标注数据集平均分成M(M≤N/5)份(每份包含所有情感类别),分别为L1,L2,…,LM,赋予迭代计数器k初值1,1≤k≤M,进入步骤006;
步骤006.选取其中的Lk样本子集作为新的未标注样本,其余作为新的标注样本,即:Unew=Lk,Lnew=L-Lk。其中,Unew表示新的未标注样本集,作为训练样本;Lnew表示新的标注样本集,并令(初始化)。进入步骤007;
步骤007.分别使用两种语音情感弱分类器PNN分类算法F1,和LDC分类方法F2对语音样本集训练,得到分类的后验概率P1(c|x)=F1(x),P2(c|x)=F2(x),具体包括如下步骤:
步骤00701.分别提取语音样本的特征参数:语速、瞬时能量、瞬时过零率、共振峰和基频,并构成样本特征数据集,进入步骤00702;
步骤00702.使用PNN分类算法对获得的特征数据集分类,得到F1弱分类器,并进入步骤00703;
步骤00703.提取语音信号样本的特征参数:信号的持续时间、信号的振幅、基音周期和共振峰频率,并构成样本特征数据集,进入步骤00704;
步骤00704.采用LDC方法(带有高斯概率分布的参数方法)对获得的特征数据集分类:估算完参数的均值和方差后,利用Bayes准则计算出最大后验概率对情感进行分类,得到F2弱分类器。然后进入步骤008;
步骤008.再分别使用两种表情情感弱分类器基于HMM模型分类器G1,和SVM分类识别器G2对语音样本集训练,得到分类的后验概率P1(c|y)=G1(y),P2(c|y)=G2(y)。具体包括如下步骤:
步骤00801.使用Adaboost算法进行人脸检测,然后进入步骤00802;
步骤00802.对每类表情图像系列进行FastICA处理,并将得出的特征值作为表情图像的特征向量。初始化HMM模型,采用前向-后向算法训练HMM模型,得到G1弱分类器,并进入步骤00803;
步骤00803.采用Gabor小波变换方法对表情图像的Gabor特征提取,并运用支持向量机(SVM)对表情进行分类识别,得到G2弱分类器。并进入步骤009;
步骤009.根据不同可靠度要求,为用户提供灵活的置信度要求η,需要注意的是,过高的置信度要求可能导致训练无法进行。对于分类结果与样本初始标记c0一致的后验概率P(c0|c)≥η的样本xmeta和ymeta,移入新的标注样本集Lnew,剩余的样本作为不可信样本留在训练样本集Unew继续参与迭代。判断此时k值:小于N返回步骤006;否则进入步骤010;
步骤010.令可信的新样本集Lnew中xmeta和ymeta个数分别为Nx和Ny,将和Ny|(Nx+Ny)分别作为置信度为η的语音和表情情感识别的权重,然后进入步骤011;
步骤011.从输入的音频流提取语音信号并截取表情图片,用上述四种情感识别弱分类器组成的强分类器对待测样本分类,利用各弱分类器加权结果作为可信度较高的情感分类结果。
Claims (10)
1.一种联合图像、语音的全面情绪识别方法,其特征在于,包括以下步骤:
步骤1:从CASIA汉语情感语音数据库收集N个语音情感样本,并从人脸表情识别图片库收集N个表情情感样本,根据原始情感分类标记将获得的语音和表情样本,归结为n种情感类别ej,1≤j≤n;
步骤2:对N个语音样本构建元分类器样本训练特征数组:xmeta=<p1(e1|x),p2(e1|x),p1(e2|x),p2(e2|x),…,p1(en|x),p2(en|x)>,其中,x表示语音样本,pi(ej|x)表示第i(i=1,2)个语音情感弱分类器判断x属于类别ej的后验概率;
步骤3:对N个表情样本构建元分类器样本训练特征数组,ymeta=<p1(e1|y),p2(e1|y),p1(e2|y),p2(e2|y),…,p1(en|y),p2(en|y)>,其中,y表示表情样本,pi(ej|y)表示第i(i=1,2)个表情情感弱分类器判断y属于类别ej的后验概率;
步骤4:使用M倍交叉验证的方式处理语音、表情样本的原始标注集Lx和Ly,Lx=[xmeta]N×2n,Ly=[ymeta]N×2n,其中,Lx,Ly分别表示语音、表情样本的原始标注集,是含有N个样本后验概率的N行2n列的矩阵;
步骤5:将原始标注数据集平均分成M(M≤N/n)份,每份包含所有情感类别,分别为L1,L2,…,LM,赋予k初值1,1≤k≤M;
步骤6:将Lk作为新的未标注样本,其余作为新的标注样本,即:Unew=Lk,Lnew=L-Lk,其中,Unew表示新的未标注样本集,作为训练样本;Lnew表示新的标注样本集,并令
步骤7:分别使用两种语音情感弱分类器F1,F2对语音样本集训练,得到分类的后验概率P1(c|x)=F1(x),P2(c|x)=F2(x);
步骤8:再分别使用两种表情情感弱分类器G1,G2对语音样本集训练,得到分类的后验概率P1(c|y)=G1(y),P2(c|y)=G2(y),设置置信度要求η;
步骤9:对于分类结果与样本初始标记c0一致的后验概率P(c0|c)≥η的样本xmeta和ymeta,移入新的标注样本集Lnew,剩余的样本作为不可信样本留在训练样本集Unew继续参与迭代,判断此时k值:小于N返回步骤6;否则进入步骤10;
步骤10:令可信的新样本集Lnew中xmeta和ymeta个数分别为Nx和Ny,将Nx|(Nx+Ny)和Ny|(Nx+Ny)分别作为置信度为η的语音和表情情感识别的权重;
步骤11:输入音频流,截取表情图片并提取语音信号,分别用上述四种情感识别方法分类,对分类结果加权获得可信度较高的情感分类结果。
2.根据权利要求1所述的联合图像、语音的全面情绪识别方法,其特征在于,所述步骤1中n种情感类别包含正常、喜悦、愤怒、悲伤、惊讶五种状态。
3.根据权利要求1所述的联合图像、语音的全面情绪识别方法,其特征在于,所述步骤7中,根据弱分类器结果与原始标记的比较,用后验概率表征该分类器可信度。
4.根据权利要求1所述的联合图像、语音的全面情绪识别方法,其特征在于,所述步骤7中语音情感弱分类器F1,F2具体包括如下步骤:
步骤701:分别提取语音样本的特征参数:语速、瞬时能量、瞬时过零率、共振峰和基频,并构成样本特征数据集,进入步骤702;
步骤702:使用PNN分类算法对获得的特征数据集分类,得到F1弱分类器,并进入步骤703;
步骤703:提取语音信号样本的特征参数:信号的持续时间、信号的振幅、基音周期和共振峰频率,并构成样本特征数据集,进入步骤704;
步骤704:采用带有高斯概率分布的参数方法对获得的特征数据集分类:估算完参数的均值和方差后,利用Bayes准则计算出最大后验概率对情感进行分类,得到F2弱分类器。
5.根据权利要求1所述的联合图像、语音的全面情绪识别方法,其特征在于,所述步骤8中表情情感弱分类器G1,G2具体包括如下步骤:
步骤801:使用Adaboost算法进行人脸检测;
步骤802:对每类表情图像系列进行FastICA处理,并将得出的特征值作为表情图像的特征向量,初始化HMM模型,采用前向-后向算法训练HMM模型,得到G1弱分类器;
步骤803:采用Gabor小波变换方法对表情图像的Gabor特征提取,并运用支持向量机对表情进行分类识别,得到G2弱分类器。
6.一种实现权利要求1所述的联合图像、语音的全面情绪识别方法的系统,其特征在于,该系统由信息采集装置、情感分类器和集成处理器组成,信息采集装置包括视频采集器和音频采集器;情感分类器包括对采集的视频信息进行情感分类的表情情感分类模块和对采集的音频信息进行情感分类的语音情感分类模块;集成处理器包括加权模块、集成学习训练器,当信息采集装置采集到相应语音、视频信号后,分别传送到对应的情感分类模块,经分类处理后,集成学习训练器分配权重,经加权处理后,输出识别结果,完成识别过程。
7.根据权利要求6所述的联合图像、语音的全面情绪识别方法的系统,其特征在于所述情感分类器对情感的分类包括五类:正常、喜悦、愤怒、悲伤、惊讶。
8.根据权利要求6所述的联合图像、语音的全面情绪识别方法的系统,其特征在于所述情感分类器对语音情感分类采用PNN分类算法、Bayes准则两种分类算法得到语音情感弱分类器,表情情感分类采用HMM模型、Gabor小波变换两种分类算法得到表情情感弱分类器。
9.根据权利要求6所述的联合图像、语音的全面情绪识别方法的系统,其特征在于所述集成学习训练器经由标准语音和表情情感库训练。
10.根据权利要求6所述的联合图像、语音的全面情绪识别方法的系统,其特征在于所述加权模块中生成的权值是以样本语音和表情情感弱分类器的识别后验概率作为参数,进行加权处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710413642.8A CN107256392A (zh) | 2017-06-05 | 2017-06-05 | 一种联合图像、语音的全面情绪识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710413642.8A CN107256392A (zh) | 2017-06-05 | 2017-06-05 | 一种联合图像、语音的全面情绪识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107256392A true CN107256392A (zh) | 2017-10-17 |
Family
ID=60023547
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710413642.8A Pending CN107256392A (zh) | 2017-06-05 | 2017-06-05 | 一种联合图像、语音的全面情绪识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107256392A (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107944008A (zh) * | 2017-12-08 | 2018-04-20 | 神思电子技术股份有限公司 | 一种针对自然语言进行情绪识别的方法 |
CN108038413A (zh) * | 2017-11-02 | 2018-05-15 | 平安科技(深圳)有限公司 | 欺诈可能性分析方法、装置及存储介质 |
CN109145861A (zh) * | 2018-09-04 | 2019-01-04 | 京东方科技集团股份有限公司 | 情绪识别装置及方法、头戴式显示设备、存储介质 |
CN109472302A (zh) * | 2018-10-29 | 2019-03-15 | 中国石油大学(华东) | 一种基于AdaBoost的支持向量机集成学习方法 |
CN109472207A (zh) * | 2018-10-11 | 2019-03-15 | 平安科技(深圳)有限公司 | 情绪识别方法、装置、设备及存储介质 |
CN109512441A (zh) * | 2018-12-29 | 2019-03-26 | 中山大学南方学院 | 基于多元信息的情绪识别方法及装置 |
CN109524027A (zh) * | 2018-12-11 | 2019-03-26 | 平安科技(深圳)有限公司 | 语音处理方法、装置、计算机设备及存储介质 |
CN109620265A (zh) * | 2018-12-26 | 2019-04-16 | 中国科学院深圳先进技术研究院 | 识别方法及相关装置 |
CN109994102A (zh) * | 2019-04-16 | 2019-07-09 | 上海航动科技有限公司 | 一种基于情绪识别的智能外呼系统 |
CN110083716A (zh) * | 2019-05-07 | 2019-08-02 | 青海大学 | 基于藏文的多模态情感计算方法及系统 |
CN110110653A (zh) * | 2019-04-30 | 2019-08-09 | 上海迥灵信息技术有限公司 | 多特征融合的情绪识别方法、装置和存储介质 |
CN110147822A (zh) * | 2019-04-16 | 2019-08-20 | 北京师范大学 | 一种基于人脸动作单元检测的情绪指数计算方法 |
CN110363074A (zh) * | 2019-06-03 | 2019-10-22 | 华南理工大学 | 一种针对复杂抽象化事物的类人化识别交互方法 |
CN110414465A (zh) * | 2019-08-05 | 2019-11-05 | 北京深醒科技有限公司 | 一种视频通讯的情感分析方法 |
CN110991238A (zh) * | 2019-10-30 | 2020-04-10 | 中国科学院自动化研究所南京人工智能芯片创新研究院 | 一种基于语音情感分析和微表情识别的演讲辅助系统 |
CN111163366A (zh) * | 2019-12-30 | 2020-05-15 | 厦门市美亚柏科信息股份有限公司 | 一种视频处理方法及终端 |
CN111168689A (zh) * | 2018-11-13 | 2020-05-19 | 上海元趣信息技术有限公司 | 一种自动生成儿童成长视频的机器人系统及其工作方法 |
WO2020125386A1 (zh) * | 2018-12-18 | 2020-06-25 | 深圳壹账通智能科技有限公司 | 表情识别方法、装置、计算机设备和存储介质 |
CN111460494A (zh) * | 2020-03-24 | 2020-07-28 | 广州大学 | 面向多模态深度学习的隐私保护方法及系统 |
CN113986005A (zh) * | 2021-10-13 | 2022-01-28 | 电子科技大学 | 基于集成学习的多模态融合视线估计框架 |
CN116434027A (zh) * | 2023-06-12 | 2023-07-14 | 深圳星寻科技有限公司 | 一种基于图像识别人工智能交互系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080201144A1 (en) * | 2007-02-16 | 2008-08-21 | Industrial Technology Research Institute | Method of emotion recognition |
US20110141258A1 (en) * | 2007-02-16 | 2011-06-16 | Industrial Technology Research Institute | Emotion recognition method and system thereof |
CN102930297A (zh) * | 2012-11-05 | 2013-02-13 | 北京理工大学 | 基于增强耦合hmm的语音-视觉融合的情感识别方法 |
CN104835507A (zh) * | 2015-03-30 | 2015-08-12 | 渤海大学 | 一种串并结合的多模式情感信息融合与识别方法 |
CN105976809A (zh) * | 2016-05-25 | 2016-09-28 | 中国地质大学(武汉) | 基于语音和面部表情的双模态情感融合的识别方法及系统 |
CN106250855A (zh) * | 2016-08-02 | 2016-12-21 | 南京邮电大学 | 一种基于多核学习的多模态情感识别方法 |
-
2017
- 2017-06-05 CN CN201710413642.8A patent/CN107256392A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080201144A1 (en) * | 2007-02-16 | 2008-08-21 | Industrial Technology Research Institute | Method of emotion recognition |
US20110141258A1 (en) * | 2007-02-16 | 2011-06-16 | Industrial Technology Research Institute | Emotion recognition method and system thereof |
CN102930297A (zh) * | 2012-11-05 | 2013-02-13 | 北京理工大学 | 基于增强耦合hmm的语音-视觉融合的情感识别方法 |
CN104835507A (zh) * | 2015-03-30 | 2015-08-12 | 渤海大学 | 一种串并结合的多模式情感信息融合与识别方法 |
CN105976809A (zh) * | 2016-05-25 | 2016-09-28 | 中国地质大学(武汉) | 基于语音和面部表情的双模态情感融合的识别方法及系统 |
CN106250855A (zh) * | 2016-08-02 | 2016-12-21 | 南京邮电大学 | 一种基于多核学习的多模态情感识别方法 |
Non-Patent Citations (1)
Title |
---|
韩志艳等: "多模式情感识别特征参数融合算法研究", 《计算机技术与发展》 * |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108038413A (zh) * | 2017-11-02 | 2018-05-15 | 平安科技(深圳)有限公司 | 欺诈可能性分析方法、装置及存储介质 |
CN107944008A (zh) * | 2017-12-08 | 2018-04-20 | 神思电子技术股份有限公司 | 一种针对自然语言进行情绪识别的方法 |
CN109145861A (zh) * | 2018-09-04 | 2019-01-04 | 京东方科技集团股份有限公司 | 情绪识别装置及方法、头戴式显示设备、存储介质 |
CN109472207A (zh) * | 2018-10-11 | 2019-03-15 | 平安科技(深圳)有限公司 | 情绪识别方法、装置、设备及存储介质 |
CN109472207B (zh) * | 2018-10-11 | 2023-06-30 | 平安科技(深圳)有限公司 | 情绪识别方法、装置、设备及存储介质 |
CN109472302A (zh) * | 2018-10-29 | 2019-03-15 | 中国石油大学(华东) | 一种基于AdaBoost的支持向量机集成学习方法 |
CN111168689A (zh) * | 2018-11-13 | 2020-05-19 | 上海元趣信息技术有限公司 | 一种自动生成儿童成长视频的机器人系统及其工作方法 |
CN109524027A (zh) * | 2018-12-11 | 2019-03-26 | 平安科技(深圳)有限公司 | 语音处理方法、装置、计算机设备及存储介质 |
CN109524027B (zh) * | 2018-12-11 | 2024-05-28 | 平安科技(深圳)有限公司 | 语音处理方法、装置、计算机设备及存储介质 |
WO2020125386A1 (zh) * | 2018-12-18 | 2020-06-25 | 深圳壹账通智能科技有限公司 | 表情识别方法、装置、计算机设备和存储介质 |
CN109620265A (zh) * | 2018-12-26 | 2019-04-16 | 中国科学院深圳先进技术研究院 | 识别方法及相关装置 |
CN109512441A (zh) * | 2018-12-29 | 2019-03-26 | 中山大学南方学院 | 基于多元信息的情绪识别方法及装置 |
CN109994102A (zh) * | 2019-04-16 | 2019-07-09 | 上海航动科技有限公司 | 一种基于情绪识别的智能外呼系统 |
CN110147822A (zh) * | 2019-04-16 | 2019-08-20 | 北京师范大学 | 一种基于人脸动作单元检测的情绪指数计算方法 |
CN110110653A (zh) * | 2019-04-30 | 2019-08-09 | 上海迥灵信息技术有限公司 | 多特征融合的情绪识别方法、装置和存储介质 |
CN110083716A (zh) * | 2019-05-07 | 2019-08-02 | 青海大学 | 基于藏文的多模态情感计算方法及系统 |
CN110363074A (zh) * | 2019-06-03 | 2019-10-22 | 华南理工大学 | 一种针对复杂抽象化事物的类人化识别交互方法 |
CN110414465B (zh) * | 2019-08-05 | 2023-11-10 | 北京深醒科技有限公司 | 一种视频通讯的情感分析方法 |
CN110414465A (zh) * | 2019-08-05 | 2019-11-05 | 北京深醒科技有限公司 | 一种视频通讯的情感分析方法 |
CN110991238A (zh) * | 2019-10-30 | 2020-04-10 | 中国科学院自动化研究所南京人工智能芯片创新研究院 | 一种基于语音情感分析和微表情识别的演讲辅助系统 |
CN111163366A (zh) * | 2019-12-30 | 2020-05-15 | 厦门市美亚柏科信息股份有限公司 | 一种视频处理方法及终端 |
CN111460494A (zh) * | 2020-03-24 | 2020-07-28 | 广州大学 | 面向多模态深度学习的隐私保护方法及系统 |
CN111460494B (zh) * | 2020-03-24 | 2023-04-07 | 广州大学 | 面向多模态深度学习的隐私保护方法及系统 |
CN113986005A (zh) * | 2021-10-13 | 2022-01-28 | 电子科技大学 | 基于集成学习的多模态融合视线估计框架 |
CN113986005B (zh) * | 2021-10-13 | 2023-07-07 | 电子科技大学 | 基于集成学习的多模态融合视线估计框架 |
CN116434027A (zh) * | 2023-06-12 | 2023-07-14 | 深圳星寻科技有限公司 | 一种基于图像识别人工智能交互系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107256392A (zh) | 一种联合图像、语音的全面情绪识别方法 | |
CN108491077B (zh) | 一种基于多流分治卷积神经网络的表面肌电信号手势识别方法 | |
CN106782602B (zh) | 基于深度神经网络的语音情感识别方法 | |
CN110634491B (zh) | 语音信号中针对通用语音任务的串联特征提取系统及方法 | |
CN112784798A (zh) | 一种基于特征-时间注意力机制的多模态情感识别方法 | |
CN102156885B (zh) | 基于级联式码本生成的图像分类方法 | |
CN111523462A (zh) | 基于自注意增强cnn的视频序列表情识别系统及方法 | |
CN109213853A (zh) | 一种基于cca算法的中文社区问答跨模态检索方法 | |
CN108776774A (zh) | 一种基于复杂度感知分类算法的面部表情识别方法 | |
CN113592251B (zh) | 一种多模态融合的教态分析系统 | |
CN109685071A (zh) | 基于共同空间模式特征宽度学习的脑电分类方法 | |
Kindiroglu et al. | Temporal accumulative features for sign language recognition | |
CN101561881B (zh) | 人体非程式化运动的情感识别方法 | |
CN112783327A (zh) | 基于表面肌电信号进行手势识别的方法及系统 | |
CN108831450A (zh) | 一种基于用户情绪识别的虚拟机器人人机交互方法 | |
Zhang et al. | Intelligent Facial Action and emotion recognition for humanoid robots | |
CN110288028A (zh) | 心电检测方法、系统、设备及计算机可读存储介质 | |
Littlewort et al. | Fully automatic coding of basic expressions from video | |
Youme et al. | Generalization of Bangla sign language recognition using angular loss functions | |
CN112115829A (zh) | 一种基于分类器选择性集成的表情识别方法 | |
CN116701996A (zh) | 基于多元损失函数的多模态情感分析方法、系统、设备及介质 | |
CN114863572A (zh) | 一种多通道异构传感器的肌电手势识别方法 | |
Njoku et al. | Deep learning based data fusion methods for multimodal emotion recognition | |
Atkar et al. | Speech emotion recognition using dialogue emotion decoder and CNN Classifier | |
CN110163130A (zh) | 一种用于手势识别的特征预对齐的随机森林分类器及分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20171017 |
|
WD01 | Invention patent application deemed withdrawn after publication |