CN106992000A - 一种基于预测的多特征融合的老人语音情感识别方法 - Google Patents
一种基于预测的多特征融合的老人语音情感识别方法 Download PDFInfo
- Publication number
- CN106992000A CN106992000A CN201710223015.8A CN201710223015A CN106992000A CN 106992000 A CN106992000 A CN 106992000A CN 201710223015 A CN201710223015 A CN 201710223015A CN 106992000 A CN106992000 A CN 106992000A
- Authority
- CN
- China
- Prior art keywords
- feature
- prediction
- rightarrow
- rsqb
- lsqb
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000008909 emotion recognition Effects 0.000 title abstract description 11
- 238000013507 mapping Methods 0.000 claims abstract description 8
- 230000002996 emotional effect Effects 0.000 claims description 53
- 239000013256 coordination polymer Substances 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 10
- 238000001228 spectrum Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 7
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000011160 research Methods 0.000 claims description 6
- 208000019901 Anxiety disease Diseases 0.000 claims description 4
- 230000036506 anxiety Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 230000007935 neutral effect Effects 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 230000008451 emotion Effects 0.000 abstract description 17
- 230000006872 improvement Effects 0.000 description 5
- 238000007500 overflow downdraw method Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000036651 mood Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 210000004556 brain Anatomy 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 206010048909 Boredom Diseases 0.000 description 1
- 102000008297 Nuclear Matrix-Associated Proteins Human genes 0.000 description 1
- 108010035916 Nuclear Matrix-Associated Proteins Proteins 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007850 degeneration Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000686 essence Substances 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000299 nuclear matrix Anatomy 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Psychiatry (AREA)
- Hospice & Palliative Care (AREA)
- General Health & Medical Sciences (AREA)
- Child & Adolescent Psychology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种基于预测的多特征融合的老人语音情感识别方法,包括以下步骤:获取空巢老人语音情感数据库;分别对数据库中的每条语音和表情提取不同的三种特征参数;采用基于预测的方法对多特征进行融合;用SVM进行特征识别;输出同一段语音下预测的最高准确率的情感类别,得到识别结果。基于预测的融合框架包括两部分:跨特征预测组件,其通过建模多特征之间的关系来组合三种特征,三种特征的连接由第一组预测器替代,分别学习语音情感类别的三种特征参数之间的映射;特征内预测组件,分别对三种特征的时间演进进行建模,特征内预测组件对应于决策级融合,每种特征由两个第二组预测器建模,分别学习每种类别的过去和当前特征之间的映射。
Description
技术领域
本发明属于信号处理与模式识别领域,更具体地,涉及一种基于预测的多特征融合的老人语音情感识别方法。
背景技术
近几十年来,人机交互技术发展势头迅猛,但随着各种智能机器不断涌现,人们开始注意到这个问题:是否让计算机感知情感。众所周知,人随时随地都会有喜、怒、哀、乐等情感的起伏变化,人在决策或处事时,掺杂太多的情感因素将会导致负面结果,而如果丧失了情感能力,理性的决策同样难以达到。但没有情感、无法感知情感的机器是否能见机行事呢?
“情感计算”一词最早是由美国麻省理工学院的Picard教授在1997年出版的《Affective Computing》一书中提出来的,她把“情感计算”定义为:“与情感有关、由情感引发或者能够影响情感的因素的计算。”情感计算的研究目的是通过赋予该计算系统识别、理解、表达和适应人的情感的能力,以实现和谐、高效的人机交互,使计算机具有更高、更全面的智能。
目前,在情感识别领域中,就划分为多特征和多模态两大类情感识别研究方面。而单特征和单模态情感识别已经做得非常成熟,在多特征情感识别中,最核心的部分就是多个特征的特征融合,融合的好坏直接影响到最后识别的效果。现在已经有许多融合方法出现:主成分分析(PCA)、核典型相关分析(KCCA)、典型相关分析(CCA)、核矩阵融合(KMF)等。然而,主成分的解释及含义具有模糊性。标准的KCCA方法的计算复杂度会随着训练样本数目的增加而显著增加。另外,在存在高度相关的数据场中,由于矩阵的退化,使得CCA计算过程中所必须的逆矩阵的估计变得异常困难。KMF中若样本的数量大,则创建的矩阵大,难度增大,影响计算速度。所以上述融合方法都不适合对多特征语音库,尤其是高维数特征语音库进行更好的情感识别。
现有技术中,人和计算机进行情感交流时,不能保证每一种情感识别率的准确性都有较高的百分比,各种算法在对不同情感特征向量的表达、区分能力上存在明显的差异;语音识别系统对环境条件的依赖性强、自适应性差;在噪声环境下使用容易导致发音失真;一半以上的识别错误来自端点检测器;语音识别基元的选取不合适。
发明内容
为提高语音情感的识别率,以便能够实现更好的人机互动,本发明提供一种基于预测的多特征融合的老人语音情感识别方法。
本发明的解决方案是:一种基于预测的多特征融合的老人语音情感识别方法,其包括以下步骤:
第一步:获取空巢老人语音情感数据库,所述数据库中包含多种情感类别和多个人物形象;
第二步:对所述数据库进行处理,分别对所述数据库中的每条语音和表情提取不同的特征参数:每条语音带有对应的情感类别,与相应语音对应的人物形象带有对应的表情:
第一种特征:小波系数;利用小波变换对每条语音进行分解,舍弃语音高频带小波系数,实现降噪目的,然后选取语音基频带的小波系数进行方差分析,进而预测带噪语音的基音周期;
第二种特征:傅立叶系数;利用傅里叶变换对每条语音整体变换,在得到加窗的每一帧信号后,需要知道此帧信号在不同频段的能量分布,从一个离散信号中提取离散频段频谱信息;
第三种特征:Mel频率倒谱系数;在Mel标度频率域提取出倒谱参数;
第三步:采用基于预测的方法对多特征进行融合;基于预测的融合框架包括两部分:
第一个是跨特征预测组件,其通过建模多特征之间的关系来组合小波系数、傅立叶系数、Mel频率倒谱系数,跨特征预测组件对应于特征级融合,其中三种特征的连接由第一组预测器替代,分别学习语音情感类别的三种特征参数之间的映射;
第二个是特征内预测组件,分别对三种特征的时间演进进行建模,特征内预测组件对应于决策级融合,其中每种特征由两个第二组预测器建模,这两个第二组预测器分别学习每种情感类别的过去和当前特征之间的映射;
其中,跨特征预测组件和特征内预测组件以分层方式组合;在第一层中,跨特征预测组件的三个预测器被组合以便考虑特征之间的双向关系,特征内预测组件的三个预测器被组合以便合并关于特征的时间演进的信息;在第二层中,组合跨特征预测组件和特征内预测组件,以便研究特征关系和它们的时间演进;
第四步:用SVM进行特征识别;
第五步:输出同一段语音下预测的最高准确率的情感类别,得到识别结果。
作为上述方案的进一步改进,所述数据库中包含7种情感类别和11个人物形象,7种情感类别为:生气,焦虑,无聊,厌恶,高兴,中性,伤心;11个人物形象,每一个人物表达出自己的情感类别,每一种情感类别里有不同的样本数。
作为上述方案的进一步改进,在对特征进行预测的第一组预测器中,小波系数、傅立叶系数和Mel频率倒谱系数之间的关系分别由六个回归因子fX→F、fX→M、fF→M、fF→X、fM→X、fM→F建模;六个回归因子对应六个预测器,六个预测器分别将三种特征作为输入,并在相同帧t处预测对应的识别率;
识别率预测时,采用以下等式:
fX→F(X[t-kXF,t])=FX→F[t]≈F[t] (1)
fX→M(X[t-kXM,t])=MX→M[t]≈M[t] (2)
fF→M(F[t-kFM,t])=MF→M[t]≈M1[t] (3)
fM→F(M[t-kMF,t])=FM→F[t]≈F1[t] (4)
fM→X(M[t-kMX,t])=XM→X[t]≈X[t] (5)
fF→X(F[t-kFX,t])=XF→X[t]≈X1[t] (6)
其中,在6个等式中,窗口k的大小取决于映射类型和建模类。
作为上述方案的进一步改进,在第二组预测器中,其在每个特征内进行预测,每个情感类别的过去和未来特征之间的关系由三个回归因子fX→X、fF→F和fM→M建模;三个回归因子对应三个预测器,三个预测器将过去的特征作为输入,并且在帧t处预测对应的特征;
特征预测时,采用以下等式:
fX→X(X[t-kXX,t-1])=XX→X[t]≈X[t] (7)
fF→F(F[t-kFF,t-1])=FF→F[t]≈F[t] (8)
fM→M(M[t-kMM,t-1])=MM→M[t]≈M[t] (9)
其中,在上述3个等式中,窗口k的大小取决于映射类型和建模类。
作为上述方案的进一步改进,每个预测器的总误差通过对所有帧N上的误差求和来计算,导致每个情感类别的每个序列有9个预测误差,情感类别的9个预测器误差使用以下等式计算;
其中,Err是MSE或MAE或L2-E。
进一步地,利用等式(10)-(15)组合六个交叉特征预测模型,以考虑等式(19)中所示的受到等式(20)约束的特征双向关系;
eCP=ωXF*eX→F+ωXM*eX→M+ωFM*eF→M+ωMF*eM→F+ωMX*eM→X+ωFX*eF→X (19)
ωXF+ωXM+ωFM+ωMF+ωMX+ωFX=1 (20)
其中,eCP是总的跨特征预测误差,ωXF、ωXM、ωFM、ωMF、ωMX和ωFX是跨特征预测分量的权重。
再进一步地,利用等式(16)-(18)组合以便考虑特征之间的过去到未来关系,等式(21)受到等式(22)的约束;
eIP=ωXX*eX→X+ωMM*eM→M+ωFF*eF→F (21)
ωXX+ωMM+ωFF=1 (22)
其中,eIP是总体特征内预测误差,ωXX、ωMM和ωFF是特征内预测分量的权重。
优选地,为了合并来自两个基于预测模型的信息,将两个分量的预测误差组合,等式(23)受到等式(24)的约束;
ec=ωCP*eCP+ωIP*eIP (23)
ωCP+ωIP=1 (24)
其中,ec是总预测误差,ωCP和ωIP分别是交叉特征预测和特征内预测融合分量的权重。
再优选地,对等式(19)、(21)、(23)使用softmax函数进行归一化,使得它们的和等于1。
再优选地,利用等式(23)基于误差向输入序列分配标签,通过选择对应于最低误差的标签来完成,采用等式(25)解释特征关系的情感类别特定模型相应地标记新序列:
PredictedClass=arg min ec (25),
其中,c=1....C,C指的是情感类别。
相比与现有技术,本发明很好的改善了以下技术问题:每一种特征下的情感测试,每一种情感的识别率都层次不齐,不能确保每一种情感识别都有较高的准确率。采用本发明,输入一段语音后,通过计算不同特征下的识别率,比较每一种特征下的识别结果,输出识别率最高的情感类型,保证使数据库能够进行最好的情感分类。
附图说明
图1为本发明的基于预测的多特征融合的老人语音情感识别方法的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在多特征情感识别方面,对于同一组情感语音库,不同的特征有不同的识别方法,但是不同的特征之间也存在一定的联系。本发明就是利用预测的融合方法将不同的特征联系在一起。本发明通过不同特征的融合以及基于预测的融合方法,即使用基于预测的方法融合不同特征下的老人语音情感分类,得到更好的分类正确率。
预测在近来的大脑计算模型中起着关键作用,并且已经提出大脑不断地进行多感觉时空预测。受这些发现的启发,本发明从基于预测的新视角解决了多特征融合的问题。本发明训练预测模型,通过学习每个类(即情感类别)对语音情感的识别来比较不同特征方法对同一语音的识别率高低。类似地,本发明训练预测模型,通过学习同一个类中对不同语音情感的识别来总结出更好的识别方法。在分类中,所有类特定的回归模型产生预期的特征预测,并且它们的预测误差被组合用于每个类。选择最好地识别视听特征(即导致最低预测误差)的类特定回归的集合来标记输入帧。在几乎所有情况下,基于预测的融合始终胜过两种最常用的融合方法,决策级和特征级融合。现有技术中,目前还没有发现将上述方法运用于多特征情感融合的实践尝试。
请参阅图1,本发明的基于预测的多特征融合的老人语音情感识别方法主要包括五个大步骤:
第一步:获取空巢老人语音情感数据库;
第二步:对所述数据库进行处理,分别对所述数据库中的每条语音和表情提取不同的特征参数;
第三步:采用基于预测的方法对多特征进行融合;
第四步:用SVM进行特征识别;
第五步:输出同一段语音下预测的最高准确率的情感类型(情感类别),得到识别结果。
下面做进一步的详细说明,本发明的基于预测的多特征融合的老人语音情感识别方法的实现,主要包含以下步骤。
第一步:获取空巢老人语音情感数据库,所述数据库中包含多种情绪(即情感类别)和多个人物形象。
在本实施例中,数据库中包含7种情绪和11个人物形象。7种情绪:angry(生气),anxiety(焦虑),boredom(无聊),disgust(厌恶),happy(高兴),neutral(中性),sad(伤心)。11个人物形象,每一个人物表达出自己的情感类别,每一种情感类别里有不同的样本数。
第二步:对所述数据库进行处理,分别对所述数据库中的每条语音和表情提取不同的特征参数。
特征提取是从语音信号中提取出对语音识别有用的信息,它对语音信号进行分析处理,去掉与语音识别无关的冗余信息,获得影响语音识别的重要信息。每条语音带有对应的情感类别,与相应语音对应的人物形象带有对应的表情。
第一种特征:小波系数。利用小波变换对语音进行分解,舍弃语音高频带小波系数,实现降噪目的,然后选取语音基频带的小波系数进行方差分析,进而预测带噪语音的基音周期。
第二种特征:傅立叶系数。傅里叶变换是一种信号的整体变换,在得到加窗的每一帧信号后,需要知道此帧信号在不同频段的能量分布。从一个离散信号(采样信号)中提取离散频段频谱信息的工具就是离散傅里叶变换(DFT)。
第三种特征:Mel频率倒谱系数。梅尔倒谱系数(Mel-scale Frequency CepstralCoefficients,简称MFCC)是在Mel标度频率域提取出来的倒谱参数。提取过程如下:(1)对输入的语音信号进行分帧、加窗,然后作离散傅立叶变换,获得频谱分布信息;(2)再求频谱幅度的平方,得到能量谱;(3)将能量谱通过一组Mel尺度的三角形滤波器组;(4)计算每个滤波器组输出的对数能量;(5)经离散余弦变换得到MFCC系数。
第三步:采用基于预测的方法对多特征进行融合。基于预测的融合框架主要由两个组件组成。
第一个是跨特征预测组件,其通过建模它们之间的关系来组合小波、傅立叶、Mfcc特征,此组件对应于特征级融合,其中三个特征的连接由预测器替代,分别学习语音情感类别的三个特征参数之间的映射。
在对特征进行预测的第一组预测器中,小波(X)、傅立叶(F)和Mfcc(M)特征之间的关系分别由六个回归因子fX→F、fX→M、fF→M、fF→X、fM→X、fM→F建模。六个预测器分别将三组特征作为输入,并在相同帧t处预测对应的识别率,如以下等式所示:
fX→F(X[t-kXF,t])=FX→F[t]≈F[t] (1)
fX→M(X[t-kXM,t])=MX→M[t]≈M[t] (2)
fF→M(F[t-kFM,t])=MF→M[t]≈M1[t] (3)
fM→F(M[t-kMF,t])=FM→F[t]≈F1[t] (4)
fM→X(M[t-kMX,t])=XM→X[t]≈X[t] (5)
fF→X(F[t-kFX,t])=XF→X[t]≈X1[t] (6)
在6个等式中,窗口k的大小取决于映射类型和建模类。
第二个是特征内预测组件,分别对三个特征的时间演进进行建模,该组件对应于决策级融合,其中每个特征由两个预测器建模,这两个预测器分别学习每个类的过去和当前特征之间的映射。
在第二组预测器中,其在每个特征内进行预测,每个类的过去和未来特征之间的关系由三个回归因子fX→X、fF→F和fM→M建模。三个预测器将过去的特征作为输入,并且在帧t处预测对应的特征,如下:
fX→X(X[t-kXX,t-1])=XX→X[t]≈X[t] (7)
fF→F(F[t-kFF,t-1])=FF→F[t]≈F[t] (8)
fM→M(M[t-kMM,t-1])=MM→M[t]≈M[t] (9)
在上述3个等式中,窗口k的大小取决于映射类型和建模类。
最后,这两个组件以分层方式组合。在第一层中,跨特征预测分量的三个预测器被组合以便考虑特征之间的双向关系。类似地,特征内预测分量的三个预测器被组合以便合并关于特征的时间演进的信息。在第二层中,组合特征内和跨特征预测分量,以便研究特征关系和它们的时间演进。这对应于特征级和决策级融合的组合。
重要的是要指出,所有预测变量都是类特定的,因为他们分别学习每个类的特征关系。关键思想是对应于新输入序列的真实类的类特异性预测因子将产生比对应于其他类的模型更好的特征估计,因为它们已经在目标类的特征上训练。
一旦训练完成并且预测器f被学习,它们可以用于分类。当新的序列可用时,计算三个特征,其被馈送到由等式定义的所有预测器(1)-(9),导致每个类的每帧有九个预测误差。我们考虑的预测误差测量是均方误差,平均绝对误差(MAE)和误差的L2范数(L2-E)。每个预测器的总误差通过对所有帧N上的误差求和来计算,导致每个类的每个序列有9个预测误差。类的9个预测器误差使用以下等式计算。
其中Err是MSE或MAE或L2-E。
然后,组合六个交叉特征预测模型(等式(10)-(15)),以考虑如等式(19)中所示的受到等式(20)约束的特征双向关系。
eCP=ωXF*eX→F+ωXM*eX→M+ωFM*eF→M+ωMF*eM→F+ωMX*eM→X+ωFX*eF→X (19)
ωXF+ωXM+ωFM+ωMF+ωMX+ωFX=1 (20)
其中eCP是总的跨特征预测误差,ωXF、ωXM、ωFM、ωMF、ωMX和ωFX是跨特征预测分量的权重。
类似地,将三个时间演化模型(等式(16)、(17)、(18))组合以便考虑特征之间的过去到未来关系,等式(21)受到等式(22)的约束。
eIP=ωXX*eX→X+ωMM*eM→M+ωFF*eF→F (21)
ωXX+ωMM+ωFF=1 (22)
其中eIP是总体特征内预测误差,ωXX、ωMM和ωFF是特征内预测分量的权重。
最后,为了合并来自两个基于预测模型的信息,将两个分量的预测误差组合,如等式23所示,受到等式24的约束。
ec=ωCP*eCP+ωIP*eIP (23)
ωCP+ωIP=1 (24)
其中ec是总预测误差,ωCP和ωIP分别是交叉特征预测和特征内预测融合分量的权重。本发明选择了以分层方式组合子系统,因为它允许更轻松地优化权重。
等式(19)、(21)、(23)中,预测误差在没有被正规化的情况下被组合。预示着预测器建模不同的关系,误差也将是不同程度的。因此,权重意味着每个预测器的相对重要性并且也充当比例因子。
另一种方法是通过softmax标准化来转换相同尺度的预测误差。等式(19)、(21)、(23)使用softmax函数进行归一化,使得它们的和等于1。在这种情况下,权重简单地指示每个预测器的相对重要性。在本研究中,都考虑softmax标准化和无标准化。
在最后一步中,基于误差向输入序列分配标签(如等式(23)),这是通过选择对应于最低误差的标签来完成的。换句话说,最佳地解释特征关系(即导致最低预测误差)的类特定模型相应地标记新序列,如等式(25)所示。PredictedClass=arg min ec(25),其中,c=1....C,C指的是情感类别。
在我们希望仅使用交叉特征预测融合或特征内预测融合来执行分类的情况下,可以通过用等式(19)、(21)中的交叉特征预测误差eCP或特征内预测误差eIP替换等式(25)中的总预测误差ec来实现。
第四步:用SVM进行特征识别。
分别使用老人库中的1个人物样本用于测试,其余10个人物样本用于训练,得到识别的准确率。实验中,所有算法都是在Matlab平台运行。
第五步,输出同一段语音下预测的最高准确率的情感类型(即情感类别),得到识别结果。
现有技术中,每一种特征下的情感类别测试,每一种情感类别的识别率都层次不齐,不能确保每一种情感类别识别都有较高的准确率。本申请则很好的改善了这个问题,输入一段语音后,计算不同特征下的识别率,比较每一种特征下的识别结果,输出识别率最高的情感类别,保证使数据库能够进行最好的情感分类。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于预测的多特征融合的老人语音情感识别方法,其特征在于:其包括以下步骤:
第一步:获取空巢老人语音情感数据库,所述数据库中包含多种情感类别和多个人物形象;
第二步:对所述数据库进行处理,分别对所述数据库中的每条语音和表情提取不同的特征参数:每条语音带有对应的情感类别,与相应语音对应的人物形象带有对应的表情:
第一种特征:小波系数;利用小波变换对每条语音进行分解,舍弃语音高频带小波系数,实现降噪目的,然后选取语音基频带的小波系数进行方差分析,进而预测带噪语音的基音周期;
第二种特征:傅立叶系数;利用傅里叶变换对每条语音整体变换,在得到加窗的每一帧信号后,需要知道此帧信号在不同频段的能量分布,从一个离散信号中提取离散频段频谱信息;
第三种特征:Mel频率倒谱系数;在Mel标度频率域提取出倒谱参数;
第三步:采用基于预测的方法对多特征进行融合;基于预测的融合框架包括两部分:
第一个是跨特征预测组件,其通过建模多特征之间的关系来组合小波系数(X)、傅立叶系数(F)、Mel频率倒谱系数(M),跨特征预测组件对应于特征级融合,其中三种特征的连接由第一组预测器替代,分别学习语音情感类别的三种特征参数之间的映射;
第二个是特征内预测组件,分别对三种特征的时间演进进行建模,特征内预测组件对应于决策级融合,其中每种特征由两个第二组预测器建模,这两个第二组预测器分别学习每个情感类别的过去和当前特征之间的映射;
其中,跨特征预测组件和特征内预测组件以分层方式组合;在第一层中,跨特征预测组件的三个预测器被组合以便考虑特征之间的双向关系,特征内预测组件的三个预测器被组合以便合并关于特征的时间演进的信息;在第二层中,组合跨特征预测组件和特征内预测组件,以便研究特征关系和它们的时间演进;
第四步:用SVM进行特征识别;
第五步:输出同一段语音下预测的最高准确率的情感类别,得到识别结果。
2.如权利要求1所述的基于预测的多特征融合的老人语音情感识别方法,其特征在于:所述数据库中包含7种情感类别和11个人物形象,7种情感类别为:生气,焦虑,无聊,厌恶,高兴,中性,伤心;11个人物形象,每一个人物表达出自己的情感类别,每一种情感类别里有不同的样本数。
3.如权利要求1所述的基于预测的多特征融合的老人语音情感识别方法,其特征在于:在对特征进行预测的第一组预测器中,小波系数、傅立叶系数和Mel频率倒谱系数之间的关系分别由六个回归因子fX→F、fX→M、fF→M、fF→X、fM→X、fM→F建模;六个回归因子对应六个预测器,六个预测器分别将三种特征作为输入,并在相同帧t处预测对应的识别率;
识别率预测时,采用以下等式:
fX→F(X[t-kXF,t])=FX→F[t]≈F[t] (1)
fX→M(X[t-kXM,t])=MX→M[t]≈M[t] (2)
fF→M(F[t-kFM,t])=MF→M[t]≈M1[t] (3)
fM→F(M[t-kMF,t])=FM→F[t]≈F1[t] (4)
fM→X(M[t-kMX,t])=XM→X[t]≈X[t] (5)
fF→X(F[t-kFX,t])=XF→X[t]≈X1[t] (6)
其中,在6个等式中,窗口k的大小取决于映射类型和建模类。
4.如权利要求1所述的基于预测的多特征融合的老人语音情感识别方法,其特征在于:在第二组预测器中,其在每个特征内进行预测,每个情感类别的过去和未来特征之间的关系由三个回归因子fX→X、fF→F和fM→M建模;三个回归因子对应三个预测器,三个预测器将过去的特征作为输入,并且在帧t处预测对应的特征;
特征预测时,采用以下等式:
fX→X(X[t-kXX,t-1])=XX→X[t]≈X[t] (7)
f F→F(F[t-kFF,t-1])=FF→F[t]≈F[t] (8)
fM→M(M[t-kMM,t-1])=MM→M[t]≈M[t] (9)
其中,在上述3个等式中,窗口k的大小取决于映射类型和建模类。
5.如权利要求1所述的基于预测的多特征融合的老人语音情感识别方法,其特征在于:每个预测器的总误差通过对所有帧N上的误差求和来计算,导致每个情感类别的每个序列有9个预测误差,情感类别的9个预测器误差使用以下等式计算;
其中,Err是MSE或MAE或L2-E。
6.如权利要求5所述的基于预测的多特征融合的老人语音情感识别方法,其特征在于:利用等式(10)-(15)组合六个交叉特征预测模型,以考虑等式(19)中所示的受到等式(20)约束的特征双向关系;
eCP=ωXF*eX→F+ωXM*eX→M+ωFM*eF→M+ωMF*eM→F+ωMX*eM→X+ωFX*eF→X (19)
ωXF+ωXM+ωFM+ωMF+ωMX+ωFX=1 (20)
其中,eCP是总的跨特征预测误差,ωXF、ωXM、ωFM、ωMF、ωMX和ωFX是跨特征预测分量的权重。
7.如权利要求6所述的基于预测的多特征融合的老人语音情感识别方法,其特征在于:利用等式(16)-(18)组合以便考虑特征之间的过去到未来关系,等式(21)受到等式(22)的约束;
eIP=ωXX*eX→X+ωMM*eM→M+ωFF*eF→F (21)
ωXX+ωMM+ωFF=1 (22)
其中,eIP是总体特征内预测误差,ωXX、ωMM和ωFF是特征内预测分量的权重。
8.如权利要求7所述的基于预测的多特征融合的老人语音情感识别方法,其特征在于:为了合并来自两个基于预测模型的信息,将两个分量的预测误差组合,等式(23)受到等式(24)的约束;
ec=ωCP*eCP+ωIP*eIP (23)
ωCP+ωIP=1 (24)
其中,ec是总预测误差,ωCP和ωIP分别是交叉特征预测和特征内预测融合分量的权重。
9.如权利要求7所述的基于预测的多特征融合的老人语音情感识别方法,其特征在于:对等式(19)、(21)、(23)使用softmax函数进行归一化,使得它们的和等于1。
10.如权利要求8所述的基于预测的多特征融合的老人语音情感识别方法,其特征在于:利用等式(23)基于误差向输入序列分配标签,通过选择对应于最低误差的标签来完成,采用等式(25)解释特征关系的情感类别特定模型相应地标记新序列:
PredictedClass=arg min ec (25),
其中,c=1....C,C指的是情感类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710223015.8A CN106992000B (zh) | 2017-04-07 | 2017-04-07 | 一种基于预测的多特征融合的老人语音情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710223015.8A CN106992000B (zh) | 2017-04-07 | 2017-04-07 | 一种基于预测的多特征融合的老人语音情感识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106992000A true CN106992000A (zh) | 2017-07-28 |
CN106992000B CN106992000B (zh) | 2021-02-09 |
Family
ID=59416381
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710223015.8A Active CN106992000B (zh) | 2017-04-07 | 2017-04-07 | 一种基于预测的多特征融合的老人语音情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106992000B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108154879A (zh) * | 2017-12-26 | 2018-06-12 | 广西师范大学 | 一种基于倒谱分离信号的非特定人语音情感识别方法 |
CN108198545A (zh) * | 2017-12-19 | 2018-06-22 | 安徽建筑大学 | 一种基于小波变换的语音识别方法 |
CN110348535A (zh) * | 2019-07-17 | 2019-10-18 | 北京金山数字娱乐科技有限公司 | 一种视觉问答模型训练方法及装置 |
CN114078473A (zh) * | 2020-08-13 | 2022-02-22 | 富泰华工业(深圳)有限公司 | 刀具检测方法、电子装置及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101261832A (zh) * | 2008-04-21 | 2008-09-10 | 北京航空航天大学 | 汉语语音情感信息的提取及建模方法 |
KR20090055426A (ko) * | 2007-11-28 | 2009-06-02 | 중앙대학교 산학협력단 | 특징 융합 기반 감정인식 방법 및 시스템 |
CN105244042A (zh) * | 2015-08-26 | 2016-01-13 | 安徽建筑大学 | 一种基于有限状态自动机的语音情感交互装置与方法 |
CN105976809A (zh) * | 2016-05-25 | 2016-09-28 | 中国地质大学(武汉) | 基于语音和面部表情的双模态情感融合的识别方法及系统 |
CN106205636A (zh) * | 2016-07-07 | 2016-12-07 | 东南大学 | 一种基于mrmr准则的语音情感识别特征融合方法 |
CN106293074A (zh) * | 2016-07-29 | 2017-01-04 | 维沃移动通信有限公司 | 一种情绪识别方法和移动终端 |
CN106297825A (zh) * | 2016-07-25 | 2017-01-04 | 华南理工大学 | 一种基于集成深度信念网络的语音情感识别方法 |
-
2017
- 2017-04-07 CN CN201710223015.8A patent/CN106992000B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090055426A (ko) * | 2007-11-28 | 2009-06-02 | 중앙대학교 산학협력단 | 특징 융합 기반 감정인식 방법 및 시스템 |
CN101261832A (zh) * | 2008-04-21 | 2008-09-10 | 北京航空航天大学 | 汉语语音情感信息的提取及建模方法 |
CN105244042A (zh) * | 2015-08-26 | 2016-01-13 | 安徽建筑大学 | 一种基于有限状态自动机的语音情感交互装置与方法 |
CN105976809A (zh) * | 2016-05-25 | 2016-09-28 | 中国地质大学(武汉) | 基于语音和面部表情的双模态情感融合的识别方法及系统 |
CN106205636A (zh) * | 2016-07-07 | 2016-12-07 | 东南大学 | 一种基于mrmr准则的语音情感识别特征融合方法 |
CN106297825A (zh) * | 2016-07-25 | 2017-01-04 | 华南理工大学 | 一种基于集成深度信念网络的语音情感识别方法 |
CN106293074A (zh) * | 2016-07-29 | 2017-01-04 | 维沃移动通信有限公司 | 一种情绪识别方法和移动终端 |
Non-Patent Citations (2)
Title |
---|
STAVROS PETRIDIS 等: "Prediction-Based Classification for Audiovisual Discrimination Between Laughter And Speech", 《IEEE FG》 * |
王坤侠: "语音情感识别方法研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108198545A (zh) * | 2017-12-19 | 2018-06-22 | 安徽建筑大学 | 一种基于小波变换的语音识别方法 |
CN108198545B (zh) * | 2017-12-19 | 2021-11-02 | 安徽建筑大学 | 一种基于小波变换的语音识别方法 |
CN108154879A (zh) * | 2017-12-26 | 2018-06-12 | 广西师范大学 | 一种基于倒谱分离信号的非特定人语音情感识别方法 |
CN108154879B (zh) * | 2017-12-26 | 2021-04-09 | 广西师范大学 | 一种基于倒谱分离信号的非特定人语音情感识别方法 |
CN110348535A (zh) * | 2019-07-17 | 2019-10-18 | 北京金山数字娱乐科技有限公司 | 一种视觉问答模型训练方法及装置 |
CN114078473A (zh) * | 2020-08-13 | 2022-02-22 | 富泰华工业(深圳)有限公司 | 刀具检测方法、电子装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106992000B (zh) | 2021-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Badshah et al. | Deep features-based speech emotion recognition for smart affective services | |
Zadeh et al. | Memory fusion network for multi-view sequential learning | |
Huang et al. | Feature fusion methods research based on deep belief networks for speech emotion recognition under noise condition | |
Scherer et al. | Investigating fuzzy-input fuzzy-output support vector machines for robust voice quality classification | |
Tu et al. | Interpretable Objective Assessment of Dysarthric Speech Based on Deep Neural Networks. | |
CN108346436A (zh) | 语音情感检测方法、装置、计算机设备及存储介质 | |
CN110675860A (zh) | 基于改进注意力机制并结合语义的语音信息识别方法及系统 | |
CN106992000A (zh) | 一种基于预测的多特征融合的老人语音情感识别方法 | |
CN108256307B (zh) | 一种智能商务旅居房车的混合增强智能认知方法 | |
CN112799747A (zh) | 智能助理评价、推荐方法、系统、终端及可读存储介质 | |
Li et al. | Learning fine-grained cross modality excitement for speech emotion recognition | |
Asemi et al. | Adaptive neuro-fuzzy inference system for evaluating dysarthric automatic speech recognition (ASR) systems: a case study on MVML-based ASR | |
CN108986798A (zh) | 语音数据的处理方法、装置及设备 | |
Sridhar et al. | Modeling uncertainty in predicting emotional attributes from spontaneous speech | |
Somogyi | The Application of Artificial Intelligence | |
Rangra et al. | Emotional speech-based personality prediction using NPSO architecture in deep learning | |
Bera et al. | Identification of mental state through speech using a deep learning approach | |
Jeong et al. | Constructing an Audio Dataset of Construction Equipment from Online Sources for Audio-Based Recognition | |
CN114927144A (zh) | 一种基于注意力机制和多任务学习的语音情感识别方法 | |
Miao et al. | [Retracted] English Speech Feature Recognition‐Based Fuzzy Algorithm and Artificial Intelligent | |
Jain et al. | Accurate speech emotion recognition by using brain-inspired decision-making spiking neural network | |
Kalpana Chowdary et al. | Deep learning approach for speech emotion recognition | |
Bhavani et al. | A survey on various speech emotion recognition techniques | |
Tellai et al. | CCTG-NET: Contextualized Convolutional Transformer-GRU Network for speech emotion recognition | |
Shome et al. | A robust DNN model for text-independent speaker identification using non-speaker embeddings in diverse data conditions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |