CN108597540A - 一种基于变分模态分解和极限学习机的语音情感识别方法 - Google Patents
一种基于变分模态分解和极限学习机的语音情感识别方法 Download PDFInfo
- Publication number
- CN108597540A CN108597540A CN201810320085.XA CN201810320085A CN108597540A CN 108597540 A CN108597540 A CN 108597540A CN 201810320085 A CN201810320085 A CN 201810320085A CN 108597540 A CN108597540 A CN 108597540A
- Authority
- CN
- China
- Prior art keywords
- imf
- speech
- learning machine
- variation mode
- mode decomposition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000354 decomposition reaction Methods 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000002996 emotional effect Effects 0.000 claims abstract description 25
- 230000006870 function Effects 0.000 claims abstract description 23
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 238000001228 spectrum Methods 0.000 claims abstract description 8
- 230000009466 transformation Effects 0.000 claims abstract description 8
- 238000009472 formulation Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 230000008909 emotion recognition Effects 0.000 abstract description 9
- 230000008901 benefit Effects 0.000 abstract description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 abstract description 2
- 239000012141 concentrate Substances 0.000 abstract 1
- 238000012545 processing Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000008451 emotion Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 206010016275 Fear Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于变分模态分解和极限学习机的语音情感识别方法,属于人工智能和语音识别领域,本发明首先通过变分模态分解方法对情感语音信号进行预处理,分解成若干个本征模态函数(IMF)分量和一个残差分量,这些分量更能准确反映原序列的变化,并保留语音信号的情感特征;然后通过对每个IMF分量进行hilbert变换,得到各IMF分量的hilbert边际谱特征;另外,将各IMF分量重新聚合,得到去除残差分量的语音信号,再对该信号提取MEL倒谱函数。将提取的新特征加入到传统语音情感特征集中,构建极限学习机模型进行分类识别。本发明的优点在于通过变分模态分解得到新的语音特征,相较于传统语音情感特征,该特征在进行语音情感识别时有更高的识别率。
Description
技术领域
本发明涉及人工智能和语音识别领域,特别是一种基于变分模态分解和极限学习机的语音情感识别方法。
背景技术
在多种通信方式中,语音信号是人与人、人与机器通信最快的自然方法。人类甚至可以从语音交流中感觉到说话人的情绪状态。语音情感是分析声音行为的一种方法,是指各种影响(如情绪、情绪和压力)的指针,侧重于语音的非言语方面。在这种情况下,语音情感识别(SER)的主要挑战是提取一些客观的、可测量的语音特征参数,这些参数可以反映说话人的情绪状态。近年来,语音情感识别在人机通信、机器人通信、多媒体检索等领域得到了广泛关注。语音情感识别研究主要是利用语音中的情感和语音特征的统计特性,进行一般定性的声学关联。大多数的语音情感识别系统都能对语音信号进行特征提取,并在不同的数据库中实现70%~90%的识别率。Ververidis D等人从能量、基音和语音频谱的动态行为中提取出87个静态特征,并提出了谱平坦度测度与谱中心(RSS)的比值作为说话人独立的特征,利用RSS特征、基音周期、能量和MEL倒谱系数对性别和情感进行了层次分类。SunR,Moore E等人将Teager能量中提取的小波系数引入到语音情感识别中。Nwe T L等人将MFCC(MEL倒谱系数)参数作为特征对语音情感进行识别,也取得了较好的结果。
He L等人首先将EMD分解引入到语音情感识别中。Sethu V等人利用EMD将语音进行分解,以分解得到的IMF分量进行语音分类。Shahnaz C等人将EMD和小波分析相结合得到了80.55%的语音情感识别准确率。2014年D.K,Z.D等人在EMD的基础上提出的VMD算法,有效消除了EMD算法分解出的IMF信号缺少物理意义和计算量过大的缺点。现有语音情感特征在进行分类识别时还存在性能不佳的问题。
发明内容
本发明所要解决的技术问题是克服现有技术的不足而提供一种基于变分模态分解和极限学习机的语音情感识别方法,对情感语音信号进行平稳化处理,结合Hilbert变换和MEL倒谱系数提取得到VMD-HT和VMD-MFCC特征,通过极限学习机模型进行语音情感分类,以提高语音情感的分类准确率。
本发明为解决上述技术问题采用以下技术方案:
根据本发明提出的一种基于变分模态分解和极限学习机的语音情感识别方法,包括以下步骤:
步骤1、将输入的语音情感信号通过变分模态分解算法进行模态分解,得到本征模态函数IMF分量和残差分量;
步骤2、对步骤1的各分量进行Hlibert变换,得到各IMF分量的Hilbert谱,将各IMF分量的平均瞬时频率、幅值以及原始信号的瞬时频率作为该语音情感信号的VMD-HT特征;
步骤3、采用步骤1的各IMF分量进行重新聚合,对聚合信号提取MFCC参数,即得到VMD-MFCC特征;
步骤4、将步骤2和步骤3的特征加入到现有的语音特征集中,通过极限学习机分类模型对整个语音特征集进行分类识别,得到语音情感数据集分类结果。
作为本发明所述的一种基于变分模态分解和极限学习机的语音情感识别方法进一步优化方案,步骤1中得到K个本征模态函数IMF分量和一个残差分量;具体如下:
第k个IMF分量表达式为
其中,uk(t)为第k个IMF分量,0<k<K+1,Ak(t)为第k个IMF分量的幅值,为第k个IMF分量的相角,t为时间;
约束条件为
式(2)中{uk}:={u1,...,uK},uk(t)记为uk,{uk}为分解到的K个有限带宽的IMF分量的集合,uk表示分解到的第k个有限带宽的IMF分量,为微分算子,δ(t)为狄利克来函数,j为虚数符号,e为自然常数,f(t)为约束函数,{ωk}:={ω1,...,ωK},{ωk}为K个IMF分量所对应的中心频率的集合,ωk表示第k个IMF分量所对应的中心频率,表示范数;通过拉格朗日函数求该约束条件下的最优解,生成的拉格朗日表达式为:
式(3)中,L({uk},{ωk},λ)为拉格朗日函数,α为惩罚系数,λ(t)为拉格朗日乘子,<·>表示内积;
采用乘法算子交替的方法求式(3)的鞍点,就得到IMF分量,求解过程中的值会不断更新,直到与的误差小于预设值;为第n+1次迭代的第k个IMF分量,其表达式为
式(4)中,X为uk的集合,为第n+1次迭代的第k个IMF分量的中心频率,表示将第n+1次迭代的除了第k个IMF分量之外的分量进行求和,ui(t)n+1为第n+1次迭代时的第i个IMF分量。
作为本发明所述的一种基于变分模态分解和极限学习机的语音情感识别方法进一步优化方案,K设置为4。
作为本发明所述的一种基于变分模态分解和极限学习机的语音情感识别方法进一步优化方案,步骤3的MFCC参数提取前12维。
作为本发明所述的一种基于变分模态分解和极限学习机的语音情感识别方法进一步优化方案,步骤4的极限学习机分类模型采用sigmod函数作为代价函数。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
(1)本发明针对情感语音信号的非线性、非平稳特性,利用极限学习机算法在处理非线性问题中的优越性和变分模态分解算法在处理非平稳信号中的优势,基于变分模态分解和极限学习机的语音情感分类方法,根据情感语音信号的非线性、非平稳特性,首先利用变分模态分解技术对语音信号进行模态分解,结合Hilbert变换和MEL倒谱系数提取分别得到VMD-HT和VMD-MFCC特征,再利用极限学习机分类技术进行语音情感分类;相较于传统语音情感特征和分类识别算法,基于VMD提取的特征和极限学习机的语音情感分类方法有着更好的综合性能;
(2)本发明的优点在于通过变分模态分解得到新的语音特征,相较于传统语音情感特征,该特征在进行语音情感识别时有更高的识别率。
附图说明
图1是基于变分模态分解和极限学习机的语音情感分类识别方法的流程图。
图2是VMD-HT特征提取流程图。
图3是各IMF分量边际谱图;其中,(a)为IMF1,(b)为IMF2,(c)为IMF3,(d)为IMF4。
图4是VMD-MFCC特征提取流程图。
图5是FEAR语句12阶VMD-MFCC参数。
图6是基本ELM的体系结构图。
图7是本发明的流程图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明进行详细描述。
本实施例采用两种语音情感数据集(EMODB、RAVDESS)中共有的生气,伤心,害怕,开心,中性五种情感各50个语句。其中,随机抽取40句用来做训练,10句用来测试,进行10次实验,实验结果以10次实验识别率的平均值作为评估指标。将变分模态分解(VariationalMode Decomposition,VMD)算法和极限学习机(Extreme Learning Machine,ELM)分类算法相结合进行语音情感分类识别。基于变分模态分解和极限学习机的语音情感分类识别方法的流程图,如图1所示、图7所示。
将输入的情感语音数据,通过变分模态分解算法进行模态分解,得到4个本征模态函数分量(Intrinsic Mode Function,IMF)和一个残差分量,K取4;
第k个IMF分量表达式为
其中,uk(t)为第k个IMF分量,0<k<K+1,Ak(t)为第k个IMF分量的幅值,为第k个IMF分量的相角,t为时间;
约束条件为
式(2)中{uk}:={u1,...,uK},uk(t)记为uk,{uk}为分解到的K个有限带宽的IMF分量的集合,uk表示分解到的第k个有限带宽的IMF分量,为微分算子,δ(t)为狄利克来函数,j为虚数符号,e为自然常数,f(t)为约束函数,{ωk}:={ω1,...,ωK},{ωk}为K个IMF分量所对应的中心频率的集合,ωk表示第k个IMF分量所对应的中心频率,表示范数;通过拉格朗日函数求该约束条件下的最优解,生成的拉格朗日表达式为:
式(3)中,L({uk},{ωk},λ)为拉格朗日函数,α为惩罚系数,λ(t)为拉格朗日乘子,<·>表示内积;
采用乘法算子交替的方法求式(3)的鞍点,就得到IMF分量,求解过程中的值会不断更新,直到与的误差小于预设值,为第n+1次迭代的第k个IMF分量,其表达式为
式(4)中,X为uk的集合,为第n+1次迭代的第k个IMF分量的中心频率,表示将第n+1次迭代的除了第k个IMF分量之外的分量进行求和,ui(t)n+1为第n+1次迭代时的第i个IMF分量。
语音信号进行变分模态分解(VMD)分解得到固有模态函数(IMF)分量后,对各分量进行Hilbert变换,得到IMF的瞬时频率和幅值,特征提取流程如图3所示。
式(5)中,Hk(t)为IMF分量的hilbert变换函数,τ为时间常数,uk(τ)为基于时间常数τ的第k个IMF分量。
式(6)中,Zk(t)为解析函数,为第k个IMF分量的瞬时幅值,为相位,uk(t)为第k个IMF分量,Hk(t)为第k个分量的Hilbert变换。
式(6)中,Zk(t)的相位表达方式突出了Hilbert变换的物理意义,是基于时间序列形成的一个振幅和相位调制的三角函数。则希尔伯特谱的瞬时频率定义为
θk表示第k个IMF分量的相位。
对于语音信号第k个IMF分量uk(t)的幅值ak(t)和瞬时频率Wk(t),计算uk(t)的平均瞬时频率。根据获得的各IMF分量的平均瞬时频率MIF及幅值,计算原始信号的平均瞬时频率MIF表示为
MIFk为第k个IMF分量的平均瞬时频率,ak为k个IMF分量的幅值。
将各IMF分量的平均瞬时频率、幅值以及原始信号的瞬时频率作为该语音信号的基于变分模态分解的Hilbert(VMD-HT)特征,流程图如图2所示,各IMF分量边际谱图如图3所示,图3是各IMF分量边际谱图,其中,图3中的(a)为IMF1,图3中的(b)为IMF2,图3中的(c)为IMF3,图3中的(d)为IMF4。
MFCC由Stevens在1937年提出,MFCC参数是基于人耳对不同频率声音有不同敏感度的特点提出的,揭示了人耳对高频信号的敏感度低于低频信号的特点。语音信号由频率f转换到MEL尺度的表达式为
语音信号通过VMD分解后,剔除余波分量,再重新聚合,对聚合信号提取MFCC参数,即得到基于变分模态分解的倒谱系数(VMD-MFCC)特征。在将信号进行VMD分解之后,提取MFCC参数的过程分为数步,流程如图4所示。
对各IMF信号进行聚合,得到新的语音信号。
对语音信号进行预加重处理,是为了补偿语音信号被人体的声带和嘴唇振动所抑制的高频部分能量,表达式为
Si=Si-g*Si-1 (10)
式中Si、Si-1为第i个采样点和i-1个采样点,g表示预加重系数,预加重处理可有效提高语音信号中高频分量的相对幅值。
对语音信号进行分帧,以256个采样点作为一帧进行分割,约为16ms,分帧是为了减少帧内信号的不连续性。不连续的语音信号会导致在分析中提取不正确的参数值。另外,为了避免两个相邻帧之间的不连续性,选择帧移为64,即相邻两帧之间有192个采样点是重叠的。
采用汉明窗处理语音帧,可以减少或消除频谱能量泄漏及栅栏效应,提高语音信号在连续帧之间的连续性。假设一个经分帧处理的语音信号S(i),i=0,1,...,z-1,S'(i)为S(i)经汉明窗后的语音信号,z为语音信号分帧处理后的帧数,处理过程可表示为
从式(11)中的窗函数W(i,a)可知,不同位置的信号幅度会受到不同程度的调节,信号的首尾部分较中间部分会有更大的幅度减小,提高了S(i)相邻帧之间的连续性。当a值变小时,帧内信号连续性变弱,但会保留更多的信号细节,为了保证信号在不过度降低连续性的情况下尽可能多的保留细节特征,实验中a取0.54。
采用一组基于MEL尺度的三角带通滤波器进行MFCC参数提取,将语音信号转换到频域后,对语音信号进行滤波处理,使语音信号遵循MEL尺度的衰减特性。滤波器组对频域信号进行切分,每个频段产生一个对应的能量值。本实验中滤波器个数取24,因此可得到24个能量值。
对能量进行反傅里叶变换,再通过低通滤波器获得低频信号。使用离散余弦变换(DCT)可以直接获取低频信息,DCT与离散傅里叶变换相似,但只有实数部分,该过程可表示为
式(12)中,Ek为第k个滤波器的对数能量值;Q为三角滤波器个数,一般取22~26;m为当前计算的MFCC特征参数的维数,L取12,以FEAR语句为例,提取的12阶VMD-MFCC参数如图5所示。
采用步骤2)和步骤3)所述的训练样本集,建立与之对应的极限学习机(ELM)分类模型。基本ELM的体系结构如图6所示。
式(13)为ELM神经网络处理输入数据的公式,式中g(x)为激活函数,Wi=[wi,1,wi,2,...,wi,n]T为输入权重,βi为输出权重,bi为第i个隐藏单元的偏置,Xj是输入的数据,·表示内积oj为ELM的输出。
单隐层神经网络学习目标是使输出误差最小,表示为
tj为期望输出。
即存在βi、Wi和bi,使得
以矩阵的形式表示为
Hβ=T (16)
式(16)中H为隐含层节点输出,β为隐含层到输出层的权重系数,T为训练所需要得到的期望结果。为了对隐含层神经元进行训练,得到βi、Wi和bi的解为
式(17)中,i=1,...L,该式用最小化损失函数表示为
传统的一些基于梯度下降法算法(如BP、MLP)可以用来求解这样的问题,但这些学习算法需要在迭代过程中调整所有参数。而ELM算法的输入层权重Wi和隐含层bi在初始化时已被随机产生且唯一,因此隐含层的输出矩阵H就被确定,只需要调整隐含层到输出层的权重系数βi,对该系数的训练可转化为求解一个线性系统Hβ=T。输出权重可由式(19)确定。
式(19)中,是矩阵的Moore-Penrose广义逆。
将VMD-MFCC、VMD-HT和基频特征、韵律谱特征以及部分非线性特征相结合作为实验选取的特征,称为底层特征,底层特征描述见表1。
表1
对模型进行分类识别,得到各个语音情感的分类结果。实验结果见表2、表3,表1为EMODB数据集分类实验结果,表2为RAVDESS数据集分类实验结果,由表1、表2可知,ELM分类准确度要高于KNN和SVM;分别加入VMD特征之后,三种分类方式的准确度都有提高。以EMODB为例,FEAR的识别率提高了7%,NEUTRAL的识别率提高了12.5%,ANGER的识别率提高了4.5%。因此,将VMD特征用于语音情感识别,可以有效提高识别准确率,且将VMD特征和ELM分类器结合,有更好的识别效果。
表2
表3
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围内。
Claims (5)
1.一种基于变分模态分解和极限学习机的语音情感识别方法,其特征在于,包括以下步骤:
步骤1、将输入的语音情感信号通过变分模态分解算法进行模态分解,得到本征模态函数IMF分量和残差分量;
步骤2、对步骤1的各分量进行Hlibert变换,得到各IMF分量的Hilbert谱,将各IMF分量的平均瞬时频率、幅值以及原始信号的瞬时频率作为该语音情感信号的VMD-HT特征;
步骤3、采用步骤1的各IMF分量进行重新聚合,对聚合信号提取MFCC参数,即得到VMD-MFCC特征;
步骤4、将步骤2和步骤3的特征加入到现有的语音特征集中,通过极限学习机分类模型对整个语音特征集进行分类识别,得到语音情感数据集分类结果。
2.根据权利要求1所述的一种基于变分模态分解和极限学习机的语音情感识别方法,其特征在于,步骤1中得到K个本征模态函数IMF分量和一个残差分量;具体如下:
第k个IMF分量表达式为
其中,uk(t)为第k个IMF分量,0<k<K+1,Ak(t)为第k个IMF分量的幅值,为第k个IMF分量的相角,t为时间;
约束条件为
式(2)中{uk}:={u1,...,uK},uk(t)记为uk,{uk}为分解到的K个有限带宽的IMF分量的集合,uk表示分解到的第k个有限带宽的IMF分量,为微分算子,δ(t)为狄利克来函数,j为虚数符号,e为自然常数,f(t)为约束函数,{ωk}:={ω1,...,ωK},{ωk}为K个IMF分量所对应的中心频率的集合,ωk表示第k个IMF分量所对应的中心频率,表示范数;通过拉格朗日函数求该约束条件下的最优解,生成的拉格朗日表达式为:
式(3)中,L({uk},{ωk},λ)为拉格朗日函数,α为惩罚系数,λ(t)为拉格朗日乘子,<·>表示内积;
采用乘法算子交替的方法求式(3)的鞍点,就得到IMF分量,求解过程中的值会不断更新,直到与的误差小于预设值;为第n+1次迭代的第k个IMF分量,其表达式为
式(4)中,X为uk的集合,为第n+1次迭代的第k个IMF分量的中心频率,表示将第n+1次迭代的除了第k个IMF分量之外的分量进行求和,ui(t)n+1为第n+1次迭代时的第i个IMF分量。
3.根据权利要求2所述的一种基于变分模态分解和极限学习机的语音情感识别方法,其特征在于,K设置为4。
4.根据权利要求1所述的一种基于变分模态分解和极限学习机的语音情感识别方法,其特征在于,步骤3的MFCC参数提取前12维。
5.根据权利要求1所述的一种基于变分模态分解和极限学习机的语音情感识别方法,其特征在于,步骤4的极限学习机分类模型采用sigmod函数作为代价函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810320085.XA CN108597540A (zh) | 2018-04-11 | 2018-04-11 | 一种基于变分模态分解和极限学习机的语音情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810320085.XA CN108597540A (zh) | 2018-04-11 | 2018-04-11 | 一种基于变分模态分解和极限学习机的语音情感识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108597540A true CN108597540A (zh) | 2018-09-28 |
Family
ID=63621625
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810320085.XA Pending CN108597540A (zh) | 2018-04-11 | 2018-04-11 | 一种基于变分模态分解和极限学习机的语音情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108597540A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109443719A (zh) * | 2018-11-01 | 2019-03-08 | 河南理工大学 | 一种钻头振动信号在线虚拟测试方法及其系统 |
CN109616143A (zh) * | 2018-12-13 | 2019-04-12 | 山东省计算中心(国家超级计算济南中心) | 基于变分模态分解和感知哈希的语音端点检测方法 |
CN109767776A (zh) * | 2019-01-14 | 2019-05-17 | 广东技术师范学院 | 一种基于密集神经网络的欺骗语音检测方法 |
CN110827857A (zh) * | 2019-11-28 | 2020-02-21 | 哈尔滨工程大学 | 基于谱特征和elm的语音情感识别方法 |
CN110992739A (zh) * | 2019-12-26 | 2020-04-10 | 上海乂学教育科技有限公司 | 学生在线听写系统 |
CN111341342A (zh) * | 2020-02-11 | 2020-06-26 | 上海应用技术大学 | 基于环境声分离的车载语音提取方法及系统 |
CN112508088A (zh) * | 2020-12-03 | 2021-03-16 | 重庆邮智机器人研究院有限公司 | 一种基于dedbn-elm的脑电情感识别方法 |
CN117850367A (zh) * | 2023-12-29 | 2024-04-09 | 淮阴工学院 | 一种基于多生产线的vmd分解与生产线优化系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1645476A (zh) * | 2004-01-20 | 2005-07-27 | 微软公司 | 使用切换状态空间模型的多模变分推导的语音识别方法 |
CN106205610A (zh) * | 2016-06-29 | 2016-12-07 | 联想(北京)有限公司 | 一种语音信息识别方法和设备 |
-
2018
- 2018-04-11 CN CN201810320085.XA patent/CN108597540A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1645476A (zh) * | 2004-01-20 | 2005-07-27 | 微软公司 | 使用切换状态空间模型的多模变分推导的语音识别方法 |
CN106205610A (zh) * | 2016-06-29 | 2016-12-07 | 联想(北京)有限公司 | 一种语音信息识别方法和设备 |
Non-Patent Citations (2)
Title |
---|
KONSTANTIN DRAGOMIRETSKIY等: "Variational Mode Decomposition", 《IEEE TRANSACTIONS ON SIGNAL PROCESSING》 * |
屠彬彬等: "基于EMD的改进MFCC的语音情感识别", 《计算机工程与应用》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109443719A (zh) * | 2018-11-01 | 2019-03-08 | 河南理工大学 | 一种钻头振动信号在线虚拟测试方法及其系统 |
CN109616143A (zh) * | 2018-12-13 | 2019-04-12 | 山东省计算中心(国家超级计算济南中心) | 基于变分模态分解和感知哈希的语音端点检测方法 |
CN109767776A (zh) * | 2019-01-14 | 2019-05-17 | 广东技术师范学院 | 一种基于密集神经网络的欺骗语音检测方法 |
CN109767776B (zh) * | 2019-01-14 | 2023-12-15 | 广东技术师范大学 | 一种基于密集神经网络的欺骗语音检测方法 |
CN110827857A (zh) * | 2019-11-28 | 2020-02-21 | 哈尔滨工程大学 | 基于谱特征和elm的语音情感识别方法 |
CN110827857B (zh) * | 2019-11-28 | 2022-04-12 | 哈尔滨工程大学 | 基于谱特征和elm的语音情感识别方法 |
CN110992739A (zh) * | 2019-12-26 | 2020-04-10 | 上海乂学教育科技有限公司 | 学生在线听写系统 |
CN110992739B (zh) * | 2019-12-26 | 2021-06-01 | 上海松鼠课堂人工智能科技有限公司 | 学生在线听写系统 |
CN111341342A (zh) * | 2020-02-11 | 2020-06-26 | 上海应用技术大学 | 基于环境声分离的车载语音提取方法及系统 |
CN112508088A (zh) * | 2020-12-03 | 2021-03-16 | 重庆邮智机器人研究院有限公司 | 一种基于dedbn-elm的脑电情感识别方法 |
CN117850367A (zh) * | 2023-12-29 | 2024-04-09 | 淮阴工学院 | 一种基于多生产线的vmd分解与生产线优化系统 |
CN117850367B (zh) * | 2023-12-29 | 2024-06-21 | 淮阴工学院 | 一种基于多生产线的vmd分解与生产线优化系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108597540A (zh) | 一种基于变分模态分解和极限学习机的语音情感识别方法 | |
CN108597539B (zh) | 基于参数迁移和语谱图的语音情感识别方法 | |
CN108899049A (zh) | 一种基于卷积神经网络的语音情感识别方法及系统 | |
CN106955112A (zh) | 基于量子小波神经网络模型的脑电波情绪认知方法 | |
CN109979436A (zh) | 一种基于频谱自适应法的bp神经网络语音识别系统及方法 | |
CN109065073A (zh) | 基于深度svm网络模型的语音情感识别方法 | |
CN112329819A (zh) | 基于多网络融合的水下目标识别方法 | |
CN115565540B (zh) | 一种侵入式脑机接口汉语发音解码方法 | |
Yang et al. | English speech sound improvement system based on deep learning from signal processing to semantic recognition | |
CN113571095B (zh) | 基于嵌套深度神经网络的语音情感识别方法和系统 | |
Fan et al. | The impact of student learning aids on deep learning and mobile platform on learning behavior | |
Deb et al. | Classification of speech under stress using harmonic peak to energy ratio | |
CN112735478A (zh) | 一种基于加性角惩罚焦点损失的语音情感识别方法 | |
Dehghani et al. | Time-frequency localization using deep convolutional maxout neural network in Persian speech recognition | |
CN113408503B (zh) | 一种情绪识别方法、装置、计算机可读存储介质及设备 | |
CN110164471B (zh) | 基于空中交通管制员陆空通话语音的疲劳监测方法 | |
Shi et al. | Compressive learning of deep regularization for denoising | |
Mishra et al. | Speech emotion classification using feature-level and classifier-level fusion | |
Li et al. | Research on voiceprint recognition technology based on deep neural network | |
Li et al. | MPAF-CNN: Multiperspective aware and fine-grained fusion strategy for speech emotion recognition | |
CN112464711A (zh) | 一种基于mfdc的脑电身份识别方法、存储介质及识别装置 | |
Wang et al. | AudioFormer: Channel Audio Encoder Based on Multi-granularity Features | |
Wang et al. | Speech Emotion Feature Extraction Method Based on Improved MFCC and IMFCC Fusion Features | |
Liao et al. | Music Education Teaching Quality Evaluation System Based on Convolutional Neural Network | |
Lai et al. | Intelligent speech elderly rehabilitation learning assistance system based on deep learning and sensor networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180928 |