CN103258537A - 利用特征结合对语音情感进行识别的方法及其装置 - Google Patents

利用特征结合对语音情感进行识别的方法及其装置 Download PDF

Info

Publication number
CN103258537A
CN103258537A CN2013101999390A CN201310199939A CN103258537A CN 103258537 A CN103258537 A CN 103258537A CN 2013101999390 A CN2013101999390 A CN 2013101999390A CN 201310199939 A CN201310199939 A CN 201310199939A CN 103258537 A CN103258537 A CN 103258537A
Authority
CN
China
Prior art keywords
frame
rightarrow
sigma
energy
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013101999390A
Other languages
English (en)
Inventor
张庆莉
王坤侠
安宁
李廉
Original Assignee
安宁
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 安宁 filed Critical 安宁
Priority to CN2013101999390A priority Critical patent/CN103258537A/zh
Publication of CN103258537A publication Critical patent/CN103258537A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明公开了一种利用特征结合对语音情感进行识别的方法及其装置。该方法基于高斯混合模型结合美尔频率倒谱系数和自相关函数系数,对语音情感进行识别,其包括以下步骤:一、构建和学习高斯混合模型;二、选择和提取语音特征得到美尔频率倒谱系数和自相关函数系数;三、将美尔频率倒谱系数和自相关函数系数相互结合,组成特征矩阵,在高斯混合模型的基础上对柏林语料库的语音进行情感识别。美尔频率倒谱系数的提取过程包括预加重、分帧、计算短时能量、加窗、快速福利叶变换、三角带通滤波器。该方法对六种语音情感进行识别,准确率达到74.45%。本发明还涉及与该方法配套的装置。

Description

利用特征结合对语音情感进行识别的方法及其装置
技术领域
本发明涉及一种对语音情感进行识别的方法及对语音情感进行识别的装置,尤其涉及一种利用特征结合对语音情感进行识别的方法及利用特征结合对语音情感进行识别的装置。 
背景技术
近年来,语音情感识别技术越来越受到学者们的关注。说话人情感的识别可以在很多领域帮助人们,例如在学习方面、情感健康方面,以及其他的一些行为方面。在学习方面,研究者可以通过识别学生的情感来提高电脑辅助学习的质量;在情感健康方面,可以识别语音情感的机器宠物已经投放到市场中,这些机器宠物可以很自然地跟人们进行交流,增加人们对它的喜爱程度,帮助人们排解情感困惑,尤其是对独居老人的帮助是最显著的。 
在此之前也有学者对这一方面有所研究,Atassi, Esposito 和 Smekal 识别柏林语音库中的六种情感,准确率达到80%,但是他们的方法是非常多的特征结合在一起,虽然这种方法准确率高,但是花费的时间比较多。还有研究者利用七种语音特征对柏林语料库的三种不同情感进行识别,准确率达到95.1%,利用这种方法识别的情感,虽然准确率非常高,但是识别的情感种类相对较少。 
综上所述,在现有的语音情感识别计算方面的研究中,主要存在的缺点有如下几点:一是利用非常多的语音特征对语音情感识别,多维的特征组合成的多维矩阵在计算过程中非常复杂,时间消耗也是相对较长的,虽然准确率可能会很高,但是花费的时间太多也是必须要面对的问题;二是利用几个语音特征相结合的方法,识别相对较少的语音情感,这种方法的准确率可能也是不低的,但是识别的情感种类太少,在现实中没有太大的应用价值。 
发明内容
本发明结合现有的技术存在的缺点,提出了一种利用特征结合对语音情感进行识别的方法及其装置,本发明用高斯混合模型结合美尔频率倒谱系数和自相关函数系数的方法,对六种语音情感进行识别,准确率达到74.45%,本发明基本解决了上述两种问题。 
本发明是这样实现的,一种利用特征结合对语音情感进行识别的方法,其基于高斯混合模型结合美尔频率倒谱系数和自相关函数系数,对语音情感进行识别;该方法包括以下步骤: 
一、构建和学习高斯混合模型,高斯混合模型满足公式(1): p ( x → | λ ) = Σ i = 1 M ω i b i ( x → ) - - - ( 1 )  ;其中,
Figure DEST_PATH_GDA0000340845392
 是D维随机向量;ωi,i=1……M是混合权重;
Figure DEST_PATH_GDA0000340845393
 是单一高斯密度的组合密度,满足公式(2): b i ( x → ) = 1 ( 2 π ) D / 2 | Σ i | 1 / 2 exp { - 1 2 ( x → - μ i → ) ′ Σ i - 1 ( x → - μ i → ) - - - ( 2 )  ;其中,
Figure DEST_PATH_GDA0000340845395
 是平均值;Σi是协方差矩阵;λ是对参数平均值、协方差矩阵以及权重的总体表达形式,满足公式(3): λ = { ω i , μ i → , Σ i } i = 1 , . . . . . . , M - - - ( 3 )  ; 
二、选择和提取语音特征: 
a)美尔频率倒谱系数的提取过程: 
1.预加重(pre-emphasis):将经采样后的数字语音信号s(n)通过一个高通滤波器,经过预加重后的信号为s'(n)=s(n)-a×s(n-1),进行预加重的目的是为了消除声带和嘴唇的效应,来补偿语音信号的高频部分; 
2.分帧(frame blocking):取10-20ms为一帧,取帧长的一半作为帧移,每次位移一帧的二分之一后再取下一帧; 
3.计算短时能量(energy):短时能量代表音量的高低,亦即声音振幅的大 小,根据此能量的值来过滤掉语音信号中的噪声而形成静音段(silence); 
4.加窗(hamming window):将每一帧代入窗函数,窗外的值设定为0,其目的是消除各个帧两端可能会造成的信号不连续; 
5.快速福利叶变换(FFT transform):将加窗后的帧经过FFT(Fast Fourier Transform)求出每帧的频谱参数; 
6.三角带通滤波器(triangular band-pass filter):将每帧的频谱参数通过一组N个三角形带通滤波器所组成的美尔刻度滤波器,将每个频带的输出取对数,求出每一个输出的对数能量(log energy),k=1,2…N;再将此N个参数进行余弦变换(cosine transform)求出L阶的Mel-scale cepstrum参数; 
b)自相关函数(ACF)的提取过程: 
定义自相关函数满足公式(3)为: P ( k ) = lim N → ∞ 1 2 N + 1 Σ - ∞ ∞ x ( m ) x ( m + k ) - - - ( 3 )  ;其中,P(k)表示将语音信号延迟后与语音信号本身的相似性,k是自相关的延迟时间; 
三、将美尔频率倒谱系数和自相关函数系数相互结合,组成特征矩阵,在高斯混合模型的基础上对柏林语料库的语音进行情感识别。 
作为上述方案的进一步改进,当一帧的能量值低于预定的门槛值(threshold)时,则将此帧作为静音段。 
作为上述方案的进一步改进,N为20~30个。 
本发明还涉及一种利用特征结合对语音情感进行识别的装置,其基于高斯混合模型结合美尔频率倒谱系数和自相关函数系数,对语音情感进行识别;该装置包括: 
一、构建和学习高斯混合模型模块,其高斯混合模型满足公式(1):  p ( x → | λ ) = Σ i = 1 M ω i b i ( x → ) - - - ( 1 ) ;其中,
Figure DEST_PATH_GDA0000340845399
 是D维随机向量;ωi,i=1……M是混合权重;
Figure DEST_PATH_GDA00003408453910
 是单一高斯密度的组合密 度,满足公式(2): b i ( x → ) = 1 ( 2 π ) D / 2 | Σ i | 1 / 2 exp { - 1 2 ( x → - μ i → ) ′ Σ i - 1 ( x → - μ i → ) - - - ( 2 )  ;其中, 是平均值;Σi是协方差矩阵;λ是对参数平均值、协方差矩阵以及权重的总体表达形式,满足公式(3): λ = { ω i , μ i → , Σ i } i = 1 , . . . . . . , M - - - ( 3 )  ; 
二、选择和提取语音特征模块,其包括: 
a)美尔频率倒谱系数的提取模块,其包括: 
1.预加重子模块:将经采样后的数字语音信号s(n)通过一个高通滤波器,经过预加重后的信号为s'(n)=s(n)-a×s(n-1),进行预加重的目的是为了消除声带和嘴唇的效应,来补偿语音信号的高频部分; 
2.分帧子模块:取10-20ms为一帧,取帧长的一半作为帧移,每次位移一帧的二分之一后再取下一帧; 
3.计算短时能量子模块:短时能量代表音量的高低,亦即声音振幅的大小,根据此能量的值来过滤掉语音信号中的噪声而形成静音段; 
4.加窗子模块:将每一帧代入窗函数,窗外的值设定为0,其目的是消除各个帧两端可能会造成的信号不连续; 
5.快速福利叶变换子模块:将加窗后的帧经过FFT求出每帧的频谱参数;以及 
6.三角带通滤波子模块:将每帧的频谱参数通过一组N个三角形带通滤波器所组成的美尔刻度滤波器,将每个频带的输出取对数,求出每一个输出的对数能量,k=1,2…N;再将此N个参数进行余弦变换求出L阶的Mel-scale cepstrum参数;以及 
b)自相关函数(ACF)的提取模块:其定义自相关函数满足公式(3)为: P ( k ) = lim N → ∞ 1 2 N + 1 Σ - ∞ ∞ x ( m ) x ( m + k ) - - - ( 3 )  ;其中,P(k)表示将语音信号延迟后与语音信号本身的相似性,k是自相关的延迟时间;以及 
三、结合模块,其用于将美尔频率倒谱系数和自相关函数系数相互结合,组成特征矩阵,在高斯混合模型的基础上对柏林语料库的语音进行情感识别。 
作为上述方案的进一步改进,当一帧的能量值低于预定的门槛值(threshold)时,则将此帧作为静音段。 
作为上述方案的进一步改进,N为20~30个。 
本发明对柏林语音库的六种情感(anger、disgust、fear、happy、neutral、sad)进行识别,使用美尔频率倒谱系数(MFCC)和自相关函数系数(ACFC)两种方法相结合,在高斯混合模型(GMM)的基础上进行实验。本方法只用到两种语音特征对语音情感进行识别,但是准确率可以达到74.24%。这种方法与其他的用多种语音特征识别语音情感的方法相比较,虽然准确率有所提高,但是时间复杂度和空间复杂度都太高。本发明是在较小的时间复杂度和空间复杂度下,得到相对较好的识别结果。 
附图说明
图1为通过语音随机得到的一组数据值,呈现为数据直方图(Data histogram),其中,纵坐标是各个值的数据总个数(Counts),横坐标为数据值(Data values)。 
图2为用高斯混合模型(Gaussian mixture model)对这组数据进行拟合的过程图,其中,纵坐标为实际的值落在预测区间的概率(Prob),横坐标为数据值(Data values)。 
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。 
本发明主要有两方面的内容:一是用高斯混合模型(GMM)结合两种语音 特征(美尔频率倒谱系数 MFCC和自相关函数系数 ACFC),对柏林语音库的六种情感(anger、disgust、fear、happy、neutral、sad)进行识别,本方法最高准确识别率是74.45%;二是利用同样的方法,对同一个语音库的另外六种语音情感的组合进行识别,发现本发明的方法具有很好的稳定性,两次实验的准确率相差不超过2%。 
本发明的利用特征结合对语音情感进行识别的方法装置,其基于高斯混合模型结合美尔频率倒谱系数和自相关函数系数,对语音情感进行识别。该装置包括构建和学习高斯混合模型模块、选择和提取语音特征模块、以及结合模块。 
构建和学习高斯混合模型模块,其高斯混合模型满足公式(1): p ( x → | λ ) = Σ i = 1 M ω i b i ( x → ) - - - ( 1 )  。其中,
Figure DEST_PATH_GDA00003408453916
 是D维随机向量;ωi,i=1……M是混合权重; 是单一高斯密度的组合密度,满足公式(2): b i ( x → ) = 1 ( 2 π ) D / 2 | Σ i | 1 / 2 exp { - 1 2 ( x → - μ i → ) ′ Σ i - 1 ( x → - μ i → ) - - - ( 2 )  ;其中, 是平均值;Σi是协方差矩阵;λ是对参数平均值、协方差矩阵以及权重的总体表达形式,满足公式(3): λ = { ω i , μ i → , Σ i } i = 1 , . . . . . . , M - - - ( 3 )  。 
选择和提取语音特征模块包括美尔频率倒谱系数的提取模块、以及自相关函数(ACF)的提取模块。美尔频率倒谱系数的提取模块包括预加重子模块、分帧子模块、计算短时能量子模块、加窗子模块、快速福利叶变换子模块、以及三角带通滤波子模块。 
预加重子模块:将经采样后的数字语音信号s(n)通过一个高通滤波器,经过预加重后的信号为s'(n)=s(n)-a×s(n-1),进行预加重的目的是为了消除声带和嘴唇的效应,来补偿语音信号的高频部分。 
2.分帧子模块:取10-20ms为一帧,取帧长的一半作为帧移,每次位移一 帧的二分之一后再取下一帧。 
3.计算短时能量子模块:短时能量代表音量的高低,亦即声音振幅的大小,根据此能量的值来过滤掉语音信号中的噪声而形成静音段。 
4.加窗子模块:将每一帧代入窗函数,窗外的值设定为0,其目的是消除各个帧两端可能会造成的信号不连续。 
5.快速福利叶变换子模块:将加窗后的帧经过FFT求出每帧的频谱参数。 
6.三角带通滤波子模块:将每帧的频谱参数通过一组N个三角形带通滤波器所组成的美尔刻度滤波器,将每个频带的输出取对数,求出每一个输出的对数能量,k=1,2…N;再将此N个参数进行余弦变换求出L阶的Mel-scale cepstrum参数。 
自相关函数(ACF)的提取模块:其定义自相关函数满足公式(3)为: P ( k ) = lim N → ∞ 1 2 N + 1 Σ - ∞ ∞ x ( m ) x ( m + k ) - - - ( 3 )  。其中,P(k)表示将语音信号延迟后与语音信号本身的相似性,k是自相关的延迟时间。 
结合模块用于将美尔频率倒谱系数和自相关函数系数相互结合,组成特征矩阵,在高斯混合模型的基础上对柏林语料库的语音进行情感识别。 
下面针对利用特征结合对语音情感进行识别的装置的识别方法进行展开描述。 
利用特征结合对语音情感进行识别的方法是基于高斯混合模型结合美尔频率倒谱系数和自相关函数系数,对语音情感进行识别的方法,其包括: 
(1)构建和学习高斯混合模型,高斯混合模型可表示为: 
p ( x → | λ ) = Σ i = 1 M ω i b i ( x → ) - - - ( 1 ) 。 
其中,
Figure DEST_PATH_GDA00003408453923
 是D维随机向量,ωi,i=1……M 是混合权重,
Figure DEST_PATH_GDA00003408453924
  是单一高斯密度的组合密度,具体可表示为: 
b i ( x → ) = 1 ( 2 π ) D / 2 | Σ i | 1 / 2 exp { - 1 2 ( x → - μ i → ) ′ Σ i - 1 ( x → - μ i → ) - - - ( 2 ) 。 
其中,
Figure DEST_PATH_GDA00003408453926
  是平均值,Σi 是协方差矩阵;λ是对参数平均值、协方差矩阵以及权重的总体表达形式: 
λ = { ω i , μ i → , Σ i } i = 1 , . . . . . . , M - - - ( 3 ) 。 
如图1及图2所示的图形形象的解释了高斯混合模型的工作过程:图1的柱状图表示的是随机得到的一组数据值(Data values),图2的折线图形是用高斯混合模型(Gaussian mixture model)对这组数据进行拟合的过程,折线图的实线部分是最终得到的拟合结果,可以看出拟合的效果与原始的图形是比较接近的。混合的高斯模型可以更好地描述实际数据的性质。 
(2)选择和提取语音特征:在语音情感识别中,语音特征的选择具有非常重要的地位,因为没有人可以确定哪个特征能够准确的识别语音的情感。在本专利中选择了两种语音特征,分别是美尔频率倒谱系数和自相关函数。选择美尔频率倒谱系数的原因是,美尔频率是根据人类听觉的特点提出来的,它的系数考虑了人耳在不同频率下的听觉感应,现有的国内外论文也显示,美尔频率在语音情感识别方面具有明显的优异性。 
下面是美尔频率倒谱系数的提取过程: 
a)预加重(pre-emphasis):将经采样后的数字语音信号s(n)通过一个高通滤波器,经过预加重后的信号为s'(n)=s(n)-a×s(n-1),进行预加重的目的是为了消除声带和嘴唇的效应,来补偿语音信号的高频部分。 
b)分帧(frame blocking):一般取10-20ms为一帧,为了避免窗边界对信号的遗漏,因此对帧做偏移的时候,要有帧迭。一般取帧长的一半作为帧移,也就是每次位移一帧的二分之一后再取下一帧,这样可以避免帧与帧之间的特性变化太大。 
c)计算短时能量(energy):短时能量代表音量的高低,亦即声音振幅的大 小,可以根据此能量的值来过滤掉语音信号中的一些细微噪声,当一帧的能量值低于我们定的门槛值(threshold)时,则将此帧作为静音段(silence)。 
d)加窗(hamming window):语音在长范围内是不停变动的,没有固定的特性无法做处理,所以将每一帧代入窗函数,窗外的值设定为0,其目的是消除各个帧两端可能会造成的信号不连续。 
e)快速福利叶变换(FFT transform):语音信号在时域上的变化快速而不稳定,所以通常都将它转换到频域上来观察,此时它的频谱会随着时间作缓慢的变化。所以通常将加窗后的帧经过FFT(Fast Fourier Transform)求出每帧的频谱参数。 
f)三角带通滤波器(triangular band-pass filter):将每帧的频谱参数通过一组N个三角形带通滤波器(N一般为20~30个)所组成的美尔刻度滤波器,将每个频带的输出取对数,求出每一个输出的对数能量(log energy),k=1,2…,N。再将此N个参数进行余弦变换(cosine transform)求出L阶的Mel-scale cepstrum参数。 
自相关函数(ACF)的定义公式为
Figure DEST_PATH_GDA00003408453928
 ,其中P(k)表示将信号延迟后与它本身的相似性,k是自相关的延迟时间。 
自相关函数具有如下性质。 
1、自相关函数具有周期保持性,如果x(n)是周期信号,则其自相关函数也具有周期性,且两者的周期相同。自相关函数提供了估计信号周期值的一种方法。 
2、信号延迟后自相关函数保持不变,即信号x(n)的自相关函数与它的延迟信号的自相关函数完全相同。 
3、白噪声的自相关函数具有原点集中性。自相关函数用于基音周期检测时具有一定的抗噪性。 
(3)将美尔频率倒谱系数和自相关函数系数相互结合,组成特征矩阵,在高斯混合模型的基础上对柏林语料库的语音进行情感识别。在实验的过程中分 别取美尔频率倒谱系数以及美尔频率倒谱系数的一阶方差和二阶方差与自相关函数相结合。实验结果表明,取美尔频率倒谱系数、美尔频率倒谱系数的一阶方差、美尔频率倒谱系数的二阶方差、自相关函数系数组成的特征矩阵,对情感识别的准确率最高。 
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。 

Claims (6)

1.一种利用特征结合对语音情感进行识别的方法,其基于高斯混合模型结合美尔频率倒谱系数和自相关函数系数,对语音情感进行识别;其特征在于:该方法包括以下步骤:
一、构建和学习高斯混合模型,高斯混合模型满足公式(1): p ( x → | λ ) = Σ i = 1 M ω i b i ( x → ) - - - ( 1 ) ;其中,是D维随机向量;ωi,i=1……M是混合权重;是单一高斯密度的组合密度,满足公式(2): b i ( x → ) = 1 ( 2 π ) D / 2 | Σ i | 1 / 2 exp { - 1 2 ( x → - μ i → ) ′ Σ i - 1 ( x → - μ i → ) } - - - ( 2 ) ;其中,
Figure FDA0000324409795
是平均值;Σi是协方差矩阵;λ是对参数平均值、协方差矩阵以及权重的总体表达形式,满足公式(3): λ = { ω i , μ i → , Σ i } i = 1 , . . . . . . , M - - - ( 3 )
二、选择和提取语音特征:
a)美尔频率倒谱系数的提取过程:
1.预加重(pre-emphasis):将经采样后的数字语音信号s(n)通过一个高通滤波器,经过预加重后的信号为s'(n)=s(n)-a×s(n-1),进行预加重的目的是为了消除声带和嘴唇的效应,来补偿语音信号的高频部分;
2.分帧(frame blocking):取10-20ms为一帧,取帧长的一半作为帧移,每次位移一帧的二分之一后再取下一帧;
3.计算短时能量(energy):短时能量代表音量的高低,亦即声音振幅的大小,根据此能量的值来过滤掉语音信号中的噪声而形成静音段(silence);
4.加窗(hamming window):将每一帧代入窗函数,窗外的值设定为0,其目的是消除各个帧两端可能会造成的信号不连续;
5.快速福利叶变换(FFT transform):将加窗后的帧经过FFT(Fast Fourier Transform)求出每帧的频谱参数;
6.三角带通滤波器(triangular band-pass filter):将每帧的频谱参数通过一组N个三角形带通滤波器所组成的美尔刻度滤波器,将每个频带的输出取对数,求出每一个输出的对数能量(log energy),k=1,2…N;再将此N个参数进行余弦变换(cosine transform)求出L阶的Mel-scale cepstrum参数;
b)自相关函数(ACF)的提取过程:
定义自相关函数满足公式(3)为: P ( k ) = lim N → ∞ 1 2 N + 1 Σ - ∞ ∞ x ( m ) x ( m + k ) - - - ( 3 ) ;其中,P(k)表示将语音信号延迟后与语音信号本身的相似性,k是自相关的延迟时间;
三、将美尔频率倒谱系数和自相关函数系数相互结合,组成特征矩阵,在高斯混合模型的基础上对柏林语料库的语音进行情感识别。
2.根据权利要求1所述的利用特征结合对语音情感进行识别的方法,其特征在于:当一帧的能量值低于预定的门槛值(threshold)时,则将此帧作为静音段。
3.根据权利要求1所述的利用特征结合对语音情感进行识别的方法,其特征在于:N为20~30个。
4.一种利用特征结合对语音情感进行识别的装置,其基于高斯混合模型结合美尔频率倒谱系数和自相关函数系数,对语音情感进行识别;其特征在于:该装置包括:
一、构建和学习高斯混合模型模块,其高斯混合模型满足公式(1): p ( x → | λ ) = Σ i = 1 M ω i b i ( x → ) - - - ( 1 ) ;其中,
Figure FDA0000324409799
是D维随机向量;ωi,i=1……M是混合权重;
Figure FDA00003244097910
是单一高斯密度的组合密度,满足公式(2): b i ( x → ) = 1 ( 2 π ) D / 2 | Σ i | 1 / 2 exp { - 1 2 ( x → - μ i → ) ′ Σ i - 1 ( x → - μ i → ) } - - - ( 2 ) ;其中,
Figure FDA00003244097912
是平均值;Σi是协方差矩阵;λ是对参数平均值、协方差矩阵以及权重的总体表达形式,满足公式(3): λ = { ω i , μ i → , Σ i } i = 1 , . . . . . . , M - - - ( 3 )
二、选择和提取语音特征模块,其包括:
a)美尔频率倒谱系数的提取模块,其包括:
1.预加重子模块:将经采样后的数字语音信号s(n)通过一个高通滤波器,经过预加重后的信号为s'(n)=s(n)-a×s(n-1),进行预加重的目的是为了消除声带和嘴唇的效应,来补偿语音信号的高频部分;
2.分帧子模块:取10-20ms为一帧,取帧长的一半作为帧移,每次位移一帧的二分之一后再取下一帧;
3.计算短时能量子模块:短时能量代表音量的高低,亦即声音振幅的大小,根据此能量的值来过滤掉语音信号中的噪声而形成静音段;
4.加窗子模块:将每一帧代入窗函数,窗外的值设定为0,其目的是消除各个帧两端可能会造成的信号不连续;
5.快速福利叶变换子模块:将加窗后的帧经过FFT求出每帧的频谱参数;以及
6.三角带通滤波子模块:将每帧的频谱参数通过一组N个三角形带通滤波器所组成的美尔刻度滤波器,将每个频带的输出取对数,求出每一个输出的对数能量,k=1,2…N;再将此N个参数进行余弦变换求出L阶的Mel-scale cepstrum参数;以及
b)自相关函数(ACF)的提取模块:其定义自相关函数满足公式(3)为: P ( k ) = lim N → ∞ 1 2 N + 1 Σ - ∞ ∞ x ( m ) x ( m + k ) - - - ( 3 ) ;其中,P(k)表示将语音信号延迟后与语音信号本身的相似性,k是自相关的延迟时间;以及
三、结合模块,其用于将美尔频率倒谱系数和自相关函数系数相互结合,组成特征矩阵,在高斯混合模型的基础上对柏林语料库的语音进行情感识别。
5.根据权利要求4所述的利用特征结合对语音情感进行识别的装置,其特征在于:当一帧的能量值低于预定的门槛值(threshold)时,则将此帧作为静音段。
6.根据权利要求4所述的利用特征结合对语音情感进行识别的装置,其特征在于:N为20~30个。
CN2013101999390A 2013-05-24 2013-05-24 利用特征结合对语音情感进行识别的方法及其装置 Pending CN103258537A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013101999390A CN103258537A (zh) 2013-05-24 2013-05-24 利用特征结合对语音情感进行识别的方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013101999390A CN103258537A (zh) 2013-05-24 2013-05-24 利用特征结合对语音情感进行识别的方法及其装置

Publications (1)

Publication Number Publication Date
CN103258537A true CN103258537A (zh) 2013-08-21

Family

ID=48962411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013101999390A Pending CN103258537A (zh) 2013-05-24 2013-05-24 利用特征结合对语音情感进行识别的方法及其装置

Country Status (1)

Country Link
CN (1) CN103258537A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106209491A (zh) * 2016-06-16 2016-12-07 苏州科达科技股份有限公司 一种时延检测方法及装置
CN106971724A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种防干扰声纹识别方法和系统
CN107895582A (zh) * 2017-10-16 2018-04-10 中国电子科技集团公司第二十八研究所 面向多源信息领域的说话人自适应语音情感识别方法
CN108091323A (zh) * 2017-12-19 2018-05-29 想象科技(北京)有限公司 用于自语音中识别情感的方法与装置
CN108154879A (zh) * 2017-12-26 2018-06-12 广西师范大学 一种基于倒谱分离信号的非特定人语音情感识别方法
WO2019119279A1 (en) * 2017-12-19 2019-06-27 Wonder Group Technologies Ltd. Method and apparatus for emotion recognition from speech
CN112863466A (zh) * 2021-01-07 2021-05-28 广州欢城文化传媒有限公司 一种音频社交变声方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101178897A (zh) * 2007-12-05 2008-05-14 浙江大学 利用基频包络剔除情感语音的说话人识别方法
CN101930735A (zh) * 2009-06-23 2010-12-29 富士通株式会社 语音情感识别设备和进行语音情感识别的方法
CN102142253A (zh) * 2010-01-29 2011-08-03 富士通株式会社 语音情感识别设备及方法
CN102201237A (zh) * 2011-05-12 2011-09-28 浙江大学 基于模糊支持向量机的可靠性检测的情感说话人识别方法
CN102737629A (zh) * 2011-11-11 2012-10-17 东南大学 一种嵌入式语音情感识别方法及装置
CN102779510A (zh) * 2012-07-19 2012-11-14 东南大学 基于特征空间自适应投影的语音情感识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101178897A (zh) * 2007-12-05 2008-05-14 浙江大学 利用基频包络剔除情感语音的说话人识别方法
CN101930735A (zh) * 2009-06-23 2010-12-29 富士通株式会社 语音情感识别设备和进行语音情感识别的方法
CN102142253A (zh) * 2010-01-29 2011-08-03 富士通株式会社 语音情感识别设备及方法
CN102201237A (zh) * 2011-05-12 2011-09-28 浙江大学 基于模糊支持向量机的可靠性检测的情感说话人识别方法
CN102737629A (zh) * 2011-11-11 2012-10-17 东南大学 一种嵌入式语音情感识别方法及装置
CN102779510A (zh) * 2012-07-19 2012-11-14 东南大学 基于特征空间自适应投影的语音情感识别方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106971724A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种防干扰声纹识别方法和系统
CN106209491A (zh) * 2016-06-16 2016-12-07 苏州科达科技股份有限公司 一种时延检测方法及装置
CN106209491B (zh) * 2016-06-16 2019-07-02 苏州科达科技股份有限公司 一种时延检测方法及装置
CN107895582A (zh) * 2017-10-16 2018-04-10 中国电子科技集团公司第二十八研究所 面向多源信息领域的说话人自适应语音情感识别方法
CN108091323A (zh) * 2017-12-19 2018-05-29 想象科技(北京)有限公司 用于自语音中识别情感的方法与装置
WO2019119279A1 (en) * 2017-12-19 2019-06-27 Wonder Group Technologies Ltd. Method and apparatus for emotion recognition from speech
CN108091323B (zh) * 2017-12-19 2020-10-13 想象科技(北京)有限公司 用于自语音中识别情感的方法与装置
CN108154879A (zh) * 2017-12-26 2018-06-12 广西师范大学 一种基于倒谱分离信号的非特定人语音情感识别方法
CN108154879B (zh) * 2017-12-26 2021-04-09 广西师范大学 一种基于倒谱分离信号的非特定人语音情感识别方法
CN112863466A (zh) * 2021-01-07 2021-05-28 广州欢城文化传媒有限公司 一种音频社交变声方法及装置
CN112863466B (zh) * 2021-01-07 2024-05-31 广州欢城文化传媒有限公司 一种音频社交变声方法及装置

Similar Documents

Publication Publication Date Title
CN102968986B (zh) 基于长时特征和短时特征的重叠语音与单人语音区分方法
CN102483916B (zh) 声音特征量提取装置和声音特征量提取方法
Lee et al. Automatic recognition of animal vocalizations using averaged MFCC and linear discriminant analysis
CN103258537A (zh) 利用特征结合对语音情感进行识别的方法及其装置
CN108922541B (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN103117059B (zh) 一种基于张量分解的语音信号特征提取方法
CN101226743A (zh) 基于中性和情感声纹模型转换的说话人识别方法
Shaw et al. Emotion recognition and classification in speech using artificial neural networks
CN103456302B (zh) 一种基于情感gmm模型权重合成的情感说话人识别方法
CN102664010B (zh) 一种基于多因素频率位移不变特征的鲁棒说话人辨别方法
CN104123933A (zh) 基于自适应非平行训练的语音转换方法
CN103559879A (zh) 语种识别系统中声学特征提取方法及装置
US20080167862A1 (en) Pitch Dependent Speech Recognition Engine
CN104123934A (zh) 一种构音识别方法及其系统
CN109584904B (zh) 应用于基础音乐视唱教育的视唱音频唱名识别建模方法
CN109065073A (zh) 基于深度svm网络模型的语音情感识别方法
Chauhan et al. Speech to text converter using Gaussian Mixture Model (GMM)
CN106373559A (zh) 一种基于对数谱信噪比加权的鲁棒特征提取方法
Nidhyananthan et al. Language and text-independent speaker identification system using GMM
Bagul et al. Text independent speaker recognition system using GMM
Kumar et al. Gender classification using pitch and formants
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
CN104240699A (zh) 一种简单有效的短语语音识别方法
Islam et al. A Novel Approach for Text-Independent Speaker Identification Using Artificial Neural Network
Bansod et al. Speaker Recognition using Marathi (Varhadi) Language

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20130821