CN103295573A - 基于费舍比率最优小波包分解的语音情感特征提取方法 - Google Patents

基于费舍比率最优小波包分解的语音情感特征提取方法 Download PDF

Info

Publication number
CN103295573A
CN103295573A CN2013101683970A CN201310168397A CN103295573A CN 103295573 A CN103295573 A CN 103295573A CN 2013101683970 A CN2013101683970 A CN 2013101683970A CN 201310168397 A CN201310168397 A CN 201310168397A CN 103295573 A CN103295573 A CN 103295573A
Authority
CN
China
Prior art keywords
wavelet packet
frame
prime
wavelet
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013101683970A
Other languages
English (en)
Other versions
CN103295573B (zh
Inventor
李悦
章国宝
黄永明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201310168397.0A priority Critical patent/CN103295573B/zh
Publication of CN103295573A publication Critical patent/CN103295573A/zh
Application granted granted Critical
Publication of CN103295573B publication Critical patent/CN103295573B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及一种基于费舍比率最优小波包分解的语音情感特征提取方法。所述方法包括面向情感分类问题的准则函数定义方法,最优小波包基构造方法,以及语音情感特征提取方法。该方法定义针对情感分类问题的费舍比率准则函数用于最优小波包基的构造,在对语音信号进行最优小波包分解的基础上提取语音情感特征。本发明通过构建针对情感分类问题的小波包基对语音信号进行分析和特征提取,降低了说话人身份、语音内容等无关信息对情感识别准确度的影响,同时具有较低的计算复杂度。

Description

基于费舍比率最优小波包分解的语音情感特征提取方法
技术领域
本发明专利涉及一种语音情感特征提取方法,尤其涉及一种基于费舍比率最优小波包分解的语音情感特征提取方法,属于语音情感识别技术领域。
背景技术
随着信息技术的快速发展和各种智能终端的兴起,现有的人机交互系统正面临日益严峻的考验。为了克服人机交互的障碍,使人机交互更为方便、自然,机器的情感智能正日益受到各领域研究者的重视。语音作为现今人机交互中极具发展潜力的高效交互媒介,携带着丰富的情感信息。语音情感识别作为情感智能的重要研究课题,在远程教学、辅助测谎、自动远程电话服务中心以及临床医学,智能玩具,智能手机等方面有着广阔的应用前景,吸引了越来越多研究机构与研究学者的广泛关注。
为了提高语音情感识别的精度和鲁棒性,提取充分反映说话人情感状态的语音情感特征至关重要。从原始语音数据中提取有效的情感信息,剔除情感无关的说话人身份信息、说话内容信息等冗余信息是提高语音情感识别系统鲁棒性的重点和难点。
作为一种新兴的信号时频分析技术,小波包分析因其在数字信号处理中的灵活性和有效性,越来越得到研究者的广泛重视。对于分类问题,建立反映类别可分性的准则函数用于构建最优小波包基,对信号进行相应的最优小波包分解,并保留最具类别区分性的信号分量,剔除冗余信息,是提高分类准确度的重要途径。这种基于分类能力的有监督的特征提取思想和方法在语音情感识别研究中具有重要的意义。
发明内容
本发明解决的问题是:为提高语音情感识别的精度和鲁棒性,结合以上背景和需求,本发明提供一种基于费舍比率最优小波包分解的语音情感特征提取方法。这种语音情感特征提取方法能够利用小波包分解的灵活性,以反映情感分类能力的费舍比率为准则构建最优小波包基,并提取具有情感区分性的特征参数,作为语音情感特征。
本发明的技术解决方案是:
一种基于费舍比率最优小波包分解的语音情感特征提取方法,包括以下步骤:
步骤1:接收情感语音片段输入;
步骤2:将情感语音片段数字化以提供数字语音信号X;
步骤3:对数字语音信号X进行预处理,得到有效语音帧集合;
步骤4:构造费舍比率最优小波包基;
步骤5:利用步骤4构造的费舍比率最优小波包基对有效语音帧进行小波包分解,得到各有效语音帧的小波包系数;
步骤6:利用步骤5得到的有效语音帧小波包系数计算各有效语音帧的情感特征。
本发明的有益效果包括:
(1)本发明利用了小波包分解方式的多样性,采用反映情感类别区分能力的费舍比率作为选取最优小波包基的准则函数,构建了费舍比率准则下的最优小波包基,用于语音信号的分析;
(2)本发明根据费舍比率与情感类别区分能力的相关性,将费舍比值高的最优小波包树叶节点上的小波包系数用于语音情感特征提取,剔除原始语音信号中与情感类别相关性较弱的冗余信息,有助于提高语音情感识别的鲁棒性;
(3)本发明建立了一种反映类别区分能力的费舍比率准则函数用于最优小波包基的构造,该准则函数具有可加性,从而保证了自底至顶的快速算法可以用于最优小波包基的构造,有效降低了最优小波包基构造和语音情感特征提取的计算复杂度。
附图说明
图1为本发明的语音情感特征提取流程图;
图2为费舍比率最优小波包基构造流程图。
具体实施方式
一种基于费舍比率最优小波包分解的语音情感特征提取方法,包括以下步骤:
步骤1:接收情感语音片段输入;
步骤2:将情感语音片段数字化以提供数字语音信号X;
步骤3:对数字语音信号X进行预处理,得到有效语音帧集合;
步骤4:构造费舍比率最优小波包基;
步骤5:利用步骤4构造的费舍比率最优小波包基对有效语音帧进行小波包分解,得到各有效语音帧的小波包系数;
步骤6:利用步骤5得到的有效语音帧小波包系数计算各有效语音帧的情感特征。
步骤3中所述的预处理包括如下步骤:
步骤3.1:对数字语音信号X按下式进行预加重,得到预加重后的语音信号
Figure BDA00003145012400031
X ‾ ( n ‾ ) = X ( n ‾ ) - 0.9375 X ( n ‾ - 1 ) , 0 ≤ n ‾ ≤ N ‾ - 1 - - - ( 1 )
其中
Figure BDA00003145012400033
表示数字语音信号X的离散点序号,
Figure BDA00003145012400034
为数字语音信号X的长度,
Figure BDA00003145012400035
Figure BDA00003145012400036
分别表示数字语音信号X在第
Figure BDA00003145012400037
Figure BDA00003145012400038
个离散点上的值,
Figure BDA00003145012400039
表示预加重后的语音信号在第
Figure BDA000031450124000311
个离散点上的值,X(-1)=0;
步骤3.2:采用交叠分段的方法对预加重后的语音信号进行分帧,前一帧起点与后一帧起点的距离称为帧移,此处帧移取8ms,即在采样率Fs=16kHz下取128点,每一帧长取16ms,即取256点,
Figure BDA000031450124000313
经过分帧得到语音帧集合
x ‾ k ′ ( n ) = X ‾ ( n + 128 ( k ′ - 1 ) ) 0 ≤ n ≤ 255,1 ≤ k ′ ≤ K ′ - - - ( 2 )
其中
Figure BDA000031450124000316
为语音帧集合中的第k'个语音帧,n表示语音帧离散点序号,k'为语音帧序号,K'为语音帧总帧数,且满足:
Figure BDA000031450124000317
Figure BDA00003145012400041
表示
Figure BDA00003145012400042
向下取整;
步骤3.3:对各语音帧
Figure BDA00003145012400043
1≤k'≤K',选择窗口长度为256点的汉明窗w进行加窗处理,得到加窗语音帧xk',加窗语音帧xk'为:
x k ′ ( n ) = x ‾ k ′ ( n ) w ( n ) , 0 ≤ n ≤ 255,1 ≤ k ′ ≤ K ′ - - - ( 4 )
其中xk'(n)、
Figure BDA00003145012400045
w(n)分别表示xk'
Figure BDA00003145012400046
w在第n个离散点上的值,窗口长度为256点的汉明窗函数为:
w ( n ) = 0.54 - 0.46 cos ( 2 πn 255 ) , 0 ≤ n ≤ 255 - - - ( 5 )
步骤3.4:采用公知的能量过零率双门限判决法完成端点检测,具体步骤如下:
步骤3.4.1:对各加窗语音帧xk',1≤k'≤K',计算短时能量Ek'和短时过零率Zk'
E k ′ = Σ n = 0 255 x k ′ 2 ( n ) 1 ≤ k ′ ≤ K ′ - - - ( 6 )
Z k ′ = 1 2 Σ n = 1 255 | sgn [ x k ′ ( n ) ] - sgn [ x k ′ ( n - 1 ) ] | - - - ( 7 )
其中Ek'表示加窗语音帧xk'的短时能量,Zk'表示xk'的短时过零率,xk'(n)为加窗语音帧xk'在第n个采样点上的值,xk'(n-1)为xk'在第n-1个采样点上的值,sgn[xk'(n)]、sgn[xk'(n-1)]分别为xk'(n)、xk'(n-1)的符号函数,即:
sgn [ x ] = 1 x &GreaterEqual; 0 - 1 x < 0 - - - ( 8 )
步骤3.4.2:确定短时能量阈值τE和短时过零率阈值τZ
&tau; E = 1 K &prime; &Sigma; k &prime; = 1 K &prime; E k &prime; - - - ( 9 )
&tau; Z = 0.1 K &prime; &Sigma; k &prime; = 1 K &prime; Z k &prime; - - - ( 10 )
其中K'为语音帧总帧数;
步骤3.4.3:对各加窗语音帧首先用短时能量作第一级判别,将短时能量值大于阈值τE的加窗语音帧标记为有效语音帧,将帧序号最小的有效语音帧作为当前有效语音帧集合的起始帧,将帧序号最大的有效语音帧作为当前有效语音帧集合的结束帧,然后用短时过零率作第二级判别,即以起始帧为起点按照帧序号由大到小的顺序逐帧判别,将短时过零率大于阈值τZ的加窗语音帧标记为有效语音帧,并且以结束帧为起点按照帧序号由小到大的顺序逐帧判别,将短时过零率大于阈值τZ的加窗语音帧标记为有效语音帧,将两级判别后得到的有效语音帧集合记为{sk}1≤k≤K,其中k为有效语音帧序号,K为有效语音帧总帧数,sk为有效语音帧集合中的第k个有效语音帧。
步骤4中所述的费舍比率最优小波包基的构造方法如下:
步骤4.1:采集已知情感类别的语音片段,作为小波包构造数据集;
步骤4.2:对小波包构造数据集的情感语音片段数字化以提供小波包构造数字语音信号;
步骤4.3:采用步骤3所述的预处理方法,对小波包构造数字语音信号进行预处理,得到小波包构造有效语音帧集合
Figure BDA00003145012400051
其中l为情感类别标号,L为情感类别总数,Nl为情感类别l的小波包构造有效语音帧的总帧数,
Figure BDA00003145012400052
为情感类别l的第m个小波包构造有效语音帧;
步骤4.4:构造J层满二叉树结构
Figure BDA00003145012400055
作为完全小波包分解树,将其表示为其树节点以二元组(j,p)表示,0≤j≤J,0≤p≤2j-1,j为树节点的深度,p为
Figure BDA00003145012400057
中同一深度j下位于该节点左侧的节点总数目;
步骤4.5:对各小波包构造有效语音帧
Figure BDA00003145012400053
按照满二叉树结构
Figure BDA00003145012400058
进行小波包分解,小波包分解的具体步骤如下:
步骤4.5.1:对于各小波包构造有效语音帧
Figure BDA00003145012400054
且1≤m≤Nl、1≤l≤L,计算其在小波包树根节点(0,0)上的小波包系数
Figure BDA00003145012400061
W ( 0,0 ) m , ( l ) ( n 1 ) = F s - 1 / 2 &CenterDot; t m ( l ) ( n 1 ) , 0 &le; n 1 &le; 255 - - - ( 11 )
其中Fs表示数字语音信号采样频率,为小波包构造有效语音帧
Figure BDA00003145012400064
在第n1个离散点上的值,
Figure BDA00003145012400065
为情感类别l的第m个小波包构造有效语音帧
Figure BDA00003145012400066
在小波包树根节点(0,0)上的第n1个小波包系数;
步骤4.5.2:对于各小波包构造有效语音帧
Figure BDA00003145012400067
且1≤m≤Nl、1≤l≤L,将
Figure BDA00003145012400068
在小波包树根节点(0,0)上的小波包系数
Figure BDA00003145012400069
作为初始值,通过马拉Mallat算法依次计算
Figure BDA000031450124000610
在各小波包树节点处的小波包系数
Figure BDA000031450124000613
其中1≤j≤J、0≤p≤2j-1,
Figure BDA000031450124000614
为情感类别l的第m个小波包构造有效语音帧
Figure BDA000031450124000615
在小波包树节点(j,p)上的第r个小波包系数,
Figure BDA000031450124000616
且p为偶数表示
Figure BDA000031450124000617
在小波包树节点(j-1,p/2)上的第r'个小波包系数,
Figure BDA000031450124000618
且p为奇数表示
Figure BDA000031450124000619
在小波包树节点(j-1,(p-1)/2)上的第r'个小波包系数,h(r'-2r)为10阶多贝西Daubechies小波低通滤波器h在第r'-2r个离散点上的值,g(r'-2r)为10阶多贝西Daubechies小波高通滤波器g在第r'-2r个离散点上的值,10阶多贝西Daubechies小波低通和高通滤波器h、g满足:
g ( r &OverBar; ) = ( - 1 ) r &OverBar; h ( 19 - r &OverBar; ) , 0 &le; r &OverBar; &le; 19 - - - ( 13 )
其中
Figure BDA000031450124000621
为10阶多贝西Daubechies小波高通滤波器g在第
Figure BDA000031450124000622
个离散点上的值,
Figure BDA00003145012400071
为10阶多贝西Daubechies小波低通滤波器h在第
Figure BDA00003145012400072
个离散点上的值,10阶多贝西Daubechies小波低通和高通滤波器h、g系数见表1和表2;
表1 10阶Daubechies小波低通滤波器
Figure BDA00003145012400073
表2 10阶Daubechies小波高通滤波器
Figure BDA00003145012400074
步骤4.6:对于各小波包构造有效语音帧
Figure BDA00003145012400081
且1≤m≤Nl、1≤l≤L,计算
Figure BDA00003145012400082
在各小波包树节点(j,p)且0≤j≤J、0≤p≤2j-1的归一化能量
Figure BDA00003145012400083
E &OverBar; ( j , p ; t m ( l ) ) = | | W ( j , p ) m , ( l ) | | 2 / | | t m ( l ) | | 2 - - - ( 14 )
其中
Figure BDA00003145012400085
为情感类别l的第m个小波包构造有效语音帧在节点(j,p)上的小波包系数,
Figure BDA00003145012400088
的欧氏范数,
Figure BDA000031450124000810
的欧式范数;
步骤4.7:计算各小波包树节点(j,p)且0≤j≤J、0≤p≤2j-1的费舍比率,具体步骤如下:
步骤4.7.1:对各小波包树节点(j,p)且0≤j≤J、0≤p≤2j-1,分别计算情感类别l且1≤l≤L的全体小波包构造有效语音帧在节点(j,p)处的归一化能量均值μl(j,p)和方差
Figure BDA000031450124000812
并计算全体小波包构造有效语音帧的归一化能量均值μ(j,p):
&mu; l ( j , p ) = 1 N l &Sigma; m = 1 N l E &OverBar; ( j , p ; t m ( l ) ) - - - ( 15 )
&sigma; l 2 ( j , p ) = 1 N l &Sigma; m = 1 N l ( E &OverBar; ( j , p ; t m ( l ) ) - &mu; l ( j , p ) ) 2 - - - ( 16 )
&mu; ( j , p ) = 1 N &Sigma; l = 1 L &Sigma; m = 1 N l E &OverBar; ( j , p ; t m ( l ) ) - - - ( 17 )
其中N为小波包构造有效语音帧的总帧数:
N = &Sigma; l = 1 L N l - - - ( 18 )
步骤4.7.2:对各小波包树节点(j,p)且0≤j≤J、0≤p≤2j-1,计算类内离散度Sw(j,p)和类间离散度Sb(j,p):
S w ( j , p ) = &Sigma; l = 1 L N l N &CenterDot; &sigma; l 2 ( j , p ) - - - ( 19 )
S b ( j , p ) = &Sigma; l = 1 L N l N ( &mu; ( j , p ) - &mu; l ( j , p ) ) 2 - - - ( 20 )
步骤4.7.3:对各小波包树节点(j,p)且0≤j≤J、0≤p≤2j-1,计算费舍比率DF(j,p):
D F ( j , p ) = S b ( j , p ) S w ( j , p ) - - - ( 21 )
DF(j,p)表示小波包树节点(j,p)的费舍比率;
步骤4.8:依据费舍比率并采用自底至顶的搜索方法构造最优小波包树,最优小波包树的所有叶节点对应的小波包基即为费舍比率最优小波包基,具体步骤如下:
步骤4.8.1:初始化小波包树结构为
Figure BDA00003145012400094
用“*”标记
Figure BDA00003145012400095
的所有叶节点;
步骤4.8.2:对j=J-1,...,0,p=0,...,2j-1,依次执行:
将节点(j,p)的费舍比率与其两个子节点(j+1,2p)、(j+1,2p+1)费舍比率之和进行比较,若
DF(j,p)>DF(j+1,2p)+DF(j+1,2p+1)  (22)
则用“*”标记节点(j,p),否则不标记节点(j,p),且更新DF(j,p)值为
DF(j,p)=DF(j+1,2p)+DF(j+1,2p+1)  (23)
其中DF(j,p)表示节点(j,p)的费舍比率,DF(j+1,2p)、DF(j+1,2p+1)分别表示节点(j+1,2p)、(j+1,2p+1)的费舍比率;
步骤4.8.3:从小波包树
Figure BDA00003145012400096
最顶层开始,从上至下移除所有标记为“*”的节点的所有后继结点,得到最优小波包树,最优小波包树的所有叶节点{(ji,pi)}1≤i≤I对应的小波包基即为费舍比率最优小波包基,其中I为最优小波包树的叶节点总数。
步骤5中所述的有效语音帧小波包分解方法如下:
步骤5.1:对于各有效语音帧sk且1≤k≤K,其在小波包树根节点(0,0)上的小波包系数为:
W ( 0,0 ) k ( n 2 ) = F s - 1 / 2 &CenterDot; S k ( n 2 ) , 0 &le; n 2 &le; 255 - - - ( 24 )
其中Fs表示采样频率,sk(n2)为有效语音帧sk在第n2个离散点上的值,
Figure BDA00003145012400101
在小波包树根节点(0,0)上的第n2个小波包系数;
步骤5.2:对于各有效语音帧sk且1≤k≤K,将sk在小波包树根节点(0,0)上的小波包系数作为初始值,通过马拉Mallat算法计算sk在最优小波包树叶节点{(ji,pi)}1≤i≤I处的小波包系数:
Figure BDA00003145012400103
其中为有效语音帧sk在最优小波包树叶节点(ji,pi)处的第r1个小波包系数,
Figure BDA00003145012400105
且pi为偶数表示sk在小波包树节点(ji-1,pi/2)上的第r2个小波包系数,
Figure BDA00003145012400106
且pi为奇数表示sk在小波包树节点(ji-1,(pi-1)/2)上的第r2个小波包系数,h(r2-2r1)和g(r2-2r1)分别为10阶多贝西Daubechies小波低通和高通滤波器h和g在第r2-2r1个离散点上的值。
步骤6中所述的各有效语音帧的情感特征计算方法如下:
步骤6.1:对最优小波包树的全体叶节点{(ji,pi)}1≤i≤I,按步骤4.7计算费舍比率并将全体叶节点{(ji,pi)}1≤i≤I的费舍比率按由高到低顺序进行排序,排序后的叶节点表示为(j′1,p′1),(j′2,p′2),...,(j′I,p′I),选取费舍比率排序前I'且I'<I的叶节点(j′1,p′1),(j′2,p′2),...,(j′I′,p′I′);
步骤6.2:对于各有效语音帧sk且1≤k≤K,计算sk在叶节点{j′i′,p′i′)}1≤i′≤I 上的归一化能量:
E &OverBar; ( j i &prime; &prime; , p i &prime; &prime; ; s k ) = | | W ( j i &prime; &prime; , p i &prime; &prime; ) k | | 2 / | | s k | | 2 - - - ( 26 )
其中,(j′i′,p′i′)为费舍比率排序第i'的最优小波包树叶节点,为有效语音帧sk在最优小波包树叶节点(j′i′,p′i′)点上的小波包系数,
Figure BDA00003145012400112
Figure BDA00003145012400113
的欧式范数,||sk||为sk的欧式范数;
步骤6.3:对于各有效语音帧sk且1≤k≤K,计算sk的对数帧能量ek
ek=lg||sk||2  (27)
其中,||sk||为sk的欧式范数;
步骤6.4:对于各有效语音帧sk且1≤k≤K,
Figure BDA00003145012400114
与对数帧能量ek共同构成sk的I'+1维情感特征ck
c k = ( E &OverBar; ( j 1 &prime; , p 1 &prime; ; s k ) , E &OverBar; ( j 2 &prime; , p 2 &prime; ; s k ) , . . . , E &OverBar; ( j I &prime; &prime; , p I &prime; &prime; ; s k ) , e k ) T - - - ( 28 )
式中,上标T表示向量的转置。
以上的实施例只是已实现的有效具体实施方式之一,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims (5)

1.一种基于费舍比率最优小波包分解的语音情感特征提取方法,其特征在于,包括以下步骤:
步骤1:接收情感语音片段输入;
步骤2:将情感语音片段数字化以提供数字语音信号X;
步骤3:对数字语音信号X进行预处理,得到有效语音帧集合;
步骤4:构造费舍比率最优小波包基;
步骤5:利用步骤4构造的费舍比率最优小波包基对有效语音帧进行小波包分解,得到各有效语音帧的小波包系数;
步骤6:利用步骤5得到的有效语音帧小波包系数计算各有效语音帧的情感特征。
2.根据权利要求1所述的基于费舍比率最优小波包分解的语音情感特征提取方法,其特征是,步骤3中所述的预处理包括如下步骤:
步骤3.1:对数字语音信号X按下式进行预加重,得到预加重后的语音信号
X &OverBar; ( n &OverBar; ) = X ( n &OverBar; ) - 0.9375 X ( n &OverBar; - 1 ) , 0 &le; n &OverBar; &le; N &OverBar; - 1 - - - ( 1 )
其中
Figure FDA00003145012300013
表示数字语音信号X的离散点序号,
Figure FDA00003145012300014
为数字语音信号X的长度,
Figure FDA00003145012300015
Figure FDA00003145012300016
分别表示数字语音信号X在第
Figure FDA00003145012300017
Figure FDA00003145012300018
个离散点上的值,
Figure FDA00003145012300019
表示预加重后的语音信号在第
Figure FDA000031450123000111
个离散点上的值,X(-1)=0;
步骤3.2:采用交叠分段的方法对预加重后的语音信号
Figure FDA000031450123000112
进行分帧,前一帧起点与后一帧起点的距离称为帧移,此处帧移取8ms,即在采样率Fs=16kHz下取128点,每一帧长取16ms,即取256点,
Figure FDA000031450123000113
经过分帧得到语音帧集合
Figure FDA000031450123000114
x &OverBar; k &prime; ( n ) = x &OverBar; ( n + 128 ( k &prime; - 1 ) ) 0 &le; n &le; 255,1 &le; k &prime; &le; K &prime; - - - ( 2 )
其中
Figure FDA00003145012300021
为语音帧集合中的第k'个语音帧,n表示语音帧离散点序号,k'为语音帧序号,K'为语音帧总帧数,且满足:
Figure FDA00003145012300022
Figure FDA00003145012300023
表示
Figure FDA00003145012300024
向下取整;
步骤3.3:对各语音帧
Figure FDA00003145012300025
1≤k'≤K',选择窗口长度为256点的汉明窗w进行加窗处理,得到加窗语音帧xk',加窗语音帧xk'为:
x k &prime; ( n ) = x &OverBar; k &prime; ( n ) w ( n ) , 0 &le; n &le; 255,1 &le; k &prime; &le; K &prime; - - - ( 4 )
其中xk'(n)、
Figure FDA00003145012300027
w(n)分别表示xk'w在第n个离散点上的值,窗口长度为256点的汉明窗函数为:
w ( n ) = 0.54 - 0.46 cos ( 2 &pi;n 255 ) , 0 &le; n &le; 255 - - - ( 5 )
步骤3.4:采用公知的能量过零率双门限判决法完成端点检测,具体步骤如下:
步骤3.4.1:对各加窗语音帧xk',1≤k'≤K',计算短时能量Ek'和短时过零率Zk'
E k &prime; = &Sigma; n = 0 255 x k &prime; 2 ( n ) 1 &le; k &prime; &le; K &prime; - - - ( 6 )
Z k &prime; = 1 2 &Sigma; n = 1 255 | sgn [ x k &prime; ( n ) ] - sgn [ x k &prime; ( n - 1 ) ] | - - - ( 7 )
其中Ek'表示加窗语音帧xk'的短时能量,Zk'表示xk'的短时过零率,xk'(n)为加窗语音帧xk'在第n个采样点上的值,xk'(n-1)为xk'在第n-1个采样点上的值,sgn[xk'(n)]、sgn[xk'(n-1)]分别为xk'(n)、xk'(n-1)的符号函数,即:
sgn [ x ] = 1 x &GreaterEqual; 0 - 1 x < 0 - - - ( 8 )
步骤3.4.2:确定短时能量阈值τE和短时过零率阈值τZ
&tau; E = 1 K &prime; &Sigma; k &prime; = 1 K &prime; E k &prime; - - - ( 9 )
&tau; Z = 0.1 K &prime; &Sigma; k &prime; = 1 K &prime; Z k &prime; - - - ( 10 )
其中K'为语音帧总帧数;
步骤3.4.3:对各加窗语音帧首先用短时能量作第一级判别,将短时能量值大于阈值τE的加窗语音帧标记为有效语音帧,将帧序号最小的有效语音帧作为当前有效语音帧集合的起始帧,将帧序号最大的有效语音帧作为当前有效语音帧集合的结束帧,然后用短时过零率作第二级判别,即以起始帧为起点按照帧序号由大到小的顺序逐帧判别,将短时过零率大于阈值τZ的加窗语音帧标记为有效语音帧,并且以结束帧为起点按照帧序号由小到大的顺序逐帧判别,将短时过零率大于阈值τZ的加窗语音帧标记为有效语音帧,将两级判别后得到的有效语音帧集合记为{sk}1≤k≤K,其中k为有效语音帧序号,K为有效语音帧总帧数,sk为有效语音帧集合中的第k个有效语音帧。
3.根据权利要求1所述的基于费舍比率最优小波包分解的语音情感特征提取方法,其特征是,步骤4中所述的费舍比率最优小波包基的构造方法如下:
步骤4.1:采集已知情感类别的语音片段,作为小波包构造数据集;
步骤4.2:对小波包构造数据集的情感语音片段数字化以提供小波包构造数字语音信号;
步骤4.3:采用步骤3所述的预处理方法,对小波包构造数字语音信号进行预处理,得到小波包构造有效语音帧集合其中l为情感类别标号,L为情感类别总数,Nl为情感类别l的小波包构造有效语音帧的总帧数,
Figure FDA00003145012300034
为情感类别l的第m个小波包构造有效语音帧;
步骤4.4:构造J层满二叉树结构
Figure FDA00003145012300035
作为完全小波包分解树,将其表示为
Figure FDA00003145012300036
其树节点以二元组(j,p)表示,0≤j≤J,0≤p≤2j-1,j为树节点的深度,p为
Figure FDA00003145012300037
中同一深度j下位于该节点左侧的节点总数目;
步骤4.5:对各小波包构造有效语音帧
Figure FDA00003145012300041
按照满二叉树结构进行小波包分解,小波包分解的具体步骤如下:
步骤4.5.1:对于各小波包构造有效语音帧
Figure FDA00003145012300042
且1≤m≤Nl、1≤l≤L,计算其在小波包树根节点(0,0)上的小波包系数
Figure FDA00003145012300043
W ( 0,0 ) m , ( l ) ( n 1 ) = F s - 1 / 2 &CenterDot; t m ( l ) ( n 1 ) , 0 &le; n 1 &le; 255 - - - ( 11 )
其中Fs表示数字语音信号采样频率,为小波包构造有效语音帧在第n1个离散点上的值,
Figure FDA00003145012300047
为情感类别l的第m个小波包构造有效语音帧
Figure FDA00003145012300048
在小波包树根节点(0,0)上的第n1个小波包系数;
步骤4.5.2:对于各小波包构造有效语音帧
Figure FDA00003145012300049
且1≤m≤Nl、1≤l≤L,将在小波包树根节点(0,0)上的小波包系数
Figure FDA000031450123000411
作为初始值,通过马拉Mallat算法依次计算
Figure FDA000031450123000412
在各小波包树节点处的小波包系数
Figure FDA000031450123000414
Figure FDA000031450123000415
其中1≤j≤J、0≤p≤2j-1,
Figure FDA000031450123000416
为情感类别l的第m个小波包构造有效语音帧
Figure FDA000031450123000417
在小波包树节点(j,p)上的第r个小波包系数,
Figure FDA000031450123000418
且p为偶数表示
Figure FDA000031450123000419
在小波包树节点(j-1,p/2)上的第r'个小波包系数,
Figure FDA000031450123000420
且p为奇数表示
Figure FDA000031450123000421
在小波包树节点(j-1,(p-1)/2)上的第r'个小波包系数,h(r'-2r)为10阶多贝西Daubechies小波低通滤波器h在第r'-2r个离散点上的值,g(r'-2r)为10阶多贝西Daubechies小波高通滤波器g在第r'-2r个离散点上的值,10阶多贝西Daubechies小波低通和高通滤波器h、g满足:
g ( r &OverBar; ) = ( - 1 ) r &OverBar; h ( 19 - r &OverBar; ) , 0 &le; r &OverBar; &le; 19 - - - ( 13 )
其中
Figure FDA00003145012300052
为10阶多贝西Daubechies小波高通滤波器g在第
Figure FDA00003145012300053
个离散点上的值,
Figure FDA00003145012300054
为10阶多贝西Daubechies小波低通滤波器h在第
Figure FDA00003145012300055
个离散点上的值;
步骤4.6:对于各小波包构造有效语音帧且1≤m≤Nl、1≤l≤L,计算在各小波包树节点(j,p)且0≤j≤J、0≤p≤2j-1的归一化能量
Figure FDA00003145012300058
E &OverBar; ( j , p ; t m ( l ) ) = | | W ( j , p ) m , ( l ) | | 2 / | | t m ( l ) | | 2 - - - ( 14 )
其中
Figure FDA000031450123000510
为情感类别l的第m个小波包构造有效语音帧在节点(j,p)上的小波包系数,
Figure FDA000031450123000512
Figure FDA000031450123000513
的欧氏范数,
Figure FDA000031450123000514
Figure FDA000031450123000515
的欧式范数;
步骤4.7:计算各小波包树节点(j,p)且0≤j≤J、0≤p≤2j-1的费舍比率,具体步骤如下:
步骤4.7.1:对各小波包树节点(j,p)且0≤j≤J、0≤p≤2j-1,分别计算情感类别l且1≤l≤L的全体小波包构造有效语音帧在节点(j,p)处的归一化能量均值μl(j,p)和方差
Figure FDA000031450123000517
并计算全体小波包构造有效语音帧
Figure FDA000031450123000518
的归一化能量均值μ(j,p):
&mu; l ( j , p ) = 1 N l &Sigma; m = 1 N l E &OverBar; ( j , p ; t m ( l ) ) - - - ( 15 )
&sigma; l 2 ( j , p ) = 1 N l &Sigma; m = 1 N l ( E &OverBar; ( j , p ; t m ( l ) ) - &mu; l ( j , p ) ) 2 - - - ( 16 )
&mu; ( j , p ) = 1 N &Sigma; l = 1 L &Sigma; m = 1 N l E &OverBar; ( j , p ; t m ( l ) ) - - - ( 17 )
其中N为小波包构造有效语音帧的总帧数:
N = &Sigma; l = 1 L N l - - - ( 18 )
步骤4.7.2:对各小波包树节点(j,p)且0≤j≤J、0≤p≤2j-1,计算类内离散度Sw(j,p)和类间离散度Sb(j,p):
S w ( j , p ) = &Sigma; l = 1 L N l N &CenterDot; &sigma; l 2 ( j , p ) - - - ( 19 )
S b ( j , p ) = &Sigma; l = 1 L N l N ( &mu; ( j , p ) - &mu; l ( j , p ) ) 2 - - - ( 20 )
步骤4.7.3:对各小波包树节点(j,p)且0≤j≤J、0≤p≤2j-1,计算费舍比率DF(j,p):
D F ( j , p ) = S b ( j , p ) S w ( j , p ) - - - ( 21 )
DF(j,p)表示小波包树节点(j,p)的费舍比率;
步骤4.8:依据费舍比率并采用自底至顶的搜索方法构造最优小波包树,最优小波包树的所有叶节点对应的小波包基即为费舍比率最优小波包基,具体步骤如下:
步骤4.8.1:初始化小波包树结构为
Figure FDA00003145012300065
用“*”标记
Figure FDA00003145012300066
的所有叶节点;
步骤4.8.2:对j=J-1,...,0,p=0,...,2j-1,依次执行:
将节点(j,p)的费舍比率与其两个子节点(j+1,2p)、(j+1,2p+1)费舍比率之和进行比较,若
DF(j,p)>DF(j+1,2p)+DF(j+1,2p+1)  (22)
则用“*”标记节点(j,p),否则不标记节点(j,p),且更新DF(j,p)值为
DF(j,p)=DF(j+1,2p)+DF(j+1,2p+1)  (23)
其中DF(j,p)表示节点(j,p)的费舍比率,DF(j+1,2p)、DF(j+1,2p+1)分别表示节点(j+1,2p)、(j+1,2p+1)的费舍比率;
步骤4.8.3:从小波包树最顶层开始,从上至下移除所有标记为“*”的节点的所有后继结点,得到最优小波包树,最优小波包树的所有叶节点{(ji,pi)}1≤i≤I对应的小波包基即为费舍比率最优小波包基,其中I为最优小波包树的叶节点总数。
4.根据权利要求1所述的基于费舍比率最优小波包分解的语音情感特征提取方法,其特征是,步骤5中所述的有效语音帧小波包分解方法如下:
步骤5.1:对于各有效语音帧sk且1≤k≤K,其在小波包树根节点(0,0)上的小波包系数
Figure FDA00003145012300071
为:
W ( 0,0 ) k ( n 2 ) = F s - 1 / 2 &CenterDot; S k ( n 2 ) , 0 &le; n 2 &le; 255 - - - ( 24 )
其中Fs表示采样频率,sk(n2)为有效语音帧sk在第n2个离散点上的值,
Figure FDA00003145012300073
为sk在小波包树根节点(0,0)上的第n2个小波包系数;
步骤5.2:对于各有效语音帧sk且1≤k≤K,将sk在小波包树根节点(0,0)上的小波包系数作为初始值,通过马拉Mallat算法计算sk在最优小波包树叶节点{(ji,pi)}1≤i≤I处的小波包系数:
Figure FDA00003145012300075
其中
Figure FDA00003145012300076
为有效语音帧sk在最优小波包树叶节点(ji,pi)处的第r1个小波包系数,
Figure FDA00003145012300077
且pi为偶数表示sk在小波包树节点(ji-1,pi/2)上的第r2个小波包系数,
Figure FDA00003145012300078
且pi为奇数表示sk在小波包树节点(ji-1,(pi-1)/2)上的第r2个小波包系数,h(r2-2r1)和g(r2-2r1)分别为10阶多贝西Daubechies小波低通和高通滤波器h和g在第r2-2r1个离散点上的值。
5.根据权利要求1所述的基于费舍比率最优小波包分解的语音情感特征提取方法,其特征是,步骤6中所述的各有效语音帧的情感特征计算方法如下:
步骤6.1:对最优小波包树的全体叶节点{(ji,pi)}1≤i≤I,按步骤4.7计算费舍比率并将全体叶节点{(ji,pi)}1≤i≤I的费舍比率按由高到低顺序进行排序,排序后的叶节点表示为(j′1,p′1),(j′2,p′2),...,(j′I,p′I),选取费舍比率排序前I'且I'<I的叶节点(j′1,p′1),(j′2,p′2),...,(j′I′,p′I′);
步骤6.2:对于各有效语音帧sk且1≤k≤K,计算sk在叶节点{(j′i′,p′i′)}1≤i′≤I′上的归一化能量:
E &OverBar; ( j i &prime; &prime; , p i &prime; &prime; ; s k ) = | | W ( j i &prime; &prime; , p i &prime; &prime; ) k | | 2 / | | s k | | 2 - - - ( 26 )
其中,(j′i′,p′i′),为费舍比率排序第i'的最优小波包树叶节点,
Figure FDA00003145012300085
为有效语音帧sk在最优小波包树叶节点(j′i′,p′i′)上的小波包系数,
Figure FDA00003145012300087
Figure FDA00003145012300088
的欧式范数,||sk||为sk的欧式范数;
步骤6.3:对于各有效语音帧sk且1≤k≤K,计算sk的对数帧能量ek
ek=lg||sk||2  (27)
其中,||sk||为sk的欧式范数;
步骤6.4:对于各有效语音帧sk且1≤k≤K,
Figure FDA00003145012300089
与对数帧能量ek共同构成sk的I'+1维情感特征ck
c k = ( E &OverBar; ( j 1 &prime; , p 1 &prime; ; s k ) , E &OverBar; ( j 2 &prime; , p 2 &prime; ; s k ) , . . . , E &OverBar; ( j I &prime; &prime; , p I &prime; &prime; ; s k ) , e k ) T - - - ( 28 )
式中,上标T表示向量的转置。
CN201310168397.0A 2013-05-06 2013-05-06 基于费舍比率最优小波包分解的语音情感特征提取方法 Expired - Fee Related CN103295573B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310168397.0A CN103295573B (zh) 2013-05-06 2013-05-06 基于费舍比率最优小波包分解的语音情感特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310168397.0A CN103295573B (zh) 2013-05-06 2013-05-06 基于费舍比率最优小波包分解的语音情感特征提取方法

Publications (2)

Publication Number Publication Date
CN103295573A true CN103295573A (zh) 2013-09-11
CN103295573B CN103295573B (zh) 2015-07-01

Family

ID=49096332

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310168397.0A Expired - Fee Related CN103295573B (zh) 2013-05-06 2013-05-06 基于费舍比率最优小波包分解的语音情感特征提取方法

Country Status (1)

Country Link
CN (1) CN103295573B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701470A (zh) * 2016-01-13 2016-06-22 合肥工业大学 一种基于最优小波包分解的模拟电路故障特征提取方法
CN106297823A (zh) * 2016-08-22 2017-01-04 东南大学 一种基于环境噪声标准化变换的语音情感特征选择方法
CN108694416A (zh) * 2018-05-23 2018-10-23 重庆科技学院 基于多特征融合算法的振动光纤入侵事件检测方法
CN110428841A (zh) * 2019-07-16 2019-11-08 河海大学 一种基于不定长均值的声纹动态特征提取方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020040732A (ko) * 2002-05-11 2002-05-30 전명근 웨이블렛 변환을 이용한 음성에서의 감정인식
CN102623009A (zh) * 2012-03-02 2012-08-01 安徽科大讯飞信息技术股份有限公司 一种基于短时分析的异常情绪自动检测和提取方法和系统
CN102737629A (zh) * 2011-11-11 2012-10-17 东南大学 一种嵌入式语音情感识别方法及装置
CN102881284A (zh) * 2012-09-03 2013-01-16 江苏大学 非特定人语音情感识别方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020040732A (ko) * 2002-05-11 2002-05-30 전명근 웨이블렛 변환을 이용한 음성에서의 감정인식
CN102737629A (zh) * 2011-11-11 2012-10-17 东南大学 一种嵌入式语音情感识别方法及装置
CN102623009A (zh) * 2012-03-02 2012-08-01 安徽科大讯飞信息技术股份有限公司 一种基于短时分析的异常情绪自动检测和提取方法和系统
CN102881284A (zh) * 2012-09-03 2013-01-16 江苏大学 非特定人语音情感识别方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
黄永明等: "全局特征及弱尺度融合策略的小样本语音情感识别", 《声学学报》 *
黄永明等: "层叠式"产生/判别"混合模型的语音情感识别", 《声学学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701470A (zh) * 2016-01-13 2016-06-22 合肥工业大学 一种基于最优小波包分解的模拟电路故障特征提取方法
CN105701470B (zh) * 2016-01-13 2019-02-15 合肥工业大学 一种基于最优小波包分解的模拟电路故障特征提取方法
CN106297823A (zh) * 2016-08-22 2017-01-04 东南大学 一种基于环境噪声标准化变换的语音情感特征选择方法
CN108694416A (zh) * 2018-05-23 2018-10-23 重庆科技学院 基于多特征融合算法的振动光纤入侵事件检测方法
CN110428841A (zh) * 2019-07-16 2019-11-08 河海大学 一种基于不定长均值的声纹动态特征提取方法
CN110428841B (zh) * 2019-07-16 2021-09-28 河海大学 一种基于不定长均值的声纹动态特征提取方法

Also Published As

Publication number Publication date
CN103295573B (zh) 2015-07-01

Similar Documents

Publication Publication Date Title
CN103236258B (zh) 基于巴氏距离最优小波包分解的语音情感特征提取方法
CN102163427B (zh) 一种基于环境模型的音频异常事件检测方法
CN102737629B (zh) 一种嵌入式语音情感识别方法及装置
CN109767785A (zh) 基于卷积神经网络的环境噪声识别分类方法
CN102446504B (zh) 语音/音乐识别方法及装置
CN113221673B (zh) 基于多尺度特征聚集的说话人认证方法及系统
CN107393554A (zh) 一种声场景分类中融合类间标准差的特征提取方法
CN103871423A (zh) 一种基于nmf非负矩阵分解的音频分离方法
CN101980336A (zh) 一种基于隐马尔可夫模型的汽车声音识别方法
CN103295573B (zh) 基于费舍比率最优小波包分解的语音情感特征提取方法
CN110176250B (zh) 一种基于局部学习的鲁棒声学场景识别方法
CN103871424A (zh) 一种基于贝叶斯信息准则的线上说话人聚类分析方法
CN110428843A (zh) 一种语音性别识别深度学习方法
CN108364641A (zh) 一种基于长时帧背景噪声估计的语音情感特征提取方法
CN113566948A (zh) 机器人化煤机故障音频识别及诊断方法
CN112420079B (zh) 语音端点检测方法和装置、存储介质及电子设备
CN106205606A (zh) 一种基于语音识别的动态定位监控方法及系统
CN102708861A (zh) 基于支持向量机的不良语音识别方法
CN110728991A (zh) 一种改进的录音设备识别算法
CN104361887A (zh) 行车噪声环境下的快速声学事件检测系统
CN114373476A (zh) 一种基于多尺度残差注意力网络的声音场景分类方法
CN104123930A (zh) 喉音识别方法及装置
CN105070300A (zh) 一种基于说话人标准化变换的语音情感特征选择方法
CN111145726A (zh) 基于深度学习的声场景分类方法、系统、装置及存储介质
CN102509548B (zh) 一种基于多距离声传感器的音频索引方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150701