CN103236258B - 基于巴氏距离最优小波包分解的语音情感特征提取方法 - Google Patents

基于巴氏距离最优小波包分解的语音情感特征提取方法 Download PDF

Info

Publication number
CN103236258B
CN103236258B CN201310168156.6A CN201310168156A CN103236258B CN 103236258 B CN103236258 B CN 103236258B CN 201310168156 A CN201310168156 A CN 201310168156A CN 103236258 B CN103236258 B CN 103236258B
Authority
CN
China
Prior art keywords
wavelet packet
frame
prime
efficient voice
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310168156.6A
Other languages
English (en)
Other versions
CN103236258A (zh
Inventor
李悦
章国宝
黄永明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201310168156.6A priority Critical patent/CN103236258B/zh
Publication of CN103236258A publication Critical patent/CN103236258A/zh
Application granted granted Critical
Publication of CN103236258B publication Critical patent/CN103236258B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及一种基于巴氏距离最优小波包分解的语音情感特征提取方法。所述方法包括面向情感分类问题的巴氏距离准则函数定义方法,最优小波包基构造方法,以及语音情感特征提取方法。该方法定义针对情感分类问题的巴氏距离准则函数用于最优小波包基的构造,在对语音信号进行最优小波包分解的基础上提取语音情感特征。本发明通过构建针对情感分类问题的小波包基对语音信号进行分析和特征提取,降低了说话人身份、语音内容等无关信息对情感识别准确度的影响,同时具有较低的计算复杂度。

Description

基于巴氏距离最优小波包分解的语音情感特征提取方法
技术领域
本发明专利涉及一种语音情感特征提取方法,尤其涉及一种基于巴氏距离最优小波包分解的语音情感特征提取方法,属于语音情感识别技术领域。
背景技术
随着信息技术的快速发展和各种智能终端的兴起,现有的人机交互系统正面临日益严峻的考验。为了克服人机交互的障碍,使人机交互更为方便、自然,机器的情感智能正日益受到各领域研究者的重视。语音作为现今人机交互中极具发展潜力的高效交互媒介,携带着丰富的情感信息。语音情感识别作为情感智能的重要研究课题,在远程教学、辅助测谎、自动远程电话服务中心以及临床医学,智能玩具,智能手机等方面有着广阔的应用前景,吸引了越来越多研究机构与研究学者的广泛关注。
为了提高语音情感识别的精度和鲁棒性,提取充分反映说话人情感状态的语音情感特征至关重要。从原始语音数据中提取有效的情感信息,剔除情感无关的说话人身份信息、说话内容信息等冗余信息是提高语音情感识别系统鲁棒性的重点和难点。
作为一种新兴的信号时频分析技术,小波包分析因其在数字信号处理中的灵活性和有效性,越来越得到研究者的广泛重视。对于分类问题,建立反映类别可分性的准则函数用于构建最优小波包基,对信号进行相应的最优小波包分解,并保留最具类别区分性的信号分量,剔除冗余信息,是提高分类准确度的重要途径。这种基于分类能力的有监督的特征提取思想和方法在语音情感识别研究中具有重要的意义。
发明内容
本发明解决的问题是:为提高语音情感识别的精度和鲁棒性,结合以上背景和需求,本发明提供一种基于巴氏距离最优小波包分解的语音情感特征提取方法。这种语音情感特征提取方法能够利用小波包分解的灵活性,以反映情感类别区分能力的巴氏距离为准则构建最优小波包基,并提取具有情感区分性的特征参数,作为语音情感特征。
本发明的技术解决方案是:
一种基于巴氏距离最优小波包分解的语音情感特征提取方法,包括以下步骤:
步骤1:接收情感语音片段输入;
步骤2:将情感语音片段数字化以提供数字语音信号X;
步骤3:对数字语音信号X进行预处理,得到有效语音帧集合;
步骤4:构造巴氏距离最优小波包基;
步骤5:利用步骤4构造的巴氏距离最优小波包基对有效语音帧进行小波包分解,得到各有效语音帧的小波包系数;
步骤6:利用步骤5得到的有效语音帧小波包系数计算各有效语音帧的情感特征。
本发明的有益效果包括:
(1)本发明利用了小波包分解方式的多样性,采用反映情感类别区分能力的巴氏距离作为选取最优小波包基的准则函数,构建了巴氏距离准则下的最优小波包基,用于语音信号的分析;
(2)本发明根据巴氏距离与情感类别区分能力的相关性,有选择性地保留具有较大巴氏距离的最优小波包树叶节点用于语音情感特征提取,剔除原始语音信号中与情感类别相关性较弱的冗余信息,有助于提高语音情感识别的鲁棒性;
(3)本发明建立了一种反映类别区分能力的巴氏距离准则函数用于最优小波包基的构造,该准则函数具有可加性,从而保证了自底至顶的快速算法可以用于最优小波包基的构造,有效降低了最优小波包基构造和语音情感特征提取的计算复杂度。
附图说明
图1为本发明的语音情感特征提取流程图;
图2为巴氏距离最优小波包基构造流程图。
具体实施方式
一种基于巴氏距离最优小波包分解的语音情感特征提取方法,包括以下步骤:
步骤1:接收情感语音片段输入;
步骤2:将情感语音片段数字化以提供数字语音信号X;
步骤3:对数字语音信号X进行预处理,得到有效语音帧集合;
步骤4:构造巴氏距离最优小波包基;
步骤5:利用步骤4构造的巴氏距离最优小波包基对有效语音帧进行小波包分解,得到各有效语音帧的小波包系数;
步骤6:利用步骤5得到的有效语音帧小波包系数计算各有效语音帧的情感特征。
步骤3中所述的预处理包括如下步骤:
步骤3.1:对数字语音信号X按下式进行预加重,得到预加重后的语音信号
X ‾ ( n ‾ ) = X ( n ‾ ) - 0.9375 X ( n ‾ - 1 ) , 0 ≤ n ‾ ≤ N ‾ - 1 - - - ( 1 )
其中表示数字语音信号X的离散点序号,为数字语音信号X的长度,分别表示数字语音信号X在第个离散点上的值,表示预加重后的语音信号在第个离散点上的值,X(-1)=0;
步骤3.2:采用交叠分段的方法对预加重后的语音信号进行分帧,前一帧起点与后一帧起点的距离称为帧移,此处帧移取8ms,即在采样率Fs=16kHz下取128点,每一帧长取16ms,即取256点,经过分帧得到语音帧集合 { x ‾ k ′ } 1 ≤ k ′ ≤ K ′ :
x ‾ k ′ ( n ) = X ‾ ( n + 128 ( k ′ - 1 ) ) 0 ≤ n ≤ 255,1 ≤ k ′ ≤ K ′ - - - ( 2 )
其中为语音帧集合中的第k'个语音帧,n表示语音帧离散点序号,k'为语音帧序号,K'为语音帧总帧数,且满足:
表示向下取整;
步骤3.3:对各语音帧1≤k'≤K',选择窗口长度为256点的汉明窗w进行加窗处理,得到加窗语音帧xk',加窗语音帧xk'为:
x k ′ ( n ) = x ‾ k ′ ( n ) w ( n ) , 0 ≤ n ≤ 255,1 ≤ k ′ ≤ K ′ - - - ( 4 )
其中xk'(n)、w(n)分别表示xk'w在第n个离散点上的值,窗口长度为256点的汉明窗函数为:
w ( n ) = 0.54 - 0.46 cos ( 2 πn 255 ) , 0 ≤ n ≤ 255 - - - ( 5 )
步骤3.4:采用公知的能量过零率双门限判决法完成端点检测,具体步骤如下:
步骤3.4.1:对各加窗语音帧xk',1≤k'≤K',计算短时能量Ek'和短时过零率Zk'
E k ′ = Σ n = 0 255 x k ′ 2 ( n ) 1 ≤ k ′ ≤ K ′ - - - ( 6 )
Z k ′ = 1 2 Σ n = 1 255 | sgn [ x k ′ ( n ) ] - sgn [ x k ′ ( n - 1 ) ] | - - - ( 7 )
其中Ek'表示加窗语音帧xk'的短时能量,Zk'表示xk'的短时过零率,xk'(n)为加窗语音帧xk'在第n个采样点上的值,xk'(n-1)为xk'在第n-1个采样点上的值,sgn[xk'(n)]、sgn[xk'(n-1)]分别为xk'(n)、xk'(n-1)的符号函数,即:
sgn [ x ] = 1 x &GreaterEqual; 0 - 1 x < 0 - - - ( 8 )
步骤3.4.2:确定短时能量阈值τE和短时过零率阈值τZ
&tau; E = 1 K &prime; &Sigma; k &prime; = 1 K &prime; E k &prime; - - - ( 9 )
&tau; Z = 0.1 K &prime; &Sigma; k &prime; = 1 K &prime; Z k &prime; - - - ( 10 )
其中K'为语音帧总帧数;
步骤3.4.3:对各加窗语音帧首先用短时能量作第一级判别,将短时能量值大于阈值τE的加窗语音帧标记为有效语音帧,将帧序号最小的有效语音帧作为当前有效语音帧集合的起始帧,将帧序号最大的有效语音帧作为当前有效语音帧集合的结束帧,然后用短时过零率作第二级判别,即以起始帧为起点按照帧序号由大到小的顺序逐帧判别,将短时过零率大于阈值τZ的加窗语音帧标记为有效语音帧,并且以结束帧为起点按照帧序号由小到大的顺序逐帧判别,将短时过零率大于阈值τZ的加窗语音帧标记为有效语音帧,将两级判别后得到的有效语音帧集合记为{sk}1≤k≤K,其中k为有效语音帧序号,K为有效语音帧总帧数,sk为有效语音帧集合中的第k个有效语音帧。
步骤4中所述的巴氏距离最优小波包基的构造方法如下:
步骤4.1:采集已知情感类别的语音片段,作为小波包构造数据集;
步骤4.2:对小波包构造数据集的情感语音片段数字化以提供小波包构造数字语音信号;
步骤4.3:采用步骤3所述的预处理方法,对小波包构造数字语音信号进行预处理,得到小波包构造有效语音帧集合其中l为情感类别标号,L为情感类别总数,Nl为情感类别l的小波包构造有效语音帧的总帧数,为情感类别l的第m个小波包构造有效语音帧;
步骤4.4:构造J层满二叉树结构作为完全小波包分解树,将其表示为J=5,其树节点以二元组(j,p)表示,0≤j≤J,0≤p≤2j-1,j为树节点的深度,p为中同一深度j下位于该节点左侧的节点总数目;
步骤4.5:对各小波包构造有效语音帧按照满二叉树结构进行小波包分解,小波包分解的具体步骤如下:
步骤4.5.1:对于各小波包构造有效语音帧且1≤m≤Nl、1≤l≤L,计算其在小波包树根节点(0,0)上的小波包系数
W ( 0,0 ) m , ( l ) ( n 1 ) = F s - 1 / 2 &CenterDot; t m ( l ) ( n 1 ) , 0 &le; n 1 &le; 255 - - - ( 1 )
其中Fs表示数字语音信号采样频率,为情感类别l的第m个小波包构造有效语音帧,在第n1个离散点上的值,为小波包构造有效语音帧在小波包树根节点(0,0)上的第n1个小波包系数;
步骤4.5.2:对于各小波包构造有效语音帧且1≤m≤Nl、1≤l≤L,将在小波包树根节点(0,0)上的小波包系数作为初始值,通过马拉Mallat算法依次计算在各小波包树节点处的小波包系数
其中1≤j≤J、0≤p≤2j-1,为情感类别l的第m个小波包构造有效语音帧在小波包树节点(j,p)上的第r个小波包系数,且p为偶数表示在小波包树节点(j-1,p/2)上的第r'个小波包系数,且p为奇数表示在小波包树节点(j-1,(p-1)/2)上的第r'个小波包系数,h(r'-2r)为10阶多贝西Daubechies小波低通滤波器h在第r'-2r个离散点上的值,g(r'-2r)为10阶多贝西Daubechies小波高通滤波器g在第r'-2r个离散点上的值,10阶多贝西Daubechies小波低通和高通滤波器h、g满足:
g ( r &OverBar; ) = ( - 1 ) r &OverBar; h ( 19 - r &OverBar; ) , 0 &le; r &OverBar; &le; 19 - - - ( 13 )
其中为10阶多贝西Daubechies小波高通滤波器g在第个离散点上的值,为10阶多贝西Daubechies小波低通滤波器h在第个离散点上的值,10阶多贝西Daubechies小波低通和高通滤波器h、g系数见表1和表2;
表110阶Daubechies小波低通滤波器
表210阶Daubechies小波高通滤波器
步骤4.6:对于各小波包构造有效语音帧且1≤m≤Nl、1≤l≤L,计算在各小波包树节点(j,p)且0≤j≤J、0≤p≤2j-1的归一化能量
E &OverBar; ( j , p ; t m ( l ) ) = | | W ( j , p ) m , ( l ) | | 2 / | | t m ( l ) | | 2 - - - ( 14 )
其中为情感类别l的第m个小波包构造有效语音帧在节点(j,p)上的小波包系数,的欧氏范数,的欧式范数;
步骤4.7:计算各小波包树节点(j,p)且0≤j≤J、0≤p≤2j-1的巴氏距离,具体步骤如下:
步骤4.7.1:对各小波包树节点(j,p)且0≤j≤J、0≤p≤2j-1,分别计算情感类别l且1≤l≤L的全体小波包构造有效语音帧在节点(j,p)处的归一化能量均值μl(j,p)和方差
&mu; l ( j , p ) = 1 N l &Sigma; m = 1 N l E &OverBar; ( j , p ; t m ( l ) ) - - - ( 15 )
&sigma; l 2 ( j , p ) = 1 N l &Sigma; m = 1 N l ( E &OverBar; ( j , p ; t m ( l ) ) - &mu; l ( j , p ) ) 2 - - - ( 16 )
其中μl(j,p)表示情感类别l的全体小波包构造有效语音帧在节点(j,p)处的归一化能量均值,表示情感类别l的全体小波包构造有效语音帧在节点(j,p)处的归一化能量方差;
步骤4.7.2:计算各小波包树节点(j,p)且0≤j≤J、0≤p≤2j-1中的所有两两情感类别l1、l2的类间巴氏距离DBh(j,p;l1,l2),其中,1≤l1≤L,1≤l2≤L,且l1≠l2
D Bh ( j , p ; l 1 , l 2 ) = 1 8 ( &mu; l 2 ( j , p ) - &mu; l 1 ( j , p ) ) 2 [ &sigma; l 1 2 ( j , p ) + &sigma; l 2 2 ( j , p ) 2 ] - 1 - - - ( 17 )
+ 1 2 ln ( &sigma; l 1 2 ( j , p ) + &sigma; l 2 2 ( j , p ) ) / 2 &sigma; l 1 ( j , p ) &CenterDot; &sigma; l 2 ( j , p )
其中DBh(j,p;l1,l2)表示在节点(j,p)处情感类别l1、l2的类间巴氏距离,表示情感类别l1的全体小波包构造有效语音帧在节点(j,p)处的归一化能量均值,表示情感类别l2的全体小波包构造有效语音帧在节点(j,p)处的归一化能量均值,分别表示情感类别l1的全体小波包构造有效语音帧在节点(j,p)处的归一化能量方差和标准差,分别表示情感类别l2的全体小波包构造有效语音帧在节点(j,p)处的归一化能量方差和标准差;
步骤4.7.3:计算各小波包树节点(j,p)且0≤j≤J、0≤p≤2j-1上的巴氏距离DBh(j,p):
D Bh ( j , p ) = &Sigma; l 1 = 1 L - 1 &Sigma; l 2 = l 1 + 1 L P l 1 P l 2 D Bh ( j , p ; l 1 , l 2 ) - - - ( 18 )
其中DBh(j,p)表示节点(j,p)处的巴氏距离,分别表示情感类别l1与l2的先验概率:
P l 1 = N l 1 &Sigma; l = 1 L N l - - - ( 19 )
P l 2 = N l 2 &Sigma; l = 1 L N l - - - ( 20 )
其中分别表示情感类别l1与l2的小波包构造有效语音帧的总帧数,Nl为情感类别l的小波包构造有效语音帧的总帧数;
步骤4.8:依据巴氏距离并采用自底至顶的搜索方法构造最优小波包树,最优小波包树的所有叶节点对应的小波包基即为巴氏距离最优小波包基,具体步骤如下:
步骤4.8.1:初始化小波包树结构为用“*”标记的所有叶节点;
步骤4.8.2:对j=J-1,...,0,p=0,...,2j-1,依次执行:
将节点(j,p)的巴氏距离与其两个子节点(j+1,2p)、(j+1,2p+1)的巴氏距离之和进行比较,若
DBh(j,p)>DBh(j+1,2p)+DBh(j+1,2p+1)  (21)
则用“*”标记节点(j,p),否则不标记节点(j,p),且更新DBh(j,p)值为
DBh(j,p)=DBh(j+1,2p)+DBh(j+1,2p+1)  (22)
其中DBh(j,p)表示节点(j,p)的巴氏距离,DBh(j+1,2p)、DBh(j+1,2p+1)分别表示节点(j+1,2p)、(j+1,2p+1)的巴氏距离;
步骤4.8.3:从小波包树最顶层开始,从上至下移除所有标记为“*”的节点的所有后继结点,得到最优小波包树,最优小波包树的所有叶节点{(ji,pi)}1≤i≤I对应的小波包基即为巴氏距离最优小波包基,其中I为最优小波包树的叶节点总数。
步骤5中所述的有效语音帧小波包分解方法如下:
步骤5.1:对于各有效语音帧sk且1≤k≤K,其在小波包树根节点(0,0)上的小波包系数为:
W ( 0,0 ) k ( n 2 ) = F s - 1 / 2 &CenterDot; s k ( n 2 ) , 0 &le; n 2 &le; 255 - - - ( 23 )
其中Fs表示采样频率,sk(n2)为有效语音帧sk在第n2个离散点上的值,为有效语音帧sk在小波包树根节点(0,0)上的第n2个小波包系数;
步骤5.2:对于各有效语音帧sk且1≤k≤K,将sk在小波包树根节点(0,0)上的小波包系数作为初始值,通过马拉Mallat算法计算sk在最优小波包树叶节点{(ji,pi)}1≤i≤I处的小波包系数:
其中表示有效语音帧sk在最优小波包树叶节点(ji,pi)处的第r1个小波包系数,且pi为偶数表示sk在小波包树节点(ji-1,pi/2)上的第r2个小波包系数,且pi为奇数表示sk在小波包树节点(ji-1,(pi-1)/2)上的第r2个小波包系数,h(r2-2r1)和g(r2-2r1)分别为10阶多贝西Daubechies小波低通和高通滤波器h和g在第r2-2r1个离散点上的值。
步骤6中所述的各有效语音帧的情感特征计算方法如下:
步骤6.1:对最优小波包树的全体叶节点{(ji,pi)}1≤i≤I,按步骤4.7计算巴氏距离并将全体叶节点{(ji,pi)}1≤i≤I的巴氏距离按由大到小顺序进行排序,排序后的叶节点表示为选取巴氏距离排序前I'且I'<I的叶节点
步骤6.2:对于各有效语音帧sk且1≤k≤K,计算sk在叶节点上的归一化能量:
E &OverBar; ( j i &prime; &prime; , p i &prime; &prime; ; s k ) = | | W ( j i &prime; &prime; , p i &prime; &prime; ) k | | 2 / | | s k | | 2 - - - ( 25 )
其中,为巴氏距离排序第i'的最优小波包树叶节点,为有效语音帧sk在最优小波包树叶节点上的小波包系数,的欧式范数,为sk的欧式范数;
步骤6.3:对于各有效语音帧sk且1≤k≤K,计算sk的对数帧能量ek
ek=lg||sk||2  (26)
其中,||sk||为sk的欧式范数;
步骤6.4:对于各有效语音帧sk且1≤k≤K,与对数帧能量ek共同构成sk的I'+1维情感特征ck
c k = ( E &OverBar; ( j 1 &prime; , p 1 &prime; ; s k ) , E &OverBar; ( j 2 &prime; , p 2 &prime; ; s k ) , . . . , E &OverBar; ( j I &prime; &prime; , p I &prime; &prime; ; s k ) , e k ) T - - - ( 27 )
式中,上标T表示向量的转置。
以上的实施例只是已实现的有效具体实施方式之一,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims (2)

1.一种基于巴氏距离最优小波包分解的语音情感特征提取方法,其特征在于,包括以下步骤:
步骤1:接收情感语音片段输入;
步骤2:将情感语音片段数字化以提供数字语音信号X;
步骤3:对数字语音信号X进行预处理,得到有效语音帧集合;
步骤4:构造巴氏距离最优小波包基;
步骤5:利用步骤4构造的巴氏距离最优小波包基对有效语音帧进行小波包分解,得到各有效语音帧的小波包系数;
步骤6:利用步骤5得到的有效语音帧小波包系数计算各有效语音帧的情感特征;
步骤4中所述的巴氏距离最优小波包基的构造方法如下:
步骤4.1:采集已知情感类别的语音片段,作为小波包构造数据集;
步骤4.2:对小波包构造数据集的情感语音片段数字化以提供小波包构造数字语音信号;
步骤4.3:采用步骤3所述的预处理方法,对小波包构造数字语音信号进行预处理,得到小波包构造有效语音帧集合其中l为情感类别标号,L为情感类别总数,Nl为情感类别l的小波包构造有效语音帧的总帧数,为情感类别l的第m个小波包构造有效语音帧;
步骤4.4:构造J层满二叉树结构作为完全小波包分解树,将其表示为J=5,其树节点以二元组(j,p)表示,0≤j≤J,0≤p≤2j-1,j为树节点的深度,p为中同一深度j下位于该节点左侧的节点总数目;
步骤4.5:对各小波包构造有效语音帧按照满二叉树结构进行小波包分解,小波包分解的具体步骤如下:
步骤4.5.1:对于各小波包构造有效语音帧且1≤m≤Nl、1≤l≤L,计算其在小波包树根节点(0,0)上的小波包系数
W ( 0,0 ) m , ( l ) ( n 1 ) = F s - 1 / 2 &CenterDot; t m ( l ) ( n 1 ) , 0 &le; n 1 &le; 255 - - ( 11 )
其中Fs表示数字语音信号采样频率,为情感类别l的第m个小波包构造有效语音帧,在第n1个离散点上的值,为小波包构造有效语音帧在小波包树根节点(0,0)上的第n1个小波包系数;
步骤4.5.2:对于各小波包构造有效语音帧且1≤m≤Nl、1≤l≤L,将在小波包树根节点(0,0)上的小波包系数作为初始值,通过马拉Mallat算法依次计算在各小波包树节点处的小波包系数
其中1≤j≤J、0≤p≤2j-1,为情感类别l的第m个小波包构造有效语音帧在小波包树节点(j,p)上的第r个小波包系数,且p为偶数表示在小波包树节点(j-1,p/2)上的第r'个小波包系数,且p为奇数表示在小波包树节点(j-1,(p-1)/2)上的第r'个小波包系数,h(r'-2r)为10阶多贝西Daubechies小波低通滤波器h在第r'-2r个离散点上的值,g(r'-2r)为10阶多贝西Daubechies小波高通滤波器g在第r'-2r个离散点上的值,10阶多贝西Daubechies小波低通和高通滤波器h、g满足:
g ( r &OverBar; ) = ( - 1 ) r &OverBar; h ( 19 - r &OverBar; ) , 0 &le; r &OverBar; &le; 19 - - - ( 13 )
其中为10阶多贝西Daubechies小波高通滤波器g在第个离散点上的值,为10阶多贝西Daubechies小波低通滤波器h在第个离散点上的值;
步骤4.6:对于各小波包构造有效语音帧且1≤m≤Nl、1≤l≤L,计算在各小波包树节点(j,p)且0≤j≤J、0≤p≤2j-1的归一化能量
E &OverBar; ( j , p ; t m ( l ) ) = | | W ( j , p ) m , ( l ) | | 2 / | | t m ( l ) | | 2 - - - ( 14 )
其中为情感类别l的第m个小波包构造有效语音帧在节点(j,p)上的小波包系数,的欧氏范数,的欧式范数;
步骤4.7:计算各小波包树节点(j,p)且0≤j≤J、0≤p≤2j-1的巴氏距离,具体步骤如下:
步骤4.7.1:对各小波包树节点(j,p)且0≤j≤J、0≤p≤2j-1,分别计算情感类别l且1≤l≤L的全体小波包构造有效语音帧在节点(j,p)处的归一化能量均值μl(j,p)和方差
&mu; l ( j , p ) = 1 N l &Sigma; m = 1 N l E &OverBar; ( j , p ; t m ( l ) ) - - - ( 15 )
&sigma; l 2 ( j , p ) = 1 N l &Sigma; m = 1 N l ( E &OverBar; ( j , p ; t m ( l ) ) - &mu; l ( j , p ) ) 2 - - - ( 16 )
其中μl(j,p)表示情感类别l的全体小波包构造有效语音帧在节点(j,p)处的归一化能量均值,表示情感类别l的全体小波包构造有效语音帧在节点(j,p)处的归一化能量方差;
步骤4.7.2:计算各小波包树节点(j,p)且0≤j≤J、0≤p≤2j-1中的所有两两情感类别l1、l2的类间巴氏距离DBh(j,p;l1,l2),其中,1≤l1≤L,1≤l2≤L,且l1≠l2
D Bh ( j , p ; l 1 , l 2 ) = 1 8 ( &mu; l 2 ( j , p ) - &mu; l 1 ( j , p ) ) 2 [ &sigma; l 1 2 ( j , p ) + &sigma; l 2 2 ( j , p ) 2 ] - 1 + 1 2 ln ( &sigma; l 1 2 ( j , p ) + &sigma; l 2 2 ( j , p ) ) / 2 &sigma; l 1 ( j , p ) &CenterDot; &sigma; l 2 ( j , p ) - - - ( 17 )
其中DBh(j,p;l1,l2)表示在节点(j,p)处情感类别l1、l2的类间巴氏距离,表示情感类别l1的全体小波包构造有效语音帧在节点(j,p)处的归一化能量均值,表示情感类别l2的全体小波包构造有效语音帧在节点(j,p)处的归一化能量均值,分别表示情感类别l1的全体小波包构造有效语音帧在节点(j,p)处的归一化能量方差和标准差,分别表示情感类别l2的全体小波包构造有效语音帧在节点(j,p)处的归一化能量方差和标准差;
步骤4.7.3:计算各小波包树节点(j,p)且0≤j≤J、0≤p≤2j-1上的巴氏距离DBh(j,p):
D Bh ( j , p ) = &Sigma; l 1 = 1 L - 1 &Sigma; l 2 = l 1 + 1 L P l 1 P l 2 D Bh ( j , p ; l 1 , l 2 ) - - - ( 18 )
其中DBh(j,p)表示节点(j,p)处的巴氏距离,分别表示情感类别l1与l2的先验概率:
P l 1 = N l 1 &Sigma; l = 1 L N l - - - ( 19 )
P l 2 = N l 2 &Sigma; l = 1 L N l - - - ( 20 )
其中分别表示情感类别l1与l2的小波包构造有效语音帧的总帧数,Nl为情感类别l的小波包构造有效语音帧的总帧数;
步骤4.8:依据巴氏距离并采用自底至顶的搜索方法构造最优小波包树,最优小波包树的所有叶节点对应的小波包基即为巴氏距离最优小波包基,具体步骤如下:
步骤4.8.1:初始化小波包树结构为用“*”标记的所有叶节点;
步骤4.8.2:对j=J-1,...,0,p=0,...,2j-1,依次执行:
将节点(j,p)的巴氏距离与其两个子节点(j+1,2p)、(j+1,2p+1)的巴氏距离之和进行比较,若
DBh(j,p)>DBh(j+1,2p)+DBh(j+1,2p+1)   (21)
则用“*”标记节点(j,p),否则不标记节点(j,p),且更新DBh(j,p)值为
DBh(j,p)=DBh(j+1,2p)+DBh(j+1,2p+1)   (22)
其中DBh(j,p)表示节点(j,p)的巴氏距离,DBh(j+1,2p)、DBh(j+1,2p+1)分别表示节点(j+1,2p)、(j+1,2p+1)的巴氏距离;
步骤4.8.3:从小波包树最顶层开始,从上至下移除所有标记为“*”的节点的所有后继结点,得到最优小波包树,最优小波包树的所有叶节点{(ji,pi)}1≤i≤I对应的小波包基即为巴氏距离最优小波包基,其中I为最优小波包树的叶节点总数;
步骤5中所述的有效语音帧小波包分解方法如下:
步骤5.1:对于各有效语音帧sk且1≤k≤K,其在小波包树根节点(0,0)上的小波包系数为:
w ( 0,0 ) k ( n 2 ) = F s - 1 / 2 &CenterDot; s k ( n 2 ) , 0 &le; n 2 &le; 255 - - - ( 23 )
其中Fs表示采样频率,sk(n2)为有效语音帧sk在第n2个离散点上的值,为有效语音帧sk在小波包树根节点(0,0)上的第n2个小波包系数;
步骤5.2:对于各有效语音帧sk且1≤k≤K,将sk在小波包树根节点(0,0)上的小波包系数作为初始值,通过马拉Mallat算法计算sk在最优小波包树叶节点{(ji,pi)}1≤i≤I处的小波包系数:
其中表示有效语音帧sk在最优小波包树叶节点(ji,pi)处的第r1个小波包系数,且pi为偶数表示sk在小波包树节点(ji-1,pi/2)上的第r2个小波包系数,且pi为奇数表示sk在小波包树节点2上)的第r2个小波包系数,h(r2-2r1)和g(r2-2r1)分别为10阶多贝西Daubechies小波低通和高通滤波器h和g在第r2-2r1个离散点上的值;
步骤6中所述的各有效语音帧的情感特征计算方法如下:
步骤6.1:对最优小波包树的全体叶节点{(ji,pi)}1≤i≤I,按步骤4.7计算巴氏距离并将全体叶节点{(ji,pi)}1≤i≤I的巴氏距离按由大到小顺序进行排序,排序后的叶节点表示为(j′1,p′1),(j′2,p′2),...,(j′I,p′I),选取巴氏距离排序前I'且I'<I的叶节点(j′1,p′1),(j′2,p′2),...,(j′I',p′I');
步骤6.2:对于各有效语音帧sk且1≤k≤K,计算sk在叶节点{(j′i',p′i')}1≤i'≤I'上的归一化能量:
E &OverBar; ( j i &prime; &prime; , p i &prime; &prime; ; s k ) = | | W ( j i &prime; &prime; , p i &prime; &prime; ) 2 | | 2 / | | s k | | 2 - - - ( 25 )
其中,(j′i',p′i')为巴氏距离排序第i'的最优小波包树叶节点,为有效语音帧sk在最优小波包树叶节点(j′i',p′i')上的小波包系数,的欧式范数,||sk||为sk的欧式范数;
步骤6.3:对于各有效语音帧sk且1≤k≤K,计算sk的对数帧能量ek
ek=lg||sk||2   (26)
其中,||sk||为sk的欧式范数;
步骤6.4:对于各有效语音帧sk且1≤k≤K,与对数帧能量ek共同构成sk的I'+1维情感特征ck
c k = ( E &OverBar; ( j 1 &prime; , p 1 &prime; ; s k ) , E &OverBar; ( j 2 &prime; , p 2 &prime; ; s k ) , . . . , E &OverBar; ( j I &prime; &prime; , p I &prime; &prime; ; s k ) , e k ) T - - - ( 27 )
式中,上标T表示向量的转置。
2.根据权利要求1所述的基于巴氏距离最优小波包分解的语音情感特征提取方法,其特征是,步骤3中所述的预处理包括如下步骤:
步骤3.1:对数字语音信号X按下式进行预加重,得到预加重后的语音信号
X &OverBar; ( n &OverBar; ) = X ( n &OverBar; ) - 0.9375 X ( n &OverBar; - 1 ) , 0 &le; n &OverBar; &le; N &OverBar; - 1 - - - ( 1 )
其中表示数字语音信号X的离散点序号,为数字语音信号X的长度,分别表示数字语音信号X在第个离散点上的值,表示预加重后的语音信号在第个离散点上的值,X(-1)=0;
步骤3.2:采用交叠分段的方法对预加重后的语音信号进行分帧,前一帧起点与后一帧起点的距离称为帧移,此处帧移取8ms,即在采样率Fs=16kHz下取128点,每一帧长取16ms,即取256点,经过分帧得到语音帧集合 { x &OverBar; k &prime; } 1 &le; k &prime; &le; K &prime; ;
x &OverBar; k &prime; &le; ( n ) = X &OverBar; ( n + 128 ( k &prime; - 1 ) ) , 0 &le; n &le; 255,1 &le; k &prime; &le; K &prime; - - - ( 2 )
其中为语音帧集合中的第k'个语音帧,n表示语音帧离散点序号,k'为语音帧序号,K'为语音帧总帧数,且满足:
表示向下取整;
步骤3.3:对各语音帧1≤k'≤K',选择窗口长度为256点的汉明窗w进行加窗处理,得到加窗语音帧xk',加窗语音帧xk'为:
x k &prime; ( n ) = x &OverBar; k &prime; ( n ) w ( n ) , 0 &le; n &le; 255,1 &le; k &prime; &le; K &prime; - - - ( 4 )
其中xk'(n)、w(n)分别表示xk'w在第n个离散点上的值,窗口长度为256点的汉明窗函数为:
w ( n ) = 0.54 - 0.46 cos ( 2 &pi;n 255 ) , 0 &le; n &le; 255 - - - ( 5 )
步骤3.4:采用公知的能量过零率双门限判决法完成端点检测,具体步骤如下:
步骤3.4.1:对各加窗语音帧xk',1≤k'≤K',计算短时能量Ek'和短时过零率Zk'
E k &prime; = &Sigma; n = 0 255 x k &prime; 2 ( n ) , 1 &le; k &prime; &le; K &prime; - - - ( 6 )
Z k &prime; = 1 2 &Sigma; n = 1 255 | sgn [ x k &prime; ( n ) ] - sgn [ x k &prime; ( n - 1 ) ] | - - - ( 7 )
其中Ek'表示加窗语音帧xk'的短时能量,Zk'表示xk'的短时过零率,xk'(n)为加窗语音帧xk'在第n个采样点上的值,xk'(n-1)为xk'在第n-1个采样点上的值,sgn[xk'(n)]、sgn[xk'(n-1)]分别为xk'(n)、xk'(n-1)的符号函数,即:
sgn [ x ] = 1 x &GreaterEqual; 0 - 1 x < 0 - - - ( 8 )
步骤3.4.2:确定短时能量阈值τE和短时过零率阈值τZ
&tau; E = 1 K &prime; &Sigma; k &prime; = 1 K &prime; E k &prime; - - - ( 9 )
&tau; Z = 0.1 K &prime; &Sigma; k &prime; = 1 K &prime; Z k &prime; - - - ( 10 )
其中K'为语音帧总帧数;
步骤3.4.3:对各加窗语音帧首先用短时能量作第一级判别,将短时能量值大于阈值τE的加窗语音帧标记为有效语音帧,将帧序号最小的有效语音帧作为当前有效语音帧集合的起始帧,将帧序号最大的有效语音帧作为当前有效语音帧集合的结束帧,然后用短时过零率作第二级判别,即以起始帧为起点按照帧序号由大到小的顺序逐帧判别,将短时过零率大于阈值τZ的加窗语音帧标记为有效语音帧,并且以结束帧为起点按照帧序号由小到大的顺序逐帧判别,将短时过零率大于阈值τZ的加窗语音帧标记为有效语音帧,将两级判别后得到的有效语音帧集合记为{sk}1≤k≤K,其中k为有效语音帧序号,K为有效语音帧总帧数,sk为有效语音帧集合中的第k个有效语音帧。
CN201310168156.6A 2013-05-06 2013-05-06 基于巴氏距离最优小波包分解的语音情感特征提取方法 Expired - Fee Related CN103236258B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310168156.6A CN103236258B (zh) 2013-05-06 2013-05-06 基于巴氏距离最优小波包分解的语音情感特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310168156.6A CN103236258B (zh) 2013-05-06 2013-05-06 基于巴氏距离最优小波包分解的语音情感特征提取方法

Publications (2)

Publication Number Publication Date
CN103236258A CN103236258A (zh) 2013-08-07
CN103236258B true CN103236258B (zh) 2015-09-16

Family

ID=48884294

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310168156.6A Expired - Fee Related CN103236258B (zh) 2013-05-06 2013-05-06 基于巴氏距离最优小波包分解的语音情感特征提取方法

Country Status (1)

Country Link
CN (1) CN103236258B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6251145B2 (ja) * 2014-09-18 2017-12-20 株式会社東芝 音声処理装置、音声処理方法およびプログラム
CN105070300A (zh) * 2015-08-12 2015-11-18 东南大学 一种基于说话人标准化变换的语音情感特征选择方法
CN105139867A (zh) * 2015-08-12 2015-12-09 东南大学 基于拼音韵母说话内容标准化语音情感特征选择方法
CN106297823A (zh) * 2016-08-22 2017-01-04 东南大学 一种基于环境噪声标准化变换的语音情感特征选择方法
CN108198545B (zh) * 2017-12-19 2021-11-02 安徽建筑大学 一种基于小波变换的语音识别方法
CN108814567A (zh) * 2018-04-16 2018-11-16 东南大学 一种居家养老智能守护机器人系统
CN109492546B (zh) * 2018-10-24 2022-08-12 广东工业大学 一种融合小波包与互信息的生物信号特征提取方法
CN110428841B (zh) * 2019-07-16 2021-09-28 河海大学 一种基于不定长均值的声纹动态特征提取方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1975856A (zh) * 2006-10-30 2007-06-06 邹采荣 一种基于支持向量机的语音情感识别方法
CN101894550A (zh) * 2010-07-19 2010-11-24 东南大学 基于情感对特征优化的语音情感分类方法
CN102737629A (zh) * 2011-11-11 2012-10-17 东南大学 一种嵌入式语音情感识别方法及装置
CN102779510A (zh) * 2012-07-19 2012-11-14 东南大学 基于特征空间自适应投影的语音情感识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101014321B1 (ko) * 2009-02-24 2011-02-14 한국전자통신연구원 최소 분류 오차 기법을 이용한 감정 인식 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1975856A (zh) * 2006-10-30 2007-06-06 邹采荣 一种基于支持向量机的语音情感识别方法
CN101894550A (zh) * 2010-07-19 2010-11-24 东南大学 基于情感对特征优化的语音情感分类方法
CN102737629A (zh) * 2011-11-11 2012-10-17 东南大学 一种嵌入式语音情感识别方法及装置
CN102779510A (zh) * 2012-07-19 2012-11-14 东南大学 基于特征空间自适应投影的语音情感识别方法

Also Published As

Publication number Publication date
CN103236258A (zh) 2013-08-07

Similar Documents

Publication Publication Date Title
CN103236258B (zh) 基于巴氏距离最优小波包分解的语音情感特征提取方法
CN102163427B (zh) 一种基于环境模型的音频异常事件检测方法
CN102737629B (zh) 一种嵌入式语音情感识别方法及装置
CN102799605B (zh) 一种广告监播方法和系统
CN101159834B (zh) 一种重复性视频音频节目片段的检测方法和系统
CN102446504B (zh) 语音/音乐识别方法及装置
CN106503805A (zh) 一种基于机器学习的双模态人人对话情感分析系统及其方法
CN103295573B (zh) 基于费舍比率最优小波包分解的语音情感特征提取方法
CN105006230A (zh) 一种面向非特定人的语音敏感信息检测和过滤方法
CN106846803A (zh) 基于音频的交通事件检测装置及方法
CN109119072A (zh) 基于dnn-hmm的民航陆空通话声学模型构建方法
CN112735383A (zh) 语音信号的处理方法、装置、设备及存储介质
CN103794211B (zh) 一种语音识别方法及系统
CN101221622A (zh) 一种广告检测识别方法及系统
CN108364641A (zh) 一种基于长时帧背景噪声估计的语音情感特征提取方法
CN110728991B (zh) 一种改进的录音设备识别算法
CN105070300A (zh) 一种基于说话人标准化变换的语音情感特征选择方法
CN102708861A (zh) 基于支持向量机的不良语音识别方法
CN104269169A (zh) 一种混叠音频事件分类方法
CN108492819A (zh) 语言练习方法、装置、智能车载终端及存储介质
CN104361887A (zh) 行车噪声环境下的快速声学事件检测系统
CN109670453A (zh) 一种提取短视频主题的方法
CN114373476A (zh) 一种基于多尺度残差注意力网络的声音场景分类方法
CN108735230A (zh) 基于混合音频的背景音乐识别方法、装置及设备
CN111653270B (zh) 语音处理方法、装置、计算机可读存储介质及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150916