CN103236258B

CN103236258B - 基于巴氏距离最优小波包分解的语音情感特征提取方法

Info

Publication number: CN103236258B
Application number: CN201310168156.6A
Authority: CN
Inventors: 李悦; 章国宝; 黄永明
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2013-05-06
Filing date: 2013-05-06
Publication date: 2015-09-16
Anticipated expiration: 2033-05-06
Also published as: CN103236258A

Abstract

本发明涉及一种基于巴氏距离最优小波包分解的语音情感特征提取方法。所述方法包括面向情感分类问题的巴氏距离准则函数定义方法，最优小波包基构造方法，以及语音情感特征提取方法。该方法定义针对情感分类问题的巴氏距离准则函数用于最优小波包基的构造，在对语音信号进行最优小波包分解的基础上提取语音情感特征。本发明通过构建针对情感分类问题的小波包基对语音信号进行分析和特征提取，降低了说话人身份、语音内容等无关信息对情感识别准确度的影响，同时具有较低的计算复杂度。

Description

基于巴氏距离最优小波包分解的语音情感特征提取方法

技术领域

本发明专利涉及一种语音情感特征提取方法，尤其涉及一种基于巴氏距离最优小波包分解的语音情感特征提取方法，属于语音情感识别技术领域。

背景技术

随着信息技术的快速发展和各种智能终端的兴起，现有的人机交互系统正面临日益严峻的考验。为了克服人机交互的障碍，使人机交互更为方便、自然，机器的情感智能正日益受到各领域研究者的重视。语音作为现今人机交互中极具发展潜力的高效交互媒介，携带着丰富的情感信息。语音情感识别作为情感智能的重要研究课题，在远程教学、辅助测谎、自动远程电话服务中心以及临床医学，智能玩具，智能手机等方面有着广阔的应用前景，吸引了越来越多研究机构与研究学者的广泛关注。

为了提高语音情感识别的精度和鲁棒性，提取充分反映说话人情感状态的语音情感特征至关重要。从原始语音数据中提取有效的情感信息，剔除情感无关的说话人身份信息、说话内容信息等冗余信息是提高语音情感识别系统鲁棒性的重点和难点。

作为一种新兴的信号时频分析技术，小波包分析因其在数字信号处理中的灵活性和有效性，越来越得到研究者的广泛重视。对于分类问题，建立反映类别可分性的准则函数用于构建最优小波包基，对信号进行相应的最优小波包分解，并保留最具类别区分性的信号分量，剔除冗余信息，是提高分类准确度的重要途径。这种基于分类能力的有监督的特征提取思想和方法在语音情感识别研究中具有重要的意义。

发明内容

本发明解决的问题是：为提高语音情感识别的精度和鲁棒性，结合以上背景和需求，本发明提供一种基于巴氏距离最优小波包分解的语音情感特征提取方法。这种语音情感特征提取方法能够利用小波包分解的灵活性，以反映情感类别区分能力的巴氏距离为准则构建最优小波包基，并提取具有情感区分性的特征参数，作为语音情感特征。

本发明的技术解决方案是：

一种基于巴氏距离最优小波包分解的语音情感特征提取方法，包括以下步骤：

步骤1：接收情感语音片段输入；

步骤2：将情感语音片段数字化以提供数字语音信号X；

步骤3：对数字语音信号X进行预处理，得到有效语音帧集合；

步骤4：构造巴氏距离最优小波包基；

步骤5：利用步骤4构造的巴氏距离最优小波包基对有效语音帧进行小波包分解，得到各有效语音帧的小波包系数；

步骤6：利用步骤5得到的有效语音帧小波包系数计算各有效语音帧的情感特征。

本发明的有益效果包括：

(1)本发明利用了小波包分解方式的多样性，采用反映情感类别区分能力的巴氏距离作为选取最优小波包基的准则函数，构建了巴氏距离准则下的最优小波包基，用于语音信号的分析；

(2)本发明根据巴氏距离与情感类别区分能力的相关性，有选择性地保留具有较大巴氏距离的最优小波包树叶节点用于语音情感特征提取，剔除原始语音信号中与情感类别相关性较弱的冗余信息，有助于提高语音情感识别的鲁棒性；

(3)本发明建立了一种反映类别区分能力的巴氏距离准则函数用于最优小波包基的构造，该准则函数具有可加性，从而保证了自底至顶的快速算法可以用于最优小波包基的构造，有效降低了最优小波包基构造和语音情感特征提取的计算复杂度。

附图说明

图1为本发明的语音情感特征提取流程图；

图2为巴氏距离最优小波包基构造流程图。

具体实施方式

步骤1：接收情感语音片段输入；

步骤2：将情感语音片段数字化以提供数字语音信号X；

步骤4：构造巴氏距离最优小波包基；

步骤3中所述的预处理包括如下步骤：

步骤3.1：对数字语音信号X按下式进行预加重，得到预加重后的语音信号

\overset{&OverBar;}{X} (\overset{&OverBar;}{n}) = X (\overset{&OverBar;}{n}) - 0.9375 X (\overset{&OverBar;}{n} - 1),

0 \leq \overset{&OverBar;}{n} \leq \overset{&OverBar;}{N} - 1 - - - (1)

其中表示数字语音信号X的离散点序号，为数字语音信号X的长度，和分别表示数字语音信号X在第和个离散点上的值，表示预加重后的语音信号在第个离散点上的值，X(-1)=0；

步骤3.2：采用交叠分段的方法对预加重后的语音信号进行分帧，前一帧起点与后一帧起点的距离称为帧移，此处帧移取8ms，即在采样率F_s=16kHz下取128点，每一帧长取16ms，即取256点，经过分帧得到语音帧集合

{{\overset{&OverBar;}{x}}_{k^{'}}}_{1 \leq k^{'} \leq K^{'}} :

{\overset{&OverBar;}{x}}_{k^{'}} (n) = \overset{&OverBar;}{X} (n + 128 (k^{'} - 1))

0 \leq n \leq 255,1 \leq k^{'} \leq K^{'} - - - (2)

其中为语音帧集合中的第k'个语音帧，n表示语音帧离散点序号，k'为语音帧序号，K'为语音帧总帧数，且满足：

表示向下取整；

步骤3.3：对各语音帧1≤k'≤K'，选择窗口长度为256点的汉明窗w进行加窗处理，得到加窗语音帧x_k'，加窗语音帧x_k'为：

x_{k^{'}} (n) = {\overset{&OverBar;}{x}}_{k^{'}} (n) w (n),

0 \leq n \leq 255,1 \leq k^{'} \leq K^{'} - - - (4)

其中x_k'(n)、w(n)分别表示x_k'、w在第n个离散点上的值，窗口长度为256点的汉明窗函数为：

w (n) = 0.54 - 0.46 \cos (\frac{2 πn}{255}),

0 \leq n \leq 255 - - - (5)

步骤3.4：采用公知的能量过零率双门限判决法完成端点检测，具体步骤如下：

步骤3.4.1：对各加窗语音帧x_k'，1≤k'≤K'，计算短时能量E_k'和短时过零率Z_k'：

E_{k^{'}} = Σ_{n = 0}^{255} x_{k^{'}}^{2} (n) 1 \leq k^{'} \leq K^{'} - - - (6)

Z_{k^{'}} = \frac{1}{2} Σ_{n = 1}^{255} | sgn [x_{k^{'}} (n)] - sgn [x_{k^{'}} (n - 1)] | - - - (7)

其中E_k'表示加窗语音帧x_k'的短时能量，Z_k'表示x_k'的短时过零率，x_k'(n)为加窗语音帧x_k'在第n个采样点上的值，x_k'(n-1)为x_k'在第n-1个采样点上的值，sgn[x_k'(n)]、sgn[x_k'(n-1)]分别为x_k'(n)、x_k'(n-1)的符号函数，即：

sgn [x] = \{\begin{matrix} 1 & x &GreaterEqual; 0 \\ - 1 & x < 0 \end{matrix} - - - (8)

步骤3.4.2：确定短时能量阈值τ_E和短时过零率阈值τ_Z：

τ_{E} = \frac{1}{K^{'}} Σ_{k^{'} = 1}^{K^{'}} E_{k^{'}} - - - (9)

τ_{Z} = \frac{0.1}{K^{'}} Σ_{k^{'} = 1}^{K^{'}} Z_{k^{'}} - - - (10)

其中K'为语音帧总帧数；

步骤3.4.3：对各加窗语音帧首先用短时能量作第一级判别，将短时能量值大于阈值τ_E的加窗语音帧标记为有效语音帧，将帧序号最小的有效语音帧作为当前有效语音帧集合的起始帧，将帧序号最大的有效语音帧作为当前有效语音帧集合的结束帧，然后用短时过零率作第二级判别，即以起始帧为起点按照帧序号由大到小的顺序逐帧判别，将短时过零率大于阈值τ_Z的加窗语音帧标记为有效语音帧，并且以结束帧为起点按照帧序号由小到大的顺序逐帧判别，将短时过零率大于阈值τ_Z的加窗语音帧标记为有效语音帧，将两级判别后得到的有效语音帧集合记为{s_k}_1≤k≤K，其中k为有效语音帧序号，K为有效语音帧总帧数，s_k为有效语音帧集合中的第k个有效语音帧。

步骤4中所述的巴氏距离最优小波包基的构造方法如下：

步骤4.1：采集已知情感类别的语音片段，作为小波包构造数据集；

步骤4.2：对小波包构造数据集的情感语音片段数字化以提供小波包构造数字语音信号；

步骤4.3：采用步骤3所述的预处理方法，对小波包构造数字语音信号进行预处理，得到小波包构造有效语音帧集合其中l为情感类别标号，L为情感类别总数，N_l为情感类别l的小波包构造有效语音帧的总帧数，为情感类别l的第m个小波包构造有效语音帧；

步骤4.4：构造J层满二叉树结构作为完全小波包分解树，将其表示为J=5，其树节点以二元组(j,p)表示，0≤j≤J，0≤p≤2^j-1，j为树节点的深度，p为中同一深度j下位于该节点左侧的节点总数目；

步骤4.5：对各小波包构造有效语音帧按照满二叉树结构进行小波包分解，小波包分解的具体步骤如下：

步骤4.5.1：对于各小波包构造有效语音帧且1≤m≤N_l、1≤l≤L，计算其在小波包树根节点(0,0)上的小波包系数

W_{(0,0)}^{m, (l)} (n_{1}) = F_{s}^{- 1 / 2} \cdot t_{m}^{(l)} (n_{1}),

0 \leq n_{1} \leq 255 - - - (1)

其中F_s表示数字语音信号采样频率，为情感类别l的第m个小波包构造有效语音帧，为在第n₁个离散点上的值，为小波包构造有效语音帧在小波包树根节点(0,0)上的第n₁个小波包系数；

步骤4.5.2：对于各小波包构造有效语音帧且1≤m≤N_l、1≤l≤L，将在小波包树根节点(0,0)上的小波包系数作为初始值，通过马拉Mallat算法依次计算在各小波包树节点处的小波包系数

其中1≤j≤J、0≤p≤2^j-1，为情感类别l的第m个小波包构造有效语音帧在小波包树节点(j,p)上的第r个小波包系数，且p为偶数表示在小波包树节点(j-1,p/2)上的第r'个小波包系数，且p为奇数表示在小波包树节点(j-1,(p-1)/2)上的第r'个小波包系数，h(r'-2r)为10阶多贝西Daubechies小波低通滤波器h在第r'-2r个离散点上的值，g(r'-2r)为10阶多贝西Daubechies小波高通滤波器g在第r'-2r个离散点上的值，10阶多贝西Daubechies小波低通和高通滤波器h、g满足：

g (\overset{&OverBar;}{r}) = {(- 1)}^{\overset{&OverBar;}{r}} h (19 - \overset{&OverBar;}{r}),

0 \leq \overset{&OverBar;}{r} \leq 19 - - - (13)

其中为10阶多贝西Daubechies小波高通滤波器g在第个离散点上的值，为10阶多贝西Daubechies小波低通滤波器h在第个离散点上的值，10阶多贝西Daubechies小波低通和高通滤波器h、g系数见表1和表2；

表110阶Daubechies小波低通滤波器

表210阶Daubechies小波高通滤波器

步骤4.6：对于各小波包构造有效语音帧且1≤m≤N_l、1≤l≤L，计算在各小波包树节点(j,p)且0≤j≤J、0≤p≤2^j-1的归一化能量

\overset{&OverBar;}{E} (j, p; t_{m}^{(l)}) = {| | W_{(j, p)}^{m, (l)} | |}^{2} / {{| | t}_{m}^{(l)} | |}^{2} - - - (14)

其中为情感类别l的第m个小波包构造有效语音帧在节点(j,p)上的小波包系数，为的欧氏范数，为的欧式范数；

步骤4.7：计算各小波包树节点(j,p)且0≤j≤J、0≤p≤2^j-1的巴氏距离，具体步骤如下：

步骤4.7.1：对各小波包树节点(j,p)且0≤j≤J、0≤p≤2^j-1，分别计算情感类别l且1≤l≤L的全体小波包构造有效语音帧在节点(j,p)处的归一化能量均值μ_l(j,p)和方差

μ_{l} (j, p) = \frac{1}{N_{l}} Σ_{m = 1}^{N_{l}} \overset{&OverBar;}{E} (j, p; t_{m}^{(l)}) - - - (15)

σ_{l}^{2} (j, p) = \frac{1}{N_{l}} Σ_{m = 1}^{N_{l}} {(\overset{&OverBar;}{E} (j, p; t_{m}^{(l)}) - μ_{l} (j, p))}^{2} - - - (16)

其中μ_l(j,p)表示情感类别l的全体小波包构造有效语音帧在节点(j,p)处的归一化能量均值，表示情感类别l的全体小波包构造有效语音帧在节点(j,p)处的归一化能量方差；

步骤4.7.2：计算各小波包树节点(j,p)且0≤j≤J、0≤p≤2^j-1中的所有两两情感类别l₁、l₂的类间巴氏距离D_Bh(j,p;l₁,l₂)，其中，1≤l₁≤L，1≤l₂≤L，且l₁≠l₂：

D_{Bh} (j, p; l_{1}, l_{2}) = \frac{1}{8} {(μ_{l_{2}} (j, p) - μ_{l_{1}} (j, p))}^{2} {[\frac{σ_{l_{1}}^{2} (j, p) + σ_{l_{2}}^{2} (j, p)}{2}]}^{- 1} - - - (17)

+ \frac{1}{2} \ln \frac{(σ_{l_{1}}^{2} (j, p) + σ_{l_{2}}^{2} (j, p)) / 2}{σ_{l_{1}} (j, p) \cdot σ_{l_{2}} (j, p)}

其中D_Bh(j,p;l₁,l₂)表示在节点(j,p)处情感类别l₁、l₂的类间巴氏距离，表示情感类别l₁的全体小波包构造有效语音帧在节点(j,p)处的归一化能量均值，表示情感类别l₂的全体小波包构造有效语音帧在节点(j,p)处的归一化能量均值，和分别表示情感类别l₁的全体小波包构造有效语音帧在节点(j,p)处的归一化能量方差和标准差，和分别表示情感类别l₂的全体小波包构造有效语音帧在节点(j,p)处的归一化能量方差和标准差；

步骤4.7.3：计算各小波包树节点(j,p)且0≤j≤J、0≤p≤2^j-1上的巴氏距离D_Bh(j,p)：

D_{Bh} (j, p) = Σ_{l_{1} = 1}^{L - 1} Σ_{l_{2} = l_{1} + 1}^{L} P_{l_{1}} P_{l_{2}} D_{Bh} (j, p; l_{1}, l_{2}) - - - (18)

其中D_Bh(j,p)表示节点(j,p)处的巴氏距离，与分别表示情感类别l₁与l₂的先验概率：

P_{l_{1}} = \frac{N_{l_{1}}}{Σ_{l = 1}^{L} N_{l}} - - - (19)

P_{l_{2}} = \frac{N_{l_{2}}}{Σ_{l = 1}^{L} N_{l}} - - - (20)

其中和分别表示情感类别l₁与l₂的小波包构造有效语音帧的总帧数，N_l为情感类别l的小波包构造有效语音帧的总帧数；

步骤4.8：依据巴氏距离并采用自底至顶的搜索方法构造最优小波包树，最优小波包树的所有叶节点对应的小波包基即为巴氏距离最优小波包基，具体步骤如下：

步骤4.8.1：初始化小波包树结构为用“*”标记的所有叶节点；

步骤4.8.2：对j=J-1,...,0，p=0,...,2^j-1，依次执行：

将节点(j,p)的巴氏距离与其两个子节点(j+1,2p)、(j+1,2p+1)的巴氏距离之和进行比较，若

D_Bh(j,p)>D_Bh(j+1,2p)+D_Bh(j+1,2p+1) （21）

则用“*”标记节点(j,p)，否则不标记节点(j,p)，且更新D_Bh(j,p)值为

D_Bh(j,p)=D_Bh(j+1,2p)+D_Bh(j+1,2p+1) （22）

其中D_Bh(j,p)表示节点(j,p)的巴氏距离，D_Bh(j+1,2p)、D_Bh(j+1,2p+1)分别表示节点(j+1,2p)、(j+1,2p+1)的巴氏距离；

步骤4.8.3：从小波包树最顶层开始，从上至下移除所有标记为“*”的节点的所有后继结点，得到最优小波包树，最优小波包树的所有叶节点{(j_i,p_i)}_1≤i≤I对应的小波包基即为巴氏距离最优小波包基，其中I为最优小波包树的叶节点总数。

步骤5中所述的有效语音帧小波包分解方法如下：

步骤5.1：对于各有效语音帧s_k且1≤k≤K，其在小波包树根节点(0,0)上的小波包系数为：

W_{(0,0)}^{k} (n_{2}) = F_{s}^{- 1 / 2} \cdot s_{k} (n_{2}),

0 \leq n_{2} \leq 255 - - - (23)

其中F_s表示采样频率，s_k(n₂)为有效语音帧s_k在第n₂个离散点上的值，为有效语音帧s_k在小波包树根节点(0,0)上的第n₂个小波包系数；

步骤5.2：对于各有效语音帧s_k且1≤k≤K，将s_k在小波包树根节点(0,0)上的小波包系数作为初始值，通过马拉Mallat算法计算s_k在最优小波包树叶节点{(j_i,p_i)}_1≤i≤I处的小波包系数：

其中表示有效语音帧s_k在最优小波包树叶节点(j_i,p_i)处的第r₁个小波包系数，且p_i为偶数表示s_k在小波包树节点(j_i-1,p_i/2)上的第r₂个小波包系数，且p_i为奇数表示s_k在小波包树节点(j_i-1,(p_i-1)/2)上的第r₂个小波包系数，h(r₂-2r₁)和g(r₂-2r₁)分别为10阶多贝西Daubechies小波低通和高通滤波器h和g在第r₂-2r₁个离散点上的值。

步骤6中所述的各有效语音帧的情感特征计算方法如下：

步骤6.1：对最优小波包树的全体叶节点{(j_i,p_i)}_1≤i≤I，按步骤4.7计算巴氏距离并将全体叶节点{(j_i,p_i)}_1≤i≤I的巴氏距离按由大到小顺序进行排序，排序后的叶节点表示为选取巴氏距离排序前I'且I'<I的叶节点

步骤6.2：对于各有效语音帧s_k且1≤k≤K，计算s_k在叶节点上的归一化能量：

\overset{&OverBar;}{E} (j_{i^{'}}^{'}, p_{i^{'}}^{'}; s_{k}) = {| | W_{(j_{i^{'}}^{'}, p_{i^{'}}^{'})}^{k} | |}^{2} / {| | s_{k} | |}^{2} - - - (25)

其中，为巴氏距离排序第i'的最优小波包树叶节点，为有效语音帧s_k在最优小波包树叶节点上的小波包系数，为的欧式范数，为s_k的欧式范数；

步骤6.3：对于各有效语音帧s_k且1≤k≤K，计算s_k的对数帧能量e_k：

e_k=lg||s_k||² （26）

其中，||s_k||为s_k的欧式范数；

步骤6.4：对于各有效语音帧s_k且1≤k≤K，与对数帧能量e_k共同构成s_k的I'+1维情感特征c_k：

c_{k} {= (\overset{&OverBar;}{E} (j_{1}^{'}, p_{1}^{'}; s_{k}), \overset{&OverBar;}{E} (j_{2}^{'}, p_{2}^{'}; s_{k}), . . ., \overset{&OverBar;}{E} (j_{I^{'}}^{'}, p_{I^{'}}^{'}; s_{k}), e_{k})}^{T} - - - (27)

式中，上标T表示向量的转置。

以上的实施例只是已实现的有效具体实施方式之一，本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims

1.一种基于巴氏距离最优小波包分解的语音情感特征提取方法，其特征在于，包括以下步骤：

步骤1：接收情感语音片段输入；

步骤2：将情感语音片段数字化以提供数字语音信号X；

步骤4：构造巴氏距离最优小波包基；

步骤6：利用步骤5得到的有效语音帧小波包系数计算各有效语音帧的情感特征；

步骤4中所述的巴氏距离最优小波包基的构造方法如下：

步骤4.4：构造J层满二叉树结构作为完全小波包分解树，将其表示为J＝5，其树节点以二元组(j,p)表示，0≤j≤J，0≤p≤2^j-1，j为树节点的深度，p为中同一深度j下位于该节点左侧的节点总数目；

W_{(0,0)}^{m, (l)} (n_{1}) = {F_{s}}^{- 1 / 2} \cdot t_{m}^{(l)} (n_{1}), 0 \leq n_{1} \leq 255 - - (11)

g (\overset{&OverBar;}{r}) = {(- 1)}^{\overset{&OverBar;}{r}} h (19 - \overset{&OverBar;}{r}), 0 \leq \overset{&OverBar;}{r} \leq 19 - - - (13)

其中为10阶多贝西Daubechies小波高通滤波器g在第个离散点上的值，为10阶多贝西Daubechies小波低通滤波器h在第个离散点上的值；

\overset{&OverBar;}{E} (j, p; t_{m}^{(l)}) = {| | W_{(j, p)}^{m, (l)} | |}^{2} / {| | t_{m}^{(l)} | |}^{2} - - - (14)

μ_{l} (j, p) = \frac{1}{N_{l}} Σ_{m = 1}^{N_{l}} \overset{&OverBar;}{E} (j, p; t_{m}^{(l)}) - - - (15)

σ_{l}^{2} (j, p) = \frac{1}{N_{l}} Σ_{m = 1}^{N_{l}} {(\overset{&OverBar;}{E} (j, p; t_{m}^{(l)}) - μ_{l} (j, p))}^{2} - - - (16)

步骤4.7.2：计算各小波包树节点(j,p)且0≤j≤J、0≤p≤2^j-1中的所有两两情感类别l₁、l₂的类间巴氏距离D_Bh(j,p；l₁,l₂)，其中，1≤l₁≤L，1≤l₂≤L，且l₁≠l₂：

\begin{matrix} D_{Bh} (j, p; l_{1}, l_{2}) = \frac{1}{8} {(μ_{l_{2}} (j, p) - μ_{l_{1}} (j, p))}^{2} {[\frac{σ_{l_{1}}^{2} (j, p) + σ_{l_{2}}^{2} (j, p)}{2}]}^{- 1} \\ + \frac{1}{2} \ln \frac{(σ_{l_{1}}^{2} (j, p) + σ_{l_{2}}^{2} (j, p)) / 2}{σ_{l_{1}} (j, p) \cdot σ_{l_{2}} (j, p)} \end{matrix} - - - (17)

其中D_Bh(j,p；l₁,l₂)表示在节点(j,p)处情感类别l₁、l₂的类间巴氏距离，表示情感类别l₁的全体小波包构造有效语音帧在节点(j,p)处的归一化能量均值，表示情感类别l₂的全体小波包构造有效语音帧在节点(j,p)处的归一化能量均值，和分别表示情感类别l₁的全体小波包构造有效语音帧在节点(j,p)处的归一化能量方差和标准差，和分别表示情感类别l₂的全体小波包构造有效语音帧在节点(j,p)处的归一化能量方差和标准差；

D_{Bh} (j, p) = Σ_{l_{1} = 1}^{L - 1} Σ_{l_{2} = l_{1} + 1}^{L} P_{l_{1}} P_{l_{2}} D_{Bh} (j, p; l_{1}, l_{2}) - - - (18)

P_{l_{1}} = \frac{N_{l_{1}}}{Σ_{l = 1}^{L} N_{l}} - - - (19)

P_{l_{2}} = \frac{N_{l_{2}}}{Σ_{l = 1}^{L} N_{l}} - - - (20)

步骤4.8.2：对j＝J-1,...,0，p＝0,...,2^j-1，依次执行：

D_Bh(j,p)＞D_Bh(j+1,2p)+D_Bh(j+1,2p+1) (21)

D_Bh(j,p)＝D_Bh(j+1,2p)+D_Bh(j+1,2p+1) (22)

步骤4.8.3：从小波包树最顶层开始，从上至下移除所有标记为“*”的节点的所有后继结点，得到最优小波包树，最优小波包树的所有叶节点{(j_i,p_i)}_1≤i≤I对应的小波包基即为巴氏距离最优小波包基，其中I为最优小波包树的叶节点总数；

步骤5中所述的有效语音帧小波包分解方法如下：

w_{(0,0)}^{k} (n_{2}) = F_{s}^{- 1 / 2} \cdot s_{k} (n_{2}), 0 \leq n_{2} \leq 255 - - - (23)

其中表示有效语音帧s_k在最优小波包树叶节点(j_i,p_i)处的第r₁个小波包系数，且p_i为偶数表示s_k在小波包树节点(j_i-1,p_i/2)上的第r₂个小波包系数，且p_i为奇数表示s_k在小波包树节点2上)的第r₂个小波包系数，h(r₂-2r₁)和g(r₂-2r₁)分别为10阶多贝西Daubechies小波低通和高通滤波器h和g在第r₂-2r₁个离散点上的值；

步骤6中所述的各有效语音帧的情感特征计算方法如下：

步骤6.1：对最优小波包树的全体叶节点{(j_i,p_i)}_1≤i≤I，按步骤4.7计算巴氏距离并将全体叶节点{(j_i,p_i)}_1≤i≤I的巴氏距离按由大到小顺序进行排序，排序后的叶节点表示为(j′₁,p′₁),(j′₂,p′₂),...,(j′_I,p′_I)，选取巴氏距离排序前I'且I'＜I的叶节点(j′₁,p′₁),(j′₂,p′₂),...,(j′_I',p′_I')；

步骤6.2：对于各有效语音帧s_k且1≤k≤K，计算s_k在叶节点{(j′_i',p′_i')}_1≤i'≤I'上的归一化能量：

\overset{&OverBar;}{E} (j_{i^{'}}^{'}, p_{i^{'}}^{'}; s_{k}) = {| | W_{(j_{i^{'}}^{'}, p_{i^{'}}^{'})}^{2} | |}^{2} / {| | s_{k} | |}^{2} - - - (25)

其中，(j′_i',p′_i')为巴氏距离排序第i'的最优小波包树叶节点，为有效语音帧s_k在最优小波包树叶节点(j′_i',p′_i')上的小波包系数，为的欧式范数，||s_k||为s_k的欧式范数；

e_k＝lg||s_k||² (26)

其中，||s_k||为s_k的欧式范数；

c_{k} = {(\overset{&OverBar;}{E} (j_{1}^{'}, p_{1}^{'}; s_{k}), \overset{&OverBar;}{E} (j_{2}^{'}, p_{2}^{'}; s_{k}), . . ., \overset{&OverBar;}{E} (j_{I^{'}}^{'}, p_{I^{'}}^{'}; s_{k}), e_{k})}^{T} - - - (27)

式中，上标T表示向量的转置。

2.根据权利要求1所述的基于巴氏距离最优小波包分解的语音情感特征提取方法，其特征是，步骤3中所述的预处理包括如下步骤：

\overset{&OverBar;}{X} (\overset{&OverBar;}{n}) = X (\overset{&OverBar;}{n}) - 0.9375 X (\overset{&OverBar;}{n} - 1), 0 \leq \overset{&OverBar;}{n} \leq \overset{&OverBar;}{N} - 1 - - - (1)

其中表示数字语音信号X的离散点序号，为数字语音信号X的长度，和分别表示数字语音信号X在第和个离散点上的值，表示预加重后的语音信号在第个离散点上的值，X(-1)＝0；

步骤3.2：采用交叠分段的方法对预加重后的语音信号进行分帧，前一帧起点与后一帧起点的距离称为帧移，此处帧移取8ms，即在采样率F_s＝16kHz下取128点，每一帧长取16ms，即取256点，经过分帧得到语音帧集合

{{\overset{&OverBar;}{x}}_{k^{'}}}_{1 \leq k^{'} \leq K^{'}};

{\overset{&OverBar;}{x}}_{k^{'} \leq} (n) = \overset{&OverBar;}{X} (n + 128 (k^{'} - 1)), 0 \leq n \leq 255,1 \leq k^{'} \leq K^{'} - - - (2)

表示向下取整；

x_{k^{'}} (n) = {\overset{&OverBar;}{x}}_{k^{'}} (n) w (n), 0 \leq n \leq 255,1 \leq k^{'} \leq K^{'} - - - (4)

w (n) = 0.54 - 0.46 \cos (\frac{2 πn}{255}), 0 \leq n \leq 255 - - - (5)

E_{k^{'}} = Σ_{n = 0}^{255} x_{k^{'}}^{2} (n), 1 \leq k^{'} \leq K^{'} - - - (6)

Z_{k^{'}} = \frac{1}{2} Σ_{n = 1}^{255} | sgn [x_{k^{'}} (n)] - sgn [x_{k^{'}} (n - 1)] | - - - (7)

sgn [x] = \{\begin{matrix} 1 & x &GreaterEqual; 0 \\ - 1 & x < 0 \end{matrix} - - - (8)

步骤3.4.2：确定短时能量阈值τ_E和短时过零率阈值τ_Z：

τ_{E} = \frac{1}{K^{'}} Σ_{k^{'} = 1}^{K^{'}} E_{k^{'}} - - - (9)

τ_{Z} = \frac{0.1}{K^{'}} Σ_{k^{'} = 1}^{K^{'}} Z_{k^{'}} - - - (10)

其中K'为语音帧总帧数；