CN103295573A

CN103295573A - 基于费舍比率最优小波包分解的语音情感特征提取方法

Info

Publication number: CN103295573A
Application number: CN2013101683970A
Authority: CN
Inventors: 李悦; 章国宝; 黄永明
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2013-05-06
Filing date: 2013-05-06
Publication date: 2013-09-11
Anticipated expiration: 2033-05-06
Also published as: CN103295573B

Abstract

本发明涉及一种基于费舍比率最优小波包分解的语音情感特征提取方法。所述方法包括面向情感分类问题的准则函数定义方法，最优小波包基构造方法，以及语音情感特征提取方法。该方法定义针对情感分类问题的费舍比率准则函数用于最优小波包基的构造，在对语音信号进行最优小波包分解的基础上提取语音情感特征。本发明通过构建针对情感分类问题的小波包基对语音信号进行分析和特征提取，降低了说话人身份、语音内容等无关信息对情感识别准确度的影响，同时具有较低的计算复杂度。

Description

基于费舍比率最优小波包分解的语音情感特征提取方法

技术领域

本发明专利涉及一种语音情感特征提取方法，尤其涉及一种基于费舍比率最优小波包分解的语音情感特征提取方法，属于语音情感识别技术领域。

背景技术

随着信息技术的快速发展和各种智能终端的兴起，现有的人机交互系统正面临日益严峻的考验。为了克服人机交互的障碍，使人机交互更为方便、自然，机器的情感智能正日益受到各领域研究者的重视。语音作为现今人机交互中极具发展潜力的高效交互媒介，携带着丰富的情感信息。语音情感识别作为情感智能的重要研究课题，在远程教学、辅助测谎、自动远程电话服务中心以及临床医学，智能玩具，智能手机等方面有着广阔的应用前景，吸引了越来越多研究机构与研究学者的广泛关注。

为了提高语音情感识别的精度和鲁棒性，提取充分反映说话人情感状态的语音情感特征至关重要。从原始语音数据中提取有效的情感信息，剔除情感无关的说话人身份信息、说话内容信息等冗余信息是提高语音情感识别系统鲁棒性的重点和难点。

作为一种新兴的信号时频分析技术，小波包分析因其在数字信号处理中的灵活性和有效性，越来越得到研究者的广泛重视。对于分类问题，建立反映类别可分性的准则函数用于构建最优小波包基，对信号进行相应的最优小波包分解，并保留最具类别区分性的信号分量，剔除冗余信息，是提高分类准确度的重要途径。这种基于分类能力的有监督的特征提取思想和方法在语音情感识别研究中具有重要的意义。

发明内容

本发明解决的问题是：为提高语音情感识别的精度和鲁棒性，结合以上背景和需求，本发明提供一种基于费舍比率最优小波包分解的语音情感特征提取方法。这种语音情感特征提取方法能够利用小波包分解的灵活性，以反映情感分类能力的费舍比率为准则构建最优小波包基，并提取具有情感区分性的特征参数，作为语音情感特征。

本发明的技术解决方案是：

一种基于费舍比率最优小波包分解的语音情感特征提取方法，包括以下步骤：

步骤1：接收情感语音片段输入；

步骤2：将情感语音片段数字化以提供数字语音信号X；

步骤3：对数字语音信号X进行预处理，得到有效语音帧集合；

步骤4：构造费舍比率最优小波包基；

步骤5：利用步骤4构造的费舍比率最优小波包基对有效语音帧进行小波包分解，得到各有效语音帧的小波包系数；

步骤6：利用步骤5得到的有效语音帧小波包系数计算各有效语音帧的情感特征。

本发明的有益效果包括：

(1)本发明利用了小波包分解方式的多样性，采用反映情感类别区分能力的费舍比率作为选取最优小波包基的准则函数，构建了费舍比率准则下的最优小波包基，用于语音信号的分析；

(2)本发明根据费舍比率与情感类别区分能力的相关性，将费舍比值高的最优小波包树叶节点上的小波包系数用于语音情感特征提取，剔除原始语音信号中与情感类别相关性较弱的冗余信息，有助于提高语音情感识别的鲁棒性；

(3)本发明建立了一种反映类别区分能力的费舍比率准则函数用于最优小波包基的构造，该准则函数具有可加性，从而保证了自底至顶的快速算法可以用于最优小波包基的构造，有效降低了最优小波包基构造和语音情感特征提取的计算复杂度。

附图说明

图1为本发明的语音情感特征提取流程图；

图2为费舍比率最优小波包基构造流程图。

具体实施方式

步骤1：接收情感语音片段输入；

步骤2：将情感语音片段数字化以提供数字语音信号X；

步骤4：构造费舍比率最优小波包基；

步骤3中所述的预处理包括如下步骤：

步骤3.1：对数字语音信号X按下式进行预加重，得到预加重后的语音信号

\overset{&OverBar;}{X} (\overset{&OverBar;}{n}) = X (\overset{&OverBar;}{n}) - 0.9375 X (\overset{&OverBar;}{n} - 1), 0 \leq \overset{&OverBar;}{n} \leq \overset{&OverBar;}{N} - 1 - - - (1)

其中

表示数字语音信号X的离散点序号，

为数字语音信号X的长度，

和

分别表示数字语音信号X在第

和

个离散点上的值，

表示预加重后的语音信号在第

个离散点上的值，X(-1)=0；

步骤3.2：采用交叠分段的方法对预加重后的语音信号进行分帧，前一帧起点与后一帧起点的距离称为帧移，此处帧移取8ms，即在采样率F_s=16kHz下取128点，每一帧长取16ms，即取256点，

经过分帧得到语音帧集合

{\overset{&OverBar;}{x}}_{k^{'}} (n) = \overset{&OverBar;}{X} (n + 128 (k^{'} - 1)) 0 \leq n \leq 255,1 \leq k^{'} \leq K^{'} - - - (2)

其中

为语音帧集合中的第k'个语音帧，n表示语音帧离散点序号，k'为语音帧序号，K'为语音帧总帧数，且满足：

表示

向下取整；

步骤3.3：对各语音帧

1≤k'≤K'，选择窗口长度为256点的汉明窗w进行加窗处理，得到加窗语音帧x_k'，加窗语音帧x_k'为：

x_{k^{'}} (n) = {\overset{&OverBar;}{x}}_{k^{'}} (n) w (n), 0 \leq n \leq 255,1 \leq k^{'} \leq K^{'} - - - (4)

其中x_k'(n)、

w(n)分别表示x_k'、

w在第n个离散点上的值，窗口长度为256点的汉明窗函数为：

w (n) = 0.54 - 0.46 \cos (\frac{2 πn}{255}), 0 \leq n \leq 255 - - - (5)

步骤3.4：采用公知的能量过零率双门限判决法完成端点检测，具体步骤如下：

步骤3.4.1：对各加窗语音帧x_k'，1≤k'≤K'，计算短时能量E_k'和短时过零率Z_k'：

E_{k^{'}} = Σ_{n = 0}^{255} x_{k^{'}}^{2} (n) 1 \leq k^{'} \leq K^{'} - - - (6)

Z_{k^{'}} = \frac{1}{2} Σ_{n = 1}^{255} | sgn [x_{k^{'}} (n)] - sgn [x_{k^{'}} (n - 1)] | - - - (7)

其中E_k'表示加窗语音帧x_k'的短时能量，Z_k'表示x_k'的短时过零率，x_k'(n)为加窗语音帧x_k'在第n个采样点上的值，x_k'(n-1)为x_k'在第n-1个采样点上的值，sgn[x_k'(n)]、sgn[x_k'(n-1)]分别为x_k'(n)、x_k'(n-1)的符号函数，即：

sgn [x] = \{\begin{matrix} 1 & x &GreaterEqual; 0 \\ - 1 & x < 0 \end{matrix} - - - (8)

步骤3.4.2：确定短时能量阈值τ_E和短时过零率阈值τ_Z：

τ_{E} = \frac{1}{K^{'}} Σ_{k^{'} = 1}^{K^{'}} E_{k^{'}} - - - (9)

τ_{Z} = \frac{0.1}{K^{'}} Σ_{k^{'} = 1}^{K^{'}} Z_{k^{'}} - - - (10)

其中K'为语音帧总帧数；

步骤3.4.3：对各加窗语音帧首先用短时能量作第一级判别，将短时能量值大于阈值τ_E的加窗语音帧标记为有效语音帧，将帧序号最小的有效语音帧作为当前有效语音帧集合的起始帧，将帧序号最大的有效语音帧作为当前有效语音帧集合的结束帧，然后用短时过零率作第二级判别，即以起始帧为起点按照帧序号由大到小的顺序逐帧判别，将短时过零率大于阈值τ_Z的加窗语音帧标记为有效语音帧，并且以结束帧为起点按照帧序号由小到大的顺序逐帧判别，将短时过零率大于阈值τ_Z的加窗语音帧标记为有效语音帧，将两级判别后得到的有效语音帧集合记为{s_k}_1≤k≤K，其中k为有效语音帧序号，K为有效语音帧总帧数，s_k为有效语音帧集合中的第k个有效语音帧。

步骤4中所述的费舍比率最优小波包基的构造方法如下：

步骤4.1：采集已知情感类别的语音片段，作为小波包构造数据集；

步骤4.2：对小波包构造数据集的情感语音片段数字化以提供小波包构造数字语音信号；

步骤4.3：采用步骤3所述的预处理方法，对小波包构造数字语音信号进行预处理，得到小波包构造有效语音帧集合

其中l为情感类别标号，L为情感类别总数，N_l为情感类别l的小波包构造有效语音帧的总帧数，

为情感类别l的第m个小波包构造有效语音帧；

步骤4.4：构造J层满二叉树结构

作为完全小波包分解树，将其表示为其树节点以二元组(j,p)表示，0≤j≤J，0≤p≤2^j-1，j为树节点的深度，p为

中同一深度j下位于该节点左侧的节点总数目；

步骤4.5：对各小波包构造有效语音帧

按照满二叉树结构

进行小波包分解，小波包分解的具体步骤如下：

步骤4.5.1：对于各小波包构造有效语音帧

且1≤m≤N_l、1≤l≤L，计算其在小波包树根节点(0,0)上的小波包系数

W_{(0,0)}^{m, (l)} (n_{1}) = F_{s}^{- 1 / 2} \cdot t_{m}^{(l)} (n_{1}), 0 \leq n_{1} \leq 255 - - - (11)

其中F_s表示数字语音信号采样频率，为小波包构造有效语音帧

在第n₁个离散点上的值，

为情感类别l的第m个小波包构造有效语音帧

在小波包树根节点(0,0)上的第n₁个小波包系数；

步骤4.5.2：对于各小波包构造有效语音帧

且1≤m≤N_l、1≤l≤L，将

在小波包树根节点(0,0)上的小波包系数

作为初始值，通过马拉Mallat算法依次计算

在各小波包树节点处的小波包系数

其中1≤j≤J、0≤p≤2^j-1，

为情感类别l的第m个小波包构造有效语音帧

在小波包树节点(j,p)上的第r个小波包系数，

且p为偶数表示

在小波包树节点(j-1,p/2)上的第r'个小波包系数，

且p为奇数表示

在小波包树节点(j-1,(p-1)/2)上的第r'个小波包系数，h(r'-2r)为10阶多贝西Daubechies小波低通滤波器h在第r'-2r个离散点上的值，g(r'-2r)为10阶多贝西Daubechies小波高通滤波器g在第r'-2r个离散点上的值，10阶多贝西Daubechies小波低通和高通滤波器h、g满足：

g (\overset{&OverBar;}{r}) = {(- 1)}^{\overset{&OverBar;}{r}} h (19 - \overset{&OverBar;}{r}), 0 \leq \overset{&OverBar;}{r} \leq 19 - - - (13)

其中

为10阶多贝西Daubechies小波高通滤波器g在第

个离散点上的值，

为10阶多贝西Daubechies小波低通滤波器h在第

个离散点上的值，10阶多贝西Daubechies小波低通和高通滤波器h、g系数见表1和表2；

表1 10阶Daubechies小波低通滤波器

表2 10阶Daubechies小波高通滤波器

步骤4.6：对于各小波包构造有效语音帧

且1≤m≤N_l、1≤l≤L，计算

在各小波包树节点(j,p)且0≤j≤J、0≤p≤2^j-1的归一化能量

\overset{&OverBar;}{E} (j, p; t_{m}^{(l)}) = {| | W_{(j, p)}^{m, (l)} | |}^{2} / {| | t_{m}^{(l)} | |}^{2} - - - (14)

其中

为情感类别l的第m个小波包构造有效语音帧在节点(j,p)上的小波包系数，为

的欧氏范数，为

的欧式范数；

步骤4.7：计算各小波包树节点(j,p)且0≤j≤J、0≤p≤2^j-1的费舍比率，具体步骤如下：

步骤4.7.1：对各小波包树节点(j,p)且0≤j≤J、0≤p≤2^j-1，分别计算情感类别l且1≤l≤L的全体小波包构造有效语音帧在节点(j,p)处的归一化能量均值μ_l(j,p)和方差

并计算全体小波包构造有效语音帧的归一化能量均值μ(j,p)：

μ_{l} (j, p) = \frac{1}{N_{l}} Σ_{m = 1}^{N_{l}} \overset{&OverBar;}{E} (j, p; t_{m}^{(l)}) - - - (15)

σ_{l}^{2} (j, p) = \frac{1}{N_{l}} Σ_{m = 1}^{N_{l}} {(\overset{&OverBar;}{E} (j, p; t_{m}^{(l)}) - μ_{l} (j, p))}^{2} - - - (16)

μ (j, p) = \frac{1}{N} Σ_{l = 1}^{L} Σ_{m = 1}^{N_{l}} \overset{&OverBar;}{E} (j, p; t_{m}^{(l)}) - - - (17)

其中N为小波包构造有效语音帧的总帧数：

N = Σ_{l = 1}^{L} N_{l} - - - (18)

步骤4.7.2：对各小波包树节点(j,p)且0≤j≤J、0≤p≤2^j-1，计算类内离散度S_w(j,p)和类间离散度S_b(j,p)：

S_{w} (j, p) = Σ_{l = 1}^{L} \frac{N_{l}}{N} \cdot σ_{l}^{2} (j, p) - - - (19)

S_{b} (j, p) = Σ_{l = 1}^{L} \frac{N_{l}}{N} {(μ (j, p) - μ_{l} (j, p))}^{2} - - - (20)

步骤4.7.3：对各小波包树节点(j,p)且0≤j≤J、0≤p≤2^j-1，计算费舍比率D_F(j,p)：

D_{F} (j, p) = \frac{S_{b} (j, p)}{S_{w} (j, p)} - - - (21)

D_F(j,p)表示小波包树节点(j,p)的费舍比率；

步骤4.8：依据费舍比率并采用自底至顶的搜索方法构造最优小波包树，最优小波包树的所有叶节点对应的小波包基即为费舍比率最优小波包基，具体步骤如下：

步骤4.8.1：初始化小波包树结构为

用“*”标记

的所有叶节点；

步骤4.8.2：对j=J-1,...,0，p=0,...,2^j-1，依次执行：

将节点(j,p)的费舍比率与其两个子节点(j+1,2p)、(j+1,2p+1)费舍比率之和进行比较，若

D_F(j,p)＞D_F(j+1,2p)+D_F(j+1,2p+1) （22）

则用“*”标记节点(j,p)，否则不标记节点(j,p)，且更新D_F(j,p)值为

D_F(j,p)=D_F(j+1,2p)+D_F(j+1,2p+1) （23）

其中D_F(j,p)表示节点(j,p)的费舍比率，D_F(j+1,2p)、D_F(j+1,2p+1)分别表示节点(j+1,2p)、(j+1,2p+1)的费舍比率；

步骤4.8.3：从小波包树

最顶层开始，从上至下移除所有标记为“*”的节点的所有后继结点，得到最优小波包树，最优小波包树的所有叶节点{(j_i,p_i)}_1≤i≤I对应的小波包基即为费舍比率最优小波包基，其中I为最优小波包树的叶节点总数。

步骤5中所述的有效语音帧小波包分解方法如下：

步骤5.1：对于各有效语音帧s_k且1≤k≤K，其在小波包树根节点(0,0)上的小波包系数为：

W_{(0,0)}^{k} (n_{2}) = F_{s}^{- 1 / 2} \cdot S_{k} (n_{2}), 0 \leq n_{2} \leq 255 - - - (24)

其中F_s表示采样频率，s_k(n₂)为有效语音帧s_k在第n₂个离散点上的值，

在小波包树根节点(0,0)上的第n₂个小波包系数；

步骤5.2：对于各有效语音帧s_k且1≤k≤K，将s_k在小波包树根节点(0,0)上的小波包系数作为初始值，通过马拉Mallat算法计算s_k在最优小波包树叶节点{(j_i,p_i)}_1≤i≤I处的小波包系数：

其中为有效语音帧s_k在最优小波包树叶节点(j_i,p_i)处的第r₁个小波包系数，

且p_i为偶数表示s_k在小波包树节点(j_i-1,p_i/2)上的第r₂个小波包系数，

且p_i为奇数表示s_k在小波包树节点(j_i-1,(p_i-1)/2)上的第r₂个小波包系数，h(r₂-2r₁)和g(r₂-2r₁)分别为10阶多贝西Daubechies小波低通和高通滤波器h和g在第r₂-2r₁个离散点上的值。

步骤6中所述的各有效语音帧的情感特征计算方法如下：

步骤6.1：对最优小波包树的全体叶节点{(j_i,p_i)}_1≤i≤I，按步骤4.7计算费舍比率并将全体叶节点{(j_i,p_i)}_1≤i≤I的费舍比率按由高到低顺序进行排序，排序后的叶节点表示为(j′₁，p′₁),(j′₂,p′₂),...,(j′_I,p′_I)，选取费舍比率排序前I'且I'＜I的叶节点(j′₁,p′₁),(j′₂,p′₂),...,(j′_I′,p′_I′)；

步骤6.2：对于各有效语音帧s_k且1≤k≤K，计算s_k在叶节点{j′_i′,p′_i′)}_1≤i′≤I _′上的归一化能量：

\overset{&OverBar;}{E} (j_{i^{'}}^{'}, p_{i^{'}}^{'}; s_{k}) = {| | W_{(j_{i^{'}}^{'}, p_{i^{'}}^{'})}^{k} | |}^{2} / {| | s_{k} | |}^{2} - - - (26)

其中，(j′_i′,p′_i′)为费舍比率排序第i'的最优小波包树叶节点，为有效语音帧s_k在最优小波包树叶节点(j′_i′,p′_i′)点上的小波包系数，

为

的欧式范数，||s_k||为s_k的欧式范数；

步骤6.3：对于各有效语音帧s_k且1≤k≤K，计算s_k的对数帧能量e_k：

e_k=lg||s_k||² （27）

其中，||s_k||为s_k的欧式范数；

步骤6.4：对于各有效语音帧s_k且1≤k≤K，

与对数帧能量e_k共同构成s_k的I'+1维情感特征c_k：

c_{k} = {(\overset{&OverBar;}{E} (j_{1}^{'}, p_{1}^{'}; s_{k}), \overset{&OverBar;}{E} (j_{2}^{'}, p_{2}^{'}; s_{k}), . . ., \overset{&OverBar;}{E} (j_{I^{'}}^{'}, p_{I^{'}}^{'}; s_{k}), e_{k})}^{T} - - - (28)

式中，上标T表示向量的转置。

以上的实施例只是已实现的有效具体实施方式之一，本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims

1.一种基于费舍比率最优小波包分解的语音情感特征提取方法，其特征在于，包括以下步骤：

步骤1：接收情感语音片段输入；

步骤2：将情感语音片段数字化以提供数字语音信号X；

步骤4：构造费舍比率最优小波包基；

2.根据权利要求1所述的基于费舍比率最优小波包分解的语音情感特征提取方法，其特征是，步骤3中所述的预处理包括如下步骤：

\overset{&OverBar;}{X} (\overset{&OverBar;}{n}) = X (\overset{&OverBar;}{n}) - 0.9375 X (\overset{&OverBar;}{n} - 1), 0 \leq \overset{&OverBar;}{n} \leq \overset{&OverBar;}{N} - 1 - - - (1)

其中

表示数字语音信号X的离散点序号，

为数字语音信号X的长度，

和

分别表示数字语音信号X在第

和

个离散点上的值，

表示预加重后的语音信号在第

个离散点上的值，X(-1)=0；

步骤3.2：采用交叠分段的方法对预加重后的语音信号

进行分帧，前一帧起点与后一帧起点的距离称为帧移，此处帧移取8ms，即在采样率F_s=16kHz下取128点，每一帧长取16ms，即取256点，

经过分帧得到语音帧集合

{\overset{&OverBar;}{x}}_{k^{'}} (n) = \overset{&OverBar;}{x} (n + 128 (k^{'} - 1)) 0 \leq n \leq 255,1 \leq k^{'} \leq K^{'} - - - (2)

其中

表示

向下取整；

步骤3.3：对各语音帧

x_{k^{'}} (n) = {\overset{&OverBar;}{x}}_{k^{'}} (n) w (n), 0 \leq n \leq 255,1 \leq k^{'} \leq K^{'} - - - (4)

其中x_k'(n)、

w(n)分别表示x_k'、w在第n个离散点上的值，窗口长度为256点的汉明窗函数为：

w (n) = 0.54 - 0.46 \cos (\frac{2 πn}{255}), 0 \leq n \leq 255 - - - (5)

E_{k^{'}} = Σ_{n = 0}^{255} x_{k^{'}}^{2} (n) 1 \leq k^{'} \leq K^{'} - - - (6)

Z_{k^{'}} = \frac{1}{2} Σ_{n = 1}^{255} | sgn [x_{k^{'}} (n)] - sgn [x_{k^{'}} (n - 1)] | - - - (7)

sgn [x] = \{\begin{matrix} 1 & x &GreaterEqual; 0 \\ - 1 & x < 0 \end{matrix} - - - (8)

步骤3.4.2：确定短时能量阈值τ_E和短时过零率阈值τ_Z：

τ_{E} = \frac{1}{K^{'}} Σ_{k^{'} = 1}^{K^{'}} E_{k^{'}} - - - (9)

τ_{Z} = \frac{0.1}{K^{'}} Σ_{k^{'} = 1}^{K^{'}} Z_{k^{'}} - - - (10)

其中K'为语音帧总帧数；

3.根据权利要求1所述的基于费舍比率最优小波包分解的语音情感特征提取方法，其特征是，步骤4中所述的费舍比率最优小波包基的构造方法如下：

步骤4.3：采用步骤3所述的预处理方法，对小波包构造数字语音信号进行预处理，得到小波包构造有效语音帧集合其中l为情感类别标号，L为情感类别总数，N_l为情感类别l的小波包构造有效语音帧的总帧数，

为情感类别l的第m个小波包构造有效语音帧；

步骤4.4：构造J层满二叉树结构

作为完全小波包分解树，将其表示为

其树节点以二元组(j,p)表示，0≤j≤J，0≤p≤2^j-1，j为树节点的深度，p为

中同一深度j下位于该节点左侧的节点总数目；

步骤4.5：对各小波包构造有效语音帧

按照满二叉树结构进行小波包分解，小波包分解的具体步骤如下：

步骤4.5.1：对于各小波包构造有效语音帧

W_{(0,0)}^{m, (l)} (n_{1}) = F_{s}^{- 1 / 2} \cdot t_{m}^{(l)} (n_{1}), 0 \leq n_{1} \leq 255 - - - (11)

其中F_s表示数字语音信号采样频率，为小波包构造有效语音帧在第n₁个离散点上的值，

为情感类别l的第m个小波包构造有效语音帧

在小波包树根节点(0,0)上的第n₁个小波包系数；

步骤4.5.2：对于各小波包构造有效语音帧

且1≤m≤N_l、1≤l≤L，将在小波包树根节点(0,0)上的小波包系数

作为初始值，通过马拉Mallat算法依次计算

在各小波包树节点处的小波包系数

其中1≤j≤J、0≤p≤2^j-1，

为情感类别l的第m个小波包构造有效语音帧

在小波包树节点(j,p)上的第r个小波包系数，

且p为偶数表示

在小波包树节点(j-1,p/2)上的第r'个小波包系数，

且p为奇数表示

g (\overset{&OverBar;}{r}) = {(- 1)}^{\overset{&OverBar;}{r}} h (19 - \overset{&OverBar;}{r}), 0 \leq \overset{&OverBar;}{r} \leq 19 - - - (13)

其中

为10阶多贝西Daubechies小波高通滤波器g在第

个离散点上的值，

为10阶多贝西Daubechies小波低通滤波器h在第

个离散点上的值；

步骤4.6：对于各小波包构造有效语音帧且1≤m≤N_l、1≤l≤L，计算在各小波包树节点(j,p)且0≤j≤J、0≤p≤2^j-1的归一化能量

\overset{&OverBar;}{E} (j, p; t_{m}^{(l)}) = {| | W_{(j, p)}^{m, (l)} | |}^{2} / {| | t_{m}^{(l)} | |}^{2} - - - (14)

其中

为情感类别l的第m个小波包构造有效语音帧在节点(j,p)上的小波包系数，

为

的欧氏范数，

为

的欧式范数；

并计算全体小波包构造有效语音帧

的归一化能量均值μ(j,p)：

μ_{l} (j, p) = \frac{1}{N_{l}} Σ_{m = 1}^{N_{l}} \overset{&OverBar;}{E} (j, p; t_{m}^{(l)}) - - - (15)

σ_{l}^{2} (j, p) = \frac{1}{N_{l}} Σ_{m = 1}^{N_{l}} {(\overset{&OverBar;}{E} (j, p; t_{m}^{(l)}) - μ_{l} (j, p))}^{2} - - - (16)

μ (j, p) = \frac{1}{N} Σ_{l = 1}^{L} Σ_{m = 1}^{N_{l}} \overset{&OverBar;}{E} (j, p; t_{m}^{(l)}) - - - (17)

其中N为小波包构造有效语音帧的总帧数：

N = Σ_{l = 1}^{L} N_{l} - - - (18)

S_{w} (j, p) = Σ_{l = 1}^{L} \frac{N_{l}}{N} \cdot σ_{l}^{2} (j, p) - - - (19)

S_{b} (j, p) = Σ_{l = 1}^{L} \frac{N_{l}}{N} {(μ (j, p) - μ_{l} (j, p))}^{2} - - - (20)

D_{F} (j, p) = \frac{S_{b} (j, p)}{S_{w} (j, p)} - - - (21)

D_F(j,p)表示小波包树节点(j,p)的费舍比率；

步骤4.8.1：初始化小波包树结构为

用“*”标记

的所有叶节点；

步骤4.8.2：对j=J-1,...,0，p=0,...,2^j-1，依次执行：

D_F(j,p)＞D_F(j+1,2p)+D_F(j+1,2p+1) （22）

D_F(j,p)=D_F(j+1,2p)+D_F(j+1,2p+1) （23）

步骤4.8.3：从小波包树最顶层开始，从上至下移除所有标记为“*”的节点的所有后继结点，得到最优小波包树，最优小波包树的所有叶节点{(j_i,p_i)}_1≤i≤I对应的小波包基即为费舍比率最优小波包基，其中I为最优小波包树的叶节点总数。

4.根据权利要求1所述的基于费舍比率最优小波包分解的语音情感特征提取方法，其特征是，步骤5中所述的有效语音帧小波包分解方法如下：

步骤5.1：对于各有效语音帧s_k且1≤k≤K，其在小波包树根节点(0,0)上的小波包系数

为：

W_{(0,0)}^{k} (n_{2}) = F_{s}^{- 1 / 2} \cdot S_{k} (n_{2}), 0 \leq n_{2} \leq 255 - - - (24)

为s_k在小波包树根节点(0,0)上的第n₂个小波包系数；

其中

为有效语音帧s_k在最优小波包树叶节点(j_i,p_i)处的第r₁个小波包系数，

5.根据权利要求1所述的基于费舍比率最优小波包分解的语音情感特征提取方法，其特征是，步骤6中所述的各有效语音帧的情感特征计算方法如下：

步骤6.1：对最优小波包树的全体叶节点{(j_i,p_i)}_1≤i≤I，按步骤4.7计算费舍比率并将全体叶节点{(j_i,p_i)}_1≤i≤I的费舍比率按由高到低顺序进行排序，排序后的叶节点表示为(j′₁,p′₁),(j′₂,p′₂),...,(j′_I,p′_I)，选取费舍比率排序前I'且I'＜I的叶节点(j′₁,p′₁),(j′₂,p′₂),...,(j′_I′,p′_I′)；

步骤6.2：对于各有效语音帧s_k且1≤k≤K，计算s_k在叶节点{（j′_i′,p′_i′)}_{1≤i′≤I′}上的归一化能量：

\overset{&OverBar;}{E} (j_{i^{'}}^{'}, p_{i^{'}}^{'}; s_{k}) = {| | W_{(j_{i^{'}}^{'}, p_{i^{'}}^{'})}^{k} | |}^{2} / {| | s_{k} | |}^{2} - - - (26)

其中,(j′_i′,p′_i′)，为费舍比率排序第i'的最优小波包树叶节点，

为有效语音帧s_k在最优小波包树叶节点(j′_i′,p′_i′)上的小波包系数，

为

的欧式范数，||s_k||为s_k的欧式范数；

e_k=lg||s_k||² （27）

其中，||s_k||为s_k的欧式范数；

步骤6.4：对于各有效语音帧s_k且1≤k≤K，

与对数帧能量e_k共同构成s_k的I'+1维情感特征c_k：

c_{k} = {(\overset{&OverBar;}{E} (j_{1}^{'}, p_{1}^{'}; s_{k}), \overset{&OverBar;}{E} (j_{2}^{'}, p_{2}^{'}; s_{k}), . . ., \overset{&OverBar;}{E} (j_{I^{'}}^{'}, p_{I^{'}}^{'}; s_{k}), e_{k})}^{T} - - - (28)

式中，上标T表示向量的转置。