CN105070300A

CN105070300A - 一种基于说话人标准化变换的语音情感特征选择方法

Info

Publication number: CN105070300A
Application number: CN201510494162.XA
Authority: CN
Inventors: 黄永明; 吴奥; 章国宝
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2015-08-12
Filing date: 2015-08-12
Publication date: 2015-11-18

Abstract

本发明公开了一种基于说话人标准化变换的语音情感特征选择方法，包括语音片段轨迹模型建立，说话人标准化，语音表达因素与特征表现相关性的量化以及语音情感选择。该方法在建立轨迹模型的基础上量化语音表达因素与特征表现相关性，从而选择语音情感特征。本发明通过构建针对情感分类问题的语音轨迹模型，量化语音表达中各个因素与特征表现相关性，利用说话人标准化方法，降低了说话人身份、语音内容等无关信息对于语音特征表现的影响，选择出含有较多情感信息的语音特征，同时具有较低的计算复杂度。

Description

一种基于说话人标准化变换的语音情感特征选择方法

技术领域

本发明涉及一种语音情感特征选择方法，尤其涉及一种基于语音轨迹模型的语音情感特征选择方法，属于语音情感识别技术领域。

背景技术

随着信息技术的快速发展和各种智能终端的兴起，现有的人机交互系统正面临日益严峻的考验。为了克服人机交互的障碍，使人机交互更为方便、自然，机器的情感智能正日益受到各领域研究者的重视。语音作为现今人机交互中极具发展潜力的高效交互媒介，携带着丰富的情感信息。语音情感识别作为情感智能的重要研究课题，在远程教学、辅助测谎、自动远程电话服务中心以及临床医学，智能玩具，智能手机等方面有着广阔的应用前景，吸引了越来越多研究机构与研究学者的广泛关注。

为了提高语音情感识别的精度和鲁棒性，提取充分反映说话人情感状态的语音情感特征至关重要。从原始语音数据中提取有效的情感信息，剔除情感无关的说话人身份信息等冗余信息是提高语音情感识别系统鲁棒性的重点和难点。

作为一种新兴的语音分析技术，语音片段轨迹模型因其在语音信号处理中的灵活性和有效性，越来越得到研究者的广泛重视。对于分类问题，建立语音片段轨迹模型，量化语音表达因素与特征表现的相关性，进而对语音中说话人进行标准化，降低了说话人身份、语音内容等无关信息对于语音特征表现的影响，选择出含有较多情感信息的语音特征。这种基于语音表达因素与特征表现的相关性特征提取思想和方法在语音情感识别研究中具有重要的意义。

发明内容

技术问题：本发明提供一种能够提高语音情感识别的鲁棒性，降低了说话人身份、语音内容等无关信息对于语音特征表现的影响，可以选择出含有较多情感信息语音特征的基于说话人标准化变换的语音情感特征选择方法。

技术方案：本发明的基于说话人标准化变换的语音情感特征选择方法，包括以下步骤：

步骤1：对情感语音片段数字化后的数字语音信号X进行预处理，得到有效语音帧集合，对所述有效语音帧集合中每个语音片段X′提取一个D维的特征A，得到一个特征矩阵C：

C = [\begin{matrix} c_{1, 1} & ... & c_{1, t} & ... & c_{1, D} \\ c_{2, 1} & ... & c_{2, t} & ... & c_{2, D} \\ ... & ... & ... & ... & ... \\ c_{m, 1} & ... & c_{m, t} & ... & c_{m, D} \\ ... & ... & ... & ... & ... \\ c_{K, 1} & ... & c_{K, t} & ... & c_{K, D} \end{matrix}] = [\begin{matrix} C_{1} & ... & C_{t} & ... & C_{D} \end{matrix}] - - - (1)

其中，K为有效语音帧帧长，A表示语音片段提取的特征，D表示特征A的维数，c_m，t表示特征矩阵中一个元素，C_t表示特征矩阵中一个列向量，其中t为特征矩阵中列标，t＝1，2，...，D，m为特征矩阵中行标，m＝1，2，...，K；

步骤2：把所述特征矩阵C转换为一个轨迹模型方程：C＝ZB+E，其中B表示轨迹参数矩阵，E表示残差向量矩阵，Z表示负责将语音片段的时间度量归一化的设计矩阵；

然后构建行数为K，列数为轨迹模型展开阶次J加1的设计矩阵Z，其中元素v为设计矩阵行标，j为设计矩阵列标，v＝1，2，...，K，j＝1，2，...，J+1；

步骤3：对每个语音片段，利用最大似然估计来计算轨迹参数矩阵B_q：

B_q＝(Z′_qZ_q)^-1Z′_qC_q(2)

其中，q为语音片段编号，Z_q，C_q分别为第q个语音片段的设计矩阵和特征矩阵，Z′_q为Z_q的转置矩阵；

然后计算每个语音片段的残差协方差矩阵∑_q：

Σ_{q} = \frac{E_{q}^{'} E_{q}}{K_{q}} = \frac{{(C_{q} - Z_{q} B_{q})}^{'} (C_{q} - Z_{q} B_{q})}{K_{q}} - - - (3)

K_q是第q个语音片段的帧数；

步骤4：对说话人进行标准化：

选取语音库中发音最标准的说话人作为参考标准，其语音片段X_ref的声学特征用轨迹模型表示为{B_ref，∑_ref，K}，需要标准化的其他说话人语音片段，即需要变换的语音片段X_i的声学特征用轨迹模型表示为{B_i，∑_i，K}，其中B_ref表示参考语音片段X_ref的平均轨迹向量，∑_ref表示参考语音片段X_ref的残差协方差矩阵，B_i表示需要变换语音片段X_i的平均轨迹向量，∑_i表示参考语音片段X_i的残差协方差矩阵；

首先根据下式进行白化转换：

X^{w} = D_{i}^{- \frac{1}{2}} V_{i}^{'} (X_{i} - B_{i}) - - - (4)

其中，V_i，D_i分别为∑_i对应的特征向量矩阵和特征值矩阵，是白化变换，X^w表示白化变换后的数据，即X_i解相关数据；

然后根据下式进行说话人标准化：

X^{n} = V_{r e f} D_{r e f}^{\frac{1}{2}} X^{w} + B_{r e f} - - - (5)

Xⁿ表示X_i利用参考语音片段X_ref标准化后的数据，V_ref，D_ref分别表示∑_ref对应的特征向量矩阵和特征值矩阵；

步骤5：计算各个影响语音表达的因素在语音表达中与声学特征的相关性，包括：标准化后情感因素与声学特征的相关性、标准化后说话人因素与声学特征的相关性；

步骤6：相关性比较：将所有声学特征中，与情感因素的相关性大于与标准化后的说话人因素相关性的特征作为语音情感识别特征。

进一步的，本发明方法中，所述步骤1中的预处理包括如下步骤：

步骤1.1：对数字语音信号X按下式进行预加重，得到预加重后的语音信号

\overset{&OverBar;}{X} (\overset{&OverBar;}{n}) = X (\overset{&OverBar;}{n}) - 0.9375 X (\overset{&OverBar;}{n} - 1), 0 \leq \overset{&OverBar;}{n} \leq \overset{&OverBar;}{N} - 1

其中表示数字语音信号X的离散点序号，为数字语音信号X的长度，和分别表示数字语音信号X在第和个离散点上的值，表示预加重后的语音信号在第个离散点上的值，X(-1)＝0；

步骤1.2：采用交叠分段的方法对预加重后的语音信号进行分帧，前一帧起点与后一帧起点的距离称为帧移，此处帧移取8ms，即在采样率F_s＝16kHz下取128点，每一帧长取16ms，即取256点，经过分帧得到语音帧集合

{\overset{&OverBar;}{x}}_{k^{,}} (n) = \overset{&OverBar;}{X} (n + 128 (k^{'} - 1)), 0 \leq n \leq 255, 1 \leq k^{'} \leq K^{'}

其中为语音帧集合中的第k′个语音帧，n表示语音帧离散点序号，k′为语音帧序号，K′为语音帧总帧数，且满足：

表示向下取整；

步骤1.3：对各语音帧1≤k′≤K′，选择窗口长度为256点的汉明窗w进行加窗处理，得到加窗语音帧x_k′为：

x_{k^{'}} (n) = {\overset{&OverBar;}{x}}_{k^{'}} (n) w (n), 0 \leq n \leq 255, 1 \leq k^{'} \leq K^{'}

其中x_k′(n)、w(n)分别表示x_k′、w在第n个离散点上的值，窗口长度为256点的汉明窗函数为：

w (n) = 0.54 - 0.46 c o s (\frac{2 π n}{255}), 0 \leq n \leq 255

步骤1.4：对各加窗语音帧x_k′，1≤k′≤K′，计算短时能量E_k′和短时过零率Z_k′：

E_{k^{'}} = Σ_{n = 0}^{255} x_{k^{'}}^{2} (n), 1 \leq k^{'} \leq K^{'}

Z_{k^{'}} = \frac{1}{2} Σ_{n = 1}^{255} | sgn [x_{k^{'}} (n)] - sgn [x_{k^{'}} (n - 1)] |

其中E_k′表示加窗语音帧x_k′的短时能量，Z_k′表示x_k′的短时过零率，x_k′(n)为加窗语音帧x_k′在第n个采样点上的值，x_k′(n-1)为x_k′在第n-1个采样点上的值，sgn[x_k′(n)]、sgn[x_k′(n-1)]分别为x_k′(n)、x_k′(n-1)的符号函数，即：

sgn [x] = \{\begin{matrix} 1, & x &GreaterEqual; 0 \\ - 1, & x < 0 \end{matrix}

步骤1.5：确定短时能量阈值t_E和短时过零率阈值t_Z：

t_{E} = \frac{1}{K^{'}} Σ_{k^{'} = 1}^{K^{'}} E_{k^{'}}

t_{Z} = \frac{0.1}{K^{'}} Σ_{k^{'} = 1}^{K^{'}} Z_{k^{'}}

其中K′为语音帧总帧数；

步骤1.6：对各加窗语音帧，首先用短时能量作第一级判别，将短时能量值大于阈值t_E的加窗语音帧标记为一级判别有效语音帧，将帧序号最小的一级判别有效语音帧作为当前有效语音帧集合的起始帧，将帧序号最大的一级判别有效语音帧作为当前有效语音帧集合的结束帧，然后用短时过零率作第二级判别，即对当前有效语音帧集合，以起始帧为起点，按照帧序号由大到小的顺序逐帧判别，将短时过零率大于阈值t_Z的加窗语音帧标记为有效语音帧，并且以结束帧为起点按照帧序号由小到大的顺序逐帧判别，将短时过零率大于阈值t_Z的加窗语音帧标记为有效语音帧，将两级判别后得到的有效语音帧集合记为{s_k}_1≤k≤K，其中k为有效语音帧序号，K为有效语音帧总帧数，s_k为有效语音帧集合中的第k个有效语音帧。

进一步的，本发明方法中，所述步骤5中的标准化后情感因素与声学特征的相关性根据下式计算：

R M (A; E) = t r (Σ_{A}) - \underset{f &Element; F}{Σ} P (f_{e}) t r (Σ_{A} | f_{e}) - - - (6)

其中∑_A为上述标准化后的数据Xⁿ的残差协方差矩阵；

其中E表示影响语音情感表达中的情感因素的集合，f_e为影响语音情感表达中的情感因素，即集合E中的元素，tr(·)表示某个矩阵的迹，P(f_e)表示对应情感的语音样本在语音库中出现的概率，tr(∑_A|f_e)表示对应情感的语音样本中声学特征A的总的变化性；

所述标准化后说话人因素与声学特征的相关性根据下式计算：

R M (A; S p) = t r (Σ_{A}) - \underset{f &Element; F}{Σ} P (f_{S p}) t r (Σ_{A} | f_{S p}) - - - (7)

其中Sp表示影响语音情感表达中的中的说话人因素的集合，f_Sp为影响语音情感表达中的说话人因素，即集合Sp中的元素，有F＝{E，Sp}，F为影响语音情感表达中的因素的集合，P(f_Sp)表示对应说话人的语音样本在语音库中出现的概率，tr(∑_A|f_Sp)表示对应说话人的语音样本中声学特征A的总的变化性。

本发明能够利用语音片段轨迹模型，量化语音表达因素与特征表现的相关性，利用说话人标准化方法，降低了说话人身份、语音内容等无关信息对于语音特征表现的影响，选择出含有较多情感信息的语音特征。

有益效果：本发明与现有技术相比，具有以下优点：

建立轨迹模型方程，实质上是利用具体的函数曲线来拟合声学特征实时变化的曲线，得到轨迹模型参数{B，∑，K}，可以简单明了地表示出声学特征的固有的特性，在后续的说话人语音标准化以及计算情感因素与声学特征的相关性的计算中使用表征声学特征的轨迹模型参数，可以显著地降低运算的复杂度。与其他语音特征提取要求语音片段持续时间固定的方法相比，利用轨迹模型方程可以对持续时间变化的语音片段进行处理，然后通过设计矩阵将语音片段的时间度量归一化，简少了特征选择的计算量并且充分保留了特征信息。

本发明在进行特征选择之前，先进行说话人标准化变换，选择标准参考说话人语音片段，将其他语音片段参数映射至标准参考说话人语音片段，可以显著地降低了说话人因素与语音表达特征的相关性，降低了说话人身份信息对于语音特征表现的影响，剔除原始语音信号中与情感类别相关性较弱的冗余信息，有助于提高语音情感识别的鲁棒性。用二次轨迹模型参数来表示语音特征，将语音中说话人标准化处理转化为对轨迹模型参数处理，降低了实验数据以及计算的复杂度，提高了特征选择的效率。

附图说明

图1为本发明的语音情感特征选择流程图。

图2为本发明的轨迹参数模型建立与特征相关性计算选择流程图。

图3为本发明说话人标准化流程图。

具体实施方式

下面结合实施例和说明书附图对本发明作进一步的说明。

本发明的基于说话人标准化变换的语音情感特征提取方法，包括以下步骤：

步骤1：对情感语音片段进行预处理，并提取特征矩阵C；具体包括：

\overset{&OverBar;}{X} (\overset{&OverBar;}{n}) = X (\overset{&OverBar;}{n}) - 0.9375 X (\overset{&OverBar;}{n} - 1), 0 \leq \overset{&OverBar;}{n} \leq \overset{&OverBar;}{N} - 1 - - - (1)

{\overset{&OverBar;}{x}}_{k^{,}} (n) = \overset{&OverBar;}{X} (n + 128 (k^{'} - 1)), 0 \leq n \leq 255, 1 \leq k^{'} \leq K^{'} - - - (2)

表示向下取整；

步骤1.3：对各语音帧1≤k′≤K′，选择窗口长度为256点的汉明窗w进行加窗处理，得到加窗语音帧x_k′，加窗语音帧x_k′为：

x_{k^{'}} (n) = {\overset{&OverBar;}{x}}_{k^{'}} (n) w (n), 0 \leq n \leq 255, 1 \leq k^{'} \leq K^{'} - - - (4)

w (n) = 0.54 - 0.46 c o s (\frac{2 π n}{255}), 0 \leq n \leq 255 - - - (5)

步骤1.4：采用公知的能量过零率双门限判决法完成端点检测，具体步骤如下：

步骤1.4.1：对各加窗语音帧x_k′，1≤k′≤K′，计算短时能量E_k′和短时过零率Z_k′：

E_{k^{'}} = Σ_{n = 0}^{255} x_{k^{'}}^{2} (n), 1 \leq k^{'} \leq K^{'} - - - (6)

Z_{k^{'}} = \frac{1}{2} Σ_{n = 1}^{255} | sgn [x_{k^{'}} (n)] - sgn [x_{k^{'}} (n - 1)] | - - - (7)

sgn [x] = \{\begin{matrix} 1, & x &GreaterEqual; 0 \\ - 1, & x < 0 \end{matrix} - - - (8)

步骤1.4.2：确定短时能量阈值t_E和短时过零率阈值t_Z：

t_{E} = \frac{1}{K^{'}} Σ_{k^{'} = 1}^{K^{'}} E_{k^{'}} - - - (9)

t_{Z} = \frac{0.1}{K^{'}} Σ_{k^{'} = 1}^{K^{'}} Z_{k^{'}} - - - (10)

其中K′为语音帧总帧数；

步骤1.4.3：对各加窗语音帧，首先用短时能量作第一级判别，将短时能量值大于阈值t_E的加窗语音帧标记为一级判别有效语音帧，将帧序号最小的一级判别有效语音帧作为当前有效语音帧集合的起始帧，将帧序号最大的一级判别有效语音帧作为当前有效语音帧集合的结束帧，然后用短时过零率作第二级判别，即对当前有效语音帧集合，以起始帧为起点，按照帧序号由大到小的顺序逐帧判别，将短时过零率大于阈值t_Z的加窗语音帧标记为有效语音帧，并且以结束帧为起点按照帧序号由小到大的顺序逐帧判别，将短时过零率大于阈值t_Z的加窗语音帧标记为有效语音帧，将两级判别后得到的有效语音帧集合记为{s_k}_1≤k≤K，其中k为有效语音帧序号，K为有效语音帧总帧数，s_k为有效语音帧集合中的第k个有效语音帧。

步骤1.5：建立轨迹模型，得到轨迹模型参数，具体步骤如下：

对有效语音帧帧长为K(K＝10)的语音片段X′提取一个D维的特征A，得到一个特征矩阵C：

C = [\begin{matrix} c_{1, 1} & ... & c_{1, t} & ... & c_{1, D} \\ c_{2, 1} & ... & c_{2, t} & ... & c_{2, D} \\ ... & ... & ... & ... & ... \\ c_{m, 1} & ... & c_{m, t} & ... & c_{m, D} \\ ... & ... & ... & ... & ... \\ c_{K, 1} & ... & c_{K, t} & ... & c_{K, D} \end{matrix}] = [\begin{matrix} C_{1} & ... & C_{t} & ... & C_{D} \end{matrix}] - - - (11)

其中A表示语音片段提取的特征，D表示特征A的维数，特征矩阵C可以表示为一个轨迹模型方程：C＝ZB+E，其中B表示轨迹参数矩阵，E表示残差向量矩阵，Z表示设计矩阵，负责将语音片段的时间度量归一化，c_m，t表示特征矩阵中一个元素，C_t表示特征矩阵中一个列向量，其中t＝1，2，...，D，m＝1，2，...，K。

步骤2：将特征矩阵C的列向量利用轨迹模型方程表示，并按照二次轨迹模型展开如下：

C_i＝ZB_i+E_i(12)

即：

\begin{matrix} [\begin{matrix} c_{1, i} \\ c_{2, i} \\ ... \\ c_{K, i} \end{matrix}] = [\begin{matrix} 1 & 0 & 0 \\ 1 & \frac{1}{K - 1} & {(\frac{1}{K - 1})}^{2} \\ ... & ... & ... \\ 1 & 1 & 1 \end{matrix}] [\begin{matrix} b_{1, i} \\ b_{2, i} \\ b_{3, i} \end{matrix}] + [\begin{matrix} e_{1, i} \\ e_{2, i} \\ ... \\ e_{K, i} \end{matrix}] \\ i = 1, 2, ..., D \end{matrix} - - - (13)

C_{i} = [\begin{matrix} c_{1, i} \\ c_{2, i} \\ ... \\ c_{K, i} \end{matrix}]

表示特征矩阵C的第i维特征，

B_{i} = [\begin{matrix} b_{1, i} \\ b_{2, i} \\ b_{3, i} \end{matrix}]

表示轨迹参数矩阵第i个列向量，

E_{i} = [\begin{matrix} e_{1, i} \\ e_{2, i} \\ ... \\ e_{K, i} \end{matrix}]

表示残差向量矩阵列向量，

Z = [\begin{matrix} 1 & 0 & 0 \\ 1 & \frac{1}{K - 1} & {(\frac{1}{K - 1})}^{2} \\ ... & ... & ... \\ 1 & 1 & 1 \end{matrix}]

表示设计矩阵。

轨迹参数矩阵也可以表示为：

c_{n, i} = b_{1, i} + b_{2, i} (\frac{n - 1}{K - 1}) + b_{3, i} {(\frac{n - 1}{K - 1})}^{2} + e_{n, i} - - - (14)

其中：i＝1，2，...，Dn＝1，2，...，K。

B_q＝(Z′_qZ_q)^-1Z′_qC_q(15)

然后计算每个语音片段的残差协方差矩阵∑_q：

Σ_{q} = \frac{E_{q}^{'} E_{q}}{K_{q}} = \frac{{(C_{q} - Z_{q} B_{q})}^{'} (C_{q} - Z_{q} B_{q})}{K_{q}} - - - (16)

K_q是第q个语音片段的帧数；

因此对于一个给定的声学特征A，可以用一个K×1平均轨迹向量B来表示出A的平均轨线特征，用K×K的残差协方差矩阵∑来捕捉这个特征A的平均轨线周围的变化。因此语音片段X的声学特征可以由轨迹模型参数{B，∑，N}表示。

步骤4：对说话人进行标准化，具体步骤如下：

选取语音库中发音最标准的说话人作为参考标准，其语音片段X_ref的声学特征用轨迹模型表示为{B_ref，∑_ref，K}，需要标准化的其他说话人语音片段X_i的声学特征用轨迹模型表示为{B_i，∑_i，K}，其中B_ref表示参考语音片段X_i的平均轨迹向量，∑_ref表示参考语音片段X_ref的残差协方差矩阵，B_i表示需要变换语音片段X_i的平均轨迹向量，∑_i表示参考语音片段X_i的残差协方差矩阵。

首先根据下式进行白化转换：

X^{w} = D_{i}^{- \frac{1}{2}} V_{i}^{'} (X_{i} - B_{i}) - - - (18)

其中，V_i，D_i分别为∑_i对应的特征向量矩阵和特征值矩阵，是白化变换，X^w表示白化变换后的数据，即X_i解相关数据：

然后根据下式进行说话人标准化

X^{n} = V_{r e f} D_{r e f}^{\frac{1}{2}} X^{w} + B_{r e f} - - - (19)

Xⁿ表示X_i利用参考语音片段X_ref标准化后的数据，V_ref，D_ref分别表示∑_ref对应的特征向量矩阵和特征值矩阵；(19)式将参考音位p_ref的统计量B_ref，∑_ref关联至白化数据X^w，从而进行标准化处理。

所有的音位都可以通过上述操作使得其统计量与参考音位的统计量相似，从而减弱说话人在语音情感识别中的差异性。

步骤5：计算各个影响语音表达的因素在语音表达中与声学特征的相关性，包括：标准化后情感因素与声学特征的相关性、标准化后说话人因素与声学特征的相关性，具体步骤如下：

步骤5.1：因素分析与相关性计算：

首先计算声学特征与情感因素之间相关性：

R M (A; F) = t r (Σ_{A}) - \underset{f &Element; F}{Σ} P (f) t r (Σ_{A} | f) - - - (17)

F表示影响语音表达的因素，tr(·)表示某个矩阵的迹，tr(∑_A)表示声学特征A的残差协方差矩阵的迹，代表声学特征A的总的变化性。P(f)表示影响语音表达因素F的概率分布，例如当F为情感因素时，P(Angry)表示生气情感的语音样本在语音库中出现的概率；tr(∑_A|f)表示语音表达因素F确定后，声学特征A的残差协方差矩阵的迹，即代表语音表达因素F的语音样本中声学特征A的总的变化性。例当语音表达因素F表示情感，f表示生气时，tr(∑_A|f)表示生气的语音样本中声学特征A的总的变化性。RM(A；E)表示语音表达因素F确定后，声学特征A的不确定性地减少量，即语音表达因素F与声学特征A的相关性。

步骤5.2：计算各个影响语音表达的因素在语音表达中与声学特征的相关性，具体步骤如下：

步骤5.2.1：根据下式计算标准化后情感因素与声学特征的相关性：

R M (A; E) = t r (Σ_{A}) - \underset{f &Element; F}{Σ} P (f_{e}) t r (Σ_{A} | f_{e}) - - - (6)

其中∑_A为上述标准化后的数据Xⁿ的残差协方差矩阵；

步骤5.2.2：根据下式计算标准化后说话人因素与声学特征的相关性：

R M (A; S p) = t r (Σ_{A}) - \underset{f &Element; F}{Σ} P (f_{S p}) t r (Σ_{A} | f_{S p}) - - - (7)

其中Sp表示影响语音情感表达中的中的说话人因素的集合，f_Sp为影响语音情感表达中的说话人因素，即集合Sp中的元素，有F＝{E，Sp}，F为影响语音情感表达中的因素的集合，P(f_Sp)表示对应说话人的语音样本在语音库中出现的概率，tr(∑_A|f_Sp)表示对应说话人的语音样本中声学特征A的总的变化性；

步骤6：相关性比较

利用步骤5中计算得到的情感因素在语音表达中与声学特征的相关性，说话人标准化后在语音表达中与声学特征的相关性，判断各个声学特征与情感因素相关性。

步骤6.1：说话人标准化后情感识别特征选择

对于一个特定的声学特征A，计算其情感因素，说话人因素，标准化后的说话人因素在语音表达中与该声学特征的相关性。对于待选择的所有的声学特征，依次计算每个声学特征两个相关性，进行比较，选择情感因素相关性大的声学特征作为情感识别的特征。

步骤6.2：根据步骤6.1选择出的声学特征，作为情感识别特征，选择出的特征基于说话人的情感识别具有鲁棒性。

上述实施例仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和等同替换，这些对本发明权利要求进行改进和等同替换后的技术方案，均落入本发明的保护范围。

Claims

1.一种基于说话人标准化变换的语音情感特征选择方法，其特征在于，该方法包括以下步骤：

C = [\begin{matrix} c_{1, 1} & ... & c_{1, t} & ... & c_{1, D} \\ c_{2, 1} & ... & c_{2, t} & ... & c_{2, D} \\ ... & ... & ... & ... & ... \\ c_{m, 1} & ... & c_{m, t} & ... & c_{m, D} \\ ... & ... & ... & ... & ... \\ c_{K, 1} & ... & c_{K, t} & ... & c_{K, D} \end{matrix}] = [\begin{matrix} C_{1} & ... & C_{t} & ... & C_{D} \end{matrix}] - - - (1)

B_q＝(Z′_qZ_q)^-1Z′_qC_q(2)

然后计算每个语音片段的残差协方差矩阵∑_q：

Σ_{q} = \frac{E_{q}^{'} E_{q}}{K_{q}} = \frac{{(C_{q} - Z_{q} B_{q})}^{'} (C_{q} - Z_{q} B_{q})}{K_{q}} - - - (3)

K_q是第q个语音片段的帧数；

步骤4：对说话人进行标准化：

首先根据下式进行白化转换：

X^{w} = D_{i}^{- \frac{1}{2}} V_{i}^{'} (X_{i} - B_{i}) - - - (4)

然后根据下式进行说话人标准化：

X^{n} = V_{r e f} D_{r e f}^{\frac{1}{2}} X^{w} + B_{r e f} - - - (5)

2.根据权利要求1所述的基于说话人标准化变换的语音情感特征选择方法，其特征在于，所述步骤1中的预处理包括如下步骤：

\overset{&OverBar;}{X} (\overset{&OverBar;}{n}) = X (\overset{&OverBar;}{n}) - 0.9375 X (\overset{&OverBar;}{n} - 1), 0 \leq \overset{&OverBar;}{n} \leq \overset{&OverBar;}{N} - 1

{\overset{&OverBar;}{x}}_{k^{,}} (n) = \overset{&OverBar;}{X} (n + 128 (k^{'} - 1)), 0 \leq n \leq 255, 1 \leq k^{'} \leq K^{'}

表示向下取整；

x_{k^{'}} (n) = {\overset{&OverBar;}{x}}_{k^{'}} (n) w (n), 0 \leq n \leq 255, 1 \leq k^{'} \leq K^{'}

w (n) = 0.54 - 0.46 c o s (\frac{2 π n}{255}), 0 \leq n \leq 255

E_{k^{'}} = Σ_{n = 0}^{255} x_{k^{'}}^{2} (n), 1 \leq k^{'} \leq K^{'}

Z_{k^{'}} = \frac{1}{2} Σ_{n = 1}^{255} | sgn [x_{k^{'}} (n)] - sgn [x_{k^{'}} (n - 1)] |

sgn [x] = \{\begin{matrix} 1, & x &GreaterEqual; 0 \\ - 1, & x < 0 \end{matrix}

步骤1.5：确定短时能量阈值t_E和短时过零率阈值t_Z：

t_{E} = \frac{1}{K^{'}} Σ_{k^{'} = 1}^{K^{'}} E_{k^{'}}

t_{Z} = \frac{0.1}{K^{'}} Σ_{k^{'} = 1}^{K^{'}} Z_{k^{'}}

其中K′为语音帧总帧数；

3.根据权利要求1所述的基于说话人标准化变换的语音情感特征选择方法，其特征在于，所述步骤5中的标准化后情感因素与声学特征的相关性根据下式计算：

R M (A; E) = t r (Σ_{A}) - \underset{f &Element; F}{Σ} P (f_{e}) t r (Σ_{A} | f_{e}) - - - (6)

其中∑_A为上述标准化后的数据Xⁿ的残差协方差矩阵；

R M (A; S p) = t r (Σ_{A}) - \underset{f &Element; F}{Σ} P (f_{S p}) t r (Σ_{A} | f_{S p}) - - - (7)