CN104008754B

CN104008754B - 一种基于半监督特征选择的语音情感识别方法

Info

Publication number: CN104008754B
Application number: CN201410216935.3A
Authority: CN
Inventors: 文贵华; 孙亚新
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2014-05-21
Filing date: 2014-05-21
Publication date: 2017-01-18
Anticipated expiration: 2034-05-21
Also published as: CN104008754A

Abstract

本发明公开了一种基于半监督特征选择的语音情感识别方法，该方法针对每个说话人训练一个特定的分类器，可以很好的减小由于说话人之间的不同对语音情感识别造成的负面影响。训练步骤如下：提取有标签样本和某一说话人的无标签样本的特征，使用多个统计函数获得所有特征的统计结果，再执行归一化算法；然后使用半监督特征选择算法选择能够突出该测试说话人语音情感的特征，该半监督特征选择算法能够同时考虑数据的流形结构，数据的类别结构，以及利用该测试说话人的无标签数据所提供的信息；最后使用支持向量机训练该测试说话人的语音情感识别的分类器。本发明在用于说话人归一化算法的样本数量较少时也能获得较高的识别精度。

Description

一种基于半监督特征选择的语音情感识别方法

技术领域

本发明涉及语音信号处理和模式识别研究领域，特别涉及一种基于半监督特征选择的语音情感识别方法。

背景技术

随着信息技术的不断发展，社会发展对情感计算提出了更高的要求。例如在人机交互方面，一个拥有情感能力的计算机能够对人类情感进行获取、分类、识别和响应，进而帮助使用者获得高效而又亲切的感觉，并能有效减轻人们使用电脑的挫败感，甚至能帮助人们理解自己和他人的情感世界。例如采用此类技术探测驾驶司机的精力是否集中、感受到的压力水平等，并做出相应反应。此外，情感计算还能应用在机器人、智能玩具、游戏、电子商务等相关产业中，以构筑更加拟人化的风格和更加逼真的场景。情感也反映了人类的心理健康情况，情感计算的应用可以有效地帮助人们避免不良情绪，保持乐观健康的心理。

人的面部表情、语音、生理指标等都能在一定程度上反映人类的情感。目前使用在语音情感识别中的特征选择方法有很多，广泛使用的是顺序前进特征选择方法(Sequential Forward Feature Selection)。但是顺序前进特征选择方法是一种贪心算法，其忽略了数据的流形结构和无标签样本提供的信息。然而数据的流形结构和无标签样本提供的信息对语音情感识别有非常重要的作用。首先数据的流行结构对语音情感识别有非常重要的作用，这是因为说话人之间的差异性比较大，并且待识别情感的人的有标签样本很难出现在训练数据中，如果在特征选择算法中只考虑数据的类别结构进行特征选择，那么选择的特征会过拟合训练数据而对新的测试样本识别能力不强。其次待识别情感的人的无标签样本提供的信息也有非常重要的作用，同样因为说话人之间的差异性比较大，如果仅仅依靠训练样本的流形结构指导特征选择，可能导致特征选择的结果与能够突出待识别情感说话人的特征有较大差异。

另外，语音数据的流形结构主要受到以下三个因素的影响：情感、说话人、语句，并且说话人对语音数据流形结构的影响非常严重，所以仅仅考虑了数据流形结构的特征选择算法不能直接应用于语音情感识别。

为此，提出一种能够考虑语音数据的流形结构、但是能减小说话人对语音数据流形结构影响的特征选择方法具有很高的研究价值。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提出一种基于半监督特征选择的语音情感识别方法，该方法利用待识别情感说话人的无标签样本提供的说话人信息和流形结构信息，能够很好的减少说话人之间的不同对语音情感识别造成的负面影响，同时能够保持数据的流形结构和类别结构，使得特征选择结果对新说话人的情感有较好的识别能力。

本发明的目的通过以下的技术方案实现：一种基于半监督特征选择的语音情感识别方法，包括步骤：

(1)训练阶段：

(1-1)提取所有有标签样本的语音信号特征以及某一待识别情感说话人的无标签样本的语音信号特征；

(1-2)对所有特征执行特征统计；

(1-3)对所有的特征统计结果执行归一化算法；

(1-4)使用半监督特征选择算法突出该待识别情感说话人语音情感变化的特征，得到特征选择向量；

(1-5)使用特征选择结果训练针对该待识别情感说话人的语音情感分类器；

(1-6)所有需识别情感的说话人均按照上述步骤(1-1)—(1-5)得到对应的分类器；

(2)识别阶段：提取待识别样本的语音信号特征，对特征进行特征统计，对特征统计结果执行归一化算法，然后根据步骤(1-4)得到的特征选择向量计算特征选择结果，然后将特征选择结果代入步骤(1-6)得到的该说话人对应的分类器，即获得待识别样本的情感类别。

具体的，所述步骤(1-1)中，提取语音信号特征包括：MFCC(Mel FrequencyCepstrum Coefficient，Mel频率倒谱系数)、LFPC(Log Frequency Power Coefficients，对数频率功率系数)、LPCC(Linear Predictive Cepstral Coding，线性预测倒谱系数)、ZCPA(Zero Crossing with Peak Amplitude，过零峰值幅度)、PLP(Perceptual LinearPredictive，感知线性预测)、R-PLP(Rasta Perceptual Linear Predictiv，拉斯塔滤波器感知线性预测)，每类特征的特征提取结果均为二维矩阵，其中一个维度为时间维度；然后计算每类特征Fi在时间维度上的一阶导数ΔFi、二阶导数ΔΔFi，并将原始特征、一阶导数结果、二阶导数结果在非时间维度上串接，形成每一类特征的最终特征提取结果；将上述所有类的特征的最终特征提取结果在非时间维度上串接即为该样本的特征提取结果。

具体的，所述步骤(1-2)中对特征进行特征统计为：获得特征在时间维度上的均值、标准方差、最小值、最大值、峭度、偏度等统计结果，有标签样本的特征统计结果记为{x₁,x₂,...,x_n}，待识别情感说话人的无标签训练样本的特征统计结果记为{x_n+1,x_n+2,...,x_n+m}，其中n为训练样本的个数，m为某一说话人无标签样本的个数。

具体的，所述步骤(1-3)对特征统计结果进行归一化的步骤如下：

(1-3-1)对步骤(1-2)中得到的所有特征统计结果{x₁,x₂,...,x_n+m}分别使用下式进行初步归一化：

x_{i}^{'} = \frac{x_{i} - μ}{σ}, i = 1,2, . . ., n + m;

其中

μ = (Σ_{i = 1}^{n + m} x_{i}) / (n + m)

表示所有样本的均值，

σ = \sqrt{\frac{1}{n + m - 1} Σ_{i = 1}^{n + m} {(x_{i} - μ)}^{2}}

表示所有样本的方差；

(1-3-2)对步骤(1-3-1)得到的初步归一化结果使用下式进行说话人归一化：

\tilde{x} i = x_{i}^{'} - (Σ_{j = 1}^{n_{i}} x_{j}^{'}) / ni;

其中是训练样本中与说话人标签相同的样本，ni为训练样本中与说话人标签相同的样本的个数。在步骤(1-3-2)说话人归一化算法中只使用到每个说话人所有样本的均值，而均值在使用较少样本估算时置信度仍然较高，所以在使用较少的无标签样本进行说话人归一化仍然能有较好的效果。

具体的，所述步骤(1-4)中，半监督特征选择算法步骤如下：

(1-4-1)使用下式定义样本之间的关系：

式中，S_ij表示样本之间的关系，nli表示类别标签为l_i的样本个数，l_i、l_j表示样本的类别标签，为样本的邻域，为样本的邻域，并且A_ij定义如下：

A_{ij} = \{\begin{matrix} \exp (\frac{- d^{2} (\tilde{xi}, \tilde{xj})}{{σi}^{2} σ_{j}^{2}}) & i &NotEqual; j \\ 0 & i = j \end{matrix};

其中，表示与之间的欧氏距离，

σ_{i} = d (\tilde{x} i, {\tilde{x}}_{i}^{k})

表示到的欧式距离，

σ_{i} = d (\tilde{x} i, {\tilde{x}}_{i}^{k})

表示到的欧式距离，表示的第k个邻居；

(1-4-2)计算拉普拉斯图L＝D-S,其中D是一个对角矩阵

(1-4-3)解决特征分解问题Ly＝λDy，并且让Y＝[y₁,y₂,...,y_C]为最小的2到C+1个特征值对应的特征向量，其中C为语音情感的类别数；

(1-4-4)使用最小角回归算法(LARs)解决L1正规化回归问题

\min_{c} | | y_{c} - X^{T} a_{c} | | s . t . | a_{c} | \leq γ, c = 1,2 . . ., C,

得到C个稀疏系数向量其中y_c为(1-4-3)求出的第c个特征向量，

(1-4-5)计算每个特征的重要性得分j表示第j个特征，SCORE(j)表示第j个特征的得分；

(1-4-6)返回得分最大的d个特征的下标即为特征选择结果V，其中d为需要选择的特征维数。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明在提取特征后，使用改进的归一化算法对特征统计结果进行归一化。该归一化算法包含初步归一化和说话人归一化两步，其中初步归一化使用所有样本的均值和方差对每个样本进行归一化，能够避免特征取值范围的不同带来的影响；说话人归一化只需使用该说话人所有样本的均值，而对均值的估计在样本数量较少时也能得到较高的置信度，所以能够在说话人无标签样本数量很少的情况下，达到较好的说话人归一化效果。

2、本发明提出了一种针对语音情感识别的半监督特征选择算法，该半监督特征选择算法能够考虑数据的流形结构、数据的类别结构、以及利用无标签样本提供的信息，从而避免了特征选择结果过拟合于训练数据，选择有利于识别该说话人语音情感的特征。

3、本发明每次只使用有标签样本和一个说话人的无标签样本训练半监督特征选择算法，这样可以最优的利用该说话人无标签样本提供的信息，避免其他说话人无标签样本的影响，从而可以最大化提高该说话人对语音数据流形结构的影响，而选择出对该说话人语音情感识别有利的特征。在训练阶段，针对不同的说话人训练不同的分类器，这样能够减少说话人之间的不同对语音情感识别的影响。

附图说明

图1是本发明方法的流程示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例1

如图1所示，本实施例所述的基于半监督特征选择的语音情感识别方法，包括训练阶段和识别阶段两个部分，现结合图1的流程图分别详述如下。

一、训练阶段

在这一阶段中，针对所有说话人均分别进行训练，得到每个说话人所对应的分类器，具体过程如下：

第一步：对所有的语音训练信号(每一次训练时，为所有有标签样本的语音信号和当前某一说话人的无标签样本的语音信号)提取MFCC，LFPC，LPCC，ZCPA，PLP，R-PLP特征，其中MFCC、LFPC的Mel滤波器个数为40；LPCC、PLP、R-PLP的线性预测阶数分别为12、16、16；ZCPA的频率分段为：0，106，223，352，495，655，829，1022，1236，1473，1734，2024，2344，2689，3089，3522，4000。从而每条语句的每类特征的维度分别为：t_i*39，t_i*40，t_i*12，t_i*16，t_i*16，t_i*16，其中t_i为第i条语句的帧数，乘号后面的数字为每帧特征的维度。为了获得语音信号在时间维度上的变化，还对上述特征在时间维度上计算一阶导数，二阶导数。最后每类特征的维度分别为：t_i*117，t_i*140，t_i*36，t_i*48，t_i*48，t_i*48。第i样本的提取到的语音信号特征由上述所有特征组合而成，维度为t_i*(117+140+36+48+48+48).

第二步：使用如下统计函数：均值(mean)、标准方差(standard deviation)、最小值(min)、最大值(max)、峭度(kurtosis)、偏度(skewness)获得上述特征在时间维度上的统计结果。有标签样本的特征统计结果记为{x₁,x₂,...,x_n}，某一说话人无标签训练样本的特征统计结果记为{x_n+1,x_n+2,...,x_n+m}，其中n为有标签标本的个数，m是某一说话人无标签样本的个数。

第三步：对特征统计结果进行归一化。步骤如下：

(1)对第二步中得到的所有特征统计结果{x₁,x₂,...,x_n+m}分别使用下式进行初步归一化：。

x_{i}^{'} = \frac{x_{i} - μ}{σ}, i = 1,2, . . ., n + m; - - - (1)

其中

μ = (Σ_{i = 1}^{n + m} x_{i}) / (n + m)

表示所有样本的均值，

σ = \sqrt{\frac{1}{n + m - 1} Σ_{i = 1}^{n + m} {(x_{i} - μ)}^{2}}

表示所有样本的方差；

(2)对初步归一化结果使用下式执行说话人归一化：。

\tilde{x} i = x_{i}^{'} - (Σ_{j = 1}^{n_{i}} x_{j}^{'}) / ni - - - (2)

其中ni是训练样本中与说话人标签相同的样本，ni为训练样本中与说话人标签相同的样本的个数。

第四步：训练半监督特征选择算法。该算法包含如下步骤：

(1)使用下式定义样本之间的关系：

式中，Sij表示样本之间的关系，nli表示类别标签为l_i的样本个数，l_i、l_j表示样本的类别标签，为样本的邻域，为样本的邻域，并且A_ij定义如下：

A_{ij} = \{\begin{matrix} \exp (\frac{- d^{2} (\tilde{xi}, \tilde{xj})}{{σi}^{2} σ_{j}^{2}}) & i &NotEqual; j \\ 0 & i = j \end{matrix} - - - (4)

其中，表示与之间的欧氏距离，

σ_{i} = d (\tilde{x} i, {\tilde{x}}_{i}^{k})

表示到的欧式距离，

σ_{j} = d (\tilde{x} j, {\tilde{x}}_{i}^{k})

表示到的欧式距离，为的第k个邻居。

(2)计算拉普拉斯图L＝D-S，其中D是一个对角矩阵

(3)解决特征分解问题Ly＝λDy。并且让Y＝[y₁,y₂,...,y_C]为最小的2到C+1个特征值对应的特征向量，其中C为语音情感的类别数。

(4)使用最小角回归算法(LARs)解决L1正规化回归问题

\min_{c} | | y_{c} - X^{T} a_{c} | | s . t . | a_{c} | \leq γ, c = 1,2 . . ., C,

得到C个稀疏系数向量其中y_c为(1-4-3)求出的第c个特征向量，

(5)计算每个特征的重要性得分j表示第j个特征，SCORE(j)表示第j个特征的得分。

(6)返回得分最大的d个特征的下标即为特征选择结果V。其中d为需要选择的特征的维数。

第五步：根据特征选择结果V获得有标签样本的特征选择结果{z₁,z₂,...,z_n}。将上述的特征选择结果均储存在语音情感向量数据库中。

第六步：使用{z₁,z₂,...,z_n}及其类别标签训练分类器。

二、识别阶段

在这一阶段中，针对已知说话人的待识别情感样本的语音信号进行处理，根据上面训练阶段得到的训练分类器得到此待识别样本的情感类别。具体过程如下：

第一步：对待识别情感样本的语音信号提取MFCC，LFPC，LPCC，ZCPA，PLP，R-PLP特征，其中MFCC、LFPC的Mel滤波器个数为40；LPCC、PLP、R-PLP的线性预测阶数分别为12、16、16；ZCPA的频率分段为：0，106，223，352，495，655，829，1022，1236，1473，1734，2024，2344，2689，3089，3522，4000。从而每条语句的每类特征的维度分别为：t*39，t*40，t*12，t*16，t*16，t*16，其中t为该待识别情感语句的帧数，乘号后面的数字为每帧特征的维度。为了获得语音信号在时间维度上的变化，还对上述特征在时间维度上计算一阶导数，二阶导数。最后每类特征的维度分别为：t*117，t*140，t*36，t*48，t*48，t*48。对该待识别情感语句提取到的语音信号特征由上述所有特征组合而成，维度为t*(117+140+36+48+48+48)。

第二步：使用如下统计函数：均值(mean)、标准方差(standard deviation)、最小值(min)、最大值(max)、峭度(kurtosis)、偏度(skewness)获得该待识别情感语句的特征统计结果x。

第三步：说话人归一化。首先根据训练阶段获得的μ、σ使用式(1)计算x的初步归一化结果x'；然后使用式(2)对x'计算说话人归一化结果。

第四步：根据训练过程中获得的特征选择向量V，计算的特征选择结果z。

第五步：使用训练过程中获得的分类器，获得z的语音情感类别l。

本发明的情感识别的效果评价采用的语料库是德国的EMO-DB语音情感数据库，其为语音情感识别领域的标准数据库。首先完成训练过程，然后进行识别测试。测试模式按5倍交叉方式进行。可以识别愤怒、恐惧、烦躁、厌恶、开心、中性、悲伤7种情感，在说话人依赖的情况下平均分类正确率为90.84％，除了开心与愤怒比较容易混淆以外，其它情绪之间区分度较好。在说话人独立的情况下平均分类正确率为86.50％。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于半监督特征选择的语音情感识别方法，其特征在于，包括步骤：

(1)训练阶段：

(1-1)提取所有有标签样本的语音信号特征以及某一待识别情感说话人的无标签样本的语音信号特征；提取语音信号特征包括：MFCC、LFPC、LPCC、ZCPA、PLP、R-PLP，每类特征的特征提取结果均为二维矩阵，其中一个维度为时间维度；然后计算每类特征F_i在时间维度上的一阶导数ΔF_i、二阶导数ΔΔF_i，并将原始特征、一阶导数结果、二阶导数结果在非时间维度上串接，形成每一类特征的最终特征提取结果；将上述所有类的特征的最终特征提取结果在非时间维度上串接即为该样本的特征提取结果；

(1-2)对所有特征执行特征统计；

(1-3)对所有的特征统计结果执行归一化算法；

2.根据权利要求1所述的基于半监督特征选择的语音情感识别方法，其特征在于，所述步骤(1-2)中对特征进行特征统计为：获得特征在时间维度上的均值、标准方差、最小值、最大值、峭度、偏度统计结果，有标签样本的特征统计结果记为{x₁,x₂,…,x_n}，待识别情感说话人的无标签训练样本的特征统计结果记为{x_n+1,x_n+2,…,x_n+m}，其中n为训练样本的个数，m为某一说话人无标签样本的个数。

3.根据权利要求2所述的基于半监督特征选择的语音情感识别方法，其特征在于，所述步骤(1-3)对特征统计结果进行归一化的步骤如下：

(1-3-1)对步骤(1-2)中得到的所有特征统计结果{x₁,x₂,…,x_n+m}分别使用下式进行初步归一化：

x_{i}^{'} = \frac{x_{i} - μ}{σ}, i = 1, 2, ..., n + m;

其中表示所有样本的均值，表示所有样本的方差；

(1-3-2)对步骤(1-3-1)得到的初步归一化结果{x′₁,x'₂,…,x'_n+m}使用下式进行说话人归一化：

{\tilde{x}}_{i} = x_{i}^{'} - (Σ_{j = 1}^{n_{i}} x_{j}^{'}) / n_{i};

其中x'_j,j＝1,2,…,n_i是训练样本中与x′_i说话人标签相同的样本，n_i为训练样本中与x′_i说话人标签相同的样本的个数。

4.根据权利要求3所述的基于半监督特征选择的语音情感识别方法，其特征在于，所述步骤(1-4)中，半监督特征选择算法步骤如下：

(1-4-1)使用下式定义样本之间的关系：

式中，S_ij表示样本之间的关系，n_li表示类别标签为l_i的样本个数，l_i、l_j表示样本的类别标签，为样本的邻域，为样本的邻域，并且A_ij定义如下：

A_{i j} = \{\begin{matrix} \exp (\frac{- d^{2} ({\tilde{x}}_{i}, {\tilde{x}}_{j})}{{σ_{i}}^{2} {σ_{j}}^{2}}) & i &NotEqual; j \\ 0 & i = j \end{matrix};

其中，表示与之间的欧氏距离，表示到的欧式距离，表示到的欧式距离，表示的第k个邻居；

(1-4-2)计算拉普拉斯图L＝D-S,其中D是一个对角矩阵D_ii＝Σ_jS_ij；

(1-4-3)解决特征分解问题Ly＝λDy，并且让Y＝[y₁,y₂,…,y_C]为最小的2到C+1个特征值对应的特征向量，其中C为语音情感的类别数；

(1-4-4)使用最小角回归算法(LARs)解决L1正规化回归问题得到C个稀疏系数向量其中y_c为(1-4-3)求出的第c个特征向量，