CN105609116B

CN105609116B - 一种语音情感维度区域的自动识别方法

Info

Publication number: CN105609116B
Application number: CN201510976875.XA
Authority: CN
Inventors: 黄程韦; 赵力; 张昕然; 余华; 杨晶; 徐新洲; 陶华伟
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2015-12-23
Filing date: 2015-12-23
Publication date: 2019-03-05
Anticipated expiration: 2035-12-23
Also published as: CN105609116A

Abstract

本发明公开了一种语音情感维度区域的自动识别方法，属于语音识别技术领域。我们采用了一种特征空间重构的方法进行分类器的优化。第一，我们提取和优化基本声学特征作为区分情感区域的基准；第二，我们采用特征空间重构的方法将多个情感特征空间分解和配对，分别采用LDA和PCA模块级联的方法，提高目标类之间的离散程度；第三，我们提出两种情感区域的分割方法，即四个区域和十六个区域的分割方法，进行复合情感的分解，取代传统的基本情感类型，通过相关计算来融合分类器输出，进行情感区域的识别，获得了更高的识别效果。

Description

一种语音情感维度区域的自动识别方法

技术领域

本发明涉及语音识别技术领域，特别是一种语音情感维度区域的自动识别方法。

背景技术

传统的语音情感识别集中在基本情感类别的分析上，例如喜、怒、惊、悲等，对情感的维度很难进行有效识别。传统的情感分类器主要用于离散情感模型，在使用之前，必须对目标的情感的数量和类型做一个假设。目前在实验室环境下，获得了成功的应用，但对于许多实际的情感识别应用时需要自动识别特定类别的情感，传统的方法一般很难估计什么类型的情绪可能发生，从而导致无法识别或错误识别，因此无法处理复杂的人类情感。

目前，对情感维度的辨识可以分为唤醒维度的辨识和效价维度的辨识。目前基于情感维度的语音情感识别方法，直接对维度值进行准确的估计，如唤醒维度的具体数值，这样的方法在实际中受到噪声等多种因素的干扰，准确度较低。因此直接对这两个维度进行精确的识别是非常困难的，并且由于唤醒维度和效价维度不能直接对应到实际的情感类别上，因此单纯的维度识别的实际意义并不明确。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种语音情感维度区域的自动识别方法，用于解决现有的语音情感识别方法无法对任意情感进行有效识别的技术问题。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种语音情感维度区域的自动识别方法，包括顺序执行的以下步骤：

步骤一、采集语音信号，将语音信号按照唤醒维度和效价维度所构成的二维空间按照对唤醒维度和效价维度的维度值从负一到正一的取值区间等分成四个或者十六个情感区域；这里维度值的正负与情感的积极度有关，一般维度值的正区域为积极，维度值的负区域为消极；划分的区间越多，情感越细分。

步骤二、对采集到的语音信号提取声学特征，包括短时能量、过零率、基音频率、前四个共振峰频率、十二阶的梅尔倒谱系数6种，并根据共振峰的范围对上述声学特征进行规整化；规整化时按照频段分段进行，共振峰分度区域类别根据实际文本语义的差异情况进行确定，将共振峰频率段划分为0-2000、2000-3000、3000-5000等三个频段，以消除文本差异的干扰。

步骤三、在步骤一中划分得到的每个情感区域上分别随机产生统计区域，所述统计区域的大小满足时间尺寸大于20ms且小于1s，并在统计区域中对步骤二中的规整化后的6种情感特征分别提取最大、最小、平均和标准偏差，构成语音情感特征。

步骤四、对唤醒维度和效价维度构成的维度空间进行分解，从步骤一中划分得到的情感区域中随机选出两个区域进行配对，得到情感区域对，按照上述方式完成所有两两情感区域的配对，保存配对的次序；采用级联的主成分分析与线性判别分析对步骤三中所述语音情感特征，在每个情感区域对上，进行特征优化：

首先将步骤三中所述组成情感区域对的两个情感区域中的语音情感特征分别输入主成分分析模块，对主成分分析模块输出截取这两个情感区域中各自的前10个特征维度；然后将所截取的这两个情感区域中各自的前10个特征维度输入级联的线性判别分析模块进行优化，线性判别分析模块的输出为上述情感区域对优化的情感区域对特征，是用于区分该情感区域对中的两个情感区域最优的特征；

步骤五、根据步骤四中得到的最佳语音情感特征，通过训练数据，为步骤四中所述的每个情感区域对均构造一个两类分类器，计算每个两类分类器的输出。

步骤六、采用相关运算，构造解码器，将步骤五中所述的两类分类器的输出与解码器的码本进行相关运算，最大的相关值对应的情感区域为情感区域分类结果，即语音中包含的情感的唤醒维度值和效价维度值的范围。

有益效果：

(1)本发明中所提出的情感区域识别，通过引入特征空间的分解与多个两类分类器输出的融合判决，该算法提高了多区情感识别的识别性能。与传统的情感类模型相比，我们提供一个实用的框架，适用于分析各种复杂的情绪。

(2)在发明公开的特征空间重构方法中，我们提出识别情感地区来实现对现实世界中的复杂情感类型的有效处理。对情感的维度空间进行的分区，不需要假设目标情感的类别，提供了灵活和多样的检测方法。它也可以被用作一个初始步骤进一步进行精确的维度情感识别。

采用本发明中的方法，能够对任意类别的情感进行识别，获得该情感在维度空间中所处的位置，例如唤醒维的程度，即激动程度。采用本发明中的方法，能够在情感区域之间进行最优化，提高识别结果的可靠性，对噪声等干扰因素较为鲁棒，发生错误判断的可能性小，从而误判的代价低。

附图说明

图1为低分辨率情感区域划分图；

图2为高分辨率情感区域划分图；

图3为语音情感特征的生成过程的示意图；

图4为特征空间的级联优化的过程；

图5为基于特征空间重构的分类器组的判决融合；

图6为高分辨率识别测试的对比图；

图7为特征空间样本分布图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

(1)情感区域的划分

如附图1所示，为语音情感中的唤醒维度和效价维度构成的二维空间，由于不同的语音情感具有不同的唤醒维度和效价维度，因此我们可以按照唤醒维度和效价维度将语音情感分类为四个区域。将其分积极的和消极的等不同类别。我们可以进一步将维度空间分解为更高辨析度的模型区域，以适应复合情感的处理，如图2所示。

(2)提取有效的情感特征

(2-1)首先提取基本的声学特征，包括短时能量、过零率、基音频率、前四个共振峰频率、12阶的梅尔倒谱系数，并根据共振峰的范围对声学特征进行特征的分段规整化：

其中：

mean()函数为取均值函数，X为特征值，X⁽ⁱ⁾为共振峰分段区域的特征值，Ψ⁽ⁱ⁾为共振峰分度区域类别。Ψ⁽ⁱ⁾根据实际文本语义的差异情况进行确定，一般将共振峰频率段划分为0-2000、2000-3000、3000-5000等三个频段，以消除文本差异的干扰。

(2-2)在情感区域划分得到的不同区域上随机产生统计区域，并在统计区域中对规整化后的声学特征反复使用统计函数构造语音情感特征，统计函数包括最大、最小、平均和标准偏差。如附图3所示，随机选取一个起始点，从起始点后取一定大小的语段，通常为一句话，提取这个语段中各帧的参数作为语段特征。对语段特征中各帧对应参数进行n阶的差分运算，通常为2阶到3阶差分运算。区域的大小在满足时间尺度上大于20ms小于1s的前提下随机产生。

(2-3)在划分得到的情感区域中随机进行两两情感区域的配对，完成所有配对后保存配对的次序，并采用级联的主成分分析(PCA)与线性判别分析(LDA)进行特征优化。将组成情感区域对的两个情感区域中的语音情感特征分别输入PCA模块，对主成分分析模块输出截取这两个情感区域中各自的前10个特征维度；然后将所截取的这两个情感区域中各自的前10个特征维度输入级联的LDA模块，进行优化，得到LDA模块的输出为上述情感区域对优化的情感区域对特征，即这个情感区域对中的两个情感区域之间获得一个最佳的维度特征以区分二者。如附图4所示。

(3)特征空间的重构

(3-1)将(2-3)中所述的最佳语音情感特征根据不同情感区域进行归类：

f_i ^k∈H^k,k＝1,2…M (2)

其中：

i为特征序号，f为特征值，H^k为情感区域类别对应的特征空间，M为划分出的情感区域的类别总数，即对应划分的四个或十六个区域。

(3-2)将每个特征空间H^k构造一个两类分类器，计算每个两类分类器的输出：

x∈ω_j,j＝arg max{P(x∈ω_i)},i＝1,2 (3)

其中：

x为待识别的语音信号；i代表两类分类器的输出，即类别标签；j为情感区域序号；P表示概率；ω_j为划分出的情感区域。

(3-3)采用相关解码器将(3-2)中所述的两类分类器的输出进行融合判决，得到重构后的情感区域判决结果：

最大的相关值对应的情感区域，即为识别结果：

i^*＝arg max{r_i} (4)

其中：

i^*表示识别出的语音情感类别，r_i为融合判决的相关值，通过下式得到，

其中：

I为单位阵，m指单位阵行数，n指单位阵列数，为相关值序列，是每个两类分类器输出值构成的列向量，T表示矩阵转置。

上述过程中的两类分类器可用KNN分类器实现：

基本KNN分类器在特征空间中找到距离最近的K个样本，并检查它们的类标签。在本发明中，类标签覆盖所划分出的情感区域的标签，即四个区域或十六个区域每个情感区域均具有一个不同与其他情感区域的标签。当类标签的全部或大部分属于同一个区域，则测试话语被划分到该类标签对应的情感区域。

上述过程中的两类分类器还可以采用高斯混合模型(GMM)对每种情感的概率分布进行建模从而建立两类分类器，采用贝叶斯分类器来实现上文中的每个两类分类器，这组两类分类器组以各自的识别正确概率p_i,j给出式判决：

其中，i和j分别表示两个不同的类别标号，为语音情感的类别，C_i,j为两类分类器的输出，x为待识别的语音信号；

当待识别的语音信号处于情感区域的重叠区域时，每个两类分类器的置信度，可以用下式来得到：

其中，i和j分别表示两个不同的类别标号p_i和p_j是类别i和类别j的后验概率密度的取值，当两类分类器判决越可靠时，p_i和p_j的差值越大。

得到了两类分类器的置信度w_i,j后，据此进行权值融合，将两类分类器的输出定义为：

C_i,j ^*＝w_i,j·I，I＝+1，-1 (8)

其中，I是两类分类的判决，I＝+1表示判断为两类分类中的第一个类别，I＝-1表示判断为另一个类别。

为了实现判决融合，下面将这组两类分类器的输出构成一个超矢量，用相关译码的方法来进行判决，如附图5所示。

识别测试结果如下表和附图6所示，我们可以看到，通过使用该特征空间分解方法,不断提高了识别率。

在实验测试中，训练和测试语料通过人工标记的方式进行，我们采用相同的测试数据集来验证本发明方法在不同分类器上的性能。测试进行时，一共有3400条话语用于训练和识别测试，100条用在每个情感区域的训练当中，其他语料用于测试。我们可以在附图7中看到样本的分离情况。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音情感维度区域的自动识别方法，其特征在于：包括顺序执行的以下步骤：

步骤一、采集语音信号，将语音信号按照唤醒维度和效价维度所构成的二维空间按照对唤醒维度和效价维度的维度值从负一到正一的取值区间等分成四个或者十六个情感区域；

步骤二、对采集到的语音信号提取声学特征，包括短时能量、过零率、基音频率、前四个共振峰频率、十二阶的梅尔倒谱系数6种，并根据共振峰的范围对上述声学特征进行规整化；

步骤三、在步骤一中划分得到的每个情感区域上分别随机产生统计区域，所述统计区域的大小满足时间尺寸大于20ms且小于1s，并在统计区域中对步骤二中的规整化后的6种声学特征分别提取最大、最小、平均和标准偏差，构成语音情感特征；

步骤四、从步骤一中划分得到的情感区域中随机选出两个情感区域进行配对，得到情感区域对，按照上述方式完成所有两两情感区域的配对，保存配对的次序；采用级联的主成分分析与线性判别分析对每个情感区域对进行特征优化：

首先将步骤四中所述组成情感区域对的两个情感区域中的语音情感特征分别输入主成分分析模块，对主成分分析模块输出截取这两个情感区域中各自的前10个特征维度；然后将所截取的这两个情感区域中各自的前10个特征维度输入级联的线性判别分析模块进行优化，线性判别分析模块的输出为上述情感区域对优化的情感区域对特征；

步骤五、根据步骤四中得到的优化的情感区域对特征，通过训练数据，为步骤四中所述的每个情感区域对均构造一个两类分类器，计算每个两类分类器的输出；

步骤六、采用相关运算，构造解码器，将步骤五中所述的两类分类器的输出与解码器的码本进行相关运算，最大的相关值对应的情感区域，为情感区域分类结果。