CN106469560B

CN106469560B - 一种基于无监督域适应的语音情感识别方法

Info

Publication number: CN106469560B
Application number: CN201610600762.4A
Authority: CN
Inventors: 毛启容; 薛文韬; 高利剑; N．鲁瓦; 申自强; 詹永照
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2016-07-27
Filing date: 2016-07-27
Publication date: 2020-01-24
Anticipated expiration: 2036-07-27
Also published as: CN106469560A

Abstract

本发明公开了一种基于无监督域适应的语音情感识别方法，提出的模型包括：特征提取，情感标签预测，域标签预测。特征提取：首先将原始输入数据分解成两块特征，情感判别特征和情感无关特征，然后将情感判别特征进行层次非线性转换得到高层情感特征。将高层情感特征用于情感标签和域标签的预测。利用梯度下降法对整个模型的参数进行更新，得到特征提取层的各层权重。然后，进行特征提取，源域有标签样本通过训练好的特征提取层得到高层情感特征。最后，进行分类器SVM的训练，将源域有标签样本的高层情感特征和相对应的情感标签输入到SVM中训练，训练好的SVM可用于目标域测试样本的分类。解决了语音情感识别中训练样本和测试样本数据分布不同的问题。

Description

一种基于无监督域适应的语音情感识别方法

技术领域

本发明属于情感识别领域，具体涉及一种基于无监督域适应的语音情感识别方法。

背景技术

传统的语音情感识别模型通常依赖于一个共同的假设：训练数据(源域数据)和测试数据(目标域数据)来自同一个数据库，即两个域具有相同的数据分布。但在实际情况下，这个条件很难满足，这主要是由于从不同设备和条件下收集到的语音数据存在很大的差异，这就使得训练数据和测试数据具有不同的数据分布，如果还是用传统的语音情感识别模型进行训练和测试，将会产生很大的性能衰退。

域适应方法可以很好的解决这个问题。但在特征学习过程中，大部分的域适应方法没有考虑到标签信息。同时，在这些域适应方法中，传统语音情感识别的一些优势(如在提取特征的过程中考虑说话人、内容、环境等与情感无关的因素)也被忽略了。本发明通过一个简单的前向神经网络模型，提取出情感判别和域不变的特征。具体的，为了排除情感无关因素的影响，先将输入数据分解成两部分：情感判别特征和情感无关特征。然后情感相关特征进行层次非线性转换得到高层情感特征。为了使高层情感特征具有情感判别性和域不变性，将高层情感特征分别用于情感标签预测和域标签预测。

发明内容

本发明的目的在于提供一种基于无监督域适应的语音情感识别方法，使得学到的特征尽可能排除情感无关因素的影响，并且具有情感判别性和域不变性。

为了解决以上问题，本发明首先对原始语音样本进行预处理，得到一个384维特征作为输入数据。然后将输入特征映射成两种特征：情感判别特征和情感无关特征；情感判别特征是和情感相关的特征、有助于情感分类的特征；情感无关特征是体现说话人变化、环境噪音等一些与情感变化无关因素、不利于情感分类的特征。将情感判别特征进行层次非线性转换得到高层情感特征，高层情感特征分别用于情感标签和域标签的预测，并用梯度下降法进行模型参数的更新。具体技术方案如下：

一种基于无监督域适应的语音情感识别方法，包括如下步骤：

S1，语音样本预处理：按照INTERSPEECH 2009情感挑战赛的要求，利用开源工具包openEAR从原始语音样本中提取384维特征，替代原始语音样本作为输入数据；

S2，模型训练：所述模型包括三部分：特征提取，情感标签预测，域标签预测；源域的有标签样本和目标域的无标签训练样本通过S1得到相应的384维特征作为模型的输入数据；具体实现包括如下：

在模型的特征提取层，输入数据通过不同的权重映射成两种特征：情感判别特征和情感无关特征；然后情感判别特征通过层次非线性转换得到高层情感特征；

源域有标签样本的高层情感特征用于情感标签的预测，源域和目标域样本的高层情感特征用于域标签的预测；

最后更新模型的参数，将两个标签预测器的损失进行反向传播，用梯度下降法进行参数的更新；

S3，特征提取：利用S2中训练好的特征提取层的参数，将源域有标签训练样本的384维特征转换成高层情感特征；

S4，分类器训练：利用S3中源域有标签训练样本的高层情感特征和相对应的情感标签，进行分类器SVM的训练；

S5，语音情感识别：对任意一个目标域的语音测试样本，首先利用步骤S1提取384维特征作为输入数据，然后通过S2中训练好的特征提取层得到高层情感特征，最后输入到S4训练好的SVM中进行分类。

进一步地，所述步骤S2中所述特征提取层的实现包括如下：

S2.1，设有N+1层，第n层有k⁽ⁿ⁾个结点，h⁽ⁿ⁾表示第n层的特征表示，n∈[0,1,...,N]；对于第零层，假设h⁽⁰⁾＝x，x为输入样本；那么第n层的特征表示为：

其中W⁽ⁿ⁾∈R^k(n)×k(n-1)表示权重矩阵，b⁽ⁿ⁾∈R^k(n)表示偏置，

表示非线性激活函数；

S2.2，为了消除提取到的特征掺杂一些情感无关的因素，引进一个正交项来解开情感判别因素和其他无关因素；对于输入x，把它映射成两块特征：一块编码输入数据的判别因素，

另一块编码输入数据的其他因素，

w是权重矩阵，c是偏置；参数分别是θ_e＝{W⁽¹⁾,b⁽¹⁾}和θ_o＝{w,c}；

S2.3，为了让这两块特征可以有效地解开，让第i个情感相关特征

的敏感度向量

和每个情感无关的特征

的敏感度向量

正交；进一步，对这两块特征进行约束的正交损失函数定义如下：

其中

表示所有样本的域标签集合；

S2.4，对于输入x，经过上述特征提取过程，得到它的高层特征表示h^(N)。

进一步地，所述步骤S2中所述情感标签预测和域标签预测的实现包括如下：

利用得到的高层特征表示h^(N)来预测情感标签和域标签：采用Softmax回归进行情感标签和域标签的预测，具体地，情感标签预测的损失函数L_y和域标签预测的损失函数L_d可以表示成如下形式：

其中

是情感标签预测的参数，

是域标签预测的参数；

X＝{x|x∈D_s||x∈D_t}表示训练时所有可获得的源域有标签样本和目标域无标签样本集合；

表示所有样本的域标签集合；y表示情感标签；n_s表示源域样本个数。

进一步地，所述步骤S2中所述更新模型参数的实现包括如下：

S2.5，结合特征提取、情感标签预测和域标签预测的损失函数，得到总目标函数如下：

其中f把输入x映射成高层特征表示，G_y和G_d分别把高层特征表示映射成情感标签和域标签，L_y和L_d分别表示情感标签预测和域标签预测的损失函数，α衡量域标签预测项的贡献程度，β衡量正交损失函数的贡献程度；

S2.6，为了得到情感判别和域不变的特征，需要寻找总目标函数的一个鞍点：

S2.7，为了能使用梯度下降法来寻找这个鞍点，在特征提取层和域标签预测层之间加上了一个梯度反转层；在前向传播时，梯度反转层相对于一个恒等变换函数；在反向传播时，梯度会乘以一个负数-λ；用如下的伪函数来描述梯度反转层：

R_λ(x)＝x,

其中I是单位矩阵；因此总目标函数的伪目标函数可以定义成如下形式：

所有的权重和偏置可以使用如下的梯度下降算法进行更新：

其中m＝2,...,N，μ是学习率，α和β分别衡量域预测损失函数和正交损失函数的贡献程度，λ是梯度反转层的参数。

本发明的有益效果：

本发明的基于无监督域适应的语音情感识别方法，首先将输入特征映射成两种特征：情感判别特征和情感无关特征。将情感判别特征进行层次非线性转换得到高层情感特征，高层情感特征分别用于情感标签和域标签的预测，并用梯度下降法进行参数的更新。本发明解决了语音情感识别中训练样本和测试样本数据分布不同的问题，并且通过特征解开方法尽可能除去情感无关因素的影响。

附图说明

图1是基于无监督域适应的语音情感识别方法流程图；

图2是基于无监督域适应的语音情感识别方法框架图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明。

如图1所示，为本发明的总体流程图。首先对输入的训练语音数据进行预处理得到一个384维特征，作为输入数据。然后，进行模型的训练，模型训练时采用源域的有标签数据和目标域的无标签数据。所提出的模型包括三个部分：特征提取，情感标签预测，域标签预测。在特征提取部分，首先将原始输入数据分解成两块特征：情感判别特征和情感无关特征，然后将情感判别特征进行层次非线性转换得到高层情感特征。得到的高层情感特征分别用于情感标签和域标签的预测。利用梯度下降法对整个模型的参数进行更新，最终得到特征提取层的各层权重。然后，进行特征提取，源域有标签样本通过训练好的特征提取层得到高层情感特征。最后，进行分类器SVM的训练，将源域有标签样本的高层情感特征和相对应的情感标签输入到SVM中训练，训练好的SVM可用于目标域测试样本的分类。对于目标域的测试语音样本，通过预处理提取384维特征作为输入数据，输入到训练好的特征提取部分，得到高层情感特征，再输入到训练好的SVM进行分类。具体步骤如下：

1训练过程

1.1语音数据的预处理过程

按照INTERSPEECH 2009情感挑战赛的要求，利用开源工具包openEAR从原始语音样本中提取384维特征，替代原始语音样本作为输入数据。

1.2模型训练

假设

表示源域有标签样本和相对应的情感标签集合，表示目标域无标签样本集合，其中n_s和n_t分别表示源域和目标域样本的个数。在这里，假设源域和目标域具有相同的特征空间和情感标签空间，例如每个样本x∈R^k及情感标签y∈{1,2,...,c}(c表示情感类别个数)，但两个域的数据具有不同的数据分布。假设X＝{x|x∈D_s||x∈D_t}表示训练时所有可获得的源域有标签样本和目标域无标签样本集合，

表示所有样本的域标签集合(如果样本x_i∈D_s，那么域标签d_i＝1；如果样本x_i∈D_t，那么域标签d_i＝0)，Y＝{y|y∈D_s}表示源域样本的情感标签集合。在训练模型时，可以使用X,D,Y。我们的最终目的是预测目标域样本的情感标签。

1.2.1特征提取

首先如图2的特征提取部分的左边部分。假设有N+1层，第n层有k⁽ⁿ⁾个结点，h⁽ⁿ⁾表示第n层的特征表示，n∈[0,1,...,N]。对于第零层，假设h⁽⁰⁾＝x。那么第n层的特征表示为：

其中

表示权重矩阵，b⁽ⁿ⁾∈R^k(n)表示偏置，

表示非线性激活函数，例如sigmoid激活函数。这部分的参数

如果只使用图2特征提取部分的左边部分，提取到的特征通常会掺杂一些情感无关的因素(如说话人、内容和环境等)。这里引进一个正交项来解开情感判别因素和其他无关因素(也就是加入图2特征提取部分的右边部分)。对于输入x，把它映射成两块特征：一块编码输入数据的判别因素(图2特征提取部分的左边部分)，

另一块编码输入数据的其他因素(图2特征提取部分的右边部分)，

w是权重矩阵，c是偏置。参数分别是θ_e＝{W⁽¹⁾,b⁽¹⁾}和θ_o＝{w,c}。具体地，为了让这两块特征可以有效地解开，让第i个情感相关特征的敏感度向量

和每个情感无关的特征

的敏感度向量

正交。对这两块特征进行约束的正交损失函数定义如下：

所以，对于输入x，经过图2所示的特征提取部分，最终得到它的高层特征表示h^(N)。

1.2.2情感标签和域标签预测

在得到输入x的高层特征表示h^(N)之后，用它来预测情感标签和域标签。在训练时，由于缺乏目标域有标签样本，只有源域有标签样本用于情感标签的预测；而源域有标签样本和目标域无标签样本都有域标签，所以这些样本都用于域标签的预测。这里采用Softmax回归进行情感标签和域标签的预测。具体来说情感标签预测的损失函数L_y和域标签预测的损失函数L_d可以表示成如下形式：

其中

是进行情感标签预测时的softmax分类器参数，θ_yi是第i个情感类别的参数，

是θ_yi的转置；

是进行域标签预测时的softnax分类器参数，θ_di是第i个域类别的参数，

是θ_di的转置。

1.2.3参数优化

结合特征提取、情感标签预测和域标签预测的损失函数，总的目标函数如下：

其中f把输入x映射成高层特征表示，G_y和G_d分别把高层特征表示映射成情感标签和域标签，L_y和L_d分别表示情感标签预测和域标签预测的损失函数，α衡量域标签预测项的贡献程度，β衡量正交损失函数的贡献程度。

为了得到情感判别和域不变的特征，需要寻找公式(5)的一个鞍点：

为了能使用梯度下降法来寻找这个鞍点，在特征提取层和域标签预测层之间加上了一个梯度反转层。在前向传播时，梯度反转层相对于一个恒等变换函数；在反向传播时，梯度会乘以一个负数-λ。用如下的伪函数来描述梯度反转层：

其中I是单位矩阵。因此公式(5)的伪目标函数可以定义成如下形式：

所有的权重和偏置可以使用如下的梯度下降算法进行更新：

1.3特征提取

经过1.2节模型训练之后，得到特征提取层的参数。源域有标签样本通过这个特征提取层，得到高层的情感特征表示。

1.4分类器训练

将源域有标签样本的高层情感特征表示和相对应的情感标签输入到SVM中训练，训练好的SVM可用于目标域测试样本的分类。

2测试过程

对任意一个测试语音样本，利用预处理提取的384维特征作为输入数据，输入到训练好的特征提取层得到高层情感特征，然后输入到训练好的SVM中进行分类。

综上所述，本发明公开了一种基于无监督域适应的语音情感识别方法。所提出的模型包括三个部分：特征提取，情感标签预测，域标签预测。在特征提取部分，首先将原始输入数据分解成两块特征：情感判别特征和情感无关特征，然后将情感判别特征进行层次非线性转换得到高层情感特征。得到的高层情感特征分别用于情感标签和域标签的预测。利用梯度下降法对整个模型的参数进行更新，最终得到特征提取层的各层权重。然后，进行特征提取，源域有标签样本通过训练好的特征提取层得到高层情感特征。最后，进行分类器SVM的训练，将源域有标签样本的高层情感特征和相对应的情感标签输入到SVM中训练，训练好的SVM可用于目标域测试样本的分类。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。