CN110120231B

CN110120231B - 基于自适应半监督非负矩阵分解的跨语料情感识别方法

Info

Publication number: CN110120231B
Application number: CN201910408086.4A
Authority: CN
Inventors: 韩纪庆; 罗辉; 郑铁然; 郑贵滨
Original assignee: Harbin Institute of Technology Shenzhen
Current assignee: Harbin Institute of Technology Shenzhen
Priority date: 2019-05-15
Filing date: 2019-05-15
Publication date: 2021-04-02
Anticipated expiration: 2039-05-15
Also published as: CN110120231A

Abstract

基于自适应半监督非负矩阵分解的跨语料情感识别方法，它属于语音中的情感识别技术领域。本发明解决了话者语音不匹配现象导致的现有跨语料语音情感识别方法对情感识别的准确率低的问题。本发明通过特征空间与标签空间共享编码信息的方式，可以学习到更具判别性的语音情感特征表示，同时采用最大平均差异来度量特征表示中存在的差异，减少话者语音的不匹配，并根据流形一致性假设，使得新的特征表示尽可能保留原始特征空间的信息，增强了语音情感特征表示的健壮性。本发明在四组跨语料语音情感识别任务中的未加权平均召回率达到43.74％，加权平均召回率达到43.84％，有效提高了跨语料语音情感识别的准确率。本发明可以应用于语音中的情感识别技术领域。

Description

基于自适应半监督非负矩阵分解的跨语料情感识别方法

技术领域

本发明属于语音中的情感识别技术领域，具体涉及一种跨语料情感识别方法。

背景技术

语音是人类交流感情、传递信息的重要媒介。自动语音情感识别是利用计算机来模拟人类通过聆听语音去捕捉对方情感状态的过程。由于存在许多潜在的应用，如交互式机器人助理、呼叫中心服务等，自动语音情感识别在最近几年越来越受到人们的重视。

跨语料语音情感识别是自动语音情感识别中一个重要而又极具挑战的分支，其目的是为了解决由于话者语音中存在如语言、环境等的不匹配，而造成情感识别系统的性能下降的问题。一方面，由于人类自身具备从不同声音源来捕捉情感状态的能力，这给自动语音情感识别系统带来了更高的要求。另一方面，不匹配的语音会产生具有不同分布的语音样本，这是造成传统识别系统性能下降的主要原因。因此，如何增加情感识别系统对分布差异的鲁棒性来降低话者语音不匹配的影响，就成为一个既迫切又具有挑战性的研究内容。

目前，跨语料语音情感识别的方法主要有两种：一是与识别任务相互独立的预处理方法，二是与识别任务相关联的嵌入式方法。预处理方法又可以分为两类：一类是基于归一化的方法，即采用各种各样的归一化方法来消除语音中与情感识别无关的信息，另一类是基于特征提取的方法，即利用非负矩阵分解、自编码机等技术来为不同分布的语音学习一个公共的特征表示。嵌入式方法一般根据带标签的训练语料来显式地学习一个分类器，同时采用不同的正则化技术来防止学到的分类器在不同分布的数据上出现过拟合。

虽然目前的跨语料语音情感识别方法取得了一定的成就，但是，话者语音不匹配现象仍然会导致现有的语音情感识别方法对跨语料情感识别的准确率较低。

发明内容

本发明的目的是为解决话者语音不匹配现象导致的现有语音情感识别方法对跨语料情感识别的准确率低的问题。

本发明为解决上述技术问题采取的技术方案是：基于自适应半监督非负矩阵分解的跨语料情感识别方法，该方法包括以下步骤：

步骤一、将已知标签的情感语音信号数据作为训练集

将待识别的情感语音信号数据作为测试集

且训练集

和测试集

分别来自不同的语料库，训练集

和测试集

中的样本数分别为n和m；

分别对训练集

和测试集

中的每个样本进行超音段特征提取，获得训练集

对应的特征矩阵

以及测试集

对应的特征矩阵

其中：

和

分别代表训练集中的第1个、第2个和第n个样本的特征向量，

和

分别代表测试集中的第1个、第2个和第m个样本的特征向量；

步骤二、对训练集

对应的特征矩阵X^s以及测试集

对应的特征矩阵X^t进行预处理，获得训练集

对应的新特征矩阵

以及测试集

对应的新特征矩阵

步骤三、利用训练集

对应的新特征矩阵

以及新特征矩阵

对应的标签矩阵Y^s训练分类器f(w,X)，使Y^s与

满足关系式

获得分类器的参数

再将测试集

对应的新特征矩阵

输入分类器

获得对新特征矩阵

的初始分类结果

步骤四、通过求解非负约束优化问题，获得

在基矩阵U上的编码矩阵V^s以及

在基矩阵U上的编码矩阵V^t；

步骤五、利用步骤四获得的矩阵V^s训练分类器f(w,V)，使其满足Y^s＝f(w′,V^s)，得到分类器参数w′；再将步骤四获得的矩阵V^t输入分类器f(w′,V)得到最终的分类结果Y^t＝f(w′,V^t)。

本发明的有益效果是：本发明提出了一种基于自适应半监督非负矩阵分解的跨语料情感识别方法，通过特征空间与标签空间共享编码信息的方式，可以学习到更具判别性的语音情感特征表示，同时采用最大平均差异来度量特征表示中存在的差异，减少话者语音的不匹配，并根据流形一致性假设，使得新的特征表示尽可能地保留原始特征空间的信息，增强了语音情感特征表示的健壮性，从而有效地提高跨语料情感识别性能。

与目前主流的预处理方法和嵌入式方法相比，本发明的方法在四组跨语料语音情感识别任务中的未加权平均召回率达到43.74％，加权平均召回率达到43.84％，远高于现有的其他方法，有效提高了跨语料语音情感识别的准确率。

附图说明

图1是本发明的流程图；

图2是本发明的自适应半监督非负矩阵分解方法的原理图；

其中：U和H分别表示样本空间和标签空间的基矩阵，V^s和V^t分别表示X^s和X^t的编码矩阵；

图3是本发明方法在任务e2E上的未加权平均召回率(UAR)和加权平均召回率(WAR)的柱形图；

其中：SATNMF表示本发明的方法，SNMF、SNMF-γ和STNMF-λ分别表示本发明在参数α＝γ＝λ＝0、α＝λ＝0和α＝0时的特例；

图4是本发明方法在任务E2B上的未加权平均召回率(UAR)和加权平均召回率(WAR)的柱形图；

图5是本发明方法在任务B2C上的未加权平均召回率(UAR)和加权平均召回率(WAR)的柱形图；

图6是本发明方法在任务C2e上的未加权平均召回率(UAR)和加权平均召回率(WAR)的柱形图。

具体实施方式

具体实施方式一：如图1所示，本实施方式所述的基于自适应半监督非负矩阵分解的跨语料情感识别方法，该方法包括以下步骤：

步骤一、将已知标签的情感语音信号数据作为训练集

将待识别的情感语音信号数据作为测试集

且训练集

和测试集

分别来自不同的语料库，训练集

和测试集

中的样本数分别为n和m；

分别对训练集

和测试集

中的每个样本进行超音段(supra-segmental)特征提取，获得训练集

对应的特征矩阵

以及测试集

对应的特征矩阵

其中：

和

分别代表训练集中的第1个、第2个和第n个样本的特征向量，

和

分别代表测试集中的第1个、第2个和第m个样本的特征向量；

a^s(p)为训练集中的任一样本，a^t(q)为测试集中的任一样本，p和q是时间索引，p＝1,2,...,P，q＝1,2,...,Q，P表示样本a^s(p)的帧数，Q表示样本a^t(q)的帧数；

步骤二、对训练集

对应的特征矩阵X^s以及测试集

对应的特征矩阵X^t进行预处理，获得训练集

对应的新特征矩阵

以及测试集

对应的新特征矩阵

步骤三、利用训练集

对应的新特征矩阵

以及新特征矩阵

对应的标签矩阵Y^s训练分类器f(w,X)，使Y^s与

满足关系式

获得分类器的参数w^*；

再将测试集

对应的新特征矩阵

输入分类器f(w^*,X)，获得对新特征矩阵

的初始分类结果

后续步骤将会使用这一初始分类结果来估计不同数据集的条件分布之间的差异；

步骤四、通过求解非负约束优化问题，获得

在基矩阵U上的编码矩阵V^s以及

在基矩阵U上的编码矩阵V^t；

本发明提供一种融合标签信息的预处理方法，与传统预处理方法相比，本发明借鉴了嵌入式方法的优势，利用已知的标签信息来帮助改善预处理方法的识别性能，为解决语音情感识别中由于话者语音的不匹配而造成的识别性能下降的问题提供了新的方法。

具体实施方式二：本实施方式与具体实施方式一不同的是：所述对训练集

对应的特征矩阵X^s以及测试集

对应的特征矩阵X^t进行预处理是指将特征矩阵X^s以及特征矩阵X^t中每个样本的特征向量均线性缩放至[0,1]区间内。

具体实施方式三：本实施方式与具体实施方式二不同的是：所述训练集

对应的新特征矩阵

以及测试集

对应的新特征矩阵

的具体形式分别为：

训练集

对应的新特征矩阵为

其中：

为训练集中的第1个样本对应的预处理后特征向量，

为训练集中的第2个样本对应的预处理后特征向量，

为训练集中的第n个样本对应的预处理后特征向量；

测试集

对应的新特征矩阵为

其中：

为测试集中的第1个样本对应的预处理后特征向量，

为测试集中的第2个样本对应的预处理后特征向量，

为测试集中的第m个样本对应的预处理后特征向量。

具体实施方式四：如图2所示，本实施方式与具体实施方式三不同的是：所述步骤四的具体过程为：

步骤四一、建立非负约束优化问题的表达式如公式(1)所示：

非负矩阵分解体现在公式(1)的第一项和约束条件上，半监督体现在公式(1)的第二、三项上，自适应体现在公式(1)的第四项上；

其中，中间变量矩阵

中间变量矩阵V＝[V^s,V^t]，V^T代表V的转置；中间变量矩阵Y＝[Y^s,Y^t]，Y^t是未知标签矩阵，H表示与Y对应的基矩阵；操作符||·||_F表示F范数(Frobenius范数)；ο为矩阵的点乘运算符；Tr(·)表示矩阵的求迹运算符；参数β、λ和γ均为惩罚因子，它们分别权衡各自对应项的相对贡献，值越大表示越大的正则化；

权值矩阵E＝[e_ij]，权值矩阵E中第i行第j列的元素e_ij的定义为：

其中，y_ij是Y中第i行第j列的元素；权值矩阵E用来过滤未知标签Y^t，从而消除其对模型的影响；

其中：M₀用于刻画训练集与测试集的边缘分布之间的差异，M_k用于刻画训练集与测试集的条件分布之间的差异，M用于刻画训练集与测试集的联合分布之间的差异；k＝1,2，…,c，c代表类别的个数；参数α表示惩罚因子，用来权衡条件分布差异项的相对贡献；

M_k中第i′行第j′列的元素(M_k)_i′j′的计算公式如下：

式中：

表示训练集中属于类别k的样本集合，n_k表示集合

中的样本个数；

根据步骤三的

获得测试集中属于伪类别k的样本集合

步骤三获得的

只是初始分类结果，即

是一个不精确的类别标签，因此根据

获得的测试集中属于类别k的样本也是不精确的，所以称之为属于伪类别k的样本，m_k表示集合

中的样本个数，向量v_i′是中间变量矩阵V的第i′列，对应着数据集(数据集由训练集和测试集组成，数据集中样本顺序依次为训练集的第1个样本，训练集的第2个样本，…，训练集的第n个样本，测试集的第1个样本，测试集的第2个样本，…，测试集的第m个样本)中的第i个样本的特征表示，数据集中的第i个样本是指在数据集中，从训练集的第1个样本开始计数的第i个样本，向量v_j′是中间变量矩阵V的第j′列，

表示向量v_i′对应的样本和向量v_j′对应的样本都位于集合

中；

同理，

表示向量v_i′对应的样本和向量v_j′对应的样本都位于集合

中；

表示向量v_i′对应的样本位于集合

中，且向量v_j′对应的样本都位于集合

中；

表示向量v_i′对应的样本位于集合

中，且向量v_j′对应的样本都位于集合

中；

M₀中第i′行第j′列的元素(M₀)_i′j′的计算公式如下：

表示向量v_i′对应的样本和向量v_j′对应的样本都位于集合

中；

表示向量v_i′对应的样本和向量v_j′对应的样本都位于集合

中；

表示向量v_i′对应的样本位于集合

中，且向量v_j′对应的样本都位于集合

中；

表示向量v_i′对应的样本位于集合

中，且向量v_j′对应的样本都位于集合

中；

L＝D-W，L表示相似度矩阵W＝[w_i″j″]对应的拉普拉斯矩阵，度矩阵D为对角矩阵；

利用高斯核函数定义相似度矩阵W中第i″行第j″列的元素w_i″j″的计算公式如下：W构建在全部数据集上，

其中，x_i″是中间变量矩阵V的第i″列对应的样本，x_j″是中间变量矩阵V的第j″列对应的样本，

表示样本x_i″的k₀近邻集合(即

表示在数据集中与x_i″最近的k₀个样本组成的集合)，

表示样本x_j″的k₀近邻集合，参数k₀表示近邻的个数，σ表示高斯核的宽度，它们的取值范围分别是{1,3,5,8,10,15}和[0.01,100]；操作符||·||₂表示2范数，e表示自然常数；

度矩阵D中第i″个对角元素

步骤四二、初始化矩阵U、H和V为任意非负矩阵；

步骤四三、利用公式

更新矩阵U中第

行第

列的元素

利用公式

更新矩阵H中第

行第

列的元素

利用公式

更新矩阵V中第

行第

列的元素

其中，M⁺和M^-分别是M的正项和负项；

代表矩阵

的索引；

对于第一次迭代，公式右端的

以及

分别是初始化矩阵U、H以及V中的元素值，公式右端的U、H以及V分别是初始化的矩阵U、H以及V；

步骤四四、重复步骤四三的过程，对于当前次迭代更新过程，公式右端的

以及

利用的是当前次的前一次迭代得到的值，公式右端的U、H以及V是由当前次的前一次迭代得到的

以及

组成的，直至前后两次迭代得到的

以及

保证非负约束优化问题目标函数值的相对改变量小于阈值10^-5时，输出后一次迭代获得的矩阵V＝[V^s,V^t]。

具体实施方式五：本实施方式与具体实施方式四不同的是：所述参数β、λ、γ和α的取值范围均为[0.001,1000]。

为了验证本发明的有效性，采用线性支持向量机(Linear SVM)作为分类器，在四个公共的语音情感语料库上进行了四组跨语料语音情感识别任务(e2E、E2B、B2C和C2e，四组任务是基于四个公共语音情感数据集)，并与五个经典的预处理方法(mSDA、TNMF和FSTSL)和嵌入式方法(DBN和DoSL)进行了性能对比，结果如表1和表2所示。其中，分别采用未加权平均召回率(UAR，unweighted average recall)和加权平均召回率(WAR，weightedaverage recall)作为识别性能的评价指标。显见，本发明提出的方法在四组跨语料语音情感识别任务上的整体表现最佳。

表1不同方法在四组跨语料语音情感识别任务上的UAR(％)对比

表2不同方法在四组跨语料语音情感识别任务上的WAR(％)对比

实验方案	mSDA	TNMF	FSTSL	DBN	DoSL	本发明
							e2E	39.31	41.49	42.10	37.14	37.98	43.22
E2B	33.22	57.11	58.59	45.61	37.64	53.84
							B2C	34.20	38.88	26.80	32.60	40.50	42.30
C2e	28.89	33.07	29.94	31.57	30.33	34.00
							平均性能	33.91	42.64	39.36	36.73	36.61	43.84

因此，实验充分证实了本发明所提出方法的有效性。

如图3至图6所示，本发明引入的正则项在一定程度上改善了跨预料语音情感识别的性能。

本发明的上述算例仅为详细地说明本发明的计算模型和计算流程，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims

1.基于自适应半监督非负矩阵分解的跨语料情感识别方法，其特征在于，该方法包括以下步骤：

步骤一、将已知标签的情感语音信号数据作为训练集

将待识别的情感语音信号数据作为测试集

且训练集

和测试集

分别来自不同的语料库，训练集

和测试集

中的样本数分别为n和m；

分别对训练集

和测试集

中的每个样本进行超音段特征提取，获得训练集

对应的特征矩阵

以及测试集

对应的特征矩阵

其中：

和

分别代表训练集中的第1个、第2个和第n个样本的特征向量，

和

分别代表测试集中的第1个、第2个和第m个样本的特征向量；

步骤二、对训练集

对应的特征矩阵X^s以及测试集

对应的特征矩阵X^t进行预处理，获得训练集

对应的新特征矩阵

以及测试集

对应的新特征矩阵

所述对训练集

对应的特征矩阵X^s以及测试集

对应的特征矩阵X^t进行预处理是指将特征矩阵X^s以及特征矩阵X^t中每个样本的特征向量均线性缩放至[0,1]区间内；

所述训练集

对应的新特征矩阵

以及测试集

对应的新特征矩阵

的具体形式分别为：

训练集

对应的新特征矩阵为

其中：

为训练集中的第1个样本对应的预处理后特征向量，

为训练集中的第2个样本对应的预处理后特征向量，

为训练集中的第n个样本对应的预处理后特征向量；

测试集

对应的新特征矩阵为

其中：

为测试集中的第1个样本对应的预处理后特征向量，

为测试集中的第2个样本对应的预处理后特征向量，

为测试集中的第m个样本对应的预处理后特征向量；

步骤三、利用训练集

对应的新特征矩阵

以及新特征矩阵

对应的标签矩阵Y^s训练分类器f(w,X)，使Y^s与

满足关系式

获得分类器的参数w^*；

再将测试集

对应的新特征矩阵

输入分类器f(w^*,X)，获得新特征矩阵

的初始分类结果

步骤四、通过求解非负约束优化问题，获得

在基矩阵U上的编码矩阵V^s以及

在基矩阵U上的编码矩阵V^t；

所述步骤四的具体过程为：

步骤四一、建立非负约束优化问题的表达式如公式(1)所示：

其中，中间变量矩阵

中间变量矩阵V＝[V^s,V^t]，V^T代表V的转置；中间变量矩阵Y＝[Y^s,Y^t]，Y^t是未知标签矩阵，H表示与Y对应的基矩阵；操作符||·||_F表示F范数；

为矩阵的点乘运算符；Tr(·)表示矩阵的求迹运算符；参数β、λ和γ均为惩罚因子，U为基矩阵，L表示相似度矩阵W对应的拉普拉斯矩阵；

其中，y_ij是Y中第i行第j列的元素；

其中：M₀用于刻画训练集与测试集的边缘分布之间的差异，M_k用于刻画训练集与测试集的条件分布之间的差异，M用于刻画训练集与测试集的联合分布之间的差异；k＝1,2，…,c，c代表类别的个数；参数α表示惩罚因子；

M_k中第i′行第j′列的元素(M_k)_i′j′的计算公式如下：

式中：

表示训练集中属于类别k的样本集合，n_k表示集合

中的样本个数；

根据步骤三的

获得测试集中属于伪类别k的样本集合

m_k表示集合

中的样本个数，向量v_i′是中间变量矩阵V的第i′列，向量v_j′是中间变量矩阵V的第j′列，

表示向量v_i′对应的样本和向量v_j′对应的样本都位于集合

中；

同理，

表示向量v_i′对应的样本和向量v_j′对应的样本都位于集合

中；

表示向量v_i′对应的样本位于集合

中，且向量v_j′对应的样本位于集合

中；

表示向量v_i′对应的样本位于集合

中，且向量v_j′对应的样本位于集合

中；

M₀中第i′行第j′列的元素(M₀)_i′j′的计算公式如下：

表示向量v_i′对应的样本和向量v_j′对应的样本都位于集合

中；

表示向量v_i′对应的样本和向量v_j′对应的样本都位于集合

中；

表示向量v_i′对应的样本位于集合

中，且向量v_j′对应的样本位于集合

中；

表示向量v_i′对应的样本位于集合

中，且向量v_j′对应的样本位于集合

中；n表示集合

中的样本个数，m表示集合

中的样本个数；

利用高斯核函数定义相似度矩阵W中第i″行第j″列的元素w_i″j″的计算公式如下：

表示样本x_i″的k₀近邻集合，

表示样本x_j″的k₀近邻集合，参数k₀表示近邻的个数，σ表示高斯核的宽度，操作符||·||₂表示2范数，e表示自然常数；

度矩阵D中第i″个对角元素

步骤四二、初始化矩阵U、H和V为任意非负矩阵；

步骤四三、利用公式

更新矩阵U中第

行第

列的元素

利用公式

更新矩阵H中第

行第

列的元素

利用公式

更新矩阵V中第

行第

列的元素

其中，M⁺和M^-分别是M的正项和负项；

代表矩阵

的索引；

步骤四四、重复步骤四三的过程，直至前后两次迭代得到的

以及

保证非负约束优化问题目标函数值的相对改变量小于阈值10^-5时，输出后一次迭代获得的矩阵V＝[V^s,V^t]；

2.根据权利要求1所述的基于自适应半监督非负矩阵分解的跨语料情感识别方法，其特征在于，所述参数β、λ、γ和α的取值范围均为[0.001,1000]。