CN112397092A

CN112397092A - 基于领域自适应子空间的无监督跨库语音情感识别方法

Info

Publication number: CN112397092A
Application number: CN202011203086.XA
Authority: CN
Inventors: 刘娜; 张宝峰; 朱均超; 刘欣宜; 彭永胜
Original assignee: Tianjin University of Technology
Current assignee: Tianjin University of Technology
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2021-02-23

Abstract

一种基于领域自适应子空间的无监督跨库语音情感识别方法，包括获取语音序列、构成源域及目标域、对低维描述子进行统计函数处理、得到语音序列的全局特征向量、建立基于领域自适应的子空间模型、自学习得到投影矩阵及其对应的语音情感类别标签；能够进行不同特征分布数据库之间的学习，有良好的鲁棒性，使识别准确更高，且方法简单，容易实现。

Description

基于领域自适应子空间的无监督跨库语音情感识别方法

【技术领域】

本发明属于语音情感识别领域，特别是涉及一种基于领域自适应子空间的无监督跨库语音情感识别方法。

【背景技术】

语音情感识别(Speech Emotion Recognition，SER)在情感计算、模式识别和人机交互(Human Machine Interface，HMI)等领域已成为非常热门的研究方向。语音情感识别的主要任务是使计算机具有识别人类情感状态的能力。涉及的人类情感包括惊讶、生气、高兴、恐惧、悲伤、厌恶等。

人类的语音作为信息传递最直接最高效的方式，在人类情感表达和信息传递中起着至关重要的作用。在人机交互中，机器从交流对象的语音信号提取样本的情感特征,根据识别结果做出相应的反馈，从而提升人机交互系统的性能。语音情感识别在心理疾病诊疗、教育辅助、客服质量监控等方面都有着广泛的应用前景，能够及时检测出负面情绪，提前进行情绪疏导，也能够为相关人员提供最初的诊断依据。

目前语音情感识别的研究已取得了一定的成果，但主要针对源域(训练集)和目标域(测试集)样本源于同一个语料库，识别时通常假设样本具有相同的特征分布。在实际情况下，由于采集环境和设备等的不同，都会导致样本特征分布不同。此时传统的语音情感识别方法训练的分类器识别结果不精确。

【发明内容】

本发明的目的在于提供一种基于领域自适应子空间的无监督跨库语音情感识别方法，解决现有技术中只能对单一的数据库进行训练预测，导致语音情感识别率不精确的技术问题，具有模型简化、识别率高等优点，可得到广泛推广和应用。

本发明的技术方案：一种基于领域自适应子空间的无监督跨库语音情感识别方法，其特征在于它包括以下步骤：

步骤一：获取两个公开的语音数据库，每个数据库中存储有语音序列和对应的语音情感类别标签，分别记作跨库语音情感识别的源域和目标域；

步骤二：对源域和目标域中的每个语音序列的低维描述子(Low LevelDescriptors，LLDs)进行统计函数处理，将统计得到的情感特征作为对应语音序列的全局特征向量；具体包括：

(2-1)从步骤一中建立的存储有语音序列的语音数据库，对每段语音序列提取16个声学的低维描述子，包括：过零率(Zero-Crossing-Rate，ZCR)、能量平方根(Root MeanSquare Frame Energy，RMS Energy)、基音频率(F0)、信噪比(Harmonics-to-Noise ratio，HNR)及Mel频率倒谱系数(Mel-Frequency Cepstral Coefficient，MFCC)，分别记作MFCC1-MFCC 12；

(2-2)对步骤(2-1)提取的每段语音序列的16个声学的低维描述子进行12个统计函数的处理，统计函数包括：标准差、均值、峰度、偏度、最大值、最小值、相对范围、相对位置，两个线性回归系数及其均方误差；

(2-3)将步骤(2-2)统计得到的情感特征作为对应语音序列的全局特征向量。

步骤三：构建基于领域自适应的子空间模型，利用步骤一中的源域和目标域数据库语音序列全局特征对该模型进行学习，在学习过程中源域数据库标签给定，目标域数据库标签完全未知，学习到一个能够连接语音数据库样本特征和样本标签信息的投影矩阵；

所述步骤三中的领域自适应子空间模型具体是指：

并有，

其中，

表示寻找使括号中表达式最小的矩阵U，L^s为源域特征矩阵X^s对应的标签矩阵，U^T表示U的转置，X^s表示源域样本特征矩阵，X^t表示目标域样本特征矩阵，且

和

代表两个不同特征分布的语音序列数据库，d表示特征向量的维度，N_s和N_t分别表示源域和目标域语音情感样本序列数目，

表示源域中所有特征向量

的均值，

表示目标域中所有特征向量

的均值，Σ^s和Σ^t分别表示源域和目标域特征向量的协方差，λ₁和λ₂是平衡参数，用来控制目标函数公式(1)中三部分之间的平衡；

所述源域特征矩阵X^s对应的标签矩阵L^s在无监督的跨库语音情感识别中，源域语音情感序列的标签是已知的，将该标签信息定义成向量的形式，即

其中c是语音情感状态编号；

定义标签矩阵L^s中第i列

的第j个元素l_i,j为：

所述步骤三中对领域自适应的子空间模型进行学习的具体方法是指：

(3-1)将式(1)所描述的领域自适应子空间模型转换成如式(2)的优化结构：

其中，

ΔΣ^st＝Σ^s-Σ^t；

(3-2)利用增广拉格朗日乘子法对式(2)进行求解，通过引入两个辅助变量Q和K，则式(2)可转化为：

s.t.U＝K和U＝Q

其拉格朗日函数如式(4)所示：

其中，tr[·]表示矩阵·的迹，T₁和T₂为拉格朗日乘子，μ＞0为正则化参数；

(3-3)对式(4)得到的拉格朗日函数进行求解，即可得到最优投影矩阵U_*。

所述步骤(3-3)中最优投影矩阵U_*的获取，其具体包括以下步骤：

(3-3-1)保持投影矩阵U、辅助变量Q、拉格朗日乘子T₁和T₂不变，迭代更新辅助变量K：

则式(3)转化为式(5)：

式(5)的解析解为：

其中，I是单位矩阵；

(3-3-2)保持投影矩阵U、辅助变量K、拉格朗日乘子T₁、T₂和正则化参数μ不变，更新辅助变量Q，则有：

(3-3-3)保持辅助变量Q、K、拉格朗日乘子T₁、T₂和正则化参数μ不变，更新投影矩阵U，则式(2)转化为式(9)有：

式(9)的最佳投影矩阵U_*如式(10)所示：

其中，q_i，t_1i，t_2i和k_i分别是辅助变量Q，拉格朗日乘子T₁，T₂和辅助变量K的第i行。

(3-3-4)分别按照式(11)和式(12)更新拉格朗日乘子T₁，T₂；

T₁＝T₁+μ(U-K) (11)

T₂＝T₂+μ(U-Q) (12)

(3-3-5)按照式(13)更新μ；

μ＝min(μ_max,ρμ) (13)

其中ρ是比例参数，ρ＞1；

(3-3-6)判断式(14)的收敛性：

||U-K||_∞＜ε,||U-Q||_∞＜ε (14)

其中，ε表示收敛阈值，||·||_∞表示就是取向量的最大值；

若式(14)收敛，即收敛或迭代次数大于预设值，则输出此时的U、K、T₁、T₂和μ矩阵，若式(14)不收敛，则重复步骤(3-3-1)至步骤(3-3-6)，继续对模型进行优化。

步骤四：对于目标域中待识别的语音情感，按照步骤二得到的语音序列的全局特征向量，采用步骤三中学习到的投影矩阵，得到其对应的语音情感类别标签。

所述步骤四中得到其对应的语音情感类别标签的具体方法包括：

对步骤(3-3-3)的优化方法学习的最优投影矩阵U_*，根据式(15)为目标域的样本分配情感标签：

其中，X^t表示目标域数据库中国语音序列的特征向量集合，

代表目标域投影矩阵

中第j列的第k个元素，emotion_labels即为预测出的目标与中语音序列的表情标签，从而完成了跨库语音情感识别。

本发明所述的基于领域自适应子空间的无监督跨库语音情感识别装置包括存储器和处理器，所述存储器用于计算机程序的存储，处理器用于执行所述程序时实现上述方法。

本发明的优越性：跨数据库语音情感识别方法是进行不同特征分布数据库之间的学习，因此，对于不同环境获取的数据集有良好的鲁棒性，使识别准确更高，且方法简单，容易实现。

【附图说明】

图1为本发明所涉一种基于领域自适应子空间无监督跨库语音情感识别方法的原理流程示意图。

图2为本发明所涉一种基于领域自适应子空间无监督跨库语音情感识别方法中领域自适应子空间训练过程特征变化示意图。

【具体实施方式】

实施例：

本实施例提供了一种基于领域自适应子空间无监督跨库语音情感识别方法，如图1所示，包括：

(1)获取两个存储有语音序列和对应的语音情感类别标签的语音数据库，每个数据库分别作为源域和目标域；

本实施例中，采用语音情感识别中常用的三类语音情感数据库：EmoDB、AFEW4.0和iemocap。由于三个数据库中包含的情感类别不同，两两组合时需选取其共有的情感类别进行识别。EmoDB和AFEW4.0进行组合时，共有情感类别为6类(生气、高兴、害怕、悲伤、中性和厌恶)，其中EmoDB包含489条语音序列，AFEW4.0包含858条语音序列。EmoDB和iemocap进行组合时，共有情感类别为4类(生气、高兴、悲伤和中性)，其中EmoDB包含339条语音序列，iemocap包含5531条语音序列。AFEW4.0和iemocap进行组合时，共有情感类别为4类(生气、高兴、悲伤和中性)，其中AFEW4.0包含639条语音序列，iemocap包含5531条语音序列。

(2)对源域和目标域中的每个语音序列，提取16个低维描述子(Low LevelDescriptors，LLDs)进行12种统计函数处理，将统计得到的多个情感特征作为对应语音序列的全局特征向量；

具体步骤包括：

(2-1)对每段语音序列提取16个声学的低维描述子，包括：过零率(zero-crossing-rate，ZCR)，能量平方根(root mean square frame energy，RMS Energy)，基音频率(F0)，信噪比(Harmonics-to-Noise ratio，HNR)，Mel频率倒谱系数1-12(Mel-frequency cepstral coefficient，MFCC)，所提描述子定义见该文献“The interspeech2009emotion challenge.proc Interspeech,2009”，此处不再赘述；

(2-2)利用OpenSMILE tookit软件对每段语音序列的16个声学的低维描述子进行12种统计函数的处理，统计函数包括：标准差、均值、峰度、偏度、最大值、最小值、相对范围、相对位置，两个线性回归系数及其均方误差；

(2-3)将统计得到的每个信息作为一个情感特征，首先计算16个低维描述子，然后计算这16个低维描述子的一阶差分，得到32个低维描述子。对这32个低维描述子应用12个统计函数，最后得到32×12＝384维特征向量，这个由多个情感特征组成的向量，即为所要提取的语音序列的全局特征向量。

(3)构建基于领域自适应的子空间模型，利用标签已知的源域数据库和标签完全未知的目标域数据库语音序列全局特征向量对该模型进行学习，得到一个能够连接语音数据库样本特征和样本标签信息的投影矩阵。利用该投影矩阵将源域和目标域特征从原始特征空间投影到一个共同子空间，从而使源域和目标域样本特征具有相似的特征分布，如图2所示。

其中，构建的领域自适应子空间模型为：

并有，

其中，

和

表示源域中所有特征向量

的均值，

表示目标域中所有特征向量

在无监督的跨库语音情感识别中，源域语音情感序列的标签是已知的，将该标签信息定义成向量的形式，即

L^s为源域特征矩阵X^s对应的标签矩阵，其中c是语音情感状态编号；

对于标签矩阵L^s中第i列

的第j个元素l_i,j定义为：

其中，对所述领域自适应子空间模型进行学习的具体方法包括：

(3-1)将式(1)所述领域自适应子空间模型转换成式(2)的优化问题：

其中，

ΔΣ^st＝Σ^s-Σ^t。

(3-2)利用增广拉格朗日乘子法进行求解，通过引入两个辅助变量Q和K，则式(2)可转化为：

s.t.U＝K和U＝Q

其拉格朗日函数如式(4)：

其中，tr[·]表示矩阵·的迹，T₁和T₂为拉格朗日乘子，μ＞0为正则化参数。

(3-3)对式(4)拉格朗日函数进行求解，得到最优投影矩阵U_*。

进一步的，所述步骤(3-3)中最优投影矩阵U_*的获取，其具体包括以下步骤：

将式(3)转化为式(5)

式(5)有解析解如下

其中，I是单位矩阵。

(3-3-2)保持投影矩阵U、辅助变量K、拉格朗日乘子T₁、T₂和正则化参数μ不变，更新辅助变量Q：

式(9)的最佳投影矩阵U_*如式(10)所示

其中q_i，t_1i，t_2i和k_i分别是辅助变量Q，拉格朗日乘子T₁，T₂和辅助变量K的第i行。

(3-3-4)更新拉格朗日乘子T₁，T₂，T₁和T₂的更新方式如式(11)和式(12)所示

T₁＝T₁+μ(U-K) 式(11)

T₂＝T₂+μ(U-Q) 式(12)

(3-3-5)更新μ

μ＝min(μ_max,ρμ) 式(13)

其中ρ是比例参数，ρ＞1。

(3-3-6)检查收敛性:

||U-K||_∞＜ε,||U-Q||_∞＜ε 式(14)

ε表示收敛阈值，||·||_∞表示就是取向量的最大值。

检查式(14)是否收敛，若收敛或迭代次数大于预设值，则输出此时的U、K、T₁、T₂和μ矩阵，若不收敛，则返回步骤(3-3-1)继续对模型进行优化。

(4)对于目标域中待识别的语音情感，按照步骤(2)得到的语音序列的全局特征向量，采用步骤(3)中学习到的投影矩阵，得到其对应的语音情感类别标签，具体包括：

对步骤(3-3-3)的优化方法学习的最优投影矩阵U_*，根据式(15)为目标域的样本分配情感标签

其中X^t表示目标域数据库中国语音序列的特征向量集合，

代表目标域投影矩阵

本实施例还提供了一种基于领域自适应子空间的无监督跨库语音情感识别装置包括存储器和处理器，所述存储器用于计算机程序的存储，处理器用于执行所述程序时实现上述方法。

为验证本发明的有效性，在EmoDB、AFEW4.0和iemocap语音情感数据库之间做了跨数据库语音情感识别实验。将三个数据库两两进行组合，每组实验中，将两个数据库分别作为源域和目标域进行训练，其中提供源域中的样本数据和标签信息，目标域中只提供测试数据，不提供任何标签信息。为了测试本发明的识别率，采用非加权平均召回率(unweighted average recall，UAR)和加权平均召回率(weighted average recall，WAR)作为检测方法。其中，UAR表示每一类表情被正确预测的数量除以目标域中该类的数量，在对所有类的识别率求均值。WAR是所有被正确预测的数量准确率除以总的目标域数量，而不考虑每种类别在总样本中的占比情况。通过比较一种方法的WAR和UAR，可以比较全面的揭示这种方法的可靠性。我们选取几类经典高效的语音识别算法作为对比算法，包括：SVM、KMM、KLIEP、uLSIF、DALSR和DoSL，本发明方法缩写为TDaLS。验证结果如表1所示，其中EmoDB、AFEW4.0和iemocap数据库分别缩写为E、A和I。

实验结果表明，基于本发明提出的语音情感识别方法，取得了较高的跨数据库语音情感识别率。

表1