CN112397092A - 基于领域自适应子空间的无监督跨库语音情感识别方法 - Google Patents

基于领域自适应子空间的无监督跨库语音情感识别方法 Download PDF

Info

Publication number
CN112397092A
CN112397092A CN202011203086.XA CN202011203086A CN112397092A CN 112397092 A CN112397092 A CN 112397092A CN 202011203086 A CN202011203086 A CN 202011203086A CN 112397092 A CN112397092 A CN 112397092A
Authority
CN
China
Prior art keywords
domain
voice
matrix
speech
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011203086.XA
Other languages
English (en)
Inventor
刘娜
张宝峰
朱均超
刘欣宜
彭永胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University of Technology
Original Assignee
Tianjin University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University of Technology filed Critical Tianjin University of Technology
Priority to CN202011203086.XA priority Critical patent/CN112397092A/zh
Publication of CN112397092A publication Critical patent/CN112397092A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Image Analysis (AREA)

Abstract

一种基于领域自适应子空间的无监督跨库语音情感识别方法,包括获取语音序列、构成源域及目标域、对低维描述子进行统计函数处理、得到语音序列的全局特征向量、建立基于领域自适应的子空间模型、自学习得到投影矩阵及其对应的语音情感类别标签;能够进行不同特征分布数据库之间的学习,有良好的鲁棒性,使识别准确更高,且方法简单,容易实现。

Description

基于领域自适应子空间的无监督跨库语音情感识别方法
【技术领域】
本发明属于语音情感识别领域,特别是涉及一种基于领域自适应子空间的无监督跨库语音情感识别方法。
【背景技术】
语音情感识别(Speech Emotion Recognition,SER)在情感计算、模式识别和人机交互(Human Machine Interface,HMI)等领域已成为非常热门的研究方向。语音情感识别的主要任务是使计算机具有识别人类情感状态的能力。涉及的人类情感包括惊讶、生气、高兴、恐惧、悲伤、厌恶等。
人类的语音作为信息传递最直接最高效的方式,在人类情感表达和信息传递中起着至关重要的作用。在人机交互中,机器从交流对象的语音信号提取样本的情感特征,根据识别结果做出相应的反馈,从而提升人机交互系统的性能。语音情感识别在心理疾病诊疗、教育辅助、客服质量监控等方面都有着广泛的应用前景,能够及时检测出负面情绪,提前进行情绪疏导,也能够为相关人员提供最初的诊断依据。
目前语音情感识别的研究已取得了一定的成果,但主要针对源域(训练集)和目标域(测试集)样本源于同一个语料库,识别时通常假设样本具有相同的特征分布。在实际情况下,由于采集环境和设备等的不同,都会导致样本特征分布不同。此时传统的语音情感识别方法训练的分类器识别结果不精确。
【发明内容】
本发明的目的在于提供一种基于领域自适应子空间的无监督跨库语音情感识别方法,解决现有技术中只能对单一的数据库进行训练预测,导致语音情感识别率不精确的技术问题,具有模型简化、识别率高等优点,可得到广泛推广和应用。
本发明的技术方案:一种基于领域自适应子空间的无监督跨库语音情感识别方法,其特征在于它包括以下步骤:
步骤一:获取两个公开的语音数据库,每个数据库中存储有语音序列和对应的语音情感类别标签,分别记作跨库语音情感识别的源域和目标域;
步骤二:对源域和目标域中的每个语音序列的低维描述子(Low LevelDescriptors,LLDs)进行统计函数处理,将统计得到的情感特征作为对应语音序列的全局特征向量;具体包括:
(2-1)从步骤一中建立的存储有语音序列的语音数据库,对每段语音序列提取16个声学的低维描述子,包括:过零率(Zero-Crossing-Rate,ZCR)、能量平方根(Root MeanSquare Frame Energy,RMS Energy)、基音频率(F0)、信噪比(Harmonics-to-Noise ratio,HNR)及Mel频率倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC),分别记作MFCC1-MFCC 12;
(2-2)对步骤(2-1)提取的每段语音序列的16个声学的低维描述子进行12个统计函数的处理,统计函数包括:标准差、均值、峰度、偏度、最大值、最小值、相对范围、相对位置,两个线性回归系数及其均方误差;
(2-3)将步骤(2-2)统计得到的情感特征作为对应语音序列的全局特征向量。
步骤三:构建基于领域自适应的子空间模型,利用步骤一中的源域和目标域数据库语音序列全局特征对该模型进行学习,在学习过程中源域数据库标签给定,目标域数据库标签完全未知,学习到一个能够连接语音数据库样本特征和样本标签信息的投影矩阵;
所述步骤三中的领域自适应子空间模型具体是指:
Figure BDA0002756084550000031
并有,
Figure BDA0002756084550000032
Figure BDA0002756084550000033
Figure BDA0002756084550000034
Figure BDA0002756084550000035
其中,
Figure BDA0002756084550000036
表示寻找使括号中表达式最小的矩阵U,Ls为源域特征矩阵Xs对应的标签矩阵,UT表示U的转置,Xs表示源域样本特征矩阵,Xt表示目标域样本特征矩阵,且
Figure BDA0002756084550000037
Figure BDA0002756084550000038
代表两个不同特征分布的语音序列数据库,d表示特征向量的维度,Ns和Nt分别表示源域和目标域语音情感样本序列数目,
Figure BDA0002756084550000039
表示源域中所有特征向量
Figure BDA00027560845500000310
的均值,
Figure BDA00027560845500000311
表示目标域中所有特征向量
Figure BDA00027560845500000312
的均值,Σs和Σt分别表示源域和目标域特征向量的协方差,λ1和λ2是平衡参数,用来控制目标函数公式(1)中三部分之间的平衡;
所述源域特征矩阵Xs对应的标签矩阵Ls在无监督的跨库语音情感识别中,源域语音情感序列的标签是已知的,将该标签信息定义成向量的形式,即
Figure BDA0002756084550000041
其中c是语音情感状态编号;
定义标签矩阵Ls中第i列
Figure BDA0002756084550000042
的第j个元素li,j为:
Figure BDA0002756084550000043
所述步骤三中对领域自适应的子空间模型进行学习的具体方法是指:
(3-1)将式(1)所描述的领域自适应子空间模型转换成如式(2)的优化结构:
Figure BDA0002756084550000044
其中,
Figure BDA0002756084550000045
ΔΣst=Σst
(3-2)利用增广拉格朗日乘子法对式(2)进行求解,通过引入两个辅助变量Q和K,则式(2)可转化为:
Figure BDA0002756084550000046
s.t.U=K和U=Q
其拉格朗日函数如式(4)所示:
Figure BDA0002756084550000047
其中,tr[·]表示矩阵·的迹,T1和T2为拉格朗日乘子,μ>0为正则化参数;
(3-3)对式(4)得到的拉格朗日函数进行求解,即可得到最优投影矩阵U*
所述步骤(3-3)中最优投影矩阵U*的获取,其具体包括以下步骤:
(3-3-1)保持投影矩阵U、辅助变量Q、拉格朗日乘子T1和T2不变,迭代更新辅助变量K:
则式(3)转化为式(5):
Figure BDA0002756084550000051
式(5)的解析解为:
Figure BDA0002756084550000052
其中,I是单位矩阵;
(3-3-2)保持投影矩阵U、辅助变量K、拉格朗日乘子T1、T2和正则化参数μ不变,更新辅助变量Q,则有:
Figure BDA0002756084550000053
Figure BDA0002756084550000054
(3-3-3)保持辅助变量Q、K、拉格朗日乘子T1、T2和正则化参数μ不变,更新投影矩阵U,则式(2)转化为式(9)有:
Figure BDA0002756084550000055
式(9)的最佳投影矩阵U*如式(10)所示:
Figure BDA0002756084550000056
其中,qi,t1i,t2i和ki分别是辅助变量Q,拉格朗日乘子T1,T2和辅助变量K的第i行。
(3-3-4)分别按照式(11)和式(12)更新拉格朗日乘子T1,T2
T1=T1+μ(U-K) (11)
T2=T2+μ(U-Q) (12)
(3-3-5)按照式(13)更新μ;
μ=min(μmax,ρμ) (13)
其中ρ是比例参数,ρ>1;
(3-3-6)判断式(14)的收敛性:
||U-K||<ε,||U-Q||<ε (14)
其中,ε表示收敛阈值,||·||表示就是取向量的最大值;
若式(14)收敛,即收敛或迭代次数大于预设值,则输出此时的U、K、T1、T2和μ矩阵,若式(14)不收敛,则重复步骤(3-3-1)至步骤(3-3-6),继续对模型进行优化。
步骤四:对于目标域中待识别的语音情感,按照步骤二得到的语音序列的全局特征向量,采用步骤三中学习到的投影矩阵,得到其对应的语音情感类别标签。
所述步骤四中得到其对应的语音情感类别标签的具体方法包括:
对步骤(3-3-3)的优化方法学习的最优投影矩阵U*,根据式(15)为目标域的样本分配情感标签:
Figure BDA0002756084550000061
其中,Xt表示目标域数据库中国语音序列的特征向量集合,
Figure BDA0002756084550000062
代表目标域投影矩阵
Figure BDA0002756084550000071
中第j列的第k个元素,emotion_labels即为预测出的目标与中语音序列的表情标签,从而完成了跨库语音情感识别。
本发明所述的基于领域自适应子空间的无监督跨库语音情感识别装置包括存储器和处理器,所述存储器用于计算机程序的存储,处理器用于执行所述程序时实现上述方法。
本发明的优越性:跨数据库语音情感识别方法是进行不同特征分布数据库之间的学习,因此,对于不同环境获取的数据集有良好的鲁棒性,使识别准确更高,且方法简单,容易实现。
【附图说明】
图1为本发明所涉一种基于领域自适应子空间无监督跨库语音情感识别方法的原理流程示意图。
图2为本发明所涉一种基于领域自适应子空间无监督跨库语音情感识别方法中领域自适应子空间训练过程特征变化示意图。
【具体实施方式】
实施例:
本实施例提供了一种基于领域自适应子空间无监督跨库语音情感识别方法,如图1所示,包括:
(1)获取两个存储有语音序列和对应的语音情感类别标签的语音数据库,每个数据库分别作为源域和目标域;
本实施例中,采用语音情感识别中常用的三类语音情感数据库:EmoDB、AFEW4.0和iemocap。由于三个数据库中包含的情感类别不同,两两组合时需选取其共有的情感类别进行识别。EmoDB和AFEW4.0进行组合时,共有情感类别为6类(生气、高兴、害怕、悲伤、中性和厌恶),其中EmoDB包含489条语音序列,AFEW4.0包含858条语音序列。EmoDB和iemocap进行组合时,共有情感类别为4类(生气、高兴、悲伤和中性),其中EmoDB包含339条语音序列,iemocap包含5531条语音序列。AFEW4.0和iemocap进行组合时,共有情感类别为4类(生气、高兴、悲伤和中性),其中AFEW4.0包含639条语音序列,iemocap包含5531条语音序列。
(2)对源域和目标域中的每个语音序列,提取16个低维描述子(Low LevelDescriptors,LLDs)进行12种统计函数处理,将统计得到的多个情感特征作为对应语音序列的全局特征向量;
具体步骤包括:
(2-1)对每段语音序列提取16个声学的低维描述子,包括:过零率(zero-crossing-rate,ZCR),能量平方根(root mean square frame energy,RMS Energy),基音频率(F0),信噪比(Harmonics-to-Noise ratio,HNR),Mel频率倒谱系数1-12(Mel-frequency cepstral coefficient,MFCC),所提描述子定义见该文献“The interspeech2009emotion challenge.proc Interspeech,2009”,此处不再赘述;
(2-2)利用OpenSMILE tookit软件对每段语音序列的16个声学的低维描述子进行12种统计函数的处理,统计函数包括:标准差、均值、峰度、偏度、最大值、最小值、相对范围、相对位置,两个线性回归系数及其均方误差;
(2-3)将统计得到的每个信息作为一个情感特征,首先计算16个低维描述子,然后计算这16个低维描述子的一阶差分,得到32个低维描述子。对这32个低维描述子应用12个统计函数,最后得到32×12=384维特征向量,这个由多个情感特征组成的向量,即为所要提取的语音序列的全局特征向量。
(3)构建基于领域自适应的子空间模型,利用标签已知的源域数据库和标签完全未知的目标域数据库语音序列全局特征向量对该模型进行学习,得到一个能够连接语音数据库样本特征和样本标签信息的投影矩阵。利用该投影矩阵将源域和目标域特征从原始特征空间投影到一个共同子空间,从而使源域和目标域样本特征具有相似的特征分布,如图2所示。
其中,构建的领域自适应子空间模型为:
Figure BDA0002756084550000091
并有,
Figure BDA0002756084550000092
Figure BDA0002756084550000093
Figure BDA0002756084550000094
Figure BDA0002756084550000095
其中,
Figure BDA0002756084550000096
表示寻找使括号中表达式最小的矩阵U,Ls为源域特征矩阵Xs对应的标签矩阵,UT表示U的转置,Xs表示源域样本特征矩阵,Xt表示目标域样本特征矩阵,且
Figure BDA0002756084550000097
Figure BDA0002756084550000098
代表两个不同特征分布的语音序列数据库,d表示特征向量的维度,Ns和Nt分别表示源域和目标域语音情感样本序列数目,
Figure BDA0002756084550000101
表示源域中所有特征向量
Figure BDA0002756084550000102
的均值,
Figure BDA0002756084550000103
表示目标域中所有特征向量
Figure BDA0002756084550000104
的均值,Σs和Σt分别表示源域和目标域特征向量的协方差,λ1和λ2是平衡参数,用来控制目标函数公式(1)中三部分之间的平衡;
在无监督的跨库语音情感识别中,源域语音情感序列的标签是已知的,将该标签信息定义成向量的形式,即
Figure BDA0002756084550000105
Ls为源域特征矩阵Xs对应的标签矩阵,其中c是语音情感状态编号;
对于标签矩阵Ls中第i列
Figure BDA0002756084550000106
的第j个元素li,j定义为:
Figure BDA0002756084550000107
其中,对所述领域自适应子空间模型进行学习的具体方法包括:
(3-1)将式(1)所述领域自适应子空间模型转换成式(2)的优化问题:
Figure BDA0002756084550000108
其中,
Figure BDA0002756084550000109
ΔΣst=Σst
(3-2)利用增广拉格朗日乘子法进行求解,通过引入两个辅助变量Q和K,则式(2)可转化为:
Figure BDA00027560845500001010
s.t.U=K和U=Q
其拉格朗日函数如式(4):
Figure BDA00027560845500001011
Figure BDA0002756084550000111
其中,tr[·]表示矩阵·的迹,T1和T2为拉格朗日乘子,μ>0为正则化参数。
(3-3)对式(4)拉格朗日函数进行求解,得到最优投影矩阵U*
进一步的,所述步骤(3-3)中最优投影矩阵U*的获取,其具体包括以下步骤:
(3-3-1)保持投影矩阵U、辅助变量Q、拉格朗日乘子T1和T2不变,迭代更新辅助变量K:
将式(3)转化为式(5)
Figure BDA0002756084550000112
式(5)有解析解如下
Figure BDA0002756084550000113
其中,I是单位矩阵。
(3-3-2)保持投影矩阵U、辅助变量K、拉格朗日乘子T1、T2和正则化参数μ不变,更新辅助变量Q:
Figure BDA0002756084550000114
Figure BDA0002756084550000115
(3-3-3)保持辅助变量Q、K、拉格朗日乘子T1、T2和正则化参数μ不变,更新投影矩阵U,则式(2)转化为式(9)有:
Figure BDA0002756084550000116
式(9)的最佳投影矩阵U*如式(10)所示
Figure BDA0002756084550000121
其中qi,t1i,t2i和ki分别是辅助变量Q,拉格朗日乘子T1,T2和辅助变量K的第i行。
(3-3-4)更新拉格朗日乘子T1,T2,T1和T2的更新方式如式(11)和式(12)所示
T1=T1+μ(U-K) 式(11)
T2=T2+μ(U-Q) 式(12)
(3-3-5)更新μ
μ=min(μmax,ρμ) 式(13)
其中ρ是比例参数,ρ>1。
(3-3-6)检查收敛性:
||U-K||<ε,||U-Q||<ε 式(14)
ε表示收敛阈值,||·||表示就是取向量的最大值。
检查式(14)是否收敛,若收敛或迭代次数大于预设值,则输出此时的U、K、T1、T2和μ矩阵,若不收敛,则返回步骤(3-3-1)继续对模型进行优化。
(4)对于目标域中待识别的语音情感,按照步骤(2)得到的语音序列的全局特征向量,采用步骤(3)中学习到的投影矩阵,得到其对应的语音情感类别标签,具体包括:
对步骤(3-3-3)的优化方法学习的最优投影矩阵U*,根据式(15)为目标域的样本分配情感标签
Figure BDA0002756084550000131
其中Xt表示目标域数据库中国语音序列的特征向量集合,
Figure BDA0002756084550000132
代表目标域投影矩阵
Figure BDA0002756084550000133
中第j列的第k个元素,emotion_labels即为预测出的目标与中语音序列的表情标签,从而完成了跨库语音情感识别。
本实施例还提供了一种基于领域自适应子空间的无监督跨库语音情感识别装置包括存储器和处理器,所述存储器用于计算机程序的存储,处理器用于执行所述程序时实现上述方法。
为验证本发明的有效性,在EmoDB、AFEW4.0和iemocap语音情感数据库之间做了跨数据库语音情感识别实验。将三个数据库两两进行组合,每组实验中,将两个数据库分别作为源域和目标域进行训练,其中提供源域中的样本数据和标签信息,目标域中只提供测试数据,不提供任何标签信息。为了测试本发明的识别率,采用非加权平均召回率(unweighted average recall,UAR)和加权平均召回率(weighted average recall,WAR)作为检测方法。其中,UAR表示每一类表情被正确预测的数量除以目标域中该类的数量,在对所有类的识别率求均值。WAR是所有被正确预测的数量准确率除以总的目标域数量,而不考虑每种类别在总样本中的占比情况。通过比较一种方法的WAR和UAR,可以比较全面的揭示这种方法的可靠性。我们选取几类经典高效的语音识别算法作为对比算法,包括:SVM、KMM、KLIEP、uLSIF、DALSR和DoSL,本发明方法缩写为TDaLS。验证结果如表1所示,其中EmoDB、AFEW4.0和iemocap数据库分别缩写为E、A和I。
实验结果表明,基于本发明提出的语音情感识别方法,取得了较高的跨数据库语音情感识别率。
表1
Figure BDA0002756084550000141

Claims (7)

1.一种基于领域自适应子空间的无监督跨库语音情感识别方法,其特征在于它包括以下步骤:
步骤一:获取两个公开的语音数据库,每个数据库中存储有语音序列和对应的语音情感类别标签,分别记作跨库语音情感识别的源域和目标域;
步骤二:对源域和目标域中的每个语音序列的低维描述子进行统计函数处理,将统计得到的情感特征作为对应语音序列的全局特征向量;
步骤三:构建基于领域自适应的子空间模型,利用步骤一中的源域和目标域数据库语音序列全局特征对该模型进行学习,在学习过程中源域数据库标签给定,目标域数据库标签完全未知,学习到一个能够连接语音数据库样本特征和样本标签信息的投影矩阵;
步骤四:对于目标域中待识别的语音情感,按照步骤二得到的语音序列的全局特征向量,采用步骤三中学习到的投影矩阵,得到其对应的语音情感类别标签。
2.根据权利要求1所述一种基于领域自适应子空间的无监督跨库语音情感识别方法,其特征在于所述步骤二具体由以下步骤构成:
(2-1)从步骤一中建立的存储有语音序列的语音数据库,对每段语音序列提取声学的低维描述子,包括:过零率、能量平方根、基音频率、信噪比及Mel频率倒谱系数,分别记作MFCC 1-MFCC 12;
(2-2)对步骤(2-1)提取的每段语音序列的声学的低维描述子进行统计函数的处理,统计函数包括:标准差、均值、峰度、偏度、最大值、最小值、相对范围、相对位置,两个线性回归系数及其均方误差;
(2-3)将步骤(2-2)统计得到的情感特征作为对应语音序列的全局特征向量。
3.根据权利要求1所述一种基于领域自适应子空间的无监督跨库语音情感识别方法,其特征在于所述步骤三中的领域自适应子空间模型具体是指:
Figure FDA0002756084540000021
并有,
Figure FDA0002756084540000022
Figure FDA0002756084540000023
Figure FDA0002756084540000024
Figure FDA0002756084540000025
其中,
Figure FDA0002756084540000026
表示寻找使括号中表达式最小的矩阵U,Ls为源域特征矩阵Xs对应的标签矩阵,UT表示U的转置,Xs表示源域样本特征矩阵,Xt表示目标域样本特征矩阵,且
Figure FDA0002756084540000027
Figure FDA0002756084540000028
代表两个不同特征分布的语音序列数据库,d表示特征向量的维度,Ns和Nt分别表示源域和目标域语音情感样本序列数目,
Figure FDA0002756084540000029
表示源域中所有特征向量
Figure FDA00027560845400000210
的均值,
Figure FDA00027560845400000211
表示目标域中所有特征向量
Figure FDA00027560845400000212
的均值,Σs和Σt分别表示源域和目标域特征向量的协方差,λ1和λ2是平衡参数,用来控制目标函数公式(1)中三部分之间的平衡。
4.根据权利要求3所述一种基于领域自适应子空间的无监督跨库语音情感识别方法,其特征在于所述源域特征矩阵Xs对应的标签矩阵Ls在无监督的跨库语音情感识别中,源域语音情感序列的标签是已知的,将该标签信息定义成向量的形式,即
Figure FDA0002756084540000031
其中c是语音情感状态编号;
定义标签矩阵Ls中第i列
Figure FDA0002756084540000032
的第j个元素li,j为:
Figure FDA0002756084540000033
5.根据权利要求1所述一种基于领域自适应子空间的无监督跨库语音情感识别方法,其特征在于所述步骤三中对领域自适应的子空间模型进行学习的具体方法是指:
(3-1)将式(1)所描述的领域自适应子空间模型转换成如式(2)的优化结构:
Figure FDA0002756084540000034
其中,
Figure FDA0002756084540000035
ΔΣst=Σst
(3-2)利用增广拉格朗日乘子法对式(2)进行求解,通过引入两个辅助变量Q和K,则式(2)可转化为:
Figure FDA0002756084540000036
s.t.U=K和U=Q
其拉格朗日函数如式(4)所示:
Figure FDA0002756084540000037
其中,tr[·]表示矩阵·的迹,T1和T2为拉格朗日乘子,μ>0为正则化参数;
(3-3)对式(4)得到的拉格朗日函数进行求解,即可得到最优投影矩阵U*
6.根据权利要求5所述一种基于领域自适应子空间的无监督跨库语音情感识别方法,其特征在于所述步骤(3-3)中最优投影矩阵U*的获取,其具体包括以下步骤:
(3-3-1)保持投影矩阵U、辅助变量Q、拉格朗日乘子T1和T2不变,迭代更新辅助变量K:则式(3)转化为式(5):
Figure FDA0002756084540000041
式(5)的解析解为:
Figure FDA0002756084540000042
其中,I是单位矩阵;
(3-3-2)保持投影矩阵U、辅助变量K、拉格朗日乘子T1、T2和正则化参数μ不变,更新辅助变量Q,则有:
Figure FDA0002756084540000043
Figure FDA0002756084540000044
(3-3-3)保持辅助变量Q、K、拉格朗日乘子T1、T2和正则化参数μ不变,更新投影矩阵U,则式(2)转化为式(9)有:
Figure FDA0002756084540000045
式(9)的最佳投影矩阵U*如式(10)所示:
Figure FDA0002756084540000051
其中,qi,t1i,t2i和ki分别是辅助变量Q,拉格朗日乘子T1,T2和辅助变量K的第i行;
(3-3-4)分别按照式(11)和式(12)更新拉格朗日乘子T1,T2
T1=T1+μ(U-K) (11)
T2=T2+μ(U-Q) (12)
(3-3-5)按照式(13)更新μ;
μ=min(μmax,ρμ) (13)
其中ρ是比例参数,ρ>1;
(3-3-6)判断式(14)的收敛性:
||U-K||<ε,||U-Q||<ε (14)
其中,ε表示收敛阈值,||·||表示就是取向量的最大值;
若式(14)收敛,即收敛或迭代次数大于预设值,则输出此时的U、K、T1、T2和μ矩阵,若式(14)不收敛,则重复步骤(3-3-1)至步骤(3-3-6),继续对模型进行优化。
7.根据权利要求1所述一种基于领域自适应子空间的无监督跨库语音情感识别方法,其特征在于所述步骤四中得到其对应的语音情感类别标签的具体方法包括:
对步骤(3-3-3)的优化方法学习的最优投影矩阵U*,根据式(15)为目标域的样本分配情感标签:
Figure FDA0002756084540000061
其中,Xt表示目标域数据库中国语音序列的特征向量集合,
Figure FDA0002756084540000062
代表目标域投影矩阵
Figure FDA0002756084540000063
中第j列的第k个元素,emotion_labels即为预测出的目标与中语音序列的表情标签,从而完成了跨库语音情感识别。
CN202011203086.XA 2020-11-02 2020-11-02 基于领域自适应子空间的无监督跨库语音情感识别方法 Pending CN112397092A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011203086.XA CN112397092A (zh) 2020-11-02 2020-11-02 基于领域自适应子空间的无监督跨库语音情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011203086.XA CN112397092A (zh) 2020-11-02 2020-11-02 基于领域自适应子空间的无监督跨库语音情感识别方法

Publications (1)

Publication Number Publication Date
CN112397092A true CN112397092A (zh) 2021-02-23

Family

ID=74597321

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011203086.XA Pending CN112397092A (zh) 2020-11-02 2020-11-02 基于领域自适应子空间的无监督跨库语音情感识别方法

Country Status (1)

Country Link
CN (1) CN112397092A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113077823A (zh) * 2021-03-24 2021-07-06 河南工业大学 一种基于深度自编码器子域自适应跨库语音情感识别方法
CN113555038A (zh) * 2021-07-05 2021-10-26 东南大学 基于无监督领域对抗学习的说话人无关语音情感识别方法及系统
CN115240649A (zh) * 2022-07-19 2022-10-25 于振华 一种基于深度学习的语音识别方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200075040A1 (en) * 2018-08-31 2020-03-05 The Regents Of The University Of Michigan Automatic speech-based longitudinal emotion and mood recognition for mental health treatment
CN111048117A (zh) * 2019-12-05 2020-04-21 南京信息工程大学 一种基于目标适应子空间学习的跨库语音情感识别方法
CN111583966A (zh) * 2020-05-06 2020-08-25 东南大学 基于联合分布最小二乘回归的跨数据库语音情感识别方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200075040A1 (en) * 2018-08-31 2020-03-05 The Regents Of The University Of Michigan Automatic speech-based longitudinal emotion and mood recognition for mental health treatment
CN111048117A (zh) * 2019-12-05 2020-04-21 南京信息工程大学 一种基于目标适应子空间学习的跨库语音情感识别方法
CN111583966A (zh) * 2020-05-06 2020-08-25 东南大学 基于联合分布最小二乘回归的跨数据库语音情感识别方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BJORN SCHULLER ET AL.: "《The Interspeech 2009 Emotion Challenge》", 《INTERSPEECH 2009》 *
NA LIU ET AL.: "《Unsupervised Cross-Corpus Speech Emotion Recognition Using Domain-Adaptive Subspace Learning》", 《ICASSP 2018》 *
YUAN ZONG ET AL.: "《Cross-Corpus Speech Emotion Recognition Based on Domain-Adaptive Least-Squares Regression》", 《IEEE SIGNAL PROCESSING LETTERS》 *
金赟等: "《半监督判别分析的跨库语音情感识别》", 《声学学报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113077823A (zh) * 2021-03-24 2021-07-06 河南工业大学 一种基于深度自编码器子域自适应跨库语音情感识别方法
CN113077823B (zh) * 2021-03-24 2024-05-03 河南工业大学 一种基于深度自编码器子域自适应跨库语音情感识别方法
CN113555038A (zh) * 2021-07-05 2021-10-26 东南大学 基于无监督领域对抗学习的说话人无关语音情感识别方法及系统
CN113555038B (zh) * 2021-07-05 2023-12-29 东南大学 基于无监督领域对抗学习的说话人无关语音情感识别方法及系统
CN115240649A (zh) * 2022-07-19 2022-10-25 于振华 一种基于深度学习的语音识别方法和系统

Similar Documents

Publication Publication Date Title
Ma et al. Emotion recognition from variable-length speech segments using deep learning on spectrograms.
CN106782602B (zh) 基于深度神经网络的语音情感识别方法
Pandey et al. Deep learning techniques for speech emotion recognition: A review
CN112397092A (zh) 基于领域自适应子空间的无监督跨库语音情感识别方法
Sainath et al. Optimization techniques to improve training speed of deep neural networks for large speech tasks
CN110675859B (zh) 结合语音与文本的多情感识别方法、系统、介质及设备
CN110289003A (zh) 一种声纹识别的方法、模型训练的方法以及服务器
Hu et al. Dimensionality reduction methods for HMM phonetic recognition
CN109313892A (zh) 稳健的语言识别方法和系统
Wang et al. Attention mechanism in speaker recognition: What does it learn in deep speaker embedding?
CN107767881B (zh) 一种语音信息的满意度的获取方法和装置
CN113112994B (zh) 基于图卷积神经网络的跨语料库情感识别方法
CN110299132B (zh) 一种语音数字识别方法和装置
Jia et al. Inferring emotions from large-scale internet voice data
Gupta et al. Speech emotion recognition using SVM with thresholding fusion
CN113450830A (zh) 具有多重注意机制的卷积循环神经网络的语音情感识别方法
Pardede et al. Convolutional neural network and feature transformation for distant speech recognition
Deng et al. Deep neural networks for anger detection from real life speech data
Jakubec et al. Deep speaker embeddings for Speaker Verification: Review and experimental comparison
CN108899046A (zh) 一种基于多级支持向量机分类的语音情感识别方法及系统
Mocanu et al. Speech emotion recognition using GhostVLAD and sentiment metric learning
Chinmayi et al. Emotion Classification Using Deep Learning
Chandrakala et al. Combination of generative models and SVM based classifier for speech emotion recognition
CN114898777A (zh) 基于深度直推式迁移网络的跨库语音情感识别方法及装置
CN107886942B (zh) 一种基于局部惩罚随机谱回归的语音信号情感识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210223

RJ01 Rejection of invention patent application after publication