CN112397092A - 基于领域自适应子空间的无监督跨库语音情感识别方法 - Google Patents
基于领域自适应子空间的无监督跨库语音情感识别方法 Download PDFInfo
- Publication number
- CN112397092A CN112397092A CN202011203086.XA CN202011203086A CN112397092A CN 112397092 A CN112397092 A CN 112397092A CN 202011203086 A CN202011203086 A CN 202011203086A CN 112397092 A CN112397092 A CN 112397092A
- Authority
- CN
- China
- Prior art keywords
- domain
- voice
- matrix
- speech
- formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 38
- 230000003044 adaptive effect Effects 0.000 title claims description 22
- 239000011159 matrix material Substances 0.000 claims abstract description 65
- 230000008451 emotion Effects 0.000 claims abstract description 44
- 239000013598 vector Substances 0.000 claims abstract description 31
- 230000006870 function Effects 0.000 claims abstract description 20
- 238000009826 distribution Methods 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims abstract description 7
- 230000002996 emotional effect Effects 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 4
- 230000003190 augmentative effect Effects 0.000 claims description 3
- 238000012417 linear regression Methods 0.000 claims description 3
- 239000000463 material Substances 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 239000004576 sand Substances 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 206010063659 Aversion Diseases 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 description 1
- 235000019606 astringent taste Nutrition 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Image Analysis (AREA)
Abstract
一种基于领域自适应子空间的无监督跨库语音情感识别方法,包括获取语音序列、构成源域及目标域、对低维描述子进行统计函数处理、得到语音序列的全局特征向量、建立基于领域自适应的子空间模型、自学习得到投影矩阵及其对应的语音情感类别标签;能够进行不同特征分布数据库之间的学习,有良好的鲁棒性,使识别准确更高,且方法简单,容易实现。
Description
【技术领域】
本发明属于语音情感识别领域,特别是涉及一种基于领域自适应子空间的无监督跨库语音情感识别方法。
【背景技术】
语音情感识别(Speech Emotion Recognition,SER)在情感计算、模式识别和人机交互(Human Machine Interface,HMI)等领域已成为非常热门的研究方向。语音情感识别的主要任务是使计算机具有识别人类情感状态的能力。涉及的人类情感包括惊讶、生气、高兴、恐惧、悲伤、厌恶等。
人类的语音作为信息传递最直接最高效的方式,在人类情感表达和信息传递中起着至关重要的作用。在人机交互中,机器从交流对象的语音信号提取样本的情感特征,根据识别结果做出相应的反馈,从而提升人机交互系统的性能。语音情感识别在心理疾病诊疗、教育辅助、客服质量监控等方面都有着广泛的应用前景,能够及时检测出负面情绪,提前进行情绪疏导,也能够为相关人员提供最初的诊断依据。
目前语音情感识别的研究已取得了一定的成果,但主要针对源域(训练集)和目标域(测试集)样本源于同一个语料库,识别时通常假设样本具有相同的特征分布。在实际情况下,由于采集环境和设备等的不同,都会导致样本特征分布不同。此时传统的语音情感识别方法训练的分类器识别结果不精确。
【发明内容】
本发明的目的在于提供一种基于领域自适应子空间的无监督跨库语音情感识别方法,解决现有技术中只能对单一的数据库进行训练预测,导致语音情感识别率不精确的技术问题,具有模型简化、识别率高等优点,可得到广泛推广和应用。
本发明的技术方案:一种基于领域自适应子空间的无监督跨库语音情感识别方法,其特征在于它包括以下步骤:
步骤一:获取两个公开的语音数据库,每个数据库中存储有语音序列和对应的语音情感类别标签,分别记作跨库语音情感识别的源域和目标域;
步骤二:对源域和目标域中的每个语音序列的低维描述子(Low LevelDescriptors,LLDs)进行统计函数处理,将统计得到的情感特征作为对应语音序列的全局特征向量;具体包括:
(2-1)从步骤一中建立的存储有语音序列的语音数据库,对每段语音序列提取16个声学的低维描述子,包括:过零率(Zero-Crossing-Rate,ZCR)、能量平方根(Root MeanSquare Frame Energy,RMS Energy)、基音频率(F0)、信噪比(Harmonics-to-Noise ratio,HNR)及Mel频率倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC),分别记作MFCC1-MFCC 12;
(2-2)对步骤(2-1)提取的每段语音序列的16个声学的低维描述子进行12个统计函数的处理,统计函数包括:标准差、均值、峰度、偏度、最大值、最小值、相对范围、相对位置,两个线性回归系数及其均方误差;
(2-3)将步骤(2-2)统计得到的情感特征作为对应语音序列的全局特征向量。
步骤三:构建基于领域自适应的子空间模型,利用步骤一中的源域和目标域数据库语音序列全局特征对该模型进行学习,在学习过程中源域数据库标签给定,目标域数据库标签完全未知,学习到一个能够连接语音数据库样本特征和样本标签信息的投影矩阵;
所述步骤三中的领域自适应子空间模型具体是指:
并有,
其中,表示寻找使括号中表达式最小的矩阵U,Ls为源域特征矩阵Xs对应的标签矩阵,UT表示U的转置,Xs表示源域样本特征矩阵,Xt表示目标域样本特征矩阵,且和代表两个不同特征分布的语音序列数据库,d表示特征向量的维度,Ns和Nt分别表示源域和目标域语音情感样本序列数目,表示源域中所有特征向量的均值,表示目标域中所有特征向量的均值,Σs和Σt分别表示源域和目标域特征向量的协方差,λ1和λ2是平衡参数,用来控制目标函数公式(1)中三部分之间的平衡;
所述步骤三中对领域自适应的子空间模型进行学习的具体方法是指:
(3-1)将式(1)所描述的领域自适应子空间模型转换成如式(2)的优化结构:
(3-2)利用增广拉格朗日乘子法对式(2)进行求解,通过引入两个辅助变量Q和K,则式(2)可转化为:
s.t.U=K和U=Q
其拉格朗日函数如式(4)所示:
其中,tr[·]表示矩阵·的迹,T1和T2为拉格朗日乘子,μ>0为正则化参数;
(3-3)对式(4)得到的拉格朗日函数进行求解,即可得到最优投影矩阵U*。
所述步骤(3-3)中最优投影矩阵U*的获取,其具体包括以下步骤:
(3-3-1)保持投影矩阵U、辅助变量Q、拉格朗日乘子T1和T2不变,迭代更新辅助变量K:
则式(3)转化为式(5):
式(5)的解析解为:
其中,I是单位矩阵;
(3-3-2)保持投影矩阵U、辅助变量K、拉格朗日乘子T1、T2和正则化参数μ不变,更新辅助变量Q,则有:
(3-3-3)保持辅助变量Q、K、拉格朗日乘子T1、T2和正则化参数μ不变,更新投影矩阵U,则式(2)转化为式(9)有:
式(9)的最佳投影矩阵U*如式(10)所示:
其中,qi,t1i,t2i和ki分别是辅助变量Q,拉格朗日乘子T1,T2和辅助变量K的第i行。
(3-3-4)分别按照式(11)和式(12)更新拉格朗日乘子T1,T2;
T1=T1+μ(U-K) (11)
T2=T2+μ(U-Q) (12)
(3-3-5)按照式(13)更新μ;
μ=min(μmax,ρμ) (13)
其中ρ是比例参数,ρ>1;
(3-3-6)判断式(14)的收敛性:
||U-K||∞<ε,||U-Q||∞<ε (14)
其中,ε表示收敛阈值,||·||∞表示就是取向量的最大值;
若式(14)收敛,即收敛或迭代次数大于预设值,则输出此时的U、K、T1、T2和μ矩阵,若式(14)不收敛,则重复步骤(3-3-1)至步骤(3-3-6),继续对模型进行优化。
步骤四:对于目标域中待识别的语音情感,按照步骤二得到的语音序列的全局特征向量,采用步骤三中学习到的投影矩阵,得到其对应的语音情感类别标签。
所述步骤四中得到其对应的语音情感类别标签的具体方法包括:
对步骤(3-3-3)的优化方法学习的最优投影矩阵U*,根据式(15)为目标域的样本分配情感标签:
本发明所述的基于领域自适应子空间的无监督跨库语音情感识别装置包括存储器和处理器,所述存储器用于计算机程序的存储,处理器用于执行所述程序时实现上述方法。
本发明的优越性:跨数据库语音情感识别方法是进行不同特征分布数据库之间的学习,因此,对于不同环境获取的数据集有良好的鲁棒性,使识别准确更高,且方法简单,容易实现。
【附图说明】
图1为本发明所涉一种基于领域自适应子空间无监督跨库语音情感识别方法的原理流程示意图。
图2为本发明所涉一种基于领域自适应子空间无监督跨库语音情感识别方法中领域自适应子空间训练过程特征变化示意图。
【具体实施方式】
实施例:
本实施例提供了一种基于领域自适应子空间无监督跨库语音情感识别方法,如图1所示,包括:
(1)获取两个存储有语音序列和对应的语音情感类别标签的语音数据库,每个数据库分别作为源域和目标域;
本实施例中,采用语音情感识别中常用的三类语音情感数据库:EmoDB、AFEW4.0和iemocap。由于三个数据库中包含的情感类别不同,两两组合时需选取其共有的情感类别进行识别。EmoDB和AFEW4.0进行组合时,共有情感类别为6类(生气、高兴、害怕、悲伤、中性和厌恶),其中EmoDB包含489条语音序列,AFEW4.0包含858条语音序列。EmoDB和iemocap进行组合时,共有情感类别为4类(生气、高兴、悲伤和中性),其中EmoDB包含339条语音序列,iemocap包含5531条语音序列。AFEW4.0和iemocap进行组合时,共有情感类别为4类(生气、高兴、悲伤和中性),其中AFEW4.0包含639条语音序列,iemocap包含5531条语音序列。
(2)对源域和目标域中的每个语音序列,提取16个低维描述子(Low LevelDescriptors,LLDs)进行12种统计函数处理,将统计得到的多个情感特征作为对应语音序列的全局特征向量;
具体步骤包括:
(2-1)对每段语音序列提取16个声学的低维描述子,包括:过零率(zero-crossing-rate,ZCR),能量平方根(root mean square frame energy,RMS Energy),基音频率(F0),信噪比(Harmonics-to-Noise ratio,HNR),Mel频率倒谱系数1-12(Mel-frequency cepstral coefficient,MFCC),所提描述子定义见该文献“The interspeech2009emotion challenge.proc Interspeech,2009”,此处不再赘述;
(2-2)利用OpenSMILE tookit软件对每段语音序列的16个声学的低维描述子进行12种统计函数的处理,统计函数包括:标准差、均值、峰度、偏度、最大值、最小值、相对范围、相对位置,两个线性回归系数及其均方误差;
(2-3)将统计得到的每个信息作为一个情感特征,首先计算16个低维描述子,然后计算这16个低维描述子的一阶差分,得到32个低维描述子。对这32个低维描述子应用12个统计函数,最后得到32×12=384维特征向量,这个由多个情感特征组成的向量,即为所要提取的语音序列的全局特征向量。
(3)构建基于领域自适应的子空间模型,利用标签已知的源域数据库和标签完全未知的目标域数据库语音序列全局特征向量对该模型进行学习,得到一个能够连接语音数据库样本特征和样本标签信息的投影矩阵。利用该投影矩阵将源域和目标域特征从原始特征空间投影到一个共同子空间,从而使源域和目标域样本特征具有相似的特征分布,如图2所示。
其中,构建的领域自适应子空间模型为:
并有,
其中,表示寻找使括号中表达式最小的矩阵U,Ls为源域特征矩阵Xs对应的标签矩阵,UT表示U的转置,Xs表示源域样本特征矩阵,Xt表示目标域样本特征矩阵,且和代表两个不同特征分布的语音序列数据库,d表示特征向量的维度,Ns和Nt分别表示源域和目标域语音情感样本序列数目,表示源域中所有特征向量的均值,表示目标域中所有特征向量的均值,Σs和Σt分别表示源域和目标域特征向量的协方差,λ1和λ2是平衡参数,用来控制目标函数公式(1)中三部分之间的平衡;
其中,对所述领域自适应子空间模型进行学习的具体方法包括:
(3-1)将式(1)所述领域自适应子空间模型转换成式(2)的优化问题:
(3-2)利用增广拉格朗日乘子法进行求解,通过引入两个辅助变量Q和K,则式(2)可转化为:
s.t.U=K和U=Q
其拉格朗日函数如式(4):
其中,tr[·]表示矩阵·的迹,T1和T2为拉格朗日乘子,μ>0为正则化参数。
(3-3)对式(4)拉格朗日函数进行求解,得到最优投影矩阵U*。
进一步的,所述步骤(3-3)中最优投影矩阵U*的获取,其具体包括以下步骤:
(3-3-1)保持投影矩阵U、辅助变量Q、拉格朗日乘子T1和T2不变,迭代更新辅助变量K:
将式(3)转化为式(5)
式(5)有解析解如下
其中,I是单位矩阵。
(3-3-2)保持投影矩阵U、辅助变量K、拉格朗日乘子T1、T2和正则化参数μ不变,更新辅助变量Q:
(3-3-3)保持辅助变量Q、K、拉格朗日乘子T1、T2和正则化参数μ不变,更新投影矩阵U,则式(2)转化为式(9)有:
式(9)的最佳投影矩阵U*如式(10)所示
其中qi,t1i,t2i和ki分别是辅助变量Q,拉格朗日乘子T1,T2和辅助变量K的第i行。
(3-3-4)更新拉格朗日乘子T1,T2,T1和T2的更新方式如式(11)和式(12)所示
T1=T1+μ(U-K) 式(11)
T2=T2+μ(U-Q) 式(12)
(3-3-5)更新μ
μ=min(μmax,ρμ) 式(13)
其中ρ是比例参数,ρ>1。
(3-3-6)检查收敛性:
||U-K||∞<ε,||U-Q||∞<ε 式(14)
ε表示收敛阈值,||·||∞表示就是取向量的最大值。
检查式(14)是否收敛,若收敛或迭代次数大于预设值,则输出此时的U、K、T1、T2和μ矩阵,若不收敛,则返回步骤(3-3-1)继续对模型进行优化。
(4)对于目标域中待识别的语音情感,按照步骤(2)得到的语音序列的全局特征向量,采用步骤(3)中学习到的投影矩阵,得到其对应的语音情感类别标签,具体包括:
对步骤(3-3-3)的优化方法学习的最优投影矩阵U*,根据式(15)为目标域的样本分配情感标签
本实施例还提供了一种基于领域自适应子空间的无监督跨库语音情感识别装置包括存储器和处理器,所述存储器用于计算机程序的存储,处理器用于执行所述程序时实现上述方法。
为验证本发明的有效性,在EmoDB、AFEW4.0和iemocap语音情感数据库之间做了跨数据库语音情感识别实验。将三个数据库两两进行组合,每组实验中,将两个数据库分别作为源域和目标域进行训练,其中提供源域中的样本数据和标签信息,目标域中只提供测试数据,不提供任何标签信息。为了测试本发明的识别率,采用非加权平均召回率(unweighted average recall,UAR)和加权平均召回率(weighted average recall,WAR)作为检测方法。其中,UAR表示每一类表情被正确预测的数量除以目标域中该类的数量,在对所有类的识别率求均值。WAR是所有被正确预测的数量准确率除以总的目标域数量,而不考虑每种类别在总样本中的占比情况。通过比较一种方法的WAR和UAR,可以比较全面的揭示这种方法的可靠性。我们选取几类经典高效的语音识别算法作为对比算法,包括:SVM、KMM、KLIEP、uLSIF、DALSR和DoSL,本发明方法缩写为TDaLS。验证结果如表1所示,其中EmoDB、AFEW4.0和iemocap数据库分别缩写为E、A和I。
实验结果表明,基于本发明提出的语音情感识别方法,取得了较高的跨数据库语音情感识别率。
表1
Claims (7)
1.一种基于领域自适应子空间的无监督跨库语音情感识别方法,其特征在于它包括以下步骤:
步骤一:获取两个公开的语音数据库,每个数据库中存储有语音序列和对应的语音情感类别标签,分别记作跨库语音情感识别的源域和目标域;
步骤二:对源域和目标域中的每个语音序列的低维描述子进行统计函数处理,将统计得到的情感特征作为对应语音序列的全局特征向量;
步骤三:构建基于领域自适应的子空间模型,利用步骤一中的源域和目标域数据库语音序列全局特征对该模型进行学习,在学习过程中源域数据库标签给定,目标域数据库标签完全未知,学习到一个能够连接语音数据库样本特征和样本标签信息的投影矩阵;
步骤四:对于目标域中待识别的语音情感,按照步骤二得到的语音序列的全局特征向量,采用步骤三中学习到的投影矩阵,得到其对应的语音情感类别标签。
2.根据权利要求1所述一种基于领域自适应子空间的无监督跨库语音情感识别方法,其特征在于所述步骤二具体由以下步骤构成:
(2-1)从步骤一中建立的存储有语音序列的语音数据库,对每段语音序列提取声学的低维描述子,包括:过零率、能量平方根、基音频率、信噪比及Mel频率倒谱系数,分别记作MFCC 1-MFCC 12;
(2-2)对步骤(2-1)提取的每段语音序列的声学的低维描述子进行统计函数的处理,统计函数包括:标准差、均值、峰度、偏度、最大值、最小值、相对范围、相对位置,两个线性回归系数及其均方误差;
(2-3)将步骤(2-2)统计得到的情感特征作为对应语音序列的全局特征向量。
6.根据权利要求5所述一种基于领域自适应子空间的无监督跨库语音情感识别方法,其特征在于所述步骤(3-3)中最优投影矩阵U*的获取,其具体包括以下步骤:
(3-3-1)保持投影矩阵U、辅助变量Q、拉格朗日乘子T1和T2不变,迭代更新辅助变量K:则式(3)转化为式(5):
式(5)的解析解为:
其中,I是单位矩阵;
(3-3-2)保持投影矩阵U、辅助变量K、拉格朗日乘子T1、T2和正则化参数μ不变,更新辅助变量Q,则有:
(3-3-3)保持辅助变量Q、K、拉格朗日乘子T1、T2和正则化参数μ不变,更新投影矩阵U,则式(2)转化为式(9)有:
式(9)的最佳投影矩阵U*如式(10)所示:
其中,qi,t1i,t2i和ki分别是辅助变量Q,拉格朗日乘子T1,T2和辅助变量K的第i行;
(3-3-4)分别按照式(11)和式(12)更新拉格朗日乘子T1,T2;
T1=T1+μ(U-K) (11)
T2=T2+μ(U-Q) (12)
(3-3-5)按照式(13)更新μ;
μ=min(μmax,ρμ) (13)
其中ρ是比例参数,ρ>1;
(3-3-6)判断式(14)的收敛性:
||U-K||∞<ε,||U-Q||∞<ε (14)
其中,ε表示收敛阈值,||·||∞表示就是取向量的最大值;
若式(14)收敛,即收敛或迭代次数大于预设值,则输出此时的U、K、T1、T2和μ矩阵,若式(14)不收敛,则重复步骤(3-3-1)至步骤(3-3-6),继续对模型进行优化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011203086.XA CN112397092A (zh) | 2020-11-02 | 2020-11-02 | 基于领域自适应子空间的无监督跨库语音情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011203086.XA CN112397092A (zh) | 2020-11-02 | 2020-11-02 | 基于领域自适应子空间的无监督跨库语音情感识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112397092A true CN112397092A (zh) | 2021-02-23 |
Family
ID=74597321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011203086.XA Pending CN112397092A (zh) | 2020-11-02 | 2020-11-02 | 基于领域自适应子空间的无监督跨库语音情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112397092A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113077823A (zh) * | 2021-03-24 | 2021-07-06 | 河南工业大学 | 一种基于深度自编码器子域自适应跨库语音情感识别方法 |
CN113555038A (zh) * | 2021-07-05 | 2021-10-26 | 东南大学 | 基于无监督领域对抗学习的说话人无关语音情感识别方法及系统 |
CN115240649A (zh) * | 2022-07-19 | 2022-10-25 | 于振华 | 一种基于深度学习的语音识别方法和系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200075040A1 (en) * | 2018-08-31 | 2020-03-05 | The Regents Of The University Of Michigan | Automatic speech-based longitudinal emotion and mood recognition for mental health treatment |
CN111048117A (zh) * | 2019-12-05 | 2020-04-21 | 南京信息工程大学 | 一种基于目标适应子空间学习的跨库语音情感识别方法 |
CN111583966A (zh) * | 2020-05-06 | 2020-08-25 | 东南大学 | 基于联合分布最小二乘回归的跨数据库语音情感识别方法及装置 |
-
2020
- 2020-11-02 CN CN202011203086.XA patent/CN112397092A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200075040A1 (en) * | 2018-08-31 | 2020-03-05 | The Regents Of The University Of Michigan | Automatic speech-based longitudinal emotion and mood recognition for mental health treatment |
CN111048117A (zh) * | 2019-12-05 | 2020-04-21 | 南京信息工程大学 | 一种基于目标适应子空间学习的跨库语音情感识别方法 |
CN111583966A (zh) * | 2020-05-06 | 2020-08-25 | 东南大学 | 基于联合分布最小二乘回归的跨数据库语音情感识别方法及装置 |
Non-Patent Citations (4)
Title |
---|
BJORN SCHULLER ET AL.: "《The Interspeech 2009 Emotion Challenge》", 《INTERSPEECH 2009》 * |
NA LIU ET AL.: "《Unsupervised Cross-Corpus Speech Emotion Recognition Using Domain-Adaptive Subspace Learning》", 《ICASSP 2018》 * |
YUAN ZONG ET AL.: "《Cross-Corpus Speech Emotion Recognition Based on Domain-Adaptive Least-Squares Regression》", 《IEEE SIGNAL PROCESSING LETTERS》 * |
金赟等: "《半监督判别分析的跨库语音情感识别》", 《声学学报》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113077823A (zh) * | 2021-03-24 | 2021-07-06 | 河南工业大学 | 一种基于深度自编码器子域自适应跨库语音情感识别方法 |
CN113077823B (zh) * | 2021-03-24 | 2024-05-03 | 河南工业大学 | 一种基于深度自编码器子域自适应跨库语音情感识别方法 |
CN113555038A (zh) * | 2021-07-05 | 2021-10-26 | 东南大学 | 基于无监督领域对抗学习的说话人无关语音情感识别方法及系统 |
CN113555038B (zh) * | 2021-07-05 | 2023-12-29 | 东南大学 | 基于无监督领域对抗学习的说话人无关语音情感识别方法及系统 |
CN115240649A (zh) * | 2022-07-19 | 2022-10-25 | 于振华 | 一种基于深度学习的语音识别方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ma et al. | Emotion recognition from variable-length speech segments using deep learning on spectrograms. | |
CN106782602B (zh) | 基于深度神经网络的语音情感识别方法 | |
Pandey et al. | Deep learning techniques for speech emotion recognition: A review | |
CN112397092A (zh) | 基于领域自适应子空间的无监督跨库语音情感识别方法 | |
Sainath et al. | Optimization techniques to improve training speed of deep neural networks for large speech tasks | |
CN110675859B (zh) | 结合语音与文本的多情感识别方法、系统、介质及设备 | |
CN110289003A (zh) | 一种声纹识别的方法、模型训练的方法以及服务器 | |
Hu et al. | Dimensionality reduction methods for HMM phonetic recognition | |
CN109313892A (zh) | 稳健的语言识别方法和系统 | |
Wang et al. | Attention mechanism in speaker recognition: What does it learn in deep speaker embedding? | |
CN107767881B (zh) | 一种语音信息的满意度的获取方法和装置 | |
CN113112994B (zh) | 基于图卷积神经网络的跨语料库情感识别方法 | |
CN110299132B (zh) | 一种语音数字识别方法和装置 | |
Jia et al. | Inferring emotions from large-scale internet voice data | |
Gupta et al. | Speech emotion recognition using SVM with thresholding fusion | |
CN113450830A (zh) | 具有多重注意机制的卷积循环神经网络的语音情感识别方法 | |
Pardede et al. | Convolutional neural network and feature transformation for distant speech recognition | |
Deng et al. | Deep neural networks for anger detection from real life speech data | |
Jakubec et al. | Deep speaker embeddings for Speaker Verification: Review and experimental comparison | |
CN108899046A (zh) | 一种基于多级支持向量机分类的语音情感识别方法及系统 | |
Mocanu et al. | Speech emotion recognition using GhostVLAD and sentiment metric learning | |
Chinmayi et al. | Emotion Classification Using Deep Learning | |
Chandrakala et al. | Combination of generative models and SVM based classifier for speech emotion recognition | |
CN114898777A (zh) | 基于深度直推式迁移网络的跨库语音情感识别方法及装置 | |
CN107886942B (zh) | 一种基于局部惩罚随机谱回归的语音信号情感识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210223 |
|
RJ01 | Rejection of invention patent application after publication |