CN111402929B - 基于域不变的小样本语音情感识别方法 - Google Patents

基于域不变的小样本语音情感识别方法 Download PDF

Info

Publication number
CN111402929B
CN111402929B CN202010185119.6A CN202010185119A CN111402929B CN 111402929 B CN111402929 B CN 111402929B CN 202010185119 A CN202010185119 A CN 202010185119A CN 111402929 B CN111402929 B CN 111402929B
Authority
CN
China
Prior art keywords
database
emotion recognition
gradient
speech
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010185119.6A
Other languages
English (en)
Other versions
CN111402929A (zh
Inventor
谢跃
魏萍慕蓉
梁瑞宇
梁镇麟
包永强
赵力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Institute of Technology
Original Assignee
Nanjing Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Institute of Technology filed Critical Nanjing Institute of Technology
Priority to CN202010185119.6A priority Critical patent/CN111402929B/zh
Publication of CN111402929A publication Critical patent/CN111402929A/zh
Application granted granted Critical
Publication of CN111402929B publication Critical patent/CN111402929B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Hospice & Palliative Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Child & Adolescent Psychology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于域不变的小样本语音情感识别方法,包括如下步骤:从数据库提取具有时序信息的语音特征;建立LSTM模型,确定待训练的参数及初值;通过多任务学习同时进行情感识别与数据库分类,采用交叉熵结合加权系数,建立损失函数;在数据库分类任务的梯度更新中采取梯度取反的对抗学习方法;在梯度反向传播过程中,按各数据库样本比例对共享层进行梯度加权,得到最终的梯度公式;得到训练好的网络参数值;用预训练好的共享层参数来初始化新的模型,并在未知数据集上重训练,然后用重训练的模型对小样本测试集进行测试验证。本发明利用已知的情感数据集为未知小样本数据提供预训练,提高未知小样本数据库的情感识别性能。

Description

基于域不变的小样本语音情感识别方法
技术领域
本发明涉及语音情感识别技术领域,具体涉及一种基于域不变的小样本语音情感识别方法。
背景技术
语音情感识别在人机交互中具有重要的应用价值。为了实现语音情感的自动识别,很多学者在机器学习算法方面做了大量的研究工作,如支持向量机,贝叶斯分类器和K近邻等算法。近年来,随着深度学习的发展,其在自动语音情感识别上应用也越来越多,并取得了远高于传统机器学习算法的性能。但该方法需要对大量的标签数据进行训练学习,很难使用与小样本数据集。为缓解深度学习对大量标签数据的依赖性,很多学者从半监督学习、迁移学习等方面展开了深入研究。
半监督学习的主要思想是在监督学习训练过程中加入无标签样本训练,以缓解情感标签获取困难的问题。Zhu等人早期对半监督学习算法的研究主要是利用图方法构建样本空间的结构,并尝试采用了生成模型和判别模型相结合的方法在语音信号情绪分析领域,Deng等人提出了半监督自编码器,用于情绪标签极度缺乏的情况。而针对不同情绪数据域之间的半监督学习,Zong等人提出对不同数据域,同时学习线性映射和无标签样本的虚拟标签。
迁移学习主要是为减少数据集之间的分布差异,使得在训练新样本数据的时候可以借鉴已知大样本数据训练的结论。Thomas通过迁移共享隐层信息来完成小样本数据的训练。中科院自动化所陶老师则在此基础上小样本语种语音识别的迁移问题。在语音情感识别中,Song采用迁移学习探索了跨库情感识别问题,以达到提高小样本数据库上情感识别的鲁棒性。因此小样本数据的训练一直都是以深度学习框架的语音情感识别中亟待解决的问题。
发明内容
发明目的:针对现有技术中语音情感识别对大样本数据的依赖性、难以在小样本数据上取得较好性能的问题,本发明公开了一种基于域不变的小样本语音情感识别方法,解决了小样本数据训练困难的问题,提高了对未知小样本数据集的识别性能。
技术方案:本发明采用如下技术方案:一种基于域不变的小样本语音情感识别方法,其特征在于,包括如下步骤:
步骤A、从不同数据库的原始语音数据样本中提取具有时序信息的语音特征;
步骤B、建立具有处理时序数据能力的LSTM模型,确定待训练的网络参数并初始化;
步骤c、通过多任务学习同时进行情感识别与数据库分类,采用交叉熵建立各自任务的目标损失函数,在任务优先级的基础上,结合各自任务的加权系数,建立总的目标损失函数;
步骤D、对情感识别与数据库分类任务的损失函数分别进行梯度更新,其中,在数据库分类任务的梯度更新中采取梯度取反的对抗学习方法;
步骤E、在梯度反向传播过程中,针对各数据库样本不匹配问题,按各数据库样本比例对共享层进行梯度加权,得到最终的梯度公式;
步骤F、使用由步骤C至步骤D获得的梯度更新算法,在已知数据集上对网络进行预训练,获得网络收敛后的参数;
步骤G、用所述步骤F中预训练好的共享层参数来初始化新的情感模型,并在未知训练集上进行重新训练,然后再对未知小样本测试集进行测试验证,并用召回率对该情感识别网络模型的识别性能进行综合评测。
优选的,所述步骤A中,通过语音帧之间的序列关系保留原始语音数据中的时序信息,从而提取具有时序信息的语音特征。
优选的,所述步骤A中,具有时序信息的语音特征的维度随原始语音数据的实际长度而变化。
优选的,所述步骤B中,待训练的LSTM模型参数为遗忘门的权重与偏置、输入控制门的权重与偏置、候选细胞状态的权重与偏置以及输出门的权重与偏置。
优选的,所述步骤C中,总的目标损失函数为:
Figure BDA0002412351510000021
其中,Le和LD分别为情感识别和数据库分类的目标损失函数,
Figure BDA0002412351510000022
Figure BDA0002412351510000023
为加权系数。
优选的,所述步骤D中,针对情感识别任务,梯度更新为:
Figure BDA0002412351510000024
其中,
Figure BDA0002412351510000025
表示第j个数据库下的情感识别分类任务网络中所有待训练参数,由上层的私有网络参数θj e_private和低层的共享网络参数θshare组成;
Figure BDA0002412351510000026
为第j个数据库下的情感识别损失函数;
针对数据库分类任务,梯度更新为:
Figure BDA0002412351510000031
其中,
Figure BDA0002412351510000032
表示数据库分类任务网络中所有待训练参数,由上层的私有网络参数θD_private和低层的共享网络参数θshare组成;λadversial为对抗因子;LD为数据库分类损失函数。
优选的,所述步骤E中,最终的梯度公式为:
Figure BDA0002412351510000033
其中,j表示数据库的索引,
Figure BDA0002412351510000034
是第j个数据库的数据库分类损失函数,
Figure BDA0002412351510000035
是第j个数据库下的情感识别损失函数,λj是按数据库样本数量分配的权重系数,
Figure BDA0002412351510000036
是第j个数据库情感识别任务中上层的私有网络层中的待训练参数。
优选的,所述步骤G中,召回率的计算方法如下:
Figure BDA0002412351510000037
其中,TP是预测为正,实际为正的样本数量;TN是预测为负,实际为正的样本数量。
有益效果:本发明具有如下有益效果:
1、本发明利用对抗学习与梯度加权方法,有效利用对已知情感数据集的预训练来获取能表达域不变的共享参数,并将预训练的参数用于未知小样本数据集训练的初始化参数中来改善对未知小样本数据集的训练问题,解决了小样本数据训练困难的问题,加速小样本训练时的收敛速度,并提高对未知小样本数据集的识别性能;
2、本发明时通过梯度加权策略解决了训练过程中各数据库样本数量失衡问题;
3、本发明并不要求各个数据库具有完全一样的情感类别,极大提高了情感识别的鲁棒性。
附图说明
图1是本发明的方法流程图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
本发明公开了一种基于域不变的小样本语音情感识别方法,如图1所示,包括如下步骤:
步骤A、从来源于不同数据库的原始语音数据样本中提取具有时序信息的语音特征,其中,提取具有时序信息的语音特征是通过语音帧之间的序列关系保留了原始语音数据中的时序信息,且该具有时序信息的语音特征的维度是随原始语音数据的实际长度而变化的,详细语音特征集合如下表1所示:
表1
特征 描述
voiceProb 浊音占比率
HNR 声门谐噪比
F0 基频
F0raw 无清音门限的原始基频
F0env F0包络
jitterLocal 周期一阶差分均值
jitterDDP 周期二阶差分均值
shimmerLocal 幅度峰值一阶差分均值
harmonicERMS 声门谐波能量
noiseERMS 声门噪声能量
pcm_loudness_sma 响度
pcm_loudness_sma_de 响度的回归系数
mfcc_sma[0]-[14] 14阶梅尔倒谱系数
mfcc_sma_de[0]-[14] 梅尔倒谱的回归系数
pcm_Mag[0]-[25] 梅尔谱
logMelFreqBand[0]-[7] 梅尔频宽
lpcCoeff[0]-[7] 线性预测系数
lspFreq[0]-[7] 线性谱频率
pcm_zcr 过零率
步骤B、建立具有处理时序数据能力的LSTM模型,LSTM模型主要包括遗忘门,输入控制门和输出门,其中,遗忘门表达了其对历史信息的保留程度,计算方法如下:
ft=σ(Wf×[Ct-1,ht-1,xt]+bf) (1)
其中,遗忘门ft受上一时刻的细胞状态Ct-1和隐层输出ht-1的影响,而xt为当前时刻的输入,Wf和bf分别为LSTM模型内待训练的遗忘门的权重与偏置,σ为sigmod激活函数,取值在0到1之间,此处表达了一种分数加权的概念。
输入控制门it决定了当前的有效信息量,计算方法如下:
it=σ(Wi×[Ct-1,ht-1,xt]+bi) (2)
其中,Wi和bi分别为LSTM模型内待训练的输入控制门的权重与偏置。
输出门输出当前细胞状态Ct与当前隐层输出ot,计算方法如下:
Figure BDA0002412351510000051
Figure BDA0002412351510000052
ot=σ(Wo×[Ct,ht-1,xt]+bo) (5)
其中,当前细胞状态Ct的更新公式如式(4)所示,它还受候选细胞状态
Figure BDA0002412351510000053
的影响;候选细胞状态
Figure BDA0002412351510000054
的计算公式如式(3)所示,其中WC和bC为LSTM模型内待训练的候选细胞状态的权重与偏置;当前隐层输出ot的计算方法如公式(5)所示,其中Wo和bo是LSTM模型内待训练的输出门的权重与偏置。
步骤C、通过多任务学习同时识别情感类别与数据来源即数据库,由于包含两个任务,需要分别建立训练学习的目标损失函数,此处采用交叉熵作为目标损失函数,其定义如下:
Figure BDA0002412351510000055
其中,N为样本数量,i为样本的索引,yi是样本的标注信息,pi是模型的预测结果。
这两个任务是以情感识别任务为主体的,数据库的分类是其次的,为了表达这种优先级,可分别为它们进行加权操作:
Figure BDA0002412351510000056
其中,Le和LD分别为情感识别和数据库分类的目标损失函数,而
Figure BDA0002412351510000057
Figure BDA0002412351510000058
则是它们的加权系数,通过该系数可以调节任务的优先级。
步骤D、对情感识别与数据库分类任务的目标损失函数分别进行梯度更新,针对与数据库相关的分类任务,通过梯度取反的对抗学习方法使得低层的共享网络获取域不变的情感特征,期望上层的私有网络能够辨识出数据来源,期望低层的共享网络能够学习到与数据来源无关的情感信息。因而这两层网络梯度更新的方向是不一致的,需要进行梯度取反,计算方法如下:
Figure BDA0002412351510000061
其中,
Figure BDA0002412351510000062
表示数据库分类任务网络中所有待训练参数,它由上层的私有网络参数θD_private和低层的共享网络参数θshare组成;共享层梯度前的负号表示梯度取反,表示对抗学习的过程;λadversial是对抗因子,用于调节对抗程度的参数。
针对与情感识别相关的分类任务,两层网络梯度更新的方向是一致的,第j个数据库下的计算方法如下:
Figure BDA0002412351510000063
其中,
Figure BDA0002412351510000064
表示第j个数据库下的情感识别分类任务网络中所有待训练参数,它由上层的私有网络参数θj _private和低层的共享网络参数θshare组成;
Figure BDA0002412351510000065
是第j个数据库下的情感识别损失函数。
步骤E、针对各数据库样本不匹配问题,模型训练时在梯度反向传播过程中按各数据库样本比例,为梯度加权。
对于上层网络而言数据库是分开独立识别的,因而梯度不影响上层的私有网络训练,对于低层网络而言,由于样本偏差会导致某个数据库过拟合,因此梯度加权仅对低层的共享网络有效。所以最终的梯度公式为:
Figure BDA0002412351510000066
其中,j表示数据库的索引,
Figure BDA0002412351510000067
是第j个数据库的数据库分类损失函数,
Figure BDA0002412351510000068
是第j个数据库下的情感识别损失函数,λj是按数据库样本数量分配的权重系数,以解决各个数据库样本数量不平衡问题,因此该权重系数是针对各个数据库进行添加的;
Figure BDA0002412351510000069
是第j个数据库情感识别任务中上层的私有网络层中的待训练参数。
步骤F、使用由步骤C至步骤D获得的梯度更新算法,在已知数据集上对网络进行预训练,获得网络收敛后的参数。
步骤G、用上述的预训练好的共享层参数来初始化新的情感模型,并在未知数据集上进行重新训练,然后再进行测试验证,并对该情感识别网络模型的识别性能进行综合评测。
预训练的数据集是已经公开的已知情感数据集,这种数据集比较多,但各个数据集中标注的情感类别差异较大;未知数据集是指样本数量较小的情感数据集,往往是研究人员根据各自需求采集的新数据,但因为数据采集和标注代价较大,样本数据往往较少,很难直接进行训练学习。
未知数据集划分为训练集和测试集,且训练集和测试集两者无交叠,训练集是重训练时使用的数据集,测试集是测试用的小样本数据集。
其中,重训练的损失函数参见公式(6)的交叉熵;评价标准召回率recall计算方法如下:
Figure BDA0002412351510000071
其中,TP是预测为正,实际为正的样本数量;TN是预测为负,实际为正的样本数量。
为验证本发明所提方法的有效性,在CASIA、IEMOCAP、eNTERFACE、GEMEP、DES和Berlin情感语料库进行了测试。其中CASIA和IEMOCAP含有的样本数量相对较多,所以这两个数据库在实验过程中始终作为预训练的数据使用;其他四个数据库分别作为小样本数据用来验证所提方法的有效性。当其中一种数据库作为小样本数据时,其他5个数据库全部作为预训练的数据集。实验结果如下表2所示,表中的数据均为无加权的平均召回率。
表2
实验 DES Berlin eNTERFACE GEMEP
基线 62.9% 80.0% 76.5% 46.0%
模型1 71.4% 86.0% 77.7% 47.5%
模型2 74.3% 86.0% 78.8% 49.5%
模型3 71.4% 81.0% 77.3% 45.0%
模型4 75.7% 88.0% 80.4% 53.5%
表中的基线模型表示没有预训练的模型,是在该数据库上直接进行训练后测试的,将这样的结果作为一种参考结果。
模型1是一种传统的迁移学习方法,相比于本发明所提方法没有数据库分类任务,也没有梯度加权和梯度反转。相对比直接训练的基线结果,该方法在四个数据库上都有所提高。
模型2是在模型1的基础上添加了梯度加权算法,相比于模型1的结果,该算法在DES、eNTERFACE和GEMEP数据库上分别提高了2.9%,1.1%和2%,在Berlin数据库上保持了原来的性能,因为当识别性能达到一定瓶颈时,再次提升的难度就会增大。该对比实验说明了梯度加权有效解决了样本数量不平衡问题,对改善情感识别性能是有效的,验证了本发明中步骤D的必要性。
模型3与模型2具有相同的结构,但模型3同时初始化小样本训练模型中的共享层和私有层参数,而模型2只将预训练的参数用来初始化共享层。这两个模型的对比实验验证了私有层是否也需要初始化的问题。通过实验结果可以看出,当私有层也初始化之后,情感识别的性能均下降了。因此私有层不适合用预训练的参数进行初始化,因为该层是与具体任务相关的,预训练中的私有层所完成的任务并不是当前小样本所要求的最佳效果。该对比实验解释了步骤F中只初始化共享层的原因。
模型4是本发明所提出的方法,相比无预训练的基线模型,模型4在DES、Berlin、eNTERFACE和GEMEP数据库上情感的无加权平均召回率分别提高了12.8%、8%、3.9%和7.5%;相比于模型2,模型4多了数据库分类任务和梯度反转的对抗学习,模型4在各个数据库上的性能比前周都有所提高。该对比实验说明模型4通过对抗学习使得共享层获得了域不变的情感特征,即与数据源无关的一般化情感特征,这种域不变的情感特征能够加速小样本训练时的收敛速度,并提高小样本识别性能。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种基于域不变的小样本语音情感识别方法,其特征在于,包括如下步骤:
步骤A、从不同数据库的原始语音数据样本中提取具有时序信息的语音特征;
步骤B、建立具有处理时序数据能力的LSTM模型,确定待训练的网络参数并初始化;
步骤C、通过多任务学习同时进行情感识别与数据库分类,采用交叉熵建立各自任务的目标损失函数,在任务优先级的基础上,结合各自任务的加权系数,建立总的目标损失函数;
步骤D、对情感识别与数据库分类任务的损失函数分别进行梯度更新,其中,在数据库分类任务的梯度更新中采取梯度取反的对抗学习方法;
步骤E、在梯度反向传播过程中,针对各数据库样本不匹配问题,按各数据库样本比例对共享层进行梯度加权,得到最终的梯度公式;
步骤F、使用由步骤C至步骤D获得的梯度更新算法,在已知数据集上对网络进行预训练,获得网络收敛后的参数;
步骤G、用所述步骤F中预训练好的共享层参数来初始化新的情感模型,并在未知训练集上进行重新训练,然后再对未知小样本测试集进行测试验证,并用召回率对情感识别网络模型的识别性能进行综合评测。
2.根据权利要求1所述的一种基于域不变的小样本语音情感识别方法,其特征在于,所述步骤A中,通过语音帧之间的序列关系保留原始语音数据中的时序信息,从而提取具有时序信息的语音特征。
3.根据权利要求1所述的一种基于域不变的小样本语音情感识别方法,其特征在于,所述步骤A中,具有时序信息的语音特征的维度随原始语音数据的实际长度而变化。
4.根据权利要求1所述的一种基于域不变的小样本语音情感识别方法,其特征在于,所述步骤B中,待训练的LSTM模型参数为遗忘门的权重与偏置、输入控制门的权重与偏置、候选细胞状态的权重与偏置以及输出门的权重与偏置。
5.根据权利要求1所述的一种基于域不变的小样本语音情感识别方法,其特征在于,所述步骤C中,总的目标损失函数为:
Figure FDA0002412351500000011
其中,Le和LD分别为情感识别和数据库分类的目标损失函数,
Figure FDA0002412351500000012
Figure FDA0002412351500000013
为加权系数。
6.根据权利要求1所述的一种基于域不变的小样本语音情感识别方法,其特征在于,所述步骤D中,针对情感识别任务,梯度更新为:
Figure FDA0002412351500000021
其中,
Figure FDA0002412351500000022
表示第j个数据库下的情感识别分类任务网络中所有待训练参数,由上层的私有网络参数θj e_private和低层的共享网络参数θshare组成;
Figure FDA0002412351500000023
为第j个数据库下的情感识别损失函数;
针对数据库分类任务,梯度更新为:
Figure FDA0002412351500000024
其中,
Figure FDA0002412351500000025
表示数据库分类任务网络中所有待训练参数,由上层的私有网络参数θD_private和低层的共享网络参数θshare组成;λadversial为对抗因子;LD为数据库分类损失函数。
7.根据权利要求1所述的一种基于域不变的小样本语音情感识别方法,其特征在于,所述步骤E中,最终的梯度公式为:
Figure FDA0002412351500000026
其中,j表示数据库的索引,
Figure FDA0002412351500000027
是第j个数据库的数据库分类损失函数,
Figure FDA0002412351500000028
是第j个数据库下的情感识别损失函数,λj是按数据库样本数量分配的权重系数,
Figure FDA0002412351500000029
是第j个数据库情感识别任务中上层的私有网络层中的待训练参数。
8.根据权利要求1所述的一种基于域不变的小样本语音情感识别方法,其特征在于,所述步骤G中,召回率的计算方法如下:
Figure FDA00024123515000000210
其中,TP是预测为正,实际为正的样本数量;TN是预测为负,实际为正的样本数量。
CN202010185119.6A 2020-03-16 2020-03-16 基于域不变的小样本语音情感识别方法 Active CN111402929B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010185119.6A CN111402929B (zh) 2020-03-16 2020-03-16 基于域不变的小样本语音情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010185119.6A CN111402929B (zh) 2020-03-16 2020-03-16 基于域不变的小样本语音情感识别方法

Publications (2)

Publication Number Publication Date
CN111402929A CN111402929A (zh) 2020-07-10
CN111402929B true CN111402929B (zh) 2022-09-20

Family

ID=71413388

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010185119.6A Active CN111402929B (zh) 2020-03-16 2020-03-16 基于域不变的小样本语音情感识别方法

Country Status (1)

Country Link
CN (1) CN111402929B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111833845B (zh) * 2020-07-31 2023-11-24 平安科技(深圳)有限公司 多语种语音识别模型训练方法、装置、设备及存储介质
CN111882000A (zh) * 2020-08-04 2020-11-03 天津大学 一种应用于小样本细粒度学习的网络结构及方法
CN112632319B (zh) * 2020-12-22 2023-04-11 天津大学 基于迁移学习的提升长尾分布语音总体分类准确度的方法
CN113593611B (zh) * 2021-07-26 2023-04-07 平安科技(深圳)有限公司 语音分类网络训练方法、装置、计算设备及存储介质
CN114357414B (zh) * 2021-12-07 2024-04-02 华南理工大学 一种基于跨梯度训练的情感说话人认证方法
CN114548221B (zh) * 2022-01-17 2023-04-28 苏州大学 小样本不均衡语音数据库的生成式数据增强方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019100998A1 (zh) * 2017-11-24 2019-05-31 腾讯科技(深圳)有限公司 语音信号处理模型训练方法、电子设备及存储介质
CN110348563A (zh) * 2019-05-30 2019-10-18 平安科技(深圳)有限公司 神经网络半监督训练方法、装置、服务器及存储介质
CN110491416A (zh) * 2019-07-26 2019-11-22 广东工业大学 一种基于lstm和sae的电话语音情感分析与识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9601109B2 (en) * 2013-12-06 2017-03-21 International Business Machines Corporation Systems and methods for accelerating hessian-free optimization for deep neural networks by implicit preconditioning and sampling

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019100998A1 (zh) * 2017-11-24 2019-05-31 腾讯科技(深圳)有限公司 语音信号处理模型训练方法、电子设备及存储介质
CN110348563A (zh) * 2019-05-30 2019-10-18 平安科技(深圳)有限公司 神经网络半监督训练方法、装置、服务器及存储介质
CN110491416A (zh) * 2019-07-26 2019-11-22 广东工业大学 一种基于lstm和sae的电话语音情感分析与识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Effective LSTMs for targetdependent sentiment classification;Tang D Y,Qin B,Feng X C,et al.;《ar Xiv:1512.01100,2015.》;20151231;全文 *
半监督判别分析的跨库语音情感识别;金等;《声学学报》;20150115(第01期);全文 *
基于长短期记忆和卷积神经网络的语音情感识别;卢官明等;《南京邮电大学学报(自然科学版)》;20181113(第05期);全文 *
深度迁移模型下的小样本声纹识别方法;孙存威等;《计算机工程与设计》;20181216(第12期);全文 *

Also Published As

Publication number Publication date
CN111402929A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
CN111402929B (zh) 基于域不变的小样本语音情感识别方法
CN109285562B (zh) 基于注意力机制的语音情感识别方法
CN106469560B (zh) 一种基于无监督域适应的语音情感识别方法
CN110309514A (zh) 一种语义识别方法及装置
CN110349597B (zh) 一种语音检测方法及装置
Jothimani et al. MFF-SAug: Multi feature fusion with spectrogram augmentation of speech emotion recognition using convolution neural network
CN110853630B (zh) 面向边缘计算的轻量级语音识别方法
CN106203534A (zh) 一种基于Boosting的代价敏感软件缺陷预测方法
CN105702251B (zh) 基于Top-k加强音频词袋模型的语音情感识别方法
CN112562741A (zh) 一种基于点积自注意力卷积神经网络的歌声检测方法
CN109119069A (zh) 特定人群识别方法、电子装置及计算机可读存储介质
CN111899766B (zh) 基于深度特征与声学特征寻优融合的语音情感识别方法
CN113887643A (zh) 一种基于伪标签自训练和源域再训练的新对话意图识别方法
CN106448660B (zh) 一种引入大数据分析的自然语言模糊边界确定方法
Cao et al. Speaker-independent speech emotion recognition based on random forest feature selection algorithm
Sivaram et al. Data-driven and feedback based spectro-temporal features for speech recognition
CN112199505B (zh) 一种基于特征表示学习的跨领域情感分类方法及系统
Bagadi et al. An evolutionary optimization method for selecting features for speech emotion recognition
Lin et al. Robust educational dialogue act classifiers with low-resource and imbalanced datasets
CN102237082B (zh) 语音识别系统的自适应方法
CN114692615A (zh) 一种针对小语种的小样本意图识别方法
Sabuj et al. A Comparative Study of Machine Learning Classifiers for Speaker’s Accent Recognition
CN113053418A (zh) 一种基于长短时记忆网络快速识别语音情感类别的方法
Reshma et al. A survey on speech emotion recognition
Harrag et al. GA-based feature subset selection: Application to Arabic speaker recognition system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant