CN114898776A - 一种多尺度特征联合多任务cnn决策树的语音情感识别方法 - Google Patents
一种多尺度特征联合多任务cnn决策树的语音情感识别方法 Download PDFInfo
- Publication number
- CN114898776A CN114898776A CN202210497889.3A CN202210497889A CN114898776A CN 114898776 A CN114898776 A CN 114898776A CN 202210497889 A CN202210497889 A CN 202210497889A CN 114898776 A CN114898776 A CN 114898776A
- Authority
- CN
- China
- Prior art keywords
- emotion
- task
- 1dcnn
- model
- decision tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 84
- 238000003066 decision tree Methods 0.000 title claims abstract description 67
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000008451 emotion Effects 0.000 claims abstract description 206
- 238000011156 evaluation Methods 0.000 claims abstract description 13
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 9
- 230000004927 fusion Effects 0.000 claims description 30
- 230000002996 emotional effect Effects 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 25
- 238000012795 verification Methods 0.000 claims description 18
- 238000012360 testing method Methods 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 10
- 238000002474 experimental method Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000001914 calming effect Effects 0.000 claims description 3
- 230000003683 cardiac damage Effects 0.000 claims description 2
- 230000003993 interaction Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 22
- 238000013527 convolutional neural network Methods 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000009432 framing Methods 0.000 description 7
- 238000013145 classification model Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 238000013507 mapping Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- 101150090724 3 gene Proteins 0.000 description 1
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241001619348 Idris Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000006549 dyspepsia Diseases 0.000 description 1
- 208000024798 heartburn Diseases 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Child & Adolescent Psychology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种多尺度特征联合多任务CNN决策树的语音情感识别方法,首先采集每条语音在帧长为256、400和512时的MFCC参数、能量参数、基因频率参数和短时过零率参数的统计特征,将三个尺度下的统计特征进行融合,用于输入多任务1DCNN模型;然后引入性别识别辅助任务,在1DCNN中同时进行语音情感和性别识别任务;再构造多任务1DCNN决策树模型,实现由粗到细地进行情感划分;最后对多任务CNN决策树的语音情感识别方法进行性能评估;本发明进一步挖掘了语音信号的多尺度情感特征并引入多任务的1DCNN决策树进行语音情感识别,使得系统的情感识别性能、泛化能力进一步提升,可以很好地应用于智能人机交互中。
Description
技术领域
本发明属于语音识别技术领域,具体涉及一种多尺度特征联合多任务CNN决策树的语音情感识别方法。
背景技术
不同情感的语音存在差异,人机交互中机器可以根据语音的差异性进行情感分类。在实际语音情感识别中,机器一般通过学习情感特征之间的差异性,利用分类模型实现情感分类。因此,情感特征和分类模型的好坏直接影响语音情感识别系统性能。随着人工智能技术的快速发展,语音情感识别技术的应用越来越广泛,如驾驶员情感监测、线上远程辅助教学和抑郁症患者情感监测等。但是,要使语音情感识别更好地应用于人机交互领域,语音情感识别性能仍需进一步提升。
高区分性和丰富情感信息的特征提取是进行语音情感识别的关键。语音情感识别常用的情感特征包括韵律学特征、谱相关特征和音质特征。Jacob等人基于最小语音质量特征,利用人工神经网络(Artificial Neural Network,ANN)分类器对7种情感进行分类,得到了64.8%的识别率。Juyal等人使用MFCC特征和长短期记忆网络(Long Short-TermMemory,LSTM)分类器进行情感分类,取得了70%的识别率。可以发现,单独使用一类特征时,仅从一种角度表达语音的情感特性,情感识别性能并不能令人满意。因此,可以考虑对多类情感特征进行融合来用于情感分类。融合后的情感特征更具有区分性,可以从多个不同的角度描述语音情感特性。Zhou等人联合使用频谱特征和韵律学特征进行情感分类,在CASIA情感数据库上取得了75.3%的识别率。Venkata等人在不同噪声环境下使用MFCC及其时间导数特征和加权K最近邻模型实现语音情感识别,平均识别率达到了76.1%。Idris等人提取了情感语音的韵律学特征和音质特征并进行特征融合,在EMO-DB情感数据库上取得了75.51%的识别率。
另外,情感分类模型的好坏直接影响语音情感识别系统性能。常用的情感分类模型有:高斯混合模型(Gaussian Mixture Model,GMM)、决策树模型、K最近邻模型、人工神经网络模型(Artificial Neutral Network,ANN)和支持向量机模型(Support VectorMachines,SVM)等。Hao等人使用一种优化算法优化了非线性SVM,并分别在说话人无关、说话人相关和跨语料库条件下进行了实验,平均识别率达到了78.88%。由于神经网络具有强大的特征提取能力和高维度的庞大数据处理能力,近年来,研究人员纷纷将神经网络应用于语音情感识别。Shahin等人将深度神经网络(Deep Neural Network,DNN)和GMM联合构建组合分类器,相较于SVM分类器,在理想环境下识别率提升了4.6%,在噪声环境下识别率提升了5.9%。Yao等人对DNN、CNN和递归神经网络(Recurrent Neural Network,RNN)的情感分类结果做联合决策,其性能优于使用单个分类器。Zheng等人构建了一种基于原始叠加波形的联合双通道模型,模型引入了RNN、双向长短期记忆网络(Bidirectional Long Short-Term Memory,BiLSTM)和注意力机制,在IEMOCAP情感数据库上的实验结果表明,与常用的CNN识别模型相比,平均识别率提高了5.1%。Li等人通过构建一种1DCNN模型进行情感分类,在EMO-DB、RAVDESS和IEMOCAP三个数据库上分别取得了87.24%,63.72%和76.66%的识别率,验证了模型的优越性。受其启发,本发明在1DCNN模型基础上展开研究。
上述研究工作都促进了语音情感识别技术的实现,但仍存在一些问题。首先,在语音信号预处理中,先前大多采用单一帧长进行分帧来提取情感特征。但是,当采用不同的帧长进行分帧时,提取的不同尺度情感特征所包含的情感特性是有差异的。其次,当训练样本不够充足时,神经网络由于训练的不够充分,学习到的有用情感信息较少,会导致识别性能表现不佳,影响其实用性。最后,在多分类语音情感识别中,不同情感语音在某些特征上的表现相似,可能存在严重的混淆,导致语音情感识别性能不理想。
发明内容
本发明所要解决的技术问题是克服现有技术的不足,提供一种多尺度特征联合多任务CNN决策树的语音情感识别方法,相较于单一帧长,实现了多尺度帧长下的统计特征融合,通过构建基于多任务1DCNN决策树模型实现由粗到细地对情感的有效划分,同时,对于每个划分节点上的1DCNN模型引入性别分类作为辅助任务,通过两个任务对分类模型的联合约束提高了语音情感识别模型的泛化能力。
本发明提供一种多尺度特征联合多任务CNN决策树的语音情感识别方法,包括如下步骤,
步骤S1.采集每条语音在帧长为256、400和512时的MFCC参数、能量参数、基因频率参数和短时过零率参数的统计特征,将三个尺度下的统计特征进行融合,用于输入多任务1DCNN模型;
步骤S2.引入性别识别辅助任务,在1DCNN中同时进行语音情感和性别识别任务;
步骤S3.构造多任务1DCNN决策树模型,实现由粗到细地进行情感划分;
步骤S4.对多任务CNN决策树的语音情感识别方法进行性能评估。
作为本发明的进一步技术方案,步骤S1的具体方法为,
步骤S11.对每一句输入的时域连续语音信号采用不同的帧长进行预处理,其中帧长分别取256、400、512,获取预处理后的信号;
步骤S12.提取预处理后语音信号的情感特征,包括24维MFCC、24维MFCC一阶动态差分、能量、基因频率和短时过零率;
步骤S13.将不同帧长下提取的24维MFCC及其一阶动态差分、能量、基因频率和短时过零率五类情感特征进行全局统计,统计量包括最大值、最小值、中值、方差和均值;
步骤S14.对尺度为256、400和512所得到的统计特征进行融合,获得765维多尺度融合特征用于网络训练。
进一步的,步骤S2的具体方法为,
步骤S21.构建1DCNN的共享网络层框架,包括第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、Flatten层和Softmax层;
步骤S22.构造情感分类特定任务网络层A,包括第一全连接层、第二全连接层和Softmax层;
步骤S23.构造性别分类特定任务网络层B,包括第一全连接层、第二全连接层、Softmax层;
步骤S24.设置基于多任务1DCNN模型的交叉熵损失函数
步骤S25.将765维多尺度融合特征输入1DCNN用于模型训练,在共享网络层从性别分类任务中获取情感分类主任务的性别相关情感信息,在情感分类特定任务网络层获取情感分类任务的更深层次的情感信息;
步骤S262.设置评分函数,以平均语音情感识别率作为评价指标;
进一步的,步骤S3的具体方法为,
步骤S31.根据寻优后的1DCNN模型输入验证数据集,获取情感混淆矩阵,通过情感混淆矩阵计算不同情感间的混淆度,从而构造决策树模型;
步骤S32.通过获取的情感混淆度将训练阶段和验证阶段的所有情感类别划分为不同情感小组;
步骤S33.根据不同情感小组构造对应树节点的基于多任务的1DCNN模型,并利用不同情感小组特征集训练对应树节点上的基于多任务的1DCNN模型;
步骤S34.利用所划分的验证情感特征集分别对每个树节点上的多任务1DCNN进行超参数寻优,获取适用于不同情感小组特征集的寻优后的多任务1DCNN模型;
步骤S35.将构建的决策树模型和在树节点上寻优后的多任务1DCNN联合,获取基于多任务1DCNN决策树模型。
更进一步的,步骤S34中,构建决策树中对应树节点的基于多任务的1DCNN模型,包括如下步骤,
步骤S341.在当前节点的情感小组中,提取不同尺度帧长设置下的语音情感特征,计算其统计特征并进行特征融合;
步骤S342.在当前节点的网络模型下获取分类结果并根据
步骤S343.根据实验对比设置初始阈值为5,将情感混淆度大于该阈值的情感划分为一组,小于该阈值的单独划分为一组,若多类情感间的混淆度均大于该阈值,则将该多类情感均划分为一组;
步骤S344.若某个情感小组下的情感类别数大于2,则将阈值增大1倍,并转到步骤S341;若小组情感类别数等于2,则后续直接针对这2类情感构建网络模型进行情感分类:否则转到步骤345;
步骤S345.决策树模型构建完成,分别为1DCNN1、1DCNN2、1DCNN3;其中,1DCNN1实现三组语音情感分类,包括第一组:生气、高兴、惊讶;第二组:平静;第三组:害怕、伤心;1DCNN2实现三种情感分类包括:生气、高兴、惊讶。1DCNN3实现两种情感分类,包括:害怕、伤心。
进一步的,步骤S4的具体方法为,
步骤S41.提取各类单一帧长的统计特征以及多尺度帧长下的融合统计特征,将其分别输入到训练好的多任务1DCNN决策树模型,验证多尺度特征融合的有效性;
步骤S42.将测试数据的多尺度融合特征集分别输入到单任务1DCNN模型和多任务1DCNN模型进行对比实验,验证多任务1DCNN模型相对于单任务1DCNN模型的有效性;
步骤S43.将测试数据的多尺度融合特征集分别输入到单任务1DCNN模型、多任务1DCNN模型、单任务1DCNN决策树模型、多任务1DCNN决策树模型,验证多任务1DCNN决策树模型对语音情感识别的有效性。
本发明的优点在于,
1、该方法通过提取不同帧长下语音信号的统计特征并进行融合的方式来弥补训练样本不充足导致性能不佳的问题,使语音情感的识别率得到了很大的提升。
2、引入语音性别识别辅助任务的多任务学习策略,通过在情感分类任务和性别分类任务的联合约束下,使得模型所提取到的情感特征能够有效地区分男性语音和女性语音情感间的差异性,进一步提升语音情感识别模型的泛化能力。
3、采用1DCNN决策树模型,相比于简单的1DCNN模型,基于1DCNN决策树模型可以实现对情感进行由粗到细的有效划分,更好地提升语音情感识别性能。
附图说明
图1为本发明的系统框图;
图2为本发明的语音情感和性别联合识别的多任务学习框图;
图3为本发明的基于多任务1DCNN的语音情感识别模型图;
图4为本发明的基于多任务1DCNN决策树模型图;
图5为本发明的不同尺度帧长设置下的语音情感识别性能示意图;
图6为本发明的不同超参数下的多任务1DCNN模型性能示意图;
图7为本发明的单任务1DCNN和多任务1DCNN模型的实验对比示意图。
具体实施方式
请参阅图1,本实施例提供本发明一种多尺度特征联合多任务CNN决策树的语音情感识别方法,在实际应用中,一般采用单一的帧长进行分帧来提取情感特征。而采用不同的帧长进行分帧时,提取的不同尺度情感特征所包含的情感特性是有差异的。其次,当训练样本不足时,神经网络可能会由于训练不足而导致识别性能不佳。最后,在多分类语音情感识别中,不同情感间可能会存在严重的混淆,导致语音情感识别性能不理想。为了弥补上述不足,本发明将多尺度特征融合与语音性别识别辅助任务用于语音情感识别系统,提高系统的识别性能,并通过多任务1DCNN决策树模型进一步实现由粗到细的语音情感识别。
在第一阶段的特征融合中,为了挖掘更加全面且有效的情感特征,在保证每帧信号满足短时平稳特性的前提下,在帧长取256、400和512的多尺度下进行特征提取,并进行统计特征的融合。实验证明,融合三种尺度的情感特征在进行情感分类时所获得的情感识别性能有效提升。在第二阶段的基于多任务1DCNN决策树模型中,引入语音性别识别辅助任务的多任务学习策略,模型的泛化能力进一步提高。另外,采用1DCNN决策树模型,实现语音情感由粗到细的划分,使得该模型能够有效地区分易混淆情感,提高模型的整体识别率。
同时,对于多任务语音情感识别系统,网络模型的损失函数是各任务损失函数的线性组合,损失函数的加权系数取值对模型的收敛以及各任务的性能有一定的影响。因此,本发明在模型的构建过程中,利用验证数据对多任务1DCNN决策树中的损失函数进行超参数寻优,分别找出最适宜1DCNN1模型、1DCNN2模型、1DCNN3模型的超参数进一步提升语音情感识别系统的性能。以下是对本发明具体实施方式的详细论述;
步骤1:对输入语音信号进行预处理并将提取的多尺度统计特征进行融合。
对语音信号进行预处理
语音信号是非平稳的,但通常在10ms到40ms相对较短的时间内,语音信号可以看作是近似平稳的。在提取语音信号情感特征前,通常通过分帧来获取平稳的帧信号。而当采用不同的帧长进行分帧时,提取的不同尺度情感特征所包含的情感特性是有差异的。因此采用不同尺度的256、400、512的帧长进行分帧,得到预处理的信号。不同尺度帧长设置下的一维MFCC静态参数统计特征如表1所示。
表1.不同尺度帧长设置下的一维MFCC静态参数统计特征表
不同尺度帧长设置下的能量参数统计特征如表2所示。
表2.不同尺度帧长设置下的能量参数统计特征表
不同尺度帧长设置下的基因频率参数统计特征如表3所示。
表3.不同尺度帧长设置下的基因频率参数统计特征表
不同尺度帧长设置下的短时过零率参数统计特征如表4所示。
表4.不同尺度帧长设置下的短时过零率参数统计特征表
提取预处理后语音信号的情感特征
将预处理后的语音信号进行语音情感特征提取,获得帧长为256、400和512时的24维MFCC及其24维一阶差分动态特征、能量、基因频率和短时过零率。这五类情感特征可以表示为其中,表示样本x在尺度d下提取的第i类情感特征,1≤j≤5。
获得多尺度统计特征
由于单帧语音信号所包含的情感信息有限,不足以表达出准确的情感,所以在分帧提取情感特征后,需要对语音的多帧信号计算其统计特性。本发明所采用的统计量包括最大值、最小值、中值、方差和均值。计算所得的全局统计特征维255维,可表示为Sd=[s1(Yd),s2(Yd),…,s5(Yd)],其中,sj(Yd)表示对五类情感特征计算第j类全局统计特征,1≤j≤5。
对多尺度统计特征进行特征融合
对帧长为256、400和512的三个尺度下所获得的全局统计特征进行融合,将其作为本发明的语音情感识别模型的输入Smuti=[S256,S400,S512],其维数为765维,以实现更加全面地表征语音情感特性。对验证数据和测试数据也进行同样方式的特征提取和特征融合。
步骤2:引入语音性别识别辅助任务。
构建1DCNN的共享网络层
构建多任务1DCNN语音情感识别模型的共享网络层,如表5所示。
表5.共享网络层结构图
输入层是一个765维的多尺度特征向量,后接三个卷积层和池化层交替连接。其中,卷积层1的卷积核尺寸为1×3,卷积核数量为256,卷积步长为1。池化层1的池化核尺寸为1×3,池化步长为3。卷积层2、卷积层3的参数设置与卷积层1相同。池化层2、池化层3的参数设置与池化层1相同。而后,采用Flatten层实现数据拉平,使用Softmax层作为1DCNN共享网络层的输出。
构建1DCNN模型的情感分类特定任务网络层
构建情感分类特定任务网络层,如表6所示。
表6.情感分类特定任务网络层结构图
输入层为共享网络层输出的6912维的特征向量,后接两层全连接层。其中,全连接层1的尺寸大小为1024,全连接层2的尺寸大小为1024。情感分类任务的输出可表示为yA=hA(w(Smuti))。其中,Smuti表示多尺度融合特征,w(*)表示共享网络层的映射关系,hA(*)表示情感分类任务分支上的特定任务网络层A的映射关系。
构建1DCNN模型的性别分类特定任务网络层
构建性别分类特定任务网络层,其具体网络结构与情感分类特定任务网络层相同。性别分类特定任务网络层的输出可表示为yB=hB(w(Smuti))。其中,Smuti表示多尺度融合特征,w(*)表示共享网络层的映射关系,hB(*)表示性别分类任务分支上的特定任务网络层B的映射关系。
设置多任务1DCNN模型的交叉熵损失函数
多任务1DCNN模型的损失函数为其中,LossA为语音情感分类任务的损失函数,LossB为语音性别分类的损失函数,为超参数。本发明选用的LossA和LossB皆为交叉熵损失函数。LossA可以表示为LossB可以表示为其中M表示样本的数量,x表示当前样本,yA表示当前样本的真实情感类别标签,yA′表示当前样本的预测情感类别标签,yB表示当前样本的真实性别类别标签,yB′表示当前样本的预测性别类别标签。
多尺度融合特征输入多任务1DCNN模型
将765维多尺度融合特征输入1DCNN模型用于训练,实现在共享网络层从性别分类任务中挖掘有利于情感分类主任务的性别相关情感信息,在情感分类特定任务网络层挖掘特定于情感分类任务的更深层次的情感信息。基于多任务1DCNN的语音情感识别模型可见图3。
B.设置评分函数,以平均语音情感识别率作为评价指标。
步骤3:构建多任务1DCNN决策树模型
获得情感混淆度
输入验证数据到寻优后的1DCNN模型得到情感混淆矩阵。通过情感混淆矩阵计算得到不同情感之间的混淆度,从而构造决策树模型。
划分情感小组
根据情感间混淆度将训练阶段和验证阶段的所有情感类别划分为不同情感小组。
训练树节点的多任务1DCNN模型
将训练数据特征集输入到树节点上的多任务1DCNN模型,利用不同情感特征集训练决策树中对应树节点上的基于多任务的1DCNN模型。
对树节点的多任务1DCNN进行超参数寻优
同步骤2中的超参数寻优过程,利用所划分的验证情感特征集分别对每个树节点上的多任务1DCNN进行超参数寻优,其网络模型中超参数与识别率的关系可见表7。
表7.网络模型中超参数与识别率的关系图
获得基于多任务1DCNN决策树模型
将所构建的决策树模型与树节点上寻优后的多任务1DCNN模型进行联合,从而获得基于多任务1DCNN决策树模型,如图4所示。其构建的具体步骤为:
A.在当前节点的情感小组中,提取不同尺度帧长设置下的语音情感特征,计算其统计特征并进行特征融合。
C.根据实验对比设置初始阈值为5,将情感混淆度大于该阈值的情感划分为一组,小于该阈值的单独划分为一组,若多类情感间的混淆度均大于该阈值,则将该多类情感均划分为一组。
D.若某个情感小组下的情感类别数大于2,则将阈值增大1倍,并转到步骤A;若小组情感类别数等于2,则后续直接针对这2类情感构建网络模型进行情感分类:否则转到步骤E。
E.决策树模型构建完成,分别为1DCNN1、1DCNN2、1DCNN3。其中1DCNN1实现三组语音情感分类,包括组1:生气、高兴、惊讶;组2:平静;组3:害怕、伤心。1DCNN2实现三种情感分类包括:生气、高兴、惊讶。1DCNN3实现两种情感分类,包括:害怕、伤心。
步骤4:对所提出的多尺度特征联合多任务CNN决策树的语音情感识别方法的评估
数据库及实验设置
本实施例所采用的数据集为CASIA情感数据库,它是由中国科学院自动化研究所4位演员(2位男性和2位女性)在纯净无噪的环境下录制的6种情感语音,共计1200条。所包含的6种情感分别为:生气(anger)、害怕(fear)、高兴(happy)、平静(neutral)、伤心(sad)和惊讶(surprise)。该数据库以16KHz的采样频率和16bit的量化级保存数据,保存形式为wav。
对数据库中每类情感的语音分别以帧长256、帧长400和帧长512尺度提取24维MFCC及其24维一阶差分动态特征、能量、基音频率和短时过零率五类情感特征,其中帧移为帧长的1/2,采样频率为16KHz。为了表征整条语音的全局情感特性,需对多帧语音计算其五类情感特征的统计特征,本文所使用的统计量为最大值、最小值、中值、方差和均值。之后融合不同帧长尺度设置下的统计特征作为本文模型的输入,融合后的特征共计765维。在训练网络模型之前,将语音情感数据库按照8:2比例划分为训练集和测试集,由于需要验证集数据来调整网络模型损失函数的超参数因此需对训练集进一步按照8:2比例划分超参数寻优部分的训练集和验证集。在实验中,计算机型号为Thinkpad T480s,CPU处理器为IntelCorei5-8250U,显卡型号为NVIDIAGeForceMX150,CUDA版本号为10.0,Tensorflow版本号为2.1.0,Keras版本号为2.5.0,语音情感特征提取库为Librosa0.8.1,网络模型的优化器采用的是Adam,学习率为0.001,批量大小为16,迭代次数为200次。
实验性能评估
本实施例中,系统的框图如图1所示。
首先,为了验证融合多尺度下的情感特征能进一步提升语音情感识别性能,我们在不同尺度帧长设置下进行了对比实验。为了更加直观的对比不同尺度帧长设置下的实验性能,该次评估所采用的模型为基于单任务学习的1DCNN模型,该模型仅包含情感分类任务。图5显示了在帧长分别为256、400和512尺度下的语音情感特征以及它们任意两种的融合特征和三种的融合特征用于情感识别的平均识别率。图5可看出,多尺度帧长提取的语音情感特征相较于单一尺度情感特征在情感识别性能上有明显提升。当单一尺度帧长设置为256、400和512时,帧长为256的特征所获得的情感识别性能最佳,平均识别率为77.43%。使用不同的单一尺度情感特征进行情感分类,系统性能呈现出差异,主要由于不同尺度下的情感特征所包含的情感信息是有差异的,因此融合多尺度特征可以充分利用特征的多样性,更全面地挖掘语音信号中的情感信息。当融合两种尺度帧长提取的情感特征进行情感分类时,帧长256和帧长512尺度下的融合统计特征所获的情感识别性能最佳,平均识别率为81.92%。融合三种尺度的情感特征相较于融合两种尺度的情感特征,在进行情感分类时所获得的情感识别性能得到了进一步提升,平均识别率达到83.46%。这表明多尺度情感特征融合能进一步提升语音情感识别性能。
接下来,对1DCNN模型在单任务学习和多任务学习下进行了对比实验以验证多任务学习策略的有效性。对于多任务学习,图6给出了1DCNN在不同的多任务超参数下的平均语音情感识别率。从图6中可以看出,当多任务超参数为0.8时,模型性能最佳,因此在多任务1DCNN模型中将超参数设置为0.8。图7给出了单任务1DCNN和多任务1DCNN模型的比对实验结果,从图7中可以看出,多任务学习下模型的性能整体优于单任务学习下模型的性能。在多任务学习下,除了生气情感的识别率略微下降之外,其他情感的识别率都有明显的提升。在单任务学习下6类情感的平均识别率为83.46%,在多任务学习下6类情感的平均识别率为84.31%,相较于在单任务学习下整体识别率提升了0.85%。多任务学习策略之所以能有效地提升识别模型的性能,是因为在模型的共享网络层中,性别分类任务的引入能够为情感分类任务进一步提供与性别有关的有效情感信息。
之后,对多任务1DCNN决策树中损失函数的超参数寻优进行了实验对比。对于多任务语音情感识别系统,网络模型的损失函数是各任务损失函数的线性组合,损失函数的加权系数取值对模型的收敛以及各任务的性能有一定的影响。在本发明所构建的决策树模型的树节点上,网络模型损失函数中的加权系数是分别寻优的。为了得到1DCNN1、1DCNN2和1DCNN3模型中合适的超参数本次评估使用验证数据在3个网络模型中进行实验,超参数的取值范围为0.1-0.9。3个网络模型中超参数的设置与识别率的关系如表7所示。对于1DCNN1,情感分类为3分类任务。当超参数为0.6时,1DCNN1的识别率最高,为92.78%。因此,对于1DCNN1,将超参数设置为0.6。与1DCNN1一样,1DCNN2的情感分类为3分类任务,当超参数为0.6时,1DCNN2的识别率最高,为89.31%。因此,对于1DCNN2,同样将超参数设置为0.6。对于1DCNN3,情感分类为2分类任务。当超参数为0.8时,1DCNN3的识别率最高,为80.63%。因此,对于1DCNN3,将超参数设置为0.8。从表7可以发现,网络模型中超参数的取值对多任务语音情感识别系统性能有很大的影响。对于1DCNN1,超参数设置为0.1和0.6,识别率相差了5%;对于1DCNN2,超参数设置为0.1和0.6,识别率相差了8.2%;对于1DCNN3,超参数设置为0.1和0.8,识别率相差了6.48%。因此,利用验证数据对各网络模型损失函数中的超参数分别寻优是有效且必要的。
最后,验证多任务1DCNN决策树模型的有效性。本次验证对比分析了基于单任务1DCNN模型、基于多任务1DCNN模型、基于单任务1DCNN决策树模型和基于多任务1DCNN决策树模型的实验结果。在表8中,基于单任务1DCNN模型的平均语音情感识别率为83.64%,基于单任务1DCNN决策树模型的平均语音情感识别率为85.03%,在单任务语音情感识别系统中,决策树模型的构建使得识别率提升了1.39%。另外,基于多任务1DCNN模型的平均语音情感识别率为84.31%,基于多任务1DCNN决策树模型的平均语音情感识别率为85.64%,在多任务语音情感识别系统中,决策树模型的构建使得识别率提升了1.33%。基于多任务1DCNN决策树模型对于不同的易混淆情感分组构建了不同的网络模型,且各节点上的网络模型是针对各节点情感分组去训练并进行超参数寻优的,因此该模型能够有效地区分易混淆情感,提升模型的整体识别率。
表8.不同模型的语音情感识别率表
以上结果表明:本发明提出的一种多尺度特征联合多任务CNN决策树的语音情感识别方法,从三个方面提升了语音情感识别系统的识别率。首先,在帧长256、帧长400和帧长512尺度下分别提取情感特征,计算情感特征的统计特征,并融合这3个尺度的统计特征作为本文模型的输入,可以更加全面地挖掘语音信号中的情感信息。其次,针对多分类语音情感识别中情感混淆问题,本发明构建的基于多任务1DCNN决策树模型可以实现由粗到细地对情感进行有效划分。最后,对于每个划分的树节点上的1DCNN模型,加入性别分类作为辅助任务。基于多任务学习策略使情感分类主任务学习到更多有利情感分类的特征,进一步提高了模型的泛化能力。本发明所构建的模型在CASIA情感数据库上进行实验,取得了85.64%的平均识别率,验证了我们所提出的语音情感识别方法的有效性,具有很好的实际应用意义。
以上显示和描述了本发明的基本原理、主要特征和优点。本领域的技术人员应该了解,本发明不受上述具体实施例的限制,上述具体实施例和说明书中的描述只是为了进一步说明本发明的原理,在不脱离本发明精神范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由权利要求书及其等效物界定。
Claims (7)
1.一种多尺度特征联合多任务CNN决策树的语音情感识别方法,其特征在于,包括如下步骤,
步骤S1.采集每条语音在帧长为256、400和512时的MFCC参数、能量参数、基因频率参数和短时过零率参数的统计特征,将三个尺度下的统计特征进行融合,用于输入多任务1DCNN模型;
步骤S2.引入性别识别辅助任务,在1DCNN中同时进行语音情感和性别识别任务;
步骤S3.构造多任务1DCNN决策树模型,实现由粗到细地进行情感划分;
步骤S4.对多任务CNN决策树的语音情感识别方法进行性能评估。
2.根据权利要求1所述的一种多尺度特征联合多任务CNN决策树的语音情感识别方法,其特征在于,所述步骤S1的具体方法为,
步骤S11.对每一句输入的时域连续语音信号采用不同的帧长进行预处理,其中帧长分别取256、400、512,获取预处理后的信号;
步骤S12.提取预处理后语音信号的情感特征,包括24维MFCC、24维MFCC一阶动态差分、能量、基因频率和短时过零率;
步骤S13.将不同帧长下提取的24维MFCC及其一阶动态差分、能量、基因频率和短时过零率五类情感特征进行全局统计,统计量包括最大值、最小值、中值、方差和均值;
步骤S14.对尺度为256、400和512所得到的统计特征进行融合,获得765维多尺度融合特征用于网络训练。
3.根据权利要求1所述的一种多尺度特征联合多任务CNN决策树的语音情感识别方法,其特征在于,所述步骤S2的具体方法为,
步骤S21.构建1DCNN的共享网络层框架,包括第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、Flatten层和Softmax层;
步骤S22.构造情感分类特定任务网络层A,包括第一全连接层、第二全连接层和Softmax层;
步骤S23.构造性别分类特定任务网络层B,包括第一全连接层、第二全连接层、Softmax层;
步骤S24.设置基于多任务1DCNN模型的交叉熵损失函数
步骤S25.将765维多尺度融合特征输入1DCNN用于模型训练,在共享网络层从性别分类任务中获取情感分类主任务的性别相关情感信息,在情感分类特定任务网络层获取情感分类任务的更深层次的情感信息;
步骤S262.设置评分函数,以平均语音情感识别率作为评价指标;
5.根据权利要求1所述的一种多尺度特征联合多任务CNN决策树的语音情感识别方法,其特征在于,所述步骤S3的具体方法为,
步骤S31.根据寻优后的1DCNN模型输入验证数据集,获取情感混淆矩阵,通过情感混淆矩阵计算不同情感间的混淆度,从而构造决策树模型;
步骤S32.通过获取的情感混淆度将训练阶段和验证阶段的所有情感类别划分为不同情感小组;
步骤S33.根据不同情感小组构造对应树节点的基于多任务的1DCNN模型,并利用不同情感小组特征集训练对应树节点上的基于多任务的1DCNN模型;
步骤S34.利用所划分的验证情感特征集分别对每个树节点上的多任务1DCNN进行超参数寻优,获取适用于不同情感小组特征集的寻优后的多任务1DCNN模型;
步骤S35.将构建的决策树模型和在树节点上寻优后的多任务1DCNN联合,获取基于多任务1DCNN决策树模型。
6.根据权利要求5所述的一种多尺度特征联合多任务CNN决策树的语音情感识别方法,其特征在于,所述步骤S34中,构建决策树中对应树节点的基于多任务的1DCNN模型,包括如下步骤,
步骤S341.在当前节点的情感小组中,提取不同尺度帧长设置下的语音情感特征,计算其统计特征并进行特征融合;
步骤S343.根据实验对比设置初始阈值为5,将情感混淆度大于该阈值的情感划分为一组,小于该阈值的单独划分为一组,若多类情感间的混淆度均大于该阈值,则将该多类情感均划分为一组;
步骤S344.若某个情感小组下的情感类别数大于2,则将阈值增大1倍,并转到步骤S341;若小组情感类别数等于2,则后续直接针对这2类情感构建网络模型进行情感分类:否则转到步骤345;
步骤S345.决策树模型构建完成,分别为1DCNN1、1DCNN2、1DCNN3;其中,1DCNN1实现三组语音情感分类,包括第一组:生气、高兴、惊讶;第二组:平静;第三组:害怕、伤心;1DCNN2实现三种情感分类包括:生气、高兴、惊讶。1DCNN3实现两种情感分类,包括:害怕、伤心。
7.根据权利要求1所述的一种多尺度特征联合多任务CNN决策树的语音情感识别方法,其特征在于,所述步骤S4的具体方法为,
步骤S41.提取各类单一帧长的统计特征以及多尺度帧长下的融合统计特征,将其分别输入到训练好的多任务1DCNN决策树模型,验证多尺度特征融合的有效性;
步骤S42.将测试数据的多尺度融合特征集分别输入到单任务1DCNN模型和多任务1DCNN模型进行对比实验,验证多任务1DCNN模型相对于单任务1DCNN模型的有效性;
步骤S43.将测试数据的多尺度融合特征集分别输入到单任务1DCNN模型、多任务1DCNN模型、单任务1DCNN决策树模型、多任务1DCNN决策树模型,验证多任务1DCNN决策树模型对语音情感识别的有效性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210497889.3A CN114898776A (zh) | 2022-05-09 | 2022-05-09 | 一种多尺度特征联合多任务cnn决策树的语音情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210497889.3A CN114898776A (zh) | 2022-05-09 | 2022-05-09 | 一种多尺度特征联合多任务cnn决策树的语音情感识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114898776A true CN114898776A (zh) | 2022-08-12 |
Family
ID=82721481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210497889.3A Pending CN114898776A (zh) | 2022-05-09 | 2022-05-09 | 一种多尺度特征联合多任务cnn决策树的语音情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114898776A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117153197A (zh) * | 2023-10-27 | 2023-12-01 | 云南师范大学 | 语音情感识别方法、设备以及计算机可读存储介质 |
-
2022
- 2022-05-09 CN CN202210497889.3A patent/CN114898776A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117153197A (zh) * | 2023-10-27 | 2023-12-01 | 云南师范大学 | 语音情感识别方法、设备以及计算机可读存储介质 |
CN117153197B (zh) * | 2023-10-27 | 2024-01-02 | 云南师范大学 | 语音情感识别方法、设备以及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109284506B (zh) | 一种基于注意力卷积神经网络的用户评论情感分析系统及方法 | |
CN110491416B (zh) | 一种基于lstm和sae的电话语音情感分析与识别方法 | |
CN110956953B (zh) | 基于音频分析与深度学习的争吵识别方法 | |
CN110211594B (zh) | 一种基于孪生网络模型和knn算法的说话人识别方法 | |
CN112861984B (zh) | 一种基于特征融合与集成学习的语音情感分类方法 | |
Pinto et al. | Exploiting contextual information for improved phoneme recognition | |
CN111899766B (zh) | 基于深度特征与声学特征寻优融合的语音情感识别方法 | |
CN110853656A (zh) | 基于改进神经网络的音频篡改识别算法 | |
Huang et al. | Large-scale weakly-supervised content embeddings for music recommendation and tagging | |
Le Cerf et al. | Multilayer perceptrons as labelers for hidden Markov models | |
CN112417132A (zh) | 一种利用谓宾信息筛选负样本的新意图识别方法 | |
Ghafoor et al. | Kurdish dialect recognition using 1D CNN | |
CN114898779A (zh) | 融合多模态的语音情感识别方法及系统 | |
CN106448660A (zh) | 一种引入大数据分析的自然语言模糊边界确定方法 | |
CN114898776A (zh) | 一种多尺度特征联合多任务cnn决策树的语音情感识别方法 | |
Lingampeta et al. | Human emotion recognition using acoustic features with optimized feature selection and fusion techniques | |
CN111309849A (zh) | 一种基于联合学习模型的细粒度数值信息抽取方法 | |
Ghosh et al. | Robust classification using hidden Markov models and mixtures of normalizing flows | |
Hussain et al. | Classification of Bangla Alphabets Phoneme based on Audio Features using MLPC & SVM | |
CN114547264A (zh) | 一种基于马氏距离和对比学习的新意图数据识别方法 | |
Wen et al. | Improving deep neural network based speech synthesis through contextual feature parametrization and multi-task learning | |
Anindya et al. | Development of Indonesian speech recognition with deep neural network for robotic command | |
CN112951270B (zh) | 语音流利度检测的方法、装置和电子设备 | |
Chandrakala et al. | Combination of generative models and SVM based classifier for speech emotion recognition | |
CN113535928A (zh) | 基于注意力机制下长短期记忆网络的服务发现方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |