CN110164476B - 一种基于多输出特征融合的blstm的语音情感识别方法 - Google Patents
一种基于多输出特征融合的blstm的语音情感识别方法 Download PDFInfo
- Publication number
- CN110164476B CN110164476B CN201910437266.5A CN201910437266A CN110164476B CN 110164476 B CN110164476 B CN 110164476B CN 201910437266 A CN201910437266 A CN 201910437266A CN 110164476 B CN110164476 B CN 110164476B
- Authority
- CN
- China
- Prior art keywords
- output
- gate
- blstm
- features
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000004927 fusion Effects 0.000 title claims abstract description 38
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 24
- 230000008451 emotion Effects 0.000 claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 16
- 238000012360 testing method Methods 0.000 claims abstract description 12
- 238000005457 optimization Methods 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 14
- 210000004027 cell Anatomy 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 230000002996 emotional effect Effects 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 230000001133 acceleration Effects 0.000 claims description 3
- 230000037433 frameshift Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 2
- 206010063659 Aversion Diseases 0.000 claims 1
- 206010048909 Boredom Diseases 0.000 claims 1
- 238000000354 decomposition reaction Methods 0.000 claims 1
- 230000008447 perception Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 8
- 230000002457 bidirectional effect Effects 0.000 description 18
- 238000002474 experimental method Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 206010002953 Aphonia Diseases 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000002054 transplantation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多输出特征融合的BLSTM的语音情感识别方法,该方法包括:对语音情感数据库中的的语音样本进行预处理;提取常用的传统特征以及改进的新特征;对提取的特征进行BP算法特征优选;将提取好的优选特征随机选择65%的样本作为训练集,送入到多输出特征融合的BLSTM网络模型中进行训练,用Adam算法作为网络的优化器,获得优化后的网络模型;利用S4优化得到的三层六个输出特征融合的BLSTM网络模型,将剩下的35%的样本作为测试集,对其进行情感分类,对EMODB语音情感数据库中全部的情感样本进行分类,完成语音的情感识别。本发明方法提出的多输出特征融合的BLSTM网络模型,其能有效提高网络的分类效果,提高识别率,降低算法的时间复杂度。
Description
技术领域
本发明涉及语音情感识别技术领域,具体是一种基于多输出特征融合的BLSTM的语音情感识别方法。
背景技术
语音信号是最快速、最原始的交流方式,被认为是实现人机交互最有效的方法之一。语音情感识别作为人机交互的一处重要分支,可以广泛应用与教育、医疗、交通等各个领域。现阶段大部分基于深度学习算法的语音情感识别均采用CNN(Convolutional NeuralNetworks,卷积神经网络)+LSTM(Long Short Term Memory Network,长短时记忆网络)为网络模型结构。专利CN108717856A一种基于多尺度深度卷积循环神经网络的语音情感识别方法,其用CNN提取频谱图信息作为输入特征送入到LSTM中,解决了语音频谱特征输入变长的问题。但由于其采用图像输入,一方面由于语音转换为频谱或语谱图,造成语音情感信息的部分丢失,信息不完整,另一方面,由于转换成频谱图的图片形式,使得网络处理的数据量大大增加,网络难以训练,模型结构的实用性和实时性不高,以时间为代价提高了网络模型的识别效果,在实际工程中很难实用。专利CN109460737A一种基于增强式残差神经网络的多模态语音情感识别方法,其提取语谱图特征,用增强式残差神经网络解决了多模态维度不同问题,其实际同样是将语音数据转换为图片的形式,所解决的问题也是语谱图特征输入变长问题,同样导致以上两个问题。针对以上两个问题,本发明创新性的将提取好的优选特征作为输入向量的语音情感识别系统框架结构,这很大程度降低了算法的复杂度和运算时间,并同时考虑语音情感信息的完整性,提出一种基于多输出特征融合的BLSTM的语音情感识别方法,并在EMODB数据库上得到WA为91.17%,UA为89.79%的识别率。
发明内容
本发明的目的在于克服现有技术的不足,而提供一种基于多输出特征融合的BLSTM的语音情感识别方法。该方法考虑到语音的时序性,以及后文对前文的影响,即编码从后到前的信息,选择BLSTM(Bidirectional Long Short Term Memory Network,双向长短时记忆网络),同时利用历史和未来的信息,以更好的捕捉双向的语义依赖。还可以为网络提供额外的上下文,并导致更快,甚至更充分的学习。在此基础上,从ResNet的跨层连接得到启发,考虑到LSTM不同层都有输出,如果结合在一起,特征能更充分的利用,把BLSTM不同层的输出经过全连接层变换,得到的各个层的特征相加,实现当前特征与浅层特征的融合,再对融合得到的特征分类,得到最终的预测结果。BLSTM的每一层特征相加融合,实际上是用低层网络信息补充高层网络信息,输出更多的特征信息,减少情感信息的丢失。而输入采用优选特征的方式,可以降低算法的时间复杂度,降低网络模型的训练难度,方便硬件平台的移植等。
实现本发明目的的技术方案是:
一种基于多输出特征融合的BLSTM的语音情感识别方法,包括以下步骤:
S1.对语音情感数据库中的的语音样本进行预处理;
S2.提取常用的传统特征以及改进的新特征;
S3.对提取的特征进行BP(Error Back Propagation, 误差反向传播)算法特征优选;
S4.将提取好的优选特征随机选择65%的样本作为训练集,送入到多输出特征融合的BLSTM网络模型中进行训练,用Adam(Adaptive Moment Estimation,自适应矩量估计)算法作为网络的优化器,获得优化后的网络模型,即三层六个输出特征融合的BLSTM网络模型;
S5.利用S4优化得到的三层六个输出特征融合的BLSTM网络模型,将剩下的35%的样本作为测试集,对其进行情感分类,对EMODB语音情感数据库中全部的情感样本进行分类,完成语音的情感识别。
S1中,所述语音情感数据库为EMODB库,含有7种情感(中性、生气、害怕、高兴、悲伤、厌恶、无聊),预处理包括分帧加窗端点检测等。
S2中,提取常用的传统特征,包括基音频率、能量、过零率、频率微扰、梅尔频域倒谱系数、Hurst指数、线性预测系数、感觉加权线性预测8类特征;
提取改进的新特征,包括基频梅尔频域倒谱系数,能量梅尔频域倒谱系数,倒谱梅尔频域倒谱系数,Teager梅尔频域倒谱系数4类改进特征;
对提取的12类特征,分别计算其平均值、中位值、标准差、最小值、最大值、方差、变化率、一阶差分等统计量。
由于语音包含情感信息,说话人信息和说话内容信息即语义信息三方面的内容,针对情感信息识别,要尽可能滤除其他两方面信息对情感信息的干扰,本方法使用改进后的新特征,其滤除了与情感无关的部分信息,最后对其进行BP特征优选。
S3对提取的特征进行BP特征优选,优选出最能体现情感信息的组合特征,对优选的组合特征提取70帧/段的段特征,帧长256,帧移128。同时为了获得更好的并行加速,将语音样本段数归一化到5段,语音样本长的截断,不够的用零填充,将111维70帧/段的段特征作为优选特征送入到多输出特征融合的BLSTM网络模型。
双向三层六个输出LSTM网络模型,双向指的是在输入输出间再加一层时间上反序传播的隐层。通过双向LSTM可以更好的捕捉双向的语义依赖。双向LSTM即 BLSTM,克服了单向LSTM无法编码从后到前的信息的问题。
S4中,所述三层六个输出特征融合的BLSTM网络模型的构建,设一个情感语音提取到的帧特征为X = (x1,x2,... xi ...,xT) ,i = 1,2,...,T,将X中每一个向量依次输入到LSTM网络中,对于时刻t的输入xt,经过LSTM神经网络得到ht的计算过程包括如下步骤:
S4.1构建遗忘门(Foget Gate)
遗忘门计算哪些信息需要忘记,遗忘门的计算公式为:
S4.2构建输入门(Input Gate)
输入门计算哪些信息需要保存到隐层神经元状态单元中,输入门的计算公式为:
S4.3隐层细胞状态更新(Cell State Update)
当前时刻的单元状态由遗忘门输入和上一时刻状态的积加上输入门两部分的积,即
S4.4构建输出门(Output Gate)
输出门计算需要输出的信息,输出门的计算公式为:
其中,和为LSTM网络输出门连接权值与偏置。it,ct,ot,ft为输入门,细胞存储单元,输出门和遗忘门的激活输出向量,由于在语音识别中4层网络就被认为是“较深的”,本方法在一层至五层之间进行实验,得出网络层数为3时,网络的分类性能最强。网络的每一层都会有对应的输出,实验中输出每一层最后一个时刻的输出,将多层输出特征相加进行决策融合,以提供更丰富的语音情感特征。
实验包含单双向的对比和最后一层高级特征与低层和高层相融合的特征的对比,考虑到低层信息对高层的补充作用,融合特征效果更好。
在单向的多输出LSTM网络结构中综合分析得到:1. 层数越多,准确率越低;2. 无论是几层网络,多个输出结合的效果比最后一层输出要好。
在双向多输出特征融合的BLSTM网络结构中综合分析得到:1. 层数越多,准确率越低。
2. 无论是几层网络,多个输出结合的效果比最后一层输出要好,S4-1和S4-2结论的高度一致,也验证了实验结论的可靠性;
因为各类情感样本数目不是平均分布的,存在类别间样本量多少不一的情况,所以本发明方法以最大化UA(Unweighted Average,未加权准确率)为目标,应用111维70帧/段的段特征和三层六输出BLSTM的识别方法,在EMODB数据库上得到WA为91.17%,UA为89.79%的识别率。
本发明提出一种基于多输出特征融合的BLSTM的语音情感识别方法,该方法创新性的提出将优选特征作为输入方式的语音情感识别框架结构,降低了算法的时间复杂度,从ResNet网络的跨层连接出发,考虑到BLSTM不同层的输出,如果结合在一起,特征能更充分的利用,输出更多的特征信息,以减少语音情感信息的丢失。本发明方法提出的多输出特征融合的BLSTM网络模型,其能有效提高网络的分类效果,提高识别率,降低算法的时间复杂度。
附图说明
图1为本发明语音情感识别的系统框图;
图2为本发明多输出特征融合的BLSTM网络结构图;
图3为本发明ResNet跨层连接结构图;
图4 为本发明EMODB库测试分类精度曲线图;
图5 为本发明三层六个输出BLSTM网络结构图。
具体实施方式
下面结合实施例和附图对本发明内容作进一步的阐述,但不是对本发明的限定。
实施例:
一种基于多输出特征融合的BLSTM的语音情感识别方法,其语音情感识别的系统框图如图1所示,语音样本输入语音情感数据库中,对语音样本进行预处理,包括分帧加窗端点检测等。提取特征包括传统特征提取和改进的新特征两方面,分类器用多输出BLSTM网络模型,对于提取好的特征,一部分用来训练模板,一部分用来做测试识别,输出判决结果。
语音情感识别方法,包括以下步骤:
S1对语音情感数据库中的的语音样本进行预处理;
S2提取常用的传统特征以及改进的新特征;
S3对提取的特征进行BP特征优选;
S4将优选特征随机选择65%的样本作为训练集,送入到多输出特征融合的BLSTM网络模型中进行训练,用Adam算法作为网络的优化器,获得优化后的网络模型,即三层六个输出特征融合的BLSTM网络模型;
S5利用S4优化得到的三层六个输出特征融合的BLSTM网络模型,将剩下的35%的样本作为测试集,对其进行情感分类,对EMODB语音情感数据库中全部的情感样本进行分类,完成语音的情感识别。
S1中,所述的情感语音库为EMODB库,含有7种情感,预处理包括分帧加窗端点检测等。对提取的特征进行BP特征选择,优选出最能体现情感信息的组合特征,对优选的组合特征提取70帧/段的段特征,帧长256,帧移128。同时为了获得更好的并行加速,实验中将语音样本段数归一化到5段,语音样本长的截断,不够的用零填充,输入数据为111维70帧/段的段特征。
所述的多输出BLSTM网络模型,其结构如图2所示,将输入数据按时刻送入到BLSTM中,假设T个时刻,即将输入分为T段,假设BLSTM有N层,将每一段的段特征送入BLSTM中,每一层都会有对应的输出,取每一层最后一个时刻的输出,共2*N个特征向量,将2*N个特征向量相加求和,实现浅层特征和深层特征相融合,得到最终的特征向量,经过全连接层和软最大softmax得到7个在0~1之间的值,即每个类别的概率。网络结构如图2,‘FC’指的是全连接层(fully connected layers);‘Addition’操作是将多个向量对应位置的特征点相加;‘Fw_LSTM’代表BLSTM中的‘Forward layer;‘Bw_LSTM’代表BLSTM中的‘Backward layer’,虚线代表需要通过实验确定的网络模型参数,下文设计实验,验证其有效性,以及具体的网络结构和超参数的设置。
所述LSTM计算过程如下所示,设一个情感语音提取到的帧特征为X = (x1,x2,...,xT) ,i = 1,2,...,T,将X中每一个向量依次输入到LSTM网络中,对于时刻t的输入xt,经过LSTM神经网络得到ht的计算过程如下:
1) 构建遗忘门(Foget Gate)
遗忘门计算哪些信息需要忘记。
2) 构建输入门(Input Gate)
输入门计算哪些信息需要保存到状态单元中。
3) 隐层细胞状态更新(Cell State Update)
当前时刻的单元状态由遗忘门输入和上一时刻状态的积加上输入门两部分的积,即
4) 构建输出门(Output Gate)
输出门计算需要输出的信息。
设计实验,确定具体的网络结构和超参数的设置。在实验阶段,LSTM中隐层设置111个LSTM记忆细胞。输入数据为111维70帧/段的段特征,实验在一层至五层之间进行,在分类的全连接层之间,添加2个dropout层,丢弃因子设为0.5。网络中最大迭代次数max_epoch=50000,批尺寸batch_size=32,Adam算法作为网络的优化器,学习率和动量因子分别设为0.0001,0.999。运行模式为GPU。本次实验基于Linux操作平台,使用tensorflow深度学习算法网络框架。由于深度学习每次训练,网络参数随机生成和gpu并行计算的浮点误差,所以每次结果应该不完全相同,会在小范围内震荡,所以实验中对同一组实验做5次取均值为最终识别率。在进行模型训练前,具体设置是离散的情感标签被用0~6数字代替,例如在EMODB库中,0代表fear,1代表disgust等。实验在EMODB库中随机选择65%的样本作为训练集,35%作为测试集。运行训练好的多输出特征融合的BLSTM模型,输出加权平均准确率WA和未加权平均准确率UA。因为各类情感样本数目不是平均分布的,存在类别间样本量多少不一的情况,所以本实施列以最大化UA为目标。运行搭建好的多输出特征融合的BLSTM模型,开始网络训练和同步测试。
EMODB库单向多层多输出实验结果如下:
表1 EMODB库单向多层多输出实验结果
根据以上实验结果,可以发现本发明方法应用111维70帧/段的段特征和单向一层多输出LSTM的识别方法,在EMODB数据库上得到WA为86.19%,UA为84.92%的识别率。单向一层的LSTM识别率最高。
本发明方法应用111维70帧/段的段特征和单向五层LSTM的识别方法,在EMODB数据库上得到WA为76.80%,UA为75.06%的识别率。单向五层的LSTM识别率最低。
虽然神经网络的隐层层数决定了它对现实的刻画能力,但随着深度的增加,带来了以下问题,优化函数陷入局部最优,导致用有限数据训练的深层网络,甚至不如用浅层网络训练效果好的现象。在单向的多输出LSTM网络结构中综合分析得到:1. 层数越多,准确率越低;2. 无论是几层网络,多个输出结合的效果比最后一层输出要好。网络结构为单向一层时,EMODB库的识别率最高。以下同样的参数设置,进行EMODB库双向多层多输出实验,运行搭建好的多输出特征融合的BLSTM模型。
EMODB库双向多层多输出实验结果如下:
表2 EMODB库双向多层多输出实验结果
根据以上实验结果,可以发现本发明方法应用111维70帧/段的段特征和双向三层六个输出BLSTM的识别方法,在EMODB数据库上得到WA为91.17%,UA为89.79%的识别率。双向三层六个输出BLSTM网络结构的识别率最高,应用111维70帧/段的段特征和双向五层BLSTM的识别方法,在EMODB数据库上得到WA为79.56%,UA为80.01%的识别率。双向五层的识别率最低。在双向多输出特征融合的BLSTM网络结构中综合分析得到:1. 层数越多,准确率越低。2. 无论是几层网络,多个输出结合的效果比最后一层输出要好,即符合之前的预估低层低级特征和高层高级特征的融合特征效果更好。
在多输出特征融合的BLSTM网络中可以得到一下三个结论:
根据以上表1和表2综合分析,本发明方法应用111维70帧/段的段特征和三层六个输出BLSTM的识别方法,在EMODB数据库上得到WA为91.17%,UA为89.79%的识别率。多输出特征融合的BLSTM网络在双向三层六个输出是取得最高识别率。在多输出特征融合的BLSTM网络中可以得到一下三个结论:1. 无论单向还是双向,层数越多,准确率越低。2. 无论是几层LSTM网络模型,双向网络比单向网络结构好,因为双向的LSTM即BLSTM相当于利用了上下文的联系,如同做阅读的时候,后文的信息对前文也有指导作用。3. 无论是单向还是双向,也无论是几层网络,多个输出结合的效果比最后一层输出要好。为了评估网络的识别性能,实验中绘出测试的分类精度曲线。
由图4可知,当训练迭代到1000轮左右的时候,测试准确率达到90%左右,在之后测试准确率趋势稳定不变。在90%左右震荡。网络模型的测试准确率趋向于稳定不变,实验中认为此时网络模型已经收敛,测试结果即为输出识别率。网络收敛快,时间复杂度低。
综上,实验中多输出特征融合的BLSTM网络最后的网络结构为双向三层六个输出。其结构如图5所示:提取111维70帧/段的段特征作为声学特征,送入到三层六个输出特征融合的BLSTM网络模型中,然后得到最后一个时刻,不同层的输出,送入到全连接层,对BLSTM每层特征进行变换,将得到的特征相加融合,得到最终的特征向量,经过全连接层和softmax得到7个在0~1之间的值,即每个类别的概率。
S4中,将处理好的语音样本的融合特征一部分送入到多输出BLSTM网络模型中进行训练,利用Adam算法作为网络的优化器,获得优化后的网络模型,即三层六个输出特征融合的BLSTM网络模型。
S5中,利用S4优化后的三层六个输出特征融合的BLSTM网络模型,对其他部分特征提取后的语音样本进行情感分类,在EMODB库中全部的7类情感样本进行分类。运行训练好的多输出特征融合的BLSTM模型,输出加权和未加权平均准确率。应用111维70帧/段的段特征和三层六输出BLSTM的识别方法,在EMODB数据库上得到WA为91.17%,UA为89.79%的识别率。相比于现有的语音情感识别方法,本实施例上述识别方法具有更好的识别精度和更快的收敛速度。
Claims (1)
1.一种基于多输出特征融合的BLSTM的语音情感识别方法,其特征是:包括以下步骤:
S1.对语音情感数据库中的语音样本进行预处理;
所述语音情感数据库为EMODB库,含有中性、生气、害怕、高兴、悲伤、厌恶和无聊7种情感;
所述预处理包括分帧加窗端点检测;
S2.提取常用的传统特征以及改进的新特征,对提取的特征分别计算其平均值、中位值、标准差、最小值、最大值、方差、变化率、一阶差分的统计量;
所述常用的传统特征,包括基音频率、能量、过零率、频率微扰、梅尔频域倒谱系数、Hurst指数、线性预测系数、感觉加权线性预测8类;
所述改进的新特征,包括基频梅尔频域倒谱系数、能量梅尔频域倒谱系数、倒谱梅尔频域倒谱系数、Teager梅尔频域倒谱系数4类;
S3.对提取的特征进行BP算法特征优选,优选出最能体现情感信息的组合特征,对优选的组合特征提取70帧/段的段特征,帧长256、帧移128;同时为了获得更好的并行加速,将语音样本段数归一化到5段;语音样本长的截断,不够的用零填充;将111维70帧/段的段特征作为优选特征送入到多输出特征融合的BLSTM网络模型;
S4.将提取好的优选特征随机选择65%的样本作为训练集,送入到多输出特征融合的BLSTM网络模型中进行训练,用Adam算法作为网络的优化器,获得优化后的网络模型,即三层六个输出特征融合的BLSTM网络模型;
设一个情感语音提取到的帧特征为X = (x1,x2,... xi ...,xT) ,i = 1,2,...,T,将X中每一个向量依次输入到LSTM网络中,对于时刻t的输入xt,经过LSTM神经网络得到ht的计算过程包括如下步骤:
S4.1构建遗忘门Foget Gate
遗忘门计算哪些信息需要忘记,遗忘门的计算公式为:
S4.2构建输入门Input Gate
输入门计算哪些信息需要保存到隐层神经元状态单元中,输入门的计算公式为:
S4.3隐层细胞状态更新Cell State Update
当前时刻的单元状态由遗忘门输入和上一时刻状态的积加上输入门两部分的积,即:
S4.4构建输出门Output Gate
输出门计算需要输出的信息,输出门的计算公式为:
S5. 将剩下的35%的样本作为测试集,利用S4优化得到的三层六个输出特征融合的BLSTM网络模型,对其进行情感分类,对EMODB语音情感数据库中全部的情感样本进行分类,完成语音的情感识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910437266.5A CN110164476B (zh) | 2019-05-24 | 2019-05-24 | 一种基于多输出特征融合的blstm的语音情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910437266.5A CN110164476B (zh) | 2019-05-24 | 2019-05-24 | 一种基于多输出特征融合的blstm的语音情感识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110164476A CN110164476A (zh) | 2019-08-23 |
CN110164476B true CN110164476B (zh) | 2021-07-27 |
Family
ID=67632183
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910437266.5A Active CN110164476B (zh) | 2019-05-24 | 2019-05-24 | 一种基于多输出特征融合的blstm的语音情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110164476B (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110444225B (zh) * | 2019-09-17 | 2022-03-25 | 中北大学 | 基于特征融合网络的声源目标识别方法 |
CN110580915B (zh) * | 2019-09-17 | 2022-03-25 | 中北大学 | 基于可穿戴式设备的声源目标识别系统 |
CN110853680B (zh) * | 2019-11-05 | 2021-12-24 | 河南工业大学 | 一种具有多输入多融合策略的双BiLSTM的语音情感识别方法 |
CN110853666B (zh) * | 2019-12-17 | 2022-10-04 | 科大讯飞股份有限公司 | 一种说话人分离方法、装置、设备及存储介质 |
CN111309966B (zh) * | 2020-03-20 | 2023-10-10 | 腾讯科技(深圳)有限公司 | 音频匹配方法、装置、设备及存储介质 |
CN111798874A (zh) * | 2020-06-24 | 2020-10-20 | 西北师范大学 | 一种语音情绪识别方法及系统 |
CN114078484B (zh) * | 2020-08-18 | 2023-06-09 | 北京有限元科技有限公司 | 语音情绪识别的方法、装置以及存储介质 |
CN112466324A (zh) * | 2020-11-13 | 2021-03-09 | 上海听见信息科技有限公司 | 一种情绪分析方法、系统、设备及可读存储介质 |
CN113780610A (zh) * | 2020-12-02 | 2021-12-10 | 北京沃东天骏信息技术有限公司 | 一种客服画像构建方法和装置 |
CN112634873A (zh) * | 2020-12-22 | 2021-04-09 | 上海幻维数码创意科技股份有限公司 | 一种基于中文语音OpenSmile和双向LSTM的端到端情绪识别方法 |
CN112712824B (zh) * | 2021-03-26 | 2021-06-29 | 之江实验室 | 一种融合人群信息的语音情感识别方法和系统 |
CN113284515B (zh) * | 2021-04-19 | 2023-05-02 | 大连海事大学 | 一种基于物理波和循环网络的语音情感识别方法 |
CN113158684B (zh) * | 2021-04-21 | 2022-09-27 | 清华大学深圳国际研究生院 | 一种情绪分析方法、情绪提醒方法及情绪提醒控制装置 |
CN113257280A (zh) * | 2021-06-07 | 2021-08-13 | 苏州大学 | 基于wav2vec的语音情感识别方法 |
CN113808620B (zh) * | 2021-08-27 | 2023-03-21 | 西藏大学 | 一种基于cnn和lstm的藏语语音情感识别方法 |
CN113763519B (zh) * | 2021-11-09 | 2022-02-08 | 江苏原力数字科技股份有限公司 | 一种基于深度学习的语音驱动3d人物面部表情方法 |
CN115482837B (zh) * | 2022-07-25 | 2023-04-28 | 科睿纳(河北)医疗科技有限公司 | 一种基于人工智能的情绪分类方法 |
CN115424605B (zh) * | 2022-11-01 | 2023-02-03 | 北京红棉小冰科技有限公司 | 语音合成方法、装置、电子设备及计算机可读存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106782511A (zh) * | 2016-12-22 | 2017-05-31 | 太原理工大学 | 修正线性深度自编码网络语音识别方法 |
CN107316654A (zh) * | 2017-07-24 | 2017-11-03 | 湖南大学 | 基于dis‑nv特征的情感识别方法 |
CN108415977B (zh) * | 2018-02-09 | 2022-02-15 | 华南理工大学 | 一个基于深度神经网络及强化学习的生成式机器阅读理解方法 |
CN109389992A (zh) * | 2018-10-18 | 2019-02-26 | 天津大学 | 一种基于振幅和相位信息的语音情感识别方法 |
CN109614895A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于attention特征融合的多模态情感识别的方法 |
CN109767789A (zh) * | 2019-03-06 | 2019-05-17 | 慧言科技(天津)有限公司 | 一种用于语音情感识别的新特征提取方法 |
-
2019
- 2019-05-24 CN CN201910437266.5A patent/CN110164476B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110164476A (zh) | 2019-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110164476B (zh) | 一种基于多输出特征融合的blstm的语音情感识别方法 | |
CN111429889B (zh) | 基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质 | |
CN110491416B (zh) | 一种基于lstm和sae的电话语音情感分析与识别方法 | |
CN106157953B (zh) | 连续语音识别方法及系统 | |
CN106919977B (zh) | 一种前馈序列记忆神经网络及其构建方法和系统 | |
CN110706692B (zh) | 儿童语音识别模型的训练方法及系统 | |
CN110956953B (zh) | 基于音频分析与深度学习的争吵识别方法 | |
CN113516968B (zh) | 一种端到端长时语音识别方法 | |
CN111966800B (zh) | 情感对话生成方法、装置及情感对话模型训练方法、装置 | |
CN112581979B (zh) | 一种基于语谱图的语音情绪识别方法 | |
CN110853670B (zh) | 音乐驱动的舞蹈生成方法 | |
CN110321418A (zh) | 一种基于深度学习的领域、意图识别和槽填充方法 | |
CN112466326A (zh) | 一种基于transformer模型编码器的语音情感特征提取方法 | |
CN112151030A (zh) | 一种基于多模态的复杂场景语音识别方法和装置 | |
CN112083806A (zh) | 一种基于多模态识别的自学习情感交互方法 | |
CN111653270B (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
CN110069611A (zh) | 一种主题增强的聊天机器人回复生成方法及装置 | |
CN113450761A (zh) | 一种基于变分自编码器的并行语音合成方法和装置 | |
CN115937369A (zh) | 一种表情动画生成方法、系统、电子设备及存储介质 | |
Perez-Castanos et al. | Listen carefully and tell: an audio captioning system based on residual learning and gammatone audio representation | |
CN117037789B (zh) | 一种客服语音识别方法、装置、计算机设备及存储介质 | |
CN116863920B (zh) | 基于双流自监督网络的语音识别方法、装置、设备及介质 | |
CN115376547B (zh) | 发音评测方法、装置、计算机设备和存储介质 | |
CN112951270B (zh) | 语音流利度检测的方法、装置和电子设备 | |
KR100327486B1 (ko) | 스테이트별 가중치를 적용한 음성 인식 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |