CN113053418A - 一种基于长短时记忆网络快速识别语音情感类别的方法 - Google Patents
一种基于长短时记忆网络快速识别语音情感类别的方法 Download PDFInfo
- Publication number
- CN113053418A CN113053418A CN202110485958.4A CN202110485958A CN113053418A CN 113053418 A CN113053418 A CN 113053418A CN 202110485958 A CN202110485958 A CN 202110485958A CN 113053418 A CN113053418 A CN 113053418A
- Authority
- CN
- China
- Prior art keywords
- model
- emotion
- cell state
- speech
- lstm model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 title claims abstract description 18
- 230000015654 memory Effects 0.000 title claims abstract description 13
- 230000007246 mechanism Effects 0.000 claims abstract description 29
- 238000004364 calculation method Methods 0.000 claims abstract description 20
- 239000011159 matrix material Substances 0.000 claims abstract description 13
- 230000008909 emotion recognition Effects 0.000 claims abstract description 10
- 238000012360 testing method Methods 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims abstract description 7
- 238000012795 verification Methods 0.000 claims abstract description 3
- 230000006870 function Effects 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 6
- 230000009977 dual effect Effects 0.000 claims description 6
- 230000006403 short-term memory Effects 0.000 claims description 5
- 230000007787 long-term memory Effects 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000004704 glottis Anatomy 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000004793 poor memory Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于长短时记忆网络快速识别语音情感类别的方法,包括如下步骤:从原始语音数据样本中提取具有时序信息的帧级语音特征;通过软注意力模型创建基于注意力机制的改进型LSTM模型;用已知的原始语音数据样本及其语音情感类别对改进型LSTM模型进行训练得到情感类别识别模型;对情感类别识别模型进行情感识别测试验证;将未知的原始语音数据样本输入情感类别识别模型进行识别,输出对应的语音情感类别;本发明通过注意力机制优化常规型LSTM模型得到改进型LSTM模型,在保证性能的前提下,有效减少了矩阵计算量,提高语音情感类别识别的性能,具有良好的应用前景。
Description
技术领域
本发明涉及语音情感识别技术领域,特别涉及一种基于长短时记忆网络快速识别语音情感类别的方法。
背景技术
语音是人类表达情感的重要方式之一,以其为媒介的情感识别对智能化的人机交互研究具有重要意义。早前语音情感识别的工作主要聚焦于机器学习算法,如支持向量机,贝叶斯分类器和K近邻算法。而当前随着深度学习的提出,语音情感识别得到了进一步的发展。
虽然早期的工作促进了语音情感的研究,但受传统机器学习只能接受固定长度数据作为输入的影响,目前具有固定维度的静态语音情感特征是使用最多的。例如Schuller提出了一系列的INTERSPEECH情感特征集合,这类特征通过静态统计函数计算了语音特征在时间维度的统计特性,最终可获得一个与语音持续时间无关的固定维度的特征向量。虽然这种特征可以满足传统机器学习只能接受确定维度的数据作为输入的要求,但也导致了统计分析处理后的语音特征丧失了原始语音中的时序信息。为解决上诉问题,我们采用了在计算统计函数之前的帧级语音特征,该特征维度是随语音长度而变化的,且通过帧之间的序列关系保留了原始语音的时序信息。
另一方面,虽然传统机器学习算法因记忆能力较差很难学习时间信息,但随着深度学习算法在情感识别领域中的成功应用,尤其是长短时记忆网络(Long Short-termMemory,LSTM)的提出,为处理语音的时序信息以及变长序列提供了可行性。近些年来,为强化LSTM在特定任务中处理数据的能力,提出了很多LSTM的变体结构。例如:Gers提出了窥视连接,将细胞状态也作为了输入信息。Shi使用卷积操作替换了原始LSTM中部分乘法操作,使得网络能更好的挖掘时空信息。Daniel通过振荡频率稀疏化更新以加快LSTM的收敛速度。上述这些算法在优化LSTM记忆能力的同时也增加了其计算复杂度。
注意力机制最早应用于图像处理领域,并取得了非常好的效果。其核心思想是人脑对整幅图的关注并不是均衡的,是存在一定的区分权重的。在了机器翻译领域,Bahdanau提出了软注意力模型。所谓的“软”是指求取编码后每个单词的概率分布,然后进行加权,即当前待翻译的单词对其他单词的依赖程度(即权重)是有区别的。同样,在LSTM中,可以通过注意力机制为历史细胞状态与候选细胞状态进行加权计算,取代原始的遗忘门与输入控制门。
发明内容
发明目的:本发明公开了一种基于长短时记忆网络快速识别语音情感类别的方法,在常规型LSTM基础上,通过注意力机制优化了常规型LSTM内部的遗忘门和输入控制门的计算方式,提出了基于注意力机制的改进型LSTM模型,在保证性能的前提下,有效减少了矩阵计算量,提高语音情感识别的性能。
技术方案:本发明采用如下技术方案:一种基于长短时记忆网络快速识别语音情感类别的方法,包括以下步骤:
S1、从原始语音数据样本中提取具有时序信息的帧级语音特征;
S2、通过软注意力模型创建基于注意力机制的改进型LSTM模型;
S3、用已知的原始语音数据样本及其语音情感类别对步骤S2中创建好的改进型LSTM模型进行训练,训练好后得到情感类别识别模型;
S4、对步骤S3得到的情感类别识别模型进行情感识别测试验证;
S5、将未知的原始语音数据样本输入情感类别识别模型进行识别,输出对应的语音情感类别。
优选的,步骤S2中通过软注意力模型创建基于注意力机制的改进型LSTM模型,包括以下步骤:
S21、用软注意力模型中的注意力门替代常规型LSTM模型中的遗忘门以得到新遗忘门;
S22、以步骤S21得到的新遗忘门与常规型LSTM模型中输入控制门的对偶关系,取代常规型LSTM模型中的输入控制门,得到注意力机制的改进型LSTM模型。
优选的,步骤S21中,用软注意力模型中的注意力门替代常规型LSTM模型中的遗忘门以得到新遗忘门,包括如下步骤:
S21.1、对常规型LSTM模型进行分析,利用LSTM引入细胞结构,通过自循环方式,使得常规型LSTM模型能够关联RNN过去的历史序列,其具体计算公式如下:
ft=σ(Wf·[ht-1,xt,Ct-1]+bf) (7)
it=σ(Wi·[ht-1,xt,Ct-1]+bi) (8)
ot=σ(Wo·[ht-1,xt,Ct]+bo) (11)
ht=ot*tanh(Ct) (12)
其中,σ为sigmoid激活函数,其取值范围在[0,1]之间,代表了遗忘历史细胞状态的概率;tanh为双曲正切激活函数;ht-1为t-1时刻的隐层输出,ft、it、ot分别为遗忘门,输入控制门和输出门,Wf和bf分别是遗忘门的权重和偏置,Wi和bi分别是输入控制门的权重和偏置,WC和bC分别是细胞状态的权重和偏置,Wo和bo分别是输出门的权重和偏置,它们是常规型LSTM模型的待训练参数,xt为t时刻的输入,Ct和Ct-1分别为t与t-1时刻的细胞状态,为t时刻的细胞状态候选值;
S21.2、通过注意力机制优化了常规型LSTM内部的遗忘门计算方式,ft与it取值在0到1之间,它们分别是历史细胞状态与候选细胞状态的加权分数,如公式(4)所示;
步骤S22中,以步骤S21得到的新遗忘门与常规型LSTM模型中输入控制门的对偶关系,取代常规型LSTM模型中的输入控制门,得到注意力机制的改进型LSTM模型,包括以下步骤:
S22.1、通过注意力机制来计算历史细胞状态与候选细胞状态的加权分数,替代常规型LSTM模型中的遗忘门与输入控制门,得到新的细胞状态,新的细胞状态更新公式如下:
其中sh和sc分别是历史细胞状态和候选细胞状态的加权系数,它们是依据历史细胞状态与当前候选细胞状态进行计算的,与当前输入和历史输出无关,其中Wh与Wc均是注意力公式里的待学习权重参数,exp是以e为底的指数函数。
优选的,步骤S22.1中的公式(8)和(9)与步骤S21.1的公式(1)和(2)中的权重参数相比可得,注意力公式中的权重参数Wh与Wc具有更小的维度,因为它们只与单个细胞状态进行矩阵相乘,而不是组合矩阵[ht-1,xt,Ct-1]相乘,此外,从公式(8)与(9)还可以得出如下结论
sh+sc=1 (10)
其中等式右边是一个元素全为1的矩阵,为了进一步减少计算复杂度,sc可由1-sh代替,即由减法计算替代了除法计算,最终的细胞状态更新公式如下:
优选的,步骤S4中,用召回率对情感类别识别模型进行测试验证:
其中,recall为召回率;TP是预测为正,实际为正的数量;TN是预测为负,实际为正的数量。
优选的,步骤S1中,提取的语音特征通过语音帧之间的序列关系保留了原始语音数据样本中的时序信息,且语音特征的维度随原始语音数据样本的实际长度而变化。
有益效果:本发明具有如下有益效果:
本发明的一种基于长短时记忆网络快速识别语音情感类别的方法,通过注意力机制优化了常规型LSTM内部的遗忘门和输入控制门的计算方式,通过注意力机制来计算历史细胞状态与候选细胞状态的加权分数,替代常规型LSTM模型中的遗忘门与输入控制门,有效减少了矩阵计算量,提高语音情感识别的性能,通过加权系数间的对偶关系可进一步减少计算复杂度;而在性能方面,改进型LSTM模型具有更稳定的收敛性和更高的识别率;因为注意力门是直接根据历史细胞状态与候选细胞状态进行加权分数的计算,而不是依赖当前输入与历史输出来间接计算两种细胞状态的权重系数,因而能够更有效评估历史细胞状态与候选细胞状态的相对信息量,所以基于注意力机制的改进型LSTM模型可以在保证性能的前提下,减少其计算的复杂度,具有良好的应用前景。
附图说明
图1是本发明基于长短时记忆网络快速识别语音情感类别的方法的流程图;
图2是eNTERFACE数据库收敛曲线;
图3是GEMEP数据库收敛曲线;
图4是收敛后模型的稳定性;
图5是传统LSTM计算框架图;
图6是优化后的LSTM计算框架图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
本发明公开了一种基于长短时记忆网络快速识别语音情感类别的方法,包括如下步骤:
步骤A、从原始语音数据中提取具有时序信息的帧级语音特征,其中,该语音特征通过语音帧之间的序列关系保留了原始语音数据中的时序信息,且该语音特征的维度是随原始语音数据的实际长度而变化的。详细的语音特征集合如下表1所示:
表1
语音特征 | 描述 |
voiceProb | 浊音占比率 |
HNR | 声门谐噪比 |
F0 | 基频 |
F0raw | 无清音门限的原始基频 |
F0env | F0包络 |
jitterLocal | 周期一阶差分均值 |
jitterDDP | 周期二阶差分均值 |
shimmerLocal | 幅度峰值一阶差分均值 |
harmonicERMS | 声门谐波能量 |
noiseERMS | 声门噪声能量 |
pcm_loudness_sma | 响度 |
pcm_loudness_sma_de | 响度的回归系数 |
mfcc_sma[0]-[14] | 14阶梅尔倒谱系数 |
mfcc_sma_de[0]-[14] | 梅尔倒谱的回归系数 |
pcm_Mag[0]-[25] | 梅尔谱 |
logMelFreqBand[0]-[7] | 梅尔频宽 |
lpcCoeff[0]-[7] | 线性预测系数 |
lspFreq[0]-[7] | 线性谱频率 |
pcm_zcr | 过零率 |
步骤B、对常规型LSTM模型进行分析,LSTM(Long Short-Term Memory)是长短期记忆网络,是RNN的一种变体,在一般的RNN中,当关联步长较大时,往往容易出现梯度消失,因为导数的链式法则导致了连乘使得梯度按指数级消失。LSTM引入细胞结构(Cell),通过自循环方式解决了这个问题,使得RNN能够关联过去的历史序列,具有了更强的长程依赖性,本实验引用了Gers所提出的窥视链接网络,其具体计算公式如下:
ft=σ(Wf·[ht-1,xt,Ct-1]+bf) (13)
it=σ(Wi·[ht-1,xt,Ct-1]+bi) (14)
ot=σ(Wo·[ht-1,xt,Ct]+bo) (16)
ht=ot*tanh(Ct) (17)
其中,σ为sigmoid激活函数,其取值范围在[0,1]之间,代表了遗忘历史细胞状态的概率;tanh为双曲正切激活函数。ht-1为t-1时刻的隐层输出,ft、it、ot分别为遗忘门,输入控制门和输出门,Wf和bf分别是遗忘门的权重和偏置,Wi和bi分别是输入控制门的权重和偏置,WC和bC分别是细胞状态的权重和偏置,Wo和bo分别是输出门的权重和偏置,它们是常规型LSTM模型的待训练参数,xt为t时刻的输入,Ct和Ct-1分别为t与t-1时刻的细胞状态,为t时刻的细胞状态候选值;由公式(4)可以看出,当初细胞状态Ct由历史细胞状态和当前候选细胞状态决定,ft与it则是它们对应的各自权重,表示了各自有多少的信息量被记忆了。
步骤C、在常规型LSTM模型基础上,通过注意力机制优化了LSTM内部的遗忘门的计算方式,提出了基于注意力机制的改进型LSTM模型,在保证性能的前提下,有效减少了矩阵计算量;由与sigmod函数的特征,ft与it取值在0到1之间,它们分别是历史细胞状态与候选细胞状态的加权分数,如公式(4)所示;本实验通过注意力机制来计算两者的加权分数,取缔了常规型LSTM模型中原始遗忘门与输入控制门;新的细胞状态更新公式如下:
其中sh和sc是依据历史细胞状态与当前候选细胞状态进行计算的,与当前输入和历史输出无关。
其中sh和sc分别是历史细胞状态和候选细胞状态的加权系数,它们是依据历史细胞状态与当前候选细胞状态进行计算的,与当前输入和历史输出无关,其中Wh与Wc均是注意力公式里的待学习权重参数;exp是以e为底的指数函数。
步骤D、将步骤C中公式(8)与(9)与公式(1)和(2)中的权重参数相比,注意力公式中的权重参数Wh与Wc具有更小的维度,因为它们只与单个细胞状态进行矩阵相乘,而不是组合矩阵[ht-1,xt,Ct-1]相乘;此外,从公式(8)与(9)还可以得出如下结论:
sh+sc=1 (10)
其中等式右边是一个元素全为1的矩阵,为了进一步减少计算复杂度,sc可由1-sh代替,即由减法计算替代了除法计算;最终的细胞状态更新公式如下:
因此最终得出结论,改进型LSTM模型的权重矩阵的维度远小于常规型LSTM模型中的权重矩阵,因而减少了计算复杂度。
步骤E、将已知的原始语音数据样本及其语音情感类别对如步骤A至D中所述的情感识别模型;训练情感识别模型,并对训练好的情感识别模型的识别性能进行评测;将未知的原始语音数据样本输入情感类别识别模型中,输出对应的语音情感类别。
为评价模型性能,本发明通过情感识别中常用的召回率(Recall)对比了传统缩放点注意力机制算法,总体评价指标为无加权平均召回率(Unweighted Average Recall,UAR)。
其中,TP是预测为正,实际为正的数量;TN是预测为负,实际为正的数量。
为验证本发明的有效性,在eNTERFACE和GEMEP两个情感数据库上进行了测试,。eNTERFACE是一种音视频情感数据库,由来自14个国家的43人用英语完成录制,包含了以下6中情感:生气,厌恶,害怕,高兴,伤心和惊讶.本文仅使用该数据库中的语音作情感识别研究,获得了1260条有效语音样本,其中260条作为测试集。GEMEP是法语数据库,本文使用了12种情感数据,共1080条样本,其中200条作为测试数据。而模型由2层LSTM构成,相关参数设置如表2所示。为对比计算复杂度,基于注意力机制的改进型LSTM模型(lstm-at)和常规型LSTM模型使用相同的参数。
表2模型参数
为验证注意力门在时间复杂度上的优越性,实验在训练相同的迭代次数下,对比了lstm-at模型与常规型LSTM模型所需要的时间代价。图1和图2分别给出了两个模型在eNTERFACE和GEMEP数据库上的收敛曲线,其中图(a)表明这两个模型具有相同的迭代步数。图(b)可以看出,基于注意力机制的改进型LSTM模型的算法在相同条件下所需要的训练时间要小于常规型LSTM模型,证明了所提算法减少了计算复杂度。因为注意力门中待训练的权重矩阵的维度要小于原始模型中的权重,且通过减法运算直接取缔了原始的输入控制门(如公式(11)所示),所以降低了计算复杂度。
为了更好的比较模型收敛后的性能,eNTERFACE和GEMEP分别取500步和2000步之后的测试结果作为分析对象,并将结果绘制成图3。其中矩形框的高度反应了收敛曲线的波动性,即收敛后模型的稳定性。框的高度越小模型的波动就越小,性能越稳定。而矩形框框内的水平线表示了稳定的识别率。两侧的虚线代表了模型所获得的极值。由此可见,基于注意力机制的改进型LSTM模型具有较小的矩形框,收敛后的模型更加稳定,在eNTERFACE上获得了75%的稳定识别率比传统LSTM高约8%,并能达到80%的最佳识别率。在GEMEP上,基于注意力机制的改进型LSTM模型算法比常规型LSTM模型提高了约4%,最佳可达50%的识别率。因而改进型LSTM模型比常规型LSTM模型具有更稳定的收敛性与更高的识别率。
相比于常规型LSTM模型,所提出的改进型LSTM模型通过注意力机制直接对历史细胞状态与候选细胞状态进行注意力加权分数的计算,其加权分数与历史输入以及当前输入无关,因而矩阵运算是在低维空间中完成的,具有较少的矩阵运算量。基于注意力机制的改进型LSTM模型合并了常规型LSTM模型的遗忘门与输入控制门的功能,通过加权系数间的对偶关系可进一步减少计算复杂度。而在性能方面,基于注意力机制的改进型LSTM模型具有更稳定的收敛性和更高的识别率。因为注意力机制中的注意力门是直接根据历史细胞状态与候选细胞状态进行加权分数的计算,而不是依赖当前输入与历史输出来间接计算两种细胞状态的权重系数。因而能够更有效评估历史细胞状态与候选细胞状态的相对信息量。所以基于注意力机制的改进型LSTM模型可以在保证性能的前提下,减少模型计算的复杂度。
Claims (6)
1.一种基于长短时记忆网络快速识别语音情感类别的方法,其特征在于,包括以下步骤:
S1、从原始语音数据样本中提取具有时序信息的帧级语音特征;
S2、通过软注意力模型创建基于注意力机制的改进型LSTM模型;
S3、用已知的原始语音数据样本及其语音情感类别对步骤S2中创建好的改进型LSTM模型进行训练,训练好后得到情感类别识别模型;
S4、对步骤S3得到的情感类别识别模型进行情感识别测试验证;
S5、将未知的原始语音数据样本输入情感类别识别模型进行识别,输出对应的语音情感类别。
2.根据权利要求1所述的一种基于长短时记忆网络快速识别语音情感类别的方法,其特征在于,步骤S2中通过软注意力模型创建基于注意力机制的改进型LSTM模型,包括以下步骤:
S21、用软注意力模型中的注意力门替代常规型LSTM模型中的遗忘门以得到新遗忘门;
S22、以步骤S21得到的新遗忘门与常规型LSTM模型中输入控制门的对偶关系,取代常规型LSTM模型中的输入控制门,得到注意力机制的改进型LSTM模型。
3.根据权利要求2所述的一种基于长短时记忆网络快速识别语音情感类别的方法,其特征在于,步骤S21中,用软注意力模型中的注意力门替代常规型LSTM模型中的遗忘门以得到新遗忘门,包括如下步骤:
S21.1、对常规型LSTM模型进行分析,利用LSTM引入细胞结构,通过自循环方式,使得常规型LSTM模型能够关联RNN过去的历史序列,其具体计算公式如下:
ft=σ(Wf·[ht-1,xt,Ct-1]+bf) (1)
it=σ(Wi·[ht-1,xt,Ct-1]+bi) (2)
ot=σ(Wo·[ht-1,xt,Ct]+bo) (5)
ht=ot*tanh(Ct) (6)
其中,σ为sigmoid激活函数,其取值范围在[0,1]之间,代表了遗忘历史细胞状态的概率;tanh为双曲正切激活函数;ht-1为t-1时刻的隐层输出,ft、it、ot分别为遗忘门,输入控制门和输出门,Wf和bf分别是遗忘门的权重和偏置,Wi和bi分别是输入控制门的权重和偏置,WC和bC分别是细胞状态的权重和偏置,Wo和bo分别是输出门的权重和偏置,它们是常规型LSTM模型的待训练参数,xt为t时刻的输入,Ct和Ct-1分别为t与t-1时刻的细胞状态,为t时刻的细胞状态候选值;
S21.2、通过注意力机制优化了常规型LSTM内部的遗忘门计算方式,ft与it取值在0到1之间,它们分别是历史细胞状态与候选细胞状态的加权分数,如公式(4)所示;
步骤S22中,以步骤S21得到的新遗忘门与常规型LSTM模型中输入控制门的对偶关系,取代常规型LSTM模型中的输入控制门,得到注意力机制的改进型LSTM模型,包括以下步骤:
S22.1、通过注意力机制来计算历史细胞状态与候选细胞状态的加权分数,替代常规型LSTM模型中的遗忘门与输入控制门,得到新的细胞状态,新的细胞状态更新公式如下:
其中sh和sc分别是历史细胞状态和候选细胞状态的加权系数,它们是依据历史细胞状态与当前候选细胞状态进行计算的,与当前输入和历史输出无关,其中Wh与Wc均是注意力公式里的待学习权重参数,exp是以e为底的指数函数。
6.根据权利要求1所述的一种基于长短时记忆网络快速识别语音情感类别的方法,其特征在于:步骤S1中,提取的语音特征通过语音帧之间的序列关系保留了原始语音数据样本中的时序信息,且语音特征的维度随原始语音数据样本的实际长度而变化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110485958.4A CN113053418A (zh) | 2021-04-30 | 2021-04-30 | 一种基于长短时记忆网络快速识别语音情感类别的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110485958.4A CN113053418A (zh) | 2021-04-30 | 2021-04-30 | 一种基于长短时记忆网络快速识别语音情感类别的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113053418A true CN113053418A (zh) | 2021-06-29 |
Family
ID=76518168
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110485958.4A Pending CN113053418A (zh) | 2021-04-30 | 2021-04-30 | 一种基于长短时记忆网络快速识别语音情感类别的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113053418A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113674767A (zh) * | 2021-10-09 | 2021-11-19 | 复旦大学 | 一种基于多模态融合的抑郁状态识别方法 |
-
2021
- 2021-04-30 CN CN202110485958.4A patent/CN113053418A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113674767A (zh) * | 2021-10-09 | 2021-11-19 | 复旦大学 | 一种基于多模态融合的抑郁状态识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109285562B (zh) | 基于注意力机制的语音情感识别方法 | |
Song | English speech recognition based on deep learning with multiple features | |
CN110491416B (zh) | 一种基于lstm和sae的电话语音情感分析与识别方法 | |
Kumar et al. | Gated mechanism for attention based multi modal sentiment analysis | |
CN108319666B (zh) | 一种基于多模态舆情分析的供电服务评估方法 | |
CN110400579B (zh) | 基于方向自注意力机制和双向长短时网络的语音情感识别 | |
CN110853680B (zh) | 一种具有多输入多融合策略的双BiLSTM的语音情感识别方法 | |
CN111402929B (zh) | 基于域不变的小样本语音情感识别方法 | |
Fernandez et al. | F0 contour prediction with a deep belief network-Gaussian process hybrid model | |
CN105845140A (zh) | 应用于短语音条件下的说话人确认方法和装置 | |
Yücesoy et al. | A new approach with score-level fusion for the classification of a speaker age and gender | |
CN113255366B (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
CN111899766B (zh) | 基于深度特征与声学特征寻优融合的语音情感识别方法 | |
CN114023300A (zh) | 一种基于扩散概率模型的中文语音合成方法 | |
Wallace et al. | Optimising figure of merit for phonetic spoken term detection | |
Becerra et al. | Training deep neural networks with non-uniform frame-level cost function for automatic speech recognition | |
CN116524960A (zh) | 一种基于混合熵下采样和集成分类器的语音情感识别系统 | |
CN106448660B (zh) | 一种引入大数据分析的自然语言模糊边界确定方法 | |
Zheng et al. | An improved speech emotion recognition algorithm based on deep belief network | |
CN113053418A (zh) | 一种基于长短时记忆网络快速识别语音情感类别的方法 | |
Elbarougy | Speech emotion recognition based on voiced emotion unit | |
CN111081273A (zh) | 一种基于声门波信号特征提取的语音情感识别方法 | |
Liu et al. | Learning salient features for speech emotion recognition using CNN | |
CN116050419B (zh) | 一种面向科学文献知识实体的无监督识别方法及系统 | |
CN116645980A (zh) | 一种聚焦样本特征间距的全生命周期语音情感识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |