CN109637522B - 一种基于语谱图提取深度空间注意特征的语音情感识别方法 - Google Patents
一种基于语谱图提取深度空间注意特征的语音情感识别方法 Download PDFInfo
- Publication number
- CN109637522B CN109637522B CN201811599907.9A CN201811599907A CN109637522B CN 109637522 B CN109637522 B CN 109637522B CN 201811599907 A CN201811599907 A CN 201811599907A CN 109637522 B CN109637522 B CN 109637522B
- Authority
- CN
- China
- Prior art keywords
- spectrogram
- emotion
- characteristic
- follows
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 25
- 230000008451 emotion Effects 0.000 claims abstract description 53
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 21
- 238000010586 diagram Methods 0.000 claims description 11
- 230000002996 emotional effect Effects 0.000 claims description 8
- 230000014509 gene expression Effects 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 206010022998 Irritability Diseases 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000007935 neutral effect Effects 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 claims description 2
- 238000013144 data compression Methods 0.000 claims description 2
- 238000009499 grossing Methods 0.000 claims description 2
- 230000002093 peripheral effect Effects 0.000 claims description 2
- 238000011176 pooling Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 13
- 230000008901 benefit Effects 0.000 abstract description 3
- 102100032202 Cornulin Human genes 0.000 abstract 1
- 101000920981 Homo sapiens Cornulin Proteins 0.000 abstract 1
- 230000006870 function Effects 0.000 description 12
- 238000012360 testing method Methods 0.000 description 12
- 238000002474 experimental method Methods 0.000 description 9
- 238000011160 research Methods 0.000 description 7
- 230000004913 activation Effects 0.000 description 5
- 230000035945 sensitivity Effects 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 206010063659 Aversion Diseases 0.000 description 1
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000037007 arousal Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000003334 potential effect Effects 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Acoustics & Sound (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于语谱图提取深度空间注意特征的语音情感识别方法,采用以下步骤完成:步骤a:对已标注指定情感标签的标准情感数据库中的语音进行预处理,生成语谱图;步骤b:将所述语谱图送入AItti模型提取SEF特征;步骤c:将所述语谱图送入语音情感模型提取浅层特征;步骤d:将所述SEF特征和所述浅层特征作为输入,送到CSWNet中,生成标定权重特征;步骤e:将所述标定权重特征送入CRNN之后的网络层,提取深度情感特征,通过Softmax分类器进行情感分类,生成最终分类结果。本发明所述方法相比于传统模型,在少量增加模型复杂度的前提下,平均识别率提升了8.43%,非同类情感区分效果明显,兼具良好的泛化性。
Description
技术领域
本发明属于人工智能情感识别领域,特别涉及一种基于语谱图提取深度空间注意特征的语音情绪识别方法。
背景技术
随着人工智能技术和机器人产业的迅速发展,人们不断对人工智能的交互化提出了更高的要求。然而,迄今大多数人工智能系统都不能识别人类的各种情感并做出相应的反应。目前,对于人机交互的研究主要集中在图像情感识别和语音情感识别(SpeechEmotion Recognition,SER)上,而图像情感识别主要针对的是人类面部表情识别,人类面部表情存在变化幅度小、种类多和速度快等问题,这导致技术上精准实现受限,同时图像情感识别对硬件要求较高很难被广泛应用或普及。而语音作为兼具语义和声音的一维时域信号,可以满足对情感识别的要求,同时硬件要求相对较小。
对于语音的情感识别需要克服提取情感信息面临的困难,主要包括:多样性(说话人的多样性,环境的多样性等)和情感特征等。对于多样性的问题,深度学习的迅速发展给SER带来了更大的突破,例如:卷积神经网络(Convolutional Neural Network,CNN),能够捕获具有全局感受域的分层模式作为强大的图像描述,同时由于其局部连接和权重共享的特点,使得其具有很好的平移不变性。将卷积神经网络的思想应用到语音情感识别的声学建模中,则可以克服语音信号本身的多样性;更深的研究发现随着层数的增加,可以建立从低层声学特征到高层抽样特征(情感、语义)的映射,继而获得数据的更有效信息。
在语音情感识别情感特征的研究上,许多学者做了很多尝试,比如传统特征的选取,选取指定的特征仿真识别效果;选取经过处理后的特征(如一阶差分等)仿真识别效果,但这些序列特征存在一定的局限性,即取这样的频域特征注重频率维度忽略了时间维度的影响,相反的选取时域特征的则会忽略频率维度的影响,同时使得时频域间隐藏的潜在性质(关联性等)被忽略。随后有学者尝试将语谱图和图像处理的网络相结合,即克服了传统特征的缺点,又做到了模型和输入的互补,一定程度上对语音的情感识别起到一定的推动作用,但如何选取合适的情感相关特征一直是研究的重点。
发明内容
针对目前现有技术中存在的上述缺陷,本发明提出一种基于语谱图提取深度空间注意特征的语音情绪识别方法,通过建立新模型提高语音情感识别效率,具有良好的泛化性。
为实现上述技术目的,本发明采用以下技术方案:
一种基于语谱图提取深度空间注意特征的语音情感识别方法,包括以下步骤:
步骤a:对已标注指定情感标签的标准情感数据库中的语音进行预处理,生成语谱图;
步骤b:将所述语谱图送入AItti(Attention Itti)模型提取情感相关特征(Strong Emotion Feature,SEF);
步骤c:将所述语谱图送入语音情感模型提取浅层特征。
步骤d:将所述SEF特征和所述浅层特征作为输入,送到约束型空间权重网络(Constrained Space Weight Networks,CSWNet)中,生成标定权重特征;
步骤e:将所述标定权重特征送入混合神经网络之后的网络层,提取深度情感特征,通过Softmax分类器进行情感分类,生成最终分类结果。
传统的Itti视觉模型为了弥补金字塔采样过程不停的使用邻近插值,造成边缘信息丢失,从而导致显著图的分辨率降低这一问题,本发明通过增加由LBP算法提取纹理特征来弥补这一缺陷。
同时,传统的Itti视觉模型中采用均值求和方法获得最终显著图,而研究表明,通过这种方法提取的显著区域会存在较多噪声,影响图像的清晰度和完整度,对最终情感识别有一定影响。据此,本发明提出情感敏感度权重方法来改进信息融合,以获得信息相对完整的显著图。对于情感信息的处理过程,通常先利用包含情感信息的局部帧,先获取主要音素位置;再获得相关帧附近的频率、频率间的相关梯度等特征,最后根据本文提出情感敏感度权重方法求显著图,即SEF特征。综上,基于两种改进方法最终形成AItti模型。
CSWNet是SENet的改进模型,选取SENet作为基础结构,主要考虑到其良好的空间关联性及语音情感识别的实际情况。CSWNet目的是从全局特征中甄选出与SEF特征相近的特征,解决这个特征约束问题可以通过闸值公式来实现。CSWNet一方面继承了SENet的空间“注意力”特性;另一方面在保留全局特征又不破坏特征空间关联性前提下,能够提高SEF特征比重,从而提高情感特征的利用率,达到更好的分类效果。
在整个情感识别系统中,将CSWNet模型置于两层卷积模块之后主要出于以下考虑:浅层网络提取的是低阶特征,比如:边、角、纹理、细节和边缘等特征,神经网络模型的浅层包含更多特征,也具备提取关键特征的能力。如此不断累积网络层数可以检测更加复杂的特征,即高层次特征,比如:抽象特征、语义特征等,相对而言,层数越深,提取的特征越具有代表性,鉴于CSWNet模型在AItti模型提取SEF特征的过程中选取的四种注意特征图属于初级特征类别,所以将其放在浅层网络之后,目的是为了更好的甄选出与其相近的特征。
优选地,步骤a中:
所述预处理生成语谱图的具体公式为:
x(n)为有序长语音时域信号,n为时序采样点信号,窗长为M,w(n)为汉宁窗,函数公式如下:
所述已标注指定情感标签,包括中性、恐惧、厌恶、高兴、烦躁、难过和愤怒。
优选地,步骤b具体包括以下步骤:
(1)获取特征图
第j层颜色特征图包括如下两组红绿和黄蓝通道,其中r,g,b分别表示图像的红色、绿色和蓝色通道,具体表达式如下:
第j层亮度通道特征图为r,g,b的均值,具体表达式如下:
第j层方向通道特征图为图像经过二维Gabor方向滤波器提取所得,具体表达式如下:
根据听觉敏感度和情感信息处理过程,本文提出听觉敏感权重调整方法来改进信息融合的方法,颜色对应着语音中的能量信息,高能量和共振峰特征恰恰是区分不同音素的关键特征,亮度和方向对应着频率和相邻频率间的相关梯度特征,结合视觉理论研究和人耳听觉敏感度,以获得信息相对完整的显著图,其中,wc、wi、wo和wt的比例为3:2:1:4。
步骤c中微调的混合神经网络(Fine-tuned Convolutional Neural Network,F_CRNN)的优化主要基于以下:
(1)数据处理
对语音进行语音增强,获取增强语音作为原始语料,其中语音增强方法采用经典的基于短时谱估计的算法,然后再对增强语音进行语谱图提取。模型采用有监督训练,有监督类算法对于非平稳噪声往往能得到更好的降噪效果。
(2)引入范数
为了提高模型的泛化能力,引入范数为正则化目标函数,范数可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择,通过惩罚项极大值能够降低模型的非线性,防止过拟合的产生。
(3)ReLU激活函数
本文选取的是ReLU激活函数,经过该函数后会形成“稀疏表征”的特征,解决神经网络稀疏性不足的问题。与其他激活函数相比,像Sigmoid激活函数会存在倒数缩减和饱和缩放问题,不断经过反向传播可能会产生梯度衰减,而ReLU求导后激活函数梯度为1,只有负值端饱和,有效减少了梯度下降问题。
(4)归一化层
归一化也可以理解为一个正则化项。研究证明将批量标准化应用到目前复杂的图像分类模型上,批标准化在取得相同的精度的情况下,有实验证明能够减少了14倍的训练步骤,并以显著的差距优于了原始模型。
优选地,步骤d具体包括以下子步骤:
(2)将特征维度降低到输入的1/16,经过ReLu函数激活,通过一个FC层升回到原来的维度,具体公式如下:
通过闸值公式选出与SEF特征相近的特征,获得最终标定权重特征,具体公式如下:
与现有技术相比本发明的优点在于:
(1)建立一种基于注意力机制的约束型空间权重结构,相比于传统模型,本模型在少量增加模型复杂度的前提下,平均识别率提升了8.43%。
(2)相比于传统特征提取方法和单一深度特征提取方法,本模型兼顾传统特征和深度特征;同时根据情感识别的实际情况,采用权重调节机制甄选情感强相关特征。实验结果显示非同类情感区分效果明显,兼具良好的泛化性。
附图说明
图1为应用场景示意图
图2为语音情感模型示意图
图3为AItti模型示意图
图4为CSWNet算法框架示意图
图5为实验1中ISENet_CRNN算法的混淆矩阵
具体实施方式
下面结合具体实施例,并结合附图对本发明实施例做详细说明。
在描述本发明的具体技术方案前,先对部分缩写及符号进行定义和系统模型介绍:实验的基本设置为,学习率I为0.001,输入批次B为400个epochs。对于网络的层数,在最优性能下确定,卷积部分以VGGNet为基础经过多次试验形成具体层设置,具体参见表1,F_CRNN网络结构,对于模型权重及偏置的初始化采用随机初始话,为了方便起见,以下的混合神经网络(CRNN)均为经过优化的网络。算法均采用有监督训练,数据的类别标签只在训练时使用,实验结果以识别率的形式呈现(识别率保留百分号前小数点后两位)。
表1
传统特征参数集采用Opensmile软件来提取,Opensmile作为一款提取情感特征的经典工具箱已广泛被学者认可。对于特征的选取主要参考了interspeech2010语音情感识别竞赛中使用的特征集标准,本实验的特征集包括:1582维特征,其中有38个底层描述及其一阶差分,这里采用差值算法将其扩展成固定尺寸输入到网络中。
参见图1,为本发明应用场景的示意图。将本发明运用到语音情感识别中主要步骤包括:
1)语音情感数据库中随机选取80%为训练集,剩下20%作为测试集;
2)参看图2,为本发明的语音情感模型示意图。将训练数据送入语音情感模型进行训练,直至模型收敛,保存训练好的模型参数;
3)获得训练好的语音情感模型;
4)将测试样本送入训练好的语音情感模型中进行测试数据分类;
5)输出测试结果。
考虑到训练数据处理和测试数据处理过程类似,以下以训练数据为例进行说明。算法均采用有监督训练,数据的类别标签只在训练时使用,实验结果以识别率的形式呈现(识别率保留百分号前小数点后两位)。
本发明所述基于语谱图提取深度空间注意特征的语音情感识别方法,包括以下几个步骤:
这里带标签的标准情感数据库为:自然情感数据库(FAU-AEC)和柏林德语数据库(EMO-DB),其中选取的自然情感数据库(FAU-AEC)的情感类别标签为:愤怒(敏锐、谴责)、强调、中性、高兴(母语、快乐)和其他,对于泛化实验中选取柏林情感分类,情感类别标签为:中性、恐惧、厌恶、高兴、烦躁、难过和愤怒。
步骤f:将步骤d中产生的标定权重特征送入语音情感模型之后的网络层提取出深度情感特征,通过Softmax分类器进行情感分类,生成最终分类结果。
为了进一步说明本发明,本发明设计了三组实验。
第一组实验模型分别是:基准模型(F_CRNN)、基于改进的SENet的混合模型(CSWNet_CRNN)和基于改进的Itti和改进的SENet的混合模型(ISENet_CRNN);选取的数据库为FAU-AEC,目的是证明本模型的有用性,即在基线模型的基础上本算法的改进对识别率的提升效果。参见表2,本发明实验1结果示意图,本发明平均识别率为73.83%,相比于基准算法提高了8.43%,相比于CSWNet_CRNN算法提升了2.43%。更近一步从混淆矩阵可以看出,本发明对唤醒度接近的情感区分度较高。参见图5,本发明ISENet_CRNN算法的混淆矩阵示意图。这里定义:愤怒(A)、强调(E)、中性(N)、高兴(P)和其他(R),对于混淆度较高的情感,其中愤怒和强调、其他和强调混效度较高,因为本数据库采用的是自然情感数据库,强调发音特性与愤怒和其他较相似,导致模型误判率升高,可以看出总体上本模型对于情感特征区分性较明显。
表2
第二组实验模型分别为:基线模型F_CRNNI模型,输入为传统特征;基线模型F_CRNNII,输入为语谱图;ISENet_CRNN模型,输入为语谱图;选取的数据库为FAU-AEC,目的是证明本模型在少量增加模型复杂度的前提下,能够提取出更具有区分力的特征从而提高了整体识别率。参见表3,本发明实验2结果示意图,本发明识别率优于语谱图加基准模型10.81%,优于传统特征加基准模型20.68。参见表4,时间复杂度ISENet_CRNN>F_CRNNII>F_CRNNI,其中F_CRNNII算法训练和测试的平均时间与F_CRNNI算法相比增加了约0.5毫秒;ISENet_CRNN算法相比F_CRNNII算法训练平均时间增加了3.1092毫秒,测试平均时间增加了0.7954毫秒,该部分时间复杂度主要由于ISENet_CRNN算法中的空间权重结构,理论上该结构出入通道参数量不变,模型精度损失为0,额外计算量(<1%),但本次试验训练时间增长16.9263%,测试时间增长4.9795%,GPU平均时间增长小于17%,一方面由于结构本身增加的复杂度,另一方面可能由于实验采用GPU(GTX750TI)质量较差,影响了实验结果。
表3
表4
第三组实验模型为ISENet_CRNN算法,更换数据集为EMO-DB,目的是验证本发明的泛化效果。参见表5,本发明实验4结果示意图,在EMO-DB数据集下平均识别率为79.97%,相较于FAU-AEC数据集提升了6.14%,这一方面得益于本模型良好的泛化效果,两一方面得益于EMO-DB中包含的语音由专业演员所录制,相较于自然情感数据库可能存在情感放大效果,所以对识别效果具有良性影响。
表5
以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (4)
1.一种基于语谱图提取深度空间注意特征的语音情感识别方法,其特征在于:包括以下步骤:
步骤a:对已标注指定情感标签的标准情感数据库中的语音进行预处理,生成语谱图;
步骤b:将所述语谱图送入Attention Itti模型提取SEF,SEF为情感相关特征;
步骤d:将所述SEF特征和所述浅层特征作为输入,送到CSWNet中,生成标定权重特征;CSWNet为约束型空间权重网络;
步骤e:将所述标定权重特征送入微调的混合神经网络后面的网络层,提取深度情感特征,通过Softmax分类器进行情感分类,生成最终分类结果。
3.根据权利要求2所述的方法,其特征在于,步骤b具体包括以下步骤:
(1)获取特征图
第j层颜色特征图包括如下两组红绿和黄蓝通道,其中r,g,b分别表示图像的红色、绿色和蓝色通道,具体表达式如下:
第j层亮度通道特征图为r,g,b的均值,具体表达式如下:
第j层方向通道特征图为图像经过二维Gabor方向滤波器提取所得,具体表达式如下:
其中,wc、wi、wo和wt的比例为3:2:1:4。
4.根据权利要求3所述的方法,其特征在于,步骤d具体包括以下子步骤:
(2)将特征维度降低到输入的1/16,经过ReLu函数激活,通过一个FC层升回到原来的维度,具体公式如下:
通过闸值公式选出与SEF特征相近的特征,获得最终标定权重特征,具体公式如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811599907.9A CN109637522B (zh) | 2018-12-26 | 2018-12-26 | 一种基于语谱图提取深度空间注意特征的语音情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811599907.9A CN109637522B (zh) | 2018-12-26 | 2018-12-26 | 一种基于语谱图提取深度空间注意特征的语音情感识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109637522A CN109637522A (zh) | 2019-04-16 |
CN109637522B true CN109637522B (zh) | 2022-12-09 |
Family
ID=66077780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811599907.9A Active CN109637522B (zh) | 2018-12-26 | 2018-12-26 | 一种基于语谱图提取深度空间注意特征的语音情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109637522B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110223714B (zh) * | 2019-06-03 | 2021-08-03 | 杭州哲信信息技术有限公司 | 一种基于语音的情绪识别方法 |
CN111402927A (zh) * | 2019-08-23 | 2020-07-10 | 南京邮电大学 | 基于分段语谱图和双重Attention的语音情感识别方法 |
CN110534133B (zh) * | 2019-08-28 | 2022-03-25 | 珠海亿智电子科技有限公司 | 一种语音情感识别系统及语音情感识别方法 |
CN110544249A (zh) * | 2019-09-06 | 2019-12-06 | 华南理工大学 | 一种面向任意角度机箱装配视觉检测的卷积神经网络质量鉴别方法 |
CN110782878B (zh) * | 2019-10-10 | 2022-04-05 | 天津大学 | 一种基于注意力机制的多尺度音频场景识别方法 |
CN110809090A (zh) * | 2019-10-31 | 2020-02-18 | Oppo广东移动通信有限公司 | 通话控制方法及相关产品 |
CN111048071B (zh) * | 2019-11-11 | 2023-05-30 | 京东科技信息技术有限公司 | 语音数据处理方法、装置、计算机设备和存储介质 |
CN111081273A (zh) * | 2019-12-31 | 2020-04-28 | 湖南景程电子科技有限公司 | 一种基于声门波信号特征提取的语音情感识别方法 |
CN111312292A (zh) * | 2020-02-18 | 2020-06-19 | 北京三快在线科技有限公司 | 基于语音的情绪识别方法、装置、电子设备及存储介质 |
CN111429948B (zh) * | 2020-03-27 | 2023-04-28 | 南京工业大学 | 一种基于注意力卷积神经网络的语音情绪识别模型及方法 |
CN111696579B (zh) * | 2020-06-17 | 2022-10-28 | 厦门快商通科技股份有限公司 | 一种语音情感识别方法、装置、设备和计算机存储介质 |
CN113408539B (zh) * | 2020-11-26 | 2024-08-23 | 腾讯科技(深圳)有限公司 | 数据识别方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106847309A (zh) * | 2017-01-09 | 2017-06-13 | 华南理工大学 | 一种语音情感识别方法 |
CN108899049A (zh) * | 2018-05-31 | 2018-11-27 | 中国地质大学(武汉) | 一种基于卷积神经网络的语音情感识别方法及系统 |
CN109036465A (zh) * | 2018-06-28 | 2018-12-18 | 南京邮电大学 | 语音情感识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101014321B1 (ko) * | 2009-02-24 | 2011-02-14 | 한국전자통신연구원 | 최소 분류 오차 기법을 이용한 감정 인식 방법 |
US9020822B2 (en) * | 2012-10-19 | 2015-04-28 | Sony Computer Entertainment Inc. | Emotion recognition using auditory attention cues extracted from users voice |
-
2018
- 2018-12-26 CN CN201811599907.9A patent/CN109637522B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106847309A (zh) * | 2017-01-09 | 2017-06-13 | 华南理工大学 | 一种语音情感识别方法 |
CN108899049A (zh) * | 2018-05-31 | 2018-11-27 | 中国地质大学(武汉) | 一种基于卷积神经网络的语音情感识别方法及系统 |
CN109036465A (zh) * | 2018-06-28 | 2018-12-18 | 南京邮电大学 | 语音情感识别方法 |
Non-Patent Citations (5)
Title |
---|
Quantitative analysis of human-model agreement in visual saliency modeling:a comparative study;Borji A,Sihite D N,Itti L.;《IEEE Transactions on Image Processing》;20131231;全文 * |
Speech emotion recognition using deep neural network and extreme learning machine;Han K,Yu D,Tashev I.;《Interspeech》;20141231;全文 * |
听觉注意模型的语谱图语音情感识别方法;张昕然等;《信号处理》;20160925(第09期);全文 * |
用于跨库语音情感识别的DBN特征融合方法;张昕然等;《信号处理》;20170525(第05期);全文 * |
面向语音情感识别的语谱特征提取算法研究;唐闺臣等;《计算机工程与应用》;20161231(第21期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109637522A (zh) | 2019-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109637522B (zh) | 一种基于语谱图提取深度空间注意特征的语音情感识别方法 | |
Chen et al. | Environmental sound classification with dilated convolutions | |
CN108717856B (zh) | 一种基于多尺度深度卷积循环神经网络的语音情感识别方法 | |
CN112216271B (zh) | 一种基于卷积块注意机制的视听双模态语音识别方法 | |
Wu et al. | Audio classification using attention-augmented convolutional neural network | |
CN106847309A (zh) | 一种语音情感识别方法 | |
CN109036465A (zh) | 语音情感识别方法 | |
Wei et al. | A novel speech emotion recognition algorithm based on wavelet kernel sparse classifier in stacked deep auto-encoder model | |
CN115393933A (zh) | 一种基于帧注意力机制的视频人脸情绪识别方法 | |
Chauhan et al. | Speech emotion recognition using convolution neural networks | |
CN109767789A (zh) | 一种用于语音情感识别的新特征提取方法 | |
Tang et al. | Improved convolutional neural networks for acoustic event classification | |
CN112331232B (zh) | 一种结合cgan谱图去噪和双边滤波谱图增强的语音情感识别方法 | |
CN110599502A (zh) | 一种基于深度学习的皮肤病变分割方法 | |
CN111462762B (zh) | 一种说话人向量正则化方法、装置、电子设备和存储介质 | |
CN112562725A (zh) | 基于语谱图和胶囊网络的混合语音情感分类方法 | |
Zhiyan et al. | Speech emotion recognition based on deep learning and kernel nonlinear PSVM | |
Kuang et al. | Simplified inverse filter tracked affective acoustic signals classification incorporating deep convolutional neural networks | |
Atkar et al. | Speech emotion recognition using dialogue emotion decoder and CNN Classifier | |
Cetin | Accent recognition using a spectrogram image feature-based convolutional neural network | |
Mavaddati | Voice-based age, gender, and language recognition based on ResNet deep model and transfer learning in spectro-temporal domain | |
CN117115312B (zh) | 一种语音驱动面部动画方法、装置、设备及介质 | |
CN117711442A (zh) | 一种基于cnn-gru融合模型的婴儿哭声分类方法 | |
Li et al. | Emotion recognition from speech with StarGAN and Dense‐DCNN | |
Adiban et al. | Statistical feature embedding for heart sound classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |