CN109637522B - 一种基于语谱图提取深度空间注意特征的语音情感识别方法 - Google Patents

一种基于语谱图提取深度空间注意特征的语音情感识别方法 Download PDF

Info

Publication number
CN109637522B
CN109637522B CN201811599907.9A CN201811599907A CN109637522B CN 109637522 B CN109637522 B CN 109637522B CN 201811599907 A CN201811599907 A CN 201811599907A CN 109637522 B CN109637522 B CN 109637522B
Authority
CN
China
Prior art keywords
spectrogram
emotion
characteristic
follows
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811599907.9A
Other languages
English (en)
Other versions
CN109637522A (zh
Inventor
王金华
应娜
朱辰都
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201811599907.9A priority Critical patent/CN109637522B/zh
Publication of CN109637522A publication Critical patent/CN109637522A/zh
Application granted granted Critical
Publication of CN109637522B publication Critical patent/CN109637522B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Acoustics & Sound (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于语谱图提取深度空间注意特征的语音情感识别方法,采用以下步骤完成:步骤a:对已标注指定情感标签的标准情感数据库中的语音进行预处理,生成语谱图;步骤b:将所述语谱图送入AItti模型提取SEF特征;步骤c:将所述语谱图送入语音情感模型提取浅层特征;步骤d:将所述SEF特征和所述浅层特征作为输入,送到CSWNet中,生成标定权重特征;步骤e:将所述标定权重特征送入CRNN之后的网络层,提取深度情感特征,通过Softmax分类器进行情感分类,生成最终分类结果。本发明所述方法相比于传统模型,在少量增加模型复杂度的前提下,平均识别率提升了8.43%,非同类情感区分效果明显,兼具良好的泛化性。

Description

一种基于语谱图提取深度空间注意特征的语音情感识别方法
技术领域
本发明属于人工智能情感识别领域,特别涉及一种基于语谱图提取深度空间注意特征的语音情绪识别方法。
背景技术
随着人工智能技术和机器人产业的迅速发展,人们不断对人工智能的交互化提出了更高的要求。然而,迄今大多数人工智能系统都不能识别人类的各种情感并做出相应的反应。目前,对于人机交互的研究主要集中在图像情感识别和语音情感识别(SpeechEmotion Recognition,SER)上,而图像情感识别主要针对的是人类面部表情识别,人类面部表情存在变化幅度小、种类多和速度快等问题,这导致技术上精准实现受限,同时图像情感识别对硬件要求较高很难被广泛应用或普及。而语音作为兼具语义和声音的一维时域信号,可以满足对情感识别的要求,同时硬件要求相对较小。
对于语音的情感识别需要克服提取情感信息面临的困难,主要包括:多样性(说话人的多样性,环境的多样性等)和情感特征等。对于多样性的问题,深度学习的迅速发展给SER带来了更大的突破,例如:卷积神经网络(Convolutional Neural Network,CNN),能够捕获具有全局感受域的分层模式作为强大的图像描述,同时由于其局部连接和权重共享的特点,使得其具有很好的平移不变性。将卷积神经网络的思想应用到语音情感识别的声学建模中,则可以克服语音信号本身的多样性;更深的研究发现随着层数的增加,可以建立从低层声学特征到高层抽样特征(情感、语义)的映射,继而获得数据的更有效信息。
在语音情感识别情感特征的研究上,许多学者做了很多尝试,比如传统特征的选取,选取指定的特征仿真识别效果;选取经过处理后的特征(如一阶差分等)仿真识别效果,但这些序列特征存在一定的局限性,即取这样的频域特征注重频率维度忽略了时间维度的影响,相反的选取时域特征的则会忽略频率维度的影响,同时使得时频域间隐藏的潜在性质(关联性等)被忽略。随后有学者尝试将语谱图和图像处理的网络相结合,即克服了传统特征的缺点,又做到了模型和输入的互补,一定程度上对语音的情感识别起到一定的推动作用,但如何选取合适的情感相关特征一直是研究的重点。
发明内容
针对目前现有技术中存在的上述缺陷,本发明提出一种基于语谱图提取深度空间注意特征的语音情绪识别方法,通过建立新模型提高语音情感识别效率,具有良好的泛化性。
为实现上述技术目的,本发明采用以下技术方案:
一种基于语谱图提取深度空间注意特征的语音情感识别方法,包括以下步骤:
步骤a:对已标注指定情感标签的标准情感数据库中的语音进行预处理,生成语谱图;
步骤b:将所述语谱图送入AItti(Attention Itti)模型提取情感相关特征(Strong Emotion Feature,SEF);
步骤c:将所述语谱图送入语音情感模型提取浅层特征。
步骤d:将所述SEF特征和所述浅层特征作为输入,送到约束型空间权重网络(Constrained Space Weight Networks,CSWNet)中,生成标定权重特征;
步骤e:将所述标定权重特征送入混合神经网络之后的网络层,提取深度情感特征,通过Softmax分类器进行情感分类,生成最终分类结果。
传统的Itti视觉模型为了弥补金字塔采样过程不停的使用邻近插值,造成边缘信息丢失,从而导致显著图的分辨率降低这一问题,本发明通过增加由LBP算法提取纹理特征来弥补这一缺陷。
同时,传统的Itti视觉模型中采用均值求和方法获得最终显著图,而研究表明,通过这种方法提取的显著区域会存在较多噪声,影响图像的清晰度和完整度,对最终情感识别有一定影响。据此,本发明提出情感敏感度权重方法来改进信息融合,以获得信息相对完整的显著图。对于情感信息的处理过程,通常先利用包含情感信息的局部帧,先获取主要音素位置;再获得相关帧附近的频率、频率间的相关梯度等特征,最后根据本文提出情感敏感度权重方法求显著图,即SEF特征。综上,基于两种改进方法最终形成AItti模型。
CSWNet是SENet的改进模型,选取SENet作为基础结构,主要考虑到其良好的空间关联性及语音情感识别的实际情况。CSWNet目的是从全局特征中甄选出与SEF特征相近的特征,解决这个特征约束问题可以通过闸值公式来实现。CSWNet一方面继承了SENet的空间“注意力”特性;另一方面在保留全局特征又不破坏特征空间关联性前提下,能够提高SEF特征比重,从而提高情感特征的利用率,达到更好的分类效果。
在整个情感识别系统中,将CSWNet模型置于两层卷积模块之后主要出于以下考虑:浅层网络提取的是低阶特征,比如:边、角、纹理、细节和边缘等特征,神经网络模型的浅层包含更多特征,也具备提取关键特征的能力。如此不断累积网络层数可以检测更加复杂的特征,即高层次特征,比如:抽象特征、语义特征等,相对而言,层数越深,提取的特征越具有代表性,鉴于CSWNet模型在AItti模型提取SEF特征的过程中选取的四种注意特征图属于初级特征类别,所以将其放在浅层网络之后,目的是为了更好的甄选出与其相近的特征。
优选地,步骤a中:
所述预处理生成语谱图的具体公式为:
Figure BDA0001922207170000031
x(n)为有序长语音时域信号,n为时序采样点信号,窗长为M,w(n)为汉宁窗,函数公式如下:
Figure BDA0001922207170000032
所述已标注指定情感标签,包括中性、恐惧、厌恶、高兴、烦躁、难过和愤怒。
优选地,步骤b具体包括以下步骤:
设训练语音
Figure BDA0001922207170000033
其中,
Figure BDA0001922207170000034
为第i条训练语音,train表示为训练数据;
先将语音转化成语谱图
Figure BDA0001922207170000035
再经高斯滤波后输出图
Figure BDA0001922207170000036
(1)获取特征图
对于输入的语谱图
Figure BDA0001922207170000037
第j层图像计算公式为:
Figure BDA0001922207170000038
其中w(m,n)为下采样高斯核函数,采用
Figure BDA0001922207170000039
的平滑滤波器,经过8次高斯滤波下采,形成9层高斯金字塔结构;
第j层颜色特征图包括如下两组红绿和黄蓝通道,其中r,g,b分别表示图像的红色、绿色和蓝色通道,具体表达式如下:
Figure BDA00019222071700000310
Figure BDA0001922207170000041
第j层亮度通道特征图为r,g,b的均值,具体表达式如下:
Figure BDA0001922207170000042
第j层纹理通道特征图处理过程为,将语谱图
Figure BDA0001922207170000043
灰度化,经过局部二值算法得到
Figure BDA0001922207170000044
再经梯度采样获得纹理通道特征,具体表达式如下:
Figure BDA0001922207170000045
其中
Figure BDA0001922207170000046
(xc,yc)代表3×3邻域的中心元素,像素为ic,邻域像素值为ip,s(x)是符号函数,定义如下:
Figure BDA0001922207170000047
第j层方向通道特征图为图像经过二维Gabor方向滤波器提取所得,具体表达式如下:
Figure BDA0001922207170000049
(2)经中央周边差和归一化运算得到颜色、亮度、方向和纹理的显著图,分别表示为
Figure BDA00019222071700000410
Figure BDA00019222071700000411
根据听觉敏感度和情感信息处理过程,本文提出听觉敏感权重调整方法来改进信息融合的方法,颜色对应着语音中的能量信息,高能量和共振峰特征恰恰是区分不同音素的关键特征,亮度和方向对应着频率和相邻频率间的相关梯度特征,结合视觉理论研究和人耳听觉敏感度,以获得信息相对完整的显著图,其中,wc、wi、wo和wt的比例为3:2:1:4。
优选地,步骤c具体为:将语谱图数据
Figure BDA00019222071700000412
放入微调的混合神经网络的前两层,提取出浅层特征图
Figure BDA00019222071700000413
记为待标定特征,其中第i个待标定权重的特征图为
Figure BDA00019222071700000414
步骤c中微调的混合神经网络(Fine-tuned Convolutional Neural Network,F_CRNN)的优化主要基于以下:
(1)数据处理
对语音进行语音增强,获取增强语音作为原始语料,其中语音增强方法采用经典的基于短时谱估计的算法,然后再对增强语音进行语谱图提取。模型采用有监督训练,有监督类算法对于非平稳噪声往往能得到更好的降噪效果。
(2)引入范数
为了提高模型的泛化能力,引入范数为正则化目标函数,范数可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择,通过惩罚项极大值能够降低模型的非线性,防止过拟合的产生。
(3)ReLU激活函数
本文选取的是ReLU激活函数,经过该函数后会形成“稀疏表征”的特征,解决神经网络稀疏性不足的问题。与其他激活函数相比,像Sigmoid激活函数会存在倒数缩减和饱和缩放问题,不断经过反向传播可能会产生梯度衰减,而ReLU求导后激活函数梯度为1,只有负值端饱和,有效减少了梯度下降问题。
(4)归一化层
归一化也可以理解为一个正则化项。研究证明将批量标准化应用到目前复杂的图像分类模型上,批标准化在取得相同的精度的情况下,有实验证明能够减少了14倍的训练步骤,并以显著的差距优于了原始模型。
优选地,步骤d具体包括以下子步骤:
(1)将步骤c中获得的待标定特征
Figure BDA0001922207170000051
和步骤b中获得的目标情感特征
Figure BDA0001922207170000052
分别经过全局池化进行数据压缩得到对应的特征数据,分别记为
Figure BDA0001922207170000053
Figure BDA0001922207170000054
具体公式如下:
Figure BDA0001922207170000055
Figure BDA0001922207170000056
(2)将特征维度降低到输入的1/16,经过ReLu函数激活,通过一个FC层升回到原来的维度,具体公式如下:
Figure BDA0001922207170000057
Figure BDA0001922207170000058
其中δ是指ReLU函数,
Figure BDA0001922207170000059
Figure BDA00019222071700000510
降维的比例系数为γ;
通过闸值公式选出与SEF特征相近的特征,获得最终标定权重特征,具体公式如下:
Figure BDA00019222071700000511
如果
Figure BDA00019222071700000512
Figure BDA00019222071700000513
以α为邻域的半径内,取
Figure BDA00019222071700000514
的最大值,即提高与SEF特征具有强相关性特征的权重;如果
Figure BDA00019222071700000515
Figure BDA00019222071700000516
以α为邻域的半径外,
Figure BDA00019222071700000517
值不变,即相对抑制与SEF特征相关性小的特征权重;
(3)将待标定权重矩阵
Figure BDA00019222071700000518
与全局特征送入加权操作,获取标定权重特征
Figure BDA0001922207170000061
与现有技术相比本发明的优点在于:
(1)建立一种基于注意力机制的约束型空间权重结构,相比于传统模型,本模型在少量增加模型复杂度的前提下,平均识别率提升了8.43%。
(2)相比于传统特征提取方法和单一深度特征提取方法,本模型兼顾传统特征和深度特征;同时根据情感识别的实际情况,采用权重调节机制甄选情感强相关特征。实验结果显示非同类情感区分效果明显,兼具良好的泛化性。
附图说明
图1为应用场景示意图
图2为语音情感模型示意图
图3为AItti模型示意图
图4为CSWNet算法框架示意图
图5为实验1中ISENet_CRNN算法的混淆矩阵
具体实施方式
下面结合具体实施例,并结合附图对本发明实施例做详细说明。
在描述本发明的具体技术方案前,先对部分缩写及符号进行定义和系统模型介绍:实验的基本设置为,学习率I为0.001,输入批次B为400个epochs。对于网络的层数,在最优性能下确定,卷积部分以VGGNet为基础经过多次试验形成具体层设置,具体参见表1,F_CRNN网络结构,对于模型权重及偏置的初始化采用随机初始话,为了方便起见,以下的混合神经网络(CRNN)均为经过优化的网络。算法均采用有监督训练,数据的类别标签只在训练时使用,实验结果以识别率的形式呈现(识别率保留百分号前小数点后两位)。
表1
Figure BDA0001922207170000062
Figure BDA0001922207170000071
传统特征参数集采用Opensmile软件来提取,Opensmile作为一款提取情感特征的经典工具箱已广泛被学者认可。对于特征的选取主要参考了interspeech2010语音情感识别竞赛中使用的特征集标准,本实验的特征集包括:1582维特征,其中有38个底层描述及其一阶差分,这里采用差值算法将其扩展成固定尺寸输入到网络中。
参见图1,为本发明应用场景的示意图。将本发明运用到语音情感识别中主要步骤包括:
1)语音情感数据库中随机选取80%为训练集,剩下20%作为测试集;
2)参看图2,为本发明的语音情感模型示意图。将训练数据送入语音情感模型进行训练,直至模型收敛,保存训练好的模型参数;
3)获得训练好的语音情感模型;
4)将测试样本送入训练好的语音情感模型中进行测试数据分类;
5)输出测试结果。
考虑到训练数据处理和测试数据处理过程类似,以下以训练数据为例进行说明。算法均采用有监督训练,数据的类别标签只在训练时使用,实验结果以识别率的形式呈现(识别率保留百分号前小数点后两位)。
本发明所述基于语谱图提取深度空间注意特征的语音情感识别方法,包括以下几个步骤:
步骤a:对已标注情感标签的标准情感数据库中的语音数据
Figure BDA0001922207170000072
进行预处理生成语谱图
Figure BDA0001922207170000073
这里train均表示训练数据,以第i个数据为例。
这里带标签的标准情感数据库为:自然情感数据库(FAU-AEC)和柏林德语数据库(EMO-DB),其中选取的自然情感数据库(FAU-AEC)的情感类别标签为:愤怒(敏锐、谴责)、强调、中性、高兴(母语、快乐)和其他,对于泛化实验中选取柏林情感分类,情感类别标签为:中性、恐惧、厌恶、高兴、烦躁、难过和愤怒。
步骤b:参见图3,本发明AItti模型示意图。将步骤a中生成的语谱图
Figure BDA0001922207170000081
送入改进的Itti模型提取SEF特征
Figure BDA0001922207170000082
步骤c:参见图4,本发明CSWNet算法框架示意图。将步骤a生成的语谱图送入语音情感模型提取浅层特征
Figure BDA0001922207170000083
步骤d:步骤b中生成的SEF特征和步骤c中生成的浅层特征作为输入,送到CSWNet结构中,生成标定权重特征
Figure BDA0001922207170000084
步骤f:将步骤d中产生的标定权重特征送入语音情感模型之后的网络层提取出深度情感特征,通过Softmax分类器进行情感分类,生成最终分类结果。
为了进一步说明本发明,本发明设计了三组实验。
第一组实验模型分别是:基准模型(F_CRNN)、基于改进的SENet的混合模型(CSWNet_CRNN)和基于改进的Itti和改进的SENet的混合模型(ISENet_CRNN);选取的数据库为FAU-AEC,目的是证明本模型的有用性,即在基线模型的基础上本算法的改进对识别率的提升效果。参见表2,本发明实验1结果示意图,本发明平均识别率为73.83%,相比于基准算法提高了8.43%,相比于CSWNet_CRNN算法提升了2.43%。更近一步从混淆矩阵可以看出,本发明对唤醒度接近的情感区分度较高。参见图5,本发明ISENet_CRNN算法的混淆矩阵示意图。这里定义:愤怒(A)、强调(E)、中性(N)、高兴(P)和其他(R),对于混淆度较高的情感,其中愤怒和强调、其他和强调混效度较高,因为本数据库采用的是自然情感数据库,强调发音特性与愤怒和其他较相似,导致模型误判率升高,可以看出总体上本模型对于情感特征区分性较明显。
表2
Figure BDA0001922207170000085
第二组实验模型分别为:基线模型F_CRNNI模型,输入为传统特征;基线模型F_CRNNII,输入为语谱图;ISENet_CRNN模型,输入为语谱图;选取的数据库为FAU-AEC,目的是证明本模型在少量增加模型复杂度的前提下,能够提取出更具有区分力的特征从而提高了整体识别率。参见表3,本发明实验2结果示意图,本发明识别率优于语谱图加基准模型10.81%,优于传统特征加基准模型20.68。参见表4,时间复杂度ISENet_CRNN>F_CRNNII>F_CRNNI,其中F_CRNNII算法训练和测试的平均时间与F_CRNNI算法相比增加了约0.5毫秒;ISENet_CRNN算法相比F_CRNNII算法训练平均时间增加了3.1092毫秒,测试平均时间增加了0.7954毫秒,该部分时间复杂度主要由于ISENet_CRNN算法中的空间权重结构,理论上该结构出入通道参数量不变,模型精度损失为0,额外计算量(<1%),但本次试验训练时间增长16.9263%,测试时间增长4.9795%,GPU平均时间增长小于17%,一方面由于结构本身增加的复杂度,另一方面可能由于实验采用GPU(GTX750TI)质量较差,影响了实验结果。
表3
Figure BDA0001922207170000091
表4
Figure BDA0001922207170000092
第三组实验模型为ISENet_CRNN算法,更换数据集为EMO-DB,目的是验证本发明的泛化效果。参见表5,本发明实验4结果示意图,在EMO-DB数据集下平均识别率为79.97%,相较于FAU-AEC数据集提升了6.14%,这一方面得益于本模型良好的泛化效果,两一方面得益于EMO-DB中包含的语音由专业演员所录制,相较于自然情感数据库可能存在情感放大效果,所以对识别效果具有良性影响。
表5
Figure BDA0001922207170000093
Figure BDA0001922207170000101
以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (4)

1.一种基于语谱图提取深度空间注意特征的语音情感识别方法,其特征在于:包括以下步骤:
步骤a:对已标注指定情感标签的标准情感数据库中的语音进行预处理,生成语谱图;
步骤b:将所述语谱图送入Attention Itti模型提取SEF,SEF为情感相关特征;
步骤c:将语谱图数据
Figure FDA0003797230580000011
放入微调的混合神经网络的前两层,提取出浅层特征图
Figure FDA0003797230580000012
记为待标定特征,其中第i个待标定权重的特征图为
Figure FDA0003797230580000013
步骤d:将所述SEF特征和所述浅层特征作为输入,送到CSWNet中,生成标定权重特征;CSWNet为约束型空间权重网络;
步骤e:将所述标定权重特征送入微调的混合神经网络后面的网络层,提取深度情感特征,通过Softmax分类器进行情感分类,生成最终分类结果。
2.根据权利要求1所述的方法,其特征在于,步骤a中,预处理生成语谱图的具体公式为:
Figure FDA0003797230580000014
x(n)为有序长语音时域信号,n为时序采样点信号,窗长为M,w(n)为汉宁窗,函数公式如下:
Figure FDA0003797230580000015
已标注指定情感标签包括中性、恐惧、厌恶、高兴、烦躁、难过和愤怒。
3.根据权利要求2所述的方法,其特征在于,步骤b具体包括以下步骤:
设训练语音
Figure FDA0003797230580000016
其中,
Figure FDA0003797230580000017
为第i条训练语音,train表示为训练数据;
先将语音转化成语谱图
Figure FDA0003797230580000018
再经高斯滤波后输出图
Figure FDA0003797230580000019
(1)获取特征图
对于输入的语谱图
Figure FDA00037972305800000110
第j层图像计算公式为:
Figure FDA00037972305800000111
其中w(m,n)为下采样高斯核函数,采用
Figure FDA00037972305800000112
的平滑滤波器,经过8次高斯滤波下采,形成9层高斯金字塔结构;
第j层颜色特征图包括如下两组红绿和黄蓝通道,其中r,g,b分别表示图像的红色、绿色和蓝色通道,具体表达式如下:
Figure FDA00037972305800000113
Figure FDA0003797230580000021
第j层亮度通道特征图为r,g,b的均值,具体表达式如下:
Figure FDA0003797230580000022
第j层纹理通道特征图处理过程为,将语谱图
Figure FDA0003797230580000023
灰度化,经过局部二值算法得到
Figure FDA0003797230580000024
再经梯度采样获得纹理通道特征,具体表达式如下:
Figure FDA0003797230580000025
其中
Figure FDA0003797230580000026
(xc,yc)代表3×3邻域的中心元素,像素为ic,邻域像素值为ip,s(x)是符号函数,定义如下:
Figure FDA0003797230580000027
第j层方向通道特征图为图像经过二维Gabor方向滤波器提取所得,具体表达式如下:
Figure FDA0003797230580000028
(2)经中央周边差和归一化运算得到颜色、亮度、方向和纹理的显著图,分别表示为
Figure FDA0003797230580000029
Figure FDA00037972305800000210
其中,wc、wi、wo和wt的比例为3:2:1:4。
4.根据权利要求3所述的方法,其特征在于,步骤d具体包括以下子步骤:
(1)将步骤c中获得的待标定特征
Figure FDA00037972305800000211
和步骤b中获得的目标情感特征
Figure FDA00037972305800000212
分别经过全局池化进行数据压缩得到对应的特征数据,分别记为
Figure FDA00037972305800000213
Figure FDA00037972305800000214
具体公式如下:
Figure FDA00037972305800000215
Figure FDA00037972305800000216
(2)将特征维度降低到输入的1/16,经过ReLu函数激活,通过一个FC层升回到原来的维度,具体公式如下:
Figure FDA00037972305800000217
Figure FDA00037972305800000218
其中δ是指ReLU函数,
Figure FDA00037972305800000219
Figure FDA00037972305800000220
降维的比例系数为γ;
通过闸值公式选出与SEF特征相近的特征,获得最终标定权重特征,具体公式如下:
Figure FDA0003797230580000031
如果
Figure FDA0003797230580000032
Figure FDA0003797230580000033
以α为邻域的半径内,取
Figure FDA0003797230580000034
的最大值,即提高与SEF特征具有强相关性特征的权重;如果
Figure FDA0003797230580000035
Figure FDA0003797230580000036
以α为邻域的半径外,
Figure FDA0003797230580000037
值不变,即相对抑制与SEF特征相关性小的特征权重;
(3)将待标定权重矩阵
Figure FDA0003797230580000038
与全局特征送入加权操作,获取标定权重特征
Figure FDA0003797230580000039
CN201811599907.9A 2018-12-26 2018-12-26 一种基于语谱图提取深度空间注意特征的语音情感识别方法 Active CN109637522B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811599907.9A CN109637522B (zh) 2018-12-26 2018-12-26 一种基于语谱图提取深度空间注意特征的语音情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811599907.9A CN109637522B (zh) 2018-12-26 2018-12-26 一种基于语谱图提取深度空间注意特征的语音情感识别方法

Publications (2)

Publication Number Publication Date
CN109637522A CN109637522A (zh) 2019-04-16
CN109637522B true CN109637522B (zh) 2022-12-09

Family

ID=66077780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811599907.9A Active CN109637522B (zh) 2018-12-26 2018-12-26 一种基于语谱图提取深度空间注意特征的语音情感识别方法

Country Status (1)

Country Link
CN (1) CN109637522B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110223714B (zh) * 2019-06-03 2021-08-03 杭州哲信信息技术有限公司 一种基于语音的情绪识别方法
CN111402927A (zh) * 2019-08-23 2020-07-10 南京邮电大学 基于分段语谱图和双重Attention的语音情感识别方法
CN110534133B (zh) * 2019-08-28 2022-03-25 珠海亿智电子科技有限公司 一种语音情感识别系统及语音情感识别方法
CN110544249A (zh) * 2019-09-06 2019-12-06 华南理工大学 一种面向任意角度机箱装配视觉检测的卷积神经网络质量鉴别方法
CN110782878B (zh) * 2019-10-10 2022-04-05 天津大学 一种基于注意力机制的多尺度音频场景识别方法
CN110809090A (zh) * 2019-10-31 2020-02-18 Oppo广东移动通信有限公司 通话控制方法及相关产品
CN111048071B (zh) * 2019-11-11 2023-05-30 京东科技信息技术有限公司 语音数据处理方法、装置、计算机设备和存储介质
CN111081273A (zh) * 2019-12-31 2020-04-28 湖南景程电子科技有限公司 一种基于声门波信号特征提取的语音情感识别方法
CN111312292A (zh) * 2020-02-18 2020-06-19 北京三快在线科技有限公司 基于语音的情绪识别方法、装置、电子设备及存储介质
CN111429948B (zh) * 2020-03-27 2023-04-28 南京工业大学 一种基于注意力卷积神经网络的语音情绪识别模型及方法
CN111696579B (zh) * 2020-06-17 2022-10-28 厦门快商通科技股份有限公司 一种语音情感识别方法、装置、设备和计算机存储介质
CN113408539B (zh) * 2020-11-26 2024-08-23 腾讯科技(深圳)有限公司 数据识别方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106847309A (zh) * 2017-01-09 2017-06-13 华南理工大学 一种语音情感识别方法
CN108899049A (zh) * 2018-05-31 2018-11-27 中国地质大学(武汉) 一种基于卷积神经网络的语音情感识别方法及系统
CN109036465A (zh) * 2018-06-28 2018-12-18 南京邮电大学 语音情感识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101014321B1 (ko) * 2009-02-24 2011-02-14 한국전자통신연구원 최소 분류 오차 기법을 이용한 감정 인식 방법
US9020822B2 (en) * 2012-10-19 2015-04-28 Sony Computer Entertainment Inc. Emotion recognition using auditory attention cues extracted from users voice

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106847309A (zh) * 2017-01-09 2017-06-13 华南理工大学 一种语音情感识别方法
CN108899049A (zh) * 2018-05-31 2018-11-27 中国地质大学(武汉) 一种基于卷积神经网络的语音情感识别方法及系统
CN109036465A (zh) * 2018-06-28 2018-12-18 南京邮电大学 语音情感识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Quantitative analysis of human-model agreement in visual saliency modeling:a comparative study;Borji A,Sihite D N,Itti L.;《IEEE Transactions on Image Processing》;20131231;全文 *
Speech emotion recognition using deep neural network and extreme learning machine;Han K,Yu D,Tashev I.;《Interspeech》;20141231;全文 *
听觉注意模型的语谱图语音情感识别方法;张昕然等;《信号处理》;20160925(第09期);全文 *
用于跨库语音情感识别的DBN特征融合方法;张昕然等;《信号处理》;20170525(第05期);全文 *
面向语音情感识别的语谱特征提取算法研究;唐闺臣等;《计算机工程与应用》;20161231(第21期);全文 *

Also Published As

Publication number Publication date
CN109637522A (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
CN109637522B (zh) 一种基于语谱图提取深度空间注意特征的语音情感识别方法
Chen et al. Environmental sound classification with dilated convolutions
CN108717856B (zh) 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
CN112216271B (zh) 一种基于卷积块注意机制的视听双模态语音识别方法
Wu et al. Audio classification using attention-augmented convolutional neural network
CN106847309A (zh) 一种语音情感识别方法
CN109036465A (zh) 语音情感识别方法
Wei et al. A novel speech emotion recognition algorithm based on wavelet kernel sparse classifier in stacked deep auto-encoder model
CN115393933A (zh) 一种基于帧注意力机制的视频人脸情绪识别方法
Chauhan et al. Speech emotion recognition using convolution neural networks
CN109767789A (zh) 一种用于语音情感识别的新特征提取方法
Tang et al. Improved convolutional neural networks for acoustic event classification
CN112331232B (zh) 一种结合cgan谱图去噪和双边滤波谱图增强的语音情感识别方法
CN110599502A (zh) 一种基于深度学习的皮肤病变分割方法
CN111462762B (zh) 一种说话人向量正则化方法、装置、电子设备和存储介质
CN112562725A (zh) 基于语谱图和胶囊网络的混合语音情感分类方法
Zhiyan et al. Speech emotion recognition based on deep learning and kernel nonlinear PSVM
Kuang et al. Simplified inverse filter tracked affective acoustic signals classification incorporating deep convolutional neural networks
Atkar et al. Speech emotion recognition using dialogue emotion decoder and CNN Classifier
Cetin Accent recognition using a spectrogram image feature-based convolutional neural network
Mavaddati Voice-based age, gender, and language recognition based on ResNet deep model and transfer learning in spectro-temporal domain
CN117115312B (zh) 一种语音驱动面部动画方法、装置、设备及介质
CN117711442A (zh) 一种基于cnn-gru融合模型的婴儿哭声分类方法
Li et al. Emotion recognition from speech with StarGAN and Dense‐DCNN
Adiban et al. Statistical feature embedding for heart sound classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant