CN108717856B - 一种基于多尺度深度卷积循环神经网络的语音情感识别方法 - Google Patents
一种基于多尺度深度卷积循环神经网络的语音情感识别方法 Download PDFInfo
- Publication number
- CN108717856B CN108717856B CN201810624294.3A CN201810624294A CN108717856B CN 108717856 B CN108717856 B CN 108717856B CN 201810624294 A CN201810624294 A CN 201810624294A CN 108717856 B CN108717856 B CN 108717856B
- Authority
- CN
- China
- Prior art keywords
- voice
- mel
- formula
- lstm
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 9
- 125000004122 cyclic group Chemical group 0.000 title claims abstract description 7
- 238000001228 spectrum Methods 0.000 claims abstract description 61
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 49
- 230000004927 fusion Effects 0.000 claims abstract description 15
- 238000007500 overflow downdraw method Methods 0.000 claims abstract description 10
- 230000015654 memory Effects 0.000 claims abstract description 8
- 230000008451 emotion Effects 0.000 claims description 49
- 238000009795 derivation Methods 0.000 claims description 16
- 230000003595 spectral effect Effects 0.000 claims description 16
- 230000003068 static effect Effects 0.000 claims description 15
- 239000012634 fragment Substances 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000013136 deep learning model Methods 0.000 claims description 5
- 210000002569 neuron Anatomy 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 210000004027 cell Anatomy 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims description 3
- 230000003993 interaction Effects 0.000 abstract description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000011160 research Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Image Analysis (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明公开了一种基于多尺度深度卷积循环神经网络的语音情感识别方法。实现步骤为:(1)三通道语音频谱片段的生成;(2)采用深度卷积神经网络(CNN)提取不同尺度下的语音频谱片段特征;(3)采用长短时记忆网络(LSTM)实现不同尺度下的语音频谱片段序列的时间建模,输出整句语音的情感识别结果;(4)采用分数层融合方法实现不同尺度下CNN+LSTM取得的识别结果的融合,输出最终的语音情感识别结果。本发明可有效提高实际环境下的自然语音情感识别性能,可用于人工智能、机器人技术、自然人机交互技术等领域。
Description
技术领域
本发明涉及语音信号处理、模式识别领域,特别是涉及一种基于多尺度深度卷积循环神经网络的语音情感识别方法。
背景技术
人类的语言不仅包含了丰富的文本信息,同时也携带着包含人们情绪表达的音频信息,如语音的高低、强弱、抑扬顿挫等变化。如何让计算机从语音信号中自动识别出说话人的情感状态,即所谓的“语音情感识别”方面的研究,已成为人工智能、模式识别、情感计算等领域中的一个热点研究课题。该研究旨在让计算机通过分析说话人的语音信号对用户的情感信息进行获取、识别和响应,从而实现用户与计算机之间的交互更加和谐与自然。该研究在智能人机交互、电话客服中心、机器人技术等方面具有重要的应用价值。
目前,在语音情感识别领域,大量的前期工作主要是针对模拟情感而进行的,因为这种模拟情感数据库的建立相对自然情感而言,要容易得多。近年来,针对实际环境下的自然语音情感识别方面的研究备受研究者的关注,因为它更接近实际,而且比模拟情感的识别要困难得多。
语音情感特征提取,是语音情感识别中的一个关键步骤,其目的是从情感语音信号中提取能够反映说话人情感表达信息的特征参数。目前,大量语音情感识别文献采用了手工设计的特征用于情感识别,如韵律特征(基频、振幅、发音持续时间)、音质特征(共振峰、频谱能量分布、谐波噪声比),谱特征(梅尔频率倒谱系数(MFCC))等(见文献:Anagnostopoulos C N,et al.Features and classifiers for emotion recognitionfrom speech:a survey from 2000 to 2011.Artificial Intelligence Review,2015,43(2):155-177.)。然而,这些手工设计的语音情感特征参数属于低层次的特征,与人类理解的情感标签还存在“语义鸿沟”问题,因此有必要发展高层次的语音情感特征提取方法。
为了解决这个问题,近年来新出现的深度学习技术可能提供了线索。一些代表性的深度学习方法主要包括:深度信念网络(DBN)、深度卷积神经网络(CNN)与长短时记忆网络(LSTM)。其中,LSTM是一种改进的循环神经网络(RNN),用于解决传统RNN存在的梯度消失问题。但是,现有基于深度学习技术的语音情感识别方法,都忽略了不同长度的语音频谱片段信息对不同情感类型识别的判别力不同的特性(见文献:Mao Q,et al.Learningsalient features for speech emotion recognition using convolutional neuralnetworks.IEEE Transactions on Multimedia,2014,16(8):2203-2213.)。针对此问题,本发明将深度卷积神经网络(CNN)与长短时记忆网络(LSTM)相结合,并同时考虑不同长度的语音频谱片段信息对不同情感类型识别的判别力不同的特性,从而提出一种多尺度CNN+LSTM的混合深度学习模型,并应用于实际环境下的自然语音情感识别。
发明内容
本发明的目的就是为了克服上述现有语音情感识别技术的不足,提供一种基于多尺度深度卷积循环神经网络的语音情感识别方法,用于实现实际环境下的自然语音情感识别任务。
本发明所采用的技术方案是:
一种基于多尺度深度卷积循环神经网络的语音情感识别方法,其主要技术步骤为:
步骤1:三通道语音频谱片段的生成;
步骤2:采用深度卷积神经网络(CNN)提取不同尺度下的语音频谱片段特征;
步骤3:采用长短时记忆网络(LSTM)实现不同尺度下的语音频谱片段序列的时间建模,输出整句语音的情感识别结果;
步骤4:采用分数层融合方法实现不同尺度下CNN+LSTM取得的识别结果的融合,输出最终的语音情感识别结果。
其中,
(1)三通道语音频谱片段的生成,包括:
从原始的一维情感语音信号,拟提取的三通道Mel语音频谱片段特征,可形式化表述为:
Mel_SS=F×T×C (式1)
式中,F表示Mel滤波器个数,T表示频谱片段长度,等于加窗处理所采用的文本窗(context window)大小(即语音帧数),C表示频谱的通道数(C=1,2,3)。考虑到计算机视觉领域中的图像的高宽比关系,拟采用Mel_SS=64×64×3(F=64,T=64,C=3)作为举例说明,如何实现这种三通道Mel频谱片段特征的提取。
为此,我们先采用64个Mel滤波器和64帧的文本窗大小,计算出二维的静态(static)频谱片段64×64(相当于一个通道C=1),然后采用公式(2)对其在时间轴上进行第一次求导,以便抓住该静态频谱片段的时间动态特性。这样的求导操作完全类似于常用的语音特征MFCC的一阶和二阶求导,其目的是用来提取特征的时间动态特性信息。
式中,dt表示为采用静态频谱片段系数ct-n至ct+n对其第t帧进行求导之后的系数,N为回归窗(Regression window)的大小,一般取值在[2,9]。
同样,利用上述公式对第一次求导之后的系数dt再进行第二次求导,就可以得到反映dt的时间动态特性方面的系数。最后,将语音信号的静态的频谱片段特征、以及它的第一次求导系数和第二次求导系数作为RGB图像的三个通道,然后将它们组合就得到了类似于RGB图像的三通道Mel频谱片段特征Mel_SS=64×64×3。对于不同尺度的语音频谱片段的获取,只需改变T值就可以得到,即Mel_SS=64×T×3。
(2)采用深度卷积神经网络(CNN)提取不同尺度下的语音频谱片段特征,包括:
考虑到情感语音数据库的样本一般都比较有限,拟采用预训练好的深度学习模型,如AlexNet模型(见文献:Krizhevsky A,et al.Imagenet classification with deepconvolutional neural networks.NIPS 25,2012,1106-1114.)在目标情感语音数据集上进行微调(fine-tuning)。
当微调AlexNet时,需要复制AlexNet的网络参数进行初始化,然后将其最后一个全连接层(fc8)的神经元数量修改为目标情感语音数据集的情感类别数目,再次训练一次。由于AlexNet模型的固定输入大小为227×227×3,因此需要对产生的三通道Mel频谱片段Mel_SS进行采样处理。对于不同尺度的语音频谱片段Mel_SS=64×T×3,都采用双线性内插(bilinear interpolation)方法将Mel_SS采样到227×227×3。
(3)采用长短时记忆网络(LSTM)实现不同尺度下的语音频谱片段序列的时间建模,输出整句语音的情感识别结果,包括:
给定一个时间长度为T的输入序列(x1,x2,…xT),LSTM旨在通过计算网络节点激活函数的输出,将输入序列(x1,x2,…xT)映射到一个输出序列(y1,y2,…yT),如下所示:
it=σ(Wxixt+Whiht-1+Wcict-1+bi) (式3)
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf) (式4)
ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc) (式5)
σt=σ(Wxoxt+Whoht-1+Wcoct-1+bo) (式6)
ht=σttanh(ct) (式7)
式中,it、ft、ct、σt分别是LSTM模型中的输入门、忘记门、细胞存储单元和输出门的激活输出向量。xt和ht分别表示第t个时间步长的输入向量和隐层向量。Wαβ表示α和β之间的权重矩阵。例如,Wxi是从输入xt到输入门it的权重矩阵。bα是α的偏置值,σ表示sigmoid激活函数σ(x)=1/(1+e-x)。当获得LSTM的输出序列(y1,y2,…yT),就可以采用softmax分类器来预测整句语音的情感类别。
(4)采用分数层融合方法实现不同尺度下CNN+LSTM取得的识别结果的融合,输出最终的语音情感识别结果,包括:
为了融合不同尺度下CNN+LSTM取得的识别结果,采用分数层融合方法(score-level fusion)进行融合,计算公式如下所示:
Scorefusion=r1Score1+r2Score2+…+rmScorem (式8)
式中,rj和Scorej分别表示第j个(j=1,2,…,m)权重值,以及CNN+LSTM在第j个尺度下所获得的相应的情感分类的得分值(score value)。
与现有技术相比,本发明的优点和效果在于:
1.为了充分利用不同长度的语音频谱片段信息对不同情感类型识别的判别力不同的特性,提出一种基于多尺度CNN+LSTM的混合深度学习模型,并成功应用于自然语音情感识别。
2.考虑到情感语音数据库的样本一般都比较有限的特点,采用已创建的类似于RGB图像的三通道Mel频谱片段作为CNN的输入,从而可以采用预训练好的深度学习图像模型在目标情感语音数据集上进行微调。这种从图像到语音的跨媒体迁移学习策略在一定程度上缓解了语音情感数据集样本不足的问题。
本发明的其他优点将在下面继续描述。
附图说明
图1——本发明流程图
图2——不同的单一长度的语音频谱片段作为CNN+LSTM输入的性能比较
图3——融合5种不同尺度CNN+LSTM取得的识别结果的性能以及相应的最优的融合权重值参数
图4——本发明方法取得40.73%的识别性能时的各种情感类型的正确识别率(%)
具体实施方式
下面结合附图和实施例,对本发明所述的技术方案进一步说明。
图1为本发明流程图,主要包括:
步骤1:三通道语音频谱片段的生成;
步骤2:采用深度卷积神经网络(CNN)提取不同尺度下的语音频谱片段特征;
步骤3:采用长短时记忆网络(LSTM)实现不同尺度下的语音频谱片段序列的时间建模,输出整句语音的情感识别结果;
步骤4:采用分数层融合方法实现不同尺度下CNN+LSTM取得的识别结果的融合,输出最终的语音情感识别结果。
一、本发明流程图每一个步骤的实现,结合实施例具体表述如下:
(1)三通道语音频谱片段的生成,包括:
从自然情感语音数据集AFEW5.0(见文献:Dhall A,et al.Video and imagebased emotion recognition challenges in the wild:Emotiw 2015.ACM onInternational Conference on Multimodal Interaction,Seattle,2015,423-426.)提取生气(anger)、厌恶(disgust)、恐惧(fear)、高兴(joy)、悲伤(sad)、惊奇(surprise)和中性(neutral)共7种情感类别的样本。其中,训练集含有723个样本,验证集含有383个样本。
针对拟从原始的一维情感语音信号,采用帧移为10ms,时长为25ms的汉明窗提取出整句语音信号的一维对数Mel频谱,然后将其分段,并转换成类似于RGB彩色图像的三通道(red,green,black)Mel频谱片段,作为后续的深度卷积神经网络(CNN)的输入。
从原始的一维情感语音信号,拟提取的三通道Mel语音频谱片段特征,可形式化表述为:
Mel_SS=F×T×C (式1)
式中,F表示Mel滤波器个数,T表示频谱片段长度,等于加窗处理所采用的文本窗(context window)大小(即语音帧数),C表示频谱的通道数(C=1,2,3)。考虑到计算机视觉领域中的图像的高宽比关系,拟采用Mel_SS=64×64×3(F=64,T=64,C=3)作为举例说明,如何实现这种三通道Mel频谱片段特征的提取。
为此,我们先采用64个Mel滤波器和64帧的文本窗大小,计算出二维的静态(static)频谱片段64×64(相当于一个通道C=1),然后采用公式(2)对其在时间轴上进行第一次求导,以便抓住该静态频谱片段的时间动态特性。这样的求导操作完全类似于常用的语音特征MFCC的一阶和二阶求导,其目的是用来提取特征的时间动态特性信息。
式中,dt表示为采用静态频谱片段系数ct-n至ct+n对其第t帧进行求导之后的系数,N为回归窗(Regression window)的大小,一般取值在[2,9]。
同样,利用上述公式对第一次求导之后的系数dt再进行第二次求导,就可以得到反映dt的时间动态特性方面的系数。最后,将语音信号的静态的频谱片段特征、以及它的第一次求导系数和第二次求导系数作为RGB图像的三个通道,然后将它们组合就得到了类似于RGB图像的三通道Mel频谱片段特征Mel_SS=64×64×3。对于不同尺度的语音频谱片段的获取,只需改变T值就可以得到,即Mel_SS=64×T×3。
(2)采用深度卷积神经网络(CNN)提取不同尺度下的语音频谱片段特征,包括:
考虑到情感语音数据库的样本一般都比较有限,拟采用预训练好的深度学习模型,如AlexNet模型(见文献:Krizhevsky A,et al.Imagenet classification with deepconvolutional neural networks.NIPS 25,2012,1106-1114.)在目标情感语音数据集上进行微调(fine-tuning)。AlexNet模型包含5个卷积层(Conv1-Conv2-Conv3-Conv4-Conv5)、3个池化层(Pool1-Pool2-Pool5)和3个全连接层(fc)层组成。前两个全连接层(fc6,fc7)包含4096个神经元,最后一个全连接层(fc8)包含1000个神经元,用于实现ImageNet数据集中的1000种图像的分类。其中,fc7所输出的4096-D特征表示AlexNet模型所学习到的高层次的属性特征,用于后续的情感识别。
当微调AlexNet时,需要复制AlexNet的网络参数进行初始化,然后将其最后一个全连接层(fc8)的神经元数量修改为目标情感语音数据集的情感类别数目,再次训练一次。由于AlexNet模型的固定输入大小为227×227×3,因此需要对产生的三通道Mel频谱片段Mel_SS进行采样处理。对于不同尺度的语音频谱片段Mel_SS=64×T×3,都采用双线性内插(bilinear interpolation)方法将Mel_SS采样到227×227×3。
(3)采用长短时记忆网络(LSTM)实现不同尺度下的语音频谱片段序列的时间建模,输出整句语音的情感识别结果,包括:
给定一个时间长度为T的输入序列(x1,x2,…xT),LSTM旨在通过计算网络节点激活函数的输出,将输入序列(x1,x2,…xT)映射到一个输出序列(y1,y2,…yT),如下所示:
it=σ(Wxixt+Whiht-1+Wcict-1+bi) (式3)
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf) (式4)
ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc) (式5)
σt=σ(Wxoxt+Whoht-1+Wcoct-1+bo) (式6)
ht=σttanh(ct) (式7)
式中,it、ft、ct、σt分别是LSTM模型中的输入门、忘记门、细胞存储单元和输出门的激活输出向量。xt和ht分别表示第t个时间步长的输入向量和隐层向量。Wαβ表示α和β之间的权重矩阵。例如,Wxi是从输入xt到输入门it的权重矩阵。bα是α的偏置值,σ表示sigmoid激活函数σ(x)=1/(1+e-x)。当获得LSTM的输出序列(y1,y2,…yT),就可以采用softmax分类器来预测整句语音的情感类别。本发明采用2层的结构LSTM(4096-256-256-7)表现最好。
(4)采用分数层融合方法实现不同尺度下CNN+LSTM取得的识别结果的融合,输出最终的语音情感识别结果,包括:
为了融合不同尺度下CNN+LSTM取得的识别结果,采用分数层融合方法(score-level fusion)进行融合,计算公式如下所示:
Scorefusion=r1Score1+r2Score2+…+rmScorem (式8)
式中,rj和Scorej分别表示第j个(j=1,2,…,m)权重值,以及CNN+LSTM在第j个尺度下所获得的相应的情感分类的得分值(score value)。权重值r的确定,采用在[0,1]范围内以步长为0.1进行搜索而找到的最优值。
二、识别系统的评价
为了验证不同长度的语音频谱片段作为CNN+LSTM输入的影响,测试了五种不同长度的语音频谱片段64×T×3(T=20,40,64,80,100)的性能。这些频谱片段的间隔约为20帧,其时间长度为215ms。这个时间长度达到了所要求的能够表达足够情感信息的最短语音长度,从而保证分段得到的语音频谱片段具有区分情感的差异性。对于不同长度的语音频谱片段,都采用双线性内插方法采样到CNN的固定输入大小227×227×3。图2列出了不同的单一长度的语音频谱片段作为CNN+LSTM输入的性能比较。从图2可以看出,CNN+LSTM的性能随着语音频谱片段长度T的增大而提高,在T=80时表现最好,其取得的正确识别率达到了35.51%。尽管如此,但CNN+LSTM的性能在T=100时下降。这表明增大T值,并不能持续提升CNN+LSTM的性能。
图3给出了融合5种不同尺度CNN+LSTM取得的识别结果的性能以及相应的最优的融合权重值参数。从图2和图3来看,与单一尺度(T=80)CNN+LSTM获得的最好性能(35.51%)相比,融合多尺度CNN+LSTM的结果导致语音情感识别性能提升了5.22%(从35.51%至40.73%)。这表明融合多尺度CNN+LSTM的有效性。主要原因是,不同长度的语音频谱片段作为CNN+LSTM输入,在识别不同情感类型时会产生不同的作用。图4给出了本发明方法取得40.73%的识别性能时的各种情感类型的正确识别率。其中,图4中对角线粗体数据表示每一种具体的情感类型所获得的正确识别率。
Claims (1)
1.一种基于多尺度深度卷积循环神经网络的语音情感识别方法,其特征在于该方法包含的步骤为:
步骤1:三通道语音频谱片段的生成;
步骤2:采用深度卷积神经网络(CNN)提取不同尺度下的语音频谱片段特征;
步骤3:采用长短时记忆网络(LSTM)实现不同尺度下的语音频谱片段序列的时间建模,输出整句语音的情感识别结果;
步骤4:采用分数层融合方法实现不同尺度下CNN+LSTM取得的识别结果的融合,输出最终的语音情感识别结果;
其中,
(1)三通道语音频谱片段的生成,包括:
从原始的一维情感语音信号,拟提取的三通道Mel语音频谱片段特征,形式化表述为:
Mel_SS=F×T×C (式1)
式中,F表示Mel滤波器个数,T表示频谱片段长度,等于加窗处理所采用的文本窗(context window)大小,C表示频谱的通道数;考虑到计算机视觉领域中的图像的高宽比关系,拟采用Mel_SS=64×64×3实现这种三通道Mel频谱片段特征的提取;
为此,先采用64个Mel滤波器和64帧的文本窗大小,计算出二维的静态(static)频谱片段64×64,然后采用公式(2)对其在时间轴上进行第一次求导,以便抓住该静态频谱片段的时间动态特性;
式中,dt表示为采用静态频谱片段系数ct-n至ct+n对其第t帧进行求导之后的系数,N为回归窗(Regression window)的大小,一般取值在[2,9];
同样,利用上述公式对第一次求导之后的系数dt再进行第二次求导,就可以得到反映dt的时间动态特性方面的系数;最后,将语音信号的静态的频谱片段特征、以及它的第一次求导系数和第二次求导系数作为RGB图像的三个通道,然后将它们组合就得到了三通道Mel频谱片段特征Mel_SS=64×64×3;对于不同尺度的语音频谱片段的获取,只需改变T值就可以得到,即Mel_SS=64×T×3;
(2)采用深度卷积神经网络(CNN)提取不同尺度下的语音频谱片段特征,包括:
考虑到情感语音数据库的样本有限,拟采用预训练好的深度学习模型AlexNet在目标情感语音数据集上进行微调(fine-tuning);
当微调AlexNet时,需要复制AlexNet的网络参数进行初始化,然后将其最后一个全连接层的神经元数量修改为目标情感语音数据集的情感类别数目,再次训练一次;由于AlexNet模型的固定输入大小为227×227×3,因此需要对产生的三通道Mel频谱片段Mel_SS进行采样处理;对于不同尺度的语音频谱片段Mel_SS=64×T×3,都采用双线性内插(bilinear interpolation)方法将Mel_SS采样到227×227×3;
(3)采用长短时记忆网络(LSTM)实现不同尺度下的语音频谱片段序列的时间建模,输出整句语音的情感识别结果,包括:
给定一个时间长度为T的输入序列(x1,x2,…xT),LSTM旨在通过计算网络节点激活函数的输出,将输入序列(x1,x2,…xT)映射到一个输出序列(y1,y2,…yT),如下所示:
it=σ(Wxixt+Whiht-1+Wcict-1+bi) (式3)
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf) (式4)
ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc) (式5)
σt=σ(Wxoxt+Whoht-1+Wcoct-1+bo) (式6)
ht=σttanh(ct) (式7)
式中,it、ft、ct、σt分别是LSTM模型中的输入门、忘记门、细胞存储单元和输出门的激活输出向量;xt和ht分别表示第t个时间步长的输入向量和隐层向量;Wαβ表示α和β之间的权重矩阵;其中,Wxi是从输入xt到输入门it的权重矩阵;bα是α的偏置值,σ表示sigmoid激活函数σ(x)=1/(1+e-x);当获得LSTM的输出序列(y1,y2,…yT),就可以采用softmax分类器来预测整句语音的情感类别;
(4)采用分数层融合方法实现不同尺度下CNN+LSTM取得的识别结果的融合,输出最终的语音情感识别结果,包括:
为了融合不同尺度下CNN+LSTM取得的识别结果,采用分数层融合方法(score-levelfusion)进行融合,计算公式如下所示:
Scorefusion=r1Score1+r2Score2+…+rmScorem (式8)
式中,rj和Scorej分别表示第j个(j=1,2,…,m)权重值,以及CNN+LSTM在第j个尺度下所获得的相应的情感分类的得分值(score value)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810624294.3A CN108717856B (zh) | 2018-06-16 | 2018-06-16 | 一种基于多尺度深度卷积循环神经网络的语音情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810624294.3A CN108717856B (zh) | 2018-06-16 | 2018-06-16 | 一种基于多尺度深度卷积循环神经网络的语音情感识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108717856A CN108717856A (zh) | 2018-10-30 |
CN108717856B true CN108717856B (zh) | 2022-03-08 |
Family
ID=63913019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810624294.3A Active CN108717856B (zh) | 2018-06-16 | 2018-06-16 | 一种基于多尺度深度卷积循环神经网络的语音情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108717856B (zh) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325457B (zh) * | 2018-09-30 | 2022-02-18 | 合肥工业大学 | 基于多通道数据和循环神经网络的情感分析方法和系统 |
CN109146066A (zh) * | 2018-11-01 | 2019-01-04 | 重庆邮电大学 | 一种基于语音情感识别的虚拟学习环境自然交互方法 |
CN109657036B (zh) * | 2018-11-12 | 2021-02-02 | 中国科学院自动化研究所 | 基于类脑语义层次时序记忆推理模型的问答方法、系统 |
CN109599129B (zh) * | 2018-11-13 | 2021-09-14 | 杭州电子科技大学 | 基于注意力机制和卷积神经网络的语音抑郁症识别系统 |
CN109741341B (zh) * | 2018-12-20 | 2022-11-01 | 华东师范大学 | 一种基于超像素和长短时记忆网络的图像分割方法 |
CN109767788A (zh) * | 2019-02-25 | 2019-05-17 | 南京信息工程大学 | 一种基于lld和dss融合特征的语音情感识别方法 |
CN109785863A (zh) * | 2019-02-28 | 2019-05-21 | 中国传媒大学 | 一种深度信念网络的语音情感识别方法及系统 |
CN111724810B (zh) * | 2019-03-19 | 2023-11-24 | 杭州海康威视数字技术股份有限公司 | 一种音频分类方法和装置 |
CN110222226B (zh) * | 2019-04-17 | 2024-03-12 | 平安科技(深圳)有限公司 | 基于神经网络的以词生成节奏的方法、装置及存储介质 |
CN110223714B (zh) * | 2019-06-03 | 2021-08-03 | 杭州哲信信息技术有限公司 | 一种基于语音的情绪识别方法 |
CN110223712B (zh) * | 2019-06-05 | 2021-04-20 | 西安交通大学 | 一种基于双向卷积循环稀疏网络的音乐情感识别方法 |
CN111242155A (zh) * | 2019-10-08 | 2020-06-05 | 台州学院 | 一种基于多模深度学习的双模态情感识别方法 |
CN111292765B (zh) * | 2019-11-21 | 2023-07-28 | 台州学院 | 一种融合多个深度学习模型的双模态情感识别方法 |
CN111312215B (zh) * | 2019-12-20 | 2023-05-30 | 台州学院 | 一种基于卷积神经网络和双耳表征的自然语音情感识别方法 |
CN111583964B (zh) * | 2020-04-14 | 2023-07-21 | 台州学院 | 一种基于多模深度特征学习的自然语音情感识别方法 |
CN111667817A (zh) * | 2020-06-22 | 2020-09-15 | 平安资产管理有限责任公司 | 一种语音识别方法、装置、计算机系统及可读存储介质 |
CN112750459B (zh) * | 2020-08-10 | 2024-02-02 | 腾讯科技(深圳)有限公司 | 音频场景识别方法、装置、设备及计算机可读存储介质 |
CN112489689B (zh) * | 2020-11-30 | 2024-04-30 | 东南大学 | 基于多尺度差异对抗的跨数据库语音情感识别方法及装置 |
CN113780610B (zh) * | 2020-12-02 | 2024-08-20 | 北京沃东天骏信息技术有限公司 | 一种客服画像构建方法和装置 |
CN112732907B (zh) * | 2020-12-28 | 2022-06-10 | 华南理工大学 | 一种基于多尺度循环神经网络的金融舆情分析方法 |
CN112992119B (zh) * | 2021-01-14 | 2024-05-03 | 安徽大学 | 基于深度神经网络的口音分类方法及其模型 |
CN112967737A (zh) * | 2021-04-07 | 2021-06-15 | 广州伟宏智能科技有限公司 | 一种对话文本的深度学习情感识别方法 |
CN113409824B (zh) * | 2021-07-06 | 2023-03-28 | 青岛洞听智能科技有限公司 | 一种语音情感识别方法 |
CN113628639A (zh) * | 2021-07-06 | 2021-11-09 | 哈尔滨理工大学 | 一种基于多头注意力机制的语音情感识别方法 |
CN113555031B (zh) * | 2021-07-30 | 2024-02-23 | 北京达佳互联信息技术有限公司 | 语音增强模型的训练方法及装置、语音增强方法及装置 |
CN113808620B (zh) * | 2021-08-27 | 2023-03-21 | 西藏大学 | 一种基于cnn和lstm的藏语语音情感识别方法 |
CN113808622B (zh) * | 2021-09-17 | 2023-04-07 | 青岛大学 | 基于中文语音和文本的情感识别系统及方法 |
CN114566189B (zh) * | 2022-04-28 | 2022-10-04 | 之江实验室 | 基于三维深度特征融合的语音情感识别方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106782602A (zh) * | 2016-12-01 | 2017-05-31 | 南京邮电大学 | 基于长短时间记忆网络和卷积神经网络的语音情感识别方法 |
CN107705806A (zh) * | 2017-08-22 | 2018-02-16 | 北京联合大学 | 一种使用谱图和深卷积神经网络进行语音情感识别的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10783900B2 (en) * | 2014-10-03 | 2020-09-22 | Google Llc | Convolutional, long short-term memory, fully connected deep neural networks |
-
2018
- 2018-06-16 CN CN201810624294.3A patent/CN108717856B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106782602A (zh) * | 2016-12-01 | 2017-05-31 | 南京邮电大学 | 基于长短时间记忆网络和卷积神经网络的语音情感识别方法 |
CN107705806A (zh) * | 2017-08-22 | 2018-02-16 | 北京联合大学 | 一种使用谱图和深卷积神经网络进行语音情感识别的方法 |
Non-Patent Citations (4)
Title |
---|
ADIEU FEATURES? END-TO-END SPEECH EMOTION RECOGNITION USING A DEEP CONVOLUTIONAL RECURRENT NETWORK;George Trigeorgis et al;《IEEE ICASSP 2016》;20161231;全文 * |
Spoken emotion recognition via locality-constrained kernel sparse representation;Xiaoming Zhao;《Spoken emotion recognition via locality-constrained kernel sparse》;20151231;全文 * |
噪声背景下的语音情感识别;张石清等;《西南交通大学学报》;20090615(第03期);全文 * |
基于卷积神经网络和长短时记忆神经网络的非特定人语音情感识别算法;姚增伟等;《新型工业化》;20180220(第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108717856A (zh) | 2018-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108717856B (zh) | 一种基于多尺度深度卷积循环神经网络的语音情感识别方法 | |
CN112348075B (zh) | 一种基于情景注意力神经网络的多模态情感识别方法 | |
CN108597541B (zh) | 一种增强愤怒与开心识别的语音情感识别方法及系统 | |
CN108597539B (zh) | 基于参数迁移和语谱图的语音情感识别方法 | |
US11281945B1 (en) | Multimodal dimensional emotion recognition method | |
CN108564942B (zh) | 一种基于敏感度可调的语音情感识别方法及系统 | |
CN110400579B (zh) | 基于方向自注意力机制和双向长短时网络的语音情感识别 | |
CN111312245B (zh) | 一种语音应答方法、装置和存储介质 | |
CN110853680B (zh) | 一种具有多输入多融合策略的双BiLSTM的语音情感识别方法 | |
CN111583964B (zh) | 一种基于多模深度特征学习的自然语音情感识别方法 | |
CN114694076A (zh) | 基于多任务学习与层叠跨模态融合的多模态情感分析方法 | |
CN110675859B (zh) | 结合语音与文本的多情感识别方法、系统、介质及设备 | |
CN110084266B (zh) | 一种基于视听特征深度融合的动态情感识别方法 | |
CN112818861A (zh) | 一种基于多模态上下文语义特征的情感分类方法及系统 | |
CN115329779B (zh) | 一种多人对话情感识别方法 | |
CN111292765B (zh) | 一种融合多个深度学习模型的双模态情感识别方法 | |
CN112151030A (zh) | 一种基于多模态的复杂场景语音识别方法和装置 | |
CN111402928B (zh) | 基于注意力的语音情绪状态评估方法、装置、介质及设备 | |
CN112466326A (zh) | 一种基于transformer模型编码器的语音情感特征提取方法 | |
Ocquaye et al. | Dual exclusive attentive transfer for unsupervised deep convolutional domain adaptation in speech emotion recognition | |
CN114973044B (zh) | 一种基于双模态信息增强多头注意力的视频情感分析方法 | |
Wang et al. | Research on speech emotion recognition technology based on deep and shallow neural network | |
Elshaer et al. | Transfer learning from sound representations for anger detection in speech | |
Gupta et al. | Speech emotion recognition using SVM with thresholding fusion | |
CN112562725A (zh) | 基于语谱图和胶囊网络的混合语音情感分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |