CN109859772B - 情绪识别方法、装置及计算机可读存储介质 - Google Patents
情绪识别方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN109859772B CN109859772B CN201910223763.5A CN201910223763A CN109859772B CN 109859772 B CN109859772 B CN 109859772B CN 201910223763 A CN201910223763 A CN 201910223763A CN 109859772 B CN109859772 B CN 109859772B
- Authority
- CN
- China
- Prior art keywords
- audio data
- feature
- feature vector
- identification module
- emotion recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 33
- 239000013598 vector Substances 0.000 claims abstract description 113
- 230000009466 transformation Effects 0.000 claims abstract description 13
- 239000000284 extract Substances 0.000 claims abstract description 10
- 238000011176 pooling Methods 0.000 claims description 39
- 230000015654 memory Effects 0.000 claims description 28
- 238000001228 spectrum Methods 0.000 claims description 16
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000009432 framing Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 230000036651 mood Effects 0.000 claims description 2
- 230000008451 emotion Effects 0.000 abstract description 22
- 238000000605 extraction Methods 0.000 abstract description 10
- 230000009286 beneficial effect Effects 0.000 abstract description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000011218 segmentation Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 10
- 238000010606 normalization Methods 0.000 description 10
- 206010027951 Mood swings Diseases 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 6
- 230000007935 neutral effect Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000011835 investigation Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000009429 distress Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本方案涉及人工智能,提供一种情绪识别方法、装置及计算机可读存储介质,方法包括:接收音频数据,针对音频数据生成语音频谱图,并将语音频谱图输入到第一识别模块,音频数据则输入到第二识别模块,其中,第一识别模块采用依次连接的DCNN、RNN网络来提取出第一特征向量,第二识别模块从音频数据中提取MFCC,MFCC通过非线性变换成为第二特征向量;将第一、第二识别模块输出的第一、第二特征向量连接起来组成联合特征并依次输入全连接层、softmax层,进行情绪识别。本方案DCNN、RNN结合有助于模拟微妙的局部情绪线索,MFCC在短时间内描述语音特征,通过两种特征提取方式,捕获更多情绪相关特征,提高情绪识别率。
Description
技术领域
本发明涉及人工智能,具体地说,涉及一种情绪识别方法、装置及计算机可读存储介质。
背景技术
事故调查是在发生各类事故后一个非常重要的步骤,人们需要通过这一步来弄清事故发生的人为和外界原因,并发布调查报告,来提醒他人来避免再发生此类悲剧。而在许多大型事故中,以空难为例,关键当事人很有可能在事故中遇难,这就为调查工作带来了很大的困难。调查人员不得不通过事故现场的残骸以及黑匣子中的信息来推断出事故发生的原因。现代飞机所使用的黑匣子中,一个非常重要的内容就是驾驶室录音,该录音记录了飞机从起飞到发生事故这一时间段内驾驶室的一切对话和异常声音。而对于情绪识别,目前是采用例如基于上下文语义来识别,也就是说,是通过对于语音中文字的含义分析来判断说话的人的情绪。而对于语音来说,其不仅是在文字中表达了情绪,还在例如语调、说话的频率、呼吸快慢都可能包含着说话者的情绪。而对于这方面,目前没有能够综合考虑语义和语音特征的方法。
发明内容
为解决以上技术问题,本发明提供一种情绪识别方法,应用于电子装置,包括以下步骤:
接收音频数据,针对音频数据生成语音频谱图,并将语音频谱图输入到第一识别模块,而音频数据则输入到第二识别模块,其中,第一识别模块采用依次连接的DCNN、RNN网络来提取出第一特征向量,第二识别模块从音频数据中提取MFCC,所述MFCC通过非线性变换成为第二特征向量;
将第一识别模块、第二识别模块输出的第一特征向量、第二特征向量连接起来组成联合特征,将联合特征依次输入全连接层、softmax层,进行情绪识别。
优选地,在第一识别模块中,将语音频谱图分割为多段,形成多个分段频谱图,将分段频谱图输入到DCNN网络,DCNN网络包括依次连接的一个或多个卷积层,构成卷积特征提取器,特征提取器对输入的多个分段频谱图进行卷积,生成多个特征图谱。
优选地,在DCNN网络的卷积层之间还包括用以减小输出大小和降低过拟合的池化层。
优选地,RNN网络采用LSTM模型,计算LSTM输出的平均池化、最大池化和最小池化,并将平均池化、最大池化和最小池化连接成第一特征向量。
优选地,在第二识别模块中,将音频数据分割成帧,提取每帧的MFCC特征向量,采用三个依次连接的全连接层将各帧的MFCC特征向量依次映射到低维的特征空间,从而形成第二特征向量。
优选地,提取MFCC特征向量的步骤包括:
1)对音频数据进行预加重、分帧和加窗;
2)对每一个短时分析窗,通过FFT得到对应的频谱;
3)将所述频谱通过Mel滤波器组得到Mel频谱;
4)在Mel频谱上面进行倒谱分析获得Mel频率倒谱系数MFCC。
本发明还提供一种电子装置,该电子装置包括:存储器和处理器,所述存储器中存储有情绪识别程序,所述情绪识别程序被所述处理器执行时实现如下步骤:
接收音频数据,针对音频数据生成语音频谱图,并将语音频谱图输入到第一识别模块,而音频数据则输入到第二识别模块,其中,第一识别模块采用依次连接的DCNN、RNN网络来提取出第一特征向量,第二识别模块从音频数据中提取MFCC,所述MFCC通过非线性变换成为第二特征向量;
将第一识别模块、第二识别模块输出的第一特征向量、第二特征向量连接起来组成联合特征,将联合特征依次输入全连接层、softmax层,完成情绪识别。
优选地,在第一识别模块中,将语音频谱图分割为多段,形成多个分段频谱图,将分段频谱图输入到DCNN网络,DCNN网络包括依次连接的一个或多个卷积层,构成卷积特征提取器,特征提取器对输入的多个分段频谱图进行卷积,生成多个特征图谱。
优选地,在DCNN网络的卷积层之间还包括用以减小输出大小和降低过拟合的池化层。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,实现以上所述的情绪识别方法。
本发明的情绪识别方法、装置及计算机可读存储介质,采用依次连接的DCNN、RNN网络和MFCC特征相结合的方式,其中,DCNN和RNN结合在一起从语音频谱图中提取特征,有助于模拟微妙的局部情绪线索,同时捕获上下文情绪信息。MFCC可以在很短的时间内描述语音特征。这两种特征从不同的方面描述了言语的情感状态,并在各自的特征空间中。通过这两种特征提取方式,可以更多的捕获情绪相关特征,提高情绪识别率。
附图说明
通过结合下面附图对其实施例进行描述,本发明的上述特征和技术优点将会变得更加清楚和容易理解。
图1是本发明实施例的情绪识别方法的流程示意图;
图2是本发明实施例的电子装置的硬件架构示意图;
图3是本发明实施例的情绪识别程序的模块构成图;
图4是本发明实施例的第一识别模块的单元构成图;
图5是本发明实施例的深度残差网络的构成图。
具体实施方式
下面将参考附图来描述本发明所述的情绪识别方法、装置及计算机可读存储介质的实施例。本领域的普通技术人员可以认识到,在不偏离本发明的精神和范围的情况下,可以用各种不同的方式或其组合对所描述的实施例进行修正。因此,附图和描述在本质上是说明性的,而不是用于限制权利要求的保护范围。此外,在本说明书中,附图未按比例画出,并且相同的附图标记表示相同的部分。
图1为本发明实施例提供的情绪识别方法的流程示意图,该方法包括以下步骤:
步骤S10,接收音频数据,针对音频数据(指一段话语)生成语音频谱图,并将语音频谱图输入到第一识别模块,将音频数据输入到第二识别模块,其中,第一识别模块采用依次连接的DCNN(深度卷积神经网络)、RNN(循环神经网络)来进行特征提取,输出第一特征向量。第二识别模块从音频数据中提取MFCC(梅尔频率倒谱系数),所述MFCC通过非线性变换成为第二特征向量。
步骤S30,将第一识别模块、第二识别模块输出的第一特征向量、第二特征向量投射到一个联合特征空间中,组成联合特征。将联合特征输入一个全连接层,全连接层的输出传递给softmax层进行分类,完成情绪识别。
进一步地,在第一识别模块中,将语音频谱图分割为多段,也就相当于将一段话分割为一段一段的,形成多个分段频谱图,将分段频谱图输入到DCNN网络,DCNN网络包括依次连接的一个或多个卷积层,构成卷积特征提取器,将一个分段频谱图作为卷积特征提取器的输入,输入到卷积特征提取器中,卷积特征提取器对输入的分段频谱图进行卷积生成特征图谱。将前面分割得到的多个分段频谱图分别输入到卷积特征提取器中,从而生成多个特征图谱。优选地,在DCNN网络的卷积层之间还可以包括用以减小输出大小和降低过拟合的池化层。
例如,一段话“在回家的路上,明明神情沮丧地向母亲说:“妈妈,我今天得了倒数第一。”母亲走到孩子的面前,蹲下身来,将双手放在儿子的肩上,慢慢地说:“今天的跑步,妈妈已经看见明明在拼命地跑了。”在形成语音频谱图后,分割成多个分段语音频谱图,则相当于将这段话分割为“在回家的路上,”、“明明神情沮丧地向母亲说:”、““妈妈,我今天得了倒数第一。””、“母亲走到孩子的面前,蹲下身来,将双手放在儿子的肩上,慢慢地说”、““今天的跑步,妈妈已经看见明明在拼命地跑了。””。将各个分段频谱图输入卷积特征提取器,就能够生成多个特征图谱。
进一步地,RNN网络采用LSTM(长短期记忆网络)模型,能够处理顺序数据中存在的长期依赖关系。LSTM模型输出的统计数据是通过池化层计算的。将DCNN输出的特征图谱输入LSTM模型中,为了获得LSTM模型输出的更丰富的统计信息,计算LSTM模型输出的平均池化、最大池化和最小池化,并将平均池化、最大池化和最小池化连接成第一特征向量。
进一步地,在第二识别模块中,将音频数据分割成帧,例如分割为一帧一帧的形式,提取每帧的MFCC特征向量,采用三个依次连接的全连接层将各帧的MFCC特征向量依次映射到低维的特征空间,从而形成第二特征向量。
进一步地,提取MFCC特征向量的步骤包括:
1)对音频数据进行预加重、分帧和加窗;
2)对每一个短时分析窗,通过FFT(快速傅里叶变换)得到对应的频谱;
3)将所述频谱通过梅尔滤波器组得到梅尔频谱;
4)在梅尔频谱上面进行倒谱分析获得梅尔频率倒谱系数MFCC。具体说,包括取对数,做逆变换,其中逆变换是通过DCT(离散余弦变换)来实现的,取DCT后的第2个到第13个系数作为MFCC系数,获得梅尔频率倒谱系数MFCC,这个MFCC就是某一帧语音的特征。通过对多帧语音进行以上操作,就可以得到多个倒谱向量,每个倒谱向量就是每帧的MFCC特征向量。
在一个可选实施例中,第一识别模块采用3种DCNN融合的方式来生成特征图谱,从ImageNet(用于视觉对象识别软件研究的可视化数据库)中选取CaffeNet、OverFeatL、GoogLeNet这3种DCNN模型,CaffeNet和OverFeat都是在AlexNet模型基础上的改进,AlexNet包括依次连接的5个卷积层和三个全连接层。其中,在第一层的卷积层、第二层的卷积层后都进行归一化操作,在第一层的卷积层、第二层的卷积层、第五层的卷积层后都设置有池化层。其中,先进行归一化操作,然后再进行池化操作。
CaffeNet相对于AlexNet来说是交换了卷积层之间的归一化和池化操作顺序,即先进行池化,然后再进行归一化操作,基于Caffe(一种特征提取器)实现。OverFeatL包括依次连接的6个卷积层和三个全连接层,并采取了不同的卷积核大小和步长,基于OverFeat(一种特征提取器)实现。Caffe和OverFeat分别提供了利用ImageNet预训练的CaffeNet和OverFeatL的初始化权重。
GoogLeNet模型包括多个Inception网络,Inception网络在一层网络中存在多个不同尺度的卷积核,具体说,包括1×1,3×3,5×5三种不同尺度的卷积核和3×3的max池化来进行该层的计算输出。来保留空间维度,降低深度,在池化之后采用1×1卷积核来减少池化后的深度,从而主要达到减小规模的目的。多个Inception网络互相堆叠,并在最后连接一个softmax层,就得到GoogLeNet模型。将三个DCNN模型的输出融合在一起,形成特征图谱。
在一个可选实施例中,采用语音识别方法将音频数据转换为文本数据,并将文本数据输入深度残差网络中,所述深度残差网络包括多个卷积段,其中,每个卷积段包括多个残差单元,每个残差单元又依次包括三个卷积层;分别提取深度残差网络的多个卷积段的最后一个残差单元的输出作为特征向量,将得到的多个特征向量通过全连接层组合成第三特征向量。并将第三特征向量与第一特征向量、第二特征向量都投射到一个联合特征空间中,组成联合特征。将联合特征输入一个全连接层,全连接层的输出传递给softmax层进行分类,完成情绪识别。也就是说,对于一段音频数据,既通过音频数据的语音频谱图来提取特征向量,还通过音频数据转换成的文本数据来提取特征向量,还通过音频数据提取每帧的MFCC特征向量,采用多特征融合的方式提取有关于情绪的特征向量。
其中,深度残差网络采用Resnet_101的网络结构,如图5所示,其中Resnet_101包括依次连接的第一卷积段(conv1)、第二卷积段(conv2)、第三卷积段(conv3)、第四卷积段(conv4)、第五卷积段(conv5),以及一个全连接层FC,输入图像依次经过第一至第五卷积段,并经全连接层FC输出。
第一卷积段包括7x7x64的卷积,其中,7X7表示卷积核,64表示通道数,
第二卷积段包括3个残差单元,每个残差单元又依次包括1X1X64、3X3X64、1X1X256三个卷积层;
第三卷积段包括4个残差单元,每个残差单元又依次包括1X1X128、3X3X128、1X1X512三个卷积层;
第四卷积段包括23个残差单元,每个残差单元又依次包括1X1X256、3X3X256、1X1X1024三个卷积层;
第五卷积段包括3个残差单元,每个残差单元又依次包括1X1X512、3X3X512、1X1X2048三个卷积层。
其中,深度残差网络由残差单元组成,每个残差单元表示为:
yi=h(xi)+F(xi,wi)
xi+1=f(yi)
其中,
F是残差函数;
f是ReLU函数;
wi是权重矩阵;
xi是第i层的输入;
yi是第i层的输出;
函数h的公式为:h(xi)=xi
残差函数F的公式为:
F(xi,wi)=wi·σ(B(w′i)·σ(B(xi)))
其中,B(xi)是批量归一化;
w′i是wi的转置;
“·”表示卷积;
σ(xi)=max(x,0)。
通过预先标注的文本对深度残差网络进行预训练,也即是利用深度残差网络对标注有情绪属性的文本进行分类训练,获得权重矩阵wi,并利用预先训练的权重矩阵wi初始化深度残差网络。
在一个可选实施例中,采用多次分割的形式来形成多组分段频谱图,每一组分段频谱图都输入到第一识别模块中来获取第一特征向量。具体说,采用平均分割的方式来形成一组分段频谱图,并且采用分割长度逐渐递加的方式来形成多组分段频谱图,例如,第一组分段频谱图是将一段音频数据分割为平均分割为10段分段频谱图,第二组将该段音频数据平均分割为8段分段频谱图,第三组将该段音频数据平均分割为6段分段频谱图,第四组将该段音频数据平均分割为4段分段频谱图,第五组将该段音频数据平均分割为2段分段频谱图。将多组分段频谱图分别输入第一识别模块中,对应每一组分段频谱图都会得到一个第一特征向量,将多个第一特征向量经过一个全连接层,输出一个组合的第一特征向量,并将该组合的第一特征向量与第二特征向量再组成联合特征。采用不同的分割长度形成多组分段频谱图,可以有利于针对不同分割长度的音频提取出多个特征,也更加有利于最终的识别结果。
在一个可选实施例中,还可以采用以上形成的每一组分段频谱图产生的第一特征向量与第二特征向量来识别情绪,即每组第一特征向量分别与第二特征向量组合成联合特征,来分别识别情绪,并将识别结果按照识别出的类别分别按照线性加权计算分类分值,并选取分类分值最大的来作为分类识别结果。例如,假设事先设定的情绪分类共有5类,分别为“生气”、“着急”、“中性”、“愉悦”、“高兴”,设定5类分别对应的初始分值都是1。假设以上五组联合特征分别对应的识别结果是“中性”、“中性”、“高兴”、“高兴”、“高兴”。假设对应的权重值分别为0.1、0.2、0.4、0.1、0.2。则对应的计算结果是“中性”采用线性加权对应的分类分值为0.1*1+0.20*1=0.3,而“高兴”采用线性加权对应的分类分值为0.4*1+0.1*1+0.2*1=0.7。并比较这两个分类的分类分值大小,选取数值大的作为识别结果。由于0.7大于0.3,则最终的识别结果为高兴。其中权重值可以是根据分段频谱图的分割长度不同来设定的。例如,分段长度越短,则权重值越高,但权重值的和为1。
在一个可选实施例中,采用分割长度逐渐递加的方式形成一组分段频谱图,具体说,例如,将一段1分钟的音频数据分割为10秒、20秒、30秒。通过获取不同时域对应的分段频谱图,可以丰富提取的特征向量所包含的情感信息。
在一个可选实施例中,对于情绪识别来说,一段音频数据,当前正在说的词语和情绪波动和之前说过的词语以及情绪波动对于情绪识别的贡献值应该是有区别的,即当前(t时刻)正在说的词语和情绪波动比t时刻之前说的词语和情绪波动更能够影响情绪识别结果。因此,RNN网络中的LSTM模型还可以结合注意力机制来提高特征图谱的提取精度。将音频数据分割成的多个语音频谱图分别按照时间先后顺序形成时间序列。
假设当前时刻为t时刻,有t-1时刻LSTM模型的输出ht-1,st-1以及所有时刻的张量输入X=(x1,x2,…,xN),这里的张量输入就是前面分割得到的分段频谱图,采用如下方式计算t时刻LSTM模型的虚拟输出(即特征图谱):
其中:
t为t时刻;
hvirtual和svirtual为LSTM模型的虚拟输出;
R为LSTM模型操作;
ht-1是t-1时刻LSTM模型的输出;
St-1是ht-1对应的t-1时刻的标签;
ve,We和Ue是可训练的参数。
参阅图2所示,是本发明电子装置的实施例的硬件架构示意图。本实施例中,所述电子装置2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。例如,可以是智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图2所示,所述电子装置2至少包括,但不限于,可通过系统总线相互通信连接的存储器21、处理器22、网络接口23。其中:所述存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器21可以是所述电子装置2的内部存储单元,例如该电子装置2的硬盘或内存。在另一些实施例中,所述存储器21也可以是所述电子装置2的外部存储设备,例如该电子装置2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器21还可以既包括所述电子装置2的内部存储单元也包括其外部存储设备。本实施例中,所述存储器21通常用于存储安装于所述电子装置2的操作系统和各类应用软件,例如所述情绪识别程序代码等。此外,所述存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制所述电子装置2的总体操作,例如执行与所述电子装置2进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器22用于运行所述存储器21中存储的程序代码或者处理数据,例如运行所述的情绪识别程序等。
所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述电子装置2与其他电子装置之间建立通信连接。例如,所述网络接口23用于通过网络将所述电子装置2与推送平台相连,在所述电子装置2与推送平台之间建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(WidebandCodeDivision Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
可选地,该电子装置2还可以包括显示器,显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)显示器等。显示器用于显示在电子装置2中处理的信息以及用于显示可视化的用户界面。
需要指出的是,图2仅示出了具有组件21-23的电子装置2,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
包含可读存储介质的存储器21中可以包括操作系统、情绪识别程序50等。处理器22执行存储器21中情绪识别程序50时实现如下步骤:
步骤S10,接收音频数据,针对音频数据(指一段话语)生成语音频谱图,并将语音频谱图输入到第一识别模块,将音频数据输入到第二识别模块,其中,第一识别模块采用DCNN(深度卷积神经网络)来进行特征提取,输出第一特征向量。第二识别模块从音频数据中提取MFCC(梅尔频率倒谱系数),所述MFCC通过非线性变换成为第二特征向量。
步骤S30,将第一识别模块、第二识别模块输出的第一特征向量、第二特征向量投射到一个联合特征空间中,组成联合特征。将联合特征输入一个全连接层,全连接层的输出传递给softmax层进行分类,完成情绪识别。
在本实施例中,存储于存储器21中的所述情绪识别程序可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并可由一个或多个处理器(本实施例为处理器22)所执行,以完成本发明。例如,图3示出了所述情绪识别程序的程序模块示意图,图4示出了第一识别模块502的单元构成图,该实施例中,所述情绪识别程序50可以被分割为语音频谱图生成模块501、第一识别模块502、第二识别模块503、联合特征模块504、分类模块505。其中,本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述情绪识别程序在所述电子装置2中的执行过程。以下描述将具体介绍所述程序模块的具体功能。
其中,语音频谱图生成模块501用于接收音频数据,针对音频数据(指一段话语)生成语音频谱图,并将语音频谱图输入到第一识别模块。其中,第一识别模块502包括DCNN特征提取单元5021,DCNN特征提取单元5021进行特征提取,输出第一特征向量。第二识别模块503用于接收音频数据,并从音频数据中提取MFCC(梅尔频率倒谱系数),所述MFCC通过非线性变换成为第二特征向量。
联合特征模块504用于将第一识别模块、第二识别模块输出的第一特征向量、第二特征向量投射到一个联合特征空间中,组成联合特征,并将联合特征输入一个全连接层,全连接层的输出传递给分类模块505,分类模块505的softmax层进行分类,完成情绪识别。
在一个可选实施例中,第一识别模块502包括RNN网络单元5022,RNN网络单元5022采用LSTM(长短期记忆网络)模型,能够处理顺序数据中存在的长期依赖关系。LSTM模型输出的统计数据是通过池化层计算的。将DCNN输出的特征图谱输入LSTM模型中,为了获得LSTM模型输出的更丰富的统计信息,计算LSTM模型输出的平均池化、最大池化和最小池化,并将平均池化、最大池化和最小池化连接成第一特征向量。
在一个可选实施例中,第二识别模块503用于将音频数据分割成帧,例如分割为一帧一帧的形式,提取每帧的MFCC特征向量,采用三个依次连接的全连接层将各帧的MFCC特征向量依次映射到低维的特征空间,从而形成第二特征向量。第二识别模块503提取MFCC特征向量的步骤包括:
1)对音频数据进行预加重、分帧和加窗;
2)对每一个短时分析窗,通过FFT(快速傅里叶变换)得到对应的频谱;
3)将所述频谱通过梅尔滤波器组得到梅尔频谱;
4)在梅尔频谱上面进行倒谱分析获得梅尔频率倒谱系数MFCC。具体说,包括取对数,做逆变换,其中逆变换是通过DCT(离散余弦变换)来实现的,取DCT后的第2~13个元素,舍弃其他。这个长度为12的向量作为MFCC系数,获得梅尔频率倒谱系数MFCC,这个MFCC就是某一帧语音的特征。通过对多帧语音进行以上操作,就可以得到多个倒谱向量,每个倒谱向量就是每帧的MFCC特征向量。
在一个可选实施例中,第一识别模块502还包括CaffeNet模型单元5023、OverFeatL模型单元5024、GoogLeNet模型单元5025这3种DCNN融合的方式来生成特征图谱,从ImageNet(用于视觉对象识别软件研究的可视化数据库)中选取CaffeNet、OverFeatL、GoogLeNet这3种DCNN模型,CaffeNet和OverFeat都是在AlexNet模型基础上的改进,AlexNet包括依次连接的5个卷积层和三个全连接层。其中,在第一层的卷积层、第二层的卷积层后都进行归一化操作,在第一层的卷积层、第二层的卷积层、第五层的卷积层后都设置有池化层。其中,先进行归一化操作,然后再进行池化操作。
CaffeNet模型单元5023的CaffeNet模型相对于AlexNet来说是交换了卷积层之间的归一化和池化操作顺序,即先进行池化,然后再进行归一化操作,基于Caffe(一种特征提取器)实现。OverFeatL模型单元5024的OverFeatL模型包括依次连接的6个卷积层和三个全连接层,并采取了不同的卷积核大小和步长,基于OverFeat(一种特征提取器)实现。Caffe和OverFeat分别提供了利用ImageNet预训练的CaffeNet和OverFeatL的初始化权重。
GoogLeNet模型单元5025的GoogLeNet模型包括多个Inception网络,Inception网络在一层网络中存在多个不同尺度的卷积核,具体说,包括1×1,3×3,5×5三种不同尺度的卷积核和3×3的max池化来进行该层的计算输出。来保留空间维度,降低深度,在池化之后采用1×1卷积核来减少池化后的深度,从而主要达到减小规模的目的。多个Inception网络互相堆叠,并在最后连接一个softmax层,就得到GoogLeNet模型。将三个DCNN模型的输出融合在一起,形成特征图谱。
在一个可选实施例中,情绪识别程序50还包括文本识别模块506,文本识别模块506采用语音识别方法将音频数据转换为文本数据,并将文本数据输入深度残差网络中,所述深度残差网络包括多个卷积段,其中,每个卷积段包括多个残差单元,每个残差单元又依次包括三个卷积层;分别提取深度残差网络的多个卷积段的最后一个残差单元的输出作为特征向量,将得到的多个特征向量通过全连接层组合成第三特征向量。并将第三特征向量与第一特征向量、第二特征向量都投射到一个联合特征空间中,组成联合特征。将联合特征输入一个全连接层,全连接层的输出传递给softmax层进行分类,完成情绪识别。也就是说,对于一段音频数据,既通过音频数据的语音频谱图来提取特征向量,还通过音频数据转换成的文本数据来提取特征向量,还通过音频数据提取每帧的MFCC特征向量,采用多特征融合的方式提取有关于情绪的特征向量。
深度残差网络采用Resnet_101的网络结构,如图5所示,其中Resnet_101包括依次连接的第一卷积段(conv1)、第二卷积段(conv2)、第三卷积段(conv3)、第四卷积段(conv4)、第五卷积段(conv5),以及一个全连接层FC,输入图像依次经过第一至第五卷积段,并经全连接层FC输出。
第一卷积段包括7x7x64的卷积,其中,7X7表示卷积核,64表示通道数,
第二卷积段包括3个残差单元,每个残差单元又依次包括1X1X64、3X3X64、1X1X256三个卷积层;
第三卷积段包括4个残差单元,每个残差单元又依次包括1X1X128、3X3X128、1X1X512三个卷积层;
第四卷积段包括23个残差单元,每个残差单元又依次包括1X1X256、3X3X256、1X1X1024三个卷积层;
第五卷积段包括3个残差单元,每个残差单元又依次包括1X1X512、3X3X512、1X1X2048三个卷积层。
其中,深度残差网络由残差单元组成,每个残差单元表示为:
yi=h(xi)+F(xi,wi)
xi+1=f(yi)
其中,
F是残差函数;
f是ReLU函数;
wi是权重矩阵;
xi是第i层的输入;
yi是第i层的输出;
函数h的公式为:h(xi)=xi
残差函数F的公式为:
F(xi,wi)=wi·σ(B(w′i)·σ(B(Xi)))
其中,B(xi)是批量归一化;
w′i是wi的转置;
“·”表示卷积;
σ(xi)=max(x,0)。
通过预先标注的文本对深度残差网络进行预训练,也即是利用深度残差网络对标注有情绪属性的文本进行分类训练,获得权重矩阵wi,并利用预先训练的权重矩阵wi初始化深度残差网络。
在一个可选实施例中,语音频谱图生成模块501还用于采用多次分割的形式来形成多组分段频谱图,每一组分段频谱图都输入到第一识别模块中来获取第一特征向量。具体说,采用平均分割的方式来形成一组分段频谱图,并且采用分割长度逐渐递加的方式来形成多组分段频谱图,例如,第一组分段频谱图是将一段音频数据分割为平均分割为10段分段频谱图,第二组将该段音频数据平均分割为8段分段频谱图,第三组将该段音频数据平均分割为6段分段频谱图,第四组将该段音频数据平均分割为4段分段频谱图,第五组将该段音频数据平均分割为2段分段频谱图。将多组分段频谱图分别输入第一识别模块中,对应每一组分段频谱图都会得到一个第一特征向量,将多个第一特征向量经过一个全连接层,输出一个组合的第一特征向量,并将该组合的第一特征向量与第二特征向量再组成联合特征。采用不同的分割长度形成多组分段频谱图,可以有利于针对不同分割长度的音频提取出多个特征,也更加有利于最终的识别结果。
在一个可选实施例中,情绪识别程序50还包括线性加权模块507,线性加权模块507可以采用以上形成的每一组分段频谱图产生的第一特征向量与第二特征向量来识别情绪,即每组第一特征向量分别与第二特征向量组合成联合特征,来分别识别情绪,并将识别结果按照识别出的类别分别按照线性加权计算分类分值,并选取分类分值最大的来作为分类识别结果。例如,假设事先设定的情绪分类共有5类,分别为“生气”、“着急”、“中性”、“愉悦”、“高兴”,设定5类分别对应的初始分值都是1。假设以上五组联合特征分别对应的识别结果是“中性”、“中性”、“高兴”、“高兴”、“高兴”。假设对应的权重值分别为0.1、0.2、0.4、0.1、0.2。则对应的计算结果是“中性”采用线性加权对应的分类分值为0.1*1+0.20*1=0.3,而“高兴”采用线性加权对应的分类分值为0.4*1+0.1*1+0.2*1=0.7。并比较这两个分类的分类分值大小,选取数值大的作为识别结果。由于0.7大于0.3,则最终的识别结果为高兴。其中权重值可以是根据分段频谱图的分割长度不同来设定的。例如,分段长度越短,则权重值越高,但权重值的和为1。
在一个可选实施例中,语音频谱图生成模块501还采用分割长度逐渐递加的方式形成一组分段频谱图,具体说,例如,将一段1分钟的音频数据分割为10秒、20秒、30秒。通过获取不同时域对应的分段频谱图,可以丰富提取的特征向量所包含的情感信息。
在一个可选实施例中,情绪识别程序50还包括时间序列加权模块508,对于情绪识别来说,一段音频数据,当前正在说的词语和情绪波动和之前说过的词语以及情绪波动对于情绪识别的贡献值应该是有区别的,即当前(t时刻)正在说的词语和情绪波动比t时刻之前说的词语和情绪波动更能够影响情绪识别结果。因此,RNN网络中的LSTM模型还可以结合注意力机制来提高特征图谱的提取精度。时间序列加权模块508用于将音频数据分割成的多个语音频谱图分别按照时间先后顺序形成时间序列,并基于注意力权重来对时间序列加权,来提高情绪识别的准确度。以下是采用了基于注意力权重的时间序列来辅助提高情绪识别准确度的公式。
假设当前时刻为t时刻,有t-1时刻LSTM模型的输出ht-1,st-1以及所有时刻的张量输入X=(x1,x2,…,xN),这里的张量输入就是前面分割得到的分段频谱图,采用如下方式计算t时刻LSTM模型的虚拟输出(即特征图谱):
其中:
t为t时刻;
hvirtual和svirtual为LSTM模型的虚拟输出;
R为LSTM模型操作;
ht-1是t-1时刻LSTM模型的输出;
St-1是ht-1对应的t-1时刻的标签;
ve,We和Ue是可训练的参数。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等等中的任意一种或者几种的任意组合。所述计算机可读存储介质中包括情绪识别程序等,所述情绪识别程序50被处理器22执行时实现如下操作:
步骤S10,接收音频数据,针对音频数据(指一段话语)生成语音频谱图,并将语音频谱图输入到第一识别模块,将音频数据输入到第二识别模块,其中,第一识别模块采用依次连接的DCNN(深度卷积神经网络)、RNN来进行特征提取,输出第一特征向量。第二识别模块从音频数据中提取MFCC(梅尔频率倒谱系数),所述MFCC通过非线性变换成为第二特征向量。
步骤S30,将第一识别模块、第二识别模块输出的第一特征向量、第二特征向量投射到一个联合特征空间中,组成联合特征。将联合特征输入一个全连接层,全连接层的输出传递给softmax层进行分类,完成情绪识别。
本发明之计算机可读存储介质的具体实施方式与上述情绪识别方法以及电子装置2的具体实施方式大致相同,在此不再赘述。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种情绪识别方法,应用于电子装置,其特征在于,包括以下步骤:
接收音频数据,针对音频数据生成语音频谱图,并将语音频谱图输入到第一识别模块,而音频数据则输入到第二识别模块,其中,第一识别模块采用依次连接的DCNN、RNN网络来提取出第一特征向量,第二识别模块从音频数据中提取MFCC,所述MFCC通过非线性变换成为第二特征向量;
采用语音识别方法将音频数据转换为文本数据,并将文本数据输入深度残差网络中,所述深度残差网络包括多个卷积段;分别提取深度残差网络的多个卷积段的最后一个残差单元的输出作为特征向量,将得到的多个特征向量通过全连接层组合成第三特征向量,
将第三特征向量与第一特征向量、第二特征向量组成联合特征,将联合特征依次输入全连接层、softmax层,进行情绪识别。
2.如权利要求1所述的情绪识别方法,其特征在于:
在第一识别模块中,将语音频谱图分割为多段,形成多个分段频谱图,将分段频谱图输入到DCNN网络,DCNN网络包括依次连接的一个或多个卷积层,构成卷积特征提取器,特征提取器对输入的多个分段频谱图进行卷积,生成多个特征图谱。
3.如权利要求2所述的情绪识别方法,其特征在于:在DCNN网络的卷积层之间还包括用以减小输出大小和降低过拟合的池化层。
4.如权利要求3所述的情绪识别方法,其特征在于:
RNN网络采用LSTM模型,计算LSTM输出的平均池化、最大池化和最小池化,并将平均池化、最大池化和最小池化连接成第一特征向量。
5.如权利要求1所述的情绪识别方法,其特征在于:
在第二识别模块中,将音频数据分割成帧,提取每帧的MFCC特征向量,采用三个依次连接的全连接层将各帧的MFCC特征向量依次映射到低维的特征空间,从而形成第二特征向量。
6.如权利要求5所述的情绪识别方法,其特征在于:提取MFCC特征向量的步骤包括:
对音频数据进行预加重、分帧和加窗;
对每一个短时分析窗,通过FFT得到对应的频谱;
将所述频谱通过Mel滤波器组得到Mel频谱;
在Mel频谱上面进行倒谱分析获得Mel频率倒谱系数MFCC。
7.一种电子装置,其特征在于,该电子装置包括:存储器和处理器,所述存储器中存储有情绪识别程序,所述情绪识别程序被所述处理器执行时实现如下步骤:
接收音频数据,针对音频数据生成语音频谱图,并将语音频谱图输入到第一识别模块,而音频数据则输入到第二识别模块,其中,第一识别模块采用依次连接的DCNN、RNN网络来提取出第一特征向量,第二识别模块从音频数据中提取MFCC,所述MFCC通过非线性变换成为第二特征向量;
采用语音识别方法将音频数据转换为文本数据,并将文本数据输入深度残差网络中,所述深度残差网络包括多个卷积段;分别提取深度残差网络的多个卷积段的最后一个残差单元的输出作为特征向量,将得到的多个特征向量通过全连接层组合成第三特征向量,
将第三特征向量与第一特征向量、第二特征向量组成联合特征,将联合特征依次输入全连接层、softmax层,完成情绪识别。
8.如权利要求7所述的电子装置,其特征在于:
在第一识别模块中,将语音频谱图分割为多段,形成多个分段频谱图,将分段频谱图输入到DCNN网络,DCNN网络包括依次连接的一个或多个卷积层,构成卷积特征提取器,特征提取器对输入的多个分段频谱图进行卷积,生成多个特征图谱。
9.如权利要求7所述的电子装置,其特征在于:在DCNN网络的卷积层之间还包括用以减小输出大小和降低过拟合的池化层。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,实现权利要求1至6中任一项所述的情绪识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910223763.5A CN109859772B (zh) | 2019-03-22 | 2019-03-22 | 情绪识别方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910223763.5A CN109859772B (zh) | 2019-03-22 | 2019-03-22 | 情绪识别方法、装置及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109859772A CN109859772A (zh) | 2019-06-07 |
CN109859772B true CN109859772B (zh) | 2023-03-28 |
Family
ID=66901668
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910223763.5A Active CN109859772B (zh) | 2019-03-22 | 2019-03-22 | 情绪识别方法、装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109859772B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110600053A (zh) * | 2019-07-30 | 2019-12-20 | 广东工业大学 | 一种基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法 |
JP7290507B2 (ja) * | 2019-08-06 | 2023-06-13 | 本田技研工業株式会社 | 情報処理装置、情報処理方法、認識モデルならびにプログラム |
CN111312292A (zh) * | 2020-02-18 | 2020-06-19 | 北京三快在线科技有限公司 | 基于语音的情绪识别方法、装置、电子设备及存储介质 |
CN111445922B (zh) * | 2020-03-20 | 2023-10-03 | 腾讯科技(深圳)有限公司 | 音频匹配方法、装置、计算机设备及存储介质 |
CN111429947B (zh) * | 2020-03-26 | 2022-06-10 | 重庆邮电大学 | 一种基于多级残差卷积神经网络的语音情感识别方法 |
CN111508500B (zh) * | 2020-04-17 | 2023-08-29 | 五邑大学 | 一种语音情绪识别方法、系统、装置和存储介质 |
CN111582397B (zh) * | 2020-05-14 | 2023-04-07 | 杭州电子科技大学 | 一种基于注意力机制的cnn-rnn图像情感分析方法 |
CN111599381A (zh) * | 2020-05-29 | 2020-08-28 | 广州繁星互娱信息科技有限公司 | 音频数据处理方法、装置、设备及计算机存储介质 |
CN114078484B (zh) * | 2020-08-18 | 2023-06-09 | 北京有限元科技有限公司 | 语音情绪识别的方法、装置以及存储介质 |
CN112017632A (zh) * | 2020-09-02 | 2020-12-01 | 浪潮云信息技术股份公司 | 一种自动化会议记录生成方法 |
CN112185389B (zh) * | 2020-09-22 | 2024-06-18 | 北京小米松果电子有限公司 | 语音生成方法、装置、存储介质和电子设备 |
CN112183064B (zh) * | 2020-10-22 | 2022-06-03 | 福州大学 | 基于多任务联合学习的文本情绪原因识别系统 |
CN112735404A (zh) * | 2020-12-18 | 2021-04-30 | 平安科技(深圳)有限公司 | 一种语音反讽检测方法、系统、终端设备和存储介质 |
CN112820323B (zh) * | 2020-12-29 | 2023-06-16 | 平安银行股份有限公司 | 基于客户语音进行响应队列优先级调整方法及系统 |
CN113806586B (zh) * | 2021-11-18 | 2022-03-15 | 腾讯科技(深圳)有限公司 | 数据处理方法、计算机设备以及可读存储介质 |
CN114420151B (zh) * | 2022-01-21 | 2024-05-31 | 陕西师范大学 | 基于并联张量分解卷积神经网络的语音情感识别方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299657A (zh) * | 2018-08-14 | 2019-02-01 | 清华大学 | 基于语义注意力保留机制的群体行为识别方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106710589B (zh) * | 2016-12-28 | 2019-07-30 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音特征提取方法及装置 |
-
2019
- 2019-03-22 CN CN201910223763.5A patent/CN109859772B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299657A (zh) * | 2018-08-14 | 2019-02-01 | 清华大学 | 基于语义注意力保留机制的群体行为识别方法及装置 |
Non-Patent Citations (1)
Title |
---|
Automated depression analysis using convolutional neural networks from speech;Lang He等;《Journal of Biomedical Informatics》;20180529;第103-111页、图1、图2 * |
Also Published As
Publication number | Publication date |
---|---|
CN109859772A (zh) | 2019-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109859772B (zh) | 情绪识别方法、装置及计算机可读存储介质 | |
CN107492382B (zh) | 基于神经网络的声纹信息提取方法及装置 | |
CN106683680B (zh) | 说话人识别方法及装置、计算机设备及计算机可读介质 | |
WO2021208287A1 (zh) | 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质 | |
CN109377539B (zh) | 用于生成动画的方法和装置 | |
CN108597541B (zh) | 一种增强愤怒与开心识别的语音情感识别方法及系统 | |
CN110246488B (zh) | 半优化CycleGAN模型的语音转换方法及装置 | |
CN111402891B (zh) | 语音识别方法、装置、设备和存储介质 | |
WO2020211820A1 (zh) | 语音情感识别方法和装置 | |
CN112397056B (zh) | 语音评测方法及计算机存储介质 | |
CN113539240B (zh) | 动画生成方法、装置、电子设备和存储介质 | |
Levitan et al. | Combining Acoustic-Prosodic, Lexical, and Phonotactic Features for Automatic Deception Detection. | |
CN113420556B (zh) | 基于多模态信号的情感识别方法、装置、设备及存储介质 | |
CN110738998A (zh) | 基于语音的个人信用评估方法、装置、终端及存储介质 | |
CN113223560A (zh) | 情绪识别方法、装置、设备及存储介质 | |
CN114913859B (zh) | 声纹识别方法、装置、电子设备和存储介质 | |
CN109947971A (zh) | 图像检索方法、装置、电子设备及存储介质 | |
CN114999533A (zh) | 基于情绪识别的智能问答方法、装置、设备及存储介质 | |
CN112489628B (zh) | 语音数据选择方法、装置、电子设备及存储介质 | |
CN116542783A (zh) | 基于人工智能的风险评估方法、装置、设备及存储介质 | |
CN115631748A (zh) | 基于语音对话的情感识别方法、装置、电子设备及介质 | |
CN113053409B (zh) | 音频测评方法及装置 | |
Boulal et al. | Amazigh CNN speech recognition system based on Mel spectrogram feature extraction method | |
CN114519999A (zh) | 基于双模态模型的语音识别方法、装置、设备及存储介质 | |
CN113761146A (zh) | 识别顾客情绪波动的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |