CN109859772B

CN109859772B - 情绪识别方法、装置及计算机可读存储介质

Info

Publication number: CN109859772B
Application number: CN201910223763.5A
Authority: CN
Inventors: 彭俊清; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-03-22
Filing date: 2019-03-22
Publication date: 2023-03-28
Anticipated expiration: 2039-03-22
Also published as: CN109859772A

Abstract

本方案涉及人工智能，提供一种情绪识别方法、装置及计算机可读存储介质，方法包括：接收音频数据，针对音频数据生成语音频谱图，并将语音频谱图输入到第一识别模块，音频数据则输入到第二识别模块，其中，第一识别模块采用依次连接的DCNN、RNN网络来提取出第一特征向量，第二识别模块从音频数据中提取MFCC，MFCC通过非线性变换成为第二特征向量；将第一、第二识别模块输出的第一、第二特征向量连接起来组成联合特征并依次输入全连接层、softmax层，进行情绪识别。本方案DCNN、RNN结合有助于模拟微妙的局部情绪线索，MFCC在短时间内描述语音特征，通过两种特征提取方式，捕获更多情绪相关特征，提高情绪识别率。

Description

情绪识别方法、装置及计算机可读存储介质

技术领域

本发明涉及人工智能，具体地说，涉及一种情绪识别方法、装置及计算机可读存储介质。

背景技术

事故调查是在发生各类事故后一个非常重要的步骤，人们需要通过这一步来弄清事故发生的人为和外界原因，并发布调查报告，来提醒他人来避免再发生此类悲剧。而在许多大型事故中，以空难为例，关键当事人很有可能在事故中遇难，这就为调查工作带来了很大的困难。调查人员不得不通过事故现场的残骸以及黑匣子中的信息来推断出事故发生的原因。现代飞机所使用的黑匣子中，一个非常重要的内容就是驾驶室录音，该录音记录了飞机从起飞到发生事故这一时间段内驾驶室的一切对话和异常声音。而对于情绪识别，目前是采用例如基于上下文语义来识别，也就是说，是通过对于语音中文字的含义分析来判断说话的人的情绪。而对于语音来说，其不仅是在文字中表达了情绪，还在例如语调、说话的频率、呼吸快慢都可能包含着说话者的情绪。而对于这方面，目前没有能够综合考虑语义和语音特征的方法。

发明内容

为解决以上技术问题，本发明提供一种情绪识别方法，应用于电子装置，包括以下步骤：

接收音频数据，针对音频数据生成语音频谱图，并将语音频谱图输入到第一识别模块，而音频数据则输入到第二识别模块，其中，第一识别模块采用依次连接的DCNN、RNN网络来提取出第一特征向量，第二识别模块从音频数据中提取MFCC，所述MFCC通过非线性变换成为第二特征向量；

将第一识别模块、第二识别模块输出的第一特征向量、第二特征向量连接起来组成联合特征，将联合特征依次输入全连接层、softmax层，进行情绪识别。

优选地，在第一识别模块中，将语音频谱图分割为多段，形成多个分段频谱图，将分段频谱图输入到DCNN网络，DCNN网络包括依次连接的一个或多个卷积层，构成卷积特征提取器，特征提取器对输入的多个分段频谱图进行卷积，生成多个特征图谱。

优选地，在DCNN网络的卷积层之间还包括用以减小输出大小和降低过拟合的池化层。

优选地，RNN网络采用LSTM模型，计算LSTM输出的平均池化、最大池化和最小池化，并将平均池化、最大池化和最小池化连接成第一特征向量。

优选地，在第二识别模块中，将音频数据分割成帧，提取每帧的MFCC特征向量，采用三个依次连接的全连接层将各帧的MFCC特征向量依次映射到低维的特征空间，从而形成第二特征向量。

优选地，提取MFCC特征向量的步骤包括：

1)对音频数据进行预加重、分帧和加窗；

2)对每一个短时分析窗，通过FFT得到对应的频谱；

3)将所述频谱通过Mel滤波器组得到Mel频谱；

4)在Mel频谱上面进行倒谱分析获得Mel频率倒谱系数MFCC。

本发明还提供一种电子装置，该电子装置包括：存储器和处理器，所述存储器中存储有情绪识别程序，所述情绪识别程序被所述处理器执行时实现如下步骤：

将第一识别模块、第二识别模块输出的第一特征向量、第二特征向量连接起来组成联合特征，将联合特征依次输入全连接层、softmax层，完成情绪识别。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时，实现以上所述的情绪识别方法。

本发明的情绪识别方法、装置及计算机可读存储介质，采用依次连接的DCNN、RNN网络和MFCC特征相结合的方式，其中，DCNN和RNN结合在一起从语音频谱图中提取特征，有助于模拟微妙的局部情绪线索，同时捕获上下文情绪信息。MFCC可以在很短的时间内描述语音特征。这两种特征从不同的方面描述了言语的情感状态，并在各自的特征空间中。通过这两种特征提取方式，可以更多的捕获情绪相关特征，提高情绪识别率。

附图说明

通过结合下面附图对其实施例进行描述，本发明的上述特征和技术优点将会变得更加清楚和容易理解。

图1是本发明实施例的情绪识别方法的流程示意图；

图2是本发明实施例的电子装置的硬件架构示意图；

图3是本发明实施例的情绪识别程序的模块构成图；

图4是本发明实施例的第一识别模块的单元构成图；

图5是本发明实施例的深度残差网络的构成图。

具体实施方式

下面将参考附图来描述本发明所述的情绪识别方法、装置及计算机可读存储介质的实施例。本领域的普通技术人员可以认识到，在不偏离本发明的精神和范围的情况下，可以用各种不同的方式或其组合对所描述的实施例进行修正。因此，附图和描述在本质上是说明性的，而不是用于限制权利要求的保护范围。此外，在本说明书中，附图未按比例画出，并且相同的附图标记表示相同的部分。

图1为本发明实施例提供的情绪识别方法的流程示意图，该方法包括以下步骤：

步骤S10，接收音频数据，针对音频数据(指一段话语)生成语音频谱图，并将语音频谱图输入到第一识别模块，将音频数据输入到第二识别模块，其中，第一识别模块采用依次连接的DCNN(深度卷积神经网络)、RNN(循环神经网络)来进行特征提取，输出第一特征向量。第二识别模块从音频数据中提取MFCC(梅尔频率倒谱系数)，所述MFCC通过非线性变换成为第二特征向量。

步骤S30，将第一识别模块、第二识别模块输出的第一特征向量、第二特征向量投射到一个联合特征空间中，组成联合特征。将联合特征输入一个全连接层，全连接层的输出传递给softmax层进行分类，完成情绪识别。

进一步地，在第一识别模块中，将语音频谱图分割为多段，也就相当于将一段话分割为一段一段的，形成多个分段频谱图，将分段频谱图输入到DCNN网络，DCNN网络包括依次连接的一个或多个卷积层，构成卷积特征提取器，将一个分段频谱图作为卷积特征提取器的输入，输入到卷积特征提取器中，卷积特征提取器对输入的分段频谱图进行卷积生成特征图谱。将前面分割得到的多个分段频谱图分别输入到卷积特征提取器中，从而生成多个特征图谱。优选地，在DCNN网络的卷积层之间还可以包括用以减小输出大小和降低过拟合的池化层。

例如，一段话“在回家的路上，明明神情沮丧地向母亲说：“妈妈，我今天得了倒数第一。”母亲走到孩子的面前，蹲下身来，将双手放在儿子的肩上，慢慢地说：“今天的跑步，妈妈已经看见明明在拼命地跑了。”在形成语音频谱图后，分割成多个分段语音频谱图，则相当于将这段话分割为“在回家的路上，”、“明明神情沮丧地向母亲说：”、““妈妈，我今天得了倒数第一。””、“母亲走到孩子的面前，蹲下身来，将双手放在儿子的肩上，慢慢地说”、““今天的跑步，妈妈已经看见明明在拼命地跑了。””。将各个分段频谱图输入卷积特征提取器，就能够生成多个特征图谱。

进一步地，RNN网络采用LSTM(长短期记忆网络)模型，能够处理顺序数据中存在的长期依赖关系。LSTM模型输出的统计数据是通过池化层计算的。将DCNN输出的特征图谱输入LSTM模型中，为了获得LSTM模型输出的更丰富的统计信息，计算LSTM模型输出的平均池化、最大池化和最小池化，并将平均池化、最大池化和最小池化连接成第一特征向量。

进一步地，在第二识别模块中，将音频数据分割成帧，例如分割为一帧一帧的形式，提取每帧的MFCC特征向量，采用三个依次连接的全连接层将各帧的MFCC特征向量依次映射到低维的特征空间，从而形成第二特征向量。

进一步地，提取MFCC特征向量的步骤包括：

1)对音频数据进行预加重、分帧和加窗；

2)对每一个短时分析窗，通过FFT(快速傅里叶变换)得到对应的频谱；

3)将所述频谱通过梅尔滤波器组得到梅尔频谱；

4)在梅尔频谱上面进行倒谱分析获得梅尔频率倒谱系数MFCC。具体说，包括取对数，做逆变换，其中逆变换是通过DCT(离散余弦变换)来实现的，取DCT后的第2个到第13个系数作为MFCC系数，获得梅尔频率倒谱系数MFCC，这个MFCC就是某一帧语音的特征。通过对多帧语音进行以上操作，就可以得到多个倒谱向量，每个倒谱向量就是每帧的MFCC特征向量。

在一个可选实施例中，第一识别模块采用3种DCNN融合的方式来生成特征图谱，从ImageNet(用于视觉对象识别软件研究的可视化数据库)中选取CaffeNet、OverFeatL、GoogLeNet这3种DCNN模型，CaffeNet和OverFeat都是在AlexNet模型基础上的改进，AlexNet包括依次连接的5个卷积层和三个全连接层。其中，在第一层的卷积层、第二层的卷积层后都进行归一化操作，在第一层的卷积层、第二层的卷积层、第五层的卷积层后都设置有池化层。其中，先进行归一化操作，然后再进行池化操作。

CaffeNet相对于AlexNet来说是交换了卷积层之间的归一化和池化操作顺序，即先进行池化，然后再进行归一化操作，基于Caffe(一种特征提取器)实现。OverFeatL包括依次连接的6个卷积层和三个全连接层，并采取了不同的卷积核大小和步长，基于OverFeat(一种特征提取器)实现。Caffe和OverFeat分别提供了利用ImageNet预训练的CaffeNet和OverFeatL的初始化权重。

GoogLeNet模型包括多个Inception网络，Inception网络在一层网络中存在多个不同尺度的卷积核，具体说，包括1×1，3×3，5×5三种不同尺度的卷积核和3×3的max池化来进行该层的计算输出。来保留空间维度,降低深度，在池化之后采用1×1卷积核来减少池化后的深度，从而主要达到减小规模的目的。多个Inception网络互相堆叠，并在最后连接一个softmax层，就得到GoogLeNet模型。将三个DCNN模型的输出融合在一起，形成特征图谱。

在一个可选实施例中，采用语音识别方法将音频数据转换为文本数据，并将文本数据输入深度残差网络中，所述深度残差网络包括多个卷积段，其中，每个卷积段包括多个残差单元，每个残差单元又依次包括三个卷积层；分别提取深度残差网络的多个卷积段的最后一个残差单元的输出作为特征向量，将得到的多个特征向量通过全连接层组合成第三特征向量。并将第三特征向量与第一特征向量、第二特征向量都投射到一个联合特征空间中，组成联合特征。将联合特征输入一个全连接层，全连接层的输出传递给softmax层进行分类，完成情绪识别。也就是说，对于一段音频数据，既通过音频数据的语音频谱图来提取特征向量，还通过音频数据转换成的文本数据来提取特征向量，还通过音频数据提取每帧的MFCC特征向量，采用多特征融合的方式提取有关于情绪的特征向量。

其中，深度残差网络采用Resnet_101的网络结构，如图5所示，其中Resnet_101包括依次连接的第一卷积段(conv1)、第二卷积段(conv2)、第三卷积段(conv3)、第四卷积段(conv4)、第五卷积段(conv5)，以及一个全连接层FC，输入图像依次经过第一至第五卷积段，并经全连接层FC输出。

第一卷积段包括7x7x64的卷积，其中，7X7表示卷积核，64表示通道数，

第二卷积段包括3个残差单元，每个残差单元又依次包括1X1X64、3X3X64、1X1X256三个卷积层；

第三卷积段包括4个残差单元，每个残差单元又依次包括1X1X128、3X3X128、1X1X512三个卷积层；

第四卷积段包括23个残差单元，每个残差单元又依次包括1X1X256、3X3X256、1X1X1024三个卷积层；

第五卷积段包括3个残差单元，每个残差单元又依次包括1X1X512、3X3X512、1X1X2048三个卷积层。

其中，深度残差网络由残差单元组成，每个残差单元表示为：

y_i＝h(x_i)+F(x_i，w_i)

x_i+1＝f(y_i)

其中，

F是残差函数；

f是ReLU函数；

w_i是权重矩阵；

x_i是第i层的输入；

y_i是第i层的输出；

函数h的公式为：h(x_i)＝x_i

残差函数F的公式为：

F(x_i，w_i)＝w_i·σ(B(w′_i)·σ(B(x_i)))

其中，B(x_i)是批量归一化；

w′_i是w_i的转置；

“·”表示卷积；

σ(x_i)＝max(x，0)。

通过预先标注的文本对深度残差网络进行预训练，也即是利用深度残差网络对标注有情绪属性的文本进行分类训练，获得权重矩阵w_i，并利用预先训练的权重矩阵w_i初始化深度残差网络。

在一个可选实施例中，采用多次分割的形式来形成多组分段频谱图，每一组分段频谱图都输入到第一识别模块中来获取第一特征向量。具体说，采用平均分割的方式来形成一组分段频谱图，并且采用分割长度逐渐递加的方式来形成多组分段频谱图，例如，第一组分段频谱图是将一段音频数据分割为平均分割为10段分段频谱图，第二组将该段音频数据平均分割为8段分段频谱图，第三组将该段音频数据平均分割为6段分段频谱图，第四组将该段音频数据平均分割为4段分段频谱图，第五组将该段音频数据平均分割为2段分段频谱图。将多组分段频谱图分别输入第一识别模块中，对应每一组分段频谱图都会得到一个第一特征向量，将多个第一特征向量经过一个全连接层，输出一个组合的第一特征向量，并将该组合的第一特征向量与第二特征向量再组成联合特征。采用不同的分割长度形成多组分段频谱图，可以有利于针对不同分割长度的音频提取出多个特征，也更加有利于最终的识别结果。

在一个可选实施例中，还可以采用以上形成的每一组分段频谱图产生的第一特征向量与第二特征向量来识别情绪，即每组第一特征向量分别与第二特征向量组合成联合特征，来分别识别情绪，并将识别结果按照识别出的类别分别按照线性加权计算分类分值，并选取分类分值最大的来作为分类识别结果。例如，假设事先设定的情绪分类共有5类，分别为“生气”、“着急”、“中性”、“愉悦”、“高兴”，设定5类分别对应的初始分值都是1。假设以上五组联合特征分别对应的识别结果是“中性”、“中性”、“高兴”、“高兴”、“高兴”。假设对应的权重值分别为0.1、0.2、0.4、0.1、0.2。则对应的计算结果是“中性”采用线性加权对应的分类分值为0.1*1+0.20*1＝0.3，而“高兴”采用线性加权对应的分类分值为0.4*1+0.1*1+0.2*1＝0.7。并比较这两个分类的分类分值大小，选取数值大的作为识别结果。由于0.7大于0.3，则最终的识别结果为高兴。其中权重值可以是根据分段频谱图的分割长度不同来设定的。例如，分段长度越短，则权重值越高，但权重值的和为1。

在一个可选实施例中，采用分割长度逐渐递加的方式形成一组分段频谱图，具体说，例如，将一段1分钟的音频数据分割为10秒、20秒、30秒。通过获取不同时域对应的分段频谱图，可以丰富提取的特征向量所包含的情感信息。

在一个可选实施例中，对于情绪识别来说，一段音频数据，当前正在说的词语和情绪波动和之前说过的词语以及情绪波动对于情绪识别的贡献值应该是有区别的，即当前(t时刻)正在说的词语和情绪波动比t时刻之前说的词语和情绪波动更能够影响情绪识别结果。因此，RNN网络中的LSTM模型还可以结合注意力机制来提高特征图谱的提取精度。将音频数据分割成的多个语音频谱图分别按照时间先后顺序形成时间序列。

假设当前时刻为t时刻，有t-1时刻LSTM模型的输出h_t-1,s_t-1以及所有时刻的张量输入X＝(x¹,x²,…,x^N)，这里的张量输入就是前面分割得到的分段频谱图，采用如下方式计算t时刻LSTM模型的虚拟输出(即特征图谱)：

其中：

t为t时刻；

h_virtual和s_virtual为LSTM模型的虚拟输出；

R为LSTM模型操作；

h_t-1是t-1时刻LSTM模型的输出；

是加上第一注意力权重之后的时间序列；

S_t-1是h_t-1对应的t-1时刻的标签；

是第一注意力权重，用于对时间序列进行加权处理；

是h_t-1与x^k的关系分数；

是第N个输入在LSTM模型里的时间序列的第t个值；

为时间序列的第k个输入的时间序列；

v_e,W_e和U_e是可训练的参数。

参阅图2所示，是本发明电子装置的实施例的硬件架构示意图。本实施例中，所述电子装置2是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。例如，可以是智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。如图2所示，所述电子装置2至少包括，但不限于，可通过系统总线相互通信连接的存储器21、处理器22、网络接口23。其中：所述存储器21至少包括一种类型的计算机可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器21可以是所述电子装置2的内部存储单元，例如该电子装置2的硬盘或内存。在另一些实施例中，所述存储器21也可以是所述电子装置2的外部存储设备，例如该电子装置2上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(SecureDigital，SD)卡，闪存卡(FlashCard)等。当然，所述存储器21还可以既包括所述电子装置2的内部存储单元也包括其外部存储设备。本实施例中，所述存储器21通常用于存储安装于所述电子装置2的操作系统和各类应用软件，例如所述情绪识别程序代码等。此外，所述存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器22在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制所述电子装置2的总体操作，例如执行与所述电子装置2进行数据交互或者通信相关的控制和处理等。本实施例中，所述处理器22用于运行所述存储器21中存储的程序代码或者处理数据，例如运行所述的情绪识别程序等。

所述网络接口23可包括无线网络接口或有线网络接口，该网络接口23通常用于在所述电子装置2与其他电子装置之间建立通信连接。例如，所述网络接口23用于通过网络将所述电子装置2与推送平台相连，在所述电子装置2与推送平台之间建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，GSM)、宽带码分多址(WidebandCodeDivision Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

可选地，该电子装置2还可以包括显示器，显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)显示器等。显示器用于显示在电子装置2中处理的信息以及用于显示可视化的用户界面。

需要指出的是，图2仅示出了具有组件21-23的电子装置2，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

包含可读存储介质的存储器21中可以包括操作系统、情绪识别程序50等。处理器22执行存储器21中情绪识别程序50时实现如下步骤：

步骤S10，接收音频数据，针对音频数据(指一段话语)生成语音频谱图，并将语音频谱图输入到第一识别模块，将音频数据输入到第二识别模块，其中，第一识别模块采用DCNN(深度卷积神经网络)来进行特征提取，输出第一特征向量。第二识别模块从音频数据中提取MFCC(梅尔频率倒谱系数)，所述MFCC通过非线性变换成为第二特征向量。

在本实施例中，存储于存储器21中的所述情绪识别程序可以被分割为一个或者多个程序模块，所述一个或者多个程序模块被存储于存储器21中，并可由一个或多个处理器(本实施例为处理器22)所执行，以完成本发明。例如，图3示出了所述情绪识别程序的程序模块示意图，图4示出了第一识别模块502的单元构成图，该实施例中，所述情绪识别程序50可以被分割为语音频谱图生成模块501、第一识别模块502、第二识别模块503、联合特征模块504、分类模块505。其中，本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序更适合于描述所述情绪识别程序在所述电子装置2中的执行过程。以下描述将具体介绍所述程序模块的具体功能。

其中，语音频谱图生成模块501用于接收音频数据，针对音频数据(指一段话语)生成语音频谱图，并将语音频谱图输入到第一识别模块。其中，第一识别模块502包括DCNN特征提取单元5021，DCNN特征提取单元5021进行特征提取，输出第一特征向量。第二识别模块503用于接收音频数据，并从音频数据中提取MFCC(梅尔频率倒谱系数)，所述MFCC通过非线性变换成为第二特征向量。

联合特征模块504用于将第一识别模块、第二识别模块输出的第一特征向量、第二特征向量投射到一个联合特征空间中，组成联合特征，并将联合特征输入一个全连接层，全连接层的输出传递给分类模块505，分类模块505的softmax层进行分类，完成情绪识别。

在一个可选实施例中，第一识别模块502包括RNN网络单元5022，RNN网络单元5022采用LSTM(长短期记忆网络)模型，能够处理顺序数据中存在的长期依赖关系。LSTM模型输出的统计数据是通过池化层计算的。将DCNN输出的特征图谱输入LSTM模型中，为了获得LSTM模型输出的更丰富的统计信息，计算LSTM模型输出的平均池化、最大池化和最小池化，并将平均池化、最大池化和最小池化连接成第一特征向量。

在一个可选实施例中，第二识别模块503用于将音频数据分割成帧，例如分割为一帧一帧的形式，提取每帧的MFCC特征向量，采用三个依次连接的全连接层将各帧的MFCC特征向量依次映射到低维的特征空间，从而形成第二特征向量。第二识别模块503提取MFCC特征向量的步骤包括：

1)对音频数据进行预加重、分帧和加窗；

3)将所述频谱通过梅尔滤波器组得到梅尔频谱；

4)在梅尔频谱上面进行倒谱分析获得梅尔频率倒谱系数MFCC。具体说，包括取对数，做逆变换，其中逆变换是通过DCT(离散余弦变换)来实现的，取DCT后的第2～13个元素，舍弃其他。这个长度为12的向量作为MFCC系数，获得梅尔频率倒谱系数MFCC，这个MFCC就是某一帧语音的特征。通过对多帧语音进行以上操作，就可以得到多个倒谱向量，每个倒谱向量就是每帧的MFCC特征向量。

在一个可选实施例中，第一识别模块502还包括CaffeNet模型单元5023、OverFeatL模型单元5024、GoogLeNet模型单元5025这3种DCNN融合的方式来生成特征图谱，从ImageNet(用于视觉对象识别软件研究的可视化数据库)中选取CaffeNet、OverFeatL、GoogLeNet这3种DCNN模型，CaffeNet和OverFeat都是在AlexNet模型基础上的改进，AlexNet包括依次连接的5个卷积层和三个全连接层。其中，在第一层的卷积层、第二层的卷积层后都进行归一化操作，在第一层的卷积层、第二层的卷积层、第五层的卷积层后都设置有池化层。其中，先进行归一化操作，然后再进行池化操作。

CaffeNet模型单元5023的CaffeNet模型相对于AlexNet来说是交换了卷积层之间的归一化和池化操作顺序，即先进行池化，然后再进行归一化操作，基于Caffe(一种特征提取器)实现。OverFeatL模型单元5024的OverFeatL模型包括依次连接的6个卷积层和三个全连接层，并采取了不同的卷积核大小和步长，基于OverFeat(一种特征提取器)实现。Caffe和OverFeat分别提供了利用ImageNet预训练的CaffeNet和OverFeatL的初始化权重。

GoogLeNet模型单元5025的GoogLeNet模型包括多个Inception网络，Inception网络在一层网络中存在多个不同尺度的卷积核，具体说，包括1×1，3×3，5×5三种不同尺度的卷积核和3×3的max池化来进行该层的计算输出。来保留空间维度,降低深度，在池化之后采用1×1卷积核来减少池化后的深度，从而主要达到减小规模的目的。多个Inception网络互相堆叠，并在最后连接一个softmax层，就得到GoogLeNet模型。将三个DCNN模型的输出融合在一起，形成特征图谱。

在一个可选实施例中，情绪识别程序50还包括文本识别模块506，文本识别模块506采用语音识别方法将音频数据转换为文本数据，并将文本数据输入深度残差网络中，所述深度残差网络包括多个卷积段，其中，每个卷积段包括多个残差单元，每个残差单元又依次包括三个卷积层；分别提取深度残差网络的多个卷积段的最后一个残差单元的输出作为特征向量，将得到的多个特征向量通过全连接层组合成第三特征向量。并将第三特征向量与第一特征向量、第二特征向量都投射到一个联合特征空间中，组成联合特征。将联合特征输入一个全连接层，全连接层的输出传递给softmax层进行分类，完成情绪识别。也就是说，对于一段音频数据，既通过音频数据的语音频谱图来提取特征向量，还通过音频数据转换成的文本数据来提取特征向量，还通过音频数据提取每帧的MFCC特征向量，采用多特征融合的方式提取有关于情绪的特征向量。

深度残差网络采用Resnet_101的网络结构，如图5所示，其中Resnet_101包括依次连接的第一卷积段(conv1)、第二卷积段(conv2)、第三卷积段(conv3)、第四卷积段(conv4)、第五卷积段(conv5)，以及一个全连接层FC，输入图像依次经过第一至第五卷积段，并经全连接层FC输出。

y_i＝h(x_i)+F(x_i，w_i)

x_i+1＝f(y_i)

其中，

F是残差函数；

f是ReLU函数；

w_i是权重矩阵；

x_i是第i层的输入；

y_i是第i层的输出；

函数h的公式为：h(x_i)＝x_i

残差函数F的公式为：

F(x_i，w_i)＝w_i·σ(B(w′_i)·σ(B(X_i)))

其中，B(x_i)是批量归一化；

w′_i是w_i的转置；

“·”表示卷积；

σ(x_i)＝max(x，0)。

在一个可选实施例中，语音频谱图生成模块501还用于采用多次分割的形式来形成多组分段频谱图，每一组分段频谱图都输入到第一识别模块中来获取第一特征向量。具体说，采用平均分割的方式来形成一组分段频谱图，并且采用分割长度逐渐递加的方式来形成多组分段频谱图，例如，第一组分段频谱图是将一段音频数据分割为平均分割为10段分段频谱图，第二组将该段音频数据平均分割为8段分段频谱图，第三组将该段音频数据平均分割为6段分段频谱图，第四组将该段音频数据平均分割为4段分段频谱图，第五组将该段音频数据平均分割为2段分段频谱图。将多组分段频谱图分别输入第一识别模块中，对应每一组分段频谱图都会得到一个第一特征向量，将多个第一特征向量经过一个全连接层，输出一个组合的第一特征向量，并将该组合的第一特征向量与第二特征向量再组成联合特征。采用不同的分割长度形成多组分段频谱图，可以有利于针对不同分割长度的音频提取出多个特征，也更加有利于最终的识别结果。

在一个可选实施例中，情绪识别程序50还包括线性加权模块507，线性加权模块507可以采用以上形成的每一组分段频谱图产生的第一特征向量与第二特征向量来识别情绪，即每组第一特征向量分别与第二特征向量组合成联合特征，来分别识别情绪，并将识别结果按照识别出的类别分别按照线性加权计算分类分值，并选取分类分值最大的来作为分类识别结果。例如，假设事先设定的情绪分类共有5类，分别为“生气”、“着急”、“中性”、“愉悦”、“高兴”，设定5类分别对应的初始分值都是1。假设以上五组联合特征分别对应的识别结果是“中性”、“中性”、“高兴”、“高兴”、“高兴”。假设对应的权重值分别为0.1、0.2、0.4、0.1、0.2。则对应的计算结果是“中性”采用线性加权对应的分类分值为0.1*1+0.20*1＝0.3，而“高兴”采用线性加权对应的分类分值为0.4*1+0.1*1+0.2*1＝0.7。并比较这两个分类的分类分值大小，选取数值大的作为识别结果。由于0.7大于0.3，则最终的识别结果为高兴。其中权重值可以是根据分段频谱图的分割长度不同来设定的。例如，分段长度越短，则权重值越高，但权重值的和为1。

在一个可选实施例中，语音频谱图生成模块501还采用分割长度逐渐递加的方式形成一组分段频谱图，具体说，例如，将一段1分钟的音频数据分割为10秒、20秒、30秒。通过获取不同时域对应的分段频谱图，可以丰富提取的特征向量所包含的情感信息。

在一个可选实施例中，情绪识别程序50还包括时间序列加权模块508，对于情绪识别来说，一段音频数据，当前正在说的词语和情绪波动和之前说过的词语以及情绪波动对于情绪识别的贡献值应该是有区别的，即当前(t时刻)正在说的词语和情绪波动比t时刻之前说的词语和情绪波动更能够影响情绪识别结果。因此，RNN网络中的LSTM模型还可以结合注意力机制来提高特征图谱的提取精度。时间序列加权模块508用于将音频数据分割成的多个语音频谱图分别按照时间先后顺序形成时间序列，并基于注意力权重来对时间序列加权，来提高情绪识别的准确度。以下是采用了基于注意力权重的时间序列来辅助提高情绪识别准确度的公式。

假设当前时刻为t时刻，有t-1时刻LSTM模型的输出h_t-1,st_-1以及所有时刻的张量输入X＝(x¹,x²,…,x^N)，这里的张量输入就是前面分割得到的分段频谱图，采用如下方式计算t时刻LSTM模型的虚拟输出(即特征图谱)：

其中：

t为t时刻；

h_virtual和s_virtual为LSTM模型的虚拟输出；

R为LSTM模型操作；

h_t-1是t-1时刻LSTM模型的输出；

是加上第一注意力权重之后的时间序列；

S_t-1是h_t-1对应的t-1时刻的标签；

是第一注意力权重，用于对时间序列进行加权处理；

是h_t-1与x^k的关系分数；

是第N个输入在LSTM模型里的时间序列的第t个值；

为时间序列的第k个输入的时间序列；

v_e,W_e和U_e是可训练的参数。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等等中的任意一种或者几种的任意组合。所述计算机可读存储介质中包括情绪识别程序等，所述情绪识别程序50被处理器22执行时实现如下操作：

步骤S10，接收音频数据，针对音频数据(指一段话语)生成语音频谱图，并将语音频谱图输入到第一识别模块，将音频数据输入到第二识别模块，其中，第一识别模块采用依次连接的DCNN(深度卷积神经网络)、RNN来进行特征提取，输出第一特征向量。第二识别模块从音频数据中提取MFCC(梅尔频率倒谱系数)，所述MFCC通过非线性变换成为第二特征向量。

本发明之计算机可读存储介质的具体实施方式与上述情绪识别方法以及电子装置2的具体实施方式大致相同，在此不再赘述。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种情绪识别方法，应用于电子装置，其特征在于，包括以下步骤：

采用语音识别方法将音频数据转换为文本数据，并将文本数据输入深度残差网络中，所述深度残差网络包括多个卷积段；分别提取深度残差网络的多个卷积段的最后一个残差单元的输出作为特征向量，将得到的多个特征向量通过全连接层组合成第三特征向量，

将第三特征向量与第一特征向量、第二特征向量组成联合特征，将联合特征依次输入全连接层、softmax层，进行情绪识别。

2.如权利要求1所述的情绪识别方法，其特征在于：

在第一识别模块中，将语音频谱图分割为多段，形成多个分段频谱图，将分段频谱图输入到DCNN网络，DCNN网络包括依次连接的一个或多个卷积层，构成卷积特征提取器，特征提取器对输入的多个分段频谱图进行卷积，生成多个特征图谱。

3.如权利要求2所述的情绪识别方法，其特征在于：在DCNN网络的卷积层之间还包括用以减小输出大小和降低过拟合的池化层。

4.如权利要求3所述的情绪识别方法，其特征在于：

RNN网络采用LSTM模型，计算LSTM输出的平均池化、最大池化和最小池化，并将平均池化、最大池化和最小池化连接成第一特征向量。

5.如权利要求1所述的情绪识别方法，其特征在于：

在第二识别模块中，将音频数据分割成帧，提取每帧的MFCC特征向量，采用三个依次连接的全连接层将各帧的MFCC特征向量依次映射到低维的特征空间，从而形成第二特征向量。

6.如权利要求5所述的情绪识别方法，其特征在于：提取MFCC特征向量的步骤包括：

对音频数据进行预加重、分帧和加窗；

对每一个短时分析窗，通过FFT得到对应的频谱；

将所述频谱通过Mel滤波器组得到Mel频谱；

在Mel频谱上面进行倒谱分析获得Mel频率倒谱系数MFCC。

7.一种电子装置，其特征在于，该电子装置包括：存储器和处理器，所述存储器中存储有情绪识别程序，所述情绪识别程序被所述处理器执行时实现如下步骤：

将第三特征向量与第一特征向量、第二特征向量组成联合特征，将联合特征依次输入全连接层、softmax层，完成情绪识别。

8.如权利要求7所述的电子装置，其特征在于：

9.如权利要求7所述的电子装置，其特征在于：在DCNN网络的卷积层之间还包括用以减小输出大小和降低过拟合的池化层。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时，实现权利要求1至6中任一项所述的情绪识别方法。