CN108899051A

CN108899051A - 一种基于联合特征表示的语音情感识别模型及识别方法

Info

Publication number: CN108899051A
Application number: CN201810668198.9A
Authority: CN
Inventors: 邹月娴; 罗丹青
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Peking University Shenzhen Graduate School
Priority date: 2018-06-26
Filing date: 2018-06-26
Publication date: 2018-11-27
Anticipated expiration: 2038-06-26
Also published as: CN108899051B

Abstract

本发明公布了一种基于联合特征表示的语音情感识别模型及识别方法，涉及语音情感识别技术。对卷积循环神经网络模型进行了改进，利用神经网络中的隐含层学习频谱深度特征和手工特征的联合特征表示，并在端到端的网络模型中实现联合特征提取和情感分类的一体化。联合特征利用了频谱深度特征和手工特征之间的互补性，充分利用了语音中携带的情感信息，对语音情感进行了更完善的建模。此外，端到端的网络模型减少了中间输出层带来的参数冗余。基于联合特征表示的语音情感识别方法相比原有基于单纯卷积循环神经网络的语音情感识别方法提高了语音情感的识别准确率。

Description

一种基于联合特征表示的语音情感识别模型及识别方法

技术领域

本发明涉及语音情感识别技术，尤其涉及一种基于联合特征表示的卷积循环神经网络的语音情感识别模型(HSF-CRNN)构建及语音情感识别方法。

背景技术

情感识别有助于为人机交互提供人性化体验，使得计算机能够感知用户的情感状态并进行分析、随之产生相应的响应，是未来计算机必备的一项重要能力。其中语音作为人类沟通交流的基本方式，语音情感识别显得尤为重要。语音情感识别是对给定的语音片段进行情感种类标定的过程，具体来说，它的任务是从采集到的语音信号中提取能够表达情感的声学特征，再把这些特征映射为某类情感。

人们对语音情感的感知通常蕴藏于某一相对较长时间段内情感的波动表达，而不是从瞬时的语音中判断，因此基于传统方法的语音情感识别把采用的手工特征分为了两大类：低层描述子(Low Level Descriptor,LLD)和高层统计特征(High-level StatisticFeature,HSF)。低层描述子从时长以毫秒为单位的语音帧中提取，表征的是短时音频的特性。高层统计特征由该句话中所有低层描述子的统计值组成，刻画了低层描述子在整句话中的动态变化情况。随着深度学习的发展，基于神经网络的方法在语音情感识别中也取得了很好的效果，实践中大多采用卷积神经网络。基于卷积神经网络的情感识别方法自动地从频谱中提取能够反映情感信息的深层语义特征。到目前为止，基于神经网络的语音情感识别方法仅仅从单一的特征(如频谱或手工特征)中学习情感深度特征。然而语音中包括了复杂的信息，可以提取出各种不同的特征，现有方法没有充分利用不同特征之间的互补性，使得对语音情感的建模能力不佳，导致情感识别性能也相对不高。

发明内容

为了克服上述现有技术的不足，本发明提供一种基于联合特征表示的语音情感识别模型(HSF-CRNN)构建及语音情感识别方法，对卷积循环神经网络(ConvolutionalRecurrent Neural Network,CRNN)模型进行改进，同时利用手工特征和神经网络学习到的深度特征，充分利用原始语音中携带的情感信息，对语音情感进行更加全面的建模，由此有效地实现语音情感识别。本发明方法建立了一个端到端的神经网络模型，也避免了存在中间输出层导致的中间层过拟合问题。

本发明的原理是：一方面使用深度特征，利用卷积循环神经网络中的卷积神经网络部分学习频谱的局部情感特征，利用卷积循环神经网络中的循环神经网络部分对卷积神经网络学到的局部情感特征进行进一步抽象，并通过池化层学到原始语音的全局情感特征；另一方面使用人工特征，采取现有的传统的方法从原始语音中提取低层描述子，并对它们计算高层统计特征。通过神经网络学习深度特征和人工特征的联合特征表达，构建基于联合特征表示的语音情感识别模型，并直接在模型后端的输出层中输出预判的情感类别，由此实现语音情感识别。

本发明提供的技术方案如下：

一种基于联合特征表示的语音情感识别方法，通过构建基于联合特征表示的语音情感识别模型，在模型后端的输出层中输出预判的情感类别，实现语音情感识别；所述联合特征表示是指通过神经网络学习深度特征和人工特征的联合特征表达；

所述深度特征是指使用频谱特征，利用卷积循环神经网络中的卷积神经网络部分学习频谱的局部情感特征，利用卷积循环神经网络中的循环神经网络部分对卷积神经网络学到的局部情感特征进行进一步抽象，并通过池化层学习得到原始语音的全局情感特征；

所述人工特征是指从原始语音中提取低层描述子，并对低层描述子进行计算，得到的高层统计特征；

通过神经网络学习联合特征表达具体是指：将深度特征和人工特征通过各自的隐含层提取高层特征，再串联两者的高层特征输入同一个隐含层，得到的输出即为两者的联合特征表达。

构建基于联合特征表示的语音情感识别模型包括如下过程：

A)构建卷积循环神经网络，对频谱提取深度情感特征，实现方法为：

A1)对输入的完整语音计算log-mel频谱，用固定时长的滑窗在频谱上沿着时间轴进行滑动，把频谱在时间轴上切分为对应时长相等、具有重叠部分的频谱段。因此对于一句语音输入，得到了[s(1),s(2),…,s(T)]，其中s(t)是一个频谱段，T是频谱段总段数；

A2)将每段频谱段输入同一个卷积神经网络中，该卷积神经网络对一个频谱段s(t)进行多次的卷积-池化操作，可为每个频谱段得到一个特征图c(t)。因此，对于原始语音输入，在这一步得到[c(1),c(2),…,c(T)]；

A3)将原始输入语音所有频谱段产生的特征图都伸展成为一维向量，把这些特征向量按所属频谱段的时间顺序输入一个循环神经网络，循环神经网络为每一个时间节点t的特征向量都提取出包含上下文时序信息的更高层语义的特征向量r(t)，形成一个新的特征向量序列[r(1),r(2),…,r(T)]；

A4)分别用最大值池化层、均值池化层、最小值池化层对特征向量序列进行处理，得到特征向量序列的最大值向量P_max、均值向量P_ave、最小值向量P_min，把这三个向量串联为一个一维向量p，该一维向量表征了原始输入语音中情感的动态变化。三个池化层中的操作如以下公式所示：

令r(t)ⁱ表示r(t)的第i个元素，表示P_max中的第i个元素，表示P_min中的第i个元素，n表示向量r(t)中的元素总数，则：

其中

P_ave＝∑_1≤t≤Tr(t)/T (式2)

其中

B)对原始输入语音提取低层描述子，并计算高层统计特征HSF，HSF形成一维向量。

C)对步骤A中得到的一维向量p和步骤B中得到的HSF进行联合特征表示，包括如下步骤：

C1)令p和HSF分别输入语音情感识别模型中不同的隐含层，各自经过若干层隐含层后(层数可为0)，各自得到更为抽象的特征表示；

C2)串联p和HSF的隐含层输出使之成为一个新的一维特征向量；

C3)令串联后的特征向量输入下一个隐含层，该隐含层把p和HSF映射到同一个特征空间，学习了它们的联合特征表示。

D)联合特征经过若干个隐含层后(个数可能为0、1或多个)，输入到输出层进行情感类别的预测。

基于联合特征表示的语音情感识别神经网络结构如图3所示，包括了卷积层、池化层、循环神经网络层、全连接层和输出层。

采用上述网络进行语音情感识别，完整过程包括模型训练阶段和测试阶段，如图1所示。模型训练阶段使用的训练数据为已知情感类别标签的<音频数据，标签>数据对。在模型测试阶段，使用在模型训练阶段训练好的模型对给定的音频数据预测情感类别，可预测的类别为训练数据中出现过的所有情感类别。模型测试阶段只需要<音频数据>，但一般使用<音频数据，标签>数据对来验证模型性能。

模型训练阶段执行以下操作：

11)对一条音频数据提取log-mel频谱，并把频谱在时间轴上分割为时长相等的频谱段；

12)将频谱段输入构建的语音情感识别模型的卷积循环神经网络部分，得到深度频谱特征；

13)对这条音频数据计算高层统计特征；

14)将高层统计特征输入对应的全连接层，得到神经网络对手工特征的抽象表示；

15)令12)和14)中得到的特征向量分别输入若干个(可为0个，1个或多个)隐含层；

16)串联15)中得到两种特征向量的隐含层输出，并输入下一个全连接层，得到深度频谱特征和手工特征的联合特征表示；

17)联合特征经过若干个(可能为0个，1个，或多个)隐含层；

18)输出层输出该条音频数据的预测情感类别；

19)在训练模型过程的一次迭代中，包括了对多条音频数据(称为一个批)从步骤11)到18)的并行处理；

110)已知该批数据的真实标签和预测标签，根据交叉熵函数，计算该次迭代的损失值，用于使用梯度下降算法更新模型参数；

111)重复步骤11)至110)，即对模型进行多次迭代，直到达到指定的迭代次数或者损失值在迭代中不再变化(变化波动在阈值范围内)。

模型测试阶段执行以下操作：

21)对一条音频数据提取log-mel频谱，并把频谱在时间轴上分割为时长相等的频谱段；

22)将频谱段输入卷积循环神经网络部分，得到深度频谱特征；

23)对这条音频数据计算高层统计特征；

24)将高层统计特征输入对应的全连接层，得到神经网络对手工特征的抽象表示；

25)令22)和24)中得到的特征向量分别输入若干个(可为0个，1个或多个)隐含层；

26)串联25)中得到两种特征向量的隐含层输出，并输入下一个全连接层，得到深度频谱特征和手工特征的联合特征表示；

27)联合特征经过若干个(可能为0个，1个，或多个)隐含层；

28)输出层输出该条音频数据的预测情感类别。

通过上述步骤，实现了基于联合特征表示的语音情感识别。

与现有技术相比，本发明的有益效果是：

本发明提出了一种基于联合特征表示的语音情感识别方法，充分利用了语音中携带的情感信息。同时利用了卷积循环网络从频谱学习到的深度特征和传统的手工特征，通过神经网络把两类特征映射到同一空间，得到情感的联合特征表示，相对仅使用单一特征增强了对情感的描述能力，从而提高了语音情感识别的准确率。另一方面，在提取联合特征后，也在同一个神经网络中直接进行了情感的分类，负责特征提取的神经网络与负责情感分类的神经网络直接相连，不需要分开训练，形成了端到端的情感识别模型，减少了中间输出层带来的参数冗余，提高了后端分类器的泛化性能。

附图说明

图1为本发明中构建语音情感识别模型及通过模型训练阶段和测试阶段识别语音情感方法的流程框图。

图2为本发明实施例中创建模型采用的卷积循环神经网络(CRNN)部分的结构框图，并以卷积循环神经网络构建了一个完整的语音情感识别模型(plain CRNN)，其中池化层部分采用三种池化方式(最大值池化、均值池化、最小值池化)的串联。

图3为本发明实施例中提供的基于联合特征表示的卷积循环神经网络(HSF-CRNN)的结构框图；

其中，CRNN表示以语音频谱为输入的卷积循环神经网络通道；FC为全连接层；LLDs表示从音频中提取出的低层描述子；HSFs表示根据LLDs计算的原始音频的高层统计特征；softmax表示激活函数为softmax的神经网络输出层。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供一种基于联合特征表示的语音情感识别方法，方法流程如图1所示，对卷积循环神经网络进行改进，通过融合卷积循环神经网络从频谱学到的深度特征和手工特征，把两者通过隐含层映射到同一特征空间进行分类，充分利用了语音中携带的情感信息，对语音情感进行了更有效的建模，从而提高了语音情感识别的准确率。

图3为根据一示例实施本发明提供的基于联合特征表示的语音情感识别模型的结构框图。该模型包括了两个通道，一个为以语音频谱为输入的卷积循环神经网络(CRNN)通道，一个为以手工特征低层描述子(LLD)为输入的全连接层通道，两个通道在一层隐含层中进行了特征融合，从而学习到频谱深度特征和手工特征的联合特征表示。图2为本实施例中CRNN的具体结构框图，并以它构建了一个完整的语音情感识别模型。

本实施例以一句任意长度的音频数据作为输入，长度不做限定。如图3所示，具体实施时本发明方法包括如下步骤：

A.对该句音频数据计算log-mel谱，实现方法为：

A1.把原始音频从头开始每25ms切割为一帧音频帧(语音帧)，帧与帧之间重叠10ms。

若最后一帧不足25ms，则改为采用从末尾往前25ms的帧；

A2.对每一帧计算1024点傅里叶变换，得到原始音频的频谱；

A3.把频谱通过一个包含40个滤波器的mel滤波器组，输出得到mel频谱；

A4.对mel频谱以e为底计算log对数，输出得到log-mel频谱。该log-mel频谱高度

为40，长度与原始音频时长有关。

需要说明的是，以不同的时长进行帧的切割可得到不同的频谱，该实施例代表了一种较为普遍的分帧方法。

B.将log-mel频谱输入卷积循环神经网络(Convolutional Recurrent NeuralNetwork,CRNN)通道，得到深度频谱特征。卷积循环网络如图2中CRNN框内所示，包括如下步骤：

B1.将log-mel谱从头开始每30帧分为一段，段与段之间重叠10帧。若最后一段不足30帧，则改为采用从末尾往前30帧的段；

B2.将log-mel谱中的频谱段输入第一层卷积层，卷积核大小为40x5，采用30个卷积核。卷积后输出特征图的高度为1，实现了频域轴上的全卷积；

B3.使用激活函数RELU对卷积层输出进行非线性映射，并输入第一个池化层进行最大值池化操作；

B4.将B3中的输出输入第二层卷积层，卷积核大小为1x3，采用30个卷积核。

B5.使用激活函数RELU对卷积层输出进行非线性映射，并输入第二个池化层进行最大值池化操作，得到一维的卷积特征向量；

B6.将所有log-mel频谱段按时间顺序依次重复步骤B2-B5，得到一个卷积特征向量序列，序列中特征向量的顺序与对应的频谱段在频谱中的顺序一致。所有频谱段在B2-B5经过的卷积层和池化层是同一个；

B7.将B6中得到的卷积特征向量序列输入一个循环神经网络,循环神经网络中每个时间节点(time step)的输入即为序列中的一个特征向量。设置循环神经网络采用长短时记忆网络(Long Short Term Memory,LSTM),具有128个隐单元，LSTM输出一个特征向量序列；

B8.对B7输出的序列分别进行最大值池化、均值池化和最小值池化，如式1-式3所示，把3个池化操作后得到的向量按最大值池化向量、均值池化向量、最小值池化向量的顺序串联为一个一维向量，该向量为卷积循环神经网络学习到的深度频谱特征。

C.对该句音频数据计算手工特征低层描述子和高层统计特征，实现方法为：

C1.对A1中切割好的语音帧提取给定的低层描述子(本实施例采用ComParE2016竞赛中给定的低层描述子)，即为每一个语音帧计算该帧的过零率、梅尔倒谱系数、能量、基频等参数(每一个参数都是一个低层描述子)；

C2.在该句音频数据的所有语音帧中，对每一个低层描述子，计算ComParE竞赛中给定的高层统计特征，例如计算该句音频所有语音帧中过零率的均值、方差、丰度等。把所有的高层统计特征串联为一个特征向量。

D.计算深度频谱特征和手工特征的联合特征表示，实现方法为：

D1.将B8中得到的向量输入一个全连接层，以得到更抽象的特征表示；

D2.将C2中得到的向量依次输入三个全连接层，以得到更抽象的特征表示；

D3.将D1和D2的输出串联为一个一维向量；

D4.将D3得到的向量输入一个全连接层以学习深度频谱特征和手工特征的联合特征表示。

E.将联合特征表示直接输入最后的输出层，该输出层以softmax作为激活函数，输出该句音频数据属于每一类情感的概率。取最大概率对应的情感类别为本模型预测的情感类别。

表1列出了采用本发明方法(HSF-CRNN)和采用单纯卷积循环神经网络的方法(plain CRNN)进行语音情感识别的结果对比，性能以加权准确率(weighted accuracy)作为标准。

表1采用本发明方法和采用单纯卷积循环神经网络的方法进行语音情感识别的结果对比

数据库	Plain CRNN	HSF-CRNN
			IEMOCAP	56.42％	63.98％
EmotAsS	28.0％	35.8％

表1中，plain CRNN方法使用了图2中的网络框架。在两个数据库上的实验结果对比表明，本发明提供的HSF-CRNN模型由于学习了深度频谱特征和手工特征的联合特征表示、并在端到端的神经网络中直接进行分类，语音情感识别准确率要比直接使用CRNN模型更高，实现了对语音情感更完善的建模。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于联合特征表示的语音情感识别模型，所述联合特征表示是指通过神经网络学习深度特征和人工特征的联合特征表达；

所述深度特征具体是：使用频谱特征，利用卷积循环神经网络中的卷积神经网络部分学习频谱的局部情感特征，利用卷积循环神经网络中的循环神经网络部分对卷积神经网络学到的局部情感特征进行进一步抽象，并通过池化层学习到原始语音的全局情感特征，得到深度特征；所述人工特征具体是从原始语音中提取低层描述子，并对低层描述子进行计算，得到的高层统计特征；

通过神经网络学习联合特征表达具体是：将深度特征和人工特征分别通过各自的隐含层提取高层特征，再串联深度特征和人工特征的高层特征输入同一个隐含层，得到的输出即为深度特征和人工特征的联合特征表达；

通过所述语音情感识别模型后端的输出层输出预判的情感类别，由此实现语音情感识别。

2.一种基于联合特征表示的语音情感识别模型的构建方法，所述联合特征表示是通过卷积循环神经网络学习的深度特征和人工特征的联合特征表达；所述构建方法包括如下步骤：

A1)对输入的一句语音，计算log-mel频谱，用固定时长的滑窗在频谱上沿着时间轴进行滑动，把频谱在时间轴上切分为对应时长相等、具有重叠部分的频谱段，得到[s(1),s(2),…,s(t),…,s(T)]，其中s(t)是一个频谱段，T是频谱段总段数；

A2)将每段频谱段输入同一个卷积神经网络中，该卷积神经网络对一个频谱段s(t)进行多次卷积-池化操作，每个频谱段得到一个特征图c(t)，输入语音对应的特征图表示为[c(1),c(2),…,c(t),…,c(T)]；

A3)将输入语音所有频谱段产生的特征图均伸展成为一维向量，将特征向量按所属频谱段的时间顺序输入一个循环神经网络，循环神经网络为每一个时间节点t的特征向量均提取出包含上下文时序信息的更高层语义的特征向量r(t)，形成一个新的特征向量序列[r(1),r(2),…,r(t),…,r(T)]；

A4)分别用最大值池化层、均值池化层、最小值池化层对特征向量序列进行处理，得到特征向量序列的最大值向量P_max、均值向量P_ave、最小值向量P_min，把三个向量串联为一个一维向量p，该一维向量表征原始输入语音中情感的动态变化；

B)对输入语音提取低层描述子，并计算高层统计特征HSF，HSF形成一维向量；

C1)将p和HSF分别输入不同的隐含层，经过隐含层后，分别得到更为抽象的特征表示；

隐含层的层数可为0、1或多层；

C2)串联p和HSF的隐含层输出，生成一个新的一维特征向量；

C3)将串联后得到的新的一维特征向量输入下一个隐含层，该隐含层把p和HSF映射到同一个特征空间，学习p和HSF的联合特征表示；

D)联合特征经过隐含层后，输入到输出层进行情感类别的预测；隐含层的层数可为0、1或多层。

3.如权利要求2所述基于联合特征表示的语音情感识别模型的构建方法，其特征是，在卷积循环神经网络部分同时采用三种池化方式，由此提高循环层输出特征的全局统计特性；三种池化方式为最大值池化、均值池化、最小值池化；步骤A4)中，最大值池化层、均值池化层、最小值池化层的操作具体表示为式1～式3：

P_ave＝∑_1≤t≤Tr(t)/T (式2)

其中，r(t)ⁱ表示r(t)的第i个元素；n表示向量r(t)中的元素总数。

4.一种基于联合特征表示的语音情感识别方法，通过构建基于联合特征表示的卷积循环神经网络构建一个语音情感识别模型，首先对语音情感识别模型进行训练，成为一个可靠模型；再使用训练好的语音情感识别模型对给定的音频数据预测情感类别，可能预测的情感类别为训练数据中出现的所有情感类别；

模型训练阶段执行以下操作101)～111)：

101)对一条音频数据提取log-mel频谱，并把频谱在时间轴上分割为时长相等的频谱段；

102)将频谱段输入构建的语音情感识别模型的卷积循环神经网络部分，得到深度频谱特征；

103)对音频数据计算高层统计特征；

104)将高层统计特征输入对应的全连接层，得到神经网络对手工特征的抽象表示；

105)将102)和104)中得到的特征向量分别输入隐含层；

106)串联105)中得到两种特征向量的隐含层输出，并输入下一个全连接层，得到深度频谱特征和手工特征的联合特征表示；

107)联合特征经过隐含层；

108)输出层输出该条音频数据的预测情感类别；

109)在训练模型过程的一次迭代中包括对一批音频数据从步骤101)到108)的并行处理；

110)根据该批数据的真实标签和预测标签，通过交叉熵函数计算该次迭代的损失值，用于使用梯度下降算法更新模型参数；

111)重复步骤101)至110)，对模型进行多次迭代，直到达到指定的迭代次数或者损失值在迭代中变化波动在阈值范围内；

模型测试阶段执行以下操作：

201)对一条音频数据提取log-mel频谱，并把频谱在时间轴上分割为时长相等的频谱段；

202)将频谱段输入卷积循环神经网络部分，得到深度频谱特征；

203)对这条音频数据计算高层统计特征；

204)将高层统计特征输入对应的全连接层，得到神经网络对手工特征的抽象表示；

205)将202)和204)中得到的特征向量分别输入隐含层；

206)串联205)中得到两种特征向量的隐含层输出，并输入下一个全连接层，得到深度频谱特征和手工特征的联合特征表示；

207)联合特征经过隐含层；

208)输出层输出该条音频数据的预测情感类别；

通过上述步骤，实现了基于联合特征表示的语音情感识别。

5.如权利要求4所述基于联合特征表示的语音情感识别方法，其特征是，音频数据的长度不限。

6.如权利要求4所述基于联合特征表示的语音情感识别方法，其特征是，隐含层可为0个、1个或多个。

7.如权利要求4所述基于联合特征表示的语音情感识别方法，其特征是，步骤101)或201)对一条音频数据提取log-mel频谱，并把频谱在时间轴上分割为时长相等的频谱段；优选地，执行如下操作：

A1.把原始音频从头开始每25ms切割为一帧语音帧，帧与帧之间重叠10ms；若最后一帧不足25ms，则改为采用从末尾往前25ms的帧；

A2.对每一帧计算1024点傅里叶变换，得到原始音频的频谱；

A4.对mel频谱以e为底计算log对数，输出得到log-mel频谱；该log-mel频谱高度为40，长度与原始音频时长相关。

8.如权利要求7所述基于联合特征表示的语音情感识别方法，其特征是，步骤102)或202)将log-mel频谱输入卷积循环神经网络通道，得到深度频谱特征，具体执行如下步骤：

B1.将log-mel谱从头开始每30帧分为一段，段与段之间重叠10帧；若最后一段不足30帧，则改为采用从末尾往前30帧的段；

B2.将log-mel谱中的频谱段输入卷积循环神经网络第一层卷积层，卷积核大小为40x5，采用30个卷积核；卷积后输出特征图的高度为1，实现频域轴上的全卷积；

B4.将B3中的输出输入第二层卷积层，卷积核大小为1x3，采用30个卷积核；

B6.将所有log-mel频谱段按时间顺序依次重复步骤B2-B5，得到一个卷积特征向量序列，序列中特征向量的顺序与对应的频谱段在频谱中的顺序一致；所有频谱段在B2-B5经过相同的卷积层和池化层；

B7.将B6中得到的卷积特征向量序列输入一个循环神经网络,循环神经网络中每个时间节点的输入即为序列中的一个特征向量；设置循环神经网络采用长短时记忆网络,具有128个隐单元，长短时记忆网络输出一个特征向量序列；

B8.对B7输出的特征向量序列分别进行最大值池化、均值池化和最小值池化，操作具体表示为式1～式3：

P_ave＝∑_1≤t≤Tr(t)/T (式2)

其中，r(t)ⁱ表示r(t)的第i个元素；n表示向量r(t)中的元素总数；

池化操作后得到的向量按最大值池化向量、均值池化向量、最小值池化向量的顺序串联为一个一维向量，该一维向量为卷积循环神经网络学习到的深度频谱特征；

步骤103)或203)对音频数据计算手工特征低层描述子和高层统计特征，具体执行如下操作：

C1.对A1中切割好的语音帧提取给定的低层描述子；

C2.在该音频数据的所有语音帧中，对每一个低层描述子，计算给定的高层统计特征；

再将所有的高层统计特征串联为一个特征向量；

步骤104)或204)计算深度频谱特征和手工特征的联合特征表示，具体执行如下操作：

D1.将B8中得到的一维向量输入一个或多个全连接层，得到更抽象的特征表示；

D2.将C2中得到的特征向量依次输入一个或多个全连接层，得到更抽象的特征表示；

D3.将D1和D2的输出串联为一个一维向量；

D4.将D3得到的一维向量输入一个全连接层以学习深度频谱特征和手工特征的联合特征表示。

9.如权利要求4所述基于联合特征表示的语音情感识别方法，其特征是，语音情感识别模型输出层以softmax作为激活函数，输出音频数据属于每一类情感的概率；取最大概率对应的情感类别为模型预测的情感类别。