CN111312215A

CN111312215A - 一种基于卷积神经网络和双耳表征的自然语音情感识别方法

Info

Publication number: CN111312215A
Application number: CN201911330520.8A
Authority: CN
Inventors: 张石清; 赵小明
Original assignee: Taizhou University
Current assignee: Taizhou University
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2020-06-19
Anticipated expiration: 2039-12-20
Also published as: CN111312215B

Abstract

本发明涉及语音和图像处理、模式识别领域，公开了一种基于卷积神经网络和双耳表征的自然语音情感识别方法，包括步骤：A）采集语音信号，获得与四种语音Mel频谱片段对应的语音RGB图像三通道输入矩阵；B）构建四个语音深度卷积神经网络，获得四种语音Mel频谱片段学习到的CNN特征；C）采用基于块的特征池化方法将四种语音Mel频谱片段学习到的CNN特征分别聚合成固定长度的全局性语句特征；D）采用两阶段分数层融合方法进行融合，获得语音情感识别分类结果。本发明不仅利用双耳表征进行特征学习，并且提出了基于块的特征池化方法，采用两阶段分数层融合方法进行融合，语音情感识别结果准确率高。

Description

一种基于卷积神经网络和双耳表征的自然语音情感识别方法

技术领域

本发明涉及语音和图像处理、模式识别领域，特别是涉及基于卷积神经网络和双耳表征的自然语音情感识别方法。

背景技术

在语音情感特征的提取方面，现有技术采用手工设计的典型的语音情感特征参数，即语音情感识别领域中常用的主流特征参数，具体包括：与情感语音相关的韵律特征、音质特征、谱特征，(比如文献：Y.Wang and L.Guan.Recognizing human emotional statefrom audiovisual signals.IEEE Transaction on Multimedia,10(5):936–946,2008.)。尽管这些手工设计的典型的语音情感特征参数已经成为语音情感识别研究中的主流特征参数，但是手工设计的情感特征依赖于设计者的经验和专业知识，可靠性不够，很难利用大数据的优势。此外，手工设计的特征都属于低层次的情感特征，因为它们对于情感语义的表示力非常有限，尤其与人脑理解的高层次的情感语义之间存在较大差异，即存在“情感鸿沟”问题。而深度卷积神经网络作为传统的卷积神经网络(CNN)在深度上的一种扩展，利用多层次的卷积(Convolution)和池化(Pooling)操作来学习出高层次的图像语义特征，现已在图像检索、人体行为识别以及图像识别等图像处理方面表现出了强大的生命力，但CNN无法直接处理一维的情感语音信号。针对现有手工提取的语音情感特征参数存在的“情感鸿沟”问题，研究利用深度CNN模型从原始的语音信号频谱中学习出高层次的情感语音特征用于语音情感识别。

比如，文献1：Q.Mao,M.Dong,Z.Huang,and Y.Zhan,“Learning Salient Featuresfor Speech Emotion Recognition Using Convolutional Neural Networks,”IEEETransactions on Multimedia,vol.16,no.8,pp.2203-2213,2014.以及文献2：K.Simonyan,and A.Zisserman,“Very deep convolutional networks for large-scaleimage recognition,”in ICLR-2015,San Diego,CA,USA,2015,pp.1-14。虽然这两篇文献均采用了深度学习技术，但是在语音情感识别任务中只专注于单耳语音信号及其相关特征，并没有考虑其他声道的相关语音特征。

发明内容

本发明是为了解决单耳语音信号对于情感语义的表示力有限以及现有融合方法融合准确率低的问题，提供基于卷积神经网络和双耳表征的自然语音情感识别方法，本发明通过学习双耳表征，获取四种语音Mel频谱片段，通过构建四个语音深度卷积神经网络对四种语音Mel频谱片段分别进行特征学习，采用基于块的特征池化方法将四种语音Mel频谱片段学习到的CNN特征分别聚合成固定长度的全局性语句特征，采用两阶段分数层融合方法对四个线性支持向量机的输出结果进行融合，获得语音情感识别分类结果，语音情感识别结果准确率高。

为了实现上述目的，本发明采用以下技术方案：

基于卷积神经网络和双耳表征的自然语音情感识别方法，其特征在于，包括步骤：

A)采集语音信号，获取与双耳表征相关的四种语音Mel频谱片段，获得与双耳表征相关的四种语音Mel频谱片段对应的语音RGB图像三声道输入矩阵；

B)构建与双耳表征相关的四个语音深度卷积神经网络，将语音RGB图像三声道输入矩阵作为语音深度卷积神经网络的输入，对每个语音Mel频谱片段采用卷积神经网络的微调方式进行特征学习，获得四种语音Mel频谱片段学习到的CNN特征；

C)采用基于块的特征池化方法将四种语音Mel频谱片段学习到的CNN特征分别聚合成固定长度的全局性语句特征，然后采用四个线性支持向量机分别进行情感分类，获得四个线性支持向量机的情感分类输出结果；

D)采用两阶段分数层融合方法对四个线性支持向量机的情感分类输出结果进行融合，获得最终的语音情感识别分类结果。

本发明首先采集语音信号，语音信号包括左声道语音信号和右声道语音信号，然后左声道语音信号与右声道语音信号进行相加，获得相加后的语音信号，即中央声道语音信号。将左声道语音信号与右声道信号进行相减，获得相减后的语音信号，即侧边声道语音信号。然后获得四种一维的语音Me频谱片段，再将一维的语音Me频谱片段转换为类似于RGB图像表示的三个声道频谱，作为语音深度卷积神经网络(CNN)的输入，实现二维卷积运算。CNN在每个频谱片段采用微调方式进行特征学习，微调方式是利用已有训练的CNN图像模型进行迁移学习，减轻数据量不足的压力。采用基于块的特征池化方法将每个频谱片段学习到的CNN特征聚合成固定长度的全局性的语句(Utterance)特征表示，然后输入到支持向量机(SVM)，采用两阶段分数层(Score-level)融合方法对四个线性支持向量机的输出结果进行融合，完成情感的分类任务。

进一步的，四种语音Mel频谱片段分别为左声道Mel频谱片段、右声道Mel频谱片段、中央声道Mel频谱片段和侧边声道Mel频谱片段。

中央声道Mel频谱片段表示左声道与右声道的相加，侧边声道Mel频谱片段表示左声道与右声道的相减。

进一步的，步骤A)中获得与双耳表征相关的四种语音Mel频谱片段对应的语音RGB图像三声道输入矩阵，包括步骤：

A1)获得一维的四种声道的情感语音信号，采用N₁个Mel滤波器和N₂帧的文本窗大小将四种声道的情感语音信号分别按时间顺序拆分成若干个语语音谱片段，获得四种声道的情感语音信号的N₁×N₂的二维静态频谱片段特征，四种声道道分别为左声道(Left)、右声道(Right)、中央声道(Mid)和侧边声道(Side)；

A2)对二维静态频谱片段特征在时间轴上进行一阶求导，获得一阶求导系数；

A3)对二维静态频谱片段特征在时间轴上进行二阶求导，获得二阶求导系数；

A4)将四种声道的情感语音信号的二维静态频谱片段特征、一阶求导系数和二阶求导系数分别作为RGB图像的三声道，从而获得四种声道的情感语音信号的特征为N₁×N₂×3的语音RGB图像三声道输入矩阵；

A5)对每个特征为N₁×N₂×3的语音RGB图像三声道输入矩阵进行采样处理，获得符合CNN输入大小的语音RGB图像三声道输入矩阵；

A6)依次重复步骤A2)至A5)，四种声道的情感语音信号均获得若干个语音RGB图像三声道输入矩阵。

采用双线性内插法对特征为N₁×N₂×3的语音RGB图像三声道输入矩阵进行采样处理。

对于一维的情感语音信号，本发明将其拆分成多个片段(segment)，对每个片段进行CNN学习，获得语音片段特征。先采用N₁个Mel滤波器和N₂帧的文本窗大小，计算出二维的静态频谱片段N₁×N₂，然后对其在时间轴上进行一阶和二阶求导，以便抓住该频谱片段的时间动态特性。最后，将语音信号的静态的频谱片段特征、以及它的一阶求导系数和二阶求导系数作为RGB图像的三个声道，从而得到一个类似于RGB图像的三维Mel频谱片段，特征为N₁×N₂×3，然后缩放成预设特征大小的语音RGB图像三声道输入矩阵，将其作为语音深度卷积神经网络的语音输入。

进一步的，步骤B)中对每个语音Mel频谱片段采用微调方式进行特征学习，包括计算总样本损失函数，更新网络权重值；通过计算

得到损失函数，其中，y_j表示第j个情感识别类别的真实值，

表示深度卷积神经网络的分类器输出的第j个情感识别类别预测值，C表示情感类别数目。

对每个语音Mel频谱片段，采用语音深度卷积神经网络，深度卷积神经网络可以通过采用多层的卷积(Convolution)和池化(Pooling)操作来捕获图像的高层属性特征。在目标情感数据集上进行微调，分别学习出高层次的语音情感特征表示。

进一步的，步骤C)中采用基于块的特征池化方法将四种语音Mel频谱片段学习到的CNN特征分别聚合成固定长度的全局语句特征，包括步骤：

C1)对每种语音Mel频谱片段学习到的CNN特征X在时间轴上进行一阶求导，获得与CNN特征X对应的一阶导数delta_X；

C2)将CNN特征X和一阶导数delta_X分别在不同尺度l下沿时间轴均匀分成L个连续非重叠子块，X＝(X₁，X₂，…，X₁)，delta_X＝(delta_X₁，delta_X₁，…，delta_X₁)，l＝1，2，…，L；C3)对含有n个子片段d维的连续非重叠子块X_l＝(x₁,x₂,...,x_n)∈R^d×n进行池化处理，x_n表示连续非重叠子块X_l的第n个语音Mel频谱片段CNN特征，获得固定长度的池化特征

p取值为1或∞，当p取值为1时等同于平均池化，当p取值为∞时等同于平均池化；

C4)对含有n个子片段d维的连续非重叠导数子块delta_X_l＝(x′₁,x′₂,...,x′_n)∈R^d×n进行池化处理，x′_n表示连续非重叠导数子块delta_X_l的第n个语音Mel频谱片段CNN特征的一阶导数，获得固定长度的池化特征

C5)将所有的子块池化特征进行串联，获得全局语句特征

每句情感语音的发音时间不同，导致所拆分得到的局部频谱片段的数目也会不同。因此需要将不同频谱片段上学习到的CNN特征聚合成固定长度的全局语句特征表示，该过程称为特征池化(Feature Pooling)。为了寻找最优的特征池化策略，并同时充分利用时序信息，本发明提出了一种基于块的特征池化方法。步骤C3)以及步骤C4)的子片段均表示语音Mel频谱片段。本发明在时间轴上将一句语音上所有学习到的片段特征分成若干个子块，并在每个子块上学习出最优的特征池化，最后将所有的子块池化特征进行串联，得到一个完整的语句特征，即全局语句特征。

进一步的，步骤D)中采用两阶段分数层融合方法对四个线性支持向量机的情感分类输出结果进行融合，包括步骤：

D1)将四个线性支持向量机的输出结果分别记为左声道Mel频谱片段输出结果、右声道Mel频谱片段输出结果、中央声道Mel频谱片段输出结果和侧边声道Mel频谱片段输出结果；

D2)将左声道Mel频谱片段输出结果和右声道Mel频谱片段输出结果进行分数层融合，获得左右声道的融合结果；

D3)将中央声道Mel频谱片段输出结果和侧边声道Mel频谱片段输出结果进行分数层融合，获得中央和侧边声道融合结果；

D4)将所述左右声道融合结果与所述中央和侧边声道融合结果进行第二阶段的分数层融合，获得最终融合结果，将最终融合结果作为语音情感识别分类结果。

步骤D2)中获得左右声道融合结果

score₁ ^fusion＝α*score^left+(1-α)*score^right，其中score^left为左声道Mel频谱片段输出结果，score^right为右声道Mel频谱片段输出结果，α为左右声道融合结果权重，0≤α≤1。

步骤D3)中获得中央和侧边声道融合结果

其中，score^mid为中央声道Mel频谱片段输出结果，score^side为侧边声道Mel频谱片段输出结果，β为中央和侧边声道融合结果权重，0≤β≤1。

步骤D4)中获得最终融合结果

λ为最终融合权重，0≤λ≤1。

支持向量机(SVM)是一种基于统计学习理论的机器学习方法，其基本思想是将原始的数据空间通过一个核函数映射到一个高维特征新空间，从而在这新的空间构建最优分类超平面实现数据的最优分类。由于SVM是在结构风险最小化原则上建立起来的，从而保证其学习具有良好的泛化能力，即使对小样本训练数据也可以得到较好的性能。本发明采用两阶段分数层融合方法对四个线性支持向量机的输出结果进行融合，第一阶段通过分数层融合将左声道Mel频谱片段输出结果和右声道Mel频谱片段输出结果进行分数层融合，获得左右声道融合结果，将中央声道Mel频谱片段输出结果和侧边声道Mel频谱片段输出结果进行分数层融合，获得中央和侧边声道融合结果。第二阶段将左右声道融合结果、中央和侧边声道融合结果进行分数层融合，获得最后的语音情感识别分类结果。

本发明具有如下有益效果：本发明通过采用多个深度卷积神经网络对双耳表征进行学习，采用新的特征池化策略，提出了一种基于块的特征池化方法，这种特征池化方法将四种语音Mel频谱片段学习到的CNN特征进行聚合，生成固定长度的全局语句特征，最后采用支持向量机进行语音情感识别。本发明采用了两层分数层融合结构，通过融合左右声道融合结果以及中央和侧边声道融合结果，获得最终的语音情感识别结果，识别准确率高。

附图说明

图1是本发明的实施例一流程示意图。

图2是本发明的实施例一融合语音深度卷积神经网络结构示意图。

图3是本发明的实施例一基于块的特征池化方法网络结构示意图。

具体实施方式

下面结合附图与具体实施方式对本发明做进一步的描述。

实施例一，采用AFEW5.0自然情绪语音数据库，从723个语音训练集样本中获得5141个语音Mel频谱片段,从383个验证集样本中获得2484个语音Mel频谱片段，识别情感目标分别为生气(Anger)、高兴(Joy)、悲伤(Sadness)、厌恶(Disgust)、惊奇(Surprise)、害怕(Fear)以及中性(neutral)。如图1所示，基于卷积神经网络和双耳表征的自然语音情感识别方法，包括步骤：

A)采集语音信号，获取与双耳表征相关的四种语音Mel频谱片段，四种语音Mel频谱片段分别为左声道Mel频谱片段、右声道Mel频谱片段、中央声道Mel频谱片段和侧边声道Mel频谱片段。中央声道Mel频谱片段表示左声道与右声道的相加，侧边声道Mel频谱片段表示左声道与右声道的相减。获得与双耳表征相关的四种语音Mel频谱片段对应的语音RGB图像三声道输入矩阵，包括步骤：

A1)获得一维的四种声道的情感语音信号，采用64个Mel滤波器和64帧的文本窗大小将四种声道的情感语音信号分别按时间顺序拆分成若干个语语音谱片段，获得四种声道的情感语音信号的N₁×N₂的二维静态频谱片段特征，四种声道分别为左声道(Left)、右声道(Right)、中央声道(Mid)和侧边声道(Side)；

A4)将四种声道的情感语音信号的二维静态频谱片段特征、一阶求导系数和二阶求导系数分别作为四个RGB图像的三声道，获得四种声道的情感语音信号的特征为64×64×3的语音RGB图像三声道输入矩阵；

A5)对每个特征为64×64×3的语音RGB图像三声道输入矩阵采用双线性内插法对特征为64×64×3的语音RGB图像三声道输入矩阵进行采样处理，获得227×227×3的语音RGB图像三声道输入矩阵；

B)构建四个语音深度卷积神经网络，实施例中所使用的四个语音深度卷积神经网络与原AlexNet相同。包括5个卷积层(Conv1、Conv2、Conv3、Conv4和Conv5)，3个最大池化层(Pool1、Pool2和Pool5)以及3个全连接层(fc6、fc7和fc8)。fc6和fc7有4096个神经元，而fc8表示一个与数据类别对应的标签向量。对四个语音深度卷积神经网络进行初始化，语音深度卷积神经网络的超参数mini-batch设为30，学习速率设为0.001，epoch number设为300。对每个语音Mel频谱片段采用微调方式，将语音RGB图像三声道输入矩阵作为语音深度卷积神经网络的输入，对每个语音Mel频谱片段采用卷积神经网络的微调方式进行特征学习，获得四种语音Mel频谱片段学习到的CNN特征。

本实施例采用在2012年ImageNet图像识别竞赛中获得第一名的AlexNet网络模型，在目标语音情感数据库上进行微调，从而提取高层次的语音情感特征参数用于情感分类，CNN微调的实现过程包括：将输入语语音谱64×64×3采样到AlexNet输入大小227×227×3；拷贝AlexNet模型参数进行网络初始化；利用现有的语音情感标签样本重新训练一次；将训练好的模型中的最后一层4096维的全连接层作为学习到的语音情感特征，输入到支持向量机(SVM)，用于情感的分类。

采用卷积神经网络的微调方式进行特征学习的过程还包括计算总样本损失函数，更新网络权重值；通过计算

得到损失函数，其中，y_j表示第j个情感识别类别的真实值，

C)采用基于块的特征池化方法将四种语音Mel频谱片段学习到的CNN特征分别聚合成固定长度的全局性语句特征，基于块的特征池化方法网络结构如图3所示，包括步骤：包括步骤：

C2)将CNN特征X和一阶导数delta_X分别在不同尺度l下沿时间轴均匀分成L个连续非重叠子块，X＝(X₁，X₂，…，X₁)，delta_X＝(delta_X₁，delta_X₁，...，delta_X₁)，l＝1，2，…，L；C3)对含有n个子片段d维的连续非重叠子块X_l＝(x₁,x₂,...,x_n)∈R^d×n进行池化处理，x_n表示连续非重叠子块X_l的第n个语音Mel频谱片段CNN特征，获得固定长度的池化特征

C5)将所有的子块池化特征进行串联，获得全局语句特征

采用四个线性支持向量机分别四个语音深度卷积神经网络进行情感分类识别，获得四个线性支持向量机的输出结果。

D)采用两阶段分数层融合方法对四个线性支持向量机的情感分类输出结果进行融合，如图2所示，包括步骤：

D2)将左声道Mel频谱片段输出结果和右声道Mel频谱片段输出结果进行分数层融合，获得左右声道融合结果

其中score^left为左声道Mel频谱片段输出结果，score^right为右声道Mel频谱片段输出结果，α为左右声道融合结果权重，0≤α≤1。

D3)将中央声道Mel频谱片段输出结果和侧边声道Mel频谱片段输出结果进行分数层融合，获得中央和侧边声道融合结果

D4)将左右声道融合结果与所述中央和侧边声道融合结果进行第二阶段的分数层融合，获得最终融合结果

λ为最终融合权重，0≤λ≤1，将最终融合结果作为语音情感识别分类结果。

本发明首先采集语音信息，语音信号包括左声道语音信号和右声道信号，然后左声道语音信号与右声道信号进行相加，获得相加后的语音信号。将左声道语音信号与右声道信号进行相减，获得相减后的语音信号。然后获得四种一维的语音Me频谱片段，再将将一维的语音Me频谱片段转换为类似于RGB图像表示的三个声道频谱，作为语音深度卷积神经网络(CNN)的输入，实现二维卷积运算。CNN在每个频谱片段采用微调方式进行特征学习，微调方式是利用已有训练的CNN图像模型进行迁移学习，减轻数据量不足的压力。采用基于块的特征池化方法将每个频谱片段学习到的CNN特征聚合成固定长度的全局性的语句(Utterance)特征表示，然后输入到支持向量机(SVM)，采用两阶段分数层融合方法对四个线性支持向量机的输出结果进行融合，完成情感的分类任务。

为了验证从中央声道Mel频谱片段学习到的CNN特征或从侧边声道Mel频谱片段学习到的CNN特征是否与左/右单声道Mel频谱片段学习到的CNN特征之间存在互补性，表1至表4给出了AFEW5.0数据库中不同单耳表征识别结果的混淆矩阵。可以看到,对于厌恶(disgust)语音情感识别，侧边声道表征语音情感识别的准确率为15.38％，而左声道表征语音情感识别的准确率为0％。这说明在一定程度上，中央声道Mel频谱片段学习到的CNN特征与左声道或右声道Mel频谱片段学习到的CNN特征是互补的。同样的，对于侧边声道单声道表征，在对厌恶和惊讶语音情感进行分类时，得到的结果也是互补的。

表1 AFEW5.0数据库的左声道表征语音情感识别结果

	Anger	Disgust	Fear	Joy	Sadness	Surprise	Neutral
								Anger	48.68	7.89	9.21	14.47	3.95	10.53	5.26
Disgust	8.33	0.00	16.67	25.00	16.67	8.33	25.00
								Fear	6.90	6.90	51.72	13.79	10.34	6.90	3.45
Joy	10.47	15.12	8.14	23.26	11.63	15.12	16.28
								Sadness	10.81	18.92	2.70	10.81	40.54	2.70	13.51
Surprise	12.50	6.25	22.92	8.33	20.83	16.67	12.50
								Neutral	5.26	9.47	3.16	17.89	18.95	13.68	31.58

表1

表2 AFEW5.0数据库的右声道表征语音情感识别结果

	Anger	Disgust	Fear	Joy	Sadness	Surprise	Neutral
								Anger	46.75	7.79	9.09	11.69	5.19	10.39	9.09
Disgust	7.69	15.38	3.85	23.08	19.23	11.54	19.23
								Fear	8.33	5.56	38.89	19.44	13.89	11.11	2.78
Joy	7.58	15.15	4.55	24.24	13.64	16.67	18.18
								Sadness	10.91	10.91	10.91	5.45	40.00	7.27	14.55
Surprise	17.14	8.57	25.71	14.29	5.71	20.00	8.57
								Neutral	6.82	10.23	6.82	19.32	15.91	10.23	30.68

表2

表3 AFEW5.0数据库的中央声道表征语音情感识别结果

表3

表4 AFEW5.0数据库的侧边声道表征语音情感识别结果

	Anger	Disgust	Fear	Joy	Sadness	Surprise	Neutral
								Anger	25.26	10.53	5.26	14.74	13.68	11.58	18.95
Disgust	23.53	35.29	0.00	11.76	17.65	0.00	11.76
								Fear	4.35	2.17	36.96	13.04	19.57	17.39	6.52
Joy	10.81	10.81	6.76	24.32	14.86	10.81	21.62
								Sadness	13.64	10.61	13.64	22.73	21.21	9.09	9.09
Surprise	17.24	6.90	20.69	6.90	27.59	10.34	10.34
								Neutral	21.43	10.71	7.14	10.71	5.36	17.86	26.79

表4

表五为采用CNN对单声道表征进行识别和采用两阶段分数层融合方法对四个线性支持向量机的语音情感输出结果进行融合识别的准确率结果。如表六所示，本发明将左右声道融合结果权重α设为0.4，中央和侧边声道融合结果权重β设为0.7，最终融合权重λ设为0.6，通过融合左右声道融合结果以及中央和侧边声道融合结果，获得最终的识别结果。通过对比表五和表六可以看出，对于AFEW5.0自然情绪语音数据库，本发明的准确率均高于采用CNN对单声道表征进行识别的准确率。

表五采用CNN对单声道表征进行识别的准确率结果

单声道表征	AFEW5.0
		左声道	32.64
右声道	32.90
		中央声道	32.89
侧边声道	25.32

表五

表六本发明对双耳表征进行识别的准确率结果

分数层融合	AFEW5.0
		左右声道融合结果	34.51(α＝0.4)
中央和侧边声道融合结果	34.99(β＝0.7)
		最终的识别结果	36.29(λ＝0.6)

表六

本发明通过采用多个深度卷积神经网络对双耳表征进行学习，采用新的特征池化策略，提出了一种基于块的特征池化方法，这种特征池化方法将四种语音Mel频谱片段学习到的CNN特征进行聚合，生成固定长度的全局语句特征，最后采用支持向量机进行语音情感识别。本发明采用了两层分数层融合结构，通过融合左右声道融合结果以及中央和侧边声道融合结果，获得最终的识别结果，识别准确率高。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明保护范围以内。

Claims

1.一种基于卷积神经网络和双耳表征的自然语音情感识别方法，其特征在于，包括步骤：

2.根据权利要求1所述的一种基于卷积神经网络和双耳表征的自然语音情感识别方法，其特征在于，所述四种语音Mel频谱片段分别为左声道Mel频谱片段、右声道Mel频谱片段、中央声道Mel频谱片段和侧边声道Mel频谱片段。

3.根据权利要求1或2所述的一种基于卷积神经网络和双耳表征的自然语音情感识别方法，其特征在于，步骤A)中获得与双耳表征相关的四种语音Mel频谱片段对应的语音RGB图像三声道输入矩阵，包括步骤：

A1)获得一维的四种声道的情感语音信号，采用N₁个Mel滤波器和N₂帧的文本窗大小将四种声道的情感语音信号分别按时间顺序拆分成若干个语语音谱片段，获得四种声道的情感语音信号的N₁×N₂的二维静态频谱片段特征，所述四种声道分别为左声道、右声道、中央声道和侧边声道；

4.根据权利要求3所述的一种基于卷积神经网络和双耳表征的自然语音情感识别方法，其特征在于，步骤A5)中，采用双线性内插法对特征为N₁×N₂×3的语音RGB图像三声道输入矩阵进行采样处理。

5.根据权利要求1或4所述的一种基于卷积神经网络和双耳表征的自然语音情感识别方法，其特征在于，步骤B)中对每个语音Mel频谱片段采用卷积神经网络的微调方式进行特征学习，包括计算总样本损失函数，更新网络权重值；通过计算

得到损失函数，其中，y_j表示第j个情感识别类别的真实值，

6.根据权利要求5所述的一种基于卷积神经网络和双耳表征的自然语音情感识别方法，其特征在于，步骤C)中采用基于块的特征池化方法将四种语音Mel频谱片段学习到的CNN特征分别聚合成固定长度的全局语句特征，包括步骤：

C2)将CNN特征X和一阶导数delta_X分别在不同尺度l下沿时间轴均匀分成L个连续非重叠子块，X＝(X₁，X₂，…，X_L)，delta_X＝(deltx_X₁，delta_X₂，…，delta_X_L)，l＝1，2，…，L；

C3)对含有n个子片段d维的连续非重叠子块X_l＝(x₁，x₂，...，x_n)∈R^d×n进行池化处理，x_n表示连续非重叠子块X_l的第n个语音Mel频谱片段CNN特征，获得固定长度的池化特征

C4)对含有n个子片段d维的连续非重叠导数子块delta_X₁＝(x′₁，x′₂，...，x′_n)∈R^d×n进行池化处理，x′_n表示连续非重叠导数子块delta_X_l的第n个语音Mel频谱片段CNN特征的一阶导数，获得固定长度的池化特征

C5)将所有的子块池化特征进行串联，获得全局语句特征

7.根据权利要求1或6所述的一种基于卷积神经网络和双耳表征的自然语音情感识别方法，其特征在于，步骤D)中采用两阶段分数层融合方法对四个线性支持向量机的输出结果进行融合，包括步骤：

8.根据权利要求7所述的一种基于卷积神经网络和双耳表征的自然语音情感识别方法，其特征在于，步骤D2)中获得左右声道融合结果

9.根据权利要求8所述的一种基于卷积神经网络和双耳表征的自然语音情感识别方法，其特征在于，步骤D3)中获得中央和侧边声道融合结果

10.根据权利要求9所述的一种基于卷积神经网络和双耳表征的自然语音情感识别方法，其特征在于，步骤D4)中获得最终融合结果

λ为最终融合权重，0≤λ≤1。