CN114898775B

CN114898775B - 一种基于跨层交叉融合的语音情绪识别方法及系统

Info

Publication number: CN114898775B
Application number: CN202210451212.6A
Authority: CN
Inventors: 李松斌; 王凯巧; 刘鹏
Original assignee: Nanhai Research Station Institute Of Acoustics Chinese Academy Of Sciences
Current assignee: Nanhai Research Station Institute Of Acoustics Chinese Academy Of Sciences
Priority date: 2022-04-24
Filing date: 2022-04-24
Publication date: 2024-05-28
Anticipated expiration: 2042-04-24
Also published as: CN114898775A

Abstract

本发明公开了一种基于跨层交互融合的语音情绪识别方法及系统，所述方法包括：将待识别的语音切割分段后经特征提取得到原始声学特征；将原始声学特征输入预先建立和训练好的语音情绪识别模型，输出语音情绪类别；所述语音情绪识别模型包括多尺度特征提取模块、跨层交互融合模块和情绪识别模块；其中，所述多尺度特征提取模块，用于提取表征语音细节和整体情绪信息的多尺度特征；所述跨层交互融合模块，用于获取更显著的特征表示，并对多尺度特征进行线性融合；所述情绪识别模块，用于计算出融合特征的分类编码输出，得到待识别语音对应的情绪类别。本发明通过采用上述技术方案，可以有效提升语音情绪识别模型的识别精度。

Description

一种基于跨层交叉融合的语音情绪识别方法及系统

技术领域

本发明涉及语音信号处理及深度学习技术领域，特别涉及一种基于跨层交互融合的语音情绪识别方法及系统。

背景技术

语音情绪识别是指从语音信号中识别说话人的主要情绪状态。它是人机交互的重要组成部分，在医疗、教育、安全和国防等领域发挥着重要作用。深度学习加速了从言语中识别人类情绪的进程。许多基于卷积神经网络(CNN)和递归神经网络(RNN)的模型已经被探索。现有的基于神经网络的研究通常将声学特征作为深层神经网络的输入，提取高层特征以提高语音情绪识别的性能。与传统算法相比，它们在自动特征发现和识别精度方面有了显著的改进。此外注意力机制的应用使得语音情绪识别准确率有了显著的提升。

尽管现有的基于注意的方法已经取得了相对较好的性能，但自动语音情绪识别系统仍有改进的余地。一方面，深层神经网络中的不同层可以用来提取不同尺度的特征表示，这些不同尺度的特征对于语音情绪识别任务至关重要。然而，以往的语音情绪识别研究很少关注多尺度特征提取，而是侧重于神经网络的深层特征。另一方面，多尺度特征的有效融合具有重要意义。与传统的静态融合相比，交互式融合允许模型独立地学习潜在的关系。因此，为了获得足够的模型性能，感知多尺度特征并设计交互式融合机制是一个改进语音情绪识别准确率可行的研究思路。

一些在丰富数据及上训练好的开放获取深度神经网络具有非常强的特征学习能力，采用这样的预训练神经网络可以帮助模型学习到包含声学特征局部依赖性的多尺度中间特征。此外，对于深度卷积网络，浅层的感受野相对较小，因此保留了原始声学特征的更多细节，并且特征表示的分辨率较高。然而，浅层的整体情绪表征能力较弱。深层的感受野相对较大，因此细节特征被过滤掉，特征映射的分辨率较低。然而，整体情绪表征能力很强。因此，如果能有效融合浅层特征和深层特征，就能同时捕捉声学特征的细节和整体情绪特征。

发明内容

本发明的目的在于克服现有语音情绪识别方法存在的技术缺陷，提出了一种基于跨层交互融合的语音情绪识别方法及系统，该方法能够进行语音情绪识别，且提升了识别精度。

为了实现上述目的，本发明提出了一种基于跨层交互融合的语音情绪识别方法，所述方法包括：

将待识别的语音切割分段后经特征提取得到原始声学特征；

将原始声学特征输入预先建立和训练好的语音情绪识别模型，输出语音情绪类别；所述情绪类别包括兴奋、悲伤、生气和中立；

所述语音情绪识别模型包括多尺度特征提取模块、跨层交互融合模块和情绪识别模块；其中，

所述多尺度特征提取模块，用于提取表征语音细节和整体情绪信息的多尺度特征；

所述跨层交互融合模块，用于获取更显著的特征表示，并对多尺度特征进行线性融合；

所述情绪识别模块，用于计算出融合特征的分类编码输出，得到待识别语音对应的情绪类别。

作为上述方法的一种改进，所述多尺度特征提取模块包括依次连接的卷积块、第一残差块、第二残差块、第三残差块和第四残差块；其中，

所述卷积块，用于提取原始声学特征的特征图；包括一个卷积核为(1,1)，通道数为3的一维卷积层，一个卷积核为(7,7)，通道数为64的二维卷积层以及一个采样核为(3,3)的最大池化层；

所述第一残差块的输入为特征图，输出为第一特征f₀，所述第一残差块包括三个相同的第一模块，每个第一模块均包括一个卷积核为(1,1)、通道数为64的一维卷积层，一个卷积核为(3,3)，通道数为64的二维卷积层，以及一个卷积核为(1,1)，通道数为256的一维卷积层；

所述第二残差块的输入为第一特征f₀，输出为第二特征f₁，所述第二残差块包括四个相同的第二模块，每个第二模块均包括一个卷积核为(1,1)，通道数为128的一维卷积层，一个卷积核为(3,3)，通道数为128的二维卷积层，以及一个卷积核为(1,1)，通道数为512的一维卷积层；

所述第三残差块的输入为第二特征f₁，输出为第三特征f₂，所述第三残差块包括六个相同的第三模块，每个第三模块均包括一个卷积核为(1，1)，通道数为256的一维卷积层，一个卷积核为(3，3)，通道数为256的二维卷积层，以及一个卷积核为(1，1)，通道数为1024的一维卷积层；

所述第四残差块的输入为第三特征f₂，输出为第四特征f₃，所述第四残差块包括三个相同的第四模块，每个第四模块均包括一个卷积核为(1，1)，通道数为512的一维卷积层，一个卷积核为(3，3)，通道数为512的二维卷积层，以及一个卷积核为(1，1)，通道数为2048的一维卷积层。

作为上述方法的一种改进，所述跨层交互融合模块的处理过程包括：

步骤3-1)采用转置卷积将第二特征f₁，第三特征f₂和第四特征f₃，转换成与第一特征f₀相同维度的第t特征对应的特征图h_t，t∈[1，2，3]；

步骤3-2)并对转换后的第二特征f₁，第三特征f₂和第四特征f₃分别采用双视角注意力机制进行处理得到对应的双视角注意力计算；

步骤3-3)将步骤3-2)的三个双视角注意力计算结果经线性融合得到融合结果l。

作为上述方法的一种改进，所述步骤3-2)包括：

对特征图h_t分为两路，一路经平均池化和线性处理得到归一化前的第一注意力分数v_1t，另一路经最大池化和线性处理得到归一化前的第二注意力分数v_2t；

根据下式得到通道注意力输出u_t：

u_t＝σ(v_1t+v_2t)·h_t

其中，σ是Sigmoid激活函数；

对通道注意力输出u_t依次经平均池化操作和非线性激活函数处理得到区域注意力z_t：

z_t＝σ(Conv1(Avg_Pooling(u_t)))·u_t

其中，Avg_Pooling表示平均池化操作，Conv1表示一维卷积操作。

作为上述方法的一种改进，所述归一化前的第一注意力分数v_1t和归一化前的第二注意力分数v_2t分别满足下式：

v_1t＝W_g(Relu(W_s(Avg_Pooling(h_t))+b_s))+b_g

v_2t＝W_c(Relu(W_z(Max_Pooling(h_t))+b_z))+b_c

其中，Max_Pooling表示最大池化操作，Relu表示激活函数，W_s和W_z分别是第一路和第二路的参数矩阵，b_g和b_s是第一路的两个偏置项，b_c和b_z是第二路的两个偏置项；

作为上述方法的一种改进，所述步骤3-3)处理过程包括：将双视角注意力计算的结果z_t分别与第一特征f₀相乘，并将乘积结果进行拼接，再进行2个二维卷积和2个Relu激活函数计算，根据下式得到融合结果l：

l＝Relu(Conv3(Relu(Conv2([f₀*z₁,f₀*z₂,f₀*z₃]))))。

作为上述方法的一种改进，所述情绪识别模块包括全连接层，用于将融合结果l进行全连接操作得到一维向量y，根据表征对应不同情绪类别的置信度确定情绪类别。

作为上述方法的一种改进，所述方法还包括语音情绪识别模型的训练步骤；包括：

对语音训练集中的原始语音信号以设定的重叠率进行切割，得到设定时长的片段；

随机读取一组含n条设定时长的片段的语音信号，并提取每条语音的梅尔倒谱系数特征，得到n×26×63的原始声学特征；

将原始声学特征输入语音情绪识别模型，获取融合特征的分类编码输出，得到输入语音对应的预测情绪类别；根据预测情绪类别与真实的情绪类别进行损失计算，并采用梯度下降法对语音情绪识别模型中的参数进行更新，反复迭代，直至训练出最优参数组合，得到训练好的语音情绪识别模型。

作为上述方法的一种改进，所述根据预测情绪类别与真实的情绪类别进行损失计算；包括：

根据下式采用交叉熵求取真实标签与预测结果y之间的误差：

其中，p(x_i)表示模型的前向输出结果，q(x_i)表示真实标签，Σ表示求和，n表示样本数量，i表示样本序号。

一种基于跨层交互融合的语音情绪识别系统，所述系统包括：语音情绪识别模型、数据预处理模块和情绪类别输出模块；其中，

所述数据预处理模块，用于将待识别的语音切割分段后经特征提取得到原始声学特征；

所述情绪类别输出模块，用于将原始声学特征输入预先建立和训练好的语音情绪识别模型，输出语音情绪类别；所述情绪类别包括兴奋、悲伤、生气和中立；

与现有方法相比，本发明的技术优势在于：

本发明提供的语音情绪识别技术方案，将原始语音切割成具有一定重叠率的语音片段，使得模型能去挖掘每个语音小片段中情绪信息，通过求所有小片段的平均分数的方式来求整条语音片段的预测值，采用预训练成熟的深度卷积神经网络来从原始声学特征中提取多尺度特征，这些特征既能包含声学特征中的细节情绪特征又能包含整体情绪特征；在此基础上，计算多尺度特征的双通道注意力，使得这些特征能具有更强的表征能力，最后通过线性融合的方式来将多尺度特征进行融合，这种线性融合的方式可以允许自动地模型去学习这些特征的潜在关系，最后由全连接层做出语音片段中属于的情绪类别的推理决策；在测试基准数据集时，本发明取得了超过现有方法的性能。

附图说明

图1为本发明提供的基于跨层交互融合的语音情绪识别方法整体流程示意图；

图2为语音情绪识别模型结构示意图；

图3为本发明提供的卷积块和四个残差块结构示意图。

具体实施方式

本发明公开了一种基于多尺度特征跨层交互融合的高精度语音情绪识别方法及系统。该方法包括：将原始语音切割成具有一定重叠率的语音片段，使得模型能去挖掘每个语音小片段中情绪信息，通过求所有小片段的平均分数的方式来求整条语音片段的预测值。采用预训练成熟的深度卷积神经网络来从原始声学特征中提取多尺度特征，这些特征既能包含声学特征中的细节情绪特征又能包含整体情绪特征。在此基础上，计算多尺度特征的双通道注意力，使得这些特征能具有更强的表征能力，最后通过线性融合的方式来将多尺度特征进行融合，这种线性融合的方式可以允许自动地模型去学习这些特征的潜在关系，最后由全连接层做出语音片段中属于的情绪类别的推理决策。

下面结合附图和具体实施来对本发明作进一步描述。

实施例1

如图1所示，本发明的实施例1提出了一种基于跨层交互融合的语音情绪识别方法。

被识别语音片段输入到模型中通过数据预处理模块、多尺度特征提取模块、跨层交互融合模块、情绪识别模块的计算，可以得到该语音片段的推理情绪类别。图2为本发明提供的一种基于跨层交互融合的语音情绪识别方法结构示意图，如图所示，本发明提出的语音情绪识别方法由四个模块构成。该模型的数据处理过程具体包括：

步骤1)数据预处理，通过数据预处理模块将语音训练集中的原始语音信号以50％的重叠率切割成2秒的片段，分割后的语音片段标签为该语音片段分割前的标签，分割过程中不足2秒的片段将会被丢弃，由此构建了一个每条语音均为2秒的新语音训练集；

步骤2)随机读取一组含n条2秒片段的语音信号，并提取每条语音的梅尔倒谱系数特征，得到n×26×63的原始声学特征，在具体实施过程中n为32，在后续训练过程中一组语音信号是梯度反向传播算法的一个参数更新单位；

步骤3)通过多尺度特征提取模块采用一个包含不同卷积核大小的深度卷积网络来提取输入特征的多尺度特征图，由此得到可以表征语音细节和整体情绪信息的四个具有不同尺度的特征f₀，f₁，f₂，f₃；

步骤4)通过跨层交互融合模块进行跨层交互融合的计算，将上述提到的特征进行特征转置，计算其双视角注意力，将得到的特征图进行线性融合拼接并计算其二维卷积；

步骤5)最后通过情绪识别模块将得到的高维特征通过全连接层，获取融合特征的分类编码输出，得到输入语音对应的预测情绪类别；情绪类别包括兴奋、悲伤、生气和中立；

步骤6)根据预测情绪类别与真实的情绪类别进行损失计算，并采用梯度下降法对模型中的参数进行更新，反复迭代，直至训练出最优参数组合；

步骤7)基于最优参数模型，对待被测试的语音进行情绪识别，其中，所述待被测试的语音不属于训练集所包含的语音。

如图2所示，本发明提出的跨层交互融合语音情绪识别模型由数据预处理模块、多尺度特征提取模块、跨层交互融合模块以及情绪识别模块构成。图中，“⊙”表示矩阵逐点相乘，表示矩阵相乘，/>表示矩阵逐点相加，“σ”表示Sigmoid激活函数。

所述的包含不同卷积核大小的深度卷积网络由一个卷积块和四个残差块来组成，所述步骤3)具体包括：

步骤3-1)所述卷积块包含了一个一维卷积层、一个二维卷积层、和一个最大池化层，如图3所示；其中，所述一维卷积层是一个卷积核为(1,1)、通道数为3的卷积层，二维卷积层是一个卷积核为(7,7)、通道数为64的卷积层；最大池化层是一个采样核为(3,3)的池化层；由此可以得到原始声学特征的特征图；

步骤3-2)将上述得到的特征图输入到残差块1，得到f₀，残差块1由3个一样的模块组成，每个模块是三层卷积计算，如图3所示，其中，第一层是一个卷积核为(1,1)、通道数为64的一维卷积层，第二层是一个卷积核为(3,3)、通道数为64的二维卷积层，第三层是一个卷积核为(1,1)、通道数为256的一维卷积层；

步骤3-3)将上述得到的f₀输入到残差块2，得到f₁，卷积块2由4个一样的模块组成，每个模块是三层卷积计算，如图3所示，其中，第一层是一个卷积核为(1,1)、通道数为128的一维卷积层，第二层是一个卷积核为(3,3)、通道数为128的二维卷积层，第三层是一个卷积核为(1,1)、通道数为512的一维卷积层；

步骤3-4)将上述得到的f₁输入到残差块3，得到f₂，卷积块3由6个一样的模块组成，每个模块是三层卷积计算，如图3所示，其中，第一层是一个卷积核为(1,1)、通道数为256的一维卷积层，第二层是一个卷积核为(3,3)、通道数为256的二维卷积层，第三层是一个卷积核为(1,1)、通道数为1024的一维卷积层；

步骤3-5)将上述得到的f₂输入到残差块4，得到f₃，卷积块4由3个一样的模块组成，每个模块是三层卷积计算，其中，第一层是一个卷积核为(1,1)、通道数为512的一维卷积层，第二层是一个卷积核为(3,3)、通道数为512的二维卷积层，第三层是一个卷积核为(1,1)、通道数为2048的一维卷积层。

所述步骤4)具体包括：

步骤4-1)采用转置卷积将上述得到的f₁、f₂和f₃转换成与f₀一样的维度，计算公式如下：

o＝(i-1)s-2p+k+u

这里，i和o代表输入和输出的尺度大小，s、p、k、u分别表示步长、填充、卷积核和输出填充，在具体实施过程中，在图2中的转置卷积1的s、p、k、u设置分别是(2，2)、(1、1)、(3，3)、(0，1)，转置卷积2的s、p、k、u设置分别是(4，4)、(1、1)、(5，5)、(0，1)，转置卷积3的s、p、k、u设置分别是(8，8)、(1、1)、(7，7)、(2，3)，由此便可以得到三个具有与f0相同维度的特征图h₁、h₂、h₃；

步骤4-2)所述的双视角注意力包括了通道注意力和区域注意力，其计算公式如下所示：

u_t＝σ(v_1t+v_2t)·h_t

这里，h_t是计算得到的特征图，t∈[1，2，3]，u_t是通道注意力的输出，σ是Sigmoid激活函数，v_1t和v_2t，是计算得到归一化前的通道注意力分数，其可以通过以下公式计算

v_1t＝W_g(Relu(W_s(Avg_Pooling(h_t))+b_s))+b_g

v_2t＝W_c(Relu(W_z(Max_Pooling(h_t))+b_z))+b_c

其中Avg_Pooling、Max_Pooling、Relu分别是平均池化操作、最大池化操作、非线性激活函数，W.是可学习的参数矩阵，b.是偏置项。接着对u_t计算区域注意力：

z_t＝σ(Conv1(Avg_Pooling(u_t)))·u_t

其中，Conv1是一维卷积操作，其卷积核为(1，1)，通道数为3，z_t是经过双视角注意力计算的最终结果

步骤4-3)所述的线性融合，是将双视角注意力计算的结果z_t分别于f₀相乘，并将乘积结果进行拼接，再进行2个二维卷积、2个Relu激活函数计算，2个维卷积的卷积核分别为(3，3)、(3，3)，通道数分别为128，16，其计算公式如下：

l＝Relu(Conv3(Relu(Conv2([f₀*z₁，f₀*z₂，f₀*z₃]))))

所述步骤5)具体为分类结果y将通过对上述l进行全连接操作得出，y是一个一维向量，其中每个数值是该值索引对应的情绪类别的概率值：

y＝Fc(l)

所述步骤6)具体包括：

步骤6-1)将模型输出的结果与真实标签进行误差求取；所述误差求取采用交叉熵，其可以表示为：

其中，表示真实标签/>与预测结果y之间的误差，p(x_i)表示模型的前向输出结果，q(x_i)表示真实标签，Σ表示求和；

步骤6-2)采用步骤6-1)得到的参数作为本次迭代的权重值；从剩余的语音中随机选取一组语音，经步骤2)、步骤3)、步骤4)、步骤5)和步骤6-1)，得到新的参数组合；反复迭代，每次迭代的学习率为1e-3，优化器为Adam,直至完成一个迭代周期；

步骤6-3)对训练语音进行重新洗牌，转至步骤2)；反复执行，直至训练出最优参数组合。

所述步骤7)具体包括：

步骤7-1)对于待检测语音，以80％的重叠率切割成2秒的片段；

步骤7-2)采用与步骤2)一样的方法，将每个片段编译成26×63的声学特征；

步骤7-3)将规整后的声学特征输入至最优参数模型，经模型前向传输得到单个语音片段预测结果；

步骤7-4)求一条语音信号的若干片段的预测结果平均值，该平均值就是该条语音信号的最终预测结果

步骤7-5)将每一条语音信号的预测结果最大概率值所对应的类别与真实标签进行比较，若一致，则预测正确，反之，则预测错误；

步骤7-6)执行步骤7-1)、步骤7-2)、步骤7-3)、步骤7-4)和步骤7-5)，直到全部待测语音检测完毕。

实施例2

本发明还提供了一种基于跨层交互融合的高精度语音情绪识别系统，根据实施例1方法构建的语音情绪识别网络模型实现，所述系统包括：

数据预处理模块，用于对输入语音进行切割和特征提取，得到原始声学特征；

情绪类别输出模块，用于将原始声学特征输入预先建立和训练好的语音情绪识别模型，输出语音情绪类别；所述情绪类别包括兴奋、悲伤、生气和中立；

语音情绪识别模型包括多尺度特征提取模块、跨层交互融合模块和情绪识别模块；其中，

多尺度特征提取模块，用于提取表征语音细节和整体情绪信息的多尺度特征；

跨层交互融合模块，用于获取更显著的特征表示，并对多尺度特征进行线性融合；

情绪识别模块，用于计算出融合特征的分类编码输出，得到待识别语音对应的情绪类别。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于跨层交叉融合的语音情绪识别方法，所述方法包括：

将待识别的语音切割分段后经特征提取得到原始声学特征；

所述情绪识别模块，用于计算出融合特征的分类编码输出，得到待识别语音对应的情绪类别；

所述多尺度特征提取模块包括依次连接的卷积块、第一残差块、第二残差块、第三残差块和第四残差块；其中，

所述第三残差块的输入为第二特征f₁，输出为第三特征f₂，所述第三残差块包括六个相同的第三模块，每个第三模块均包括一个卷积核为(1,1)，通道数为256的一维卷积层，一个卷积核为(3,3)，通道数为256的二维卷积层，以及一个卷积核为(1,1)，通道数为1024的一维卷积层；

所述第四残差块的输入为第三特征f₂，输出为第四特征f₃，所述第四残差块包括三个相同的第四模块，每个第四模块均包括一个卷积核为(1,1)，通道数为512的一维卷积层，一个卷积核为(3,3)，通道数为512的二维卷积层，以及一个卷积核为(1,1)，通道数为2048的一维卷积层；

所述跨层交互融合模块的处理过程包括：

步骤3-1)采用转置卷积将第二特征f₁，第三特征f₂和第四特征f₃，转换成与第一特征f₀相同维度的第t特征对应的特征图h_t，t∈[1,2,3]；

2.根据权利要求1所述的基于跨层交叉融合的语音情绪识别方法，其特征在于，所述步骤3-2)包括：

根据下式得到通道注意力输出u_t：

u_t＝σ(v_1t+v_2t)·h_t

其中，σ是Sigmoid激活函数；

z_t＝σ(Conv1(Avg_Pooling(u_t)))·u_t

其中，Avg_Pooling表示平均池化操作，Conv1表示一维卷积操作。

3.根据权利要求2所述的基于跨层交叉融合的语音情绪识别方法，其特征在于，所述归一化前的第一注意力分数v_1t和归一化前的第二注意力分数v_2t分别满足下式：

v_1t＝W_g(Relu(W_s(Avg_Pooling(h_t))+b_s))+b_g

v_2t＝W_c(Relu(W_z(Max_Pooling(h_t))+b_z))+b_c

其中，Max_Pooling表示最大池化操作，Relu表示激活函数，W_s和W_z分别是第一路和第二路的参数矩阵，b_g和b_s是第一路的两个偏置项，b_c和b_z是第二路的两个偏置项。

4.根据权利要求3所述的基于跨层交叉融合的语音情绪识别方法，其特征在于，所述步骤3-3)包括：

将双视角注意力计算的结果z_t分别与第一特征f₀相乘，并将乘积结果进行拼接，再进行2个二维卷积和2个Relu激活函数计算，根据下式得到融合结果l：

l＝Relu(Conv3(Relu(Conv2([f₀*z₁,f₀*z₂,f₀*z₃]))))。

5.根据权利要求3所述的基于跨层交叉融合的语音情绪识别方法，其特征在于，所述情绪识别模块包括全连接层，用于将融合结果l进行全连接操作得到一维向量y，根据表征对应不同情绪类别的置信度确定情绪类别。

6.根据权利要求3所述的基于跨层交叉融合的语音情绪识别方法，其特征在于，所述方法还包括语音情绪识别模型的训练步骤；包括：

7.根据权利要求6所述的基于跨层交叉融合的语音情绪识别方法，其特征在于，所述根据预测情绪类别与真实的情绪类别进行损失计算；包括：

根据下式采用交叉熵求取真实标签与预测结果y之间的误差：

8.一种基于权利要求1的基于跨层交叉融合的语音情绪识别方法的系统，其特征在于，所述系统包括：语音情绪识别模型、数据预处理模块和情绪类别输出模块；其中，