CN115312080A

CN115312080A - 一种基于互补声学表征的语音情绪识别模型以及方法

Info

Publication number: CN115312080A
Application number: CN202210952834.7A
Authority: CN
Inventors: 张小明; 张帆
Original assignee: Shaoxing Lanhong Intelligent Technology Co ltd; Nanjing Tech University
Current assignee: Shaoxing Lanhong Intelligent Technology Co ltd; Nanjing Tech University
Priority date: 2022-08-09
Filing date: 2022-08-09
Publication date: 2022-11-08

Abstract

本发明涉及语音情绪识别技术领域，具体涉及一种基于互补声学表征的语音情绪识别模型以及方法，该模型采用深度学习模型：包括卷积神经网络编码器以及Transformer编码器两部分。其中，卷积神经网络编码器包含7层卷积层，通过局部感受野的特性，使其能够从输入的对数梅尔频谱logMels中提取局部特征；Transformer编码器包含8个Transformer模块，通过多头注意力机制，使其能够从输入的梅尔频率倒谱系数MFCCs中提取全局特征，将两种特征进行融合并送入全连接层。本发明能更好地利用互补声学表征的特征，从而提高语音情绪识别的准确率。

Description

一种基于互补声学表征的语音情绪识别模型以及方法

技术领域

本发明涉及一种基于互补声学表征的语音情绪识别模型以及方法，属于语音情绪识别领域。

背景技术

语音信号是人类之间最快，最自然的通信方式，这促使研究人员将语音视为一种快速有效的人机交互方式。语音情绪识别从说话者的语音中提取说话人的情绪状态，它是交互式智能系统的重要组成部分。语音情感识别一般是由三部分组成，包括语音信号采集、情感特征提取以及情感识别。

语音信号中包含了多方面的信息，对这些信息进行进一步加工处理可以用于许多研究，包括自动语音识别、说话人识别等。现有的语音情绪识别研究能够做到从同一段语音中提取多种声学特征，但却没有考虑到不同的声学特征侧重点不尽相同，单一的使用某种声学特征作为研究对象无法做到充分利用音频信号中的信息，这样也会使得情绪识别准确率提升不明显。

深度学习的快速发展极大地推动了语音情绪识别研究的进展，然而现有的语音情绪识别研究主要将侧重点放在了模型的提升上，却没有考虑到输入的声学特征与模型之间也存在一定的适配性，合理地利用这一适配性可以进一步提升语音情绪识别的准确率。

发明内容

本发明的目的是针对声学特征的不恰当选用以及声学特征与模型的不恰当组合的问题，提出了一种基于互补声学表征的语音情绪识别模型以及方法，从音频数据中提取两种具有互补性的声学特征，并分别作为相应编码器的输入，从而提高语音情绪识别的准确率。

本发明为解决上述问题采用以下技术方案：

一种基于互补声学表征的语音情绪识别模型，该模型采用深度学习模型，包括卷积神经网络编码器以及Transformer编码器，其中：

卷积神经网络编码器包含7层卷积层，通过局部感受野的特性，使其能够从输入的对数梅尔频谱logMels中提取局部特征；

Transformer编码器包含8个Transformer模块，通过多头注意力机制，使其能够从输入的梅尔频率倒谱系数MFCCs中提取全局特征，将两种特征进行融合并送入全连接层。

一种基于互补声学表征的语音情绪识别方法，基于互补声学表征的语音情绪识别模型，包含步骤如下：

步骤1：建立深度学习模型：包含卷积神经网络编码器以及Transformer编码器，其中卷积神经网络编码器包含7层卷积层，Transformer编码器包含8个Transformer模块，设定随机种子，初始化模型的超参数；

步骤2：获取音频样本步骤：使用交互式情绪二元运动捕捉数据库IEMOCAP，将数据库中的各条语音进行预处理获得若干条语音片段，将前述语音片段作为独立的音频数据样本，语音片段的情绪标签为预处理前语音的情绪标签；

步骤3：提取特征步骤：从前述音频数据样本中提取对数梅尔频谱logMels以及梅尔频率倒谱系数MFCCs作为音频特征；

步骤4：训练步骤：将从各音频数据样本中提取的对数梅尔频谱logMels以及梅尔频率倒谱系数MFCCs分别作为深度学习模型中卷积神经网络编码器以及Transformer编码器的输入，执行如下训练操作；

步骤4.1：第一层卷积层至第七层卷积层利用局部感受野，从输入的对数梅尔频谱logMels中提取局部特征后，将结果展平为张量c；

步骤4.2：第一个Transformer模块至第8个Transformer模块利用多头注意力机制，从输入的梅尔频率倒谱系数MFCCs中提取全局特征后，将结果平均化为张量e；

步骤4.3：将张量c以及张量e拼接起来送入全连接层，获得该音频数据样本关于各情绪标签的概率，将最大概率对应的情绪标签作为该音频数据样本的训练结果输出；

步骤4.4：按照步骤4.1至步骤4.3对各音频数据样本进行训练，利用优化器更新深度学习模型中的参数，直至步骤4.3中全连接层输出的情绪标签准确率趋于稳定，完成训练；

步骤5：识别步骤：通过步骤2对待识别的语音进行预处理获得若干条较短的语音片段，并将这些语音片段作为待识别的音频数据样本；按照步骤3从上述的音频数据样本中提取2种特征；将提取的2种特征送入深度学习模型中分别作为2个编码器的输入进行识别得到各音频数据样本关于各情绪标签的概率，将来自待识别语音的音频数据样本的识别结果取平均后作为待识别语音最终的识别结果。

进一步地，所述的步骤2中，预处理步骤具体为：对于时长较短的语音进行零填充增加时长，将各条语音按照预设的长度和步长进行切分，相邻片段之间形成部分重叠。

进一步地，将原始时长不足2s的语音进行零填充使其时长增加到2s，片段长度为2s，切分步长为1s，相邻片段之间存在1s的重叠，将切分后长度小于片段长度的部分丢弃。

进一步地，所述步骤3中，具体步骤包括以下：

1)使用汉宁窗hanning对预处理好的音频数据样本做短时傅里叶变换STFT，得到功率频谱；

2)将功率频谱标度转化为梅尔频率标度，映射关系如以下公式所示：

其中f_mel是以梅尔(Mel)为单位的梅尔频谱，f是以赫兹(Hz)为单位的功率频谱；

3)对梅尔频谱取对数得到对数梅尔频谱logMels；

4)将对数梅尔频谱logMels做离散余弦变换DCT，得到梅尔频率倒谱系数MFCCs。

进一步地，所述的汉宁窗hanning的宽度为2048，窗函数重叠宽度为512。

进一步地，所述的步骤4.1中，每个卷积层后面都有批量归一化层BatchNormalization和激活函数Relu，第三层卷积层到第七层卷积层后都分别使用内核为2x2的最大池化层用以减少参数数量，在卷积层和最大池化层之后使用Dropout层，以防止过拟合并提高模型的泛化能力。

进一步地，所述的步骤4.2中，Transformer编码器中的Transformer模块只使用了Transformer模型中的Encoder部分用以进行分类任务，多头注意力中头的数量为8个，其中多头注意力的计算公式如下：

Q_i＝QW_i ^Q，K_i＝KW_i ^K，V_i＝VW_i ^V，i＝1，...，h

head_i＝Attention(Q_i，K_i，V_i)，i＝1，...，h

Multi(Q，K，V)-Concat(head₁，...，head_h)W^o

其中h代表的是head的数量，Q、K和V则是MFCCs特征经过位置编码和投影后得到参数，W_i ^Q、W_i ^K以及W_i ^V是第i个head对应于Q、K和V的训练参数，之后得到了每个head对应的Q_i、K_i以及V_i，nead_i为第i个head经过自注意力计算后的值，W^o为参数矩阵，Multi(Q，K，V)代表h个head对应的多头注意力的值。

进一步地，所述的步骤4.3中，张量c以及张量e按照列进行拼接。

有益效果：

本发明从音频信号中提取了具有局部高相关性的logMels特征作为善于提取局部特征的卷积神经网络编码器的输入，同时从音频信号中提取了具有全局信息的MFCCs特征作为善于处理长期依赖的Transformer编码器的输入，使得情绪识别的准确度更高。

本发明的方法使用IEMOCAP数据集的即兴部分的中性、开心、生气、悲伤这四种情绪数据进行了实验，实验结果表明我们所提出的模型能显著提高语音情绪识别的准确度。

目前，本发明的模型取得了79.2％的Weighted Accuracy(WA)和77％的Unweighted Accuracy(UA)，WA指的是识别正确的语句占总语句数的比例，UA指的是每一情绪类别中识别正确的语句数占该情绪类别的比例的平均值。相较于其他模型，本发明的模型识别准确率表现优异。

附图说明

图1为本发明的总体模型构架示意图；

图2为本发明实施例中训练集和测试集的数据处理流程图。

图3为本发明实施例中logMels特征的时频图(图3(左))以及经过卷积神经网络编码器提取之后logMels特征图(图3(右))；

图4为本发明实施例中MFCCs特征的时频图(图4(左))以及经过Transformer编码器提取之后MFCCs特征图(图4(右))；

具体实施方式

下面将参照附图更详细地描述本发明的优选实施方式。虽然附图中显示了本发明的优选实施方式，然而应该理解，可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。

如图1所示，本发明提供一种基于互补声学表征的语音情绪识别模型，该模型采用深度学习模型，卷积神经网络编码器各层具体参数以表1为例，Transformer编码器的具体参数以表2为例，全连接层的具体参数以表3为例。

表1

表2

名称	参数设置
		全连接层	输入尺寸＝808，输出尺寸＝情绪种类数量

表3

该模型采用深度学习模型，包括卷积神经网络编码器以及Transformer编码器，其中：

进一步地，将原始时长不足2s的语音进行零填充使其时长增加到2s，片段长度为2s，训练数据切分步长为1s，相邻片段之间存在1s的重叠，而测试数据切分步长为0.4s，相邻片段之间存在1.6s的重叠，将切分后长度小于片段长度的部分丢弃。

进一步地，所述步骤3中，具体步骤包括以下：

3)对梅尔频谱取对数得到对数梅尔频谱logMels；

Q_i＝QW_i ^Q，K_i＝KW_i ^K，V_i＝VW_i ^V，i＝1，...，h

head_i＝Attention(Q_i，K_i，V_i)，i＝1，...，h

Multi(Q，K，V)-Concat(head₁，...，head_h)W^o

其中h代表的是head的数量，Q、K和V则是MFCCs特征经过位置编码和投影后得到参数，W_i ^Q、W_i ^K以及W_i ^V是第i个head对应于Q、K和V的训练参数，之后得到了每个head对应的Q_i、K_i以及V_i，nead_i为第i个head经过自注意力计算后的值，Wo为参数矩阵，Multi(Q，K，V)代表h个head对应的多头注意力的值。

本发明从音频信号中提取了具有局部高相关性的logMels特征作为善于提取局部特征的卷积神经网络编码器的输入，同时从音频信号中提取了具有全局信息的MFCCs特征作为善于处理长期依赖的Transformer编码器的输入，使得情绪识别的准确度更高。本发明的模型取得了79.2％的Weighted Accuracy(WA)和77％的Unweighted Accuracy(UA)，与大多数的语音情绪识别研究相比，本发明的模型表现优异。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。

Claims

1.一种基于互补声学表征的语音情绪识别模型，其特征在于，该模型采用深度学习模型，包括卷积神经网络编码器以及Transformer编码器，其中：

2.一种基于互补声学表征的语音情绪识别方法，基于权利要求1所述的基于互补声学表征的语音情绪识别模型，其特征在于，步骤如下：

3.根据权利要求2所述的基于互补声学表征的语音情绪识别方法，其特征在于，所述的步骤2中，预处理步骤具体为：对于时长较短的语音进行零填充增加时长，将各条语音按照预设的长度和步长进行切分，相邻片段之间形成部分重叠。

4.根据权利要求2所述的基于互补声学表征的语音情绪识别方法，其特征在于，将原始时长不足2s的语音进行零填充使其时长增加到2s，片段长度为2s，切分步长为1s，相邻片段之间存在1s的重叠，将切分后长度小于片段长度的部分丢弃。

5.根据权利要求2所述的基于互补声学表征的语音情绪识别方法，其特征在于，步骤3中，具体步骤包括以下：

3)对梅尔频谱取对数得到对数梅尔频谱logMels；

6.根据权利要求5所述的基于互补声学表征的语音情绪识别方法，其特征在于，所述的汉宁窗hanning的宽度为2048，窗函数重叠宽度为512。

7.根据权利要求2所述的基于互补声学表征的语音情绪识别方法，其特征在于，所述的步骤4.1中，每个卷积层后面都有批量归一化层Batch Normalization和激活函Relu，第三层卷积层到第七层卷积层后都分别使用内核为2x2的最大池化层用以减少参数数量，在卷积层和最大池化层之后使用Dropout层，以防止过拟合并提高模型的泛化能力。

8.根据权利要求2所述的基于互补声学表征的语音情绪识别方法，其特征在于，所述的步骤4.2中，Transformer编码器中的Transformer模块只使用了Transformer模型中的Encoder部分用以进行分类任务，多头注意力中头的数量为8个，其中多头注意力的计算公式如下：

head_i＝Attention(Q_i，K_i，V_i)，i＝1，...，h

Multi(Q，K，V)＝Concat(head₁，...，head_h)W^o

其中h代表的是head的数量，Q、K和V则是MFCCs特征经过位置编码和投影后得到参数，

以及

是第i个head对应于Q、K和V的训练参数，之后得到了每个head对应的Q_i、K_i和V_i，head_i为第i个head经过自注意力计算后的值，W^o为参数矩阵，Multi(Q，K，V)代表h个head对应的多头注意力的值。

9.根据权利要求2所述的基于互补声学表征的语音情绪识别方法，其特征在于，所述的步骤4.3中，张量c以及张量e按照列进行拼接。