CN112581979A

CN112581979A - 一种基于语谱图的语音情绪识别方法

Info

Publication number: CN112581979A
Application number: CN202011439586.3A
Authority: CN
Inventors: 杨丽佳; 舒坤贤
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2021-03-30
Anticipated expiration: 2040-12-10
Also published as: CN112581979B

Abstract

本发明属于人工智能、语音处理和情感计算领域，具体涉及一种基于语谱图的语音情绪识别方法，该方法包括：实时获取语音信号，将语音信号转化为语谱图；将语谱图输入到训练好的语音情绪识别模型中，识别语音情绪；所述语音情绪识别模型包括基于注意力机制的残差神经网络和长短时记忆神经网络LSTM；发明提出把神经网络和注意力模型结合在一起，可以更高效地学习到语谱图中语音能量值的有效特征，以提高语音情绪识别的正确率。

Description

一种基于语谱图的语音情绪识别方法

技术领域

本发明属于人工智能、语音处理和情感计算领域，具体涉及一种基于语谱图的语音情绪识别方法。

背景技术

语音情感识别是情感计算的一个重要组成部分。随着深度学习和人工智能的发展，情感识别在人机交互领域具有广阔的应用前景，已收到研究者的广泛关注。1995年，美国麻省理工大学的Picard教授提出了情感计算的概念。2003年，中科院自动化研究所等单位在北京主办了第一届中国情感计算及智能交互学术会议，2005年在北京主办了首届国际情感计算及智能交互学术会议，会议聚集了众多国内乃至国际上该领域的专家一起交流情感计算的看法。

Basu等人主要采用了梅尔频率倒谱系数作为输入特征，利用卷积神经网络和长短时记忆神经网络的分类方法实现了接近80％的识别率。Yamada等研究了一种传递信息的情感模型，利用BP算法作为声学模型识别基本的情感，包括悲伤、兴奋、欢乐和愤怒，达到了70％的准确率。王蔚、胡婷婷等人针对探索自然状态和表演状态下语音情感识别的差异，采用深度学习算法分析了IEMOCAP公用数据集，对自然状态和表演状态下的中性、愤怒、开心和悲伤等四类情绪语音数据进行实验，利用卷积神经网络CNN和混淆矩阵分析了两种状态下不同情绪之间的误分率和相似性。王金华、应娜等人以混合卷积神经网络模型为基础，改进特征提取中的Itti模型，并提出通过特征约束条件提取标定权重特征的约束挤压和激励网络结构，把VGGnet和长短时记忆神经网络结合，进一步提升了情感表征能力，提高了模型的泛化性。随着计算机多媒体技术的发展，人机交互越来越受到许多人的关注，用计算机来实现语音情感识别成为了当前的重要发展方向之一。

目前，将人工智能和深度学习结合起来应用于语音情绪识别获得了巨大进展，但是在使用传统神经网络和单一神经网络进行特征提取和模型训练时，由于数据集小，在进行模型的选择和建立时考虑的因素不够全面，从而对语音情绪特征的提取存在不够全面的问题，导致训练的模型不能准确地对语音进行情感分类。

发明内容

为了解决以上现有技术存在的问题，本发明提出了一种一种基于语谱图的语音情绪识别方法，该方法包括：实时获取语音信号，将语音信号转化为语谱图；将语谱图输入到训练好的语音情绪识别模型中，识别语音情绪；所述语音情绪识别模型包括基于注意力机制的残差神经网络和长短时记忆神经网络LSTM；

训练基于注意力机制的卷积神经网络模型的过程包括：

训练语音情绪识别模型的过程包括：

S1：获取原始语音信号，将原始语音信号转换为语谱图；

S2：将所有的语谱图进行集合，将集合进行分类得到训练集和测试集；

S3：将训练集中的数据中的语谱图输入到基于注意力机制的残差神经网络中，提取语谱图的加权时频情感特征图；

S4：将加权时频情感特征图输入到长短时记忆神经网络LSTM中提取时频情感特征图的时域特征，得到时域特征图；

S5：采用归一化指数函数softmax对时域特征图进行归一化处理，得到情感分类结果；

S6：根据分类结果计算模型的损失函数；

S7：将测试集数据输入到模型中，不断调整损失函数的参数，当损失函数最小时，完成模型的测试。

优选的，将语音信号转化为语谱图的过程包括：

步骤1：对语音信号进行预加重处理，提高语音的高频信号；

步骤2：对加重的语音信号进行分帧处理，得到分帧后的语音信号；

步骤3：将分帧后的语音信号进行加窗处理，增加相邻两帧信号之间的流畅性；

步骤4：对加窗后的分帧语音信号进行傅里叶变换，得到语谱图。

进一步的，采用汉明窗对信号进行加窗处理，加窗的公式为：

W(n)＝0.54-0.46cos[2πn/(N-1)]，0≤n≤N-1

进一步的，对加窗后的分帧语音信号进行傅里叶变换的公式为：

优选的，采用残差神经网络提取语谱图的时域情感特征和频域情感特征的过程包括：

步骤1：将语谱图输入到残差神经网络的第一卷积层中提取特征，得到浅层特征；

步骤2：采用至少8个残差块对浅层特征进行深层特征提取，得到部分时域情感特征和部分频域情感特征；其中，残差块的卷积层分别用于提取浅层特征的部分时域和频域的情感特征；残差块中的恒等映射层分别用于传递上一个残差块中浅层特征的部分时域和频域情感特征；

步骤3：将时域情感特征与频域特征的维度统一，得到具有相同维度的时域情感特征和频域情感特征；

步骤4：采用注意力机制模块对所有的时域情感特征和所有的频域情感特征进行加权融合处理，得到有注意力权重的时域情感特征图和带有注意力权重的频域情感特征图；

步骤5：将带有注意力权重的时域情感特征图和带有注意力权重的频域情感特征图进行融合，得到加权后的时频情感特征图。

进一步的，采用注意力机制模块对时域情感特征和频域情感特征进行加权融合处理的过程包括：

步骤41：将时域情感特征图输入到通道注意力模块中，得到时域通道注意力权重；

步骤42：采用softmax函数将时域通道注意力权重进行归一化处理；

步骤43：将归一化处理后的时域通道注意力权重和输入的时域情感特征图做元素乘法操作，得到通道注意力时域情感特征图；

步骤44：将带有通道注意力时域情感特征图输入到空间模块中，提取空间注意力权重；

步骤45：将空间注意力权重与输入的时域情感特征图做元素相乘，并经过激活函数处理生成空间注意力时域情感特征图；

步骤46：将空间注意力时域情感特征图和通道注意力权重时域情感特征图进行卷积操作，得到带有注意力权重的时域情感特征图；

步骤47：将频域情感特征图做与时域情感特征图相同的操作，得到带有注意力权重的频域情感特征图。

进一步的，通道注意力权重的公式为：

M_c(F)＝σ(MLP(AvgPool(F))+MLP(MaxPool(F)))

进一步的，空间注意力权重的计算公式为：

M_s(F)＝σ(f^7×7([AvgPool(F)；MaxPool(F)]))

优选的，采用长短时记忆神经网络LSTM对加权后的时频情感特征图进行处理的过程包括：

步骤1：将加权后的时频情感特征图输入到长短时记忆神经网络LSTM的遗忘门中，得到上一时刻的细胞内部状态丢弃的信息；

步骤2：将经过遗忘门的信息输入到输入门中，得到当前的细胞状态添加的新信息；

步骤3：将经过输入门的信息输入到输出门中，得到时域特征图。

优选的，损失函数的公式为：

f(x)＝max(0，x)

本发明的优点：

1)相对于传统卷积神经网络，本发明提出把神经网络和注意力模型结合在一起，并且把频域特征和时域特征融合起来构成时频特征，优化了只提取频域特征或时域特征而影响模型建立和情感识别准确率，可以更高效地学习到语谱图中语音能量值的有效的特征，以提高语音情绪识别的正确率。

2)把语音信号处理成语谱图的形式，通过卷积神经网络可以提取到频域和时域上存在的特征，优化了单一区域上的特征不足以完全表达情绪的问题。

附图说明

图1为本发明的语音信号的梅尔语谱图；

图2为本发明的语音情绪识别模型结构图；

图3为本发明的长短时记忆神经网络的展开图；

图4为本发明的长短时记忆神经网络即门控单元。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于语谱图的语音情绪识别方，如图2所示，该方法包括：实时获取语音信号，将语音信号转化为语谱图；将语谱图输入到训练好的语音情绪识别模型中，识别语音情绪；所述语音情绪识别模型包括基于注意力机制的残差神经网络和长短时记忆神经网络LSTM。

训练语音情绪识别模型的过程包括：

S1：获取原始语音信号，将原始语音信号转换为语谱图；

S6：根据分类结果计算模型的损失函数；

S7：将测试集数据输入到模型中，不断调整损失函数的参数，当损失函数最小时，完成模型的训练。

将语音信号转换成语谱图的结果如图1所示。其转换过程包括：对于数据的预处理上，首先对语音信号进行预加重提高语音的高频信号，再对语音进行分帧处理使其成为一段段稳定的语音信号，然后再对分帧后的语音进行加窗处理以增加相邻两帧之间的流畅性，接着对加窗后的语音进行傅里叶变换以实现语音信号从时域信号到频域信号上的转换，以上操作将语音信号转换成语谱图以作为神经网络的数据输入。

将语音信号转换成语谱图的步骤如下：

对每一段语音信号进行预加重，以增加高频部分的信噪比，提高传输质量。预加重就是插入一个一阶的高通滤波器，常用的预加重因子是

其中R(n)是信号S(n)的自相关函数。

由于语音信号具有时变特性，那么预加重之后对语音信号进行分帧处理，以保证语音在短时间范围内具有稳定性，即将S(n)分帧得到S(m，n)，此时函数中的n代表每一帧的帧长度，m代表一段语音所分成的帧数。

对分帧之后的语音添加窗函数，从而形成加窗语音信号

S_w(n)＝S(n)*W(n)

其中，S(n)表示语音信号，W(n)表示加窗的窗函数。

优选的，采用汉明窗对信号进行加窗处理，加窗的公式为：

W(n)＝0.54-0.46cos[2πn/(N-1)]，0≤n≤N-1

其中，n表示语音信号，N表示帧长。

对加窗之后的语音信号进行短时傅里叶变换，实现从时域到频域上的转换得到语谱图，即：

其中，e^jw表示正弦波，S(n)表示语音信号，W(n-m)表示一个滑动的窗函数，它随n的变化而沿着序列S(n)滑动，n表示第n帧语音信号，m表示加窗之后的第m帧语音信号。

在神经网络的输入层，主要是对原始图像数据进行预处理，其中包括：

去均值：把输入数据各个维度都中心化为0，其目的就是把样本的中心拉回到坐标系原点上。

归一化：幅度归一化到同样的范围，如下所示，即减少各维度数据取值范围的差异而带来的干扰，比如，我们有两个维度的特征A和B，A范围是0到10，而B范围是0到10000，如果直接使用这两个特征是有问题的，好的做法就是归一化，即A和B的数据都变为0到1的范围。

PCA/白化：用PCA降维；白化是对数据各个特征轴上的幅度归一化。

采用残差神经网络提取语谱图的时域情感特征和频域情感特征的过程包括：

步骤2：采用至少8个残差块对浅层特征进行深层特征提取，得到部分时域情感特征和部分频域情感特征；其中，残差块的卷积层分别用于提取浅层特征的部分时域和频域的情感特征；残差块中的恒等映射层分别用于传递上一个残差块中浅层特征的部分时域和频域情感特征。

优选的，残差神经网络中包含的残差块数量为至少8个，至多16个。最优的，残差神经网络中残差块的数量为8个。

采用注意力机制模块对时域情感特征和频域情感特征进行加权融合处理的过程包括：

对频域情感特征图做与频域情感特征图相同的操作的过程包括：将频域情感特征图输入到通道注意力模块中，得到频域通道注意力权重；采用softmax函数将频域通道注意力权重进行归一化处理；将归一化处理后的频域通道注意力权重和输入的频域情感特征图做元素乘法操作，得到通道注意力频域情感特征图；将带有通道注意力频域情感特征图输入到空间模块中，提取空间注意力权重；将空间注意力权重与输入的频域情感特征图做元素相乘，并经过激活函数处理生成空间注意力频域情感特征图；将空间注意力频域情感特征图和通道注意力权重频域情感特征图进行卷积操作，得到带有注意力权重的频域情感特征图。

其具体的过程包括：在输入层和输出层加入注意力机制模型，进行空间和通道两个方向的权重学习，获得加权后的深度语音情感特征。首先，将特征图输入到通道注意力模型得到通道注意力权重，然后通过softmax对特征图进行归一化处理，将通道注意力特征图和输入特征图做元素乘法操作得到带通道注意力权重的特征图，以生成空间模块需要的输入特征。通道注意力权重的计算公式如下：

M_c(F)＝σ(MLP(AvgPool(F))+MLP(MaxPool(F)))

其中，AvgPool(F)表示对特征图进行平均池化操作，F表示特征图，MLP(.)表示多层感知机，MaxPool(F)表示对特征图进行最大池化操作，σ(.)表示sigmoid激活函数。

将带有通道注意力权重的特征图与输入特征图做元素相乘，并经过激活函数处理生成空间注意力特征图，得到最终生成的特征，然后通过卷积操作，通过softmax层得到最终输出。将通道注意力模块和空间注意力模块顺序组合，并把通道注意力模块放在前面。空间注意力权重的计算公式如下：

M_s(F)＝σ(f^7×7([AvgPool(F)；MaxPool(F)]))

其中，AvgPool(F)表示对特征图进行最大池化操作，F表示特征图，MLP(.)表示多层感知机，MaxPool(F)表示对特征图进行最大池化操作，σ(.)表示sigmoid激活函数，f^7×7(.)表示卷积核为7×7的卷积操作。

长短期记忆网络(Long Short-Term Memory)是一种时间循环神经网络，是为了解决RNN(循环神经网络)存在的长期依赖问题而提出来的。LSTM作为效果比较好的递归神经网络，拥有者对长时时间序列问题很好的解决能力。它的主要结构是具有一门控单元，它由单元状态和门限组成。

单元状态：让信息以不变的方式向下流动。门限：向单元状态增加或者剔除信息的管理机构，在LSTM中由Sigmoid函数和乘法加法来控制这个过程。sigmoid函数也叫Logistic函数，用于隐层神经元输出，取值范围为(0，1)，它可以将一个实数映射到(0，1)的区间，用来做二分类。

如图4所示，LSTM网络模块中，由三个门限组成，遗忘门，输入门和输出门。

如图3所示，本发明采用LSTM网络模块对输入的加权后的时频情感特征图的处理过程包括：

遗忘门：当前时间的输入和前一个时间的输出来通过Sigmoid函数来使得单元状态乘以这个Sigmoid函数的输出。若Sigmoid函数输出0则该部分信息需要被遗忘，反之该部分信息继续在单元状态中继续传下去。遗忘门公式如下：

f_t＝σ(W_f·[h_t-1，x_t]+b_f)

其中，f_t代表遗忘门，σ代表Sigmoid层，描述每个元素应该通过门限的程度，W_f代表遗忘门的权重矩阵，h_t-1代表上一时刻的输出，x_t代表当前时刻的输入元素，b_f代表遗忘门的偏置。

输入门：该门限功能是更新旧的单元状态。之前的遗忘门限层决定了遗忘或者添加哪些信息，由该门限层来执行实现，计算公式如下：

i_t＝σ(W_i·[h_t-1，x_t]+b_i)

C_t＝tanh(W_C·[h_t-1，x_t]+b_C)

其中，i_t代表输入门，σ代表Sigmoid层，描述每个元素应该通过门限的程度，W_i代表输入门的权重矩阵，h_t-1代表上一时刻的输出，x_t代表当前时刻网络的输入值，b_i代表输入门的偏置，C_t代表上一时刻记忆细胞的单元状态，W_c上一时刻的输出权重矩阵，b_C表示上一时刻记忆细胞的单元状态偏置项。

输出门：决定需要输出的元素。首先，使用一个Sigmoid函数来决定单元状态中哪些部分需要输出；然后将单元状态输入到tanh函数(将值转换成-1到1之间)中，乘以输出的Sigmoid门限值，即得到想要输出的那部分数据。公式如下：

o_t＝σ(W_o[h_t-1，x_t]+b_o)

h_t＝o_t*tanh(C_t)

其中，o_t代表输出门，σ代表Sigmoid层，描述每个元素应该通过门限的程度，W_o代表输入单元转态权重矩阵以及输出门的权重矩阵，h_t-1代表上一时刻的输出，x_t代表当前时刻的输入元素，b_o代表输出门的偏置，h_t代表当前时刻的输出值，C_t表示上一时刻记忆细胞的单元状态。

将经过输入层得到的带有注意力权重的特征图通过卷积和池化操作，最后在全连接层使用softmax分类器对语音情感进行分类。

损失函数方程为：

f(x)＝max(0，x)

其中，x表示进入神经元的来自上一层神经网络的输入向量，f(x)表示线性整流函数。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于语谱图的语音情绪识别方法，其特征在于，包括：实时获取语音信号，将语音信号转化为语谱图；将语谱图输入到训练好的语音情绪识别模型中，识别语音情绪；所述语音情绪识别模型包括基于注意力机制的残差神经网络和长短时记忆神经网络LSTM；

训练语音情绪识别模型的过程包括：

S1：获取原始语音信号，将原始语音信号转换为语谱图；

S6：根据分类结果计算模型的损失函数；

2.根据权利要求1所述的一种基于语谱图的语音情绪识别方法，其特征在于，将语音信号转化为语谱图的过程包括：

步骤1：对语音信号进行预加重处理，提高语音的高频信号；

3.根据权利要求2所述的一种基于语谱图的语音情绪识别方法，其特征在于，采用汉明窗对信号进行加窗处理，加窗的公式为：

W(n)＝0.54-0.46cos[2πn/(N-1)],0≤n≤N-1

其中，n表示语音信号，N表示帧长。

4.根据权利要求2所述的一种基于语谱图的语音情绪识别方法，其特征在于，对加窗后的分帧语音信号进行傅里叶变换的公式为：

其中，e^jw表示正弦波，S(n)表示语音信号，W(n-m)表示窗函数，n表示第n帧语音信号，m表示加窗之后的第m帧语音信号。

5.根据权利要求1所述的一种基于语谱图的语音情绪识别方法，其特征在于，采用基于注意力机制的残差神经网络提取语谱图的加权时频情感特征图过程包括：

6.根据权利要求5所述的一种基于语谱图的语音情绪识别方法，其特征在于，采用注意力机制模块对时域情感特征和频域情感特征进行加权融合处理的过程包括：

7.根据权利要求6所述的一种基于语谱图的语音情绪识别方法，其特征在于，通道注意力权重的公式为：

M_c(F)＝σ(MLP(AvgPool(F))+MLP(MaxPool(F)))

8.根据权利要求6所述的一种基于语谱图的语音情绪识别方法，其特征在于，空间注意力权重的计算公式为：

M_s(F)＝σ(f^7×7([AvgPool(F)；MaxPool(F)]))

9.根据权利要求1所述的一种基于语谱图的语音情绪识别方法，其特征在于，采用长短时记忆神经网络LSTM对加权后的时频情感特征图进行处理的过程包括：

10.根据权利要求1所述的一种基于语谱图的语音情绪识别方法，其特征在于，损失函数的公式为：

f(x)＝max(0,x)