CN112562725A

CN112562725A - 基于语谱图和胶囊网络的混合语音情感分类方法

Info

Publication number: CN112562725A
Application number: CN202011451537.1A
Authority: CN
Inventors: 张卫; 贾宇; 罗翠线
Original assignee: Shanxi University of Finance and Economics
Current assignee: Shanxi University of Finance and Economics
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2021-03-26

Abstract

本发明涉及语音信号处理领域，具体涉及基于语谱图和胶囊网络的混合语音情感分类方法。为解决不同语种差异性大，传统识别方法寻找特征共性差的问题，本发明主要是将原始的语音数据通过预处理，转化为语谱图，再使用卷积神经网络和胶囊神经网络进行更深层次的特征提取。最终达到获得不同语种之间的共性特征，有效提高混合语音库的情感分类识别准确率的目的。

Description

基于语谱图和胶囊网络的混合语音情感分类方法

技术领域

本发明涉及语音信号处理领域，具体涉及基于语谱图和胶囊网络的混合语音情感分类方法。

背景技术

语音是人与人交流的重要途径，也是传递信息的重要媒介。通过机器分辨语音情感可以大大提升效率，节约人力成本，因此成为人工智能研究方向的一个重要分支。语音情感分类主要分为语音预处理、特征提取以及识别模型的构建三部分。由于近些年设备的更新和深度学习技术的加强，对于语音的情感识别准确率有了进一步的提升。卷积神经网络模型已经广泛应用于图像识别的问题当中，也有很多语音情感的分类问题使用该方法，因为卷积神经网络可以通过卷积层提取更深度和抽象的语音情感特征，便于机器进行分类。但是语音数据不同于图像数据，直接使用卷积神经网络会有无法充分利用语音处理时序信息、分类效果差、过拟合等技术问题。当语种上升到两种或更多的时候，由于不同语言之间具有较大的差异性。卷积神经网络更是无法寻求不同语种之间的共性，分类效果很不理想。

已经有人提出了一种基于胶囊网络的多任务语音分类方法，这种方法主要目的是寻求任务之间的相关性。但不同的语音特征对于不同的语音任务会有不同的分类效果，目前来讲mfcc在各分类任务上都有较好的分类效果，如果想要继续全面提升多任务分类效果，必须融合更多的特征。而本发明针对的主要问题是混合语种的情感单分类问题，将语音信号转化为语谱图。不同于普通的手工特征，语谱图反映了语音频谱随时间变换的二维图像。使用卷积网络可以提取出包含时序信息、更完整的的有效特征。因此进一步提高了情感分类的效果。

发明内容

为解决不同语种差异性大，传统识别方法寻找特征共性差的问题，本发明通过将不同语种的语音转化为语谱图，使用胶囊网络进行语音情感的分类。从语谱图中提取深度的抽象特征，寻求不同语种之间的特征共性，提高混合语音库情感分类的准确率。

为了达到上述目的，本发明采用了下列技术方案：

基于语谱图和胶囊网络的混合语音情感分类方法，将语音数据先转化为语谱图，并使用卷积网络层和胶囊网络层提取深度特征进行情感分类，具体步骤如下：

步骤1，使用librosa包提取语音数据，并对语音数据进行长度归一化，最后转化为语谱图；

步骤2，使用三层卷积神经网络提取语谱图中的深层抽象特征；

步骤3，使用胶囊网络对语谱图提取出的深层抽象特征进一步提取抽象表达；

步骤4，胶囊网络构造边缘损失函数对别每个胶囊的长度进行不同情感的分类判别。

进一步，所述步骤1使用librosa包提取语音数据，并对语音数据进行长度归一化，最后转化为语谱图，具体步骤为：

步骤1.1，使用librosa包提取语音数据的音频信号值；

步骤1.2，提取t秒的数据，将长度小于t的音频信号值进行补0处理，长度大于等于t的则取[0,t]之间的数据；

步骤1.3，使用librosa包计算梅尔频谱，同时将获得的梅尔频谱值转化为功率谱，再将功率谱进行0～1归一化并重新变形为二维数组，得到语音数据的语谱图。

语谱图中包含了大量有用信息，如语音基频、清音、爆破音等。因此，相比于只有时域信息的过零率、幅值等和只有频域特性的线性预测倒谱系数和梅尔频率系数等特征，语谱图能够更好地用于语音情感分类。同时，将语音信号转化为图像，可以更好地发挥胶囊网络的作用，从而提高识别率。

进一步，所述步骤2使用三层卷积神经网络提取语谱图中的深层抽象特征，具体步骤为：

步骤2.1，构建卷积网络层使用卷积操作来识别语谱图并提取深层抽象特征，其公式表示为：

式(1)中，X是输入的数据，

为卷积操作，W是相应卷积核的权重向量，b为偏移量，f(·)表示卷积核的激活函数，所述激活函数使用leakyRelu作为激活函数；

步骤2.2，构建卷积网络层使用池化层来降低参数量减少计算复杂度，其公式表示为：

Y＝P(C) (2)

式(2)中，C是卷积操作后的输出，即池化操作的输入，所述池化操作选用平均池化操作，可以更好地保留上一层的特征。

池化操作是为了将原有庞大的特征数量在保持基本特征样貌的情况下进行压缩，常见的操作就是最大池化和平均值化。最大池化能减小卷积层参数误差造成估计均值的偏移，更多的保留纹理信息。但语谱图识别不是严格意义上的实物分类，因此使用最大池化操作效果一般。平均池化能减小邻域大小受限造成的估计值方差增大，更多的保留图像的背景信息，平均池化更强调对整体特征进行一层下采样，在减少参数量的贡献上更大，更多体现在信息的完整传递这个维度上，更有利信息传递到下一个模块进行特征提取。

进一步，所述步骤3使用胶囊网络对语谱图提取出的深层抽象特征进一步提取抽象表达，具体步骤为：

步骤3.1，胶囊层首先对于输入的多个不同的向量v₁和v₂到v_i通过分别乘以权值W₁和W₂到W_i仿射变换得到u₁、u₂到u_i，公式如下：

u_i＝W_iv_i (3)

式(3)中，v_i为卷积层训练出的特征向量，W_i为投影到胶囊网络的过渡权重，即一个矩阵。

步骤3.2，计算得到的u_i进行权重加和获得s，计算公式如下：

式(4)中，c_i为向量u_i的权值，c_i的数值由胶囊网络的动态路由算法获得，s为不同向量按照权值求和后的新向量，进一步进行预测使用；

步骤3.3，最后将获得的s使用挤压方式，将其长度压缩到0～1之间，该方式并不会改变其向量方向，计算公式如下：

式(5)中，s先除以它的长度，让它变成是一个长度为1的向量，前面再乘上一个值，如果s的长度非常长，这个值会趋近于1，向量v的长度就趋近于1。如果s非常短，前面这个值就会很小，向量v的长度就会趋近于0。获得v的长度代表其存在的概率大小，向量v中的某一个值则代表某种特征属性，计算得到的v进一步由动态路由算法进行判别。

胶囊模型分类实质是靠概率判断，如果将向量s直接多次通过动态路由算法进行迭代计算，则会造成最终向量长度无法以一个统一标准进行衡量。因此为了标准化概率判断，将最小概率长度设置为0，最大概率长度设置为1。挤压函数则可以有效的将向量s在不改变方向的情况下，将长度压缩映射到我们的规定的概率区间范围。

进一步，所述步骤4胶囊网络构造边缘损失函数对别每个胶囊的长度进行不同情感的分类判别，具体步骤为：

最后得到的向量输出v通过构建一个边缘损失函数进行分类判别，具体计算公式如下：

L_k＝T_k max(0,m⁺-||v||)²+λ(1-T_k)max(0,||v||-m^-)² (6)

式(6)中，当前数据为第k类时T_k＝1，否则为0；m⁺和m^-用于限制向量v的长度，λ为超参数，通常选择0.5来保证数值稳定性。如果第k类真实存在而预测结果不存在，那么T_k＝1,||v||更小，L会更大，反之亦然。这样，在第k个类别的胶囊输出长度越大越好，而其他的向量输出被压小，从而判别属于哪个类别。

该损失函数类似于支持向量机(SVM)中最大化正负样本到超平面的距离。λ是为了减小图像中没有出现过的情感类别的损失，防止一开始损失过大，导致全部的输出值都在收缩。通常该损失函数给定了2个锚点m⁺＝0.9和m^-＝0.1，损失最终希望正例样本预测在0.9，超过0.9之后就没必要继续提高了向量的长度；负例在0.1，低于0.1就没必要继续降低向量的长度。这样设定通过不断缩小损失函数，使长度更长的向量被正确分类，从而有效提高分类准确率。

对于混合语音库的情感分类问题，基本都还是使用传统的机器学习和深度学习算法为主。为了针对不同语种间缺乏共性的问题，提出了语谱图+胶囊网络模型。相比传统方法有以下两个优点：

1.语谱图可以提取更全面的特征，比手工特征更适合用于语音情感分类。

2.不同的语种之间特征差异性较大，传统的卷积神经网络只能识别定向固定的标量，不能识别图像中位置、状态、大小发生改变的特征。而胶囊网络是对向量进行识别，对于图像中不同位置、状态、大小的特征有更好的识别效果。这样对于同种情感特征，却由于说话人的不同、句子的不同等造成的差异，通过胶囊网络可以很好地识别判断，从而大幅度提高混合语音识别的准确性。

附图说明

图1为本发明中基于语谱图和胶囊网络的混合语音情感分类方法的模型图；

图2为基于语谱图和胶囊网络的混合语音情感分类方法的流程图；

图3为本发明中胶囊网络中的动态路由算法模型图。

具体实施方式

下面根据附图及实施例对本发明做进一步阐述。

图1是混合语音转换语谱图通过胶囊网络进行情感分类方法的模型图。该模型将不同语种的原始语音信号分别进行提取，通过librosa包转换为语谱图作为输入，之后使用三层的卷积网络层对输入的语谱图进行深度特征的提取。最终通过主胶囊层对深度特征使用动态路由算法多次判别，提取更深层次的特征向量传入判别胶囊层，获得概率最大的分类。

图2是混合语音转换语谱图通过胶囊网络进行情感分类方法的模型图，将语音数据先转化为语谱图，并使用卷积网络层和胶囊网络层提取深度特征进行情感分类，具体步骤如下：

步骤1，使用librosa包提取语音数据，并对语音数据进行长度归一化，最后转化为语谱图，具体为：

步骤1.1，使用librosa包提取语音数据的音频信号值；

使用librosa包计算梅尔频谱具体为：音频信号预处理：对原始音频信号进行分帧加窗后，得到很多帧以及每帧的样本点个数，并将每一帧信号样本点长度不足的进行补零，对每一帧做快速傅里叶变换(FFT)；

使用梅尔滤波器对语音特征中低频部分进行处理，得到梅尔频谱；

由于人耳听到的声音高低与频率(Hz)并不呈线性关系，使用Mel频率更符合听觉特性，梅尔频率表示音调与频率之间的关系，关系表达式为：

式(10)中，f代表实际的语音频率，人耳的听觉与转换后的梅尔频率呈一致关系；

计算梅尔滤波器的梅尔频率分布，将梅尔频率转换为实际频率，表达式为：

计算梅尔频率分辨率，表达式为：

式(12)中，N为FFT的长度，Fs为采样率；

定义多个滤波器H_m(k)，滤波器的输出的计算公式如下所示：

式(13)中，m代表第m个滤波器，f(m)代表滤波器的中心频率，f(m-1)代表滤波器的上限频率，f(m+1)代表其下限频率，k代表点的编号；

将滤波器输出乘上FFT计算出来的能量谱得到的梅尔频谱，其计算公式如下：

式(14)中，|X(k)|²表示能量谱中第k个点的能量，以每个滤波器的频率范围内的输出作为权重，乘以能量谱中对应频率的对应能量，然后把这个滤波器范围内的能量加起来，即梅尔频谱。

步骤2，使用三层卷积神经网络提取语谱图中的深层抽象特征，具体步骤为：

式(1)中，X是输入的数据，

Y＝P(C) (2)

式(2)中，C是卷积操作后的输出，即池化操作的输入，所述池化操作选用平均池化操作。

步骤3，使用胶囊网络对语谱图提取出的深层抽象特征进一步提取抽象表达，具体步骤为：

步骤3.1，主胶囊层首先对于输入的多个不同的向量v₁和v₂到v_i通过分别乘以权值W₁和W₂到W_i仿射变换得到u₁、u₂到u_i(主胶囊层首先对卷积层提取出的深度特征向量仿射变换成能输入到胶囊层的向量)，公式如下：

u_i＝W_iv_i (3)

式(3)中，v_i就是卷积层训练出的特征向量，W_i为投影到胶囊网络的过渡权重，即一个矩阵。多个向量v₁到v_i通过分别乘以权值W₁到W_i仿射变换得到u₁、到u_i。

步骤3.2，动态路由算法及分类判别：映射变换得到的u_i进行权重加和获得s，计算公式如下：

式(5)中，s先除以它的长度，让它变成是一个长度为1的向量，前面再乘上一个值，如果s的长度非常长，这个值会趋近于1，向量v的长度就趋近于1。如果s非常短，前面这个值就会很小，向量v的长度就会趋近于0。获得的v的长度代表其存在的概率大小，向量v中的某一个值则代表某种特征属性，计算得到的v进一步由动态路由算法进行判别。

步骤4，胶囊网络构造边缘损失函数对别每个胶囊的长度进行不同情感的分类判别，具体步骤为：

L_k＝T_k max(0,m⁺-||v||)²+λ(1-T_k)max(0,||v||-m^-)² (6)

图3为胶囊网络动态路由算法的流程图，假设该算法只循环两轮，如果循环更多轮则按照该步骤往复，具体步骤如下：

1.设置一个变量b₁₁、b₂₁的初始值设置为0。

向量u₁、u₂的在第一轮权值为c₁₁、c₂₁，计算公式为

c₁₁,c₁₂＝soft max(c₁₁,c₁₂) (7)

2.使用挤压方法加权求和获得s₁，计算公式如下：

s₁＝squashing(c₁₁u₁+c₂₁u₂) (8)

3.计算获得新的b₁₂、b₂₂，计算公式如下：

b₁₂＝b₁₁+s₁u₁

b₂₂＝b₂₁+s₁u₂ (9)

第二轮的计算根据新的b₁₂b₂₂按照步骤1-3更新即可；

每次循环向量u₁、u₂通过与动态路由算法得到的s比较，与s更接近的向量将会通过增加变量b的方式来增大变量c，以此来增大相似度更高的向量被正确匹配的概率。

实施例2

为了验证本发明的有效性，将通过实验对比混合库的情感识别效果。本实施例使用EMO-DB柏林语音库和中文CASIA数据库的语音数据进行情感分类，EMO-DB由10名人员录制了愤怒、高兴、害怕、伤心、无聊、厌恶、中兴七种情感的德语语料库。CASIA由2名男性和2名女性每人对愤怒、高兴、害怕、中兴、伤心、惊讶六种感情进行录制。为了进行混合语音探究，本实施例先分别使用SVM、CNN、LSTM、语谱图+胶囊网络对两个语音库单独进行识别，获取不同模型对单语音库的识别率。其中前三个模型使用MFCC，MEL SpectrogramFrequency，Chroma的180维混合特征进行分类，胶囊网络则使用语谱图作为分类特征。再使用两个库共同拥有的愤怒、高兴、害怕、伤心、中兴五种感情进行分类测试。其中德语有408条数据，中文有1000条数据。我们按照9：1的比例划分训练集和测试集，训练集共1267条，测试集共149条，最终按照十折交叉验证完成实验，实验环境使用深度学习框架Keras，识别结果见表1：

表1 识别结果

如表1所示，德语的情感识别率整体高于中文的情感识别率，且使用传统方法进行情感识别，混合语音识别率整体低于单语言的识别。使用语谱图+胶囊网络的分类模型，无论是单语言还是混合语言，都可以使识别率提升很多，混合语音分类的准确率最高可以到达90.4％，因此可以看出本发明对于混合语音库识别的有效性。

Claims

1.基于语谱图和胶囊网络的混合语音情感分类方法，其特征在于，将语音数据先转化为语谱图，并使用卷积网络层和胶囊网络层提取深度特征进行情感分类，具体步骤如下：

2.根据权利要求1所述的基于语谱图和胶囊网络的混合语音情感分类方法，其特征在于，所述步骤1使用librosa包提取语音数据，并对语音数据进行长度归一化，最后转化为语谱图，具体步骤为：

步骤1.1，使用librosa包提取语音数据的音频信号值；

3.根据权利要求1所述的基于语谱图和胶囊网络的混合语音情感分类方法，其特征在于，所述步骤2使用三层卷积神经网络提取语谱图中的深层抽象特征，具体步骤为：

式(1)中，X是输入的数据，

Y＝P(C) (2)

4.根据权利要求1所述的基于语谱图和胶囊网络的混合语音情感分类方法，其特征在于，所述步骤3使用胶囊网络对语谱图提取出的深层抽象特征进一步提取抽象表达，具体步骤为：

步骤3.1，主胶囊层首先对于输入的多个不同的向量v₁和v₂到v_i通过分别乘以权值W₁和W₂到W_i仿射变换得到u₁、u₂到u_i，公式如下：

u_i＝W_iv_i (3)

步骤3.2，映射变换得到的u_i进行权重加和获得s，计算公式如下：

式(5)中，v的长度代表其存在的概率大小，向量v中的某一个值则代表某种特征属性，计算得到的v进一步由动态路由算法进行判别。

5.根据权利要求1所述的基于语谱图和胶囊网络的混合语音情感分类方法，其特征在于，所述步骤4胶囊网络构造边缘损失函数对别每个胶囊的长度进行不同情感的分类判别，具体步骤为：

式(6)中，当前数据为第k类时T_k＝1，否则为0；m⁺和m^-用于限制向量v的长度，λ为超参数，通常选择0.5来保证数值稳定性。