CN111429948A

CN111429948A - 一种基于注意力卷积神经网络的语音情绪识别模型及方法

Info

Publication number: CN111429948A
Application number: CN202010230512.2A
Authority: CN
Inventors: 徐鸣珂; 张帆
Original assignee: Nanjing Moshen Information Technology Co ltd; Nanjing Tech University
Current assignee: Nanjing Moshen Information Technology Co ltd; Nanjing Tech University
Priority date: 2020-03-27
Filing date: 2020-03-27
Publication date: 2020-07-17
Anticipated expiration: 2040-03-27
Also published as: CN111429948B

Abstract

一种基于注意力卷积神经网络的语音情绪识别模型及方法，该模型采用深度学习模型：包括五层卷积层，一层注意力层和一层全连接层，其中；第一层卷积层包括两个平行的卷积模块，能够对输入特征分别从横向即时间轴和纵向即梅尔系数轴进行提取纹理，前述两个平行卷积层的输出拼接后作为第二卷积层的输入；注意力层中，能够采用随机种子产生若干组训练参数，分别获得相应的注意力图，叠加之后获得有多个注意点的注意力图；前述多个注意点的注意力图生成一个特征点，重复本步骤若干次次，获取相应的特征点，将特征点相连并送入全连接层。本发明能够更好的适配语音情绪数据的特性，提高语音情绪识别系统的准确率。

Description

一种基于注意力卷积神经网络的语音情绪识别模型及方法

技术领域

本发明涉及语音识别领域，更具体地，涉及一种基于注意力卷积神经网络的语音情绪识别模型及方法。

背景技术

语音情绪识别是指从说话者的语音中提取说话人的情绪状态，也就是说，判断人类说话时的情绪。人们通常所说的语音识别是指自动语音识别(Auto SpeechRecognition,ASR)，是指将人类话语映射到文字系列，而语音情绪识别将人类话语映射到情绪标签。目前常用的做法是，首先从从人类的语音中提取音频特征，输入到传统机器学习算法或深度神经网络中进行分类，从而识别语音中的情绪。

现有技术方案多是将常规的机器学习和深度学习算法直接迁移到本问题上，常规的算法通常识别目标是客观的对象，例如图像中的物体，语音中的文字等。但是情绪有很强的主观性，对于同一句语音，不同的人可能从中听出不同的情绪，尤其是对于来自不同语言、文化环境的人。对于数据标注来说，可以通过增加标注者的数量一定程度的解决这一问题；但对于识别算法而言，常规的识别算法不能很好的适配这一特性，导致目前语音情绪识别系统的准确率仍较低。

发明内容

本发明的目的是针对语音情绪识别准确性低的问题，提出一种基于深度学习模型的情绪识别模型及方法，以更好的适配语音情绪数据的特性，从而提高语音情绪识别系统的准确率。

本发明的技术方案是：

一种基于注意力卷积神经网络的语音情绪识别模型，该模型采用深度学习模型：包括五层卷积层，一层注意力层和一层全连接层，其中；

第一层卷积层包括两个平行的卷积模块，能够对输入特征分别从横向即时间轴和纵向即梅尔系数轴进行提取纹理，前述两个平行卷积层的输出拼接后作为第二卷积层的输入；

注意力层中，能够采用随机种子产生若干组训练参数，分别获得相应的注意力图，叠加之后获得有多个注意点的注意力图；前述多个注意点的注意力图生成一个特征点，重复本步骤若干次次，获取相应的特征点，将特征点相连并送入全连接层。

一种基于注意力卷积神经网络的语音情绪识别方法，基于注意力卷积神经网络的语音情绪识别模型，该方法包括以下步骤：

S1、建立深度学习模型：包含五层卷积层，一层注意力层和一层全连接层，采用随机种子产生训练参数；

S2、获取训练样本步骤：选取交互式情绪二元运动捕捉数据库IEMOCAP，对于数据库中的各条语音赋予相应的情绪标签，进行预处理获得若干个语音片段，将前述语音片段作为音频数据样本，各语音片段采用预处理前的情绪标签；

S3、特征提取步骤：将梅尔频率倒谱系数MFCCs作为音频特征对前述音频数据样本进行特征提取，得到各音频数据样本中的频率倒谱系数MFCCs：

S4、训练步骤：将提取的各音频数据样本中的频率倒谱系数MFCCs特征送入深度学习模型，执行如下训练操作；

S4-1、第一卷积层中两个平行的卷积模块分别对输入特征从横向即时间轴和纵向即梅尔系数轴进行纹理提取，将两个平行卷积层的输出纹理拼接后作为第二卷积层的输入；

S4-2、采用第二至五卷积层生成通道数为d的中间特征，即获取d个特征点；

S4-3、将d个特征点构成的特征点向量X送入到注意力层中，采用n组训练参数进行训练得到多个注意点的注意力图Xmattn，生成一个特征点X，重复本步骤m次，获取m个特征点，这些特征点相连并送入全连接层，得到该音频数据样本属于各情绪标签的几率，将几率最大的情绪标签作为该音频数据样本的训练结果输出；

S4-4、按照步骤S4-1至步骤S4-3对各语音片段即音频数据样本进行训练，采用优化器更新深度学习模型中的参数，直至步骤S4-3中全连接层输出的情绪标签准确率稳定，完成训练；

S5、识别步骤：按照步骤S2对待识别的语音进行预处理获得若干个语音片段，将前述语音片段作为待识别的音频样本；按照步骤S3对待识别的音频样本进行特征提取；将提取的特征送入深度学习模型进行识别得到待识别的音频样本属于各情绪标签的几率，融合各语音片段的识别结果，取平均值作为待识别语音的识别结果。

进一步地，所述的S2中，预处理步骤具体为：将各条语音按照预设的长度和步进进行切分，相邻片段之间形成部分重叠。

进一步地，片段长度为1-3s，切分步进为片段长度的1/3-1/2，相邻片段之间有部分重叠，丢弃长度小于片段长度的部分。

进一步地，所述的S3具体包括以下步骤：

S3-1、使用汉宁窗hanning对数据库中的音频信号做短时傅里叶变换STFT得到功率频谱；

S3-2、按照公式(1)将功率频谱映射到梅尔标度得到梅尔频谱M(f)；

M(f)＝1125(1+f/700) (1)

其中：f表示功率频谱矩阵；

S3-3、对梅尔频谱取对数得到对数梅尔频谱；

S3-4、对对数梅尔频谱做离散余弦变换DCT，得到频率倒谱系数MFCCs。

进一步地，所述的汉宁窗宽度为2048；窗函数重叠宽度为512。

进一步地，所述的S4-2中，第二至五卷积层采用常规卷积层，在每一层卷积层后应用批标准化技术Batch Normalization和激活函数Relu，并在第二、三层卷积后使用2x2的最大值池化数据以降低数据尺寸。

进一步地，所述的S4-3具体为：

a、将d个特征点送入到注意力层中，采用训练参数进行训练；

K＝Wk*X，Q＝Wq*X，V＝Wv*X

其中：X表示d个特征点构成的向量；Wk，Wq，Wv表示训练参数，合起来是一组训练参数，由随机种子产生；K、Q、V分别表示对特征点向量X分别按照相应的训练参数训练之后得到的注意力分布的可能性系数；

b、采用下述公式获取该组训练参数Wk，Wq，Wv对应的注意力图Xattn：

Xattn＝Softmax(KQ^T)V

其中：Softmax表示归一化函数；

c、采用n组训练参数按照步骤a-b对特征点向量X进行训练，获取n张注意力图Xattn，采用下述公式行叠加获得有多个注意点的注意力图Xmattn；

其中：i表示训练参数组的编号，n表示训练参数组的总数；

对获取的具有多个注意点的注意力图Xmattn使用全局平均池化方法GAP生成一个特征点X；

d、按照步骤a-c执行m次，得到m个特征点，将这些特征点相连并送入全连接层，得到该音频数据样本属于各情绪标签的几率。

本发明的有益效果：

本发明提取的音频特征首先用2个平行的卷积层分别提取横向和纵向纹理；注意力层使用head fusion机制，生成具有多个注意力点的注意力图并用GAP生成注意力向量用于分类，识别效果更好，有效减小误差。

本发明的方法在IEMOCAP数据集的即兴部分上进行了实验，结果表明我们的模型在语音情绪识别的准确性上取得了较大进步。

本发明的模型取得了76.18％的Weighted Accuracy(WA)和76.36％的UnweightedAccuracy(UA)。WA指的是识别正确的语句占总语句数的比例，UA指的是每一情绪类别中识别正确的语句数占该情绪类别的比例的平均值；语音情绪识别的准确性更高。

本发明的其它特征和优点将在随后具体实施方式部分予以详细说明。

附图说明

通过结合附图对本发明示例性实施方式进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显，其中，在本发明示例性实施方式中，相同的参考标号通常代表相同部件。

图1示出了本发明的总体模型构架示意图。

图2示出了注意力层的流程图。

图3示出了本发明实施例中训练集和测试集的数据处理流程图。

具体实施方式

下面将参照附图更详细地描述本发明的优选实施方式。虽然附图中显示了本发明的优选实施方式，然而应该理解，可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。

如图1所示，本发明提供一种基于注意力卷积神经网络的语音情绪识别模型，该模型采用深度学习模型，模型各层具体参数以表1为例：

表1

该模型包括五层卷积层，一层注意力层和一层全连接层，其中；

总共n×m组参数，每n组参数叠加成1张多注意点的注意力图，共生成m张多注意点的注意力图。每张多注意点的注意力图使用全局平均池化(GAP)生成一个特征点(共m个)，这些特征点就是最后分类所使用的特征；n和m可自行选择，推荐4×32或4×64。

n：注意力层的参数；表示在我们提出的head fusion方法中，融合一张具有多注意力点的注意力图所使用的普通注意力图的数量；

m：注意力层的参数；表示在我们提出的head fusion方法中，生成的具有多注意力点的注意力图的数量。

S1、建立深度学习模型：包含五层卷积层，一层注意力层和一层全连接层，采用随机种子产生i组训练参数；

在训练时，切分获得的每个2s的片段都算做一条独立的数据，使用它们被切分前的情绪标签；在实际测试时，对从同一条语音中切分出来的所有2s片段的预测结果取平均得到这条语音整体的情绪概率分布；

S3、特征提取步骤：将梅尔频率倒谱系数MFCCs作为音频特征对前述音频数据样本进行特征提取，得到各音频数据样本中的频率倒谱系数MFCCs；所述的S3具体包括以下步骤：

S3-1、使用汉宁窗hanning对数据库中的音频信号做短时傅里叶变换STFT得到功率频谱；所述的汉宁窗宽度为2048；窗函数重叠宽度为512；

M(f)＝1125(1+f/700) (1)

其中：f表示功率频谱矩阵；

S3-3、对梅尔频谱取对数得到对数梅尔频谱；

S3-4、对对数梅尔频谱做离散余弦变换DCT，得到频率倒谱系数MFCCs。S4、训练步骤：将提取的各音频数据样本中的频率倒谱系数MFCCs特征送入深度学习模型；

S4-1、第一卷积层中两个平行的卷积模块分别对输入特征从横向即时间轴和纵向即梅尔系数轴进行纹理提取，将两个平行卷积层的输出纹理拼接后作为第二卷积层的输入。

S4-2、采用第二至五卷积层生成通道数为d的中间特征，即获取d个特征点，d以80为例；第二至五卷积层采用常规卷积层，在每一层卷积层后应用批标准化技术BatchNormalization和激活函数Relu，并在第二、三层卷积后使用2x2的最大值池化数据以降低数据尺寸。

S4-3、如图2所示，为注意力层的工作流程：将d个特征点构成的特征点向量X送入到注意力层中，采用n组训练参数进行训练得到多个注意点的注意力图Xmattn，生成一个特征点X，重复本步骤m次，获取m个特征点，这些特征点相连并送入全连接层，得到该音频数据样本属于各情绪标签的几率，将几率最大的情绪标签作为该音频数据样本的训练结果输出，具体为：

K＝Wk*X，Q＝Wq*X，V＝Wv*X

Xattn＝Softmax(KQ^T)V

其中：Softmax表示归一化函数；

K和Q是等价的(不是相等，系数W会随着训练变化)，都代表输入特征的attentionscore(用来表示不同特征点之间的关联程度)，KQT可以得到输入特征中的每个特征点和自身另外每一个特征点间的关联程度，用softmax转化成概率分布，但这样丢失了原始值，就需要再乘上一个用来记录原始值的V，就能得到经过计算的注意力图。使用不同的参数组可以理解为从不同的角度去投注注意力，比如先关注语气，然后换个角度关注音量；

其中：i表示训练参数组的编号，n表示训练参数组的总数；

S4-4、按照步骤S4-1至步骤S4-3对各语音片段即音频数据样本进行训练，采用优化器更新深度学习模型中的参数，直至步骤S4-3中全连接层输出的情绪标签准确率稳定；

S5、识别步骤：如图3所示，按照步骤S2对待识别的语音进行预处理获得若干个语音片段，将前述语音片段作为待识别的音频样本；按照步骤S3对待识别的音频样本进行特征提取；将提取的特征送入深度学习模型进行识别得到待识别的音频样本属于各情绪标签的几率，融合各语音片段的识别结果，取平均值作为待识别语音的识别结果。

进一步地，所述的S2中，预处理步骤具体为：将各条语音按照预设的长度和步进进行切分，相邻片段之间形成部分重叠；片段长度为1-3s，切分步进为片段长度的1/3-1/2，相邻片段之间有部分重叠，丢弃长度小于片段长度的部分。

本发明提取的音频特征首先用2个平行的卷积层分别提取横向和纵向纹理；注意力层使用head fusion机制，生成具有多个注意力点的注意力图并用GAP生成注意力向量用于分类，识别效果更好，有效减小误差。表2显示了近年语音情绪识别相关研究的模型准确率，这些研究和我们的方法采用的是相同的数据集和相同的验证方法；本发明的模型取得了76.18％的Weighted Accuracy(WA)和76.36％的Unweighted Accuracy(UA)；语音情绪识别的准确性更高。

WA指的是识别正确的语句占总语句数的比例，UA指的是每一情绪类别中识别正确的语句数占该情绪类别的比例的平均值。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。

Claims

1.一种基于注意力卷积神经网络的语音情绪识别模型，其特征在于，该模型采用深度学习模型：包括五层卷积层，一层注意力层和一层全连接层，其中；

2.一种基于注意力卷积神经网络的语音情绪识别方法，基于权利要求1所述的基于注意力卷积神经网络的语音情绪识别模型，其特征在于，该方法包括以下步骤：

3.根据权利要求2所述的基于注意力卷积神经网络的语音情绪识别系统，其特征在于，所述的S2中，预处理步骤具体为：将各条语音按照预设的长度和步进进行切分，相邻片段之间形成部分重叠。

4.根据权利要求2所述的基于注意力卷积神经网络的语音情绪识别系统，其特征在于，片段长度为1-3s，切分步进为片段长度的1/3-1/2，相邻片段之间有部分重叠，丢弃长度小于片段长度的部分。

5.根据权利要求2所述的基于注意力卷积神经网络的语音情绪识别系统，其特征在于，所述的S3具体包括以下步骤：

M(f)＝1125(1+f/700) (1)

其中：f表示功率频谱矩阵；

S3-3、对梅尔频谱取对数得到对数梅尔频谱；

6.根据权利要求5所述的基于注意力卷积神经网络的语音情绪识别系统，其特征在于，所述的汉宁窗宽度为2048；窗函数重叠宽度为512。

7.根据权利要求2所述的基于注意力卷积神经网络的语音情绪识别系统，其特征在于，所述的S4-2中，第二至五卷积层采用常规卷积层，在每一层卷积层后应用批标准化技术Batch Normalization和激活函数Relu，并在第二、三层卷积后使用2x2的最大值池化数据以降低数据尺寸。

8.根据权利要求2所述的基于注意力卷积神经网络的语音情绪识别系统，其特征在于，所述的S4-3具体为：

K＝Wk*X，Q＝Wq*X，V＝Wv*X

Xattn＝Softmax(KQ^T)V

其中：Softmax表示归一化函数；

其中：i表示训练参数组的编号，n表示训练参数组的总数；