CN113724732B

CN113724732B - 一种基于多头注意力机制融合的卷积递归神经网络模型

Info

Publication number: CN113724732B
Application number: CN202110467449.9A
Authority: CN
Inventors: 陶华伟; 方元博; 傅洪亮; 姜芃旭; 韩伟良; 刘曼; 庄志豪
Original assignee: Henan University of Technology
Current assignee: Henan University of Technology
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2023-12-01
Anticipated expiration: 2041-04-28
Also published as: CN113724732A

Abstract

本发明公开了一种基于多头注意力机制融合的卷积递归神经网络模型。首先，提出了一种全卷积网络用于提取语音谱图情感特征，该网络以Alexnet网络为基础模型，通过在Alexnet网络池化层后添加分支的方法阻止情感信息损失；采用2层BiLSTM网络提取语音帧级情感特征，并将BiLSTM网络与全卷积网络并行连接，组成混合网络，用于提取语音情感特征；其次，提出了一种基于多头注意力机制的特征融合算法，该方法利用多头注意力机制实现Alexnet网络与BiLSTM网络特征自适应融合，同时，为抑制网络梯度发散，将混合网络提取的特征与多头注意力融合特征通过shortcut connection连接，构成用于情感识别的特征；最后，将特征送入softmax分类器中，实现情感分类。

Description

一种基于多头注意力机制融合的卷积递归神经网络模型

技术领域

本发明属于语音信号处理技术领域，具体涉及到一种基于多头注意力机制融合的卷积递归神经网络模型。

背景技术

作为人类沟通交流最便捷的手段之一，语音在人机交互领域备受关注，然而，语音中除了内容信息外，还包含了情感信息。为使人机交互系统更加智能，开展针对语音情感识别的研究具备重大的研究意义和实用价值。

近些年，为构建高性能的语音情感识别系统，学者们从不同方向进行了大量的研究，例如情感模型构建、语音情感数据库录制、语音情感特征提取、特征选择及处理，语音情感分类识别等等。随着机器学习相关技术的发展，深度学习技术被广泛应用于语音情感识别领域，且取得了优异的成绩。鉴于单个网络特征提取能力有限，许多学者采用混合神经网络模型从语音中提取相关情感信息，然而现有模型多采用全连接层或简单拼接的方法实现不同网络特征的融合，但不同网络的特征空间存在较大的差异，简单的融合无法获取最优特征集，因此，针对该领域的研究仍需进一步探索。

发明内容

针对现有语音情感识别模型所存在的问题，本发明公开了一种基于多头注意力机制融合的卷积递归神经网络模型，包括以下步骤：

(1)对于每一条语音数据，采用Mel谱滤波器对语音进行处理，获得帧级数据Frames，将每条语音的所有帧级数据拼接在一起，组成2维Mel谱图像Mel，计算Mel谱图像的一阶、二阶导数，记为ΔMel,ΔΔMel，利用Mel，ΔMel，ΔΔMel 构建成3维图片；

(2)搭建特征提取网络，该网络由一个全卷积网络和一个双向长短时记忆 (Bi-directional Long Short-Term Memory，BiLSTM)网络组成，具体实现步骤如下：

首先，采用全卷积网络提取语音谱图情感特征，全卷积网络是在Alexnet网络基础上搭建的，全卷积网络的输出由3个分支组成，如公式(1)所示:

output＝(b₁+b₂+b₃) (1)

在Alexnet网络第一、第二、第三个池化层后，添加一个分支，每个分支由 1*1的卷积层和全局平均池化层组成，全卷积网络采用步骤(1)中构建的3维图片作为全卷积网络的输入；

其次，采用BiLSTM提取语音的帧级情感特征，步骤(1)中的帧级数据Frames 作为BiLSTM网络的输入；

将两个网络提取到的情感特征经批归一化后，两个网络归一化特征F1，F2 作为后面步骤的输入；

(3)特征融合：为了提高识别性能，构建了一种基于多头注意力的多特征融合算法，具体操作如下：

以多头注意力机制中的某个头算法为例，首先将两个网络输出的特征F1和 F2的维数变为[B,1,N]然后将F1和F2拼接得到特征F，F的维数为[B,2,N], 其中B表示批归一化数量的大小,2代表两个不同的特征空间,N代表特征维数的大小，采用自注意力机制算法计算注意力权重，如公式(2)、(3)所示：

α_F＝softmax(tanh(F×W_F)×V_F) (2)

Attention(F1,F2)＝∑α_F×F (3)

其中，W_F,V_F∈R^N×N为可训练的注意力参数，注意力权重与拼接特征F加权求和即可求得输出的值，如公式(3)所示；

多头注意力机制融合输出由每个头融合特征相加求得，如公式(4)、(5)、 (6)所示，在相加融合的过程中，每个头的输出层加入Dropout，以此来提高多头输出特征的鲁棒性；

head_i＝Attention_i(F1,F2) (4)

head_i′＝Dropout(head_i) (5)

Multihead(F1,F2)＝Add(head₁′,...,head_n′) (6)

为避免网络梯度发散，如公式(7)所示，将步骤(2)中不同网络的输出与公式(6)多头注意力机制融合特征通过shortcut connection连接，得到用于情感识别的特征F_fin；

F_fin＝Add(F1,F2,Multihead(F1,F2)) (7)

(4)分类识别输出：将步骤(3)得到的F_fin特征归一化后送入softmax 层，并采用有标签的数据对整个网络进行训练，得到用于情感识别的网络模型。

附图说明：

图1为系统流程图；

图2为训练集识别曲线；

图3为测试集识别曲线。

具体实施方式：

下面结合具体实施方式对本发明做更进一步的说明。

(1)在语音处理预处理阶段给情感语音添加标签；

(2)对于每一条语音数据，采用64通道的Mel谱滤波器对语音进行处理，窗函数采用25ms汉明窗，10ms的帧移，最终获得帧级数据Frames，将每条语音的所有帧级数据拼接在一起，组成2维Mel谱图像Mel，计算Mel谱图像的一阶、二阶导数，记为ΔMel,ΔΔMel，利用Mel，ΔMel，ΔΔMel构建成3维图片；

(3)搭建特征提取网络，该网络由一个全卷积网络和一个BiLSTM网络组成，具体实现步骤如下：

output＝(b₁+b₂+b₃) (1)

在Alexnet网络第一、第二、第三个池化层后，添加一个分支，每个分支由 1*1的卷积层和全局平均池化层组成，全卷积网络采用步骤(1)中构建的3维图片作为全卷积网络的输入，每个分支的输出b_i(n＝0,1,2)设为2048，删除了 AlexNet网络的全连接层，最终通过每个分支的相加求平均获得最终特征，对于全卷积网络的初始化，仍然采用Imagenet训练好的AlexNet网络参数初始化全卷积网络主体部分，对于三个分支中1*1的卷积，随机生成相关参数；

(4)特征融合：为了提高识别性能，构建了一种基于多头注意力的多特征融合算法，具体操作如下：

α_F＝softmax(tanh(F×W_F)×V_F) (2)

Attention(F1,F2)＝∑α_F×F (3)

head_i＝Attention_i(F1,F2) (4)

head_i′＝Dropout(head_i) (5)

Multihead(F1,F2)＝Add(head₁′,...,head_n′) (6)

为避免网络梯度发散，如公式(7)所示，将步骤(3)中不同网络的输出与公式(6)多头注意力机制融合特征通过shortcut connection连接，得到用于情感识别的特征F_fin；

F_fin＝Add(F1,F2,Multihead(F1,F2)) (7)

(5)分类识别输出：将步骤(4)得到的F_fin特征归一化后送入softmax 层，并采用有标签的数据对整个网络进行训练，得到用于情感识别的网络模型。

仿真实验及具体参数

为验证本发明所公开模型的性能，在CASIA数据库上进行测试，该库由中科院自动化所录制而成，是一个中文的语音情感库。该库由4名演员(2男，2女) 录制了6中不同的情感，情感类型包括：anger,fear,happy,neutral,sad,surprise。实验策略：随机选取80％的数据作为训练集，选取20％的数据作为测试集。

表1给出了本发明所采用的全卷积网络和BiLSTM网络的具体参数，本发明所采用的网络基于TensorFlow框架进行搭建，采用在ImageNet训练的AlexNet 参数初始化全卷积网络，输出特征为2048维特征；Bi-LSTM包含1个隐层，输出特征为2048维特征；在多头融合中，注意力机制头数设为16，dropout参数设置为0.5；通过最小化交叉熵目标函数优化模型参数；实验中使用了Adam优化器，初始学习率设置为0.00001。表1中B表示每次迭代的批大小，L表示数据集帧大小，

图2、图3分别表示CASIA库上训练集和测试集的识别结果，可以看出在训练集上，约50轮后，算法就开始收敛，在测试集上最优识别率达到90％。

表1具体参数

Claims

1.一种基于多头注意力机制融合的卷积递归神经网络模型，其特征在于，包括以下步骤：

(1)对于每一条语音数据，采用Mel谱滤波器对语音进行处理，获得帧级数据Frames，将每条语音的所有帧级数据拼接在一起，组成2维Mel谱图像Mel，计算Mel谱图像的一阶、二阶导数，记为ΔMel,ΔΔMel，利用Mel，ΔMel，ΔΔMel构建成3维图片；

(2)搭建特征提取网络，首先该网络由一个全卷积网络和一个双向长短时记忆网络BiLSTM组成，具体实现步骤如下：

output＝(b₁+b₂+b₃) (1)

在Alexnet网络第一、第二、第三个池化层后，添加一个分支，每个分支由1*1的卷积层和全局平均池化层组成，全卷积网络采用步骤(1)中构建的3维图片作为全卷积网络的输入；

其次，采用BiLSTM提取语音的帧级情感特征，步骤(1)中的帧级数据Frames作为BiLSTM网络的输入；

将两个网络提取到的情感特征经批归一化后，两个网络归一化特征F1，F2作为后面步骤的输入；

以多头注意力机制中的某个头算法为例，首先将两个网络输出的特征F1和F2的维数变为[B,1,N]然后将F1和F2拼接得到特征F，F的维数为[B,2,N],其中B表示批归一化数量的大小,2代表两个不同的特征空间,N代表特征维数的大小，采用自注意力机制算法计算注意力权重，如公式(2)、(3)所示：

α_F＝softmax(tanh(F×W_F)×V_F) (2)

Attention(F1,F2)＝∑α_F×F (3)

多头注意力机制融合输出由每个头融合特征相加求得，如公式(4)、(5)、(6)所示，在相加融合的过程中，每个头的输出层加入Dropout，以此来提高多头输出特征的鲁棒性；

head_i＝Attention_i(F1,F2) (4)

head_i′＝Dropout(head_i) (5)

Multihead(F1,F2)＝Add(head₁′,...,head_n′) (6)

F_fin＝Add(F1,F2,Multihead(F1,F2)) (7)

(4)分类识别输出：将步骤(3)得到的F_fin特征归一化后送入softmax层，并采用有标签的数据对整个网络进行训练，得到用于情感识别的网络模型。