CN111402927A

CN111402927A - 基于分段语谱图和双重Attention的语音情感识别方法

Info

Publication number: CN111402927A
Application number: CN201910784181.4A
Authority: CN
Inventors: 闫静杰; 宋宇康; 朱康; 吕方惠; 卢官明; 李海波
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2019-08-23
Filing date: 2019-08-23
Publication date: 2020-07-10

Abstract

本发明公开了一种基于分段语谱图和双重Attention的语音情感识别方法，所述方法包括：1)将数据库中的语音音频信号进行分段并把每段音频转换成带有语音情感信息的语谱图；2)采用预训练的VGG16网络提取语谱图中深度语音情感特征；3)对深度语音情感特征进行空间和通道两个方向的权重学习，获得加权后的深度语音情感特征；4)把FC2输出的深度语音情感特征输入到全连接层FC3进行情感分类,FC3输出识别好的语音情感类别。通过本发明能够自主的学习到语谱图中各个区域以及特征图的各个通道对语音情感识别的重要性，提高后续的语音情感识别率；推动基于语音的智能人机交互应用。

Description

基于分段语谱图和双重Attention的语音情感识别方法

技术领域

本发明涉及一种基于分段语谱图和双重Attention的语音情感识别方法，属于人工智能、情感计算和语音处理。

背景技术

自从麻省理工学院的Picard教授提出情感计算概念来，语音情感识别研究也开始得到越来越多研究者的重视，目前，已经广泛应用在智能人机交互、车辆情感检测和航天员情感分析等领域。传统的语音情感识别方法往往采用opensmile等工具来提取韵律特征、谱特征、音质特征以及相应的统计量等语音情感特征。比如，一段语音通过opensmile工具可以方便的提取1582维语音情感特征。然后在提取的语音情感特征基础上通过主成分分析等降维方法进行降维后送入分类器进行分类。相比于图像的二维结构，opensmile工具提取的语音情感特征是一维结构。

近年来，随着深度学习方法的发展，玻尔兹曼机网络、深度信念网络、卷积神经网络和循环神经网络等深度学习方法也应用于语音情感识别研究，取得了比传统方法更高的识别率。尤其是近年来，与上述基于opensmile工具的传统方法不同，少数研究人员开始采用傅里叶变换从音频信号中提取二维结构的语谱图作为语音情感特征，然后采用预训练的VGG16网络对语谱图进行深度特征提取，取得了较好的实验效果。

发明内容

发明目的：针对智能人机交互中的自动语音情感识别问题，本发明提出一种基于分段语谱图和双重Attention语音情感识别方法，解决现有语音情感识别方法识别率有限问题。

技术方案：本发明是一种基于分段语谱图和双重Attention的语音情感识别方法，包含以下步骤：

(1)将数据库中的语音音频信号进行分段并把每段音频转换成带有语音情感信息的语谱图；对语音音频信号进行分段，然后对原始语音信号段以及分段后的每一段语音信号提取相应的语谱图特征，作为多路VGG16网络的输入。在分段语谱图生成部分，首先使用Cool Edit Pro2.1对每段原始音频信号进行切分，以互相重叠的方式把语音信号分成2、3、4、5、6段等，语谱图生成过程包括：切分每段原始音频信号；傅里叶变换每一段音频信号获得相应的语谱图；采用双线性插值法缩放为相同图像大小的语谱图。

(2)采用预训练的VGG16网络提取每张语谱图的深度语音情感特征，得到一系列特征图。尽管通过VGG16网络学习到的多路特征图能够有效表示语谱图的语音情感信息，但无法判断语谱图中不同区域对语音情感识别的重要性。跟人脸面部表情类似，语谱图的某些区域包含有重要的、丰富的情感信息，而有些区域包含的情感信息就相对较少，甚至有区域携带噪声。所以本发明希望能够对特征图的空间位置区域进行选择，跟语音情感相关的区域给与高的权重，与语音情感不相关的区域给与低的权重。

(3)对深度语音情感特征进行空间和通道两个方向的权重学习，获得加权后的深度语音情感特征；空间方向的权重学习过程如下：将得到的一系列特征图级联，级联后的多路特征图输入到空间Attention模块中得到空间注意力权重，然后通过 Softmax对空间注意力权重进行归一化，归一化后的空间注意力权重跟输入的每一张特征图进行对位点乘，得到带空间注意力权重的特征图。空间方向权重学习中特征图为14×14×d，14×14为每张特征图的大小，d是特征图的个数，A_i,j∈R^1×d为特征图上位置，(i,j)∈1～14的深度特征向量，空间注意力权重计算公式如下：

x_i,j＝tanh(W₁ ^TA_i,j+b₁) (公式1)

其中W₁为权重，b₁为偏置。通过上述公式得到x_i,j，再通过Softmax归一化得y_i,j

通道方向的权重学习过程如下：带空间注意力权重的特征图首先通过一个全连接层得到通道注意力权重，然后经过Softmax对通道注意力权重进行归一化，归一化后的通道注意力权重跟对应的每一张带空间注意力权重特征图的每个位置 (14×14＝196)进行点乘，得到带空间和通道注意力权重的特征图。带空间注意力权重的特征图y_i,jA_i,j中每一张14×14大小的特征图按从左到右、从上到下拉成一个向量，向量的特征维数为196(14×14＝196)，A_i∈R^1×196为不同通道上的特征向量， i∈1～d，则通道注意力权重计算公式如下：

z_i＝tanh(W₂ ^TA_i+b₂) (公式2)

其中W₂为权重，b₂为偏置。通过上述公式得到z_i后，再通过Softmax归一化得到p_i

4)依据特征图中各个通道对语音情感识别特征的重要性，得到带空间和通道注意力权重的特征图p_iy_i,jA_i,j，第二个全连接层FC2输出的深度语音情感特征输入到全连接层FC3进行情感分类,FC3输出识别好的语音情感类别。

有益效果：本发明与现有技术相比，其显著优点是：1、能够自主的学习到语谱图中各个区域以及特征图的各个通道对语音情感识别的重要性，提高后续的语音情感识别率；2、推动基于语音的智能人机交互应用。

附图说明

图1基于分段语谱图和双重Attention的语音情感识别方法流程图；

图2空间Attention模块和通道Attention模块。

具体实施方式

下面结合说明书附图对本发明实施方式作进一步详细说明。

如图1所示，图1中是将原始音频切分成5段，同时保留原始音频信号。然后对每一段音频信号通过傅里叶变换获得相应的语谱图，并使用双线性插值法缩放所有的语谱图到相同的图像大小。通过分段音频信号得到的语谱图具有不同的图像大小，使用双线性插值法缩放所有的语谱图到相同的图像大小。每段音频信号提取的一张语谱图作为一路VGG16网络的输入。

如图2所示，将得到的一系列特征图级联，把级联后的多路特征图输入到空间Attention模块中。多路特征图首先通过一个全连接层得到空间注意力权重，然后通过Softmax对空间注意力权重进行归一化，归一化后的空间注意力权重跟输入的每一张特征图进行对位点乘，得到带空间注意力权重的特征图。假设级联后的特征图为14×14×d，14×14是每张特征图的大小，d是其通道数，也就是特征图的个数， A_i,j∈R^1×d为特征图上位置，(i,j)∈1～14的深度特征向量，则空间注意力权重可以通过如下的公式进行计算：

x_i,j＝tanh(W₁ ^TA_i,j+b₁) (公式1)

其中W₁为权重，b₁为偏置。通过上述公式得到x_i,j后，再通过Softmax层归一化得y_i,j

通过使用空间Attention模块，网络能够学习到特征图中各个区域对语音情感识别的重要性，重要的区域权重大，不重要区域权重小，最后得到带空间注意力权重的特征图用y_i,jA_i,j表示，y_i,j就是求得的空间注意力权重。获得带空间注意力权重的特征图后，需要对不同通道的特征图进行选择，因为不同通道的特征图对语音情感识别也有不同的重要性，因此构建了通道Attention模块。通道Attention模块与空间Attention模块类似，带空间注意力权重的特征图首先通过一个全连接层得到通道注意力权重，然后通过Softmax对通道注意力权重进行归一化，归一化后的通道注意力权重跟对应的每一张带空间注意力权重特征图的每个位置 (14×14＝196)进行点乘，得到带空间和通道注意力权重的特征图。把带空间注意力权重的特征图y_i,jA_i,j中每一张14×14大小的特征图按从左到右、从上到下拉成一个向量，向量的特征维数为196(14×14＝196)，A_i∈R^1×196为不同通道上的特征向量，i∈1～d，则通道注意力权重可以通过如下的公式进行计算：

z_i＝tanh(W₂ ^TA_i+b₂) (公式2)

其中W₂为权重，b₂为偏置。通过上述公式得到z_i后，再通过Softmax归一化得到 p_i

通过使用通道Attention模块，能够学习到多通道特征图中各个通道对语音情感识别的重要性，重要的通道权重大，不重要通道权重小，得到带空间和通道注意力权重的特征图p_iy_i,jA_i,j。最后，输出的带空间和通道注意力权重特征图输入到全连接层。通过构建多路语谱图、空间Attention和通道Attention模块，本发明提出的基于分段语谱图和双重Attention的多路卷积神经网络能够自主的学习到语谱图中各个区域以及特征图的各个通道对语音情感识别的重要性，从而提高后续的语音情感识别率。本发明把第二个全连接层FC2输出的特征作为提取的深度语音情感特征。

Claims

1.一种基于分段语谱图和双重Attention的语音情感识别方法，其特征在于，包括以下步骤：

1)将数据库中的语音音频信号进行分段并把每段音频转换成带有语音情感信息的语谱图；

2)采用预训练的VGG16网络提取语谱图中深度语音情感特征；

3)对深度语音情感特征进行空间和通道两个方向的权重学习，获得加权后的深度语音情感特征；

4)把FC2输出的深度语音情感特征输入到全连接层FC3进行情感分类,FC3输出识别好的语音情感类别。

2.根据权利要求1所述的一种基于分段语谱图和双重Attention的语音情感识别方法，其特征在于，步骤(1)中语谱图生成过程包括：

(1.1)切分每段原始音频信号；

(1.2)傅里叶变换每一段音频信号获得相应的语谱图；

(1.3)采用双线性插值法缩放为相同图像大小的语谱图。

3.根据权利要求1所述的一种基于分段语谱图和双重Attention的语音情感识别方法，其特征在于,步骤(2)中语音情感特征的提取根据特征图的空间位置区域进行选择，给予语音情感多的区域高权重，语音情感少的区域低权重。

4.根据权利要求1所述的一种基于分段语谱图和双重Attention的语音情感识别方法，其特征在于，步骤(3)中空间方向的权重学习过程如下：将得到的一系列特征图级联，级联后的多路特征图输入到空间Attention模块中得到空间注意力权重，然后通过Softmax对空间注意力权重进行归一化，归一化后的空间注意力权重跟输入的每一张特征图进行对位点乘，得到带空间注意力权重的特征图。

5.根据权利要求4所述的一种基于分段语谱图和双重Attention的语音情感识别方法，其特征在于，空间方向权重学习中特征图为14×14×d，14×14为每张特征图的大小，d是特征图的个数，A_i,j∈R^1×d为特征图上位置，(i,j)∈1～14的深度特征向量，空间注意力权重计算公式如下：

x_i,j＝tanh(W₁ ^TA_i,j+b₁) (公式1)

其中W₁为权重，b₁为偏置。通过上述公式得到x_i,j，再通过Softmax归一化得y_i,j。

6.根据权利要求1所述的一种基于分段语谱图和双重Attention的语音情感识别方法，其特征在于，步骤(3)中通道方向的权重学习过程如下：带空间注意力权重的特征图首先通过一个全连接层得到通道注意力权重，然后经过Softmax对通道注意力权重进行归一化，归一化后的通道注意力权重跟对应的每一张带空间注意力权重特征图的每个位置(14×14＝196)进行点乘，得到带空间和通道注意力权重的特征图。带空间注意力权重的特征图y_i, _jA_i,j中每一张14×14大小的特征图按从左到右、从上到下拉成一个向量，向量的特征维数为196(14×14＝196)，A_i∈R^1×196为不同通道上的特征向量，i∈1～d，则通道注意力权重计算公式如下：

z_i＝tanh(W₂ ^TA_i+b₂) (公式2)

其中W₂为权重，b₂为偏置。通过上述公式得到z_i后，再通过Softmax归一化得到p_i。

7.根据权利要求1所述的一种基于分段语谱图和双重Attention的语音情感识别方法，其特征在于，依据特征图中各个通道对语音情感识别特征的重要性，得到带空间和通道注意力权重的特征图p_iy_i,jA_i,j。