CN113539297A

CN113539297A - 一种用于声音分类的联合注意力机制模型、方法及应用

Info

Publication number: CN113539297A
Application number: CN202110774336.3A
Authority: CN
Inventors: 殷波; 魏志强; 吴剑; 孙雁; 倪金; 孙鲁宁; 王俏俏
Original assignee: Ocean University of China; Qingdao Haier Innovation Technology Co Ltd
Current assignee: Ocean University of China; Qingdao Haier Innovation Technology Co Ltd
Priority date: 2021-07-08
Filing date: 2021-07-08
Publication date: 2021-10-22

Abstract

本发明公开了一种用于声音分类的联合注意力机制模型、方法及应用，将联合注意力模块嵌入卷积神经网络中，所述联合注意力模块包括通道注意力模块和时间注意力模块，所述通道注意力模块通过全局最大池化和全局平均池化压缩除了通道之外的其他维度信息，利用特征通道间的关系生成通道注意力图，提取通道特征信息；所述时间注意力模块通过全局最大池化和平均池化来压缩除了时间之外的其他维度信息，利用特征之间的时间关系生成了时间注意力图，提取时间特征信息。通过本发明的联合注意力机制可以加大重要特征的权重，减小无用特征的影响，进而提高CNN的性能。

Description

一种用于声音分类的联合注意力机制模型、方法及应用

技术领域

本发明属于声音分类技术领域，特别涉及一种用于声音分类的联合注意力机制模型、方法及应用。

背景技术

声音分类任务是预先向系统中输入大量的音频数据并对数据的类别进行定义，然后将未定义的音频数据输入到系统中来进行判别。目前，有多种网络结构来对声音进行分类分类。其中DenseNet在对一些声音进行分类时，由于DenseNet存在特征冗余性的缺点，导致其分类性能并不十分理想。SENet对Feature map进行了全局平均池化，没有充分利用特征信息，可能会丢失一些信息。训练GAN网络需要达到纳什均衡,有时候可以用梯度下降法做到,有时候做不到。目前还没有找到很好的达到纳什均衡的方法,所以训练GAN相对不太稳定。

卷积神经网络(Convolutional Neural Network，CNN)能挖掘海量数据中隐含的统计模式，自动学习对分类任务最有区分力的特征。CNN的主要原理是通过过滤器和特征图的卷积运算从低维度特征中提取出高维度特征，然后将这些信息通过激活函数等非线性运算进行激活并输入到下一层网络中，直至最后输出。

传统CNN每次卷积都会提取特征，但对于重要特征信息的提取还有上升空间，仅靠传统CNN自行获取重要特征可能会有遗漏，并且对声音识别影响较小的特征对于最终结果的影响可能过大。

综合各方面的因素，基于声音的特性，本发明采用通道注意力机制和时间注意力机制相结合的联合注意力机制结合CNN来对声音进行识别。

发明内容

针对现有技术存在的不足，本发明提供一种用于声音分类的联合注意力机制模型、方法及应用，通过将通道注意力模块和时间注意力模块联合并嵌入卷积神经网络，分别提取特征图中的通道信息和时间信息，并生成新的特征图，提高卷积神经网络的性能。

为了解决上述技术问题，本发明采用的技术方案是：

首先，本发明提供一种用于声音分类的联合注意力机制模型，将联合注意力模块嵌入卷积神经网络中，所述联合注意力模块包括两个子模块，分别是用于提取通道特征信息的通道注意力模块和用于提取时间特征信息的时间注意力模块；

所述通道注意力模块通过全局最大池化和全局平均池化压缩除了通道之外其它维度信息，利用特征通道间的关系生成通道注意力图，提取通道特征信息；

所述时间注意力模块通过全局最大池化和平均池化来压缩除了时间之外的其他维度信息，利用特征之间的时间关系生成了时间注意力图，提取时间特征信息。

进一步的，所述通道注意力模块由以下方式实现：使用两个平行的最大池化和平均池化压缩其它维度信息，得到两组含有通道信息的权重，之后通过多层感知机进行特征提取后线性相加，最后将其通过Sigmoid激活函数激活。

进一步的，所述通道注意力模块由以下方式实现：首先保留时间维度，对其它维度分别进行两次池化操作，分别是平均池化和最大池化，只保留时间维度上的信息，得到两组含有时间信息的权重，之后通过多层感知机进行特征提取后线性相加，最后将其通过Sigmoid激活函数激活。

进一步的，卷积神经网络的卷积层得到的初始特征图F∈R^C×H×W，先通过通道注意力模块提取通道权重系数M_c(F)，然后将M_c(F)与初始特征图F相乘，重新进行通道注意力的分配，得到特征图F′；再将F′输入到时间注意力模块中提取时间权重系数M_t(F)，最后将M_t(F)与F′相乘，重新进行时间注意力的分配，得到最终的特征图F″。

本发明还提供一种声音分类方法，包括以下步骤：

步骤一、采用梅尔频率倒谱系数MFCC提取声音特征；

步骤二、基于卷积神经网络得到初始特征图；

步骤三、将卷积得到的初始特征图输入联合注意力机制模型，通过联合注意力机制模型将初始特征图中不同形状、不同时间段的特征区别开、赋予不同的权值，生成新的特征图，来聚合特征信息；

步骤四、基于卷积神经网络进行声音分类识别。

进一步的，所述的联合注意力机制模型包括通道注意力模块和时间注意力模块，所述通道注意力模块通过全局最大池化和全局平均池化来压缩除了通道之外的其它维度信息，利用特征通道间的关生成了通道注意力图，进而提取通道信息；所述时间注意力模块通过全局最大池化和平均池化来压缩除了时间之外的其它维度信息，只保留时间维度，利用特征之间的时间关系生成了时间注意力图，进而提取时间信息；

聚合特征信息时，首先通过压缩其它维度的特征，然后经过多层感知机，线性相加和激活操作得到通道注意力，只提取通道权重系数M_c(F)，然后将M_c(F)与初始特征图F相乘，重新进行通道注意力的分配，得到特征图F′；再将F′输入到时间注意力模块中提取时间权重系数M_t(F)，最后将M_t(F)与F′相乘，重新进行时间注意力的分配，得到最终的特征图F″。

本发明还提供一种用于声音分类的联合注意力机制模型的应用，用于声音分类。

与现有技术相比，本发明优点在于：

(1)本发明的联合注意力机制中的通道注意力模块通过全局最大池化和全局平均池化来压缩其它维度信息，利用特征通道间的关系生成了通道注意力图，进而提取通道特征信息；解决了模型关注输入图像“什么特征”的问题。

(2)联合注意力机制用的时间注意力模块通过最大池化和平均池化来压缩其它维度信息，利用特征之间的时间关系生成了时间注意力图，进而提取时间特征信息；解决了模型关注输入图像“什么时间段的特征”的问题。

(3)通过联合注意力机制可以加大重要特征的权重，减小无用特征的影响，进而提高CNN的性能，与传统CNN相比，本方法对声音进行分类时具有特殊性和侧重点，提高声音分类的准确度；尤其适用于声音分类。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的整体流程示意图；

图2为本发明的生成通道注意力模块流程图；

图3为本发明的生成时间注意力模块流程图；

图4为本发明的联合注意力机制流程图；

图5为本发明的MFCC提取流程图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的说明。

由于声音信号具有多变的时频域特性，因此本发明在CBAM的基础上引入了时间注意力机制，它可以使网络对具有明显特征的时间帧给予更大的权重，对于无声或者噪声帧给予较小的权重。经过对CBAM中两种注意力的分析对比，选择了具有较强特征提取能力的通道注意力机制，结合时间注意力机制设计了一种联合注意力机制，该联合注意力机制可以随意嵌入任意二维CNN网络中，使模型自动关注语义相关的特征，提升了模型识别性能。

本发明的声音分类总体流程图如图1所示，采用梅尔频率倒谱系数来提取环境声音的特征，然后经过卷积神经网络和联合注意力机制的处理，进行声音分类。

具体的，本发明的用于声音分类的联合注意力机制模型，是将联合注意力模块嵌入卷积神经网络中，所述联合注意力模块包括两个子模块，分别是用于提取通道特征信息的通道注意力模块和用于提取时间特征信息的时间注意力模块。

(1)通道注意力模块

通道注意力主要关注输入图像“什么特征”。为了有效地计算通道注意力，本发明采用挤压其他纬度特征，只保留通道权重系数的方式。

结合图2所示的生成通道注意力模块流程图，首先使用两个平行的最大池化和平均池化对除了通道之外的其它特征进行压缩，得到两组含有通道信息的权重，之后通过多层感知机进行特征提取后线性相加，最后将其通过Sigmoid激活函数激活，得到通道注意力机制。通道注意力模块可以利用特征通道间的关系生成通道注意力图，提取通道特征信息。

(2)时间注意力模块

本部分根据频谱图不同的时间段的特征不同生成时间注意图。与通道注意力不同，时间注意力主要关注输入图像“什么时间段的特征”。为了有效地计算时间注意力，本发明挤压其他纬度特征，只保留时间权重系数。

结合图3所示的生成时间注意力模块流程图，首先保留时间维度，对其它维度分别进行两次池化操作，分别是平均池化和最大池化，只保留时间维度上的信息，得到两组含有时间信息的权重，之后通过多层感知机进行特征提取后线性相加，最后将其通过Sigmoid激活函数激活，得到了时间注意力机制。时间注意力模块通过全局最大池化和平均池化来其它维度信息，利用特征之间的时间关系生成了时间注意力图，提取时间特征信息。

(3)联合注意力机制

在对声音进行分类时，将图像输入到CNN中经过卷积生成Feature map，再将输入的Feature map输入到联合注意力模块生成新的Feature map来聚合特征信息。结合图4所示的联合注意力机制的流程图，具体说明如下：

将经过卷积神经网络的卷积层得到的初始特征图F∈R^C×H×W，先通过通道注意力模块提取通道权重系数M_c(F)，然后将M_c(F)与初始特征图F相乘，重新进行通道注意力的分配，得到特征图F′；再将F′输入到时间注意力模块中提取时间权重系数M_t(F)，最后将M_t(F)与F′相乘，重新进行时间注意力的分配，得到最终的特征图F″。

本发明提出的联合注意力机制可以有效的将这些特征提取出来并充分利用；注意力模块可以随意嵌入任意二维CNN网络中，提升网络性能，但是为此增加的计算成本较少，具有较高的实用性。

作为本发明另一实施例，还提供一种声音分类方法，包括以下步骤：

步骤一、采用梅尔频率倒谱系数MFCC提取声音特征；

步骤二、基于卷积神经网络得到初始特征图；

步骤三、将卷积得到的初始特征图输入联合注意力机制模型，通过联合注意力机制模型将初始特征图中不同形状、不同时间段的特征区别开、赋予不同的权值，生成新的特征图，来聚合特征信息。

其中，所述的联合注意力机制模型包括通道注意力模块和时间注意力模块，所述通道注意力模块通过全局最大池化和全局平均池化来压缩除了通道之外的其它维度信息，利用特征通道间的关生成了通道注意力图，进而提取通道信息；所述时间注意力模块通过最大池化和平均池化来压缩除了时间之外的其他维度信息，只保留时间维度，利用特征之间的时间关系生成了时间注意力图，进而提取时间信息。

聚合特征信息时，首先通过压缩其它维度的特征，然后经过多层感知机，线性相加和激活操作得到通道注意力，只提取通道权重系数M_c(F)，然后将M_c(F)与初始特征图F相乘，重新进行通道注意力的分配，得到特征图F′；再将F′输入到时间注意力模块中提取时间权重系数M_t(F)，最后将M_t(F)与F′相乘，重新进行时间注意力的分配，得到最终的特征图F″。各模块功能及实现方式前面已经介绍，此处不再赘述。

步骤四、基于卷积神经网络进行声音分类识别。

需要说明的是，结合图5所示，本发明采用的梅尔频率倒谱系数MFCC提取流程如下：

(1)预加重：预加重对声音信号显得尤为重要，预加重可以实现对高频段声音信号频谱进行均衡设置。

(2)分帧和加窗：采用可移动的一定长度的窗口进行加权来实现分帧。然后对每一帧乘汉明窗。

(3)傅里叶变换：对声音信号的幅度谱进行提取，此操作在声音信号加窗后进行。

(4)梅尔滤波：傅里叶变换得到幅度谱，用梅尔滤波器组对其进行滤波操作，获得对数功率谱。

(5)DCT变换：通过离散余弦变换消除冗余信号。在对声音信号处理领域，DCT是常用的计算方式，但是对数据的处理方式是有损压缩，因此使用DCT减少各个滤波器组输出的能量相关性，得到梅尔倒谱系数。

作为本发明另一实施例，提供一种用于声音分类的联合注意力机制模型的应用，用于医学图像分类。

综上所述，本发明提出了通道注意力和时间注意力两种注意力机制，这不是一个完整的网络结构，而是一个子结构。其中通道注意力用来提高图像中关键特征的权重，而空间注意力可以提升图像中关键区域的权重，从而可以将图像中不同形状、不同时间段的特征区别开赋予不同的权值，进而实现了注意力机制在声音分类中的应用，在医疗保健领域也具有很好的应用。

(1)通道注意力模块，首先将特征图通过池化、卷积和非线性激活等操作计算出在通道上的权重向量，然后将权重向量与特征图在对应的维度上相乘，实现重要程度的再分配，解决了模型关注输入图像“什么特征”的问题。以上操作可以在将计算成本控制在一定范围内的同时并且有效提取通道特征信息。

(2)时间注意力模块，首先将特征图通过池化、卷积和非线性激活等操作计算出在时间上的权重向量，然后将权重向量与特征图在对应的维度上相乘，实现重要程度的再分配。解决了模型关注输入图像“什么时间段的特征”的问题。以上操作可以在将计算成本控制在一定范围内的同时并且有效提取时间特征信息。

(3)联合注意力机制，针对声音信号多变的时频特征，将通道注意力机制和时间注意力机制相结合生成联合注意力机制，可以取得比单一注意力机制更好的分类结果，并且联合注意力机制具有很强的适应性，适用于绝大多数采用二维时频特征作为输入的模型。

当然，上述说明并非是对本发明的限制，本发明也并不限于上述举例，本技术领域的普通技术人员，在本发明的实质范围内，做出的变化、改型、添加或替换，都应属于本发明的保护范围。

Claims

1.一种用于声音分类的联合注意力机制模型，其特征在于，将联合注意力模块嵌入卷积神经网络中，所述联合注意力模块包括两个子模块，分别是用于提取通道特征信息的通道注意力模块和用于提取时间特征信息的时间注意力模块；

所述通道注意力模块通过全局最大池化和全局平均池化压缩除了通道之外的其它维度信息，利用特征通道间的关系生成通道注意力图，提取通道特征信息；

2.根据权利要求1所述的用于声音分类的联合注意力机制模型，其特征在于，所述通道注意力模块由以下方式实现：使用两个平行的最大池化和平均池化其它维度信息进行压缩，得到两组含有通道信息的权重，之后通过多层感知机进行特征提取后线性相加，最后将其通过Sigmoid激活函数激活。

3.根据权利要求2所述的用于声音分类的联合注意力机制模型，其特征在于，所述时间注意力模块由以下方式实现：首先保留时间维度，对其它维度分别进行两次池化操作，分别是平均池化和最大池化，只保留时间维度上的信息，得到两组含有时间信息的权重，之后通过多层感知机进行特征提取后线性相加，最后将其通过Sigmoid激活函数激活。

4.根据权利要求3所述的用于声音分类的联合注意力机制模型，其特征在于，卷积神经网络的卷积层得到的初始特征图F∈R^C×H×W，先通过通道注意力模块提取通道权重系数M_c(F)，然后将M_c(F)与初始特征图F相乘，重新进行通道注意力的分配，得到特征图F′；再将F′输入到时间注意力模块中提取时间权重系数M_t(F)，最后将M_t(F)与F′相乘，重新进行时间注意力的分配，得到最终的特征图F″。

5.一种声音分类方法，其特征在于，包括以下步骤：

步骤一、采用梅尔频率倒谱系数MFCC提取声音特征；

步骤二、基于卷积神经网络得到初始特征图；

步骤四、基于卷积神经网络进行声音分类识别。

6.根据权利要求1所述的声音分类方法，其特征在于，所述的联合注意力机制模型包括通道注意力模块和时间注意力模块，所述通道注意力模块通过全局最大池化和全局平均池化来压缩除了通道之外的其它维度信息，利用特征通道间的关系生成了通道注意力图，进而提取通道信息；所述时间注意力模块通过全局最大池化和平均池化来压缩除了时间之外的其他维度信息，只保留时间维度，利用特征之间的时间关系生成了时间注意力图，进而提取时间信息；

7.权利要求1-4任一项所述的用于声音分类的联合注意力机制模型的应用，其特征在于，用于声音分类。