CN112559797A

CN112559797A - 一种基于深度学习的音频多标签分类方法

Info

Publication number: CN112559797A
Application number: CN202011533089.XA
Authority: CN
Inventors: 陈浩; 马文; 钟雄虎
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2021-03-26

Abstract

本发明涉及环境声音识别的音频标记领域，特别是涉及一种对带有噪声的音频基于深度学习的多标签分类方法。本发明的内容有：数据预处理包括：使用RNNoise算法对数据集进行降噪处理。音频特征提取包括：首先将音频通过短时傅里叶变换，接着转化成MFCC特征数据，然后输入VGGish网络得到128维high‑level的特征embedding。模型构建包括：确定使用CNN和RNN神经网络，CNN能很好地利用输入数据的二维结构处理语音数据，RNN能很好地利用标签之间的相关性有序预测标签。模型训练包括：跟踪损失函数值和分类误差，更新模型参数，直至得到准确度较高的模型。模型评估包括：定义评价指标并计算平均精度。音频多标签分类包括：加载训练好的模型并将预测的标签概率的结果输出。其流程如图1所示。

Description

一种基于深度学习的音频多标签分类方法

技术领域

本发明涉及环境声音识别的音频标记领域，特别是涉及一种对带有噪声的音频基于深度学习的多标签分类方法。具体通过对音频特征提取后，将其作为神经网络的输入进行训练，得到准确度较高的模型，从而进行标签分类。

背景技术

近年来，深度学习在语音识别、图像分类、自动驾驶等领域都得到了广泛的应用，而环境声音识别的分类问题是一个在实际生活中应用非常广泛的问题，目前针对该问题的研究也逐渐成为了一个热点。

传统的单标签分类主要解决的是一个示例只属于一个类别的问题。然而在现实生活中，由于客观物体本身的复杂性和多义性，往往没有绝对的单标签分类问题，通常可能同时与多个类别标签相关。因此，为了更好地体现出实际对象所具有的多语义性，研究者们常使用一个包含多个相关语义标签的子集来描述该对象，多标签分类问题由此形成。对于音频的多标签分类而言，通常使用的方法可分为三大类：问题转换法、算法适用法和集成法。问题转换法是通过某种方法对数据集进行转换，使其从多标签数据集转化成单标签数据集，再利用传统的分类方法进行分类；算法适用法是通过对传统的分类方法进行改进，使其能适应于多标签数据的分类；集成法主要是为了实现更好的分类效果，对常用的问题转换法和算法适用法进行结合来处理多标签分类问题。但由于大多数音频数据都包含着噪声的干扰，因此给分类带来了很大的难度和挑战，使用传统的方法进行分类效果并不理想。

本专利针对上述问题，提出一种基于深度学习的音频多标签分类方法，在对音频数据集提取特征之前进行降噪处理，然后通过构建卷积神经网络(CNN，ConvolutionalNeural Network)对音频数据集进行分类，通过构建循环神经网络(RNN，Recurrent NeuralNetwork)预测标签之间的依赖关系从而输出多个标签。本专利提供了一种在噪声干扰下依然能够对复杂的环境声音进行分类的解决方案，达到了能够同时标记出音频片段中包含的所有类别声音标签的效果。

发明内容

本发明公开了一种基于深度学习的音频多标签分类方法，解决了在噪声干扰下为复杂的环境声音自动分类的问题。本发明的技术方案如图1所示，包括：第一，对音频数据集进行预处理操作，如降噪处理；第二，对音频特征进行提取，选取合适的特征提取方法，如先将音频通过短时傅里叶变换(STFT，Short Ttime Fourier Transform)，再转化成梅尔频率倒谱系数(MFCC，Mel Frequency Cepstrum Coefficient)特征数据，然后输入VGGish特征提取器得到特征向量；第三，对模型进行构建，选取两种合适的神经网络CNN和RNN；第四，对模型进行训练，根据每一次训练结束后的损失函数值及验证集准确率不断更新网络参数，不断提高模型的精度，直至得到一个准确度较高的模型；第五，对模型进行评估，根据评价指标的数学定义计算每条测试音频所包含的相关标签排序列表的平均精度；第六，对音频进行标签分类，将待分类的音频数据输入到已训练好的准确度较高的模型中，并输出得到的分类标签结果。

1.数据预处理

由于音频数据集中包含噪声的干扰，为了分类结果的准确性，在进行特征提取前需要对数据集进行降噪处理。本专利采用RNNoise降噪算法，该算法将信号处理与深度学习相结合，创造了一个又小又快的实时噪声抑制方法，可以解决所有的噪声场景，并且可以优化传统噪声估计的时延和收敛问题。具体过程是，首先对音频数据分帧，对数据点提取特征，然后通过三层门控循环单元(GRU，Gated Recurrent Neural Network)网络进行训练，将最终得到的结果作为权重对原始输入进行加权，最后得到降噪后的语音信号。GRU是传统RNN的变体，它使用隐藏状态来传输信息，采用门进行状态间的传递控制。GRU有两个门：更新门和重置门。更新门控制前一时刻的隐藏状态被带入到当前状态的程度，更新门值越大，表示前一状态信息带入的越多。重置门控制前一状态有多少信息是被写入到当前的隐藏状态和输出上的，重置门值越大，表示前一状态信息被写入的就越少。使用GRU执行去噪任务，需要更少的计算资源，较少的参数，并且训练速度更快，它可以解决简单的RNN不能长期保存信息和梯度消失的问题。

2.音频特征提取

本专利采用VGGish模型作为特征提取器，该模型是通过YouTube的AudioSet数据集预训练得到的。AudioSet是一个由200万人标记的10秒YouTube视频音轨组成的数据集，其标签来自600多个音频事件类的本体，该数据集由Google的声音理解团队于2017年3月发布，旨在为音频事件检测提供常见的大规模评估任务，并为全面的声音事件词汇提供起点。VGGish模型包含8个卷积层，5个池化层和3个全连接层，每个卷积层使用3*3的卷积核。在特征提取时，先将音频通过短时傅里叶变换，再转化成MFCC特征数据，然后输入VGGish网络将输入特征转化为具有语义和有意义的128维high-level的特征embedding，而128维high-level特征embedding可以作为下游模型的输入。具体过程如下：

(1)输入数据为音频文件，将音频重采样为16KHz单声道音频；

(2)使用25ms的汉宁窗，10ms的帧移对音频进行短时傅里叶变换得到频谱图。汉宁窗可以看作是3个sinc(t)型函数之和，通常情况下在采样后对信号加窗可以减少频谱泄露现象。计算短时傅里叶变换的过程是把一个较长的时间信号分成相同长度的更短的段，在每一个更短的段上计算傅里叶变换，即傅里叶频谱。短时傅里叶变换的数学定义如下：

其中，x(m)为输入信号，ω(m)是窗函数，它在时间上反转并且有n个样本的偏移量。X(n，ω)是时间n和频率ω的二维函数，它将信号的时域和频域联系起来。可以据此对信号进行时频分析；

(3)通过将频谱图映射到64阶Mel滤波器组(Mel Filter Group)中计算Mel声谱；

(4)计算log(melSpectrum+0.01)，得到稳定的Mel声谱，所加的0.01的偏置是为了避免对0取对数；

(5)以0.96s的时长将这些特征组帧，保证没有帧重叠，并且每一帧都包含64个Mel频带，时长为10ms(即总共96帧)。这些组帧后的特征数据格式为[nums_frames,128]，其中nums_frames为帧长。

3.模型构建

针对多标签分类任务，深度学习方法可以达到很明显的提升效果。本发明采用CNN和RNN搭建的模型进行分类。CNN在分类任务中表现一向出色，RNN可以为标签之间的相关性建模。

CNN的层次结构包括数据输入层、卷积计算层、激励层、池化层和全连接层。输入层输入数据并进行数据处理，卷积结构使其能很好地利用输入数据的二维结构处理语音数据，其内部包含多个卷积核，通过池化层进行特征选择和信息过滤，输入到全连接层解除多维结构展开为向量，通过激励函数传递到下一层网络，经过最后一个全连接层后，使用归一化指数函数softmax输出分类标签结果。

RNN的主要工作过程是基于特征向量的，目标是更容易识别的标签，它的第一个预测y(1)类似于二元关联，是独立地预测每个标签的，不需要其它标签的信息，但从第二步开始，它会使用前一步的结果进行更好地预测，例如y(2)是基于y(1)的，y(3)是基于y(2)的。最终，标签之间的相关性建模完成，从而达到提升分类准确度的目标，也解决了输出空间巨大的问题。实际上这是通过迭代来改善预测结果的过程，这个过程可以看作是序列预测问题，该部分神经网络模型是在RNN层的内存中建立的。

4.模型训练

当训练数据集过大时，需要将训练数据分批送入模型中训练，否则不利于神经网络的学习，将训练数据分成若干个一定大小的批量数据在一定程度上也提升了模型的训练速度。根据激活函数值的大小和梯度值的大小初始化每层节点的权重和偏置，采用合适的损失函数。对于多标签分类任务，一般使用softmax损失函数，它将卷积神经网络计算后的多个神经元输出，映射到(0,1)区间内，给出每种分类的概率情况，符合概率分布。测试并提升模型的泛化能力，以此来判断模型对未知数据的预测能力。衡量泛化能力的好坏最直观的表现是模型的过拟合状态和欠拟合状态，而提升泛化能力可以通过正则化训练、增加模型的深度、使用更多的数据等方法来完成。

5.模型评估

本专利对模型的评价指标采用lwlrap(label-weighted label-ranking averageprecision)，它计算每条测试音频所包含的相关标签排序列表的平均精度。

“label-weighted”允许计算每个标签的值，其中每个标签的权重相等，最后得到的总体度量结果为每个标签度量结果的简单平均值。

“label-ranking average precision”是由label_ranking_average_precision_score函数计算得到的。真实标签的二元指标矩阵

与每个标签关联的得分是

具体定义为公式(1)：

其中，

6.音频多标签分类

对于多标签分类，首先将待分类的音频数据作为模型输入，然后利用已得到的准确度较高的模型进行标签分类，最后将分类结果输出。整个过程具体如下：

(1)输入：将测试音频文件作为模型的输入；

(2)分类：CNN的卷积层能对输入的音频特征进行进一步的特征提取，而每个标签都有自己的标签嵌入向量，通过使用RNN对标签之间的依赖性建模，从而将标签上下文信息保持在其内部记忆状态中，之后按有序预测路径顺序计算多标签预测的概率；

(3)输出：将每个音频文件所包含的标签结果标注出来。

附图说明

图1：系统流程图

具体实施方式

本发明的硬件环境主要是一台GPU型号为GeForce GTX 2080Ti的服务器。软件实现以ubuntu 16.04为平台，采用Python编程语言，基于深度学习框架TensorFlow开发。实验数据集来源于Kaggle平台上的FSDKaggle2019数据集，该数据集由两部分组成，分别是Freesound Dataset(FSD)和Yahoo Flickr Creative Commons 100M dataset(YFCC)，其中FSD是基于AudioSet的，YFCC是一组Flickr视频的音轨。整个数据集包含80个类别标签，如鼓掌声、牛叫声、下雨声等。具体实施过程主要分为五个部分：数据预处理、音频特征提取、模型构建与训练、模型评估、音频标签分类。具体如下：

1.数据预处理

由于原始音频数据集中包含噪声的干扰，因此本专利采用RNNoise降噪算法先对原始数据集进行降噪处理。RNNoise降噪算法的具体过程是：

(1)准备纯语音LibriSpeech ASR corpus语料库和纯噪声rnnoise_contributions数据集作为训练数据集，将噪声加入语音中，合成一个新的含噪语音数据集。LibriSpeech ASR corpus数据集包含了1000小时的英文语音，rnnoise_contributions数据集包含了各种各样的噪声，每条噪声音频都是由各个捐赠者自愿上传的；

(2)对得到的含噪语音数据集重采样为48KHz，将从Kaggle平台上下载的wav格式的FSDKaggle2019数据集转换为pcm格式，提取特征并进行数据转换，在TensorFlow框架下，使用Keras和Theano作为后端训练一个包含三个GRU的神经网络，训练完成后获取权重数据；

(3)将获得的权重数据写入文件，对FSDKaggle2019数据集降噪，得到全新的wav格式的降噪后的音频数据集。

2.音频特征提取

在特征提取时，先将音频通过短时傅里叶变换，再转化成MFCC特征数据，然后输入VGGish网络将输入特征转化为具有语义和有意义的128维high-level的特征embedding，而128维high-level特征embedding可以作为下游模型的输入。具体过程如下：

(1)将音频数据重采样为16KHz单通道格式；

(2)使用25ms的汉宁窗，10ms的帧移对音频进行短时傅里叶变换得到频谱图；

(3)把频谱映射到125-7500Hz窗口区间的64阶Mel滤波器组中计算Mel声谱；

(4)计算logMel频率，计算公式为：logMel＝log(melSpectrum+0.01)；

(5)分帧，按照不重复的0.96s为一帧，每一帧里细分每10ms，得到96*64大小的MFCC特征数据；

(6)将得到的96*64大小的MFCC特征数据通过VGGish模型转换为一个128维的embedding特征。

3.模型构建与训练

构建模型包括设计神经网络结构和使用优化器训练两个部分。本发明采用CNN和RNN搭建的模型进行分类。

CNN的输入层输入数据并进行数据处理，卷积结构内部包含多个卷积核，通过池化层进行特征选择和信息过滤，输入到全连接层解除多维结构展开为向量，通过激励函数传递到下一层网络，经过最后一个全连接层后，使用归一化指数函数softmax输出分类标签结果。

RNN的主要工作过程是基于特征向量的，由RNN层和全连接层组成，全连接层学习标签嵌入将RNN层的输出转换为标签向量，RNN层中的所有迭代都共享相同的特征向量，使用sigmoid函数，全连接层为恒等变换。

对已构建好的模型训练时，本专利采用softmax损失函数，使用Adam优化器进行反向传播、更新参数、优化模型，学习率默认为0.001。在整个训练过程中，跟踪损失函数的值和模型的准确度，直到得到一个准确度较高的模型。

4.模型评估

本专利对模型的评价指标采用lwlrap，通过公式(1)计算得到每条测试音频所包含的相关标签排序列表的平均精度。

5.音频多标签分类

首先准备测试音频数据，如：M001.wav,作为模型输入，然后利用已得到的准确度较高的模型进行标签分类，并将预测的标签概率的结果输出，如：

Dataset	slam	laugh	whistle	voilin	…
						M001.wav	0.50	0.00	0.00	0.80	0.00

该结果的含义是，在M001.wav这条测试音频中，包含鼓掌声、小提琴声，这两种声音标签的预测概率分别是0.50和0.80，而包括笑声、口哨声在内的其它78个声音标签的预测概率都是0。

Claims

1.一种基于深度学习技术进行音频多标签分类的方法，其步骤如下：

(1)数据。包括数据集的选择、降噪；

(2)特征提取。包括STFT、MFCC，输入VGGish特征提取器得到128维high-level的特征embedding；

(3)模型。包括神经网络的组成及其超参数的初始化等；

(4)训练。跟踪模型的损失函数等，确定神经网络种类，网络层数、超参数等因素对模型精确度的影响，从而不断调整模型参数，提高模型准确度；

(5)评估。对模型的评价指标采用lwlrap，根据该评价指标的数学定义计算每条测试音频所包含的相关标签排序列表的平均精度；

(6)多标签分类。将测试音频作为模型的输入，加载训练好的准确度较高的模型进行标签分类，并将预测的标签概率的结果输出。

2.根据权利要求1所述的该系统所需的数据，需要进行以下变换，以进行数据的预处理操作：

(1)选择适合音频多标签分类任务的数据集，如Kaggle平台上的FSDKaggle2019数据集；

(2)利用RNNoise降噪算法得到全新的wav格式的降噪后的音频数据集；

(3)利用VAD技术清理wav文件中的静音片段；

(4)根据实验机器配置，设置合适大小及比例的训练数据及测试数据。

3.根据权利要求1所述的音频特征提取，需要进行以下变换，以作为模型的输入：

(1)将音频数据通过短时傅里叶变换；

(2)提取梅尔频率倒谱系数特征；

(3)输入VGGish网络将输入特征转化为具有语义和有意义的128维high-level的特征embedding作为下游模型的输入。

4.根据权利要求1所述的多标签分类任务的模型，具有以下特征：

(1)传统的处理多标签分类任务的方法分类效果并不理想，本发明采用深度学习技术，将两种深度神经网络相结合，提升音频多标签分类结果的准确性；

(2)CNN在分类任务中表现一向出色，RNN可以为标签之间的相关性建模，因此采用CNN和RNN相结合的模型进行分类；

(3)设置合理的初始神经网络参数。对于分类任务，输出层一般选择softmax()函数对输出结果进行处理，优化器一般使用Adam优化器，学习率默认为0.001。

5.根据权利要求1所述的模型的训练，主要特征包括：

(1)跟踪损失函数的值和模型的准确度，不断调整模型参数，优化模型的性能；

(2)分别采用单一的CNN神经网络和单一的RNN神经网络训练模型；

(3)将CNN和RNN相结合训练模型；

(4)针对上述模型，改变其超参数，观察其中每个超参数对最终结果的影响，最终综合得到一个准确度较高的模型。

6.根据权利要求1所述的模型评估，其特征如下：

(1)采用lwlrap评价指标；

(2)根据该评价指标的数学定义计算得到每条测试音频所包含的相关标签排序列表的平均精度。

7.根据权利要求1所述的音频多标签分类，其特征如下：

(1)将测试音频文件作为模型的输入；

(2)加载训练好的准确度较高的模型，按有序预测路径顺序计算多标签预测的概率；

(3)将每个音频文件所预测的标签概率结果标注出来。