CN113823321B

CN113823321B - 一种基于特征预训练的深度学习分类的声音数据分类方法

Info

Publication number: CN113823321B
Application number: CN202111010607.4A
Authority: CN
Inventors: 王艳; 候丹丹; 龚杰; 李宝清; 袁晓兵
Original assignee: Shanghai Institute of Microsystem and Information Technology of CAS
Current assignee: Shanghai Institute of Microsystem and Information Technology of CAS
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2023-08-08
Anticipated expiration: 2041-08-31
Also published as: CN113823321A

Abstract

本发明涉及一种基于特征预训练的深度学习分类的声音数据分类方法，包括：获取P通道的声音数据，按帧长L将所述P通道的声音数据截取为若干段声音样本，每段所述声音样本包括帧长为L的P通道声音样本数据和截取数据的分类类别；对所述帧长为L的P通道声音样本数据进行K倍降采样，得到L/K个点的P通道声音样本；按帧长L提取所述P通道的声音数据的MFCC特征；构建卷积神经网络，通过所述若干段声音样本和P通道的声音数据的MFCC特征来对所述卷积神经网络进行两次训练，得到训练好的卷积神经网络；通过训练好的卷积神经网络来识别输入声音信号的类别。本发明的卷积神经网络能够对输入的声音信号类别进行有效分类。

Description

一种基于特征预训练的深度学习分类的声音数据分类方法

技术领域

本发明涉及语音信号识别技术领域，特别是涉及一种基于特征预训练的深度学习分类的声音数据分类方法。

背景技术

根据P通道均匀圆阵采集的车辆声音数据来对野外车辆目标进行识别，传统的模式识别一般分为两个步骤：首先提取声音传感器采集到的声信号的特征；其次设计分类器以得到判别结果。常用的声信号特征为梅尔倒谱系数(Mel-Frequency CepstralCoefficient,MFCC)，被广泛用于语种识别、说话人识别、声纹识别等领域，近年来被成功应用于车辆目标的分类识别。

传统的将MFCC特征送入深度学习网络，但是在恶劣的环境中模型的识别率并不高。

传统的识别模式在野外车辆识别时，若是风噪过大，其分类结果有限，并不能达到预期的效果，随着深度学习的快速发展，考虑用深度学习来进行分类识别，但深度学习需要大量的数据，而工程上数据有限，因此需要构建合理的数据集，并且该数据集能够使得后期训练好的网络有较为准确的识别率。

发明内容

本发明所要解决的技术问题是提供一种基于特征预训练的深度学习分类的声音数据分类方法，通过构建合适的数据集来对卷积神经网络进行两次训练，并且训练好的卷积神经网络能够对输入的声音信号类别进行有效分类。

本发明解决其技术问题所采用的技术方案是：提供一种基于特征预训练的深度学习分类的声音数据分类方法，包括：

步骤(1)：获取P通道的声音数据，按帧长L将所述P通道的声音数据截取为若干段声音样本，每段所述声音样本包括帧长为L的P通道声音样本数据和截取数据的分类类别；对所述帧长为L的P通道声音样本数据进行K倍降采样，得到L/K个点的P通道声音样本；

步骤(2)：按帧长L提取所述P通道的声音数据的MFCC特征；

步骤(3)：构建卷积神经网络，通过所述若干段声音样本和P通道的声音数据的MFCC特征来对所述卷积神经网络进行两次训练，得到训练好的卷积神经网络；

步骤(4)：通过训练好的卷积神经网络来识别输入声音信号的类别。

所述步骤(2)具体为：对所述P通道的声音数据进行预处理，再按帧长L同时提取预处理后的P通道的声音数据的MFCC特征；其中，所述预处理包括预加重、分帧和加窗。

所述步骤(3)中的卷积神经网络包括M层卷积层、第一全连接层和第二全连接层；

所述第一全连接层的输入为所述截取的L/K个点的P通道声音样本数据，并将所述P通道的声音数据的MFCC特征作为标签，输出为P通道乘以MFCC特征维数；

所述第二全连接层的输入为截取的L/K个点的P通道声音样本数据，并将所述截取数据的分类类别作为标签，输出为声音样本的分类类别。

所述卷积神经网络采用卷积核为a、步长b的第一卷积，以及卷积核为c、步长为d的第二卷积交替组成M层卷积层，并在每层卷积层后依次连接批标准化BatchNorm1d、激活函数Tanh和最大池化MaxPool1d。

所述步骤(3)中通过所述L/K个点的P通道声音样本和P通道的声音数据的MFCC特征来训练所述卷积神经网络，在训练时包括第一次MFCC预训练和第二次训练，并且在所述第二次训练之前，将所述第一次MFCC预训练的参数作为第二次训练时的初始化状态。

所述第一次MFCC预训练的损失包括预训练损失和分类损失，当处于所述第一次MFCC预训练时，将所述分类损失乘以0，只保留预训练损失。

所述第二次训练的损失包括预训练损失和分类损失，当处于所述第二次训练时，将所述预训练损失乘以0，只保留分类损失。

所述第二次训练时的卷积神经网络的学习率为所述第一次MFCC预训练的1/10。

有益效果

由于采用了上述的技术方案，本发明与现有技术相比，具有以下的优点和积极效果：本发明将MFCC特征和数据结合起来对卷积神经网络进行两次训练，并且训练好的卷积神经网络能够对输入的声音信号类别进行有效分类，进而识别出不同的车辆类型；本发明能够在车辆声音数据集较小时，兼顾深度学习的分类效果而不过拟合，并提高车辆声音数据分类的识别率和鲁棒性；本发明在网络训练时不采用随机初始化，通过MFCC预训练约束网络初始化的方式，提升实测时的效果，获得更好的鲁棒性，提高抗噪能力。

附图说明

图1是本发明实施方式的方法流程图。

图2是本发明实施方式的神经网络结构图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明的实施方式涉及一种基于特征预训练的深度学习分类的声音数据分类方法，特别适用于车辆声音数据，请参阅图1，包括：

步骤S1：对P通道均匀圆阵采集的车辆声音数据按帧长L截取为若干段声音样本，得到截取后的声音样本和数据样本标签，将截取数据的分类类别作为数据样本标签，再对截取后的声音样本进行K倍降采样，后续送入深度学习网络(卷积神经网络)的车辆声音数据为L/K个点的P通道车辆声音样本。

步骤S2：按帧长L对P通道匀圆阵采集的车辆声音数据进行预处理，并提取P通道车辆声音数据的MFCC特征。

步骤S3：将L/K个点的P通道车辆声音样本送入M层卷积层加2层全连接层的网络中，第一全连接层的输入为P通道L/K个点的车辆声音样本，输出为P通道乘以MFCC特征维数，并且第一次MFCC预训练的损失为：

Loss1＝0*F.nll_loss(output,target,weight＝Variable(torch.Tensor([1.0,2.73,1.63,1.95]+F.nll_loss(pred_mfcc,MFCC_data,weight＝Variable(torch.Tensor([1.0,2.73,1.63,1.95])))

步骤S4：当第一次MFCC训练模型收敛时，暂停模型，并将第二次训练网络将损失改为：

Loss2＝F.nll_loss(output,target,weight＝Variable(torch.Tensor([1.0,2.73,1.63,1.95])))+0*F.nll_loss(pred_mfcc,MFCC_data,weight＝Variable(torch.Tensor([1.0,2.73,1.63,1.95])))

加载第一次MFCC预训练模型保存的参数继续训练网络，第二全连接层的输入是拟合的MFCC特征，即第二次全连接层的输入是第一次MFCC预训练模型的输出，即拟合的MFCC特征pred_mfcc(相当于P通道乘以MFCC特征维数)。输出为车辆声音样本的分类类别数，模型收敛时，得到最终的训练结果。

步骤S5：通过训练好的卷积神经网络来识别输入的车辆声音信号类别。

以下对上述各步骤进行详细描述：

所述步骤S1中P通道均匀圆阵采集的车辆声音数据按帧长L截取为若干段声音样本，是保留P通道间的关系，横向截取，即截取完的数据为L行乘以P列的数据为一帧，而不是不考虑通道间的关系进行竖向截取，即截取完的数据不是L行乘以1列的数据为一帧，再乘以P的数据为P帧。还可以通俗理解为：截取完的数据不是一个通道一个通道的处理数据，截取完的数据不是单通道处理数据。同理，K倍降采样也是保留P通道间的关系，对P个通道同时进行的。

进一步地，对P通道均匀圆阵采集的车辆声音数据按帧长L截取为若干段声音样本，这里通过实验验证单通道效果有限，而多通道表现优良。这是由于单通道车辆声音信号受风噪影响较大，单通道的降噪算法在降低风噪的同时，对目标信号在幅频或者相频上或多或少存在一定的损失，从而导致单通道降噪后的识别率不升反降，所以单通道降噪对提高声音目标信号识别效果的方案行不通。多通道虽然目标信号比较相似，但P个方向的风噪信号并不相同，对于风噪而言是在P个不同层面的信号，所以通过卷积神经网络，多通道可以降低风噪影响，提高识别效果，所以本实施方式采取P通道车辆声音信号输入方式。

进一步地，步骤S2中按帧长L对P通道匀圆阵采集的车辆声音数据进行预处理，其中预处理包括预加重、分帧以及加窗。

所述步骤S2中提取P通道车辆声音数据的MFCC特征，是同时对P个通道提取MFCC特征，保证与步骤S1中按帧长L截取的若干段声音样本一一对应。

进一步地，所述步骤S3中的网络结构为M层卷积神经网络加2层全连接网络，卷积核为a，步长b的第一卷积，卷积核为c，步长为d的第二卷积交替组成M层卷积层，在每层卷积层后依次连接批标准化BatchNorm1d、激活函数Tanh、最大池化MaxPool1d。最后一层采用1*1的卷积核，可以实现跨通道信息交互(channel的变换)，详见图2。

进一步地，所述步骤S3中的损失分为预训练损失和分类损失(请见上述公式Loss1)，第一次MFCC预训练的损失将分类损失乘以0，并保留预训练损失，使得网络中间输出拟合MFCC特征。

进一步地，所述步骤S3中的第一次MFCC预训练时，输入截取后的语音样本，把MFCC特征作为第一层全连接层的训练标签，在训练中只训练第一层全连接及之前的网络，(共有两层全连接层，第二全连接层不参与第一次训练，分类损失不参与第一次训练的反向传播)截取后的语音样本送入网络做第一次MFCC预训练，使得网络中间输出拟合MFCC特征。

所述步骤S3中的2层全连接网络结构为：第二全连接层的输入为拟合后的MFCC特征，即第二次全连接层的输入是第一次MFCC预训练模型的输出，即拟合的MFCC特征pred_mfcc(相当于P通道乘以MFCC特征维数)。即MFCC特征维数乘以P的输入，输出为N；第二全连接层的输入为N，输出为分类类别数目。

进一步地，所述步骤S3中的预训练完成，是指损失震荡降到一个相对平稳的时候，同时分类精度曲线震荡上升趋于稳定，输出的混淆矩阵相对稳定，停止网络训练，并将网络参数保存下来。

进一步地，所述步骤S4中在网络进行第二次训练之前，网络不采用随机初始化参数，而是将第一次MFCC预训练保存下来的参数当作模型第二次训练的初始化状态。即第一次训练为第二次的MFCC预训练模型。

所述步骤S4中在网络进行第二次训练之时，调整第二次训练网络的学习率，调整为第一次的1/10，即第二次训练调小学习率，使得第二次训练在原有基础上微调，在已学习到的网络参数上进行精细化调整。

进一步地。所述步骤S4中的损失也分为预训练损失和分类损失(请见上述公式Loss2)，第二次训练的损失保留分类损失，将预训练损失乘以0，待模型损失下降到一定的值并趋于稳定，停止网络训练，将网络参数保存下来，作为最终的训练结果。

为进一步理解本实施方式，以下将步骤S3和步骤S4的具体网络结构设置再次进行描述：

(1)第一次MFCC预训练时，网络正常初始化，即采用随机初始化网络参数。

(2)第一次MFCC预训练时，输入截取后的语音样本，把MFCC特征作为第一层全连接层的训练标签，在训练中只训练第一层全连接及之前的网络，(共有两层全连接层，第二全连接层不参与第一次训练，分类损失不参与第一次训练的反向传播)截取后的语音样本送入网络做第一次MFCC预训练，使得网络中间输出拟合MFCC特征。

(3)第一次MFCC预训练时，待网络损失下降到一定的值并趋于稳定，停止网络训练，将网络参数保存下来。

(4)第二次训练时，输入截取后的语音样本，并增加第二全连接层，把分类类别作为标签，送入网络进行第二次训练。

(5)在网络第二次训练之前，网络不采用随机初始化参数，而是将第一次MFCC预训练保存下来的参数当作第二次模型的初始化状态。即第一次训练为第二次的MFCC预训练模型。

(6)调整第二次训练网络的学习率，调整为第一次的1/10，使得第二次训练在原有基础上微调。

(7)待模型损失下降到一定的值并趋于稳定，停止网络训练，将网络参数保存下来，作为最终的训练结果。

由此可见，本实施方式将MFCC特征和截取的P通道的声音数据综合考虑，一起送入深度学习网络，最后取得了良好的效果，不仅通过声音对车辆的识别较好，鲁棒性也较好。

Claims

1.一种基于特征预训练的深度学习分类的声音数据分类方法，其特征在于，包括：

步骤(2)：按帧长L提取所述P通道的声音数据的MFCC特征；

步骤(3)：构建卷积神经网络，通过所述若干段声音样本和P通道的声音数据的MFCC特征来对所述卷积神经网络进行两次训练，得到训练好的卷积神经网络；其中，通过所述L/K个点的P通道声音样本和P通道的声音数据的MFCC特征来训练所述卷积神经网络，在训练时包括第一次MFCC预训练和第二次训练，并且在所述第二次训练之前，将所述第一次MFCC预训练的参数作为第二次训练时的初始化状态；所述第一次MFCC预训练的损失包括预训练损失和分类损失，所述第一次MFCC预训练的损失表示为：

Loss1＝

0*F.nll_loss(output,target,weight＝Variable(torch.Tensor([1.0,2.73,1.63,1.95])))+

F.nll_loss(pred_mfcc,MFCC_data,weight＝Variable(torch.Tensor([1.0,2.73,1.63,1.95])))；

其中，F.nll_loss(output,target,weight＝Variable(torch.Tensor([1.0,2.73,1.63,1.95])))表示分类损失，F.nll_loss(pred_mfcc,MFCC_data,weight＝Variable(torch.Tensor([1.0,2.73,1.63,1.95])))表示预训练损失；

2.根据权利要求1所述的基于特征预训练的深度学习分类的声音数据分类方法，其特征在于，所述步骤(2)具体为：对所述P通道的声音数据进行预处理，再按帧长L同时提取预处理后的P通道的声音数据的MFCC特征；其中，所述预处理包括预加重、分帧和加窗。

3.根据权利要求1所述的基于特征预训练的深度学习分类的声音数据分类方法，其特征在于，所述卷积神经网络采用卷积核为a、步长b的第一卷积，以及卷积核为c、步长为d的第二卷积交替组成M层卷积层，并在每层卷积层后依次连接批标准化BatchNorm1d、激活函数Tanh和最大池化MaxPool1d。

4.根据权利要求1所述的基于特征预训练的深度学习分类的声音数据分类方法，其特征在于，所述第二次训练的损失包括预训练损失和分类损失，所述第二次训练的损失表示为：

Loss2＝

F.nll_loss(output,target,weight＝Variable(torch.Tensor([1.0,2.73,1.63,1.95])))+

0*F.nll_loss(pred_mfcc,MFCC_data,weight＝Variable(torch.Tensor([1.0,2.73,1.63,1.95])))；其中，F.nll_loss(output,target,weight＝Variable(torch.Tensor([1.0,2.73,1.63,1.95])))表示分类损失，F.nll_loss(output,target,weight＝Variable(torch.Tensor([1.0,2.73,1.63,1.95])))表示预训练损失。

5.根据权利要求1所述的基于特征预训练的深度学习分类的声音数据分类方法，其特征在于，所述第二次训练时的卷积神经网络的学习率为所述第一次MFCC预训练的1/10。