CN112700792A

CN112700792A - 音频场景识别分类方法

Info

Publication number: CN112700792A
Application number: CN202011545446.4A
Authority: CN
Inventors: 邓立新; 濮勇; 孙明铭; 徐艳君
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2021-04-23
Anticipated expiration: 2040-12-24
Also published as: CN112700792B

Abstract

本发明公开了一种音频场景识别分类方法，属于音频场景和事件的检测和分类技术领域。该方法通过将测试集数据输入到使用训练集数据训练完成的CNN模型中进行分类并得到分类结果，再对分类结果进行判断，若分类结果是初次分类，则保存为初次识别分类结果，并对训练集数据重新标记后继续进行分类；若分类结果不是初次分类，则保存为二次分类结果，并对二次分类结果进行维度映射，融合初次识别分类结果和二次分类结果得到最终分类结果。本发明的音频场景识别分类方法实现了在不扩大数据集的情况下，充分利用数据，有针对性地提高初次分类效果不好的类别，从而提高整体识别准确率，且该方法能有效减小分类结果的偏差。

Description

音频场景识别分类方法

技术领域

本发明涉及一种音频场景识别分类方法，属于音频场景和事件的检测和分类技术领域。

背景技术

音频场景识别分类是音频场景和事件的检测和分类领域中的一个主要课题，作为一个通用分类问题，为设备、机器人和许多其他应用中的文本感知奠定了基础。通常用于表示的音频特征是Mel频率倒谱系数(MFCC)，它能够在简洁的计算下得到信号的谱结构，并且多次被证明在各种音频分类问题中是正确的，包括语音、说话人识别、歌手和乐器门类分类。其它用于音频场景识别分类的低维度规范特征包括例如过零率、平均能量、谱质心、谱滚降、谱通量和线性预测系数。常用的传统方法包括高斯混合模型(GMM)，隐马尔可夫模型(HMM)和支持向量机(SVM)。目前最流行的是深度学习方法，其中卷积神经网络(CNN)是最通用有效的方法。

近年来，为了提高音频场景识别分类的准确率，使其广泛地适用于市场和各类服务领域，科研人员提出了许多基于CNN的改进识别分类方法，在某些情况下，CNN被用作集成的一部分，与多种技术相结合，如多层感知器(MLP)、递归神经网络(RNN)、支持向量机(SVM)和高斯混合模型(GMM)。CNN作为图像处理的一种形式被用于音频场景识别分类中，其连接模式利用信号的时频信息，因此能够捕获信号的时间和频率的变换信息。多数研究方法使用双声道音频处理，这主要是用来为深度学习训练获取更多数据的一种方法，不同的声道在录制的音频数据中有细微的变化。另一个新元素是使用特定的数据增强技术，大量使用了块混合、基音偏移、时间拉伸、混合同一类文件以及添加高斯噪声，在某些情况下，所有技术都在同一个系统中使用。还有一种新颖而独特的方法是使用生成对抗网络(GAN)对数据集进行扩充，该系统也实现了更高的准确率。以上提高准确率的方法均未对分类结果准确率有针对性的优化，虽然整体的平均准确率良好，但忽视了分类结果不佳的类别，会导致结果的偏差较高。

有鉴于此，确有必要提出一种音频场景识别分类方法，以解决上述问题。

发明内容

本发明的目的在于提供一种音频场景识别分类方法，该方法有针对性地提高初次分类效果不好的类别，从而提高整体识别准确率，且该方法能有效减小分类结果的偏差。

为实现上述目的，本发明提供一种音频场景识别分类方法，用于对不同场景下的音频数据进行分类，所述音频场景识别分类方法包括以下步骤：

步骤1、获取音频数据及音频数据标记，所述音频数据包括训练集数据和测试集数据；

步骤2、对音频数据进行预处理，然后再对音频数据做傅立叶变换并计算通过滤波器的能量，以获取特征数据；

步骤3、定义CNN模型的结构以及CNN模型的训练参数；

步骤4、使用训练集数据对CNN模型进行训练；

步骤5、将测试集数据输入到训练完成的CNN模型中进行分类，得出分类结果；

步骤6、判断分类结果是否为初次分类，若是，则转入步骤7；否则转入步骤9；

步骤7、将分类结果保存为初次识别分类结果并对训练集数据进行重新标记；

步骤8、将重新标记的训练集数据进行重新整理后转入步骤2；

步骤9、将分类结果保存为二次分类结果并对该二次分类结果进行维度映射；

步骤10、融合初次识别分类结果和维度映射后的二次分类结果，得到测试集数据的概率矩阵；

步骤11、在概率矩阵的每一列中选取概率最高的类别作为该列的识别分类类别，统计概率矩阵中所有的识别分类类别，生成最终结果的准确率混淆矩阵，分类结束。

作为本发明的进一步改进，步骤1中的音频数据标记具体为：训练集数据可进行自我标记，测试集数据自身带有正确的标记。

作为本发明的进一步改进，步骤2中的预处理包括预加重、分帧处理和加窗函数，预加重的滤波器设为：H(z)＝1-az^-1，其中，a为一个常数；分帧处理使相邻两帧之间有部分重叠；加窗函数用于将每一帧乘以海宁窗；利用傅立叶变换并计算通过滤波器的能量来获取特征数据的计算公式为：

X(i,k)＝FFT[x_i(m)]；

E(i,k)＝[X(i,k)]²；

其中，x_i(m)为经过预处理后的时域数据，X(i,k)为频域数据，E(i,k)为谱线能量，S(i,m)为通过滤波器的能量，m是指第m个滤波器，M为滤波器的数量，i是指第i帧，MFCC(i,n)为将通过滤波器的能量取对数且计算DCT后的滤波器倒谱图，即特征数据，DCT为离散余弦变换，n是进行DCT计算后的谱线。

作为本发明的进一步改进，步骤3中CNN模型的结构包括输入层、第一批量归一化层、卷积模块、平均池化层、丢弃层、全连接层、softmax层和分类层，所述输入层用于向网络输入元素；所述第一批量归一化层用于对小批量中的每个输入通道进行归一化；所述平均池化层通过将输入的元素划分为矩形池化区域并计算每个区域的平均值来执行采样；所述丢弃层用于以给定的概率将输入的元素随机设置为零；所述全连接层用于将输入的元素乘以权重矩阵并与偏置向量相加；所述softmax层用于对输入的元素应用softmax函数；所述分类层用于计算具有互斥类的多类分类问题的交叉熵损失。

作为本发明的进一步改进，所述卷积模块由卷积块组成，所述卷积块包括卷积层、第二批量归一化层、ReLU层和最大池化层，所述卷积层用于对输入的元素采取滑动卷积过滤器，所述卷积层内设有卷积核，卷积层之间通过神经元连接；所述ReLU层用于对输入的元素执行阈值运算；所述第二批量归一化层用于对小批量中的每个输入通道进行归一化；所述最大池化层通过将输入的元素划分为矩形池化区域并计算每个区域的最大值来执行采样。

作为本发明的进一步改进，步骤3中CNN模型的训练参数包括将卷积核设为3个，每一层所述卷积层对应神经元的核数设为32、2*32、4*32、8*32；丢弃率(dropout)设为0.5；初始学习率设为0.05；小批量(MiniBatchzise)设为128；周期(Epoch)设为8；学习率丢弃周期设为2；学习率丢弃参数设为0.2。

作为本发明的进一步改进，步骤5具体为：在训练后的CNN模型中输入所述测试集数据并将所述测试集数据分类到各类别中，得出测试集数据在各类别中的概率矩阵，在概率矩阵的每一列中选取概率最高的类别作为该列的预测类，统计所有预测类，生成准确率混淆矩阵。

作为本发明的进一步改进，步骤6具体为：若分类结果是初次分类，则保存为概率矩阵A，观察预测类中效果最差的一类，设为a类，寻找误分到a类中数量最多的真实类，设为b类，转入步骤7；若分类结果不是初次分类，则保存为概率矩阵B，转入步骤9。

作为本发明的进一步改进，步骤7中重新标记训练集数据的步骤具体为：将a类保持为a类；将b类保持为b类；剩余类别标记为default类。

作为本发明的进一步改进，步骤9具体为：对概率矩阵B进行维度映射得出概率矩阵f(B)，使所述概率矩阵f(B)的维度与所述概率矩阵A的维度相同，维度映射规则为：a类的概率值保持为a类概率值；b类的概率值保持为b类概率值；剩余类的概率值设为default类概率值。

本发明的有益效果是：本发明的音频场景识别分类方法通过改进特征分类识别效果，对初次识别分类结果中易混淆的种类进行再次分类获得二次分类结果，通过对二次分类结果进行维度映射，融合初次识别分类结果和二次分类结果得到最终结果，实现了在不扩大数据集的情况下，充分利用数据，有针对性地提高初次分类效果不好的类别，从而提高整体识别准确率，且该方法能有效减小分类结果的偏差。

附图说明

图1是本发明音频场景识别分类方法的流程图。

图2是图1中CNN模型的结构示意图。

图3是图1中二次分类结果的维度映射图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

本发明提供了一种音频场景识别分类方法，该方法基于深度学习常用的CNN模型，通过音频数据读取和获取特征数据、定义CNN模型的结构和CNN模型的训练参数以及测试集数据分类结果获取和处理三个部分，针对分类结果中容易混淆的两类进行再分类得到二次分类结果，从而提高音频数据的识别分类准确率。

请参阅图1所示，音频数据读取和获取特征数据包括如下两个步骤：

步骤1、获取音频数据及音频数据标记，所述音频数据包括训练集数据和测试集数据。

其中，训练集数据可进行自我标记，测试集数据自身带有正确的标记。

步骤2、对音频数据进行预处理，然后再对音频数据做傅立叶变换并计算通过滤波器的能量，以获取特征数据。

其中预处理包括预加重、分帧处理和加窗函数，预加重的目的是为了补偿高频分量的损失，提升高频分量，预加重的滤波器设为：H(z)＝1-az^-1，其中a为一个常数；分帧处理是为了使相邻两帧之间的参数能比较平稳地过度，在相邻两帧之间互相有部分重叠；加窗函数的目的是减少频域中的泄漏，将对每一帧的语音乘以海宁窗，音频数据x(n)经预处理后为时域数据x_i(m)，其中下标i表示分帧后的第i帧。

随后对x_i(m)做傅立叶变换并计算通过滤波器的能量来获取音频数据的特征数据，对每一帧进行FFT(傅立叶变换)变换，变换公式为：X(i,k)＝FFT[x_i(m)]，使音频数据从时域数据转变为频域数据；然后对每一帧FFT后的数据计算谱线能量，计算公式为：E(i,k)＝[X(i,k)]²；随后计算通过滤波器的能量，计算公式为：

将通过滤波器的能量去对数后计算DCT进而计算出滤波器倒谱图MFCC(i,n)，即特征数据，计算公式为：

其中，x_i(m)为经预处理后的时域数据，X(i,k)为频域数据，E(i,k)为谱线能量，S(i,m)为通过滤波器的能量，m是指第m个滤波器，M为滤波器的数量，i是指第i帧，DCT为离散余弦变换，n是进行DCT计算后的谱线，本实施例中，滤波器优选为Mel滤波器，但不应以此为限。

请参阅图1～图2所示，定义CNN模型的结构和CNN模型的训练参数部分包括如下两个步骤：

步骤3、定义CNN模型的结构以及CNN模型的训练参数。

CNN模型的结构包括输入层、第一批量归一化层(即图2中的批量归一化层1)、卷积模块、平均池化层、丢弃层、全连接层、softmax层和分类层，输入层向程序网络中输入二维图像；第一批量归一化层(即图2中的批量归一化层1)对小批量中的每个输入通道进行归一化，可以加快卷积神经网络的训练并降低对网络初始化的敏感度；平均池化层通过将输入元素划分为矩形池化区域并计算每个区域的平均值来执行采样；丢弃层以给定的概率将输入元素随机设置为零；全连接层将输入元素乘以权重矩阵，然后与偏置向量相加；softmax层对输入元素应用softmax函数；分类层计算具有互斥类的多类分类问题的交叉熵损失。

其中，卷积模块由卷积块(即图2中的卷积块1、卷积块2、卷积块3和卷积块4)组成，卷积块包括卷积层(即图2中的卷积层1和卷积层2)、第二批量归一化层(即图2中的批量归一化层2和批量归一化层3)、ReLU层(即ReLU层1和ReLU层2)和最大池化层(即图2中的最大池化层1)，卷积层对输入元素采取滑动卷积过滤器，卷积层内设有卷积核，卷积层之间通过神经元连接；ReLU层对输入的每个元素执行阈值运算，其中任何小于零的值都设置为零，第二批量归一化层(即图2中的批量归一化层2和批量归一化层3)对小批量中的每个输入通道进行归一化，最大池化层通过将输入元素划分为矩形池化区域并计算每个区域的最大值来执行采样，其中，卷积块1、卷积块2、卷积块3和卷积块4的功能均相同，卷积层1和卷积层2的功能均相同，ReLU层1和ReLU层2的功能均相同，批量归一化层1、批量归一化层2和批量归一化层3的功能均相同。

CNN模型的训练参数包括将卷积核设为3,每一层卷积层对应神经元核数可设为32、2*32、4*32、8*32；丢弃率(dropout)设为0.5；优化器选择sgdm；初始学习率为0.05；小批量(MiniBatchzise)为128；周期(Epoch)为8；学习率丢弃周期为2；学习率丢弃参数为0.2；其余参数均可设为默认值。

步骤4、使用训练集数据对CNN模型进行训练。

将经过标记的训练集数据输入结构和训练参数均已定义好的CNN模型中，对CNN模型进行训练。

请参阅图1～图3所示，测试集数据分类结果获取和处理部分包括以下步骤：

步骤5、将测试集数据输入到训练完成的CNN模型中进行分类，得出分类结果。

通过训练集数据训练前述CNN模型，在训练后的CNN模型中输入测试集数据并对测试集数据进行分类到各类别中，得到测试集数据分类在各类别中的概率矩阵，选取概率最高的类别作为该条数据的预测类，统计所有的测试集数据，生成准确率混淆矩阵。

步骤6、判断分类结果是否为初次分类，若是，则转入步骤7；否则转入步骤9。

当分类结果是初次分类，则将分类结果保存为概率矩阵A，观察预测类中效果最差的一类，设为a类，寻找误分到a类中数量最多的真实类，设为b类，转入步骤7；当分类结果不是初次分类，则将分类结果保存为概率矩阵B并转入步骤9。

步骤7、将分类结果保存为初次识别分类结果并对训练集数据进行重新标记。

标记规则为：将a类保持为a类；将b类保持为b类；将剩余类别标记为default类。

步骤8、将重新标记的所述训练集数据进行重新整理后转入步骤2。

将带有重新标记的a类、b类和default类训练集数据进行重新整理，作为新的训练集数据重新输入CNN模型训练并获取分类结果。

步骤9、将分类结果保存为二次分类结果并对该二次分类结果进行维度映射。

将二次分类结果的概率矩阵B进行维度映射得出概率矩阵f(B)，使二次分类结果中概率矩阵f(B)的维度与初次识别分类结果中概率矩阵A的维度相同。

维度映射规则为：a类的概率值保持为a类概率值；b类的概率值保持为b类概率值；剩余类的概率值设为default类概率值。

步骤10、融合初次识别分类结果和维度映射后的二次分类结果，得到测试集数据的概率矩阵。

综上所述，本发明提供了一种音频场景识别分类方法，通过使用训练集数据训练好的CNN模型对测试集数据进行分类，得到初次识别分类结果，对初次识别分类结果进行分析，寻找容易混淆的两个分类，保留这两个分类的标签，将剩余各类重新标记为default类，共计三类，将这三类再次送入CNN模型进行分类判断后得到二次分类结果，将得到的二次分类结果映射到与初次识别分类结果相同的维度，融合二次分类结果和初次识别分类结果作为最终判断结果。这种算法的实现，有针对性地提高初次分类效果不好的类别，从而提高整体识别准确率，且该方法能有效减小分类结果的偏差。

以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种音频场景识别分类方法，用于对不同场景下的音频数据进行分类，其特征在于，所述音频场景识别分类方法包括以下步骤：

步骤3、定义CNN模型的结构以及CNN模型的训练参数；

步骤4、使用训练集数据对CNN模型进行训练；

2.根据权利要求1所述的音频场景识别分类方法，其特征在于，步骤1中的音频数据标记具体为：训练集数据可进行自我标记，测试集数据自身带有正确的标记。

3.根据权利要求1所述的音频场景识别分类方法，其特征在于：步骤2中的预处理包括预加重、分帧处理和加窗函数，预加重的滤波器设为：H(z)＝1-az^-1，其中，a为一个常数；分帧处理使相邻两帧之间有部分重叠；加窗函数用于将每一帧乘以海宁窗；利用傅立叶变换并计算通过滤波器的能量来获取特征数据的计算公式为：

X(i,k)＝FFT[x_i(m)]；

E(i,k)＝[X(i,k)]²；

4.根据权利要求1所述的音频场景识别分类方法，其特征在于：步骤3中CNN模型的结构包括输入层、第一批量归一化层、卷积模块、平均池化层、丢弃层、全连接层、softmax层和分类层，所述输入层用于向网络输入元素；所述第一批量归一化层用于对小批量中的每个输入通道进行归一化；所述平均池化层通过将输入的元素划分为矩形池化区域并计算每个区域的平均值来执行采样；所述丢弃层用于以给定的概率将输入的元素随机设置为零；所述全连接层用于将输入的元素乘以权重矩阵并与偏置向量相加；所述softmax层用于对输入的元素应用softmax函数；所述分类层用于计算具有互斥类的多类分类问题的交叉熵损失。

5.根据权利要求4所述的音频场景识别分类方法，其特征在于：所述卷积模块由卷积块组成，所述卷积块包括卷积层、第二批量归一化层、ReLU层和最大池化层，所述卷积层用于对输入的元素采取滑动卷积过滤器，所述卷积层内设有卷积核，卷积层之间通过神经元连接；所述ReLU层用于对输入的元素执行阈值运算；所述第二批量归一化层用于对小批量中的每个输入通道进行归一化；所述最大池化层通过将输入的元素划分为矩形池化区域并计算每个区域的最大值来执行采样。

6.根据权利要求5所述的音频场景识别分类方法，其特征在于：步骤3中CNN模型的训练参数包括将卷积核设为3个，每一层所述卷积层对应神经元的核数设为32、2*32、4*32、8*32；丢弃率设为0.5；初始学习率设为0.05；小批量设为128；周期设为8；学习率丢弃周期设为2；学习率丢弃参数设为0.2。

7.根据权利要求1所述的音频场景识别分类方法，其特征在于，步骤5具体为：在训练后的CNN模型中输入所述测试集数据并将所述测试集数据分类到各类别中，得出测试集数据在各类别中的概率矩阵，在概率矩阵的每一列中选取概率最高的类别作为该列的预测类，统计所有预测类，生成准确率混淆矩阵。

8.根据权利要求7所述的音频场景识别分类方法，其特征在于，步骤6具体为：若分类结果是初次分类，则保存为概率矩阵A，观察预测类中效果最差的一类，设为a类，寻找误分到a类中数量最多的真实类，设为b类，转入步骤7；若分类结果不是初次分类，则保存为概率矩阵B，转入步骤9。

9.根据权利要求8所述的音频场景识别分类方法，其特征在于，步骤7中重新标记训练集数据的步骤具体为：将a类保持为a类；将b类保持为b类；剩余类别标记为default类。

10.根据权利要求9所述的音频场景识别分类方法，其特征在于，步骤9具体为：对概率矩阵B进行维度映射得出概率矩阵f(B)，使所述概率矩阵f(B)的维度与所述概率矩阵A的维度相同，维度映射规则为：a类的概率值保持为a类概率值；b类的概率值保持为b类概率值；剩余类的概率值设为default类概率值。