CN111724810A

CN111724810A - 一种音频分类方法和装置

Info

Publication number: CN111724810A
Application number: CN201910209502.8A
Authority: CN
Inventors: 郝婧; 陈家旭; 孙海鸣; 谢迪; 浦世亮
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2019-03-19
Filing date: 2019-03-19
Publication date: 2020-09-29
Anticipated expiration: 2039-03-19
Also published as: CN111724810B

Abstract

本申请提供一种音频分类方法和装置，该方法包括：将原始音频数据输入预先训练的音频分类网络模型的第一特征提取网络，以得到所述原始音频数据的类频谱特征；将所述类频谱特征转换为二维音频特征输入到所述预先训练的音频分类网络模型的第二特征提取网络，以得到所述原始音频数据的网络深度特征；将所述原始音频数据的网络深度特征输入到所述预先训练的音频分类网络模型的分类网络，以得到所述原始音频数据的分类结果。该方法可以简化音频分类的操作，提高音频分类的效率。

Description

一种音频分类方法和装置

技术领域

本申请涉及深度学习领域技术，尤其涉及一种音频分类方法和装置。

背景技术

音频分类(Audio Classification)是指识别音频数据中是否包含某类音频事件，如狗叫、鸣笛等。

目前的音频分类方案中，需要手动提取音频数据的音频特征，如对数梅尔顿频谱图，并将该手动提取的音频特征作为输入进行音频分类。

实践发现，上述音频分类方案中，无法实现端到端的音频分类，即无法直接以原始音频数据(原始波形信号(Raw Waveform))作为输入实现音频分类，其音频分类操作较为繁琐，实现效率较低。

发明内容

有鉴于此，本申请提供一种音频分类方法和装置。

具体地，本申请是通过如下技术方案实现的：

根据本申请实施例的第一方面，提供一种音频分类方法，包括：

将原始音频数据输入预先训练的音频分类网络模型的第一特征提取网络，以得到所述原始音频数据的类频谱特征；

将所述类频谱特征转换为二维音频特征输入到所述预先训练的音频分类网络模型的第二特征提取网络，以得到所述原始音频数据的网络深度特征；

将所述原始音频数据的网络深度特征输入到所述预先训练的音频分类网络模型的分类网络，以得到所述原始音频数据的分类结果。

根据本申请实施例的第二方面，提供一种音频分类装置，包括：

第一特征提取单元，用于将原始音频数据输入预先训练的音频分类网络模型的第一特征提取网络，以得到所述原始音频数据的类频谱特征；

转换单元，用于将所述类频谱特征转换为二维音频特征；

第二特征提取单元，用于将所述二维音频特征输入到所述预先训练的音频分类网络模型的第二特征提取网络，以得到所述原始音频数据的网络深度特征；

分类单元，用于将所述原始音频数据的网络深度特征输入到所述预先训练的音频分类网络模型的分类网络，以得到所述原始音频数据的分类结果。

附图说明

图1是本申请一示例性实施例示出的一种音频分类方法的流程图；

图2是本申请一示例性实施例示出的一种音频分类网络模型训练方法的流程图；

图3是本申请一示例性实施例示出的一种音频分类网络模型的示意图；

图4是本申请一示例性实施例示出的一种音频分类装置的结构示意图；

图5是本申请又一示例性实施例示出的一种音频分类装置的结构示意图；

图6是本申请一示例性实施例示出的一种电子设备的硬件结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

为了使本领域技术人员更好地理解本申请实施例提供的技术方案，并使本申请实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本申请实施例中技术方案作进一步详细的说明。

请参见图1，为本申请实施例提供的一种音频分类方法的流程示意图，如图1所示，该方法可以包括以下步骤：

步骤S100、将原始音频数据输入预先训练的音频分类网络模型的第一特征提取网络，以得到原始音频数据的类频谱特征。

本申请实施例中，为了简化音频分类的操作，提高音频分类的效率，可以通过一个特征提取与分类一体化的音频分类网络模型，实现端到端的音频分类。

其中，该音频分类网络模型可以包括级联的第一特征提取网络、第二特征提取网络以及分类网络构成的网络组合；其中：

第一特征提取网络以原始音频数据为输入，输出原始音频数据的类似于频谱图的特征(frequency-like特征，本文中称为类频谱特征)；

第二特征提取网络以原始音频数据的类频谱特征转换得到的二维音频特征为输入，输出原始音频数据的网络深度特征；

分类网络以原始音频数据的网络深度特征为输入，输出原始音频数据的分类结果。

相应地，在本申请实施例中，当进行音频分类时，可以将待分类的音频数据(原始音频数据)输入到预先训练的音频分类网络模型，通过该预先训练的音频分类网络模型的第一特征提取网络提取原始音频数据的类频谱特征。

可选地，第一特征提取网络可以为一维卷积神经网络。

例如，第一特征提取网络可以为1D ResNet(Residual Network，残差网络)，如1DResNet-18(18层的1D ResNet)。

步骤S110、将原始音频数据的类频谱特征转换为二维音频特征输入到预先训练的音频分类网络模型的第二特征提取网络，以得到原始音频数据的网络深度特征。

本申请实施例中，得到原始音频数据的类频谱特征之后，可以将该原始音频数据的类频谱特征(一维音频特征)转换为二维音频特征，并输入预先训练的音频分类网络模型的第二特征提取网络，以得到原始音频数据的网络深度特征。

在一个示例中，上述将原始音频数据的类频谱特征转换为二维音频特征可以包括：

对原始音频数据的类频谱特征进行通道转换，以得到二维音频特征。

举例来说，假设步骤S100中提取得到的原始视频数据的类频谱特征大小为C×1×T，其中，C为网络通道数，T为音频片段时间维度的信息，则可以对原始视频数据的类频谱特征进行通道转换，将其转换为1×C×T，即将多个一维特征转换为一个二维特征。

可选地，第二特征提取网络可以为二维卷积神经网络。

例如，第二特征提取网络可以为2D ResNet，如2D ResNet-50(50层的2D ResNet)。

步骤S120、将原始音频数据的网络深度特征输入到预先训练的音频分类网络模型的分类网络，以得到原始音频数据的分类结果。

本申请实施例中，得到原始音频数据的网络深度特征之后，可以将该原始音频数据的网络深度特征输入到预先训练的音频分类网络模型的分类网络，以得到原始音频数据的分类结果。

其中，原始音频数据的分类结果可以包括原始音频数据中是否存在各种不同类型的声音，如狗叫、鸣笛等。

例如，对于各个类型的声音，可以通过对应的概率来指明原始音频数据中是否存在该类型的声音。其中，对于任一类型的声音，分类网络输出的分类结果为该类型的声音对应的概率，当该概率大于预设概率阈值(如0.5)时，确定该原始音频数据中存在该类型的声音；否则，确定该原始音频数据中不存在该类型的声音。

可见，在图1所示方法流程中，通过构建并训练特征提取与分类一体化的音频分类网络模型，通过该音频分类网络直接得到原始音频数据的分类结果，简化了音频分类的操作，提高了音频分类的效率。

在本申请其中一个实施例中，上述第二特征提取网络为包含多尺度预测模型的2DResNet-50，上述原始音频数据的网络深度特征包括多个时间尺度的网络深度特征；

上述将原始音频数据的网络深度特征输入到预先训练的音频分类网络模型的分类网络，以得到原始音频数据的分类结果，可以包括：

将该多个时间尺度的网络深度特征分别输入到分类网络中对应的全连接层，以分别得到各时间尺度的分类结果；

根据各时间尺度的分类结果确定原始音频数据的分类结果。

在该实施例中，考虑到一个音频数据中可以包括一种或多种类型的声音(可以称为一个或多个标签，一种类型的声音对应一个标签)，不同时间尺度对应输出的特征所表达的类别信息各有侧重，因此，融合多个时间尺度的框架能够有效地结合多个特征的长处进而提升网络的性能。

相应地，在该实施例中，可以以包含多尺度预测模型(Multi-level Predictionmodel)的2D ResNet-50作为第二特征提取网络，在得到原始音频数据的类频谱特征之后，可以将该类频谱特征转换为二维音频特征后，输入该包含多尺度预测模型的2D ResNet-50，以得到多个时间尺度的网络深度特征。

其中，对于每一个时间尺度的网络深度特征，分类网络中可以部署一个对应的全连接层(Dense)。

相应地，对于第二特征提取网络提取的多个时间尺度的网络深度特征，可以分别通过对应的全连接层得到各时间尺度的分类结果。

其中，对于任一时间尺度，该时间尺度的分类结果可以为一个一维向量，该一维向量中元素的数量为分类网络支持的类型的数量，各元素的值为该类型的概率。

举例来说，假设分类网络支持n个类型(如狗叫、鸣笛、人声等)，则每一个时间尺度的分类结果可以为(P1，P2…Pn)，其中，Pi为第i个类型的概率(即原始音频数据中存在该类型的声音的概率)。

在该实施例中，得到多个时间尺度的分类结果之后，可以根据该多个时间尺度的分类结果确定原始音频数据的分类结果。

例如，对于任一类型，可以将各时间尺度下该类型的概率的平均值作为该类型的概率的最终值。

请参见图2，在本申请其中一个实施例中，级联的上述第一特征提取网络、第二特征提取网络以及分类网络通过以下方式进行训练得到：

步骤S100a、对于训练集中的任一训练样本，将其输入第一特征提取网络，以得到该训练样本的类频谱特征。

本申请实施例中，在通过级联的上述第一特征提取网络、第二特征提取网络以及分类网络进行音频分类之前，需要使用包括一定数量(可以根据实际场景设定)的训练样本的训练集对上述第一特征提取网络、第二特征提取网络以及分类网络进行训练，直至网络收敛，再进行音频分类任务。

相应地，在该实施例中，对于训练集中的任一训练样本，可以利用第一特征提取网络提取该训练样本的类频谱特征。

其中，训练样本可以为标注有单个标签或多个标签的音频数据。

步骤100b、将该训练样本的类频谱特征转换为二维音频特征输入到第二特征提取网络，以得到该训练样本的网络深度特征。

在该实施例中，在提取到训练样本的类频谱特征之后，可以将该训练样本的类频谱特征转换为二维音频特征，并输入到第二特征提取网络，以得到该训练样本的网络深度特征。

步骤100c、将该训练样本的网络深度特征输入分类网络，以得到该训练样本的分类结果。

在该实施例中，在提取到该训练样本的网络深度特征之后，可以将该训练样本的网络深度特征输入分类网络，进行音频分类，以得到该训练样本的分类结果。

进一步地，在该实施例中，为了提高级联的上述第一特征提取网络、第二特征提取网络以及分类网络的分类精度，上述步骤S100c之后，还可以包括：

根据音频分类网络模型的分类准确率，对级联的第一特征提取网络、第二特征提取网络以及分类网络的网络组合进行参数优化，直至音频分类网络模型的分类准确率满足预设条件。在该实施例中，利用训练集中的训练样本对音频分类网络模型进行训练至网络收敛后，可以通过测试集对训练好的音频分类网络模型进行测试，以确定音频分类网络模型的分类准确率是否满足预设条件；若是，则结束音频分类网络模型训练，并使用训练好的音频分类网络模型执行分类任务；否则，对级联的第一特征提取网络、第二特征提取网络以及分类网络的组合进行参数优化调整，并再次进行训练，直至音频分类网络模型的分类准确率满足预设条件。

其中，对于测试集中的任一测试样本，当通过级联的上述第一特征提取网络、第二特征提取网络以及分类网络的网络组合进行音频分类的分类结果与预先标注的测试样本的标签匹配时，确定该测试样本的音频分类正确；否则，确定该测试样本的音频分类不正确。

举例来说，假设测试集中包括100个测试样本，各测试样本均标注有3个标签(标签共有10类)，则可以分别通过训练好的音频分类网络模型对各测试样本进行分类，并分别统计各类别标签的分类准确率，进而，将该10类标签的分类准确率的平均值确定为该音频分类网络模型的分类准确率。

例如，类别1的标签的准确率为r1(即标注有类别1的标签，且识别出存在类别1的标签的测试样本的数量与标注有类别1的标签的比值)、类别2的标签的准确率为r2…类别10的标签的准确率为r10，则音频分类网络模型的分类准确率为(r1+r2+…+r10)/10。

其中，在音频分类网络模型的训练过程中，可以利用交叉熵loss函数(tf.nn.sigmoid_cross_entropy_with_logits函数)确定训练集的音频分类的损耗，通过反向传播算法，进行音频分类网络模型的训练。

在该实施例中，当训练后的音频分类网络模型的分类准确率满足要求时，可以将上述第一特征提取网络、第二特征提取网络以及分类网络用于音频分类任务。

例如，当音频分类网络模型的分类准确率大于预设准确率阈值时，可以将上述第一特征提取网络、第二特征提取网络以及分类网络用于音频分类任务。

在一个示例中，上述对级联的第一特征提取网络、第二特征提取网络以及分类网络的网络组合进行参数优化，可以包括：

对第一特征提取网络、第二特征提取网络和/或分类网络的模型参数进行优化。

为了使本领域技术人员更好地理解本发明实施例提供的技术方案，下面结合具体实例对本申请实施例提供的技术方案进行说明。

请参见图3，为本申请实施例提供的一种音频分类网络模型的示意图，如图3所示，在该实施例中，以第一特征提取网络为1D ResNet-18，第二特征提取网络为包含多尺度预测模型的2D ResNet-50(下文中称为2D ResNet-50)为例。

其中，考虑到同一时间尺度上不同时刻点对于判断该段音频数据包含某类型声音的概率大小并不相同，因此，为了刻画某时刻点的特征属于某类型的概率，可以在2DResNet-50中引入Attention(注意力)结构来进一步提升网络的分类性能。

在该实施例中，假设输入的原始音频数据为音频长度为10s，采样率为16k的波形信号，其尺寸为1×160000，其音频分类过程可以包括：

1、类频谱特征提取：通过1D ResNet-18提取该原始音频数据的类频谱特征，其尺寸为C×1×T；其中，C为网络通道数，T为音频片段时间维度的信息；

2、通道转换：将C×1×T的类频谱特征转换为1×C×T，即将多个一维音频特征转换为一个二维音频特征；

3、网络深度特征提取：将二维音频特征输入到2D ResNet-50中，分别通过Block(卷积模块)_2、Block_3、Block_4提取该二维音频特征的3个时间尺度的网络深度特征，并将各时间尺度的网络深度特征通过Attention结构处理后，输入到对应的Dense；

4、音频分类：通过分类网络的Dense分别得到各时间尺度的网络深度特征对应的分类结果，并将各时间尺度的分类结果确定最终的分类结果。

在该实施例中，假设Block_2输出的网络深度特征经过Attention结构处理后，通过对应的Dense分类后得到的分类结果为(P11，P12…P1n)；Block_3输出的网络深度特征经过Attention结构处理后，通过对应的Dense分类后得到的分类结果为(P21，P22…P2n)；Block_4输出的网络深度特征经过Attention结构处理后，通过对应的Dense分类后得到的分类结果为(P31，P32…P3n)，则最终的分类结果可以为(P1，P2…Pn)；其中，P1＝(P11+P21+P31)/3，P2＝(P12+P22+P32)/3…Pn＝(P1n+P2n+P3n)/3。

在该实施例中，对于任一类型的声音，当其对应的概率超过预设阈值(以0.5为例)，则确定原始音频数据中存在该类型的声音；否则，确定不存在该类型的声音。

例如，若Pi＞0.5，则确定原始音频数据中存在类型i的声音；若Pi≤0.5，则确定原始音频数据中不存在类型i的声音。

可见，在该实施例中，通过构建并训练特征提取与分类一体化的音频分类网络模型，通过该音频分类网络直接得到原始音频数据的分类结果，简化了音频分类的操作，提高了音频分类的效率。

此外，在该实施例中，通过构建包含多尺度预测模型的2D ResNet-50框架，并在2DResNet-50架构中引入Attention结构，提高了音频分类网络的分类性能，提高了音频分类的准确性。

本申请实施例中，通过将原始音频数据输入预先训练的音频分类网络模型的第一特征提取网络，以得到原始音频数据的类频谱特征，并将该类频谱特征转换为二维音频特征输入到预先训练的音频分类网络模型的第二特征提取网络，以得到原始音频数据的网络深度特征，进而，将原始音频数据的网络深度特征输入到预先训练的音频分类网络模型的分类网络，以得到原始音频数据的分类结果，实现了端到端的音频分类，简化了音频分类的操作，提高了音频分类的效率。

以上对本申请提供的方法进行了描述。下面对本申请提供的装置进行描述：

请参见图4，为本申请实施例提供的一种音频分类装置的结构示意图，如图4所示，该音频分类装置可以包括：

第一特征提取单元410，用于将原始音频数据输入预先训练的音频分类网络模型的第一特征提取网络，以得到所述原始音频数据的类频谱特征；

转换单元420，用于将所述类频谱特征转换为二维音频特征；

第二特征提取单元430，用于将所述二维音频特征输入到所述预先训练的音频分类网络模型的第二特征提取网络，以得到所述原始音频数据的网络深度特征；

分类单元440，用于将所述原始音频数据的网络深度特征输入到所述预先训练的音频分类网络模型的分类网络，以得到所述原始音频数据的分类结果。

在一种可选的实施方式中，所述第一特征提取单元410，还用于对于训练集中的任一训练样本，将其输入所述第一特征提取网络，以得到该训练样本的类频谱特征；

所述转换单元420，还用于将该训练样本的类频谱特征转换为二维音频特征；

所述第二特征提取单元430，还用于将该二维音频特征输入到所述第二特征提取网络，以得到该训练样本的网络深度特征；

所述分类单元440，还用于将该训练样本的网络深度特征输入所述分类网络，以得到该训练样本的分类结果。

在一种可选的实施方式中，如图5所示，所述装置还包括：

参数优化单元450，用于根据所述音频分类网络模型的分类准确率，对级联的所述第一特征提取网络、所述第二特征提取网络以及所述分类网络的网络组合进行参数优化，直至所述音频分类网络模型的分类准确率满足预设条件。

在一种可选的实施方式中，所述参数优化单元450，具体用于对所述第一特征提取网络、所述第二特征提取网络和/或所述分类网络的模型参数进行优化。

在一种可选的实施方式中，所述音频分类网络模型的分类准确率满足预设条件，包括：

所述音频分类网络模型的分类准确率大于预设准确率阈值。

在一种可选的实施方式中，所述转换单元420，具体用于对所述类频谱特征进行通道转换，以得到二维音频特征。

在一种可选的实施方式中，所述第二特征提取网络为包含多尺度预测模型的2DResNet-50，所述原始音频数据的网络深度特征包括多个时间尺度的网络深度特征；

所述分类单元440，具体用于将所述多个时间尺度的网络深度特征分别输入到所述分类网络中对应的全连接层，以分别得到各时间尺度的分类结果；根据各时间尺度的分类结果确定所述原始音频数据的分类结果。

请参见图6，为本申请实施例提供的一种电子设备的硬件结构示意图。该电子设备可以包括处理器601、通信接口602、存储器603和通信总线604。处理器601、通信接口602以及存储器603通过通信总线604完成相互间的通信。其中，存储器603上存放有计算机程序；处理器601可以通过执行存储器603上所存放的程序，执行上文描述的音频分类方法。

本文中提到的存储器603可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，存储器602可以是：RAM(Radom AccessMemory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。

本申请实施例还提供了一种存储有计算机程序的机器可读存储介质，例如图6中的存储器603，所述计算机程序可由图6所示电子设备中的处理器601执行以实现上文描述的音频分类方法。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种音频分类方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，级联的所述第一特征提取网络、所述第二特征提取网络以及所述分类网络通过以下方式训练得到：

对于训练集中的任一训练样本，将其输入所述第一特征提取网络，以得到该训练样本的类频谱特征；

将该训练样本的类频谱特征转换为二维音频特征输入到所述第二特征提取网络，以得到该训练样本的网络深度特征；

将该训练样本的网络深度特征输入所述分类网络，以得到该训练样本的分类结果。

3.根据权利要求2所述的方法，其特征在于，所述将该训练样本的网络深度特征输入所述分类网络之后，还包括：

根据所述音频分类网络模型的分类准确率，对级联的所述第一特征提取网络、所述第二特征提取网络以及所述分类网络的网络组合进行参数优化，直至所述音频分类网络模型的分类准确率满足预设条件。

4.根据权利要求3所述的方法，其特征在于，所述对级联的所述第一特征提取网络、所述第二特征提取网络以及所述分类网络的网络组合进行参数优化，包括：

对所述第一特征提取网络、所述第二特征提取网络和/或所述分类网络的模型参数进行优化。

5.根据权利要求3所述的方法，其特征在于，所述音频分类网络模型的分类准确率满足预设条件，包括：

所述音频分类网络模型的分类准确率大于预设准确率阈值。

6.根据权利要求1所述的方法，其特征在于，所述将所述类频谱特征转换为二维音频特征，包括：

对所述类频谱特征进行通道转换，以得到二维音频特征。

7.根据权利要求1所述的方法，其特征在于，所述第二特征提取网络为包含多尺度预测模型的2D ResNet-50，所述原始音频数据的网络深度特征包括多个时间尺度的网络深度特征；

所述将原始音频数据的网络深度特征输入到预先训练的音频分类网络模型的分类网络，以得到原始音频数据的分类结果，包括：

将所述多个时间尺度的网络深度特征分别输入到所述分类网络中对应的全连接层，以分别得到各时间尺度的分类结果；

根据各时间尺度的分类结果确定所述原始音频数据的分类结果。

8.一种音频分类装置，其特征在于，包括：

转换单元，用于将所述类频谱特征转换为二维音频特征；

9.根据权利要求8所述的装置，其特征在于，

所述第一特征提取单元，还用于对于训练集中的任一训练样本，将其输入所述第一特征提取网络，以得到该训练样本的类频谱特征；

所述转换单元，还用于将该训练样本的类频谱特征转换为二维音频特征；

所述第二特征提取单元，还用于将该二维音频特征输入到所述第二特征提取网络，以得到该训练样本的网络深度特征；

所述分类单元，还用于将该训练样本的网络深度特征输入所述分类网络，以得到该训练样本的分类结果。

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：

参数优化单元，用于根据所述音频分类网络模型的分类准确率，对级联的所述第一特征提取网络、所述第二特征提取网络以及所述分类网络的网络组合进行参数优化，直至所述音频分类网络模型的分类准确率满足预设条件。

11.根据权利要求10所述的装置，其特征在于，

所述参数优化单元，具体用于对所述第一特征提取网络、所述第二特征提取网络和/或所述分类网络的模型参数进行优化。

12.根据权利要求10所述的装置，其特征在于，所述音频分类网络模型的分类准确率满足预设条件，包括：

所述音频分类网络模型的分类准确率大于预设准确率阈值。

13.根据权利要求8所述的装置，其特征在于，

所述转换单元，具体用于对所述类频谱特征进行通道转换，以得到二维音频特征。

14.根据权利要求8所述的装置，其特征在于，所述第二特征提取网络为包含多尺度预测模型的2D ResNet-50，所述原始音频数据的网络深度特征包括多个时间尺度的网络深度特征；

所述分类单元，具体用于将所述多个时间尺度的网络深度特征分别输入到所述分类网络中对应的全连接层，以分别得到各时间尺度的分类结果；根据各时间尺度的分类结果确定所述原始音频数据的分类结果。