CN110866143A

CN110866143A - 一种音频场景分类方法及系统

Info

Publication number: CN110866143A
Application number: CN201911089023.3A
Authority: CN
Inventors: 冷严; 林婵; 赵玮玮; 齐广慧; 王荣燕; 李登旺
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2019-11-08
Filing date: 2019-11-08
Publication date: 2020-03-06
Anticipated expiration: 2039-11-08
Also published as: CN110866143B

Abstract

本公开提出了一种音频场景分类方法及系统，对音频文档内每个音频片段基于稀疏编码求取分类信息，并用校准CNN模型对分类信息进行校准，获得校准分类信息；通过分类CNN模型获得预分类信息；然后将两种分类信息通过融合得到融合分类信息；对音频文档内所有音频片段的融合分类信息统计分析，获得分类结果。本公开采用神经网络对稀疏编码的分类信息进行校准，校准后的分类信息更加准确，有利于改善CNN网络的分类结果；本公开通过稀疏编码辅助改善CNN网络的分类结果，在训练数据量相对较少的情况下仍然能得到良好的分类性能，减少CNN网络对训练数据量的依赖性。

Description

一种音频场景分类方法及系统

技术领域

本公开涉及音频分类相关技术领域，具体的说，是涉及一种音频场景分类方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，并不必然构成在先技术。

音频场景分类是指通过音频感知周围的环境，具体的讲是指对于一个音频文档，识别出该文档所发生的环境。可广泛用于智能家居工程、老年人辅助和安全监控等。音频信息相对于视觉信息来说具有采集成本低、不易受光照和遮挡的影响等独特优势，因而近几年得到广泛的关注和研究。

随着深度学习技术的快速发展，近几年越来越多的研究采用卷积神经网络(Convolutional Neural Networks,CNN)进行音频场景分类研究。卷积神经网络的参数众多，因而需要大量的训练样本进行训练才能得到良好的分类识别能力，当训练样本相对较少时，卷积神经网络的参数训练不够充分，会影响其分类识别能力。

为了解决在训练样本相对较少的情况下提升卷积神经网络的分类识别能力问题，目前已经提出了很多数据扩充方法，比如音高偏移法、添加左右声道信息法、动态范围压缩法等等。数据扩充方法是在原有训练数据的基础上构造新的数据以扩充训练集，发明人发现，数据扩充方法存在以下问题：

1)有的数据扩充方法对某些训练数据集不适用，适用范围小，比如，添加左右声道信息法对于单声道的训练数据集不适用。

2)有的数据扩充方法在不同的数据集上具有不稳定性，在某些数据集上新生成的数据能很好地帮助提高网络的分类性能，但是在其它的数据集上，新生成的数据对分类性能的提高不大，甚至有的反而会引起分类性能的下降。

发明内容

本公开为了解决上述问题，提出了一种音频场景分类方法及系统，对于音频文档中的每个音频片段，基于稀疏编码求取分类信息，并用校准CNN网络对分类信息进行校准，获得校准分类信息；通过分类CNN网络获得预分类信息；然后将两种分类信息通过融合得到每个音频片段的最终分类信息；对音频文档内所有音频片段的融合分类信息求平均，取平均分类信息向量中最大值所代表的音频场景类作为测试音频文档的分类结果。不同于数据扩充方法，本公开不是通过生成新数据扩充训练集的方法提高CNN的分类性能，而是在用CNN进行分类的同时，采用稀疏编码进行分类，并将两者的分类信息进行融合，利用稀疏编码的分类信息辅助改善CNN网络的分类结果。

为了实现上述目的，本公开采用如下技术方案：

本公开的第一方面，提供了一种音频场景分类方法,包括如下步骤:

构建模型：根据训练音频数据,建立分类CNN网络模型；根据将训练音频数据采用稀疏编码方法得到的基于稀疏编码的分类信息，建立校准CNN网络模型；

测试分类：将待测试音频数据输入至所述分类CNN网络模型，得到预分类信息；将待测试音频数据采用稀疏编码方法得到的基于稀疏编码的分类信息输入至所述校准CNN网络模型，得到校准分类信息；

将预分类信息与校准分类信息进行融合，获得音频场景分类结果。

本公开的第二方面，提供了一种音频场景分类系统,其特征是，包括:

模型构建模块：被配置为根据训练音频数据,建立分类CNN网络模型；根据将训练音频数据采用稀疏编码方法得到的基于稀疏编码的分类信息，建立校准CNN网络模型；

测试分类模块：被配置为将待测试音频数据输入至所述分类CNN网络模型，得到预分类信息；将待测试音频数据采用稀疏编码方法得到的基于稀疏编码的分类信息输入至所述校准CNN网络模型，得到校准分类信息；

融合模块：被配置为将预分类信息与校准分类信息进行融合，获得音频场景分类结果。

本公开的第三方面，提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成上述方法所述的步骤。

本公开的第四方面，提供了一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成上述方法所述的步骤。

与现有技术相比，本公开的有益效果为：

(1)本公开设计的音频场景分类方法通过信息融合的方法改善CNN网络的分类结果，与众多数据扩充法相比，能普遍适用于不同数据集；

(2)本公开设计的音频场景分类方法利用稀疏编码方法提取分类信息，并用其辅助改善CNN网络的分类结果，由于稀疏编码方法在训练数据量相对较少的情况下仍然能得到良好的分类性能，因而必将能在训练数据量相对较少的情况下有效地改善CNN网络的分类结果，减少CNN网络对训练数据量的依赖性。

(3)本公开在用稀疏编码方法提取分类信息时，创新性地提出采用卷积神经网络对稀疏编码的分类信息进行校准，校准后的分类信息更加准确，更有利于辅助改善CNN网络的分类结果。这种采用神经网络进行分类信息校准的方法并不局限于稀疏编码，可以拓展应用到任何其它能提取分类信息的分类模型，以得到更加精确的分类信息。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的限定。

图1是本公开实施例的音频场景分类方法的流程图；

图2是本公开实施例的基于稀疏编码得到分类信息的流程图。

具体实施方式：

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。需要说明的是，在不冲突的情况下，本公开中的各个实施例及实施例中的特征可以相互组合。下面将结合附图对实施例进行详细描述。

在一个或多个实施方式中公开的技术方案中，如图1所示，一种音频场景分类方法,包括如下步骤:

步骤1、构建模型：根据训练音频数据,建立分类CNN网络模型；根据将训练音频数据采用稀疏编码方法得到的基于稀疏编码的分类信息，建立校准CNN网络模型；

步骤2、测试分类：将待测试音频数据输入至所述分类CNN网络模型，得到预分类信息；将待测试音频数据采用稀疏编码方法得到的基于稀疏编码的分类信息输入至所述校准CNN网络模型，得到校准分类信息；

步骤3、将预分类信息与校准分类信息进行融合，获得音频场景分类结果。

步骤1是模型的构建步骤，通过卷积神经网络(简称为CNN)分别构建分类模型和校准模型，训练过程如下。

根据训练音频数据,建立分类CNN网络模型，包括：

步骤11、将训练音频数据进行预处理，获得预处理后的数据，具体的：

1)将音频数据分割得到音频片段，相邻片段之间设置有设定比例的覆盖率；

可以将音频文档分割成设定时长的音频片段，如可以设置为一系列1秒长音频片段，相邻片段之间可以设置为有50％的覆盖率，以保证音频片段之间的信息连贯性。

2)对音频片段进行特征提取，获得音频片段的频谱特征数据，即为预处理后的数据；

可以对每个音频片段进行分帧，提取每个帧数据的频谱特征；如可以按照帧长40毫秒，帧移20毫秒对每个音频片段进行分帧；可以对每个帧提取40维的log-mel频谱特征。

步骤12、训练分类CNN网络模型

搭建CNN网络结构，将训练音频数据预处理后得到的音频片段的频谱特征数据作为输入，以音频片段的真实类标签作为监督输出，对CNN网络进行训练，获得分类CNN网络模型；

本实施例中，分类CNN网络的网络结构可以根据需要自行搭建。以训练集中音频片段内各帧的log-mel频谱特征组成的频谱矩阵作为分类CNN网络的输入，以音频片段的one-hot形式的真实类标签作为监督输出，对分类CNN网络进行训练。

分类CNN网络的输出端将输出音频片段的分类信息，此分类信息是维度等于音频场景类别数C的向量，表示音频片段属于各个不同场景类的概率分布。

上面是对分类CNN网络模型的训练过程，下面对校准CNN网络模型的训练过程进行说明。

步骤1中，根据将训练音频数据采用稀疏编码方法得到的基于稀疏编码的分类信息，建立校准CNN网络模型的方法，包括：

步骤101、将训练音频数据进行预处理，获得预处理后的数据，此步骤与步骤11的方法可以相同，此处不再赘述。

步骤102、将预处理后的数据采用稀疏编码方法提取分类信息，如图2所示，方法步骤包括：S1训练得到稀疏编码的基；S2根据稀疏编码的基，采用正交匹配追踪法求得音频片段内各帧的稀疏系数；S3根据音频片段内各帧的稀疏系数，建立音频片段的稀疏系数矩阵，此稀疏系数矩阵即为基于稀疏编码的音频片段的分类信息。

S1、训练得到稀疏编码的基，具体为：根据训练音频数据，采用稀疏编码的字典学习方法训练得到稀疏编码的音频字典，根据音频字典构建稀疏编码的基向量矩阵，即为稀疏编码的基。

假设训练集中共有C个声学场景类，对于每个类，利用训练集中类内的所有音频帧，通过稀疏编码的字典学习方法学习得到音频字典，第i个音频场景类的音频字典可以表示为：

其中，d_i,1表示字典D_i中的第1个基向量，

表示字典D_i中的第n_i个基向量,n_i表示字典D_i中基向量的个数。

将所有音频场景类的音频字典连接起来，组成整个稀疏编码的基向量矩阵如下：

其中，d_1,1表示字典D₁的第1个基向量，

表示字典D₁的第n₁个基向量，n₁表示字典D₁中基向量的个数，d_C,1表示字典D_C的第1个基向量，

表示字典D_C的第n_C个基向量，n_C表示字典D_C中基向量的个数。

S2根据稀疏编码的基，采用正交匹配追踪法求得音频片段内各帧的稀疏系数，具体为：根据稀疏编码的基向量矩阵D，通过正交匹配追踪法求得每个音频片段内各帧的稀疏系数；将各帧的稀疏系数转化为正数。

以某个帧为例，该帧数据的稀疏系数向量可以表示为：

其中，s_i,j表示对应字典D_i的第j个基向量的稀疏系数，n_i表示字典D_i中基向量的个数，s_1,1表示对应字典D₁的第1个基向量的稀疏系数，

表示对应字典D₁的第n₁个基向量的稀疏系数，s_C,1表示对应字典D_C的第1个基向量的稀疏系数，

表示对应字典D_C的第n_C个基向量的稀疏系数，T表示转置。

由于s_i,j的值可能为正值，也可能为负值，将其通过下式转换为正值，转换后的值记为ss_i,j:

转换后的稀疏系数向量重新记为

S3根据音频片段内各帧的稀疏系数，建立音频片段的稀疏系数矩阵，具体可以为：将音频片段内每一帧对应每个音频字典的稀疏系数求和；将求和后的系数进行归一化处理，获得音频片段内每一帧的归一化后的稀疏系数向量，音频片段内所有帧的归一化稀疏系数向量组成稀疏系数矩阵，即为基于稀疏编码的音频片段的分类信息。

对音频片段内的每个帧，将其对应字典D_i(i＝1,…,C)的所有稀疏系数进行相加求和,求和后的稀疏系数向量重新记为：

s＝[s₁,s₂,...,s_C]^T

其中，

(i＝1,…,C)。j为字典D_i的第j个基向量，n_i表示字典D_i中基向量的个数；ss_i,j是将s_i,j转换为正数后的数值，s_i,j表示对应字典D_i的第j个基向量的稀疏系数。

将s_i(i＝1,…,C)通过下式进行归一化：

归一化后的稀疏系数向量重新记为s＝[σ(s₁),σ(s₂),...σ,(s_C)]^T，此时，稀疏系数向量s中的所有元素之和为1。音频片段内所有帧的归一化后的稀疏系数向量所组成的稀疏系数矩阵，即为基于稀疏编码的音频片段的分类信息。

103、训练校准CNN网络模型

搭建CNN网络结构，将采用稀疏编码方法获得的音频片段的分类信息作为输入，以音频片段的真实类标签作为监督输出，对CNN网络进行训练，获得校准CNN网络模型。

本实施例中，校准CNN网络的网络结构可以根据需要自行搭建。以训练集中音频片段的稀疏系数矩阵所代表的分类信息作为校准CNN网络的输入，以音频片段的one-hot形式的真实类标签作为监督输出，对校准CNN网络进行训练。训练好的校准CNN网络模型将会在输出端输出音频片段的校准后的分类信息。所述分类信息是维度等于音频场景类别数C的向量，表示音频片段属于各个不同场景类的概率分布。

步骤2是根据获得的模型进行测试的过程，采用训练好的分类CNN网络模型和校准CNN网络模型分别测试，输出分类信息，说明如下。

步骤2中，将待测试音频数据输入至所述分类CNN网络模型，得到预分类信息，包括：

步骤21、将待测试音频数据进行预处理，获得音频片段的频谱特征数据。

步骤22、将音频片段的频谱特征数据输入至分类CNN网络模型，得到预分类信息；

将待测试音频数据预处理的方法与对训练音频数据进行预处理方法相同，与步骤11相同。

首先将音频文档分割得到音频片段，相邻片段之间设置有设定比例的覆盖率；可以将音频文档分割成设定时长的音频片段，如可以设置为一系列1秒长音频片段，相邻片段之间可以设置为有50％的覆盖率，以保证音频片段之间的信息连贯性。

其次，对音频片段进行特征提取，获得音频片段的频谱特征数据，即为预处理后的数据；可以对每个音频片段进行分帧，提取每个帧数据的频谱特征；如可以按照帧长40毫秒，帧移20毫秒对每个音频片段进行分帧；可以对每个帧提取40维的log-mel频谱特征。

步骤2中，将待测试音频数据采用稀疏编码方法得到的基于稀疏编码的分类信息输入至所述校准CNN网络模型，得到校准分类信息，包括：

步骤2-1，将待测试音频数据进行预处理，获得音频片段的频谱特征数据；

步骤2-2、将预处理后的数据采用稀疏编码方法提取分类信息，具体的包括：利用步骤102中训练得到的稀疏编码的基，通过正交匹配追踪法求得测试音频文档中每个音频片段内各帧的稀疏系数；将音频片段内各帧的稀疏系数经过处理以后组成音频片段的稀疏系数矩阵，即为基于稀疏编码的音频片段的分类信息，具体求取过程与步骤102中的步骤S2和S3方法相同。

步骤3中，将预分类信息与校准分类信息进行融合，获得音频场景分类结果，包括如下步骤：

31、针对待测试音频数据中的各个音频片段，根据预分类信息与校准分类信息融合，获得针对各个音频片段的属于不同场景类的概率分布；

32、根据所有音频片段的属于不同场景类的概率分布，统计待测试音频数据属于不同场景类的概率；

33、对于待测试音频数据，取概率值最大的场景类别作为待测试音频数据所属的场景类别。

步骤31中，对于测试音频文档中的各个音频片段，将其通过校准CNN网络得到的校准后的分类信息和通过分类CNN网络得到的分类信息进行融合，融合采用向量元素相乘的方法，融合后得到单个音频片段的属于不同场景类的概率分布。假设某一音频片段的校准后的分类信息为[y₁,y₂,…,y_C]^T,其通过分类CNN网络得到的分类信息为[Y₁,Y₂,…,Y_C]^T,则两者的融合可通过下式实现：

其中，y_i(i＝1,…,C)表示校准后音频片段在第i类音频场景上的概率值，Y_i(i＝1,…,C)表示经过分类CNN网络得到的音频片段在第i类音频场景上的概率值，T表示转置。

步骤32中，根据所有音频片段的属于不同场景类的概率分布，统计待测试音频数据属于不同场景类的概率的方法，具体为：针对所有场景类，将待测试音频数据内所有音频片段属于同一场景类的概率取平均，将此平均值作为待测试音频数据属于该场景类的概率，获得待测试音频数据属于所有不同场景类的概率。

步骤33中，对于待测试音频数据，取概率值最大的场景类别作为待测试音频数据所属的场景类别，具体为：假设某一待测试音频数据的平均分类信息为[ave(y₁Y₁),ave(y₂Y₂),…,ave(y_CY_C)]^T，其中ave()表示对音频数据内的所有音频片段的融合分类信息取平均，则此测试音频数据的分类结果为：

i＝argmax{ave(y_iY_i)，i＝1，...，C}

其中，y_i表示校准后音频片段在第i类音频场景上的概率值，Y_i表示经过分类CNN网络得到的音频片段在第i类音频场景上的概率值。

实施例2

本实施例提供一种音频场景分类系统,包括:

实施例3

本实施例提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1的方法所述的步骤。

实施例4

本实施例提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1的方法所述的步骤。

本领域内的技术人员应明白，本公开所提出的电子设备可以是移动终端以及非移动终端，非移动终端包括台式计算机，移动终端包括智能手机(Smart Phone，如Android手机、IOS手机等)、智能眼镜、智能手表、智能手环、平板电脑、笔记本电脑、个人数字助理等可以进行无线通信的移动互联网设备。

应理解，在本公开中，该处理器可以是中央处理单元CPU，该处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本公开所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其他的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能的划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外一点，所显示或讨论的相互之间的耦合或者直接耦合或者通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种音频场景分类方法,其特征是，包括如下步骤:

2.如权利要求1所述的一种音频场景分类方法，其特征是：采用稀疏编码方法得到训练音频数据或者待测试音频数据基于稀疏编码的分类信息，方法包括：

S1训练得到稀疏编码的基：根据训练音频数据，采用稀疏编码的字典学习方法训练得到稀疏编码的音频字典，根据音频字典构建稀疏编码的基向量矩阵，即为稀疏编码的基；

S2根据稀疏编码的基，采用正交匹配追踪法求得音频片段内各帧的稀疏系数；

S3根据音频片段内各帧的稀疏系数，建立音频片段的稀疏系数矩阵，此稀疏系数矩阵即为基于稀疏编码的音频片段的分类信息；

当对训练音频数据采用稀疏编码方法得到基于稀疏编码的分类信息时，所述S2和S3中音频片段为训练音频数据的音频片段；

当对待测试音频数据采用稀疏编码方法得到基于稀疏编码的分类信息时，所述S2和S3中音频片段为待测试音频数据的音频片段。

3.如权利要求1所述的一种音频场景分类方法，其特征是：预分类信息和校准分类信息都是维度等于音频场景类别数的向量，表示每个音频片段属于各个不同场景类的概率分布。

4.如权利要求1所述的一种音频场景分类方法，其特征是：所述将预分类信息与校准分类信息进行融合，获得音频场景分类结果的方法，包括:

针对待测试音频数据中的各个音频片段，将每个音频片段预分类信息与校准分类信息融合，获得针对单个音频片段的属于不同场景类的概率分布；

根据所有音频片段的属于不同场景类的概率分布，统计待测试音频数据属于不同场景类的概率；

对于待测试音频数据，取概率值最大的场景类别作为待测试音频数据所属的场景类别。

5.如权利要求4所述的一种音频场景分类方法，其特征是：将每个音频片段预分类信息与校准分类信息融合，融合采用向量元素相乘的方法。

6.如权利要求4所述的一种音频场景分类方法，其特征是：根据所有音频片段的属于不同场景类的概率分布，统计待测试音频数据属于不同场景类的概率的方法，具体为：针对所有场景类，将待测试音频数据内所有音频片段属于同一场景类的概率取平均，将此平均值作为待测试音频数据属于该场景类的概率，获得待测试音频数据属于所有不同场景类的概率。

7.如权利要求1所述的一种音频场景分类方法，其特征是：所述根据训练音频数据,建立分类CNN网络模型，包括：

将训练音频数据进行预处理，获得音频片段的频谱特征数据即为预处理后的数据；

训练分类CNN网络模型：搭建CNN网络结构，将训练音频数据预处理后得到的音频片段的频谱特征数据作为输入，以音频片段的真实类标签作为监督输出，对CNN网络进行训练，获得分类CNN网络模型；

或者

根据将训练音频数据采用稀疏编码方法得到的基于稀疏编码的分类信息，建立校准CNN网络模型的方法，包括：

将预处理后的数据采用稀疏编码方法，提取音频片段的稀疏系数矩阵即为训练音频数据基于稀疏编码的分类信息；

训练校准CNN网络模型：搭建CNN网络结构，将采用稀疏编码方法获得的音频片段的分类信息作为输入，以音频片段的真实类标签作为监督输出，对CNN网络进行训练，获得校准CNN网络模型；

或者

在构建模型之前或者在对待测试音频数据测试分类之前将训练音频数据和待测试音频数据预处理的步骤，具体包括：

将音频数据分割得到音频片段，相邻片段之间设置有设定比例的覆盖率；

对音频片段进行特征提取，获得音频片段的频谱特征数据，即为预处理后的数据。

8.一种音频场景分类系统,其特征是，包括:

9.一种电子设备，其特征是，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项方法所述的步骤。

10.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项方法所述的步骤。