CN116453506A

CN116453506A - 一种基于特征融合的音频分类方法、系统及装置

Info

Publication number: CN116453506A
Application number: CN202310111225.3A
Authority: CN
Inventors: 黄亭飞; 黄光奇; 覃炳庆
Original assignee: Aerospace Science and Industry Shenzhen Group Co Ltd
Current assignee: Aerospace Science and Industry Shenzhen Group Co Ltd
Priority date: 2023-02-14
Filing date: 2023-02-14
Publication date: 2023-07-18

Abstract

本发明提供了一种基于特征融合的音频分类方法、系统及装置，涉及音频场景分类技术领域，方法主要包括：获取音频场景数据，进行预处理，得到音频信号；将所述音频信号转换成梅尔声谱图，并按比例划分为两部分，一部分作为训练集，另一部分作为测试集；将所述训练集输入融合模型进行训练，通过融合数据特征优化模型参数，并调整超参数，得到数据标签；将所述测试集输入所述融合模型进行计算，得到分类标签；基于分类标签，进行评价计算，得到分类准确率。本方案通过若干深度学习模型识别特征，并进行融合，得到优化的融合模型，通过所述融合模型，可以更有效地完成音频场景数据分类，并大幅提高分类准确率。

Description

一种基于特征融合的音频分类方法、系统及装置

技术领域

本发明涉及音频场景分类技术领域，尤其是涉及一种基于特征融合的音频分类方法、系统及装置。

背景技术

目前，音频场景分类作为人工智能领域场景理解的研究热点被广泛关注。音频场景分类是通过算法模型将音频数据集按照记录环境声音的场景类别进行分类，是计算机听觉场景分析(Computational Auditory Scene Analysis，CASA)领域的主要研究内容，广泛应用于野生动物研究、机器人导航、音频检索和辅助等方面。

随着计算机性能的提高，深度学习模型在音频场景分类中表现出良好的性能，例如卷积神经网络(Convolutional Neural Networks，CNN)、长短时记忆网络( Long ShortTerm Memory Network，LSTM)和深度神经网络(Deep Neural Networks，DNN)已经成功应用于音频场景分类。

针对传统的机器学习算法在分类性能上难以提高的情况，许多研究人员开始利用深度学习算法和机器学习算法结合起来的混合模型来改善分类性能。例如，利用CNN与LSTM相混合算法提升音频分类正确率;在CNN中引入i-vectors的方法，同样在音频场景分类中取得了很好的效果；有学者将机器学习中的梯度向量机与CNN结合产生并行结构模型，用于处理音频场景的混合特征，也使分类性能有所提高；此外，在CNN的最后一层加上高斯混合模型的SuperVector，作为概率线性判别分析分类器的特征向量，也可以提高分类性能。综上所述，机器学习与深度网络构造的混合模型在音频场景分类上应用越来越广泛，并在一定程度上提升了分类精确率，但仍无法满足音频场景分类的高精度需求。

发明内容

本发明的目的在于提供一种基于特征融合的音频分类方法、系统及装置，以解决现有技术中存在的至少一种上述技术问题。

第一方面，为解决上述技术问题，本发明提供的基于特征融合的音频分类方法，包括如下步骤：

步骤1、获取音频场景数据，进行预处理，得到音频信号；

步骤2、将所述音频信号转换成梅尔声谱图，并按比例划分为两部分，一部分作为训练集，另一部分作为测试集；

步骤3、将所述训练集输入融合模型进行训练，通过融合数据特征优化模型参数，并调整超参数，得到数据标签；所述参数，是指模型可以根据数据自动学习得到的变量，例如权重、偏差等；所述超参数，是指人为定义模型的参数，例如学习速率、迭代次数、层数、每层神经元的个数等；

步骤4、将所述测试集输入所述融合模型进行计算，得到分类标签；

步骤5、基于分类标签，进行评价计算，得到分类准确率。

通过上述方法，将音频场景数据，通过融合模型识别特征，再将特征进行融合优化模型，从而提升了音频场景分类的整体效率及准确率。

在一种可行的实施方式中，所述步骤1中预处理的方法包括：

步骤11、对所述音频场景数据进行集成，例如构建数据库、数据立方体或文件夹；

步骤12、对所述音频场景数据进行规约，例如维规约、数量规约及数据无损压缩；

步骤13、将所述音频场景数据变换成音频信号；

步骤14、对所述音频信号进行特征提取。

需要说明的是，所述步骤2中的梅尔声谱图，属于现有技术，是指将频率转换为mel标度的谱图，以便于接近人耳的感受，有利于进行后序识别。

在一种可行的实施例中，所述步骤2中的比例可以为8:2，将80%的数据作为训练集，将20%的数据作为测试集。当然还可以根据实际需要，设置为其他比例。

在一种可行的实施例中，所述融合模型包括至少两个全连接神经网络模型，分别用于提取梅尔声谱图的特征。

在一种可行的实施例中，所述步骤3包括：

步骤31、将所述训练集输入至融合模型中的第一全连接神经网络，得到第一数据特征；

步骤32、将所述训练集输入至融合模型中的第二全连接神经网络，得到第二数据特征；所述第二全连接神经网络接近但不同于所述第一全连接神经网络；

步骤33、将所述第一数据特征与所述第二数据特征相加，得到第三数据特征；

步骤34、将所述第三数据特征通过融合模型的激活函数计算，例如SOTT算法，得到数据标签。

需要说明的是，所述的全连接神经网络属于一种卷积神经网络。

通过上述步骤，可以实现将两个相似的全连接神经网络进行数据特征融合，从而得到优化的融合模型及相应的数据标签。

在一种可行的实施方式中，所述第二全连接神经网络接近但不同于所述第一全连接神经网络，具体是指二者的层数、输入数据维度及输出数据维度分别相同，而其他超参数可以不同，这样可以减少数据的处理步骤，加快数据处理进程。

在一种可行的实施方式中，所述步骤4中得到分类标签后，还包括若干次迭代交叉验证，例如5次，返回步骤2重新进行划分，直至达到迭代次数，用于使每组音频信号都有机会进入测试集。

第二方面，基于相同的发明构思，本申请还提供了一种基于特征融合的音频分类系统，包括数据接收模块、数据处理模块及结果生成模块：

所述数据接收模块，用于接收音频场景数据；

所述数据处理模块，包括预处理单元、转换划分单元、融合模型单元、训练单元及评价单元；

所述预处理单元，对所述音频场景数据进行预处理，得到音频信号；

所述转换划分单元，将所述音频信号转换为梅尔声谱图，并按比例划分为两部分，一部分作为训练集，另一部分作为测试集；

所述融合模型单元，用于存储融合模型，所述融合模型包括至少两个用于识别特征的深度学习模型；

所述训练单元，调用所述训练集迭代训练所述融合模型，基于所述测试集，通过所述融合模型计算，得到分类标签；

所述评价单元，基于所述分类标签，进行评价计算，得到分类准确率；

所述结果生成模块，用于对外发布所述分类标签及所述分类准确率。

第三方面，基于相同的发明构思，本申请还提供了一种基于特征融合的音频分类装置，包括处理器、存储器及总线，所述存储器存储可由处理器读取的指令及数据，所述处理器用于调用所述存储器中的指令及数据，以执行如上所述的基于特征融合的音频分类方法，所述总线连接各功能部件之间传送信息。

采用上述技术方案，本发明具有如下有益效果：

本发明提供的一种基于特征融合的音频分类方法、系统及装置，

基于若干深度学习模型，识别特征并进行融合，得到优化的融合模型，通过所述融合模型，可以更有效地完成音频场景数据分类，并大幅提高分类准确率。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于特征融合的音频分类方法流程图；

图2为本发明实施例提供的预处理流程图；

图3为本发明实施例提供的步骤3流程图；

图4为本发明实施例提供的神经网络示意图；

图5为本发明实施例提供的基于特征融合的音频分类方法系统图；

图6为本发明实施例提供的损失函数对比图；

图7为本发明实施例提供的分类准确率对比图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

下面结合具体的实施方式对本发明做进一步的解释说明。

还需要说明的是，下述具体实施例或具体实施方式，是本发明为进一步解释具体的发明内容而列举的一系列优化的设置方式，而该些设置方式之间均是可以相互结合或者相互关联使用的。

实施例一：

如图1所示，本发明实施例提供的基于特征融合的音频分类方法，包括如下步骤：

步骤1、获取音频场景数据，进行预处理，得到音频信号；

步骤3、将所述训练集输入融合模型进行训练，通过融合数据特征优化模型参数，并调整超参数，得到数据标签；

步骤4、将所述测试集输入所述深度学习模型进行计算，得到分类标签；

步骤5、基于分类标签，进行评价计算，得到分类准确率。

进一步地，如图2所示，所述步骤1中预处理的方法包括：

步骤11、对所述音频场景数据进行集成，构建文件夹；

步骤12、对所述音频场景数据进行规约，得到无损压缩数据；

步骤13、将所述无损压缩数据变换成音频信号；

步骤14、对所述音频信号进行特征提取，所述特征提取可以是人工标注提取。

需要说明的是，所述步骤2中的梅尔声谱图，属于现有技术，是指将频率转换为mel标度的谱图，以便于人耳感受，有利于进行后序识别。

进一步地，所述步骤2中的比例为8:2，即将80%的数据作为训练集，将20%的数据作为测试集。

进一步地，所述融合模型包括至少两个全连接神经网络模型，分别用于提取梅尔声谱图的特征。

进一步地，如图3所示，所述步骤3包括：

步骤31、将所述训练集输入至融合模型中的第一全连接神经网络fc1，所述fc1包含多层神经网络，提取得到第一数据特征data1；

步骤32、将所述训练集输入至融合模型中的第二全连接神经网络fc2，所述fc2包含多层神经网络，提取得到第二数据特征data2；所述fc2与所述fc1的层数、输入数据维度及输出数据维度分别相同；

步骤33、将所述data1与所述data2相加，得到第三数据特征data3；

步骤34、将所述data3通过融合模型的一层激活函数计算，例如SOTT算法，得到数据标签，所述数据标签含有若干个元素。

众所周知的是，所述的全连接神经网络属于一种卷积神经网络。

通过上述步骤，可以实现将两个相似的全连接神经网络进行数据特征融合，从而得到优化的融合模型及相应的数据标签，如图4所示。

进一步地，所述步骤4中得到分类标签后，还包括5次迭代交叉验证，返回步骤2重新进行划分，用于使每组音频信号都有机会进入测试集。

实施例二：

如图5所示，本实施例还提供了一种基于特征融合的音频分类系统，包括数据接收模块、数据处理模块及结果生成模块：

所述数据接收模块，用于接收音频场景数据；

实施例三：

本实施例还提供了一种基于特征融合的音频分类装置，包括处理器、存储器及总线，所述存储器存储可由处理器读取的指令及数据，所述处理器用于调用所述存储器中的指令及数据，以执行如上所述的基于特征融合的音频分类方法，所述总线连接各功能部件之间传送信息。

本方案在又一种实施方式下，可以通过设备的方式来实现，该设备可以包括执行上述各个实施方式中各个或几个步骤的相应模块。模块可以是专门被配置为执行相应步骤的一个或多个硬件模块、或者由被配置为执行相应步骤的处理器来实现、或者存储在计算机可读介质内用于由处理器来实现、或者通过某种组合来实现。

处理器执行上文所描述的各个方法和处理。例如，本方案中的方法实施方式可以被实现为软件程序，其被有形地包含于机器可读介质，例如存储器。在一些实施方式中，软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时，可以执行上文描述的方法中的一个或多个步骤。备选地，在其它实施方式中，处理器可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述方法之一。

该设备可以利用总线架构来实现。总线架构可以包括任何数量的互连总线和桥接器，这取决于硬件的特定应用和总体设计约束。总线将包括一个或多个处理器、存储器和/或硬件模块的各种电路连接到一起。总线还可以将诸如外围设备、电压调节器、功率管理电路、外部天线等的各种其它电路连接。

总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，Peripheral Component)总线或扩展工业标准体系结构(EISA，ExtendedIndustry Standard Component)总线等，总线可以分为地址总线、数据总线、控制总线等。

实施例四：

基于KAGGLE网站中的城市音频场景数据集，采用本申请的方法进行分类，具体包括：

步骤1、获取城市音频场景UrbanSound8K数据集，所述UrbanSound8K包括10类场景，分别是空调(air_conditioner)、汽车喇叭(car_horn)、儿童游戏(children_playing)、狗叫(dog_bark)、钻孔(drilling)、发动机空转(engine_idling)、枪击(gun_shot)、手提钻(jackhammer)、警笛(siren)和街头音乐(street_music)，共8732个音频数据，进行预处理，分配到10个文件夹中，得到音频信号，每个音频信号的采样率为44.1kHz，存储格式为wav；

步骤2、将所述音频信号转换成梅尔声谱图，并按8:2比例划分为两部分，约80%作为训练集，约20%作为测试集；

步骤4、将所述测试集输入所述深度学习模型进行计算，得到分类标签，标签结果为0~9之间的整数，分别代表前述10类场景；

步骤5、基于分类标签，进行评价计算，得到分类准确率。

进一步地，所述步骤1中预处理的方法包括：

步骤11、对所述音频场景数据进行集成，构建文件夹；

步骤13、将所述无损压缩数据变换成音频信号；

进一步地，所述步骤3包括：

步骤34、将所述data3通过融合模型的一层激活函数计算，即SOTT算法，得到数据标签，所述数据标签含有10个元素，分别对应前述10类场景。

进一步地，所述步骤4中得到分类标签后，还包括5次迭代交叉验证，返回步骤2重新进行划分，再逐步执行程序，用于使每组音频信号都有机会进入测试集。

以随机种子[2]为例对本实施例方法进行迭代验证：如图6所示，将本实施例方法的损失函数与传统方法进行对比，其中实线为本实施例方法的损失函数，虚线是传统深度学习方法的损失函数。可以看出，模型在基本收敛之后，本实施例方法的损失函数数值一直在传统方法之下，直到迭代时结束。并且两种算法的精确度一直保持下降趋势，在第60次迭代时有反弹，其后继续保持下降趋势。同时，本实施例方法在10次迭代时就已经完成收敛，传统方法在30次迭代时才完成，可见本实施例方法可以更快完成收敛。

以随机种子[0,4]为例对本实施例方法进行评价计算：如图7所示，将本实施例方法的分类准确率与传统方法进行对比，其中实线展示的是本实施例方法的分类准确率，虚线是传统方法的分类准确率。可以看出，模型在基本收敛之后，本实施例方法的准确率一直在传统方法之上，并且本实施例方法的准确率鲁棒性更好。特别的，模型在第二次实验时，准确率最高，原因很可能是在随机种子为1时，模型出现过拟合。本实施例方法5次实验的分类准确率均值为88.41%，而传统方法的分类准确率均值为81.9%，可见本实施例方法比传统方法在分类准确率方面提升了约10个百分点。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于特征融合的音频分类方法，其特征在于，包括如下步骤：

步骤1、获取音频场景数据，进行预处理，得到音频信号；

步骤5、基于分类标签，进行评价计算，得到分类准确率。

2.根据权利要求1所述的方法，其特征在于，所述步骤1中预处理的方法包括如下步骤：

步骤11、对所述音频场景数据进行集成；

步骤12、对所述音频场景数据进行规约；

步骤13、将所述音频场景数据变换成音频信号；

步骤14、对所述音频信号进行特征提取。

3.根据权利要求1所述的方法，其特征在于，所述融合模型包括至少两个全连接神经网络模型，分别用于提取梅尔声谱图的特征。

4.根据权利要求3所述的方法，其特征在于，所述步骤3包括如下步骤：

步骤34、将所述第三数据特征通过融合模型的激活函数计算，得到数据标签。

5.根据权利要求4所述的方法，其特征在于，所述第二全连接神经网络接近但不同于所述第一全连接神经网络，具体是指二者的层数、输入数据维度及输出数据维度分别相同。

6.根据权利要求1所述的方法，其特征在于，所述步骤4中得到分类标签后，还包括若干次迭代交叉验证。

7.根据权利要求6所述的方法，其特征在于，所述迭代交叉验证的次数为至少5次。

8.一种基于特征融合的音频分类系统，其特征在于，包括数据接收模块、数据处理模块及结果生成模块：

所述数据接收模块，用于接收音频场景数据；

9.一种基于特征融合的音频分类装置，其特征在于，包括处理器、存储器及总线，所述存储器存储可由处理器读取的指令及数据，所述处理器用于调用所述存储器中的指令及数据，以执行如权利要求1~7中任一所述的方法，所述总线连接各功能部件之间传送信息。