CN118173085A

CN118173085A - 一种基于Swin-Transformer的音频分类方法

Info

Publication number: CN118173085A
Application number: CN202410577904.4A
Authority: CN
Inventors: 刘宸睿; 车楠; 黄博; 孙亮
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Filing date: 2024-05-10
Publication date: 2024-06-11

Abstract

本申请提供了一种基于Swin‑Transformer的音频分类方法，该方法包括：将原始音频数据输入到预先训练的音频分类网络模型的特征转换网络，以得到所述原始音频数据的音频频谱图；将所述音频频谱图输入到所述预先训练的音频分类网络模型的深度特征提取网络，以得到所述原始音频数据的网络深度特征；将所述原始音频数据的网络深度特征输入到所述预先训练的音频分类网络模型的分类网络，以得到所述原始音频数据的分类结果。该方法可以简化音频分类的操作，提高音频分类的效率。

Description

一种基于Swin-Transformer的音频分类方法

技术领域

本发明涉及深度学习领域技术，具体涉及一种基于Swin-Transformer的音频分类方法。

背景技术

音频分类(Audio Classification)是指识别音频数据中是否包含某类音频事件，如人声、杯子声、床声等。

目前的音频分类方案中，需要手动提取音频数据的音频特征，如对数梅尔顿频谱图，并将该手动提取的音频特征作为输入进行音频分类。

传统的音频分类的方法有基于机器学习以及浅层卷积神经网络结构模型进行训练预测分类，基于这些方法得出的模型无法有效进行分类预测，音频分类结果的准确率较低。

发明内容

有鉴于此，本申请提供一种音频分类方法。

具体地，本申请的技术方案是：一种基于Swin-Transformer的音频分类方法，包括：

步骤一：将原始音频数据输入到预先训练的音频分类网络模型的特征转换网络，以得到所述原始音频数据的音频频谱图。

步骤二：将所述原始音频的音频频谱图输入到所述预先训练的音频分类网络模型的深度特征提取网络，以得到所述原始音频数据的深度特征。

步骤三：将所述原始音频的深度特征输入到所述预先训练的音频分类网络模型的分类网络，以得到所述原始音频数据的分类结果。

附图说明

图1是本申请一示例性实施例示出的一种基于Swin-Transformer的音频分类方法的流程图；

图2是本申请一示例性实施例示出的一种基于Swin-Transformer的音频分类方法的训练方法的流程图；

图3是本申请一示例性实施例示出的一种基于Swin-Transformer的音频分类方法的网络模型示意图。

具体实施方式

以下实施例对本发明进行说明，但本发明并不受这些实施例所限制。对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换，而不脱离本发明方案的精神，其均应涵盖在本发明请求保护的技术方案范围当中。

在本申请一个或者多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请一个或者多个实施例。在本申请一个或者多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在······时”或“当······时”或“响应于确定”。

参见图1，图1示出了根据本申请一个实施例提供的一种基于Swin-Transformer的音频分类方法的流程图。

将原始音频数据输入到预先训练的音频分类网络模型的特征转换网络，以得到所述原始音频数据的音频频谱图。

本申请实例中，为了简化音频分类的操作，提高音频分类效率，可以通过一个特征提取与分类一体化的音频分类网络模型，实现端到端的音频分类。

其中，该音频分类网络模型可以包括级联的特征转换网络、深度特征提取网络以及分类网络组合；其中：

特征转换网络以原始原始音频数据为输入，输出原始音频数据的音频频谱图；

深度特征提取网络以原始音频数据的音频频谱图为输入，输出原始音频数据的深度特征；

分类网络以原始音频数据的深度特征为输入，输出原始音频数据的分类结果。

相应地，在本申请实例中，当进行音频分类时，可以将待分类的音频数据输入到预先训练的音频分类模型，通过该预先训练的音频分类网络模型的特征转换网络提取原始音频数据的音频频谱图。

将所述原始音频的音频频谱图输入到所述预先训练的音频分类网络模型的深度特征提取网络，以得到所述原始音频数据的深度特征。

本申请实施例中，得到原始音频数据的音频频谱图之后，可以将原始音频的音频频谱图转换为原始音频数据的深度特征，并输入预先训练的音频分类模型的深度特征提取网络，以得到原始音频数据的深度特征。

将原始音频的深度特征输入到所述预先训练的音频分类网络模型的分类网络，以得到所述原始音频数据的分类结果。

其中，原始音频数据的分类结果可以包括原始音频数据中是否存在各种不同类型的声音，如人声、杯子声、床声等。

例如，对于各个类型的声音，可以通过对应的概率来指明原始音频数据中是否存在该类型的声音。其中，对于任一类型的声音，分类网络输出的结果为该类型的声音对应的概率，当该概率大于预设概率阈值（如0.5）时，确定该原始音频数据中存在该类型的声音；否则，确定该原始音频数据中不存在该类型的声音。

可见，在图1所示方法流程中，通过构建并训练特征提取与分类一体化的音频分类网络模型，通过该音频分类网络直接得到原始音频数据的分类结果，简化了音频分类操作，提高了音频分类的效率。

参见图2，在本申请其中一个实施例中，级联的上述特征转换网络、深度特征提取网络以及分类网络通过以下方式进行训练。

对于训练集中的任意一个训练样本，将其输入到所述特征转换网络，以得到该训练样本的频谱图。

本申请实施例中，在通过级联的上述特征转换网络、深度特征提取网络以及分类网络进行音频分类之前，需要使用包括一定数量的训练样本的训练集对上述特征转换网络、深度特征提取网络以及分类网络进行训练，直至网络收敛，再进行音频分类任务。

相应地，在该实施例中，对于训练集中的任一训练样本，可以利用特征转换网络得到该训练样本的频谱图。

其中，训练样本可以标注有单个标签或多个标签的音频数据。

将该训练样本的频谱图输入到所述深度特征提取网络，以得到该训练样本的深度特征。

在该实施例中，在提取到该训练样本的频谱图之后，输入到所述深度特征提取网络，以得到该训练样本的深度特征。

将该训练样本的深度特征输入到所述分类网络，以得到该训练样本的分类结果。

在该实施例中，在提取到该训练样本的深度特征之后，可以将训练样本的深度特征输入分类网络，进行音频分类，以得到该训练样本的分类结果。

进一步地，在该实施例中，为了提高级联的特征转换网络、深度特征提取网络以及分类网络的分类精度，上述步骤之后，还可以包括：

根据音频分类准确率，对级联的特征转换网络、深度特征提取网络以及分类网络的网络组合进行参数优化，直至音频分类网络模型的分类准确率满足预设条件。在该实施例中，利用训练集中的训练样本对音频分类网络模型进行训练至网络收敛后，可以通过测试集对训练好的音频分类网络进行测试，以确定音频分类网络模型的分类准确率是否满足预设条件；若是，则结束音频分类网络模型训练，并使用训练好的音频分类网络模型执行分类任务；否则，对级联的特征转换网络、深度特征提取网络以及分类网络的组合进行参数优化调整，并再次进行训练，直至音频分类网络模型的分类准确率满足预设条件。

其中，对于测试集中的任一测试样本，当通过级联的特征转换网络、深度特征提取网络以及分类网络的网络组合进行音频分类结果与预先标注的测试样本的标签匹配时，确定该测试样本的音频分类正确；否则，确定该测试样本的音频分类不正确。

例如，类别1的标签的准确率为r1（即标注有类别1的标签，且识别出存在类别1的标签的测试样本的数量与标注有类别1的标签的比值）、类别2的标签的准确率为r2、······、类别10的标签的准确率为r10，则音频分类网络模型的分类准确率为（r1+r2+······+r10）/10。

其中，在音频分类网络模型的训练过程中，可以利用交叉熵loss函数确定训练集的音频分类的损耗，通过反向传播算法，进行音频分类网络模型的训练。

在该实施例中，当训练后的音频分类网络模型的分类准确率满足要求时，可以将上述特征转换网络、深度特征提取网络以及分类网络的网络组合进行参数优化。

对特征转换网络、深度特征提取网络和/或分类网络的模型参数进行优化。

参见图3，为本申请实施例提供一种音频分类网络模型的示意图。

本申请实施例中，通过将原始音频数据输入预先训练的音频分类网络模型的特征转换网络，以得到原始音频数据的音频频谱图，并将该音频频谱图输入到预先训练的音频分类网络模型的深度特征提取网络，以得到原始音频数据的深度特征，进而，将原始音频数据的深度特征输入到预先训练的音频分类网络模型的分类网络，以得到原始音频数据的分类结果，实现端到端的音频分类，简化了音频分类操作，提高了音频分类的效率。

Claims

1.一种基于Swin-Transformer的音频分类方法，其特征在于，所属音频分类方法包括以下步骤：

步骤一：将原始音频数据输入到预先训练的音频分类网络模型的特征转换网络，以得到所述原始音频数据的音频频谱图；

步骤二：将所述原始音频的音频频谱图输入到所述预先训练的音频分类网络模型的深度特征提取网络，以得到所述原始音频数据的深度特征；

2.根据权利要求1所述的一种基于Swin-Transformer的音频分类方法，其特征在于，级联的所述特征转换网络、所述深度特征提取网络以及所述分类网络通过以下方式训练得到：

对于训练集中的任意一个训练样本，将其输入到所述特征转换网络，以得到该训练样本的频谱图；

将该训练样本的频谱图输入到所述深度特征提取网络，以得到该训练样本的深度特征；

3.根据权利要求2所述的一种基于Swin-Transformer的音频分类方法的预训练方法，其特征在于，所述将该训练样本的深度特征输入到所述分类网络之后，还包括：

根据所述音频分类网络模型的分类准确率，对级联的所述特征转换网络、所述深度特征提取网络以及所述分类网络的网络组合进行参数优化，直至所述音频分类网络模型的分类准确率满足预设条件。

4.根据权利要求3所述的一种基于Swin-Transformer的音频分类方法的预训练参数优化方法，其特征在于，所述对级联的所述特征转换网络、所述深度特征提取网络以及所述分类网络的网络组合进行参数优化，包括：

对所述特征转换网络、所述深度特征提取网络和/或所述分类网络的模型参数进行优化。

5.根据权利要求3所述的一种基于Swin-Transformer的音频分类方法的预训练参数优化方法，其特征在于，所述音频分类网络模型的分类准确率满足预设条件，包括：

所述音频分类网络模型的分类准确率大于预设准确率阈值。

6.根据权利要求1所述的一种基于Swin-Transformer的音频分类方法，其特征在于，所述步骤二：将所述原始音频的音频频谱图输入到所述预先训练的音频分类网络模型的深度特征提取网络，包括：

将所述原始音频频谱图切割为固定大小的序列块，然后使用线性投影为一维嵌入序列，然后在嵌入序列的开头附加一个分类头，并为每个嵌入序列添加一个二维的可训练的位置嵌入，以允许模型能够捕获二维音频频谱图的空间结构，然后将这些序列放入到Swin-Transformer中，以得到原始音频数据的深度特征。

7.根据权利要求1所述的一种基于Swin-Transformer的音频分类方法，其特征在于，所属步骤三：将所述原始音频的深度特征输入到所述预先训练的音频分类网络模型的分类网络，包括：

将所述原始音频的深度特征输入到所述预先训练的音频分类网络模型的分类网络中对应的全连接层，以得到原始音频数据的分类结果。