CN115798515A

CN115798515A - 一种基于transformer的声场景分类方法

Info

Publication number: CN115798515A
Application number: CN202310065531.8A
Authority: CN
Inventors: 张晓明; 王廷德; 卓思超; 王芳; 黎泉龙; 管玙璠
Original assignee: Beijing Institute of Petrochemical Technology
Current assignee: Beijing Institute of Petrochemical Technology
Priority date: 2023-02-06
Filing date: 2023-02-06
Publication date: 2023-03-14

Abstract

本发明公开了一种基于transformer的声场景分类方法，涉及声场景分类技术领域，包括以下步骤：获取待分类的音频数据；基于特征金字塔网络构建声场景分类模型，其包括特征提取模块和特征融合模块；特征提取模块包括依次连接的一个PatchPartition层，及多个特征提取层，多个特征提取层中分别连接有两个SwinTransformerBlock；特征融合模块对多个特征提取层生成的特征图进行级联合并处理；利用声场景分类模型对待分类的音频数据进行分类。本发明实现对层级网络间特征图信息的关注，通过融合特征图的方式使图像包含更多的语义及空间信息，能更快完成模型收敛，显著提高声场景分类的准确率。

Description

一种基于transformer的声场景分类方法

技术领域

本发明涉及声场景分类技术领域，具体为一种基于transformer的声场景分类方法。

背景技术

在自然环境中，声音是传递信息的重要媒介。例如，工业生产环境中异常声音、儿童玩闹声和公共场所嘈杂声等。在智能化场景中，对这些有意义音频数据进行专业化处理，能够为企业降低成本、获取盈利。

现有声学场景分类的主要应用领域可以分为三种：无人化智能监控、设备异常声音诊断、城市噪声检测。针对声学场景分类研究，国内外诸多学者主要针对数据驱动的方法开展了研究，对CNN、DNN、DenseNet等不同网络结构进行改进并将其应用于声学场景分类领域，然而，在单特征输入情况下，现有主流方法尚未达到工业生产环境中分类准确率90％的基本要求。而且，在真实应用场景的实时检测中，同时存在内存资源紧缺、模型内存占有率高的问题。

Swin Transformer网络在图像识别领域展现了其强大的特征提取能力，但其作为一种层级设计的网络结构，却没有充分利用各层之间的特征信息，且该模型在声学场景分类领域尚无系统的应用研究。

发明内容

本发明提出了一种基于transformer的声场景分类方法，用于解决单特征输入时，现有声学场景分类模型准确率不高且泛化能力不强的问题。

本发明提供一种基于transformer的声场景分类方法，包括以下步骤：

获取待分类的音频数据，并对其进行预处理；

基于特征金字塔网络构建声场景分类模型，其包括特征提取模块和特征融合模块；其中，所述特征提取模块包括依次连接的一个Patch Partition层，以及三个特征提取层，每个特征提取层中分别连接有不同数量的Swin Transformer Block模块；所述特征融合模块对三个特征提取层生成的特征图进行级联合并处理；

利用声场景分类模型对待分类的音频数据进行分类，得到音频数据的声场景分类结果。

进一步地，所述获取待分类的音频数据，并对其进行预处理，包括：

针对不同声学场景按类别采集音频数据；

将所采集的音频数据划分成标准数据集，其划分规则包含音频场景种类、时长、采样频率；

对标准数据集进行特征提取，得到特征数据；

将特征数据从一维音频数据转换为二维时频图，转换方式包括依次对特征数据进行预加重、分帧、加窗、傅里叶变换；将经过傅里叶变换处理的时二维频图通过动态变换为db_scale谱图，得到预处理后的数据；

将预处理后的数据按照一定比例分成训练集、测试集。

进一步地，所述特征提取模块包括一个Patch Partition层、一个LinearEmbedding层、两个Patch Merging层，所述Linear Embedding层、PatchMerging层中分别连接有不同数量的SwinTransformerBlock模块；

所述SwinTransformer Block模块成对出现。

进一步地，所述Swin Transformer Block模块包含四个层归一化、两个不同的多头自注意力模块、两个隐藏层带GELU激活函数的多层感知机；

Swin Transformer Block的第l、l+1层的输出特征，分别为：

其中，

分别为第l、l+1层Swin Transformer Block的内中间值，其表达式分别为：

其中，MLP为隐藏层带GELU激活函数的前馈人工神经网络；

LN为层归一化；W-MSA、SW-MSA为不同自注意力模块；

Z^l-1为Swin Transformer Block的第l-1层的输出特征，其作为Z^l层的输入。

进一步地，所述特征融合模块对多个特征提取层生成的特征图进行级联合并处理，包括：

其中，P_m是集成后的特征图，P_i为各个特征提取层结构逐层上采样2倍后的层次网络输出特征图，m表示特征提取网络实际层数，m＝1，2，...，N。

与现有技术相比，本发明的有益效果：

本发明公开了一种基于特征金字塔网络和Swin Transformer方法，在声学场景分类领域可以有效完成分类识别工作，通过对Swin Transformer网络整体优化后，不仅降低最终生成模型内存占有率问题，使模型达到实际应用需求，而且在公开标准数据集Urbansound8k上实验结果表明，分类效果较基线系统有很好的提升且模型准确率达到97％，优于当前大部分主流分类识别方法。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明一种基于transformer的声场景分类方法中的声场景分类模型的结构示意图；

图2为本发明一种基于transformer的声场景分类方法中采用不同特征提取方案的准确率变化曲线。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，但应当理解本发明的保护范围并不受具体实施方式的限制。

实施例1

如图1所示，本发明提供了一种基于transformer的声场景分类方法，包括以下步骤：

步骤S1：获取待分类的音频数据，并对其进行预处理；

具体地，针对不同声学场景按类别采集音频数据；将所采集的音频数据划分成标准数据集，其划分规则包含音频场景种类、时长、采样频率；对标准数据集进行特征提取，得到特征数据；将特征数据从一维音频数据转换为二维时频图，转换方式包括依次对特征数据进行预加重、分帧、加窗、傅里叶变换；将经过傅里叶变换处理的时二维频图通过动态变换为db_scale谱图，得到预处理后的数据；将预处理后的数据按照一定比例分成训练集、测试集。

步骤S2：基于特征金字塔网络构建声场景分类模型，其包括特征提取模块和特征融合模块；

具体地，特征提取模块对输入数据进行深层次特征提取，其包括依次连接的一个Patch Partition层，以及三个特征提取层，三个特征提取层分别为一个Linear Embedding层、两个Patch Merging层，特征融合模块对三个特征提取层生成的特征图进行级联合并处理；

Linear Embedding层、Patch Merging层中分别连接有不同数量的SwinTransformerBlock模块，且SwinTransformerBlock模块成对出现。

Swin TransformerBlock模块包含四个层归一化、两个不同的多头自注意力模块、两个隐藏层带GELU激活函数的多层感知机；

Swin TransformerBlock的第l、l+1层的输出特征，分别为：

其中，

其中，MLP为隐藏层带GELU激活函数的前馈人工神经网络；

LN为层归一化；W-MSA、SW-MSA为不同自注意力模块；

特征融合模块对多个特征提取层生成的特征图进行级联合并处理，包括：

步骤S3：还包括对声场景分类模型的声场景分类结果进行准确率检验；

具体地，利用训练集对声场景分类模型进行训练，再对声场景分类模型的声场景分类结果进行准确率检验。根据分类结果的准确率对场景分类模型的分类参数进行更新，直至准确率满足一定值时，停止更新。

当声场景分类模型训练完成后，利用测试集对声场景分类模型的训练精度进行检验，准确率计算公式如下：

其中，Accuracy为声场景分类模型的准确率值；

TP+TN为声场景分类模型预测的分类结果与样本标签一致数量，

TP+FN+FP+TN为所有已预测样本数量，

TP为预测值与真实值同为正样本数量，

FN为真实值为正样本预测值为负样本数量，

FP为真实值为负样本预测值为正样本数量，

TN为预测值与真实值同为负样本数量。

步骤S4：利用声场景分类模型对待分类的音频数据进行分类，得到音频数据的声场景分类结果。

本发明公开了一种基于特征金字塔网络和SwinTransformer的声场景分类方法。通过对SwinTransformer整体网络架构优化，同时借鉴特征金字塔网络的思想，融合网络层次间特征图信息，增强特征图包含的语义信息与空间信息，提高声学场景分类模型的准确率，并在一定程度上降低模型内存占有率，使其能够应用在更多内存有限应用场景中。

下面结合具体的实施例对本发明中的技术方案做具体实施方式的说明。

本实施例中的数据集采用公开的标准数据集Urbansound8k进行声场景分类试验，本发明中的声场景分类模型的分类准确率相较于现有的SVM的基线系统的准确率提升约26个百分点，相较于声学特征为FBANK的DNN分类网络模型准确率约有18％的提升，相较于声学特征为MFCC的CNN+BiLSTM+Attention分类网络模型准确率约有17％的提升。

如图2所示为本发明公开方法不同特征提取方案的准确率对比，其准确率随着迭代次数的增多，准确率逐步递增。

最后说明的是：以上公开的仅为本发明的一个具体实施例，但是，本发明实施例并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种基于transformer的声场景分类方法，其特征在于，包括以下步骤：

获取待分类的音频数据，并对其进行预处理；

基于特征金字塔网络构建声场景分类模型，其包括特征提取模块和特征融合模块；其中，所述特征提取模块包括依次连接的一个Patch Partition层，以及三个特征提取层，每个特征提取层中分别连接有不同数量的Swin TransformerBlock模块；所述特征融合模块对三个特征提取层生成的特征图进行级联合并处理；

2.根据权利要求1所述的一种基于transformer的声场景分类方法，其特征在于：所述获取待分类的音频数据，并对其进行预处理，包括：

针对不同声学场景按类别采集音频数据；

对标准数据集进行特征提取，得到特征数据；

将预处理后的数据按照一定比例分成训练集、测试集。

3.根据权利要求1所述的一种基于transformer的声场景分类方法，其特征在于：所述特征提取模块包括一个Patch Partition层、一个Linear Embedding层、两个PatchMerging层，所述Linear Embedding层、Patch Merging层中分别连接有不同数量的SwinTransformerBlock模块；

所述Swin TransformerBlock模块成对出现。

4.根据权利要求1所述的一种基于transformer的声场景分类方法，其特征在于：所述Swin Transformer Block模块包含四个层归一化、两个不同的多头自注意力模块、两个隐藏层带GELU激活函数的多层感知机；

SwinTransformer Block的第l、l+1层的输出特征，分别为：

其中，

其中，MLP为隐藏层带GELU激活函数的前馈人工神经网络；

LN为层归一化；W-MSA、SW-MSA为不同自注意力模块；

5.根据权利要求1所述的一种基于transformer的声场景分类方法，其特征在于：所述特征融合模块对多个特征提取层生成的特征图进行级联合并处理，包括：