CN115798515A - 一种基于transformer的声场景分类方法 - Google Patents

一种基于transformer的声场景分类方法 Download PDF

Info

Publication number
CN115798515A
CN115798515A CN202310065531.8A CN202310065531A CN115798515A CN 115798515 A CN115798515 A CN 115798515A CN 202310065531 A CN202310065531 A CN 202310065531A CN 115798515 A CN115798515 A CN 115798515A
Authority
CN
China
Prior art keywords
scene classification
feature
layers
layer
sound scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310065531.8A
Other languages
English (en)
Inventor
张晓明
王廷德
卓思超
王芳
黎泉龙
管玙璠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Petrochemical Technology
Original Assignee
Beijing Institute of Petrochemical Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Petrochemical Technology filed Critical Beijing Institute of Petrochemical Technology
Priority to CN202310065531.8A priority Critical patent/CN115798515A/zh
Publication of CN115798515A publication Critical patent/CN115798515A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于transformer的声场景分类方法,涉及声场景分类技术领域,包括以下步骤:获取待分类的音频数据;基于特征金字塔网络构建声场景分类模型,其包括特征提取模块和特征融合模块;特征提取模块包括依次连接的一个PatchPartition层,及多个特征提取层,多个特征提取层中分别连接有两个SwinTransformerBlock;特征融合模块对多个特征提取层生成的特征图进行级联合并处理;利用声场景分类模型对待分类的音频数据进行分类。本发明实现对层级网络间特征图信息的关注,通过融合特征图的方式使图像包含更多的语义及空间信息,能更快完成模型收敛,显著提高声场景分类的准确率。

Description

一种基于transformer的声场景分类方法
技术领域
本发明涉及声场景分类技术领域,具体为一种基于transformer的声场景分类方法。
背景技术
在自然环境中,声音是传递信息的重要媒介。例如,工业生产环境中异常声音、儿童玩闹声和公共场所嘈杂声等。在智能化场景中,对这些有意义音频数据进行专业化处理,能够为企业降低成本、获取盈利。
现有声学场景分类的主要应用领域可以分为三种:无人化智能监控、设备异常声音诊断、城市噪声检测。针对声学场景分类研究,国内外诸多学者主要针对数据驱动的方法开展了研究,对CNN、DNN、DenseNet等不同网络结构进行改进并将其应用于声学场景分类领域,然而,在单特征输入情况下,现有主流方法尚未达到工业生产环境中分类准确率90%的基本要求。而且,在真实应用场景的实时检测中,同时存在内存资源紧缺、模型内存占有率高的问题。
Swin Transformer网络在图像识别领域展现了其强大的特征提取能力,但其作为一种层级设计的网络结构,却没有充分利用各层之间的特征信息,且该模型在声学场景分类领域尚无系统的应用研究。
发明内容
本发明提出了一种基于transformer的声场景分类方法,用于解决单特征输入时,现有声学场景分类模型准确率不高且泛化能力不强的问题。
本发明提供一种基于transformer的声场景分类方法,包括以下步骤:
获取待分类的音频数据,并对其进行预处理;
基于特征金字塔网络构建声场景分类模型,其包括特征提取模块和特征融合模块;其中,所述特征提取模块包括依次连接的一个Patch Partition层,以及三个特征提取层,每个特征提取层中分别连接有不同数量的Swin Transformer Block模块;所述特征融合模块对三个特征提取层生成的特征图进行级联合并处理;
利用声场景分类模型对待分类的音频数据进行分类,得到音频数据的声场景分类结果。
进一步地,所述获取待分类的音频数据,并对其进行预处理,包括:
针对不同声学场景按类别采集音频数据;
将所采集的音频数据划分成标准数据集,其划分规则包含音频场景种类、时长、采样频率;
对标准数据集进行特征提取,得到特征数据;
将特征数据从一维音频数据转换为二维时频图,转换方式包括依次对特征数据进行预加重、分帧、加窗、傅里叶变换;将经过傅里叶变换处理的时二维频图通过动态变换为db_scale谱图,得到预处理后的数据;
将预处理后的数据按照一定比例分成训练集、测试集。
进一步地,所述特征提取模块包括一个Patch Partition层、一个LinearEmbedding层、两个Patch Merging层,所述Linear Embedding层、PatchMerging层中分别连接有不同数量的SwinTransformerBlock模块;
所述SwinTransformer Block模块成对出现。
进一步地,所述Swin Transformer Block模块包含四个层归一化、两个不同的多头自注意力模块、两个隐藏层带GELU激活函数的多层感知机;
Swin Transformer Block的第l、l+1层的输出特征,分别为:
Figure BDA0004061968470000031
Figure BDA0004061968470000032
其中,
Figure BDA0004061968470000033
分别为第l、l+1层Swin Transformer Block的内中间值,其表达式分别为:
Figure BDA0004061968470000034
Figure BDA0004061968470000035
其中,MLP为隐藏层带GELU激活函数的前馈人工神经网络;
LN为层归一化;W-MSA、SW-MSA为不同自注意力模块;
Zl-1为Swin Transformer Block的第l-1层的输出特征,其作为Zl层的输入。
进一步地,所述特征融合模块对多个特征提取层生成的特征图进行级联合并处理,包括:
Figure BDA0004061968470000036
其中,Pm是集成后的特征图,Pi为各个特征提取层结构逐层上采样2倍后的层次网络输出特征图,m表示特征提取网络实际层数,m=1,2,...,N。
与现有技术相比,本发明的有益效果:
本发明公开了一种基于特征金字塔网络和Swin Transformer方法,在声学场景分类领域可以有效完成分类识别工作,通过对Swin Transformer网络整体优化后,不仅降低最终生成模型内存占有率问题,使模型达到实际应用需求,而且在公开标准数据集Urbansound8k上实验结果表明,分类效果较基线系统有很好的提升且模型准确率达到97%,优于当前大部分主流分类识别方法。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明一种基于transformer的声场景分类方法中的声场景分类模型的结构示意图;
图2为本发明一种基于transformer的声场景分类方法中采用不同特征提取方案的准确率变化曲线。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,但应当理解本发明的保护范围并不受具体实施方式的限制。
实施例1
如图1所示,本发明提供了一种基于transformer的声场景分类方法,包括以下步骤:
步骤S1:获取待分类的音频数据,并对其进行预处理;
具体地,针对不同声学场景按类别采集音频数据;将所采集的音频数据划分成标准数据集,其划分规则包含音频场景种类、时长、采样频率;对标准数据集进行特征提取,得到特征数据;将特征数据从一维音频数据转换为二维时频图,转换方式包括依次对特征数据进行预加重、分帧、加窗、傅里叶变换;将经过傅里叶变换处理的时二维频图通过动态变换为db_scale谱图,得到预处理后的数据;将预处理后的数据按照一定比例分成训练集、测试集。
步骤S2:基于特征金字塔网络构建声场景分类模型,其包括特征提取模块和特征融合模块;
具体地,特征提取模块对输入数据进行深层次特征提取,其包括依次连接的一个Patch Partition层,以及三个特征提取层,三个特征提取层分别为一个Linear Embedding层、两个Patch Merging层,特征融合模块对三个特征提取层生成的特征图进行级联合并处理;
Linear Embedding层、Patch Merging层中分别连接有不同数量的SwinTransformerBlock模块,且SwinTransformerBlock模块成对出现。
Swin TransformerBlock模块包含四个层归一化、两个不同的多头自注意力模块、两个隐藏层带GELU激活函数的多层感知机;
Swin TransformerBlock的第l、l+1层的输出特征,分别为:
Figure BDA0004061968470000051
Figure BDA0004061968470000052
其中,
Figure BDA0004061968470000053
分别为第l、l+1层Swin Transformer Block的内中间值,其表达式分别为:
Figure BDA0004061968470000054
Figure BDA0004061968470000055
其中,MLP为隐藏层带GELU激活函数的前馈人工神经网络;
LN为层归一化;W-MSA、SW-MSA为不同自注意力模块;
Zl-1为Swin Transformer Block的第l-1层的输出特征,其作为Zl层的输入。
特征融合模块对多个特征提取层生成的特征图进行级联合并处理,包括:
Figure BDA0004061968470000061
其中,Pm是集成后的特征图,Pi为各个特征提取层结构逐层上采样2倍后的层次网络输出特征图,m表示特征提取网络实际层数,m=1,2,...,N。
步骤S3:还包括对声场景分类模型的声场景分类结果进行准确率检验;
具体地,利用训练集对声场景分类模型进行训练,再对声场景分类模型的声场景分类结果进行准确率检验。根据分类结果的准确率对场景分类模型的分类参数进行更新,直至准确率满足一定值时,停止更新。
当声场景分类模型训练完成后,利用测试集对声场景分类模型的训练精度进行检验,准确率计算公式如下:
Figure BDA0004061968470000062
其中,Accuracy为声场景分类模型的准确率值;
TP+TN为声场景分类模型预测的分类结果与样本标签一致数量,
TP+FN+FP+TN为所有已预测样本数量,
TP为预测值与真实值同为正样本数量,
FN为真实值为正样本预测值为负样本数量,
FP为真实值为负样本预测值为正样本数量,
TN为预测值与真实值同为负样本数量。
步骤S4:利用声场景分类模型对待分类的音频数据进行分类,得到音频数据的声场景分类结果。
本发明公开了一种基于特征金字塔网络和SwinTransformer的声场景分类方法。通过对SwinTransformer整体网络架构优化,同时借鉴特征金字塔网络的思想,融合网络层次间特征图信息,增强特征图包含的语义信息与空间信息,提高声学场景分类模型的准确率,并在一定程度上降低模型内存占有率,使其能够应用在更多内存有限应用场景中。
下面结合具体的实施例对本发明中的技术方案做具体实施方式的说明。
本实施例中的数据集采用公开的标准数据集Urbansound8k进行声场景分类试验,本发明中的声场景分类模型的分类准确率相较于现有的SVM的基线系统的准确率提升约26个百分点,相较于声学特征为FBANK的DNN分类网络模型准确率约有18%的提升,相较于声学特征为MFCC的CNN+BiLSTM+Attention分类网络模型准确率约有17%的提升。
如图2所示为本发明公开方法不同特征提取方案的准确率对比,其准确率随着迭代次数的增多,准确率逐步递增。
最后说明的是:以上公开的仅为本发明的一个具体实施例,但是,本发明实施例并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims (5)

1.一种基于transformer的声场景分类方法,其特征在于,包括以下步骤:
获取待分类的音频数据,并对其进行预处理;
基于特征金字塔网络构建声场景分类模型,其包括特征提取模块和特征融合模块;其中,所述特征提取模块包括依次连接的一个Patch Partition层,以及三个特征提取层,每个特征提取层中分别连接有不同数量的Swin TransformerBlock模块;所述特征融合模块对三个特征提取层生成的特征图进行级联合并处理;
利用声场景分类模型对待分类的音频数据进行分类,得到音频数据的声场景分类结果。
2.根据权利要求1所述的一种基于transformer的声场景分类方法,其特征在于:所述获取待分类的音频数据,并对其进行预处理,包括:
针对不同声学场景按类别采集音频数据;
将所采集的音频数据划分成标准数据集,其划分规则包含音频场景种类、时长、采样频率;
对标准数据集进行特征提取,得到特征数据;
将特征数据从一维音频数据转换为二维时频图,转换方式包括依次对特征数据进行预加重、分帧、加窗、傅里叶变换;将经过傅里叶变换处理的时二维频图通过动态变换为db_scale谱图,得到预处理后的数据;
将预处理后的数据按照一定比例分成训练集、测试集。
3.根据权利要求1所述的一种基于transformer的声场景分类方法,其特征在于:所述特征提取模块包括一个Patch Partition层、一个Linear Embedding层、两个PatchMerging层,所述Linear Embedding层、Patch Merging层中分别连接有不同数量的SwinTransformerBlock模块;
所述Swin TransformerBlock模块成对出现。
4.根据权利要求1所述的一种基于transformer的声场景分类方法,其特征在于:所述Swin Transformer Block模块包含四个层归一化、两个不同的多头自注意力模块、两个隐藏层带GELU激活函数的多层感知机;
SwinTransformer Block的第l、l+1层的输出特征,分别为:
Figure FDA0004061968460000021
Figure FDA0004061968460000022
其中,
Figure FDA0004061968460000023
分别为第l、l+1层Swin Transformer Block的内中间值,其表达式分别为:
Figure FDA0004061968460000024
Figure FDA0004061968460000025
其中,MLP为隐藏层带GELU激活函数的前馈人工神经网络;
LN为层归一化;W-MSA、SW-MSA为不同自注意力模块;
Zl-1为Swin Transformer Block的第l-1层的输出特征,其作为Zl层的输入。
5.根据权利要求1所述的一种基于transformer的声场景分类方法,其特征在于:所述特征融合模块对多个特征提取层生成的特征图进行级联合并处理,包括:
Figure FDA0004061968460000026
其中,Pm是集成后的特征图,Pi为各个特征提取层结构逐层上采样2倍后的层次网络输出特征图,m表示特征提取网络实际层数,m=1,2,...,N。
CN202310065531.8A 2023-02-06 2023-02-06 一种基于transformer的声场景分类方法 Pending CN115798515A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310065531.8A CN115798515A (zh) 2023-02-06 2023-02-06 一种基于transformer的声场景分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310065531.8A CN115798515A (zh) 2023-02-06 2023-02-06 一种基于transformer的声场景分类方法

Publications (1)

Publication Number Publication Date
CN115798515A true CN115798515A (zh) 2023-03-14

Family

ID=85429951

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310065531.8A Pending CN115798515A (zh) 2023-02-06 2023-02-06 一种基于transformer的声场景分类方法

Country Status (1)

Country Link
CN (1) CN115798515A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116645978A (zh) * 2023-06-20 2023-08-25 方心科技股份有限公司 基于超算并行环境的电力故障声类别增量学习系统及方法
CN117037847A (zh) * 2023-07-31 2023-11-10 深圳市万物云科技有限公司 一种端到端社区噪音监测方法、装置及相关组件

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116645978A (zh) * 2023-06-20 2023-08-25 方心科技股份有限公司 基于超算并行环境的电力故障声类别增量学习系统及方法
CN116645978B (zh) * 2023-06-20 2024-02-02 方心科技股份有限公司 基于超算并行环境的电力故障声类别增量学习系统及方法
CN117037847A (zh) * 2023-07-31 2023-11-10 深圳市万物云科技有限公司 一种端到端社区噪音监测方法、装置及相关组件
CN117037847B (zh) * 2023-07-31 2024-05-03 深圳市万物云科技有限公司 一种端到端社区噪音监测方法、装置及相关组件

Similar Documents

Publication Publication Date Title
CN110600017B (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
CN110491416B (zh) 一种基于lstm和sae的电话语音情感分析与识别方法
CN115798515A (zh) 一种基于transformer的声场景分类方法
CN111627458B (zh) 一种声源分离方法及设备
CN112885372B (zh) 电力设备故障声音智能诊断方法、系统、终端及介质
CN109949824B (zh) 基于N-DenseNet和高维mfcc特征的城市声音事件分类方法
CN108922513A (zh) 语音区分方法、装置、计算机设备及存储介质
CN109243494A (zh) 基于多重注意力机制长短时记忆网络的儿童情感识别方法
CN109378014A (zh) 一种基于卷积神经网络的移动设备源识别方法及系统
Guzhov et al. Esresne (x) t-fbsp: Learning robust time-frequency transformation of audio
Parnami et al. Few-shot keyword spotting with prototypical networks
CN113823264A (zh) 语音识别方法、装置、计算机可读存储介质及计算机设备
CN111653275A (zh) 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法
CN111882042B (zh) 用于液体状态机的神经网络架构自动搜索方法、系统及介质
CN111048097A (zh) 一种基于3d卷积的孪生网络声纹识别方法
CN111862956A (zh) 一种数据处理方法、装置、设备及存储介质
CN112562698B (zh) 一种基于声源信息与热成像特征融合的电力设备缺陷诊断方法
CN114065809A (zh) 一种乘用车异响识别方法、装置、电子设备以及存储介质
CN117310668A (zh) 融合注意力机制与深度残差收缩网络的水声目标识别方法
Wang et al. MSFF-Net: Multi-scale feature fusing networks with dilated mixed convolution and cascaded parallel framework for sound event detection
CN116453506A (zh) 一种基于特征融合的音频分类方法、系统及装置
CN113539298B (zh) 一种基于云边端的声音大数据分析计算图像化系统
CN115643153A (zh) 基于图神经网络的报警关联分析方法
CN115587526A (zh) 基于神经网络的车辆二氧化碳实时排放预测方法及系统
Liang et al. Automatic evaluation of internal combustion engine noise based on an auditory model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination