CN116453506A - 一种基于特征融合的音频分类方法、系统及装置 - Google Patents
一种基于特征融合的音频分类方法、系统及装置 Download PDFInfo
- Publication number
- CN116453506A CN116453506A CN202310111225.3A CN202310111225A CN116453506A CN 116453506 A CN116453506 A CN 116453506A CN 202310111225 A CN202310111225 A CN 202310111225A CN 116453506 A CN116453506 A CN 116453506A
- Authority
- CN
- China
- Prior art keywords
- data
- classification
- fusion
- audio
- fusion model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 74
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012549 training Methods 0.000 claims abstract description 37
- 230000005236 sound signal Effects 0.000 claims abstract description 28
- 238000012360 testing method Methods 0.000 claims abstract description 21
- 238000007781 pre-processing Methods 0.000 claims abstract description 18
- 238000004364 calculation method Methods 0.000 claims abstract description 17
- 238000011156 evaluation Methods 0.000 claims abstract description 15
- 238000013136 deep learning model Methods 0.000 claims abstract description 8
- 238000013528 artificial neural network Methods 0.000 claims description 28
- 230000015654 memory Effects 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000002790 cross-validation Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000003062 neural network model Methods 0.000 claims description 3
- 230000001105 regulatory effect Effects 0.000 claims 1
- 238000012546 transfer Methods 0.000 claims 1
- 238000013527 convolutional neural network Methods 0.000 description 9
- 238000007796 conventional method Methods 0.000 description 5
- 238000007906 compression Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于特征融合的音频分类方法、系统及装置,涉及音频场景分类技术领域,方法主要包括:获取音频场景数据,进行预处理,得到音频信号;将所述音频信号转换成梅尔声谱图,并按比例划分为两部分,一部分作为训练集,另一部分作为测试集;将所述训练集输入融合模型进行训练,通过融合数据特征优化模型参数,并调整超参数,得到数据标签;将所述测试集输入所述融合模型进行计算,得到分类标签;基于分类标签,进行评价计算,得到分类准确率。本方案通过若干深度学习模型识别特征,并进行融合,得到优化的融合模型,通过所述融合模型,可以更有效地完成音频场景数据分类,并大幅提高分类准确率。
Description
技术领域
本发明涉及音频场景分类技术领域,尤其是涉及一种基于特征融合的音频分类方法、系统及装置。
背景技术
目前,音频场景分类作为人工智能领域场景理解的研究热点被广泛关注。音频场景分类是通过算法模型将音频数据集按照记录环境声音的场景类别进行分类,是计算机听觉场景分析(Computational Auditory Scene Analysis,CASA)领域的主要研究内容,广泛应用于野生动物研究、机器人导航、音频检索和辅助等方面。
随着计算机性能的提高,深度学习模型在音频场景分类中表现出良好的性能,例如卷积神经网络(Convolutional Neural Networks,CNN)、长短时记忆网络( Long ShortTerm Memory Network,LSTM)和深度神经网络(Deep Neural Networks,DNN)已经成功应用于音频场景分类。
针对传统的机器学习算法在分类性能上难以提高的情况,许多研究人员开始利用深度学习算法和机器学习算法结合起来的混合模型来改善分类性能。例如,利用CNN与LSTM相混合算法提升音频分类正确率;在CNN中引入i-vectors的方法,同样在音频场景分类中取得了很好的效果;有学者将机器学习中的梯度向量机与CNN结合产生并行结构模型,用于处理音频场景的混合特征,也使分类性能有所提高;此外,在CNN的最后一层加上高斯混合模型的SuperVector,作为概率线性判别分析分类器的特征向量,也可以提高分类性能。综上所述,机器学习与深度网络构造的混合模型在音频场景分类上应用越来越广泛,并在一定程度上提升了分类精确率,但仍无法满足音频场景分类的高精度需求。
发明内容
本发明的目的在于提供一种基于特征融合的音频分类方法、系统及装置,以解决现有技术中存在的至少一种上述技术问题。
第一方面,为解决上述技术问题,本发明提供的基于特征融合的音频分类方法,包括如下步骤:
步骤1、获取音频场景数据,进行预处理,得到音频信号;
步骤2、将所述音频信号转换成梅尔声谱图,并按比例划分为两部分,一部分作为训练集,另一部分作为测试集;
步骤3、将所述训练集输入融合模型进行训练,通过融合数据特征优化模型参数,并调整超参数,得到数据标签;所述参数,是指模型可以根据数据自动学习得到的变量,例如权重、偏差等;所述超参数,是指人为定义模型的参数,例如学习速率、迭代次数、层数、每层神经元的个数等;
步骤4、将所述测试集输入所述融合模型进行计算,得到分类标签;
步骤5、基于分类标签,进行评价计算,得到分类准确率。
通过上述方法,将音频场景数据,通过融合模型识别特征,再将特征进行融合优化模型,从而提升了音频场景分类的整体效率及准确率。
在一种可行的实施方式中,所述步骤1中预处理的方法包括:
步骤11、对所述音频场景数据进行集成,例如构建数据库、数据立方体或文件夹;
步骤12、对所述音频场景数据进行规约,例如维规约、数量规约及数据无损压缩;
步骤13、将所述音频场景数据变换成音频信号;
步骤14、对所述音频信号进行特征提取。
需要说明的是,所述步骤2中的梅尔声谱图,属于现有技术,是指将频率转换为mel标度的谱图,以便于接近人耳的感受,有利于进行后序识别。
在一种可行的实施例中,所述步骤2中的比例可以为8:2,将80%的数据作为训练集,将20%的数据作为测试集。当然还可以根据实际需要,设置为其他比例。
在一种可行的实施例中,所述融合模型包括至少两个全连接神经网络模型,分别用于提取梅尔声谱图的特征。
在一种可行的实施例中,所述步骤3包括:
步骤31、将所述训练集输入至融合模型中的第一全连接神经网络,得到第一数据特征;
步骤32、将所述训练集输入至融合模型中的第二全连接神经网络,得到第二数据特征;所述第二全连接神经网络接近但不同于所述第一全连接神经网络;
步骤33、将所述第一数据特征与所述第二数据特征相加,得到第三数据特征;
步骤34、将所述第三数据特征通过融合模型的激活函数计算,例如SOTT算法,得到数据标签。
需要说明的是,所述的全连接神经网络属于一种卷积神经网络。
通过上述步骤,可以实现将两个相似的全连接神经网络进行数据特征融合,从而得到优化的融合模型及相应的数据标签。
在一种可行的实施方式中,所述第二全连接神经网络接近但不同于所述第一全连接神经网络,具体是指二者的层数、输入数据维度及输出数据维度分别相同,而其他超参数可以不同,这样可以减少数据的处理步骤,加快数据处理进程。
在一种可行的实施方式中,所述步骤4中得到分类标签后,还包括若干次迭代交叉验证,例如5次,返回步骤2重新进行划分,直至达到迭代次数,用于使每组音频信号都有机会进入测试集。
第二方面,基于相同的发明构思,本申请还提供了一种基于特征融合的音频分类系统,包括数据接收模块、数据处理模块及结果生成模块:
所述数据接收模块,用于接收音频场景数据;
所述数据处理模块,包括预处理单元、转换划分单元、融合模型单元、训练单元及评价单元;
所述预处理单元,对所述音频场景数据进行预处理,得到音频信号;
所述转换划分单元,将所述音频信号转换为梅尔声谱图,并按比例划分为两部分,一部分作为训练集,另一部分作为测试集;
所述融合模型单元,用于存储融合模型,所述融合模型包括至少两个用于识别特征的深度学习模型;
所述训练单元,调用所述训练集迭代训练所述融合模型,基于所述测试集,通过所述融合模型计算,得到分类标签;
所述评价单元,基于所述分类标签,进行评价计算,得到分类准确率;
所述结果生成模块,用于对外发布所述分类标签及所述分类准确率。
第三方面,基于相同的发明构思,本申请还提供了一种基于特征融合的音频分类装置,包括处理器、存储器及总线,所述存储器存储可由处理器读取的指令及数据,所述处理器用于调用所述存储器中的指令及数据,以执行如上所述的基于特征融合的音频分类方法,所述总线连接各功能部件之间传送信息。
采用上述技术方案,本发明具有如下有益效果:
本发明提供的一种基于特征融合的音频分类方法、系统及装置,
基于若干深度学习模型,识别特征并进行融合,得到优化的融合模型,通过所述融合模型,可以更有效地完成音频场景数据分类,并大幅提高分类准确率。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于特征融合的音频分类方法流程图;
图2为本发明实施例提供的预处理流程图;
图3为本发明实施例提供的步骤3流程图;
图4为本发明实施例提供的神经网络示意图;
图5为本发明实施例提供的基于特征融合的音频分类方法系统图;
图6为本发明实施例提供的损失函数对比图;
图7为本发明实施例提供的分类准确率对比图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
下面结合具体的实施方式对本发明做进一步的解释说明。
还需要说明的是,下述具体实施例或具体实施方式,是本发明为进一步解释具体的发明内容而列举的一系列优化的设置方式,而该些设置方式之间均是可以相互结合或者相互关联使用的。
实施例一:
如图1所示,本发明实施例提供的基于特征融合的音频分类方法,包括如下步骤:
步骤1、获取音频场景数据,进行预处理,得到音频信号;
步骤2、将所述音频信号转换成梅尔声谱图,并按比例划分为两部分,一部分作为训练集,另一部分作为测试集;
步骤3、将所述训练集输入融合模型进行训练,通过融合数据特征优化模型参数,并调整超参数,得到数据标签;
步骤4、将所述测试集输入所述深度学习模型进行计算,得到分类标签;
步骤5、基于分类标签,进行评价计算,得到分类准确率。
通过上述方法,将音频场景数据,通过融合模型识别特征,再将特征进行融合优化模型,从而提升了音频场景分类的整体效率及准确率。
进一步地,如图2所示,所述步骤1中预处理的方法包括:
步骤11、对所述音频场景数据进行集成,构建文件夹;
步骤12、对所述音频场景数据进行规约,得到无损压缩数据;
步骤13、将所述无损压缩数据变换成音频信号;
步骤14、对所述音频信号进行特征提取,所述特征提取可以是人工标注提取。
需要说明的是,所述步骤2中的梅尔声谱图,属于现有技术,是指将频率转换为mel标度的谱图,以便于人耳感受,有利于进行后序识别。
进一步地,所述步骤2中的比例为8:2,即将80%的数据作为训练集,将20%的数据作为测试集。
进一步地,所述融合模型包括至少两个全连接神经网络模型,分别用于提取梅尔声谱图的特征。
进一步地,如图3所示,所述步骤3包括:
步骤31、将所述训练集输入至融合模型中的第一全连接神经网络fc1,所述fc1包含多层神经网络,提取得到第一数据特征data1;
步骤32、将所述训练集输入至融合模型中的第二全连接神经网络fc2,所述fc2包含多层神经网络,提取得到第二数据特征data2;所述fc2与所述fc1的层数、输入数据维度及输出数据维度分别相同;
步骤33、将所述data1与所述data2相加,得到第三数据特征data3;
步骤34、将所述data3通过融合模型的一层激活函数计算,例如SOTT算法,得到数据标签,所述数据标签含有若干个元素。
众所周知的是,所述的全连接神经网络属于一种卷积神经网络。
通过上述步骤,可以实现将两个相似的全连接神经网络进行数据特征融合,从而得到优化的融合模型及相应的数据标签,如图4所示。
进一步地,所述步骤4中得到分类标签后,还包括5次迭代交叉验证,返回步骤2重新进行划分,用于使每组音频信号都有机会进入测试集。
实施例二:
如图5所示,本实施例还提供了一种基于特征融合的音频分类系统,包括数据接收模块、数据处理模块及结果生成模块:
所述数据接收模块,用于接收音频场景数据;
所述数据处理模块,包括预处理单元、转换划分单元、融合模型单元、训练单元及评价单元;
所述预处理单元,对所述音频场景数据进行预处理,得到音频信号;
所述转换划分单元,将所述音频信号转换为梅尔声谱图,并按比例划分为两部分,一部分作为训练集,另一部分作为测试集;
所述融合模型单元,用于存储融合模型,所述融合模型包括至少两个用于识别特征的深度学习模型;
所述训练单元,调用所述训练集迭代训练所述融合模型,基于所述测试集,通过所述融合模型计算,得到分类标签;
所述评价单元,基于所述分类标签,进行评价计算,得到分类准确率;
所述结果生成模块,用于对外发布所述分类标签及所述分类准确率。
实施例三:
本实施例还提供了一种基于特征融合的音频分类装置,包括处理器、存储器及总线,所述存储器存储可由处理器读取的指令及数据,所述处理器用于调用所述存储器中的指令及数据,以执行如上所述的基于特征融合的音频分类方法,所述总线连接各功能部件之间传送信息。
本方案在又一种实施方式下,可以通过设备的方式来实现,该设备可以包括执行上述各个实施方式中各个或几个步骤的相应模块。模块可以是专门被配置为执行相应步骤的一个或多个硬件模块、或者由被配置为执行相应步骤的处理器来实现、或者存储在计算机可读介质内用于由处理器来实现、或者通过某种组合来实现。
处理器执行上文所描述的各个方法和处理。例如,本方案中的方法实施方式可以被实现为软件程序,其被有形地包含于机器可读介质,例如存储器。在一些实施方式中,软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时,可以执行上文描述的方法中的一个或多个步骤。备选地,在其它实施方式中,处理器可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述方法之一。
该设备可以利用总线架构来实现。总线架构可以包括任何数量的互连总线和桥接器,这取决于硬件的特定应用和总体设计约束。总线将包括一个或多个处理器、存储器和/或硬件模块的各种电路连接到一起。总线还可以将诸如外围设备、电压调节器、功率管理电路、外部天线等的各种其它电路连接。
总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,Peripheral Component)总线或扩展工业标准体系结构(EISA,ExtendedIndustry Standard Component)总线等,总线可以分为地址总线、数据总线、控制总线等。
实施例四:
基于KAGGLE网站中的城市音频场景数据集,采用本申请的方法进行分类,具体包括:
步骤1、获取城市音频场景UrbanSound8K数据集,所述UrbanSound8K包括10类场景,分别是空调(air_conditioner)、汽车喇叭(car_horn)、儿童游戏(children_playing)、狗叫(dog_bark)、钻孔(drilling)、发动机空转(engine_idling)、枪击(gun_shot)、手提钻(jackhammer)、警笛(siren)和街头音乐(street_music),共8732个音频数据,进行预处理,分配到10个文件夹中,得到音频信号,每个音频信号的采样率为44.1kHz,存储格式为wav;
步骤2、将所述音频信号转换成梅尔声谱图,并按8:2比例划分为两部分,约80%作为训练集,约20%作为测试集;
步骤3、将所述训练集输入融合模型进行训练,通过融合数据特征优化模型参数,并调整超参数,得到数据标签;
步骤4、将所述测试集输入所述深度学习模型进行计算,得到分类标签,标签结果为0~9之间的整数,分别代表前述10类场景;
步骤5、基于分类标签,进行评价计算,得到分类准确率。
进一步地,所述步骤1中预处理的方法包括:
步骤11、对所述音频场景数据进行集成,构建文件夹;
步骤12、对所述音频场景数据进行规约,得到无损压缩数据;
步骤13、将所述无损压缩数据变换成音频信号;
步骤14、对所述音频信号进行特征提取,所述特征提取可以是人工标注提取。
进一步地,所述步骤3包括:
步骤31、将所述训练集输入至融合模型中的第一全连接神经网络fc1,所述fc1包含多层神经网络,提取得到第一数据特征data1;
步骤32、将所述训练集输入至融合模型中的第二全连接神经网络fc2,所述fc2包含多层神经网络,提取得到第二数据特征data2;所述fc2与所述fc1的层数、输入数据维度及输出数据维度分别相同;
步骤33、将所述data1与所述data2相加,得到第三数据特征data3;
步骤34、将所述data3通过融合模型的一层激活函数计算,即SOTT算法,得到数据标签,所述数据标签含有10个元素,分别对应前述10类场景。
进一步地,所述步骤4中得到分类标签后,还包括5次迭代交叉验证,返回步骤2重新进行划分,再逐步执行程序,用于使每组音频信号都有机会进入测试集。
以随机种子[2]为例对本实施例方法进行迭代验证:如图6所示,将本实施例方法的损失函数与传统方法进行对比,其中实线为本实施例方法的损失函数,虚线是传统深度学习方法的损失函数。可以看出,模型在基本收敛之后,本实施例方法的损失函数数值一直在传统方法之下,直到迭代时结束。并且两种算法的精确度一直保持下降趋势,在第60次迭代时有反弹,其后继续保持下降趋势。同时,本实施例方法在10次迭代时就已经完成收敛,传统方法在30次迭代时才完成,可见本实施例方法可以更快完成收敛。
以随机种子[0,4]为例对本实施例方法进行评价计算:如图7所示,将本实施例方法的分类准确率与传统方法进行对比,其中实线展示的是本实施例方法的分类准确率,虚线是传统方法的分类准确率。可以看出,模型在基本收敛之后,本实施例方法的准确率一直在传统方法之上,并且本实施例方法的准确率鲁棒性更好。特别的,模型在第二次实验时,准确率最高,原因很可能是在随机种子为1时,模型出现过拟合。本实施例方法5次实验的分类准确率均值为88.41%,而传统方法的分类准确率均值为81.9%,可见本实施例方法比传统方法在分类准确率方面提升了约10个百分点。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (9)
1.一种基于特征融合的音频分类方法,其特征在于,包括如下步骤:
步骤1、获取音频场景数据,进行预处理,得到音频信号;
步骤2、将所述音频信号转换成梅尔声谱图,并按比例划分为两部分,一部分作为训练集,另一部分作为测试集;
步骤3、将所述训练集输入融合模型进行训练,通过融合数据特征优化模型参数,并调整超参数,得到数据标签;
步骤4、将所述测试集输入所述融合模型进行计算,得到分类标签;
步骤5、基于分类标签,进行评价计算,得到分类准确率。
2.根据权利要求1所述的方法,其特征在于,所述步骤1中预处理的方法包括如下步骤:
步骤11、对所述音频场景数据进行集成;
步骤12、对所述音频场景数据进行规约;
步骤13、将所述音频场景数据变换成音频信号;
步骤14、对所述音频信号进行特征提取。
3.根据权利要求1所述的方法,其特征在于,所述融合模型包括至少两个全连接神经网络模型,分别用于提取梅尔声谱图的特征。
4.根据权利要求3所述的方法,其特征在于,所述步骤3包括如下步骤:
步骤31、将所述训练集输入至融合模型中的第一全连接神经网络,得到第一数据特征;
步骤32、将所述训练集输入至融合模型中的第二全连接神经网络,得到第二数据特征;所述第二全连接神经网络接近但不同于所述第一全连接神经网络;
步骤33、将所述第一数据特征与所述第二数据特征相加,得到第三数据特征;
步骤34、将所述第三数据特征通过融合模型的激活函数计算,得到数据标签。
5.根据权利要求4所述的方法,其特征在于,所述第二全连接神经网络接近但不同于所述第一全连接神经网络,具体是指二者的层数、输入数据维度及输出数据维度分别相同。
6.根据权利要求1所述的方法,其特征在于,所述步骤4中得到分类标签后,还包括若干次迭代交叉验证。
7.根据权利要求6所述的方法,其特征在于,所述迭代交叉验证的次数为至少5次。
8.一种基于特征融合的音频分类系统,其特征在于,包括数据接收模块、数据处理模块及结果生成模块:
所述数据接收模块,用于接收音频场景数据;
所述数据处理模块,包括预处理单元、转换划分单元、融合模型单元、训练单元及评价单元;
所述预处理单元,对所述音频场景数据进行预处理,得到音频信号;
所述转换划分单元,将所述音频信号转换为梅尔声谱图,并按比例划分为两部分,一部分作为训练集,另一部分作为测试集;
所述融合模型单元,用于存储融合模型,所述融合模型包括至少两个用于识别特征的深度学习模型;
所述训练单元,调用所述训练集迭代训练所述融合模型,基于所述测试集,通过所述融合模型计算,得到分类标签;
所述评价单元,基于所述分类标签,进行评价计算,得到分类准确率;
所述结果生成模块,用于对外发布所述分类标签及所述分类准确率。
9.一种基于特征融合的音频分类装置,其特征在于,包括处理器、存储器及总线,所述存储器存储可由处理器读取的指令及数据,所述处理器用于调用所述存储器中的指令及数据,以执行如权利要求1~7中任一所述的方法,所述总线连接各功能部件之间传送信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310111225.3A CN116453506A (zh) | 2023-02-14 | 2023-02-14 | 一种基于特征融合的音频分类方法、系统及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310111225.3A CN116453506A (zh) | 2023-02-14 | 2023-02-14 | 一种基于特征融合的音频分类方法、系统及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116453506A true CN116453506A (zh) | 2023-07-18 |
Family
ID=87129125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310111225.3A Pending CN116453506A (zh) | 2023-02-14 | 2023-02-14 | 一种基于特征融合的音频分类方法、系统及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116453506A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116935278A (zh) * | 2023-07-25 | 2023-10-24 | 广东技术师范大学 | 基于同步信号的车型识别方法、装置、电子设备及介质 |
-
2023
- 2023-02-14 CN CN202310111225.3A patent/CN116453506A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116935278A (zh) * | 2023-07-25 | 2023-10-24 | 广东技术师范大学 | 基于同步信号的车型识别方法、装置、电子设备及介质 |
CN116935278B (zh) * | 2023-07-25 | 2024-02-13 | 广东技术师范大学 | 基于同步信号的车型识别方法、装置、电子设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Guo et al. | Deep multimodal representation learning: A survey | |
CN112100349A (zh) | 一种多轮对话方法、装置、电子设备及存储介质 | |
WO2019056497A1 (zh) | 驾驶模型训练方法、驾驶人识别方法、装置、设备及介质 | |
WO2023160472A1 (zh) | 一种模型训练方法及相关设备 | |
CN109887484A (zh) | 一种基于对偶学习的语音识别与语音合成方法及装置 | |
CN112115267A (zh) | 文本分类模型的训练方法、装置、设备及存储介质 | |
CN112765315B (zh) | 一种法律场景智能分类系统和方法 | |
CN104463194A (zh) | 一种人车分类方法及装置 | |
CN116049412B (zh) | 文本分类方法、模型训练方法、装置及电子设备 | |
Gao et al. | An adversarial feature distillation method for audio classification | |
CN113688894A (zh) | 一种融合多粒度特征的细粒度图像分类方法 | |
CN116453506A (zh) | 一种基于特征融合的音频分类方法、系统及装置 | |
CN113159067A (zh) | 一种基于多粒度局部特征软关联聚合的细粒度图像辨识方法及装置 | |
CN110969073A (zh) | 一种基于特征融合与bp神经网络的人脸表情识别方法 | |
CN110415697A (zh) | 一种基于深度学习的车载语音控制方法及其系统 | |
CN115798515A (zh) | 一种基于transformer的声场景分类方法 | |
CN115690245A (zh) | 一种基于属性驱动gan的文本生成图像的方法 | |
CN117743517A (zh) | 基于人工智能的智慧冰雪旅游管理系统及方法 | |
CN114333768A (zh) | 语音检测方法、装置、设备和存储介质 | |
CN117634459A (zh) | 目标内容生成及模型训练方法、装置、系统、设备及介质 | |
Sa et al. | Attention and adaptive bilinear matching network for cross-domain few-shot defect classification of industrial parts | |
CN114998698A (zh) | 动态时域卷积网络驱动的多模态情感识别方法 | |
CN114333790A (zh) | 数据处理方法、装置、设备、存储介质及程序产品 | |
CN112101559A (zh) | 一种基于机器学习的案件罪名推断方法 | |
Chang et al. | Code Transform Model Producing High-Performance Program. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |