CN111402922B - 基于小样本的音频信号分类方法、装置、设备及存储介质 - Google Patents
基于小样本的音频信号分类方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111402922B CN111402922B CN202010154914.9A CN202010154914A CN111402922B CN 111402922 B CN111402922 B CN 111402922B CN 202010154914 A CN202010154914 A CN 202010154914A CN 111402922 B CN111402922 B CN 111402922B
- Authority
- CN
- China
- Prior art keywords
- audio signal
- mel
- depth residual
- residual error
- small sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 226
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 167
- 238000001914 filtration Methods 0.000 claims abstract description 125
- 238000013508 migration Methods 0.000 claims abstract description 76
- 230000005012 migration Effects 0.000 claims abstract description 76
- 238000013145 classification model Methods 0.000 claims abstract description 73
- 230000003044 adaptive effect Effects 0.000 claims abstract description 39
- 238000000605 extraction Methods 0.000 claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 27
- 238000001228 spectrum Methods 0.000 claims description 24
- 238000005457 optimization Methods 0.000 claims description 21
- 230000000007 visual effect Effects 0.000 claims description 20
- 238000005070 sampling Methods 0.000 claims description 17
- 238000010276 construction Methods 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 238000012795 verification Methods 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 description 16
- 238000013528 artificial neural network Methods 0.000 description 10
- 230000007613 environmental effect Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000007547 defect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000007635 classification algorithm Methods 0.000 description 3
- 230000002411 adverse Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000010485 coping Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Biophysics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Stereophonic System (AREA)
Abstract
本发明属于音频分类技术领域,公开了一种基于小样本的音频信号分类方法、装置、设备及存储介质,所述方法包括通过获取小样本的原始音频信号;基于梅尔滤波算法构建自适应梅尔滤波算法;基于深度残差网络训练得到迁移深度残差网络;将自适应梅尔滤波算法作为前置提取层,迁移深度残差网络作为后置分类层,建立小样本音频信号分类模型;将原始音频信号输入小样本音频信号分类模型,以获取原始音频信号对应的信号分类结果。通过上述方式,将自适应梅尔滤波算法和迁移深度残差网络融合构建小样本音频信号分类模型,在不同属性的小样本音频数据集上有相对其他算法更高的分类精度,从而解决了现有技术针对小样本的音频信号分类精度不高的问题。
Description
技术领域
本发明涉及音频分类技术领域,尤其涉及一种基于小样本的音频信号分类方法、装置、设备及存储介质。
背景技术
音频和视频从听觉和视觉上共同构成了我们对现实世界的感知,其中音频在信号处理领域一直占有重要地位。作为音频信号处理领域的关键技术之一,音频信号分类也因此迎来了关注和发展。多数早期研究使用的主要是基于距离度量的各类算法,诸如K最近邻(KNN)、支持向量机(SVM)等对音频进行特征提取、分类等工作,这些研究取得了一定的成果,推动了音频分类技术的进步,但对音频数据的规模和质量等方面都提出了苛刻的需求,分类精度上也存在明显不足。
随后,一些学者开始尝试将隐马尔科夫模型、小波变换等方法应用于音频分类中,在音频特征提取和区分等方面进行了探索,提出的一系列算法降低了对音频质量等的要求;此外有学者尝试将音频自身包含的内容纳入考虑范围,并在部分特定场景下取得了较好的分类结果,为音频分类领域开拓了视野。深度学习技术的关键不足得到解决后,在图像处理、模式识别等众多领域都取得了优异的表现,受此启发,深度神经网络、卷积神经网络及在此基础上发展出的基于卷积约束的玻尔兹曼机和融合卷积神经网络的相位编码梅尔滤波器组等多种模型被应用于音频数据的特征提取和分类等领域,在有充分的数据集规模保障的情况下,这些模型可以取得令人满意的效果。然而实际应用中常常要面对乐声、人声、背景声、噪声等不同类别的声音,随着隐私保护的完善又难以大量搜集有效样本,因此亟待能应对这种复杂场景的算法,能够在小样本下完成音频的精准分类。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种基于小样本的音频信号分类方法、装置、设备及存储介质,旨在解决现有技术针对小样本的音频信号分类精度不高的技术问题。
为实现上述目的,本发明提供了一种基于小样本的音频信号分类方法,所述方法包括以下步骤:
获取小样本的原始音频信号;
基于梅尔滤波算法构建自适应梅尔滤波算法;
基于深度残差网络训练得到迁移深度残差网络;
将所述自适应梅尔滤波算法作为前置提取层,所述迁移深度残差网络作为后置分类层,建立小样本音频信号分类模型;
将所述原始音频信号输入所述小样本音频信号分类模型,以获取所述原始音频信号对应的信号分类结果。
优选地,所述基于梅尔滤波算法构建自适应梅尔滤波算法的步骤,具体包括:
获取梅尔滤波算法的可变参数,并将所述可变参数作为梅尔相关参数,所述梅尔相关参数包括重叠采样点数、窗长、梅尔滤波器个数及采样频率;
对所述梅尔相关参数设置初始值和迭代阈值,并在所述梅尔滤波算法中设置堆栈结构;
基于所述梅尔滤波算法、所述堆栈结构及所述初始值和所述迭代阈值构建自适应梅尔滤波算法。
优选地,所述基于深度残差网络训练得到迁移深度残差网络的步骤,具体包括:
获取可视化图像数据集的权重,并将所述可视化图像数据集的权重迁移至深度残差网络,以获得初始深度残差网络;
在所述初始深度残差网络的权重层和输出层之间添加全局平均池化层,以获得池化深度残差网络;
在确定所述池化深度残差网络的可变权重时,采用小样本学习算法对所述池化深度残差网络进行训练,以获得训练后的池化深度残差网络;
对所述训练后的池化深度残差网络进行网络模型优化,以获得迁移深度残差网络。
优选地,所述对所述训练后的池化深度残差网络进行网络模型优化,以获得迁移深度残差网络的步骤,具体包括:
采用Adam优化算法对所述训练后的池化深度残差网络进行参数优化,以获得优化后的池化深度残差网络;
采用交叉熵算法对所述优化后的池化深度残差网络进行交叉验证,根据验证结果对所述优化后的池化深度残差网络中的预设超参数进行调整,以获得迁移深度残差网络。
优选地,所述将所述原始音频信号输入所述小样本音频信号分类模型,以获取所述原始音频信号对应的信号分类结果的步骤,具体包括:
将所述原始音频信号输入所述小样本音频信号分类模型,基于所述自适应梅尔滤波算法对所述原始音频信号进行音频特征提取和时频图像转换,以获得梅尔频谱图像;
基于所述迁移深度残差网络对所述梅尔频谱图像进行图像分类,以获取所述原始音频信号对应的信号分类结果。
优选地,所述将所述原始音频信号输入所述小样本音频信号分类模型,基于所述自适应梅尔滤波算法对所述原始音频信号进行音频特征提取和时频图像转换,以获得梅尔频谱图像的步骤,具体包括:
将所述原始音频信号输入所述小样本音频信号分类模型;
基于所述自适应梅尔滤波算法对所述原始音频信号进行音频特征提取,以获得所述原始音频信号的梅尔频率倒谱系数,其中,所述音频特征提取包括预加重、分帧、加窗、快速傅里叶变换及梅尔滤波;
根据所述梅尔频率倒谱系数及预设能量计算公式获取对数能量;
基于离散余弦变换对所述对数能量进行时频图像转换以使所述原始音频信号的音频特征映射在频域,以获得梅尔频谱图像。
优选地,所述基于所述迁移深度残差网络对所述梅尔频谱图像进行图像分类,以获取所述原始音频信号对应的信号分类结果的步骤之后,还包括:
获取所述小样本音频信号分类模型中验证集的分类精度;
根据所述分类精度向所述自适应梅尔滤波算法中的堆栈结构写入当前迭代次数和所述分类精度对应的梅尔相关参数;
遍历所述堆栈结构,根据梯度下降算法基于预设分类精度及所述预设分类精度对应的梅尔相关参数调整所述自适应梅尔滤波算法的梅尔相关参数;
当所述当前迭代次数等于预设迭代次数时,停止所述自适应梅尔滤波算法的迭代,将所述堆栈结构中的梅尔相关参数作为优化梅尔相关参数;
根据所述优化梅尔相关参数优化所述自适应梅尔滤波算法。
此外,为实现上述目的,本发明还提出一种基于小样本的音频信号分类装置,所述装置包括:
信号获取模块,用于获取小样本的原始音频信号;
算法构建模块,用于基于梅尔滤波算法构建自适应梅尔滤波算法;
网络训练模块,用于基于深度残差网络训练得到迁移深度残差网络;
模型构建模块,用于将所述自适应梅尔滤波算法作为前置提取层,所述迁移深度残差网络作为后置分类层,建立小样本音频信号分类模型;
类别输出模块,用于将所述原始音频信号输入所述小样本音频信号分类模型,以获取所述原始音频信号对应的信号分类结果。
此外,为实现上述目的,本发明还提出一种电子设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于小样本的音频信号分类程序,所述基于小样本的音频信号分类程序配置为实现如上文所述的基于小样本的音频信号分类方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有基于小样本的音频信号分类程序,所述基于小样本的音频信号分类程序被处理器执行时实现如上文所述的基于小样本的音频信号分类方法的步骤。
本发明通过获取小样本的原始音频信号;基于梅尔滤波算法构建自适应梅尔滤波算法;基于深度残差网络训练得到迁移深度残差网络;将所述自适应梅尔滤波算法作为前置提取层,所述迁移深度残差网络作为后置分类层,建立小样本音频信号分类模型;将所述原始音频信号输入所述小样本音频信号分类模型,以获取所述原始音频信号对应的信号分类结果。通过上述方式,在提出自适应梅尔滤波算法和迁移深度残差网络的前提下,将两者融合构建并提出了小样本音频信号分类模型,小样本音频信号分类模型在不同属性的小样本音频数据集上均有相对其他主流先进算法更高的分类精度,从而解决了现有技术针对小样本的音频信号分类精度不高的技术问题。
附图说明
图1是本发明实施例方案涉和的硬件运行环境的电子设备的结构示意图;
图2为本发明基于小样本的音频信号分类方法第一实施例的流程示意图;
图3为本发明基于小样本的音频信号分类方法第二实施例的流程示意图;
图4为本发明基于小样本的音频信号分类装置第一实施例的结构框图。
本发明目的的实现、功能特点和优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉和的硬件运行环境的电子设备结构示意图。
如图1所示,该电子设备可以包括:处理器1001,例如中央处理器(CentralProcessing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以和基于小样本的音频信号分类程序。
在图1所示的电子设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明电子设备中的处理器1001、存储器1005可以设置在电子设备中,所述电子设备通过处理器1001调用存储器1005中存储的基于小样本的音频信号分类程序,并执行本发明实施例提供的基于小样本的音频信号分类方法。
本发明实施例提供了一种基于小样本的音频信号分类方法,参照图2,图2为本发明一种基于小样本的音频信号分类方法第一实施例的流程示意图。
本实施例中,所述基于小样本的音频信号分类方法包括以下步骤:
步骤S10:获取小样本的原始音频信号。
需要说明的是,音频信号分类是音频处理领域的基础技术之一,在小样本音频数据场景下,常用音频信号分类算法如深度神经网络和卷积神经网络等还存在分类精度较低等不足。本实施例中,小样本是相对大样本而言的,在分类问题中,当一个类别下的样本数量少于50时,可称之为小样本场景,当样本数量不足10个时,属于极少样本条件。例如,获取小样本的原始音频信号可以选择ESC-10(环境声音)和music speech(人-乐声)作为两个基本数据集模拟小样本环境,ESC-10含有10种类别的环境声音,每种40个音频片段;musicspeech有乐声(music)和人声(speech)两种类别,每种64个音频片段(音频信号分类时随机选取的样本数量要少于50,如选取其中40个)。以上原始音频信号的样本可以为wav无损音频格式或其他音频格式,同时尽量避免其他因素对音频信号分类的影响。
步骤S20:基于梅尔滤波算法构建自适应梅尔滤波算法。
易于理解的是,所述梅尔滤波算法可以为朴素梅尔滤波算法,朴素梅尔滤波算法虽能完成音频特征提取和时频图像转换,但在小样本情况下难以得到有足够区分度的音频特征,且朴素梅尔滤波算法在运用的全过程中采用固定的采样率、梅尔滤波器组数、窗长及其他相关参数,这种参数不变性使朴素梅尔滤波算法中每一局部运算结果难以达到局部最优,进而导致滤波结果难以全局最优。因此,在吸收朴素梅尔滤波优点的基础上,基于朴素梅尔滤波算法构建自适应梅尔滤波算法。
具体地,所述基于梅尔滤波算法构建自适应梅尔滤波算法的步骤,具体包括:获取梅尔滤波算法的可变参数,并将所述可变参数作为梅尔相关参数,所述梅尔相关参数包括重叠采样点数、窗长、梅尔滤波器个数及采样频率;对所述梅尔相关参数设置初始值和迭代阈值,并在所述梅尔滤波算法中设置堆栈结构;基于所述梅尔滤波算法、所述堆栈结构及所述初始值和所述迭代阈值构建自适应梅尔滤波算法。其中,所述梅尔滤波算法可以为朴素梅尔滤波算法。
步骤S30:基于深度残差网络训练得到迁移深度残差网络。
需要说明的是,深度残差网络是继深度神经网络、卷积神经网络等之后出现的神经网络模型。深度残差网络使用的初衷是图像分类,同时深度残差网络的深度和权重数量对于小样本的原始音频信号来说过深且过多,直接在小样本情况下使用深度残差网络很难有效初始化权重值,也就很难得到理想的音频信号分类效果,因此,基于深度残差网络训练得到迁移深度残差网络,将残差思想带入音频信号分类领域,完成迁移深度残差网络构建,并参考小样本学习算法训练迁移深度残差网络的可变权重,在小样本原始音频信号情况下利用可视化图像数据集的百万级权重,提高音频信号分类精度。
此前的深度神经网络或卷积神经网络等神经网络内部都是顺序连接,数据只有先经过第k层之后,才会经过第k+1层,输入的每一个样本都会均衡影响到所有的权重并反过来受到所有权重的影响,这是深度瓶颈问题产生的原因之一。可视化图像数据集首次提出了捷径的概念,在神经网络的不同层次之间直接建立跨层次的连接,样本既可以像常规网络一样选择逐层传递,也可以通过捷径直接跨越不想经过的层次,从而有效避免了样本对所有权重的影响。可视化图像数据集是一个大型图像数据集,样本数量在千万级别,自深度残差网络提出后,已有研究机构使用可视化图像数据集在深度残差网络上做了训练并发布了对应的权重信息。为节省构建迁移深度残差网络的构建时间,提高迁移深度残差网络的实用性,引入迁移学习的相关思想,将可视化图像数据集权重迁移至深度残差网络作为初始权重,构建迁移深度残差网络,可以有效解决小样本情况下大量权重无法有效初始化的问题,令迁移深度残差网络继承深度残差网络在可视化图像数据集上取得的经验。
具体地,所述基于深度残差网络训练得到迁移深度残差网络的步骤,具体包括:获取可视化图像数据集的权重,并将所述可视化图像数据集的权重迁移至深度残差网络,以获得初始深度残差网络;在所述初始深度残差网络的权重层和输出层之间添加全局平均池化层,以获得池化深度残差网络;在确定所述池化深度残差网络的可变权重时,采用小样本学习算法对所述池化深度残差网络进行训练,以获得训练后的池化深度残差网络;对所述训练后的池化深度残差网络进行网络模型优化,以获得迁移深度残差网络。其中,小样本学习算法是指:样本中存在N(N≥2)种类别,每个类别下包含M(M≤50)份样本,小样本学习算法可表述为随机抽取N*m(0<m<M)份样本作为输入样本,剩下N*(M-m)(0<m<M)份样本作为评估的一种学习算法。
具体地,所述对所述训练后的池化深度残差网络进行网络模型优化,以获得迁移深度残差网络的步骤,具体包括:采用Adam优化算法对所述训练后的池化深度残差网络进行参数优化,以获得优化后的池化深度残差网络;采用交叉熵算法对所述优化后的池化深度残差网络进行交叉验证,根据验证结果对所述优化后的池化深度残差网络中的预设超参数进行调整,以获得迁移深度残差网络。
步骤S40:将所述自适应梅尔滤波算法作为前置提取层,所述迁移深度残差网络作为后置分类层,建立小样本音频信号分类模型。
易于理解的是,自适应梅尔滤波算法在思想上类似误差逆向传播算法,需要与后置模型联动,因此,将所述自适应梅尔滤波算法作为前置提取层,所述迁移深度残差网络作为后置分类层,建立小样本音频信号分类模型。自适应梅尔滤波算法的误差传播和梯度下降的优劣和快慢易受后置模型的影响,因此小样本音频信号分类模型中所述自适应梅尔滤波算法和所述迁移深度残差网络并非互相独立的个体,而是两个不可分割的部分。
步骤S50:将所述原始音频信号输入所述小样本音频信号分类模型,以获取所述原始音频信号对应的信号分类结果。
需要说明的是,所述将所述原始音频信号输入所述小样本音频信号分类模型,以获取所述原始音频信号对应的信号分类结果的步骤,具体包括:将所述原始音频信号输入所述小样本音频信号分类模型,基于所述自适应梅尔滤波算法对所述原始音频信号进行音频特征提取和时频图像转换,以获得梅尔频谱图像;基于所述迁移深度残差网络对所述梅尔频谱图像进行图像分类,以获取所述原始音频信号对应的信号分类结果。
具体地,为测试所述小样本音频信号分类模型的可用性,分别与朴素梅尔滤波提取频谱图后融合迁移深度残差网络(即MF-TDRN模型)对比验证自适应梅尔滤波算法,与AMF-inception v3(AMF为自适应梅尔滤波算法,inception v3为一个不包含残差的分类模型)对比验证迁移深度残差网络,与卷积神经网络对比验证整个小样本音频信号分类模型。选择ESC-10(环境声音)和music speech(人-乐声)作为两个基本数据集模拟小样本环境,ESC-10含有10种类别的环境声音,每种40个音频片段;music speech有乐声(music)和人声(speech)两种类别,每种64个(实验时随机选取其中40个)音频片段。以上原始音频信号的样本可以为wav无损音频格式或其他音频格式,同时尽量避免其他因素对音频信号分类的影响。为进一步扩展实验场景,全面衡量小样本音频信号分类模型的性能,将ESC-10(环境声音)和music speech(人-乐声)两个数据集融合后形成含12个类别,每个类别40个片段的混合数据集ESC-10&music speech作为第三个数据集加入实验。本实施例将样本划分为80%训练集和20%测试集并做到控制变量以保证公平性,实验结果保留两位小数。
实验结果表明:在ESC-10(环境声音)上,小样本音频信号分类模型的分类精度为91.14%,MF-TDRN模型的分类精度为89.97%,AMF-inception v3模型精度为83.54%,卷积神经网络精度为79.75%;在music speech(人-乐声)上,小样本音频信号分类模型的精度为96.00%,MF-TDRN模型精度为92.00%,AMF-inception v3模型精度为95.90%,卷积神经网络精度为92.00%,在混合数据集ESC-10&music speech上,小样本音频信号分类模型的分类精度为95.24%,MF-TDRN模型的分类精度为93.33%,AMF-inception v3模型精度为90.48%,卷积神经网络精度为83.81%。上述实验结果百分比越大分类精度越高,在提出自适应梅尔滤波算法和迁移深度残差网络的前提下,将两者融合构建并提出了小样本音频信号分类模型并在二分类、多分类等不同属性的小样本数据集上做了验证和对比实验。实验结果表明当需要分类的类别较多时,小样本音频信号分类模型的分类精度比起MF-TDRN模型、AMF-inception v3模型及卷积神经网络等算法优势较大。总的来说,本实施例提出的小样本音频信号分类模型在不同属性的小样本音频数据集上均有相对其他主流先进算法更高的分类精度。
本实施例通过获取小样本的原始音频信号;基于梅尔滤波算法构建自适应梅尔滤波算法;基于深度残差网络训练得到迁移深度残差网络;将所述自适应梅尔滤波算法作为前置提取层,所述迁移深度残差网络作为后置分类层,建立小样本音频信号分类模型;将所述原始音频信号输入所述小样本音频信号分类模型,以获取所述原始音频信号对应的信号分类结果。通过上述方式,在提出自适应梅尔滤波算法和迁移深度残差网络的前提下,将两者融合构建并提出了小样本音频信号分类模型,经过对比实验小样本音频信号分类模型在不同属性的小样本音频数据集上均有相对其他主流先进算法更高的分类精度,从而解决了现有技术针对小样本的音频信号分类精度不高的技术问题。
参考图3,图3为本发明一种基于小样本的音频信号分类方法第二实施例的流程示意图。基于上述第一实施例,本实施例基于小样本的音频信号分类方法在所述步骤S50,具体包括:
S501:将所述原始音频信号输入所述小样本音频信号分类模型,基于所述自适应梅尔滤波算法对所述原始音频信号进行音频特征提取和时频图像转换,以获得梅尔频谱图像。
需要说明的是,所述将所述原始音频信号输入所述小样本音频信号分类模型,基于所述自适应梅尔滤波算法对所述原始音频信号进行音频特征提取和时频图像转换,以获得梅尔频谱图像的步骤,具体包括:将所述原始音频信号输入所述小样本音频信号分类模型;基于所述自适应梅尔滤波算法对所述原始音频信号进行音频特征提取,以获得所述原始音频信号的梅尔频率倒谱系数,其中,所述音频特征提取包括预加重、分帧、加窗、快速傅里叶变换及梅尔滤波;根据所述梅尔频率倒谱系数及预设能量计算公式获取对数能量;基于离散余弦变换对所述对数能量进行时频图像转换以使所述原始音频信号的音频特征映射在频域,以获得梅尔频谱图像。
具体地,预加重阶段的目的是大幅弱化声音信号中的低频部分,减少低频干扰,可以使用高通量滤波器对输入信号进行截频。对于时域上连续的音频信号,很难直接借助计算机处理,即使原始音频信号经过采样后变换为采样点,直接处理每一个采样点依然会带来极高的时间和空间开销,对采样后的音频分帧,就是将每若干个采样点视为一帧,这样需要处理的对象就转换为聚合后的帧,降低了时空复杂度。而加窗是防止在处理当前帧时受到其他帧的干扰并通过窗间重叠增强每一帧之间的连续性。时域信号虽然直观,但舍弃了频率范围内的特征,直接使用无疑会削弱分类算法的表现,因此在加窗后通常会进行快速傅里叶变换将时域信号转为频域信号。通过梅尔约束条件求解梅尔倒谱系数,实现将线性频率拟合为契合人类听觉系统的非线性频率,符合梅尔约束条件的滤波器称为梅尔滤波器。根据梅尔滤波器个数及预设能量计算公式获取对数能量;所述对数能量经过离散余弦变换以使所述原始音频信号的音频特征映射在频域,以获得梅尔频谱图像。
S502:基于所述迁移深度残差网络对所述梅尔频谱图像进行图像分类,以获取所述原始音频信号对应的信号分类结果。
易于理解的是,所述基于所述迁移深度残差网络对所述梅尔频谱图像进行图像分类,以获取所述原始音频信号对应的信号分类结果的步骤之后,还包括:获取所述小样本音频信号分类模型中验证集的分类精度;根据所述分类精度向所述自适应梅尔滤波算法中的堆栈结构写入当前迭代次数和所述分类精度对应的梅尔相关参数;遍历所述堆栈结构,根据梯度下降算法基于预设分类精度及所述预设分类精度对应的梅尔相关参数调整所述自适应梅尔滤波算法的梅尔相关参数;当所述当前迭代次数等于预设迭代次数时,停止所述自适应梅尔滤波算法的迭代,将所述堆栈结构中的梅尔相关参数作为优化梅尔相关参数;根据所述优化梅尔相关参数优化所述自适应梅尔滤波算法。
具体地,为从小样本的原始音频信号中提取到区分度更高的时频图像,初次提取原始音频信号的音频特征时,自适应梅尔滤波算法为重叠采样点数、窗长、梅尔滤波器个数及采样频率等大部分可变参数设置初始值和迭代阈值N,并设置堆栈结构记录后置模型反馈和当前参数。初次提取完成后将音频特征送入后续模型即所述迁移深度残差网络中进行音频信号分类,分类完成后将验证集上得到的分类精度发送至前置提取层,前置提取层收到后向堆栈结构写入当前迭代次数n、分类精度和梅尔相关参数等内容,遍历堆栈结构并根据已有最佳分类精度及对应的梅尔相关参数使用梯度下降算法调整第n+1次迭代时的梅尔相关参数。当当前迭代次数n等于迭代阈值N时迭代停止,以堆栈结构中现有最佳分类精度对应的梅尔相关参数优化自适应梅尔滤波算法,至此自适应梅尔滤波算法结束。自适应梅尔滤波算法在思想上类似误差逆向传播算法,需要与后置模型联动。
本实施例通过将所述原始音频信号输入所述小样本音频信号分类模型,基于所述自适应梅尔滤波算法对所述原始音频信号进行音频特征提取和时频图像转换,以获得梅尔频谱图像;基于所述迁移深度残差网络对所述梅尔频谱图像进行图像分类,以获取所述原始音频信号对应的信号分类结果。通过上述方式,在提出自适应梅尔滤波算法和迁移深度残差网络的前提下,将两者融合构建并提出了小样本音频信号分类模型,通过自适应梅尔滤波算法进行音频特征提取和时频图像转换,以获得梅尔频谱图像,通过迁移深度残差网络对梅尔频谱图像进行图像分类,获得原始音频信号对应的音频分类结果,从而解决了现有技术针对小样本的音频信号分类精度不高的技术问题。
参照图4,图4为本发明基于小样本的音频信号分类装置第一实施例的结构框图。
如图4所示,本发明实施例提出的基于小样本的音频信号分类装置包括:
信号获取模块10,用于获取小样本的原始音频信号。
需要说明的是,音频信号分类是音频处理领域的基础技术之一,在小样本音频数据场景下,常用音频信号分类算法如深度神经网络和卷积神经网络等还存在分类精度较低等不足。本实施例中,小样本是相对大样本而言的,在分类问题中,当一个类别下的样本数量少于50时,可称之为小样本场景,当样本数量不足10个时,属于极少样本条件。例如,获取小样本的原始音频信号可以选择ESC-10(环境声音)和music speech(人-乐声)作为两个基本数据集模拟小样本环境,ESC-10含有10种类别的环境声音,每种40个音频片段;musicspeech有乐声(music)和人声(speech)两种类别,每种64个音频片段(音频信号分类时随机选取的样本数量要少于50,如选取其中40个)。以上原始音频信号的样本可以为wav无损音频格式或其他音频格式,同时尽量避免其他因素对音频信号分类的影响。
算法构建模块20,用于基于梅尔滤波算法构建自适应梅尔滤波算法。
易于理解的是,所述梅尔滤波算法可以为朴素梅尔滤波算法,朴素梅尔滤波算法虽能完成音频特征提取和时频图像转换,但在小样本情况下难以得到有足够区分度的音频特征,且朴素梅尔滤波算法在运用的全过程中采用固定的采样率、梅尔滤波器组数、窗长及其他相关参数,这种参数不变性使朴素梅尔滤波算法中每一局部运算结果难以达到局部最优,进而导致滤波结果难以全局最优。因此,在吸收朴素梅尔滤波优点的基础上,基于朴素梅尔滤波算法构建自适应梅尔滤波算法。
具体地,所述基于梅尔滤波算法构建自适应梅尔滤波算法的步骤,具体包括:获取梅尔滤波算法的可变参数,并将所述可变参数作为梅尔相关参数,所述梅尔相关参数包括重叠采样点数、窗长、梅尔滤波器个数及采样频率;对所述梅尔相关参数设置初始值和迭代阈值,并在所述梅尔滤波算法中设置堆栈结构;基于所述梅尔滤波算法、所述堆栈结构及所述初始值和所述迭代阈值构建自适应梅尔滤波算法。其中,所述梅尔滤波算法可以为朴素梅尔滤波算法。
网络训练模块30,用于基于深度残差网络训练得到迁移深度残差网络。
需要说明的是,深度残差网络是继深度神经网络、卷积神经网络等之后出现的神经网络模型。深度残差网络使用的初衷是图像分类,同时深度残差网络的深度和权重数量对于小样本的原始音频信号来说过深且过多,直接在小样本情况下使用深度残差网络很难有效初始化权重值,也就很难得到理想的音频信号分类效果,因此,基于深度残差网络训练得到迁移深度残差网络,将残差思想带入音频信号分类领域,完成迁移深度残差网络构建,并参考小样本学习算法训练迁移深度残差网络的可变权重,在小样本原始音频信号情况下利用可视化图像数据集的百万级权重,提高音频信号分类精度。
此前的深度神经网络或卷积神经网络等神经网络内部都是顺序连接,数据只有先经过第k层之后,才会经过第k+1层,输入的每一个样本都会均衡影响到所有的权重并反过来受到所有权重的影响,这是深度瓶颈问题产生的原因之一。可视化图像数据集首次提出了捷径的概念,在神经网络的不同层次之间直接建立跨层次的连接,样本既可以像常规网络一样选择逐层传递,也可以通过捷径直接跨越不想经过的层次,从而有效避免了样本对所有权重的影响。可视化图像数据集是一个大型图像数据集,样本数量在千万级别,自深度残差网络提出后,已有研究机构使用可视化图像数据集在深度残差网络上做了训练并发布了对应的权重信息。为节省构建迁移深度残差网络的构建时间,提高迁移深度残差网络的实用性,引入迁移学习的相关思想,将可视化图像数据集权重迁移至深度残差网络作为初始权重,构建迁移深度残差网络,可以有效解决小样本情况下大量权重无法有效初始化的问题,令迁移深度残差网络继承深度残差网络在可视化图像数据集上取得的经验。
具体地,所述基于深度残差网络训练得到迁移深度残差网络的步骤,具体包括:获取可视化图像数据集的权重,并将所述可视化图像数据集的权重迁移至深度残差网络,以获得初始深度残差网络;在所述初始深度残差网络的权重层和输出层之间添加全局平均池化层,以获得池化深度残差网络;在确定所述池化深度残差网络的可变权重时,采用小样本学习算法对所述池化深度残差网络进行训练,以获得训练后的池化深度残差网络;对所述训练后的池化深度残差网络进行网络模型优化,以获得迁移深度残差网络。其中,小样本学习算法是指:样本中存在N(N≥2)种类别,每个类别下包含M(M≤50)份样本,小样本学习算法可表述为随机抽取N*m(0<m<M)份样本作为输入样本,剩下N*(M-m)(0<m<M)份样本作为评估的一种学习算法。
具体地,所述对所述训练后的池化深度残差网络进行网络模型优化,以获得迁移深度残差网络的步骤,具体包括:采用Adam优化算法对所述训练后的池化深度残差网络进行参数优化,以获得优化后的池化深度残差网络;采用交叉熵算法对所述优化后的池化深度残差网络进行交叉验证,根据验证结果对所述优化后的池化深度残差网络中的预设超参数进行调整,以获得迁移深度残差网络。
模型构建模块40,用于将所述自适应梅尔滤波算法作为前置提取层,所述迁移深度残差网络作为后置分类层,建立小样本音频信号分类模型。
易于理解的是,自适应梅尔滤波算法在思想上类似误差逆向传播算法,需要与后置模型联动,因此,将所述自适应梅尔滤波算法作为前置提取层,所述迁移深度残差网络作为后置分类层,建立小样本音频信号分类模型。自适应梅尔滤波算法的误差传播和梯度下降的优劣和快慢易受后置模型的影响,因此小样本音频信号分类模型中所述自适应梅尔滤波算法和所述迁移深度残差网络并非互相独立的个体,而是两个不可分割的部分。
类别输出模块50,用于将所述原始音频信号输入所述小样本音频信号分类模型,以获取所述原始音频信号对应的信号分类结果。
需要说明的是,所述将所述原始音频信号输入所述小样本音频信号分类模型,以获取所述原始音频信号对应的信号分类结果的步骤,具体包括:将所述原始音频信号输入所述小样本音频信号分类模型,基于所述自适应梅尔滤波算法对所述原始音频信号进行音频特征提取和时频图像转换,以获得梅尔频谱图像;基于所述迁移深度残差网络对所述梅尔频谱图像进行图像分类,以获取所述原始音频信号对应的信号分类结果。
具体地,为测试所述小样本音频信号分类模型的可用性,分别与朴素梅尔滤波提取频谱图后融合迁移深度残差网络(即MF-TDRN模型)对比验证自适应梅尔滤波算法,与AMF-inception v3(AMF为自适应梅尔滤波算法,inception v3为一个不包含残差的分类模型)对比验证迁移深度残差网络,与卷积神经网络对比验证整个小样本音频信号分类模型。选择ESC-10(环境声音)和music speech(人-乐声)作为两个基本数据集模拟小样本环境,ESC-10含有10种类别的环境声音,每种40个音频片段;music speech有乐声(music)和人声(speech)两种类别,每种64个(实验时随机选取其中40个)音频片段。以上原始音频信号的样本可以为wav无损音频格式或其他音频格式,同时尽量避免其他因素对音频信号分类的影响。为进一步扩展实验场景,全面衡量小样本音频信号分类模型的性能,将ESC-10(环境声音)和music speech(人-乐声)两个数据集融合后形成含12个类别,每个类别40个片段的混合数据集ESC-10&music speech作为第三个数据集加入实验。本实施例将样本划分为80%训练集和20%测试集并做到控制变量以保证公平性,实验结果保留两位小数。
实验结果表明:在ESC-10(环境声音)上,小样本音频信号分类模型的分类精度为91.14%,MF-TDRN模型的分类精度为89.97%,AMF-inception v3模型精度为83.54%,卷积神经网络精度为79.75%;在music speech(人-乐声)上,小样本音频信号分类模型的精度为96.00%,MF-TDRN模型精度为92.00%,AMF-inception v3模型精度为95.90%,卷积神经网络精度为92.00%,在混合数据集ESC-10&music speech上,小样本音频信号分类模型的分类精度为95.24%,MF-TDRN模型的分类精度为93.33%,AMF-inception v3模型精度为90.48%,卷积神经网络精度为83.81%。上述实验结果百分比越大分类精度越高,在提出自适应梅尔滤波算法和迁移深度残差网络的前提下,将两者融合构建并提出了小样本音频信号分类模型并在二分类、多分类等不同属性的小样本数据集上做了验证和对比实验。实验结果表明当需要分类的类别较多时,小样本音频信号分类模型的分类精度比起MF-TDRN模型、AMF-inception v3模型及卷积神经网络等算法优势较大。总的来说,本实施例提出的小样本音频信号分类模型在不同属性的小样本音频数据集上均有相对其他主流先进算法更高的分类精度。
本实施例通过信号获取模块10,用于获取小样本的原始音频信号;算法构建模块20,用于基于梅尔滤波算法构建自适应梅尔滤波算法;网络训练模块30,用于基于深度残差网络训练得到迁移深度残差网络;模型构建模块40,用于将所述自适应梅尔滤波算法作为前置提取层,所述迁移深度残差网络作为后置分类层,建立小样本音频信号分类模型;类别输出模块50,用于将所述原始音频信号输入所述小样本音频信号分类模型,以获取所述原始音频信号对应的信号分类结果。通过上述方式,在提出自适应梅尔滤波算法和迁移深度残差网络的前提下,将两者融合构建并提出了小样本音频信号分类模型,经过对比实验小样本音频信号分类模型在不同属性的小样本音频数据集上均有相对其他主流先进算法更高的分类精度,从而解决了现有技术针对小样本的音频信号分类精度不高的技术问题。
应当理解的是,以上仅为举例说明,对本发明的技术方案并不构成任何限定,在具体应用中,本领域的技术人员可以根据需要进行设置,本发明对此不做限制。
需要说明的是,以上所描述的工作流程仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的,此处不做限制。
另外,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的基于小样本的音频信号分类方法,此处不再赘述。
此外,需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器(Read Only Memory,ROM)/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书和附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (8)
1.一种基于小样本的音频信号分类方法,其特征在于,所述方法包括:
获取小样本的原始音频信号;
获取梅尔滤波算法的可变参数,并将所述可变参数作为梅尔相关参数,所述梅尔相关参数包括重叠采样点数、窗长、梅尔滤波器个数及采样频率;
对所述梅尔相关参数设置初始值和迭代阈值,并在所述梅尔滤波算法中设置堆栈结构;
基于所述梅尔滤波算法、所述堆栈结构及所述初始值和所述迭代阈值构建自适应梅尔滤波算法;
获取可视化图像数据集的权重,并将所述可视化图像数据集的权重迁移至深度残差网络,以获得初始深度残差网络;
在所述初始深度残差网络的权重层和输出层之间添加全局平均池化层,以获得池化深度残差网络;
在确定所述池化深度残差网络的可变权重时,采用小样本学习算法对所述池化深度残差网络进行训练,以获得训练后的池化深度残差网络;
对所述训练后的池化深度残差网络进行网络模型优化,以获得迁移深度残差网络;
将所述自适应梅尔滤波算法作为前置提取层,所述迁移深度残差网络作为后置分类层,建立小样本音频信号分类模型;
将所述原始音频信号输入所述小样本音频信号分类模型,以获取所述原始音频信号对应的信号分类结果。
2.如权利要求1所述的基于小样本的音频信号分类方法,其特征在于,所述对所述训练后的池化深度残差网络进行网络模型优化,以获得迁移深度残差网络的步骤,具体包括:
采用Adam优化算法对所述训练后的池化深度残差网络进行参数优化,以获得优化后的池化深度残差网络;
采用交叉熵算法对所述优化后的池化深度残差网络进行交叉验证,根据验证结果对所述优化后的池化深度残差网络中的预设超参数进行调整,以获得迁移深度残差网络。
3.如权利要求2所述的基于小样本的音频信号分类方法,其特征在于,所述将所述原始音频信号输入所述小样本音频信号分类模型,以获取所述原始音频信号对应的信号分类结果的步骤,具体包括:
将所述原始音频信号输入所述小样本音频信号分类模型,基于所述自适应梅尔滤波算法对所述原始音频信号进行音频特征提取和时频图像转换,以获得梅尔频谱图像;
基于所述迁移深度残差网络对所述梅尔频谱图像进行图像分类,以获取所述原始音频信号对应的信号分类结果。
4.如权利要求3所述的基于小样本的音频信号分类方法,其特征在于,所述将所述原始音频信号输入所述小样本音频信号分类模型,基于所述自适应梅尔滤波算法对所述原始音频信号进行音频特征提取和时频图像转换,以获得梅尔频谱图像的步骤,具体包括:
将所述原始音频信号输入所述小样本音频信号分类模型;
基于所述自适应梅尔滤波算法对所述原始音频信号进行音频特征提取,以获得所述原始音频信号的梅尔频率倒谱系数,其中,所述音频特征提取包括预加重、分帧、加窗、快速傅里叶变换及梅尔滤波;
根据所述梅尔频率倒谱系数及预设能量计算公式获取对数能量;
基于离散余弦变换对所述对数能量进行时频图像转换以使所述原始音频信号的音频特征映射在频域,以获得梅尔频谱图像。
5.如权利要求4所述的基于小样本的音频信号分类方法,其特征在于,所述基于所述迁移深度残差网络对所述梅尔频谱图像进行图像分类,以获取所述原始音频信号对应的信号分类结果的步骤之后,还包括:
获取所述小样本音频信号分类模型中验证集的分类精度;
根据所述分类精度向所述自适应梅尔滤波算法中的堆栈结构写入当前迭代次数和所述分类精度对应的梅尔相关参数;
遍历所述堆栈结构,根据梯度下降算法基于预设分类精度及所述预设分类精度对应的梅尔相关参数调整所述自适应梅尔滤波算法的梅尔相关参数;
当所述当前迭代次数等于预设迭代次数时,停止所述自适应梅尔滤波算法的迭代,将所述堆栈结构中的梅尔相关参数作为优化梅尔相关参数;
根据所述优化梅尔相关参数优化所述自适应梅尔滤波算法。
6.一种基于小样本的音频信号分类装置,其特征在于,所述装置包括:
信号获取模块,用于获取小样本的原始音频信号;
算法构建模块,用于获取梅尔滤波算法的可变参数,并将所述可变参数作为梅尔相关参数,所述梅尔相关参数包括重叠采样点数、窗长、梅尔滤波器个数及采样频率;
算法构建模块,还用于对所述梅尔相关参数设置初始值和迭代阈值,并在所述梅尔滤波算法中设置堆栈结构;
算法构建模块,还用于基于所述梅尔滤波算法、所述堆栈结构及所述初始值和所述迭代阈值构建自适应梅尔滤波算法;
网络训练模块,用于获取可视化图像数据集的权重,并将所述可视化图像数据集的权重迁移至深度残差网络,以获得初始深度残差网络;
网络训练模块,还用于在所述初始深度残差网络的权重层和输出层之间添加全局平均池化层,以获得池化深度残差网络;
网络训练模块,还用于在确定所述池化深度残差网络的可变权重时,采用小样本学习算法对所述池化深度残差网络进行训练,以获得训练后的池化深度残差网络;
网络训练模块,还用于对所述训练后的池化深度残差网络进行网络模型优化,以获得迁移深度残差网络;
模型构建模块,用于将所述自适应梅尔滤波算法作为前置提取层,所述迁移深度残差网络作为后置分类层,建立小样本音频信号分类模型;
类别输出模块,用于将所述原始音频信号输入所述小样本音频信号分类模型,以获取所述原始音频信号对应的信号分类结果。
7.一种电子设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于小样本的音频信号分类程序,所述基于小样本的音频信号分类程序配置为实现如权利要求1至5中任一项所述的基于小样本的音频信号分类方法的步骤。
8.一种存储介质,其特征在于,所述存储介质上存储有基于小样本的音频信号分类程序,所述基于小样本的音频信号分类程序被处理器执行时实现如权利要求1至5任一项所述的基于小样本的音频信号分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010154914.9A CN111402922B (zh) | 2020-03-06 | 2020-03-06 | 基于小样本的音频信号分类方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010154914.9A CN111402922B (zh) | 2020-03-06 | 2020-03-06 | 基于小样本的音频信号分类方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111402922A CN111402922A (zh) | 2020-07-10 |
CN111402922B true CN111402922B (zh) | 2023-06-30 |
Family
ID=71428583
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010154914.9A Active CN111402922B (zh) | 2020-03-06 | 2020-03-06 | 基于小样本的音频信号分类方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111402922B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112885350A (zh) * | 2021-02-25 | 2021-06-01 | 北京百度网讯科技有限公司 | 网络会议的控制方法、装置、电子设备和存储介质 |
CN113793622B (zh) * | 2021-09-10 | 2023-08-29 | 中国科学院声学研究所 | 一种音频场景识别方法、系统及装置 |
CN114224354B (zh) * | 2021-11-15 | 2024-01-30 | 吉林大学 | 心律失常分类方法、装置及可读存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105679321A (zh) * | 2016-01-29 | 2016-06-15 | 宇龙计算机通信科技(深圳)有限公司 | 语音识别方法、装置及终端 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3555490B2 (ja) * | 1999-03-26 | 2004-08-18 | 松下電工株式会社 | 声質変換システム |
JP4230254B2 (ja) * | 2003-03-12 | 2009-02-25 | 日本電信電話株式会社 | 音声生成モデル話者適応化方法、その装置、そのプログラム及びその記録媒体 |
US8239195B2 (en) * | 2008-09-23 | 2012-08-07 | Microsoft Corporation | Adapting a compressed model for use in speech recognition |
JP5670298B2 (ja) * | 2011-11-30 | 2015-02-18 | 日本電信電話株式会社 | 雑音抑圧装置、方法及びプログラム |
JP6243858B2 (ja) * | 2015-02-05 | 2017-12-06 | 日本電信電話株式会社 | 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム |
CN110164472A (zh) * | 2019-04-19 | 2019-08-23 | 天津大学 | 基于卷积神经网络的噪声分类方法 |
CN110782903A (zh) * | 2019-10-23 | 2020-02-11 | 国家计算机网络与信息安全管理中心 | 一种说话人识别方法及可读存储介质 |
-
2020
- 2020-03-06 CN CN202010154914.9A patent/CN111402922B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105679321A (zh) * | 2016-01-29 | 2016-06-15 | 宇龙计算机通信科技(深圳)有限公司 | 语音识别方法、装置及终端 |
Also Published As
Publication number | Publication date |
---|---|
CN111402922A (zh) | 2020-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021208287A1 (zh) | 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质 | |
CN107492382B (zh) | 基于神经网络的声纹信息提取方法及装置 | |
CN110457432B (zh) | 面试评分方法、装置、设备及存储介质 | |
CN111402922B (zh) | 基于小样本的音频信号分类方法、装置、设备及存储介质 | |
US20210193149A1 (en) | Method, apparatus and device for voiceprint recognition, and medium | |
CN110310647B (zh) | 一种语音身份特征提取器、分类器训练方法及相关设备 | |
CN110503128A (zh) | 使用卷积生成对抗网络进行波形合成的谱图 | |
KR20190005217A (ko) | 신경망을 이용한 주파수 기반 오디오 분석 | |
CN108922559A (zh) | 基于语音时频变换特征和整数线性规划的录音终端聚类方法 | |
CN112259106A (zh) | 声纹识别方法、装置、存储介质及计算机设备 | |
CN108962231B (zh) | 一种语音分类方法、装置、服务器及存储介质 | |
CN106297792A (zh) | 一种语音口型动画的识别方法及装置 | |
CN110970036B (zh) | 声纹识别方法及装置、计算机存储介质、电子设备 | |
CN113223536B (zh) | 声纹识别方法、装置及终端设备 | |
CN107610706A (zh) | 语音搜索结果的处理方法和处理装置 | |
Rammo et al. | Detecting the speaker language using CNN deep learning algorithm | |
CN108198561A (zh) | 一种基于卷积神经网络的翻录语音检测方法 | |
CN113205820B (zh) | 一种用于声音事件检测的声音编码器的生成方法 | |
CN111128229A (zh) | 语音分类方法、装置及计算机存储介质 | |
CN114220458B (zh) | 基于阵列水听器的声音识别方法和装置 | |
CN113539243A (zh) | 语音分类模型的训练方法、语音分类方法及相关装置 | |
CN115938346B (zh) | 音准评估方法、系统、设备及存储介质 | |
CN112735477B (zh) | 语音情感分析方法和装置 | |
Salhi et al. | Robustness of auditory teager energy cepstrum coefficients for classification of pathological and normal voices in noisy environments | |
CN114420133A (zh) | 欺诈语音检测方法、装置、计算机设备以及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |