CN117496998A - 一种音频分类方法、装置、存储介质 - Google Patents
一种音频分类方法、装置、存储介质 Download PDFInfo
- Publication number
- CN117496998A CN117496998A CN202311391883.9A CN202311391883A CN117496998A CN 117496998 A CN117496998 A CN 117496998A CN 202311391883 A CN202311391883 A CN 202311391883A CN 117496998 A CN117496998 A CN 117496998A
- Authority
- CN
- China
- Prior art keywords
- audio data
- data signal
- audio
- feature extraction
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000000605 extraction Methods 0.000 claims abstract description 60
- 239000013598 vector Substances 0.000 claims abstract description 46
- 238000003062 neural network model Methods 0.000 claims abstract description 16
- 238000001228 spectrum Methods 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 18
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000006467 substitution reaction Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 15
- 238000013528 artificial neural network Methods 0.000 description 8
- 230000001965 increasing effect Effects 0.000 description 7
- 241000282414 Homo sapiens Species 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000001914 filtration Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 239000012634 fragment Substances 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000002708 enhancing effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供一种音频分类方法、装置和存储介质。本申请实施例可以获取目标音频数据信号;对目标音频数据信号进行第一特征提取,得到对应的多维MFCC特征向量;通过预训练的深度神经网络模型对多维MFCC特征向量进行第二特征提取,得到对应的高层特征;通过稀疏编码算法对高层特征进行第三特征提取,得到高层特征对应的稀疏表示特征;将稀疏表示特征输入分类器,输出分类结果。由于对采集到的音频数据信号进行了两次高层维度的特征提取,得到分类效果更为准确。
Description
技术领域
本申请涉及音频处理技术领域,具体而言,涉及一种音频分类方法、装置、存储介质。
背景技术
随着人工智能的不断发展,人们对于智能化要求的不断提高,机器被要求具备越来越多人类所拥有的能力,其中,对周围环境的感知能力作为计算机听觉的重要组成部分也开始受到越来越多的关注。在日常的生活中,充斥着各种各样的声音,人类通过经验积累可以比较容易的判断出声音的类型,从而确定自己目前所处的环境。而机器本身并不具备这样的能力,传统的分类方法是通过在机器中集成神经网络来分类处理音频,这样的方法能够在一定程度上解决机器分类音频的问题,但是精度低,误差大。
发明内容
本申请实施例提供一种音频分类方法、装置和存储介质,可提高分类效率和准确率。
为解决上述的技术问题,本申请实施例提供以下技术方案:
本申请实施例提供了一种音频分类方法,包括:
获取目标音频数据信号;
对目标音频数据信号进行第一特征提取,得到对应的多维MFCC特征;
通过预训练的深度神经网络模型对多维MFCC特征进行第二特征提取,得到对应的高层特征;
通过稀疏编码算法对高层特征进行第三特征提取,得到高层特征对应的稀疏表示特征;
将稀疏表示特征输入分类器,输出分类结果。
一种音频分类装置,包括:
采集单元,用于获取目标音频数据信号;
第一特征提取单元,对目标音频数据信号进行第一特征提取,得到对应的多维MFCC特征向量;
第二特征提取单元,通过预训练的深度神经网络模型对多维MFCC特征向量进行第二特征提取,得到对应的高层特征;
第三特征提取单元,通过稀疏编码提取高层特征的稀疏表示特征;
音频分类单元,将稀疏表示特征输入分类器,输出分类结果。
一种网络设备,包括存储器、处理器以及存储在存储器中并可以在处理器上运行的程序,处理器执行程序以实现音频分类方法的步骤。
此外,本申请实施例还提供一种存储介质,存储介质存储有多条指令,指令适于处理器进行加载,以执行本申请实施例所提供的任一种音频分类方法中的步骤。
本申请实施例可以获取目标音频数据信号;对目标音频数据信号进行第一特征提取,得到对应的多维MFCC特征向量;通过预训练的深度神经网络模型对多维MFCC特征向量进行第二特征提取,得到对应的高层特征;通过稀疏编码算法对高层特征进行第三特征提取,得到高层特征对应的稀疏表示特征;将稀疏表示特征输入分类器,输出分类结果。由于对采集到的音频数据信号进行了两次高层维度的特征提取,得到分类效果更为准确。
附图说明
为了更清楚地说明本申请实施方式中的技术方案,下面将对实施方式描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施方式,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的流程图。
图2为本申请实施例提供的另一流程图。
图3为本申请实施例提供的音频分类装置的结构图。
图4为本申请实施例提供的服务器结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行清楚、完整地描述。显然,所描述的实施方式仅仅是本申请一部分实施方式,而不是全部的实施方式。基于本申请中的实施方式,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本申请保护的范围。
下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行清楚、完整地描述。
此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为特指或特殊结构。术语“一些实施方式”、“其他实施方式”等的描述意指结合该实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本申请中,对上述术语的示意性表述不必须针对的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本申请中描述的不同实施方式或示例以及不同实施方式或示例的特征进行结合和组合。
本申请实施例提供一种音频分类方法、装置和存储介质。
其中,音频分类装置具体可以集成具备储存单元并安装有微处理器而具有运算能力的服务器中,该服务器可以用于获取目标音频数据信号;对目标音频数据信号进行第一特征提取,得到对应的多维MFCC特征向量;通过预训练的深度神经网络模型对MFCC特征向量进行第二特征提取,得到对应的高层特征;通过稀疏编码算法对所述高层特征进行第三特征提取,得到高层对应的稀疏表示特征;将稀疏表示特征输入分类器,输出分类结果。
需要说明的是,本申请实施例描述的音频分类方法是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着音频分类系统的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
以下分别进行详细说明。
在本实施例中,将从音频分类方法的角度进行描述。
请参阅图1,图1是本申请实施例提供的音频分类方法的流程示意图。该音频分类方法包括:
101、获取目标音频数据信号。
其中,目标音频数据信号的格式可以为wav格式,在此具体不做具体限制。该目标音频数据信号可以是优化之后的音频数据信号。具体优化方式可以包括预处理、音频数据信号增强等方式。
在一些实施方式中,该采集目标音频数据信号,可以包括:
(1)采集第一音频数据信号进行预处理,得到预处理后的音频数据信号;
(2)对预处理后的音频数据信号通过音频旋转、音频调音、音频变调以及音频加噪的方法进行增强,得到目标音频数据信号;
其中,采集第一音频数据信号,该第一音频数据信号为没有经过处理的原始音频数据信号,例如为通过收音设备收录第一音频数据信号;或者,也可以通过在互联网上搜索或者从音频数据信号库中来获取第一音频数据信号,第一音频数据信号经过预处理后,得到预处理后的音频数据信号。
进一步的,对预处理后的音频数据信号通过音频旋转、音频调音、音频变调以及音频加噪的方法进行增强,即对原始音频数据集使用旋转、调音、变调、加噪4种方法产生更多新的数据,完成后音频数据量为原来的8倍,可以提升分类的精度。
在一些实施方式中,预处理的方式可以如下:
(1.1)采集第一音频数据信号,对第一音频数据信号进行裁切空白以及冗余片段处理,得到裁切后的第二音频数据信号;
具体来说,空白部分可以理解为,在波形图上没有具体数值的部分;空白部分本身不含有任何信息,同时又会对分类增加难度,冗余片段包括时域冗余、频域冗余以及听觉冗余,由于本实施例主要针对的是人类听觉相关的音频分类,不需要对人耳不敏感的频率信号进行分类,因此主要是处理掉听觉冗余的片段,即在本实施例中通过裁切处理空白以及冗余片段。
(1.2)通过高通滤波器对第二音频数据信号进行预加重,得到预加重后的第三音频数据信号。
具体来说,预加重就是将第二音频信号通过一个高通滤波器,通过预加重可以提升整个高频部分,使得从低频到高频整个频带保持平坦,可以理解成在频率上乘以一个与频率表正相关的系数。将通过高通滤波器的第二音频数据信号确定为第三音频数据信号。
(1.3)对第三音频数据信号按照时间顺序分为多帧音频数据信号,并对每帧音频数据信号进行加窗,得到加窗后的第四音频数据信号;
具体来说,语音信号在宏观上是不平稳的,在微观上是平稳的,具有短时平稳性(10—30ms内可以认为语音信号近似不变),这个就可以把语音信号分为一些短段来进行处理,即对第三音频数据信号按照时间顺序分为多帧音频数据信号,每一个短段称为一帧(CHUNK)。后续操作需要加窗,则在分帧的时候,不要背靠背地截取,而是相互重叠一部分。相邻两帧的起始位置的时间差叫做帧移(STRIDE),即实现对每帧音频数据信号进行加窗,得到加窗后的第四音频数据信号。
(1.4)将第四音频数据信号确定为预处理后的音频数据信号。
对预处理后的音频数据信号进行增强,得到增强后的音频数据信号。
在一些实施方式中,增强方法可以包括;
(2.1)音频旋转:将音频文件中30%靠后的数据截取至音频文件的首部进行拼接,生成一组新数据。
(2.2)音频调音:将音频数据的音量分别增大为原来的1.5倍和减小为原来的0.7倍,生成两组新数据。
(2.3)音频变调:通过改变频率将音频数据的音调增大为原来的2倍和减小为原来的0.5倍,生成两组新数据、
(2.4)音频加噪:在音频数据中加入随机噪音数据,重复两次生成两组新数据。
通过以上方式增强后的音频信号扩大了数据集,可以在后续神经网络分类的步骤中,取得更加精确的分类效果。
将经过以上方法处理后的信号确定为目标音频数据信号。
102、对目标音频数据信号进行第一特征提取,得到对应的多维MFCC特征向量。
其中,第一特征提取方法可以是对目标音频数据信号进行快速傅里叶变换,得到音频数据信号的频域幅度谱和能量谱,再将目标音频数据信号的能量谱通过一组梅尔标度的三角窗滤波器组,对滤波器组的输出进行取对数,获得目标音频信号的语谱图。
对语谱图数据进行第二次数据增强。本实施例使用随机均值替换法产生新的语谱图数据实现数据增强,完成后数据量为第一次数据增强后4倍。具体操作步骤如下:
(1.1)随机选取行列:通过随机方式选取每个语谱图中30%的行与30%的列;
(1.2)均值替换:计算每个语谱图中二维数据的平均值,用均值替换掉随机选取的行列数据,可得到新的语谱图数据;
(1.3)数据保存:对每个语谱图重复3次步骤(1.1)和(1.2)的操作,得到3组新的语谱图数据,加入到原数据集中,即完成第二次数据增强。
对第二次增强后的音频数据信号进行倒谱分析获得梅尔频率倒谱(MelFrequency Cepstrum Coefficient,MFCC)系数,最后对MFCC系数进行动态差分获得39维的MFCC特征向量。
其中,对滤波器组的输出进行取对数和倒谱分析的方法可以是采用离散余弦变换,离散余弦变换有很强能量集中能力,它可以将能量都集中在低频部分,不仅如此,离散余弦变换还可以去除相关性,并且离散余弦变换后的结果没有虚部,使得计算更加简单。
具体而言,三角装滤波器可以为等高梅尔滤波器,一组滤波器组中的个数是22-26个。通过三角窗滤波后的频谱更加光滑,同时可以消除谐波的作用,凸出音频数据信号原本的共振峰。在处理人声信号时,可以将等高滤波器替换为等面积滤波器,在此不做限制。
动态差分的方法可以是二次差分,最后得到13维MFCC系数加上13维一阶差分加上13维二阶差分,39维度的特征向量。因为MFCC系数只能反映音频数据信号的静态特征,通过差分可以获得更多动态的信息和时序信息样。
103、通过预训练的深度神经网络模型对多维MFCC特征向量进行第二特征提取,得到对应的高层特征。
其中,可以将39维特征向量输入到神经网络模型,该神经网络拥有进一步提取维度特征的能力,能够输出多维向量对应的高层特征。
具体而言,该神经网络模型可以为预训练的卷积神经网络模型,卷积神经网络模型能够采用多次卷积操作,对多维向量进行高层特征维度上的提取。
104、通过稀疏编码算法对高层特征进行第三特征提取,得到高层特征对应的稀疏表示特征。
其中,稀疏编码算法包括一个预先构建的字典库和稀疏函数,稀疏函数可以提取输入对象的稀疏表示。稀疏函数能够用尽可能少的资源来的表达特征,同时能够大大节省表示特征所需的空间。
由于稀疏编码算法拥有上述的能力,对高层特征进行提取时配合字典库表达能尽可能提取完整特征的稀疏表示特征。
105、将稀疏表示特征输入分类器,输出分类结果。
其中,本申请实施例使用的GMM分类器,GMM分类器有分类15维左右向量的能力,由于稀疏表示特征能以尽可能少的资源来完备的表达特征,可以在最大程度上保证目标音频数据信号的特征,使得GMM分类器能够获取尽可能多的分类特征进行分类结果预测,使得分类的精度得到较大的提升。
由上可知,本实施例可以对获取的目标音频数据信号进行裁剪、增强以及预处理输出对应的音频数据信号,再对对应的音频数据信号进行第一特征提取,得到对应的MFCC特征向量,然后,通过预训练的神经网络模型对MFCC特征向量进行第二特征提取,得到对应的高层特征,此后,预训练的机器学习模型的稀疏函数,获取高层特征的稀疏表示,将稀疏表示输入分类器,输出分类结果;由于此方案对采集到的音频数据信号进行了多次不同维度的特征提取,可以提高分类效率和准确率。
根据前面实施例所描述的方法,以下将举例作进一步详细说明
请参阅图2,图2为本申请实施例提供的音频分类方法的另一流程示意图。该方法流程可以包括:
201、通过收音模块采集需要识别的音频数据信号,
其中,音频数据信号格式在本实施例中为wav,在此不作限制。
202、对采集到的第一音频数据信号进行处理得到第二音频数据信号,
其中,该处理流程可以为裁切空白、冗余部分。网络设备可以通过指令自动裁切空白、冗余片段,也可以由用户自行判断,选取特定需要识别的音频片段。该音频片段确定为第一音频数据信号。
具体来说,空白部分可以理解为,在波形图上没有具体数值的部分;空白部分本身不含有任何信息,同时又会对分类增加难度,听觉冗余部分的分类对本实施例针对人类听感的分类没有意义,所以在本实施例中通过裁切处理。
203、通过高通滤波器对第二音频数据信号进行预加重,得到预加重后的第三音频数据信号,
其中,通过预加重可以提升整个高频部分,使得从低频到高频整个频带保持平坦,可以理解成在频率上乘以一个与频率表正相关的系数。将通过高通滤波器的信号确定为第二音频数据信号。
204、对第三音频数据信号按照时间顺序分为多帧音频数据信号,并对每帧音频数据信号进行加窗,得到加窗后的第四音频数据信号,
其中,将第二音频数据信号按时间顺序分为多帧,再对每一帧信号进行加窗。加窗是为了加强一帧信号的两端的连续性,为了避免频谱泄露以及过程过于复杂,本实施例处采用汉明窗。将经过分帧加窗后的第二音频数据信号确定为第三音频信号。
205、对第四音频数据信号进行加强,得到目标音频数据信号,
其中,具体方式如下;
音频旋转:将第四音频数据信号文件中30%靠后的数据截取至第四音频数据信号的首部进行拼接,生成一组新数据;
音频调音:将音频数据信号的音量分别增大为原来的1.5倍和减小为原来的0.7倍,生成两组新数据;
音频变调:通过改变频率将音频数据信号的音调增大为原来的2倍和减小为原来的0.5倍,生成两组新数据;
音频加噪:在音频数据信号中加入随机噪音数据,重复两次生成两组新数据。
将通过以上方法增强后的音频数据信号确定为目标音频数据信号
206、对目标音频数据信号滤波,得到目标音频数据信号的梅尔频谱,
其中,对目标音频数据信号滤波的具体步骤可以是对目标音频数据信号进行快速傅里叶变换,得到目标音频数据信号的频域幅度谱,之后,再得到能量谱。
进一步的,将目标音频数据信号的能量谱通过一组梅尔标度的三角窗带通滤波器,得到目标音频数据信号的梅尔频谱。
本实施例使用的三角窗滤波器组是等高梅尔滤波器。在处理人声的信号时可以采用等面积梅尔滤波器,在此不做限制。该三角窗带通滤波器组,一般一组滤波器个数取22-26个,同时这一组滤波器在梅尔标度上是等宽的,变换到赫兹频率上就是随着频率值的增大而增大。而且通过三角窗滤波后可以是频谱更加光滑,消除谐波的作用,突出音频数据信号原本的共振峰。
207、对目标音频数据信号的梅尔频谱进行处理,得到对应的多维MFCC特征向量,
其中,获得对应的MFCC特征向量的步骤可以是先对目标音频数据信号的梅尔频谱取对数,获得对应的语谱图,再对语谱图进行二次加强,接着对取对数的目标音频数据信号的梅尔频谱进行倒谱分析获得MFCC系数,最后对MFCC系数进行动态差分获得对应的39维MFCC特征向量。
具体而言,根据倒谱分析的定义,这里是要进行反傅里叶变换然后我们还要进行低通滤波获取低频信息,因为一般情况下噪声集中在高频部分,而我们所要研究的信号能量集中在低频部分。这里直接采用离散余弦变换就可以实现上述的两个步骤,离散余弦变换有很强能量集中能力,它可以将能量都集中在低频部分,不仅如此,离散余弦变换还可以去除相关性,并且离散余弦变换后的结果没有虚部,使得计算更加简单。
进一步来说,在对语谱图进行二次加强的步骤可以是:
(1.1)随机选取行列:通过随机方式选取每个语谱图中30%的行与30%的列;
(1.2)均值替换:计算每个语谱图中二维数据的平均值,用均值替换掉随机选取的行列数据,可得到新的语谱图数据;
(1.3)数据保存:对每个语谱图重复3次步骤(1.1)和(1.2)的操作,得到3组新的语谱图数据,加入到原数据集中,即完成第二次数据增强。
获取多维MFCC特征向量的方法可以是动态差分中二次差分,最后得到13维MFCC系数加上13维一阶差分加上13维二阶差分,39维度的特征向量。因为MFCC系数只能反映音频数据信号的静态特征,通过差分可以获得更多动态的信息和时序信息样。
208、通过神经网络提取多维MFCC特征向量的高层特征,
将39维MFCC特征向量输入神经网络,输出对应的高层特征,
其中,该神经网络可以为预训练的深度神经网络,可以对39维MFCC特征向量进行非线性映射,能够在尽可能表述39维MFCC特征向量全部特征的前提下,降低该特征向量的维度,输出一个降低维度后的特征向量,将这个降低维度后的多维向量确定为对应的高层特征。
209、通过稀疏函数进一步提取高层特征的高维特征,
其中,稀疏算法模型包括一个字典库,稀疏模型输出的稀疏系数配合字典库可以很完备的表达高层特征的所有特征,将稀疏模型输出的稀疏稀疏确定为高层特征的高维特征。
210、对高维特征分类输出结果,
将高维特征输入GMM分类器,输出分类结果。
其中,本申请实施例使用的GMM分类器,GMM分类器有分类15维左右向量的能力,由于稀疏表示特征能以尽可能少的资源来完备的表达特征,可以在最大程度上保证目标音频数据信号的特征,使得GMM分类器能够获取尽可能多的分类特征进行分类结果预测,使得分类的精度得到较大的提升。
由上可知,本实施例可以通过收音模块采集需要识别的音频数据信号,对采集到的频音频数据信号进行处理得到第以音频数据信号,对第一音频数据信号进行预加重,得到第二音频数据信号;通过高通滤波器对第二音频数据信号进行预加重,得到预加重后的第三音频数据信号;将第三音频数据信号分帧加窗,转为语谱图并进行谱图增强,得到目标音频数据信号;对目标音频数据信号滤波,得到目标音频数据信号的梅尔频谱;对目标音频数据信号的梅尔频谱进行处理,得到对应的多维MFCC特征向量;通过神经网络提取多维MFCC特征向量的高层特征;通过稀疏函数进一步提取高层特征的高维特征;对高维特征分类输出结果。由于本申请实施例采用了多次特征提取,因此相对于现有只通过单次提取的方案而言,可以提高识别效率和准确率。
本申请实施例还提供了一种音频分类装置,如图3所示,其示出了本申请实施例所涉及的装置的结构示意图,具体来说,包括;采集单元301、第一特征提取单元302、第二特征单元303、第三特征提取单元304和音频分类单元305,如下;
采集单元301,用于获取目标音频数据信号。
在一些实施方式中,该采集单元301,包括:
采集子单元,用于采集第一音频数据信号进行预处理,得到预处理后的音频数据信号;
增强子单元,用于对所述预处理后的音频数据信号通过音频旋转、音频调音、音频变调以及音频加噪的方式进行增强,得到增强后的音频数据信号;
确定子单元,用于将所述增强后的音频数据信号确定为目标数据信号。
在一些实施方式中,该采集子单元,用于:
采集第一音频数据信号,对所述第一音频数据信号进行裁切空白以及冗余片段处理,得到裁切后的第二音频数据信号;
通过高通滤波器对所述第二音频数据信号进行预加重,得到预加重后的第三音频数据信号;
对所述第三音频数据信号按照时间顺序分为多帧音频数据信号,并对每帧音频数据信号进行加窗,得到加窗后的第四音频数据信号;
将所述第四音频数据信号确定为预处理后的音频数据信号。
第一特征提取单元302,对目标音频数据信号进行第一特征提取,得到对应的多维MFCC特征向量。
在一些实施方式中,该第一特征提取单元302,包括:
转谱子单元,用于获得所述得目标音频数据信号的语谱图;
特征提取子单元,用于提取语谱图的特征,输出对应的多维MFCC特征向量。
在一些实施方式中,该转谱子单元,用于:
对所述目标音频数据信号进行快速傅里叶变换,得到音频数据信号的频域幅度谱;
将所述频域幅度谱通过一组梅尔标度的三角窗带通滤波器组,获得梅尔频谱;
对所述梅尔频谱取对数,获得所述目标音频数据信号的语谱图,通过随机均值替换法产生增强后的语谱图数据;
第二特征提取单元303,通过预训练的深度神经网络模型对多维MFCC特征向量进行第二特征提取,得到对应的高层特征。
在一些实施方式中,该第二特征提取单元303,用于:
通过预先训练的深度神经网络模型以卷积处理和下采样处理对所述多维MFCC特征向量进行非线性映射,输出对应的高层特征。
第三特征提取单元304,通过稀疏编码提取高层特征的稀疏表示特征。
在一些实施方式中,该第三特征提取单元304,用于:
构建用于所述高层特征稀疏表示的字典库;
将高层特征根据稀疏编码算法匹配所述字典库,输出对应的稀疏表示特征。
音频分类单元305,将稀疏表示特征输入分类器,输出分类结果。
在一些实施方式中,该音频分类单元305,用于:
将所述稀疏表示特征输入预训练的高斯混合模型分类器,输出分类结果。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由上可知,本实施例的音频分类装置的第一特征提取单元302可以对采集单元301输出的目标音频数据信号提取第一特征,得到目标音频数据信号的多维MFCC特征向量,然后由第二特征提取单元303对目标信号的第一特征进行第二特征提取,得到其高层特征,再由第三特征提取单元304进行第三特征提取,得到其稀疏表示,最后输入音频分类单元305,输出分类结果。由于本申请实施例采用了多次特征提取,因此相对于现有只通过单次提取的方案而言,可以提高识别效率和准确率。
本申请实施例还提供一种服务器,如图4所示,其示出了本申请实施例所涉及的服务器的结构示意图,具体来讲:
该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图4中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
服务器还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该服务器还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,服务器还可以包括显示单元等,在此不再赘述。具体在本实施例中,服务器中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下
获取目标音频数据信号;
对目标音频数据信号进行第一特征提取,得到对应的多维MFCC特征;
通过预训练的深度神经网络模型对多维MFCC特征进行第二特征提取,得到对应的高层特征;
通过稀疏编码算法对高层特征进行第三特征提取,得到高层特征对应的稀疏表示特征;
将稀疏表示特征输入分类器,输出分类结果。
上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对音频分类方法的详细描述,此处不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种音频分类方法中的步骤。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该计算机存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机存储介质中所存储的指令,可以执行本申请实施例所提供的任一种音频分类方法中的步骤,因此,可以实现本申请实施例所提供的任一种音频分类方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
由上可知,本实施例可以对采集到的音频数据信号进行预处理和加强,然后,将预处理和加强后的音频数据信号提取低层特征,接着进一步提取高层特征,在通过稀疏函数获取高层特征的稀疏表示,输入分类器得到分类结果。由于该方案是通过稀疏字典库和目标音频的稀疏表示进行比对,因此,相对于现有只能人耳或简单匹配的方案而言,可以实现快速分类音频模型,解放人工成本,提高识别效率和准确率,而且,该方案是一种通过机器学习的模式来解决此问题,因此,该模型的识别效率、准确性和稳定性也较高。
以上对本申请实施例所提供的一种音频分类方法、装置、存储介质及计算机设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种音频分类方法,其特征在于,包括:
获取目标音频数据信号;
对所述目标音频数据信号进行第一特征提取,得到对应的多维MFCC特征向量;
通过预训练的深度神经网络模型对所述多维MFCC特征向量进行第二特征提取,得到对应的高层特征;
通过稀疏编码算法对所述高层特征进行第三特征提取,得到高层特征对应的稀疏表示特征;
将所述稀疏表示特征输入分类器,输出分类结果。
2.根据权利要求1所述的方法,其特征在于,获取目标音频数据信号,包括:
采集第一音频数据信号进行预处理,得到预处理后的音频数据信号;
对所述预处理后的音频数据信号通过音频旋转、音频调音、音频变调以及音频加噪的方法进行增强,得到增强后的音频数据信号;
将所述增强后的音频数据信号确定为目标数据信号。
3.根据权利要求2所述的方法,其特征在于,采集第一音频数据信号进行预处理,得到预处理后的音频数据信号,包括:
采集第一音频数据信号,对所述第一音频数据信号进行裁切空白以及冗余片段处理,得到裁切后的第二音频数据信号;
通过高通滤波器对所述第二音频数据信号进行预加重,得到预加重后的第三音频数据信号;
对所述第三音频数据信号按照时间顺序分为多帧音频数据信号,并对每帧音频数据信号进行加窗,得到加窗后的第四音频数据信号;
将所述第四音频数据信号确定为预处理后的音频数据信号。
4.根据权利要求1所述的方法,其特征在于,对所述目标音频数据信号进行第一特征提取,得到对应的多维度MFCC特征向量,包括:
对所述目标音频数据信号进行快速傅里叶变换,得到音频数据信号的频域幅度谱;
将所述频域幅度谱通过一组梅尔标度的三角窗带通滤波器组,获得梅尔频谱;
对所述梅尔频谱取对数,获得所述目标音频数据信号的语谱图,通过随机均值替换法产生增强后的语谱图数据;
对所述语谱图数据进行倒谱分析获得梅尔倒谱系数,再通过动态差分获得多维MFCC特征向量。
5.根据权利要求1所述的方法,其特征在于,通过预训练的深度神经网络模型对所述多维MFCC特征向量进行第二特征提取,得到对应的高层特征,包括:
通过预先训练的深度神经网络模型以卷积处理和下采样处理对所述多维MFCC特征向量进行非线性映射,输出对应的高层特征。
6.根据权利要求1所述的方法,其特征在于,通过稀疏编码算法对所述高层特征进行第三特征提取,得到高层特征对应的稀疏表示特征,包括:
构建用于所述高层特征稀疏表示的字典库;
将高层特征根据稀疏编码算法匹配所述字典库,输出对应的稀疏表示特征。
7.根据权利要求1所述的方法,其特征在于,将所述稀疏表示特征输入分类器,输出分类结果,包括:
将所述稀疏表示特征输入预训练的高斯混合模型分类器,输出分类结果。
8.一种音频分类装置,其特征在于,包括:
采集单元,用于获取目标音频数据信号;
第一特征提取单元,对所述目标音频数据信号进行第一特征提取,得到对应的所述多维MFCC特征向量;
第二特征提取单元,通过预训练的深度神经网络模型对所述多维MFCC特征向量进行第二特征提取,得到对应的高层特征;
第三特征提取单元,通过稀疏编码提取所述高层特征的稀疏表示特征;
音频分类单元,将所述稀疏表示特征输入分类器,输出分类结果。
9.一种存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于装置处理数据,以执行权利要求1至7任一项所述音频分类方法的步骤。
10.一种网络设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的程序,所述处理器执行所述程序时实现权利要求1至8任一项所述的音频分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311391883.9A CN117496998A (zh) | 2023-10-25 | 2023-10-25 | 一种音频分类方法、装置、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311391883.9A CN117496998A (zh) | 2023-10-25 | 2023-10-25 | 一种音频分类方法、装置、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117496998A true CN117496998A (zh) | 2024-02-02 |
Family
ID=89675507
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311391883.9A Pending CN117496998A (zh) | 2023-10-25 | 2023-10-25 | 一种音频分类方法、装置、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117496998A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117727331A (zh) * | 2024-02-18 | 2024-03-19 | 百鸟数据科技(北京)有限责任公司 | 基于语音分析的森林枪声定位方法 |
-
2023
- 2023-10-25 CN CN202311391883.9A patent/CN117496998A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117727331A (zh) * | 2024-02-18 | 2024-03-19 | 百鸟数据科技(北京)有限责任公司 | 基于语音分析的森林枪声定位方法 |
CN117727331B (zh) * | 2024-02-18 | 2024-04-19 | 百鸟数据科技(北京)有限责任公司 | 基于语音分析的森林枪声定位方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111179975B (zh) | 用于情绪识别的语音端点检测方法、电子设备及存储介质 | |
US9251783B2 (en) | Speech syllable/vowel/phone boundary detection using auditory attention cues | |
Yang et al. | EdgeRNN: a compact speech recognition network with spatio-temporal features for edge computing | |
US20210193149A1 (en) | Method, apparatus and device for voiceprint recognition, and medium | |
WO2012064408A2 (en) | Method for tone/intonation recognition using auditory attention cues | |
Meyer et al. | Efficient convolutional neural network for audio event detection | |
CN117496998A (zh) | 一种音频分类方法、装置、存储介质 | |
CN109147798B (zh) | 语音识别方法、装置、电子设备及可读存储介质 | |
CN112530410A (zh) | 一种命令词识别方法及设备 | |
Peter et al. | End-to-end keyword spotting using neural architecture search and quantization | |
Imran et al. | An analysis of audio classification techniques using deep learning architectures | |
CN110675858A (zh) | 基于情绪识别的终端控制方法和装置 | |
Rituerto-González et al. | End-to-end recurrent denoising autoencoder embeddings for speaker identification | |
CN114420099A (zh) | 一种多声源融合场景的人声检测方法及装置 | |
CN113488069A (zh) | 基于生成式对抗网络的语音高维特征快速提取方法和装置 | |
Eshaghi et al. | A voice activity detection algorithm in spectro-temporal domain using sparse representation | |
CN111862931A (zh) | 一种语音生成方法及装置 | |
CN117334198B (zh) | 语音信号处理方法、装置、电子设备和计算机可读介质 | |
Anguraj et al. | Analysis of influencing features with spectral feature extraction and multi-class classification using deep neural network for speech recognition system | |
CN114863939B (zh) | 一种基于声音的大熊猫属性识别方法及系统 | |
CN116705013B (zh) | 语音唤醒词的检测方法、装置、存储介质和电子设备 | |
Wang et al. | Artificial Intelligence and Machine Learning Application in NPP MCR Speech Monitoring System | |
Huang et al. | Research on speech emotion recognition based on multi-feature fusion | |
CN117093690A (zh) | 一种答案优化方法、装置、设备及介质 | |
Chen | Speech emotion recognition based on deep convolutional neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |