CN114664325A - 一种异常声音识别方法、系统、终端设备及计算机可读存储介质 - Google Patents
一种异常声音识别方法、系统、终端设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN114664325A CN114664325A CN202011548236.0A CN202011548236A CN114664325A CN 114664325 A CN114664325 A CN 114664325A CN 202011548236 A CN202011548236 A CN 202011548236A CN 114664325 A CN114664325 A CN 114664325A
- Authority
- CN
- China
- Prior art keywords
- sound
- spectrum
- convolution
- mel
- signals
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 39
- 230000005236 sound signal Effects 0.000 claims abstract description 88
- 238000001228 spectrum Methods 0.000 claims abstract description 64
- 238000012545 processing Methods 0.000 claims abstract description 38
- 239000013598 vector Substances 0.000 claims abstract description 26
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 23
- 230000004927 fusion Effects 0.000 claims abstract description 23
- 238000010586 diagram Methods 0.000 claims abstract description 19
- 238000013528 artificial neural network Methods 0.000 claims abstract description 12
- 238000011176 pooling Methods 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 19
- 238000010276 construction Methods 0.000 claims description 10
- 230000003595 spectral effect Effects 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 9
- 238000009432 framing Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 abstract description 6
- 238000012549 training Methods 0.000 description 10
- 230000008901 benefit Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 238000012706 support-vector machine Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000000295 complement effect Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 239000011521 glass Substances 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 206010039740 Screaming Diseases 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013144 data compression Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 206010011469 Crying Diseases 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明涉及异常声音识别技术领域,公开了一种异常声音识别方法、系统、终端设备及计算机可读存储介质,包括步骤:S1、获取异常声音数据集;S2、通过梅尔声谱图和频谱对比度谱图融合算法构建声音特征图;S3、通过二维卷积神经网络对所述声音特征图进行多次堆叠卷积处理后获取不同声音对应的显著性特征向量,并根据所述显著性特征向量进行识别和分类。通过对声音信号分析、处理,提出两种声音信号处理融合的特征提取算法,提高了全面性和个体特征的差异性的区分。使用特征融合算法处理两个方向上的重要输入,提高了网络的泛化能力和准确性。通过使用二维卷积神经网络对声音信号进一步提取特征,使用“声图”作为输入信号,处理信息快速高效。
Description
技术领域
本发明涉及异常声音识别技术领域,尤其涉及一种异常声音识别方法、系统、终端设备及计算机可读存储介质。
背景技术
异常声音的研究主要分为声音的特征提取技术的研究和声音的识别分类技术的研究。早期的声音特征提取技术分为时域法和频域法。时域法主要有过零率、短时能量、能量比、短时自相关函数、短时平均幅度差等。频域法主要有线性预测系数(LPC)及其倒谱系数(LPCC)、梅尔频率倒谱系数(MFCC) 等。这些特征提取技术单一化,针对性强,受声音信号的输入影响较大,不具有普适性。
在声音的识别方面,传统的声音识别算法一般有动态时间规整技术 (DynamicTime Warping,DTW)、支持向量机(Support Vector Machine,SVM)、高斯混合模型(Gaussian Mixture Model,GMM)以及隐马尔可夫模型 (Hidden Markov Model,HMM)等,它们都在各种不同的实验环境下得到了应用。如Francesco Aurino等人提出基于1-SVM分类器对多种突发的异常声音 (如枪声、玻璃破碎声和尖叫声)进行识别。G.Valenzise等人提出了一个应用在公共广场上基于音频的监控系统,该系统采用两个平行的高斯混合模型分别从噪声环境中识别出枪声和尖叫声,使识别性能获得了大幅度提升。Jinming Xing和Xiaofeng Li使用了聚类算法实现场景声音分类,Angelo Cesar Mendes da Silv等人使用结构化预测解决方案对音乐进行分类,其它的对声音分类算法例如:单类支持向量机、无环图支持向量机(DDAGSVM)、基于PSO_PF的支持向量机算法和基于决策树支持向量机和模糊推理算法均是支持向量机算法的变体。但是这些识别模型都只是一种符号化系统,降低了建模的能力,因此在实际环境中对不同质量的声音信号的识别性能将会大幅下降。
发明内容
本发明的目的在于提供一种异常声音识别方法、系统、终端设备及计算机可读存储介质,旨在解决现有技术中都只是一种符号化系统,降低了建模的能力,因此在实际环境中对不同质量的声音信号的识别性能将会大幅下降的问题。
本发明实施例的第一方面提供了一种异常声音识别方法,包括步骤:S1、获取异常声音数据集;S2、通过梅尔声谱图和频谱对比度谱图融合算法构建声音特征图;S3、通过二维卷积神经网络对所述声音特征图进行多次堆叠卷积处理后获取不同声音对应的显著性特征向量,并根据所述显著性特征向量进行识别和分类。
在一实施例中,所述步骤S2包括步骤:对采集到的声音信号提取梅尔声谱特征;对采集到的声音信号采集对比度频谱特征;将所述梅尔声谱特征和所述对比度谱图特征进行串联拼接融合后得到所述声音特征图。
在一实施例中,所述步骤“对采集到的声音信号提取梅尔声谱特征”包括步骤:对采集到的声音信号进行分帧;将分帧后的声音信号进行加窗;对加窗后的声音信号进行傅里叶变换;在傅里叶变换后的声音信号进行堆叠获取梅尔声谱特征,并生成梅尔声谱图;所述步骤“对采集到的声音信号采集对比度频谱特征”包括步骤:对采集到的声音信号进行快速傅里叶变换;将快速傅里叶变换后的声音信号通过倍频程滤波器进行滤波;将滤波后的声音信号进行峰谷尺度和光谱对比;将对比后的声音信号进行对数处理后进行K-L变换后生成对比度频谱图并获取对比度频谱特征。
在一实施例中,所述步骤S3包括步骤:对所述声音特征图中的声音特征进行一次卷积;对一次卷积后的声音特征进行一次池化处理;对一次池化后的声音特征进行二次卷积处理;对二次卷积后的声音特征进行二次池化处理;对二次池化后的声音特征进行全连接处理获取不同声音对应的显著性特征向量;根据所述显著性特征向量进行识别和分类。
本发明实施例的第二方面提供了一种异常声音识别系统,包括:获取模块,用于获取异常声音数据集;构建模块,用于通过梅尔声谱图和频谱对比度谱图融合算法构建声音特征图;卷积模块,用于通过二维卷积神经网络对所述声音特征图进行多次堆叠卷积处理后获取不同声音对应的显著性特征向量,并根据所述显著性特征向量进行识别和分类。
在一实施例中,所述构建模块包括:梅尔声谱构建单元,用于对采集到的声音信号提取梅尔声谱特征;对比度频谱构建单元,用于对采集到的声音信号采集对比度频谱特征;融合单元,用于将所述梅尔声谱特征和所述对比度谱图特征进行串联拼接融合后得到所述声音特征图。
在一实施例中,所述梅尔声谱构建单元包括:分帧子单元,用于对采集到的声音信号进行分帧;加窗子单元,用于将分帧后的声音信号进行加窗;第一变换子单元,用于对加窗后的声音信号进行傅里叶变换;第一构建子单元,用于在傅里叶变换后的声音信号进行堆叠获取梅尔声谱特征,并生成梅尔声谱图;所述对比度频谱构建单元包括:第二变换子单元,用于对采集到的声音信号进行快速傅里叶变换;滤波子单元,用于将快速傅里叶变换后的声音信号通过倍频程滤波器进行滤波;对比子单元,用于将滤波后的声音信号进行峰谷尺度和光谱对比;第二构建子单元,用于将对比后的声音信号进行对数处理后进行K-L 变换后生成对比度频谱图并获取对比度频谱特征。
在一实施例中,所述卷积模块包括:第一卷积单元,用于对所述声音特征图中的声音特征进行一次卷积;第一池化单元,用于对一次卷积后的声音特征进行一次池化处理;第二卷积单元,用于对一次池化后的声音特征进行二次卷积处理;第二池化单元,用于对二次卷积后的声音特征进行二次池化处理;处理单元,用于对二次池化后的声音特征进行全连接处理获取不同声音对应的显著性特征向量;识别单元,用于根据所述显著性特征向量进行识别和分类。
本发明实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述所述方法的步骤。
本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述方法的步骤。
基于上述技术方案,与现有技术相比,本发明实施例提出的异常声音识别方法及系统,通过对声音信号分析、处理,提出两种声音信号处理融合的特征提取算法,提高了全面性和个体特征的差异性的区分。在一般的单一输入的基础上,使用特征融合算法处理两个方向上的重要输入,提高了网络的泛化能力和准确性。通过使用二维卷积神经网络对声音信号进一步提取特征,使用“声图”作为二维卷积神经网络的输入信号,处理信息快速高效。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1显示为本发明中异常声音识别方法的流程方框示意图。
图2显示为本发明中异常声音识别系统的结构方框示意图。
图3显示为本发明一实施例的终端设备的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。以下结合具体实施例对本发明的实现进行详细的描述。
如图1所示,图1显示为本发明中异常声音识别方法的流程方框示意图。本发明提供了一种异常声音识别方法,包括步骤:
S1、获取异常声音数据集;通常通过采集或者下载来获取适用于环境声音分类基准方法的环境音频记录数据集,例如在识别时,通过下载异常声音数据集ESC-50。这个数据集是环境音频记录的标签集合,适用于环境声音分类的基准方法。数据集中的每个声音信号样本由时长为5秒、44.1千赫、单声道的记录样本组成。在实验中选取了数据中的5个语义类,例如分别为:狗叫声、水滴声、婴儿哭声、玻璃碎声和闹钟声,其中每个类有40个例子。用上述数据建立模型进行训练,对每类声音各40条(共200条),使用36条(共144条) 音频进行训练,4条(共20条)进行测试。
S2、通过梅尔声谱图和频谱对比度谱图融合算法构建声音特征图;本算法使用了特征融合技术,串联拼接两种特征成一张二维的“图”。本算法同时具有梅尔频谱的信息全面性和对比度特征的突出自身特点的个体化、差异化的优点,并且弥补了梅尔声图和光谱对比各自特征的缺点,同时具有保留更多相对信息、消除相对性、冗余性、更加类人耳等优点,互利互补,在异常声音识别中能具有更好的区分度。梅尔声谱图可以反应声音的普遍性、一般性特征,具有全局观;对比度频谱特征可以反应出声音信号的特异性、个体性的特征,具有标志性、个体性。二者相辅相成,互相弥补,效果更佳。使用了特征融合技术,串联拼接两种特征成一张二维的“图”。
S3、通过二维卷积神经网络对所述声音特征图进行多次堆叠卷积处理后获取不同声音对应的显著性特征向量,并根据所述显著性特征向量进行识别和分类。利用卷积神经网络对特征进行二次筛选和汇总,收集到有用的信息用于识别分类。且网络中引入了权重衰减的概念,有效的减小权重幅度,防止过拟合,同时也避免了大量的时间消耗,使得在线运算效率大大提升。
在本发明的一实施例中,所述步骤S2包括步骤:对采集到的声音信号提取梅尔声谱特征;对采集到的声音信号采集对比度频谱特征;将所述梅尔声谱特征和所述对比度谱图特征进行串联拼接融合后得到所述声音特征图。进一步地,所述步骤“对采集到的声音信号提取梅尔声谱特征”包括步骤:对采集到的声音信号进行分帧;将分帧后的声音信号进行加窗;对加窗后的声音信号进行傅里叶变换;在傅里叶变换后的声音信号进行堆叠获取梅尔声谱特征,并生成梅尔声谱图。所述步骤“对采集到的声音信号采集对比度频谱特征”包括步骤:对采集到的声音信号进行快速傅里叶变换;将快速傅里叶变换后的声音信号通过倍频程滤波器进行滤波;将滤波后的声音信号进行峰谷尺度和光谱对比;将对比后的声音信号进行对数处理后进行K-L变换后生成对比度频谱图并获取对比度频谱特征。其中,K-L变换(Karhunen-Loeve Transform)是建立在统计特性基础上的一种变换,也称为霍特林(Hotelling)变换,是一种将离散信号变换成一串不相关系数的方法。K-L变换的突出优点是去相关性好,是均方误差(MSE,Mean Square Error)意义下的最佳变换,它在数据压缩技术中占有重要地位。
在另一实施例中,所述步骤S3包括步骤:对所述声音特征图中的声音特征进行一次卷积;对一次卷积后的声音特征进行一次池化处理;对一次池化后的声音特征进行二次卷积处理;对二次卷积后的声音特征进行二次池化处理;对二次池化后的声音特征进行全连接处理获取不同声音对应的显著性特征向量;根据所述显著性特征向量进行识别和分类。使用了端对端的5层卷积神经网络模型。模型中加入BN层。可以选择较大的学习率,使得训练速度增长很快,具有快速收敛性。并且省掉了局部响应归一化层,精简网络。把训练数据打乱,防止每批训练的时候,某一个样本被经常挑选到。
如图2所示,图2显示为本发明中异常声音识别系统的结构方框示意图。本发明还提供了一种异常声音识别系统,包括:
获取模块,用于获取异常声音数据集;通常通过采集或者下载来获取适用于环境声音分类基准方法的环境音频记录数据集,例如在识别时,通过下载异常声音数据集ESC-50。这个数据集是环境音频记录的标签集合,适用于环境声音分类的基准方法。数据集中的每个声音信号样本由时长为5秒、44.1千赫、单声道的记录样本组成。在实验中选取了数据中的5个语义类,例如分别为:狗叫声、水滴声、婴儿哭声、玻璃碎声和闹钟声,其中每个类有40个例子。用上述数据建立模型进行训练,对每类声音各40条(共200条),使用36条(共 144条)音频进行训练,4条(共20条)进行测试。
构建模块,用于通过梅尔声谱图和频谱对比度谱图融合算法构建声音特征图;本算法使用了特征融合技术,串联拼接两种特征成一张二维的“图”。本算法同时具有梅尔频谱的信息全面性和对比度特征的突出自身特点的个体化、差异化的优点,并且弥补了梅尔声图和光谱对比各自特征的缺点,同时具有保留更多相对信息、消除相对性、冗余性、更加类人耳等优点,互利互补,在异常声音识别中能具有更好的区分度。梅尔声谱图可以反应声音的普遍性、一般性特征,具有全局观;对比度频谱特征可以反应出声音信号的特异性、个体性的特征,具有标志性、个体性。二者相辅相成,互相弥补,效果更佳。使用了特征融合技术,串联拼接两种特征成一张二维的“图”。
卷积模块,用于通过二维卷积神经网络对所述声音特征图进行多次堆叠卷积处理后获取不同声音对应的显著性特征向量,并根据所述显著性特征向量进行识别和分类。利用卷积神经网络对特征进行二次筛选和汇总,收集到有用的信息用于识别分类。且网络中引入了权重衰减的概念,有效的减小权重幅度,防止过拟合,同时也避免了大量的时间消耗,使得在线运算效率大大提升。
在本发明的一实施例中,所述构建模块包括:梅尔声谱构建单元,用于对采集到的声音信号提取梅尔声谱特征;对比度频谱构建单元,用于对采集到的声音信号采集对比度频谱特征;融合单元,用于将所述梅尔声谱特征和所述对比度谱图特征进行串联拼接融合后得到所述声音特征图。进一步地,所述梅尔声谱构建单元包括:分帧子单元,用于对采集到的声音信号进行分帧;加窗子单元,用于将分帧后的声音信号进行加窗;第一变换子单元,用于对加窗后的声音信号进行傅里叶变换;第一构建子单元,用于在傅里叶变换后的声音信号进行堆叠获取梅尔声谱特征,并生成梅尔声谱图。优选地,所述对比度频谱构建单元包括:第二变换子单元,用于对采集到的声音信号进行快速傅里叶变换;滤波子单元,用于将快速傅里叶变换后的声音信号通过倍频程滤波器进行滤波;对比子单元,用于将滤波后的声音信号进行峰谷尺度和光谱对比;第二构建子单元,用于将对比后的声音信号进行对数处理后进行K-L变换后生成对比度频谱图并获取对比度频谱特征。其中,K-L变换(Karhunen-Loeve Transform) 是建立在统计特性基础上的一种变换,也称为霍特林(Hotelling)变换,是一种将离散信号变换成一串不相关系数的方法。K-L变换的突出优点是去相关性好,是均方误差(MSE,Mean Square Error)意义下的最佳变换,它在数据压缩技术中占有重要地位。
在另一实施例中,所述卷积模块包括:第一卷积单元,用于对所述声音特征图中的声音特征进行一次卷积;第一池化单元,用于对一次卷积后的声音特征进行一次池化处理;第二卷积单元,用于对一次池化后的声音特征进行二次卷积处理;第二池化单元,用于对二次卷积后的声音特征进行二次池化处理;处理单元,用于对二次池化后的声音特征进行全连接处理获取不同声音对应的显著性特征向量;识别单元,用于根据所述显著性特征向量进行识别和分类。使用了端对端的5层卷积神经网络模型。模型中加入BN层。可以选择较大的学习率,使得训练速度增长很快,具有快速收敛性。并且省掉了局部响应归一化层,精简网络。把训练数据打乱,防止每批训练的时候,某一个样本被经常挑选到。
图3显示为本发明一实施例的终端设备的示意图。如图3所示,该实施例终端设备包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,例如软件开发程序。所述处理器执行所述计算机程序时实现上述各个软件开发方法实施例中的步骤。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述终端设备中的执行过程。例如,所述计算机程序可以被分割成获取模块、执行模块、生成模块(虚拟装置中的模块),各模块具体功能如下:
获取模块用于软件开发需求;执行模块用于根据软件开发需求以及预设的页面基础框架模板上的模板组件,确定待生成的目标页面的目标组件;目标组件包括以下至少一种:基于模板组件修改的调整组件、基于模板组件创建的新组件、基于模板组件确定的待替换组件;生成模块用于基于目标组件的组件名称以及位置信息,在页面基础框架模板中将模板组件以及目标组件组装形成目标页面。
所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,图3仅仅是终端设备的示例,并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器可以是所述终端设备的内部存储单元,例如终端设备的硬盘或内存。所述存储器也可以是所述终端设备的外部存储设备,例如所述终端设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器还可以既包括所述终端设备的内部存储单元也包括外部存储设备。所述存储器用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
本发明的异常声音识别方法、系统、终端设备及计算机可读存储介质,通过对声音信号分析、处理,提出两种声音信号处理融合的特征提取算法,提高了全面性和个体特征的差异性的区分。在一般的单一输入的基础上,使用特征融合算法处理两个方向上的重要输入,提高了网络的泛化能力和准确性。通过使用二维卷积神经网络对声音信号进一步提取特征,使用“声图”作为二维卷积神经网络的输入信号,处理信息快速高效。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种异常声音识别方法,其特征在于,包括步骤:
S1、获取异常声音数据集;
S2、通过梅尔声谱图和频谱对比度谱图融合算法构建声音特征图;
S3、通过二维卷积神经网络对所述声音特征图进行多次堆叠卷积处理后获取不同声音对应的显著性特征向量,并根据所述显著性特征向量进行识别和分类。
2.根据权利要求1所述的异常声音识别方法,其特征在于,所述步骤S2包括步骤:
对采集到的声音信号提取梅尔声谱特征;
对采集到的声音信号采集对比度频谱特征;
将所述梅尔声谱特征和所述对比度谱图特征进行串联拼接融合后得到所述声音特征图。
3.根据权利要求2所述的异常声音识别方法,其特征在于,所述步骤“对采集到的声音信号提取梅尔声谱特征”包括步骤:
对采集到的声音信号进行分帧;
将分帧后的声音信号进行加窗;
对加窗后的声音信号进行傅里叶变换;
在傅里叶变换后的声音信号进行堆叠获取梅尔声谱特征,并生成梅尔声谱图;
所述步骤“对采集到的声音信号采集对比度频谱特征”包括步骤:
对采集到的声音信号进行快速傅里叶变换;
将快速傅里叶变换后的声音信号通过倍频程滤波器进行滤波;
将滤波后的声音信号进行峰谷尺度和光谱对比;
将对比后的声音信号进行对数处理后进行K-L变换后生成对比度频谱图并获取对比度频谱特征。
4.根据权利要求1所述的异常声音识别方法,其特征在于,所述步骤S3包括步骤:
对所述声音特征图中的声音特征进行一次卷积;
对一次卷积后的声音特征进行一次池化处理;
对一次池化后的声音特征进行二次卷积处理;
对二次卷积后的声音特征进行二次池化处理;
对二次池化后的声音特征进行全连接处理获取不同声音对应的显著性特征向量;
根据所述显著性特征向量进行识别和分类。
5.一种异常声音识别系统,其特征在于,包括:
获取模块,用于获取异常声音数据集;
构建模块,用于通过梅尔声谱图和频谱对比度谱图融合算法构建声音特征图;
卷积模块,用于通过二维卷积神经网络对所述声音特征图进行多次堆叠卷积处理后获取不同声音对应的显著性特征向量,并根据所述显著性特征向量进行识别和分类。
6.根据权利要求5所述的异常声音识别系统,其特征在于,所述构建模块包括:
梅尔声谱构建单元,用于对采集到的声音信号提取梅尔声谱特征;
对比度频谱构建单元,用于对采集到的声音信号采集对比度频谱特征;
融合单元,用于将所述梅尔声谱特征和所述对比度谱图特征进行串联拼接融合后得到所述声音特征图。
7.根据权利要求6所述的异常声音识别系统,其特征在于,所述梅尔声谱构建单元包括:
分帧子单元,用于对采集到的声音信号进行分帧;
加窗子单元,用于将分帧后的声音信号进行加窗;
第一变换子单元,用于对加窗后的声音信号进行傅里叶变换;
第一构建子单元,用于在傅里叶变换后的声音信号进行堆叠获取梅尔声谱特征,并生成梅尔声谱图;
所述对比度频谱构建单元包括:
第二变换子单元,用于对采集到的声音信号进行快速傅里叶变换;
滤波子单元,用于将快速傅里叶变换后的声音信号通过倍频程滤波器进行滤波;
对比子单元,用于将滤波后的声音信号进行峰谷尺度和光谱对比;
第二构建子单元,用于将对比后的声音信号进行对数处理后进行K-L变换后生成对比度频谱图并获取对比度频谱特征。
8.根据权利要求5所述的异常声音识别系统,其特征在于,所述卷积模块包括:
第一卷积单元,用于对所述声音特征图中的声音特征进行一次卷积;
第一池化单元,用于对一次卷积后的声音特征进行一次池化处理;
第二卷积单元,用于对一次池化后的声音特征进行二次卷积处理;
第二池化单元,用于对二次卷积后的声音特征进行二次池化处理;
处理单元,用于对二次池化后的声音特征进行全连接处理获取不同声音对应的显著性特征向量;
识别单元,用于根据所述显著性特征向量进行识别和分类。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011548236.0A CN114664325A (zh) | 2020-12-24 | 2020-12-24 | 一种异常声音识别方法、系统、终端设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011548236.0A CN114664325A (zh) | 2020-12-24 | 2020-12-24 | 一种异常声音识别方法、系统、终端设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114664325A true CN114664325A (zh) | 2022-06-24 |
Family
ID=82024846
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011548236.0A Pending CN114664325A (zh) | 2020-12-24 | 2020-12-24 | 一种异常声音识别方法、系统、终端设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114664325A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116473521A (zh) * | 2023-06-21 | 2023-07-25 | 四川大学华西医院 | 疑似环杓关节脱位声音频谱识别方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109473120A (zh) * | 2018-11-14 | 2019-03-15 | 辽宁工程技术大学 | 一种基于卷积神经网络的异常声音信号识别方法 |
US20190120719A1 (en) * | 2016-04-01 | 2019-04-25 | Nippon Telegraph And Telephone Corporation | Anomalous sound detection training apparatus, acoustic feature extraction apparatus, anomalous sound sampling apparatus, and methods and programs for the same |
CN110425710A (zh) * | 2019-08-30 | 2019-11-08 | 盈盛智创科技(广州)有限公司 | 一种空调的故障检测方法、装置、设备及存储介质 |
CN111105812A (zh) * | 2019-12-31 | 2020-05-05 | 普联国际有限公司 | 一种音频特征提取方法、装置、训练方法及电子设备 |
CN111640439A (zh) * | 2020-05-15 | 2020-09-08 | 南开大学 | 一种基于深度学习的呼吸音分类方法 |
-
2020
- 2020-12-24 CN CN202011548236.0A patent/CN114664325A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190120719A1 (en) * | 2016-04-01 | 2019-04-25 | Nippon Telegraph And Telephone Corporation | Anomalous sound detection training apparatus, acoustic feature extraction apparatus, anomalous sound sampling apparatus, and methods and programs for the same |
CN109473120A (zh) * | 2018-11-14 | 2019-03-15 | 辽宁工程技术大学 | 一种基于卷积神经网络的异常声音信号识别方法 |
CN110425710A (zh) * | 2019-08-30 | 2019-11-08 | 盈盛智创科技(广州)有限公司 | 一种空调的故障检测方法、装置、设备及存储介质 |
CN111105812A (zh) * | 2019-12-31 | 2020-05-05 | 普联国际有限公司 | 一种音频特征提取方法、装置、训练方法及电子设备 |
CN111640439A (zh) * | 2020-05-15 | 2020-09-08 | 南开大学 | 一种基于深度学习的呼吸音分类方法 |
Non-Patent Citations (2)
Title |
---|
姚琨;杨吉斌;张雄伟;郑昌艳;孙蒙;: "基于多分辨率时频特征融合的声学场景分类", 声学技术, no. 04, 15 August 2020 (2020-08-15) * |
弓彦婷;程小雪;任洪梅;陈雁翔;: "声谱图显著性在音频识别中的应用", 合肥工业大学学报(自然科学版), no. 01, 28 January 2016 (2016-01-28) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116473521A (zh) * | 2023-06-21 | 2023-07-25 | 四川大学华西医院 | 疑似环杓关节脱位声音频谱识别方法及系统 |
CN116473521B (zh) * | 2023-06-21 | 2023-08-18 | 四川大学华西医院 | 疑似环杓关节脱位声音频谱识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111179975B (zh) | 用于情绪识别的语音端点检测方法、电子设备及存储介质 | |
CN112949708B (zh) | 情绪识别方法、装置、计算机设备和存储介质 | |
CN111986699B (zh) | 基于全卷积网络的声音事件检测方法 | |
CN113205820B (zh) | 一种用于声音事件检测的声音编码器的生成方法 | |
CN111816166A (zh) | 声音识别方法、装置以及存储指令的计算机可读存储介质 | |
US11133022B2 (en) | Method and device for audio recognition using sample audio and a voting matrix | |
CN111462761A (zh) | 声纹数据生成方法、装置、计算机装置及存储介质 | |
CN110136726A (zh) | 一种语音性别的估计方法、装置、系统及存储介质 | |
CN110717410A (zh) | 语音情感和面部表情双模态识别系统 | |
CN109448756A (zh) | 一种语音年龄识别方法及系统 | |
Shah et al. | Speech emotion recognition based on SVM using MATLAB | |
Song et al. | A compact and discriminative feature based on auditory summary statistics for acoustic scene classification | |
Prashanth et al. | A review of deep learning techniques in audio event recognition (AER) applications | |
CN114664325A (zh) | 一种异常声音识别方法、系统、终端设备及计算机可读存储介质 | |
Ahmad et al. | Determining speaker attributes from stress-affected speech in emergency situations with hybrid SVM-DNN architecture | |
Reimao | Synthetic speech detection using deep neural networks | |
Kamble et al. | Emotion recognition for instantaneous Marathi spoken words | |
Hajihashemi et al. | Novel time-frequency based scheme for detecting sound events from sound background in audio segments | |
CN114882909A (zh) | 一种环境声音分类分析方法、装置和介质 | |
CN114566156A (zh) | 一种关键词的语音识别方法及装置 | |
CN112309404A (zh) | 机器语音的鉴别方法、装置、设备及存储介质 | |
Badura et al. | Lip reading using fuzzy logic network with memory | |
Anguraj et al. | Analysis of influencing features with spectral feature extraction and multi-class classification using deep neural network for speech recognition system | |
Dhakal | Novel Architectures for Human Voice and Environmental Sound Recognitionusing Machine Learning Algorithms | |
Therese et al. | A linear visual assessment tendency based clustering with power normalized cepstral coefficients for audio signal recognition system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |