CN112652326B - 基于伪彩色时频图像及卷积网络的环境声音识别方法 - Google Patents
基于伪彩色时频图像及卷积网络的环境声音识别方法 Download PDFInfo
- Publication number
- CN112652326B CN112652326B CN202011299987.3A CN202011299987A CN112652326B CN 112652326 B CN112652326 B CN 112652326B CN 202011299987 A CN202011299987 A CN 202011299987A CN 112652326 B CN112652326 B CN 112652326B
- Authority
- CN
- China
- Prior art keywords
- frequency
- time
- pseudo
- frequency image
- color
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000005236 sound signal Effects 0.000 claims abstract description 37
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 27
- 230000007613 environmental effect Effects 0.000 claims abstract description 26
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 21
- 230000009466 transformation Effects 0.000 claims abstract description 14
- 238000010586 diagram Methods 0.000 claims description 28
- 238000009826 distribution Methods 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 12
- 238000001228 spectrum Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 4
- 230000003213 activating effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000036039 immunity Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000003477 cochlea Anatomy 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于伪彩色时频图像及卷积网络的环境声音识别方法,该方法首先提出了一种基于模态中心频率差分的自适应变分模态分解方法,通过其对环境声音信号进行噪声去除与信号重建,并结合伪Wigner‑Vile算法生成时频图像,该时频表征算法能在降低噪声对时频图像污染的同时有效对非稳态信号进行表征;在时频图像基础上,应用伪彩色变换将灰度时频图像转换为伪彩色时频图像,进一步提升了时频表征的鲁棒特性;针对传统分类器鲁棒性较差的问题,构建了一个基于深度卷积神经网络的环境声音信号识别模型,将伪彩色时频图像输入该模型进行识别,有效提高了算法的识别精度和鲁棒性。
Description
技术领域
本发明属于声音信号识别领域,本发明涉及一种环境声音信号检测方法,特别是一种基于伪彩色时频图像及卷积网络的环境声音识别方法。
背景技术
环境声是除语音声和音乐声之外的所有可听声的总称。过去几十年来,人们主要针对语音声和音乐声进行了大量的基础和应用研究,如语音合成和识别、乐声分析与自动索检等等。将环境声作为一种单独的声音类别进行听觉感知与应用研究是近十多年的事。环境声自动识别在科学研究、工业生产、社会生活、军事斗争等诸多领域有着广泛的应用,如基于动物发声的物种调查与保护、基于声与振动的故障诊断与修复、水下目标的识别与分类等。目前,环境声识别的热门应用领域是城市中环境声识别,其对帮助人们实现智能化的城市管理具有重要意义。
文献“噪声背景下环境声音识别研究,Electronic Engineering&Product World,2019,Vol26(09),p34-38”公开了一种基于声音增强与声谱图扇形投影特征的噪声背景下环境声音识别方法。该方法采用改进的最小递归平均算法来估计噪声方差,结合对数谱最小均方误差实现对环境声音信号去躁的目的。在对环境声音信号进行噪声去除的基础上,采用基于子带能量分布的声谱图对信号进行表征,利用Gammatone滤波器组对声谱图进行滤波处理,使滤波后得到的声谱图的频率分布特性更符合人耳蜗的听觉特性。同时,用扇形投影变换对声谱图进行重构,通过重构得到声谱图在各方向的投影系数并将其作为环境声音信号的特征向量,其在降低声谱图维度的同时有效提取了声音信号特征。文献所述方法采用频率相关函数估计阈值来对信号进行噪声去除,而环境声音信号频率分布较广,从而使得该算法适应性不强;声谱图适用于对稳态信号进行表征,用其无法对非稳态的环境声音信号进行有效表征;多分类支持向量机作为分类器,分类速度慢且在高噪声条件下鲁棒性差。
发明内容
本发明解决的技术问题是:为了解决现有的环境声音信号识别方法适应性弱、鲁棒性差且环境声音信号缺少有效的时频表征方法的问题,本发明提供了一种基于伪彩色时频图像及深度卷积神经网络的鲁棒环境声音信号识别方法。该方法首先提出了一种基于模态中心频率差分的自适应变分模态分解方法,通过其对环境声音信号进行噪声去除与信号重建,并结合伪Wigner-Vile算法生成时频图像,该时频表征算法能在降低噪声对时频图像污染的同时有效对非稳态信号进行表征;在时频图像基础上,应用伪彩色变换将灰度时频图像转换为伪彩色时频图像,进一步提升了时频表征的鲁棒特性;针对传统分类器鲁棒性较差的问题,构建了一个基于深度卷积神经网络的环境声音信号识别模型,将伪彩色时频图像输入该模型进行识别,有效提高了算法的识别精度和鲁棒性。
本发明的技术方案是:一种基于伪彩色时频图像及深度卷积神经网络的鲁棒环境声音信号识别方法,其特征在于,包括以下步骤:
步骤1:计算模态数为K时各模态信号uk及相应的中心频率ωk:
其中,f表示输入的声音信号,n表示迭代次数,τ为噪声容限,λ为拉格朗日乘子,ζ为无约束变分问题,{}表示集合;
步骤2:计算相邻模态信号中心频率的差分值
Dk=ωk+1(t)-ωk(t)k=1,...,K-1 (4)
λk=Dk+1/Dkk=1,...,K-2 (5)
其中,Dk为中心频率差值,λk中心频率差分值。
步骤3;确定最优分解个数K
满足终止条件时,最优分解个数Kbest=K-1。
步骤4去除噪声分量后计算各模态信号的时频分布:
步骤5重构得到灰度时频图
步骤6引入阈值并进行归一化
PWVD(t,f)=max[PWVD(t,f)-max(PWVD),-80dB] (9)
步骤7非线性变换得到伪彩色时频图
Mc(f,t)=hc(G(t,f))c=red,green,blue (11)
其中,Mc(f,t)为第c个单色图像,hc为第c个单色图像的非线性映射函数;灰度图映射到hsv伪彩色时频图的三个通道所对应的非线性变换为:
参数{l2,l1,u1,u2}在三个通道下的值分别为:
得到伪彩色时频图后,利用Lancazos(a=3)插值算法将时频图像大小调整为512×512。
步骤8:构建深度卷积神经网络。
本发明进一步的技术方案是:所述步骤1中,
ζ公式及迭代终止条件为:
本发明进一步的技术方案是:所述步骤8中,神经网络共包含26层,其中包含7层卷积层,9层激活层,7层池化层,3层全连接层,深度卷积神经网络的输入为尺寸为512×512的RGB三通道彩色图像,每一层卷积层都加入了ReLU激活函数和批标准化。
发明效果
本发明的技术效果在于:
(1)步骤1~4使用基于模态中心频率差分的自适应变分模态分解方法对环境声音信号进行了分解与噪声模态的去除,有效降低了噪声对时频图像的污染,且去噪时不依赖任何关于噪声的先验知识,算法适应性强;
(2)传统使用的短时傅里叶变换需要采用分帧的方法对非平稳信号进行近似表示,无法获得信号的瞬时时频分布。步骤5结合伪Wigner-Vile算法对环境声音信号进行时频表征,可以得到的时频图像的瞬时时频分布,从而使得到的时频图像分辨率更高且具有更加明确的物理意义;
(3)步骤7采用伪彩色时频图像,通过映射灰度图像到高维彩色空间,环境噪声对声学特性的影响可以进一步减少,进一步提升了时频图像的抗噪能力;并利用卷积神经网络对伪彩色时频图像进行特征提取和分类,利用神经网络的泛化能力及抗噪能力进一步提升了识别算法的泛化能力和鲁棒性。
附图说明
图1是算法流程图。
图2是自适应变分模态分解的分解结果。(第一行为原信号的波形图和频谱图,第二到第五行为分解的各模态信号的波形图和频谱图。)
图3是灰度时频图像。
图4是伪彩色时频图像。
图5是卷积神经网络示意图
具体实施方式
一种基于伪彩色时频图像及深度卷积神经网络的鲁棒环境声音信号识别方法,其特点是包括下述步骤:
步骤1计算模态数为K时各模态信号uk及相应的中心频率ωk:
其中,f表示输入的声音信号,n表示迭代次数,τ为噪声容限,λ为拉格朗日乘子,ζ为无约束变分问题,{}表示集合;ζ公式及迭代终止条件为:
步骤2计算相邻模态信号中心频率的差分值
Dk=ωk+1(t)-ωk(t)k=1,...,K-1 (22)
λk=Dk+1/Dkk=1,...,K-2 (23)
其中,Dk为中心频率差值,λk中心频率差分值。
步骤3确定最优分解个数K
满足终止条件时,最优分解个数Kbest=K-1。
步骤4去除噪声分量后计算各模态信号的时频分布:
步骤5重构得到灰度时频图
步骤6引入阈值并进行归一化
PWVD(t,f)=max[PWVD(t,f)-max(PWVD),-80dB] (27)
步骤7非线性变换得到伪彩色时频图
Mc(f,t)=hc(G(t,f))c=red,green,blue (29)
其中,Mc(f,t)为第c个单色图像,hc为第c个单色图像的非线性映射函数;灰度图映射到hsv伪彩色时频图的三个通道所对应的非线性变换为:
参数{l2,l1,u1,u2}在三个通道下的值分别为:
得到伪彩色时频图后,利用Lancazos(a=3)插值算法将时频图像大小调整为512×512。
步骤8构建深度卷积神经网络
本发明构建的神经网络共包含26层,其中包含7层卷积层,9层激活层,7层池化层,3层全连接层,深度卷积神经网络的输入为尺寸为512×512的RGB三通道彩色图像,每一层卷积层都加入了ReLU激活函数和批标准化。其整体结构和具体参数见下表1-1。将伪彩色时频图像直接输入到卷积神经网络中进行特征提取和分类,从而实现对环境声音信号的鲁棒识别。
表1-1深度卷积神经网络结构和参数
为下面结合附图对本发明的技术方案进行详细说明。
本发明基于伪彩色时频图像和深度卷积神经网络的鲁棒环境声识别方法,具体实施方式包括以下步骤:
下面结合对环境声数据的识别实例说明本发明的具体实施方式,但本发明的技术内容不限于所述的范围。
本发明提出一种基于伪彩色时频图像及深度卷积神经网络的鲁棒环境声识别方法,包括以下步骤:步骤1:利用基于频率中心差分的自适应变分模态分解对信号进行分解;步骤2:通过对低频模态信号的去除实现对背景噪声的去除,然后利用剩余模态信号结合伪Wigner-Vile时频分布实现灰度时频图像的生成;步骤3:利用非线性变换将灰度时频图像转换为伪彩色时频图像;步骤4:将伪彩色时频图像输入到CNN中进行训练与识别。
步骤一、信号分解。
当环境声音信号加入背景噪声时,时频图像的相应区域也会受到噪声污染,本发明通过自适应变分模态分解实现对环境声音信号的分解与去躁。传统的变分模态分解需要预设模态信号的个数K,K值选取不当会导致模态混叠或出现虚假分量,而环境声音信号的非稳态特性导致难以准确确定K值。因此,本发明提出了基于中心频率差分的自适应变分模态分解(SVMD)来实现对信号的有效分解,具体步骤如下:
(1)初始化K值,令K=3。
(2)对信号进行VMD分解,得到K个模态信号分量和相应的中心频率ωk(t)。
其中,n表示迭代次数,τ为噪声容限,λ为拉格朗日乘子,ζ为无约束变分问题,{}表示集合;约束ζ的公式及迭代终止条件为:
(3)相邻中心频率的差值:
Dk=ωk+1(t)-ωk(t)k=1,...,K-1 (38)
其中,ωk(t)为第k个IMFk分量的中心频率,Dk为第k+1个模态分量的中心频率ωk+1(t)与前一个模态分量的中心频率ωk(t)的差值,即中心频率差值。
(4)相邻中心频率的差分值:
λk=Dk+1/Dkk=1,...,K-2 (39)
其中,λk为差分中心频率。
(5)根据λK-2的值,判断是否达到最优分解个数K:
当中心频率差值曲线出现负增长时,即λK-2<1时,认为达到了最优分解个数,否则K=K+1继续进行循环,直到找到最优分解个数K。满足终止条件时,最优分解个数Kbest=K-1。
步骤二、噪声去除及时频图像的生成
通过SVMD分解可以将环境声信号分解成一系列中心频率由低到高增加的模态信号,而背景噪声主要分布于低频模态中,因此可以通过对低频模态信号的去除来实现去躁。利用信号分解去躁的同时,结合二次型时频分布伪Wigner-Vile算法进行时频图像的生成,有效抑制了二次型时频分布中固有的交叉干扰项的影响,得到时频分辨率更高且具有明确物理意义的时频图像。具体步骤如下:
(1)首先利用本发明提出的SVMD对信号进行分解,确定最优分解模态个数K及相对应的K个IMF:IMF1,...,IMFk。
(2)将K个IMF中的低频模态分量去除,以达到噪声去除和消除交叉干扰项的目的,由于去除低频模态也会一定程度上造成环境声音信号的丢失,因此仅将IMF1模态分量去除,最后保留的模态分量为:IMF2,...,IMFk。
(3)利用PWVD时频分布求各模态分量的时频图:
(4)对各模态分量的时频图进行线性叠加,得到灰度时频图:
(5)引入阈值并进行归一化
PWVD(t,f)=max[PWVD(t,f)-max(PWVD),-80dB] (43)
步骤三、转换为伪彩色时频图
通过非线性函数将灰度时频图映射到r、g、b三个通道,从而得到三通道的伪彩色时频图。时频图像的鲁棒性是由环境声音信号时频图像的稀疏分布特性产生的,噪声的能量强度主要分布于谱图的低频区域,而时频图的高频区域仍由声音信号的高频成分主导,并未受到噪声较大干扰。而通过将灰度图经过非线性映射到高维颜色空间,可以进一步降低环境噪声对声特征的影响。
非线性变换的公式为:
Mc(f,t)=hc(G(t,f))c=red,green,blue (45)
其中,Mc(f,t)为第c个单色图像,hc为第c个单色图像的非线性映射函数;将灰度图映射到hsv伪彩色时频图的三个通道所对应的非线性变换为:
对非线性变换公式中的超参数{l2,l1,u1,u2}在red、green和blue三个颜色通道下进行赋值即可得到hot伪彩色时频图变换对应的非线性公式,相应的参数值为:
得到伪彩色时频图后,利用Lancazos(a=3)插值算法将时频图像大小调整为512×512。
步骤四、环境声音信号的识别
本发明通过构建一个基于深度卷积神经网络的识别模型来实现对环境声音信号的识别。该神经网络共26层,包含了7层卷积层,9层激活层,7层池化层,3层全连接层,其整体结构和具体参数在表1-1中已详细列出,这里不再赘述。首先需要构建环境声音数据库,数据库中的声音信号通过上述步骤变换后得到伪彩色时频图像,最后将其输入到神经网络中进行训练,在训练过程中需要设置批大小、学习率、动量、训练批次等超参数。训练好的神经网络模型即可实现对相应类型环境声音信号的识别。
Claims (3)
1.一种基于伪彩色时频图像及深度卷积神经网络的鲁棒环境声音信号识别方法,其特征在于,包括以下步骤:
步骤1:计算模态数为K时各模态信号uk及相应的中心频率ωk:
其中,f表示输入的声音信号,n表示迭代次数,τ为噪声容限,λ为拉格朗日乘子,ζ为无约束变分问题,{}表示集合;
步骤2:计算相邻模态信号中心频率的差分值
Dk=ωk+1(t)-ωk(t) k=1,...,K-1 (4)
λk=Dk+1/Dk k=1,...,K-2 (5)
其中,Dk为中心频率差值,λk中心频率差分值;
步骤3;确定最优分解个数K
满足终止条件时,最优分解个数Kbest=K-1;
步骤4去除噪声分量后计算各模态信号的时频分布:
步骤5重构得到灰度时频图
步骤6引入阈值并进行归一化
PWVD(t,f)=max[PWVD(t,f)-max(PWVD),-80dB] (9)
步骤7非线性变换得到伪彩色时频图
Mc(f,t)=hc(G(t,f)) c=red,green,blue (11)
其中,Mc(f,t)为第c个单色图像,hc为第c个单色图像的非线性映射函数;灰度图映射到hsv伪彩色时频图的三个通道所对应的非线性变换为:
参数{l2,l1,u1,u2}在三个通道下的值分别为:
得到伪彩色时频图后,利用Lancazos(a=3)插值算法将时频图像大小调整为512×512;
步骤8:构建深度卷积神经网络。
3.如权利要求1所述的一种基于伪彩色时频图像及深度卷积神经网络的鲁棒环境声音信号识别方法,其特征在于,所述步骤8中,神经网络共包含26层,其中包含7层卷积层,9层激活层,7层池化层,3层全连接层,深度卷积神经网络的输入为尺寸为512×512的RGB三通道彩色图像,每一层卷积层都加入了ReLU激活函数和批标准化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011299987.3A CN112652326B (zh) | 2020-11-18 | 2020-11-18 | 基于伪彩色时频图像及卷积网络的环境声音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011299987.3A CN112652326B (zh) | 2020-11-18 | 2020-11-18 | 基于伪彩色时频图像及卷积网络的环境声音识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112652326A CN112652326A (zh) | 2021-04-13 |
CN112652326B true CN112652326B (zh) | 2023-07-04 |
Family
ID=75349274
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011299987.3A Active CN112652326B (zh) | 2020-11-18 | 2020-11-18 | 基于伪彩色时频图像及卷积网络的环境声音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112652326B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113344279B (zh) * | 2021-06-21 | 2022-03-01 | 河海大学 | 基于lstm-sam模型和池化的居民负荷预测方法 |
CN117274117B (zh) * | 2023-11-23 | 2024-02-02 | 合肥工业大学 | 频域伪彩色增强的心磁信号特征图像生成方法及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190110939A (ko) * | 2018-03-21 | 2019-10-01 | 한국과학기술원 | 합성곱 신경망 기반 환경음 인식 방법 및 시스템 |
CN111862962A (zh) * | 2020-07-20 | 2020-10-30 | 汪秀英 | 一种语音识别方法及系统 |
-
2020
- 2020-11-18 CN CN202011299987.3A patent/CN112652326B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190110939A (ko) * | 2018-03-21 | 2019-10-01 | 한국과학기술원 | 합성곱 신경망 기반 환경음 인식 방법 및 시스템 |
CN111862962A (zh) * | 2020-07-20 | 2020-10-30 | 汪秀英 | 一种语音识别方法及系统 |
Non-Patent Citations (1)
Title |
---|
基于卷积神经网络图像分类的轴承故障模式识别;张安安;黄晋英;冀树伟;李东;;振动与冲击(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112652326A (zh) | 2021-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109841226B (zh) | 一种基于卷积递归神经网络的单通道实时降噪方法 | |
Qu et al. | Radar signal intra-pulse modulation recognition based on convolutional denoising autoencoder and deep convolutional neural network | |
CN111723701B (zh) | 一种水中目标识别方法 | |
CN110120020A (zh) | 一种基于多尺度空洞残差注意力网络的sar图像去噪方法 | |
CN107452389A (zh) | 一种通用的单声道实时降噪方法 | |
CN112652326B (zh) | 基于伪彩色时频图像及卷积网络的环境声音识别方法 | |
CN109890043B (zh) | 一种基于生成式对抗网络的无线信号降噪方法 | |
CN106529428A (zh) | 基于深度学习的水下目标识别方法 | |
CN108985304B (zh) | 一种基于浅剖数据的沉积层结构自动提取方法 | |
WO2013089536A1 (ko) | 관심음원 제거방법 및 그에 따른 음성인식방법 및 음성인식장치 | |
CN113252790A (zh) | 基于宽卷积与循环神经网络的磁瓦内部缺陷检测方法 | |
WO2019014890A1 (zh) | 一种通用的单声道实时降噪方法 | |
Jin et al. | Offshore ship recognition based on center frequency projection of improved EMD and KNN algorithm | |
Li et al. | Data augmentation method for underwater acoustic target recognition based on underwater acoustic channel modeling and transfer learning | |
CN112331232B (zh) | 一种结合cgan谱图去噪和双边滤波谱图增强的语音情感识别方法 | |
Liu et al. | Application of multi-algorithm mixed feature extraction model in underwater acoustic signal | |
Li et al. | Magnetotelluric signal-noise separation method based on SVM–CEEMDWT | |
Chen et al. | Underwater target recognition method based on convolution autoencoder | |
Hao et al. | An improved multivariate wavelet denoising method using subspace projection | |
CN111047537A (zh) | 一种图像去噪中恢复细节的系统 | |
CN107369444A (zh) | 一种基于mfcc和人工神经网络的水下机动小目标识别方法 | |
Zhang et al. | MSLEFC: A low-frequency focused underwater acoustic signal classification and analysis system | |
CN115691535A (zh) | 基于rnn的高信噪比语音降噪方法、装置、设备及介质 | |
KR101568282B1 (ko) | 클러스터 기반 손실 특징 복원 알고리즘을 위한 마스크 추정 방법 및 장치 | |
Yao et al. | A recursive multi-head self-attention learning for acoustic-based gear fault diagnosis in real-industrial noise condition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |