CN112652326B - 基于伪彩色时频图像及卷积网络的环境声音识别方法 - Google Patents

基于伪彩色时频图像及卷积网络的环境声音识别方法 Download PDF

Info

Publication number
CN112652326B
CN112652326B CN202011299987.3A CN202011299987A CN112652326B CN 112652326 B CN112652326 B CN 112652326B CN 202011299987 A CN202011299987 A CN 202011299987A CN 112652326 B CN112652326 B CN 112652326B
Authority
CN
China
Prior art keywords
frequency
time
pseudo
frequency image
color
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011299987.3A
Other languages
English (en)
Other versions
CN112652326A (zh
Inventor
王靖宇
张彦华
苏雨
张科
王霰禹
王林
马振宇
谢方园
王红梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202011299987.3A priority Critical patent/CN112652326B/zh
Publication of CN112652326A publication Critical patent/CN112652326A/zh
Application granted granted Critical
Publication of CN112652326B publication Critical patent/CN112652326B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于伪彩色时频图像及卷积网络的环境声音识别方法,该方法首先提出了一种基于模态中心频率差分的自适应变分模态分解方法,通过其对环境声音信号进行噪声去除与信号重建,并结合伪Wigner‑Vile算法生成时频图像,该时频表征算法能在降低噪声对时频图像污染的同时有效对非稳态信号进行表征;在时频图像基础上,应用伪彩色变换将灰度时频图像转换为伪彩色时频图像,进一步提升了时频表征的鲁棒特性;针对传统分类器鲁棒性较差的问题,构建了一个基于深度卷积神经网络的环境声音信号识别模型,将伪彩色时频图像输入该模型进行识别,有效提高了算法的识别精度和鲁棒性。

Description

基于伪彩色时频图像及卷积网络的环境声音识别方法
技术领域
本发明属于声音信号识别领域,本发明涉及一种环境声音信号检测方法,特别是一种基于伪彩色时频图像及卷积网络的环境声音识别方法。
背景技术
环境声是除语音声和音乐声之外的所有可听声的总称。过去几十年来,人们主要针对语音声和音乐声进行了大量的基础和应用研究,如语音合成和识别、乐声分析与自动索检等等。将环境声作为一种单独的声音类别进行听觉感知与应用研究是近十多年的事。环境声自动识别在科学研究、工业生产、社会生活、军事斗争等诸多领域有着广泛的应用,如基于动物发声的物种调查与保护、基于声与振动的故障诊断与修复、水下目标的识别与分类等。目前,环境声识别的热门应用领域是城市中环境声识别,其对帮助人们实现智能化的城市管理具有重要意义。
文献“噪声背景下环境声音识别研究,Electronic Engineering&Product World,2019,Vol26(09),p34-38”公开了一种基于声音增强与声谱图扇形投影特征的噪声背景下环境声音识别方法。该方法采用改进的最小递归平均算法来估计噪声方差,结合对数谱最小均方误差实现对环境声音信号去躁的目的。在对环境声音信号进行噪声去除的基础上,采用基于子带能量分布的声谱图对信号进行表征,利用Gammatone滤波器组对声谱图进行滤波处理,使滤波后得到的声谱图的频率分布特性更符合人耳蜗的听觉特性。同时,用扇形投影变换对声谱图进行重构,通过重构得到声谱图在各方向的投影系数并将其作为环境声音信号的特征向量,其在降低声谱图维度的同时有效提取了声音信号特征。文献所述方法采用频率相关函数估计阈值来对信号进行噪声去除,而环境声音信号频率分布较广,从而使得该算法适应性不强;声谱图适用于对稳态信号进行表征,用其无法对非稳态的环境声音信号进行有效表征;多分类支持向量机作为分类器,分类速度慢且在高噪声条件下鲁棒性差。
发明内容
本发明解决的技术问题是:为了解决现有的环境声音信号识别方法适应性弱、鲁棒性差且环境声音信号缺少有效的时频表征方法的问题,本发明提供了一种基于伪彩色时频图像及深度卷积神经网络的鲁棒环境声音信号识别方法。该方法首先提出了一种基于模态中心频率差分的自适应变分模态分解方法,通过其对环境声音信号进行噪声去除与信号重建,并结合伪Wigner-Vile算法生成时频图像,该时频表征算法能在降低噪声对时频图像污染的同时有效对非稳态信号进行表征;在时频图像基础上,应用伪彩色变换将灰度时频图像转换为伪彩色时频图像,进一步提升了时频表征的鲁棒特性;针对传统分类器鲁棒性较差的问题,构建了一个基于深度卷积神经网络的环境声音信号识别模型,将伪彩色时频图像输入该模型进行识别,有效提高了算法的识别精度和鲁棒性。
本发明的技术方案是:一种基于伪彩色时频图像及深度卷积神经网络的鲁棒环境声音信号识别方法,其特征在于,包括以下步骤:
步骤1:计算模态数为K时各模态信号uk及相应的中心频率ωk
Figure BDA0002786543020000021
Figure BDA0002786543020000022
Figure BDA0002786543020000023
其中,f表示输入的声音信号,n表示迭代次数,τ为噪声容限,λ为拉格朗日乘子,ζ为无约束变分问题,{}表示集合;
步骤2:计算相邻模态信号中心频率的差分值
Dk=ωk+1(t)-ωk(t)k=1,...,K-1 (4)
λk=Dk+1/Dkk=1,...,K-2 (5)
其中,Dk为中心频率差值,λk中心频率差分值。
步骤3;确定最优分解个数K
Figure BDA0002786543020000024
满足终止条件时,最优分解个数Kbest=K-1。
步骤4去除噪声分量后计算各模态信号的时频分布:
Figure BDA0002786543020000025
其中,h(τ)为高斯核函数,
Figure BDA0002786543020000026
表示对频率的二维卷积,imfn为第n个模态分量信号,pwvdn(t,f)为第n个IMF的PWVD时频图。
步骤5重构得到灰度时频图
Figure BDA0002786543020000031
步骤6引入阈值并进行归一化
PWVD(t,f)=max[PWVD(t,f)-max(PWVD),-80dB] (9)
Figure BDA0002786543020000032
步骤7非线性变换得到伪彩色时频图
Mc(f,t)=hc(G(t,f))c=red,green,blue (11)
其中,Mc(f,t)为第c个单色图像,hc为第c个单色图像的非线性映射函数;灰度图映射到hsv伪彩色时频图的三个通道所对应的非线性变换为:
Figure BDA0002786543020000033
Figure BDA0002786543020000034
参数{l2,l1,u1,u2}在三个通道下的值分别为:
Figure BDA0002786543020000035
得到伪彩色时频图后,利用Lancazos(a=3)插值算法将时频图像大小调整为512×512。
步骤8:构建深度卷积神经网络。
本发明进一步的技术方案是:所述步骤1中,
ζ公式及迭代终止条件为:
Figure BDA0002786543020000041
Figure BDA0002786543020000042
其中,α为二次惩罚因子,δ(t)为单位脉冲函数,j为虚数,*表示卷积运算,e为收敛条件,
Figure BDA0002786543020000043
表示对t求偏导。
本发明进一步的技术方案是:所述步骤8中,神经网络共包含26层,其中包含7层卷积层,9层激活层,7层池化层,3层全连接层,深度卷积神经网络的输入为尺寸为512×512的RGB三通道彩色图像,每一层卷积层都加入了ReLU激活函数和批标准化。
发明效果
本发明的技术效果在于:
(1)步骤1~4使用基于模态中心频率差分的自适应变分模态分解方法对环境声音信号进行了分解与噪声模态的去除,有效降低了噪声对时频图像的污染,且去噪时不依赖任何关于噪声的先验知识,算法适应性强;
(2)传统使用的短时傅里叶变换需要采用分帧的方法对非平稳信号进行近似表示,无法获得信号的瞬时时频分布。步骤5结合伪Wigner-Vile算法对环境声音信号进行时频表征,可以得到的时频图像的瞬时时频分布,从而使得到的时频图像分辨率更高且具有更加明确的物理意义;
(3)步骤7采用伪彩色时频图像,通过映射灰度图像到高维彩色空间,环境噪声对声学特性的影响可以进一步减少,进一步提升了时频图像的抗噪能力;并利用卷积神经网络对伪彩色时频图像进行特征提取和分类,利用神经网络的泛化能力及抗噪能力进一步提升了识别算法的泛化能力和鲁棒性。
附图说明
图1是算法流程图。
图2是自适应变分模态分解的分解结果。(第一行为原信号的波形图和频谱图,第二到第五行为分解的各模态信号的波形图和频谱图。)
图3是灰度时频图像。
图4是伪彩色时频图像。
图5是卷积神经网络示意图
具体实施方式
一种基于伪彩色时频图像及深度卷积神经网络的鲁棒环境声音信号识别方法,其特点是包括下述步骤:
步骤1计算模态数为K时各模态信号uk及相应的中心频率ωk
Figure BDA0002786543020000051
Figure BDA0002786543020000052
Figure BDA0002786543020000053
其中,f表示输入的声音信号,n表示迭代次数,τ为噪声容限,λ为拉格朗日乘子,ζ为无约束变分问题,{}表示集合;ζ公式及迭代终止条件为:
Figure BDA0002786543020000054
Figure BDA0002786543020000055
其中,α为二次惩罚因子,δ(t)为单位脉冲函数,j为虚数,*表示卷积运算,e为收敛条件,
Figure BDA0002786543020000056
表示对t求偏导。
步骤2计算相邻模态信号中心频率的差分值
Dk=ωk+1(t)-ωk(t)k=1,...,K-1 (22)
λk=Dk+1/Dkk=1,...,K-2 (23)
其中,Dk为中心频率差值,λk中心频率差分值。
步骤3确定最优分解个数K
Figure BDA0002786543020000061
满足终止条件时,最优分解个数Kbest=K-1。
步骤4去除噪声分量后计算各模态信号的时频分布:
Figure BDA0002786543020000062
其中,h(τ)为高斯核函数,
Figure BDA0002786543020000063
表示对频率的二维卷积,imfn为第n个模态分量信号,pwvdn(t,f)为第n个IMF的PWVD时频图。
步骤5重构得到灰度时频图
Figure BDA0002786543020000064
步骤6引入阈值并进行归一化
PWVD(t,f)=max[PWVD(t,f)-max(PWVD),-80dB] (27)
Figure BDA0002786543020000065
步骤7非线性变换得到伪彩色时频图
Mc(f,t)=hc(G(t,f))c=red,green,blue (29)
其中,Mc(f,t)为第c个单色图像,hc为第c个单色图像的非线性映射函数;灰度图映射到hsv伪彩色时频图的三个通道所对应的非线性变换为:
Figure BDA0002786543020000066
Figure BDA0002786543020000071
参数{l2,l1,u1,u2}在三个通道下的值分别为:
Figure BDA0002786543020000072
得到伪彩色时频图后,利用Lancazos(a=3)插值算法将时频图像大小调整为512×512。
步骤8构建深度卷积神经网络
本发明构建的神经网络共包含26层,其中包含7层卷积层,9层激活层,7层池化层,3层全连接层,深度卷积神经网络的输入为尺寸为512×512的RGB三通道彩色图像,每一层卷积层都加入了ReLU激活函数和批标准化。其整体结构和具体参数见下表1-1。将伪彩色时频图像直接输入到卷积神经网络中进行特征提取和分类,从而实现对环境声音信号的鲁棒识别。
表1-1深度卷积神经网络结构和参数
Figure BDA0002786543020000073
Figure BDA0002786543020000081
为下面结合附图对本发明的技术方案进行详细说明。
本发明基于伪彩色时频图像和深度卷积神经网络的鲁棒环境声识别方法,具体实施方式包括以下步骤:
下面结合对环境声数据的识别实例说明本发明的具体实施方式,但本发明的技术内容不限于所述的范围。
本发明提出一种基于伪彩色时频图像及深度卷积神经网络的鲁棒环境声识别方法,包括以下步骤:步骤1:利用基于频率中心差分的自适应变分模态分解对信号进行分解;步骤2:通过对低频模态信号的去除实现对背景噪声的去除,然后利用剩余模态信号结合伪Wigner-Vile时频分布实现灰度时频图像的生成;步骤3:利用非线性变换将灰度时频图像转换为伪彩色时频图像;步骤4:将伪彩色时频图像输入到CNN中进行训练与识别。
步骤一、信号分解。
当环境声音信号加入背景噪声时,时频图像的相应区域也会受到噪声污染,本发明通过自适应变分模态分解实现对环境声音信号的分解与去躁。传统的变分模态分解需要预设模态信号的个数K,K值选取不当会导致模态混叠或出现虚假分量,而环境声音信号的非稳态特性导致难以准确确定K值。因此,本发明提出了基于中心频率差分的自适应变分模态分解(SVMD)来实现对信号的有效分解,具体步骤如下:
(1)初始化K值,令K=3。
(2)对信号进行VMD分解,得到K个模态信号分量和相应的中心频率ωk(t)。
Figure BDA0002786543020000091
Figure BDA0002786543020000092
Figure BDA0002786543020000093
其中,n表示迭代次数,τ为噪声容限,λ为拉格朗日乘子,ζ为无约束变分问题,{}表示集合;约束ζ的公式及迭代终止条件为:
Figure BDA0002786543020000094
Figure BDA0002786543020000095
其中,α为二次惩罚因子,δ(t)为单位脉冲函数,j为虚数,*表示卷积运算,e为收敛条件,
Figure BDA0002786543020000096
表示对t求偏导。
(3)相邻中心频率的差值:
Dk=ωk+1(t)-ωk(t)k=1,...,K-1 (38)
其中,ωk(t)为第k个IMFk分量的中心频率,Dk为第k+1个模态分量的中心频率ωk+1(t)与前一个模态分量的中心频率ωk(t)的差值,即中心频率差值。
(4)相邻中心频率的差分值:
λk=Dk+1/Dkk=1,...,K-2 (39)
其中,λk为差分中心频率。
(5)根据λK-2的值,判断是否达到最优分解个数K:
Figure BDA0002786543020000101
当中心频率差值曲线出现负增长时,即λK-2<1时,认为达到了最优分解个数,否则K=K+1继续进行循环,直到找到最优分解个数K。满足终止条件时,最优分解个数Kbest=K-1。
步骤二、噪声去除及时频图像的生成
通过SVMD分解可以将环境声信号分解成一系列中心频率由低到高增加的模态信号,而背景噪声主要分布于低频模态中,因此可以通过对低频模态信号的去除来实现去躁。利用信号分解去躁的同时,结合二次型时频分布伪Wigner-Vile算法进行时频图像的生成,有效抑制了二次型时频分布中固有的交叉干扰项的影响,得到时频分辨率更高且具有明确物理意义的时频图像。具体步骤如下:
(1)首先利用本发明提出的SVMD对信号进行分解,确定最优分解模态个数K及相对应的K个IMF:IMF1,...,IMFk
(2)将K个IMF中的低频模态分量去除,以达到噪声去除和消除交叉干扰项的目的,由于去除低频模态也会一定程度上造成环境声音信号的丢失,因此仅将IMF1模态分量去除,最后保留的模态分量为:IMF2,...,IMFk
(3)利用PWVD时频分布求各模态分量的时频图:
Figure BDA0002786543020000102
其中,h(τ)为高斯核函数,
Figure BDA0002786543020000103
表示对频率的二维卷积,imfn为第n个模态分量信号,pwvdn(t,f)为第n个IMF的PWVD时频图。
(4)对各模态分量的时频图进行线性叠加,得到灰度时频图:
Figure BDA0002786543020000111
(5)引入阈值并进行归一化
PWVD(t,f)=max[PWVD(t,f)-max(PWVD),-80dB] (43)
Figure BDA0002786543020000112
步骤三、转换为伪彩色时频图
通过非线性函数将灰度时频图映射到r、g、b三个通道,从而得到三通道的伪彩色时频图。时频图像的鲁棒性是由环境声音信号时频图像的稀疏分布特性产生的,噪声的能量强度主要分布于谱图的低频区域,而时频图的高频区域仍由声音信号的高频成分主导,并未受到噪声较大干扰。而通过将灰度图经过非线性映射到高维颜色空间,可以进一步降低环境噪声对声特征的影响。
非线性变换的公式为:
Mc(f,t)=hc(G(t,f))c=red,green,blue (45)
其中,Mc(f,t)为第c个单色图像,hc为第c个单色图像的非线性映射函数;将灰度图映射到hsv伪彩色时频图的三个通道所对应的非线性变换为:
Figure BDA0002786543020000113
Figure BDA0002786543020000121
对非线性变换公式中的超参数{l2,l1,u1,u2}在red、green和blue三个颜色通道下进行赋值即可得到hot伪彩色时频图变换对应的非线性公式,相应的参数值为:
Figure BDA0002786543020000122
得到伪彩色时频图后,利用Lancazos(a=3)插值算法将时频图像大小调整为512×512。
步骤四、环境声音信号的识别
本发明通过构建一个基于深度卷积神经网络的识别模型来实现对环境声音信号的识别。该神经网络共26层,包含了7层卷积层,9层激活层,7层池化层,3层全连接层,其整体结构和具体参数在表1-1中已详细列出,这里不再赘述。首先需要构建环境声音数据库,数据库中的声音信号通过上述步骤变换后得到伪彩色时频图像,最后将其输入到神经网络中进行训练,在训练过程中需要设置批大小、学习率、动量、训练批次等超参数。训练好的神经网络模型即可实现对相应类型环境声音信号的识别。

Claims (3)

1.一种基于伪彩色时频图像及深度卷积神经网络的鲁棒环境声音信号识别方法,其特征在于,包括以下步骤:
步骤1:计算模态数为K时各模态信号uk及相应的中心频率ωk
Figure QLYQS_1
Figure QLYQS_2
Figure QLYQS_3
其中,f表示输入的声音信号,n表示迭代次数,τ为噪声容限,λ为拉格朗日乘子,ζ为无约束变分问题,{}表示集合;
步骤2:计算相邻模态信号中心频率的差分值
Dk=ωk+1(t)-ωk(t) k=1,...,K-1 (4)
λk=Dk+1/Dk k=1,...,K-2 (5)
其中,Dk为中心频率差值,λk中心频率差分值;
步骤3;确定最优分解个数K
Figure QLYQS_4
满足终止条件时,最优分解个数Kbest=K-1;
步骤4去除噪声分量后计算各模态信号的时频分布:
Figure QLYQS_5
其中,h(τ)为高斯核函数,
Figure QLYQS_6
表示对频率的二维卷积,imfn为第n个模态分量信号,pwvdn(t,f)为第n个IMF的PWVD时频图;
步骤5重构得到灰度时频图
Figure QLYQS_7
步骤6引入阈值并进行归一化
PWVD(t,f)=max[PWVD(t,f)-max(PWVD),-80dB] (9)
Figure QLYQS_8
步骤7非线性变换得到伪彩色时频图
Mc(f,t)=hc(G(t,f)) c=red,green,blue (11)
其中,Mc(f,t)为第c个单色图像,hc为第c个单色图像的非线性映射函数;灰度图映射到hsv伪彩色时频图的三个通道所对应的非线性变换为:
Figure QLYQS_9
Figure QLYQS_10
参数{l2,l1,u1,u2}在三个通道下的值分别为:
Figure QLYQS_11
得到伪彩色时频图后,利用Lancazos(a=3)插值算法将时频图像大小调整为512×512;
步骤8:构建深度卷积神经网络。
2.如权利要求1所述的一种基于伪彩色时频图像及深度卷积神经网络的鲁棒环境声音信号识别方法,其特征在于,所述步骤1中,
ζ公式及迭代终止条件为:
Figure QLYQS_12
Figure QLYQS_13
其中,α为二次惩罚因子,δ(t)为单位脉冲函数,j为虚数,*表示卷积运算,e为收敛条件,
Figure QLYQS_14
表示对t求偏导。
3.如权利要求1所述的一种基于伪彩色时频图像及深度卷积神经网络的鲁棒环境声音信号识别方法,其特征在于,所述步骤8中,神经网络共包含26层,其中包含7层卷积层,9层激活层,7层池化层,3层全连接层,深度卷积神经网络的输入为尺寸为512×512的RGB三通道彩色图像,每一层卷积层都加入了ReLU激活函数和批标准化。
CN202011299987.3A 2020-11-18 2020-11-18 基于伪彩色时频图像及卷积网络的环境声音识别方法 Active CN112652326B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011299987.3A CN112652326B (zh) 2020-11-18 2020-11-18 基于伪彩色时频图像及卷积网络的环境声音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011299987.3A CN112652326B (zh) 2020-11-18 2020-11-18 基于伪彩色时频图像及卷积网络的环境声音识别方法

Publications (2)

Publication Number Publication Date
CN112652326A CN112652326A (zh) 2021-04-13
CN112652326B true CN112652326B (zh) 2023-07-04

Family

ID=75349274

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011299987.3A Active CN112652326B (zh) 2020-11-18 2020-11-18 基于伪彩色时频图像及卷积网络的环境声音识别方法

Country Status (1)

Country Link
CN (1) CN112652326B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113344279B (zh) * 2021-06-21 2022-03-01 河海大学 基于lstm-sam模型和池化的居民负荷预测方法
CN117274117B (zh) * 2023-11-23 2024-02-02 合肥工业大学 频域伪彩色增强的心磁信号特征图像生成方法及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190110939A (ko) * 2018-03-21 2019-10-01 한국과학기술원 합성곱 신경망 기반 환경음 인식 방법 및 시스템
CN111862962A (zh) * 2020-07-20 2020-10-30 汪秀英 一种语音识别方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190110939A (ko) * 2018-03-21 2019-10-01 한국과학기술원 합성곱 신경망 기반 환경음 인식 방법 및 시스템
CN111862962A (zh) * 2020-07-20 2020-10-30 汪秀英 一种语音识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于卷积神经网络图像分类的轴承故障模式识别;张安安;黄晋英;冀树伟;李东;;振动与冲击(第04期);全文 *

Also Published As

Publication number Publication date
CN112652326A (zh) 2021-04-13

Similar Documents

Publication Publication Date Title
CN109841226B (zh) 一种基于卷积递归神经网络的单通道实时降噪方法
Qu et al. Radar signal intra-pulse modulation recognition based on convolutional denoising autoencoder and deep convolutional neural network
CN111723701B (zh) 一种水中目标识别方法
CN110120020A (zh) 一种基于多尺度空洞残差注意力网络的sar图像去噪方法
CN107452389A (zh) 一种通用的单声道实时降噪方法
CN112652326B (zh) 基于伪彩色时频图像及卷积网络的环境声音识别方法
CN109890043B (zh) 一种基于生成式对抗网络的无线信号降噪方法
CN106529428A (zh) 基于深度学习的水下目标识别方法
CN108985304B (zh) 一种基于浅剖数据的沉积层结构自动提取方法
WO2013089536A1 (ko) 관심음원 제거방법 및 그에 따른 음성인식방법 및 음성인식장치
CN113252790A (zh) 基于宽卷积与循环神经网络的磁瓦内部缺陷检测方法
WO2019014890A1 (zh) 一种通用的单声道实时降噪方法
Jin et al. Offshore ship recognition based on center frequency projection of improved EMD and KNN algorithm
Li et al. Data augmentation method for underwater acoustic target recognition based on underwater acoustic channel modeling and transfer learning
CN112331232B (zh) 一种结合cgan谱图去噪和双边滤波谱图增强的语音情感识别方法
Liu et al. Application of multi-algorithm mixed feature extraction model in underwater acoustic signal
Li et al. Magnetotelluric signal-noise separation method based on SVM–CEEMDWT
Chen et al. Underwater target recognition method based on convolution autoencoder
Hao et al. An improved multivariate wavelet denoising method using subspace projection
CN111047537A (zh) 一种图像去噪中恢复细节的系统
CN107369444A (zh) 一种基于mfcc和人工神经网络的水下机动小目标识别方法
Zhang et al. MSLEFC: A low-frequency focused underwater acoustic signal classification and analysis system
CN115691535A (zh) 基于rnn的高信噪比语音降噪方法、装置、设备及介质
KR101568282B1 (ko) 클러스터 기반 손실 특징 복원 알고리즘을 위한 마스크 추정 방법 및 장치
Yao et al. A recursive multi-head self-attention learning for acoustic-based gear fault diagnosis in real-industrial noise condition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant