CN112419258B - 基于时频分割及卷积神经网络的鲁棒环境声音识别方法 - Google Patents
基于时频分割及卷积神经网络的鲁棒环境声音识别方法 Download PDFInfo
- Publication number
- CN112419258B CN112419258B CN202011296063.8A CN202011296063A CN112419258B CN 112419258 B CN112419258 B CN 112419258B CN 202011296063 A CN202011296063 A CN 202011296063A CN 112419258 B CN112419258 B CN 112419258B
- Authority
- CN
- China
- Prior art keywords
- time
- frequency
- color
- map
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000011218 segmentation Effects 0.000 title claims abstract description 27
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 16
- 230000005236 sound signal Effects 0.000 claims abstract description 57
- 230000007613 environmental effect Effects 0.000 claims abstract description 37
- 230000009466 transformation Effects 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 10
- 238000010586 diagram Methods 0.000 claims description 29
- 238000013528 artificial neural network Methods 0.000 claims description 21
- 238000013507 mapping Methods 0.000 claims description 9
- 238000001228 spectrum Methods 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 239000007787 solid Substances 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 4
- 238000013135 deep learning Methods 0.000 abstract description 2
- 230000000007 visual effect Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 9
- 238000000605 extraction Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 238000012512 characterization method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 230000003213 activating effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 108010063499 Sigma Factor Proteins 0.000 description 1
- 210000003477 cochlea Anatomy 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于时频分割及卷积神经网络的鲁棒环境声音识别方法,该方法首先提出将二次型时频分析算法伪Wigner‑Vile分布应用于环境声音信号的时频表征,通过其可以得到更加直观和合理的时频表征图像;在时频图像基础上,应用伪彩色变换将灰度时频图像转换为伪彩色时频图像,进一步提升了时频表征的鲁棒性;其次,设计了一种基于图像显著性的时频分割算法,利用其对时频图像的环境声音信号分布区域进行提取,从而实现对时频图像噪声的去除;最后,将深度学习应用于环境声音信号识别,构建了一个基于深度卷积神经网络的环境声音信号识别模型,将经过时频分割去噪的伪彩色时频图像输入该模型进行训练和识别,有效提高了识别算法的鲁棒性。
Description
技术领域
本发明属于声音信号识别领域,涉及一种环境声音信号检测方法,特别是一种基于时频分割及卷积神经网络的鲁棒环境声音识别方法。
背景技术
环境声音信号识别是声音信号处理领域的重要研究课题,其在军事和民用领域中的应用得到了研究人员的广泛关注,被应用于故障检测、声监控、环境感知和音频标注等领域。完整的环境声音识别框架分为信号预处理、特征提取和分类三个部分。伴随着城市智能化管理概念的提出,针对真实环境背景下环境声音信号的感知与识别具有十分重大的实际意义,因此高噪声背景下的环境声音信号识别成为研究热点之一。
文献“噪声环境下基于能量检测的生态声音识别,计算机工程,2013,39(02):168-171”公开了一种基于能量检测与Mel频率倒谱系数特征的噪声背景下环境声音信号识别方法。该方法通过高斯分布对虚警概率进行预测,进一步结合信号能量及噪声方差实现对环境声音信号中事件声音片段的检测。在对环境声音信号进行事件声音检测的基础上,利用傅里叶变换得到事件声音片段的频谱信息。同时,建立模仿人类耳蜗听觉特性的梅尔滤波器,通过滤波把声音信号的线性频谱映射到基于非线性的Mel频谱中,然后利用离散余弦变换得到音频信号的峰值及包络信息,从而实现对环境声音信号特征的有效提取。文献所述方法需要预设虚警概率和确定噪声方差才能实现事件声音片段检测,算法适应性不强;利用傅里叶变换得到环境声音信号的频谱信息,而傅里叶变换难以对非稳态信号进行有效表征;使用多分类支持向量机进行分类,分类速度慢且鲁棒性差。
发明内容
本发明解决的技术问题是:为了解决现有的环境声音信号识别方法鲁棒性差、缺少有效的时频表征方法的问题,本发明提供了一种基于时频分割去噪及深度卷积神经网络的鲁棒环境声音信号识别方法。
本发明的技术方案是:一种基于时频分割及卷积神经网络的鲁棒环境声音识别方法,包括以下步骤:
步骤1:利用伪Wigner-Vile时频分布得到灰度时频图像,包括以下子步骤:
步骤1.1:利用伪Wigner-Vile分布的定义,得到环境声音信号的时频分布:
其中,h(τ)为高斯核函数,*表示二维卷积,imf表示环境声音信号,pwvd(t,f)表示PWVD时频图像;
步骤1.2:引入阈值,计算对数频谱:
PWVD(t,f)=log(max[PWVD(t,f)-max(PWVD),-80dB])
步骤1.3:通过归一化,得到灰度时频图:
其中,G(t,f)表示归一化后的灰度时频图像;
步骤2:将灰度图转换为伪彩色时频图:
Mc(f,t)=hc(G(t,f)) c=red,green,blue
其中,Mc(f,t)为第c个单色图像,hc为第c个单色图像的非线性映射函数;将灰度图映射到hot伪彩色时频图对应的非线性变换为:
步骤3:根据步骤2得到的三个通道下的参数值,分别能够得到亮度图和颜色图;
其中亮度图为:
I=(r+g+b)/3
其中,r,g,b为伪彩色时频图的三个通道;
经过调整后的各通道颜色图为:
R=r-(g+b)/2
G=g-(r+b)/2
B=b-(r+g)/2
Y=(r+g)/2-|r-g|/2-b
其中,R,G,B,Y分别表示红色、绿色、蓝色、黄色四种颜色通道;
步骤4:根据步骤3得到的亮度显著图,计算得到亮度差分显著图;
SI(x,y)=|Iμ-I(x,y)|
其中,Iμ表示亮度差分显著图的像素平均值;
根据颜色图,得到颜色差分显著图:
Sn(x,y)=|μn-Cn(x,y)| n=R、G、B、Y
其中,μn表示相应颜色图的像素平均值,Sn(x,y)表示相应颜色通道的颜色显著图;步骤5:将步骤四得到的亮度差分显著图和颜色差分显著图进行非线性融合,得到最终显著图为:
S(x,y)=max(SI(x,y),SR(x,y),SG(x,y),SB(x,y),SY(x,y))
步骤6:进行时频图事件声区域提取,包括以下子步骤:
步骤6.1:根据时频显著图S(x,y)的像素值确定显著区域分割的阈值:
其中,N、M分别为时频显著图的高、宽;
步骤6.2:阈值法进行时频图分割,得到分割后的二值图像Sseg(x,y):
Sseg中像素值为1的区域即为事件声在时频图中的分布区域,像素值为0的区域即为背景噪声的分布区域;
步骤6.3:根据步骤6.2中,阈值法分割得到二值图像;
步骤6.4:对时频图事件声区域进行提取:
其中,imgR,imgG,imgB表示伪彩色时频图中三个通道对应的像素点;
步骤7:利用基于神经网络的识别模型进行环境声音信号的训练与识别。
本发明的进一步技术方案是:所述得到伪彩色时频图后,利用Lancazos插值算法将时频图像大小调整。
本发明的进一步技术方案是:所述步骤2中,对非线性变换公式中的超参数{l2,l1,u1,u2}在red、green和blue三个颜色通道下进行赋值即可得到hot伪彩色时频图变换对应的非线性公式,相应的参数值为:
cred={0,(3/8)×250,(31/40)×250}
cgreen={(2/5)×250,(31/40)×250,(21/20)×250}
cblue={(31/40)×250,(21/20)×250,(21/20)×250}。
本发明的进一步技术方案是:所述图像大小调整为:
M_resizec(f,t)=Lancazos(Mc(f,t))c=red,green,blue。
本发明的进一步技术方案是:所述步骤6中确定显著区域后,对于非显著区域,利用imgR=255,imgG=0,imgB=0将非显著区域变为纯色的背景区域,实现对噪声背景的去除。
本发明的进一步技术方案是:所述步骤4中的亮度显著图,
其中,I(x,y)是亮度差分显著图;G为高斯差分滤波器,ρ为高斯标准差比例系数;σ为截止频率。
本发明的进一步技术方案是:所述步骤4公式中,
其中,R、G、B、Y表示各颜色通道,Cn(x,y)表示相应颜色通道的颜色差分显著图。
本发明的进一步技术方案是:所述步骤7中,所述神经网络共26层,包含了7层卷积层,9层激活层,7层池化层,3层全连接层。
发明效果
本发明的技术效果在于:本发明提供了一种基于时频分割去噪及深度卷积神经网络的鲁棒环境声音信号识别方法。该方法首先提出将二次型时频分析算法伪Wigner-Vile分布应用于环境声音信号的时频表征,通过其可以得到更加直观和合理的时频表征图像;在时频图像基础上,应用伪彩色变换将灰度时频图像转换为伪彩色时频图像,进一步提升了时频表征的鲁棒性;其次,设计了一种基于图像显著性的时频分割算法,利用其对时频图像的环境声音信号分布区域进行提取,从而实现对时频图像噪声的去除;最后,将深度学习应用于环境声音信号识别,构建了一个基于深度卷积神经网络的环境声音信号识别模型,将经过时频分割去噪的伪彩色时频图像输入该模型进行训练和识别,有效提高了识别算法的鲁棒性。具体增益效果如下:
(1)传统使用的短时傅里叶变换需要采用分帧的方法对非平稳信号进行近似表示,无法获得信号的瞬时时频分布。在步骤1(权利书中)中,通过引用伪Wigner-Vile算法对环境声音信号进行时频表征,可以得到时频图像的瞬时时频分布,具有更加明确的物理意义。
(2)步骤2中采用伪彩色时频图像,通过映射灰度图像到高维彩色空间,环境噪声对声学特性的影响可以进一步减少,进一步提升了时频图像的抗噪能力。
(3)在步骤6、7中,使用基于图像显著性的时频分割算法对时频图像进行去噪,不需要任何噪声的先验知识,方法具有更强的适应性有效降低了噪声对时频图像的污染;利用卷积神经网络对时频图像进行特征提取和分类,进一步提升了算法的泛化能力和鲁棒性。
附图说明
图1是算法流程图。
图2是事件声区域提取结果图
图3是卷积神经网络示意图
具体实施方式
参见图1—图2,本发明解决其技术问题所采用的技术方案:一种基于时频分割去噪及深度卷积神经网络的鲁棒环境声音信号识别方法,其特点是包括下述步骤:
(a)计算环境声音信号的时频分布:
其中,imf表示输入的环境声音信号,h(τ)为高斯核函数,*表示二维卷积,pwvd(t,f)表示利用伪Wigner-Vile分布得到的PWVD时频图像。
(b)引入阈值并进行归一化:
PWVD(t,f)=max[PWVD(t,f)-max(PWVD),-80dB] (2)
其中,G(t,f)表示归一化后的灰度时频图像。
(c)非线性变换得到伪彩色时频图:
Mc(f,t)=hc(G(t,f)) c=red,green,blue (4)
其中,Mc(f,t)为第c个单色图像,hc为第c个单色图像的非线性映射函数。
(d)图像大小调整:
M_resizec(f,t)=Lancazos(Mc(f,t)) c=red,green,blue (5)
得到伪彩色时频图后,利用Lancazos(a=3)插值算法将时频图像大小调整为512×512。
(e)时频图像的亮度显著图:
SI(x,y)=|Iμ-I(x,y)| (7)
其中,I(x,y)表示亮度差分显著图,SI(x,y)为亮度显著图,G表示高斯差分滤波器,ρ为高斯标准差比例系数,σ为截止频率,Iμ为亮度差分显著图的像素平均值。
(f)时频图像的颜色显著图:
Sn(x,y)=|μn-Cn(x,y)| n=R、G、B、Y (9)
其中,R、G、B、Y表示各颜色通道,Cn(x,y)表示相应颜色通道的颜色差分显著图,μn表示相应颜色图的像素平均值,Sn(x,y)表示相应颜色通道的颜色显著图。
(g)亮度、颜色域融合得到最终的时频显著图:
S=max(SI(x,y),SR(x,y),SG(x,y),SB(x,y),SY(x,y)) (10)
(h)图像显著区域分割:
其中,N、M表示时频显著图的高和宽,Sseg(x,y)表示分割后的二值图像。
(I)事件声区域提取:
其中,imgR,imgG,imgB表示伪彩色时频图中三个通道对应的像素点。
(J)构建深度卷积神经网络
本发明构建的神经网络共包含26层,其中包含7层卷积层,9层激活层,7层池化层,3层全连接层,深度卷积神经网络的输入为尺寸为512×512的RGB三通道彩色图像,每一层卷积层都加入了ReLU激活函数和批标准化。其整体结构和具体参数见下表1-1。将环境声音信号对应的伪彩色时频图像直接输入到卷积神经网络中进行特征提取、网络训练和分类,从而实现对环境声音信号的鲁棒识别。
表1-1深度卷积神经网络结构和参数
为下面结合附图对本发明的技术方案进行详细说明。
本发明基于时频分割去躁和深度卷积神经网络的鲁棒环境声音信号识别方法,具体实施方式包括以下步骤:
下面结合对环境声音数据集中的音频样本进行处理和识别的实例说明本发明的具体实施方式,但本发明的技术内容不限于所述的范围。
本发明基于时频分割去躁和深度卷积神经网络的鲁棒环境声音信号识别方法,包括以下步骤:步骤1:利用伪Wigner-Vile时频分布得到灰度时频图像;步骤2:利用非线性变换将灰度时频图像转换为伪彩色时频图像;步骤3:利用高斯差分滤波器分别在亮度、颜色域求显著图,然后将两个包含不同域信息的显著图进行融合得到最终的时频显著图;步骤4:利用显著图进行事件声区域的提取;步骤5:利用基于神经网络的识别模型进行环境声音信号的训练与识别。
步骤一、环境声音信号的时频图像表征。
为了提高事件声音识别算法的精度和鲁棒性,本发明提出了用时频图像来表征环境声音信号。环境声音信号属于非稳态信号,传统的时频分析方法难以对其进行有效表征,因此引入二次型时频分析方法对其进行表征。在其基础上,通过非线性函数将灰度时频图映射到r、g、b三个通道,从而得到三通道的伪彩色时频图。通过将灰度图经过非线性函数映射到高维颜色空间,可以进一步降低环境噪声对声特征的影响。具体步骤如下:
(1)直接利用伪Wigner-Vile分布的定义得到环境声音信号的时频分布:
其中,h(τ)为高斯核函数,*表示二维卷积,imf表示环境声音信号,pwvd(t,f)表示PWVD时频图像。
(2)引入阈值,计算对数频谱:
PWVD(t,f)=log(max[PWVD(t,f)-max(PWVD),-80dB]) (15)
引入阈值,防止因像素值过小导致对数谱值出现无穷值。
(3)通过归一化得到灰度时频图:
其中,G(t,f)表示归一化后的灰度时频图像。
(4)将灰度图转换为伪彩色时频图:
Mc(f,t)=hc(G(t,f)) c=red,green,blue (17)
其中,Mc(f,t)为第c个单色图像,hc为第c个单色图像的非线性映射函数;将灰度图映射到hot伪彩色时频图对应的非线性变换为:
对非线性变换公式中的超参数{l2,l1,u1,u2}在red、green和blue三个颜色通道下进行赋值即可得到hot伪彩色时频图变换对应的非线性公式,相应的参数值为:
(5)图像大小调整:
M_resizec(f,t)=Lancazos(Mc(f,t)) c=red,green,blue (20)
得到伪彩色时频图后,利用Lancazos(a=3)插值算法将时频图像大小调整为512×512。
步骤二、计算时频显著图。
针对时频图像的纹理特性,在人对图像的两个最基本的感知领域亮度、颜色分别利用高斯差分滤波器求显著图,然后将两个包含不同域信息的显著图进行融合得到最终的时频显著图。
(1)利用图像的RGB三通道,得到亮度图I:
I=(r+g+b)/3 (21)
其中,r,g,b为伪彩色图像的三个通道。
(2)利用高斯差分滤波器来获得亮度图像的显著边缘信息,并将多个差分滤波器相加得到基于高斯差分滤波器的亮度差分显著图:
其中,I(x,y)是亮度差分显著图;G为高斯差分滤波器,为了去掉高频噪声和纹理,要使用一个小的高斯核,高斯核取ρ为高斯标准差比例系数,取定值1.6;σ为截止频率,取σ=π/2.75。
(3)最终的亮度显著图:
SI(x,y)=|Iμ-I(x,y)| (23)
其中,Iμ表示亮度差分显著图的像素平均值。
(4)利用r,g,b三通道矩阵得到各颜色图:
Y=(r+g)/2-|r-g|/2-b (25)
(5)利用高斯差分滤波器分别得到各颜色通道的颜色差分显著图:
其中,R、G、B、Y表示各颜色通道,Cn(x,y)表示相应颜色通道的颜色差分显著图
(6)得到各颜色通道最终的显著图:
Sn(x,y)=|μn-Cn(x,y)| n=R、G、B、Y (27)
其中,μn表示相应颜色图的像素平均值,Sn(x,y)表示相应颜色通道的颜色显著图。
(7)亮度、颜色域显著图非线性融合得到最终的显著图:
S(x,y)=max(SI(x,y),SR(x,y),SG(x,y),SB(x,y),SY(x,y)) (28)
步骤三、进行时频图事件声区域提取。
通过阈值法对时频显著图进行时频图分割,利用得到的二值图像对原时频图进行事件声区域的提取,从而将事件声在时频图中分布的区域与背景噪声分割开,最终达到对时频图像降噪的目的。
(1)根据时频显著图S(x,y)的像素值确定显著区域分割的阈值:
其中,N、M分别为时频显著图的高、宽。
(2)阈值法进行时频图分割,得到分割后的二值图像Sseg(x,y):
Sseg中像素值为1的区域即为事件声在时频图中的分布区域,像素值为0的区域即为背景噪声的分布区域。
(3)确定显著区域后,对时频图中的显著区域保留,非显著区域去除,从而实现对时频图事件声区域的提取:
其中,imgR,imgG,imgB表示伪彩色时频图中三个通道对应的像素点。
对于非显著区域,利用imgR=255,imgG=0,imgB=0将非显著区域变为纯色的背景区域,从而实现对噪声背景的去除。
步骤四、利用基于神经网络的识别模型进行环境声音信号的训练与识别。
本发明通过构建一个基于深度卷积神经网络的识别模型来实现对环境声音信号的识别。该神经网络共26层,包含了7层卷积层,9层激活层,7层池化层,3层全连接层,其整体结构和具体参数在表1-1中已详细列出,这里不再赘述。首先需要构建环境声音数据库,数据库中的声音信号通过上述步骤变换后得到伪彩色时频图像,最后将其输入到神经网络中进行训练,在训练过程中需要设置批大小、学习率、动量、训练批次等超参数。训练好的神经网络模型即可实现对相应类型环境声音信号的识别。
Claims (8)
1.一种基于时频分割及卷积神经网络的鲁棒环境声音识别方法,其特征在于,包括以下步骤:
步骤1:利用伪Wigner-Vile时频分布得到灰度时频图像,包括以下子步骤:
步骤1.1:利用伪Wigner-Vile分布的定义,得到环境声音信号的时频分布:
其中,h(τ)为高斯核函数,*表示二维卷积,imf表示环境声音信号,pwvd(t,f)表示PWVD时频图像;
步骤1.2:引入阈值,计算对数频谱:
PWVD(t,f)=log(max[PWVD(t,f)-max(PWVD),-80dB])
步骤1.3:通过归一化,得到灰度时频图:
其中,G(t,f)表示归一化后的灰度时频图像;
步骤2:将灰度图转换为伪彩色时频图:
Mc(f,t)=hc(G(t,f))c=red,green,blue
其中,Mc(f,t)为第c个单色图像,hc为第c个单色图像的非线性映射函数;将灰度图映射到hot伪彩色时频图对应的非线性变换为:
步骤3:根据步骤2得到的三个通道下的参数值,分别能够得到亮度图和颜色图;
其中亮度图为:
I=(r+g+b)/3
其中,r,g,b为伪彩色时频图的三个通道;
经过调整后的各通道颜色图为:
R=r-(g+b)/2
G=g-(r+b)/2
B=b-(r+g)/2
Y=(r+g)/2-|r-g|/2-b
其中,R,G,B,Y分别表示红色、绿色、蓝色、黄色四种颜色通道;
步骤4:根据步骤3得到的亮度显著图,计算得到亮度差分显著图;
SI(x,y)=|Iμ-I(x,y)|
其中,Iμ表示亮度差分显著图的像素平均值;
根据颜色图,得到颜色差分显著图:
Sn(x,y)=|μn-Cn(x,y)|n=R、G、B、Y
其中,μn表示相应颜色图的像素平均值,Sn(x,y)表示相应颜色通道的颜色显著图;
步骤5:将步骤四得到的亮度差分显著图和颜色差分显著图进行非线性融合,得到最终显著图为:
S(x,y)=max(SI(x,y),SR(x,y),SG(x,y),SB(x,y),SY(x,y))
步骤6:进行时频图事件声区域提取,包括以下子步骤:
步骤6.1:根据时频显著图S(x,y)的像素值确定显著区域分割的阈值:
其中,N、M分别为时频显著图的高、宽;
步骤6.2:阈值法进行时频图分割,得到分割后的二值图像Sseg(x,y):
Sseg中像素值为1的区域即为事件声在时频图中的分布区域,像素值为0的区域即为背景噪声的分布区域;
步骤6.3:根据步骤6.2中,阈值法分割得到二值图像;
步骤6.4:对时频图事件声区域进行提取:
其中,imgR,imgG,imgB表示伪彩色时频图中三个通道对应的像素点;
步骤7:利用基于神经网络的识别模型进行环境声音信号的训练与识别。
2.如权利要求1所述的一种基于时频分割去躁及深度卷积神经网络的鲁棒环境声音信号识别方法,其特征在于,所述得到伪彩色时频图后,利用Lancazos插值算法将时频图像大小调整。
3.如权利要求1所述的一种基于时频分割去躁及深度卷积神经网络的鲁棒环境声音信号识别方法,其特征在于,所述步骤2中,对非线性变换公式中的超参数{l2,l1,u1,u2}在red、green和blue三个颜色通道下进行赋值即可得到hot伪彩色时频图变换对应的非线性公式,相应的参数值为:
cred={0,(3/8)×250,(31/40)×250}
cgreen={(2/5)×250,(31/40)×250,(21/20)×250}
cblue={(31/40)×250,(21/20)×250,(21/20)×250}。
4.如权利要求1所述的一种基于时频分割去躁及深度卷积神经网络的鲁棒环境声音信号识别方法,其特征在于,所述图像大小调整为:
M_resizec(f,t)=Lancazos(Mc(f,t))c=red,green,blue。
5.如权利要求1所述的一种基于时频分割去躁及深度卷积神经网络的鲁棒环境声音信号识别方法,其特征在于,所述步骤6中确定显著区域后,对于非显著区域,利用imgR=255,imgG=0,imgB=0将非显著区域变为纯色的背景区域,实现对噪声背景的去除。
6.如权利要求1所述的一种基于时频分割去躁及深度卷积神经网络的鲁棒环境声音信号识别方法,其特征在于,所述步骤4中的亮度显著图,
其中,I(x,y)是亮度差分显著图;G为高斯差分滤波器,ρ为高斯标准差比例系数;σ为截止频率。
7.如权利要求1所述的一种基于时频分割去躁及深度卷积神经网络的鲁棒环境声音信号识别方法,其特征在于,所述步骤4公式中,
其中,R、G、B、Y表示各颜色通道,Cn(x,y)表示相应颜色通道的颜色差分显著图。
8.如权利要求1所述的一种基于时频分割去躁及深度卷积神经网络的鲁棒环境声音信号识别方法,其特征在于,所述步骤7中,所述神经网络共26层,包含了7层卷积层,9层激活层,7层池化层,3层全连接层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011296063.8A CN112419258B (zh) | 2020-11-18 | 2020-11-18 | 基于时频分割及卷积神经网络的鲁棒环境声音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011296063.8A CN112419258B (zh) | 2020-11-18 | 2020-11-18 | 基于时频分割及卷积神经网络的鲁棒环境声音识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112419258A CN112419258A (zh) | 2021-02-26 |
CN112419258B true CN112419258B (zh) | 2024-05-14 |
Family
ID=74772970
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011296063.8A Active CN112419258B (zh) | 2020-11-18 | 2020-11-18 | 基于时频分割及卷积神经网络的鲁棒环境声音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112419258B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113160095B (zh) * | 2021-05-25 | 2023-05-19 | 烟台艾睿光电科技有限公司 | 红外探测信号伪彩处理方法、装置、系统及存储介质 |
CN113870870B (zh) * | 2021-12-02 | 2022-04-05 | 自然资源部第一海洋研究所 | 一种基于卷积神经网络的海洋哺乳动物发声实时识别方法 |
CN115019151B (zh) * | 2022-08-05 | 2022-10-21 | 成都图影视讯科技有限公司 | 非显著特征区域加速型神经网络构架、方法和设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107545890A (zh) * | 2017-08-31 | 2018-01-05 | 桂林电子科技大学 | 一种声音事件识别方法 |
CN109767785A (zh) * | 2019-03-06 | 2019-05-17 | 河北工业大学 | 基于卷积神经网络的环境噪声识别分类方法 |
WO2019104767A1 (zh) * | 2017-11-28 | 2019-06-06 | 河海大学常州校区 | 基于深度卷积神经网络与视觉显著性的织物缺陷检测方法 |
CN109903749A (zh) * | 2019-02-26 | 2019-06-18 | 天津大学 | 基于关键点编码和卷积神经网络进行鲁棒的声音识别方法 |
CN110175560A (zh) * | 2019-05-24 | 2019-08-27 | 哈尔滨工程大学 | 一种雷达信号脉内调制识别方法 |
CN111572809A (zh) * | 2020-03-31 | 2020-08-25 | 电子科技大学 | 基于时频分析和深度学习的远距离直升机旋翼声音检测方法 |
-
2020
- 2020-11-18 CN CN202011296063.8A patent/CN112419258B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107545890A (zh) * | 2017-08-31 | 2018-01-05 | 桂林电子科技大学 | 一种声音事件识别方法 |
WO2019104767A1 (zh) * | 2017-11-28 | 2019-06-06 | 河海大学常州校区 | 基于深度卷积神经网络与视觉显著性的织物缺陷检测方法 |
CN109903749A (zh) * | 2019-02-26 | 2019-06-18 | 天津大学 | 基于关键点编码和卷积神经网络进行鲁棒的声音识别方法 |
CN109767785A (zh) * | 2019-03-06 | 2019-05-17 | 河北工业大学 | 基于卷积神经网络的环境噪声识别分类方法 |
CN110175560A (zh) * | 2019-05-24 | 2019-08-27 | 哈尔滨工程大学 | 一种雷达信号脉内调制识别方法 |
CN111572809A (zh) * | 2020-03-31 | 2020-08-25 | 电子科技大学 | 基于时频分析和深度学习的远距离直升机旋翼声音检测方法 |
Non-Patent Citations (1)
Title |
---|
基于融合特征以及卷积神经网络的环境声音分类系统研究;张科;苏雨;王靖宇;王霰宇;张彦华;;西北工业大学学报;20200215(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112419258A (zh) | 2021-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112419258B (zh) | 基于时频分割及卷积神经网络的鲁棒环境声音识别方法 | |
CN101551863B (zh) | 基于非下采样轮廓波变换的遥感图像道路提取方法 | |
CN110399840B (zh) | 一种快速的草坪语义分割及边界检测方法 | |
CN108268867B (zh) | 一种车牌定位方法及装置 | |
CN104966085A (zh) | 一种基于多显著特征融合的遥感图像感兴趣区域检测方法 | |
CN105528595A (zh) | 在无人机航拍图像中对输电线路绝缘子的识别定位方法 | |
CN103116763A (zh) | 一种基于hsv 颜色空间统计特征的活体人脸检测方法 | |
Xu et al. | Satellite image spoofing: Creating remote sensing dataset with generative adversarial networks (short paper) | |
CN110232318A (zh) | 穴位识别方法、装置、电子设备及存储介质 | |
CN109741340A (zh) | 基于fcn-aspp网络的冰盖雷达图像冰层精细化分割方法 | |
CN110852327A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN105225216A (zh) | 基于空间距圆标记边缘检测的虹膜预处理算法 | |
CN111414954A (zh) | 一种岩石图像检索方法及其系统 | |
CN103258202A (zh) | 一种鲁棒的纹理特征提取方法 | |
CN116699096B (zh) | 一种基于深度学习的水质检测方法和系统 | |
CN102081799B (zh) | 基于邻域相似性及双窗口滤波的sar图像变化检测方法 | |
CN110458219B (zh) | 一种基于stft-cnn-rvfl的φ-otdr振动信号识别算法 | |
CN111680577A (zh) | 人脸检测方法和装置 | |
CN113012167B (zh) | 一种细胞核与细胞质的联合分割方法 | |
CN117081806B (zh) | 一种基于特征提取的信道认证方法 | |
CN108694415B (zh) | 图像特征提取方法、装置及水源图像分类方法、装置 | |
CN112070009B (zh) | 基于改进的lbp算子的卷积神经网络表情识别方法 | |
CN102737232B (zh) | 一种分裂细胞识别方法 | |
CN112396638A (zh) | 一种图像处理方法、终端和计算机可读存储介质 | |
CN110490210A (zh) | 一种基于紧致通道间t采样差分的彩色纹理分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |