CN112652326B

CN112652326B - 基于伪彩色时频图像及卷积网络的环境声音识别方法

Info

Publication number: CN112652326B
Application number: CN202011299987.3A
Authority: CN
Inventors: 王靖宇; 张彦华; 苏雨; 张科; 王霰禹; 王林; 马振宇; 谢方园; 王红梅
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-11-18
Filing date: 2020-11-18
Publication date: 2023-07-04
Anticipated expiration: 2040-11-18
Also published as: CN112652326A

Abstract

本发明涉及一种基于伪彩色时频图像及卷积网络的环境声音识别方法，该方法首先提出了一种基于模态中心频率差分的自适应变分模态分解方法，通过其对环境声音信号进行噪声去除与信号重建，并结合伪Wigner‑Vile算法生成时频图像，该时频表征算法能在降低噪声对时频图像污染的同时有效对非稳态信号进行表征；在时频图像基础上，应用伪彩色变换将灰度时频图像转换为伪彩色时频图像，进一步提升了时频表征的鲁棒特性；针对传统分类器鲁棒性较差的问题，构建了一个基于深度卷积神经网络的环境声音信号识别模型，将伪彩色时频图像输入该模型进行识别，有效提高了算法的识别精度和鲁棒性。

Description

基于伪彩色时频图像及卷积网络的环境声音识别方法

技术领域

本发明属于声音信号识别领域，本发明涉及一种环境声音信号检测方法，特别是一种基于伪彩色时频图像及卷积网络的环境声音识别方法。

背景技术

环境声是除语音声和音乐声之外的所有可听声的总称。过去几十年来，人们主要针对语音声和音乐声进行了大量的基础和应用研究，如语音合成和识别、乐声分析与自动索检等等。将环境声作为一种单独的声音类别进行听觉感知与应用研究是近十多年的事。环境声自动识别在科学研究、工业生产、社会生活、军事斗争等诸多领域有着广泛的应用，如基于动物发声的物种调查与保护、基于声与振动的故障诊断与修复、水下目标的识别与分类等。目前，环境声识别的热门应用领域是城市中环境声识别，其对帮助人们实现智能化的城市管理具有重要意义。

文献“噪声背景下环境声音识别研究，Electronic Engineering&Product World，2019,Vol26(09)，p34-38”公开了一种基于声音增强与声谱图扇形投影特征的噪声背景下环境声音识别方法。该方法采用改进的最小递归平均算法来估计噪声方差，结合对数谱最小均方误差实现对环境声音信号去躁的目的。在对环境声音信号进行噪声去除的基础上，采用基于子带能量分布的声谱图对信号进行表征，利用Gammatone滤波器组对声谱图进行滤波处理，使滤波后得到的声谱图的频率分布特性更符合人耳蜗的听觉特性。同时，用扇形投影变换对声谱图进行重构，通过重构得到声谱图在各方向的投影系数并将其作为环境声音信号的特征向量，其在降低声谱图维度的同时有效提取了声音信号特征。文献所述方法采用频率相关函数估计阈值来对信号进行噪声去除，而环境声音信号频率分布较广，从而使得该算法适应性不强；声谱图适用于对稳态信号进行表征，用其无法对非稳态的环境声音信号进行有效表征；多分类支持向量机作为分类器，分类速度慢且在高噪声条件下鲁棒性差。

发明内容

本发明解决的技术问题是：为了解决现有的环境声音信号识别方法适应性弱、鲁棒性差且环境声音信号缺少有效的时频表征方法的问题，本发明提供了一种基于伪彩色时频图像及深度卷积神经网络的鲁棒环境声音信号识别方法。该方法首先提出了一种基于模态中心频率差分的自适应变分模态分解方法，通过其对环境声音信号进行噪声去除与信号重建，并结合伪Wigner-Vile算法生成时频图像，该时频表征算法能在降低噪声对时频图像污染的同时有效对非稳态信号进行表征；在时频图像基础上，应用伪彩色变换将灰度时频图像转换为伪彩色时频图像，进一步提升了时频表征的鲁棒特性；针对传统分类器鲁棒性较差的问题，构建了一个基于深度卷积神经网络的环境声音信号识别模型，将伪彩色时频图像输入该模型进行识别，有效提高了算法的识别精度和鲁棒性。

本发明的技术方案是：一种基于伪彩色时频图像及深度卷积神经网络的鲁棒环境声音信号识别方法，其特征在于，包括以下步骤：

步骤1：计算模态数为K时各模态信号u_k及相应的中心频率ω_k：

其中，f表示输入的声音信号，n表示迭代次数，τ为噪声容限，λ为拉格朗日乘子，ζ为无约束变分问题，{}表示集合；

步骤2：计算相邻模态信号中心频率的差分值

D_k＝ω_k+1(t)-ω_k(t)k＝1,...,K-1 (4)

λ_k＝D_k+1/D_kk＝1,...,K-2 (5)

其中，D_k为中心频率差值，λ_k中心频率差分值。

步骤3；确定最优分解个数K

满足终止条件时，最优分解个数K_best＝K-1。

步骤4去除噪声分量后计算各模态信号的时频分布：

其中，h(τ)为高斯核函数，

表示对频率的二维卷积，imf_n为第n个模态分量信号，pwvd_n(t,f)为第n个IMF的PWVD时频图。

步骤5重构得到灰度时频图

步骤6引入阈值并进行归一化

PWVD(t,f)＝max[PWVD(t,f)-max(PWVD),-80dB] (9)

步骤7非线性变换得到伪彩色时频图

M_c(f,t)＝h_c(G(t,f))c＝red,green,blue (11)

其中，M_c(f,t)为第c个单色图像，h_c为第c个单色图像的非线性映射函数；灰度图映射到hsv伪彩色时频图的三个通道所对应的非线性变换为：

参数{l₂,l₁,u₁,u₂}在三个通道下的值分别为：

得到伪彩色时频图后，利用Lancazos(a＝3)插值算法将时频图像大小调整为512×512。

步骤8：构建深度卷积神经网络。

本发明进一步的技术方案是：所述步骤1中，

ζ公式及迭代终止条件为：

其中，α为二次惩罚因子，δ(t)为单位脉冲函数，j为虚数，*表示卷积运算，e为收敛条件，

表示对t求偏导。

本发明进一步的技术方案是：所述步骤8中，神经网络共包含26层，其中包含7层卷积层，9层激活层，7层池化层，3层全连接层，深度卷积神经网络的输入为尺寸为512×512的RGB三通道彩色图像，每一层卷积层都加入了ReLU激活函数和批标准化。

发明效果

本发明的技术效果在于：

(1)步骤1～4使用基于模态中心频率差分的自适应变分模态分解方法对环境声音信号进行了分解与噪声模态的去除，有效降低了噪声对时频图像的污染，且去噪时不依赖任何关于噪声的先验知识，算法适应性强；

(2)传统使用的短时傅里叶变换需要采用分帧的方法对非平稳信号进行近似表示，无法获得信号的瞬时时频分布。步骤5结合伪Wigner-Vile算法对环境声音信号进行时频表征，可以得到的时频图像的瞬时时频分布，从而使得到的时频图像分辨率更高且具有更加明确的物理意义；

(3)步骤7采用伪彩色时频图像，通过映射灰度图像到高维彩色空间，环境噪声对声学特性的影响可以进一步减少，进一步提升了时频图像的抗噪能力；并利用卷积神经网络对伪彩色时频图像进行特征提取和分类，利用神经网络的泛化能力及抗噪能力进一步提升了识别算法的泛化能力和鲁棒性。

附图说明

图1是算法流程图。

图2是自适应变分模态分解的分解结果。(第一行为原信号的波形图和频谱图，第二到第五行为分解的各模态信号的波形图和频谱图。)

图3是灰度时频图像。

图4是伪彩色时频图像。

图5是卷积神经网络示意图

具体实施方式

一种基于伪彩色时频图像及深度卷积神经网络的鲁棒环境声音信号识别方法，其特点是包括下述步骤：

步骤1计算模态数为K时各模态信号u_k及相应的中心频率ω_k：

其中，f表示输入的声音信号，n表示迭代次数，τ为噪声容限，λ为拉格朗日乘子，ζ为无约束变分问题，{}表示集合；ζ公式及迭代终止条件为：

表示对t求偏导。

步骤2计算相邻模态信号中心频率的差分值

D_k＝ω_k+1(t)-ω_k(t)k＝1,...,K-1 (22)

λ_k＝D_k+1/D_kk＝1,...,K-2 (23)

其中，D_k为中心频率差值，λ_k中心频率差分值。

步骤3确定最优分解个数K

满足终止条件时，最优分解个数K_best＝K-1。

步骤4去除噪声分量后计算各模态信号的时频分布：

其中，h(τ)为高斯核函数，

步骤5重构得到灰度时频图

步骤6引入阈值并进行归一化

PWVD(t,f)＝max[PWVD(t,f)-max(PWVD),-80dB] (27)

步骤7非线性变换得到伪彩色时频图

M_c(f,t)＝h_c(G(t,f))c＝red,green,blue (29)

参数{l₂,l₁,u₁,u₂}在三个通道下的值分别为：

步骤8构建深度卷积神经网络

本发明构建的神经网络共包含26层，其中包含7层卷积层，9层激活层，7层池化层，3层全连接层，深度卷积神经网络的输入为尺寸为512×512的RGB三通道彩色图像，每一层卷积层都加入了ReLU激活函数和批标准化。其整体结构和具体参数见下表1-1。将伪彩色时频图像直接输入到卷积神经网络中进行特征提取和分类，从而实现对环境声音信号的鲁棒识别。

表1-1深度卷积神经网络结构和参数

为下面结合附图对本发明的技术方案进行详细说明。

本发明基于伪彩色时频图像和深度卷积神经网络的鲁棒环境声识别方法，具体实施方式包括以下步骤：

下面结合对环境声数据的识别实例说明本发明的具体实施方式，但本发明的技术内容不限于所述的范围。

本发明提出一种基于伪彩色时频图像及深度卷积神经网络的鲁棒环境声识别方法，包括以下步骤：步骤1：利用基于频率中心差分的自适应变分模态分解对信号进行分解；步骤2：通过对低频模态信号的去除实现对背景噪声的去除，然后利用剩余模态信号结合伪Wigner-Vile时频分布实现灰度时频图像的生成；步骤3：利用非线性变换将灰度时频图像转换为伪彩色时频图像；步骤4：将伪彩色时频图像输入到CNN中进行训练与识别。

步骤一、信号分解。

当环境声音信号加入背景噪声时，时频图像的相应区域也会受到噪声污染，本发明通过自适应变分模态分解实现对环境声音信号的分解与去躁。传统的变分模态分解需要预设模态信号的个数K，K值选取不当会导致模态混叠或出现虚假分量，而环境声音信号的非稳态特性导致难以准确确定K值。因此，本发明提出了基于中心频率差分的自适应变分模态分解(SVMD)来实现对信号的有效分解，具体步骤如下：

(1)初始化K值，令K＝3。

(2)对信号进行VMD分解，得到K个模态信号分量和相应的中心频率ω_k(t)。

其中，n表示迭代次数，τ为噪声容限，λ为拉格朗日乘子，ζ为无约束变分问题，{}表示集合；约束ζ的公式及迭代终止条件为：

表示对t求偏导。

(3)相邻中心频率的差值：

D_k＝ω_k+1(t)-ω_k(t)k＝1,...,K-1 (38)

其中，ω_k(t)为第k个IMF_k分量的中心频率，D_k为第k+1个模态分量的中心频率ω_k+1(t)与前一个模态分量的中心频率ω_k(t)的差值，即中心频率差值。

(4)相邻中心频率的差分值：

λ_k＝D_k+1/D_kk＝1,...,K-2 (39)

其中，λ_k为差分中心频率。

(5)根据λ_K-2的值，判断是否达到最优分解个数K：

当中心频率差值曲线出现负增长时，即λ_K-2<1时，认为达到了最优分解个数，否则K＝K+1继续进行循环，直到找到最优分解个数K。满足终止条件时，最优分解个数K_best＝K-1。

步骤二、噪声去除及时频图像的生成

通过SVMD分解可以将环境声信号分解成一系列中心频率由低到高增加的模态信号，而背景噪声主要分布于低频模态中，因此可以通过对低频模态信号的去除来实现去躁。利用信号分解去躁的同时，结合二次型时频分布伪Wigner-Vile算法进行时频图像的生成，有效抑制了二次型时频分布中固有的交叉干扰项的影响，得到时频分辨率更高且具有明确物理意义的时频图像。具体步骤如下：

(1)首先利用本发明提出的SVMD对信号进行分解，确定最优分解模态个数K及相对应的K个IMF：IMF₁,...,IMF_k。

(2)将K个IMF中的低频模态分量去除，以达到噪声去除和消除交叉干扰项的目的，由于去除低频模态也会一定程度上造成环境声音信号的丢失，因此仅将IMF₁模态分量去除，最后保留的模态分量为：IMF₂,...,IMF_k。

(3)利用PWVD时频分布求各模态分量的时频图：

其中，h(τ)为高斯核函数，

(4)对各模态分量的时频图进行线性叠加，得到灰度时频图：

(5)引入阈值并进行归一化

PWVD(t,f)＝max[PWVD(t,f)-max(PWVD),-80dB] (43)

步骤三、转换为伪彩色时频图

通过非线性函数将灰度时频图映射到r、g、b三个通道，从而得到三通道的伪彩色时频图。时频图像的鲁棒性是由环境声音信号时频图像的稀疏分布特性产生的，噪声的能量强度主要分布于谱图的低频区域，而时频图的高频区域仍由声音信号的高频成分主导，并未受到噪声较大干扰。而通过将灰度图经过非线性映射到高维颜色空间，可以进一步降低环境噪声对声特征的影响。

非线性变换的公式为：

M_c(f,t)＝h_c(G(t,f))c＝red,green,blue (45)

其中，M_c(f,t)为第c个单色图像，h_c为第c个单色图像的非线性映射函数；将灰度图映射到hsv伪彩色时频图的三个通道所对应的非线性变换为：

对非线性变换公式中的超参数{l₂,l₁,u₁,u₂}在red、green和blue三个颜色通道下进行赋值即可得到hot伪彩色时频图变换对应的非线性公式，相应的参数值为：

步骤四、环境声音信号的识别

本发明通过构建一个基于深度卷积神经网络的识别模型来实现对环境声音信号的识别。该神经网络共26层，包含了7层卷积层，9层激活层，7层池化层，3层全连接层，其整体结构和具体参数在表1-1中已详细列出，这里不再赘述。首先需要构建环境声音数据库，数据库中的声音信号通过上述步骤变换后得到伪彩色时频图像，最后将其输入到神经网络中进行训练，在训练过程中需要设置批大小、学习率、动量、训练批次等超参数。训练好的神经网络模型即可实现对相应类型环境声音信号的识别。

Claims

1.一种基于伪彩色时频图像及深度卷积神经网络的鲁棒环境声音信号识别方法，其特征在于，包括以下步骤：

步骤2：计算相邻模态信号中心频率的差分值

D_k＝ω_k+1(t)-ω_k(t) k＝1,...,K-1 (4)

λ_k＝D_k+1/D_k k＝1,...,K-2 (5)

其中，D_k为中心频率差值，λ_k中心频率差分值；

步骤3；确定最优分解个数K

满足终止条件时，最优分解个数K_best＝K-1；

步骤4去除噪声分量后计算各模态信号的时频分布：

其中，h(τ)为高斯核函数，

表示对频率的二维卷积，imf_n为第n个模态分量信号，pwvd_n(t,f)为第n个IMF的PWVD时频图；

步骤5重构得到灰度时频图

步骤6引入阈值并进行归一化

PWVD(t,f)＝max[PWVD(t,f)-max(PWVD),-80dB] (9)

步骤7非线性变换得到伪彩色时频图

M_c(f,t)＝h_c(G(t,f)) c＝red,green,blue (11)

参数{l₂,l₁,u₁,u₂}在三个通道下的值分别为：

得到伪彩色时频图后，利用Lancazos(a＝3)插值算法将时频图像大小调整为512×512；

步骤8：构建深度卷积神经网络。

2.如权利要求1所述的一种基于伪彩色时频图像及深度卷积神经网络的鲁棒环境声音信号识别方法，其特征在于，所述步骤1中，

ζ公式及迭代终止条件为：

表示对t求偏导。

3.如权利要求1所述的一种基于伪彩色时频图像及深度卷积神经网络的鲁棒环境声音信号识别方法，其特征在于，所述步骤8中，神经网络共包含26层，其中包含7层卷积层，9层激活层，7层池化层，3层全连接层，深度卷积神经网络的输入为尺寸为512×512的RGB三通道彩色图像，每一层卷积层都加入了ReLU激活函数和批标准化。