CN114999525A

CN114999525A - 一种基于神经网络的轻量环境声音识别方法

Info

Publication number: CN114999525A
Application number: CN202210191983.6A
Authority: CN
Inventors: 汤理文; 黄渲宝; 杜怀云
Original assignee: Sichuan Tianzhongxing Aviation Technology Co ltd
Current assignee: Sichuan Tianzhongxing Aviation Technology Co ltd
Priority date: 2022-02-28
Filing date: 2022-02-28
Publication date: 2022-09-02

Abstract

本发明公开了一种基于神经网络的轻量环境声音识别方法，使用bottleneck代替卷积神经网络的卷积层有效减少网络的参数量与计算量，再使用通道注意力机制从输入中找到关键信息并进行重点处理以提高环境声音分类精确度。基于声音分类类别，再使用环境声音生成对抗网络(EEGAN)提高抗噪声的能力。经过测试，论文算法的环境声音分类精度对比CNN和BN‑CNN网络有明显提升。通过噪声环境与无噪声环境的识别结果对比，验证了论文算法可以有效降低噪声干扰，提高环境声音识别精度。

Description

一种基于神经网络的轻量环境声音识别方法

技术领域

本发明涉及航空管理领域，具体涉及一种基于神经网络的轻量环境声音识别方法。

背景技术

生活中人们通过声音发送、传递、获取信息。随着物联网技术的不断发展和计算机处理声音信号的能力不断提升，让计算机设备自动感知、识别、处理声音信号的需求也随之而来，计算机听觉(Computer Audition)的研究领域也逐渐被人们所关注。环境声音识别(Environment sound recognition)是计算机听觉领域的重要研究方向之一。环境声音识别是指让计算机设备以一定的算法方式对采集到的环境声音进行处理与识别的过程。

环境声音识别总体可分为传统的机器学习方法和神经网络方法。传统方法中声音特征提取方法有线性预测编码系数(Linear Predictive Coding，LPC)、线性预测倒谱系数(near Predictive Cepstrum Coefficient，LPCC)、梅尔频率倒谱系数(Mel-FrequencyCepstrum Coefficient，MFCC)等；分类器模型有混合高斯模型(Gaussian Mixture Model,GMM)、隐马尔可夫模型(Hidden Markov Model， HMM)、支持向量机(Support VectorMachine,SVM等方法；声音增强算法有谱减法、统计模型法和子空间法等方法。后来神经网络方法逐渐取代传统机器学习方法，成为了环境声音识别领域的重要研究手段。

然而，环境声音识别也面临一些问题与挑战。通过人工的方式进行环境声音识别存在识别精度低、人工成本高、场景无法覆盖等问题；由于环境声音变化范围较大、声音种类多、噪声分布广泛等原因，基于传统机器学习算法的环境声音识别系统存在算法复杂、泛化效果差、鲁棒性弱、声音分类精度低、声音增强效果差等问题。而且声音信号容易受到各种因素的影响，比如受到建筑物阻挡、远距离衰减、非平稳噪声叠加、多类别声音混合等影响，从而降低声音识别的效果。

发明内容

针对现有技术中的上述不足，本发明提供了一种基于神经网络的轻量环境声音识别方法。针对传统机器学习算法分类精度低、声音增强效果差、鲁棒性差等问题，本文提出一种新的环境声音识别算法。使用bottleneck代替卷积神经网络的卷积层有效减少网络的参数量与计算量，再使用通道注意力机制从输入中找到关键信息并进行重点处理以提高环境声音分类精确度。基于声音分类类别，再使用环境声音生成对抗网络(EEGAN)提高抗噪声的能力。经过测试，论文算法的环境声音分类精度对比CNN和BN-CNN网络有明显提升。通过有电磁环境噪声环境与无电磁环境噪声的识别结果对比，验证了论文算法可以有效降低电磁环境下噪声干扰，提高环境声音识别精度。

为了达到上述发明目的，本发明采用的技术方案为：

一种基于神经网络的轻量环境声音识别方法，包括如下步骤：

S1、获取轻量环境声音并进行预处理；

S2、构建环境声音分类网络并利用环境声音分类网络对预处理后得到的特征参数进行分类；

S3、判断环境声音分类结果是否符合预设，若是则对其进行随机增强，若不是，则输出原始音频；

S4、将增强后的声音输入神经网络并多次迭代，直至神经网络达到拟合态，输出增强后的声音和其对应的分类并存储。

进一步的，所述S1中预处理具体包括用log-mel提取声音特征并进行归一化。进一步的，所述S2中构建环境声音分类网络的方式为：

使用bottleneck结构替换CNN网络中的卷积层，将原始CNN网络拆分为 depthwise和pointwise的卷积组合，其计算量压缩为：

其中，W表示卷积层输入数据的宽度；H表示卷积层输入数据的高度； C表示卷积层输入数据的通道数；k表示卷积层的卷积核个数。

进一步的，所述S2对预处理后得到的特征参数进行分类的具体方式为：

S21、对预处理后的轻量环境声音进行深度卷积计算，利用输入数据通道数的个数个卷积核对输入的轻量环境声音的每一个单独的通道做卷积运算后，将运算结果按照输入通道的顺序叠加在一起；

S22、利用SE算法分别计算对空间的卷积核和对通道权重的卷积核，将不同维度上的数据提取总体特征并编码，得到注意力的全局的特征向量；

S23、将深度卷积方法和逐点卷积方法组合的运算视为一次卷积运算。

进一步的，所述S22具体计算方式为：

其中，u_c表示SE注意力机制处理的目标输入数据。

进一步的，所述S23中注意力的全局的特征向量通过提取不同通道之间的权重关系得到，具体计算方式为：

s＝F_ex (z，W)＝σ(g(z，W))＝σ(W₂ ReLU(W₁z))

其中，sc表示通过SE注意力机制学习到的通道维度的权重系数，uc表示SE注意力机制处理的目标输入数据，W_1z表示W₁*，W₁表示降低channel 数，W₂表示增加channel数，

进一步的，所述S3具体包括：

S31、若分类结果仅包含一类声音且是预设的几种声音类别之一时，则继续对该环境声音进行增强处理；

S32、若分类结果包含多类声音或是非预设的几种单类别声音时，则直接输出原始音频不做增强处理。

本发明具有以下有益效果：

本发明提供了一种基于神经网络算法的复杂电磁环境信号的声音识别系统。将原CNN网络中的卷积层用bottleneck替代降低声音识别的参数量，结合通道注意力机制提高声音分类精度。根据分类算法得出的结果，运用环境声音生成对抗网络(EEGAN)增强环境声音使算法能够在噪声环境下也能正确识别环境声音并对目标声音类别进行增强和存储增强后的声音，提高声音识别的鲁棒性。本方法可以在节省运算参数的基础上更准确快速地识别环境声音并有条件地进行增强和存储增强语音。

附图说明

图1为基于神经网络算法的电磁环境信号的声音识别方法总体框架图。

图2为本发明实施例环境声音分类算法模块框架图。

图3为本发明实施例EEGAN的训练过程示意图。

图4(a)为本发明实施例EEGAN生成网络架构图，(b)为EEGAN判别网络架构图。

图5为本发明实施例声音分类预设类别结果示意图。

图6为本发明实施例不同网络的参数量和计算量对比图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

请参考图1，一种基于神经网络的轻量环境声音识别方法，包括以下步骤：

S1、获取轻量环境声音并进行预处理，用特征提取和特征归一化完成声音预处理。

S2、构建环境声音分类网络并利用环境声音分类网络对预处理后得到的特征参数进行分类，如图2所示，具体分以下步骤：

使用bottleneck结构替换原CNN网络中的卷积层，将原始CNN拆分为 depthwise和pointwise的特殊卷积的组合，也就将普通卷积的计算量可以压缩为：

S21、对预处理后的轻量环境声音进行深度卷积计算，利用输入数据通道数的个数个卷积核对输入的轻量环境声音的每一个单独的通道做卷积运算后，将运算结果按照输入通道的顺序叠加在一起；计算量为H×W×C×3×3。

S22、利用SE算法分别计算对空间的卷积核和对通道权重的卷积核，将不同维度上的数据提取总体特征并编码，得到注意力的全局的特征向量；计算量为H×W×C×k；

通过采用Squeeze的数据压缩操作，从而将不同的维度上的数据提取总体特征并进行编码，从而将整个空间特征编码为一个注意力的全局的特征向量。

其中，u_c表示SE注意力机制处理的目标输入数据，Zc表示每一层u_c的平均数，

为对U层进行平均取值，R^C表示Zc属于c维实数集，即有c个Z值，。

S23、将深度卷积方法和逐点卷积方法组合的运算视为一次卷积运算。计算量为二者相加，即H×W×C×3×3+H×W×C×k

然后提取不同通道之间的权重关系即可得到通道的注意力机制模型参数。这里采用sigmoid的形式。

s＝Fex(z，W)＝σ(g(z，W))＝σ(W₂ ReLU(W₁z))

其中sc表示通过SE注意力机制学习到的通道维度的权重系数，uc表示 SE注意力机制处理的目标输入数据。

通过表1和图6，可以证明系统对运算参数降低有明显效果且其对声音类型识别准确率有提高。

表1 不同网络的分类精度对比图

S3、判断环境声音分类结果是否符合预设，若是则对其进行随机增强，若不是，则输出原始音频，具体方式为：

若声音分类结果符合预设，即分类结果有且只有一种预设中的类别时，对对应声音类别进行增强。

S4、将符合预设的环境声音输入环境声音增强生成对抗神经网络并多次迭代，直至神经网络达到拟合态，输出增强后的声音和其对应的分类并存储。

首先，对generator网络的参数进行初始化，使其能够根据输入的带噪环境声音，随机生成增强后的环境声音。同时有一个初始化的discriminator，它的目标是把生成的增强后的环境声音，和真实的不带噪的环境声音进行准确分类。

神经网络开始迭代，遍历一次所有训练集中所有的数据即为一个epoch。每经过一次epoch后，即可生成下一代的进过一次参数优化的generator。 generator随着loss的降低，能够输出效果更好的增强后的环境声音。具体流程如图3所示。在generator和discriminator的相互对抗训练的过程中，通过对训练集的数据迭代和梯度下降等方法，交替训练两个不同目的的网络，使其互相对抗共同提高其性能，从而对于生成网络达到最好的环境声音的生成效果。

经过多个epoch迭代后，最终discriminator无法正确分辨生成的声音和真实的不带噪的环境声音，这个网络达到了拟合完成的状态。其语音增强效果如表2所示，其语音质量提高并更容易识别。

表2 带噪环境声音增强前后评分统计图

生成网络采用自动编解码的结构，如图4(a)所示，为encoder和decoder模型。在编码阶段，输入信号通过一维卷积的操作进行投影，并通过许多跨步的卷积层与解码阶段对应的层直接连接。然后通过激活函数(PReLU)，共通过N 个卷积层。卷积层采用一维卷积操作，并且所有卷积层我们选择了较大的卷积核，卷积核大小为32*1*C，这样的卷积核大小的设计对GAN训练比其他方法更具鲁棒性。通过11层卷积操作后我们将输入环境声音信号编码完成得到矩阵C，这时我们将其与噪声向量z串联在一起。这里的噪声向量为引入的均值为0，方差为1的B*1024*16的矩阵。在计算生成网络的损失时，选用L1范数因其已被验证在在声音处理领域中是非常有效的。因此，生成网络损失为：

判别网络为也采用一维卷积结构的的CNN神经网络，如图4(b)所示，该网络共11层，卷积核大小为31，输入大小为B*1*32768，输出大小为B*1*1的矩阵。因为判别网络需要有效识别真实的不带噪环境声音和增强后带噪的环境声音，且最终仅使用生成网络。这里判别器网络的损失函数计算方法参考 LSGAN的损失函数的计算法：

训练集和验证集是自己创建的ESCS(Environment Soundfor Classificationand SEGAN。在训练语音增强网络时，使用了大类animal、engine、human和 weapon及各大类下对应小类。其中每段声音数据均包含对应无噪声版本与带噪声版本；叠加的噪声为自然环境中常见的环境噪声，如风声、水流声、下雨声、海浪声等。声音采样率为44.1kHz，采用8bit量化，每段声音时长8s，单声道数据。共有34212段声音数据，其中带噪声音数据17106段，不带噪声音数据17106段。

生成网络通过训练集数据的迭代来不断优化其网络参数，其目标是生成更加接近真实的样本。生成网络会根据输入的带噪语音，随机生成增强后的环境声音。

神经网络迭代时使用的数据即ESCS，后续处理的声音数据也在同一个数据集中，对于10个小类，各抽取了1000条，共计10000条进行增强，以此验证。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于神经网络的轻量环境声音识别方法，其特征在于，包括如下步骤：

S1、获取轻量环境声音并进行预处理；

2.根据权利要求1所述的基于神经网络的轻量环境声音识别方法，其特征在于，所述S1中预处理具体包括用log-mel提取声音特征并进行归一化。

3.根据权利要求1所述的基于神经网络的轻量环境声音识别方法，其特征在于，所述S2中构建环境声音分类网络的方式为：

使用bottleneck结构替换CNN网络中的卷积层，将原始CNN网络拆分为depthwise和pointwise的卷积组合，其计算量压缩为：

其中，W表示卷积层输入数据的宽度；H表示卷积层输入数据的高度；C表示卷积层输入数据的通道数；k表示卷积层的卷积核个数。

4.根据权利要求3所述的基于神经网络的轻量环境声音识别方法，其特征在于，所述S2对预处理后得到的特征参数进行分类的具体方式为：

S21、对预处理后的轻量环境声音进行深度卷积计算，利用输入数据通道数的个数个卷积核对输入的轻量环境声音的每一个单独的通道做卷积运算后，将运算结果按照输入通道的顺序叠加在一起；计算量为H×W×C×3×3；

S23、将深度卷积方法和逐点卷积方法组合的运算视为一次卷积运算。计算量为二者相加，即H×W×C×3×3+H×W×C×k；

5.根据权利要求41所述的基于神经网络的轻量环境声音识别方法，其特征在于，所述S22具体计算方式为：

为对U层进行平均取值，R^C表示Zc属于c维实数集，即有c个Z值。

6.根据权利要求1所述的基于神经网络的轻量环境声音识别方法，其特征在于，所述S23中注意力的全局的特征向量通过提取不同通道之间的权重关系得到，具体计算方式为：

s＝F_ex (z，W)＝σ(g(z，W))＝σ(W₂ ReLU(W_1z))

其中，sc表示通过SE注意力机制学习到的通道维度的权重系数，uc表示SE注意力机制处理的目标输入数据，W_1z表示W₁*z，W₁表示降低channel数，W₂表示增加channel数，

7.根据权利要求1所述的基于神经网络的轻量环境声音识别方法，其特征在于，所述S3具体包括：