CN115083394B

CN115083394B - 一种融合时空属性的实时环境噪声识别方法、系统及设备

Info

Publication number: CN115083394B
Application number: CN202211003265.8A
Authority: CN
Inventors: 郑建辉; 殷艺敏
Original assignee: Guangzhou Soundbox Acoustic Tech Co ltd
Current assignee: Guangzhou Soundbox Acoustic Tech Co ltd
Priority date: 2022-08-22
Filing date: 2022-08-22
Publication date: 2022-11-08
Anticipated expiration: 2042-08-22
Also published as: CN115083394A

Abstract

本发明涉及噪声识别技术领域，尤其涉及一种融合时空属性的实时环境噪声识别方法、系统、计算机设备及可读存储介质。将噪声时空信息经过相关处理后获得噪声时空特征，并将噪声时空特征作为一个权重和噪声声谱图特征通过动态MLP进行动态投影融合，获得增强图像特征，最后将增强图像特征和噪声声谱图特征通过卷积神经网络的快捷连接生成特征编码，将特征编码输入模型分类器即可对城市噪声进行分类。噪声时空特征的引入可较大程度的提升噪声识别的准确性，可以更好的了解影响居民日常生活的声音问题，对症下药，找到精准的声学解决方案，进而提高居民的城市生活质量。

Description

一种融合时空属性的实时环境噪声识别方法、系统及设备

技术领域

本发明涉及噪声识别技术领域，尤其涉及一种融合时空属性的实时环境噪声识别方法、系统、计算机设备及可读存储介质。

背景技术

随着城市化进程的发展，噪声污染日益严重，成为影响城市居民身体健康和生活质量的重要环境因素。

最新的研究结果表明，人们对声音的舒适度不仅取决于噪音的分贝数，还取决于噪声源。目前，对于噪声测量的主流方法是基于平均时间内加权声压的测量，其中忽略了噪声源信息。且研究发现，典型的城市噪声，如铁路、公路、飞机的交通噪声，邻里之间的噪声和工业噪声，对与人体健康相关的生活质量具有不同的影响。因此采用声音内容的分类技术结合相对应的强度信息来识别噪声源信息，即同时考虑噪声水平和类型可以进行更有效的噪声评估，可以极大的促进城市噪声管理。通过识别环境声音的内容以及强度信息，可以更好的了解影响居民日常生活的声音问题，对症下药，找到精准的声学解决方案，进而提高居民的城市生活质量。

噪声的实质就是声音，对环境噪声识别即对声音进行识别。声音识别的研究有语音信号识别和非语音信号识别两个方向。但是到目前为止，机器听觉的研究对象主要包括语音和音乐，对于噪声分类的相关研究还比较有限，人耳可以十分熟练地辨别各种噪声的种类，分析噪声是否对身体有害，辨别噪声的来源以采取有效措施来避免，但是要想让机器听觉算法来达到这些目的却很不容易。

目前的噪声智能识别算法一般分为两个部分：特征提取与分类识别。特征提取部分的作用是获取声信号中能够表征其主要信息的参数，分类识别则利用提取出来的特征，建立机器学习的模型，进行训练和建立噪声分类模型。

现有技术存在的缺点：

（1）目前在声信号识别中，最常用的特征提取算法有过零率、梅尔频率倒谱系数(MFCC)、线性预测倒谱系数(LPCC)，被证明在语音／音频识别方面是有效的。但是当城市噪声类别増多且背景声复杂时，传统的声信号特征算法会使识别结果变差，影响了后续的识别模型的精度。

（2）分类准确率不够高、泛化能力不够强。综合国内外研究成果，各城市音频数据集的分类准确率在80.00%左右。相较于图像分类、语音识别以及声纹识别等领域的各标准数据集准确率均可达 90.00%以上，仍有较大的提升空间。

发明内容

本发明提供了一种融合时空属性的实时环境噪声识别方法、系统、计算机设备及可读存储介质，以解决现有城市噪声识别过程中识别效果差、精度低的问题，提高城市噪声识别的效果，为城市噪声管理提供依据。

第一方面，本发明实施例提供了一种融合时空属性的实时环境噪声识别方法，所述方法包括：

读取噪声音频文件，从所述噪声音频文件获取噪声声谱图，并采用卷积神经网络提取所述噪声声谱图的噪声声谱图特征；

获取噪声时空信息，对噪声时空信息进行归一化、联合和映射处理，得到噪声时空信息映射向量；并采用动态MLP对所述噪声时空信息映射向量进行解析，获得噪声时空特征；所述噪声时空信息包括位置信息和时间信息；

将所述噪声声谱图特征和噪声时空特征输入动态MLP进行多次递归及动态投影融合，获得增强图像特征；

根据所述增强图像特征和噪声声谱图特征，通过快捷连接生成特征编码；

将所述特征编码输入模型分类器进行城市噪声分类，得到分类结果。

在进一步的实施例中，所述将所述噪声声谱图特征和噪声时空特征输入动态MLP进行多次递归及动态投影融合，获得增强图像特征，包括：

将所述噪声声谱图特征进行压缩；

将压缩后的噪声声谱图特征经动态MLP递归更新，更新次数为n，所述n为预先设定的超参数；

将所述噪声时空特征经动态MLP递归更新，更新次数为n，所述n为预先设定的超参数；

将递归更新后的噪声时空特征作为一个权重和更新后的噪声声谱图特征经动态MLP进行动态投影，获得增强图像特征。

在进一步的实施例中，所述将递归更新后的噪声时空特征作为一个权重和更新后的噪声声谱图特征经动态MLP进行动态投影，获得增强图像特征，包括：

将所述递归更新后的噪声时空特征转化为噪声时空特征矩阵，调整所述噪声时空特征矩阵的维度大小，将所述噪声时空特征矩阵重塑为2D矩阵;

将所述2D矩阵和递归更新后的噪声声谱图特征经动态MLP进行动态投影，输出增强图像特征。

在进一步的实施例中，所述读取噪声音频文件，从所述噪声音频文件获得噪声声谱图，包括：

读取噪声音频文件，通过Python的音频处理库librosa，提取所述噪声音频文件的Log-Mel Spectrogram 特征，获取噪声声谱图。

在进一步的实施例中，所述获取噪声时空信息，对噪声时空信息进行归一化、联合和映射处理，得到噪声时空信息映射向量，包括：

采集噪声时空信息；

将所述噪声时空信息进行归一化处理，获取归一化噪声时空信息；

将所述归一化噪声时空信息联合，获取噪声时空信息向量；

将所述噪声时空信息向量进行映射处理，获得噪声时空信息映射向量。

在进一步的实施例中，所述根据所述增强图像特征和噪声声谱图特征，通过快捷连接生成特征编码，包括：

将所述增强图像特征通过通道增加层进行扩展，以使扩展后的增强图像特征的形状与噪声声谱图特征对齐；

将扩展后的增强图像特征和所述噪声声谱图特征进行快捷连接，获得特征编码。

在进一步的实施例中，所述卷积神经网络为RepLKNet CNN。

第二方面，本发明实施例提供了一种融合时空属性的实时环境噪声识别系统，所述系统包括：

噪声声谱图特征提取模块：读取噪声音频文件，从所述噪声音频文件获取噪声声谱图，并采用卷积神经网络提取所述噪声声谱图的噪声声谱图特征；

噪声时空特征获取模块：获取噪声时空信息，对噪声时空信息进行归一化、联合和映射处理，得到噪声时空信息映射向量；并采用动态MLP对所述噪声时空信息映射向量进行解析，获得噪声时空特征；所述噪声时空信息包括位置信息和时间信息；

多模态融合模块：将所述噪声声谱图特征和噪声时空特征输入动态MLP进行多次递归及动态投影融合，获得增强图像特征；

特征编码生成模块：根据所述增强图像特征和噪声声谱图特征，通过快捷连接生成特征编码；

噪声分类模块：将所述特征编码输入模型分类器进行城市噪声分类，得到分类结果。

第三方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，当所述计算机程序被运行时，实现上述方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，当所述计算机程序被运行时，实现上述方法的步骤。

本发明提供一种融合时空属性的实时环境噪声识别方法、系统、计算机设备及存储介质。将噪声时空信息经过相关处理后获得噪声时空特征，并将噪声时空特征作为一个权重和噪声声谱图特征通过动态MLP进行动态投影融合，获得增强图像特征，最后将增强图像特征和噪声声谱图特征通过卷积神经网络的快捷连接生成特征编码，将特征编码输入模型分类器即可对城市噪声进行分类。噪声时空特征的引入可较大程度的提升噪声识别的准确性，可以更好的了解影响居民日常生活的声音问题，对症下药，找到精准的声学解决方案，进而提高居民的城市生活质量。

附图说明

图1是本发明实施例中一种融合时空属性的实时环境噪声识别方法步骤示意图；

图2是本发明实施例中一种融合时空属性的实时环境噪声识别方法模型整体框架结构图；

图3是本发明实施例中一种融合时空属性的实时环境噪声识别方法中噪声时空信息处理步骤示意图；

图4是本发明实施例中一种融合时空属性的实时环境噪声识别方法中噪声时空信息保存格式示意图；

图5是本发明实施例中一种融合时空属性的实时环境噪声识别方法中增强图像特征获取方法步骤示意图；

图6是本发明实施例中一种融合时空属性的实时环境噪声识别方法中现有多模态方法与动态MLP对比图；

图7是本发明实施例中一种融合时空属性的实时环境噪声识别方法中动态投影步骤示意图；

图8是本发明实施例中一种融合时空属性的实时环境噪声识别方法中动态投影过程示意图；

图9是本发明实施例中一种融合时空属性的实时环境噪声识别方法中特征编码生成步骤示意图；

图10是本发明实施例中一种融合时空属性的实时环境噪声识别方法中为没有恒等映射快捷连接的深度网络结构；

图11是本发明实施例中一种融合时空属性的实时环境噪声识别方法中为恒等映射快捷连接的深度网络结构；

图12是本发明实施例中一种融合时空属性的实时环境噪声识别系统结构示意图；

图13是本发明实施例中一种计算机设备示意图。

具体实施方式

下面结合附图具体阐明本发明的实施方式，实施例的给出仅仅是为了说明目的，并不能理解为对本发明的限定，包括附图仅供参考和说明使用，不构成对本发明专利保护范围的限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在一个实施例中，请参见图1所示，本发明提供了一种融合时空属性的实时环境噪声识别方法，包括以下步骤：

S10、读取噪声音频文件，从所述噪声音频文件获取噪声声谱图，并采用卷积神经网络提取所述噪声声谱图的噪声声谱图特征。

S20、获取噪声时空信息，对噪声时空信息进行归一化、联合和映射处理，得到噪声时空信息映射向量；并采用动态MLP对所述噪声时空信息映射向量进行解析，获得噪声时空特征；所述噪声时空信息包括位置信息和时间信息。

S30、将所述噪声声谱图特征和噪声时空特征输入动态MLP进行多次递归及动态投影融合，获得增强图像特征。

S40、根据所述增强图像特征和噪声声谱图特征，通过快捷连接生成特征编码。

S50、将所述特征编码输入模型分类器进行城市噪声分类，得到分类结果。

在本发明实施例中，融合时空属性的实时环境噪声识别方法模型主要由两条线路组成，分别是图像处理线路和多模态融合线路。

图像处理线路，主要是对噪声音频的声谱图采用卷积神经网络进行深度学习，提取噪声声谱图特征；多模态融合线路主要是对与噪声音频相对应的噪声位置与时间信息采用动态MLP进行编码后与噪声声谱图特征融合，以增强噪声声谱图图像特征，模型的整体框架结构图如下图2所示。

在本发明的实施例中，引用了一种新型的多模态融合方法，称为“动态MLP”，根据时空信息来完善和增强声谱图的图像特征编码。

读取噪声音频文件，采用Python的音频处理库librosa，提取噪声的Log-MelSpectrogram 特征， Log-Mel Spectrogram特征是目前在语音识别和环境声音识别中很常用的一个特征，由于卷积神经网络在处理图像上展现了强大的能力，使得音频信号的声谱图特征的使用愈加广泛。采用卷积神经网络提取噪声声谱图特征，本申请采用的卷积神经网络结构为RepLKNet。

RepLKNet使用了恒等映射（identity mapping）作为快捷连接（skip connection）方式、重新参数化以及巧妙运用1*1卷积核的方式，改善了使用大型内核卷积层中参数量增大的问题，并且明显提高了网络鲁棒性与泛化能力。

在本发明实施例中，多模态融合线路就是将噪声时空特征和噪声声谱图特征通过动态MLP进行融合，如图3所示，噪声时空信息按照以下方法进行初步处理：

S201、采集噪声时空信息。

噪声的时空信息包括位置信息和时间信息，其中，位置信息以经度和纬度的形式进行表示，将噪声时空信息以key,value的形式保存，具体格式如下图4所示。将采集的噪声时空信息进行解析编码，转化成数值。比如图4所示的时空噪声信息，转化成8个数值信息，分别是-28.6,167.89,2022，6，8，11，22，24。

S202、将所述噪声时空信息进行归一化处理，获取归一化噪声时空信息。

由于经纬度和日期的数值范围过大，需要对数值范围进行归一化处理，设置归一化范围为[-1,1]，比如对上面的-28.6，167.89，2022，6，8，11，22，24信息归一化过程为：

求和：（-28.6+167.89+2022+6+8+11+22+24）=2232.29；

数值-28.6归一化为： -28.6/2232.29=-0.01281196；

数值167.89归一化为：167.89/2232.29=0.07520976；

数值2022归一化为：2022/2232.29=0.90579629；

数值6归一化为：6/2232.29=0.00268782；

数值8归一化为：8/2232.29=0.00358376；

数值11归一化为：11/2232.29=0.00492768；

数值22归一化为：22/2232.29=0.00985535；

数值24归一化为：24/2232.29=0.01075129。

S203、将所述归一化噪声时空信息联合，获取噪声时空信息向量。

将上述纬度、经度和时间信息联合在一些，组成一向量，Concat({latitude,longitude,date})。如上的例子，对应的向量为：

S204、将所述噪声时空信息向量进行映射处理，获得噪声时空信息映射向量。

对向量信息进行函数处理

，将上述向量值作为函数输入，求得输出值，比如上述向量的第一个值对应的输出值为：

，将所有的输出值重新组合成新的向量，为噪声时空信息映射向量。

采用上述方法对噪声时空信息进行初步处理，以及简单的动态MLP解析后，获得噪声时空特征，作为动态MLP动态投影融合的一个权重与噪声声谱图特征进行融合，可充分考量噪声时空信息对噪声识别的影响。如图5所示，在本发明实施例中，将所述噪声声谱图特征和噪声时空特征输入所述动态MLP进行多次递归及动态投影融合，获得增强图像特征，包括：

S301、将所述噪声声谱图特征进行压缩。

S302、将压缩后的噪声声谱图特征经所述动态MLP递归更新，更新次数为n，所述n为预先设定的超参数。

S303、将所述噪声时空特征经所述动态MLP递归更新，更新次数为n，所述n为预先设定的超参数。

S304、将递归更新后的噪声时空特征作为一个权重和更新后的噪声声谱图特征经所述动态MLP进行动态投影，获得增强图像特征。

将噪声声谱图的图像经过RepLKNet卷积神经网络和全局平均池层处理后的噪声声谱图特征编码标记为

。将噪声时空信息经过预处理和简单的动态MLP解析后获得的噪声时空特征标记为

。

为了节省内存成本和运行，将噪声声谱图特征进行压缩为

，其尺寸较低，将

和

作为动态MLP的初始输入。

整个动态MLP结构被设计为递归体系结构，将噪声声谱图特征和噪声时空特征经动态MLP递归更新，更新次数为n，其中n∈{1，2，...，n}，所述n是一个可以预先设定的超参数。将递归更新后的噪声声谱图特征标记为

，将递归更新后的噪声时空特征标记为

。

动态MLP将递归更新后的噪声时空特征

作为一个权重和更新后的噪声声谱图特征

经动态MLP进行动态投影，获得增强图像特征

。

动态MLP是一种新型的多模态融合方法，以根据其他信息来完善和增强图像特征。现有的多模态融合方法主要有联合(Concatenation)，加法(Addition)，乘法(Multiplication)的方式，但是这些方式在一些较为相似的类别区分上缺乏潜力，仅仅是单个维度上的交互，对于乘法而言也仅仅是两两维度之间的交互。

为了充分利用其他信息的潜在影响，涉及多模式特征表示之间的较高维度的相互作用。因此，动态MLP以自适应感知权重的形式利用其他信息，以增强图像特征的表示能力，如图6所示为现有多模态方法与动态MLP对比图。在本发明实施例中，动态MLP将递归更新后的噪声时空特征作为一个权重和更新后的噪声声谱图特征，由动态MLP进行动态投影，动态MLP中的投影过程涉及噪声声谱图特征和噪声时空特征之间的高维度相互作用。

在本发明实施例中，如图所示7，将递归更新后的噪声时空特征作为一个权重和更新后的噪声声谱图特征经所述动态MLP进行动态投影，获得增强图像特征，包括：

S3041、将所述递归更新后的噪声时空特征转化为噪声时空特征矩阵，调整所述噪声时空特征矩阵的维度大小，将所述噪声时空特征矩阵重塑为2D矩阵。

S3041、将所述2D矩阵和递归更新后的噪声声谱图特征经所述动态MLP进行动态投影，输出增强图像特征。

动态投影是动态MLP最核心的部分，调整递归更新后的噪声时空特征

的特征矩阵维度大小，作为噪声声谱图图像处理流水线中的一个权重进行累加相乘，这样可以让噪声特征更全面的进行融合，具体动态投影过程如下图8所示。

将递归更新后的噪声时空特征

作为一个权重和递归更新后的噪声声谱图特征

经所述动态MLP进行动态投影表示为

，Reshape表示将特征矩阵重塑为2D矩阵，函数f表示全连接层，如图8所示，进行动态投影后输出结构为：

。

在本发明实施例中，如图9所示，获得增强图像特征后，将增加图像特征和噪声声谱图特征，通过快捷连接生成特征编码，包括：

S401、将所述增强图像特征通过通道增加层进行扩展，以使扩展后的增强图像特征的形状与噪声声谱图特征对齐。

S402、将扩展后的增强图像特征和所述噪声声谱图特征进行快捷连接，获得特征编码。

将增强图像特征通过通道增加层进行扩展，使扩展后的增强图像特征的形状达到与噪声声谱图特征对齐的目的，此时通过卷积神经网络，将扩展后的增强图像特征与噪声声谱图特征进行快捷连接来获得特征编码。

在本发明实施例中，RepLKNet中的快捷连接为恒等映射快捷连接（identitymapping skip connection），是由2016年微软研究院的何恺明在ResNet中提出。如图10所示，为没有恒等映射快捷连接（identity mapping skip connection）的深度网络结构，x、y是相邻两层，通过卷积层、激活函数、批量归一化处理以及下采样等处理，将这一系列处理称为权重调整层W，这个过程中产生的网络参数计算由函数

表示，则y可以表示为：

。

如图11所示，恒等映射快捷连接强行将一个输入添加到函数的输出，输出可以明确的拆分为

和x的线性叠加，y可以表示为：

将输出表述为输入和输入的一个非线性变换的线性叠加。它解决了深层网络梯度消失无法训练的问题。在本实施例中，输出的特征编码为y，

。

通过以上方法获得的特征编码，将噪声时空特征作为噪声声谱图特征处理的一个权重进行融合，获得的特征编码不仅能反应噪声的强度特征，也能反应噪声的时空特征，可很大程度上提高噪声识别的准确性。

最后将特征编码输入模型分类器进行城市噪声分类。

根据本发明实施例提供的城市噪声识别方法，噪声识别的准确率可得到较大的提升，获得的分类结果更加的准确，可以更好的了解影响居民日常生活的声音问题，对症下药，找到精准的声学解决方案，进而提高居民的城市生活质量。

基于一种融合时空属性的实时环境噪声识别方法，本发明实施例还提供了一种融合时空属性的实时环境噪声识别系统，如图12所示，所述系统包括：

噪声图谱特征提取模块1：读取噪声音频文件，从所述噪声音频文件获取噪声声谱图，并采用卷积神经网络提取所述噪声声谱图的噪声声谱图特征。

噪声时空特征获取模块2：获取噪声时空信息，对噪声时空信息进行归一化、联合和映射处理，得到噪声时空信息映射向量；并采用动态MLP对所述噪声时空信息映射向量进行解析，获得噪声时空特征；所述噪声时空信息包括位置信息和时间信息。

多模态融合模块3：将所述噪声声谱图特征和噪声时空特征输入所述动态MLP进行多次递归及动态投影融合，获得增强图像特征。

特征编码生成模块4：根据所述增强图像特征和噪声声谱图特征，通过快捷连接生成特征编码。

噪声分类模块5：将所述特征编码输入模型分类器进行城市噪声分类。

关于一种基于融合时空属性的实时环境噪声识别系统的具体限定可以参见上述对于一种基于融合时空属性的实时环境噪声识别方法的限定，此处不再赘述。本领域普通技术人员可以意识到，结合本申请所公开的实施例描述的各个模块和步骤，能够以硬件、软件或者两者结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本实施例中基于融合时空属性的实时环境噪声识别方法、系统、计算机设备及存储介质，针对有城市噪声识别过程中识别效果差、精度低的问题。将噪声时空信息经过相关处理后获得噪声时空特征，并将噪声时空特征作为一个权重和噪声声谱图特征通过动态MLP进行动态投影融合，获得增强图像特征，最后将增强图像特征和噪声声谱图特征通过卷积神经网络的快捷连接生成特征编码，将特征编码输入模型分类器即可对城市噪声进行分类。噪声时空特征的引入可较大程度的的提升噪声识别的准确性，可以更好的了解影响居民日常生活的声音问题，对症下药，找到精准的声学解决方案，进而提高居民的城市生活质量。

如图13所示，本发明实施例提供的一种计算机设备，包括存储器、处理器和收发器，它们之间通过总线连接；存储器用于存储一组计算机程序指令和数据，并可以将存储的数据传输给处理器，处理器可以执行存储器存储的程序指令，以执行上述基于融合时空属性的实时环境噪声识别方法的步骤。

其中，存储器可以包括易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者；处理器可以是中央处理器、微处理器、特定应用集成电路、可编程逻辑器件或其组合。通过示例性但不是限制性说明，上述可编程逻辑器件可以是复杂可编程逻辑器件、现场可编程逻辑门阵列、通用阵列逻辑或其任意组合。

另外，存储器可以是物理上独立的单元，也可以与处理器集成在一起。

本领域普通技术人员可以理解，图13中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有相同的部件布置。

本发明实施例还提供一种可读存储介质，其中存储有处理器可执行的计算机程序，所述处理器可执行的计算机程序在由处理器执行时用于执行所述的基于融合时空属性的实时环境噪声识别方法。

在一个实施例中，提供了一种计算机可读存储介质，所述存储介质用于存储一个或多个计算机程序，所述一个或多个计算机程序包括程序代码，当所述计算机程序在计算机上运行时，所述程序代码用于执行上述基于融合时空属性的实时环境噪声识别方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如SSD)等。

本发明提供一种融合时空属性的实时环境噪声识别方法、系统、计算机设备及存储介质，针对现有城市噪声识别过程中识别效果差、精度低的问题。通过将噪声时空信息经过相关处理后获得噪声时空特征，并将噪声时空特征作为一个权重和噪声声谱图特征通过动态MLP进行动态投影融合，获得增强图像特征，最后将增强图像特征和噪声声谱图特征通过卷积神经网络的快捷连接生成特征编码，将特征编码输入模型分类器即可对城市噪声进行分类。噪声时空特征的引入可较大的特征噪声识别的准确性，可以更好的了解影响居民日常生活的声音问题，对症下药，找到精准的声学解决方案，进而提高居民的城市生活质量。

本领域技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。

以上所述实施例仅表达了本申请的几种优选实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和替换，这些改进和替换也应视为本申请的保护范围。因此，本申请专利的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种融合时空属性的实时环境噪声识别方法，其特征在于，所述方法包括：

2.如权利要求1所述的融合时空属性的实时环境噪声识别方法，其特征在于，所述将所述噪声声谱图特征和噪声时空特征输入所述动态MLP进行多次递归及动态投影融合，获得增强图像特征，包括：

将所述噪声声谱图特征进行压缩；

3.如权利要求2所述的融合时空属性的实时环境噪声识别方法，其特征在于，所述将递归更新后的噪声时空特征作为一个权重和更新后的噪声声谱图特征经动态MLP进行动态投影，获得增强图像特征，包括：

4.如权利要求1所述的融合时空属性的实时环境噪声识别方法，其特征在于，所述读取噪声音频文件，从所述噪声音频文件获得噪声声谱图，包括：

5.如权利要求1所述的融合时空属性的实时环境噪声识别方法，其特征在于，所述获取噪声时空信息，对噪声时空信息进行归一化、联合和映射处理，得到噪声时空信息映射向量，包括：

采集噪声时空信息；

将所述归一化噪声时空信息联合，获取噪声时空信息向量；

6.如权利要求1所述的融合时空属性的实时环境噪声识别方法，其特征在于，所述根据所述增强图像特征和噪声声谱图特征，通过快捷连接生成特征编码，包括：

7.如权利要求1所述的融合时空属性的实时环境噪声识别方法，其特征在于，所述卷积神经网络为RepLKNet。

8.一种融合时空属性的实时环境噪声识别系统，其特征在于，所述系统包括：

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一所述方法的步骤。

10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质中存储有计算机程序，当所述计算机程序被运行时，实现如权利要求1至7任一项所述的方法。