CN115083394B - 一种融合时空属性的实时环境噪声识别方法、系统及设备 - Google Patents
一种融合时空属性的实时环境噪声识别方法、系统及设备 Download PDFInfo
- Publication number
- CN115083394B CN115083394B CN202211003265.8A CN202211003265A CN115083394B CN 115083394 B CN115083394 B CN 115083394B CN 202211003265 A CN202211003265 A CN 202211003265A CN 115083394 B CN115083394 B CN 115083394B
- Authority
- CN
- China
- Prior art keywords
- noise
- time
- spectrogram
- space
- dynamic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 230000007613 environmental effect Effects 0.000 title claims description 36
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 19
- 238000013507 mapping Methods 0.000 claims description 37
- 238000012545 processing Methods 0.000 claims description 25
- 230000004927 fusion Effects 0.000 claims description 23
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 17
- 238000010606 normalization Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 5
- 239000003814 drug Substances 0.000 abstract description 6
- 208000024891 symptom Diseases 0.000 abstract description 6
- 229940079593 drug Drugs 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000007500 overflow downdraw method Methods 0.000 description 3
- 230000036541 health Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Remote Sensing (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明涉及噪声识别技术领域,尤其涉及一种融合时空属性的实时环境噪声识别方法、系统、计算机设备及可读存储介质。将噪声时空信息经过相关处理后获得噪声时空特征,并将噪声时空特征作为一个权重和噪声声谱图特征通过动态MLP进行动态投影融合,获得增强图像特征,最后将增强图像特征和噪声声谱图特征通过卷积神经网络的快捷连接生成特征编码,将特征编码输入模型分类器即可对城市噪声进行分类。噪声时空特征的引入可较大程度的提升噪声识别的准确性,可以更好的了解影响居民日常生活的声音问题,对症下药,找到精准的声学解决方案,进而提高居民的城市生活质量。
Description
技术领域
本发明涉及噪声识别技术领域,尤其涉及一种融合时空属性的实时环境噪声识别方法、系统、计算机设备及可读存储介质。
背景技术
随着城市化进程的发展,噪声污染日益严重,成为影响城市居民身体健康和生活质量的重要环境因素。
最新的研究结果表明,人们对声音的舒适度不仅取决于噪音的分贝数,还取决于噪声源。目前,对于噪声测量的主流方法是基于平均时间内加权声压的测量,其中忽略了噪声源信息。且研究发现,典型的城市噪声,如铁路、公路、飞机的交通噪声,邻里之间的噪声和工业噪声,对与人体健康相关的生活质量具有不同的影响。因此采用声音内容的分类技术结合相对应的强度信息来识别噪声源信息,即同时考虑噪声水平和类型可以进行更有效的噪声评估,可以极大的促进城市噪声管理。通过识别环境声音的内容以及强度信息,可以更好的了解影响居民日常生活的声音问题,对症下药,找到精准的声学解决方案,进而提高居民的城市生活质量。
噪声的实质就是声音,对环境噪声识别即对声音进行识别。声音识别的研究有语音信号识别和非语音信号识别两个方向。但是到目前为止,机器听觉的研究对象主要包括语音和音乐,对于噪声分类的相关研究还比较有限,人耳可以十分熟练地辨别各种噪声的种类,分析噪声是否对身体有害,辨别噪声的来源以采取有效措施来避免,但是要想让机器听觉算法来达到这些目的却很不容易。
目前的噪声智能识别算法一般分为两个部分:特征提取与分类识别。特征提取部分的作用是获取声信号中能够表征其主要信息的参数,分类识别则利用提取出来的特征,建立机器学习的模型,进行训练和建立噪声分类模型。
现有技术存在的缺点:
(1)目前在声信号识别中,最常用的特征提取算法有过零率、梅尔频率倒谱系数(MFCC)、线性预测倒谱系数(LPCC),被证明在语音/音频识别方面是有效的。但是当城市噪声类别増多且背景声复杂时,传统的声信号特征算法会使识别结果变差,影响了后续的识别模型的精度。
(2)分类准确率不够高、泛化能力不够强。综合国内外研究成果,各城市音频数据集的分类准确率在80.00%左右。相较于图像分类、语音识别以及声纹识别等领域的各标准数据集准确率均可达 90.00%以上,仍有较大的提升空间。
发明内容
本发明提供了一种融合时空属性的实时环境噪声识别方法、系统、计算机设备及可读存储介质,以解决现有城市噪声识别过程中识别效果差、精度低的问题,提高城市噪声识别的效果,为城市噪声管理提供依据。
第一方面,本发明实施例提供了一种融合时空属性的实时环境噪声识别方法,所述方法包括:
读取噪声音频文件,从所述噪声音频文件获取噪声声谱图,并采用卷积神经网络提取所述噪声声谱图的噪声声谱图特征;
获取噪声时空信息,对噪声时空信息进行归一化、联合和映射处理,得到噪声时空信息映射向量;并采用动态MLP对所述噪声时空信息映射向量进行解析,获得噪声时空特征;所述噪声时空信息包括位置信息和时间信息;
将所述噪声声谱图特征和噪声时空特征输入动态MLP进行多次递归及动态投影融合,获得增强图像特征;
根据所述增强图像特征和噪声声谱图特征,通过快捷连接生成特征编码;
将所述特征编码输入模型分类器进行城市噪声分类,得到分类结果。
在进一步的实施例中,所述将所述噪声声谱图特征和噪声时空特征输入动态MLP进行多次递归及动态投影融合,获得增强图像特征,包括:
将所述噪声声谱图特征进行压缩;
将压缩后的噪声声谱图特征经动态MLP递归更新,更新次数为n,所述n为预先设定的超参数;
将所述噪声时空特征经动态MLP递归更新,更新次数为n,所述n为预先设定的超参数;
将递归更新后的噪声时空特征作为一个权重和更新后的噪声声谱图特征经动态MLP进行动态投影,获得增强图像特征。
在进一步的实施例中,所述将递归更新后的噪声时空特征作为一个权重和更新后的噪声声谱图特征经动态MLP进行动态投影,获得增强图像特征,包括:
将所述递归更新后的噪声时空特征转化为噪声时空特征矩阵,调整所述噪声时空特征矩阵的维度大小,将所述噪声时空特征矩阵重塑为2D矩阵;
将所述2D矩阵和递归更新后的噪声声谱图特征经动态MLP进行动态投影,输出增强图像特征。
在进一步的实施例中,所述读取噪声音频文件,从所述噪声音频文件获得噪声声谱图,包括:
读取噪声音频文件,通过Python的音频处理库librosa,提取所述噪声音频文件的Log-Mel Spectrogram 特征,获取噪声声谱图。
在进一步的实施例中,所述获取噪声时空信息,对噪声时空信息进行归一化、联合和映射处理,得到噪声时空信息映射向量,包括:
采集噪声时空信息;
将所述噪声时空信息进行归一化处理,获取归一化噪声时空信息;
将所述归一化噪声时空信息联合,获取噪声时空信息向量;
将所述噪声时空信息向量进行映射处理,获得噪声时空信息映射向量。
在进一步的实施例中,所述根据所述增强图像特征和噪声声谱图特征,通过快捷连接生成特征编码,包括:
将所述增强图像特征通过通道增加层进行扩展,以使扩展后的增强图像特征的形状与噪声声谱图特征对齐;
将扩展后的增强图像特征和所述噪声声谱图特征进行快捷连接,获得特征编码。
在进一步的实施例中,所述卷积神经网络为RepLKNet CNN。
第二方面,本发明实施例提供了一种融合时空属性的实时环境噪声识别系统,所述系统包括:
噪声声谱图特征提取模块:读取噪声音频文件,从所述噪声音频文件获取噪声声谱图,并采用卷积神经网络提取所述噪声声谱图的噪声声谱图特征;
噪声时空特征获取模块:获取噪声时空信息,对噪声时空信息进行归一化、联合和映射处理,得到噪声时空信息映射向量;并采用动态MLP对所述噪声时空信息映射向量进行解析,获得噪声时空特征;所述噪声时空信息包括位置信息和时间信息;
多模态融合模块:将所述噪声声谱图特征和噪声时空特征输入动态MLP进行多次递归及动态投影融合,获得增强图像特征;
特征编码生成模块:根据所述增强图像特征和噪声声谱图特征,通过快捷连接生成特征编码;
噪声分类模块:将所述特征编码输入模型分类器进行城市噪声分类,得到分类结果。
第三方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序被运行时,实现上述方法的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序被运行时,实现上述方法的步骤。
本发明提供一种融合时空属性的实时环境噪声识别方法、系统、计算机设备及存储介质。将噪声时空信息经过相关处理后获得噪声时空特征,并将噪声时空特征作为一个权重和噪声声谱图特征通过动态MLP进行动态投影融合,获得增强图像特征,最后将增强图像特征和噪声声谱图特征通过卷积神经网络的快捷连接生成特征编码,将特征编码输入模型分类器即可对城市噪声进行分类。噪声时空特征的引入可较大程度的提升噪声识别的准确性,可以更好的了解影响居民日常生活的声音问题,对症下药,找到精准的声学解决方案,进而提高居民的城市生活质量。
附图说明
图1是本发明实施例中一种融合时空属性的实时环境噪声识别方法步骤示意图;
图2是本发明实施例中一种融合时空属性的实时环境噪声识别方法模型整体框架结构图;
图3是本发明实施例中一种融合时空属性的实时环境噪声识别方法中噪声时空信息处理步骤示意图;
图4是本发明实施例中一种融合时空属性的实时环境噪声识别方法中噪声时空信息保存格式示意图;
图5是本发明实施例中一种融合时空属性的实时环境噪声识别方法中增强图像特征获取方法步骤示意图;
图6是本发明实施例中一种融合时空属性的实时环境噪声识别方法中现有多模态方法与动态MLP对比图;
图7是本发明实施例中一种融合时空属性的实时环境噪声识别方法中动态投影步骤示意图;
图8是本发明实施例中一种融合时空属性的实时环境噪声识别方法中动态投影过程示意图;
图9是本发明实施例中一种融合时空属性的实时环境噪声识别方法中特征编码生成步骤示意图;
图10是本发明实施例中一种融合时空属性的实时环境噪声识别方法中为没有恒等映射快捷连接的深度网络结构;
图11是本发明实施例中一种融合时空属性的实时环境噪声识别方法中为恒等映射快捷连接的深度网络结构;
图12是本发明实施例中一种融合时空属性的实时环境噪声识别系统结构示意图;
图13是本发明实施例中一种计算机设备示意图。
具体实施方式
下面结合附图具体阐明本发明的实施方式,实施例的给出仅仅是为了说明目的,并不能理解为对本发明的限定,包括附图仅供参考和说明使用,不构成对本发明专利保护范围的限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在一个实施例中,请参见图1所示,本发明提供了一种融合时空属性的实时环境噪声识别方法,包括以下步骤:
S10、读取噪声音频文件,从所述噪声音频文件获取噪声声谱图,并采用卷积神经网络提取所述噪声声谱图的噪声声谱图特征。
S20、获取噪声时空信息,对噪声时空信息进行归一化、联合和映射处理,得到噪声时空信息映射向量;并采用动态MLP对所述噪声时空信息映射向量进行解析,获得噪声时空特征;所述噪声时空信息包括位置信息和时间信息。
S30、将所述噪声声谱图特征和噪声时空特征输入动态MLP进行多次递归及动态投影融合,获得增强图像特征。
S40、根据所述增强图像特征和噪声声谱图特征,通过快捷连接生成特征编码。
S50、将所述特征编码输入模型分类器进行城市噪声分类,得到分类结果。
在本发明实施例中,融合时空属性的实时环境噪声识别方法模型主要由两条线路组成,分别是图像处理线路和多模态融合线路。
图像处理线路,主要是对噪声音频的声谱图采用卷积神经网络进行深度学习,提取噪声声谱图特征;多模态融合线路主要是对与噪声音频相对应的噪声位置与时间信息采用动态MLP进行编码后与噪声声谱图特征融合,以增强噪声声谱图图像特征,模型的整体框架结构图如下图2所示。
在本发明的实施例中,引用了一种新型的多模态融合方法,称为“动态MLP”,根据时空信息来完善和增强声谱图的图像特征编码。
读取噪声音频文件,采用Python的音频处理库librosa,提取噪声的Log-MelSpectrogram 特征, Log-Mel Spectrogram特征是目前在语音识别和环境声音识别中很常用的一个特征,由于卷积神经网络在处理图像上展现了强大的能力,使得音频信号的声谱图特征的使用愈加广泛。采用卷积神经网络提取噪声声谱图特征,本申请采用的卷积神经网络结构为RepLKNet。
RepLKNet使用了恒等映射(identity mapping)作为快捷连接(skip connection)方式、重新参数化以及巧妙运用1*1卷积核的方式,改善了使用大型内核卷积层中参数量增大的问题,并且明显提高了网络鲁棒性与泛化能力。
在本发明实施例中,多模态融合线路就是将噪声时空特征和噪声声谱图特征通过动态MLP进行融合,如图3所示,噪声时空信息按照以下方法进行初步处理:
S201、采集噪声时空信息。
噪声的时空信息包括位置信息和时间信息,其中,位置信息以经度和纬度的形式进行表示,将噪声时空信息以key,value的形式保存,具体格式如下图4所示。将采集的噪声时空信息进行解析编码,转化成数值。比如图4所示的时空噪声信息,转化成8个数值信息,分别是-28.6,167.89,2022,6,8,11,22,24。
S202、将所述噪声时空信息进行归一化处理,获取归一化噪声时空信息。
由于经纬度和日期的数值范围过大,需要对数值范围进行归一化处理,设置归一化范围为[-1,1],比如对上面的-28.6,167.89,2022,6,8,11,22,24信息归一化过程为:
求和:(-28.6+167.89+2022+6+8+11+22+24)=2232.29;
数值-28.6归一化为: -28.6/2232.29=-0.01281196;
数值167.89归一化为:167.89/2232.29=0.07520976;
数值2022归一化为:2022/2232.29=0.90579629;
数值6归一化为:6/2232.29=0.00268782;
数值8归一化为:8/2232.29=0.00358376;
数值11归一化为:11/2232.29=0.00492768;
数值22归一化为:22/2232.29=0.00985535;
数值24归一化为:24/2232.29=0.01075129。
S203、将所述归一化噪声时空信息联合,获取噪声时空信息向量。
将上述纬度、经度和时间信息联合在一些,组成一向量,Concat({latitude,longitude,date})。如上的例子,对应的向量为:
S204、将所述噪声时空信息向量进行映射处理,获得噪声时空信息映射向量。
采用上述方法对噪声时空信息进行初步处理,以及简单的动态MLP解析后,获得噪声时空特征,作为动态MLP动态投影融合的一个权重与噪声声谱图特征进行融合,可充分考量噪声时空信息对噪声识别的影响。如图5所示,在本发明实施例中,将所述噪声声谱图特征和噪声时空特征输入所述动态MLP进行多次递归及动态投影融合,获得增强图像特征,包括:
S301、将所述噪声声谱图特征进行压缩。
S302、将压缩后的噪声声谱图特征经所述动态MLP递归更新,更新次数为n,所述n为预先设定的超参数。
S303、将所述噪声时空特征经所述动态MLP递归更新,更新次数为n,所述n为预先设定的超参数。
S304、将递归更新后的噪声时空特征作为一个权重和更新后的噪声声谱图特征经所述动态MLP进行动态投影,获得增强图像特征。
整个动态MLP结构被设计为递归体系结构,将噪声声谱图特征和噪声时空特征经动态MLP递归更新,更新次数为n,其中n∈{1,2,...,n},所述n是一个可以预先设定的超参数。将递归更新后的噪声声谱图特征标记为,将递归更新后的噪声时空特征标记为。
动态MLP是一种新型的多模态融合方法,以根据其他信息来完善和增强图像特征。现有的多模态融合方法主要有联合(Concatenation),加法(Addition),乘法(Multiplication)的方式,但是这些方式在一些较为相似的类别区分上缺乏潜力,仅仅是单个维度上的交互,对于乘法而言也仅仅是两两维度之间的交互。
为了充分利用其他信息的潜在影响,涉及多模式特征表示之间的较高维度的相互作用。因此,动态MLP以自适应感知权重的形式利用其他信息,以增强图像特征的表示能力,如图6所示为现有多模态方法与动态MLP对比图。在本发明实施例中,动态MLP将递归更新后的噪声时空特征作为一个权重和更新后的噪声声谱图特征,由动态MLP进行动态投影,动态MLP中的投影过程涉及噪声声谱图特征和噪声时空特征之间的高维度相互作用。
在本发明实施例中,如图所示7,将递归更新后的噪声时空特征作为一个权重和更新后的噪声声谱图特征经所述动态MLP进行动态投影,获得增强图像特征,包括:
S3041、将所述递归更新后的噪声时空特征转化为噪声时空特征矩阵,调整所述噪声时空特征矩阵的维度大小,将所述噪声时空特征矩阵重塑为2D矩阵。
S3041、将所述2D矩阵和递归更新后的噪声声谱图特征经所述动态MLP进行动态投影,输出增强图像特征。
动态投影是动态MLP最核心的部分,调整递归更新后的噪声时空特征的特征矩阵维度大小,作为噪声声谱图图像处理流水线中的一个权重进行累加相乘,这样可以让噪声特征更全面的进行融合,具体动态投影过程如下图8所示。
将递归更新后的噪声时空特征作为一个权重和递归更新后的噪声声谱图特征经所述动态MLP进行动态投影表示为,Reshape表示将特征矩阵重塑为2D矩阵,函数f表示全连接层,如图8所示,进行动态投影后输出结构为:。
在本发明实施例中,如图9所示,获得增强图像特征后,将增加图像特征和噪声声谱图特征,通过快捷连接生成特征编码,包括:
S401、将所述增强图像特征通过通道增加层进行扩展,以使扩展后的增强图像特征的形状与噪声声谱图特征对齐。
S402、将扩展后的增强图像特征和所述噪声声谱图特征进行快捷连接,获得特征编码。
将增强图像特征通过通道增加层进行扩展,使扩展后的增强图像特征的形状达到与噪声声谱图特征对齐的目的,此时通过卷积神经网络,将扩展后的增强图像特征与噪声声谱图特征进行快捷连接来获得特征编码。
在本发明实施例中,RepLKNet中的快捷连接为恒等映射快捷连接(identitymapping skip connection),是由2016年微软研究院的何恺明在ResNet中提出。如图10所示,为没有恒等映射快捷连接(identity mapping skip connection)的深度网络结构,x、y是相邻两层,通过卷积层、激活函数、批量归一化处理以及下采样等处理,将这一系列处理称为权重调整层W,这个过程中产生的网络参数计算由函数表示,则y可以表示为:。
通过以上方法获得的特征编码,将噪声时空特征作为噪声声谱图特征处理的一个权重进行融合,获得的特征编码不仅能反应噪声的强度特征,也能反应噪声的时空特征,可很大程度上提高噪声识别的准确性。
最后将特征编码输入模型分类器进行城市噪声分类。
根据本发明实施例提供的城市噪声识别方法,噪声识别的准确率可得到较大的提升,获得的分类结果更加的准确,可以更好的了解影响居民日常生活的声音问题,对症下药,找到精准的声学解决方案,进而提高居民的城市生活质量。
基于一种融合时空属性的实时环境噪声识别方法,本发明实施例还提供了一种融合时空属性的实时环境噪声识别系统,如图12所示,所述系统包括:
噪声图谱特征提取模块1:读取噪声音频文件,从所述噪声音频文件获取噪声声谱图,并采用卷积神经网络提取所述噪声声谱图的噪声声谱图特征。
噪声时空特征获取模块2:获取噪声时空信息,对噪声时空信息进行归一化、联合和映射处理,得到噪声时空信息映射向量;并采用动态MLP对所述噪声时空信息映射向量进行解析,获得噪声时空特征;所述噪声时空信息包括位置信息和时间信息。
多模态融合模块3:将所述噪声声谱图特征和噪声时空特征输入所述动态MLP进行多次递归及动态投影融合,获得增强图像特征。
特征编码生成模块4:根据所述增强图像特征和噪声声谱图特征,通过快捷连接生成特征编码。
噪声分类模块5:将所述特征编码输入模型分类器进行城市噪声分类。
关于一种基于融合时空属性的实时环境噪声识别系统的具体限定可以参见上述对于一种基于融合时空属性的实时环境噪声识别方法的限定,此处不再赘述。本领域普通技术人员可以意识到,结合本申请所公开的实施例描述的各个模块和步骤,能够以硬件、软件或者两者结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本实施例中基于融合时空属性的实时环境噪声识别方法、系统、计算机设备及存储介质,针对有城市噪声识别过程中识别效果差、精度低的问题。将噪声时空信息经过相关处理后获得噪声时空特征,并将噪声时空特征作为一个权重和噪声声谱图特征通过动态MLP进行动态投影融合,获得增强图像特征,最后将增强图像特征和噪声声谱图特征通过卷积神经网络的快捷连接生成特征编码,将特征编码输入模型分类器即可对城市噪声进行分类。噪声时空特征的引入可较大程度的的提升噪声识别的准确性,可以更好的了解影响居民日常生活的声音问题,对症下药,找到精准的声学解决方案,进而提高居民的城市生活质量。
如图13所示,本发明实施例提供的一种计算机设备,包括存储器、处理器和收发器,它们之间通过总线连接;存储器用于存储一组计算机程序指令和数据,并可以将存储的数据传输给处理器,处理器可以执行存储器存储的程序指令,以执行上述基于融合时空属性的实时环境噪声识别方法的步骤。
其中,存储器可以包括易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者;处理器可以是中央处理器、微处理器、特定应用集成电路、可编程逻辑器件或其组合。通过示例性但不是限制性说明,上述可编程逻辑器件可以是复杂可编程逻辑器件、现场可编程逻辑门阵列、通用阵列逻辑或其任意组合。
另外,存储器可以是物理上独立的单元,也可以与处理器集成在一起。
本领域普通技术人员可以理解,图13中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有相同的部件布置。
本发明实施例还提供一种可读存储介质,其中存储有处理器可执行的计算机程序,所述处理器可执行的计算机程序在由处理器执行时用于执行所述的基于融合时空属性的实时环境噪声识别方法。
在一个实施例中,提供了一种计算机可读存储介质,所述存储介质用于存储一个或多个计算机程序,所述一个或多个计算机程序包括程序代码,当所述计算机程序在计算机上运行时,所述程序代码用于执行上述基于融合时空属性的实时环境噪声识别方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如SSD)等。
本发明提供一种融合时空属性的实时环境噪声识别方法、系统、计算机设备及存储介质,针对现有城市噪声识别过程中识别效果差、精度低的问题。通过将噪声时空信息经过相关处理后获得噪声时空特征,并将噪声时空特征作为一个权重和噪声声谱图特征通过动态MLP进行动态投影融合,获得增强图像特征,最后将增强图像特征和噪声声谱图特征通过卷积神经网络的快捷连接生成特征编码,将特征编码输入模型分类器即可对城市噪声进行分类。噪声时空特征的引入可较大的特征噪声识别的准确性,可以更好的了解影响居民日常生活的声音问题,对症下药,找到精准的声学解决方案,进而提高居民的城市生活质量。
本领域技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。
以上所述实施例仅表达了本申请的几种优选实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本申请的保护范围。因此,本申请专利的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种融合时空属性的实时环境噪声识别方法,其特征在于,所述方法包括:
读取噪声音频文件,从所述噪声音频文件获取噪声声谱图,并采用卷积神经网络提取所述噪声声谱图的噪声声谱图特征;
获取噪声时空信息,对噪声时空信息进行归一化、联合和映射处理,得到噪声时空信息映射向量;并采用动态MLP对所述噪声时空信息映射向量进行解析,获得噪声时空特征;所述噪声时空信息包括位置信息和时间信息;
将所述噪声声谱图特征和噪声时空特征输入动态MLP进行多次递归及动态投影融合,获得增强图像特征;
根据所述增强图像特征和噪声声谱图特征,通过快捷连接生成特征编码;
将所述特征编码输入模型分类器进行城市噪声分类,得到分类结果。
2.如权利要求1所述的融合时空属性的实时环境噪声识别方法,其特征在于,所述将所述噪声声谱图特征和噪声时空特征输入所述动态MLP进行多次递归及动态投影融合,获得增强图像特征,包括:
将所述噪声声谱图特征进行压缩;
将压缩后的噪声声谱图特征经动态MLP递归更新,更新次数为n,所述n为预先设定的超参数;
将所述噪声时空特征经动态MLP递归更新,更新次数为n,所述n为预先设定的超参数;
将递归更新后的噪声时空特征作为一个权重和更新后的噪声声谱图特征经动态MLP进行动态投影,获得增强图像特征。
3.如权利要求2所述的融合时空属性的实时环境噪声识别方法,其特征在于,所述将递归更新后的噪声时空特征作为一个权重和更新后的噪声声谱图特征经动态MLP进行动态投影,获得增强图像特征,包括:
将所述递归更新后的噪声时空特征转化为噪声时空特征矩阵,调整所述噪声时空特征矩阵的维度大小,将所述噪声时空特征矩阵重塑为2D矩阵;
将所述2D矩阵和递归更新后的噪声声谱图特征经动态MLP进行动态投影,输出增强图像特征。
4.如权利要求1所述的融合时空属性的实时环境噪声识别方法,其特征在于,所述读取噪声音频文件,从所述噪声音频文件获得噪声声谱图,包括:
读取噪声音频文件,通过Python的音频处理库librosa,提取所述噪声音频文件的Log-Mel Spectrogram 特征,获取噪声声谱图。
5.如权利要求1所述的融合时空属性的实时环境噪声识别方法,其特征在于,所述获取噪声时空信息,对噪声时空信息进行归一化、联合和映射处理,得到噪声时空信息映射向量,包括:
采集噪声时空信息;
将所述噪声时空信息进行归一化处理,获取归一化噪声时空信息;
将所述归一化噪声时空信息联合,获取噪声时空信息向量;
将所述噪声时空信息向量进行映射处理,获得噪声时空信息映射向量。
6.如权利要求1所述的融合时空属性的实时环境噪声识别方法,其特征在于,所述根据所述增强图像特征和噪声声谱图特征,通过快捷连接生成特征编码,包括:
将所述增强图像特征通过通道增加层进行扩展,以使扩展后的增强图像特征的形状与噪声声谱图特征对齐;
将扩展后的增强图像特征和所述噪声声谱图特征进行快捷连接,获得特征编码。
7.如权利要求1所述的融合时空属性的实时环境噪声识别方法,其特征在于,所述卷积神经网络为RepLKNet。
8.一种融合时空属性的实时环境噪声识别系统,其特征在于,所述系统包括:
噪声声谱图特征提取模块:读取噪声音频文件,从所述噪声音频文件获取噪声声谱图,并采用卷积神经网络提取所述噪声声谱图的噪声声谱图特征;
噪声时空特征获取模块:获取噪声时空信息,对噪声时空信息进行归一化、联合和映射处理,得到噪声时空信息映射向量;并采用动态MLP对所述噪声时空信息映射向量进行解析,获得噪声时空特征;所述噪声时空信息包括位置信息和时间信息;
多模态融合模块:将所述噪声声谱图特征和噪声时空特征输入动态MLP进行多次递归及动态投影融合,获得增强图像特征;
特征编码生成模块:根据所述增强图像特征和噪声声谱图特征,通过快捷连接生成特征编码;
噪声分类模块:将所述特征编码输入模型分类器进行城市噪声分类,得到分类结果。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一所述方法的步骤。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质中存储有计算机程序,当所述计算机程序被运行时,实现如权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211003265.8A CN115083394B (zh) | 2022-08-22 | 2022-08-22 | 一种融合时空属性的实时环境噪声识别方法、系统及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211003265.8A CN115083394B (zh) | 2022-08-22 | 2022-08-22 | 一种融合时空属性的实时环境噪声识别方法、系统及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115083394A CN115083394A (zh) | 2022-09-20 |
CN115083394B true CN115083394B (zh) | 2022-11-08 |
Family
ID=83245066
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211003265.8A Active CN115083394B (zh) | 2022-08-22 | 2022-08-22 | 一种融合时空属性的实时环境噪声识别方法、系统及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115083394B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115235614A (zh) * | 2022-09-23 | 2022-10-25 | 广州声博士声学技术有限公司 | 一种城市环境噪声实时监测方法、系统、设备及存储介质 |
CN115579127B (zh) * | 2022-10-08 | 2023-11-21 | 中南大学 | 一种构建慢阻肺预测模型的方法、系统、设备及存储介质 |
CN117727298B (zh) * | 2024-02-09 | 2024-04-19 | 广州紫麦科技有限公司 | 基于深度学习的手提电脑语音识别方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106297779A (zh) * | 2016-07-28 | 2017-01-04 | 块互动(北京)科技有限公司 | 一种基于位置信息的背景噪声消除方法及装置 |
US10909847B1 (en) * | 2018-09-19 | 2021-02-02 | All Turtles Corporation | Building urban area noise pollution maps and mitigating noise from emergency vehicles |
CN114550711A (zh) * | 2022-01-04 | 2022-05-27 | 华南理工大学 | 基于时频注意力网络模型的电缆周边环境声音识别方法 |
CN114724549A (zh) * | 2022-06-09 | 2022-07-08 | 广州声博士声学技术有限公司 | 一种面向环境噪声的智能识别方法、装置、设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8374854B2 (en) * | 2008-03-28 | 2013-02-12 | Southern Methodist University | Spatio-temporal speech enhancement technique based on generalized eigenvalue decomposition |
US9530408B2 (en) * | 2014-10-31 | 2016-12-27 | At&T Intellectual Property I, L.P. | Acoustic environment recognizer for optimal speech processing |
-
2022
- 2022-08-22 CN CN202211003265.8A patent/CN115083394B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106297779A (zh) * | 2016-07-28 | 2017-01-04 | 块互动(北京)科技有限公司 | 一种基于位置信息的背景噪声消除方法及装置 |
US10909847B1 (en) * | 2018-09-19 | 2021-02-02 | All Turtles Corporation | Building urban area noise pollution maps and mitigating noise from emergency vehicles |
CN114550711A (zh) * | 2022-01-04 | 2022-05-27 | 华南理工大学 | 基于时频注意力网络模型的电缆周边环境声音识别方法 |
CN114724549A (zh) * | 2022-06-09 | 2022-07-08 | 广州声博士声学技术有限公司 | 一种面向环境噪声的智能识别方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115083394A (zh) | 2022-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115083394B (zh) | 一种融合时空属性的实时环境噪声识别方法、系统及设备 | |
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
CN112216271B (zh) | 一种基于卷积块注意机制的视听双模态语音识别方法 | |
CN111968679B (zh) | 情感识别方法、装置、电子设备及存储介质 | |
CN110909613A (zh) | 视频人物识别方法、装置、存储介质与电子设备 | |
CN112492343A (zh) | 一种视频直播监控方法及相关装置 | |
US11532310B2 (en) | System and method for recognizing user's speech | |
CN114127849A (zh) | 语音情感识别方法和装置 | |
CN115394287A (zh) | 混合语种语音识别方法、装置、系统及存储介质 | |
CN112992191A (zh) | 语音端点检测方法、装置、电子设备及可读存储介质 | |
CN112992155B (zh) | 一种基于残差神经网络的远场语音说话人识别方法及装置 | |
CN113160823A (zh) | 基于脉冲神经网络的语音唤醒方法、装置及电子设备 | |
Hu et al. | Speech emotion recognition based on attention mcnn combined with gender information | |
CN116844567A (zh) | 一种基于多特征重建融合的深度合成音频检测方法及系统 | |
CN117037772A (zh) | 语音音频分割方法、装置、计算机设备、存储介质 | |
CN116645956A (zh) | 语音合成方法、语音合成系统、电子设备及存储介质 | |
CN115101075B (zh) | 一种语音识别的方法以及相关装置 | |
CN115620749A (zh) | 基于人工智能的预训练优化方法、装置、设备及介质 | |
CN112951270B (zh) | 语音流利度检测的方法、装置和电子设备 | |
CN114360507A (zh) | 基于跨层连接注意力的语音识别网络、方法、设备及介质 | |
CN113571085A (zh) | 语音分离方法、系统、装置和存储介质 | |
CN111898452A (zh) | 一种视频监控联网系统 | |
CN117688344B (zh) | 一种基于大模型的多模态细粒度倾向分析方法及系统 | |
CN112820274B (zh) | 一种语音信息识别校正方法和系统 | |
CN116580725A (zh) | 一种语音端点检测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |