CN115083394B - 一种融合时空属性的实时环境噪声识别方法、系统及设备 - Google Patents

一种融合时空属性的实时环境噪声识别方法、系统及设备 Download PDF

Info

Publication number
CN115083394B
CN115083394B CN202211003265.8A CN202211003265A CN115083394B CN 115083394 B CN115083394 B CN 115083394B CN 202211003265 A CN202211003265 A CN 202211003265A CN 115083394 B CN115083394 B CN 115083394B
Authority
CN
China
Prior art keywords
noise
time
spectrogram
space
dynamic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211003265.8A
Other languages
English (en)
Other versions
CN115083394A (zh
Inventor
郑建辉
殷艺敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Soundbox Acoustic Tech Co ltd
Original Assignee
Guangzhou Soundbox Acoustic Tech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Soundbox Acoustic Tech Co ltd filed Critical Guangzhou Soundbox Acoustic Tech Co ltd
Priority to CN202211003265.8A priority Critical patent/CN115083394B/zh
Publication of CN115083394A publication Critical patent/CN115083394A/zh
Application granted granted Critical
Publication of CN115083394B publication Critical patent/CN115083394B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Remote Sensing (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明涉及噪声识别技术领域,尤其涉及一种融合时空属性的实时环境噪声识别方法、系统、计算机设备及可读存储介质。将噪声时空信息经过相关处理后获得噪声时空特征,并将噪声时空特征作为一个权重和噪声声谱图特征通过动态MLP进行动态投影融合,获得增强图像特征,最后将增强图像特征和噪声声谱图特征通过卷积神经网络的快捷连接生成特征编码,将特征编码输入模型分类器即可对城市噪声进行分类。噪声时空特征的引入可较大程度的提升噪声识别的准确性,可以更好的了解影响居民日常生活的声音问题,对症下药,找到精准的声学解决方案,进而提高居民的城市生活质量。

Description

一种融合时空属性的实时环境噪声识别方法、系统及设备
技术领域
本发明涉及噪声识别技术领域,尤其涉及一种融合时空属性的实时环境噪声识别方法、系统、计算机设备及可读存储介质。
背景技术
随着城市化进程的发展,噪声污染日益严重,成为影响城市居民身体健康和生活质量的重要环境因素。
最新的研究结果表明,人们对声音的舒适度不仅取决于噪音的分贝数,还取决于噪声源。目前,对于噪声测量的主流方法是基于平均时间内加权声压的测量,其中忽略了噪声源信息。且研究发现,典型的城市噪声,如铁路、公路、飞机的交通噪声,邻里之间的噪声和工业噪声,对与人体健康相关的生活质量具有不同的影响。因此采用声音内容的分类技术结合相对应的强度信息来识别噪声源信息,即同时考虑噪声水平和类型可以进行更有效的噪声评估,可以极大的促进城市噪声管理。通过识别环境声音的内容以及强度信息,可以更好的了解影响居民日常生活的声音问题,对症下药,找到精准的声学解决方案,进而提高居民的城市生活质量。
噪声的实质就是声音,对环境噪声识别即对声音进行识别。声音识别的研究有语音信号识别和非语音信号识别两个方向。但是到目前为止,机器听觉的研究对象主要包括语音和音乐,对于噪声分类的相关研究还比较有限,人耳可以十分熟练地辨别各种噪声的种类,分析噪声是否对身体有害,辨别噪声的来源以采取有效措施来避免,但是要想让机器听觉算法来达到这些目的却很不容易。
目前的噪声智能识别算法一般分为两个部分:特征提取与分类识别。特征提取部分的作用是获取声信号中能够表征其主要信息的参数,分类识别则利用提取出来的特征,建立机器学习的模型,进行训练和建立噪声分类模型。
现有技术存在的缺点:
(1)目前在声信号识别中,最常用的特征提取算法有过零率、梅尔频率倒谱系数(MFCC)、线性预测倒谱系数(LPCC),被证明在语音/音频识别方面是有效的。但是当城市噪声类别増多且背景声复杂时,传统的声信号特征算法会使识别结果变差,影响了后续的识别模型的精度。
(2)分类准确率不够高、泛化能力不够强。综合国内外研究成果,各城市音频数据集的分类准确率在80.00%左右。相较于图像分类、语音识别以及声纹识别等领域的各标准数据集准确率均可达 90.00%以上,仍有较大的提升空间。
发明内容
本发明提供了一种融合时空属性的实时环境噪声识别方法、系统、计算机设备及可读存储介质,以解决现有城市噪声识别过程中识别效果差、精度低的问题,提高城市噪声识别的效果,为城市噪声管理提供依据。
第一方面,本发明实施例提供了一种融合时空属性的实时环境噪声识别方法,所述方法包括:
读取噪声音频文件,从所述噪声音频文件获取噪声声谱图,并采用卷积神经网络提取所述噪声声谱图的噪声声谱图特征;
获取噪声时空信息,对噪声时空信息进行归一化、联合和映射处理,得到噪声时空信息映射向量;并采用动态MLP对所述噪声时空信息映射向量进行解析,获得噪声时空特征;所述噪声时空信息包括位置信息和时间信息;
将所述噪声声谱图特征和噪声时空特征输入动态MLP进行多次递归及动态投影融合,获得增强图像特征;
根据所述增强图像特征和噪声声谱图特征,通过快捷连接生成特征编码;
将所述特征编码输入模型分类器进行城市噪声分类,得到分类结果。
在进一步的实施例中,所述将所述噪声声谱图特征和噪声时空特征输入动态MLP进行多次递归及动态投影融合,获得增强图像特征,包括:
将所述噪声声谱图特征进行压缩;
将压缩后的噪声声谱图特征经动态MLP递归更新,更新次数为n,所述n为预先设定的超参数;
将所述噪声时空特征经动态MLP递归更新,更新次数为n,所述n为预先设定的超参数;
将递归更新后的噪声时空特征作为一个权重和更新后的噪声声谱图特征经动态MLP进行动态投影,获得增强图像特征。
在进一步的实施例中,所述将递归更新后的噪声时空特征作为一个权重和更新后的噪声声谱图特征经动态MLP进行动态投影,获得增强图像特征,包括:
将所述递归更新后的噪声时空特征转化为噪声时空特征矩阵,调整所述噪声时空特征矩阵的维度大小,将所述噪声时空特征矩阵重塑为2D矩阵;
将所述2D矩阵和递归更新后的噪声声谱图特征经动态MLP进行动态投影,输出增强图像特征。
在进一步的实施例中,所述读取噪声音频文件,从所述噪声音频文件获得噪声声谱图,包括:
读取噪声音频文件,通过Python的音频处理库librosa,提取所述噪声音频文件的Log-Mel Spectrogram 特征,获取噪声声谱图。
在进一步的实施例中,所述获取噪声时空信息,对噪声时空信息进行归一化、联合和映射处理,得到噪声时空信息映射向量,包括:
采集噪声时空信息;
将所述噪声时空信息进行归一化处理,获取归一化噪声时空信息;
将所述归一化噪声时空信息联合,获取噪声时空信息向量;
将所述噪声时空信息向量进行映射处理,获得噪声时空信息映射向量。
在进一步的实施例中,所述根据所述增强图像特征和噪声声谱图特征,通过快捷连接生成特征编码,包括:
将所述增强图像特征通过通道增加层进行扩展,以使扩展后的增强图像特征的形状与噪声声谱图特征对齐;
将扩展后的增强图像特征和所述噪声声谱图特征进行快捷连接,获得特征编码。
在进一步的实施例中,所述卷积神经网络为RepLKNet CNN。
第二方面,本发明实施例提供了一种融合时空属性的实时环境噪声识别系统,所述系统包括:
噪声声谱图特征提取模块:读取噪声音频文件,从所述噪声音频文件获取噪声声谱图,并采用卷积神经网络提取所述噪声声谱图的噪声声谱图特征;
噪声时空特征获取模块:获取噪声时空信息,对噪声时空信息进行归一化、联合和映射处理,得到噪声时空信息映射向量;并采用动态MLP对所述噪声时空信息映射向量进行解析,获得噪声时空特征;所述噪声时空信息包括位置信息和时间信息;
多模态融合模块:将所述噪声声谱图特征和噪声时空特征输入动态MLP进行多次递归及动态投影融合,获得增强图像特征;
特征编码生成模块:根据所述增强图像特征和噪声声谱图特征,通过快捷连接生成特征编码;
噪声分类模块:将所述特征编码输入模型分类器进行城市噪声分类,得到分类结果。
第三方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序被运行时,实现上述方法的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序被运行时,实现上述方法的步骤。
本发明提供一种融合时空属性的实时环境噪声识别方法、系统、计算机设备及存储介质。将噪声时空信息经过相关处理后获得噪声时空特征,并将噪声时空特征作为一个权重和噪声声谱图特征通过动态MLP进行动态投影融合,获得增强图像特征,最后将增强图像特征和噪声声谱图特征通过卷积神经网络的快捷连接生成特征编码,将特征编码输入模型分类器即可对城市噪声进行分类。噪声时空特征的引入可较大程度的提升噪声识别的准确性,可以更好的了解影响居民日常生活的声音问题,对症下药,找到精准的声学解决方案,进而提高居民的城市生活质量。
附图说明
图1是本发明实施例中一种融合时空属性的实时环境噪声识别方法步骤示意图;
图2是本发明实施例中一种融合时空属性的实时环境噪声识别方法模型整体框架结构图;
图3是本发明实施例中一种融合时空属性的实时环境噪声识别方法中噪声时空信息处理步骤示意图;
图4是本发明实施例中一种融合时空属性的实时环境噪声识别方法中噪声时空信息保存格式示意图;
图5是本发明实施例中一种融合时空属性的实时环境噪声识别方法中增强图像特征获取方法步骤示意图;
图6是本发明实施例中一种融合时空属性的实时环境噪声识别方法中现有多模态方法与动态MLP对比图;
图7是本发明实施例中一种融合时空属性的实时环境噪声识别方法中动态投影步骤示意图;
图8是本发明实施例中一种融合时空属性的实时环境噪声识别方法中动态投影过程示意图;
图9是本发明实施例中一种融合时空属性的实时环境噪声识别方法中特征编码生成步骤示意图;
图10是本发明实施例中一种融合时空属性的实时环境噪声识别方法中为没有恒等映射快捷连接的深度网络结构;
图11是本发明实施例中一种融合时空属性的实时环境噪声识别方法中为恒等映射快捷连接的深度网络结构;
图12是本发明实施例中一种融合时空属性的实时环境噪声识别系统结构示意图;
图13是本发明实施例中一种计算机设备示意图。
具体实施方式
下面结合附图具体阐明本发明的实施方式,实施例的给出仅仅是为了说明目的,并不能理解为对本发明的限定,包括附图仅供参考和说明使用,不构成对本发明专利保护范围的限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在一个实施例中,请参见图1所示,本发明提供了一种融合时空属性的实时环境噪声识别方法,包括以下步骤:
S10、读取噪声音频文件,从所述噪声音频文件获取噪声声谱图,并采用卷积神经网络提取所述噪声声谱图的噪声声谱图特征。
S20、获取噪声时空信息,对噪声时空信息进行归一化、联合和映射处理,得到噪声时空信息映射向量;并采用动态MLP对所述噪声时空信息映射向量进行解析,获得噪声时空特征;所述噪声时空信息包括位置信息和时间信息。
S30、将所述噪声声谱图特征和噪声时空特征输入动态MLP进行多次递归及动态投影融合,获得增强图像特征。
S40、根据所述增强图像特征和噪声声谱图特征,通过快捷连接生成特征编码。
S50、将所述特征编码输入模型分类器进行城市噪声分类,得到分类结果。
在本发明实施例中,融合时空属性的实时环境噪声识别方法模型主要由两条线路组成,分别是图像处理线路和多模态融合线路。
图像处理线路,主要是对噪声音频的声谱图采用卷积神经网络进行深度学习,提取噪声声谱图特征;多模态融合线路主要是对与噪声音频相对应的噪声位置与时间信息采用动态MLP进行编码后与噪声声谱图特征融合,以增强噪声声谱图图像特征,模型的整体框架结构图如下图2所示。
在本发明的实施例中,引用了一种新型的多模态融合方法,称为“动态MLP”,根据时空信息来完善和增强声谱图的图像特征编码。
读取噪声音频文件,采用Python的音频处理库librosa,提取噪声的Log-MelSpectrogram 特征, Log-Mel Spectrogram特征是目前在语音识别和环境声音识别中很常用的一个特征,由于卷积神经网络在处理图像上展现了强大的能力,使得音频信号的声谱图特征的使用愈加广泛。采用卷积神经网络提取噪声声谱图特征,本申请采用的卷积神经网络结构为RepLKNet。
RepLKNet使用了恒等映射(identity mapping)作为快捷连接(skip connection)方式、重新参数化以及巧妙运用1*1卷积核的方式,改善了使用大型内核卷积层中参数量增大的问题,并且明显提高了网络鲁棒性与泛化能力。
在本发明实施例中,多模态融合线路就是将噪声时空特征和噪声声谱图特征通过动态MLP进行融合,如图3所示,噪声时空信息按照以下方法进行初步处理:
S201、采集噪声时空信息。
噪声的时空信息包括位置信息和时间信息,其中,位置信息以经度和纬度的形式进行表示,将噪声时空信息以key,value的形式保存,具体格式如下图4所示。将采集的噪声时空信息进行解析编码,转化成数值。比如图4所示的时空噪声信息,转化成8个数值信息,分别是-28.6,167.89,2022,6,8,11,22,24。
S202、将所述噪声时空信息进行归一化处理,获取归一化噪声时空信息。
由于经纬度和日期的数值范围过大,需要对数值范围进行归一化处理,设置归一化范围为[-1,1],比如对上面的-28.6,167.89,2022,6,8,11,22,24信息归一化过程为:
求和:(-28.6+167.89+2022+6+8+11+22+24)=2232.29;
数值-28.6归一化为: -28.6/2232.29=-0.01281196;
数值167.89归一化为:167.89/2232.29=0.07520976;
数值2022归一化为:2022/2232.29=0.90579629;
数值6归一化为:6/2232.29=0.00268782;
数值8归一化为:8/2232.29=0.00358376;
数值11归一化为:11/2232.29=0.00492768;
数值22归一化为:22/2232.29=0.00985535;
数值24归一化为:24/2232.29=0.01075129。
S203、将所述归一化噪声时空信息联合,获取噪声时空信息向量。
将上述纬度、经度和时间信息联合在一些,组成一向量,Concat({latitude,longitude,date})。如上的例子,对应的向量为:
Figure 740426DEST_PATH_IMAGE001
S204、将所述噪声时空信息向量进行映射处理,获得噪声时空信息映射向量。
对向量信息进行函数处理
Figure 531664DEST_PATH_IMAGE002
,将上述向量值作为函数输入,求得输出值,比如上述向量的第一个值对应的输出值为:
Figure 423528DEST_PATH_IMAGE003
,将所有的输出值重新组合成新的向量,为噪声时空信息映射向量。
采用上述方法对噪声时空信息进行初步处理,以及简单的动态MLP解析后,获得噪声时空特征,作为动态MLP动态投影融合的一个权重与噪声声谱图特征进行融合,可充分考量噪声时空信息对噪声识别的影响。如图5所示,在本发明实施例中,将所述噪声声谱图特征和噪声时空特征输入所述动态MLP进行多次递归及动态投影融合,获得增强图像特征,包括:
S301、将所述噪声声谱图特征进行压缩。
S302、将压缩后的噪声声谱图特征经所述动态MLP递归更新,更新次数为n,所述n为预先设定的超参数。
S303、将所述噪声时空特征经所述动态MLP递归更新,更新次数为n,所述n为预先设定的超参数。
S304、将递归更新后的噪声时空特征作为一个权重和更新后的噪声声谱图特征经所述动态MLP进行动态投影,获得增强图像特征。
将噪声声谱图的图像经过RepLKNet卷积神经网络和全局平均池层处理后的噪声声谱图特征编码标记为
Figure 921505DEST_PATH_IMAGE004
。将噪声时空信息经过预处理和简单的动态MLP解析后获得的噪声时空特征标记为
Figure 755469DEST_PATH_IMAGE005
为了节省内存成本和运行,将噪声声谱图特征进行压缩为
Figure 516227DEST_PATH_IMAGE006
,其尺寸较低,将
Figure 398733DEST_PATH_IMAGE006
Figure 813533DEST_PATH_IMAGE005
作为动态MLP的初始输入。
整个动态MLP结构被设计为递归体系结构,将噪声声谱图特征和噪声时空特征经动态MLP递归更新,更新次数为n,其中n∈{1,2,...,n},所述n是一个可以预先设定的超参数。将递归更新后的噪声声谱图特征标记为
Figure 569131DEST_PATH_IMAGE007
,将递归更新后的噪声时空特征标记为
Figure 69382DEST_PATH_IMAGE008
动态MLP将递归更新后的噪声时空特征
Figure 490000DEST_PATH_IMAGE008
作为一个权重和更新后的噪声声谱图特征
Figure 775618DEST_PATH_IMAGE007
经动态MLP进行动态投影,获得增强图像特征
Figure 951385DEST_PATH_IMAGE009
动态MLP是一种新型的多模态融合方法,以根据其他信息来完善和增强图像特征。现有的多模态融合方法主要有联合(Concatenation),加法(Addition),乘法(Multiplication)的方式,但是这些方式在一些较为相似的类别区分上缺乏潜力,仅仅是单个维度上的交互,对于乘法而言也仅仅是两两维度之间的交互。
为了充分利用其他信息的潜在影响,涉及多模式特征表示之间的较高维度的相互作用。因此,动态MLP以自适应感知权重的形式利用其他信息,以增强图像特征的表示能力,如图6所示为现有多模态方法与动态MLP对比图。在本发明实施例中,动态MLP将递归更新后的噪声时空特征作为一个权重和更新后的噪声声谱图特征,由动态MLP进行动态投影,动态MLP中的投影过程涉及噪声声谱图特征和噪声时空特征之间的高维度相互作用。
在本发明实施例中,如图所示7,将递归更新后的噪声时空特征作为一个权重和更新后的噪声声谱图特征经所述动态MLP进行动态投影,获得增强图像特征,包括:
S3041、将所述递归更新后的噪声时空特征转化为噪声时空特征矩阵,调整所述噪声时空特征矩阵的维度大小,将所述噪声时空特征矩阵重塑为2D矩阵。
S3041、将所述2D矩阵和递归更新后的噪声声谱图特征经所述动态MLP进行动态投影,输出增强图像特征。
动态投影是动态MLP最核心的部分,调整递归更新后的噪声时空特征
Figure 689665DEST_PATH_IMAGE010
的特征矩阵维度大小,作为噪声声谱图图像处理流水线中的一个权重进行累加相乘,这样可以让噪声特征更全面的进行融合,具体动态投影过程如下图8所示。
将递归更新后的噪声时空特征
Figure 913973DEST_PATH_IMAGE011
作为一个权重和递归更新后的噪声声谱图特征
Figure 37787DEST_PATH_IMAGE007
经所述动态MLP进行动态投影表示为
Figure 132257DEST_PATH_IMAGE012
,Reshape表示将特征矩阵重塑为2D矩阵,函数f表示全连接层,如图8所示,进行动态投影后输出结构为:
Figure 544784DEST_PATH_IMAGE013
在本发明实施例中,如图9所示,获得增强图像特征后,将增加图像特征和噪声声谱图特征,通过快捷连接生成特征编码,包括:
S401、将所述增强图像特征通过通道增加层进行扩展,以使扩展后的增强图像特征的形状与噪声声谱图特征对齐。
S402、将扩展后的增强图像特征和所述噪声声谱图特征进行快捷连接,获得特征编码。
将增强图像特征通过通道增加层进行扩展,使扩展后的增强图像特征的形状达到与噪声声谱图特征对齐的目的,此时通过卷积神经网络,将扩展后的增强图像特征与噪声声谱图特征进行快捷连接来获得特征编码。
在本发明实施例中,RepLKNet中的快捷连接为恒等映射快捷连接(identitymapping skip connection),是由2016年微软研究院的何恺明在ResNet中提出。如图10所示,为没有恒等映射快捷连接(identity mapping skip connection)的深度网络结构,x、y是相邻两层,通过卷积层、激活函数、批量归一化处理以及下采样等处理,将这一系列处理称为权重调整层W,这个过程中产生的网络参数计算由函数
Figure 635100DEST_PATH_IMAGE014
表示,则y可以表示为:
Figure 816682DEST_PATH_IMAGE015
如图11所示,恒等映射快捷连接强行将一个输入添加到函数的输出,输出可以明确的拆分为
Figure 881721DEST_PATH_IMAGE016
和x的线性叠加,y可以表示为:
Figure 594594DEST_PATH_IMAGE017
将输出表述为输入和输入的一个非线性变换的线性叠加。它解决了深层网络梯度消失无法训练的问题。在本实施例中,输出的特征编码为y,
Figure 160704DEST_PATH_IMAGE018
通过以上方法获得的特征编码,将噪声时空特征作为噪声声谱图特征处理的一个权重进行融合,获得的特征编码不仅能反应噪声的强度特征,也能反应噪声的时空特征,可很大程度上提高噪声识别的准确性。
最后将特征编码输入模型分类器进行城市噪声分类。
根据本发明实施例提供的城市噪声识别方法,噪声识别的准确率可得到较大的提升,获得的分类结果更加的准确,可以更好的了解影响居民日常生活的声音问题,对症下药,找到精准的声学解决方案,进而提高居民的城市生活质量。
基于一种融合时空属性的实时环境噪声识别方法,本发明实施例还提供了一种融合时空属性的实时环境噪声识别系统,如图12所示,所述系统包括:
噪声图谱特征提取模块1:读取噪声音频文件,从所述噪声音频文件获取噪声声谱图,并采用卷积神经网络提取所述噪声声谱图的噪声声谱图特征。
噪声时空特征获取模块2:获取噪声时空信息,对噪声时空信息进行归一化、联合和映射处理,得到噪声时空信息映射向量;并采用动态MLP对所述噪声时空信息映射向量进行解析,获得噪声时空特征;所述噪声时空信息包括位置信息和时间信息。
多模态融合模块3:将所述噪声声谱图特征和噪声时空特征输入所述动态MLP进行多次递归及动态投影融合,获得增强图像特征。
特征编码生成模块4:根据所述增强图像特征和噪声声谱图特征,通过快捷连接生成特征编码。
噪声分类模块5:将所述特征编码输入模型分类器进行城市噪声分类。
关于一种基于融合时空属性的实时环境噪声识别系统的具体限定可以参见上述对于一种基于融合时空属性的实时环境噪声识别方法的限定,此处不再赘述。本领域普通技术人员可以意识到,结合本申请所公开的实施例描述的各个模块和步骤,能够以硬件、软件或者两者结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本实施例中基于融合时空属性的实时环境噪声识别方法、系统、计算机设备及存储介质,针对有城市噪声识别过程中识别效果差、精度低的问题。将噪声时空信息经过相关处理后获得噪声时空特征,并将噪声时空特征作为一个权重和噪声声谱图特征通过动态MLP进行动态投影融合,获得增强图像特征,最后将增强图像特征和噪声声谱图特征通过卷积神经网络的快捷连接生成特征编码,将特征编码输入模型分类器即可对城市噪声进行分类。噪声时空特征的引入可较大程度的的提升噪声识别的准确性,可以更好的了解影响居民日常生活的声音问题,对症下药,找到精准的声学解决方案,进而提高居民的城市生活质量。
如图13所示,本发明实施例提供的一种计算机设备,包括存储器、处理器和收发器,它们之间通过总线连接;存储器用于存储一组计算机程序指令和数据,并可以将存储的数据传输给处理器,处理器可以执行存储器存储的程序指令,以执行上述基于融合时空属性的实时环境噪声识别方法的步骤。
其中,存储器可以包括易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者;处理器可以是中央处理器、微处理器、特定应用集成电路、可编程逻辑器件或其组合。通过示例性但不是限制性说明,上述可编程逻辑器件可以是复杂可编程逻辑器件、现场可编程逻辑门阵列、通用阵列逻辑或其任意组合。
另外,存储器可以是物理上独立的单元,也可以与处理器集成在一起。
本领域普通技术人员可以理解,图13中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有相同的部件布置。
本发明实施例还提供一种可读存储介质,其中存储有处理器可执行的计算机程序,所述处理器可执行的计算机程序在由处理器执行时用于执行所述的基于融合时空属性的实时环境噪声识别方法。
在一个实施例中,提供了一种计算机可读存储介质,所述存储介质用于存储一个或多个计算机程序,所述一个或多个计算机程序包括程序代码,当所述计算机程序在计算机上运行时,所述程序代码用于执行上述基于融合时空属性的实时环境噪声识别方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如SSD)等。
本发明提供一种融合时空属性的实时环境噪声识别方法、系统、计算机设备及存储介质,针对现有城市噪声识别过程中识别效果差、精度低的问题。通过将噪声时空信息经过相关处理后获得噪声时空特征,并将噪声时空特征作为一个权重和噪声声谱图特征通过动态MLP进行动态投影融合,获得增强图像特征,最后将增强图像特征和噪声声谱图特征通过卷积神经网络的快捷连接生成特征编码,将特征编码输入模型分类器即可对城市噪声进行分类。噪声时空特征的引入可较大的特征噪声识别的准确性,可以更好的了解影响居民日常生活的声音问题,对症下药,找到精准的声学解决方案,进而提高居民的城市生活质量。
本领域技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。
以上所述实施例仅表达了本申请的几种优选实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本申请的保护范围。因此,本申请专利的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种融合时空属性的实时环境噪声识别方法,其特征在于,所述方法包括:
读取噪声音频文件,从所述噪声音频文件获取噪声声谱图,并采用卷积神经网络提取所述噪声声谱图的噪声声谱图特征;
获取噪声时空信息,对噪声时空信息进行归一化、联合和映射处理,得到噪声时空信息映射向量;并采用动态MLP对所述噪声时空信息映射向量进行解析,获得噪声时空特征;所述噪声时空信息包括位置信息和时间信息;
将所述噪声声谱图特征和噪声时空特征输入动态MLP进行多次递归及动态投影融合,获得增强图像特征;
根据所述增强图像特征和噪声声谱图特征,通过快捷连接生成特征编码;
将所述特征编码输入模型分类器进行城市噪声分类,得到分类结果。
2.如权利要求1所述的融合时空属性的实时环境噪声识别方法,其特征在于,所述将所述噪声声谱图特征和噪声时空特征输入所述动态MLP进行多次递归及动态投影融合,获得增强图像特征,包括:
将所述噪声声谱图特征进行压缩;
将压缩后的噪声声谱图特征经动态MLP递归更新,更新次数为n,所述n为预先设定的超参数;
将所述噪声时空特征经动态MLP递归更新,更新次数为n,所述n为预先设定的超参数;
将递归更新后的噪声时空特征作为一个权重和更新后的噪声声谱图特征经动态MLP进行动态投影,获得增强图像特征。
3.如权利要求2所述的融合时空属性的实时环境噪声识别方法,其特征在于,所述将递归更新后的噪声时空特征作为一个权重和更新后的噪声声谱图特征经动态MLP进行动态投影,获得增强图像特征,包括:
将所述递归更新后的噪声时空特征转化为噪声时空特征矩阵,调整所述噪声时空特征矩阵的维度大小,将所述噪声时空特征矩阵重塑为2D矩阵;
将所述2D矩阵和递归更新后的噪声声谱图特征经动态MLP进行动态投影,输出增强图像特征。
4.如权利要求1所述的融合时空属性的实时环境噪声识别方法,其特征在于,所述读取噪声音频文件,从所述噪声音频文件获得噪声声谱图,包括:
读取噪声音频文件,通过Python的音频处理库librosa,提取所述噪声音频文件的Log-Mel Spectrogram 特征,获取噪声声谱图。
5.如权利要求1所述的融合时空属性的实时环境噪声识别方法,其特征在于,所述获取噪声时空信息,对噪声时空信息进行归一化、联合和映射处理,得到噪声时空信息映射向量,包括:
采集噪声时空信息;
将所述噪声时空信息进行归一化处理,获取归一化噪声时空信息;
将所述归一化噪声时空信息联合,获取噪声时空信息向量;
将所述噪声时空信息向量进行映射处理,获得噪声时空信息映射向量。
6.如权利要求1所述的融合时空属性的实时环境噪声识别方法,其特征在于,所述根据所述增强图像特征和噪声声谱图特征,通过快捷连接生成特征编码,包括:
将所述增强图像特征通过通道增加层进行扩展,以使扩展后的增强图像特征的形状与噪声声谱图特征对齐;
将扩展后的增强图像特征和所述噪声声谱图特征进行快捷连接,获得特征编码。
7.如权利要求1所述的融合时空属性的实时环境噪声识别方法,其特征在于,所述卷积神经网络为RepLKNet。
8.一种融合时空属性的实时环境噪声识别系统,其特征在于,所述系统包括:
噪声声谱图特征提取模块:读取噪声音频文件,从所述噪声音频文件获取噪声声谱图,并采用卷积神经网络提取所述噪声声谱图的噪声声谱图特征;
噪声时空特征获取模块:获取噪声时空信息,对噪声时空信息进行归一化、联合和映射处理,得到噪声时空信息映射向量;并采用动态MLP对所述噪声时空信息映射向量进行解析,获得噪声时空特征;所述噪声时空信息包括位置信息和时间信息;
多模态融合模块:将所述噪声声谱图特征和噪声时空特征输入动态MLP进行多次递归及动态投影融合,获得增强图像特征;
特征编码生成模块:根据所述增强图像特征和噪声声谱图特征,通过快捷连接生成特征编码;
噪声分类模块:将所述特征编码输入模型分类器进行城市噪声分类,得到分类结果。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一所述方法的步骤。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质中存储有计算机程序,当所述计算机程序被运行时,实现如权利要求1至7任一项所述的方法。
CN202211003265.8A 2022-08-22 2022-08-22 一种融合时空属性的实时环境噪声识别方法、系统及设备 Active CN115083394B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211003265.8A CN115083394B (zh) 2022-08-22 2022-08-22 一种融合时空属性的实时环境噪声识别方法、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211003265.8A CN115083394B (zh) 2022-08-22 2022-08-22 一种融合时空属性的实时环境噪声识别方法、系统及设备

Publications (2)

Publication Number Publication Date
CN115083394A CN115083394A (zh) 2022-09-20
CN115083394B true CN115083394B (zh) 2022-11-08

Family

ID=83245066

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211003265.8A Active CN115083394B (zh) 2022-08-22 2022-08-22 一种融合时空属性的实时环境噪声识别方法、系统及设备

Country Status (1)

Country Link
CN (1) CN115083394B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115235614A (zh) * 2022-09-23 2022-10-25 广州声博士声学技术有限公司 一种城市环境噪声实时监测方法、系统、设备及存储介质
CN115579127B (zh) * 2022-10-08 2023-11-21 中南大学 一种构建慢阻肺预测模型的方法、系统、设备及存储介质
CN117727298B (zh) * 2024-02-09 2024-04-19 广州紫麦科技有限公司 基于深度学习的手提电脑语音识别方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106297779A (zh) * 2016-07-28 2017-01-04 块互动(北京)科技有限公司 一种基于位置信息的背景噪声消除方法及装置
US10909847B1 (en) * 2018-09-19 2021-02-02 All Turtles Corporation Building urban area noise pollution maps and mitigating noise from emergency vehicles
CN114550711A (zh) * 2022-01-04 2022-05-27 华南理工大学 基于时频注意力网络模型的电缆周边环境声音识别方法
CN114724549A (zh) * 2022-06-09 2022-07-08 广州声博士声学技术有限公司 一种面向环境噪声的智能识别方法、装置、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8374854B2 (en) * 2008-03-28 2013-02-12 Southern Methodist University Spatio-temporal speech enhancement technique based on generalized eigenvalue decomposition
US9530408B2 (en) * 2014-10-31 2016-12-27 At&T Intellectual Property I, L.P. Acoustic environment recognizer for optimal speech processing

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106297779A (zh) * 2016-07-28 2017-01-04 块互动(北京)科技有限公司 一种基于位置信息的背景噪声消除方法及装置
US10909847B1 (en) * 2018-09-19 2021-02-02 All Turtles Corporation Building urban area noise pollution maps and mitigating noise from emergency vehicles
CN114550711A (zh) * 2022-01-04 2022-05-27 华南理工大学 基于时频注意力网络模型的电缆周边环境声音识别方法
CN114724549A (zh) * 2022-06-09 2022-07-08 广州声博士声学技术有限公司 一种面向环境噪声的智能识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN115083394A (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
CN115083394B (zh) 一种融合时空属性的实时环境噪声识别方法、系统及设备
CN110600017B (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
CN112216271B (zh) 一种基于卷积块注意机制的视听双模态语音识别方法
CN111968679B (zh) 情感识别方法、装置、电子设备及存储介质
CN110909613A (zh) 视频人物识别方法、装置、存储介质与电子设备
CN112492343A (zh) 一种视频直播监控方法及相关装置
US11532310B2 (en) System and method for recognizing user's speech
CN114127849A (zh) 语音情感识别方法和装置
CN115394287A (zh) 混合语种语音识别方法、装置、系统及存储介质
CN112992191A (zh) 语音端点检测方法、装置、电子设备及可读存储介质
CN112992155B (zh) 一种基于残差神经网络的远场语音说话人识别方法及装置
CN113160823A (zh) 基于脉冲神经网络的语音唤醒方法、装置及电子设备
Hu et al. Speech emotion recognition based on attention mcnn combined with gender information
CN116844567A (zh) 一种基于多特征重建融合的深度合成音频检测方法及系统
CN117037772A (zh) 语音音频分割方法、装置、计算机设备、存储介质
CN116645956A (zh) 语音合成方法、语音合成系统、电子设备及存储介质
CN115101075B (zh) 一种语音识别的方法以及相关装置
CN115620749A (zh) 基于人工智能的预训练优化方法、装置、设备及介质
CN112951270B (zh) 语音流利度检测的方法、装置和电子设备
CN114360507A (zh) 基于跨层连接注意力的语音识别网络、方法、设备及介质
CN113571085A (zh) 语音分离方法、系统、装置和存储介质
CN111898452A (zh) 一种视频监控联网系统
CN117688344B (zh) 一种基于大模型的多模态细粒度倾向分析方法及系统
CN112820274B (zh) 一种语音信息识别校正方法和系统
CN116580725A (zh) 一种语音端点检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant