CN114724549A - 一种面向环境噪声的智能识别方法、装置、设备及存储介质 - Google Patents
一种面向环境噪声的智能识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114724549A CN114724549A CN202210643419.3A CN202210643419A CN114724549A CN 114724549 A CN114724549 A CN 114724549A CN 202210643419 A CN202210643419 A CN 202210643419A CN 114724549 A CN114724549 A CN 114724549A
- Authority
- CN
- China
- Prior art keywords
- features
- training
- neural network
- stage
- convolutional neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000007613 environmental effect Effects 0.000 title claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 128
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 114
- 230000004927 fusion Effects 0.000 claims abstract description 61
- 238000011176 pooling Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 2
- 239000011159 matrix material Substances 0.000 description 10
- 230000006870 function Effects 0.000 description 7
- 230000000750 progressive effect Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请涉及音频识别技术领域,公开了一种面向环境噪声的智能识别方法、装置、设备及存储介质,其方法包括获取噪声音频文件,并转换为频谱图输出;将频谱图输入卷积神经网络中,卷积神经网络被划分为至少2个阶段,并分阶段按不同比例提取频谱图的特征;在卷积神经网络中为每一个阶段提取的特征施加监督信号进行训练;把每一个阶段参与训练的所有特征进行融合,得到融合特征;将融合特征输入分类器,并根据分类器的输出结果和监督信号,调整融合特征再输入分类器进行学习,直至分类器的输出结果的精度达到预设值;基于精度达到预设值的分类器对环境噪声进行识别。本申请可以达到使声音数据样本更具代表性,提高模型识别精度的效果。
Description
技术领域
本申请涉及音频识别技术领域,尤其是涉及一种面向环境噪声的智能识别方法、装置、设备及存储介质。
背景技术
随着城市化进程的发展,噪声污染日益严重,成为影响城市居民身体健康和生活质量的重要环境因素。最新的研究结果表明,人们对声音的舒适度不仅取决于噪音的分贝数,还取决于噪声源。典型的城市噪声,如铁路、公路、飞机的交通噪声,邻里之间的噪声和工业噪声等,对人体健康和生活质量具有不同的影响。
噪声识别的研究和声音识别的研究相同,有语音信号识别和非语音信号识别两个方向。目前,对于噪声测量的主流方法是基于平均时间内加权声压的测量,其中忽略了噪声源信息。机器听觉算法的研究对象主要包括语音和音乐,一般分为特征提取与分类识别两个部分,特征提取部分的作用是获取声信号中能够表征其主要信息的参数,分类识别则利用提取出来的特征,建立机器学习的模型,进行训练和获得噪声分类模型,但机器听觉算法对于噪声分类的相关研究还比较有限。虽然人耳可以十分熟练地辨别各种噪声的种类,分析噪声是否对身体有害,辨别噪声的来源以采取有效措施来避免,但是要想让机器听觉算法来达到这些目的却很不容易。
现有的在声信号分类识别中,主要是基于卷积神经网络(CNN)模型和方法,将声学信号直接转化成对声谱图,利用图像识别的方法进行噪声识别,但是面向声谱图的识别方法没有考虑多尺度和多层特征融合问题,影响了识别精度。
针对上述中的相关技术,发明人发现现有的机器听觉算法在识别时没有考虑多尺度和多层级的特征,存在有声音数据样本代表性差,导致模型识别精度较差的问题。
发明内容
为了使声音数据样本更具代表性,提高模型的识别精度,本申请提供了一种面向环境噪声的智能识别方法、装置、设备及存储介质。
第一方面,本申请提供一种面向环境噪声的智能识别方法,具有使声音数据样本更具代表性,提高模型识别精度的特点。
本申请是通过以下技术方案得以实现的:
一种面向环境噪声的智能识别方法,包括以下步骤,
获取噪声音频文件,并转换为频谱图输出;
将所述频谱图输入卷积神经网络中,所述卷积神经网络被划分为至少2个阶段,并分阶段按不同比例提取所述频谱图的特征;
在所述卷积神经网络中为每一个阶段提取的特征施加监督信号进行训练;
把每一个阶段参与训练的所有特征进行融合,得到融合特征;
将所述融合特征输入分类器,并根据所述分类器的输出结果和监督信号,调整所述融合特征再输入所述分类器进行学习,直至所述分类器的输出结果的精度达到预设值;
基于精度达到预设值的所述分类器对环境噪声进行识别。
本申请在一较佳示例中可以进一步配置为:所述把每一个阶段参与训练的所有特征进行融合,得到融合特征的步骤包括,
将每一个阶段参与训练的所有特征进行拉伸;
对拉伸后的每一个阶段的所有特征进行拼接,得到融合特征。
本申请在一较佳示例中可以进一步配置为:所述把每一个阶段参与训练的所有特征进行融合,得到融合特征的步骤包括,
采用克罗内克乘积,使每一个阶段参与训练的所有特征依次进行克罗内克相乘,得到融合特征。
本申请在一较佳示例中可以进一步配置为:在所述卷积神经网络中为每一个阶段提取的特征施加监督信号进行训练之前,还包括以下步骤,
基于所述卷积神经网络使分阶段提取的特征均映射成同一通道数量的特征,所述卷积神经网络包括一个1x1的卷积层和一个3x3的卷积层;
对映射成同一通道数量的所述特征进行池化处理。
本申请在一较佳示例中可以进一步配置为:所述池化处理采用最大池化处理方式。
本申请在一较佳示例中可以进一步配置为:所述获取噪声音频文件,并转换为频谱图输出的步骤包括,
使用Python的音频处理库从所述噪声音频文件中提取音频特征;
并将提取的所述音频特征转换为频谱图输出。
本申请在一较佳示例中可以进一步配置为:在所述卷积神经网络中为每一个阶段提取的特征施加监督信号进行训练还包括以下步骤,
在所述卷积神经网络中对当前阶段提取的特征进行训练;
当前阶段提取的特征训练完成后,基于训练结果调整所述卷积神经网络下一次训练的训练权重;
基于所述训练权重,在所述卷积神经网络中对下一阶段提取的特征进行训练,并基于训练结果调整训练权重,直至完成所有阶段提取的特征的训练。
第二方面,本申请提供一种面向环境噪声的智能识别装置,具有使声音数据样本更具代表性,提高模型识别精度的特点。
本申请是通过以下技术方案得以实现的:
一种面向环境噪声的智能识别装置,包括,
数据模块,用于获取噪声音频文件,并转换为频谱图输出;
特征提取模块,用于将所述频谱图输入卷积神经网络中,所述卷积神经网络被划分为至少2个阶段,并分阶段按不同比例提取所述频谱图的特征;
特征训练模块,用于在所述卷积神经网络中为每一个阶段提取的特征施加监督信号进行训练;
特征融合模块,用于把每一个阶段参与训练的所有特征进行融合,得到融合特征;
建模模块,用于将所述融合特征输入分类器,并根据所述分类器的输出结果和监督信号,调整所述融合特征再输入所述分类器进行学习,直至所述分类器的输出结果的精度达到预设值;
噪声识别模块,用于基于精度达到预设值的所述分类器对环境噪声进行识别。
第三方面,本申请提供一种计算机设备,具有使声音数据样本更具代表性,提高模型识别精度的特点。
本申请是通过以下技术方案得以实现的:
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意一种面向环境噪声的智能识别方法的步骤。
第四方面,本申请提供一种计算机可读存储介质,具有使声音数据样本更具代表性,提高模型识别精度的特点。
本申请是通过以下技术方案得以实现的:
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一种面向环境噪声的智能识别方法的步骤。
综上所述,与现有技术相比,本申请提供的技术方案带来的有益效果至少包括:
1、获取噪声音频文件,并转换为频谱图输出,以方便后续基于图像进行声信号特征提取;将频谱图输入卷积神经网络中,卷积神经网络被划分为至少2个阶段,并分阶段按不同比例提取频谱图的特征,分阶段后卷积神经网络具有不同的学习能力,以利用不同学习能力的卷积神经网络提取得到的不同比例的特征,可以由浅入深学习到频谱图不同层次的特征,获得多尺度的特征,以通过渐进式学习,提升卷积神经网络的整体学习能力;在卷积神经网络中为每一个阶段提取的特征施加监督信号进行训练,再把每一个阶段参与训练的所有特征进行融合,得到融合特征,融合特征既包含低阶段的公共特征,又包含高层次的全局特征,以获得多层级的特征,实现提取特征的利用率最大化;将融合特征输入分类器,并根据分类器的输出结果和监督信号,调整融合特征再输入分类器进行学习,直至分类器的输出结果的精度达到预设值,获得该分类器用于对环境噪声进行识别,以提升噪音分类的精度,进而一种面向环境噪声的智能识别方法通过提取多尺度和多层级的样本特征,使声音数据样本更具代表性,以在模型训练时考虑不同层次和颗粒度的样本特征,提高了分类器的噪音识别精度;
2、将每一个阶段参与训练的所有特征进行拉伸,再对拉伸后的每一个阶段的所有特征进行拼接得到融合特征,融合结果准确性高,无需进行复杂的中间处理和大量的数据计算,减少中间误差,同时,设计方式更简单;
3、采用克罗内克乘积,使每一个阶段参与训练的所有特征依次进行克罗内克相乘以得到融合特征,因得到的融合特征包含了两两交互的信息,使得形成的融合特征更加精细和完整,有利于生成更多有用的样本信息,益于后续的分类器学习;
4、基于卷积神经网络使分阶段提取的特征均映射成同一通道数量的特征,以保证特征的通道维度的一致性,进而利于特征在后续的池化处理中更加统一,使得池化处理效率更高;
5、采用最大池化处理提取的特征,以减小因卷积神经网络中的卷积层参数误差造成的估计均值的偏移,使得提取的特征能保留更多的纹理信息,使声音数据样本更具代表性,利于后续分类器的学习和提高模型的识别精度;
6、在卷积神经网络中对当前阶段提取的特征进行训练,且在当前阶段提取的特征训练完成后,基于训练结果调整卷积神经网络下一次训练的训练权重,以基于训练权重在卷积神经网络中对下一阶段提取的特征进行训练,进而对每一个阶段提取的特征的训练是串行的,每一阶段的特征训练能为下一阶段的特征训练提供更好的模型权重,使得训练的结果更精准。
附图说明
图1为本申请一个示例性实施例提供的一种面向环境噪声的智能识别方法的流程示意图。
图2为本申请又一个示例性实施例提供的一种面向环境噪声的智能识别方法的提取的特征的训练流程图。
图3为本申请一个示例性实施例提供的一种面向环境噪声的智能识别方法的卷积神经网络的结构图。
图4为本申请又一个示例性实施例提供的一种面向环境噪声的智能识别方法的训练示意图。
图5为本申请另一个示例性实施例提供的一种面向环境噪声的智能识别装置的结构框图。
具体实施方式
本具体实施例仅仅是对本申请的解释,其并不是对本申请的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本申请的权利要求范围内都受到专利法的保护。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,如无特殊说明,一般表示前后关联对象是一种“或”的关系。
下面结合说明书附图对本申请实施例作进一步详细描述。
参照图1,本申请实施例提供一种面向环境噪声的智能识别方法,所述方法的主要步骤描述如下。
S1:获取噪声音频文件,并转换为频谱图输出;
S2:将频谱图输入卷积神经网络中,卷积神经网络被划分为至少2个阶段,并分阶段按不同比例提取频谱图的特征;
S3:在卷积神经网络中为每一个阶段提取的特征施加监督信号进行训练;
S4:把每一个阶段参与训练的所有特征进行融合,得到融合特征;
S5:将融合特征输入分类器,并根据分类器的输出结果和监督信号,调整融合特征再输入分类器进行学习,直至分类器的输出结果的精度达到预设值;
S6:基于精度达到预设值的分类器对环境噪声进行识别。
参照图2,进一步地,S3:在卷积神经网络中为每一个阶段提取的特征施加监督信号进行训练还包括以下步骤,
S31:在卷积神经网络中对当前阶段提取的特征进行训练;
S32:当前阶段提取的特征训练完成后,基于训练结果调整卷积神经网络下一次训练的训练权重;
S33:基于训练权重,在卷积神经网络中对下一阶段提取的特征进行训练,并基于训练结果调整训练权重,直至完成所有阶段提取的特征的训练。
进一步地,S4:把每一个阶段参与训练的所有特征进行融合,得到融合特征的步骤包括,
将每一个阶段参与训练的所有特征进行拉伸;
对拉伸后的每一个阶段的所有特征进行拼接,得到融合特征;
或者,S4:把每一个阶段参与训练的所有特征进行融合,得到融合特征的步骤包括,
采用克罗内克乘积,使每一个阶段参与训练的所有特征依次进行克罗内克相乘,得到融合特征。
进一步地,在卷积神经网络中为每一个阶段提取的特征施加监督信号进行训练之前,还包括以下步骤,
基于卷积神经网络使分阶段提取的特征均映射成同一通道数量的特征,卷积神经网络包括一个1x1的卷积层和一个3x3的卷积层;
对映射成同一通道数量的特征进行池化处理。
进一步地,池化处理采用最大池化处理方式。
进一步地,获取噪声音频文件,并转换为频谱图输出的步骤包括,
使用Python的音频处理库从噪声音频文件中提取音频特征;
并将提取的音频特征转换为频谱图输出。
上述各个实施例的详细介绍如下。
参照图3和图4,获取噪声音频文件,使用Python的音频处理库librosa提取噪声音频文件中的Log-MelSpectrogram特征,Log-MelSpectrogram特征包含时域信息、振幅信息和频域信息,使得音频样本更具代表性,音频处理库librosa自带显示频谱图波形的函数specshow(),通过调用函数specshow(),将噪声音频文件转换为频谱图输出。
将频谱图批量输入卷积神经网络中。
本实施例中,卷积神经网络采用CNN卷积神经网络,CNN卷积神经网络的结构如图3所示。
首先,CNN卷积神经网络被划分为至少2个阶段,以分阶段进行渐进式学习,将CNN卷积神经网络划分为:Stage1-StageN共N个阶段,本实施例中,N可以为4,并分阶段按不同比例提取频谱图的特征。本实施例中,基于CNN卷积神经网络的卷积核提取频谱图的特征。在浅层阶段,低阶CNN卷积神经网络主要学习频谱图中的纹理、边框等公共特征;随后,在深层阶段,高阶CNN卷积神经网络因为卷积感受野的增加,逐渐把注意力集中到学习全局的特征。
不同阶段的CNN卷积神经网络均包括Smooth Conv卷积层和Classifier分类层,其中,Smooth Conv卷积层包括一个1x1的卷积层和一个3x3的卷积层,Classifier分类层由简单的两层全连接层组成,以用于输出噪音类别的数量。
Smooth Conv卷积层把不同阶段的CNN卷积神经网络提取的不同通道数量的频谱图的特征映射成统一通道数量的频谱图的特征。例如,不同阶段的CNN卷积神经网络提取的特征的通道数量分别为512、1024和2048,通过Smooth Conv卷积层,则将不同通道数量的频谱图的特征映射成统一的通道数量为512的特征,以保证特征的通道维度的一致性,进而利于特征在后续的池化处理中更加统一,使得池化处理效率更高。
接着,对映射成同一通道数量的特征进行池化处理,本实施例中,池化处理采用Max Pooling最大池化处理方式作为特征压缩的手段,相比于视觉任务中采用的AvgPooling平均池化处理方式,能够减小因Smooth Conv卷积层的参数误差造成的估计均值的偏移,使得提取的特征能保留更多的纹理信息,更适合频谱图类的细粒度识别任务。
继而,再将最大池化处理后的特征输入Classifier分类层中,以输出噪音类别的数量,例如,将最大池化处理后的特征x1、x2和x3分别输入对应的Classifier1分类层、Classifier2分类层和Classifier3分类层中,以分别输出噪音类别的数量,逐阶段提取特征进行分类。
下一步,为每一个阶段的CNN卷积神经网络提取的特征施加监督信号进行训练,监督信号如图中的噪声分类标签、噪声分类标签、噪声分类标签和噪声分类标签所示,结合各个阶段的基于交叉熵的损失函数,以训练得到对应的训练特征。为每一个阶段的CNN卷积神经网络提取的特征施加监督信号进行训练,相比于传统的仅在最深层的CNN卷积神经网络,如图的StageN施加监督信号进行训练,不会缺失低层次的特征信息,也不容易受到全局噪声的扰动,识别的结果更稳定。同时,在同样的监督信号下,因每个阶段的CNN卷积神经网络的学习能力不一样,可以由浅入深地学习到频谱图的不同层次的特征,实现渐进式学习,利用分阶段渐进式学习可以提取不同层次和颗粒度的特征,以提升CNN卷积神经网络的整体学习能力。
进一步地,为每一个阶段的CNN卷积神经网络提取的特征施加监督信号进行训练时,对每一个阶段的CNN卷积神经网络提取的特征的训练是串行的,即在卷积神经网络中对当前阶段提取的特征进行训练,且在当前阶段提取的特征训练完成后,基于训练结果人为调整卷积神经网络下一次训练的训练权重,以采用超参数手工设定方式调整权重值,或者,借鉴attention机制,采用BP算法进行机器学习,自动调整卷积神经网络下一次训练的训练权重;再基于训练权重,在卷积神经网络中对下一阶段提取的特征进行训练,并基于训练结果重新调整训练权重,直至完成所有阶段提取的特征的训练。通过在CNN卷积神经网络上进行阶段划分,并依次对每一个阶段提取的特征单独施加监督信号进行训练,以在下一阶段的CNN卷积神经网络提取的特征进行训练时提供更好的模型权重,反向传播更新参数。
接着,把每一个阶段参与训练的所有特征进行融合,得到融合特征,以作为噪声分类的依据,融合多阶段特征对频谱图进行分类。相比于仅用最深层阶段训练得到的特征作为分类依据,融合特征能够具有更多低阶段的细粒度特征信息,融合特征既包含低阶段的公共特征,又包含高层次的全局特征,以在达到特征利用率最大化的同时,利于提升后续模型的分类精度。
进一步地,把每一个阶段参与训练的所有特征进行融合,得到融合特征的步骤包括,
将每一个阶段参与训练的所有特征进行拉伸;
对拉伸后的每一个阶段的所有特征进行拼接,得到融合特征。
使用上述拼接融合方式,无需进行复杂的中间处理和大量的数据计算,减少了中间误差,同时,设计方式更简单。
或者,采用克罗内克乘积,使每一个阶段参与训练的所有特征依次进行克罗内克相乘,得到融合特征,具体地:
假设有三个阶段,将第一个阶段的神经网络参与训练的mn的特征矩阵中的每个元素分别与第二个阶段的神经网络参与训练的pq的特征矩阵相乘,得到一个大小为mpnq的特征矩阵,再将得到的mpnq的特征矩阵中的每个元素分别与第三个阶段的神经网络参与训练的st的特征矩阵相乘,得到一个大小为mpsnqt的融合特征矩阵。
采用上述克罗内克乘积融合方式,把CNN卷积神经网络的各个学习阶段提取到的各个特征进行克罗内克相乘,以得到一个更大的融合特征矩阵,将获得的融合特征矩阵进行拉伸后再输入后续的分类器。因得到的融合特征包含了两两交互的信息,使得形成的融合特征更加精细和完整,有利于生成更多有用的样本信息,益于后续的分类器学习。
最后,将融合特征输入Classifier4分类器,结合监督信号和训练权重进行训练,再根据Classifier4分类器的基于交叉熵的损失函数和监督信号,基于输出结果和标签的差异,利用BP算法进行学习,不断调整融合特征,即不断调整各个阶段参与训练的特征,再将调整的融合特征输入Classifier4分类器进行学习,反向传播更新参数,使得Classifier4分类器的输出结果更精准,直至Classifier4分类器的输出结果的精度达到预设值,获得训练好的Classifier4分类器,基于训练好的Classifier4分类器对环境噪声进行识别。
综上所述,一种面向环境噪声的智能识别方法通过获取噪声音频文件,并转换为频谱图输出,以方便后续基于图像进行声信号特征提取;将频谱图输入卷积神经网络中,卷积神经网络被划分为至少2个阶段,并分阶段按不同比例提取频谱图的特征,分阶段后卷积神经网络具有不同的学习能力,以利用不同学习能力的卷积神经网络提取得到的不同比例的特征,可以由浅入深学习到频谱图不同层次的特征,获得多尺度的特征,以通过渐进式学习,提升卷积神经网络的整体学习能力;在卷积神经网络中为每一个阶段提取的特征施加监督信号进行训练,再把每一个阶段参与训练的所有特征进行融合,得到融合特征,融合特征既包含低阶段的公共特征,又包含高层次的全局特征,以获得多层级的特征,实现提取特征的利用率最大化;将融合特征输入分类器,并根据分类器的输出结果和监督信号,调整融合特征再输入分类器进行学习,直至分类器的输出结果的精度达到预设值,获得该分类器用于对环境噪声进行识别,以提升噪音分类的精度,进而一种面向环境噪声的智能识别方法通过提取多尺度和多层级的样本特征,使声音数据样本更具代表性,以在模型训练时考虑不同层次和颗粒度的样本特征,提高了分类器的噪音识别精度。
本申请根据频谱图分类依据细粒度差异的特点,引入了一种渐进式训练方法。该渐进式训练通过划分不同阶段,逐步捕获不同尺度和不同层级的特征,每阶段的训练都为下阶段的训练做好准备。同时,样本数据采取了多尺度和多层级融合的方法,融合不同阶段的特征,增加了特征的鲁棒性和多样性,能够有效抗干扰和提升分类精度。本申请是非一次性的全局训练,训练成本较低,在各大流行的CNN卷积神经网络上均可适用,是一种即插即用的训练手段,使用灵活,能够满足各种不同场景的实际需要。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
参照图5,本申请实施例还提供一种面向环境噪声的智能识别装置,该一种面向环境噪声的智能识别装置与上述实施例中一种面向环境噪声的智能识别方法一一对应。该一种面向环境噪声的智能识别装置包括,
样本模块,用于获取噪声音频文件,并转换为频谱图输出;
特征提取模块,用于将频谱图输入卷积神经网络中,卷积神经网络被划分为至少2个阶段,并分阶段按不同比例提取频谱图的特征;
特征训练模块,用于在卷积神经网络中为每一个阶段提取的特征施加监督信号进行训练;
特征融合模块,用于把每一个阶段参与训练的所有特征进行融合,得到融合特征;
建模模块,用于将融合特征输入分类器,并根据分类器的输出结果和监督信号,调整融合特征再输入分类器进行学习,直至分类器的输出结果的精度达到预设值;
噪声识别模块,用于基于精度达到预设值的分类器对环境噪声进行识别。
其中,特征融合模块包括,
第一融合单元,用于将每一个阶段参与训练的所有特征进行拉伸,对拉伸后的每一个阶段的所有特征进行拼接,得到融合特征;
第二融合单元,用于采用克罗内克乘积,使每一个阶段参与训练的所有特征依次进行克罗内克相乘,得到融合特征。
一种面向环境噪声的智能识别装置还包括,
特征处理模块,连接于特征提取模块的输出端和特征训练模块的输入端之间,用于基于卷积神经网络使分阶段提取的特征均映射成同一通道数量的特征,对映射成同一通道数量的特征进行最大池化处理。
关于一种面向环境噪声的智能识别装置的具体限定可以参见上文中对于一种面向环境噪声的智能识别方法的限定,在此不再赘述。上述一种面向环境噪声的智能识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述任意一种面向环境噪声的智能识别方法。
在一个实施例中,提供了一种计算机可读存储介质,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
S1:获取噪声音频文件,并转换为频谱图输出;
S2:将频谱图输入卷积神经网络中,卷积神经网络被划分为至少2个阶段,并分阶段按不同比例提取频谱图的特征;
S3:在卷积神经网络中为每一个阶段提取的特征施加监督信号进行训练;
S4:把每一个阶段参与训练的所有特征进行融合,得到融合特征;
S5:将融合特征输入分类器,并根据分类器的输出结果和监督信号,调整融合特征再输入分类器进行学习,直至分类器的输出结果的精度达到预设值;
S6:基于精度达到预设值的分类器对环境噪声进行识别。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述系统的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
Claims (10)
1.一种面向环境噪声的智能识别方法,其特征在于,包括以下步骤,
获取噪声音频文件,并转换为频谱图输出;
将所述频谱图输入卷积神经网络中,所述卷积神经网络被划分为至少2个阶段,并分阶段按不同比例提取所述频谱图的特征;
在所述卷积神经网络中为每一个阶段提取的特征施加监督信号进行训练;
把每一个阶段参与训练的所有特征进行融合,得到融合特征;
将所述融合特征输入分类器,并根据所述分类器的输出结果和监督信号,调整所述融合特征再输入所述分类器进行学习,直至所述分类器的输出结果的精度达到预设值;
基于精度达到预设值的所述分类器对环境噪声进行识别。
2.根据权利要求1所述的面向环境噪声的智能识别方法,其特征在于,所述把每一个阶段参与训练的所有特征进行融合,得到融合特征的步骤包括,
将每一个阶段参与训练的所有特征进行拉伸;
对拉伸后的每一个阶段的所有特征进行拼接,得到融合特征。
3.根据权利要求1所述的面向环境噪声的智能识别方法,其特征在于,所述把每一个阶段参与训练的所有特征进行融合,得到融合特征的步骤包括,
采用克罗内克乘积,使每一个阶段参与训练的所有特征依次进行克罗内克相乘,得到融合特征。
4.根据权利要求1所述的面向环境噪声的智能识别方法,其特征在于,在所述卷积神经网络中为每一个阶段提取的特征施加监督信号进行训练之前,还包括以下步骤,
基于所述卷积神经网络使分阶段提取的特征均映射成同一通道数量的特征,所述卷积神经网络包括一个1x1的卷积层和一个3x3的卷积层;
对映射成同一通道数量的所述特征进行池化处理。
5.根据权利要求4所述的面向环境噪声的智能识别方法,其特征在于,所述池化处理采用最大池化处理方式。
6.根据权利要求1所述的面向环境噪声的智能识别方法,其特征在于,所述获取噪声音频文件,并转换为频谱图输出的步骤包括,
使用Python的音频处理库从所述噪声音频文件中提取音频特征;
并将提取的所述音频特征转换为频谱图输出。
7.根据权利要求1-6任意一项所述的面向环境噪声的智能识别方法,其特征在于,在所述卷积神经网络中为每一个阶段提取的特征施加监督信号进行训练还包括以下步骤,
在所述卷积神经网络中对当前阶段提取的特征进行训练;
当前阶段提取的特征训练完成后,基于训练结果调整所述卷积神经网络下一次训练的训练权重;
基于所述训练权重,在所述卷积神经网络中对下一阶段提取的特征进行训练,并基于训练结果调整训练权重,直至完成所有阶段提取的特征的训练。
8.一种面向环境噪声的智能识别装置,其特征在于,包括,
数据模块,用于获取噪声音频文件,并转换为频谱图输出;
特征提取模块,用于将所述频谱图输入卷积神经网络中,所述卷积神经网络被划分为至少2个阶段,并分阶段按不同比例提取所述频谱图的特征;
特征训练模块,用于在所述卷积神经网络中为每一个阶段提取的特征施加监督信号进行训练;
特征融合模块,用于把每一个阶段参与训练的所有特征进行融合,得到融合特征;
建模模块,用于将所述融合特征输入分类器,并根据所述分类器的输出结果和监督信号,调整所述融合特征再输入所述分类器进行学习,直至所述分类器的输出结果的精度达到预设值;
噪声识别模块,用于基于精度达到预设值的所述分类器对环境噪声进行识别。
9.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述计算机程序以实现权利要求1至7任意一项所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至7任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210643419.3A CN114724549B (zh) | 2022-06-09 | 2022-06-09 | 一种面向环境噪声的智能识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210643419.3A CN114724549B (zh) | 2022-06-09 | 2022-06-09 | 一种面向环境噪声的智能识别方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114724549A true CN114724549A (zh) | 2022-07-08 |
CN114724549B CN114724549B (zh) | 2022-09-06 |
Family
ID=82232974
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210643419.3A Active CN114724549B (zh) | 2022-06-09 | 2022-06-09 | 一种面向环境噪声的智能识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114724549B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115083394A (zh) * | 2022-08-22 | 2022-09-20 | 广州声博士声学技术有限公司 | 一种融合时空属性的实时环境噪声识别方法、系统及设备 |
CN116400264A (zh) * | 2023-06-09 | 2023-07-07 | 广东工业大学 | 一种逆变器开路故障诊断方法和系统 |
CN116866054A (zh) * | 2023-07-25 | 2023-10-10 | 安徽百方云科技有限公司 | 公共信息安全监测系统及其方法 |
CN116912744A (zh) * | 2023-07-20 | 2023-10-20 | 湘南学院 | 基于物联网的智能监控系统及其方法 |
CN117569468A (zh) * | 2024-01-16 | 2024-02-20 | 广州声博士声学技术有限公司 | 基于室内主动降噪的隔声减振系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8239196B1 (en) * | 2011-07-28 | 2012-08-07 | Google Inc. | System and method for multi-channel multi-feature speech/noise classification for noise suppression |
US20160307582A1 (en) * | 2013-12-06 | 2016-10-20 | Tata Consultancy Services Limited | System and method to provide classification of noise data of human crowd |
CN108922560A (zh) * | 2018-05-02 | 2018-11-30 | 杭州电子科技大学 | 一种基于混合深度神经网络模型的城市噪声识别方法 |
CN109767785A (zh) * | 2019-03-06 | 2019-05-17 | 河北工业大学 | 基于卷积神经网络的环境噪声识别分类方法 |
CN110751044A (zh) * | 2019-09-19 | 2020-02-04 | 杭州电子科技大学 | 基于深度网络迁移特征与增广自编码的城市噪声识别方法 |
-
2022
- 2022-06-09 CN CN202210643419.3A patent/CN114724549B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8239196B1 (en) * | 2011-07-28 | 2012-08-07 | Google Inc. | System and method for multi-channel multi-feature speech/noise classification for noise suppression |
US20160307582A1 (en) * | 2013-12-06 | 2016-10-20 | Tata Consultancy Services Limited | System and method to provide classification of noise data of human crowd |
CN108922560A (zh) * | 2018-05-02 | 2018-11-30 | 杭州电子科技大学 | 一种基于混合深度神经网络模型的城市噪声识别方法 |
CN109767785A (zh) * | 2019-03-06 | 2019-05-17 | 河北工业大学 | 基于卷积神经网络的环境噪声识别分类方法 |
CN110751044A (zh) * | 2019-09-19 | 2020-02-04 | 杭州电子科技大学 | 基于深度网络迁移特征与增广自编码的城市噪声识别方法 |
Non-Patent Citations (1)
Title |
---|
张少康等: "《基于多类别特征融合的水声目标噪声识别分类技术》", 《西北工业大学学报》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115083394A (zh) * | 2022-08-22 | 2022-09-20 | 广州声博士声学技术有限公司 | 一种融合时空属性的实时环境噪声识别方法、系统及设备 |
CN115083394B (zh) * | 2022-08-22 | 2022-11-08 | 广州声博士声学技术有限公司 | 一种融合时空属性的实时环境噪声识别方法、系统及设备 |
CN116400264A (zh) * | 2023-06-09 | 2023-07-07 | 广东工业大学 | 一种逆变器开路故障诊断方法和系统 |
CN116400264B (zh) * | 2023-06-09 | 2023-08-18 | 广东工业大学 | 一种逆变器开路故障诊断方法和系统 |
CN116912744A (zh) * | 2023-07-20 | 2023-10-20 | 湘南学院 | 基于物联网的智能监控系统及其方法 |
CN116866054A (zh) * | 2023-07-25 | 2023-10-10 | 安徽百方云科技有限公司 | 公共信息安全监测系统及其方法 |
CN117569468A (zh) * | 2024-01-16 | 2024-02-20 | 广州声博士声学技术有限公司 | 基于室内主动降噪的隔声减振系统 |
CN117569468B (zh) * | 2024-01-16 | 2024-03-19 | 广州声博士声学技术有限公司 | 基于室内主动降噪的隔声减振系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114724549B (zh) | 2022-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114724549B (zh) | 一种面向环境噪声的智能识别方法、装置、设备及存储介质 | |
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
US11281945B1 (en) | Multimodal dimensional emotion recognition method | |
CN109740657B (zh) | 一种用于图像数据分类的神经网络模型的训练方法与设备 | |
Yang et al. | EdgeRNN: a compact speech recognition network with spatio-temporal features for edge computing | |
CN111275175B (zh) | 神经网络训练方法、装置、图像分类方法、设备和介质 | |
CN111144561B (zh) | 一种神经网络模型确定方法及装置 | |
KR20200022739A (ko) | 데이터 증강에 기초한 인식 모델 트레이닝 방법 및 장치, 이미지 인식 방법 및 장치 | |
CN110364185B (zh) | 一种基于语音数据的情绪识别方法、终端设备及介质 | |
CN111357051B (zh) | 语音情感识别方法、智能装置和计算机可读存储介质 | |
CN115083394B (zh) | 一种融合时空属性的实时环境噪声识别方法、系统及设备 | |
CN109754077B (zh) | 深度神经网络的网络模型压缩方法、装置及计算机设备 | |
CN111598213A (zh) | 网络训练方法、数据识别方法、装置、设备和介质 | |
CN111653274A (zh) | 唤醒词识别的方法、装置及存储介质 | |
CN110648669B (zh) | 多频分路声纹识别方法、装置、系统及计算机可读存储介质 | |
CN111783936B (zh) | 卷积神经网络构建方法、装置、设备及介质 | |
CN112634870B (zh) | 关键词检测方法、装置、设备和存储介质 | |
CN111898465B (zh) | 一种人脸识别模型的获取方法和装置 | |
CN115375965A (zh) | 一种目标场景识别的预处理方法、目标场景识别方法 | |
CN113345464A (zh) | 语音提取方法、系统、设备及存储介质 | |
JP2022088341A (ja) | 機器学習装置及び方法 | |
CN114153975A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN113450800A (zh) | 一种唤醒词激活概率的确定方法、装置和智能语音产品 | |
CN114765028A (zh) | 声纹识别方法、装置、终端设备及计算机可读存储介质 | |
CN115881103B (zh) | 语音情绪识别模型训练方法、语音情绪识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |