CN113990303B - 基于多分辨率空洞深度可分卷积网络的环境声音辨识方法 - Google Patents
基于多分辨率空洞深度可分卷积网络的环境声音辨识方法 Download PDFInfo
- Publication number
- CN113990303B CN113990303B CN202111178962.2A CN202111178962A CN113990303B CN 113990303 B CN113990303 B CN 113990303B CN 202111178962 A CN202111178962 A CN 202111178962A CN 113990303 B CN113990303 B CN 113990303B
- Authority
- CN
- China
- Prior art keywords
- resolution
- convolution
- depth
- module
- depth separable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000007613 environmental effect Effects 0.000 title claims abstract description 38
- 238000001228 spectrum Methods 0.000 claims abstract description 26
- 230000009466 transformation Effects 0.000 claims abstract description 8
- 238000009432 framing Methods 0.000 claims abstract description 7
- 238000012544 monitoring process Methods 0.000 claims description 20
- 238000011176 pooling Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 9
- 239000011800 void material Substances 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000013139 quantization Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 10
- 230000007547 defect Effects 0.000 description 8
- 230000004913 activation Effects 0.000 description 6
- 238000010606 normalization Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000003238 somatosensory effect Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000032683 aging Effects 0.000 description 2
- 238000013501 data transformation Methods 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明公开了一种基于多分辨率空洞深度可分卷积网络的环境声音辨识方法,包括下列步骤:首先采集环境声音音频样本;接着对音频样本进行预加重、分帧和加窗处理,再提取对数梅尔谱特征;然后将对数梅尔谱特征依次输入多分辨率空洞深度可分卷积网络的输入模块、空洞深度可分卷积模块和多分辨率深度特征模块进行特征变换与拼接,得到更具区分性的多分辨率深度特征;最后在多分辨率空洞深度可分卷积网络的输出模块对输入音频样本的多分辨率深度特征进行判决,得到环境声音类别。与基于常规卷积网络的方法相比,本发明方法运算量更小、相同网络参数规模时的感受野更大。与基于常规轻量级网络的方法相比,本发明方法的环境声音辨识精度更高。
Description
技术领域
本发明涉及音频信号处理和深度学习技术领域,具体涉及一种基于多分辨率空洞深度可分卷积网络的环境声音辨识方法。
背景技术
随着我国逐步进入重度老龄化社会,独居老人的智能监护已经成为一个严重的社会问题。目前独居老人的智能监护方法主要包括:基于视频的实时监测分析方法和基于体感设备的传感信号分析方法。这些方法存在下述不足之处。第一,视频采集设备的成本高于拾音器,并且涉及个人隐私问题,不容易被人接受。第二,视频采集设备的监测范围有限,存在监测死角且容易受到光线影响。第三,被监护人要时刻佩戴体感设备才能进行信息传感与监护,一定程度上妨碍了被监护人的正常生活,而且独居老人很容易忘记穿戴,造成漏测的情况。基于环境声音辨识的智能监护方法可以有效克服上述不足。环境声音可以全方向采集、不受光线与物体遮挡等影响,且不泄露个人隐私,不需要被监护人时刻佩戴任何体感设备,容易让人接受。因此,基于环境声音辨识的智能监护在我国即将到来的重度老龄化社会中将得到广泛应用,对于独居老人的日常护理尤为重要。
目前的环境声音辨识方法一般采用常规神经网络进行辨识判决。常规神经网络参数多、计算量大,难以移植到计算资源有限的移动端。轻量化神经网络的参数规模明显小于常规神经网络的参数规模,可以有效降低计算量和存储空间,使得网络移植到移动端成为可能。然而,现有的轻量化神经网络在环境声音辨识时,得到的准确率不高,且在数据集较小时辨识结果更差。
发明内容
本发明的目的是为了克服常规神经网络参数规模大、计算复杂度高,已有轻量化神经网络辨识性能差的问题,提供一种基于多分辨率空洞深度可分卷积网络的环境声音辨识方法。本发明将音频信号前后文的相关性利用起来,同时将三个单分辨率深度特征进行拼接得到多分辨率深度特征,设计了一种计算复杂度低,辨识性能高的环境声音辨识方法。多分辨率深度特征既保留了高分辨率的低层特征分量,又保留了低分辨率的语义信息较强的高层特征分量。本发明一方面利用多分辨率深度特征克服了低层特征语义表达能力差、噪声多的缺点,另一方面也克服了高层特征分辨率低、对细节感知能力差的不足。
为了实现更加准确的环境声音辨识,本发明可以通过采取如下技术方案达到:
一种基于多分辨率空洞深度可分卷积网络的环境声音辨识方法,所述环境声音辨识方法包括以下步骤:
S1、采集音频样本:在监控区域的预设位置放置拾音器,采集监控区域各位置的音频样本;
S2、提取对数梅尔谱特征:对采集到的音频样本进行预加重、分帧和加窗处理,通过快速傅里叶变换得到音频样本的线性频谱,经梅尔三角滤波器组和对数运算后得到音频样本的对数梅尔谱特征;
S3、搭建辨识网络:在训练阶段构建一个多分辨率空洞深度可分卷积网络作为辨识网络,其中,所述多分辨率空洞深度可分卷积网络包括依次顺序连接的输入模块、空洞深度可分卷积模块、多分辨率深度特征模块和输出模块,对输入的测试音频样本进行环境声音类别的辨识;
S4、生成多分辨率深度特征:通过多分辨率空洞深度可分卷积网络的多分辨率深度特征模块对三种单分辨率的深度特征进行拼接,得到输入音频样本的多分辨率深度特征;
S5、辨识环境声音:将输入音频样本的多分辨率深度特征输入多分辨率空洞深度可分卷积网络的输出模块进行判决,得到输入音频样本所对应的环境声音类别。
进一步地,所述步骤S1中采集音频样本的过程如下:
S1.1、将拾音器放置在监控区域的不同位置,采集对应位置的环境声音;
S1.2、设置音频样本采集的参数:采样频率为16kHz,量化精度为16bits。
进一步地,所述步骤S2中提取对数梅尔谱特征的过程如下:
S2.1、预加重:采用一个高通滤波器对采集到的音频样本进行滤波,高通滤波器的时域表达式为:y(t)=x(t)-αx(t-1),其中α为常数,取0.97;
S2.2、分帧:将经过滤波的音频样本切分成固定长度的音频帧,帧长N为256个采样点,帧移为128个采样点;
S2.3、加窗:将音频帧与汉明窗函数相乘实现加窗操作,汉明窗函数的时域表达式为:其中N为帧长;
S2.4、傅里叶变换:对加窗后的音频帧进行快速傅里叶变换,得到线性频谱,傅里叶变换定义为:其中,Xi(k)为第i帧音频xi(n)的线性频谱,M为总帧数,N为每帧帧长;
S2.5、构建梅尔三角滤波器组:将线性频率f转换为梅尔频率fmel的定义为:将梅尔三角滤波器组中的滤波器根据中心频率f(q)的大小顺序,从0到Q-1进行编号,梅尔三角滤波器的频率响应定义为:其中,f(q)表示第q个滤波器的中心频率,k表示频率,Q取23~40;
S2.6、采用梅尔三角滤波器组对上述线性频谱进行滤波再取对数,得到音频样本的对数梅尔谱特征。
进一步地,所述步骤S3中搭建辨识网络步骤如下:
S3.1、构造输入模块,所述输入模块包括一个卷积层,该卷积层中卷积核的尺寸为3×3,该卷积层中输入通道的特征图数目为3、输出通道的特征图个数为32、步长为2、步长为1;
S3.2、构造空洞深度可分卷积模块,所述空洞深度可分卷积模块包括八个顺序连接的空洞深度可分卷积块,每个空洞深度可分卷积块中输入特征图的通道数为32、输出特征图的通道数为16、步长为1、卷积块重复次数为1,每个空洞深度可分卷积块由三个空洞深度可分卷积层组成,空洞深度可分卷积层的表达式为:
其中,*表示卷积操作符,*d表示空洞率为d的空洞卷积,F是输入特征图F(s)的简称,K是卷积核函数K(t)的简称,p表示输出特征图的尺寸,s表示输入特征图的尺寸,t表示卷积核的尺寸,d表示空洞率, n是整数,[-n,n]2表示二维整数数组,/>表示整数集;
S3.3、构造多分辨率深度特征模块,所述多分辨率深度特征模块包括三个并行的独立通道,每个独立通道包括顺序连接的一个卷积层和一个平均池化层,其中,每个卷积层中卷积核的尺寸为1×1、输入通道的特征图数目为320、输出通道的特征图个数为1280、步长为1、重复卷积的次数为1,每个平均池化层中池化单元的尺寸为7×7、输入通道的特征图数目为1280,输出通道的特征图个数为1280;
S3.4、构造输出模块,所述输出模块包括顺序连接的一个全连接层和一个Softmax层,其中,全连接层的节点数为1280。
进一步地,所述步骤S4中生成多分辨率深度特征的过程如下:
S4.1、输出单分辨率深度特征:分别从空洞深度可分卷积模块的最后三个空洞深度可分卷积块输出单分辨率深度特征到多分辨率深度特征模块的三个并行的独立通道;
S4.2、单分辨率深度特征变换:将三个单分辨率深度特征分别输入三个并行的独立通道的卷积层和平均池化层后,得到变换后的三个单分辨率深度特征O1、O2、O3;
S4.3、拼接三个单分辨率深度特征:将三个单分辨率深度特征O1、O2、O3依次进行拼接,得到多分辨率深度特征E。
进一步地,所述步骤S5中辨识环境声音的过程如下:
将输入音频样本对应的多分辨率深度特征输入多分辨率空洞深度可分卷积网络输出模块中的全连接层与Softmax层,得到环境声音辨识结果。
本发明相对于现有技术具有如下的优点及效果:
1)本发明将空洞卷积应用于轻量化神经网络中,一方面提高了不同时间段环境声音的关联性,增强了音频信号的连贯性,改善了网络的辨识性能;另一方面相比于常规卷积网络,本发明使用的轻量化神经网络减少了计算量,提升了训练速度。使神经网络在小模型、低计算复杂度情况下保持较高的辨识性能。
2)本发明将三个单分辨率深度特征进行拼接,得到一个多分辨率深度特征,克服了低层特征语义表达能力差、噪声多的缺点,也克服了高层特征分辨率低、对细节感知能力差的不足。
附图说明
图1是本发明实施例公开的一种基于多分辨率空洞深度可分卷积网络的环境声音辨识方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本实施例公开了一种基于多分辨率空洞深度可分卷积网络的环境声音辨识方法,该环境声音辨识方法包括以下步骤:
S1、采集音频样本:在监控区域的预设位置放置拾音器,采集监控区域各位置的音频样本,并对收集到的音频样本进行整理;
本实施例中音频样本采集的过程如下:
S1.1、将拾音器放置在监控区域的不同位置,采集对应位置的环境声音;
S1.2、设置音频样本采集的参数:采样频率为16kHz,量化精度为16bits。
S2、提取对数梅尔谱特征:对采集到的音频样本进行预加重、分帧和加窗处理,通过快速傅里叶变换得到音频样本的线性频谱,经梅尔三角滤波器组和对数运算后得到音频样本的对数梅尔谱特征;
本实施例中,步骤S2中提取对数梅尔谱特征的过程如下:
S2.1、预加重:采用一个高通滤波器对采集到的音频样本进行滤波,高通滤波器的时域表达式为:y(t)=x(t)-αx(t-1),其中α为常数,取0.97;
S2.2、分帧:将经过滤波的音频样本切分成固定长度的音频帧,帧长N为256个采样点,帧移为128个采样点;
S2.3、加窗:将音频帧与汉明窗函数相乘实现加窗操作,汉明窗函数的时域表达式为:其中N为帧长;
S2.4、傅里叶变换:对加窗后的音频帧进行快速傅里叶变换,得到线性频谱,傅里叶变换定义为:
其中,Xi(k)为第i帧音频xi(n)的线性频谱,M为总帧数,N为每帧帧长;
S2.5、构建梅尔三角滤波器组:将线性频率f转换为梅尔频率fmel的定义为:将梅尔三角滤波器组中的滤波器根据中心频率f(q)的大小顺序,从0到Q-1进行编号,梅尔三角滤波器的频率响应定义为:其中,f(q)表示第q个滤波器的中心频率,k表示频率,Q取23~40;
S2.6、采用梅尔三角滤波器组对上述每一帧线性频谱进行滤波再取对数,获得每一帧的对数梅尔谱特征。
S3、搭建辨识网络:在训练阶段构建一个多分辨率空洞深度可分卷积网络作为辨识网络,对输入的测试音频样本进行环境声音类别的辨识;
S3.1、构造输入模块:如图1所示,输入模块包括一个卷积层(3×3,3,32,2,1),括号中数字表示的意思如下:3×3表示卷积核的尺寸,3表示输入通道的特征图数目,32表示输出通道的特征图个数,2表示步长,1表示重复卷积的次数;
S3.2、构造空洞深度可分卷积模块:如图1所示,空洞深度可分卷积模块包括八个空洞深度可分卷积块(其中,“空洞深度可分卷积块(32,16,1,1)”,括号中的四个数字(32,16,1,1)从左到右依次表示:输入特征图的通道数、输出特征图的通道数、步长、卷积块重复次数);每个空洞深度可分卷积块由三个空洞深度可分卷积层组成,空洞深度可分卷积层的表达式为:
其中,*表示卷积操作符,*d表示空洞率为d的空洞卷积,F是输入特征图F(s)的简称,K是卷积核函数K(t)的简称,p表示输出特征图的尺寸,s表示输入特征图的尺寸,t表示卷积核的尺寸,d表示空洞率, n是整数,[-n,n]2表示二维整数数组,/>表示整数集;
其中,步长为1的空洞深度可分卷积块按以下顺序连接各层:
①卷积层conv1×1;
②批量标准化层BN;
③Relu6函数激活层;
④深度可分离卷积层DW3×3;
⑤批量标准化层BN;
⑥Relu6函数激活层;
⑦深度可分离卷积层PW1×1;
⑧批量标准化层BN;
⑨Linear函数激活层;
⑩合成层;
其中,第①④⑦层用于数据变换,第②⑤⑧层防止过拟合,第③⑥⑨层用于输入数据,第⑩层将空洞深度可分卷积块输入数据与第⑨层输出数据进行残差连接。
步长为2的空洞深度可分卷积块按以下顺序连接各层:
①卷积层conv1×1;
②批量标准化层BN;
③Relu6函数激活层;
④深度可分离卷积层DW3×3;
⑤批量标准化层BN;
⑥Relu6函数激活层;
⑦深度可分离卷积层PW1×1;
⑧批量标准化层BN;
⑨Linear函数激活层;
其中,第①④⑦层用于数据变换,第②⑤⑧层防止过拟合,第③⑥⑨层用于输入数据。
为了在不增加计算复杂度的前提下,获得更好的辨识度,本发明堆叠八个空洞深度可分卷积块,实验表明:八个空洞深度可分卷积块拥有更好的辨识性能。
S3.3、构造多分辨率深度特征模块,该多分辨率深度特征模块包括三个并行的独立通道,每个独立通道包括顺序连接的一个卷积层和一个平均池化层。如图1所示,多分辨率深度特征模块共包含三个卷积层(1×1,320,1280,1,1)和三个平均池化层(7×7,1280,1280);括号中的数字(1×1,320,1280,1,1)表示的意思如下:1×1表示卷积核的尺寸,320表示输入通道的特征图数目,1280表示输出通道的特征图个数,1表示步长,1表示重复卷积的次数;括号中的数字(7×7,1280,1280)表示的意思依次是:7×7表示池化单元的尺寸,1280表示输入通道的特征图数目,1280表示输出通道的特征图个数;
S3.4构造输出模块:如图1所示,输出模块包含一个全连接层(1280)和一个Softmax层;括号中的数字1280表示全连接层的节点数。
S4、生成多分辨率深度特征:通过多分辨率空洞深度可分卷积网络的多分辨率深度特征模块对三种单分辨率的深度特征进行拼接,得到输入音频样本的多分辨率深度特征;
本实施例中,生成多分辨率深度特征的过程如下:
S4.1、输出单分辨率深度特征:如图1所示,分别从空洞深度可分卷积模块的最后三个空洞深度可分卷积块输出单分辨率深度特征到多分辨率深度特征模块的三个并行的独立通道;
S4.2、单分辨率深度特征变换:如图1所示,将三个单分辨率深度特征分别输入三个并行的独立通道的卷积层和平均池化层后,得到变换后的三个单分辨率深度特征O1、O2、O3;
S4.3、拼接三个单分辨率深度特征:如图1所示,将三个单分辨率深度特征O1、O2、O3依次进行拼接,得到多分辨率深度特征E。
S5、辨识环境声音:将输入音频样本的多分辨率深度特征输入多分辨率空洞深度可分卷积网络的输出模块中的全连接层与Softmax层进行判决,得到输入音频样本所对应的环境声音类别。
为了解决独居老人的智能监护问题,安置在住宅内的监测设备一定程度上限定了老人的活动范围,缺少灵活性。本发明提出一种可部署在移动端的轻量化深度神经网络。然而,一般的轻量化深度神经网络具有辨识能力较差,准确性较低的缺点,为了增强音频数据的上下文关联,本发明采用空洞卷积,可获得更大感受野,提升神经网络辨识性能。为了克服低层特征语义表达能力差、噪声多的缺点,本发明加入了多分辨率深度特征模块,既保留了高分辨率的低层特征分量,又保留了低分辨率的语义信息较强的高层特征分量。通过采取上述策略,增强了神经网络的辨识性能,实现了独居老人身边环境声音的准确监测。
与已有轻量化网络相比,本发明设计的神经网络采用空洞卷积扩大了感受野、采用多分辨率深度特征有效表征了各类环境声音之间的差异、采用可分卷积有效克服了过拟合问题,在有效减小计算复杂度的情况下,提高了网络训练效率,提高了环境声音辨识的准确率。基于以上特点,本发明方法适合部署在计算资源有限的便携式终端。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (4)
1.一种基于多分辨率空洞深度可分卷积网络的环境声音辨识方法,其特征在于,所述环境声音辨识方法包括以下步骤:
S1、采集音频样本:在监控区域的预设位置放置拾音器,采集监控区域各位置的音频样本;
S2、提取对数梅尔谱特征:对采集到的音频样本进行预加重、分帧和加窗处理,通过快速傅里叶变换得到音频样本的线性频谱,经梅尔三角滤波器组和对数运算后得到音频样本的对数梅尔谱特征;
S3、搭建辨识网络:在训练阶段构建一个多分辨率空洞深度可分卷积网络作为辨识网络,其中,所述多分辨率空洞深度可分卷积网络包括依次顺序连接的输入模块、空洞深度可分卷积模块、多分辨率深度特征模块和输出模块,对输入的测试音频样本进行环境声音类别的辨识,过程如下:
S3.1、构造输入模块,所述输入模块包括一个卷积层,该卷积层中卷积核的尺寸为3×3,该卷积层中输入通道的特征图数目为3、输出通道的特征图个数为32、步长为2、步长为1;
S3.2、构造空洞深度可分卷积模块,所述空洞深度可分卷积模块包括八个顺序连接的空洞深度可分卷积块,每个空洞深度可分卷积块中输入特征图的通道数为32、输出特征图的通道数为16、步长为1、卷积块重复次数为1,每个空洞深度可分卷积块由三个空洞深度可分卷积层组成,空洞深度可分卷积层的表达式为:
其中,*表示卷积操作符,*d表示空洞率为d的空洞卷积,F是输入特征图F(s)的简称,K是卷积核函数K(t)的简称,p表示输出特征图的尺寸,s表示输入特征图的尺寸,t表示卷积核的尺寸,d表示空洞率, n是整数,[-n,n]2表示二维整数数组,/>表示整数集;
S3.3、构造多分辨率深度特征模块,所述多分辨率深度特征模块包括三个并行的独立通道,每个独立通道包括顺序连接的一个卷积层和一个平均池化层,其中,每个卷积层中卷积核的尺寸为1×1、输入通道的特征图数目为320、输出通道的特征图个数为1280、步长为1、重复卷积的次数为1,每个平均池化层中池化单元的尺寸为7×7、输入通道的特征图数目为1280,输出通道的特征图个数为1280;
S3.4、构造输出模块,所述输出模块包括顺序连接的一个全连接层和一个Softmax层,其中,全连接层的节点数为1280;
S4、生成多分辨率深度特征:通过多分辨率空洞深度可分卷积网络的多分辨率深度特征模块对三种单分辨率的深度特征进行拼接,得到输入音频样本的多分辨率深度特征,过程如下:
S4.1、输出单分辨率深度特征:分别从空洞深度可分卷积模块的最后三个空洞深度可分卷积块输出单分辨率深度特征到多分辨率深度特征模块的三个并行的独立通道;
S4.2、单分辨率深度特征变换:将三个单分辨率深度特征分别输入三个并行的独立通道的卷积层和平均池化层后,得到变换后的三个单分辨率深度特征O1、O2、O3;
S4.3、拼接三个单分辨率深度特征:将三个单分辨率深度特征O1、O2、O3依次进行拼接,得到多分辨率深度特征E;
S5、辨识环境声音:将输入音频样本的多分辨率深度特征输入多分辨率空洞深度可分卷积网络的输出模块进行判决,得到输入音频样本所对应的环境声音类别。
2.根据权利要求1所述的基于多分辨率空洞深度可分卷积网络的环境声音辨识方法,其特征在于,所述步骤S1中采集音频样本的过程如下:
S1.1、将拾音器放置在监控区域的不同位置,采集对应位置的环境声音;
S1.2、设置音频样本采集的参数:采样频率为16kHz,量化精度为16bits。
3.根据权利要求1所述的基于多分辨率空洞深度可分卷积网络的环境声音辨识方法,其特征在于,所述步骤S2中提取对数梅尔谱特征的过程如下:
S2.1、预加重:采用一个高通滤波器对采集到的音频样本进行滤波,高通滤波器的时域表达式为:y(t)=x(t)-αx(t-1),其中α为常数,取0.97;
S2.2、分帧:将经过滤波的音频样本切分成固定长度的音频帧,帧长N为256个采样点,帧移为128个采样点;
S2.3、加窗:将音频帧与汉明窗函数相乘实现加窗操作,汉明窗函数的时域表达式为:其中N为帧长;
S2.4、傅里叶变换:对加窗后的音频帧进行快速傅里叶变换,得到线性频谱,傅里叶变换定义为:其中,Xi(k)为第i帧音频xi(n)的线性频谱,M为总帧数,N为每帧帧长;
S2.5、构建梅尔三角滤波器组:将线性频率f转换为梅尔频率fmel的定义为:将梅尔三角滤波器组中的滤波器根据中心频率f(q)的大小顺序,从0到Q-1进行编号,梅尔三角滤波器的频率响应定义为:其中,f(q)表示第q个滤波器的中心频率,k表示频率,Q取23~40;
S2.6、采用梅尔三角滤波器组对上述线性频谱进行滤波再取对数,得到音频样本的对数梅尔谱特征。
4.根据权利要求1所述的基于多分辨率空洞深度可分卷积网络的环境声音辨识方法,其特征在于,所述步骤S5中辨识环境声音的过程如下:
将输入音频样本对应的多分辨率深度特征输入多分辨率空洞深度可分卷积网络输出模块中的全连接层与Softmax层,得到环境声音辨识结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111178962.2A CN113990303B (zh) | 2021-10-08 | 2021-10-08 | 基于多分辨率空洞深度可分卷积网络的环境声音辨识方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111178962.2A CN113990303B (zh) | 2021-10-08 | 2021-10-08 | 基于多分辨率空洞深度可分卷积网络的环境声音辨识方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113990303A CN113990303A (zh) | 2022-01-28 |
CN113990303B true CN113990303B (zh) | 2024-04-12 |
Family
ID=79737973
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111178962.2A Active CN113990303B (zh) | 2021-10-08 | 2021-10-08 | 基于多分辨率空洞深度可分卷积网络的环境声音辨识方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113990303B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114999525A (zh) * | 2022-02-28 | 2022-09-02 | 四川天中星航空科技有限公司 | 一种基于神经网络的轻量环境声音识别方法 |
CN115547362B (zh) * | 2022-10-24 | 2024-05-10 | 中国航空综合技术研究所 | 基于梅尔谱图分解和神经网络融合进行疲劳度检测的方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110223715A (zh) * | 2019-05-07 | 2019-09-10 | 华南理工大学 | 一种基于声音事件检测的独居老人家中活动估计方法 |
CN110400575A (zh) * | 2019-07-24 | 2019-11-01 | 腾讯科技(深圳)有限公司 | 通道间特征提取方法、音频分离方法和装置、计算设备 |
CN111178316A (zh) * | 2020-01-06 | 2020-05-19 | 武汉大学 | 一种基于深度架构自动搜索的高分辨率遥感影像土地覆盖分类方法 |
CN111599376A (zh) * | 2020-06-01 | 2020-08-28 | 华南理工大学 | 一种基于空洞卷积循环神经网络的声音事件检测方法 |
CN112633299A (zh) * | 2020-12-30 | 2021-04-09 | 深圳市优必选科技股份有限公司 | 一种目标检测方法、网络、装置、终端设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10460747B2 (en) * | 2016-05-10 | 2019-10-29 | Google Llc | Frequency based audio analysis using neural networks |
-
2021
- 2021-10-08 CN CN202111178962.2A patent/CN113990303B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110223715A (zh) * | 2019-05-07 | 2019-09-10 | 华南理工大学 | 一种基于声音事件检测的独居老人家中活动估计方法 |
CN110400575A (zh) * | 2019-07-24 | 2019-11-01 | 腾讯科技(深圳)有限公司 | 通道间特征提取方法、音频分离方法和装置、计算设备 |
CN111178316A (zh) * | 2020-01-06 | 2020-05-19 | 武汉大学 | 一种基于深度架构自动搜索的高分辨率遥感影像土地覆盖分类方法 |
CN111599376A (zh) * | 2020-06-01 | 2020-08-28 | 华南理工大学 | 一种基于空洞卷积循环神经网络的声音事件检测方法 |
CN112633299A (zh) * | 2020-12-30 | 2021-04-09 | 深圳市优必选科技股份有限公司 | 一种目标检测方法、网络、装置、终端设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113990303A (zh) | 2022-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108830127B (zh) | 一种基于深度卷积神经网络结构的旋转机械故障特征智能诊断方法 | |
CN108319962B (zh) | 一种基于卷积神经网络的刀具磨损监测方法 | |
CN113990303B (zh) | 基于多分辨率空洞深度可分卷积网络的环境声音辨识方法 | |
CN105841961A (zh) | 一种基于Morlet小波变换和卷积神经网络的轴承故障诊断方法 | |
CN113405825B (zh) | 一种基于声音信号的带式输送机故障诊断方法 | |
CN106909784A (zh) | 基于二维时频图像深度卷积神经网络的癫痫脑电识别方法 | |
CN108630209B (zh) | 一种基于特征融合与深度置信网络的海洋生物识别方法 | |
CN111238814A (zh) | 一种基于短时希尔伯特变换的滚动轴承故障诊断方法 | |
CN111599376B (zh) | 一种基于空洞卷积循环神经网络的声音事件检测方法 | |
CN114093501B (zh) | 基于同步视频与脑电的儿童运动性癫痫智能辅助分析方法 | |
CN115798516B (zh) | 一种可迁移的端到端声信号诊断方法及系统 | |
CN118051831B (zh) | 基于CNN-Transformer合作网络模型的水声目标识别方法 | |
CN114155876A (zh) | 一种基于音频信号的交通流识别方法、装置及存储介质 | |
CN115910097A (zh) | 一种高压断路器潜伏性故障可听声信号识别方法及系统 | |
CN112052712B (zh) | 一种电力设备状态监测与故障识别方法及系统 | |
CN112908344A (zh) | 一种鸟鸣声智能识别方法、装置、设备和介质 | |
CN117419915A (zh) | 一种多源信息融合的电机故障诊断方法 | |
CN116705059A (zh) | 一种音频半监督自动聚类方法、装置、设备及介质 | |
CN113940638B (zh) | 基于频域双特征融合的脉搏波信号识别分类方法 | |
CN113177536B (zh) | 基于深度残差收缩网络的车辆碰撞检测方法及装置 | |
Čavor et al. | Vehicle speed estimation from audio signals using 1d convolutional neural networks | |
CN111931768A (zh) | 一种自适应样本分布的车辆识别方法及系统 | |
Kannan et al. | Ball Bearing Fault by Feature Extraction and Fault Diagnosis method based on AI ML Algorithms | |
CN117390413B (zh) | 分布式电力光纤振动信号降噪与时序特征提取的识别方法 | |
CN112749295A (zh) | 一种基于交叉对比神经网络的心音录音分类技术 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |