CN113990303B

CN113990303B - 基于多分辨率空洞深度可分卷积网络的环境声音辨识方法

Info

Publication number: CN113990303B
Application number: CN202111178962.2A
Authority: CN
Inventors: 卢狄峰; 李艳雄; 王锐淇; 曾雨非; 周镇峰
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-10-08
Filing date: 2021-10-08
Publication date: 2024-04-12
Anticipated expiration: 2041-10-08
Also published as: CN113990303A

Abstract

本发明公开了一种基于多分辨率空洞深度可分卷积网络的环境声音辨识方法，包括下列步骤：首先采集环境声音音频样本；接着对音频样本进行预加重、分帧和加窗处理，再提取对数梅尔谱特征；然后将对数梅尔谱特征依次输入多分辨率空洞深度可分卷积网络的输入模块、空洞深度可分卷积模块和多分辨率深度特征模块进行特征变换与拼接，得到更具区分性的多分辨率深度特征；最后在多分辨率空洞深度可分卷积网络的输出模块对输入音频样本的多分辨率深度特征进行判决，得到环境声音类别。与基于常规卷积网络的方法相比，本发明方法运算量更小、相同网络参数规模时的感受野更大。与基于常规轻量级网络的方法相比，本发明方法的环境声音辨识精度更高。

Description

基于多分辨率空洞深度可分卷积网络的环境声音辨识方法

技术领域

本发明涉及音频信号处理和深度学习技术领域，具体涉及一种基于多分辨率空洞深度可分卷积网络的环境声音辨识方法。

背景技术

随着我国逐步进入重度老龄化社会，独居老人的智能监护已经成为一个严重的社会问题。目前独居老人的智能监护方法主要包括：基于视频的实时监测分析方法和基于体感设备的传感信号分析方法。这些方法存在下述不足之处。第一，视频采集设备的成本高于拾音器，并且涉及个人隐私问题，不容易被人接受。第二，视频采集设备的监测范围有限，存在监测死角且容易受到光线影响。第三，被监护人要时刻佩戴体感设备才能进行信息传感与监护，一定程度上妨碍了被监护人的正常生活，而且独居老人很容易忘记穿戴，造成漏测的情况。基于环境声音辨识的智能监护方法可以有效克服上述不足。环境声音可以全方向采集、不受光线与物体遮挡等影响，且不泄露个人隐私，不需要被监护人时刻佩戴任何体感设备，容易让人接受。因此，基于环境声音辨识的智能监护在我国即将到来的重度老龄化社会中将得到广泛应用，对于独居老人的日常护理尤为重要。

目前的环境声音辨识方法一般采用常规神经网络进行辨识判决。常规神经网络参数多、计算量大，难以移植到计算资源有限的移动端。轻量化神经网络的参数规模明显小于常规神经网络的参数规模，可以有效降低计算量和存储空间，使得网络移植到移动端成为可能。然而，现有的轻量化神经网络在环境声音辨识时，得到的准确率不高，且在数据集较小时辨识结果更差。

发明内容

本发明的目的是为了克服常规神经网络参数规模大、计算复杂度高，已有轻量化神经网络辨识性能差的问题，提供一种基于多分辨率空洞深度可分卷积网络的环境声音辨识方法。本发明将音频信号前后文的相关性利用起来，同时将三个单分辨率深度特征进行拼接得到多分辨率深度特征，设计了一种计算复杂度低，辨识性能高的环境声音辨识方法。多分辨率深度特征既保留了高分辨率的低层特征分量，又保留了低分辨率的语义信息较强的高层特征分量。本发明一方面利用多分辨率深度特征克服了低层特征语义表达能力差、噪声多的缺点，另一方面也克服了高层特征分辨率低、对细节感知能力差的不足。

为了实现更加准确的环境声音辨识，本发明可以通过采取如下技术方案达到：

一种基于多分辨率空洞深度可分卷积网络的环境声音辨识方法，所述环境声音辨识方法包括以下步骤：

S1、采集音频样本：在监控区域的预设位置放置拾音器，采集监控区域各位置的音频样本；

S2、提取对数梅尔谱特征：对采集到的音频样本进行预加重、分帧和加窗处理，通过快速傅里叶变换得到音频样本的线性频谱，经梅尔三角滤波器组和对数运算后得到音频样本的对数梅尔谱特征；

S3、搭建辨识网络：在训练阶段构建一个多分辨率空洞深度可分卷积网络作为辨识网络，其中，所述多分辨率空洞深度可分卷积网络包括依次顺序连接的输入模块、空洞深度可分卷积模块、多分辨率深度特征模块和输出模块，对输入的测试音频样本进行环境声音类别的辨识；

S4、生成多分辨率深度特征：通过多分辨率空洞深度可分卷积网络的多分辨率深度特征模块对三种单分辨率的深度特征进行拼接，得到输入音频样本的多分辨率深度特征；

S5、辨识环境声音：将输入音频样本的多分辨率深度特征输入多分辨率空洞深度可分卷积网络的输出模块进行判决，得到输入音频样本所对应的环境声音类别。

进一步地，所述步骤S1中采集音频样本的过程如下：

S1.1、将拾音器放置在监控区域的不同位置，采集对应位置的环境声音；

S1.2、设置音频样本采集的参数：采样频率为16kHz，量化精度为16bits。

进一步地，所述步骤S2中提取对数梅尔谱特征的过程如下：

S2.1、预加重：采用一个高通滤波器对采集到的音频样本进行滤波，高通滤波器的时域表达式为：y(t)＝x(t)-αx(t-1)，其中α为常数，取0.97；

S2.2、分帧：将经过滤波的音频样本切分成固定长度的音频帧，帧长N为256个采样点，帧移为128个采样点；

S2.3、加窗：将音频帧与汉明窗函数相乘实现加窗操作，汉明窗函数的时域表达式为：其中N为帧长；

S2.4、傅里叶变换：对加窗后的音频帧进行快速傅里叶变换，得到线性频谱，傅里叶变换定义为：其中，X_i(k)为第i帧音频x_i(n)的线性频谱，M为总帧数，N为每帧帧长；

S2.5、构建梅尔三角滤波器组：将线性频率f转换为梅尔频率f_mel的定义为：将梅尔三角滤波器组中的滤波器根据中心频率f(q)的大小顺序，从0到Q-1进行编号，梅尔三角滤波器的频率响应定义为：其中，f(q)表示第q个滤波器的中心频率，k表示频率，Q取23～40；

S2.6、采用梅尔三角滤波器组对上述线性频谱进行滤波再取对数，得到音频样本的对数梅尔谱特征。

进一步地，所述步骤S3中搭建辨识网络步骤如下：

S3.1、构造输入模块，所述输入模块包括一个卷积层，该卷积层中卷积核的尺寸为3×3，该卷积层中输入通道的特征图数目为3、输出通道的特征图个数为32、步长为2、步长为1；

S3.2、构造空洞深度可分卷积模块，所述空洞深度可分卷积模块包括八个顺序连接的空洞深度可分卷积块，每个空洞深度可分卷积块中输入特征图的通道数为32、输出特征图的通道数为16、步长为1、卷积块重复次数为1，每个空洞深度可分卷积块由三个空洞深度可分卷积层组成，空洞深度可分卷积层的表达式为：

其中，*表示卷积操作符，*_d表示空洞率为d的空洞卷积，F是输入特征图F(s)的简称，K是卷积核函数K(t)的简称，p表示输出特征图的尺寸，s表示输入特征图的尺寸，t表示卷积核的尺寸，d表示空洞率， n是整数，[-n,n]²表示二维整数数组，/>表示整数集；

S3.3、构造多分辨率深度特征模块，所述多分辨率深度特征模块包括三个并行的独立通道，每个独立通道包括顺序连接的一个卷积层和一个平均池化层，其中，每个卷积层中卷积核的尺寸为1×1、输入通道的特征图数目为320、输出通道的特征图个数为1280、步长为1、重复卷积的次数为1，每个平均池化层中池化单元的尺寸为7×7、输入通道的特征图数目为1280，输出通道的特征图个数为1280；

S3.4、构造输出模块，所述输出模块包括顺序连接的一个全连接层和一个Softmax层，其中，全连接层的节点数为1280。

进一步地，所述步骤S4中生成多分辨率深度特征的过程如下：

S4.1、输出单分辨率深度特征：分别从空洞深度可分卷积模块的最后三个空洞深度可分卷积块输出单分辨率深度特征到多分辨率深度特征模块的三个并行的独立通道；

S4.2、单分辨率深度特征变换：将三个单分辨率深度特征分别输入三个并行的独立通道的卷积层和平均池化层后，得到变换后的三个单分辨率深度特征O₁、O₂、O₃；

S4.3、拼接三个单分辨率深度特征：将三个单分辨率深度特征O₁、O₂、O₃依次进行拼接，得到多分辨率深度特征E。

进一步地，所述步骤S5中辨识环境声音的过程如下：

将输入音频样本对应的多分辨率深度特征输入多分辨率空洞深度可分卷积网络输出模块中的全连接层与Softmax层，得到环境声音辨识结果。

本发明相对于现有技术具有如下的优点及效果：

1)本发明将空洞卷积应用于轻量化神经网络中，一方面提高了不同时间段环境声音的关联性，增强了音频信号的连贯性，改善了网络的辨识性能；另一方面相比于常规卷积网络，本发明使用的轻量化神经网络减少了计算量，提升了训练速度。使神经网络在小模型、低计算复杂度情况下保持较高的辨识性能。

2)本发明将三个单分辨率深度特征进行拼接，得到一个多分辨率深度特征，克服了低层特征语义表达能力差、噪声多的缺点，也克服了高层特征分辨率低、对细节感知能力差的不足。

附图说明

图1是本发明实施例公开的一种基于多分辨率空洞深度可分卷积网络的环境声音辨识方法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

本实施例公开了一种基于多分辨率空洞深度可分卷积网络的环境声音辨识方法，该环境声音辨识方法包括以下步骤：

S1、采集音频样本：在监控区域的预设位置放置拾音器，采集监控区域各位置的音频样本，并对收集到的音频样本进行整理；

本实施例中音频样本采集的过程如下：

本实施例中，步骤S2中提取对数梅尔谱特征的过程如下：

S2.4、傅里叶变换：对加窗后的音频帧进行快速傅里叶变换，得到线性频谱，傅里叶变换定义为：

其中，X_i(k)为第i帧音频x_i(n)的线性频谱，M为总帧数，N为每帧帧长；

S2.6、采用梅尔三角滤波器组对上述每一帧线性频谱进行滤波再取对数，获得每一帧的对数梅尔谱特征。

S3、搭建辨识网络：在训练阶段构建一个多分辨率空洞深度可分卷积网络作为辨识网络，对输入的测试音频样本进行环境声音类别的辨识；

S3.1、构造输入模块：如图1所示，输入模块包括一个卷积层(3×3,3,32,2,1)，括号中数字表示的意思如下：3×3表示卷积核的尺寸，3表示输入通道的特征图数目，32表示输出通道的特征图个数，2表示步长，1表示重复卷积的次数；

S3.2、构造空洞深度可分卷积模块：如图1所示，空洞深度可分卷积模块包括八个空洞深度可分卷积块(其中，“空洞深度可分卷积块(32,16,1,1)”，括号中的四个数字(32,16,1,1)从左到右依次表示：输入特征图的通道数、输出特征图的通道数、步长、卷积块重复次数)；每个空洞深度可分卷积块由三个空洞深度可分卷积层组成，空洞深度可分卷积层的表达式为：

其中，步长为1的空洞深度可分卷积块按以下顺序连接各层：

①卷积层conv1×1；

②批量标准化层BN；

③Relu6函数激活层；

④深度可分离卷积层DW3×3；

⑤批量标准化层BN；

⑥Relu6函数激活层；

⑦深度可分离卷积层PW1×1；

⑧批量标准化层BN；

⑨Linear函数激活层；

⑩合成层；

其中，第①④⑦层用于数据变换，第②⑤⑧层防止过拟合，第③⑥⑨层用于输入数据，第⑩层将空洞深度可分卷积块输入数据与第⑨层输出数据进行残差连接。

步长为2的空洞深度可分卷积块按以下顺序连接各层：

①卷积层conv1×1；

②批量标准化层BN；

③Relu6函数激活层；

④深度可分离卷积层DW3×3；

⑤批量标准化层BN；

⑥Relu6函数激活层；

⑦深度可分离卷积层PW1×1；

⑧批量标准化层BN；

⑨Linear函数激活层；

其中，第①④⑦层用于数据变换，第②⑤⑧层防止过拟合，第③⑥⑨层用于输入数据。

为了在不增加计算复杂度的前提下，获得更好的辨识度，本发明堆叠八个空洞深度可分卷积块，实验表明：八个空洞深度可分卷积块拥有更好的辨识性能。

S3.3、构造多分辨率深度特征模块，该多分辨率深度特征模块包括三个并行的独立通道，每个独立通道包括顺序连接的一个卷积层和一个平均池化层。如图1所示，多分辨率深度特征模块共包含三个卷积层(1×1,320,1280,1,1)和三个平均池化层(7×7,1280,1280)；括号中的数字(1×1,320,1280,1,1)表示的意思如下：1×1表示卷积核的尺寸，320表示输入通道的特征图数目，1280表示输出通道的特征图个数，1表示步长，1表示重复卷积的次数；括号中的数字(7×7,1280,1280)表示的意思依次是：7×7表示池化单元的尺寸，1280表示输入通道的特征图数目，1280表示输出通道的特征图个数；

S3.4构造输出模块：如图1所示，输出模块包含一个全连接层(1280)和一个Softmax层；括号中的数字1280表示全连接层的节点数。

本实施例中，生成多分辨率深度特征的过程如下：

S4.1、输出单分辨率深度特征：如图1所示，分别从空洞深度可分卷积模块的最后三个空洞深度可分卷积块输出单分辨率深度特征到多分辨率深度特征模块的三个并行的独立通道；

S4.2、单分辨率深度特征变换：如图1所示，将三个单分辨率深度特征分别输入三个并行的独立通道的卷积层和平均池化层后，得到变换后的三个单分辨率深度特征O₁、O₂、O₃；

S4.3、拼接三个单分辨率深度特征：如图1所示，将三个单分辨率深度特征O₁、O₂、O₃依次进行拼接，得到多分辨率深度特征E。

S5、辨识环境声音：将输入音频样本的多分辨率深度特征输入多分辨率空洞深度可分卷积网络的输出模块中的全连接层与Softmax层进行判决，得到输入音频样本所对应的环境声音类别。

为了解决独居老人的智能监护问题，安置在住宅内的监测设备一定程度上限定了老人的活动范围，缺少灵活性。本发明提出一种可部署在移动端的轻量化深度神经网络。然而，一般的轻量化深度神经网络具有辨识能力较差，准确性较低的缺点，为了增强音频数据的上下文关联，本发明采用空洞卷积，可获得更大感受野，提升神经网络辨识性能。为了克服低层特征语义表达能力差、噪声多的缺点，本发明加入了多分辨率深度特征模块，既保留了高分辨率的低层特征分量，又保留了低分辨率的语义信息较强的高层特征分量。通过采取上述策略，增强了神经网络的辨识性能，实现了独居老人身边环境声音的准确监测。

与已有轻量化网络相比，本发明设计的神经网络采用空洞卷积扩大了感受野、采用多分辨率深度特征有效表征了各类环境声音之间的差异、采用可分卷积有效克服了过拟合问题，在有效减小计算复杂度的情况下，提高了网络训练效率，提高了环境声音辨识的准确率。基于以上特点，本发明方法适合部署在计算资源有限的便携式终端。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于多分辨率空洞深度可分卷积网络的环境声音辨识方法，其特征在于，所述环境声音辨识方法包括以下步骤：

S3、搭建辨识网络：在训练阶段构建一个多分辨率空洞深度可分卷积网络作为辨识网络，其中，所述多分辨率空洞深度可分卷积网络包括依次顺序连接的输入模块、空洞深度可分卷积模块、多分辨率深度特征模块和输出模块，对输入的测试音频样本进行环境声音类别的辨识，过程如下：

S3.4、构造输出模块，所述输出模块包括顺序连接的一个全连接层和一个Softmax层，其中，全连接层的节点数为1280；

S4、生成多分辨率深度特征：通过多分辨率空洞深度可分卷积网络的多分辨率深度特征模块对三种单分辨率的深度特征进行拼接，得到输入音频样本的多分辨率深度特征，过程如下：

S4.3、拼接三个单分辨率深度特征：将三个单分辨率深度特征O₁、O₂、O₃依次进行拼接，得到多分辨率深度特征E；

2.根据权利要求1所述的基于多分辨率空洞深度可分卷积网络的环境声音辨识方法，其特征在于，所述步骤S1中采集音频样本的过程如下：

3.根据权利要求1所述的基于多分辨率空洞深度可分卷积网络的环境声音辨识方法，其特征在于，所述步骤S2中提取对数梅尔谱特征的过程如下：

4.根据权利要求1所述的基于多分辨率空洞深度可分卷积网络的环境声音辨识方法，其特征在于，所述步骤S5中辨识环境声音的过程如下：