CN117238298B

CN117238298B - 一种基于声音事件的动物识别与定位方法及系统

Info

Publication number: CN117238298B
Application number: CN202311498926.3A
Authority: CN
Inventors: 廖志武; 陈鹏; 苏枚芳; 侯蓉; 何梦楠; 胡绍湘; 吴鹏程; 邱子航; 马莹
Original assignee: CHENGDU RESEARCH BASE OF GIANT PANDA BREEDING; Sichuan Normal University
Current assignee: CHENGDU RESEARCH BASE OF GIANT PANDA BREEDING; Sichuan Normal University
Priority date: 2023-11-13
Filing date: 2023-11-13
Publication date: 2024-02-06
Anticipated expiration: 2043-11-13
Also published as: CN117238298A

Abstract

本发明公开了一种基于声音事件的动物识别与定位方法，包括采集动物声源信息，多通道的音频数据、对应所述音频数据的声音事件标签和位置标签；提取所述音频数据的浅层特征并输出；使用残差注意力网络处理所述浅层特征，用以生成深层特征并输出；使用时间上下文处理所述深层特征，用以判断并筛选所述深层特征中的有效特征并输出；通过回归处理输出动物的识别及定位结果。还包括了一种基于声音事件的动物识别与定位的相关系统，该系统包括有数据采集模块、数据提取模块、残差注意力网络、时间上下文表示模块以及回归处理模块。

Description

一种基于声音事件的动物识别与定位方法及系统

技术领域

本发明涉及音频处理技术、计算机技术领域，具体涉及一种基于声音事件的动物识别与定位方法及系统。

背景技术

动物的声音包含丰富的信息，利用动物的声音数据，可以识别动物种类、估计动物位置，从而跟踪野生动物的迁徙轨迹、评估物种丰度，结合动物物种识别与定位，可实现动物多样性监测，有效地对野生动物进行监控与保护。

随着深度学习技术的发展，计算机算法被广泛应用于动物声音的物种识别，但基于声音对动物进行定位多采用传统基于麦克风阵列的信号处理算法，且在定位前需人工处理动物发声的片段，耗费大量的时间和精力，动物声音片段检测、个体定位、动物声音识别分开执行。

声音事件检测，即检测较长录音中动物的发声片段以及识别不同声音事件的分类，可基于深度学习技术，将声音事件检测与动物位置估计结合起来，从获取的录音数据中检测动物发声片段、识别发声动物的种类并对动物进行定位。当前，基于深度学习的声音事件检测与定位模型多采用卷积神经网络和循环神经网络结合的方法，存在未充分利用特征的问题，可进一步优化模型结构，提高检测定位的精度。

发明内容

针对现有技术中存在未充分利用特征、检测与定位方法复杂耗时、精度不高等缺陷，本发明提出一种基于声音事件的动物识别与定位方法及系统，结合深度可分离卷积和残差注意力网络，对动物的声音事件进行检测，并进行分类识别与个体定位。

本发明技术方案及说明如下：

一种基于声音事件的动物识别与定位方法，包括以下步骤：

采集动物声源信息，包括：多通道的音频数据、对应所述音频数据的声音事件标签和位置标签；

提取所述音频数据的浅层特征并输出；

使用残差注意力网络处理所述浅层特征，用以生成深层特征并输出；

使用时间上下文处理所述深层特征，用以判断并筛选所述深层特征中的有效特征并输出；

通过回归处理输出动物的识别及定位结果。

进一步的，所述的一种基于声音事件的动物识别与定位方法，还包括：

对所述音频数据、声音事件标签和位置标签进行划分，划分为训练集和测试集。

进一步的，所述声音事件标签为发声动物的发声片段起止帧以及发声动物的物种类别，位置标签为发声动物的空间坐标。

所述音频数据的通道数为三通道或三通道以上，该通道是指平面麦克风阵列中麦克风的数量，一般采用不在同一直线上的三个或三个以上数量的麦克风。

若定位动物在k维空间中的位置，则所述音频数据的通道数至少为k+1。定位动物即被采集信息的动物，定位动物在k维空间中的位置指该动物在空间中的具体位置，例如三维坐标系位置（x,y,z）等。

进一步的，所述残差注意力网络包括：标准卷积块、深度可分离卷积残差注意力块（Residual Block with Attention Module, ResBlk-A）；残差注意力网络首先通过两个卷积层和平均池化层减小输入的浅层特征，然后在输入深度可分离卷积残差注意力模块，用于从输入数据中提取深层特征。

所述深度可分离卷积残差注意力块包括深度可分离卷积层、注意力层，且所述深度可分离卷积残差注意力块的输入和输出之间设有跳跃连接（Skip Connection，跳跃连接是一种在深度神经网络中连接不同层次之间节点的方法），采用深度可分离卷积构建残差块，对标准卷积过程进行分解，首先在每个通道上进行滤波，然后采用1×1点卷积组合每个通道上的输出，显著降低计算成本和模型大小。

所述深度可分离卷积层中深度可分离卷积将标准卷积分为两步，其一为逐深度卷积，在每个通道上对输入数据进行卷积，其二为逐点卷积，将各通道特征进行融合。所述深度可分离卷积提取特征过程如下公式（a）所示：

（a）

式中，表示尺寸为i×j的卷积核，其第m个卷积核对输入特征X第m个通道进行运算，可得到输出特征图 />的第m个通道。深度可分离卷积的参数量和计算成本分别如公式（b）和公式（c）所示：

（b）

（c）

所述深度可分离卷积在第一部分利用逐深度卷积进行滤波处理，对输入的数据在每个通道进行卷积处理，每个卷积核对应一个输入特征图；在逐深度卷积后面加入一个输出特征图为c的1×l标准卷积进行通道连接，从而保证输出特征图维度与标准卷积一致。

将注意力机制应用于所述残差块，可以学习每个特征通道的重要程度，提升有效特征，忽略对当前任务用处不大的特征，增强深层特征提取模块特征提取的能力。通过堆叠深度可分离卷积残差注意力块(ResBlk-A)块构成不同深度的深层特征提取模块，本模型对于基于声音事件检测的定位可以取得更高的精度。

所述注意力层将压缩激励网络模块应用于深层特征提取模块中的每个深度可分离卷积残差块中。对不同通道特征进行加权，进一步加强通道信息的保留，抑制背景噪声对特征提取的干扰，从而提取对识别声音事件和位置信息更有效的高级特征。所述压缩激励网络模块主要分为挤压（Squeeze）、激励（Excitation）以及调整输出特征（Scale）三个操作。对于残差块输入特征X，在通过两个深度可分离卷积块后得到特征图，其中高为H，宽为W，通道数为C。在SE模块中，首先对特征图X _conv进行挤压，通过全局平均池化操作将每个通道的特征值相加再取平均，得到所有通道的全局特征，计算表达式如式（d）所示:

（d）

式中，Z _c表示输入特征图X _conv第c个通道的统计值；F _sq表示Squeeze操作。通过平均池化，将每个通道的二维特征图(H×W)映射为一个具有全局感受野的实数。

进一步的，使用时间上下文处理所述深层特征，用以判断并筛选所述深层特征中的有效特征并输出；所述时间上下文处理是通过两个双向RNN层来完成的，每层包含256个GRU单元。其通过对深层特征进行时间上下文信息的处理（学习），判断并筛选对声音事件检测和定位的有效特征。

所述浅层特征包括声音事件检测特征和定位时频特征；

所述声音事件检测特征包括对数梅尔频谱图特征；

所述定位时频特征包括广义互相关的相位变换特征。

进一步的，提取所述音频数据的浅层特征并输出的步骤具体包括：

从所述音频数据中提取广义互相关的相位变换特征和对数梅尔频谱图特征，并在通道维度叠加后输出。其中广义互相关的相位变换（GCC-PHAT，全称Generalized Cross-Correlation with Phase Transform，广义互相关的相位变换）是一种用于声源定位的算法，它是一种广义的互相关函数，可以用于处理非平稳信号，在使用多个声源接收信号时，通过计算不同声源的时间差来确定不同声源的位置，在这个过程中GCC-PHAT可以起到更好的效果；对数梅尔频谱图（Log-mel-spectrogram）是一种音频特征提取方法,常用于语音识别、声纹识别等任务。

所述声音事件检测特征以所述音频数据的对数梅尔频谱图（Log-mel-spectrogram）表示，所述定位时频特征以所述音频数据的广义互相关函数GCC-PHAT表示，广义互相关函数长度与Log-Mel维度相同。

进一步的，通过回归处理输出动物的识别及定位结果的步骤具体包括：

使用回归处理所述有效特征，以生成所述动物声源信息的动物种类信息和对应的动物位置信息并输出。所述回归处理通过Dropout层和两层全连接层实现，其中Dropout层用于防止过拟合，第一个全连接层包含256个单元，采用Linear激活函数，第二个全连接层使用Tanh激活函数，输出声源的声音事件类别以及归一化后的三维空间坐标。

一种基于声音事件的动物识别与定位系统，该系统包括数据采集模块、数据提取模块、残差注意力网络、时间上下文表示模块以及回归处理模块，其中：

所述数据采集模块，用于采集动物声源信息；

所述数据提取模块，用于通过动物声源信息提取浅层特征并输出；

所述残差注意力网络，用于通过浅层特征生成深层特征并输出；

所述时间上下文表示模块，用于根据深层特征判断筛选有效特征并输出；

所述回归处理模块，用于通过深层特征生成所述动物声源信息的动物种类信息和对应的动物位置信息并输出。

本发明的有益效果包括有：

本发明以原始音频作为模型的输入，从中提取位置估计和声音事件检测的浅层特征，并由残差网络学习其中的深层特征，将通道注意力应用于位置估计和声音事件检测的深层特征提取模块，增强模型特征表达能力，并在模块中引入深度可分离卷积，降低其计算量及复杂度，提高模型的运算速度。从而增强模型特征表达能力，提高了基于声音事件的检测和定位精度，实现了从多通道录音数据中检测目标动物并进行位置估计。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1为本发明的流程原理示意图；

图2为本发明实施例中算法的流程示意图；

图3为本发明实施例中的残差注意力网络模块；

图4为本发明实施例中的深度可分离残差块结构；

图5为本发明实施例中的基于压缩激励网络的注意力网络模块；

图6为本发明实施例中二的声音事件检测模型总体结构图；

图7为本发明实施例中二的深度可分离卷积残差注意力模块网络结构图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只作为示例，而不能以此来限制本发明的保护范围。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

实施例一

如图1所示：

一种基于声音事件的动物识别与定位方法，包括以下步骤：

提取所述音频数据的浅层特征并输出；

通过回归处理输出动物的识别及定位结果。

在本实施例中，所述声音事件标签为发声动物的发声片段起止帧以及发声动物的物种类别，位置标签为发声动物的空间坐标。

在本实施例中，所述的一种基于声音事件的动物识别与定位方法，还包括：

所述音频数据的通道数为三通道或三通道以上；

若估计k维空间位置，则所述音频数据的通道数至少为k+1。

如图2所示，其中多通道的音频、事件标签和位置标签通过浅层特征提取，使用时间上下文表示后，经过全连接，最后通过回归处理，得到在某一帧的三维坐标，例如图中包括了灰雁、苍鹭以及灰山鹑的在第t帧的三维坐标。

在本实施例中，如图3所示，所述残差注意力网络包括：标准卷积块、深度可分离卷积残差注意力块（ResidualBlock with Attention Module, ResBlk-A）；残差注意力网络首先通过两个卷积层和平均池化层减小输入的浅层特征，然后在输入深度可分离卷积残差注意力模块，用于从输入数据中提取深层特征。

所述深度可分离卷积残差注意力块包括深度可分离卷积层、注意力层，且所述深度可分离卷积残差注意力块的输入和输出之间设有跳跃连接，采用深度可分离卷积构建残差块（如图4所示），对标准卷积过程进行分解，首先在每个通道上进行滤波，然后采用1×1点卷积组合每个通道上的输出，显著降低计算成本和模型大小。

（a）

式中，表示尺寸为i×j的卷积核，其第m个卷积核对输入特征X第m个通道进行运算，可得到输出特征图/> 的第m个通道。深度可分离卷积的参数量和计算成本分别如公式（b）和公式（c）所示：

（b）

（c）

如图5所示，所述注意力层将压缩激励网络模块应用于深层特征提取模块中的每个深度可分离卷积残差块中。对不同通道特征进行加权，进一步加强通道信息的保留，抑制背景噪声对特征提取的干扰，从而提取对识别声音事件和位置信息更有效的高级特征。所述压缩激励网络模块主要分为挤压（Squeeze）、激励（Excitation）以及调整输出特征（Scale）三个操作。对于残差块输入特征X，在通过两个深度可分离卷积块后得到特征图，其中高为H，宽为W，通道数为C。在SE模块中，首先对特征图X _conv进行挤压，通过全局平均池化操作将每个通道的特征值相加再取平均，得到所有通道的全局特征，计算表达式如式（d）所示:

（d）

在本实施例中，使用时间上下文处理所述深层特征，用以判断并筛选所述深层特征中的有效特征并输出；所述时间上下文处理是通过两个双向RNN层来完成的，每层包含256个GRU单元。其通过对深层特征进行时间上下文信息的处理（学习），判断并筛选对声音事件检测和定位的有效特征。

所述浅层特征包括声音事件检测特征和定位时频特征；

所述声音事件检测特征包括对数梅尔频谱图特征；

所述定位时频特征包括广义互相关的相位变换特征。

在本实施例中，提取所述音频数据的浅层特征并输出的步骤具体包括：

从所述音频数据中提取广义互相关的相位变换特征和对数梅尔频谱图特征，并在通道维度叠加后输出。

所述声音事件检测特征以所述音频数据的和对数梅尔频谱图表示，所述定位时频特征以所述音频数据的广义互相关函数GCC-PHAT表示，广义互相关函数长度与Log-Mel维度相同。

在本实施例中，通过回归处理输出动物的识别及定位结果的步骤具体包括：

所述数据采集模块，用于采集动物声源信息；

实施例二

基于实施例一的内容，在本实施例中，所述数据集（动物声源信息）来源于自然声音检测数据集，音频由采集的鸟鸣声音文件按目标鸟鸣时间段进行2s标准化切割而成，本实施例中首先统一音频数据的格式，将数据重采样为32k单通道16位编码的音频，并模拟声音的传播和环境噪声构建了多通道音频数据。

在本实施例中，如图6所示，所述一种基于声音事件的动物识别与定位系统由特征提取模块（数据采集模块和数据提取模块）、深层特征提取模块（残差注意力网络）、时间上下文表示模块和全连接模块（回归处理模块）组成。

从所述音频数据中提取广义互相关的相位变换特征和对数梅尔频谱图特征，并在通道维度叠加后输出；

所述深层特征提取模块为基于残差网络的卷积骨干网络，为更好地从数据中学习特征，将注意力机制应用于该模块。残差网络通过堆积卷积层数加深网络结构，通过跳跃连接避免梯度消失或爆炸，但在增大卷积层数的同时也需要学习更多的参数，为减少学习参数，降低模型复杂度，采用深度可分离卷积替换残差网络中的标准卷积。其首先通过两个卷积层和平均池化层减小输入的拼接特征，然后将提取的数据输入深度可分离卷积残差注意力模块（Residual Block with Attention Module, ResBlk-A），用于提取更深层次的特征。

所述时间上下文表示模块由双向门控循环单元（Bidirectional Gate RecurrentUnit, BiGRU）构成，每层包含256个GRU单元。通过对深层特征模块提取的特征进行时间上下文信息的学习，判断并筛选对声音事件检测和定位有效的特征；

最后所述全连接模块由Dropout层和两层全连接层构成，其中Dropout层用于防止过拟合，第一个全连接层包含256个单元，采用Linear激活函数，第二个全连接层使用Tanh激活函数，输出声源的声音事件类别以及归一化后的三维空间坐标。

在本实施例中，如图7所示，深度可分离卷积残差注意力模块（ResBlk-A）由深度可分离卷积层和注意力层构成，输入输出之间有一个跳跃连接，采用深度可分离卷积构建残差块，对标准卷积过程进行分解，首先在每个通道上进行滤波，然后采用简单的1×1点卷积组合每个通道上的输出，显著降低计算成本和模型大小。将注意力机制应用于残差块，学习每个特征通道的重要程度，提升有效特征，忽略对当前任务用处不大的特征，增强深层特征提取模块特征提取的能力。

其中可以优选BN-ReLU让ReLU更好地产生特征选择作用，因为输入值分布更接近0均值（有重构，所以不是等于0均值），于是ReLU的单侧抑制作用得以展现，不会出现输入全分布在0的一侧（正或负）。BN-ReLU：批归一化BN(Batch Normalization)、线性整流函数ReLU（Rectified Linear Unit）。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换等，均应包含在本申请的保护范围之内。

Claims

1.一种基于声音事件的动物识别与定位方法，其特征在于，包括以下步骤：

提取所述音频数据的浅层特征并输出；

通过回归处理输出动物的识别及定位结果；

所述残差注意力网络包括：标准卷积块、深度可分离卷积残差注意力块；所述深度可分离卷积残差注意力块包括深度可分离卷积层、注意力层，且所述深度可分离卷积残差注意力块的输入和输出之间设有跳跃连接。

2.根据权利要求1所述的一种基于声音事件的动物识别与定位方法，其特征在于，所述声音事件标签为发声动物的发声片段起止帧以及发声动物的物种类别，位置标签为发声动物的空间坐标。

3.根据权利要求1所述的一种基于声音事件的动物识别与定位方法，其特征在于，还包括：

所述音频数据的通道数为三通道或三通道以上；

若定位动物在k维空间中的位置，则所述音频数据的通道数至少为k+1。

4.根据权利要求1所述的一种基于声音事件的动物识别与定位方法，其特征在于，还包括：

所述浅层特征包括声音事件检测特征和定位时频特征；

所述声音事件检测特征包括对数梅尔频谱图特征；

所述定位时频特征包括广义互相关的相位变换特征。

5.根据权利要求1所述的一种基于声音事件的动物识别与定位方法，其特征在于，提取所述音频数据的浅层特征并输出的步骤具体包括：

6.根据权利要求1所述的一种基于声音事件的动物识别与定位方法，其特征在于，通过回归处理输出动物的识别及定位结果的步骤具体包括：

使用回归处理所述有效特征，以生成所述动物声源信息的动物种类信息和对应的动物位置信息并输出。

7.一种基于声音事件的动物识别与定位系统，其特征在于，用于权利要求1-6任意一项所述的基于声音事件的动物识别与定位方法，该系统包括数据采集模块、数据提取模块、残差注意力网络、时间上下文表示模块以及回归处理模块，其中：

所述数据采集模块，用于采集动物声源信息；

8.根据权利要求7所述的一种基于声音事件的动物识别与定位系统，其特征在于，所述残差注意力网络包括：标准卷积块、深度可分离卷积残差注意力块；所述深度可分离卷积残差注意力块包括深度可分离卷积层、注意力层，且所述深度可分离卷积残差注意力块的输入和输出之间设有跳跃连接。