CN117292693A

CN117292693A - 融入自注意力机制的crnn珍稀动物识别与定位方法

Info

Publication number: CN117292693A
Application number: CN202311592299.XA
Authority: CN
Inventors: 余涛; 王鑫; 何舒平; 陈向成; 宋军; 任乘乘
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2023-11-27
Filing date: 2023-11-27
Publication date: 2023-12-26
Anticipated expiration: 2043-11-27
Also published as: CN117292693B

Abstract

本发明涉及动物识别技术领域，尤其涉及一种融入自注意力机制的CRNN珍稀动物识别与定位方法，通过将功率归一化倒谱系数和线性预测倒谱系数融合，得到混合特征，与传统的音频特征梅尔倒谱系数、伽马通频率倒谱系数相比，具有更好的鲁棒性、抗噪性，大大提高了在噪声及混响环境中的识别准确度，且不需要过多的计算，本发明通过残差网络来作为系统的识别和定位网络，可以避免梯度爆炸和梯度消失，同时可以训练更深的网络，通过融入自注意力机制层，弥补了卷积不能处理序列数据时捕捉长程依赖关系的缺点，提高网络的识别和定位精度。

Description

融入自注意力机制的CRNN珍稀动物识别与定位方法

技术领域

本发明涉及动物识别技术领域，尤其涉及一种融入自注意力机制的CRNN珍稀动物识别与定位方法。

背景技术

为了维护保护区内珍稀动物的生态平衡，每年都需要保护区工作人员深入其中，展开详尽的调查工作，随着环境的恢复和珍稀动物种群的增加，调查和监测的工作量也显著上升，由于保护区内动物种类众多，采集的声音数据存在大量噪音，传统的声音识别和定位算法精度不足，定位性能有限。

发明内容

有鉴于此，本发明的目的在于提出一种融入自注意力机制的CRNN珍稀动物识别与定位方法，以解决现有技术定位精度不足的问题。

基于上述目的，本发明提供了一种融入自注意力机制的CRNN珍稀动物识别与定位方法，包括以下步骤：

步骤S1、建立模型训练需要的音频数据集；

步骤S2、建立同样结构的珍稀动物识别网络和定位网络，均包括2层卷积层、残差网络、自注意力机制层、全连接层和KNN分类器；

步骤S3、提取音频数据集的功率归一化倒谱系数和线性预测倒谱系数，处理得到混合特征；

步骤S4、将混合特征输入所述珍稀动物识别网络，输出是否存在珍惜动物的分类结果；

步骤S5、对珍稀动物识别进行反复训练至收敛，得到训练后的珍稀动物识别网络；

步骤S6、从音频数据集中提取出幅值和相位，将幅值和相位作为定位网络的训练特征，对定位网络反复训练至收敛，得到训练后的定位网络；

步骤S7、从待识别的音频中提取功率归一化倒谱系数和线性预测倒谱系数，处理得到混合特征，将混合特征输入训练后的珍惜动物识别网络，得到分类结果，判断是否有珍惜动物的声音，如果有，则对音频提取幅值和相位，将幅值和相位作为定位的特征，输入定位网络，输出珍稀动物发出声音位置的方向角。

优选地，提取功率归一化倒谱系数的步骤包括：

将音频数据通过一个高通滤波器进行预加重，预加重的公式为

；

式中表示预加重滤波器的预加重系数，/>表示输入信号的第n个采样点，表示输入信号的第n-1个样本点，/>表示输出信号的第n个样本点；

对音频数据进行分帧，得到每帧为20-40ms的短时平稳音频信号；

将分帧后的音频信号乘以Hamming窗函数进行加窗；

对加窗后的音频信号进行短时傅里叶变换，转换为频域上的能量分布，短时傅里叶变换的公式为

；

其中N是每个窗口里的采样点数，j是虚数单位，表示为第i帧的音频信号,n为音频信号的采样点的索引，k表示频率域的离散频率点索引,K代表频谱的分辨率;

将音频信号的频谱取模平方，得到语音信号的谱线能量，公式为

；

为第i帧的信号，/>是将/>进行短时傅里叶变换，N是STFT的点数;

将得到的谱线能量输入到Gammatone滤波器组中；

将通过Gammatone滤波器组处理后的信号进行对数运算和离散余弦变换，得到功率归一化倒谱系数，离散余弦变换的公式为

；

其中L表示功率归一化倒谱系数的系数阶数，M表示三角滤波器个数，为需要倒谱的信号，m表示信号的离散样本点的下标。

优选地，建立模型训练需要的音频数据集包括：

获取鸳鸯、夜莺和普通翠鸟的音频，将音频全部转换为wav格式，再将音频进行切割成每2s一段的音频，将切割好的音频分别放入对应的文件夹中，形成音频数据集。

优选地，提取线性预测倒谱系数的步骤包括：

将音频数据通过一个高通滤波器进行预加重，进行预加重，预加重的公式为

；

将分帧后的音频信号乘以Hamming窗函数进行加窗；

对加窗后的音频信号进行自相关分析；

将自相关分析后的音频信号进行LPC分析；

将LPC分析后的信号进行对数运算和离散余弦变换，得到线性预测倒谱系数，离散余弦变换的公式为

；

优选地，处理得到混合特征包括：

分别对功率归一化倒谱系数PNCC和线性预测倒谱系数LPCC做差分运算，得到ΔPNCC和ΔLPCC，将PNCC、LPCC、ΔPNCC和ΔLPCC融合为混合特征参数，融合的公式为：

；

式中，m表示PNCC的阶数，n表示LPCC的阶数，Pm表示第m阶的PNCC系数，ΔPm表示第m阶的PNCC一阶差分系数，Ln表示第n阶的LPCC系数，ΔLn表示第n阶的LPCC一阶差分系数。

优选地，将混合特征输入所述珍稀动物识别网络，输出是否存在珍惜动物的分类结果包括：

将混合特征输入两层卷积层，使混合特征的通道提升至64，并对混合特征进行去噪；

将经过两层卷积层后的混合特征输入残差网络后再输入自注意力机制层；

将残差网络和自注意力机制处理后的混合特征参数输入三层全连接层后，接入KNN分类器，得出分类结果。

优选地，两层卷积层使用Conv2d卷积层、批处理归一化和整流线性单元激活函数，第一层卷积层有32个通道，第二层卷积层有64个通道。

优选地，残差网络包括五个残差模块，每个残差模块包括两个卷积层，每个卷积层是由Conv2d卷积层、64个通道、批处理归一化和整流线性单元激活函数组成。

本发明的有益效果：本发明设计了一种能够在野外识别并定位珍惜动物的系统，大大提高了保护区记录珍惜动物种群的工作效率，可以节约保护区大量的人力物力资源。

本发明提出一种新的音频特征融合方式，将功率归一化倒谱系数（PNCC）、线性预测倒谱系数(LPCC)以及它们的一阶差分参数ΔPNCC和ΔLPCC进行融合，得到的混合特征。与传统的音频特征梅尔倒谱系数（MFCC）、伽马通频率倒谱系数(GFCC)相比,本发明提出的混合特征具有更好的鲁棒性、抗噪性，大大提高了在噪声及混响环境中的识别准确度，且不需要过多的计算。

本发明使用残差网络来作为系统的识别和定位网络，可以避免梯度爆炸和梯度消失，同时可以训练更深的网络。然后在残差网络后融入自注意力机制层，弥补了卷积不能处理序列数据时捕捉长程依赖关系的缺点，提高网络的识别和定位精度。并且，本发明使用的识别和定位网络是同一种网络，说明本发明设计的网络架构广泛性性好。

本发明在全连接层后使用KNN分类器来进行分类，具有计算量少、更快的计算速度等优点，可以实现在线实时计算。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的融入自注意力机制的CRNN珍稀动物识别与定位方法流程示意图；

图2为本发明实施例的PNCC提取流程示意图；

图3为本发明实施例的LPCC提取流程示意图；

图4为本发明实施例的两层卷积结构图；

图5为本发明实施例的残差网络结构图；

图6为本发明实施例的全连接层-KNN分类器示意图；

图7为本发明实施例的识别与定位方法与现有算法定位性能比较图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，对本发明进一步详细说明。

需要说明的是，除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

如图1所示，本说明书实施例提供一种融入自注意力机制的CRNN珍稀动物识别与定位方法，包括以下步骤：

步骤S1、建立模型训练需要的音频数据集。从网上下载鸳鸯、夜莺和普通翠鸟的音频，然后将音频全部转换为wav格式，再将音频进行切割成每2s一段音频，最后将切割好的音频分别放入对应的文件夹中。

步骤S3、提取音频数据集的功率归一化倒谱系数（PNCC）和线性预测倒谱系数（LPCC），处理得到混合特征；

具体来说，PNCC提取流程图如图2所示，包括：

S3-1、预加重。将音频数据通过一个高通滤波器进行预加重，预加重的公式为：

；

式中表示预加重滤波器的预加重系数,值一般为0.9-1.0之间，本发明取值为0.97，/>表示输入信号的第n个采样点。/>表示输入信号的第n-1个样本点，即前一个样本点的值，/>表示输出信号的第n个样本点，即经过预加重后的信号。

S3-2、分帧。在大多数情况下，我们所听到的声音信号大都是非平稳的，而对一个非平稳的信号进行傅里叶变换是没有意义的。所以需要将音频信号进行分帧，等将音频信号分到可以看成短时平稳信号，就可进行傅里叶变换。分帧一般将信号分为20-40ms一帧，本发明将音频信号分为25ms一帧。

S3-3、加窗。在音频信号分帧后，再将分帧后的信号乘以窗函数，本发明使用Hamming窗来对音频信号进行加窗。加窗的目的是为了增加帧的左端和右端的连续性，减小频谱的泄露。

S3-4、短时傅里叶变换（STFT）。因为音频信号在时域上很难得出语音信号的特征，对它做STFT变换转换为频域上的能量分布来观察，不同的能量分布，就能代表不同语音的特性。

本发明使用的STFT的公式为：

；

其中N是每个窗口里的采样点数，j是虚数单位，表示为第i帧的音频信号。n为音频信号的采样点的索引，表示信号在一个窗口内的不同时间位置。k表示频率域的离散频率点索引。它代表了频率分量在频谱上的离散频率位置。K代表频谱的分辨率，也就是离散频率点的总数。

再将音频信号的频谱取模平方，可以得到语音信号的谱线能量，其公式为：

；

为第i帧的信号，/>是将/>进行短时傅里叶变换，N是STFT的点数；S3-5、Gammatone滤波器组。将得到的STFT能量谱输入到Gammatone滤波器组中。

S3-6：对数运算和离散余弦变换（DCT）。

将通过Gammatone滤波器组的信号做对数运算，然后在做DCT变换就可得到PNCC。离散余弦变换（DCT）公式为：

；

其中L表示功率归一化倒谱系数的系数阶数，n表示PNCC系数的下标，M表示三角滤波器个数，为需要倒谱的信号，m表示信号的离散样本点的下标，N是信号的长度或样本点的数量。

LPCC的特征提取与PNCC类似，步骤3-1至步骤3-3、以及步骤3-6一致，只需将步骤3-4与步骤3-5替换成自相关分析和LPC分析，流程图如图3所示，本说明书中不再对相同的步骤进行重复描述。

自相关分析的公式为：

；

其中，N 是窗口长度，R(k)表示信号x(n)的自相关系数，其中是时间滞后的步数，n表示音频信号的采样点索引。x(n)表示音频信号在采样点n的值，x(n-k)表示信号在时间点n-k的样本值。

通过LPC分析求出n阶LPC系数：

；

其中p是 LPC 阶数，是LPC系数，R（k）由自相关系数，R（k-m）表示信号的自相关系数的第(K-m)个样本，m是一个循环变量，它从1到p遍历，用于表示求和中的不同LPC系数。

得到LPC系数后，将LPC进行倒谱运算，即可得到LPCC特征。

倒谱运算的公式为：

；

其中L表示功率归一化倒谱系数的系数阶数，n表示LPCC系数的下标，M表示三角滤波器个数，为需要倒谱的信号，m表示信号的离散样本点的下标，N是信号的长度或样本点的数量。

成功提取PNCC和LPCC特征参数后，分别对PNCC和LPCC做差分运算，得到ΔPNCC和ΔLPCC。为了提高特征参数的抗噪性，PNCC、LPCC、ΔPNCC和ΔLPCC融合为混合特征，如下式所示：

；

步骤S4、在建立混合特征之后，将混合特征输入所述珍稀动物识别网络，输出是否存在珍惜动物的分类结果；

具体来说，在建立混合特征之后，先将混合特征输入到两层卷积层，这两层卷积层的目的是将输入特征的通道提升至64，并且对输入特征进行一次去噪，其结构图如图4所示，使用Conv2d卷积层、批处理归一化(BN)和整流线性单元(ReLU）激活函数，第一层卷积层有32个通道(filter)，第二层卷积层有64个通道(filter)。

在经过两层卷积层后，混合特征再输入到残差网络，然后再输入自注意力机制层，其中网络结构图如图5所示。每个残差模块由两个卷积层组成，每个卷积层是由Conv2d卷积层、64个通道(filter)，批处理归一化(BN)和整流线性单元(ReLU）激活函数组成。

经过自注意力机制层后，再由展平层输出一维特征向量并与3层全连接相连，最后使用KNN分类器输出结果,其结构图如图6所示。

具体来说，本发明的识别与定位方法，在实施时工作顺序为：

先将麦克风阵列收集到的出音频输入到系统，然后提取音频的PNCC和LPCC特征，在计算出它们的一阶差分，组合成混合特征参数。然后将混合特征参数输入到识别网络，输出是否有珍惜动物的声音。如果没有，返回第一步继续将麦克风阵列里收集到的音频进行特征提取。如果有珍惜动物的声音，那将麦克风阵列收集的音频进行快速傅里叶变换，提取出音频的幅值和相位，将提取到的幅值和相位作为定位的特征，输入到定位网络。然后定位网络输出珍稀动物发出声音位置的方向角。最后将得到的方向作为输入的控制指令，控制摄像头去抓拍珍惜动物。

为了论证本发明的性能，将本发明提供的识别与定位方法与BingYang等人在IEEETransactions on Audio, Speech and Language Processing (TASLP)发表的“LearningDeep Direct-Path Relative Transfer Function for Binaural Sound SourceLocalization”中公开的算法进行比较。

本发明从信噪比（SNR）和方向角（DOA）这两方面进行比较。图7中的'Proposed'表示为本发明设计的网络，'DP-RTF'表示为对比的网络。其中，从图7的（a）、（b）图中可以得出，无论信噪比（SNR）是多少，本发明设计的网络定位精度（ACC）和平均绝对误差（MAE）都比公开的定位网络的定位性能要好很多。从图7的（c）和（d）图中可以得出，在-45°~55°之间，本发明的网络定位性能虽然只略优于公开的定位网络，但是在两侧的方向角之间，无论是从精度（ACC）还是平均绝对误差（MAE），本发明的网络的定位性能远远优于公开网络的定位性能。所以，本发明的网络的性能优于公开网路的，而且即使在信噪比（SNR）为负的情况下，本发明的网络的定位精度都仍有70%以上，说明本发明的网络非常适用与野外的定位。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明的范围（包括权利要求）被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

本发明旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种融入自注意力机制的CRNN珍稀动物识别与定位方法，其特征在于，所述方法包括：

步骤S1、建立模型训练需要的音频数据集；

步骤S7、从待识别的音频中提取功率归一化倒谱系数和线性预测倒谱系数，处理得到混合特征，将混合特征输入训练后的珍惜动物识别网络，得到分类结果，判断是否有珍惜动物的声音，如果有，则对音频提取幅值和相位，将幅值和相位作为定位的特征，输入定位网络，输出珍稀动物发出声音位置的方向角；

其中提取功率归一化倒谱系数的步骤包括：

；

将分帧后的音频信号乘以Hamming窗函数进行加窗；

；

为第i帧的信号，/>是将/>进行短时傅里叶变换，N是STFT的点数；

将得到的谱线能量输入到Gammatone滤波器组中；

；

2.根据权利要求1所述的融入自注意力机制的CRNN珍稀动物识别与定位方法，其特征在于，所述建立模型训练需要的音频数据集包括：

3.根据权利要求1所述的融入自注意力机制的CRNN珍稀动物识别与定位方法，其特征在于，提取线性预测倒谱系数的步骤包括：

；

将分帧后的音频信号乘以Hamming窗函数进行加窗；

对加窗后的音频信号进行自相关分析；

将自相关分析后的音频信号进行LPC分析；

；

4.根据权利要求1所述的融入自注意力机制的CRNN珍稀动物识别与定位方法，其特征在于，所述处理得到混合特征包括：

；

5.根据权利要求1所述的融入自注意力机制的CRNN珍稀动物识别与定位方法，其特征在于，所述将混合特征输入所述珍稀动物识别网络，输出是否存在珍惜动物的分类结果包括：

6.根据权利要求5所述的融入自注意力机制的CRNN珍稀动物识别与定位方法，其特征在于，所述两层卷积层使用Conv2d卷积层、批处理归一化和整流线性单元激活函数，第一层卷积层有32个通道，第二层卷积层有64个通道。

7.根据权利要求5所述的融入自注意力机制的CRNN珍稀动物识别与定位方法，其特征在于，所述残差网络包括五个残差模块，每个残差模块包括两个卷积层，每个卷积层是由Conv2d卷积层、64个通道、批处理归一化和整流线性单元激活函数组成。