CN115762533A

CN115762533A - 一种鸟鸣声分类识别方法及装置

Info

Publication number: CN115762533A
Application number: CN202211343564.6A
Authority: CN
Inventors: 周晓彦; 王基豪; 李大鹏; 韩智超; 王丽丽
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2022-10-31
Filing date: 2022-10-31
Publication date: 2023-03-07

Abstract

本发明公开了一种鸟鸣声分类识别方法及装置，包括：获取鸟鸣声音频数据；对鸟鸣声音频数据进行预处理，得到预处理后的音频数据；对预处理后的音频数据进行傅里叶变换，得到鸟鸣声的语谱图；基于梅尔频率倒谱系数和差分运算得到预处理后的音频数据的MFCC混合特征向量；利用CNN网络处理语谱图，训练后得到局部细粒度频谱特征；利用Transformer编码器网络处理MFCC混合特征向量，训练后得到兼顾上下文的全局序列特征；将局部细粒度频谱特征与全局序列特征拼接融合后通过Softmax分类器得到鸟鸣声的识别分类结果。本发明能够提高鸟声分类识别准确率。

Description

一种鸟鸣声分类识别方法及装置

技术领域

本发明涉及一种鸟鸣声分类识别方法及装置，属于鸟声识别技术领域。

背景技术

鸟类作为生态系统中的重要组成部分，分布广泛且对环境变化敏感，多数学者将鸟类作为监测环境变化的指示物种，为此对鸟类物种的监测、识别及分类具有重要意义。传统的鸟类监测主要通过分析鸟类形态差异来判断不同鸟类的分布，而在实际监测中，由于鸟类形态监测存在成本高、范围限制大、效率低等问题，使得目前鸟鸣声监测成为识别鸟类物种的主流监测方向。

鸟声识别的主要过程包括预处理、特征提取以及分类方法三个方面。之前国内外学者围绕基于鸟鸣声的鸟类识别问题，通过手工提取特征、机器学习等方法展开了大量的研究，但对识别效果的提升一直比较有限。主要原因在于现有的方法大多对特征的提取利用较为单一，识别效果容易受到外界自然噪声的干扰。为解决此问题，提出了一种基于卷积神经网络和Transformer组合模型的鸟声识别方法。

发明内容

为了解决现有技术中存在的问题，本发明提出了一种基于卷积神经网络和Transformer组合模型的鸟鸣声分类识别方法及装置，基于短时傅里叶变换和梅尔频率倒谱系数进行特征提取，多特征融合增加特征的差异性，基于卷积神经网络和Transformer组合模型进行特征处理，降低环境噪声的干扰，提高鸟鸣声分类识别准确度。

为解决上述技术问题，本发明采用了如下技术手段：

第一方面，本发明提出了一种鸟鸣声分类识别方法，包括如下步骤：

获取鸟鸣声音频数据；

对鸟鸣声音频数据进行预处理，得到预处理后的音频数据；

对预处理后的音频数据进行傅里叶变换，得到鸟鸣声的语谱图；

基于梅尔频率倒谱系数和差分运算得到预处理后的音频数据的MFCC混合特征向量；

利用CNN网络处理语谱图，训练后得到局部细粒度频谱特征；

利用Transformer编码器网络处理MFCC混合特征向量，训练后得到兼顾上下文的全局序列特征；

将局部细粒度频谱特征与全局序列特征拼接融合后通过Softmax分类器得到鸟鸣声的识别分类结果。

结合第一方面，进一步的，对鸟鸣声音频数据进行预处理包括：预加重、分帧加窗。

结合第一方面，进一步的，基于梅尔频率倒谱系数和差分运算得到预处理后的音频数据的MFCC混合特征向量的方法为：

对预处理后的音频数据进行快速傅里叶变换获得功率能量谱；

将功率能量谱输入到梅尔滤波器组中，得到梅尔能量值；

对梅尔能量值取对数并进行离散余弦变换后得到梅尔频率倒谱系数静态分量；

对梅尔频率倒谱系数静态分量进行差分计算，得到一阶差分向量和二阶差分向量；

将梅尔频率倒谱系数静态分量、一阶差分向量和二阶差分向量纵向拼接融合，得到MFCC混合特征向量。

结合第一方面，进一步的，所述CNN网络的主干为ResNet50网络，网络结构包括第一层卷积层、四组残差模块、全连接层，其中，卷积核大小均设定为3×3，池化层尺寸均设定为2×2×2。

结合第一方面，进一步的，Transformer编码器网络包括输入层、多头注意力模块、多层感知机模块和输出层。

第二方面，本发明提出了一种鸟鸣声分类识别装置，包括：

音频读取模块，用于获取鸟鸣声音频数据；

预处理模块，用于对鸟鸣声音频数据进行预处理，得到预处理后的音频数据；

STFT模块，用于对预处理后的音频数据进行傅里叶变换，得到鸟鸣声的语谱图；

MFCC模块，用于基于梅尔频率倒谱系数和差分运算得到预处理后的音频数据的MFCC混合特征向量；

网络模型训练模块，用于利用CNN网络处理语谱图，训练后得到局部细粒度频谱特征；利用Transformer编码器网络处理MFCC混合特征向量，训练后得到兼顾上下文的全局序列特征；

分类识别模块，用于将局部细粒度频谱特征与全局序列特征拼接融合后通过Softmax分类器得到鸟鸣声的识别分类结果。

结合第二方面，进一步的，MFCC模块的操作如下：

将功率能量谱输入到梅尔滤波器组中，得到梅尔能量值；

结合第二方面，进一步的，在网络模型训练模块中，所述CNN网络的主干为ResNet50网络，网络结构包括第一层卷积层、四组残差模块、全连接层，其中，卷积核大小均设定为3×3，池化层尺寸均设定为2×2×2；Transformer编码器网络包括输入层、多头注意力模块、多层感知机模块和输出层。

采用以上技术手段后可以获得以下优势：

本发明提出了一种鸟鸣声分类识别方法及装置，对待识别的鸟鸣声音频数据进多特征提取，一方面利用短时傅里叶变换(STFT)绘制成STFT能量三维语谱图作为第一种输入特征，另一方面将梅尔频率倒谱系数(MFCC)静态特征、一阶差分以及二阶差分融合组成MFCC混合特征向量作为第二种输入特征，加强了对时域特征上下文连续性的利用，并且降低了鸟声音频中环境噪声的干扰。本发明使用多特征融合来代替现有技术中的单一特征，扩大相似鸟声之间的差异性，有利于提高对不同鸟声识别的区分度。本发明利用CNN和Transformer结合的网络模型进行特征提取，CNN网络可以提取STFT语谱图中的局部频域信息，Transformer网络可以提取MFCC混合特征向量中兼顾上下文特征的全局时域信息，对两者进行融合后分类，能够充分利用STFT语谱图特征以及MFCC混合特征的优势，进一步降低外界自然噪声的干扰，有效提高网络模型识别的准确率，进而有效提高鸟鸣声音频的分类识别准确率。

附图说明

图1为本发明一种鸟鸣声分类识别方法的步骤流程图；

图2为本发明实施例中Transformer编码器的结构框图；

图3为本发明实施例中CNN-Transformer网络模型在Birdsdata数据集和xeno-canto数据集中训练100个epochs之后的准确率变化曲线；

图4为本发明实施例中CNN-Transformer网络模型在Birdsdata数据集和xeno-canto数据集中训练100个epochs之后的损失优化收敛曲线；

图5为本发明一种鸟鸣声分类识别装置的结构示意图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明：

本发明提出了一种鸟鸣声分类识别方法，如图1所示，具体包括如下步骤：

步骤A、以44.1kHz的频率读取原始鸟声音频，获取鸟鸣声音频数据。

步骤B、对鸟鸣声音频数据进行预处理，得到预处理后的音频数据。在本发明实施例中，预处理包括幅值归一化、预加重、分帧加窗等操作：幅值归一化采用最大值归一化，即将所得音频每一帧的幅值参数除以该段音频中所有元素绝对值的最大值，使得幅值完全分布在[-1,1]之间；预加重采用一阶FIR高通数字滤波器进行差分计算，设置预加重系数为0.935，用于弥补鸟声音频中高频部分的损耗；分帧加窗选用汉明窗作为窗函数，此外帧长设置为23ms，帧移设置为11ms，主要目的是为了将动态参数特征尽可能以静态的方式来分析，同时得到更加稳定的频谱参数。通过上述预处理步骤，可以将每一段鸟鸣声音频数据分为173帧音频数据，供后续操作。

步骤C、对预处理后的音频数据进行傅里叶变换(STFT)，得到鸟鸣声的语谱图，将STFT语谱图保存为[256,256,3]的三维图像。

步骤D、基于梅尔频率倒谱系数和差分运算得到预处理后的音频数据的MFCC混合特征向量。

步骤D01、对预处理后的音频数据进行快速傅里叶变换获得功率能量谱，再将功率能量谱输入到梅尔滤波器组中计算出具体的梅尔能量值，最后对梅尔能量值取对数并进行离散余弦变换后得到梅尔频率倒谱系数静态分量。取梅尔频率倒谱系数静态分量第1组到第13组共12组数据，得到大小为[12,173]的二维数组。

步骤D02、对梅尔频率倒谱系数静态分量进行差分计算，得到一阶差分向量和二阶差分向量，一阶差分向量和二阶差分向量均为[12,173]的二维数组。

步骤D03、将梅尔频率倒谱系数静态分量、一阶差分向量和二阶差分向量纵向拼接融合，得到MFCC混合特征向量(大小为[36，173]的二维数组)。

为了提高鸟鸣声识别准确率，本发明搭建CNN-Transformer网络模型，将STFT语谱图作为整体网络的第一分支输入特征，输入到以ResNet50作为主干的CNN网络中，将MFCC混合特征向量作为整体网络的第二分支输入特征，输入到Transformer编码器网络中，分别通过两个网络模型对两个分支输入特征进行特征提取。

在本发明实施例中，CNN网络的网络结构包括第一层卷积层、四组残差模块、全连接层，其中，卷积核大小均设定为3×3，池化层尺寸均设定为2×2×2。Transformer编码器网络如图2所示，包括输入层、多头注意力模块、多层感知机模块和输出层。

步骤E、利用CNN网络处理语谱图，训练后得到局部细粒度频谱特征。CNN网络的输入尺寸为256×256，将语谱图输入CNN网络，经过第一层卷积层之后输出大小为128×128，再通过四组残差模块，最后通过全连接层得到二维输出特征，即局部细粒度频谱特征。

步骤F、利用Transformer编码器网络处理MFCC混合特征向量，训练后得到兼顾上下文的全局序列特征。将尺寸大小为36×173的MFCC混合特征向量输入Transformer编码器网络，Transformer输入层首先会对特征向量进行位置编码，编码标记后得到大小36×173的新输入特征；接着Transformer第二层的多头注意力模块包括8个注意力计算头，他们对输入的173帧音频数据平均拆分计算各自的QKV注意力权重矩阵，并且交换全局信息，将计算得到的参数矩阵重新拼接后得到新的权重矩阵；最后将该矩阵送入多层感知机中，利用其内部的两个线性激活层得到最终的判定数组，该数组为大小是N×173的输出矩阵，即包含上下文信息的全局序列特征。

步骤G、将局部细粒度频谱特征与全局序列特征拼接融合后通过Softmax分类器得到鸟鸣声的识别分类结果。

为了验证本发明方法的效果，本发明实施例给出了如下实验：

本发明实验选用Birdsdata和xeno-canto鸟声数据集中的鸟鸣声音频作为实验样本数据，其中，Birdsdata是由北京百鸟数据科技公司发布的手工标注自然声音标准数据集，该数据集公开收集了共20类国内常见的鸟类鸣声，共计14311份wav音频文件，时长均为2s；而xeno-canto鸟声数据来源于全球性野外鸟声数据库，包含了44种欧亚地区且均为自然环境下录制的常见鸟类音频，共计34703份wax音频文件，时长在30s-5min不等且自带有环境噪声。以上数据集采样频率均为44.1kHz。

对鸟鸣声音频数据进行预处理，预加重系数为0.935，分帧加窗采用汉明窗，帧长为23ms，帧移为11ms。

本发明实验的硬件操作系统为Ubuntu20.04，网络模型的搭建全部采用Pytorch1.8.0深度学习框架。在整体训练过程中，迭代次数(epoch)设置为100，具体实验中将整体数据集按照8:2的比例划分为训练集和测试集，然后采用五折交叉验证的方式分别进行五次实验。实验以准确率和F1-score作为评价指标，共分为两个部分实验：1.对本发明鸟鸣声分类识别方法分别在两个数据集中进行五折交叉验证五次后计算均值和标准差，查看训练表现情况；2.将本发明鸟鸣声分类识别方法与其他较新的方法做对比实验，验证本发明方法的测试准确率。

图3、4分别为本发明方法所提出的CNN-Transformer网络模型在Birdsdata数据集和xeno-canto数据集中训练100个epochs之后的准确率变化曲线以及损失优化收敛曲线。通过图3、4可见，本发明提出的网络模型在大约40个epochs左右就能初步收敛完毕，整体收敛速度较快，且最终收敛时表现效果较好。

在本发明实验中，将数据集(Birdsdata数据集或xeno-canto数据集)分为A、B、C、D、E五等份，每次取其中四份作为训练集，一份作为测试集，进行实验。

本发明方法在Birdsdata数据集上的评估结果如表1所示：

表1

本发明方法在xeno-canto数据集上的评估结果如表2所示：

表2

通过表1和表2中的数据可以分析出，本发明网络模型在两个特点不同的数据集上均可以取得较好的识别效果，具有良好的泛化能力。

在本发明实验中，利用VGGNet、CRNN、CNN-LSTM、CNN(ResNet50)和Transformer作为对比方法，与本发明方法共同在Birdsdata数据集和xeno-canto数据集上进行鸟鸣声识别，识别结果如表3所示：

表3

从表3中可以看出，本方法与其他方法之间准确率的差别较大，本发明方法的准确率更高。其中，VGGNet、CRNN均只使用了单一的特征输入；CNN-LSTM虽然在xeno-canto数据集上的准确率对比仅低了1.5％，但参数量远大于本发明。本发明方法不仅充分体现了多特征融合的优势，而且有效提升了识别的准确率。

本发明还提出了一种鸟鸣声分类识别装置，如图5所示，主要包括音频读取模块、预处理模块、STFT模块、MFCC模块、网络模型训练模块和分类识别模块。

音频读取模块用于以44.1kHz的频率读取原始鸟声音频，获取鸟鸣声音频数据。

预处理模块主要用于对鸟鸣声音频数据进行预处理，得到预处理后的音频数据。预处理包括预加重、分帧加窗等操作，通过预处理可以将每一段鸟鸣声音频数据分为173帧音频数据。

STFT模块主要用于对预处理后的音频数据进行傅里叶变换，得到鸟鸣声的语谱图。

MFCC模块主要用于基于梅尔频率倒谱系数和差分运算得到预处理后的音频数据的MFCC混合特征向量。MFCC模块的具体操作如下：对预处理后的音频数据进行快速傅里叶变换获得功率能量谱，再将功率能量谱输入到梅尔滤波器组中计算出具体的梅尔能量值，最后对梅尔能量值取对数并进行离散余弦变换后得到梅尔频率倒谱系数静态分量；对梅尔频率倒谱系数静态分量进行差分计算，得到一阶差分向量和二阶差分向量；将梅尔频率倒谱系数静态分量、一阶差分向量和二阶差分向量纵向拼接融合，得到MFCC混合特征向量。

网络模型训练模块包括CNN-Transformer网络模型，用于利用CNN网络处理语谱图，训练后得到局部细粒度频谱特征；利用Transformer编码器网络处理MFCC混合特征向量，训练后得到兼顾上下文的全局序列特征。

在网络模型训练模块中，CNN网络的主干为ResNet50网络，网络结构包括第一层卷积层、四组残差模块、全连接层，其中，卷积核大小均设定为3×3，池化层尺寸均设定为2×2×2；Transformer编码器网络包括输入层、多头注意力模块、多层感知机模块和输出层。

分类识别模块用于将局部细粒度频谱特征与全局序列特征拼接融合后通过Softmax分类器得到鸟鸣声的识别分类结果。

与现有技术相比，本发明利用短时傅里叶变换(STFT)绘制成STFT能量三维语谱图作为第一种输入特征，将梅尔频率倒谱系数(MFCC)静态特征、一阶差分以及二阶差分融合组成MFCC混合特征向量作为第二种输入特征，解决了现有技术中鸟声识别方法中特征提取较为单一的问题，加强了对时域特征上下文连续性的利用，扩大相似鸟声之间的差异性，有利于提高对不同鸟声识别的区分度，并且降低了鸟声音频中环境噪声的干扰。本发明利用CNN和Transformer结合的网络模型进行特征提取，CNN网络可以提取STFT语谱图中的局部频域信息，Transformer网络可以提取MFCC混合特征向量中兼顾上下文特征的全局时域信息，对两者进行融合后分类，能够充分利用STFT语谱图特征以及MFCC混合特征的优势，进一步降低外界自然噪声的干扰，有效提高网络模型识别的准确率，进而有效提高鸟鸣声音频的分类识别准确率。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种鸟鸣声分类识别方法，其特征在于，包括如下步骤：

获取鸟鸣声音频数据；

对鸟鸣声音频数据进行预处理，得到预处理后的音频数据；

利用CNN网络处理语谱图，训练后得到局部细粒度频谱特征；

2.根据权利要求1所述的一种鸟鸣声分类识别方法，其特征在于，对鸟鸣声音频数据进行预处理包括：预加重、分帧加窗。

3.根据权利要求1所述的一种鸟鸣声分类识别方法，其特征在于，基于梅尔频率倒谱系数和差分运算得到预处理后的音频数据的MFCC混合特征向量的方法为：

将功率能量谱输入到梅尔滤波器组中，得到梅尔能量值；

4.根据权利要求1所述的一种鸟鸣声分类识别方法，其特征在于，所述CNN网络的主干为ResNet50网络，网络结构包括第一层卷积层、四组残差模块、全连接层，其中，卷积核大小均设定为3×3，池化层尺寸均设定为2×2×2。

5.根据权利要求1所述的一种鸟鸣声分类识别方法，其特征在于，Transformer编码器网络包括输入层、多头注意力模块、多层感知机模块和输出层。

6.一种鸟鸣声分类识别装置，其特征在于，包括：

音频读取模块，用于获取鸟鸣声音频数据；

7.根据权利要求6所述的一种鸟鸣声分类识别装置，其特征在于，MFCC模块的操作如下：

将功率能量谱输入到梅尔滤波器组中，得到梅尔能量值；

8.根据权利要求6所述的一种鸟鸣声分类识别装置，其特征在于，在网络模型训练模块中，所述CNN网络的主干为ResNet50网络，网络结构包括第一层卷积层、四组残差模块、全连接层，其中，卷积核大小均设定为3×3，池化层尺寸均设定为2×2×2；Transformer编码器网络包括输入层、多头注意力模块、多层感知机模块和输出层。