CN114863937A

CN114863937A - 基于深度迁移学习与XGBoost的混合鸟鸣识别方法

Info

Publication number: CN114863937A
Application number: CN202210536031.3A
Authority: CN
Inventors: 刘玮; 张飞; 张彦铎; 卢涛; 陈灯; 栗娟; 邵俊杰; 华鑫; 张鹏; 王凯
Original assignee: Wuhan Institute of Technology
Current assignee: Wuhan Institute of Technology
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2022-08-05
Anticipated expiration: 2042-05-17
Also published as: CN114863937B

Abstract

本发明提供了基于深度迁移学习与XGBoost的混合鸟鸣识别方法，通过计算log‑Mel频谱图的一阶差分系数和二阶差分系数，反映鸟鸣信号的变化过程，在保留物种有效信息的同时减少环境噪声等无关因素的影响，提升了识别鸟类物种的准确率；减少了环境背景噪声等无关因素的影响，有效识别了自然场景下的多种鸟类物种。本发明采用深度迁移学习微调VGG16模型构建特征提取器，提升了少样本训练数据下深度卷积神经网络的泛化能力，减少了参数训练，提升了运行效率。本发明将鸟鸣信号更准确的映射为鸟类物种，对自然环境中多种鸟类鸣声均具有良好的识别性能。

Description

基于深度迁移学习与XGBoost的混合鸟鸣识别方法

技术领域

本发明属于生态和人工智能技术领域，具体涉及基于深度迁移学习与XGBoost的混合鸟鸣识别方法。

背景技术

通过对自然环境下鸟类的识别与监测，统计区域生态环境中鸟类物种及分布状态，有利于生态学家分析研究动物的行为并掌握植物种类的丰富度，能够加强对区域生态环境的保护。自然环境中大部分场景下难以利用鸟类个体的图像特征进行识别，因此通过分析鸟类鸣声信号来自动识别鸟类物种受到研究者的广泛关注。

早期，基于模板匹配的方法通过衡量不同时间序列长度鸟鸣信号的相似度解决鸟类发音长短不一的问题达到准确识别鸟类物种的目的，该方法过于依赖鸟类个体原来的发音且无法对样本进行动态训练，难以应对自然场景下鸟类的发音易受个体生理因素以及环境场景的影响。一些研究者则探索基于鸟鸣特征建立分类模型的方法，其过程是先人工提取和选择合适的鸟鸣特征，再根据鸟鸣特征建立高效的分类模型进行识别。经过人工手动提取的鸟鸣特征多为静态的声学特征，对噪声敏感，易造成分类模型识别准确率低。近年来，计算机视觉技术的发展使得通过提取鸟鸣信号的时频域特征训练深度卷积神经网络模型对鸟类鸣声进行分类识别成为可能，深度卷积神经网络的特性可以克服音频信号的复杂多样性并且其强大的隐式特征提取能力可以自动获取并表征输入的鸟鸣信号，但现实中只能获取指定自然场景中少量的高质量鸟鸣数据，这限制了深度卷积神经网络通过鸟鸣信号描述鸟类物种的能力并且训练的网络模型容易产生过拟合，其次随着深度卷积神经网络模型深度的提高，惊人的参数量会耗费大量的时间和资源来训练。

发明内容

本发明要解决的技术问题是：提供基于深度迁移学习与XGBoost的混合鸟鸣识别方法，用于在自然场景下实时识别和监测鸟类物种。

本发明为解决上述技术问题所采取的技术方案为：基于深度迁移学习与XGBoost的混合鸟鸣识别方法，包括以下步骤：

S1：收集自然环境下的多种鸟类鸣声，每种鸟类鸣声信号包括多个时间序列相同的鸣声片段；建立基于自然场景设计和收集的鸟鸣音频库；

S2：对鸟鸣音频库的每个鸣声片段进行预处理获得短时平稳的鸣声信号，将每帧鸣声信号通过快速傅里叶变换后取绝对值的平方得到能量谱图；

S3：将能量谱图经过64阶梅尔滤波器映射为Mel频谱图，作为深度迁移学习与XGBoost混合鸟鸣识别模型的输入；对Mel频谱图取对数得到log-Mel频谱图；计算log-Mel频谱图的一阶差分系数和二阶差分系数获得动态声学特征；将一阶差分系数和二阶差分系数与log-Mel频谱图组合成为三维log-Mel频谱图；

S4：采用参数迁移微调在ImageNet数据集上预训练的深度卷积神经网络VGG16模型，得到针对鸟鸣信息的特征提取器，并提取三维log-Mel时频谱图的高维隐式特征；

S5：将三维log-Mel时频谱图的高维隐式特征按照一定比例划分为训练集、测试集和验证集；采用训练集训练XGBoost分类器，并在验证集上调整XGBoost分类器的参数，最后在测试集上将高维隐式特征映射为鸟类物种。

按上述方案，所述的步骤S1中，每个鸟鸣片段的时间序列长度为2秒，采样率为22.05khz，存储格式为.wav。

进一步的，所述的步骤S2中，具体步骤为：

S21：将2秒的鸟鸣片段分割为1.5秒并设置1秒的重叠保证鸣声的连续性；

S22：对分割后的鸟鸣信号进行分帧，设置帧长为2048个采样点，帧移为512个采样点得到短时平稳信号；

S23：设n为采样点的取值，N为帧长，则汉明窗计算公式ω(n)为：

设每帧信号为s(n)，对分帧后的每帧信号乘以汉明窗进行加窗得到x(n)：

x(n)＝w(n)·s(n)，0≤n≤N-1；

S24：设k是快速傅里叶变换的点数，对加窗后的鸟鸣信号x(n)进行快速傅里叶变换计算各帧的频谱，并对频谱取绝对值的平方，得到用于反映时域和频域特征信息的能量谱：

S25：绘制以时间为横轴、频率为纵轴的能量谱图，通过颜色明暗表示能量高低。

进一步的，所述的步骤S3中，具体步骤为：

S31：64阶梅尔滤波器具有人耳滤波功能，使用64阶梅尔滤波器对能量谱图进行滤波得到大小为64×64的Mel频谱图；

S32：对Mel频谱图取对数得到log-Mel频谱图L_(m)，log-Mel频谱图L_(m)具备静态声学特征；

S33：计算log-Mel频谱图L_(m)的一阶差分系数L_(m) ^d和二阶差分系数L_(m) ^dd获得动态声学特征，用于捕捉相邻两帧与相邻三帧之间音频信号的动态关系：

S34：将一阶差分系数L_(m) ^d和二阶差分系数L_(m) ^dd作为log-Mel频谱图L_(m)的动态补充特征形成大小为64×64×3的三维log-Mel频谱图。

进一步的，所述的步骤S4中，具体步骤为：

S40：在ImageNet数据集上预训练深度卷积神经网络VGG16模型；

S41：采用参数迁移保留VGG16模型的浅层结构与参数权重；

S42：微调VGG16模型的深层结构；

S43：使用三维log-Mel频谱图重新训练深层结构的参数权重，得到针对鸟鸣信息的特征提取器；

S44：通过特征提取器提取三维log-Mel时频谱图的高维隐式特征。

进一步的，所述的步骤S42中，具体步骤为：

将VGG16模型的输入尺度调整为64×64×3；

VGG16模型包括5组共13个卷积层；每个卷积层的卷积核大小为3×3，其中第一组2个卷积层各有64个通道，卷积层之后使用RelU激活函数用于增加非线性映射、缓解梯度消失、提升网络的稀疏性；

还包括4个2x2的最大池化层分别连接在每组卷积层之间，用于对上层输出特征进行下采样，使池化后输入变成输出大小的一半，通道数增大一倍；

还包括2个全连接层，通过全局平均池化层连接最后一层卷积层；全连接层包括512个神经元，用于把分布式特征表示映射到样本标记空间；全连接层后添加有Dropout函数，用于按照一定的概率随机丢弃神经元，防止网络产生过拟合。

进一步的，所述的步骤S43中，具体步骤为：

把从鸟鸣信号中提取的大小为64×64×3的三维log-Mel频谱图作为VGG16模型的输入，重新训练最后两组卷积层和全连接层，得到基于VGG16模型的特征提取器。

进一步的，所述的步骤S5中，具体步骤为：

S51：将三维log-Mel时频谱图的高维隐式特征按6：2：2的比例随机划分为训练集、测试集和验证集，分别与实际对应标签存储为DMatrix格式以符合XGBoost的输入要求；

S52：采用训练集训练XGBoost分类器，将无意义的高维隐式特征重新描述为显示特征，用于增加所提取特征的可解释性；

S53：在验证集上不断调整参数达到最优组合；

S54：在测试集上将鸟鸣信号映射为鸟类物种。

一种计算机存储介质，其内存储有可被计算机处理器执行的计算机程序，该计算机程序执行基于深度迁移学习与XGBoost的混合鸟鸣识别方法。

本发明的有益效果为：

1.本发明的基于深度迁移学习与XGBoost的混合鸟鸣识别方法，通过计算log-Mel频谱图的一阶差分系数和二阶差分系数，反映鸟鸣信号的变化过程，保留物种有效信息的同时减少环境噪声等无关因素的影响，提升了识别鸟类物种的准确率；克服了传统鸟鸣识别方法依赖鸟类个体发音且无法进行动态训练、需要人工提取和选择合适谱图特征、鸟鸣识别模型因训练样本不足导致泛化能力弱的缺点，减少了环境背景噪声等无关因素的影响，有效识别了自然场景下的多种鸟类物种。

2.本发明引入通过深度卷积神经网络VGG16自动提取鸟鸣信号的高维隐式特征，克服了自然环境中鸟鸣音频背景噪声的复杂性。

3.本发明采用深度迁移学习微调VGG16模型构建特征提取器，提升了少样本训练数据下深度卷积神经网络的泛化能力，减少了参数训练，提升了运行效率。

4.本发明构建XGBoost分类器将高维隐式特征重新描述为可解释的显示特征，将鸟鸣信号更准确的映射为鸟类物种，对自然环境中多种鸟类鸣声均具有良好的识别性能。

附图说明

图1是本发明实施例的流程图。

图2是本发明实施例的三维log-Mel频谱的提取流程图。

图3是本发明实施例的三维log-Mel频谱图。

图4是本发明实施例的深度迁移学习与XGBoost的混合网络结构图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。

参见图1，本发明实施例的基于深度迁移学习与XGBoost的混合鸟鸣识别方法，包括以下步骤：

S1：收集基于自然环境下录制的10种鸟类鸣声共14311条音频，每种鸟类鸣声信号包含多个时间序列相同的鸣声片段，每个鸟鸣片段的时间序列长度为2秒，采样率为22.05khz，存储格式为.wav，建立基于自然场景设计和收集的鸟鸣音频库如下表。

S2：对鸟鸣音频库的每个鸣声片段进行预处理获得短时平稳的鸣声信号，将每帧鸣声信号通过快速傅里叶变换并取绝对值的平方得到能量谱图。其中预处理是将2秒的鸟鸣片段分割为1.5秒并设置1秒的重叠保证鸣声的连续性，对分割后的鸟鸣信号进行分帧，设置帧长为2048个采样点，帧移为512个采样点得到短时平稳信号，加窗即对分帧之后对每帧信号乘以汉明窗，增强帧与帧之间的连续性，减少特征信息的丢失，计算方法为

x(n)＝w(n)·s(n)，0≤n≤N-1 (2)

其公式(1)中ω(n)为汉明窗计算公式，通过公式(2)将汉明窗与给定的每帧信号s(n)相乘进行加窗，N为帧长。

将经过预处理的鸟鸣信号x(n)利用快速傅里叶变换计算各帧的频谱，并对频谱取绝对值的平方得到能够反映时域和频域特征信息的能量谱。快速傅里叶变换的计算方法如公式(3)。

S3：三维log-Mel频谱图是由静态的log-Mel频谱图与动态一阶差分系数和动态二阶差分系数组合而成。结合图2，该步骤具体为：

1.使用64阶Mel滤波器组对能量谱图进行滤波得到大小为64×64的Mel频谱，其中Mel滤波器组可以模仿人耳特殊的滤波功能，在具有噪声的环境种以及各种编译情况下仍能准确分辨处各种鸟类的鸣声，将得到的Mel频谱图取对数得到log-Mel频谱图。

2.由于log-Mel频谱图是一种对噪声鲁棒性差的静态声学特征，通过计算log-Mel频谱图的一阶差分系数和二阶差分系数可以获得动态声学特征，能够捕捉音频信号相邻两帧与相邻三帧之间的动态关系，具有良好抗噪性能；将一阶差分系数与二阶差分系数作为log-Mel频谱图的动态补充特征形成大小为64×64×3的三维log-Mel频谱图，如图3所示。log-Mel频谱图的一阶差分系数与二阶差分系数计算方法如公式(4)，公式(5)。

其中L_(m)表示log-Mel频谱图，L_(m) ^d代表一阶差分系数，L_(m) ^dd是二阶差分系数。

S4：基于VGG16的特征提取器是以ImageNet数据集上预训练的深度卷积神经网络VGG16为源模型，采用深度迁移学习中的参数迁移方法，用三维log-Mel频谱图对VGG16网络结构微调并进行重训练得到。模型的输入尺度调整为64×64×3，模型有5组共13个卷积层，每组卷积层之间以最大池化层连接共4个最大池化层，使用全局平均池化层连接卷积层与全连接层，2个全连接层之后都添加了Dropout函数。具体来说每个卷积层的卷积核大小为3×3，其中第一组的2个卷积层各有64个通道，卷积层之后使用RelU激活函数以增加非线性映射缓解梯度消失，提升网络的稀疏性，减少了参数的相互依存关系，更好地挖掘相关特征，拟合训练数据。为了减少无用信息的影响，保留更多谱图纹理信息，提升所提取特征的泛化能力，每组卷积层之间均采用2x2的最大池化层来对上层输出特征进行下采样，池化后输入变成输出大小的一半，通道数增大一倍。经过多组卷积层与最大池化层的处理，最后一层卷积层的输出不是直接与全连接层相连，而是先经过全局平均池化层处理后再输入到全连接层，这样可以极大的减少网络模型的参数，获得全局感受野，提升识别效率。全连接层包含512个神经元，主要作用是把分布式特征表示映射到样本标记空间，减少特征位置对分类带来的影响。全连接层之后通过Droupout函数按照一定的概率随机丢弃神经元，防止网络产生过拟合。网络结构如图4所示。把从鸟鸣信号中提取的大小为64×64×3的三维log-Mel频谱图作为模型的输入，重新训练最后两组卷积层以及全连接层得到基于VGG16的特征提取器并提取三维log-Mel频谱图的高维隐式特征。

S5：将三维log-Mel时频谱图的高维隐式特征按6：2：2的比例随机划分为训练集、测试集和验证集，分别与实际对应标签存储为DMatrix格式以符合XGBoost的输入要求。利用训练集对XGBoost分类器进行训练将无意义的高维隐式特征重新描述为显示特征，通过增加所提取特征的可解释性，提升对鸟鸣识别的有效性，然后在验证集上不断调整参数达到最优组合后在测试集上将鸟鸣信号映射为鸟类物种。

综上所述，本发明以自然环境下收集和设计的真实鸟鸣为基础建立鸟鸣音频库，对鸟鸣信号进行预处理、快速傅里叶变化等计算后提取log-Mel频谱图的一阶差分系数和二阶差分系数作为log-Mel频谱图的补充特征形成三维log-Mel频谱图。最后使用深度迁移学习的参数迁移方法微调预训练的VGG16构建特征提取器提取鸟鸣信号的高维隐式特征作为XGBoost分类器的输入实现鸟鸣信号到鸟类物种的识别。本发明所提供的技术方案，可应对自然环境中的多种鸟类进行识别，具有一定的抗噪性，所需计算资源低，可以实现对实际场景中鸟类物种的非侵入式识别与监测，对生态环境的研究具有重要意义。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。所以，凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰，均在本发明的保护范围之内。