CN116386649A

CN116386649A - 一种基于云边协同的野外鸟类监测系统和方法

Info

Publication number: CN116386649A
Application number: CN202310367657.0A
Authority: CN
Inventors: 谢将剑; 张飞宇; 王颖祺; 张军国
Original assignee: Beijing Forestry University
Current assignee: Beijing Forestry University
Priority date: 2023-04-07
Filing date: 2023-04-07
Publication date: 2023-07-04

Abstract

本申请提供了一种基于云边协同的野外鸟类监测系统和方法，系统包括：音频采集模块，用于采集目标鸟类所处监测区域的音频信息；环境数据采集模块，用于采集监测区域的当前环境数据；主控制器模块，分别与音频采集模块和环境数据采集模块连接，用于通过鸟类鸣声检测模型确定音频信息是否包含鸟类鸣声，若是，确定音频信息为鸟类鸣声信息；云平台，用于接收主控制器模块发送的鸟类鸣声信息和当前环境数据，通过鸟类物种识别模型对鸟类鸣声信息、当前环境数据和预存的生态历史数据进行处理，得到目标鸟类的物种信息。本申请实现野外鸟类监测，通过鸟类鸣声检测模型实现有效音频信息的筛选，并提高鸟类物种识别的准确性。

Description

一种基于云边协同的野外鸟类监测系统和方法

技术领域

本申请涉及鸟类监测技术领域，尤其涉及一种基于云边协同的野外鸟类监测系统和方法。

背景技术

鸟类群落是生态系统的重要组成部分，是生态系统健康状况评价的指示物种，而对鸟类物种的调查和监测，是了解生态系统生物群落的组成和其健康状况的重要手段。

传统的鸟类监测方法主要依靠生态保护工作者长期蹲点进行，不仅费时费力，而且采集到的鸟类信息十分有限。近年来，随着被动声学技术的发展，通过在野外部署声学采集设备记录鸟类鸣声信息，并根据鸣声蕴含的信息特征，采用深度学习方法进行鸟类物种自动化识别，进而实现鸟类监测，开始受到越来越多的关注。

目前基于被动声学技术的鸟类监测方法目前存在两个问题：首先是通过野外部署声学采集设备获取的音频数据中包含大量的非鸣声数据，在传输时会消耗大量能量，影响设备在野外的使用寿命；其次是目前基于鸟类鸣声的物种识别方法仅基于鸣声蕴含的声学特征进行识别，在识别准确率上存在瓶颈，导致鸟类物种识别的准确率较低。

发明内容

本申请实施例的目的在于提供一种基于云边协同的野外鸟类监测系统和方法，以解决鸟类物种识别的准确率较低的问题。具体技术方案如下：

第一方面，提供了一种基于云边协同的野外鸟类监测系统，所述系统包括：

音频采集模块，用于采集目标鸟类所处监测区域的音频信息，其中，所述目标鸟类为待进行鸟类物种识别的鸟类；

环境数据采集模块，用于采集所述监测区域的当前环境数据；

主控制器模块，分别与所述音频采集模块和所述环境数据采集模块连接，用于通过鸟类鸣声检测模型确定所述音频信息是否包含鸟类鸣声，若是，则确定所述音频信息为鸟类鸣声信息；

云平台，用于接收所述主控制器模块发送的所述鸟类鸣声信息和所述当前环境数据，通过鸟类物种识别模型对所述鸟类鸣声信息、所述当前环境数据和预存的生态历史数据进行处理，得到所述目标鸟类的物种信息。

第二方面，提供了一种基于云边协同的野外鸟类监测方法，应用于云平台，所述方法包括：

通过主控制器获取目标鸟类所处监测区域的鸟鸣音频信息和当前环境数据，其中，所述主控制器通过鸟类鸣声检测模型确定接收到的音频信息是否包含鸟类鸣声，若是，则确定所述音频信息为鸟类鸣声信息，所述目标鸟类为待进行鸟类物种识别的鸟类；

将预先存储的历史生态数据、所述鸟鸣音频信息和所述当前环境数据输入鸟类物种识别模型，得到所述鸟类物种识别模型输出的所述目标鸟类的物种信息。

可选地，鸟类物种识别模型包括鸟类鸣声识别网络和生态位信息网络，所述目标鸟类包括至少一种鸟类；所述将预先存储的历史生态数据、所述鸟鸣音频信息和所述当前环境数据输入鸟类物种识别模型，得到所述鸟类物种识别模型输出的所述目标鸟类的物种信息包括：

通过所述鸟类鸣声识别网络对所述鸟鸣音频信息进行处理，得到各鸟类的鸟类物种预测向量；

根据所述历史生态数据和所述当前环境数据，通过所述生态位信息网络得到各鸟类的鸟类物种存在先验向量，其中，所述鸟类物种存在先验向量指示所述鸟类在所述监测区域生存的适宜度；

将每种鸟类对应的鸟类物种预测向量和鸟类物种存在先验向量相乘，得到每种鸟类对应的待选物种预测值；

从所述待选物种预测值中选取大于预测值阈值的目标物种预测值，并将所述目标物种预测值对应的鸟类物种作为所述目标鸟类的物种信息。

可选地，所述通过所述鸟类鸣声识别网络对所述鸟鸣音频信息进行处理，得到各鸟类的鸟类物种预测向量包括：

根据所述鸟鸣音频信息生成鸟鸣频谱图；

将所述鸟鸣频谱图输入所述鸟类鸣声识别网络，得到所述鸟类鸣声识别网络输出的各鸟类的鸟类物种预测向量。

可选地，将所述鸟鸣频谱图输入所述鸟类鸣声识别网络，得到所述鸟类鸣声识别网络输出的各鸟类的鸟类物种预测向量包括：

将所述鸟鸣频谱图依次输入1*1卷积层和3*3深度可分离卷积层，得到特征图向量；

将所述特征图向量分别输入多个不同大小的卷积层，得到每个卷积层输出的第一鸟鸣声区域特征，其中，在不同卷积层输出的第一鸟鸣声区域特征中，鸟鸣的持续时长和频率范围均不相同；

将所述第一鸟鸣声区域特征分别输入各卷积层对应的反卷积层，得到每个反卷积层输出的第二鸟鸣声区域特征，其中，所述反卷积层用于对所述鸟鸣频谱图的全局信息进行重新建模；

对每个所述第二鸟鸣声区域特征进行向量相加后，再通过激活函数层对相加后的向量进行放缩，得到注意力向量；

将所述注意力向量和所述特征图向量进行相乘，再经过1*1卷积层后，得到鸟类物种预测向量。

可选地，根据所述历史生态数据和所述当前环境数据，通过所述生态位信息网络得到各鸟类的鸟类物种存在先验向量包括：

将所述当前环境数据和所述历史生态数据输入物种分布预测模型，得到所述物种分布预测模型输出的不同鸟类在所述监测区域存在的先验概率；

将不同鸟类的先验概率输入所述生态位信息网络，得到所述生态位信息网络输出的各鸟类的鸟类物种存在先验向量。

第三方面，提供了一种基于云边协同的野外鸟类监测方法，应用于主控制器，所述方法包括：

获取监测区域中的音频信息，并将所述音频信息输入鸟类鸣声检测模型，其中，所述鸟类鸣声检测模型包括低级特征提取块、高级特征提取块和分类器；

采用所述低级特征提取块对所述音频信息进行处理，提取所述音频信息中的低级特征；

采用所述高级特征提取块对所述低级特征进行处理，提取所述音频信息中的高级特征；

将所述高级特征输入所述分类器，得到所述音频信息中包含鸟类鸣声的概率值；

若所述概率值大于预设概率阈值，则确定所述音频信息中包含鸟类鸣声，则将包含所述鸟类鸣声的音频信息作为目标鸟类的鸟鸣音频信息。

可选地，所述低级特征提取块包括两个依次连接的一维卷积层，所述一维卷积层用于提取所述音频信息中的低级特征。

可选地，所述高级特征提取块包括：

1*1的第一卷积层，用于增加输入通道数，提升特征维度；

3*3的深度可分离卷积层，与所述1*1的第一卷积层的输出端连接，用于对输入特征的空间维度和通道维度进行解耦；

注意力模块，与所述3*3的深度可分离卷积层的输出端连接，用于减少降维带来的信息丢失；

1*1的第二卷积层与所述注意力模块的输出端连接，所述1*1的第二卷积层用于减少通道数。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现任一所述的鸟类物种的识别方法步骤。

本申请实施例有益效果：

本申请实施例提供了一种基于云边协同的野外鸟类监测系统，本申请通过鸟类鸣声检测模型进行鸟鸣音频信息的筛选，将包含鸟类鸣声的音频信息作为有效音频信息，这样可以减少传输至云平台的数据量，避免无效数据传输带来的能量损失，延长监测设备在野外的使用寿命。通过鸟类物种识别模型识别鸟类物种，识别鸟类物种不仅采用鸟鸣音频信息，还采用当前环境数据和历史生态数据，加入当前环境数据和历史生态数据可以确定鸟类在监测区域生存的概率，本申请通过加入当前环境数据和历史生态数据可以提高鸟类物种识别的准确性。

当然，实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种基于云边协同的野外鸟类监测方法流程图；

图2为本申请实施例提供的获取鸟鸣音频信息的方法流程图；

图3为本申请实施例提供的鸟类鸣声检测模型的结构示意图；

图4为本申请实施例提供的鸟类物种识别模型的处理流程示意图；

图5为本申请实施例提供的倒残差块的放大示意图；

图6为本申请实施例提供的鸟类物种识别系统的结构示意图；

图7为本申请实施例提供的确定鸟鸣音频信息的流程示意图；

图8为本申请实施例提供的一种基于云边协同的野外鸟类监测装置的结构示意图；

图9为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明，其本身并没有特定的意义。因此，“模块”与“部件”可以混合地使用。

为了解决背景技术中提及的问题，根据本申请实施例的一方面，提供了一种基于云边协同的野外鸟类监测方法的实施例，可以应用服务器和主控制器，用于提高鸟类物种识别的准确性。

下面将结合具体实施方式，对本申请实施例提供的一种基于云边协同的野外鸟类监测方法进行详细的说明，如图1所示，具体步骤如下：

步骤101：通过主控制器获取目标鸟类所处监测区域的鸟鸣音频信息和当前环境数据。

其中，主控制器通过鸟类鸣声检测模型确定接收到的音频信息是否包含鸟类鸣声，若是，则确定音频信息为鸟类鸣声信息。目标鸟类为待进行鸟类物种识别的鸟类。

在本申请实施例中，在鸟类生存的野外环境中，划分一片区域作为监测区域，该监测区域中待进行鸟类物种识别的鸟类为目标鸟类。主控制器通过音频采集设备获取监测区域的音频信息，然后通过鸟类鸣声检测模型确定接收到的音频信息是否包含鸟类鸣声，若包含，则确定音频信息为鸟鸣音频信息。主控制器还通过环境信息采集设备采集监测区域的当前环境数据，然后将鸟鸣音频信息和当前环境数据发送至服务器。服务器中还预先存储有监测区域的历史生态数据。

其中，当前环境数据包括监测区域当前的温度、湿度、经纬度及光照强度等，历史生态数据包括监测区域的历史年平均气温、历史年降水量、历史气温日较差、历史气温年较差以及历史气温季节性变动系数等。

步骤102：将预先存储的历史生态数据、鸟鸣音频信息和当前环境数据输入鸟类物种识别模型，得到鸟类物种识别模型输出的目标鸟类的物种信息。

服务器将鸟鸣音频信息、当前环境数据和历史生态数据输入鸟类物种识别模型，鸟类物种识别模型输出目标鸟类的物种信息。

本申请通过鸟类鸣声检测模型进行鸟鸣音频信息的筛选，将包含鸟类鸣声的音频信息作为有效音频信息，这样可以减少传输至云平台的数据量，避免无效数据传输带来的能量损失，延长监测设备在野外的使用寿命；通过鸟类物种识别模型识别鸟类物种，识别鸟类物种不仅采用鸟鸣音频信息，还采用当前环境数据和历史生态数据，加入当前环境数据和历史生态数据可以确定鸟类在监测区域生存的概率，本申请通过加入当前环境数据和历史生态数据可以提高鸟类物种识别的准确性。

作为一种可选的实施方式，如图2所示，主控制器获取目标鸟类所处监测区域的鸟鸣音频信息包括：

步骤201：获取监测区域中的音频信息，并将音频信息输入鸟类鸣声检测模型。

监测区域中设置有音频采集设备，用于获取监测区域的的音频信息，音频信息包括鸟类鸣声数据及环境声音数据，主控制器将音频信息输入鸟类鸣声检测模型。音频信息可以采用.wav格式，鸟类鸣声检测模型输入音频信息之前，只需进行简单的切分操作，无需对音频信息进行分帧、加窗等预处理操作，提高鸟鸣音频信息的检测效率。

步骤202：采用低级特征提取块对音频信息进行处理，提取音频信息中的低级特征。

鸟类鸣声检测模型包括低级特征提取块、高级特征提取块及分类器。图3为鸟类鸣声检测模型的结构示意图。

低级特征提取块包括两个依次连接的一维卷积层、一个Maxpooling(最大池化)层和一个转置层，其中，每个一维卷积层后连接一个BatchNormalization层(批量标准化BN层)和一个ReLU激活函数层，一维卷积层用于提取音频的低级特征。其中，一维卷积层的步长可以为2个步长，也可以为3个步长，本申请对步长不做具体限制。Maxpooling(最大池化)层用于对特征进行降维，去除冗余信息；转置层用于对特征向量进行transpose(转置)操作，得到音频的低级特征。

一维卷积层能够自适应地提取更好的区分性特征，避免了仅采用MFCC(Mel-FrequencyCepstralCoefficients，一种在自动语音和说话人识别中广泛使用的特征)或Logmel带来的限制，同时降低了软件设计复杂性，不必根据不同设备进行MFCC或Logmel计算程序的编写，便于在不同的硬件设备平台上进行模型部署，即便于在平台的移植。

BatchNormalization层用于求取数据的均值和方差，从而对输入数据进行标准化，用于在训练时加速收敛速度，防止过拟合；ReLU激活函数层用于引入非线性表示，增强模型的表示能力。

步骤203：采用高级特征提取块对低级特征进行处理，提取音频信息中的高级特征。

主控制器将提取的低级特征输入高级特征提取块，高级特征提取块包括多个3*3深度可分离卷积层，其中，每个3*3深度可分离卷积层前连接一个1*1的卷积层，用于增加输入通道数，提升特征维度，3*3深度可分离卷积层用于对输入特征的空间维度和通道维度进行解耦，在提取特征信息的同时减少计算所需的参数个数，提升计算效率；每个3*3深度可分离卷积层后加入注意力模块，用于减少降维带来的信息丢失。注意力模块后连接一个1*1的卷积层和一个ReLU6激活函数层，该1*1卷积层用于减少通道数，进一步减少计算量；可选地，两个1*1的卷积层之间加入残差连接，用于在训练时防止梯度消失。

示例性的，注意力模块可以为ESE(EffectiveSqueezeandExtraction)注意力模块，本申请对注意力模块不做具体限制。

步骤204：将高级特征输入分类器，得到音频信息中包含鸟类鸣声的概率值。

分类器由一个全连接层和一个softmax层组成，全连接层用于将低级特征和高级特征进行整合，将特征信息映射到类别空间，实现分类；softmax层用于将全连接层的输出映射到(0，1)之间，生成音频信息中包含鸟类鸣声数据的概率值。

步骤205：若概率值大于预设概率阈值，则确定音频信息中包含鸟类鸣声。

主控制器将概率值与预设概率阈值进行比较，若概率值小于预设概率阈值，则确定音频信息中不包含鸟类鸣声数据，确定采集的音频信息无效，删除音频信息；若概率值大于预设概率阈值，则确定音频信息中包含鸟类鸣声数据，确定采集的音频信息有效，保存音频信息。

步骤206：将包含鸟类鸣声的音频信息作为目标鸟类的鸟鸣音频信息。

主控制器将包含鸟类鸣声的音频信息作为目标鸟类的鸟鸣音频信息。

本申请确定音频信息中包含鸟鸣音频信息后，才确定采集的音频信息有效，将包含鸟类鸣声的音频信息作为有效音频信息，这样可以减少传输至云平台的数据量，避免无效数据传输带来的能量损失，延长监测设备在野外的使用寿命，有利于实现野外鸟类的长时间监测。

作为一种可选的实施方式，鸟类物种识别模型包括鸟类鸣声识别网络和生态位信息网络，目标鸟类包括至少一种鸟类；云平台得到目标鸟类的物种信息的方式为：

将鸟鸣音频信息、当前环境数据和历史生态数据输入鸟类物种识别模型，得到鸟类物种识别模型输出的目标鸟类的物种信息包括：通过鸟类鸣声识别网络对鸟鸣音频信息进行处理，得到各鸟类的鸟类物种预测向量；根据历史生态数据和当前环境数据，通过生态位信息网络得到各鸟类的鸟类物种存在先验向量，其中，鸟类物种存在先验向量指示鸟类在所处监测区域生存的适宜度；将每种鸟类对应的鸟类物种预测向量和鸟类物种存在先验向量相乘，得到每种鸟类对应的待选物种预测值；从待选物种预测值中选取大于预测值阈值的目标物种预测值，并将目标物种预测值对应的鸟类物种作为目标鸟类的物种信息。

图4为鸟类物种识别模型的处理流程示意图。根据图4可以确定如下步骤。

首先，服务器根据鸟鸣音频信息生成鸟鸣频谱图，鸟鸣频谱图可以通过现有的python代码实现，然后将鸟鸣频谱图输入鸟类鸣声识别网络，得到鸟类鸣声识别网络输出的各鸟类的鸟类物种预测向量。

可选地，将鸟鸣频谱图输入鸟类鸣声识别网络，得到鸟类鸣声识别网络输出的各鸟类的鸟类物种预测向量包括：将鸟鸣频谱图依次输入1*1卷积层和3*3深度可分离卷积层，得到特征图向量；将特征图向量分别输入多个不同大小的卷积层，得到每个卷积层输出的第一鸟鸣声区域特征，其中，在不同卷积层输出的第一鸟鸣声区域特征中，鸟鸣的持续时长和频率范围均不相同；将第一鸟鸣声区域特征分别输入各卷积层对应的反卷积层，得到每个反卷积层输出的第二鸟鸣声区域特征，其中，反卷积层用于对特征图的全局信息进行重新建模；对每个第二鸟鸣声区域特征进行向量相加后，再通过激活函数层对相加后的向量进行放缩，得到注意力向量；将注意力向量和特征图向量进行相乘，再经过1*1卷积层后，得到鸟类物种预测向量。

图5为倒残差块的放大示意图。鸟类鸣声识别网络由多个顺序连接的倒残差块组成，每个倒残差块包括2个1*1的卷积层、1个3*3的深度可分离卷积层及1个多头卷积注意力块。多头卷积注意力模块用于关注频谱图中包含的鸣声差异性特征信息，包括3个卷积层、3个卷积层分别对应的反卷积层，以及1个sigmoid激活函数层。

在本申请实施例中，鸟鸣频谱图依次输入1*1卷积层和3*3深度可分离卷积层，得到特征图向量，多头卷积注意力模块的输入为特征图向量，多头卷积注意力模块中的3个注意力头分别为1*1卷积层、3*3卷积层、5*5卷积层及对应的反卷积层(卷积核个数为特征图通道数与减少率的商，其中，减少率用于表征卷积过程中跨通道信息的损失程度，减少率越小，表明卷积过程中跨通道信息损失越少，但需要更多的卷积核提取跨通道信息，易造成过拟合)。示例性地，减少率可以为0.5。不同大小的卷积层具有不同的感受野，有利于提取鸟鸣频谱图中持续时长不同和频率范围不同的鸟鸣声区域特征，反卷积层用于对卷积层的输出进行上采样，以实现对特征图全局信息的重新建模，反卷积层输出的维度与特征图的维度一致；然后将所有注意力头得到的向量相加并经过sigmoid激活函数层，以将向量元素值放缩到(0，1)之间，从而得到最终的注意力向量；通过将注意力向量与特征图向量相乘，以关注频谱特征图中的鸟鸣声区域，从而实现对不同类别鸣声差异性信息的关注，区分不同鸟类的鸣声差异性。

同时，服务器将当前环境数据和历史生态数据输入物种分布预测模型，得到物种分布预测模型输出的不同鸟类在监测区域存在的先验概率，然后将不同鸟类的先验概率输入生态位信息网络，得到生态位信息网络输出的各鸟类的鸟类物种存在先验向量。其中，不同鸟类在监测区域存在的先验概率，是指不同鸟类在监测区域可能存在的概率。

物种分布预测模型可以为MaxEnt模型，也可以为Bioclim或Domain等，本申请对物种分布预测模型的类型不做具体限制。

其次，服务器将每种鸟类对应的鸟类物种预测向量和鸟类物种存在先验向量相乘，得到每种鸟类对应的待选物种预测值，然后从待选物种预测值中选取大于预测值阈值的目标物种预测值，并将目标物种预测值对应的鸟类物种作为目标鸟类的物种信息。

最后，服务器将每个待选物种预测值与预测值阈值进行比较，若待选物种预测值大于等于预测值阈值，表明预测准确，则将该待选物种预测值对应的鸟类物种作为识别得到的物种信息。优选地，若识别到的物种信息的数量大于设定数量阈值，则按照数量由大到小的顺序选取排名前n个物种信息作为识别到的目标鸟类的物种信息，其中，n为大于1的正整数。

若待选物种预测值小于预测值阈值，则认为可能出现罕见鸟类，则发出警报，以提示工作人员核实。

本申请中，通过加入鸟类物种存在先验向量，能够加入当前环境数据和历史生态数据对鸟类生存概率的影响，可以避免在两种鸟类鸣声相似时容易出现识别错误的问题，本申请结合鸟类物种预测和鸟类物种在监测区域的生存适宜度，提高鸟类物种识别的准确性。

示例性地，待选物种预测值为通过向量点乘得到。如鸟类鸣声识别网络得到的鸟类物种A，B，C对应的鸟类物种预测向量分别为[0.4，0.4，0.2]，此时因A，B两种鸟类鸣声相近导致网络无法判断是鸟类A还是鸟类B，而生态位网络得到的鸟类物种A，B，C对应的鸟类物种存在先验向量分别为[0.8，0.3，0.1]，其中，监测区域对鸟类A最为适宜，则得到的待选物种预测值分别为[0.32，0.12，0.02]，最终认为待物种识别的鸟类为鸟类A。

可选地，本申请实施例还提供了一种鸟类物种识别的系统示意图，如图6所示，该系统由边缘设备和云平台组成。其中，边缘设备包括：音频采集模块、环境信息采集模块、主控制器模块、数据传输模块以及电源模块。音频采集模块和环境信息采集模块能够实现对监测区域鸟类鸣声及当前环境数据(包括温度、湿度、光照强度、经纬度等)的长时间自动采集；主控制器模块，分别与音频采集模块和环境数据采集模块连接，在数据采集完成后，使用主控制器模块中的鸟类鸣声检测模型进行鸟类鸣声片段的筛选，随后通过数据传输模块将鸟类鸣声片段的鸟鸣音频信息及当前环境数据上传至云平台；云平台中预先存储有历史生态数据，云平台使用融合了声学信息和生态位信息的鸟类物种识别模型，根据鸟鸣音频信息、当前环境数据以及历史生态数据进行鸟类物种识别，在物种识别完成后，将识别结果及环境信息进行可视化，并建立鸟情数据库，便于工作人员查询。

具体来说，音频采集模块包括多个驻极体麦克风，用于从多个方向采集监测目标区域内的鸟类鸣声及环境声音数据。

环境信息采集模块包括温度传感器、湿度传感器、经纬度传感器及光照强度传感器，用于获取监测区域的温度、湿度、经纬度及光照强度等当前环境数据。

主控制器模块采用Cortex-M7内核的微控制器，用于实现对边缘设备和其他各模块的控制，同时用于实现对音频采集模块和环境信息采集模块获取的数据的处理，并使用鸟类鸣声检测模型检测音频信息中是否包含鸟类鸣声片段。

数据传输模块根据监测区域的实际情况采用4G或5G方式通信，将包含鸣声片段的鸟鸣音频信息和温度、湿度、经纬度、光照强度等当前环境数据上传至云平台。

电源模块采用太阳能+锂电池的供电方式，在天气晴好时采用太阳能直接为设备供电，同时为锂电池充电；在阴雨天气时采用大容量锂电池为设备供电。

云平台采用云服务器，用于接收和存储边缘设备上传的鸟鸣音频信息及当前环境数据，并使用融合了声学信息和生态位信息的鸟类物种识别模型进行鸟类物种识别。

本申请采用低成本器件进行硬件实现，便于开展大规模野外部署，也降低了监测成本。

下面通过实施例，并结合附图，对本发明的技术方案做进一步具体的说明。

一种鸟类物种识别系统，该系统由边缘设备和云平台组成。其中，边缘设备包括：音频采集模块、环境信息采集模块、主控制器模块、数据传输模块以及电源模块。该系统整体结构如图6所示，具体描述如下：

边缘设备安装好后，电源模块开启，采用太阳能+锂电池的方式为监测设备供电。为保证设备正常运行，在天气晴好时采用太阳能直接为设备供电，同时为锂电池充电；在阴雨天气时采用大容量锂电池为设备供电。为保证充电过程平稳，实际应用中选用CN3791芯片进行太阳能充电管理。

音频采集模块按照预先设定的采样间隔和采样频率，进行监测区域内鸟类鸣声和环境声音的采集，实际应用中采样间隔可以为1min采样30s，采样频率为44100Hz。考虑到监测区域鸟类的位置难以事先确定，故音频采集模块选用多个驻极体麦克风，从多个方向进行鸟类鸣声及环境声音采集。在音频采样的同时，环境信息采集模块启动，采集监测区域内温度、湿度、经纬度及光照强度等环境信息。考虑到监测设备整体功耗，实际应用中温度传感器采用DS18B20传感器，湿度传感器采用DHT11传感器，经纬度传感器采用WT-NEO6M传感器，光照强度传感器采用BH1750FVI传感器。其中，本申请只是对传感器进行示例，并不做具体限制。

一次采样完成后，主控制器模块开始对音频采集模块采集的音频信息和环境信息采集模块采集的当前环境数据进行处理，并采用鸟类鸣声检测模型检测音频数据中是否包含鸟类鸣声片段，优选地，采用轻量化鸟类鸣声检测模型，轻量化的检测模型计算量小，更适用于边缘设备。图7为确定鸟鸣音频信息的流程示意图，如图7所示，主要包括以下步骤：

S1、将音频数据进行分割，并输入轻量化鸟类鸣声检测模型；

S2、轻量化鸟类鸣声检测模型的低级特征提取块进行音频信息的低级特征的提取，生成替代音频频谱特征的低级特征，然后输入高级特征提取块进行高级特征的提取；

S3、轻量化鸟类鸣声检测模型的高级特征提取块进行音频信息的高级特征的提取，生成表征音频高级特征的音频嵌入，然后输入分类器进行分类；

S4、分类器输出音频信息中包含鸟类鸣声片段的概率值；

S5、将概率值与预设概率阈值进行比较，若概率值小于预设概率阈值，则确定音频信息中不包含鸟类鸣声数据，采集的音频信息无效，删除音频信息；若概率值大于预设概率阈值，则确定音频信息中包含鸟类鸣声数据，采集的音频信息有效，保存音频信息。

在检测完成后，如果采集的音频信息有效，则开启数据传输模块，将鸟类鸣声信息与当前环境数据(温度、湿度、经纬度及光照强度等)通过4G或5G的方式上传至云平台。

云平台采用云服务器，用于接收和存储边缘设备上传的音频信息及当前环境数据，结合预先存储的历史生态数据，采用融合了声学信息和生态位信息的鸟类物种识别模型进行鸟类物种识别，图7为鸟类物种识别模型的处理流程图，如图7所示，主要包括以下步骤：

S1、将边缘设备上传的监测区域的当前环境数据和云平台中预先存储的历史生态数据共同输入MaxEnt软件，得到不同鸟类在监测区域存在的先验概率；

S2、将MaxEnt软件计算得到的不同鸟类在监测区域存在的先验概率输入生态位信息网络，得到基于生态位信息的不同鸟类的鸟类物种存在先验向量；

S3、将边缘设备上传的鸟鸣音频信息输入鸟类鸣声识别网络，得到基于声学信息的不同鸟类的鸟类物种预测向量；

S4、将鸟类物种预测向量与鸟类物种存在先验向量相乘，得到每种鸟类的待选物种预测值，将最大的物种预测值与预测值阈值进行比较，若最大的物种预测值大于等于预测值阈值，则将最大的物种预测值对应的鸟类物种作为识别得到的物种信息；若最大的物种预测值小于预测值阈值，则认为出现罕见鸟类，则发出警报，以提示工作人员核实。

其中，图7中的步骤S3与步骤S1可以为并列步骤。

在物种识别完成后，将识别结果及环境信息进行可视化，并建立鸟情数据库，便于工作人员查询。

基于相同的技术构思，本申请实施例还提供了一种基于云边协同的野外鸟类监测装置，应用于云平台，如图8所示，该装置包括：

获取模块801，用于通过主控制器获取目标鸟类所处监测区域的鸟鸣音频信息和当前环境数据，其中，主控制器通过鸟类鸣声检测模型确定接收到的音频信息是否包含鸟类鸣声，若是，则确定所述音频信息为鸟类鸣声信息，所述目标鸟类为待进行鸟类物种识别的鸟类；

输入输出模块802，用于将预先存储的历史生态数据、鸟鸣音频信息和当前环境数据输入鸟类物种识别模型，得到鸟类物种识别模型输出的目标鸟类的物种信息。

可选地，鸟类物种识别模型包括鸟类鸣声识别网络和生态位信息网络，目标鸟类包括至少一种鸟类；输入输出模块802包括：

第一处理单元，用于通过鸟类鸣声识别网络对鸟鸣音频信息进行处理，得到各鸟类的鸟类物种预测向量；

第二处理单元，用于根据历史生态数据和当前环境数据，通过生态位信息网络得到各鸟类的鸟类物种存在先验向量，其中，鸟类物种存在先验向量指示鸟类在监测区域生存的适宜度；

计算单元，用于将每种鸟类对应的鸟类物种预测向量和鸟类物种存在先验向量相乘，得到每种鸟类对应的待选物种预测值；

选取单元，用于从待选物种预测值中选取大于预测值阈值的目标物种预测值，并将目标物种预测值对应的鸟类物种作为目标鸟类的物种信息。

可选地，第一处理单元用于：

根据鸟鸣音频信息生成鸟鸣频谱图；

将鸟鸣频谱图输入鸟类鸣声识别网络，得到鸟类鸣声识别网络输出的各鸟类的鸟类物种预测向量。

可选地，第一处理单元用于：

将鸟鸣频谱图依次输入1*1卷积层和3*3深度可分离卷积层，得到特征图向量；

将特征图向量分别输入多个不同大小的卷积层，得到每个卷积层输出的第一鸟鸣声区域特征，其中，在不同卷积层输出的第一鸟鸣声区域特征中，鸟鸣的持续时长和频率范围均不相同；

将第一鸟鸣声区域特征分别输入各卷积层对应的反卷积层，得到每个反卷积层输出的第二鸟鸣声区域特征，其中，反卷积层用于对鸟鸣频谱图的全局信息进行重新建模；

对每个第二鸟鸣声区域特征进行向量相加后，再通过激活函数层对相加后的向量进行放缩，得到注意力向量；

将注意力向量和特征图向量进行相乘，再经过1*1卷积层后，得到鸟类物种预测向量。

可选地，第二处理单元用于：

将当前环境数据和历史生态数据输入物种分布预测模型，得到物种分布预测模型输出的不同鸟类在监测区域存在的先验概率；

将不同鸟类的先验概率输入生态位信息网络，得到生态位信息网络输出的各鸟类的鸟类物种存在先验向量。

一种基于云边协同的野外鸟类监测装置，应用于主控制器，装置用于：

获取监测区域中的音频信息，将音频信息输入鸟类鸣声检测模型，其中，鸟类鸣声检测模型包括低级特征提取块、高级特征提取块和分类器；

采用低级特征提取块对音频信息进行处理，提取音频信息中的低级特征；

采用高级特征提取块对低级特征进行处理，提取音频信息中的高级特征；

将高级特征输入分类器，得到音频信息中包含鸟类鸣声的概率值；

若概率值大于预设概率阈值，则确定音频信息中包含鸟类鸣声，则将包含鸟类鸣声的音频信息作为目标鸟类的鸟鸣音频信息。

可选地，低级特征提取块包括两个依次连接的一维卷积层，一维卷积层用于提取音频信息中的低级特征。

可选地，高级特征提取块包括：

1*1的第一卷积层，用于增加输入通道数，提升特征维度；

3*3深度可分离卷积层，与1*1的第一卷积层的输出端连接，用于对输入特征的空间维度和通道维度进行解耦；

注意力模块，与3*3深度可分离卷积层的输出端连接，用于减少降维带来的信息丢失；

1*1的第二卷积层与注意力模块的输出端连接，1*1的第二卷积层用于减少通道数。

根据本申请实施例的另一方面，本申请提供了一种电子设备，如图9所示，包括存储器903、处理器901、通信接口902及通信总线904，存储器903中存储有可在处理器901上运行的计算机程序，存储器903、处理器901通过通信接口902和通信总线904进行通信，处理器901执行计算机程序时实现上述方法的步骤。

上述电子设备中的存储器、处理器通过通信总线和通信接口进行通信。通信总线可以是外设部件互连标准(PeripheralComponent Interconnect，简称PCI)总线、串行外设接口(SerialPeripheralInterface，简称SPI)总线或集成电路总线(Inter-IntegratedCircuit，简称IIC)总线。该通信总线可以分为地址总线、数据总线、控制总线等。

存储器可以包括随机存取存储器(RandomAccessMemory，简称RAM)，也可以包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、微控制器(MicrocontrollerUnit，简称MCU)等；还可以是数字信号处理器(DigitalSignalProcessing，简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

根据本申请实施例的又一方面还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质。

可选地，在本申请实施例中，计算机可读介质被设置为存储用于所述处理器执行上述方法的程序代码。

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例在此不再赘述。

本申请实施例在具体实现时，可以参阅上述各个实施例，具有相应的技术效果。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ApplicationSpecificIntegratedCircuits，ASIC)、数字信号处理器(DigitalSignalProcessing，DSP)、数字信号处理设备(DSPDevice，DSPD)、可编程逻辑设备(ProgrammableLogic Device，PLD)、现场可编程门阵列(Field-ProgrammableGateArray，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本申请的具体实施方式，使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于云边协同的野外鸟类监测系统，其特征在于，所述系统包括：

2.一种基于云边协同的野外鸟类监测方法，其特征在于，应用于云平台，所述方法包括：

3.根据权利要求2所述的方法，其特征在于，鸟类物种识别模型包括鸟类鸣声识别网络和生态位信息网络，所述目标鸟类包括至少一种鸟类；所述将预先存储的历史生态数据、所述鸟鸣音频信息和所述当前环境数据输入鸟类物种识别模型，得到所述鸟类物种识别模型输出的所述目标鸟类的物种信息包括：

4.根据权利要求3所述的方法，其特征在于，所述通过所述鸟类鸣声识别网络对所述鸟鸣音频信息进行处理，得到各鸟类的鸟类物种预测向量包括：

根据所述鸟鸣音频信息生成鸟鸣频谱图；

5.根据权利要求4所述的方法，其特征在于，将所述鸟鸣频谱图输入所述鸟类鸣声识别网络，得到所述鸟类鸣声识别网络输出的各鸟类的鸟类物种预测向量包括：

6.根据权利要求2所述的方法，其特征在于，根据所述历史生态数据和所述当前环境数据，通过所述生态位信息网络得到各鸟类的鸟类物种存在先验向量包括：

7.一种基于云边协同的野外鸟类监测方法，其特征在于，应用于主控制器，所述方法包括：

8.根据权利要求7所述的方法，其特征在于，所述低级特征提取块包括两个依次连接的一维卷积层，所述一维卷积层用于提取所述音频信息中的低级特征。

9.根据权利要求7所述的方法，其特征在于，所述高级特征提取块包括：

1*1的第一卷积层，用于增加输入通道数，提升特征维度；

3*3深度可分离卷积层，与所述1*1的第一卷积层的输出端连接，用于对输入特征的空间维度和通道维度进行解耦；

注意力模块，与所述3*3深度可分离卷积层的输出端连接，用于减少降维带来的信息丢失；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求2-6或7-9任一所述的方法。