CN108922548A

CN108922548A - 一种基于深度学习的鸟、蛙智能监测方法

Info

Publication number: CN108922548A
Application number: CN201810948553.8A
Authority: CN
Inventors: 赵健; 孙延军; 苏洪林; 陈晓熹
Original assignee: Shenzhen Garden Ltd By Share Ltd
Current assignee: Shenzhen Garden Ltd By Share Ltd
Priority date: 2018-08-20
Filing date: 2018-08-20
Publication date: 2018-11-30

Abstract

本发明公开一种基于深度学习的鸟、蛙智能监测方法，用于远程无线生态监测，所述方法包括在监测区布设户外声音采集装置，户外声音采集装置通过声音触发模块触发采集鸟声、蛙声，无线通信模块将鸟声、蛙声的音频文件无线传输至计算机服务器，计算机服务器将鸟声、蛙声的音频文件转化为可视的语图并进行预处理，计算机服务器对语图进行图像识别和统计分析，生成日监测表格。本发明弥补了人工生态监测时人力物力成本大、监测时间及频率极其有限、数据处理效率低且对物种识别人员专业技能要求高等问题，可用于自然保护地的长期生态监测。

Description

一种基于深度学习的鸟、蛙智能监测方法

技术领域

本发明涉及声音智能识别与监测技术领域，尤其涉及一种基于深度学习的鸟声及蛙声的采集、智能识别的监测方法。

背景技术

生物多样性调查与监测是自然保护区、森林公园等自然保护地的日常工作之一，但因为监测地的可达性、动物趋于回避人类等问题，生物多样性的监测往往要耗费大量人力与物力，且未必能获得真实有效的调查监测数据。为充分掌握生物多样性的动态变化，红外触发式相机陷阱技术已大量用于哺乳动物和部分鸟类野外影像的持续收集，但森林中上层鸟类、体型较小或运动迅速的鸟类，以及身为冷血动物的蛙类无法被红外相机记录到，而声音监测可以弥补这一缺陷。多数鸟类、蛙类都以声音作为重要的通信手段，且发声具有物种特异性，通过声音识别鸟类、蛙类在人工调查中经常使用。

早期的机器学习靠人工提取关键特征而建立识别模型，常用的特征提取方法包括SIFT(尺度不变特征转换)、HOG(方向梯度直方图)、LBP(局部二值模式)等，SVM(支持向量机)为其常用的分类算法。而当前迅猛发展的深度学习只需提供足够大的样本量，让系统自动从数据中学习和分析，尤其适用于变化多端的自然数据，具有非常优良的泛化能力和鲁棒性。近年来，深度学习已广泛应用于计算机视觉、语音识别、自然语言处理等诸多领域，花伴侣、形色、懂鸟等应用软件使用深度学习技术解决了植物、鸟类图片的智能识别问题，Song Sleuth、Bird Song Id等应用软件也成功将之运用于鸟鸣声的智能识别。记录鸟声、蛙声后自动识别到物种名是切实可行的方法。

Inception架构近年来已被证明可以以相对较低的计算成本实现非常好的图像识别性能。Antonie Sevilla等人在CLEF2017中扩展了Inception-v4的时间和时间频度关注机制，转换为Soundception这一最有效的针对混合声音的识别模型。

发明内容

本发明的目的在于，提出一种基于深度学习的蛙类和鸟类的智能监测方法，解决：(1)人工监测技术中监测时间、监测频率极其有限的问题；(2)红外相机监测技术中大部分鸟类与蛙类无法被记录到的问题；(3)人工识别物种时对专业技能要求高而识别效率低的问题。

为了解决上述技术问题，本发明是通过以下技术方案实现的：在监测区布设户外声音采集装置，户外声音采集装置包括声音触发模块、传感器模块、处理器模块、无线通信模块和能量供应模块，传感器模块包括声音传感器和A/D转换器，处理器模块包括处理器、存储器和高层应用模块，无线通信模块包括介质访问、物理层和射频识别模块；户外声音采集装置通过声音触发模块触发采集鸟声、蛙声；无线通信模块将鸟声、蛙声的音频文件无线传输至计算机服务器；计算机服务器将鸟声、蛙声的音频文件转化为可视的语图并进行预处理；计算机服务器对语图进行图像识别和统计分析，生成日监测表格。

具体为：

步骤1：在监测区布设户外声音采集装置

对监测区的鸟类、蛙类的适宜栖息环境和多样性状况进行详细调查，识别鸟类、蛙类的适宜栖息环境，在鸟类、蛙类栖息环境适宜度高、物种多样性高、人类噪音干扰低的位置布设户外声音采集装置。

优选的，鸟类监测点选取不同栖息环境如湿地、草地、林缘、阔叶林或针叶林等，蛙类监测点选取湿地或溪流旁。

优选的，当监测的主要目标是鸟类、蛙类种群和群落动态以及栖息环境选择信息时，可采用网格抽样法布设户外声音采集装置，在监测区域建立网格。

优选的，户外声音采集装置的布设密度为1台/2km²。

步骤2：触发采集蛙、鸟声音

户外声音采集装置采用触发式录音，根据监测区的鸟、蛙种类及其声音频率特征设置触发阈值；户外声音采集装置全天保持预触发状态，持续收录最近10s的音频写入缓存，但不写入处理器模块的存储器中，当且仅当收录到鸟声、蛙声以满足触发条件时，户外声音采集装置被触发，提取缓存中的鸟声、蛙声的音频文件写入处理器模块的存储器中并持续至触发条件消失，非鸟声、蛙声的其余声音不予存储和传输。

优选的，传感器模块的采样频率为44.1kHz，采用24位脉冲编码调制(PCM)，立体声，双-12dB，音频文件储存为未压缩的WAV格式。

步骤3：无线通信模块将鸟声、蛙声的音频文件无线传输至计算机服务器

优选的，无线通信模块为在IEEE802.11g协议代码基础上，改进WiFi的CSMA/CA机制，以适应长距离的无线传输，并且分别采用正交频分复用多址、频分时分多址结合两种机制作为无线链路访问控制协议。

优选的，无线通信模块采用定制的基于Athros芯片的无线大功率网卡，采用抛物线天线，分别在多个场合进行测试，根据带宽、音频传输速度和完整程度的测试结果调整协议参数和天线。

步骤4：计算机服务器将鸟声、蛙声的音频文件转化为可视的语图并进行预处理

计算机服务器接收到鸟声、蛙声的音频文件后，首先用快速傅里叶变换(FFT)生成语图，每张语图时间长度为15秒，语图像素为299*2990。

优选的，计算机服务器对语图采用模糊中位数、中位数阈值、移除斑点或关闭形态逻辑方法来抑制背景噪音并突出实际的鸟声和蛙声。

步骤5：计算机服务器对语图进行图像识别和统计分析，生成日监测表格。

用Xeno-Canto及Taisong数据库中的鸟声和蛙声数据训练Soundception模型进行智能识别，通过计算机生成鸟类多样性和蛙类多样性的日监测报告；所述Soundception模型为扩展了时间频度关注机制的Inception-v4，所述Inception-v4在ImageNet数据集中预训练过，然后用训练过的Soundception模型分析记录鸟声与蛙声。

优选的，智能识别使用前期，人为对有异议的智能识别结果进行甄别，甄别结果再放入Soundception模型进行训练、学习。

本发明与现有的技术方法相比具有明显的优点和有益效果。借由上述技术方案，本发明的一种基于深度学习的蛙、鸟智能监测方法具有下列优点：

1.实现全天候、远距离的自动、智能监测，解决了传统监测技术中人力物力投入大、专业能力要求高等难题；

2.以声音为媒介实现发声冷血动物及鸟类的调查监测，覆盖红外触发相机等影像自动监测设备无法监测到的物种；

3.无需人工提取鸟声、蛙声特征等复杂的特征工程，直接以鸟声、蛙声语图作为输入直接进行分类；

综上所述，本发明提出的基于深度学习的鸟、蛙智能监测方法，具有实用性强、推广性强等优点和价值。

附图说明

图1是本发明一种基于深度学习的蛙、鸟智能监测方法的流程示意图。

图2是本发明户外声音采集装置的网格抽样法布设示意图。

图3是本发明户外声音采集装置的结构示意图。

图4是本发明一种基于深度学习的蛙、鸟智能监测方法的声音采集触发流程图。

图5是本发明Soundception模型结构示意图。

图6是本发明的Soundception模型训练流程图。

图7是本发明一种基于深度学习的蛙、鸟智能监测方法的物种智能识别流程图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图，详细说明用于实施本发明的典型实施方式。

如图1所示，一种基于深度学习的鸟、蛙智能监测方法，通过布设在监测区的户外声音采集装置，自动采集监测区的鸟声、蛙声，然后通过声音传感器将采集到的鸟声、蛙声无线传输至服务器，服务器将鸟声、蛙声转化为语图，所述语图经Xeno-Canto及Taisong数据训练过并经前期人工纠正错误后的Soundception模型进行识别，识别出鸟类、蛙类鸣声对应的物种，最后通过计算机服务器形成智能监测日报表。

本发明提供的基于深度学习的鸟、蛙智能监测方法主要包括两个部分，一是声音自动采集，二是物种智能识别。

一、声音自动采集

1.确定户外声音采集装置的布设位置

对监测区的鸟类、蛙类的适宜栖息环境和多样性状况进行详细调查，在栖息环境适宜度高、物种多样性高、人类噪音干扰低的位置布设户外声音采集装置。

如图2所示，当监测的主要目标是鸟类、蛙类种群和群落动态以及栖息环境选择信息时，可采用网格抽样法布设户外声音采集装置，在监测区建立网格，户外声音采集装置的布设密度为1台/2km²。

2.户外声音采集装置的触发机制

如图3所示，户外声音采集装置包括声音触发模块、传感器模块、处理器模块、无线通信模块和能量供应模块，传感器模块包括声音传感器和A/D转换器，负责音频数据的采集并将音频数据通过A/D转换；处理器模块包括处理器、存储器和高层应用模块，负责处理数据、存储数据并运行高层网络协议；无线通信模块包括介质(MAC)访问、物理层和射频识别模块，负责声音采集装置与计算机服务器间的信息传递。本装置工作原理为：音频信号通过声音传感器采集进来，在声音触发模块内将音频信号特征与预设频率特征进行对比，判别是否符合触发条件，符合触发条件的音频信号由A/D转换器转换为数字信号，然后传入处理器模块进行数据处理并形成文件存储于存储器，再通过无线通信模块传输至计算机服务器。能量供应模块为声音触发模块、传感器模块、处理器模块、无线通信模块提供能量。

如图4所示，户外声音采集装置布设好后，设置为预触发状态，此时设备在缓存中收集最后10s的预触发数据，但不将数据写入处理器模块的存储器中。

根据监测区的鸟类和蛙类的物种分布，设置相应的频率和特征作为触发条件。当触发条件为真(TRUE)时，预触发缓存区的内容会快速写入处理器模块的存储器中，并且持续采集音频样本写入存储器，直至触发条件变为假(FALSE)。此时，声音采集设备的后触发计时器启动，设备进入后触发阶段，如果在此期间触发条件再次变为TRUE，则设备将切换回“录制”状态。在触发后间隔期满后，户外声音采集装置切换回预触发阶段。

3.音频样本的采集与存储

户外声音采集装置采用防水双麦克风系统，频率响应范围为20Hz-20kHz及20kHz以上，设置音频采样频率为44.1kHz，采用24位脉冲编码调制(PCM)，立体声，双-12dB，音频文件储存为未压缩的WAV格式。

4.音频数据的无线传输

无线通信模块在IEEE802.11g协议代码基础上，改进WiFi的CSMA/CA机制，以适应长距离的无线传输，并且分别采用正交频分复用多址、频分时分多址结合两种机制作为无线链路访问控制协议。

采用定制的基于Athros芯片的无线大功率网卡，采用抛物线天线，分别在多个场合进行测试，根据带宽、音频传输速度和完整程度的测试结果调整协议参数和天线。

二、物种智能识别

1.训练Soundception模型

如图5所示，为Soundception模型的结构示意图，Soundception模型是将GoogLeNet的核心结构Inception-v4调整为在时域上完全卷积，目的是使其对时间平移不变，并允许任意宽度大小的图像。同时在分支中添加时间和时频关注机制，使Soundception专注于鸟类和蛙类的声音特征。Soundception结构处理流程为：输入大小为299×2990的RGB语图，由于图像通道数为3，此时张量大小为299×2990×3；通过时-频关注处理，输出张量大小为299×299×3；处理张量为35×35×384；使用4次卷积处理后，降维处理张量为17×17×1024；使用7次卷积处理后，降维处理张量为8×8×1536；使用3次卷积处理后，进行平均池化处理，将大小为8×8×1536张量转化为长度为1536的一维张量；使用丢弃层(Dropout层)让部分节点临时失效以免过拟合；最后用Softmax函数进行分类和归一化，获得长度为1000的张量。

图6示出了以Xeno-Canto及Taisong数据库中的鸟类和蛙类的声音数据训练Soundception模型的流程，具体为：读取Xeno-Canto中的鸟声音频数据及Taisong中的蛙声音频数据(包括音频文件和物种名称两种元数据)，使用快速傅里叶变换生成语图；随机调整语图的色调、对比度、亮度和饱和度，加上时间和频率维度的随机裁剪，同一段音频数据可以随机生成多张时间长度为15秒的语图，以实现样本扩增；将扩增后的样本随机分割为90％的训练集和10％的测试集；使用Soundception算法在训练集上训练，一共训练5轮，以获得模型数据；使用模型数据在测试集上进行分类预测；验证Soundception算法预测效果。

2.音频样本的预处理

如图7所示，处理器模块接收到无线传输而来的音频数据后，首先用快速傅里叶变换(FFT)生成语图，每张语图时间长度为15秒，语图像素为299*2990；然后采用模糊中位数，中位数阈值，移除斑点和关闭形态逻辑等方法来抑制或降低背景噪音并突出实际的鸟鸣声和蛙鸣声，从而优化语图。

3.物种的智能识别

如图7所示，优化后的语图经Soundception模型甄别后实现物种智能识别。因不同地区同一鸟种或蛙种的鸣声不完全相同，具一定的地方“口音”，故智能识别使用前期，人为对有异议的智能识别结果进行甄别，甄别结果再放入Soundception模型进行训练、学习，训练的数据样本越多，模型的识别结果准确率就越高。

4.生成日监测报告

根据物种的智能识别结果，通过计算机自动生成鸟类、蛙类种类和数量的日监测报告。

进一步地，生成不同监测点物种多样性的比较和一定时间段的动态变化数据文件。

以上所述仅为本发明的典型实施方式，并非因此限制其专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于深度学习的鸟、蛙智能监测方法，用于远程无线生态监测，包括

步骤1：在监测区布设户外声音采集装置，所述户外声音采集装置包括声音触发模块、传感器模块、处理器模块、无线通信模块和能量供应模块；

步骤2：户外声音采集装置通过声音触发模块触发采集鸟声、蛙声；

步骤3：无线通信模块将鸟声、蛙声的音频文件无线传输至计算机服务器；

步骤4：计算机服务器将鸟声、蛙声的音频文件转化为可视的语图并进行预处理；

2.如权利要求1所述的基于深度学习的鸟、蛙智能监测方法，其特征在于，步骤1中，所述户外声音采集装置的布设方式为对监测区的鸟类、蛙类的适宜栖息环境和多样性状况进行详细调查，识别鸟类、蛙类的适宜栖息环境，在鸟类、蛙类栖息环境适宜度高、物种多样性高、人类噪音干扰低的位置布设户外声音采集装置。

3.如权利要求1所述的基于深度学习的鸟、蛙智能监测方法，其特征在于，当监测的主要目标是鸟类、蛙类种群和群落动态以及栖息环境选择信息时，所述户外声音采集装置采用网格抽样法进行布设，在监测区建立网格。

4.如权利要求3所述的基于深度学习的鸟、蛙智能监测方法，其特征在于，所述户外声音采集装置的布设密度为1台/2km²。

5.如权利要求1所述的基于深度学习的鸟、蛙智能监测方法，其特征在于，步骤2中，所述户外声音采集装置根据监测区的鸟、蛙种类及其声音频率特征设置触发阈值并全天保持预触发状态，当收录到鸟声、蛙声以满足触发条件时，所述户外声音采集装置被触发，提取缓存中的鸟声、蛙声的音频文件写入所述处理器模块的存储器中并持续至触发条件消失，非鸟声、蛙声的其余声音不予存储和传输。

6.如权利要求1所述的基于深度学习的鸟、蛙智能监测方法，其特征在于，所述传感器模块的采样频率为44.1kHz，采用24位脉冲编码调制(PCM)，立体声，双-12dB，所述音频文件储存为未压缩的WAV格式。

7.如权利要求1所述的基于深度学习的鸟、蛙智能监测方法，其特征在于，所述计算机服务器接收到鸟声、蛙声的音频文件后，首先用快速傅里叶变换(FFT)生成语图，每张语图时间长度为15秒，语图像素为299*2990；然后采用模糊中位数、中位数阈值、移除斑点或关闭形态逻辑方法来抑制背景噪音并突出实际的鸟声和蛙声；再用Xeno-Canto及Taisong数据库中的鸟声和蛙声数据训练Soundception模型进行智能识别，通过计算机生成鸟类多样性和蛙类多样性的日监测报告；所述Soundception模型为扩展了时间频度关注机制的Inception-v4，所述Inception-v4在ImageNet数据集中预训练过，然后用训练过的Soundception模型分析记录鸟声与蛙声。

8.如权利要求7所述的基于深度学习的鸟、蛙智能监测方法，其特征在于，所述智能识别使用前期，人为对有异议的智能识别结果进行甄别，甄别结果再放入Soundception模型进行训练、学习。

9.如权利要求1所述的基于深度学习的鸟、蛙智能监测方法，其特征在于，所述无线通信模块为在IEEE802.11g协议代码基础上，改进WiFi的CSMA/CA机制，以适应长距离的无线传输，并且分别采用正交频分复用多址、频分时分多址结合两种机制作为无线链路访问控制协议。

10.根据权利要求1所述的基于深度学习的鸟、蛙智能监测方法，其特征在于，所述无线通信模块采用定制的基于Athros芯片的无线大功率网卡，采用抛物线天线，分别在多个场合进行测试，根据带宽、音频传输速度和完整程度的测试结果调整协议参数和天线。