CN111898581B

CN111898581B - 动物检测方法、装置、电子设备及可读存储介质

Info

Publication number: CN111898581B
Application number: CN202010809841.2A
Authority: CN
Inventors: 刘凯; 李辰; 李玮; 廖强
Original assignee: Chengdu Jiahua Chain Cloud Technology Co ltd
Current assignee: Chengdu Jiahua Chain Cloud Technology Co ltd
Priority date: 2020-08-12
Filing date: 2020-08-12
Publication date: 2024-05-17
Anticipated expiration: 2040-08-12
Also published as: CN111898581A

Abstract

本申请提供一种动物检测方法、装置、电子设备及可读存储介质，涉及图像处理技术领域。该方法包括：获取监控区域的多张视频帧图像；识别每张视频帧图像中是否存在目标动物；在确定预设数量的连续的N张视频帧图像中均存在所述目标动物时，确定所述监控区域内存在所述目标动物。本方案通过对监控区域的每张视频帧图像进行目标动物的自动识别，而无需通过人工参与动物的识别，本方案大大提高了动物检测的效率，并且在识别到预设数量的连续N张视频帧图像中存在目标动物时才确定监控区域内存在目标动物，从而有效避免图像识别的误检，提高了对监控区域内动物的检测精度。

Description

动物检测方法、装置、电子设备及可读存储介质

技术领域

本申请涉及图像处理技术领域，具体而言，涉及一种动物检测方法、装置、电子设备及可读存储介质。

背景技术

随着当前生态形势的逐步恶化，保护野生动物变得迫在眉睫。人们可根据获取的野生动物的数量和活动规律，制定相应的策略，以保护野生动物，从而实现人与自然的和谐发展。

现有的方式中，可以在指定区域中安装监控摄像头，通过人工实时监测监控摄像头采集的画面，以此来检测指定区域中是否出现野生动物，这种方式需要人工实时来观察监控摄像头采集的画面，效率较低。

发明内容

本申请实施例的目的在于提供一种动物检测方法、装置、电子设备及可读存储介质，用以改善现有技术中动物检测的效率较低的问题。

第一方面，本申请实施例提供了一种动物检测方法，所述方法包括：

获取监控区域的多张视频帧图像；

识别每张视频帧图像中是否存在目标动物；

在确定预设数量的连续的N张视频帧图像中均存在所述目标动物时，确定所述监控区域内存在所述目标动物，其中，N为大于1的整数。

在上述实现过程中，通过对监控区域的每张视频帧图像进行目标动物的自动识别，而无需通过人工参与动物的识别，本方案大大提高了动物检测的效率，并且在识别到预设数量的连续N张视频帧图像中存在目标动物时才确定监控区域内存在目标动物，从而有效避免图像识别的误检，提高了对监控区域内动物的检测精度。

可选地，所述确定所述监控区域内存在所述目标动物之后，还包括：

获取所述监控区域内所述目标动物的数量并输出。

在上述实现过程中，通过获取目标动物的数量并输出可有效为后续针对目标动物的管理提供数据依据。

可选地，所述获取所述监控区域内所述目标动物的数量并输出，包括：

获取所述N张视频帧图像中每张视频帧图像中所述目标动物的数量；

根据每张视频帧图像中所述目标动物的数量获取所述N张视频帧图像中所述目标动物的平均数量；

输出所述目标动物的平均数量。

在上述实现过程中，通过统计N张视频帧图像中目标动物的平均数量，从而可更加准确获得监控区域内目标动物的数量。

可选地，所述识别每张视频帧图像中是否存在目标动物，包括：

将每张视频帧图像输入至神经网络模型中，通过所述神经网络模型识别每张视频帧图像中是否存在目标动物，从而可更加快速且准确识别出图像中是否存在目标动物。

可选地，通过以下方式对所述神经网络模型进行训练：

获取各个监控区域的多张初始训练图像；

对所述多张初始训练图像进行筛选，获得多张训练图像；

利用所述多张训练图像对所述神经网络模型进行训练。

在上述实现过程中，通过对初始训练图像进行筛选后再输入神经网络模型，从而可在减少数据处理量的同时提高神经网络模型的训练精度。

可选地，所述对所述多张初始训练图像进行筛选，获得多张训练图像，包括：

对所述多张初始训练图像进行跳帧去重，获得去重后的多张图像；

计算获得所述多张图像中每两张图像之间的相似度；

基于所述相似度从所述多张图像中筛选出相似度小于预设值的图像作为多张训练图像。

在上述实现过程中，通过对初始训练图像进行跳帧去重后再进行相似度筛选，从而可有效筛选掉初始训练图像中无用的图像，以减少模型训练过程中的数据量。

可选地，所述神经网络模型为ResNet18-SSD网络模型。相比于ResNet100网络、VGG16等分类网络，ResNet18-SSD网络模型拥有更少的参数但是精度相差不大，训练及推理的过程会更快，这对算法部署平台有着更少的算力要求，让模型更方便部署。

第二方面，本申请实施例提供了一种动物检测装置，所述装置包括：

图像获取模块，用于获取监控区域的多张视频帧图像；

动物识别模块，用于识别每张视频帧图像中是否存在目标动物；

动物确定模块，用于在确定预设数量的连续的N张视频帧图像中均存在所述目标动物时，确定所述监控区域内存在所述目标动物，其中，N为大于1的整数。

可选地，所述装置还包括：

动物数量获取模块，用于获取所述监控区域内所述目标动物的数量并输出。

可选地，所述动物数量获取模块，用于获取所述N张视频帧图像中每张视频帧图像中所述目标动物的数量；根据每张视频帧图像中所述目标动物的数量获取所述N张视频帧图像中所述目标动物的平均数量；输出所述目标动物的平均数量。

可选地，所述动物识别模块，用于将每张视频帧图像输入至神经网络模型中，通过所述神经网络模型识别每张视频帧图像中是否存在目标动物。

可选地，所述装置还包括：

训练模块，用于获取各个监控区域的多张初始训练图像；对所述多张初始训练图像进行筛选，获得多张训练图像；利用所述多张训练图像对所述神经网络模型进行训练。

可选地，所述训练模块，用于对所述多张初始训练图像进行跳帧去重，获得去重后的多张图像；计算获得所述多张图像中每两张图像之间的相似度；基于所述相似度从所述多张图像中筛选出相似度小于预设值的图像作为多张训练图像。

可选地，所述神经网络模型为ResNet18-SSD网络模型。

第三方面，本申请实施例提供一种电子设备，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如上述第一方面提供的所述方法中的步骤。

第四方面，本申请实施例提供一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。

本申请的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种用于执行动物检测方法的电子设备的结构示意图；

图2为本申请实施例提供的一种动物检测方法的流程图；

图3为本申请实施例提供的一种对图像进行跳帧去重的示意图；

图4为本申请实施例提供的一种动物检测装置的结构框图。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述。

本申请实施例提供一种动物检测方法，通过对监控区域的每张视频帧图像进行目标动物的自动识别，而无需通过人工参与动物的识别，本方案大大提高了动物检测的效率，并且在识别到预设数量的连续N张视频帧图像中存在目标动物时才确定监控区域内存在目标动物，从而有效避免图像识别的误检，提高了对监控区域内动物的检测精度。

请参照图1，图1为本申请实施例提供的一种用于执行动物检测方法的电子设备的结构示意图，所述电子设备可以包括：至少一个处理器110，例如CPU，至少一个通信接口120，至少一个存储器130和至少一个通信总线140。其中，通信总线140用于实现这些组件直接的连接通信。其中，本申请实施例中设备的通信接口120用于与其他节点设备进行信令或数据的通信。存储器130可以是高速RAM存储器，也可以是非易失性的存储器(non-volatilememory)，例如至少一个磁盘存储器。存储器130可选的还可以是至少一个位于远离前述处理器的存储装置。存储器130中存储有计算机可读取指令，当所述计算机可读取指令由所述处理器110执行时，电子设备执行下述图2所示方法过程，例如，存储器130可用于存储多张视频帧图像，处理器110用于在进行动物检测时，从存储器130中获取多张视频帧图像，然后针对每张视频帧图像进行目标动物识别，以对监控区域是否存在目标动物进行检测。

可以理解，图1所示的结构仅为示意，所述电子设备还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。

请参照图2，图2为本申请实施例提供的一种动物检测方法的流程图，该方法包括如下步骤：

步骤S110：获取监控区域的多张视频帧图像。

其中，监控区域是指需要进行动物检测的区域，如某片森林等，或者划定的某片区域等，本申请实施例也可以应用于畜牧业场景，在该场景下，其监控区域可以是指畜牧区域。可以理解地，监控区域的确定可以根据实际应用场景下，通过人为划分的区域，或者指摄像头能拍摄的区域，或者是通过区域识别所划定的预设区域等。

在一些实施方式中，可以通过无人机采集监控区域的视频流，由于动物的行为方式不确定，所以，可以控制无人机在监控区域内的不同地点进行拍摄，或者通过安装在监控区域内不同位置处的监控摄像头来采集监控区域的视频流。无人机或者监控摄像头在采集监控区域的视频流后，可将采集的视频流发送给电子设备，电子设备可以是指后台服务器，或者是指后台监控终端等设备。

电子设备在获得视频流后，提取视频流中的每帧视频图像，即获得多张视频帧图像。

其中，视频帧图像包括但不限于灰度图像、彩色图像、深度图像和红外图像等。对于不同的环境可采集不同的图像，例如，对于视野开阔的区域，可以采集可见光图像，对于森林等植被茂盛或者遮挡物较多的区域，可以采集红外图像。

步骤S120：识别每张视频帧图像中是否存在目标动物。

目标动物可以是指需要监控的动物，可以是人为预先设定的，如大熊猫、老虎、马、山羊等动物。以目标动物为大熊猫为例，电子设备在获取到多张视频帧图像后，可对每张视频帧图像中是否存在大熊猫进行识别。

其中，具体识别每张视频帧图像中是否存在目标动物的方式可以是采用相关的图像识别算法，如基于神经网络的图像识别方法、基于小波矩的图像识别方法、基于分形特征的红外图像识别方法等。下述实施例中会针对基于神经网络的图像识别方法来识别图像中是否存在目标动物进行详细说明，在此先不介绍。

步骤S130：在确定预设数量的连续的N张视频帧图像中均存在所述目标动物时，确定所述监控区域内存在所述目标动物。

上述步骤针对每张视频帧图像均进行目标动物的识别后，可获得针对每张视频帧图像的识别结果，该识别结果为视频帧图像中不存在目标动物或者视频帧图像中存在目标动物。

所以，在获得每张视频帧图像的识别结果后，可从中筛选出识别结果为存在目标动物的视频帧图像。由于电子设备获得的视频帧图像可以携带有采集时间，所以，可对这些视频帧图像按照时间顺序进行排序，从而可确定出哪些视频帧图像是连续的视频帧图像，其中，连续的视频帧图像可以理解为是帧与帧之间的连续，如该帧图像之后的下一帧图像，这两帧图像即为连续的视频帧图像。为了对目标动物进行准确检测，可在确定出连续的视频帧图像后，获取连续的视频帧图像的数量，若连续的视频帧图像的数量达到预设数量，如N时，则确定监控区域内存在目标动物。

其中，N可以为大于1的整数，其具体数值可以根据实际需求灵活设置，如N取值为10，则预设数量为10，在连续的视频帧图像的数量大于或等于10时，则确定监控区域中存在目标动物，如监控区域内存在大熊猫。

在一些实施方式中，为了便于后续用户对目标动物的管理，在确定监控区域存在目标动物后，可输出对应的提示信息，以提示用户监控区域内存在目标动物，如在监控区域存在大熊猫时，输出提示信息至用户的用户终端，用户在获得该提示信息后，可对监控区域内的大熊猫进行样本采集、或者对大熊猫进行行为观察等。

或者，在一些实施方式中，为了为后续针对目标动物的管理提供数据依据，在确定监控区域存在目标动物后，还可以获取监控区域内目标动物的数量并输出。

例如，可以针对上述N张视频帧图像中的每张视频帧图像中的每个目标动物进行识别，如此可获得每张视频帧图像中目标动物的数量，然后根据每张视频帧图像中目标动物的数量获取N张视频帧图像中目标动物的平均数量，输出目标动物的平均数量。

例如，获取10张视频帧图像中每张视频帧图像中大熊猫的数量，然后可将这10张视频帧图像中大熊猫的数量进行加和，然后再求平均，该平均数量即可确定为是监控区域内大熊猫的数量。

或者，也可以获取多张视频帧图像中存在目标动物的视频帧图像中目标动物的平均数量，将该平均数量确定为是监控区域内目标动物的数量。

或者，也可以获取存在目标动物的视频帧图像中目标动物最多的数量，作为目标动物的数量。

或者，也可以获取上述的N张视频帧图像中最多的目标动物的数量，作为目标动物的数量，如10张视频帧图像中第5帧目标动物的数量为4个，其在这10张视频帧图像中目标动物的数量最多，则确定目标动物的数量为4，然后将目标动物的数量输出。

目标动物的数量可输出给用户，这样用户即可知晓监控区域内目标动物的数量，这样可为用户对目标动物的管理、标本采集等提供数据依据。

在上述步骤S120中识别图像中是否存在目标动物的一些实施方式中，为了实现对目标动物的准确识别，可以将每张视频帧图像输入至神经网络模型中，通过该神经网络模型识别每张视频帧图像中是否存在目标动物。

在一些实施方式中，神经网络模型可以为剩余神经网络-单脉冲多盒探测器(Residual Neural Network18-Single Shot MultiBox Detector，ResNet18-SSD)网络模型，或者卷积神经网络模型、长短期记忆网络模型等。本申请实施例中可以采用ResNet18-SSD网络模型来对每张视频帧图像中的目标动物进行识别。

ResNet18-SSD网络模型由ResNet18特征提取网络与SSD的检测头组成，使用ResNet18改进后的SSD网络可以学习更多的特征信息，对比初始的VGG网络的SSD算法其优点在于：ResNet18相对于VGG16等分类网络有残差模块的存在，ResNet18的残差接口可以在不增加参数量的情况下提高模型性能，在网络层数加深时能力也不退化。此外相比于ResNet50、ResNet100等深层网络，ResNet18拥有更少的参数但是精度相差不大，训练及推理的过程会更快，这对算法部署平台有着更少的算力要求，使得模型更方便部署。该神经网络模型可部署于上述的电子设备中，如图像处理器(Graphics Processing Unit，GPU)服务器、嵌入式神经网络处理器(Neural-network Processing Unit，NPU)服务器等。

在利用神经网络模型识别每张视频帧图像中的目标动物之前，还可以对神经网络模型进行训练，例如，可以采用以下方式对神经网络模型进行训练：获取各个监控区域的多张初始训练图像，对多张初始训练图像进行筛选，获得多张训练图像，利用多张训练图像对神经网络模型进行训练。

其中，对上述的ResNet18-SSD模型的训练过程大致为：对输入图像进行预处理后送入特征提取网络，数据在ResNet18网络中会生成多个不同尺度的特征图以及预选框，这些特征图及预先框会输入SSD的检测器中使用FastNMS方法对预选框进行筛选，之后输出检测结果与真实标签进行对比后更新模型参数。

其中，图像预处理的部分包括但不限于：图像裁剪、图像扩张、图像翻转、色相偏移、亮度变化、对比度变化、饱和度变化，而在实际情况中，为了减少数据处理量，这些预处理操作可以是随机选择的，并不是需要全部执行的。

而在模型训练阶段，可以收集不同场景、不同地区、不同光照的目标动物的图像(即多个监控区域的图像)，采集的初始训练图像为通过视频流和网络爬取获得的，取视频流中的每一帧图像作为初始训练图像。而考虑到视频流会有较多帧间差异小的图像，所以，为了去除相似度高的图像，可以对多张初始训练图像进行筛选，其筛选方式可以为：对多张初始训练图像进行跳帧去重，获得去重后的多张图像，计算获得多张图像中每两张图像之间的相似度，基于该相似度从多张图像中筛选出相似度小于预设值的图像作为多张训练图像。

其中，跳帧去重可以理解为是将多张初始训练图像中间隔的图像进行删除，如多张初始训练图像按照时间顺序排序为图像1、图像2、图像3、图像4、图像5、图像6，……，跳帧去重可以是指将图像1、图像3、图像5，……，等图像删除，保留图像2、图像4等图像，或者也可以是删除图像2、图像4、图像6等图像，保留图像1、图像3、图像5等图像。

当然，跳帧去重也不一定是每次跳一帧，也可以按照每次跳两帧、跳三帧等方式，或者按照一定的规律进行跳帧去重，如跳一帧、跳两帧、跳一帧、跳两帧等，通过该跳帧去重可以删除多张初始训练图像中帧间相似度较高的图像，其跳帧去重示意图如图3所示。

而考虑到实际采集视频流在较多帧间的差异也较小，单纯使用跳帧去重也有大量近似帧，所以，还可以计算跳帧去重后获得的多张图像中每两张图像之间的相似度，通过相似度对多张图像进行筛选。

如任意选择多张图像中的两张图像，由于两张图像可能大小不一致，所以为了便于后续进行相似度计算，可先将两张图像进行尺寸变化，如将两张图像的大小变换为300*300，然后对两张图像进行灰度处理，获得两张灰度图，然后对每张灰度图求哈希值，计算每张灰度图中每行的相邻像素之间的差异，如果左边像素比右边像素大，则记为1，否则记为0，由此可得到每张灰度图的哈希值。

在获得两张灰度图的哈希值后，可根据哈希值获取汉明距离，该汉明距离即可用于表征两张图像之间的相似度，然后获得相似度后，可将相似度与预设值进行比较，如果相似度超过预设值，则删除两张图像中的任意一张图像，保留其中一张图像，或者指定删除两张图像中采集时间靠前或靠后的一张图像。按照上述方式迭代完所有的多张图像后即可筛选出相似度小于预设值的图像作为多张训练图像。

而为了降低目标动物的误检或漏检，可以将多张训练图像分为正负样本集后对神经网络模型进行训练，在将多张训练图像输入至神经网络模型中之前，可先对训练图像进行标注，如标注图像中的背景以及需识别的动物等信息。

在上述对神经网络模型进行训练后，即可利用神经网络模型来对每张视频帧图像是否存在目标动物进行识别，从而可获得对每张视频帧图像的识别结果。

作为另外一种实施方式，为了减少模型训练过程中的参与数据量，还可以在获得多张初始训练图像之后，还可以计算每两张初始训练图像之间的相似度，然后可获取相似度大于指定阈值的至少两张图像，然后可将这至少两张图像进行融合后获得融合图像，再将融合图像与其他未进行融合的图像一并输入神经网络模型中，以对神经网络模型进行训练。

例如，若计算出图像1和图像2的相似度大于指定阈值，表明图像1和图像2相似，则可将图像1与图像2融合获得图像a，若图像2与图像3的相似度也大于指定阈值时，也可继续将图像a与图像3进行融合获得图像b，若图像4与图像5之间的相似度大于指定阈值，则将图像4与图像5融合获得图像c，此时可将获得的图像b与图像c输入至神经网络模型中进行训练。按照该方式，即可将多张初始训练图像中相似度较高的图像先进行合并后再输入至神经网络模型中进行训练，从而可在确保模型训练精度的同时也可减少模型训练参与的数据量。

可以理解地，在实际利用神经网络模型进行目标动物检测时，也可以按照上述方式先将多张视频帧图像中相似度较高的视频帧图像进行融合后，再针对融合后的视频帧图像或者相似度低的未融合的其他视频帧图像中是否存在目标动物进行识别，从而可减小识别过程中的数据处理量。

在一些实施方式中，为了进一步提高对目标动物的识别结果的准确性，还可以结合声音来进行目标动物的识别，如上述在采集监控区域的视频流时，可一并采集监控区域的环境声音信息，然后可利用环境声音信息来识别监控区域内是否存在目标动物。

在具体实现过程中，可以将获得的环境声音信息进行音频图像处理，获得声音波形图，然后可利用神经网络模型对声音波形图进行识别，以识别其是否包含目标动物的声音。

在具体进行识别时，可以获取上述的N张视频帧图像对应的时间段，然后从声音波形图中截取该时间段对应的声音波形图，即截取该时间段采集的声音波形图，然后再将该时间段对应的声音波形图输入至神经网络模型中进行识别。可以理解地，该神经网络模型可以是卷积神经网络模型等其他模型，其也可以通过预先采集目标动物的声音波形图来输入神经网络模型，对神经网络模型进行训练，从而可利用神经网络模型来根据声音波形图来检测该声音是不是目标动物的声音，输出对应的检测结果。

若该检测结果为该声音是目标动物的声音，且上述的N张视频帧图像中也存在目标动物时，则认为监控区域存在目标动物，这样可通过图像与声音的结合来共同识别目标动物，使得对目标动物的检测精度更高。

请参照图4，图4为本申请实施例提供的一种动物检测装置200的结构框图，该装置200可以是电子设备上的模块、程序段或代码。应理解，该装置200与上述图2方法实施例对应，能够执行图2方法实施例涉及的各个步骤，该装置200具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。

可选地，所述装置200包括：

图像获取模块210，用于获取监控区域的多张视频帧图像；

动物识别模块220，用于识别每张视频帧图像中是否存在目标动物；

动物确定模块230，用于在确定预设数量的连续的N张视频帧图像中均存在所述目标动物时，确定所述监控区域内存在所述目标动物，其中，N为大于1的整数。

可选地，所述装置200还包括：

可选地，所述动物识别模块220，用于将每张视频帧图像输入至神经网络模型中，通过所述神经网络模型识别每张视频帧图像中是否存在目标动物。

可选地，所述装置200还包括：

可选地，所述神经网络模型为ResNet18-SSD网络模型。

本申请实施例提供一种可读存储介质，所述计算机程序被处理器执行时，执行如图2所示方法实施例中电子设备所执行的方法过程。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如，包括：获取监控区域的多张视频帧图像；识别每张视频帧图像中是否存在目标动物；在确定预设数量的连续的N张视频帧图像中均存在所述目标动物时，确定所述监控区域内存在所述目标动物，其中，N为大于1的整数。

综上所述，本申请实施例提供一种动物检测方法、装置、电子设备及可读存储介质，该方法通过对监控区域的每张视频帧图像进行目标动物的自动识别，而无需通过人工参与动物的识别，本方案大大提高了动物检测的效率，并且在识别到预设数量的连续N张视频帧图像中存在目标动物时才确定监控区域内存在目标动物，从而有效避免图像识别的误检，提高了对监控区域内动物的检测精度。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种动物检测方法，其特征在于，所述方法应用于电子设备；所述方法包括：

接收无人机采集的监控区域的视频流；

提取所述视频流中的视频图像，以获取所述监控区域的多张视频帧图像；所述视频帧图像包括灰度图像、彩色图像、深度图像和红外图像；

识别每张视频帧图像中是否存在目标动物；

在确定预设数量的连续的N张视频帧图像中均存在所述目标动物时，确定所述监控区域内存在所述目标动物，其中，N为大于1的整数；

其中，所述识别每张视频帧图像中是否存在目标动物，包括：

将每张视频帧图像输入至神经网络模型中，通过所述神经网络模型识别每张视频帧图像中是否存在目标动物；

通过以下方式对所述神经网络模型进行训练：

获取各个监控区域的多张初始训练图像；

对所述多张初始训练图像进行筛选，获得多张训练图像；

利用所述多张训练图像对所述神经网络模型进行训练；

所述对所述多张初始训练图像进行筛选，获得多张训练图像，包括：

计算获得所述多张图像中每两张图像之间的相似度；

基于所述相似度从所述多张图像中筛选出相似度小于预设值的图像作为多张训练图像；

所述基于所述相似度从所述多张图像中筛选出相似度小于预设值的图像作为多张训练图像，包括：

获取所述相似度大于指定阈值的至少两张图像，并将所述至少两张图像进行融合获得融合图像；

将所述融合图像和未进行融合的图像作为多张训练图像；

相应的，所述将每张视频帧图像输入至神经网络模型中，包括：

计算每两张所述视频帧图像之间的相似度；

将所述相似度大于所述指定阈值的至少两张视频帧图像进行融合；

将融合后的视频帧图像或者未融合的视频帧图像输入至神经网络模型中。

2.根据权利要求1所述的方法，其特征在于，所述确定所述监控区域内存在所述目标动物之后，还包括：

获取所述监控区域内所述目标动物的数量并输出。

3.根据权利要求2所述的方法，其特征在于，所述获取所述监控区域内所述目标动物的数量并输出，包括：

输出所述目标动物的平均数量。

4.根据权利要求1所述的方法，其特征在于，所述神经网络模型为ResNet18-SSD网络模型。

5.一种动物检测装置，其特征在于，所述装置为电子设备上的模块；所述装置包括：

图像获取模块，用于接收无人机采集的监控区域的视频流；提取所述视频流中的视频图像，以获取所述监控区域的多张视频帧图像；所述视频帧图像包括灰度图像、彩色图像、深度图像和红外图像；

动物确定模块，用于在确定预设数量的连续的N张视频帧图像中均存在所述目标动物时，确定所述监控区域内存在所述目标动物，其中，N为大于1的整数；

所述动物识别模块具体用于：

所述装置还包括训练模块，用于：

获取各个监控区域的多张初始训练图像；

对所述多张初始训练图像进行筛选，获得多张训练图像；

利用所述多张训练图像对所述神经网络模型进行训练；

所述训练模块具体用于：

计算获得所述多张图像中每两张图像之间的相似度；

所述训练模块具体用于：

将所述融合图像和未进行融合的图像作为多张训练图像；

相应的，所述动物识别模块具体用于：

计算每两张所述视频帧图像之间的相似度；

6.一种电子设备，其特征在于，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如权利要求1-4任一所述的方法。

7.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时运行如权利要求1-4任一所述的方法。