CN113298023B

CN113298023B - 一种基于深度学习及图像技术的昆虫动态行为识别方法

Info

Publication number: CN113298023B
Application number: CN202110656390.8A
Authority: CN
Inventors: 詹炜; 董天豫; 洪胜兵; 闵超
Original assignee: Yangtze University
Current assignee: Yangtze University
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2022-09-23
Anticipated expiration: 2041-06-11
Also published as: CN113298023A

Abstract

本发明涉及一种行为识别方法，具体涉及一种基于深度学习及图像技术的昆虫动态行为识别方法。该识别方法，包括如下步骤：1）、获取数据源视频；2）、处理图像；3）、建立识别模型；4）、提取时间空间特征；5）、深度学习；6）、识别分类昆虫动态行为。该识别方法通过将昆虫身体分为头部和尾部区域，分别提取ROI，且分别对头部和尾部ROI进行检测，能有效避免昆虫当前行为对身体其他部位造成的震动干扰导致误判，进而能有效提高准确率；同时在对关键点识别模型和神经网络模型进行训练后，即能通过关键点识别模型和神经网络模型自动识别昆虫行为生成结果，进而能大大减少人工观测时间；解决了现有现有方法费时费力，准确性不佳的问题。

Description

一种基于深度学习及图像技术的昆虫动态行为识别方法

技术领域

本发明涉及一种行为识别方法，具体涉及一种基于深度学习及图像技术的昆虫动态行为识别方法。

背景技术

作物和储藏物历来一直饱受害虫的侵袭，研究昆虫行为的种类，规律和功能，可为昆虫的防治和预测预报提供理论基础。近年来，在农业生产中计算机视觉技术的应用越来越多，利用计算机代替人工监控、统计，有着更高的效率，为农业生产的调控提供可靠、准确的依据。

目前鲜有专门针对昆虫行为识别的方法，对动物的行为识别主要通过人工观察分析统计、光流法和关键点定位法。人工观察分析统计时研究人员需要一帧一帧地播放视频，并手动记录每次梳理行为的时间间隔，这既费时费力，又不准确；人工观察法效率偏低、耗时长、人员易疲劳，数据偏差随观察时间增加而增多，影响最终研究结论。国外有少量对于昆虫行为识别的研究，其利用计算机程序对昆虫行为检测和分析，但其对昆虫行为检测和分析的准确性欠佳。

发明内容

本发明的目的是：提供一种能在保证昆虫行为检测和分析的准确性的情况下，同时能大大减少人工观测的时间，以解决现有方法费时费力，准确性不佳问题的基于深度学习及图像技术的昆虫动态行为识别方法。

本发明的技术方案是：

一种基于深度学习及图像技术的昆虫动态行为识别方法，其特征在于：包括如下步骤：

1）、获取数据源视频

a、通过录像设备使用高清摄像头，拍摄视频分辨1920*1080、帧率为25帧每秒的透明培养皿中自由活动的昆虫背面和正面区域场景视频；

2）、处理图像

b、将拍摄的昆虫行为视频筛选整理，按时序逐帧读取，使用图像处理技术对帧图片阈值分割，阈值分割时根据拍摄背景的颜色直方图确定区间阈值，最低阈值low在[60,50,20]至[100,70,60] 范围内确定，最高阈值high在[200,200,200]至[255,255,255]范围内确定，将最低阈值low和最高阈值high之间的颜色值（RGB数值）变为255，将最低阈值low和最高阈值high之间的颜色值变为0，从而无噪点地提取图像中的昆虫背景，提取出的部分转换为一个含有昆虫背景信息的灰度图像，将获得的灰度图像矩阵取反，获得该帧中只含有昆虫身体像素信息的图像；

c、将拍摄的昆虫行为视频筛选整理，按时序逐帧读取，对图像进行灰度化处理，生成带有时间信息的灰度图像；

3）、建立识别模型

d、对步骤c中获得的图像通过帧间差分强度局部最大值关键帧提取算法，提取关键点识别训练帧，每分钟视频提取出1-2帧，提取训练帧后，在训练帧中标记头部和尾部的关键点，训练帧中的数据使用尺度抖动与随机旋转进行增强，尺度抖动的范围为0.5-1.5，随机旋转的范围为±25，增强后，向数据中添加随机运动模糊与弹性形变；

e、将步骤d处理获得的训练帧投入关键点识别算法DeepLabCut在ImageNet数据集上预训练过的ResNet50训练网络中，通过训练帧对关键点识别算法DeepLabCut进行训练获得一个昆虫头部与尾部关键点识别模型；

f、使用步骤e获得的识别模型识别昆虫动态行为视频，得到每一帧中昆虫头、尾的坐标与预测概率，对于预测概率小于60%的关键点，将其坐标设置为最近一次概率高于60%的坐标值，对坐标和识别模型进行修正；

4）、提取时间空间特征

g、利用训练后的识别模型识别的每一帧的头、尾坐标，以头、尾坐标为中心将视频帧与昆虫信息图像分别裁剪出2块ROI（即感兴趣区域。图像处理技术中，从被处理的图像以方框、圆、椭圆、不规则多边形等方式勾勒出需要处理的区域，称为感兴趣区域）；

h、时间窗口设定范围t为5-15帧，重复步骤ft次，将每一块ROI重构、堆叠，得到ROI特征提取窗口矩阵T，将矩阵T变换为矩阵F，通过矩阵F获得质心矩阵M；

i、以矩阵M为红色通道保存，以矩阵T中的第二行帧信息为蓝色通道保存,生成昆虫时空信息特征图像；

5）、深度学习

j、根据步骤i中生成的时空特征图像特点，将不同行为的时空特征图像分类存放并进行标签标注；

k、利用步骤j分类并标注的时空特征图像对神经网络模型VGG16进行训练，对其网络参数进行修改；

6）、识别分类昆虫动态行为

l、通过步骤k中训练后的神经网络模型VGG16对需要检测的视频数据进行预测，生成ROI区域图像和统计结果表。

优选地，所述的最低阈值low=[80,60,40]，最高阈值high=[255,255,255]。

所述的阈值分割公式为：

式中，

为图像中的颜色值；

将获得的

数值填充至矩阵

：

将矩阵

取反获得的该帧中只含有昆虫身体像素信息的图像矩阵为：

。

所述的步骤f中裁剪ROI大小根据昆虫大小设置，超出帧边界的区域使用0像素填充为设定的ROI大小。

所述的步骤g中矩阵T为：

式中，

为第w帧图像中第

个像素的像素值，

为ROI中的像素数量，

为时间窗口的帧数；

将矩阵T进行在列方向上的快速傅立叶变换并取绝对值，得到矩阵F：

式中，ABS为取绝对值函数，FFT为快速傅里叶变换函数，参数Ty 表示ROI特征提取窗口矩阵T的列方向矩阵；

将矩阵F在列方向上计算每一个像素的质心，将得到的质心存入向量

中，获得的向量

为：

式中，

为第

个像素的质心；

将质心向量

重构为ROI大小的质心矩阵，将矩阵中的元素值大小限制在0到1之间，获得矩阵M：

。

优选的，所述的时间窗口设定范围

为7帧，重复步骤f7次。

所述的神经网络模型VGG16共有16层，神经网络模型VGG16由13个卷积层、3个全连接层和一个softmax分类器构成，卷积核大小均为3×3。

所述的神经网络模型VGG16网络结构依次描述如下：

将输入图片形状转化为(100,100,3)；

经过两次卷积核个数为32 ，卷积核大小为3×3的卷积网络，输出形状为(100,100,32)，再经过窗口大小为2×2的最大池化层，输出形状为(50,50,32)；

经过两次卷积核个数为64 ，卷积核大小为3×3的卷积网络，输出形状为(50,50,64)，再经过窗口大小为2×2的最大池化层，输出形状为(25,25,64)；

经过三次卷积核个数为128，卷积核大小为3×3的卷积网络，输出形状为(25,25,128)，再经过窗口大小为2×2的最大池化层，输出形状为(13,13,128)；

经过三次卷积核个数为256 ，卷积核大小为3×3的卷积网络，输出形状为(13,13,256)，再经过窗口大小为2×2的最大池化层，输出形状为(7,7,256)；

经过三次卷积核个数为512 ，卷积核大小为3×3的卷积网络，输出形状为(7,7,512)，再经过窗口大小为2×2的最大池化层，输出形状为(3,3,512)；

前两个全连接层输出形状为均为(1,1,4096),最后一个全连接层输出形状(1,1,num_classes),num_classes为需要判断的昆虫行为类型种类数；

softmax分类器进行分类

按8:2的比例分为训练集和验证集送入卷积神经网络训练，训练50次直至收敛得到完成的模型。

本发明的有益效果在于：

该基于深度学习及图像技术的昆虫动态行为识别方法通过将昆虫身体分为头部和尾部区域，分别提取ROI，且分别对头部和尾部ROI进行检测，能有效避免昆虫当前行为对身体其他部位造成的震动干扰导致误判，进而能有效提高准确率；同时在对关键点识别模型和神经网络模型进行训练后，即能通过关键点识别模型和神经网络模型自动识别昆虫行为生成结果，进而能大大减少人工观测时间；解决了现有现有方法费时费力，准确性不佳的问题。

附图说明

图1是本发明的总体流程示意图；

图2是本发明昆虫典型行为时空特征图像的示意图；

图3是本发明神经网络的网络结构示意图；

图4是本发明昆虫行为检测判断方法示意图；

图5是本发明程序检测行为可视化显示的示意图；

图6是本发明系统自动分析生成的昆虫行为动作区间统计结果图。

具体实施方式

该基于深度学习及图像技术的昆虫动态行为识别方法，包括如下步骤：

昆虫样本从湖北荆州，海南海口，云南昆明等地域实地获取，研究的虫类有柑橘大实蝇，桔小实蝇，泽兰实蝇，瓜实蝇等品种，采用不同地域不同种类的昆虫作为实验研究的数据集训练神经网络模型可提升行为识别的泛化性，进而提高准确率。将获取的昆虫放置在透明培养皿中，将录像设备的高清摄像头对准培养皿，使培养皿处于视频的中部，由此进行数据源视频获取，拍摄视频分辨为1920*1080、帧率为25帧每秒；录像设备使用高清摄像头，以清晰获取透明培养皿中自由活动的昆虫背面和正面区域场景视频；

图像处理，将拍摄的昆虫行为视频筛选整理，按时序逐帧读取，使用图像处理技术对帧图片阈值分割，阈值分割时根据拍摄背景的颜色直方图确定区间阈值，最低阈值low在[60,50,20]至[100,70,60] 范围内确定，最高阈值high在[200,200,200]至[255,255,255]范围内确定，优选地，所述的最低阈值low=[80,60,40]，最高阈值high=[255,255,255]；

通过阈值分割公式：

式中，

为图像中的颜色值；

将最低阈值low和最高阈值high之间的颜色值（RGB数值）变为255，将最低阈值low和最高阈值high之间的颜色值变为0；

将获得的

数值填充至矩阵

：

从而无噪点地提取图像中的昆虫背景，提取出的部分转换为一个含有昆虫背景信息的灰度图像，得到的灰度图像在保存梯度这一重要特征信息的前提下大大减少了图片处理的计算量；

将矩阵

取反获得该帧中只含有昆虫身体像素信息的图像矩阵：

即将获得的灰度图像矩阵取反，获得该帧中只含有昆虫身体像素信息的图像（S-ROI）；

将拍摄的昆虫行为视频筛选整理，按时序逐帧读取，对图像进行灰度化处理，生成带有时间信息的灰度图像；

建立识别模型，对获得的带有时间信息的灰度图像通过帧间差分强度局部最大值关键帧提取算法，提取关键点识别训练帧，每分钟视频提取出1-2帧，提取训练帧后，在训练帧中标记头部和尾部的关键点，由于昆虫体积较小，身体前半部分的行为可能会带动后半部分的躯体震动，导致行为检测不准确，如昆虫进行前足梳理行为时带动了后足的震动，可能导致程序误判为后足梳理行为，由此采用关键点识别跟踪技术将昆虫躯体分为前后两部分，分别对头部和尾部区域进行识别，从而有效的避免了误判情况的发生；使用DeepLabCut算法识别并跟踪昆虫的头部与尾部区域，训练帧中的数据使用尺度抖动与随机旋转进行增强，尺度抖动的范围为0.5-1.5，随机旋转的范围为±25，增强后，向数据中添加随机运动模糊与弹性形变，由于数据对于神经网络的训练至关重要，通常原始数据量越大，训练出来的模型精度越高，泛化能力越强，但其在做数据标注也会增加数据处理量，费时费力，且收集大规模可用数据往往不易，故利用已有的数据，通过以上数据增强技术，可以制造出更多的图片，进而提高训练后网络模型的精度和泛化能力；

将处理获得的训练帧投入关键点识别算法DeepLabCut中在ImageNet数据集上预训练过的ResNet50训练网络中，通过训练获得一个昆虫头部与尾部关键点识别模型，具体为：

投入ResNet50网络训练的帧图片下采样至640×640分辨率，批处理大小为1，优化器使用SGD，迭代10万次，采用阶梯式学习率设置方式：迭代次数50000以前学习率为2e-3，50000-75000次时为1e-3，75000-100000时为5e-4，训练出一个可以检测昆虫头部与尾部的关键点检测模型。

使用获得的关键点检测模型识别昆虫头尾部区域信息，为了平滑识别关键点出现的相对位置并准确得到昆虫头、尾坐标，将识别概率大于60%的关键点直接取用，对于预测概率小于60%的关键点，将其坐标设置为之前最近一帧概率高于60%的坐标值,进而对坐标和识别模型进行修正。

时间空间特征信息提取，利用训练后的识别模型识别的每一帧的头、尾坐标，以头、尾坐标为中心将视频帧中昆虫信息图像分别裁剪出2块ROI，裁剪ROI大小根据昆虫大小设置，超出帧边界的区域使用0像素填充为设定的ROI大小。

设定时间窗口范围t为5-15帧，重复t次；设定时间窗口范围为5-15帧均可提取昆虫行为的时空特征，经实验表明时间窗口取7帧时可兼顾生成效果和生成效率，从而优选地设定时间窗口为7帧，重复步骤7次，将裁切的每一块ROI重构为行向量，分别堆叠头、尾ROI，得到ROI特征提取窗口矩阵T，将矩阵T变换为矩阵F，通过矩阵F获得质心矩阵M，具体为：

矩阵T为：

式中，

为第w帧图像中第

个像素的像素值，

为ROI中的像素数量，

为时间窗口的帧数；

中，获得的向量

为：

式中，

为第

个像素的质心；

将质心向量

以矩阵M为红色通道保存，以矩阵T中的第二行帧信息为蓝色通道保存,以S-ROI为绿色通道保存，分别生成一张昆虫图像的头部区域和尾部区域的时空信息特征图像。

深度学习，根据时空特征图像特点，将时空特征图像中的昆虫行为分为前足梳理、头部梳理、中足梳理、前中足梳理、腹部梳理、后足梳理、中后足梳理、翅膀梳理，将不同行为的时空特征图像分类存放并进行标签标注；将分类并标注的时空特征图像送入神经网络模型VGG16进行训练，对其网络参数进行修改；由于时空特征图像分为头部区域时空特征图像和尾部区域时空特征图像，各种不同行为间的时空图像区别度较高，从而使训练后的神经网络模型VGG16识别昆虫行为时更准确。

神经网络模型VGG16共有16层，神经网络模型VGG16由13个卷积层、3个全连接层和一个softmax分类器构成，卷积核大小均为3×3；神经网络模型VGG16网络结构依次描述如下：

将输入图片形状转化为(100,100,3)；

softmax分类器进行分类，按8:2的比例分为训练集和验证集送入卷积神经网络训练，训练50次直至收敛得到完成的模型。

昆虫动态行为识别分类，对需要检测的视频，使用训练后的关键点识别模型自动识别标记关键点，即标记图像中的头部和尾部区域，标记关键点后，自动裁切获得头部和尾部区域ROI，从而提取头部区域和尾部区域的时空特征图像；提取完成时空特征图像进入训练后的神经网络模型VGG16中，神经网络模型VGG16对时空特征图像中的昆虫行为进行识别，分别得出头部区域和尾部区域ROI的预测结果；对两个预测结果加以判断得出最终的行为预测结果，判断方法如下：由于昆虫在同一时间只会进行一种行为，由此首先判断该帧是否有行为发生，若头部区域和尾部区域ROI检测结果均无行为（表示为二者均等于0），则此帧最终判断为无行为；若其中一个的检测结果为有行为（表示为其一不等于0），则有行为的那个ROI的检测结果为此帧最终判断结果；若两个ROI检测结果存在不同种行为（表示为均不为0），则此帧最终判断结果为其中概率最大ROI的检测结果；行为识别判断方法如下：

逐帧检测，将每一帧的检测结果存入列表L，对于列表L，列表L中元素值的索引对应被测视频的帧索引，即列表L存储的是每一帧图片的最终判断结果；由于昆虫一次行为一般至少持续0.5秒，设定只统计至少持续了10帧（0.4秒）以上的行为，且若一个行为没有在10帧中被连续检测到，判定为行为已经结束；判定行为结束时，从判定结束10帧的第一帧开始重新判断当前行为，其目的是为了过滤检测结果中偶尔出现的几帧错误检测的情况，即若列表L中有连续10以上个元素表示同一种行为，则判定这段时间昆虫正在执行该行为，若后续列表L中少于10个连续元素表示该行为，则判定该行为结束；

判断当前行为后，将ROI区域和行为的类型在源视频中标出，进行可视化显示；检测完成后，根据每一帧图像的检测结果划分出每种行为对应的区间，该区间包括每种行为的频次、持续时长与平均时长，对该区间进行统计，生成统计结果表，以统计结果表的形式进行显示。

Claims

1.一种基于深度学习及图像技术的昆虫动态行为识别方法，其特征在于：包括如下步骤：

1）、获取数据源视频

2）、处理图像

b、将拍摄的昆虫行为视频筛选整理，按时序逐帧读取，使用图像处理技术对帧图片阈值分割，阈值分割时根据拍摄背景的颜色直方图确定区间阈值，最低阈值low在[60,50,20]至[100,70,60] 范围内确定，最高阈值high在[200,200,200]至[255,255,255]范围内确定，将最低阈值low和最高阈值high之间的颜色值变为255，将最低阈值low和最高阈值high之间的颜色值变为0，从而无噪点地提取图像中的昆虫背景，提取出的部分转换为一个含有昆虫背景信息的灰度图像，将获得的灰度图像矩阵取反，获得该帧中只含有昆虫身体像素信息的图像；

3）、建立识别模型

e、将步骤d处理获得的训练帧输入关键点识别算法DeepLabCut在ImageNet数据集上预训练过的ResNet50训练网络中，通过训练帧对关键点识别算法DeepLabCut进行训练获得一个昆虫头部与尾部关键点识别模型；

4）、提取时间空间特征

g、利用训练后的识别模型识别的每一帧的头、尾坐标，以头、尾坐标为中心将视频帧中的昆虫信息图像分别裁剪出2块ROI；

h、时间窗口设定范围t为5-15帧，重复步骤ft次，将每一块ROI重构、堆叠得到ROI特征提取窗口矩阵T，将矩阵T变换为矩阵F，通过矩阵F获得质心矩阵M；

i、以矩阵M为红色通道保存，以矩阵T中的第二行帧信息为蓝色通道保存,以S-ROI为绿色通道，生成昆虫时空信息特征图像；

5）、深度学习

j、根据步骤i中生成的时空特征图像特点，将时空特征图像中的昆虫行为分类存放并进行标签标注；

6）、识别分类昆虫动态行为

l、通过步骤k中训练后的神经网络模型VGG16对需要检测的视频数据进行预测，生成ROI区域图像统计结果表；

提取完成时空特征图像进入训练后的神经网络模型VGG16中，神经网络模型VGG16对时空特征图像中的昆虫行为进行识别，分别得出头部区域和尾部区域ROI的预测结果；对两个预测结果加以判断得出最终的行为预测结果，判断方法如下：首先判断该帧是否有行为发生，若头部区域和尾部区域ROI检测结果均无行为，则此帧最终判断为无行为；若其中一个的检测结果为有行为，则有行为的那个ROI的检测结果为此帧最终判断结果；若两个ROI检测结果存在不同种行为，则此帧最终判断结果为其中概率最大ROI的检测结果。

2.根据权利要求1所述的一种基于深度学习及图像技术的昆虫动态行为识别方法，其特征在于：所述的最低阈值low=[80,60,40]，最高阈值high=[255,255,255]。

3.根据权利要求1所述的一种基于深度学习及图像技术的昆虫动态行为识别方法，其特征在于：所述的阈值分割公式为：