CN114220035A

CN114220035A - 一种基于改进yolo v4的快速害虫检测方法

Info

Publication number: CN114220035A
Application number: CN202111590018.8A
Authority: CN
Inventors: 王儒敬; 董士风; 刘康; 焦林; 王粉梅; 黄子良; 郑世健; 滕越; 刘海云
Original assignee: Hefei Intelligent Agriculture Collaborative Innovation Research Institute Of China Science And Technology
Current assignee: Hefei Intelligent Agriculture Collaborative Innovation Research Institute Of China Science And Technology
Priority date: 2021-12-23
Filing date: 2021-12-23
Publication date: 2022-03-22

Abstract

本发明涉及一种基于改进YOLO V4的快速害虫检测方法，包括：通过虫情测报灯采集虫害图像，建立虫害数据集；构建基于改进YOLO V4的快速害虫检测模型；将所述虫害数据集输入所述快速害虫检测模型进行训练；获取待检测的虫害图像，并进行预处理，将图像尺寸统一化；将预处理后的待检测的虫害图像输入训练后的快速害虫检测模型，快速害虫检测模型输出检测结果，所述检测结果即图像中每个虫害的类别和边界框位置。本发明通过多尺度预测结构能够提取到更丰富特征的特征、融合了多个尺度的特征来进行检测，可以在不加深网络深度的前提下提升检测精度；本发明使用了轻量级主干网络以及提出的轻量级特征层融合减少了模型参数，检测速度快。

Description

一种基于改进YOLO V4的快速害虫检测方法

技术领域

本发明涉及虫害图像识别技术领域，尤其是一种基于改进YOLO V4的快速害虫检测方法。

背景技术

随着人工智能的发展，计算机视觉领域的目标检测技术取得了突破性成果，其在不同领域的应用尤为广泛，比如人脸识别、智慧交通、智慧农业病虫害监测等领域。此前，在虫害监测领域中，由于虫害的识别和计数主要方式是采用人工方式，其成本高，劳动强度大。如今，随着目标检测技术的发展，可以在在虫害监测中节省人力物力、缩减人工成本，而且精准度高避免了由人工识别计数产生的误差，采用适合大规模虫害图像检测的技术是研究的关键。

目前，基于卷积神经网络的目标检测技术大致可以分为两个方向：基于密集采样回归的一阶段检测器，以及候选区域推荐框的两阶段检测器。其中，两阶段目标检测方法系列(包括R-CNN以及Faster R-CNN)具有检测速度慢但精度高的特点；与二阶段算法不同的是，以SSD、YOLO为代表的一阶段算法其特点是检测速度快，但是在准确度上不如二阶段。

随着YOL0系列的发展，第四代算法YOLOV4已经能保持识别速度而且达到较高的的识别精度，YOLO V4算法是在原有YOLO目标检测架构的基础上，采用了一些实用的优化策略，从数据处理、主干网络、网络训练、激活函数、损失函数等各个方面都有着不同程度的优化，该算法效果达到了实现速度与精度平衡的结果。YOLO V4算法在通用目标数据集上效果比较好，但是其对包含众多目标且害虫较小的图像来说识别精读还是有待提高。

发明内容

本发明的目的在于提供一种虫害检测准确率高、检测速度快的基于改进YOLO V4的快速害虫检测方法。

为实现上述目的，本发明采用了以下技术方案：一种基于改进YOLO V4的快速害虫检测方法，该方法包括下列顺序的步骤：

(1)通过虫情测报灯采集虫害图像，建立虫害数据集；

(2)构建基于改进YOLO V4的快速害虫检测模型；

(3)将所述虫害数据集输入所述快速害虫检测模型进行训练；

(4)获取待检测的虫害图像，并进行预处理，将图像尺寸统一化；

(5)将预处理后的待检测的虫害图像输入训练后的快速害虫检测模型，快速害虫检测模型输出检测结果，所述检测结果即图像中每个虫害的类别和边界框位置。

所述步骤(1)具体包括以下步骤：

(1a)将虫情测报灯获取的虫害图像进行预处理，进行图像尺寸统一化，数据清洗，筛选掉低质量图片；

(1b)用开源图像标注软件LabelImg进行标注，对虫害图像上的单只害虫标注类别和位置信息，这些信息储存在xml格式的文件中；每个虫害图像对应生成一个xml格式的标注文件，将虫害图像和对应的标注文件一起建立虫害数据集；

(1c)将虫害数据集划分为训练集、验证集和测试集，分别用于快速害虫检测模型的训练和测试。

所述步骤(2)包括构建轻量化网络Mobilenetv3结构的主干网络和特征金字塔网络；

其中，构建轻量化网络Mobilenetv3结构的主干网络具体是指：MobileNet在采用深度可分离卷积的基础上，利用具有线性瓶颈的反向残差模块来改进特征提取过程，首先将608×608×3图像送入使用了基础模块bneck的主干网络，基础模块bneck包括三个部分，分别是通道可分离卷积、SE通道注意力机制和残差连接；在主干网络中，采用基础模块bneck对输入特征图进行升维，其中的使用的深度可分离卷积conv2d是二维卷积，然后加入压缩-激发注意力模块SE，来平衡特征图各通道的权值；

在主干网络中使用的激活函数是hswish激活函数，公式(1)为swish激活函数：

swish(x)＝x·σ(κx) (1)

其中，x是输入,κ是用来调整激活函数斜率的超参数,σ是sigmod函数，定义见公式(2)，hswish使用ReLU6激活函数优化了swish激活函数中的σ(κx)，ReLU6激活函数的定义见公式(3)：

ReLU6(x)＝min(max(0,x),6) (3)

使用ReLU6激活函数将输入x限制在0到1之间，从而替换Sigmoid函数的函数；同时，hswish激活函数将基础模块bneck中的激活函数数量减少到16个；

所述特征金字塔网络的构建步骤如下：

(2a)设定将虫害图像输入主干网络，得到下采样尺寸为原图1/8、1/16、1/32倍的特征图，记为C_i,i∈(3,4,5)；

(2b)对特征金字塔网络构造轻量级的多层融合模块，将上述3个特征图C_i进行特征加权融合，得到多尺度特征金字塔预测结构；

(2c)将尺寸大小为76×76的C₃特征图首先使用2×2平均池化操作进行下采样得到C₃′；

(2d)将尺寸大小为38×38的C₄特征图使用1×1卷积得到C₄′；

(2e)将尺寸大小为19×19的C₅特征图上采样到大小为38×38的C₅′特征地图；

(2f)将大小为38×38的C_i′,i∈(3,4,5)三个特征图连接成一个特征图；

同理，按照此方法将19×19和38×38个特征图上采样生成76×76和19×19大小的的特征图，然后将它们组合成特征金字塔P_i,i∈(3,4,5)。

所述步骤(3)具体是指：

设定在随机梯度下降优化算法中，学习率设置为0.01，动量设置为0.937，权重衰减设置为0.0005，预热训练3个轮次，预热训练的动量设置为0.937，神经元失活率设置为0.5，基础学习率设置为0.001，训练300个轮次；

其回归框损失函数loss_box的数学表达式如下：

其中，λ_coord表示边界框坐标损失预测时的超参数，设置为λ_coord＝5，K表示图片被主干网络经过卷积后分成K×K大小，K∈(13,26,52)，每个网格产生M个候选框，每个候选框会经过网络最终得到相应的边界框，最终得到K×K×M个边界框；

表示特征图中第i个网格的的B个边界框中与真实标注框的IoU在所有的边界框与真实标注框的IoU中最大，IoU为交并比，此时

为1，否则为0；(x_i,y)_i代表边界框的中心点坐标，

代表真实标注框的中心点坐标，(w_i,h_i)代表边界框的宽和高，

代表真实标注框的宽和高；当

为1时，那么这个边界框所产生的边界框和真实标注框才去比较，计算得到中心坐标和宽高的误差：

其中，置信度误差loss_conf属于交叉熵损失函数，λ_noobj表示边界框不包含预测对象时的超参数，设置为λ_noobj＝0.5，C_i为预测值，

是参数置信度值，

是当网络的该边界框负责预测某个对象时，

为1，否则为0；

其中，分类误差loss_cla属于交叉熵作为损失函数，当第j个锚框

为1时，那么这个锚框所产生的边界框才会去计算分类损失函数；p_i(c)为预测为类别c的概率值，

是当网络的该边界框负责预测某个对象时，

为1，否则为0；

loss(object)＝loss_box+loss_conf+loss_cla

其中，loss(object)是总loss值，loss_box是回归框损失，loss_conf置信度损失，loss_cla是分类损失，整个的损失是上面回归框损失、置信度损失、分类损失三项损失之和。

所述待检测的虫害图像输入到训练后的快速害虫检测模型后，得到三种不同尺度的预测结果，分别是(19×19)，(38×38)，(76×76)，即得到[(76*76)+(38*38)+(19*19)]*3＝22743个预测候选框；训练后的快速害虫检测模型通过大小为(22743,31)的二维向量表示每个网格每个尺寸的预测候选框的预测结果，其中的31包括26类预定义待检测的害虫，和5个训练后的快速害虫检测模型中预测的边界框的四个参数(x,y,w,h)以及是否有目标的分数值；然后将预测值分数值低于阈值的滤掉再通过NMS算法对一个位置只保留一个最优预测框，最后训练后的快速害虫检测模型的输出值为(x,y,w,h,c)，即相应预测框的中心点坐标、宽、高及类别。

由上述技术方案可知，本发明的有益效果为：第一，通过多尺度预测结构能够提取到更丰富特征的特征、融合了多个尺度的特征来进行检测，可以在不加深网络深度的前提下提升检测精度；第二，本发明使用了轻量级主干网络以及提出的轻量级特征层融合减少了模型参数，检测速度快；第三，由于使用大规模害虫图像数据集训练，模型的鲁棒性强，适应于多角度、复杂背景害虫图像。

附图说明

图1为本发明的方法流程图；

图2为标准卷积和深度可分离卷积对比示意图；

图3为本发明的整体框架结构示意图；

图4为本发明的用于轻量级特征层融合结构示意图。

具体实施方式

如图1所示，一种基于改进YOLO V4的快速害虫检测方法，该方法包括下列顺序的步骤：

(1)通过虫情测报灯采集虫害图像，建立虫害数据集；

(2)构建基于改进YOLO V4的快速害虫检测模型；

(3)将所述虫害数据集输入所述快速害虫检测模型进行训练；

所述步骤(1)具体包括以下步骤：

其中，构建轻量化网络Mobilenetv3结构的主干网络具体是指：MobileNet在采用深度可分离卷积的基础上，利用具有线性瓶颈的反向残差模块来改进特征提取过程，首先将608×608×3图像送入使用了基础模块bneck的主干网络，基础模块bneck包括三个部分，分别是通道可分离卷积、SE通道注意力机制和残差连接；在主干网络中，采用基础模块bneck对输入特征图进行升维，其中的使用的深度可分离卷积conv2d是二维卷积，然后加入压缩-激发注意力模块SE，来平衡特征图各通道的权值；轻量化网络轻量化网络是轻量化网络，大大减小了网络参数量。带有轻量级融合模块的特征金字塔来弥补轻量化主干网络带来的检测精度下降的问题。

MobileNet在采用深度可分离卷积的基础上，利用具有线性瓶颈的基础模块bneck来改进特征提取过程。首先将608×608×3图像送入采用bneck结构的主干网络，网络结构如图3所示，采用bneck结构对输入特征图进行升维，其中的conv2d是深度可分离卷积，然后加入SE(Squeeze-and-Excite)注意模块来平衡特征图各通道的权值。注意力机制是模仿人的神经系统提出的概念，在某个特定的场景中，人对场景中每个物品的关注度都是不同的，拓展到神经网络中，更重要的特征也应该被赋予更高的权重，以提升主干网络对重要特征的关注度。SE结构通过训练特征图每个通道的权重来实现注意力机制，对提取特征贡献较大的通道将具有更高的权重。

Mobilenet网络的核心是用深度可分离卷积代替了标准卷积，如图2所示，输入为Fh×w×3的特征图，经过3×3的卷积核卷积后将输出Fh×w×n特征图。标准卷积的过程为n个3×3的卷积核与输入特征图每个通道进行卷积，最后得到通道数为n的新特征图；而深度可分离卷积先用3个3×3的卷积核与输入特征图的各个通道分别进行卷积，得到一个输出通道等于输入通道的特征图，再用n个1×1的卷积核对此特征图进行卷积得到一个n通道的新特征图。使用可分离卷积可以使参数量降低而且使卷积时乘法运算次数降低。

swish(x)＝x·σ(κx) (1)

ReLU6(x)＝min(max(0,x),6)(3)

使用ReLU6激活函数将输入x限制在0到1之间，从而替换Sigmoid函数的函数；同时，hswish激活函数将基础模块bneck中的激活函数数量减少到16个；但保持了swish使用32个激活函数的准确性，降低了网络的复杂性。

由于害虫具有不同尺度的目标，单尺度特征层无法适应多角度、多尺度变化的图像。因此，需要特征金字塔网络结构解决这个问题。特征金字塔网络结构浅层具有较大的分辨率，包含更清晰的位置信息，深层特征包含丰富的语义信息，不同尺度的特征层包含不同的特征信息，对不同大小的对象具有更强的适应性。所述特征金字塔网络的构建步骤如下：

(2d)将尺寸大小为38×38的C₄特征图使用1×1卷积得到C₄′；

对上述收集的虫害图像训练集训练虫害检测模型：利用虫害数据集通过随机梯度下降算法对虫害图像检测模型进行训练。在实际应用中，可以使用的操作系统是Ubuntu18.04版本，Pytorch深度学习框架，CUDA11.0版本，处理器为

Core^TM i7-10700F CPU@2.90GHz，显卡为NVIDIA RTX 2080Ti(24GB内存)、NVIDIA GeForce驱动程序450.102版本的设备环境训练模型。所述步骤(3)具体是指：

其回归框损失函数loss_box的数学表达式如下：

为1，否则为0；(x_i,y)_i代表边界框的中心点坐标，

代表真实标注框的宽和高；当

是参数置信度值，

是当网络的该边界框负责预测某个对象时，

为1，否则为0；

是当网络的该边界框负责预测某个对象时，

为1，否则为0；

loss(object)＝loss_box+loss_conf+loss_cla

所述待检测的虫害图像输入到训练后的快速害虫检测模型后，得到三种不同尺度的预测结果，分别是分别是(19×19)，(38×38)，(76×76)，即得到[(76*76)+(38*38)+(19*19)]*3＝22743个预测候选框；训练后的快速害虫检测模型通过大小为(22743,31)的二维向量表示每个网格每个尺寸的预测候选框的预测结果，其中的31包括26类预定义待检测的害虫，和5个训练后的快速害虫检测模型中预测的边界框的四个参数(x,y,w,h)以及是否有目标的分数值；然后将预测值分数值低于阈值的滤掉再通过NMS算法对一个位置只保留一个最优预测框，最后训练后的快速害虫检测模型的输出值为(x,y,w,h,c)，即相应预测框的中心点坐标、宽、高及类别。

图4为采用本发明对虫害图像进行检测的检测结果效果图。由图4可以看出，尽管虫害图像中背景复杂，但是本发明所提出的检测方法仍然准确检测出虫害的类别和个数。如表1所示，在保持训练参数一致的情况下，比较了Faster R-CNN、SSD和YOLOv3的模型参数数量、FPS值和平均精度值。与Faster RCNN相比，YOLO-pest的平均精度提高了5个点，而且在推理速度方面，本发明方法比Faster R-CNN快了40FPS，满足了实时检测的要求。表2显示了每种害虫类别的虫害名以及数据集对应的实例数。对于每一类害虫也有不同方法的精度，可以看到本发明的方法几乎超过了其他方法对所有害虫的精度。

表1.本发明与不同检测方法的检测结果对比

表2.本发明与不同检测方法对每个类别的害虫检测精度对比表

综上所述，本发明通过多尺度预测结构能够提取到更丰富特征的特征、融合了多个尺度的特征来进行检测，可以在不加深网络深度的前提下提升检测精度；本发明使用了轻量级主干网络以及提出的轻量级特征层融合减少了模型参数，检测速度快；由于使用大规模害虫图像数据集训练，模型的鲁棒性强，适应于多角度、复杂背景害虫图像。

Claims

1.一种基于改进YOLO V4的快速害虫检测方法，其特征在于：该方法包括下列顺序的步骤：

(1)通过虫情测报灯采集虫害图像，建立虫害数据集；

(2)构建基于改进YOLO V4的快速害虫检测模型；

(3)将所述虫害数据集输入所述快速害虫检测模型进行训练；

2.根据权利要求1所述的基于改进YOLO V4的快速害虫检测方法，其特征在于：所述步骤(1)具体包括以下步骤：

3.根据权利要求1所述的基于改进YOLO V4的快速害虫检测方法，其特征在于：所述步骤(2)包括构建轻量化网络Mobilenetv3结构的主干网络和特征金字塔网络；

其中，构建轻量化网络Mobilenetv3结构的主干网络具体是指：MobileNet在采用深度可分离卷积的基础上，利用具有线性瓶颈的反向残差模块来改进特征提取过程，首先将608×608×3图像送入使用基础模块bneck的主干网络，基础模块bneck包括三个部分，分别是通道可分离卷积、SE通道注意力机制和残差连接；在主干网络中，采用基础模块bneck对输入特征图进行升维，其中的使用的深度可分离卷积conv2d是二维卷积，然后加入压缩-激发注意力模块SE，来平衡特征图各通道的权值；

swish(x)＝x·σ(κx) (1)

ReLU6(x)＝min(max(0,x),6)(3)

所述特征金字塔网络的构建步骤如下：

(2d)将尺寸大小为38×38的C₄特征图使用1×1卷积得到C₄′；

4.根据权利要求1所述的基于改进YOLO V4的快速害虫检测方法，其特征在于：所述步骤(3)具体是指：

其回归框损失函数loss_box的数学表达式如下：

其中，λ_coord表示边界框坐标损失预测时的超参数，设置为λ_coord＝5，K表示图片被主干网络经过卷积后分成K×K大小，K∈(19,38,76)，每个网格产生M个候选框，每个候选框会经过网络最终得到相应的边界框，最终得到K×K×M个边界框；

为1，否则为0；(x_i,y)_i代表边界框的中心点坐标，

代表真实标注框的宽和高；当

是参数置信度值，

是当网络的该边界框负责预测某个对象时，

为1，否则为0；

是当网络的该边界框负责预测某个对象时，

为1，否则为0；

loss(object)＝loss_box+loss_conf+loss_cla

5.根据权利要求1所述的基于改进YOLO V4的快速害虫检测方法，其特征在于：所述待检测的虫害图像输入到训练后的快速害虫检测模型后，得到三种不同尺度的预测结果，分别是(19×19)，(38×38)，(76×76)，即得到[(76*76)+(38*38)+(19*19)]*3＝22743个预测候选框；训练后的快速害虫检测模型通过大小为(22743,31)的二维向量表示每个网格每个尺寸的预测候选框的预测结果，其中的31包括26类预定义待检测的害虫，和5个训练后的快速害虫检测模型中预测的边界框的四个参数(x,y,w,h)以及是否有目标的分数值；然后将预测值分数值低于阈值的滤掉再通过NMS算法对一个位置只保留一个最优预测框，最后训练后的快速害虫检测模型的输出值为(x,y,w,h,c)，即相应预测框的中心点坐标、宽、高及类别。