CN114565048A

CN114565048A - 基于自适应特征融合金字塔网络的三阶段害虫图像识别方法

Info

Publication number: CN114565048A
Application number: CN202210201018.2A
Authority: CN
Inventors: 焦林; 李高强; 陈鹏; 雷雨; 梁栋
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2022-03-02
Filing date: 2022-03-02
Publication date: 2022-05-31

Abstract

本发明涉及一种基于自适应特征融合金字塔网络的三阶段害虫图像识别方法，包括：获取害虫图像数据集；构建自适应特征融合金字塔网络，将害虫原图像输入，输出害虫特征图；构建三阶段害虫图像目标定位识别网络；自适应特征融合金字塔网络与三阶段害虫图像目标定位识别网络组成害虫图像识别模型，将训练集输入害虫图像识别模型，将测试集输入训练好的害虫图像识别模型中，输出害虫图像检测的结果。本发明加强对害虫图像特征提取能力，获得更高质量更准确的预测框，最后构建三阶段害虫图像目标定位识别网络，加强了对害虫目标检测的精度；本方法可以运用到复杂的、相似度高的农业害虫检测工作中。

Description

基于自适应特征融合金字塔网络的三阶段害虫图像识别方法

技术领域

本发明涉及害虫图像检测技术领域，尤其是一种基于自适应特征融合金字塔网络的三阶段害虫图像识别方法。

背景技术

传统农业害虫识别主要是依靠农技人员“眼观手查”完成，但是人工方法害虫检测方法效率低，容易受农技人员的主观经验的影响误判，因此不利于农业害虫的及时、有效防控。随着计算机视觉技术的发展，许多研究人员采用机器学习算法对农业害虫图像进行识别，取得了较好地识别效果。但是面对复杂的农田环境、不同类别的害虫相似度高，因此传统的基于机器学习的方法，在对害虫目标的特征提取困难，导致识别精度低。

因此，如何高效地对复杂背景下的害虫图像特征进行提取，并区分相似度高的不同类别害虫，以提升害虫图像识别精度，为农业害虫提供及时、有效的防控建议具有重要意义的。

发明内容

本发明的目的在于提供一种不仅能够加快对多种类、小尺度害虫图像识别的速度与准确度，而且能够运用到复杂的、相似度高的农业害虫检测工作中的基于自适应特征融合金字塔网络的三阶段害虫图像识别方法。

为实现上述目的，本发明采用了以下技术方案：一种基于自适应特征融合金字塔网络的三阶段害虫图像识别方法，该方法包括下列顺序的步骤：

(1)获取害虫图像数据集，害虫图像数据集是害虫原图像的集合，将害虫图像数据集按7：3的比例划分成训练集与测试集；

(2)构建自适应特征融合金字塔网络，将害虫原图像输入自适应特征融合金字塔网络，自适应特征融合金字塔网络输出害虫融合特征图；

(3)构建三阶段害虫图像目标定位识别网络；

(4)自适应特征融合金字塔网络与三阶段害虫图像目标定位识别网络组成害虫图像识别模型，将训练集输入害虫图像识别模型，对害虫图像识别模型进行训练，将测试集输入训练好的害虫图像识别模型中，害虫图像识别模型输出害虫图像检测的结果。

所述步骤(2)具体包括以下步骤：

(2a)自适应特征融合金字塔网络由害虫特征提取层和自适应特征融合层构成，其中，害虫特征提取层包括深度残差网络和一个1×1×256的卷积；自适应特征融合层包括卷积神经网络和一个softmax归一化指数函数；

(2b)害虫特征提取层进行害虫特征提取：将害虫原图像输入害虫特征提取层以获得害虫特征图，害虫特征提取层对害虫原图像提取特征时采用深度残差网络作为骨干网络，首先进行通道变换：对来自深度残差网络提取的不同层级的害虫特征图，采用卷积核大小为1×1×256的卷积操作；其次采用特征图尺度变换：将第l层的害虫特征图进行上采样或者下采样变换到第k层害虫特征图尺度的大小，得到害虫特征图X^kl；

(2c)自适应特征融合层对获得的害虫特征图进行自适应特征融合，输出所需的害虫融合特征图，自适应特征融合的公式为：

其中，

表示输出害虫特征图,Y^l位置i处的特征向量；

表示从第k层到第l层做尺度变化后的害虫特征图上第i位置处的特征向量；

和

是可学习权重，通过卷积神经网络的学习获取；

和

的值在0至1之间，且

使用softmax归一化指数函数计算可学习权重

和

计算公式为：

其中，

是用于控制可学习权重

的参数，

是用于控制可学习权重

的参数，

是用于控制可学习权重

的参数。

所述步骤(3)具体包括以下步骤：

(3a)构建一阶段的害虫区域推荐网络和自适应锚框生成网络，将害虫融合特征图分别输入害虫区域推荐网络和自适应锚框生成网络中，害虫区域推荐网络和自适应锚框生成网络是并列的，害虫区域推荐网络输出预测信息，自适应锚框生成网络输出锚框，将预测信息和锚框结合得到预测框；

(3b)构建两阶段的害虫目标检测网络,将预测框输入害虫目标检测网络，害虫目标检测网络输出质量较高的预测框；

(3c)两阶段的害虫目标检测网络，以及一阶段的害虫区域推荐和自适应锚框生成网络共同构成三阶段害虫图像目标定位识别网络。

所述步骤(3a)具体包括以下步骤：

(3a1)构建一阶段的害虫区域推荐网络：害虫区域推荐网络由害虫分类层和害虫位置回归层组成；首先对害虫融合特征图采用3×3×512卷积操作得到512维的害虫特征向量；所述害虫分类层由1×1×2的卷积层构成，输出神经元个数为2，2表示前景和背景；害虫位置回归层由1×1×4的卷积层构成，输出神经神经元个数为4，4表示害虫目标的位置信息；将512维的害虫特征向量分别输入到害虫分类层和害虫位置回归层中，害虫分类层和害虫位置回归层是并列的，害虫分类层输出害虫的目标分类信息，害虫位置回归层输出害虫位置回归参数，害虫的目标分类信息与害虫位置回归参数共同构成预测信息；

(3a2)构建一阶段的自适应的锚框生成网络：自适应的锚框生成网络由锚框位置预测层和锚框形状预测层组成，其中，锚框位置预测层由一个1×1的卷积和一个sigmoid激活函数组成；锚框形状预测层由两个1×1的卷积组成，且两个1×1的卷积是并列的；锚框位置预测层首先通过1×1的卷积将害虫融合特征图压缩到单通道，然后通过sigmoid激活函数对每个像素进行分类以预测害虫融合特征图中锚框的中心点，输出害虫融合特征图中存在的锚框中心；而锚框形状预测层将害虫融合特征图通过两次1×1的卷积输出害虫融合特征图预测的d_w和d_h，d_w和d_h是预测的锚框宽与高，最后通过公式(3)对输出结果进行变化，将近似[0,1000]映射到了[-1,1]，输出预测最佳的锚框的宽w和高h；

其中，σ为缩放因子取为8，s为害虫融合特征图下采样步长；

设置损失函数为：

L＝λL_shape+L_reg (4)

其中，λ为平衡系数，L_reg为锚框位置预测层的损失，L_shape为锚框形状预测层损失；

L_reg的计算公式如下：

L_reg(R,i)＝-logR_i (5)

其中，R是预测的特征图概率分布，R＝R₀,...,R_n，n表示锚框类别，i是真实锚框中心位置；

L_shape的计算公式为：

其中，w_g和h_g是真实框的宽和高；

smooth_L1的计算公式为:

其中，x表示输入位置的误差值。

所述步骤(3b)具体包括以下步骤：

(3b1)两阶段的害虫目标检测网络由第一检测模块和第二检测模块组成，所述第一检测模块和第二检测模块的网络结构相同，第一检测模块和第二检测模块均由分类网络和回归网络组成，分类网络和回归网络是并列的，其中，分类网络由1×1×2C卷积层构成，C表示分类的类别数，分类网络输出害虫分类的类别及对应的分类置信度；回归网络是由1×1×4C卷积层构成，回归网络输出害虫目标的边界框的位置坐标；

(3b2)训练集中的训练样本的选择：首先，计算预测框与真实标注框做交并比IoU；通过公式(8)判断正、负样本：

其中，g表示真实样本框，a表示预测框；y表示样本的正负性值；

如果IoU值大于设定阈值u₀，则该预测框为正样本，标注为“1”，否则为负样本，标注“0”；

两阶段的害虫目标检测网络中，第一检测模块的阈值为u₁，第二检测模块的阈值为u₂，u₂大于u₁；在训练两阶段的害虫目标检测网络时，先采用阈值u₁选择正、负训练样本，训练第一检测模块；然后将第一检测模块的输出作为输入，利用阈值u₂选择正、负训练样本，训练第二检测模块；阈值u₁设置为0.5，阈值u₂设置为0.7；

(3b3)两阶段的害虫目标检测网络损失函数为：

其中，分类损失L_cls(p,u)的计算公式如下：

L_cls(p,u)＝-logp_u (10)

回归损失L_loc(t^u,v)的计算公式如下：

其中，p是分类器预测的归一化概率分布，p＝p₀,...,p_k，k表示害虫种类，u为害虫真实类别标签，t^u表示边界框回归网络预测的对应害虫真实类别的回归参数，表示为

v表示害虫真实边界框回归参数，表示为(v_x,v_y,v_w,v_h)；

为平衡系数，以平衡分类损失与回归损失；[u≥1]表示只有正样本参与回归损失的计算；

首先由公式(9)计算出第一检测模块的损失函数L_s1与第二检测模块的损失函数L_s2,根据公式(12)得到两阶段的害虫目标检测网络的总损失函数L_D：

L_D＝L_s1+τ*L_s2(12)

其中，L_s1和L_s2分别表示第一检测器和第二检测器的损失函数，τ为超参数，设置为1以此用来平衡两个检测器的损失值，表示训练时第一检测模块和第二检测模块之间没有偏向性。

由上述技术方案可知，本发明的有益效果为：第一，本发明通过构建自适应特征融合金字塔网络加强对害虫图像特征提取能力，通过两阶段的害虫目标检测网络获得更高质量更准确的预测框，最后构建三阶段害虫图像目标定位识别网络，加强了对害虫目标检测的精度；第二，本方法相比现在流行的害虫识别检测方法也有明显提升，这充分说明本方法可以运用到复杂的、相似度高的农业害虫检测工作中。

附图说明

图1为本发明的方法流程图。

具体实施方式

如图1所示，一种基于自适应特征融合金字塔网络的三阶段害虫图像识别方法，该方法包括下列顺序的步骤：

(3)构建三阶段害虫图像目标定位识别网络；

所述步骤(2)具体包括以下步骤：

其中，

表示输出害虫特征图,Y^l位置i处的特征向量；

和

是可学习权重，通过卷积神经网络的学习获取；

和

的值在0至1之间，且

使用softmax归一化指数函数计算可学习权重

和

计算公式为：

其中，

是用于控制可学习权重

的参数，

是用于控制可学习权重

的参数，

是用于控制可学习权重

的参数。

所述步骤(3)具体包括以下步骤：

所述步骤(3a)具体包括以下步骤：

其中，σ为缩放因子取为8，s为害虫融合特征图下采样步长；

设置损失函数为：

L＝λL_shape+L_reg (4)

L_reg的计算公式如下：

L_reg(R,i)＝-logR_i (5)

L_shape的计算公式为：

其中，w_g和h_g是真实框的宽和高；

smooth_L1的计算公式为:

其中，x表示输入位置的误差值。

所述步骤(3b)具体包括以下步骤：

由于IoU阈值决定了检测器性能，当设置过大的时候，正样本质量会提升，但正样本的数量会减少，不利于检测器的训练。而当阈值设置过小，正样本的数量会提升，但许多的假正样本参与训练，降低检测器性能。因此为提升检测质量，在两阶段的害虫目标检测网络中，第一检测模块的阈值为u₁，第二检测模块的阈值为u₂，u₂大于u₁；在训练两阶段的害虫目标检测网络时，先采用阈值u₁选择正、负训练样本，训练第一检测模块；然后将第一检测模块的输出作为输入，利用阈值u₂选择正、负训练样本，训练第二检测模块；阈值u₁设置为0.5，阈值u₂设置为0.7；

(3b3)两阶段的害虫目标检测网络损失函数为：

其中，分类损失L_cls(p,u)的计算公式如下：

L_cls(p,u)＝-logp_u (10)

回归损失L_loc(t^u,v)的计算公式如下：

v表示害虫真实边界框回归参数，表示为(v_x,v_y,v_w,v_h)；

L_D＝L_s1+τ*L_s2 (12)

表1为本方法与目前最先进的目标检测方法的实验对比结果。

如表1所示，展示了本方法与其他目标检测方法对比实验结果，可以看出，本方法在从各个评价指标来看都比其他方法的检测精度高。比如本方法可达到51.0％AP[0.5:0.95]，与SSD，RetinaNet，FPN，Dynamic RCNN和Cascade RCNN相比，分别提升了6.8％，9.8％，5.1％，5.1％和4.6％，说明了本方法能够有效解决复杂背景下，类别相似的农业害虫识别和检测的问题。

综上所述，本发明通过构建自适应特征融合金字塔网络加强对害虫图像特征提取能力，通过两阶段的害虫目标检测网络获得更高质量更准确的预测框，最后构建三阶段害虫图像目标定位识别网络，加强了对害虫目标检测的精度；本方法相比现在流行的害虫识别检测方法也有明显提升，这充分说明本方法可以运用到复杂的、相似度高的农业害虫检测工作中。

Claims

1.一种基于自适应特征融合金字塔网络的三阶段害虫图像识别方法，其特征在于：该方法包括下列顺序的步骤：

(1)获取害虫图像数据集，害虫图像数据集是害虫原图像的集合，将害虫图像数据集按7∶3的比例划分成训练集与测试集；

(3)构建三阶段害虫图像目标定位识别网络；

2.根据权利要求1所述的基于自适应特征融合金字塔网络的三阶段害虫图像识别方法，其特征在于：所述步骤(2)具体包括以下步骤：

其中，

表示输出害虫特征图,Y^l位置i处的特征向量；

和

是可学习权重，通过卷积神经网络的学习获取；

和

的值在0至1之间，且

使用softmax归一化指数函数计算可学习权重

和

计算公式为：

其中，

是用于控制可学习权重

的参数，

是用于控制可学习权重

的参数，

是用于控制可学习权重

的参数。

3.根据权利要求1所述的基于自适应特征融合金字塔网络的三阶段害虫图像识别方法，其特征在于：所述步骤(3)具体包括以下步骤：

4.根据权利要求3所述的基于自适应特征融合金字塔网络的三阶段害虫图像识别方法，其特征在于：所述步骤(3a)具体包括以下步骤：

(3a2)构建一阶段的自适应的锚框生成网络：自适应的锚框生成网络由锚框位置预测层和锚框形状预测层组成，其中，锚框位置预测层由一个1×1的卷积和一个sigmoid激活函数组成；锚框形状预测层由两个1×1的卷积组成，且两个1×1的卷积是并列的；锚框位置预测层首先通过1×1的卷积将害虫融合特征图压缩到单通道，然后通过sigmoid激活函数对每个像素进行分类以预测害虫融合特征图中锚框的中心点，输出害虫融合特征图中存在的锚框中心；而锚框形状预测层将害虫融合特征图通过两次1×1的卷积输出害虫融合特征图预测的d_w和d_h，d_w和d_h是预测的锚框宽与高，最后通过公式(3)对输出结果进行变化，将近似[0，1000]映射到了[-1，1]，输出预测最佳的锚框的宽w和高h；