CN114821106A

CN114821106A - 一种基于特征金字塔的圣女果检测识别方法

Info

Publication number: CN114821106A
Application number: CN202210482744.6A
Authority: CN
Inventors: 王涌; 潘宏; 赵远方; 周王益
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2022-05-05
Filing date: 2022-05-05
Publication date: 2022-07-29

Abstract

一种基于特征金字塔的圣女果检测识别方法，包括：1.构建主干网络ResNet50，利用残差结构较强的特征提取能力获取图像的细致特征；2.设计混合膨胀卷积模块，利用膨胀卷积增大特征感受野的特点获取更多全局特征；3.构建特征金字塔，将不同层次特征中的差异性信息进行融合，消除不同特征之间相关性而产生的冗余信息；4.构建检测子网络，通过全连接结构输出真实目标概率及空间位置偏移量；5.使用K‑means聚类方法，得到最为适合的检测框尺寸；6.引入Focal Loss减少正负样本不平衡问题，并结合CIoU Loss有效提升边界框回归精度；7.采用迁移学习，加载主干网络预训练权重，加速模型收敛速度，优化模型训练效果；8.用训练好的模型对圣女果进行检测。

Description

一种基于特征金字塔的圣女果检测识别方法

技术领域

本申请涉及计算机视觉图像识别技术领域，更具体涉及深度学习领域中的基于卷积神经网络的目标检测方法。

背景技术

圣女果作为我国主要的蔬菜作物之一，被广泛种植。成熟圣女果采摘需要消耗大量的人力、财力，而智能采摘机器人是减少生产成本、解放劳动力和提高作业效率的有效途径。果蔬的精准识别及定位是构建智能采摘视觉系统的先决条件之一，故所以圣女果的快速精准识别方法研究具有较大的研究意义和应用价值。

目前基于深度神经网络的圣女果检测识别方法在算法性能及准确度上都优于传统检测方法。按照检测识别的处理过程差异，基于深度神经网络的圣女果检测方法可分为两阶段检测方法和一阶段检测方法。两阶段方法拥有较高的准确度，但检测速度慢、计算成本高，而一阶段方法的优点在于检测速度快，但准确度不如两阶段方法。由于圣女果生长环境复杂，果实易被叶片遮挡，且果实密集粘连程度高、果实小，严重影响目标检测及定位的准确度，因此圣女果检测识别方法研究需重点解决以下问题：1)遮挡目标的特征缺失问题；2)目标检测准确度和模型的鲁棒性问题。

发明内容

针对现有深度神经网络目标检测模型在圣女果检测中存在的问题，如检测准确度低、遮挡情况下产生漏检误检等，本发明提供一种基于特征金字塔的圣女果检测识别方法，可提高圣女果检测准确度的同时可实现实时检测。

本发明一种基于特征金字塔的圣女果检测识别方法，其具体步骤如下：

步骤1、构建主干网络ResNet50，以核大小为1×1卷积、核大小为3×3卷积以及核大小为1×1卷积组成残差块结构为基础，利用残差结构较强的特征提取能力来获取不同尺度的圣女果特征图。主干网络分为5层，第一层C1由核大小为7×7卷积层、BN归一化层和Mish激活函数构成，C2至C5则分别由3、4、6、3个上述残差块组成。

步骤2、构建混合膨胀卷积组件，由主干网络得到的C3、C4、C5特征图经过核大小为1×1卷积操作保留原有特征的同时统一通道数为256，此外C3、C4会分别进行核大小3×1、1×3卷积操作来捕捉图像中横向和纵向的特征，以此来增强模型的推理能力，改善目标遮挡问题。

将上述C3、C4、C5处理后得到统一大小的特征图进行特征融合，并通过由三个膨胀率大小不同的3×3卷积层串联构成的混合膨胀卷积模块，以此增大特征感受野。为避免膨胀卷积出现网格效应，保证了信息的完整性，该组膨胀率的设计满足下式：

M_i＝max[M_i+1-2r_i,M_i+1-2(M_i+1-r_i),r_i] (1)

其中，膨胀率依次为[r₁,...,r_i,...,r_n]，M_i定义为第i层两个非零值之间的最大距离，i∈[1,n]且M_n＝r_n，式(1)的目地是让M₂≤K，才能保证没有网格效应。

步骤3、构建特征金字塔，特征层C3、C4、C5输入至混合膨胀卷积组件中得到输出特征f为基础。输出特征f经两次核大小为1×1卷积操作得到特征金字塔最顶层P7；输出特征f经一次核大小为3×3卷积操作得到特征金字塔P6；C5经核大小为1×1卷积操作得到的C5’与输出特征f统一通道数后融合得到特征f1，f1再经核大小为3×3卷积操作得到特征金字塔P5；C4经核大小为1×1卷积操作得到的C4’与特征f1两倍上采样结果进行特征融合得到f2，再由f2经核大小为3×3卷积操作得到特征金字塔P4；C3经核大小为1×1卷积操作得到的C3’与特征f2两倍上采样结果进行特征融合得到f3，再由f3经核大小为3×3卷积操作得到特征金字塔P3。

步骤4、构建检测子网络，由目标分类子网络和边界框回归子网络构成，两个子网络都是由3个卷积核大小为3×3的卷积层构成的全连接结构，以特征金字塔的输出作为输入。分类子网络预测先验框和目标类别在每个位置上存在真实目标的概率，边界框回归子网会将每个先验框的4个空间位置的偏移量回归到附近的真实目标上。

步骤5、使用K-means聚类方法，确定合适的检测框尺寸，K-means聚类步骤如下：

S1.设定9个聚类中心点(即9组先验框宽高)。

S2.计算圣女果图像数据集中真实目标的标注框尺寸与每一个聚类中心点的距离d：

d(box,centroid)＝1-IoU(box,centroid) (2)

其中，IoU为标注框与聚类中心宽高的交并比。

S3.将标注框分配给距离最近的聚类中心，并对每个簇重新计算聚类中心点，计算方式为：

其中，i∈[1,9]表示簇号，N_i表示在第i簇中标注框的个数，W_i'表示第i个簇中所有标注框的宽的平均值，w_j表示第j个标注框宽度,H_i'表示第i个簇中所有标注框的高的平均值，h_j表示第j个标注框宽度。

S4.重复第S2、S3步，直至聚类中心趋于拟合，得到最终的9组合适检测框尺寸。

步骤6、定义模型训练的损失函数，引入Focal Loss作为本模型的分类损失函数，通过降低易分负样本的损失权重从而聚焦于训练难分负样本，解决训练过程中出现的极大的正负样本不平衡的影响。Focal Loss计算步骤如下：

L_FL(p_t)＝-α_t(1-p_t)^γlog(p_t) (5)

其中,y∈{±1}表示样本对应的真实标签，p∈[0,1]表示模型对y＝1分类的概率估计，α_t∈[0,1]是一个用于平衡正负样本的加权因子，γ＞0是可调聚焦参数，(1-p_t)^γ作为弱化易分负样本的调节因子，从而使训练聚集于难分负样本。引入CIoULoss作为边界框回归预测的损失函数，提升模型对边界框回归的精度的同时，加快模型的收敛速度。为精准反映检测框与目标框的实际情况，CIoULoss将边界框回归损失的三个重要几何因素：重叠面积、中心点距离和高宽比都考虑容纳进来，CIoULoss具体的计算过程如下：

其中，R_CIoU定义为检测框和目标框的惩罚项，ρ²(b,b^gt)为两框的中心点之间的欧式距离，c为包围两框最小矩形的对角距离，v衡量两框高宽比的差异，α是一个正权衡参数，w^gt、h^gt、w、h分别为真实目标框和检测框的宽高值，IoU为检测框与真实目标框交并比。本模型的损失函数为：

L＝L_FL+βL_CIoU (11)

其中，β用于平衡分类损失和边界框回归损失的系数。

步骤7、训练模型，采用迁移学习，加载ResNet50预训练权重，加速模型的收敛速度。模型设定的图像输入大小为640×640，并在输入到网络前进行了归一化处理，网络参数更新采用了随机梯度下降方法(SGD)进行优化。

步骤8、用训练好的模型对圣女果进行检测。

本发明有以下创新体现在：

1、本发明设计了混合膨胀卷积模块，通过多个膨胀卷积块串联的方式有效避免了空洞的产生，利用膨胀卷积增大特征感受野的特点，使得特征图融合了更多的图像全局特征信息，增强模型特征的推理能力和鉴别能力，减小目标信息不完整所带来的影响。

2、本发明将Focal Loss与CIoU Loss相结合，作为本模型训练过程中的损失函数，利用Focal Loss降低易分负样本的损失权重从而聚焦于训练难分负样本，解决训练过程中出现的极大的正负样本不平衡的影响，CIoU Loss将真实目标框与检测框的重叠面积、中心点距离和高宽比三个重要几何因素考虑容纳进来，能有效提高模型边界框回归精度。

本发明的优点是：针对圣女果这类生长环境复杂场景的目标检测任务而设计，通过上述改进策略有效提升目标检测精度的同时，实现实时目标快速检测，为智能采摘技术提供相关基础。

附图说明

图1是本发明方法卷积神经网络模型示意图。

具体实施方式

下面对本发明的实施方式进行更为具体的描述，所述实施方式的流程图在附图1中展示。通过参考附图1描述的实施方案仅用于解释本发明，而不能解释为对本发明的限制。

参照图1，本发明提供一种基于特征金字塔的圣女果检测识别模型，可提高圣女果检测准确度，降低计算成本。

步骤1、构建主干网络，以核大小为1×1卷积、核大小为3×3卷积以及核大小为1×1卷积组成残差块结构为基础，利用残差结构较强的特征提取能力来获取不同尺度的圣女果特征图。主干网络分为5层，第一层C1由核大小为7×7卷积层、BN归一化层和Mish激活函数构成，C2至C5则分别由3、4、6、3个上述残差块组成。

将上述C3、C4、C5处理后得到统一大小的特征图进行特征融合，并通过由三个膨胀率依次为dr＝1、2、3的3×3卷积层串联构成的混合膨胀卷积模块，以此增大特征感受野。为避免膨胀卷积出现网格效应，保证了信息的完整性，该组膨胀率的设计满足下式：

M_i＝max[M_i+1-2r_i,M_i+1-2(M_i+1-r_i),r_i] (1)

1.设定9个聚类中心点(即9组先验框宽高)。

2.计算圣女果图像数据集中真实目标的标注框尺寸与每一个聚类中心点的距离d：

d(box,centroid)＝1-IoU(box,centroid) (2)

其中，IoU为标注框与聚类中心宽高的交并比。

3.将标注框分配给距离最近的聚类中心，并对每个簇重新计算聚类中心点，计算方式为：

4.重复第2、3步，直至聚类中心趋于拟合，得到最终的9组合适检测框尺寸。

L_FL(p_t)＝-α_t(1-p_t)^γlog(p_t) (5)

L＝L_FL+βL_CIoU (11)

其中，β用于平衡分类损失和边界框回归损失的系数，设置β＝2。

步骤7、训练模型，采用迁移学习，加载ResNet50预训练权重，加速模型的收敛速度。模型设定的图像输入大小为640×640，并在输入到网络前进行了归一化处理，网络参数更新采用了随机梯度下降方法(SGD)进行优化，其中动量设定为0.9，权重衰减设定为0.0003，初始学习率为0.03，批处理大小为16，实验表明模型训练迭代50次趋于稳定。

步骤8、用训练好的模型对圣女果进行检测。

同时将本发明所提出的方法与其他几种经典的目标检测方法在同一圣女果数据集上进行准确度对比，结果如下表一所示，本文方法平均精准率均值(meanaverageprecision,mAP)可达90.12％，高于另外几类主流的目标检测方法。

表一本发明方法与其他目标检测方法评价对比

Claims

1.一种基于特征金字塔的圣女果检测识别方法，包括如下步骤：

步骤1、构建主干网络，以核大小为1×1卷积、核大小为3×3卷积以及核大小为1×1卷积组成残差块结构为基础，利用残差结构较强的特征提取能力来获取不同尺度的圣女果特征图；主干网络分为5层，第一层C1由核大小为7×7卷积层、BN归一化层和Mish激活函数构成，C2至C5则分别由3、4、6、3个上述残差块组成；

步骤2、构建混合膨胀卷积组件，由主干网络得到的C3、C4、C5特征图经过核大小为1×1卷积操作保留原有特征的同时统一通道数为256，此外C3、C4会分别进行核大小3×1、1×3卷积操作来捕捉图像中横向和纵向的特征，以此来增强模型的推理能力，改善目标遮挡问题；

将上述C3、C4、C5处理后得到统一大小的特征图进行特征融合，并通过由三个膨胀率大小不同的3×3卷积层串联构成的混合膨胀卷积模块，以此增大特征感受野；为避免膨胀卷积出现网格效应，保证了信息的完整性，该组膨胀率的设计满足下式：

M_i＝max[M_i+1-2r_i,M_i+1-2(M_i+1-r_i),r_i] (1)

其中，膨胀率依次为[r₁,...,r_i,...,r_n]，M_i定义为第i层两个非零值之间的最大距离，i∈[1,n]且M_n＝r_n，式(1)的目地是让M₂≤K，才能保证没有网格效应；

步骤3、构建特征金字塔，特征层C3、C4、C5输入至混合膨胀卷积组件中得到输出特征f为基础；输出特征f经两次核大小为1×1卷积操作得到特征金字塔最顶层P7；输出特征f经一次核大小为3×3卷积操作得到特征金字塔P6；C5经核大小为1×1卷积操作得到的C5’与输出特征f统一通道数后融合得到特征f1，f1再经核大小为3×3卷积操作得到特征金字塔P5；C4经核大小为1×1卷积操作得到的C4’与特征f1两倍上采样结果进行特征融合得到f2，再由f2经核大小为3×3卷积操作得到特征金字塔P4；C3经核大小为1×1卷积操作得到的C3’与特征f2两倍上采样结果进行特征融合得到f3，再由f3经核大小为3×3卷积操作得到特征金字塔P3；

步骤4、构建检测子网络，由目标分类子网络和边界框回归子网络构成，两个子网络都是由3个卷积核大小为3×3的卷积层构成的全连接结构，以特征金字塔的输出作为输入；分类子网络预测先验框和目标类别在每个位置上存在真实目标的概率，边界框回归子网会将每个先验框的4个空间位置的偏移量回归到附近的真实目标上；

S1.设定9个聚类中心点(即9组先验框宽高)；

d(box,centroid)＝1-IoU(box,centroid) (2)

其中，IoU为标注框与聚类中心宽高的交并比；

其中，i∈[1,9]表示簇号，N_i表示在第i簇中标注框的个数，W_i'表示第i个簇中所有标注框的宽的平均值，w_j表示第j个标注框宽度,H_i'表示第i个簇中所有标注框的高的平均值，h_j表示第j个标注框宽度；

S4.重复第S2、S3步，直至聚类中心趋于拟合，得到最终的9组合适检测框尺寸；

步骤6、定义模型训练的损失函数，引入Focal Loss作为本模型的分类损失函数，通过降低易分负样本的损失权重从而聚焦于训练难分负样本，解决训练过程中出现的极大的正负样本不平衡的影响；Focal Loss计算步骤如下：

L_FL(p_t)＝-α_t(1-p_t)^γlog(p_t) (5)

其中,y∈{±1}表示样本对应的真实标签，p∈[0,1]表示模型对y＝1分类的概率估计，α_t∈[0,1]是一个用于平衡正负样本的加权因子，γ＞0是可调聚焦参数，(1-p_t)^γ作为弱化易分负样本的调节因子，从而使训练聚集于难分负样本；引入CIoULoss作为边界框回归预测的损失函数，提升模型对边界框回归的精度的同时，加快模型的收敛速度；为精准反映检测框与目标框的实际情况，CIoULoss将边界框回归损失的三个重要几何因素：重叠面积、中心点距离和高宽比都考虑容纳进来，CIoULoss具体的计算过程如下：

其中，R_CIoU定义为检测框和目标框的惩罚项，ρ²(b,b^gt)为两框的中心点之间的欧式距离，c为包围两框最小矩形的对角距离，v衡量两框高宽比的差异，α是一个正权衡参数，w^gt、h^gt、w、h分别为真实目标框和检测框的宽高值，IoU为检测框与真实目标框交并比；本模型的损失函数为：

L＝L_FL+βL_CIoU (11)

其中，β用于平衡分类损失和边界框回归损失的系数；

步骤7、训练模型，采用迁移学习，加载ResNet50预训练权重，加速模型的收敛速度；模型设定的图像输入大小为640×640，并在输入到网络前进行了归一化处理，网络参数更新采用了随机梯度下降方法(SGD)进行优化；

步骤8、用训练好的模型对圣女果进行检测。

2.根据权利要求1所述的一种基于特征金字塔的圣女果检测识别方法，其特征在于，在所述步骤2中，混合膨胀卷积组件的膨胀率依次为dr＝1、2、3，能够使得特征感受野增大合适的效果，有效提升模型准确率。

3.根据权利要求1所述的一种基于特征金字塔的圣女果检测识别方法，其特征在于，在所述步骤6中，平衡分类损失和边界框回归损失系数β设置为2，能够使得本文模型训练达到最优。

4.根据权利要求1所述的一种基于特征金字塔的圣女果检测识别方法，其特征在于，在所述步骤7中，网络参数更新采用了随机梯度下降方法(SGD)进行优化，其中动量设定为0.9，权重衰减设定为0.0003，初始学习率为0.03，批处理大小为16，本文实验中模型训练迭代50次趋于稳定。