CN115147835A

CN115147835A - 一种基于改进RetinaNet的自然果园场景下的凤梨成熟度检测方法

Info

Publication number: CN115147835A
Application number: CN202210637840.3A
Authority: CN
Inventors: 陈琰; 郑路璐; 施德昊; 赵瀚霖; 李政英; 薛家骏; 钟洋
Original assignee: South China Agricultural University
Current assignee: South China Agricultural University
Priority date: 2022-06-07
Filing date: 2022-06-07
Publication date: 2022-10-04
Anticipated expiration: 2042-06-07

Abstract

本发明公开了一种基于改进RetinaNet的自然果园场景下的凤梨成熟度检测方法，包括步骤：采集自然果园场景下凤梨图像数据，经过图像预处理后，建立凤梨图像库；构建基于RetinaNet的网络模型结构；改进RetinaNet，构建ECA‑RetinaNet凤梨检测网络；导入训练数据集对ECA‑RetinaNet，选择焦点损失函数来编译模型进行训练，获取检测凤梨成熟度的最优模型；利用测试集进行测试，通过ECA‑RetinaNet模型对凤梨图像进行成熟度检测。本发明可以快速且准确的定位凤梨位置并且分类凤梨的成熟度，能够提供成熟凤梨分布信息，有助于合理安排劳动力，从而降低收割成本，促进精准农业的发展。

Description

一种基于改进RetinaNet的自然果园场景下的凤梨成熟度检测方法

技术领域

本发明涉及农作物成熟度检测领域，尤其涉及一种基于改进RetinaNet的自然果园场景下的凤梨成熟度检测方法。

背景技术

凤梨是继柑橘、香蕉以后全球消耗最多的水果之一，中国作为凤梨主要生产国家之一，大面积种植凤梨在广东、广西、福建、海南、云南、台湾等地。凤梨果实的生长速度慢，在收获之前，大约需要1至2年可以成熟出果实。其中，整个生长过程分为幼苗期、生长期、结果期以及成熟期。而在结果期以及成熟期对于果农而言是需要重点关注的时期。当前凤梨的采摘种植方式主要依靠人力采摘种植，在结果期，判断是否仍然需要对凤梨继续进行除草、供水、增加叶面营养从而促进光合作用、杀菌、杀虫，套袋防晒等操作容易受到主观经验的影响，缺乏科学的可量化标准。实现凤梨果实成熟度快速、准确定位和分类可为人力管理种植提供成熟凤梨分布信息，降低劳动力成本，提高农业生产效率，实现果园机械自动化生产高水平，解决农业劳动力所面临的日益紧缺的问题；因此，对凤梨成熟度进行准确检测具有非常重要的应用价值。

近年来，深度学习作为人工智能中强大的技术工具，为提高采摘机器人和自动凤梨管理机器人的视觉系统提供了强有力的技术保障。本发明使用了深度学习方法，发明一种基于改进RetinaNet的自然果园场景下的凤梨成熟度检测方法。当下基于深度学习的凤梨检测方法有一阶段的YOLO系列、SSD等、基于二阶段的Faster R-CNN和anchor-free的CenterNet等。Faster R-CNN精度较高，但是不能满足实时检测的需求。CenterNet、YOLO系列和SSD的检测速度较快，但是检测准确度较低。

目前，自然果园场景下的凤梨成熟度检测任务是困难的，一方面是因为存在枝叶、杂草等对凤梨的遮挡严重的问题，同时凤梨果实之间也存在重叠遮挡的情况；另一方面，光线的变换会严重影响成像质量，进而影响检测任务。所以准确、鲁棒地检测凤梨的成熟度依然是一个开放式挑战。

发明内容

为克服现有技术的不足，本发明提出一种基于改进RetinaNet的自然果园场景下的凤梨成熟度检测方法。

本发明的技术方案是这样实现的：

一种基于改进RetinaNet的自然果园场景下的凤梨成熟度检测方法，包括步骤：

S1、采集自然果园场景下凤梨图像数据，经过图像预处理后，建立凤梨图像库，所述凤梨图像库包括训练数据集、验证数据集和测试数据集；

S2、构建基于RetinaNet的网络模型结构；

S3、在步骤S2得到的初步网络结构的基础上，改进RetinaNet，构建ECA-RetinaNet凤梨检测网络，包括步骤：

S31、将ECA模块嵌入class subnet中，将特征金字塔的每层特征在分类子网络中再次进行提炼，其中所述ECA模块构造包括步骤：

S311、对从步骤S2中输入进来的有效特征层P3、P4、P5、P6、P7进行全局平均池化；

S312、进行一个1D卷积，1D卷积的计算方法是：若输入数据维度为8，过滤器的维度为5，则卷积后输出的数据维度为4；

S313、取一次Sigmoid函数将值固定到0-1之间，获得输入特征层每一个通道的权值，所述权值在0和1之间；

S314、将所述权值乘上原输入特征层；

S32、将精炼过得到的特征图通过4次256通道的卷积和1次num_anchors×num_classes的卷积，num_anchors指的是该特征层所拥有的先验框数量，num_classes指的是网络一共对多少类的目标进行检测，将输出结果经过一个Sigmoid函数，输出最终的凤梨成熟度分类结果；

S4、导入步骤1得到的训练数据集对步骤S3中得到的ECA-RetinaNet选择焦点损失函数来编译模型进行训练，获取检测凤梨成熟度的最优模型；

S5、利用步骤1得到的测试数据集进行测试，通过ECA-RetinaNet模型对凤梨图像进行成熟度检测。

进一步地，所述步骤S1中所述采集自然果园场景下凤梨图像数据，包括步骤：拍摄者使用智能手机在4月份采集而来，分辨率为4032×3024；拍摄时间段分别在四天中的上午9：00-11：00、下午15：00-17：00、傍晚19：00-19：30；拍摄的天气状况包括晴天、多云、阴天和雨天；光照条件包括顺光、逆光；图片包含有枝叶、杂草以及果实重叠遮挡的复杂背景；采集而成的凤梨图像包含不同成熟度，其中包括：凤梨目呈开红紫色花的第一阶段、凤梨目呈红紫花凋谢且平的第二阶段、凤梨目呈平的第三阶段、凤梨目呈墨绿转黄色的第四阶段；所有拍摄图片格式存储为JPEG格式。

进一步或更进一步地，步骤1中所述图像预处理和建立凤梨图像库包括步骤：

S11、根据人工分类后的凤梨果实图片进行凤梨数据集的建立，对每张数据集图片中的每颗凤梨样本，使用labelimg工具进行标签信息的标注，将生成标注xml文件，数据集格式为PASCAL VOC2007格式；

S12、将标注好标签的数据集按照一定比例进行随机抽取，将图像分为训练数据集、验证数据集和测试数据集，比例为8：1：1；

S13、对训练集中的凤梨果实图片进行水平与垂直旋转、缩放、调整图像的亮度和对比度进行增强扩充。

进一步地，步骤S2中所述构建基于RetinaNet的网络模型结构，包括步骤：

S21、选择ResNet50作为主干特征网络，将600×600×3大小的凤梨图片传入ResNet50网络；ResNet50其包含Conv Block和Identity Block两个基本块；Conv Block的输入维度和输出维度不同，其有改变网络维度的功能，将输入图片长和宽进行压缩；Identity Block的输入和输出维度相同，其有加深ResNet50网络深度的功能；其中需要取出长宽压缩了3次、4次、5次的结果来进行步骤S22特征金字塔结构的构造；

S22、通过步骤S21获得到的特征后经过特征金字塔FPN的处理，主干特征提取网络通过步骤S21后获得3个不同感受野的特征层C3、C4、C5，通过特征金字塔FPN，获得了5个有效特征层，包括有效特征层P3、P4、P5、P6、P7，其具体内容为以下：

特征层C5(19×19×2048)通过了一次步长为2，通道数为256的卷积得到有效特征层P6(19×19×256)，有效特征层P6会将图像划分为10×10的网格进行预测；

在有效特征层P6的基础上进行一个ReLU激活函数的操作后，再进行一次步长为2，通道数为256的卷积得到有效特征层P7(5×5×256)，有效特征层P7会将图像划分为5×5的网格进行预测；

特征层C5经过一次通道数为256的卷积，卷积后的结果有2个应用方向；其中一个方向是进行了一次通道数为256的卷积得到有效特征层P5(19×19×256)，有效特征层P5会将图像划分为19×19的网格进行预测；另一个应用方向是进行上采样，上采样的结果再与特征层C4(38×38×1024)进行了一次通道数为256的卷积后的结果相加；

相加后的结果有2个应用方向，其中一个方向是进行一次卷积获得有效特征层P4(38×38×256)，有效特征层P4会将图像划分为38×38的网格进行预测；另一个应用方向是再进行一次上采样，上采样的结果再与特征层C3(75×75×512)进行了一次通道数为256的卷积后的结果相加，相加后的结果进行一次卷积获得有效特征层P3(75×75×256)，有效特征层P3会将图像划分为75×75的网格进行预测；

S23、通过步骤S22获得了5个有效特征层，包括有效特征层P3、P4、P5、P6、P7，利用这5个有效特征层传输入class subnet分类子网层和box subnet边界框回归子网层获得预测结果；class subnet采用4次256通道的卷积和1次num_anchors×num_classes的卷积，num_anchors指的是该特征层所拥有的先验框数量，num_classes指的是网络一共对多少类的目标进行检测；将输出结果经过一个Sigmoid函数，将预测概率固定到0-1之间；boxsubnet采用4次256通道的卷积和1次num_anchors×4的卷积，num_anchors指的是该特征层所拥有的先验框数量，4指的是先验框的调整情况。

进一步地，步骤S4包括步骤：

S41、将步骤S1中的格式为PASCAL VOC2007的数据集放到指定文件夹下，准备好数据集；

S42、使用ResNet50的预训练权重作为步骤S3中的ECA-RetinaNet网络的训练权重，选择焦点损失函数来编译模型进行训练，训练100个周期，同时生成所需的权值文件；

S43、将步骤S42得到的权值文件中，挑选出训练好后的最佳的模型权重参数作为最优ECA-RetinaNet模型的权值，得出最优ECA-RetinaNet模型。

更进一步地，所述步骤S42中，焦点损失函数为计算预测值(即分类与回归的结果)与真实值(数据集的标签)之间的误差，而后通过反向传播对模型中的网络参数进行更新，以最大限度的得到所期望模型能够达到的性能。

进一步地，所述步骤S5包括步骤：通过测试集进行检测结果评估测试，得出该模型对凤梨成熟度检测的评价指标，其中所述评价指标包括召回率、平均精确度、F1得分、均值平均精度、FPS。

本发明的有益效果在于，与现有技术相比，本发明所述的方法具有实时性的同时，具有较高的检测精度，本发明可以快速且准确的定位凤梨位置并且分类凤梨的成熟度，能够提供成熟凤梨分布信息，有助于合理安排劳动力，从而降低收割成本，促进精准农业的发展。

附图说明

图1是本发明一种基于改进RetinaNet的自然果园场景下的凤梨成熟度检测方法流程图；

图2是本发明中RetinaNet网络的ResNet50和FPN的结构示意图；

图3是本发明中改进后的RetinaNet网络结构图；

图4是本发明中ECA-RetinaNet的结构示意图；

图5是本发明提供的技术方案在100个训练轮次结束后的损失值图；

图6是本发明提供的技术方案在100个训练轮次结束后的均值平均精度图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，发明实施例提供的一种基于改进RetinaNet的自然果园场景下的凤梨成熟度检测方法，具体步骤如下：

S1、采集自然果园场景下凤梨图像数据，经过图像预处理后，建立凤梨图像库；

S2、构建基于RetinaNet的网络模型结构；

S3、在步骤S2得到的初步网络结构的基础上，改进RetinaNet，构建ECA-RetinaNet凤梨检测网络；

S4、导入步骤1得到的训练数据集对步骤S3中得到的ECA-RetinaNet，选择焦点损失函数来编译模型进行训练，获取检测凤梨成熟度的最优模型；

S5、利用步骤1得到的测试集进行测试，通过ECA-RetinaNet模型对凤梨图像进行成熟度检测。

步骤S1中采集自然果园场景下凤梨果实图像数据，具体包括，拍摄者使用智能手机在4月份采集而来，分辨率为4032×3024。拍摄时间段分别在四天中的上午9：00-11：00、下午15：00-17：00、傍晚19：00-19：30；拍摄的天气状况包括晴天、多云、阴天和雨天；光照条件包括顺光、逆光；图片包含有枝叶、杂草以及果实重叠遮挡的复杂背景；采集而成的凤梨图像基本包含不同成熟度，其中包括：凤梨目呈开红紫色花的第一阶段、凤梨目呈红紫花凋谢且平的第二阶段、凤梨目呈平的第三阶段、凤梨目呈墨绿转黄色的第四阶段。所有拍摄图片格式存储为JPEG。

在本发明一个实施例中中，采集自然果园场景下凤梨图像数据，经过图像预处理后，建立凤梨图像库，具体方法包括：

S11、凤梨果实是分批次成熟的，根据实际果农需求进行4种成熟度阶段的分类，其中图片数据集包括：凤梨目呈开红紫色花的第一阶段、凤梨目红紫花凋谢且平的第二阶段、凤梨目平的第三阶段、凤梨目呈墨绿转黄色的第四阶段；

S12、根据人工分类后的凤梨果实图片进行凤梨数据集的建立，对每张数据集图片中的每颗凤梨样本，使用labelimg工具进行标签信息的标注，将生成标注xml文件，数据集格式为PASCAL VOC2007格式；

S13、将标注好标签的数据集按照一定比例进行随机抽取，将图像分为训练数据集、验证数据集和测试数据集，本实施例的比例为8：1：1；

S14、对训练集中的凤梨果实图片进行水平与垂直旋转、缩放、调整图像的亮度和对比度进行增强扩充。

本发明步骤S2构建基于RetinaNet的网络模型结构，如图2所示，构建基于RetinaNet的网络模型结构，包括步骤：

S21、本发明选择ResNet50作为主干特征网络，将600×600×3大小的凤梨图片传入ResNet50网络；ResNet50其包含Conv Block和Identity Block两个基本块。Conv Block的输入维度和输出维度不同，其有改变网络维度的功能，将输入图片长和宽进行压缩；Identity Block的输入和输出维度相同，其有加深ResNet50网络深度的功能；其中需要取出长宽压缩了3次、4次、5次的结果来进行步骤S22特征金字塔结构的构造；

S22、通过步骤S21获得到的特征后经过特征金字塔FPN的处理，能够融合多尺度特征，实现有效的预测结果。主干特征提取网络通过步骤S21后获得3个不同感受野的特征层C3、C4、C5。通过特征金字塔FPN，获得了5个有效特征层，包括有效特征层P3、P4、P5、P6、P7，其具体内容为以下：

S23、通过步骤S22获得了5个有效特征层，包括有效特征层P3、P4、P5、P6、P7。接下来，利用这5个有效特征层传输入class subnet和box subnet获得预测结果。

class subnet采用4次256通道的卷积和1次num_anchors×num_classes的卷积，num_anchors指的是该特征层所拥有的先验框数量，num_classes指的是网络一共对多少类的目标进行检测。将输出结果经过一个Sigmoid函数，将预测概率固定到0-1之间。

box subnet采用4次256通道的卷积和1次num_anchors×4的卷积，num_anchors指的是该特征层所拥有的先验框数量，4指的是先验框的调整情况。

步骤S3中，在步骤S2得到的初步网络结构的基础上，改进RetinaNet，构建ECA-RetinaNet凤梨检测网络，如图3所示，包括步骤：

S31、将ECA模块嵌入class subnet中，将特征金字塔的每层特征在分类子网络中再次进行提炼；这是自适应选择一维卷积核大小的方法，以确定局部跨信道交互的覆盖率；

S32、将精炼过得到的特征图通过4次256通道的卷积和1次num_anchors×num_classes的卷积，num_anchors指的是该特征层所拥有的先验框数量，num_classes指的是网络一共对多少类的目标进行检测，将输出结果经过一个Sigmoid函数，输出最终的凤梨成熟度分类结果。

其中在步骤S31中，由图4所示，ECA模块网络构造包括如下步骤：

S311、对从步骤S22中输入进来的有效特征层P3、P4、P5、P6、P7进行全局平均池化；

S312、然后进行通过一个1D卷积，1D卷积与全连接层相比，卷积层的主要特点是参数共享和稀疏连接，使得卷积操作学习的参数数量减少，1D卷积的计算方法是：若输入数据维度为8，过滤器的维度为5，卷积后输出的数据维度为4；

S313、在完成1D卷积后，再取一次Sigmoid函数将值固定到0-1之间，此时获得了输入特征层每一个通道的权值(0-1之间)。

S314、在获得这个权值后，将这个权值乘上原输入特征层。

步骤S4中，导入步骤1得到的训练数据集对步骤S3中得到的ECA-RetinaNet，选择焦点损失函数来编译模型进行训练，获取检测凤梨成熟度的最优模型。包括步骤：

S42、完成好步骤S41的工作后，进行网络训练的准备工作，使用ResNet50的预训练权重作为步骤S3中的ECA-RetinaNet网络的训练权重，训练100个周期，同时生成所需的权值文件；

S43、将步骤S42得到的权值文件中，挑选出训练好后的最佳的模型权重参数作为最优ECA-RetinaNet模型的权值，即可得出最优ECA-RetinaNet模型。

其中在步骤S52中损失函数在模型训练过程中体现其作用在于：计算预测值(即分类与回归的结果)与真实值(数据集的标签)之间的误差，而后通过反向传播对模型中的网络参数进行更新，以最大限度的得到所期望模型能够达到的性能。Focal Loss是一种新的用于平衡One-Stage目标检测方法正负样本的Loss方案。Focal Loss的公式为：FL(p_t)＝-α_t(1-p_t)^γlog(p_t)。这里的两个参数α和γ协调来控制，采用α＝0.25，γ＝2效果最好。

在步骤S43中，最佳的模型权重是经过反复试验证明的。通过损失函数来进行模型训练，然后再来测试对于指标来说最好的选择参数是有用的，程序将会保存其作为最佳的模型权重。

步骤S5中，利用步骤1得到的测试集进行测试，通过ECA-RetinaNet模型对凤梨图像进行成熟度检测，包括步骤：通过测试集进行检测结果评估测试，得出该模型对凤梨成熟度检测的评价指标。其中评价指标包括召回率、平均精确度、F1得分、均值平均精度、FPS。运行预测文件则可进行对凤梨图像进行成熟度检测。评价指标包括以下：Recall：召回率，真实是正例的样本中，预测也是正例所占的比例，计算公式为：

Precision：精确率，预测是正例的样本中，真实也是正例所占的比例，计算公式为：

AP是P-R曲线与坐标图中的x轴所围成的面积，面积越大，说明算法性能越好，计算公式为：(平均精确度

mAP为各种类别的AP的平均值，其中n为类别数，计算公式为：(均值平均精度mean Average Precision)

FPS：FramePer Seconds用帧率来衡量检测的速度的快慢，即1秒内能够处理的图片帧数。

对本发明的技术方案进行实验验证，实验采用WIN10的操作系统，Intel(R)Core(TM)i7-9700K CPU@3.60GHz 3.60GHz的处理器，16GB内存，基于Pytorch深度学习框架，采用python语言作为编程语言实现本发明方法。

检测结果评估测试中，在100个训练轮次结束后的损失值图，如图5所示；在100个训练轮次结束后的均值平均精度图，如图6所示。由检测结果评估可知，针对凤梨成熟度第一阶段、凤梨成熟度第二阶段、凤梨成熟度第三阶段、凤梨成熟度第四阶段检测精度分别为95.47％、94.34％、95.92％、96.74％，均值平均精度为96.62％，召回率为91.82％，F1得分为92.75％，检测速度0.04s/张。

本发明可以快速且准确的定位凤梨位置并且分类凤梨的成熟度，能够提供成熟凤梨分布信息，有助于合理安排劳动力，从而降低收割成本，促进精准农业的发展。

综上所述，本发明提出一种基于改进RetinaNet的自然果园场景下的凤梨成熟度检测方法，在实精确性和鲁棒性上表现优异，可以实际应用到凤梨种植基地。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于改进RetinaNet的自然果园场景下的凤梨成熟度检测方法，其特征在于，包括步骤：

S2、构建基于RetinaNet的网络模型结构；

S³、在步骤S2得到的初步网络结构的基础上，改进RetinaNet，构建ECA-RetinaNet凤梨检测网络，包括步骤：

S314、将所述权值乘上原输入特征层；

2.如权利要求1所述的所述步骤S1中所述基于改进RetinaNet的自然果园场景下的凤梨成熟度检测方法，其特征在于，所述采集自然果园场景下凤梨图像数据，包括步骤：拍摄者使用智能手机在4月份采集而来，分辨率为4032×3024；拍摄时间段分别在四天中的上午9：00-11：00、下午15：00-17：00、傍晚19：00-19：30；拍摄的天气状况包括晴天、多云、阴天和雨天；光照条件包括顺光、逆光；图片包含有枝叶、杂草以及果实重叠遮挡的复杂背景；采集而成的凤梨图像包含不同成熟度，其中包括：凤梨目呈开红紫色花的第一阶段、凤梨目呈红紫花凋谢且平的第二阶段、凤梨目呈平的第三阶段、凤梨目呈墨绿转黄色的第四阶段；所有拍摄图片格式存储为JPEG格式。

3.如权利要求1或2所述的所述步骤S1中所述基于改进RetinaNet的自然果园场景下的凤梨成熟度检测方法，其特征在于，步骤1中所述图像预处理和建立凤梨图像库包括步骤：

4.如权利要求1所述的所述步骤S1中所述基于改进RetinaNet的自然果园场景下的凤梨成熟度检测方法，其特征在于，步骤S2中所述构建基于RetinaNet的网络模型结构，包括步骤：

S23、通过步骤S22获得了5个有效特征层，包括有效特征层P3、P4、P5、P6、P7，利用这5个有效特征层传输入class subnet分类子网层和box subnet边界框回归子网层获得预测结果；class subnet采用4次256通道的卷积和1次num_anchors×num_classes的卷积，num_anchors指的是该特征层所拥有的先验框数量，num_classes指的是网络一共对多少类的目标进行检测；将输出结果经过一个Sigmoid函数，将预测概率固定到0-1之间；box subnet采用4次256通道的卷积和1次num_anchors×4的卷积，num_anchors指的是该特征层所拥有的先验框数量，4指的是先验框的调整情况。

5.如权利要求1所述的所述步骤S1中所述基于改进RetinaNet的自然果园场景下的凤梨成熟度检测方法，其特征在于，步骤S4包括步骤：

6.如权利要求5所述的所述步骤S1中所述基于改进RetinaNet的自然果园场景下的凤梨成熟度检测方法，其特征在于，所述步骤S42中，焦点损失函数为计算预测值(即分类与回归的结果)与真实值(数据集的标签)之间的误差，而后通过反向传播对模型中的网络参数进行更新，以最大限度的得到所期望模型能够达到的性能。

7.如权利要求1所述的所述步骤S1中所述基于改进RetinaNet的自然果园场景下的凤梨成熟度检测方法，其特征在于，所述步骤S5包括步骤：通过测试集进行检测结果评估测试，得出该模型对凤梨成熟度检测的评价指标，其中所述评价指标包括召回率、平均精确度、F1得分、均值平均精度、FPS。