CN115147835A - 一种基于改进RetinaNet的自然果园场景下的凤梨成熟度检测方法 - Google Patents
一种基于改进RetinaNet的自然果园场景下的凤梨成熟度检测方法 Download PDFInfo
- Publication number
- CN115147835A CN115147835A CN202210637840.3A CN202210637840A CN115147835A CN 115147835 A CN115147835 A CN 115147835A CN 202210637840 A CN202210637840 A CN 202210637840A CN 115147835 A CN115147835 A CN 115147835A
- Authority
- CN
- China
- Prior art keywords
- pineapple
- retinanet
- convolution
- maturity
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 241000234671 Ananas Species 0.000 title claims abstract description 121
- 235000007119 Ananas comosus Nutrition 0.000 title claims abstract description 121
- 238000001514 detection method Methods 0.000 title claims abstract description 31
- 239000002420 orchard Substances 0.000 title claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 35
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000012360 testing method Methods 0.000 claims abstract description 23
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 235000013399 edible fruits Nutrition 0.000 claims description 19
- 238000011156 evaluation Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000007670 refining Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 5
- 241000196324 Embryophyta Species 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000005286 illumination Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 2
- 238000007906 compression Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 230000008124 floral development Effects 0.000 claims 2
- 238000009826 distribution Methods 0.000 abstract description 4
- 238000011161 development Methods 0.000 abstract description 3
- 238000003306 harvesting Methods 0.000 abstract description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000001737 promoting effect Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 20
- 238000013135 deep learning Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 239000007789 gas Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000035800 maturation Effects 0.000 description 2
- QJGQUHMNIGDVPM-UHFFFAOYSA-N nitrogen group Chemical group [N] QJGQUHMNIGDVPM-UHFFFAOYSA-N 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 241000207199 Citrus Species 0.000 description 1
- 240000008790 Musa x paradisiaca Species 0.000 description 1
- 235000018290 Musa x paradisiaca Nutrition 0.000 description 1
- 238000012271 agricultural production Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 235000020971 citrus fruits Nutrition 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 235000016709 nutrition Nutrition 0.000 description 1
- 230000035764 nutrition Effects 0.000 description 1
- 230000029553 photosynthesis Effects 0.000 description 1
- 238000010672 photosynthesis Methods 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 230000001954 sterilising effect Effects 0.000 description 1
- 238000004659 sterilization and disinfection Methods 0.000 description 1
- 230000037072 sun protection Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
- 238000009333 weeding Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/68—Food, e.g. fruit or vegetables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于改进RetinaNet的自然果园场景下的凤梨成熟度检测方法,包括步骤:采集自然果园场景下凤梨图像数据,经过图像预处理后,建立凤梨图像库;构建基于RetinaNet的网络模型结构;改进RetinaNet,构建ECA‑RetinaNet凤梨检测网络;导入训练数据集对ECA‑RetinaNet,选择焦点损失函数来编译模型进行训练,获取检测凤梨成熟度的最优模型;利用测试集进行测试,通过ECA‑RetinaNet模型对凤梨图像进行成熟度检测。本发明可以快速且准确的定位凤梨位置并且分类凤梨的成熟度,能够提供成熟凤梨分布信息,有助于合理安排劳动力,从而降低收割成本,促进精准农业的发展。
Description
技术领域
本发明涉及农作物成熟度检测领域,尤其涉及一种基于改进RetinaNet的自然果园场景下的凤梨成熟度检测方法。
背景技术
凤梨是继柑橘、香蕉以后全球消耗最多的水果之一,中国作为凤梨主要生产国家之一,大面积种植凤梨在广东、广西、福建、海南、云南、台湾等地。凤梨果实的生长速度慢,在收获之前,大约需要1至2年可以成熟出果实。其中,整个生长过程分为幼苗期、生长期、结果期以及成熟期。而在结果期以及成熟期对于果农而言是需要重点关注的时期。当前凤梨的采摘种植方式主要依靠人力采摘种植,在结果期,判断是否仍然需要对凤梨继续进行除草、供水、增加叶面营养从而促进光合作用、杀菌、杀虫,套袋防晒等操作容易受到主观经验的影响,缺乏科学的可量化标准。实现凤梨果实成熟度快速、准确定位和分类可为人力管理种植提供成熟凤梨分布信息,降低劳动力成本,提高农业生产效率,实现果园机械自动化生产高水平,解决农业劳动力所面临的日益紧缺的问题;因此,对凤梨成熟度进行准确检测具有非常重要的应用价值。
近年来,深度学习作为人工智能中强大的技术工具,为提高采摘机器人和自动凤梨管理机器人的视觉系统提供了强有力的技术保障。本发明使用了深度学习方法,发明一种基于改进RetinaNet的自然果园场景下的凤梨成熟度检测方法。当下基于深度学习的凤梨检测方法有一阶段的YOLO系列、SSD等、基于二阶段的Faster R-CNN和anchor-free的CenterNet等。Faster R-CNN精度较高,但是不能满足实时检测的需求。CenterNet、YOLO系列和SSD的检测速度较快,但是检测准确度较低。
目前,自然果园场景下的凤梨成熟度检测任务是困难的,一方面是因为存在枝叶、杂草等对凤梨的遮挡严重的问题,同时凤梨果实之间也存在重叠遮挡的情况;另一方面,光线的变换会严重影响成像质量,进而影响检测任务。所以准确、鲁棒地检测凤梨的成熟度依然是一个开放式挑战。
发明内容
为克服现有技术的不足,本发明提出一种基于改进RetinaNet的自然果园场景下的凤梨成熟度检测方法。
本发明的技术方案是这样实现的:
一种基于改进RetinaNet的自然果园场景下的凤梨成熟度检测方法,包括步骤:
S1、采集自然果园场景下凤梨图像数据,经过图像预处理后,建立凤梨图像库,所述凤梨图像库包括训练数据集、验证数据集和测试数据集;
S2、构建基于RetinaNet的网络模型结构;
S3、在步骤S2得到的初步网络结构的基础上,改进RetinaNet,构建ECA-RetinaNet凤梨检测网络,包括步骤:
S31、将ECA模块嵌入class subnet中,将特征金字塔的每层特征在分类子网络中再次进行提炼,其中所述ECA模块构造包括步骤:
S311、对从步骤S2中输入进来的有效特征层P3、P4、P5、P6、P7进行全局平均池化;
S312、进行一个1D卷积,1D卷积的计算方法是:若输入数据维度为8,过滤器的维度为5,则卷积后输出的数据维度为4;
S313、取一次Sigmoid函数将值固定到0-1之间,获得输入特征层每一个通道的权值,所述权值在0和1之间;
S314、将所述权值乘上原输入特征层;
S32、将精炼过得到的特征图通过4次256通道的卷积和1次num_anchors×num_classes的卷积,num_anchors指的是该特征层所拥有的先验框数量,num_classes指的是网络一共对多少类的目标进行检测,将输出结果经过一个Sigmoid函数,输出最终的凤梨成熟度分类结果;
S4、导入步骤1得到的训练数据集对步骤S3中得到的ECA-RetinaNet选择焦点损失函数来编译模型进行训练,获取检测凤梨成熟度的最优模型;
S5、利用步骤1得到的测试数据集进行测试,通过ECA-RetinaNet模型对凤梨图像进行成熟度检测。
进一步地,所述步骤S1中所述采集自然果园场景下凤梨图像数据,包括步骤:拍摄者使用智能手机在4月份采集而来,分辨率为4032×3024;拍摄时间段分别在四天中的上午9:00-11:00、下午15:00-17:00、傍晚19:00-19:30;拍摄的天气状况包括晴天、多云、阴天和雨天;光照条件包括顺光、逆光;图片包含有枝叶、杂草以及果实重叠遮挡的复杂背景;采集而成的凤梨图像包含不同成熟度,其中包括:凤梨目呈开红紫色花的第一阶段、凤梨目呈红紫花凋谢且平的第二阶段、凤梨目呈平的第三阶段、凤梨目呈墨绿转黄色的第四阶段;所有拍摄图片格式存储为JPEG格式。
进一步或更进一步地,步骤1中所述图像预处理和建立凤梨图像库包括步骤:
S11、根据人工分类后的凤梨果实图片进行凤梨数据集的建立,对每张数据集图片中的每颗凤梨样本,使用labelimg工具进行标签信息的标注,将生成标注xml文件,数据集格式为PASCAL VOC2007格式;
S12、将标注好标签的数据集按照一定比例进行随机抽取,将图像分为训练数据集、验证数据集和测试数据集,比例为8:1:1;
S13、对训练集中的凤梨果实图片进行水平与垂直旋转、缩放、调整图像的亮度和对比度进行增强扩充。
进一步地,步骤S2中所述构建基于RetinaNet的网络模型结构,包括步骤:
S21、选择ResNet50作为主干特征网络,将600×600×3大小的凤梨图片传入ResNet50网络;ResNet50其包含Conv Block和Identity Block两个基本块;Conv Block的输入维度和输出维度不同,其有改变网络维度的功能,将输入图片长和宽进行压缩;Identity Block的输入和输出维度相同,其有加深ResNet50网络深度的功能;其中需要取出长宽压缩了3次、4次、5次的结果来进行步骤S22特征金字塔结构的构造;
S22、通过步骤S21获得到的特征后经过特征金字塔FPN的处理,主干特征提取网络通过步骤S21后获得3个不同感受野的特征层C3、C4、C5,通过特征金字塔FPN,获得了5个有效特征层,包括有效特征层P3、P4、P5、P6、P7,其具体内容为以下:
特征层C5(19×19×2048)通过了一次步长为2,通道数为256的卷积得到有效特征层P6(19×19×256),有效特征层P6会将图像划分为10×10的网格进行预测;
在有效特征层P6的基础上进行一个ReLU激活函数的操作后,再进行一次步长为2,通道数为256的卷积得到有效特征层P7(5×5×256),有效特征层P7会将图像划分为5×5的网格进行预测;
特征层C5经过一次通道数为256的卷积,卷积后的结果有2个应用方向;其中一个方向是进行了一次通道数为256的卷积得到有效特征层P5(19×19×256),有效特征层P5会将图像划分为19×19的网格进行预测;另一个应用方向是进行上采样,上采样的结果再与特征层C4(38×38×1024)进行了一次通道数为256的卷积后的结果相加;
相加后的结果有2个应用方向,其中一个方向是进行一次卷积获得有效特征层P4(38×38×256),有效特征层P4会将图像划分为38×38的网格进行预测;另一个应用方向是再进行一次上采样,上采样的结果再与特征层C3(75×75×512)进行了一次通道数为256的卷积后的结果相加,相加后的结果进行一次卷积获得有效特征层P3(75×75×256),有效特征层P3会将图像划分为75×75的网格进行预测;
S23、通过步骤S22获得了5个有效特征层,包括有效特征层P3、P4、P5、P6、P7,利用这5个有效特征层传输入class subnet分类子网层和box subnet边界框回归子网层获得预测结果;class subnet采用4次256通道的卷积和1次num_anchors×num_classes的卷积,num_anchors指的是该特征层所拥有的先验框数量,num_classes指的是网络一共对多少类的目标进行检测;将输出结果经过一个Sigmoid函数,将预测概率固定到0-1之间;boxsubnet采用4次256通道的卷积和1次num_anchors×4的卷积,num_anchors指的是该特征层所拥有的先验框数量,4指的是先验框的调整情况。
进一步地,步骤S4包括步骤:
S41、将步骤S1中的格式为PASCAL VOC2007的数据集放到指定文件夹下,准备好数据集;
S42、使用ResNet50的预训练权重作为步骤S3中的ECA-RetinaNet网络的训练权重,选择焦点损失函数来编译模型进行训练,训练100个周期,同时生成所需的权值文件;
S43、将步骤S42得到的权值文件中,挑选出训练好后的最佳的模型权重参数作为最优ECA-RetinaNet模型的权值,得出最优ECA-RetinaNet模型。
更进一步地,所述步骤S42中,焦点损失函数为计算预测值(即分类与回归的结果)与真实值(数据集的标签)之间的误差,而后通过反向传播对模型中的网络参数进行更新,以最大限度的得到所期望模型能够达到的性能。
进一步地,所述步骤S5包括步骤:通过测试集进行检测结果评估测试,得出该模型对凤梨成熟度检测的评价指标,其中所述评价指标包括召回率、平均精确度、F1得分、均值平均精度、FPS。
本发明的有益效果在于,与现有技术相比,本发明所述的方法具有实时性的同时,具有较高的检测精度,本发明可以快速且准确的定位凤梨位置并且分类凤梨的成熟度,能够提供成熟凤梨分布信息,有助于合理安排劳动力,从而降低收割成本,促进精准农业的发展。
附图说明
图1是本发明一种基于改进RetinaNet的自然果园场景下的凤梨成熟度检测方法流程图;
图2是本发明中RetinaNet网络的ResNet50和FPN的结构示意图;
图3是本发明中改进后的RetinaNet网络结构图;
图4是本发明中ECA-RetinaNet的结构示意图;
图5是本发明提供的技术方案在100个训练轮次结束后的损失值图;
图6是本发明提供的技术方案在100个训练轮次结束后的均值平均精度图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,发明实施例提供的一种基于改进RetinaNet的自然果园场景下的凤梨成熟度检测方法,具体步骤如下:
S1、采集自然果园场景下凤梨图像数据,经过图像预处理后,建立凤梨图像库;
S2、构建基于RetinaNet的网络模型结构;
S3、在步骤S2得到的初步网络结构的基础上,改进RetinaNet,构建ECA-RetinaNet凤梨检测网络;
S4、导入步骤1得到的训练数据集对步骤S3中得到的ECA-RetinaNet,选择焦点损失函数来编译模型进行训练,获取检测凤梨成熟度的最优模型;
S5、利用步骤1得到的测试集进行测试,通过ECA-RetinaNet模型对凤梨图像进行成熟度检测。
步骤S1中采集自然果园场景下凤梨果实图像数据,具体包括,拍摄者使用智能手机在4月份采集而来,分辨率为4032×3024。拍摄时间段分别在四天中的上午9:00-11:00、下午15:00-17:00、傍晚19:00-19:30;拍摄的天气状况包括晴天、多云、阴天和雨天;光照条件包括顺光、逆光;图片包含有枝叶、杂草以及果实重叠遮挡的复杂背景;采集而成的凤梨图像基本包含不同成熟度,其中包括:凤梨目呈开红紫色花的第一阶段、凤梨目呈红紫花凋谢且平的第二阶段、凤梨目呈平的第三阶段、凤梨目呈墨绿转黄色的第四阶段。所有拍摄图片格式存储为JPEG。
在本发明一个实施例中中,采集自然果园场景下凤梨图像数据,经过图像预处理后,建立凤梨图像库,具体方法包括:
S11、凤梨果实是分批次成熟的,根据实际果农需求进行4种成熟度阶段的分类,其中图片数据集包括:凤梨目呈开红紫色花的第一阶段、凤梨目红紫花凋谢且平的第二阶段、凤梨目平的第三阶段、凤梨目呈墨绿转黄色的第四阶段;
S12、根据人工分类后的凤梨果实图片进行凤梨数据集的建立,对每张数据集图片中的每颗凤梨样本,使用labelimg工具进行标签信息的标注,将生成标注xml文件,数据集格式为PASCAL VOC2007格式;
S13、将标注好标签的数据集按照一定比例进行随机抽取,将图像分为训练数据集、验证数据集和测试数据集,本实施例的比例为8:1:1;
S14、对训练集中的凤梨果实图片进行水平与垂直旋转、缩放、调整图像的亮度和对比度进行增强扩充。
本发明步骤S2构建基于RetinaNet的网络模型结构,如图2所示,构建基于RetinaNet的网络模型结构,包括步骤:
S21、本发明选择ResNet50作为主干特征网络,将600×600×3大小的凤梨图片传入ResNet50网络;ResNet50其包含Conv Block和Identity Block两个基本块。Conv Block的输入维度和输出维度不同,其有改变网络维度的功能,将输入图片长和宽进行压缩;Identity Block的输入和输出维度相同,其有加深ResNet50网络深度的功能;其中需要取出长宽压缩了3次、4次、5次的结果来进行步骤S22特征金字塔结构的构造;
S22、通过步骤S21获得到的特征后经过特征金字塔FPN的处理,能够融合多尺度特征,实现有效的预测结果。主干特征提取网络通过步骤S21后获得3个不同感受野的特征层C3、C4、C5。通过特征金字塔FPN,获得了5个有效特征层,包括有效特征层P3、P4、P5、P6、P7,其具体内容为以下:
特征层C5(19×19×2048)通过了一次步长为2,通道数为256的卷积得到有效特征层P6(19×19×256),有效特征层P6会将图像划分为10×10的网格进行预测;
在有效特征层P6的基础上进行一个ReLU激活函数的操作后,再进行一次步长为2,通道数为256的卷积得到有效特征层P7(5×5×256),有效特征层P7会将图像划分为5×5的网格进行预测;
特征层C5经过一次通道数为256的卷积,卷积后的结果有2个应用方向;其中一个方向是进行了一次通道数为256的卷积得到有效特征层P5(19×19×256),有效特征层P5会将图像划分为19×19的网格进行预测;另一个应用方向是进行上采样,上采样的结果再与特征层C4(38×38×1024)进行了一次通道数为256的卷积后的结果相加;
相加后的结果有2个应用方向,其中一个方向是进行一次卷积获得有效特征层P4(38×38×256),有效特征层P4会将图像划分为38×38的网格进行预测;另一个应用方向是再进行一次上采样,上采样的结果再与特征层C3(75×75×512)进行了一次通道数为256的卷积后的结果相加,相加后的结果进行一次卷积获得有效特征层P3(75×75×256),有效特征层P3会将图像划分为75×75的网格进行预测;
S23、通过步骤S22获得了5个有效特征层,包括有效特征层P3、P4、P5、P6、P7。接下来,利用这5个有效特征层传输入class subnet和box subnet获得预测结果。
class subnet采用4次256通道的卷积和1次num_anchors×num_classes的卷积,num_anchors指的是该特征层所拥有的先验框数量,num_classes指的是网络一共对多少类的目标进行检测。将输出结果经过一个Sigmoid函数,将预测概率固定到0-1之间。
box subnet采用4次256通道的卷积和1次num_anchors×4的卷积,num_anchors指的是该特征层所拥有的先验框数量,4指的是先验框的调整情况。
步骤S3中,在步骤S2得到的初步网络结构的基础上,改进RetinaNet,构建ECA-RetinaNet凤梨检测网络,如图3所示,包括步骤:
S31、将ECA模块嵌入class subnet中,将特征金字塔的每层特征在分类子网络中再次进行提炼;这是自适应选择一维卷积核大小的方法,以确定局部跨信道交互的覆盖率;
S32、将精炼过得到的特征图通过4次256通道的卷积和1次num_anchors×num_classes的卷积,num_anchors指的是该特征层所拥有的先验框数量,num_classes指的是网络一共对多少类的目标进行检测,将输出结果经过一个Sigmoid函数,输出最终的凤梨成熟度分类结果。
其中在步骤S31中,由图4所示,ECA模块网络构造包括如下步骤:
S311、对从步骤S22中输入进来的有效特征层P3、P4、P5、P6、P7进行全局平均池化;
S312、然后进行通过一个1D卷积,1D卷积与全连接层相比,卷积层的主要特点是参数共享和稀疏连接,使得卷积操作学习的参数数量减少,1D卷积的计算方法是:若输入数据维度为8,过滤器的维度为5,卷积后输出的数据维度为4;
S313、在完成1D卷积后,再取一次Sigmoid函数将值固定到0-1之间,此时获得了输入特征层每一个通道的权值(0-1之间)。
S314、在获得这个权值后,将这个权值乘上原输入特征层。
步骤S4中,导入步骤1得到的训练数据集对步骤S3中得到的ECA-RetinaNet,选择焦点损失函数来编译模型进行训练,获取检测凤梨成熟度的最优模型。包括步骤:
S41、将步骤S1中的格式为PASCAL VOC2007的数据集放到指定文件夹下,准备好数据集;
S42、完成好步骤S41的工作后,进行网络训练的准备工作,使用ResNet50的预训练权重作为步骤S3中的ECA-RetinaNet网络的训练权重,训练100个周期,同时生成所需的权值文件;
S43、将步骤S42得到的权值文件中,挑选出训练好后的最佳的模型权重参数作为最优ECA-RetinaNet模型的权值,即可得出最优ECA-RetinaNet模型。
其中在步骤S52中损失函数在模型训练过程中体现其作用在于:计算预测值(即分类与回归的结果)与真实值(数据集的标签)之间的误差,而后通过反向传播对模型中的网络参数进行更新,以最大限度的得到所期望模型能够达到的性能。Focal Loss是一种新的用于平衡One-Stage目标检测方法正负样本的Loss方案。Focal Loss的公式为:FL(pt)=-αt(1-pt)γlog(pt)。这里的两个参数α和γ协调来控制,采用α=0.25,γ=2效果最好。
在步骤S43中,最佳的模型权重是经过反复试验证明的。通过损失函数来进行模型训练,然后再来测试对于指标来说最好的选择参数是有用的,程序将会保存其作为最佳的模型权重。
步骤S5中,利用步骤1得到的测试集进行测试,通过ECA-RetinaNet模型对凤梨图像进行成熟度检测,包括步骤:通过测试集进行检测结果评估测试,得出该模型对凤梨成熟度检测的评价指标。其中评价指标包括召回率、平均精确度、F1得分、均值平均精度、FPS。运行预测文件则可进行对凤梨图像进行成熟度检测。评价指标包括以下:Recall:召回率,真实是正例的样本中,预测也是正例所占的比例,计算公式为:Precision:精确率,预测是正例的样本中,真实也是正例所占的比例,计算公式为:AP是P-R曲线与坐标图中的x轴所围成的面积,面积越大,说明算法性能越好,计算公式为:(平均精确度mAP为各种类别的AP的平均值,其中n为类别数,计算公式为:(均值平均精度mean Average Precision) FPS:FramePer Seconds用帧率来衡量检测的速度的快慢,即1秒内能够处理的图片帧数。
对本发明的技术方案进行实验验证,实验采用WIN10的操作系统,Intel(R)Core(TM)i7-9700K CPU@3.60GHz 3.60GHz的处理器,16GB内存,基于Pytorch深度学习框架,采用python语言作为编程语言实现本发明方法。
检测结果评估测试中,在100个训练轮次结束后的损失值图,如图5所示;在100个训练轮次结束后的均值平均精度图,如图6所示。由检测结果评估可知,针对凤梨成熟度第一阶段、凤梨成熟度第二阶段、凤梨成熟度第三阶段、凤梨成熟度第四阶段检测精度分别为95.47%、94.34%、95.92%、96.74%,均值平均精度为96.62%,召回率为91.82%,F1得分为92.75%,检测速度0.04s/张。
本发明可以快速且准确的定位凤梨位置并且分类凤梨的成熟度,能够提供成熟凤梨分布信息,有助于合理安排劳动力,从而降低收割成本,促进精准农业的发展。
综上所述,本发明提出一种基于改进RetinaNet的自然果园场景下的凤梨成熟度检测方法,在实精确性和鲁棒性上表现优异,可以实际应用到凤梨种植基地。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (7)
1.一种基于改进RetinaNet的自然果园场景下的凤梨成熟度检测方法,其特征在于,包括步骤:
S1、采集自然果园场景下凤梨图像数据,经过图像预处理后,建立凤梨图像库,所述凤梨图像库包括训练数据集、验证数据集和测试数据集;
S2、构建基于RetinaNet的网络模型结构;
S3、在步骤S2得到的初步网络结构的基础上,改进RetinaNet,构建ECA-RetinaNet凤梨检测网络,包括步骤:
S31、将ECA模块嵌入class subnet中,将特征金字塔的每层特征在分类子网络中再次进行提炼,其中所述ECA模块构造包括步骤:
S311、对从步骤S2中输入进来的有效特征层P3、P4、P5、P6、P7进行全局平均池化;
S312、进行一个1D卷积,1D卷积的计算方法是:若输入数据维度为8,过滤器的维度为5,则卷积后输出的数据维度为4;
S313、取一次Sigmoid函数将值固定到0-1之间,获得输入特征层每一个通道的权值,所述权值在0和1之间;
S314、将所述权值乘上原输入特征层;
S32、将精炼过得到的特征图通过4次256通道的卷积和1次num_anchors×num_classes的卷积,num_anchors指的是该特征层所拥有的先验框数量,num_classes指的是网络一共对多少类的目标进行检测,将输出结果经过一个Sigmoid函数,输出最终的凤梨成熟度分类结果;
S4、导入步骤1得到的训练数据集对步骤S3中得到的ECA-RetinaNet选择焦点损失函数来编译模型进行训练,获取检测凤梨成熟度的最优模型;
S5、利用步骤1得到的测试数据集进行测试,通过ECA-RetinaNet模型对凤梨图像进行成熟度检测。
2.如权利要求1所述的所述步骤S1中所述基于改进RetinaNet的自然果园场景下的凤梨成熟度检测方法,其特征在于,所述采集自然果园场景下凤梨图像数据,包括步骤:拍摄者使用智能手机在4月份采集而来,分辨率为4032×3024;拍摄时间段分别在四天中的上午9:00-11:00、下午15:00-17:00、傍晚19:00-19:30;拍摄的天气状况包括晴天、多云、阴天和雨天;光照条件包括顺光、逆光;图片包含有枝叶、杂草以及果实重叠遮挡的复杂背景;采集而成的凤梨图像包含不同成熟度,其中包括:凤梨目呈开红紫色花的第一阶段、凤梨目呈红紫花凋谢且平的第二阶段、凤梨目呈平的第三阶段、凤梨目呈墨绿转黄色的第四阶段;所有拍摄图片格式存储为JPEG格式。
3.如权利要求1或2所述的所述步骤S1中所述基于改进RetinaNet的自然果园场景下的凤梨成熟度检测方法,其特征在于,步骤1中所述图像预处理和建立凤梨图像库包括步骤:
S11、根据人工分类后的凤梨果实图片进行凤梨数据集的建立,对每张数据集图片中的每颗凤梨样本,使用labelimg工具进行标签信息的标注,将生成标注xml文件,数据集格式为PASCAL VOC2007格式;
S12、将标注好标签的数据集按照一定比例进行随机抽取,将图像分为训练数据集、验证数据集和测试数据集,比例为8:1:1;
S13、对训练集中的凤梨果实图片进行水平与垂直旋转、缩放、调整图像的亮度和对比度进行增强扩充。
4.如权利要求1所述的所述步骤S1中所述基于改进RetinaNet的自然果园场景下的凤梨成熟度检测方法,其特征在于,步骤S2中所述构建基于RetinaNet的网络模型结构,包括步骤:
S21、选择ResNet50作为主干特征网络,将600×600×3大小的凤梨图片传入ResNet50网络;ResNet50其包含Conv Block和Identity Block两个基本块;Conv Block的输入维度和输出维度不同,其有改变网络维度的功能,将输入图片长和宽进行压缩;Identity Block的输入和输出维度相同,其有加深ResNet50网络深度的功能;其中需要取出长宽压缩了3次、4次、5次的结果来进行步骤S22特征金字塔结构的构造;
S22、通过步骤S21获得到的特征后经过特征金字塔FPN的处理,主干特征提取网络通过步骤S21后获得3个不同感受野的特征层C3、C4、C5,通过特征金字塔FPN,获得了5个有效特征层,包括有效特征层P3、P4、P5、P6、P7,其具体内容为以下:
特征层C5(19×19×2048)通过了一次步长为2,通道数为256的卷积得到有效特征层P6(19×19×256),有效特征层P6会将图像划分为10×10的网格进行预测;
在有效特征层P6的基础上进行一个ReLU激活函数的操作后,再进行一次步长为2,通道数为256的卷积得到有效特征层P7(5×5×256),有效特征层P7会将图像划分为5×5的网格进行预测;
特征层C5经过一次通道数为256的卷积,卷积后的结果有2个应用方向;其中一个方向是进行了一次通道数为256的卷积得到有效特征层P5(19×19×256),有效特征层P5会将图像划分为19×19的网格进行预测;另一个应用方向是进行上采样,上采样的结果再与特征层C4(38×38×1024)进行了一次通道数为256的卷积后的结果相加;
相加后的结果有2个应用方向,其中一个方向是进行一次卷积获得有效特征层P4(38×38×256),有效特征层P4会将图像划分为38×38的网格进行预测;另一个应用方向是再进行一次上采样,上采样的结果再与特征层C3(75×75×512)进行了一次通道数为256的卷积后的结果相加,相加后的结果进行一次卷积获得有效特征层P3(75×75×256),有效特征层P3会将图像划分为75×75的网格进行预测;
S23、通过步骤S22获得了5个有效特征层,包括有效特征层P3、P4、P5、P6、P7,利用这5个有效特征层传输入class subnet分类子网层和box subnet边界框回归子网层获得预测结果;class subnet采用4次256通道的卷积和1次num_anchors×num_classes的卷积,num_anchors指的是该特征层所拥有的先验框数量,num_classes指的是网络一共对多少类的目标进行检测;将输出结果经过一个Sigmoid函数,将预测概率固定到0-1之间;box subnet采用4次256通道的卷积和1次num_anchors×4的卷积,num_anchors指的是该特征层所拥有的先验框数量,4指的是先验框的调整情况。
5.如权利要求1所述的所述步骤S1中所述基于改进RetinaNet的自然果园场景下的凤梨成熟度检测方法,其特征在于,步骤S4包括步骤:
S41、将步骤S1中的格式为PASCAL VOC2007的数据集放到指定文件夹下,准备好数据集;
S42、使用ResNet50的预训练权重作为步骤S3中的ECA-RetinaNet网络的训练权重,选择焦点损失函数来编译模型进行训练,训练100个周期,同时生成所需的权值文件;
S43、将步骤S42得到的权值文件中,挑选出训练好后的最佳的模型权重参数作为最优ECA-RetinaNet模型的权值,得出最优ECA-RetinaNet模型。
6.如权利要求5所述的所述步骤S1中所述基于改进RetinaNet的自然果园场景下的凤梨成熟度检测方法,其特征在于,所述步骤S42中,焦点损失函数为计算预测值(即分类与回归的结果)与真实值(数据集的标签)之间的误差,而后通过反向传播对模型中的网络参数进行更新,以最大限度的得到所期望模型能够达到的性能。
7.如权利要求1所述的所述步骤S1中所述基于改进RetinaNet的自然果园场景下的凤梨成熟度检测方法,其特征在于,所述步骤S5包括步骤:通过测试集进行检测结果评估测试,得出该模型对凤梨成熟度检测的评价指标,其中所述评价指标包括召回率、平均精确度、F1得分、均值平均精度、FPS。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210637840.3A CN115147835B (zh) | 2022-06-07 | 一种基于改进RetinaNet的自然果园场景下的凤梨成熟度检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210637840.3A CN115147835B (zh) | 2022-06-07 | 一种基于改进RetinaNet的自然果园场景下的凤梨成熟度检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115147835A true CN115147835A (zh) | 2022-10-04 |
CN115147835B CN115147835B (zh) | 2024-07-02 |
Family
ID=
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116453111A (zh) * | 2023-06-16 | 2023-07-18 | 广东海洋大学 | 一种基于轻量级YOLOv4的菠萝成熟度分析方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126472A (zh) * | 2019-12-18 | 2020-05-08 | 南京信息工程大学 | 一种基于ssd改进的目标检测方法 |
WO2020106393A2 (en) * | 2018-10-23 | 2020-05-28 | Baylor College Of Medicine | Skeletal maturity determination using radiographs of portions of a hand |
CN111401419A (zh) * | 2020-03-05 | 2020-07-10 | 浙江理工大学桐乡研究院有限公司 | 基于改进RetinaNet的员工着装规范检测方法 |
CN111652326A (zh) * | 2020-06-30 | 2020-09-11 | 华南农业大学 | 基于MobileNet v2网络改进的果实成熟度识别方法和识别系统 |
CN112257659A (zh) * | 2020-11-11 | 2021-01-22 | 四川云从天府人工智能科技有限公司 | 检测跟踪方法、装置以及介质 |
CN114387520A (zh) * | 2022-01-14 | 2022-04-22 | 华南农业大学 | 一种用于机器人采摘的密集李子精准检测方法及其系统 |
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020106393A2 (en) * | 2018-10-23 | 2020-05-28 | Baylor College Of Medicine | Skeletal maturity determination using radiographs of portions of a hand |
CN111126472A (zh) * | 2019-12-18 | 2020-05-08 | 南京信息工程大学 | 一种基于ssd改进的目标检测方法 |
CN111401419A (zh) * | 2020-03-05 | 2020-07-10 | 浙江理工大学桐乡研究院有限公司 | 基于改进RetinaNet的员工着装规范检测方法 |
CN111652326A (zh) * | 2020-06-30 | 2020-09-11 | 华南农业大学 | 基于MobileNet v2网络改进的果实成熟度识别方法和识别系统 |
CN112257659A (zh) * | 2020-11-11 | 2021-01-22 | 四川云从天府人工智能科技有限公司 | 检测跟踪方法、装置以及介质 |
CN114387520A (zh) * | 2022-01-14 | 2022-04-22 | 华南农业大学 | 一种用于机器人采摘的密集李子精准检测方法及其系统 |
Non-Patent Citations (1)
Title |
---|
闫建伟等: "基于残差网络的自然环境中刺梨果实的识别", 《中国农机化学报》, no. 10, 15 October 2020 (2020-10-15) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116453111A (zh) * | 2023-06-16 | 2023-07-18 | 广东海洋大学 | 一种基于轻量级YOLOv4的菠萝成熟度分析方法 |
CN116453111B (zh) * | 2023-06-16 | 2023-11-21 | 广东海洋大学 | 一种基于轻量级YOLOv4的菠萝成熟度分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109325495B (zh) | 一种基于深度神经网络建模的作物图像分割系统及方法 | |
CN114387520B (zh) | 一种用于机器人采摘的密集李子精准检测方法及其系统 | |
CN109284771B (zh) | 一种番茄生长模型判定方法及装置 | |
CN109344738A (zh) | 农作物病虫草害识别方法及装置 | |
CN111652326A (zh) | 基于MobileNet v2网络改进的果实成熟度识别方法和识别系统 | |
CN117036088A (zh) | 一种ai识别绿化植物生长态势的数据采集分析方法 | |
CN115984698A (zh) | 一种基于改进YOLOv5的荔枝果实生长期识别方法 | |
CN116129260A (zh) | 基于深度学习的牧草图像识别方法 | |
CN115661544B (zh) | 基于N-MobileNetXt的菠菜幼苗水分胁迫等级分类系统及方法 | |
CN116543316B (zh) | 一种利用多时相高分辨率卫星影像识别稻田内草皮的方法 | |
CN116030348A (zh) | 一种基于LS-YOLOv5网络的绿豆叶斑病病斑检测方法及装置 | |
CN113158865A (zh) | 一种基于EfficientDet的小麦麦穗检测方法 | |
CN114627411A (zh) | 基于计算机视觉下并行检测的农作物生育期识别方法 | |
CN116682106A (zh) | 一种基于深度学习的柑橘木虱智能检测方法及装置 | |
CN114511636A (zh) | 一种基于双滤注意力模块的果实计数方法及系统 | |
CN116863403B (zh) | 一种农作物大数据环境监测方法、装置及电子设备 | |
CN117197595A (zh) | 基于边缘计算的果树生育期识别方法、装置及管理平台 | |
CN111523503A (zh) | 基于改进ssd算法的苹果目标检测方法 | |
CN115147835B (zh) | 一种基于改进RetinaNet的自然果园场景下的凤梨成熟度检测方法 | |
CN115147835A (zh) | 一种基于改进RetinaNet的自然果园场景下的凤梨成熟度检测方法 | |
CN115879817A (zh) | 一种区域减碳量评估方法、装置、电子设备及存储介质 | |
CN115346212A (zh) | 一种基于改进YOLOv5的苹果花朵生长状态检测方法 | |
CN107895385A (zh) | 基于卷积神经网络的对单张室外图像太阳位置的预测方法 | |
CN112036397A (zh) | 一种基于深度学习的嵌入式黄瓜叶片图像识别装置 | |
CN116052141B (zh) | 作物生育期的识别方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |