CN113435302B

CN113435302B - 一种基于GridR-CNN的水培生菜幼苗状态检测方法

Info

Publication number: CN113435302B
Application number: CN202110700377.8A
Authority: CN
Inventors: 李振波; 李晔; 赵远洋; 吴宇峰; 李一鸣; 杨泳波
Original assignee: China Agricultural University
Current assignee: China Agricultural University
Priority date: 2021-06-23
Filing date: 2021-06-23
Publication date: 2023-10-17
Anticipated expiration: 2041-06-23
Also published as: CN113435302A

Abstract

本发明公开了属于农作物育苗技术领域的一种基于GridR‑CNN水培生菜幼苗状态检测方法。该方法利用GridR‑CNN水培生菜幼苗状态检测网络，采用自动白平衡、光学对焦、垂直的方式获取幼苗图像，去除拍摄质量差的图像，并将问题幼苗的识别类别定义为孔洞内幼苗的死亡状态和双株状态；在RPN阶段采用Focal Loss作为分类损失，解决训练过程中正负样本分布不均衡问题；采用网格引导机制，结合FCN的位置敏感特性，改变传统基于回归的边框定位方式，以获取明确的空间信息；利用特征融合策略，整合相邻网格点的特征图，实现目标的精准定位。该方法为育苗自动分拣提供理论和技术支持，该方法嵌套至硬件设备后，节约人力资源。

Description

一种基于GridR-CNN的水培生菜幼苗状态检测方法

技术领域

本发明属于农作物育苗技术领域，特别涉及一种基于GridR-CNN的水培生菜幼苗状态检测方法

背景技术

育苗是水培种植过程中的关键环节，秧苗的质量会直接影响水培蔬菜的产量和品质。俗话说：“苗壮半收成”，在水培蔬菜的育苗过程中，所需时间长，劳动强度大，人工成本高。同时，育苗阶段的水培蔬菜幼苗，在培养基上的长势通常会存在差异。具体而言，由于种子发芽具有一定的出苗率，有些孔洞中并未长出幼苗；此外，在播种过程中还存在种子质量过轻，有的孔洞中会长出两株或多株幼苗的现象，这种情况在后期幼苗生长中存在潜在的风险，难以保证幼苗都能汲取到充足的养分，上述两种情况下的幼苗称为问题幼苗。

在水培蔬菜的实际育苗过程中，幼苗分拣是一个不可或缺的步骤，通常需要人工对问题幼苗进行分拣，并只分拣一次，目前主要依靠人力完成，劳动强度较大且费时。水培蔬菜问题幼苗状态的检测是提高育苗效率的关键环节之一，而人工分拣存在一定的偶然性、误判性以及间歇性。同时，当前已存在自动播种机、自动幼苗移栽机，但现有的农业机械未能实现幼苗状态的自动识别。因此，实现对问题幼苗状态的自动检测，及时去除问题幼苗，提高育苗成功率，降低人力成本，有助于推进育苗分拣智能化，具有一定的应用价值。

与本发明相关的现有技术如下

1.Faster R-CNN

Faster R-CNN^[1]于2015年提出，第一次实现了目标检测端到端的训练，将候选框提取和目标检测整合到统一的网络中。Faster R-CNN完全舍弃了之前 R-CNN、Fast R-CNN中费时的Selective Search算法，通过在Backbone提取的图像特征图后引入一个全卷积网络，即区域推荐网络RPN，直接生成高质量的目标候选框。RPN和Fast R-CNN共享完整图像的卷积特征，通过对该二者网络进行交替训练，实现了目标检测的端到端训练。

Faster R-CNN主要分为2个模块，其中一个模块为生成候选区域的全卷积网络RPN，主要用于识别推荐框内是否包含目标，并粗略地对生成框进行回归；另一个模块为Fast R-CNN检测器，用于将RPN模块产生地候选框映射至特征图，并经过RoI Pooling将RoI的特征池化到固定维度，此后将其送入2个全连接层，预测每一个RoI的分类，并进行边框回归，精修边框位置，以获得检测结果。

2.RetinaNet

针对基于回归的一阶段检测模型中正、负样本数量和分类难易程度极度不平衡问题，何凯明等^[2]改善了分类过程中的交叉熵损失函数，提出了可动态调整权重的分类损失函数Focal Loss，解决了大量容易分类的负样本淹没损失值的情况。为了验证FocalLoss的效果，并提出了一阶段RetinaNet检测模型。该网络采用ResNet作为特征提取网络，并使用特征金字塔网络生成丰富的、多尺度的卷积特征。在此骨干架构上，RetinaNet附加了两个子网，一个用于预测每一个候选框的类别，另一个用于边框回归。

3.FCN

2015年，来自加州大学伯克利分校的Long等人^[3]提出了一种兼容任意尺寸图像，以全监督学习方式进行语义分割的全卷积网络(Fully Convolutional Network，FCN)。FCN在传统的分类网络上进行改进，训练一个端到端的网络，通过有效的前向传播产生相应大小的输出，实现对图像的像素级分类，解决了语义级别的图像分割问题。

4.在CN111723764A发明专利“改进Faster R-CNN水培蔬菜幼苗状态检测方法”中，多种图像采集设备，在自然光照下的同一高度对培养盒中的水培蔬菜幼苗进行拍照，获取水培蔬菜的育苗图像、扩增幼苗数据集、针对幼苗生长孔洞存在问题的不同情况，对数据集进行手工标注；提出改进的Faster R-CNN检测网络，针对水培蔬菜幼苗图像存在较为微小、密集的特点，采用HRNet作为特征提取网络，减少在自然光照下采样过程中的信息损失，较好地保留小目标物体的信息，从而为后续候选框的回归与分类提供较好的语义信息。但是，获取水培蔬菜的育苗图像范围有限，水培生菜幼苗数据集的数量分布不均，存在训练过程中正负样本分布不均衡的问题。

在水培蔬菜的育苗过程中，当前仍处采用的是人工分拣的方式，劳动强度较大且费时，所以及时地发现长势异常的幼苗，是具有一定研究价值和实际意义的。为了排除不同类别水培蔬菜图像之间的干扰，本方法针对水培生菜育苗过程中，育苗海绵板上幼苗生长存在的死亡和双株状态展开，基于Grid R-CNN目标检测框架，实现自动对水培蔬菜育苗的问题状态进行分类，同时对处于不同状态的水培生菜幼苗位置进行定位，并为水培蔬菜的智能种植提供技术借鉴。

发明内容

本发明提的目的是提出一种基于GridR-CNN的水培生菜幼苗状态检测方法，其特征在于，具体步骤如下：

(1)获取水培生菜幼苗图像，使用包括数码相机、高清手机的多种设备，采用自动白平衡、光学对焦、垂直的方式获取幼苗图像；

(2)去除拍摄质量较差的图像，以保证幼苗图像的质量，避免数据集中的图像冗余；并将问题幼苗的识别类别定义为孔洞内未长出幼苗的死亡状态和单一孔洞长出2株幼苗的双株状态；此外，按照一定的比例划分训练集、验证集和测试集；

(3)对训练集的图像进行数据增强，从而扩展水培蔬菜幼苗数据集，避免发生过拟合，增强模型的稳定性，提高模型的检测性能，尽可能保证数据的丰富性；在进行数据增强时，主要采取了几何变换对原始图像进行尺度上的变化；

(4)构建好数据集后，借助LabelImg软件对所有图像进行2种不同类别问题幼苗的标注，采用Pascal VOC数据集格式，制作样本标签；

(5)将水培生菜幼苗的训练集图像输入Grid R-CNN^]目标检测模型中，同时在训练过程中添加验证集，用于评估在每个批次训练结束后，模型的泛化能力以及对模型的超参数进行调整；

(6)Grid R-CNN模型采用HRNet^[作为特征提取网络，为后续的RPN和网格引导模块生成共享的特征图；

(7)RPN经过端到端的训练，生成处于的死亡状态和单一孔洞长出2株幼苗的双株状态的水培生菜幼苗的前景目标候选框，同时通过分类器执行二分类任务，比较每个候选框的置信度得分，判断候选框属于前景或背景；本模型采用了 Focal Loss作为分类损失，利用锚框回归得到问题幼苗状态的候选框边界框；

(8)根据输入图像，采用RoI Align，将感兴趣区域映射到特征图的对应位置，并将其转化为相同维度的特征；

(9)在经过RoI Align处理后，进行目标候选框框的分类，沿用Faster R-CNN 中的方式，经过分类网络得到每个候选框的类别得分，并使用交叉熵损失进行模型参数优化；

(10)Grid R-CNN借鉴FCN架构对位置敏感的特性，采用网格引导机制，获取明确的空间信息。同时，利用扩展区域映射方法，调整原始图像输出热力图与区域之间的映射关系，实现对目标的精确定位；

(11)为了克服单一热力图生成网格点的局限性，本模型利用特征融合策略来整合相邻网格点的特征图，充分利用不同网格点之间相关性；

(12)训练基于Grid R-CNN的水培生菜幼苗状态检测模型，设置相关训练参数，观察模型在训练集和测试集上的损失曲线，直至模型收敛；

(13)保存训练好的模型；

(14)验证模型的可靠性和稳定性，在模型训练完成后，对测试集水培生菜幼苗图像进行检测，并采用相关指标评价模型性能。

所述步骤(1)获取水培生菜幼苗图像，选择同一批次发芽10天的水培生菜作为研究对象；在采集时选择不同的垂直高度进行拍摄，拍摄时间包括上午和下午，即在不同的光照条件下进行图像获取，以还原真实的自然环境以及幼苗图像的多样性；

所述步骤(3)采取了几何变换对原始图像进行尺度上的变化，包括图像翻转和图像旋转2种方式，具体而言，主要采用了水平翻转、垂直翻转和水平垂直翻转3种方式进行图像翻转，图像旋转时采用了90°、120°、270°三种角度进行数据扩充。

所述步骤(4)采用Pascal VOC数据集格式，制作样本标签是为了便于模型训练，将图片尺寸统一调整为500×375的大小；通过图像与标注文件的对应关系；为了使后续边框回归更加准确，对部分样本集进行调整，保证一个边框内仅存在一个目标物体。

第1章本发明的有益效果是在设施农业的现代化过程中，将深度学习算法迁移到设施农业的幼苗图像领域，构建了数据总量为3120张的水培生菜幼苗数据集，所有图像均采用Pascal VOC格式进行标注；在RPN阶段采用Focal Loss作为分类损失，解决训练过程中正负样本分布不均衡的问题；采用网格引导机制，结合FCN的位置敏感特性，改变传统基于回归的边框定位方式，以获取明确的空间信息；利用特征融合策略，整合相邻网格点的特征图，充分利用不同网格点间的相关性，实现目标的精准定位。该方法为育苗自动分拣提供理论和技术支持，若将该方法嵌套至硬件设备后，节约人力资源。

附图说明

图1为水培生菜幼苗状态检测流程图。

图2为水培生菜幼苗状态检测模型结构示意图。

图3为网格引导定位模块的结构。

图4为完整海绵板上的检测结果

图5为部分泡沫板上问题幼苗的检测效果

具体实施方式

本发明提出一种基于GridR-CNN的水培生菜幼苗状态检测方法，下面结合附图及实施例对本发明予以进一步说明。

图1所示为水培生菜幼苗状态检测流程图。图中所示基于GridR-CNN的水培生菜幼苗状态检测的具体步骤如下：

(1)获取水培生菜幼苗图像，选择同一批次发芽10天的水培生菜作为研究对象；使用数码相机、高清手机等多种设备，采用自动白平衡、光学对焦、垂直的方式获取幼苗图像；为了还原真实的自然环境以及幼苗图像的多样性，在采集时选择不同的垂直高度进行拍摄，拍摄时间包括上午和下午，即在不同的光照条件下进行图像获取。，

(2)去除拍摄质量较差的图像，以保证幼苗图像的质量，避免数据集中的图像冗余；并将问题幼苗的识别类别定义为孔洞内未长出幼苗的死亡状态和单一孔洞长出2株幼苗的双株状态；此外，按照一定的训练集、验证集和测试集比例，划分数据集；

(3)对训练集的图像进行数据增强，从而扩展水培蔬菜幼苗数据集，避免发生过拟合，增强模型的稳定性，提高模型的检测性能，尽可能保证数据的丰富性；在进行数据增强时，主要采取了几何变换对原始图像进行尺度上的变化，其中包括图像翻转和图像旋转2种方式；具体而言，主要采用了水平翻转、垂直翻转和水平垂直翻转3种方式进行图像翻转，图像旋转时采用了90°、120°、270°三种角度进行数据扩充。

(4)构建好数据集后，借助LabelImg软件对所有图像进行2种不同类别问题幼苗的标注，采用Pascal VOC数据集格式，制作样本标签；为了便于模型训练，通过图像与标注文件的对应关系，将图片尺寸统一调整为500×375的大小；同时发现部分真值框标注得不够具体，存在一个框内有多个目标的情况，为了使后续边框回归更加准确，对部分样本集进行调整，保证一个边框内仅存在一个目标物体。

(5)将水培生菜幼苗的训练集图像输入Grid R-CNN目标检测模型中，同时在训练过程中添加验证集，用于评估在每个批次训练结束后，模型的泛化能力以及对模型的超参数进行调整(如图2所示的水培生菜幼苗状态检测模型结构示意图)。

(6)Grid R-CNN模型采用HRNet作为特征提取网络，为后续的RPN和网格引导模块生成共享的特征图；

(7)RPN经过端到端的训练，生成处于的死亡状态和单一孔洞长出2株幼苗的双株状态的水培生菜幼苗的前景目标候选框，同时通过分类器执行二分类任务，比较每个候选框的置信度得分，判断候选框属于前景或背景；本模型采用了Focal Loss作为分类损失，利用锚框回归得到问题幼苗状态的候选框边界框；具体包括：

由于处于双株状态的幼苗与正常状态的幼苗形状较为相似，在训练阶段， RPN中会产生大量的负样本候选框。为了解决训练过程中前景和背景样本分布不均衡(比例大致为1：1000)的问题。将RPN中的分类损失函数由标准交叉熵函数CE(Cross Entropy)替换为焦点损失FL(FocalLoss,)。其中CE可形式化为下式(1)。

在式(1)中，p代表样本在某一类别的预测概率，y代表样本标签。为了方便表示，按照式(2)将p标记为p_t，

因此，式(1)可表示为式(3)的形式，

CE(p，y)＝CE(p_t)＝-log(p_t) 式(3)

从上述各式发现，在CE中，所有的样本具有相同的权重。如果当正负样本分布不均衡时，大量简单的负样本会占据主要损失，并主导梯度，淹没少量正样本对梯度的贡献，从而导致精度降低。

所述FL在CE的基础上，为了同时调节正负样本分布不均衡以及难易样本分类的问题，提出了式(4)的损失函数，

FL(p_t)＝-α_t(1-p_t)γlog(p_t) 式(4)

FL引入α_t权重，用于平衡正、负样本的权重。同时，利用(1-p_t)^γ调整难易样本的权重。当一个样本被错误分类时，p_t很小，而(1-p_t)^γ接近于1，分类损失不受影响；同理，当p_t接近于1时，(1-p_t)^γ趋近于0，从而降低易分类样本的损失。

(10)Grid R-CNN借鉴FCN架构对位置敏感的特性，采用网格引导机制，获取明确的空间信息。同时，利用扩展区域映射方法，调整原始图像输出热力图与区域之间的映射关系，实现对目标的精确定位(如图3所示为网格引导定位模块的结构)。

所述采用网格引导机制，获取明确的空间信息，具体操作如下：

基于传统的边框定位模块是一个回归分支，主要是通过设计几个全连接层，在高层特征图中预测候选框的偏移量来实现的。由于全连接层的存在，高层特征图会被处理为一个高维向量，但这种方式会减弱特征间的空间信息。而 FCN网络具有位置敏感性，因此Grid R-CNN将目标回归区域划分为网格，并采用FCN来预测网格点的位置，较好地保留了特征的空间信息，并获得像素级的网格点位置。

网格引导定位模块设计了一个N×N的网格形式，用于在目标边界框进行目标点的对齐，具体实现如图3所示。以3×3网格形式为例，每个建议框的特征由一个固定空间大小为14×14的RoI Align操作进行提取，此后采用8个3×3大小的膨胀卷积来扩大感受野，2个反卷积层来获取56×56大小分辨率的特征图。网格点预测分支会输出N×N个分辨率大小为56×56的热力图，同时在每个热力图上应用像素级分类得到概率分布图。此外，在训练过程中，每张热力图均有与之对应的监督图，并通过二值交叉损失进行优化。

在测试阶段，于每个热力图上选择置信度最高的像素点，并计算在原始图像上对应的位置作为网格点。将热力图中的像素点(H_x，H_y)映射到原图中对应像素点(I_x，I_y)，可形式化地用映射式(5)进行表示。

其中，(P_x，P_y)为输入图像中某一建议框的左上角坐标，w_p和h_p分别为候选框的宽度和高度，类似地，W_o和h_o分别为输出热力图的宽度和高度。不难看出，式(5)的作用即为将热力图中的坐标进行相应的缩放和平移。

得到网格点后，网格引导定位模块还需利用预测的网格点，确定目标框的4 条边界。具体而言，采用B＝(x_l，y_u，x_r，y_b)中的各个元素来分别表示左、上、右和下边界。同时，令g_j表示坐标(x_j，y_j)的第j个网格点，对应的预测概率为p_j， E_i为位于第i条边的网格点索引集。如果g_j位于边界框的第i条边，则j∈E_i，具体采用公式6，结合集合g来计算B元组。以上边界y_u为例，它是上边界3个网格点y轴坐标的概率加权平均值。

在RPN阶段，会出现部分建议框可能无法覆盖完整目标的情况。因此，一些真值网格点可能位于建议框之外，会导致后续在进行网格点的生成中难以进行有效的监督训练，获取精确的检测结果。基于此，本模型采用扩展区域映射的方法，调整原始图像输出热力图与区域之间的映射关系。在获取建议框时，依然从特征图上的同一区域提取RoI特征，并不扩大建议区域，而是将输出热力图的表示区域，重新定义为图像中2倍大的对应区域。扩展区域映射这一过程，可通过微调公式(5)实现，具体如公式(7)所示.

式(7)展开后，可得到式(8)，不难发现扩展区域映射是在原有的映射关系上添加了修正项，即当热力图中选定的网格点在左侧时，映射关系会向左侧移动，在右侧时会向右侧移动，对于y坐标也同样如此，说明该种方式通过对映射关系的调整，即可将相应的热力图映射区域加以扩展。

如果仅采用一个热力图网格点来生成相应的网格点，仍存在局限性；当某个网格点处于背景区域，则该区域获得的信息不足以精确定位目标物体边界。因此，特征融合模块主要是利用网格点之间具有的内在空间关联性，互相校准彼此的位置，以减少总体的偏差。

为了区分不同点的特征图，采用N×N组滤波器分别从特征图上提取特征，并对其对应的网格点进行监督，将第i个点对应的特征图表示为F_i。针对每个网格点，将单位网格长度为1，有助于融合的点设置为源点，并将第i个网格点的源点集合定义为S_i。假设S_i集合中的第j个源点对应的热力图为F_j，对F_j采用5×5的卷积核进行连续3次卷积运算得到F′_j。当S_i集合中的所有源点对应的热力图完成上述过程后，与F_i进行加和，生成融合后的F′_j，该融合过程即为一阶融合，具体的信息融合过程可形式化表示为式(9)。

对于每个网格点，在完成一阶融合后F_i′的基础上，可使用与一阶融合不共享参数的新卷积层进行二阶融合，即对源点距离为2倍单位距离的点进行信息传递。利用二阶融合后的特征图F_l″输出最终热力图，再通过网格定位引导模块，生成对应更为精细的边界框，可起到提高定位精度的目的。

(13)保存训练好的模型；

对测试集水培生菜幼苗图像进行检测，选取在不同高度下拍摄的水培生菜图像进行测试，图4和图5各包含A、B两块泡沫板；图4展示了在完整泡沫板上问题幼苗的检测效果，图5展示了在部分泡沫板上问题幼苗的检测效果；图中的矩形框代表了处于双株或死亡状态的水培生菜幼苗。从图中可看出，该模型能较好地检测不同高度下的问题幼苗状态，表明针对密集和小目标的图像，本模型具有良好的检测效果和鲁棒性。

在本模型中，主要是改变了边框回归的方法，即利用FCN对空间信息的敏感性，构建网格引导模块来优化边框回归效果.；表1展示了不同网格点个数的选择对检测精度的影响，其中，2个网格点表示采用真值框中的左上角和右下角进行监督，4个网格点在此基础上增加了真值框中剩余的2个角点，9个网格点则是在4个网格点的基础上，再增加每条边框的中点和边界框的中心点。为了验证网格引导定位模块的有效性，表3中的实验均未采用特征融合。随着网格点个数设置的增加，模型的检测精度也随之增加。相较于传统的边框回归方法，网格引导模块结合多点监督的方式，有效提升了幼苗状态的检测精度。

表1选取不同网格点的检测效果

表2不同特征融合方式对比结果

为了验证特征融合模块的有效性，表2展现了不同特征融合方式的对比结果，其中包含了前文所提及的一阶融合和二阶融合方式，同时也对比了三阶融合方式的效果，所有实验均采用了3×3的网格分布方式。实验结果表明，相较于未采用特征融合的方法，采用特征融合方式，能够进一步提升问题状态幼苗的检测精度。二阶融合方式相较于一阶融合方式，进一步提升了处于死亡和双株状态的幼苗检测精度。而三阶融合方式相较于二阶融合方式，虽然处于死亡状态的幼苗检测精度提高了0.3％，但处于双株状态的幼苗检测精度下降了0.7％，同时加大模型训练时间与复杂度。因此，模型选择了二阶融合作为网格点特征融合方式，对比未进行特征融合的方法，处于死亡和双株的幼苗检测精度分别提升了0.3％和0.4％，说明了特征融合方式能够更好地整合网格点之间的空间关联性，有助于提高边框的定位精度。

表3不同检测框架的检测结果

为了比较不同目标检测框架的检测效果，将本方法与其他检测器 FSAF(FeatureSelective Anchor Free,FSAF)，YOLO V3，FoveaBox，ATSS(Adaptive Training SampleSelection,ATSS)，CornerNet等方法进行比较，待模型训练至收敛后，采用测试集对其进行评估，得到不同检测方法的检测精度，如表3所示。此外，为了比较不同模型的检测速度，引入了平均处理图片数FPS(Frame Per Second)来评估识别速度。实验结果表明，本方法的检测精度达到最优，实现了水培生菜问题幼苗状态的高精度检测。

参考文献

[1]Ren S,He K,Girshick R B,Sun J.Faster R-CNN：Towards Real-TimeObject Detection with Region Proposal Networks[J].IEEE Transactions onPattern Analysis Machine Intelligence,2015,39∶1137-1149.

[2]Lin T Y,Goyal P,Girshick R B,He K,Dollár P.Focal Loss for DenseObject Detection[J].IEEE Transactions on Pattern Analysis MachineIntelligence,2017, 42：318-327.

[3]Long J,Shelhamer E,Darrell T.Fully Convolutional Networks forSemantic Segmentation[C].Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition,2015∶3431-3440.

[4]Lu X,Li B,Yue Y,Li Q,Yan J.Grid R-CNN[C].Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,2019∶7363-7372.

[5]Sun K,Xiao B,Liu D,Wang J.Deep High-resolution RepresentationLearning for Human Pose Estimation[C].Proceedings of the IEEE/CVF Conferenceon Computer Vision and Pattern Recognition,2019∶5693-5703.

Claims

1.一种基于GridR-CNN水培生菜幼苗状态检测方法，其特征在于，具体步骤如下：

(2)去除拍摄质量差的图像，以保证幼苗图像的质量，避免数据集中的图像冗余；并将问题幼苗的识别类别定义为孔洞内未长出幼苗的死亡状态和单一孔洞长出2株幼苗的双株状态；此外，按照一定的比例，划分训练集、验证集、测试集；

(5)将水培生菜幼苗的训练集图像输入Grid R-CNN^[4]目标检测模型中，同时在训练过程中添加验证集，用于评估在每个批次训练结束后，模型的泛化能力以及对模型的超参数进行调整；

(7)RPN经过端到端的训练，生成处于的死亡(die)状态和单一孔洞长出2株幼苗的双株状态的水培生菜幼苗的前景目标候选框，同时通过分类器执行二分类任务，比较每个候选框的置信度得分，判断候选框属于前景或背景；本模型采用了Focal Loss作为分类损失，利用锚框回归得到问题幼苗状态的候选框边界框；

(9)在经过RoI Align处理后，进行目标候选框框的分类，沿用Faster R-CNN中的方式，经过分类网络得到每个候选框的类别得分，并使用交叉熵损失进行模型参数优化；

(10)Grid R-CNN借鉴FCN架构对位置敏感的特性，采用网格引导机制，获取明确的空间信息；同时，利用扩展区域映射方法，调整原始图像输出热力图与区域之间的映射关系，实现对目标的精确定位；

(12).训练基于Grid R-CNN的水培生菜幼苗状态检测模型，设置相关训练参数，观察模型在训练集和测试集上的损失曲线，直至模型收敛；

(13)保存训练好的模型；

2.根据权利要求1所述基于GridR-CNN水培生菜幼苗状态检测方法，其特征在于，所述步骤(1)获取水培生菜幼苗图像，选择同一批次发芽10天的水培生菜作为研究对象；在采集时选择不同的垂直高度进行拍摄，拍摄时间包括上午和下午，即在不同的光照条件下进行图像获取，以还原真实的自然环境以及幼苗图像的多样性。

3.根据权利要求1所述基于GridR-CNN水培生菜幼苗状态检测方法，其特征在于，所述步骤(3)采取了几何变换对原始图像进行尺度上的变化，包括图像翻转和图像旋转2种方式，具体而言，主要采用了水平翻转、垂直翻转和水平垂直翻转3种方式进行图像翻转，图像旋转时采用了90°、120°、270°三种角度进行数据扩充。

4.根据权利要求1所述基于GridR-CNN水培生菜幼苗状态检测方法，其特征在于，所述步骤(4)采用Pascal VOC数据集格式，制作样本标签是为了便于模型训练，将图片尺寸统一调整为500×375的大小；通过图像与标注文件的对应关系；为了使后续边框回归更加准确，对部分样本集进行调整，保证一个边框内仅存在一个目标物体。