CN114049621A

CN114049621A - 一种基于Mask R-CNN的棉花顶尖识别检测方法

Info

Publication number: CN114049621A
Application number: CN202111324012.6A
Authority: CN
Inventors: 姚思雨; 王磊; 张宏文; 刘巧; 李海洋; 魏喜梅; 杜欣田; 尹成海
Original assignee: Shihezi University
Current assignee: Shihezi University
Priority date: 2021-11-10
Filing date: 2021-11-10
Publication date: 2022-02-15

Abstract

本发明属于深度学习及图像处理领域，公开了一种基于Mask R‑CNN的棉花顶尖识别检测方法，该方法包括步骤：采集不同条件下的棉花顶端图像；对采集到的棉花顶端图像进行图像增强并形成样本集；将样本集划分测试集和训练集；构建基于Mask R‑CNN的棉花顶尖识别神经网络模型；将训练集输入到初始Mask R‑CNN模型中进行训练，学习棉花顶尖目标特征；将测试集输入到训练好的Mask R‑CNN模型进行测试并调整至模型收敛，得到基于Mask R‑CNN的棉花顶尖识别检测模型。本发明可以准确识别出棉花顶尖位置信息，为下一步棉花机械打顶做准备。

Description

一种基于Mask R-CNN的棉花顶尖识别检测方法

技术领域

本发明属于深度学习及图像处理领域，具体涉及一种基于Mask R-CNN的棉花顶尖识别检测方法。

背景技术

棉花是劳动密集型栽培作物，种植管理复杂。如何实现棉花生产的全过程机械化，提高棉花生产的机械化水平，大大节约成本，减少劳动力，是棉花未来的生产方向。棉花生长过程中需要打顶，切断棉花的顶尖以增加棉花产量，目前棉花打顶主要靠人工完成，劳动强度大，效率低。在当前劳动力短缺、人工成本高的情况下，快速、准确、高效地实现棉花自动打顶具有重要的现实意义和广阔的发展前景，因此高速准确地识别棉花顶尖是自动打顶的前提和基础。

神经网络很强大的地方在于完美的拟合能力，可以逼近任何复杂的函数，而且神经网络的维度可以达到无穷维，这样其对数据的拟合能力是相当强大的；神经网络由于包含了许多隐藏层，而隐藏层又具有许多隐藏结点，这样便使得神经网络的表达能力十分强大，这在贝叶斯理论中有很好的体现，即对于受限玻尔兹曼机，通过神经网络的形式，逐层训练受限玻尔兹曼机，或者贝叶斯网络，便可以构建深度玻尔兹曼机，深度贝叶斯网络，使该网络的表征能力进一步的提升，在此基础上，出现了自编码，使得神经网络可以无监督的学习数据的特征，尤其是图像等抽象的特征，对于后续的分类，检测，分割等提供了很好的特征支持，不需要人为了设定特征，但在某一定程度上，传统的特征提取方法仍然可以为神经网络特征的学习提供参考方案；进一步，现在提出的卷积神经网络，递归神经网络等，进一步改善了神经网络的性能，使其在特定领域得以更好的应对具体问题，体现出了其强大的能力；卷积神经网络，在某一定程度上，认为图像局部间具有很强的关联，而较远的区域关联度不大，因此做了马尔科夫假设，使得训练神经网络更加的容易；神经网络同样可以和概率模型相结合，使得神经网络具有推断能力，加入了随机因素，使得神经网络的推理能力得以提升，可以高速准确地识别棉花顶尖。

发明内容

针对棉花顶尖精确识别问题，本发明利用深度学习及图像处理技术，基于Mask R-CNN对棉花顶尖图像进行精确识别，为后续的棉花打顶机械研究提供准备。

本发明为实现上述目的，所采用的技术方案如下。

一种基于Mask R-CNN的棉花顶尖识别检测方法，包括以下步骤：

步骤1，采集不同条件下的棉花顶端图像；

步骤2，对采集到的棉花顶端图像进行图像增强并形成样本集；

步骤3，将样本集划分测试集和训练集；

步骤4，构建基于Mask R-CNN的棉花顶尖识别神经网络模型；

步骤5，将训练集输入到初始Mask R-CNN模型中进行训练，学习棉花顶尖目标特征；

步骤6，将测试集输入到训练好的Mask R-CNN模型进行测试并调整至模型收敛，得到基于Mask R-CNN的棉花顶尖识别检测模型。

具体的，在步骤1中：采集棉花顶端在打顶期的不同时间光照、天气、角度等图像，确保样本多样性。

具体的，在步骤2中：为提高网络识别效果，需要对采集到的棉花顶端图像进行图像增强，将图像数据进行归一化、翻转变化、亮度变化、饱和度变化等生成新的数据集，提高识别精度并防止网络过拟合。

具体的，在步骤3中：将图像增强后的棉花顶端图像分为五等分，前三等分为训练集，后二等分为测试集。

具体的，在步骤4中：Mask R-CNN的结构主要有三部分：共享卷积层（backbone）、候选区域生成网络（RPN）、分类预测回归三分支（three branches）；首先由共享卷积层对全图提取特征，将得到的Feature Map送入RPN中；RPN网络在Feature Map中生成若干个候选域，并对其进行分类和定位操作，再利用非极大值抑制法将重叠的候选区域舍弃，最后将得分最高的N个候选区域选出来，与共享卷积层产生的Feature Map一同输入到ROI Align中；ROI Align找到每个候选区域对应的特征图后，将其送到三个分支中进行分类、boundingbox 回归以及mask预测；

Mask R-CNN使用感兴趣区域（ROI）对齐在更精确的位置进行掩模，并在每个ROI中添加完全卷积网络（FCN）进行掩模分割，图像被缩减为主干网的输入，通过特征金字塔网络（FPN）创建特征图，输入所创建的特性映射到区域提议网络（RPN），输出二进制类和框增量，通过ROI对齐和全连接层（FC层）输出框回归和分类，并使用FCN掩蔽进行语义分割；

Mask分支对输入对象的空间布局进行编码，与全连接层折叠成短输出向量的类标签或框偏移不同，提取掩模的空间结构可以通过卷积提供的像素到像素的对应处理，使用FCN从每个RoI预测m×m掩模，使mask分支中的每一层维持明显的m×m对象空间布局，而不会将其折叠为缺少空间维度的向量表示，与以前使用FC层进行掩模预测的方法不同，完全卷积表示法需要更少的参数，并且识别棉花顶尖的结果更精确；

RoIPool是从每个RoI中提取一个小特征映射的标准操作，RoIPool首先将浮点数RoI量化为特征图的离散粒度，然后将量化后的RoI细分为空间单元，这些单元本身进行量化，最后将每个单元覆盖的特征值进行聚合（通常通过最大池），进行量化，即G通过计算[x/16]在连续坐标x上，其中16为特征图步幅，[·]为舍入，类似地，当划分为存储单元时，执行量化，这些量化引入了RoI和提取的特征之间的偏差，提出的ROI Align舍弃了ROI Pooling中的量化取整操作，直接用双线性差值法计算出的浮点数来表示候选区域的空间位置，这样可将掩模的精确度提高了10%~50%，其中掩模分支（Mask Branch）是一个小型的全卷积网络，它应用在每一个ROI上，以pixel-to-pixel的方式来预测一个分割掩模，Mask R-CNN中将二值掩模预测和类别预测任务分开独立进行，为每一个类别单独进行mask预测，避免了不同类别之间的冲突，得到了更好的识别效果。

具体的，在步骤5中：训练时，将每个采样RoI上的多任务损失定义为：

掩模分支对每个RoI都有一个Km²维输出，对分辨率为m×m的K个二进制掩模进行编码，每个K类一个，采用每像素的sigmoid，并定义

为平均二进制交叉熵损失，对于与地面真值等级k相关的RoI，

仅在第k个掩码上定义（其他掩码输出不会导致损失）；

的定义使网络能够为每个等级生成mask分支，而不会在等级之间产生竞争；使用专用分类分支来预测用于选择输出掩码的类标签，这将使掩码和类预测解耦；

采用以图像为中心的训练，调整图像大小，使其比例（较短边缘）为800像素，每个小批量每个GPU有2个图像，每个图像有N个采样ROI，正负比例为1:3，N对于C4主干是64，对于FPN是512，在8个GPU（有效的小批量大小为16）上训练160k次迭代，学习率为0.02，在120k迭代时减少10，使用的权重衰减为0.0001，动量为0.9，当使用ResNeXt时，使用最小批量大小，每个GPU为1个图像，迭代次数相同，开始学习率为0.1，RPN横跨5个尺度和3个纵横比，为便于消融，RPN单独接受培训，不与Mask R-CNN共享功能。

本发明由于采用了上述的技术方案，其与现有技术相比，所取得的技术进步在于。

（1）本发明基于Mask R-CNN的检测算法，对棉花顶尖目标的检测识别率高，识别速度快，能够在复杂的环境下对棉花顶尖特征学习，增强了棉花顶尖识别模型的鲁棒性。

（2）本发明采集的图像按照标准数据集格式进行划分，可以重复利用该样本集，避免了多次采集图像的成本，并且训练方便，重复利用。

（3）本发明使用Mask R-CNN的训练模型对棉花顶尖图像进行检测识别速度快，满足了机器手臂的高速性和实时性，本模型对每张图像的棉花顶尖目标检测平均耗时为百毫秒级，并且对棉花顶尖识别的精度可达到95％以上，所以完全可以满足实际运用要求。

本发明属于深度学习及图像处理领域，基于Mask R-CNN对棉花顶尖图像进行精确识别，为后续的棉花打顶机械研究提供准备。

附图说明

图1为本发明实施例的方法流程图。

图2为本发明实施例的Mask R-CNN的神经网络模型结构图。

图3为本发明实施例的Mask R-CNN的主干特征提取网络结构图。

图4为本发明实施例的ResNet101的Conv Block网络结构图。

图5为本发明实施例的ResNet101的Identity Block网络结构图。

图6为本发明实施例的特征金字塔FPN结构图。

具体实施方式

为了更好的解释本发明，以便于理解，下面结合附图，通过具体实施方式，对本发明作详细描述。

实施例一种基于Mask R-CNN的棉花顶尖识别检测方法，如图1所示，包括以下步骤。

步骤1，采集不同条件下的棉花顶端图像。

采集棉花顶端在打顶期的不同时间光照、天气、角度等图像，确保样本多样性。

步骤2，对采集到的棉花顶端图像进行图像增强并形成样本集。

为提高网络识别效果，需要对采集到的棉花顶端图像进行图像增强，将图像数据进行归一化、翻转变化、亮度变化、饱和度变化等生成新的数据集，提高识别精度并防止网络过拟合。

步骤3，将样本集划分测试集和训练集。

将图像增强后的棉花顶端图像分为五等分，前三等分为训练集，后二等分为测试集。

步骤4，构建基于Mask R-CNN的棉花顶尖识别神经网络模型。

如图2所示，Mask R-CNN的结构主要有三部分：共享卷积层（backbone）、候选区域生成网络（RPN）、分类预测回归三分支（three branches）；首先由共享卷积层对全图提取特征，将得到的Feature Map送入RPN中；RPN网络在Feature Map中生成若干个候选域，并对其进行分类和定位操作，再利用非极大值抑制法将重叠的候选区域舍弃，最后将得分最高的N个候选区域选出来，与共享卷积层产生的Feature Map一同输入到ROI Align中；ROI Align找到每个候选区域对应的特征图后，将其送到三个分支中进行分类、bounding box 回归以及mask预测。

Mask R-CNN使用感兴趣区域（ROI）对齐在更精确的位置进行掩模，并在每个ROI中添加完全卷积网络（FCN）进行掩模分割，图像被缩减为主干网的输入，通过特征金字塔网络（FPN）创建特征图，输入所创建的特性映射到区域提议网络（RPN），输出二进制类和框增量，通过ROI对齐和全连接层（FC层）输出框回归和分类，并使用FCN掩蔽进行语义分割。

Mask分支对输入对象的空间布局进行编码，与全连接层折叠成短输出向量的类标签或框偏移不同，提取掩模的空间结构可以通过卷积提供的像素到像素的对应处理，使用FCN从每个RoI预测m×m掩模，使mask分支中的每一层维持明显的m×m对象空间布局，而不会将其折叠为缺少空间维度的向量表示，与以前使用FC层进行掩模预测的方法不同，完全卷积表示法需要更少的参数，并且识别棉花顶尖的结果更精确。

构建Mask R-CNN网络步骤如下：

（1）主干网络：Mask-RCNN使用Resnet101作为主干特征提取网络，如图3所示，对应着图像中的CNN部分，其对输入进来的图片有尺寸要求，需要可以整除2的6次方，在进行特征提取后，利用长宽压缩了两次、三次、四次、五次的特征层来进行特征金字塔结构的构造；

ResNet101有两个基本的块，分别名为Conv Block和Identity Block，其结构如图4、5所示，均为残差网络结构，其中Conv Block输入和输出的维度是不一样的，所以不能连续串联，它的作用是改变网络的维度；Identity Block输入维度和输出维度相同，可以串联，用于加深网络的；

（2）特征金字塔FPN的构建：特征金字塔FPN的构建是为了实现特征多尺度的融合，在Mask R-CNN当中，取出在主干特征提取网络中长宽压缩了两次C2、三次C3、四次C4、五次C5的结果来进行特征金字塔结构的构造，如图6所示；

提取到的P2、P3、P4、P5、P6可以作为RPN网络的有效特征层，利用RPN建议框网络对有效特征层进行下一步的操作，对先验框进行解码获得建议框；

提取到的P2、P3、P4、P5可以作为Classifier和Mask网络的有效特征层，利用Classifier预测框网络对有效特征层进行下一步的操作，对建议框解码获得最终预测框；利用Mask语义分割网络对有效特征层进行下一步的操作，获得每一个预测框内部的语义分割结果；

（3）获得Proposal建议框：由上一步获得的有效特征层在图像中就是FeatureMap，其有两个应用，一个是和ROIAsign结合使用、另一个是进入到Region ProposalNetwork进行建议框的获取；

在进行建议框获取的时候，使用的有效特征层是P2、P3、P4、P5、P6，它们使用同一个RPN建议框网络获取先验框调整参数，还有先验框内部是否包含物体，在Mask R-cnn中，RPN建议框网络的结构和Faster RCNN中的RPN建议框网络类似；首先进行一次3×3的通道数为512的卷积，然后再分别进行一次anchors_per_location×4的卷积和一次anchors_per_location×2的卷积；anchors_per_location×4的卷积用于预测公用特征层上每一个网格点上每一个先验框的变化情况；anchors_per_location×2的卷积用于预测公用特征层上每一个网格点上每一个预测框内部是否包含了物体；当输入的图像的shape是1024×1024×3的时候，公用特征层的shape就是256×256×256、128×128×256、64×64×256、32×32×256、16×16×256，相当于把输入进来的图像分割成不同大小的网格，然后每个网格默认存在3（anchors_per_location）个先验框，这些先验框有不同的大小；anchors_per_location×4的卷积的结果会对这些先验框进行调整，获得一个新的框，anchors_per_location×2的卷积会判断上述获得的新框是否包含物体；这些框会利用anchors_per_location×2的卷积判断是否存在棉花顶尖；

（4）Proposal建议框的解码：通过第二步获得了许多个先验框的预测结果；预测结果包含两部分：anchors_per_location×4的卷积用于预测有效特征层上每一个网格点上每一个先验框的变化情况，anchors_per_location×1的卷积用于预测有效特征层上每一个网格点上每一个预测框内部是否包含了棉花顶尖；相当于就是将整个图像分成若干个网格，然后从每个网格中心建立3个先验框，当输入的图像1024，1024，3的时候，总共先验框数量为196608+49152+12288+3072+768=261888，当输入图像shape不同时，先验框的数量也会发生改变；先验框虽然可以代表一定的框的位置信息与框的大小信息，但是其是有限的，无法表示任意情况，因此还需要调整；anchors_per_location×4中的anchors_per_location表示了这个网格点所包含的先验框数量，其中的4表示了框的中心与长宽的调整情况；

（5）对Proposal建议框加以利用（Roi Align）：在classifier模型里，会利用一次通道数为1024的7×7的卷积和一次通道数为1024的1×1的卷积对ROI Align获得的7×7×256的区域进行卷积，两次通道数为1024卷积用于模拟两次1024的全连接，然后再分别全连接到num_classes和num_classes×4上，分别代表这个建议框内的物体，以及这个建议框的调整参数；在mask模型里，其首先会对resize后的局部特征层进行四次3×3的256通道的卷积，再进行一次反卷积，再进行一次通道数为num_classes的卷积，最终结果代表每一个像素点分的类，最终的shape为28×28×num_classes，代表每个像素点的类别；

（6）预测框的解码：预测框的解码过程步骤：取出不属于棉花顶尖背景，并且得分大于config.DETECTION_MIN_CONFIDENCE的建议框；然后利用建议框和classifier模型的预测结果进行解码，获得最终预测框的位置；利用得分和最终预测框的位置进行非极大抑制，防止重复检测；

（7）mask语义分割信息的获取：由第（6）步获得了最终的预测框，这个预测框相比于之前获得的建议框更加准确，因此把这个预测框作为mask模型的区域截取部分，利用这个预测框对mask模型中用到的公用特征层进行截取；截取后，利用mask模型再对像素点进行分类，获得语义分割结果。

步骤5，将训练集输入到初始Mask R-CNN模型中进行训练，学习棉花顶尖目标特征。

训练时，将每个采样RoI上的多任务损失定义为：

为平均二进制交叉熵损失，对于与地面真值等级k相关的RoI，

仅在第k个掩码上定义（其他掩码输出不会导致损失）；

的定义使网络能够为每个等级生成mask分支，而不会在等级之间产生竞争；使用专用分类分支来预测用于选择输出掩码的类标签，这将使掩码和类预测解耦。

Mask R-CNN模型训练步骤如下：

（1）建议框网络的训练：公用特征层如果要获得建议框的预测结果，需要再进行一次3×3的卷积后，进行一个anchors_per_location×1通道的1×1卷积，还有一个anchors_per_location×4通道的1×1卷积；在训练的时候，需要计算loss函数，这个loss函数是相对于Mask R-CNN建议框网络的预测结果的，需要把图像输入到当前的Mask R-CNN建议框的网络中，得到建议框的结果；同时还需要进行编码，把真实框的位置信息格式转化为MaskR-CNN建议框预测结果的格式信息；

（2）Classiffier模型的训练：上一部分提供了RPN网络的loss，在Mask R-CNN的模型中，还需要对建议框进行调整获得最终的预测框；在classiffier模型中，建议框相当于是先验框，需要计算所有建议框和真实框的重合程度，并进行筛选，如果某个真实框和建议框的重合程度大于0.5，则认为该建议框为正样本，如果重合程度小于0.5，则认为该建议框为负样本；

（3）mask模型的训练：当利用建议框网络在mask模型需要用到的公用特征层进行截取的时候，截取的情况和真实框截下来的不一样，因此还需要计算用于截取的框相对于真实框的位置，获得正确的语义分割信息；计算真实框相对于建议框的位置；计算完成后利用这个相对位置对语义分割信息进行截取，获得正确的语义信息，从而完成模型的训练。

Claims

1.一种基于Mask R-CNN的棉花顶尖识别检测方法，其特征在于，包括以下步骤：

步骤1，采集不同条件下的棉花顶端图像；

步骤3，将样本集划分测试集和训练集；

步骤4，构建基于Mask R-CNN的棉花顶尖识别神经网络模型；

2.如权利要求1所述的一种基于Mask R-CNN的棉花顶尖识别检测方法，其特征在于，在步骤1中：采集棉花顶端在打顶期的不同时间光照、天气、角度等图像，确保样本多样性。

3.如权利要求1所述的一种基于Mask R-CNN的棉花顶尖识别检测方法，其特征在于，在步骤2中：为提高网络识别效果，需要对采集到的棉花顶端图像进行图像增强，将图像数据进行归一化、翻转变化、亮度变化、饱和度变化等生成新的数据集，提高识别精度并防止网络过拟合。

4.如权利要求1所述的一种基于Mask R-CNN的棉花顶尖识别检测方法，其特征在于，在步骤3中：将图像增强后的棉花顶端图像分为五等分，前三等分为训练集，后二等分为测试集。

5.如权利要求1所述的一种基于Mask R-CNN的棉花顶尖识别检测方法，其特征在于，在步骤4中：Mask R-CNN的结构主要有三部分：共享卷积层（backbone）、候选区域生成网络（RPN）、分类预测回归三分支（three branches）；首先由共享卷积层对全图提取特征，将得到的Feature Map送入RPN中；RPN网络在Feature Map中生成若干个候选域，并对其进行分类和定位操作，再利用非极大值抑制法将重叠的候选区域舍弃，最后将得分最高的N个候选区域选出来，与共享卷积层产生的Feature Map一同输入到ROI Align中；ROI Align找到每个候选区域对应的特征图后，将其送到三个分支中进行分类、bounding box回归以及mask预测；

6.如权利要求1所述的一种基于Mask R-CNN的棉花顶尖识别检测方法，其特征在于，在步骤5中：训练时，将每个采样RoI上的多任务损失定义为：

为平均二进制交叉熵损失，对于与地面真值等级k相关的RoI，

仅在第k个掩码上定义（其他掩码输出不会导致损失）；

的定义使网络能够为每个等级生成mask分支，而不会在等级之间产生竞争，使用专用分类分支来预测用于选择输出掩码的类标签，这将使掩码和类预测解耦；