CN110619632B

CN110619632B - 一种基于Mask R-CNN的芒果实例对抗分割方法

Info

Publication number: CN110619632B
Application number: CN201910882496.2A
Authority: CN
Inventors: 薛月菊; 陈畅新; 李诗梅; 黄思民; 甘海明; 王卫星
Original assignee: South China Agricultural University
Current assignee: South China Agricultural University
Priority date: 2019-09-18
Filing date: 2019-09-18
Publication date: 2022-01-11
Anticipated expiration: 2039-09-18
Also published as: CN110619632A

Abstract

本发明公开了一种基于Mask R‑CNN的芒果实例对抗分割方法，包括：建立自然场景下的芒果分割数据集；构建基于Mask R‑CNN的分割网络；将构建的所述Mask R‑CNN分割网络视为生成网络，在其Mask分支上添加一个判别网络；所述生成网络从输入图像中得到芒果的预测实例掩膜；所述判别网络的输入为Real或Fake的芒果实例；将SmoothL1+IOU Loss替换Mask分支原来的二值交叉熵；所述生成网络与判别网络以交替对抗的策略进行优化训练，从而形成对抗网络模型；将训练后的所述对抗网络模型，进行芒果果实的实例分割，检测和分割的指标都得到了明显的提高。

Description

一种基于Mask R-CNN的芒果实例对抗分割方法

技术领域

本发明涉及农业计算机视觉的果实分割技术领域，具体涉及了一种基于Mask R-CNN的芒果实例对抗分割方法。

背景技术

芒果是人们日常生活中常见的水果之一。近年来，随着世界芒果栽培面积不断扩大，产量逐年上升，芒果已成为世界五大水果之一。其中，中国是世界芒果收获面积第二大的国家，占17％。芒果在我国果业发展中占有重要地位。但农业劳动力日益紧缺，亟待提高果园的机械自动化水平。而果实的实例分割是果园机械自动化的重要前提。

在水果检测与分割方面，目前主要采用传统的机器学习方法和深度卷积神经网络。公开号CN108470339A公开了一种基于区域生长的重叠苹果分割方法。公开号CN110110687A公开了一种利用距离信息和水果的三维轮廓信息实现对点云团中每个水果的逐一分割方法。公开号CN108805893A公开了一种通过改进的R分量彩色图像圆锥分割方法对苹果图像进行初次分割，并在此基础上选取最佳阈值进行二次分割的方法。近年基于深度学习的果实分割方法相继被公开。公开号CN107593113A公开了一种基于全卷积网络来对水果进行识别、定位和分割的智能水果采摘机器人。公开号CN109377487A公开了一种利用卷积神经网络进行分割的水果表面缺陷检测方法。公开号CN109711325A公开了一种芒果采摘点识别方法：首先利用开源的Mask R-CNN进行芒果果实实例分割，进而分割果实上部的枝干，利用果实与果杆的空间关系确定采摘点。但，芒果果实的颜色与背景颜色相近，果园环境复杂，果实被枝叶遮挡、果实重叠、光照不均等，影响了果实实例分割的精度。目前基于深度卷积神经网络的果实实例分割研究仍然较少，并且分割精度不高。

因此，如何对果实进行准确的实例分割，提高分割精度，是同行业从业人员亟待解决的问题。

发明内容

鉴于上述问题，本发明提供一种基于Mask R-CNN的芒果实例对抗分割方法：在Mask分支中添加一个多尺寸特征融合判别网络，与Mask R-CNN网络形成对抗网络，二者以交替对抗的策略进行优化训练。最后再利用改进后的模型进行芒果果实的实例分割，解决自然果园场景下果实表皮光照不均、枝叶遮挡、果实重叠、芒果目标过小导致的检测分割难题。

本发明实施例提供一种基于Mask R-CNN的芒果实例对抗分割方法，包括：

S1、建立自然场景下的芒果分割数据集；

S2、构建基于Mask R-CNN的分割网络；

S3、将构建的所述Mask R-CNN分割网络视为生成网络，在其Mask分支上添加一个判别网络；所述生成网络从输入图像中得到芒果的预测实例掩膜；所述判别网络的输入为Real或Fake的芒果实例；将SmoothL1+IOU Loss替换Mask分支原来的二值交叉熵；

S4、所述生成网络与判别网络以交替对抗的策略进行优化训练，从而形成对抗网络模型；

S5、将训练后的所述对抗网络模型，进行芒果果实的实例分割。

在一个实施例中，所述步骤S1包括：

S11、采集果园自然环境下的芒果数据：采集未成熟芒果的彩色图像，所述彩色图像包括芒果表皮光照不均、枝叶遮挡和果实重叠图像；

S12、数据标注：对图像中的每个芒果进行实例分割标注；

S13、划分芒果数据集：将标注后的数据按照预设比例构建训练集、验证集和测试集；

S14、数据扩充：对构建的训练集图像进行亮度调节、水平翻转、垂直翻转和对比度增强四种操作扩充数据集。

在一个实施例中，所述步骤S2，包括：

S21、构建基础的Mask R-CNN网络，基础骨干网络选择ResNet50+FPN；相应地调整网络输出类别、预设锚点框比例和初始学习率；

S22、将测试阶段RPN在非极大抑制前保留的正样本框上限及在非极大抑制后的正样本框上限，进行适应调整。

在一个实施例中，所述步骤S3中Fake芒果实例图像构建过程，包括：

S3111、根据RPN输出的锚点框修正值，以得到原始输入图像尺寸的正样本框；根据所述正样本框通过Mask R-CNN中ROI Align层映射到基础骨干网络输出的特征图后，得到尺寸为14×14的ROI；将所述ROI中前景值大于预设阈值的区域输入到原始的Mask分支网络，得到28×28的预测掩膜图像；

S3112、查找每个所述ROI中前景值大于预设阈值的区域所对应的原始输入图像的锚点框坐标，根据所述坐标在原始输入图像中裁剪出对应区域，再统一缩放至28×28，得到基于原图的归一化候选区域；

S3113、对所述预测掩膜图像进行sigmoid激活，将其值映射到[0,1]范围内；与所述基于原图的归一化候选区域进行点乘操作，得到Fake芒果实例。

在一个实施例中，所述步骤S3中Real芒果实例图像构建过程，包括：

S3121、根据S3111的步骤，查找每个所述ROI中前景值大于预设阈值的区域所对应的原始输入图像的锚点框坐标，将所述坐标在原始标注掩膜中裁剪出对应区域，并且缩放至28×28，得到真实二值掩膜；

S3122、将所述真实二值掩膜与S3112步骤中得到的基于原图的归一化候选区域进行点乘操作，得到Real芒果实例。

在一个实施例中，所述步骤S3中将构建的所述Mask R-CNN分割网络视为生成网络，在其Mask分支上添加一个判别网络，包括：

S321、生成网络的结构为原始的Mask R-CNN结构；判别网络的结构为四层卷积层，滤波核大小依次为4×4、4×4、3×3、3×3，输出通道数依次为64、128、256、512；

S322、将所述判别网络每层卷积层输出的特征图维度从S_n×S_n×C_n平铺为1×1×D_n；其中S代表每层卷积层输出的特征图尺寸，C代表每层卷积层的输出通道数，D代表特征图平铺后的通道数，n取值为1～4，代表卷积层输出的第1～4个特征矩阵；

S323、对所述判别网络的输入图像In以及四个平铺后的特征矩阵F_1～4在通道的维度上进行拼接融合，拼接的各个值为：

In，λ₁*F₁，λ₂*F₂，λ₃*F₃，λ₄*F₄

其中为每个特征矩阵分配一个乘法因子λ，λ₁～λ₃取值为2，λ₄取值为4。

在一个实施例中，所述步骤S3中SmoothL1损失计算公式为公式(1)，式中的参数δ用来控制平滑的区域，取值为1:

单个样本的IOU损失计算公式(2)为：

(1)(2)式中M_pred表示模型预测的掩膜，M_gt表示标注的掩膜；

Mask分支的联合损失如公式(3)所示：

L_Mask＝smoothL1_Loss+IOU_Loss (3)

判别网络的目的是最大化L_Mask损失，生成网络的目的是最小化L_Mask损失。

在一个实施例中，所述步骤S4，包括：

1)固定所述生成网络参数不变；

2)采用Adam优化算法更新一次判别网络，并且将更新后的判别网络参数权重裁剪至[-0.03,0.03]；

3)固定更新后的判别网络参数不变，进行一次前向传播；

4)将得到的损失值与分类分支、检测框回归分支以及RPN部分的损失值合并到一起，进行并行优化训练，以更新生成网络的参数；

5)重复执行上述步骤1)～4)，直至训练损失完全收敛。

本发明实施例提供的上述技术方案的有益效果至少包括：

本发明实施例提供的一种基于Mask R-CNN的芒果实例对抗分割方法：

1、将原始Mask R-CNN网络结构视为生成网络，并在Mask分支上额外添加一个多尺寸特征融合判别网络，生成网络与判别网络二者以交替对抗的策略进行优化训练，形成更高精度实例对抗分割网络。

2、提出新的对抗损失，即联合smoothL1+IOU损失。其中smoothL1损失结合了L1损失对离群点鲁棒、L2损失梯度能动态减小的优点。联合IOU可以使smoothL1在度量Real和Fake芒果实例差异性的同时考虑掩膜的完整性。

3、训练改进后的Mask R-CNN模型，用于自然果园场景下的芒果实例分割。在面对芒果表皮光照不均、枝叶遮挡、果实重叠及小目标的情况下，检测和分割的指标都得到了明显的提高。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例提供的基于Mask R-CNN的芒果实例对抗分割方法流程图；

图2为本发明实施例提供的步骤S1的流程图；

图3为本发明实施例提供的步骤S2的流程图；

图4为本发明实施例提供的基于Mask R-CNN的芒果实例对抗分割网络整体结构图；

图5为本发明实施例提供的Image Proposals获取示例图；

图6为本发明实施例提供的判别网络结构图；

图7展示了Mask分支训练过程中，某一张图像的预测掩膜、标注掩膜、对应的ImageProposals、Fake芒果实例及Real芒果实例的可视化结果；

图8a为本发明实施例提供的训练总损失的迭代曲线图；

图8b为本发明实施例提供的Mask分支损失的迭代曲线图；

图8c为本发明实施例提供的分类分支损失的迭代曲线图；

图8d为本发明实施例提供的检测框回归分支损失的迭代曲线图；

图9a为本发明实施例提供的小目标测试集的分割结果示意图；

图9b为本发明实施例提供的枝叶遮挡测试集的分割结果示意图；

图9c为本发明实施例提供的果实重叠测试集的分割结果示意图；

图9d为本发明实施例提供的光照不均测试集的分割结果示意图；

图9e为本发明实施例提供的整图实例分割结果示例1示意图；

图9f为本发明实施例提供的整图实例分割结果示例2示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

参照图1所示，本发明实施例提供的基于Mask R-CNN的芒果实例对抗分割方法，包括：S1～S5；

S1、建立自然场景下的芒果分割数据集；

S2、构建基于Mask R-CNN的分割网络；

S3、将构建的所述Mask R-CNN分割网络视为生成网络，在其Mask分支上添加一个判别网络；所述生成网络从输入图像中得到芒果的预测实例掩膜；所述判别网络的输入为Real或Fake芒果实例；将SmoothL1+IOU Loss替换Mask分支原来的二值交叉熵；

本实施例中，将原始Mask R-CNN网络结构视为生成网络，并在Mask分支上额外添加一个多尺寸特征融合判别网络，将SmoothL1+IOU Loss替换Mask分支原来的二值交叉熵；二者以交替对抗的策略进行优化训练，形成更高精度实例分割对抗网络。其中smoothL1损失结合了L1损失对离群点鲁棒、L2损失梯度能动态减小的优点。联合IOU可以使smoothL1在度量Real和Fake芒果实例的同时考虑掩膜的完整性。训练改进后的Mask R-CNN模型，用于自然果园场景下的芒果实例分割。在面对芒果表皮光照不均、枝叶遮挡、果实重叠及小目标的情况下，检测和分割的指标都得到了明显的提高。

下面分别对上述各个步骤进行详细的说明。

参照图2所示，上述步骤S1包括：

S11、采集果园自然环境下的芒果数据：采集未成熟芒果的彩色图像，所述彩色图像包括芒果表皮光照不均、枝叶遮挡和果实重叠图像；即包括芒果表皮光照不均、枝叶遮挡、果实重叠三种情况；

S12、数据标注：对图像中的每个芒果进行实例分割标注；

S13、划分芒果数据集：将标注后的数据按照预设比例构建训练集、验证集和测试集；随机挑选上述操作得到的数据集比如以5：1：2的比例，构建训练集、验证集和测试集；

上述步骤S2中构建基于Mask R-CNN的分割网络；参照图3所示，包括如下：

上述步骤S21中构建基础的Mask R-CNN网络，基础骨干网络选择ResNet50+FPN；具体到本实施例中，数据集中只考虑背景类和芒果类，故将网络输出类别数从81更改为2；比如为了贴合芒果的长宽比例，将RPN部分的预设锚点框长宽比例从[0.5,1,2]修改为[0.8,1,1.25]，锚点框大小从[32,64,128,256,512]修改为[32,64,128,256,384]；模型的初始学习率设置为0.005，学习率衰减因子为0.1，每迭代2万次更新一次学习率，最大迭代次数设置为5万次，每迭代5000次保存一个模型；模型在读取训练图像时将像素大小统一缩放至1275×800；

其中，适应调整，比如将测试阶段RPN在非极大抑制前保留的正样本框上限从1000修改为600，在非极大抑制后的正样本框上限从1000修改为100，此举几乎不会对实验结果造成影响，但能加快测试速度。

上述步骤S3中，将原始的Mask R-CNN网络视为生成网络，并在其Mask分支上额外添加一个判别网络，参照图4所示，即多尺寸特征融合判别网络，其输入为Real或Fake芒果实例；生成网络则是从输入图像中得到芒果的预测实例掩膜。设计新的联合SmoothL1+IOULoss以替换Mask分支原来的二值交叉熵；判别网络的目的是最大化该损失，而生成网络则需要最小化该损失。二者以交替对抗的策略进行优化训练，从而形成对抗分割网络。

其中，S3包括：S31～S33：

S31、构建判别网络的输入图像：Fake芒果实例和Real芒果实例；

S311、构建Fake芒果实例图像；

S3111、根据RPN输出的锚点框修正值，可以得到原始输入图像尺寸的正样本框，这些正样本框通过Mask R-CNN中ROI Align层映射到基础骨干网络输出的特征图后，得到尺寸为14×14的ROI(感兴趣区域)。比如前景阈值为0.5，当ROI Heads中设定的前景值大于前景阈值0.5时，即视为有效的ROI；从中挑选出有效的ROI输入到原始的Mask分支网络，得到28×28的预测掩膜图像；

其中，RPN(区域候选网络)会基于原始输入图像生成众多的锚点框，通过和人工标注的目标框进行交并比筛选后挑出候选锚点框，这部分候选锚点框通过ROI Align层映射到基础网络输出的特征图后，得到一系列候选ROI，这部分ROI再通过比如大于0.5的前景阈值筛选出有效ROI，而有效ROI就会作为Mask分支的输入。

S3112、根据S3111的步骤，找到每个有效ROI对应到原始输入图像的锚点框坐标，并将这些坐标在原始输入图像中裁剪出对应区域，再统一缩放至28×28，得到ImageProposals，即：基于原图的归一化候选区域；如图5所示。

S3113、对S3111步骤中得到的预测掩膜图像进行sigmoid激活，使其值映射到[0,1]范围内，再与S3112步骤中得到的Image Proposals进行点乘操作，得到Fake芒果实例。

S312、构建Real芒果实例图像；

S3121、根据S3111的步骤，找到每个有效ROI对应到原始输入图像的锚点框坐标，并将这些坐标在原始标注掩膜中裁剪出对应区域，并且缩放至28×28，得到真实二值掩膜；

S3122、将S3121步骤中得到的真实二值掩膜与S3112步骤中得到的ImageProposals进行点乘操作，得到Real芒果实例；

S32、构建多尺寸特征融合判别网络；

S321、生成网络的结构即为原始的Mask R-CNN结构；判别网络的结构为四层卷积层，参照图6所示，滤波核大小依次为4×4、4×4、3×3、3×3，输出通道数依次为64、128、256、512；

S322、将判别网络每层卷积层输出的特征图维度从S_n×S_n×C_n平铺为1×1×D_n，其中S代表每层卷积层输出的特征图尺寸，C代表每层卷积层的输出通道数，D代表特征图平铺后的通道数，n取值为1～4，代表卷积层输出的第1～4个特征矩阵；

S323、对判别网络的输入图像In以及四个平铺后的特征矩阵F_1～4在通道的维度上进行拼接融合，拼接的各个值为：

In，λ₁*F₁，λ₂*F₂，λ₃*F₃，λ₄*F₄

其中为每个特征矩阵分配一个乘法因子λ，λ₁～λ₃取值为2，λ₄取值为4，高维的特征矩阵分配更大的乘法因子，用以平衡各层特征的损失；

S324、本发明提出新的对抗损失，即把Mask分支的损失函数从二值交叉熵替换为SmoothL1+IOU Loss。其中SmoothL1损失结合了L1损失对离群点鲁棒、L2损失梯度能动态减小的优点，用以度量预测值和真实值的距离，结合IOU损失能使网络在度量矩阵距离的同时考虑掩膜的完整性。其中，SmoothL1损失计算公式为公式(1)，式中的参数δ用来控制平滑的区域，取值为1:

单个样本的IOU损失计算公式(2)为：

式中M_pred表示模型预测的掩膜，M_gt表示标注的掩膜。

因此，Mask分支的联合损失如公式(3)所示：

L_Mask＝smoothL1_Loss+IOU_Loss (3)

针对上述提到的L_Mask损失，判别网络的目的是最大化该损失，生成网络则相反，需要最小化该损失。二者以交替对抗的策略进行优化训练，从而形成对抗分割网络；

S33、训练对抗网络的一些细节，具体步骤表现为：首先固定生成网络参数不变，然后采用Adam优化算法更新一次判别网络，并且将更新后的判别网络参数权重裁剪至[-0.03,0.03]；再固定判别网络参数不变，进行一次前向传播，将得到的损失值与分类分支、检测框回归分支以及RPN部分的损失值合并到一起，进行并行优化训练，以更新生成网络的参数；重复执行上述步骤，直至训练损失完全收敛。

训练初期，生成网络和判别网络相互对抗，损失逐渐降低但不稳定；训练后期，判别网络已经难以再最大化目标损失，这种情况下损失趋于稳定，能够收敛到最低值。

S331、其中，分类分支的损失为所有类别的交叉熵损失，如公式(4)所示：

其中X代表预测类别的得分值，label表示类别索引。

检测框回归分支的损失采用公式(5)的SmoothL1损失：

RPN部分的损失包括分类损失和检测框回归损失，其中分类部分为简单的二分类问题，用以判断目标为前景或背景。因此分类损失采用二值交叉熵损失，如公式(6)所示：

式中y表示样本标签，取值为0或1，

表示预测为正例的概率。

RPN部分的检测框回归损失同样采用公式(7)中的SmoothL1损失，唯一不同的是式中的δ取为1/9。

因此，模型优化的总损失L_Total如公式(8)所示：

L_Total＝L_Mask+L_Class+L_Box+L_{RPN_Box}+L_{RPN_Class} (8)

S332、训练过程中，为了提高Mask分支的性能，一张图像会存在多个有效的正样本框，这些框并非全部都能完全框住芒果目标，很多只能框住芒果的局部，如图7所示。这样训练出来的Mask分支具有更强的分割鲁棒性；

S333、由于生成网络的参数是Mask分支、分类分支、检测框回归分支以及RPN部分的损失值合并后进行并行优化训练完成更新的，因此融合对抗网络后，当Mask分支的损失值降得比以往的二值交叉熵更低时，就会导致其他分支在训练时占据更大的优化权重，最终模型的检测和分割性能都得到了提升，具体见图8a-8d；

S4、利用已训练好的基于Mask R-CNN的实例对抗分割模型，进行芒果果实的实例分割；

S41、根据验证集从训练好的模型中选取最佳的模型进行测试。添加的多尺寸特征融合判别网络只在训练阶段辅助原始的Mask R-CNN网络提升性能，在测试阶段将不会被调用，因此融合对抗网络不会增加额外的测试时间。在读取测试图像时，模型同样会把图像的像素大小统一缩放至1275×800。

S42、在测试集上进行芒果的实例分割和结果统计。其中包括芒果表皮光照不均、枝叶遮挡、果实重叠、小目标的情况，可视化结果见图9a-9d。

为了进一步说明本发明提供的基于Mask R-CNN的芒果果实实例对抗分割方法，再次列举一个具体实施例：

本实验的数据采集来源于广东省云浮市、肇庆市和湛江市芒果果园，大概有300株芒果树。使用佳能EOS800D单反相机和高清摄像手机，距离树冠1-2米，按东南西北4个不同方向、采集芒果采摘期间的绿色芒果图像共1608张。图像采集时的天气包括晴天、多云和阴天，采集时段为8:00-18:00，涵盖了顺光、逆光与侧光等可能的光照情况。果园生长茂盛，使芒果数据集涵盖了多种不同程度的枝叶遮挡和果实重叠情况。

从数据集中挑选1008张作为训练集，再从剩下的600张图像中挑选200张作为验证集，剩下的400张作为测试集，如表1所示。其中102、179、164张图像分别作为光照不均、枝叶遮挡、果实重叠测试数据集。此外，对图像中的芒果目标进行尺寸估计，根据芒果个体占图像像素面积划分为小中大三个等级：16×22～36×44范围内为小目标，36×44～86×98为中目标，86×98以上为大目标。

表1芒果数据集

数据集	原始数据(张)	数据扩充(张)	有效目标(个)
				训练集	1008	5040	29712
验证集	200	0	1069
				测试集	400	0	2483

实验采用32GB内存、Nvidia GTX Titan X型号的GPU、

Xeon(R)CPU E3-1245v3@3.40GHz处理器的硬件平台和Ubuntu16.04操作系统。在PyTorch1.0深度学习框架上，采用Python3.6作为编程语言实现本发明果实实例对抗分割方法。

1、训练基于Mask R-CNN的芒果实例对抗分割网络

将训练的初始学习率设置为0.005，学习率衰减因子为0.1，每迭代20000次更新一次学习率，最大迭代次数设置为50000次。综合分割的AP和AR考虑后，本发明采用Adam优化器进行优化。关于优化方法的选择，三种不同优化方法的比较结果见表2：

表2不同优化方法的分割统计结果

优化方法		AP<sub>50</sub>	AP<sub>75</sub>
					SGD	0.850	0.961	0.941	0.880
RMSprop	0.848	0.960	0.941	0.880
					Adam	0.851	0.960	0.941	0.881

根据验证集的分割AP，从训练好的模型中选取最佳的模型进行测试，选择了迭代到45000次的模型，分别在各个测试集上测试并统计。采用COCO数据集的评价标准。实验结果表明：本发明改进后的模型提升明显，包括检测和分割的各项指标都有提升。

这是因为生成网络的参数是Mask分支、分类分支、检测框回归分支以及RPN部分的损失值合并后进行并行优化训练完成更新的，因此融合对抗网络后，当Mask分支的联合SmoothL1+IOU损失值在后期降得比以往的二值交叉熵更低时，参见图8所示，就会导致其他分支在训练时占据更大的优化权重，从而使分类精度及检测框回归效果更好。总测试集的统计结果如表3所示，分割准确率AP达到85.1％，召回率AR达到88.1％。检测框的AP达到82.6％，AR达到86.2％。

表3总测试集的统计结果

对总测试集中的小中大三个等级的芒果目标进行评估，AP_s、AP_m、Ap_l、AR_s、AP_m、AR_l分别表示小、中、大三个芒果尺寸的分割准确率及召回率，统计结果如表4所示：

表4小中大芒果目标的分割统计结果

方法	AP<sub>s</sub>	AP<sub>m</sub>	AP<sub>l</sub>	AR<sub>s</sub>	AR<sub>m</sub>	AR<sub>l</sub>
							Mask R-CNN	0.589	0.779	0.919	0.677	0.824	0.939
Ours	0.683	0.805	0.925	0.793	0.849	0.942

2、不同的损失函数比较

本发明采用联合的SmoothL1+IOU损失。关于对抗损失函数的设计，六种不同的损失函数比较结果见表5，可以看出，对比L1和L2损失函数，本发明设计的SmoothL1+IOU损失函数能获得最高的实例分割精度。

表5不同损失函数的分割统计结果

损失函数		AP<sub>50</sub>	AP<sub>75</sub>
					L1	0.836	0.938	0.924	0.864
L2	0.835	0.940	0.931	0.862
					SmoothL1	0.837	0.945	0.934	0.865
L1+IOU	0.847	0.951	0.940	0.880
					L2+IOU	0.848	0.959	0.940	0.879
SmoothL1+IOU	0.851	0.960	0.941	0.881

3、小目标实例分割结果

对于总测试集中芒果目标小中大三种情况，主要针对小目标展开讨论。将图像中芒果目标所占的像素面积处于16×22～36×44范围内的划分为小目标。小目标的特点包括距离拍摄镜头较远、位于图像视野较远处、或者芒果个体本身较小，以及被枝叶遮挡后暴露的局部区域。

小目标的检测存在较大的挑战。由于目标本身过小，受到枝叶等复杂环境的影响就会更大，因此很难准确地检测出来。而检测出来后，由于小目标通常是在最低维的特征图中提取出ROI，但即便是最低维的特征图，也已经丢失了很多细节信息，因此难以保留准确的边缘信息，这给果实边缘的分割带来很大困难。边缘处的分割误差很容易导致分割的准确率大幅下降。因此针对小目标分割的问题，对细节特征的学习就显得更加重要。

本发明的模型在小目标数据集上的分割AP达到68.3％，对比原始的Mask R-CNN模型提升了9.4％；AR达到79.3％，提升了11.6％，详见表4。但相对于其他数据集而言精度仍然偏低。关于小目标情况的检测和分割可视化结果见图9a所示。

4、芒果受干扰场景下的实例分割结果

芒果表皮的光照不均问题、芒果受枝叶遮挡，以及果实相互重叠的情况，也给分割带来了困难。下面分别针对上述三种情况展开讨论。

4.1、枝叶遮挡

果园自然环境下的芒果常常会被凌乱分布的枝干和树叶遮挡给分割任务带来了挑战。

表6展示了枝叶遮挡测试集的统计结果，部分分割结果图例如图9b所示。实验结果表明，本发明的模型在处理枝叶遮挡的问题上，分割的准确率和召回率分别得到3.5％、4.8％的提升，检测框回归的准确率和召回率分别得到3.6％、3.7％的提升。

表6枝叶遮挡测试集的统计结果

4.2、果实重叠

果实重叠在实际场景下非常常见，尤其是成簇生长的果实。在模型的训练阶段，RPN生成的检测框内往往框住不止一个芒果，同时还会存在其他被遮挡的芒果，这给Mask分支的训练带来困难。想让模型准确地分割出框内的主体芒果是非常困难的，模型往往会同时把框内的所有芒果都分割出来。因此，学习芒果的边缘特征就显得尤为必要。

原始Mask分支设计的二值交叉熵损失目的在于减小两张二值掩膜图像的差异性，但其很难使模型学习到芒果准确的边缘信息。对于果实重叠的问题更是如此，它更多的是减小框内非主体芒果的预测掩膜面积。而本发明设计的判别网络直接对输入的RGB芒果实例进行特征学习，因此可以直接学习到两个重叠芒果边缘处的特征。并且通过对抗的训练方式，在处理果实重叠问题时会逐渐分配更大的权重在边缘特征上。

实验结果如表7所示。本发明模型在处理果实重叠的问题上，分割的准确率和召回率分别得到3.2％、2.0％的提升，检测框回归的准确率和召回率分别得到2.9％、2.0％的提升。可视化结果见图9c。

表7果实重叠测试集的统计结果

4.3、光照不均

本发明设计的数据集中同样涵盖了这种光照不均的图像，包括多种不同情况下的光照不均：强自然光、部分曝光、枝叶遮挡、伴有枝叶的阴影等。

实验结果表明，本发明模型在处理光照不均的问题上，分割的准确率和召回率分别得到2.6％、2.5％的提升，检测框回归的准确率和召回率分别得到2.2％、2.3％的提升。通过本发明设计的对抗网络及多尺寸融合特征损失，模型较好地学习到了曝光面的特征。具体的检测及分割统计结果如表8所示，可视化结果见图9d。

表8光照不均测试集的统计结果

图9a～9d皆为原图中截取出来的局部区域，图9e、图9f展示了两张完整测试图像的检测及实例分割结果。这两张图像涵盖了上述提到的小目标、枝叶遮挡、果实重叠及光照不均的情况，是较为完整的结果展示。

5、实例分割速度比较

由于测试阶段对抗网络没有被调用，因此融合对抗网络没有增加额外的测试时间，仅在训练阶段增加了耗时。由于调整了RPN在测试阶段的正样本框上限，因此略微加快了测试速度。表9对比了改进后的模型和原始模型在训练及测试阶段所消耗的时间。

表9模型训练及测试阶段耗时

本发明与现有技术相比，具有如下优点和有益效果：

1、将原始Mask R-CNN网络结构视为生成网络，并在Mask分支上额外添加一个多尺寸特征融合判别网络，二者以交替对抗的策略进行优化训练，形成更高精度实例分割对抗网络。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于Mask R-CNN的芒果实例对抗分割方法，其特征在于，包括：

S1、建立自然场景下的芒果分割数据集；

S2、构建基于Mask R-CNN的分割网络；

S3、将构建的所述Mask R-CNN分割网络视为生成网络，在其Mask分支上添加一个判别网络；所述生成网络从输入图像中得到芒果的预测实例掩膜；所述判别网络的输入为Real和Fake芒果实例；将SmoothL1+IOU Loss替换Mask分支原来的二值交叉熵；

2.如权利要求1所述的方法，其特征在于，所述步骤S1包括：

S12、数据标注：对图像中的每个芒果进行实例分割标注；

3.如权利要求1所述的方法，其特征在于，所述步骤S2，包括：

4.如权利要求1所述的方法，其特征在于，所述步骤S3中Fake芒果实例图像构建过程，包括：

S3111、根据RPN输出的锚点框修正值，以得到原始输入图像尺寸的正样本框；根据所述正样本框通过Mask R-CNN中ROIAlign层映射到基础骨干网络输出的特征图后，得到尺寸为14×14的ROI；将所述ROI中前景值大于预设阈值的区域输入到原始的Mask分支网络，得到28×28的预测掩膜图像；

5.如权利要求4所述的方法，其特征在于，所述步骤S3中Real芒果实例图像构建过程，包括：

6.如权利要求1所述的方法，其特征在于，所述步骤S3中将构建的所述Mask R-CNN分割网络视为生成网络，在其Mask分支上添加一个判别网络，包括：

In，λ₁*F₁，λ₂*F₂，λ₃*F₃，λ₄*F₄

7.如权利要求1所述的方法，其特征在于，所述步骤S3中SmoothL1损失计算公式为公式(1)，式中的参数δ用来控制平滑的区域，取值为1:

单个样本的IOU损失计算公式(2)为：

(1)(2)式中M_pred表示模型预测的掩膜，M_gt表示标注的掩膜；

Mask分支的联合损失如公式(3)所示：

L_Mask＝smoothL1_Loss+IOU_Loss (3)

8.如权利要求1所述的方法，其特征在于，所述步骤S4，包括：

1)固定所述生成网络参数不变；

3)固定更新后的判别网络参数不变，进行一次前向传播；

5)重复执行上述步骤1)～4)，直至训练损失完全收敛。