CN114511627A

CN114511627A - 一种目标果实定位分割方法及系统

Info

Publication number: CN114511627A
Application number: CN202111581979.2A
Authority: CN
Inventors: 贾伟宽; 魏金梦; 卢宇琪; 张为可; 丁艳辉
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2022-05-17

Abstract

本发明提供了一种目标果实定位分割方法，包括获取目标果实图像；通过对获取的目标果实图像进行图像特征提取，通过FPN进行特征融合后，生成特征图；根据生成的特征图，利用回归分支生成类别置信度和回归框，进而由掩码分支预测生成初始的分割掩码；根据初始的分割掩码，基于Mask RCNN模型得到目标果实的位置信息和粗糙掩码分割结果。本发明通过主干网络和后处理模块解决了在果园复杂环境下，对目标果实识别精确度低、掩码边缘粗糙的问题，满足了采摘机器人实时作业的需求。

Description

一种目标果实定位分割方法及系统

技术领域

本发明涉及智慧农业与人工智能技术领域，尤其涉及一种目标果实定位分割方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

农业机器人的研发对于解放劳动力，扩大生产规模，实现自动化的生产管理具有重要意义。而视觉系统作为采摘机器人的关键技术，直接影响机器人对目标果实的实时采摘效率。但是在真实果园环境下识别目标果实，往往伴随着枝叶遮挡、果实粘连、夜间光线不清晰和目标果实与叶片同色系等因素，给目标果实的识别过程带来巨大的挑战。

在研究初期，多数研究方法基于机器学习来实现目标果实的识别，也取得了可喜的成果，为计算机视觉打下了坚实的研究基础。然而基于机器学习的研究方法通常针对果实的纹理特征、形状大小和颜色进行识别。在复杂果园环境下，目标果实通常由于遮挡、重叠导致其纹理特征不完整，使识别精确度大大下降。

基于深度学习的方法以端到端的处理过程，能够处理更复杂的问题。但是依然存在着诸多问题：多数方法对目标果实的识别精确度仍然达不到实际应用的需求，对于目标果实的掩码分割也较为粗糙，导致对目标果实的识别精确度和掩码的分割质量较低，泛化能力较差。

发明内容

本发明为了解决上述问题，提出了一种目标果实定位分割方法及系统，本发明能够解决果园环境下枝叶遮挡、果实粘连、与背景叶片同色系等问题。

根据一些实施例，本发明采用如下技术方案：

一种目标果实定位分割方法，包括：

获取目标果实图像；

通过对获取的目标果实图像进行图像特征提取，进而通过FPN进行特征融合后，生成特征图；

根据生成的特征图，利用回归分支生成类别置信度和回归框，进而由掩码分支预测生成初始的分割掩码；

根据初始的分割掩码，基于Mask RCNN模型得到目标果实的位置信息和粗糙掩码分割结果。

进一步地，所述获取目标果实图像，包括采集不同角度、不同距离、不同时间段的目标果实图像，通过标注目标果实图像制作生成数据集。

进一步地，所述通过对获取的目标果实图像进行图像特征提取，包括通过CBNetV2进行图像特征提取，所述通过FPN进行特征融合，包括利用特征金字塔网络FPN按照自顶向下与横向连接的方式进行特征融合。

进一步地，所述利用回归分支生成类别置信度和回归框，进而由掩码分支预测生成初始的分割掩码，包括将生成的特征图经过区域生成网络RPN在特征图中生成候选区域，并对每个候选区域进行候选框回归操作和类别区分。

进一步地，所述利用回归分支生成类别置信度和回归框，进而由掩码分支预测生成初始的分割掩码，还包括对于候选区域进行特征对齐后，经过全连接层进行边界框回归和类别预测。

进一步地，所述利用回归分支生成类别置信度和回归框，进而由掩码分支预测生成初始的分割掩码，还包括，添加额外的掩码分支对候选区域进行语义分割，生成初始的分割掩码。

进一步地，所述基于Mask RCNN模型得到目标果实的位置信息和粗糙掩码分割结果，包括利用后处理模块BPR对初始的分割掩码的边界处进行优化，在初始的分割掩码边缘提取许多个边界块作为优化网络的输入，最后输出优化后的掩码块。

一种目标果实定位分割系统，包括：

图像获取模块，被配置为，获取目标果实图像；

特征模块，被配置为，通过对获取的目标果实图像进行图像特征提取，进而通过FPN进行特征融合后，生成特征图；

分割模块，被配置为，根据生成的特征图，利用回归分支生成类别置信度和回归框，进而由掩码分支预测生成初始的分割掩码；

优化模块，被配置为，根据初始的分割掩码，基于Mask RCNN模型得到目标果实的位置信息和粗糙掩码分割结果。

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行所述的一种目标果实定位分割方法。

一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行所述的一种目标果实定位分割方法。

与现有技术相比，本发明的有益效果为：

本发明通过主干网络和后处理模块解决了在果园复杂环境下，对目标果实识别精确度低、掩码边缘粗糙的问题，满足了采摘机器人实时作业的需求。

本发明采用CBNetV2主干网络，无需额外的预训练，节省了大量的计算资源。且本发明具有较强的泛化能力，能够有效部署到其它的农业相关领域，如果实套袋、产量预估和病虫害预警等。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1是本实施例1的流程图；

图2是本实施例1的果园环境下采集的不同条件状态下的绿色果实图像；

图3是本实施例1的CBNetV2主干网络的整体结构图；

图4是本实施例1的RPN的结构图；

图5是本实施例1的基于BPR后处理模块的结构图；

图6是本实施例1的基于优化Mask RCNN的整体结构图；

图7是本实施例1的基于优化Mask RCNN模型的目标果实分割图。

具体实施方式：

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例1.

如图1所示，本发明提供一种目标果实定位分割方法，包括：

获取目标果实图像；

通过对获取的目标果实图像进行图像特征提取，通过FPN进行特征融合后，生成特征图；

所述获取目标果实图像，包括采集不同角度、不同距离、不同时间段的目标果实图像，通过标注目标果实图像制作生成数据集。

所述通过对获取的目标果实图像进行图像特征提取，包括通过CBNetV2进行图像特征提取，所述通过FPN进行特征融合，包括利用特征金字塔网络FPN按照自顶向下与横向连接的方式进行特征融合。

所述利用回归分支生成类别置信度和回归框，进而由掩码分支预测生成初始的分割掩码，包括将生成的特征图经过区域生成网络RPN在特征图中生成候选区域，并对每个候选区域进行候选框回归操作和类别区分。

所述利用回归分支生成类别置信度和回归框，进而由掩码分支预测生成初始的分割掩码，还包括对于候选区域进行特征对齐后，经过全连接层进行边界框回归和类别预测。

所述利用回归分支生成类别置信度和回归框，进而由掩码分支预测生成初始的分割掩码，还包括，添加额外的掩码分支对候选区域进行语义分割，生成初始的分割掩码。

所述基于Mask RCNN模型得到目标果实的位置信息和粗糙掩码分割结果，包括利用后处理模块BPR对初始的分割掩码的边界处进行优化，在初始的分割掩码边缘提取许多个边界块作为优化网络的输入，最后输出优化后的掩码块。

具体的，包括以下步骤：

S1.图像采集与数据集制作

研究目标选择使用绿色柿子果实，并在真实果园环境下以多种角度和不同的时间段以及天气状况拍摄果实的图像。采集的图像应尽可能的包含各种可能出现的场景，以模拟真实的果园环境。如图2所示，将采集的图像统一尺寸至600×400，使用labelme图像标注软件对果实进行标注，最后按照COCO数据集的格式生成标注文件。从图2可以看出包含多种不同复杂条件下的图像。

S2.特征提取与特征融合：

本发明通过构建现有的开源预训练主干的组合，提出了一种新的复合主干的网络CBNetV2(Composite Backbone Network V2)来提取图像的特征。如图3所示，展示了CBNetV2网络的总体结构。CBNetV2包含了N个相同的主干结构，每个主干都有自己的颈部FPN，以实现多尺度的特征融合。在本模型中使用两个相同的主干进行复合。图3中，从左往右，第一个主干是Assisting Backbone，第二个是Lead Backbone。两个主干网络之间使用DHLC(Dense Higher-Level Composition)方式进行复合连接。并且Assisting Backbone对Lead Backbone起到辅助监督的作用。

CBNetV2只包含两种类型的主干，即Lead BackboneB_N和Assisting BackbonesB₁,B₂,…,B_N-1。每一个主干包含K阶(通常K＝5)，并且每一阶里面包含若干带有相同尺寸特征图的卷积层。主干的第k阶实现非线性变换F^k(·)(k＝1,…,K)。并且，第k阶将前k-1阶的输出作为输入，如公示(1)所示：

x^k＝F^k(x^k-1)，k≥2 (1)

CBNetV2使用辅助主干来增强lead backboneB_N的特征表达能力，将前一主干的特征迭代到后续的主干中，因此第N个主干中第K阶的输入可用公式(2)表示：

其中，

表示当前第n个主干中第k阶层的操作。g^k-1(·)代表复合连接，它将辅助主干B_N-1输出的特征作为输入，并且输出和

相同尺寸大小的特征。因此，B_N-1被转换并且B_N-1的输出作为B_N中每一阶的输入。并且，

之间权重共享。Lead backbone输出的特征被作为颈部FPN的输入，再传递到基于优化Mask RCNN的RPN中，被用于后续的实例分割分割任务中。然而，辅助主干的输出特征被转发给后续的同级主干中。

S3.预测生成初始的粗糙掩码(即初始的分割掩码)：

提取的特征图被用于后续的分类分支、回归分支和掩码分支来预测最终的掩码、检测框和类别信息。其实现过程可以概括为以下3个步骤：1)提取的特征图经过RPN在特征图中生成候选区域，并对每个候选区域进行候选框回归操作和类别区分。2)使用ROI Align操作对提取的ROI进行特征对齐，将ROI裁剪成固定的尺寸，并得到所有ROI规整之后的特征图。3)得到的特征图经过全连接层进行边界框回归和类别预测。与此同时，添加额外的掩码分支对ROI进行语义分割，生成二进制掩码。

步骤1)将主干提取的特征作为区域生成网络RPN的输入，并生成候选区域(regionproposal)。具体过程如图4所示，主干提取的特征图进入RPN之后，使用3×3大小的滑动窗口在输入的特征图的每个向量上设置k个候选窗口(k＝9,9种窗口有3种不同的形状和3种不同的长宽比)作为初始的检测框，即anchors。每个特征图的大小是H×W×256,即每个向量都是256维度，且每个向量有k个anchors,并要对每个anchor做正负样本的区分。一个256维度的向量通过两次全连接操作，一个得到2k score(前景和背景的置信度)，即2×H×W的特征图。另一个得到(x,y,w,h)4k个与ground truth回归的偏移量坐标，即4×H×W的特征图。RPN结构通过softmax层作分类器来判断anchors属于正样本还是负样本，再利用边界框回归对锚框进行修正以获得精确的proposals。

由RPN生成的候选区域和主干提取的特征作为步骤2ROI Align层的输入，综合这些信息后提取proposal feature maps。ROI Align的应用大幅提升了掩码分割的质量，使基于优化Mask RCNN对目标果实的识别精确度提高。由ROI Align操作得到的固定尺寸的ROI作为全连接层的输入，全连接层起到分类器的作用，对每一个ROI进行类别预测和检测框回归。总体过程如图6所示，提取的ROI通过分类分支和回归分支分别得到类别的置信度和坐标的偏移量。基于优化Mask RCNN同时添加额外的掩码分支对ROI进行二进制掩码分割，即ROI通过全卷积网络进行语义分割，得到粗糙的实例掩码。

S4.掩码优化：

如图5所示，首先将基于优化Mask RCNN模型生成的初始的粗糙分割结果(图5中(1)所示)作为BPR模块的输入。然后，使用滑动窗口算法沿着目标果实的边缘处稠密的提取大量的边界块(图5中(2)所示)。提取的边界块，不仅包括真实图像块，还包括粗糙实例掩码对应的二进制掩码块。从粗糙实例掩码边缘提取的mask patch为优化网络提供了此处的定位和语义信息，避免了网络的重复学习。矩形边界块的中心区域覆盖了实例边界的像素，但是这些边界块中包含大量的冗余信息，造成了大量不必要的计算。为此，采用非极大抑制NMS算法过滤掉部分冗余、重叠的边界块(图5中(3)所示)，以此兼顾算法的精度和速度。经过NMS算法后，将保留下的image patch(图5中(4)所示)和mask patch(图5中(5)所示)裁剪成相同的尺寸大小，并同时作为Refinement Network的输入。优化网络对提取的每个边界块做二分类语义分割。在优化网络中使用HRNetV2作为语义分割模型。HRNetV2实现了高低分辨率的特征融合，对低分辨率的特征图上采样后与高分辨率特征图拼接，经过1×1卷积，softmax层生成分割预测图。所有被优化后的掩码块将被重新组合回实例的边界，以此得到高分辨率的表达和高质量的实例分割结果。在BPR训练过程中，模型仅从预测掩码与真实目标掩码的IOU大于0.5的目标实例中提取边界块(其它的目标实例仍然参与推理过程)。相对应的真实掩码块使用像素级二元交叉熵损失来监督优化模块的输出。

S5.损失函数与模型训练

损失函数是深度学习中最基础也是最为关键的一个要素，能够衡量模型预测的好坏，表现预测与实际数据的差距程度，并且使模型获得最优和更快的收敛。选择正确的损失函数可以帮助模型学习如何将注意力集中在数据中的正确特征集合上。损失函数的值越小，代表模型的鲁棒性越好。基于优化Mask RCNN采用多任务的损失函数的和作为最终的损失函数，被定义为公式(5)所示

L＝L_cls+L_reg+L_mask (5)

分类分支的损失函数L_cls由真实分类u所对应的概率p_u决定。L_reg损失函数用于评估回归框的定位损失，L_mask被定义为平均二分类交叉熵损失函数。总的损失函数被具体定义为公式(6)所示：

实施例2.

本发明提供一种目标果实定位分割系统，包括：

图像获取模块，被配置为，获取目标果实图像；

特征模块，被配置为，通过对获取的目标果实图像进行图像特征提取，通过FPN进行特征融合后，生成特征图；

优化模块，被配置为，根据初始的分割掩码，基于优化Mask RCNN模型得到目标果实的位置信息和粗糙掩码分割结果。

实施例3.

本发明提供一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行本实施例提供的一种目标果实定位分割方法。

实施例4.

本发明提供一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行本实施例提供的一种目标果实定位分割方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种目标果实定位分割方法，其特征在于，包括：

获取目标果实图像；

2.如权利要求1所述的一种目标果实定位分割方法，其特征在于，所述获取目标果实图像，包括采集不同角度、不同距离、不同时间段的目标果实图像，通过标注目标果实图像制作生成数据集。

3.如权利要求1所述的一种目标果实定位分割方法，其特征在于，所述通过对获取的目标果实图像进行图像特征提取，包括通过CBNetV2进行图像特征提取，所述通过FPN进行特征融合，包括利用特征金字塔网络FPN按照自顶向下与横向连接的方式进行特征融合。

4.如权利要求1所述的一种目标果实定位分割方法，其特征在于，所述利用回归分支生成类别置信度和回归框，进而由掩码分支预测生成初始的分割掩码，包括将生成的特征图经过区域生成网络RPN在特征图中生成候选区域，并对每个候选区域进行候选框回归操作和类别区分。

5.如权利要求4所述的一种目标果实定位分割方法，其特征在于，所述利用回归分支生成类别置信度和回归框，进而由掩码分支预测生成初始的分割掩码，还包括对于候选区域进行特征对齐后，经过全连接层进行边界框回归和类别预测。

6.如权利要求5所述的一种目标果实定位分割方法，其特征在于，所述利用回归分支生成类别置信度和回归框，进而由掩码分支预测生成初始的分割掩码，还包括，添加额外的掩码分支对候选区域进行语义分割，生成初始的分割掩码。

7.如权利要求6所述的一种目标果实定位分割方法，其特征在于，所述基于Mask RCNN模型得到目标果实的位置信息和粗糙掩码分割结果，包括利用后处理模块BPR对初始的分割掩码的边界处进行优化，在初始的分割掩码边缘提取许多个边界块作为优化网络的输入，最后输出优化后的掩码块。

8.一种目标果实定位分割系统，其特征在于，包括：

图像获取模块，被配置为，获取目标果实图像；

9.一种计算机可读存储介质，其特征在于，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行权利要求1-7中任一项所述的一种目标果实定位分割方法。

10.一种终端设备，其特征在于，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行权利要求1-7中任一项所述的一种目标果实定位分割方法。