CN114693930A

CN114693930A - 基于多尺度特征和上下文注意力的实例分割方法及系统

Info

Publication number: CN114693930A
Application number: CN202210333902.1A
Authority: CN
Inventors: 牛玉贞; 甘伟泽; 林晓锋
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2022-07-01

Abstract

本发明涉及一种基于多尺度特征和上下文注意力的实例分割方法及系统，该方法包括以下步骤：对训练集中图像进行包括数据增强和标准化处理的数据预处理；构建多尺度特征融合和上下文注意力聚合模块，以利用金字塔结构加强特征表示，并聚焦金字塔特征图中的小目标物体；构建基于多尺度特征融合和上下文注意力聚合的实例分割网络；利用训练集中图像对实例分割网络进行训练，生成实例分割结果并计算损失函数，反向传播优化整个网络的参数，得到训练好的实例分割网络；将待处理图像输入训练好的实例分割网络，得到实例分割结果。该方法及系统不仅能够提高大目标和中等目标的分割精度，同时也聚焦小目标物体，提升小目标的分割性能。

Description

基于多尺度特征和上下文注意力的实例分割方法及系统

技术领域

本发明属于图像处理以及计算机视觉领域，具体涉及一种基于多尺度特征和上下文注意力的实例分割方法及系统

背景技术

近年来，随着人工智能的飞速发展，由机器代替人来进行各项工作的研究越来越多。机器通过人工智能算法，模仿人类的各种行为，执行一些重复单一的工作已经不是问题。但对于模仿人类更为高级且复杂的行为，还存在着一定的差距。计算机视觉任务是这里面最重要的任务之一，通过模仿人脑感知外界信息，来进行各项工作活动。实例分割是计算机视觉领域中的一个经典且具有挑战的任务，旨在对图像中存在的不同类别、不同个体的物体进行像素级地标定。实例分割任务要求不仅能标识出物体的类别，同时能够清楚地界定物体的边界及所在位置。实例分割被广泛应用在无人驾驶、医学影像分析、安全防控、工业分拣等领域。由于其具有的广泛应用性和工业价值性，也吸引许多国内外的学者在该领域进行研究。为了更好地给后续视觉处理任务(如三维重建等)提供准确精细的物体掩膜，设计出分割精度更高，分割速度更快，实际应用中鲁棒性更好的实例分割模型方法的重要性不言而喻。

随着目标检测算法的不断研究，实例分割的研究进展也得益于强大的目标检测器。根据实际目标的不同分为单阶段实例分割模型与双阶段实例分割模型，前者旨在做到实时分割的高效，后者希望使用较复杂的模型使得掩膜的分割更加准确。现有的双阶段实例分割模型已经能够做到较为准确地对目标物体进行实例分割，但在对小目标物体的分割上还存在一定不足。双阶段模型依赖于骨干网络提取的特征进行实例分割，例如在Mask R-CNN中借助特征金字塔(Feature pyramid network，FPN)来对骨干提取到的初始特征进行特征融合，并利用不同层级的金字塔结构的特征图，对大目标(像素大于96×96)、中等目标(像素介于32×32和96×96之间)、小目标(像素小于32×32)进行检测分割。即低层级包含少语义的特征图用来检测较小物体，高层级包含较多语义的特征图用来检测大物体。但对于小目标物体，由于像素较小且缺少高层的语义信息，通常会被漏检和错检。现有的一些改进特征融合的方法并没有聚焦小目标物体其检测分割的困难性，只是将高层的语义信息更多的给低层来进行增强，虽然增强了特征融合表示，但仅仅给大目标物体的分割带来更多的效益，忽略了对小目标分割的针对性。

为了解决双阶段模型小目标物体由于像素过小通常在高层的语义信息层中消失，经过卷积或池化后小目标物体的像素几乎可以忽略不计，在不利用其他方法的时候会导致漏检的问题，本发明提出了一种基于多尺度特征融合和上下文注意力聚合的实例分割方法，该方法利用更强的多尺度特征融合和引入上下文注意力机制，不仅增强不同层级特征图的表示，提高大目标和中等目标的分割精度，同时还聚焦小目标在特征图中的表示，使得小目标的分割精度上升、漏检率下降。

发明内容

本发明的目的在于提供一种基于多尺度特征和上下文注意力的实例分割方法及系统，该方法及系统不仅能够提高大目标和中等目标的分割精度，同时也聚焦小目标物体，提升小目标的分割性能。

为实现上述目的，本发明采用的技术方案是：一种基于多尺度特征和上下文注意力的实例分割方法，包括以下步骤：

步骤A：对训练集中图像进行包括数据增强和标准化处理的数据预处理；

步骤B：构建多尺度特征融合和上下文注意力聚合模块，包括级联的多尺度特征融合模块和上下文注意力聚合模块，以利用金字塔结构加强特征表示，并聚焦金字塔特征图中的小目标物体；

步骤C：构建基于多尺度特征融合和上下文注意力聚合的实例分割网络；

步骤D：利用训练集中图像对实例分割网络进行训练，生成实例分割结果并计算损失函数，反向传播优化整个网络的参数，得到训练好的实例分割网络；

步骤E：将待处理图像输入训练好的实例分割网络，得到实例分割结果。

进一步地，所述步骤A具体包括以下步骤：

步骤A1：对训练集中图像进行尺度变换，在保持长宽比不变的情况下，设定图像长和宽的阈值为2048；即根据图像的长边和阈值对图像进行尺度变换，保证长边和短边都不会超出所述阈值；然后将尺度变换后的所有图像进行随机翻转，翻转比例为0.5，实现数据增强；

步骤A2：对增强后的图像进行标准化处理，标准化的均值为[123.675,116.28,103.53]，方差为[58.395,57.12,57.375]；最后对图像进行填充，使得长宽能被32整除；每张图像有对应标签，标签内容是图像中每个实例物体的边界框和掩码，在图像尺度变换和数据增强的同时也对图像标签进行同步处理。

进一步地，所述步骤B中，多尺度特征融合模块的实现方法如下：

步骤B101：实例分割网络的特征提取模块对输入图像进行特征提取，得到高分辨率层到低分辨率层，即低语义信息到高语义信息的四个特征图C₁、C₂、C₃、C₄，然后输入多尺度特征融合模块；

步骤B102：多尺度特征融合模块对低分辨率特征图进行双线性差值上采样操作，得到和C₁特征图一样分辨率大小的特征图，进行特征拼接得到M₁，再利用3×3卷积改变M₁特征图的通道数为N，具体公式如下所示：

M₁＝Conv_3×3(Concat(C₁，2xUp(C₂)，4xUp(C₃)，8xUp(C₄)))，

其中，Conv_3×3为3×3卷积，Concat为特征拼接操作，2xUp表示2倍上采样，4xUp和8xUp分别是4倍和8倍上采样；

步骤B103：构建金字塔特征图结构；对步骤B102得到的M₁进行3×3卷积下采样2倍，再与初始的特征图C₂经过1×1卷积改变通道数为N后进行逐元素相加，得到M₂；同理，M₃由M₂下采样与经过1×1卷积的特征图C₃进行逐元素相加得到，M₄由M₃下采样与经过l×1卷积的特征图C₄进行逐元素相加得到，具体公式如下所示：

M_i＝Conv_3×3(M_i-₁)+Conv_1×1(C_i)，

其中Conv_3×3为3×3卷积且步长为2，Conv_1×1为1×1卷积且输出通道数为N，i＝2，3，4；

步骤B104：将M₄通过3×3且步长为2的卷积下采样2倍得到M₅，至此形成金字塔结构的5个特征图M₁、M₂、M₃、M₄、M₅。

进一步地，所述步骤B中，上下文注意力聚合模块的实现方法如下：

步骤B201：将特征图M₅经过3×3卷积得到P₅，此为尺度5的金字塔结构特征图；

步骤B202：通过上下文注意力聚合模块CAA，融合两个层次的特征图；将特征图M₄、M₅输入到第四CCA模块中，利用特征图M₅高层的语义信息，提升特征图M₄中上下文信息，将第四CAA模块的输出记为M′₄；M′₄再经过3×3卷积得到P₄，此为尺度4的金字塔结构特征图，具体公式如下所示：

M′₄＝CAA₄(M₄，M₅)，

P₄＝Conv_3×3(M′₄)，

其中，CAA₄是第4个尺度使用的上下文注意力聚合模块，Conv_3×3是3×3卷积且步长为1、输入输出通道数都为N；

步骤B203：将特征图M₃、M′₄输入到第三CAA模块中，得到M′₃，再经过3×3卷积得到P₃；以此类推，M₂与M′₃经过第二CAA模块后再经过3×3卷积得到特征图P₂，M₁与M′₂经过第一CAA模块后再经过3×3卷积得到特征图P₁；至此聚合上下文注意力的5个尺度的金字塔结构特征图，分别为P₁、P₂、P₃、P₄、P₅；以上过程具体公式如下所示：

M′_i＝CAA_i(M_i，M′_i+1)，

P_i＝Conv_3×3(M′_i)，

其中，CAA_i为第i个尺度使用的上下文注意力聚合模块，Conv_3×3是3×3卷积且步长为1、输入输出通道数都为N，i＝1，2，3。

进一步地，所述上下文注意力聚合模块的输入为任意两个相邻层的特征图M_i与M′_i+1，对于倒数第二层，即尺度4，使用M_i+1代替M′_i+1；M_i+1和M′_i+1为较低分辨率、高语义层，M_i为较高分辨率、低语义层；将特征图M′_i+1经过全局平均池化得到高层注意力，经过1×1卷积改变通道数为N后，与M′_i+1经过双线性插值2倍上采样的特征图以及特征图M_i，三者逐元素相加得到上下文特征C_high，具体公式如下所示：

C_high＝M_i+2xUp(M′_i+1)+Conv_1×1(GAP(M′_i+1))，

其中，2xUp表示2倍上采样，Conv_1×1为输出通道数N的1×1卷积，GAP为全局平均池化；

将上下文特征C_high经过全局平均池化得到上下文注意力，经过1×1卷积改变通道数为N后，与原输入特征图M_i经过3×3卷积后进行逐元素相乘得到上下文注意力C_Atten，具体公式如下所示：

C_Atten＝Conv_3×3(M_i)×Conv_1×1(GAP(C_high))

最后将C_Atten与C_high逐元素相加得到最终上下文注意力聚合的特征图M′_i，具体公式如下所示：

M′_i＝C_Atten+C_high。

进一步地，所述步骤C中，基于多尺度特征融合和上下文注意力聚合的实例分割网络的实现方法为：

步骤C1：以HRNet骨干网络作为特征提取模块，对输入图像进行特征提取，将提取到的特征图送入多尺度特征融合和上下文注意力聚合模块；

步骤C2：利用多尺度特征融合和上下文注意力聚合模块，加强特征的表示，形成多尺度的金字塔结构，然后送入RPN子网络中进行区域候选提议；

步骤C3：在RPN子网络中进行背景与前景二分类的预测，并将预测为前景的候选区域送入RoI Align池化为固定大小的区域候选框；最后将区域候选框送入RefineMask实例分割头和RefineMask目标检测头；

步骤C4：利用RefineMask实例分割头，与由多尺度特征融合和上下文注意力聚合模块产生的细粒度特征一起进行掩码的分割，得到最终实例分割结果。

进一步地，所述步骤D具体包括以下步骤：

步骤D1：将预处理后的训练集中图像输入实例分割网络，得到5个尺度的金字塔结构特征图P₁、P₂、P₃、P₄、P₅，送入RefineMask的RPN网络生成一定数量的候选区域，分类出正样本即前景物体，以及负样本即背景区域后，利用RoI Align将候选区域变为7×7大小再送入目标检测头和实例分割头；

步骤D2：在RefineMask的实例分割头中所需的细粒度特征，由得到的特征图P₁，经过4个3×3卷积构成的小型语义分割子网络产生；利用RefineMask的目标检测头、实例分割头，进行边界框的检测和掩码的分割；

步骤D3：计算边界框损失、掩码损失以及生成细粒度特征过程的语义损失；总的损失目标为三种损失之和，使用反向传播方法计算基于多尺度特征融合和上下文注意力聚合的实例分割网络中各参数的梯度，并利用随机梯度下降方法更新实例分割网络的参数。

进一步地，所述步骤E具体包括以下步骤：

步骤E1：将无标签信息的图像输入到训练好的实例分割网络进行处理；

步骤E2：使用目标检测头预测图像中前景物体的边界框，以及使用实例分割头预测图像中每个实例的掩码结果；网络中实例分割头得到的结果为最终的实例分割结果。

本发明还提供了一种基于多尺度特征和上下文注意力的实例分割系统，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现上述的方法步骤。

与现有技术相比，本发明具有以下有益效果：提供了一种基于多尺度特征和上下文注意力的实例分割方法及系统，该方法基于HRNet骨干网络，构建了一个新的多尺度金字塔特征融合，增强原有每层中的特征表示，能够更强地表征每层中的特征信息；同时，引入注意力机制，构建一个上下文注意力聚合模块，通过对高层语义信息注意力的融合，使得低层能够获得更多高层的语义信息表示，使得小目标的分割精度上升、漏检率下降。本发明不但能够增强大目标和中等目标的分割精度，同时也能使得小目标的分割精度上升，降低漏检率，具有很强的实用性和广阔的应用前景。

附图说明

图1为本发明实施例的方法实现流程图。

图2是本发明实施例中整个实例分割网络的结构示意图。

图3是本发明实施例中多尺度特征融合和上下文注意力聚合模块的结构示意图。

图4是本发明实施例中上下文注意力聚合模块的结构示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，本实施例提供了一种基于多尺度特征和上下文注意力的实例分割方法，包括以下步骤：

步骤A：对训练集中图像进行包括数据增强和标准化处理的数据预处理。

步骤B：构建多尺度特征融合和上下文注意力聚合模块，包括级联的多尺度特征融合模块和上下文注意力聚合模块，以利用金字塔结构加强特征表示，并聚焦金字塔特征图中的小目标物体。

步骤C：构建基于多尺度特征融合和上下文注意力聚合的实例分割网络。

步骤D：利用训练集中图像对实例分割网络进行训练，生成实例分割结果并计算损失函数，反向传播优化整个网络的参数，得到训练好的实例分割网络。

在本实施例中，所述步骤A具体包括以下步骤：

步骤A1：对训练集中图像进行尺度变换，在保持长宽比不变的情况下，设定图像长和宽的阈值为2048；即根据图像的长边和阈值对图像进行尺度变换，保证长边和短边都不会超出所述阈值；然后将尺度变换后的所有图像进行随机翻转，翻转比例为0.5，实现数据增强。

步骤A2：对增强后的图像进行标准化处理，标准化的均值为[123.675，116.28，103.53]，方差为[58.395，57.12，57.375]；最后对图像进行填充，使得长宽能被32整除；每张图像有对应标签，标签内容是图像中每个实例物体的边界框和掩码，在图像尺度变换和数据增强的同时也对图像标签进行同步处理。

图3为本实施例中多尺度特征融合和上下文注意力聚合模块的结构示意图。如图3所示，其包括级联的多尺度特征融合模块和上下文注意力聚合模块。其中，多尺度特征融合模块的实现方法如下：

步骤B101：实例分割网络的特征提取模块对输入图像进行特征提取，得到高分辨率层(低语义信息)到低分辨率层(高语义信息)的四个特征图C₁、C₂、C₃、C₄，然后输入多尺度特征融合模块。

M₁＝Conv_3×3(Concat(C₁，2xUp(C₂)，4xUp(C₃)，8xUp(C₄)))，

其中，Conv_3×3为3×3卷积，Concat为特征拼接操作，2xUp表示2倍上采样，4xUp和8xUp分别是4倍和8倍上采样。

步骤B103：构建金字塔特征图结构；对步骤B102得到的M₁进行3×3卷积下采样2倍，再与初始的特征图C₂经过1×1卷积改变通道数为N后进行逐元素相加，得到M₂；同理，M₃由M₂下采样与经过1×1卷积的特征图C₃进行逐元素相加得到，M₄由M₃下采样与经过1×1卷积的特征图C₄进行逐元素相加得到，具体公式如下所示：

M_i＝Conv_3×3(M_i-1)+Conv_1×1(C_i)，

其中Conv_3×3为3×3卷积且步长为2，Conv_1×1为1×1卷积且输出通道数为N，i＝2，3，4。

上下文注意力聚合模块的实现方法如下：

步骤B201：将特征图M₅经过3×3卷积得到P₅，此为尺度5的金字塔结构特征图。

步骤B202：通过上下文注意力聚合模块(Context Attention Aggregation，CAA)，融合两个层次的特征图；将特征图M₄、M₅输入到第四CCA模块中，利用特征图M₅高层的语义信息，提升特征图M₄中上下文信息，将第四CAA模块的输出记为M′₄；M′₄再经过3×3卷积得到P₄，此为尺度4的金字塔结构特征图，具体公式如下所示：

M′₄＝CAA₄(M₄，M₅)，

P₄＝Conv_3×3(M′₄)，

其中，CAA₄是第4个尺度使用的上下文注意力聚合模块，Conv_3×3是3×3卷积且步长为1、输入输出通道数都为N。

M′_i＝CAA_i(M_i，M′_i+1)，

P_i＝Conv_3×3(M′_i)，

所述上下文注意力聚合模块的结构如图4所示。如图4所示，所述上下文注意力聚合模块的输入为任意两个相邻层的特征图M_i与M′_i+1，对于倒数第二层，即尺度4，使用M_i+1代替M′_i+1；M_i+1和M′_i+1为较低分辨率、高语义层，M_i为较高分辨率、低语义层；将特征图M′_i+1经过全局平均池化得到高层注意力，经过1×1卷积改变通道数为N后，与M′_i+1经过双线性插值2倍上采样的特征图以及特征图M_i，三者逐元素相加得到上下文特征C_high，具体公式如下所示：

C_high＝M_i+2xUp(M′_i+1)+Conv_1×1(GAP(M′_i+1))，

其中，2xUp表示2倍上采样，Conv_1×1为输出通道数N的1×1卷积，GAP为全局平均池化。

将上下文特征C_high经过全局平均池化(Global Average Pooling，GAP)得到上下文注意力，经过1×1卷积改变通道数为N后，与原输入特征图M_i经过3×3卷积后进行逐元素相乘得到上下文注意力C_Atten，具体公式如下所示：

C_Atten＝Conv_3×3(M_i)×Conv_1×1(GAP(C_high))

M′_i＝C_Atten+C_high。

图2为本实施例中基于多尺度特征融合和上下文注意力聚合的实例分割网络的结构图。如图2所示，基于多尺度特征融合和上下文注意力聚合的实例分割网络的实现方法为：

步骤C1：以HRNet(High-Resolution Net)骨干网络作为特征提取模块，对输入图像进行特征提取，将提取到的特征图送入多尺度特征融合和上下文注意力聚合模块。

步骤C2：利用多尺度特征融合和上下文注意力聚合模块，加强特征的表示，形成多尺度的金字塔结构，然后送入RPN子网络中进行区域候选提议。

步骤C3：在RPN子网络中进行背景与前景二分类的预测，并将预测为前景的候选区域送入RoI Align池化为固定大小的区域候选框；最后将区域候选框送入RefineMask实例分割头和RefineMask目标检测头。

在本实施例中，对实例分割网络进行训练，具体包括以下步骤：

步骤D1：将预处理后的训练集中图像输入实例分割网络，得到5个尺度的金字塔结构特征图P₁、P₂、P₃、P₄、P₅，送入RefineMask的RPN网络生成一定数量的候选区域，分类出分类出正样本(前景物体)和负样本(背景区域)后，利用RoI Align将候选区域变为7×7大小再送入目标检测头和实例分割头。

步骤D2：在RefineMask的实例分割头中所需的细粒度特征，由得到的特征图P₁，经过4个3×3卷积构成的小型语义分割子网络产生；利用RefineMask的目标检测头、实例分割头，进行边界框的检测和掩码的分割。

步骤D3：计算边界框损失、掩码损失以及生成细粒度特征过程的语义损失；总的损失目标为三种损失之和，使用反向传播方法计算基于多尺度特征融合和上下文注意力聚合的实例分割网络中各参数的梯度，并利用随机梯度下降(Stochastic gradient descent，SGD)方法更新实例分割网络的参数。

在本实施例中，按如下方法对待处理图像进行处理：

步骤E1：将无标签信息的图像输入到训练好的实例分割网络进行处理

本实施例还提供了一种基于多尺度特征和上下文注意力的实例分割系统，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现上述的方法步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于多尺度特征和上下文注意力的实例分割方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于多尺度特征和上下文注意力的实例分割方法，其特征在于，所述步骤A具体包括以下步骤：

3.根据权利要求1所述的基于多尺度特征和上下文注意力的实例分割方法，其特征在于，所述步骤B中，多尺度特征融合模块的实现方法如下：

M₁＝Conv_3×3(Concat(C₁,2xUp(C₂),4xUp(C₃),8xUp(C₄))),

M_i＝Conv_3×3(M_i-1)+Conv_1×1(C_i),

其中Conv_3×3为3×3卷积且步长为2，Conv_1×1为1×1卷积且输出通道数为N，i＝2,3,4；

4.根据权利要求3所述的基于多尺度特征和上下文注意力的实例分割方法，其特征在于，所述步骤B中，上下文注意力聚合模块的实现方法如下：

步骤B202：通过上下文注意力聚合模块CAA，融合两个层次的特征图；将特征图M₄、M₅输入到第四CCA模块中，利用特征图M₅高层的语义信息，提升特征图M₄中上下文信息，将第四CAA模块的输出记为M'₄；M'₄再经过3×3卷积得到P₄，此为尺度4的金字塔结构特征图，具体公式如下所示：

M′₄＝CAA₄(M₄,M₅),

P₄＝Conv_3×3(M′₄),

步骤B203：将特征图M₃、M'₄输入到第三CAA模块中，得到M'₃，再经过3×3卷积得到P₃；以此类推，M₂与M'₃经过第二CAA模块后再经过3×3卷积得到特征图P₂，M₁与M'₂经过第一CAA模块后再经过3×3卷积得到特征图P₁；至此聚合上下文注意力的5个尺度的金字塔结构特征图，分别为P₁、P₂、P₃、P₄、P₅；以上过程具体公式如下所示：

M′_i＝CAA_i(M_i,M′_i+1),

P_i＝Conv_3×3(M′_i),

其中，CAA_i为第i个尺度使用的上下文注意力聚合模块，Conv_3×3是3×3卷积且步长为1、输入输出通道数都为N，i＝1,2,3。

5.根据权利要求4所述的基于多尺度特征和上下文注意力的实例分割方法，其特征在于，所述上下文注意力聚合模块的输入为任意两个相邻层的特征图M_i与M'_i+1，对于倒数第二层，即尺度4，使用M_i+1代替M'_i+1；M_i+1和M'_i+1为较低分辨率、高语义层，M_i为较高分辨率、低语义层；将特征图M'_i+1经过全局平均池化得到高层注意力，经过1×1卷积改变通道数为N后，与M'_i+1经过双线性插值2倍上采样的特征图以及特征图M_i，三者逐元素相加得到上下文特征C_high，具体公式如下所示：

C_high＝M_i+2xUp(M′_i+1)+Conv_1×1(GAP(M′_i+1)),

C_Atten＝Conv_3×3(M_i)×Conv_1×1(GAP(C_high))

最后将C_Atten与C_high逐元素相加得到最终上下文注意力聚合的特征图M'_i，具体公式如下所示：

M′_i＝C_Atten+C_high。

6.根据权利要求5所述的基于多尺度特征和上下文注意力的实例分割方法，其特征在于，所述步骤C中，基于多尺度特征融合和上下文注意力聚合的实例分割网络的实现方法为：

步骤C3：在RPN子网络中进行背景与前景二分类的预测，并将预测为前景的候选区域送入RoIAlign池化为固定大小的区域候选框；最后将区域候选框送入RefineMask实例分割头和RefineMask目标检测头；

7.根据权利要求6所述的基于多尺度特征和上下文注意力的实例分割方法，其特征在于，所述步骤D具体包括以下步骤：

步骤D1：将预处理后的训练集中图像输入实例分割网络，得到5个尺度的金字塔结构特征图P₁、P₂、P₃、P₄、P₅，送入RefineMask的RPN网络生成一定数量的候选区域，分类出正样本即前景物体，以及负样本即背景区域后，利用RoIAlign将候选区域变为7×7大小再送入目标检测头和实例分割头；

8.根据权利要求7所述的基于多尺度特征和上下文注意力的实例分割方法，其特征在于，所述步骤E具体包括以下步骤：

9.一种基于多尺度特征和上下文注意力的实例分割系统，其特征在于，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如权利要求1-8任一项所述的方法步骤。