CN112927245B

CN112927245B - 一种基于实例查询的端到端实例分割方法

Info

Publication number: CN112927245B
Application number: CN202110388605.2A
Authority: CN
Inventors: 王兴刚; 方羽新; 杨澍生; 冯镔; 刘文予
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2021-04-12
Filing date: 2021-04-12
Publication date: 2022-06-21
Anticipated expiration: 2041-04-12
Also published as: CN112927245A

Abstract

本发明公开了一种基于实例查询的端到端实例分割方法：(1)训练基于实例查询和多层级并行掩码监督的端到端实例分割算法模型，包括以下子步骤：(1.1)对原始数据集中所有图片的感兴趣类别的物体进行实例级别的标注，标签为实例级别的包围框的左上及右下顶点和实例对应的前景掩码，得到带标注的标准训练数据集；(1.2)定义基于实例查询向量以及多层级并行掩码监督的端到端实例分割算法模型，利用反向传播和梯度下降算法训练该基于实例查询向量以及多层级并行掩码监督的端到端实例分割算法模型；(2)利用上述训练好的模型对待识别图片进行实例分割。

Description

一种基于实例查询的端到端实例分割方法

技术领域

本发明属于计算机视觉领域，更具体地，涉及一种基于实例查询的端到端实例分割方法。

背景技术

在计算机视觉领域中，实例分割是一个非常活跃并具有挑战性的研究方向，并已经在近些年的研究中取得了巨大的进展。实例分割要求对图片中每一个感兴趣的实例进行前背景的分割，很多实际应用都和它高度相关，例如智慧交通系统、智慧安防系统等。

在之前最先进的实例分割算法研究中，实例分割总是基于空间上的一一对应关系来完成的。这些方法可分为两种。第一种方法使用锚框作为物体位置先验，该方法首先对图片进行密集的锚框设定，并进一步通过区域建议网络对可能存在物体的锚框进行识别，被认为包含物体的锚框通过并行的检测与分割头进行边框回归与前景分割，得到实例级别的图片分割结果。第二种方法为了减少对锚框设定的需求，使用基于像素点的方式，对输入图片的每个像素点进行处理，并判别其是否为一个感兴趣实例的中心点，并进一步进行边框回归与前景分割。这两种方法在实例分割任务的长期发展中已经取得了不错的分割效果，但是，因为两种方法均基于密集的位置先验(锚框或像素点)，以上两种方法非常依赖于非极大抑制等复杂的后处理流程来减少重复的实例预测，难以进行端到端的推理；同时存在算法模型的训练阶段与推理阶段不能保持一致的问题。同时，在之前许多最先进的实例分割算法研究中，为了增强算法的表现，算法模型通常遵循一种多级迭代的范式，即通过多个层级的不断迭代，提高算法模型预测实例掩码的精度。由于这种多层级的算法模型高度依赖于其串行的掩码预测流程，算法模型推理时往往需要大量的内存、时间开销，难以在对推理速度敏感的场景下应用。

最近，有多种方法提出了端到端的物体检测方法，避免了上述的多个问题。这些方法遵循大致相似的处理流程：在训练阶段，算法模型会初始化些许高维度的表征向量，作为算法模型的查询模块，这些查询向量将在算法模型不断训练的过程中进行更新，每一个查询向量在训练阶段会产生一个对应的检测框预测，包括检测框坐标及其类别。通过实例查询，上述方法避免了对非极大抑制等冗杂后处理模块的依赖，实现了端到端的物体检测框架，并取得了与之前的算法相当的结果。然而，如何利用查询向量构建端到端的实例分割框架，并在维持算法模型高性能的同时减少算法模型对时间、空间的开销，仍然是一个有待探索的命题。

发明内容

针对现有技术的缺陷及以上的改进需求，本方法旨在设计一种经济的、高效的基于实例查询的端到端实例分割算法。本发明提供了一种经济的、高效的基于实例查询及多层级并行掩码监督的端到端实例分割算法。该方法主要依托于实例查询向量以、动态实例分割头及多层级并行掩码监督模块。通过实例查询向量以及多层级并行的实例分割头，该方法实现了不依赖于非极大抑制等后处理模块的实例分割；并构建了一种有效的跨层级、多任务之间的实例信息交互，对于不同的层级，所述方案在不同层级之间不断优化、不断迭代实例信息；对于包围框检测、前背景分割等多个子任务，所述方案综合多种任务对实例信息的不同需求，共同优化并增强实例查询中所包含的实例信息。所述方法可以检测并分割感兴趣实例，并且可以进行完全的端到端训练及推理。

为实现上述目的，本发明提供了一种基于实例查询和多层级并行掩码监督的端到端实例分割方法，包括以下步骤：

(1)训练基于实例查询和和多层级并行掩码监督的端到端实例分割算法模型，包括以下子步骤：

(1.1)对原始数据集中所有图片的感兴趣类别的物体进行实例级别的标注，标签为实例级别的包围框的左上及右下顶点和实例对应的前景掩码，得到带标注的标准训练数据集；

(1.2)定义基于实例查询向量和多层级并行掩码监督的端到端实例分割算法模型，所述基于实例查询向量和多层级并行掩码监督的端到端实例分割算法模型由特征金字塔结构网络、可学习的实例查询向量及区域建议框、边框回归网络、前景分割网络、类别判别网络组成。根据(1.1)中带标注的标准训练数据集，计算训练标签，并设计损失函数，利用反向传播和梯度下降算法训练该基于实例查询向量和多层级并行掩码监督的端到端实例分割算法模型；具体包括如下子步骤：

(1.2.1)构建基于实例查询向量和多层级并行掩码监督的端到端实例分割算法模型，所述基于实例查询向量和多层级并行掩码监督的端到端实例分割算法模型由特征金字塔结构网络、可学习的实例查询向量、可学习的区域建议框、六个并行的检测分割任务头，每个检测分割任务头包括一个独立的边框回归网络、一个独立的前景分割网络以及一个独立的类别判别网络。所述可学习的实例查询向量及区域建议框分别包含100个实例查询向量以及100个区域建议框；所述特征金字塔结构网络以ResNet-50深度卷积神经网络为基础网络，通过增加一个自底向上的连接，一个自顶向下的连接和一个横向连接组成，用于从输入标准数据集图片中提取融合不同分辨率的特征。对于每个检测分割任务头，感兴趣区域对齐模块在所述可学习区域建议框的引导下，从提取的不同尺度的金字塔特征中得到固定分辨率为7×7的包围框感兴趣区域和固定分辨率为14×14的掩码感兴趣区域；同时，可学习的实例查询向量通过动态参数生成网络，生成两组固定维度为256维的动态参数。所述包围框感兴趣区域和掩码感兴趣区域分别与两组动态参数进行矩阵点乘操作，得到动态卷积后的包围框感兴趣区域以及动态卷积后的掩码感兴趣区域；类别判别网络以动态卷积后的包围框感兴趣区域为输入，得到对当前感兴趣区域的类别判别；边框回归以动态卷积后的包围框感兴趣区域为输入，得到基于当前感兴趣区域的实例边框回归；掩码生成网络将动态卷积后的掩码感兴趣区域通过四个串联的卷积操作、一个反卷积操作，得到固定分辨率为28×28的掩码预测，当前层级的包围框预测以及微调后的实例查询将作为下一层级检测分割任务头的输入模块，进一步进行检测框与前景掩码的预测。算法模型总包含六个检测分割任务头，在六个检测分割任务头完成实例的检测与前背景分割之后，得到算法模型最终的预测结果。

(1.2.2)以标准训练数据集I_tr作为识别网络模型的输入，利用特征金字塔网络模块提取特征:将标准训练数据集I_tr中的图片输入特征金字塔网络自底向上的ResNet-50网络结构中，以网络中不改变特征图大小的卷积层单元定义为一个层级，即层级{P2，P3，P4，P5，P6}，提取出每个层级的最后输出的卷积特征F；特征金字塔网络模块中自顶向下的连接对ResNet-50的输出卷积特征进行上采样生成多尺度上采样特征，特征金字塔网络模块中横向连接结构将自顶向下过程上采样的每个层级的特征和自底向上过程生成的特征进行融合生成最终的特征{F2，F3，F4，F5，F6}，过程如图3所示。

(1.2.3)根据可学习区域建议框从特征金字塔模块输出的多极特征中提取感兴趣区域：可学习区域建议框对输入图片给出100个可能存在物体的区域建议，感兴趣区域对齐操作从特征金字塔网络模块输出的多级特征中，选取出所述100个可学习区域建议框的固定分辨率大小为7×7的包围框感兴趣区域和固定分辨率大小为14×14的掩码感兴趣区域。

(1.2.4)根据可学习实例查询对感兴趣区域进行动态卷积：可学习实例查询对每个输入图片提供100个实例查询向量，实例查询向量通过两个全连接映射层，分别得到一组包围框动态参数以及掩码动态参数。包围框动态参数通过与包围框感兴趣区域在特征维度上进行点乘，对包围框感兴趣区域进行动态卷积；掩码动态参数作为卷积和参数，对掩码感兴趣区域进行动态卷积。

(1.2.5)根据动态卷积后的包围框感兴趣区域进行类别判别以及边框回归，并生成微调后的实例查询向量：动态卷积后的包围框感兴趣区域通过多层感知机，生成微调后的实例查询向量，并为每个感兴趣区域预测包围框偏移量：

偏移量通过如下方程，在所述可学习感兴趣框上进行坐标回归，得到最终的包围框预测：

x＝x+w·Δx

y＝y+h·Δy

w＝w·exp(Δw)

h＝h·exp(Δh)

(1.2.6)根据动态卷积后的掩码感兴趣区域进行前景掩码预测：动态卷积后的掩码感兴趣区域通过4层卷积网络以及1层反卷积网络之后，得到固定分辨率为28×28的前景掩码预测m；

(1.2.7)通过二分图匹配算法，将网络预测输出与训练集标签集合进行一一匹配：以步骤(1.2.5)与(1.2.6)中的预测标签(x,y,w,h,m)为网络预测输出，以标准数据集中样本标签为网络期望输出，通过二分图匹配算法，构建在100个网络预测输出和样本标签之间的对应关系。

(1.2.8)以训练标签gt为网络期望输出，以预测标签

为网络预测输出，针对构建的网络模型，设计期望输出和预测输出之间的目标损失函数：以所述二分图匹配算法的匹配结果为匹配依据，在网络期望输出与网络预测输出之间计算计算损失函数，整体目标损失函数由分类损失、边框回归损失及掩码预测损失共同组成。

(1.2.9)多级级联预测：以当前层级输出的微调后的实例查询向量作为新的实例查询向量，以当前层级的实例检测结果为感兴趣区域建议框，重复进行步骤(1.2.3)至步骤(1.2.8)，算法网络的总层级数为六层，整体的算法模型预测损失由所有层级的检测分割头的预测损失共同组成。

(1.2.10)根据设计的整体目标损失函数，利用反向传播以及梯度下降算法对模型进行迭代训练，最小化整体目标损失函数，实现最优网络模型及参数。

(2)利用上述训练好的模型对待识别图片进行实例分割，包括以下子步骤：

(2.1)将待识别图片通过ResNet-50骨干网络以及特征金字塔网络，得到多尺度特征，通过可学习的包围建议框，感兴趣区域池化操作提取出固定分辨率大小为7×7的包围框感兴趣区域，以及固定分辨率大小为14×14的掩码感兴趣区域。包围框感兴趣区域以及掩码感兴趣区域在可学习的实例查询向量的动态卷积后，输入检测分割任务头，通过类别判别网络、边框回归网络以及掩码生成网络中进行类别判别、边框回归以及掩码生成，最终得到待识别图片中感兴趣实例的类别、预测包围框以及前景掩码预测。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有如下有益效果：

(1)准确度高：该发明针对实例分割问题，通过基于实例查询向量的实例分割框架进行实例的检测以及前后景分割，更精确的生成实例的前景掩码；

(2)速度快：该发明提出的基于实例查询和多层级并行掩码监督的实例分割方法可以进行端到端的训练，训练速度较快，推理速度优于当前最佳方法；

(3)鲁棒性强：该发明基于一个端到端的实例分割算法模型，实例查询机制。

附图说明

图1是本发明一种基于实例查询和多层级并行掩码监督的端到端实例分割方法的流程图，其中，实线箭头表示训练，虚线箭头表示测试；

图2是本发明一种基于实例查询和多层级并行掩码监督的端到端实例分割算法模型结构图，其中b,m,q分别表示不同级模型的包围框预测、掩码预测以及实例查询向量；

图3是本发明一种基于实例查询和多层级并行掩码监督的端到端实例分割方法感兴趣区域动态卷积示意图；

图4是本法分明一种基于实例查询和多层级并行掩码监督的端到端实例分割方法中特征金字塔结构模块的网络结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

以下首先就本发明的技术术语进行解释和说明：

ResNet-50：一种可用于分类的神经网络，该网络主要由50层卷积层、池化层、残差连接层组成。卷积层用于提取图片特征；池化层的作用是降低卷积层输出的特征向量的维度，减少过拟合；残差连接层用于传递梯度解决消失和爆炸梯度问题。网络参数可以通过反向传播及梯度下降算法，进行更新；

非极大值抑制(NMS)：非极大值抑制是一种在计算机视觉检测领域中被广泛应用的后处理算法，它按照设定的阈值，通过排序、遍历和剔除来循环迭代实现对重叠检测框的过滤，去掉冗余的检测框，得到最终的检测结果。

如图1所示，本发明基于实例查询和多层级并行掩码监督的端到端实例分割方法包括以下子步骤：

x＝x+w·Δx

y＝y+h·Δy

w＝w·exp(Δw)

h＝h·exp(Δh)

(1.2.7)通过二分图匹配算法，将网络预测输出与训练集标签集合进行一一匹配：以步骤(1.2.5)与(1.2.6)中的预测标签(x，y,w,h,m)为网络预测输出，以标准数据集中样本标签为网络期望输出，通过二分图匹配算法，构建在100个网络预测输出和样本标签之间的对应关系。

(1.2.8)以训练标签gt为网络期望输出，以预测标签

根据设计的整体目标损失函数，利用反向传播以及梯度下降算法对模型进行迭代训练，最小化整体目标损失函数，实现最优网络模型及参数。

(2)利用上述训练好的模型对待识别图片进行实例分割：将待识别图片通过ResNet-50骨干网络以及特征金字塔网络，得到多尺度特征，通过可学习的包围建议框，感兴趣区域池化操作提取出固定分辨率大小为7×7的包围框感兴趣区域，以及固定分辨率大小为14×14的掩码感兴趣区域。包围框感兴趣区域以及掩码感兴趣区域在可学习的实例查询向量的动态卷积后，输入检测分割任务头，通过类别判别网络、边框回归网络以及掩码生成网络中进行类别判别、边框回归以及掩码生成，最终得到待识别图片中感兴趣实例的类别、预测包围框以及前景掩码预测。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于实例查询的端到端实例分割方法，其特征在于，包括：

(1)训练基于实例查询和多层级并行掩码监督的端到端实例分割算法模型，包括以下子步骤：

(1.2)定义基于实例查询向量以及多层级并行掩码监督的端到端实例分割算法模型，所述基于实例查询向量以及多层级并行掩码监督的端到端实例分割算法模型由特征金字塔结构网络、可学习的实例查询向量及区域建议框、边框回归网络、前景分割网络、类别判别网络组成，根据(1.1)中带标注的标准训练数据集，计算训练标签，并设计损失函数，利用反向传播和梯度下降算法训练该基于实例查询向量以及多层级并行掩码监督的端到端实例分割算法模型；

(2)利用上述训练好的模型对待识别图片进行实例分割：将待识别图片通过ResNet-50骨干网络以及特征金字塔网络，得到多尺度特征，通过可学习的包围建议框，感兴趣区域池化操作提取出固定分辨率大小为7×7的包围框感兴趣区域，以及固定分辨率大小为14×14的掩码感兴趣区域，包围框感兴趣区域以及掩码感兴趣区域在可学习的实例查询向量的动态卷积后，输入检测分割任务头，通过类别判别网络、边框回归网络以及掩码生成网络中进行类别判别、边框回归以及掩码生成，最终得到待识别图片中感兴趣实例的类别、预测包围框以及前景掩码预测。

2.如权利要求1所述的基于实例查询的端到端实例分割方法，其特征在于，所述步骤(1.2)具体包括如下子步骤：

(1.2.1)构建基于实例查询向量以及多层级并行掩码监督的端到端实例分割算法模型；

(1.2.2)以标准训练数据集I_tr作为识别网络模型的输入，利用特征金字塔网络模块提取特征；

(1.2.3)根据可学习区域建议框从特征金字塔模块输出的多极特征中提取感兴趣区域；

(1.2.4)根据可学习实例查询对感兴趣区域进行动态卷积；

(1.2.5)根据动态卷积后的包围框感兴趣区域进行类别判别以及边框回归，并生成微调后的实例查询向量；

(1.2.6)根据动态卷积后的掩码感兴趣区域进行前景掩码预测；

(1.2.7)通过二分图匹配算法，将网络预测输出与训练集标签集合进行一一匹配；

(1.2.8)以训练标签gt为网络期望输出，以预测标签

为网络预测输出，针对构建的网络模型，设计期望输出和预测输出之间的目标损失函数；

(1.2.9)多级级联预测：以当前层级输出的微调后的实例查询向量作为新的实例查询向量，以当前层级的实例检测结果为感兴趣区域建议框，重复进行步骤(1.2.3)至步骤(1.2.8)，算法网络的总层级数为六层，整体的算法模型预测损失由所有层级的检测分割头的预测损失共同组成；

3.如权利要求2所述的基于实例查询的端到端实例分割方法，其特征在于，在所述步骤(1.2.1)中：

所述基于实例查询向量和多层级并行掩码监督的端到端实例分割算法模型由特征金字塔结构网络、可学习的实例查询向量、可学习的区域建议框、六个并行的检测分割任务头，每个检测分割任务头包括一个独立的边框回归网络、一个独立的前景分割网络以及一个独立的类别判别网络，所述可学习的实例查询向量及区域建议框分别包含100个实例查询向量以及100个区域建议框；所述特征金字塔结构网络以ResNet-50深度卷积神经网络为基础网络，通过增加一个自底向上的连接，一个自顶向下的连接和一个横向连接组成，用于从输入标准数据集图片中提取融合不同分辨率的特征，对于每个检测分割任务头，感兴趣区域对齐模块在所述可学习区域建议框的引导下，从提取的不同尺度的金字塔特征中得到固定分辨率为7×7的包围框感兴趣区域和固定分辨率为14×14的掩码感兴趣区域；同时，可学习的实例查询向量通过动态参数生成网络，生成两组固定维度为256维的动态参数，所述包围框感兴趣区域和掩码感兴趣区域分别与两组动态参数进行矩阵点乘操作，得到动态卷积后的包围框感兴趣区域以及动态卷积后的掩码感兴趣区域；类别判别网络以动态卷积后的包围框感兴趣区域为输入，得到对当前感兴趣区域的类别判别；边框回归以动态卷积后的包围框感兴趣区域为输入，得到基于当前感兴趣区域的实例边框回归；掩码生成网络将动态卷积后的掩码感兴趣区域通过四个串联的卷积操作、一个反卷积操作，得到固定分辨率为28×28的掩码预测，当前层级的包围框预测以及微调后的实例查询将作为下一层级检测分割任务头的输入模块，进一步进行检测框与前景掩码的预测，算法模型总包含六个检测分割任务头，在六个检测分割任务头完成实例的检测与前背景分割之后，得到算法模型最终的预测结果。

4.如权利要求2或3所述的基于实例查询的端到端实例分割方法，其特征在于，所述步骤(1.2.2)具体为：

将标准训练数据集I_tr中的图片输入特征金字塔网络自底向上的ResNet-50网络结构中，以网络中不改变特征图大小的卷积层单元定义为一个层级，即层级{P2，P3，P4，P5，P6}，提取出每个层级的最后输出的卷积特征F；特征金字塔网络模块中自顶向下的连接对ResNet-50的输出卷积特征进行上采样生成多尺度上采样特征，特征金字塔网络模块中横向连接结构将自顶向下过程上采样的每个层级的特征和自底向上过程生成的特征进行融合生成最终的特征{F2，F3，F4，F5，F6}。

5.如权利要求2或3所述的基于实例查询的端到端实例分割方法，其特征在于，所述步骤(1.2.3)具体为：

可学习区域建议框对输入图片给出100个可能存在物体的区域建议，感兴趣区域对齐操作从特征金字塔网络模块输出的多级特征中，选取出所述100个可学习区域建议框的固定分辨率大小为7×7的包围框感兴趣区域和固定分辨率大小为14×14的掩码感兴趣区域。

6.如权利要求2或3所述的基于实例查询的端到端实例分割方法，其特征在于，所述步骤(1.2.4)具体为：

可学习实例查询对每个输入图片提供100个实例查询向量，实例查询向量通过两个全连接映射层，分别得到一组包围框动态参数以及掩码动态参数，包围框动态参数通过与包围框感兴趣区域在特征维度上进行点乘，对包围框感兴趣区域进行动态卷积；掩码动态参数作为卷积和参数，对掩码感兴趣区域进行动态卷积。

7.如权利要求2或3所述的基于实例查询的端到端实例分割方法，其特征在于，所述步骤(1.2.5)具体为：

动态卷积后的包围框感兴趣区域通过多层感知机，生成微调后的实例查询向量，并为每个感兴趣区域预测包围框偏移量：

x′＝x+w·Δx

y′＝y+h·Δy

w′＝w·exp(Δw)

h′＝h·exp(Δh)。

8.如权利要求2或3所述的基于实例查询的端到端实例分割方法，其特征在于，所述步骤(1.2.6)具体为：

动态卷积后的掩码感兴趣区域通过4层卷积网络以及1层反卷积网络之后，得到固定分辨率为28×28的前景掩码预测m。

9.如权利要求2或3所述的基于实例查询的端到端实例分割方法，其特征在于，所述步骤(1.2.7)具体为：

以步骤(1.2.5)与(1.2.6)中的预测标签(x,y,w,h,m)为网络预测输出，以标准数据集中样本标签为网络期望输出，通过二分图匹配算法，构建在100个网络预测输出和样本标签之间的对应关系。

10.如权利要求2或3所述的基于实例查询的端到端实例分割方法，其特征在于，所述步骤(1.2.8)具体为：

以所述二分图匹配算法的匹配结果为匹配依据，在网络期望输出与网络预测输出之间计算计算损失函数，整体目标损失函数由分类损失、边框回归损失及掩码预测损失共同组成。