CN113706572B

CN113706572B - 一种基于查询向量的端到端的全景图像分割方法

Info

Publication number: CN113706572B
Application number: CN202110980735.5A
Authority: CN
Inventors: 童云海; 李祥泰
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2021-08-25
Filing date: 2021-08-25
Publication date: 2023-10-20
Anticipated expiration: 2041-08-25
Also published as: CN113706572A

Abstract

本发明公布了一种基于查询向量的端到端的全景图像分割方法，使用查询向量表征全景图像分割的过程和输出的结果；查询向量(Object Query)包括前景查询向量(Thing Query)和背景查询向量(Stuff Query)；建立全景图像分割模型，包括分别建立图像前景类分割模型和图像背景类分割模型；将前景查询向量和背景查询向量分别映射到图像前景类分割结果things和图像背景类分割结果stuff；基于前景查询向量和背景查询向量进行检测训练，缩短前景目标的检测训练时间，实现端到端地训练和输出前景分割结果背景的分割结果。本发明方法流程更为简单、计算复杂度较低、性能更好。

Description

一种基于查询向量的端到端的全景图像分割方法

技术领域

本发明属于图像处理技术领域，涉及全景图像分割方法，尤其涉及一种基于查询向量的端到端的全景图像分割方法。

背景技术

全景图像分割(Panoptic Segmentation)是一项具有挑战性的任务，它的目标是为每个图像像素分配一个语义标签和唯一标识。图像分割模型方法需要采用统一的方式表示图像前景类(things)和图像背景类(stuff)。一个主要的问题来自于图像前景类和图像背景类数量上的冲突，因为图像前景的数量是动态的，多变的，而图像背景类的数量是固定的。全景图像分割技术是全面研究和理解场景的重要技术，能够解决一些特定领域应用的技术问题，包括自动驾驶的感知模块，机器人的室内导航和无人机航拍等等。

为了解决全景图像分割中图像前景类和图像背景类数量有冲突的问题，现有的方法一般是采用不同的方法来分别处理图像前景类的分割和图像背景类的分割，如图1(a)所示。其中，对于前景类别，现有的方法是用基于目标检测的方法来把前景类别检测出来在进行每个实例的分割结果。对于背景类别，现有的方法是基于图像语义分割的方法对每个像素做分割得到背景的分割结果。所以最后的分割的结果是直接由两个分割结果进行融合得到。这些方法涉及到大量的工程技巧，其中每个步骤里面又包含了很多参数需要调节(图1(a)中所示的RPN，NMS操作)，使得整个计算流程不仅仅复杂度高，并且由于参数较多的原因，使得模型的训练和部署的成本增加。

最近，基于查询向量(Object Query)的方法在图像分割和目标检测领域有了十足的进展，这一类方法最大的优势是可以去除目标检测里面一些复杂的模块，比如最大值抑制，锚点的选取设置等等。但是这种方法的主要缺点在于收敛较慢，并且分割的头部计算开销比较大，如图1(b)所示。此外，该方法虽然可以扩展应用于全景分割任务，相比于之前的方法，计算流程变得更加简单，但是由于需要两次训练(第一次训练检测器，第二次训练分割器)，导致整个流程也比较复杂，训练时间过长。尤其是第一次训练检测器的步骤中，由于没有了锚点的位置先验，整个训练收敛较慢，导致模型很难快速地迭代部署到实际应用中。

发明内容

为了克服上述现有技术的不足，本发明提供一种基于查询向量的端到端的全景图像分割方法，是一种新的基于查询向量的全景图像分割的模型方法，分别建立图像前景类和背景类分割模型，可同时解决模型训练时间过长和计算方法流程比较复杂的两个关键的技术问题。本发明在国际数据集COCO上取得领先的效果。其中，我们采用全景图像分割结果的PanopticQuality(全景分割质量)指标来表示图像场景中的每个像素分割效果，我们的方法在COCO-2017的验证集和测试集上在相同的实验条件下相比于先前的工作均取得了较好的结果。

本次发明的核心点有两点：第一，如何使用查询向量来有效地表征全景图像分割的结果输出，包括图像前景类分割结果(things)和图像背景类分割结果(stuff)。第二，如何使得模型训练收敛的速度变快(即缩短训练时间)，同时保证全景的分割结果较好。

针对第一个问题，我们提出了两种不同的建模方式，采用查询向量分别来表征前景分割和背景分割的过程，并使用前景查询向量(Thing Query)和背景查询向量(StuffQuery)分别表示代表前景类分割的结果和背景类分割的结果，设计对应的模块把前景查询向量(ThingQuery)和背景查询向量(Stuff Query)映射到对应的分割结果。针对第二个问题，我们使用了最新提出的基于稀疏目标框的检测器(Sparse-RCNN检测器)，大大缩短了前景目标的检测训练时间，由此使得整个模型训练时间短，同时该检测器可以完美地结合我们提出前景查询向量和背景查询向量，让整个模型的计算流程复杂度降低，做到了同时端到端地训练和输出前景的分割结果和背景的分割结果。

本发明提供的技术方案是：

一种基于查询向量的端到端的全景图像分割方法，基于已有的检测模型，采用查询向量分别建立图像前景类和背景类分割模型，并使用前景查询向量(Thing Query)和背景查询向量(Stuff Query)分别表示代表前景类分割的结果和背景类分割的结果；包括如下步骤：

1)使用Sparse-RCNN检测器作为我们全景分割的前景特征提取器。这个流程包括两个步骤：图像的特征抽取和前景目标检测框的检测。

11)获得输入图像的特征：

对于输入的图像(Input Image)，我们使用卷积神经网络(Convolution NeuralNetwork,CNN)和特征金字塔网络(Feature Pyramid Network,FPN)获得图像的特征{F1,F2,F3,F4}。

图像的特征抽取过程是对原始输入图像经过一个卷积神经网络，得到图像的特征图。

这里我们使用了ResNet和FPN的结构，该网络是在ImageNet预训练后的模型。当图像进过此网络后，会得到一组特征{F1,F2,F3,F4}。

12)检测前景目标检测框；

前景目标框的检测是对输入的特征{F1,F2,F3,F4}来回归出图像中的前景的位置，即前景中的目标检测框的位置。我们使用的是Sparse-RCNN检测器，该检测器使用了一组查询向量(Object Query)和查询框(Query Box)来对输入的特征{F1,F2,F3,F4}进行前景目标的检测。其中每个向量和每个查询框一一对应，即每个向量对应一个目标检测的结果。查询向量和查询框内的特征会通过动态卷积(Dynamic Convolution)进行交互，以增强目标的前景特征，这里的动态卷积是指使用查询框对应的特征去动态地生成卷积核，然后对每个查询向量进行加权。假设该Sparse-RCNN检测器里面有N个查询向量，代表整个场景中最多有N个前景物体，一般N取值为300，足够包含图像中所有的前景物体。

2)扩展Sparse-RCNN的检测头部得到图像前景分割头部(Thing Head)，得到前景分割的结果输出；

经过Sparse-RCNN的检测器，整个模型可以输出前景目标的检测结果。但是全景分割最终要求输出前景分割结果和背景分割结果。首先我们考虑建模前景查询向量(ThingQuery)来使得检测器可以输出前景分割的结果。我们扩展了Sparse-RCNN中的N个查询向量(ObjectQuery)来让该向量编码分割的信息，这里我们使用学习编码向量的形式(MaskEncoding)来编码前景分割结果。其中，Mask Encoding部分使用多层感知机(MLP)对查询向量进行特征的映射，映射后的特征作为前景分割结果的表达。在本发明创建的图像前景类和背景类分割网络模型的训练之前，我们利用整个数据集的前景分割标注预先训练一个编码映射矩阵。该编码映射矩阵是有一个编码器和解码器网络构成，我们的目标是尽可能地用编码器分割结果压缩到编码向量的形式，在利用解码器把编码向量解码成原始的分割结果。在我们的网络的训练时，我们会优化查询向量进行特征的映射后的向量与预训练的编码器进行特征映射后的向量之前的距离，将该优化距离作为前景分割的损失函数。在测试的时候，我们会使用预训练的解码器来解码特征的映射后的向量，得到最后的前景分割的输出。后续的实验证明了这种设计不仅可以提升前景目标检测的结果，并且相比于先前额外的Mask Head还能节省计算量和计算的开销，使得模型推理的速度变快。这时候，模型可以输出N个前景的分割结果。

3)使用背景查询向量(Stuff Query)，在背景分割头部(Stuff Head)中进行背景类图像分割；

对于背景类的分割，我们提出了使用背景查询向量(Stuff Query)来表征整个场景中背景的分割结果，其中。利用背景查询向量，我们提出了一种新颖的建模背景分割的方法。该方法主要包括：(1)，全局交互模块(2)，残差融合模块。全局交互模块是使用我们提出的背景查询向量和原始的特征集合{F1,F2,F3,F4}进行融合和交互。首先对原始的特征集合进行特征的融合，这里我们使用双线性插值的方法把不同分辨率的特征插值到相同的分辨率上，得到一个融合后的特征。我们使用自注意机制对背景查询向量和融合后的特征进行建模。其中，自注意机制可以输出全局注意力关系图，该关系图显示地建模了每个查询向量和每个特征点的映射关系，因此我们可以得到图像上的全局信息表征。接着，我们把输出的全局注意力关系图和上一步骤融合后的特征作为卷积神经网络的输入，用卷积神经网络进行融合，融合后的特征作为背景分割的全局输出。由于全局交互模块是直接把每个背景查询向量(Stuff Query)映射到每个背景类别，对于分割的边缘和细节没有很好处理。为此，我们提出了残差融合模块，这个模块是对全局交互模块输出结果的一个补充。残差融合模块模块由一个全卷积层构成，该全卷积层可以直接输出背景分割的结果。最终的背景分割结果是由上述两个模块的输出相加得到。

4)得到前景和背景分割的结果后，使用图像融合方法将前景和背景分割结果进行融合，得到最终的全景分割的结果。

与现有技术相比，本发明的有益效果是：

本发明提供一种基于查询向量的端到端的全景图像分割方法，使用查询向量来有效地表征全景图像分割的结果输出，包括图像前景类分割结果(things)和图像背景类分割结果(stuff)，创建和建立全景图像分割模型，使得模型训练收敛的速度快，缩短训练时间，同时保证全景的分割结果较好。

1，相比于之前的技术，本方法使得整个全景分割的流程更加简单。本方法简化了之前方法中的一些特定的设计，比如目标检测中的RPN和实例分割中的Mask Head等等，还有后处理中的NMS模块，提出两种的分割编码模块的计算复杂度较低。

2，本方法用不同的查询向量来表征前景类和背景类使得整个训练过程加快，收敛更快，并且提出的前景查询向量对于目标检测本身也有额外的增益，使得整体模型的性能提升。

3，本方法提出的背景查询向量的方法可以很好的建模整个背景上下文，同时还能有效地做到细节的保留。

4，本方法在国际数据集COCO上取得了比之前的使用复杂流程的一些方法更好的全景分割结果。

附图说明

图1为现有技术采用不同的全景分割方法的对比示意图；

其中，(a)为分别处理图像前景分割和背景分割(b)为基于查询向量统一的前背景分割结果。

图2是本发明基于查询向量的全景分割方法的流程示意图。

图3是本发明方法建立的前景分割头部(Thing Head)的结构示意图。

图4是本发明方法建立的背景分割头部(Stuff Head)的结构框图。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供基于查询向量的端到端的全景图像分割方法，其中，基于查询向量的全景分割框架是基于文献(Sparse R-CNN:End-to-End Object Detection withLearnable Proposals)中记载的目标检测器Sparse-RCNN。这种检测器可以很快地收敛，并且可以实现端到端的检测。为此，本发明基于该检测器搭建基于查询向量的端到端的全景图像分割模型。整个流程由图2所示。对于输入的图像(Input Image)，我们使用卷积神经网络(Convolution Neural Network,CNN)和特征金字塔网络(Feature Pyramid Network,FPN)获得图像的特征(features)。然后对于前景类图像分割，我们把前景查询向量(ThingQuery)和背景查询向量(Stuff Query)分别送入到两个前景分割头部(Thing Head)和背景分割头部(Stuff Head)，得到前景分割的结果(N个前景分割结果，其中N是动态调整的)和背景分割的结果(C个背景分割结果，C是固定的)。最终的全景分割可以由两个前景类分割和背景类分割的结果进行融合得到。

具体实施包括如下五个步骤：

1)获得输入图像的特征：

2)使用Sparse-RCNN检测方法作为全景分割的前景特征提取器：该检测器使用了一组查询向量(Object Query)和查询框(Query Box)来对输入的特征{F1,F2,F3,F4}进行前景目标的检测。其中每个向量和每个查询框是一一对应，即每个向量对应一个目标检测的结果，该目标检测的结果即为前景的分割结果。查询向量和查询框内的特征会通过动态卷积(DynamicConvolution)进行交互，以增强目标的前景特征，这里的动态卷积模块是指使用查询框对应的特征去动态地生成卷积核，然后对每个查询向量进行加权求和操作。假设模型里面有N个查询向量，代表整个场景中最多有N个前景物体，一般N取值为300，足够包含图像中所有的前景物体。查询向量(Object Query)和后续的前景查询向量(ThingQuery)是一一对应的。这里我们只考虑该向量用作检测器的方式。

3)扩展Sparse-RCNN的检测头部得到图像前景分割头部(Thing Head)，以此得到前景分割的输出。

如图3所示，本发明基于Sparse-RCNN的检测头部进行拓展，创建图像前景类的分割头部(Thing Head)，使得图像前景类的分割头部不仅能够进行分类和检测，同时还能进行图像分割。我们把Sparce-RCNN中的N个查询向量(Object Query)扩展到前景查询向量(ThingQuery)，这里的区别在于，我们想对每个前景查询向量(Thing Query)同时进行检测和分割。我对每个查询向量(Object Query)通过额外的多层感知机(Multiple LayerPerceptron,MLP)层来实现前景目标的分割。我们的假设是每个前景查询向量(ThingQuery)自身可以去编码前景的分割结果。

这里我们使用学习编码向量的形式(Mask Encoding)来编码前景分割结果。其中，MaskEncoding部分使用多层感知机(MLP)对查询向量进行特征的映射，映射后的特征作为前景分割结果的表达。这里映射后的前景分割表达包含了前景物体的实例信息。在训练前，我们会对整个数据集的前景分割标注训练一个编码和解码的模型，该模型是进行自监督训练得到的。这个模型使用编码器和解码器的结构，编码器用于把前景分割结果映射为向量，解码器模型用于把向量映射回原始的前景分割结果。这个编码和解码的模型是事先训练好的模型。

因此，在进行全景分割的训练时，我们会优化查询向量进行特征的映射后的向量与对前景分割标注进行特征映射后的向量之前的距离，该距离作为前景分割的损失函数。在测试的时候，最后的分割编码可以直接由训练之前学习好的解码器直接恢复到相对于原始的图像大小的分割结果，因此每个前景查询向量(Thing Query)可以解码输出一个前景的分割结果。相比于直接加上分割的头部来进行分割，该方法计算量会更小，训练的速度更快。因此经过Thing Head，我们可以得到N个前景的分割结果。

4)使用背景查询向量(Stuff Query)，在背景分割头部(Stuff Head)中进行背景类图像分割；

对于背景类的分割，如图4所示，我们提出了用查询向量和提取出来的特征作为最后分割结果的输出，即查询向量中的每一类别对应每一个背景类。主要的步骤包含两个步骤，(1)，全局交互模块(2)，残差融合模块。

全局交互模块是使用我们提出的背景查询向量和原始的特征集合{F1,F2,F3,F4}进行融合和交互。我们首先对原始的特征集合进行特征的融合，这里我们使用双线性插值的方法把不同分辨的特征插值到相同的分辨率上，得到一个融合的后的特征，该融合后的特征和背景查询向量(Stuff Query)作为Stuff Head的输入。我们使用自注意机制对背景查询向量和融合后的特征进行建模。接着，我们把输出的全局注意力的关系图和原始的特征进行融合，这里我们使用卷积神经网络进行融合，这里我们使用了分层卷积模块来进一步地降低计算开销。我们把经过融合后的特征作为背景分割的全局输出，这里我们对每个背景查询向量(Stuff Query)进行分割预测得到最后的C个背景分割结果。由于该模块是直接把每个背景查询向量(StuffQuery)映射到每个背景类别，因此对于分割的边缘和细节没有很好处理。为此，我们使用步骤2:残差融合模块，该模块是对全局交互模块输出结果的一个补充，这个模块由一个全卷积层构成，该全卷积层可以直接输出背景分割的结果，直接得到C个背景分割结果。最终的背景分割结果是由上述两个模块的输出的C个背景分割结果对应相加得到。

5)融合N个前景分割结果和C个背景分割结果得到最终的全景分割结果：

经过步骤3可以得到前景分割的结果(N个前景分割结果)，进过步骤4可以得到背景分割的结果(C个背景分割结果)。最终的全景分割可以由两个前景类分割和背景类分割的结果进行融合得到。

具体实施时，我们采用Pytorch实现上述基于查询向量的端到端的全景图像分割方法。我们使用开源的检测框架Detectron2来进行实现本发明创建的基于查询向量的端到端的全景图像分割模型的训练与测试对比。我们的方法主要是标准国际图像数据集COCO进行训练和测试，其中方法实施采用的设置和已有工作是保持一致的，以方便公平对比。测试的指标是Panoptic Quality(全景分割质量)，该指标综合衡量了场景中的每个像素分割效果，因此所有的对比方法都使用这个指标来公平对比。

表1

(a)Comparison on COCO validation set.

表2

(b)Comparison on COCO test-dev.

表1是我们提出的查询向量的全景分割方法(QueryPanSeg)在COCO的验证集上的实验结果，表2是在测试集上的实验结果。我们使用标准的全景分割的评估指标PQ来对比不同方法的结果。从表1和表2的结果可见，本发明方法得到的图像全景分割最优，都取得领先的结果。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于查询向量的端到端的全景图像分割方法，其特征是，使用查询向量表征全景图像分割的过程和输出的结果；查询向量Object Query包括前景查询向量Thing Query和背景查询向量Stuff Query；建立全景图像分割模型，包括分别建立图像前景类分割模型和图像背景类分割模型；将前景查询向量和背景查询向量分别映射到图像前景类分割结果things和图像背景类分割结果stuff；基于前景查询向量和背景查询向量进行检测训练，缩短前景目标的检测训练时间，实现端到端地训练和输出前景分割结果背景的分割结果；包括如下步骤：

1）使用基于稀疏目标框的检测器Sparse-RCNN，进行图像的特征抽取和前景目标检测框的检测；包括：

11）进行图像特征抽取，获得输入图像的特征：

对输入的图像，使用卷积神经网络CNN和特征金字塔网络FPN获得图像的特征集合，记为{F1,F2,F3,F4}；

12）检测前景目标检测框，对输入图像的特征{F1,F2,F3,F4}回归得到图像中的前景的位置，即前景中的目标检测框的位置；

利用Sparse-RCNN检测器，使用一组查询向量和查询框Query Box对特征{F1,F2,F3,F4}进行前景目标的检测；其中每个查询向量和每个查询框一一对应，即每个向量对应一个目标检测的结果；

查询向量和查询框内的特征通过动态卷积进行交互，增强目标的前景特征；所述动态卷积是指使用查询框对应的特征动态地生成卷积核，再对每个查询向量进行加权；

2）扩展Sparse-RCNN检测器的检测头部，得到图像前景分割头部Thing Head，即得到前景分割结果输出；包括：

首先，建模前景查询向量Thing Query，使得检测器输出前景分割的结果；

然后，扩展Sparse-RCNN检测器中的N个查询向量，通过查询向量编码分割的信息；具体是通过学习编码向量的形式Mask Encoding编码前景分割结果；其中，编码向量的形式MaskEncoding使用多层感知机MLP对查询向量进行特征映射，将映射后的特征作为前景分割结果；

在网络模型训练之前，利用图像数据集的前景分割标注训练编码映射矩阵；编码映射矩阵包括编码器和解码器；

在网络模型训练时，对查询向量进行特征的映射后的向量与预训练的编码器进行特征映射后的向量之前的距离进行优化，将优化距离作为前景分割的损失函数；

使用预训练的解码器，解码特征的映射后的向量，得到前景分割的输出，即模型的输出为N个前景的分割结果；

3）使用背景查询向量Stuff Query表征图像背景的分割结果，在背景分割头部StuffHead中进行背景类图像分割，得到背景分割结果；包括：

31）进行全局交互；具体是使用背景查询向量和特征集合{F1,F2,F3,F4}进行融合和交互：

首先对特征集合进行特征的融合，将不同分辨率的特征插值到相同的分辨率上，得到融合后的特征；再使用自注意机制对背景查询向量和融合后的特征进行建模；自注意机制输出全局注意力关系图，该关系图对每个查询向量和每个特征点的映射关系建模，由此得到图像的全局信息表征；

32）进行残差融合，将每个背景查询向量Stuff Query映射到每个背景类别；

具体是使用卷积神经网络将输出的全局注意力的关系图和特征集合{F1,F2,F3,F4}进行融合，将融合后的特征作为背景分割的全局输出；

进行残差融合的模块为一个全卷积层，该全卷积层直接输出背景分割的结果；

4）将得到的前景分割结果和背景分割结果，使用图像融合方法进行融合，由此得到全景分割的结果；

通过上述步骤，实现基于查询向量的端到端的全景图像分割。

2.如权利要求1所述基于查询向量的端到端的全景图像分割方法，其特征是，步骤11）中，进行图像特征抽取具体使用在ImageNet预训练后的模型结构ResNet和FPN。

3.如权利要求1所述基于查询向量的端到端的全景图像分割方法，其特征是，查询向量的数量N代表图像中所有的前景物体。

4.如权利要求3所述基于查询向量的端到端的全景图像分割方法，其特征是，N取值为300。

5.如权利要求1所述基于查询向量的端到端的全景图像分割方法，其特征是，步骤31）中，具体是使用双线性插值方法把不同分辨的特征插值到相同的分辨率上。

6.如权利要求1所述基于查询向量的端到端的全景图像分割方法，其特征是，具体是采用Pytorch实现所述基于查询向量的端到端的全景图像分割方法。

7.如权利要求1所述基于查询向量的端到端的全景图像分割方法，其特征是，具体是使用开源的检测器Detectron2实现所述全景图像分割模型的训练与测试。

8.如权利要求1所述基于查询向量的端到端的全景图像分割方法，其特征是，步骤3）中，实现背景类图像分割方法的背景分割建模系统包括：全局交互模块和残差融合模块；

所述全局交互模块用于使用背景查询向量和特征集合{F1,F2,F3,F4}进行融合和交互，将每个背景查询向量映射到每个背景类别，融合后的特征作为背景分割的全局输出；

所述残差融合模块用于对全局交互模块输出结果进行改进；残差融合模块由一个全卷积层构成，该全卷积层直接输出背景分割的结果；

将全局交互模块和残差融合模块的输出相加，即得到最终的背景分割结果。