CN113223038A

CN113223038A - 一种基于离散余弦变换的掩码表示的实例分割方法

Info

Publication number: CN113223038A
Application number: CN202110564579.4A
Authority: CN
Inventors: 沈星; 李特; 杨吉锐; 顾建军; 金鑫; 查长海
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2021-05-24
Filing date: 2021-05-24
Publication date: 2021-08-06

Abstract

本发明公开了一种基于离散余弦变换的掩码表示的实例分割方法，该方法通过应用离散余弦变换(DCT)将高分辨率二值掩码编码为紧凑的向量，提出了一种新的Mask表示，称为DCT‑Mask，该方法可以集成到大多数基于像素的实例分割方法中。DCT‑Mask可以在不同的基准模型、网络框架、数据集中获得显著的效果，同时它不需要任何预处理或预训练，并且几乎不会影响速度。特别是对于更高质量的标注和更复杂的基准模型，该方法有更大的提升。DCT‑Mask起作用的主要原因是它具有低复杂度的高质量掩码表示。

Description

一种基于离散余弦变换的掩码表示的实例分割方法

技术领域

本发明属于计算机视觉领域，尤其涉及一种基于离散余弦变换的掩码表示的实例分割方法。

背景技术

实例分割任务涉及检测对象，并将类别标签分配给每一个像素点，它是许多计算机视觉任务(例如自动驾驶和机器人操纵)的基石。近年来，深度卷积神经网络(CNN)的应用极大地促进了实例分割的发展。基于像素的方法是主流方法之一，其由对象检测器生成边界框，并在低分辨率网格内预测掩码。

二值网格化的掩码(Mask)表示广泛用于实例分割中。代表性的实例分割网络模型Mask R-CNN，它可以在预测28×28的二进制网格上的掩码。但是在实际的场景中，低分辨率的掩码表示的不足以准确地表示出掩码的信息，而直接使用更大分辨率网格会大大增加训练复杂度且需要大量的计算资源。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于离散余弦变换的掩码表示的实例分割方法。本发明可以提高掩码质量同时降低复杂度。

本发明的目的是通过以下技术方案来实现的：一种基于离散余弦变换的掩码表示方法，根据输入图像的二进制掩码得到向量化的掩码表示，具体为：先将输入图像的二进制掩码统一调整为K×K；再用二维二型离散余弦变换将调整后的K×K掩码变换到频域上；最后以之字形的方式从中选取一个N维向量，得到向量化的掩码表示。

进一步地，先将所述向量化的掩码表示按之字形的方式填入K×K矩阵，并在其它部分填入0，把所述向量化的掩码表示复原为K×K掩码，再采用二维逆离散余弦变换将其从频域变换到二维图像空间，用于调整为任意大小的掩码表示。

进一步地，采用双线性插值调整大小。

一种基于离散余弦变换的掩码表示的实例分割方法，该方法采用基于像素的实例分割框架；其中，掩码分支基于预选边界框，先使用四个卷积层提取掩码的特征，再使用三个全连接层回归得到目标掩码向量V。其中，卷积层的设置与实例分割框架相同；前两层全连接层的输出大小为1024，最后一层的输出大小为目标掩码向量V的维数N。

基于目标掩码向量V的真值利用损失函数训练实例分割模型；其中，目标掩码向量V的真值是训练图像的二进制掩码调整大小为K×K后，采用二维二型离散余弦变换到频域上，再以之字形的方式从中选取的N维向量。

将待处理图像输入训练好的实例分割模型，掩码分支预测每个预选边界框的目标掩码向量V，将向量V按之字形的方式填入K×K矩阵且其它部分填0，复原得到K×K掩码，再采用二维逆离散余弦变换从频域变换到二维图像空间，最后调整为任意大小的掩码表示，用于实例分割。

进一步地，所述基于像素的实例分割框架为Mask R-CNN。

本发明的有益效果是：本发明的DCT掩码表示引入了离散余弦变换，在降低训练复杂度的同时提升了掩码表示的质量；将二值网格化的低精度掩码表示替换为离散余弦变换后的高分辨率向量化掩码表示。DCT掩码表示(DCT-Mask)在不同的网络架构(Mask R-CNN和Cascade Mask R-CNN)、不同的基准模型(ResNet-50、ResNet-101和ResNeXt-101)和不同数据集(COCO和LVIS)上都有显著的效果提升。同时它不需要任何预处理或预训练，并且几乎不会影响速度。特别是对于更高质量的标注和更复杂的基准模型，该方法有更大的提升。DCT-Mask起作用的主要原因是它具有低复杂度的高质量掩码表示。本发明DCT-Mask具有比绝大多数方法更高的准确率，可以达到业界顶尖水平的效果。

附图说明

图1是DCT掩码表示的流程图；

图2是DCT掩码表示在Mask-RCNN中实现的网络框架图；其中，(a)为Mask R-CNN，(b)为DCT-Mask R-CNN。

具体实施方式

本发明一种基于离散余弦变换的掩码表示的实例分割方法，包括离散余弦变换掩码表示(DCT-Mask)、在Mask R-CNN上的实现两个部分。本发明通过应用离散余弦变换(DCT)将高分辨率二值掩码编码为紧凑的向量，提出了一种新的Mask表示，称为DCT-Mask，该方法可以集成到大多数基于像素的实例分割方法中。

本发明提出一种DCT掩码表示。DCT掩码表示类似于JPEG，它将二进制掩码编码成一个紧凑的向量。如图1所示，包括将原始大小的掩码编码为一个紧凑向量V，和对V进行解码重构掩码两部分：

(1)从任意大小的二进制掩码M_gt中得到一个紧凑的向量化的掩码表示。

(1.1)用双线性插值将原图像中的任意大小的二进制掩码M_gt统一调整为128×128的掩码M_K×K，K＝128。

(1.2)用二维二型离散余弦变换将掩码变换到频域上；其公式为：

其中，M_DCT为变换到频域上的掩码，u,v为M_DCT上的像素点；当u＝1时，

否则C(u)＝1，C(v)同理；x,y为M_K×K上的像素点。

(1.3)由于DCT具有较强的能量压缩特性，以“之字形”(Zig-zag)的方式，从变换到频域上的掩码M_DCT中，截取前N维向量，从而得到一个紧凑的向量化的掩码表示V。

(2)把向量化的掩码表示复原为原始大小的掩码。

(2.1)IDCT：在预测过程中，先将前N维向量V按“之字形”的方式填入128×128矩阵，并在其它部分填入0，从而把步骤(1.3)向量化的掩码V表示复原为128×128的掩码

之后采用二维逆离散余弦变换将复原的128×128掩码

从频域变换回二维图像空间；其公式为：

其中，

为变换到二维图像空间的复原掩码。

(2.2)使用双线性插值将步骤(1.4)预测的掩码调整为原始大小。

基于本发明的DCT掩码表示，可以使用一个N维向量作为掩码表示，而不是二值图像，这大大减少了冗余，可以准确地捕捉到物体的形状，并且显著地提高了掩码表示的质量。

本发明DCT掩码表示在Mask R-CNN上的实现，具体为：

(a)模型结构

如图2所示，Mask R-CNN是一种两阶段的实例分割方法。第一阶段通过区域建议网络(RPN)生成关于区域的建议(预选边界框ROI)。第二阶段包括检测分支和掩码分支。检测分支基于R-CNN Head的第一阶段生成的预选边界框ROI，预测对象的类别并细化边界框。掩码分支也基于第一阶段生成的预选边界框ROI，通过Mask Head进行像素分类生成目标的掩码，现有的Mask R-CNN采用的是28×28大小的掩码。此外，Mask Head的预测是class-agnostic类别无关的，通过保持较小的输出规模来降低训练复杂度。

利用本发明提出的DCT掩码表示，掩码分支基于预选边界框ROI，先使用4个卷积层来提取掩码的特征，再使用3个全连接层来回归得到DCT掩码向量V。其中，卷积层的设置与Mask R-CNN相同，kernel size为3，filter number为256；前两层全连接层的输出大小为1024，最后一层的输出大小为DCT掩码向量V的维数N＝300。由于本发明中掩码分支预测的是一个紧凑的向量V，而不是二进制网格，可以采用更大的掩码表示，从而取得更好的效果。

(b)损失函数

在DCT掩码表示中，掩码分支的DCT掩码向量真实值，是由Mask R-CNN预测生成的28×28掩码，经过步骤(1)离散余弦变换编码的向量，也就是一个回归问题。这里定义Mask掩码分支的损失函数L_mask如下：

其中，1^obj是对于正样本的指标函数，D是距离测度，这里我们使用L1损失函数，V_i，

分别指第i个真实值的向量和预测的向量。

对应地，可以定义模型损失函数L：

其中，L_det指检测分支的损失函数，λ_mask是对应的参数。

(c)模型预测

在预测过程中遵循标准的Mask R-CNN推理过程。采用非极大值抑制NMS，选择k个得分最高的预测框，经过RoIAlign后输入掩码分支。掩码分支预测每个边界框的DCT掩码向量V；最终预测框内的掩码根据步骤(1.3)的IDCT过程，由DCT掩码向量解码生成。

类似地，该方法也可以很容易地应用到其它基于像素的实例分割框架中。

表1：DCT-Mask在不同条件下的效果

从表1可以看出，DCT掩码表示(DCT-Mask)在不同的网络架构(Mask R-CNN和Cascade Mask R-CNN)，不同的基准模型(ResNet-50、ResNet-101和ResNeXt-101)和不同数据集(COCO和LVIS)上都有显著的效果提升。

表2：DCT-Mask与其它方法的效果对比

方法	基准模型	aug.	sched.	AP	AP@50	AP@75	AP<sub>S</sub>	AP<sub>M</sub>	AP<sub>L</sub>
										MElnst	Res-101-FPN	√	3×	33.9	56.2	35.4	19.8	36.1	42.3
TensorMask	Res-101-FPN	√	6×	37.1	59.3	39.4	17.4	39.1	51.6
										MaskLab+	Res-101-C4	√	3×	37.3	59.8	39.6	16.9	39.9	53.5
MS R-CNN	ResNet-101-FPN		18e	38.3	58.8	41.5	17.8	40.4	54.4
										BlendMask	Res-101-FPN	√	3×	38.4	60.7	41.3	18.2	41.5	53.3
Mask R-CNN	ResNet-101-FPN	√	3×	38.8	60.9	41.9	21.8	41.4	50.5
										CondInst	Res-101-FPN	√	3×	39.1	60.9	42.0	21.5	41.7	50.9
SOLOv2	Res-101-FPN	√	3×	39.7	60.7	42.9	17.3	42.9	57.4
										HTC	ResNet-101-FPN		20e	39.7	61.8	43.1	21.0	412.2	53.5
HTC	ResNeXt-101-FPN		20e	41.2	63.9	44.7	22.8	43.9	54.6
										DCT-Mask R-CNN	ResNet-101-FPN	√	3×	40.1	61.2	43.6	22.7	42.7	51.8
DCT-Mask R-CNN	ResNeXt-101-FPN	√	3×	42.0	63.6	45.7	25.1	44.7	53.3
										Casecade DCT-Mask R-CNN	ResNet-101-FPN	√	3×	41.0	61.7	44.7	23.7	43.3	52.6
Casecade DCT-Mask R-CNN	ResNeXt-101-FPN	√	3×	42.6	64.0	46.4	25.2	45.1	54.3

从表2可以看出，DCT-Mask具有比绝大多数方法更高的准确率，可以达到业界顶尖水平的效果；其中，aug.是在训练过程中是否使用了多尺度数据增强，sched.是所使用的学习率变化策略。

Claims

1.一种基于离散余弦变换的掩码表示方法，其特征在于，根据输入图像的二进制掩码得到向量化的掩码表示，具体为：先将输入图像的二进制掩码统一调整为K×K；再用二维二型离散余弦变换将调整后的K×K掩码变换到频域上；最后以之字形的方式从中选取一个N维向量，得到向量化的掩码表示。

2.如权利要求1所述基于离散余弦变换的掩码表示方法，其特征在于，先将所述向量化的掩码表示按之字形的方式填入K×K矩阵，并在其它部分填入0，把所述向量化的掩码表示复原为K×K掩码，再采用二维逆离散余弦变换将其从频域变换到二维图像空间，用于调整为任意大小的掩码表示。

3.如权利要求2所述基于离散余弦变换的掩码表示方法，其特征在于，采用双线性插值调整大小。

4.一种基于离散余弦变换的掩码表示的实例分割方法，其特征在于，该方法采用基于像素的实例分割框架；其中，掩码分支基于预选边界框，先使用四个卷积层提取掩码的特征，再使用三个全连接层回归得到目标掩码向量V。其中，卷积层的设置与实例分割框架相同；前两层全连接层的输出大小为1024，最后一层的输出大小为目标掩码向量V的维数N。

5.如权利要求4所述基于离散余弦变换的掩码表示的实例分割方法，其特征在于，所述基于像素的实例分割框架为Mask R-CNN等。