CN113223038A - 一种基于离散余弦变换的掩码表示的实例分割方法 - Google Patents

一种基于离散余弦变换的掩码表示的实例分割方法 Download PDF

Info

Publication number
CN113223038A
CN113223038A CN202110564579.4A CN202110564579A CN113223038A CN 113223038 A CN113223038 A CN 113223038A CN 202110564579 A CN202110564579 A CN 202110564579A CN 113223038 A CN113223038 A CN 113223038A
Authority
CN
China
Prior art keywords
mask
discrete cosine
representation
vector
cosine transform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110564579.4A
Other languages
English (en)
Inventor
沈星
李特
杨吉锐
顾建军
金鑫
查长海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202110564579.4A priority Critical patent/CN113223038A/zh
Publication of CN113223038A publication Critical patent/CN113223038A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/168Segmentation; Edge detection involving transform domain methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/187Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20048Transform domain processing
    • G06T2207/20052Discrete cosine transform [DCT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于离散余弦变换的掩码表示的实例分割方法,该方法通过应用离散余弦变换(DCT)将高分辨率二值掩码编码为紧凑的向量,提出了一种新的Mask表示,称为DCT‑Mask,该方法可以集成到大多数基于像素的实例分割方法中。DCT‑Mask可以在不同的基准模型、网络框架、数据集中获得显著的效果,同时它不需要任何预处理或预训练,并且几乎不会影响速度。特别是对于更高质量的标注和更复杂的基准模型,该方法有更大的提升。DCT‑Mask起作用的主要原因是它具有低复杂度的高质量掩码表示。

Description

一种基于离散余弦变换的掩码表示的实例分割方法
技术领域
本发明属于计算机视觉领域,尤其涉及一种基于离散余弦变换的掩码表示的实例分割方法。
背景技术
实例分割任务涉及检测对象,并将类别标签分配给每一个像素点,它是许多计算机视觉任务(例如自动驾驶和机器人操纵)的基石。近年来,深度卷积神经网络(CNN)的应用极大地促进了实例分割的发展。基于像素的方法是主流方法之一,其由对象检测器生成边界框,并在低分辨率网格内预测掩码。
二值网格化的掩码(Mask)表示广泛用于实例分割中。代表性的实例分割网络模型Mask R-CNN,它可以在预测28×28的二进制网格上的掩码。但是在实际的场景中,低分辨率的掩码表示的不足以准确地表示出掩码的信息,而直接使用更大分辨率网格会大大增加训练复杂度且需要大量的计算资源。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于离散余弦变换的掩码表示的实例分割方法。本发明可以提高掩码质量同时降低复杂度。
本发明的目的是通过以下技术方案来实现的:一种基于离散余弦变换的掩码表示方法,根据输入图像的二进制掩码得到向量化的掩码表示,具体为:先将输入图像的二进制掩码统一调整为K×K;再用二维二型离散余弦变换将调整后的K×K掩码变换到频域上;最后以之字形的方式从中选取一个N维向量,得到向量化的掩码表示。
进一步地,先将所述向量化的掩码表示按之字形的方式填入K×K矩阵,并在其它部分填入0,把所述向量化的掩码表示复原为K×K掩码,再采用二维逆离散余弦变换将其从频域变换到二维图像空间,用于调整为任意大小的掩码表示。
进一步地,采用双线性插值调整大小。
一种基于离散余弦变换的掩码表示的实例分割方法,该方法采用基于像素的实例分割框架;其中,掩码分支基于预选边界框,先使用四个卷积层提取掩码的特征,再使用三个全连接层回归得到目标掩码向量V。其中,卷积层的设置与实例分割框架相同;前两层全连接层的输出大小为1024,最后一层的输出大小为目标掩码向量V的维数N。
基于目标掩码向量V的真值利用损失函数训练实例分割模型;其中,目标掩码向量V的真值是训练图像的二进制掩码调整大小为K×K后,采用二维二型离散余弦变换到频域上,再以之字形的方式从中选取的N维向量。
将待处理图像输入训练好的实例分割模型,掩码分支预测每个预选边界框的目标掩码向量V,将向量V按之字形的方式填入K×K矩阵且其它部分填0,复原得到K×K掩码,再采用二维逆离散余弦变换从频域变换到二维图像空间,最后调整为任意大小的掩码表示,用于实例分割。
进一步地,所述基于像素的实例分割框架为Mask R-CNN。
本发明的有益效果是:本发明的DCT掩码表示引入了离散余弦变换,在降低训练复杂度的同时提升了掩码表示的质量;将二值网格化的低精度掩码表示替换为离散余弦变换后的高分辨率向量化掩码表示。DCT掩码表示(DCT-Mask)在不同的网络架构(Mask R-CNN和Cascade Mask R-CNN)、不同的基准模型(ResNet-50、ResNet-101和ResNeXt-101)和不同数据集(COCO和LVIS)上都有显著的效果提升。同时它不需要任何预处理或预训练,并且几乎不会影响速度。特别是对于更高质量的标注和更复杂的基准模型,该方法有更大的提升。DCT-Mask起作用的主要原因是它具有低复杂度的高质量掩码表示。本发明DCT-Mask具有比绝大多数方法更高的准确率,可以达到业界顶尖水平的效果。
附图说明
图1是DCT掩码表示的流程图;
图2是DCT掩码表示在Mask-RCNN中实现的网络框架图;其中,(a)为Mask R-CNN,(b)为DCT-Mask R-CNN。
具体实施方式
本发明一种基于离散余弦变换的掩码表示的实例分割方法,包括离散余弦变换掩码表示(DCT-Mask)、在Mask R-CNN上的实现两个部分。本发明通过应用离散余弦变换(DCT)将高分辨率二值掩码编码为紧凑的向量,提出了一种新的Mask表示,称为DCT-Mask,该方法可以集成到大多数基于像素的实例分割方法中。
本发明提出一种DCT掩码表示。DCT掩码表示类似于JPEG,它将二进制掩码编码成一个紧凑的向量。如图1所示,包括将原始大小的掩码编码为一个紧凑向量V,和对V进行解码重构掩码两部分:
(1)从任意大小的二进制掩码Mgt中得到一个紧凑的向量化的掩码表示。
(1.1)用双线性插值将原图像中的任意大小的二进制掩码Mgt统一调整为128×128的掩码MK×K,K=128。
(1.2)用二维二型离散余弦变换将掩码变换到频域上;其公式为:
Figure BDA0003080459530000031
其中,MDCT为变换到频域上的掩码,u,v为MDCT上的像素点;当u=1时,
Figure BDA0003080459530000032
否则C(u)=1,C(v)同理;x,y为MK×K上的像素点。
(1.3)由于DCT具有较强的能量压缩特性,以“之字形”(Zig-zag)的方式,从变换到频域上的掩码MDCT中,截取前N维向量,从而得到一个紧凑的向量化的掩码表示V。
(2)把向量化的掩码表示复原为原始大小的掩码。
(2.1)IDCT:在预测过程中,先将前N维向量V按“之字形”的方式填入128×128矩阵,并在其它部分填入0,从而把步骤(1.3)向量化的掩码V表示复原为128×128的掩码
Figure BDA0003080459530000033
之后采用二维逆离散余弦变换将复原的128×128掩码
Figure BDA0003080459530000034
从频域变换回二维图像空间;其公式为:
Figure BDA0003080459530000035
其中,
Figure BDA0003080459530000036
为变换到二维图像空间的复原掩码。
(2.2)使用双线性插值将步骤(1.4)预测的掩码调整为原始大小。
基于本发明的DCT掩码表示,可以使用一个N维向量作为掩码表示,而不是二值图像,这大大减少了冗余,可以准确地捕捉到物体的形状,并且显著地提高了掩码表示的质量。
本发明DCT掩码表示在Mask R-CNN上的实现,具体为:
(a)模型结构
如图2所示,Mask R-CNN是一种两阶段的实例分割方法。第一阶段通过区域建议网络(RPN)生成关于区域的建议(预选边界框ROI)。第二阶段包括检测分支和掩码分支。检测分支基于R-CNN Head的第一阶段生成的预选边界框ROI,预测对象的类别并细化边界框。掩码分支也基于第一阶段生成的预选边界框ROI,通过Mask Head进行像素分类生成目标的掩码,现有的Mask R-CNN采用的是28×28大小的掩码。此外,Mask Head的预测是class-agnostic类别无关的,通过保持较小的输出规模来降低训练复杂度。
利用本发明提出的DCT掩码表示,掩码分支基于预选边界框ROI,先使用4个卷积层来提取掩码的特征,再使用3个全连接层来回归得到DCT掩码向量V。其中,卷积层的设置与Mask R-CNN相同,kernel size为3,filter number为256;前两层全连接层的输出大小为1024,最后一层的输出大小为DCT掩码向量V的维数N=300。由于本发明中掩码分支预测的是一个紧凑的向量V,而不是二进制网格,可以采用更大的掩码表示,从而取得更好的效果。
(b)损失函数
在DCT掩码表示中,掩码分支的DCT掩码向量真实值,是由Mask R-CNN预测生成的28×28掩码,经过步骤(1)离散余弦变换编码的向量,也就是一个回归问题。这里定义Mask掩码分支的损失函数Lmask如下:
Figure BDA0003080459530000041
其中,1obj是对于正样本的指标函数,D是距离测度,这里我们使用L1损失函数,Vi
Figure BDA0003080459530000042
分别指第i个真实值的向量和预测的向量。
对应地,可以定义模型损失函数L:
Figure BDA0003080459530000043
其中,Ldet指检测分支的损失函数,λmask是对应的参数。
(c)模型预测
在预测过程中遵循标准的Mask R-CNN推理过程。采用非极大值抑制NMS,选择k个得分最高的预测框,经过RoIAlign后输入掩码分支。掩码分支预测每个边界框的DCT掩码向量V;最终预测框内的掩码根据步骤(1.3)的IDCT过程,由DCT掩码向量解码生成。
类似地,该方法也可以很容易地应用到其它基于像素的实例分割框架中。
表1:DCT-Mask在不同条件下的效果
Figure BDA0003080459530000044
从表1可以看出,DCT掩码表示(DCT-Mask)在不同的网络架构(Mask R-CNN和Cascade Mask R-CNN),不同的基准模型(ResNet-50、ResNet-101和ResNeXt-101)和不同数据集(COCO和LVIS)上都有显著的效果提升。
表2:DCT-Mask与其它方法的效果对比
方法 基准模型 aug. sched. AP AP@50 AP@75 AP<sub>S</sub> AP<sub>M</sub> AP<sub>L</sub>
MElnst Res-101-FPN 33.9 56.2 35.4 19.8 36.1 42.3
TensorMask Res-101-FPN 37.1 59.3 39.4 17.4 39.1 51.6
MaskLab+ Res-101-C4 37.3 59.8 39.6 16.9 39.9 53.5
MS R-CNN ResNet-101-FPN 18e 38.3 58.8 41.5 17.8 40.4 54.4
BlendMask Res-101-FPN 38.4 60.7 41.3 18.2 41.5 53.3
Mask R-CNN ResNet-101-FPN 38.8 60.9 41.9 21.8 41.4 50.5
CondInst Res-101-FPN 39.1 60.9 42.0 21.5 41.7 50.9
SOLOv2 Res-101-FPN 39.7 60.7 42.9 17.3 42.9 57.4
HTC ResNet-101-FPN 20e 39.7 61.8 43.1 21.0 412.2 53.5
HTC ResNeXt-101-FPN 20e 41.2 63.9 44.7 22.8 43.9 54.6
DCT-Mask R-CNN ResNet-101-FPN 40.1 61.2 43.6 22.7 42.7 51.8
DCT-Mask R-CNN ResNeXt-101-FPN 42.0 63.6 45.7 25.1 44.7 53.3
Casecade DCT-Mask R-CNN ResNet-101-FPN 41.0 61.7 44.7 23.7 43.3 52.6
Casecade DCT-Mask R-CNN ResNeXt-101-FPN 42.6 64.0 46.4 25.2 45.1 54.3
从表2可以看出,DCT-Mask具有比绝大多数方法更高的准确率,可以达到业界顶尖水平的效果;其中,aug.是在训练过程中是否使用了多尺度数据增强,sched.是所使用的学习率变化策略。

Claims (5)

1.一种基于离散余弦变换的掩码表示方法,其特征在于,根据输入图像的二进制掩码得到向量化的掩码表示,具体为:先将输入图像的二进制掩码统一调整为K×K;再用二维二型离散余弦变换将调整后的K×K掩码变换到频域上;最后以之字形的方式从中选取一个N维向量,得到向量化的掩码表示。
2.如权利要求1所述基于离散余弦变换的掩码表示方法,其特征在于,先将所述向量化的掩码表示按之字形的方式填入K×K矩阵,并在其它部分填入0,把所述向量化的掩码表示复原为K×K掩码,再采用二维逆离散余弦变换将其从频域变换到二维图像空间,用于调整为任意大小的掩码表示。
3.如权利要求2所述基于离散余弦变换的掩码表示方法,其特征在于,采用双线性插值调整大小。
4.一种基于离散余弦变换的掩码表示的实例分割方法,其特征在于,该方法采用基于像素的实例分割框架;其中,掩码分支基于预选边界框,先使用四个卷积层提取掩码的特征,再使用三个全连接层回归得到目标掩码向量V。其中,卷积层的设置与实例分割框架相同;前两层全连接层的输出大小为1024,最后一层的输出大小为目标掩码向量V的维数N。
基于目标掩码向量V的真值利用损失函数训练实例分割模型;其中,目标掩码向量V的真值是训练图像的二进制掩码调整大小为K×K后,采用二维二型离散余弦变换到频域上,再以之字形的方式从中选取的N维向量。
将待处理图像输入训练好的实例分割模型,掩码分支预测每个预选边界框的目标掩码向量V,将向量V按之字形的方式填入K×K矩阵且其它部分填0,复原得到K×K掩码,再采用二维逆离散余弦变换从频域变换到二维图像空间,最后调整为任意大小的掩码表示,用于实例分割。
5.如权利要求4所述基于离散余弦变换的掩码表示的实例分割方法,其特征在于,所述基于像素的实例分割框架为Mask R-CNN等。
CN202110564579.4A 2021-05-24 2021-05-24 一种基于离散余弦变换的掩码表示的实例分割方法 Pending CN113223038A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110564579.4A CN113223038A (zh) 2021-05-24 2021-05-24 一种基于离散余弦变换的掩码表示的实例分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110564579.4A CN113223038A (zh) 2021-05-24 2021-05-24 一种基于离散余弦变换的掩码表示的实例分割方法

Publications (1)

Publication Number Publication Date
CN113223038A true CN113223038A (zh) 2021-08-06

Family

ID=77097988

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110564579.4A Pending CN113223038A (zh) 2021-05-24 2021-05-24 一种基于离散余弦变换的掩码表示的实例分割方法

Country Status (1)

Country Link
CN (1) CN113223038A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116843775A (zh) * 2023-09-01 2023-10-03 腾讯科技(深圳)有限公司 一种基于反离散余弦变换的解码方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106780536A (zh) * 2017-01-13 2017-05-31 深圳市唯特视科技有限公司 一种基于对象掩码网络的形状感知实例分割方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106780536A (zh) * 2017-01-13 2017-05-31 深圳市唯特视科技有限公司 一种基于对象掩码网络的形状感知实例分割方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XING SHEN ET AL.: "DCT-Mask: Discrete Cosine Transform Mask Representation for Instance Segmentation", 《ARXIV.ORG》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116843775A (zh) * 2023-09-01 2023-10-03 腾讯科技(深圳)有限公司 一种基于反离散余弦变换的解码方法和装置
CN116843775B (zh) * 2023-09-01 2023-12-22 腾讯科技(深圳)有限公司 一种基于反离散余弦变换的解码方法和装置

Similar Documents

Publication Publication Date Title
CN109087273B (zh) 基于增强的神经网络的图像复原方法、存储介质及系统
CN113177882B (zh) 一种基于扩散模型的单帧图像超分辨处理方法
CN112150354B (zh) 联合轮廓增强与去噪统计先验的单幅图像超分辨率方法
CN109886159B (zh) 一种非限定条件下的人脸检测方法
CN115393396B (zh) 一种基于掩码预训练的无人机目标跟踪方法
CN112884646A (zh) 图像处理系统、图像处理方法以及介质
CN114898227A (zh) 一种云图分割方法
Hui et al. Two-stage convolutional network for image super-resolution
CN116863194A (zh) 一种足溃疡图像分类方法、系统、设备及介质
CN114565789B (zh) 一种基于集合预测的文本检测方法、系统、装置及介质
CN110264483B (zh) 一种基于深度学习的语义图像分割方法
Zhu et al. Semantic image segmentation with shared decomposition convolution and boundary reinforcement structure
CN117115177A (zh) 基于动态通道图卷积与多尺度注意力的闪电通道分割方法
CN109934283B (zh) 一种融合cnn和sift光流的自适应运动目标检测方法
CN113223038A (zh) 一种基于离散余弦变换的掩码表示的实例分割方法
CN113962905A (zh) 基于多阶段特征互补网络的单幅图像去雨方法
CN118134779A (zh) 一种基于多尺度重构Transformer与多维注意力的红外和可见光图像融合方法
CN117237623B (zh) 一种无人机遥感图像语义分割方法及系统
CN117830900A (zh) 一种无监督视频对象分割方法
CN117474796A (zh) 一种图像生成方法、装置、设备及计算机可读存储介质
CN115170807B (zh) 一种图像分割、模型训练方法、装置、设备及介质
CN116665451A (zh) 基于拥堵路段交通信息实时定位指挥处理系统
CN116152263A (zh) 一种基于cm-mlp网络的医学图像分割方法
CN115187775A (zh) 一种遥感图像语义分割方法及装置
CN115115860A (zh) 一种基于深度学习的图像特征点检测匹配网络

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210806

WD01 Invention patent application deemed withdrawn after publication