CN113223038A - 一种基于离散余弦变换的掩码表示的实例分割方法 - Google Patents
一种基于离散余弦变换的掩码表示的实例分割方法 Download PDFInfo
- Publication number
- CN113223038A CN113223038A CN202110564579.4A CN202110564579A CN113223038A CN 113223038 A CN113223038 A CN 113223038A CN 202110564579 A CN202110564579 A CN 202110564579A CN 113223038 A CN113223038 A CN 113223038A
- Authority
- CN
- China
- Prior art keywords
- mask
- discrete cosine
- representation
- vector
- cosine transform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000011218 segmentation Effects 0.000 title claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 10
- 239000011159 matrix material Substances 0.000 claims description 5
- 230000001131 transforming effect Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 8
- 238000007781 pre-processing Methods 0.000 abstract description 2
- 238000013527 convolutional neural network Methods 0.000 description 24
- 230000006870 function Effects 0.000 description 7
- 238000013459 approach Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- YXTWADZIBGVHPZ-UHFFFAOYSA-N 2-chloro-n-(2-chloroethyl)-n-[(5-methylthiophen-2-yl)methyl]ethanamine;hydrochloride Chemical compound Cl.CC1=CC=C(CN(CCCl)CCCl)S1 YXTWADZIBGVHPZ-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/168—Segmentation; Edge detection involving transform domain methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/187—Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20048—Transform domain processing
- G06T2207/20052—Discrete cosine transform [DCT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于离散余弦变换的掩码表示的实例分割方法,该方法通过应用离散余弦变换(DCT)将高分辨率二值掩码编码为紧凑的向量,提出了一种新的Mask表示,称为DCT‑Mask,该方法可以集成到大多数基于像素的实例分割方法中。DCT‑Mask可以在不同的基准模型、网络框架、数据集中获得显著的效果,同时它不需要任何预处理或预训练,并且几乎不会影响速度。特别是对于更高质量的标注和更复杂的基准模型,该方法有更大的提升。DCT‑Mask起作用的主要原因是它具有低复杂度的高质量掩码表示。
Description
技术领域
本发明属于计算机视觉领域,尤其涉及一种基于离散余弦变换的掩码表示的实例分割方法。
背景技术
实例分割任务涉及检测对象,并将类别标签分配给每一个像素点,它是许多计算机视觉任务(例如自动驾驶和机器人操纵)的基石。近年来,深度卷积神经网络(CNN)的应用极大地促进了实例分割的发展。基于像素的方法是主流方法之一,其由对象检测器生成边界框,并在低分辨率网格内预测掩码。
二值网格化的掩码(Mask)表示广泛用于实例分割中。代表性的实例分割网络模型Mask R-CNN,它可以在预测28×28的二进制网格上的掩码。但是在实际的场景中,低分辨率的掩码表示的不足以准确地表示出掩码的信息,而直接使用更大分辨率网格会大大增加训练复杂度且需要大量的计算资源。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于离散余弦变换的掩码表示的实例分割方法。本发明可以提高掩码质量同时降低复杂度。
本发明的目的是通过以下技术方案来实现的:一种基于离散余弦变换的掩码表示方法,根据输入图像的二进制掩码得到向量化的掩码表示,具体为:先将输入图像的二进制掩码统一调整为K×K;再用二维二型离散余弦变换将调整后的K×K掩码变换到频域上;最后以之字形的方式从中选取一个N维向量,得到向量化的掩码表示。
进一步地,先将所述向量化的掩码表示按之字形的方式填入K×K矩阵,并在其它部分填入0,把所述向量化的掩码表示复原为K×K掩码,再采用二维逆离散余弦变换将其从频域变换到二维图像空间,用于调整为任意大小的掩码表示。
进一步地,采用双线性插值调整大小。
一种基于离散余弦变换的掩码表示的实例分割方法,该方法采用基于像素的实例分割框架;其中,掩码分支基于预选边界框,先使用四个卷积层提取掩码的特征,再使用三个全连接层回归得到目标掩码向量V。其中,卷积层的设置与实例分割框架相同;前两层全连接层的输出大小为1024,最后一层的输出大小为目标掩码向量V的维数N。
基于目标掩码向量V的真值利用损失函数训练实例分割模型;其中,目标掩码向量V的真值是训练图像的二进制掩码调整大小为K×K后,采用二维二型离散余弦变换到频域上,再以之字形的方式从中选取的N维向量。
将待处理图像输入训练好的实例分割模型,掩码分支预测每个预选边界框的目标掩码向量V,将向量V按之字形的方式填入K×K矩阵且其它部分填0,复原得到K×K掩码,再采用二维逆离散余弦变换从频域变换到二维图像空间,最后调整为任意大小的掩码表示,用于实例分割。
进一步地,所述基于像素的实例分割框架为Mask R-CNN。
本发明的有益效果是:本发明的DCT掩码表示引入了离散余弦变换,在降低训练复杂度的同时提升了掩码表示的质量;将二值网格化的低精度掩码表示替换为离散余弦变换后的高分辨率向量化掩码表示。DCT掩码表示(DCT-Mask)在不同的网络架构(Mask R-CNN和Cascade Mask R-CNN)、不同的基准模型(ResNet-50、ResNet-101和ResNeXt-101)和不同数据集(COCO和LVIS)上都有显著的效果提升。同时它不需要任何预处理或预训练,并且几乎不会影响速度。特别是对于更高质量的标注和更复杂的基准模型,该方法有更大的提升。DCT-Mask起作用的主要原因是它具有低复杂度的高质量掩码表示。本发明DCT-Mask具有比绝大多数方法更高的准确率,可以达到业界顶尖水平的效果。
附图说明
图1是DCT掩码表示的流程图;
图2是DCT掩码表示在Mask-RCNN中实现的网络框架图;其中,(a)为Mask R-CNN,(b)为DCT-Mask R-CNN。
具体实施方式
本发明一种基于离散余弦变换的掩码表示的实例分割方法,包括离散余弦变换掩码表示(DCT-Mask)、在Mask R-CNN上的实现两个部分。本发明通过应用离散余弦变换(DCT)将高分辨率二值掩码编码为紧凑的向量,提出了一种新的Mask表示,称为DCT-Mask,该方法可以集成到大多数基于像素的实例分割方法中。
本发明提出一种DCT掩码表示。DCT掩码表示类似于JPEG,它将二进制掩码编码成一个紧凑的向量。如图1所示,包括将原始大小的掩码编码为一个紧凑向量V,和对V进行解码重构掩码两部分:
(1)从任意大小的二进制掩码Mgt中得到一个紧凑的向量化的掩码表示。
(1.1)用双线性插值将原图像中的任意大小的二进制掩码Mgt统一调整为128×128的掩码MK×K,K=128。
(1.2)用二维二型离散余弦变换将掩码变换到频域上;其公式为:
(1.3)由于DCT具有较强的能量压缩特性,以“之字形”(Zig-zag)的方式,从变换到频域上的掩码MDCT中,截取前N维向量,从而得到一个紧凑的向量化的掩码表示V。
(2)把向量化的掩码表示复原为原始大小的掩码。
(2.1)IDCT:在预测过程中,先将前N维向量V按“之字形”的方式填入128×128矩阵,并在其它部分填入0,从而把步骤(1.3)向量化的掩码V表示复原为128×128的掩码之后采用二维逆离散余弦变换将复原的128×128掩码从频域变换回二维图像空间;其公式为:
(2.2)使用双线性插值将步骤(1.4)预测的掩码调整为原始大小。
基于本发明的DCT掩码表示,可以使用一个N维向量作为掩码表示,而不是二值图像,这大大减少了冗余,可以准确地捕捉到物体的形状,并且显著地提高了掩码表示的质量。
本发明DCT掩码表示在Mask R-CNN上的实现,具体为:
(a)模型结构
如图2所示,Mask R-CNN是一种两阶段的实例分割方法。第一阶段通过区域建议网络(RPN)生成关于区域的建议(预选边界框ROI)。第二阶段包括检测分支和掩码分支。检测分支基于R-CNN Head的第一阶段生成的预选边界框ROI,预测对象的类别并细化边界框。掩码分支也基于第一阶段生成的预选边界框ROI,通过Mask Head进行像素分类生成目标的掩码,现有的Mask R-CNN采用的是28×28大小的掩码。此外,Mask Head的预测是class-agnostic类别无关的,通过保持较小的输出规模来降低训练复杂度。
利用本发明提出的DCT掩码表示,掩码分支基于预选边界框ROI,先使用4个卷积层来提取掩码的特征,再使用3个全连接层来回归得到DCT掩码向量V。其中,卷积层的设置与Mask R-CNN相同,kernel size为3,filter number为256;前两层全连接层的输出大小为1024,最后一层的输出大小为DCT掩码向量V的维数N=300。由于本发明中掩码分支预测的是一个紧凑的向量V,而不是二进制网格,可以采用更大的掩码表示,从而取得更好的效果。
(b)损失函数
在DCT掩码表示中,掩码分支的DCT掩码向量真实值,是由Mask R-CNN预测生成的28×28掩码,经过步骤(1)离散余弦变换编码的向量,也就是一个回归问题。这里定义Mask掩码分支的损失函数Lmask如下:
对应地,可以定义模型损失函数L:
其中,Ldet指检测分支的损失函数,λmask是对应的参数。
(c)模型预测
在预测过程中遵循标准的Mask R-CNN推理过程。采用非极大值抑制NMS,选择k个得分最高的预测框,经过RoIAlign后输入掩码分支。掩码分支预测每个边界框的DCT掩码向量V;最终预测框内的掩码根据步骤(1.3)的IDCT过程,由DCT掩码向量解码生成。
类似地,该方法也可以很容易地应用到其它基于像素的实例分割框架中。
表1:DCT-Mask在不同条件下的效果
从表1可以看出,DCT掩码表示(DCT-Mask)在不同的网络架构(Mask R-CNN和Cascade Mask R-CNN),不同的基准模型(ResNet-50、ResNet-101和ResNeXt-101)和不同数据集(COCO和LVIS)上都有显著的效果提升。
表2:DCT-Mask与其它方法的效果对比
方法 | 基准模型 | aug. | sched. | AP | AP@50 | AP@75 | AP<sub>S</sub> | AP<sub>M</sub> | AP<sub>L</sub> |
MElnst | Res-101-FPN | √ | 3× | 33.9 | 56.2 | 35.4 | 19.8 | 36.1 | 42.3 |
TensorMask | Res-101-FPN | √ | 6× | 37.1 | 59.3 | 39.4 | 17.4 | 39.1 | 51.6 |
MaskLab+ | Res-101-C4 | √ | 3× | 37.3 | 59.8 | 39.6 | 16.9 | 39.9 | 53.5 |
MS R-CNN | ResNet-101-FPN | 18e | 38.3 | 58.8 | 41.5 | 17.8 | 40.4 | 54.4 | |
BlendMask | Res-101-FPN | √ | 3× | 38.4 | 60.7 | 41.3 | 18.2 | 41.5 | 53.3 |
Mask R-CNN | ResNet-101-FPN | √ | 3× | 38.8 | 60.9 | 41.9 | 21.8 | 41.4 | 50.5 |
CondInst | Res-101-FPN | √ | 3× | 39.1 | 60.9 | 42.0 | 21.5 | 41.7 | 50.9 |
SOLOv2 | Res-101-FPN | √ | 3× | 39.7 | 60.7 | 42.9 | 17.3 | 42.9 | 57.4 |
HTC | ResNet-101-FPN | 20e | 39.7 | 61.8 | 43.1 | 21.0 | 412.2 | 53.5 | |
HTC | ResNeXt-101-FPN | 20e | 41.2 | 63.9 | 44.7 | 22.8 | 43.9 | 54.6 | |
DCT-Mask R-CNN | ResNet-101-FPN | √ | 3× | 40.1 | 61.2 | 43.6 | 22.7 | 42.7 | 51.8 |
DCT-Mask R-CNN | ResNeXt-101-FPN | √ | 3× | 42.0 | 63.6 | 45.7 | 25.1 | 44.7 | 53.3 |
Casecade DCT-Mask R-CNN | ResNet-101-FPN | √ | 3× | 41.0 | 61.7 | 44.7 | 23.7 | 43.3 | 52.6 |
Casecade DCT-Mask R-CNN | ResNeXt-101-FPN | √ | 3× | 42.6 | 64.0 | 46.4 | 25.2 | 45.1 | 54.3 |
从表2可以看出,DCT-Mask具有比绝大多数方法更高的准确率,可以达到业界顶尖水平的效果;其中,aug.是在训练过程中是否使用了多尺度数据增强,sched.是所使用的学习率变化策略。
Claims (5)
1.一种基于离散余弦变换的掩码表示方法,其特征在于,根据输入图像的二进制掩码得到向量化的掩码表示,具体为:先将输入图像的二进制掩码统一调整为K×K;再用二维二型离散余弦变换将调整后的K×K掩码变换到频域上;最后以之字形的方式从中选取一个N维向量,得到向量化的掩码表示。
2.如权利要求1所述基于离散余弦变换的掩码表示方法,其特征在于,先将所述向量化的掩码表示按之字形的方式填入K×K矩阵,并在其它部分填入0,把所述向量化的掩码表示复原为K×K掩码,再采用二维逆离散余弦变换将其从频域变换到二维图像空间,用于调整为任意大小的掩码表示。
3.如权利要求2所述基于离散余弦变换的掩码表示方法,其特征在于,采用双线性插值调整大小。
4.一种基于离散余弦变换的掩码表示的实例分割方法,其特征在于,该方法采用基于像素的实例分割框架;其中,掩码分支基于预选边界框,先使用四个卷积层提取掩码的特征,再使用三个全连接层回归得到目标掩码向量V。其中,卷积层的设置与实例分割框架相同;前两层全连接层的输出大小为1024,最后一层的输出大小为目标掩码向量V的维数N。
基于目标掩码向量V的真值利用损失函数训练实例分割模型;其中,目标掩码向量V的真值是训练图像的二进制掩码调整大小为K×K后,采用二维二型离散余弦变换到频域上,再以之字形的方式从中选取的N维向量。
将待处理图像输入训练好的实例分割模型,掩码分支预测每个预选边界框的目标掩码向量V,将向量V按之字形的方式填入K×K矩阵且其它部分填0,复原得到K×K掩码,再采用二维逆离散余弦变换从频域变换到二维图像空间,最后调整为任意大小的掩码表示,用于实例分割。
5.如权利要求4所述基于离散余弦变换的掩码表示的实例分割方法,其特征在于,所述基于像素的实例分割框架为Mask R-CNN等。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110564579.4A CN113223038A (zh) | 2021-05-24 | 2021-05-24 | 一种基于离散余弦变换的掩码表示的实例分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110564579.4A CN113223038A (zh) | 2021-05-24 | 2021-05-24 | 一种基于离散余弦变换的掩码表示的实例分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113223038A true CN113223038A (zh) | 2021-08-06 |
Family
ID=77097988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110564579.4A Pending CN113223038A (zh) | 2021-05-24 | 2021-05-24 | 一种基于离散余弦变换的掩码表示的实例分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113223038A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116843775A (zh) * | 2023-09-01 | 2023-10-03 | 腾讯科技(深圳)有限公司 | 一种基于反离散余弦变换的解码方法和装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106780536A (zh) * | 2017-01-13 | 2017-05-31 | 深圳市唯特视科技有限公司 | 一种基于对象掩码网络的形状感知实例分割方法 |
-
2021
- 2021-05-24 CN CN202110564579.4A patent/CN113223038A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106780536A (zh) * | 2017-01-13 | 2017-05-31 | 深圳市唯特视科技有限公司 | 一种基于对象掩码网络的形状感知实例分割方法 |
Non-Patent Citations (1)
Title |
---|
XING SHEN ET AL.: "DCT-Mask: Discrete Cosine Transform Mask Representation for Instance Segmentation", 《ARXIV.ORG》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116843775A (zh) * | 2023-09-01 | 2023-10-03 | 腾讯科技(深圳)有限公司 | 一种基于反离散余弦变换的解码方法和装置 |
CN116843775B (zh) * | 2023-09-01 | 2023-12-22 | 腾讯科技(深圳)有限公司 | 一种基于反离散余弦变换的解码方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109087273B (zh) | 基于增强的神经网络的图像复原方法、存储介质及系统 | |
CN113177882B (zh) | 一种基于扩散模型的单帧图像超分辨处理方法 | |
CN112150354B (zh) | 联合轮廓增强与去噪统计先验的单幅图像超分辨率方法 | |
CN109886159B (zh) | 一种非限定条件下的人脸检测方法 | |
CN115393396B (zh) | 一种基于掩码预训练的无人机目标跟踪方法 | |
CN112884646A (zh) | 图像处理系统、图像处理方法以及介质 | |
CN114898227A (zh) | 一种云图分割方法 | |
Hui et al. | Two-stage convolutional network for image super-resolution | |
CN116863194A (zh) | 一种足溃疡图像分类方法、系统、设备及介质 | |
CN114565789B (zh) | 一种基于集合预测的文本检测方法、系统、装置及介质 | |
CN110264483B (zh) | 一种基于深度学习的语义图像分割方法 | |
Zhu et al. | Semantic image segmentation with shared decomposition convolution and boundary reinforcement structure | |
CN117115177A (zh) | 基于动态通道图卷积与多尺度注意力的闪电通道分割方法 | |
CN109934283B (zh) | 一种融合cnn和sift光流的自适应运动目标检测方法 | |
CN113223038A (zh) | 一种基于离散余弦变换的掩码表示的实例分割方法 | |
CN113962905A (zh) | 基于多阶段特征互补网络的单幅图像去雨方法 | |
CN118134779A (zh) | 一种基于多尺度重构Transformer与多维注意力的红外和可见光图像融合方法 | |
CN117237623B (zh) | 一种无人机遥感图像语义分割方法及系统 | |
CN117830900A (zh) | 一种无监督视频对象分割方法 | |
CN117474796A (zh) | 一种图像生成方法、装置、设备及计算机可读存储介质 | |
CN115170807B (zh) | 一种图像分割、模型训练方法、装置、设备及介质 | |
CN116665451A (zh) | 基于拥堵路段交通信息实时定位指挥处理系统 | |
CN116152263A (zh) | 一种基于cm-mlp网络的医学图像分割方法 | |
CN115187775A (zh) | 一种遥感图像语义分割方法及装置 | |
CN115115860A (zh) | 一种基于深度学习的图像特征点检测匹配网络 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210806 |
|
WD01 | Invention patent application deemed withdrawn after publication |