CN115471665A - 基于三分图视觉Transformer语义信息解码器的抠图方法与装置 - Google Patents
基于三分图视觉Transformer语义信息解码器的抠图方法与装置 Download PDFInfo
- Publication number
- CN115471665A CN115471665A CN202211054850.0A CN202211054850A CN115471665A CN 115471665 A CN115471665 A CN 115471665A CN 202211054850 A CN202211054850 A CN 202211054850A CN 115471665 A CN115471665 A CN 115471665A
- Authority
- CN
- China
- Prior art keywords
- matting
- trimap
- visual
- feature map
- semantic information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于三分图视觉Transformer语义信息解码器的抠图方法:用连续的卷积层构建起一个轻量化的细节特征提取层,使用该特征提取层处理图片I,得到细节特征图组{D1,D2,D3,D4};使用三分图视觉Transformer语义信息解码器处理细节特征图D4和三分图Trimap,得到语义特征图S4;通过连续使用抠图解码器,处理上层语义特征图和对应细节特征图,得到融合语义特征图以及层级抠图输出;在训练数据集上训练构建的基于三分图视觉Transformer解码器的抠图网络至收敛;使用训练好的抠图网络处理待抠图图片,最后一层抠图解码器输出的层级抠图输出结果,即为最终的抠图结果。本发明还提供了相应的基于三分图视觉Transformer语义信息解码器的抠图装置。
Description
技术领域
本发明属于深度学习和计算机视觉技术领域,更具体地,涉及一种基于三分图视觉Transformer语义信息解码器的抠图方法与装置。
背景技术
图像抠图是计算机视觉中的一项重要任务。它可以被广泛应用在诸如图像编辑,图像合成,特效制作等任务之中。在过去的几十年里,涌现出了大量抠图的方法:如基于采样的方法或基于传播的方法。然而,由于这些方法通常使用的是人工构造的特征,这些特征往往受制于像素点的颜色、距离等,这使得它们很难处理复杂、需要更多语义信息的情况。
抠图任务用公式可表示为:I=αF+(1-α)B,其中I表示原图,F表示前景图片,B表示背景图片,α表示前景的透明度。求解抠图问题,即求解上式中的α值。然而,由于前景图片F和背景图片B均未知,这使得这一问题在传统思路里为欠约束问题。为此,人们提出了三分图的概念。如下图1所示,三分图是一种人工绘制的提示性图片,它将图片分为了确定前景,确定背景和不确定区域。在确定区域α=1/0,不确定区域即为待求解区域。通过使用三分图,上式变得可解。三分图的使用,也沿用到了后来的基于深度学习的抠图方法中。
近年来,随着深度学习的发展,计算机视觉领域取得了突破性的进步。在计算机视觉下游的图像抠图领域中,已经出现了大量基于卷积神经网络的抠图方法,这些方法推动了图像抠图领域的发展。然而,随着视觉Transformer的快速发展,视觉Transformer已经逐渐取代卷积神经网络,成为了计算机视觉领域的主流趋势。一方面,视觉Transformer的注意力机制可以使得网络的感受野大幅度提高,提取语义信息的能力增强,从而提升了算法的精度。另一方面,视觉Transformer可以被大量数据进行预训练,经过预训练的视觉Transformer可以在下游任务中表现出更优秀的性能。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于三分图视觉Transformer语义信息解码器的图像抠图方法,通过本发明设计的三分图视觉Transformer语义信息解码器和抠图解码器,提升抠图性能。
为实现上述目的,按照本发明的一个方面,提供了一种基于三分图视觉Transformer语义信息解码器的抠图方法,包括如下步骤:
(1)用连续的卷积层构建起一个轻量化的细节特征提取层,使用该特征提取层处理图片I,得到细节特征图组{D1,D2,D3,D4};
(2)使用三分图视觉Transformer语义信息解码器处理细节特征图D4和三分图Trimap,得到语义特征图S4;
(3)通过连续使用抠图解码器,处理上层语义特征图和对应细节特征图,得到融合语义特征图以及层级抠图输出;
(4)在训练数据集上训练由步骤(1)-(3)构建的基于三分图视觉Transformer解码器的抠图网络至收敛;
(5)使用步骤(4)训练好的抠图网络处理待抠图图片,最后一层抠图解码器输出的层级抠图输出结果,即为最终的抠图结果。
本发明的一个实施例中,所述三分图视觉Transformer语义信息解码器通过以下步骤实现:
(2.1)记输入原始图片I的维度为(H,W,3),则输入的原始三分图Trimap的维度为(H,W,1),细节特征图D4的维度为使用最近邻插值下采样Trimap,并在在第三维度上升维至与细节特征图D4维度相同,得到Triamp′,其维度为
(2.2)将处理后的三分图Triamp′与细节特征图D4相加,并通过一个线性层;将线性层的输出结果与细节特征图D4相加,构建基于三分图的残差结构,最终得到语义特征图Stri;
(2.3)级联朴素视觉Transformer层,构建朴素视觉Transformer;
(2.4)根据已有的掩码自编码器方法在图像分类数据集上预训练朴素视觉Transformer,得到模型的预训练权重。
本发明的一个实施例中,所述抠图解码器通过以下步骤实现:
(3.1)在抠图解码器MDi中,先将来自于上层抠图解码器或三分图视觉Transformer语义信息解码器的上层语义特征图Si+1进行双线性插值上采样,并通过卷积层,得到语义特征图Si+1′;
(3.2)将语义特征图Si+1′和细节特征图Di拼接,得到中间特征图mSi,将mSi通过卷积层,生成新的融合语义特征图Si;并且将mSi进行反卷积,然后进行三个轻量化卷积同时使用归一化指数函数,得到层级抠图输出αi;
(3.3)在训练时,使用损失函数对所有的层级抠图输出进行监督,对已经训练好的网络,使用最后一层抠图输出α1为最终抠图结果。
本发明的一个实施例中,所述步骤(2.2)的计算公式为Stri=D4+linear(D4+Triamp′),其中linear表示线性层。
本发明的一个实施例中,所述线性层采用全零初始化。
本发明的一个实施例中,在所述步骤(2.3)中,每层朴素视觉Transformer层block_n,将中间语义特征图MSn-1映射为矩阵查询矩阵Qn,键矩阵Kn和值矩阵Vn,通过自注意力机制和线性层,得到新的中间语义特征图MSn。
本发明的一个实施例中,在所述步骤(2.4)中进行训练时,使用MAE预训练后的朴素视觉Transformer权重对所述朴素视觉Transformer模块进行初始化。
本发明的一个实施例中,所述步骤(3.2)的计算公式为:
Si=Conv(mSi)
αi=softmax(Convs(TransConv(mSi)))
本发明的一个实施例中,在所述步骤(3)中,对层级抠图输出采用深度监督的训练策略。
按照本发明的另一方面,还提供了一种基于三分图视觉Transformer语义信息解码器的抠图装置,包括至少一个处理器和存储器,所述至少一个处理器和存储器之间通过数据总线连接,所述存储器存储能被所述至少一个处理器执行的指令,所述指令在被所述处理器执行后,用于完成上述的基于三分图视觉Transformer语义信息解码器的抠图方法。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有如下有益效果:
本发明提供了一种基于三分图视觉Transformer语义信息解码器的图像抠图方法。通过本发明设计的三分图视觉Transformer语义信息解码器,大幅度提升了抠图网络的语义信息提取能力和三分图信息提取能力。并且本发明还设计了一个抠图解码器,能够更加高效地融合语义信息和细节信息,并对网络提供深度监督,进一步提升了抠图的性能。
附图说明
图1是本发明实施例中一种三分图示例图;
图2是本发明实施例中一种基于三分图视觉Transformer语义信息解码器的抠图网络的原理示意图;
图3是本发明实施例中一种三分图视觉Transformer语义信息解码器的原理示意图;
图4是本发明实施例中一种抠图解码器的原理示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
图2是本发明实施例中一种基于三分图视觉Transformer语义信息解码器的抠图网络的原理示意图。如图2所示,本发明提供了一种基于三分图视觉Transformer语义信息解码器的抠图方法,包括:
(1)用连续的卷积层构建起一个轻量化的细节特征提取层,使用该特征提取层处理图片I,得到细节特征图组{D1,D2,D3,D4};
(2)使用三分图视觉Transformer语义信息解码器处理细节特征图D4和三分图Trimap,得到语义特征图S4;
(3)通过连续使用抠图解码器,处理上层语义特征图和对应细节特征图,得到融合语义特征图以及层级抠图输出;
(4)在训练数据集上训练由步骤(1)-(3)构建的基于三分图视觉Transformer语义信息解码器的抠图网络至收敛;
(5)使用步骤(4)训练好的抠图网络处理待抠图图片,最后一层抠图解码器输出的层级抠图输出结果,即为最终的抠图结果。
进一步地,如图3所示,所述步骤(2)中的三分图视觉Transformer语义信息解码器通过以下步骤实现:
(2.1)记输入原图I的维度为(H,W,3),则输入的原始三分图Trimap的维度为(H,W,1),细节特征图D4的维度为使用最近邻插值下采样Trimap,并在在第三维度上升维至与细节特征图D4维度相同,得到Triamp′。其维度为
(2.2)将处理后的三分图Triamp′与细节特征图D4相加,并通过一个线性层;将线性层的输出结果与细节特征图D4相加,构建基于三分图的残差结构。最终得到语义特征图Stri,如下公式所示,其中linear表示线性层:
Stri=D4+linear(D4+Triamp′)
步骤(2.1)和本步骤共同构建了如图2所示的基于三分图的语义信息提取模块。在训练时,该模块的线性层采用全零初始化。
(2.3)根据已有方法,级联朴素视觉Transformer层,构建朴素视觉Transformer。其中,每层朴素视觉Transformer层block_n,将中间语义特征图MSn-1映射为矩阵查询矩阵Qn,键矩阵Kn和值矩阵Vn,通过自注意力机制和线性层,得到新的中间语义特征图MSn。
(2.4)根据已有的掩码自编码器MAE(masked autoencoders)方法在图像分类数据集上预训练朴素视觉Transformer,得到模型的预训练权重;训练时,使用MAE预训练后的朴素视觉Transformer权重对本发明中对应的朴素视觉Transformer模块进行初始化。至此,我们完成了三分图视觉Transformer语义信息解码器功能的构建。
进一步地,如图4所示,所述步骤(2)中的抠图解码器通过以下步骤实现:
(3.1)在抠图解码器MDi中,先将来自于上层抠图解码器或三分图视觉Transformer语义信息解码器的上层语义特征图Si+1进行双线性插值上采样,并通过卷积层,得到语义特征图Si+1′;
(3.2)将语义特征图Si+1′和细节特征图Di拼接,得到中间特征图mSi。将mSi通过卷积层,生成新的融合语义特征图Si;同时,将mSi进行反卷积,然后进行三个轻量化卷积同时使用归一化指数函数,得到层级抠图输出αi。如下公式所示,其中,upsample表示双线性插值上采样,表示拼接操作,TransConv表示反卷积,Conv表示卷积,Convs表示连续卷积,softmax表示归一化指数函数:
Si=Conv(mSi)
αi=softmax(Convs(TransConv(mSi)))
(3.3)在训练时,使用损失函数对所有的层级抠图输出进行监督。对已经训练好的网络,使用最后一层抠图输出α1为最终抠图结果。至此,完成了抠图解码器的功能。
进一步地,本发明还提供了一种基于三分图视觉Transformer语义信息解码器的抠图装置,包括至少一个处理器和存储器,所述至少一个处理器和存储器之间通过数据总线连接,所述存储器存储能被所述至少一个处理器执行的指令,所述指令在被所述处理器执行后,用于完成上述的基于三分图视觉Transformer语义信息解码器的抠图方法。
本发明通过使用基于三分图视觉Transformer语义信息解码器的网络架构,在基于三分图数据集的compositional-1k进行测试,超过了目前最先进的抠图方法,达到了目前最佳的抠图性能。
表1在compositional-1k的测试结果
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于三分图视觉Transformer语义信息解码器的抠图方法,其特征在于,包括如下步骤:
(1)用连续的卷积层构建起一个轻量化的细节特征提取层,使用该特征提取层处理图片I,得到细节特征图组{D1,D2,D3,D4};
(2)使用三分图视觉Transformer语义信息解码器处理细节特征图D4和三分图Trimap,得到语义特征图S4;
(3)通过连续使用抠图解码器,处理上层语义特征图和对应细节特征图,得到融合语义特征图以及层级抠图输出;
(4)在训练数据集上训练由步骤(1)-(3)构建的基于三分图视觉Transformer解码器的抠图网络至收敛;
(5)使用步骤(4)训练好的抠图网络处理待抠图图片,最后一层抠图解码器输出的层级抠图输出结果,即为最终的抠图结果。
2.如权利要求1所述的基于三分图视觉Transformer语义信息解码器的抠图方法,其特征在于,所述三分图视觉Transformer语义信息解码器通过以下步骤实现:
(2.1)记输入原始图片I的维度为(H,W,3),则输入的原始三分图Trimap的维度为(H,W,1),细节特征图D4的维度为使用最近邻插值下采样Trimap,并在在第三维度上升维至与细节特征图D4维度相同,得到Triamp′,其维度为
(2.2)将处理后的三分图Triamp′与细节特征图D4相加,并通过一个线性层;将线性层的输出结果与细节特征图D4相加,构建基于三分图的残差结构,最终得到语义特征图Stri;
(2.3)级联朴素视觉Transformer层,构建朴素视觉Transformer;
(2.4)根据已有的掩码自编码器方法在图像分类数据集上预训练朴素视觉Transformer,得到模型的预训练权重。
3.如权利要求1或2所述的基于三分图视觉Transformer语义信息解码器的抠图方法,其特征在于,所述抠图解码器通过以下步骤实现:
(3.1)在抠图解码器MDi中,先将来自于上层抠图解码器或三分图视觉Transformer语义信息解码器的上层语义特征图Si+1进行双线性插值上采样,并通过卷积层,得到语义特征图Si+1′;
(3.2)将语义特征图Si+1′和细节特征图Di拼接,得到中间特征图mSi,将mSi通过卷积层,生成新的融合语义特征图Si;并且将mSi进行反卷积,然后进行三个轻量化卷积同时使用归一化指数函数,得到层级抠图输出αi;
(3.3)在训练时,使用损失函数对所有的层级抠图输出进行监督,对已经训练好的网络,使用最后一层抠图输出α1为最终抠图结果。
4.如权利要求2所述的基于三分图视觉Transformer语义信息解码器的抠图方法,其特征在于,所述步骤(2.2)的计算公式为Stri=D4+linear(D4+Triamp′),其中linear表示线性层。
5.如权利要求4所述的基于三分图视觉Transformer语义信息解码器的抠图方法,其特征在于,所述线性层采用全零初始化。
6.如权利要求2所述的基于三分图视觉Transformer语义信息解码器的抠图方法,其特征在于,在所述步骤(2.3)中,每层朴素视觉Transformer层block_n,将中间语义特征图MSn-1映射为矩阵查询矩阵Qn,键矩阵Kn和值矩阵Vn,通过自注意力机制和线性层,得到新的中间语义特征图MSn。
7.如权利要求2所述的基于三分图视觉Transformer语义信息解码器的抠图方法,其特征在于,在所述步骤(2.4)中进行训练时,使用MAE预训练后的朴素视觉Transformer权重对所述朴素视觉Transformer模块进行初始化。
9.如权利要求3所述的基于三分图视觉Transformer语义信息解码器的抠图方法,其特征在于,在所述步骤(3)中,对层级抠图输出采用深度监督的训练策略。
10.一种基于三分图视觉Transformer语义信息解码器的抠图装置,其特征在于:
包括至少一个处理器和存储器,所述至少一个处理器和存储器之间通过数据总线连接,所述存储器存储能被所述至少一个处理器执行的指令,所述指令在被所述处理器执行后,用于完成权利要求1-9中任一项所述的基于三分图视觉Transformer语义信息解码器的抠图方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211054850.0A CN115471665A (zh) | 2022-08-31 | 2022-08-31 | 基于三分图视觉Transformer语义信息解码器的抠图方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211054850.0A CN115471665A (zh) | 2022-08-31 | 2022-08-31 | 基于三分图视觉Transformer语义信息解码器的抠图方法与装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115471665A true CN115471665A (zh) | 2022-12-13 |
Family
ID=84371493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211054850.0A Pending CN115471665A (zh) | 2022-08-31 | 2022-08-31 | 基于三分图视觉Transformer语义信息解码器的抠图方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115471665A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115866247A (zh) * | 2023-03-02 | 2023-03-28 | 中南大学 | 基于mae预训练模型的视频编码帧内预测方法和系统 |
CN117252892A (zh) * | 2023-11-14 | 2023-12-19 | 江西师范大学 | 基于轻量化视觉自注意力网络的双分支人像自动抠图模型 |
-
2022
- 2022-08-31 CN CN202211054850.0A patent/CN115471665A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115866247A (zh) * | 2023-03-02 | 2023-03-28 | 中南大学 | 基于mae预训练模型的视频编码帧内预测方法和系统 |
CN115866247B (zh) * | 2023-03-02 | 2023-05-09 | 中南大学 | 基于mae预训练模型的视频编码帧内预测方法和系统 |
CN117252892A (zh) * | 2023-11-14 | 2023-12-19 | 江西师范大学 | 基于轻量化视觉自注意力网络的双分支人像自动抠图模型 |
CN117252892B (zh) * | 2023-11-14 | 2024-03-08 | 江西师范大学 | 基于轻量化视觉自注意力网络的双分支人像自动抠图装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109949255B (zh) | 图像重建方法及设备 | |
CN115471665A (zh) | 基于三分图视觉Transformer语义信息解码器的抠图方法与装置 | |
CN110335193B (zh) | 一种基于生成对抗网络的目标域导向的无监督图像转换方法 | |
CN112685597B (zh) | 一种基于擦除机制的弱监督视频片段检索方法和系统 | |
CN110188760A (zh) | 一种图像处理模型训练方法、图像处理方法及电子设备 | |
CN111598183B (zh) | 一种多特征融合图像描述方法 | |
CN113240683B (zh) | 基于注意力机制的轻量化语义分割模型构建方法 | |
CN106339753A (zh) | 一种有效提升卷积神经网络稳健性的方法 | |
CN113052755A (zh) | 一种基于深度学习的高分辨率图像智能化抠图方法 | |
CN111861886B (zh) | 一种基于多尺度反馈网络的图像超分辨率重建方法 | |
CN116524307A (zh) | 一种基于扩散模型的自监督预训练方法 | |
CN114048822A (zh) | 一种图像的注意力机制特征融合分割方法 | |
CN115620010A (zh) | 一种rgb-t双模态特征融合的语义分割方法 | |
CN114742985A (zh) | 一种高光谱特征提取方法、装置及存储介质 | |
Hu et al. | Dear-gan: Degradation-aware face restoration with gan prior | |
CN111260585A (zh) | 基于类凸集投影算法的图像恢复方法 | |
CN113159236A (zh) | 基于多尺度变换的多聚焦图像融合方法及装置 | |
Wang et al. | A new blind image denoising method based on asymmetric generative adversarial network | |
CN110363830B (zh) | 元素图像生成方法、装置及系统 | |
CN115330620A (zh) | 一种基于循环生成对抗网络的图像去雾方法 | |
Xu et al. | AutoSegNet: An automated neural network for image segmentation | |
Uddin et al. | A perceptually inspired new blind image denoising method using $ L_ {1} $ and perceptual loss | |
Li et al. | D2c-sr: A divergence to convergence approach for real-world image super-resolution | |
Park et al. | Energy-based cross attention for bayesian context update in text-to-image diffusion models | |
CN118334365A (zh) | 一种新的rgb-d图像显著性目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |