CN117252892A - 基于轻量化视觉自注意力网络的双分支人像自动抠图模型 - Google Patents
基于轻量化视觉自注意力网络的双分支人像自动抠图模型 Download PDFInfo
- Publication number
- CN117252892A CN117252892A CN202311508173.XA CN202311508173A CN117252892A CN 117252892 A CN117252892 A CN 117252892A CN 202311508173 A CN202311508173 A CN 202311508173A CN 117252892 A CN117252892 A CN 117252892A
- Authority
- CN
- China
- Prior art keywords
- feature
- module
- detail
- representing
- branch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 57
- 238000010586 diagram Methods 0.000 claims abstract description 91
- 238000000605 extraction Methods 0.000 claims abstract description 61
- 230000004927 fusion Effects 0.000 claims abstract description 29
- 238000004364 calculation method Methods 0.000 claims abstract description 11
- 230000007246 mechanism Effects 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 52
- 230000006870 function Effects 0.000 claims description 28
- 239000011159 matrix material Substances 0.000 claims description 20
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 15
- 238000010606 normalization Methods 0.000 claims description 12
- 238000009826 distribution Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 8
- 230000003993 interaction Effects 0.000 claims description 6
- 230000003213 activating effect Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 4
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 2
- 230000004913 activation Effects 0.000 claims description 2
- 230000004931 aggregating effect Effects 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract description 3
- 238000012545 processing Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 3
- 238000005286 illumination Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000006748 scratching Methods 0.000 description 2
- 230000002393 scratching effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于轻量化视觉自注意力网络的双分支人像自动抠图模型,包括特征提取骨干网络模块、三元图生成分支模块、细节提取分支模块和融合模块四个模块;特征提取骨干网络模块使用轻量化视觉自注意力网络用于特征编码,三元图生成分支模块和细节提取分支模块位置分布上呈并行结构,融合模块串行地连接在三元图生成分支模块和细节提取分支模块后面。本发明的有益效果是:本模型仅输入单张RGB图像,实现端到端的人像自动抠图效果;通过采用轻量化视觉自注意力网络架构作为人像抠图模型的特征提取模块,利用自注意力机制捕捉长距离依赖关系和全局上下文,提高人像抠取精度,同时减少模型的复杂性和计算开销,降低网络模型大小和参数量。
Description
技术领域
本发明属于图像处理领域,具体为基于轻量化视觉自注意力网络的双分支人像自动抠图模型。
背景技术
人像抠图作为图像处理领域一项基础且极具挑战的视觉任务,旨在从输入图像或视频帧中预测一个透明度遮罩以提取人像前景,所提取的前景比语义分割处理的结果更加细腻自然,在图像编辑、广告制作、影音修改、行业直播等领域有着十分广泛的应用。自从20世纪70年代初以来,研究人员就广泛探索了与抠图相关的领域,从基于采样的方法到基于传播的方法的研究。然而,这两类传统的方法依赖低级的颜色或结构特征,这导致它们在复杂场景下存在抠取图像前景的完整性较差的问题,抠图算法的性能鲁棒性不佳。
传统抠图方法,通常将RGB通道图像与附加输入(即三元图和涂鸦)一起使用。三元图是将图像粗略地分割为三个部分:前景、背景和未知区域,而涂鸦则表示属于前景或背景的少量像素。额外输入的目的是降低透明度遮罩估计的难度,这是一个高度不适定的问题。根据如何使用附加输入,传统的抠图方法进一步分为两类:基于采样的方法和基于亲和力的方法。基于采样的方法通过类模型推断过渡区域的透明度值,该类模型是通过使用颜色特征以及采样像素的附加低级特征构建的。这些方法的准确性通常取决于三维地图的质量。基于亲和力的方法利用空间和颜色特征计算的像素相似性将已知前景和背景像素的alpha值传播到过渡区域。由于空间接近,基于亲和力的方法可以生成比基于采样的方法更平滑的遮罩。
目前的人像抠图方法DIM采用传统的三元图作为辅助输入,增加了抠图用户的抠图成本,这是极其不便的,同时模型具有极大的参数量与计算量。SHM方法虽然舍弃了三元图作为额外输入,但串行的网络结构使得模型出现语义错误不能很好地实现权重更新,影响了模型抠图监督。再者,两个模型并非端到端训练的模型。
现有的人像抠图方法大多是基于卷积神经网络特征编码的,虽然人像抠图任务中取得了高效的性能,但仍然存在三个主要问题:(1)使用繁琐的三元图作为辅助输入,耗费大量的时间和精力并导致高昂的人力成本。(2)使用大型的深度学习模型如ResNet或DenseNet通常会导致模型具有大量的参数和较高的计算复杂度,需要更多的计算资源和存储空间,使得这些模型在部署到嵌入式设备或需要低延迟的实时应用中变得不够实际。(3)卷积核的大小限制了卷积神经网络的感受野,无法进行长距离建模,难以提取有用的人像边界和图像细节。
发明内容
为解决上述技术难点,本发明提出一种基于轻量化视觉自注意力网络的双分支人像自动抠图模型,创新地将人像抠图任务分解为伪三元图生成以及细节提取两个路径分支,构建单编码器-双解码分支的模型结构,实现了无需额外输入的高效的人像自动抠图。
本发明采用的技术方案如下:基于轻量化视觉自注意力网络的双分支人像自动抠图模型,包括特征提取骨干网络模块、三元图生成分支模块、细节提取分支模块和融合模块;
特征提取骨干网络模块使用轻量化视觉自注意力网络用于特征编码,特征提取骨干网络模块分别连接三元图生成分支模块、细节提取分支模块,三元图生成分支模块和细节提取分支模块位置分布上呈并行结构且设置特征交互,三元图生成分支模块、细节提取分支模块后连接融合模块;
特征提取骨干网络模块,一共有五个层级的编码层,每个层级的编码层都包括轻量化倒残差块MV2和轻量化视觉自注意力块MViT,轻量化倒残差块MV2和轻量化视觉自注意力块MViT组合进行人像特征提取,轻量化倒残差块MV2用于调整输入特征通道数和深度可分离卷积,轻量化视觉自注意力块MViT用于特征的局部和全局双重建模;具体包括:
步骤S1,通过轻量化倒残差块MV2以1×1的卷积核调整输入的特征F0通道数,以大小为3×3的卷积核对输入的特征F0进行深度可分离卷积操作,输出特征;
步骤S2,通过轻量化倒残差块MV2进一步使用逆操作,对步骤S1的输出特征进行上采样;使用深度可分离卷积操作进行特征提取,轻量化倒残差块MV2进一步下采样,得到输出的特征F1,同时使输出的特征F1维持输入时的维度;
步骤S3,通过轻量化视觉自注意力块MViT对输入的特征F1进行下采样,将下采样后输入的特征F1进行分块得到块状特征,并将块状特征铺平,轻量化视觉自注意力块MViT从左至右取对应位置的像素点经自注意力机制计算得到输出的特征F2;
步骤S4,轻量化视觉自注意力块MViT通过残差连接,拼接输入特征F1和特征F2得到F3,特征F3再通过一个卷积核大小为3×3的卷积层做特征,融合得到输出的特征F4;
步骤S5,输入图像I经过五个层级的编码层,经过步骤S1-步骤S4后分别输出/>五个层级特征,F为最终输出特征;
三元图生成分支模块,包括多尺度注意力模块MM和三元图多重解码块;具体包括步骤S6和步骤S7:
步骤S6,特征提取骨干网络模块得到的最终输出特征F,通过多尺度注意力模块MM中的深度卷积聚合局部信息,利用多尺度注意力模块MM中捕获多尺度上下文的多分支带状卷积,提取不同尺度人像特征,使用1×1卷积建模不同尺度人像特征中不同通道之间的关系;
将1×1卷积的输出直接作为输入特征F注意力权重,对输入特征F进行重新加权运算操作;多尺度注意力模块MM计算见公式(1):
(1);
其中,表示多尺度注意力模块MM最终输出,F表示输入特征,/>是逐元素矩阵乘法运算操作,Conv1×1表示进行卷积核大小为1×1的卷积操作,Scalej表示多分支卷积中的第j个分支,j∈{0,1,2,3},Scale0是一个直接连接,DwConv表示深度卷积;
步骤S7,多尺度注意力模块MM最终输出O送入5个解码块组成的三元图多重解码块中,依次还原输出64×64、128×128、256×256、512×512大小的特征,每个解码块都有3个卷积层、3个批量归一化层和3个ReLU层堆叠而成,最终生成与特征F0大小一致的三元特征图FTrimap,三元特征图FTrimap包含人像前景区域、背景区域、未知区域;
细节提取分支模块,包括残差连接结构与细节多重解码块,细节提取分支模块与三元图生成分支模块利用残差连接结构形成交互,细节多重解码块解码输入特征,输出细节特征图FDetail;具体为:
步骤S8,输入特征提取骨干网络模块得到的最终输出特征F,通过五个层级的细节多重解码块,每个解码块都有3层3×3卷积层、2层BN层、2层ReLU层和一个上采样层,堆叠的五个层级的细节多重解码块/>输出人像的细节特征图FDetail;
步骤S9,在五个层级的细节多重解码块中,特征提取骨干网络模块和五个层级的细节多重解码块输入进行残差连接,共享特征提取骨干网络模块与细节多重解码块/>的网络参数;
融合模块,合并三元特征图FTrimap和细节特征图FDetail,生成人像透明度遮罩预测图;具体为:
步骤S10,利用Sigmoid函数激活三元特征图FTrimap和细节特征图FDetail的预测概率矩阵,通过预测概率矩阵构建三元特征图掩码、细节特征图掩码/>,在三元特征图FTrimap未知区域,与细节特征图掩码/>进行点乘操作,限制三元特征图FTrimap未知区域内的概率值;对于细节特征图FDetail未知区域,与细节特征图掩码/>进行点乘操作,形成人像前景概率值分布;
步骤S11,利用组合损失函数监督三元图生成分支模块、细节提取分支模块和融合模块训练,训练损失L分为三个部分,即三元图生成分支模块损失LS、细节抠图分支模块损失LD和融合模块的损失LF。
进一步的,使用轻量化视觉自注意力块MViT用于特征的局部和全局双重建模,提取人像特征,计算流程具体见公式(2)、公式(3)、公式(4)、公式(5)、公式(6):
(2);
(3);
(4);
(5);
(6);
其中,表示经过卷积操作后得到的特征,/>,/>表示/>特征的行方向的维度、列方向的维度以及通道数大小,R表示实数的集合;
分别表示卷积核大小为n×n和1×1的卷积操作,X0表示输入特征,,/>表示/>特征的行方向的维度、列方向的维度以及通道数大小;
其中,表示经过切分后得到的N个特征块,/>,/>为/>特征行方向的维度,N为特征块的数量,/>表示特征切分操作函数;
其中,表示经过自注意力机制建模后得到的特征块,q表示每个特征块中的像素,/>,Hxg表示XG特征块行方向的维度,/>表示/>特征块的通道数大小,表示对自注意力计算建模操作函数;
其中,表示折叠操作后得到的特征块,/>,/>表示/>特征块的行方向的维度、列方向的维度以及通道数大小,/>表示折叠操作函数,即逆切分操作;
其中,X表示经过卷积操作后得到的输出特征,,/>表示/>特征的行方向的维度、列方向的维度以及通道数大小;
在轻量化视觉自注意力块MViT进行特征建模过程中,输入特征经过n×n卷积用于学习局部的空间信息,经过1×1卷积调整输入特征的通道数;利用/>操作获得,紧接着通过/>操作对特征/>进行全局建模得到特征块/>,将建模好的特征块/>进行折叠操作恢复成原始大小即折叠操作后得到的特征块/>;经过折叠操作后得到的特征块/>送入1×1的卷积层中调整通道数为C,最后使用n×n卷积操作融合局部和全局信息,经过卷积操作后得到输出特征X。
进一步的,步骤S6中,公式(1)中多尺度注意力模块MM最终输出O送入三元图多重解码块中,见公式(7)、公式(8)、公式(9):
(7);
(8);
(9);
其中,表示第k层卷积层输出特征,/>表示第k层卷积核的权重矩阵,/>表示第k层卷积层的偏置向量;/>表示第k层批量归一化层输出的特征,/>表示批量归一化操作,/>表示第k层激活函数后输出特征,/>表示激活函数操作;
步骤S8中,将特征提取骨干网络模块得到的最终输出特征F送入细节生成分支模块中,见公式(10)、公式(11)、公式(12):
(10);
(11);
(12);
其中,表示拼接操作,/>表示骨干网络中第k层级的编码特征,/>表示第k层卷积层输出特征,/>表示第k层批量归一化层输出的特征,/>表示第k层激活函数后输出特征。
进一步的,将三元图生成分支模块与细节提取分支模块预测结果送入融合模块中,见公式(13)、公式(14)、公式(15):
(13);
(14);
(15);
其中,表示三元特征图预测概率矩阵,FTrimap表示三元特征图, />表示细节特征图预测概率矩阵,FDetail表示细节特征图,e为一个自然常数,/>表示最终预测的人像透明度遮罩预测图,/>分别表示细节特征图掩码和三元特征掩码,/>表示点乘操作;
利用Sigmoid函数激活预测概率矩阵,将预测概率矩阵的每个元素的取值范围限制在0到1之间,根据三元图分支模块的预测概率矩阵设置阈值以构建一个三元特征图掩码,三元图特征掩码/>每个元素的值表示对应位置的像素是否属于前景对象,根据细节提取分支模块的预测概率矩阵构建一个细节特征图掩码/>;分别对三元图特征掩码和细节特征图掩码进行点乘操作。
进一步的,步骤S11中,模型整体损失L见公式(16):
(16);
其中,分别为三元图生成分支损失权重值、细节提取分支损失权重值、融合模块损失权重值;
三元图生成分支模块采用交叉熵损失函数,其定义见公式(17):
(17);
其中,表示像素点的真实标签,/>,/>表示像素点是第c类的预测概率值,;
细节提取分支模块采用混合损失函数进行监督,见公式(18):
(18);
其中,表示透明度遮罩的真值标签,/>表示未知区域的预测值,i表示像素索引数,/>表示像素i是否属于未知区域,/>,/>是一个自定义实数,/>表示真值标签的第k层拉普拉斯金字塔,/>表示融合模块预测未知区域的值的第k层拉普拉斯金字塔,/>表示L1范式的计算函数;
融合模块的训练损失由多部分组成,定义见公式(19):
(19);
其中,为融合模块中预测的透明度遮罩,M为图像中的像素总数。
本发明的有益效果是:(1)较其它使用三元图作为输入的方法,本发明仅使用一张RGB图像作为输入用于抠图,实现了自动抠图;(2)通过采用轻量化视觉自注意力网络架构作为人像抠图模型的骨干网络模块,提高了模型的表征能力的同时降低了模型的复杂度;(3)设计多尺度卷积注意力模块,提高了人像边缘细节的抠图效果。
附图说明
图1为本发明的整体模型框架图。
图2为本发明的多尺度卷积注意力模块结构图。
具体实施方式
本发明引入一种基于轻量化视觉自注意力网络的双分支人像自动抠图模型,轻量化视觉注意力网络以提取人像语义信息,捕捉长距离依赖关系和全局上下文从而提高了模型在抠取人像细节的精细度,并且成功实现了在人像抠图任务中处理不同背景、光照条件下的复杂场景,包括在不同背景中精确提取人像并确保合成图像自然流畅。针对人像不同尺度的特征分布、背景在不同场景和环境中变化,本发明设计多尺度卷积注意力模块,多尺度卷积注意力模块可以帮助基于轻量化视觉自注意力网络的双分支人像自动抠图模型在不同尺度上捕捉人物与背景之间的复杂空间关系,同时多尺度卷积注意力模块有助于基于轻量化视觉自注意力网络的双分支人像自动抠图模型更好地分辨人物和背景之间的边界,从而更容易将人物与背景分离开来,确保精确的边界和抠图。
本发明是这样来工作和实施的,基于轻量化视觉自注意力网络的双分支人像自动抠图模型,包括特征提取骨干网络模块、三元图生成分支模块、细节提取分支模块和融合模块;
特征提取骨干网络模块使用轻量化视觉自注意力网络用于特征编码,特征提取骨干网络模块分别连接三元图生成分支模块、细节提取分支模块,三元图生成分支模块和细节提取分支模块位置分布上呈并行结构且设置特征交互,三元图生成分支模块、细节提取分支模块后连接融合模块;
特征提取骨干网络模块,一共有五个层级的编码层,每个层级的编码层都包括轻量化倒残差块MV2和轻量化视觉自注意力块MViT,轻量化倒残差块MV2和轻量化视觉自注意力块MViT组合进行人像特征提取,轻量化倒残差块MV2用于调整输入特征通道数和深度可分离卷积,轻量化视觉自注意力块MViT用于特征的局部和全局双重建模;具体包括:
步骤S1,通过轻量化倒残差块MV2以1×1的卷积核调整输入的特征F0通道数,以大小为3×3的卷积核对输入的特征F0进行深度可分离卷积操作,输出特征;
步骤S2,通过轻量化倒残差块MV2进一步使用逆操作,对步骤S1的输出特征进行上采样;使用深度可分离卷积操作进行特征提取,轻量化倒残差块MV2进一步下采样,得到输出的特征F1,同时使输出的特征F1维持输入时的维度;
步骤S3,通过轻量化视觉自注意力块MViT对输入的特征F1进行下采样,将下采样后输入的特征F1进行分块得到块状特征,并将块状特征铺平,轻量化视觉自注意力块MViT从左至右取对应位置的像素点经自注意力机制计算得到输出的特征F2;
步骤S4,轻量化视觉自注意力块MViT通过残差连接,拼接输入特征F1和特征F2得到F3,特征F3再通过一个卷积核大小为3×3的卷积层做特征,融合得到输出的特征F4;
步骤S5,输入图像I经过五个层级的编码层,经过步骤S1-步骤S4后分别输出/>五个层级特征,F为最终输出特征;
三元图生成分支模块,包括多尺度注意力模块MM和三元图多重解码块;具体为:
步骤S6,特征提取骨干网络模块得到的最终输出特征F,通过多尺度注意力模块MM中的深度卷积聚合局部信息,利用多尺度注意力模块MM中捕获多尺度上下文的多分支带状卷积,提取不同尺度人像特征,使用卷积建模不同尺度人像特征中不同通道之间的关系;
将卷积的输出直接作为输入特征F注意力权重,对输入特征F进行重新加权运算操作;多尺度注意力模块MM计算见公式(1):
(1);
其中,表示多尺度注意力模块MM最终输出,F表示输入特征,/>表示逐元素矩阵乘法运算操作,Conv1×1表示进行卷积核大小为/>的卷积操作,Scalej表示多分支卷积中的第j个分支,j∈{0,1,2,3},Scale0是一个直接连接,DwConv表示深度卷积;
步骤S7,多尺度注意力模块MM最终输出送入5个解码块组成的三元图多重解码块中,依次还原输出/>、/>、/>、/>大小的特征,每个解码块都有3个卷积层、3个批量归一化层和3个ReLU层堆叠而成,最终生成与特征F0大小一致的三元特征图FTrimap,三元特征图FTrimap包含人像前景区域、背景区域、未知区域;
细节提取分支模块,包括残差连接结构与细节多重解码块,细节提取分支模块与三元图生成分支模块利用残差连接结构形成交互,细节多重解码块解码输入特征,输出细节特征图FDetail;具体为:
步骤S8,输入特征提取骨干网络模块得到的最终输出特征F,通过五个层级的细节多重解码块,每个解码块都有3层/>卷积层、2层BN层、2层ReLU层和一个上采样层,堆叠的五个层级的细节多重解码块/>输出人像的细节特征图FDetail;
步骤S9,在五个层级的细节多重解码块中,特征提取骨干网络模块和五个层级的细节多重解码块输入进行残差连接,共享特征提取骨干网络模块与细节多重解码块/>的网络参数;
融合模块,合并三元特征图FTrimap和细节特征图FDetail,生成人像透明度遮罩预测图;具体为:
步骤S10,利用Sigmoid函数激活三元特征图FTrimap和细节特征图FDetail的预测概率矩阵,通过预测概率矩阵构建三元特征图掩码、细节特征图掩码/>,在三元特征图FTrimap未知区域,与细节特征图掩码/>进行点乘操作,限制三元特征图FTrimap未知区域内的概率值;对于细节特征图FDetail未知区域,与细节特征图掩码/>进行点乘操作,形成人像前景概率值分布;
步骤S11,利用组合损失函数监督三元图生成分支模块、细节提取分支模块和融合模块训练,训练损失L分为三个部分,即三元图生成分支模块损失LS、细节抠图分支模块损失LD和融合模块的损失LF。
首先,对现有的图像数据集进行扩充组成数据集,并标注对应的人像透明度遮罩图,为了进一步增加数据的多样性,还采用了随机旋转、剪裁等数据处理方法;
然后,构建基于轻量化视觉自注意力模型的双分支人像自动抠图模型,具体在编码器与伪三元图生成路径分支之间增加多尺度卷积注意力模块,并在浅层编码块与细节提取路径分支设置残差连接;
接着利用扩充好的样本训练集对构建的人像自动抠取模型进行训练,得到训练好的基于轻量化视觉自注意力模型的双路径分支的人像自动抠图模型;
最后,将待抠取的图像送入到训练好的基于轻量视觉自注意力网络的双分支人像自动抠图模型中,得到基于轻量化视觉自注意力模型的双路径分支的人像自动抠取的人像图片。
基于轻量化视觉自注意力网络的双分支人像自动抠图模型,具体实施流程如下:
a. 收集包含人像的图像数据,确保图像具有不同的背景、光照条件和人物姿势,以提高数据集的多样性;对每张图像中的人像进行标注;对构建的数据集进行质量控制,删除低质量或不合适的图像,确保数据集的质量和一致性;与现有的数据集进行合并扩充,并划分为训练集和测试集。
b.对训练集中的图像数据和对应的标签进行尺度预处理,处理后的图像数据和真值标签尺度统一为。
c.构建如图1所示的基于轻量化视觉自注意力模型的双路径分支的人像自动抠图模型,整体采用单编码器-双分支解码器基础架构,编码器轻量化视觉自注意力模型包含普通卷积层,轻量化倒残差块MV2和轻量化视觉自注意力块MViT两个模块,全局池化以及全连接层共同组成,编码器由5个尺度的编码块组成。双分支解码器分别由5个解码块组成的结构,依次输出/>、/>、/>、/>、/>大小的特征图,每个解码块都有3个卷积层、3个批量归一化层和3个ReLU层堆叠而成,用于从编码部分的高级特征中生成输出任务,批量归一化层有助于加速训练过程并提高模型的稳定性,ReLU层有助于模型学习复杂的特征。在编码部分与三元图生成分支间的多尺度卷积注意力模块包含多尺度卷积层、批量归一化层和ReLU层,用于帮助模型更好地处理不同尺度和复杂的图像信息,以提高抠图的性能。
d.将构建好的模型使用a中的数据集进行训练,训练阶段模型计算三个模块损失:三元图生成分支模块损失LS、细节抠图分支模块损失LD和融合模块的损失LF,以同时优化不同子任务中的模型参数,增强语义传播的精度。
e.测试阶段,将待抠图人像图片输入到d阶段训练好的模型中,通过基于轻量化视觉自注意力模型的双分支的人像自动抠图模型输出抠取的高质量透明度遮罩。
本发明的技术创新点是:
(1)本发明从新的视角,通过构建单编码器-双解码分支的模型结构,将需要辅助输入的人像抠图问题转化为三元图生成和细节抠取两个子任务,在融合两个子任务的提取分支并实现了端到端的人像自动抠图效果,并且成功实现了在人像抠图任务中处理不同背景、光照条件下的复杂场景,包括在不同背景中精确提取人像并确保合成图像自然流畅。
(2)本发明采用轻量化视觉自注意力网络架构作为人像抠图模型的编码部分,轻量化自注意力网络采用了自注意力机制,以处理图像中的不同区域之间的关系。这使得它能够捕捉长距离依赖关系和全局上下文,有助于提高人像抠取精度,同时使用深度可分离卷积和通道注意力,以减少模型的复杂性和计算开销,降低网络模型大小和参数量。
(3)针对人像不同尺度的特征分布、背景在不同场景和环境中变化,本发明设计多尺度卷积注意力模块,多尺度卷积注意力模块可以帮助模型在不同尺度上捕捉人物与背景之间的复杂空间关系,同时模块有助于模型更好地分辨人物和背景之间的边界,从而更容易将人物与背景分离开来,提高了边界抠取的精度。
Claims (8)
1.基于轻量化视觉自注意力网络的双分支人像自动抠图模型,其特征是:包括特征提取骨干网络模块、三元图生成分支模块、细节提取分支模块和融合模块;
特征提取骨干网络模块使用轻量化视觉自注意力网络用于特征编码,特征提取骨干网络模块分别连接三元图生成分支模块、细节提取分支模块,三元图生成分支模块和细节提取分支模块位置分布上呈并行结构且设置特征交互,三元图生成分支模块、细节提取分支模块分别连接融合模块;
特征提取骨干网络模块,一共有五个层级的编码层,…,/>,每个层级的编码层都包括轻量化倒残差块MV2和轻量化视觉自注意力块MViT,轻量化倒残差块MV2和轻量化视觉自注意力块MViT组合进行人像特征提取,轻量化倒残差块MV2用于调整输入特征通道数和深度可分离卷积,轻量化视觉自注意力块MViT用于特征的局部和全局双重建模;具体包括:
步骤S1,通过轻量化倒残差块MV2以1×1的卷积核调整输入的特征F0通道数,以大小为3×3的卷积核对输入的特征F0进行深度可分离卷积操作,输出特征;
步骤S2,通过轻量化倒残差块MV2进一步使用逆操作,对步骤S1的输出特征进行上采样;使用深度可分离卷积操作进行特征提取,轻量化倒残差块MV2进一步下采样,得到输出的特征F1,同时使输出的特征F1维持输入时的维度;
步骤S3,通过轻量化视觉自注意力块MViT对输入的特征F1进行下采样,将下采样后输入的特征F1进行分块得到块状特征,并将块状特征铺平,轻量化视觉自注意力块MViT从左至右取对应位置的像素点经自注意力机制计算得到输出的特征F2;
步骤S4,轻量化视觉自注意力块MViT通过残差连接,拼接输入特征F1和特征F2得到F3,特征F3再通过一个卷积核大小为3×3的卷积层做特征,融合得到输出的特征F4;
步骤S5,输入图像I经过五个层级的编码层,…,/>,经过步骤S1-步骤S4后分别输出/>,…,/>五个层级特征,F为最终输出特征。
2.根据权利要求1所述的基于轻量化视觉自注意力网络的双分支人像自动抠图模型,其特征是:
三元图生成分支模块,包括多尺度注意力模块MM和三元图多重解码块;具体包括步骤S6和步骤S7:
步骤S6,特征提取骨干网络模块得到的最终输出特征F,通过多尺度注意力模块MM中的深度卷积聚合局部信息,利用多尺度注意力模块MM中捕获多尺度上下文的多分支带状卷积,提取不同尺度人像特征,使用1×1卷积建模不同尺度人像特征中不同通道之间的关系;
将1×1卷积的输出直接作为输入特征F注意力权重,对输入特征F进行重新加权运算操作;多尺度注意力模块MM计算见公式(1):
(1);
其中,表示多尺度注意力模块MM最终输出,F表示输入特征,/>表示逐元素矩阵乘法运算操作,Conv1×1表示进行卷积核大小为1×1的卷积操作,Scalej表示多分支卷积中的第j个分支,j∈{0,1,2,3},Scale0是一个直接连接,DwConv表示深度卷积;
步骤S7,多尺度注意力模块MM最终输出O送入5个解码块组成的三元图多重解码块中,依次还原输出64×64、128×128、256×256、512×512大小的特征,每个解码块都有3个卷积层、3个批量归一化层和3个ReLU层堆叠而成,最终生成与特征F0大小一致的三元特征图FTrimap,三元特征图FTrimap包含人像前景区域、背景区域、未知区域。
3.根据权利要求2所述的基于轻量化视觉自注意力网络的双分支人像自动抠图模型,其特征是:
细节提取分支模块,包括残差连接结构与细节多重解码块,细节提取分支模块与三元图生成分支模块利用残差连接结构形成交互,细节多重解码块解码输入特征,输出细节特征图FDetail;具体为:
步骤S8,输入特征提取骨干网络模块得到的最终输出特征F,通过五个层级的细节多重解码块,每个解码块都有3层3×3卷积层、2层BN层、2层ReLU层和一个上采样层,堆叠的五个层级的细节多重解码块/>输出人像的细节特征图FDetail;
步骤S9,在五个层级的细节多重解码块中,特征提取骨干网络模块和五个层级的细节多重解码块输入进行残差连接,共享特征提取骨干网络模块与细节多重解码块的网络参数。
4.根据权利要求3所述的基于轻量化视觉自注意力网络的双分支人像自动抠图模型,其特征是:
融合模块,合并三元特征图FTrimap和细节特征图FDetail,生成人像透明度遮罩预测图;具体为:
步骤S10,利用Sigmoid函数激活三元特征图FTrimap和细节特征图FDetail的预测概率矩阵,通过预测概率矩阵构建三元特征图掩码、细节特征图掩码/>,在三元特征图FTrimap未知区域,与细节特征图掩码/>进行点乘操作,限制三元特征图FTrimap未知区域内的概率值;对于细节特征图FDetail未知区域,与细节特征图掩码/>进行点乘操作,形成人像前景概率值分布;
步骤S11,利用组合损失函数监督三元图生成分支模块、细节提取分支模块和融合模块训练,训练损失L分为三个部分,即三元图生成分支模块损失LS、细节抠图分支模块损失LD和融合模块的损失LF。
5.根据权利要求4所述的基于轻量化视觉自注意力网络的双分支人像自动抠图模型,其特征是:
使用轻量化视觉自注意力块MViT用于特征的局部和全局双重建模,提取人像特征,计算流程具体见公式(2)、公式(3)、公式(4)、公式(5)、公式(6):
(2);
(3);
(4);
(5);
(6);
其中,表示经过卷积操作后得到的特征,/>,/>表示/>特征的行方向的维度、列方向的维度以及通道数大小,R表示实数的集合;
分别表示卷积核大小为n×n和1×1的卷积操作,X0表示输入特征,,/>表示/>特征的行方向的维度、列方向的维度以及通道数大小;
其中,表示经过切分后得到的N个特征块,/>,/>为/>特征行方向的维度,N为特征块的数量,/>表示特征切分操作函数;
其中,表示经过自注意力机制建模后得到的特征块,q表示每个特征块中的像素,,Hxg表示XG特征块行方向的维度,/>表示/>特征块的通道数大小,表示对自注意力计算建模操作函数;
其中,表示折叠操作后得到的特征块,/>,/>表示/>特征块的行方向的维度、列方向的维度以及通道数大小,/>表示折叠操作函数,即逆切分操作;
其中,X表示经过卷积操作后得到的输出特征,,/>表示/>特征的行方向的维度、列方向的维度以及通道数大小;
在轻量化视觉自注意力块MViT进行特征建模过程中,输入特征经过n×n卷积用于学习局部的空间信息,经过1×1卷积调整输入特征的通道数;利用/>操作获得/>,紧接着通过/>操作对特征/>进行全局建模得到特征块/>,将建模好的特征块进行折叠操作恢复成原始大小即折叠操作后得到的特征块/>;经过折叠操作后得到的特征块/>送入1×1的卷积层中调整通道数为C,最后使用n×n卷积操作融合局部和全局信息,经过卷积操作后得到输出特征X。
6.根据权利要求5所述的基于轻量化视觉自注意力网络的双分支人像自动抠图模型,其特征是:
步骤S6中,公式(1)中多尺度注意力模块MM最终输出O送入三元图多重解码块中,见公式(7)、公式(8)、公式(9):
(7);
(8);
(9);
其中,表示第k层卷积层输出特征,/>表示第k层卷积核的权重矩阵,/>表示第k层卷积层的偏置向量;/>表示第k层批量归一化层输出的特征,/>表示批量归一化操作,/>表示第k层激活函数后输出特征,/>表示激活函数操作;
步骤S8中,将特征提取骨干网络模块得到的最终输出特征F送入细节生成分支模块中,见公式(10)、公式(11)、公式(12):
(10);
(11);
(12);
其中,表示拼接操作,/>表示骨干网络中第k层级的编码特征,/>表示第k层卷积层输出特征,/>表示第k层批量归一化层输出的特征,/>表示第k层激活函数后输出特征。
7.根据权利要求6所述的基于轻量化视觉自注意力网络的双分支人像自动抠图模型,其特征是:
将三元图生成分支模块与细节提取分支模块预测结果送入融合模块中,见公式(13)、公式(14)、公式(15):
(13);
(14);
(15);
其中,表示三元特征图预测概率矩阵,FTrimap表示三元特征图, />表示细节特征图预测概率矩阵,FDetail表示细节特征图,e为一个自然常数,/>表示最终预测的人像透明度遮罩预测图,/>分别表示细节特征图掩码和三元特征掩码,/>表示点乘操作;
利用Sigmoid函数激活预测概率矩阵,将预测概率矩阵的每个元素的取值范围限制在0到1之间,根据三元图分支模块的预测概率矩阵设置阈值以构建一个三元特征图掩码,三元图特征掩码/>每个元素的值表示对应位置的像素是否属于前景对象,根据细节提取分支模块的预测概率矩阵构建一个细节特征图掩码/>;分别对三元图特征掩码和细节特征图掩码进行点乘操作。
8.根据权利要求7所述的基于轻量化视觉自注意力网络的双分支人像自动抠图模型,其特征是:
步骤S11中,模型整体损失L见公式(16):
(16);
其中,分别为三元图生成分支损失权重值、细节提取分支损失权重值、融合模块损失权重值;
三元图生成分支模块采用交叉熵损失函数,其定义见公式(17):
(17);
其中,表示像素点的真实标签,/>,/>表示像素点是第c类的预测概率值,;
细节提取分支模块采用混合损失函数进行监督,见公式(18):
(18);
其中,表示透明度遮罩的真值标签,/>表示未知区域的预测值,i表示像素索引数,/>表示像素i是否属于未知区域,/>,/>是一个自定义实数,/>表示真值标签的第k层拉普拉斯金字塔,/>表示融合模块预测未知区域的值的第k层拉普拉斯金字塔,表示L1范式的计算函数;
融合模块的训练损失由多部分组成,定义见公式(19):
(19);
其中,为融合模块中预测的透明度遮罩,M为图像中的像素总数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311508173.XA CN117252892B (zh) | 2023-11-14 | 2023-11-14 | 基于轻量化视觉自注意力网络的双分支人像自动抠图装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311508173.XA CN117252892B (zh) | 2023-11-14 | 2023-11-14 | 基于轻量化视觉自注意力网络的双分支人像自动抠图装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117252892A true CN117252892A (zh) | 2023-12-19 |
CN117252892B CN117252892B (zh) | 2024-03-08 |
Family
ID=89131613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311508173.XA Active CN117252892B (zh) | 2023-11-14 | 2023-11-14 | 基于轻量化视觉自注意力网络的双分支人像自动抠图装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117252892B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118470048A (zh) * | 2024-07-08 | 2024-08-09 | 江西师范大学 | 一种实时反馈的交互式树木图像抠图方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111161277A (zh) * | 2019-12-12 | 2020-05-15 | 中山大学 | 一种基于深度学习的自然图像抠图方法 |
US20200211200A1 (en) * | 2018-12-31 | 2020-07-02 | Didi Research America, Llc | Method and system of annotation densification for semantic segmentation |
CN111369581A (zh) * | 2020-02-18 | 2020-07-03 | Oppo广东移动通信有限公司 | 图像处理方法、装置、设备及存储介质 |
JP6830707B1 (ja) * | 2020-01-23 | 2021-02-17 | 同▲済▼大学 | ランダムバッチマスクとマルチスケール表現学習を融合した人物再同定方法 |
CN114038006A (zh) * | 2021-08-09 | 2022-02-11 | 奥比中光科技集团股份有限公司 | 一种抠图网络训练方法及抠图方法 |
CN114549574A (zh) * | 2022-03-01 | 2022-05-27 | 杭州电子科技大学 | 一种基于掩膜传播网络的交互式视频抠图系统 |
CN114627293A (zh) * | 2022-03-16 | 2022-06-14 | 杭州缦图摄影有限公司 | 基于多任务学习的人像抠图方法 |
CN115359088A (zh) * | 2022-10-18 | 2022-11-18 | 腾讯科技(深圳)有限公司 | 一种图像处理方法及装置 |
CN115471665A (zh) * | 2022-08-31 | 2022-12-13 | 华中科技大学 | 基于三分图视觉Transformer语义信息解码器的抠图方法与装置 |
-
2023
- 2023-11-14 CN CN202311508173.XA patent/CN117252892B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200211200A1 (en) * | 2018-12-31 | 2020-07-02 | Didi Research America, Llc | Method and system of annotation densification for semantic segmentation |
CN111161277A (zh) * | 2019-12-12 | 2020-05-15 | 中山大学 | 一种基于深度学习的自然图像抠图方法 |
JP6830707B1 (ja) * | 2020-01-23 | 2021-02-17 | 同▲済▼大学 | ランダムバッチマスクとマルチスケール表現学習を融合した人物再同定方法 |
CN111369581A (zh) * | 2020-02-18 | 2020-07-03 | Oppo广东移动通信有限公司 | 图像处理方法、装置、设备及存储介质 |
WO2021164534A1 (zh) * | 2020-02-18 | 2021-08-26 | Oppo广东移动通信有限公司 | 图像处理方法、装置、设备及存储介质 |
CN114038006A (zh) * | 2021-08-09 | 2022-02-11 | 奥比中光科技集团股份有限公司 | 一种抠图网络训练方法及抠图方法 |
CN114549574A (zh) * | 2022-03-01 | 2022-05-27 | 杭州电子科技大学 | 一种基于掩膜传播网络的交互式视频抠图系统 |
CN114627293A (zh) * | 2022-03-16 | 2022-06-14 | 杭州缦图摄影有限公司 | 基于多任务学习的人像抠图方法 |
CN115471665A (zh) * | 2022-08-31 | 2022-12-13 | 华中科技大学 | 基于三分图视觉Transformer语义信息解码器的抠图方法与装置 |
CN115359088A (zh) * | 2022-10-18 | 2022-11-18 | 腾讯科技(深圳)有限公司 | 一种图像处理方法及装置 |
Non-Patent Citations (4)
Title |
---|
JIAWEI WU ET AL.: "Foreground–background decoupling matting", 《INT J INTELL SYST》, pages 9863 - 9885 * |
YUHONGZE ZHOU ET AL.: "Sampling Propagation Attention With Trimap Generation Network for Natural Image Matting", 《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》, vol. 33, no. 10, pages 5828 - 5843 * |
刘宝铃: "基于背景与文本线索的深度抠图技术研究", 《万方学位论文》, pages 1 - 68 * |
陈文辉: "基于深度学习人像抠图的证件照生成系统的设计与实现", 《万方学位论文》, pages 1 - 64 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118470048A (zh) * | 2024-07-08 | 2024-08-09 | 江西师范大学 | 一种实时反馈的交互式树木图像抠图方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117252892B (zh) | 2024-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111325794B (zh) | 一种基于深度卷积自编码器的视觉同时定位与地图构建方法 | |
CN110443842B (zh) | 基于视角融合的深度图预测方法 | |
CN111612807B (zh) | 一种基于尺度和边缘信息的小目标图像分割方法 | |
CN112991350B (zh) | 一种基于模态差异缩减的rgb-t图像语义分割方法 | |
CN110197505B (zh) | 基于深度网络及语义信息的遥感图像双目立体匹配方法 | |
CN117252892B (zh) | 基于轻量化视觉自注意力网络的双分支人像自动抠图装置 | |
CN111950477A (zh) | 一种基于视频监督的单图像三维人脸重建方法 | |
CN114048822A (zh) | 一种图像的注意力机制特征融合分割方法 | |
CN114724155A (zh) | 基于深度卷积神经网络的场景文本检测方法、系统及设备 | |
CN114898284B (zh) | 一种基于特征金字塔局部差异注意力机制的人群计数方法 | |
Zhang et al. | Dense haze removal based on dynamic collaborative inference learning for remote sensing images | |
CN116205962B (zh) | 基于完整上下文信息的单目深度估计方法及系统 | |
CN112819951A (zh) | 一种基于深度图修复的带遮挡三维人体重建方法 | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
CN116682021A (zh) | 一种高分辨率遥感影像建筑物矢量轮廓数据提取方法 | |
CN115049739A (zh) | 一种基于边缘检测的双目视觉立体匹配方法 | |
CN118334365A (zh) | 一种新的rgb-d图像显著性目标检测方法 | |
CN117689592A (zh) | 一种基于级联自适应网络的水下图像增强方法 | |
CN116883767A (zh) | 一种基于多源信息多尺度融合的目标检测方法 | |
CN115830036A (zh) | 基于强弱扰动的分级Siamese对比增强的涂鸦标注医学图像分割方法 | |
Zhang et al. | Dyna-depthformer: Multi-frame transformer for self-supervised depth estimation in dynamic scenes | |
CN114283181B (zh) | 一种基于样例的动态纹理迁移方法及系统 | |
Zou et al. | Diffcr: A fast conditional diffusion framework for cloud removal from optical satellite images | |
Lee et al. | Perception-friendly video enhancement for autonomous driving under adverse weather conditions | |
CN115457379A (zh) | 一种联合语义分割与角度预测的遥感影像道路提取方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |