CN112819848B - 抠图方法、抠图装置和电子设备 - Google Patents
抠图方法、抠图装置和电子设备 Download PDFInfo
- Publication number
- CN112819848B CN112819848B CN202110159021.8A CN202110159021A CN112819848B CN 112819848 B CN112819848 B CN 112819848B CN 202110159021 A CN202110159021 A CN 202110159021A CN 112819848 B CN112819848 B CN 112819848B
- Authority
- CN
- China
- Prior art keywords
- foreground
- map
- image
- error
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000000295 complement effect Effects 0.000 claims abstract description 49
- 230000011218 segmentation Effects 0.000 claims abstract description 32
- 238000005192 partition Methods 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims description 13
- 238000013459 approach Methods 0.000 claims description 6
- 238000012544 monitoring process Methods 0.000 claims 2
- 238000012545 processing Methods 0.000 abstract description 12
- 230000003993 interaction Effects 0.000 abstract description 9
- 238000004364 calculation method Methods 0.000 abstract description 6
- 230000008569 process Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 6
- 239000003086 colorant Substances 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 3
- 241001270131 Agaricus moelleri Species 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种抠图方法、抠图装置和电子设备,涉及图像处理技术领域,可以获得清晰、具有人‑物交互的第一前景预测图Alpha1和第二前景预测图Alpha2,还可以节省标签成本,节省人力和算力。该抠图方法包括:获取原始图像的前景分割遮罩图和深度图;将原始图像和分割遮罩图输入第一前景预测网络中,得到第一前景预测图,将原始图像和深度图输入第二前景预测网络中,得到第二前景预测图;将原始图像、第一前景预测图、第二前景预测图输入到互补学习网络中,得到第一误差图和第二误差图;比较第一误差图与第二误差图在同一图像分区的置信度,对第一前景预测图或第二前景预测图位于该图像分区的图像修正,获得修正后的第一前景预测图和第二前景预测图。
Description
技术领域
本申请涉及图像处理技术领域,尤其涉及一种抠图方法、抠图装置和电子设备。
背景技术
抠图技术(Image Matting)是将图像中的前景从背景中分离出来的技术,该技术能够将人们需要的区域提取出来,便于对图像关键信息进行后续操作。
现有技术通常采用三分草图(Trimap)技术进行的高性能数字抠图,然而,该技术需人工绘制或预测三分草图或原始图像的原始背景作为额外输入,不但浪费人力和算力,还可能存在与实际应用场景不符的问题,阿降低用户抠图体验。
发明内容
本申请实施例提供了一种抠图方法、抠图装置和电子设备,以改善上述问题。
第一方面,提供一种抠图方法,包括:获取原始图像的前景分割遮罩图和深度图;将原始图像和所述分割遮罩图输入第一前景预测网络中,得到第一前景预测图,将原始图像和所述深度图输入第二前景预测网络中,得到第二前景预测图;将原始图像与第一前景预测图输入到互补学习网络中,得到第一误差图,将原始图像与第二前景预测图输入到互补学习网络中,得到第二误差图;比较第一误差图与第二误差图在同一图像分区的置信度,根据比较结果,对第一前景预测图或第二前景预测图位于该图像分区的图像进行修正,获得修正后的第一前景预测图和修正后的第二前景预测图。
第二方面,提供一种抠图装置,抠图装置包括图像获取模块、前景预测模块、以及互补学习模块。图像获取模块,用于获取原始图像的前景分割遮罩图和深度图。前景预测模块,用于将原始图像和所述分割遮罩图输入第一前景预测网络中,得到第一前景预测图,将原始图像和深度图输入第二前景预测网络中,得到第二前景预测图。互补学习模块,用于将原始图像与第一前景预测图输入互补学习网络中,得到第一误差图,将原始图像与第二前景预测图输入互补学习网络中,得到第二误差图,互补学习模块,还用于比较第一误差图与第二误差图在同一图像分区的置信度,根据比较结果,对第一前景预测图或第二前景预测图进行修正,获得修正后的第一前景预测图和修正后的第二前景预测图。
第三方面,提供一种电子设备,包括:一个或多个处理器;存储器;以及,一个或多个应用程序,其中所述一个或多个应用程序被存储在存储器中并被配置为由所述一个或多个处理器执行,一个或多个应用程序用于执行第一方面所述的方法。
第四方面,提供一种计算机可读取存储介质,计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如第一方面所述的方法。
本申请实施例提供的抠图方法、抠图装置和电子设备中,通过获取可以体现清晰前景对象的前景分割遮罩图、以及可以体现人-物一体性的深度图,并利用原始图像作为标签,对第一前景预测网络以及第二前景预测网络进行训练,以得到第一前景预测图Alpha1和第二前景预测图Alpha2,再通过原始图像和第一前景预测图Alpha1得到第一误差图、原始图像和第二前景预测图Alpha2得到第二误差图,并比较第一误差图与第二误差图的置信度,以根据比较结果对第一前景预测图Alpha1或第二前景预测图Alpha2进行修正,从而获取到清晰、具有人-物交互的第一前景预测图Alpha1和第二前景预测图Alpha2。在此基础上,本申请整个抠图过程中,仅利用原始图像作为标签,此外无需利用其他数据作为标签,可以节省成本;本申请也无需人工绘制或预测三分草图或原始图像的原始背景,可以节省人力和算力。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种抠图方法的流程示意图;
图2为本申请实施例提供的一种抠图方法的过程图;
图3为本申请实施例提供的生成第一前景预测图的过程图;
图4为本申请实施例提供的生成第二前景预测图的过程图;
图5为本申请实施例提供的第一前景预测网络的网络结构图;
图6为本申请实施例提供的第二前景预测网络的网络结构图;
图7为本申请实施例提供的互补学习的过程图;
图8为本申请实施例提供的互补学习网络的网络结构图;
图9为本申请实施例提供的一种抠图方法的流程示意图;
图10为本申请实施例提供的抠图装置的框图;
图11为本申请实施例提供的电子设备中各个模块的关系框图;
图12为本申请实施例提供的计算机可读存储介质与应用程序的关系框图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。需要说明的是,在不冲突的情况下,本申请的实施例中的特征可以相互结合。
在背景技术提出的问题的基础上,发明人还发现现有的抠图技术仅侧重于对原始图像中的某一对象(例如人)进行抠图,而忽略了该对象与原始图像中其他对象(物)之间的交互关联性,导致抠得的图片缺乏与其他对象交互的语义信息,缺乏完整性。需要说明的是,为了方便表述,下文均用人、物表述。
针对该问题以及背景技术提出的问题,发明人经研究后提出了一种前景抠图方法、前景抠图装置和电子设备,可以获得清晰、具有人-物交互的第一前景预测图Alpha1和第二前景预测图Alpha2,还可以节省标签成本,节省人力和算力。
如图1所示,本申请实施例提供了一种抠图方法,该方法包括:
S110、获取原始图像的前景分割遮罩图和深度图。
可以分别从不同的额模态编码器中获取原始图像的前景分割遮罩图和深度图。
示例的,可以将原始图像输入到第一模态编码器中,利用第一模态编码器从原始图像中提取前景分割遮罩图,并输出;可以将原始图像输入到第二模态编码器中,利用第二模态编码器从原始图像中提取深度图。当然,也可以直接获取预先提取好的前景分割遮罩图和深度图,本申请实施例对此不作特殊限定。
在一些实施例中,如图2所示,相较于深度图,前景分割遮罩图可以体现更加清晰的前景图像,其中,前景分割遮罩图可以为具有一定透明度的灰度图,以0~255灰阶为例,前景分割遮罩图至少包含灰度值不为0的部分,前景分割遮罩图中除前景以外的背景部分的灰度可以是0。图2示出的前景分割遮罩图中,前景对象包括人。
如图2所示,相较于前景分割遮罩图,深度图可以更好地体现前景的对象与其他对象之间的交互一体性。其中,深度图可以是通过单目深度估计得到,在原始图像是彩色图片的情况下,深度图也为彩色图片。图2示出的深度图中,前景对象包括人和人手上的物。
在一些实施例中,本申请实施例不对具体的前景对象进行限定,前景对象可以是人、宠物、植物中的至少一种等。
在一些实施例中,本申请的原始图像可以是彩色图片,图2示出的原始图像为对实际的原始图像处理后的结果。
S120、将原始图像和分割遮罩图输入第一前景预测网络中,得到第一前景预测图Alpha1,将原始图像和深度图输入第二前景预测网络中,得到第二前景预测图Alpha2。
如图3所示,可以以原始图像作为标签,采用生成对抗方式对第一前景预测网络进行训练,得到第一前景预测图Alpha1,图2示出的第一前景预测图Alpha1经过第一前景预测网络后,前景对象不仅包括人,还包括人手上的物。可以以原始图像作为标签,采用生成对抗方式对第二前景预测网络进行训练,得到第二前景预测图Alpha2,图2示出的第二前景预测图Alpha2经过第二前景预测网络后,前景对象中的人更加清晰。
此过程中,可以利用第一前景预测网络生成第一前景预测图Alpha1,在此基础上,还需要生成器和判别器采用生成对抗的额方式,不断监督第一前景预测网络更新梯度,以使第一前景预测网络不断生成优化后的第一前景预测图Alpha1。
如图4所示,可以利用第二前景预测网络生成第二前景预测图Alpha2,在此基础上,还需要生成器和判别器采用生成对抗的额方式,不断监督第二前景预测网络更新梯度,以使第二前景预测网络不断生成优化后的第二前景预测图Alpha2。
在一些实施例中,第一前景预测网络的网络结构可以如图5所示,包括编码和解码,先分别对原始图片和前景分割遮罩图进行编码,之后,再将编码后的原始图片和前景分割遮罩图进行融合,并对融合结果进行解码,从而输出第一前景预测图Alpha1。
第二前景预测网络的网络结构可以如图6所示,包括编码和解码,先分别对原始图片和深度图进行编码,之后,再将编码后的原始图片和深度图进行融合,并对融合结果进行解码,从而输出第二前景预测图Alpha2。
图5和图6中的Conv表示卷积,Deconv表示反卷积,7*7表示卷积核为7*7(其他以此类推),#64表示输出通道数为64,#64后的1表示周期。当然,本申请的第一前景预测网络和第二前景预测网络的网络结构、卷积核大小、以及通道数不限于图5和图6示出的情况。
S130、将原始图像与第一前景预测图输入到互补学习网络中,得到第一误差图,将原始图像与第二前景预测图输入到互补学习网络中,得到第二误差图。
如图7所示,可以以原始图像作为标签,利用第一前景预测图Alpha1和第二前景预测图Alpha2对互补学习网络进行预训练;之后,在无标签的情况下,利用训练完成的互补学习网络,得到第一误差图和第二误差图,进而进行自监督地互补学习。
在一些实施例中,在执行步骤S120的过程中,可以同步进行步骤S130,将步骤S120得到的第一前景预测图Alpha1和第二前景预测图Alpha2实时输入到互补学习网络中,直到损失函数趋近于0,即可停止步骤S120、S130、以及下一步骤S140。
在一些实施例中,第一误差图可以通过对原始图像的前景真值与第一前景预测图Alpha1进行做差得到,第一误差图可以是二者差值的绝对值。
第二误差图可以通过对原始图像的前景真值与第二前景预测图Alpha2进行做差得到,第二误差图可以是二者差值的绝对值。
在一些实施例中,互补学习网络的网络结构可以如图8所示,包括编码和解码,对原始图片与第一前景预测图Alpha1进行编码,对原始图片与第二前景预测图Alpha2进行编码,之后,再将编码的结果进行解码,从而输出第一误差图或第二误差图。
本申请的互补学习网络的网络结构、卷积核大小、以及通道数不限于图8示出的情况。
S140、比较第一误差图与第二误差图在同一图像分区的置信度,根据比较结果,对第一前景预测图或第二前景预测图位于该图像分区的图像进行修正,获得修正后的第一前景预测图和修正后的第二前景预测图。
第一误差图和第二误差图均包括多个一一对应的图像分区,第一误差图在一个图像分区的置信度,与第二误差图在该图像分区的置信度可能相同或不同,通过比较第一误差图和第二误差图中位于该图像分区的图像的置信度,确定第一前景预测图Alpha1或第二前景预测图Alpha2更加可信,进而基于第一前景预测图Alpha1修正第二前景预测图Alpha2,或者,基于第二前景预测图Alpha2修正第一前景预测图Alpha1,从而获得更加清晰的、具有人-物交互的第一前景预测图Alpha1和第二前景预测图Alpha2,修正后的第一前景预测图Alpha1和第二前景预测图Alpha2可以作为抠图结果输出。
由于第一误差图是通过前景真值与第一前景预测图Alpha1的做差结果得到,因此,第一误差图的误差越大,第一误差图的置信度越低。
由于第二误差图是通过前景真值与第二前景预测图Alpha2的做差结果得到,因此,第二误差图的误差越大,第二误差图的置信度越低。
在一些实施例中,若第一误差图的置信度与第二误差图的置信度相同,则说明第一前景预测图Alpha1与第二前景预测图Alpha2的可信度相同,第一前景预测图Alpha1无需基于第二前景预测图Alpha2修正,第二前景预测图Alpha2也无需基于第一前景预测图Alpha1修正,此情况下,互补学习网络可以直接输出修正前的第一前景预测图Alpha1和第二前景预测图Alpha2。
在一些实施例中,不对图像分区的大小进行限定,示例的,图像分区可以包括整数个像素点。
本申请实施例提供一种抠图方法,通过获取可以体现清晰前景对象的前景分割遮罩图、以及可以体现人-物一体性的深度图,并利用原始图像作为标签,对第一前景预测网络以及第二前景预测网络进行训练,以得到第一前景预测图Alpha1和第二前景预测图Alpha2,再通过原始图像和第一前景预测图Alpha1得到第一误差图、原始图像和第二前景预测图Alpha2得到第二误差图,并比较第一误差图与第二误差图的置信度,以根据比较结果对第一前景预测图Alpha1或第二前景预测图Alpha2进行修正,从而获取到清晰、具有人-物交互的第一前景预测图Alpha1和第二前景预测图Alpha2。在此基础上,本申请整个抠图过程中,仅利用原始图像作为标签,此外无需利用其他数据作为标签,可以节省成本;本申请也无需人工绘制或预测三分草图或原始图像的原始背景,可以节省人力和算力。
如图9所示,本申请实施例提供了一种前景抠图方法,该方法包括:
S110、获取原始图像的前景分割遮罩图和深度图。
步骤S110的解释说明与前述实施例中S110的解释说明相同,在此不再赘述。
S121、利用原始图像的前景真值(ground true)监督第一前景预测网络,得到第一前景预测图Alpha1。利用原始图像的前景真值监督第二前景预测网络,得到第二前景预测图Alpha2。
如图3所示,可以以原始图像作为标签,不断对第一前景预测网络进行训练,在训练的过程中,可以得到多个第一前景预测图Alpha1,可以将多个第一前景预测图Alpha1逐个输入到互补学习网络中。
如图4所示,可以以原始图像作为标签,不断对第二前景预测网络进行训练,在训练的过程中,可以得到多个第二前景预测图Alpha2,可以将多个第二前景预测图Alpha2逐个输入到互补学习网络中。
在一些实施例中,前景真值可以是原始图像中真实的前景抠图结果。
S122、生成器G将第一前景预测图Alpha1与其他背景图合成第一更新图片。生成器G将第二前景预测图Alpha2与其他背景图合成第二更新图片。
可以利用生成器G将第一前景预测图Alpha1与其他不同于原始图像的原始背景的其他背景融合,得到一幅新的第一更新图片。
可以利用生成器G将第二前景预测图Alpha2与其他不同于原始图像的原始背景的其他背景融合,得到一幅新的第二更新图片。
S123、利用判别器D判别第一更新图片的真实可信性,以监督第一前景预测网络输出新的第一前景预测图。利用判别器D判别第二更新图片的真实可信性,以监督第二前景预测网络输出新的第二前景预测图。
生成器G每根据第一前景预测图Alpha1和其他背景生成一幅新的第一更新图片,判别器D便对该第一更新图片进行判别,判别该第一更新图片是否是“真实的”。此过程中,生成器G用于生成新的第一更新图片去“欺骗”判别器D,判别器D则用于将第一更新图片与真实存在的图片区分开来,在生成器G与判别器D博弈的过程中,第一前景预测网络始终更新梯度,输出新的第一前景预测图Alpha1。
生成器G每根据第二前景预测图Alpha2和其他背景生成一幅新的第二更新图片,判别器D便对该第二更新图片进行判别,判别该第二更新图片是否是“真实的”。此过程中,生成器G用于生成新的第二更新图片去“欺骗”判别器D,判别器D则用于将第二更新图片与真实存在的图片区分开来,在生成器G与判别器D博弈的过程中,第二前景预测网络始终更新梯度,输出新的第二前景预测图Alpha2。
可以利用以下公式训练判别器D:
判别器D用于判别的结果,当/>结果无限接近于1时,说明新的第一更新图片或第二更新图片是“真实的”。其中,α表示第一前景预测图Alpha1或第二前景预测图Alpha2,F*表示前景真值,/>表示其他背景图。/>表示第一前景预测图Alpha1与前景真值的乘积与背景分割遮罩图与其他背景图的乘积之和,也即,预测的前景对象与其他背景图构成的第一更新图片,这样一来,判别器D若判别/>无限接近1,则说明判别器D判别第一更新图片是“真实的”。或者,/>表示第二前景预测图Alpha2与前景真值的乘积与背景分割遮罩图与其他背景图的乘积之和,也即,预测的前景对象与其他背景图构成的第二更新图片,这样一来,判别器D若判别/>无限接近1,则说明判别器D判别第二更新图片是“真实的”。
可以利用以下公式训练生成器G:
当判别器D判别的结果并未无限接近1时,/>将不会无限趋近于0,此情况下,第一前景预测网络继续输出第一前景预测图Alpha1,判别器D继续生成新的第一更新图片;或者,第二前景预测网络继续输出第二前景预测图Alpha2,判别器D继续生成新的第二更新图片。
S131、将原始图像、第一前景预测图Alpha1、以及第二前景预测图Alpha2输入到互补学习网络中,对互补学习网络进行有标签的预训练。
在对第一前景预测网络和第二前景预测网络训练一定次数,待第一前景预测网络可以输出稳定的第一前景预测图Alpha1、第二前景预测网络可以输出稳定的第二前景预测图Alpha2后,可以执行步骤S131,利用原始图像作为标签,对互补学习网络进行有标签的预训练,在预训练过程中,可以利用原始图像与第一前景预测图Alpha1得到第一误差图,利用原始图像与第二前景预测图Alpha2得到第二误差图,并根据第一误差图的置信度和第二误差图的置信度执行步骤S140,但步骤S140的互补学习网络可以不用输出修正后的第一前景预测图Alpha1和第二前景预测图Alpha2。
不对执行步骤S131的具体时机进行限定,只要第一前景预测网络可以输出稳定的第一前景预测图Alpha1、第二前景预测网络可以输出稳定的第二前景预测图Alpha2或,即可执行步骤S131。例如可以对第一前景预测网络和第二前景预测网络训练10个周期后,执行步骤S131。
S132、继续向训练完成的互补学习网络中输入更新后的第一前景预测图,并根据前景真值得到第一误差图;继续向训练完成的互补学习网络中输入更新后的第二前景预测图,并根据前景真值得到第二误差图。
在一些实施例中,第一误差图可以通过对原始图像的前景真值与第一前景预测图Alpha1进行做差得到,第一误差图可以是二者差值的绝对值。
第二误差图可以通过对原始图像的前景真值与第二前景预测图Alpha2进行做差得到,第二误差图可以是二者差值的绝对值。
在一些实施例中,第一误差图和第二误差图可以均为具有一定透明度的灰度图,由于第一误差图由第一前景预测图Alpha1与前景真值做差得到,因此,第一前景预测图Alpha1也为具有一定透明度的灰度图;由于第二误差图由第二前景预测图Alpha2与前景真值做差得到,因此,第二前景预测图Alpha2也为具有一定透明度的灰度图。
其中,以0~255灰阶为例,第一前景预测图Alpha1和第二前景预测图Alpha2中,前景对象至少包含灰度值不为0的部分,第一前景预测图Alpha1和第二前景预测图Alpha2中除前景以外的背景部分的灰度值可以是0。第一误差图和第二误差图相较于前景真值有误差的部分的灰度值不为0,具有一定透明度,第一误差图和第二误差图相较于前景真值无误差的部分、以及第一误差图和第二误差图中除前景对象以外的部分的灰度值可以为0。
S141、对第一误差图进行归一化处理,得到彩色的第一误差概率图及其在各个像素点的第一误差概率,对第二误差图进行归一化处理,得到彩色的第二误差概率图及其在各个像素点的第二误差概率。
由于第一误差图和第二误差图为灰度图,且第一误差图和第二误差图相较于前景真值有误差的部分具有一定透明度,因此,可以对第一误差图和第二误差图进行归一化处理,即,将各个像素点的透明度与该像素点对应的颜色相乘,以得到彩色的第一误差概率图和第二误差概率图。其中,各个像素的的颜色互为三基色,三基色可以包括红色、绿色、以及蓝色;或者,三基色可以包括品红色、青色、黄色。
在本申请实施例中,一个图像分区为一个像素点。
在一些实施例中,在步骤S141之后、S142之前,所述方法还可以包括:将第一误差概率和第二误差概率与误差概率阈值进行比较;当第一误差概率和第二误差概率均大于误差概率阈值时,继续训练第一前景预测网络和第二前景预测网络,直至第一误差概率和第二误差概率趋近于0。
本申请可以通过设置误差概率阈值,以在第一误差概率大于误差概率阈值时,认为第一前景预测图Alpha1是不可信的,在第二误差概率大于误差概率阈值时,认为第二前景预测图Alpha2是不可信的。在此情况下,不再执行步骤S142和步骤S143,第一前景预测图Alpha1不再基于第二前景预测图Alpha2进行修正,第二前景预测图Alpha2不再基于第一前景预测图Alpha1进行修正。而是继续训练第一前景预测网络和第二前景预测网络,更新第一前景预测网络和第二前景预测网络的梯度,继续执行步骤S131、S132、以及S141,使得第一误差概率图第一误差概率和第二误差概率图的第二误差概率趋近于0。
S142、比较同一像素点的第一误差概率和第二误差概率,若第一误差概率小于第二误差概率,则第一误差图的置信度大于第二误差图的置信度,反之,第一误差图的置信度小于第二误差图的置信度。
在同一像素点a,第一误差概率图的第一误差概率可以为第二误差概率图的第二误差概率可以为/>若第一误差概率/>小于第二误差概率/>则第一误差图的置信度大于第二误差图的置信度;若第一误差概率/>大于第二误差概率/>则第一误差图的置信度小于第二误差图的置信度。其中,i、j表示该像素点在第一误差概率图和第二误差概率图中的二维坐标。
S143、比较第一误差图和第二误差图中位于同一像素点的图像的置信度,在同一像素点,若第一误差图的置信度大于第二误差图的置信度,则在该像素点,第一前景预测图基于第二前景预测图进行修正,反之,第二前景预测图像基于第一前景预测图像进行修正。
比较第一误差图和第二误差图中位于同一像素点的图像的置信度,在同一像素点a,若第一误差概率大于第二误差概率/>第一误差图的置信度小于第二误差图的置信度,则第一前景预测图Alpha1比第二前景预测图Alpha2更加不可信,在该像素点a,第一前景预测图Alpha1基于第二前景预测图Alpha2进行修正;若第一误差概率/>小于第二误差概率/>第一误差图的置信度大于第二误差图的置信度,则第一前景预测图Alpha1比第二前景预测图Alpha2更加可信,在该像素点a,第二前景预测图Alpha2基于第一前景预测图Alpha1进行修正。
本申请实施例提供一种抠图方法,可以获取到清晰、具有人-物交互的第一前景预测图Alpha1和第二前景预测图Alpha2。并且,本申请整个抠图过程中,仅利用原始图像作为标签,此外无需利用其他数据作为标签,可以节省成本;本申请也无需人工绘制或预测三分草图或原始图像的原始背景,可以节省人力和算力。在此基础上,本申请使用单通道的灰度图,可以不再依赖色彩,使不同模态的前景分割遮罩图和深度图对不同环境的进行适应性感知,为后续合成彩色的图像提供更多的信息,便于提取前景对象。
如图10所示,本申请另一实施例提供一种抠图装置100,抠图装置100包括图像获取模块101、前景预测模块102、以及互补学习模块103。
图像获取模块101,用于获取原始图像的前景分割遮罩图和深度图。
前景预测模块102,用于将原始图像和分割遮罩图输入第一前景预测网络中,得到第一前景预测图,将原始图像和深度图输入第二前景预测网络中,得到第二前景预测图。
互补学习模块103,用于将原始图像与第一前景预测图输入互补学习网络中,得到第一误差图,将原始图像与第二前景预测图输入互补学习网络中,得到第二误差图。
互补学习模块103,还用于比较第一误差图与第二误差图在同一图像分区的置信度,根据比较结果,对第一前景预测图或第二前景预测图进行修正,获得修正后的第一前景预测图和修正后的第二前景预测图。
在此基础上,前景预测模块102还用于利用原始图像作为标签,采用生成对抗方式对第一前景预测网络进行训练,得到第一前景预测图,采用生成对抗方式对第二前景预测网络进行训练,得到第二前景预测图。
具体的,前景预测模块102还用于利用所述原始图像的前景真值监督第一前景预测网络,得到第一前景预测图;生成模块,用于将第一前景预测图与其他背景图合成第一更新图片;判别模块,用于判别所述第一更新图片的真实可信性,以监督第一前景预测网络输出新的第一前景预测图。
前景预测模块102还用于利用原始图像的前景真值监督第二前景预测网络,得到第二前景预测图;生成模块,还用于将第二前景预测图与其他背景图合成第二更新图片;判别模块,还用于判别第二更新图片的真实可信性,以监督第二前景预测网络输出新的第二前景预测图。
互补学习网络103,还用于在接收原始图像、第一前景预测图、以及第二前景预测图后,对所述互补学习网络进行有标签的预训练,继续向训练完成的互补学习网络中输入更新后的第一前景预测图,并根据前景真值得到所述第一误差图,继续向训练完成的互补学习网络中输入更新后的第二前景预测图,并根据前景真值得到所述第二误差图。
互补学习网络103,还用于对第一误差图进行归一化处理,得到彩色的第一误差概率图及其在各个像素点的第一误差概率,对第二误差图进行归一化处理,得到彩色的第二误差概率图及其在各个像素点的第二误差概率;比较同一像素点的第一误差概率和第二误差概率,若第一误差概率小于第二误差概率,则第一误差图的置信度大于第二误差图的置信度,反之,第一误差图的置信度小于第二误差图的置信度。
互补学习网络103,还用于比较第一误差图和所述第二误差图中位于同一像素点的图像的置信度,在同一像素点,若第一误差图的置信度大于第二误差图的置信度,则在该像素点,第一前景预测图像基于第二前景预测图像进行修正,反之,第二前景预测图像基于第一前景预测图像进行修正。
互补学习网络103,还用于将第一误差概率和第二误差概率与误差概率阈值进行比较;当第一误差概率和第二误差概率均大于误差概率阈值时,重新训练第一前景预测网络和第二前景预测网络,直至第一误差概率和第二误差概率趋近于0。
本申请实施例提供一种抠图装置,其解释说明以及有益效果与前述抠图方法的解释说明以及有益效果相同,在此不再赘述。
如图11所示,本申请另一实施例提供一种电子设备200,该电子设备200。本申请的电子设备200可以包括:一个或多个处理器201、存储器202、一个或多个应用程序203。其中一个或多个应用程序203被存储在存储器202中并被配置为由所述一个或多个处理器201执行,一个或多个应用程序203用于执行前述任一实施例所述的方法。
处理器201可以包括一个或者多个处理核。处理器201利用各种接口和线路连接整个电子设备200内的各个部分,通过运行或执行存储在存储器202内的指令、程序、代码集或指令集,以及调用存储在存储器202内的数据,执行电子设备200的各种功能和处理数据。可选地,处理器201可以采用数字信号处理(Digital Signal Processing,简称DSP)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)、可编程逻辑阵列(Programmable Logic Array,简称PLA)中的至少一种硬件形式来实现。处理器201可集成中央处理器(Central Processing Unit,简称CPU)、图像处理器(Graphics ProcessingUnit,简称GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器201中,单独通过一块通信芯片进行实现。
存储器202可以包括随机存储器(Random Access Memory,简称RAM),也可以包括只读存储器(Read-Only Memory,简称ROM)。存储器202可用于存储指令、程序、代码、代码集或指令集。存储器202可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备200在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
本申请实施例提供一种电子设备200,电子设备200的解释说明以及有益效果与前述实施例的解释说明以及有益效果相同,在此不再赘述。
如图12所示,其示出了本申请另一实施例提供的一种计算机可读存储介质300的结构框图。该计算机可读存储介质300中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质300可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选的,计算机可读存储介质300包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。
计算机可读存储介质300具有执行上述方法中的任何方法步骤的应用程序203的存储空间。这些应用程序203可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。应用程序203可以例如以适当形式进行压缩。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种抠图方法,其特征在于,包括:
获取原始图像的前景分割遮罩图和深度图;
将所述原始图像和所述分割遮罩图输入第一前景预测网络中,得到第一前景预测图,将所述原始图像和所述深度图输入第二前景预测网络中,得到第二前景预测图;
将所述原始图像与所述第一前景预测图输入到互补学习网络中,得到第一误差图,将所述原始图像与所述第二前景预测图输入到所述互补学习网络中,得到第二误差图;
比较所述第一误差图与所述第二误差图在同一图像分区的置信度,根据比较结果,对所述第一前景预测图或所述第二前景预测图位于该图像分区的图像进行修正,获得修正后的第一前景预测图和修正后的第二前景预测图。
2.根据权利要求1所述的方法,其特征在于,所述将所述原始图像和所述分割遮罩图输入到第一前景预测网络中,得到第一前景预测图,包括:
利用所述原始图像作为标签,采用生成对抗方式对所述第一前景预测网络进行训练,得到所述第一前景预测图;
所述将所述原始图像和所述深度图输入到第二前景预测网络中,得到第二前景预测图,包括:
利用所述原始图像作为标签,采用生成对抗方式对所述第二前景预测网络进行训练,得到所述第二前景预测图。
3.根据权利要求2所述的方法,其特征在于,所述利用所述原始图像作为标签,采用生成对抗方式对所述第一前景预测网络进行训练,得到所述第一前景预测图,包括:
利用所述原始图像的前景真值监督所述第一前景预测网络,得到第一前景预测图;
生成器将所述第一前景预测图与其他背景图合成第一更新图片;
利用判别器判别所述第一更新图片的真实可信性,以监督所述第一前景预测网络输出新的第一前景预测图。
4.根据权利要求3所述的方法,其特征在于,所述利用所述原始图像作为标签,采用生成对抗方式对所述第二前景预测网络进行训练,得到所述第二前景预测图,包括:
利用所述原始图像的前景真值监督所述第二前景预测网络,得到第二前景预测图;
生成器将所述第二前景预测图与其他背景图合成第二更新图片;
利用判别器判别所述第二更新图片的真实可信性,以监督所述第二前景预测网络输出新的第二前景预测图。
5.根据权利要求4所述的方法,其特征在于,将所述原始图像与所述第一前景预测图输入到互补学习网络中,得到第一误差图,将所述原始图像与所述第二前景预测图输入到所述互补学习网络中,得到第二误差图,包括:
将所述原始图像、所述第一前景预测图、以及所述第二前景预测图输入到互补学习网络中,对所述互补学习网络进行有标签的预训练;
继续向训练完成的所述互补学习网络中输入更新后的第一前景预测图,并根据所述前景真值得到所述第一误差图;继续向训练完成的所述互补学习网络中输入更新后的第二前景预测图,并根据所述前景真值得到所述第二误差图。
6.根据权利要求5所述的方法,其特征在于,所述第一误差图和所述第二误差图均为灰度图;所述比较所述第一误差图与所述第二误差图在同一图像分区的置信度,包括:
对所述第一误差图进行归一化处理,得到彩色的第一误差概率图及其在各个像素点的第一误差概率,对所述第二误差图进行归一化处理,得到彩色的第二误差概率图及其在各个像素点的第二误差概率;
比较同一像素点的所述第一误差概率和所述第二误差概率,若所述第一误差概率小于所述第二误差概率,则所述第一误差图的置信度大于所述第二误差图的置信度,反之,所述第一误差图的置信度小于所述第二误差图的置信度。
7.根据权利要求6所述的方法,其特征在于,所述比较所述第一误差图与所述第二误差图在同一图像分区的置信度,根据比较结果,对所述第一前景预测图或所述第二前景预测图进行修正,获得修正后的第一前景预测图和修正后的第二前景预测图,包括:
比较所述第一误差图和所述第二误差图中位于同一像素点的图像的置信度,在同一像素点,若所述第一误差图的置信度大于所述第二误差图的置信度,则在该像素点,所述第一前景预测图像基于所述第二前景预测图像进行修正,反之,所述第二前景预测图像基于所述第一前景预测图像进行修正。
8.根据权利要求6所述的方法,其特征在于,所述对所述第一误差图进行归一化处理,得到彩色的第一误差概率图及其在各个像素点的第一误差概率,对所述第二误差图进行归一化处理,得到彩色的第二误差概率图及其在各个像素点的第二误差概率之后,所述方法还包括:
将所述第一误差概率和所述第二误差概率与误差概率阈值进行比较;
当所述第一误差概率和所述第二误差概率均大于所述误差概率阈值时,重新训练所述第一前景预测网络和所述第二前景预测网络,直至所述第一误差概率和所述第二误差概率趋近于0。
9.一种抠图装置,其特征在于,包括:
图像获取模块,用于获取原始图像的前景分割遮罩图和深度图;
前景预测模块,用于将所述原始图像和所述分割遮罩图输入第一前景预测网络中,得到第一前景预测图,将所述原始图像和所述深度图输入第二前景预测网络中,得到第二前景预测图;
互补学习模块,用于将所述原始图像与所述第一前景预测图输入互补学习网络中,得到第一误差图,将所述原始图像与所述第二前景预测图输入所述互补学习网络中,得到第二误差图;
互补学习模块,还用于比较所述第一误差图与所述第二误差图在同一图像分区的置信度,根据比较结果,对所述第一前景预测图或所述第二前景预测图进行修正,获得修正后的第一前景预测图和修正后的第二前景预测图。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;以及,
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序用于执行权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110159021.8A CN112819848B (zh) | 2021-02-04 | 2021-02-04 | 抠图方法、抠图装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110159021.8A CN112819848B (zh) | 2021-02-04 | 2021-02-04 | 抠图方法、抠图装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112819848A CN112819848A (zh) | 2021-05-18 |
CN112819848B true CN112819848B (zh) | 2024-01-05 |
Family
ID=75861667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110159021.8A Active CN112819848B (zh) | 2021-02-04 | 2021-02-04 | 抠图方法、抠图装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112819848B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113392801A (zh) * | 2021-06-30 | 2021-09-14 | 深圳市斯博科技有限公司 | 图像处理方法、系统、设备及存储介质 |
CN117351118B (zh) * | 2023-12-04 | 2024-02-23 | 江西师范大学 | 一种结合深度信息的轻量化固定背景抠像方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106780516A (zh) * | 2017-01-04 | 2017-05-31 | 努比亚技术有限公司 | 一种实现交互式图像分割的方法、装置及终端 |
CN107481261A (zh) * | 2017-07-31 | 2017-12-15 | 中国科学院长春光学精密机械与物理研究所 | 一种基于深度前景跟踪的彩色视频抠图方法 |
CN110930296A (zh) * | 2019-11-20 | 2020-03-27 | Oppo广东移动通信有限公司 | 图像处理方法、装置、设备及存储介质 |
CN111369582A (zh) * | 2020-03-06 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 图像分割方法、背景替换方法、装置、设备及存储介质 |
CN112241960A (zh) * | 2020-10-01 | 2021-01-19 | 深圳奥比中光科技有限公司 | 一种基于深度信息的抠图方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10255681B2 (en) * | 2017-03-02 | 2019-04-09 | Adobe Inc. | Image matting using deep learning |
-
2021
- 2021-02-04 CN CN202110159021.8A patent/CN112819848B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106780516A (zh) * | 2017-01-04 | 2017-05-31 | 努比亚技术有限公司 | 一种实现交互式图像分割的方法、装置及终端 |
CN107481261A (zh) * | 2017-07-31 | 2017-12-15 | 中国科学院长春光学精密机械与物理研究所 | 一种基于深度前景跟踪的彩色视频抠图方法 |
CN110930296A (zh) * | 2019-11-20 | 2020-03-27 | Oppo广东移动通信有限公司 | 图像处理方法、装置、设备及存储介质 |
CN111369582A (zh) * | 2020-03-06 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 图像分割方法、背景替换方法、装置、设备及存储介质 |
CN112241960A (zh) * | 2020-10-01 | 2021-01-19 | 深圳奥比中光科技有限公司 | 一种基于深度信息的抠图方法及系统 |
Non-Patent Citations (6)
Title |
---|
AlphaGan: Generative adversarial networks for natural image matting;Sebastian Lutz 等;《Arxiv》;第1-17页 * |
Improving sampling-based image matting with cooperative coevolution differential evolution algorithm;Zhao Quan Cai 等;《Methodologies and Application》;第21卷;第4417–4430页 * |
Targeting Accurate Object Extraction From an Image: A Comprehensive Study of Natural Image Matting;Qingsong Zhu 等;《IEEE Transactions on Neural Networks and Learning Systems》;第26卷(第2期);第185-207页 * |
基于生成对抗网络的单目深度图像的生成;李锦环;《中国优秀硕士学位论文全文数据库 信息科技辑(月刊)》(第2期);第I138-1924页 * |
深度图辅助的主动轮廓抠图方法的研究及应用;曾文亮;《中国优秀硕士学位论文全文数据库 信息科技辑(月刊)》(第1期);第I138-902页 * |
结合Kinect深度图的快速视频抠图算法;何贝 等;《清华大学学报(自然科学版)》;第52卷(第4期);第561-565、570页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112819848A (zh) | 2021-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111898696B (zh) | 伪标签及标签预测模型的生成方法、装置、介质及设备 | |
CN111754596B (zh) | 编辑模型生成、人脸图像编辑方法、装置、设备及介质 | |
CN107273458B (zh) | 深度模型训练方法及装置、图像检索方法及装置 | |
US10776662B2 (en) | Weakly-supervised spatial context networks to recognize features within an image | |
CN107111782B (zh) | 神经网络结构及其方法 | |
CN112001914A (zh) | 深度图像补全的方法和装置 | |
CN112819848B (zh) | 抠图方法、抠图装置和电子设备 | |
CN114820871B (zh) | 字体生成方法、模型的训练方法、装置、设备和介质 | |
JP7384943B2 (ja) | 文字生成モデルのトレーニング方法、文字生成方法、装置、機器及び媒体 | |
CN112614144A (zh) | 一种图像分割方法、装置、设备及存储介质 | |
CN114926835A (zh) | 文本生成、模型训练方法和装置 | |
CN114445826A (zh) | 视觉问答方法、装置、电子设备以及存储介质 | |
CN113033305B (zh) | 活体检测方法、装置、终端设备和存储介质 | |
CN117557708A (zh) | 图像生成方法、装置、存储介质及计算机设备 | |
CN117094362A (zh) | 一种任务处理方法及相关装置 | |
CN111986204A (zh) | 一种息肉分割方法、装置及存储介质 | |
CN116363429A (zh) | 图像识别模型的训练方法、图像识别方法、装置及设备 | |
CN108229491B (zh) | 从图片中检测物体关系的方法、装置和设备 | |
CN113989569B (zh) | 图像处理方法、装置、电子设备和存储介质 | |
CN114564606A (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
CN114049319A (zh) | 文本安全类型检测方法及其装置、设备、介质、产品 | |
US20240169541A1 (en) | Amodal instance segmentation using diffusion models | |
CN115292455B (zh) | 图文匹配模型的训练方法及装置 | |
CN116383428B (zh) | 一种图文编码器训练方法、图文匹配方法及装置 | |
CN114662129B (zh) | 数据分片安全评估方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |