CN111161277B - 一种基于深度学习的自然图像抠图方法 - Google Patents

一种基于深度学习的自然图像抠图方法 Download PDF

Info

Publication number
CN111161277B
CN111161277B CN201911274458.5A CN201911274458A CN111161277B CN 111161277 B CN111161277 B CN 111161277B CN 201911274458 A CN201911274458 A CN 201911274458A CN 111161277 B CN111161277 B CN 111161277B
Authority
CN
China
Prior art keywords
encoder
model
training
natural image
alpha mask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911274458.5A
Other languages
English (en)
Other versions
CN111161277A (zh
Inventor
赖剑煌
邓卓爽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201911274458.5A priority Critical patent/CN111161277B/zh
Publication of CN111161277A publication Critical patent/CN111161277A/zh
Application granted granted Critical
Publication of CN111161277B publication Critical patent/CN111161277B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

本发明公开了一种基于深度学习的自然图像抠图方法,其包括以下步骤:获取抠图数据集,并进行数据增强;搭建具有编码器‑解码器结构的自然图像抠图模型,为保留细节信息,设计编码器使其下采样倍数为4,为弥补下采样倍数下降带来的感受野变小,引入空洞卷积扩大感受野,保存最大池化操作中最大像素位置,以便为上采样阶段提供位置信息;为解决多尺度问题,在编码器顶部连接一个空洞空间金字塔模块;在解码器中设计全局语境模块,用于融合所述编码器与解码器对应的高层特征;最后训练并测试。本发明在提取特征过程中保留更多细节信息,同时关联多尺度特征,使模型能捕抓到全局信息,有利于模型处理细节以及大面积透明物体,提升抠图质量。

Description

一种基于深度学习的自然图像抠图方法
技术领域
本发明涉及图像处理技术领域,具体涉及一种基于深度学习的自然图像抠图方法。
背景技术
抠图技术是在数字图像上进行的一种图像处理技术,它最初由影视行业发展而来,现已成为视觉特效制作中至关重要的技术。利用抠图技术,电影、广告、海报等领域制作人可以把一个需要的人物或物体无缝地嵌入到一个指定的场景中。但这类特效的制作大多使用蓝屏抠图技术,该技术需要把拟嵌入的人物或物体放置到一个纯色背景中拍摄,极大限制了抠图技术的应用。随着计算机技术的发展,用户对能从一幅自然图像中抠出感兴趣的物体的需求越来越强烈,同时也提出了更高的质量要求。
普通的图像分割技术是把图像中的每个像素都明确归为某一类,其任务是实现对每个像素的分类,这类任务往往只是得到一张粗糙的分割掩膜。但抠图技术则提出了更高的要求,它更加关注诸如毛发等边缘细节,同时需要估计过渡边缘与半透明物体的透明度,它的任务是对每个像素回归一个前景的透明度,得到一张精细的alpha蒙版,其核心问题可以归结为求解以下公式:
Ii=αi*Fi+(1-αi)*Bi
式中,i表示某一个像素,Ii表示像素颜色,αi表示透明度,Fi表示前景,Bi表示背景。在alpha蒙版中,α=0表示背景像素,α=1表示前景像素,对于不确定是前景还是背景的像素,α是介于0到1之间的浮点数,α越小表示透明度越大。显然,公式中的已知量只有Ii,另外三个均为未知量,这是一个严重的病态问题。因此,在抠图时需要一定的用户交互以提供限制条件,如输入三元图,初步确定明确的前背景区域和未确定区域。
传统的自然图像抠图方法主要包括基于采样、基于传播以及两者相结合的抠图方法。随着近年来深度学习的迅猛发展,基于深度学习的抠图方法得到研究人员的广泛关注,并提出了一系列精度更高、泛化能力更强的模型。2016年,Cho等人结合传统的Closed FormMatting和KNN Matting,首次使用深度学习方法训练获得高精度的抠图模型。2017年,Xu等人在语义分割模型SegNet的基础上训练得到一个精度更高、泛化能力更强的抠图模型,同时发布了一个高质量的抠图数据集,这对以数据为驱动的深度学习方法在自然图像抠图上的研究有着极大的促进作用。
然而,现有基于深度学习的抠图方法仍然存在一些问题,比如毛发等细节的丢失,大面积透明前景存在缺块,当前背景颜色相似时精度大大下降等。对于细节的丢失问题,由于深度学习的特征提取器下采样倍数一般为32倍,而诸如毛发等细节则只有几个像素大小,在下采样过程中它们的位置信息将大量丢失。但如果简单地降低下采样倍数,又会面临感受野过小,特征提取器仅能学习到小范围内的局部特征,不利于高层语义信息的获取,同样造成精度下降,这是保留位置信息与提取高层语义信息之间的矛盾。对于缺块、难样本预测精度不高等问题,抠图的目标一般比较大,这些大目标可以看成是由不同大小的组块构成的,若仅使用核大小一致的卷积操作,在相同感受野情况下,容易造成大组块因组块内部细节不同而被提取出不同的特征,缺乏更高层的整体特征,而相邻的几个小组块则可能会被识别为一个整体,因此抠图任务中同样需要解决物体的多尺度问题;另外,为了解决大面积透明前景的缺块问题以及难样本问题,自然图像抠图模型也需要引进扩大上下文信息范围的方法。
发明内容
针对上述的一系列问题,本发明提出了一种基于深度学习的自然图像抠图方法,该方法对卷积神经网络提取器进行一系列改进,同时设计合适的解码器,有效降低了抠图结果的误差。
本发明的目的通过以下的技术方案实现:一种基于深度学习的自然图像抠图方法,包括以下步骤:
S1:获取抠图数据集,把所述抠图数据集中样本划分为训练集与测试集;
S2:搭建具有编码器-解码器结构的自然图像抠图模型,该模型中所述编码器的下采样倍数为4,结合普通卷积和空洞卷积操作;编码器顶部连接一个空洞空间金字塔池化模块;所述解码器包含全局语境模块,用于融合所述编码器与解码器对应的高层特征;
S3:初始化并训练模型,利用所述训练集中的alpha蒙版生成三元图,把原图与三元图作为模型输入,对模型进行训练,模型输出为预测的alpha蒙版,计算预测的alpha蒙版与真实alpha蒙版之间的误差,保存在所述测试集上表现最好的模型;
S4:将需要测试的图片及对应的三元图输入到已训练好的自然图像抠图模型中,得到预测的alpha蒙版。
本发明在提取特征过程中保留更多细节信息,同时关联多尺度特征,使模型能捕抓到全局信息,有利于模型处理细节以及大面积透明物体,提升抠图质量。
优选的,步骤S1中,为了扩充训练和测试的样本数量,对训练集和测试集分别进行数据增强,方法是:
利用前景图和alpha蒙版把同一前景目标融合进不同的背景中,融合公式为:
Ii=αi*Fi+(1-αi)*Bi
式中,i表示某一个像素,Ii表示像素颜色,αi表示透明度,Fi表示前景,Bi表示背景。
优选的,步骤S2中,所述编码器由5个stage组成,在stage1和stage2中使用普通卷积和步长为2的最大池化操作,为了保留更多低层特征的位置信息同时不进行下采样,把stage3和stage4中最大池化操作的步长设为1,去除stage5的池化操作,以上结构使得所述编码器的下采样倍数为4,保留了更多细节的位置信息;为弥补下采样倍数降低带来的感受野变小的问题,在stage4和stage5引入空洞卷积操作;把所有全连接层替换成一层卷积核大小为1的卷积层。
为进一步减少细节信息的丢失,所述最大池化操作需返回最大值像素的坐标信息,以便给上采样阶段保留更多位置信息。
优选的,步骤S2中,所述空洞空间金字塔池化模块是为解决特征多尺度问题的,具体方法为:在所述编码器顶部连接五路并行分支,前四路分支分别使用空洞率为1、5、9、16的空洞卷积操作对所述编码器输出的特征图作进一步特征提取,最后一路对所述编码器输出的特征图进行全局平均池化操作得到一维向量,利用双线性插值法对所述向量上采样至所述编码器输出的特征图大小,对所述五路并行分支的特征图在通道方向进行拼接。
为了尽可能利用好所述编码器保留下来的细节信息,并关联多尺度特征以进一步扩大上下文信息范围,步骤S2中所述解码器包括以下4个阶段:
阶段D4:对输出自所述空洞空间金字塔池化模块的特征图进行卷积操作,利用所述全局语境模块对所得特征图和所述编码器stage5的输出进行融合,利用所述编码器stage4最大池化操作保留的最大值坐标信息,对全局语境模块输出的特征图进行反池化操作,步长设置为1,使特征图尺度保持不变;
阶段D3:对输出自阶段D4的特征图进行卷积操作,利用所述全局语境模块对所得特征图和所述编码器stage4的输出进行融合,利用所述编码器stage3最大池化操作保留的最大值坐标信息,对全局语境模块输出的特征图进行反池化操作,步长设置为1,使特征图尺度保持不变;
阶段D2:对输出自阶段D3的特征图进行卷积操作,利用所述编码器stage2最大池化操作保留的最大值坐标信息,对所得特征图进行反池化操作,步长设置为2,使特征图上采样2倍;
阶段D1:对输出自阶段D2的特征图进行卷积操作,利用所述编码器stage1最大池化操作保留的最大值坐标信息,对所得特征图进行反池化操作,步长设置为2,使特征图上采样2倍,尺度恢复原图大小,对所得特征度进行两次卷积操作,通道数降为1,最后通过sigmoid函数输出预测的alpha蒙版。
更进一步的,所述全局语境模块是为了获取全局语义信息,使得特征之间能相互关联,具体方法为:首先把来自所述解码器的高层特征和来自所述编码器相对底层的特征通过1×1卷积降维到相同通道数,对降维后的来自所述解码器的高层特征进行全局平均池化操作,获得一维向量,所述一维向量与降维后的来自编码器相对底层的特征进行对应通道相乘,相乘后的特征图与进行全局平均池化前降维后的所述高层特征在通道维度上拼接,拼接后结果作为所述全局语境模块的输出。
优选的,步骤S3所述生成三元图的具体方法为:把alpha蒙版中像素值范围为[1,254]的像素赋值为128,这些像素组成未确定区域,其余像素值保持不变,使用膨胀与腐蚀操作作用于所述未确定区域,扩大所述未确定区域范围,生成最终三元图。
优选的,步骤S3中,生成三元图后,进行线上数据增强步骤,方法为:随机选取生成的三元图中未确定区域的一点作为中心点,然后对原图、alpha蒙版、三元图在相同位置进行相同大小尺度的剪切,剪切尺度随机产生,最后统一伸缩为模型输入大小,并对图像进行随机水平翻转。
优选的,在步骤S3模型训练过程中,计算模型预测的alpha蒙版与真实alpha蒙版之间的误差,损失函数设为:
Figure BDA0002315154560000051
式中,αg为真实alpha蒙版,αp为预测alpha蒙版,ε为一个极小的正数;损失函数仅计算三元图中未确定区域的像素损失,使得模型仅关注细节部分。
更进一步的,步骤S3所述模型训练时使用Xavier方法初始化模型参数,设置初始学习率,在训练达到预定代数时开始使用“poly”学习率调整策略,调整公式为:
Figure BDA0002315154560000052
式中lr0为初始学习率,epoch为当前训练代数,power是衰减因子,max_epoch为最大训练代数。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明可以把编码器的下采样倍数降为4,同时为了弥补降低采样倍数带来的感受野不足的问题,引入了空洞卷积操作,同时在最大化池化操作中保留最大值像素的位置,这使得编码器保留大量细节位置信息的同时,能获取高层的语义信息,所以实验测试结果在毛发等细节方面精度更高。而在分割任务中,为保证感受野的大小,一般下采样倍数降为16或8,在抠图任务中降为4却能取得更好的效果,说明位置信息的保留对抠图任务的精度更重要,抠图任务更加关注细节。
2、本发明采用了空洞空间金字塔池化模块和全局语境模块,有利于解决多尺度问题,并关联特征之间的关系,扩大上下文信息范围。这些改进使得模型在测试具有大面积未确定区域的物体上表现更优。
3、本发明在提取特征过程中保留更多细节信息,同时关联多尺度特征,使模型能捕抓到全局信息,有利于模型处理细节以及大面积透明物体,提升抠图质量。
附图说明
图1是本发明实施例的流程图。
图2是本发明实施例的模型示意图。
图3是本发明实施例与基准的部分对比结果图。
具体实施方式
下面结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,这些描述只是示例性的,而非要限制本发明的范围。
图1是根据本发明实施例的一种基于深度学习的自然图像抠图方法的流程图,下面以图1为例来说明本发明的一些具体实现流程。具体步骤如下:
步骤S1:获取抠图数据集,分别制作适合训练和测试的训练集与测试集,同时进行数据增强,这里以2017年Xu等人发布的Adobe Deep Matting数据集为例。
Adobe Deep Matting数据集仅提供训练集的前景图与alpha蒙版,测试集的前景图、alpha蒙版与三元图,需要额外提供背景图来合成训练图与测试图;另外,由于AdobeDeep Matting数据集仅含有431张用于训练的alpha蒙版,20张用于测试的alpha蒙版,这对数据驱动的深度学习方法是远远不够的,需要进行数据增强;具体实施步骤如下:
步骤S11:下载COCO2014数据集作为背景图。
步骤S12:根据图片合成公式:Ii=αi*Fi+(1-αi)*Bi,利用前景图、背景图和alpha蒙版合成训练图和测试图。对于每一张用于训练的alpha蒙版,都融合到100张不同的背景图中,从而得到43100张训练图;对于每一张用于测试alpha蒙版,都融合到50张不同的背景中,从而得到1000张测试图。
步骤S2:搭建具有编码器-解码器结构的自然图像抠图模型,如图2所示,所述编码器的下采样倍数为4,结合普通卷积和空洞卷积操作,所述编码器顶部连接一个空洞空间金字塔池化模块;所述解码器包含全局语境模块,用于融合所述编码器与解码器对应的高层特征。
具体实施步骤如下:
步骤S21:所述编码器由VGG16模型改进而来,为避免细节位置信息的丢失,保留stage1和stage2中的普通卷积和步长为2的最大池化操作的同时,把stage3和stage4中最大池化操作的步长改为1,去除stage5的池化操作,修改后所述编码器的下采样倍数降为4,保留更多细节的位置信息。
步骤S22:为弥补下采样倍数降低带来的感受野变小的问题,在stage4和stage5引入空洞卷积操作。
步骤S23:把所有全连接层替换成一层卷积核大小为1的卷积层。
步骤S24:为进一步减少细节信息的丢失,所述最大池化操作增加返回最大值像素的坐标信息的操作,以便给上采样阶段保留更多位置信息。
步骤S25:所述空洞空间金字塔池化模块是为解决特征多尺度问题的,具体方法为:在所述编码器顶部连接五路并行分支,前四路分支分别使用空洞率为1、5、9、16的空洞卷积操作对所述编码器输出的特征图作进一步特征提取,最后一路对所述编码器输出的特征图进行全局平均池化操作得到一维向量,利用双线性插值法对所述向量上采样至所述编码器输出的特征图大小,对所述五路并行分支的特征图在通道方向进行拼接。
步骤S26:搭建解码器。为了尽可能利用好所述编码器保留下来的细节信息,并关联多尺度特征以进一步扩大上下文信息范围,步骤S2中所述解码器包括以下4个阶段:
阶段D4:对输出自所述空洞空间金字塔池化模块的特征图进行卷积操作,卷积核大小为5,利用所述全局语境模块对所得特征图和所述编码器stage5的输出进行融合,利用所述编码器stage4最大池化操作保留的最大值坐标信息,对融合所得特征图进行反池化操作,步长设置为1,使特征图尺度保持不变。
所述全局语境模块是为了获取全局语义信息,使得特征之间能相互关联,具体方法为:首先把来自所述解码器的高层特征和来自所编码器相对底层的特征通过1×1卷积降维到相同通道数,对降维后的来自所述解码器的高层特征进行全局平均池化操作,获得一维向量,所述向量与降维后的来自所编码器相对底层的特征进行对应通道相乘,相乘后的特征图与进行全局平均池化前降维后的所述高层特征在通道维度上拼接,作为所述全局语境模块的输出。
阶段D3:对输出自阶段D4的特征图进行卷积操作,卷积核大小为5,利用所述全局语境模块对所得特征图和所述编码器stage4的输出进行融合,利用所述编码器stage3最大池化操作保留的最大值坐标信息,对融合所得特征图进行反池化操作,步长设置为1,使特征图尺度保持不变。
阶段D2:对输出自阶段D3的特征图进行卷积操作,卷积核大小为5,对所得特征图进行反池化操作,步长设置为2,使特征图上采样2倍。
阶段D1:对输出自阶段D2的特征图进行卷积操作,卷积核大小为5,对所得特征图进行反池化操作,步长设置为2,使特征图上采样2倍,尺度恢复原图大小,对所得特征度进行两次卷积操作,卷积核大小均为5,通道数降为1,最后通过sigmoid函数输出预测的alpha蒙版。
步骤S3:用训练集对模型进行训练,在训练过程中自动生成用于训练的对应三元图,同时进行数据增强;每训练完一个epoch,用测试集测试一遍,计算精度,保存当前最好模型,具体实施步骤:
步骤S31:获取训练数据,把alpha蒙版中像素值范围为[1,254]的像素赋值为128,这些像素组成未确定区域,其余像素值保持不变,使用膨胀与腐蚀操作作用于所述未确定区域,扩大所述未确定区域范围,生成最终三元图。另外,为增加三元图的多样性,膨胀与腐蚀操作的核大小随机选取。
步骤S32:线上数据增强。随机选取三元图中未确定区域的一点作为中心点,然后对对应的训练图、alpha蒙版、三元图在相同位置进行相同大小尺度的剪切,剪切尺度在[320,480,600]这三个数中随机产生,最后所有训练图、alpha蒙版、三元图统一伸缩为模型输入大小,本实例选取320作为模型输入大小,最后对图像进行随机水平翻转。
步骤S33:对经过数据增强的训练图进行标准化处理,再与对应三元图在通道维度上拼接成4通道张量,作为模型的输入。
步骤S34:使用Xavier方法初始化模型参数,初始学习率设为0.00001。
步骤S35:输入张量经过模型的前向传播后,输出一张预测的alpha蒙版,根据损失函数公式:
Figure BDA0002315154560000081
计算预测alpha蒙版与真实蒙版的损失,损失再反向传播更新模型参数,使用Adam优化方法训练。其中,损失函数仅计算三元图中未确定区域的像素损失,使得模型仅关注细节部分。
步骤S36:模型每训练完一个epoch,使用所述测试集对模型测试一遍,计算精度,保存当前最好的模型。
步骤S37:在训练达到15epoch时开始使用“poly”学习率调整策略,调整公式为:
Figure BDA0002315154560000082
式中lr0为初始学习率,epoch为当前训练代数,max_epoch为最大训练代数,设为25,power为衰减因子,设为0.9。
步骤S4:准备需要测试的图片及对应的三元图,输入精度最高的模型,得到预测的alpha蒙版。
将本发明实施例方法与现有技术在Composition-1k测试集上进行性能对比,参数如表1所示。
表1本发明模型与现有技术性能参数对比结果
SAD MSE
KNN Matting 175.4 0.103
Closed-Form Matting 168.1 0.091
Information-flow Matting 75.4 0.066
AlphaGan-Best 52.4 0.030
Deep Image Matting(baseline) 62.0 0.020
Ours 51.8 0.016
在表1中,KNN Matting对应Chen等人提出的方法(Qifeng Chen,Dingzeyu Li,andChi-Keung Tang.KNN matting.IEEE transactions on pattern analysis and machineintelligence,35(9):2175–2188,2013.);
Closed-Form Matting对应Levin等人提出的方法(Anat Levin,DaniLischinski,and Yair Weiss.A closed-form solution to natural imagematting.IEEE transactions on pattern analysis and machine intelligence,30(2):228–242,2008.);
Information-flow Matting对应Aksoy等人提出的方法(Yagiz Aksoy,Tunc OzanAydin,and Marc Pollefeys.Designing effective inter-pixel information flow fornatural image matting.In Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition,pages 29–37,2017.);
AlphaGan-Best对应Lutz等人提出的方法(Sebastian Lutz,KonstantinosAmplianitis,and Aljosa Smolic.Alphagan:Generative adversarial networks fornatural image matting.arXiv preprint arXiv:1807.10088,2018.);
Deep Image Matting对应Xu等人提出的方法(Ning Xu,Brian Price,ScottCohen,and Thomas Huang.Deep image matting.In Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,pages 2970–2979,2017.);
本发明以Deep Image Matting(DIM)作为基准进行了一系列的改进,模型性能有了显著提升,误差指标绝对误差和(SAD)降了10.2,均方误差(MSE)下降0.004。结合图3的第1、4、5行的对比结果可以看出,本发明的方法对细节的处理相比基准更优;结合图3的第2、3、4行的对比结果可以看出,本发明能把握前景目标的整体语境,有效缓解缺块、难样本误估计等问题,对于第2、3行这种绝大部分为未确定区域的物体仍然能得到很好的结果。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种基于深度学习的自然图像抠图方法,其特征在于,包括步骤:
S1:获取抠图数据集,把所述抠图数据集中样本划分为训练集与测试集;
S2:搭建具有编码器-解码器结构的自然图像抠图模型,该模型中所述编码器的下采样倍数为4,结合普通卷积和空洞卷积操作;编码器顶部连接一个空洞空间金字塔池化模块;所述解码器包含全局语境模块,用于融合所述编码器与解码器对应的高层特征;
步骤S2中,所述编码器由5个stage组成,在stage1和stage2中使用普通卷积和步长为2的最大池化操作,把stage3和stage4中最大池化操作的步长设为1,去除stage5的池化操作,以上结构使得所述编码器的下采样倍数为4;在stage4和stage5引入空洞卷积操作;把所有全连接层替换成一层卷积核大小为1的卷积层;
步骤S2中所述解码器包括4个阶段:
阶段D4:对输出自所述空洞空间金字塔池化模块的特征图进行卷积操作,利用所述全局语境模块对所得特征图和所述编码器stage5的输出进行融合,利用所述编码器stage4最大池化操作保留的最大值坐标信息,对全局语境模块输出的特征图进行反池化操作,步长设置为1,使特征图尺度保持不变;
阶段D3:对输出自阶段D4的特征图进行卷积操作,利用所述全局语境模块对所得特征图和所述编码器stage4的输出进行融合,利用所述编码器stage3最大池化操作保留的最大值坐标信息,对全局语境模块输出的特征图进行反池化操作,步长设置为1,使特征图尺度保持不变;
阶段D2:对输出自阶段D3的特征图进行卷积操作,利用所述编码器stage2最大池化操作保留的最大值坐标信息,对所得特征图进行反池化操作,步长设置为2,使特征图上采样2倍;
阶段D1:对输出自阶段D2的特征图进行卷积操作,利用所述编码器stage1最大池化操作保留的最大值坐标信息,对所得特征图进行反池化操作,步长设置为2,使特征图上采样2倍,尺度恢复原图大小,对所得特征度进行两次卷积操作,通道数降为1,最后通过sigmoid函数输出预测的alpha蒙版;
S3:初始化并训练模型,利用所述训练集中的alpha蒙版生成三元图,把原图与三元图作为模型输入,对模型进行训练,模型输出为预测的alpha蒙版,计算预测的alpha蒙版与真实alpha蒙版之间的误差,保存在所述测试集上表现最好的模型;
S4:将需要测试的图片及对应的三元图输入到已训练好的自然图像抠图模型中,得到预测的alpha蒙版。
2.根据权利要求1所述的基于深度学习的自然图像抠图方法,其特征在于,步骤S1中,对训练集和测试集分别进行数据增强,方法是:
利用前景图和alpha蒙版把同一前景目标融合进不同的背景中,融合公式为:
Ii=αi*Fi+(1-αi)*Bi
式中,i表示某一个像素,Ii表示像素颜色,αi表示透明度,Fi表示前景,Bi表示背景。
3.根据权利要求1所述的基于深度学习的自然图像抠图方法,其特征在于,所述最大池化操作需返回最大值像素的坐标信息;
所述空洞空间金字塔池化模块用于解决特征多尺度问题,具体方法为:在所述编码器顶部连接五路并行分支,前四路分支分别使用空洞率为1、5、9、16的空洞卷积操作对所述编码器输出的特征图作进一步特征提取,最后一路对所述编码器输出的特征图进行全局平均池化操作得到一维向量,利用双线性插值法对所述向量上采样至所述编码器输出的特征图大小,对所述五路并行分支的特征图在通道方向进行拼接。
4.根据权利要求1所述的基于深度学习的自然图像抠图方法,其特征在于,所述全局语境模块是为了获取全局语义信息,使得特征之间能相互关联,具体方法为:首先把来自所述解码器的高层特征和来自所述编码器相对底层的特征通过1×1卷积降维到相同通道数,对降维后的来自所述解码器的高层特征进行全局平均池化操作,获得一维向量,所述一维向量与降维后的来自编码器相对底层的特征进行对应通道相乘,相乘后的特征图与进行全局平均池化前降维后的所述高层特征在通道维度上拼接,拼接后结果作为所述全局语境模块的输出。
5.根据权利要求1所述的基于深度学习的自然图像抠图方法,其特征在于,步骤S3所述生成三元图的具体方法为:把alpha蒙版中像素值范围为[1,254]的像素赋值为128,这些像素组成未确定区域,其余像素值保持不变,使用膨胀与腐蚀操作作用于所述未确定区域,扩大所述未确定区域范围,生成最终三元图。
6.根据权利要求1所述的基于深度学习的自然图像抠图方法,其特征在于,步骤S3中,生成三元图后,进行线上数据增强步骤,方法为:随机选取生成的三元图中未确定区域的一点作为中心点,然后对原图、alpha蒙版、三元图在相同位置进行相同大小尺度的剪切,剪切尺度随机产生,最后统一伸缩为模型输入大小,并对图像进行随机水平翻转。
7.根据权利要求1所述的基于深度学习的自然图像抠图方法,其特征在于,在步骤S3模型训练过程中,计算模型预测的alpha蒙版与真实alpha蒙版之间的误差,损失函数设为:
Figure FDA0004051991100000031
式中,αg为真实alpha蒙版,αp为预测alpha蒙版,ε为一个预设的极小的正数;损失函数仅计算三元图中未确定区域的像素损失。
8.根据权利要求1所述的基于深度学习的自然图像抠图方法,其特征在于,步骤S3所述模型训练时使用Xavier方法初始化模型参数,设置初始学习率,在训练达到预定次数时开始使用“poly”学习率调整策略,调整公式为:
步骤S3所述模型训练时设置初始学习率,在训练达到预定代数时开始使用“poly”学习率调整策略,调整公式为:
Figure FDA0004051991100000032
式中lr0为初始学习率,epoch为当前训练代数,power是衰减因子,max_epoch为最大训练代数。
CN201911274458.5A 2019-12-12 2019-12-12 一种基于深度学习的自然图像抠图方法 Active CN111161277B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911274458.5A CN111161277B (zh) 2019-12-12 2019-12-12 一种基于深度学习的自然图像抠图方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911274458.5A CN111161277B (zh) 2019-12-12 2019-12-12 一种基于深度学习的自然图像抠图方法

Publications (2)

Publication Number Publication Date
CN111161277A CN111161277A (zh) 2020-05-15
CN111161277B true CN111161277B (zh) 2023-04-18

Family

ID=70556833

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911274458.5A Active CN111161277B (zh) 2019-12-12 2019-12-12 一种基于深度学习的自然图像抠图方法

Country Status (1)

Country Link
CN (1) CN111161277B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111627012B (zh) * 2020-05-28 2021-12-21 华北电力大学(保定) 一种基于特征融合的深度神经网络表面缺陷检测方法
CN111784564B (zh) * 2020-06-30 2022-05-10 稿定(厦门)科技有限公司 自动抠图方法及系统
CN111899266A (zh) * 2020-07-17 2020-11-06 深圳奥比中光科技有限公司 一种基于rgbd相机的抠图方法及系统
CN112396598B (zh) * 2020-12-03 2023-08-15 中山大学 一种基于单阶段多任务协同学习的人像抠图方法及系统
CN112884776B (zh) * 2021-01-22 2022-05-31 浙江大学 一种基于合成数据集增广的深度学习抠图方法
WO2022178833A1 (zh) * 2021-02-26 2022-09-01 京东方科技集团股份有限公司 目标检测网络的训练方法、目标检测方法及装置
CN113194270B (zh) * 2021-04-28 2022-08-05 北京达佳互联信息技术有限公司 视频处理方法、装置、电子设备及存储介质
CN113034648A (zh) * 2021-04-30 2021-06-25 北京字节跳动网络技术有限公司 图像处理方法、装置、设备和存储介质
CN113192102B (zh) * 2021-05-18 2022-06-17 公安部交通管理科学研究所 一种基于jpeg的去背景人像照片生成和提取方法
CN113608805B (zh) * 2021-07-08 2024-04-12 阿里巴巴创新公司 掩膜预测方法、图像处理方法、显示方法及设备
CN113743229A (zh) * 2021-08-07 2021-12-03 北京惠朗时代科技有限公司 一种基于多尺度自编码的中文图像区域识别方法及系统
CN114120045B (zh) * 2022-01-25 2022-05-31 北京猫猫狗狗科技有限公司 一种基于多门控混合专家模型的目标检测方法和装置
CN116167922B (zh) * 2023-04-24 2023-07-18 广州趣丸网络科技有限公司 一种抠图方法、装置、存储介质及计算机设备
CN117114978B (zh) * 2023-10-24 2024-03-29 深圳软牛科技集团股份有限公司 基于iOS的图片裁剪与还原方法、装置及其相关介质
CN117252892B (zh) * 2023-11-14 2024-03-08 江西师范大学 基于轻量化视觉自注意力网络的双分支人像自动抠图装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062756A (zh) * 2018-01-29 2018-05-22 重庆理工大学 基于深度全卷积网络和条件随机场的图像语义分割方法
CN109035253A (zh) * 2018-07-04 2018-12-18 长沙全度影像科技有限公司 一种语义分割信息指导的深度学习自动图像抠图方法
CN109035267A (zh) * 2018-06-22 2018-12-18 华东师范大学 一种基于深度学习的图像目标抠取方法
CN110059772A (zh) * 2019-05-14 2019-07-26 温州大学 基于迁移vgg网络的遥感图像语义分割方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062756A (zh) * 2018-01-29 2018-05-22 重庆理工大学 基于深度全卷积网络和条件随机场的图像语义分割方法
CN109035267A (zh) * 2018-06-22 2018-12-18 华东师范大学 一种基于深度学习的图像目标抠取方法
CN109035253A (zh) * 2018-07-04 2018-12-18 长沙全度影像科技有限公司 一种语义分割信息指导的深度学习自动图像抠图方法
CN110059772A (zh) * 2019-05-14 2019-07-26 温州大学 基于迁移vgg网络的遥感图像语义分割方法

Also Published As

Publication number Publication date
CN111161277A (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
CN111161277B (zh) 一种基于深度学习的自然图像抠图方法
Golts et al. Unsupervised single image dehazing using dark channel prior loss
CN111784602B (zh) 一种生成对抗网络用于图像修复的方法
CN112884776B (zh) 一种基于合成数据集增广的深度学习抠图方法
CN110675462A (zh) 一种基于卷积神经网络的灰度图像彩色化方法
CN111709900A (zh) 一种基于全局特征指导的高动态范围图像重建方法
CN110120049B (zh) 由单张图像联合估计场景深度与语义的方法
CN113870124B (zh) 基于弱监督的双网络互激励学习阴影去除方法
CN110795858A (zh) 家装设计图纸的生成方法和装置
CN113554032B (zh) 基于高度感知的多路并行网络的遥感图像分割方法
CN109272568B (zh) 一种采用基元发现的人脸风格图像处理方法
CN110866938A (zh) 一种全自动视频运动目标分割方法
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
CN109785279A (zh) 一种基于深度学习的图像融合重建方法
CN116740362A (zh) 一种基于注意力的轻量化非对称场景语义分割方法及系统
Yu et al. MagConv: Mask-guided convolution for image inpainting
CN111553856A (zh) 基于深度估计辅助的图像去雾方法
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
CN113191367B (zh) 基于密集尺度动态网络的语义分割方法
CN114627293A (zh) 基于多任务学习的人像抠图方法
CN114898021A (zh) 音乐舞台表演视频的智能卡通化方法
CN112164078B (zh) 基于编码器-解码器的rgb-d多尺度语义分割方法
CN113487546A (zh) 一种特征-输出空间双对齐的变化检测方法
CN113962878A (zh) 一种低能见度图像去雾模型方法
CN113554655A (zh) 基于多特征增强的光学遥感图像分割方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant