CN114373109B - 一种基于深度学习的自然图像抠图方法及抠图装置 - Google Patents
一种基于深度学习的自然图像抠图方法及抠图装置 Download PDFInfo
- Publication number
- CN114373109B CN114373109B CN202210045761.3A CN202210045761A CN114373109B CN 114373109 B CN114373109 B CN 114373109B CN 202210045761 A CN202210045761 A CN 202210045761A CN 114373109 B CN114373109 B CN 114373109B
- Authority
- CN
- China
- Prior art keywords
- image
- images
- transparency mask
- deep learning
- natural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000013135 deep learning Methods 0.000 title claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 35
- 238000012360 testing method Methods 0.000 claims abstract description 32
- 230000006835 compression Effects 0.000 claims description 14
- 238000007906 compression Methods 0.000 claims description 14
- 230000005284 excitation Effects 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 10
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000003709 image segmentation Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 description 5
- 230000006872 improvement Effects 0.000 description 5
- 230000000903 blocking effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006748 scratching Methods 0.000 description 1
- 230000002393 scratching effect Effects 0.000 description 1
- 238000013316 zoning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于深度学习的自然图像抠图方法及抠图装置。所述方法包括:设计四通道的图像输入;采用预先训练好的预训练模型提取图像输入的特征图;在第一阶段内:设定基于深度学习的网络模型一,针对特征图得到粗略透明度遮罩;在第二阶段内:将特征图随机取多个区域,并将这些区域中对应的粗略透明度遮罩作为第五通道添加到图像输入中;在当前的图像输入下,一方面采用基于深度学习的网络模型二,得到精细透明度遮罩,另一方面求解精细透明度遮罩的困难难度;对一个图像测试集中的所有待抠图的自然图像进行测试。本发明在技术上解决了未知区域较大图片难以抠图以及网络参数过多无法在内存较小的设备上抠图的问题,并在公开自然图像抠图数据集上取得了较好的结果。
Description
技术领域
本发明涉及一种抠图方法及其抠图装置,尤其涉及一种基于深度学习的自然图像抠图方法及其抠图装置。
背景技术
图像抠图是计算机视觉中一项基础但较为困难的问题,旨在精确的估计前景、背景及透明度。抠图技术的应用十分广泛,在图像编辑和电影制作中尤为关键。下述公式为图像合成的定义,其中αi,Fi,Bi分别对应像素点i处的透明度、前景值和背景值。每一个像素点的都是前景和背景依据透明度进行线性组合。当αi=0时,表示当前像素点完全由背景像素组成,当αi=1时,表示当前像素点完全由前景像素组成,当αi∈[0,1]时,当前像素由前景和背景线性组成。从公式可以看出,抠图问题已知自然图像I的三通道像素值,需对于透明度遮罩(alpha matte)构成的单通道图像进行求解,而单通道的透明度、三通道的前景、三通道的背景共7个未知数,是一个高度欠约束问题。
Ii=αiFi+(1-αi)Bi,αi∈[0,1] 式(1)
图像抠图常使用三分图(Trimap)作为额外输入对问题进行约束,三分图将图像分为前景、背景和未知区域三个部分,在三分图的约束下只需求解未知区域中的透明度遮罩即可,大大简化了问题。传统的抠图方法通常基于采样或基于传播,而这些方法的问题在于过于依赖颜色信息,在颜色对比清晰的图片上表现良好,但在不符合颜色分布假设的情况下经常失败。近年来深度学习的兴起和其在图像处理方向上取得的成功使得研究人员们开始使用深度学习的方法研究抠图,比如使用U-net结构的编-解码器网络直接对透明度遮罩进行求解,虽然结构经典但在细节上还略有欠缺。又如使用背景图像作为额外输入,通过减少未知数个数来简化问题的抠图方法,虽然在提供了背景的视频、图像抠图中效果不错,但对使用场景的限制也使得该方法较难广泛应用。还有一些深度学习方法试图不使用三分图作为额外输入,先通过图像分割的网络求得粗略的前背景区域,再用这些信息作为指引进行抠图,虽然实现了无额外输入的端到端抠图,但是从效果上看还是不如使用三分图的方法,并且非常依赖特定数据集,泛化能力较差。
发明内容
为了要解决现有的自然图像抠图不够精细,在未知区域较大图片中效果不好的技术问题,本发明提出一种基于深度学习的自然图像抠图方法及其抠图装置。
本发明采用以下技术方案实现:一种基于深度学习的自然图像抠图方法,其包括以下步骤:
步骤一,设计四通道的图像输入,前三个通道是待抠图的自然图像,第四通道为与所述待抠图的自然图像相对应的三分图;其中,所述待抠图的自然图像选自一个图像训练集;
步骤二,采用预先训练好的预训练模型提取所述图像输入的特征图;
步骤三,定义第一阶段,在所述第一阶段内:设定基于深度学习的网络模型一,针对所述特征图得到所述网络模型一的第一阶段的粗略透明度遮罩;
步骤四,定义第二阶段,在所述第二阶段内:将所述特征图随机取多个区域,并将这些区域中对应的粗略透明度遮罩作为第五通道添加到所述图像输入中;在当前的所述图像输入下,一方面采用基于深度学习的网络模型二,得到所述网络模型二的第二阶段的精细透明度遮罩,另一方面采用卷积神经网络预测求解精细透明度遮罩的困难难度;
步骤五,对一个图像测试集中的所有待抠图的自然图像进行步骤一至四的测试,其中,针对每张待抠图的自然图像的特征图,先计算各个区域的困难难度,根据各个区域的困难难度进行排序,困难程度低的区域直接预测精细透明度遮罩;对于困难程度高的区域,与相邻区域重叠的部分采用相应相邻区域的粗略透明度遮罩作为引导预测相应的精细透明度遮罩。
作为上述方案的进一步改进,计算粗略透明度遮罩时:网络模型的每一层的特征图都经过一个压缩激发注意力模块,通过压缩激发注意力模块的压缩、激发操作对每一层的特征图计算各通道的注意力,作为权重分别乘以对应通道的特征图并得到使用注意力后的特征图,将这些特征图用在跳过连接中,融合浅层和深层不同尺度的信息。
作为上述方案的进一步改进,为了对图像测试集中的图像分区域处理更加精细,对相应图像做滑动窗口处理。
优选地,将Adobe自然图像抠图数据集中的431张前景图像分成两部分,分别有358张和73张前景图像,将这些前景图像分别与COCO数据集中的图像按照1:100的比例依据透明度遮罩进行合成得到35800张图像的图像训练集和7300张图像的图像验证集;将Composition-1k测试数据集作为图像测试集,其中包含1000个测试图像,这些图像主要由来自Pascal VOC数据集的50个前景对象和1000个不同的背景图像组成。
作为上述方案的进一步改进,所述预训练模型为型号为ResNeXt-101的预训练模型。
优选地,将自然图像与三分图拼接为4通道的输入x,使用101层的残差网络ResNeXt-101预训练模型,通过下采样和卷积等操作得到四个不同尺度的特征图layer0,layer1,layer2,layer3;将得到的特征图分别通过压缩激发注意力模块,压缩激发注意力模块由一个池化层和一个全连接层构成,将特征图转化为一维的权重,将这些权重和各个通道点乘得到特征图并由此得到第一阶段的粗略透明度遮罩。
再优选地,使用损失函数用于两个优化网络模型的参数,损失的目标为使得抠图结果与给定的相应透明度遮罩真值接近,所述损失函数公式如下:
式中,Li是在i像素处的损失,代表在i像素处的透明度遮罩的预测,/> 代表在i像素处的透明度遮罩的真值,/>ε是所述损失函数的函数常数。
作为上述方案的进一步改进,在图像训练集中的数据处理方式为随机裁剪为320*320大小的区域,现在此基础上随机向上、下、左、右、左上、左下、右上、右下这些方向移动120个像素来模拟测试时的重叠区域。
本发明还提供一种基于深度学习的自然图像抠图装置,其包括:
图像输入构成模块,用于设计四通道的图像输入,前三个通道是待抠图的自然图像,第四通道为与所述待抠图的自然图像相对应的三分图;其中,所述待抠图的自然图像选自一个图像训练集;
特征图提取模块,用于采用预先训练好的预训练模型提取所述图像输入的特征图;
透明度遮罩获取模块,用于定义第一阶段,在所述第一阶段内:设定基于深度学习的网络模型一,针对所述特征图得到所述网络模型一的第一阶段的粗略透明度遮罩;还用于定义第二阶段,在所述第二阶段内:将所述特征图随机取多个区域,并将这些区域中对应的粗略透明度遮罩作为第五通道添加到所述图像输入中;在当前的所述图像输入下,一方面采用基于深度学习的网络模型二,得到所述网络模型二的第二阶段的精细透明度遮罩,另一方面采用卷积神经网络预测求解精细透明度遮罩的困难难度;
测试验证模块,用于对一个图像测试集中的所有待抠图的自然图像启动所述图像输入构成模块、所述特征图提取模块、所透明度遮罩获取模块进行测试,其中,针对每张待抠图的自然图像的特征图,先计算各个区域的困难难度,根据各个区域的困难难度进行排序,困难程度低的区域直接预测精细透明度遮罩;对于困难程度高的区域,与相邻区域重叠的部分采用相应相邻区域的粗略透明度遮罩作为引导预测相应的精细透明度遮罩。
作为上述方案的进一步改进,所述自然图像抠图装置采用了上述任意基于深度学习的自然图像抠图方法。
本发明的基于深度学习的图像抠图方法,用以解决图像抠图问题中抠图结果不够精细以及在小内存设备上抠图会导致内存溢出的问题。本发明主要步骤如下:步骤1:对于输入的图像,使用预训练模型提取每个层的特征,将这些特征通过注意力模块得到跳过连接中的特征作为不同尺度的信息输入到深度学习的网络模型一中得到第一阶段的透明度遮罩预测。步骤2:对于第一阶段的输入,随机选取一部分区域,用透明度遮罩预测做为额外输入进行引导。步骤 3:使用第一阶段相同的网络结构(即深度学习的网络模型二)进行第二阶段的训练,学习预测的困难度并得到第二阶段的训练模型。步骤4:对测试图像进行滑动窗口分块,使用第二阶段的模型对所有分块按照预测困难度进行排序,较难预测的块最后预测,在重叠区域使用第一阶段的预测作为引导并进一步细化。结果表明,在公共自然图像抠图数据集中,发明提出的方法获得了较好的效果,并在网络模型参数较大时可在内存较小的设备中运行。
附图说明
图1为本发明基于深度学习的自然图像抠图方法的主要步骤流程图;
图2为图1中采用的网路模型的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
请参阅图1,本发明的基于深度学习的自然图像抠图方法主要包括以下步骤:
步骤一,设计四通道的图像输入,前三个通道是待抠图的自然图像,第四通道为与所述待抠图的自然图像相对应的三分图;其中,所述待抠图的自然图像选自一个图像训练集;
步骤二,采用预先训练好的预训练模型提取所述图像输入的特征图;
步骤三,定义第一阶段,在所述第一阶段内:设定基于深度学习的网络模型一,针对所述特征图得到所述网络模型一的第一阶段的粗略透明度遮罩;
步骤四,定义第二阶段,在所述第二阶段内:将所述特征图随机取多个区域,并将这些区域中对应的粗略透明度遮罩作为第五通道添加到所述图像输入中;在当前的所述图像输入下,一方面采用基于深度学习的网络模型二,得到所述网络模型二的第二阶段的精细透明度遮罩,另一方面采用卷积神经网络预测求解精细透明度遮罩的困难难度;
步骤五,如图2所示,对一个图像测试集中的所有待抠图的自然图像进行步骤一至四的测试,其中,针对每张待抠图的自然图像的特征图,先计算各个区域的困难难度,根据各个区域的困难难度进行排序,困难程度低的区域直接预测精细透明度遮罩;对于困难程度高的区域,与相邻区域重叠的部分采用相应相邻区域的粗略透明度遮罩作为引导预测相应的精细透明度遮罩。
通过基于深度学习的网络模型一对四通道的图像输入,得到了第一阶段的粗略透明度遮罩;使用与基于深度学习的网络模型一相同的编解码网络即基于深度学习的网络模型二,将输入部分随机在当前的块上取左上、左下、右上、右下等区域,并将这些区域中对应的第一阶段透明度遮罩作为第五通道添加到输入中;网络中不仅学习求解透明度遮罩的方法,同时学习到求解透明度遮罩的困难程度;可对测试的图片进行滑动窗口分块,还可先按照求解难度排序,再按排序结果对这些分块进行两阶段预测。本发明在技术上解决了未知区域较大图片难以抠图以及网络参数过多无法在内存较小的设备上抠图的问题,并在公开自然图像抠图数据集上取得了较好的结果。
在本实施例中,输入为待抠图的自然图像+对应的三分图构成的4通道图像,使用ResNeXt-101预训练模型和编-解码网络对图像进行初步的抠图,解码器将初步结果输出得到粗略透明度遮罩预测。选择当前块的一个随机区域,将这个区域在第一阶段中的透明度遮罩预测作为额外指导信息添加为第五通道输入,前四通道的特征图由自然图像和三分图组成。使用第一阶段相同的编解码结构网络,同时学习如何求解透明度遮罩和预测困难度。对测试集图像进行测试,使用滑动窗口对图像进行分块处理,对所有的块按照预测困难度排序,困难程度低的先进行预测,对于较难预测的块,其与旁边块的重叠部分用已预测过的透明度遮罩作为额外输入作为引导得到最终预测。
对于输入的自然图像和三分图组成的四通道输入x,使用ResNeXt-101的预训练模型作为编码器部分得到每层的特征图,每一层的特征图都经过一个压缩激发注意力模块,通过压缩激发模块的压缩、激发操作对每一个特征图计算各通道的注意力,作为权重分别乘以对应通道的特征图并得到使用注意力后的特征图,将这些特征图用在跳过连接中,融合不同尺度的信息。最后通过卷积、反池化等操作构成的解码器得到第一阶段粗略的透明度遮罩预测。
首先,将Adobe(公司名称)自然图像抠图数据集中的431张前景图像分成两部分,分别有358张和73张前景图像,将这些前景图像分别与COCO数据集中的图像按照1:100的比例依据透明度遮罩进行合成得到35800张图像的训练集和7300张图像的验证集。
其次,将自然图像与三分图图像拼接为四通道的输入x,使用ResNeXt-101 预训练模型,通过下采样和卷积等操作得到四个不同尺度的特征图layer0, layer1,layer2,layer3。将得到的特征图分别通过压缩激发注意力模块,压缩激发注意力模块由一个池化层和一个全连接层构成,将特征图转化为一维的权重,将这些权重和各个通道点乘得到特征图并输入到解码器中得到第一阶段的透明度遮罩预测。使用的损失函数公式如下:
式中,Li是在i像素处的损失,代表在i像素处的透明度遮罩的预测,/> 代表在i像素处的透明度遮罩的真值,/>ε是所述损失函数的函数常数。ε可以是一个很小的值,加上ε是为了在损失为0时仍可求导。
为了模拟在测试中的滑动窗口,将第二阶段训练中的数据做以下处理。随机的选择向上、下、左、右、左上、左下、右上、右下这些方向移动(具体像素的数量和测试中滑动窗口步幅保持一致)。将移动过程中的重叠区域添加额外的第五通道,第五通道的值为使用第一阶段模型对该区域的透明度遮罩预测。
在本实施例中,在训练集中的数据处理方式为随机裁剪为320*320大小的块,现在此基础上随机向上、下、左、右、左上、左下、右上、右下这些方向移动120个像素来模拟测试时的重叠区域。在这些区域中将输入部分增加一个通道,这个通道的值为第一阶段的透明度遮罩预测,使用透明度遮罩和三分图对这些区域共同进行引导。
第二阶段的网络结构和第一阶段保持一致,选用相同网络的原因为需要学习的内容差距不大,均是从值为0到1之间的输入中学习到透明度的信息和指引,它们的差别在于三分图中的值只有0、0.5、1,而第一阶段的透明度遮罩预测是 0到1之间所有可能的值。将修改后的输入放入网络中。同时使用一个小型卷积网络学习到预测困难度。
首先,使用和第一阶段相同的网络结构,对添加一个通道后的输入进行第二阶段的训练,输出为第二阶段的透明度遮罩预测。
其次,使用一个小型的CNN卷积网络对图像预测难度进行训练。
对测试集中的图像按照320*320像素的大小分块(分块大小与训练过程中所取的大小一致),并做滑动窗口处理。将所有的滑块按照第二阶段中学习到的预测困难度排序,困难程度低的块先进行预测,对于较难预测的块,使用它旁边已经预测过的块作为指引,重叠的区域用预测过的透明度遮罩作为第五通道的引导,得到最终整张图像的预测。
测试集中的图像使用滑动窗口的方式,按照每块320*320大小、步幅为120 像素进行分块,分块后使用第二阶段中的困难度预测得到所有块的预测难度,并将所有的块按照预测难度进行排序,难度小的块先预测,当预测到较困难的块时,将重叠区域的输入增加一个通道,通道的值为第一阶段的透明度遮罩预测,并使用第二阶段的模型对当前块进行预测。最后得到整张图片的预测值。
本发明的自然图像抠图方法,端到端进行两阶段的图像抠图的方法,解决了自然图像抠图不够精细,在未知区域较大图片中效果不好的问题,提出的方法步骤有:步骤1,通过在抠图问题中广泛使用的编-解码网络对四通道输入(原图 +三分图)进行特征编解码(就是特征图的提取),得到了第一阶段的粗略透明度遮罩;步骤2,使用相同的编解码网络,将输入部分随机在当前的块上取左上、左下、右上、右下等区域,并将这些区域中对应的第一阶段透明度遮罩作为第五通道添加到输入中;步骤3,网络中不仅学习求解透明度遮罩的方法,同时学习到求解透明度遮罩的困难程度(也可被形容为准确程度,困难程度越低,预测结果越准确);步骤4,对测试的图片进行滑动窗口分块,先按照求解难度排序,再按排序结果对这些分块进行两阶段预测。本发明在技术上解决了未知区域较大图片难以抠图以及网络参数过多无法在内存较小的设备上抠图的问题,并在公开自然图像抠图数据集上取得了较好的结果。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明申请范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明申请的保护范围应以所附权利要求为准。
Claims (8)
1.一种基于深度学习的自然图像抠图方法,其特征在于,其包括以下步骤:
步骤一,设计四通道的图像输入,前三个通道是待抠图的自然图像,第四通道为与所述待抠图的自然图像相对应的三分图;其中,所述待抠图的自然图像选自一个图像训练集;
步骤二,采用预先训练好的预训练模型提取所述图像输入的特征图;
步骤三,定义第一阶段,在所述第一阶段内:设定基于深度学习的网络模型一,针对所述特征图得到所述网络模型一的第一阶段的粗略透明度遮罩;
步骤四,定义第二阶段,在所述第二阶段内:将所述特征图随机取多个区域,并将这些区域中对应的粗略透明度遮罩作为第五通道添加到所述图像输入中;在当前的所述图像输入下,一方面采用基于深度学习的网络模型二,得到所述网络模型二的第二阶段的精细透明度遮罩,另一方面采用卷积神经网络预测求解精细透明度遮罩的困难难度;
步骤五,对一个图像测试集中的所有待抠图的自然图像进行步骤一至四的测试,其中,针对每张待抠图的自然图像的特征图,先计算各个区域的困难难度,根据各个区域的困难难度进行排序,困难程度低的区域直接预测精细透明度遮罩;对于困难程度高的区域,与相邻区域重叠的部分采用相应相邻区域的粗略透明度遮罩作为引导预测相应的精细透明度遮罩;
其中,所述预训练模型为型号为ResNeXt-101的预训练模型;将自然图像与三分图拼接为4通道的输入x,使用101层的残差网络ResNeXt-101预训练模型,通过下采样和卷积等操作得到四个不同尺度的特征图layer0,layer1,layer2,layer3;将得到的特征图分别通过压缩激发注意力模块,压缩激发注意力模块由一个池化层和一个全连接层构成,将特征图转化为一维的权重,将这些权重和各个通道点乘得到特征图并由此得到第一阶段的粗略透明度遮罩。
2.如权利要求1所述的基于深度学习的自然图像抠图方法,其特征在于,计算粗略透明度遮罩时:网络模型的每一层的特征图都经过一个压缩激发注意力模块,通过压缩激发注意力模块的压缩、激发操作对每一层的特征图计算各通道的注意力,作为权重分别乘以对应通道的特征图并得到使用注意力后的特征图,将这些特征图用在跳过连接中,融合浅层和深层不同尺度的信息。
3.如权利要求1所述的基于深度学习的自然图像抠图方法,其特征在于,为了对图像测试集中的图像分区域处理更加精细,对相应图像做滑动窗口处理。
4.如权利要求3所述的基于深度学习的自然图像抠图方法,其特征在于,将Adobe自然图像抠图数据集中的431张前景图像分成两部分,分别有358张和73张前景图像,将这些前景图像分别与COCO数据集中的图像按照1:100的比例依据透明度遮罩进行合成得到35800张图像的图像训练集和7300张图像的图像验证集;将Composition-1k测试数据集作为图像测试集,其中包含1000个测试图像,这些图像主要由来自Pascal VOC数据集的50个前景对象和1000个不同的背景图像组成。
5.如权利要求1所述的基于深度学习的自然图像抠图方法,其特征在于,使用损失函数用于两个优化网络模型的参数,损失的目标为使得抠图结果与给定的相应透明度遮罩真值接近,所述损失函数公式如下:
式中,是在i像素处的损失,/>代表在i像素处的透明度遮罩的预测,/>,/>代表在i像素处的透明度遮罩的真值,/>,/>是所述损失函数的函数常数。
6.如权利要求1所述的基于深度学习的自然图像抠图方法,其特征在于,在图像训练集中的数据处理方式为随机裁剪为320*320大小的区域,现在此基础上随机向上、下、左、右、左上、左下、右上、右下这些方向移动120个像素来模拟测试时的重叠区域。
7.一种基于深度学习的自然图像抠图装置,其特征在于,其包括:
图像输入构成模块,用于设计四通道的图像输入,前三个通道是待抠图的自然图像,第四通道为与所述待抠图的自然图像相对应的三分图;其中,所述待抠图的自然图像选自一个图像训练集;
特征图提取模块,用于采用预先训练好的预训练模型提取所述图像输入的特征图;
透明度遮罩获取模块,用于定义第一阶段,在所述第一阶段内:设定基于深度学习的网络模型一,针对所述特征图得到所述网络模型一的第一阶段的粗略透明度遮罩;还用于定义第二阶段,在所述第二阶段内:将所述特征图随机取多个区域,并将这些区域中对应的粗略透明度遮罩作为第五通道添加到所述图像输入中;在当前的所述图像输入下,一方面采用基于深度学习的网络模型二,得到所述网络模型二的第二阶段的精细透明度遮罩,另一方面采用卷积神经网络预测求解精细透明度遮罩的困难难度;
测试验证模块,用于对一个图像测试集中的所有待抠图的自然图像启动所述图像输入构成模块、所述特征图提取模块、所透明度遮罩获取模块进行测试,其中,针对每张待抠图的自然图像的特征图,先计算各个区域的困难难度,根据各个区域的困难难度进行排序,困难程度低的区域直接预测精细透明度遮罩;对于困难程度高的区域,与相邻区域重叠的部分采用相应相邻区域的粗略透明度遮罩作为引导预测相应的精细透明度遮罩;
其中,所述预训练模型为型号为ResNeXt-101的预训练模型:将自然图像与三分图拼接为4通道的输入x,使用101层的残差网络ResNeXt-101预训练模型,通过下采样和卷积等操作得到四个不同尺度的特征图layer0,layer1,layer2,layer3;将得到的特征图分别通过压缩激发注意力模块,压缩激发注意力模块由一个池化层和一个全连接层构成,将特征图转化为一维的权重,将这些权重和各个通道点乘得到特征图并由此得到第一阶段的粗略透明度遮罩。
8.如权利要求7所述的基于深度学习的自然图像抠图装置,其特征在于,所述自然图像抠图装置采用了如权利要求1至6中任意一项所述基于深度学习的自然图像抠图方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210045761.3A CN114373109B (zh) | 2022-01-16 | 2022-01-16 | 一种基于深度学习的自然图像抠图方法及抠图装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210045761.3A CN114373109B (zh) | 2022-01-16 | 2022-01-16 | 一种基于深度学习的自然图像抠图方法及抠图装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114373109A CN114373109A (zh) | 2022-04-19 |
CN114373109B true CN114373109B (zh) | 2024-03-05 |
Family
ID=81144249
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210045761.3A Active CN114373109B (zh) | 2022-01-16 | 2022-01-16 | 一种基于深度学习的自然图像抠图方法及抠图装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114373109B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI830628B (zh) * | 2023-03-21 | 2024-01-21 | 華碩電腦股份有限公司 | 影像產生方法與影像產生裝置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112884776A (zh) * | 2021-01-22 | 2021-06-01 | 浙江大学 | 一种基于合成数据集增广的深度学习抠图方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10438350B2 (en) * | 2017-06-27 | 2019-10-08 | General Electric Company | Material segmentation in image volumes |
-
2022
- 2022-01-16 CN CN202210045761.3A patent/CN114373109B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112884776A (zh) * | 2021-01-22 | 2021-06-01 | 浙江大学 | 一种基于合成数据集增广的深度学习抠图方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114373109A (zh) | 2022-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111311563A (zh) | 一种基于多域特征融合的图像篡改检测方法 | |
CN111968150B (zh) | 一种基于全卷积神经网络的弱监督视频目标分割方法 | |
CN112364855B (zh) | 一种基于多尺度特征融合的视频目标检测方法及系统 | |
CN114820579A (zh) | 一种基于语义分割的图像复合缺陷的检测方法及系统 | |
CN114120272A (zh) | 一种融合边缘检测的多监督智能车道线语义分割方法 | |
CN112084859A (zh) | 一种基于稠密边界块和注意力机制的建筑物分割方法 | |
CN114565770A (zh) | 基于边缘辅助计算和掩模注意力的图像分割方法及系统 | |
CN112163490A (zh) | 一种基于场景图片的目标检测方法 | |
CN114373109B (zh) | 一种基于深度学习的自然图像抠图方法及抠图装置 | |
CN114913493A (zh) | 一种基于深度学习的车道线检测方法 | |
CN114897738A (zh) | 一种基于语义不一致性检测的图像盲修复方法 | |
CN113889234A (zh) | 基于通道混合的编解码网络的医学图像分割方法 | |
CN115457043A (zh) | 基于重叠自注意力变形器架构u型网络的图像分割网络 | |
CN112132839B (zh) | 一种基于深度卷积级联网络的多尺度快速人脸分割方法 | |
CN111145178A (zh) | 高分辨率遥感图像多尺度分割方法 | |
CN114419078B (zh) | 基于卷积神经网络的表面缺陷区域分割方法及装置 | |
CN109583584B (zh) | 可使具有全连接层的cnn接受不定形状输入的方法及系统 | |
CN116644782A (zh) | 一种交叉过滤transformer的结构、图像语义分割模型及方法 | |
CN114821192A (zh) | 一种结合语义信息的遥感影像高程预测方法 | |
CN114782983A (zh) | 基于改进特征金字塔和边界损失的道路场景行人检测方法 | |
CN112464733A (zh) | 基于双向特征融合的高分辨率光学遥感图像地物分类方法 | |
Wang et al. | Research on Semantic Segmentation Algorithm for Multiscale Feature Images Based on Improved DeepLab v3+ | |
CN114820567B (zh) | 一种基于深度学习的绝缘子检测方法 | |
CN116246075B (zh) | 一种动态信息与静态信息结合的视频语义分割方法 | |
CN118247513B (zh) | 光伏板组件分割方法、装置、电子设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |