CN109035267A - 一种基于深度学习的图像目标抠取方法 - Google Patents
一种基于深度学习的图像目标抠取方法 Download PDFInfo
- Publication number
- CN109035267A CN109035267A CN201810649490.6A CN201810649490A CN109035267A CN 109035267 A CN109035267 A CN 109035267A CN 201810649490 A CN201810649490 A CN 201810649490A CN 109035267 A CN109035267 A CN 109035267A
- Authority
- CN
- China
- Prior art keywords
- image
- decoder
- layer
- encoder
- minor structure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于深度学习的图像目标抠取方法,在前景抠取策略中,建立了低分辨率与高分辨率结合的深度学习架构,解决了数据集质量不均的问题,并定义了合理的网络结构与损失函数,以确保深度学习模型的质量和性能。通过自然图像与合成图像混合数据集的建立,解决了图像目标抠取中数据集匮乏的问题。本发明避免了传统的三分图输入的条件限制,实现了对前景目标的自动抠取,能够获得较为精细的图像抠取结果。
Description
技术领域
本发明涉及图像合成技术领域,具体涉及一种基于深度学习的图像目标抠取方法,采用自然图像与合成图像混合数据集的建立,解决了数据集匮乏的问题。进一步将低分辨率学习得到的特征应用于高分辨率图像前景目标的学习过程中,构建低分辨率及高分辨率结合的学习机制,可以实现图像前景目标的抠取。
背景技术
近年来,随着计算机技术的不断发展,在电子商务、医学、娱乐等领域的实际应用中,越来越多地需要通过采集的数字图像及视频对现实世界进行理解。传统的基于颜色采样的图像抠取方法对于待求解的未知区域的像素,在给定的前景区域及背景区域中进行采样,得到与之颜色相近的样本,进而通过样本估计该像素的前景与背景成分经典的基于颜色采样的方法仅在未知区域像素的局部窗口中进行采样,具有一定的局限性。并且传统的图像抠取技术需要图像遵循局部平滑性等先验条件,同时还依赖于三分图先验信息。近年来,一些基于深度学习的图像抠取方法进一步发展,如何建立有效的深度学习的网络模型,有效解决自然图像的抠图问题,这都是亟待解决的实际问题。
发明内容
本发明的目的是针对现有技术的不足,并针对图像抠图中缺少细节的实际问题,提出一种基于深度学习的图像目标抠取方法,该方法能够获得较为精细的图像抠取结果,具有更高的实用价值。
实现本发明目的的具体技术方案是:
一种基于深度学习的图像目标抠取方法,特点是通过自然图像与合成图像混合数据集的建立,解决了图像目标抠取问题中的数据集匮乏问题。进一步通过构建低分辨率及高分辨率结合的卷积神经网络学习策略,实现图像前景目标的抠取。
具体包括以下步骤:
步骤1:构建合成图像集SC
(a)前景图像数据集的构建
从pngimg.com网站收集N张png格式的前景图像,其中20000≤N≤30000,要包含人物、动物、前景物体各种类别;从其中筛选前景图像Nc张,3810≤Nc≤N,要求所述筛选前景图像必须是拍摄得到的自然图像,并保持类别数种;
利用选出的Nc张图像构建前景图像数据集SF:其中是其中的第k+1张图像;
(b)背景图像数据集构建
从SUN2012数据集筛选NB张背景图像,2182≤NB≤5000,构建背景图像集合是其中的背景图像,要求其不包含前景物体,并且要确保选取的背景图像类别要涵盖SUN2012的各个种类;
(c)合成图像:在[0,NB-1]之间生成随机的背景图像序号RB,从背景图像集合SB中按照RB取出随机的背景图像再在[0,Nc-1]之间生成1个随机的前景图像序号RF,从前景图像集合SF中按照RF取出随机前景图像(2)叠加图像,对于的裁剪或缩放处理:如果的水平或垂直尺度小于Nt,通过图像缩放功能将图像在该维度分辨率放大到Nt;否则,如果水平或垂直尺度大于Nt,那么在空域范围内,随机裁剪出分辨率为Nt×Nt的背景块,记为
产生前景图像缩放因子s∈[0.7,1.0],将缩放到新的分辨率s*Nt×s*Nt,结果记为再将覆盖到上,两幅图像中心对齐,覆盖合成后得到前景与背景的叠加图像IS;利用的第4通道信息进行生成掩模,第4通道如果为透明状态时,标记为0,表示背景区域像素;当第4通道为非透明状态时,标记为1,表示前景区域像素,这样就得到前景掩模图像IM;利用IS和IM创建一个4通道的图像Iin作为网络的输入数据;
进一步按照上述方法生成NF组数据,其中3162≤NF≤10000;
步骤2:构建自然图像数据集SN
利用数据集MSRA10k,筛选出具有明确前景物体目标的自然图像NS张,其中2017≤NS≤10000,并将它们缩放为Nt×Nt分辨率,并构建自然图像数据集SN;
步骤3:利用SC和SN构建训练数据集ST
利用SC和SN的并集构建ST,ST=SC∪SN;
步骤4:构建神经网络
神经网络的整体结构由低分辨率子网络U-NetL和高分辨率子网络U-NetH相连接构成;
(a)U-NetL的结构
将Iin进行下采样得到分辨率(Nt/2)×(Nt/2)的图像,进一步构建形状为(Nt/2)×(Nt/2)×3的张量,作为U-NetL的输入,U-NetL输出为掩模图像,张量形状为(Nt/2)×(Nt/2)×1;
U-NetL基于U-Net构建,在U-Net的Lt层卷积神经网络架构基础,去掉头尾两个子结构,编码器及解码器均采用Lt-1个子结构,如果Nt为224,Lt为5;如果Nt为448,Lt为6;如果Nt为896,Lt为7;
编码器除Lt-1个子结构,额外附加的一个卷积层构成,每个子结构包含两个卷积层与一个最大池化层;卷积层均采用3×3的卷积核,卷积步长为1,每个卷积层的输出均进行批归一化处理,使用Leaky Relu函数进行激活,最大池化层的池化窗口大小为2×2;Lt-1个子结构中,第1个子结构的两个卷积层中卷积核个数都是64,输出特征图尺度为56×56;后面各层子结构卷积核个数增加一倍,输出特征图尺度减少一半,最后通过额外附加的卷积层编码,通道数为1024;
解码器由Lt-1个子结构和一个额外附加的卷积层构成,每个子结构都包含一个上采样层与2个卷积层,每个子结构中卷积层的卷积核个数相同,上采样层的采样窗口大小为2×2;解码器子结构中,第1个子结构的两个卷积层中卷积核个数都是512,输出特征图尺度为14×14;后面各层子结构的卷积核个数减半,输出特征图尺度增加一倍;通过Lt-1个子结构,将编码器输出的特征图尺度还原至(Nt/2)×(Nt/2),通道数为64;
在编码器和解码器之后使用一个卷积层Le,Le采用1×1的1个卷积核,该卷积输出端连接一个Sigmoid激活层,获取为0至1之间的浮点数输出,最后得到(Nt/2)×(Nt/2)×1的低分辨率的掩模输出图像;
编码器与解码器之间进行跨层连接,即每个编码器中的卷积层都与解码器中相同尺寸的卷积层进行逐通道连接,并作为下一层卷积层的输入:即编码器第1层与解码器第Lt-2层输入特征图连接,作为解码器第Lt-1个卷积层的输入;同样地,编码器第2层与解码器第Lt-3层连接,作为解码器第Lt-2层的输入,按照此方式进行跨层连接;
(b)U-NetH的结构
U-NetH输入张量形状为(Nt/2)×(Nt/2)×3,输出为抠取的结果图像,张量形状为Nt×Nt×3;
U-NetH基于U-Net的卷积神经网络构建,编码器、解码器以及连接层与U-NetL类似:编码器及解码器均Lt层:编码器由Lt个子结构相继连接,编码器的最后一个子结构连接一个附加的卷积层;对于初始图像作卷积前边界填补零处理,第1个子结构中卷积核个数为32,输出特征图尺度为(Nt/2)×(Nt/2);后面各层子结构卷积核个数增加一倍,输出特征图尺度减少一半,最后加上额外的卷积层,得到来自1024个核的特征,通道数为1024;
解码器同样由Lt个子结构和一个额外附加的卷积层构成,将编码器部分输出的特征图,逐步还原至Nt×Nt的尺度:第1个子结构中卷积核个数为1024,输出特征图尺度为14×14;后面各层子结构卷积核个数减少,输出特征图分辨率增加一倍,第Lt子结构中卷积核个数为64,输出特征图尺度为Nt×Nt,最后使用一个卷积层生成最终的网络输出,该卷积层采用1个1×1的卷积核,得到形状为Nt×Nt的特征图像;在解码器的输出端连接一个Sigmoid激活层,确保输出0至1之间的浮点数,最后得到Nt×Nt×1的输出图像;
编码器与解码器之间进行跨层连接,即每个编码器中的卷积层都与解码器中相同尺寸的卷积层进行逐通道连接,并作为下一卷积层的输入:即编码器第1层与解码器第Lt-1层输入特征图连接,作为解码器第Lt个卷积层的输入;同样地,编码器第2层与解码器第Lt-2层连接,作为解码器第Lt-1层的输入,按照这样方式进行跨层连接;
(c)U-NetL与U-NetH的连接
将U-NetL输出的掩模图像结合U-NetH子结构2的输出,一并输入到U-NetH子结构3中,以实现U-NetL与U-NetH的连接;
步骤5:神经网络的训练
在数据集SC和SN各随机取2000幅图像,构成4000幅混合图像,将该数据集划分为训练数据、评估数据与测试数据:3600、200、200幅图像;其中训练数据用于网络训练,评估数据用于在训练过程中计算评价指标,测试数据用于对训练的网络模型进行性能测试;
在网络训练阶段中,将构建的训练数据作为网络训练的输入,首先训练U-NetL,训练完毕后,将U-NetL的输出加入U-NetH的对应特征图中,再进行U-NetH的训练;
U-NetL与U-NetH训练时,均采用如下交并比损失函数进行控制:
Yt表示网络输出的掩模图像中第t个像素的通道数据,Gt表示目标图像的第t个像素掩模的真实值;H表示图像中像素的个数,U-NetL训练时,H为(Nt/2)×(Nt/2),U-NetH训练时,H为Nt×Nt;
步骤6:对输入图像进行目标抠取
使用训练得到的网络模型,在自然图像数据集上进行图像抠取结果的预测;预测过程分为低分辨率预测和高分辨率预测,最终得到前景抠图的结果。
本发明具有简单、实用的特点,能够有效实现自然图像前景目标的抠取功能。提出的方法无需三分图的先验条件,同时前景区域标识正确,能够获得较为精细的图像抠取结果,具有更高的实用价值。
附图说明
图1为前景与背景进行合成得到的图像;
图2为本发明的抠图结果图;
图3为数据集训练过程中损失函数的变化趋势图。
具体实施方式
实施例
下面结合附图对本发明进一步说明。
本实施例在PC机上Windows10 64位操作系统下进行实施,其硬件配置是CPU i5-6500,内存16G,GPU NVIDIA GeForce GTX 1060 6G。深度学习库Keras 2.0.8,其采用Tensorflow1.3.0作为后端。编程采用Python语言。
基于深度学习的图像目标抠取的方法,特点是:采用自然图像与合成图像混合数据集的建立,解决了数据集匮乏的问题,它将低分辨率学习得到的特征应用于高分辨率图像前景目标的学习过程中,构建低分辨率及高分辨率结合的学习机制,可以实现图像前景目标的抠取功能,该方法输入图像分辨率为Nt×Nt,Nt为224,具体包括以下步骤:
采用自然图像与合成图像混合数据集的建立,解决了数据集匮乏的问题。进一步将低分辨率学习得到的特征应用于高分辨率图像前景目标的学习过程中,构建低分辨率及高分辨率结合的学习机制,可以实现图像前景目标的抠取功能。具体包括以下步骤:
步骤1:构建合成图像集SC
(a)前景图像数据集的构建
从pngimg.com网站收集20000张png格式的前景图像,要包含人物、动物、前景物体各种类别;从其中筛选前景图像3810张,要求所述筛选前景图像必须是拍摄得到的自然图像,并保持类别数种;
利用选出的3810张图像构建前景图像数据集SF:其中是其中的第k+1张图像;
(b)背景图像数据集构建
从SUN2012数据集筛选2182张背景图像,构建背景图像集合是其中的背景图像,要求其不包含前景物体,并且要确保选取的背景图像类别要涵盖SUN2012的各个种类;
(c)合成图像:在[0,2181]之间生成随机的背景图像序号RB,从背景图像集合SB中按照RB取出随机的背景图像再在[0,3809]之间生成1个随机的前景图像序号RF,从前景图像集合SF中按照RF取出随机前景图像(2)叠加图像,对于的裁剪或缩放处理:如果的水平或垂直尺度小于Nt,通过图像缩放功能将图像在该维度分辨率放大到Nt;否则,如果水平或垂直尺度大于Nt,那么在空域范围内,随机裁剪出分辨率为Nt×Nt的背景块,记为
产生前景图像缩放因子s∈[0.7,1.0],将缩放到新的分辨率s*Nt×s*Nt,结果记为再将覆盖到上,两幅图像中心对齐,覆盖合成后得到前景与背景的叠加图像IS;利用的第4通道信息进行生成掩模,第4通道如果为透明状态时,标记为0,表示背景区域像素;当第4通道为非透明状态时,标记为1,表示前景区域像素,这样就得到前景掩模图像IM;利用IS和IM创建一个4通道的图像Iin作为网络的输入数据;
进一步按照上述方法生成3162组数据;
步骤2:构建自然图像数据集SN
利用数据集MSRA10k,筛选出具有明确前景物体目标的自然图像2017张,并将它们缩放为Nt×Nt分辨率,并构建自然图像数据集SN;
步骤3:利用SC和SN构建训练数据集ST
利用SC和SN的并集构建ST,ST=SC∪SN;
步骤4:构建神经网络
神经网络的整体结构由低分辨率子网络U-NetL和高分辨率子网络U-NetH相连接构成;
(a)U-NetL的结构
将Iin进行下采样得到分辨率(Nt/2)×(Nt/2)的图像,进一步构建形状为(Nt/2)×(Nt/2)×3的张量,作为U-NetL的输入,U-NetL输出为掩模图像,张量形状为(Nt/2)×(Nt/2)×1;
U-NetL基于U-Net构建,在U-Net的Lt层卷积神经网络架构基础,去掉头尾两个子结构,编码器及解码器均采用Lt-1个子结构,Lt为5;
编码器除Lt-1个子结构,额外附加的一个卷积层构成,每个子结构包含两个卷积层与一个最大池化层;卷积层均采用3×3的卷积核,卷积步长为1,每个卷积层的输出均进行批归一化处理,使用Leaky Relu函数进行激活,最大池化层的池化窗口大小为2×2;Lt-1个子结构中,第1个子结构的两个卷积层中卷积核个数都是64,输出特征图尺度为56×56;后面各层子结构卷积核个数增加一倍,输出特征图尺度减少一半,最后通过额外附加的卷积层编码,通道数为1024;
解码器由Lt-1个子结构和一个额外附加的卷积层构成,每个子结构都包含一个上采样层与2个卷积层,每个子结构中卷积层的卷积核个数相同,上采样层的采样窗口大小为2×2;解码器子结构中,第1个子结构的两个卷积层中卷积核个数都是512,输出特征图尺度为14×14;后面各层子结构的卷积核个数减半,输出特征图尺度增加一倍;通过Lt-1个子结构,将编码器输出的特征图尺度还原至(Nt/2)×(Nt/2),通道数为64;
在编码器和解码器之后使用一个卷积层Le,Le采用1×1的1个卷积核,该卷积输出端连接一个Sigmoid激活层,获取为0至1之间的浮点数输出,最后得到(Nt/2)×(Nt/2)×1的低分辨率的掩模输出图像;
编码器与解码器之间进行跨层连接,即每个编码器中的卷积层都与解码器中相同尺寸的卷积层进行逐通道连接,并作为下一层卷积层的输入:即编码器第1层与解码器第Lt-2层输入特征图连接,作为解码器第Lt-1个卷积层的输入;同样地,编码器第2层与解码器第Lt-3层连接,作为解码器第Lt-2层的输入,按照此方式进行跨层连接;
(b)U-NetH的结构
U-NetH输入张量形状为(Nt/2)×(Nt/2)×3,输出为抠取的结果图像,张量形状为Nt×Nt×3;
U-NetH基于U-Net的卷积神经网络构建,编码器、解码器以及连接层与U-NetL类似:编码器及解码器均Lt层:编码器由Lt个子结构相继连接,编码器的最后一个子结构连接一个附加的卷积层;对于初始图像作卷积前边界填补零处理,第1个子结构中卷积核个数为32,输出特征图尺度为(Nt/2)×(Nt/2);后面各层子结构卷积核个数增加一倍,输出特征图尺度减少一半,最后加上额外的卷积层,得到来自1024个核的特征,通道数为1024;
解码器同样由Lt个子结构和一个额外附加的卷积层构成,将编码器部分输出的特征图,逐步还原至Nt×Nt的尺度:第1个子结构中卷积核个数为1024,输出特征图尺度为14×14;后面各层子结构卷积核个数减少,输出特征图分辨率增加一倍,第Lt子结构中卷积核个数为64,输出特征图尺度为Nt×Nt,最后使用一个卷积层生成最终的网络输出,该卷积层采用1个1×1的卷积核,得到形状为Nt×Nt的特征图像;在解码器的输出端连接一个Sigmoid激活层,确保输出0至1之间的浮点数,最后得到Nt×Nt×1的输出图像;
编码器与解码器之间进行跨层连接,即每个编码器中的卷积层都与解码器中相同尺寸的卷积层进行逐通道连接,并作为下一卷积层的输入:即编码器第1层与解码器第Lt-1层输入特征图连接,作为解码器第Lt个卷积层的输入;同样地,编码器第2层与解码器第Lt-2层连接,作为解码器第Lt-1层的输入,按照这样方式进行跨层连接;
(c)U-NetL与U-NetH的连接
将U-NetL输出的掩模图像结合U-NetH子结构2的输出,一并输入到U-NetH子结构3中,以实现U-NetL与U-NetH的连接;
步骤5:神经网络的训练
在数据集SC和SN各随机取2000幅图像,构成4000幅混合图像,将该数据集划分为训练数据、评估数据与测试数据:3600、200、200幅图像;其中训练数据用于网络训练,评估数据用于在训练过程中计算评价指标,测试数据用于对训练的网络模型进行性能测试;
步骤6:对输入图像进行目标抠取
对输入图像进行目标抠取,采用网络预测实现,使用训练得到的网络模型,在自然图像数据集上进行图像抠取结果的预测。预测过程同样分为两个步骤,首先通过低分辨率子网络进行预测,随后通过高分辨率子网络预测得到最终前景抠图的结果。
实验过程中,网络的实现细节与使用的重要超参数如下:卷积层采用Glorot均匀分布进行卷积核初始化。所有进行了Batch Normalization的卷积层不启用偏置项,其余层的偏置项初始化全置0。Batch Normalization层,β项初始化全置为0,γ初始化全置为1,动量系数momentum全置为0.99。Dropout层Dropout率置为0.5。优化器采用Nadam优化器,各超参数取默认值。每批次样本数每批次的样本数取8。
图1为前景与背景进行合成得到的合成图像,用于数据集的构建。图1的每组数据中,左侧为合成的结果,右侧图像为其掩模结果。图2为本发明实施例前景目标的抠图结果,图2的每组数据中,左侧为输入的自然图像源数据,右侧为利用本发明算法抠取的结果,从抠取结果可以看出,抠取目标的边缘具有一定的细节。
本实施例在数据集上进行了网络训练。训练过程使用小批量梯度下降方法,共进行了500轮训练,每轮训练用时约为400秒。图3记录了每轮训练中训练数据与评估数据的交并比损失评价的结果,图3展示了数据集训练过程中损失函数的变化趋势。从图3中可以看出,训练数据的交并比指标随训练过程稳定上升,在训练临近结束时已接近收敛极限,几乎不再变化。这证明使用了交并比损失的训练过程能够准确快速地沿损失函数下降的方向进行,训练的收敛速度较快。同时,在训练过程中,评估数据的交并比指标也保持了与训练数据相近的水平,表明训练得到的网络具有较好的泛化能力,训练过程中未出现过拟合问题。
Claims (1)
1.一种基于深度学习的图像目标抠取方法,其特征在于,该方法输入图像分辨率为Nt×Nt,其Nt为224、448或者896,具体包括以下步骤:
步骤1:构建合成图像集SC
(a)前景图像数据集的构建
从pngimg.com网站收集N张png格式的前景图像,其中20000≤N≤30000,要包含人物、动物、前景物体各种类别;从其中筛选前景图像Nc张,3810≤Nc≤N,要求所述筛选前景图像必须是拍摄得到的自然图像,并保持类别数种;
利用选出的Nc张图像构建前景图像数据集其中是其中的第k+1张图像;
(b)背景图像数据集构建
从SUN2012数据集筛选NB张背景图像,2182≤NB≤5000,构建背景图像集合 是其中的背景图像,要求其不包含前景物体,并且要确保选取的背景图像类别要涵盖SUN2012的各个种类;
(c)合成图像:在[0,NB-1]之间生成随机的背景图像序号RB,从背景图像集合SB中按照RB取出随机的背景图像再在[0,Nc-1]之间生成1个随机的前景图像序号RF,从前景图像集合SF中按照RF取出随机前景图像(2)叠加图像,对于的裁剪或缩放处理:如果的水平或垂直尺度小于Nt,通过图像缩放功能将图像在该维度分辨率放大到Nt;否则,如果水平或垂直尺度大于Nt,那么在空域范围内,随机裁剪出分辨率为Nt×Nt的背景块,记为
产生前景图像缩放因子s∈[0.7,1.0],将缩放到新的分辨率s*Nt×s*Nt,结果记为再将覆盖到上,两幅图像中心对齐,覆盖合成后得到前景与背景的叠加图像IS;利用的第4通道信息进行生成掩模,第4通道如果为透明状态时,标记为0,表示背景区域像素;当第4通道为非透明状态时,标记为1,表示前景区域像素,这样就得到前景掩模图像IM;利用IS和IM创建一个4通道的图像Iin作为网络的输入数据;
进一步按照上述方法生成NF组数据,其中3162≤NF≤10000;
步骤2:构建自然图像数据集SN
利用数据集MSRA10k,筛选出具有明确前景物体目标的自然图像NS张,其中2017≤NS≤10000,并将它们缩放为Nt×Nt分辨率,并构建自然图像数据集SN;
步骤3:利用SC和SN构建训练数据集ST
利用SC和SN的并集构建ST,ST=SC∪SN;
步骤4:构建神经网络
神经网络的整体结构由低分辨率子网络U-NetL和高分辨率子网络U-NetH相连接构成;
(a)U-NetL的结构
将Iin进行下采样得到分辨率(Nt/2)×(Nt/2)的图像,进一步构建形状为(Nt/2)×(Nt/2)×3的张量,作为U-NetL的输入,U-NetL输出为掩模图像,张量形状为(Nt/2)×(Nt/2)×1;
U-NetL基于U-Net构建,在U-Net的Lt层卷积神经网络架构基础,去掉头尾两个子结构,编码器及解码器均采用Lt-1个子结构,如果Nt为224,Lt为5;如果Nt为448,Lt为6;如果Nt为896,Lt为7;
编码器除Lt-1个子结构,额外附加的一个卷积层构成,每个子结构包含两个卷积层与一个最大池化层;卷积层均采用3×3的卷积核,卷积步长为1,每个卷积层的输出均进行批归一化处理,使用Leaky Relu函数进行激活,最大池化层的池化窗口大小为2×2;Lt-1个子结构中,第1个子结构的两个卷积层中卷积核个数都是64,输出特征图尺度为56×56;后面各层子结构卷积核个数增加一倍,输出特征图尺度减少一半,最后通过额外附加的卷积层编码,通道数为1024;
解码器由Lt-1个子结构和一个额外附加的卷积层构成,每个子结构都包含一个上采样层与2个卷积层,每个子结构中卷积层的卷积核个数相同,上采样层的采样窗口大小为2×2;解码器子结构中,第1个子结构的两个卷积层中卷积核个数都是512,输出特征图尺度为14×14;后面各层子结构的卷积核个数减半,输出特征图尺度增加一倍;通过Lt-1个子结构,将编码器输出的特征图尺度还原至(Nt/2)×(Nt/2),通道数为64;
在编码器和解码器之后使用一个卷积层Le,Le采用1×1的1个卷积核,该卷积输出端连接一个Sigmoid激活层,获取为0至1之间的浮点数输出,最后得到(Nt/2)×(Nt/2)×1的低分辨率的掩模输出图像;
编码器与解码器之间进行跨层连接,即每个编码器中的卷积层都与解码器中相同尺寸的卷积层进行逐通道连接,并作为下一层卷积层的输入:即编码器第1层与解码器第Lt-2层输入特征图连接,作为解码器第Lt-1个卷积层的输入;同样地,编码器第2层与解码器第Lt-3层连接,作为解码器第Lt-2层的输入,按照此方式进行跨层连接;
(b)U-NetH的结构
U-NetH输入张量形状为(Nt/2)×(Nt/2)×3,输出为抠取的结果图像,张量形状为Nt×Nt×3;
U-NetH基于U-Net的卷积神经网络构建,编码器及解码器均Lt层:编码器由Lt个子结构相继连接,编码器的最后一个子结构连接一个附加的卷积层;对于初始图像作卷积前边界填补零处理,第1个子结构中卷积核个数为32,输出特征图尺度为(Nt/2)×(Nt/2);后面各层子结构卷积核个数增加一倍,输出特征图尺度减少一半,最后加上额外的卷积层,得到来自1024个核的特征,通道数为1024;
解码器同样由Lt个子结构和一个额外附加的卷积层构成,将编码器输出的特征图,逐步还原至Nt×Nt的尺度:第1个子结构中卷积核个数为1024,输出特征图尺度为14×14;后面各层子结构卷积核个数减少,输出特征图分辨率增加一倍,第Lt子结构中卷积核个数为64,输出特征图尺度为Nt×Nt,最后使用一个卷积层生成最终的网络输出,该卷积层采用1个1×1的卷积核,得到形状为Nt×Nt的特征图像;在解码器的输出端连接一个Sigmoid激活层,确保输出0至1之间的浮点数,最后得到Nt×Nt×1的输出图像;
编码器与解码器之间进行跨层连接,即每个编码器中的卷积层与解码器中相同尺寸的卷积层进行逐通道连接,并作为下一卷积层的输入:即编码器第1层与解码器第Lt-1层输入特征图连接,作为解码器第Lt个卷积层的输入;同样地,编码器第2层与解码器第Lt-2层连接,作为解码器第Lt-1层的输入,按照这样方式进行跨层连接;
(c)U-NetL与U-NetH的连接
将U-NetL输出的掩模图像结合U-NetH子结构2的输出,一并输入到U-NetH子结构3中,以实现U-NetL与U-NetH的连接;
步骤5:神经网络的训练
在数据集SC和SN各随机取2000幅图像,构成4000幅混合图像,将该数据集划分为训练数据、评估数据与测试数据:3600、200、200幅图像;其中训练数据用于网络训练,评估数据用于在训练过程中计算评价指标,测试数据用于对训练的网络模型进行性能测试;
在网络训练阶段中,将构建的训练数据作为网络训练的输入,首先训练U-NetL,训练完毕后,将U-NetL的输出加入U-NetH的对应特征图中,再进行U-NetH的训练;
U-NetL与U-NetH训练时,均采用如下交并比损失函数进行控制:
Yt表示网络输出的掩模图像中第t个像素的通道数据,Gt表示目标图像的第t个像素掩模的真实值;H表示图像中像素的个数,U-NetL训练时,H为(Nt/2)×(Nt/2),U-NetH训练时,H为Nt×Nt;
步骤6:对输入图像进行目标抠取
使用训练得到的网络模型,在自然图像数据集上进行图像抠取结果的预测;预测过程分为低分辨率预测和高分辨率预测,最终得到前景抠图的结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810649490.6A CN109035267B (zh) | 2018-06-22 | 2018-06-22 | 一种基于深度学习的图像目标抠取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810649490.6A CN109035267B (zh) | 2018-06-22 | 2018-06-22 | 一种基于深度学习的图像目标抠取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109035267A true CN109035267A (zh) | 2018-12-18 |
CN109035267B CN109035267B (zh) | 2021-07-27 |
Family
ID=64610272
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810649490.6A Active CN109035267B (zh) | 2018-06-22 | 2018-06-22 | 一种基于深度学习的图像目标抠取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109035267B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109919080A (zh) * | 2019-03-05 | 2019-06-21 | 南京航空航天大学 | 多解码器全卷积神经网络及其相应的细观结构识别方法 |
CN110188598A (zh) * | 2019-04-13 | 2019-08-30 | 大连理工大学 | 一种基于MobileNet-v2的实时手部姿态估计方法 |
CN110400323A (zh) * | 2019-07-30 | 2019-11-01 | 上海艾麒信息科技有限公司 | 一种自动抠图系统、方法以及装置 |
CN110956681A (zh) * | 2019-11-08 | 2020-04-03 | 浙江工业大学 | 一种结合卷积网络和邻域相似性的人像背景自动替换方法 |
CN111161277A (zh) * | 2019-12-12 | 2020-05-15 | 中山大学 | 一种基于深度学习的自然图像抠图方法 |
CN112261415A (zh) * | 2020-10-23 | 2021-01-22 | 青海民族大学 | 基于过拟合卷积自编码网络的图像压缩编码方法 |
WO2022155974A1 (zh) * | 2021-01-25 | 2022-07-28 | Oppo广东移动通信有限公司 | 视频编解码以及模型训练方法与装置 |
CN115063732A (zh) * | 2022-08-16 | 2022-09-16 | 之江实验室 | 基于双流多分辨率综合建模的动作视频分类方法和系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2091020A1 (en) * | 2008-02-15 | 2009-08-19 | Sony Corporation | Image processing method, program and apparatus |
CN105046714A (zh) * | 2015-08-18 | 2015-11-11 | 浙江大学 | 一种非监督的基于超像素和目标发现机制的图像分割方法 |
EP3089450A1 (en) * | 2010-04-13 | 2016-11-02 | GE Video Compression, LLC | Sample region merging |
CN106446930A (zh) * | 2016-06-28 | 2017-02-22 | 沈阳工业大学 | 基于深层卷积神经网络的机器人工作场景识别方法 |
JP2017045186A (ja) * | 2015-08-25 | 2017-03-02 | 株式会社コーエーテクモゲームス | ゲームプログラム及び記録媒体 |
CN106529486A (zh) * | 2016-11-18 | 2017-03-22 | 深圳市唯特视科技有限公司 | 一种基于三维形变人脸模型的种族识别方法 |
CN106570851A (zh) * | 2016-10-27 | 2017-04-19 | 大连理工大学 | 一种基于加权分配d‑s证据理论的显著图融合方法 |
CN107341470A (zh) * | 2017-07-03 | 2017-11-10 | 国网浙江省电力公司信息通信分公司 | 一种基于航拍图像的输电线检测方法 |
CN107885764A (zh) * | 2017-09-21 | 2018-04-06 | 银江股份有限公司 | 基于多任务深度学习快速哈希车辆检索方法 |
CN107945204A (zh) * | 2017-10-27 | 2018-04-20 | 西安电子科技大学 | 一种基于生成对抗网络的像素级人像抠图方法 |
CN107945185A (zh) * | 2017-11-29 | 2018-04-20 | 北京工商大学 | 基于宽残差金字塔池化网络的图像分割方法及系统 |
CN108052977A (zh) * | 2017-12-15 | 2018-05-18 | 福建师范大学 | 基于轻量级神经网络的乳腺钼靶图像深度学习分类方法 |
-
2018
- 2018-06-22 CN CN201810649490.6A patent/CN109035267B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2091020A1 (en) * | 2008-02-15 | 2009-08-19 | Sony Corporation | Image processing method, program and apparatus |
EP3089450A1 (en) * | 2010-04-13 | 2016-11-02 | GE Video Compression, LLC | Sample region merging |
CN105046714A (zh) * | 2015-08-18 | 2015-11-11 | 浙江大学 | 一种非监督的基于超像素和目标发现机制的图像分割方法 |
JP2017045186A (ja) * | 2015-08-25 | 2017-03-02 | 株式会社コーエーテクモゲームス | ゲームプログラム及び記録媒体 |
CN106446930A (zh) * | 2016-06-28 | 2017-02-22 | 沈阳工业大学 | 基于深层卷积神经网络的机器人工作场景识别方法 |
CN106570851A (zh) * | 2016-10-27 | 2017-04-19 | 大连理工大学 | 一种基于加权分配d‑s证据理论的显著图融合方法 |
CN106529486A (zh) * | 2016-11-18 | 2017-03-22 | 深圳市唯特视科技有限公司 | 一种基于三维形变人脸模型的种族识别方法 |
CN107341470A (zh) * | 2017-07-03 | 2017-11-10 | 国网浙江省电力公司信息通信分公司 | 一种基于航拍图像的输电线检测方法 |
CN107885764A (zh) * | 2017-09-21 | 2018-04-06 | 银江股份有限公司 | 基于多任务深度学习快速哈希车辆检索方法 |
CN107945204A (zh) * | 2017-10-27 | 2018-04-20 | 西安电子科技大学 | 一种基于生成对抗网络的像素级人像抠图方法 |
CN107945185A (zh) * | 2017-11-29 | 2018-04-20 | 北京工商大学 | 基于宽残差金字塔池化网络的图像分割方法及系统 |
CN108052977A (zh) * | 2017-12-15 | 2018-05-18 | 福建师范大学 | 基于轻量级神经网络的乳腺钼靶图像深度学习分类方法 |
Non-Patent Citations (2)
Title |
---|
NING XU 等: "Deep Image Matting", 《COMPUTER VISION AND PATTERN RECOGONITION 2017》 * |
尹宏鹏 等: "基于视觉的目标检测与跟踪综述", 《自动化学报》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109919080B (zh) * | 2019-03-05 | 2019-10-11 | 南京航空航天大学 | 多解码器全卷积神经网络及其相应的细观结构识别方法 |
CN109919080A (zh) * | 2019-03-05 | 2019-06-21 | 南京航空航天大学 | 多解码器全卷积神经网络及其相应的细观结构识别方法 |
CN110188598A (zh) * | 2019-04-13 | 2019-08-30 | 大连理工大学 | 一种基于MobileNet-v2的实时手部姿态估计方法 |
CN110188598B (zh) * | 2019-04-13 | 2022-07-05 | 大连理工大学 | 一种基于MobileNet-v2的实时手部姿态估计方法 |
CN110400323A (zh) * | 2019-07-30 | 2019-11-01 | 上海艾麒信息科技有限公司 | 一种自动抠图系统、方法以及装置 |
CN110956681A (zh) * | 2019-11-08 | 2020-04-03 | 浙江工业大学 | 一种结合卷积网络和邻域相似性的人像背景自动替换方法 |
CN110956681B (zh) * | 2019-11-08 | 2023-06-30 | 浙江工业大学 | 一种结合卷积网络和邻域相似性的人像背景自动替换方法 |
CN111161277B (zh) * | 2019-12-12 | 2023-04-18 | 中山大学 | 一种基于深度学习的自然图像抠图方法 |
CN111161277A (zh) * | 2019-12-12 | 2020-05-15 | 中山大学 | 一种基于深度学习的自然图像抠图方法 |
CN112261415A (zh) * | 2020-10-23 | 2021-01-22 | 青海民族大学 | 基于过拟合卷积自编码网络的图像压缩编码方法 |
CN112261415B (zh) * | 2020-10-23 | 2022-04-08 | 青海民族大学 | 基于过拟合卷积自编码网络的图像压缩编码方法 |
WO2022155974A1 (zh) * | 2021-01-25 | 2022-07-28 | Oppo广东移动通信有限公司 | 视频编解码以及模型训练方法与装置 |
CN115063732A (zh) * | 2022-08-16 | 2022-09-16 | 之江实验室 | 基于双流多分辨率综合建模的动作视频分类方法和系统 |
CN115063732B (zh) * | 2022-08-16 | 2022-11-11 | 之江实验室 | 基于双流多分辨率综合建模的动作视频分类方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109035267B (zh) | 2021-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109035267A (zh) | 一种基于深度学习的图像目标抠取方法 | |
CN108550115B (zh) | 一种图像超分辨率重建方法 | |
CN110191299B (zh) | 一种基于卷积神经网络的多重帧插值方法 | |
Zhang et al. | A survey on computational spectral reconstruction methods from RGB to hyperspectral imaging | |
CN109472270A (zh) | 图像风格转换方法、装置及设备 | |
Zheng et al. | Learning based digital matting | |
CN111754446A (zh) | 一种基于生成对抗网络的图像融合方法、系统及存储介质 | |
CN110675411B (zh) | 基于深度学习的宫颈鳞状上皮内病变识别算法 | |
CN109785300A (zh) | 一种癌症医学图像数据处理方法、系统、装置和存储介质 | |
CN109087273A (zh) | 基于增强的神经网络的图像复原方法、存储介质及系统 | |
CN110889852A (zh) | 基于残差-注意力深度神经网络的肝脏分割方法 | |
CN113674253A (zh) | 基于U-Transformer的直肠癌CT影像自动分割方法 | |
Zhu et al. | Stacked U-shape networks with channel-wise attention for image super-resolution | |
US20110274344A1 (en) | Systems and methods for manifold learning for matting | |
Vu et al. | Perception-enhanced image super-resolution via relativistic generative adversarial networks | |
US20230071559A1 (en) | Neural opacity point cloud | |
CN108171656A (zh) | 基于稀疏表示的自适应全局字典遥感图像超分辨方法 | |
Yu et al. | Fla-net: multi-stage modular network for low-light image enhancement | |
Meng et al. | Perception inspired deep neural networks for spectral snapshot compressive imaging | |
Chudasama et al. | RSRGAN: computationally efficient real-world single image super-resolution using generative adversarial network | |
CN116051593A (zh) | 服装图像提取方法及其装置、设备、介质、产品 | |
Mu et al. | Single image super resolution with high resolution dictionary | |
Xing et al. | Flow-aware synthesis: A generic motion model for video frame interpolation | |
CN109712073A (zh) | 一种基于高斯过程回归的图像超分辨率重建方法 | |
Liu et al. | Arbitrary-scale super-resolution via deep learning: A comprehensive survey |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |