CN109035267A

CN109035267A - 一种基于深度学习的图像目标抠取方法

Info

Publication number: CN109035267A
Application number: CN201810649490.6A
Authority: CN
Inventors: 全红艳; 沈卓荟
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2018-06-22
Filing date: 2018-06-22
Publication date: 2018-12-18
Anticipated expiration: 2038-06-22
Also published as: CN109035267B

Abstract

本发明公开了一种基于深度学习的图像目标抠取方法，在前景抠取策略中，建立了低分辨率与高分辨率结合的深度学习架构，解决了数据集质量不均的问题，并定义了合理的网络结构与损失函数，以确保深度学习模型的质量和性能。通过自然图像与合成图像混合数据集的建立，解决了图像目标抠取中数据集匮乏的问题。本发明避免了传统的三分图输入的条件限制，实现了对前景目标的自动抠取，能够获得较为精细的图像抠取结果。

Description

一种基于深度学习的图像目标抠取方法

技术领域

本发明涉及图像合成技术领域，具体涉及一种基于深度学习的图像目标抠取方法，采用自然图像与合成图像混合数据集的建立，解决了数据集匮乏的问题。进一步将低分辨率学习得到的特征应用于高分辨率图像前景目标的学习过程中，构建低分辨率及高分辨率结合的学习机制，可以实现图像前景目标的抠取。

背景技术

近年来，随着计算机技术的不断发展，在电子商务、医学、娱乐等领域的实际应用中，越来越多地需要通过采集的数字图像及视频对现实世界进行理解。传统的基于颜色采样的图像抠取方法对于待求解的未知区域的像素，在给定的前景区域及背景区域中进行采样，得到与之颜色相近的样本，进而通过样本估计该像素的前景与背景成分经典的基于颜色采样的方法仅在未知区域像素的局部窗口中进行采样，具有一定的局限性。并且传统的图像抠取技术需要图像遵循局部平滑性等先验条件，同时还依赖于三分图先验信息。近年来，一些基于深度学习的图像抠取方法进一步发展，如何建立有效的深度学习的网络模型，有效解决自然图像的抠图问题，这都是亟待解决的实际问题。

发明内容

本发明的目的是针对现有技术的不足,并针对图像抠图中缺少细节的实际问题，提出一种基于深度学习的图像目标抠取方法，该方法能够获得较为精细的图像抠取结果，具有更高的实用价值。

实现本发明目的的具体技术方案是：

一种基于深度学习的图像目标抠取方法，特点是通过自然图像与合成图像混合数据集的建立，解决了图像目标抠取问题中的数据集匮乏问题。进一步通过构建低分辨率及高分辨率结合的卷积神经网络学习策略,实现图像前景目标的抠取。

具体包括以下步骤：

步骤1：构建合成图像集S_C

(a)前景图像数据集的构建

从pngimg.com网站收集N张png格式的前景图像，其中20000≤N≤30000，要包含人物、动物、前景物体各种类别；从其中筛选前景图像Nc张,3810≤Nc≤N，要求所述筛选前景图像必须是拍摄得到的自然图像，并保持类别数种；

利用选出的Nc张图像构建前景图像数据集S_F：其中是其中的第k+1张图像；

(b)背景图像数据集构建

从SUN2012数据集筛选N_B张背景图像,2182≤N_B≤5000，构建背景图像集合是其中的背景图像,要求其不包含前景物体，并且要确保选取的背景图像类别要涵盖SUN2012的各个种类；

(c)合成图像：在[0,N_B-1]之间生成随机的背景图像序号R_B，从背景图像集合S_B中按照R_B取出随机的背景图像再在[0,Nc-1]之间生成1个随机的前景图像序号R_F，从前景图像集合S_F中按照R_F取出随机前景图像(2)叠加图像，对于的裁剪或缩放处理：如果的水平或垂直尺度小于N_t，通过图像缩放功能将图像在该维度分辨率放大到N_t；否则，如果水平或垂直尺度大于N_t，那么在空域范围内，随机裁剪出分辨率为N_t×N_t的背景块，记为

产生前景图像缩放因子s∈[0.7,1.0]，将缩放到新的分辨率s*N_t×s*N_t，结果记为再将覆盖到上，两幅图像中心对齐，覆盖合成后得到前景与背景的叠加图像I_S；利用的第4通道信息进行生成掩模，第4通道如果为透明状态时，标记为0，表示背景区域像素；当第4通道为非透明状态时，标记为1，表示前景区域像素，这样就得到前景掩模图像I_M；利用I_S和I_M创建一个4通道的图像I_in作为网络的输入数据；

进一步按照上述方法生成N_F组数据，其中3162≤N_F≤10000；

步骤2：构建自然图像数据集S_N

利用数据集MSRA10k，筛选出具有明确前景物体目标的自然图像N_S张，其中2017≤N_S≤10000，并将它们缩放为N_t×N_t分辨率，并构建自然图像数据集S_N；

步骤3：利用S_C和S_N构建训练数据集S_T

利用S_C和S_N的并集构建S_T，S_T＝S_C∪S_N；

步骤4：构建神经网络

神经网络的整体结构由低分辨率子网络U-NetL和高分辨率子网络U-NetH相连接构成；

(a)U-NetL的结构

将I_in进行下采样得到分辨率(N_t/2)×(N_t/2)的图像，进一步构建形状为(N_t/2)×(N_t/2)×3的张量,作为U-NetL的输入，U-NetL输出为掩模图像,张量形状为(N_t/2)×(N_t/2)×1；

U-NetL基于U-Net构建，在U-Net的L_t层卷积神经网络架构基础，去掉头尾两个子结构，编码器及解码器均采用L_t-1个子结构，如果N_t为224，L_t为5；如果N_t为448，L_t为6；如果N_t为896，L_t为7；

编码器除L_t-1个子结构，额外附加的一个卷积层构成，每个子结构包含两个卷积层与一个最大池化层；卷积层均采用3×3的卷积核，卷积步长为1，每个卷积层的输出均进行批归一化处理，使用Leaky Relu函数进行激活，最大池化层的池化窗口大小为2×2；L_t-1个子结构中，第1个子结构的两个卷积层中卷积核个数都是64，输出特征图尺度为56×56；后面各层子结构卷积核个数增加一倍，输出特征图尺度减少一半，最后通过额外附加的卷积层编码，通道数为1024；

解码器由L_t-1个子结构和一个额外附加的卷积层构成，每个子结构都包含一个上采样层与2个卷积层，每个子结构中卷积层的卷积核个数相同，上采样层的采样窗口大小为2×2；解码器子结构中，第1个子结构的两个卷积层中卷积核个数都是512，输出特征图尺度为14×14；后面各层子结构的卷积核个数减半，输出特征图尺度增加一倍；通过L_t-1个子结构，将编码器输出的特征图尺度还原至(N_t/2)×(N_t/2)，通道数为64；

在编码器和解码器之后使用一个卷积层Le，Le采用1×1的1个卷积核，该卷积输出端连接一个Sigmoid激活层，获取为0至1之间的浮点数输出，最后得到(N_t/2)×(N_t/2)×1的低分辨率的掩模输出图像；

编码器与解码器之间进行跨层连接，即每个编码器中的卷积层都与解码器中相同尺寸的卷积层进行逐通道连接，并作为下一层卷积层的输入：即编码器第1层与解码器第L_t-2层输入特征图连接，作为解码器第L_t-1个卷积层的输入；同样地，编码器第2层与解码器第L_t-3层连接，作为解码器第L_t-2层的输入，按照此方式进行跨层连接；

(b)U-NetH的结构

U-NetH输入张量形状为(N_t/2)×(N_t/2)×3，输出为抠取的结果图像,张量形状为N_t×N_t×3；

U-NetH基于U-Net的卷积神经网络构建，编码器、解码器以及连接层与U-NetL类似：编码器及解码器均L_t层：编码器由L_t个子结构相继连接,编码器的最后一个子结构连接一个附加的卷积层；对于初始图像作卷积前边界填补零处理，第1个子结构中卷积核个数为32，输出特征图尺度为(N_t/2)×(N_t/2)；后面各层子结构卷积核个数增加一倍，输出特征图尺度减少一半，最后加上额外的卷积层，得到来自1024个核的特征，通道数为1024；

解码器同样由L_t个子结构和一个额外附加的卷积层构成，将编码器部分输出的特征图，逐步还原至N_t×N_t的尺度：第1个子结构中卷积核个数为1024，输出特征图尺度为14×14；后面各层子结构卷积核个数减少，输出特征图分辨率增加一倍，第L_t子结构中卷积核个数为64，输出特征图尺度为N_t×N_t，最后使用一个卷积层生成最终的网络输出，该卷积层采用1个1×1的卷积核，得到形状为N_t×N_t的特征图像；在解码器的输出端连接一个Sigmoid激活层，确保输出0至1之间的浮点数，最后得到N_t×N_t×1的输出图像；

编码器与解码器之间进行跨层连接，即每个编码器中的卷积层都与解码器中相同尺寸的卷积层进行逐通道连接，并作为下一卷积层的输入：即编码器第1层与解码器第L_t-1层输入特征图连接，作为解码器第L_t个卷积层的输入；同样地，编码器第2层与解码器第L_t-2层连接，作为解码器第L_t-1层的输入，按照这样方式进行跨层连接；

(c)U-NetL与U-NetH的连接

将U-NetL输出的掩模图像结合U-NetH子结构2的输出,一并输入到U-NetH子结构3中，以实现U-NetL与U-NetH的连接；

步骤5：神经网络的训练

在数据集S_C和S_N各随机取2000幅图像，构成4000幅混合图像，将该数据集划分为训练数据、评估数据与测试数据：3600、200、200幅图像；其中训练数据用于网络训练，评估数据用于在训练过程中计算评价指标，测试数据用于对训练的网络模型进行性能测试；

在网络训练阶段中，将构建的训练数据作为网络训练的输入，首先训练U-NetL，训练完毕后，将U-NetL的输出加入U-NetH的对应特征图中，再进行U-NetH的训练；

U-NetL与U-NetH训练时，均采用如下交并比损失函数进行控制：

Y_t表示网络输出的掩模图像中第t个像素的通道数据，G_t表示目标图像的第t个像素掩模的真实值；H表示图像中像素的个数，U-NetL训练时，H为(N_t/2)×(N_t/2)，U-NetH训练时，H为N_t×N_t；

步骤6：对输入图像进行目标抠取

使用训练得到的网络模型，在自然图像数据集上进行图像抠取结果的预测；预测过程分为低分辨率预测和高分辨率预测，最终得到前景抠图的结果。

本发明具有简单、实用的特点，能够有效实现自然图像前景目标的抠取功能。提出的方法无需三分图的先验条件，同时前景区域标识正确，能够获得较为精细的图像抠取结果，具有更高的实用价值。

附图说明

图1为前景与背景进行合成得到的图像；

图2为本发明的抠图结果图；

图3为数据集训练过程中损失函数的变化趋势图。

具体实施方式

实施例

下面结合附图对本发明进一步说明。

本实施例在PC机上Windows10 64位操作系统下进行实施，其硬件配置是CPU i5-6500，内存16G，GPU NVIDIA GeForce GTX 1060 6G。深度学习库Keras 2.0.8，其采用Tensorflow1.3.0作为后端。编程采用Python语言。

基于深度学习的图像目标抠取的方法，特点是：采用自然图像与合成图像混合数据集的建立，解决了数据集匮乏的问题,它将低分辨率学习得到的特征应用于高分辨率图像前景目标的学习过程中，构建低分辨率及高分辨率结合的学习机制，可以实现图像前景目标的抠取功能,该方法输入图像分辨率为N_t×N_t，N_t为224，具体包括以下步骤：

采用自然图像与合成图像混合数据集的建立，解决了数据集匮乏的问题。进一步将低分辨率学习得到的特征应用于高分辨率图像前景目标的学习过程中，构建低分辨率及高分辨率结合的学习机制，可以实现图像前景目标的抠取功能。具体包括以下步骤：

步骤1：构建合成图像集S_C

(a)前景图像数据集的构建

从pngimg.com网站收集20000张png格式的前景图像，要包含人物、动物、前景物体各种类别；从其中筛选前景图像3810张,要求所述筛选前景图像必须是拍摄得到的自然图像，并保持类别数种；

利用选出的3810张图像构建前景图像数据集S_F：其中是其中的第k+1张图像；

(b)背景图像数据集构建

从SUN2012数据集筛选2182张背景图像，构建背景图像集合是其中的背景图像,要求其不包含前景物体，并且要确保选取的背景图像类别要涵盖SUN2012的各个种类；

(c)合成图像：在[0,2181]之间生成随机的背景图像序号R_B，从背景图像集合S_B中按照R_B取出随机的背景图像再在[0,3809]之间生成1个随机的前景图像序号R_F，从前景图像集合S_F中按照R_F取出随机前景图像(2)叠加图像，对于的裁剪或缩放处理：如果的水平或垂直尺度小于N_t，通过图像缩放功能将图像在该维度分辨率放大到N_t；否则，如果水平或垂直尺度大于N_t，那么在空域范围内，随机裁剪出分辨率为N_t×N_t的背景块，记为

进一步按照上述方法生成3162组数据；

步骤2：构建自然图像数据集S_N

利用数据集MSRA10k，筛选出具有明确前景物体目标的自然图像2017张，并将它们缩放为N_t×N_t分辨率，并构建自然图像数据集S_N；

步骤3：利用S_C和S_N构建训练数据集S_T

利用S_C和S_N的并集构建S_T，S_T＝S_C∪S_N；

步骤4：构建神经网络

(a)U-NetL的结构

U-NetL基于U-Net构建，在U-Net的L_t层卷积神经网络架构基础，去掉头尾两个子结构，编码器及解码器均采用L_t-1个子结构，L_t为5；

(b)U-NetH的结构

(c)U-NetL与U-NetH的连接

步骤5：神经网络的训练

步骤6：对输入图像进行目标抠取

对输入图像进行目标抠取，采用网络预测实现，使用训练得到的网络模型，在自然图像数据集上进行图像抠取结果的预测。预测过程同样分为两个步骤，首先通过低分辨率子网络进行预测，随后通过高分辨率子网络预测得到最终前景抠图的结果。

实验过程中，网络的实现细节与使用的重要超参数如下：卷积层采用Glorot均匀分布进行卷积核初始化。所有进行了Batch Normalization的卷积层不启用偏置项，其余层的偏置项初始化全置0。Batch Normalization层，β项初始化全置为0，γ初始化全置为1，动量系数momentum全置为0.99。Dropout层Dropout率置为0.5。优化器采用Nadam优化器，各超参数取默认值。每批次样本数每批次的样本数取8。

图1为前景与背景进行合成得到的合成图像，用于数据集的构建。图1的每组数据中，左侧为合成的结果，右侧图像为其掩模结果。图2为本发明实施例前景目标的抠图结果，图2的每组数据中，左侧为输入的自然图像源数据，右侧为利用本发明算法抠取的结果，从抠取结果可以看出，抠取目标的边缘具有一定的细节。

本实施例在数据集上进行了网络训练。训练过程使用小批量梯度下降方法，共进行了500轮训练，每轮训练用时约为400秒。图3记录了每轮训练中训练数据与评估数据的交并比损失评价的结果，图3展示了数据集训练过程中损失函数的变化趋势。从图3中可以看出，训练数据的交并比指标随训练过程稳定上升，在训练临近结束时已接近收敛极限，几乎不再变化。这证明使用了交并比损失的训练过程能够准确快速地沿损失函数下降的方向进行，训练的收敛速度较快。同时，在训练过程中，评估数据的交并比指标也保持了与训练数据相近的水平，表明训练得到的网络具有较好的泛化能力，训练过程中未出现过拟合问题。

Claims

1.一种基于深度学习的图像目标抠取方法，其特征在于，该方法输入图像分辨率为N_t×N_t，其N_t为224、448或者896，具体包括以下步骤：

步骤1：构建合成图像集S_C

(a)前景图像数据集的构建

利用选出的Nc张图像构建前景图像数据集其中是其中的第k+1张图像；

(b)背景图像数据集构建

进一步按照上述方法生成N_F组数据，其中3162≤N_F≤10000；

步骤2：构建自然图像数据集S_N

步骤3：利用S_C和S_N构建训练数据集S_T

利用S_C和S_N的并集构建S_T，S_T＝S_C∪S_N；

步骤4：构建神经网络

(a)U-NetL的结构

(b)U-NetH的结构

U-NetH基于U-Net的卷积神经网络构建，编码器及解码器均L_t层：编码器由L_t个子结构相继连接,编码器的最后一个子结构连接一个附加的卷积层；对于初始图像作卷积前边界填补零处理，第1个子结构中卷积核个数为32，输出特征图尺度为(N_t/2)×(N_t/2)；后面各层子结构卷积核个数增加一倍，输出特征图尺度减少一半，最后加上额外的卷积层，得到来自1024个核的特征，通道数为1024；

解码器同样由L_t个子结构和一个额外附加的卷积层构成，将编码器输出的特征图，逐步还原至N_t×N_t的尺度：第1个子结构中卷积核个数为1024，输出特征图尺度为14×14；后面各层子结构卷积核个数减少，输出特征图分辨率增加一倍，第L_t子结构中卷积核个数为64，输出特征图尺度为N_t×N_t，最后使用一个卷积层生成最终的网络输出，该卷积层采用1个1×1的卷积核，得到形状为N_t×N_t的特征图像；在解码器的输出端连接一个Sigmoid激活层，确保输出0至1之间的浮点数，最后得到N_t×N_t×1的输出图像；

编码器与解码器之间进行跨层连接，即每个编码器中的卷积层与解码器中相同尺寸的卷积层进行逐通道连接，并作为下一卷积层的输入：即编码器第1层与解码器第L_t-1层输入特征图连接，作为解码器第L_t个卷积层的输入；同样地，编码器第2层与解码器第L_t-2层连接，作为解码器第L_t-1层的输入，按照这样方式进行跨层连接；

(c)U-NetL与U-NetH的连接

步骤5：神经网络的训练

U-NetL与U-NetH训练时，均采用如下交并比损失函数进行控制：

步骤6：对输入图像进行目标抠取