CN109035267B - 一种基于深度学习的图像目标抠取方法 - Google Patents

一种基于深度学习的图像目标抠取方法 Download PDF

Info

Publication number
CN109035267B
CN109035267B CN201810649490.6A CN201810649490A CN109035267B CN 109035267 B CN109035267 B CN 109035267B CN 201810649490 A CN201810649490 A CN 201810649490A CN 109035267 B CN109035267 B CN 109035267B
Authority
CN
China
Prior art keywords
image
layer
substructure
output
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810649490.6A
Other languages
English (en)
Other versions
CN109035267A (zh
Inventor
全红艳
沈卓荟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN201810649490.6A priority Critical patent/CN109035267B/zh
Publication of CN109035267A publication Critical patent/CN109035267A/zh
Application granted granted Critical
Publication of CN109035267B publication Critical patent/CN109035267B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于深度学习的图像目标抠取方法,在前景抠取策略中,建立了低分辨率与高分辨率结合的深度学习架构,解决了数据集质量不均的问题,并定义了合理的网络结构与损失函数,以确保深度学习模型的质量和性能。通过自然图像与合成图像混合数据集的建立,解决了图像目标抠取中数据集匮乏的问题。本发明避免了传统的三分图输入的条件限制,实现了对前景目标的自动抠取,能够获得较为精细的图像抠取结果。

Description

一种基于深度学习的图像目标抠取方法
技术领域
本发明涉及图像合成技术领域,具体涉及一种基于深度学习的图像目标抠取方法,采用自然图像与合成图像混合数据集的建立,解决了数据集匮乏的问题。进一步将低分辨率学习得到的特征应用于高分辨率图像前景目标的学习过程中,构建低分辨率及高分辨率结合的学习机制,可以实现图像前景目标的抠取。
背景技术
近年来,随着计算机技术的不断发展,在电子商务、医学、娱乐等领域的实际应用中,越来越多地需要通过采集的数字图像及视频对现实世界进行理解。传统的基于颜色采样的图像抠取方法对于待求解的未知区域的像素,在给定的前景区域及背景区域中进行采样,得到与之颜色相近的样本,进而通过样本估计该像素的前景与背景成分经典的基于颜色采样的方法仅在未知区域像素的局部窗口中进行采样,具有一定的局限性。并且传统的图像抠取技术需要图像遵循局部平滑性等先验条件,同时还依赖于三分图先验信息。近年来,一些基于深度学习的图像抠取方法进一步发展,如何建立有效的深度学习的网络模型,有效解决自然图像的抠图问题,这都是亟待解决的实际问题。
发明内容
本发明的目的是针对现有技术的不足,并针对图像抠图中缺少细节的实际问题,提出一种基于深度学习的图像目标抠取方法,该方法能够获得较为精细的图像抠取结果,具有更高的实用价值。
实现本发明目的的具体技术方案是:
一种基于深度学习的图像目标抠取方法,特点是通过自然图像与合成图像混合数据集的建立,解决了图像目标抠取问题中的数据集匮乏问题。进一步通过构建低分辨率及高分辨率结合的卷积神经网络学习策略,实现图像前景目标的抠取。
具体包括以下步骤:
步骤1:构建合成图像集SC
(a)前景图像数据集的构建
从pngimg.com网站收集N张png格式的前景图像,其中20000≤N≤30000,要包含人物、动物、前景物体各种类别;从其中筛选前景图像Nc张,3810≤Nc≤N,要求所述筛选前景图像必须是拍摄得到的自然图像,并保持类别数种;
利用选出的Nc张图像构建前景图像数据集SF
Figure BDA0001704358510000011
其中
Figure BDA0001704358510000012
是其中的第k+1张图像;
(b)背景图像数据集构建
从SUN2012数据集筛选NB张背景图像,2182≤NB≤5000,构建背景图像集合
Figure BDA00017043585100000215
是其中的背景图像,要求其不包含前景物体,并且要确保选取的背景图像类别要涵盖SUN2012的各个种类;
(c)合成图像:在[0,NB-1]之间生成随机的背景图像序号RB,从背景图像集合SB中按照RB取出随机的背景图像
Figure BDA0001704358510000023
再在[0,Nc-1]之间生成1个随机的前景图像序号RF,从前景图像集合SF中按照RF取出随机前景图像
Figure BDA0001704358510000024
(2)叠加图像,对于
Figure BDA0001704358510000025
的裁剪或缩放处理:如果
Figure BDA0001704358510000026
的水平或垂直尺度小于Nt,通过图像缩放功能将
Figure BDA0001704358510000027
图像在该维度分辨率放大到Nt;否则,如果水平或垂直尺度大于Nt,那么在
Figure BDA0001704358510000028
空域范围内,随机裁剪出分辨率为Nt×Nt的背景块,记为
Figure BDA0001704358510000029
产生前景图像缩放因子s∈[0.7,1.0],将
Figure BDA00017043585100000210
缩放到新的分辨率s*Nt×s*Nt,结果记为
Figure BDA00017043585100000211
再将
Figure BDA00017043585100000212
覆盖到
Figure BDA00017043585100000213
上,两幅图像中心对齐,覆盖合成后得到前景与背景的叠加图像IS;利用
Figure BDA00017043585100000214
的第4通道信息进行生成掩模,第4通道如果为透明状态时,标记为0,表示背景区域像素;当第4通道为非透明状态时,标记为1,表示前景区域像素,这样就得到前景掩模图像IM;利用IS和IM创建一个4通道的图像Iin作为网络的输入数据;
进一步按照上述方法生成NF组数据,其中3162≤NF≤10000;
步骤2:构建自然图像数据集SN
利用数据集MSRA10k,筛选出具有明确前景物体目标的自然图像NS张,其中2017≤NS≤10000,并将它们缩放为Nt×Nt分辨率,并构建自然图像数据集SN
步骤3:利用SC和SN构建训练数据集ST
利用SC和SN的并集构建ST,ST=SC∪SN
步骤4:构建神经网络
神经网络的整体结构由低分辨率子网络U-NetL和高分辨率子网络U-NetH相连接构成;
(a)U-NetL的结构
将Iin进行下采样得到分辨率(Nt/2)×(Nt/2)的图像,进一步构建形状为(Nt/2)×(Nt/2)×3的张量,作为U-NetL的输入,U-NetL输出为掩模图像,张量形状为(Nt/2)×(Nt/2)×1;
U-NetL基于U-Net构建,在U-Net的Lt层卷积神经网络架构基础,去掉头尾两个子结构,编码器及解码器均采用Lt-1个子结构,如果Nt为224,Lt为5;如果Nt为448,Lt为6;如果Nt为896,Lt为7;
编码器除Lt-1个子结构,额外附加的一个卷积层构成,每个子结构包含两个卷积层与一个最大池化层;卷积层均采用3×3的卷积核,卷积步长为1,每个卷积层的输出均进行批归一化处理,使用Leaky Relu函数进行激活,最大池化层的池化窗口大小为2×2;Lt-1个子结构中,第1个子结构的两个卷积层中卷积核个数都是64,输出特征图尺度为56×56;后面各层子结构卷积核个数增加一倍,输出特征图尺度减少一半,最后通过额外附加的卷积层编码,通道数为1024;
解码器由Lt-1个子结构和一个额外附加的卷积层构成,每个子结构都包含一个上采样层与2个卷积层,每个子结构中卷积层的卷积核个数相同,上采样层的采样窗口大小为2×2;解码器子结构中,第1个子结构的两个卷积层中卷积核个数都是512,输出特征图尺度为14×14;后面各层子结构的卷积核个数减半,输出特征图尺度增加一倍;通过Lt-1个子结构,将编码器输出的特征图尺度还原至(Nt/2)×(Nt/2),通道数为64;
在编码器和解码器之后使用一个卷积层Le,Le采用1×1的1个卷积核,该卷积输出端连接一个Sigmoid激活层,获取为0至1之间的浮点数输出,最后得到(Nt/2)×(Nt/2)×1的低分辨率的掩模输出图像;
编码器与解码器之间进行跨层连接,即每个编码器中的卷积层都与解码器中相同尺寸的卷积层进行逐通道连接,并作为下一层卷积层的输入:即编码器第1层与解码器第Lt-2层输入特征图连接,作为解码器第Lt-1个卷积层的输入;同样地,编码器第2层与解码器第Lt-3层连接,作为解码器第Lt-2层的输入,按照此方式进行跨层连接;
(b)U-NetH的结构
U-NetH输入张量形状为(Nt/2)×(Nt/2)×3,输出为抠取的结果图像,张量形状为Nt×Nt×3;
U-NetH基于U-Net的卷积神经网络构建,编码器、解码器以及连接层与U-NetL类似:编码器及解码器均Lt层:编码器由Lt个子结构相继连接,编码器的最后一个子结构连接一个附加的卷积层;对于初始图像作卷积前边界填补零处理,第1个子结构中卷积核个数为32,输出特征图尺度为(Nt/2)×(Nt/2);后面各层子结构卷积核个数增加一倍,输出特征图尺度减少一半,最后加上额外的卷积层,得到来自1024个核的特征,通道数为1024;
解码器同样由Lt个子结构和一个额外附加的卷积层构成,将编码器部分输出的特征图,逐步还原至Nt×Nt的尺度:第1个子结构中卷积核个数为1024,输出特征图尺度为14×14;后面各层子结构卷积核个数减少,输出特征图分辨率增加一倍,第Lt子结构中卷积核个数为64,输出特征图尺度为Nt×Nt,最后使用一个卷积层生成最终的网络输出,该卷积层采用1个1×1的卷积核,得到形状为Nt×Nt的特征图像;在解码器的输出端连接一个Sigmoid激活层,确保输出0至1之间的浮点数,最后得到Nt×Nt×1的输出图像;
编码器与解码器之间进行跨层连接,即每个编码器中的卷积层都与解码器中相同尺寸的卷积层进行逐通道连接,并作为下一卷积层的输入:即编码器第1层与解码器第Lt-1层输入特征图连接,作为解码器第Lt个卷积层的输入;同样地,编码器第2层与解码器第Lt-2层连接,作为解码器第Lt-1层的输入,按照这样方式进行跨层连接;
(c)U-NetL与U-NetH的连接
将U-NetL输出的掩模图像结合U-NetH子结构2的输出,一并输入到U-NetH子结构3中,以实现U-NetL与U-NetH的连接;
步骤5:神经网络的训练
在数据集SC和SN各随机取2000幅图像,构成4000幅混合图像,将该数据集划分为训练数据、评估数据与测试数据:3600、200、200幅图像;其中训练数据用于网络训练,评估数据用于在训练过程中计算评价指标,测试数据用于对训练的网络模型进行性能测试;
在网络训练阶段中,将构建的训练数据作为网络训练的输入,首先训练U-NetL,训练完毕后,将U-NetL的输出加入U-NetH的对应特征图中,再进行U-NetH的训练;
U-NetL与U-NetH训练时,均采用如下交并比损失函数进行控制:
Figure BDA0001704358510000041
Yt表示网络输出的掩模图像中第t个像素的通道数据,Gt表示目标图像的第t个像素掩模的真实值;H表示图像中像素的个数,U-NetL训练时,H为(Nt/2)×(Nt/2),U-NetH训练时,H为Nt×Nt
步骤6:对输入图像进行目标抠取
使用训练得到的网络模型,在自然图像数据集上进行图像抠取结果的预测;预测过程分为低分辨率预测和高分辨率预测,最终得到前景抠图的结果。
本发明具有简单、实用的特点,能够有效实现自然图像前景目标的抠取功能。提出的方法无需三分图的先验条件,同时前景区域标识正确,能够获得较为精细的图像抠取结果,具有更高的实用价值。
附图说明
图1为前景与背景进行合成得到的图像;
图2为本发明的抠图结果图;
图3为数据集训练过程中损失函数的变化趋势图。
具体实施方式
实施例
下面结合附图对本发明进一步说明。
本实施例在PC机上Windows10 64位操作系统下进行实施,其硬件配置是CPU i5-6500,内存16G,GPU NVIDIA GeForce GTX 1060 6G。深度学习库Keras 2.0.8,其采用Tensorflow1.3.0作为后端。编程采用Python语言。
基于深度学习的图像目标抠取的方法,特点是:采用自然图像与合成图像混合数据集的建立,解决了数据集匮乏的问题,它将低分辨率学习得到的特征应用于高分辨率图像前景目标的学习过程中,构建低分辨率及高分辨率结合的学习机制,可以实现图像前景目标的抠取功能,该方法输入图像分辨率为Nt×Nt,Nt为224,具体包括以下步骤:
采用自然图像与合成图像混合数据集的建立,解决了数据集匮乏的问题。进一步将低分辨率学习得到的特征应用于高分辨率图像前景目标的学习过程中,构建低分辨率及高分辨率结合的学习机制,可以实现图像前景目标的抠取功能。具体包括以下步骤:
步骤1:构建合成图像集SC
(a)前景图像数据集的构建
从pngimg.com网站收集20000张png格式的前景图像,要包含人物、动物、前景物体各种类别;从其中筛选前景图像3810张,要求所述筛选前景图像必须是拍摄得到的自然图像,并保持类别数种;
利用选出的3810张图像构建前景图像数据集SF
Figure BDA0001704358510000051
其中
Figure BDA0001704358510000052
是其中的第k+1张图像;
(b)背景图像数据集构建
从SUN2012数据集筛选2182张背景图像,构建背景图像集合
Figure BDA0001704358510000053
是其中的背景图像,要求其不包含前景物体,并且要确保选取的背景图像类别要涵盖SUN2012的各个种类;
(c)合成图像:在[0,2181]之间生成随机的背景图像序号RB,从背景图像集合SB中按照RB取出随机的背景图像
Figure BDA0001704358510000054
再在[0,3809]之间生成1个随机的前景图像序号RF,从前景图像集合SF中按照RF取出随机前景图像
Figure BDA0001704358510000055
(2)叠加图像,对于
Figure BDA0001704358510000056
的裁剪或缩放处理:如果
Figure BDA0001704358510000061
的水平或垂直尺度小于Nt,通过图像缩放功能将
Figure BDA0001704358510000062
图像在该维度分辨率放大到Nt;否则,如果水平或垂直尺度大于Nt,那么在
Figure BDA0001704358510000063
空域范围内,随机裁剪出分辨率为Nt×Nt的背景块,记为
Figure BDA0001704358510000064
产生前景图像缩放因子s∈[0.7,1.0],将
Figure BDA0001704358510000065
缩放到新的分辨率s*Nt×s*Nt,结果记为
Figure BDA0001704358510000066
再将
Figure BDA0001704358510000067
覆盖到
Figure BDA0001704358510000068
上,两幅图像中心对齐,覆盖合成后得到前景与背景的叠加图像IS;利用
Figure BDA0001704358510000069
的第4通道信息进行生成掩模,第4通道如果为透明状态时,标记为0,表示背景区域像素;当第4通道为非透明状态时,标记为1,表示前景区域像素,这样就得到前景掩模图像IM;利用IS和IM创建一个4通道的图像Iin作为网络的输入数据;
进一步按照上述方法生成3162组数据;
步骤2:构建自然图像数据集SN
利用数据集MSRA10k,筛选出具有明确前景物体目标的自然图像2017张,并将它们缩放为Nt×Nt分辨率,并构建自然图像数据集SN
步骤3:利用SC和SN构建训练数据集ST
利用SC和SN的并集构建ST,ST=SC∪SN
步骤4:构建神经网络
神经网络的整体结构由低分辨率子网络U-NetL和高分辨率子网络U-NetH相连接构成;
(a)U-NetL的结构
将Iin进行下采样得到分辨率(Nt/2)×(Nt/2)的图像,进一步构建形状为(Nt/2)×(Nt/2)×3的张量,作为U-NetL的输入,U-NetL输出为掩模图像,张量形状为(Nt/2)×(Nt/2)×1;
U-NetL基于U-Net构建,在U-Net的Lt层卷积神经网络架构基础,去掉头尾两个子结构,编码器及解码器均采用Lt-1个子结构,Lt为5;
编码器除Lt-1个子结构,额外附加的一个卷积层构成,每个子结构包含两个卷积层与一个最大池化层;卷积层均采用3×3的卷积核,卷积步长为1,每个卷积层的输出均进行批归一化处理,使用Leaky Relu函数进行激活,最大池化层的池化窗口大小为2×2;Lt-1个子结构中,第1个子结构的两个卷积层中卷积核个数都是64,输出特征图尺度为56×56;后面各层子结构卷积核个数增加一倍,输出特征图尺度减少一半,最后通过额外附加的卷积层编码,通道数为1024;
解码器由Lt-1个子结构和一个额外附加的卷积层构成,每个子结构都包含一个上采样层与2个卷积层,每个子结构中卷积层的卷积核个数相同,上采样层的采样窗口大小为2×2;解码器子结构中,第1个子结构的两个卷积层中卷积核个数都是512,输出特征图尺度为14×14;后面各层子结构的卷积核个数减半,输出特征图尺度增加一倍;通过Lt-1个子结构,将编码器输出的特征图尺度还原至(Nt/2)×(Nt/2),通道数为64;
在编码器和解码器之后使用一个卷积层Le,Le采用1×1的1个卷积核,该卷积输出端连接一个Sigmoid激活层,获取为0至1之间的浮点数输出,最后得到(Nt/2)×(Nt/2)×1的低分辨率的掩模输出图像;
编码器与解码器之间进行跨层连接,即每个编码器中的卷积层都与解码器中相同尺寸的卷积层进行逐通道连接,并作为下一层卷积层的输入:即编码器第1层与解码器第Lt-2层输入特征图连接,作为解码器第Lt-1个卷积层的输入;同样地,编码器第2层与解码器第Lt-3层连接,作为解码器第Lt-2层的输入,按照此方式进行跨层连接;
(b)U-NetH的结构
U-NetH输入张量形状为(Nt/2)×(Nt/2)×3,输出为抠取的结果图像,张量形状为Nt×Nt×3;
U-NetH基于U-Net的卷积神经网络构建,编码器、解码器以及连接层与U-NetL类似:编码器及解码器均Lt层:编码器由Lt个子结构相继连接,编码器的最后一个子结构连接一个附加的卷积层;对于初始图像作卷积前边界填补零处理,第1个子结构中卷积核个数为32,输出特征图尺度为(Nt/2)×(Nt/2);后面各层子结构卷积核个数增加一倍,输出特征图尺度减少一半,最后加上额外的卷积层,得到来自1024个核的特征,通道数为1024;
解码器同样由Lt个子结构和一个额外附加的卷积层构成,将编码器部分输出的特征图,逐步还原至Nt×Nt的尺度:第1个子结构中卷积核个数为1024,输出特征图尺度为14×14;后面各层子结构卷积核个数减少,输出特征图分辨率增加一倍,第Lt子结构中卷积核个数为64,输出特征图尺度为Nt×Nt,最后使用一个卷积层生成最终的网络输出,该卷积层采用1个1×1的卷积核,得到形状为Nt×Nt的特征图像;在解码器的输出端连接一个Sigmoid激活层,确保输出0至1之间的浮点数,最后得到Nt×Nt×1的输出图像;
编码器与解码器之间进行跨层连接,即每个编码器中的卷积层都与解码器中相同尺寸的卷积层进行逐通道连接,并作为下一卷积层的输入:即编码器第1层与解码器第Lt-1层输入特征图连接,作为解码器第Lt个卷积层的输入;同样地,编码器第2层与解码器第Lt-2层连接,作为解码器第Lt-1层的输入,按照这样方式进行跨层连接;
(c)U-NetL与U-NetH的连接
将U-NetL输出的掩模图像结合U-NetH子结构2的输出,一并输入到U-NetH子结构3中,以实现U-NetL与U-NetH的连接;
步骤5:神经网络的训练
在数据集SC和SN各随机取2000幅图像,构成4000幅混合图像,将该数据集划分为训练数据、评估数据与测试数据:3600、200、200幅图像;其中训练数据用于网络训练,评估数据用于在训练过程中计算评价指标,测试数据用于对训练的网络模型进行性能测试;
步骤6:对输入图像进行目标抠取
对输入图像进行目标抠取,采用网络预测实现,使用训练得到的网络模型,在自然图像数据集上进行图像抠取结果的预测。预测过程同样分为两个步骤,首先通过低分辨率子网络进行预测,随后通过高分辨率子网络预测得到最终前景抠图的结果。
实验过程中,网络的实现细节与使用的重要超参数如下:卷积层采用Glorot均匀分布进行卷积核初始化。所有进行了Batch Normalization的卷积层不启用偏置项,其余层的偏置项初始化全置0。Batch Normalization层,β项初始化全置为0,γ初始化全置为1,动量系数momentum全置为0.99。Dropout层Dropout率置为0.5。优化器采用Nadam优化器,各超参数取默认值。每批次样本数每批次的样本数取8。
图1为前景与背景进行合成得到的合成图像,用于数据集的构建。图1的每组数据中,左侧为合成的结果,右侧图像为其掩模结果。图2为本发明实施例前景目标的抠图结果,图2的每组数据中,左侧为输入的自然图像源数据,右侧为利用本发明算法抠取的结果,从抠取结果可以看出,抠取目标的边缘具有一定的细节。
本实施例在数据集上进行了网络训练。训练过程使用小批量梯度下降方法,共进行了500轮训练,每轮训练用时约为400秒。图3记录了每轮训练中训练数据与评估数据的交并比损失评价的结果,图3展示了数据集训练过程中损失函数的变化趋势。从图3中可以看出,训练数据的交并比指标随训练过程稳定上升,在训练临近结束时已接近收敛极限,几乎不再变化。这证明使用了交并比损失的训练过程能够准确快速地沿损失函数下降的方向进行,训练的收敛速度较快。同时,在训练过程中,评估数据的交并比指标也保持了与训练数据相近的水平,表明训练得到的网络具有较好的泛化能力,训练过程中未出现过拟合问题。

Claims (1)

1.一种基于深度学习的图像目标抠取方法,其特征在于,该方法输入图像分辨率为Nt×Nt,其Nt为224、448或者896,具体包括以下步骤:
步骤1:构建合成图像集SC
(a)前景图像数据集的构建
从pngimg.com网站收集N张png格式的前景图像,其中20000≤N≤30000,要包含人物、动物、前景物体各种类别;从其中筛选前景图像Nc张,3810≤Nc≤N,要求所述筛选前景图像必须是拍摄得到的自然图像,并保持类别数种;
利用选出的Nc张图像构建前景图像数据集SF
Figure FDA0003070378170000011
其中
Figure FDA0003070378170000012
是其中的第k+1张图像;
(b)背景图像数据集构建
从SUN2012数据集筛选NB张背景图像,2182≤NB≤5000,构建背景图像集合
Figure FDA0003070378170000013
Figure FDA0003070378170000014
是其中的背景图像,要求其不包含前景物体,并且要确保选取的背景图像类别要涵盖SUN2012的各个种类;
(c)合成图像:在[0,NB-1]之间生成随机的背景图像序号RB,从背景图像集合SB中按照RB取出随机的背景图像
Figure FDA0003070378170000015
再在[0,Nc-1]之间生成1个随机的前景图像序号RF,从前景图像集合SF中按照RF取出随机前景图像
Figure FDA0003070378170000016
(2)叠加图像,对于
Figure FDA0003070378170000017
的裁剪或缩放处理:如果
Figure FDA0003070378170000018
的水平或垂直尺度小于Nt,通过图像缩放功能将
Figure FDA0003070378170000019
图像在该维度分辨率放大到Nt;否则,如果水平或垂直尺度大于Nt,那么在
Figure FDA00030703781700000110
空域范围内,随机裁剪出分辨率为Nt×Nt的背景块,记为
Figure FDA00030703781700000111
产生前景图像缩放因子s∈[0.7,1.0],将
Figure FDA00030703781700000112
缩放到新的分辨率s*Nt×s*Nt,结果记为
Figure FDA00030703781700000113
再将
Figure FDA00030703781700000114
覆盖到
Figure FDA00030703781700000115
上,两幅图像中心对齐,覆盖合成后得到前景与背景的叠加图像IS;利用
Figure FDA00030703781700000116
的第4通道信息进行生成掩模,第4通道如果为透明状态时,标记为0,表示背景区域像素;当第4通道为非透明状态时,标记为1,表示前景区域像素,这样就得到前景掩模图像IM;利用IS和IM创建一个4通道的图像Iin作为网络的输入数据;
进一步按照上述方法生成NF组数据,其中3162≤NF≤10000;
步骤2:构建自然图像数据集SN
利用数据集MSRA10k,筛选出具有明确前景物体目标的自然图像NS张,其中2017≤NS≤10000,并将它们缩放为Nt×Nt分辨率,并构建自然图像数据集SN
步骤3:利用SC和SN构建训练数据集ST
利用SC和SN的并集构建ST,ST=SC∪SN
步骤4:构建神经网络
神经网络的整体结构由低分辨率子网络U-NetL和高分辨率子网络U-NetH相连接构成;
(a)U-NetL的结构
将Iin进行下采样得到分辨率(Nt/2)×(Nt/2)的图像,进一步构建形状为(Nt/2)×(Nt/2)×3的张量,作为U-NetL的输入,U-NetL输出为掩模图像,张量形状为(Nt/2)×(Nt/2)×1;
U-NetL基于U-Net构建,在U-Net的Lt层卷积神经网络架构基础,去掉头尾两个子结构,编码器及解码器均采用Lt-1个子结构,如果Nt为224,Lt为5;如果Nt为448,Lt为6;如果Nt为896,Lt为7;
编码器除Lt-1个子结构,额外附加的一个卷积层构成,每个子结构包含两个卷积层与一个最大池化层;卷积层均采用3×3的卷积核,卷积步长为1,每个卷积层的输出均进行批归一化处理,使用Leaky Relu函数进行激活,最大池化层的池化窗口大小为2×2;Lt-1个子结构中,第1个子结构的两个卷积层中卷积核个数都是64,输出特征图尺度为56×56;后面各层子结构卷积核个数增加一倍,输出特征图尺度减少一半,最后通过额外附加的卷积层编码,通道数为1024;
解码器由Lt-1个子结构和一个额外附加的卷积层构成,每个子结构都包含一个上采样层与2个卷积层,每个子结构中卷积层的卷积核个数相同,上采样层的采样窗口大小为2×2;解码器子结构中,第1个子结构的两个卷积层中卷积核个数都是512,输出特征图尺度为14×14;后面各层子结构的卷积核个数减半,输出特征图尺度增加一倍;通过Lt-1个子结构,将编码器输出的特征图尺度还原至(Nt/2)×(Nt/2),通道数为64;
在编码器和解码器之后使用一个卷积层Le,Le采用1×1的1个卷积核,该卷积输出端连接一个Sigmoid激活层,获取为0至1之间的浮点数输出,最后得到(Nt/2)×(Nt/2)×1的低分辨率的掩模输出图像;
编码器与解码器之间进行跨层连接,即每个编码器中的卷积层都与解码器中相同尺寸的卷积层进行逐通道连接,并作为下一层卷积层的输入:即编码器第1层与解码器第Lt-2层输入特征图连接,作为解码器第Lt-1个卷积层的输入;同样地,编码器第2层与解码器第Lt-3层连接,作为解码器第Lt-2层的输入,按照此方式进行跨层连接;
(b)U-NetH的结构
U-NetH输入张量形状为(Nt/2)×(Nt/2)×3,输出为抠取的结果图像,张量形状为Nt×Nt×3;
U-NetH基于U-Net的卷积神经网络构建,编码器及解码器均Lt层:编码器由Lt个子结构相继连接,编码器的最后一个子结构连接一个附加的卷积层;对于初始图像作卷积前边界填补零处理,第1个子结构中卷积核个数为32,输出特征图尺度为(Nt/2)×(Nt/2);后面各层子结构卷积核个数增加一倍,输出特征图尺度减少一半,最后加上额外的卷积层,得到来自1024个核的特征,通道数为1024;
解码器同样由Lt个子结构和一个额外附加的卷积层构成,将编码器输出的特征图,逐步还原至Nt×Nt的尺度:第1个子结构中卷积核个数为1024,输出特征图尺度为14×14;后面各层子结构卷积核个数减少,输出特征图分辨率增加一倍,第Lt子结构中卷积核个数为64,输出特征图尺度为Nt×Nt,最后使用一个卷积层生成最终的网络输出,该卷积层采用1个1×1的卷积核,得到形状为Nt×Nt的特征图像;在解码器的输出端连接一个Sigmoid激活层,确保输出0至1之间的浮点数,最后得到Nt×Nt×1的输出图像;
编码器与解码器之间进行跨层连接,即每个编码器中的卷积层与解码器中相同尺寸的卷积层进行逐通道连接,并作为下一卷积层的输入:即编码器第1层与解码器第Lt-1层输入特征图连接,作为解码器第Lt个卷积层的输入;同样地,编码器第2层与解码器第Lt-2层连接,作为解码器第Lt-1层的输入,按照这样方式进行跨层连接;
(c)U-NetL与U-NetH的连接
将U-NetL输出的掩模图像结合U-NetH子结构2的输出,一并输入到U-NetH子结构3中,以实现U-NetL与U-NetH的连接;
步骤5:神经网络的训练
在数据集SC和SN各随机取2000幅图像,构成4000幅混合图像数据集,将该混合图像数据集划分为训练数据、评估数据与测试数据:3600、200、200幅图像;其中训练数据用于网络训练,评估数据用于在训练过程中计算评价指标,测试数据用于对训练的网络模型进行性能测试;
在网络训练阶段中,将构建的训练数据作为网络训练的输入,首先训练U-NetL,训练完毕后,将U-NetL的输出加入U-NetH的对应特征图中,再进行U-NetH的训练;
U-NetL与U-NetH训练时,均采用如下交并比损失函数进行控制:
Figure FDA0003070378170000031
Yt表示网络输出的掩模图像中第t个像素的通道数据,Gt表示目标图像的第t个像素掩模的真实值;H表示图像中像素的个数,U-NetL训练时,H为(Nt/2)×(Nt/2),U-NetH训练时,H为Nt×Nt
步骤6:对输入图像进行目标抠取
使用训练得到的网络模型,在自然图像数据集上进行图像抠取结果的预测;预测过程分为低分辨率预测和高分辨率预测,最终得到前景抠图的结果。
CN201810649490.6A 2018-06-22 2018-06-22 一种基于深度学习的图像目标抠取方法 Active CN109035267B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810649490.6A CN109035267B (zh) 2018-06-22 2018-06-22 一种基于深度学习的图像目标抠取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810649490.6A CN109035267B (zh) 2018-06-22 2018-06-22 一种基于深度学习的图像目标抠取方法

Publications (2)

Publication Number Publication Date
CN109035267A CN109035267A (zh) 2018-12-18
CN109035267B true CN109035267B (zh) 2021-07-27

Family

ID=64610272

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810649490.6A Active CN109035267B (zh) 2018-06-22 2018-06-22 一种基于深度学习的图像目标抠取方法

Country Status (1)

Country Link
CN (1) CN109035267B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919080B (zh) * 2019-03-05 2019-10-11 南京航空航天大学 多解码器全卷积神经网络及其相应的细观结构识别方法
CN110188598B (zh) * 2019-04-13 2022-07-05 大连理工大学 一种基于MobileNet-v2的实时手部姿态估计方法
CN110400323B (zh) * 2019-07-30 2020-11-24 上海艾麒信息科技股份有限公司 一种自动抠图系统、方法以及装置
CN110956681B (zh) * 2019-11-08 2023-06-30 浙江工业大学 一种结合卷积网络和邻域相似性的人像背景自动替换方法
CN111161277B (zh) * 2019-12-12 2023-04-18 中山大学 一种基于深度学习的自然图像抠图方法
CN112261415B (zh) * 2020-10-23 2022-04-08 青海民族大学 基于过拟合卷积自编码网络的图像压缩编码方法
WO2022155974A1 (zh) * 2021-01-25 2022-07-28 Oppo广东移动通信有限公司 视频编解码以及模型训练方法与装置
CN115063732B (zh) * 2022-08-16 2022-11-11 之江实验室 基于双流多分辨率综合建模的动作视频分类方法和系统

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4513871B2 (ja) * 2008-02-15 2010-07-28 ソニー株式会社 画像処理方法、画像処理プログラムおよび画像処理装置
TWI815295B (zh) * 2010-04-13 2023-09-11 美商Ge影像壓縮有限公司 樣本區域合併技術
CN105046714A (zh) * 2015-08-18 2015-11-11 浙江大学 一种非监督的基于超像素和目标发现机制的图像分割方法
JP6553987B2 (ja) * 2015-08-25 2019-07-31 株式会社コーエーテクモゲームス ゲームプログラム及び記録媒体
CN106446930B (zh) * 2016-06-28 2019-11-22 沈阳工业大学 基于深层卷积神经网络的机器人工作场景识别方法
CN106570851B (zh) * 2016-10-27 2019-06-28 大连理工大学 一种基于加权分配d-s证据理论的显著图融合方法
CN106529486A (zh) * 2016-11-18 2017-03-22 深圳市唯特视科技有限公司 一种基于三维形变人脸模型的种族识别方法
CN107341470B (zh) * 2017-07-03 2020-10-16 国网浙江省电力公司信息通信分公司 一种基于航拍图像的输电线检测方法
CN107885764B (zh) * 2017-09-21 2020-12-18 银江股份有限公司 基于多任务深度学习快速哈希车辆检索方法
CN107945204B (zh) * 2017-10-27 2021-06-25 西安电子科技大学 一种基于生成对抗网络的像素级人像抠图方法
CN107945185B (zh) * 2017-11-29 2020-02-07 北京工商大学 基于宽残差金字塔池化网络的图像分割方法及系统
CN108052977B (zh) * 2017-12-15 2021-09-14 福建师范大学 基于轻量级神经网络的乳腺钼靶图像深度学习分类方法

Also Published As

Publication number Publication date
CN109035267A (zh) 2018-12-18

Similar Documents

Publication Publication Date Title
CN109035267B (zh) 一种基于深度学习的图像目标抠取方法
Li et al. Hyperspectral image super-resolution by band attention through adversarial learning
CN110443842B (zh) 基于视角融合的深度图预测方法
CN110020989B (zh) 一种基于深度学习的深度图像超分辨率重建方法
CN112836773B (zh) 一种基于全局注意力残差网络的高光谱图像分类方法
CN111612807B (zh) 一种基于尺度和边缘信息的小目标图像分割方法
CN113159051B (zh) 一种基于边缘解耦的遥感图像轻量化语义分割方法
CN112183360A (zh) 高分辨率遥感影像的轻量化语义分割方法
Lin et al. Hyperspectral image denoising via matrix factorization and deep prior regularization
CN109064396A (zh) 一种基于深度成分学习网络的单幅图像超分辨率重建方法
CN110889852A (zh) 基于残差-注意力深度神经网络的肝脏分割方法
CN110706214B (zh) 融合条件随机与残差的三维U-Net大脑肿瘤分割方法
Zhu et al. Stacked U-shape networks with channel-wise attention for image super-resolution
Ji et al. ColorFormer: Image colorization via color memory assisted hybrid-attention transformer
Liu et al. An efficient unfolding network with disentangled spatial-spectral representation for hyperspectral image super-resolution
Hu et al. Hyperspectral image super resolution based on multiscale feature fusion and aggregation network with 3-D convolution
CN110633706B (zh) 一种基于金字塔网络的语义分割方法
CN116935043A (zh) 一种基于多任务生成对抗网络的典型地物遥感图像生成方法
CN113379606B (zh) 一种基于预训练生成模型的人脸超分辨方法
Zhang et al. Dense haze removal based on dynamic collaborative inference learning for remote sensing images
Zhang et al. Embarrassingly simple binarization for deep single imagery super-resolution networks
CN116433548A (zh) 一种基于多级信息提取的高光谱与全色图像融合方法
CN113344110A (zh) 一种基于超分辨率重建的模糊图像分类方法
Xu et al. AS 3 ITransUNet: Spatial-Spectral Interactive Transformer U-Net with Alternating Sampling for Hyperspectral Image Super-Resolution
Liu et al. Fusionmlp: A Mlp-Based Unified Image Fusion Framework

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant