CN108648197A

CN108648197A - 一种基于图像背景掩膜的目标候选区域提取方法

Info

Publication number: CN108648197A
Application number: CN201810325376.8A
Authority: CN
Inventors: 侯春萍; 莫晓蕾; 杨阳; 管岱; 夏晗
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2018-04-12
Filing date: 2018-04-12
Publication date: 2018-10-12
Anticipated expiration: 2038-04-12
Also published as: CN108648197B

Abstract

本发明涉及一种基于图像背景掩膜的目标候选区域提取方法，包括下列步骤：(1)构建图像背景掩模数据集；(2)搭建GAN模型，采用训练GAN的方式为图像增加背景掩膜；(3)定义损失函数：为在处理图像中高频的结构信息细节部分的同时，使生成的图片和训练的目标图片尽量相似，将损失函数定义为GAN的目标函数与合成图像的一范数距离损失的结合；(4)模型训练。

Description

一种基于图像背景掩膜的目标候选区域提取方法

技术领域

本发明属于目标检测与深度学习领域，涉及一种基于图像掩膜思想的，应用生成式对抗网络模型完成自然图像中目标候选区域提取的方法。

背景技术

目标候选区域的提取即在图像中找出目标物体可能存在的区域，属目标检测范畴。传统的目标检测方法通常使用滑动窗口方式，这种遍历整幅图像的区域选择策略没有针对性，时间复杂度高，窗口冗余。而区域提名在此基础上，通过利用图像中的纹理、边缘、颜色等信息可以预先找出图像中目标物体有可能出现的位置。常用的区域提名算法是选择性搜索算法。

卷积神经网络受视觉系统的结构启发而产生，是一种为了处理二维输入数据而特殊设计的多层人工神经网络。其学习能力极强，不需要知道输入和输出之间的精确数学表达式，只需用已知的模式训练卷积神经网络，就可以使网络具有输入与输出之间的映射能力^[1]。

得益于卷积神经网络和区域提名算法的发展，目标检测任务逐渐由传统方法向深度学习方法转变。 2015年，任少卿等人改进了提候选区域方法，提出了候选区域网络(Region Proposal Network,RPN)以代替选择性搜索算法，可以直接利用神经网络对图像中的候选区域进行捕获。RPN引入空间金字塔池化层的映射机制，在最终的卷积特征层上利用9种不同大小、不同纵横比的矩形包围框进行候选区域提名，再配合边框回归，得到与目标接近的候选框^[2]。

图像背景掩膜，即令目标所在区域与原图相同，而该区域外的值都设为0或者都为灰度值。这种图像掩膜的方式相当于屏蔽了背景区域，完成了目标候选区域的提取，把目标可能存在的位置(候选区域)尽可能地突出显示了出来。这种目标候选区域提取方法十分直观，关键是找到为图像合理增加背景掩膜的方法。

近年来，生成式对抗网络(Generative Adversarial Networks,GAN)被广泛地应用到图像转换、图像处理等领域，是深度学习算法中的一种新型的网络，通过由卷积神经网络构建的生成网络和判别网络进行对抗式的交替训练，最终达到动态平衡。生成模型有助于生成相关数据，提高数据数量，从而利用半监督学习提升学习效率。而判别模型可以判断样本的真实度，通过不断迭代完成自我优化，使得生成样本越来越接近真实样本。这种网络适用于完成图片翻译的工作。

不同于传统的基于滑动窗口的选择性搜索算法，以及使用RPN进行候选区域提取的方法，本发明基于背景掩膜的思想，应用GAN对自然图像增加背景掩膜以完成目标候选区域的提取。

[1]刘建伟，刘媛，罗雄麟.深度学习研究进展[J].计算机应用研究，2014，31(7)：1921-1930.

[2]Ren S,He K,Girshick R et al.Faster R-CNN:Towards real-time objectdetection with region proposal networks[J].IEEE Transactions on PatternAnalysis and Machine Intelligence，2017，39(6)：1137-1149.

发明内容

本发明的目的是提供一种可以提高目标检测率的目标候选区域提取方法。本发明应用卷积神经网络，基于背景掩膜的思想，提出一种利用GAN模型的自然图像候选区域提取方法。技术方案如下：

一种基于图像背景掩膜的目标候选区域提取方法，包括下列步骤：

(1)构建图像背景掩模数据集

选取原始图像及一一对应的标签构建图像背景掩模数据集，标签指明了所有物体的位置，将一一对应的原始图像与灰度掩膜图像或黑色掩膜图像水平拼接成一张图片，并将数据集分为含训练图像对的训练集和含测试图像对的测试集；

(2)搭建GAN模型，采用训练GAN的方式为图像增加背景掩膜

GAN模型由生成模型和判别模型组成，构建生成模型使其学习到从输入图像以及随机噪声向量到输出图像的映射，判别模型通过鉴别其输入是否为真正的图像即非生成图来约束生成器，使生成模型的输出结果更接近所需的背景掩模图像；生成模型采用全卷积结构，整个网络由包含八层的编码器和包含八层的解码器组成，采用编码器-解码器架构，编码模块与解码模块的对应层之间加入了跳跃链接，使得对应的特征图能够按通道连接起来，在多次下采样过程中保留不同分辨率下像素级的细节信息；采用分块判别器的结构，具有不同大小的感受野，以提升生成图像高频部分的质量，最后一层的卷积层使用Sigmoid函数，其特征图被映射到一个一维的输出，表示背景掩模图像正确的概率；

(3)定义损失函数

为在处理图像中高频的结构信息细节部分的同时，使生成的图片和训练的目标图片尽量相似，将损失函数定义为GAN的目标函数与合成图像的一范数距离损失的结合；

(4)模型训练

将步骤(1)中得到的训练集，每次随机选择一副图像对，即原始图像与基于标签的背景掩模图像的图像对，送入网络进行训练，首先固定生成模型，更新判别模型的网络权重，然后固定判别模型，将判别模型的判别结果回传至生成模型，更新生成模型的权重，如此反复，固定一方更行另一方的权重交替迭代，直到双方达到一个动态平衡，此时判别模型无法区分出哪一张是生成模型产生的合成图，可以认为生成模型产生了足够近似标签的背景掩模图像。

本发明不同于使用选择性搜索算法RPN进行候选区域提取的方法，本发明采用生成式对抗网络的模型，通过对自然图像中的背景加上掩膜的方式完成对目标候选区域的提取，在PADCAL VOC数据集上进行网络训练以及效果评估。由于在目前的目标检测方法中，RPN网络大多与其后接的分类网络协同交替训练，而这种方法不需要依赖RPN网络即可完成目标候选区域的提取，仅需训练GAN完成图片翻译的工作，较为直观便捷。与此同时，利用这种对背景加上的掩膜的方法完成对目标候选区域的粗略提取，可视为一个图像预处理过程，可以在此基础上在进行完整的目标检测工作，达到提高目标检测率的效果。

附图说明

图1带有跳跃连接的生成模型网络结构图

图2 70×70感受野大小的判别模型网络结构图

图3目标候选区域提取效果图

具体实施方式

不同于传统的选择性搜索算法等基于滑动窗口的候选区域提取算法，以及对同一个目标提出多个候选框的候选区域网络，本发明采用训练GAN的方式。通过交替训练生成模型和判别模型使其优化，最终由原始自然图像直接生成背景掩膜图像。将背景进行黑色或灰度掩膜而目标所在区域保持原始像素不变，相当于目标所在区域在一幅黑色的图像或一张灰度图像上，有突出的色彩及结构信息，那么就相当于完成了自然图像中目标候选区域的提取工作。

为使本发明的技术方案更加清楚，下面对本发明具体实施方式做进一步地描述。如图1所示，本发明按以下步骤具体实现：

1.构建基于PASCAL VOC 2007的图像背景掩模数据集

本实验选用PASCAL VOC 2007数据集进行模型的训练与测试。PASCAL VOC 2007数据集共包含9963 张自然图像，包括交通工具中的飞机、自行车、汽车、火车、轿车、摩托车和船，室内家具中的瓶子、椅子、餐桌、盆栽植物、沙发和显示器，动物中的鸟、猫、牛、马、狗和羊，以及人类共20个类别的物体。 9963张自然图像分别对应9963份标签文件，以上20类物体的位置均在标签文件中给出了位置及类别，即标签指明了所有物体的位置。将数据集分为含5011张训练图像的训练集和含4952张测试图像的测试集。

本实验采用一种图像掩膜的思想，对图像中的背景分别进行了灰度掩膜，黑色掩膜两种掩膜方式的处理。首先将训练集及测试集中的所有图像分别转化为3通道的灰度图像，或将图像中的每一个像素置为(0， 0，0)即黑色。然后读取相应标签文件中目标物体的位置信息，对于一张图像中有目标存在的矩形区域，令其RGB像素值与原始图像保持不变。如此即得到了基于标签文件的灰度背景掩膜以及黑色背景掩膜两种掩膜方式的训练图像各5011张、测试图像各4952张。

将一一对应的原始图像与灰度掩膜图像水平拼接成一张图片，最后得到5011对训练图像和4952对测试图像作为灰度背景掩模数据集。将一一对应的原始图像与黑色掩膜图像水平拼接成一张图片，最后得到 5011对训练图像和4952对测试图像作为黑色背景掩模数据集。

2.搭建GAN模型

本发明采用训练GAN的方式为图像增加背景掩膜，GAN模型由生成模型和判别模型组成。生成模型的目的是通过合成“假”图像来“欺骗”判别模型，使判别模型无法区分出真实图像与合成图像。构建生成模型使其学习到从输入图像以及随机噪声向量到输出图像的映射。判别模型类似于普通的卷积神经网络分类模型，通过鉴别其输入是否为真正的图像(即非生成图)来约束生成器，使生成模型的输出结果更接近所需的背景掩模图像。

本发明的生成模型采用全卷积结构，网络架构如图1所示，图中括号内的数字中表示该卷积层卷积核的个数。整个网络由包含八层的编码器和包含八层的解码器组成，所有的卷积核大小均为4×4，步长设置为2。上采样和降采样的比例因数均为2，即卷积层对特征图像边长缩小一半，反卷积层对特征图像边长放大为一倍。在传统的编码器-解码器架构的基础上，本发明于编码模块与解码模块的对应层(具有同样大小的特征图的层)之间加入了跳跃链接。跳跃链接的加入使得对应的特征图能够按通道连接起来，因此能够保留不同分辨率下像素级的细节信息。解码器最后一层的卷积层使用Tanh函数，其特征图被映射为三通道的输出图像。

本发明中生成模型和判别模型使用的卷积层大多为卷积层后接批量归一化层(BatchNorm)与非线性运算激活单元(Rectified Linear Units，ReLu)形式的结构。将Dropout层将Dropout率设置为50％。采用的ReLU为LeakyReLu激活函数，其斜率系数设置为0.2。

不同于传统的GAN判别网络，本发明采用分块判别器的结构，如图2所示，实验表明取70×70大小的感受野效果最好。图中括号内的数字中表示该卷积层卷积核的个数。其最后一层的卷积层使用Sigmoid 函数，其特征图被映射到一个一维的输出，表示背景掩模图像正确的概率。实验证明，这种分块判别网络的结构，能够显著提升生成图像高频部分的质量。

3.定义损失函数

在这种有条件的GAN中，判别模型也需要观察输入图像，为实现生成模型与判别模型的对抗训练达到优化，将GAN的目标函数表达为以下公式，其中，x为输入图像，y为输出图像，z为随机噪声向量。 E表示求期望，G函数和D函数分别表示生成网络的输出图像和判别网络的输出结果。

L_cGAN(G,D)＝E_x,y[logD(x,y)]+E_x,z[log(1-D(x,G(x,z))]

传统的欧拉距离选用一范数距离L1，这样相对于二范数距离L2来说生成的模糊更少。

L_L1(G)＝E_x,y,z[||y-G(x,z)||₁]

本发明为结合二者的优点，将损失函数定义为GAN的目标函数与一范数距离的结合。一范数距离损失的加入可以让生成的图片和训练的目标图片尽量相似，而图像中高频的结构信息等细节部分则交由GAN 来处理。在训练GAN的过程中，生成模型的目的是使该目标函数最小化，而判别模型要使其最大化，

G^*＝arg min_Gmax_DL_cGAN(G,D)+λL_L1(G)

4.模型训练

将步骤1中得到的数据集，每次随机选择一副图像对，即原始图像与基于标签的背景掩模图像的图像对，送入网络进行训练。训练过程中将分批处理大小设置为1，即每次训练一张图像。

首先，在训练的过程中固定生成模型，更新判别模型的网络权重以增加其鉴别、分类能力。判别器的训练就是是对生成器生成的图片进行分类，输入生成模型产生的合成图与基于标签文件的背景掩模图像的图像对，判别模型要尽可能地识别出非真实(合成)的图像。

然后，固定判别模型，生成模型产生一张背景掩膜图像合成图，该合成图与基于标签文件的背景掩模图像再在判别器中进行区分，将判别模型的判别结果即生成图的误差回传至生成模型，更新生成模型权重，使其生成更接近基于标签的背景掩模图像的合成图。

接下来，再固定生成模型，进行判别器训练。将生成的背景掩模图像按70×70大小的块，与基于标签的背景掩模图像块相比较进行训练，分别判别生成图像各块的图像是否为真实图像，再取各块响应的平均值作为判别模型的最终输出。再固定判别模型，更新生成模型的权重。

如此反复，固定一方更行另一方的权重交替迭代，直到双方达到一个动态平衡。此时判别模型无法区分出哪一张是生成模型产生的合成图，可以认为生成模型产生了足够近似标签的背景掩模图像。

生成模型经过与判别模型的反复对抗训练，努力生成与基于标签的背景掩膜图像相似的背景掩膜图像，即目标所在区域与原图相同，而该区域外的值都为0或者都为灰度的形式。这种图像掩膜的方式相当于屏蔽了背景区域，完成了目标候选区域的提取，把目标可能存在的位置(候选区域)尽可能地突出显示了出来。

整个实验在pytorch的深度学习框架下进行，实验环境为Ubuntu14.04操作系统，利用NVIDIA公司 12GB显存的GTX TITAN X GPU进行网络的训练并利用cuda进行训练的加速。训练完基于灰度背景掩膜和黑色背景掩模的数据集各需要大约22小时左右。

5.模型测试与效果评估

训练完成后，将测试集的图像输入进训练好的生成模型中，得到网络预测出的背景掩膜图像。为比较灰度掩膜和黑色掩膜这两种背景掩膜方法对于提取目标候选区域的性能影响，本发明基于1所述的数据集，对比了使用两种掩膜方法训练GAN生成的背景掩模图像的效果，直观的展示如图3所示。其中real_A表示自然图像，fake_B为生成网络产生的背景掩膜图像，real_B表示基于标签的背景掩膜图像。

从主观视觉上分析，本发明的方法采用的两种掩膜方式都能实现对背景的掩膜，以及对目标区域达到较好的保留效果。相交于黑色背景掩模来说，由于灰度背景掩模这种方式只损失了背景的RGB色彩信息而保留了其结构信息，基于灰度背景掩模生成出来的图像目标区域更为完整。

Claims

1.一种基于图像背景掩膜的目标候选区域提取方法，包括下列步骤：

(1)构建图像背景掩模数据集

(2)搭建GAN模型，采用训练GAN的方式为图像增加背景掩膜

(3)定义损失函数

(4)模型训练