CN109977922A

CN109977922A - 一种基于生成对抗网络的行人掩模生成方法

Info

Publication number: CN109977922A
Application number: CN201910289844.5A
Authority: CN
Inventors: 匡平; 顾小丰; 李小芳; 王豪爽; 吴宇伦
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-04-11
Filing date: 2019-04-11
Publication date: 2019-07-05

Abstract

本发明公开了一种基于生成对抗网络的行人掩模生成方法，方法包括：将图片和噪声向量输入到生成器中，生成器生成掩模，判别器通过对生成器生成的掩模进行判别，判别不通过则将结果反馈到生成器中，生成器继续学习生成最佳掩模。本发明证明了该模型使用较少的训练图像数据，不但极大地缩短了生成掩模的时间，而且能够生成具有更精细化的二元人体掩模。

Description

一种基于生成对抗网络的行人掩模生成方法

技术领域

本发明涉及图像生成领域，尤其涉及一种对行人图像掩模的生成方法。

背景技术

行人重识别(ReID)是计算机视觉中一项重要且具有挑战性的任务，由于受到相机视角、光线、遮挡物的影响，得到的行人图像中会出现背景杂乱、身体姿势变化的问题，如何从这些背景中提取出精细的人体区域远未得到解决。

处理背景杂乱的一种解决方案是通过分割来获得人体区域，随着基于深度学习的图像分割方法的快速发展，包括全卷积神经网络(FCN)、Mask R-CNN和大规模人体分割数据集的构建，我们现在可以获得人物二元身体掩模(Mask)。但是这些方法得到的结果还是不够精细，上采样的结果还是比较模糊和平滑，对图像中的细节不敏感。

错误分割的掩模可能包含大量背景或丢失一些重要的身体部位，也会影响图像的结构化信息和平滑度，这些都将极大地影响行人重识别的性能。生成对抗网络(GAN)在图片生成方面取得了巨大成功，特别是pix2pix网络的出现，直接能将图像翻译成图像，即能够得到一种十分精细的图像，这些都为解决如何提取出精细化的二元人体掩模提供了很好的帮助。

发明内容

为解决上述技术问题，本发明采用的一个技术方案是：

一种基于生成对抗网络的行人掩模生成方法，基于pix2pix网络，利用了U-Net的思想，构建了基于pix2pix的行人掩模生成方法，在Market-1501数据集上训练和测试，并在cuhk数据集上直接测试，并且取得了更加精细化的二元人体掩模，其特征在于：包括如下步骤：

生成对抗网络的行人掩模生成模型，主要分为生成网络和判别网络，生成网络输入原图和噪声向量，生成行人二元人体掩模Mask；

生成网络使用U-Net网络结构，加入了跳跃连接，对应的特征图和解码之后的同样大小的特征图按通道拼接在一起，用来保留不同分辨率下像素级的细节信息；

解码器的上采样层先对编码器的最后一层进行上采样，再对该层进行步长为1的卷积操作，接着对来自编码器的倒数第二层进行拼接，形成跳跃连接。解码器的后面每一层都进行这样的处理，最后一层依然使用上采样，最后输出图像时使用tanh()激活函数；

让判别器对图像的每个大小为N×N的区块做真假判别即可，最后将图片的所有patch结果取平均，来作为最终的判别器输出。

优选地，所述生成网络的U-Net网络包含编码器和解码器两个部分，编码器和解码器各自有7个模块。

优选地，输入的图片大小为256*256*3，为了减少后续的运算量，加速收敛。

优选地，所输入的图片需进行归一化预处理，保证所有的维度上数据都在一个变化幅度上。

优选地，所述编码器每个模块包含一个卷积层Conv2D和批标准化层BN，激活函数使用LeakyReLU()函数进行激活。

优选地，所述解码器每个模块自定义了一个反卷积层deconv2d，反卷积层包含一个上采样UpSampling2D层和步长为1的卷积层Conv2D，卷积层Conv2D使用ReLU()激活函数。

优选地，所述的判别网络使用PatchGan。

优选地，目标图片函数使用传统的L1损失函数和生成对抗网络的目标函数，L1损失函数能让生成的图片和训练的图片尽量相似，用生成对抗网络的目标函数可以实现图片的具体细节，L1的目标函数可以表示为：

L1＝W_x，y，z[||y-G(x，z)||₁]

式中，G(x,z)表示生成的图像，y表示真实的图像，L1表示真实图像和生成的图像之间的信息重建过程。

优选地，总的目标函数表示为：

L＝argmin max{E_x，y[logD(x，y)]+E_x，z[log(1-D(x，G(x，z))]}+λL1

式中，前一个部分是条件生成对抗网络的目标函数，生成网络G不断尝试减小该目标函数，判别网络通过不断地迭代去最大化该目标函数；结合L1损失函数，可以重建图像的低频信息，更好地保留图像的高频信息，生成我们想要的图像。

优选地，所述生成网络中的编码器第一层卷积核数量gf和判别网络的第一层的卷积核数量df均设置为64，epoch设置为3-5。。

本发明的有益效果是：本发明分析了当前生成对抗神经网络，生成网络使用U-Net，通过设计合理的网络层与结构，提出了一种基于生成对抗网络的行人掩模生成方法，在Market-1501数据集上训练和测试，并直接在cuhk数据集上进行测试，均生成了比之前更加精细化的二元人体掩模。

附图说明

图1是行人掩模生成网络基本架构图。

图2是生成网络结构图。

图3是该网络和Mask rcnn网络的结果对比图。

具体实施方式

下面将结合本发明实施例及附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明基于pix2pix网络，生成器利用了U-Net的思想，我们构建了一种基于pix2pix的行人掩模生成方法，在Market-1501数据集上训练和测试，并在cuhk数据集上直接测试，训练的收敛速度更快、时间和参数更少，并且取得了更加精细化的二元人体掩模。

本实施例提供一种基于生成对抗网络的行人掩模生成方法，该网络包括生成器和判别器，原来的行人图片和噪声向量输入到生成器中，生成器生成粗糙的二元人体掩模Mask；原来的行人图片和二元人体掩模Mask(生成的和真实的)图像对输入到判别器中，判别器进行判别；生成器和判别器之间进行博弈，最终产生精细化的结果。

具体地，如图1所示，所述的网络包括生成网络和判别网络，生成网络负责图片的生成，鉴别网络负责图片对的鉴别。

我们选取Market-1501数据集进行训练，训练集输入12000张256*256*3的行人图片，并且输入对应的12000张256*256*1的初始Mask行人图片，该初始Mask行人图片来自当前效果最好的Mask Rcnn网络生成的二元人体掩模图片，其中，某些图片由于技术等原因，造成了初始的二元人体掩模的部分缺失。验证集输入900张256*256*3的行人图片，并且输入对应的900张256*256*1的初始Mask行人图片。训练集和验证集之间的图片没有重叠的部分。

首先对G进行预训练，再对D进行训练，最后训练G。所述的预训练G，epoch取1，预训练的目的主要是产生一系列负样本，即产生一些初始的粗糙的二元人体掩模。所述的训练D，是将预训练后产生的负样本对和正样本对输入到判别网络中，对判别器进行训练，训练的次数K取10。所述的训练G，是固定住上一步中训练后的D，训练一次G。总的epoch设置为5即可产生很好的效果。

所述的预训练G和训练G，目的都是生成一张图片，由生成网络来完成该步骤。输入一张原行人图片和一个100维的噪声向量z，得到一个初始的粗糙的Mask结果G₀(x,z)。

该步骤将原图片通过编码器进行编码，编码器一共有7个模块，每个模块包含一个卷积层Conv2D和批标准化层BN，激活函数使用LeakyReLU()函数进行激活，卷积核依次设置为64*4*4、128*4*4、256*4*4、512*4*4、512*4*4、512*4*4、512*4*4，步长设置为2。

如图2所示，编码器编码完之后，每一层都得到一个特征图，每一层的特征图都会输入到解码器中的对应层，编码器的层i和解码器的层n-i之间添加跳跃连接，其中n是层的总数，这里的n设置为7，每个跳跃连接简单地将第i层的所有通道与第n-i层的通道连接起来。

解码器一共有7个模块，每个模块自定义了一个反卷积层deconv2d，该自定义反卷积层包含一个上采样UpSampling2D层和卷积层Conv2D，卷积层Conv2D使用ReLU()激活函数，卷积核依次设置为512*4*4、512*4*4、512*4*4、512*4*4、256*4*4、128*4*4、64*4*4，步长设置为1。解码器的最后一层依然使用上采样，最后输出图像时使用tanh()激活函数。

生成网络G的损失函数最常使用log(1-D(x))，但是我们发现，在D(x)取值接近0时，函数就会变得十分平滑，梯度将会非常小。这就造成了在训练初期的速度非常慢，所以我们把G的loss function修改为：

式中，m表示有m个样本，i表示从第一个样本到第m个样本。该损失函数的优势是在D(x)接近0的时候，梯度很大，有利于训练，在D(x)越来越大之后，梯度减小，符合实验中的规律，并且可以提高训练速度。

一方面，我们使用上面的生成网络的目标函数，可以实现图片的具体细节，另一方面，我们使用传统的L1损失函数，能让生成的图片和训练的图片尽量相似，实现图片的低频信息的重建工作，L1的目标函数可以表示为：

L1＝W_x，y，z[||y-G(x，z)||₁]

经过生成网络的生成图片步骤之后，就进入到了判别网络对图片进行鉴别判断。所述的判别网络使用PatchGan，使用PatchGan的好处是不需要将整张图片输入到判别器中，这样输入的图像维度大大降低，使用的参数量更少，运算速度也会加快。具体做法是让判别器对图像的每个大小为N x N的patch做真假判别即可，最后将图片的所有patch结果取平均，来作为最终的判别器输出。

通过调整不同patch的大小，实验发现当patch设置为256/2⁴，即为16*16能达到最佳的效果，其中256是图片的长度或者高度。判别网络的损失函数可以表示为：

进一步地，总的目标函数表示为：

L＝argmin max{E_x，y[logD(x，y)]+E_x，z[log(1-D(x，G(x，z))]}+λL1

式中，λ取值为0.3。前一个部分是条件生成对抗网络的目标函数，生成网络G不断尝试减小该目标函数，判别网络通过不断地迭代去最大化该目标函数；结合L1损失函数，可以重建图像的低频信息，更好地保留图像的高频信息，生成我们想要的图像，生成的结果对比图如图3所示

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于生成对抗网络的行人掩模生成方法，基于pix2pix网络，利用了U-Net的思想，构建了基于pix2pix的行人掩模生成方法，在Market-1501数据集上训练和测试，并在cuhk数据集上直接测试，并且取得了更加精细化的二元人体掩模，其特征在于：包括如下步骤：

2.根据权利要求1所述的基于生成对抗网络的行人掩模生成方法，其特征在于：所述生成网络的U-Net网络包含编码器和解码器两个部分，编码器和解码器各自有7个模块。

3.根据权利要求1所述的基于生成对抗网络的行人掩模生成方法，其特征在于：输入的图片大小为256*256*3，为了减少后续的运算量，加速收敛。

4.根据权利要求1所述的基于生成对抗网络的行人掩模生成方法，其特征在于：所输入的图片需进行归一化预处理，保证所有的维度上数据都在一个变化幅度上。

5.根据权利要求1所述的基于生成对抗网络的行人掩模生成方法，其特征在于：所述编码器每个模块包含一个卷积层Conv2D和批标准化层BN，激活函数使用LeakyReLU()函数进行激活。

6.根据权利要求1所述的基于生成对抗网络的行人掩模生成方法，其特征在于：所述解码器每个模块自定义了一个反卷积层deconv2d，反卷积层包含一个上采样UpSampling2D层和步长为1的卷积层Conv2D，卷积层Conv2D使用ReLU()激活函数。

7.根据权利要求1所述的基于生成对抗网络的行人掩模生成方法，其特征在于：所述的判别网络使用PatchGan。

8.根据权利要求1所述的基于生成对抗网络的行人掩模生成方法，其特征在于：目标图片函数使用传统的L1损失函数和生成对抗网络的目标函数，L1损失函数能让生成的图片和训练的图片尽量相似，用生成对抗网络的目标函数可以实现图片的具体细节，L1的目标函数可以表示为：

L1＝E_x，y，z[||y-G(x，y)||₁]

9.根据权利要求8所述的基于生成对抗网络的行人掩模生成方法，其特征在于：总的目标函数表示为：

L＝arg min max{E_x，y[log D(x，y)]+E_x，z[log(1-(x，G(x，z))]}+λL1

10.根据权利要求1所述的基于生成对抗网络的行人掩模生成方法，其特征在于：所述生成网络中的编码器第一层卷积核数量gf和判别网络的第一层的卷积核数量df均设置为64，epoch设置为3-5。