CN112613411B

CN112613411B - 基于生成对抗网络的行人重识别数据集姿态数据增广方法

Info

Publication number: CN112613411B
Application number: CN202011559996.1A
Authority: CN
Inventors: 陈浩锟; 龚小谨
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2022-05-27
Anticipated expiration: 2040-12-25
Also published as: CN112613411A

Abstract

本发明公开了一种基于生成对抗网络的行人重识别数据集姿态数据增广方法。图像采集并标注获得训练集，建立包含生成对抗网络和姿态分类器的网络；训练所构建的生成对抗网络和姿态分类器；构建虚拟数据集，构建编码器，使用虚拟数据集训练所构建的编码器；将虚拟数据集经线性SVM算法处理后获得超平面的法向量；训练结束后，对于任意需要进行姿态数据增广的目标场景的待测图片，利用编码器、生成对抗网络和法向量共同进行姿态数据的增广。本发明无需行人图片的类别信息，只需要行人图像的姿态信息，调整图中人物的姿态，在行人重识别数据集中行人类别缺失的情况下进行姿态变换，有着较好的数据增广能力。

Description

基于生成对抗网络的行人重识别数据集姿态数据增广方法

技术领域

本发明属于计算机视觉技术领域的一种图像数据增广方法，尤其是涉及一种基于生成对抗网络的行人重识别数据集姿态数据增广方法。

背景技术

行人重识别人物的目的是在短时间大规模场景中快速定位某一个行人的轨迹。由于行人重识别大规模应用于自动驾驶、视频监控、安防等方面，近几年这一任务吸引了工业界和学术界的广泛关注和研究。

在行人重识别任务中，由于行人数据获取的难度大、标注代价高，行人重识别数据集的丰富程度和规模一直制约着行人重识别的效果。为了缓解这一问题，许多针对行人重识别数据集的增广方法被提出，其中人物的姿态的数据增广获得了广泛的关注。

如Qian X等人发表在《Proceedings of the European conference on computervision》的《Pose-normalized image generation for person re-identification》以及Liu J等人发表在《Proceedings of the IEEE Conference on Computer Vision andPattern Recognition》的《Pose transferrable person re-identification》都是行之有效地针对人物姿态信息进行数据增广的方法。

现有的针对人物姿态信息进行数据增广的方法依赖于人物的类别，而人物的类别恰恰是行人数据集中获取难度最高的一类信息。

发明内容

为了解决针对人物姿态信息进行数据增广的方法依赖于人物的类别的问题，本发明提供了一种基于生成对抗网络的行人重识别数据集姿态数据增广方法，以生成对抗网络来承担数据增广的工作，利用线性SVM算法和生成对抗网络可解释性原理发掘生成对抗网络中蕴含的仅影响人物姿态的超平面；利用编码器将现实场景的图片转换为高维向量，再利用超平面对向量进行插补，以获取一系列向量。这一系列向量能够被生成对抗网络解码为行人图片，所表现出的就是人物的姿态发生了改变，而人物的类别信息不变。

本发明是针对只有姿态信息的针对人物姿态进行增广的行人重识别数据集增广方法。

本发明的技术方案如下：

(1)对需要进行姿态数据增广的目标场景进行图像的采集，并标注图像中的姿态类别，获得训练集，建立包含生成对抗网络和姿态分类器的网络；

(2)基于步骤(1)中建立的训练集，训练所构建的生成对抗网络，训练过程使用自适应动量估计算法(Adam)；

(3)基于步骤(1)中建立的训练集，训练所构建的姿态分类器，训练过程使用自适应动量估计算法(Adam)；

(4)使用步骤(2)中训练得到的生成对抗网络中的生成器和步骤(3)中得到的姿态分类器，构建虚拟数据集，虚拟数据集包括随机采样的高斯向量、用高斯向量经生成对抗网络处理获得的图片以及用图片经姿态分类器处理获得的图片对应的姿态类别；

(5)构建编码器，使用步骤(4)中得到的虚拟数据集，训练所构建的编码器，训练过程使用自适应动量估计算法(Adam)；

(6)将步骤(4)得到的虚拟数据集经线性SVM算法处理后获得超平面的法向量；

(7)训练结束后，对于任意需要进行姿态数据增广的目标场景的待测图片，利用编码器、生成对抗网络和法向量共同进行姿态数据的增广。

所述的待测图片为带有目标对象的图像，例如可以为行人图片。

所述步骤(1)中，进行标注时，只需标注图像所含目标的姿态类别，无需标注目标类别。

所述步骤(1)中，生成对抗网络包含了相互独立的生成器和判别器，生成器接收随机生成的高斯向量作为输入，输出初始RGB图片；判别器接收生成器输出的初始RGB图片或训练集，输出初始RGB图片或训练集各自的真假标签，真假标签是指输入判别器的图片是否是来自训练集的结果标签，若是，则为真，反之则为假；

姿态分类器包括分类卷积网络结构和连续两层全连接层，在分类卷积网络结构的输出端依次串联两层全连接层，分类卷积网络结构接收生成器输出的初始RGB图片，输出姿态标签。

具体实施中，生成对抗网络选择采用StyleGAN，StyleGAN包含了生成器和判别器，姿态分类器的分类卷积网络结构选择采用ResNet-18。

生成对抗网络中，将生成对抗网络中的生成器的随机噪声输入尺寸修改为4×2，并将生成器的最大步长参数固定为6，使生成器的最终输出图片的尺寸为256×128；判别器不修改。

生成器接收512维的向量作为输入，512维的向量为随机生成的高斯向量，输出尺寸为256×128的RGB图片；判别器接收训练集或生成器输出256×128的RGB图片，输出两个输入各自的真假标签。

姿态分类器中，接收尺寸为256×128的RGB图片作为输入，输出1维向量作为姿态标签。

所述的生成对抗网络和姿态分类器在步骤(2)前均采用ImageNet数据集预先训练，姿态分类器中的分类卷积网络结构以ImageNet数据集训练后的网络参数作为初始值，两层全连接层的参数初始化为标准差为0.01的正态分布。

所述的姿态标签是指正向背向姿态、侧向姿态的分类标签，侧向姿态又分为左侧向姿态和右侧侧向姿态。

所述步骤(3)中，姿态分类器训练时设置以下损失函数：

Loss＝-y_i log(x_i)-(1-y_i)log(1-x_i)

其中，img_i为来自步骤(1)中构建的训练集的任意图像，y_i为第i幅图像img_i的真实姿态标签，img_i表示训练集中的第i幅图像，f_view为步骤(3)中所构建的姿态分类器，x_i表示第i幅图像img_i的预测姿态标签；

整个姿态分类器的训练通过自适应动量估计算法优化损失函数进行。

所述步骤(4)中，

(4.1)利用生成对抗网络生成虚拟图片：以步骤(2)中训练得到的生成对抗网络作为工具；以随机生成采样自均值为0、方差为1的正态分布的一个高斯向量输入到生成对抗网络的生成器中，输出获得一幅初始RGB图片，初始RGB图片作为行人虚拟图片，由高斯向量和对应的初始RGB图片组成高斯向量-图片对；

(4.2)利用姿态分类器标注虚拟数据集：以步骤(3)中训练得到的姿态分类器作为工具，将高斯向量-图片对中的初始RGB图片输入姿态分类器，输出对应的姿态标签，由高斯向量和对应的初始RGB图片、姿态标签组成高斯向量-图片-姿态对；

(4.3)重复(4.1)过程N次，获取N组向量-图片对和N组高斯向量-图片-姿态对，以N组高斯向量-图片-姿态对作为虚拟数据集。

所述步骤(5)中，

(5.1)构建编码器，编码器包含了编码卷积网络结构和连续两层全连接层，在编码卷积网络结构的输出端依次串联两层全连接层，编码器输入训练集，输出生成器输出的初始RGB图片、512维向量；编码器实现了逆向生成对抗网络中的生成器的功能。

所述的编码器事先也采用ImageNet数据集预先训练，编码卷积网络结构以ImageNet数据集训练后的网络参数作为初始值，两层全连接层的参数初始化为标准差为0.01的正态分布。

具体实施中，编码器接收生成对抗网络的生成器输出的尺寸为256×128的RGB图片作为输入，输出512维向量。

(5.2)训练编码器，以步骤(4)中所构建的虚拟数据集作为编码器的训练数据，编码器的损失函数设置为：

其中，x_i为虚拟数据集中第i幅图像通过编码器的输出，y_i为虚拟数据集中第i幅图像对应的高斯向量，i表示虚拟数据集中图像的序号。

整个编码器的训练通过自适应动量估计算法优化该损失函数进行。

所述步骤(6)中，以虚拟数据集中的高斯向量和姿态标签作为输入，使用线性SVM算法处理获得超平面的法向量。其中线性SVM算法的惩罚系数C设置为1，停止误差tol设置为0.001。

所述步骤(7)中，

(7.1)将待测图片经过编码器处理获得512维的高斯中间向量，将高斯中间向量作为生成对抗网络的生成器输入，生成对抗网络的生成器能获取尺寸为256×128的中间RGB图片，并建立以下损失函数优化高斯中间向量：

Loss＝0.01×L_per+L_pix

其中，vgg表示经ImageNet数据集训练后的vgg-16神经网络中的relu3-3层的输出，relu3-3层的输出指的是vgg-16网络的第10个卷积层后附属的relu层的输出；img表示待测图片；img_g表示生成对抗网络的生成器的输出；C_p,H_p,W_p分别表示vgg-16神经网络中的relu3-3层输出的特征图的通道数、高度和宽度；C,H,W分别表示待测图片的通道数、高度和宽度，其中C＝3；

(7.2)使用法向量进行姿态增广：以步骤(6)获得超平面的法向量乘以系数S加上(7.1)获得的优化后的高斯中间向量，获得新向量；

新向量为一系列向量，这一些列向量经过生成对抗网络后即可获得该人物的姿态变换，姿态变换的程度和系数相关。

(7.3)将新向量再作为生成对抗网络的生成器输入，输出获得最终的用于待测图片扩增的新姿态图片。

通过调整(7.2)中的系数S进而调整最终(7.3)新姿态图片中的姿态。不同姿态变化随着系数S的变化，呈现图片中目标对象的不同姿态变化，进而实现了新姿态图片中的不同姿态的实时生成。

本发明具有以下优点：

1、所依赖的数据集无需人物的类别标签。这一特点大大降低了数据集的获取难度和方法适用的广度。

2、数据增广获得的图像数量不受限制。由于生成对抗网络的特性，可以任意采样均值为0，方差为1的高斯噪声，并将其输入生成对抗网络，便可以获得对应的行人图片。而可以任意采样高斯噪声以获得任意数量的图像数量。

本发明用于行人图片的增广，无需行人图片的类别信息，只需要行人图像的姿态信息，即可调整图中人物的姿态，有着较好的针对行人重识别算法的数据增广能力。利用本方法能在行人重识别数据集中行人类别缺失的情况下进行图中的人物的姿态变换，进而增加数据量。

附图说明

图1是本发明的训练流程示意图；

图2是本发明的应用流程示意图；

图3是本发明的一些姿态变化结果图。

具体实施方式

下面结合附图对本发明进行进一步的说明。

本发明的实施例及其实施过程是：

S01，获取需进行目标检测场景下的图像，人工对所有图像进行图像级别的标注，标注上图像中的行人的姿态标签，构成训练集。

生成对抗网络的基础网络模型选择StyleGAN，姿态分类器的基础模型网络选择ResNet-18；修改StyleGAN的生成器的随机噪声输入尺寸为4×2，并将其最大步长参数固定为6，使其最终输出图片的尺寸为256×128；生成对抗网络接收512维的向量作为输入，输出尺寸为256×128的RGB图片；将ImageNet数据集训练后的ResNet-18网络作为姿态分类器的特征提取部分中卷积层的初始值，另外附加两层全连接层，这两层全连接层参数初始化为标准差为0.01的正态分布；姿态分类器接收尺寸为256×128的RGB图片作为输入，输出1维向量。

S02，使用训练集训练构建的生成对抗网络，其训练过程和参数设置为StyleGAN的默认设置，无任何改变。

S03，使用训练集训练构建的姿态分类器，训练通过自适应动量估计算法优化以下损失函数进行。

Loss＝-y_i log(x_i)-(1-y_i)log(1-x_i)

其中img_i为训练集中的任意图像，y_i为图像img_i的姿态标签，f_view为构建的姿态分类器，其输出经过Sigmoid函数后为0到1之间的一个数，代表了该图片有多大的可能性为正向背向姿态。

S04，构建虚拟数据集，如图1所示，首先随机生成均值为0，方差为1的512维的高斯向量，将该高斯向量输入训练得到的生成对抗网络中，得到一张RGB图片，图片的尺寸为256×128，由于生成对抗网络的功能，该张图片中应当展现了一个行人；将该张图片输入姿态分类器，获得一个输出，该输出代表了该图片有多大的可能性为正向背向姿态，将这个输出视为该张图片的姿态标签。至此，形成了高斯向量-图片-姿态标签的三元组。重复此过程100000次，获取100000组数据，形成虚拟数据集。

S05，编码器的作用为将现实场景的图片映射为一个512维的向量。首先构建编码器，以ImageNet数据集训练后的ResNet-50网络作为编码器的特征提取部分中卷积层的初始值，另外附加两层全连接层，这两层全连接层参数初始化为标准差为0.01的正态分布；编码器接收尺寸为256×128的RGB图片作为输入，输出512维向量。

训练编码器，如图1所示，编码器使用构建的虚拟数据集中的向量和图片进行训练。设定编码器的损失函数设定为

其中x_i为虚拟数据集中图像通过编码器的输出，y_i为虚拟数据集中该图像对应的向量。整个网络的训练通过自适应动量估计算法优化该损失函数进行。

S06，训练线性SVM以获得划分向量空间的超平面，从而获得该超平面的法向量。以虚拟数据集中的向量和姿态标签，使用标准线性SVM训练即可获得法向量。其中线性SVM的惩罚系数C设置为1，停止误差tol设置为0.001.

S07，如图2所示，依赖上述步骤得到的生成对抗网络、编码器、法向量即可对于任意行人图片进行姿态增广。

首先任意获取一张行人的图片，将该图片输入编码器获得输出的512维向量。该向量可大致表征原始图片，但是仍存在误差，需要和生成对抗网络联合训练以去除误差。将该向量视作可优化对象，使用随机梯度下降法优化此向量。损失函数设定为：

Loss＝0.01×L_per+L_pix

其中，vgg表示ImageNet数据集训练后的vgg-16网络的relu3-3的输出；img表示该行人图片；img_g表示生成对抗网络的输出；C_p,H_p,W_p分别表示relu3-3的尺寸；C,H,W分别表示图片的尺寸。

使用法向量进行姿态增广，将法向量乘以系数S，获得的优化后的向量，即可获得新的向量。调整系数S，即可获得一系列向量。将这些向量作为生成对抗网络的输入，可获得一系列新的行人图片。获得新的行人图片随着系数S的变化，呈现该原始行人图片的不同姿态变化。

具体实施中，S分别取-2,-1.5,-1,-0.5,0,0.5,1,1.5,2。

如图3所示为本发明的应用结果。第一列为随机选择的现实图片，第二列起为使用本发明的方法所呈现的该人物在不同的姿态下的图片。可以看到，在没有人物类别标签的情况下，本发明所呈现的方法能够有效地调整行人重识别数据集的姿态，增加行人重识别数据集的广度。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，但并不是用来限制本发明，任何在本发明原则范围内所进行的变动和修改，都应当包含在本发明的保护范围内。

Claims

1.一种基于生成对抗网络的行人重识别数据集姿态数据增广方法，其特征在于，包括如下步骤：

(2)基于步骤(1)中建立的训练集，训练所构建的生成对抗网络；

(3)基于步骤(1)中建立的训练集，训练所构建的姿态分类器；

(5)构建编码器，使用步骤(4)中得到的虚拟数据集，训练所构建的编码器；

2.根据权利要求1中所述的一种基于生成对抗网络的行人重识别数据集姿态数据增广方法，其特征在于：所述步骤(1)中，生成对抗网络包含了相互独立的生成器和判别器，生成器接收随机生成的高斯向量作为输入，输出初始RGB图片；判别器接收生成器输出的初始RGB图片或训练集，输出初始RGB图片或训练集各自的真假标签；姿态分类器包括分类卷积网络结构和连续两层全连接层，在分类卷积网络结构的输出端依次串联两层全连接层，分类卷积网络结构接收生成器输出的初始RGB图片，输出姿态标签。

3.根据权利要求2中所述的一种基于生成对抗网络的行人重识别数据集姿态数据增广方法，其特征在于：所述的生成对抗网络和姿态分类器在步骤(2)前均采用ImageNet数据集预先训练，姿态分类器中的分类卷积网络结构以ImageNet数据集训练后的网络参数作为初始值，两层全连接层的参数初始化为标准差为0.01的正态分布。

4.根据权利要求1中所述的一种基于生成对抗网络的行人重识别数据集姿态数据增广方法，其特征在于：所述步骤(3)中，姿态分类器训练时设置以下损失函数：

Loss＝-y_ilog(x_i)-(1-y_i)log(1-x_i)

5.根据权利要求1中所述的一种基于生成对抗网络的行人重识别数据集姿态数据增广方法，其特征在于：所述步骤(4)中，

(4.1)以步骤(2)中训练得到的生成对抗网络作为工具；以随机生成采样自均值为0、方差为1的正态分布的一个高斯向量输入到生成对抗网络的生成器中，输出获得一幅初始RGB图片，由高斯向量和对应的初始RGB图片组成高斯向量-图片对；

(4.2)以步骤(3)中训练得到的姿态分类器作为工具，将高斯向量-图片对中的初始RGB图片输入姿态分类器，输出对应的姿态标签，由高斯向量和对应的初始RGB图片、姿态标签组成高斯向量-图片-姿态对；

6.根据权利要求1中所述的一种基于生成对抗网络的行人重识别数据集姿态数据增广方法，其特征在于：所述步骤(5)中，

(5.1)构建编码器，编码器包含了编码卷积网络结构和连续两层全连接层，在编码卷积网络结构的输出端依次串联两层全连接层，编码器输入训练集，输出向量；

7.根据权利要求1中所述的一种基于生成对抗网络的行人重识别数据集姿态数据增广方法，其特征在于：所述步骤(6)中，以虚拟数据集中的高斯向量和姿态标签作为输入，使用线性SVM算法处理获得超平面的法向量。

8.根据权利要求1中所述的一种基于生成对抗网络的行人重识别数据集姿态数据增广方法，其特征在于：所述步骤(7)中，

(7.1)将待测图片经过编码器处理获得的高斯中间向量，将高斯中间向量作为生成对抗网络的生成器输入，并建立以下损失函数优化高斯中间向量：

Loss＝0.01XL_per+L_pix

其中，vgg表示经ImageNet数据集训练后的vgg-16神经网络中的relu3-3层的输出，relu3-3层的输出指的是vgg-16网络的第10个卷积层后附属的relu层的输出；img表示待测图片；img_g表示生成对抗网络的生成器的输出；C_p，H_p，W_p分别表示vgg-16神经网络中的relu3-3层输出的特征图的通道数、高度和宽度；C，H，W分别表示待测图片的通道数、高度和宽度，其中C＝3；

9.根据权利要求8中所述的一种基于生成对抗网络的行人重识别数据集姿态数据增广方法，其特征在于：通过调整(7.2)中的系数S进而调整最终(7.3)新姿态图片中的姿态。