CN110929679A

CN110929679A - 一种基于gan的无监督自适应行人重识别方法

Info

Publication number: CN110929679A
Application number: CN201911234544.3A
Authority: CN
Inventors: 殷海兵; 郑声晟; 章天杰; 黄晓峰
Original assignee: Hangzhou Electronic Science and Technology University
Current assignee: Hangzhou Electronic Science and Technology University
Priority date: 2019-12-05
Filing date: 2019-12-05
Publication date: 2020-03-27
Anticipated expiration: 2039-12-05
Also published as: CN110929679B

Abstract

本发明公开了一种基于GAN的无监督自适应行人重识别方法，包括如下步骤：步骤一，源域训练，在带有标签的源数据集上预训练CNN模型，通过采用批量归一化、一个全连接层、Adam优化器代替SGD，共同作用来训练CNN模型，解决了在源数据集上预训练CNN模型基线性能不足的问题；步骤二，自训练，采用所述预训练的CNN模型提取无标签目标数据集的特征，通过聚类获得伪标签，通过GAN来调整所述聚类，通过所述聚类获得的伪标签训练所述CNN模型。

Description

一种基于GAN的无监督自适应行人重识别方法

技术领域

本发明涉及智能监控领域，尤其是涉及了一种基于GAN(Generative AdversarialNetworks，生成式对抗网络)的无监督自适应行人重识别方法。

背景技术

随着城市人口的不断增长和视频监控系统的大量普及，社会公共安全问题越来越受到人们的重视。为了增强摄像头网络的安防水平，行人重识别技术在人员检索上也得到了广泛关注。行人重识别，也称行人再识别，是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。当前行人重识别方法主要通过基于特定场景下大量带标签的视频图像数据训练出一个稳定可靠的模型，但是这类监督学习方法忽略了在实际应用中系统对新场景的适应性，并且依赖于大量带标签的行人数据，而标签工作往往需要耗费大量的人力和物力，不利于系统的部署。此外由于行人图像都存在光照变化，视角姿势变化与遮挡等诸多挑战，仅仅利用无标签的数据进行无监督学习也难以达到令人满意的性能。

近年来，随着迁移学习研究的深入和发展，通过迁移学习算法思想，将在带标签源数据集上训练所得的网络模型应用到无标签目标数据集的学习任务中，从而实现了较高的识别准确率。但当前迁移学习主要解决不同数据域存在共同类别的问题，行人重识别在不同场景往往不存在相同的行人，故难以直接应用于解决行人重识别问题。因此如何利用旧场景的带标签行人数据以及新场景下的无标签行人数据进行迁移学习，从而实现在新场景下的高识别准确率是目前亟待解决的问题。

该方法提出了一种适用于无监督域自适应重识别(Re-identification，reID)任务的新型自训练方案，分为源域训练和自训练两部分。首先进行源域训练，即在带有标签的源数据集上预训练CNN(Convolutional Neural Networks，卷积神经网络)模型，或称特征提取器。然后进行自训练，采用预训练的CNN模型提取无标签目标数据集的特征并聚类猜测目标数据，最后基于聚类得到的伪标签来训练CNN模型。但是该方法会导致识别准确率不高的缺陷有两点，一是在源数据集上预训练CNN模型基线性能不足，二是在自训练聚类猜测目标数据标签的过程中聚类的效果不佳导致reID识别准确率较低。

发明内容

为解决现有技术的不足，实现更高识别准确率的目的，本发明采用如下的技术方案：

一种基于GAN的无监督自适应行人重识别方法，包括如下步骤：

步骤一，源域训练，在带有标签的源数据集上预训练CNN模型，包括如下步骤：

(1)将待识别的行人图片输入所述CNN模型的骨干网络中；

(2)将所述骨干网络中最后一个全局池化层产生的全局池化特征输入到批量归一化层中生成最终的特征表示；批量归一化可以提供更稳定的梯度，这减轻了对预训练模型的不必要干扰，在实验中，批量归一化通常会有更快的收敛速度和更好的性能。

(3)使用一个全连接层，对所述最终的特征表示执行行人的ID分类；传统的方法有两个全连接层，删除第一个全连接层以提高最终效果，同时，由于减少了第一个全连接层，在softmax损失的梯度可以直接返回到卷积层，有利于减轻过度拟合的问题，以确保测试性能；

(4)通过softmax对所属全连接层的分类结果进行归一化处理；

步骤二，自训练，采用所述预训练的CNN模型提取无标签目标数据集的特征，通过聚类获得伪标签，通过所述伪标签训练所述CNN模型，包括如下步骤：

(1)利用在源域上训练好的所述CNN模型提取无标签目标数据集的特征，获得大小为m_t×m_t的矩阵M，其中M_ij＝||x_i-x_j||²为矩阵中x_i和x_j之间的距离，m_t表示M矩阵的大小，其值为所述目标数据集图片总数，x_i、x_j表示矩阵M中的元素，源数据集与目标数据集之间的距离矩阵表示为：

d(x_i,x_j)＝(1-λ)d_J(x_i,x_j)+λ(d_W(x_i)+d_W(x_j))

所述λ∈[0,1]表示平衡参数，所述N_S(x_i)表示源数据集S与x_i最近的元素；

(2)采用DBSCAN(Density-Based Spatial Clustering of Applications withNoise，具有噪声的基于密度的聚类方法)进行聚类，获得伪标签；

D＝DBSCAN(M_ST,τ,n)

所述D表示数据，包括图片及其伪标签，所述τ为半径，其取值为所述M_ST内前1.6‰元素的平均值，所述n为密度阈值；

(3)通过所述聚类获得的伪标签训练所述CNN模型。

所述步骤一，还包括(5)采用Adam优化器来训练所述CNN模型；Adam是基于低阶矩的自适应估计的优化算法，它使梯度变化更平滑的同时，减轻了对预先训练的所述CNN模型的不必要的干扰，防止了过度拟合；

所述Adam优化器的参数如下：

所述t表示时间步长，所述g_t表示t时刻的梯度，所述

表示求f_t关于θ的梯度，所述f表示目标函数，Θ_t表示更新的参数，所述m_t表示一阶矩的估计，即mean均值，所诉v_t表示二阶矩的估计，即variance方差，所述

表示对mean进行校正后的mean，所述

表示t时刻的β₁，所述

表示对variance进行校正后的variance，所述

表示t时刻的β₂，所述α表示学习率，所述β₁、β₂和ε是超参数。

所述超参数设置为β₁＝0.9，β₂＝0.999，ε＝10^-8。

通过采用批量归一化、一个全连接层、Adam优化器，共同作用来训练CNN模型，解决了在源数据集上预训练CNN模型基线性能不足的问题。

所述步骤二，还包括(3)通过GAN来调整所述聚类，通过所述聚类获得的伪标签训练所述CNN模型，解决了在自训练聚类猜测目标数据标签的过程中聚类的效果不佳，导致reID识别准确率较低的问题；包括如下步骤：

(a)训练阶段，根据所述聚类结果，对所述类中的各个不同ID的行人图片数量进行统计；取出每个类中相同ID行人图片数量最多的行人相应的图片，并计算人体关键点生成热图；挑选质量合格的图片进行同一ID行人不同姿势的图片随机配对训练所述GAN；

所述GAN包括生成模型G(Generator)和判别模型D(Discriminator)，在所述训练过程中，所述生成模型根据原图片和目标图片不断生成出样本图片，将所述目标图片和所述样本图片输送到判别模型中，所述判别模型在所述目标图片和所述样本图片中，识别出目标图片；所述生成模型最大化所述判别模型出错的概率，这样就形成了互相博弈的过程，公式如下：

所述

和所述

分别是求最小和求最大的运算符号，所述L_GAN表示所述GAN的损失函数，所述

和所述

分别是取期望的运算符号，所述D(x)表示对原图片的判断，所述G(z)表示生成的样本图片，所述D(G(z))表示对样本图片的判断，所述x表示原图片，所述z表示原图片和目标图片，所述P_data(x)和所述P_z(z)分别是所述x的分布和高斯分布z～N(0,1)；

在所述训练过程中，分别使用公式L_D＝-L_GAN和L_G＝L_GAN迭代更新所述生成模型G和所述判别模型D的参数；所述L_D表示判别模型D的损失函数，所述L_G表示生成模型G的损失函数；

(b)生成阶段，从所述训练阶段选定一组规范姿势，利用训练好的所述GAN将目标数据集图片生成对应规范姿势的图片，将所述生成对应规范姿势的图片与所述目标数据集图片一起放入所述自训练的聚类中；

(c)调整阶段，根据所述自训练聚类结果，找出每一个类中，图片数量最多的行人身份ID，若某一ID的行人图片数量占比最多的类存在多个，则进行聚类调整，将调整后的结果作为所述伪标签放入所述自训练中对所述目标数据集进行训练。所述聚类调整，以生成的规范姿势图片为纽带，将同一ID图片错分的多个类重新合并成一个类。

所述步骤(a)，所述质量合格的图片，是指所述人体关键点存在一半以上的图片。

所述步骤(b)，所述一组规范姿势，至少有四个以上，且不同角度的姿势。

本发明的优势和有益效果在于：

本法明通过调整在源数据集上预训练CNN模型基线可以提高模型识别准确率，在原有框架上提高了2％的性能；通过生成式对抗网络GAN调整聚类，解决了在自训练聚类猜测目标数据标签的过程中，由于姿势不同或摄像头角度变化导致的聚类效果不佳，进而导致重识别reID的识别准确率较低的问题，在调整后的框架上，可以提高11％的识别准确率。

附图说明

图1是本发明中CNN模型基线主要技术流程图。

图2是本发明中调整聚类的流程图。

图3是本发明中因姿势的不同错将同一ID的行人分成两类的示意图。

图4是本发明中规范姿势示意图。

具体实施方式

以下结合附图和具体实施例对本发明作具体的介绍。

(1)将待识别的行人图片输入所述CNN模型的骨干网络中，CNN模型采用Resnet50网络；

(2)将所述骨干网络中最后一个全局池化层产生的全局池化特征输入到批量归一化层中生成最终的特征表示，即图1中的IDs；由于Resnet是在较大数据集(例如ImageNet)进行训练所得，为防止将该模型直接应用于较小数据集(例如reID数据集)所造成高方差、低偏差的过拟合问题，需要对Resnet模型进行微调；常见的方法是使用Dropout，但在训练过程中，Dropout会随机丢弃隐藏神经元的输出，如图1所示，本发明采用在全局特征池层之后执行批量归一化，与Dropout相比，批量归一化可以提供更稳定的梯度，这减轻了对预训练模型的不必要干扰，在实验中，批量归一化通常会有更快的收敛速度和更好的性能。

(3)使用一个全连接层，对所述最终的特征表示执行行人的ID分类；传统的方法有两个全连接层，第一个全连接层起到“瓶颈”的作用，以进行特征维数的减小，而第二个全连接层执行人的ID分类，由于第一个全连接层起到的“瓶颈”作用实质上会导致最终效果的下降，因此，删除第一个全连接层以提高最终效果，同时，由于减少了第一个全连接层，在softmax损失的梯度可以直接返回到卷积层，有利于减轻过度拟合的问题，以确保测试性能；

(4)通过softmax对所属全连接层的分类结果进行归一化处理；

(5)采用Adam优化器来训练所述CNN模型；传统的行人重新识别技术选择随机梯度下降(Stochastic Gradient Descent，SGD)来训练CNN模型，与SGD相比，Adam是基于低阶矩的自适应估计的优化算法，它使梯度变化更平滑的同时，减轻了对预先训练的所述CNN模型的不必要的干扰，防止了过度拟合。

所述Adam优化器的参数如下：

所述t表示时间步长，所述g_t表示t时刻的梯度，所述

表示对mean进行校正后的mean，所述

表示t时刻的β₁，所述

表示对variance进行校正后的variance，所述

所述超参数设置为β₁＝0.9，β₂＝0.999，ε＝10^-8。

通过采用批量归一化、一个全连接层、Adam优化器代替SGD，共同作用来训练CNN模型，解决了在源数据集上预训练CNN模型基线性能不足的问题。

步骤二，自训练，采用所述预训练的CNN模型提取无标签目标数据集的特征，通过聚类获得伪标签，即聚类猜测目标数据标签，通过GAN来调整所述聚类，通过所述聚类获得的伪标签训练所述CNN模型，包括如下步骤：

d(x_i,x_j)＝(1-λ)d_J(x_i,x_j)+λ(d_W(x_i)+d_W(x_j))

所述λ∈[0,1]表示平衡参数，所述N_S(x_i)表示源数据集S与x_i最近的元素；源数据集和目标数据集都是行人图片，实验中源数据集用的是Martket1501数据集，目标数据集用的是DukeMTMC-reID数据集；

(2)采用DBSCAN进行聚类，获得伪标签；所述聚类方法是将具有足够密度的区域划分为类，在具有噪声的空间数据库中发现任意形状的类，并将类定义为密度相连的点的最大集合；

D＝DBSCAN(M_ST,τ,n)

但是，在聚类时，由于行人姿势不同或摄像头角度不同等原因，常常将同一ID的行人图片错分为多个类，如图3所示。在实验中，虽然聚类结果显示将目标图片数据集(dukemtmc训练集)分为1009个类，即使与实际ID数702个较为接近，但是根据公式：

得到的兰德系数(Rand Index，RI)仅为43.96％，其中TP为真阳性，TN为真阴性，FP为假阳性，FN为假阴性。因此，针对这一问题，通过GAN网络来调整聚类。

(3)通过GAN来调整所述聚类，通过所述聚类获得的伪标签训练所述CNN模型，解决了在自训练聚类猜测目标数据标签的过程中聚类的效果不佳，导致reID识别准确率较低的问题；包括如下步骤：

(a)训练阶段，根据所述聚类结果，对所述1009个类中的各个不同ID的行人图片数量进行统计；取出每个类中相同ID行人图片数量最多的行人相应的图片，并计算人体关键点生成热图；挑选质量合格的图片进行同一ID行人不同姿势的图片随机配对训练所述GAN；所述质量合格的图片，是指所述人体关键点存在一半以上的图片。

所述GAN包括生成模型G(Generator)和判别模型D(Discriminator)，在所述训练过程中，所述生成模型根据原图片和目标图片不断生成出样本图片，将所述目标图片和所述样本图片输送到判别模型中，所述判别模型在所述目标图片和所述样本图片中，尽可能识别出目标图片；所述生成模型最大化所述判别模型出错的概率，这样就形成了互相博弈的过程，公式如下：

所述

和所述

和所述

在所述训练过程中，分别使用公式L_D＝-L_GAN和L_G＝L_GAN迭代更新所述生成模型G和所述判别模型D的参数；所述L_D表示判别器D的损失函数，所述L_G表示生成器G的损失函数；

(b)生成阶段，从所述训练阶段选定一组规范姿势，利用训练好的所述GAN将目标数据集图片生成对应规范姿势的图片，将所述生成对应规范姿势的图片与所述目标数据集图片一起放入所述自训练的聚类中；所述一组规范姿势，至少有四个以上，且不同角度的姿势。如图4所示，这里选取了前后左右四个方向的姿势作为规范姿势，也可以选择8个，每45°选取一个姿势，理论上越多效果越好。

(c)调整阶段，根据所述自训练聚类结果，找出每一个类中，图片数量最多的行人身份ID，若某一ID的行人图片数量占比最多的类存在多个，则进行聚类调整，将调整后的结果作为所述伪标签放入所述自训练中对所述目标数据集进行训练。所述聚类调整，以生成的规范姿势图片为纽带，将同一ID图片错分的多个类重新合并成一个类；例如，某个ID的行人图片数量占比最多的类有两个，分别称为类1和类2，如果在类1中存在由类2里目标数据集图片生成的规范姿势图片，或者在类2中存在由类1里目标数据集图片生成的规范姿势图片，则将类1和类2合并成一类。