CN112801019B

CN112801019B - 基于合成数据消除无监督车辆再识别偏差的方法及系统

Info

Publication number: CN112801019B
Application number: CN202110174945.5A
Authority: CN
Inventors: 黄立勤; 林雷杰; 潘林; 杨明静
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2021-02-09
Filing date: 2021-02-09
Publication date: 2022-07-08
Anticipated expiration: 2041-02-09
Also published as: CN112801019A

Abstract

本发明涉及一种基于合成数据消除无监督车辆再识别偏差的方法及系统，该方法包括以下步骤：S1、通过保持一致性的生成对抗网络SPGAN将合成数据转化为与目标域具有相似风格的伪目标样本，通过伪目标样本对模型进行预训练；S2、通过预训练好的模型进行无监督域自适应或完全无监督任务；S3、通过预先训练好的方向模型和相机模型计算出图像的方向和相机相似度，进而得到最终的车辆相似度用于测试。该方法及系统有利于提高车辆再识别性能，且适应性强。

Description

基于合成数据消除无监督车辆再识别偏差的方法及系统

技术领域

本发明属于车辆再识别技术领域，具体涉及一种基于合成数据消除无监督车辆再识别偏差的方法及系统。

背景技术

随着计算机视觉和物联网的不断发展，促进了智慧城市概念的实现。其中，车辆作为智能城市应用里的重要对象，受到了广泛的关注。由于许多监控摄像机已经安装完毕，车辆再识别可以利用这些摄像机来分析交通场景，而不需要用一些特殊的硬件来替换它们。车辆再识别作为一个前沿和重要的研究课题，指的就是在一个一个特定范围内的交通监控场景下，判断非重叠区域的不同摄像机所拍摄到的车辆图像是否属于同一辆车的检索问题。

与以往的重复图像检索不同，由于不同的摄像机捕捉到的车辆图像受到车辆姿态、视点、光照条件和分辨率的影响，导致同一车辆在不同视角下产生的类内差异(inter-class variability)或不同车辆因型号相同形成的类间相似(intra-class similarity)，这也是车辆再识别任务所面临的两个巨大挑战。具体来说，由于不同方向和遮挡，例如从车的正面和背面分别观察车辆，会导致同一辆车产生较大的类内差异；同时，相同类型、颜色的车辆因为相同的制造过程，使其在视觉上十分相似，造成了较小的类间差异。

相比于以前依赖手工设计特征的传统机器学习方法，利用深度学习在大量的训练数据中自动学习特征，包含上千个参数，节省了手工设计特征的时间，提取出更好的特征。神经网络模型对大规模标注数据具有强大的学习能力，各种监督学习的方法能够显著提升车辆再识别的性能。目前基于监督学习的车辆再识别方法主要集中在对局部特征进行处理，主要包括基于车辆关键点定位提取车辆的局部特征，或结合目标检测模型先检测出车辆的感兴趣区域，然后对相应的区域提取出车辆的局部特征。大多数监督学习的方法都需要额外的人工标注，但是对实际训练图像进行人工标注的代价很高，而且十分容易出错。

尽管基于监督学习的方法取得了很大的进步，但是需要大量的人工注释来训练网络模型，十分耗费时间和精力，并且模型的泛化能力也较差，不能满足实际应用的要求。为此，一些基于无监督的车辆再识别方法应运而生，其又分为无监督域自适应和完全无监督两个方向。无监督域自适应方法需要额外一个具有标签的源域数据集，从而将源域学习到的信息转移到目标域上；而完全无监督方法只用无标签的目标域数据进行训练。

虽然上述的几种主流提取局部区域特征的方法能达到很好的效果，但是可以观察到目前大多数车辆再识别方法都需要对原始数据集上的车辆图像进行标注，如车辆关键点的标注，车辆局部区域的标注，车辆姿态方向的标注等一些额外标注信息，因此需要标注的信息非常多。在现实世界中，很难收集到包含不同角度的车辆图片的数据集，并且图片的数量可以达到几十万张，如果都要对这些图像进行标注，可想而知工作量十分庞大。而且过于依赖标注的模型，其泛化性较差，一旦改变数据，模型就无法正常工作，不适合现实应用。目前对于无监督车辆再识别方法的研究还十分的少，相比于监督学习，无监督面临的挑战更加巨大，如不同数据集之间造成的域间误差以及没有标签下各种视角和不同车辆方向造成的域内误差。且目前大多数方法都集中于无监督域自适应，在完全无监督领域的效果并不好。

发明内容

本发明的目的在于提供一种基于合成数据消除无监督车辆再识别偏差的方法及系统，该方法及系统有利于提高车辆再识别性能，且适应性强。

为实现上述目的，本发明采用的技术方案是：一种基于合成数据消除无监督车辆再识别偏差的方法，包括以下步骤：

S1、通过保持一致性的生成对抗网络SPGAN将合成数据转化为与目标域具有相似风格的伪目标样本，通过伪目标样本对模型进行预训练；

S2、通过预训练好的模型进行无监督域自适应或完全无监督任务；

S3、通过预先训练好的方向模型和相机模型计算出图像的方向和相机相似度，进而得到最终的车辆相似度用于测试。

进一步地，所述步骤S1中，利用SPGAN将合成数据X^h的风格迁移到目标域，生成伪目标样本X^h→t。

进一步地，所述模型采用相互平均教学模型MMT，所述MMT由一对网络Net以及网络的平均模型Mean-Net构成，每个Mean-Net监督另一个Net的训练，训练结束后采用性能更好的那个Mean-Net进行测试；采用的Net为ResNet-50，则所述伪目标样本进行预训练的网络即为ResNet-50；

训练完成之后加载预训练好的参数并通过源域和目标域数据联合进行再次训练，且每个批次输入的目标域和源域数据的数量相等，故设联合数据集X＝X^s∪X^t；设两个网络为

和

而其Mean-Net的参数E[θ]是根据对应Net的参数θ以动量α进行更新，表示为如下公式：

E[θ]＝αE[θ]+(1-α)θ

将两个Mean-Net表示为

和

Mean-Net分别用分类器

和

预测目标域的软伪标签[]，并通过软交叉熵损失来监督另一个Net，软交叉熵损失

表达式为：

其中，x_i和x′_i表示同一张图片经过不同的数据增强模式输入到各自Net和Mean-Net中，I表示联合数据集X的身份数量；除了通过Mean-Net在线生成软伪标签对Net进行优化，Net还利用聚类生成的硬伪标签进行监督，并通过交叉熵损失函数l_ce构成的硬标签损失

进行优化，其表达式为：

因此，MMT的整体损失

进一步地，对通过合成图像训练好的方向模型和相机模型进行后处理，以提升无监督车辆再识别性能，网络模型采用的都是IBN-Net50-a；

取效果较好的一个Mean-Net作为模型进行测试，设车辆图像x_i经过模型生成特征向量f_v(x_i)，则车辆图像x_i，和x_j的距离表示为：

D_v(x_i，x_j)＝||f_v(x_i)-f_v(x_j)||

通过角度将方向分为36个ID，每10度一个ID，再将车辆ID替换为方向ID后，跟之前训练车辆再识别模型的流程一样，利用合成数据训练一个方向模型，使其能够计算出真实数据集中车辆的方向相似度；

用欧氏距离度量车辆间的方向相似度，设车辆图像x_i经过方向模型生成特征向量f_o(x_i)，则车辆图像x_i，和x_j的方向相似度表示为：

D_o(x_i，x_j)＝||f_o(x_i)-f_o(x_j)||

通过相机的ID作为背景变化的可靠标签，用来训练相机模型，通过模型计算图像间的相机相似度；设给定车辆图像x_i，和x_j，且x_i∈C_a，x_j∈C_b，其中C_i表示第i个相机，则图像x_i，和x_j之间的背景相似度就约等于它们的相机相似度D_background(x_i，x_j)＝D_c(x_i，x_j)，设车辆图像x_i经过相机模型生成的特征向量f_c(x_i)相机相似度表示为：

D_c(x_i，x_j)＝||f_c(x_i)-f_c(x_j)||

最后，将Mean-Net、方向模型、相机模型输出的车辆ID相似度、方向相似度、相机相似度进行融合，得到用于测试的最终相似度D(x_i，x_j)，其表达式为：

D(x_i，x_j)＝D_v(x_i，x_j)-λD_o(x_i，x_j)-λD_c(x_i，x_j)

本发明还提供了一种基于合成数据消除无监督车辆再识别偏差的系统，包括存储器、处理器以及存储于存储器上并能够在处理器上运行的计算机程序，当处理器运行该计算机程序时，实现如上所述的方法步骤。

相较于现有技术，本发明具有以下有益效果：本发明首次在车辆再识别领域提出通过合成图像辅助无监督车辆再识别任务，合成图像通过SPGAN生成伪目标样本可以对模型进行预训练，从而提高模型对目标域的适应能力。本发明将源域数据和目标域数据同时进行训练，并且能够在无监督域自适应和完全无监督两个任务上执行，都取得不错的效果。本发明通过合成数据训练的方向模型和相机模型能够进一步提升车辆再识别的无监督方法的性能，并且无需再进行额外训练，通过方向相似度和相机相似度对模型输出的特征进行校正，适用于各种无监督车辆再识别模型和车辆再识别数据集，可移植性强。

附图说明

图1是本发明实施例中车辆再识别方法的流程图。

图2是本发明实施例的方法实现流程图。

图3是本发明实施例中相互平均教学模型图。

图4是本发明实施例中伪目标样本示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在基于无监督的车辆再识别方法中，主要做两个工作：(1)网络结构的选择：通常来说，对于不同的方法，会采用不同的网络结构来提取车辆特征。(2)数据的处理：由于没有标签信息，对数据进行有效的处理是十分重要的，直接关乎到模型性能的好坏。总而言之，如何设计一个网络结构并进行相应的数据处理是目前基于无监督的车辆再识别方法的研究重点。车辆再识别的基本流程如图1所示。

在数据处理方面，本发明在车辆再识别领域中首次通过合成数据集来辅助无监督车辆再识别，并且能同时实现无监督域自适应和完全无监督两个任务。目前的无监督方法，大都在公开的真实数据集上进行，但是这些数据集已经被人工修改过，实际应用中也不能很好的匹配无标签的数据集，所以合理的运用合成数据集能够有效提升无监督车辆再识别的性能。本发明主要通过以下几个方面来充分利用合成数据集：

(1)基于GAN的图像生成：当前基于无监督的再识别算法为了最小化源域和目标域之间的差异，通常会将有标签的源域数据通过GAN网络生成与目标域具有相近风格的图片，从而拉近两个数据间的分布。但是，该方法十分依赖具有标签的源域数据，源数据集的规模和质量也十分影响模型的性能，故不能有效地部署在现实场景中。为了充分利用GAN网络的优势，本发明通过合成数据集来进行风格迁移并将其对模型进行预训练，在不利用具有标签的真实数据集的前提下，也能使得模型大致的适应目标域。

(2)伪目标样本的预训练：以往无监督域自适应的算法通常先通过有标签的源域数据进行预训练，再通过训练好的模型对目标域的图像进行聚类及训练，从而完成跨域任务。但是这么做的缺点在于预训练的时候缺乏目标域的数据，导致模型在早期对目标域数据进行聚类时丢弃了部分个体异常值，从而损害最终的表现。另一方面，如果没有源域数据，模型的效果也会大打折扣。而本发明提出的方法能够使用合成数据生成的伪目标样本来训练模型，使得模型在无监督域自适应和完全无监督两个任务上均表现出较好的结果。

(3)基于合成数据的方向和相机模型：由于无监督任务中没有目标域数据的标签，对于一些特殊场景，如相似方向的车辆或相同视角下造成的相似背景，模型仍然不能准确的区分不同身份的车辆，而这也是无监督车辆再识别性能低下的主要原因。本发明通过合成图像设计了两个网络模型用来学习车辆的方向相似度和背景相似度，以此来减小相似的方向和背景的对模型的干扰。

对于网络模型的选择，如图2所示，本发明所采用的的框架适用于任何网络模型。这里为了进一步提高无监督车辆再识别的性能，我们采用改进后的相互平均教学模型(Mutual Mean-Teaching，MMT)来作为本方法的模型。相比于原本的MMT只使用目标域的数据进行训练并在线生成伪标签，本发明加入了领域特定批标准化(Domain-specificBatchNorms，DSBN)，使得MMT能够在联合训练源域和目标域的数据时减少它们之间的域差距，使得MMT能够利用源域里的有效数据来提升自身的泛化性并为目标域生成更可靠的伪标签。MMT是由一对网络Net以及网络的平均模型Mean-Net构成的，每个Mean-Net通过预测鲁棒性的软标签来监督另一个Net的训练，训练结束后采用性能更好的那个Mean-Net进行测试。

下面结合附图2对本发明的实施过程作进一步的说明，主要分为3个部分：

如图2所示，本发明提供了一种基于合成数据消除无监督车辆再识别偏差的方法，包括以下步骤：

S1、通过保持一致性的生成对抗网络(similaritypreserving GAN，SPGAN)将合成数据转化为与目标域具有相似风格的伪目标样本，通过伪目标样本对模型进行预训练；

根据以上的内容，下面详细说明具体的实施过程。

目前图像生成用的最多的是循环生成对抗网络(Cycle-consistent GenerativeAdversarial，CycleGAN)，由于合成图像与真实图像的外观差异较大，本发明通过使用一个更加适用于车辆再识别的SPGAN来生成图片，SPGAN能够在迁移前后保留车辆图片的ID。利用SPGAN将合成数据X^h的风格迁移到目标域，生成伪目标样本X^h→t，如图4所示。

如图3所示，本发明中MMT所采用的Net为ResNet-50，所以先前伪目标样本进行预训练的神经网络就是ResNet-50，之后再加载预训练好的参数并通过源域和目标域的数据进行再次训练，此时就无需再对Net进行随机初始化，预训练好的Net已经对目标域数据具有一定的适应性，在训练初期能够更好的对目标域样本进行聚类。由于与以往方法不同，本发明是将源域数据和目标域数据联合起来进行训练，且每个批次输入的目标域和源域数据的数量相等，故设联合数据集X＝X^s∪X^t。设两个网络为

和

E[θ]＝αE[θ]+(1-α)θ

其中，α设置为0.999。将两个Mean-Net表示为

和

Mean-Net分别用分类器

和

表达式为：

其中，x_i和x′_i表示同一张图片经过不同的随机翻转、遮挡等数据增强模式输入到各自Net和Mean-Net中，I表示联合数据集X的身份数量；除了通过Mean-Net在线生成软伪标签对Net进行优化，Net还利用聚类生成的硬伪标签进行监督，并通过交叉熵损失函数l_ce构成的硬标签损失

进行优化，其表达式为：

因此，MMT的整体损失

其中，β设为0.5。

接着通过合成图像训练好的方向模型和相机模型进行后处理，能有效提升无监督车辆再识别的性能，网络模型采用的都是IBN-Net50-a。通常车辆再识别模型使用的是车辆的ID作为预测的真实值来优化特征空间中车辆之间的距离，一般通过欧氏距离来判断车辆特征之间的相似度。本发明取效果较好的一个Mean-Net作为模型进行测试，设车辆图像x_i经过模型生成特征向量f_v(x_i)，则车辆图像x_i，和x_j的距离可以表示为：

D_v(x_i，x_j)＝||f_v(x_i)-f_v(x_j)||

但是仅用车辆ID来测试是不够的，本发明可以在无需人工标注的前提下，通过合成图像丰富的标注信息来训练方向模型。具体来说，本发明通过角度将方向分为36个ID(每10度一个ID)，再将车辆ID替换为方向ID后，跟之前训练车辆再识别模型的流程一样，利用合成数据训练一个方向模型，使其能够计算出真实数据集中车辆的方向相似度。由于真实数据集和合成数据集存在一定的差异，直接拿模型并不能精准预测真实数据中车辆的方向，但是通过一个粗略的方向估计就可以减少因方向相同导致的相似度偏差。值得注意的是，在本发明的框架里方向模型的作用不是输出分类结果，而是输出一个方向相似度用于最后的计算。这里也用欧氏距离度量车辆间的方向相似度，设车辆图像x_i经过方向模型生成特征向量f_o(x_i)，则车辆图像x_i，和x_j的方向相似度可以表示为：

D_o(x_i，x_j)＝||f_o(x_i)-f_o(x_j)||

除了方向的相似误差会影响车辆再识别影响外，车辆的背景也会影响车辆再识别模型的性能。再以往监督学习，会通过前景图提取局部特征或者通过额外标注来减少背景的干扰，但这些对无监督任务来说都不适用。由于相机一般都是固定的，同一个相机铺捉到的车辆图片的背景、风格、光照条件都是相似。所以本发明通过相机的ID作为背景变化的可靠标签，用来训练一个相机模型，通过模型可以计算图像间的相机相似度。设给定车辆图像x_i，和x_j，且x_i∈C_a，x_j∈C_b，其中C_i表示第i个相机，则图像x_i，和x_j之间的背景相似度就约等于它们的相机相似度D_background(x_i，x_j)＝D_c(x_i，x_j)，设车辆图像x_i经过相机模型生成特征向量f_c(x_i)相机相似度可以表示为：

D_c(x_i，x_j)＝||f_c(x_i)-f_c(x_j)||

D(x_i，x_j)＝D_v(x_i，x_j)-λD_o(x_i，x_j)-λD_c(x_i，x_j)

本发明还提供了一种基于合成数据消除无监督车辆再识别偏差的系统，包括存储器、处理器以及存储于存储器上并能够在处理器上运行的计算机程序，当处理器运行该计算机程序时，实现如权利要求上述的方法步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于合成数据消除无监督车辆再识别偏差的方法，其特征在于，包括以下步骤：

S1、通过保持一致性的生成对抗网络SPGAN将合成数据转化为与目标域具有相似风格的伪目标样本，通过伪目标样本对车辆再识别模型进行预训练；

S2、通过预训练好的车辆再识别模型进行无监督域自适应或完全无监督任务；

S3、通过预先训练好的方向模型和相机模型计算出图像的方向和相机相似度，进而得到最终的车辆相似度用于测试；

所述步骤S1中，利用SPGAN将合成数据X^h的风格迁移到目标域，生成伪目标样本X^h→t；

所述车辆再识别模型采用相互平均教学模型MMT，所述MMT由一对网络Net以及一对网络的平均模型Mean-Net构成，每个Mean-Net监督另一个Net的训练，训练结束后采用性能更好的那个Mean-Net进行测试；采用的Net为ResNet-50；

和

E[θ]＝αE(θ)+(1-α)θ

将两个Mean-Net表示为

和

Mean-Net分别用分类器

和

预测目标域的软伪标签，并通过软交叉熵损失来监督另一个Net，软交叉熵损失

表达式为：

其中，x_i和x'_i表示同一张图片经过不同的数据增强模式输入到各自Net和Mean-Net中，I表示联合数据集X的身份数量；除了通过Mean-Net在线生成软伪标签对Net进行优化，Net还利用聚类生成的硬伪标签进行监督，并通过交叉熵损失函数l_ce构成的硬标签损失

进行优化，其表达式为：

因此，MMT的整体损失

2.根据权利要求1所述的基于合成数据消除无监督车辆再识别偏差的方法，其特征在于，对通过合成数据训练好的方向模型和相机模型进行后处理，以提升无监督车辆再识别性能，方向模型和相机模型采用的都是IBN-Net50-a；

取效果较好的一个Mean-Net作为车辆再识别模型进行测试，设车辆图像x_i经过车辆再识别模型生成特征向量f_v(x_i)，则车辆图像x_i和x_j的距离表示为：

D_v(x_i,x_j)＝||f_v(x_i)-f_v(x_j)||

通过角度将方向分为36个ID，每10度一个ID，利用合成数据训练一个方向模型，使其能够计算出真实数据集中车辆的方向相似度；

用欧氏距离度量车辆间的方向相似度，设车辆图像x_i经过方向模型生成特征向量f_o(x_i)，则车辆图像x_i和x_j的方向相似度表示为：

D_o(x_i,x_j)＝||f_o(x_i)-f_o(x_j)||

通过相机的ID作为背景变化的可靠标签，用来训练相机模型，通过相机模型计算图像间的相机相似度；设给定车辆图像x_i和x_j，且x_i∈C_a，x_j∈C_b，其中C_i表示第i个相机，则图像x_i和x_j之间的背景相似度就约等于它们的相机相似度D_background(x_i,x_j)＝D_c(x_i,x_j)，设车辆图像x_i经过相机模型生成的特征向量f_c(x_i)相机相似度表示为：

D_c(x_i,x_j)＝||f_c(x_i)-f_c(x_j)||

最后，将Mean-Net、方向模型、相机模型输出的车辆图像x_i和x_j的距离、方向相似度、相机相似度进行融合，得到用于测试的最终相似度D(x_i,x_j)，其表达式为：

D(x_i,x_j)＝D_v(x_i,x_j)-λD_o(x_i,x_j)-λD_c(x_i,x_j)。

3.一种基于合成数据消除无监督车辆再识别偏差的系统，其特征在于，包括存储器、处理器以及存储于存储器上并能够在处理器上运行的计算机程序，当处理器运行该计算机程序时，实现如权利要求1-2任一项所述的方法步骤。