CN114677646A

CN114677646A - 一种基于Vision Transformer的跨域行人重识别方法

Info

Publication number: CN114677646A
Application number: CN202210354005.9A
Authority: CN
Inventors: 雷光裕; 雷景生; 唐小岚; 毕艳冰; 孟繁星
Original assignee: Shanghai University of Electric Power
Current assignee: Shanghai University of Electric Power
Priority date: 2022-04-06
Filing date: 2022-04-06
Publication date: 2022-06-28

Abstract

本发明提供一种基于Vision Transformer的跨域行人重识别方法，通过研究使用Vision Transformer的注意力网络用于视觉行人重识别网络，这是为数不多的不使用卷积神经网络结构用于图像匹配的行人重识别特征提取架构。其中，对于无标签的目标域数据，使用基于密度空间的聚类方法给数据赋予了伪标签。然后，将Vision Transformer特征提取架构与聚类模块融合，通过聚合信息存储模块对学习到聚合信息进行存储以学习全局特征。从而实现了面向跨域问题的基于Vison Tranformer的聚类方法。另外，还构建了样本dropout模块从而有效防止了训练过程趋向由这些硬样本引起的局部最小值的影响，为高效利用已标注源域和无标注目标域的行人数据训练一个泛化能力较强的网络模型。

Description

一种基于Vision Transformer的跨域行人重识别方法

技术领域

本发明属于人工智能领域，具体涉及一种基于Vision Transformer的跨域行人重识别方法。

背景技术

给定不同数据分布P和Q通过采样得到

和无标签数据集

无监督自适应的目的是能够学习到一个在无标签数据分布Q上性能尽可能好的模型。这一类问题源于标注数据上训练的模型无法很好地泛化到其他产生的数据上。

对于无监督行人重识别问题，一般认为出现在多个摄像头视图中的行人，如果没有成对存在的标签，就很难学习到摄像机不变的行人特征。由于通常研究的源域及目标域之间的数据分布存在相似性，因此大多数研究都是在带标签的源数据集上预训练行人重识别模型，然后用于无标签的目标数据集，即无监督跨域行人重识别。由于视角、光照、背景噪音等因素影响，在不同的数据集中行人特征会有显著变化。因此，在将一个预训练模型从源到目标域进行调整时，需要考虑域间隙。

无监督跨域自适应方法解决了跨域行人重识别中的域间差异问题，在该类方法中，模型首先在标记的源域上进行预训练，然后适应于未标记的目标域。这一类方法需要的主要难点有以下3类。

(1)伪标签估计

大量研究通过生成未标记样本的伪标签解决缺乏真实标签的问题，然后使用伪标签监督模型训练在无标签数据集。生成的伪标签是在无监督的方式下生成的，并且可能由于误差标签而产生噪声。

(2)深度特征表示学习

此类方法需要解决的问题是从背景噪音、遮挡和姿态等方面的图像数据集中学习伪标签的辨别性特征表示。训练行人重识别模型最主要的部分是提取具有区别性的行人特征表示，使与查询人的距离最小。

(3)摄像头不变特征表示学习

由于视角、光照条件、背景噪音等因素，人的特征在不同的摄像头下会有所不同。一般来说同一个人的外观在不同的摄像机视角中是不同的。

为了解决上述行人重识别问题中存在的难题，提升监控系统学习后的泛化能力，学术界提出了很多方法，现有的无监督跨域自适应方法研究可分为三大类，即图像特征对齐、图像风格转移和基于聚类的方法。

基于聚类的方法利用了未标记数据中动态的行人特征，其通过两个步骤来适应源域的预训练模型。首先使用预训练的模型来提取和生成无标签图像簇的伪标签id。然后使用带有伪标签的图像对目标数据集上的预训练模型进行微调。最后按照分类任务对模型进行微调。

虽然通过知识迁移的方法可以使源域适应目标域，但其基于一种假设为源域和目标域数据之间具有许多相似的特征或者具有判别性的辅助数据时才能在不同的重识别场景中完成迁移。当源数据集和目标数据集有显著的特征变化时，域适应方法可能不能很好地工作。

因此，现在需要一种基于Vision Transformer的跨域行人重识别方法来解决上述问题。

发明内容

为解决上述问题，提供一种不使用卷积方案的基于Vision Transformer的跨域行人重识别方法，本发明采用了如下技术方案：

本发明提供了一种基于Vision Transformer的跨域行人重识别方法，用于对跨域的行人目标进行重识别，其特征在于，包括以下步骤：步骤S1，基于Vision Transformer构建特征提取网络；步骤S2，使用有标签源域数据对特征提取网络进行预训练生成预训练特征提取网络；步骤S3，使用预训练特征提取网络获取无标签目标域数据的伪标签，从而生成伪标签目标域数据；步骤S4，基于预训练特征提取网络构建初始识别模型，初始识别模型具有Transformer网络层、聚类模块以及聚类信息存储模块；步骤S5，对有标签源域数据和伪标签目标域数据进行数据预处理，作为训练集；步骤S6，将训练集输入至初始识别模型中，采用总损失函数训练该初始识别模型直至目标函数收敛生成跨域重识别模型；步骤S7，利用跨域重识别模型对待测源域图像进行跨域重识别，并输出对应目标域的识别结果。

在本发明提供的基于Vision Transformer的跨域行人重识别方法中，还可以具有这样的技术特征，其中，数据预处理为：将数据中的图像分割成

块大小为S×S的patch图像块，采用线性映射将每个patch图像块的空间维度由初始维度C嵌入至C₀维度。

在本发明提供的基于Vision Transformer的跨域行人重识别方法中，还可以具有这样的技术特征，其中，初始识别模型在Transformer网络层具有源域分支和目标域分支，源域分支用于编码图像序列的全局特征，目标域分支用于重新排序部分图像块的局部特征，Transformer网络层采用不带位置嵌入的多头注意力网络。

在本发明提供的基于Vision Transformer的跨域行人重识别方法中，还可以具有这样的技术特征，其中，伪标签目标域数据的获取过程为：使用预训练特征提取网络提取无标签目标域数据的特征，采用基于密度空间的聚类方法对提取到的特征进行聚类以获得数据中每个图像的伪标签，从而生成伪标签目标域数据。

在本发明提供的基于Vision Transformer的跨域行人重识别方法中，还可以具有这样的技术特征，其中，总损失函数为源域损失函数、目标域损失函数和聚合损失函数之和。

在本发明提供的基于Vision Transformer的跨域行人重识别方法中，还可以具有这样的技术特征，其中，聚类信息存储模块用于作为无监督数据的分类层，存储每一批数据的特征及聚类结果信息来作为图像的全局特征及伪标签。

在本发明提供的基于Vision Transformer的跨域行人重识别方法中，还可以具有这样的技术特征，其中，初始识别模型还设有样本dropout模块，以减小训练过程趋向由硬标签引起的局部最小值的影响。

本发明还提供一种电子设备，包括存储器、处理器及存储在储存器上并可以在处理器上运行的计算机程序，其特征在于，处理器执行程序时实现如上的基于VisionTransformer的跨域行人重识别方法。

本发明还提供一种非暂态计算机可读的存储介质，用于存储计算机程序，其特征在于，计算机程序被配置成执行时实现如上的一种基于Vision Transformer的跨域行人重识别方法。

发明作用与效果

根据本发明的一种基于Vision Transformer的跨域行人重识别方法，通过研究使用Vision Transformer的注意力网络用于视觉行人重识别网络，这是为数不多的不使用卷积神经网络结构用于图像匹配的行人重识别特征提取架构。其中，对于无标签的目标域数据，使用基于密度空间的聚类方法给数据赋予了伪标签。然后，将Vision Transformer特征提取架构与聚类模块融合，通过聚合信息存储模块对学习到聚合信息进行存储以学习全局特征。从而实现了面向跨域问题的基于Vison Tranformer的聚类方法。另外，还构建了样本dropout模块从而有效防止了训练过程趋向由这些硬样本引起的局部最小值的影响，为高效利用已标注源域和无标注目标域的行人数据训练一个泛化能力较强的网络模型。

附图说明

图1是本发明实施例中跨域行人重识别的整体架构示意图；

图2是本发明实施例中基于聚类的跨域行人重识别方法；

图3是本发明实施例中Vison Tranformer网络的结构示意图；以及

图4是本发明实施例中对源域数据进行特征提取的示意图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，以下结合实施例及附图对本发明的一种基于Vision Transformer的跨域行人重识别方法作具体阐述。

<实施例>

图1是本发明实施例中跨域行人重识别的整体架构示意图，以及图2是本发明实施例中基于聚类的跨域行人重识别方法。

如图1和图2所示，一种基于Vision Transformer的跨域行人重识别方法包括以下步骤：

步骤S1，基于Vision Transformer构建特征提取网络。

步骤S2，使用有标签源域数据对特征提取网络进行20轮训练后生成预训练特征提取网络。

步骤S3，通过预训练特征提取网络获取无标签目标域数据的伪标签，从而生成伪标签目标域数据。

步骤S4，基于预训练特征提取网络构建初始识别模型，初始识别模型具有Transformer网络层、聚类模块以及聚类信息存储模块。

其中，预训练特征提取网络用于提取无标签目标域数据的特征。

Transformer网络层采用不带位置嵌入的多头注意力网络(如图3所示)。

聚类模块采用基于密度空间的聚类方法(DBSCAN)对与训练提取网络提取到的特征进行聚类以获得数据中每个图像的伪标签，从而生成伪标签目标域数据。

聚类信息存储模块用于作为无监督数据的分类层，存储每一批数据的特征及聚类结果信息来作为图像的全局特征及伪标签，也就是说聚合信息存储模块是一个经过fc层全连接及标准化处理后的图像特征聚合聚类伪标签的部件。

其中，聚类流程如下所示：

输入：n_t张行人图像的目标域数据集，扫描半径及最小包含点数

输出：生成的数据簇，且数据簇达到相应的密度要求

Step1：当数据集中的图像没有被处理完成时重复操作2-4

Step 2：从目标域数据集中选取一个没有被处理的图像作为数据点；

Step 3：if被抽中的点是簇类中心点：

那么找出数据集中所有从该点可达的图像，并形成一个簇；

Step 4：else抽出的点为边界点：

那么跳出本次循环，处理下一张图像；

Step 5：所有的行人图像都被处理完毕，结束程序。

本实施例中，初始识别模型还设有样本dropout模块，从而减小训练过程趋向由硬标签引起的局部最小值的影响。在每个迭代训练epoch的聚类之前采用样本Dropout。在第k次迭代epoch的开始，随机从目标域数据mini-batch中选取一定比例的图像数据。然后根据聚类结果，只对选中的样本赋伪标签，将剩余目标域样本从当前训练epoch中删除。

步骤S5，对有标签源域数据和伪标签目标域数据进行数据预处理，作为训练集。

其中，数据预处理为：首先将数据中的图像分割成

块大小为S×S的patch图像块，此操作类似图像中的卷积操作，与之不同的是卷积不对图像进行分割，为了保证切割图像不是硬分割，切割时padding值P设置为1。然后采用线性映射将每个4×4×3大小的patch图像块的空间维度由初始维度C嵌入至C₀维度。

本实施例中，输入图像尺寸为B×H×W×3，其中B表示批大小batch_size的大小，H和W分别表示输入图像的宽和高，输入图像最后一维数据表示图像的维度C，初始是3。

由于token-mixing MLP对输入token的顺序敏感，能够自学习位置特征，因此不需要嵌入额外的位置信息。在不同的图像中，对于每个图像块patch数据分布都是相同的，但对于不同的图像可能具有不同的值。

步骤S6，将训练集输入至初始识别模型中，采用由源域损失函数、目标域损失函数和聚合损失函数之和得到的总损失函数训练该初始识别模型直至目标函数收敛生成跨域重识别模型。

本实施例中，Transformer网络层具有源域分支和目标域分支。源域分支用于编码图像序列的全局特征(如图4所示)，目标域分支用于重新排序部分图像块的局部特征。

步骤S7，利用跨域重识别模型对待测源域图像进行跨域重识别，并输出对应目标域的识别结果。

本实施例所描述的跨域行人重识别方法可以通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。上述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。当根据本发明实施例提供的方法和技术编程时，本发明还包括计算机本身。

本实施例的各步骤可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文步骤的指令或程序时，本文的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。

此外，上述跨域行人重识别方法还可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。

实施例作用与效果

根据本实施例提供的一种基于Vision Transformer的跨域行人重识别方法，该方法构建了基于Vision Transformer架构的跨域行人重识别模型，研究设计基于transformer的特征提取方法，这是为数不多的不使用卷积神经网络结构用于图像匹配的行人重识别特征提取架构。而对于无标签的目标域数据，使用基于密度空间的聚类方法(DBSCAN)给数据赋予了伪标签。然后，通过聚合信息存储模块对学习到聚合信息进行存储以学习全局特征。并构建了样本dropout模块从而有效防止了训练过程趋向由这些硬样本引起的局部最小值的影响，为高效利用已标注源域和无标注目标域的行人数据训练一个泛化能力较强的网络模型。

上述实施例仅用于举例说明本发明的具体实施方式，而本发明不限于上述实施例的描述范围。

Claims

1.一种基于Vision Transformer的跨域行人重识别方法，用于对跨域的行人目标进行重识别，其特征在于，包括以下步骤：

步骤S1，基于Vision Transformer构建特征提取网络；

步骤S2，使用有标签源域数据对所述特征提取网络进行预训练生成预训练特征提取网络；

步骤S3，使用所述预训练特征提取网络获取无标签目标域数据的伪标签，从而生成伪标签目标域数据；

步骤S4，基于所述预训练特征提取网络构建初始识别模型，所述初始识别模型具有Transformer网络层、聚类模块以及聚类信息存储模块；

步骤S5，对所述有标签源域数据和所述伪标签目标域数据进行数据预处理，作为训练集；

步骤S6，将所述训练集输入至所述初始识别模型中，采用总损失函数训练该初始识别模型直至目标函数收敛生成跨域重识别模型；

步骤S7，利用所述跨域重识别模型对待测源域图像进行跨域重识别，并输出对应目标域的识别结果。

2.根据权利要求1所述的一种基于Vision Transformer的跨域行人重识别方法，其特征在于：

其中，所述数据预处理为：

将数据中的图像分割成

块大小为S×S的patch图像块，

采用线性映射将每个所述patch图像块的空间维度由初始维度C嵌入至C₀维度。

3.根据权利要求2所述的一种基于Vision Transformer的跨域行人重识别方法，其特征在于：

其中，所述初始识别模型在Transformer网络层具有源域分支和目标域分支，

所述源域分支用于编码图像序列的全局特征，

所述目标域分支用于重新排序部分图像块的局部特征，

所述Transformer网络层采用不带位置嵌入的多头注意力网络。

4.根据权利要求1所述的一种基于Vision Transformer的跨域行人重识别方法，其特征在于：

其中，所述伪标签目标域数据的获取过程为：

使用所述预训练特征提取网络提取所述无标签目标域数据的特征，

采用基于密度空间的聚类方法对提取到的特征进行聚类以获得数据中每个图像的伪标签，从而生成所述伪标签目标域数据。

5.根据权利要求1所述的一种基于Vision Transformer的跨域行人重识别方法，其特征在于：

其中，所述总损失函数为源域损失函数、目标域损失函数和聚合损失函数之和。

6.根据权利要求1所述的一种基于Vision Transformer的跨域行人重识别方法，其特征在于：

其中，所述聚类信息存储模块用于作为无监督数据的分类层，存储每一批数据的特征及聚类结果信息来作为图像的全局特征及伪标签。

7.根据权利要求1所述的一种基于Vision Transformer的跨域行人重识别方法，其特征在于：

其中，所述初始识别模型还设有样本dropout模块，以减小训练过程趋向由硬标签引起的局部最小值的影响。

8.一种电子设备，包括存储器、处理器及存储在所述储存器上并可以在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至权利要求7中任一项所述基于Vision Transformer的跨域行人重识别方法。

9.一种非暂态计算机可读的存储介质，用于存储计算机程序，其特征在于，所述计算机程序被配置成执行时实现权利要求1至权利要求7所述的基于Vision Transformer的跨域行人重识别方法。