CN111476168B

CN111476168B - 一种基于三阶段的跨域行人重识别方法和系统

Info

Publication number: CN111476168B
Application number: CN202010270027.8A
Authority: CN
Inventors: 张化祥; 葛尧; 刘丽; 朱磊; 孙建德; 谭艳艳; 孟丽丽; 王琳; 冯珊珊
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2020-04-08
Filing date: 2020-04-08
Publication date: 2022-06-21
Anticipated expiration: 2040-04-08
Also published as: CN111476168A

Abstract

本发明公开了一种基于三阶段的跨域行人重识别方法和系统，包括：域自适应学习阶段，针对源域和目标域图像，利用域自适应网络进行处理，计算各项损失并更新域自适应网络参数；自监督训练阶段：通过伪标签对域自适应网络进行有监督训练，计算难采样三元组损失并更新网络参数；联合损失训练阶段，构建联合损失训练网络，定义标签平滑正则化损失和难采样三元组损失；对于目标域图像，输入联合损失训练网络，计算各项损失并更新联合损失训练网络参数，对待识别的图像数据，进行跨域行人重识别，该方法有效地集成了域自适应阶段、自监督聚类再训练阶段和联合损失学习阶段，相比较单一训练方式，进一步提高了跨域行人重识别准确度。

Description

一种基于三阶段的跨域行人重识别方法和系统

技术领域

本发明属于跨域行人重识别技术领域，尤其涉及一种基于三阶段的跨域行人重识别方法和系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

近年来，随着摄像头监控系统产生的行人图像的增多，行人重识别技术越来越多的被应用到各个场景，比如刑侦追踪、预防违法犯罪、交通管制、寻找失踪人口等工作。

在有监督行人重识别领域，特征提取方法从手工提取发展到卷积网络提取，并且在检索精度上大幅提高，但由于数据集昂贵的制作成本，大量的无标签数据无法利用，因此无监督跨域行人重识别技术越来越受到重视。此类研究借助源域带标签数据集，模型在获得原始分辨能力后，继而迁移到无标签目标域数据集上，从而提高目标域数据集上的检索效果。

跨域行人重识别所面临的难题不同于有监督行人重识别，除了考虑行人图片的光照条件、行人的遮挡、图片的分辨率、相机视角姿态的变化等问题之外，由于不同数据集之间的风格不同，因此跨域行人重识别方法也要解决不同数据集之间的差异问题。为减轻不同数据集风格差异带来的影响，有方法借助生成对抗网络的背景转换功能，在保证图像行人部分不变的前提下，将目标域图像背景转换为源域图像背景，也有模型采用域适应消除不同数据集之间的数据分布差异，另外有研究者使用聚类算法赋予目标域数据伪标签，采用自监督训练的方式对目标域数据进行训练，从而获取在目标域数据集上的泛化能力。

发明人在研究中发现，随着多种跨域行人重识别模型出现，跨域行人重识别精度得到提高，但现有方法大多只使用一种训练方式，未有效融合多种训练方式以进一步提高效果，并且跨域训练模型只考虑不同数据集之间的差异，而忽略目标域不同镜头数据之间的差异，从而降低了模型的跨镜辨别能力。同时由于伪标签存在较高的错误率，对于目标域数据的表征学习和度量学习效果不高，因此现有跨域行人重识别的精度仍然处于一个较低的水平，模型无法在目标域学到令人满意的泛化能力和高鉴别力特征。

发明内容

为克服上述现有技术的不足，本发明提供了一种基于三阶段的跨域行人重识别方法，将域自适应学习、自监督训练、联合损失训练有效结合在一起，并且在域自适应阶段加入目标域镜头域适应，用来提高模型在目标域的跨镜能力。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

一种基于三阶段的跨域行人重识别方法，包括：

域自适应学习：针对源域和目标域图像，利用域自适应网络进行处理，计算各项损失并更新域自适应网络参数；

自监督训练：对于目标域图像，使用域自适应网络提取目标域训练集特征，并对特征矩阵进行重排序；

对重排序特征矩阵进行聚类，赋予目标域训练集伪标签；

通过伪标签对域自适应网络进行有监督训练，计算难采样三元组损失并更新网络参数；

联合损失训练：构建联合损失训练网络，定义标签平滑正则化损失和难采样三元组损失；

对于目标域图像，输入联合损失训练网络，计算各项损失并更新联合损失训练网络参数，对待识别的图像数据，进行跨域行人重识别。

另一方面，为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

一种基于三阶段的跨域行人重识别系统，包括：

域自适应学习模块：针对源域和目标域图像，利用域自适应网络进行处理，计算各项损失并更新域自适应网络参数；

自监督训练模块：对于目标域图像，使用域自适应网络提取目标域训练集特征，并对特征矩阵进行重排序；

对重排序特征矩阵进行聚类，赋予目标域训练集伪标签；

联合损失训练模块：构建联合损失训练网络，定义标签平滑正则化损失和难采样三元组损失；

以上一个或多个技术方案存在以下有益效果：

1.本发明提出了一种基于三阶段训练的跨域行人重识别方法，该方法有效地集成了域自适应阶段、自监督聚类再训练阶段和联合损失学习阶段，相比较单一训练方式，进一步提高了跨域行人重识别准确度。

2.本发明为了减小源域数据集和目标域数据集之间的差异和目标域数据跨摄像机差异，提出了跨数据集和跨镜头自适应损失，该损失采用MMD距离缩小特征分布差异，大大提高了模型的域适应性和跨镜头能力。

3.本发明利用自监督学习提高了聚类伪标签的准确率，并通过对目标域数据进行度量学习和表示学习的联合损失训练，获得更强表现力的特征，同时使用标签平滑正则化损失来减轻模型对错误伪标签的拟合程度。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为实施例一中基于三阶段训练的跨域行人重识别方法的流程框图；

图2为实施例一中基于三阶段训练的跨域行人重识别方法的流程示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本发明提出的总体思路：

本发明将域自适应学习、自监督训练、联合损失训练有效结合在一起，并且在域自适应阶段加入目标域镜头域适应，用来提高模型在目标域的跨镜能力，在联合训练阶段融合表征学习和度量学习，使用标签平滑正则化损失代替传统交叉熵损失，可减轻模型对错误伪标签的拟合程度，从而在目标域得到了更高质量的特征，大幅提高了跨域行人重识别精度。

实施例一

参见附图1-2所示，本实施例公开了一种基于三阶段的跨域行人重识别方法，包括：

构建域自适应网络以进行预训练，并定义交叉熵损失、三元组损失和域自适应损失作为该网络损失函数，目的是得到具有分类能力和跨域跨镜能力的特征提取器；

获取源域训练集和目标域训练集图象并输入域自适应网络，其中源域图像带标签且目标域图像不带标签，源域图像及其标签用于训练域自适应网络基本行人分辨能力，而目标域图像结合源域图像用于训练网络的域适应能力，输入域自适应网络，计算交叉熵损失、三元组损失和域自适应损失用来监督网络进行特征学习和跨域学习，使用梯度前传算法更新网络参数，重复该操作直至网络收敛；

获取目标域训练集图像，输入域自适应网络，提取网络全局池化层输出作为目标域训练集特征用于目标域数据的聚类赋标签操作，并对该特征矩阵进行重排序以使其包含互查信息，从而提高特征矩阵质量；

使用密度聚类算法对重排序特征矩阵进行聚类，赋予目标域训练集伪标签用来对目标域进行有监督训练；

通过伪标签对域自适应网络进行有监督训练，计算难采样三元组损失并使用BP算法更新网络参数，增强域自适应网络对目标域图像的泛化能力；

构建联合损失训练网络，定义标签平滑正则化损失和难采样三元组损失；

获取目标域训练集图像，并结合聚类获得的伪标签，输入联合损失训练网络，计算各项损失并使用BP算法更新网络参数，最后获取目标域测试集图像，使用该网络提取高质量特征，从而得到目标域较高的重识别效果。

具体实施例子中，域自适应网络的构建过程为：

域自适应网络为两个参数共享网络：源域训练网络和目标域训练网络，源域训练网络在Imagenet数据集预训练的Resnet-50网络基础上修改得到，将最后一层1000维的全连接层去除，在全局平均池化层(GAP)后添加1024维特征层，Batch-Normalization层，Relu层，Dropout层，最后添加输出单元与样本类别数目相同的全连接层用于输出模型对各个类别的预测值。然后添加Softmax-loss层和Triplet-loss层分别用于对于源域数据的表征学习和度量学习，其中Softmax-loss层的输出单元为源域数据的总类别数目，Triplet-loss层的输入则为原网络全局平均池化层的输出，维度是2048。

目标域训练网络同样基于Imagenet预训练的Resnet-50改造，在全局平均池化层(GAP)之后添加1024维特征层，并且与源域训练网络参数共享。

域自适应网络总共包含4个损失函数，针对源域数据训练的交叉熵损失和三元组损失，跨数据集域自适应损失l_dd，跨目标域摄像头域自适应损失l_cd。

给定损失函数：损失函数总共分为四部分，

l_dd＝mmd(d_s,d_t) (1)

上式中，l_dd表示跨数据集域自适应损失，d_s代表源域训练集数据的特征矩阵，d_t表示目标域训练集数据的特征矩阵，mmd代表最大均值差异损失，通常用于域适应领域以减少来自不同领域的两个特征矩阵之间的差异。mmd是一种核学习方法，它优化了两个堆栈之间的平均距离在高维空间中实现数据域自适应的效果，通过优化d_s和d_t两个特征矩阵之间的mmd距离来达到数据集之间的域适应效果。

上式中，l_cd表示跨镜头域自适应损失，c表示摄像头的ID，n代表目标域训练集的总摄像头数目，d_t表示目标域训练集特征矩阵，d_c表示摄像头c拍摄的行人图片特征矩阵，通过计算目标域训练集特征分布和特定摄像头下特征分布的mmd距离，来使模型在目标域数据上学习到的特征具有跨镜头不变性。

域自适应网络总损失函数为：

其中，l_da表示域自适应网络总损失，l_s、l_t分别代表源域数据交叉熵损失和三元组损失，mmd(d_s,d_t)表示跨数据集域自适应损失，mmd(.)表示最大均值差异损失，代表两个堆栈之间在高维空间中的平均距离，通过优化该距离实现数据域自适应的效果，d_s、d_t分别表示源域数据特征矩阵和目标域数据特征矩阵。同样的，

表示各个镜头拍摄下的图像的特征矩阵与总特征矩阵mmd距离的加和，用来实现目标域跨镜头域自适应，其中c代表特定镜头，n代表镜头数量，d_c代表某特定镜头下图像的特征矩阵，同时α₁、α₂、β表示超参。在得到该损失后，通过梯度前传算法优化网络，用于训练网络的基本分类能力、域适应能力以及目标域跨镜能力。

在具体实施例子中，将源域和目标域图像尺寸修改为256×128，成批次的投入域自适应网络计算各项损失，并在加权求和后用于更新网络参数。

具体的，按Batchsize＝64输入两个网络。特别的，对于目标域数据，由每个镜头下的相同数目的行人图片共同组成一个批次。l_s通过源域训练网络的最后一层全连接层输出进行计算，l_t、l_dd、l_cd则采用参数共享网络的全局平均池化层的输出结果进行计算。整个域自适应阶段使用Adam优化器训练100个epoch，学习率设置为0.002，各项损失加权后相加用于更新网络。通过对源域数据和目标域数据的自适应学习，获得一个既有基本行人图像分类能力且在目标域拥有一定跨境能力的预训练模型。

在获得域自适应网络后，使用该网络对目标域训练集数据进行特征提取，将提取的特征矩阵进行重排序操作，以提高特征矩阵的质量，使其包含样本间的交叉校验信息，如下式：

其中，F_t表示重排序之后的特征矩阵，

表示将域自适应网络的全局平均池化层(GAP)的输出结果作为行人图像的特征。

使用域自适应阶段获得的预训练模型x₁，对目标域训练集数据进行特征提取，并对特征矩阵进行重排序，使特征矩阵包含样本间的交叉校验信息。如上式，D_t表示目标域训练集数据，并且将原预训练模型x₁的全局平均池化层(GAP)2048维输出向量作为原始特征向量。

采用密度聚类方法DBSCAN对获得的重排序特征矩阵进行聚类运算，得到的聚类结果将作为目标域训练集数据的伪标签。特别地，对于DBSCAN聚类算法地各项参数，最小聚类半径eps设置为特征距离按升序排列前0.16％的平均值，最小聚类样本数量min_samples设置为4。

使用DBSCAN聚类方法对特征矩阵聚类，赋予训练集数据伪标签。

eps＝mean(F_t-rank[:1.6×e^-3×len(F_t-rank)]) (5)

L_t＝DBSCAN(eps,min_samples,F_t) (6)

在目标域训练数据总类别数目未知的情况下，本方法采用基于密度的聚类方法(DBSCAN)，该聚类方法将簇定义为密度相连的点的最大集合，把具有足够高密度的区域划分为簇，并可在噪声的空间数据库中发现任意形状的聚类。具体的，如公式(5)中，设置密度聚类的聚类半径eps为特征距离按升序排列前0.16％的平均值，参数min_samples设置为4。公式(6)中，L_t表示聚类得到的伪标签，F_t为重排序的特征矩阵。

通过聚类获得地目标域数据伪标签，使用伪标签进行目标域的度量学习，构建难采样三元组训练数据，具体操作为针对每一个目标域训练集样本，在其正样本集中选取最不相似的样本作为正样本，在负样本集中选取最相似地样本作为负样本，从而构建每个样本的难样本集，使用难采样三元组损失对域自适应网络进行再训练，难采样三元组损失如下:

其中，P表示每个批次中选取的行人数量，K表示每个批次中每个行人的图像数量，因此每个批次中共包含P×K个样本，d_a,p、d_a,n分别表示正样本之间和负样本之间的欧式距离，m表示超参，右下角加号代表该项损失不小于零。在获得该损失后，使用梯度前传算法优化域自适应网络，用以提高网络在目标域的分类能力，增强网络的跨域行人重识别效果。

采用难采样三元组算法对目标域数据进行度量学习，上式中，l_th表示难采样三元组损失，每个batch包含P×K个图像，将batch中每一个样本作为anchor，在负样本集中找到最相似的图像，并将其视为硬负样本，在正样本集中也找到最不相似的图像，并将其视为硬正样本，公式(7)中A、B分别表示样本a的正样本集和负样本集，d_a,pd_a,n分别表示样本a到样本p和样本n的欧式距离，参数m设置为0.3。在学习过程中，原始图像尺寸被修改为256×128，Batchsize设置为64，使用SGD优化算法，学习率设置为0.01，进行60个epoch。

提取特征并重排序、聚类赋伪标签、三元组损失训练三个步骤重复进行，直至域适应网络在目标域数据的测试精度不再提高为止。

在获得目标域训练集高质量伪标签后，建立联合损失训练网络用于训练该伪标签，在Imagenet数据集上预训练的Resnet-50网络的基础上，去除最后一层1000维的全连接层，在全局平均池化层(GAP)后添加1024维全连接层、Batch-Normalization层、Relu层、Dropout层，并在最后添加输出单元与伪标签类别数目一致的全连接层。联合损失训练网络总共包含2个损失函数，分别是分类损失和度量损失，其中分类损失由标签平滑正则化损失代替经典交叉熵损失，用来减轻网络对错误伪标签的拟合程度，度量损失采用难采样三元组损失，以挖掘更有鉴别力的特征。

定义两种损失函数。

标签平滑正则化损失函数：

上式为普通交叉熵损失函数，其中的标签向量表示为[1，0，1，...]的形式，l_cross表示交叉熵损失，K_s代表标签类别数目，k表示当前类别，p(k)表示模型输出的Softmax概率，q(k)表示真实标签。

当标签向量转化为公式(9)时，原始交叉熵损失函数转化为标签平滑正则化损失函数如公式(10)，公式(9)中，q_lsr(k)表示转化后的标签且ε∈[0，1]，y表示真实标签，K_s表示总类别数目。

L_total＝l_th+λl_lsr (11)

公式(11)中，L_total表示联合训练阶段总损失，l_th表示难采样三元组损失，l_lsr表示标签平滑正则化损失，λ表示超参。

其中，l_lsr为标签平滑正则化损失，p(.)表示网络对某一类别输出结果，ε∈[0,1]表示该损失的正则化项，代表向真实标签引入噪声，K_s表示训练集总类别数目。

使用自监督训练阶段获得的伪标签，通过标签平滑正则化损失和三元组损失对目标域数据进行学习，首先将目标域图片尺寸修改为256×128，并且加入RandomEraser数据增强技巧，即对原始训练图像随机进行遮挡，从而使模型学到的特征更加具有鲁棒性。Batchsize设置为64，采用Adam优化器训练120个epoch，并在训练过程中加入Warmup训练策略，即前10个epoch学习率由3.5×10^-5上升至3.5×10^-4，从第10个epoch开始每30个epoch下降为原来的0.1倍。

实验例子：

分别在Market-1501和Duke-MTMC两个数据集上进行实验。

Market-1501数据集收集于清华大学校园，2015年建成并公之于众。包括6台摄像机(包括5台高清摄像机和1台低清晰度摄像机)拍摄的1501人和32668个检测到的行人矩形框，图像尺寸为128×64。

Duke-MTMC reID数据集是杜克大学MTMC数据集的一个子集。原始数据集包含来自8个不同摄像机的85分钟高分辨率视频。通过对视频中的每120帧进行采样，获得36411幅图像，图像尺寸不唯一，本实验中我们统一修改为256×128。

本实施例在Pytorch框架下进行实施。对于图像网络，我们使用在ImageNet数据集上预训练的Resnet-50网络进行初始化。投入网络的所有图片的尺寸均被修改为256×128，每个阶段的Batchsize设置为64。各项超参α₁，α₂，β，λ设置为1，参数ε设置为0.15，算法实现过程如下。

第1阶段：域自适应学习

输入：源域数据集D_s；源域数据标签L_s；目标域数据集D_t；目标域每个镜头下数据D_tc；参数α₁，α₂，β

输出：域自适应网络x₁

初始化：初始化图像尺寸为256×128；使用Imagenet数据集上预训练的Resnet-50网络作为初始化参数；批次大小Batchsize＝64

循环执行下列语句

1.计算各项损失

2.对各项损失加权求和

l_da＝α₁l_s+α₂l_t+βl_d

3.采用BP算法，通过损失l_da更新网络x₁的参数第2阶段：自监督训练

输入：目标域数据集D_t；预训练域自适应网络x₁；参数eps，min_samples，m；

输出：自监督训练网络x₁

初始化：初始化图像尺寸为256×128；批次大小Batchsize＝64；参数min_samples＝4，m＝0.3

循环执行下列语句

1.提取目标域数据特征并对特征矩阵重排序

2.采用密度聚类算法对特征矩阵聚类并得到伪标签

获取eps＝特征距离按升序排列前0.16％的平均值：

eps＝mean(F_t-rank[:1.6×e^-3×len(F_t-rank)])

获取伪标签

L_t＝DBSCAN(eps,min_samples,F_t)

3.for epoch＝1,2,...60{

①计算难采样三元组损失

②采用BP算法通过损失l_th更新网络x₁的参数}

直至收敛

第3阶段：自监督训练

输入：目标域数据集D_t；自监督训练网络x₁；参数eps，min_samples＝4，m＝0.3，λ＝1，ε＝0.15；

输出：联合损失训练网络x₂

初始化：初始化图像尺寸为256×128；批次大小Batchsize＝64；参数min_samples＝4，m＝0.3，λ＝1，ε＝0.15；

执行下列语句：

1.提取目标域数据特征并对特征矩阵重排序

2.采用密度聚类算法对特征矩阵聚类并得到伪标签

获取eps＝特征距离按升序排列前0.16％的平均值：

eps＝mean(F_t-rank[:1.6×e^-3×len(F_t-rank)])

获取伪标签

L_t＝DBSCAN(eps,min_samples,F_t)

3.for epoch＝1,2,...120{

①计算标签平滑正则化损失和难采样三元组损失

②对两项损失加权求和

l_total＝l_th+λl_lsr

③采用BP算法通过损失l_total更新网络x₂参数}

在两个数据集上进行实验，并对比了当前比较流行的其他13种方法(LOMO,Bow,UMDL,PUL,PTGAN,SPGAN,TJ-AIDL,CAMEL,MMFA,HHL,CamStyle,MAR,ECN)。为了全面体现本公开效果优越性，我们选择了2种手工提取特征方法和11种卷积网络提取特征方法与本公开进行对比。从表1-2可以看出：本实施例提供的方法在不同数据集上都表现出优于其他方法的检索性能。

表1

表2

基于同样的发明构思，一个或多个实施例提供了一种计算机系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述实施例子中基于三阶段训练的跨域行人重识别方法。

基于同样的发明构思，一个或多个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述实施例子中基于三阶段训练的跨域行人重识别方法。

基于同样的发明构思，一个或多个实施例提供了一种基于三阶段的跨域行人重识别系统，包括：

对重排序特征矩阵进行聚类，赋予目标域训练集伪标签；

以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于三阶段的跨域行人重识别方法，其特征是，包括：

域自适应学习：针对源域和目标域图像，利用域自适应网络进行处理，计算各项损失并更新域自适应网络参数；具体的，域自适应网络针对源域数据训练的交叉熵损失和三元组损失，跨数据集域自适应损失，跨目标域摄像头域自适应损失分别计算；

所述跨数据集域自适应损失为：

l_dd＝mmd(d_s,d_t)；

上式中，l_dd表示跨数据集域自适应损失，d_s代表源域训练集数据的特征矩阵，d_t表示目标域训练集数据的特征矩阵，mmd代表最大均值差异损失，用于域适应领域以减少来自不同领域的两个特征矩阵之间的差异；mmd为核学习方法，优化两个堆栈之间的平均距离在高维空间中实现数据域自适应的效果，通过优化d_s和d_t两个特征矩阵之间的mmd距离，达到数据集之间的域适应效果；

所述跨目标域摄像头域自适应损失为：

上式中，l_cd表示跨目标域摄像头域自适应损失，c表示摄像头的ID，n代表目标域训练集的总摄像头数目，d_t表示目标域训练集特征矩阵，d_c表示摄像头c拍摄的行人图片特征矩阵，通过计算目标域训练集特征分布和特定摄像头下特征分布的mmd距离，使模型在目标域数据上学习到的特征具有跨镜头不变性；

对重排序特征矩阵进行聚类，赋予目标域训练集伪标签；

联合损失训练：构建联合损失训练网络，定义标签平滑正则化损失和难采样三元组损失；所述联合损失训练网络为：在数据集上预训练的Resnet-50网络的基础上，去除最后一层1000维的全连接层，在全局平均池化层后添加1024维全连接层、Batch-Normalization层、Relu层、Dropout层，在最后添加输出单元与伪标签类别数目一致的全连接层；

通过聚类获得的目标域数据伪标签，构建难采样三元组训练数据，具体操作为：针对每一个样本，在其正样本集中选取最不相似的样本作为正样本，在负样本集中选取最相似的样本作为负样本，从而构建每个样本的难样本集，使用难采样三元组损失对域自适应网络进行再训练；所述难采样三元组损失为：

其中，P表示每个批次中选取的行人数量，K表示每个批次中每个行人的图像数量，因此每个批次中共包含P×K个样本，d_a,p表示样本a到样本p的欧式距离，d_a,n表示样本a到样本n的欧式距离，m表示超参，右下角加号代表该项损失不小于零，A、B分别表示样本a的正样本集和负样本集；

所述标签平滑正则化损失为：

其中，k表示当前类别，p(k)表示模型输出的Softmax概率，ε∈[0，1]，y表示真实标签，K_s表示总类别数目；

2.如权利要求1所述的一种基于三阶段的跨域行人重识别方法，其特征是，域自适应网络总损失中各个镜头拍摄下的图像的特征矩阵与总特征矩阵距离的加和，用来实现目标域跨镜头域自适应。

3.如权利要求1所述的一种基于三阶段的跨域行人重识别方法，其特征是，将源域和目标域图像尺寸统一修改一致，成批次的投入域自适应网络计算各项损失，并在加权求和后用于更新网络参数。

4.如权利要求1所述的一种基于三阶段的跨域行人重识别方法，其特征是，在获得域自适应网络后，使用该网络对目标域训练集数据进行特征提取，将提取的特征矩阵进行重排序操作，以提高特征矩阵的质量，使其包含样本间的交叉校验信息。

5.如权利要求1所述的一种基于三阶段的跨域行人重识别方法，其特征是，采用密度聚类方法DBSCAN对获得的重排序特征矩阵进行聚类运算，得到的聚类结果将作为目标域训练集数据的伪标签。

6.如权利要求1所述的一种基于三阶段的跨域行人重识别方法，其特征是，通过聚类获得的目标域数据伪标签，构建难采样三元组训练数据，使用难采样三元组损失对域自适应网络进行再训练；

7.一种基于三阶段的跨域行人重识别系统，其特征是，包括：

域自适应学习模块：针对源域和目标域图像，利用域自适应网络进行处理，计算各项损失并更新域自适应网络参数；具体的，域自适应网络针对源域数据训练的交叉熵损失和三元组损失，跨数据集域自适应损失，跨目标域摄像头域自适应损失分别计算；

所述跨数据集域自适应损失为：

l_dd＝mmd(d_s,d_t)；

所述跨目标域摄像头域自适应损失为：

对重排序特征矩阵进行聚类，赋予目标域训练集伪标签；

联合损失训练模块：构建联合损失训练网络，定义标签平滑正则化损失和难采样三元组损失；所述联合损失训练网络为：在数据集上预训练的Resnet-50网络的基础上，去除最后一层1000维的全连接层，在全局平均池化层后添加1024维全连接层、Batch-Normalization层、Relu层、Dropout层，在最后添加输出单元与伪标签类别数目一致的全连接层；

所述标签平滑正则化损失为：

8.一种计算机系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-6任一项所述的基于三阶段训练的跨域行人重识别方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6任一项所述的基于三阶段训练的跨域行人重识别方法。