CN117612266A

CN117612266A - 基于多尺度图像及特征层对齐的跨分辨率行人重识别方法

Info

Publication number: CN117612266A
Application number: CN202410095404.7A
Authority: CN
Inventors: 尉佳禾; 张国庆; 王准
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2024-01-24
Filing date: 2024-01-24
Publication date: 2024-02-27
Anticipated expiration: 2044-01-24
Also published as: CN117612266B

Abstract

本发明公开了一种基于多尺度图像及特征层对齐的跨分辨率行人重识别方法，所述方法包括：对跨分辨率样本视频进行预处理，将视频分割为连续的帧，并统一图像尺寸，选取高分辨率行人图像和低分辨率行人图像；对高分辨率行人图像进行多尺度下采样，对多尺度的图像重构网络进行训练；每个尺度的重构图像输入到与图像重构网络对应连接的行人重识别网络，对行人重识别网络进行训练；将待识别的视频处理后输入训练好的相应尺度的图像重构网络，重构的图像输入到对应的训练好的行人重识别网络，得到最终的行人特征表示。本发明解决跨分辨率的行人图像导致行人重识别的检索精度低、匹配效果差的问题，达到了提高低分辨率行人重识别的效果。

Description

基于多尺度图像及特征层对齐的跨分辨率行人重识别方法

技术领域

本发明涉及图像处理领域，具体涉及一种基于多尺度图像及特征层对齐的跨分辨率行人重识别方法。

背景技术

随着监控摄像机在交通、学校、医院等公共场所的大量部署，行人图像及视频数据快速增长，传统的依赖于人工进行行人检索的方式面临巨大挑战。行人重识别的目标是从非重叠的多摄像机监控系统中检索特定行人的图像或视频片段，可以协助用户在海量行人数据库中进行快速有效的检索。而不同摄像机可能具有不同的硬件参数、同一行人与不同摄像机之间的距离也可能存在差异，即存在高分辨率和低分辨率的行人图像，进而导致采集到的行人图像分辨率并不一致。由于低分辨率图像通常包含更少的行人鉴别信息，且其与高分辨率图像在空间特征上存在差异，这就造成了行人重识别效果的降低，因此需要研究并解决行人重识别中的跨分辨率行人重识别带来的问题。

目前大多数通用行人重识别方法假设由不同摄像机拍摄的行人图像具有相同的分辨率，直接将需要匹配的图片通过插值变成一样的大小，而实际上低分辨率图像通常包含更少的行人鉴别信息，且其与高分辨率图像在空间特征上存在差异。现有与之相关的技术可以分为两类：（1）学习与分辨率无关的行人特征表示。这类方法在统一高分辨率特征和低分辨率特征的过程中导致了高分辨率图像中所包含的额外信息的丢失。由于低分辨率图像包含的信息少于高分辨率图像，行人重识别网络从低分辨率特征中获取的行人身份信息有限，限制了此类方法的性能；（2）通过超分辨率网络将低分辨率图像复原成高分辨率图像。现有中国专利文献公开了申请号为CN201910191960.3的基于超分辨图像生成的低分辨率行人重识别系统和方法，该方法联合训练行人属性引导的分辨网络模型，根据余弦相似度得到不同分辨率的行人图像匹配的结果。但是由于超分辨率网络无法完全弥补低分辨率图像中缺失的信息，因此低分辨率图像恢复出的高分辨率图像和真实高分辨率图像之间仍存在差异性。此外，由不同尺度的低分辨率图像恢复出的高分辨率图像之间也存在差异性，此方法专注于采用循环对抗生成网络生成低分辨率图像相对应的高分辨率图像，而忽略了行人鉴别特征的学习。

发明内容

发明目的：为了克服背景技术的不足，针对跨分辨率的行人图像导致行人重识别的检索精度低、匹配效果差的问题，本发明公开了一种基于多尺度图像及特征层对齐的跨分辨率行人重识别方法，通过级联多尺度重构网络将不同分辨率的行人图像进行对齐并利用多尺度行人重构网络提取每个尺度下重构图像的特征来提高低分辨率行人重识别的效果。

技术方案：为了实现以上发明目的，本发明的一种基于多尺度图像及特征层对齐的跨分辨率行人重识别方法，包括以下步骤：

（1）对跨分辨率样本视频进行预处理，将视频分割为连续的帧，并统一图像尺寸，选取高分辨率行人图像样本和低分辨率行人图像样本；

（2）对高分辨率行人图像样本进行多尺度下采样，得到不同分辨率尺度图像，将不同分辨率尺度图像连同原始图像一起输入到级联的多尺度图像重构网络，其中各级图像重构网络的分辨率尺度递增，且前一级图像重构网络的输出作为后一级图像重构网络的输入，得到多尺度的重构图像，并计算图像重构网络的损失函数，在设置的训练批次下对多尺度的图像重构网络进行训练；

（3）每个尺度的重构图像输入到与对应级别图像重构网络连接的行人重识别网络，提取对应尺度下重构图像的特征，各个尺度下提取的特征拼接作为行人重识别网络的输出，并根据输出结果计算行人重识别网络的损失函数，在设置的训练批次下对行人重识别网络进行训练；

（4）将待识别的视频分割为连续的帧，并统一图像尺寸，获取高分辨率图像和低分辨率图像，将高分辨率图像进行多尺度下采样后连同低分辨率图像一起，输入到训练好的图像重构网络，得到各尺度重构图像，再分别输入到对应的训练好的行人重识别网络，提取各个尺度下的特征并进行拼接，得到最终的行人特征表示。

进一步地，所述步骤（1）中，每帧图像的尺寸都裁剪为包含256*128个像素，选取高分辨率行人图像样本和低分辨率行人图像样本，将所有图像样本转换为张量的数据形式，使用通道均值和标准差进行标准化，再将张量归一化为(0,1)之间。

进一步地，所述步骤（2）中，对高分辨率行人图像样本进行多尺度下采样包括：对每张图像进行下采样操作并生成三张具有不同分辨率的图像，所使用的下采样系数从中随机选择，所对应的分辨率分别记为/>、/>和/>，之后使用双线性插值上采样方法对经下采样的图像拉伸至原来的尺寸，对应图像分别记为/>、/>和/>。

进一步地，所述级联的多尺度图像重构网络包括具有相同网络结构但不进行权值共享的三个图像重构网络，每个图像重构网络包括一个编码器和一个解码器：编码器用于从图像中提取特征表示，其由两部分组成，每个部分包含了四个卷积层，第一个卷积层的输出结果和第四个卷积层的输出结果被连接起来作为这部分的输出；解码器由两个反卷积层组成，用于将编码器提取的特征重建成图像。

进一步地，图像重构网络的损失函数由每一级图像重构网络的输出图像与对应分辨率尺度图像之间的距离的总和构成。

进一步地，所述距离采用均方误差来衡量。

进一步地，所述行人重识别网络采用ResNet-50作为骨干网络，骨干网络输出的张量被平均池化层水平地分成4个局部特征，并拼接作为行人重识别网络的输出。

进一步地，每个行人重识别网络的损失函数由标签平滑交叉熵损失和三元组损失的和构成。

进一步地，标签平滑交叉熵损失定义如下：

，

其中是根据特征表示/>预测的属于分类c的评定值，/>，所述特征表示/>是行人重识别网络i提取出的特征，h是行人重识别网络提取出的局部特征索引，H是局部特征个数；C是训练集中行人身份的总数，/>是经过平滑的标签属于分类c的真实分布，记为：

，

其中l是当前图像的真实行人身份标签，是用来控制标签放宽程度的参数，。

进一步地，三元组损失定义为：

，

其中是锚点图像经过行人重识别网络i得到的特征表示，/>，/>是锚点图像的第h个局部特征，H是局部特征个数，/>和/>分别为最难正样本和最难负样本的特征，m为超参数间隔，/>是两个特征表示之间的欧几里得距离。

有益效果：

（1）本发明采用级联多尺度重构网络用以将不同分辨率的行人图像在图像层进行对齐，使用多个图像重构网络为给定的输入图像重构多张具有特定分辨率尺度的重构图像。解决由于低分辨率图像在图像层面上细节丢失的而导致识别精度不高的技术问题，更多地保留多个分辨率尺度下有利于行人匹配的线索。

（2）本发明采用多尺度行人重识别网络以将待匹配行人在特征层实现对齐，使用多个行人重识别网络分别提取对应尺度下重构图像的特征，并将这些特征拼接起来作为最终特征表示，解决了不同分辨率尺度图像相互干扰的技术问题，降低待匹配行人在特征层的差异性。

（3）本发明实现不同分辨率的图像在多个尺度下进行图像层和特征层的对齐，行人特征可以适应分辨率的变化。解决跨分辨率的行人图像导致行人重识别的检索精度低、匹配效果差的问题，达到了提高低分辨率行人重识别的效果。

附图说明

图1是本发明的行人重识别方法流程图；

图2是本发明的两个模块设计思路示意图；

图3是本发明图像重构网络中提取特征的结构图；

图4是本发明行人重识别网络中提取特征的结构图；

图5是本发明级联多尺度重构模块和多尺度行人特征学习模块结构图。

具体实施方式

下面将结合附图对本发明实施例中的技术方案进行清楚、完整的描述。

如图1所示，一种基于多尺度图像及特征层对齐的跨分辨率行人重识别方法，包括以下步骤：

S1、对跨分辨率样本视频进行预处理，将视频分割为连续的帧，并统一图像尺寸，选取高分辨率行人图像样本和低分辨率行人图像样本；

S2、对高分辨率行人图像进行多尺度下采样，利用多尺度下采样后的图像和原始图像对级联的多尺度图像重构网络进行训练；

S3、每个尺度的重构图像输入到与图像重构网络对应连接的行人重识别网络，提取行人特征，对行人重识别网络进行训练；

S4、将待识别的视频处理后输入训练好的相应尺度的图像重构网络，重构的图像输入到对应的训练好的行人重识别网络，得到最终的行人特征表示。

根据本发明的实施方式，在步骤S1中，利用摄像头获取跨分辨率的行人视频信息，对视频进行预处理，包括：将视频分割为连续的帧，进行统一初始化，每帧图像的尺寸都裁剪为包含相同数量的像素，选取高分辨率行人图像样本和低分辨率行人图像样本，将所有图像样本转换为张量(Tensor)的数据形式，使用通道均值和标准差进行标准化，再将张量归一化为(0,1)之间。

这里，选取高分辨率行人图像样本和低分辨率行人图像样本是根据原始图片的分辨率来划分的，例如，可以预先设置一个分辨率阈值，在阈值之上的为高分辨率，低于阈值的为低分辨率，由此分别选取高分辨率图像样本和低分辨率图像样本。本发明对具体高低分辨率范围的设置不做限制。

本发明在步骤S2中对级联的多尺度图像重构网络进行训练，在步骤S3中对行人重识别网络进行训练，其目的是为了训练出对行人鉴别特征具有优秀把握能力的识别模型。本发明中，级联的多尺度图像重构网络也称为级联多尺度重构模块，其利用多个图像重构网络将待匹配行人在多个尺度下进行图像层对齐。行人重识别网络是和图像重构网络对应连接的关系，因此多个行人重识别网络也可以称为多尺度行人重识别网络，或者称为多尺度行人特征学习模块，其目的是将待匹配行人在多个尺度下进行特征层对齐。

根据本发明的实施方式，参照图2，基于PyTorch深度学习框架构造一个级联多尺度重构模块和多尺度行人特征学习模块，分别实现不同分辨率的行人图像在多个尺度下进行的图像层和特征层的对齐。

根据本发明的实施方式，级联的多尺度图像重构网络包括三个图像重构网络。如图3所示，每个图像重构网络包括一个编码器和一个解码器：编码器主要用于从图像中提取特征表示，其由两部分组成，每个部分包含了四个卷积层，第一个卷积层的输出结果和第四个卷积层的输出结果被连接起来作为这部分的输出；解码器由两个反卷积层组成，用于将编码器提取的特征重建成图像。三个图像重构网络具有相同的网络结构，但它们之间不进行权值共享。三个图像重构网络级联组成一个级联多尺度重构模块。

在训练阶段，对高分辨率行人图像样本进行多尺度下采样，下采样的图像和原始的高分辨率行人图像输入级联多尺度重构模块，采用均方误差损失最小化计算损失函数；对于每张输入图像，依次通过三个图像重构网络生成三张具有不同分辨率的新图像，代替原始图像进行特征提取。生成的新图像称为重构图像。参照图5，级联的多尺度重构模块中，各级图像重构网络的分辨率尺度递增，第一级图像重构网络对应的分辨率尺度为，第二级图像重构网络对应的分辨率尺度为/>，第三级图像重构网络对应的分辨率尺度为，且前一级图像重构网络的输出作为后一级图像重构网络的输入。每个图像重构网络通过编码器和解码器操作得到对应尺度的重构图像。为了描述的便利，下文中以图像重构网络_1/3代表第一级图像重构网络，以图像重构网络_1/2代表第二级图像重构网络，以图像重构网络₁代表第三级图像重构网络。根据级联多尺度重构模块，将不同分辨率原始图像重构出的图像在不同尺度下进行对齐，在图像层降低待匹配行人之间的差异性。

具体实施时，假设是一个包含高分辨率(High Resolution，记为HR)图像的集合，其中/>表示一张高分辨率图像，/>表示其行人身份标注。为了训练图像重构网络，对/>中的每张图像/>进行下采样操作并生成三张具有不同分辨率的图像。所使用的下采样系数从/>中随机选择，所对应的分辨率分别记为/>、/>和/>。这里，1/a指的是将原始图片进行下采样，使图片长宽都变为原来的1/a。LR是Low Resolution的缩写。之后使用双线性插值上采样方法对经下采样的图像拉伸至原来的尺寸，对应图像分别记为、/>和/>。在下采样和尺寸还原的过程中，图像中行人的身份并不会被改变，且这些图像仅用于方法的训练过程。

经下采样的图像（即、/>和/>）以及其原始图像/>被输入图像重构网络_1/3，得到的输出分别记为/>、/>、/>以及/>。为使/>、/>、/>以及/>尽可能地与/>相似，采用均方误差损失最小化图像重构网络_1/3输出的图像和分辨率尺度图像之间的距离，记为：

，

之后，、/>、/>和/>被输入图像重构网络_1/2，对应的输出记为/>，/>，和/>。该输出被输入图像重构网络₁，对应的输出记为/>，/>，/>和/>。图像重构网络_1/2的损失函数记为：

，

图像重构网络₁的损失函数记为：

，

整体图像重构网络的总损失函数定义为：

。

根据损失函数，使用Adam优化器，权重衰减设为5e-4，一共训练60个epoch。

根据本发明的实施方式，参照图5，多尺度行人特征学习模块包括三个行人重识别网络，分别与一个图像重构网络对应连接。该模块通过三个行人重识别网络分别提取对应尺度下重构图像的特征，并将三个特征拼接作为最终的行人特征表示。由于具有不同分辨率的原始图像被三个分辨率尺度重构图像的特征所表示，从而导致了待匹配行人在特征层差异性的降低。每个行人重识别网络的结构相同，但是权值不共享。主要原因是通过使用专门的行人重识别网络提取对应分辨率尺度重构图像的特征，可以使网络更加专注于该尺度下行人鉴别信息的学习，而不会受到来自于其它分辨率尺度图像的干扰。为了描述的便利，下文中，与第一级图像重构网络连接的行人重识别网络表示为行人重识别网络_1/3，与第二级图像重构网络连接的行人重识别网络表示为行人重识别网络_1/2，与第三级图像重构网络连接的行人重识别网络表示为行人重识别网络₁。通过多尺度行人特征学习模块，将不同分辨率的重构图像的特征提取出来，并进行拼接形成最终的行人特征表示，在特征层降低待匹配行人之间的差异性。

如图4所示，行人重识别网络的结构中，骨干网络(ResNet-50)输出的张量被平均池化层水平地分成4个部分，每个水平部分作为行人的一个局部特征，并将4个局部特征拼接作为行人重识别网络的输出。在训练时期，采用标签平滑交叉熵损失和三元组损失监督行人重识别网络。

具体地，对于一张给定的输入图像(记为y)，由级联多尺度重构模块重构出的具有不同分辨率的图像分别记为、/>和/>，并依次输入行人重识别网络_1/3、行人重识别网络_1/2以及行人重识别网络₁中。三个行人重识别网络提取出的特征分别记为/>、/>和/>，最终的行人特征表示记为：

。

对于重构图像，/>，对应行人重识别网络提取出的特征记为：

，

其中f的上标1,2,3,4表示局部特征分块的索引，这里一共是四个局部特征。因此，公式可重新表示为：

。

然后，定义行人重识别网络_1/3的损失函数，并使用标签平滑交叉熵损失和三元组损失监督行人重识别网络的训练。给定一张重构图像，交叉熵损失可表示为：

，

其中，是根据特征表示/>预测出的属于分类的评定值，C表示训练集中行人身份的总数。h是行人重识别网络识别出的局部特征索引。/>表示属于分类c的真实分布，记为：

，

其中l表示这张图像的真实行人身份标注，即标签。为了避免过拟合，使用标签平滑的方式为真实值赋予小于1的置信度，定义属于分类c的行人身份标注的分布如下：

，

其中是一个用来控制标签放宽程度的参数，/>。假设一共有C个行人ID，原始的标签形式为(1,0,…,0)，这表示行人ID索引为0。平滑之后，标签形式为(/>,/>,…,/>)，放宽了标签的约束，避免过拟合。则标签平滑交叉熵损失函数如下：

。

对于一批包含M个行人，每个行人N张图像的批次数据，给定一张锚点图像，将其特征记为，三元组损失可如下表示：

，

其中最难正样本和最难负样本的特征分别记为和/>，超参数间隔记为/>，表示两个特征表示之间的欧几里得距离。[a]₊=max(a,0)避免取值为负。

因此，行人重识别网络_1/3的损失函数可以表示为：

。

行人重识别网络_1/2和行人重识别网络₁的损失函数是和行人重识别网络_1/3同样的计算方式，只是特征的输入不同。

整体行人重识别网络总的损失记为：

，

其中和/>分别是行人重识别网络_1/2和行人重识别网络₁的损失函数。

训练时，类似于其他多任务学习方法，对和/>分别进行反向传播。根据损失函数，使用Adam优化器，权重衰减设为5e-4，一共训练60个epoch。得到训练好的模型。

在步骤S4中，利用训练好的模型来进行行人重识别。将待识别的视频分割为连续的帧，并统一图像尺寸，获取高分辨率图像和低分辨率图像，将高分辨率图像进行多尺度下采样后连同低分辨率图像一起，输入到训练好的图像重构网络，得到各尺度重构图像，再分别输入到对应的训练好的行人重识别网络，提取各个尺度下的特征并进行拼接，得到最终的行人特征表示。

下面通过实验对该方法的性能进行验证，并与现有技术中多种行人重识别方法进行对比。实验中所有图像的尺寸均被调整为256*128，模型总计训练60个Epoch，每批次训练数据包含随机抽取的属于5个行人的20张图像。对于每个行人，选取2张高分辨率图像和2张低分辨率图像。在训练图像重构网络时仅使用高分辨率图像以及下采样得到的图像。

在级联多尺度重构模块中，编码器核的大小设为3。在前30个Epoch中，学习率设为，并在剩下的30个Epoch中将学习率降低为/>。

在多尺度行人特征学习模块中，使用在ImageNet上预训练的ResNet-50作为行人重识别骨干网络。在前30个Epoch中，学习率设为，并在剩下的30个Epoch中将学习率降低为/>。三元组损失中的超参数间隔m设为0.5。

采用五个公开的跨分辨率行人重识别数据集上进行实验，包括一个真实的跨分辨率数据集CAVIAR和四个模拟跨分辨率数据集(即MLR-Market-1501，MLR-CUHK03，MLRVIPeR和MLR-SYSU)，对训练得到的模型进行测试。

CAVIAR数据集的图像采自2个摄像机，包括属于72个行人的1220张图像。由于两个摄像机和行人之间的距离不同，这两个摄像机采集到的行人图像具有不同的分辨率。将只出现在一个摄像机中的22个行人的图像移除。对于剩下的50个行人，为每个行人选取10张高分辨率图像和10张低分辨率图像构建数据集。

MLR-Market-1501是基于包含6个摄像机图像的Market-1501 数据集构建而成的，包含属于751个行人的3,561张训练图像和属于750个行人的15,913张测试图像。随机选择一个摄像机中的图像并对其下采样，下采样系数从中随机选择，生成包含三个分辨率尺度的低分辨率图像。其它摄像机中的图像保持不变。

MLR-CUHK03数据集是基于包含5个摄像机，1,467个行人的14,097张图像的CUHK03数据集构建而成的，其中训练集图像包含1,367个行人，剩余100个行人的图像用作测试集。

MLR-VIPeR数据集是基于包含2个摄像机，632个行人的1,264张图像的VIPeR数据集构建而成的。该数据集根据行人身份标注被随机地分为不重叠的两部分，分别用于训练和测试。

MLR-SYSU数据集是基于包含2个摄像机，502个行人的24,446张图像的SYSU数据集构建而成的。对于每个行人，随机地从每个摄像机中选取3张图像。这些图像根据行人身份标注被随机地划分为不重叠的两个部分，分别用于训练和测试。

MLR-CUHK03、MLR-VIPeR、MLR-SYSU和MLR-Market-1501数据集采用相同的下采样策略。

如图5所示，测试图像先通过级联多尺度重构模块，依次经过三个分辨率尺度下的图像重构网络，并生成三张重构图像；接着通过多尺度行人特征学习模块，经过每个尺度下的行人重识别网络从重构图像中提取特征。最后将对应于三个分辨率尺度的特征拼接成为该测试图像的最终特征表示。

表1示出了本发明所提方法和其他跨分辨率行人重识别方法在上述数据集上的性能表现。表中JUDEA、SLD2L、SDF、SING 、CSR-GAN、FFSR+RIFE、RAIN、CAD-Net、INTACT、RI、PCB+RI、APSR以及MRJL均为跨分辨率行人重识别方法。相比较而言，本发明所提方法在真实跨分辨率数据集CAVIAR上取得了62.4%的Rank-1准确率，领先于其他所有对比方法。在4个人工数据集(MLR-VIPeR、MLR-SYSU、MLR-Market-1501 和MLR-CUHK03)上，性能表现达到了先进水平，大部分性能指标达到了目前最高水平。

表1 本方法与其他行人重识别方法的准确度对比

本发明能够较为准确识别跨分辨率的行人图像，可应用在多个领域中提升效率，例如，可以帮助安全监控系统更好地追踪和识别可疑行为，提高公共场所的安全性；利用本发明能够识别顾客的身份和行为习惯，为企业提供更好的个性化服务和精准营销。

Claims

1.一种基于多尺度图像及特征层对齐的跨分辨率行人重识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述步骤（1）中，每帧图像的尺寸都裁剪为包含256*128个像素，选取高分辨率行人图像样本和低分辨率行人图像样本，将所有图像样本转换为张量的数据形式，使用通道均值和标准差进行标准化，再将张量归一化为(0,1)之间。

3.根据权利要求1所述的方法，其特征在于，所述步骤（2）中，对高分辨率行人图像样本进行多尺度下采样包括：对每张图像进行下采样操作并生成三张具有不同分辨率的图像，所使用的下采样系数从中随机选择，所对应的分辨率分别记为/>、/>和/>，之后使用双线性插值上采样方法对经下采样的图像拉伸至原来的尺寸，对应图像分别记为、/>和/>。

4.根据权利要求3所述的方法，其特征在于，所述级联的多尺度图像重构网络包括具有相同网络结构但不进行权值共享的三个图像重构网络，每个图像重构网络包括一个编码器和一个解码器：编码器用于从图像中提取特征表示，其由两部分组成，每个部分包含了四个卷积层，第一个卷积层的输出结果和第四个卷积层的输出结果被连接起来作为这部分的输出；解码器由两个反卷积层组成，用于将编码器提取的特征重建成图像。

5.根据权利要求1所述的方法，其特征在于，图像重构网络的损失函数由每一级图像重构网络的输出图像与对应分辨率尺度图像之间的距离的总和构成。

6.根据权利要求5所述的方法，其特征在于，所述距离采用均方误差来衡量。

7.根据权利要求1所述的方法，其特征在于，所述行人重识别网络采用ResNet-50作为骨干网络，骨干网络输出的张量被平均池化层水平地分成4个局部特征，并拼接作为行人重识别网络的输出。

8.根据权利要求1所述的方法，其特征在于，每个行人重识别网络的损失函数由标签平滑交叉熵损失和三元组损失的和构成。

9.根据权利要求8所述的方法，其特征在于，标签平滑交叉熵损失定义如下：

，

其中l是当前图像的真实行人身份标签，是用来控制标签放宽程度的参数，/>。

10.根据权利要求8所述的方法，其特征在于，三元组损失定义为：

，