CN111783576B

CN111783576B - 基于改进型YOLOv3网络和特征融合的行人重识别方法

Info

Publication number: CN111783576B
Application number: CN202010562392.6A
Authority: CN
Inventors: 姬红兵; 段育松; 张文博; 李林; 臧博
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-06-18
Filing date: 2020-06-18
Publication date: 2023-08-18
Anticipated expiration: 2040-06-18
Also published as: CN111783576A

Abstract

本发明公开了一种基于改进型YOLOv3网络和特征融合的行人重识别方法，主要解决现有技术在视频监控场景中对特定行人检索精度低且速度慢的问题。其方案为：1)构建行人图片数据集；2)搭建改进型YOLOv3网络；3)搭建融合全局特征和多尺度局部特征的行人重识别网络；4)利用数据集训练改进型YOLOv3网络和行人重识别网络；5)融合2)和3)训练后的这两个网络得到行人重识别系统；6)将监控视频和待检索的目标行人图片输入到行人重识别系统，对待检索目标行人进行检索，输出目标行人的重识别结果。本发明增强了对不同姿态行人的敏感度，提高了行人重识别的检索速度和精度，可用于区域安防、刑事侦查、视频监控及行为理解。

Description

基于改进型YOLOv3网络和特征融合的行人重识别方法

技术领域

本发明属于计算机视觉领域，特别是涉及一种行人重识别方法，可用于区域安防、刑事侦查、视频监控及行为理解。

背景技术

近年来，越来越多的摄像机被部署到公共场所中。如何借助人工智能技术实现海量视频数据的智能分析和应用，已成为构建智能安防的关键。其中，行人重识别ReID正属于其中的核心课题之一。

随着人脸识别技术的发展，行业开始寻求更多技术应用的可能性。行人重识别技术作为人脸技术的重要补充和扩展，越来越多互联网巨头和科技独角兽开始意识到它的重要性，并逐渐在行人重识别研究领域投入资源。行人重识别ReID技术能够识别人的服装穿着、体态与发型，主要解决跨摄像头跨场景情况下对行人的识别、追踪与检索。

行人重识别是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术，广泛被认为是一个图像检索的子问题。不同于人脸识别，行人重识别是将同一个人在不同摄像设备下的影像匹配起来，生成跨摄像头跨空间的目标人物检索。

一套以视频为输入的行人重识别系统包括行人检测和行人重识别。如图2所示。行人检测系统将输入的原始视频转化为待检索的行人图像，行人重识别对待检索的行人图像进行特征提取和相似度度量，实现对给定目标人物的识别。

传统的行人重识别方法依赖手工图像特征，比如颜色、Haar-like特征、直方图HOG、尺度不变特征变换SIFT、局部二值模式LBP和局部最大发生LOMO，这些方法均忽略了目标敏感区域，易受非目标区域的干扰，导致检测精度降低，运算量大。

发明内容

本发明的目的在于针对上述现有技术的不足，提供一种基于改进型YOLOv3网络和特征融合的行人重识别方法，以减小运算量，提高检测精度，保证检测的实时性。

本发明的技术方案是这样实现的：

一.技术原理

由于视频监控场景中行人数量众多且不同行人个体差异较小、难以区分，影响计算机在视频中检测特定行人的性能。如何使网络将不同行人的特征进行区分，学习到更具代表性的特征至关重要。因此，本发明主要基于深度学习的行人重识别研究，通过调整训练获得深度卷积神经网络模型，采用该模型进行特征提取，结合分类器进行网络训练，形成基于深度学习的行人重识别系统。通过对YOLOv3网络进行修改、剪枝以改进优化行人检测网络框架，使得行人检测网络更适用于对行人进行识别和检测，有效提升行人检测的速度和准确度；同时在全局特征的基础上，通过引入基于局部特征的方法，利用图片切块模型提取到的行人局部特征进行相似度度量，得到融合全局特征和多尺度局部特征的行人重识别方法。

二.技术方案

根据上述原理，本发明的实现步骤包括如下：

(1)构建训练数据集：

(1a)采集至少30000张像素不低于64×128的图像，图像必须包含行人目标，且每个行人至少由两个摄像头捕捉到；

(1b)对每一张图像中行人的边界框进行人工标注，绘制行人检测矩形框；

(1c)将所采集到的行人图像按照3:1的比例构建成训练集和验证集；

(2)构建改进型YOLOv3行人检测网络：

(2a)对YOLOv3网络中的特征提取网络Darknet-53进剪枝优化，得到改进的特征提取网络Darknet-37；

(2b)根据特征金字塔网络结构，设计4个尺度检测模块，通过上采样和融合不同层的特征，在4个不同尺度的特征图上检测物体的类别；

(2c)利用标签平滑正则化优化方法优化行人检测类的概率分布，得到改进后的YOLOv3行人检测网络；

(3)构建全局特征和局部特征融合的行人重识别网络：

(3a)输入数据，并采用随机擦除对其进行数据增广，通过随机擦除，原图部分区域被一个布满随机值的矩形框给覆盖了，来表示行人图片被遮挡，并以此进行输入数据的增强；

(3b)搭建一个50层的残差网络ResNet50，加载ImageNet数据集的预训练权重，利用ResNet50残差网络从输入图像提取特征；

(3c)对提取的特征分别进行全局池化和水平池化，分别得到全局特征和局部特征，融合全局特征和局部特征进行相似度度量，检索特定行人目标；

(4)对(2)和(3)构建的两个网络分别进行训练：

(4a)将三元组损失、中心损失、ID损失进行结合得到训练用的损失函数L，结合损失函数L在(1c)构建的训练集中分别对(2)和(3)构建的两个网络进行初步训练，使网络学习到更多有区别的特征；

(4b)用(1c)构建的验证集分别对(4a)初步训练后两个网络进行超参数调整和初步评估，输出分类预测，进行迭代训练，直到分类准确率超过设定的阈值0.96，得到训练后的改进型YOLOv3网络和重识别网络；

(5)将训练后的改进型YOLOv3网络和训练后的重识别网络进行整合，得到一个行人重识别系统框架；

(6)采集监控视频，并存储至计算机硬盘；

(7)输入待检索的目标行人图片；

(8)用(5)得到的行人重识别系统框架对(6)采集到的监控视频进行端到端的检索，并与(7)给定的目标行人图片进行比对，得到对给定目标行人的重识别结果。

与现有技术相比较，本发明具有如下优点：

第一，由于本发明构建了一个改进型YOLOv3行人检测网络，对特征提取网络进行优化和剪枝，得到卷积层数量减少到37层的特征提取网络Darknet-37，降低了网络参数量，提升了检测效率；同时由于在该网络中引入了标签平滑正则化计算类的概率分布，促进了神经网络通过激活函数后分类概率向正确分类靠近；此外由于在该网络中引入特征金字塔网络模块，通过上采样和融合不同层的特征，利用底层特征的高分辨率和高层特征的语义信息，在4个不同尺度的特征图上检测物体，给不同尺度特征图分配准确的锚点框，提高了行人检测的精度。

第二，由于本发明构建了一个残差网络ResNet50对待检索的行人图像进行特征提取，采用随机擦除进行数据增广，扩充样本，有效提升了模型的泛化能力和鲁棒性；同时该网络通过结合全局池化和水平池化，分别得到全局特征和局部特征，对全局特征和局部特征进行融合，可有效解决行人身体部分被遮挡、行人姿态的改变以及人体变形问题下的重识别问题；

第三，由于本发明在行人重识别系统中使用改进的YOLOv3网络和全局特征和局部特征融合的行人重识别网络，并结合三元组损失、中心损失、ID损失进行训练，实现了对模型的约束，有效降低了模型的过拟合程度，提升网络框架的泛化能力，能够快速、高精度地针对监控视频中的特定行人进行检索。

附图说明

图1为本发明的实现流程图；

图2为本发明中的行人重识别系统示意图；

图3为本发明中的Darknet-37网络框架示意图；

图4为本发明中的ResNet50网络框架示意图；

图5为用本发明对室外行人进行重识别的实验结果图；

图6为用本发明对室内行人进行重识别的实验结果图。

具体实施方式

以下结合附图对本发明的实施例和效果作进一步详细描述。

参照图1本实例的实现步骤如下：

步骤1，构建行人图片训练样本数据集。

采集至少30000张像素不低于64×128的图像，图像必须包含行人目标，并且每个行人至少由两个摄像头捕捉到；

对包含行人的每一张图像中行人的边界框进行人工标注，绘制行人检测矩形框；

将所采集到的行人图像按照3:1的比例构建成训练数据集和验证数据集。

步骤2，构建改进型YOLOv3行人检测网络。

2.1)对YOLOv3网络中的特征提取网络Darknet-53进剪枝优化，得到改进的特征提取网络Darknet-37：

参照图3，本实例改进后的特征提取网络Darknet-37的网络框架包括输入层，多个卷积层，多个组合模块，全局平均池化层，全连接层；其结构依次为：输入层→第一卷积层→第二卷积层→第一组合模块→第三卷积层→第二组合模块→第四卷积层→第三组合模块→第五卷积层→第四组合模块→第六卷积层→第五组合模块→全局平均池化层→全连接层；所述的第一组合模块由通道数分别为32和64的两个卷积层和一个残差模块依次连接组成；所述的第二组合模块由两组通道数分别为64和128的两个卷积层和一个残差模块依次连接组成；所述的第三组合模块由四组通道数分别为128和256的两个卷积层和一个残差模块依次连接组成；所述的第四组合模块由四组通道数分别为256和512的两个卷积层和一个残差模块依次连接组成；所述的第五组合模块由四组通道数分别为512和1024的两个卷积层和一个残差模块依次连接组成。

2.2)根据特征金字塔网络结构，通过上采样和融合不同层的特征，利用底层特征的高分辨率和高层特征的语义信息，设计4个尺度检测模块，给不同尺度特征图分配准确的锚点框，在4个不同尺度的特征图上检测物体的类别；

2.3)利用标签平滑正则化优化方法计算标签平滑后的样本标签s'：

其中s为当前样本的单热分布标签，ε为平滑因子，K是行人标签类的总数；

2.4)利用标签平滑后的样本标签s'优化行人检测类的概率分布，促进神经网络通过激活函数后的分类概率向正确分类靠近，即正确的分类概率输出大，得到改进后的YOLOv3行人检测网络。

步骤3，构建全局特征和局部特征融合的行人重识别网络。

3.1)输入数据，并采用随机擦除对其进行数据增广：

3.1.1)设原始图片宽为W，高为H，图片面积为S＝W×H；

3.1.2)设随机擦除区域宽为W_r，高为H_r，擦除面积为S_r＝W_r×H_r；

3.1.3)设擦除区域的矩形长宽比r_r满足条件：擦除区域的矩形面积S_r满足条件：S₁＜S_r＝H_r×W_r＜S₂，其中r₁,r₂分别是矩形长宽比r_r的上下阈值，S₁,S₂分别是矩形面积S_r的上下阈值；

3.1.4)设置随机擦除的概率为P，对输入图像进行随机擦除，0<P<1；

3.2)构建残差网络ResNet50：

参照图4，本步骤搭建的50层的残差网络ResNet50，其网络结构依次为：输入层→特征提取层→最大池化层→组合模块；

所述特征提取层，其包括64个特征映射图，每一个特征映射图的卷积核大小为7×7个像素，步长为2个像素；

所述的组合模块，由十六个残差模块依次连接组成，每个残差模块由三个卷积层组成，其中第三个卷积层的输出与第一个卷积层的输入相连接；

该第一残差模块、第二残差模块、第三残差模块中第一个卷积层的特征映射图均为64个，每一个特征映射图的卷积核大小均为1×1个像素，步长均为1个像素；第二个卷积层的特征映射图均为64个，每一个特征映射图的卷积核大小均为3×3个像素，步长均为1个像素；第三个卷积层的特征映射图均为256个，每一个特征映射图的卷积核大小均为1×1个像素，步长均为1个像素；

该第四残差模块、第五残差模块、第六残差模块和第七残差模块中第一个卷积层的特征映射图均为128个，每一个特征映射图的卷积核大小均为1×1个像素，步长均为2个像素；第二个卷积层的特征映射图均为128个，每一个特征映射图的卷积核大小均为3×3个像素，步长均为1个像素；第三个卷积层的特征映射图均为512个，每一个特征映射图的卷积核大小均为1×1个像素，步长均为1个像素；

该第八残差模块、第九残差模块、第十残差模块、第十一残差模块、第十二残差模块、第十三残差模块中第一个卷积层的特征映射图均为256个，每一个特征映射图的卷积核大小均为1×1个像素，步长均为2个像素；第二个卷积层的特征映射图均为256个，每一个特征映射图的卷积核大小均为3×3个像素，步长均为1个像素；第三个卷积层的特征映射图均为1024个，每一个特征映射图的卷积核大小均为1×1个像素，步长均为1个像素；

该第十四残差模块、第十五残差模块、第十六残差模块中第一个卷积层的特征映射图均为512个，每一个特征映射图的卷积核大小均为1×1个像素，步长均为2个像素；第二个卷积层的特征映射图均为512个，每一个特征映射图的卷积核大小均为3×3个像素，步长均为1个像素；第三个卷积层的特征映射图均为2048个，每一个特征映射图的卷积核大小均为1×1个像素，步长均为1个像素；

3.3)加载ImageNet数据集的预训练权重，利用ResNet50残差网络从输入图像提取特征图；

3.4)对残差网络ResNet50输出的特征分别进行全局池化和水平池化，分别得到每张图片的全局特征和局部特征：

3.4.1)全局池化，即基于整张特征图提取特征，得到全局特征；

3.4.2)水平池化，即基于水平方向对每一张特征图的2048×7×7的特征向量通过水平池化和1×1卷积生成128×7的特征图，得到每行的局部特征f_i，i∈1,2,3,...,7；

3.5)计算两张图片的全局特征距离和局部特征距离：

3.5.1)利用欧几里得距离度量函数计算两张图片的全局特征距离L₂：

其中I₁,I₂分别为两张图片的P维向量；

3.5.2)计算两张图片的局部特征距离S_i,j：

首先，从上到下动态匹配同一个行人的两个局部图像，通过逐元素变换将局部特征距离进行归一化，得到最短路径d_i,j：

其中d_i,j是第一图像的第i个垂直部分和第二图像的第j个垂直部分之间的距离，f_i，g_i分别为两个图像每行的局部特征；

然后，通过最短路径d_i,j找到两张图片对齐的最佳局部特征距离S_i,j：

3.6)对全局特征距离L₂和最佳局部特征距离S_i,j进行求和，得到相似度度量L_S：

L_S＝L₂+S_i,j。

步骤4，对步骤二和步骤三构建的两个网络分别进行训练。

4.1)结合三元组损失、中心损失、ID损失得到网络的损失函数L：

三元组损失：L_Triplet＝[d_p-d_n+α]₊＝max{(d_p-d_n+α),0}，其中d_p与d_n分别表示正样本对与负样本对的特征距离，α是三元组损失的权重，设置α为0.3；

中心损失：其中f_j表示全连接层之前第j张样本的特征，y_j表示小批量中第j张样本的标签，/>表示第y_j个类的特征中心，B是小批量的个数，2-范数的最大奇异值；

ID损失：其中q(k)通过图片x的ID标签得到，p(k)为图片x属于第k(k∈1,2,3,...,M)个行人ID的概率；

网络的损失函数L为：L＝L_Triplet+βL_Center+L_ID，其中β是中心损失的权重，取值为0.001；

4.2)在构建的训练数据集中分别对改进的YOLOv3网络和ResNet50残差网络进行初步训练，直到损失函数L收敛，使网络学习到更多有区别的特征；

4.3)用构建的验证数据集分别对初步训练后的两个网络进行超参数调整和评估，输出分类预测结果，并计算其分类准确率：

其中，P表示分类准确率，TP表示将正类预测为正类的训练样本总数，FN表示将正类预测为反类的训练样本总数，FP表示将反类预测为正类的训练样本总数，TN表示将反类预测为反类的训练样本总数；

4.4)设定网络的分类准确率阈值P_t为0.96，将网络的分类准确率P与阈值P_t比较：

若P≥P_t，得到训练后的改进型YOLOv3网络和重识别网络；

若P＜P_t，则返回4.2)，进行迭代训练，直到网络的分类准确率超过设定的阈值0.96，得到训练后的改进型YOLOv3网络和重识别网络。

步骤5，构建行人重识别系统。

将训练后的改进型YOLOv3网络和训练后的行人重识别网络进行整合，即去掉两个网络中的训练部分，保留其中的行人检测和识别部分框架，得到行人重识别系统，如图2所示。

步骤6，采集监控视频，并存储至计算机硬盘，输入给行人重识别系统。

步骤7，将待检索的目标行人图片输入给行人重识别系统。

步骤8，使用行人重识别系统对采集到的监控视频进行端到端的检索，并与待检索的目标行人图片进行比对，输出对给定目标行人的检索结果，完成行人重识别。

本发明的效果可通过以下实验进一步说明：

1.实验条件。

实验环境：计算机采用Inte(R)Core(TM)i5-8400 CPU@2.80GHz 2.81GHz，16GB内存，GPU处理器为GeForce GTX 1060 6GB。

实验设置物体置信度阈值conf-thres＝0.5，非极大值阈值nms-thres＝0.3，行人置信度阈值dis-thres＝1.0。

2.实验内容与结果分析。

实验1，用本发明对采集到的室外行人监控视频进测试，得到多张行人重识别结果，如图5所示，其中图5(a)为输入的特定目标行人图片，图5(b)为行人重识别系统检索监控视频输出的全部该目标行人图片，图5(c)为从图5(b)中挑选放大行人部分的图片。

从图5中可以看到，本发明针对室外行人姿态变换、人物方向变换、行人不对齐、部分遮挡、图片质量低的问题都有良好的鲁棒性。

实验2，用本发明对采集到的室内行人监控视频进测试，得到多张行人重识别结果，如图6所示，其中图6(a)为输入的特定目标行人图片，图6(b)为行人重识别系统检索监控视频输出的全部该目标行人图片，图6(c)为从图6(b)中挑选放大行人部分的图片。

从图6中可以看到，本发明针对室内行人姿态变换、人物方向变换、部分遮挡、图片质量低、行人目标与背景颜色相似的问题都有良好的鲁棒性。

实验3，用本发明中改进后的网络框架与改进前的网络框架分别对相同的监控视频进行行人重识别，分别得到行人重识别结果所用时间，如表1，表2所示。其中表1为原始网络框架的运行用时，每秒传输帧数为14-15，表2为本发明剪枝、优化后的网络框架的运行用时，每秒传输帧数为17-18。

表1原始网络框架检索一帧视频所用时间

当前帧数	视频总帧数	检索到行人/个	所用时间/s	每秒传输帧数
					4458	40889	1	0.056	18
4461	40889	1	0.058	17
					4464	40889	1	0.056	18
4467	40889	1	0.056	18
					4469	40889	1	0.058	17

表2改进后的网络框架检索一帧视频所用时间

当前帧数	视频总帧数	检索到行人/个	所用时间/s	每秒传输帧数
					4458	40889	1	0.066	15
4461	40889	1	0.067	15
					4464	40889	1	0.069	14
4467	40889	1	0.067	15
					4469	40889	1	0.070	14

从表1和表2中可以看到，本发明改进后的网络框架相较改进前的网络框架在运行速度方面有较大提升。

综上所述，本发明提出的一种改进型YOLOv3网络和全局特征与局部特征融合的行人重识别方法可以更好的帮助对齐不同图像中人体区域特征，增强局部细节信息的表示能力，有效提升检索速度和精度，且网络的泛化能力和鲁棒性也得到增强。

以上仅为本发明的一个具体实例，以便于本技术领域的技术人员理解本发明，但本发明不限于该具体实例的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在本发明的保护之列。

Claims

1.基于改进型YOLOv3网络和特征融合的行人重识别方法，其特征在于，包括如下：

(1)构建训练数据集：

(2)构建改进型YOLOv3行人检测网络：

(2a)对YOLOv3网络中的特征提取网络Darknet-53进剪枝优化，得到改进的特征提取网络Darknet-37；其结构依次为：

输入层→第一卷积层→第二卷积层→第一组合模块→第三卷积层→第二组合模块→第四卷积层→第三组合模块→第五卷积层→第四组合模块→第六卷积层→第五组合模块→全局平均池化层→全连接层，其中：

第一组合模块，由通道数分别为32和64的两个卷积层和一个残差模块依次连接组成；

第二组合模块，由两组通道数分别为64和128的两个卷积层和一个残差模块依次连接组成；

第三组合模块，由四组通道数分别为128和256的两个卷积层和一个残差模块依次连接组成；

第四组合模块，由四组通道数分别为256和512的两个卷积层和一个残差模块依次连接组成；

第五组合模块，由四组通道数分别为512和1024的两个卷积层和一个残差模块依次连接组成；

(3)构建全局特征和局部特征融合的行人重识别网络：

(3a)输入数据，并采用随机擦除对其进行数据增广；

(4)对(2)和(3)构建的两个网络分别进行训练：

(4b)用(1c)构建的验证集分别对(4a)初步训练后两个网络进行超参数调整和评估，输出分类预测，进行迭代训练，直到分类准确率超过设定的阈值0.96，得到训练后的改进型YOLOv3网络和重识别网络；

(5)将训练后的改进型YOLOv3网络和训练后的重识别网络进行整合，得到行人重识别系统；

(6)采集监控视频，输入给行人重识别系统；

(7)将待检索的目标行人图片输入给行人重识别系统；

(8)用(5)得到的行人重识别系统对(6)输入的监控视频进行端到端的检索，并与(7)给定的目标行人图片进行比对，得到对给定目标行人的重识别结果。

2.根据权利要求1所述的方法，其特征在于，(2c)中利用标签平滑正则化优化方法优化行人检测类的概率分布，公式如下：

其中s为当前样本的单热分布标签，s'为标签平滑后的样本标签，ε为平滑因子，K是行人标签类别的总数。

3.根据权利要求1所述的方法，其特征在于，(3a)中的随机擦除，实现如下：

(3a1)设原始图片宽为W，高为H，图片面积为S＝W×H；

(3a2)设随机擦除区域宽为W_r，高为H_r，擦除面积为S_r＝W_r×H_r；

(3a3)设擦除区域的矩形长宽比r_r满足条件：擦除区域的矩形面积S_r满足条件：S₁＜S_r＝H_r×W_r＜S₂，其中r₁,r₂分别是矩形长宽比r_r的上下阈值，S₁,S₂分别是矩形面积S_r的上下阈值；

(3a4)设置随机擦除的概率为P，对输入图像进行随机擦除，0<P<1。

4.根据权利要求1所述的方法，其特征在于，(3b)中的残差网络ResNet50，其结构依次为：输入层→特征提取层→最大池化层→组合模块；

所述特征提取层，其特征映射图为64个，卷积核大小为7×7个像素，步长为2个像素；

该第一残差模块、第二残差模块、第三残差模块中第一个卷积层的特征映射图均为64个，卷积核大小均为1×1个像素，步长均为1个像素；第二个卷积层的特征映射图均为64个，卷积核大小均为3×3个像素，步长均为1个像素；第三个卷积层的特征映射图均为256个，卷积核大小均为1×1个像素，步长均为1个像素；

该第四残差模块、第五残差模块、第六残差模块、第七残差模块中第一个卷积层的特征映射图均为128个，卷积核大小均为1×1个像素，步长均为2个像素；第二个卷积层的特征映射图均为128个，卷积核大小均为3×3个像素，步长均为1个像素；第三个卷积层的特征映射图均为512个，卷积核大小均为1×1个像素，步长均为1个像素；

该第八残差模块、第九残差模块、第十残差模块、第十一残差模块、第十二残差模块、第十三残差模块中第一个卷积层的特征映射图均为256个，卷积核大小均为1×1个像素，步长均为2个像素；第二个卷积层的特征映射图均为256个，卷积核大小均为3×3个像素，步长均为1个像素；第三个卷积层的特征映射图均为1024个，卷积核大小均为1×1个像素，步长均为1个像素；

该第十四残差模块、第十五残差模块、第十六残差模块中第一个卷积层的特征映射图均为512个，卷积核大小均为1×1个像素，步长均为2个像素；第二个卷积层的特征映射图均为512个，卷积核大小均为3×3个像素，步长均为1个像素；第三个卷积层的特征映射图均为2048个，卷积核大小均为1×1个像素，步长均为1个像素。

5.根据权利要求1所述的方法，其特征在于，(3c)中融合全局特征和局部特征进行相似度度量，实现如下：

(3c1)利用欧几里得距离度量函数计算两张图片的全局特征距离L₂：

其中I₁,I₂为两张图片的P维向量；

(3c2)计算局部特征距离S_i,j：

首先，从上到下动态匹配同一个行人的两个局部图像，通过逐元素变换将距离归一化最短路径d_i,j：

其中d_i,j是第一图像的第i个垂直部分和第二图像的第j个垂直部分之间的距离，f_i，g_i分别为两个图像的局部特征；

然后，通过该最短路径d_i,j找到两张图片对齐的最佳局部特征距离S_i,j：

(3c3)对全局特征距离L₂和局部特征距离S_i,j进行求和，得到相似度度量L_S：

L_S＝L₂+S_i,j。

6.根据权利要求1所述的方法，其特征在于，(4a)将三元组损失、中心损失、ID损失进行结合得到训练用的损失函数L，实现如下：

(4a1)三元组损失、中心损失、ID损失分别表示如下：

(4a2)根据三元组损失、中心损失、ID损失，得到网络训练的损失函数L为：

L＝L_Triplet+βL_Center+L_ID；

其中β是中心损失的权重，取值为0.001。

7.根据权利要求1所述的方法，其特征在于，(4b)中的分类准确率，计算如下：

其中，P表示分类准确率，TP表示将正类预测为正类的训练样本总数，FN表示将正类预测为反类的训练样本总数，FP表示将反类预测为正类的训练样本总数，TN表示将反类预测为反类的训练样本总数。