CN110781817B

CN110781817B - 一种解决部件不对齐的行人再识别方法

Info

Publication number: CN110781817B
Application number: CN201911024291.7A
Authority: CN
Inventors: 杨育彬; 林喜鹏
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2019-10-25
Filing date: 2019-10-25
Publication date: 2022-05-17
Anticipated expiration: 2039-10-25
Also published as: CN110781817A

Abstract

本发明公开了一种解决部件不对齐的行人再识别方法，包括：对行人图像进行数据预处理，调整行人图像的大小并进行数据增强，再进行数据标准化处理；构造行人再识别的网络模型，即构造行人图像的深度表征，通过骨干网络模型提取多层特征，使用子模块增强并融合多层特征，形成多分支的结构，提取各个分支的部件特征与全局特征；训练所构造的网络模型，定义实验相关配置，对网络模型的模型参数进行优化；行人再识别，通过训练好的网络模型提取查询图像的深度表征，使用二范式范化后根据每个查询图像与被查询集的相似度，返回每个查询图像的识别结果。通过基于融合多尺度特征解决部件不对齐的行人再识别方法，实现了现阶段最佳的行人再识别性能。

Description

一种解决部件不对齐的行人再识别方法

技术领域

本发明涉及机器学习和计算机视觉领域，尤其涉及一种解决部件不对齐问题的方法。

背景技术

随着现代社会的发展，公共安全逐步受到人们的关注。商场、公寓、学校、医院、办公楼、大型广场等人群密集并且容易发生公共安全事件的场所都安装了大量的监控摄像系统，对监控视频的研究集中体现在对其中可视对象进行识别，尤其是行人识别。这是因为行人一般是监控系统的目标。更确切地讲，监控系统的任务是在监控视频数据中搜索到某个特定的行人，即行人再识别的任务。

然而，一方面由于监控视频的数据量往往十分庞大，另一方面，受到行人所处环境的光线、遮挡物、行人本身的穿着、拍摄角度及摄像头等因素的影响，在海量的监控视频数据中发现特定的行人非常有挑战性。然而通过人工识别进行监控不仅成本高昂，且效率不高，稳定性较差，长远来看仅仅依靠人工识别进行行人再识别是不现实的。因此，通过快速分析公共安全场所的监控视频数据，自动发现特定行人，可以显著提高监控质量，对城市建设以及保障社会安全有着相当重要的意义。

现有的行人再识别方法中，基于部件的深度模型的行人再识别方法拥有最先进的性能，然而由于现阶段基于部件的深度模型往往只切分骨干网络中的高层特征，导致其性能高度依赖于行人部件特征的对齐程度。由于拍摄角度的变化以及现实场景的复杂性，现阶段的行人检测算法有时会输出不够精准的边界框，因此部件不对齐现象在行人再识别任务中是普遍存在的，使得通过部件的深度模型进行行人再识别时的性能不稳定。

发明内容

本发明提供一种解决部件不对齐的行人再识别方法，以解决现阶段基于部件的深度模型的行人再识别方法技术中存在的部件不对齐问题。

一种解决部件不对齐的行人再识别方法，包括：

步骤1，对行人数据集中的行人图像进行数据预处理，包括：调整所述行人图像的大小并进行数据增强，对数据增强后的行人图像进行数据标准化处理，所述行人数据集包括训练集、查询集和被查询集，所述数据增强包括随机水平翻转和随机擦除；

步骤2，构造行人再识别的网络模型，即构造所述行人图像的深度表征，包括：通过骨干网络模型提取多层特征，使用子模块增强并融合所述多层特征，形成多分支的结构，提取各个分支的部件特征与全局特征，所述子模块包括侧向连接模块，上洗模块，融合模块，平滑模块以及缩减模块共五类；

步骤3，训练步骤2所构造的网络模型，包括：定义实验相关配置，对所述网络模型的模型参数进行优化，具体的，通过结合身份分类的交叉熵损失函数以及用于特征度量的改进三元损失函数对模型参数进行优化；

步骤4，行人再识别，包括：通过所述步骤3训练好的网络模型提取查询图像的深度表征，使用二范式范化所述查询图像的深度表征，并根据每个查询图像与被查询集基于余弦距离的相似度，返回所述每个查询图像的识别结果。

进一步地，在一种实现方式中，所述步骤1包括：

步骤1-1，使用双线性插值法调整输入的行人图像的大小，对不同尺寸的行人图像的任一通道，将所述行人图像的尺寸调整为3K×K，所述双线性插值法为以下插值函数：

其中，(x₁,y₁)为行人图像中第一任意点相对于图像宽高的相对坐标，第一任意点坐标(x₁,y₁)的四个顶点的相对坐标分别记为(0,0),(0,1),(1,0),(1,1)；

步骤1-2，通过随机水平翻转所述行人图像进行数据增强，包括：对尺寸为3K×K的行人图像的任一通道，以概率P1随机水平翻转，0＜P1＜1，所述行人图像上的第二任意点(x₂,y₂)关于水平方向的翻转后的对称点的坐标为：

(x_f,y_f)＝(x₂,3K-y₂-1)

其中，(x₂,y₂)为行人图像中第二任意点坐标，0≤x₂≤3K,0≤y₂≤K；

步骤1-3，通过随机擦除所述行人图像进行数据增强，包括：对尺寸为3K×K的行人图像的任一通道，以概率P2，0＜P2＜1，根据以下随机擦出函数，随机擦除一块尺寸为h×w的随机区域，并将所述随机区域内的每个通道的像素值置为该通道的像素值均值：

f(x₃:x₃+h,y₃:y₃+w)＝m

其中，(x₃,y₃)为行人图像中第三任意点坐标，0≤x₃≤3K,0≤y₃≤K，m为行人图像中各个通道的像素值均值；

步骤1-4，将所述行人图像的各个通道的数据进行数据标准化处理，包括：根据以下标准化函数，对尺寸为3K×K的行人图像的任一通道，进行数据标准化处理：

其中，x为步骤1-3得到的行人图像，0≤x≤255，μ为公开数据集ImageNet的均值，δ为公开数据集ImageNet的标准差。

进一步地，在一种实现方式中，所述步骤2包括：

步骤2-1，通过所述骨干网络模型提取多层特征，即提取不同深度的特征，所述不同深度的特征包括：第一层深度特征l₁、第二层深度特征l₂、第三层深度特征l₃和第四层深度特征l₄，所述子模块包括侧向连接模块、上洗模块、融合模块、平滑模块和缩减模块；

通过侧向连接模块增强所述第一层深度特征l₁与第二层深度特征l₂的表征能力；

通过两个上洗模块将所述第三层深度特征l₃的尺寸分别增大到与第一层深度特征l₁和第二层深度特征l₂的尺寸一致；

当所述第一层深度特征l₁的尺寸为C×H×W时，根据所述骨干网络模型，获得所述第二层深度特征l₂的尺寸为2C×H/2×W/2，所述第三层深度特征l₃的尺寸为4C×H/4×W/4，其中，C为通道数，H为第一层深度特征l₁的高，W为第一层深度特征l₁的宽；

通过所述两个上洗模块后，所述第三层深度特征l₃的尺寸分别被放大至与第一层深度特征l₁的尺寸一致，即C×H×W，以及被放大至与所述第二层深度特征l₂的尺寸一致，即2C×H/2×W/2；

将所述第一层深度特征l₁与第三层深度特征l₃按通道维度进行拼接，得到尺寸为2C×H×W的深度特征；

将所述第二层深度特征l₂与第三层深度特征l₃按通道维度进行拼接，得到尺寸为4C×H/2×W/2的深度特征；

步骤2-2，通过融合模块消除所述第三层深度特征l₃与第一层深度特征l₁之间的偏差项，以及消除所述第三层深度特征l₃与第二层深度特征l₂之间的偏差项，获得融合特征；

步骤2-3，通过平滑模块将所述融合特征的尺寸变换至与第三层深度特征l₃的尺寸一致，获得平滑后的融合特征，包括：

通过卷积核大小为5×5，步长为4的降采样卷积层，将所述第一层深度特征l₁与第三层深度特征l₃融合获得的第一融合特征l₁₃的通道数降低至C，尺寸降低至C×H×W，与所述骨干网络的第三层深度特征l₃的尺寸保持一致；

通过卷积核大小为3×3，步长为2的降采样卷积层，将所述第二层深度特征l₂与第三层深度特征l₃融合获得的第二融合特征l₂₃的通道数降低至C，尺寸降低至C×H×W，同样与所述骨干网络的第三层深度特征l₃的尺寸保持一致；

步骤2-4，将所述步骤2-3获得的平滑后的融合特征以及骨干网络中的第三层深度特征l₃分别接入骨干网络中的第四层深度特征l₄对应的网络层，得到全局特征，即形成所述多分支结构，所述全局特征包括：第一全局特征l_4-1，第二全局特征l_4-2和第三全局特征l_4-3；

将所述全局特征切分成部件特征，包括：将所述第一全局特征l_4-1切分成粒度为1的第一部件特征，将所述第二全局特征l_4-2切分成粒度为2的第二部件特征，将所述第三全局特征l_4-3切分成粒度为3的第三部件特征；

使用缩减模块将所述全局特征和部件特征的通道数进一步降低至F，且将所述全局特征和部件特征的尺寸池化为1×1，所述缩减模块为共享的卷积核为1×1卷积层，缩减后的每个所述全局特征和部件特征的尺寸为F×1×1，缩减后的部件特征构成的集合记为S；

将缩减后的所有所述全局特征和部件特征进行拼接即为所构造的行人图像的深度表征，尺寸为M×F，M为所述全局特征与部件特征的总数。

进一步地，在一种实现方式中，所述步骤3包括：

步骤3-1，定义实验相关配置，包括：在所述训练集上训练所述行人再识别模型之前，首先定义用于更新参数的模型优化器；再设置输入图像的批量大小为P×Q，其中，P表示每个批量包括的行人身份的数目，Q表示每个行人身份包括的行人图像的数目；最后设置学习率调度器；所述训练集包含于公开的行人图像数据集，训练集带有行人身份标签，训练集的行人身份标签类数记为Y；

步骤3-2，对所述步骤2中的每个全局特征分别进行优化，包括：通过用于特征度量的改进三元损失函数对每个全局特征取平均，所述改进三元损失函数为：

其中，G表示全局特征的数量，G＝3，

表示第i个行人身份的第g个全局特征的锚样本，

表示第i个行人身份的第g个全局特征的正样本，

表示第i个行人身份的第g个全局特征的负样本，其中，α是控制类间距离和类内距离之差的超参数，1.0＜α＜1.5，1≤i≤P，1≤a≤Q；

步骤3-3，对所述步骤2-4中得到的每个缩减后的部件特征分别使用身份分类的交叉熵损失函数进行优化，每个所述部件特征使用一个无偏置项的线性分类器，所述部件特征与线性分类器一一对应，所述身份分类的交叉熵损失函数为；

其中，fc_j表示第j个线性分类器，f_jq表示第j个部件特征f_j在一个批量中的第q个行人图像的向量，1≤j≤N，1≤q≤P×Q，如步骤3-1所述，P×Q是一个批量的大小，N表示线性分类器的总数，即部件特征的数目，1_r＝y表示一个长度为行人身份数量的独热编码向量，其中独热元素的索引r等于行人图像的身份真值y；

步骤3-4，将每个所述部件特征的平均交叉熵损失函数与每个全局特征的平均改进三元损失函数相加，得到最终训练时使用的损失函数，如下所示：

L＝L_triplet+L_id

步骤3-5，在所述训练集上进行网络模型的模型训练。

进一步地，在一种实现方式中，所述步骤4包括：

步骤4-1，加载通过所述步骤3训练好的骨干网络模型，并使用所述模型提取测试集中的行人图像的深度表征，即提取所述查询图像以及被查询图像的深度表征；

如所述步骤2-4所定义，将所述测试集中所有全局特征以及部件特征拼接起来，所述测试集的每个特征表示为：

其中，N_test表示测试集，θ_T表示迭代次数为T时的参数集合；

最终提取的行人图像的深度表征为：

步骤4-2，消除增强的行人数据集中训练集与测试集的偏差，考虑翻转后的行人图像，将所述行人图像的深度表征

以及翻转后的行人图像的深度表征

相加，作为测试集的行人图像的深度表征

步骤4-3，使用二范数范化所述步骤4-2所得的行人图像的深度表征

根据以下公式，计算二范数：

使用二范数进行范化得到最终的测试集的行人图像的深度表征为：

步骤4-4，根据所述最终的测试集的行人图像的深度表征，计算查询集中每个行人图像与被查询集中的每个行人图像的距离，得到查询集中每个行人图像的查询结果，实现行人再识别；

若所述查询集中的每个行人图像的深度表征为

所述被查询集中的每个行人图像的深度表征为

则查询集与被查询集的距离矩阵为：

其中，N_gallery表示被查询集，N_query表示查询集；

按照由小到大的顺序，对每个查询图像与被查询集中的每个行人图像的距离进行排序，即得到每个查询图像的识别结果。

由以上技术方案可知，本发明实施例提供一种解决部件不对齐的行人再识别方法，包括：步骤1，对行人数据集中的行人图像进行数据预处理，包括：调整所述行人图像的大小并进行数据增强，对数据增强后的行人图像进行数据标准化处理，所述行人数据集包括训练集、查询集和被查询集；步骤2，构造行人再识别的网络模型，即构造所述行人图像的深度表征，包括：通过骨干网络模型提取多层特征，使用子模块增强并融合所述多层特征，形成多分支的结构，提取各个分支的部件特征与全局特征；步骤3，训练步骤2所构造的网络模型，包括：定义实验相关配置，对所述骨干网络模型的模型参数进行优化；步骤4，行人再识别，包括：通过所述步骤3训练好的网络模型提取查询图像的深度表征，使用二范式范化所述查询图像的深度表征，并根据每个查询图像与被查询集基于余弦距离的相似度，返回所述每个查询图像的识别结果。

现有技术中，基于部件的深度模型的行人再识别方法存在部件不对齐的问题，而采用前述方法，通过基于融合的多尺度特征解决部件不对齐的问题，从而提高基于部件的深度模型的行人再识别性能，并基于数据预处理，构建行人深度表征，训练模型及最终完成行人再识别的方法进行，实现了现阶段最佳的行人再识别性能。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例部分提供的一种解决部件不对齐的行人再识别方法的工作流程示意图；

图2是本发明实施例部分提供的一种解决部件不对齐的行人再识别方法中骨干网络结构示意图；

图3是本发明实施例部分提供的一种解决部件不对齐的行人再识别方法中侧向连接模块和平滑模块卷积网络结构示意图；

图4是本发明实施例部分提供的一种解决部件不对齐的行人再识别方法中上洗模块，融合模块以及缩减模块的卷积网络结构示意图；

图5是本发明实施例部分提供的一种解决部件不对齐的行人再识别方法中原始行人图像实例以及融合多尺度特征前后的行人特征的可视化示意图；

图6是本发明实施例部分提供的一种解决部件不对齐的行人再识别方法中查询结果实例图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例公开一种解决部件不对齐的行人再识别方法，本方法应用于快速分析公共安全场所的监控视频数据，自动发现特定行人，可以显著提高监控质量，对城市建设、社会安全有着重要的意义。

如图1所示，为本发明实施例部分提供的一种解决部件不对齐的行人再识别方法的工作流程示意图，本实施例公开一种解决部件不对齐的行人再识别方法，包括：

步骤1，对行人数据集中的行人图像进行数据预处理，包括：调整所述行人图像的大小并进行数据增强，对数据增强后的行人图像进行数据标准化处理，本步骤中，所述行人数据集包括训练集和测试集，所述测试集包括查询集和被查询集，具体的，本发明所使用的行人数据集为任意公开的规范的行人数据集，如Market-1501，DukeMTMC-reID等。所述数据增强包括随机水平翻转和随机擦除，所述行人图像可以通过人工标注或者行人检测算法得到。本实施例中，通过对行人数据集中的行人图像进行数据预处理，可以有效提高样本的多样性。

步骤2，构造行人再识别的网络模型，即构造所述行人图像的深度表征，包括：通过骨干网络模型提取多层特征，使用子模块增强并融合所述多层特征，形成多分支的结构，提取各个分支的部件特征与全局特征。本步骤中，所述各分支的全局特征用于表征对应的行人图像，所述子模块包括侧向连接模块，上洗模块，融合模块，平滑模块以及缩减模块共五类。本发明实施例部分提供的一种解决部件不对齐的行人再识别方法中骨干网络结构示意图如图2所示。图2中，标号为0的箭头表示骨干网络各层，标号为1的箭头表示侧向连接模块，标号为2的箭头表示上洗模块，标号为3的箭头表示融合模块，标号为4的箭头表示平滑模块，标号为5的箭头表示缩减模块。

步骤3，训练步骤2所构造的网络模型，包括：定义实验相关配置，对所述网络模型的模型参数进行优化，具体的，本实施例中，通过结合身份分类的交叉熵损失函数以及用于特征度量的改进三元损失函数对模型参数进行优化。最终训练时使用的损失函数为每个部件的平均交叉熵损失函数与每个全局特征的平均改进三元损失函数之和。

步骤4，行人再识别，包括：在测试集与训练集的行人身份不重复的情况下，通过所述步骤3训练好的网络模型提取查询图像的深度表征，使用二范式范化所述查询图像的深度表征，并根据每个查询图像与被查询集基于余弦距离的相似度，返回所述每个查询图像的识别结果。本步骤中，在行人身份不重复的情况下进行行人再识别，通过返回的识别结果能够验证模型有效性。

在现代社会中，快速分析公共安全场所的监控视频数据，自动发现特定行人，可以显著提高监控质量，对城市建设、社会安全有着重要的意义。现阶段基于部件的深度模型的行人再方法取得了最先进的性能但存在部件不对齐的问题，本发明提供一种解决部件不对齐的行人再识别方法，并实现了现阶段最佳的行人再识别性能。

下面详述本发明的各个步骤，本实施例所述的一种解决部件不对齐的行人再识别方法中，所述步骤1包括：

步骤1-1，使用双线性插值法调整输入的行人图像的大小，对不同尺寸的行人图像的任一通道，将所述行人图像的尺寸调整为3K×K，K一般取自{96，128，192}，所述双线性插值法为以下插值函数，本实施例中，实际训练时K值取128：

其中，(x₁,y₁)为行人图像中第一任意点相对于图像宽高的相对坐标，第一任意点坐标(x₁,y₁)的四个顶点的相对坐标分别记为(0,0),(0,1),(1,0),(1,1)。

步骤1-2，通过随机水平翻转所述行人图像进行数据增强，包括：对尺寸为3K×K的行人图像的任一通道，以概率P1随机水平翻转，0＜P1＜1，本实施例中，概率P1在实际实验时取0.5，所述行人图像上的第二任意点(x₂,y₂)关于水平方向的翻转后的对称点的坐标为：

(x_f,y_f)＝(x₂,3K-y₂-1)

其中，(x₂,y₂)为行人图像中第二任意点坐标，0≤x₂≤3K,0≤y₂≤K。

步骤1-3，通过随机擦除所述行人图像进行数据增强，包括：对尺寸为3K×K的行人图像的任一通道，以概率P2，0＜P2＜1，本实施例中，概率P2在实际实验时取0.5，根据以下随机擦出函数，随机擦除一块尺寸为h×w的随机区域，并将所述随机区域内每个通道的像素值置为该通道的像素值均值：

f(x₃:x₃+h,y₃:y₃+w)＝m

其中，(x₃,y₃)为行人图像中第三任意点坐标，0≤x₃≤3K,0≤y₃≤K，m为行人图像中各个通道的像素值均值。

其中，x为步骤1-3得到的行人图像，0≤x≤255，μ为公开数据集ImageNet的均值，δ为公开数据集ImageNet的标准差。本实施例中，各个通道的μ和δ实际使用的是ImageNet数据集上的均值和方差，具体地，RGB各通道的均值分别为0.485，0.456，0.406，方差分别为0.229，0.224，0.225。

在完成数据预处理之后，需要通过步骤2构筑行人图像的深度表征，本实施例所述的一种解决部件不对齐的行人再识别方法中，所述步骤2包括：

步骤2-1，通过骨干网络模型提取多层特征，本实施例中，所述骨干网络模型是指现有的基础深度卷积神经网络模型，如ResNet，VGG等，通过骨干网络ResNet101即可提取不同深度的特征，所述不同深度的特征包括：第一层深度特征l₁、第二层深度特征l₂、第三层深度特征l₃和第四层深度特征l₄，图2中，第四层深度特征l₄未示出，所述子模块包括侧向连接模块、上洗模块、融合模块、平滑模块和缩减模块，具体的，图2中，标号为0的箭头表示骨干网络各层，标号为1的箭头表示侧向连接模块，标号为2的箭头表示上洗模块，标号为3的箭头表示融合模块，标号为4的箭头表示平滑模块，标号为5的箭头表示缩减模块。

如图3所示，为本发明实施例部分提供的一种解决部件不对齐的行人再识别方法中侧向连接模块和平滑模块卷积网络结构示意图，其中Conv为卷积层，Conv之后的数字是该卷积层的卷积核大小，BatchNorm2d为批量范化层，ReLU为非线性激活函数层。如图4所示，为本发明实施例部分提供的一种解决部件不对齐的行人再识别方法中上洗模块，融合模块以及缩减模块的卷积网络结构示意图，其中PixelShuffle为像素重排层，MaxPooling为全局最大化池化层。

本实施例中，所述步骤2-1包括：通过侧向连接模块增强所述第一层深度特征l₁与第二层深度特征l₂的表征能力。通过两个上洗模块将所述第三层深度特征l₃的尺寸分别增大到与第一层深度特征l₁和第二层深度特征l₂的尺寸一致。

当所述第一层深度特征l₁的尺寸为C×H×W时，本实施例中，一般取W＝K/4，H＝3W，根据所述骨干网络模型，获得所述第二层深度特征l₂的尺寸为2C×H/2×W/2，所述第三层深度特征l₃的尺寸为4C×H/4×W/4，其中，C为通道数，H为第一层深度特征l₁的高，本实施例中为96，W为第一层深度特征l₁的宽，本实施例中为32。

步骤2-2，通过融合模块消除所述第三层深度特征l₃与第一层深度特征l₁之间的偏差项，以及消除所述第三层深度特征l₃与第二层深度特征l₂之间的偏差项，获得融合特征。本步骤中，不同层的特征拥有的语义信息不同，存在一定的偏差，所述融合模块消除其内在的偏差项，所述融合模块并不改变特征尺寸。本实施例中，通过融合模块进行融合后的特征可以有效解决部件不对齐的问题。

通过卷积核大小为3×3，步长为2的降采样卷积层，将所述第二层深度特征l₂与第三层深度特征l₃融合获得的第二融合特征l₂₃的通道数降低至C，尺寸降低至C×H×W，同样与所述骨干网络的第三层深度特征l₃的尺寸保持一致。

步骤2-4，将所述步骤2-3获得的平滑后的融合特征以及骨干网络中的第三层深度特征l₃分别接入骨干网络中的第四层深度特征l₄对应的网络层，得到全局特征，即形成所述多分支结构，所述全局特征包括：第一全局特征l_4-1，第二全局特征l_4-2和第三全局特征l_4-3，本实施例中，l_4-1、l_4-2、l_4-3分别为第一、第二及第三分支。

使用缩减模块将所述全局特征和部件特征的通道数进一步降低至F，且将所述全局特征和部件特征的尺寸池化为1×1，所述缩减模块为共享的卷积核为1×1卷积层，缩减后的每个所述全局特征和部件特征的尺寸为F×1×1，缩减后的部件特征构成的集合记为S；具体的，本实施例中，F取256。

将缩减后的所有所述全局特征和部件特征进行拼接即为所构造的行人图像的深度表征，尺寸为M×F，M为所述全局特征与部件特征的总数，具体的，本实施例中，M取9。

如图5所示，为本发明实施例部分提供的一种解决部件不对齐的行人再识别方法中原始行人图像实例以及融合多尺度特征前后的行人特征的可视化示意图。其中(a)为原始行人图像，(b)为骨干网络特征，(c)为融合的多尺度特征，方框标志出了骨干网络特征出现的不对齐问题。

本实施例所述的一种解决部件不对齐的行人再识别方法中，所述步骤3包括：

步骤3-1，定义实验相关配置，包括：在所述训练集上训练行人再识别模型之前，首先定义用于更新参数的模型优化器，具体的，本实施例中，使用Adam优化器并加载步骤2中构造的行人再识别模型的参数并使用AMSGrad方法；再设置输入图像的批量大小为P×Q，其中，P表示每个批量包括的行人身份的数目，Q表示每个行人身份包括的行人图像的数目。具体的，本实施例中P取12，Q取4；最后设置学习率调度器；所述训练集包含于公开的行人图像数据集，训练集带有行人身份标签，训练集的行人身份标签类数记为Y。具体的，本实施例中，使用多步学习率调度器MultiStepLR，当训练达到预设的迭代次数点时，学习率就降低为原来的gamma倍，本实施例中gamma取0.1，每隔40次迭代就预设一个迭代次数点。

其中，G表示全局特征的数量，G＝3，

表示第i个行人身份的第g个全局特征的锚样本，

表示第i个行人身份的第g个全局特征的正样本，

表示第i个行人身份的第g个全局特征的负样本，其中，α是控制类间距离和类内距离之差的超参数，1.0＜α＜1.5，1≤i≤P，1≤a≤Q，本实施例中，α取1.2。

步骤3-3，对所述步骤2-4中得到的每个缩减后的部件特征分别使用身份分类的交叉熵损失函数进行优化，本实施例中，由于身份分类需要将输出维度与行人身份标签类数Y保持一致，需要为每个部件特征增加一个无偏置项的线性层，从而使得维度为F的部件特征通过线性层将输出维度置为Y，每个所述部件特征使用一个无偏置项的线性分类器，所述部件特征与线性分类器一一对应，所述身份分类的交叉熵损失函数为；

其中，fc_j表示第j个线性分类器，f_jq表示第j个部件特征f_j在一个批量中的第q个行人图像的向量，1≤j≤N，1≤q≤P×Q，如步骤3-1所述，P×Q表示一个批量的大小，N表示线性分类器的总数，即部件特征的数目，1_r＝y表示一个长度为行人身份数量的独热编码向量，其中独热元素的索引r等于行人图像的身份真值y。

L＝L_triplet+L_id

步骤3-5，在所述训练集上进行网络模型的模型训练。具体的训练算法如下所示：

输入：训练集D；行人身份标签y；迭代次数T；采样器S，优化器OPT，学习率调度器LR；初始化参数θ₀，下标为当前迭代次数，初始模型Φ(x；θ₀)；

输出：模型Φ(x；θ_T)；

1加载公开数据集ImageNet上的预训练模型θ₀；

2for t:0→T:

3采样器S根据步骤3-1的配置从训练集D中采样N_b个预处理的行人图像

4优化器OPT清零累积的梯度；

5提取全局特征和部件特征：

6使用步骤3-4中的损失函数得到损失值

7由损失值loss进行反向传播；

8优化器OPT更新模型参数θ_t；

9学习率调度器LR更新学习率。

其中，训练算法输出的模型中的参数下标数字表示迭代次数，即for t:0→T:中的t值，for循环结束时t＝T，且批量大小N_b＝P×Q。

本实施例所述的一种解决部件不对齐的行人再识别方法中，所述步骤4包括：

步骤4-1，加载通过所述步骤3训练好的网络模型，并提取测试集中的行人图像的深度表征，所述测试集包括查询集和被查询集，即使用所述模型提取所述查询图像以及被查询图像的深度表征。

最终提取的行人图像的深度表征为：

步骤4-2，消除增强的行人数据集中训练集与测试集的偏差，由于训练集进行随机水平翻转显著改变了数据分布，具体测试时，需要考虑翻转后的行人图像，将所述行人图像的深度表征

以及翻转后的行人图像的深度表征

相加，作为测试集的行人深度表征

具体的，本实施例中，所述翻转函数如步骤1-2所示。

步骤4-3，使用二范数范化所述步骤4-2所得的行人深度表征

根据以下公式，计算二范数：

使用二范数进行范化得到最终的测试集的行人深度表征为：

步骤4-4，根据所述最终的测试集的行人深度表征，计算查询集中每个行人图像与被查询集中的每个行人图像的距离，得到查询集中每个行人图像的查询结果，实现行人再识别；

若所述查询集中的每个行人图像的深度表征为

所述被查询集中的每个行人图像的深度表征为

则查询集与被查询集的距离矩阵为：

其中，N_gallery表示被查询集，N_query表示查询集；

按照由小到大的顺序，对每个查询图像与所有被查询集中的每个行人图像的距离进行排序，被查询集中的行人图像与查询图像的距离越小，则说明是同一行人身份的可能性越高，由此即可得到每个查询图像的识别结果，一般取前十个查询结果进行评价。

如图6所示，为本发明实施例部分提供的一种解决部件不对齐的行人再识别方法中查询结果实例图，其中√表示正确检索，×表示错误检索，√表示部件不对齐的情况下依旧正确检索，每个实例查询中，第一行是本发明所得到的查询结果，第二行是经典部件模型PCB的查询结果，可以看到当查询和被查询集中的图像不对齐时，本发明依旧可以正确检索，实现了现阶段最佳的行人再识别性能。

由以上技术方案可知，本发明实施例提供一种解决部件不对齐的行人再识别方法，包括：步骤1，对行人数据集中的行人图像进行数据预处理，包括：调整所述行人图像的大小并进行数据增强，对数据增强后的行人图像进行数据标准化处理，所述行人数据集包括训练集、查询集和被查询集；步骤2，构造行人再识别的网络模型，即构造所述行人图像的深度表征，包括：通过骨干网络模型提取多层特征，使用子模块增强并融合所述多层特征，形成多分支的结构，提取各个分支的部件特征与全局特征；步骤3，训练步骤2所构造的网络模型，包括：定义实验相关配置，对所述网络模型的模型参数进行优化；步骤4，行人再识别，包括：通过所述步骤3训练好的网络模型提取查询图像的深度表征，使用二范式范化所述查询图像的深度表征，并根据每个查询图像与被查询集基于余弦距离的相似度，返回所述每个查询图像的识别结果。

现有技术中，由于基于部件的深度模型往往只切分骨干网络中的高层特征，导致其性能高度依赖于行人部件特征的对齐程度。由于拍摄角度的变化以及现实场景的复杂性，现阶段的行人检测算法有时会输出不够精准的边界框，因此部件不对齐现象在行人再识别任务中是普遍存在的，使得通过部件的深度模型进行行人再识别时的性能不稳定。

而采用前述方法，通过基于融合的多尺度特征解决部件不对齐的问题，从而提高基于部件的深度模型的行人再识别性能，并基于数据预处理，构建行人深度表征，训练模型及最终完成行人再识别的方法进行，实现了现阶段最佳的行人再识别性能。

具体实现中，本发明还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可包括本发明提供的一种解决部件不对齐的行人再识别方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文：read-only memory，简称：ROM)或随机存储记忆体(英文：random access memory，简称：RAM)等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中各个实施例之间相同相似的部分互相参见即可。以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims

1.一种解决部件不对齐的行人再识别方法，其特征在于，包括：

步骤1，对行人数据集中的行人图像进行数据预处理，包括：调整所述行人图像的大小并进行数据增强，对数据增强后的行人图像进行数据标准化处理，所述行人数据集包括训练集、查询集和被查询集；

步骤2，构造行人再识别的网络模型，即构造所述行人图像的深度表征，包括：通过骨干网络模型提取多层特征，使用子模块增强并融合所述多层特征，形成多分支的结构，提取各个分支的部件特征与全局特征；

步骤3，训练步骤2所构造的网络模型，包括：定义实验相关配置，对所述网络模型的模型参数进行优化；

步骤4，行人再识别，包括：通过所述步骤3训练好的网络模型提取查询图像的深度表征，使用二范式范化所述查询图像的深度表征，并根据每个查询图像与被查询集基于余弦距离的相似度，返回所述每个查询图像的识别结果；

所述步骤2包括：

步骤2-1，通过骨干网络模型提取多层特征，即提取不同深度的特征，所述不同深度的特征包括：第一层深度特征l₁、第二层深度特征l₂、第三层深度特征l₃和第四层深度特征l₄，所述子模块包括侧向连接模块、上洗模块、融合模块、平滑模块和缩减模块；

步骤2-4，将所述步骤2-3获得的平滑后的融合特征以及骨干网络中的第三层深度特征l₃分别接入骨干网络中的第四层深度特征l₄对应的网络层，得到全局特征，即形成多分支结构，所述全局特征包括：第一全局特征l_4-1，第二全局特征l_4-2和第三全局特征l_4-3；

2.根据权利要求1所述的一种解决部件不对齐的行人再识别方法，其特征在于，所述步骤1包括：

(x_f,y_f)＝(x₂,3K-y₂-1)

步骤1-3，通过随机擦除所述行人图像进行数据增强，包括：对尺寸为3K×K的行人图像的任一通道，以概率P2，0＜P2＜1，根据以下随机擦出函数，随机擦除一块尺寸为h×w的随机区域，并将所述随机区域内的每个通道所有像素值置为该通道的像素值均值：

f(x₃:x₃+h,y₃:y₃+w)＝m

3.根据权利要求2所述的一种解决部件不对齐的行人再识别方法，其特征在于，所述步骤3包括：

步骤3-1，定义实验相关配置，包括：在所述训练集上训练行人再识别模型之前，首先定义用于更新参数的模型优化器；再设置输入图像的批量大小为P×Q，其中，P表示每个批量包括的行人身份的数目，Q表示每个行人身份包括的行人图像的数目；最后设置学习率调度器；所述训练集包含于公开的行人图像数据集，训练集带有行人身份标签，训练集的行人身份标签类数记为Y；

其中，G表示全局特征的数量，G＝3，

表示第i个行人身份的第g个全局特征的锚样本，

表示第i个行人身份的第g个全局特征的正样本，

其中，fc_j表示第j个线性分类器，f_jq表示第j个部件特征f_j在一个批量中的第q个行人图像的向量，1≤j≤N，1≤q≤P×Q，如步骤3-1所述，P×Q表示一个批量的大小，N则表示线性分类器的总数，即部件特征的数目，1_r＝y表示一个长度为行人身份数量的独热编码向量，其中独热元素的索引r等于行人图像的身份真值y；

L＝L_triplet+L_id

步骤3-5，在所述训练集上进行网络模型的模型训练。

4.根据权利要求3所述的一种解决部件不对齐的行人再识别方法，其特征在于，所述步骤4包括：

步骤4-1，加载通过所述步骤3训练好的网络模型，并使用所述模型提取测试集中的行人图像，即提取所述查询图像以及被查询图像的深度表征；