CN116110077A

CN116110077A - 遮挡条件下基于块划分姿态辅助对齐的行人重识别方法

Info

Publication number: CN116110077A
Application number: CN202310089601.3A
Authority: CN
Inventors: 雒江涛; 覃海波
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-02-09
Filing date: 2023-02-09
Publication date: 2023-05-12

Abstract

本发明涉及计算机视觉领域，公开了一种遮挡条件下基于块划分姿态辅助对齐的行人重识别方法，包括：S1、获取含有遮挡的行人图像，对含有遮挡的所述行人图像进行预处理；S2、使用深度残差网络，提取出进行预处理后的所述行人图像的高阶特征图；S3、通过自上向下的人体姿态估计器，从预处理后的所述行人图像提取出行人的人体关节点；S4、利用所述有效关键点生成注意力热图；S5、将所述高阶特征图均匀块划分；S6、使用全局‑分区总损失函数对所述初始行人重识别网络模型进行训练；S7、将查询图像、候选图像作为所述行人重识别网络模型的输入，从所述候选图像中检索出与所述查询图像相同身份的候选排序。本发明提高行人重识别精度。

Description

遮挡条件下基于块划分姿态辅助对齐的行人重识别方法

技术领域

本发明涉及计算机视觉领域，具体涉及遮挡条件下基于块划分姿态辅助对齐的行人重识别方法。

背景技术

行人重识别，是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术，是一个图像检索的子问题，然而，目前在复杂场景下的行人重识别主要存在遮挡区域噪声特征干扰性和特征不对齐的问题。

为解决上述难点，当前大多数工作都采用全局-局部特征相融合的方法，同时兼顾了粗粒度的全局信息和细粒度的局部细节信息的提取，然而，当行人之间遮挡严重，行人间的结构信息差异较小，全局信息的辨别力不强，因此，在行人之间相互遮挡的条件下，如何提取未被遮挡的更具判别力的局部特征是提高行人重识别精度的关键。

目前较为流行的局部特征提取方法通常采用将特征图水平划分为多个部分进行局部特征学习，一定程度上能够提供较好的细粒度信息，但这类方法需要行人图像严格对齐才能达到较好的性能。在实际复杂场景下，行人的姿态不定，难以做到严格对齐，采用水平划分的局部特征往往效果不佳。此外，除了有树木、车辆等遮挡物造成的半身遮挡外，行人之间也存在大量并行遮挡，采用水平划分方法，极大可能舍弃掉水平条状带中被小部分遮挡的具有判别力的细粒度特征，导致行人重识别准确率不高。

发明内容

针对现有技术存在的问题，本发明的目的在于提供遮挡条件下基于块划分姿态辅助对齐的行人重识别方法，改进以往水平划分局部特特征提取方法，采用水平-竖直划分方法，利用残差网络结合全局-局部特征信息，可以有效解决复杂场景下由于遮挡、特征不对齐以及判别力特征被舍弃造成的错误识别问题，提高行人重识别精度。

本发明通过下述技术方案实现：

一种遮挡条件下基于块划分姿态辅助对齐的行人重识别方法，包括：

S1、获取含有遮挡的行人图像，对含有遮挡的所述行人图像进行预处理；

S2、使用深度残差网络，提取出进行预处理后的所述行人图像的高阶特征图；

S3、通过自上向下的人体姿态估计器，从预处理后的所述行人图像提取出行人的人体关节点，并设置置信度阈值过滤所述人体关节点得到有效关键点；

S4、利用所述有效关键点生成注意力热图，并将所述注意力热图映射到所述高阶特征图上，得到未被遮挡的全局特征；

S5、将所述高阶特征图均匀块划分，利用所述有效关键点的坐标信息，得到细粒度的关键点分区特征，从而得到初始行人重识别网络模型；

S6、使用全局-分区总损失函数对所述初始行人重识别网络模型进行训练，得到最终的行人重识别网络模型；

S7、将查询图像、候选图像作为所述行人重识别网络模型的输入，利用深度外观匹配策略，分别计算所述查询图像与候选图像的全局距离、细粒度的关键点分区特征对齐距离，从所述候选图像中检索出与所述查询图像相同身份的候选排序，完成行人重识别任务。

作为优化，S1中，对所述行人图像进行预处理，包括从视频序列中截取含有遮挡的行人图像，并将所有的行人图像的尺寸进行归一化处理，以及对归一化处理后的所述行人图像进行水平翻转和随机擦除。

作为优化，S2的具体步骤为：

S2.1、采用残差网络的conv1、conv2_x、conv3_x、conv4_x、conv5_x建立阶段0至阶段4共5阶段的图像特征提取网络；

S2.2、将所述图像特征提取网络的第4阶段的第一层下采样卷积层conv5_1步长设置为1并对进行预处理后的所述行人图像进行提取，得到更宽的空间维度的高阶特征图。

作为优化，S3的具体步骤为：

S3.1、采用人体估计器，从预处理后的所述行人图像中获取人体的多个关节点，每个关节点包含x坐标、y坐标、关节点标签、关节点分数；

S3.2、设置置信度阈值，过滤掉关节点分数小于所述置信度阈值的关节点，从而得到有效关键点。

作为优化，S4的具体步骤为：

S4.1、利用S3中获取的有效关键点，判断预处理后的所述行人图像中存在的行人数量，将属于同一行人的有效关键点数量超过定义阈值的行人判定为目标行人，保留所述目标行人的有效关键点数据；

S4.2、利用所述目标行人的有效关键点数据，通过二维高斯核函数生成对应的关键点热图；

S4.3、将所述关键点热图通过双线性插值进行尺寸调整，使得所述关键点热图的尺寸与所述高阶特征图一致；

S4.4、将尺寸调整后的关键点热图分别与对应的高阶特征图进行元素相乘操作，得到每个有效关键点的关键点特征图；

S4.5、将每个关键点特征图通过全局平均池化并在垂直方向进行拼接，然后通过最大池化生成通道维度为2048的特征向量；

S4.6、将所述高阶特征图通过全局平均池化生成通道维度为2048的特征向量，然后与S4.5中对应的特征向量进行concat得到通道维度为4096全局特征向量，并使用1×1卷积层批处理归一化和ReLU将4096全局特征向量降维，最终得到所述行人图像未被遮挡的全局特征。

作为优化，S5的具体步骤为：

S5.1、将所述高阶特征图按水平和竖直方向进行均匀块划分，得到所述高阶特征图的分区；

S5.2、利用S3获取的有效关键点，为所述高阶特征图的每个分区标注块标签和关键点标签；

S5.3、对所述高阶特征图的每个分区进行全局平均池化，得到所述高阶特征图的关键点分区特征，并使用1×1卷积层批处理归一化和ReLU将关键点分区特征降维。

作为优化，所述全局-分区总损失函数的设计过程为：

S6.1、采用多分类的交叉熵损失函数设计所述初始行人重识别网络模型的全局损失和分区损失；

S6.2、根据所述初始行人重识别网络模型的全局损失和分区损失设计所述初始行人重识别网络模型的联合全局-分区总损失：

loss_total＝λloss_part+(1-λ)loss_global；

其中，loss_total为全局-分区总损失，loss_part为分区损失，loss_global为全局损失，λ的范围为[0,1]，其取值决定全局损失和分区损失函数对总损失函数的贡献权重。

作为优化，所述多分类的交叉熵损失函数具体为：

其中，N_b和yⁿ分别代表一个批次的数据量和第n个目标的真实ID，

为第n个目标的预测ID，C为类别总数。

作为优化，所述分区损失loss_part和全局损失loss_global分别为：

其中，

为全局特征对应ID的预测值，

为关键点分区特征对应的ID预测值，y为真实ID，p为一个高阶特征图的均匀块划分的数量。

作为优化，S7的具体步骤为：

S7.1、将查询图像输入至所述行人重识别网络模型中，提取所述查询图像的全局特征、关键点分区特征、块标签和关键点标签；

S7.2、分别计算所述查询图像与候选图像的全局距离、关键点分区特征对齐距离：

其中，d_global为查询图像与候选图像的全局距离，d_part为查询图像与候选图像的细粒度关键点分区特征对齐距离，Codist为用余弦距离来衡量样本之间的差异，

分别表示查询图像与候选图像的全局特征，f_i ^q,f_i ^g分别表示查询图像与候选图像的关键点分区特征；

分别为查询图像与候选图像块标签，未含有关键点为0，含有关键点为1；

为查询图像与候选图像关键点标签；⊙代表同或操作，相同为1，不同为0；i代表图像的第i块分块，q代表查询图像，g代表候选图像，p代表图像的分块数目；

S7.3、将所述全局距离和关键点分区特征对齐距离进行归一化处理，得到最终的距离：

S7.4、将S7.3中的距离进行排序得出最终的相似度结果，完成行人重识别。

本发明与现有技术相比，具有如下的优点和有益效果：

本发明是遮挡条件下基于块划分姿态辅助对齐的行人重识别方法，与现有的行人重识别方法相比，本发明充分利用了人体姿态的关键点信息，不仅用关键点热图映射到行人特征图，使网络提取更多的有用的信息和避免由于遮挡造成的错误识别，而且采用水平-竖直划分方法来提取局部细粒度关键点分区特征并进行特征对齐，在一定程度上解决了复杂场景下由于遮挡、特征不对齐以及判别力特征被舍弃造成的错误识别问题，提高行人重识别精度。

附图说明

为了更清楚地说明本发明示例性实施方式的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。在附图中：

图1是本发明遮挡条件下基于块划分姿态辅助特征对齐的行人重识别方法的流程图；

图2是本发明遮挡行人数据集示意图；

图3是本发明用于特征提取的深度残差网络；

图4是本发明中全局特征提取网络结构；

图5是本发明中关键点分区特征提取网络结构。

图6是本发明中关键点分区特征对齐策略。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

如图1所示，本实例提供遮挡条件下基于块划分姿态辅助对齐的行人重识别方法，具体实施步骤如下：

S1、获取含有遮挡的行人图像，如图2所示，对含有遮挡的所述行人图像进行预处理，预处理包括将所有的行人图像归一化尺寸为384×128×3，并且对行人图像进行水平翻转和随机擦除。

采用残差网络的conv1、conv2_x、conv3_x、conv4_x、conv5_x建立阶段0至阶段4共5阶段的图像特征提取网络，如图3所示，将第4阶段的第一层下采样卷积层conv5_1步长设置为1获得更宽的空间维度的高阶特征图，使得目标行人和遮挡信息更容易被分辨。可见，当宽、高、通道数为384×128×3的行人图像通过特征提取网络(深度残差网络)后，提取的高阶特征图的尺寸为24×8×2048。

输入图像原始空间维度为HxW(高x宽)，若第4阶段的第一层下采样卷积层conv5_1步长初始值为2，对应的输出空间维度为H/32xW/32，而将其下采样步长设置为1后，输出空间维度为H/16xW/16。

S3、通过自上向下的人体姿态估计器，从预处理后的所述行人图像提取出行人的人体关节点，并设置置信度阈值过滤所述人体关节点得到有效关键点；每个关节点包含4个数据，分别是x坐标、y坐标、关节点标签、关节点分数，将置信度阈值设置为0.2，关节点分数大于0.2的将被保留作为有效关键点。

S4、利用所述有效关键点生成注意力热图，并将所述注意力热图映射到特征图上，得到未被遮挡的全局特征，其流程如图4所示，其具体实施如下：

本实施例中，S4的具体步骤为：

S4.1、利用S3中获取的有效关键点，判断预处理后的所述行人图像中存在的行人数量，将属于同一行人的有效关键点数量超过定义阈值的行人判定为目标行人，保留所述目标行人的有效关键点数据；关键点是将人体估计器提取的图片中的行人的关节点通过阈值筛选后得到的，人体估计器提取的人体关节点数据是json文件，里面包含了图片中每个能检测到的行人的关节点数据形如{P1:[……]P2:[……],……}，所以这里的有效关键点是属于同一个行人的无需额外判断。

S5、将所述高阶特征图均匀块划分，利用所述有效关键点的坐标信息，得到细粒度的关键点分区特征，从而得到初始行人重识别网络模型，其流程如图5所示，具体实施如下：

S5.1、将行人的所述高阶特征图按水平和竖直方向进行均匀块划分，水平和竖直方向各均匀划分3个部分，最终得到9个均匀的块分区特征图；

S5.2、利用S3获取的有效关键点，为所述高阶特征图的每个分区标注块标签和关键点标签，对于每个分区，当存在有效关键点时，对其赋予块标签l_i且取值为1；反之，当分区不存在有效关键点时，取值为0，即查询图像与候选图像块标签标注方法为未含有关键点为0，含有关键点为1。关键点标签就是人体估计器提取的筛选后的关节点标签。对于含有有效关键点的每个分区，选择有效关键点分数最高的作为主要的有效关键点(对于每一个分区中，可能存在多个有效关键点，在S2中提取的每个关节点包含4个数据，分别是x坐标、y坐标、关节点标签、关节点分数，在本格步骤中，只保留关节点分数最高的那个有效关键点)，并对其所处的分区赋予关键点标签k_i，其包含的数据由S3中提取到的关节点标签给出，包含的诸如头部、颈部等信息；

具体的，所述全局-分区总损失函数的设计过程为：

多分类的交叉熵损失函数具体为：

上式中，N_b和yⁿ分别代表一个批次的数据量和第n个目标的真实ID，

为第n个目标的预测ID，C为类别总数；上述参数都是在训练时初始行人重识别网络模型的输入、输出，这里ID就是图像中行人的身份标签，在训练时真实标签和预测标签作交叉熵损失。

所述分区损失loss_part和全局损失loss_global分别为：

其中，

为全局特征对应ID的预测值，

为关键点分区特征对应的ID预测值，y为真实ID，p为一个高阶特征图的均匀块划分的数量，在本实施例中p取值为9；

loss_total＝λloss_part+(1-λ)loss_global；

其中，loss_total为全局-分区总损失，loss_part为分区损失，loss_global为全局损失，λ的范围为[0,1]，其取值决定全局损失和分区损失函数对总损失函数的贡献权重，在本实施例中λ取值为0.2。

使用全局-分区总损失函数的好处是同时兼顾全局损失和分区损失，而通过全局-分区总损失函数对初始行人重识别网络模型进行训练的训练过程是现有的，过程是将训练过程中的真实值与初始行人重识别网络模型的输出值通过设计的全局-分区总损失函数计算出损失值，然后利用梯度下降法来优化初始行人重识别网络模型。

S7、将查询图像、候选图像作为所述行人重识别网络模型的输入，利用深度外观匹配策略，分别计算所述查询图像与候选图像的全局距离、细粒度的关键点分区特征对齐距离，距离排序得出最终的相似度结果，从所述候选图像中检索出与所述查询图像相同身份的候选排序，完成行人重识别任务，具体实施如下：

S7.1、将查询图像输入至所述行人重识别网络模型中，提取所述查询图像的全局特征、关键点分区特征、块标签和关键点标签；细粒度的关键点分区特征对齐策略如图6所示，只有块标签不为0且关键点标签相同的分区才会进行特征相似度距离计算；

分别表示查询图像与候选图像的全局特征，f_i ^q,f_i ^g分别表示查询图像与候选图像的关键点分区特征；l_i ^q,l_i ^g分别为查询图像与候选图像块标签，未含有关键点为0，含有关键点为1；k_i ^q,k_i ^g为查询图像与候选图像关键点标签；⊙代表同或操作，相同为1，不同为0；i代表图像的第i块分块，q代表查询图像，g代表候选图像，p代表图像的分块数目；

S7.4、将S7.3中的距离进行排序得出最终的相似度结果，完成行人重识别，距离dist的值越大,特征向量之间相似度越高,则查询图像与候选图像的相似度就越高,两者属于同一个运动员的可能性越大。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。