CN115830637B

CN115830637B - 一种基于姿态估计和背景抑制的遮挡行人重识别方法

Info

Publication number: CN115830637B
Application number: CN202211593464.9A
Authority: CN
Inventors: 姜明; 何铃杰; 张旻
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2022-12-13
Filing date: 2022-12-13
Publication date: 2023-06-23
Anticipated expiration: 2042-12-13
Also published as: US11908222B1; CN115830637A

Abstract

本发明公开了一种基于姿态估计和背景抑制的遮挡行人重识别方法，包括以下步骤：步骤(1)获得遮挡行人的全局特征和局部特征，并将局部特征重组为局部特征图；步骤(2)获得行人图像关键点的热度图和关键点置信度组，利用获得的局部特征图和热度图获得行人关键点特征组；步骤(3)通过Conv利用全局特征增强行人关键点特征组中每个关键点特征得到局部特征组，并通过关键点得到关键点邻接矩阵A，将局部特征组的和关键点邻接矩阵A作为GCN的输入，获得最终行人关键点特征；步骤(4)通过局部特征图和热度图得到行人特征，将其切分后作为最终特征；步骤(5)训练模型，该方法具有更好的鲁棒性和自适应能力。

Description

一种基于姿态估计和背景抑制的遮挡行人重识别方法

技术领域

本文发明涉及遮挡行人重识别技术，具体来讲是一种基于姿态估计和背景抑制的遮挡行人重识别方法，属于计算机视觉领域。

背景技术

行人重识别作为计算机视觉领域的重要研究课题之一，旨在将不同物理位置、不同摄像头捕获的行人图像进行关联，实现跨摄像头跨场景下的行人识别与检索，被广泛应用于智慧商业、智能安防等领域。然而，在现实场景下，摄像头捕获的行人图像常常被物品或是其他行人所遮挡，无法提取到健壮的行人特征表达。

现有的遮挡行人重识别方法取得了较为不错的成果，但仍饱受遮挡带来的问题：行人未被遮挡部分的特征是网络识别行人的关键，若将遮挡物特征引入模型会导致识别能力下降；匹配行人的局部特征能有效提升模型识别效果，但遮挡物将导致行人局部特征的不对齐，致使局部特征的错误匹配。同时，注意力机制能够分配权重给人体可见部分，能有效的减少杂乱背景带来的负面影响。

基于上述，本发明提出一种基于姿态估计和背景抑制的遮挡行人重识别方法。

发明内容

本发明的目的是针对现有技术的不足，提出一种基于姿态估计和背景抑制的遮挡行人重识别方法。首先通过构建局部特征增强图卷积模块，致力于将全局特征包含的上下文信息嵌入局部特征，增强局部特征的表达并获得各个特征节点之间的联系。同时,行人姿态估计模块获得的行人关键点热力图和行人整体特征图作为注意力引导的背景抑制模块的两个输入，进一步让模型聚焦于行人可见部分，从而获得更加健壮的行人特征表达。

本发明解决其技术问题所采用的技术方案如下：

一种基于姿态估计和背景抑制的遮挡行人重识别方法，其特征在于，包括以下步骤：

步骤(1)构建基于ViT(Visual-Transformer)的行人特征提取骨干网，获得遮挡行人的全局特征f_cls和局部特征f_{f_local}，并将局部特征f_{f_local}重组为局部特征图f_local；

步骤(2)通过预训练的ViTPose(行人姿态估计模型)获得行人图像关键点的热度图f_pos和关键点置信度组V_kc，利用步骤(1)获得的局部特征图f_local和热度图f_pos获得行人关键点特征组f_keypoints；

步骤(3)构建由Conv和GCN组成的局部特征增强图卷积模块，通过Conv利用全局特征f_cls增强行人关键点特征组f_keypoints中每个关键点特征得到局部特征组f_{kp_en}，并通过关键点得到关键点邻接矩阵A，将局部特征组的f_{kp_en}和关键点邻接矩阵A作为GCN的输入，获得最终行人关键点特征f_{f_keypoints；}

步骤(4)构建由全局平均池化和卷积网络组成的注意力背景抑制模块，将步骤(1)获得的局部特征图f_local和步骤(2)获得的热度图f_pos输入注意力背景抑制模块，获得输出的行人特征f_{att_local}，将其切分后作为最终特征；

步骤(5)由行人特征提取骨干网、ViTPose、局部特征增强图卷积模块和注意力背景抑制模块构建成遮挡行人重识别模型(ReID模型)，使用步骤(1)中的行人全局特征f_cls、步骤(3)中的行人关键点特征f_{f_keypoints}和步骤(4)中的行人特征f_{att_local}对遮挡行人重识别模型进行训练，得到最终的遮挡行人重识别模型。

本发明有益效果如下：

本发明设计了一个局部特征增强图卷积模块，利用全局特征的上下文信息增强行人局部特征表达并获得行人各个关键点之间的特征联系。这有利于模型学习未被遮挡的行人部分的特征，并实现行人各部分之间的特征对齐，从而提升行人特征的辨识度。其次，为了减轻行人图像杂糅的背景信息影响，本发明设计了一个注意力引导的背景抑制模块，引导模型更加关注与行人特征相关的判别特征，从而获得更有区分度的行人特征。结果表明，这种方法提取的特征具有更好的鲁棒性，有效的提升了模型的泛化能力。

附图说明

图1是本发明的整体实施方案流程图。

图2是本发明的行人特征提取骨干网示意图。

图3是本发明的行人姿态估计示意图。

图4是本发明的局部特征增强图卷积模块示意图。

图5是本发明的注意力引导的背景抑制模块示意图。

图6是本发明的整体结构示意图。

具体实施方式

下面结合附图对本发明作进一步描述。

图1是本发明的整体实施方案流程图，一种基于姿态估计和背景抑制的遮挡行人重识别方法，如图1所示，包含以下步骤：

步骤(1)构建基于Visual-Transformer的行人特征提取骨干网，获得遮挡行人的全局特征f_cls和局部特征f_{f_locak}，并将局部特征f_{f_local}重组为局部特征图f_locak；

步骤(2)通过预训练的行人姿态估计模块获得行人图像关键点热度图f_pos和关键点置信度组V_kc。利用步骤(1)获得的行人局部特征图f_local和热度图f_pos获得行人关键点特征组f_keypoints；

步骤(3)构建局部特征增强图卷积模块，利用行人全局特征f_cls增强行人关键点特征组f_keypoints中每个关键点特征。将增强后的特征组和关键点邻接矩阵A作为图卷积网络的输入，获得最终行人关键点特征f_{f_keypoints}；

步骤(4)构建注意力引导的背景抑制模块，将步骤(1)获得的局部特征图f_local和步骤(2)获得的关键点热度图f_pos输入注意力背景抑制模块，获得输出的行人特征f_{att_local}，将其切分后作为最终特征；

步骤(5)使用步骤(1)中的行人全局特征F_cls、步骤(3)中的行人关键点特征f_{f_keypoints}和步骤(4)中的行人特征f_{att_local}对模型进行训练，得到遮挡行人重识别模型

进一步的，所述步骤(1)具体实现过程如下：

1-1采用在ImageNet上预训练过的Visual-Transformer(ViT)作为骨干网络，提取图像中的行人特征。为应对ViT训练不稳定的问题，在图像输入ViT之前，需使用一个小型卷积网络对图像进行特征提取，如公式(1)所示：

x＝Conv(X) (1)

其中X表示行人图像，Conv表示卷积网络，x为卷积网络输出的特征。

1-2参照图2，对于1-1中获得的行人特征x，按照预设的patch大小p进行分割，生成特征图序列

N为可分割的数量，再对x_P加上相机视角信息[CAM_VIEW]，其维度大小均与x_P相同，如公式(2)所示：

x_P＝x_P+λ*E_{cam_view} (2)

其中λ为超参数，用于表示相机视角信息的权重；E_{cam_view}为[CAM_VIEW]，表示相机视角信息；

为x_P加上表示全局特征的[CLS_TOKEN]和位置信息编码[POS_TOKEN]，经过线性编码后可得特征Z，如公式(3)所示；

其中，x_cls为[CLS_TOKEN]全局特征向量；linear(·)为线性编码函数；E_pos为[POS_TOKEN]，表示空间位置。

1-3将1-2中获得的特征Z输入ViT骨干网，ViT由多个Transformer block堆叠而成，如公式(4)(5)所示：

Z′_l＝MSA(LN(Z_l-1))+Z_l-1 l＝1…L (4)

Z_l＝MLP(LN(Z′_l))+Z′_l l＝1…L (5)

其中，Z_l表示第l层Transformer块输出的特征，Z′_l为Transformer块内的中间结果，L为总层数。其中，MSA(·)为多头注意力机制、LN(·)为层归一化、MLP(·)为多层感知器。

网络输出结果即为最后一层的输出特征，分别为全局特征f_cls∈

和局部特征组f_{f_local}。对局部特征组f_{f_local}重新排列后得行人局部特征图f_local，可表示为公式(6)：

f_local＝reshape(f_{f_local}) (6)

其中，reshape(·)为重排列函数；

进一步的，所述步骤(2)具体实现过程如下：

2-1参照图3，使用在CoCo数据集上预训练的ViTPose提取行人图像的关键点。ViTPose能够获得行人图像中行人的关键点热力图f_pos和关键点坐标置信度V_kc。为了用于行人重识别任务，取模型最终类别输出并得到行人关键点热力图f_pos和关键点集合V_kc＝{V₁，V₂，...，V_s}。其中，V_s是通过行人关键点算法获得人体关键点如公式(7)所示。

f_pos，V_kc＝ViTPose(Image) (7)

其中，V_s＝{k_x，k_y，k_c}，k_x，k_y分别为关键点坐标，k_c为关键点置信度；f_pos为ViTPose输出的关键点热力图。

2-2利用1-3中获得的行人局部特征图f_local和2-1中获得的行人关键点热力图f_pos，通过向量外积和全局平均池化即可获得S个行人关键点局部特征，如公式(8)所示：

其中，GAP为全局平均池化；行人关键点特征组

S为关键点数量，C为特征通道数。

进一步的，所述步骤(3)具体实现过程如下：

3-1在遮挡的情况下，2-2中提取的局部特征常常不能鲁棒的代表行人未遮挡的部分，而全局特征中富含的上下文信息能够进一步增强局部特征的表达。因此利用全局特征和局部特征的关系，进一步丰富局部特征。首先行人关键点特征组可表示为公式(9)：

然后对每个关键点特征和行人全局特征f_cls应用1*1卷积，如公式(10)(11)所示：

f_{kp_conv}＝Conv_1×1(f_keypoints) (10)

f_{cls_conv}＝Conv_1×1(f_cls) (11)

其中，f_{kp_conv}是每个局部特征卷积之后的特征，f_{cls_conv}是全局特征卷积后的特征。

3-2利用3-1中获取的关键点特征和全局特征，通过向量数量积、softmax和相加等，计算增强后的关键点特征组为f_{kp_en，}如公式(12)，(13)所示：

V_sim＝Softmax(f_{kp_conv}⊙f_{cls_conv}) (12)

f_{kp_en}＝Conv(f_keypoints+w*(f_{cls_conv}+V_sim*f_cls)) (13)

其中，Conv为卷积操作；w为可学习权重；V_sim为相似度；

3-3预先定义的行人关键点邻接矩阵A和3-2中获得局部特征组的f_{kp_en}作为图卷积网络的输入，获得图卷积网络输出的行人关键点特征f_{f_keypoints}，如公式(14)所示：

f_{f_keypoints}＝GCN(A，f_{kp_en}) (14)

其中，GCN为图卷积网络，A为预先定义的人体关键点邻接矩阵；

3-4将步骤3-1，3-2，3-3所述流程构成局部特征增强图卷积模块，参照图4。

进一步的，所述步骤(4)具体实现过程如下：

4-1为引导注意力进一步聚焦于行人未遮挡部分，从而抑制杂乱背景，将姿态估计网络输出的行人关键点热力图全局平均池化后作为行人关键点特征，补充到局部特征

4-2将骨干网络输出的行人局部特征图作为一个图结构，即图内有H*W个节点，每个节点是C维特征。首先将局部特征图f_local输入两个1*1的卷积网络，并将其中一个网络的输出转置即可构建节点与节点之间的关系，如公式(15)所示

R_i，j＝Conv(f_local)^TConv(f_local) (15)

其中R_i，j是关系特征矩阵，Conv是卷积网络

4-3利用关系特征矩阵R_i，j获得对应关系的空间感知特征f_sp，然后将行人局部特征图f_local、4-1中行人关键点特征f_pos和空间感知特征f_sp嵌入链接，可公式化为(16)(17)

f_sp＝Conv(R_i，j) (16)

f_concat＝Concat[Conv(f_local)，Conv(f_sp)，Conv(f_pos)] (17)

其中，f_sp为获得的空间感知特征，Concat(·)为通道链接函数，f_concat为连接后的特征向量。

将f_concat输入1*1的卷积网络和Sigmod便可获得空间注意力图f_atten，最后，通过空间注意力图f_atten与局部特征图f_local相乘即可获得最后的行人特征图f_{att_local}；

4-4之后按照行人结构，构建多个分类头。可将行人特征图f_{att_local}划分为4个局部特征f₁、f₂、f₃、f₄，对行人图像进行分类。

4-5将步骤4-1，4-2，4-3，4-4所述流程构成注意力引导的背景抑制模块，参照图5。

进一步的，所述步骤(5)具体实现过程如下：

5-1使用行人重识别数据集中标注数据作为监督信息，对每个训练批次采用ID损失和困难三元组损失训练网络。ID损失采用交叉熵损失训练网络，其公式如下：

其中N为行人类别数，q_i是监督标签，p_i是预测标签；

困难三元组损失通过随机采样P个身份，每个身份抽取K个实例，组成一个大小为P*K的mini batch；依次选取批次中的每个图片x_a作为锚点，选出批次中距离最远的正样本图片x_p和距离最近的负样本图片x_n组成三元组来训练网络，增强网络的泛化能力；其公式为：

5-2参照图6，是本网络的整体架构图。根据1-1中的行人全局特征f_cls、3-3中行人关键点特征组f_{f_keypoints}和4-4中行人特征f_{att_local}划分生成的f₁、f₂、f₃、f₄对模型进行训练，得到遮挡行人重识别模型，具体可公式化为：

其中，S为行人关键点数量，k_c为2-1中获得的关键点置信度

5-3当模型稳定后，得到最终ReID模型。在测试阶段，将待查询图片q和测试集图片t输入最终的ReID模型进行特征提取获得q和t的关键点特征，分别为f_q和f_t。利用图匹配优化比较，可公式化为：

其中，

和/>

分别是图像q和t的第i个关键点置信度；cosine为余弦距离。

5-4对比查询图片特征与测试集图片是否属于同一类，输出同类的行人图片。

Claims

1.一种基于姿态估计和背景抑制的遮挡行人重识别方法，其特征在于，包括以下步骤：

步骤(1)构建基于ViT的行人特征提取骨干网，获得遮挡行人的全局特征f_cls和局部特征f_{f_local}，并将局部特征f_{f_local}重组为局部特征图f_local；

步骤(2)通过预训练的ViTPose获得行人图像关键点的热度图f_pos和关键点置信度组V_kc，利用步骤(1)获得的局部特征图f_local和热度图f_pos获得行人关键点特征组f_keypoints；

步骤(3)构建由Conv和GCN组成的局部特征增强图卷积模块，通过Conv利用全局特征f_cls增强行人关键点特征组f_keypoints中每个关键点特征得到局部特征组f_{kp_en}，并通过关键点得到关键点邻接矩阵A，将局部特征组的f_{kp_en}和关键点邻接矩阵A作为GCN的输入，获得最终行人关键点特征f_{f_keypoints}；

步骤(5)由行人特征提取骨干网、ViTPose、局部特征增强图卷积模块和注意力背景抑制模块构建成遮挡行人重识别模型，使用步骤(1)中的行人全局特征f_cls、步骤(3)中的行人关键点特征f_{f_keypoints}和步骤(4)中的行人特征f_{att_local}对遮挡行人重识别模型进行训练，得到最终的遮挡行人重识别模型。

2.根据权利要求1所述的一种基于姿态估计和背景抑制的遮挡行人重识别方法，其特征在于，所述行人特征提取骨干网为：采用在ImageNet上预训练过的ViT作为行人特征提取初始网络，在图像输入ViT之前，使用一个卷积网络对图像进行特征提取，如公式(1)所示：

x＝Conv(X) (1)

其中X表示行人图像，Conv表示卷积网络，x为卷积网络输出的行人特征。

3.根据权利要求2所述的一种基于姿态估计和背景抑制的遮挡行人重识别方法，其特征在于，获得遮挡行人的全局特征f_cls和局部特征f_{f_local}的方法为：对于获得的行人特征x，按照预设的patch大小p进行分割，生成特征图序列

x_P＝x_P+λ*E_{cam_view} (2)

为x_P加上表示全局特征的[CLS_TOKEN]和位置信息编码[P0S_TOKEN]，经过线性编码后可得特征Z，如公式(3)所示；

其中，x_cls为[CLS_TOKEN]全局特征向量；linear(·)为线性编码函数；E_pos为[POS_TOKEN]，表示空间位置；

将获得的特征Z输入ViT，ViT由多个Transformer block堆叠而成，如公式(4)(5)所示：

Z′_l＝MSA(LN(Z_l-1))+Z_l-1 l＝1...L (4)

Z_l＝MLP(LN(Z′_l))+Z′_l l＝1...L (5)

其中，Z_l表示第l层Transformer块输出的特征，Z′_l为Transformer块内的中间结果，L为总层数，其中，MSA(·)为多头注意力机制、LN(·)为层归一化、MLP(·)为多层感知器，

网络输出结果即为最后一层的输出特征，分别为全局特征

和局部特征组f_{f_local}。

4.根据权利要求1-3任意一项所述的一种基于姿态估计和背景抑制的遮挡行人重识别方法，其特征在于，所述局部特征图f_local的获取方法：对局部特征组f_{f_local}重新排列，表达式如下：

f_local＝reshape(f_{f_local}) (6)

其中，reshape(·)为重排列函数。

5.根据权利要求4所述的一种基于姿态估计和背景抑制的遮挡行人重识别方法，其特征在于，所述步骤(2)具体实现过程如下：

2-1使用在CoCo数据集上预训练的ViTPose提取行人图像的关键点，通过ViTPose获得行人图像中行人关键点的热力图f_pos和关键点集合V_kc＝{V₁，V₂，...，V_s}，其中，V_s是通过行人关键点算法获得人体关键点如公式(7)所示；

f_pos，V_kc＝ViTPose(Image) (7)

其中，V_s＝{k_x，k_y，k_c}，k_x，k_y分别为关键点坐标，k_c为关键点置信度；f_pos为ViTPose输出的关键点热力图；

2-2利用获得的局部特征图f_local和热力图f_pos，通过向量外积和全局平均池化即可获得S个行人关键点局部特征，如公式(8)所示：

其中，GAP为全局平均池化；行人关键点特征组

S为关键点数量，C为特征通道数。

6.根据权利要求5所述的一种基于姿态估计和背景抑制的遮挡行人重识别方法，其特征在于，所述步骤(3)中，获得局部特征组f_{kp_en}的方法：

首先行人关键点特征组可表示为公式(9)：

f_{kp_conv}＝Conv_1×1(f_keypoints) (10)

f_{cls_conv}＝Conv_1×1(f_cls) (11)

其中，f_{kp_conv}是每个局部特征卷积之后的特征，f_{cls_conv}是全局特征卷积后的特征；

利用获取的行人关键点特征组f_keypoints和行人全局特征f_cls，通过向量数量积、softmax和相加等，计算增强后的关键点的局部特征组为f_{kp_en}，如公式(12)，(13)所示：

V_sim＝Softmax(f_{kp_conv}⊙f_{cls_conv}) (12)

f_{kp_en}＝Conv(f_keypoints+w*(f_{cls_conv}+V_sim*f_cls)) (13)

其中，Conv为卷积操作；w为可学习权重；V_sim为相似度。

7.根据权利要求6所述的一种基于姿态估计和背景抑制的遮挡行人重识别方法，其特征在于，所述步骤(3)中，获得最终行人关键点特征f_{f_keypoints}的方法为：通过行人关键点邻接矩阵A和局部特征组的f_{kp_en}作为图卷积网络的输入，获得图卷积网络输出的最终行人关键点特征f_{f_keypoints}，如公式(14)所示：

f_{f_keypoints}＝GCN(A，f_{kp_en}) (14)

其中，GCN为图卷积网络，A为预先定义的人体关键点邻接矩阵。

8.根据权利要求7所述的一种基于姿态估计和背景抑制的遮挡行人重识别方法，其特征在于，所述步骤(4)具体实现过程如下：

4-1将关键点热度图f_pos全局平均池化后作为行人关键点特征，补充到局部特征f_local；

4-2将局部特征图f_local作为一个图结构，即图内有H*W个节点，每个节点是C维特征，首先将局部特征图f_local输入两个1*1的卷积网络，并将其中一个卷积网络的输出转置即可构建节点与节点之间的关系，如公式(15)所示

R_i，j＝Conv(f_local)^TConv(f_local) (15)

其中R_i，j是关系特征矩阵，Conv是卷积网络

4-3利用关系特征矩阵R_i，j获得对应关系的空间感知特征f_sp，然后将行人局部特征图f_local、4-1中行人关键点特征f_pos和空间感知特征f_sp嵌入链接，如公式(16)(17)所示

f_sp＝Conv(R_i，j) (16)

f_concat＝Concat[Conv(f_local)，Conv(f_sp)，Conv(f_pos)] (17)

其中，f_sp为获得的空间感知特征，Concat(·)为通道链接函数，f_concat为连接后的特征向量，

4-4之后按照行人结构，构建多个分类头，将行人特征图f_{att_local}划分为4个局部特征f₁、f₂、f₃、f₄，对行人图像进行分类。

9.根据权利要求8所述的一种基于姿态估计和背景抑制的遮挡行人重识别方法，其特征在于所述步骤(5)具体实现过程如下：

5-1使用行人重识别数据集中标注数据作为监督信息，对每个训练批次采用ID损失和困难三元组损失训练网络，ID损失采用交叉熵损失训练网络，其公式如下：

其中N为行人类别数，q_i是监督标签，p_i是预测标签；

困难三元组损失通过随机采样P个身份，每个身份抽取K个实例，组成一个大小为P*K的minibatch；依次选取批次中的每个图片x_a作为锚点，选出批次中距离最远的正样本图片x_p和距离最近的负样本图片x_n组成三元组来训练网络，增强网络的泛化能力；其公式为：

5-2根据行人的全局特征f_cls、最终行人关键点特征组f_{f_keypoints}和行人特征f_{att_local}划分生成的f₁、f₂、f₃、f₄对遮挡行人重识别模型进行训练，得到最终的遮挡行人重识别模型，具体可公式化为：

其中，S为行人关键点数量，k_c为2-1中获得的关键点置信度；

5-3当模型稳定后，即最终遮挡行人重识别模型，在测试阶段，将待查询图片q和测试集图片t输入最终的遮挡行人重识别模型进行特征提取获得q和t的关键点特征，分别为f_q和f_t，利用图匹配优化比较，可公式化为：

其中，

和/>

分别是图像q和t的第i个关键点置信度；cosine为余弦距离；