CN115841682A

CN115841682A - 基于姿态估计和Transformer的遮挡行人重识别方法

Info

Publication number: CN115841682A
Application number: CN202211389204.XA
Authority: CN
Inventors: 牛丹; 龚昊; 卫奕霖; 董毅超
Original assignee: Jiangyin Zhixing Industrial Control Technology Co ltd; Nanjing Yunniu Intelligent Technology Co ltd; Shanghai Lanmark Vision Technology Co ltd; Xuzhou Yunbianduan Intelligent Technology Co ltd
Current assignee: Jiangyin Zhixing Industrial Control Technology Co ltd; Nanjing Yunniu Intelligent Technology Co ltd; Shanghai Lanmark Vision Technology Co ltd; Xuzhou Yunbianduan Intelligent Technology Co ltd
Priority date: 2022-11-08
Filing date: 2022-11-08
Publication date: 2023-03-24

Abstract

本发明公开了一种基于姿态估计和Transformer的遮挡行人重识别方法，包括如下步骤：使用姿态估计网络提取行人图像中行人的姿态估计信息，得到行人图像中每个人体关键点区域内的最高置信度，根据最该置信度将行人图像划分为人体关键点区域和背景区域；基于Vision Transformer的特征提取网络，引入关键点令牌，利用自注意力机制提取人体全局特征和对应人体关键点区域的人体关键点特征，对人体全局特征距离和关键点特征距离进行加权得到最终的不同的行人图像中行人的相似度。该发明中叙述的方法适用与遮挡场景下的行人重识别，且具有能够有效提升行人重识别的精度的优点。

Description

基于姿态估计和Transformer的遮挡行人重识别方法

技术领域

本发明涉及行人重识别技术领域，特别是涉及一种基于姿态估计和Transformer的遮挡行人重识别方法。

背景技术

行人重识别技术旨在关联不同摄像头下不同场景和视角下的特定行人。在真实的监控场景中，不可避免地会发现行人被遮挡的现象，这对重识别特征的提取带来了很大的挑战。存在遮挡时，由于部分人圣体不可见，因此如何提取鲁棒的局部特征并且利用局部特征进行匹配是解决遮挡行人重识别方法的关键。

现有的遮挡行人重识别方法可以分为手工划分和基于人体语义模型的方法。前者通过水平或切块划分的方式，将行人图像划分为多个预设局部区域，在局部区域内提取局部特征，然而手工划分的方法无法对齐人体部件，并且会引入大量背景噪声；后者往往基于人体语义模型，现有的方法往往先利用重识别模型和人体语义模型分别提取重识别特征和人体语义信息，利用人体语义信息对重识别特征进行后处理得到局部特征，这类方法只对重识别模型输出的重识别特征进行处理，没有将人体语义信息结合到重识别特征的提取过程中。

现有的遮挡行人重识别方法中的重识别模型大多基于卷积神经网络(CNN)。随着深度学习技术的发展，Vision Transformer网络中全局多头自注意力机制弥补了传统卷积神经网络难以捕捉全局特征的不足以及解决了下采样带来的信息损失问题。现有的基于Vision Transformer的遮挡行人重识别方法通过改进自注意力机制来提升特征提取的鲁棒性，但是没有考虑将人体姿态估计信息与自注意力机制进行结合来解决局部特征提取以及人体部件对齐问题。

发明内容

本发明的目的是提供一种基于姿态估计和Transformer的遮挡行人重识别方法，使用姿态估计提取人体姿态信息，使用姿态信息对人体区域进行划分，引入关键点令牌分别提取行人的关键点特征，利用关键点置信度对关键点距离进行加权得到最终的行人距离，从而提高遮挡场景下行人重识别算法的精度。

本发明中提出一种基于姿态估计和Transformer的遮挡行人重识别方法，包括如下步骤：

划分区域，姿态估计网络提取行人图像中行人的姿态估计信息，得到行人图像中每个人体关键点区域内的最高置信度，将行人图像划分为K个人体关键点区域和1个背景区域；

构建基于Vision Transformer的特征提取网络，提取行人图像的人体全局特征矩阵f_g和人体关键点特征矩阵

对人体全局特征和人体关键点特征进行匹配，计算人体全局特征距离和K个人体关键点特征距离，并对人体全局特征距离和关键点特征距离进行加权平均，其距离计算公式为：

上式中d()为余弦距离，f_a,g和f_b,g分别为给定的行人图像a和行人图像b的人体全局特征矩阵，

和/>

分别为给定的行人图像a和行人图像b的第i个人体关键点特征矩阵，/>

和/>

分别为给定的行人图像a和行人图像b第i个关键点区域内的最高置信度，λ_g和λ_k为权重因子。

在一些实施方式中，划分区域的方法包括如下步骤：

设定置信度的阈值δ，

使用姿态估计网络提取行人的姿态估计信息，对于行人图像对应的空间中的每一个点，得到相对于K个人体关键点的置信度；

提取每个点对应的K个置信度中的最高置信度，判断最高置信度是否大于阈值δ，若大于则将该点划分至当前最高置信度对应的人体关键点区域内，反之则将该点划分至背景区域内。

在一些实施方式中，K取值为14，14个人体关键点包括左右手肘、左右手腕、左右肩膀、头、脖子、左右脚踝、左右膝盖以及左右臀。

在一些实施方式中，提取行人图像的人体全局特征矩阵f_g和人体关键点特征矩阵

的过程如下：

将行人图像分成固定大小的N个分块，通过线性映射得到N个分块特征，应用划分区域的方法将每个分块特征分入对应的人体关键点区域内；

创建1个全局令牌和K个关键点令牌，将1个全局令牌、K个关键点令牌、的N个分块特征拼接得到长度为1+K+N的输入序列，将输入序列送入Vision Transformer的编码器中；

在Vision Transformer的编码器上构建多头自注意力的计算公式，该公式为：

上式中Q为查询向量，K为关键向量，V为值向量，D为查询向量的维度，Softmax()为softmax函数；

将全局令牌和所有分块特征映射到Q、K、V对应的空间内，进行多头注意力计算，得到人体全局特征矩阵f_g；

将关键点令牌和与关键点令牌对应的关键点区域内的分块特征映射到Q、K、V对应的空间内，进行多头注意力计算，得到人体关键点特征矩阵

在一些实施方式中，所述基于Vision Transformer的特征提取网络应用了三元组损失函数和分类损失函数优化模型，基于三元组损失函数和分类损失函数调整所述基于Vision Transformer的特征提取网络的参数，三元组损失函数和分类损失函数优化模型中的损失函数的计算公式包括：

人体关键点特征的三元组损失的计算公式：

人体关键点特征的分类损失的计算公式：

三元组损失函数和分类损失函数优化模型最终的损失函数：

上式中

d(a,p)和d(a,n)分别为锚样本与正样本的特征之间的距离，m为参数；

N为样本类别数，Z_i为输出的分类概率；

和/>

分别为人体全局特征的三元组损失和分类损失，/>

和/>

为第i个人体关键点特征的三元组损失和分类损失，λ’_g和λ’_k为权重因子。

在一些实施方式中，所述λ’_g和λ’_k的取值分别为0.5和

在一些实施方式中，所述λ_g和λ_k分别为1和

一种处理装置，包括处理器和存储模块，存储模块用于存储程序，所述处理器用于加载程序并执行以实现基于姿态估计和Transformer的遮挡行人重识别方法。

本发明中叙述的基于姿态估计和Transformer的遮挡行人重识别方法具备如下优点：

1、使用姿态估计网络得到行人姿态估计信息，根据姿态估计信息将行人图像划分为人体关键点区域和背景区域，有效的从背景和遮挡中分理处可见的人体关键点区域；

2、使用关键点令牌提取关键点点特征，可以提取到鲁棒和有判别力的特征；

3、有效提升了在遮挡场景下行人重识别的精度。

附图说明

图1为本发明的一些实施方式中基于姿态估计和Transformer的遮挡行人重识别方法的流程图；

图2为本发明的一些实施方式中应用基于姿态估计和Transformer的遮挡行人重识别方法进行重识别检索的结果输出图。

具体实施方式

预先在姿态估计网络HR-Net中设置置信度的阈值δ，通过阈值δ判断点所属区域。

结合图1所示的内容，本实施例提出一种基于姿态估计和Transformer的遮挡行人重识别方法，包括如下步骤：

S1、给定行人图像a和行人图像b；

S2、使用姿态估计网络HR-Net提取行人的姿态估计信息，姿态估计信息中包括K个人体关键点的置信度，并根据置信度将行人图像a和行人图像b从空间上划分为K个关键点区域和1个背景区域，具体的划分过程包括如下步骤：

S21、使用姿态估计网络HR-Net提取行人的姿态估计信息，获取行人图像a和行人图像b对应的空间中的每一个点相对于K个人体关键点的置信度；

S22、提取每个点对应的K个置信度中的最高置信度，判断最高置信度是否大于阈值δ，若大于则将该点划分至当前最高置信度对应的人体关键点区域内，反之则将该点划分至背景区域内；

需要说明的是，

置信度的获取可以直接采用现有技术实现，因此在此不做赘述；

S3、构建基于Vision Transformer的特征提取网络，提取行人图像a和行人图像b的人体全局特征矩阵f_g和人体关键点特征矩阵

具体过程包括如下步骤：

S31、将行人图像a和行人图像b分成固定大小的N个分块，通过线性映射得到N个分块特征，应用划分区域的方法(即应用上述的S2、S21以及S22叙述的内容)将每个分块特征分入对应的人体关键点区域内，比如：将行人图像调整大小至(256，128)，256和128均代表像素点的个数，将图像分成固定大小的128个分块，通过线性映射得到128个分块特征，然后根据划分区域的方法，将每个分块特征分入对应区域；

S32、创建1个全局令牌和K个关键点令牌，将1个全局令牌、K个关键点令牌、的N个分块特征拼接得到长度为1+K+N的输入序列，将输入序列送入Vision Transformer的编码器中；

S33、在Vision Transformer的编码器上构建多头自注意力的计算公式，该公式为：

S34、将全局令牌和所有分块特征映射到Q、K、V对应的空间内，进行多头注意力计算，计算后输出的cls token即是人体全局特征矩阵f_g；

S35、将关键点令牌和与关键点令牌对应的关键点区域内的分块特征映射到Q、K、V对应的空间内，进行多头注意力计算，计算后输出的cls token即是人体关键点特征矩阵

S4、计算人体全局特征距离和K个人体关键点特征距离，并对人体全局特征距离和关键点特征距离进行加权平均获取行人图像间的特征距离，将行人图像间的特征距离与事先设定的特征距离阈值进行对比，判断两个行人图像间的全局特征和人体关键点特征之间是否匹配，假设给定行人图像a和行人图像b，其行人图像a和行人图像b之间的特征距离计算公式为：

上式中d()为余弦距离，f_a,g和f_b,g分别为行人图像组中行人图像a和行人图像b的人体全局特征矩阵，

和/>

分别为行人图像a和行人图像b的第i个人体关键点特征矩阵，/>

和/>

分别为行人图像a和行人图像b第i个关键点区域内的最高置信度，λ_g和λ_k为权重因子。

S3中基于Vision Transformer的特征提取网络应用了三元组损失函数和分类损失函数优化模型，基于三元组损失函数和分类损失函数调整基于Vision Transformer的特征提取网络的参数，不断的优化基于Vision Transformer的特征提取网络提取的人体全局特征矩阵和人体关键点特征矩阵，三元组损失函数和分类损失函数优化模型中的损失函数的计算公式包括：

人体关键点特征的三元组损失的计算公式：

人体关键点特征的分类损失的计算公式：

三元组损失函数和分类损失函数优化模型最终的损失函数：

上式中

d(a,p)和d(a,n)分别为锚样本与正样本的特征之间的距离，m为基于VisionTransformer的特征提取网络的参数；

N为样本类别数，Z_i为输出的分类概率；

和/>

分别为人体全局特征的三元组损失和分类损失，/>

和/>

上述三元组损失函数和分类损失函数优化模型采用的是常用的pk采样和hardmining深度学习难分样本挖掘技术，对于一个批次内的样本(每个批次中包括p个人，每个人k′张图，共p*k′个样本，p和k′的取值可以根据需求设定)，对于每一张图做锚样本时，选择与其距离最近的不同id的图作为负样本，选择与其距离最远的相同id的图作为正样本，相同的人的不同的图片设置相同的id，不同的人的图片设置不同的id。

在一些具体的实现方式中，

人体关键点的数量K取值为14，14个人体关键点包括左右手肘、左右手腕、左右肩膀、头、脖子、左右脚踝、左右膝盖以及左右臀。

在一些具体的实现方式中，预先设定姿态估计网络HR-Net中设置置信度的阈值δ为0.5。

在一些具体的实现方式中，三元组损失函数和分类损失函数优化模型的权重因子λ’_g和λ’_k的取值可分别设置为0.5和

查询向量的维度D取值为768；

人体全局特征距离和关键点特征距离进行加权平均时的权重因子λ_g和λ_k分别为1和

/>

比如：将上述的基于姿态估计和Transformer的遮挡行人重识别方法应用于存储有多张图片的图库中进行重识别检索，输入一张或指定图库中的一张图片作为基准行人图片，应用上述的基于姿态估计和Transformer的遮挡行人重识别方法将图库中的图片与基准行人图片进行重识别，获取与基准行人图片相匹配的图片，并将匹配成功的图片中与基准行人图片之间的特征距离最近的10张图片输出，形成图2所示的结果。

在遮挡行人重识别Occlude-Duke、Occluded-REID、Partial-REID数据集上应用Baseline(现有的行人重识别的基准方法，比如使用发表在ICCV2021的TransReID:Transformer-based Object Re-Identification采用标准Vision Transformer Base为骨干网络，得到的结果)和Ours(本发明中叙述的基于姿态估计和Transformer的遮挡行人重识别方法)进行识别对比实验，实验数据如下表1所示：

表1在Occlude-Duke，Occluded-REID，Partial-REID数据集上的实验

综上所述，使用本发明提出的方法，在遮挡行人重识别Occlude-Duke，Occluded-REID，Partial-REID数据集上分别可以达到66.1，73.4，75.0的Rank-1值和57.1，69.4，72.1的mAP值，有效提高了遮挡行人重识别的精度。

在一些具体的实现方式中提出一种处理装置，其包括处理器和存储模块，存储模块用于存储程序，处理器用于加载程序并执行以实现基于姿态估计和Transformer的遮挡行人重识别方法。

将基于姿态估计和Transformer的遮挡行人重识别方法应用于智慧楼宇在线跨摄像头多目标追踪形成智慧楼宇在线跨摄像头多目标追踪方法，

智慧楼宇在线跨摄像头多目标追踪方法包括如下步骤：

A、对楼宇内监控视频进行数据采集，得到包含多个行人通过多个摄像头采集到的视频片段以及实时视频流，摄像头包括一个标准摄像头和多个对比摄像头；

B、利用多目标追踪方法从视频片段和实时视频流中得到行人序列，提取行人重识别特征序列(即图像序列)，利用聚类方法得到其代表特征作为对比行人图像；

C、应用基于姿态估计和Transformer的遮挡行人重识别方法将对比行人图像与事先给定的基准行人图像进行重识别，获取对比行人图像与基准行人图像间的特征距离，对比行人图像与基准行人图像间的特征距离小于设定的特征距离的阈值则将该对比行人图像与基准行人图像匹配成功，得到包含行人全身的矩形检测框，获取包括位置信息和外观信息的行人检测信息，进入步骤E，反之则标识匹配不成功；

D、对于标准摄像头获取的视频流，利用所述行人检测信息，继续使用多目标追踪方法，得到与基准行人图像对应的行人轨迹，并获取行人轨迹的特征序列，实现智慧楼宇在线跨摄像头多目标追踪方法。

上述步骤中叙述的多目标追踪方法和聚类方法等均可以直接采用现有技术实现，因此在此不做赘述。

对于普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干相似的变形和改进，这些也应视为本发明的保护范围。

Claims

1.一种基于姿态估计和Transformer的遮挡行人重识别方法，其特征在于，包括如下步骤：

上式中d()为余弦距离，f_a,f和f_b,g分别为给定的行人图像a和行人图像b的人体全局特征矩阵，

和

分别为给定的行人图像a和行人图像b的第i个人体关键点特征矩阵，

和

2.根据权利要求1所述的基于姿态估计和Transformer的遮挡行人重识别方法，其中，划分区域的方法包括如下步骤：

设定置信度的阈值δ，

3.根据权利要求2所述的基于姿态估计和Transformer的遮挡行人重识别方法，其中，K取值为14，14个人体关键点包括左右手肘、左右手腕、左右肩膀、头、脖子、左右脚踝、左右膝盖以及左右臀。

4.根据权利要求2所述的基于姿态估计和Transformer的遮挡行人重识别方法，其中，提取行人图像的人体全局特征矩阵f_g和人体关键点特征矩阵

的过程如下：

5.根据权利要求1或4所述的基于姿态估计和Transformer的遮挡行人重识别方法，其中，所述基于Vision Transformer的特征提取网络应用了三元组损失函数和分类损失函数优化模型，基于三元组损失函数和分类损失函数调整所述基于Vision Transformer的特征提取网络的参数，三元组损失函数和分类损失函数优化模型中的损失函数的计算公式包括：

人体关键点特征的三元组损失的计算公式：