CN112733707B

CN112733707B - 一种基于深度学习的行人重识别方法

Info

Publication number: CN112733707B
Application number: CN202110020970.8A
Authority: CN
Inventors: 段文义; 唐慧明
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-01-07
Filing date: 2021-01-07
Publication date: 2023-11-14
Anticipated expiration: 2041-01-07
Also published as: CN112733707A

Abstract

本发明公开了一种基于深度学习的行人重识别方法，应用于至少包括2D特征编码网络，3D人体表征编码网络以及图卷积特征融合网络的行人重识别系统，行人重识别方法包括如下步骤：通过2D特征编码网络提取2D图像特征图，3D人体表征编码网络提取3D姿态信息和人体外形信息；根据3D姿态信息获取2D关节点位置，将2D关节点位置映射到2D图像特征图获取2D关节点局部特征；根据3D姿态信息获取区域掩码；将获取的2D关节点局部特征与3D姿态信息和人体外形信息融合，得到3D关节点局部特征，进而进行关节点间的特征融合，得到骨骼局部特征；将待识别图像和图像库中第一图像相似度匹配，输出匹配结果；利用人体骨骼的3D信息以及拓扑约束使行人重识别的匹配更加准确。

Description

一种基于深度学习的行人重识别方法

技术领域

本发明属于计算机视觉行人重识别技术领域，具体涉及一种基于深度学习的行人重识别方法

背景技术

如今，在几乎所有的公共场所，都可以看到通过监控摄像头来监控人类活动。这些摄像机拍摄的连续视频流通过人工观察可用以发现或查证事件的发生。然而，这个人工观察过程费时、费力且容易出错的。研究人员已经提出了各种基于计算机视觉的自动化技术来分析人类活动视频数据和提取相关信息，以执行人类跟踪、再识别和其他视觉相关任务。

行人重识别，其任务就是给定一个感兴趣的待查询人的信息,然后确定这个人是否被另一个不同地方、不同时间、不同相机所捕捉到。待查询人可以由图像、视频序列，甚至文本等信息描述表示。随着大量安装在大学校园，主题公园，街道的监控摄像头的出现，由于公共安全的需要,行人重识别在智能视频监控系统的设计有着重大影响和实际重要性。

当在拥挤的地方进行行人重新识别时，遮挡是一个不可避免的问题。例如，一个人可能会被现场的其他人遮挡，或被静态障碍物遮挡，如汽车、柱子、墙壁，或被自身肢体遮挡。除了遮挡，视角变化也是一个巨大的挑战。

发明内容

本发明提出一种基于深度学习的行人重识别方法，主要解决现有方案在复杂遮挡环境(如自遮挡，自然环境下的物体遮挡)和人体各部分视角差异大的情形下表现不佳的问题，人体骨骼随着关节活动，使得各个部分出现不同的视角变化，细粒度的视角检测可以使得行人重识别的匹配更加准确。利用人体骨骼的3D信息以及拓扑约束，可以获得行人更加鲁棒的表征信息。

本发明为了实现上述目的，提供了一种基于深度学习的行人重识别方法，包括如下步骤：S1，将待识别图像输入2D特征编码网络提取2D图像特征图，且将待识别图像输入3D人体表征编码网络提取3D姿态信息和人体外形信息；S2，根据3D姿态信息获取2D关节点位置，将2D关节点位置映射到2D图像特征图，获取2D关节点局部特征；S3，根据3D姿态信息获取全局视角感知区域掩码、局部视角感知区域掩码、自遮挡感知区域掩码和外部遮挡感知区域掩码；S4，将获取的2D关节点局部特征与3D姿态信息和人体外形信息融合，得到3D关节点局部特征；S5，将3D关节点局部特征进行关节点间的特征融合，得到骨骼局部特征；S6，基于全局视角感知区域掩码、外部遮挡感知区域掩码、局部视角感知区域掩码以及自遮挡感知区域掩码，对待识别图像和图像库中的第一图像进行相似度匹配，输出最终匹配结果。

优选的，步骤S3中，根据3D姿态信息获取全局视角感知区域掩码具体包括：S311，将人体的T-poSe状态作为参考坐标系，以根节点为原点，定义用于确定全局视角的单位球坐标系SC_root，得到待识别图片描述全局视角的角度为(θ_root，φ_root，1)；S312，将SC_root单位球平面离散化,即θ_root的定义域和φ_root的定义域分别等分为N1和N2份，等分后的每个区段都以其中点的值作为离散化后的值,映射为N维向量，N等于N1与N2的乘积，每个维度对应着一组(θ_root，φ_root)参数，该向量即为全局视角感知区域掩码。

优选的，步骤S3中，根据3D姿态信息获取自遮挡感知区域掩码具体包括：

S321,以互相连接的两个关节点的中点作为原点，将人体的T-poSe状态作为参考坐标系，定义用于表示骨头视角的单位球坐标系得到每根骨头的骨头视角与相交骨头产生的遮挡感知视角/>并将每个关节点的3D坐标和3D姿态信息的三维旋转向量转换至单位球坐标系/>S322,将/>的单位球平面离散化，映射为N维向量，得到将骨头视角掩码/>与相交骨头遮挡视角掩码/>将其按元素相乘，得到自遮挡感知区域掩码。

优选的，步骤S5具体包括，S51、将所有关节点的3D关节点局部特征输入图卷积特征融合网络；S52、图卷积特征融合网络根据关节点的连接矩阵，输出每个关节点与其父节点所代表的骨头的局部特征，即骨骼局部特征。

优选的，步骤S2中所述的根据3D姿态信息获取2D关节点位置具体包括：将3D姿态信息转换为3D坐标，将3D坐标投影为2D图像特征图上的2D坐标从而得到2D关节点位置。

优选的，步骤S2中所述的将2D关节点位置映射到2D图像特征图，获取2D关节点局部特征，具体包括：S21、根据2D关节点位置，生成与2D图像特征图尺寸相同的2D高斯加权图；S22、2D图像特征图与2D高斯加权图按元素相乘得到2D关节点局部特征。

优选的，所述的2D特征编码网络采用CNN网络；所述3D人体表征编码网络至少包括特征提取骨干网络和3D参数回归网络，其中特征提取骨干网络的全局平均池化层的输出串联接入3D参数回归网络。

优选的，步骤S6具体包括：S61、基于待识别图像和图像库中的第一图像的全局视角感知区域掩码、外部遮挡感知区域掩码、局部视角感知区域掩码和自遮挡感知区域掩码得到全局视角共有部分掩码、外部遮挡共有部分掩码、局部视角共有部分掩码和自遮挡共有部分掩码；S62、将待识别图像和第一图像的2D图像特征图、2D关节点局部特征、3D关节点局部特征、骨骼局部特征的特征分别与全局视角共有部分掩码、外部遮挡共有部分掩码、局部视角共有部分掩码、自遮挡共有部分掩码相乘，并分别基于全局视角共有部分掩码、外部遮挡共有部分掩码、局部视角共有部分掩码、自遮挡共有部分掩码计算全局匹配相似度、外部遮挡匹配相似度、关节点局部匹配相似度、自遮挡匹配相似度；S63、基于待识别图像和图像库中的第一图像的人体外形信息获得人体外形匹配相似度；S64、加权全局匹配相似度、外部遮挡匹配相似度、关节点局部匹配相似度、自遮挡匹配相似度以及人体外形匹配相似度，从而输出最终的匹配相似度。

优选的，所述步骤S3中，根据3D姿态信息获取局部视角感知区域掩码具体包括：S331、将人体的T-poSe状态作为参考坐标系，以关节点的3D坐标为原点，定义用于表示局部视角的单位球坐标系得到每个关节点局部视角角度/>S332、将的单位球平面离散化，将局部关节点的3D姿态信息的三维旋转向量传递到根节点后，转换到单位球坐标系，映射为N维向量，即为局部视角感知区域掩码。

优选的，所述步骤S3中，根据3D姿态信息获取外部遮挡感知区域掩码具体包括：获取每个关节点的置信度，并基于获取的置信度得到外部遮挡感知区域掩码。

本发明的有益效果是：

1、解决复杂遮挡环境和人体各部分视角差异大的情形下行人重识别表现不佳的问题，提出了细粒度的视角感知，不仅包括全局视角，还包括关节点的局部视角和自遮挡感知的骨头视角，同时还能感知外部物体遮挡；

2、结合了人体图像的2D特征，人体的3D拓扑结构以及3D外形特征，使得整个网络的能够在复杂遮挡环境充分利用图像信息与人体结构等先验信息。

附图说明

图1是本发明行人重识别方法的一种实施例的系统框架示意图；

图2是本发明行人重识别方法的一种实施例流程示意图；

图3是本发明实施例中3D人体表征编码网络的结构示意图；

图4是本发明实施例中获取2D关节点局部特征图的基本步骤示意图；

图5是本发明实施例中2D高斯加权图与2D关节点局部特征图的映射示意图；

图6是本发明实施例中人体3D姿态与视角球坐标系的示意图；

图7是本发明实施例中视角球坐标系映射到感知区域掩码的示意图；

图8是本发明实施例中自遮挡区域的视角感知示意图。

具体实施方式

为了便于本领域人员更好的理解本发明，下面结合附图和具体实施例对本发明做进一步详细说明，下述仅是示例性的不限定本发明的保护范围。

本发明提出了一种基于深度学习的行人重识别方法，以下结合较佳的实施例以及附图，对依据本发明的具体实施方式、结构以及其功效，详细说明如下：

如图1所示，本发明公开一种基于深度学习的行人重识别方法，包括2D特征编码网络、3D人体表征编码网络、图卷积特征融合网络以及获取感知区域掩码、计算匹配相似度、图像库等模块，其中2D特征编码网络用于提取图像的2D图像特征图，3D人体表征编码网络用于提取3D姿态信息和人体外形信息，图卷积特征融合网络用于融合关节点之间的信息，获取感知区域掩码模块用于计算全局、局部、自遮挡、外部遮挡的感知区域掩码，图像库中存放用于与待识别图像相匹配的图像信息，即从用于重识别的行人图像提取的特征与感知区域掩码，计算匹配相似度模块是根据所有的特征信息和对应掩码计算最终的匹配相似度。具体流程如图2所示，步骤包括：

步骤S1，将待识别图像输入2D特征编码网络提取2D图像特征图，同时将待识别图像输入3D人体表征编码网络提取3D姿态信息和人体外形信息。

其中，2D特征编码网络是一个鲁棒的CNN特征编码网络，用于提取2D图像的局部和全局特征。该特征编码网络的初始参数是利用大规模图像数据预训练得到的，以此加快收敛和得到更加鲁棒的CNN特征编码网络。2D特征编码网络可以采用各种CNN网络，如VGGNet，GooglLeNet等。

本实施例中，2D特征编码网络encoder_2d采用ReSNet50的骨干网络，移除了ReSNet50中的全局平均池化层和全连接层。将待识别图像I_query输入2D特征编码网络，输出2D图像特征图f_{global_2d}可表示为：

f_{global_2d}＝encoder_2d(I_query)

其中，3D人体表征编码网络提取的3D姿态信息是每个关节点绕着其父节点旋转的三维旋转向量；其中3D人体表征编码网络提取的人体外形信息是一个人固有的身体特征信息，如身体比例，高矮胖瘦等参数。

3D人体表征编码网络可以采用从VGG16获取的2D图像特征回归到3D网格坐标参数，再从3D网格坐标参数得到姿态和人体外形参数等信息，也可以采用从ReSNet50获取的2D图像特征回归到3D人体模型参数，然后再从3D人体模型参数得到姿态和人体外形参数等信息。本实施例中，如图3所示，3D人体表征编码网络的特征提取骨干网络encoder_3d采用ReSNet50的骨干网络，将ReSNet50的全局平均池化层的输出串联接入3D参数回归网络regression_3d；其中3D参数回归网络由两层全连接层组成，隐藏层FC1为1024个单元，输出层FC2为82个单元；将待识别图像I_query输入encoder_3d后得到的编码特征输入regression_3d，得到相应的82维的3D参数，包括3D姿态信息rotation_3d(72维)和人体外形信息shape_3d(10维)；rotation_3d包含每个关节点的三维旋转向量；shape_3d包含身体部件的胖瘦、比例等信息：

[rotation_3d，shape_3d]＝regression_3d(encoder_3d(I_query))

其中隐藏层FC1单元数、输出层FC2单元数也可为其它数目，相应的3D参数、3D姿态信息和人体外形信息也可随之为其他数目。

步骤S2，根据3D姿态信息获取2D关节点位置，将2D关节点位置映射到2D图像特征图，获取2D关节点局部特征。本实施例中，如图4所示，采用如下步骤：

S2.1将3D姿态信息rotation_3d转换为(x′_i，y′_i，z′_i)，其中转换函数T是利用最小二乘法使得3D坐标误差最小化的函数：

{(x′_i，y′_i，z′_i)}＝T(rotation_3d)

S2.2将(x′_i，y′_i，z′_i)投影为2D图像特征图中的2D坐标(x_i，y_i)，此处投影函数Project采用正交投影，即x′_i加上图像宽度的一半，y′_i加上图像高度的一半，然后将结果取整数，也可采用其他投影，如透视投影：

(x_i，y_i)＝Project((x′_i，y′_i，z′_i))

S2.3如图5所示，以(x_i，y_i)为中心，生成与2D图像特征图尺寸相同的2D高斯加权图其中二维高斯函数g的参数矩阵∑₁(对应高斯分布函数的协方差矩阵)采用对角矩阵，且x维的方差σ_x和y维的方差σ_y相等，该参数矩阵也可采用非对角矩阵：

S2.4将关节点的与2D图像特征图按元素相乘，得到2D关节点局部特征f_{joint_2d}:

其中⊙表示按元素相乘。

步骤S3，根据3D姿态信息获取全局视角感知区域掩码、局部视角感知区域掩码、自遮挡感知区域掩码、外部遮挡感知区域掩码。

行人主体躯干的角度决定了行人全局特征的视角，因此全局视角的获取可以通过人为标注的图像训练全局视角预测器，也可以从3D姿态信息中的骨骼根节点的三维旋转向量得到。

本实施例中，全局视角感知区域掩码mask_{global_view}是由rotation_3d中根节点的三维旋转向量获得，根节点的旋转向量描述了人体整体旋转情况；如图6所示，将人体的T-poSe状态作为参考坐标系，以根节点(脊柱关节点，位于脖子和盆骨的中点)为原点，定义单位球坐标系SC_root，则待识别图片I_query有一组描述全局视角的角度(θ_root，φ_root，1)，以(θ_root，φ_root，1)为切点的半球则为全局视角感知区域，且以(θ_root，φ_root，1)为中心，向外则感知能力逐渐变弱；如图7所示，将SC_root的单位球平面离散化，即θ_root的定义域和φ_root的定义域分别等分为N1和N2份，等分后的每个区段都以其中点的值作为离散化后的值，映射为N维向量，N等于N1与N2的乘积，每个维度对应着一组(θ_root，φ_root)参数，每一维的值为感知能力，值的范围是0到1之间的实数，值越接近0表示感知能力越弱，该向量即为全局视角感知区域掩码mask_{global_view}:

(θ_root，φ_root)＝T₂(rotation_3d)

mask_{global_view}＝Flatten(g((θ_root，φ_root)，∑₂))

其中T₂表示将3D姿态信息中根节点的三维旋转向量转换到单位球坐标系，即以直角坐标系的单位向量(0,0,1)为基准，由三维旋转向量旋转后得到向量(x,y,z)，然后将该直角坐标转换为单位球坐标。

其中二维高斯函数g的参数矩阵∑₂采用对角矩阵，且x维和y维的方差相等。参数矩阵∑₂用于确定感知能力范围，该参数矩阵也可采用非对角矩阵；Flatten表示离散化后的单位球面映射为N维向量，即展平离散后定义域内的二维高斯函数的值为一维向量。

根据3D姿态信息获取局部视角感知区域掩码：局部视角感知区域可以通过关节点的3D坐标与T-pose状态的转换得到，也可以将关节点的三维旋转向量依据骨骼连接关系传递到根节点。

本实施例中，局部视角感知区域掩码是以每个关节点的3D坐标(x′_i，y′_i，z′_i)为原点，将关节点的三维旋转向量依据骨骼连接关系传递到根节点得到；将人体的T-pose状态作为参考坐标系，定义单位球坐标系/>则每个关节点由一组角度确定了局部视角，将/>的单位球平面离散化，映射为N维向量，即为局部视角感知区域掩码/>

其中T₃表示将局部关节点的三维旋转向量传递到根节点后，转换到单位球坐标系。其中二维高斯函数g的参数矩阵采用对角矩阵，且x维和y维的方差相等。参数矩阵/>用于确定感知能力范围，该参数矩阵也可采用非对角矩阵；Flatten表示离散化后的单位球面映射为N维向量，即展平离散后定义域内的二维高斯函数的值为一维向量。

根据3D姿态信息获取自遮挡感知区域掩码：局部视角感知区域掩码表征了独立的关节点的视角，但是缺乏对关节点之间视角感知，例如，当行人侧面视角的双脚交叉时，脚踝和膝盖的关节点都正确检测，仅用局部视角感知区域掩码无法感知双腿交叉部分的遮挡。自遮挡感知区域掩码用来表征人体关节点之间的可见视角，用于感知行人躯体的自遮挡。

本实施例中，如图8所示，所述自遮挡感知区域掩码是以互相连接的两个关节点的中点作为原点，将人体的T-pose状态作为参考坐标系，定义单位球坐标系该坐标系表示了每根骨头的视角，其中的骨头定义为：从成像的角度，互相连接的两个关节点之间的人体部分(并非实际的骨头)。由rotation_3d的三维旋转向量可以计算得到每根骨头被人体自遮挡之后的感知视角，即人体自遮挡感知区域，则每根骨头由骨头视角/>与相交骨头产生的遮挡感知视角/>确定了自遮挡感知视角：

其中T₄表示将3D坐标与三维旋转向量转换到以互相连接的两个关节点的中点作为原点的单位球坐标系。

将的单位球平面离散化，映射为N维向量，将骨头视角掩码/>与相交骨头遮挡视角掩码/>按元素相乘，得到自遮挡感知区域掩码

其中二维高斯函数g的参数矩阵和/>采用对角矩阵，且x维和y维的方差相等，该参数矩阵也可采用非对角矩阵。参数矩阵/>用于确定感知能力范围，参数矩阵/>用于确定遮挡影响范围；Flatten表示离散化后的单位球面映射为N维向量，即展平离散后定义域内的二维高斯函数的值为一维向量。

根据3D姿态信息获取外部遮挡感知区域掩码：根据每个关节点的置信度，将关节点分为外部可视关节点与外部遮挡关节点，关节点的置信度可以采用2D姿态预测网络输出的2D关节点的置信度，按照关节点位置的欧氏距离最近的原则，得到每个3D关节点的置信度，也可以采用直接由3D网络输出关节点的置信度。

本实施例中，由2D姿态预测网络HRNet输出的2D关节点的置信度{β_i}，按照欧氏距离最近的原则，得到每个3D关节点最近距离的2D关节点的置信度，所述外部遮挡感知区域掩码mask_object由每个关节点的置信度β_i确定，β_i的取值范围为0到1，当β_i越接近0时，该关节点为外部遮挡关节点的概率越大：

mask_object＝[β₀，β₁，...β_J-1]

其中，J为关节点总数。

步骤S4，将获取的2D关节点局部特征与3D姿态信息、人体外形信息融合：2D关节点局部特征包含了行人的关节点的图像特征，3D姿态信息包含了行人面向摄像头时的关节点3D坐标，人体外形信息包含了具体行人的形体特征，将每个关节点的图像特征，3D坐标以及形体特征融合，可以将图像特征，3D位置和形体特征展平为一维向量后直接拼接然后输出融合特征，也可以拼接之后再经过全连接层再输出融合特征。

本实施例中，所述将获取的2D关节点局部特征与3D姿态信息，人体外形信息融合，是将(x′_i，y′_i，z′_i)和shape_3d展平为一维向量后先进行拼接，然后再经过一层全连接层后输出，得到3D关节点局部特征/>

步骤S5，将3D关节点局部特征输入图卷积特征融合网络进行关节点间的特征融合，得到骨骼局部特征：3D关节点局部特征是每个关节点的充分表征，既表征了图像特征，也表征了位置和体态，但是关节点之间的相互联系，关节点之间的特征的相互影响，需要进一步进行关节点之间的特征融合。关节点之间的特征融合可以采用全连接层进行全节点特征融合，也可以采用图卷积根据连接矩阵进行相邻节点特征融合。

本实施例中，采用图卷积根据连接矩阵进行相邻节点特征融合，所述图卷积特征融合网络GCN_3d是根据关节点的连接矩阵，将相邻节点的相互融合，输出每个关节点与其父节点所代表的骨头的局部特征，即为骨骼局部特征/>

步骤S6，共有部分的相似度匹配：2D图像特征图根据全局视角感知区域掩码得到共有部分的匹配相似度，2D关节点局部特征根据外部遮挡感知区域掩码得到共有部分的匹配相似度，3D关节点局部特征根据局部视角感知区域掩码得到共有部分的匹配相似度，骨骼局部特征根据自遮挡感知区域掩码得到共有部分的匹配相似度，将各共有部分的匹配相似度以及人体外形匹配相似度进行加权，输出最终的匹配相似度。

本实施例中，所述将待识别图像与图像库中某图像的2D图像特征图、2D关节点局部特征、3D关节点局部特征、骨骼局部特征、人体外形信息，根据全局视角感知区域掩码、外部遮挡感知区域掩码、局部视角感知区域掩码、自遮挡感知区域掩码，进行共有部分的相似匹配，加权各部分的相似匹配度，输出最终匹配结果。具体为：

全局匹配相似度s_global，是先将待识别图像的全局视角感知区域掩码和图像库中某图像的全局视角感知区域掩码/>取对应位置的最小值，得到全局视角共有部分掩码/>然后将待识别图像的2D图像特征图和全局视角共有部分掩码/>的乘积，及图像库中某图像的2D图像特征图/>和全局视角共有部分掩码/>的乘积，输入到距离度量函数D₁，再除以全局视角共有部分掩码的总和计算得到，此处距离度量函数为余弦距离度量函数，也可采用其他距离度量函数，如欧氏距离度量函数：

外部遮挡匹配相似度是将待识别图像的2D关节点局部特征/>与图像库中某图像的2D关节点局部特征/>输入到距离度量函数D₂计算后，再与外部遮挡感知区域掩码/>和/>相乘得到，此处距离度量函数为余弦距离度量函数：

关节点局部匹配相似度是先将待识别图像的局部视角感知区域掩码和图像库中某图像的局部视角感知区域掩码/>取对应位置的最小值，得到局部视角共有部分掩码/>然后将待识别图像的3D关节点局部特征/>和局部视角共有部分掩码/>的乘积，及图像库中某图像的3D关节点局部特征/>和局部视角共有部分掩码/>的乘积，输入到距离度量函数D₃，再除以局部视角共有部分掩码的总和计算得到，此处距离度量函数为余弦距离度量函数：

自遮挡匹配相似度是先将待识别图像的自遮挡感知区域掩码和图像库中某图像的自遮挡感知区域掩码/>取对应位置的最小值，得到自遮挡共有部分掩码/>然后将待识别图像的骨骼局部特征/>和自遮挡共有部分掩码/>的乘积，及图像库中某图像的骨骼局部特征/>和自遮挡共有部分掩码/>的乘积，输入到距离度量函数D₄，再除以自遮挡共有部分掩码的总和计算得到，此处距离度量函数为余弦距离度量函数；

人体外形匹配相似度s_shape，是将待识别图像的人体外形信息与图像库中某图像的人体外形信息/>输入到距离度量函数D₅计算得到，此处距离度量函数为余弦距离度量函数；

最终匹配相似度s是加权各部分的匹配相似度得到：

其中，J为关节点总数，λ，α_i，β_i，γ_i为加权参数。

上述最终匹配相似度s是待识别行人图像与图像库中某行人图像特征信息的匹配相似度，将待识别图像与图像库的图像特征信息逐一匹配，就可查找到最匹配的一幅或一组图像，从而实现行人重识别。

以上仅描述了本发明的基本原理和优选实施方式，本领域人员可以根据上述描述做出许多变化和改进，这些变化和改进应该属于本发明的保护范围。

Claims

1.一种基于深度学习的行人重识别方法，其特征在于，包括如下步骤：

S1，将待识别图像输入2D特征编码网络提取2D图像特征图，且将待识别图像输入3D人体表征编码网络提取3D姿态信息和人体外形信息；

S2，根据3D姿态信息获取2D关节点位置，将2D关节点位置映射到2D图像特征图，获取2D关节点局部特征；

S3，根据3D姿态信息获取全局视角感知区域掩码、局部视角感知区域掩码、自遮挡感知区域掩码和外部遮挡感知区域掩码，根据3D姿态信息获取全局视角感知区域掩码具体包括：

S311，将人体的T-pose状态作为参考坐标系，以根节点为原点，定义用于确定全局视角的单位球坐标系SC_root，得到待识别图片描述全局视角的角度为(θ_root，φ_root，1)；

S312，将SC_root单位球平面离散化,即θ_root的定义域和φ_root的定义域分别等分为N1和N2份，等分后的每个区段都以其中点的值作为离散化后的值,映射为N维向量，N等于N1与N2的乘积，每个维度对应着一组(θ_root，φ_root)参数，该向量即为全局视角感知区域掩码；

根据3D姿态信息获取自遮挡感知区域掩码具体包括：

S321,以互相连接的两个关节点的中点作为原点，将人体的T-pose状态作为参考坐标系，定义用于表示骨头视角的单位球坐标系得到每根骨头的骨头视角/>与相交骨头产生的遮挡感知视角/>并将每个关节点的3D坐标和3D姿态信息的三维旋转向量转换至单位球坐标系/>

S322,将的单位球平面离散化，映射为N维向量，得到将骨头视角掩码与相交骨头遮挡视角掩码/>将其按元素相乘，得到自遮挡感知区域掩码；

S4，将获取的2D关节点局部特征与3D姿态信息和人体外形信息融合，得到3D关节点局部特征；

S5，将3D关节点局部特征进行关节点间的特征融合，得到骨骼局部特征；

S6，基于全局视角感知区域掩码、外部遮挡感知区域掩码、局部视角感知区域掩码以及自遮挡感知区域掩码，对待识别图像和图像库中的第一图像进行相似度匹配，输出最终匹配结果。

2.根据权利要求1所述的基于深度学习的行人重识别方法，其特征在于，步骤S5具体包括：

S51、将所有关节点的3D关节点局部特征输入图卷积特征融合网络；

S52、图卷积特征融合网络根据关节点的连接矩阵，输出每个关节点与其父节点所代表的骨头的局部特征，即骨骼局部特征。

3.根据权利要求1所述的基于深度学习的行人重识别方法，其特征在于：

步骤S2中所述的根据3D姿态信息获取2D关节点位置具体包括：将3D姿态信息转换为3D坐标，将3D坐标投影为2D图像特征图上的2D坐标从而得到2D关节点位置。

4.根据权利要求1所述的基于深度学习的行人重识别方法，其特征在于，

步骤S2中所述的将2D关节点位置映射到2D图像特征图，获取2D关节点局部特征，具体包括：

S21、根据2D关节点位置，生成与2D图像特征图尺寸相同的2D高斯加权图；

S22、2D图像特征图与2D高斯加权图按元素相乘得到2D关节点局部特征。

5.根据权利要求1所述的基于深度学习的行人重识别方法，其特征在于：所述的2D特征编码网络采用CNN网络；所述3D人体表征编码网络至少包括特征提取骨干网络和3D参数回归网络，其中特征提取骨干网络的全局平均池化层的输出串联接入3D参数回归网络。

6.根据权利要求1-5任一所述的基于深度学习的行人重识别方法，其特征在于，步骤S6具体包括：

S61、基于待识别图像和图像库中的第一图像的全局视角感知区域掩码、外部遮挡感知区域掩码、局部视角感知区域掩码和自遮挡感知区域掩码得到全局视角共有部分掩码、外部遮挡共有部分掩码、局部视角共有部分掩码和自遮挡共有部分掩码；

S62、将待识别图像和第一图像的2D图像特征图、2D关节点局部特征、3D关节点局部特征、骨骼局部特征的特征分别与全局视角共有部分掩码、外部遮挡共有部分掩码、局部视角共有部分掩码、自遮挡共有部分掩码相乘，并分别基于全局视角共有部分掩码、外部遮挡共有部分掩码、局部视角共有部分掩码、自遮挡共有部分掩码计算全局匹配相似度、外部遮挡匹配相似度、关节点局部匹配相似度、自遮挡匹配相似度；

S63、基于待识别图像和图像库中的第一图像的人体外形信息获得人体外形匹配相似度；

S64、加权全局匹配相似度、外部遮挡匹配相似度、关节点局部匹配相似度、自遮挡匹配相似度以及人体外形匹配相似度，从而输出最终的匹配相似度。

7.根据权利要求1所述的基于深度学习的行人重识别方法，其特征在于，所述步骤S3中，根据3D姿态信息获取局部视角感知区域掩码具体包括：

S331、将人体的T-poSe状态作为参考坐标系，以关节点的3D坐标为原点，定义用于表示局部视角的单位球坐标系得到每个关节点局部视角角度/>

S332、将的单位球平面离散化，将局部关节点的3D姿态信息的三维旋转向量传递到根节点后，转换到单位球坐标系，映射为N维向量，即为局部视角感知区域掩码。

8.根据权利要求1所述的基于深度学习的行人重识别方法，其特征在于，所述步骤S3中，根据3D姿态信息获取外部遮挡感知区域掩码具体包括：获取每个关节点的置信度，并基于获取的置信度得到外部遮挡感知区域掩码。