CN112733707B - 一种基于深度学习的行人重识别方法 - Google Patents
一种基于深度学习的行人重识别方法 Download PDFInfo
- Publication number
- CN112733707B CN112733707B CN202110020970.8A CN202110020970A CN112733707B CN 112733707 B CN112733707 B CN 112733707B CN 202110020970 A CN202110020970 A CN 202110020970A CN 112733707 B CN112733707 B CN 112733707B
- Authority
- CN
- China
- Prior art keywords
- image
- local
- mask
- feature
- human body
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000013135 deep learning Methods 0.000 title claims abstract description 16
- 210000000988 bone and bone Anatomy 0.000 claims abstract description 37
- 230000004927 fusion Effects 0.000 claims abstract description 18
- 238000013507 mapping Methods 0.000 claims abstract description 9
- 238000012512 characterization method Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 40
- 230000000007 visual effect Effects 0.000 claims description 25
- 239000011159 matrix material Substances 0.000 claims description 24
- 230000008447 perception Effects 0.000 claims description 23
- 238000000605 extraction Methods 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 28
- 238000005259 measurement Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 6
- 238000012544 monitoring process Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000037237 body shape Effects 0.000 description 2
- 210000001503 joint Anatomy 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005096 rolling process Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 101000836150 Homo sapiens Transforming acidic coiled-coil-containing protein 3 Proteins 0.000 description 1
- 102100027048 Transforming acidic coiled-coil-containing protein 3 Human genes 0.000 description 1
- 210000003423 ankle Anatomy 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 210000003414 extremity Anatomy 0.000 description 1
- 210000002683 foot Anatomy 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 210000002414 leg Anatomy 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 210000004197 pelvis Anatomy 0.000 description 1
- 229940108461 rennet Drugs 0.000 description 1
- 108010058314 rennet Proteins 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的行人重识别方法,应用于至少包括2D特征编码网络,3D人体表征编码网络以及图卷积特征融合网络的行人重识别系统,行人重识别方法包括如下步骤:通过2D特征编码网络提取2D图像特征图,3D人体表征编码网络提取3D姿态信息和人体外形信息;根据3D姿态信息获取2D关节点位置,将2D关节点位置映射到2D图像特征图获取2D关节点局部特征;根据3D姿态信息获取区域掩码;将获取的2D关节点局部特征与3D姿态信息和人体外形信息融合,得到3D关节点局部特征,进而进行关节点间的特征融合,得到骨骼局部特征;将待识别图像和图像库中第一图像相似度匹配,输出匹配结果;利用人体骨骼的3D信息以及拓扑约束使行人重识别的匹配更加准确。
Description
技术领域
本发明属于计算机视觉行人重识别技术领域,具体涉及一种基于深度学习的行人重识别方法
背景技术
如今,在几乎所有的公共场所,都可以看到通过监控摄像头来监控人类活动。这些摄像机拍摄的连续视频流通过人工观察可用以发现或查证事件的发生。然而,这个人工观察过程费时、费力且容易出错的。研究人员已经提出了各种基于计算机视觉的自动化技术来分析人类活动视频数据和提取相关信息,以执行人类跟踪、再识别和其他视觉相关任务。
行人重识别,其任务就是给定一个感兴趣的待查询人的信息,然后确定这个人是否被另一个不同地方、不同时间、不同相机所捕捉到。待查询人可以由图像、视频序列,甚至文本等信息描述表示。随着大量安装在大学校园,主题公园,街道的监控摄像头的出现,由于公共安全的需要,行人重识别在智能视频监控系统的设计有着重大影响和实际重要性。
当在拥挤的地方进行行人重新识别时,遮挡是一个不可避免的问题。例如,一个人可能会被现场的其他人遮挡,或被静态障碍物遮挡,如汽车、柱子、墙壁,或被自身肢体遮挡。除了遮挡,视角变化也是一个巨大的挑战。
发明内容
本发明提出一种基于深度学习的行人重识别方法,主要解决现有方案在复杂遮挡环境(如自遮挡,自然环境下的物体遮挡)和人体各部分视角差异大的情形下表现不佳的问题,人体骨骼随着关节活动,使得各个部分出现不同的视角变化,细粒度的视角检测可以使得行人重识别的匹配更加准确。利用人体骨骼的3D信息以及拓扑约束,可以获得行人更加鲁棒的表征信息。
本发明为了实现上述目的,提供了一种基于深度学习的行人重识别方法,包括如下步骤:S1,将待识别图像输入2D特征编码网络提取2D图像特征图,且将待识别图像输入3D人体表征编码网络提取3D姿态信息和人体外形信息;S2,根据3D姿态信息获取2D关节点位置,将2D关节点位置映射到2D图像特征图,获取2D关节点局部特征;S3,根据3D姿态信息获取全局视角感知区域掩码、局部视角感知区域掩码、自遮挡感知区域掩码和外部遮挡感知区域掩码;S4,将获取的2D关节点局部特征与3D姿态信息和人体外形信息融合,得到3D关节点局部特征;S5,将3D关节点局部特征进行关节点间的特征融合,得到骨骼局部特征;S6,基于全局视角感知区域掩码、外部遮挡感知区域掩码、局部视角感知区域掩码以及自遮挡感知区域掩码,对待识别图像和图像库中的第一图像进行相似度匹配,输出最终匹配结果。
优选的,步骤S3中,根据3D姿态信息获取全局视角感知区域掩码具体包括:S311,将人体的T-poSe状态作为参考坐标系,以根节点为原点,定义用于确定全局视角的单位球坐标系SCroot,得到待识别图片描述全局视角的角度为(θroot,φroot,1);S312,将SCroot单位球平面离散化,即θroot的定义域和φroot的定义域分别等分为N1和N2份,等分后的每个区段都以其中点的值作为离散化后的值,映射为N维向量,N等于N1与N2的乘积,每个维度对应着一组(θroot,φroot)参数,该向量即为全局视角感知区域掩码。
优选的,步骤S3中,根据3D姿态信息获取自遮挡感知区域掩码具体包括:
S321,以互相连接的两个关节点的中点作为原点,将人体的T-poSe状态作为参考坐标系,定义用于表示骨头视角的单位球坐标系得到每根骨头的骨头视角与相交骨头产生的遮挡感知视角/>并将每个关节点的3D坐标和3D姿态信息的三维旋转向量转换至单位球坐标系/>S322,将/>的单位球平面离散化,映射为N维向量,得到将骨头视角掩码/>与相交骨头遮挡视角掩码/>将其按元素相乘,得到自遮挡感知区域掩码。
优选的,步骤S5具体包括,S51、将所有关节点的3D关节点局部特征输入图卷积特征融合网络;S52、图卷积特征融合网络根据关节点的连接矩阵,输出每个关节点与其父节点所代表的骨头的局部特征,即骨骼局部特征。
优选的,步骤S2中所述的根据3D姿态信息获取2D关节点位置具体包括:将3D姿态信息转换为3D坐标,将3D坐标投影为2D图像特征图上的2D坐标从而得到2D关节点位置。
优选的,步骤S2中所述的将2D关节点位置映射到2D图像特征图,获取2D关节点局部特征,具体包括:S21、根据2D关节点位置,生成与2D图像特征图尺寸相同的2D高斯加权图;S22、2D图像特征图与2D高斯加权图按元素相乘得到2D关节点局部特征。
优选的,所述的2D特征编码网络采用CNN网络;所述3D人体表征编码网络至少包括特征提取骨干网络和3D参数回归网络,其中特征提取骨干网络的全局平均池化层的输出串联接入3D参数回归网络。
优选的,步骤S6具体包括:S61、基于待识别图像和图像库中的第一图像的全局视角感知区域掩码、外部遮挡感知区域掩码、局部视角感知区域掩码和自遮挡感知区域掩码得到全局视角共有部分掩码、外部遮挡共有部分掩码、局部视角共有部分掩码和自遮挡共有部分掩码;S62、将待识别图像和第一图像的2D图像特征图、2D关节点局部特征、3D关节点局部特征、骨骼局部特征的特征分别与全局视角共有部分掩码、外部遮挡共有部分掩码、局部视角共有部分掩码、自遮挡共有部分掩码相乘,并分别基于全局视角共有部分掩码、外部遮挡共有部分掩码、局部视角共有部分掩码、自遮挡共有部分掩码计算全局匹配相似度、外部遮挡匹配相似度、关节点局部匹配相似度、自遮挡匹配相似度;S63、基于待识别图像和图像库中的第一图像的人体外形信息获得人体外形匹配相似度;S64、加权全局匹配相似度、外部遮挡匹配相似度、关节点局部匹配相似度、自遮挡匹配相似度以及人体外形匹配相似度,从而输出最终的匹配相似度。
优选的,所述步骤S3中,根据3D姿态信息获取局部视角感知区域掩码具体包括:S331、将人体的T-poSe状态作为参考坐标系,以关节点的3D坐标为原点,定义用于表示局部视角的单位球坐标系得到每个关节点局部视角角度/>S332、将的单位球平面离散化,将局部关节点的3D姿态信息的三维旋转向量传递到根节点后,转换到单位球坐标系,映射为N维向量,即为局部视角感知区域掩码。
优选的,所述步骤S3中,根据3D姿态信息获取外部遮挡感知区域掩码具体包括:获取每个关节点的置信度,并基于获取的置信度得到外部遮挡感知区域掩码。
本发明的有益效果是:
1、解决复杂遮挡环境和人体各部分视角差异大的情形下行人重识别表现不佳的问题,提出了细粒度的视角感知,不仅包括全局视角,还包括关节点的局部视角和自遮挡感知的骨头视角,同时还能感知外部物体遮挡;
2、结合了人体图像的2D特征,人体的3D拓扑结构以及3D外形特征,使得整个网络的能够在复杂遮挡环境充分利用图像信息与人体结构等先验信息。
附图说明
图1是本发明行人重识别方法的一种实施例的系统框架示意图;
图2是本发明行人重识别方法的一种实施例流程示意图;
图3是本发明实施例中3D人体表征编码网络的结构示意图;
图4是本发明实施例中获取2D关节点局部特征图的基本步骤示意图;
图5是本发明实施例中2D高斯加权图与2D关节点局部特征图的映射示意图;
图6是本发明实施例中人体3D姿态与视角球坐标系的示意图;
图7是本发明实施例中视角球坐标系映射到感知区域掩码的示意图;
图8是本发明实施例中自遮挡区域的视角感知示意图。
具体实施方式
为了便于本领域人员更好的理解本发明,下面结合附图和具体实施例对本发明做进一步详细说明,下述仅是示例性的不限定本发明的保护范围。
本发明提出了一种基于深度学习的行人重识别方法,以下结合较佳的实施例以及附图,对依据本发明的具体实施方式、结构以及其功效,详细说明如下:
如图1所示,本发明公开一种基于深度学习的行人重识别方法,包括2D特征编码网络、3D人体表征编码网络、图卷积特征融合网络以及获取感知区域掩码、计算匹配相似度、图像库等模块,其中2D特征编码网络用于提取图像的2D图像特征图,3D人体表征编码网络用于提取3D姿态信息和人体外形信息,图卷积特征融合网络用于融合关节点之间的信息,获取感知区域掩码模块用于计算全局、局部、自遮挡、外部遮挡的感知区域掩码,图像库中存放用于与待识别图像相匹配的图像信息,即从用于重识别的行人图像提取的特征与感知区域掩码,计算匹配相似度模块是根据所有的特征信息和对应掩码计算最终的匹配相似度。具体流程如图2所示,步骤包括:
步骤S1,将待识别图像输入2D特征编码网络提取2D图像特征图,同时将待识别图像输入3D人体表征编码网络提取3D姿态信息和人体外形信息。
其中,2D特征编码网络是一个鲁棒的CNN特征编码网络,用于提取2D图像的局部和全局特征。该特征编码网络的初始参数是利用大规模图像数据预训练得到的,以此加快收敛和得到更加鲁棒的CNN特征编码网络。2D特征编码网络可以采用各种CNN网络,如VGGNet,GooglLeNet等。
本实施例中,2D特征编码网络encoder2d采用ReSNet50的骨干网络,移除了ReSNet50中的全局平均池化层和全连接层。将待识别图像Iquery输入2D特征编码网络,输出2D图像特征图fglobal_2d可表示为:
fglobal_2d=encoder2d(Iquery)
其中,3D人体表征编码网络提取的3D姿态信息是每个关节点绕着其父节点旋转的三维旋转向量;其中3D人体表征编码网络提取的人体外形信息是一个人固有的身体特征信息,如身体比例,高矮胖瘦等参数。
3D人体表征编码网络可以采用从VGG16获取的2D图像特征回归到3D网格坐标参数,再从3D网格坐标参数得到姿态和人体外形参数等信息,也可以采用从ReSNet50获取的2D图像特征回归到3D人体模型参数,然后再从3D人体模型参数得到姿态和人体外形参数等信息。本实施例中,如图3所示,3D人体表征编码网络的特征提取骨干网络encoder3d采用ReSNet50的骨干网络,将ReSNet50的全局平均池化层的输出串联接入3D参数回归网络regression3d;其中3D参数回归网络由两层全连接层组成,隐藏层FC1为1024个单元,输出层FC2为82个单元;将待识别图像Iquery输入encoder3d后得到的编码特征输入regression3d,得到相应的82维的3D参数,包括3D姿态信息rotation3d(72维)和人体外形信息shape3d(10维);rotation3d包含每个关节点的三维旋转向量;shape3d包含身体部件的胖瘦、比例等信息:
[rotation3d,shape3d]=regression3d(encoder3d(Iquery))
其中隐藏层FC1单元数、输出层FC2单元数也可为其它数目,相应的3D参数、3D姿态信息和人体外形信息也可随之为其他数目。
步骤S2,根据3D姿态信息获取2D关节点位置,将2D关节点位置映射到2D图像特征图,获取2D关节点局部特征。本实施例中,如图4所示,采用如下步骤:
S2.1将3D姿态信息rotation3d转换为(x′i,y′i,z′i),其中转换函数T是利用最小二乘法使得3D坐标误差最小化的函数:
{(x′i,y′i,z′i)}=T(rotation3d)
S2.2将(x′i,y′i,z′i)投影为2D图像特征图中的2D坐标(xi,yi),此处投影函数Project采用正交投影,即x′i加上图像宽度的一半,y′i加上图像高度的一半,然后将结果取整数,也可采用其他投影,如透视投影:
(xi,yi)=Project((x′i,y′i,z′i))
S2.3如图5所示,以(xi,yi)为中心,生成与2D图像特征图尺寸相同的2D高斯加权图其中二维高斯函数g的参数矩阵∑1(对应高斯分布函数的协方差矩阵)采用对角矩阵,且x维的方差σx和y维的方差σy相等,该参数矩阵也可采用非对角矩阵:
S2.4将关节点的与2D图像特征图按元素相乘,得到2D关节点局部特征fjoint_2d:
其中⊙表示按元素相乘。
步骤S3,根据3D姿态信息获取全局视角感知区域掩码、局部视角感知区域掩码、自遮挡感知区域掩码、外部遮挡感知区域掩码。
行人主体躯干的角度决定了行人全局特征的视角,因此全局视角的获取可以通过人为标注的图像训练全局视角预测器,也可以从3D姿态信息中的骨骼根节点的三维旋转向量得到。
本实施例中,全局视角感知区域掩码maskglobal_view是由rotation3d中根节点的三维旋转向量获得,根节点的旋转向量描述了人体整体旋转情况;如图6所示,将人体的T-poSe状态作为参考坐标系,以根节点(脊柱关节点,位于脖子和盆骨的中点)为原点,定义单位球坐标系SCroot,则待识别图片Iquery有一组描述全局视角的角度(θroot,φroot,1),以(θroot,φroot,1)为切点的半球则为全局视角感知区域,且以(θroot,φroot,1)为中心,向外则感知能力逐渐变弱;如图7所示,将SCroot的单位球平面离散化,即θroot的定义域和φroot的定义域分别等分为N1和N2份,等分后的每个区段都以其中点的值作为离散化后的值,映射为N维向量,N等于N1与N2的乘积,每个维度对应着一组(θroot,φroot)参数,每一维的值为感知能力,值的范围是0到1之间的实数,值越接近0表示感知能力越弱,该向量即为全局视角感知区域掩码maskglobal_view:
(θroot,φroot)=T2(rotation3d)
maskglobal_view=Flatten(g((θroot,φroot),∑2))
其中T2表示将3D姿态信息中根节点的三维旋转向量转换到单位球坐标系,即以直角坐标系的单位向量(0,0,1)为基准,由三维旋转向量旋转后得到向量(x,y,z),然后将该直角坐标转换为单位球坐标。
其中二维高斯函数g的参数矩阵∑2采用对角矩阵,且x维和y维的方差相等。参数矩阵∑2用于确定感知能力范围,该参数矩阵也可采用非对角矩阵;Flatten表示离散化后的单位球面映射为N维向量,即展平离散后定义域内的二维高斯函数的值为一维向量。
根据3D姿态信息获取局部视角感知区域掩码:局部视角感知区域可以通过关节点的3D坐标与T-pose状态的转换得到,也可以将关节点的三维旋转向量依据骨骼连接关系传递到根节点。
本实施例中,局部视角感知区域掩码是以每个关节点的3D坐标(x′i,y′i,z′i)为原点,将关节点的三维旋转向量依据骨骼连接关系传递到根节点得到;将人体的T-pose状态作为参考坐标系,定义单位球坐标系/>则每个关节点由一组角度确定了局部视角,将/>的单位球平面离散化,映射为N维向量,即为局部视角感知区域掩码/>
其中T3表示将局部关节点的三维旋转向量传递到根节点后,转换到单位球坐标系。其中二维高斯函数g的参数矩阵采用对角矩阵,且x维和y维的方差相等。参数矩阵/>用于确定感知能力范围,该参数矩阵也可采用非对角矩阵;Flatten表示离散化后的单位球面映射为N维向量,即展平离散后定义域内的二维高斯函数的值为一维向量。
根据3D姿态信息获取自遮挡感知区域掩码:局部视角感知区域掩码表征了独立的关节点的视角,但是缺乏对关节点之间视角感知,例如,当行人侧面视角的双脚交叉时,脚踝和膝盖的关节点都正确检测,仅用局部视角感知区域掩码无法感知双腿交叉部分的遮挡。自遮挡感知区域掩码用来表征人体关节点之间的可见视角,用于感知行人躯体的自遮挡。
本实施例中,如图8所示,所述自遮挡感知区域掩码是以互相连接的两个关节点的中点作为原点,将人体的T-pose状态作为参考坐标系,定义单位球坐标系该坐标系表示了每根骨头的视角,其中的骨头定义为:从成像的角度,互相连接的两个关节点之间的人体部分(并非实际的骨头)。由rotation3d的三维旋转向量可以计算得到每根骨头被人体自遮挡之后的感知视角,即人体自遮挡感知区域,则每根骨头由骨头视角/>与相交骨头产生的遮挡感知视角/>确定了自遮挡感知视角:
其中T4表示将3D坐标与三维旋转向量转换到以互相连接的两个关节点的中点作为原点的单位球坐标系。
将的单位球平面离散化,映射为N维向量,将骨头视角掩码/>与相交骨头遮挡视角掩码/>按元素相乘,得到自遮挡感知区域掩码
其中二维高斯函数g的参数矩阵和/>采用对角矩阵,且x维和y维的方差相等,该参数矩阵也可采用非对角矩阵。参数矩阵/>用于确定感知能力范围,参数矩阵/>用于确定遮挡影响范围;Flatten表示离散化后的单位球面映射为N维向量,即展平离散后定义域内的二维高斯函数的值为一维向量。
根据3D姿态信息获取外部遮挡感知区域掩码:根据每个关节点的置信度,将关节点分为外部可视关节点与外部遮挡关节点,关节点的置信度可以采用2D姿态预测网络输出的2D关节点的置信度,按照关节点位置的欧氏距离最近的原则,得到每个3D关节点的置信度,也可以采用直接由3D网络输出关节点的置信度。
本实施例中,由2D姿态预测网络HRNet输出的2D关节点的置信度{βi},按照欧氏距离最近的原则,得到每个3D关节点最近距离的2D关节点的置信度,所述外部遮挡感知区域掩码maskobject由每个关节点的置信度βi确定,βi的取值范围为0到1,当βi越接近0时,该关节点为外部遮挡关节点的概率越大:
maskobject=[β0,β1,...βJ-1]
其中,J为关节点总数。
步骤S4,将获取的2D关节点局部特征与3D姿态信息、人体外形信息融合:2D关节点局部特征包含了行人的关节点的图像特征,3D姿态信息包含了行人面向摄像头时的关节点3D坐标,人体外形信息包含了具体行人的形体特征,将每个关节点的图像特征,3D坐标以及形体特征融合,可以将图像特征,3D位置和形体特征展平为一维向量后直接拼接然后输出融合特征,也可以拼接之后再经过全连接层再输出融合特征。
本实施例中,所述将获取的2D关节点局部特征与3D姿态信息,人体外形信息融合,是将(x′i,y′i,z′i)和shape3d展平为一维向量后先进行拼接,然后再经过一层全连接层后输出,得到3D关节点局部特征/>
步骤S5,将3D关节点局部特征输入图卷积特征融合网络进行关节点间的特征融合,得到骨骼局部特征:3D关节点局部特征是每个关节点的充分表征,既表征了图像特征,也表征了位置和体态,但是关节点之间的相互联系,关节点之间的特征的相互影响,需要进一步进行关节点之间的特征融合。关节点之间的特征融合可以采用全连接层进行全节点特征融合,也可以采用图卷积根据连接矩阵进行相邻节点特征融合。
本实施例中,采用图卷积根据连接矩阵进行相邻节点特征融合,所述图卷积特征融合网络GCN3d是根据关节点的连接矩阵,将相邻节点的相互融合,输出每个关节点与其父节点所代表的骨头的局部特征,即为骨骼局部特征/>
步骤S6,共有部分的相似度匹配:2D图像特征图根据全局视角感知区域掩码得到共有部分的匹配相似度,2D关节点局部特征根据外部遮挡感知区域掩码得到共有部分的匹配相似度,3D关节点局部特征根据局部视角感知区域掩码得到共有部分的匹配相似度,骨骼局部特征根据自遮挡感知区域掩码得到共有部分的匹配相似度,将各共有部分的匹配相似度以及人体外形匹配相似度进行加权,输出最终的匹配相似度。
本实施例中,所述将待识别图像与图像库中某图像的2D图像特征图、2D关节点局部特征、3D关节点局部特征、骨骼局部特征、人体外形信息,根据全局视角感知区域掩码、外部遮挡感知区域掩码、局部视角感知区域掩码、自遮挡感知区域掩码,进行共有部分的相似匹配,加权各部分的相似匹配度,输出最终匹配结果。具体为:
全局匹配相似度sglobal,是先将待识别图像的全局视角感知区域掩码和图像库中某图像的全局视角感知区域掩码/>取对应位置的最小值,得到全局视角共有部分掩码/>然后将待识别图像的2D图像特征图和全局视角共有部分掩码/>的乘积,及图像库中某图像的2D图像特征图/>和全局视角共有部分掩码/>的乘积,输入到距离度量函数D1,再除以全局视角共有部分掩码的总和计算得到,此处距离度量函数为余弦距离度量函数,也可采用其他距离度量函数,如欧氏距离度量函数:
外部遮挡匹配相似度是将待识别图像的2D关节点局部特征/>与图像库中某图像的2D关节点局部特征/>输入到距离度量函数D2计算后,再与外部遮挡感知区域掩码/>和/>相乘得到,此处距离度量函数为余弦距离度量函数:
关节点局部匹配相似度是先将待识别图像的局部视角感知区域掩码和图像库中某图像的局部视角感知区域掩码/>取对应位置的最小值,得到局部视角共有部分掩码/>然后将待识别图像的3D关节点局部特征/>和局部视角共有部分掩码/>的乘积,及图像库中某图像的3D关节点局部特征/>和局部视角共有部分掩码/>的乘积,输入到距离度量函数D3,再除以局部视角共有部分掩码的总和计算得到,此处距离度量函数为余弦距离度量函数:
自遮挡匹配相似度是先将待识别图像的自遮挡感知区域掩码和图像库中某图像的自遮挡感知区域掩码/>取对应位置的最小值,得到自遮挡共有部分掩码/>然后将待识别图像的骨骼局部特征/>和自遮挡共有部分掩码/>的乘积,及图像库中某图像的骨骼局部特征/>和自遮挡共有部分掩码/>的乘积,输入到距离度量函数D4,再除以自遮挡共有部分掩码的总和计算得到,此处距离度量函数为余弦距离度量函数;
人体外形匹配相似度sshape,是将待识别图像的人体外形信息与图像库中某图像的人体外形信息/>输入到距离度量函数D5计算得到,此处距离度量函数为余弦距离度量函数;
最终匹配相似度s是加权各部分的匹配相似度得到:
其中,J为关节点总数,λ,αi,βi,γi为加权参数。
上述最终匹配相似度s是待识别行人图像与图像库中某行人图像特征信息的匹配相似度,将待识别图像与图像库的图像特征信息逐一匹配,就可查找到最匹配的一幅或一组图像,从而实现行人重识别。
以上仅描述了本发明的基本原理和优选实施方式,本领域人员可以根据上述描述做出许多变化和改进,这些变化和改进应该属于本发明的保护范围。
Claims (8)
1.一种基于深度学习的行人重识别方法,其特征在于,包括如下步骤:
S1,将待识别图像输入2D特征编码网络提取2D图像特征图,且将待识别图像输入3D人体表征编码网络提取3D姿态信息和人体外形信息;
S2,根据3D姿态信息获取2D关节点位置,将2D关节点位置映射到2D图像特征图,获取2D关节点局部特征;
S3,根据3D姿态信息获取全局视角感知区域掩码、局部视角感知区域掩码、自遮挡感知区域掩码和外部遮挡感知区域掩码,根据3D姿态信息获取全局视角感知区域掩码具体包括:
S311,将人体的T-pose状态作为参考坐标系,以根节点为原点,定义用于确定全局视角的单位球坐标系SCroot,得到待识别图片描述全局视角的角度为(θroot,φroot,1);
S312,将SCroot单位球平面离散化,即θroot的定义域和φroot的定义域分别等分为N1和N2份,等分后的每个区段都以其中点的值作为离散化后的值,映射为N维向量,N等于N1与N2的乘积,每个维度对应着一组(θroot,φroot)参数,该向量即为全局视角感知区域掩码;
根据3D姿态信息获取自遮挡感知区域掩码具体包括:
S321,以互相连接的两个关节点的中点作为原点,将人体的T-pose状态作为参考坐标系,定义用于表示骨头视角的单位球坐标系得到每根骨头的骨头视角/>与相交骨头产生的遮挡感知视角/>并将每个关节点的3D坐标和3D姿态信息的三维旋转向量转换至单位球坐标系/>
S322,将的单位球平面离散化,映射为N维向量,得到将骨头视角掩码与相交骨头遮挡视角掩码/>将其按元素相乘,得到自遮挡感知区域掩码;
S4,将获取的2D关节点局部特征与3D姿态信息和人体外形信息融合,得到3D关节点局部特征;
S5,将3D关节点局部特征进行关节点间的特征融合,得到骨骼局部特征;
S6,基于全局视角感知区域掩码、外部遮挡感知区域掩码、局部视角感知区域掩码以及自遮挡感知区域掩码,对待识别图像和图像库中的第一图像进行相似度匹配,输出最终匹配结果。
2.根据权利要求1所述的基于深度学习的行人重识别方法,其特征在于,步骤S5具体包括:
S51、将所有关节点的3D关节点局部特征输入图卷积特征融合网络;
S52、图卷积特征融合网络根据关节点的连接矩阵,输出每个关节点与其父节点所代表的骨头的局部特征,即骨骼局部特征。
3.根据权利要求1所述的基于深度学习的行人重识别方法,其特征在于:
步骤S2中所述的根据3D姿态信息获取2D关节点位置具体包括:将3D姿态信息转换为3D坐标,将3D坐标投影为2D图像特征图上的2D坐标从而得到2D关节点位置。
4.根据权利要求1所述的基于深度学习的行人重识别方法,其特征在于,
步骤S2中所述的将2D关节点位置映射到2D图像特征图,获取2D关节点局部特征,具体包括:
S21、根据2D关节点位置,生成与2D图像特征图尺寸相同的2D高斯加权图;
S22、2D图像特征图与2D高斯加权图按元素相乘得到2D关节点局部特征。
5.根据权利要求1所述的基于深度学习的行人重识别方法,其特征在于:所述的2D特征编码网络采用CNN网络;所述3D人体表征编码网络至少包括特征提取骨干网络和3D参数回归网络,其中特征提取骨干网络的全局平均池化层的输出串联接入3D参数回归网络。
6.根据权利要求1-5任一所述的基于深度学习的行人重识别方法,其特征在于,步骤S6具体包括:
S61、基于待识别图像和图像库中的第一图像的全局视角感知区域掩码、外部遮挡感知区域掩码、局部视角感知区域掩码和自遮挡感知区域掩码得到全局视角共有部分掩码、外部遮挡共有部分掩码、局部视角共有部分掩码和自遮挡共有部分掩码;
S62、将待识别图像和第一图像的2D图像特征图、2D关节点局部特征、3D关节点局部特征、骨骼局部特征的特征分别与全局视角共有部分掩码、外部遮挡共有部分掩码、局部视角共有部分掩码、自遮挡共有部分掩码相乘,并分别基于全局视角共有部分掩码、外部遮挡共有部分掩码、局部视角共有部分掩码、自遮挡共有部分掩码计算全局匹配相似度、外部遮挡匹配相似度、关节点局部匹配相似度、自遮挡匹配相似度;
S63、基于待识别图像和图像库中的第一图像的人体外形信息获得人体外形匹配相似度;
S64、加权全局匹配相似度、外部遮挡匹配相似度、关节点局部匹配相似度、自遮挡匹配相似度以及人体外形匹配相似度,从而输出最终的匹配相似度。
7.根据权利要求1所述的基于深度学习的行人重识别方法,其特征在于,所述步骤S3中,根据3D姿态信息获取局部视角感知区域掩码具体包括:
S331、将人体的T-poSe状态作为参考坐标系,以关节点的3D坐标为原点,定义用于表示局部视角的单位球坐标系得到每个关节点局部视角角度/>
S332、将的单位球平面离散化,将局部关节点的3D姿态信息的三维旋转向量传递到根节点后,转换到单位球坐标系,映射为N维向量,即为局部视角感知区域掩码。
8.根据权利要求1所述的基于深度学习的行人重识别方法,其特征在于,所述步骤S3中,根据3D姿态信息获取外部遮挡感知区域掩码具体包括:获取每个关节点的置信度,并基于获取的置信度得到外部遮挡感知区域掩码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110020970.8A CN112733707B (zh) | 2021-01-07 | 2021-01-07 | 一种基于深度学习的行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110020970.8A CN112733707B (zh) | 2021-01-07 | 2021-01-07 | 一种基于深度学习的行人重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112733707A CN112733707A (zh) | 2021-04-30 |
CN112733707B true CN112733707B (zh) | 2023-11-14 |
Family
ID=75589685
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110020970.8A Active CN112733707B (zh) | 2021-01-07 | 2021-01-07 | 一种基于深度学习的行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112733707B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113486751B (zh) * | 2021-06-29 | 2023-07-04 | 西北大学 | 一种基于图卷积和边缘权重注意力的行人特征提取方法 |
CN113920306B (zh) * | 2021-09-30 | 2022-10-25 | 北京百度网讯科技有限公司 | 目标再识别方法、装置及电子设备 |
CN114038058B (zh) * | 2021-11-05 | 2024-10-15 | 上海交通大学 | 基于姿态引导重识别特征的并行人体姿态检测跟踪方法 |
CN114554158B (zh) * | 2022-02-28 | 2024-07-19 | 重庆长安汽车股份有限公司 | 一种基于道路交通场景下的全景视频拼接方法及系统 |
CN116206332B (zh) * | 2023-01-31 | 2023-08-08 | 北京数美时代科技有限公司 | 一种基于姿态估计的行人重识别方法、系统和存储介质 |
CN116386145B (zh) * | 2023-04-17 | 2023-11-03 | 浙江金融职业学院 | 一种基于双摄像头的银行内人员异常行为识别方法 |
CN116524602B (zh) * | 2023-07-03 | 2023-09-19 | 华东交通大学 | 基于步态特征的换衣行人重识别方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017000115A1 (zh) * | 2015-06-29 | 2017-01-05 | 北京旷视科技有限公司 | 行人再识别方法及设备 |
CN107832672A (zh) * | 2017-10-12 | 2018-03-23 | 北京航空航天大学 | 一种利用姿态信息设计多损失函数的行人重识别方法 |
CN110427877A (zh) * | 2019-08-01 | 2019-11-08 | 大连海事大学 | 一种基于结构信息的人体三维姿态估算的方法 |
CN111104867A (zh) * | 2019-11-25 | 2020-05-05 | 北京迈格威科技有限公司 | 基于部件分割的识别模型训练、车辆重识别方法及装置 |
CN111310720A (zh) * | 2020-03-11 | 2020-06-19 | 广东工业大学 | 基于图度量学习的行人重识别方法及系统 |
-
2021
- 2021-01-07 CN CN202110020970.8A patent/CN112733707B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017000115A1 (zh) * | 2015-06-29 | 2017-01-05 | 北京旷视科技有限公司 | 行人再识别方法及设备 |
CN107832672A (zh) * | 2017-10-12 | 2018-03-23 | 北京航空航天大学 | 一种利用姿态信息设计多损失函数的行人重识别方法 |
CN110427877A (zh) * | 2019-08-01 | 2019-11-08 | 大连海事大学 | 一种基于结构信息的人体三维姿态估算的方法 |
CN111104867A (zh) * | 2019-11-25 | 2020-05-05 | 北京迈格威科技有限公司 | 基于部件分割的识别模型训练、车辆重识别方法及装置 |
CN111310720A (zh) * | 2020-03-11 | 2020-06-19 | 广东工业大学 | 基于图度量学习的行人重识别方法及系统 |
Non-Patent Citations (1)
Title |
---|
Dynamic GCN:Context-enriched Topology Learning for Skeleton-based Action Recognition;Fangan Ye 等;arXiv;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112733707A (zh) | 2021-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112733707B (zh) | 一种基于深度学习的行人重识别方法 | |
US20220358770A1 (en) | Scene reconstruction in three-dimensions from two-dimensional images | |
CN107423730B (zh) | 一种基于语义折叠的人体步态行为主动检测识别系统和方法 | |
CN109544677B (zh) | 基于深度图像关键帧的室内场景主结构重建方法及系统 | |
CN104715493B (zh) | 一种运动人体姿态估计的方法 | |
CN111968165B (zh) | 动态人体三维模型补全方法、装置、设备和介质 | |
CN112750198B (zh) | 一种基于非刚性点云的稠密对应预测方法 | |
JP7292492B2 (ja) | オブジェクト追跡方法及び装置、記憶媒体並びにコンピュータプログラム | |
JP2019125057A (ja) | 画像処理装置及びその方法、プログラム | |
CN110598590A (zh) | 基于多视角相机的紧密交互人体姿态估计方法及装置 | |
GB2584400A (en) | Processing captured images | |
CN111598995B (zh) | 一种基于原型分析的自监督多目三维人体姿态估计方法 | |
CN106815855A (zh) | 基于产生式和判别式结合的人体运动跟踪方法 | |
Ma et al. | Human motion gesture recognition based on computer vision | |
CN117671738B (zh) | 基于人工智能的人体姿态识别系统 | |
CN105488491A (zh) | 基于金字塔匹配直方图交叉核的人体睡眠姿态检测方法 | |
CN108875586A (zh) | 一种基于深度图像与骨骼数据多特征融合的功能性肢体康复训练检测方法 | |
CN111881888A (zh) | 基于姿态识别的智能桌控制方法及装置 | |
CN114036969A (zh) | 一种多视角情况下的3d人体动作识别算法 | |
CN114882493A (zh) | 一种基于图像序列的三维手部姿态估计与识别方法 | |
Yu et al. | A deep-learning-based strategy for kidnapped robot problem in similar indoor environment | |
CN114494594A (zh) | 基于深度学习的航天员操作设备状态识别方法 | |
Krahnstöver et al. | Automatic acquisition and initialization of articulated models | |
CN110599587A (zh) | 一种基于单张图像的3d场景重构技术 | |
CN115810219A (zh) | 一种基于rgb摄像头的三维手势追踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |