CN111914642B - 一种行人重识别方法、装置、设备及介质 - Google Patents

一种行人重识别方法、装置、设备及介质 Download PDF

Info

Publication number
CN111914642B
CN111914642B CN202010614594.0A CN202010614594A CN111914642B CN 111914642 B CN111914642 B CN 111914642B CN 202010614594 A CN202010614594 A CN 202010614594A CN 111914642 B CN111914642 B CN 111914642B
Authority
CN
China
Prior art keywords
pedestrian
loss
feature
local
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010614594.0A
Other languages
English (en)
Other versions
CN111914642A (zh
Inventor
金良
尹云峰
范宝余
张润泽
郭振华
梁玲燕
李茹杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN202010614594.0A priority Critical patent/CN111914642B/zh
Publication of CN111914642A publication Critical patent/CN111914642A/zh
Application granted granted Critical
Publication of CN111914642B publication Critical patent/CN111914642B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种行人重识别方法、装置、设备及介质,包括:将行人重识别训练样本输入至backbone网络,提取特征图;提取特征图的全局特征,计算全局距离;利用目标检测算法确定出特征图中的行人位置;利用行人位置从特征图中提取出行人特征;基于ROI Align技术对行人特征进行归一化处理,得到预设尺寸的行人特征;从归一化后的行人特征中提取局部特征,计算局部距离;利用全局距离和局部距离计算出总距离;计算整个训练过程中产生的损失;重复前述步骤对预建的行人重识别模型进行训练,得到训练后行人重识别模型;当获取到待识别图像,利用训练后行人重识别模型输出识别结果。能够解决局部特征不对齐以及局部特征一对多的问题,从而提升行人重识别的准确度。

Description

一种行人重识别方法、装置、设备及介质
技术领域
本申请涉及图像识别技术领域,特别涉及一种行人重识别方法、装置、设备及介质。
背景技术
行人重识别是计算机视觉领域的热点问题,主要研究的是“如何关联位于不同物理位置的不同摄像机捕获到特定行人的问题”,可以理解为图像检索的子问题。如针对出现在某摄像头视域里的某一个目标行人,在其他摄像头的视域里能够快速准确的将这一目标行人识别出来。
早期行人重识别关注点在全局特征上,即提取整幅图像特征,基于此特征向量进行图像检索。但后来发现仅利用全局特征性能提升到一定水平会达到瓶颈,于是逐渐考虑到局部特征,常用的提取局部特征的方法有图像切块、利用骨架关键点定位、姿态矫正等。
目前,在行人重识别算法中存在局部特征不对齐,以及一个局部特征对应多个局部特征,导致局部距离偏大,进而影响算法性能的问题。
发明内容
有鉴于此,本申请的目的在于提供一种行人重识别方法、装置、设备及介质,能够解决局部特征不对齐以及局部特征一对多的问题,从而提升行人重识别的准确度。其具体方案如下:
第一方面,本申请公开了一种行人重识别方法,包括:
步骤S11:将行人重识别训练样本输入至backbone网络,提取对应的特征图;所述行人重识别训练样本包括行人样本图像和对应的标注信息;
步骤S12:提取所述特征图的全局特征,并计算对应的全局距离;
步骤S13:利用目标检测算法确定出所述特征图中的行人位置;
步骤S14:利用所述行人位置从所述特征图中提取出对应的行人特征;
步骤S15:基于ROI Align技术对所述行人特征进行归一化处理,以得到预设尺寸的行人特征;
步骤S16:从归一化后的所述行人特征中提取对应的局部特征,并计算对应的局部距离;
步骤S17:利用所述全局距离和所述局部距离计算出总距离;
步骤S18:计算整个训练过程中产生的损失;
重复所述步骤S11至步骤S18对预先构建的行人重识别模型进行训练,得到训练后行人重识别模型;
步骤S19:当获取到待识别图像,则利用所述训练后行人重识别模型输出对应的识别结果。
可选的,所述利用目标检测算法确定出所述特征图中的行人位置,包括:
将所述特征图输入至RPN网络,以提取出所述特征图对应的候选框;
利用所述特征图和所述候选框确定出所述特征图中的行人位置。
可选的,所述计算整个训练过程中产生的损失,包括:
利用第一损失、第二损失、第三损失以及第四损失计算整个训练过程中产生的损失;
其中,所述第一损失为提取所述全局特征的过程中针对样本类别产生的softmax损失,所述第二损失为计算所述全局距离过程中产生的TriHard损失,所述第三损失为计算所述局部距离的过程中产生的triplet损失,所述第四损失为目标检测损失,并且,所述目标检测损失包括RPN损失以及输出最终检测结果产生的损失。
可选的,所述提取所述特征图的全局特征,包括:
利用全局平均池化提取所述特征图的全局特征。
可选的,所述从归一化后的所述行人特征中提取对应的局部特征,包括:
对所述行人特征的每个通道进行水平池化,以提取出对应的局部特征,然后对提取出的所述局部特征进行卷积降维。
可选的,所述将行人重识别训练样本输入至backbone网络之前,还包括:
利用行人检测数据集对初始行人检测模型进行训练,得到训练后行人检测模型;其中,所述行人检测数据集中剔除了小目标图像;
利用所述训练后行人检测模型对行人重识别数据集进行位置标注,以得到对应的行人位置标签,将所述行人位置标签和行人类别标签作为所述标注信息;其中,所述行人重识别数据集包括所述行人样本图像和对应的所述行人类别标签。
可选的,所述利用所述训练后行人检测模型对所述行人样本图像进行标注,以得到对应的所述标注信息之后,还包括:
对所述标注信息进行校验。
第二方面,本申请公开了一种行人重识别装置,包括:
特征图获取模块101,用于将行人重识别训练样本输入至backbone网络,提取对应的特征图;所述行人重识别训练样本包括行人样本图像和对应的标注信息;
全局特征提取模块102,用于提取所述特征图的全局特征;
全局距离计算模块103,用于计算全局距离;
行人位置检测模块104,用于利用目标检测算法确定出所述特征图中的行人位置;
行人特征提取模块105,用于利用所述行人位置从所述特征图中提取出对应的行人特征;
行人特征归一化模块106,用于基于ROI Align技术对所述行人特征进行归一化处理,以得到预设尺寸的行人特征;
局部特征提取模块107,用于从归一化后的所述行人特征中提取对应的局部特征;
局部距离计算模块108,用于计算局部距离;
总距离计算模块109,用于利用所述全局距离和所述局部距离计算出总距离;
训练损失计算模块110,用于计算整个训练过程中产生的损失;
所述装置具体用于基于模块101至模块110对预先构建的行人重识别模型进行训练,得到训练后行人重识别模型;
行人重识别模块111,用于当获取到待识别行人图像,则利用所述训练后行人重识别模型输出对应的识别结果。
第三方面,本申请公开了一种行人重识别设备,包括处理器和存储器;其中,
所述存储器,用于保存计算机程序;
所述处理器,用于执行所述计算机程序以实现前述的行人重识别方法。
第四方面,本申请公开了一种计算机可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现前述的行人重识别方法。
可见,本申请将行人重识别训练样本输入至backbone网络,提取对应的特征图;所述行人重识别训练样本包括行人样本图像和对应的标注信息,然后提取所述特征图的全局特征,并计算对应的全局距离,以及利用目标检测算法确定出所述特征图中的行人位置,利用所述行人位置从所述特征图中提取出对应的行人特征,基于ROI Align技术对所述行人特征进行归一化处理,以得到预设尺寸的行人特征,从归一化后的所述行人特征中提取对应的局部特征,并计算对应的局部距离,然后利用所述全局距离和所述局部距离计算出总距离,之后计算整个训练过程中产生的损失,重复前述步骤对预先构建的行人重识别模型进行训练,得到训练后行人重识别模型,当获取到待识别图像,则利用所述训练后行人重识别模型输出对应的识别结果。这样,利用目标检测算法确定出行人位置,从而提取出对应的行人特征,然后基于ROI Align技术对行人特征进行归一化处理,得到预设尺寸的行人特征,提取归一化后的行人特征的局部特征,能够解决局部特征不对齐以及局部特征一对多的问题,从而提升行人重识别的准确度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提供的一种行人重识别应用场景示意图;
图2为本申请提供的一种基于图像切块提取局部特征的方法示意图;
图3为本申请提供的一种姿态模型预测行人关键点以及仿射变换对齐的示意图;
图4为本申请提供了一种关键点提取以及ROI提取的示意图;
图5为本申请提供的一种SpindleNet特征提取示意图;
图6为本申请提供的一种GLAD特征提取示意图;
图7为本申请提供的一种基于AlignedReid算法的行人重识别示意图;
图8为本申请提供的一种基于AlignedReid++的行人重识别示意图;
图9为本申请提供的一种行人图像局部特征提取示意图;
图10为本申请公开的一种行人重识别方法流程图;
图11为本申请提供的一种ResNet50网络特征提取示意图;
图12为本申请公开的一种具体的行人重识别流程图;
图13为本申请公开的一种具体的行人重识别流程图;
图14为本申请公开的一种具体的行人重识别方法流程图;
图15为本申请公开的一种行人重识别装置结构示意图;
图16为本申请公开的一种行人重识别设备结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
行人重识别问题可以理解为图像检索的子问题。参见图1所示,本申请实施例提供了一种行人重识别应用场景示意图,针对出现在某摄像头视域里的某一个目标行人,在其他摄像头的视域里能够快速准确的将这一目标行人识别出来。早期行人重识别关注点在全局特征上,即提取整幅图像特征,基于此特征向量进行图像检索。但后来发现仅利用全局特征性能提升到一定水平会达到瓶颈,于是逐渐考虑到局部特征,常用的提取局部特征的方法有图像切块、利用骨架关键点定位、姿态矫正等。
其中,图像切块是一种很常见的提取局部特征方式。参见图2所示,图2为本申请提供的一种基于图像切块提取局部特征的方法示意图,将一幅图像垂直等分若干份,将分割后的若干图像块按照次序输入到LSTM(即Long Short-Term Memory长短期记忆网络)中,最后的特征融合切块后子图像特征,由于这种方法对图像对齐要求比较高,若出现两幅图像没有上下对齐,很有可能存在头部与上身对齐情况,导致模型判断错误。
为了解决图像不对齐情况下切块方法失效问题,可以通过引入预训练的人体姿态模型和骨架关键点模型作为先验知识。参见图3所示,图3为本申请提供的一种姿态模型预测行人关键点以及仿射变换对齐的示意图,首先利用姿态估计模型预测出行人的关键点,然后利用仿射变换对齐相同关键点。如图3所示,一个行人通常被分为14个关键点,这些关键点将人体分为若干个区域,提取这些区域特征,为了提取不同尺度下的局部特征,通过设置三个不同的PoseBox组合。然后将PoseBox矫正后的图像和原始图像输入到网络中提取特征,这样提取到的特征就包含全局特征和局部特征。通常这个仿射变换有两种处理方式:预处理和网络中处理。若仿射变换发生在预处理中,即输入到网络之前将图像进行切块对齐,则不需要额外处理。若仿射变换发生在网络中,由于传统的仿射变换不可导,则需要对仿射变换做相应的改进。
SpindleNet也是利用14个人体关键点提取局部特征。与PoseBox对比,SpindleNet直接利用关键点提取ROI(即region-of-interest,感兴趣区域)。参见图4所示,本申请提供了一种关键点提取以及ROI提取的示意图,首先通过骨架关键点模型提取人体14个关键点;然后利用这些关键点提取7个人体结构ROI,其中头、上身、下身为三大区域,四肢为四个小区域;其次,参见图5所示,图5为本申请提供的一种SpindleNet特征提取示意图,将原始图像与7个ROI输入到同一CNN(即Convolutional Neural Networks,卷积神经网络)网络中提取特征,原始图像经过完整CNN可得到全局特征,三大ROI依次通过FEN-C2、FEN-C3可得到三个局部特征,四肢ROI通过FEN-C3可得到四个局部特征;最后,将全局特征和7个局部特征在不同尺度中进行联结融合,得到最终特征。
为了解决行人重识别姿态变化问题,GLAD(Global-Local-AlignmentDescriptor)提取了一种全局-局部对齐特征描述子。与SpindleNet类似,首先根据提取的人体关键点将行人分为头部、上身、下身三个部分,其次,将整幅图像和三个局部区域图像输入到同一个CNN网络中,这样最后提取到特征就融合了全局特征和三个局部区域特征。与SpindleNet将所有Loss合成一个总的loss不同的是,GLAD四个不同Loss各自计算自己的Loss。例如,参见图6所示,图6为本申请提供的一种GLAD特征提取示意图。
上述所有的局部特征对齐方法都需要一个额外骨架关键点或姿态估计模型,通常需要收集足够多的训练数据方才可获取到一个不错的模型。为了解决上述问题,AlignedReid、AlignedReid++提出了基于最短路径距离的自动对齐模型,在不需要额外的信息情况下自动对齐局部特征,参见图7所示,图7为本申请提供的一种基于AlignedReid算法的行人重识别示意图,参见图8所示,图8为本申请提供的一种基于AlignedReid++的行人重识别示意图。对于每一张图像,首先,基于backbone(例如ResNet50)提取特征;然后,基于提取特征获取全局特征,即利用全局average pooling或max pooling提取全局特征;其次,基于提取特征获取局部特征,即在水平方向做global pooling,之后利用1×1卷积将通道C降维c;最后,基于全局特征和局部特征计算总的距离。这种方法优势在于在计算局部特征距离时,采用最短路径方法,实现局部特征的自动对齐,从而提高算法的性能。例如,参见图9所示,图9为本申请提供的一种行人图像局部特征提取示意图,图像A和图像B提取的局部特征分别用和/>表示,其中,H为局部特征数目,在利用最短距离计算lA和lB距离时,首先将数据归一化到[0,1),即
其中,di,j表示图像A中第i部分与图像B中第j部分特征距离,用D表示所有的di,j组成的矩阵,lA和lB之间距离通过如下动态算法计算:
其中,Si,j表示在距离矩阵D中从(1,1)到(i,j)最短路径的距离和,SH,H表示两幅图像之间最终最短路径的距离和,即dl(A,B)=SH,H
从图9可看出,由于行人在图像A中占整幅图像,而在图像B中仅占下半部分,在利用最短路径计算图像A与图像B局部特征距离时,图像A的第0部分与图像B第4部分对齐;再者,由于图像A与图像B均匀切块,并且切块数目相同,因此会导致在计算最短路径时出现一对多问题,如图像B的4对应图像A的0和1,图像B的7对应图像A的5,6,7,这样一个局部特征对应多个局部特征,会导致局部距离偏大,进而影响算法性能。
综上,目前,在行人重识别算法中存在局部特征不对齐,以及一个局部特征对应多个局部特征,导致局部距离偏大,进而影响算法性能的问题。为此,本申请提供了一种行人重识别方法、装置、设备及介质,能够解决局部特征不对齐以及局部特征一对多的问题,从而提升行人重识别的准确度。
参见图10所示,本申请实施例公开了一种行人重识别方法,包括:
步骤S11:将行人重识别训练样本输入至backbone网络,提取对应的特征图;所述行人重识别训练样本包括行人样本图像和对应的标注信息。
在具体的实施方式中,backbone网络可以选用VGGNet、GoogleNet、ResNet系列、DenseNet系列等,比如,使用ResNet50,参见图11所示,图11为本申请提供的一种ResNet50网络特征提取示意图。根据此网络结构,提取输入图像特征feats,尺寸为N×C×H×W,其中N为batch size,C为通道数,H为特征图高,W为特征图宽。
步骤S12:提取所述特征图的全局特征,并计算对应的全局距离。
在具体的实施方式中,本实施例可以利用全局平均池化提取所述特征图的全局特征。也即,利用global average pooling提取全局特征g_feat,并计算全局距离dg。具体的,在特征图feats每个通道上通过global average pooling获取到全局特征g_feat,其尺寸为N×C,然后根据g_feat,计算全局距离dg(A,B)=||fA-fB||2,其中,fA和fB分别为图像A和图像B的全局特征。
步骤S13:利用目标检测算法确定出所述特征图中的行人位置。
在具体的实施方式中,可以将所述特征图输入至RPN网络,以提取出所述特征图对应的候选框;利用所述特征图和所述候选框确定出所述特征图中的行人位置。
步骤S14:利用所述行人位置从所述特征图中提取出对应的行人特征。
步骤S15:基于ROI Align技术对所述行人特征进行归一化处理,以得到预设尺寸的行人特征。
步骤S16:从归一化后的所述行人特征中提取对应的局部特征,并计算对应的局部距离。
在具体的实施方式中,本实施例对所述行人特征的每个通道进行水平池化,以提取出对应的局部特征,然后对提取出的所述局部特征进行卷积降维。
也即,本申请实施例利用目标检测算法与ROI Align技术提取局部特征l_feat,并计算局部距离dl
具体的,本实施例根据feats与RPN网络提取候选框,然后根据候选框以及feats,进一步获取图像中行人位置,之后根据feats和行人位置,提取行人特征p_feat,对行人特征p_feat利用ROI Align做归一化得到n_p_feat,尺寸为N×C×H,之后对n_p_feat每个通道上做horizontal pooling,然后通过1×1卷积降维到N×c×H。
进一步,计算局部特征距离dl
其中,图像A和图像B的局部特征分别用和/>表示。
步骤S17:利用所述全局距离和所述局部距离计算出总距离。
总距离d(A,B)=dg(A,B)+λdl(A,B);
其中,λ为系数,在具体的实施方式中可以令λ=1。
步骤S18:计算整个训练过程中产生的损失。
在具体的实施方式中,本实施例可以利用第一损失、第二损失、第三损失以及第四损失计算整个训练过程中产生的损失;其中,所述第一损失为提取所述全局特征的过程中针对样本类别产生的softmax损失,所述第二损失为计算所述全局距离过程中产生的TriHard损失,所述第三损失为计算所述局部距离的过程中产生的triplet损失,所述第四损失为目标检测损失,并且,所述目标检测损失包括RPN损失以及输出最终检测结果产生的损失。
也即,计算各个部分loss,并根据各个loss值计算总loss。具体的,根据公式计算整个训练过程中产生的损失。
其中,Loss为训练损失,λ0~λ4为各loss对应权重,参见图12所示,图12为本申请实施例公开的一种具体的行人重识别流程图。LID为全局分支中softmax loss,即提取所述全局特征的过程中针对样本类别产生的softmax损失;为全局分支中TriHard loss,即计算所述全局距离过程中产生的TriHard损失,/>为局部分支中triplet loss,即计算所述局部距离的过程中产生的triplet损失,LRPN为局部分支中提取候选区产生的RPN loss,LF为局部分支目标输出分类和回归loss,即输出最终检测结果产生的损失,计算整个训练过程中产生的损失。其中,
Ltriplet(a,p,n)=max(d(a,p)-d(a,n)+margin,0);
其中,/>
其中,计算LID的公式中pi为第i个anchor的预测概率,为第i个anchor是groundtruth label真实便签的概率;
计算的Ltrihard公式中N为batch size,A和A’指相同人的不同图像,B指与A不同的人的图像,fA为提取的图像A的特征,α代表margin,通常为常数;
计算Ltriplet(a,p,n)的公式中a和p指同一个人不同图像,n指不同人的图像,d表示距离;
LRPN由两部分组成:分类loss和回归loss,分类loss通常为softmax loss,回归loss通常用smooth L1,如公式Lbox所示,指预测位置坐标,vi指真实ground truth坐标,x,y为目标框的左上角点,w,h为目标框的宽和高;Ncls为计算分类loss时样本数,Nbox为计算box loss是样本数;LF表示目标检测最后输出目标时的loss,它与LRPN的计算公式相同,RPN只是从大量的候选框筛选出有目标的候选框,位置并不精确,在PRN基础上通过进一步处理,可以获取到精确的位置以及所属类别,也即LF为基于PRN处理结果进一步确定目标位置和类别产生的目标检测损失。
重复所述步骤S11至步骤S18对预先构建的行人重识别模型进行训练,得到训练后行人重识别模型。
步骤S19:当获取到待识别图像,则利用所述训练后行人重识别模型输出对应的识别结果。
例如,参见图13所示,图13为本申请实施例公开了一种具体的行人重识别流程图。通过backbone网络提取输入图像的特征图,利用目标检测算法获取行人位置,根据行人具体位置以及骨干网络特征图获取到行人特征,基于Roi Align技术将行人特征归一化到同一尺寸下,解决行人重识别算法行人对齐问题以及DMLI(即Dynamically Matching LocalInformation,动态匹配局部信息)计算局部距离时出现的一对多问题。具体的,先根据输入图像以及backbone网络,提取特征图feats,然后利用global average pooling提取全局特征g_feat,并计算全局距离dg,以及利用目标检测算法与ROI Align技术提取局部特征l_feat,并计算局部距离dl,之后根据全局距离与局部距离,计算总距离d,最后计算各个部分loss,并根据各个loss值计算总Loss。通过loss值更新模型中相关参数。参见图12所示,首先,利用backbone网络提取输入图像特征图;其次,根据骨干网络特征图提取全局特征,并计算全局距离。即使用global average pooling将特征图映射到C×1全局特征,若fA和fB分别表示图像A和图像B的全局特征,则全局距离为dg(A,B)=||fA-fB||2;随后,根据骨干网络特征图提取局部特征,并计算局部距离。虽全局距离容易度量两个行人之间的相似性,但使用global average pooling提取到的全部特征忽略空间局部信息,因此需考虑局部特征,而基于DMLI在计算局部距离时,会出现一对多问题,从而影响算法性能,为解决此问题,引入目标检测算法从输入图像中获取行人位置,根据此位置以及backbone提取的特征图,获取行人特征,利用ROI Align将特征归一化到统一尺寸,然后使用horizontal max(average)pooling将C×H×W特征图映射到H×C,此后利用1×1卷积将特征图H×C降维到H×c,随后计算局部距离。由于行人特征是根据行人在图像中位置在整幅图像中抠出来,并做归一化处理,因此在计算局部距离时,仅需一一对应计算相应位置距离,然后求和即可。若图像A和图像B局部特征分别用和/>表示,则最后,根据局部距离与全局距离计算总距离以及相关loss,通过loss值更新模型中相关参数。
可以理解的是,本实施例在计算局部特征距离时,针对行人对齐问题,而导致算法性能降低。引入目标检测,以获取行人具体位置,根据行人具体位置以及ROI Align技术将不同尺寸行人特征归一化到同一尺寸下,利用horizontal pooling、1×1卷积做进一步处理,这样提取到的局部特征具有一一对应特性,基于此计算局部距离并联合全局距离,从而提高算法性能。
参见图14所示,本申请实施例公开了一种具体的行人重识别方法,包括:
步骤S201:利用行人检测数据集对初始行人检测模型进行训练,得到训练后行人检测模型;其中,所述行人检测数据集中剔除了小目标图像;小目标图像为图像中目标的占比小于预设阈值的样本图像。
步骤S202:利用所述训练后行人检测模型对行人重识别数据集进行位置标注,以得到对应的行人位置标签,将所述行人位置标签和行人类别标签作为所述标注信息;其中,所述行人重识别数据集包括所述行人样本图像和对应的所述行人类别标签。
步骤S203:对所述标注信息进行校验。
在具体的实施方式中,行人检测模型可以以Faster R-CNN,利用行人检测数据集,基于Faster R-CNN目标检测网络训练检测行人模型。由于行人重识别数据集每张图像仅有一个目标,并最少占整幅图像区域的1/3,因此在利用行人检测数据集训练时,可剔除小目标数据。然后,利用训练后行人检测模型对行人重识别数据集即行人重识别样本数据进行标注,并人工校验。由于行人重识别数据仅有类别,可以利用行人检测模型对行人重识别数据集进行位置标注,由于通过算法标注难免出现标错情况,因此可以需要人工对所有数据进行校验一次。
步骤S204:将行人重识别训练样本输入至backbone网络,提取对应的特征图;所述行人重识别训练样本包括行人样本图像和对应的标注信息。
步骤S205:提取所述特征图的全局特征,并计算对应的全局距离。
步骤S206:利用目标检测算法确定出所述特征图中的行人位置。
步骤S207:利用所述行人位置从所述特征图中提取出对应的行人特征。
步骤S208:基于ROI Align技术对所述行人特征进行归一化处理,以得到预设尺寸的行人特征。
步骤S209:从归一化后的所述行人特征中提取对应的局部特征,并计算对应的局部距离。
步骤S210:利用所述全局距离和所述局部距离计算出总距离。
步骤S211:计算整个训练过程中产生的损失。
重复所述步骤S11至步骤S18对预先构建的行人重识别模型进行训练,得到训练后行人重识别模型。
步骤S212:当获取到待识别图像,则利用所述训练后行人重识别模型输出对应的识别结果。
参见图15所示,本申请实施例公开的行人重识别装置,包括:
特征图获取模块101,用于将行人重识别训练样本输入至backbone网络,提取对应的特征图;所述行人重识别训练样本包括行人样本图像和对应的标注信息;
全局特征提取模块102,用于提取所述特征图的全局特征;
全局距离计算模块103,用于计算全局距离;
行人位置检测模块104,用于利用目标检测算法确定出所述特征图中的行人位置;
行人特征提取模块105,用于利用所述行人位置从所述特征图中提取出对应的行人特征;
行人特征归一化模块106,用于基于ROI Align技术对所述行人特征进行归一化处理,以得到预设尺寸的行人特征;
局部特征提取模块107,用于从归一化后的所述行人特征中提取对应的局部特征;
局部距离计算模块108,用于计算局部距离;
总距离计算模块109,用于利用所述全局距离和所述局部距离计算出总距离;
训练损失计算模块110,用于计算整个训练过程中产生的损失;
所述装置具体用于基于模块101至模块110对预先构建的行人重识别模型进行训练,得到训练后行人重识别模型;
行人重识别模块111,用于当获取到待识别行人图像,则利用所述训练后行人重识别模型输出对应的识别结果。
其中,所述行人位置检测模块104,具体用于将所述特征图输入至RPN网络,以提取出所述特征图对应的候选框;利用所述特征图和所述候选框确定出所述特征图中的行人位置。
所述训练损失计算模块110,具体用于利用第一损失、第二损失、第三损失以及第四损失计算整个训练过程中产生的损失;其中,所述第一损失为提取所述全局特征的过程中针对样本类别产生的softmax损失,所述第二损失为计算所述全局距离过程中产生的TriHard损失,所述第三损失为计算所述局部距离的过程中产生的triplet损失,所述第四损失为目标检测损失,并且,所述目标检测损失包括RPN损失以及输出最终检测结果产生的损失。
所述全局特征提取模块102,具体用于利用全局平均池化提取所述特征图的全局特征。
所述局部特征提取模块107,具体用于对所述行人特征的每个通道进行水平池化,以提取出对应的局部特征,然后对提取出的所述局部特征进行卷积降维。
所述装置,还包括行人检测模型训练模块,用于利用行人检测数据集对初始行人检测模型进行训练,得到训练后行人检测模型;其中,所述行人检测数据集中剔除了小目标图像。
所述装置还包括行人重识别样本标注模块,用于利用所述训练后行人检测模型对行人重识别数据集进行位置标注,以得到对应的行人位置标签,将所述行人位置标签和行人类别标签作为所述标注信息;其中,所述行人重识别数据集包括所述行人样本图像和对应的所述行人类别标签。
所述装置还包括行标注信息校验模块,用于对所述标注信息进行校验。
参见图16所示,本申请实施例公开了一种行人重识别设备,包括处理器21和存储器22;其中,所述存储器22,用于保存计算机程序;所述处理器21,用于执行所述计算机程序,以实现前述实施例公开的行人重识别方法。
关于上述行人重识别方法的具体过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
进一步的,本申请实施例还公开了一种计算机可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现前述实施例公开的行人重识别方法。
关于上述行人重识别方法的具体过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的一种行人重识别方法、装置、设备及介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (9)

1.一种行人重识别方法,其特征在于,包括:
步骤S11:将行人重识别训练样本输入至backbone网络,提取对应的特征图;所述行人重识别训练样本包括行人样本图像和对应的标注信息;
步骤S12:提取所述特征图的全局特征,并计算对应的全局距离;
步骤S13:利用目标检测算法确定出所述特征图中的行人位置;
步骤S14:利用所述行人位置从所述特征图中提取出对应的行人特征;行人特征为根据行人在图像中位置在整幅图像中抠取出的特征;
步骤S15:基于ROI Align技术对所述行人特征进行归一化处理,以得到预设尺寸的行人特征;
步骤S16:从归一化后的所述行人特征中提取对应的局部特征,并计算对应的局部距离;
步骤S17:利用所述全局距离和所述局部距离计算出总距离;
步骤S18:计算整个训练过程中产生的损失;
重复所述步骤S11至步骤S18对预先构建的行人重识别模型进行训练,得到训练后行人重识别模型;
步骤S19:当获取到待识别图像,则利用所述训练后行人重识别模型输出对应的识别结果;
其中,所述从归一化后的所述行人特征中提取对应的局部特征,包括:对所述行人特征的每个通道进行水平池化,以提取出对应的局部特征;
其中,根据公式计算整个训练过程中产生的损失;Loss为训练损失,λ0~λ4为各loss对应权重;
Ltriplet(a,p,n)=max(d(a,p)-d(a,n)+margin,0);
其中,/>
其中,计算LID的公式中pi为第i个anchor的预测概率,为第i个anchor是groundtruth label真实便签的概率;
计算的Ltrihard公式中N为batch size,A和A’指相同人的不同图像,B指与A不同的人的图像,fA为提取的图像A的特征,α代表margin,为常数;
计算Ltriplet(a,p,n)的公式中a和p指同一个人不同图像,n指不同人的图像,d表示距离;
LRPN由两部分组成:分类loss和回归loss,公式Lbox指预测位置坐标,vi指真实ground truth坐标,x,y为目标框的左上角点,w,h为目标框的宽和高;Ncls为计算分类loss时样本数,Nbox为计算box loss是样本数;LF表示目标检测最后输出目标时的loss。
2.根据权利要求1所述的行人重识别方法,其特征在于,所述利用目标检测算法确定出所述特征图中的行人位置,包括:
将所述特征图输入至RPN网络,以提取出所述特征图对应的候选框;
利用所述特征图和所述候选框确定出所述特征图中的行人位置。
3.根据权利要求1所述的行人重识别方法,其特征在于,所述提取所述特征图的全局特征,包括:
利用全局平均池化提取所述特征图的全局特征。
4.根据权利要求1所述的行人重识别方法,其特征在于,还包括:
对提取出的所述局部特征进行卷积降维。
5.根据权利要求1至4任一项所述的行人重识别方法,其特征在于,所述将行人重识别训练样本输入至backbone网络之前,还包括:
利用行人检测数据集对初始行人检测模型进行训练,得到训练后行人检测模型;其中,所述行人检测数据集中剔除了小目标图像;
利用所述训练后行人检测模型对行人重识别数据集进行位置标注,以得到对应的行人位置标签,将所述行人位置标签和行人类别标签作为所述标注信息;其中,所述行人重识别数据集包括所述行人样本图像和对应的所述行人类别标签。
6.根据权利要求5所述的行人重识别方法,其特征在于,所述利用所述训练后行人检测模型对所述行人样本图像进行标注,以得到对应的所述标注信息之后,还包括:
对所述标注信息进行校验。
7.一种行人重识别装置,其特征在于,包括:
特征图获取模块101,用于将行人重识别训练样本输入至backbone网络,提取对应的特征图;所述行人重识别训练样本包括行人样本图像和对应的标注信息;
全局特征提取模块102,用于提取所述特征图的全局特征;
全局距离计算模块103,用于计算全局距离;
行人位置检测模块104,用于利用目标检测算法确定出所述特征图中的行人位置;
行人特征提取模块105,用于利用所述行人位置从所述特征图中提取出对应的行人特征;行人特征为根据行人在图像中位置在整幅图像中抠取出的特征;
行人特征归一化模块106,用于基于ROI Align技术对所述行人特征进行归一化处理,以得到预设尺寸的行人特征;
局部特征提取模块107,用于从归一化后的所述行人特征中提取对应的局部特征;
局部距离计算模块108,用于计算局部距离;
总距离计算模块109,用于利用所述全局距离和所述局部距离计算出总距离;
训练损失计算模块110,用于计算整个训练过程中产生的损失;
所述装置具体用于基于模块101至模块110对预先构建的行人重识别模型进行训练,得到训练后行人重识别模型;
行人重识别模块111,用于当获取到待识别行人图像,则利用所述训练后行人重识别模型输出对应的识别结果;
所述局部特征提取模块107,具体用于对所述行人特征的每个通道进行水平池化,以提取出对应的局部特征;
其中,根据公式计算整个训练过程中产生的损失;Loss为训练损失,λ0~λ4为各loss对应权重;
Ltriplet(a,p,n)=max(d(a,p)-d(a,n)+margin,0);
其中,/>
其中,计算LID的公式中pi为第i个anchor的预测概率,为第i个anchor是groundtruth label真实便签的概率;
计算的Ltrihard公式中N为batch size,A和A’指相同人的不同图像,B指与A不同的人的图像,fA为提取的图像A的特征,α代表margin,为常数;
计算Ltriplet(a,p,n)的公式中a和p指同一个人不同图像,n指不同人的图像,d表示距离;
LRPN由两部分组成:分类loss和回归loss,公式Lbox指预测位置坐标,vi指真实ground truth坐标,x,y为目标框的左上角点,w,h为目标框的宽和高;Ncls为计算分类loss时样本数,Nbox为计算box loss是样本数;LF表示目标检测最后输出目标时的loss。
8.一种行人重识别设备,其特征在于,包括处理器和存储器;其中,
所述存储器,用于保存计算机程序;
所述处理器,用于执行所述计算机程序以实现如权利要求1至6任一项所述的行人重识别方法。
9.一种计算机可读存储介质,其特征在于,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的行人重识别方法。
CN202010614594.0A 2020-06-30 2020-06-30 一种行人重识别方法、装置、设备及介质 Active CN111914642B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010614594.0A CN111914642B (zh) 2020-06-30 2020-06-30 一种行人重识别方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010614594.0A CN111914642B (zh) 2020-06-30 2020-06-30 一种行人重识别方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN111914642A CN111914642A (zh) 2020-11-10
CN111914642B true CN111914642B (zh) 2023-09-01

Family

ID=73226954

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010614594.0A Active CN111914642B (zh) 2020-06-30 2020-06-30 一种行人重识别方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN111914642B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232300B (zh) * 2020-11-11 2024-01-19 汇纳科技股份有限公司 全局遮挡自适应的行人训练/识别方法、系统、设备及介质
CN112541448B (zh) * 2020-12-18 2023-04-07 济南博观智能科技有限公司 一种行人重识别方法、装置、电子设备和存储介质
CN112580525B (zh) * 2020-12-22 2023-05-23 南京信息工程大学 一种基于行人再识别的病例活动轨迹监测方法
CN113159142B (zh) * 2021-04-02 2024-02-20 杭州电子科技大学 一种用于细粒度图像分类的损失函数可变超参数确定方法
CN113469118B (zh) * 2021-07-20 2024-05-21 京东科技控股股份有限公司 多目标行人跟踪方法及装置、电子设备、存储介质
CN113408492B (zh) * 2021-07-23 2022-06-14 四川大学 一种基于全局-局部特征动态对齐的行人重识别方法
CN114581858B (zh) * 2022-05-06 2022-08-23 中科智为科技(天津)有限公司 一种小股人群重识别方法及模型训练方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784166A (zh) * 2018-12-13 2019-05-21 北京飞搜科技有限公司 行人重识别的方法及装置
CN110688976A (zh) * 2019-10-09 2020-01-14 创新奇智(北京)科技有限公司 基于图像识别的门店比对方法
CN110728263A (zh) * 2019-10-24 2020-01-24 中国石油大学(华东) 一种基于距离选择的强判别特征学习的行人重识别方法
CN111091091A (zh) * 2019-12-16 2020-05-01 北京迈格威科技有限公司 目标对象重识别特征的提取方法、装置、设备及存储介质
WO2020098158A1 (zh) * 2018-11-14 2020-05-22 平安科技(深圳)有限公司 行人重识别方法、装置及计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020098158A1 (zh) * 2018-11-14 2020-05-22 平安科技(深圳)有限公司 行人重识别方法、装置及计算机可读存储介质
CN109784166A (zh) * 2018-12-13 2019-05-21 北京飞搜科技有限公司 行人重识别的方法及装置
CN110688976A (zh) * 2019-10-09 2020-01-14 创新奇智(北京)科技有限公司 基于图像识别的门店比对方法
CN110728263A (zh) * 2019-10-24 2020-01-24 中国石油大学(华东) 一种基于距离选择的强判别特征学习的行人重识别方法
CN111091091A (zh) * 2019-12-16 2020-05-01 北京迈格威科技有限公司 目标对象重识别特征的提取方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Attention-Aware Compositional Network for Person Re-identification;Jing Xu等;《2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition》;全文 *

Also Published As

Publication number Publication date
CN111914642A (zh) 2020-11-10

Similar Documents

Publication Publication Date Title
CN111914642B (zh) 一种行人重识别方法、装置、设备及介质
CN110348319B (zh) 一种基于人脸深度信息和边缘图像融合的人脸防伪方法
CN108229509B (zh) 用于识别物体类别的方法及装置、电子设备
US11763485B1 (en) Deep learning based robot target recognition and motion detection method, storage medium and apparatus
CN108960211B (zh) 一种多目标人体姿态检测方法以及系统
CN110569878B (zh) 一种基于卷积神经网络的照片背景相似度聚类方法及计算机
US9928405B2 (en) System and method for detecting and tracking facial features in images
CN109882019B (zh) 一种基于目标检测和动作识别的汽车电动尾门开启方法
US9984280B2 (en) Object recognition system using left and right images and method
CN108090435B (zh) 一种可停车区域识别方法、系统及介质
CN110909618B (zh) 一种宠物身份的识别方法及装置
CN111368766A (zh) 一种基于深度学习的牛脸检测与识别方法
CN114758288A (zh) 一种配电网工程安全管控检测方法及装置
CN111027481A (zh) 基于人体关键点检测的行为分析方法及装置
CN111914761A (zh) 一种热红外人脸识别的方法及系统
CN114049512A (zh) 模型蒸馏方法、目标检测方法、装置及电子设备
CN113361542A (zh) 一种基于深度学习的局部特征提取方法
CN112200056A (zh) 人脸活体检测方法、装置、电子设备及存储介质
CN112668374A (zh) 图像处理方法、装置、重识别网络的训练方法及电子设备
CN115375917B (zh) 一种目标边缘特征提取方法、装置、终端及存储介质
JPWO2019111550A1 (ja) 人物照合装置、方法、及びプログラム
CN115497122A (zh) 遮挡行人重识别方法、装置、设备和计算机可存储介质
CN111027434B (zh) 一种行人识别模型的训练方法、装置及电子设备
CN117152625A (zh) 一种基于CoordConv和YOLOv5的遥感小目标识别方法、系统、设备及介质
CN114927236A (zh) 一种面向多重目标图像的检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant