CN115497122A - 遮挡行人重识别方法、装置、设备和计算机可存储介质 - Google Patents

遮挡行人重识别方法、装置、设备和计算机可存储介质 Download PDF

Info

Publication number
CN115497122A
CN115497122A CN202211171521.4A CN202211171521A CN115497122A CN 115497122 A CN115497122 A CN 115497122A CN 202211171521 A CN202211171521 A CN 202211171521A CN 115497122 A CN115497122 A CN 115497122A
Authority
CN
China
Prior art keywords
semantic
key point
features
feature
human body
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211171521.4A
Other languages
English (en)
Inventor
高赞
陈鹏
周冕
温显斌
陈胜勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University of Technology
Original Assignee
Tianjin University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University of Technology filed Critical Tianjin University of Technology
Priority to CN202211171521.4A priority Critical patent/CN115497122A/zh
Publication of CN115497122A publication Critical patent/CN115497122A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于计算机视觉和模式识别技术领域,涉及一种遮挡行人重识别方法、装置、设备和计算机可存储介质。遮挡行人重识别方法的具体步骤如下:(1)进行数据准备:(2)引入遮挡信息进行并进行图像预处理;(3)网络模型搭建;(4)关键点‑局部语义特征相似度匹配;(5)网络的目标函数构建;(6)基于遮挡信息辅助与关键点增强的遮挡行人重识别。此外,还提出了配套的装置、设备和计算机可存储介质。本发明可对现有公开有遮挡的行人重识别数据集进行高效识别和检索,能够有效地解决目标数据集由于遮挡、姿态变化造成的行人信息缺失、特征对齐困难等问题,并且方法收敛速度快。本发明尤适用于公共安全领域。

Description

遮挡行人重识别方法、装置、设备和计算机可存储介质
技术领域
本发明属于计算机视觉和模式识别技术领域,涉及一种遮挡行人重识别方法、装置、设备和计算机可存储介质;具体地说是一种基于遮挡信息辅助与关键点增强的遮挡行人重识别方法,还提出了与基于遮挡信息辅助与关键点增强的遮挡行人重识别方法配套的装置、设备和计算机可存储介质。
背景技术
近些年,研究人员在行人重识别方向取得了大量的成果。网络模型的类别、结构丰富多样,或是基于卷积神经网络,或是基于Transformer,其效果也是各有千秋。然而,传统的行人重识别任务中所采用的图像样本是完整的行人图像,这与实际场景中的情况不符。在现实场景中,完整的行人图像难以捕获。尤其是在如商场、校园、车站等拥挤的场所中,行人的部分身体往往会被如广告牌、汽车、垃圾桶等遮挡物或其他行人所遮挡。正是由于遮挡的存在,目标行人难以被准确地识别。为此,专门为了解决行人重识别中的遮挡情况的有遮挡的行人重识别任务应运而生。
有遮挡的行人重识别任务中主要面临以下两大挑战:
1.行人图像由于遮挡导致了被遮挡的人体部位信息缺失。另外,在图像特征的提取过程中,遮挡物有可能会被当作人体的一部分,会作为干扰信息被引入,给行人身份的重新识别造成了困难。而有遮挡的行人重识别任务中,主要存在着两种遮挡:一是被遮挡物所遮挡,二是被其他行人所遮挡。
2.每个行人样本由于本人姿态的变化或相机拍摄角度的变化导致了图像中关键信息的移位,给网络对图像关键信息的感知、对齐造成了困难。
近些年来,为了应对以上两大挑战,研究者们提出了许多有效的方法。有些方法使用了将特征进行分割并分别参与训练的思路:基于零件的卷积基线的网络(PCB),该方法水平地将特征图划分为多个部分并直接学习局部特征;基于区域的方法(VPM),该方法通过自我监督机制感知各个可见区域。但是这些特征的划分往往采用简单粗暴的方式进行平均分割,或是由于技术不成熟导致了划分不准确。
此外,一些方法使用了引入外部辅助信息的方法:姿势引导的可见零件匹配(PVPM)模型,用于通过姿势引导的注意来学习区分性零件特征。HOReID方法利用人体姿态检测器提取14个人体关键点的特征,并将其输入图卷积网络进行一系列处理,并在测试阶段的特征匹配中采取了图匹配的策略,即引入了高阶关系和人类拓扑信息来学习鲁棒特征。使用引入外部辅助信息思路的方法虽然能取得较好的效果,但是此类方法对于外部辅助信息的质量有着较高的要求,且对外部辅助信息的依赖性过大。
以上的两种思路单独使用各有优劣,因此,我们将两种思路进行了有机结合,提出了一种基于遮挡信息辅助与关键点增强的遮挡行人重识别方法用于解决有遮挡的行人重识别问题。
发明内容
本发明提供了一种遮挡行人重识别方法、装置、设备和计算机可存储介质,以及与该方法相配套的装置、设备和计算机可存储介质。本发明尤适用于公共安全领域。
本发明遮挡行人重识别方法包括以下步骤:
1)在数据集中选取若干有遮挡的图像并手动剪裁若干不同尺寸的遮挡物图像。将高度大于2倍宽度的遮挡物图像用作垂直方向遮挡物,将宽度大于两倍高度的遮挡物用作水平方向的遮挡物;在数据集的训练集中随机选取图像并剪裁,生成局部行人图像,尺寸为所选取的训练集图像原尺寸的1/4—1/2;此外,为了使网络模型所提取的特征更加符合人体语义,我们利用现有的人体解析模型为训练集图像进行人体解析,将图像划分为20个语义部分,再进一步归类合并为6个人体语义标签。
2)对训练集图像进行预处理,进行数据增强,将图像大小调整为256×128,并对图像进行随机采取随机裁剪、水平翻转和随机擦除,概率均为50%;并利用遮挡物图像与局部行人图像对训练集图像进行遮挡数据增强,概率为50%,其中被遮挡物图像增强和局部行人图像增强的概率都分别为25%;
3)构建HRNet-32为基线的人体语义特征解析模型,并进行训练;人体语义特征解析模型分别为每张输入图像提取1个包含5个人体语义部分信息的局部语义特征、1个前景语义特征与1个全局语义特征共3个特征;
4)利用一个基于HRNet-48的人体关键点特征提取模块提取人体13个关键点特征,馈入一个卷积神经网络(GCN)进行处理后得到13个GCN关键点特征。利用关键点-局部语义特征相似度匹配方法将GCN关键点特征与人体语义特征进行匹配与融合,实现人体关键点信息加强,得到1个包含人体关键点信息的局部语义特征;
5)利用包含人体关键点信息的局部语义特征、前景语义特征与全局语义特征共3个特征参与损失函数的计算;
6)训练完成的网络提取1个包含5个人体语义部分信息的局部语义特征和1个前景语义特征,将以上两种特征分别经过批量归一化层处理,然后将经过批量归一化处理的两种特征沿通道方向进行拼接的得到最终特征。利用最终特征计算gallery集与query集各个样本特征的欧氏距离,通过gallery集合中的样本按照与query集合中样本的距离计算cmc与mAP,最终实现对行人样本的重识别。
使用数据集中的现有的可利用的图像生成遮挡物图像与局部行人图像在训练开始前对训练集图像进行遮挡增强;为了使网络模型对于遮挡情况更加鲁棒,能够提取精准、有效的人体语义特征,我们需要在训练网络模型之前预先进行数据准备;
由于在有遮挡的行人重识别任务中,行人图像中主要存在两种遮挡情况:被广告牌、汽车、垃圾桶等遮挡物遮挡,以及被目标行人之外的其他行人遮挡;因此,为了模拟这两种遮挡情况,我们需手动生成两类遮挡图像;此外,为了使网络模型更加精准地对人体语义部分进行定位和特征提取,我们需要生成人体语义标签,以便之后参与损失函数计算和模型优化;
优选的,数据准备阶段需要准备遮挡图像与人体语义标签,具体步骤如下:
1-1)在数据集中随机选取若干存在遮挡物的图像,对遮挡物部分的图像进行手动剪裁。为了进一步模拟实际场景中的遮挡情况,我们生成两种遮挡物图像,将高度大于2倍宽度的遮挡物图像用作垂直方向遮挡物,将宽度大于两倍高度的遮挡物用作水平方向的遮挡物。
1-2)随机地在训练集中选取图像并剪裁,生成局部行人图像,尺寸为所选取的训练集图像原尺寸的1/4—1/2。由于训练集中不包含遮挡物,因此被剪裁到的部分应为行人身体的一部分,另有较小的概率包含背景信息。
1-3)利用现有的人体解析模型SCHP预先在人体解析数据集人LIP上训练完成后,将每张图像分割为20个语义部分,我们将这20个语义部分进行分组归类操作,最终得到6个语义部分,分别对应“背景”、“头部”、“上身”、“配饰”、“腿”、“脚”。
优选的,对训练集图像进行预处理,进行数据增强。具体做法如下:
2-1)将图像大小调整为256×128,并对图像进行随机采取随机裁剪、水平翻转和随机擦除,概率均为50%;
2-2)利用遮挡物图像与局部行人图像对训练集图像进行遮挡数据增强,概率为50%,其中被遮挡物图像增强和局部行人图像增强的概率都分别为25%,以相同的概率选择在图像的上下左右四个方位的其中一个方位进行遮挡。
优选的,基于HRNet-32的人体语义特征解析模型的训练的主要步骤为像素级部分分割与对齐,由一组置信图加权的像素级特征表示的集合来表示人体部分,具体步骤如下:
3-1)将n张训练集图像
Figure BDA0003862950020000041
以及各个图像的人物身份标签
Figure BDA0003862950020000042
输入人体语义特征解析模型对行人图像的像素级特征进行分类,以实现对5个人体局部语义特征的提取。将图像xi输入人体语义特征解析模型,利用骨干网络f的映射函数得到图像xi的全局特征图Mg。公式如下:
Figure BDA0003862950020000043
其中骨干网络f为一个在ImageNet数据集上完成预训练的HRNet-32网络模型,θ是主干网络的参数,全局特征图Mg的尺寸大小64×32;c、h、w是全局特征图通道、高度和宽度;用Mg(x,y)表示空间位置(x,y)处的特征。
3-2)将Mg(x,y)经过一个线性层的处理得到6个不同语义部分的置信度图和一个前景置信度图,分别为P0,P1,P2,P3,P4,P5和Pfore;计算公式如下:
Figure BDA0003862950020000044
其中Pk(x,y)表示属于语义部分k的像素(x,y)的置信度,值得注意的是,P0为背景部分的置信度。前景语义置信度图Pf为5个人体语义置信度图相加而来。计算公式如下:
Figure BDA0003862950020000045
总置信度图记作
Figure BDA0003862950020000054
为6个语义置信度图沿通道方向拼接而来。
3-3)将置信度图通过一个softmax层可得到5个局部语义掩膜m1,m2,m3,m4,m5和1个前景语义掩膜mfore。局部语义掩膜的计算公式如下:
Figure BDA0003862950020000051
同理,可以利用前景置信度图Pfore计算前景掩膜mfore
通过下式计算得到5个部分的语义特征:
Figure BDA0003862950020000052
通过下式计算得到1个前景语义特征:
Figure BDA0003862950020000053
通过下式计算得到1个全局语义特征
fglobal=GAP(Mg)
式中,Pk(x,y)表示属于语义部分k的像素(x,y)的置信度,k∈{0,...,K-1}且
Figure BDA0003862950020000055
表示是逐元素相乘,GAP表示全局平均池化操作,fk为第k部分的语义特征。人体局部语义特征fp=[f1,f2,f3,f4,f5]为5个部分的语义特征沿通道方向拼接而来。
优选的,利用一个基于HRNet-48的人体关键点特征提取模块提取13个人体关键点特征,经过卷积神经网络处理后得到13个GCN关键点特征,并与5个局部人体语义特征进行相似度匹配;具体步骤如下:
4-1)将一张尺寸为H×W的图像xi输入人体关键点特征提取模块,提取13个关键点热图
Figure BDA0003862950020000056
每个热图的尺寸为(H/4)×(W/4),每个热图的最大响应点对应于一个关键点。关键点热图H通过一个完全连接层处理后获得热图H′,该热图与全局特征f尺寸相同。
将H′和f进行相乘运算后可以获得姿势引导特征
Figure BDA0003862950020000065
即关键点特征;
4-2)此时的13个关键点特征的权重是相同的,然而由于遮挡部分的存在,我们希望遮挡部位的关键点特征权重尽量小,未遮挡部位的关键点特征权重尽量大。为了实现这一目的,我们利用了一个卷积神经网络(GCN)来更新权重。将13个关键点特征
Figure BDA0003862950020000066
1个前景语义特征ffore和1个反应关键点邻接关系的邻接矩阵A送入卷积神经网络进行处理。理论上来说,未被遮挡的关键点特征与前景特征间的相似度要比被遮挡的关键点特征与前景特征间的相似度要高,利用这一原理,我们可以根据关键点特征与前景特征的相似度更新权重。根据关键点特征与前景特征的相似度更新权重,并得到更新权重矩阵Ag。最终得到13个GCN关键点特征
Figure BDA0003862950020000061
计算公式如下:
Kg=[(fc1(Ag K)+(fc2(K),ffore]
其中fc1与fc2都为全连接层。
Figure BDA0003862950020000067
为逐元素相乘操作。
4-3)为了在局部语义特征中进行关键点特征加强,我们利用了关键点-局部语义特征相似度匹配方法;在输入图像经过人体语义特征解析模型处理后,可以得到1个包含5个人体语义部分信息的人体局部语义特征。关键点-局部语义特征相似度匹配方法将13个关键点特征和5部分的人体语义特征进行匹配和融合。
具体方法为计算13个GCN关键点特征
Figure BDA0003862950020000062
与5部分的人体语义特征
Figure BDA0003862950020000068
之间的余弦相似度,选取余弦相似度最高的部分进行整合,使得人体语义特征包含相关的关键点信息:
首先需要通过下式完成GCN关键点信息与人体语义特征间的匹配:
Figure BDA0003862950020000063
其中
Figure BDA0003862950020000064
为第j个人体关键点特征,fi为第i部分的人体语义特征。
然后通过下式完成GCN关键点信息与人体语义特征间的整合:
Figure BDA0003862950020000071
其中Fi则为匹配生成后的第i个包含关键点信息的人体局部特征,k为与人体部分特征fi最相似的人体关键点特征的编号。最终得到的包含关键点信息的人体局部语义特征为
Figure BDA0003862950020000072
所述的遮挡行人重识别方法,步骤5)所述损失函数的计算过程如下:利用三重态损失函数与交叉熵损失函数引导网络模型的训练与优化;所述包含关键点信息的人体局部语义特征、前景语义特征、全局语义特征,也分别使用了交叉熵损失函数与三重态损失函数进行约束;此外,为了使网络模型更加精准地对各个人体语义部分进行定位,并提取人体语义特征;因此,设置一个人体解析损失函数,利用数据准备阶段所生成的人体语义标签与网络模型输出的全局置信度图参与损失函数的计算,从而在训练中实现对网络模型的优化。
本发明还提供一种行人重识别装置,其特征在于,所述装置包括:
人体语义特征提取模块,利用所述网络模型,对每张图像进行人体语义特征的提取,得到所述局部语义特征、前景语义特征以及全局语义特征;
人体关键点特征提取模块,利用所述网络模型,提取人体的姿势引导特征,即关键点特征,得到13个关键点特征;
图卷积模块,利用所述图卷积网络,更新所述关键点特征权重,得到13个GCN关键点特征;
关键点-局部语义特征匹配模块,利用所述关键点-局部语义特征相似度匹配方法,将GCN关键点特征与局部语义特征进行匹配,得到包含关键点信息的人体局部语义特征。
本发明还提供一种行人重识别设备,所述设备包括:
存储器,用于存储可执行的计算机程序;
处理器,用于执行所述存储器中存储的可执行计算机程序,实现本发明的任一项所述算法。
本发明还提供一种计算机可读存储介质,存储计算机程序,用于被处理器执行时,实现所述的基于遮挡信息辅助与关键点增强的遮挡行人重识别方法。
本发明的优点和有益效果如下:
1)使用特征增强的方式引入两种类别的遮挡辅助信息,模拟了现实场景中行人被遮挡物或其他行人遮挡的情况,增强了网络模型对于遮挡情况的鲁棒性;
2)使用卷积神经网络(GCN)对关键点特征进行权重更新,使被遮挡部分的关键点特征权重减小,并使用“关键点-人体局部语义特征相似度匹配模块”,将关键点信息与人体语义信息进行匹配融合,实现了对姿态关键点信息的加强,增强了网络模型对于姿态或拍摄视角变化的鲁棒性;
3)样本经过模型训练,可以得到具有判别性的特征;并且通过结合姿态关键点信息,可以得到鲁棒的图像特征,模型收敛速度快,在多个有遮挡或无遮挡的行人重识别数据集上都能取得高效的识别性能。
附图说明
图1为本发明的方法模型结构图。
图2为人体语义标签生成模块示意图。
图3为人体语义标签归类与组合效果示意图。
具体实施方式
下面结合附图对本发明作进一步的描述;
实施例1:
如图1所示,为本发明中所述基于遮挡信息辅助与关键点增强的遮挡行人重识别方法模型结构图,该方法的操作步骤包括:
步骤1)数据准备
由于在有遮挡的行人重识别任务中,行人图像中主要存在两种遮挡情况:被广告牌、汽车、垃圾桶等遮挡物遮挡,以及被目标行人之外的其他行人遮挡。因此,为了模拟这两种遮挡情况,我们需手动生成两类遮挡图像。此外,为了使网络模型更加精准地对人体语义部分进行定位和特征提取,我们需要生成人体语义标签,以便之后参与损失函数计算和模型优化。具体做法如下:
首先,在数据集中随机选取若干存在遮挡物的图像,对遮挡物部分的图像进行手动剪裁。为了进一步模拟实际场景中的遮挡情况,我们生成两种遮挡物图像,将高度大于2倍宽度的遮挡物图像用作垂直方向遮挡物,将宽度大于两倍高度的遮挡物用作水平方向的遮挡物;随机地在训练集中选取图像并剪裁,生成局部行人图像,尺寸为所选取的训练集图像原尺寸的1/4-1/2。由于训练集中不包含遮挡物,因此被剪裁到的部分应为行人身体的一部分,另有较小的概率包含背景信息。
利用现有的人体解析模型SCHP预先在人体解析数据集人LIP上训练完成后,将每张图像分割为20个语义部分,我们将这20个语义部分进行分组归类操作,最终得到6个语义部分,分别对应“背景”、“头部”、“上身”、“配饰”、“腿”、“脚”。
步骤2)图像预处理
将图像大小调整为256×128,并对图像进行随机采取随机裁剪、水平翻转和随机擦除,概率均为50%;利用遮挡物图像与局部行人图像对训练集图像进行遮挡数据增强,概率为50%,其中被遮挡物图像增强和局部行人图像增强的概率都分别为25%,以相同的概率选择在图像的上下左右四个方位的其中一个方位进行遮挡。
步骤3)网络模型搭建
完成对训练集图像进行预处理后,即可开始利用训练集图像对基于HRNet-32的人体语义特征解析模型进行训练。将n张训练集图像
Figure BDA0003862950020000091
以及各个图像的人物身份标签
Figure BDA0003862950020000092
输入人体语义特征解析模型对行人图像的像素级特征进行分类,以实现对5个人体局部语义特征的提取。将图像xi输入人体语义特征解析模型,利用骨干网络f的映射函数得到图像xi的全局特征图Mg。公式如下:
Figure BDA0003862950020000093
其中骨干网络f为一个在ImageNet数据集上完成预训练的HRNet-32网络模型,θ是主干网络的参数,全局特征图Mg的尺寸大小64×32;c、h、w是全局特征图通道、高度和宽度;用Mg(x,y)表示空间位置(x,y)处的特征。
将Mg(x,y)经过一个线性层的处理得到6个不同语义部分的置信度图和一个前景置信度图,分别为P0,P1,P2,P3,P4,P5和Pfore;计算公式如下:
Figure BDA0003862950020000101
其中Pk(x,y)表示属于语义部分k的像素(x,y)的置信度,值得注意的是,P0为背景部分的置信度。前景语义置信度图Pf为5个人体语义置信度图相加而来。计算公式如下:
Figure BDA0003862950020000102
总置信度图记作
Figure BDA0003862950020000106
为6个语义置信度图沿通道方向拼接而来。
将置信度图通过一个softmax层可得到5个局部语义掩膜m1,m2,m3,m4,m5和1个前景语义掩膜mfore。局部语义掩膜的计算公式如下:
Figure BDA0003862950020000103
同理,可以利用前景置信度图Pfore计算前景掩膜mfore
通过下式计算得到5个部分的语义特征:
Figure BDA0003862950020000104
通过下式计算得到1个前景语义特征:
Figure BDA0003862950020000105
通过下式计算得到1个全局语义特征
fglobal=GAP(Mg)
式中,Pk(x,y)表示属于语义部分k的像素(x,y)的置信度,k∈{0,...,K-1}且
Figure BDA0003862950020000107
表示是逐元素相乘,GAP表示全局平均池化操作,fk为第k部分的语义特征。人体局部语义特征fp=[f1,f2,f3,f4,f5]为5个部分的语义特征沿通道方向拼接而来。
步骤30生成GCN关键点特征
将一张尺寸为H×W的图像xi输入一个基于HRNet-48的人体关键点特征提取模块,提取13个关键点热图
Figure BDA0003862950020000113
每个热图的尺寸为(H/4)×(W/4),每个热图的最大响应点对应于一个关键点。关键点热图H通过一个完全连接层处理后获得热图H,该热图与全局特征f尺寸相同。将H′和f进行相乘运算后可以获得姿势引导特征
Figure BDA0003862950020000114
即关键点特征;
此时的13个关键点特征的权重是相同的,然而由于遮挡部分的存在,我们希望遮挡部位的关键点特征权重尽量小,未遮挡部位的关键点特征权重尽量大。为了实现这一目的,我们利用了一个卷积神经网络(GCN)来更新权重。将13个关键点特征
Figure BDA0003862950020000115
1个前景语义特征ffore和1个反应关键点邻接关系的邻接矩阵A送入卷积神经网络进行处理。理论上来说,未被遮挡的关键点特征与前景特征间的相似度要比被遮挡的关键点特征与前景特征间的相似度要高,利用这一原理,我们可以根据关键点特征与前景特征的相似度更新权重。根据关键点特征与前景特征的相似度更新权重,并得到更新权重矩阵Ag。最终得到13个GCN关键点特征
Figure BDA0003862950020000111
计算公式如下:
Kg=[(fc1(Ag K)+(fc2(K),ffore]
其中fc1与fc2都为全连接层。
Figure BDA0003862950020000112
为逐元素相乘操作。
步骤4)关键点-局部语义特征相似度匹配
为了在局部语义特征中进行关键点特征加强,我们利用了关键点-局部语义特征相似度匹配方法;在输入图像经过人体语义特征解析模型处理后,可以得到1个包含5个人体语义部分信息的人体局部语义特征。关键点-局部语义特征相似度匹配方法将13个关键点特征和5部分的人体语义特征进行匹配和融合。
具体方法为计算13个GCN关键点特征
Figure BDA0003862950020000121
与5部分的人体语义特征
Figure BDA0003862950020000125
之间的余弦相似度,选取余弦相似度最高的部分进行整合,使得人体语义特征包含相关的关键点信息:
首先需要通过下式完成GCN关键点信息与人体语义特征间的匹配:
Figure BDA0003862950020000122
其中
Figure BDA0003862950020000123
为第j个人体关键点特征,fi为第i部分的人体语义特征。
然后通过下式完成GCN关键点信息与人体语义特征间的整合:
Figure BDA0003862950020000124
其中Fi则为匹配生成后的第i个包含关键点信息的人体局部特征,k为与人体部分特征fi最相似的人体关键点特征的编号。最终得到的包含关键点信息的人体局部语义特征为
Figure BDA0003862950020000126
步骤5)网络的目标函数构建
行人重识别问题被视为一个度量问题,同一人物的不同图像特征间的距离应比不同人物的图像特征间的距离小。对于基于遮挡信息辅助与关键点增强的遮挡行人重识别方法而言,它的最终输出为全局语义特征、前景语义特征、局部语义特征以及以上特征分别通过分类器的预测结果。
在该网络的目标函数中,三元组损失使得同类样本的距离更小,不同类样本的距离更大,这样使得所学特征具有更好的鲁棒性,三元组损失公式如下:
LTriplet=max(d(a,p)-d(a,n)+margin,0)
其中margin为当前批次的最大距离边界。d(a,p)表示锚点样本与对应正样本的融合特征距离。同样,d(a,n)表示锚点样本与对应负样本的融合特征距离。
另外,交叉熵损失函数作为分类损失使得所学特征具有更好的区分性,分类损失公式如下:
Figure BDA0003862950020000131
其中CE为交叉熵损失,
Figure BDA0003862950020000132
为第i部分分类器的预测,yi为真实id。
为了增强网络模型对人体语义部分感知的准确性,我们引入了一个人体解析损失函数,具体计算方法如下:
Figure BDA0003862950020000133
其中CE为交叉熵损失,P(x,y)为像素(x,y)处的置信度图,而label(x,y)为像素(x,y)处的人体语义标签。
步骤6)基于遮挡信息辅助与关键点增强的遮挡行人重识别
将网络模型最后输出的包含关键点信息的人体局部语义特征F、人体前景语义特征ffore,两者经过批量归一化层处理后沿通道方向进行拼接得到最终特征,分别计算gallery集与query集各个样本的最终特征余弦相似度。根据该余弦相似度计算cmc与mAP,最终实现对行人样本的重识别。

Claims (9)

1.一种遮挡行人重识别方法,其特征在于,包括以下步骤:
1)在数据集中选取若干有遮挡的图像并手动剪裁若干不同尺寸的遮挡物图像;将高度大于2倍宽度的遮挡物图像用作垂直方向遮挡物,将宽度大于两倍高度的遮挡物用作水平方向的遮挡物;在数据集的训练集中随机选取图像并剪裁,生成局部行人图像,尺寸为所选取的训练集图像原尺寸的1/4—1/2;此外,为了使网络模型所提取的特征更加符合人体语义,我们利用现有的人体解析模型为训练集图像进行人体解析,将图像划分为20个语义部分,再进一步归类合并为6个人体语义标签;
2)对训练集图像进行预处理,进行数据增强,将图像大小调整为256×128,并对图像进行随机采取随机裁剪、水平翻转和随机擦除,概率均为50%;并利用遮挡物图像与局部行人图像对训练集图像进行遮挡数据增强,概率为50%,其中被遮挡物图像增强和局部行人图像增强的概率都分别为25%;
3)构建HRNet-32为基线的人体语义特征解析模型,并进行训练;人体语义特征解析模型分别为每张输入图像提取1个包含5个人体语义部分信息的局部语义特征、1个前景语义特征与1个全局语义特征共3个特征;
4)利用一个基于HRNet-48的人体关键点特征提取模块提取人体13个关键点特征,馈入一个卷积神经网络GCN进行处理后得到13个GCN关键点特征;利用关键点-局部语义特征相似度匹配方法将GCN关键点特征与人体语义特征进行匹配与融合,实现人体关键点信息加强,得到1个包含人体关键点信息的局部语义特征;
5)利用包含人体关键点信息的局部语义特征、前景语义特征与全局语义特征共3个特征参与损失函数的计算;
6)训练完成的网络提取1个包含5个人体语义部分信息的局部语义特征和1个前景语义特征,将以上两种特征分别经过批量归一化层处理,然后将经过批量归一化处理的两种特征沿通道方向进行拼接的得到最终特征;利用最终特征计算gallery集与query集各个样本特征的欧氏距离,通过gallery集合中的样本按照与query集合中样本的距离计算cmc与mAP,最终实现对行人样本的重识别。
2.根据权利要求1所述的遮挡行人重识别方法,其特征在于:
步骤1)所述在数据集中选取若干有遮挡的图像并手动剪裁若干不同尺寸的遮挡物图像具体做法如下:
1-1)在数据集中随机选取若干存在遮挡物的图像,对遮挡物部分的图像进行手动剪裁;为了进一步模拟实际场景中的遮挡情况,我们生成两种遮挡物图像,将高度大于2倍宽度的遮挡物图像用作垂直方向遮挡物,将宽度大于两倍高度的遮挡物用作水平方向的遮挡物;
1-2)随机地在训练集中选取图像并剪裁,生成局部行人图像,尺寸为所选取的训练集图像原尺寸的1/4—1/2;由于训练集中不包含遮挡物,因此被剪裁到的部分应为行人身体的一部分,另有较小的概率包含背景信息;
1-3)利用现有的人体解析模型SCHP预先在人体解析数据集人LIP上训练完成后,将每张图像分割为20个语义部分,我们将这20个语义部分进行分组归类操作,最终得到6个语义部分,分别对应“背景”、“头部”、“上身”、“配饰”、“腿”、“脚”。
3.根据权利要求1所述的遮挡行人重识别方法,其特征在于:步骤2)所述对训练集图像进行预处理,进行数据增强具体做法如下:
2-1)将图像大小调整为256×128,并对图像进行随机采取随机裁剪、水平翻转和随机擦除,概率均为50%;
2-2)利用遮挡物图像与局部行人图像对训练集图像进行遮挡数据增强,概率为50%,其中被遮挡物图像增强和局部行人图像增强的概率都分别为25%,以相同的概率选择在图像的上下左右四个方位的其中一个方位进行遮挡。
4.根据权利要求1所述的遮挡行人重识别方法,其特征在于:步骤3)所述构建HRNet-32为基线的人体语义特征解析模型,并进行训练;具体步骤如下:
3-1)将n张训练集图像
Figure FDA0003862950010000021
以及各个图像的人物身份标签
Figure FDA0003862950010000022
输入人体语义特征解析模型对行人图像的像素级特征进行分类,以实现对5个人体局部语义特征的提取;将图像xi输入人体语义特征解析模型,利用骨干网络f的映射函数得到图像xi的全局特征图Mg;公式如下:
Figure FDA0003862950010000023
其中骨干网络f为一个在ImageNet数据集上完成预训练的HRNet-32网络模型,θ是主干网络的参数,全局特征图Mg的尺寸大小64×32;c、h、w是全局特征图通道、高度和宽度;用Mg(x,y)表示空间位置(x,y)处的特征;
3-2)将Mg(x,y)经过一个线性层的处理得到6个不同语义部分的置信度图和一个前景置信度图,分别为P0,P1,P2,P3,P4,P5和Pfore;计算公式如下:
Figure FDA0003862950010000031
其中Pk(x,y)表示属于语义部分k的像素(x,y)的置信度,值得注意的是,P0为背景部分的置信度;前景语义置信度图Pf为5个人体语义置信度图相加而来;计算公式如下:
Figure FDA0003862950010000032
总置信度图记作P=[P0,P1,P2,P3,P4,P5],为6个语义置信度图沿通道方向拼接而来;
3-3)将置信度图通过一个softmax层可得到5个局部语义掩膜m1,m2,m3,m4,m5和1个前景语义掩膜mfore;局部语义掩膜的计算公式如下:
Figure FDA0003862950010000033
同理,可以利用前景置信度图Pfore计算前景掩膜mfore
通过下式计算得到5个部分的语义特征:
Figure FDA0003862950010000034
通过下式计算得到1个前景语义特征:
Figure FDA0003862950010000035
通过下式计算得到1个全局语义特征
fglobal=GAP(Mg)
式中,Pk(x,y)表示属于语义部分k的像素(x,y)的置信度,k∈{0,...,K-1}目
Figure FDA0003862950010000036
表示是逐元素相乘,GAP表示全局平均池化操作,fk为第k部分的语义特征;局部人体语义特征fp=[f1,f2,f3,f4,f5]为5个部分的语义特征沿通道方向拼接而来。
5.根据权利要求1所述的遮挡行人重识别方法,其特征在于:步骤4)所述利用一个基于HRNet-48的人体关键点特征提取模块提取人体13个关键点特征,馈入一个卷积神经网络(GCN)进行处理后得到13个GCN关键点特征;利用关键点-局部语义特征相似度匹配方法将GCN关键点特征与人体语义特征进行匹配与融合,实现人体关键点信息加强,得到1个包含人体关键点信息的局部语义特征,具体步骤如下:
4-1)将一张尺寸为H×W的图像xi输入一个基于HRNet-48的人体关键点特征提取模块,提取13个关键点热图H=[h1,h2,...,h13],每个热图的尺寸为(H/4)×(W/4),每个热图的最大响应点对应于一个关键点;关键点热图H通过一个完全连接层处理后获得热图H′,该热图与全局特征f尺寸相同;
将H′和f进行相乘运算后可以获得13个姿势引导特征K=[K1,K2,...,K13],即关键点特征;
4-2)此时的13个关键点特征的权重是相同的,然而由于遮挡部分的存在,我们希望遮挡部位的关键点特征权重尽量小,未遮挡部位的关键点特征权重尽量大;为了实现这一目的,我们利用了一个卷积神经网络(GCN)来更新权重;将13个关键点特征[K1,K2,...,K13]、1个前景语义特征ffore和1个反应关键点邻接关系的邻接矩阵A送入卷积神经网络进行处理;理论上来说,未被遮挡的关键点特征与前景特征间的相似度要比被遮挡的关键点特征与前景特征间的相似度要高,利用这一原理,我们可以根据关键点特征与前景特征的相似度更新权重;根据关键点特征与前景特征的相似度更新权重,并得到更新权重矩阵Ag;最终得到13个GCN关键点特征
Figure FDA0003862950010000041
计算公式如下:
Figure FDA0003862950010000042
其中fc1与fc2都为全连接层;
Figure FDA0003862950010000043
为逐元素相乘操作;
4-3)为了在局部语义特征中进行关键点特征加强,我们利用了关键点-局部语义特征相似度匹配方法;在输入图像经过人体语义特征解析模型处理后,可以得到1个包含5个人体语义部分信息的人体局部语义特征;关键点-局部语义特征相似度匹配方法将13个GCN关键点特征和5部分的人体语义特征进行匹配和融合;
具体方法为计算13个GCN关键点特征
Figure FDA0003862950010000051
与5部分的人体语义特征[f1,f2,f3,f4,f5]之间的余弦相似度,选取余弦相似度最高的部分进行整合,使得人体语义特征包含相关的关键点信息;
首先需要通过下式完成GCN关键点信息与人体语义特征间的匹配:
Figure FDA0003862950010000052
其中
Figure FDA0003862950010000053
为第j个人体关键点特征,fi为第i部分的人体语义特征;
然后通过下式完成GCN关键点信息与人体语义特征间的整合:
Figure FDA0003862950010000054
其中Fi则为匹配生成后的第i个包含关键点信息的人体局部特征,k为与人体部分特征fi最相似的人体关键点特征的编号;最终得到的包含关键点信息的人体局部语义特征为F=[F1,F2,F3,F4,F5]。
6.根据权利要求1所述的遮挡行人重识别方法,其特征在于:步骤5)所述损失函数的计算过程如下:利用三重态损失函数与交叉熵损失函数引导网络模型的训练与优化;所述包含关键点信息的人体局部语义特征、前景语义特征、全局语义特征,也分别使用了交叉熵损失函数与三重态损失函数进行约束;此外,为了使网络模型更加精准地对各个人体语义部分进行定位,并提取人体语义特征;因此,设置一个人体解析损失函数,利用数据准备阶段所生成的人体语义标签与网络模型输出的全局置信度图参与损失函数的计算,从而在训练中实现对网络模型的优化。
7.一种行人重识别装置,其特征在于,所述装置包括:
人体语义特征提取模块,利用所述网络模型,对每张图像进行人体语义特征的提取,得到所述局部语义特征、前景语义特征以及全局语义特征;
人体关键点特征提取模块,利用所述网络模型,提取人体的姿势引导特征,即关键点特征,得到13个关键点特征;
图卷积模块,利用所述图卷积网络,更新所述关键点特征权重,得到13个GCN关键点特征;
关键点-局部语义特征匹配模块,利用所述关键点-局部语义特征相似度匹配方法,将GCN关键点特征与局部语义特征进行匹配,得到包含关键点信息的人体局部语义特征。
8.一种行人重识别设备,其特征在于,所述设备包括:
存储器,用于存储可执行的计算机程序;
处理器,用于执行所述存储器中存储的可执行计算机程序,实现如权利要求1-6的任一项所述遮挡行人重识别方法。
9.一种计算机可读存储介质,其特征在于,存储计算机程序,用于被处理器执行时,实现如权利要求1-6的任一项所述的遮挡行人重识别方法。
CN202211171521.4A 2022-09-26 2022-09-26 遮挡行人重识别方法、装置、设备和计算机可存储介质 Pending CN115497122A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211171521.4A CN115497122A (zh) 2022-09-26 2022-09-26 遮挡行人重识别方法、装置、设备和计算机可存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211171521.4A CN115497122A (zh) 2022-09-26 2022-09-26 遮挡行人重识别方法、装置、设备和计算机可存储介质

Publications (1)

Publication Number Publication Date
CN115497122A true CN115497122A (zh) 2022-12-20

Family

ID=84469524

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211171521.4A Pending CN115497122A (zh) 2022-09-26 2022-09-26 遮挡行人重识别方法、装置、设备和计算机可存储介质

Country Status (1)

Country Link
CN (1) CN115497122A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115830643A (zh) * 2023-02-17 2023-03-21 石家庄铁道大学 一种姿势引导对齐的轻量行人重识别方法
CN115830637A (zh) * 2022-12-13 2023-03-21 杭州电子科技大学 一种基于姿态估计和背景抑制的遮挡行人重识别方法
CN117315576A (zh) * 2023-09-22 2023-12-29 中交第二公路勘察设计研究院有限公司 一种在监控视频中识别指定人员的方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115830637A (zh) * 2022-12-13 2023-03-21 杭州电子科技大学 一种基于姿态估计和背景抑制的遮挡行人重识别方法
CN115830637B (zh) * 2022-12-13 2023-06-23 杭州电子科技大学 一种基于姿态估计和背景抑制的遮挡行人重识别方法
US11908222B1 (en) 2022-12-13 2024-02-20 Hangzhou Dianzi University Occluded pedestrian re-identification method based on pose estimation and background suppression
CN115830643A (zh) * 2023-02-17 2023-03-21 石家庄铁道大学 一种姿势引导对齐的轻量行人重识别方法
CN115830643B (zh) * 2023-02-17 2023-05-09 石家庄铁道大学 一种姿势引导对齐的轻量行人重识别方法
CN117315576A (zh) * 2023-09-22 2023-12-29 中交第二公路勘察设计研究院有限公司 一种在监控视频中识别指定人员的方法

Similar Documents

Publication Publication Date Title
Zhao et al. A survey on deep learning-based fine-grained object classification and semantic segmentation
CN109977918B (zh) 一种基于无监督域适应的目标检测定位优化方法
CN110334705B (zh) 一种结合全局和局部信息的场景文本图像的语种识别方法
CN108154102B (zh) 一种道路交通标志识别方法
CN115497122A (zh) 遮挡行人重识别方法、装置、设备和计算机可存储介质
US7899253B2 (en) Detecting moving objects in video by classifying on riemannian manifolds
CN105069481B (zh) 基于空间金字塔稀疏编码的自然场景多标记分类方法
US10445602B2 (en) Apparatus and method for recognizing traffic signs
CN111914642B (zh) 一种行人重识别方法、装置、设备及介质
CN111709311A (zh) 一种基于多尺度卷积特征融合的行人重识别方法
CN112163498B (zh) 前景引导和纹理聚焦的行人重识别模型建立方法及其应用
CN109993061B (zh) 一种人脸检测与识别方法、系统以及终端设备
CN108345866B (zh) 一种基于深度特征学习的行人再识别方法
CN112396036B (zh) 一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法
CN112861785B (zh) 一种基于实例分割和图像修复的带遮挡行人重识别方法
CN111881716A (zh) 一种基于多视角生成对抗网络的行人重识别方法
CN112949510A (zh) 基于Faster R-CNN热红外影像人物探测方法
CN114926796A (zh) 一种基于新式混合注意力模块的弯道检测方法
CN112668662B (zh) 基于改进YOLOv3网络的野外山林环境目标检测方法
CN117152625A (zh) 一种基于CoordConv和YOLOv5的遥感小目标识别方法、系统、设备及介质
Zhang et al. ROI-wise Reverse Reweighting Network for Road Marking Detection.
CN113688864B (zh) 一种基于分裂注意力的人-物交互关系分类方法
CN112488116B (zh) 基于多模态嵌入的场景理解语义生成方法
CN114581841A (zh) 一种复杂交通环境下利用深度学习法检测弱小目标的方法
CN114694133A (zh) 一种基于图像处理与深度学习相结合的文本识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination