CN116978090A - 一种基于特征分离和融合的行人重识别表征学习技术 - Google Patents

一种基于特征分离和融合的行人重识别表征学习技术 Download PDF

Info

Publication number
CN116978090A
CN116978090A CN202310724846.9A CN202310724846A CN116978090A CN 116978090 A CN116978090 A CN 116978090A CN 202310724846 A CN202310724846 A CN 202310724846A CN 116978090 A CN116978090 A CN 116978090A
Authority
CN
China
Prior art keywords
pedestrian
dressing
characterization
fusion
cipr
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310724846.9A
Other languages
English (en)
Inventor
袁武
陈盈盈
袁文
黄奕博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Institute of Geographic Sciences and Natural Resources of CAS
Original Assignee
Beijing Institute of Technology BIT
Institute of Geographic Sciences and Natural Resources of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT, Institute of Geographic Sciences and Natural Resources of CAS filed Critical Beijing Institute of Technology BIT
Priority to CN202310724846.9A priority Critical patent/CN116978090A/zh
Publication of CN116978090A publication Critical patent/CN116978090A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • G06V40/173Classification, e.g. identification face re-identification, e.g. recognising unknown faces across different face tracks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于特征分离与融合的行人重识别表征学习方法,属于人工智能、深度学习以及计算机视觉技术领域。本发明考虑到人脸与身形、体态及姿势等特征之间,在表示学习上存在差异,通过多样化表示学习和特征融合,补全行人表征信息,提高行人表征学习的准确性和鲁棒性:首先利用图像空间可分离性,把不稳定的服饰信息与人脸及其他稳定的信息剥离开,分别学习着装表征模型(ClothingRepresentationModel,CR)以及服饰无关的行人表征模型(Clothing‑IndependentPersonRepresentationModel,CIPR);然后,对CR和CIIR进行联合训练,从行人着装中补充身形、体态和姿势等高层语义,学习基于着装的行人表征模型(Clothes‑DependentPersonRepresentationModel,CDPR),通过模型融合,互补有无,增强行人表征信息。

Description

一种基于特征分离和融合的行人重识别表征学习技术
技术领域
本发明涉及一种基于特征分离与融合的行人重识别表征学习技术,属于人工智能、深度学习以及计算机视觉技术领域。
背景技术
行人重识别(Person Re-Identification)是指在视频监控等场景中,通过对不同监控摄像头拍摄到的行人进行图像分析和比对,从而实现跨摄像头的行人识别。行人重识别的过程与人脸识别过程类似,包括检测——特征提取——识别三个部分。行人检测根据输入的图像预先生成一系列的预选框,将图像中可能包括行人的区域提取出来并绘制出相应的范围,然后对提取得到的预选框分类,判断其属于行人本身还是属于额外的背景信息,然后通过分类或者回归的方式对边界框的位置进行修改,当一个行人被多个边界框检测到时利用非极大值抑制的方式为每一个检测到的行人对象选择最佳的边界框。对于检测出的行人框使用相应的特征提取方式提取得到行人的特征矩阵,利用特征矩阵对行人和数据库中的行人进行相似性度量判断行人的相似程度。
行人重识别需要通过机器学习算法训练模型,实现对行人特征的提取和识别。传统学习方式的行人重识别关注特征表示和度量学习。特征表示主要通过手动设计来提取出较为显著的行人特征。比较常见的特征包括颜色、语义等,特征表示的重点在于设计出可靠地行人图像特征表示模型,使其能够区分不同的行人、并且不受视角和光照等因素的影响。可以将HSV、RGB转换得到的YCbCr的颜色空间与Gabor滤波器相结合,重新定义了一个新的特征空间。然而只提取单一特征的方法并不能获得很好的识别精度。为了增强特征提取能力,或为了解决不同摄像头下光照变化很大的问题并同时为了不丢失图像的空间细节信息,给图像划窗,在每个patch中提取HSV、SILTP特征,同时水平patches特征之间每个元素都取得最大值,得到LOMO(局部最大发生特征),这种特征在很大程度上可以提高行人重识别的精度,同时也有着更具有判别局部信息的能力。但是手工提取特征的方式对行人特征提取的能力有限,导致传统学习的行人重识别方法的识别准确率仍然较低,并不足以将行人重识别的技术应用于现实生活。
在深度学习中,行人重识别在开放世界的复杂条件下,要充分地利用人体的各种外观表征,不限于人脸,包括着装信息,才能有效地识别行人个体。虽然人体表面大部分被各种服饰覆盖,但是,行人着装的服饰不固定,也不唯一,因此并不能简单地根据服饰的差异来区分和识别行人。然而,行人着装所表现出的身形、体态及姿势等,蕴含丰富的个体可辨识性信息,为行人重识别提供了重要佐证。很显然,把这些信息与人脸结合起来,可以弥补人脸表征的不足,有效地提升行人表征能力。但是,如何从服饰可变的着装中学到稳定的行人表征,包含身形、体态及姿势等多样化特征,同时消除服饰不稳定带来的干扰是行人重识别目前所面临的问题
目前,一些行人重识别方法利用身形、体态及姿势等标注信息,训练身形和步态模型。该类方法依赖于另外的标注模型或装备,成本开销较大;此外,这种基于人体建模的标注方式也无法覆盖人体姿态变化的多样性,缺乏对人脸的描述,无法体现外界对影像的影响,比如遮挡,模型的表达和泛化能力稍嫌不足。或者直接从RGB图像中抽取行人表征信息。该类方法通过设计特殊的损失函数,或者引入对抗学习,消除或者减少编码器对服饰信息的采样,从而学到与服饰无关的行人表征信息(如人脸,身形、体态及姿势)。但是,由于着装和服饰的密不可分,这种做法必然削弱了从着装中挖掘身形、体态及姿势的表征学习能力。研究人员引入特征分解的表示学习,从RGB图像或轮廓图像中分离出身形特征和外观特征,该类工作同样忽略了对人脸信息的利用。实际上,人脸、身形、体态、姿势及服饰都对行人重识别具有不可偏废的作用,目前的研究工作对它们的利用并不充分,尚存在较大的改进空间。
发明内容
本发明的目的是为了克服现有技术并未充分利用图像中的行人信息。为充分利用图像中蕴含的行人表征,提高换衣行人重识别的精度,创造性地提出了一种基于特征分离和融合的行人重识别表征学习技术,其中,特征分解和融合的表征学习方法,即Disentangled Representation Learning and Fusion Method,简称DRLF。
本发明的创新点在于:考虑到人脸与身形、体态及姿势等特征之间,在表示学习上存在差异,本文提出一种基于特征分解和融合的表示学习方法(DRLF),通过多样化表示学习和特征融合,补全行人表征信息,提高行人表征学习的准确性和鲁棒性:首先利用图像空间可分离性,把不稳定的服饰信息与人脸及其他稳定的信息剥离开,分别学习着装表征模型(Clothing Representation Model,CR)以及服饰无关的行人表征模型(Clothing-Independent Person Representation Model,CIPR);然后,对CR和CIPR进行联合训练,从行人着装中补充身形、体态和姿势等高层语义,学习基于着装的行人表征模型(Clothes-Dependent Person Representation Model,CDPR),通过模型融合,互补有无,增强行人表征信息。
本发明通过以下技术方案实现。
一种基于特征分离和融合的行人重识别表征学习技术,包括以下步骤:
步骤1:在多样化表征学习中建立服饰无关的行人表征模型
在行人重识别中,服饰变化是导致识别精度降低的主要因素之一。由于服饰往往在不同的时间或不同的场景中发生改变,因此,在行人重识别中消除服饰变化的影响是至关重要的。为了解决这个问题,本方法在多样化表征学习中建立服饰无关的行人表征模型(Clothing-Independent Person Representation Model,CIPR),用以捕捉与服饰无关的行人特征。
服饰无关的行人表征模型(CIPR)中包含行人编码器、行人分类器和着装分类器。行人编码器用于捕捉与服饰无关的行人特征;行人分类器用于捕捉行人编码器中与身份识别相关的分量;着装分类器用于捕捉行人编码器中与着装相关的分量。
步骤1.1:对行人编码器进行行人分类训练;
利用公式(1)优化行人分类损失,使行人编码器初步捕捉行人特征;
其中表示CIPR的行人分类损失,CE(·)表示交叉熵损失,/>表示CIPR的行人分类器,/>表示行人编码器,xi表示输入的行人图像,/>表示图像xi的真实行人标签;
步骤1.2:在步骤1.1的基础上,对行人编码器进行着装分类训练;
冻结行人编码器,利用公式(2)优化着装分类损失,其目的是训练着装分类器;
其中表示CIPR的着装分类损失,Loss(·)表示损失函数,/>表示CIPR的着装分类器,/>表示图像xi的真实着装标签;
步骤1.3:在步骤1.2的同时,对行人编码器进行着装对抗学习,捕捉与服饰无关的行人特征;
冻结着装分类器,利用公式(3)训练行人编码器和行人分类器;
其中,表示着装对抗损失函数;
整个对抗过程包括两个优化目标,第一个优化目标为当前行人其余服饰的平均交叉熵损失与当前行人当前服饰交叉熵的差值,公式(4)所示;第二个优化目标为行人分类损失;
其中,y表示着装标签,表示当前图像xi所对应行人的多个着装标签集合,Avg表示计算均值;
步骤2、在多样化表征学习中建立着装表征模型(CR)
由于着装中也蕴含身形、体态和姿势等高层语义,本方法在多样化表征学习中建立着装表征模型(Clothing Representation Model,CR),用以捕捉着装特征。
对着装分类器进行训练,利用公式(5)优化着装分类损失,其目的是让着装编码器捕捉与着装相关的特征;
其中,表示CR的着装分类损失,/>表示CR的着装编码器,/>表示CR的着装分类器;
步骤3、在步骤2的基础上,多样化表征学习中学习基于着装的行人表征模型(CDPR)
着装表征信息包含可变的服饰特征,着装的服饰变化主要分布着装编码器的低层网络,而身形、体态及姿态则是作为隐含语义,分布在高层网络中。
冻结着装编码器的底层网络,利用公式(6)对高层网络进行微调,目的是捕捉着装中蕴含的身形、体态及姿势等稳定的特征信息;
其中,表示CDPR的行人分类损失,/>表示CDPR的行人分类器,/>表示冻结底层网络的CR的着装编码器;
步骤4:在步骤1和步骤3的基础上,进行模型融合。
模型融合阶段,在完全冻结CIPR编码器,部分冻结CR编码器低层网络的条件下,通过行人分类学习,对CR高层网络进行微调,训练基于着装的行人表征模型(CDPR),从着装中提取身形、体态及姿势等高层语义,通过特征融合,对CIPR的行人表征信息进行增强,从而提高行人重识别的准确性和鲁棒性。
针对图像和视频序列,本发明提出概率层、特征层和视频序列层的模型融合方法。
步骤4.1、概率层融合;
利用公式(7)或公式(8),对CIPR和CDPR的分值进行融合;
v=vCIPR+(1-vCIPR)×vCDpR (7)
v=λvCIPR+(1-λ)×vCDpR (8)
其中,v表示融合后的分值,vCIPR表示CIPR模型的分值,vCDPR表示CDPR模型的分值,λ表示超参数;
步骤4.2、特征层融合;
使用最大池化对CIPR和CDPR的特征进行融合,利用公式(9)进行联合训练,目的是增强行人表征能力;
其中,表示融合特征的行人分类损失,/>表示融合后的行人分类器,Maxpooling表示最大池化;
步骤4.3、视频序列融合
步骤4.3.1、帧内多模型融合、帧间多表征融合;
利用公式(10),在图像帧内部进行特征融合;利用公式(11)在图像帧之间通过平均池化进行序列融合,得到融合后的行人表征;
v=AvgPooling(v1,…,vn) (11)
其中,vi(i≥0,i≤n)表示图像帧i融合后的特征向量,n表示视频序列中图像帧的总数,表示图像帧i的CIPR表征向量,/>表示图像帧i的CDPR表征向量,v表示序列融合后的行人表征向量,Avgpooling表示平均池化;
步骤4.3.2、单模型帧间表征融合、多模型表征融合;
利用公式(12)分别提取视频序列中与CIPR表征和CDPR表征;然后利用公式(13)融合得到视频序列的行人表征;
其中,vCIPR和vCDPR分别表示视频序列中与服饰无关的行人表征和基于着装的行人表征。
v=MaxPooling(vCIPR,vCDPR) (13)
有益效果
本发明与现有技术相比,具有如下有益效果:
1.本发明概念简洁,创新性强。首次将特征分解和对抗学习融合,用来解决行人着装变化的问题,并通过特征融合,充分利用行人图像中具有判别能力的特征,实验效果表明该模型的有效性。
2.针对现有方法忽略了着装中蕴含的行人表征的问题,本发明则采用了找补策略,从后续的着装表征模型中找回丢失的行人表征信息,增强行人的表征能力。
3.本发明作为一个通用的网络架构,不仅可以用于图像中的换衣行人重识,也可以用于处理视频数据的行人重识别。
4.实验表明,本发明在精度和效率上都要明显优于基准模型,在不需要微调的条件下,DRLF模型在LTCC、PRCC、CCVID等数据集上的Top-1和mAP均达到了现有的最佳效果。
5.本发明“特征分解和融合”的思想可以延伸到广泛的应用领域,实现领域的统一表征。
附图说明
图1为本发明DRLF的示意图。在多样化表征学习阶段,分别包括着装表征模型、服饰无关的行人表征模型以及基于着装的行人表征模型。在模型融合阶段包括概率层和特征融合两个方法。
图2为本发明视频序列层的两种融合方式。
图3为本发明具体实施流程。
具体实施方式
下面结合附图和实施例对本发明做进一步说明和详细描述。
实施例
本发明作为通用的网络框架,能解决图像和视频中的换衣行人重识别问题。整个实施方式的步骤如附图3所示。
对于图像和视频,均选择Resnet50作为主干网络,在视频中,使用空间最大池化和时间平均池化来集成主干网络的输出特征图。图像的标准输入大小为384×192,对图像数据采用随机水平翻转、随机裁剪和随机擦除进行训练数据增强。视频的标准输入大小为256×128,对视频数据采用水平翻转用于训练数据增强。对长度不等的视频原始数据,以4为步长,随机采样8帧生成训练数据。图像训练迭代次数设为100,视频训练迭代次数设为200。训练均采用Adam优化器,图像训练的学习率初始化为2.5e-4,每隔20个epoch,学习率按照10%衰减。视频训练的学习率初始化为2.8e-4,每隔40个epoch,学习率按照10%衰减。
其中,ResNet50来自K.He在Deep residual learning for image recognition(in Proc.CVPR,2016)中提出的深度卷积网络。
实施例1:以概率融合作为实施例进行说明:
步骤1:首先训练服饰无关的行人表征模型(CIPR)。
步骤1.1:在训练的第一阶段(即前20个epoch),对行人编码器进行行人分类训练
利用公式(1)优化行人分类损失,使行人编码器初步捕捉行人特征;
步骤1.2:训练的第二阶段(即后80个epoch),在步骤1.1的基础上,首先进行着装分类器的学习,冻结行人编码器参数,利用公式(2)优化着装分类损失。
为了防止训练过拟合,编码器和着装分类器输出都要通过l-2正则化。由于着装属于细分类,与行人分类不同,使用J.Deng等在Arcface:Additive angular margin lossfor deep face recognition(in Proc.CVPR,2019)中提出的ArcFace Loss作为训练的损失函数。
步骤1.3:在步骤1.2的同时,冻结着装分类器,训练行人编码器和行人分类器。
冻结着装分类器,利用公式(3)训练行人编码器和行人分类器;
整个对抗过程包括两个优化目标,第一个优化目标为当前行人其余服饰的平均交叉熵损失与当前行人当前服饰交叉熵的差值,公式(4)所示;第二个优化目标为行人分类损失;
步骤2:在多样化表征学习中建立着装表征模型(CR)
在训练的前20个epoch中,对着装分类器进行训练,利用公式(5)优化着装分类损失,其目的是让着装编码器捕捉与着装相关的特征;
同样使用Arcface作为损失函数。
步骤3:在步骤2的基础上,多样化表征学习中学习基于着装的行人表征模型(CDPR)
在训练的后80个epoch中,冻结着装编码器的底层网络,利用公式(6)对高层网络进行微调,目的是捕捉着装中蕴含的身形、体态及姿势等稳定的特征信息;
步骤4:在步骤1和步骤3的基础上,通过概率融合的方式对服饰无关的行人表征模型和基于着装的行人表征模型的特征进行融合。模型融合过程与着装的行人表征模型的训练过程同时进行。
CIPR和CDPR拥有各自的编码器和行人分类器,预测过程完全独立,仅根据分值进行融合计算。在训练时,分值为行人分类预测概率,推理时,分值为余弦相似度距离。
本发明采用了两种分值融合方法,公式(7)和(8)所示。
v=vCIPR+(1-vCIPR)×vCDPR (7)
v=λvCIPR+(1-λ)×vCDPR (8)
其中,λ为超参数。
实施例2:以特征层融合作为实施例进行说明:
步骤1:首先训练服饰无关的行人表征模型(CIPR)。
步骤1.1:在训练的第一阶段(即前20个epoch),对行人编码器进行行人分类训练
利用公式(1)优化行人分类损失,使行人编码器初步捕捉行人特征;
步骤1.2:训练的第二阶段(即后80个epoch),在步骤1.1的基础上,首先进行着装分类器的学习,冻结行人编码器参数,利用公式(2)优化着装分类损失。
为了防止训练过拟合,编码器和着装分类器输出都要通过l-2正则化。由于着装属于细分类,与行人分类不同,使用J.Deng等在Arcface:Additive angular margin lossfor deep face recognition(in Proc.CVPR,2019)中提出的ArcFace Loss作为训练的损失函数。
步骤1.3:在步骤1.2的同时,冻结着装分类器,训练行人编码器和行人分类器。
冻结着装分类器,利用公式(3)训练行人编码器和行人分类器;
整个对抗过程包括两个优化目标,第一个优化目标为当前行人其余服饰的平均交叉熵损失与当前行人当前服饰交叉熵的差值,公式(4)所示;第二个优化目标为行人分类损失;
步骤2:在多样化表征学习中建立着装表征模型(CR)
在训练的前20个epoch中,对着装分类器进行训练,利用公式(5)优化着装分类损失,其目的是让着装编码器捕捉与着装相关的特征;
同样使用Arcface作为损失函数。
步骤3:在步骤2的基础上,多样化表征学习中学习基于着装的行人表征模型(CDPR)
在训练的后80个epoch中,冻结着装编码器的底层网络,利用公式(6)对高层网络进行微调,目的是捕捉着装中蕴含的身形、体态及姿势等稳定的特征信息;
步骤4:在步骤1和步骤3的基础上,通过特征融合的方式对服饰无关的行人表征模型和基于着装的行人表征模型的特征进行融合。模型融合过程与着装的行人表征模型的训练过程同时进行。
CIPR和CDPR拥有独立的编码器,共用行人分类器在主干网络全连接层上,使用最大池化对CIPR和CDPR的特征进行融合,利用公式(9)进行联合训练,目的是增强行人表征能力;
实施例3:以视频序列融合,帧内多模型融合、帧间多表征融合作为实施例进行说明:
步骤1:首先训练服饰无关的行人表征模型(CIPR)。
步骤1.1:在训练的第一阶段(即前20个epoch),对行人编码器进行行人分类训练
利用公式(1)优化行人分类损失,使行人编码器初步捕捉行人特征;
步骤1.2:训练的第二阶段(即后80个epoch),在步骤1.1的基础上,首先进行着装分类器的学习,冻结行人编码器参数,利用公式(2)优化着装分类损失
为了防止训练过拟合,编码器和着装分类器输出都要通过l-2正则化。由于着装属于细分类,与行人分类不同,使用J.Deng等在Arcface:Additive angular margin lossfor deep face recognition(in Proc.CVPR,2019)中提出的ArcFace Loss作为训练的损失函数。
步骤1.3:在步骤1.2的同时,冻结着装分类器,训练行人编码器和行人分类器。
冻结着装分类器,利用公式(3)训练行人编码器和行人分类器;
整个对抗过程包括两个优化目标,第一个优化目标为当前行人其余服饰的平均交叉熵损失与当前行人当前服饰交叉熵的差值,公式(4)所示;第二个优化目标为行人分类损失;
步骤2:在多样化表征学习中建立着装表征模型(CR)
在训练的前20个epoch中,对着装分类器进行训练,利用公式(5)优化着装分类损失,其目的是让着装编码器捕捉与着装相关的特征;
同样使用Arcface作为损失函数。
步骤3:在步骤2的基础上,多样化表征学习中学习基于着装的行人表征模型(CDPR)
在训练的后80个epoch中,冻结着装编码器的底层网络,利用公式(6)对高层网络进行微调,目的是捕捉着装中蕴含的身形、体态及姿势等稳定的特征信息;
步骤4:在步骤1和步骤3的基础上,通过帧内多模型融合、帧间多表征融合的方式对服饰无关的行人表征模型和基于着装的行人表征模型的特征进行融合。模型融合过程与着装的行人表征模型的训练过程同时进行。
利用公式(10),在图像帧内部进行特征融合;利用公式(11)在图像帧之间通过平均池化进行序列融合,得到融合后的行人表征;
v=AvgPooling(v1,···,vn) (11)
实施例4:以视频序列融合,单模型帧问表征融合、多模型表征融合作为实施例进行说明:
步骤1:首先训练服饰无关的行人表征模型(CIPR)。
步骤1.1:在训练的第一阶段(即前20个epoch),对行人编码器进行行人分类训练
利用公式(1)优化行人分类损失,使行人编码器初步捕捉行人特征;
步骤1.2:训练的第二阶段(即后80个epoch),在步骤1.1的基础上,首先进行着装分类器的学习,冻结行人编码器参数,利用公式(2)优化着装分类损失。
为了防止训练过拟合,编码器和着装分类器输出都要通过1-2正则化。由于着装属于细分类,与行人分类不同,使用J.Deng等在Arcface:Additive angular margin lossfor deep face recognition(in Proc.CVPR,2019)中提出的ArcFace Loss作为训练的损失函数。
步骤1.3:在步骤1.2的同时,冻结着装分类器,训练行人编码器和行人分类器。
冻结着装分类器,利用公式(3)训练行人编码器和行人分类器;
整个对抗过程包括两个优化目标,第一个优化目标为当前行人其余服饰的平均交叉熵损失与当前行人当前服饰交叉熵的差值,公式(4)所示;第二个优化目标为行人分类损失;
步骤2:在多样化表征学习中建立着装表征模型(CR)
在训练的前20个epoch中,对着装分类器进行训练,利用公式(5)优化着装分类损失,其目的是让着装编码器捕捉与着装相关的特征;
同样使用Arcface作为损失函数。
步骤3:在步骤2的基础上,多样化表征学习中学习基于着装的行人表征模型(CDPR)
在训练的后80个epoch中,冻结着装编码器的底层网络,利用公式(6)对高层网络进行微调,目的是捕捉着装中蕴含的身形、体态及姿势等稳定的特征信息;
步骤4:在步骤1和步骤3的基础上,通过单模型帧间表征融合、多模型表征融合的方式对服饰无关的行人表征模型和基于着装的行人表征模型的特征进行融合。模型融合过程与着装的行人表征模型的训练过程同时进行
首先针对CIPR和CDPR,在图像帧之间,通过公式(12)得到与服饰无关的行人表征向量vCIPR和基于着装的行人表征向量vCDPR;最后通过公式(13),得到视频序列的行人表征,用于行人分类训练。
v=MaxPooling(vCIPR,vCDPR) (13)
为验证本方法的有效性和通用性,在图像行人重识别数据集和视频行人重识别数据集上进行了全面的验证实验。数据集分别为:
(1)LTCC数据集:是时间跨度较长的换衣行人重识别数据集。由12个摄像头采集得到,包含了478套衣服的15位行人,共有17138张图片。其中包含两个集合,换衣集合里包含417套服饰的91位行人,有14756张图片;不换衣集合中包含61位行人,有2382张图片。每位行人至少由两个摄像头抓拍得到,数据集具有光照、视角和姿态的变化,同时包含衣服和携带物品的变化,甚至包括发型变化。
(2)PRCC数据集:PRCC数据集中的图像不仅包括同一个人在不同相机视图中的服饰变化,照明、遮挡、姿势和视角的变化。包括了来自221个行人的33698张照片,包括3个不同的角度,同时还提供任务的轮廓草图,方便提取人的轮廓信息。
(3)CCVID数据集:CCVID是一个视频换衣行人重识别数据集,包括226个行人的2856个视频序列。整个数据集包括347,833个边界框,每个序列长度从27帧到410帧不等,平均长度为122帧。提供了细粒度的衣服标签,包括上衣、下装、鞋子、穿着状态和配饰等。其中75个行人身份用于训练,151个行人身份用于测试,在测试集中834个序列作为query集合,1074个序列组成gallery集合。
(4)VC-Clothes数据集:是来自游戏GTA-V的虚拟数据集,包括512个id和19060张图像。训练集和测试集中分别包括256个行人。在测试数据中,从每个摄像头中随机选择每人4张图像作为query集合,其余图像作为gallery集合。
(5)LaST数据集:是一个从电影中收集的包含超过228k行人图像的大型数据集,用于研究行人活动范围和时间跨度大的场景。其中训练集包括5000个行人身份共71248张图像,验证集包含56个行人身份共21379张图像,测试集包含5806个行人身份共135529张图像。
本发明分别与GI-ReID(Cloth-Changing Person Re-identification from ASingle Image with Gait Prediction and Regularization)和基于服饰的对抗损失方法(Clothes-based Adversarial Loss,CAL)进行对比,以验证所提方法的有效性。GI-ReID是Xin Jin,Tianyu He,Kecheng Zheng在Cloth-Changing Person Re-identification fromA Single Image with Gait Prediction and Regularization,(in Proc.CVPR,2022)中提出的算法,引入步态识别作为一项辅助任务,通过利用个人独特和与布料无关的步态信息,驱动图像ReID模型学习布料不可知的表示,GI-ReID采用由图像ReID流和辅助步态识别流组成的双流结构。步态流作为一个调节器,鼓励ReID流在训练过程中捕捉服饰不变的生物特征运动特征。CAL是Xinqian Gu等在Clothes-Changing Person Re-identificationwith RGB Modality Only,(in Proc.CVPR,2022)中提出的算法,是目前被认为性能最好的一种方法。CAL算法中在re-id模型的主干之后添加了一个衣服分类器,并将CAL定义为多正类分类损失,其中属于同一身份的所有衣服类都是相互正的类。通过惩罚re-id模型服饰的预测能力,从原始RGB图像中挖掘衣服无关特征。
采用行人重识别领域通用的评价标准衡量算法性能。评价指标包括:累计匹配特征(CMC)曲线和均值平均精度(mAP),其中CMC曲线的具体含义是指在候选行人库(gallery)中检索待查询(probe)的行人,前r个检索结果中包含正确匹配结果的比率。CMC的前k个匹配率计算公式如下:
其中,prob表示待查询的目标行人,Nq表示query集合中的样本总数,k表示gallery集合中的任意样本。
均值平均精度(mAP)是预测目标位置以及类别的这一类算法的性能度量标准。准确率P,平均精度AP和均值平均精度mAP的定义如下:
其中M为对于检索图像probe,候选图像中与probe相同标签的图像数量。{j1,j2,…,jM}为M个正样本在排序结果中的索引位置。
本发明在五个数据集上的运行结果如表1~表5所示。其中General表示在整个数据集上计算评估指标,CC表示只计算服饰改变样本的评估指标,SC表示只计算服饰不变样本的评估指标。
表1算法在LTCC数据集上的性能
表2算法在PRCC数据集上的性能
表3算法在CCVID数据集上的性能
表4在VC-Clothes数据集上的性能
表5在LaST数据集上的性能
DRLF在LTCC数据集上General设置下,Top-1和mAP的值分别为77.1%和42.2%,与GI-ReID和CAL方法相比,mAP分别提高了12.8%和1.4%,这个结果表明DRLF在解决换衣行人重识别问题的有效性。
在PRCC图像换衣行人重识别数据集上,GI-ReID、CAL和DRLF算法都在服饰改变这一设置上准确率较低,原因是因为在PRCC数据集上,服饰变化的行人样本数分布不均衡,导致在提取特征的过程中出现偏差,并且相较于LTCC数据集而言,PRCC的图像质量更低,从而影响对服饰高层语义的建模能力。
在CCVID视频换衣行人重识别数据集上,由于每个行人视频序列长度分布不均衡,部分帧与帧之间存在差异较大的情况,所以目前的方法都无法取得非常优秀的效果。CCVID实验结果表明,DRLF算法在两种不同的设置下都优于CAL算法,Top-1平均提高2.8%,mAP平均提高1.85%。
在VC-Clothes数据集上,由于该数据为来自游戏世界的虚拟数据集,服饰变化更加明显,图像质量明显优于其余数据集,因此在该数据集上CAL算法和DRLF算法都有良好的表现.VC-Clothes实验结果表明,DRLF算法虽然在mAP上相较CAL算法平均略微提高0.3%,但在服饰变化的设置下,top-1提高了4.9%,这证明了DRLF算法在服饰变化情况下对行人身份识别的准确性。
在LaST数据集上,DRLF相较于CAL算法mAP提高了5.6%,Top-1提高了3.5%,这证明了DRLF方法在大型的换衣行人重识别数据集中有很好的表现。
总体而言,DRLF与性能很好的CAL与GI-ReID算法相比,在LTCC,PRCC,VC-Clothes、CCVID和LaST五个换衣行人重识别数据集都有明显提高,mAP平均提升了2.16%,Top-1平均提升了1.9%。该结果表明本方法对换衣行人重识别中与身份识别相关特征的分析是有效的,利用特征分解和融合的方法能够充分捕捉到图像或视频中与行人识别相关的特征,且基于此分析设计的行人重识别算法具有较高的性能。

Claims (3)

1.一种基于特征分离和融合的行人重识别表征学习方法,其特征在于,包括以下步骤:
步骤1、在多样化表征学习中建立服饰无关的行人表征模型(CIPR)
步骤2、在多样化表征学习中建立着装表征模型(CR)
对着装分类器进行训练,利用公式(5)优化着装分类损失,其目的是让着装编码器捕捉与着装相关的特征;
其中,表示CR的着装分类损失,/>表示CR的着装编码器,/>表示CR的着装分类器;
步骤3、在步骤2的基础上,多样化表征学习中学习基于着装的行人表征模型(CDPR)
冻结着装编码器的底层网络,利用公式(6)对高层网络进行微调,目的是捕捉着装中蕴含的身形、体态及姿势等稳定的特征信息;
其中,表示CDPR的行人分类损失,/>表示CDPR的行人分类器,/>表示冻结底层网络的CR的着装编码器;
步骤4、在步骤1和步骤3的基础上,进行模型融合;
完全冻结CIPR编码器,在训练CDPR的同时,对CIPR模型与CDPR模型进行融合。
2.根据权利要求1所述的一种基于特征分离和融合的行人重识别表征学习方法,其特征在于,所述步骤1中
步骤1.1、对行人编码器进行行人分类训练
利用公式(1)优化行人分类损失,使行人编码器初步捕捉行人特征;
其中表示CIPR的行人分类损失,CE(·)表示交叉熵损失,/>表示CIPR的行人分类器,/>表示行人编码器,xi表示输入的行人图像,/>表示图像xi的真实行人标签;
步骤1.2、在步骤1.1的基础上,对行人编码器进行着装分类训练;
冻结行人编码器,利用公式(2)优化着装分类损失,其目的是训练着装分类器;
其中表示CIPR的着装分类损失,Loss(·)表示损失函数,/>表示CIPR的着装分类器,/>表示图像xi的真实着装标签;
步骤1.3、在步骤1.2的同时,对行人编码器进行着装对抗学习,捕捉与服饰无关的行人特征;
冻结着装分类器,利用公式(3)训练行人编码器和行人分类器;
其中,表示着装对抗损失函数;
整个对抗过程包括两个优化目标,第一个优化目标为当前行人其余服饰的平均交叉熵损失与当前行人当前服饰交叉熵的差值,公式(4)所示;第二个优化目标为行人分类损失;
其中,y表示着装标签,表示当前图像xi所对应行人的多个着装标签集合,Avg表示计算均值。
3.根据权利要求1所述的一种基于特征分离和融合的行人重识别表征学习方法,其特征在于,所述步骤4中的融合包括三种
步骤4.1、概率层融合
利用公式(7)或公式(8),对CIPR和CDPR的分值进行融合;
v=vCIPR+(1-vCIPR)×vCDPR (7)
v=λvCIPR+(1-λ)×vCDPR (8)
其中,v表示融合后的分值,vCIPR表示CIPR模型的分值,vCDPR表示CDPR模型的分值,λ表示超参数;
步骤4.2、特征层融合
使用最大池化对CIPR和CDPR的特征进行融合,利用公式(9)进行联合训练,目的是增强行人表征能力;
其中,表示融合特征的行人分类损失,/>表示融合后的行人分类器,Maxpooling表示最大池化;
步骤4.3、视频序列融合
步骤4.3.1、帧内多模型融合、帧间多表征融合
利用公式(10),在图像帧内部进行特征融合;利用公式(11)在图像帧之间通过平均池化进行序列融合,得到融合后的行人表征;
v=AvgPooling(v1,…,vn) (11)
其中,vi(i≥0,i≤n)表示图像帧i融合后的特征向量,n表示视频序列中图像帧的总数,表示图像帧i的CIPR表征向量,/>表示图像帧i的CDPR表征向量,v表示序列融合后的行人表征向量,Avgpooling表示平均池化;
步骤4.3.2、单模型帧间表征融合、多模型表征融合
利用公式(12)分别提取视频序列中与CIPR表征和CDPR表征;然后利用公式(13)融合得到视频序列的行人表征;
其中,vCIPR和vCDPR分别表示视频序列中与服饰无关的行人表征和基于着装的行人表征;
v=MaxPooling(vCIPR,vCDPR) (13)。
通过上述步骤完成整个特征分解和融合的行人重识别过程。
CN202310724846.9A 2023-06-19 2023-06-19 一种基于特征分离和融合的行人重识别表征学习技术 Pending CN116978090A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310724846.9A CN116978090A (zh) 2023-06-19 2023-06-19 一种基于特征分离和融合的行人重识别表征学习技术

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310724846.9A CN116978090A (zh) 2023-06-19 2023-06-19 一种基于特征分离和融合的行人重识别表征学习技术

Publications (1)

Publication Number Publication Date
CN116978090A true CN116978090A (zh) 2023-10-31

Family

ID=88475753

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310724846.9A Pending CN116978090A (zh) 2023-06-19 2023-06-19 一种基于特征分离和融合的行人重识别表征学习技术

Country Status (1)

Country Link
CN (1) CN116978090A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117456314A (zh) * 2023-12-25 2024-01-26 深圳须弥云图空间科技有限公司 目标再识别模型的训练方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117456314A (zh) * 2023-12-25 2024-01-26 深圳须弥云图空间科技有限公司 目标再识别模型的训练方法及装置
CN117456314B (zh) * 2023-12-25 2024-04-16 深圳须弥云图空间科技有限公司 目标再识别模型的训练方法及装置

Similar Documents

Publication Publication Date Title
CN106897390B (zh) 基于深度度量学习的目标精确检索方法
CN106815566B (zh) 一种基于多任务卷积神经网络的人脸检索方法
CN105141903B (zh) 一种基于颜色信息的在视频中进行目标检索的方法
CN111914664A (zh) 基于重识别的车辆多目标检测和轨迹跟踪方法
WO2017101434A1 (zh) 一种多摄像机间人体目标再识别的方法及系统
CN103679142B (zh) 一种基于空间约束的目标人体识别方法
CN104794451B (zh) 基于分块匹配结构的行人比对方法
CN102194108A (zh) 一种聚类线性鉴别分析特征选择的笑脸表情识别方法
CN103996046A (zh) 基于多视觉特征融合的人员识别方法
Jin et al. Real-time action detection in video surveillance using sub-action descriptor with multi-cnn
CN109271932A (zh) 基于颜色匹配的行人再识别方法
CN106203255A (zh) 一种基于时间对齐的行人重识别方法及系统
CN116978090A (zh) 一种基于特征分离和融合的行人重识别表征学习技术
CN108090397A (zh) 基于红外图像的行人检测系统
Hsu et al. GAITTAKE: Gait recognition by temporal attention and keypoint-guided embedding
CN110688512A (zh) 基于ptgan区域差距与深度神经网络的行人图像搜索算法
Nosheen et al. Efficient Vehicle Detection and Tracking using Blob Detection and Kernelized Filter
CN110765925B (zh) 基于改进的孪生神经网络的携带物检测与步态识别方法
CN117541994A (zh) 一种密集多人场景下的异常行为检测模型及检测方法
Pang et al. F-DR Net: Face detection and recognition in One Net
Kovalenko et al. Real-time hand tracking and gesture recognition using semantic-probabilistic network
AU2019303730B2 (en) Hash-based appearance search
Kompella et al. Detection and avoidance of semi-transparent obstacles using a collective-reward based approach
CN103020631A (zh) 基于星型模型的人体运动识别方法
Al-Ali et al. A review on soccer player tracking techniques based on extracted features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination