CN116092122A - 一种协作多特征聚类无监督行人再识别方法和系统 - Google Patents
一种协作多特征聚类无监督行人再识别方法和系统 Download PDFInfo
- Publication number
- CN116092122A CN116092122A CN202310066489.1A CN202310066489A CN116092122A CN 116092122 A CN116092122 A CN 116092122A CN 202310066489 A CN202310066489 A CN 202310066489A CN 116092122 A CN116092122 A CN 116092122A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- image
- training
- domain
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本申请提供一种协作多特征聚类无监督行人再识别方法和系统,方法包含以下步骤:对训练集中的源域行人图像进行数据预处理;将预处理好的源域行人图像送入初始行人再识别模型中进行预训练;将源域行人图像输入多域翻译网络中,迁移至目标域数据相机风格,并根据原始的数据标签构建目标域有标注数据集,重新训练所述初始行人再识别模型;构建两个结构相同的双分支网络,进行无监督聚类和监督训练;将测试集中的行人图像送入双分支网络提取得到双分支联合特征,计算双分支联合特征与候选集图像的对应联合特征的欧式距离,输出排序结果。本申请可有效应用于数据无标注的场景,并且对于数据中存在的域间图像风格差异更为鲁棒,适合于现实场景中的复杂情况。
Description
技术领域
本申请涉及计算机视觉领域,尤其是涉及一种基于相机风格域适应的协作多特征聚类无监督行人再识别方法和系统。
背景技术
在现实场景下,由于行人数据集的标注成本较为昂贵,数据往往会出现无标注的情况,但是往往这种情况会有一个有标注的源域数据集。然而由于两个数据集是在不同的环境下采集得到,二者的数据存在较为显著的图像风格差异,因而直接将源域数据上监督训练得到的模型迁移至目标域数据上进行测试将会出现严重的性能下降。
为了解决这一问题,现有的方法大多通过迁移源域标签知识或者需要假定较为强硬的先验知识,亦或是假定手工特征在目标域数据上已经足够具有判别力。这些方法大多采用无监督域适应的策略以充分利用源域数据中存在的语义信息。由于跨域存在相机风格差异问题,以上方法在跨域行人再识别数据集上提升有限。
发明内容
为了解决现实场景中常出现的跨域无监督行人再识别问题,即为了缓解源域图像和目标域图像在相机风格上的差异,提升模型对于域无关信息的鲁棒性,本申请提供一种基于相机风格域适应的协作多特征聚类无监督行人再识别方法和系统。
本申请的目的可以通过以下技术方案来实现:
一种基于相机风格域适应的协作多特征聚类无监督行人再识别方法,包括以下步骤:
对于行人再识别数据集,对训练集中的源域行人图像进行数据预处理;
将预处理好的源域行人图像送入初始行人再识别模型中进行预训练;
将源域行人图像输入多域翻译网络中,迁移至目标域数据相机风格,并根据原始的数据标签构建目标域有标注数据集,根据所述有标注数据集重新训练所述初始行人再识别模型,得到微调后的行人再识别模型;
基于微调后的行人再识别模型构建两个结构相同的双分支网络,两个双分支网络分别使用彼此的对应分支产生的特征进行无监督聚类,并根据所述无监督聚类得到的标签对所述双分支网络进行监督训练;
将测试集中的行人图像送入双分支网络提取得到双分支联合特征,计算双分支联合特征与候选集图像的对应联合特征的欧式距离,输出排序结果。
进一步地,所述预处理包括:将训练集中的行人图像读取到内存中,首先进行归一化处理,即将其像素值转化为均值为0,方差为1;再使用随机擦除、边界扩充操作进行数据增强;最后将增强后的数据转化为Pytorch深度学习框架支持的数据格式。
进一步地,所述将预处理好的源域行人图像送入初始行人再识别模型中进行预训练,包括:
使用在ImageNet上预训练的ResNet-50模型作为行人再识别网络的初始基础骨干模型,使用交叉熵及三元组损失进行监督训练;给定单批次有标注数据,使用交叉熵损失以及硬负例挖掘的三元组损失训练所述初始基础骨干模型,其中交叉熵损失使用最后一个全连接层的输出作为输入,同时使用标签平滑策略。
进一步地,所述多域翻译网络包括行人图像生成器网络、图像真伪判别器网络、图像域分类判别器网络;所述将源域行人图像输入多域翻译网络中,迁移至目标域数据相机风格,并根据原始的数据标签构建目标域有标注数据集,根据所述有标注数据集重新训练所述初始行人再识别模型,包括:
首先将源域行人图像输入所述行人图像生成器网络生成迁移后的图像,随后将迁移后的图像与原始图像同时输入到图像真伪判别器网络与图像域分类判别器网络中进行对抗训练,使得所述行人图像生成器网络生成目标域风格的行人图像;随后基于生成器迁移得到的目标域风格的行人图像对所述预训练后的初始行人再识别模型进行微调训练。
进一步地,所述对抗训练和微调训练中包括以下损失函数:
对抗生成学习损失、域分类损失、身份映射损失、行人身份保持损失、行人图像重建损失。
进一步地,所述监督训练包括全局特征分支训练和局部特征分支训练:
所述全局特征分支训练包括:给定无标注图像,首先将该无标注图像输入预训练后的行人识别模型进行特征提取,得到特征图;随后,采用全局均值池化操作对得到的特征图进行处理以获取特征向量;对于目标域数据集中的每张图像,都进行特征提取并将得到的特征向量组合成集合;基于该特征向量集合,采用无监督聚类方法将目标域数据集划分为不同的组;根据聚类的结果,每个样本被赋予一个伪标签,得到有标注训练数据集;随后基于该有标注训练数据集以监督的方式对行人识别模型进行微调;
所述局部特征分支训练包括:将行人图像的特征图在水平维度划分为上下两个区域,分别对应行人的上半身与下半身,划分后的两个特征图分别被用于行人图像的伪标签生成。
进一步地,所述全局特征分支训练进一步包括:
通过无标注图像的特征图生成激活图,记录每个样本激活图中激活值最大的点,所述激活值最大的点代表当前模型最为关注的区域;
以激活值最大的点为中心生成随机大小以及随机长宽比的掩码区域对图像进行遮挡,随后遮挡的图像输入到解码器网络生成重建结果。
基于上述目的,本申请还提出了一种协作多特征聚类无监督行人再识别系统,包括:
预处理模块,对于行人再识别数据集,对训练集中的源域行人图像进行数据预处理;
预训练模块,将预处理好的源域行人图像送入初始行人再识别模型中进行预训练;
迁移微调模块,将源域行人图像输入多域翻译网络中,迁移至目标域数据相机风格,并根据原始的数据标签构建目标域有标注数据集,根据所述有标注数据集重新训练所述初始行人再识别模型,得到微调后的行人再识别模型;
监督训练模块,基于微调后的行人再识别模型构建两个结构相同的双分支网络,两个双分支网络分别使用彼此的对应分支产生的特征进行无监督聚类,并根据所述无监督聚类得到的标签对所述双分支网络进行监督训练;
计算排序模块,将测试集中的行人图像送入双分支网络提取得到双分支联合特征,计算双分支联合特征与候选集图像的对应联合特征的欧式距离,输出排序结果。
与现有技术相比,本申请具有以下优点:
一、本申请可有效降低源域数据与目标域数据的分布差异,从而充分挖掘目标域数据中存在的行人身份相关的判别信息,提升模型的跨域性能。
二、本申请提出了多种映射一致性保持损失,可让图像在迁移前后过程中保持行人身份信息不变,并充分利用源域和目标域数据集的风格映射关系,使得生成的图像尽可能与真实图像相接近。
三、本申请设计了一种有效的协作多特征聚类框架,通过使用彼此的特征得到的伪标签并行训练以缓解一致性偏差带来的负面影响,提升模型对于聚类产生的噪声标签的鲁棒性。
四、本申请提供一种对于图像相机风格变化鲁棒的无监督行人再识别系统,在现实场景下更具有应用价值。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本申请公开的一些实施方式,而不应将其视为是对本申请范围的限制。
图1为本申请的协作多特征聚类无监督行人再识别方法的流程图。
图2为本申请生成的相机风格迁移后的行人图像示意图。
图3为本申请构建的双分支网络工作原理示意图。
图4示出根据本申请实施例的协作多特征聚类无监督行人再识别系统的构成图。
图5示出了本申请一实施例所提供的一种电子设备的结构示意图。
图6示出了本申请一实施例所提供的一种存储介质的示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合实施例,具体如图1所示方法流程图,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,但并不限定本申请。
本申请提供一种基于相机风格域适应的协作多特征聚类无监督行人再识别方法,使得模型可以充分利用源域有标注数据挖掘目标域无标注图像的判别信息,缓解使用自身特征进行伪标签生成所带来的一致性偏差问题,让模型挖掘图像中存在的身份关联的多粒度信息。如图1所示,本申请包括以下步骤:
步骤一:数据预处理。将行人再识别数据集中的训练集读取到内存中,进行预处理。具体实施如下:
利用Python编程语言将训练集中的行人图像读取到内存中,首先进行归一化处理,即将其像素值转化为均值为0,方差为1。再使用随机擦除,边界扩充等操作进行数据增强。最后将转化为Pytorch深度学习框架支持的数据格式。
步骤二:构建初始的行人再识别模型,将有标注的源域行人图像数据集划分为多个批次送入到该网络中得到预测结果计算分类损失。
具体实施如下:
为了学习有标注源域数据中存在的判别信息,首先在源域数据上进行监督训练,具体而言使用在ImageNet上预训练的ResNet-50模型作为行人再识别网络的初始基础骨干模型,使用交叉熵及三元组损失进行监督训练。给定单批次有标注数据,使用交叉熵损失以及硬负例挖掘的三元组损失训练初始基础骨干模型,其中交叉熵损失使用最后一个全连接层的输出作为输入,同时利用标签平滑策略以避免对训练数据的过拟合。因此交叉熵损失的最终形式可表示为如下形式:
其中ns为批次内图像数量,pi(k)∈[0,1]为模型对于类别k的预测概率值,qi(k)为标签分布而y为真实类别标签,ξ为微小扰动项,MS代表源域数据集的类别数量。三元组损失被用于进一步巩固特征的类内紧密性同时强化类间差异,其形式如下所示:
其中xa代表锚图像,xp和xn分别代表批次内最远正例样本与最近负例样本。m为边界超参数,其取值固定,而D(·)为两个特征之间的欧氏距离计算函数。因此,模型的总体损失函数可总结为如下形式:
Lbaseline=λtLtti+Lcross
其中λt设置为1使得三元组损失可以充分对特征的判别性进行优化。
步骤三:构建多域图像翻译网络:包含行人图像生成器网络,图像真伪判别器网络,图像域分类判别器网络。行人图像生成器网络基于Stylegan建立,图像真伪判别器网络,图像域分类判别器网络则使用ResNet50作为网络结构。具体而言,首先将真实源域图像输入生成器网络生成迁移后的图像,随后将迁移后的图像与原始图像同时输入到源域预训练图像真伪判别器网络与图像域分类判别器网络中进行对抗训练,使得生成器可以生成目标域风格的行人图像;随后基于生成器迁移得到的目标域风格数据进行对步骤二中得到的模型进行微调训练。
具体实施如下:
为了充分降低源域数据与目标域数据的分布差异,将每个相机视作单独的数据域进行图像-图像迁移,给定源域数据集和目标域数据集,并且两个数据集均提供相机标签。目标是训练一个生成器G,使其可以准确学习到域间的映射关系。通过这种方式,给定的有标签图像与其相机标签,提供生成器G,其可以被转化为目标域的相机风格的图像,同时在此过程中保持行人身份信息不变。具体而言,该训练过程包含五种损失函数:
①对抗生成学习损失:该损失被用于使得生成的图像尽可能与真实图像相接近。具体而言,生成器G致力于最小化该损失使得生成的图像尽可能逼真,而判别器则旨在最大化该损失,使其更具判别力。该损失的形式如下所示:
Ladv=Ex[logDsrc(x)]+Ex,c[log(1-Dsrc(G(x,c))]]
其中E,Dsrc分别代表累加平均函数、源域分类判别器,下标代表计算所需的变量。C表示真实图像x的目标域标签。
②域分类损失:为了区分真实/生成图像的域标签,引入一个辅助的分类器在判别器的末尾并使用交叉熵损失同时优化生成器和判别器使得生成器产生的图像可以充分融合目标域图像数据的风格。特别地,真实图像的域分类损失被用于优化判别器,而生成图像的域分类损失则被用于优化生成器,其形式如下所示:
其中c’表示真实图像x的原始域标签,c为目标域标签,Dcls为目标域分类判别器。
③身份映射损失:身份映射损失对生成器进行正则化使其可以准确学习目标域样本的身份映射矩阵。同时该损失也可以在一定程度上保持映射过程中输入和输出图像间的颜色组成不变。具体而言,该身份映射损失如下所示:
Lidt=Ex,c[||G(x,y)-x||1]
④行人身份保持损失:为了充分利用迁移后的图像从而进行行人再识别模型在目标域数据上的监督训练同时改变图像的风格,引入了身份保持损失,该损失通过评估行人迁移前后的图像前景变化进行优化。为了巩固生成器的鲁棒性,引入了一致性正则化损失,对原始图像与重建图的输出进行约束使其一致,该损失形式如下:
M(x)代表输入x的前景掩码矩阵。
⑤行人图像重建损失:为了保持输入图像的内容同时改变该图像中仅与域相关的风格信息,使用重建损失来构建前向循环一致性,具体而言,该损失如下所示:
Lrec=Ex,c,c′[||x-G(x,c),c′)||1]综上所述,多域图像风格迁移阶段中优化生成器G和判别器D的总体目标函数可分别表示为如下形式:
其中λcls,λrec,λidt,λpid分别为控制域适应分类损失、重建损失、身份映射损失和行人身份保持损失的超参数。
步骤四:基于微调后的模型构建两个结构相同的双分支网络,如图3所示,两个网络分别使用彼此的对应分支产生的特征进行无监督聚类,并根据该聚类得到的标签对双分支进行监督训练以缓解单个模型所带来的模型偏置对伪标签质量的影响。测试时计算图像间的距离,进行行人特征匹配。
具体实施如下:
(1)全局特征分支训练:给定无标注图像首先将该样本输入预训练后的模型进行特征提取。图像的特征图表示为该结果取自ResNet-50模型的第五层的输出。随后,采用全局均值池化操作对得到的特征图进行处理以获取特征向量对于目标域数据集中的每张图像,都进行特征提取并将得到的特征向量组合成集合,该集合表示为基于该特征向量集合,采用一个无监督聚类方法将目标域数据集划分为不同的组。具体而言,使用DBSCAN方法来进行该操作。根据聚类的结果,每个样本被赋予一个伪标签通过这种方式,一个新的有标注训练数据集可以由目标域图像和对应聚类生成的伪标签共同组成,因此该数据集可表示为如下形式:随后基于该数据集以监督的方式对模型进行微调。具体而言,批次硬例三元组损失与交叉熵损失被用于微调的过程。使用每个聚类的平均特征作为初始化参数。因此分类器的参数Wc初始化形式为:其中C为每次迭代过程中的聚类簇数量。最后,提出了一个新的基于对抗擦除的重建分支基于全局分支输入的特征图提升模型的判别性。具体而言,图像的特征图被首先用于激活图的生成,随后将记录每个样本激活图中激活值最大的点,认为激活值最大的点代表当前模型最为关注的区域。
另外由于全局最大池化与全局均值池化过程是非参数化的。其中全局均值池化具体而言是计算池化区域内所有像素的均值,并以该均值替代当前窗口中心点的值。而全局最大池化则是只考虑当前窗口内像素值的最大取值,由于最大池化可以有效保持图像中存在的显著区域,该框架选择使用全局最大池化进行特征高质量提取。
(2)为了缓解模型的一致性偏差,使得模型关注于图像中存在的更多细节判别区域,以激活值最大的点为中心生成随机大小以及随机长宽比的掩码区域对图像进行遮挡。随后遮挡的图像输入到另一解码器网络使其生成重建结果,该解码器网络旨在根据对抗擦除分支产生的特征图,重建回原始未被擦除的图像,从而以一种自监督的方式进行训练。具体而言,该重建结果是对原始未被遮挡图像的重建,该网络使用的重建损失与Lrec形式相同。通过这种方式,可以缓解网络的一致性偏差以及对于噪声标签的过度信赖,使得网络可以从图像中存在的多处区域进行行人身份的综合判别。
(3)局部特征分支训练:在目标域训练之前,模型首先在源域数据集以及上一节中迁移得到的图像数据集上进行监督训练以学习行人图像的高质量判别特征。然而通过这种方式得到的全局特征模型仍然在目标域数据上表现欠佳。而在行人再识别任务中,融合局部特征学习通常会取得更为优越的效果,因为该特征包含更为细粒度的身份信息。将行人图像的特征图在水平维度划分为上下两个区域,分别对应行人的上半身与下半身。划分后的两个特征图分别被用于行人图像的伪标签生成。
(4)使用Rank-1/5/10和平均均值精度(mAP)指标来评估本申请的性能。在两个行人再识别数据集上进行跨域实验,与目前最先进的方法对比结果如下表所示:
本申请具体实现步骤为:
图1是本申请的实现流程图,具体实施方式如下:
1.对于行人再识别数据集,将训练集中行人图像实施数据预处理。
2.将预处理好的源域行人图像送入网络中进行预训练;
3.将源域行人图像输入多域翻译网络中,迁移至目标域数据相机风格,并根据原始的数据标签构建目标域有标注数据集,根据该有标注数据重新训练2中模型。
4.基于微调后的模型构建两个双分支网络,两个网络分别使用彼此的对应分支产生的特征进行无监督聚类,并根据该聚类得到的标签对双分支进行监督训练。
5.将测试集中的行人图像送入双分支网络提取得到双分支联合特征,计算双分支联合特征与候选集图像的对应联合特征的欧式距离,输出排序结果。该部分基于全局特征分支的特征图进行训练,属于对整个网络的数据增强策略。
图2为本申请基于域相机适应迁移行人可视化图,可见本申请的多种映射一致性保持损失,可让图像在迁移前后过程中保持行人身份信息不变,并充分利用源域和目标域数据集的风格映射关系,使得生成的图像尽可能与真实图像相接近。
申请实施例提供了一种协作多特征聚类无监督行人再识别系统,该系统用于执行上述实施例所述的协作多特征聚类无监督行人再识别方法,如图4所示,该系统包括:
预处理模块401,对于行人再识别数据集,对训练集中的源域行人图像进行数据预处理;
预训练模块402,将预处理好的源域行人图像送入初始行人再识别模型中进行预训练;
迁移微调模块403,将源域行人图像输入多域翻译网络中,迁移至目标域数据相机风格,并根据原始的数据标签构建目标域有标注数据集,根据所述有标注数据集重新训练所述初始行人再识别模型,得到微调后的行人再识别模型;
监督训练模块404,基于微调后的行人再识别模型构建两个结构相同的双分支网络,两个双分支网络分别使用彼此的对应分支产生的特征进行无监督聚类,并根据所述无监督聚类得到的标签对所述双分支网络进行监督训练;
计算排序模块405,将测试集中的行人图像送入双分支网络提取得到双分支联合特征,计算双分支联合特征与候选集图像的对应联合特征的欧式距离,输出排序结果。
本申请的上述实施例提供的协作多特征聚类无监督行人再识别系统与本申请实施例提供的协作多特征聚类无监督行人再识别方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
本申请实施方式还提供一种与前述实施方式所提供的协作多特征聚类无监督行人再识别方法对应的电子设备,以执行上协作多特征聚类无监督行人再识别方法。本申请实施例不做限定。
请参考图5,其示出了本申请的一些实施方式所提供的一种电子设备的示意图。如图5所示,所述电子设备20包括:处理器200,存储器201,总线202和通信接口203,所述处理器200、通信接口203和存储器201通过总线202连接;所述存储器201中存储有可在所述处理器200上运行的计算机程序,所述处理器200运行所述计算机程序时执行本申请前述任一实施方式所提供的协作多特征聚类无监督行人再识别方法。
其中,存储器201可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口203(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
总线202可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中,存储器201用于存储程序,所述处理器200在接收到执行指令后,执行所述程序,前述本申请实施例任一实施方式揭示的所述协作多特征聚类无监督行人再识别方法可以应用于处理器200中,或者由处理器200实现。
处理器200可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201,处理器200读取存储器201中的信息,结合其硬件完成上述方法的步骤。
本申请实施例提供的电子设备与本申请实施例提供的协作多特征聚类无监督行人再识别方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
本申请实施方式还提供一种与前述实施方式所提供的协作多特征聚类无监督行人再识别方法对应的计算机可读存储介质,请参考图6,其示出的计算机可读存储介质为光盘30,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的协作多特征聚类无监督行人再识别方法。
需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的协作多特征聚类无监督行人再识别方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
需要说明的是:
在此提供的方法和显示不与任何特定计算机、虚拟系统或者其它设备有固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本申请并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的虚拟机的创建系统中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者系统程序(例如,计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干系统的单元权利要求中,这些系统中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种协作多特征聚类无监督行人再识别方法,其特征在于,包括以下步骤:
对于行人再识别数据集,对训练集中的源域行人图像进行数据预处理;
将预处理后的源域行人图像送入初始行人再识别模型中进行预训练;
将源域行人图像输入多域翻译网络中,迁移至目标域数据相机风格,并根据原始的数据标签构建目标域有标注数据集,根据所述有标注数据集重新训练所述初始行人再识别模型,得到微调后的行人再识别模型;
基于微调后的行人再识别模型构建两个结构相同的双分支网络,两个双分支网络分别使用彼此的对应分支产生的特征进行无监督聚类,并根据所述无监督聚类得到的标签对两个所述双分支网络进行监督训练;
将测试集中的行人图像送入两个所述双分支网络提取得到双分支联合特征,计算双分支联合特征与候选集图像的对应联合特征的欧式距离,输出排序结果。
2.根据权利要求1所述的一种协作多特征聚类无监督行人再识别方法,其特征在于,
所述预处理包括:将训练集中的行人图像读取到内存中,首先进行归一化处理,即将其像素值转化为均值为0,方差为1;再使用随机擦除、边界扩充操作进行数据增强;最后将增强后的数据转化为Pytorch深度学习框架支持的数据格式。
3.根据权利要求1所述的一种协作多特征聚类无监督行人再识别方法,其特征在于,
所述将预处理好的源域行人图像送入初始行人再识别模型中进行预训练,包括:
使用在ImageNet上预训练的ResNet-50模型作为行人再识别网络的初始基础骨干模型,使用交叉熵及三元组损失进行监督训练;给定单批次有标注数据,使用交叉熵损失以及硬负例挖掘的三元组损失训练所述初始基础骨干模型,其中交叉熵损失使用最后一个全连接层的输出作为输入,同时使用标签平滑策略。
4.根据权利要求1所述的一种协作多特征聚类无监督行人再识别方法,其特征在于,
所述多域翻译网络包括行人图像生成器网络、图像真伪判别器网络、图像域分类判别器网络;所述将源域行人图像输入多域翻译网络中,迁移至目标域数据相机风格,并根据原始的数据标签构建目标域有标注数据集,根据所述有标注数据集重新训练所述初始行人再识别模型,包括:
首先将源域行人图像输入所述行人图像生成器网络生成迁移后的图像,随后将迁移后的图像与原始图像同时输入到图像真伪判别器网络与图像域分类判别器网络中进行对抗训练,使得所述行人图像生成器网络生成目标域风格的行人图像;随后基于生成器迁移得到的目标域风格的行人图像对所述预训练后的初始行人再识别模型进行微调训练。
5.根据权利要求4所述的一种协作多特征聚类无监督行人再识别方法,其特征在于,
所述对抗训练和微调训练中包括以下损失函数:
对抗生成学习损失、域分类损失、身份映射损失、行人身份保持损失、行人图像重建损失。
6.根据权利要求1所述的一种协作多特征聚类无监督行人再识别方法,其特征在于,
所述监督训练包括全局特征分支训练和局部特征分支训练:
所述全局特征分支训练包括:给定无标注图像,首先将该无标注图像输入预训练后的行人识别模型进行特征提取,得到特征图;采用全局均值池化操作对得到的特征图进行处理以获取特征向量;对于目标域数据集中的每张图像,都进行特征提取并将得到的特征向量组合成特征向量集合;基于该特征向量集合,采用无监督聚类方法将目标域数据集划分为不同的组;根据聚类的结果,每个样本被赋予一个伪标签,得到有标注训练数据集;基于该有标注训练数据集以监督的方式对行人识别模型进行微调;
所述局部特征分支训练包括:将行人图像的特征图在水平维度划分为上下两个区域,分别对应行人的上半身与下半身,划分后的两个特征图分别被用于行人图像的伪标签生成。
7.根据权利要求6所述的一种协作多特征聚类无监督行人再识别方法,其特征在于,
所述全局特征分支训练进一步包括:
通过无标注图像的特征图生成激活图,记录每个样本激活图中激活值最大的点,所述激活值最大的点代表当前模型最为关注的区域;
以激活值最大的点为中心生成随机大小以及随机长宽比的掩码区域对无标注图像进行遮挡,随后遮挡的图像输入到解码器网络生成重建结果。
8.一种协作多特征聚类无监督行人再识别系统,其特征在于,包括:
预处理模块,对于行人再识别数据集,对训练集中的源域行人图像进行数据预处理;
预训练模块,将预处理后的源域行人图像送入初始行人再识别模型中进行预训练;
迁移微调模块,将源域行人图像输入多域翻译网络中,迁移至目标域数据相机风格,并根据原始的数据标签构建目标域有标注数据集,根据所述有标注数据集重新训练所述初始行人再识别模型,得到微调后的行人再识别模型;
监督训练模块,基于微调后的行人再识别模型构建两个结构相同的双分支网络,两个双分支网络分别使用彼此的对应分支产生的特征进行无监督聚类,并根据所述无监督聚类得到的标签对两个所述双分支网络进行监督训练;
计算排序模块,将测试集中的行人图像送入两个双分支网络提取得到双分支联合特征,计算双分支联合特征与候选集图像的对应联合特征的欧式距离,输出排序结果。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序以实现如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行实现如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310066489.1A CN116092122A (zh) | 2023-01-17 | 2023-01-17 | 一种协作多特征聚类无监督行人再识别方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310066489.1A CN116092122A (zh) | 2023-01-17 | 2023-01-17 | 一种协作多特征聚类无监督行人再识别方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116092122A true CN116092122A (zh) | 2023-05-09 |
Family
ID=86186641
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310066489.1A Pending CN116092122A (zh) | 2023-01-17 | 2023-01-17 | 一种协作多特征聚类无监督行人再识别方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116092122A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117612266A (zh) * | 2024-01-24 | 2024-02-27 | 南京信息工程大学 | 基于多尺度图像及特征层对齐的跨分辨率行人重识别方法 |
CN117636100A (zh) * | 2024-01-25 | 2024-03-01 | 北京航空航天大学杭州创新研究院 | 预训练任务模型调整处理方法、装置、电子设备和介质 |
-
2023
- 2023-01-17 CN CN202310066489.1A patent/CN116092122A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117612266A (zh) * | 2024-01-24 | 2024-02-27 | 南京信息工程大学 | 基于多尺度图像及特征层对齐的跨分辨率行人重识别方法 |
CN117612266B (zh) * | 2024-01-24 | 2024-04-19 | 南京信息工程大学 | 基于多尺度图像及特征层对齐的跨分辨率行人重识别方法 |
CN117636100A (zh) * | 2024-01-25 | 2024-03-01 | 北京航空航天大学杭州创新研究院 | 预训练任务模型调整处理方法、装置、电子设备和介质 |
CN117636100B (zh) * | 2024-01-25 | 2024-04-30 | 北京航空航天大学杭州创新研究院 | 预训练任务模型调整处理方法、装置、电子设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111080628B (zh) | 图像篡改检测方法、装置、计算机设备和存储介质 | |
Yang et al. | Phase consistent ecological domain adaptation | |
Tong et al. | Salient object detection via bootstrap learning | |
CN112381098A (zh) | 基于目标分割领域自学习的半监督学习方法和系统 | |
Tsagkatakis et al. | Online distance metric learning for object tracking | |
CN116092122A (zh) | 一种协作多特征聚类无监督行人再识别方法和系统 | |
Zavrtanik et al. | Dsr–a dual subspace re-projection network for surface anomaly detection | |
Long et al. | Accurate object detection with location relaxation and regionlets re-localization | |
CN112183456B (zh) | 基于样本生成和域适应的多场景运动目标检测方法及装置 | |
CN111061889B (zh) | 图片多标签的自动识别方法和装置 | |
WO2021137946A1 (en) | Forgery detection of face image | |
Su et al. | Cascaded pyramid mining network for weakly supervised temporal action localization | |
Fang et al. | Generate to adapt: Resolution adaption network for surveillance face recognition | |
Lin et al. | Face detection and segmentation with generalized intersection over union based on mask R-CNN | |
Franchi et al. | Latent discriminant deterministic uncertainty | |
Wang et al. | Detecting tampered scene text in the wild | |
CN114373106A (zh) | 基于上下文解耦和数据增强的弱监督语义分割方法及装置 | |
Liang et al. | Adaptive multiple kernel fusion model using spatial-statistical information for high resolution SAR image classification | |
Deng et al. | Text enhancement network for cross-domain scene text detection | |
Liu et al. | Hana: Hierarchical attention network assembling for semantic segmentation | |
He et al. | Multiple camera styles learning for unsupervised person re-identification | |
Sreenivasulu et al. | Adaptive inception based on transfer learning for effective visual recognition | |
Li et al. | Foundation | |
Qian et al. | Region-based pixels integration mechanism for weakly supervised semantic segmentation | |
KR20210076659A (ko) | 순차적 특징 데이터 이용한 행동 인식 방법 및 그를 위한 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |