CN114387623A - 一种基于多粒度块特征的无监督行人重识别方法 - Google Patents
一种基于多粒度块特征的无监督行人重识别方法 Download PDFInfo
- Publication number
- CN114387623A CN114387623A CN202210052862.3A CN202210052862A CN114387623A CN 114387623 A CN114387623 A CN 114387623A CN 202210052862 A CN202210052862 A CN 202210052862A CN 114387623 A CN114387623 A CN 114387623A
- Authority
- CN
- China
- Prior art keywords
- granularity
- block
- features
- pedestrian
- instance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 235000019580 granularity Nutrition 0.000 claims abstract description 64
- 238000000605 extraction Methods 0.000 claims abstract description 40
- 238000005065 mining Methods 0.000 claims abstract description 3
- 238000012549 training Methods 0.000 claims description 27
- 239000013598 vector Substances 0.000 claims description 18
- 238000012360 testing method Methods 0.000 claims description 8
- 230000000694 effects Effects 0.000 abstract description 9
- 239000011159 matrix material Substances 0.000 description 5
- 238000013461 design Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 102100040160 Rabankyrin-5 Human genes 0.000 description 1
- 101710086049 Rabankyrin-5 Proteins 0.000 description 1
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多粒度块特征的无监督行人重识别方法,用于解决无监督行人重识别精度不高,行人特征表示辨别力不强的问题,提升了模型的可扩展性。首先引入了多粒度块特征提取模块,使得模型在能获取数据集公共的细粒度判别信息的同时能够关注到无标签数据集特有的较大粒度的特征;然后使用单粒度实例判别性学习模块挖掘不同单一粒度的实例级特征;在此基础上,进一步使用多粒度实例判别性学习模块获得更具有判别力的多粒度全局特征表示。本发明能够在无标签的情况下获得判别力较强的行人特征,从而保证较好的识别效果。
Description
技术领域
本发明属于图像处理和计算机视觉领域,涉及行人重识别的方法,具体为一种基于多粒度块特征的无监督行人重识别方法。
背景技术
行人重识别通常被定义为一项图像检索任务,旨在跨摄像机匹配同一个行人的图像。由于在安防和监控领域的重要应用前景,行人重识别受到了越来越多的关注。其中,有监督行人重识别方法得以快速发展并获得了不错的效果。但是,有监督的行人重识别模型需要使用大量有标签数据进行训练,以训练得到较为鲁棒的重识别模型,而数据集的标注需要消耗大量的时间和精力。这使得有监督的行人重识别方法难以被直接用于现实生活中,扩展性非常有限。因此,对于无标签的目标数据集,行人重识别模型如何有效地学习到目标域的判别信息,是无监督行人重识别技术的一项重要挑战。
现有的无监督行人重识别方法主要分为基于伪标签的行人重识别方法、基于生成对抗网络的行人重识别方法。基于伪标签的方法主要使用聚类的方法为无标签数据集生成伪标签,并使用这些带有伪标签的数据集对网络进行训练。基于生成对抗网络的方法则使用生成对抗网络将有标签数据集转化成无标签数据集风格的图像并保留标签信息,并以此来训练模型。其中基于伪标签的行人重识别方法受到噪声的影响,生成伪标签的可信度不高;基于生成对抗网络的行人重识别方法忽略了数据集内部的风格差异,因此转换后的图像具有很大的随机性。此外,这些无监督学习方法共有的缺点是行人特征表示辨别力不足,不能真正学习到无标签数据集的判别信息。
为了解决上述问题,本发明提出一种基于多粒度块特征的无监督行人重识别方法。
发明内容
本发明用于解决无监督行人重识别的识别精度不高,行人特征表示辨别力不强的问题。为了解决上述问题,本发明提供了一种基于多粒度块特征表示的无监督行人重识别方法。首先引入了多粒度块特征提取模块,使得模型在能获取数据集公共的细粒度判别信息的同时能够关注到无标签数据集特有的较大粒度的特征;然后使用单粒度实例判别性学习模块挖掘不同单一粒度的实例级特征;在此基础上,进一步使用多粒度实例判别性学习模块获得更具有判别力的多粒度全局特征表示。本发明能够在无标签的情况下获得判别力较强的行人特征,从而保证较好的识别效果。
具体包括以下步骤:
步骤1)设计多粒度块特征提取模块,将行人图像送入多粒度块特征提取模块,首先通过骨干网络获得行人图像的特征图,并将获取的行人特征图输入三个不同粒度的块生成网络,得到三种粒度的块特征,然后输入块判别性学习损失子模块,得到具有更强判别力的块特征;
步骤2)设计单粒度实例判别性学习模块,分别将具有相同粒度的块特征组合成多个单粒度实例特征,然后将单粒度实例特征分别进行单粒度实例判别性学习损失计算,使模型能够同时学习不同粒度的单粒度实例特征;
步骤3)设计多粒度实例判别性学习模块,将多粒度块特征提取模块提取的块特征组合成一个多粒度实例特征,然后将该多粒度实例特征进行多粒度实例判别性学习损失计算,使模型可以学习到多粒度全局特征表示;
步骤4)将块判别性学习损失、单粒度实例判别性学习损失以及多粒度实例判别性学习损失的加权和作为总损失训练整个模型;
步骤5)测试阶段,行人图像经过多粒度块特征提取模块,得到不同粒度的块特征后,将其首尾连接作为最终的多粒度行人特征表示,通过计算查询图像与图像库中图像的相似度,返回重识别结果。
进一步,所属步骤1)中的多粒度块特征提取模块,获得多粒度块特征,具体为:
1.1)多粒度块特征提取模块由一个基础CNN特征提取网络以及三个不同的块生成网络PGN_3P、PGN_4P与PGN_6P构成。其中,PGN_3P和PGN_4P在无标签数据集上进行初始化以及微调,用于获取无标签数据集上较大尺度的块级特征,如衣服、裤子等;PGN_6P在一个辅助数据集上预训练并固定网络参数,用于获取数据集间所共有的小尺度图像块特征,如帽子、鞋子等;
将待识别的无标签行人图像输入多粒度块特征提取模块,首先通过一个基础CNN特征提取网络,得到输入行人图像的初始特征图;然后将该初始特征图分别输入三个块生成网络PGN_3P、PGN_4P与PGN_6P,分别得到三组具有不同粒度的块特征,分别是PGN_3P、PGN_4P与PGN_6P生成的3个、4个以及6个块特征,共13个不同粒度的块特征,每个块特征的维度大小均为2048维,这些不同粒度的块特征具有不同的语义信息,可以相互补充从而挖掘潜在的判别信息;
1.2)为了减少特征的冗余度,使用一层全连接层将这些块特征向量降维到256维,并输入块判别性学习损失子模块,进行块判别性学习损失计算,以获得具有更强判别力的块特征。
进一步,所属步骤2)中单粒度实例判别性学习模块,将无标签数据集中行人图像的块特征向量输入单粒度实例判别性学习模块,具体为:
2.1)首先,多粒度块特征提取模块输出的13个256维的块特征通过一层全连接层,降维到128维,得到13个128维的块特征;
2.2)然后,分别将这13个128维的块特征中具有相同粒度的块特征进行首尾相连,得到3个单粒度实例特征;
2.3)最后,基于硬难例三元组损失设计单粒度实例判别性学习损失,并将3个单粒度实例特征分别进行单粒度实例判别性学习损失计算,使模型能够同时学习不同粒度的单粒度实例特征。
进一步,所属步骤3)中多粒度实例判别性学习模块,将无标签数据集中行人图像的块特征向量输入多粒度实例判别性学习模块,使模型可以学习到更具判别力的多粒度实例特征。具体为:
3.1)首先,将多粒度块特征提取模块输出的13个256维块特征进行首尾连接,得到一个3328维的特征向量;
3.2)然后,将该3328维特征向量送入全连接层,将其维度扩展为4096维;
3.3)最后,基于Softmax分类损失设计多粒度实例判别性学习损失,并将该4096维特征向量进行多粒度实例判别性学习损失计算,使模型可以学习到多粒度全局特征表示。
本发明提供了一种基于多粒度块特征的无监督行人重识别方法,首先引入了多粒度特征提取模块,使得模型在获取数据集公共的细粒度判别信息的同时能够关注到无标签数据集特有的较大粒度特征;单粒度实例判别性学习模块使得模型能够学习到不同粒度下的单粒度实例特征;多粒度实例判别性学习模块则能保证由多粒度块特征提取模块得到的不同粒度的块特征能够互相补充,形成更具有判别力的全局多粒度特征表示。本发明结合多粒度特征提取模块、单粒度实例判别性学习模块以及多粒度实例判别性学习模块,在无标签的数据集上可以达到良好的行人重识别效果。
有益效果
首先,本发明将多粒度特征的思想引入无监督的行人重识别,设计多粒度块特征提取模块,提取更多的行人局部细节信息,得到具有更丰富判别信息的多粒度行人块特征表示;其次,基于单粒度实例判别性学习模块和多粒度实例判别性学习模块,进行不同粒度的实例判别性学习,充分挖掘无标签数据集上的身份判别信息,进一步提升行人重识别模型的效果。除此之外,本发明识别效果稳定,在行人重识别的公共基准数据集上取得了良好的识别效果。
附图说明
图1是本发明基于多粒度块特征的无监督行人重识别方法的流程图。
图2是本发明基于多粒度块特征的无监督行人重识别方法的网络结构图。
图3是本发明中块判别性学习的示例图。
图4是本发明中单粒度实例判别性学习的示例图。
具体实施方式
本发明的目标是学习一个有判别力的行人特征表示,以此来提高无监督行人重识别的性能。由于数据集缺乏真实的标签,本发明设计了基于多粒度块特征的无监督行人重识别模型。该模型通过三个不同粒度的块生成网络,分别提取不同粒度的块特征。第一个块生成网络用于提取跨数据集共享的小尺度图像块的特征,其余两个块生成网络用于提取无标签数据集上的尺度较大图像块的特征。在训练阶段,使用多粒度块特征提取模块提取不同粒度的块级特征,并联合单粒度实例判别性学习损失,使模型的每个块生成网络可以分别提取行人图像不同粒度的身份判别信息。此外,为了使三个块生成网络能够互补地学习一些潜在的信息,本发明还设计多粒度实例判别性学习损失进一步精细化模型的特征表示。在测试阶段,将多粒度块特征提取模块输出的不同粒度的块级特征连接起来,作为最终的行人特征表示。
下面结合具体实例以及附图对本发明进行更详细阐述。
本发明包括以下步骤:
1)首先获取ImageNet数据集作为多粒度块特征提取模块的预训练模型ResNet50的训练集,然后获取MSMT17数据集用于预训练多粒度块特征提取模块中的块生成网络PGN_6P,最后获取Market-1501和DukeMTMC-reID数据集分别作为整体模型的训练集和测试集;
2)对数据集进行预处理。对于给定尺寸大小为H×W的输入行人图像,当前初始图像大小为H×W×3,首先将其调整为384×128×3的图像大小,并通过随机擦除、随机翻转和随机裁剪的方式进行数据增强;
3)构建多粒度块特征提取模块,输入无标签的行人图像经过backbone进行特征提取后,得到输入行人图像的初始特征图;然后将该初始特征图分别输入三个块生成网络PGN_3P、PGN_4P与PGN_6P,分别得到三组具有不同粒度的块特征,共13个不同粒度的块特征,这些不同粒度的块特征具有不同的语义信息,可以相互补充从而挖掘潜在的判别信息。具体为:
3.1)首先,对于给定大小为384×128×3的行人图像,首先经过backbone得到初始特征图,模型的backbone采用基于ResNet50的网络结构;
3.2)然后将初始特征图送入PGN_3P、PGN_4P、PGN_6P三个块生成网络,三个块生成网络PGN_3P、PGN_4P、PGN_6P将传统空间变换网络的采样器偏置由一组分别变为三组、四组和六组并加入平均池化层,可以从三个、四个和六个空间位置进行采样,这三个块生成网络分别输出3个、4个和6个块维度为2048×1的块特征;
3.3)为了减少特征的冗余度,使用一层全连接层将这些块特征向量从2048维降维到256维;
3.4)将得到的维度为256×1的块特征送入块判别性学习损失子模块,使用块判别性学习损失保证每个块特征的判别信息。
初始特征图经过一个块生成网络PGN生成N个不同的块特征,表示在一个batch内第j幅图像的第n个块特征。本发明使用一种块特征存储器来存储这些块特征,其中S代表训练样本的总数,代表第j个样本的第n个块特征。块特征存储器在每个epoch训练结束完成更新,过程如下。
块特征存储器在训练开始之前进行初始化,并且使用上述等式在每个epoch训练结束后进行更新。
对于第i幅图像的第n个块特征通过计算它与存储器Wn中对应特征的相似度获得与其相似度最高的一组块特征集合将集合中的块特征看做是与为同一个类别的正样本,而将集合外的图像块则视作负样本。基于上述假设,定义如下块判别性学习损失函数:
其中,S表示训练样本的总数,γ表示缩放参数,Nt表示第t个块生成网络生成块特征的数量,H的值为3,表示多粒度块特征提取模块的块特征具有三个粒度。
通过块判别性学习损失LPL,可以将视觉上相似的块对应的块特征映射得更近,从而使块特征更具判别性。
4)构建单粒度实例判别性学习模块。首先计算无标签数据集行人图像单粒度实例特征之间的相似度矩阵,然后基于相似度矩阵构建正负样本对,并采用三元组损失设计单粒度实例判别性学习损失,使得模型可以学习到单粒度实例特征的身份判别信息。具体为:
4.1)首先,将多粒度块特征提取模块输出的13个256维的块特征通过一层全连接层,降维到128维,得到13个128维的块特征;
4.2)然后,分别将这13个128维的块特征中具有相同粒度的块特征进行首尾相连,得到3个单粒度实例特征;
4.3)构建正样本对。因为数据集没有标签,而通过聚类等方法获取的正样本存在较大误差。因此本发明对原行人图像进行缩放、裁剪、旋转、颜色抖动(随机调整亮度,对比度以及饱和度),将变换后的图像作为原行人图像的正样本;
4.4)然后构建负样本对。本发明采用硬难例挖掘的方式获取负样本对。首先,根据单粒度实例特征计算相似度矩,并根据规则定义负样本对。规则为:给定一个训练batch中的两幅行人图像xi与xj,如果xj在xi的最近邻集合中而xi不在xj的最近邻集合中,则xj是xi的负样本。最后,为使得模型能够更好地学习判别特征,本发明仅使用难例数据,即采用具有相似度最高的负样本构建负样本对;
4.5)最后,基于正负样本对构建三元组损失设计单粒度实例判别性学习损失LSIL,第i幅图像的单粒度实例判别性学习损失定义如下:
其中,H为3,表示多粒度块特征提取模块的块特征具有三个粒度,m是三元组损失的margin,xi,h表示第i幅行人图像第h个单粒度实例特征,ui,h表示该单粒度实例特征的正样本特征,vi,h表示该单粒度实例特征的负样本特征。
通过单粒度实例判别性学习损失,每个粒度下的单粒度实例特征具有更强的身份判别力。
5)构建多粒度实例判别性学习模块。首先计算无标签数据集行人图像多粒度实例特征之间的相似度矩阵,然后基于相似度矩阵构建一种软分类损失代替传统的硬分类损失,使模型在无标签的情况下具有较强的鲁棒性。具体为:
5.1)首先将多粒度块特征提取模块输出的13个256维特征向量,进行首尾连接得到一个3328维的特征向量;
5.2)将该3328维的特征向量送入全连接层,将其维度扩展为4096维;
5.3)然后计算该特征向量与无标签数据集中的所有行人图像对应的4096维特征向量的相似度矩阵;
5.4)获取无标签图像的伪标签。由于数据集缺失行人图像的标签,多粒度实例判别性学习模块直接将无标签数据集中图像的索引作为图像伪标签,降低了标签获取的复杂度;
5.5)最后使用带有伪标签的多粒度特征向量进行多粒度实例判别性学习损失的计算。多粒度实例损失是一种软分类损失,具体设计如下:
其中,Fi表示行人图像xi的多粒度实例特征,F’a是行人图像xa经过网络上一次迭代后更新的多粒度实例特征,M(xi,r)表示xi的多粒度实例特征在特征空间中r幅最近邻行人图像的集合,wa是权重系数,S是无标签数据集的图像数量,ε是平衡因子。
在特征空间中距离行人图像xi最近的r幅行人图像很有可能和xi具有不相同的身份,将这些图像赋予与xi相同的标签可能会导致带有不同身份信息的多粒度实例特征在特征空间中距离太近,干扰模型的学习。因此,本发明加入权重系数wa构成软分类损失行制约,增强了模型的鲁棒性。
6)对整个无监督行人重识别模型进行训练,分别在Market-1501和DukeMTMC-reID数据集上进行无标签训练。以DukeMTMC-reID数据集为例,训练的具体方式如下:
6.1)首先进行模型预训练。使用在ImageNet上预训练的ResNet50作为网络的主干模型,并在MSMT17数据集预训练块生成网络PGN_6P;
6.2)然后进行数据集预处理。对DukeMTMC-reID数据集中的行人图像进行预处理,将输入图像的尺寸调整为384×128,并使用随机擦除、随机翻转和随机裁剪的方式进行数据增强;
6.3)将无标签的DukeMTMC-reID数据集中的行人图像送入模型进行训练;
6.4)设置训练参数,每批次训练样本数batchsize设置为40,采用随机梯度下降SGD作为训练优化器。固定预训练PGN_6P参数,将PGN_3P和PGN_4P从第25个epoch训练到第40个epoch,学习率设置为1e-5。其余参数学习率设置为1e-4,并在50个epoch之后变为1e-5,总共训练70个epoch;
6.5)设置损失函数相关参数,块特征存储器的更新率l设置为0.1。存储器中前10个最相似的块特征用于块判别性学习损失的计算,缩放参数γ设置为15。对于单粒度实例判别性学习,块特征集合的大小设置为3,margin设置为2。对于多粒度实例判别性学习,r设置为6,平衡因子ε设置为0.05,dropout的概率设为0.5。最后,总损失主要分为两个部分:一部分为多粒度实例判别性学习,一部分为块判别性学习损失联合多粒度实例判别性学习,并用权重系数α平衡两部分损失,α在具体实施中设置为0.7。总损失LTOTAL如下:
LTOTAL=αLMIL+(1-α)*(LSIL+2*LPL)#
7)测试阶段,将DukeMTMC-reID的测试集bounding_box_test送入模型进行测试。行人图像经过多粒度块特征提取模块,得到不同粒度的行人特征后,将其首尾连接作为最终的多粒度行人特征表示,通过计算查询图像与图像库中图像的余弦相似度,得出模型性能评价结果mAP、rank-1、rank-5和rank-10。
本发明在TITAN RTX GPU和Ubuntu 1604操作系统下,采用PyTorch开源框架和Python语言实现该方法。
本发明提供了一种基于多粒度块特征的无监督行人重识别方法,适用于无标签数据集的行人重识别。根据实验结果表明,本发明鲁棒性好,识别效果稳定,识别精度较高。
Claims (4)
1.一种基于多粒度块特征的无监督行人重识别方法,融合不同粒度的块特征表示,深入挖掘无标签数据集的潜在身份判别信息,包括以下步骤:
步骤1)计多粒度块特征提取模块,将行人图像送入多粒度块特征提取模块,首先通过骨干网络获得行人图像的特征图,并将获取的行人特征图输入三个不同粒度的块生成网络,得到三种粒度的块特征,然后输入块判别性学习损失子模块,得到具有更强判别力的块特征;
步骤2)设计单粒度实例判别性学习模块,分别将具有相同粒度的块特征组合成多个单粒度实例特征,然后将单粒度实例特征分别进行单粒度实例判别性学习损失计算,使模型能够同时学习不同粒度的单粒度实例特征;
步骤3)设计多粒度实例判别性学习模块,将多粒度块特征提取模块提取的块特征组合成一个多粒度实例特征,然后将该多粒度实例特征进行多粒度实例判别性学习损失计算,使模型学习到多粒度全局特征表示;
步骤4)将块判别性学习损失、单粒度实例判别性学习损失以及多粒度实例判别性学习损失的加权和作为总损失训练整个模型;
步骤5)测试阶段,行人图像经过多粒度块特征提取模块,得到不同粒度的块特征后,将其首尾连接作为最终的多粒度行人特征表示,通过计算查询图像与图像库中图像的相似度,返回重识别结果。
2.根据权利要求1所述的一种基于多粒度块特征的无监督行人重识别方法,其特征在于:所述步骤1)的多粒度块特征提取模块,获得具有丰富外观信息的块特征表示,具体为:
1.1)多粒度块特征提取模块由一个基础CNN特征提取网络以及三个不同的块生成网络PGN_3P、PGN_4P与PGN_6P构成;其中,PGN_3P和PGN_4P在无标签数据集上进行初始化以及微调,用于获取无标签数据集上较大尺度的块级特征;PGN_6P在一个辅助数据集上预训练并固定网络参数,用于获取数据集间所共有的小尺度图像块特征;
将待识别的无标签行人图像输入多粒度块特征提取模块,首先通过一个基础CNN特征提取网络,得到输入行人图像的初始特征图;然后将该初始特征图分别输入三个块生成网络PGN_3P、PGN_4P与PGN_6P,分别得到三组具有不同粒度的块特征,分别是PGN_3P、PGN_4P与PGN_6P生成的3个、4个以及6个块特征,共13个不同粒度的块特征,每个块特征的维度大小均为2048维,这些不同粒度的块特征具有不同的语义信息,相互补充从而挖掘潜在的判别信息;
1.2)为了减少特征的冗余度,使用一层全连接层将这些块特征向量降维到256维,并输入块判别性学习损失子模块,进行块判别性学习损失计算,以获得具有更强判别力的块特征。
3.根据权利要求1所述的一种基于多粒度块特征的无监督行人重识别方法,其特征在于:所述步骤2)的单粒度实例判别性学习模块,学习不同粒度的身份判别信息,具体为:
2.1)首先,多粒度块特征提取模块输出的13个256维的块特征通过一层全连接层,降维到128维,得到13个128维的块特征;
2.2)然后,分别将这13个128维的块特征中具有相同粒度的块特征进行首尾相连,得到3个单粒度实例特征;
2.3)最后,基于硬难例三元组损失设计单粒度实例判别性学习损失,并将3个单粒度实例特征分别进行单粒度实例判别性学习损失计算,使模型能够同时学习不同粒度的单粒度实例特征。
4.根据权利要求1所述的一种基于多粒度块特征提取的无监督行人重识别方法,其特征在于:所述步骤3)的多粒度实例判别性学习模块,学习多粒度全局特征表示,具体为:
3.1)首先,将多粒度块特征提取模块输出的13个256维块特征进行首尾连接,得到一个3328维的特征向量;
3.2)然后,将该3328维特征向量送入全连接层,将其维度扩展为4096维;
3.3)最后,基于Softmax分类损失设计多粒度实例判别性学习损失,并将该4096维特征向量进行多粒度实例判别性学习损失计算,使模型学习到多粒度全局特征表示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210052862.3A CN114387623B (zh) | 2022-01-18 | 一种基于多粒度块特征的无监督行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210052862.3A CN114387623B (zh) | 2022-01-18 | 一种基于多粒度块特征的无监督行人重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114387623A true CN114387623A (zh) | 2022-04-22 |
CN114387623B CN114387623B (zh) | 2024-05-31 |
Family
ID=
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111666851A (zh) * | 2020-05-28 | 2020-09-15 | 大连理工大学 | 一种基于多粒度标签的交叉域自适应行人重识别方法 |
CN113052017A (zh) * | 2021-03-09 | 2021-06-29 | 北京工业大学 | 一种基于多粒度特征表示和域自适应学习的无监督行人重识别方法 |
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111666851A (zh) * | 2020-05-28 | 2020-09-15 | 大连理工大学 | 一种基于多粒度标签的交叉域自适应行人重识别方法 |
CN113052017A (zh) * | 2021-03-09 | 2021-06-29 | 北京工业大学 | 一种基于多粒度特征表示和域自适应学习的无监督行人重识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109949317B (zh) | 基于逐步对抗学习的半监督图像实例分割方法 | |
Zhang et al. | Saliency detection via absorbing Markov chain with learnt transition probability | |
Hu et al. | Learning structured inference neural networks with label relations | |
Lin et al. | RSCM: Region selection and concurrency model for multi-class weather recognition | |
Gao et al. | Reading scene text with attention convolutional sequence modeling | |
Lee et al. | Object-graphs for context-aware visual category discovery | |
CN111832511A (zh) | 一种增强样本数据的无监督行人重识别方法 | |
Sun et al. | Robust text detection in natural scene images by generalized color-enhanced contrasting extremal region and neural networks | |
Yee et al. | DeepScene: Scene classification via convolutional neural network with spatial pyramid pooling | |
CN114092964A (zh) | 基于注意力引导和多尺度标签生成的跨域行人重识别方法 | |
CN111783521A (zh) | 基于低秩先验引导的域不变信息分离的行人重识别方法 | |
Fan et al. | Correlation graph convolutional network for pedestrian attribute recognition | |
CN112966647A (zh) | 一种基于逐层聚类及增强判别的行人重识别方法 | |
CN113705218A (zh) | 基于字符嵌入的事件元素网格化抽取方法、存储介质及电子装置 | |
Xiong et al. | Multi-dimensional edge features graph neural network on few-shot image classification | |
CN115827954A (zh) | 动态加权的跨模态融合网络检索方法、系统、电子设备 | |
Wang et al. | Context-sensitive zero-shot semantic segmentation model based on meta-learning | |
CN114048290A (zh) | 一种文本分类方法及装置 | |
CN114329031A (zh) | 一种基于图神经网络和深度哈希的细粒度鸟类图像检索方法 | |
CN116910571B (zh) | 一种基于原型对比学习的开集域适应方法及系统 | |
CN116385946B (zh) | 面向视频的目标片段定位方法、系统、存储介质及设备 | |
Li et al. | A multi-label image classification algorithm based on attention model | |
CN114387623A (zh) | 一种基于多粒度块特征的无监督行人重识别方法 | |
CN113158901B (zh) | 一种域自适应行人重识别方法 | |
CN114387623B (zh) | 一种基于多粒度块特征的无监督行人重识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |