CN113052017A - 一种基于多粒度特征表示和域自适应学习的无监督行人重识别方法 - Google Patents
一种基于多粒度特征表示和域自适应学习的无监督行人重识别方法 Download PDFInfo
- Publication number
- CN113052017A CN113052017A CN202110258611.6A CN202110258611A CN113052017A CN 113052017 A CN113052017 A CN 113052017A CN 202110258611 A CN202110258611 A CN 202110258611A CN 113052017 A CN113052017 A CN 113052017A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- domain
- granularity
- feature
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 31
- 238000000605 extraction Methods 0.000 claims abstract description 34
- 230000006978 adaptation Effects 0.000 claims abstract description 13
- 239000013598 vector Substances 0.000 claims description 37
- 238000012549 training Methods 0.000 claims description 23
- 235000019580 granularity Nutrition 0.000 claims description 18
- 238000012360 testing method Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000005286 illumination Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 239000002245 particle Substances 0.000 claims description 2
- 238000005065 mining Methods 0.000 claims 2
- 230000000694 effects Effects 0.000 abstract description 8
- 238000005516 engineering process Methods 0.000 description 6
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000087 stabilizing effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
Abstract
本发明公开了一种基于多粒度特征表示和域自适应学习的无监督行人重识别方法,用于解决无监督行人重识别跨域识别精度不高,行人特征表示辨别力不强的问题,提升模型的可扩展性。首先引入多粒度特征提取模块,得到行人图像具有更丰富判别信息的多粒度特征表示;对于源数据集中有标签的行人图像,源域分类模块对其进行分类学习,为域自适应学习模块提供源域的行人判别知识;域自适应模块基于从源域中获得的判别知识,充分挖掘目标数据集中潜在的判别信息。本发明能够获得较强的行人特征表示,考虑目标域与源域的差异因素,在无标签的目标域识别精度较高,并保持稳定的识别效果。
Description
技术领域
本发明属于图像处理和计算机视觉领域,涉及行人重识别的方法,尤其涉及一种基于多粒度特征表示和域自适应学习的无监督行人重识别方法。
背景技术
行人重识别是跨越不同摄像头的行人图像检索任务。近几年,随着深度卷积网络的引入,行人重识别技术快速发展,尤其是有监督的行人重识别技术获得了较高的重识别精度。但是,有监督的行人重识别技术需要手动标识训练数据,而对于深度学习模型,需要大量有标签的行人图像,以训练得到较为鲁棒的行人重识别模型,这不仅需要耗费大量的精力和时间,也限制了行人重识别技术的进一步发展。无监督的行人重识别技术旨在解决行人重识别模型的可扩展性问题,即如何将行人重识别模型从有标签的源数据集扩展到其它无标签的目标数据集。对于无标签的目标数据集,行人重识别模型如何有效地学习到目标域的判别信息,是无监督行人重识别技术的一项重要挑战。
一般的无监督行人重识别方法首先在有标签的源数据集预训练模型,只学习行人图像的一般特征表示,然后将无标签的目标数据集输入模型进行聚类或分配伪标签,最后基于得到的聚类结果或伪标签,对预训练模型进行微调,得到最终的重识别模型。通过从源域传递判别知识给目标域,这种方法可以使模型学习到目标数据集的分布,从而更好地适应目标域的变化。但是,由于模型提取的行人特征表示辨别力不足,并且通过预训练模型得到的聚类结果或伪标签与目标数据集的真实行人标签存在偏差,模型并不能真正学习到目标域的判别信息,因此导致模型没有达到令人满意的效果。
为了解决上述问题,本发明提出一种基于多粒度特征表示和域自适应学习的无监督行人重识别方法。
发明内容
本发明用于解决无监督行人重识别跨域识别精度不高、行人特征表示辨别力不强的问题。为了解决上述问题,本发明提供了一种基于多粒度特征表示和域自适应学习的无监督行人重识别方法。首先设计多粒度特征提取模块,提取更多的行人局部细节信息,得到具有更丰富判别信息的多粒度行人特征表示;为有效提高行人重识别模型的可扩展性,设计域自适应模块,基于从源域中获得的判别知识,考虑目标域与源域之间的差异对模型进行适应性学习,充分挖掘目标数据集中潜在的判别信息。通过模块间的相互协作,本发明在无标签的目标域可以达到良好的行人重识别效果。具体包括以下步骤:
1)将行人图像输入多粒度特征提取模块,该模块把池化后的行人特征划分为不同粒度大小,不同粒度的特征首尾相连得到具有更丰富判别信息的多粒度特征表示;
2)将源域的行人图像经过多粒度特征提取模块得到的多粒度特征输入源域分类模块进行分类学习,计算具有行人标签的源域分类损失,使模型获得源域行人的判别信息并为域自适应学习模块提供源域的行人判别知识;
3)将目标域无标签的行人图像经过多粒度特征提取模块得到的多粒度特征输入域自适应模块,基于从源域中获得的判别知识,考虑目标域与源域之间的差异对模型进行适应性学习,充分挖掘目标数据集中潜在的判别信息。
4)将源域分类损失与域自适应损失的加权和作为总损失训练整个模型。
5)在测试阶段,目标域的行人图像经过多粒度特征提取模块,得到不同粒度的行人特征后,将其首尾连接作为最终的多粒度行人特征表示,通过计算查询图像与图像库中图像的相似度,返回重识别结果。
进一步,所属步骤1)中的多粒度特征提取模块,获得多粒度特征,具体为:
1.1)首先将源域与目标域的行人图像分别输入backbone得到初始行人特征图,然后将输出的特征图分别在水平方向上划分为两个和三个大小相等的局部区域,作为粒度为2和3的局部特征图,并保留两个初始特征图作为不同粒度的全局特征图。经过全局和局部的最大池化操作,得到四个不同大小的特征向量P2_g,P2,P3和P3_g,最后,将P2,P3分别从水平方向上均等划分为局部特征:P2_0,P2_1和P3_0,P3_1,P3_2。P2_g和P3_g表示行人图像的全局特征,以弥补局部特征所缺失的全局判别信息。
1.2)经过对特征图进行不同粒度的划分,共得到P2_g,P2_0,P2_1,P3_g,P3_0,P3_1和P3_2等七个大小为2048×1×1的特征向量。在训练阶段,将对应源数据集行人图像的特征向量输入源域分类模块进行有标签的分类学习;对应目标数据集行人图像的特征向量则进一步经过Reduction操作,将其维度降为:256×1×1,并输入域自适应模块进行目标域的自适应学习。
进一步,所属步骤2)中的源域分类模块,将源数据集行人图像的特征向量输入源域分类模块进行有监督的分类学习,具体为:
2.1)首先将输入的七个2048×1×1特征向量分别压缩为:2048维向量,然后,经过全连接层FCnum_class,最终获得七个751维的特征向量:P2_g_fc,P2_0_fc,P2_1_fc,P3_g_fc,P3_0_fc,P3_1_fc和P3_2_fc。
2.2)对于全局特征P2_g_fc,P3_g_fc,和局部特征P2_0_fc,P2_1_fc,P3_0_fc,P3_1_fc,P3_2_fc,分别计算Softmax分类损失,进行有标签的判别学习。通过对局部信息进行分类,给每个部分较强的ID约束,保证每个区域提取的特征具备足够多的信息满足分类的要求,模型可以从源域学习到很好的判别力表示。
2.3)最后,将所有特征的Softmax损失求平均作为源域分类模块的损失Lsrc。
进一步,所属步骤3)中的域自适应模块,通过基于源域分类模块学习到的一般行人判别信息,对目标域中光照、摄像头视角等可能与源域存在较大差异的因素进行适应性学习。具体为:
3.1)首先将输入的七个256×1×1特征向量分别压缩为:256维向量,然后,将这七个256维向量进行首尾连接得到一个1792维特征向量MGF,再将MGF经过全连接层FC_4096,升维为4096维的特征向量MGF_ex,以提取更加细节的判别信息,最后,计算其域自适应损失Ladpt。
3.2)由于目标域缺失行人图像的标签,域自适应模块直接将目标数据集中图像的索引index作为图像伪标签。
3.3)考虑到不同摄像头的视角问题,利用摄像头的风格转换对目标数据集进行数据增强,以提高行人重识别模型对不同摄像头的泛化能力。由于摄像头的序号易于获取,假设目标域的摄像头序号已知,视每一个摄像头为一种风格。若目标数据集具有nc个摄像头,则分别对每个摄像头采集到的行人图像基于StarGAN生成其余nc-1个摄像头风格的对应行人图像,并为其分配与原始行人图像相同的伪标签。
3.4)假设与行人图像xt,i的外观特征最相似的k幅图像属于同一行人,需要彼此靠近,以学习个体的判别信息;另外,由摄像头风格转换生成的图像与对应的原始行人图像具有相同行人标签,也需要彼此靠近,以使得模型具有对不同摄像头视角的适应能力。因此通过域自适应学习,不同摄像头视角下具有相同伪标签的行人图像相互靠近,同时,可能为同一行人但具有不同伪标签的行人图像相互靠近,使得模型可以学习到目标域行人图像的潜在判别信息,并且保持对摄像头良好的泛化性。
本发明提供了一种基于多粒度特征表示与域自适应学习的无监督行人重识别方法。首先引入多粒度特征提取模块,将池化后的行人特征划分为不同粒度大小,不同粒度的特征首尾相连得到具有更丰富判别信息的多粒度特征;源域分类模块对源数据集中有标签的行人图像进行分类学习,为域自适应学习模块提供源域的行人判别知识;域自适应模块基于从源域中获得的判别知识,考虑目标域与源域之间的差异对模型进行适应性学习,充分挖掘目标数据集中潜在的判别信息。通过三个模块的相互协作,本发明在无标签的目标域可以达到良好的行人重识别效果。
有益效果
首先,本发明将多粒度特征的思想引入无监督的行人重识别,设计多粒度特征提取模块,提取更多的行人局部细节信息,能够得到具有更丰富判别信息的多粒度行人特征表示;其次,设计的域自适应模块,基于从源域中获得的判别知识,充分挖掘目标数据集中与源域不同的光照、行人、环境等潜在差异信息,进一步提升行人重识别模型的可扩展性。除此之外,本发明跨域识别效果稳定,在行人重识别的公共数据集上取得了良好的识别效果。
附图说明
图1是本发明基于多粒度特征提取和域适应学习的无监督行人重识别方法的流程图;
图2是本发明基于多粒度特征提取和域适应学习的无监督行人重识别方法的网络结构图;
图3是本发明中域自适应学习的示例图;
图4是本发明基于多粒度特征提取和域适应学习的无监督行人重识别方法在Market-1501上测试的结果图。
具体实施方式
本发明提出一种基于多粒度特征表示和域自适应学习的无监督行人重识别方法。在训练阶段,将源数据集行人图像与目标数据集行人图像同时作为模型的输入,多粒度特征提取模块用来提取不同粒度的行人特征,以获得具有丰富判别信息的行人特征表示;然后,源数据集的行人特征输入源域分类模块进行分类学习,计算具有行人标签的源域分类损失,使模型获得源域行人的判别信息;而目标数据集的行人特征输入域自适应模块进行迁移学习,以捕获目标域中与源域有差异的判别信息;最后,将源域分类损失与域自适应损失的加权和作为总损失训练整个模型。在测试阶段,目标域的行人图像经过多粒度特征提取模块,得到不同粒度的行人特征后,将其首尾连接作为最终的多粒度行人特征表示,从而进行行人重识别。应用本发明,解决了现有无监督行人重识别方法特征表示力不强、无法深入挖掘目标域判别信息的问题。本发明适用于目标域无标签的行人重识别,具有良好的鲁棒性,跨域识别精度较高。
下面结合具体实例以及附图对本发明进行更详细阐述。
本发明包括以下步骤:
1)首先获取ImageNet数据集作为多粒度特征提取模块的预训练模型ResNet50的训练集,并获取Market-1501和DukeMTMC-reID数据集作为整体模型的训练集和测试集;
2)对数据集进行预处理。对于给定尺寸大小为H×W的输入行人图像,当前初始图像大小为H×W×3,首先将其调整为384×128×3的图像大小,并通过随机擦除、随机翻转和随机裁剪的方式进行数据增强。
3)构建多粒度特征提取模块,输入源域和目标域的行人图像经过backbone后,将得到的初始行人特征图,在水平方向进行不同粒度的划分,以表示行人图像的多粒度局部特征,并与全局特征相结合,得到具有丰富外观信息的行人特征表示,具体为:
3.1)首先,对于给定大小为384×128×3的行人图像,首先经过backbone得到初始特征图。模型的backbone采用基于ResNet50的网络结构,并去掉conv_5中的下采样层,以学习更细节的特征,在不改变特征图大小的情况下将通道数从1024增加到2048。
3.2)然后初始特征图分别使用卷积核大小为24×8的全局最大池化层Global_Max_Pooling得到2048×1×1的全局特征P2_g和P3_g。将初始特征图分别经过尺寸大小为12×8和8×8的局部最大池化层Part2_Max_Pooling和Part3_Max_Pooling,得到不同粒度的2048×2×1局部特征图P2和2048×3×1局部特征图P3。
3.3)将局部特征P2水平均等划分为上下两部分,得到两个大小为2048×1×1的局部特征表示P2_0和P2_1;将局部特征P3水平均等划分为上中下三部分,得到三个大小为2048×1×1的局部特征表示P3_0、P3_1和P3_2;
3.4)经过对特征图进行不同粒度的划分,共得到P2_g,P2_0,P2_1,P3_g,P3_0,P3_1和P3_2等七个大小为2048×1×1的特征向量。
3.5)在训练阶段,将对应源数据集行人图像的特征向量输入源域分类模块进行有标签的分类学习;对应目标数据集行人图像的特征向量则进一步经过Reduction操作,将其维度降为:256×1×1,并输入域自适应模块进行目标域的自适应学习。Reduction操作包含256个1×1的卷积层,一个归一化层和一个ReLU函数,将七个不同粒度的2048×1×1特征向量降维到256×1×1。
4)构建源域分类模块,由于源域的行人ID可用,源域分类模块可以在相同分布的测试集上产生高精度的判别知识向目标域传递。为使模型学习到源域行人图像的判别信息,源数据集的行人特征被送入源域分类模块进行分类学习,计算具有行人标签的源域分类损失,使模型获得源域行人的一般判别信息。具体为:
4.1)首先将从多粒度特征提取模块得到的P2_g,P2_0,P2_1,P3_g,P3_0,P3_1和P3_2等七个大小为2048×1×1的特征向量分别压缩为2048维向量;然后,经过全连接层FCnum_class,最终获得七个751维的特征向量P2_g_fc、P2_0_fc、P2_1_fc、P3_g_fc、P3_0_fc、P3_1_fc和P3_2_fc。具体表达式为:
y=fcnum_class(squeeze(x))
其中,x是来自多粒度特征提取模块的特征向量,维数为2048×1×1;squeeze(·)表示通道缩减操作,去除维数为1的通道;fcnum_class(·)为全连接层,进一步将特征向量维数降为训练数据集中的类别数751。x依次为P2_g、P2_0、P2_1、P3_g、P3_0、P3_1和P3_2,y对应为P2_g_fc、P2_0_fc、P2_1_fc、P3_g_fc、P3_0_fc、P3_1_fc和P3_2_fc。
4.2)然后,将全局特征P2_g_fc,P3_g_fc,和局部特征P2_0_fc,P2_1_fc,P3_0_fc,P3_1_fc,P3_2_fc,分别计算Softmax分类损失,进行有标签的判别学习。最后,将所有特征的Softmax损失求平均作为源域分类模块的损失。损失函数具体形式如下:
其中,fs,l是多粒度特征提取模块输出的第l个特征向量,l=1,…,ng,Cs为源域训练数据集的类别数,yk表示第l个特征向量对应的源域训练集类别,Vj是类别j的权重向量。
5)构建域自适应模块,首先计算目标域行人图像多粒度特征之间的余弦相似度,经过多次迭代使其稳定在高维特征空间中,并且彼此保持一定的距离。这时离特征ft,i最近的k个特征与其相似度最大,通过Softmax损失让其相互靠近达到聚类的目的。此外,使用生成对抗网络StarGAN进行图像增强操作,提高模型对不同摄像头的泛化能力。具体为:
5.1)为了得到多粒度特征MGF,需要对多粒度特征提取模块输出的目标域行人特征进行压缩和连接。压缩操作的公式如下:
y=squeeze(x)
其中,x是来自多粒度特征提取模块的维数为256×1×1的特征向量,squeeze(·)表示通道压缩操作,将第二和第三通道压缩;x依次为P2_g_256、P2_0_256、P2_1_256、P3_g_256、P3_0_256、P3_1_256和P3_2_256。
5.2)然后,连接以上7个256维特征,得到1792维多粒度特征MGF;
5.3)MGF通过一个全连接层FC_4096,得到具有更丰富判别信息的4096维特征MGF_ex。
5.4)在域自适应学习中,主要有以下内容:
5.4.1)由于目标域缺少行人图像的标签,域自适应模块直接将目标数据集中图像的索引index作为图像的伪标签;
5.4.2)其次,考虑到不同摄像头的视角问题,利用摄像头的风格转换对目标数据集进行数据增强,以提高行人重识别模型对不同摄像头的泛化能力。首先获得目标域的摄像头编号(1,2,3…nc),视每一个摄像头为一种风格,分别对每个摄像头采集到的行人图像基于StarGAN生成其余nc-1个摄像头风格的对应行人图像,并为其分配与原始行人图像相同的伪标签index。
5.4.3)将目标域带有伪标签index的多粒度特征向量MGF_ex进行损失计算。域自适应模块的损失函数设计如下:
其中,Ft,i表示行人图像xt,i的多粒度特征,F’t,a是行人图像xt,a经过网络上一次迭代后更新的特征表示,xt,i是目标域行人图像,xt,*i表示xt,i对应生成的摄像头风格转换图像,M(xt,i,k)表示xt,i及其特征空间中k幅最邻近行人图像的集合,wa是权重系数,Ct是目标数据集的类别数量,ε是平衡因子。
由于距离图像xt,i或xt,*i最近的k幅行人图像不一定是同一人,将不同的人靠得太近会干扰模型的域自适应学习,因此,在域自适应模块的损失函数中加入权重系数wa进行制约。
6)对整个无监督行人重识别模型进行训练,假设以Market-1501作为源数据集,DukeMTMC-reID作为目标数据集,训练的具体方式如下:
6.1)首先进行数据预处理。在ImageNet上预训练ResNet50以初始化模型参数,然后,对Market-1501和DukeMTMC-reID中的行人图像进行预处理,将输入图像的尺寸调整为384×128,并使用随机擦除、随机翻转和随机裁剪的方式进行数据增强。
6.2)读取DukeMTMC-reID的摄像头数量为8个,对于bounding_box_train中的每一幅图像,使用StarGAN生成其余7个摄像头风格的图像,共获得115654张生成图片,并为每一幅生成的图像分配与原始图像相同的索引号。
6.3)将有标签的Market-1501、无标签的DukeMTMC-reID和StarGAN生成的图像一起送入模型进行训练。
6.4)设置训练参数,每批次训练样本数batch-size设置为32,采用一阶动量动力β1=0.9和二阶动量动力β2=0.999的自适应矩估计作为训练优化器。学习率设为lr=1e-4,L2正则化的权重衰减因子为5e-4,共训练160个epoch,经过120个epoch后,学习率降为原来的一半。
6.5)将有标签的Market-1501中的图像送入源于分类模块使用4.2)的损失函数Lsrc进行计算,设置特征向量个数ng=7;将无标签的DukeMTMC-reID和StarGAN生成的图像送入域自适应模块,根据5.4.3)中的损失函数Ladpt进行域自适应学习,设置k=6,平衡因子ε=0.05,dropout的概率设为0.5。最后,将源域分类损失Lsrc与域自适应损失Ladpt的加权和作为模型的总损失:
Ltotal=βLsrc+(1-β)Ladpt
其中,β为权重系数,在具体实施中设为0.7。
7)在测试阶段阶段,将DukeMTMC-reID的测试集bounding_box_test送入模型进行测试。行人图像经过多粒度特征提取模块,得到不同粒度的行人特征后,将其首尾连接作为最终的多粒度行人特征表示,通过计算查询图像与图像库中图像的余弦相似度,得到行人重识别结果。
本发明在GTX 1080Ti GPU和Windows10.0.18363.125664位操作系统下,采用PyTorch开源框架和Python语言实现该方法。
本发明提供了一种基于多粒度特征表示和域自适应学习的无监督行人重识别方法,适用于目标域无标签的行人重识别。根据实验结果表明,本发明鲁棒性好,跨域识别效果稳定,识别精度较高。
Claims (5)
1.一种基于多粒度特征提取和域自适应学习的无监督行人重识别方法,融合不同粒度特征表示,深入挖掘目标域潜在判别信息,包括以下步骤:
步骤1)将行人图像输入多粒度特征提取模块,该模块把池化后的行人特征划分为不同粒度大小,不同粒度的特征首尾相连得到具有更丰富判别信息的多粒度特征表示;
步骤2)将源域的行人图像经过多粒度特征提取模块得到的多粒度特征输入源域分类模块进行分类学习,计算具有行人标签的源域分类损失,使模型获得源域行人的判别信息并为域自适应学习模块提供源域的行人判别知识;
步骤3)将目标域无标签的行人图像经过多粒度特征提取模块得到的多粒度特征输入域自适应模块,基于从源域中获得的判别知识,考虑目标域与源域之间的差异对模型进行适应性学习,充分挖掘目标数据集中潜在的判别信息;
步骤4)将源域分类损失与域自适应损失的加权和作为总损失训练整个模型;
步骤5)测试阶段,目标域的行人图像经过多粒度特征提取模块,得到不同粒度的行人特征后,将其首尾连接作为最终的多粒度行人特征表示,通过计算查询图像与图像库中图像的相似度,返回重识别结果。
2.根据权利要求1所述的一种基于多粒度特征提取和域自适应的无监督行人重识别方法,其特征在于所述步骤1)的多粒度特征提取模块,获得具有丰富外观信息的特征表示,具体为:
1.1)首先将源域与目标域的行人图像分别输入backbone得到初始行人特征图,然后将输出的特征图分别在水平方向上划分为两个和三个大小相等的局部区域,作为粒度为2和3的局部特征图,并保留两个初始特征图作为不同粒度的全局特征图;经过全局和局部的最大池化操作,得到四个不同大小的特征向量P2_g,P2,P3和P3_g,最后,将P2,P3分别从水平方向上均等划分为局部特征:P2_0,P2_1和P3_0,P3_1,P3_2;P2_g和P3_g表示行人图像的全局特征,以弥补局部特征所缺失的全局判别信息;
1.2)经过对特征图进行不同粒度的划分,共得到P2_g,P2_0,P2_1,P3_g,P3_0,P3_1和P3_2等七个大小为2048×1×1的特征向量;在训练阶段,将对应源数据集行人图像的特征向量输入源域分类模块进行有标签的分类学习;对应目标数据集行人图像的特征向量则进一步经过Reduction操作,将其维度降为:256×1×1,并输入域自适应模块进行目标域的自适应学习。
3.根据权利要求1所述的一种基于多粒度特征提取和域自适应的无监督行人重识别方法,其特征在于所述步骤2)的源域分类模块,学习源域的判别知识,具体为:
2.1)首先将输入的七个2048×1×1特征向量分别压缩为:2048维向量,然后,经过全连接层FCnum_class,最终获得七个751维的特征向量:P2_g_fc,P2_0_fc,P2_1_fc,P3_g_fc,P3_0_fc,P3_1_fc和P3_2_fc;
2.2)对于全局特征P2_g_fc,P3_g_fc,和局部特征P2_0_fc,P2_1_fc,P3_0_fc,P3_1_fc,P3_2_fc,分别计算Softmax分类损失,进行有标签的判别学习;通过对局部信息进行分类,给每个部分较强的ID约束,保证每个区域提取的特征具备足够多的信息满足分类的要求,模型可以从源域学习到很好的判别力表示;
2.3)最后,将所有特征的Softmax损失求平均作为源域分类模块的损失Lsrc:
其中,fs,l是多粒度特征提取模块输出的第l个特征向量,l=1,…,ng,Cs为源域训练数据集的类别数,yk表示第l个特征向量对应的源域训练集类别,Vj是类别j的权重向量。
4.根据权利要求1所述的一种基于多粒度特征提取和域自适应的无监督行人重识别方法,其特征在于所述步骤3)的域自适应模块,对目标域中光照、摄像头视角等可能与源域存在较大差异的因素进行适应性学习,具体为:
3.1)首先将输入的七个256×1×1特征向量分别压缩为:256维向量,然后,将这七个256维向量进行首尾连接得到一个1792维特征向量MGF,再将MGF经过全连接层FC_4096,升维为4096维的特征向量MGF_ex,以提取更加细节的判别信息;
3.2)然后基于域自适应学习,计算损失Ladpt,具体为;
3.2.1)由于目标域缺失行人图像的标签,域自适应模块直接将目标数据集中图像的索引index作为图像伪标签;
3.2.2)考虑到不同摄像头的视角问题,利用摄像头的风格转换对目标数据集进行数据增强,以提高行人重识别模型对不同摄像头的泛化能力;由于摄像头的序号易于获取,假设目标域的摄像头序号已知,视每一个摄像头为一种风格;若目标数据集具有nc个摄像头,则分别对每个摄像头采集到的行人图像基于StarGAN生成其余nc-1个摄像头风格的对应行人图像,并为其分配与原始行人图像相同的伪标签index;
3.2.3)将目标域带有伪标签index的多粒度特征向量MGF_ex进行损失计算;域自适应模块的损失函数设计如下:
其中,Ft,i表示行人图像xt,i的多粒度特征,F’t,a是行人图像xt,a经过网络上一次迭代后更新的特征表示,xt,i是目标域行人图像,xt,*i表示xt,i对应生成的摄像头风格转换图像,M(xt,i,k)表示xt,i及其特征空间中k幅最邻近行人图像的集合,wa是权重系数,Ct是目标数据集的类别数量,ε是平衡因子。
5.根据权利要求1所述的一种基于多粒度特征提取和域自适应的无监督行人重识别方法,其特征在于所述步骤4)将源域分类损失Lsrc与域自适应损失Ladpt的加权和作为模型的总损失训练整个模型,具体为:
Ltotal=βLsrc+(1-β)Ladpt
其中,β为权重系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110258611.6A CN113052017A (zh) | 2021-03-09 | 2021-03-09 | 一种基于多粒度特征表示和域自适应学习的无监督行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110258611.6A CN113052017A (zh) | 2021-03-09 | 2021-03-09 | 一种基于多粒度特征表示和域自适应学习的无监督行人重识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113052017A true CN113052017A (zh) | 2021-06-29 |
Family
ID=76511186
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110258611.6A Pending CN113052017A (zh) | 2021-03-09 | 2021-03-09 | 一种基于多粒度特征表示和域自适应学习的无监督行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113052017A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113657167A (zh) * | 2021-07-19 | 2021-11-16 | 浙江大华技术股份有限公司 | 图像重识别方法、设备、电子装置和存储介质 |
CN113887580A (zh) * | 2021-09-15 | 2022-01-04 | 天津大学 | 一种考虑多粒度类相关性的对比式开放集识别方法及装置 |
CN114387623A (zh) * | 2022-01-18 | 2022-04-22 | 北京工业大学 | 一种基于多粒度块特征的无监督行人重识别方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180114334A1 (en) * | 2016-10-24 | 2018-04-26 | International Business Machines Corporation | Edge-based adaptive machine learning for object recognition |
CN111666851A (zh) * | 2020-05-28 | 2020-09-15 | 大连理工大学 | 一种基于多粒度标签的交叉域自适应行人重识别方法 |
CN111881714A (zh) * | 2020-05-22 | 2020-11-03 | 北京交通大学 | 一种无监督跨域行人再识别方法 |
CN111967294A (zh) * | 2020-06-23 | 2020-11-20 | 南昌大学 | 一种无监督域自适应的行人重识别方法 |
CN112069920A (zh) * | 2020-08-18 | 2020-12-11 | 武汉大学 | 基于属性特征驱动聚类的跨域行人重识别方法 |
CN112131996A (zh) * | 2020-09-17 | 2020-12-25 | 东南大学 | 基于通道分离卷积的路侧图像多尺度行人快速检测方法 |
-
2021
- 2021-03-09 CN CN202110258611.6A patent/CN113052017A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180114334A1 (en) * | 2016-10-24 | 2018-04-26 | International Business Machines Corporation | Edge-based adaptive machine learning for object recognition |
CN111881714A (zh) * | 2020-05-22 | 2020-11-03 | 北京交通大学 | 一种无监督跨域行人再识别方法 |
CN111666851A (zh) * | 2020-05-28 | 2020-09-15 | 大连理工大学 | 一种基于多粒度标签的交叉域自适应行人重识别方法 |
CN111967294A (zh) * | 2020-06-23 | 2020-11-20 | 南昌大学 | 一种无监督域自适应的行人重识别方法 |
CN112069920A (zh) * | 2020-08-18 | 2020-12-11 | 武汉大学 | 基于属性特征驱动聚类的跨域行人重识别方法 |
CN112131996A (zh) * | 2020-09-17 | 2020-12-25 | 东南大学 | 基于通道分离卷积的路侧图像多尺度行人快速检测方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113657167A (zh) * | 2021-07-19 | 2021-11-16 | 浙江大华技术股份有限公司 | 图像重识别方法、设备、电子装置和存储介质 |
CN113887580A (zh) * | 2021-09-15 | 2022-01-04 | 天津大学 | 一种考虑多粒度类相关性的对比式开放集识别方法及装置 |
CN113887580B (zh) * | 2021-09-15 | 2023-01-24 | 天津大学 | 一种考虑多粒度类相关性的对比式开放集图像识别方法及装置 |
CN114387623A (zh) * | 2022-01-18 | 2022-04-22 | 北京工业大学 | 一种基于多粒度块特征的无监督行人重识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109949317B (zh) | 基于逐步对抗学习的半监督图像实例分割方法 | |
CN109961051B (zh) | 一种基于聚类和分块特征提取的行人重识别方法 | |
Niu et al. | Context aware topic model for scene recognition | |
CN109063565B (zh) | 一种低分辨率人脸识别方法及装置 | |
CN110909820B (zh) | 基于自监督学习的图像分类方法及系统 | |
CN113408492B (zh) | 一种基于全局-局部特征动态对齐的行人重识别方法 | |
CN112307995B (zh) | 一种基于特征解耦学习的半监督行人重识别方法 | |
CN113052017A (zh) | 一种基于多粒度特征表示和域自适应学习的无监督行人重识别方法 | |
CN113139591B (zh) | 一种基于增强多模态对齐的广义零样本图像分类方法 | |
Tarawneh et al. | Invoice classification using deep features and machine learning techniques | |
CN105528575B (zh) | 基于上下文推理的天空检测方法 | |
CN114092964A (zh) | 基于注意力引导和多尺度标签生成的跨域行人重识别方法 | |
CN108427740B (zh) | 一种基于深度度量学习的图像情感分类与检索算法 | |
Yee et al. | DeepScene: Scene classification via convolutional neural network with spatial pyramid pooling | |
CN110728694B (zh) | 一种基于持续学习的长时视觉目标跟踪方法 | |
Min et al. | Single-sample face recognition based on feature expansion | |
CN113688894A (zh) | 一种融合多粒度特征的细粒度图像分类方法 | |
CN104268507A (zh) | 一种基于rgb-d图像的手语字母识别方法 | |
Shuai et al. | Scene parsing with integration of parametric and non-parametric models | |
CN112183464A (zh) | 基于深度神经网络和图卷积网络的视频行人识别方法 | |
CN111860823A (zh) | 神经网络训练、图像处理方法及装置、设备及存储介质 | |
CN110659663A (zh) | 一种无监督的双向重建领域自适应方法 | |
Gupta et al. | Single attribute and multi attribute facial gender and age estimation | |
CN114022726A (zh) | 一种基于胶囊网络的人员车辆监控方法及系统 | |
Xu et al. | Graphical modeling for multi-source domain adaptation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |