CN114155554A - 一种基于Transformer的相机域适应行人重识别方法 - Google Patents
一种基于Transformer的相机域适应行人重识别方法 Download PDFInfo
- Publication number
- CN114155554A CN114155554A CN202111463655.9A CN202111463655A CN114155554A CN 114155554 A CN114155554 A CN 114155554A CN 202111463655 A CN202111463655 A CN 202111463655A CN 114155554 A CN114155554 A CN 114155554A
- Authority
- CN
- China
- Prior art keywords
- image
- camera
- pedestrian
- encoder
- generator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 239000013598 vector Substances 0.000 claims abstract description 50
- 230000003044 adaptive effect Effects 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 6
- 230000006978 adaptation Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Traffic Control Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于Transformer的相机域适应行人重识别方法,包括:用交叉补丁编码器将输入图像编码为向量序列;将向量序列输入到Transformer编码器中学习图像特征,利用图像特征构造身份信息损失来优化网络;把交叉补丁编码器和Transformer编码器共同视为一个特征生成器,将生成器生成的特征输入到鉴别器中判断相机类别,在此基础上构造相机分类损失和相机域适应损失来分别优化鉴别器和生成器;用生成器提取行人图像的特征向量,计算待查询图像的特征向量与每张图像的特征向量之间的欧式距离,按照距离由小到大进行排序,选择排序最靠前的图像的行人身份作为识别结果。本发明方法准确率高,可以有效解决行人重识别任务中多相机采集图像所带来的图像风格差异问题。
Description
技术领域
本发明属于计算机视觉和图像检索领域,具体涉及一种基于Transformer的相机域适应行人重识别方法。
背景技术
行人重识别是从大范围图像集中检索特定行人的技术。该技术在智能视频监控、智能安防等领域有着重要的现实意义。近年来,行人重识别技术得到了快速的发展,但是图像在多个相机之间不受控制的外观变化使得行人重识别仍然是一个具有挑战的任务。在实际的重识别场景中,使用不同的相机拍摄到的图像往往会存在光照、背景和分辨率上的差异,这些差异会对重识别的性能产生不良影响。目前,已经有相当数量的生成模型试图处理相机风格的差异,这些方法对相机风格差异的适应主要体现在数据增强上。生成不同相机风格图像的过程相对繁复,而且数据增强过程相对独立于特征表示学习,所以数据增强过程可能会引入不必要的误差。因此,本发明设计了一种对抗损失来从度量学习的角度解决相机风格差异的问题。
近年来,已经有研究表明卷积神经网络保留细粒度信息和学习长距离依赖关系的能力并不理想,但是绝大多数重识别方法仍然选择用深度卷积神经网络来提取图像特征。最近,Transformer作为一种完全不依赖卷积操作的网络结构,在计算机视觉领域越来越受欢迎,所以探索一种基于Transformer结构的行人重识别方法是很有意义的。
发明内容
针对上述问题,本发明从度量学习的角度设计了一种基于Transformer的对抗学习框架来解决行人图像在多相机间的差异问题,从而有效提高了行人重识别的准确率。
为达到上述目的,本发明的技术方案如下:
一种基于Transformer的相机域适应行人重识别方法,包括以下步骤:
(1)将输入行人图像分解为固定分辨率的图像补丁,图像补丁和与之对应的交叉图像块被交叉补丁编码器编码得到向量序列;
(2)将向量序列输入到Transformer编码器中学习图像的特征向量,利用学习到的图像特征构造身份分类损失和三元组损失来优化交叉补丁编码器和Transformer编码器;
(3)把交叉补丁编码器和Transformer编码器共同视为一个特征生成器,将生成器生成的图像特征输入到鉴别器中判断此特征的相机类别,在此基础上构造相机分类损失和相机域适应损失来分别交替优化鉴别器和生成器;
(4)用训练完成的生成器提取行人图像的特征向量,计算待查询图像的特征向量与每张图像的特征向量之间的欧式距离,按照距离由小到大进行排序,选择排序最靠前的图像的行人身份作为识别结果。
本发明提出的框架由一个交叉补丁编码器、一个Transformer编码器和一个鉴别器组成。交叉补丁编码器将输入的行人图像编码为向量序列,Transformer编码器从向量序列中学习特征表示,鉴别器被用来判断特征所属的相机类别。在训练过程中,交叉补丁编码器和Transformer编码器被串联在一起作为一个特征生成器G,特征生成器和鉴别器交替更新直到模型收敛。
其中m表示余量,G(·)表示Transformer编码器输出的图像特征,d代表两个特征间的距离,xp,xn分别是参照样本xi的正样本和负样本。
其中,qi表示行人图像xi的正确相机类别,p(qi|xi)表示行人图像xi属于相机类别qi的概率,G(xi)代表生成器提取的图像特征,D(G(xi))[j]表示鉴别器输出的关于相机类别j的预测得分,K表示总的相机类别个数。用于优化生成器的相机域适应损失函数为:
其中,p(g|xi)表示行人图像xi属于相机类别g的概率,δ(·)表示狄拉克δ函数。在生成器和鉴别器的训练过程中,固定其中一方的参数,更新另一方的参数,交替迭代,直到模型收敛。具体训练过程可表示为:
本发明的有益效果如下:
(1)本发明把Transformer作为主干网络来提取行人图像的有效特征,整个主干网络没有用到池化和卷积操作,使得本发明的方法克服了基于卷积神经网络方法的局限性。
(2)本发明设计了一种新型的交叉补丁编码器,这种编码器以较低的计算代价从行人图像中获取了更加有效的向量序列。
(3)本发明的方法不依赖任何数据增强的技术,可以直接从原始数据集中学习对相机风格变化具有鲁棒性的行人特征。
附图说明
图1为本发明一种基于Transformer的相机域适应行人重识别方法的流程示意图;
图2为交叉补丁编码器的结构示意图;
图3为本发明一种基于Transformer的相机域适应行人重识别系统的框架示意图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,需要指出的是,下述具体实施例仅用于说明本发明而不用于限制本发明的范围。
如图1所示,本发明的一种基于Transformer的相机域适应行人重识别方法,包括以下步骤:
步骤1:用交叉补丁编码器将输入图像编码为向量序列;
本发明中的交叉补丁编码器的结构如图2所示。
给定一个训练数据集其中,N1表示数据集中行人图像的总数,yi和qi分别表示行人图像xi的身份标签和相机种类标签。首先,所有行人图像被调整成H×W的固定尺寸,然后行人图像被分为N2个不重叠的尺寸为I×I的图像补丁其中,表示第i个行人图像的第j块补丁,这些图像补丁被映射成M维的向量公式如下:
其中表示尺寸为I×W的水平图像块,表示尺寸为H×I的垂直图像块,表示水平向量,表示垂直向量,Fh和Fv分别代表应用在水平图像块和垂直图像块的深度可分离卷积。最后交叉补丁编码器输出的向量还加入了位置向量pi,用公式表示为:
本实施例中输入图像的固定尺寸为256×128,图像补丁的尺寸为16×16,M设置为768。
步骤2:将向量序列输入到Transformer编码器中学习图像的特征向量,利用学习到的图像特征构造身份分类损失和三元组损失来优化交叉补丁编码器和Transformer编码器;
如图3所示,在向量序列输入到Transformer编码器之前,一个可训练的分类向量被附加在向量序列上,因此Transformer编码器处理输入的(N2+1)个向量。Transformer编码器的结构使得信息在向量间相互传播,最终只有与分类向量相对应的图像特征被用来构造构造身份分类损失和三元组损失。其中,用于优化交叉补丁编码器和Transformer编码器的身份信息损失函数为:
其中m表示余量,G(·)表示Transformer编码器输出的图像特征,d代表两个特征间的距离,xp,xn分别表示参照样本xi在一批次训练样本中的正样本和负样本。
本实施例选择ViT-Base作为Transformer编码器来提取行人特征向量,在开始训练之前,ViT-Base在ImageNet-21K和ImageNet-1K两个数据集上进行预训练。
步骤3:把交叉补丁编码器和Transformer编码器共同视为一个特征生成器,将生成器生成的图像特征输入到鉴别器中判断此特征的相机类别,在此基础上构造相机分类损失和相机域适应损失来分别交替优化鉴别器和生成器;
其中,qi表示行人图像xi的正确相机类别,p(qi|xi)表示行人图像xi属于相机类别qi的概率,G(xi)代表生成器提取的图像特征,D(G(xi))[j]表示鉴别器输出的关于相机类别j的预测得分,K表示总的相机类别个数。用于优化生成器的相机域适应损失函数可表示为:
其中,p(g|xi)表示行人图像xi属于相机类别g的概率,δ(·)表示狄拉克δ函数。在生成器和鉴别器的训练过程中,固定其中一方的参数,更新另一方的参数,交替迭代,直到模型收敛。具体训练过程可表示为:
在本实施例中,鉴别器是一个浅层全连接网络,相机类别个数K为15,学习率为0.008、动量系数为0.9、权值衰减为0.0001的SGD优化器被应用于生成器,学习率为0.0003的Adam优化器被应用于鉴别器。
步骤4:用训练完成的生成器提取行人图像的特征向量,计算待查询图像的特征向量与每张图像的特征向量之间的欧式距离,按照距离由小到大进行排序,选择排序最靠前的图像的行人身份作为识别结果。
为了验证本发明的有效性,本发明在MSMT17数据集上进行实验。MSMT17数据集由15台像机拍摄的4101个行人的126441张图像组成,其中32621张行人图像用于训练,另外93820张行人图像用于测试。
测试阶段,累计匹配特性指标(CMC)和平均准确率(mAP)被用于定量评估模型的性能。最终本发明的方法在MSMT17数据集上取得了62.9%的Rank-1准确率和83.4%的平均准确率。
需要说明的是,以上内容仅仅说明了本发明的技术思想,不能以此限定本发明的保护范围,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰均落入本发明权利要求书的保护范围之内。
Claims (4)
1.一种基于Transformer的相机域适应行人重识别方法,其特征在于,包括以下步骤:
(1)将输入行人图像分解为固定分辨率的图像补丁,图像补丁和与之对应的交叉图像块被交叉补丁编码器编码得到向量序列;
(2)将向量序列输入到Transformer编码器中学习图像的特征向量,利用学习到的图像特征构造身份分类损失和三元组损失来优化交叉补丁编码器和Transformer编码器;
(3)把补丁编码器和Transformer编码器共同视为一个特征生成器,将生成器生成的图像特征输入到鉴别器中判断此特征的相机类别,在此基础上构造相机分类损失和相机域适应损失来分别交替优化鉴别器和生成器;
(4)用训练完成的生成器提取行人图像的特征向量,计算待查询图像的特征向量与每张图像的特征向量之间的欧式距离,按照距离由小到大进行排序,选择排序最靠前的图像的行人身份作为识别结果。
其中,qi表示行人图像xi的正确相机类别,p(qi|xi)表示行人图像xi属于相机类别qi的概率,G(xi)代表生成器提取的图像特征,D(G(xi))[j]表示鉴别器输出的关于相机类别j的预测得分,K表示总的相机类别个数;用于优化生成器的相机域适应损失函数为:
其中,p(g|xi)表示行人图像xi属于相机类别g的概率,δ(·)表示狄拉克δ函数;在生成器和鉴别器的训练过程中,固定其中一方的参数,更新另一方的参数,交替迭代,直到模型收敛;具体训练过程为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111463655.9A CN114155554A (zh) | 2021-12-02 | 2021-12-02 | 一种基于Transformer的相机域适应行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111463655.9A CN114155554A (zh) | 2021-12-02 | 2021-12-02 | 一种基于Transformer的相机域适应行人重识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114155554A true CN114155554A (zh) | 2022-03-08 |
Family
ID=80456053
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111463655.9A Pending CN114155554A (zh) | 2021-12-02 | 2021-12-02 | 一种基于Transformer的相机域适应行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114155554A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114842512A (zh) * | 2022-07-01 | 2022-08-02 | 山东省人工智能研究院 | 基于多特征协同和语义感知的遮挡行人重识别和检索方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200285896A1 (en) * | 2019-03-09 | 2020-09-10 | Tongji University | Method for person re-identification based on deep model with multi-loss fusion training strategy |
CN112149538A (zh) * | 2020-09-14 | 2020-12-29 | 南京邮电大学 | 一种基于多任务学习的行人重识别方法 |
CN113627266A (zh) * | 2021-07-15 | 2021-11-09 | 武汉大学 | 基于Transformer时空建模的视频行人重识别方法 |
-
2021
- 2021-12-02 CN CN202111463655.9A patent/CN114155554A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200285896A1 (en) * | 2019-03-09 | 2020-09-10 | Tongji University | Method for person re-identification based on deep model with multi-loss fusion training strategy |
CN112149538A (zh) * | 2020-09-14 | 2020-12-29 | 南京邮电大学 | 一种基于多任务学习的行人重识别方法 |
CN113627266A (zh) * | 2021-07-15 | 2021-11-09 | 武汉大学 | 基于Transformer时空建模的视频行人重识别方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114842512A (zh) * | 2022-07-01 | 2022-08-02 | 山东省人工智能研究院 | 基于多特征协同和语义感知的遮挡行人重识别和检索方法 |
CN114842512B (zh) * | 2022-07-01 | 2022-10-14 | 山东省人工智能研究院 | 基于多特征协同和语义感知的遮挡行人重识别和检索方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bojanowski et al. | Unsupervised learning by predicting noise | |
CN108960140B (zh) | 基于多区域特征提取和融合的行人再识别方法 | |
CN109241317B (zh) | 基于深度学习网络中度量损失的行人哈希检索方法 | |
CN109359541A (zh) | 一种基于深度迁移学习的素描人脸识别方法 | |
CN109063649B (zh) | 基于孪生行人对齐残差网络的行人重识别方法 | |
CN107194418B (zh) | 一种基于对抗特征学习的水稻蚜虫检测方法 | |
CN114492574A (zh) | 基于高斯均匀混合模型的伪标签损失无监督对抗域适应图片分类方法 | |
CN115496928B (zh) | 基于多重特征匹配的多模态图像特征匹配方法 | |
CN110390308B (zh) | 一种基于时空对抗生成网络的视频行为识别方法 | |
CN110175248B (zh) | 一种基于深度学习和哈希编码的人脸图像检索方法和装置 | |
CN114782977B (zh) | 一种基于拓扑信息和亲和度信息引导行人重识别方法 | |
CN110942091A (zh) | 寻找可靠的异常数据中心的半监督少样本图像分类方法 | |
CN108345866B (zh) | 一种基于深度特征学习的行人再识别方法 | |
CN112084895B (zh) | 一种基于深度学习的行人重识别方法 | |
CN115393396B (zh) | 一种基于掩码预训练的无人机目标跟踪方法 | |
CN116543269B (zh) | 基于自监督的跨域小样本细粒度图像识别方法及其模型 | |
CN111274958A (zh) | 一种网络参数自纠正的行人重识别方法及系统 | |
CN110880010A (zh) | 基于卷积神经网络的视觉slam闭环检测算法 | |
CN111694977A (zh) | 一种基于数据增强的车辆图像检索方法 | |
CN116486172A (zh) | 基于语义表征的无监督域适应图像分类方法 | |
CN114155554A (zh) | 一种基于Transformer的相机域适应行人重识别方法 | |
Hu et al. | Towards facial de-expression and expression recognition in the wild | |
CN116935438A (zh) | 一种基于模型结构自主进化的行人图像重识别方法 | |
CN116863223A (zh) | 语义注意力特征嵌入Swin Transformer网络的遥感图像场景分类的方法 | |
CN109697257A (zh) | 一种基于预分类和特征学习抗噪的网络信息检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |