CN114155554A - 一种基于Transformer的相机域适应行人重识别方法 - Google Patents

一种基于Transformer的相机域适应行人重识别方法 Download PDF

Info

Publication number
CN114155554A
CN114155554A CN202111463655.9A CN202111463655A CN114155554A CN 114155554 A CN114155554 A CN 114155554A CN 202111463655 A CN202111463655 A CN 202111463655A CN 114155554 A CN114155554 A CN 114155554A
Authority
CN
China
Prior art keywords
image
camera
pedestrian
encoder
generator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111463655.9A
Other languages
English (en)
Inventor
路小波
冉智丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202111463655.9A priority Critical patent/CN114155554A/zh
Publication of CN114155554A publication Critical patent/CN114155554A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Traffic Control Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于Transformer的相机域适应行人重识别方法,包括:用交叉补丁编码器将输入图像编码为向量序列;将向量序列输入到Transformer编码器中学习图像特征,利用图像特征构造身份信息损失来优化网络;把交叉补丁编码器和Transformer编码器共同视为一个特征生成器,将生成器生成的特征输入到鉴别器中判断相机类别,在此基础上构造相机分类损失和相机域适应损失来分别优化鉴别器和生成器;用生成器提取行人图像的特征向量,计算待查询图像的特征向量与每张图像的特征向量之间的欧式距离,按照距离由小到大进行排序,选择排序最靠前的图像的行人身份作为识别结果。本发明方法准确率高,可以有效解决行人重识别任务中多相机采集图像所带来的图像风格差异问题。

Description

一种基于Transformer的相机域适应行人重识别方法
技术领域
本发明属于计算机视觉和图像检索领域,具体涉及一种基于Transformer的相机域适应行人重识别方法。
背景技术
行人重识别是从大范围图像集中检索特定行人的技术。该技术在智能视频监控、智能安防等领域有着重要的现实意义。近年来,行人重识别技术得到了快速的发展,但是图像在多个相机之间不受控制的外观变化使得行人重识别仍然是一个具有挑战的任务。在实际的重识别场景中,使用不同的相机拍摄到的图像往往会存在光照、背景和分辨率上的差异,这些差异会对重识别的性能产生不良影响。目前,已经有相当数量的生成模型试图处理相机风格的差异,这些方法对相机风格差异的适应主要体现在数据增强上。生成不同相机风格图像的过程相对繁复,而且数据增强过程相对独立于特征表示学习,所以数据增强过程可能会引入不必要的误差。因此,本发明设计了一种对抗损失来从度量学习的角度解决相机风格差异的问题。
近年来,已经有研究表明卷积神经网络保留细粒度信息和学习长距离依赖关系的能力并不理想,但是绝大多数重识别方法仍然选择用深度卷积神经网络来提取图像特征。最近,Transformer作为一种完全不依赖卷积操作的网络结构,在计算机视觉领域越来越受欢迎,所以探索一种基于Transformer结构的行人重识别方法是很有意义的。
发明内容
针对上述问题,本发明从度量学习的角度设计了一种基于Transformer的对抗学习框架来解决行人图像在多相机间的差异问题,从而有效提高了行人重识别的准确率。
为达到上述目的,本发明的技术方案如下:
一种基于Transformer的相机域适应行人重识别方法,包括以下步骤:
(1)将输入行人图像分解为固定分辨率的图像补丁,图像补丁和与之对应的交叉图像块被交叉补丁编码器编码得到向量序列;
(2)将向量序列输入到Transformer编码器中学习图像的特征向量,利用学习到的图像特征构造身份分类损失和三元组损失来优化交叉补丁编码器和Transformer编码器;
(3)把交叉补丁编码器和Transformer编码器共同视为一个特征生成器,将生成器生成的图像特征输入到鉴别器中判断此特征的相机类别,在此基础上构造相机分类损失和相机域适应损失来分别交替优化鉴别器和生成器;
(4)用训练完成的生成器提取行人图像的特征向量,计算待查询图像的特征向量与每张图像的特征向量之间的欧式距离,按照距离由小到大进行排序,选择排序最靠前的图像的行人身份作为识别结果。
本发明提出的框架由一个交叉补丁编码器、一个Transformer编码器和一个鉴别器组成。交叉补丁编码器将输入的行人图像编码为向量序列,Transformer编码器从向量序列中学习特征表示,鉴别器被用来判断特征所属的相机类别。在训练过程中,交叉补丁编码器和Transformer编码器被串联在一起作为一个特征生成器G,特征生成器和鉴别器交替更新直到模型收敛。
步骤(1)中,用线性变换将固定分辨率的图像补丁
Figure BDA0003389538000000027
映射成固定维度的向量
Figure BDA0003389538000000028
同时用深度可分离卷积将与图像补丁相对应的交叉图像块映射成与
Figure BDA0003389538000000029
相同维度的向量,最后编码器产生的向量ei为:
Figure BDA0003389538000000021
其中,i表示行人图像的序号,j表示图像补丁的序号,
Figure BDA00033895380000000210
Figure BDA00033895380000000211
分别表示横向和纵向图像块映射的向量,pi是含有位置信息的位置向量。
步骤(2)中,用于优化交叉补丁编码器和Transformer编码器的身份信息损失函数
Figure BDA00033895380000000212
为:
Figure BDA0003389538000000022
Figure BDA00033895380000000213
表示身份分类损失函数,公式如下:
Figure BDA0003389538000000023
其中p(yi|xi)表示输入图像xi属于身份类yi的预测概率。同时,为了加强类内聚合和类间分离,在训练过程中引入了三元组损失函数
Figure BDA00033895380000000214
公式如下:
Figure BDA0003389538000000024
其中m表示余量,G(·)表示Transformer编码器输出的图像特征,d代表两个特征间的距离,xp,xn分别是参照样本xi的正样本和负样本。
步骤(3)中,鉴别器被用来鉴别行人特征的相机类别,而生成器尽可能地生成难以被鉴别器鉴别的行人特征。用于优化鉴别器的相机分类损失函数
Figure BDA00033895380000000215
为:
Figure BDA0003389538000000025
Figure BDA0003389538000000026
其中,qi表示行人图像xi的正确相机类别,p(qi|xi)表示行人图像xi属于相机类别qi的概率,G(xi)代表生成器提取的图像特征,D(G(xi))[j]表示鉴别器输出的关于相机类别j的预测得分,K表示总的相机类别个数。用于优化生成器的相机域适应损失函数
Figure BDA00033895380000000216
为:
Figure BDA0003389538000000031
其中,p(g|xi)表示行人图像xi属于相机类别g的概率,δ(·)表示狄拉克δ函数。在生成器和鉴别器的训练过程中,固定其中一方的参数,更新另一方的参数,交替迭代,直到模型收敛。具体训练过程可表示为:
Figure BDA0003389538000000032
Figure BDA0003389538000000033
其中,θG和θD分别表示生成器和鉴别器的参数变量,
Figure BDA0003389538000000034
Figure BDA0003389538000000035
表示固定住的网络参数,λ表示调整两个损失函数贡献的超参数。
本发明的有益效果如下:
(1)本发明把Transformer作为主干网络来提取行人图像的有效特征,整个主干网络没有用到池化和卷积操作,使得本发明的方法克服了基于卷积神经网络方法的局限性。
(2)本发明设计了一种新型的交叉补丁编码器,这种编码器以较低的计算代价从行人图像中获取了更加有效的向量序列。
(3)本发明的方法不依赖任何数据增强的技术,可以直接从原始数据集中学习对相机风格变化具有鲁棒性的行人特征。
附图说明
图1为本发明一种基于Transformer的相机域适应行人重识别方法的流程示意图;
图2为交叉补丁编码器的结构示意图;
图3为本发明一种基于Transformer的相机域适应行人重识别系统的框架示意图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,需要指出的是,下述具体实施例仅用于说明本发明而不用于限制本发明的范围。
如图1所示,本发明的一种基于Transformer的相机域适应行人重识别方法,包括以下步骤:
步骤1:用交叉补丁编码器将输入图像编码为向量序列;
本发明中的交叉补丁编码器的结构如图2所示。
给定一个训练数据集
Figure BDA0003389538000000036
其中,N1表示数据集中行人图像的总数,yi和qi分别表示行人图像xi的身份标签和相机种类标签。首先,所有行人图像被调整成H×W的固定尺寸,然后行人图像被分为N2个不重叠的尺寸为I×I的图像补丁
Figure BDA0003389538000000037
其中,
Figure BDA0003389538000000038
表示第i个行人图像的第j块补丁,这些图像补丁被映射成M维的向量
Figure BDA0003389538000000047
公式如下:
Figure BDA0003389538000000041
其中FP代表线性映射,i表示行人图像序号,j表示补丁序号。在此基础上,交叉补丁编码器将与图像补丁相对应的交叉图像块
Figure BDA0003389538000000048
映射成与
Figure BDA0003389538000000049
相同维度的向量
Figure BDA00033895380000000410
Figure BDA0003389538000000042
其中
Figure BDA00033895380000000411
表示尺寸为I×W的水平图像块,
Figure BDA00033895380000000412
表示尺寸为H×I的垂直图像块,
Figure BDA00033895380000000413
表示水平向量,
Figure BDA00033895380000000414
表示垂直向量,Fh和Fv分别代表应用在水平图像块和垂直图像块的深度可分离卷积。最后交叉补丁编码器输出的向量还加入了位置向量pi,用公式表示为:
Figure BDA0003389538000000043
本实施例中输入图像的固定尺寸为256×128,图像补丁的尺寸为16×16,M设置为768。
步骤2:将向量序列输入到Transformer编码器中学习图像的特征向量,利用学习到的图像特征构造身份分类损失和三元组损失来优化交叉补丁编码器和Transformer编码器;
如图3所示,在向量序列输入到Transformer编码器之前,一个可训练的分类向量被附加在向量序列上,因此Transformer编码器处理输入的(N2+1)个向量。Transformer编码器的结构使得信息在向量间相互传播,最终只有与分类向量相对应的图像特征被用来构造构造身份分类损失和三元组损失。其中,用于优化交叉补丁编码器和Transformer编码器的身份信息损失函数
Figure BDA00033895380000000415
为:
Figure BDA0003389538000000044
Figure BDA00033895380000000416
表示身份分类损失函数,公式如下:
Figure BDA0003389538000000045
其中p(yi|xi)表示输入图像xi属于身份类yi的预测概率,预测概率通过接在特征向量之后的分类器得到。同时,为了加强类内聚合和类间分离,在训练过程中引入了三元组损失函数
Figure BDA00033895380000000417
公式如下:
Figure BDA0003389538000000046
其中m表示余量,G(·)表示Transformer编码器输出的图像特征,d代表两个特征间的距离,xp,xn分别表示参照样本xi在一批次训练样本中的正样本和负样本。
本实施例选择ViT-Base作为Transformer编码器来提取行人特征向量,在开始训练之前,ViT-Base在ImageNet-21K和ImageNet-1K两个数据集上进行预训练。
步骤3:把交叉补丁编码器和Transformer编码器共同视为一个特征生成器,将生成器生成的图像特征输入到鉴别器中判断此特征的相机类别,在此基础上构造相机分类损失和相机域适应损失来分别交替优化鉴别器和生成器;
如图3所示,鉴别器被用来鉴别行人特征的相机类别,而生成器尽可能地生成难以被鉴别器鉴别的行人特征。用于优化鉴别器的相机分类损失函数
Figure BDA0003389538000000056
可表示为:
Figure BDA0003389538000000051
Figure BDA0003389538000000052
其中,qi表示行人图像xi的正确相机类别,p(qi|xi)表示行人图像xi属于相机类别qi的概率,G(xi)代表生成器提取的图像特征,D(G(xi))[j]表示鉴别器输出的关于相机类别j的预测得分,K表示总的相机类别个数。用于优化生成器的相机域适应损失函数
Figure BDA0003389538000000057
可表示为:
Figure BDA0003389538000000053
其中,p(g|xi)表示行人图像xi属于相机类别g的概率,δ(·)表示狄拉克δ函数。在生成器和鉴别器的训练过程中,固定其中一方的参数,更新另一方的参数,交替迭代,直到模型收敛。具体训练过程可表示为:
Figure BDA0003389538000000054
Figure BDA0003389538000000055
其中,θG和θD分别表示生成器和鉴别器的参数变量,
Figure BDA0003389538000000058
Figure BDA0003389538000000059
表示固定住的网络参数,λ表示调整两个损失函数贡献的超参数。
在本实施例中,鉴别器是一个浅层全连接网络,相机类别个数K为15,学习率为0.008、动量系数为0.9、权值衰减为0.0001的SGD优化器被应用于生成器,学习率为0.0003的Adam优化器被应用于鉴别器。
步骤4:用训练完成的生成器提取行人图像的特征向量,计算待查询图像的特征向量与每张图像的特征向量之间的欧式距离,按照距离由小到大进行排序,选择排序最靠前的图像的行人身份作为识别结果。
为了验证本发明的有效性,本发明在MSMT17数据集上进行实验。MSMT17数据集由15台像机拍摄的4101个行人的126441张图像组成,其中32621张行人图像用于训练,另外93820张行人图像用于测试。
测试阶段,累计匹配特性指标(CMC)和平均准确率(mAP)被用于定量评估模型的性能。最终本发明的方法在MSMT17数据集上取得了62.9%的Rank-1准确率和83.4%的平均准确率。
需要说明的是,以上内容仅仅说明了本发明的技术思想,不能以此限定本发明的保护范围,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰均落入本发明权利要求书的保护范围之内。

Claims (4)

1.一种基于Transformer的相机域适应行人重识别方法,其特征在于,包括以下步骤:
(1)将输入行人图像分解为固定分辨率的图像补丁,图像补丁和与之对应的交叉图像块被交叉补丁编码器编码得到向量序列;
(2)将向量序列输入到Transformer编码器中学习图像的特征向量,利用学习到的图像特征构造身份分类损失和三元组损失来优化交叉补丁编码器和Transformer编码器;
(3)把补丁编码器和Transformer编码器共同视为一个特征生成器,将生成器生成的图像特征输入到鉴别器中判断此特征的相机类别,在此基础上构造相机分类损失和相机域适应损失来分别交替优化鉴别器和生成器;
(4)用训练完成的生成器提取行人图像的特征向量,计算待查询图像的特征向量与每张图像的特征向量之间的欧式距离,按照距离由小到大进行排序,选择排序最靠前的图像的行人身份作为识别结果。
2.根据权利要求1所述的一种基于Transformer的相机域适应行人重识别方法,其特征在于,步骤(1)中,用线性变换将固定分辨率的图像补丁映射成固定维度的向量
Figure FDA0003389537990000011
同时用深度可分离卷积将与图像补丁相对应的交叉图像块映射成与
Figure FDA0003389537990000012
相同维度的向量,最后编码器产生的向量ei为:
Figure FDA0003389537990000013
其中,i表示行人图像的序号,j表示图像补丁的序号,
Figure FDA0003389537990000014
Figure FDA0003389537990000015
分别表示对应横向和纵向图像块映射的向量,pi是含有位置信息的位置向量。
3.根据权利要求1所述的一种基于Transformer的相机域适应行人重识别方法,其特征在于,步骤(2)中,用于优化交叉补丁编码器和Transformer编码器的身份信息损失函数
Figure FDA0003389537990000016
为:
Figure FDA0003389537990000017
其中,
Figure FDA0003389537990000018
表示身份分类损失函数,
Figure FDA0003389537990000019
表示三元组损失函数。
4.根据权利要求1所述的一种基于Transformer的相机域适应行人重识别方法,其特征在于,步骤(3)中,用于优化鉴别器的相机分类损失函数
Figure FDA00033895379900000110
为:
Figure FDA00033895379900000111
Figure FDA00033895379900000112
其中,qi表示行人图像xi的正确相机类别,p(qi|xi)表示行人图像xi属于相机类别qi的概率,G(xi)代表生成器提取的图像特征,D(G(xi))[j]表示鉴别器输出的关于相机类别j的预测得分,K表示总的相机类别个数;用于优化生成器的相机域适应损失函数
Figure FDA0003389537990000021
为:
Figure FDA0003389537990000022
其中,p(g|xi)表示行人图像xi属于相机类别g的概率,δ(·)表示狄拉克δ函数;在生成器和鉴别器的训练过程中,固定其中一方的参数,更新另一方的参数,交替迭代,直到模型收敛;具体训练过程为:
Figure FDA0003389537990000023
Figure FDA0003389537990000024
其中,θG和θD分别表示生成器和鉴别器的参数变量,
Figure FDA0003389537990000025
Figure FDA0003389537990000026
表示固定住的网络参数,λ表示调整两个损失函数贡献的超参数。
CN202111463655.9A 2021-12-02 2021-12-02 一种基于Transformer的相机域适应行人重识别方法 Pending CN114155554A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111463655.9A CN114155554A (zh) 2021-12-02 2021-12-02 一种基于Transformer的相机域适应行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111463655.9A CN114155554A (zh) 2021-12-02 2021-12-02 一种基于Transformer的相机域适应行人重识别方法

Publications (1)

Publication Number Publication Date
CN114155554A true CN114155554A (zh) 2022-03-08

Family

ID=80456053

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111463655.9A Pending CN114155554A (zh) 2021-12-02 2021-12-02 一种基于Transformer的相机域适应行人重识别方法

Country Status (1)

Country Link
CN (1) CN114155554A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114842512A (zh) * 2022-07-01 2022-08-02 山东省人工智能研究院 基于多特征协同和语义感知的遮挡行人重识别和检索方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200285896A1 (en) * 2019-03-09 2020-09-10 Tongji University Method for person re-identification based on deep model with multi-loss fusion training strategy
CN112149538A (zh) * 2020-09-14 2020-12-29 南京邮电大学 一种基于多任务学习的行人重识别方法
CN113627266A (zh) * 2021-07-15 2021-11-09 武汉大学 基于Transformer时空建模的视频行人重识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200285896A1 (en) * 2019-03-09 2020-09-10 Tongji University Method for person re-identification based on deep model with multi-loss fusion training strategy
CN112149538A (zh) * 2020-09-14 2020-12-29 南京邮电大学 一种基于多任务学习的行人重识别方法
CN113627266A (zh) * 2021-07-15 2021-11-09 武汉大学 基于Transformer时空建模的视频行人重识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114842512A (zh) * 2022-07-01 2022-08-02 山东省人工智能研究院 基于多特征协同和语义感知的遮挡行人重识别和检索方法
CN114842512B (zh) * 2022-07-01 2022-10-14 山东省人工智能研究院 基于多特征协同和语义感知的遮挡行人重识别和检索方法

Similar Documents

Publication Publication Date Title
Bojanowski et al. Unsupervised learning by predicting noise
CN108960140B (zh) 基于多区域特征提取和融合的行人再识别方法
CN109241317B (zh) 基于深度学习网络中度量损失的行人哈希检索方法
CN109359541A (zh) 一种基于深度迁移学习的素描人脸识别方法
CN109063649B (zh) 基于孪生行人对齐残差网络的行人重识别方法
CN107194418B (zh) 一种基于对抗特征学习的水稻蚜虫检测方法
CN114492574A (zh) 基于高斯均匀混合模型的伪标签损失无监督对抗域适应图片分类方法
CN115496928B (zh) 基于多重特征匹配的多模态图像特征匹配方法
CN110390308B (zh) 一种基于时空对抗生成网络的视频行为识别方法
CN110175248B (zh) 一种基于深度学习和哈希编码的人脸图像检索方法和装置
CN114782977B (zh) 一种基于拓扑信息和亲和度信息引导行人重识别方法
CN110942091A (zh) 寻找可靠的异常数据中心的半监督少样本图像分类方法
CN108345866B (zh) 一种基于深度特征学习的行人再识别方法
CN112084895B (zh) 一种基于深度学习的行人重识别方法
CN115393396B (zh) 一种基于掩码预训练的无人机目标跟踪方法
CN116543269B (zh) 基于自监督的跨域小样本细粒度图像识别方法及其模型
CN111274958A (zh) 一种网络参数自纠正的行人重识别方法及系统
CN110880010A (zh) 基于卷积神经网络的视觉slam闭环检测算法
CN111694977A (zh) 一种基于数据增强的车辆图像检索方法
CN116486172A (zh) 基于语义表征的无监督域适应图像分类方法
CN114155554A (zh) 一种基于Transformer的相机域适应行人重识别方法
Hu et al. Towards facial de-expression and expression recognition in the wild
CN116935438A (zh) 一种基于模型结构自主进化的行人图像重识别方法
CN116863223A (zh) 语义注意力特征嵌入Swin Transformer网络的遥感图像场景分类的方法
CN109697257A (zh) 一种基于预分类和特征学习抗噪的网络信息检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination