CN115631513B - 基于Transformer的多尺度行人重识别方法 - Google Patents

基于Transformer的多尺度行人重识别方法 Download PDF

Info

Publication number
CN115631513B
CN115631513B CN202211404764.8A CN202211404764A CN115631513B CN 115631513 B CN115631513 B CN 115631513B CN 202211404764 A CN202211404764 A CN 202211404764A CN 115631513 B CN115631513 B CN 115631513B
Authority
CN
China
Prior art keywords
feature
scale
pedestrian
features
token
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211404764.8A
Other languages
English (en)
Other versions
CN115631513A (zh
Inventor
姜明
何铃杰
张旻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202211404764.8A priority Critical patent/CN115631513B/zh
Publication of CN115631513A publication Critical patent/CN115631513A/zh
Application granted granted Critical
Publication of CN115631513B publication Critical patent/CN115631513B/zh
Priority to US18/493,635 priority patent/US20240161531A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于Transformer的多尺度行人重识别方法。本发明提出了一种基于多尺度行人特征提取和Transformer的行人重识别网络。首先,我们设计了一个多尺度特征级联模块,旨在挖掘行人不同深度,不同尺度下的细节特征信息,从而获得更强壮的特征表达。其次,构建了基于transformer的特征提取,从全局范围学习行人特征。最后将Transformer输出的特征进行聚合,以获得更好的行人特征表达,从而提升模型的辨别能力。结果表明,这种方法具有更好的鲁棒性和自适应能力,有效的增强了模型的泛化能力。

Description

基于Transformer的多尺度行人重识别方法
技术领域
本文发明涉及行人重识别技术,具体来讲是一种基于Transformer的多尺度行人重识别方法,属于计算机视觉领域。
背景技术
行人重识别旨在对不同摄像头捕获的行人图像进行关联,实现跨摄像头跨场景下的行人识别与检索,被广泛应用于智能监控领域。近年来,基于深度卷积网络的行人重识别方法取得了优秀的成果,但CNN受限于每次只能处理相邻特征并且在下采样等过程中容易丢失行人的细粒度特征,造成识别率的下降。同时,Transformer展现出对空间和序列数据的优秀建模能力。与CNN相比,Transformer移去了下采样操作,能保留更多的细粒度特征。
大多数基于Transformer的行人重识别方法,通常将整张图片分割后作为图片序列送入Transformer网络,然后使用全局token作为行人特征。然而,采用直接分割图片的方式既忽略了部分结构信息,也使得transformer网络收敛速度慢;将单一尺度的行人特征划分为特征序列后作为transformer网络的输入,忽略了行人特征的多尺度表达;在网络输出部分,丰富的行人局部特征仍未得到充分利用,而这部分特征提供了对行人重识别至关重要的细粒度信息。
基于上述,本发明提出了一种基于Transformer的多尺度行人重识别方法,利用多个尺度的图像特征所包含的丰富信息来优化对行人图像的特征提取。
发明内容
本发明的目的是针对现有技术的不足,提出了一种基于Transformer的多尺度行人重识别方法。通过构建特征级联模块,在保留行人低维度细节特征的同时引入高维特征的支持,并获得多个尺度的行人特征,缓解了Transformer网络对于大训练数据集的要求,能够帮助模型快速收敛并提升性能。同时,本方法将多个尺度的行人特征划分后构建多尺度特征序列并为其加上代表不同尺度的编码信息后输入同一个Transformer网络,引导模型关注输入的不同尺度下的行人信息。其次,构建局部特征多尺度融合模块,充分利用网络输出的多尺度行人细粒度局部特征,为每一个行人构建多尺度特征组,引导模型从局部到全局、浅层到深层挖掘更健壮的行人特征表达。
本发明解决其技术问题所采用的技术方案如下:
步骤(1)在残差网络ResNet50中引入特征级联分支,将相邻层不同尺度的特征图进行特征融合;
步骤(2)将(1)中融合后各个不同尺度的特征图进行特征分割,然后为每一个分割后的特征组加上可学习的[SCALE_TOKEN]表示不同尺度。将不同尺度分割后的各个子图展平,再加上表示位置的[POS_TOKEN]和全局特征[CLS_TOKEN],作为transformer的输入;
步骤(3)构建基于标准Transformer的行人特征提取网络,将(2)中获得的特征子图向量输入网络,获得行人特征;
步骤(4)构建局部特征多尺度融合模块,将步骤(3)得到特征进行切分,将[CLS_TOKEN]向量作为全局特征,同时将不同尺度的局部特征输入局部特征多尺度融合模块并重新切分得到最终特征;
步骤(5)使用步骤(4)中得到的[CLS_TOKEN]向量和多尺度融合向量按照训练策略训练,得到最终的ReID模型
进一步的,所述步骤(1)具体实现过程如下:
1-1采用在ImageNet上预训练过的ResNet50作为骨干网络,保留第一个池化后的阶段和主干部分的前三个阶段,去除最后的阶段、空间下采样操作、全局平均池化层和完全连接层;
1-2从ResNet50中获得1-1中保留的一共4个阶段的特征信息,并构建多尺度特征级联模块,通过相邻层之间的两两融合获得行人特征信息。首先对阶段1获得的特征进行上采样和1x1卷积,特征图大小变为原来的两倍。然后对阶段1和阶段2、阶段2和阶段3、阶段3和阶段4的特征进行特征融合,如公式(1)(2)所示;
Fsc=Contact(UpSample(Fs),Fb) (1)
Fagg=conv1×1(Fsc) (2)
其中Fs,Fb表示两个需要融合的特征,UpSample表示上采样操作,Contact为向量连接操作,Fagg为获得的融合特征。
进一步的,所述步骤(2)具体实现过程如下:
2-1对于获得的融合特征Fagg,按照子特征图大小ps进行分割,生成特征图序列
Figure BDA0003936527420000031
N为可分割的数量,再对xP加上一个可学习的[SCALE_TOKEN],[SCALE_TOKEN]的维度大小与xP相同,如公式(3)所示:
Figure BDA0003936527420000032
其中
Figure BDA0003936527420000033
为第k个尺度生成的特征图序列;Escale为[SCALE_TOKEN],表示可学习的特征尺度;
综上对1-2中获得的三个尺度的特征处理后加上[CLS_TOKEN]和[POS_TOKEN]可得到特征Z,如公式(4)所示;
Figure BDA0003936527420000034
其中,xcls为[CLS_TOKEN]全局特征向量;
Figure BDA0003936527420000035
分别为三个尺度的特征序列;Epos为[POS_TOKEN],表示空间位置。
进一步的,所述步骤(3)具体实现过程如下:
3-1为了充分利用多尺度信息,构建基于Transformer的行人多尺度特征提取模型。模型主要由多层堆叠的Transformer块构成,单个Transformer层由多头注意力机制(MSA)、层归一化(LN)和多层感知器(MLP)构成,单个Transformer块可公式化为(5)(6):
Z′l=MSA(LN(Zl-1))+Zl-1 l=1…L (5)
Zl=MLP(LN(Z′l))+Z′l l=1…L (6)
其中,Zl表示第l层Transformer块输出的特征,Z′l为Transformer块内的中间结果,L为总层数。对于每张图像生成的多尺度特征Z,作为Transformer网络的输入,得到网络输出结果即为最后一层的输出特征。
进一步的,所述步骤(4)具体实现过程如下:
4-1获得Transformer模型输出特征ZL后,将特征ZL切分即可得到四组特征向量,即全局特征fcls和三个不同尺度的特征fscale_1、fscale_2、fscale_3。将不同尺度的特征进行双线性插值,再通过1*1卷积进行特征融合得到最终的局部特征ffinal。之后按照行人结构,可将ffinal划分为4个局部特征f1、f2、f3、f4
进一步的,所述步骤(5)具体实现过程下:
5-1使用行人重识别数据集中标注数据作为监督信息,对每个训练批次采用ID损失和困难三元组损失训练网络。ID损失采用交叉熵损失训练网络,其公式如下:
Figure BDA0003936527420000041
其中N为行人类别数,qi是监督标签,pi是预测标签;
困难三元组损失通过随机采样P个身份,每个身份抽取K个实例,组成一个大小为P*K的mini batch;依次选取批次中的每个图片xa作为锚点,选出批次中距离最远的正样本图片xp和距离最近的负样本图片xn组成三元组来训练网络,增强网络的泛化能力;其公式为:
Figure BDA0003936527420000042
5-2根据步骤(4)中提取的特征,ReID模型的整体损失函数利用全局特征和局部特征计算Lid和Ltriplet来训练网络,具体可公式化为如下:
Figure BDA0003936527420000043
其中,k表示输出特征组数量;
5-3当模型稳定后,得到最终ReID模型,将待查询图片和测试集图片输入最终的ReID模型进行特征提取,对比查询图片特征与测试集图片是否属于同一类,输出同类的行人图片。
本发明有益效果如下:
本发明设计了一个基于Transformer的多尺度行人重识别方法,通过基于ResNet特征级联模块采集不同尺度下的行人特征,不丢失低维度细节特征并引入高维度语义特征,这有利于模型从中学习更加健壮的行人特征,同时多尺度信息能够引导模型关注不同尺度下的行人特征,该模型从全局到局部,从浅层到深层挖掘行人潜在信息。其次,为充分利用行人细粒度局部特征,本发明设计了一个局部特征多尺度融合模块,将网络输出的各个尺度信息进行融合并切分,使得模型关注于行人不同部分、不同尺度下的特征信息。结果表明,这种方法提取的特征具有更好的鲁棒性,有效的提升了模型的泛化能力。
附图说明
图1是本发明的整体实施方案流程图;
图2是本发明的基于ResNet50特征级联模块示意图;
图3是本发明的特征分割处理示意图;
图4是本发明的Transformer网络示意图;
图5是本发明的多尺度局部特征融合模块示意图;
图6是本发明的整体结构示意图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1是本发明的整体实施方案流程图,本发明通过构建基于ResNet特征级联模块提取图像不同尺度的特征并两两级联,在保留细节特征的同时获得上层特征的支撑,并为每个patches加入[SCALE_TOKEN],用于在transformer网络中指示不同尺度的特征信息。此外,充分利用网络的多尺度局部特征,挖掘不同部分、不同尺度下的行人之间潜在的信息,有效增强了模型的泛化能力。如图6所示的本发明包括以下步骤:
步骤(1)如图2所示,在残差网络ResNet50中引入特征级联分支,将相邻层不同尺度的特征图进行特征融合;
步骤(2)如图3所示,将(1)中融合后各个不同尺度的特征图进行特征分割,然后为每一个分割后的特征组加上可学习的[SCALE_TOKEN]表示不同尺度。将不同尺度分割后的各个子图展平,再加上表示位置的[POS_TOKEN]和全局特征[CLS_TOKEN],作为transformer的输入;
步骤(3)如图4所示,构建基于标准Transformer的行人特征提取网络,将(2)中获得的特征子图向量输入网络,获得行人特征;
步骤(4)如图5所示,将步骤(3)得到特征进行切分,将[CLS_TOKEN]向量作为全局特征,同时将不同尺度的局部特征进行融合并重新切分得到最终特征;
步骤(5)使用步骤(4)中得到的[CLS_TOKEN]向量和多尺度融合向量按照训练策略训练,得到最终的ReID模型
进一步的,所述步骤(1)具体实现过程如下:
1-1采用在ImageNet上预训练过的ResNet50作为骨干网络,保留第一个池化后的阶段和主干部分的前三个阶段,去除最后的阶段、空间下采样操作、全局平均池化层和完全连接层;
1-2从ResNet50中获得1-1中保留的一共4个阶段的特征信息,并构建多尺度特征级联模块,通过相邻层之间的两两融合获得行人特征信息。首先对阶段1获得的特征进行上采样和1x1卷积,特征图大小变为原来的两倍。然后对阶段1和阶段2、阶段2和阶段3、阶段3和阶段4的特征进行特征融合,如公式(1)(2)所示;
Fsc=Contact(UpSample(Fs),Fb) (1)
Fagg=conv1×1(Fsc) (2)
其中Fs,Fb表示两个需要融合的特征,UpSample表示上采样操作,Contact为向量连接操作,Fagg为获得的融合特征。
进一步的,所述步骤(2)具体实现过程如下:
2-1对于获得的融合特征Fagg,按照子特征图大小ps进行分割,生成特征图序列
Figure BDA0003936527420000061
N为可分割的数量,再对xP加上一个可学习的[SCALE_TOKEN],[SCALE_TOKEN]的维度大小与xP相同,如公式(3)所示:
Figure BDA0003936527420000062
其中
Figure BDA0003936527420000071
为第k个尺度生成的特征图序列;Escale为[SCALE_TOKEN],表示可学习的特征尺度;
综上对1-2中获得的三个尺度的特征处理后加上[CLS_TOKEN]和[POS_TOKEN]可得到特征Z,如公式(4)所示;
Figure BDA0003936527420000072
其中,xcls为[CLS_TOKEN]全局特征向量;
Figure BDA0003936527420000073
分别为三个尺度的特征序列;Epos为[POS_TOKEN],表示空间位置。
进一步的,所述步骤(3)具体实现过程如下:
3-1为了充分利用多尺度信息,构建基于Transformer的行人多尺度特征提取模型。模型主要由多层堆叠的Transformer块构成,单个Transformer层由多头注意力机制(MSA)、层归一化(LN)和多层感知器(MLP)构成,单个Transformer块可公式化为(5)(6):
Z′l=MSA(LN(Zl-1))+Zl-1 l=1…L (5)
Zl=MLP(LN(Z′l))+Z′l l=1…L (6)
其中,Zl表示第l层Transformer块输出的特征,Z′l为Transformer块内的中间结果,L为总层数。对于每张图像生成的多尺度特征Z,作为Transformer网络的输入,得到网络输出结果即为最后一层的输出特征。
进一步的,所述步骤(4)具体实现过程如下:
4-1获得Transformer模型输出特征ZL后,将特征ZL切分即可得到四组特征向量,即全局特征fcls和三个不同尺度的特征fscale_1、fscale_2、fscale_3。将不同尺度的特征进行双线性插值,再通过1*1卷积进行特征融合得到最终的局部特征ffinal。之后按照行人结构,可将ffinal划分为4个局部特征f1、f2、f3、f4
进一步的,所述步骤(5)具体实现过程下:
5-1使用行人重识别数据集中标注数据作为监督信息,对每个训练批次采用ID损失和困难三元组损失训练网络。ID损失采用交叉熵损失训练网络,其公式如下:
Figure BDA0003936527420000074
其中N为行人类别数,qi是监督标签,pi是预测标签;
困难三元组损失通过随机采样P个身份,每个身份抽取K个实例,组成一个大小为P*K的mini batch;依次选取批次中的每个图片xa作为锚点,选出批次中距离最远的正样本图片xp和距离最近的负样本图片xn组成三元组来训练网络,增强网络的泛化能力;其公式为:
Figure BDA0003936527420000081
5-2根据步骤(4)中提取的特征,ReID模型的整体损失函数利用全局特征和局部特征计算Lid和Ltriplet来训练网络,具体可公式化为如下:
Figure BDA0003936527420000082
其中,k表示输出特征组数量;
5-3当模型稳定后,得到最终ReID模型,将待查询图片和测试集图片输入最终的ReID模型进行特征提取,对比查询图片特征与测试集图片是否属于同一类,输出同类的行人图片。

Claims (4)

1.一种基于Transformer的多尺度行人重识别方法,其特征在于包括以下步骤:
步骤一,在残差网络ResNet50中引入特征级联分支,将相邻层不同尺度的特征图进行特征融合;
步骤二,将步骤一中融合后各个不同尺度的特征图进行特征分割,然后为每一个分割后的特征组加上可学习的SCALE_TOKEN表示不同尺度;将不同尺度分割后的各个子图展平,再加上表示位置的POS_TOKEN和全局特征CLS_TOKEN,作为transformer的输入;
步骤三,构建基于标准Transformer的行人特征提取网络,将步骤二中获得的特征子图向量输入网络,获得行人特征;
步骤四,将步骤三得到特征进行切分,将CLS_TOKEN向量作为全局特征,同时将不同尺度的局部特征输入局部特征多尺度融合模块并重新切分得到最终特征;步骤4-1,获得Transformer模型输出特征ZL后,将特征ZL切分即可得到四组特征向量,即全局特征fcls和三个不同尺度的特征fscale_1、fscale_2、fscale_3;将不同尺度的特征进行双线性插值,再通过1*1卷积进行特征融合得到最终的局部特征ffinal;之后按照行人结构,可将ffinal划分为4个局部特征f1、f2、f3、f4
步骤五,使用步骤四中得到的CLS_TOKEN向量和多尺度融合向量按照训练策略训练,得到最终的ReID模型;
步骤5-1,使用行人重识别数据集中标注数据作为监督信息,对每个训练批次采用ID损失和困难三元组损失训练网络;ID损失采用交叉熵损失训练网络,其公式如下:
Figure QLYQS_1
其中N为行人类别数,qi是监督标签,pi是预测标签;
困难三元组损失通过随机采样P个身份,每个身份抽取K个实例,组成一个大小为P*K的mini batch;依次选取批次中的每个图片xa作为锚点,选出批次中距离最远的正样本图片xp和距离最近的负样本图片xn组成三元组来训练网络,增强网络的泛化能力;其公式为:
Figure QLYQS_2
Figure QLYQS_3
步骤5-2,根据步骤四中提取的特征,ReID模型的整体损失函数利用全局特征和局部特征计算Lid和Ltriplet来训练网络,具体可公式化为如下:
Figure QLYQS_4
其中,k表示输出特征组数量;
步骤5-3,当模型稳定后,得到最终ReID模型,将待查询图片和测试集图片输入最终的ReID模型进行特征提取,对比查询图片特征与测试集图片是否属于同一类,输出同类的行人图片;
步骤六,将待查询图片和测试集图片输入最终的ReID模型进行特征提取,对比查询图片特征与测试集图片是否属于同一类,输出同类的行人图片。
2.根据权利要求1所述的一种基于Transformer的多尺度行人重识别方法,其特征在于,所述步骤一,包括以下子步骤:
步骤1-1,采用在ImageNet上预训练过的ResNet50作为骨干网络,保留第一个池化后的阶段和主干部分的前三个阶段,去除最后的阶段、空间下采样操作、全局平均池化层和完全连接层;
步骤1-2,从ResNet50中获得步骤1-1中保留的一共4个阶段的特征信息,并构建多尺度特征级联模块,通过相邻层之间的两两融合获得行人特征信息;
首先对阶段1获得的特征进行上采样和1x1卷积,特征图大小变为原来的两倍;然后对阶段1和阶段2、阶段2和阶段3、阶段3和阶段4的特征进行特征融合,如公式(1)(2)所示;
Fsc=Contact(UpSample(Fs),Fb) (1)
Fagg=conv1×1(Fsc) (2)
其中Fs,Fb表示两个需要融合的特征,UpSample表示上采样操作,Contact为向量连接操作,Fagg为获得的融合特征。
3.根据权利要求2所述的一种基于Transformer的多尺度行人重识别方法,其特征在于,所述步骤二,包括以下子步骤:
步骤2-1,对于获得的融合特征Fagg,按照子特征图大小ps进行分割,生成特征图序列
Figure QLYQS_5
N为可分割的数量,再对xP加上一个可学习的SCALE_TOKEN,SCALE_TOKEN的维度大小与xP相同,如公式(3)所示:
Figure QLYQS_6
其中
Figure QLYQS_7
为第k个尺度生成的特征图序列;Escale为SCALE_TOKEN,表示可学习的特征尺度;
综上对步骤1-2中获得的三个尺度的特征处理后加上CLS_TOKEN和POS_TOKEN可得到特征Z,如公式(9)所示;
Figure QLYQS_8
其中,xcls为CLS_TOKEN全局特征向量;
Figure QLYQS_9
分别为三个尺度的特征序列;Epos为POS_TOKEN,表示空间位置。
4.根据权利要求3所述的一种基于Transformer的多尺度行人重识别方法,其特征在于,所述步骤三,包括以下子步骤:
步骤3-1,为了充分利用多尺度信息,构建基于Transformer的行人多尺度特征提取模型;
模型主要由多层堆叠的Transformer块构成,单个Transformer层由多头注意力机制MSA、层归一化LN和多层感知器MLP构成,单个Transformer块可公式化为(4)(5):
Z′l=MSA(LN(Zl-1))+Zl-1 l=1…L (4)
Zl=MLP(LN(Z′l))+Z′l l=1…L (5)
其中,Zl表示第l层Transformer块输出的特征,Z′l为Transformer块内的中间结果,L为总层数;对于每张图像生成的多尺度特征Z,作为Transformer网络的输入,得到网络输出结果即为最后一层的输出特征。
CN202211404764.8A 2022-11-10 2022-11-10 基于Transformer的多尺度行人重识别方法 Active CN115631513B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211404764.8A CN115631513B (zh) 2022-11-10 2022-11-10 基于Transformer的多尺度行人重识别方法
US18/493,635 US20240161531A1 (en) 2022-11-10 2023-10-24 Transformer-based multi-scale pedestrian re-identification method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211404764.8A CN115631513B (zh) 2022-11-10 2022-11-10 基于Transformer的多尺度行人重识别方法

Publications (2)

Publication Number Publication Date
CN115631513A CN115631513A (zh) 2023-01-20
CN115631513B true CN115631513B (zh) 2023-07-11

Family

ID=84907715

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211404764.8A Active CN115631513B (zh) 2022-11-10 2022-11-10 基于Transformer的多尺度行人重识别方法

Country Status (2)

Country Link
US (1) US20240161531A1 (zh)
CN (1) CN115631513B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117423132A (zh) * 2023-10-26 2024-01-19 山东海润数聚科技有限公司 一种无监督行人重识别方法、设备及介质
CN117635973B (zh) * 2023-12-06 2024-05-10 南京信息工程大学 一种基于多层动态集中和局部金字塔聚合的换衣行人重识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114202740A (zh) * 2021-12-07 2022-03-18 大连理工大学宁波研究院 一种基于多尺度特征融合的行人重识别方法
CN114973317A (zh) * 2022-05-13 2022-08-30 杭州像素元科技有限公司 一种基于多尺度邻接交互特征的行人重识别方法
CN115063833A (zh) * 2022-05-16 2022-09-16 国网冀北电力有限公司信息通信分公司 一种基于图像分层视觉的机房人员检测方法
CN115147284A (zh) * 2022-08-03 2022-10-04 中国工商银行股份有限公司 视频处理方法、装置、计算机设备和存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11138469B2 (en) * 2019-01-15 2021-10-05 Naver Corporation Training and using a convolutional neural network for person re-identification
US20220012848A1 (en) * 2021-09-25 2022-01-13 Intel Corporation Methods and apparatus to perform dense prediction using transformer blocks

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114202740A (zh) * 2021-12-07 2022-03-18 大连理工大学宁波研究院 一种基于多尺度特征融合的行人重识别方法
CN114973317A (zh) * 2022-05-13 2022-08-30 杭州像素元科技有限公司 一种基于多尺度邻接交互特征的行人重识别方法
CN115063833A (zh) * 2022-05-16 2022-09-16 国网冀北电力有限公司信息通信分公司 一种基于图像分层视觉的机房人员检测方法
CN115147284A (zh) * 2022-08-03 2022-10-04 中国工商银行股份有限公司 视频处理方法、装置、计算机设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"TransReID: Transformer-based Object Re-Identification";Shuting He 等;《arXiv》;第1-13页 *
"基于TransReID的行人重识别方法";王晓 等;《电子制作》;第432卷(第22期);第57-59页 *

Also Published As

Publication number Publication date
CN115631513A (zh) 2023-01-20
US20240161531A1 (en) 2024-05-16

Similar Documents

Publication Publication Date Title
CN113469094B (zh) 一种基于多模态遥感数据深度融合的地表覆盖分类方法
CN109543745B (zh) 基于条件对抗自编码网络的特征学习方法及图像识别方法
CN115631513B (zh) 基于Transformer的多尺度行人重识别方法
CN109087258B (zh) 一种基于深度学习的图像去雨方法及装置
CN113936339B (zh) 基于双通道交叉注意力机制的打架识别方法和装置
CN113033570B (zh) 一种改进空洞卷积和多层次特征信息融合的图像语义分割方法
CN112396607B (zh) 一种可变形卷积融合增强的街景图像语义分割方法
CN111325165B (zh) 考虑空间关系信息的城市遥感影像场景分类方法
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN114092964A (zh) 基于注意力引导和多尺度标签生成的跨域行人重识别方法
CN116797787B (zh) 基于跨模态融合与图神经网络的遥感影像语义分割方法
CN113870335A (zh) 一种基于多尺度特征融合的单目深度估计方法
CN113076957A (zh) 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法
CN112084895B (zh) 一种基于深度学习的行人重识别方法
CN117237559B (zh) 面向数字孪生城市的三维模型数据智能分析方法及系统
CN113066089A (zh) 一种基于注意力引导机制的实时图像语义分割网络
CN115775316A (zh) 基于多尺度注意力机制的图像语义分割方法
CN114359902B (zh) 基于多尺度特征融合的三维点云语义分割方法
CN114092824A (zh) 结合密集注意力和并行上采样的遥感图像道路分割方法
CN114168773A (zh) 一种基于伪标签和重排序的半监督草图图像检索方法
CN114022703A (zh) 一种基于深度学习的高效车辆细粒度识别方法
CN116543269B (zh) 基于自监督的跨域小样本细粒度图像识别方法及其模型
CN112861911A (zh) 一种基于深度特征选择融合的rgb-d语义分割方法
CN114821631A (zh) 基于注意力机制与多尺度特征融合的行人特征提取方法
CN115063831A (zh) 一种高性能行人检索与重识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant