CN116503895A - 一种基于视觉Transformer的多细粒度遮挡行人重识别方法 - Google Patents
一种基于视觉Transformer的多细粒度遮挡行人重识别方法 Download PDFInfo
- Publication number
- CN116503895A CN116503895A CN202310083676.0A CN202310083676A CN116503895A CN 116503895 A CN116503895 A CN 116503895A CN 202310083676 A CN202310083676 A CN 202310083676A CN 116503895 A CN116503895 A CN 116503895A
- Authority
- CN
- China
- Prior art keywords
- branch
- layer
- output
- branches
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000000007 visual effect Effects 0.000 title claims abstract description 15
- 230000006870 function Effects 0.000 claims description 38
- 238000012549 training Methods 0.000 claims description 30
- 230000004913 activation Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 7
- 238000005259 measurement Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 230000000903 blocking effect Effects 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 230000001276 controlling effect Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000001105 regulatory effect Effects 0.000 claims description 3
- 238000011144 upstream manufacturing Methods 0.000 claims description 3
- 238000001424 field-emission electron microscopy Methods 0.000 claims description 2
- 238000013461 design Methods 0.000 abstract description 6
- 238000012217 deletion Methods 0.000 abstract description 3
- 230000037430 deletion Effects 0.000 abstract description 3
- 230000008447 perception Effects 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明提出一种基于视觉Transformer的多细粒度遮挡行人重识别方法,属于图像处理领域。包含一个全局分支和三个局部分支。在多分支架构的设计中,我们在通道注意力和空间注意力的基础上,通过联合交互不同细粒度分支的特征信息,设计了跨分支注意力模块,以此来强化各个分支之间的相互关系,调和在不同遮挡程度上,全局分支和局部分支的重要关系。在骨干网络视觉Transformer的设计中,提出特征增强模块F,其不仅能够获取到Transformer的全局感知信息,也能综合卷积操作的局部感受野,实现对图像全局特征和局部特征的把控,弥补图像中行人被不同程度遮挡带来的特征缺失问题。通过特征增强模块和跨分支注意力模块,我们的模型能够更好的适应遮挡行人重识别场景。
Description
技术领域
本发明属于行人重识别领域,更为具体地讲,是一种基于视觉Transformer的多细粒度遮挡行人重识别方法。
背景技术
近年来,随着万物互联的发展,身份识别技术迎来蓬勃发展。除了熟知的用于访问控制、手机解锁等应用的人脸识别场景,在很多大场景下诸如大型超市,大型娱乐场所,大型交通等,现有的摄像设备难以捕捉到清晰的人脸的图像,因此基于行人图像的行人重识别技术(ReID)广泛应用于大型视野场景。目前现有的大多数行人重识别技术都基于单个完整的行人图像(图1(a)所示),但是在实际应用场景中,多数行人存在不同程度的遮挡(图1(b)所示),基于完整的单个行人图像的方法则会因为图像特征的缺失而失效。
为解决上述问题,本发明提出一种基于视觉Transformer的多细粒度遮挡行人重识别方法。这是一个包含视觉Transformer为骨干网络的多分支网络结构,包含一个全局分支和三个局部分支。在多分支架构的设计中,我们在通道注意力和空间注意力的基础上,通过联合交互不同细粒度分支的特征信息,设计了跨分支注意力模块,以此来强化各个分支之间的相互关系,调和在不同遮挡程度上,全局分支和局部分支的重要关系。在骨干网络视觉Transformer的设计中,提出特征增强模块,其不仅能够获取到Transformer的全局感知信息,也能综合卷积操作的局部感受野,实现对图像全局特征和局部特征的把控,弥补图像中行人被不同程度遮挡带来的特征缺失问题。通过特征增强模块和跨分支注意力模块,我们的模型能够更好的适应遮挡行人重识别场景。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于视觉Transformer的多细粒度遮挡行人重识别方法,利用单帧图像中行人的全局特征和局部特征信息相结合,弥补行人遮挡状态下的特征缺失导致的难以识别的问题,提升深度学习模型在遮挡行人重识别场景下的精度。
为实现上述发明目的,本文发明一种基于视觉Transformer的多细粒度遮挡行人重识别方法,包括以下步骤:
步骤1:获取用于骨干网络预训练的IMAGENET数据集,以及用于行人重识别的Market-1501、MSMT17和用于遮挡行人重识别的Occluded-DukeMTMC数据集。
步骤2:构建提取特征的视觉Transformer骨干网络,其包含设计的特征增强模块,在一个特征增强模块中包含卷积操作和激活函数堆叠的卷积层以及由多头自注意力机制和前馈神经网络组成的Former层,其具体步骤如下:
步骤2-1:将输入的数据过两个分支网络,其中一个分支为卷积层,另一个分支为多头自注意力机制和前馈神经网络组成的Former层;
步骤2-2:对于经过Former层的数据,首先通过PatchEmbedding操作将输入的行人数据进行分块,考虑到分块尺寸和行人图像的特征,我们将图像缩放为256×128大小,按照最大10%的重叠操作并设置图像的Patch尺寸为16×16,如图2所示,然后将每个Patch展平后按照batch方向合并,将图像实现向量化。此时通道维度会变成原先的6倍(因为H,W各缩小2,3倍),此时再通过一个全连接层再调整通道维度为原来的两倍。;
步骤2-3:将PatchEmbedding的输出经过LayerNorm层实现层归一化;
步骤2-4:构建q、k、v三个线性层,将LayerNorm的输出进行多头自注意力机制计算,将计算的结果过DropOut层输出。将输出的结果与LayerNorm的输出相加得到多头自注意力计算后的特征;
步骤2-5:将多头自注意力计算后的特征依次通过LayerNorm层,MLP层。MLP是一个级联的二层线性层,通过投影的方式将输入维度扩增为原来的四倍再缩放回去,最后将MLP的输出和LayerNorm的输入相加得到Former层的输出特征;
步骤2-6:对于经过卷积层的数据,首先通过连续的两个3×3卷积和ReLU激活函数对输入图像进行特征提取;
步骤2-7:将提取的特征过1×1卷积,调整输出特征的通道数,使其保持与Former层的输出通道相同;
步骤2-8:通过均值池化操作调整输出特征的宽高,使其与Former层输出尺寸相同;
步骤2-9:将Former层的输出和卷积层的输出过Shared MLP层,Shared MLP层由2层级联的3×3卷积和一个ReLU激活函数组成,其目的是通过计算通道注意力融合Former层和卷积层的输出特征;
步骤2-10:将Shared MLP层输出的两个特征进行Elementwise add后通过Sigmoid激活函数得到最终的输出;
步骤3:骨干网络构建,将本发明提出的特征增强模块作为基础的TransformerEncoder块,通过添加class token和位置编码构建完成的骨干网络,其具体步骤如下:
步骤3-1:通过PatchEmbedding将图像划分成均匀大小的Patch,然后通过一个线性层将Patch投射成向量;
步骤3-2:构建class token可训练参数,采用KaimingNormal的方式进行初始化,其维度与PatchEmbedding输出向量维度一致;
步骤3-3:构建位置编码参数,采用KaimingNormal的方式进行初始化,主要用于计算各个Patch之间的相互关系;
步骤3-4:构建TransformerEncoder模块,它由多个特征增强模块堆叠而成;
步骤3-5:构建具有1000个类别的分类头以及用于分类的损失函数Softmax,完成整个用于提取特征的骨干网络构建;
步骤4:对于IMAGENET中所有的训练样本集,统一进行随机翻转,随机亮度增强,随机通道交换数据增强,设置迭代次数为300,batch-size为256,warm-up学习率为0.001,初始学习率为0.0001,经过300次迭代训练,损失值与精度趋于稳定,保存此时的最佳参数模型,作为身份重识别任务的预训练模型。
步骤5:在骨干网络下游任务构建细粒度分支和跨分支注意力模块,其含一个全局分支和三个局部分支,跨分支注意力模块能够强化各个分支之间的相互关系,调和在不同遮挡程度上,全局分支和局部分支的重要关系。其具体步骤如下:
步骤5-1:通过骨干网络,我们得到四个输出特征分支,其包含三个局部分支,分别是局部上游分支、局部中游分支以及局部下游分支,三个局部分支分别对应着PatchEmbedding层对输入图像从上而下的分块。此外,输出一个全局分支,用于提取图像全局特征;
步骤5-2:跨分支注意力模块包含两个设计的注意力计算模块,每个模块由两个线性层,一个1x1卷积层调控输出通道数和一个LayerNorm层;
步骤5-3:不同的遮挡程度会导致不同局部分支提取到不同重要程度的特征信息,为了弥补遮挡条件下的特征信息损失,需要强化未遮挡部分的特征信息,因此我们通过计算不同局部分支的注意力来分配不同局部分支的特征信息重要程度;
步骤5-4:计算全局分支和不同局部分支的注意力,调和不同分支特征信息的重要程度,将最终结果作为多分支结构输出;
步骤6:构建身份重识别模型训练损失函数,其包含用于分类的损失函数和用于计算特征距离的损失函数,具体步骤如下:
步骤6-1:将四路输出特征接全局最大池化和1×1卷积,将最终特征输入进分类学习和度量学习;
步骤6-2:构建Softmax损失函数作为分类部分损失函数,将三个局部分支的输出结果拼接后馈入分类部分;
步骤6-3:构建TripLet损失函数作为度量学习部分损失函数,将全局分支的输出结果拼接后馈入分类部分;
步骤6-4:加载由IMAGENET训练的预训练权重,利用Market-1501,MSMT17数据集进行行人重识别预训练,其目的是让多分支模型结构适应身份重识别任务,并使用遮挡行人数据集Occluded-Duke作为微调,增强模型在遮挡行人上的识别效果;
步骤7:对于Occluded-DukeMTMC中所有的训练样本集,统一进行随机翻转,并将尺寸统一缩放到128×256,设置迭代次数为160,batch-size为64,warm-up学习率为0.001,初始学习率为0.0001,经过300次迭代训练,损失值与精度趋于稳定,保存此时的最佳参数模型。
步骤8:对于Occluded-DukeMTMC所有的测试样本集,进行批量测试,输入图片分辨率大小为128×256,计算其平均精度mAP以及Rank1进行评估。
本文发明一种基于视觉Transformer的多细粒度遮挡行人重识别方法。通过构建跨分支注意力模块,来强化各个分支之间的相互关系,调和在不同遮挡程度上,全局分支和局部分支的重要关系。通过提出特征增强模块,综合Transformer的全局感知信息以及卷积操作的局部感受野,实现对图像全局特征和局部特征的把控,弥补图像中行人被不同程度遮挡带来的特征缺失问题。
附图说明
图1是完整行人图像和遮挡行人图像的对比,(a)为完整行人图像,(b)为遮挡行人图像;
图2Former层PatchEmbedding分块示意图;
图3是本发明设计的特征增强模块;
图4是本发明设计的跨分支注意力模块;
图5是本发明构建的基于视觉Transformer的多细粒度网络结构图;
图6是本发明训练过程中Softmax损失和TripLet损失图;
图7是本发明训练过程中在Occluded-DukeMTMC测试集上的精度。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
步骤1:获取用于骨干网络预训练的IMAGENET数据集,以及用于行人重识别的Market-1501、MSMT17和用于遮挡行人重识别的Occluded-DukeMTMC数据集。
步骤2:构建提取特征的视觉Transformer骨干网络,其包含设计的特征增强模块,在一个特征增强模块中包含卷积操作和激活函数堆叠的卷积层以及由多头自注意力机制机制和前馈神经网络组成的Former层,其具体步骤如下:
步骤2-1:将输入的数据过两个分支网络,其中一个分支为卷积层,另一个分支为Former层;
步骤2-2:对于经过Former层的数据,首先通过PatchEmbedding操作将输入的行人数据进行分块,考虑到行人图像的特征,我们将图像按照最大10%的重叠操作分成六个图像块(Patch),如图2所示,然后将每个Patch展平后按照batch方向合并,将图像实现向量化。此时通道维度会变成原先的6倍(因为H,W各缩小2,3倍),此时再通过一个全连接层再调整通道维度为原来的两倍。;
步骤2-3:将PatchEmbedding的输出经过LayerNorm层实现层归一化;
步骤2-4:构建q、k、v三个线性层,将LayerNorm的输出进行多头自注意力机制计算,将计算的结果过DropOut层输出。将输出的结果与LayerNorm的输出相加得到多头自注意力计算后的特征;
步骤2-5:将多头自注意力计算后的特征以此过LayerNorm层,MLP层。MLP是一个级联的二层线性层,通过投影的方式将输入维度扩增为原来的四倍再缩放回去,最后将MLP的输出和LayerNorm的输入相加得到Former层的输出特征;
步骤2-6:对于经过卷积层的数据,首先通过连续的两个3×3卷积和ReLU激活函数对输入图像进行特征提取;
步骤2-7:将提取的特征过1×1卷积,调整输出特征的通道数,使其保持与Former层的输出通道相同;
步骤2-8:通过均值池化操作调整输出特征的宽高,使其与Former层输出尺寸相同;
步骤2-9:将Former层的输出和卷积层的输出过Shared MLP层,Shared MLP层由2层级联的3×3卷积和一个ReLU激活函数组成,其目的是通过计算通道注意力融合Former层和卷积层的输出特征;
步骤2-10:将Shared MLP层输出的两个特征进行元素相加后通过Sigmoid激活函数得到最终的输出;
步骤3:骨干网络构建,将本发明提出的特征增强模块作为基础的TransformerEncoder块,通过添加class token和位置编码构建完成的骨干网络,其具体步骤如下:
步骤3-1:通过PatchEmbedding将图像划分成均匀大小的Patch,然后通过一个线性层将Patch投射成向量;
步骤3-2:构建class token可训练参数,采用KaimingNormal的方式进行初始化,其维度与PatchEmbedding输出向量维度一致;
步骤3-3:构建位置编码参数,采用KaimingNormal的方式进行初始化,主要用于计算各个Patch之间的相互关系;
步骤3-4:构建TransformerEncoder模块,它由多个FEM堆叠而成;
步骤3-5:构建具有1000个类别的分类头以及用于分类的损失函数Softmax,完成整个用于提取特征的骨干网络构建;
步骤4:对于IMAGENET中所有的训练样本集,统一进行随机翻转,随机亮度增强,随机通道交换数据增强,设置迭代次数为300,batch-size为256,warm-up学习率为0.001,初始学习率为0.0001,经过300次迭代训练,损失值与精度趋于稳定,保存此时的最佳参数模型,作为身份重识别任务的预训练模型。
步骤5:在骨干网络下游任务构建细粒度分支和跨分支注意力模块,其含一个全局分支和三个局部分支,跨分支注意力模块能够强化各个分支之间的相互关系,调和在不同遮挡程度上,全局分支和局部分支的重要关系。其具体步骤如下:
步骤5-1:通过骨干网络,我们得到四个输出特征分支,其包含三个局部分支,分别是局部上游分支、局部中游分支以及局部下游分支,三个局部分支分别对应着PatchEmbedding层对输入图像从上而下的分块。此外,输出一个全局分支,用于提取图像全局特征;
步骤5-2:跨分支注意力模块包含两个设计的注意力计算模块,每个模块由两个线性层,一个1x1卷积层调控输出通道数和一个LayerNorm层;
步骤5-3:不同的遮挡程度会导致不同局部分支提取到不同重要程度的特征信息,为了弥补遮挡条件下的特征信息损失,需要强化未遮挡部分的特征信息,因此我们通过计算不同局部分支的注意力来分配不同局部分支的特征信息重要程度;
步骤5-4:计算全局分支和不同局部分支的注意力,调和不同分支特征信息的重要程度,将最终结果作为多分支结构输出;
步骤6:构建身份重识别模型训练损失函数,其包含用于分类的损失函数和用于计算特征距离的损失函数,具体步骤如下:
步骤6-1:将四路输出特征接全局最大池化和1×1卷积,将最终特征输入进分类和度量学习;
步骤6-2:构建Softmax损失函数作为分类部分损失函数,将三个局部分支的输出结果拼接后馈入分类部分;
步骤6-3:构建TripLet损失函数作为度量学习部分损失函数,将全局分支的输出结果拼接后馈入分类部分;
步骤6-4:加载由IMAGENET训练的预训练权重,利用Market-1501,MSMT17数据集进行行人重识别预训练,其目的是让多分支模型结构适应身份重识别任务,并使用遮挡行人数据集Occluded-Duke作为微调,增强模型在遮挡行人上的识别效果;
步骤7:对于Occluded-DukeMTMC中所有的训练样本集,统一进行随机翻转,并将尺寸统一缩放到128×256,设置迭代次数为160,batch-size为64,warm-up学习率为0.001,初始学习率为0.0001,经过300次迭代训练,损失值与精度趋于稳定,保存此时的最佳参数模型。
步骤8:对于Occluded-DukeMTMC所有的测试样本集,进行批量测试,输入图片分辨率大小为128×256,计算其平均精度mAP以及Rank1进行评估。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
表1是本发明构建的模型在遮挡行人重识别数据集Occluded-DukeMTMC与其余模型的对比。
Methods | Rank-1 | mAP |
Part-Aligned | 28.8 | 20.2 |
PCB | 42.6 | 33.7 |
Part Bilinear | 36.9 | - |
FD-GAN | 40.8 | - |
DSR | 40.8 | 30.4 |
SFR | 42.3 | 32 |
Ad-Occuded | 44.5 | 32.2 |
PGFA | 51.4 | 37.3 |
HOReID | 55.1 | 43.8 |
Ours | 58.6 | 56.0 |
Claims (3)
1.一种基于视觉Transformer的多细粒度遮挡行人重识别方法,该方法包括:
步骤1:获取用于骨干网络预训练的IMAGENET数据集,以及用于行人重识别的Market-1501、MSMT17和用于遮挡行人重识别的Occluded-DukeMTMC数据集;
步骤2:构建提取特征的视觉Transformer骨干网络,其包含设计的特征增强模块,在一个特征增强模块中包含卷积操作和激活函数堆叠的卷积层以及由多头自注意力机制机制和前馈神经网络组成的Former层;
步骤2-1:将输入的数据过两个分支网络,其中一个分支为卷积层,另一个分支为Former层;
步骤2-2:对于经过Former层的数据,首先通过PatchEmbedding操作将输入的行人数据进行分块,考虑到行人图像的特征,我们将图像按照最大10%的重叠操作分成六个图像块,然后将每个Patch展平后按照batch方向合并,将图像实现向量化;此时通道维度会变成原先的6倍,此时再通过一个全连接层再调整通道维度为原来的两倍;
步骤2-3:将PatchEmbedding的输出经过LayerNorm层实现层归一化;
步骤2-4:构建q、k、v三个线性层,将LayerNorm的输出进行多头自注意力机制计算,将计算的结果过DropOut层输出;将输出的结果与LayerNorm的输出相加得到多头自注意力计算后的特征;
步骤2-5:将多头自注意力计算后的特征以此过LayerNorm层,MLP层;MLP是一个级联的二层线性层,通过投影的方式将输入维度扩增为原来的四倍再缩放回去,最后将MLP的输出和LayerNorm的输入相加得到Former层的输出特征;
步骤2-6:对于经过卷积层的数据,首先通过连续的两个3×3卷积和ReLU激活函数对输入图像进行特征提取;
步骤2-7:将提取的特征过1×1卷积,调整输出特征的通道数,使其保持与Former层的输出通道相同;
步骤2-8:通过Average Pooling操作调整输出特征的宽高,使其与Former层输出尺寸相同;
步骤2-9:将Former层的输出和卷积层的输出过Shared MLP层,Shared MLP层由2层级联的3×3卷积和一个ReLU激活函数组成,其目的是通过计算通道注意力融合Former层和卷积层的输出特征;
步骤2-10:将Shared MLP层输出的两个特征进行Elementwise add后通过Sigmoid激活函数得到最终的输出;
步骤3:骨干网络构建,将本发明提出的特征增强模块作为基础的TransformerEncoder块,通过添加class token和位置参数构建完成的骨干网络;
步骤3-1:通过PatchEmbedding将图像划分成均匀大小的Patch,然后通过一个线性层将Patch投射成向量;
步骤3-2:构建class token可训练参数,采用KaimingNormal的方式进行初始化,其维度与PatchEmbedding输出向量维度一致;
步骤3-3:构建位置编码参数,采用KaimingNormal的方式进行初始化,主要用于计算各个Patch之间的相互关系;
步骤3-4:构建TransformerEncoder模块,它由多个FEM堆叠而成;
步骤3-5:构建具有1000个类别的分类头以及用于分类的损失函数Softmax,完成整个用于提取特征的骨干网络构建;
步骤4:对于IMAGENET中所有的训练样本集,统一进行随机翻转,随机亮度增强,随机通道交换数据增强,设置迭代次数为300,batch-size为256,warm-up学习率为0.001,初始学习率为0.0001,经过300次迭代训练,损失值与精度趋于稳定,保存此时的最佳参数模型,作为身份重识别任务的预训练模型;
步骤5:在骨干网络下游任务构建细粒度分支和跨分支注意力模块,其含一个全局分支和三个局部分支,跨分支注意力模块能够强化各个分支之间的相互关系,调和在不同遮挡程度上,全局分支和局部分支的重要关系;
步骤6:构建身份重识别模型训练损失函数,其包含用于分类的损失函数和用于计算特征距离的损失函数;
步骤7:对于Occluded-DukeMTMC中所有的训练样本集,统一进行随机翻转,并将尺寸统一缩放到128×256,设置迭代次数为160,batch-size为64,warm-up学习率为0.001,初始学习率为0.0001,经过300次迭代训练,损失值与精度趋于稳定,保存此时的最佳参数模型;
步骤8:对于Occluded-DukeMTMC所有的测试样本集,进行批量测试,输入图片分辨率大小为128×256,计算其平均精度mAP以及Rank1进行评估。
2.如权利要求1所述的一种基于视觉Transformer的多细粒度遮挡行人重识别方法,其特征在于步骤5的具体步骤为:
步骤5-1:通过骨干网络,我们得到四个输出特征分支,其包含三个局部分支,分别是局部上游分支、局部中游分支以及局部下游分支,三个局部分支分别对应着PatchEmbedding层对输入图像从上而下的分块;此外,输出一个全局分支,用于提取图像全局特征;
步骤5-2:跨分支注意力模块包含两个设计的注意力计算模块,每个模块由两个线性层,一个1x1卷积层调控输出通道数和一个LayerNorm层;
步骤5-3:不同的遮挡程度会导致不同局部分支提取到不同重要程度的特征信息,为了弥补遮挡条件下的特征信息损失,需要强化未遮挡部分的特征信息,因此我们通过计算不同局部分支的注意力来分配不同局部分支的特征信息重要程度;
步骤5-4:计算全局分支和不同局部分支的注意力,调和不同分支特征信息的重要程度,将最终结果作为多分支结构输出。
3.如权利要求1所述的一种基于视觉Transformer的多细粒度遮挡行人重识别方法,其特征在于步骤6的具体步骤为:
步骤6-1:将四路输出特征接全局最大池化和1×1卷积,将最终特征输入进分类和度量学习;
步骤6-2:构建Softmax损失函数作为分类部分损失函数,将三个局部分支的输出结果拼接后馈入分类部分;
步骤6-3:构建TripLet损失函数作为度量学习部分损失函数,将全局分支的输出结果拼接后馈入分类部分;
步骤6-4:加载由IMAGENET训练的预训练权重,利用Market-1501,MSMT17数据集进行行人重识别预训练,其目的是让多分支模型结构适应身份重识别任务,并使用遮挡行人数据集Occluded-Duke作为微调,增强模型在遮挡行人上的识别效果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310083676.0A CN116503895A (zh) | 2023-02-08 | 2023-02-08 | 一种基于视觉Transformer的多细粒度遮挡行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310083676.0A CN116503895A (zh) | 2023-02-08 | 2023-02-08 | 一种基于视觉Transformer的多细粒度遮挡行人重识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116503895A true CN116503895A (zh) | 2023-07-28 |
Family
ID=87321986
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310083676.0A Pending CN116503895A (zh) | 2023-02-08 | 2023-02-08 | 一种基于视觉Transformer的多细粒度遮挡行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116503895A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117994823A (zh) * | 2024-04-07 | 2024-05-07 | 南京信息工程大学 | 一种基于掩码先验和分层聚合Transformer的遮挡行人重识别方法 |
CN118196700A (zh) * | 2024-02-29 | 2024-06-14 | 北京科技大学 | 一种室内烟雾遮挡下的疏散人员识别方法及装置 |
-
2023
- 2023-02-08 CN CN202310083676.0A patent/CN116503895A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118196700A (zh) * | 2024-02-29 | 2024-06-14 | 北京科技大学 | 一种室内烟雾遮挡下的疏散人员识别方法及装置 |
CN117994823A (zh) * | 2024-04-07 | 2024-05-07 | 南京信息工程大学 | 一种基于掩码先验和分层聚合Transformer的遮挡行人重识别方法 |
CN117994823B (zh) * | 2024-04-07 | 2024-06-25 | 南京信息工程大学 | 一种基于掩码先验和分层聚合Transformer的遮挡行人重识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112446270B (zh) | 行人再识别网络的训练方法、行人再识别方法和装置 | |
CN109101914B (zh) | 一种基于多尺度的行人检测方法和装置 | |
CN111931624B (zh) | 基于注意力机制的轻量级多分支行人重识别方法及系统 | |
Li et al. | No-reference image quality assessment with deep convolutional neural networks | |
CN114202672A (zh) | 一种基于注意力机制的小目标检测方法 | |
CN116503895A (zh) | 一种基于视觉Transformer的多细粒度遮挡行人重识别方法 | |
CN114758383A (zh) | 基于注意力调制上下文空间信息的表情识别方法 | |
CN112149504A (zh) | 混合卷积的残差网络与注意力结合的动作视频识别方法 | |
CN110069985B (zh) | 基于图像的目标点位置检测方法、装置、电子设备 | |
CN114758288B (zh) | 一种配电网工程安全管控检测方法及装置 | |
CN114092764A (zh) | 一种加入注意力机制的YOLOv5神经网络车辆检测方法 | |
CN114511798B (zh) | 基于transformer的驾驶员分心检测方法及装置 | |
CN111460980A (zh) | 基于多语义特征融合的小目标行人的多尺度检测方法 | |
CN110136162B (zh) | 无人机视角遥感目标跟踪方法及装置 | |
CN113610144A (zh) | 一种基于多分支局部注意力网络的车辆分类方法 | |
CN114898284B (zh) | 一种基于特征金字塔局部差异注意力机制的人群计数方法 | |
CN115731597A (zh) | 一种人脸口罩掩膜图像自动分割与修复管理平台及方法 | |
CN114463759A (zh) | 一种基于无锚框算法的轻量化文字检测方法及装置 | |
CN115393212A (zh) | 一种基于改进Unet的RAW域夜景图像去噪方法 | |
CN114882537B (zh) | 一种基于神经辐射场的手指新视角图像生成方法 | |
CN114782798A (zh) | 一种基于注意力融合的水下目标检测方法 | |
CN113344110A (zh) | 一种基于超分辨率重建的模糊图像分类方法 | |
CN114170657A (zh) | 融合注意力机制与高阶特征表示的面部情感识别方法 | |
CN109492601A (zh) | 人脸比对方法及装置、计算机可读介质和电子设备 | |
CN115965864A (zh) | 一种用于农作物病害识别的轻量级注意力机制网络 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |