CN116503895A

CN116503895A - 一种基于视觉Transformer的多细粒度遮挡行人重识别方法

Info

Publication number: CN116503895A
Application number: CN202310083676.0A
Authority: CN
Inventors: 张静; 郭权浩; 刘娟秀; 郝茹茜; 王祥舟; 杜晓辉; 刘霖; 刘永
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2023-02-08
Filing date: 2023-02-08
Publication date: 2023-07-28

Abstract

本发明提出一种基于视觉Transformer的多细粒度遮挡行人重识别方法，属于图像处理领域。包含一个全局分支和三个局部分支。在多分支架构的设计中，我们在通道注意力和空间注意力的基础上，通过联合交互不同细粒度分支的特征信息，设计了跨分支注意力模块，以此来强化各个分支之间的相互关系，调和在不同遮挡程度上，全局分支和局部分支的重要关系。在骨干网络视觉Transformer的设计中，提出特征增强模块F，其不仅能够获取到Transformer的全局感知信息，也能综合卷积操作的局部感受野，实现对图像全局特征和局部特征的把控，弥补图像中行人被不同程度遮挡带来的特征缺失问题。通过特征增强模块和跨分支注意力模块，我们的模型能够更好的适应遮挡行人重识别场景。

Description

一种基于视觉Transformer的多细粒度遮挡行人重识别方法

技术领域

本发明属于行人重识别领域，更为具体地讲，是一种基于视觉Transformer的多细粒度遮挡行人重识别方法。

背景技术

近年来，随着万物互联的发展，身份识别技术迎来蓬勃发展。除了熟知的用于访问控制、手机解锁等应用的人脸识别场景，在很多大场景下诸如大型超市，大型娱乐场所，大型交通等，现有的摄像设备难以捕捉到清晰的人脸的图像，因此基于行人图像的行人重识别技术(ReID)广泛应用于大型视野场景。目前现有的大多数行人重识别技术都基于单个完整的行人图像(图1(a)所示)，但是在实际应用场景中，多数行人存在不同程度的遮挡(图1(b)所示)，基于完整的单个行人图像的方法则会因为图像特征的缺失而失效。

为解决上述问题，本发明提出一种基于视觉Transformer的多细粒度遮挡行人重识别方法。这是一个包含视觉Transformer为骨干网络的多分支网络结构，包含一个全局分支和三个局部分支。在多分支架构的设计中，我们在通道注意力和空间注意力的基础上，通过联合交互不同细粒度分支的特征信息，设计了跨分支注意力模块，以此来强化各个分支之间的相互关系，调和在不同遮挡程度上，全局分支和局部分支的重要关系。在骨干网络视觉Transformer的设计中，提出特征增强模块，其不仅能够获取到Transformer的全局感知信息，也能综合卷积操作的局部感受野，实现对图像全局特征和局部特征的把控，弥补图像中行人被不同程度遮挡带来的特征缺失问题。通过特征增强模块和跨分支注意力模块，我们的模型能够更好的适应遮挡行人重识别场景。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于视觉Transformer的多细粒度遮挡行人重识别方法，利用单帧图像中行人的全局特征和局部特征信息相结合，弥补行人遮挡状态下的特征缺失导致的难以识别的问题，提升深度学习模型在遮挡行人重识别场景下的精度。

为实现上述发明目的，本文发明一种基于视觉Transformer的多细粒度遮挡行人重识别方法，包括以下步骤：

步骤1：获取用于骨干网络预训练的IMAGENET数据集，以及用于行人重识别的Market-1501、MSMT17和用于遮挡行人重识别的Occluded-DukeMTMC数据集。

步骤2：构建提取特征的视觉Transformer骨干网络，其包含设计的特征增强模块，在一个特征增强模块中包含卷积操作和激活函数堆叠的卷积层以及由多头自注意力机制和前馈神经网络组成的Former层，其具体步骤如下：

步骤2-1：将输入的数据过两个分支网络，其中一个分支为卷积层，另一个分支为多头自注意力机制和前馈神经网络组成的Former层；

步骤2-2：对于经过Former层的数据，首先通过PatchEmbedding操作将输入的行人数据进行分块，考虑到分块尺寸和行人图像的特征，我们将图像缩放为256×128大小，按照最大10％的重叠操作并设置图像的Patch尺寸为16×16，如图2所示，然后将每个Patch展平后按照batch方向合并，将图像实现向量化。此时通道维度会变成原先的6倍(因为H，W各缩小2，3倍)，此时再通过一个全连接层再调整通道维度为原来的两倍。；

步骤2-3：将PatchEmbedding的输出经过LayerNorm层实现层归一化；

步骤2-4：构建q、k、v三个线性层，将LayerNorm的输出进行多头自注意力机制计算，将计算的结果过DropOut层输出。将输出的结果与LayerNorm的输出相加得到多头自注意力计算后的特征；

步骤2-5：将多头自注意力计算后的特征依次通过LayerNorm层，MLP层。MLP是一个级联的二层线性层，通过投影的方式将输入维度扩增为原来的四倍再缩放回去，最后将MLP的输出和LayerNorm的输入相加得到Former层的输出特征；

步骤2-6：对于经过卷积层的数据，首先通过连续的两个3×3卷积和ReLU激活函数对输入图像进行特征提取；

步骤2-7：将提取的特征过1×1卷积，调整输出特征的通道数，使其保持与Former层的输出通道相同；

步骤2-8：通过均值池化操作调整输出特征的宽高，使其与Former层输出尺寸相同；

步骤2-9：将Former层的输出和卷积层的输出过Shared MLP层，Shared MLP层由2层级联的3×3卷积和一个ReLU激活函数组成，其目的是通过计算通道注意力融合Former层和卷积层的输出特征；

步骤2-10：将Shared MLP层输出的两个特征进行Elementwise add后通过Sigmoid激活函数得到最终的输出；

步骤3：骨干网络构建，将本发明提出的特征增强模块作为基础的TransformerEncoder块，通过添加class token和位置编码构建完成的骨干网络，其具体步骤如下：

步骤3-1：通过PatchEmbedding将图像划分成均匀大小的Patch，然后通过一个线性层将Patch投射成向量；

步骤3-2：构建class token可训练参数，采用KaimingNormal的方式进行初始化，其维度与PatchEmbedding输出向量维度一致；

步骤3-3：构建位置编码参数，采用KaimingNormal的方式进行初始化，主要用于计算各个Patch之间的相互关系；

步骤3-4：构建TransformerEncoder模块，它由多个特征增强模块堆叠而成；

步骤3-5：构建具有1000个类别的分类头以及用于分类的损失函数Softmax，完成整个用于提取特征的骨干网络构建；

步骤4：对于IMAGENET中所有的训练样本集，统一进行随机翻转，随机亮度增强，随机通道交换数据增强，设置迭代次数为300，batch-size为256，warm-up学习率为0.001，初始学习率为0.0001，经过300次迭代训练，损失值与精度趋于稳定，保存此时的最佳参数模型，作为身份重识别任务的预训练模型。

步骤5：在骨干网络下游任务构建细粒度分支和跨分支注意力模块，其含一个全局分支和三个局部分支，跨分支注意力模块能够强化各个分支之间的相互关系，调和在不同遮挡程度上，全局分支和局部分支的重要关系。其具体步骤如下：

步骤5-1：通过骨干网络，我们得到四个输出特征分支，其包含三个局部分支，分别是局部上游分支、局部中游分支以及局部下游分支，三个局部分支分别对应着PatchEmbedding层对输入图像从上而下的分块。此外，输出一个全局分支，用于提取图像全局特征；

步骤5-2：跨分支注意力模块包含两个设计的注意力计算模块，每个模块由两个线性层，一个1x1卷积层调控输出通道数和一个LayerNorm层；

步骤5-3：不同的遮挡程度会导致不同局部分支提取到不同重要程度的特征信息，为了弥补遮挡条件下的特征信息损失，需要强化未遮挡部分的特征信息，因此我们通过计算不同局部分支的注意力来分配不同局部分支的特征信息重要程度；

步骤5-4：计算全局分支和不同局部分支的注意力，调和不同分支特征信息的重要程度，将最终结果作为多分支结构输出；

步骤6：构建身份重识别模型训练损失函数，其包含用于分类的损失函数和用于计算特征距离的损失函数，具体步骤如下：

步骤6-1：将四路输出特征接全局最大池化和1×1卷积，将最终特征输入进分类学习和度量学习；

步骤6-2：构建Softmax损失函数作为分类部分损失函数，将三个局部分支的输出结果拼接后馈入分类部分；

步骤6-3：构建TripLet损失函数作为度量学习部分损失函数，将全局分支的输出结果拼接后馈入分类部分；

步骤6-4：加载由IMAGENET训练的预训练权重，利用Market-1501，MSMT17数据集进行行人重识别预训练，其目的是让多分支模型结构适应身份重识别任务，并使用遮挡行人数据集Occluded-Duke作为微调，增强模型在遮挡行人上的识别效果；

步骤7：对于Occluded-DukeMTMC中所有的训练样本集，统一进行随机翻转，并将尺寸统一缩放到128×256，设置迭代次数为160，batch-size为64，warm-up学习率为0.001，初始学习率为0.0001，经过300次迭代训练，损失值与精度趋于稳定，保存此时的最佳参数模型。

步骤8：对于Occluded-DukeMTMC所有的测试样本集，进行批量测试，输入图片分辨率大小为128×256，计算其平均精度mAP以及Rank1进行评估。

本文发明一种基于视觉Transformer的多细粒度遮挡行人重识别方法。通过构建跨分支注意力模块，来强化各个分支之间的相互关系，调和在不同遮挡程度上，全局分支和局部分支的重要关系。通过提出特征增强模块，综合Transformer的全局感知信息以及卷积操作的局部感受野，实现对图像全局特征和局部特征的把控，弥补图像中行人被不同程度遮挡带来的特征缺失问题。

附图说明

图1是完整行人图像和遮挡行人图像的对比，(a)为完整行人图像，(b)为遮挡行人图像；

图2Former层PatchEmbedding分块示意图；

图3是本发明设计的特征增强模块；

图4是本发明设计的跨分支注意力模块；

图5是本发明构建的基于视觉Transformer的多细粒度网络结构图；

图6是本发明训练过程中Softmax损失和TripLet损失图；

图7是本发明训练过程中在Occluded-DukeMTMC测试集上的精度。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

步骤2：构建提取特征的视觉Transformer骨干网络，其包含设计的特征增强模块，在一个特征增强模块中包含卷积操作和激活函数堆叠的卷积层以及由多头自注意力机制机制和前馈神经网络组成的Former层，其具体步骤如下：

步骤2-1：将输入的数据过两个分支网络，其中一个分支为卷积层，另一个分支为Former层；

步骤2-2：对于经过Former层的数据，首先通过PatchEmbedding操作将输入的行人数据进行分块，考虑到行人图像的特征，我们将图像按照最大10％的重叠操作分成六个图像块(Patch)，如图2所示，然后将每个Patch展平后按照batch方向合并，将图像实现向量化。此时通道维度会变成原先的6倍(因为H，W各缩小2，3倍)，此时再通过一个全连接层再调整通道维度为原来的两倍。；

步骤2-3：将PatchEmbedding的输出经过LayerNorm层实现层归一化；

步骤2-5：将多头自注意力计算后的特征以此过LayerNorm层，MLP层。MLP是一个级联的二层线性层，通过投影的方式将输入维度扩增为原来的四倍再缩放回去，最后将MLP的输出和LayerNorm的输入相加得到Former层的输出特征；

步骤2-10：将Shared MLP层输出的两个特征进行元素相加后通过Sigmoid激活函数得到最终的输出；

步骤3-4：构建TransformerEncoder模块，它由多个FEM堆叠而成；

步骤6-1：将四路输出特征接全局最大池化和1×1卷积，将最终特征输入进分类和度量学习；

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

表1是本发明构建的模型在遮挡行人重识别数据集Occluded-DukeMTMC与其余模型的对比。

Methods	Rank-1	mAP
			Part-Aligned	28.8	20.2
PCB	42.6	33.7
			Part Bilinear	36.9	-
FD-GAN	40.8	-
			DSR	40.8	30.4
SFR	42.3	32
			Ad-Occuded	44.5	32.2
PGFA	51.4	37.3
			HOReID	55.1	43.8
Ours	58.6	56.0

Claims

1.一种基于视觉Transformer的多细粒度遮挡行人重识别方法，该方法包括：

步骤1：获取用于骨干网络预训练的IMAGENET数据集，以及用于行人重识别的Market-1501、MSMT17和用于遮挡行人重识别的Occluded-DukeMTMC数据集；

步骤2：构建提取特征的视觉Transformer骨干网络，其包含设计的特征增强模块，在一个特征增强模块中包含卷积操作和激活函数堆叠的卷积层以及由多头自注意力机制机制和前馈神经网络组成的Former层；

步骤2-2：对于经过Former层的数据，首先通过PatchEmbedding操作将输入的行人数据进行分块，考虑到行人图像的特征，我们将图像按照最大10％的重叠操作分成六个图像块，然后将每个Patch展平后按照batch方向合并，将图像实现向量化；此时通道维度会变成原先的6倍，此时再通过一个全连接层再调整通道维度为原来的两倍；

步骤2-3：将PatchEmbedding的输出经过LayerNorm层实现层归一化；

步骤2-4：构建q、k、v三个线性层，将LayerNorm的输出进行多头自注意力机制计算，将计算的结果过DropOut层输出；将输出的结果与LayerNorm的输出相加得到多头自注意力计算后的特征；

步骤2-5：将多头自注意力计算后的特征以此过LayerNorm层，MLP层；MLP是一个级联的二层线性层，通过投影的方式将输入维度扩增为原来的四倍再缩放回去，最后将MLP的输出和LayerNorm的输入相加得到Former层的输出特征；

步骤2-8：通过Average Pooling操作调整输出特征的宽高，使其与Former层输出尺寸相同；

步骤3：骨干网络构建，将本发明提出的特征增强模块作为基础的TransformerEncoder块，通过添加class token和位置参数构建完成的骨干网络；

步骤3-4：构建TransformerEncoder模块，它由多个FEM堆叠而成；

步骤4：对于IMAGENET中所有的训练样本集，统一进行随机翻转，随机亮度增强，随机通道交换数据增强，设置迭代次数为300，batch-size为256，warm-up学习率为0.001，初始学习率为0.0001，经过300次迭代训练，损失值与精度趋于稳定，保存此时的最佳参数模型，作为身份重识别任务的预训练模型；

步骤5：在骨干网络下游任务构建细粒度分支和跨分支注意力模块，其含一个全局分支和三个局部分支，跨分支注意力模块能够强化各个分支之间的相互关系，调和在不同遮挡程度上，全局分支和局部分支的重要关系；

步骤6：构建身份重识别模型训练损失函数，其包含用于分类的损失函数和用于计算特征距离的损失函数；

步骤7：对于Occluded-DukeMTMC中所有的训练样本集，统一进行随机翻转，并将尺寸统一缩放到128×256，设置迭代次数为160，batch-size为64，warm-up学习率为0.001，初始学习率为0.0001，经过300次迭代训练，损失值与精度趋于稳定，保存此时的最佳参数模型；

2.如权利要求1所述的一种基于视觉Transformer的多细粒度遮挡行人重识别方法，其特征在于步骤5的具体步骤为：

步骤5-1：通过骨干网络，我们得到四个输出特征分支，其包含三个局部分支，分别是局部上游分支、局部中游分支以及局部下游分支，三个局部分支分别对应着PatchEmbedding层对输入图像从上而下的分块；此外，输出一个全局分支，用于提取图像全局特征；

步骤5-4：计算全局分支和不同局部分支的注意力，调和不同分支特征信息的重要程度，将最终结果作为多分支结构输出。

3.如权利要求1所述的一种基于视觉Transformer的多细粒度遮挡行人重识别方法，其特征在于步骤6的具体步骤为：

步骤6-4：加载由IMAGENET训练的预训练权重，利用Market-1501，MSMT17数据集进行行人重识别预训练，其目的是让多分支模型结构适应身份重识别任务，并使用遮挡行人数据集Occluded-Duke作为微调，增强模型在遮挡行人上的识别效果。