CN114092964A

CN114092964A - 基于注意力引导和多尺度标签生成的跨域行人重识别方法

Info

Publication number: CN114092964A
Application number: CN202111215371.8A
Authority: CN
Inventors: 姜明; 高骏涛; 张旻; 李鹏飞
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-10-19
Filing date: 2021-10-19
Publication date: 2022-02-25

Abstract

本发明公开了一种基于注意力引导和多尺度标签生成的跨域行人重识别方法。本发明提出了一种基于注意力引导和多尺度标签生成的渐进式学习框架。首先，设计了一个注意力机制引导的背景约束模块，旨在突出图像中有用的前景行人信息，减轻背景杂波的干扰。这有利于引导模型学习更多与行人身份相关的判别特征，从而提高行人特征的辨识度。其次，为了挖掘图像中的细节特征信息，该模型从全局到局部、从浅层到深层挖掘潜在的相似性，从不同的视角为行人生成伪标签。结果表明，这种方法具有更好的鲁棒性和自适应能力，有效的增强了模型的泛化能力。

Description

基于注意力引导和多尺度标签生成的跨域行人重识别方法

技术领域

本文发明涉及跨域行人重识别技术领域，具体来讲是一种基于注意力引导和多尺度标签生成的跨域行人重识别方法。

背景技术

行人重识别旨在通过给定一张行人图片，从不同摄像机中匹配相同行人的图像，被广泛应用于智能监控领域，是计算机视觉中的一个重要课题。然而，大多数提出的方法，受限于单一场景数据集与大量的标注数据，若将使用数据集训练好的模型直接部署于一个新场景下，模型的性能往往会显著下降，同时针对每个场景构建数据集需要昂贵的成本，这极大的限制了行人重识别技术的实际应用。

因此，为了解决这类问题，提出了无监督域自适应方法，通过利用有标注的源域数据集和无标注的目标域数据集，提高源域训练的模型在目标域上的性能。现有以下两种解决方法，即基于Gan的风格迁移法和基于聚类的伪标签标注法。基于Gan的风格迁移法通过使用Gan网络将源域图像风格转换为目标域图像风格，利用风格迁移后有标注的源域数据进行特征学习，一定程度上缩小了领域差距。然而，与基于聚类的伪标签标注法相比，前者的性能相对较弱，目前普遍采用伪标签标注的方法。该方法首先利用源域训练的模型提取目标域图像的特征，并应用无监督聚类方法预测目标域中的伪标签，从而利用标注伪标签的目标域样本训练网络，通过交替进行伪标签生成和微调网络逐渐提高re-ID模型在目标域的性能。

在研发过程中，本发明的发明人发现在基于聚类的跨域行人重识别方法中，通常使用整张图片作为样本进行训练，忽略了一个问题，即图片背景会带来偏差，模型提取的特征包括行人特征和背景特征，从而在聚类过程中，由于同一摄像机捕捉的行人背景相似，导致同一相机提取的行人特征倾向于聚集到同一类。此外，聚类过程中使用单一尺度的全局特征进行伪标签标注，忽略了未标记样本在骨干网络不同阶段的潜在相似性，同时也忽略了行人图像局部特征之间的相似性。

发明内容

本发明的目的是针对现有技术的不足，提供一种基于注意力引导和多尺度标签生成的跨域行人重识别方法。

本发明解决其技术问题所采用的技术方案如下：

步骤(1)在残差网络ResNet50中引入注意力机制，增加多尺度分支,构建自定义的神经网络；

步骤(2)利用有标记的源域数据训练步骤(1)构建的神经网络，得到初始re-ID模型；

步骤(3)将源域图像输入StarGan模型进行风格迁移，使源域图像获得目标域中对应相机的风格样式，得到风格迁移后的源域数据集，利用该数据集微调初始re-ID模型；

步骤(4)将无标记的目标域数据输入到步骤(3)得到的re-ID模型中进行特征提取，得到每个图像的多尺度特征分组；

步骤(5)根据步骤(4)生成的多尺度特征分组，分别进行距离计算构建距离矩阵，结合聚类算法对每组进行聚类，根据聚类结构，对目标域图像标注伪标签；

步骤(6)使用标注多尺度伪标签的目标域数据和渐进式的训练策略训练步骤(3)得到的re-ID模型；

步骤(7)迭代循环步骤(4)-步骤(6)，直到模型稳定；使用最终的re-ID模型在测试集中检索待查询图片，得到最终结果。

进一步的，所述步骤(1)具体实现过程如下：

1-1采用在ImageNet上预训练过的ResNet50作为骨干网络，保留主干部分的四个阶段，去除最后的空间下采样操作、全局平均池化层和完全连接层，并在残差块中的第一个BN层中加入实例归一化层；

1-2在ResNet50的各阶段之间插入注意力引导的背景约束模块，背景约束模块包括正向注意力机制和反向注意力机制；

正向注意力机制由通道注意力C和空间注意力S两部分组成，可以写成S和C的张量乘积，如公式(1)所示；

ATT＝Sigmoid(S×C) (1)

反向注意力机是由正向注意力机制所放弃的特征形成，解决正向注意力机制导致的特征信息丢失问题,反向注意力机制的内核如公式(2)所示；

ATT_R＝1-Sigmoid(S×C) (2)

1-3从ResNet50的阶段2和3中提取特征的多尺度分支，也就是分别从阶段2和3提取骨干网络中生成的浅层、中层特征；在ResNet50第4阶段后添加一个全连接层和一个带有切片操作的局部分支，通过局部分支获得行人全局特征、上半部分特征和下半部分特征；并在最后增加一个BN层和分类线性层，该输出用于交叉熵损失训练网络。

进一步的，所述步骤(2)具体实现过程如下：

2-1源域预训练联合困难三元组损失和Softmax交叉熵损失作为损失函数，其中，ResNet50第4阶段后第一个全连接层的输出特征用于困难三元组损失，分类线性层的输出用于交叉熵损失；使用该损失函数训练直至模型收敛，得到使用源域数据训练的初始re-ID模型。

进一步的，所述步骤(3)具体实现过程如下：

3-1为了学习一个有效的风格迁移模型，构建基于StarGAN的相机风格样式转换模型，假设在目标域集合中有C个相机，首先训练一个StarGAN模型，它能在每个相机对之间实现图像-图像的转换；

3-2对于源域中的每张图像X_s,i,使用StarGAN模型生成C张图像，每张图像包含图像X_s,i中同一行人，即生成图像的行人标签与原图像一致，且图像风格对应目标域中的相应相机风格；将生成的风格迁移样本与源域原样本结合形成新的训练集，使用困难三元组损失微调步骤(2)中得到的初始模型。

进一步的，所述步骤(4)具体实现过程如下：

4-1对于目标域数据集中的每张图像

使用re-ID模型提取特征；将目标域图像

输入re-ID模型，得到行人全局特征、上半部分特征和下半部分特征，以及骨干网络中生成的浅层特征、中层特征；并将这些多尺度特征经过GAP操作；因此，将目标域图像

输入模型可以提取到五组特征向量，分别是全局特征

上半部分特征

下半部分特征

浅层特征

和中层特征

进一步的，所述步骤(5)具体实现过程下：

5-1对生成的多尺度特征分组计算其两两之间的相似度，引入K-倒数编码法得到行人特征距离矩阵，然后使用无监督聚类方法DBSCAN分别对多尺度特征向量组进行聚类，对属于同一个簇内的样本分配同一个伪标签，根据5个特征向量的分组结果建立一个新的目标数据集，每个图像都有5个伪标签，如公式(3)所示；

其中，

N_t表示目标域图片数量。

进一步的，所述步骤(6)具体实现过程下：

6-1使用标注多尺度伪标签的目标域数据作为监督信息，对每个尺度的伪标签组采用困难三元组损失训练网络，困难三元组损失通过随机采样P个身份，每个身份抽取K个实例，组成一个大小为P*K的mini batch；依次选取批次中的每个图片x_a作为锚点，选出批次中距离最远的正样本图片x_p和距离最近的负样本图片x_n组成三元组来训练网络，增强网络的泛化能力；其公式为：

6-2当网络使用困难三元组损失达到最佳性能后，加入交叉熵损失进一步优化网络；从而解决训练初期使用交叉熵损失导致的误差放大问题，也避免模型使用三元组损失陷入局部最优解问题，其公式如下：

其中，C1表示目标域中行人类别数；

6-3当模型稳定后，得到最终re-ID模型,将待查询图片和测试集图片输入最终的re-ID模型进行特征提取，对比查询图片特征与测试集图片特征之间的余弦距离，输出最匹配的行人图片。

本发明有益效果如下：

本发明设计了一个注意力机制引导的背景约束模块，旨在突出图像中有用的前景行人信息，减轻背景杂波的干扰。这有利于引导模型学习更多与行人身份相关的判别特征，从而提高行人特征的辨识度。其次，为了挖掘图像中的细节特征信息，该模型从全局到局部、从浅层到深层挖掘潜在的相似性，从不同的视角为行人生成伪标签。结果表明，这种方法具有更好的鲁棒性和自适应能力，有效的增强了模型的泛化能力。本发明相较于当前最先进的跨域行人重识别方法SNR有较明显的性能提升。

附图说明

图1是本发明的整体实施方案流程图；

图2是本发明的背景约束模块细节示意图；

图3是本发明的多尺度特征提取示意图；

图4是本发明的Star-GAN图像增强示意图；

图5是本发明的多尺度特征分组聚类示意图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1是本发明的整体实施方案流程图，本发明通过加入注意力引导的背景约束模块减轻不同数据集之间由于背景偏差造成的域间差异，使用多尺度特征从不同的视角为行人生成伪标签，为每一个行人构建多尺度伪标签组，从全局到局部、从浅层到深层挖掘潜在的相似性，有效的增强了模型的泛化能力。本发明包括以下步骤：

步骤(1)在行人重识别领域常用的残差网络ResNet50中引入注意力机制，增加多尺度分支,构建自定义的神经网络；

步骤(7)迭代循环步骤(4)-步骤(6)，直到模型稳定。使用最终的re-ID模型在测试集中检索待查询图片，得到最终结果。

所述步骤(1)具体实现过程如下：

1-1采用在ImageNet上预训练过的ResNet50作为骨干网络，保留了主干部分的四个阶段，去除了最后的空间下采样操作、全局平均池化层和完全连接层，并在残差块中的第一个BN层中加入实例归一化。

1-2在ResNet50的各阶段之间插入注意力引导的背景约束模块，参考图2。所采用的注意力由通道注意力C和空间注意力S两部分组成，可以写成S和C的张量乘积，如公式(1)所示。

ATT＝Sigmoid(S×C) (1)

并利用注意力机制所放弃的特征形成反注意分支，解决注意模块导致的特征信息丢失问题,反注意力内核如公式(2)所示。

ATT_R＝1-Sigmoid(S×C) (2)

1-3从ResNet50阶段2和3中提取特征的多尺度分支，也就是提取骨干网络中生成的浅层、中层特征。在ResNet50第4阶段后添加一个全连接层和一个带有切片操作的局部分支，获得行人全身、上半身和下半身三尺度特征，参考图3。并在最后增加一个BN层和分类线性层，该输出用于交叉熵损失训练网络。

所述步骤(2)具体实现过程如下：

2-1源域预训练联合困难三元组损失和Softmax交叉熵损失作为损失函数，其中，ResNet50第4阶段后第一个全连接层的输出特征用于困难三元组损失，分类线性层的输出用于交叉熵损失。使用该损失函数训练直至模型收敛，得到使用源域数据训练的初始re-ID模型。

所述步骤(3)具体实现过程如下：

3-1为了学习一个有效的风格迁移模型，我们构建基于StarGAN的相机风格样式转换模型，假设我们在目标域集合中有C个相机，我们首先训练一个StarGAN模型，它能在每个相机对之间实现图像-图像的转换。

3-2对于每张源域中的图像X_s,i,使用StarGAN模型生成C张图像，每张图像包含图像X_s,i中同一行人，即生成图像的行人标签与原图像一致，且图像风格对应目标域中的相应相机风格，参考图4。经过风格迁移后的源域图像数量扩充为原来的C倍，且包含与目标域风格类似的图片，如在Market-1501数据集中，训练集图像数量由12936扩充为116424。将生成的风格迁移样本与源域原样本结合形成新的训练集，使用三元组损失微调步骤(2)中得到的初始模型。

所述步骤(4)具体实现过程如下：

4-1对于目标域数据集中的每张图像

使用re-ID模型提取特征。我们将目标域图像

输入re-ID模型，得到行人全局特征、上半部分特征和下半部分特征，以及骨干网络中生成的浅层、中层特征。并将这些多尺度特征经过GAP操作。因此，将目标域图像

输入模型可以提取到五组特征向量，分别是整体特征

上半部分特征

下半部分特征

浅层特征

和中层特征

6.根据权利要求5所述的一种基于注意力引导和多尺度标签生成的跨域行人重识别方法,其特征在于，所述步骤(5)具体实现过程下：

5-1对生成的多尺度特征分组计算其两两之间的相似度，引入K-倒数编码法得到行人特征距离矩阵，然后使用无监督聚类方法DBSCAN分别对多尺度特征向量组进行聚类，对属于同一个簇内的样本分配同一个伪标签。因此，每张图像得到不同尺度的5个伪标签，参考图5。我们根据5个特征向量的分组结果建立一个新的目标数据集，每个图像都有5个伪标签，如公式(3)所示。

所述步骤(6)具体实现过程下：

6-1使用标注多尺度伪标签的目标域数据作为监督信息，对每个尺度的伪标签组采用困难三元组损失训练网络，困难三元组损失通过随机采样P个身份，每个身份抽取K个实例，组成一个大小为P*K的mini batch。依次选取批次中的每个图片x_a作为锚点，选出批次中距离最远的正样本图片x_p和距离最近的负样本图片x_n组成三元组来训练网络，增强网络的泛化能力。其公式为：

6-2当网络使用困难三元组损失达到最佳性能后，我们加入交叉熵损失进一步优化网络。使用此策略解决了训练初期使用交叉熵损失导致的误差放大问题，也避免了模型使用三元组损失陷入局部最优解问题。其公式如下：

6-3当模型稳定后，得到最终re-ID模型,将待查询图片和测试集图片输入最终的re-ID模型进行特征提取，对比查询图片特征与测试集图片特征之间的余弦距离，输出最匹配的行人图片。由表1可知，本发明与其它现有方法相比，在Market-1501和DukeMTMC-reID数据集上的实验结果表明，我们的方法在M→D实验中，mAP达到了60.2％，Rank-1达到了77.5％；在D→M实验中，mAP达到了70.2％，Rank-1达到了85.7％。相较于当前最先进的跨域行人重识别方法SNR有较明显的性能提升。

表1 本发明和其它现有方法的比较结果

Claims

1.基于注意力引导和多尺度标签生成的跨域行人重识别方法，按照如下步骤进行：

2.根据权利要求1所述的基于注意力引导和多尺度标签生成的跨域行人重识别方法,其特征在于所述步骤(1)具体实现过程如下：

ATT＝Sigmoid(S×C) (1)

ATT_R＝1-Sigmoid(S×C) (2)

3.根据权利要求2所述的基于注意力引导和多尺度标签生成的跨域行人重识别方法，其特征在于所述步骤(2)具体实现过程如下：

4.根据权利要求3所述的基于注意力引导和多尺度标签生成的跨域行人重识别方法，其特征在于所述步骤(3)具体实现过程如下：

5.根据权利要求4所述的基于注意力引导和多尺度标签生成的跨域行人重识别方法，其特征在于所述步骤(4)具体实现过程如下：

4-1对于目标域数据集中的每张图像

使用re-ID模型提取特征；将目标域图像

输入模型可以提取到五组特征向量，分别是全局特征

上半部分特征

下半部分特征

浅层特征

和中层特征

6.根据权利要求5所述的基于注意力引导和多尺度标签生成的跨域行人重识别方法，其特征在于所述步骤(5)具体实现过程下：

其中，

N_t表示目标域图片数量。

7.根据权利要求6所述的基于注意力引导和多尺度标签生成的跨域行人重识别方法，其特征在于所述步骤(6)具体实现过程下：

6-1使用标注多尺度伪标签的目标域数据作为监督信息，对每个尺度的伪标签组采用困难三元组损失训练网络，困难三元组损失通过随机采样P个身份，每个身份抽取K个实例，组成一个大小为P*K的minibatch；依次选取批次中的每个图片x_a作为锚点，选出批次中距离最远的正样本图片x_p和距离最近的负样本图片x_n组成三元组来训练网络，增强网络的泛化能力；其公式为：

其中，C1表示目标域中行人类别数；