CN115497120B

CN115497120B - 基于Transformer的两步式领域自适应行人再识别方法

Info

Publication number: CN115497120B
Application number: CN202211166187.3A
Authority: CN
Inventors: 余盛铭; 王生进
Original assignee: Foshan Fansike Material Technology Co ltd; Tsinghua University
Current assignee: Foshan Fansike Material Technology Co ltd; Tsinghua University
Priority date: 2022-09-23
Filing date: 2022-09-23
Publication date: 2023-12-15
Anticipated expiration: 2042-09-23
Also published as: CN115497120A

Abstract

本发明公开了基于Transformer的两步式领域自适应行人再识别方法，属于行人再识别技术领域，将所述源域图像和class token编码后输入Transformer识别模型，提取源域图像中的行人特征，并反向传播更新模型；获取目标域图像，将目标域图像编码后输入Transformer识别模型，提取目标域图像中的行人特征，并反向传播更新模型；开放模型中所有参数，将经过过滤的目标域图像输入Transformer识别模型，提取目标域图像的行人特征，并反向传播更新模型；本发明将Transformer应用到领域自适应行人再识别中，提升了识别模型的性能。

Description

基于Transformer的两步式领域自适应行人再识别方法

技术领域

本发明涉及行人再识别技术领域，具体涉及基于Transformer的两步式领域自适应行人再识别方法。

背景技术

行人再识别(Person re-identification)也称行人重识别，是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术，广泛被认为是一个图像检索的子问题。给定一个监控行人图像，检索跨设备下的该行人图像，旨在弥补固定的摄像头的视觉局限，并可与行人检测/行人跟踪技术相结合，可广泛应用于智能视频监控、智能安保等领域。

有监督学习的行人再识别已经取得了较为理想的效果。具体为利用数据标签通过深度网络提取图像的特征，反向传播更新模型进行训练。应用/测试时，将待查询图像通过深度网络提取特征，与库中所有图像提取的特征比较，选中特征较为接近的图像，现有的深度网络一般使用卷积神经网络，然而实际应用中的场景图像与训练用的图像往往存在一定风格差异，会导致模型识别性能大幅下降，根本原因在于模型泛化能力差，在目标域人工标注部分数据可以解决该问题，但是人工标注需要很高的标注成本和时间。

发明内容

本发明的目的在于提供基于Transformer的两步式领域自适应行人再识别方法，解决以下技术问题：

(1)现有的深度网络一般使用卷积神经网络，然而实际应用中的场景图像与训练用的图像往往存在一定风格差异，会导致模型识别性能大幅下降，根本原因在于模型泛化能力差，在目标域人工标注部分数据可以解决该问题，但是人工标注需要很高的标注成本和时间。

本发明的目的可以通过以下技术方案实现：

1、基于Transformer的两步式领域自适应行人再识别方法，其特征在于，包括以下步骤：

S1、从数据库获取有标签的源域图像，将源域图像进行预处理并添加作为提示的class token；

S2、基于Transformer深度网络构建Transformer识别模型，将S1处理后的源域图像经过position embedding编码排序后输入Transformer识别模型，提取所述源域图像中的行人特征，并利用源域标签反向传播更新模型，反复迭代直至收敛；

S3、获取无标签的目标域图像，将目标域图像进行预处理并添加作为提示的classtoken；

S4、将class token作为域指示器，固定Transformer识别模型中除class token以外的参数，将S3处理后的目标域图像经过position embedding编码排序后输入Transformer识别模型，提取目标域图像中的行人特征，聚类生成伪标签，并利用伪标签反向传播更新模型，反复迭代直至收敛；

S5、开放Transformer识别模型所有参数，对S3处理后的目标域图像进行过滤并输入Transformer识别模型，再次提取目标域图像中的行人特征，聚类更新伪标签，并利用伪标签反向传播更新模型，反复迭代直至收敛。

作为本发明进一步的方案，所述预处理的过程为：

将源域图像或目标域图像划窗为若干个尺寸相同的图像块，并将所述图像块线性映射为向量。

作为本发明进一步的方案，所述预处理的过程还包括：

相邻的所述图像块之间存在重叠区域，所述重叠区域的面积占单个所述图像块面积的a％，a为预设值。

作为本发明进一步的方案，在所述伪标签反向传播更新模型后，Transformer识别模型再次对目标域图像提取行人特征，并对行人特征进行聚类更新目标域图像的伪标签，从而生成新的目标域图像对。

作为本发明进一步的方案，所述目标域图像的一种过滤方法为：

设定固定阈值，通过所述固定阈值对目标域图像特征计算的损失函数加权，实现目标域图像的过滤。

作为本发明进一步的方案，所述目标域图像的另一种过滤方法为：

分别通过源域向量与目标域向量连结其他参数的Transformer识别模型提取特征，计算源域向量与目标域向量之间的KL散度，将所述KL散度作为不确定度，通过所述不确定度对目标域图像特征计算的损失函数加权，实现目标域图像软过滤。

作为本发明进一步的方案，所述Transformer模型通过ImageNet大规模图像分类初始化，所述源域图像为仅包含行人的图像。

作为本发明进一步的方案，所述S2中还包括：

根据所述源域图像标签之间的交叉熵损失函数与三元组损失函数，通过梯度下降反向传播更新Transformer识别模型。

本发明的有益效果：

本发明提供了一种基于Transformer的行人识别模型，首先对Transformer深度网络进行适应性网络改造，并创新提出提示与微调的两步式领域自适应行人再识别方法，即运用改造好的Transformer深度网络代替卷积神经网络作为领域自适应学习的深度网络，并利用其网络独特结构class token应用于无监督域自适应，class token作为域指示器进行训练实现了源域与目标域的迁移，提升了模型泛化能力，相对于其他基于卷积神经网络方法，本发明的检测识别准确率提升、对跨域适应性强，对大数据图像识别更便捷准确；在公开数据集上的检测结果表明，所实现算法取得了优于当前主流算法的行人身份匹配准确率，具有非常优秀的重识别性能；基于Transformer深度网络的行人识别模型，为图像识别与自然语言转换识别在同一网络模型下的联合识别，做好了开创性的基础。

附图说明

下面结合附图对本发明作进一步的说明。

图1是本发明的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1所示，本发明为基于Transformer的两步式领域自适应行人再识别方法，包括以下步骤：

注意力机制是一种在现代深度学习模型中广泛使用的方法，它擅长捕捉数据或特征的内部相关性；Transformer模型基于自注意力机制构筑深度网络；在特定任务中，Transformer的表现优于神经网络模型，其最大的优点来自Transformer适用于并行化；

本发明提供了一种基于Transformer的行人识别模型，首先对Transformer深度网络进行适应性网络改造，并创新提出提示与微调的两步式领域自适应行人再识别方法，即运用改造好的Transformer深度网络代替卷积神经网络作为领域自适应学习的深度网络，并利用其网络独特结构class token应用于无监督域自适应，class token作为域指示器进行训练实现了源域与目标域的迁移，提升了模型泛化能力。

在本发明的一种优选的实施例中，所述预处理的过程为：

将源域图像或目标域图像划窗为若干个尺寸相同的图像块，并将所述图像块线性映射为向量；

所述预处理的过程还包括：

Class token是一个可训练的参数，数据格式和其他向量一样，假设当图像分为N个图像块，输入到Transformer识别模型中就有N个向量，但该取哪一个向量用于分类预测呢？一个合理的做法应当是手动添加一个可学习的嵌入向量class token作为用于分类的类别向量，同时与其他图像块嵌入向量一起输入到Transformer识别模型中，最后取追加的class token作为类别预测结果；所以，class token向量可理解为其他个图像块寻找的类别信息；

之所以设置positional embedding位置编码，是因为当图像中的向量同时经过Transformer的Encoder/Decoder堆栈时，模型本身对于每个向量没有任何位置/顺序感，但是对于图片而言，每个图像块之间是有顺序的，所以给每个向量加上一个positionembedding，position embedding采用的是一个可训练的参数，是直接叠加在向量上的，position embedding的大小与图像块相同。

在本发明的另一种优选的实施例中，在所述伪标签反向传播更新模型后，Transformer识别模型再次对目标域图像提取行人特征，并对行人特征进行聚类更新目标域图像的伪标签，从而生成新的目标域图像对；

通过伪标签法在无标签目标域上聚类得到伪标签，利用伪标签进行训练更新模型，往复迭代；在伪标签技术中，我们不需要手动标记不加标签的数据，而是根据标签的数据给出近似的标签；具体过程如下：

第一步：使用有标签的源域图像训练Transformer识别模型；

第二步：使用训练的模型为无标签的目标域图像预测伪标签；

第三步：同时使用伪标签和原有标签重新训练Transformer识别模型；

在第三步中训练的最终Transformer识别模型用于对目标域图像的最终测试；

S4中的目标域特征提取为粗适应，欠拟合倾向，该步对噪声抗性强，送入所有目标域数据，即便此时目标域包含潜在噪声样本；

S5中的目标域特征提取为细适应，过拟合倾向，该步对噪声抗性弱，送入经过过滤的目标域数据，降低当前伪标签中不可靠样本的权重。

在本发明的另一种优选的实施例中，所述目标图像的一种过滤方法为：

设定固定阈值，通过所述固定阈值对目标域图像特征计算的损失函数加权，实现目标域图像过滤；

通过设定固定阈值，能够快速对目标域图像进行过滤。

在本发明的另一种优选的实施例中，所述目标图像的另一种过滤方法为：

分别通过源域向量与目标域向量连结其他参数的Transformer识别模型提取特征，计算源域向量与目标域向量之间的KL散度，将所述KL散度作为不确定度，通过所述不确定度对目标域图像特征计算的损失函数加权，实现目标域图像软过滤；

KL(Kullback-Leibler)散度，又称相对熵，是两个概率分布(probabilitydistribution)间差异的非对称性度量，在信息理论中，相对熵等价于两个概率分布的信息熵(Shannon entropy)的差值，相对熵可以衡量两个随机分布之间的距离，当两个随机分布相同时，它们的相对熵为零，当两个随机分布的差别增大时，它们的相对熵也会增大，所以相对熵可以用于比较数据的相似度；

于是本申请通过KL散度对目标域图像进行过滤，再将经过过滤的目标域图像输入Transformer深度网络，降低伪标签中不可靠样本的权重。

在本发明的另一种优选的实施例中，所述Transformer模型通过ImageNet大规模图像分类初始化，所述源域图像为仅包含行人的图像；

ImageNet项目是一个用于视觉对象识别软件研究的大型可视化数据库，超过1400万的图像URL被ImageNet手动注释，以指示图片中的对象，从而便于对本发明的Transformer识别模型进行训练。

在本发明的另一种优选的实施例中，所述S2中还包括：

根据所述源域图像标签之间的交叉熵损失函数与三元组损失函数，通过梯度下降反向传播更新Transformer识别模型；

交叉熵损失(Cross Entropy loss)能够衡量同一个随机变量中的两个不同概率分布的差异程度，在机器学习中就表示为真实概率分布与预测概率分布之间的差异；

三元组损失(Triplet loss)，意味着需要同时看三个图片，Anchor图片，Positive图片，Negative图片，Anchor图片与Positive图片意味着是同一个人，Anchor图片与Negative图片意味着不是同一个人的图片，当Anchor图片与Positive图片对比时，想让输出距离越小，当Anchor图片与Negative图片对比时，想让输出距离更大一点，Triplet Loss的目标是使差异小的标签样本在embedding空间内尽可能地近，使差异大的标签样本尽可能地远；

通过交叉熵损失(Cross Entropy loss)与三元组损失(Triplet loss)优化对Transformer识别模型对源域图像的有监督学习。

以上对本发明的一个实施例进行了详细说明，但所述内容仅为本发明的较佳实施例，不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等，均应仍归属于本发明的专利涵盖范围之内。

Claims

1.基于Transformer的两步式领域自适应行人再识别方法，其特征在于，包括以下步骤：

S1、从数据库获取有标签的源域图像，对源域图像进行预处理并添加作为提示的classtoken；

所述对源域图像的预处理的过程为：

将源域图像滑窗为若干个尺寸相同的源域图像块，并将所述源域图像块线性映射为源域向量；

所述对源域图像的预处理的过程还包括：

相邻的所述源域图像块之间存在重叠区域，所述重叠区域的面积占单个所述源域图像块面积的a1%，a1为预设值；

S2、基于Transformer深度网络构建Transformer识别模型，将S1处理获得的源域向量经过positionembedding编码排序后输入Transformer识别模型，提取所述源域图像中的行人特征，并利用源域标签反向传播更新模型，反复更新源域标签和当前模型，如此迭代直至收敛；

所述S2中还包括：

S3、获取无标签的目标域图像，对目标域图像进行预处理并添加作为提示的classtoken；

所述对目标域图像的预处理的过程为：

将目标域图像滑窗为若干个尺寸相同的目标域图像块，并将所述目标域图像块线性映射为目标域向量；

所述对目标域图像的预处理的过程还包括：

相邻的所述目标域图像块之间存在重叠区域，所述重叠区域的面积占单个所述目标域图像块面积的a2%，a2为预设值；

S4、将classtoken作为域指示器，固定Transformer识别模型中除classtoken以外的参数，将S3处理后获得的目标域向量经过positionembedding编码排序后输入Transformer识别模型，提取目标域图像中的行人特征，聚类生成新的伪标签，并利用伪标签反向传播更新模型，反复更新伪标签与当前模型，如此迭代直至收敛；

每次所述伪标签反向传播更新模型后，Transformer识别模型均会再次提取目标域图像中的行人特征，并对行人特征进行聚类更新目标域图像的伪标签，从而生成新的带伪标签的目标域图像对；

S5、开放Transformer识别模型所有参数，将S3处理后获得的目标域向量进行过滤并输入Transformer识别模型，再次提取目标域图像中的行人特征，聚类更新伪标签，并利用伪标签反向传播更新模型，反复更新伪标签与当前模型，如此迭代直至收敛；

所述过滤方法为：

设定固定阈值，通过所述固定阈值对目标域图像特征计算的损失函数加权，实现目标域图像的过滤；

另一种过滤方法为：

2.根据权利要求1所述的基于Transformer的两步式领域自适应行人再识别方法，其特征在于，所述Transformer模型通过ImageNet大规模图像分类初始化，所述源域图像为仅包含行人的图像。