CN116052057A

CN116052057A - 基于自监督学习和预训练模型的跨模态行人重识别方法

Info

Publication number: CN116052057A
Application number: CN202310124738.8A
Authority: CN
Inventors: 孙锐; 谢瑞瑞; 陈龙; 杜云; 张旭东
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2023-02-16
Filing date: 2023-02-16
Publication date: 2023-05-02

Abstract

本发明公开了一种基于自监督学习和预训练模型的跨模态行人重识别方法，其步骤包括：1、获取大规模的无标签行人数据集，并利用跨模态灾难性遗忘评分对采集到的行人数据集进行筛选；2、将筛选出的行人数据通过通道组合模块生成正负样本，构建自监督对比学习网络分别提取负样本和正样本特征；3、通过双向对比损失函数约束正样本与负样本之间的特征距离，以此训练得到预训练模型；4、将训练得到的编码器迁移至其他跨模态行人重识别模型进行微调后，得到微调后的跨模态行人重识别模型。本发明通过通道组合方法，从同一张图像中分离出正负样本并完成自监督训练，从而能提高红外与可见光的行人再识别的准确度。

Description

基于自监督学习和预训练模型的跨模态行人重识别方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于自监督学习和预训练模型的跨模态行人重识别方法。

背景技术

近年来，随着可见光-近红外双模摄像机的不断普及，为构建24小时全时段行人再识别系统提供了条件。面对可见光摄像机在光线不足情况下难以拍摄出有效信息的局限性，红外摄像机弥补了其缺点，在夜间或较差的照明条件下仍能捕捉行人的外观特征，同时也衍生出一种新型的跨模态再识别任务，即可见光-近红外跨模态行人重识别。跨模态行人重识别大体分为两个阶段：预训练阶段和微调阶段。

然而，在预训练阶段，现有的跨模态行人重识别技术仅利用可见光图像集作为预训练数据，在预训练过程中，单一的可见光图像会导致模型只能关注于光线充足的行人图像。另一方面，目前预训练方法为有标签的物体上做分类任务，但行人识别与物体分类任务差距较大，这种预训练方式不能很好的帮助模型获取近红外行人图像的特征，导致迁移识别结果不理想。

发明内容

本发明为克服现有技术中存在的问题，提出一种基于自监督学习和预训练模型的跨模态行人重识别方法，以期能实现模型面对各种样本的泛化能力，同时考虑到训练样本与下游任务样本的域间差距，从而能更好地提取可见光图像与近红外图像的纹理特征，进而能提高跨模态行人重识别的准确度。

本发明为解决技术问题采用如下技术方案：

本发明一种基于自监督学习和预训练模型的跨模态行人重识别方法的特点在于，包括如下步骤：

步骤1、预训练数据的获取与预处理；

步骤1.1、利用YOLO算法从视频中采集M张可见光行人图像并进行归一化预处理，得到可见光数据集

其中，

表示第m张可见光行人图像；

利用近红外相机采集N个行人的近红外行人图像并进行归一化预处理，得到近红外数据集D_t＝(X_t,Y_t)，其中，X_t表示近红外图像数据集，且

表示第n张近红外行人图像，Y_t为X_t的身份标签数据集；

步骤1.2、使用通道增强方法将可见光数据集X_s转换为与近红外更相近的第三模态，得到可见光增强数据集

其中，

表示第m张可见光增强行人图像；

步骤1.3、利用式(1)计算第m张可见光增强行人图像

与第m张近红外行人图像

间的跨模态灾难性遗忘评分，用于度量第m张可见光增强行人图像

与近红外行人图像

的特征距离

式(1)中，θ_s表示在可见光数据集X_s上进行无监督预训练的编码器，θ_t表示在近红外图像数据集X_t上进行有监督训练的编码器；

步骤1.4、按照步骤1.3的过程得到所有可见光增强行人图像分别与各个近红外行人图像间的特征距离，并从中筛选出距离最近的M′张可见光行人图像，用于构建无标签的预训练数据集

其中，

表示筛选出的第m′张可见光行人图像；

步骤2、构建通道组合模块与对比学习网络，所述通道组合模块用于生成正样本图像，所述对比学习网络用于提取图像特征；

步骤2.1、所述通道组合模块包括：通道分离复制单元、通道擦除单元、通道叠加单元；并

输入所述通道组合模块中进行处理，得到

的正样本图像对集合；

步骤2.2、所述对比学习网络由两个编码器E_Q,E_K、一个线性降维模块M、一个记忆存储库模块组成；

将

的正样本图像对集合中任意一个正样本对中的一个组合图像视为一个锚点并输入编码器E_Q中进行处理，将正样本对中的另外一个组合图像视为正样本，将预训练数据集X*中除

外的其他图像视为负样本集合，并与一起输入编码器E_K中进行处理，从而得到锚点、正样本、负样本集合的初步特征；

所述线性降维模块M由包含两层全连接层和Relu函数的MLP层组成，并用于对锚点、正样本、负样本集合的初步特征进行线性降维，得到降维后的锚点、正样本、负样本集合的特征；

所述记忆存储库模块为队列结构，用于动态存储降维后的负样本集合的特征；

步骤3、使用式(2)建立反向传播的双重对比损失函数L：

式(2)中，α，β为比例系数，且α+β＝1；q为降维后的锚点的特征；k⁺为降维后的正样本的特征，k_i ^-为降维后的负样本集合的特征中任意第i个特征；τ为温度系数；K表示降维后的负样本集合的特征数；

步骤4、利用梯度下降法对所述对比学习网络进行训练，并计算双重对比损失函数L以更新网络参数，当损失函数L的值小于所设定的阈值或训练迭代次数达到所设定的要求时，完成训练，并得到最优预训练模型；

步骤5、将所述预训练模型迁移至跨模态行人重识别模型上，并将近红外数据集D_t＝(X_t,Y_t)输入到迁移后的跨模态行人重识别模型上进行训练，以微调跨模态行人重识别模型的参数，从而得到微调后的跨模态行人重识别模型，用于对待预测的近红外图像数据进行跨模态行人重识别。

本发明所述的基于自监督学习的跨模态行人重识别方法的特点也在于，所述步骤2.1具体包括如下过程：

所述通道分离复制单元对任意一张可见光行人图像的R、G、B三通道进行分离与复制，得到可见光行人图像在三通道上的若干个复制图像；

所述通道擦除单元利用通道擦除函数对可见光行人图像在三通道上的若干个复制图像分别进行部分像素的擦除；

所述通道叠加单元从可见光行人图像在三通道上擦除后的若干个复制图像中随机选取三个复制图像进行组合，得到一个组合图像，从而得到可见光行人图像的若干个组合图像，并由任意两个组合图像构成一个正样本图像对。

本发明一种电子设备，包括存储器以及处理器的特点在于，所述存储器用于存储支持处理器执行所述跨模态行人重识别方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

本发明一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序的特点在于，所述计算机程序被处理器运行时执行所述跨模态行人重识别方法的步骤。

与已有技术相比，本发明有益效果体现在：

1.本发明基于跨模态灾难性遗忘评分，度量了预训练数据与目标任务数据在目标域模型下的特征相似度，减小了RGB单模态数据集与RGB-IR双模态数据集之间的域间差距，实现了大批量数据的高效筛选，避免了传统预训练方法面对大量低质量预训练数据所耗费的漫长训练时间，从而提高了模型面对大数据训练的效率。

2.本发明设计了一种通道叠加擦除方法，从图像通道分离角度出发，该方法能更好的利用通道之间的颜色信息关联以更好的生成样本，增加了预训练样本的多样性，从而提高了模型面对复杂样本的鲁棒性。

3.本发明通过构建自监督对比学习网络及其与通道叠加擦除策略的联合应用，生成了具有辨别度的正负样本，使模型在无标签情况下完成训练并获得良好的预训练模型，最终提高了下游任务的识别准确率。

附图说明

图1为本发明跨模态行人重识别预训练网络的结构图；

图2为本发明的流程图。

具体实施方式

本实施例中，一种基于自监督学习的跨模态行人重识别预训练方法，是先构造大规模无标签可见光行人数据集，然后利用跨模态灾难性遗忘指数对该数据集进行筛选，最后将筛选完之后的数据集输入构建的自监督对比学习网络，联合通道叠加擦除方法生成正样本与负样本完成训练，如图1所示，具体步骤如下：

步骤1、预训练数据的获取与预处理；

其中，

表示第m张可见光行人图像。本实施例中，将LUPerson数据集作为需要被筛选的可见光数据集

该数据集的数据由利用YOLO算法，从视频网站上检索场景所获取的视频中截取获得，共包括超过20万行人身份的46260个场景的4180243张无标签行人可见光图像；

表示第n张近红外行人图像，Y_t为X_t的身份标签数据集。本实施例中，选取SYSY-MM01作为近红外数据集

该数据集由4个可见光摄像机和2个近红外摄像机拍摄采集而成。SYSU-MM01一共包含491个行人身份，每个行人最少由两个不同的摄像机拍摄，一共有287628张可见光RGB图像和15792张近红外图像。选取395个行人身份图像作为训练集，剩余96个行人身份图像作为测试集。随机选取301幅可见光图像作为检索图像，3803幅红外图像作为被检索图像；

其中，

表示第m张可见光增强行人图像；

本实施例中，将LUPerson即

输入通道增强模块，获得与原数据一一对应第三模态数据

目的是借助第三模态降低可见光图像与近红外图像的域间差距；

步骤1.3、利用式(1)计算第m张可见光增强行人图像

与第m张近红外行人图像

与近红外行人图像

的特征距离

式(1)中，θ_s表示在可见光数据集X_s上进行无监督预训练的编码器，θ_t表示在近红外图像数据集X_t上进行有监督训练的编码器；在本实施例中，θ_s为使用未经筛选的LUPerson在对比学习网络MoCo上训练的ResNet50编码器，θ_t为在SYSU-MM01上使用AGW模型训练的ResNet50编码器，

为LUPerson中经过通道增强策略CAJ获取的增强图像，

为LUPerson的原始图像；

步骤1.4、如图1所示，按照步骤1.3的过程得到所有可见光增强行人图像分别与各个近红外行人图像间的特征距离，并从中筛选出距离最近的M′张可见光行人图像，用于构建无标签的预训练数据集

其中，

表示筛选出的第m′张可见光行人图像；跨模态灾难性遗忘评分

度量的是LUPerson数据与SYSU-MM01数据集之间的特征差距，筛选过程选择与近红外图像特征相似度高的数据作为预训练数据；本实施例中，将全部400万张可见光数据经过通道增强后输入公式计算评分，再根据评分筛选出特征相似度最高的前100万张图像组成预训练数据集

步骤2、构建通道组合模块与对比学习网络，通道组合模块用于生成正样本图像，对比学习网络用于提取图像特征；

步骤2.1、通道组合模块包括：通道分离复制单元、通道擦除单元、通道叠加单元；并将

输入通道组合模块中进行处理，得到

的正样本图像对集合；

通道分离复制单元对任意一张可见光行人图像的R、G、B三通道进行分离与复制，得到可见光行人图像在三通道上的若干个复制图像；

通道擦除单元利用通道擦除函数对可见光行人图像在三通道上的若干个复制图像分别进行部分像素的擦除；

通道叠加单元从可见光行人图像在三通道上擦除后的若干个复制图像中随机选取三个复制图像进行组合，得到一个组合图像，从而得到可见光行人图像的若干个组合图像，并由任意两个组合图像构成一个正样本图像对。

输入通道组合模块后首先经过通道分离复制单元将图像R、G、B三通道分离并复制，得到九张单通道的图像，其中R、G、B三通道分别各有三张图像，再经过通道擦除单元对上一单元获得的单通道图像分别进行随机擦除，最后将擦除后的单通道图像输入通道叠加单元进行组合，组合方式为从九张图像中随机取三张单通道图像而组合成一张三通道图像；同一图像重复两次，得到两张三通道图像，从而构成正样本图像对；在本实施例中，首先将预训练数据集

中的可见光图像

输入通道分离复制单元，得到九张单通道色彩图像

之后将每张单通道图像分别输入随机擦除单元得到九张擦除后的单通道图像

再将这九张图像输入到通道组合单元，选择从大规模数据集LUPerson中获得的R、G和B通道的平均值作为每个图片的擦除值，得到三通道图像

以上过程重复两次，得到正样本对

和

同时预训练数据集中的其他图片在训练时将作为负样本，表述为：

通道擦除策略与通道交换策略相结合，生成了大量风格的多模态图片，处理过程中伴随着擦除区域的随机选取与叠加，对颜色层面进行了叠加擦除处理，同时当R、G、B通道擦除区域有重叠部分时还保留了纹理方面的硬擦除。作为一种轻量级的数据增广方法，通道叠加擦除策略进一步深化了图片的颜色变换，在可见光近红外行人重识别任务当中，帮助网络训练更合适的参数来提取模态不变特征。

步骤2.2、对比学习网络由两个编码器E_Q,E_K、一个线性降维模块M、一个记忆存储库模块组成；

将

的正样本图像对集合中任意一个正样本对中的一个组合图像视为一个锚点并输入编码器E_Q中进行处理；将正样本对中的另外一个组合图像视为正样本，将预训练数据集X^*中除

外的其他图像视为负样本集合，正样本与负样本集合一起输入编码器E_K中进行处理，从而得到锚点、正样本、负样本集合的初步特征；本实施例中，E_Q，E_K均为ResNet50编码器，如图1所示，由于显存大小的限制，负样本集合与正样本不能够同时输入到E_K当中，但训练过程参数的更新又是不断迭代的，因此为了保证正负样本的特征差异变化小，E_K随着E_Q参数的不断迭代，会自动动量更新，更新表述如式(3)所示：

E_K＝mE_K+(1-m)E_Q (3)

式(3)中，m是一个可控制参数，本实例中，m取0.999，E_K初始化与E_Q一致；

将通过步骤2.1获取的锚点

输入编码器E_Q得到特征q，将

输入另一个编码器E_K得到特征k⁺。此外，训练过程中当前Batch中的其他图片

经过编码器E_k可以得到一系列负样本特征

得到特征之后对比学习就可以看成一个字典查询任务，给定字典中的一个查询信息q和字典内容

训练过程希望q可以查询到其对应正样本k⁺，对比学习实质上鼓励q在收敛过程中不断接近正样本k⁺，远离负样本

表述如下：

score(E_q(q),E_k(k⁺))＞＞score(E_q(q),E_k(k^-)) (4)

线性降维模块M由包含两层全连接层和Relu函数的MLP层组成，并用于对锚点、正样本、负样本集合的初步特征进行线性降维，得到降维后的锚点、正样本、负样本集合的特征；

记忆存储库模块为队列结构，用于动态存储降维后的负样本集合的特征；

步骤3、利用式(2)建立反向传播的双重对比损失函数L：

式(2)中，α，β为比例系数，且α+β＝1；q为降维后的锚点的特征；k⁺为降维后的正样本的特征，k_i ^-为降维后的负样本集合的特征中任意第i个特征；τ为温度系数；本实施例中α，β均取值0.5，经过测试τ取0.07；

步骤4、利用梯度下降法对对比学习网络进行训练，并计算双重对比损失函数L以更新网络参数，当损失函数L的值小于所设定的阈值或训练迭代次数达到所设定的要求时，完成训练，并得到最优预训练模型；本实施例中，训练600个epoch后结束训练，得到预训练完成的ResNet50编码器；

步骤5、将预训练模型迁移至跨模态行人重识别模型上，并将近红外数据集D_t＝(X_t,Y_t)输入到迁移后的跨模态行人重识别模型上进行训练，以微调跨模态行人重识别模型的参数，从而得到微调后的跨模态行人重识别模型，用于对待预测的近红外图像数据进行跨模态行人重识别；在本实例中，下游测试模型为AGW模型，将步骤4获得的ResNet50网络迁移至AGW模型当中，利用SYSU-MM01数据集的训练集进行训练，训练完毕后利用SYSU-MM01数据集的测试集进行测试，获得识别结果。

本实施例中，一种电子设备，包括存储器以及处理器，该存储器用于存储支持处理器执行上述方法的程序，该处理器被配置为用于执行该存储器中存储的程序。

本实施例中，一种计算机可读存储介质，是在计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法的步骤。