CN116052057A - 基于自监督学习和预训练模型的跨模态行人重识别方法 - Google Patents

基于自监督学习和预训练模型的跨模态行人重识别方法 Download PDF

Info

Publication number
CN116052057A
CN116052057A CN202310124738.8A CN202310124738A CN116052057A CN 116052057 A CN116052057 A CN 116052057A CN 202310124738 A CN202310124738 A CN 202310124738A CN 116052057 A CN116052057 A CN 116052057A
Authority
CN
China
Prior art keywords
pedestrian
visible light
image
training
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310124738.8A
Other languages
English (en)
Inventor
孙锐
谢瑞瑞
陈龙
杜云
张旭东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202310124738.8A priority Critical patent/CN116052057A/zh
Publication of CN116052057A publication Critical patent/CN116052057A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/54Extraction of image or video features relating to texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于自监督学习和预训练模型的跨模态行人重识别方法,其步骤包括:1、获取大规模的无标签行人数据集,并利用跨模态灾难性遗忘评分对采集到的行人数据集进行筛选;2、将筛选出的行人数据通过通道组合模块生成正负样本,构建自监督对比学习网络分别提取负样本和正样本特征;3、通过双向对比损失函数约束正样本与负样本之间的特征距离,以此训练得到预训练模型;4、将训练得到的编码器迁移至其他跨模态行人重识别模型进行微调后,得到微调后的跨模态行人重识别模型。本发明通过通道组合方法,从同一张图像中分离出正负样本并完成自监督训练,从而能提高红外与可见光的行人再识别的准确度。

Description

基于自监督学习和预训练模型的跨模态行人重识别方法
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于自监督学习和预训练模型的跨模态行人重识别方法。
背景技术
近年来,随着可见光-近红外双模摄像机的不断普及,为构建24小时全时段行人再识别系统提供了条件。面对可见光摄像机在光线不足情况下难以拍摄出有效信息的局限性,红外摄像机弥补了其缺点,在夜间或较差的照明条件下仍能捕捉行人的外观特征,同时也衍生出一种新型的跨模态再识别任务,即可见光-近红外跨模态行人重识别。跨模态行人重识别大体分为两个阶段:预训练阶段和微调阶段。
然而,在预训练阶段,现有的跨模态行人重识别技术仅利用可见光图像集作为预训练数据,在预训练过程中,单一的可见光图像会导致模型只能关注于光线充足的行人图像。另一方面,目前预训练方法为有标签的物体上做分类任务,但行人识别与物体分类任务差距较大,这种预训练方式不能很好的帮助模型获取近红外行人图像的特征,导致迁移识别结果不理想。
发明内容
本发明为克服现有技术中存在的问题,提出一种基于自监督学习和预训练模型的跨模态行人重识别方法,以期能实现模型面对各种样本的泛化能力,同时考虑到训练样本与下游任务样本的域间差距,从而能更好地提取可见光图像与近红外图像的纹理特征,进而能提高跨模态行人重识别的准确度。
本发明为解决技术问题采用如下技术方案:
本发明一种基于自监督学习和预训练模型的跨模态行人重识别方法的特点在于,包括如下步骤:
步骤1、预训练数据的获取与预处理;
步骤1.1、利用YOLO算法从视频中采集M张可见光行人图像并进行归一化预处理,得到可见光数据集
Figure BDA0004081665610000011
其中,
Figure BDA0004081665610000012
表示第m张可见光行人图像;
利用近红外相机采集N个行人的近红外行人图像并进行归一化预处理,得到近红外数据集Dt=(Xt,Yt),其中,Xt表示近红外图像数据集,且
Figure BDA0004081665610000013
Figure BDA0004081665610000014
表示第n张近红外行人图像,Yt为Xt的身份标签数据集;
步骤1.2、使用通道增强方法将可见光数据集Xs转换为与近红外更相近的第三模态,得到可见光增强数据集
Figure BDA0004081665610000021
其中,
Figure BDA0004081665610000022
表示第m张可见光增强行人图像;
步骤1.3、利用式(1)计算第m张可见光增强行人图像
Figure BDA0004081665610000023
与第m张近红外行人图像
Figure BDA0004081665610000024
间的跨模态灾难性遗忘评分,用于度量第m张可见光增强行人图像
Figure BDA0004081665610000025
与近红外行人图像
Figure BDA0004081665610000026
的特征距离
Figure BDA0004081665610000027
Figure BDA0004081665610000028
式(1)中,θs表示在可见光数据集Xs上进行无监督预训练的编码器,θt表示在近红外图像数据集Xt上进行有监督训练的编码器;
步骤1.4、按照步骤1.3的过程得到所有可见光增强行人图像分别与各个近红外行人图像间的特征距离,并从中筛选出距离最近的M′张可见光行人图像,用于构建无标签的预训练数据集
Figure BDA0004081665610000029
其中,
Figure BDA00040816656100000210
表示筛选出的第m′张可见光行人图像;
步骤2、构建通道组合模块与对比学习网络,所述通道组合模块用于生成正样本图像,所述对比学习网络用于提取图像特征;
步骤2.1、所述通道组合模块包括:通道分离复制单元、通道擦除单元、通道叠加单元;并
Figure BDA00040816656100000211
输入所述通道组合模块中进行处理,得到
Figure BDA00040816656100000212
的正样本图像对集合;
步骤2.2、所述对比学习网络由两个编码器EQ,EK、一个线性降维模块M、一个记忆存储库模块组成;
Figure BDA00040816656100000213
的正样本图像对集合中任意一个正样本对中的一个组合图像视为一个锚点并输入编码器EQ中进行处理,将正样本对中的另外一个组合图像视为正样本,将预训练数据集X*中除
Figure BDA00040816656100000214
外的其他图像视为负样本集合,并与一起输入编码器EK中进行处理,从而得到锚点、正样本、负样本集合的初步特征;
所述线性降维模块M由包含两层全连接层和Relu函数的MLP层组成,并用于对锚点、正样本、负样本集合的初步特征进行线性降维,得到降维后的锚点、正样本、负样本集合的特征;
所述记忆存储库模块为队列结构,用于动态存储降维后的负样本集合的特征;
步骤3、使用式(2)建立反向传播的双重对比损失函数L:
Figure BDA0004081665610000031
式(2)中,α,β为比例系数,且α+β=1;q为降维后的锚点的特征;k+为降维后的正样本的特征,ki -为降维后的负样本集合的特征中任意第i个特征;τ为温度系数;K表示降维后的负样本集合的特征数;
步骤4、利用梯度下降法对所述对比学习网络进行训练,并计算双重对比损失函数L以更新网络参数,当损失函数L的值小于所设定的阈值或训练迭代次数达到所设定的要求时,完成训练,并得到最优预训练模型;
步骤5、将所述预训练模型迁移至跨模态行人重识别模型上,并将近红外数据集Dt=(Xt,Yt)输入到迁移后的跨模态行人重识别模型上进行训练,以微调跨模态行人重识别模型的参数,从而得到微调后的跨模态行人重识别模型,用于对待预测的近红外图像数据进行跨模态行人重识别。
本发明所述的基于自监督学习的跨模态行人重识别方法的特点也在于,所述步骤2.1具体包括如下过程:
所述通道分离复制单元对任意一张可见光行人图像的R、G、B三通道进行分离与复制,得到可见光行人图像在三通道上的若干个复制图像;
所述通道擦除单元利用通道擦除函数对可见光行人图像在三通道上的若干个复制图像分别进行部分像素的擦除;
所述通道叠加单元从可见光行人图像在三通道上擦除后的若干个复制图像中随机选取三个复制图像进行组合,得到一个组合图像,从而得到可见光行人图像的若干个组合图像,并由任意两个组合图像构成一个正样本图像对。
本发明一种电子设备,包括存储器以及处理器的特点在于,所述存储器用于存储支持处理器执行所述跨模态行人重识别方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
本发明一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序的特点在于,所述计算机程序被处理器运行时执行所述跨模态行人重识别方法的步骤。
与已有技术相比,本发明有益效果体现在:
1.本发明基于跨模态灾难性遗忘评分,度量了预训练数据与目标任务数据在目标域模型下的特征相似度,减小了RGB单模态数据集与RGB-IR双模态数据集之间的域间差距,实现了大批量数据的高效筛选,避免了传统预训练方法面对大量低质量预训练数据所耗费的漫长训练时间,从而提高了模型面对大数据训练的效率。
2.本发明设计了一种通道叠加擦除方法,从图像通道分离角度出发,该方法能更好的利用通道之间的颜色信息关联以更好的生成样本,增加了预训练样本的多样性,从而提高了模型面对复杂样本的鲁棒性。
3.本发明通过构建自监督对比学习网络及其与通道叠加擦除策略的联合应用,生成了具有辨别度的正负样本,使模型在无标签情况下完成训练并获得良好的预训练模型,最终提高了下游任务的识别准确率。
附图说明
图1为本发明跨模态行人重识别预训练网络的结构图;
图2为本发明的流程图。
具体实施方式
本实施例中,一种基于自监督学习的跨模态行人重识别预训练方法,是先构造大规模无标签可见光行人数据集,然后利用跨模态灾难性遗忘指数对该数据集进行筛选,最后将筛选完之后的数据集输入构建的自监督对比学习网络,联合通道叠加擦除方法生成正样本与负样本完成训练,如图1所示,具体步骤如下:
步骤1、预训练数据的获取与预处理;
步骤1.1、利用YOLO算法从视频中采集M张可见光行人图像并进行归一化预处理,得到可见光数据集
Figure BDA0004081665610000041
其中,
Figure BDA0004081665610000042
表示第m张可见光行人图像。本实施例中,将LUPerson数据集作为需要被筛选的可见光数据集
Figure BDA0004081665610000043
该数据集的数据由利用YOLO算法,从视频网站上检索场景所获取的视频中截取获得,共包括超过20万行人身份的46260个场景的4180243张无标签行人可见光图像;
利用近红外相机采集N个行人的近红外行人图像并进行归一化预处理,得到近红外数据集Dt=(Xt,Yt),其中,Xt表示近红外图像数据集,且
Figure BDA0004081665610000044
Figure BDA0004081665610000045
表示第n张近红外行人图像,Yt为Xt的身份标签数据集。本实施例中,选取SYSY-MM01作为近红外数据集
Figure BDA0004081665610000046
该数据集由4个可见光摄像机和2个近红外摄像机拍摄采集而成。SYSU-MM01一共包含491个行人身份,每个行人最少由两个不同的摄像机拍摄,一共有287628张可见光RGB图像和15792张近红外图像。选取395个行人身份图像作为训练集,剩余96个行人身份图像作为测试集。随机选取301幅可见光图像作为检索图像,3803幅红外图像作为被检索图像;
步骤1.2、使用通道增强方法将可见光数据集Xs转换为与近红外更相近的第三模态,得到可见光增强数据集
Figure BDA0004081665610000051
其中,
Figure BDA0004081665610000052
表示第m张可见光增强行人图像;
本实施例中,将LUPerson即
Figure BDA0004081665610000053
输入通道增强模块,获得与原数据一一对应第三模态数据
Figure BDA0004081665610000054
目的是借助第三模态降低可见光图像与近红外图像的域间差距;
步骤1.3、利用式(1)计算第m张可见光增强行人图像
Figure BDA0004081665610000055
与第m张近红外行人图像
Figure BDA0004081665610000056
间的跨模态灾难性遗忘评分,用于度量第m张可见光增强行人图像
Figure BDA0004081665610000057
与近红外行人图像
Figure BDA0004081665610000058
的特征距离
Figure BDA0004081665610000059
Figure BDA00040816656100000510
式(1)中,θs表示在可见光数据集Xs上进行无监督预训练的编码器,θt表示在近红外图像数据集Xt上进行有监督训练的编码器;在本实施例中,θs为使用未经筛选的LUPerson在对比学习网络MoCo上训练的ResNet50编码器,θt为在SYSU-MM01上使用AGW模型训练的ResNet50编码器,
Figure BDA00040816656100000511
为LUPerson中经过通道增强策略CAJ获取的增强图像,
Figure BDA00040816656100000512
为LUPerson的原始图像;
步骤1.4、如图1所示,按照步骤1.3的过程得到所有可见光增强行人图像分别与各个近红外行人图像间的特征距离,并从中筛选出距离最近的M′张可见光行人图像,用于构建无标签的预训练数据集
Figure BDA00040816656100000513
其中,
Figure BDA00040816656100000514
表示筛选出的第m′张可见光行人图像;跨模态灾难性遗忘评分
Figure BDA00040816656100000515
度量的是LUPerson数据与SYSU-MM01数据集之间的特征差距,筛选过程选择与近红外图像特征相似度高的数据作为预训练数据;本实施例中,将全部400万张可见光数据经过通道增强后输入公式计算评分,再根据评分筛选出特征相似度最高的前100万张图像组成预训练数据集
Figure BDA00040816656100000516
步骤2、构建通道组合模块与对比学习网络,通道组合模块用于生成正样本图像,对比学习网络用于提取图像特征;
步骤2.1、通道组合模块包括:通道分离复制单元、通道擦除单元、通道叠加单元;并将
Figure BDA00040816656100000517
输入通道组合模块中进行处理,得到
Figure BDA00040816656100000518
的正样本图像对集合;
通道分离复制单元对任意一张可见光行人图像的R、G、B三通道进行分离与复制,得到可见光行人图像在三通道上的若干个复制图像;
通道擦除单元利用通道擦除函数对可见光行人图像在三通道上的若干个复制图像分别进行部分像素的擦除;
通道叠加单元从可见光行人图像在三通道上擦除后的若干个复制图像中随机选取三个复制图像进行组合,得到一个组合图像,从而得到可见光行人图像的若干个组合图像,并由任意两个组合图像构成一个正样本图像对。
Figure BDA0004081665610000061
输入通道组合模块后首先经过通道分离复制单元将图像R、G、B三通道分离并复制,得到九张单通道的图像,其中R、G、B三通道分别各有三张图像,再经过通道擦除单元对上一单元获得的单通道图像分别进行随机擦除,最后将擦除后的单通道图像输入通道叠加单元进行组合,组合方式为从九张图像中随机取三张单通道图像而组合成一张三通道图像;同一图像重复两次,得到两张三通道图像,从而构成正样本图像对;在本实施例中,首先将预训练数据集
Figure BDA0004081665610000062
中的可见光图像
Figure BDA0004081665610000063
输入通道分离复制单元,得到九张单通道色彩图像
Figure BDA0004081665610000064
之后将每张单通道图像分别输入随机擦除单元得到九张擦除后的单通道图像
Figure BDA0004081665610000065
再将这九张图像输入到通道组合单元,选择从大规模数据集LUPerson中获得的R、G和B通道的平均值作为每个图片的擦除值,得到三通道图像
Figure BDA0004081665610000066
以上过程重复两次,得到正样本对
Figure BDA0004081665610000067
Figure BDA0004081665610000068
同时预训练数据集中的其他图片在训练时将作为负样本,表述为:
Figure BDA0004081665610000069
通道擦除策略与通道交换策略相结合,生成了大量风格的多模态图片,处理过程中伴随着擦除区域的随机选取与叠加,对颜色层面进行了叠加擦除处理,同时当R、G、B通道擦除区域有重叠部分时还保留了纹理方面的硬擦除。作为一种轻量级的数据增广方法,通道叠加擦除策略进一步深化了图片的颜色变换,在可见光近红外行人重识别任务当中,帮助网络训练更合适的参数来提取模态不变特征。
步骤2.2、对比学习网络由两个编码器EQ,EK、一个线性降维模块M、一个记忆存储库模块组成;
Figure BDA00040816656100000610
的正样本图像对集合中任意一个正样本对中的一个组合图像视为一个锚点并输入编码器EQ中进行处理;将正样本对中的另外一个组合图像视为正样本,将预训练数据集X*中除
Figure BDA0004081665610000071
外的其他图像视为负样本集合,正样本与负样本集合一起输入编码器EK中进行处理,从而得到锚点、正样本、负样本集合的初步特征;本实施例中,EQ,EK均为ResNet50编码器,如图1所示,由于显存大小的限制,负样本集合与正样本不能够同时输入到EK当中,但训练过程参数的更新又是不断迭代的,因此为了保证正负样本的特征差异变化小,EK随着EQ参数的不断迭代,会自动动量更新,更新表述如式(3)所示:
EK=mEK+(1-m)EQ (3)
式(3)中,m是一个可控制参数,本实例中,m取0.999,EK初始化与EQ一致;
将通过步骤2.1获取的锚点
Figure BDA0004081665610000072
输入编码器EQ得到特征q,将
Figure BDA0004081665610000073
输入另一个编码器EK得到特征k+。此外,训练过程中当前Batch中的其他图片
Figure BDA0004081665610000074
经过编码器Ek可以得到一系列负样本特征
Figure BDA0004081665610000075
得到特征之后对比学习就可以看成一个字典查询任务,给定字典中的一个查询信息q和字典内容
Figure BDA0004081665610000076
训练过程希望q可以查询到其对应正样本k+,对比学习实质上鼓励q在收敛过程中不断接近正样本k+,远离负样本
Figure BDA0004081665610000077
表述如下:
score(Eq(q),Ek(k+))>>score(Eq(q),Ek(k-)) (4)
线性降维模块M由包含两层全连接层和Relu函数的MLP层组成,并用于对锚点、正样本、负样本集合的初步特征进行线性降维,得到降维后的锚点、正样本、负样本集合的特征;
记忆存储库模块为队列结构,用于动态存储降维后的负样本集合的特征;
步骤3、利用式(2)建立反向传播的双重对比损失函数L:
Figure BDA0004081665610000078
式(2)中,α,β为比例系数,且α+β=1;q为降维后的锚点的特征;k+为降维后的正样本的特征,ki -为降维后的负样本集合的特征中任意第i个特征;τ为温度系数;本实施例中α,β均取值0.5,经过测试τ取0.07;
步骤4、利用梯度下降法对对比学习网络进行训练,并计算双重对比损失函数L以更新网络参数,当损失函数L的值小于所设定的阈值或训练迭代次数达到所设定的要求时,完成训练,并得到最优预训练模型;本实施例中,训练600个epoch后结束训练,得到预训练完成的ResNet50编码器;
步骤5、将预训练模型迁移至跨模态行人重识别模型上,并将近红外数据集Dt=(Xt,Yt)输入到迁移后的跨模态行人重识别模型上进行训练,以微调跨模态行人重识别模型的参数,从而得到微调后的跨模态行人重识别模型,用于对待预测的近红外图像数据进行跨模态行人重识别;在本实例中,下游测试模型为AGW模型,将步骤4获得的ResNet50网络迁移至AGW模型当中,利用SYSU-MM01数据集的训练集进行训练,训练完毕后利用SYSU-MM01数据集的测试集进行测试,获得识别结果。
本实施例中,一种电子设备,包括存储器以及处理器,该存储器用于存储支持处理器执行上述方法的程序,该处理器被配置为用于执行该存储器中存储的程序。
本实施例中,一种计算机可读存储介质,是在计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法的步骤。

Claims (4)

1.一种基于自监督学习和预训练模型的跨模态行人重识别方法,其特征在于,包括如下步骤:
步骤1、预训练数据的获取与预处理;
步骤1.1、利用YOLO算法从视频中采集M张可见光行人图像并进行归一化预处理,得到可见光数据集
Figure FDA0004081665600000011
其中,
Figure FDA0004081665600000012
表示第m张可见光行人图像;
利用近红外相机采集N个行人的近红外行人图像并进行归一化预处理,得到近红外数据集Dt=(Xt,Yt),其中,Xt表示近红外图像数据集,且
Figure FDA0004081665600000013
Figure FDA0004081665600000014
表示第n张近红外行人图像,Yt为Xt的身份标签数据集;
步骤1.2、使用通道增强方法将可见光数据集Xs转换为与近红外更相近的第三模态,得到可见光增强数据集
Figure FDA0004081665600000015
其中,
Figure FDA0004081665600000016
表示第m张可见光增强行人图像;
步骤1.3、利用式(1)计算第m张可见光增强行人图像
Figure FDA0004081665600000017
与第m张近红外行人图像
Figure FDA0004081665600000018
间的跨模态灾难性遗忘评分,用于度量第m张可见光增强行人图像
Figure FDA0004081665600000019
与近红外行人图像
Figure FDA00040816656000000110
的特征距离
Figure FDA00040816656000000111
Figure FDA00040816656000000112
式(1)中,θs表示在可见光数据集Xs上进行无监督预训练的编码器,θt表示在近红外图像数据集Xt上进行有监督训练的编码器;
步骤1.4、按照步骤1.3的过程得到所有可见光增强行人图像分别与各个近红外行人图像间的特征距离,并从中筛选出距离最近的M′张可见光行人图像,用于构建无标签的预训练数据集
Figure FDA00040816656000000113
其中,
Figure FDA00040816656000000114
表示筛选出的第m′张可见光行人图像;
步骤2、构建通道组合模块与对比学习网络,所述通道组合模块用于生成正样本图像,所述对比学习网络用于提取图像特征;
步骤2.1、所述通道组合模块包括:通道分离复制单元、通道擦除单元、通道叠加单元;并
Figure FDA00040816656000000115
输入所述通道组合模块中进行处理,得到
Figure FDA00040816656000000116
的正样本图像对集合;
步骤2.2、所述对比学习网络由两个编码器EQ,EK、一个线性降维模块M、一个记忆存储库模块组成;
Figure FDA0004081665600000021
的正样本图像对集合中任意一个正样本对中的一个组合图像视为一个锚点并输入编码器EQ中进行处理,将正样本对中的另外一个组合图像视为正样本,将预训练数据集X*中除
Figure FDA0004081665600000022
外的其他图像视为负样本集合,并与一起输入编码器EK中进行处理,从而得到锚点、正样本、负样本集合的初步特征;
所述线性降维模块M由包含两层全连接层和Relu函数的MLP层组成,并用于对锚点、正样本、负样本集合的初步特征进行线性降维,得到降维后的锚点、正样本、负样本集合的特征;
所述记忆存储库模块为队列结构,用于动态存储降维后的负样本集合的特征;
步骤3、使用式(2)建立反向传播的双重对比损失函数L:
Figure FDA0004081665600000023
式(2)中,α,β为比例系数,且α+β=1;q为降维后的锚点的特征;k+为降维后的正样本的特征,ki -为降维后的负样本集合的特征中任意第i个特征;τ为温度系数;K表示降维后的负样本集合的特征数;
步骤4、利用梯度下降法对所述对比学习网络进行训练,并计算双重对比损失函数L以更新网络参数,当损失函数L的值小于所设定的阈值或训练迭代次数达到所设定的要求时,完成训练,并得到最优预训练模型;
步骤5、将所述预训练模型迁移至跨模态行人重识别模型上,并将近红外数据集Dt=(Xt,Yt)输入到迁移后的跨模态行人重识别模型上进行训练,以微调跨模态行人重识别模型的参数,从而得到微调后的跨模态行人重识别模型,用于对待预测的近红外图像数据进行跨模态行人重识别。
2.根据权利要求1所述的基于自监督学习的跨模态行人重识别方法,其特征在于,所述步骤2.1具体包括如下过程:
所述通道分离复制单元对任意一张可见光行人图像的R、G、B三通道进行分离与复制,得到可见光行人图像在三通道上的若干个复制图像;
所述通道擦除单元利用通道擦除函数对可见光行人图像在三通道上的若干个复制图像分别进行部分像素的擦除;
所述通道叠加单元从可见光行人图像在三通道上擦除后的若干个复制图像中随机选取三个复制图像进行组合,得到一个组合图像,从而得到可见光行人图像的若干个组合图像,并由任意两个组合图像构成一个正样本图像对。
3.一种电子设备,包括存储器以及处理器,其特征在于,所述存储器用于存储支持处理器执行权利要求1或2所述跨模态行人重识别方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
4.一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1或2所述跨模态行人重识别方法的步骤。
CN202310124738.8A 2023-02-16 2023-02-16 基于自监督学习和预训练模型的跨模态行人重识别方法 Pending CN116052057A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310124738.8A CN116052057A (zh) 2023-02-16 2023-02-16 基于自监督学习和预训练模型的跨模态行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310124738.8A CN116052057A (zh) 2023-02-16 2023-02-16 基于自监督学习和预训练模型的跨模态行人重识别方法

Publications (1)

Publication Number Publication Date
CN116052057A true CN116052057A (zh) 2023-05-02

Family

ID=86120059

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310124738.8A Pending CN116052057A (zh) 2023-02-16 2023-02-16 基于自监督学习和预训练模型的跨模态行人重识别方法

Country Status (1)

Country Link
CN (1) CN116052057A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116543268A (zh) * 2023-07-04 2023-08-04 西南石油大学 基于通道增强联合变换的对抗样本生成方法及终端

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116543268A (zh) * 2023-07-04 2023-08-04 西南石油大学 基于通道增强联合变换的对抗样本生成方法及终端
CN116543268B (zh) * 2023-07-04 2023-09-15 西南石油大学 基于通道增强联合变换的对抗样本生成方法及终端

Similar Documents

Publication Publication Date Title
Zhong et al. Grayscale enhancement colorization network for visible-infrared person re-identification
CN111177446B (zh) 一种用于足迹图像检索的方法
CN110414368B (zh) 一种基于知识蒸馏的无监督行人重识别方法
CN111783831B (zh) 基于多源多标签共享子空间学习的复杂图像精确分类方法
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN106096561B (zh) 基于图像块深度学习特征的红外行人检测方法
CN110717411A (zh) 一种基于深层特征融合的行人重识别方法
CN112651262B (zh) 一种基于自适应行人对齐的跨模态行人重识别方法
Tang et al. Multi-modal metric learning for vehicle re-identification in traffic surveillance environment
CN111652273B (zh) 一种基于深度学习的rgb-d图像分类方法
CN111738048A (zh) 一种行人再识别的方法
CN113255602A (zh) 基于多模态数据的动态手势识别方法
CN113065409A (zh) 一种基于摄像分头布差异对齐约束的无监督行人重识别方法
CN116740763A (zh) 一种基于双注意力感知融合网络的跨模态行人重识别方法
Li et al. Pedestrian re-identification based on tree branch network with local and global learning
CN116052057A (zh) 基于自监督学习和预训练模型的跨模态行人重识别方法
He Research on text detection and recognition based on OCR recognition technology
CN112990340B (zh) 一种基于特征共享的自学习迁移方法
CN111814705B (zh) 一种基于批次分块遮挡网络的行人再辨识方法
CN109241315A (zh) 一种基于深度学习的快速人脸检索方法
CN112446305A (zh) 一种基于分类权重等距分布损失模型的行人重识别方法
CN116740480A (zh) 多模态图像融合目标跟踪方法
CN113065434A (zh) 基于双一致性约束的行人再识别技术
Wang Deep learning technology for re-identification of people and vehicles
Ermao et al. Review of Cross-Age Face Recognition in Discriminative Models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination