CN115565204A - 一种利用局部监督的跨模态行人重识别方法 - Google Patents

一种利用局部监督的跨模态行人重识别方法 Download PDF

Info

Publication number
CN115565204A
CN115565204A CN202211223245.1A CN202211223245A CN115565204A CN 115565204 A CN115565204 A CN 115565204A CN 202211223245 A CN202211223245 A CN 202211223245A CN 115565204 A CN115565204 A CN 115565204A
Authority
CN
China
Prior art keywords
pedestrian
modal
local
cross
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211223245.1A
Other languages
English (en)
Inventor
江锴威
王进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantong University
Original Assignee
Nantong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nantong University filed Critical Nantong University
Priority to CN202211223245.1A priority Critical patent/CN115565204A/zh
Publication of CN115565204A publication Critical patent/CN115565204A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种利用局部监督的跨模态行人重识别方法,首先利用图像处理的方法将可见光图像转换成与红外图像更为接近的灰度图像,在图像层面缓解跨模态的差异,避免了使用GAN可能会造成的引入新的噪声以及需要额外训练过程的问题。其次使用共享参数的双流网络,提取具有判别性的共享特征,在特征层面缓解跨模态差异;接着,设计了局部监督网络,使学习到的全局特征吸取局部特征的优势,增强其对背景、遮挡等噪声的鲁棒性,缓解了模态内部差异;最后,设计了跨模态分组损失,联合身份损失对网络进行约束,维持类内距离的同时,拉大类间距离,提升整体性能。本发明的跨模态行人重识别框架LSN兼顾解决了跨模态差异以及模态内部差异。

Description

一种利用局部监督的跨模态行人重识别方法
技术领域
本发明涉及人工智能和计算机视觉技术领域,尤其涉及跨模态行人重识别领域,具体涉及一种利用局部监督的跨模态行人重识别方法。
背景技术
随着人工智能的不断发展,智慧城市建设项目近年来在国内外受到了广泛的关注,智能安防作为其中不可或缺的一环,成为了当下研究的热点。要做好智能安防,如何在日常生活场景中准确地识别行人身份便成了一个亟需解决的关键问题。例如,在一个商场内发生了偷窃事件,根据偷窃现场处的监控视频,我们获取到偷窃者的图像,需要在整个商场的所有监控数据中进行识别,进而确认偷窃者的身份以及其行路轨迹,对其实施抓捕。
目前人脸识别的技术已经较为成熟,但它需要高质量的行人正脸图像,而日常生活大多场景下的监控摄像头无法获取到符合要求的图像,往往只能拍摄到行人整体图像。就如上文提到的场景下,偷窃者往往会佩戴帽子和口罩来遮挡其面部特征,在这种非合作场景下,行人重识别技术(Person Re-identification)便被提出作为人脸识别的补充技术,对行人身份进行识别。
行人重识别是指在多个非重叠的摄像头拍摄的场景下,给定一幅待查询的行人图像,进而从大规模行人图像库中检索出与其身份相同的行人图像的技术。在早期的研究中,它多关注的是白天由可见光摄像头捕获的可见光图像,是单一模式的图像。而在实际应用中,可见光摄像头只能满足部分场景的需求。在夜间或者低光照条件下,可见光摄像头无法获取到行人清晰的特征信息,从而影响识别的准确率,为此业界开始引入红外摄像头来弥补这一缺陷。这样,在白天或光照条件良好的条件下采用可见光摄像头拍摄高质量的可见光行人图像,在夜间或低光照环境下可以利用红外摄像头拍摄对光照依赖更小的红外行人图像,较好地摆脱了光照条件的限制。但同时处理两种模态的图像,也增加了行人重识别任务的难度,形成了基于可见光-红外的跨模态行人重识别(Visible Infrared Person Re-Identification,VI-ReID)。
跨模态行人重识别任务主要面临两大挑战。一是模态内部差异,由于每个行人可能是由不同的摄像头所拍摄的,这些摄像头的视点位置、拍照角度等存在差异,得到的行人图像间难免会出现姿势不同、背景不同、遮挡等问题,如图1所示。例如在上述例子中,偷窃者通常会选择人员聚集的地方实施犯罪,这样可以借助周围人群的掩护,导致摄像头采集到的偷窃者的行人图像有严重的背景、遮挡等噪声的干扰。这样即使是同一行人,他自己的图像之间的相似度也可能非常低,甚至低于和其他行人图像间的相似度,产生类内差异大于类间差异的情况。二是跨模态差异,虽然我们引入红外摄像头,摆脱了光照条件的限制。但由于可见光图像和红外图像的波长范围不同,且可见光图像的通道数为3,而红外图像的通道数为1,这使得可见光图像和红外图像在本质上存在着巨大的差异,如图2所示。例如在上述例子中,偷窃者实施偷窃行为后通常会选择光线条件较差的地下停车场这类地点进行藏匿或者逃窜,这种情况下,我们起先获取到的是在偷窃现场由可见光摄像头拍摄到的偷窃者的可见光图像,而此时则是在光线条件较差的地点,由红外摄像头拍摄到的偷窃者的红外图像,我们便需要对这两种模态下行人图像进行识别,大大增加了识别难度。
Wang等人提出的端到端的对齐生成对抗网络(AlignGAN),利用CycleGAN,进行风格迁移,生成伪红外图像来弥补可见光图像与红外图像之间的差距,但不可避免地引入了额外的噪声,并且需要额外的训练过程,消耗大量的时间,从而影响在现实场景下的应用效率。
Ye等人提出的AGW方法,设计了具有非局部注意力机制的基线,通过非局部注意力机制获取中层与高层的信息,增强特征的可判别能力。然而,该模型提取共享特征是以全局特征为基础,样本中含有较多的诸如背景、遮挡等具有干扰性质的噪声,仅使用全局特征的模型对噪声的鲁棒性较差。
发明内容
发明目的:跨模态行人重识别任务中主要面临的跨模态差异和模态内部差异,在现有方法的作用下,均有了不同程度的缓解,但很少有方法能很好地兼顾两者,导致跨模态行人重识别任务的识别率依旧不高。现有方法利用GAN实现模态统一,容易引入新的噪声且需要额外的训练过程,效果不佳;仅利用全局特征也无法确保对遮挡等干扰的鲁棒性。本发明从现有方法的不足出发,本发明提出了一种利用局部监督的跨模态行人重识别方法,来进一步提升跨模态行人重识别任务的识别率。
技术方案:一种利用局部监督的跨模态行人重识别方法,建立一种利用局部监督的跨模态行人重识别框架LSN,假设每次训练,在训练集中随机选取P个行人身份,对每个身份随机选取K张可见光图像和K张红外图像,具体如下:
步骤1:输入K张可见光行人图像、K张红外行人图像至LSN模型,进入步骤2;
步骤2:如果是红外行人图像,进入步骤3,如果是可见光行人图像,则利用图像处理的方法将其转换成灰度图像,进入步骤3;
步骤3:结合Resnet50和Nonlocal注意力模块,提取红外图像和灰度图像具有全局性的共享特征,进入步骤4;
步骤4:利用共享特征,分别提取全局特征和局部特征,进入步骤5;
步骤5:利用局部特征对全局特征进行监督,利用跨模态分组损失结合身份损失对全局特征进行约束,并通过反向传播的方式更新网络参数,进入步骤6;
步骤6:若达到指定训练轮数,则进入步骤7,否则返回步骤1;
步骤7:训练结束。
进一步的,所述的步骤1中的行人图像均来自跨模态行人重识别的标准数据集SYSU-MM01及RegDB;对每张行人图片进行随机裁剪和随机水平翻转,增强实验泛化能力,并将其统一成256×128的尺寸;假设
Figure BDA0003878394640000041
表示第i张可见光图像,
Figure BDA0003878394640000042
表示第j张红外图像,
Figure BDA0003878394640000043
Figure BDA0003878394640000044
分别表示
Figure BDA0003878394640000045
Figure BDA0003878394640000046
对应的行人身份;其中,输入同一行人
Figure BDA0003878394640000047
的可见光模态样本为
Figure BDA0003878394640000048
红外模态样本为
Figure BDA0003878394640000049
进一步的,所述的步骤2中针对可见光模态的行人图像,选用与红外图像较为接近的灰度图像作为过渡,将可见光图像输入网络训练前,先转换成灰度图像,转换后,仍保留原有样本的标签信息,记作
Figure BDA00038783946400000410
进一步的,所述的步骤3的详细流程如下:
步骤3-1:将处理得到的灰度模态和红外模态的行人图像,分别经过一层卷积网络,提取得到两种模态的浅层特有特征
Figure BDA00038783946400000411
Figure BDA00038783946400000412
步骤3-2:将
Figure BDA00038783946400000413
Figure BDA00038783946400000414
输入由Resnet50后四层和Nonlocal注意力模块结合的网络中,提取到两种模态的共享特征
Figure BDA00038783946400000415
Figure BDA00038783946400000416
进一步的,所述的步骤3-1中两种模态的卷积网络结构相同、参数不同。
进一步的,所述的步骤3-2中将两种模态的浅层特有特征输入至结构相同、参数相同的网络块中,将两种不同模态的特征映射至相同的特征子空间,实现特征对齐,在特征层面缓解了跨模态差异;该网络块由残差网络Resnet50的后四层和Nonlocal注意力模块组成。
进一步的,所述的步骤4中提取全局特征的详细流程如下:
步骤4-1:对两种模态的共享特征进行自适应平均池化操作,得到预备全局特征
Figure BDA0003878394640000051
Figure BDA0003878394640000052
步骤4-2:将预备全局特征输入BN层,得到最终的全局特征
Figure BDA0003878394640000053
Figure BDA0003878394640000054
进一步的,所述的步骤4中提取局部特征的详细流程如下:
步骤4-3:利用1×1的卷积操作,对先前提取的共享特征进行降维,将通道数降至原先的1/4;
步骤4-4:对降维后的共享特征,按图像的高进行四等分,得到局部特征组
Figure BDA0003878394640000055
Figure BDA0003878394640000056
步骤4-5:将局部特征组中的四个局部特征块进行自适应平均池化后输入BN层,并按通道数进行拼接,得到最终的局部特征
Figure BDA0003878394640000057
Figure BDA0003878394640000058
实现了与全局特征大小上的统一。
进一步的,所述的步骤5中利用局部特征对全局特征进行监督,使最终获得的全局特征吸取到局部特征的优势,具体地,本发明将局部信息附着在全局特征上,后续仅使用全局特征进行损失的计算,该损失可表示为公式1所示形式:
Figure BDA0003878394640000059
通过最小化该局部监督损失,实现将图像的空间特征传递给全局特征的通道维度,使每一组通道都包含了一部分区域的局部信息;
所述的步骤5中的全局特征约束由身份损失和本发明新设计的跨模态分组损失组成,其中,身份损失可表示为公式2:
Figure BDA00038783946400000510
其中,p(yi|fi)代表全局特征fi被模型预测为yi的概率;
本发明设计将提取到的两种模态图像的全局特征,按行人身份进行分组,计算组内样本间的距离,组内损失可表示为公式3:
Figure BDA0003878394640000061
其中,fs和ft代表该组组内某两样本的全局特征,通过最小化组内损失,减小了跨模态的类内距离,这样既减小了模态内部差异,又进一步缓解了跨模态的差异,并将该组的组内损失记作var;
针对组间,则希望组间距离最大化,也就是两个组的所有样本对距离要最大化,但单纯地增加两个组之间的距离可能会导致样本被推散,组内样本间的距离可能也就会增加,所以加上进一步的限制,在增加组间距离的同时,保持每个组组内方差不变,即保持组内样本整体移动,则组间损失可表示为公式4:
Figure BDA0003878394640000062
其中,Si和Sj代表两个组,即两个行人身份,i和j分别为两个组的标号,则
Figure BDA0003878394640000063
Figure BDA0003878394640000064
分别代表i和j两个组中的某个全局特征,vari和varj代表i和j两个组各自的组内距离;因此总的跨模态分组损失由组内和组间两部分组成,可表示为公式5:
Lgroup=Lintra+Linter (5);
最终,本发明提出总损失可表示为公式6所示形式:
Loverall=Llocal+Lid+Lgroup (6)。
有益效果:本发明提出了一种利用局部监督的跨模态行人重识别方法(LSN)。首先利用图像处理的方法将可见光图像转换成与红外图像更为接近的灰度图像,在图像层面缓解跨模态的差异,避免了使用GAN可能会造成的引入新的噪声以及需要额外训练过程的问题。其次使用共享参数的双流网络,提取具有判别性的共享特征,在特征层面缓解跨模态差异;接着,设计了局部监督网络,使学习到的全局特征吸取局部特征的优势,增强其对背景、遮挡等噪声的鲁棒性,缓解了模态内部差异;最后,设计了跨模态分组损失,联合身份损失对网络进行约束,维持类内距离的同时,拉大类间距离,提升整体性能。LSN兼顾解决跨模态差异以及模态内部差异,实验结果显示,在SYSU-MM01数据集上,识别率相关评价指标Rank-1和mAP分别达到了53.31%、50.88%;在RegDB数据集上,达到了73.51%、68.55%,实验结果优于同类方法,表明了本发明的有效性和先进性。
附图说明
图1是SYSU-MM01数据集中不同摄像头下的同一行人图像示意图;
图2是某行人的可见光图像和红外图像示意图;
图3是本发明的LSN网络框架结构示意图;
图4是本发明的灰度化处理效果示意图;
图5是本发明的Nonlocal注意力模块结构示意图;
图6是本发明的跨模态分组损失结构示意图;
图7是SYSU-MM01数据集上本发明方法与AGW的可视化识别性能对比示意图;
图8是RegDB数据集上本文方法与AGW在T2V模式下的可视化识别性能对比示意图;
图9是RegDB数据集上本文方法与AGW在V2T模式下的可视化识别性能对比示意图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,以使本领域的技术人员能够更好的理解本发明的优点和特征,从而对本发明的保护范围做出更为清楚的界定。本发明所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本发明提出一种利用局部监督的跨模态行人重识别框架LSN(Local SupervisionNetwork),其示意图如图3所示。
假设每次训练,在训练集中随机选取P个行人身份,对每个身份随机选取K张可见光图像和K张红外图像。下面以输入一张可见光图像和一张红外图像为例,来介绍训练流程,此时P和K均为1,具体如下:
步骤1:输入1张可见光行人图像、1张红外行人图像至LSN模型,进入步骤2;
步骤2:如果是红外行人图像,进入步骤3,如果是可见光行人图像,则利用图像处理的方法将其转换成灰度图像,进入步骤3;
步骤3:结合Resnet50和Nonlocal注意力模块,提取红外图像和灰度图像具有全局性的共享特征,进入步骤4;
步骤4:利用共享特征,分别提取全局特征和局部特征,进入步骤5;
步骤5:利用局部特征对全局特征进行监督,利用跨模态分组损失结合身份损失对全局特征进行约束,并通过反向传播的方式更新网络参数,进入步骤6;
步骤6:若达到指定训练轮数,则进入步骤7,否则返回步骤1;
步骤7:训练结束。
本实施例中,步骤1中的行人图像均来自跨模态行人重识别的标准数据集SYSU-MM01及RegDB。对每张行人图片进行随机裁剪和随机水平翻转,增强实验泛化能力,并将其统一成256×128的尺寸。假设
Figure BDA0003878394640000091
表示第i张可见光图像,
Figure BDA0003878394640000092
表示第j张红外图像,
Figure BDA0003878394640000093
Figure BDA0003878394640000094
分别表示
Figure BDA0003878394640000095
Figure BDA0003878394640000096
对应的行人身份。下面以输入同一行人
Figure BDA0003878394640000097
的可见光模态样本
Figure BDA0003878394640000098
和红外模态样本
Figure BDA0003878394640000099
为例,进行介绍。
步骤2中针对可见光模态的行人图像,本发明选用与红外图像较为接近的灰度图像作为过渡,将可见光图像输入网络训练前,先转换成灰度图像,这样既保留了可见光图像的结构信息,同时也减弱了后续网络训练时对色彩信息的依赖,在图像层面缓解了跨模态差异。灰度化处理的效果如图4所示。这样做与使用GAN相比,一方面不需要额外的训练过程,不会扩大网络模型,增加训练时间,从而提高了在现实场景下的应用效率;另一方面避免了引入额外的噪声,增强了训练到的模型的稳定性和可靠性。转换后,仍保留原有样本的标签信息,记作
Figure BDA00038783946400000910
步骤3的详细流程如下:
步骤3-1:将处理得到的灰度模态和红外模态的行人图像,分别经过一层卷积网络,提取得到两种模态的浅层特有特征
Figure BDA00038783946400000911
Figure BDA00038783946400000912
步骤3-2:将
Figure BDA00038783946400000913
Figure BDA00038783946400000914
输入由Resnet50后四层和Nonlocal注意力模块结合的网络中,提取到两种模态的共享特征
Figure BDA00038783946400000915
Figure BDA00038783946400000916
其中,步骤3-1中两种模态的卷积网络结构相同、参数不同。步骤3-2中将两种模态的浅层特有特征输入至结构相同、参数相同的网络块中,将两种不同模态的特征映射至相同的特征子空间,实现特征对齐,在特征层面缓解了跨模态差异。该网络块由残差网络Resnet50的后四层和Nonlocal注意力模块组成。其中Nonlocal注意力模块的示意图如图5所示。利用该模块达到参考所有位置,传递远距离信息的目的。使提取到的共享特征更具有全局性和可靠性。
步骤4中,提取全局特征的详细流程如下:
步骤4-1:对两种模态的共享特征进行自适应平均池化操作,得到预备全局特征
Figure BDA0003878394640000101
Figure BDA0003878394640000102
步骤4-2:将预备全局特征输入BN层,得到最终的全局特征
Figure BDA0003878394640000103
Figure BDA0003878394640000104
一方面防止梯度爆炸和梯度消失的问题,另一方面也加快网络训练和收敛的速度,防止过拟合。
提取局部特征的详细流程如下:
步骤4-3:利用1×1的卷积操作,对先前提取的共享特征进行降维,将通道数降至原先的1/4。
步骤4-4:对降维后的共享特征,按图像的高进行四等分,得到局部特征组
Figure BDA0003878394640000105
Figure BDA0003878394640000106
步骤4-5:将局部特征组中的四个局部特征块进行自适应平均池化后输入BN层,并按通道数进行拼接,得到最终的局部特征
Figure BDA0003878394640000107
Figure BDA0003878394640000108
实现了与全局特征大小上的统一。
步骤5中利用局部特征对全局特征进行监督,使最终获得的全局特征吸取到局部特征的优势,对背景杂波、遮挡等噪声具有更强的鲁棒性,从而缓解模态内部差异,提高识别性能。不同于传统利用局部特征的方法,本发明不对每个局部特征进行身份损失、三元组损失的计算,而是将局部信息附着在全局特征上,后续仅使用全局特征进行损失的计算,这样既利用好了局部特征的优势,也减少了计算量。该损失可表示为公式1所示形式:
Figure BDA0003878394640000109
通过最小化该局部监督损失,实现将图像的空间特征传递给全局特征的通道维度,使每一组通道都包含了一部分区域的局部信息。
而步骤5中的全局特征约束则由身份损失和本发明新设计的跨模态分组损失组成。其中身份损失可表示为公式2:
Figure BDA0003878394640000111
其中,p(yi|fi)代表全局特征fi被模型预测为yi的概率。
跨模态分组损失的示意图如图6,其中小球代表提取经过上面网络提取到的全局特征,每个颜色都代表一个行人身份,实心和阴影分别代表灰度和红外两种模态。
本发明设计将提取到的两种模态图像的全局特征,按行人身份进行分组,计算组内样本间的距离,组内损失可表示为公式3:
Figure BDA0003878394640000112
其中,fs和ft代表该组组内某两样本的全局特征,通过最小化组内损失,减小了跨模态的类内距离,这样既减小了模态内部差异,又进一步缓解了跨模态的差异,并将该组的组内损失记作var。
针对组间,则希望组间距离最大化,也就是两个组的所有样本对距离要最大化。但单纯地增加两个组之间的距离可能会导致样本被推散,组内样本间的距离可能也就会增加,所以加上进一步的限制,在增加组间距离的同时,保持每个组组内方差不变,即保持组内样本整体移动,则组间损失可表示为公式4:
Figure BDA0003878394640000113
其中,Si和Sj代表两个组,即两个行人身份,i和j分别为两个组的标号,则
Figure BDA0003878394640000114
Figure BDA0003878394640000115
分别代表i和j两个组中的某个全局特征,vari和varj代表i和j两个组各自的组内距离。因此总的跨模态分组损失由组内和组间两部分组成,可表示为公式5:
Lgroup=Lintra+Linter (5);
最终,本发明提出总损失可表示为公式6所示形式:
Loverall=Llocal+Lid+Lgroup (6)。
本发明采用PyTorch框架,在单块NVIDIA GeForce 1080Ti GPU上进行训练和测试。本发明采用ResNet50作为骨干网络,并采用在ImageNet上预训练的参数初始化网络权重。在训练过程中,每次随机选择8个行人,然后对每个行人身份随机选择4张可见光图像、4张红外图像,则batchsize为64。本实验设置初始学习率为0.01,采用随机梯度下降的方式优化,动量参数设置为0.9,并在前10轮采用热身学习率策略,共训练80轮,学习率随训练轮次的变化如公式7所示:
Figure BDA0003878394640000121
为公平起见,参照现有工作的方法,本发明同样以累计匹配特性(CumulativeMatching Characteristic,CMC)和平均精度均值(mean Average Precision,mAP)作为评价指标。CMC中的Rank-k测量前k个检索结果中出现正确跨模态行人图像的概率,而mAP可以体现方法的平均检索性能。
具体实施例1:
本实施例将利用SYSU-MM01公共数据集,完成跨模态行人重识别任务,并测试模型的性能。SYSU-MM01数据集是跨模态行人重识别领域中的第一个标准数据集,由4个可见光摄像头和2个红外摄像头采集获得。该数据集的训练数据由395位行人的22258张可见光图像和11909张红外图像组成,且每位行人至少被两个不同视角和位置的摄像头所捕获。测试集分为两种评价模式,并且包含另外的95位行人。在两种评价模式内,查询集是一致的,包含3803张由两个红外摄像头所捕获的红外图像,图库集在All-Search模式下,包含了4个可见光摄像头捕获的图像,在Indoor-Search模式下,只包含其中2个室内的可见光摄像头捕获的图像。本实验在SYSU-MM01数据集中,采用最严格的评估方式,测试集采用Single-Shot的构建方式,以All-Search和Indoor-Search两种评价模式分别对方法进行评估。本发明方法与其他现有方法在SYSU-MM01数据集上的对比实验结果如表1、表2所示。
在对比实验中,除了本发明方案,效果最好的是AGW算法,该方法在特征提取阶段利用了非局部注意力机制提取全局特征,并使用广义平均池化和加权正则化三元组损失进行约束。本发明在此基础上,充分发挥局部特征的优势,利用局部特征对全局特征进行监督,使学习到的全局特征继承了局部特征对背景杂波及遮挡等噪声的鲁棒性,缓解了模态内部差异,并且设计了新的跨模态分组损失,结合身份损失对网络进行约束,提升网络整体性能。实验结果表明,与AGW相比,本发明方法在All-Search模式下,Rank-1,Rank-10,mAP分别提高了6.01%,6.09%,3.23%;在Indoor-Search模式下,Rank-1,Rank-10,mAP分别提高了5.04%,2.75%,3.21%。
表1 SYSU-MM01数据集上本发明方法与其他方法在All-Search模式下的对比结果
Figure BDA0003878394640000131
Figure BDA0003878394640000141
表2 SYSU-MM01数据集上本发明方法与其他方法在Indoor-Search模式下的对比结果
Figure BDA0003878394640000142
Figure BDA0003878394640000151
为进一步展示本发明方法的先进性,我们选取次优方案AGW进行对比,对实验结果进行可视化。选取3张从不同视角拍摄到的不同行人的图像作为代表,其中查询图像1为一男生的正面图像,其上衣有较为鲜明的图像、查询图像2为一男生的侧面图像,具有挎包对身体明显的遮挡和桌子等背景噪声的干扰、查询图像3为一女生的背面图像,身体轮廓清晰但没有人眼可见具有辨识性的特征。检索结果如图7所示,绿框表示匹配正确,红框表示匹配错误。
可视化结果也进一步验证了本发明所提方法的有效性和先进性。
具体实施例2:
本实施例采用RegDB数据集,来完成跨模态行人重识别任务,并测试模型的性能。RegDB数据集是由一个可见光摄像头和一个远红外摄像头捕获的图像组成的小规模数据集。该数据集包含412位行人,每个行人含有10张可见光图像和10张红外图像。本实验随机选取206位行人对应的2060张图像用于训练,剩余的206位行人对应的2060张图像用于测试。本实验采用可见光图像检索红外图像(Visible-to-Thermal,V2T)、红外图像检索可见光图像(Thermal-to-Visible,T2V)这两种检索模式,并采用10次随机分割的方式,选取训练集和测试集,记录平均精度作为该数据集上的最终性能。其对比实验结果见表3,表4.
表3 RegDB数据集上本发明方法与其他方法在T2V模式下的对比结果
Figure BDA0003878394640000161
表4 RegDB数据集上本发明方法与其他方法在V2T模式下的对比结果
Figure BDA0003878394640000162
Figure BDA0003878394640000171
由此可见,在RegDB数据集上,本文方法在各项指标上,也都领先于现有方法,与次优方法AGW相比,在T2V模式下,Rank-1,Rank-10,mAP分别提高了3.02%,1.84%,2.65%;在V2T模式下,Rank-1,Rank-10,mAP分别提高了2.80%,1.42%,2.56%。
同样地,也选取AGW作为对比方法,在RegDB数据集上对实验结果进行可视化。针对T2V和V2T两种检索模式,分别随机选取两个不同行人的图像作为查询集,其结果分别如图8,图9所示。其中,图8中,待查询图像为红外图像,缺乏颜色、纹理等信息,识别主要依靠行人的体态姿势。图9中,待查询图像为可见光图像,包含丰富的颜色信息和纹理信息,但也同时包含较为复杂的背景及遮挡等噪声。可视化实验结果也显示,本发明方法在两种匹配模式中的表现都优于AGW算法。
本发明的表1-表4中涉及到的参考文献具体如下:
[1]Wang G,Zhang T,Cheng J,et al.Rgb-infrared cross-modality personre-identification via joint pixel and feature alignment[C]//Proc of IEEE/CVFInternational Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:3622-3631。
[2]Ye M,Shen J,Lin G,et al.Deep learning for person re-identification:a survey and outlook[J].IEEE Trans on Pattern Analysis andMachine Intelligence,2021,44(6):2872-2893。
[3]Wu A,Zheng W,Yu H,et al.Rgb-infrared cross-modality person re-identification[C]//Proc of IEEE Conference International Conference onComputer Vision.Piscataway,NJ:IEEE Press,2017:5390-5399。
[4]Ye M,Wang Z,Lan X,et al.Visible thermal person re-identificationvia dual-constrained top-ranking[C]//Proc of the 27th International JointConference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2018:1092–1099。
[5]Wang Z,Wang Z,Zheng Y,et al.Learning to reduce dual-leveldiscrepancy for infrared-visible person re-identification[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEEPress,2019:618-626。
[6]Ye M,Lan X,Li J,et al.Hierarchical discriminative learning forvisible thermal person re-identification[C]//Proc of the 2018 AAAI Conferenceon Artificial Intelligence.Palo Alto,CA:AAAI Press,2018:7501-7508。
[7]Dai P,Ji R,Wang H,et al.Cross-modality person re-identificationwith generative adversarial training[C]//Proc of the 27th International JointConference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2018:677-683.。
[8]Ye M,Lan X,Wang Z,et al.Bi-directional center-constrained top-ranking for visible thermal person re-identification[J].IEEE Trans onInformation Forensics and Security,2019,15:407-419。
[9]Hao Y,Wang N,Li J,et al.HSME:hypersphere manifold embedding forvisible thermal person re-identification[C]//Proc of the 2019 AAAI Conferenceon Artificial Intelligence.Palo Alto,CA:AAAI Press,2019:8385-8392。
[10]Choi S,Lee S,Kim Y,et al.Hi-CMD:hierarchical cross-modalitydisentanglement for visible-infrared person re-identification[C]//Proc ofIEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:10254–10263。
[11]Wu A,Zheng W,Gong S,et al.Rgb-ir person re-identification bycross-modality similarity preservation[J].International Journal of ComputerVision,2020,128(6):1765-1785。
[12]Ye M,Shen J,Crandall DJ,et al.Dynamic dual-attentive aggregationlearning for visible-infrared person re-identification[C]//Proc of EuropeanConference on Computer Vision.Berlin,German:Springer Press,2020:229–247。
具体实施例3:
本实施例将介绍本发明的一种适用场景。
某天,一商场内发生了一起偷窃案件,警方根据报案人的提供的信息,锁定了作案地点,从相应的摄像头记录到的监控视频里,锁定了犯罪嫌疑人,此时获取到的是嫌疑人在商场内正常的可见光图像,但嫌疑人作案成功后,往往会借助人群的遮挡,并选择光线条件较差的地点进行藏匿或者逃窜,此时对应地点的监控获取到的是由红外摄像头拍摄到的红外行人图像,这给找出嫌疑人带来了比较大的困难。而本发明所提出的方案,便能解决这种问题。
首先,警方获取到需要查询区域的监控录像,利用行人检测技术,裁剪出出现行人的行人图像,并以时间、摄像头编号进行命名。
其次,便将这些行人图像作为图库集,事先得到的嫌疑人图像作为查询集,输入本发明设计的网络模型中。
最后系统便会吐出一组图像序列,根据这组图像序列的名称(时间、摄像头编号),便能锁定嫌疑人的活动轨迹,供警方实施抓捕。

Claims (9)

1.一种利用局部监督的跨模态行人重识别方法,其特征在于:建立一种利用局部监督的跨模态行人重识别框架LSN,假设每次训练,在训练集中随机选取P个行人身份,对每个身份随机选取K张可见光图像和K张红外图像,具体如下:
步骤1:输入K张可见光行人图像、K张红外行人图像至LSN模型,进入步骤2;
步骤2:如果是红外行人图像,进入步骤3,如果是可见光行人图像,则利用图像处理的方法将其转换成灰度图像,进入步骤3;
步骤3:结合Resnet50和Nonlocal注意力模块,提取红外图像和灰度图像具有全局性的共享特征,进入步骤4;
步骤4:利用共享特征,分别提取全局特征和局部特征,进入步骤5;
步骤5:利用局部特征对全局特征进行监督,利用跨模态分组损失结合身份损失对全局特征进行约束,并通过反向传播的方式更新网络参数,进入步骤6;
步骤6:若达到指定训练轮数,则进入步骤7,否则返回步骤1;
步骤7:训练结束。
2.根据权利要求1所述的利用局部监督的跨模态行人重识别方法,其特征在于:所述的步骤1中的行人图像均来自跨模态行人重识别的标准数据集SYSU-MM01及RegDB;对每张行人图片进行随机裁剪和随机水平翻转,增强实验泛化能力,并将其统一成256×128的尺寸;假设
Figure FDA0003878394630000011
表示第i张可见光图像,
Figure FDA0003878394630000012
表示第j张红外图像,
Figure FDA0003878394630000013
Figure FDA0003878394630000014
分别表示
Figure FDA0003878394630000015
Figure FDA0003878394630000016
对应的行人身份;其中,输入同一行人
Figure FDA0003878394630000017
的可见光模态样本为
Figure FDA0003878394630000018
红外模态样本为
Figure FDA0003878394630000019
3.根据权利要求1所述的利用局部监督的跨模态行人重识别方法,其特征在于:所述的步骤2中针对可见光模态的行人图像,选用与红外图像较为接近的灰度图像作为过渡,将可见光图像输入网络训练前,先转换成灰度图像,转换后,仍保留原有样本的标签信息,记作
Figure FDA0003878394630000021
4.根据权利要求1所述的利用局部监督的跨模态行人重识别方法,其特征在于:所述的步骤3的详细流程如下:
步骤3-1:将处理得到的灰度模态和红外模态的行人图像,分别经过一层卷积网络,提取得到两种模态的浅层特有特征
Figure FDA0003878394630000022
Figure FDA0003878394630000023
步骤3-2:将
Figure FDA0003878394630000024
Figure FDA0003878394630000025
输入由Resnet50后四层和Nonlocal注意力模块结合的网络中,提取到两种模态的共享特征
Figure FDA0003878394630000026
Figure FDA0003878394630000027
5.根据权利要求4所述的利用局部监督的跨模态行人重识别方法,其特征在于:所述的步骤3-1中两种模态的卷积网络结构相同、参数不同。
6.根据权利要求4所述的利用局部监督的跨模态行人重识别方法,其特征在于:所述的步骤3-2中将两种模态的浅层特有特征输入至结构相同、参数相同的网络块中,将两种不同模态的特征映射至相同的特征子空间,实现特征对齐,在特征层面缓解了跨模态差异;该网络块由残差网络Resnet50的后四层和Nonlocal注意力模块组成。
7.根据权利要求1所述的利用局部监督的跨模态行人重识别方法,其特征在于:所述的步骤4中提取全局特征的详细流程如下:
步骤4-1:对两种模态的共享特征进行自适应平均池化操作,得到预备全局特征
Figure FDA0003878394630000028
Figure FDA0003878394630000029
步骤4-2:将预备全局特征输入BN层,得到最终的全局特征
Figure FDA00038783946300000210
Figure FDA00038783946300000211
8.根据权利要求1所述的利用局部监督的跨模态行人重识别方法,其特征在于:所述的步骤4中提取局部特征的详细流程如下:
步骤4-3:利用1×1的卷积操作,对先前提取的共享特征进行降维,将通道数降至原先的1/4;
步骤4-4:对降维后的共享特征,按图像的高进行四等分,得到局部特征组
Figure FDA0003878394630000031
Figure FDA0003878394630000032
步骤4-5:将局部特征组中的四个局部特征块进行自适应平均池化后输入BN层,并按通道数进行拼接,得到最终的局部特征
Figure FDA0003878394630000033
Figure FDA0003878394630000034
实现了与全局特征大小上的统一。
9.根据权利要求1所述的利用局部监督的跨模态行人重识别方法,其特征在于:所述的步骤5中利用局部特征对全局特征进行监督,使最终获得的全局特征吸取到局部特征的优势,具体地,本发明将局部信息附着在全局特征上,后续仅使用全局特征进行损失的计算,该损失可表示为公式1所示形式:
Figure FDA0003878394630000035
通过最小化该局部监督损失,实现将图像的空间特征传递给全局特征的通道维度,使每一组通道都包含了一部分区域的局部信息;
所述的步骤5中的全局特征约束由身份损失和本发明新设计的跨模态分组损失组成,其中,身份损失可表示为公式2:
Figure FDA0003878394630000036
其中,p(yi|fi)代表全局特征fi被模型预测为yi的概率;
本发明设计将提取到的两种模态图像的全局特征,按行人身份进行分组,计算组内样本间的距离,组内损失可表示为公式3:
Figure FDA0003878394630000037
其中,fs和ft代表该组组内某两样本的全局特征,通过最小化组内损失,减小了跨模态的类内距离,这样既减小了模态内部差异,又进一步缓解了跨模态的差异,并将该组的组内损失记作var;
针对组间,则希望组间距离最大化,也就是两个组的所有样本对距离要最大化,但单纯地增加两个组之间的距离可能会导致样本被推散,组内样本间的距离可能也就会增加,所以加上进一步的限制,在增加组间距离的同时,保持每个组组内方差不变,即保持组内样本整体移动,则组间损失可表示为公式4:
Figure FDA0003878394630000041
其中,Si和Sj代表两个组,即两个行人身份,i和j分别为两个组的标号,则
Figure FDA0003878394630000042
Figure FDA0003878394630000043
分别代表i和j两个组中的某个全局特征,vari和varj代表i和j两个组各自的组内距离;因此总的跨模态分组损失由组内和组间两部分组成,可表示为公式5:
Lgroup=Lintra+Linter (5);
最终,本发明提出总损失可表示为公式6所示形式:
Loverall=Llocal+Lid+Lgroup (6)。
CN202211223245.1A 2022-10-08 2022-10-08 一种利用局部监督的跨模态行人重识别方法 Pending CN115565204A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211223245.1A CN115565204A (zh) 2022-10-08 2022-10-08 一种利用局部监督的跨模态行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211223245.1A CN115565204A (zh) 2022-10-08 2022-10-08 一种利用局部监督的跨模态行人重识别方法

Publications (1)

Publication Number Publication Date
CN115565204A true CN115565204A (zh) 2023-01-03

Family

ID=84745856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211223245.1A Pending CN115565204A (zh) 2022-10-08 2022-10-08 一种利用局部监督的跨模态行人重识别方法

Country Status (1)

Country Link
CN (1) CN115565204A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117542084A (zh) * 2023-12-06 2024-02-09 湖南大学 一种语义感知的跨模态行人重识别方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114550208A (zh) * 2022-02-10 2022-05-27 南通大学 基于全局级别和局部级别联合约束的跨模态行人再识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114550208A (zh) * 2022-02-10 2022-05-27 南通大学 基于全局级别和局部级别联合约束的跨模态行人再识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JIN WANG ET AL.: ""Visible–Infrared Person Re-Identification via Global Feature Constraints Led by Local Features"", 《ELECTRONICS》, 24 August 2022 (2022-08-24), pages 1 - 15 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117542084A (zh) * 2023-12-06 2024-02-09 湖南大学 一种语义感知的跨模态行人重识别方法

Similar Documents

Publication Publication Date Title
CA3041148C (en) Systems and methods for behaviour understanding from trajectories
Aghaei et al. With whom do I interact? Detecting social interactions in egocentric photo-streams
CN108564052A (zh) 基于mtcnn的多摄像头动态人脸识别系统与方法
Lin et al. A heat-map-based algorithm for recognizing group activities in videos
Nguyen et al. Anomaly detection in traffic surveillance videos with gan-based future frame prediction
CN114241517B (zh) 基于图像生成和共享学习网络的跨模态行人重识别方法
Rehman et al. Deep learning for face anti-spoofing: An end-to-end approach
CN114973317A (zh) 一种基于多尺度邻接交互特征的行人重识别方法
Huang et al. Deepfake mnist+: a deepfake facial animation dataset
CN115565204A (zh) 一种利用局部监督的跨模态行人重识别方法
Polikovsky et al. Detection and measurement of facial micro-expression characteristics for psychological analysis
CN112668550A (zh) 基于关节点-深度联合关注rgb模态数据的双人交互行为识别方法
CN114550208A (zh) 基于全局级别和局部级别联合约束的跨模态行人再识别方法
Visser et al. Object recognition for video retrieval
Behera et al. Person re-identification: A taxonomic survey and the path ahead
Miao et al. Abnormal Behavior Learning Based on Edge Computing toward a Crowd Monitoring System
Fang et al. Pedestrian attributes recognition in surveillance scenarios with hierarchical multi-task CNN models
Bao et al. Preserving structural relationships for person re-identification
Mishra et al. Real-Time pedestrian detection using YOLO
Guo et al. Integrating diversity into neural-network-based face deidentification
Kumaran et al. Object detection and tracking in crowd environment—a review
Ponsam et al. Extraction in Digital Forensic Investigation based on Video Enhancement and Machine Learning
Hassan et al. Crowd counting using deep learning based head detection
Vo-Le et al. Violence Detection using Feature Fusion of Optical Flow and 3D CNN on AICS-Violence Dataset
Sellami et al. Video semantic segmentation using deep multi-view representation learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination