CN115565204A - 一种利用局部监督的跨模态行人重识别方法 - Google Patents
一种利用局部监督的跨模态行人重识别方法 Download PDFInfo
- Publication number
- CN115565204A CN115565204A CN202211223245.1A CN202211223245A CN115565204A CN 115565204 A CN115565204 A CN 115565204A CN 202211223245 A CN202211223245 A CN 202211223245A CN 115565204 A CN115565204 A CN 115565204A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- modal
- local
- cross
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000008901 benefit Effects 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims description 29
- 238000002474 experimental method Methods 0.000 claims description 9
- 238000012544 monitoring process Methods 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 7
- 238000013461 design Methods 0.000 claims description 6
- 238000003672 processing method Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 230000000452 restraining effect Effects 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000005286 illumination Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000036544 posture Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 208000032538 Depersonalisation Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 239000011324 bead Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012733 comparative method Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种利用局部监督的跨模态行人重识别方法,首先利用图像处理的方法将可见光图像转换成与红外图像更为接近的灰度图像,在图像层面缓解跨模态的差异,避免了使用GAN可能会造成的引入新的噪声以及需要额外训练过程的问题。其次使用共享参数的双流网络,提取具有判别性的共享特征,在特征层面缓解跨模态差异;接着,设计了局部监督网络,使学习到的全局特征吸取局部特征的优势,增强其对背景、遮挡等噪声的鲁棒性,缓解了模态内部差异;最后,设计了跨模态分组损失,联合身份损失对网络进行约束,维持类内距离的同时,拉大类间距离,提升整体性能。本发明的跨模态行人重识别框架LSN兼顾解决了跨模态差异以及模态内部差异。
Description
技术领域
本发明涉及人工智能和计算机视觉技术领域,尤其涉及跨模态行人重识别领域,具体涉及一种利用局部监督的跨模态行人重识别方法。
背景技术
随着人工智能的不断发展,智慧城市建设项目近年来在国内外受到了广泛的关注,智能安防作为其中不可或缺的一环,成为了当下研究的热点。要做好智能安防,如何在日常生活场景中准确地识别行人身份便成了一个亟需解决的关键问题。例如,在一个商场内发生了偷窃事件,根据偷窃现场处的监控视频,我们获取到偷窃者的图像,需要在整个商场的所有监控数据中进行识别,进而确认偷窃者的身份以及其行路轨迹,对其实施抓捕。
目前人脸识别的技术已经较为成熟,但它需要高质量的行人正脸图像,而日常生活大多场景下的监控摄像头无法获取到符合要求的图像,往往只能拍摄到行人整体图像。就如上文提到的场景下,偷窃者往往会佩戴帽子和口罩来遮挡其面部特征,在这种非合作场景下,行人重识别技术(Person Re-identification)便被提出作为人脸识别的补充技术,对行人身份进行识别。
行人重识别是指在多个非重叠的摄像头拍摄的场景下,给定一幅待查询的行人图像,进而从大规模行人图像库中检索出与其身份相同的行人图像的技术。在早期的研究中,它多关注的是白天由可见光摄像头捕获的可见光图像,是单一模式的图像。而在实际应用中,可见光摄像头只能满足部分场景的需求。在夜间或者低光照条件下,可见光摄像头无法获取到行人清晰的特征信息,从而影响识别的准确率,为此业界开始引入红外摄像头来弥补这一缺陷。这样,在白天或光照条件良好的条件下采用可见光摄像头拍摄高质量的可见光行人图像,在夜间或低光照环境下可以利用红外摄像头拍摄对光照依赖更小的红外行人图像,较好地摆脱了光照条件的限制。但同时处理两种模态的图像,也增加了行人重识别任务的难度,形成了基于可见光-红外的跨模态行人重识别(Visible Infrared Person Re-Identification,VI-ReID)。
跨模态行人重识别任务主要面临两大挑战。一是模态内部差异,由于每个行人可能是由不同的摄像头所拍摄的,这些摄像头的视点位置、拍照角度等存在差异,得到的行人图像间难免会出现姿势不同、背景不同、遮挡等问题,如图1所示。例如在上述例子中,偷窃者通常会选择人员聚集的地方实施犯罪,这样可以借助周围人群的掩护,导致摄像头采集到的偷窃者的行人图像有严重的背景、遮挡等噪声的干扰。这样即使是同一行人,他自己的图像之间的相似度也可能非常低,甚至低于和其他行人图像间的相似度,产生类内差异大于类间差异的情况。二是跨模态差异,虽然我们引入红外摄像头,摆脱了光照条件的限制。但由于可见光图像和红外图像的波长范围不同,且可见光图像的通道数为3,而红外图像的通道数为1,这使得可见光图像和红外图像在本质上存在着巨大的差异,如图2所示。例如在上述例子中,偷窃者实施偷窃行为后通常会选择光线条件较差的地下停车场这类地点进行藏匿或者逃窜,这种情况下,我们起先获取到的是在偷窃现场由可见光摄像头拍摄到的偷窃者的可见光图像,而此时则是在光线条件较差的地点,由红外摄像头拍摄到的偷窃者的红外图像,我们便需要对这两种模态下行人图像进行识别,大大增加了识别难度。
Wang等人提出的端到端的对齐生成对抗网络(AlignGAN),利用CycleGAN,进行风格迁移,生成伪红外图像来弥补可见光图像与红外图像之间的差距,但不可避免地引入了额外的噪声,并且需要额外的训练过程,消耗大量的时间,从而影响在现实场景下的应用效率。
Ye等人提出的AGW方法,设计了具有非局部注意力机制的基线,通过非局部注意力机制获取中层与高层的信息,增强特征的可判别能力。然而,该模型提取共享特征是以全局特征为基础,样本中含有较多的诸如背景、遮挡等具有干扰性质的噪声,仅使用全局特征的模型对噪声的鲁棒性较差。
发明内容
发明目的:跨模态行人重识别任务中主要面临的跨模态差异和模态内部差异,在现有方法的作用下,均有了不同程度的缓解,但很少有方法能很好地兼顾两者,导致跨模态行人重识别任务的识别率依旧不高。现有方法利用GAN实现模态统一,容易引入新的噪声且需要额外的训练过程,效果不佳;仅利用全局特征也无法确保对遮挡等干扰的鲁棒性。本发明从现有方法的不足出发,本发明提出了一种利用局部监督的跨模态行人重识别方法,来进一步提升跨模态行人重识别任务的识别率。
技术方案:一种利用局部监督的跨模态行人重识别方法,建立一种利用局部监督的跨模态行人重识别框架LSN,假设每次训练,在训练集中随机选取P个行人身份,对每个身份随机选取K张可见光图像和K张红外图像,具体如下:
步骤1:输入K张可见光行人图像、K张红外行人图像至LSN模型,进入步骤2;
步骤2:如果是红外行人图像,进入步骤3,如果是可见光行人图像,则利用图像处理的方法将其转换成灰度图像,进入步骤3;
步骤3:结合Resnet50和Nonlocal注意力模块,提取红外图像和灰度图像具有全局性的共享特征,进入步骤4;
步骤4:利用共享特征,分别提取全局特征和局部特征,进入步骤5;
步骤5:利用局部特征对全局特征进行监督,利用跨模态分组损失结合身份损失对全局特征进行约束,并通过反向传播的方式更新网络参数,进入步骤6;
步骤6:若达到指定训练轮数,则进入步骤7,否则返回步骤1;
步骤7:训练结束。
进一步的,所述的步骤1中的行人图像均来自跨模态行人重识别的标准数据集SYSU-MM01及RegDB;对每张行人图片进行随机裁剪和随机水平翻转,增强实验泛化能力,并将其统一成256×128的尺寸;假设表示第i张可见光图像,表示第j张红外图像,和分别表示和对应的行人身份;其中,输入同一行人的可见光模态样本为红外模态样本为
进一步的,所述的步骤3的详细流程如下:
进一步的,所述的步骤3-1中两种模态的卷积网络结构相同、参数不同。
进一步的,所述的步骤3-2中将两种模态的浅层特有特征输入至结构相同、参数相同的网络块中,将两种不同模态的特征映射至相同的特征子空间,实现特征对齐,在特征层面缓解了跨模态差异;该网络块由残差网络Resnet50的后四层和Nonlocal注意力模块组成。
进一步的,所述的步骤4中提取全局特征的详细流程如下:
进一步的,所述的步骤4中提取局部特征的详细流程如下:
步骤4-3:利用1×1的卷积操作,对先前提取的共享特征进行降维,将通道数降至原先的1/4;
进一步的,所述的步骤5中利用局部特征对全局特征进行监督,使最终获得的全局特征吸取到局部特征的优势,具体地,本发明将局部信息附着在全局特征上,后续仅使用全局特征进行损失的计算,该损失可表示为公式1所示形式:
通过最小化该局部监督损失,实现将图像的空间特征传递给全局特征的通道维度,使每一组通道都包含了一部分区域的局部信息;
所述的步骤5中的全局特征约束由身份损失和本发明新设计的跨模态分组损失组成,其中,身份损失可表示为公式2:
其中,p(yi|fi)代表全局特征fi被模型预测为yi的概率;
本发明设计将提取到的两种模态图像的全局特征,按行人身份进行分组,计算组内样本间的距离,组内损失可表示为公式3:
其中,fs和ft代表该组组内某两样本的全局特征,通过最小化组内损失,减小了跨模态的类内距离,这样既减小了模态内部差异,又进一步缓解了跨模态的差异,并将该组的组内损失记作var;
针对组间,则希望组间距离最大化,也就是两个组的所有样本对距离要最大化,但单纯地增加两个组之间的距离可能会导致样本被推散,组内样本间的距离可能也就会增加,所以加上进一步的限制,在增加组间距离的同时,保持每个组组内方差不变,即保持组内样本整体移动,则组间损失可表示为公式4:
其中,Si和Sj代表两个组,即两个行人身份,i和j分别为两个组的标号,则和分别代表i和j两个组中的某个全局特征,vari和varj代表i和j两个组各自的组内距离;因此总的跨模态分组损失由组内和组间两部分组成,可表示为公式5:
Lgroup=Lintra+Linter (5);
最终,本发明提出总损失可表示为公式6所示形式:
Loverall=Llocal+Lid+Lgroup (6)。
有益效果:本发明提出了一种利用局部监督的跨模态行人重识别方法(LSN)。首先利用图像处理的方法将可见光图像转换成与红外图像更为接近的灰度图像,在图像层面缓解跨模态的差异,避免了使用GAN可能会造成的引入新的噪声以及需要额外训练过程的问题。其次使用共享参数的双流网络,提取具有判别性的共享特征,在特征层面缓解跨模态差异;接着,设计了局部监督网络,使学习到的全局特征吸取局部特征的优势,增强其对背景、遮挡等噪声的鲁棒性,缓解了模态内部差异;最后,设计了跨模态分组损失,联合身份损失对网络进行约束,维持类内距离的同时,拉大类间距离,提升整体性能。LSN兼顾解决跨模态差异以及模态内部差异,实验结果显示,在SYSU-MM01数据集上,识别率相关评价指标Rank-1和mAP分别达到了53.31%、50.88%;在RegDB数据集上,达到了73.51%、68.55%,实验结果优于同类方法,表明了本发明的有效性和先进性。
附图说明
图1是SYSU-MM01数据集中不同摄像头下的同一行人图像示意图;
图2是某行人的可见光图像和红外图像示意图;
图3是本发明的LSN网络框架结构示意图;
图4是本发明的灰度化处理效果示意图;
图5是本发明的Nonlocal注意力模块结构示意图;
图6是本发明的跨模态分组损失结构示意图;
图7是SYSU-MM01数据集上本发明方法与AGW的可视化识别性能对比示意图;
图8是RegDB数据集上本文方法与AGW在T2V模式下的可视化识别性能对比示意图;
图9是RegDB数据集上本文方法与AGW在V2T模式下的可视化识别性能对比示意图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,以使本领域的技术人员能够更好的理解本发明的优点和特征,从而对本发明的保护范围做出更为清楚的界定。本发明所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本发明提出一种利用局部监督的跨模态行人重识别框架LSN(Local SupervisionNetwork),其示意图如图3所示。
假设每次训练,在训练集中随机选取P个行人身份,对每个身份随机选取K张可见光图像和K张红外图像。下面以输入一张可见光图像和一张红外图像为例,来介绍训练流程,此时P和K均为1,具体如下:
步骤1:输入1张可见光行人图像、1张红外行人图像至LSN模型,进入步骤2;
步骤2:如果是红外行人图像,进入步骤3,如果是可见光行人图像,则利用图像处理的方法将其转换成灰度图像,进入步骤3;
步骤3:结合Resnet50和Nonlocal注意力模块,提取红外图像和灰度图像具有全局性的共享特征,进入步骤4;
步骤4:利用共享特征,分别提取全局特征和局部特征,进入步骤5;
步骤5:利用局部特征对全局特征进行监督,利用跨模态分组损失结合身份损失对全局特征进行约束,并通过反向传播的方式更新网络参数,进入步骤6;
步骤6:若达到指定训练轮数,则进入步骤7,否则返回步骤1;
步骤7:训练结束。
本实施例中,步骤1中的行人图像均来自跨模态行人重识别的标准数据集SYSU-MM01及RegDB。对每张行人图片进行随机裁剪和随机水平翻转,增强实验泛化能力,并将其统一成256×128的尺寸。假设表示第i张可见光图像,表示第j张红外图像,和分别表示和对应的行人身份。下面以输入同一行人的可见光模态样本和红外模态样本为例,进行介绍。
步骤2中针对可见光模态的行人图像,本发明选用与红外图像较为接近的灰度图像作为过渡,将可见光图像输入网络训练前,先转换成灰度图像,这样既保留了可见光图像的结构信息,同时也减弱了后续网络训练时对色彩信息的依赖,在图像层面缓解了跨模态差异。灰度化处理的效果如图4所示。这样做与使用GAN相比,一方面不需要额外的训练过程,不会扩大网络模型,增加训练时间,从而提高了在现实场景下的应用效率;另一方面避免了引入额外的噪声,增强了训练到的模型的稳定性和可靠性。转换后,仍保留原有样本的标签信息,记作
步骤3的详细流程如下:
其中,步骤3-1中两种模态的卷积网络结构相同、参数不同。步骤3-2中将两种模态的浅层特有特征输入至结构相同、参数相同的网络块中,将两种不同模态的特征映射至相同的特征子空间,实现特征对齐,在特征层面缓解了跨模态差异。该网络块由残差网络Resnet50的后四层和Nonlocal注意力模块组成。其中Nonlocal注意力模块的示意图如图5所示。利用该模块达到参考所有位置,传递远距离信息的目的。使提取到的共享特征更具有全局性和可靠性。
步骤4中,提取全局特征的详细流程如下:
提取局部特征的详细流程如下:
步骤4-3:利用1×1的卷积操作,对先前提取的共享特征进行降维,将通道数降至原先的1/4。
步骤5中利用局部特征对全局特征进行监督,使最终获得的全局特征吸取到局部特征的优势,对背景杂波、遮挡等噪声具有更强的鲁棒性,从而缓解模态内部差异,提高识别性能。不同于传统利用局部特征的方法,本发明不对每个局部特征进行身份损失、三元组损失的计算,而是将局部信息附着在全局特征上,后续仅使用全局特征进行损失的计算,这样既利用好了局部特征的优势,也减少了计算量。该损失可表示为公式1所示形式:
通过最小化该局部监督损失,实现将图像的空间特征传递给全局特征的通道维度,使每一组通道都包含了一部分区域的局部信息。
而步骤5中的全局特征约束则由身份损失和本发明新设计的跨模态分组损失组成。其中身份损失可表示为公式2:
其中,p(yi|fi)代表全局特征fi被模型预测为yi的概率。
跨模态分组损失的示意图如图6,其中小球代表提取经过上面网络提取到的全局特征,每个颜色都代表一个行人身份,实心和阴影分别代表灰度和红外两种模态。
本发明设计将提取到的两种模态图像的全局特征,按行人身份进行分组,计算组内样本间的距离,组内损失可表示为公式3:
其中,fs和ft代表该组组内某两样本的全局特征,通过最小化组内损失,减小了跨模态的类内距离,这样既减小了模态内部差异,又进一步缓解了跨模态的差异,并将该组的组内损失记作var。
针对组间,则希望组间距离最大化,也就是两个组的所有样本对距离要最大化。但单纯地增加两个组之间的距离可能会导致样本被推散,组内样本间的距离可能也就会增加,所以加上进一步的限制,在增加组间距离的同时,保持每个组组内方差不变,即保持组内样本整体移动,则组间损失可表示为公式4:
其中,Si和Sj代表两个组,即两个行人身份,i和j分别为两个组的标号,则和分别代表i和j两个组中的某个全局特征,vari和varj代表i和j两个组各自的组内距离。因此总的跨模态分组损失由组内和组间两部分组成,可表示为公式5:
Lgroup=Lintra+Linter (5);
最终,本发明提出总损失可表示为公式6所示形式:
Loverall=Llocal+Lid+Lgroup (6)。
本发明采用PyTorch框架,在单块NVIDIA GeForce 1080Ti GPU上进行训练和测试。本发明采用ResNet50作为骨干网络,并采用在ImageNet上预训练的参数初始化网络权重。在训练过程中,每次随机选择8个行人,然后对每个行人身份随机选择4张可见光图像、4张红外图像,则batchsize为64。本实验设置初始学习率为0.01,采用随机梯度下降的方式优化,动量参数设置为0.9,并在前10轮采用热身学习率策略,共训练80轮,学习率随训练轮次的变化如公式7所示:
为公平起见,参照现有工作的方法,本发明同样以累计匹配特性(CumulativeMatching Characteristic,CMC)和平均精度均值(mean Average Precision,mAP)作为评价指标。CMC中的Rank-k测量前k个检索结果中出现正确跨模态行人图像的概率,而mAP可以体现方法的平均检索性能。
具体实施例1:
本实施例将利用SYSU-MM01公共数据集,完成跨模态行人重识别任务,并测试模型的性能。SYSU-MM01数据集是跨模态行人重识别领域中的第一个标准数据集,由4个可见光摄像头和2个红外摄像头采集获得。该数据集的训练数据由395位行人的22258张可见光图像和11909张红外图像组成,且每位行人至少被两个不同视角和位置的摄像头所捕获。测试集分为两种评价模式,并且包含另外的95位行人。在两种评价模式内,查询集是一致的,包含3803张由两个红外摄像头所捕获的红外图像,图库集在All-Search模式下,包含了4个可见光摄像头捕获的图像,在Indoor-Search模式下,只包含其中2个室内的可见光摄像头捕获的图像。本实验在SYSU-MM01数据集中,采用最严格的评估方式,测试集采用Single-Shot的构建方式,以All-Search和Indoor-Search两种评价模式分别对方法进行评估。本发明方法与其他现有方法在SYSU-MM01数据集上的对比实验结果如表1、表2所示。
在对比实验中,除了本发明方案,效果最好的是AGW算法,该方法在特征提取阶段利用了非局部注意力机制提取全局特征,并使用广义平均池化和加权正则化三元组损失进行约束。本发明在此基础上,充分发挥局部特征的优势,利用局部特征对全局特征进行监督,使学习到的全局特征继承了局部特征对背景杂波及遮挡等噪声的鲁棒性,缓解了模态内部差异,并且设计了新的跨模态分组损失,结合身份损失对网络进行约束,提升网络整体性能。实验结果表明,与AGW相比,本发明方法在All-Search模式下,Rank-1,Rank-10,mAP分别提高了6.01%,6.09%,3.23%;在Indoor-Search模式下,Rank-1,Rank-10,mAP分别提高了5.04%,2.75%,3.21%。
表1 SYSU-MM01数据集上本发明方法与其他方法在All-Search模式下的对比结果
表2 SYSU-MM01数据集上本发明方法与其他方法在Indoor-Search模式下的对比结果
为进一步展示本发明方法的先进性,我们选取次优方案AGW进行对比,对实验结果进行可视化。选取3张从不同视角拍摄到的不同行人的图像作为代表,其中查询图像1为一男生的正面图像,其上衣有较为鲜明的图像、查询图像2为一男生的侧面图像,具有挎包对身体明显的遮挡和桌子等背景噪声的干扰、查询图像3为一女生的背面图像,身体轮廓清晰但没有人眼可见具有辨识性的特征。检索结果如图7所示,绿框表示匹配正确,红框表示匹配错误。
可视化结果也进一步验证了本发明所提方法的有效性和先进性。
具体实施例2:
本实施例采用RegDB数据集,来完成跨模态行人重识别任务,并测试模型的性能。RegDB数据集是由一个可见光摄像头和一个远红外摄像头捕获的图像组成的小规模数据集。该数据集包含412位行人,每个行人含有10张可见光图像和10张红外图像。本实验随机选取206位行人对应的2060张图像用于训练,剩余的206位行人对应的2060张图像用于测试。本实验采用可见光图像检索红外图像(Visible-to-Thermal,V2T)、红外图像检索可见光图像(Thermal-to-Visible,T2V)这两种检索模式,并采用10次随机分割的方式,选取训练集和测试集,记录平均精度作为该数据集上的最终性能。其对比实验结果见表3,表4.
表3 RegDB数据集上本发明方法与其他方法在T2V模式下的对比结果
表4 RegDB数据集上本发明方法与其他方法在V2T模式下的对比结果
由此可见,在RegDB数据集上,本文方法在各项指标上,也都领先于现有方法,与次优方法AGW相比,在T2V模式下,Rank-1,Rank-10,mAP分别提高了3.02%,1.84%,2.65%;在V2T模式下,Rank-1,Rank-10,mAP分别提高了2.80%,1.42%,2.56%。
同样地,也选取AGW作为对比方法,在RegDB数据集上对实验结果进行可视化。针对T2V和V2T两种检索模式,分别随机选取两个不同行人的图像作为查询集,其结果分别如图8,图9所示。其中,图8中,待查询图像为红外图像,缺乏颜色、纹理等信息,识别主要依靠行人的体态姿势。图9中,待查询图像为可见光图像,包含丰富的颜色信息和纹理信息,但也同时包含较为复杂的背景及遮挡等噪声。可视化实验结果也显示,本发明方法在两种匹配模式中的表现都优于AGW算法。
本发明的表1-表4中涉及到的参考文献具体如下:
[1]Wang G,Zhang T,Cheng J,et al.Rgb-infrared cross-modality personre-identification via joint pixel and feature alignment[C]//Proc of IEEE/CVFInternational Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:3622-3631。
[2]Ye M,Shen J,Lin G,et al.Deep learning for person re-identification:a survey and outlook[J].IEEE Trans on Pattern Analysis andMachine Intelligence,2021,44(6):2872-2893。
[3]Wu A,Zheng W,Yu H,et al.Rgb-infrared cross-modality person re-identification[C]//Proc of IEEE Conference International Conference onComputer Vision.Piscataway,NJ:IEEE Press,2017:5390-5399。
[4]Ye M,Wang Z,Lan X,et al.Visible thermal person re-identificationvia dual-constrained top-ranking[C]//Proc of the 27th International JointConference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2018:1092–1099。
[5]Wang Z,Wang Z,Zheng Y,et al.Learning to reduce dual-leveldiscrepancy for infrared-visible person re-identification[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEEPress,2019:618-626。
[6]Ye M,Lan X,Li J,et al.Hierarchical discriminative learning forvisible thermal person re-identification[C]//Proc of the 2018 AAAI Conferenceon Artificial Intelligence.Palo Alto,CA:AAAI Press,2018:7501-7508。
[7]Dai P,Ji R,Wang H,et al.Cross-modality person re-identificationwith generative adversarial training[C]//Proc of the 27th International JointConference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2018:677-683.。
[8]Ye M,Lan X,Wang Z,et al.Bi-directional center-constrained top-ranking for visible thermal person re-identification[J].IEEE Trans onInformation Forensics and Security,2019,15:407-419。
[9]Hao Y,Wang N,Li J,et al.HSME:hypersphere manifold embedding forvisible thermal person re-identification[C]//Proc of the 2019 AAAI Conferenceon Artificial Intelligence.Palo Alto,CA:AAAI Press,2019:8385-8392。
[10]Choi S,Lee S,Kim Y,et al.Hi-CMD:hierarchical cross-modalitydisentanglement for visible-infrared person re-identification[C]//Proc ofIEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:10254–10263。
[11]Wu A,Zheng W,Gong S,et al.Rgb-ir person re-identification bycross-modality similarity preservation[J].International Journal of ComputerVision,2020,128(6):1765-1785。
[12]Ye M,Shen J,Crandall DJ,et al.Dynamic dual-attentive aggregationlearning for visible-infrared person re-identification[C]//Proc of EuropeanConference on Computer Vision.Berlin,German:Springer Press,2020:229–247。
具体实施例3:
本实施例将介绍本发明的一种适用场景。
某天,一商场内发生了一起偷窃案件,警方根据报案人的提供的信息,锁定了作案地点,从相应的摄像头记录到的监控视频里,锁定了犯罪嫌疑人,此时获取到的是嫌疑人在商场内正常的可见光图像,但嫌疑人作案成功后,往往会借助人群的遮挡,并选择光线条件较差的地点进行藏匿或者逃窜,此时对应地点的监控获取到的是由红外摄像头拍摄到的红外行人图像,这给找出嫌疑人带来了比较大的困难。而本发明所提出的方案,便能解决这种问题。
首先,警方获取到需要查询区域的监控录像,利用行人检测技术,裁剪出出现行人的行人图像,并以时间、摄像头编号进行命名。
其次,便将这些行人图像作为图库集,事先得到的嫌疑人图像作为查询集,输入本发明设计的网络模型中。
最后系统便会吐出一组图像序列,根据这组图像序列的名称(时间、摄像头编号),便能锁定嫌疑人的活动轨迹,供警方实施抓捕。
Claims (9)
1.一种利用局部监督的跨模态行人重识别方法,其特征在于:建立一种利用局部监督的跨模态行人重识别框架LSN,假设每次训练,在训练集中随机选取P个行人身份,对每个身份随机选取K张可见光图像和K张红外图像,具体如下:
步骤1:输入K张可见光行人图像、K张红外行人图像至LSN模型,进入步骤2;
步骤2:如果是红外行人图像,进入步骤3,如果是可见光行人图像,则利用图像处理的方法将其转换成灰度图像,进入步骤3;
步骤3:结合Resnet50和Nonlocal注意力模块,提取红外图像和灰度图像具有全局性的共享特征,进入步骤4;
步骤4:利用共享特征,分别提取全局特征和局部特征,进入步骤5;
步骤5:利用局部特征对全局特征进行监督,利用跨模态分组损失结合身份损失对全局特征进行约束,并通过反向传播的方式更新网络参数,进入步骤6;
步骤6:若达到指定训练轮数,则进入步骤7,否则返回步骤1;
步骤7:训练结束。
5.根据权利要求4所述的利用局部监督的跨模态行人重识别方法,其特征在于:所述的步骤3-1中两种模态的卷积网络结构相同、参数不同。
6.根据权利要求4所述的利用局部监督的跨模态行人重识别方法,其特征在于:所述的步骤3-2中将两种模态的浅层特有特征输入至结构相同、参数相同的网络块中,将两种不同模态的特征映射至相同的特征子空间,实现特征对齐,在特征层面缓解了跨模态差异;该网络块由残差网络Resnet50的后四层和Nonlocal注意力模块组成。
9.根据权利要求1所述的利用局部监督的跨模态行人重识别方法,其特征在于:所述的步骤5中利用局部特征对全局特征进行监督,使最终获得的全局特征吸取到局部特征的优势,具体地,本发明将局部信息附着在全局特征上,后续仅使用全局特征进行损失的计算,该损失可表示为公式1所示形式:
通过最小化该局部监督损失,实现将图像的空间特征传递给全局特征的通道维度,使每一组通道都包含了一部分区域的局部信息;
所述的步骤5中的全局特征约束由身份损失和本发明新设计的跨模态分组损失组成,其中,身份损失可表示为公式2:
其中,p(yi|fi)代表全局特征fi被模型预测为yi的概率;
本发明设计将提取到的两种模态图像的全局特征,按行人身份进行分组,计算组内样本间的距离,组内损失可表示为公式3:
其中,fs和ft代表该组组内某两样本的全局特征,通过最小化组内损失,减小了跨模态的类内距离,这样既减小了模态内部差异,又进一步缓解了跨模态的差异,并将该组的组内损失记作var;
针对组间,则希望组间距离最大化,也就是两个组的所有样本对距离要最大化,但单纯地增加两个组之间的距离可能会导致样本被推散,组内样本间的距离可能也就会增加,所以加上进一步的限制,在增加组间距离的同时,保持每个组组内方差不变,即保持组内样本整体移动,则组间损失可表示为公式4:
其中,Si和Sj代表两个组,即两个行人身份,i和j分别为两个组的标号,则和分别代表i和j两个组中的某个全局特征,vari和varj代表i和j两个组各自的组内距离;因此总的跨模态分组损失由组内和组间两部分组成,可表示为公式5:
Lgroup=Lintra+Linter (5);
最终,本发明提出总损失可表示为公式6所示形式:
Loverall=Llocal+Lid+Lgroup (6)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211223245.1A CN115565204A (zh) | 2022-10-08 | 2022-10-08 | 一种利用局部监督的跨模态行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211223245.1A CN115565204A (zh) | 2022-10-08 | 2022-10-08 | 一种利用局部监督的跨模态行人重识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115565204A true CN115565204A (zh) | 2023-01-03 |
Family
ID=84745856
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211223245.1A Pending CN115565204A (zh) | 2022-10-08 | 2022-10-08 | 一种利用局部监督的跨模态行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115565204A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117542084A (zh) * | 2023-12-06 | 2024-02-09 | 湖南大学 | 一种语义感知的跨模态行人重识别方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114550208A (zh) * | 2022-02-10 | 2022-05-27 | 南通大学 | 基于全局级别和局部级别联合约束的跨模态行人再识别方法 |
-
2022
- 2022-10-08 CN CN202211223245.1A patent/CN115565204A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114550208A (zh) * | 2022-02-10 | 2022-05-27 | 南通大学 | 基于全局级别和局部级别联合约束的跨模态行人再识别方法 |
Non-Patent Citations (1)
Title |
---|
JIN WANG ET AL.: ""Visible–Infrared Person Re-Identification via Global Feature Constraints Led by Local Features"", 《ELECTRONICS》, 24 August 2022 (2022-08-24), pages 1 - 15 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117542084A (zh) * | 2023-12-06 | 2024-02-09 | 湖南大学 | 一种语义感知的跨模态行人重识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA3041148C (en) | Systems and methods for behaviour understanding from trajectories | |
Aghaei et al. | With whom do I interact? Detecting social interactions in egocentric photo-streams | |
CN108564052A (zh) | 基于mtcnn的多摄像头动态人脸识别系统与方法 | |
Lin et al. | A heat-map-based algorithm for recognizing group activities in videos | |
Nguyen et al. | Anomaly detection in traffic surveillance videos with gan-based future frame prediction | |
CN114241517B (zh) | 基于图像生成和共享学习网络的跨模态行人重识别方法 | |
Rehman et al. | Deep learning for face anti-spoofing: An end-to-end approach | |
CN114973317A (zh) | 一种基于多尺度邻接交互特征的行人重识别方法 | |
Huang et al. | Deepfake mnist+: a deepfake facial animation dataset | |
CN115565204A (zh) | 一种利用局部监督的跨模态行人重识别方法 | |
Polikovsky et al. | Detection and measurement of facial micro-expression characteristics for psychological analysis | |
CN112668550A (zh) | 基于关节点-深度联合关注rgb模态数据的双人交互行为识别方法 | |
CN114550208A (zh) | 基于全局级别和局部级别联合约束的跨模态行人再识别方法 | |
Visser et al. | Object recognition for video retrieval | |
Behera et al. | Person re-identification: A taxonomic survey and the path ahead | |
Miao et al. | Abnormal Behavior Learning Based on Edge Computing toward a Crowd Monitoring System | |
Fang et al. | Pedestrian attributes recognition in surveillance scenarios with hierarchical multi-task CNN models | |
Bao et al. | Preserving structural relationships for person re-identification | |
Mishra et al. | Real-Time pedestrian detection using YOLO | |
Guo et al. | Integrating diversity into neural-network-based face deidentification | |
Kumaran et al. | Object detection and tracking in crowd environment—a review | |
Ponsam et al. | Extraction in Digital Forensic Investigation based on Video Enhancement and Machine Learning | |
Hassan et al. | Crowd counting using deep learning based head detection | |
Vo-Le et al. | Violence Detection using Feature Fusion of Optical Flow and 3D CNN on AICS-Violence Dataset | |
Sellami et al. | Video semantic segmentation using deep multi-view representation learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |