CN116311384A - 基于中间模态和表征学习的跨模态行人重识别方法、装置 - Google Patents

基于中间模态和表征学习的跨模态行人重识别方法、装置 Download PDF

Info

Publication number
CN116311384A
CN116311384A CN202310545943.1A CN202310545943A CN116311384A CN 116311384 A CN116311384 A CN 116311384A CN 202310545943 A CN202310545943 A CN 202310545943A CN 116311384 A CN116311384 A CN 116311384A
Authority
CN
China
Prior art keywords
image
mode
loss
cross
pedestrian
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310545943.1A
Other languages
English (en)
Inventor
马莉
官志斌
代新冠
卢愿萌
吴伟雪
杨俊祥
王金金
孔瑞
辛江博
苏敏
刘德翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Science and Technology
Original Assignee
Xian University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Science and Technology filed Critical Xian University of Science and Technology
Priority to CN202310545943.1A priority Critical patent/CN116311384A/zh
Publication of CN116311384A publication Critical patent/CN116311384A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提供了一种基于联合中间模态和表征学习的跨模态行人重识别方法、装置、设备和可读存储介质。方法包括:获取可见光图像和红外图像两种模态的原始图像;利用中间模态生成器将原始图像映射到统一的特征空间,生成中间模态图像;将中间模态图像与原始图像联合输入到参数共享的特征提取网络;基于多粒度池化策略,采用全局特征与局部特征相结合的策略和广义平均池化优化跨模态行人重识别模型;采用分布一致性损失、标签平滑交叉熵损失和异质中心三元组损失的联合损失共同优化模型;应用优化后的图像识别待识别图像。本发明的模型具有很高的表征学习能力,能有效降低模态差异和类内差异,较大提升跨模态行人重识别的性能。

Description

基于中间模态和表征学习的跨模态行人重识别方法、装置
技术领域
本发明涉及图像处理技术领域,尤其是涉及一种基于联合中间模态和表征学习的跨模态行人重识别的方法、装置、设备和计算机可读存储介质。
背景技术
近年来,行人重识别技术得到学术界的广泛关注,并取得了一定的成果。传统的行人重识别主要针对的是可见光图像,但在夜间或者光线不足的场景下,可见光摄像机很难获取到清晰的行人图像,导致特征提取网络难以提取到有效的行人特征,从而使传统的行人重识别模型无法达到理想的效果。相比之下,红外摄像机对光照条件不敏感,在无光源的情况下仍能成像。因此,基于可见光与红外图像的行人重识别逐渐成为该领域的研究热点。
基于联合中间模态和表征学习的跨模态行人重识别任务的难点在于不同模态同身份样本的身份判别性不足导致的类内差异和由于可见光摄像机和红外摄像机的成像原理不同,导致可见光图像和红外图像存在模态差异。
现有的跨模态行人重识别方法主要从度量学习、参数共享和模态转换等方面展开研究。基于度量学习的跨模态行人重识别方法是利用损失函数来缩小类内间距,扩大类间间距,所以如何设计一个好的损失函数至关重要;基于参数共享的跨模态行人重识别方法主要是通过共享部分网络层,使网络能够在一个共享的特征空间中学习;基于模态转换的跨模态行人重识别方法主要是利用GAN等方法将不同模态图像进行相互转化,来减小不同模态之间的差异,但该方法并不能将一个模态的图像完全转化为另一种模态图像。
如何提出一种基于联合中间模态和表征学习的跨模态行人重识别技术,以提升现有跨模态行人重识别的精度成为亟待解决的问题。
发明内容
本发明的目的在于提供一种基于联合中间模态和表征学习的跨模态行人重识别方法、装置、设备和可读存储介质,以缓解了现有技术中存在的技术问题。
第一方面,本发明实施例提供一种基于联合中间模态和表征学习的跨模态行人重识别方法,所述方法包括:获取可见光VIS图像和红外IR图像两种模态的原始图像;
利用中间模态生成器将所述两种模态的原始图像映射到统一的特征空间,以生成中间模态图像;
将所述中间模态图像与所述原始图像联合输入到参数共享的特征提取网络;
基于多粒度池化策略,采用全局特征与局部特征相结合的策略和广义平均池化优化基于联合中间模态和表征学习的跨模态行人重识别模型;
采用分布一致性损失、标签平滑交叉熵损失和异质中心三元组损失的联合损失共同优化基于联合中间模态和表征学习的跨模态行人重识别模型;
应用优化后的基于联合中间模态和表征学习的跨模态行人重识别模型识别待识别图像。
在可选的实施方式中,所述生成中间模态图像的步骤包括:
在通道级别将单通道的红外IR图像转换成三通道,以与三通道的可见光VIS图像对齐;
利用两个3×1的全连接层FC分别对所述可见光VIS图像和所述红外IR图像进行编码,将三通道图像转换为单通道图像;
分别使用两个1×1的全连接层FC进行特征降维;
将降维后的特征进行拼接,输入到一个由全连接层FC和激活层ReLU构成的解码器中,使编码得到的单通道图像投影到统一的三通道图像,以生成所述中间模态图像。
在可选的实施方式中,所述参数共享的特征提取网络采用ResNet50作为双流网络的基础网络,并将ResNet50前三个阶段作为特征提取器提取所述两种模态独立的特征,后两个阶段作为特征嵌入器进行参数共享。
在可选的实施方式中,所述多粒度池化策略包括:采用全局特征分支和局部特征分支的多粒度池化结构和广义平均池化方法;
其中,上半部分为所述全局特征分支,所述全局特征分支将所述参数共享的特征提取网络输出的特征进行预设步长的采样,以学习全局特征;
下半部分为所述局部特征分支,所述局部特征分支将所述参数共享的特征提取网络输出的特征进行水平均匀分为预设数量块,以学习细粒度的局部特征学习。
在可选的实施方式中,所述预设步长为2,所述预设数量块为4块。
在可选的实施方式中,所述分布一致性损失函数为:
Figure SMS_1
,其中,
Figure SMS_2
为所述分布一致性损失,
Figure SMS_3
为训练 阶段每个批次中图片的数量,
Figure SMS_4
Figure SMS_5
为VIS和IR生成的两种类型的中间模态图像,
Figure SMS_6
为两个中间模态经过全连接层的输出,
Figure SMS_7
表示A和B之差的平均运算。
在可选的实施方式中,所述标签平滑交叉熵损失函数为:
Figure SMS_9
, 其中,
Figure SMS_13
Figure SMS_14
为所述标签平滑交叉熵损失,
Figure SMS_10
为图像的真实标签,
Figure SMS_12
为预测值,
Figure SMS_15
为行人身份数目,
Figure SMS_16
为容错率,以
Figure SMS_8
作为真实标签进行训练,
Figure SMS_11
为0.1。
在可选的实施方式中,所述联合损失函数为:
Figure SMS_17
,其中,
Figure SMS_18
为所述异质中心三元组损失,/>
Figure SMS_19
为所述联合损失,/>
Figure SMS_20
和/>
Figure SMS_21
分别表示/>
Figure SMS_22
和/>
Figure SMS_23
的权重。
第二方面,本发明实施例还提供了一种基于联合中间模态和表征学习的跨模态行人重识别装置。所述装置包括:获取模块,用于获取可见光VIS图像VIS和红外IR图像IR两种模态的原始图像;
生成模块,用于利用中间模态生成器将所述两种模态的原始图像映射到统一的特征空间,以生成中间模态图像;
提取模块,用于将所述中间模态图像与所述原始图像联合输入到参数共享的特征提取网络;
策略模块,用于基于多粒度池化策略,采用全局特征与局部特征相结合的策略和广义平均池化优化基于联合中间模态和表征学习的跨模态行人重识别模型;
优化模块,用于采用分布一致性损失、标签平滑交叉熵损失和异质中心三元组损失的联合损失共同优化基于联合中间模态和表征学习的跨模态行人重识别模型;
识别模块,用于应用优化后的基于联合中间模态和表征学习的跨模态行人重识别模型识别待识别图像。
第三方面,本发明实施例还提供了一种基于联合中间模态和表征学习的跨模态行人重识别设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现本申请第一方面所提供的任一项所述方法的步骤。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行本申请第一方面所提供的任一项所述方法的步骤。
本发明首先获取VIS图像和红外IR图像两种模态的原始图像,然后利用中间模态生成器将不同模态图像映射到统一特征空间生成中间模态图像,减小了模态差异;采用双流参数共享网络提取原始图像与中间模态图像联合后的特征,同时采用全局特征与局部特征相结合的多粒度池化策略,提高了模型的表征学习能力,进一步减小了模态差异。联合分布一致性损失、标签平滑交叉熵损失和异质中心三元组损失进一步优化模型,缩小类内间距,减小了类内差异,加速模型收敛;较大提升基于联合中间模态和表征学习的跨模态行人重识别的性能。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图;
图1为本发明实施例提供的一种基于联合中间模态和表征学习的跨模态行人重识别方法流程示意图;
图2为本发明实施例提供的中间模态生成器的架构示意图;
图3为本发明实施例提供的可见光图像、红外图像和中间模态图像示意图;
图4(a)为现有技术的双流网络结构示意图;
图4(b)为本发明实施例提供的参数共享的双流网络结构示意图;
图5为本发明实施例提供的多粒度网络结构示意图;
图6为本发明实施例提供的基于联合中间模态和表征学习的跨模态行人重识别的整体结构示意图;
图7为本发明实施例提供的一种基于联合中间模态和表征学习的跨模态行人重识别装置的结构示意图。
实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
下面结合附图,对本发明的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
行人重识别指通过计算机视觉技术判断在多个不相交的摄像头下是否存在特定行人的技术,被广泛认为是图像检索问题。该技术可与行人检测、行人跟踪等技术结合,可以应用于无人超市、智能视频监控等领域。
如图1所示,本申请实施例提供了一种基于联合中间模态和表征学习的跨模态行人重识别方法,包括以下步骤:
步骤102,获取可见光VIS图像和红外IR图像两种模态的原始图像;
步骤104,利用中间模态生成器将两种模态的原始图像映射到统一的特征空间,以生成中间模态图像;
步骤106,将中间模态图像与原始图像联合输入到参数共享的特征提取网络;
步骤108,基于多粒度池化策略,采用全局特征与局部特征相结合的策略和广义平均池化优化基于联合中间模态和表征学习的跨模态行人重识别模型;
步骤110,采用分布一致性损失、标签平滑交叉熵损失和异质中心三元组损失的联合损失共同优化基于联合中间模态和表征学习的跨模态行人重识别模型;
步骤112,应用优化后的基于联合中间模态和表征学习的跨模态行人重识别模型识别待识别图像。
本发明的实施例中,首先获取VIS图像和红外IR图像两种模态的原始图像,然后利用中间模态生成器将不同模态图像映射到统一特征空间生成中间模态图像,减小了模态差异;采用双流参数共享网络提取原始图像与中间模态图像联合后的特征,同时采用全局特征与局部特征相结合的多粒度池化策略,提高了模型的表征学习能力,进一步减小了模态差异。联合分布一致性损失、标签平滑交叉熵损失和异质中心三元组损失进一步优化模型,缩小类内间距,减小了类内差异,加速模型收敛;较大提升跨模态行人重识别的性能。
在本申请一个可选的实施例中,生成中间模态图像的步骤包括:在通道级别将单通道的红外IR图像转换成三通道,以与三通道的可见光VIS图像对齐;利用两个3×1的全连接层FC分别对可见光VIS图像和红外IR图像进行编码,将三通道图像转换为单通道图像;分别使用两个1×1的全连接层FC进行特征降维;将降维后的特征进行拼接,输入到一个由全连接层FC和激活层ReLU构成的解码器中,使编码得到的单通道图像投影到统一的三通道图像,以生成中间模态图像。
在本实施例中,利用两个独立的编码器分别对两种模态的图像进行编码,再通过共享的解码器以生成中间模态图像。具体来讲,首先在通道级别将单通道的红外图像转换成三通道,以保证与三通道的可见光图像对齐。再利用两个3×1的FC分别对可见光和红外图像进行编码,将三通道转换为单通道;然后再分别使用两个1×1的FC来减少计算量;将降维后的特征进行拼接,再输入到一个由FC和ReLU构成的解码器中,使编码得到的单通道图像投影到统一的三通道图像中,生成具有与可见光图像和红外图像相同的标签的中间模态图像;在这个统一的图像空间中,可见光和红外图像之间的距离变得更近,从而减小了模态差异。
在本实施例中,中间模态生成器的架构可以如图2所示,可见光图像、红外图像和中间模态图像如图3所示:其中Person1表示行人的身份,VIS表示可见光图像,IR表示红外图像,VtM表示可见光图像对应生成的中间模态图像,ItM表示红外图像对应生成的中间模态图像。
在本申请一个可选的实施例中,参数共享的特征提取网络采用ResNet50作为双流网络的基础网络,并将ResNet50前三个阶段作为特征提取器提取两种模态独立的特征,后两个阶段作为特征嵌入器进行参数共享。
在本实施例中,将生成的中间模态图像与原始的图像一起输入到双流参数共享网络进行特征提取,以进一步减小模态差异。然而现有技术中的双流网络主要是为两种模态的图像设置独立的特征提取分支以学习各模态中与行人相关的信息,其结构如图 4(a)所示。该结构在一定程度上可以减小不同模态之间的差异,但忽略了不同模态同身份样本之间的关联性,从而导致类内间距增大。本实施例采用参数共享的双流网络结构,具体来说,采用ResNet50作为双流网络的基础网络,并将ResNet50前三个阶段作为特征提取器提取各模态独立的特征,后两个阶段作为特征嵌入器进行参数共享,其结构如图 4(b)所示。
ResNet50作为双流参数共享网络的基础网络。但是由于ResNet50 结构中包含stage0-stag4五个阶段,从不同阶段进行参数共享会对模型性能产生不同影响,因此本实施例进行了参数共享实验来对比不同共享方式对模型性能的影响,从而选择最优的参数共享网络。实验结果如表1的参数共享实验所示,其中实验1为baseline。
表1
Figure SMS_24
实验结果表明:将stage0-stgae2作为特征提取器提取各模态独立的特征,stage3-stgae4作为特征嵌入器进行参数共享时模型性能达到最佳,可有效减小模态差异。
在本申请一个可选的实施例中,多粒度池化策略包括:采用全局特征分支和局部特征分支的多粒度池化结构和广义平均池化方法;其中,上半部分为全局特征分支,全局特征分支将参数共享的特征提取网络输出的特征进行预设步长的采样,以学习全局特征;以及下半部分为局部特征分支,局部特征分支将参数共享的特征提取网络输出的特征进行水平均匀分为预设数量块,以学习细粒度的局部特征学习。
在本实施例中,基于表征学习的方法主要任务是从行人图像中提取更具判别性的特征表示。现有技术主要是提取行人的全局特征,即提取图像中行人的全局信息,并用一个全局特征向量来表示不同的行人身份,但仅采用提取全局特征的方式,会忽略一些不显著的行人信息,导致网络很难提取到辨别性更强的特征。本实施例的采用全局特征分支和局部特征分支的多粒度池化结构和广义平均池化方法,从而得到多粒度行人特征的方式更具优势。避免了全局特征的局限性,同时关注局部特征。另一方面,广义平均池化更加关注图像细节信息,防止容易受到背景和遮挡的干扰且很难获取到行人的细节特征的弊端。
在一个更优先的实施例中,广义平均池化(Generalized Mean Pooling,GeM)的公式如下:
Figure SMS_25
其中,X 为池化层的输入,f 为池化层的输出。 pk是一个超参数,在反向传播的过程中学习。当pk =1 时,GeM 池化等价于全局平均池化;当pk趋于无穷大时, GeM 池化等价于全局最大池化。
在本申请一个可选的实施例中,预设步长为2,预设数量块为4块。
在本实施例中,多粒度网络可以如图5所示,从图5中可以看出,多粒度池化结构主要分为两个分支:全局特征分支和局部特征分支。上半部分为全局特征分支,该分支将参数共享网络输出后的特征进行步长为 2的下采样,减小模型的参数量,并且没有对输出特征进行细粒度处理,只负责学习全局特征。下半部分为局部特征分支,该分支对参数共享网络输出后的特征进行水平均匀分块,将图像分为四块,进行细粒度的局部特征学习。
为了验证多粒度池化的有效性,对多粒度和池化方式分别进行了对比实验。实验结果如表2所示,其中实验1为baseline采取的方式:
表2
Figure SMS_26
实验结果表明:多粒度策略和GeM池化方式一定程度都能提高模型的性能。其中多粒度策略在SYSU-MM01数据集上对模型性能提升较大,而在RegDB数据集上对模型性能提升较小,甚至对模型产生负影响,其原因是在RegDB数据集中的行人图像相对不清晰,导致难以对提取到可靠的特征。总体而言,将实施例的方法在两种数据集上进行综合评估,发现采用多粒度和GeM池化组合的方式,能有效提高模型表征学习能力,从而提高模型的性能。
在本申请一个可选的实施例中,分布一致性损失函数为:
Figure SMS_27
其中,
Figure SMS_28
为所述分布一致性损失,
Figure SMS_29
为训练阶段每个批次中图片的数量,
Figure SMS_30
Figure SMS_31
为VIS和IR生成的两种类型的中间模态图像,
Figure SMS_32
为两个中间模态经过全连接层 的输出,
Figure SMS_33
表示A和B之差的平均运算。
在本实施例中,通过上述分布一致性损失,使生成的中间模态图像分布一致性更高,来拉近了中间模态图像的距离。
在本申请一个可选的实施例中,标签平滑交叉熵损失函数为:
Figure SMS_35
,其中,
Figure SMS_39
Figure SMS_40
为所述标签平滑交 叉熵损失,
Figure SMS_36
为图像的真实标签,
Figure SMS_38
为预测值,
Figure SMS_41
为行人身份数目,
Figure SMS_42
为容错率,以
Figure SMS_34
作为真实标签进行训练,
Figure SMS_37
为0.1。
在本实施例中,在扩大类间间距方面,交叉熵损失函数能表现出更好的效果,但当样本标签出现错误时,交叉熵损失函数还按照正常标签处理让其概率很高,标签平滑交叉熵损失代替交叉熵损失,避免了过拟合的情况出现。
在本申请一个可选的实施例中,联合损失函数为:
Figure SMS_43
,其中,/>
Figure SMS_44
为所述异质中心三元组损失,/>
Figure SMS_45
为所述联合损失,/>
Figure SMS_46
和/>
Figure SMS_47
分别表示/>
Figure SMS_48
和/>
Figure SMS_49
的权重。
在本实施例中,联合分布性一致损失、标签平滑交叉熵损失和异质中心三元组损失进行联合监督训练,共同优化模型。有效降低了模态差异和类内差异,模型性能得到较大提升。
本发明又一实施例中,基于联合中间模态和表征学习的跨模态行人重识别方法的整体结构如图6所示,该实施例的基于联合中间模态和表征学习的跨模态行人重识别模型的构建方法,包括以下步骤:
(1)首先,利用中间模态生成器将VIS和IR图像映射到一个统一的特征空间来生成中间模态图像,然后将中间模态图像与原始图像联合输入到双流参数共享网络进行特征提取,以减少模态差异。
(2)其次,为了提高模型的表征学习能力,采用全局特征和局部特征结合的多粒度池化策略,利用局部特征学习优化全局特征,在提高模型的表征学习能力的同时,加强全局特征和局部特征的关联性。
(3)最后,联合分布一致性损失、标签平滑交叉熵损失和异质中心三元组损失共同优化模型,以缩小类内间距,扩大类间间距,加速模型收敛。
中间模态生成器(Middle Modality Generator,MMG),通过编码器和解码器将可见光图像和红外图像映射到统一的特征空间,以生成中间模态图像,再通过分布性一致损失(Distribution Consistency Loss,DCL)使生成的中间模态图像分布一致,以减小不同模态图像之间的差异。
本实施例采用ResNet50作为参数共享网络的基础网络,并将ResNet50前三个阶段作为特征提取器提取各模态独立的特征,后两个阶段作为特征嵌入器进行权重共享,以进一步减小模态差异。
多粒度池化(Multi-granularity Pooling,MGP)策略,将全局特征和局部特征相结合以加强特征之间的关联性;池化方式采用更加关注图像细节信息的广义平均池化,以提高模型的表征学习能力。
本实施例中联合损失函数设计如下:
(1)分布一致性损失
中间模态生成器利用两个独立的编码器分别对两种模态的图像进行编码,使可见光和红外图像映射到统一的特征空间,再通过共享的解码器生成中间模态图像。为了使生成的中间模态图像分布尽可能一致,提出了分布一致性损失,来拉近中间模态图像的距离,其表达式如下:
Figure SMS_50
其中,
Figure SMS_51
为训练阶段每个批次中图片的数量,
Figure SMS_52
Figure SMS_53
为VIS和IR生成的两 种类型的中间模态图像,
Figure SMS_54
为两个中间模态经过全连接层的输出,
Figure SMS_55
表示A 和B之差的平均运算。
(2)标签平滑交叉熵损失
在扩大类间间距方面,交叉熵损失函数能表现出比三元组损失函数更好的效果,但当样本标签出现错误时,还按照正常标签处理让其概率很高,传统的交叉熵损失可能会出现过拟合的情况。为避免过拟合的情况出现,我们用标签平滑交叉熵损失代替交叉熵损失。
标签平滑交叉熵损失是一种广泛用于分类任务的方法,其公式如下:
Figure SMS_56
Figure SMS_57
其中,
Figure SMS_58
为图像的真实标签,
Figure SMS_59
为预测值,
Figure SMS_60
为行人身份数目,
Figure SMS_61
为容错率,以
Figure SMS_62
作为真实标签进行训练,
Figure SMS_63
为0.1。
(3)异质中心三元组损失
在缩小类内间距方面,异质中心三元组损失通过将锚点与其他样本的比较改为锚点中心与其他样本中心的比较来减弱传统三元组损失的强约束,从而使不同模态图像在同一特征空间中得到更好的映射结果。
由于将生成的中间模态图像与原始可见光图像和红外图像一起用于辅助网络训练,就形成了一个大小为4M的批次,其中M表示每种模态输入图像的数量。我们设定第一个M为IVIS,第二个M为IVtM,第三个M为IItM,第四个M为IIR。对于VIS和IR模态,其异质中心三元组损失表示如下:
Figure SMS_64
Figure SMS_65
Figure SMS_66
其中
Figure SMS_67
为边缘参数,设置为0.3;/>
Figure SMS_68
表示VIS和IR图像中心之间的欧式距离; />
Figure SMS_69
表示/>
Figure SMS_70
里的值比0大时取该值,否则值为0。
其他模态之间的异质三元组损失的计算与
Figure SMS_71
类似。最终得到本实施例的异质中心三元组损失,其表达式如下:
Figure SMS_72
(4)联合损失
本实施例联合分布性一致损失、标签平滑交叉熵损失和异质中心三元组损失进行联合监督训练,共同优化模型。最终得到联合损失表达式为:
Figure SMS_73
Figure SMS_74
和/>
Figure SMS_75
分别表示/>
Figure SMS_76
和/>
Figure SMS_77
的权重
为了验证联合损失的有效性,本实施例进行了对比实验。实验结果如表3所示,其中实验1为baseline。
表3
Figure SMS_78
其中 DCL-LS-T 表示联合分布一致性损失、标签平滑交叉熵损失和三元组损失,DCL-LS-HCT 表示联合分布一致性损失、标签平滑交叉熵损失和异质中心三元组损失。
由实验结果可知,当使用DCL-LS-HCT联合损失时,模型性能达到最优,同时也说明了异质中心三元组损失有效减小了类内差异。
本实施例的消融实验中,通过前三小节对比实验确定了模型的参数共享网络、多粒度池化以及联合损失函数,在前面实验的基础上进行消融实验来进一步验证各个模块的有效性。消融实验在SYSU-MM01数据集上进行,并设置全搜索模式(All Serach)和室内搜索模式(Indoor Search),实验结果如表4所示。具体来说,本实施例方法在SYSU-MM01数据集的All Search模式下Rank-1和 mAP分别达到71.27%和68.11%,分别提升了3.59%和3.29%;在Indoor Search模式下Rank-1和mAP分别达到77.64%和81.06%,分别提升了3.38%和2.57%。
对实验结果进一步分析,可以看出:
(1)PS和MGP均可以提高模型的性能,说明通过参数共享的方式和多粒度池化策略不仅可以提高模型的表征学习能力,还能减小模态差异。
(2)联合分布性一致损失、标签平滑交叉熵损失和异质中心三元组损失的DCL-LS-HCT损失函数也对基线模型的性能有改善,说明DCL-LS-HCT有效减小了类内差异。
(3)PS、MGP和DCL-LS-HCT共同作用时,有效降低了模态差异和类内差异,模型性能得到较大提升,同时也说明了本文方法的有效性。
表4
Figure SMS_79
PS 表示参数共享(Parameter Sharing), MGP 表示多粒度池化策略(Multi-granularity Pooling),DCL-LS-HCT 表示联合分布一致性损失、标签平滑交叉熵损失和异质中心三元组损失。
将本本实施例提出的方法与现有技术的的跨模态行人重识别方法在RegDB 和SYSU-MM01上进行了对比,结果如表 5所示。其中现有技术中方法包括: HCML[25]、HSME[26]、D2RL[27]、AliGAN[22]、HC[2]、HcTri[3] 、X-modal[8]、AGW[28]、DDAG[29]、CM-NAS[30]、DGTL[31]和FMCNet[32]。
实验结果显示:(1)本实施例所提方法在SYSU-MM01数据集的All Search模式下Rank-1和mAP分别达到71.27%和68.11%;在Indoor Search模式下Rank-1和mAP分别达到77.64%和81.06%。(2)在RegDB 数据集的可见光到红外模式下Rank-1和mAP分别达到94.18%和86.54%;在红外到可见光模式下Rank-1和mAP分别达到91.16%和83.67%。
从实验结果可以看出,本实施例所提出方法的性能明显优于其他方法,具体体现在以下三个方面:
(1)基于X-modal的方法利用辅助模态来减小模态差异,但是其仅针对VIS图像生成中间模态图像。而本实施例方法将VIS和IR模态图像映射到一个统一的空间生成中间模态图像,能进一步减小模态差异。
(2)基于表征学习的方法主要任务是提取更具判别性的特征。本实施例采用全局特征和局部特征相结合的方式,提高了模型的表征学习能力,与仅关注全局特征的DDAG方法相比具有更好的性能。
(3)基于度量学习的方法主要任务是将学习到的特征映射到新的空间,再通过损失函数缩小类内间距,扩大类间间距。本实施例联合分布性一致损失、标签平滑交叉熵损失和异质中心三元组损失共同优化模型,与仅采用HC或HcTri的方法相比更具优势。
表5
Figure SMS_80
综上所述,针对跨模态行人重识别存在的模态差异和类内差异等问题,本实施例将中间模态图像和原始图像联合输入双流参数共享网络进行特征提取,再采用全局特征与局部特征相结合的多粒度池化策略提高模型的表征学习能力,有效减小了模态差异。同时利用异质中心三元组损失减小类内差异,再将其与分布一致性损失和标签平滑交叉熵损失联合共同优化模型。在公开数据集上进行了大量的实验,与现有的SOTA方法相比,本实施例方法具有更好的性能。
图7为本申请实施例提供的一种基于联合中间模态和表征学习的跨模态行人重识别装置70的结构示意图。如图7所示,基于联合中间模态和表征学习的跨模态行人重识别装置70包括:
获取模块702,用于获取可见光VIS图像VIS和红外IR图像IR两种模态的原始图像;
生成模块704,用于利用中间模态生成器将两种模态的原始图像映射到统一的特征空间,以生成中间模态图像;
提取模块706,用于将中间模态图像与原始图像联合输入到参数共享的特征提取网络;
策略模块708,用于基于多粒度池化策略,采用全局特征与局部特征相结合的策略和广义平均池化优化基于联合中间模态和表征学习的跨模态行人重识别模型;
优化模块710,用于采用分布一致性损失、标签平滑交叉熵损失和异质中心三元组损失的联合损失共同优化基于联合中间模态和表征学习的跨模态行人重识别模型;
识别模块712,用于应用优化后的基于联合中间模态和表征学习的跨模态行人重识别模型识别待识别图像。
本发明的实施例中,首先获取模块702获取VIS图像和红外IR图像两种模态的原始图像,然后生成模块704利用中间模态生成器将不同模态图像映射到统一特征空间生成中间模态图像,减小了模态差异;提取模块706采用双流参数共享网络提取原始图像与中间模态图像联合后的特征,同时策略模块708采用全局特征与局部特征相结合的多粒度池化策略,提高了模型的表征学习能力,进一步减小了模态差异。优化模块710联合分布一致性损失、标签平滑交叉熵损失和异质中心三元组损失进一步优化模型,缩小类内间距,减小了类内差异,加速模型收敛;较大提升跨模态行人重识别的性能。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本申请实施例提供的基于联合中间模态和表征学习的跨模态行人重识别设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现方法实施例中的方法。具体实现可参见方法实施例,在此不再赘述。
本发明实施例所提供的可读存储介质的计算机程序产品,包括存储了程序代码的计算机可读存储介质,程序代码包括的指令可用于执行前面方法实施例中的方法,具体实现可参见方法实施例,在此不再赘述。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (11)

1.一种基于联合中间模态和表征学习的跨模态行人重识别方法,其特征在于,所述方法包括:
获取可见光VIS图像和红外IR图像两种模态的原始图像;
利用中间模态生成器将所述两种模态的原始图像映射到统一的特征空间,以生成中间模态图像;
将所述中间模态图像与所述原始图像联合输入到参数共享的特征提取网络;
基于多粒度池化策略,采用全局特征与局部特征相结合的策略和广义平均池化优化基于联合中间模态和表征学习的跨模态行人重识别模型;
采用分布一致性损失、标签平滑交叉熵损失和异质中心三元组损失的联合损失共同优化所述基于联合中间模态和表征学习的跨模态行人重识别模型;
应用优化后的基于联合中间模态和表征学习的跨模态行人重识别模型识别待识别图像。
2.根据权利要求1所述的方法,其特征在于,所述生成中间模态图像的步骤包括:
在通道级别将单通道的红外IR图像转换成三通道,以与三通道的可见光VIS图像对齐;
利用两个3×1的全连接层FC分别对所述可见光VIS图像和所述红外IR图像进行编码,将三通道图像转换为单通道图像;
分别使用两个1×1的全连接层FC进行特征降维;
将降维后的特征进行拼接,输入到一个由全连接层FC和激活层ReLU构成的解码器中,使编码得到的单通道图像投影到统一的三通道图像,以生成所述中间模态图像。
3.根据权利要求1所述的方法,其特征在于,所述参数共享的特征提取网络采用ResNet50作为双流网络的基础网络,并将ResNet50前三个阶段作为特征提取器提取所述两种模态独立的特征,后两个阶段作为特征嵌入器进行参数共享。
4.根据权利要求1所述的方法,其特征在于,所述多粒度池化策略包括:采用全局特征分支和局部特征分支的多粒度池化结构和广义平均池化方法;
其中,上半部分为所述全局特征分支,所述全局特征分支将所述参数共享的特征提取网络输出的特征进行预设步长的采样,以学习全局特征;
下半部分为所述局部特征分支,所述局部特征分支将所述参数共享的特征提取网络输出的特征进行水平均匀分为预设数量块,以学习细粒度的局部特征学习。
5.根据权利要求4所述的方法,其特征在于,所述预设步长为2,所述预设数量块为4块。
6.根据权利要求1所述的方法,其特征在于,所述分布一致性损失函数为:
Figure QLYQS_1
,其中,
Figure QLYQS_2
为所述分布一致性损失,
Figure QLYQS_3
为训练 阶段每个批次中图片的数量,
Figure QLYQS_4
Figure QLYQS_5
为VIS和IR生成的两种类型的中间模态图像,
Figure QLYQS_6
为两个中间模态经过全连接层的输出,
Figure QLYQS_7
表示A和B之差的平均运算。
7.根据权利要求6所述的方法,其特征在于,所述标签平滑交叉熵损失函数为:
Figure QLYQS_9
,其中,
Figure QLYQS_13
Figure QLYQS_14
为所述标签平滑交叉熵损 失,
Figure QLYQS_10
为图像的真实标签,
Figure QLYQS_12
为预测值,
Figure QLYQS_15
为行人身份数目,
Figure QLYQS_16
为容错率,以
Figure QLYQS_8
作为真 实标签进行训练,
Figure QLYQS_11
为0.1。
8.根据权利要求7所述的方法,其特征在于,所述联合损失函数为:
Figure QLYQS_17
,其中,/>
Figure QLYQS_18
为异质中心三元组损失,/>
Figure QLYQS_19
为联合损失,/>
Figure QLYQS_20
Figure QLYQS_21
分别表示/>
Figure QLYQS_22
和/>
Figure QLYQS_23
的权重。
9.一种基于联合中间模态和表征学习的跨模态行人重识别装置,其特征在于,所述装置包括:
获取模块,用于获取可见光VIS图像VIS和红外IR图像IR两种模态的原始图像;
生成模块,用于利用中间模态生成器将所述两种模态的原始图像映射到统一的特征空间,以生成中间模态图像;
提取模块,用于将所述中间模态图像与所述原始图像联合输入到参数共享的特征提取网络;
策略模块,用于基于多粒度池化策略,采用全局特征与局部特征相结合的策略和广义平均池化优化基于联合中间模态和表征学习的跨模态行人重识别模型;
优化模块,用于采用分布一致性损失、标签平滑交叉熵损失和异质中心三元组损失的联合损失共同优化基于联合中间模态和表征学习的跨模态行人重识别模型;
识别模块,用于应用优化后的基于联合中间模态和表征学习的跨模态行人重识别模型识别待识别图像。
10.一种基于联合中间模态和表征学习的跨模态行人重识别设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
11.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行如权利要求1至8中任一项所述的方法的步骤。
CN202310545943.1A 2023-05-16 2023-05-16 基于中间模态和表征学习的跨模态行人重识别方法、装置 Pending CN116311384A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310545943.1A CN116311384A (zh) 2023-05-16 2023-05-16 基于中间模态和表征学习的跨模态行人重识别方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310545943.1A CN116311384A (zh) 2023-05-16 2023-05-16 基于中间模态和表征学习的跨模态行人重识别方法、装置

Publications (1)

Publication Number Publication Date
CN116311384A true CN116311384A (zh) 2023-06-23

Family

ID=86787324

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310545943.1A Pending CN116311384A (zh) 2023-05-16 2023-05-16 基于中间模态和表征学习的跨模态行人重识别方法、装置

Country Status (1)

Country Link
CN (1) CN116311384A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117351518A (zh) * 2023-09-26 2024-01-05 武汉大学 一种基于层级差异的无监督跨模态行人重识别方法及系统
CN117994821A (zh) * 2024-04-07 2024-05-07 北京理工大学 一种基于信息补偿对比学习的可见光-红外跨模态行人再识别方法
CN118609173A (zh) * 2024-08-09 2024-09-06 南京信息工程大学 一种基于中间模态学习的跨模态行人重识别方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117351518A (zh) * 2023-09-26 2024-01-05 武汉大学 一种基于层级差异的无监督跨模态行人重识别方法及系统
CN117351518B (zh) * 2023-09-26 2024-04-19 武汉大学 一种基于层级差异的无监督跨模态行人重识别方法及系统
CN117994821A (zh) * 2024-04-07 2024-05-07 北京理工大学 一种基于信息补偿对比学习的可见光-红外跨模态行人再识别方法
CN117994821B (zh) * 2024-04-07 2024-07-26 北京理工大学 一种基于信息补偿对比学习的可见光-红外跨模态行人再识别方法
CN118609173A (zh) * 2024-08-09 2024-09-06 南京信息工程大学 一种基于中间模态学习的跨模态行人重识别方法及系统

Similar Documents

Publication Publication Date Title
WO2021098261A1 (zh) 一种目标检测方法与装置
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN110738146B (zh) 一种目标重识别神经网络及其构建方法和应用
CN116311384A (zh) 基于中间模态和表征学习的跨模态行人重识别方法、装置
Komorowski et al. Minkloc++: lidar and monocular image fusion for place recognition
CN112651262B (zh) 一种基于自适应行人对齐的跨模态行人重识别方法
CN113076957A (zh) 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法
El-Ghaish et al. Human action recognition based on integrating body pose, part shape, and motion
Li et al. Two-b-real net: Two-branch network for real-time salient object detection
Wang et al. Sface: An efficient network for face detection in large scale variations
CN114898429B (zh) 一种热红外-可见光跨模态人脸识别的方法
CN113761995A (zh) 一种基于双变换对齐与分块的跨模态行人重识别方法
Liao et al. Deep-learning-based object-level contour detection with CCG and CRF optimization
CN118038494A (zh) 一种损坏场景鲁棒的跨模态行人重识别方法
CN114333062A (zh) 基于异构双网络和特征一致性的行人重识别模型训练方法
Ma et al. MSFNET: multi-stage fusion network for semantic segmentation of fine-resolution remote sensing data
CN116385546A (zh) 一种同时分割和检测抓取位姿的多模态特征融合方法
CN114202774A (zh) 密集行人检测方法
CN115063831A (zh) 一种高性能行人检索与重识别方法及装置
Cheng et al. PL-UNeXt: Per-stage edge detail and line feature guided segmentation for power line detection
Jung et al. Local feature extraction from salient regions by feature map transformation
CN117455994B (zh) 一种相机位姿估计方法、系统、电子设备及可读介质
CN117351246B (zh) 一种误匹配对去除方法、系统及可读介质
KR102513285B1 (ko) 멀티 집중 모듈을 이용한 표현 학습 방법 및 시스템
Xu Progress of Object detection: Methods and future directions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination