CN116311387A - 一种基于特征交集的跨模态行人重识别方法 - Google Patents

一种基于特征交集的跨模态行人重识别方法 Download PDF

Info

Publication number
CN116311387A
CN116311387A CN202310598749.XA CN202310598749A CN116311387A CN 116311387 A CN116311387 A CN 116311387A CN 202310598749 A CN202310598749 A CN 202310598749A CN 116311387 A CN116311387 A CN 116311387A
Authority
CN
China
Prior art keywords
feature
detail
loss
image
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310598749.XA
Other languages
English (en)
Other versions
CN116311387B (zh
Inventor
崔嘉敖
产思贤
白琮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202310598749.XA priority Critical patent/CN116311387B/zh
Publication of CN116311387A publication Critical patent/CN116311387A/zh
Application granted granted Critical
Publication of CN116311387B publication Critical patent/CN116311387B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于特征交集的跨模态行人重识别方法,属于图像处理技术领域,本发明利用构建双流重识别模型处理自然光图像和红外图像,并利用一个层级式局部池化模块旨在提升模型捕获细节特征的能力,还利用一个特征交集损失,其从特征交集的角度重新考虑分类与检索过程,将分类器的超参数引入度量计算,在消除偏见的同时,缓解了表征与度量学习间的差异。

Description

一种基于特征交集的跨模态行人重识别方法
技术领域
本发明属于图像处理技术领域,具体涉及一种基于特征交集的跨模态行人重识别方法。
背景技术
跨模态行人重识别,(visible-infrared person re-identification,简称VI-ReID) 的目的是给定一个自然光或红外相机拍摄的查询图像,在自然光或红外库中检索相同身份的行人。随着监控摄像头的普及以及相关数据集的提出,VI-ReID任务受到了大量研究人员的关注。
作为以人为主体的图像检索任务,VI-ReID面临两个挑战,为行人相似的外表和模态差异。为了区分相似行人,当前的方法从表征学习角度丰富特征蕴含的行人细节来提升区别性。通常情况下,特征由模型最后的输出的特征图经过全局池化后得到,但全局池化损失了大量细节语义信息。因此,基于部分的卷积基线(part-based convolutionalbaseline)首次提出了局部池化层,其通过限制池化区域来保留细粒度的信息。基于局部池化,跨模态推土机距离(cross-modality earth mover’s distance)方法和多粒度网络(multiple granularity network)方法进一步通过控制池化的尺寸来捕获不同尺度的行人细节。不同于局部池化区域的严格划分,自适应局部划分(adaptive part division )方法和模式对齐模块(pattern alignment module) 训练网络来学习细节特征的掩码,掩码作为池化的权重来强化对应细节。为了生成细节掩码更加准确,基于姿态估计的局部间和局部内关系变形器(pose-guided inter- and intra-part relational transformer)利用姿态估计模型辅助生成行人关节的掩码。虽然这些方法一定程度保留了细节信息,但忽略了细节损失的主要原因,即模型的下采样操作。除此之外,由于特征约束大多作用模型最后一层,梯度消失将导致模型只对大尺寸大感受野的特征敏感,浅层网络缺乏细节捕获能力。
为了拉近类内间距以及模态差异,当前的方法可分成基于像素与基于特征两类。基于像素对齐生成对抗网络(alignment generative adversarial network)和集合级和实例级的联合对齐(joint set-level and instance-level alignment)方法旨在通过生成模型生成对应模态着色风格的假图,假图用来辅助图像检索。由于,模态差异大,风格迁移需要复杂的网络结构,这种方式并没有取得好的表现。目前主流的方式是通过设计度量函数,通过限制模态间的特征距离来训练模型学习模态共存特征。中间模态网络(middlemodality network )和加权的三元组损失(weighted triplet loss)基于经典的三元组策略,限制同类模态间与类间的相对距离来缓解模态差异。但这些方法每次仅考虑一对样本,缺乏鲁棒性且容易陷入子优结果。异质中心三元组(hetero-center triplet loss)和跨模态对比中心损失(cross-modality contrastive-center loss)提出约束样本点到模态中心的距离,一定程度缓解上述问题。但是模态中心是基于当前批量的特征均值,在小批量训练策略下,仍无法避免数据偏见。除此之外,度量函数从特征距离角度出发评估特征,而表征学习从身份表达角度评估特征,这种差异会影响模型训练。
发明内容
本发明的目的在于提供一种基于特征交集的跨模态行人重识别方法,提升捕获细节特征的能力,减小类间特征距离和类内特征距离。
为实现上述目的,本发明所采取的技术方案为:
一种基于特征交集的跨模态行人重识别方法,所述基于特征交集的跨模态行人重识别方法,包括:
步骤1、将给定的图像集按模态分为自然光图像集和红外图像集;
步骤2、构建双流重识别模型,所述双流重识别模型包括两个分支,两个分支分别用于处理自然光图像和红外图像,两个分支的主干网络均为Resnet-50网络,两个分支中的Resnet-50网络的第一层为独立参数、其余层为共享参数;
步骤3、将自然光图像集和红外图像集作为所述双流重识别模型的输入,取Resnet-50网络最后三层输出的行人特征图进行融合,得到两个分支分别输出的融合特征图;
步骤4、将每个分支的融合特征图输入层级式局部池化模块提取行人多尺度的细节特征,并对所述细节特征进行语义约束;
步骤5、根据两个分支的细节特征构建特征交集损失,并结合语义约束和特征交集损失进行双流重识别模型训练,所述特征交集损失包括模态特征交集损失和类间特征交集损失;
步骤6、将一个自然光图像或红外图像作为查询图像,将一个红外图像库或自然光图像库作为目标图像库,将所述查询图像和所述目标图像库中的每一候选图像组成图像对,利用训练后的双流重识别模型以及层级式局部池化模块,针对每一图像对输出细节特征对,度量每一细节特征对的相似度,取相似度递减排序后的前一个或多个细节特征对对应的图像对,所取的图像对中的候选图像作为跨模态行人重识别结果。
以下还提供了若干可选方式,但并不作为对上述总体方案的额外限定,仅仅是进一步的增补或优选,在没有技术或逻辑矛盾的前提下,各可选方式可单独针对上述总体方案进行组合,还可以是多个可选方式之间进行组合。
作为优选,所述取Resnet-50网络最后三层输出的行人特征图进行融合,包括:
记一个分支中Resnet-50网络最后三层输出的行人特征图为
Figure SMS_1
将行人特征图
Figure SMS_2
直接作为融合特征图/>
Figure SMS_3
将融合特征图
Figure SMS_4
经过/>
Figure SMS_5
卷积和上采样后与行人特征图/>
Figure SMS_6
点加,得到点加特征图,并将点加特征图经过/>
Figure SMS_7
卷积得到融合特征图/>
Figure SMS_8
将点加特征图经过
Figure SMS_9
卷积和上采样后与行人特征图/>
Figure SMS_10
点加,并在点加后经过
Figure SMS_11
卷积得到融合特征图/>
Figure SMS_12
作为优选,所述将每个分支的融合特征图输入层级式局部池化模块提取行人多尺度的细节特征,包括:
将每张融合特征图沿垂直方向均分为一份或多份,并将均分后得到的每一份经过全局池化层得到融合特征图中行人对应位置的细节特征。
作为优选,所述对所述细节特征进行语义约束,包括:
取细节特征包括局部细节特征
Figure SMS_13
和全局细节特征/>
Figure SMS_14
,/>
Figure SMS_15
Figure SMS_16
为自然光标识,/>
Figure SMS_17
为红外标识,/>
Figure SMS_18
为融合特征图中均分为多份得到的总份数;
对局部细节特征
Figure SMS_19
和全局细节特征/>
Figure SMS_20
采用ID损失进行表征语义约束,ID损失形式化如下:
Figure SMS_21
Figure SMS_22
式中,
Figure SMS_32
为局部细节特征/>
Figure SMS_23
的ID损失,/>
Figure SMS_28
为全局细节特征/>
Figure SMS_36
的ID损失,/>
Figure SMS_40
为自然光图像集中图像数量,/>
Figure SMS_39
为红外图像集中图像数量,/>
Figure SMS_43
和/>
Figure SMS_31
表示第/>
Figure SMS_35
张图像的细节特征/>
Figure SMS_26
和/>
Figure SMS_27
,/>
Figure SMS_25
表示第/>
Figure SMS_29
张图像对应的标签,/>
Figure SMS_33
为局部分类器,/>
Figure SMS_37
为全局分类器,/>
Figure SMS_41
为局部分类器/>
Figure SMS_44
的参数,/>
Figure SMS_42
为全局分类器/>
Figure SMS_45
的参数,/>
Figure SMS_24
表示局部分类器/>
Figure SMS_30
输出的预测概率,/>
Figure SMS_34
表示全局分类器/>
Figure SMS_38
输出的预测概率。
作为优选,所述根据两个分支的细节特征构建特征交集损失,包括:
取细节特征包括局部细节特征
Figure SMS_46
和全局细节特征/>
Figure SMS_47
,/>
Figure SMS_48
Figure SMS_49
为自然光标识,/>
Figure SMS_50
为红外标识,/>
Figure SMS_51
为融合特征图中均分为多份得到的总份数;
首先构建自然光和红外两种模态下对应的ID损失形式化为:
Figure SMS_52
Figure SMS_53
式中,
Figure SMS_61
为自然光图像集的ID损失,/>
Figure SMS_57
为红外图像集的ID损失,/>
Figure SMS_58
为自然光图像集中图像数量,/>
Figure SMS_66
为红外图像集中图像数量,/>
Figure SMS_70
为自然光分类器/>
Figure SMS_71
的参数,/>
Figure SMS_73
为红外分类器/>
Figure SMS_64
的参数,/>
Figure SMS_68
表示第/>
Figure SMS_54
张自然光图像的细节特征/>
Figure SMS_60
,/>
Figure SMS_55
表示第/>
Figure SMS_59
张红外图像的细节特征/>
Figure SMS_63
,/>
Figure SMS_67
为自然光分类器/>
Figure SMS_62
输出的预测概率,/>
Figure SMS_65
为红外分类器/>
Figure SMS_69
输出的预测概率,对于类间交集,使用参数为/>
Figure SMS_72
的分类器/>
Figure SMS_56
然后构建模态特征交集损失形式化为:
Figure SMS_74
Figure SMS_75
式中,
Figure SMS_86
为自然光特征交集损失,/>
Figure SMS_76
为红外特征交集损失,/>
Figure SMS_82
为行人类别数,
Figure SMS_90
为margin值,参数/>
Figure SMS_94
,/>
Figure SMS_93
和/>
Figure SMS_97
均包含/>
Figure SMS_87
行,/>
Figure SMS_91
表示权重参数/>
Figure SMS_79
中的第/>
Figure SMS_83
行权重参数,
Figure SMS_78
表示权重参数/>
Figure SMS_81
中的第/>
Figure SMS_85
行权重参数,/>
Figure SMS_89
表示矩阵转置,/>
Figure SMS_92
表示以权重参数/>
Figure SMS_96
为中心,根据特征间相似度选择红外图像对应的细节特征距离中心最远的正样本,/>
Figure SMS_95
表示以权重参数/>
Figure SMS_98
为中心,根据特征间相似度选择红外图像对应的细节特征距离中心最近的负样本,/>
Figure SMS_77
表示以权重参数/>
Figure SMS_80
为中心,根据特征间相似度选择自然光图像对应的细节特征距离中心最远的正样本,/>
Figure SMS_84
表示以权重参数/>
Figure SMS_88
为中心,根据特征间相似度选择自然光图像对应的细节特征距离中心最近的负样本;
构建类间特征交集损失形式化为:
Figure SMS_99
式中,
Figure SMS_100
为类间特征交集损失,/>
Figure SMS_103
为表示参数/>
Figure SMS_105
中的第/>
Figure SMS_101
行权重参数,/>
Figure SMS_104
表示以参数/>
Figure SMS_106
为中心根据特征间相似度选择全局细节特征距离中心最近的负样本,/>
Figure SMS_107
表示以参数/>
Figure SMS_102
为中心根据特征间相似度选择全局细节特征距离中心最远的正样本;
最终得到特征交集损失形式化为:
Figure SMS_108
式中,
Figure SMS_109
为特征交集损失。
作为优选,所述结合语义约束和特征交集损失进行双流重识别模型训练,包括构建总损失函数如下:
Figure SMS_110
式中,
Figure SMS_111
为总损失函数,/>
Figure SMS_112
为语义约束中局部细节特征/>
Figure SMS_113
的ID损失,/>
Figure SMS_114
为语义约束中全局细节特征/>
Figure SMS_115
的ID损失。
作为优选,所述度量每一细节特征对的相似度,包括:
所述细节特征包括局部细节特征和全局细节特征,在度量每对细节特征的相似度时,首先将每个细节特征中的局部细节特征和全局细节特征沿通道拼接,然后基于拼接后的一对特征计算得到相似度。
本发明提供的一种基于特征交集的跨模态行人重识别方法,利用层级式局部池化模块的层级式结构来获取由粗到细的多粒度的特征图,利用层级式结构的反向传递语义信息帮助抑制浅层噪声,保留有效细节,同时基于层级式结构自顶向下的池化来提取行人多尺度的描述,获得多尺度的细节特征。并且对每个细节特征都进行语义约束,缩短梯度回传距离,改善模型浅层的优化。另外本发明提出了特征交集损失,特征交集损失从类间交集和模态交集两个角度进行计算,其从特征交集的角度重新考虑分类与检索过程,并且引入分类器权重作为特征中心进行类间交集和模态交集的度量,减小了类间特征距离和类内特征距离,解决了现有度量函数中的数据偏见问题,同时平滑表征与度量学习的差异。
附图说明
图1为本发明的一种基于特征交集的跨模态行人重识别方法的流程图;
图2为本发明的一种基于特征交集的跨模态行人重识别方法的数据传递图;
图3为本发明的实验中细节特征提取结果示意图;
图4为本发明的实验中全局分类器的权重分布示意图;
图5为本发明的实验中根据模型输出特征得到的特征散点图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是在于限制本发明。
为了克服现有技术中行人重识别存在的缺陷,在一个实施例中,如图1所示,提出了一种基于特征交集的跨模态行人重识别方法,具体包括以下步骤:
步骤1、将图像集划分为自然光图像集与红外图像集。
本实例将输入的图像集按模态分为自然光图像集
Figure SMS_116
和红外图像集/>
Figure SMS_119
,方便后续网络处理。式中,/>
Figure SMS_122
为自然光图像集中第/>
Figure SMS_117
张自然光图像,/>
Figure SMS_120
为自然光图像集中图像数量,/>
Figure SMS_123
是红外图像集中第/>
Figure SMS_125
张红外图像,/>
Figure SMS_118
为自然光图像/>
Figure SMS_121
或红外图像/>
Figure SMS_124
的标签,/>
Figure SMS_126
为红外图像集中图像数量。
本实施例将划分得到的自然光图像集和红外图像集中的图像统一处理至尺寸为3(通道数)×384(长)×192(宽),并将处理后的图像作为训练数据。在其他实施例中为了强化训练数据,还可以将处理后的图像经过随机水平翻转和随机擦除处理进行数据增强。
步骤2、构建双流重识别模型。
本实施例的双流重识别模型包括两个分支,两个分支分别用于处理自然光图像
Figure SMS_129
和红外图像/>
Figure SMS_132
。两个分支的主干网络均为Resnet-50网络,每个分支包含一个独立参数的子网络记为/>
Figure SMS_135
(对应于自然光图像处理)和/>
Figure SMS_127
(对应于红外图像处理),子网络/>
Figure SMS_130
和/>
Figure SMS_133
由Resnet-50网络的第一层实现。在子网络/>
Figure SMS_137
和/>
Figure SMS_128
后分别连接一个共享参数的子网络/>
Figure SMS_131
,子网络/>
Figure SMS_134
由Resnet-50网络除第一层以外的剩余层实现。本实施例中的共享参数是指两个分支中的子网络/>
Figure SMS_136
共享参数。
因此本实施例的双流重识别模型的两个分支中,用于处理自然光图像的分支由子网络
Figure SMS_138
和子网络/>
Figure SMS_139
组成,用于处理红外图像的分支由子网络/>
Figure SMS_140
和子网络/>
Figure SMS_141
组成。子网络
Figure SMS_142
和/>
Figure SMS_143
带有独立参数是为了适应模态差异,而子网络/>
Figure SMS_144
共享参数旨在提取与行人的模态无关的特征。
Resnet是残差网络(Residual Network)的缩写,该系列网络广泛用于目标分类等领域以及作为计算机视觉任务主干经典神经网络的一部分,典型的网络有resnet-50、resnet-101等。本实施例中采用的即为 Resnet-50网络结构, Resnet-50网络首先对输入做了卷积操作,之后包含四个残差快(ResidualBlock),最后进行全连接操作以便于进行分类任务。本实施例采用的Resnet-50网络为常规结构,因此不对网络结构进行详述。
步骤3、将自然光图像集和红外图像集作为双流重识别模型的输入,取Resnet-50网络最后三层输出的行人特征图进行融合,得到融合特征图。
Resnet-50网络由浅到深其对应的特征图分辨率由大到小。浅层的特征图包含更多细节信息,但是语义信息少,表征能力差。深层的特征图包含高级语义信息,但缺乏细节,表征能力强。
为了提升浅层特征的表达能力,本实施例将深层特征逆序传播到浅层进行特征融合。如图2所示,分别令
Figure SMS_147
表示Resnet-50网络的第2,3,4层(即最后三层)输出的特征图,它们相对于输入图像分别有/>
Figure SMS_148
的步长。在特征融合时,特征图/>
Figure SMS_150
和/>
Figure SMS_145
都经过一个/>
Figure SMS_149
卷积和上采样恢复到前一层的尺寸再进行点加。点加后的特征图再经一个
Figure SMS_151
卷积得到最后的特征图,融合后的特征图记为/>
Figure SMS_152
。/>
Figure SMS_146
卷积可以减少上采样的混叠效应。
具体的,针对处理自然光图像的分支,取Resnet-50网络的第2,3,4层输出的行人特征图记为
Figure SMS_156
,将行人特征图/>
Figure SMS_157
直接作为融合特征图/>
Figure SMS_163
;将融合特征图
Figure SMS_153
经过一个/>
Figure SMS_160
卷积和上采样后与行人特征图/>
Figure SMS_161
点加,得到点加特征图,并将点加特征图经过一个/>
Figure SMS_164
卷积得到融合特征图/>
Figure SMS_155
;将点加特征图经过一个/>
Figure SMS_159
卷积和上采样后与行人特征图/>
Figure SMS_162
点加,并在点加后经过一个/>
Figure SMS_165
卷积得到融合特征图/>
Figure SMS_154
,最终得到的融合特征图记为/>
Figure SMS_158
另外,针对处理红外图像的分支,取Resnet-50网络的第2,3,4层输出的行人特征图记为
Figure SMS_167
,将行人特征图/>
Figure SMS_172
直接作为融合特征图/>
Figure SMS_175
;将融合特征图
Figure SMS_166
经过一个/>
Figure SMS_173
卷积和上采样后与行人特征图/>
Figure SMS_176
点加,得到点加特征图,并将点加特征图经过一个/>
Figure SMS_178
卷积得到融合特征图/>
Figure SMS_168
;将点加特征图经过一个/>
Figure SMS_171
卷积和上采样后与行人特征图/>
Figure SMS_174
点加,并在点加后经过一个/>
Figure SMS_177
卷积得到融合特征图/>
Figure SMS_169
,最终得到的融合特征图记为/>
Figure SMS_170
步骤4、将融合特征图输入层级式局部池化模块提取行人多尺度的细节特征,并对每个细节特征进行语义约束。
虽然现有的细节特征方法一定程度保留了细节信息,但忽略了细节损失的主要原因,即网络模型的下采样操作。除此之外,由于特征约束大多作用于网络模型最后一层,梯度消失将导致网络模型只对大尺寸大感受野的特征敏感,浅层网络缺乏细节捕获能力。对此本实施例提出了层级式局部池化模块使用top-down的层级式结构来获取由粗到细的多粒度的特征图。网络浅层保留行人细节信息,但语义信息较差,网络深层获得行人的语义信息,但细节损失严重。本实施例采取的top-down的层级式结构能反向传递语义信息帮助抑制浅层噪声,保留有效细节。同时层级式局部池化模块自顶向下采用不同步长的池化来提取行人多尺度的描述,获得多尺度的细节特征。
本实施例的层级式局部池化模块主要包括细节特征的提取以及语义约束。在细节特征的提取中,对于不同分辨率的特征图,本实例选取不同的步长分别预处理,预处理主要包括将不同分辨率的融合特征图进行分割。其分割操作根据实际需要进行选取即可,本实施例提供一种方案如下:
将融合特征图
Figure SMS_179
和/>
Figure SMS_183
沿垂直方向均分为6(可调整)份,将融合特征图/>
Figure SMS_187
Figure SMS_180
沿垂直方向均分为4(可调整)份,将融合特征图/>
Figure SMS_184
和/>
Figure SMS_188
沿垂直方向均分为1份。由于融合特征图/>
Figure SMS_191
和/>
Figure SMS_181
相当于未进行分割,因此本实施例将融合特征图/>
Figure SMS_186
或/>
Figure SMS_189
分割得到的6份以及/>
Figure SMS_192
或/>
Figure SMS_182
分割得到的4份作为一个整体进行处理,即/>
Figure SMS_185
,将融合特征图/>
Figure SMS_190
或/>
Figure SMS_193
分割得到的1份作为一个整体进行处理。
分割后,将分割得到的每一份经过全局池化层得到融合特征图中行人对应位置的细节特征,记为
Figure SMS_195
,/>
Figure SMS_199
为自然光图像或红外图像对应的/>
Figure SMS_203
和/>
Figure SMS_194
分割并经过全局池化层后的细节特征,由于/>
Figure SMS_198
和/>
Figure SMS_201
经过实际分割,因此可将
Figure SMS_204
视为局部细节特征,/>
Figure SMS_196
为自然光图像或红外图像对应的/>
Figure SMS_197
分割并经过全局池化层后的细节特征,由于/>
Figure SMS_200
未经过实际分割,因此可将/>
Figure SMS_202
视为全局细节特征。
在语义约束中,
Figure SMS_205
都采用ID损失进行表征语义约束。层级式局部池化模块提前对每个细节特征都施加了损失约束,这缩短了梯度传播距离,使得浅层网络接收更多监督来优化其捕获细节得能力。ID损失形式化如下:
Figure SMS_206
Figure SMS_207
式中,
Figure SMS_225
为局部细节特征/>
Figure SMS_229
的ID损失,/>
Figure SMS_233
为全局细节特征/>
Figure SMS_210
的ID损失,/>
Figure SMS_213
Figure SMS_217
表示第/>
Figure SMS_221
张图像(为自然光图像/>
Figure SMS_211
或红外图像/>
Figure SMS_215
,根据/>
Figure SMS_219
的取值而定)的细节特征/>
Figure SMS_223
Figure SMS_212
,/>
Figure SMS_216
表示第/>
Figure SMS_220
张图像对应的标签,/>
Figure SMS_224
为局部分类器,/>
Figure SMS_226
为全局分类器,/>
Figure SMS_230
为局部分类器/>
Figure SMS_234
的参数,/>
Figure SMS_237
为全局分类器/>
Figure SMS_208
的参数,/>
Figure SMS_214
表示局部分类器/>
Figure SMS_218
的参数为/>
Figure SMS_222
、输入为/>
Figure SMS_227
,/>
Figure SMS_232
表示全局分类器/>
Figure SMS_236
的参数为/>
Figure SMS_239
、输入为/>
Figure SMS_228
Figure SMS_231
表示局部分类器/>
Figure SMS_235
输出的预测概率,/>
Figure SMS_238
表示全局分类器/>
Figure SMS_209
输出的预测概率。
需要说明的是,本实施例在语义约束中引入了两个分类器,两个分类器均由一个全连接层实现,与双流重识别模型一起训练。
步骤S5、构建特征交集损失,并计算总损失来训练双流重识别模型。
针对现有的度量学习存在的数据偏见以及与表征学习的不兼容问题,本实施例提出了特征交集损失。特征交集基于一个原理,即分类器预测特征属于某一类的概率是特征与超参数的内积。分类器经过训练使得其对某一类下的大部分样本都能得到准确的预测。因此,相比传统的特征中心而言,分类器的超参数更能反映对应类下共存的特征。
考虑行人特征
Figure SMS_240
,其属于第/>
Figure SMS_243
张图像行人的概率/>
Figure SMS_246
等于全连接层参数/>
Figure SMS_242
与/>
Figure SMS_245
点积。理想状态下,高响应的参数对应某类行人的显著特征。将/>
Figure SMS_247
也看作特征,那么分类任务就可以看作/>
Figure SMS_248
与/>
Figure SMS_241
间取交集的过程,交集越大证明其越相似。因此,本实施例以权重/>
Figure SMS_244
为中心,以交集大小为度量,来评估特征的类差异与模态差异。
本实施例提出了两个概念类交集和模态交集,类交集表示不同类间特征的内积,模态交集表示不同模态间特征的内积。在标准化下,交集大小(内积)可以视为向量间的夹角,通过从类与模态两个角度计算特征与分类器超参数间交集的相对大小来评估特征质量。事实上,特征交集损失是不同特征与同一分类器参数的相对交集,而交叉熵函数是计算特征对分类器不同类参数的相对交集。这一定程度顺利的将表征学习的ID损失过度到度量函数。
因此,本实施例提出的特征交集损失
Figure SMS_250
由模态特征交集损失/>
Figure SMS_252
,/>
Figure SMS_254
和类间特征交集损失/>
Figure SMS_249
组成。对于模态交集,两个模态具体分类器是被设置的,记为/>
Figure SMS_253
Figure SMS_255
,即在模态交集评估中,本实施例引入了两个分类器,两个分类器均由一个全连接层实现,与双流重识别模型一起训练。分类器/>
Figure SMS_256
,/>
Figure SMS_251
仅用来对对应模态下的特征分类。这两个模态下对应的ID损失形式化为:
Figure SMS_257
Figure SMS_258
式中,
Figure SMS_274
为自然光图像集的ID损失,/>
Figure SMS_277
为红外图像集的ID损失,/>
Figure SMS_280
为自然光分类器/>
Figure SMS_260
的参数,也就是全连接层的参数,/>
Figure SMS_263
为红外分类器/>
Figure SMS_267
的参数,/>
Figure SMS_270
表示第/>
Figure SMS_261
张自然光图像的细节特征/>
Figure SMS_264
,/>
Figure SMS_268
表示第/>
Figure SMS_272
张红外图像的细节特征/>
Figure SMS_262
,/>
Figure SMS_265
表示自然光分类器/>
Figure SMS_269
的参数为/>
Figure SMS_273
、输入为/>
Figure SMS_278
,/>
Figure SMS_281
表示红外分类器/>
Figure SMS_283
的参数为/>
Figure SMS_284
、输入为/>
Figure SMS_259
,/>
Figure SMS_266
为自然光分类器/>
Figure SMS_271
输出的预测概率,
Figure SMS_275
为红外分类器/>
Figure SMS_276
输出的预测概率。对于类间交集,本实例使用参数为/>
Figure SMS_279
的分类器/>
Figure SMS_282
本实例将权重参数
Figure SMS_285
,/>
Figure SMS_286
和/>
Figure SMS_287
为中心来评估特征的类间差异与模态差异。以权重参数/>
Figure SMS_288
,/>
Figure SMS_289
为中心,根据特征间相似度选择模态间最远的正样本,记为/>
Figure SMS_290
和模态间最近的负样本,记为/>
Figure SMS_291
。则模态特征交集损失形式化为:
Figure SMS_292
Figure SMS_293
式中,
Figure SMS_303
为自然光特征交集损失,/>
Figure SMS_297
为红外特征交集损失,/>
Figure SMS_299
为行人类别数,
Figure SMS_296
为margin值,权重参数/>
Figure SMS_298
,/>
Figure SMS_302
和/>
Figure SMS_306
均包含/>
Figure SMS_305
行,/>
Figure SMS_309
表示权重参数/>
Figure SMS_295
中的第/>
Figure SMS_301
行权重参数,/>
Figure SMS_307
表示权重参数/>
Figure SMS_311
中的第/>
Figure SMS_310
行权重参数,/>
Figure SMS_314
表示矩阵转置,/>
Figure SMS_308
表示以权重参数
Figure SMS_312
为中心,根据特征间相似度选择红外图像特征(根据红外图像得到的细节特征)距离中心最远的正样本,/>
Figure SMS_313
表示以权重参数/>
Figure SMS_315
为中心,根据特征间相似度选择红外图像特征距离中心最近的负样本,/>
Figure SMS_294
表示以权重参数为中心,根据特征间相似度选择自然光图像特征(根据自然光图像得到的细节特征)距离中心最远的正样本,/>
Figure SMS_300
表示以权重参数
Figure SMS_304
为中心,根据特征间相似度选择自然光图像特征距离中心最近的负样本。
本实施例通过约束正样本与负样本与模态特征中心的相对交集大小,扩大模态间正类样本特征交集,减少负类样本特征交集。另外与权重参数
Figure SMS_316
为中心,根据特征间相似度选择全局细节特征(根据自然光图像和红外图像得到的全局细节特征)距离中心最远的正样本/>
Figure SMS_317
和最近的负样本/>
Figure SMS_318
,则类间特征交集损失形式化为:
Figure SMS_319
式中,
Figure SMS_320
为表示权重参数/>
Figure SMS_321
中的第/>
Figure SMS_322
行权重参数。
本实施例通过约束正样本与负样本与类间特征中心的相对交集大小,扩大类内正类样本特征交集,减少类间样本特征交集。最终得到特征交集损失形式化为:
Figure SMS_323
基于此,本实施例构建的总损失函数
Figure SMS_324
形式化为:
Figure SMS_325
本实施例基于总损失函数
Figure SMS_326
对双流重识别模型和四个分类器(局部分类器、全局分类器、自然光分类器和红外分类器)进行训练。训练更新过程为现有过程,例如梯度下降法、自适应学习率的梯度下降法、归一化共轭梯度法等,本实施例不对具体训练过程进行描述。
步骤S6、查询图像和目标图像库中图像分别经双流重识别模型和层级式局部池化模块提取细节特征后进行匹配,得到跨模态行人重识别结果。
在推理阶段,给定一个自然光(红外)模态下的查询图像和红外(自然光)图像库。将查询图像和红外(自然光)图像库中的每一候选图像组成一个图像对,每一图像对作为双流重识别模型的输入,将这些图像投影到同一特征空间,并由层级式局部池化模块输出细节特征,因此得到该图像对的一个细节特征对。对于多个图像对处理后可得到多个细节特征对。
然后通过计算每个细节特征对的相似度,取相似度最高的top-k(具体值可根据需求调整,例如1、5、10等)个细节特征对,即将所有细节特征对按照相似度递减排序,取排序后的序列中的前一个或多个细节特征对,将所取的细节特征对对应的对象对中的候选图像,作为图像库中与查询图像最相似的top-k个候选图像,top-k个候选图像即为得到的跨模态行人重识别结果。
由于本实施例中针对每张图像得到的细节特征为
Figure SMS_327
,因此本实施例在计算两张图像的相似度时,首先将属于同一张图像的细节特征/>
Figure SMS_328
沿通道拼接,以本实施例中
Figure SMS_329
,/>
Figure SMS_330
为例,即需要将11个细节特征沿通道拼接得到一个拼接特征,然后计算两张图像的拼接特征的相似度来找到目标图像库中与查询图像最相似的候选图像。其中计算特征相似度基于常规方法即可,例如欧式距离、余弦相似度等,本实施例不进行限制。
本发明的基于特征交集的跨模态行人重识别方法在安防领域,根据监控拍摄的行人图像,追溯目标行人中均具有良好应用。为了说明本申请方法的有效性,本实施例提供一种具体的实验过程如下。
实验在数据集SYSU-MM01上开展,所有的实验在SYSU-MM01数据集上的all-search环境下测试,具体进行了消融实验,细节特征方法对比实验和特征中心对比实验。
(1)消融实验。
本实施例利用消融实验来展示本发明方法中每个模块对模型的影响。为了定量评估本发明提出的方法的性能,实验中采用了累积匹配特性曲线(CMC)和平均检索精度(mAP)作为对SYSU-MM01数据集的评价指标。其中,CMC仅展示Rank n(n = 1, 10, 20)的指标,分别表示前n张相似行人中存在目标行人的概率。
具体实验步骤中,依次在Baseline模型(为仅用ID损失训练后的Two-StreamResnet-50模型)上引入层级式局部池化模块(Hierarchical Part Pooling,简称HPP)、细节特征语义约束(Hierarchical Part Constraints,简称HPC),以及特征交集损失(Feature Intersection,简称FI Loss),来观察不同模块带来的影响。由于HPP得到的每个特征都被HPC约束,所以实验中将两者捆绑,记为HPP&HPC。
本实验通过调整参与特征提取的层次来证明层级式结构的有效性。实验分为6组,记为组别1-组别6,其中组别1为Baseline模型,组别2为在Baseline模型上引入3个层次的HPP&HPC(输入融合特征图P3、P4和P5),组别3为在基准线Baseline上引入FI Loss,组别4为在Baseline模型上引入2个层次的HPP&HPC(输入融合特征图P4和P5)和FI Loss,组别5为在Baseline模型上引入1个层次的HPP&HPC(仅输入融合特征图P5)和FI Loss,组别6为在Baseline模型上引入3个层次的HPP&HPC和FI Loss。各组别在SYSU-MM01数据集的运行评价指标如表1所示。
表1 各组别在SYSU-MM01数据集的运行评价指标
组别 Rank1 Rank10 Rank20 mAP
组别1 57.1 89.3 94.9 53.5
组别2 67.0 94.2 97.8 64.9
组别3 64.2 92.7 96.8 61.3
组别4 71.3 94.3 97.4 67.9
组别5 71.2 95.1 98.3 68.1
组别6 73.8 95.5 98.1 70.2
由表1可以看出,单独添加HPP&HPC和FI Loss都可以给模型带来巨大改进,从指标Rank 1来看单独添加HPP&HPC即可提升9.8%,单独添加FI Loss即可提升7.1%。
进一步,在FI Loss的基础上,本实验调整HPP&HPC包含的层次。组别5仅利用了融合特征图P5参与特征的提取,模型的Rank 1指标得到了4.2%的提升,这证明了细节特征确实提升了行人特征的判别性。当组别4额外引入融合特征图P4时表现并未取得改进,这主要是由于,融合特征图P4和P5分辨率相同。当组别2将更大分辨率的融合特征图P3引入后,模型的Rank 1指标直接获得2.5%的提升。这充分证明了,下采样丢失的细节信息,对提升特征判别性至关重要,证明了本发明采用的层级式局部池化模块和细节特征语义约束能有效提升模型的细节学习能力。
(2)细节特征方法对比实验。
本实验讨论主流的细节特征方法Part-based Convolutional Baseline(PCB)和Pattern Alignment Module(PAM)与本发明提出的HPP的对比。PCB和PAM旨在改进最后的全局池化来提取行人不同位置的细节特征。前者限制池化区域,后者让模型学习mask来增强细节信息池化的权重。
为直观感受这三种方法,本实验可视化这些方法学习到的特征。PAM的mask是模型生成的,类似姿态估计的heatmap,mask能更精确的定位行人细节,如图3中的(a)所示,然而缺少label监督,mask的质量很难保证,并且mask倾向关注显著特征。PCB采用手工划分池化区域的方法,沿行人垂直方向做细节提取,如图3中的(b)所示,这种方法能很好的保留每个区域的显著特征。相比于PAM而言,PCB损失了精确度,但覆盖内容更全,也更加简单。但这两种方式都作用在模型最后一层,忽略了模型下采样过程中丧失的细节信息。HPP将PCB的方法嵌入到层级式特征框架中来提取下采样前的行人细节,如图3中的(c)所示,HPP几乎能覆盖整个行人,说明本发明提出的HPP能够提取到更加全面的细节特征,即使引入浅层特征会带来一定的背景噪声干扰。
(3)特征中心对比实验。
本实验讨论不同方式计算的特征中心对模型训练的影响。当前主流的方式是计算批量内的特征均值。本实例将FI Loss中的模态特征交集损失和类间特征交集损失计算的中心换成批量均值观察模型表现,即将自然光特征交集损失
Figure SMS_332
中的/>
Figure SMS_335
替换为自然光图像对应的细节特征的特征均值,将红外特征交集损失/>
Figure SMS_337
中的/>
Figure SMS_333
替换为红外图像对应的细节特征的特征均值,将替换后的自然光特征交集损失和红外特征交集损失这两者记为/>
Figure SMS_334
,将类间特征交集损失/>
Figure SMS_336
中的/>
Figure SMS_338
替换为全局细节特征的特征均值,将替换后的类间特征交集损失记为/>
Figure SMS_331
将本发明的自然光特征交集损失
Figure SMS_340
和红外特征交集损失/>
Figure SMS_343
,这两者记为
Figure SMS_346
,构建4组实验组如下:实验组1为/>
Figure SMS_341
和/>
Figure SMS_342
,实验组2为/>
Figure SMS_345
和/>
Figure SMS_348
,实验组3为/>
Figure SMS_339
和/>
Figure SMS_344
,实验组4为/>
Figure SMS_347
和/>
Figure SMS_349
,基于SYSU-MM01数据集进行对比实验,实验中将本发明提出的方法中的特征交集损失替换为上述4个实验组中的形式,得到的实验结果如表2所示。
表2 各实验组在SYSU-MM01数据集的运行评价指标
组别 Rank1 Rank10 Rank20 mAP
实验组1 71.8 95.1 98.1 67.8
实验组2 72.7 95.5 97.3 69.0
实验组3 72.7 95.3 97.2 69.5
实验组4 73.8 95.5 98.1 70.2
根据表2的数据可以看出,实验组4具有最优的指标,即将批量均值作为特征中心,模型的表现都一定程度的降低,说明本发明采用的特征交集损失能够得到最优的识别结果。分类器权重编码了整个类的特征分布,实验结果也证明了其作为特征中心的优势。
本发明的特征交集损失中引入了分类器权重,且以分类器权重作为特征中心进行损失计算,分类器权重作为特征中心使得度量学习与表征学习更加契合。FI Loss计算方式相同,并且其引入的模态和类间的难样本交集策略是ID Loss很好的补充。为了证明这一优势,本实例以向量的形式可视化了分类器每一类的权重参数。
实验取经典的三元组损失(Triplet)配合ID 损失作为总损失函数(Triplet+ID)进行模型训练,以及取FI Loss和ID损失作为总损失函数(IF+ID)进行模型训练,展示训练后的全局分类器
Figure SMS_350
的权重分布如图4所示,图4中的(a)为基于Triplet+ID训练后全局分类器/>
Figure SMS_351
的权重分布,图4中的(b)为基于IF+ID训练后全局分类器/>
Figure SMS_352
的权重分布。由图4中的(a)和图4中的(b)可以看出,以FI Loss和ID损失作为总损失函数进行模型训练后,分类器权重更加发散,有着良好的类间距离,这充分证明了FI Loss的优势。
为了进一步证明本发明方法在学习判别行人鲁棒特征的有效性,本实例可视化了特征散点图。基于SYSU-MM01数据集,以未经过训练的双流重识别模型、Baseline模型和以本发明方法训练后的双流重识别模型为对象进行实验。实验中对三种模型输入相同的图像,将模型输出的高维特征(例如256维)进行特征降维得到2维特征,并将2为特征直接作为坐标投影至坐标系上,得到如图5所示的特征散点图,图5中的三角形表示基于自然光图像得到的特征散点,图5中的圆形表示基于红外图像得到的特征散点。
图5中的(a)为基于未经过训练的双流重识别模型的输出得到的特征散点图,很明显特征散点分布具有明显的不均性,同一目标两种模态下的特征散点出现明显分界;图5中的(b)为基于Baseline模型的输出得到的特征散点图,图中通过虚直线连接的两个虚线圈为同一目标两种模态下的特征散点,可以看出同类特征分布的间距较远;图5中的(c)为基于以本发明方法训练后的双流重识别模型得到的特征散点图,图中虚线圈内包含了同一目标两种模态下的特征散点。可以看出图5中的(c)将图5中的(b)中间距较远的同类特征基本聚集在一起,即本发明方法在减小类内距离方面有明显的改进,解决了现有的度量学习存在的数据偏见以及与表征学习的不兼容问题。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明的保护范围应以所附权利要求为准。

Claims (7)

1.一种基于特征交集的跨模态行人重识别方法,其特征在于,所述基于特征交集的跨模态行人重识别方法,包括:
步骤1、将给定的图像集按模态分为自然光图像集和红外图像集;
步骤2、构建双流重识别模型,所述双流重识别模型包括两个分支,两个分支分别用于处理自然光图像和红外图像,两个分支的主干网络均为Resnet-50网络,两个分支中的Resnet-50网络的第一层为独立参数、其余层为共享参数;
步骤3、将自然光图像集和红外图像集作为所述双流重识别模型的输入,取Resnet-50网络最后三层输出的行人特征图进行融合,得到两个分支分别输出的融合特征图;
步骤4、将每个分支的融合特征图输入层级式局部池化模块提取行人多尺度的细节特征,并对所述细节特征进行语义约束;
步骤5、根据两个分支的细节特征构建特征交集损失,并结合语义约束和特征交集损失进行双流重识别模型训练,所述特征交集损失包括模态特征交集损失和类间特征交集损失;
步骤6、将一个自然光图像或红外图像作为查询图像,将一个红外图像库或自然光图像库作为目标图像库,将所述查询图像和所述目标图像库中的每一候选图像组成图像对,利用训练后的双流重识别模型以及层级式局部池化模块,针对每一图像对输出细节特征对,度量每一细节特征对的相似度,取相似度递减排序后的前一个或多个细节特征对对应的图像对,所取的图像对中的候选图像作为跨模态行人重识别结果。
2.如权利要求1所述的基于特征交集的跨模态行人重识别方法,其特征在于,所述取Resnet-50网络最后三层输出的行人特征图进行融合,包括:
记一个分支中Resnet-50网络最后三层输出的行人特征图为
Figure QLYQS_1
将行人特征图
Figure QLYQS_2
直接作为融合特征图/>
Figure QLYQS_3
将融合特征图
Figure QLYQS_4
经过/>
Figure QLYQS_5
卷积和上采样后与行人特征图/>
Figure QLYQS_6
点加,得到点加特征图,并将点加特征图经过/>
Figure QLYQS_7
卷积得到融合特征图/>
Figure QLYQS_8
将点加特征图经过
Figure QLYQS_9
卷积和上采样后与行人特征图/>
Figure QLYQS_10
点加,并在点加后经过
Figure QLYQS_11
卷积得到融合特征图/>
Figure QLYQS_12
3.如权利要求1所述的基于特征交集的跨模态行人重识别方法,其特征在于,所述将每个分支的融合特征图输入层级式局部池化模块提取行人多尺度的细节特征,包括:
将每张融合特征图沿垂直方向均分为一份或多份,并将均分后得到的每一份经过全局池化层得到融合特征图中行人对应位置的细节特征。
4.如权利要求3所述的基于特征交集的跨模态行人重识别方法,其特征在于,所述对所述细节特征进行语义约束,包括:
取细节特征包括局部细节特征
Figure QLYQS_13
和全局细节特征/>
Figure QLYQS_14
,/>
Figure QLYQS_15
,/>
Figure QLYQS_16
为自然光标识,/>
Figure QLYQS_17
为红外标识,/>
Figure QLYQS_18
为融合特征图中均分为多份得到的总份数;
对局部细节特征
Figure QLYQS_19
和全局细节特征/>
Figure QLYQS_20
采用ID损失进行表征语义约束,ID损失形式化如下:
Figure QLYQS_21
Figure QLYQS_22
式中,
Figure QLYQS_33
为局部细节特征/>
Figure QLYQS_25
的ID损失,/>
Figure QLYQS_29
为全局细节特征/>
Figure QLYQS_26
的ID损失,/>
Figure QLYQS_28
为自然光图像集中图像数量,/>
Figure QLYQS_32
为红外图像集中图像数量,/>
Figure QLYQS_36
和/>
Figure QLYQS_34
表示第/>
Figure QLYQS_38
张图像的细节特征/>
Figure QLYQS_23
和/>
Figure QLYQS_30
,/>
Figure QLYQS_37
表示第/>
Figure QLYQS_41
张图像对应的标签,/>
Figure QLYQS_40
为局部分类器,/>
Figure QLYQS_44
为全局分类器,/>
Figure QLYQS_39
为局部分类器/>
Figure QLYQS_43
的参数,/>
Figure QLYQS_42
为全局分类器/>
Figure QLYQS_45
的参数,/>
Figure QLYQS_24
表示局部分类器/>
Figure QLYQS_27
输出的预测概率,/>
Figure QLYQS_31
表示全局分类器/>
Figure QLYQS_35
输出的预测概率。
5.如权利要求1所述的基于特征交集的跨模态行人重识别方法,其特征在于,所述根据两个分支的细节特征构建特征交集损失,包括:
取细节特征包括局部细节特征
Figure QLYQS_46
和全局细节特征/>
Figure QLYQS_47
,/>
Figure QLYQS_48
,/>
Figure QLYQS_49
为自然光标识,/>
Figure QLYQS_50
为红外标识,/>
Figure QLYQS_51
为融合特征图中均分为多份得到的总份数;
首先构建自然光和红外两种模态下对应的ID损失形式化为:
Figure QLYQS_52
Figure QLYQS_53
式中,
Figure QLYQS_66
为自然光图像集的ID损失,/>
Figure QLYQS_57
为红外图像集的ID损失,/>
Figure QLYQS_61
为自然光图像集中图像数量,/>
Figure QLYQS_59
为红外图像集中图像数量,/>
Figure QLYQS_63
为自然光分类器/>
Figure QLYQS_67
的参数,/>
Figure QLYQS_71
为红外分类器
Figure QLYQS_62
的参数,/>
Figure QLYQS_65
表示第/>
Figure QLYQS_54
张自然光图像的细节特征/>
Figure QLYQS_58
,/>
Figure QLYQS_69
表示第/>
Figure QLYQS_72
张红外图像的细节特征/>
Figure QLYQS_70
,/>
Figure QLYQS_73
为自然光分类器/>
Figure QLYQS_56
输出的预测概率,/>
Figure QLYQS_60
为红外分类器/>
Figure QLYQS_64
输出的预测概率,对于类间交集,使用参数为/>
Figure QLYQS_68
的分类器/>
Figure QLYQS_55
然后构建模态特征交集损失形式化为:
Figure QLYQS_74
Figure QLYQS_75
式中,
Figure QLYQS_85
为自然光特征交集损失,/>
Figure QLYQS_78
为红外特征交集损失,/>
Figure QLYQS_82
为行人类别数,/>
Figure QLYQS_79
为margin值,参数/>
Figure QLYQS_83
,/>
Figure QLYQS_87
和/>
Figure QLYQS_92
均包含/>
Figure QLYQS_86
行,/>
Figure QLYQS_90
表示权重参数/>
Figure QLYQS_76
中的第/>
Figure QLYQS_81
行权重参数,/>
Figure QLYQS_91
表示权重参数/>
Figure QLYQS_95
中的第/>
Figure QLYQS_93
行权重参数,/>
Figure QLYQS_97
表示矩阵转置,/>
Figure QLYQS_89
表示以权重参数/>
Figure QLYQS_94
为中心,根据特征间相似度选择红外图像对应的细节特征距离中心最远的正样本,/>
Figure QLYQS_96
表示以权重参数/>
Figure QLYQS_98
为中心,根据特征间相似度选择红外图像对应的细节特征距离中心最近的负样本,/>
Figure QLYQS_77
表示以权重参数/>
Figure QLYQS_80
为中心,根据特征间相似度选择自然光图像对应的细节特征距离中心最远的正样本,/>
Figure QLYQS_84
表示以权重参数/>
Figure QLYQS_88
为中心,根据特征间相似度选择自然光图像对应的细节特征距离中心最近的负样本;
构建类间特征交集损失形式化为:
Figure QLYQS_99
式中,
Figure QLYQS_100
为类间特征交集损失,/>
Figure QLYQS_103
为表示参数/>
Figure QLYQS_105
中的第/>
Figure QLYQS_101
行权重参数,/>
Figure QLYQS_104
表示以参数/>
Figure QLYQS_106
为中心根据特征间相似度选择全局细节特征距离中心最近的负样本,/>
Figure QLYQS_107
表示以参数/>
Figure QLYQS_102
为中心根据特征间相似度选择全局细节特征距离中心最远的正样本;
最终得到特征交集损失形式化为:
Figure QLYQS_108
式中,
Figure QLYQS_109
为特征交集损失。
6.如权利要求5所述的基于特征交集的跨模态行人重识别方法,其特征在于,所述结合语义约束和特征交集损失进行双流重识别模型训练,包括构建总损失函数如下:
Figure QLYQS_110
式中,
Figure QLYQS_111
为总损失函数,/>
Figure QLYQS_112
为语义约束中局部细节特征/>
Figure QLYQS_113
的ID损失,/>
Figure QLYQS_114
为语义约束中全局细节特征/>
Figure QLYQS_115
的ID损失。
7.如权利要求5所述的基于特征交集的跨模态行人重识别方法,其特征在于,所述度量每一细节特征对的相似度,包括:
所述细节特征包括局部细节特征和全局细节特征,在度量每对细节特征的相似度时,首先将每个细节特征中的局部细节特征和全局细节特征沿通道拼接,然后基于拼接后的一对特征计算得到相似度。
CN202310598749.XA 2023-05-25 2023-05-25 一种基于特征交集的跨模态行人重识别方法 Active CN116311387B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310598749.XA CN116311387B (zh) 2023-05-25 2023-05-25 一种基于特征交集的跨模态行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310598749.XA CN116311387B (zh) 2023-05-25 2023-05-25 一种基于特征交集的跨模态行人重识别方法

Publications (2)

Publication Number Publication Date
CN116311387A true CN116311387A (zh) 2023-06-23
CN116311387B CN116311387B (zh) 2023-09-01

Family

ID=86783717

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310598749.XA Active CN116311387B (zh) 2023-05-25 2023-05-25 一种基于特征交集的跨模态行人重识别方法

Country Status (1)

Country Link
CN (1) CN116311387B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117828321A (zh) * 2024-03-06 2024-04-05 四川交通职业技术学院 一种钢管混凝土桥梁的密实度检测方法及系统

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6830707B1 (ja) * 2020-01-23 2021-02-17 同▲済▼大学 ランダムバッチマスクとマルチスケール表現学習を融合した人物再同定方法
CN112464983A (zh) * 2020-10-28 2021-03-09 吉林大学 一种用于苹果树叶病害图像分类的小样本学习方法
CN112465827A (zh) * 2020-12-09 2021-03-09 北京航空航天大学 一种基于逐类卷积操作的轮廓感知多器官分割网络构建方法
CN113516012A (zh) * 2021-04-09 2021-10-19 湖北工业大学 一种基于多层级特征融合的行人重识别方法及系统
WO2021213293A1 (zh) * 2020-04-24 2021-10-28 西北工业大学 一种面向群智感知的泛在操作系统
WO2022001489A1 (zh) * 2020-06-28 2022-01-06 北京交通大学 一种无监督域适应的目标重识别方法
WO2022027986A1 (zh) * 2020-08-04 2022-02-10 杰创智能科技股份有限公司 基于跨模态行人重识别方法及装置
CN114202740A (zh) * 2021-12-07 2022-03-18 大连理工大学宁波研究院 一种基于多尺度特征融合的行人重识别方法
CN114220124A (zh) * 2021-12-16 2022-03-22 华南农业大学 一种近红外-可见光跨模态双流行人重识别方法及系统
CN114255474A (zh) * 2020-09-25 2022-03-29 上海舜瞳科技有限公司 一种基于多尺度、多粒度行人重识别方法
CN114495010A (zh) * 2022-02-14 2022-05-13 广东工业大学 一种基于多特征学习的跨模态行人重识别方法及系统
US20220230322A1 (en) * 2021-01-21 2022-07-21 Dalian University Of Technology Depth-aware method for mirror segmentation
WO2022160772A1 (zh) * 2021-01-27 2022-08-04 武汉大学 一种基于视角引导多重对抗注意力的行人重识别方法
CN114973317A (zh) * 2022-05-13 2022-08-30 杭州像素元科技有限公司 一种基于多尺度邻接交互特征的行人重识别方法
CN114998928A (zh) * 2022-05-18 2022-09-02 南京信息工程大学 多粒度特征利用的跨模态行人重识别方法
CN115100678A (zh) * 2022-06-10 2022-09-23 河南大学 基于通道重组和注意力机制的跨模态行人重识别方法
CN115620342A (zh) * 2022-10-26 2023-01-17 上海海事大学 跨模态行人重识别方法、系统及计算机
CN115731574A (zh) * 2022-11-15 2023-03-03 浙江工业大学 基于中间模态的参数共享和特征学习的跨模态行人重识别方法
WO2023082561A1 (zh) * 2021-11-15 2023-05-19 苏州浪潮智能科技有限公司 一种行人重识别方法、系统、电子设备及存储介质

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6830707B1 (ja) * 2020-01-23 2021-02-17 同▲済▼大学 ランダムバッチマスクとマルチスケール表現学習を融合した人物再同定方法
WO2021213293A1 (zh) * 2020-04-24 2021-10-28 西北工业大学 一种面向群智感知的泛在操作系统
WO2022001489A1 (zh) * 2020-06-28 2022-01-06 北京交通大学 一种无监督域适应的目标重识别方法
WO2022027986A1 (zh) * 2020-08-04 2022-02-10 杰创智能科技股份有限公司 基于跨模态行人重识别方法及装置
CN114255474A (zh) * 2020-09-25 2022-03-29 上海舜瞳科技有限公司 一种基于多尺度、多粒度行人重识别方法
CN112464983A (zh) * 2020-10-28 2021-03-09 吉林大学 一种用于苹果树叶病害图像分类的小样本学习方法
CN112465827A (zh) * 2020-12-09 2021-03-09 北京航空航天大学 一种基于逐类卷积操作的轮廓感知多器官分割网络构建方法
US20220230322A1 (en) * 2021-01-21 2022-07-21 Dalian University Of Technology Depth-aware method for mirror segmentation
WO2022160772A1 (zh) * 2021-01-27 2022-08-04 武汉大学 一种基于视角引导多重对抗注意力的行人重识别方法
CN113516012A (zh) * 2021-04-09 2021-10-19 湖北工业大学 一种基于多层级特征融合的行人重识别方法及系统
WO2023082561A1 (zh) * 2021-11-15 2023-05-19 苏州浪潮智能科技有限公司 一种行人重识别方法、系统、电子设备及存储介质
CN114202740A (zh) * 2021-12-07 2022-03-18 大连理工大学宁波研究院 一种基于多尺度特征融合的行人重识别方法
CN114220124A (zh) * 2021-12-16 2022-03-22 华南农业大学 一种近红外-可见光跨模态双流行人重识别方法及系统
CN114495010A (zh) * 2022-02-14 2022-05-13 广东工业大学 一种基于多特征学习的跨模态行人重识别方法及系统
CN114973317A (zh) * 2022-05-13 2022-08-30 杭州像素元科技有限公司 一种基于多尺度邻接交互特征的行人重识别方法
CN114998928A (zh) * 2022-05-18 2022-09-02 南京信息工程大学 多粒度特征利用的跨模态行人重识别方法
CN115100678A (zh) * 2022-06-10 2022-09-23 河南大学 基于通道重组和注意力机制的跨模态行人重识别方法
CN115620342A (zh) * 2022-10-26 2023-01-17 上海海事大学 跨模态行人重识别方法、系统及计算机
CN115731574A (zh) * 2022-11-15 2023-03-03 浙江工业大学 基于中间模态的参数共享和特征学习的跨模态行人重识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
李灏;唐敏;林建武;赵云波;: "基于改进困难三元组损失的跨模态行人重识别框架", 计算机科学, no. 10 *
熊炜;熊子婕;杨荻椿;童磊;刘敏;曾春艳;: "基于深层特征融合的行人重识别方法", 计算机工程与科学, no. 02 *
綦金玮;彭宇新;袁玉鑫;: "面向跨媒体检索的层级循环注意力网络模型", 中国图象图形学报, no. 11 *
陈丹;李永忠;于沛泽;邵长斌;: "跨模态行人重识别研究与展望", 计算机系统应用, no. 10 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117828321A (zh) * 2024-03-06 2024-04-05 四川交通职业技术学院 一种钢管混凝土桥梁的密实度检测方法及系统
CN117828321B (zh) * 2024-03-06 2024-05-03 四川交通职业技术学院 一种钢管混凝土桥梁的密实度检测方法及系统

Also Published As

Publication number Publication date
CN116311387B (zh) 2023-09-01

Similar Documents

Publication Publication Date Title
CN109145939B (zh) 一种小目标敏感的双通道卷积神经网络语义分割方法
Xu et al. Scale-aware feature pyramid architecture for marine object detection
CN112184752A (zh) 一种基于金字塔卷积的视频目标跟踪方法
CN106228565B (zh) 一种基于x射线图像的输油管道焊缝缺陷检测方法
Li et al. Remote sensing airport detection based on end-to-end deep transferable convolutional neural networks
CN106023257A (zh) 一种基于旋翼无人机平台的目标跟踪方法
CN110543906B (zh) 基于Mask R-CNN模型的肤质自动识别方法
CN113408605A (zh) 基于小样本学习的高光谱图像半监督分类方法
CN112270286B (zh) 一种抗阴影干扰的单色视频目标跟踪方法
CN113505670B (zh) 基于多尺度cam和超像素的遥感图像弱监督建筑提取方法
Xing et al. Traffic sign recognition using guided image filtering
Raparthi et al. Machine Learning Based Deep Cloud Model to Enhance Robustness and Noise Interference
CN116311387B (zh) 一种基于特征交集的跨模态行人重识别方法
Ju et al. Classification of jujube defects in small data sets based on transfer learning
CN114419413A (zh) 感受野自适应的变电站绝缘子缺陷检测神经网络构建方法
CN110008900A (zh) 一种由区域到目标的可见光遥感图像候选目标提取方法
Zhao et al. Semisupervised SAR image change detection based on a siamese variational autoencoder
CN112149665A (zh) 一种基于深度学习的高性能多尺度目标检测方法
Hu et al. RGB-D image multi-target detection method based on 3D DSF R-CNN
Usmani et al. Enhanced reinforcement learning model for extraction of objects in complex imaging
CN110008899B (zh) 一种可见光遥感图像候选目标提取与分类方法
CN116469020A (zh) 一种基于多尺度和高斯Wasserstein距离的无人机图像目标检测方法
Fu et al. Sports action recognition based on deep learning and clustering extraction algorithm
Naiemi et al. Scene text detection using enhanced extremal region and convolutional neural network
CN114020155A (zh) 一种基于眼动仪的高精度视线定位方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant