CN116311387B

CN116311387B - 一种基于特征交集的跨模态行人重识别方法

Info

Publication number: CN116311387B
Application number: CN202310598749.XA
Authority: CN
Inventors: 崔嘉敖; 产思贤; 白琮
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2023-05-25
Filing date: 2023-05-25
Publication date: 2023-09-01
Anticipated expiration: 2043-05-25
Also published as: CN116311387A

Abstract

本发明公开了一种基于特征交集的跨模态行人重识别方法，属于图像处理技术领域，本发明利用构建双流重识别模型处理自然光图像和红外图像，并利用一个层级式局部池化模块旨在提升模型捕获细节特征的能力，还利用一个特征交集损失，其从特征交集的角度重新考虑分类与检索过程，将分类器的超参数引入度量计算，在消除偏见的同时，缓解了表征与度量学习间的差异。

Description

一种基于特征交集的跨模态行人重识别方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于特征交集的跨模态行人重识别方法。

背景技术

跨模态行人重识别，(visible-infrared person re-identification，简称VI-ReID) 的目的是给定一个自然光或红外相机拍摄的查询图像，在自然光或红外库中检索相同身份的行人。随着监控摄像头的普及以及相关数据集的提出，VI-ReID任务受到了大量研究人员的关注。

作为以人为主体的图像检索任务，VI-ReID面临两个挑战，为行人相似的外表和模态差异。为了区分相似行人，当前的方法从表征学习角度丰富特征蕴含的行人细节来提升区别性。通常情况下，特征由模型最后的输出的特征图经过全局池化后得到，但全局池化损失了大量细节语义信息。因此，基于部分的卷积基线(part-based convolutionalbaseline)首次提出了局部池化层，其通过限制池化区域来保留细粒度的信息。基于局部池化，跨模态推土机距离(cross-modality earth mover’s distance)方法和多粒度网络(multiple granularity network)方法进一步通过控制池化的尺寸来捕获不同尺度的行人细节。不同于局部池化区域的严格划分，自适应局部划分(adaptive part division )方法和模式对齐模块(pattern alignment module) 训练网络来学习细节特征的掩码，掩码作为池化的权重来强化对应细节。为了生成细节掩码更加准确，基于姿态估计的局部间和局部内关系变形器(pose-guided inter- and intra-part relational transformer)利用姿态估计模型辅助生成行人关节的掩码。虽然这些方法一定程度保留了细节信息，但忽略了细节损失的主要原因，即模型的下采样操作。除此之外，由于特征约束大多作用模型最后一层，梯度消失将导致模型只对大尺寸大感受野的特征敏感，浅层网络缺乏细节捕获能力。

为了拉近类内间距以及模态差异，当前的方法可分成基于像素与基于特征两类。基于像素对齐生成对抗网络(alignment generative adversarial network)和集合级和实例级的联合对齐(joint set-level and instance-level alignment)方法旨在通过生成模型生成对应模态着色风格的假图，假图用来辅助图像检索。由于，模态差异大，风格迁移需要复杂的网络结构，这种方式并没有取得好的表现。目前主流的方式是通过设计度量函数，通过限制模态间的特征距离来训练模型学习模态共存特征。中间模态网络(middlemodality network )和加权的三元组损失(weighted triplet loss)基于经典的三元组策略，限制同类模态间与类间的相对距离来缓解模态差异。但这些方法每次仅考虑一对样本，缺乏鲁棒性且容易陷入子优结果。异质中心三元组(hetero-center triplet loss)和跨模态对比中心损失(cross-modality contrastive-center loss)提出约束样本点到模态中心的距离，一定程度缓解上述问题。但是模态中心是基于当前批量的特征均值，在小批量训练策略下，仍无法避免数据偏见。除此之外，度量函数从特征距离角度出发评估特征，而表征学习从身份表达角度评估特征，这种差异会影响模型训练。

发明内容

本发明的目的在于提供一种基于特征交集的跨模态行人重识别方法，提升捕获细节特征的能力，减小类间特征距离和类内特征距离。

为实现上述目的，本发明所采取的技术方案为：

一种基于特征交集的跨模态行人重识别方法，所述基于特征交集的跨模态行人重识别方法，包括：

步骤1、将给定的图像集按模态分为自然光图像集和红外图像集；

步骤2、构建双流重识别模型，所述双流重识别模型包括两个分支，两个分支分别用于处理自然光图像和红外图像，两个分支的主干网络均为Resnet-50网络，两个分支中的Resnet-50网络的第一层为独立参数、其余层为共享参数；

步骤3、将自然光图像集和红外图像集作为所述双流重识别模型的输入，取Resnet-50网络最后三层输出的行人特征图进行融合，得到两个分支分别输出的融合特征图；

步骤4、将每个分支的融合特征图输入层级式局部池化模块提取行人多尺度的细节特征，并对所述细节特征进行语义约束；

步骤5、根据两个分支的细节特征构建特征交集损失，并结合语义约束和特征交集损失进行双流重识别模型训练，所述特征交集损失包括模态特征交集损失和类间特征交集损失；

步骤6、将一个自然光图像或红外图像作为查询图像，将一个红外图像库或自然光图像库作为目标图像库，将所述查询图像和所述目标图像库中的每一候选图像组成图像对，利用训练后的双流重识别模型以及层级式局部池化模块，针对每一图像对输出细节特征对，度量每一细节特征对的相似度，取相似度递减排序后的前一个或多个细节特征对对应的图像对，所取的图像对中的候选图像作为跨模态行人重识别结果。

以下还提供了若干可选方式，但并不作为对上述总体方案的额外限定，仅仅是进一步的增补或优选，在没有技术或逻辑矛盾的前提下，各可选方式可单独针对上述总体方案进行组合，还可以是多个可选方式之间进行组合。

作为优选，所述取Resnet-50网络最后三层输出的行人特征图进行融合，包括：

记一个分支中Resnet-50网络最后三层输出的行人特征图为；

将行人特征图直接作为融合特征图/>；

将融合特征图经过/>卷积和上采样后与行人特征图/>点加，得到点加特征图，并将点加特征图经过/>卷积得到融合特征图/>；

将点加特征图经过卷积和上采样后与行人特征图/>点加，并在点加后经过卷积得到融合特征图/>。

作为优选，所述将每个分支的融合特征图输入层级式局部池化模块提取行人多尺度的细节特征，包括：

将每张融合特征图沿垂直方向均分为一份或多份，并将均分后得到的每一份经过全局池化层得到融合特征图中行人对应位置的细节特征。

作为优选，所述对所述细节特征进行语义约束，包括：

取细节特征包括局部细节特征和全局细节特征/>，，/>为自然光标识，/>为红外标识，/>为融合特征图中均分为多份得到的总份数；

对局部细节特征和全局细节特征/>采用ID损失进行表征语义约束，ID损失形式化如下：

；

式中，为局部细节特征/>的ID损失，/>为全局细节特征/>的ID损失，/>为自然光图像集中图像数量，/>为红外图像集中图像数量，/>和/>表示第/>张图像的细节特征/>和/>，/>表示第/>张图像对应的标签，/>为局部分类器，/>为全局分类器，/>为局部分类器/>的参数，/>为全局分类器/>的参数，/>表示局部分类器/>输出的预测概率，/>表示全局分类器/>输出的预测概率。

作为优选，所述根据两个分支的细节特征构建特征交集损失，包括：

首先构建自然光和红外两种模态下对应的ID损失形式化为：

；

式中，为自然光图像集的ID损失，/>为红外图像集的ID损失，/>为自然光图像集中图像数量，/>为红外图像集中图像数量，/>为自然光分类器/>的参数，/>为红外分类器/>的参数，/>表示第/>张自然光图像的细节特征/>，/>表示第/>张红外图像的细节特征/>，/>为自然光分类器/>输出的预测概率，为红外分类器/>输出的预测概率，对于类间交集，使用参数为的分类器/>；

然后构建模态特征交集损失形式化为：

；

式中，为自然光特征交集损失，/>为红外特征交集损失，/>为行人类别数，为margin值，参数/>，/>和/>均包含/>行，/>表示权重参数/>中的第/>行权重参数，表示权重参数/>中的第/>行权重参数，/>表示矩阵转置，/>表示以权重参数/>为中心，根据特征间相似度选择红外图像对应的细节特征距离中心最远的正样本，/>表示以权重参数/>为中心，根据特征间相似度选择红外图像对应的细节特征距离中心最近的负样本，/>表示以权重参数/>为中心，根据特征间相似度选择自然光图像对应的细节特征距离中心最远的正样本，/>表示以权重参数/>为中心，根据特征间相似度选择自然光图像对应的细节特征距离中心最近的负样本；

构建类间特征交集损失形式化为：

；

式中，为类间特征交集损失，/>为表示参数/>中的第/>行权重参数，/>表示以参数/>为中心根据特征间相似度选择全局细节特征距离中心最近的负样本，/>表示以参数/>为中心根据特征间相似度选择全局细节特征距离中心最远的正样本；

最终得到特征交集损失形式化为：

；

式中，为特征交集损失。

作为优选，所述结合语义约束和特征交集损失进行双流重识别模型训练，包括构建总损失函数如下：

；

式中，为总损失函数，/>为语义约束中局部细节特征/>的ID损失，/>为语义约束中全局细节特征/>的ID损失。

作为优选，所述度量每一细节特征对的相似度，包括：

所述细节特征包括局部细节特征和全局细节特征，在度量每对细节特征的相似度时，首先将每个细节特征中的局部细节特征和全局细节特征沿通道拼接，然后基于拼接后的一对特征计算得到相似度。

本发明提供的一种基于特征交集的跨模态行人重识别方法，利用层级式局部池化模块的层级式结构来获取由粗到细的多粒度的特征图，利用层级式结构的反向传递语义信息帮助抑制浅层噪声，保留有效细节，同时基于层级式结构自顶向下的池化来提取行人多尺度的描述，获得多尺度的细节特征。并且对每个细节特征都进行语义约束，缩短梯度回传距离，改善模型浅层的优化。另外本发明提出了特征交集损失，特征交集损失从类间交集和模态交集两个角度进行计算，其从特征交集的角度重新考虑分类与检索过程，并且引入分类器权重作为特征中心进行类间交集和模态交集的度量，减小了类间特征距离和类内特征距离，解决了现有度量函数中的数据偏见问题，同时平滑表征与度量学习的差异。

附图说明

图1为本发明的一种基于特征交集的跨模态行人重识别方法的流程图；

图2为本发明的一种基于特征交集的跨模态行人重识别方法的数据传递图；

图3为本发明的实验中细节特征提取结果示意图；

图4为本发明的实验中全局分类器的权重分布示意图；

图5为本发明的实验中根据模型输出特征得到的特征散点图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是在于限制本发明。

为了克服现有技术中行人重识别存在的缺陷，在一个实施例中，如图1所示，提出了一种基于特征交集的跨模态行人重识别方法，具体包括以下步骤：

步骤1、将图像集划分为自然光图像集与红外图像集。

本实例将输入的图像集按模态分为自然光图像集和红外图像集/>，方便后续网络处理。式中，/>为自然光图像集中第/>张自然光图像，/>为自然光图像集中图像数量，/>是红外图像集中第/>张红外图像，/>为自然光图像/>或红外图像/>的标签，/>为红外图像集中图像数量。

本实施例将划分得到的自然光图像集和红外图像集中的图像统一处理至尺寸为3（通道数）×384（长）×192（宽），并将处理后的图像作为训练数据。在其他实施例中为了强化训练数据，还可以将处理后的图像经过随机水平翻转和随机擦除处理进行数据增强。

步骤2、构建双流重识别模型。

本实施例的双流重识别模型包括两个分支，两个分支分别用于处理自然光图像和红外图像/>。两个分支的主干网络均为Resnet-50网络，每个分支包含一个独立参数的子网络记为/>（对应于自然光图像处理）和/>（对应于红外图像处理），子网络/>和/>由Resnet-50网络的第一层实现。在子网络/>和/>后分别连接一个共享参数的子网络/>，子网络/>由Resnet-50网络除第一层以外的剩余层实现。本实施例中的共享参数是指两个分支中的子网络/>共享参数。

因此本实施例的双流重识别模型的两个分支中，用于处理自然光图像的分支由子网络和子网络/>组成，用于处理红外图像的分支由子网络/>和子网络/>组成。子网络和/>带有独立参数是为了适应模态差异，而子网络/>共享参数旨在提取与行人的模态无关的特征。

Resnet是残差网络(Residual Network)的缩写，该系列网络广泛用于目标分类等领域以及作为计算机视觉任务主干经典神经网络的一部分，典型的网络有resnet-50、resnet-101等。本实施例中采用的即为 Resnet-50网络结构， Resnet-50网络首先对输入做了卷积操作，之后包含四个残差快（ResidualBlock)，最后进行全连接操作以便于进行分类任务。本实施例采用的Resnet-50网络为常规结构，因此不对网络结构进行详述。

步骤3、将自然光图像集和红外图像集作为双流重识别模型的输入，取Resnet-50网络最后三层输出的行人特征图进行融合，得到融合特征图。

Resnet-50网络由浅到深其对应的特征图分辨率由大到小。浅层的特征图包含更多细节信息，但是语义信息少，表征能力差。深层的特征图包含高级语义信息，但缺乏细节，表征能力强。

为了提升浅层特征的表达能力，本实施例将深层特征逆序传播到浅层进行特征融合。如图2所示，分别令表示Resnet-50网络的第2，3，4层（即最后三层）输出的特征图，它们相对于输入图像分别有/>的步长。在特征融合时，特征图/>和/>都经过一个/>卷积和上采样恢复到前一层的尺寸再进行点加。点加后的特征图再经一个卷积得到最后的特征图，融合后的特征图记为/>。/>卷积可以减少上采样的混叠效应。

具体的，针对处理自然光图像的分支，取Resnet-50网络的第2，3，4层输出的行人特征图记为，将行人特征图/>直接作为融合特征图/>；将融合特征图经过一个/>卷积和上采样后与行人特征图/>点加，得到点加特征图，并将点加特征图经过一个/>卷积得到融合特征图/>；将点加特征图经过一个/>卷积和上采样后与行人特征图/>点加，并在点加后经过一个/>卷积得到融合特征图/>，最终得到的融合特征图记为/>。

另外，针对处理红外图像的分支，取Resnet-50网络的第2，3，4层输出的行人特征图记为，将行人特征图/>直接作为融合特征图/>；将融合特征图经过一个/>卷积和上采样后与行人特征图/>点加，得到点加特征图，并将点加特征图经过一个/>卷积得到融合特征图/>；将点加特征图经过一个/>卷积和上采样后与行人特征图/>点加，并在点加后经过一个/>卷积得到融合特征图/>，最终得到的融合特征图记为/>。

步骤4、将融合特征图输入层级式局部池化模块提取行人多尺度的细节特征，并对每个细节特征进行语义约束。

虽然现有的细节特征方法一定程度保留了细节信息，但忽略了细节损失的主要原因，即网络模型的下采样操作。除此之外，由于特征约束大多作用于网络模型最后一层，梯度消失将导致网络模型只对大尺寸大感受野的特征敏感，浅层网络缺乏细节捕获能力。对此本实施例提出了层级式局部池化模块使用top-down的层级式结构来获取由粗到细的多粒度的特征图。网络浅层保留行人细节信息，但语义信息较差，网络深层获得行人的语义信息，但细节损失严重。本实施例采取的top-down的层级式结构能反向传递语义信息帮助抑制浅层噪声，保留有效细节。同时层级式局部池化模块自顶向下采用不同步长的池化来提取行人多尺度的描述，获得多尺度的细节特征。

本实施例的层级式局部池化模块主要包括细节特征的提取以及语义约束。在细节特征的提取中，对于不同分辨率的特征图，本实例选取不同的步长分别预处理，预处理主要包括将不同分辨率的融合特征图进行分割。其分割操作根据实际需要进行选取即可，本实施例提供一种方案如下：

将融合特征图和/>沿垂直方向均分为6（可调整）份，将融合特征图/>和沿垂直方向均分为4（可调整）份，将融合特征图/>和/>沿垂直方向均分为1份。由于融合特征图/>和/>相当于未进行分割，因此本实施例将融合特征图/>或/>分割得到的6份以及/>或/>分割得到的4份作为一个整体进行处理，即/>，将融合特征图/>或/>分割得到的1份作为一个整体进行处理。

分割后，将分割得到的每一份经过全局池化层得到融合特征图中行人对应位置的细节特征，记为，/>为自然光图像或红外图像对应的/>和/>分割并经过全局池化层后的细节特征，由于/>和/>经过实际分割，因此可将视为局部细节特征，/>为自然光图像或红外图像对应的/>分割并经过全局池化层后的细节特征，由于/>未经过实际分割，因此可将/>视为全局细节特征。

在语义约束中，都采用ID损失进行表征语义约束。层级式局部池化模块提前对每个细节特征都施加了损失约束，这缩短了梯度传播距离，使得浅层网络接收更多监督来优化其捕获细节得能力。ID损失形式化如下：

；

式中，为局部细节特征/>的ID损失，/>为全局细节特征/>的ID损失，/>和表示第/>张图像（为自然光图像/>或红外图像/>，根据/>的取值而定）的细节特征/>和，/>表示第/>张图像对应的标签，/>为局部分类器，/>为全局分类器，/>为局部分类器/>的参数，/>为全局分类器/>的参数，/>表示局部分类器/>的参数为/>、输入为/>，/>表示全局分类器/>的参数为/>、输入为/>，表示局部分类器/>输出的预测概率，/>表示全局分类器/>输出的预测概率。

需要说明的是，本实施例在语义约束中引入了两个分类器，两个分类器均由一个全连接层实现，与双流重识别模型一起训练。

步骤S5、构建特征交集损失，并计算总损失来训练双流重识别模型。

针对现有的度量学习存在的数据偏见以及与表征学习的不兼容问题，本实施例提出了特征交集损失。特征交集基于一个原理，即分类器预测特征属于某一类的概率是特征与超参数的内积。分类器经过训练使得其对某一类下的大部分样本都能得到准确的预测。因此，相比传统的特征中心而言，分类器的超参数更能反映对应类下共存的特征。

考虑行人特征，其属于第/>张图像行人的概率/>等于全连接层参数/>与/>点积。理想状态下，高响应的参数对应某类行人的显著特征。将/>也看作特征，那么分类任务就可以看作/>与/>间取交集的过程，交集越大证明其越相似。因此，本实施例以权重/>为中心，以交集大小为度量，来评估特征的类差异与模态差异。

本实施例提出了两个概念类交集和模态交集，类交集表示不同类间特征的内积，模态交集表示不同模态间特征的内积。在标准化下，交集大小(内积)可以视为向量间的夹角，通过从类与模态两个角度计算特征与分类器超参数间交集的相对大小来评估特征质量。事实上，特征交集损失是不同特征与同一分类器参数的相对交集，而交叉熵函数是计算特征对分类器不同类参数的相对交集。这一定程度顺利的将表征学习的ID损失过度到度量函数。

因此，本实施例提出的特征交集损失由模态特征交集损失/>，/>和类间特征交集损失/>组成。对于模态交集，两个模态具体分类器是被设置的，记为/>，，即在模态交集评估中，本实施例引入了两个分类器，两个分类器均由一个全连接层实现，与双流重识别模型一起训练。分类器/>，/>仅用来对对应模态下的特征分类。这两个模态下对应的ID损失形式化为：

；

式中，为自然光图像集的ID损失，/>为红外图像集的ID损失，/>为自然光分类器/>的参数，也就是全连接层的参数，/>为红外分类器/>的参数，/>表示第/>张自然光图像的细节特征/>，/>表示第/>张红外图像的细节特征/>，/>表示自然光分类器/>的参数为/>、输入为/>，/>表示红外分类器/>的参数为/>、输入为/>，/>为自然光分类器/>输出的预测概率，为红外分类器/>输出的预测概率。对于类间交集，本实例使用参数为/>的分类器/>。

本实例将权重参数，/>和/>为中心来评估特征的类间差异与模态差异。以权重参数/>，/>为中心，根据特征间相似度选择模态间最远的正样本，记为和模态间最近的负样本，记为/>。则模态特征交集损失形式化为：

；

式中，为自然光特征交集损失，/>为红外特征交集损失，/>为行人类别数，为margin值，权重参数/>，/>和/>均包含/>行，/>表示权重参数/>中的第/>行权重参数，/>表示权重参数/>中的第/>行权重参数，/>表示矩阵转置，/>表示以权重参数为中心，根据特征间相似度选择红外图像特征（根据红外图像得到的细节特征）距离中心最远的正样本，/>表示以权重参数/>为中心，根据特征间相似度选择红外图像特征距离中心最近的负样本，/>表示以权重参数为中心，根据特征间相似度选择自然光图像特征（根据自然光图像得到的细节特征）距离中心最远的正样本，/>表示以权重参数为中心，根据特征间相似度选择自然光图像特征距离中心最近的负样本。

本实施例通过约束正样本与负样本与模态特征中心的相对交集大小，扩大模态间正类样本特征交集，减少负类样本特征交集。另外与权重参数为中心，根据特征间相似度选择全局细节特征（根据自然光图像和红外图像得到的全局细节特征）距离中心最远的正样本/>和最近的负样本/>，则类间特征交集损失形式化为：

；

式中，为表示权重参数/>中的第/>行权重参数。

本实施例通过约束正样本与负样本与类间特征中心的相对交集大小，扩大类内正类样本特征交集，减少类间样本特征交集。最终得到特征交集损失形式化为：

；

基于此，本实施例构建的总损失函数形式化为：

；

本实施例基于总损失函数对双流重识别模型和四个分类器（局部分类器、全局分类器、自然光分类器和红外分类器）进行训练。训练更新过程为现有过程，例如梯度下降法、自适应学习率的梯度下降法、归一化共轭梯度法等，本实施例不对具体训练过程进行描述。

步骤S6、查询图像和目标图像库中图像分别经双流重识别模型和层级式局部池化模块提取细节特征后进行匹配，得到跨模态行人重识别结果。

在推理阶段，给定一个自然光（红外）模态下的查询图像和红外（自然光）图像库。将查询图像和红外（自然光）图像库中的每一候选图像组成一个图像对，每一图像对作为双流重识别模型的输入，将这些图像投影到同一特征空间，并由层级式局部池化模块输出细节特征，因此得到该图像对的一个细节特征对。对于多个图像对处理后可得到多个细节特征对。

然后通过计算每个细节特征对的相似度，取相似度最高的top-k（具体值可根据需求调整，例如1、5、10等）个细节特征对，即将所有细节特征对按照相似度递减排序，取排序后的序列中的前一个或多个细节特征对，将所取的细节特征对对应的对象对中的候选图像，作为图像库中与查询图像最相似的top-k个候选图像，top-k个候选图像即为得到的跨模态行人重识别结果。

由于本实施例中针对每张图像得到的细节特征为，因此本实施例在计算两张图像的相似度时，首先将属于同一张图像的细节特征/>沿通道拼接，以本实施例中，/>为例，即需要将11个细节特征沿通道拼接得到一个拼接特征，然后计算两张图像的拼接特征的相似度来找到目标图像库中与查询图像最相似的候选图像。其中计算特征相似度基于常规方法即可，例如欧式距离、余弦相似度等，本实施例不进行限制。

本发明的基于特征交集的跨模态行人重识别方法在安防领域，根据监控拍摄的行人图像，追溯目标行人中均具有良好应用。为了说明本申请方法的有效性，本实施例提供一种具体的实验过程如下。

实验在数据集SYSU-MM01上开展，所有的实验在SYSU-MM01数据集上的all-search环境下测试，具体进行了消融实验，细节特征方法对比实验和特征中心对比实验。

（1）消融实验。

本实施例利用消融实验来展示本发明方法中每个模块对模型的影响。为了定量评估本发明提出的方法的性能，实验中采用了累积匹配特性曲线（CMC）和平均检索精度（mAP）作为对SYSU-MM01数据集的评价指标。其中，CMC仅展示Rank n(n = 1, 10, 20)的指标，分别表示前n张相似行人中存在目标行人的概率。

具体实验步骤中，依次在Baseline模型（为仅用ID损失训练后的Two-StreamResnet-50模型）上引入层级式局部池化模块（Hierarchical Part Pooling，简称HPP）、细节特征语义约束（Hierarchical Part Constraints，简称HPC），以及特征交集损失（Feature Intersection，简称FI Loss），来观察不同模块带来的影响。由于HPP得到的每个特征都被HPC约束，所以实验中将两者捆绑，记为HPP&HPC。

本实验通过调整参与特征提取的层次来证明层级式结构的有效性。实验分为6组，记为组别1-组别6，其中组别1为Baseline模型，组别2为在Baseline模型上引入3个层次的HPP&HPC（输入融合特征图P3、P4和P5），组别3为在基准线Baseline上引入FI Loss，组别4为在Baseline模型上引入2个层次的HPP&HPC（输入融合特征图P4和P5）和FI Loss，组别5为在Baseline模型上引入1个层次的HPP&HPC（仅输入融合特征图P5）和FI Loss，组别6为在Baseline模型上引入3个层次的HPP&HPC和FI Loss。各组别在SYSU-MM01数据集的运行评价指标如表1所示。

表1 各组别在SYSU-MM01数据集的运行评价指标

组别	Rank1	Rank10	Rank20	mAP
					组别1	57.1	89.3	94.9	53.5
组别2	67.0	94.2	97.8	64.9
					组别3	64.2	92.7	96.8	61.3
组别4	71.3	94.3	97.4	67.9
					组别5	71.2	95.1	98.3	68.1
组别6	73.8	95.5	98.1	70.2

由表1可以看出，单独添加HPP&HPC和FI Loss都可以给模型带来巨大改进，从指标Rank 1来看单独添加HPP&HPC即可提升9.8%，单独添加FI Loss即可提升7.1%。

进一步，在FI Loss的基础上，本实验调整HPP&HPC包含的层次。组别5仅利用了融合特征图P5参与特征的提取，模型的Rank 1指标得到了4.2%的提升，这证明了细节特征确实提升了行人特征的判别性。当组别4额外引入融合特征图P4时表现并未取得改进，这主要是由于，融合特征图P4和P5分辨率相同。当组别2将更大分辨率的融合特征图P3引入后，模型的Rank 1指标直接获得2.5%的提升。这充分证明了，下采样丢失的细节信息，对提升特征判别性至关重要，证明了本发明采用的层级式局部池化模块和细节特征语义约束能有效提升模型的细节学习能力。

（2）细节特征方法对比实验。

本实验讨论主流的细节特征方法Part-based Convolutional Baseline（PCB）和Pattern Alignment Module（PAM）与本发明提出的HPP的对比。PCB和PAM旨在改进最后的全局池化来提取行人不同位置的细节特征。前者限制池化区域，后者让模型学习mask来增强细节信息池化的权重。

为直观感受这三种方法，本实验可视化这些方法学习到的特征。PAM的mask是模型生成的，类似姿态估计的heatmap，mask能更精确的定位行人细节，如图3中的（a）所示，然而缺少label监督，mask的质量很难保证，并且mask倾向关注显著特征。PCB采用手工划分池化区域的方法，沿行人垂直方向做细节提取，如图3中的（b）所示，这种方法能很好的保留每个区域的显著特征。相比于PAM而言，PCB损失了精确度，但覆盖内容更全，也更加简单。但这两种方式都作用在模型最后一层，忽略了模型下采样过程中丧失的细节信息。HPP将PCB的方法嵌入到层级式特征框架中来提取下采样前的行人细节，如图3中的（c）所示，HPP几乎能覆盖整个行人，说明本发明提出的HPP能够提取到更加全面的细节特征，即使引入浅层特征会带来一定的背景噪声干扰。

（3）特征中心对比实验。

本实验讨论不同方式计算的特征中心对模型训练的影响。当前主流的方式是计算批量内的特征均值。本实例将FI Loss中的模态特征交集损失和类间特征交集损失计算的中心换成批量均值观察模型表现，即将自然光特征交集损失中的/>替换为自然光图像对应的细节特征的特征均值，将红外特征交集损失/>中的/>替换为红外图像对应的细节特征的特征均值，将替换后的自然光特征交集损失和红外特征交集损失这两者记为，将类间特征交集损失/>中的/>替换为全局细节特征的特征均值，将替换后的类间特征交集损失记为/>。

将本发明的自然光特征交集损失和红外特征交集损失/>，这两者记为/>，构建4组实验组如下：实验组1为/>和/>，实验组2为/>和/>，实验组3为/>和，实验组4为/>和/>，基于SYSU-MM01数据集进行对比实验，实验中将本发明提出的方法中的特征交集损失替换为上述4个实验组中的形式，得到的实验结果如表2所示。

表2 各实验组在SYSU-MM01数据集的运行评价指标

组别	Rank1	Rank10	Rank20	mAP
					实验组1	71.8	95.1	98.1	67.8
实验组2	72.7	95.5	97.3	69.0
					实验组3	72.7	95.3	97.2	69.5
实验组4	73.8	95.5	98.1	70.2

根据表2的数据可以看出，实验组4具有最优的指标，即将批量均值作为特征中心，模型的表现都一定程度的降低，说明本发明采用的特征交集损失能够得到最优的识别结果。分类器权重编码了整个类的特征分布，实验结果也证明了其作为特征中心的优势。

本发明的特征交集损失中引入了分类器权重，且以分类器权重作为特征中心进行损失计算，分类器权重作为特征中心使得度量学习与表征学习更加契合。FI Loss计算方式相同，并且其引入的模态和类间的难样本交集策略是ID Loss很好的补充。为了证明这一优势，本实例以向量的形式可视化了分类器每一类的权重参数。

实验取经典的三元组损失（Triplet）配合ID 损失作为总损失函数（Triplet+ID）进行模型训练，以及取FI Loss和ID损失作为总损失函数（IF+ID）进行模型训练，展示训练后的全局分类器的权重分布如图4所示，图4中的（a）为基于Triplet+ID训练后全局分类器/>的权重分布，图4中的（b）为基于IF+ID训练后全局分类器/>的权重分布。由图4中的（a）和图4中的（b）可以看出，以FI Loss和ID损失作为总损失函数进行模型训练后，分类器权重更加发散，有着良好的类间距离，这充分证明了FI Loss的优势。

为了进一步证明本发明方法在学习判别行人鲁棒特征的有效性，本实例可视化了特征散点图。基于SYSU-MM01数据集，以未经过训练的双流重识别模型、Baseline模型和以本发明方法训练后的双流重识别模型为对象进行实验。实验中对三种模型输入相同的图像，将模型输出的高维特征（例如256维）进行特征降维得到2维特征，并将2为特征直接作为坐标投影至坐标系上，得到如图5所示的特征散点图，图5中的三角形表示基于自然光图像得到的特征散点，图5中的圆形表示基于红外图像得到的特征散点。

图5中的（a）为基于未经过训练的双流重识别模型的输出得到的特征散点图，很明显特征散点分布具有明显的不均性，同一目标两种模态下的特征散点出现明显分界；图5中的（b）为基于Baseline模型的输出得到的特征散点图，图中通过虚直线连接的两个虚线圈为同一目标两种模态下的特征散点，可以看出同类特征分布的间距较远；图5中的（c）为基于以本发明方法训练后的双流重识别模型得到的特征散点图，图中虚线圈内包含了同一目标两种模态下的特征散点。可以看出图5中的（c）将图5中的（b）中间距较远的同类特征基本聚集在一起，即本发明方法在减小类内距离方面有明显的改进，解决了现有的度量学习存在的数据偏见以及与表征学习的不兼容问题。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明的保护范围应以所附权利要求为准。

Claims

1.一种基于特征交集的跨模态行人重识别方法，其特征在于，所述基于特征交集的跨模态行人重识别方法，包括：

步骤6、将一个自然光图像或红外图像作为查询图像，将一个红外图像库或自然光图像库作为目标图像库，将所述查询图像和所述目标图像库中的每一候选图像组成图像对，利用训练后的双流重识别模型以及层级式局部池化模块，针对每一图像对输出细节特征对，度量每一细节特征对的相似度，取相似度递减排序后的前一个或多个细节特征对对应的图像对，所取的图像对中的候选图像作为跨模态行人重识别结果；

其中，所述根据两个分支的细节特征构建特征交集损失，包括：

取细节特征包括局部细节特征和全局细节特征/>，/>，/>为自然光标识，/>为红外标识，/>为融合特征图中均分为多份得到的总份数；

首先构建自然光和红外两种模态下对应的ID损失形式化为：

；

式中，为自然光图像集的ID损失，/>为红外图像集的ID损失，/>为自然光图像集中图像数量，/>为红外图像集中图像数量，/>为自然光分类器/>的参数，/>为红外分类器的参数，/>表示第/>张自然光图像的细节特征/>，/>表示第/>张红外图像的细节特征/>，/>为自然光分类器/>输出的预测概率，为红外分类器/>输出的预测概率，对于类间交集，使用参数为的分类器/>；

然后构建模态特征交集损失形式化为：

；

式中，为自然光特征交集损失，/>为红外特征交集损失，/>为行人类别数，/>为margin值，参数/>，/>和/>均包含/>行，/>表示权重参数/>中的第/>行权重参数，/>表示权重参数/>中的第/>行权重参数，/>表示矩阵转置，/>表示以权重参数/>为中心，根据特征间相似度选择红外图像对应的细节特征距离中心最远的正样本，/>表示以权重参数/>为中心，根据特征间相似度选择红外图像对应的细节特征距离中心最近的负样本，/>表示以权重参数/>为中心，根据特征间相似度选择自然光图像对应的细节特征距离中心最远的正样本，/>表示以权重参数/>为中心，根据特征间相似度选择自然光图像对应的细节特征距离中心最近的负样本；

构建类间特征交集损失形式化为：

；

最终得到特征交集损失形式化为：

；

式中，为特征交集损失。

2.如权利要求1所述的基于特征交集的跨模态行人重识别方法，其特征在于，所述取Resnet-50网络最后三层输出的行人特征图进行融合，包括：

记一个分支中Resnet-50网络最后三层输出的行人特征图为；

将行人特征图直接作为融合特征图/>；

3.如权利要求1所述的基于特征交集的跨模态行人重识别方法，其特征在于，所述将每个分支的融合特征图输入层级式局部池化模块提取行人多尺度的细节特征，包括：

4.如权利要求3所述的基于特征交集的跨模态行人重识别方法，其特征在于，所述对所述细节特征进行语义约束，包括：

；

5.如权利要求1所述的基于特征交集的跨模态行人重识别方法，其特征在于，所述结合语义约束和特征交集损失进行双流重识别模型训练，包括构建总损失函数如下：

；

6.如权利要求1所述的基于特征交集的跨模态行人重识别方法，其特征在于，所述度量每一细节特征对的相似度，包括：