CN114627500A

CN114627500A - 一种基于卷积神经网络的跨模态行人重识别方法

Info

Publication number: CN114627500A
Application number: CN202210230686.8A
Authority: CN
Inventors: 产思贤; 崔嘉敖; 李伟帅; 杜锋; 陶健; 赖周年
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2022-03-10
Filing date: 2022-03-10
Publication date: 2022-06-14

Abstract

本发明公开了一种基于神经网络的跨模态行人重识别方法，获取带有身份标注的跨模态训练数据集，所述训练数据集中每个训练样本包括一个身份对应的红外线模态图像和日光模态图像，将训练样本输入到基于Resnet‑50构建的网络模型中，通过分支网络获得多尺度的图像特征，并在其上计算模态间的特征对应关系，充分挖掘不同尺度的模态共有特征。构建联合损失函数筛选模态共有特征中具有身份区别性的特征。本发明将全局和局部特征联合作为行人的表征，在跨模态行人重识别任务取得了良好的效果。

Description

一种基于卷积神经网络的跨模态行人重识别方法

技术领域

本申请属于图像处理技术领域，尤其涉及一种基于卷积神经网络的跨模态行人重识别方法。

背景技术

ReID是图像检索的一类基本问题，它的目的是将查询集(query)中的目标图像匹配到由不同相机捕获的gallery集中的图像。这是一个挑战，由于变化的拍摄视角，目标形态，光照和背景。目前大多数存在的方法都聚焦在可见光相机捕获的目标ReID问题，即单一模态ReID问题。然而，在某些照明不足的场景下(如黑夜，暗光室内)，我们需要借助红外线摄像头拍摄行人图像。因此，在这种跨模态设置下，ReID问题变得极具挑战性，这本质上是一个跨模态检索问题。

跨模态行人重识别，主流的技术方案有通过特征对齐来弥合RGB和 IR图像之间的差距的特征学习方法和通过生成对抗网络来消除模态差异或特征解缠的方法。特征学习的主流算法如Two-stream系列，通过网络在双流网络上附加一些操作直接学习特征，算法精度较高，速度快，但当行人外观改变较大时，对细节捕获能力不强。生成对抗网络的方法旨在利用网络直接生成另一模态图像或接缠模态无关特征，但由于大量模态相关特征的存在，导致图像生成的质量并不高，且花费时间巨大。

发明内容

本申请的目的是提供一种基于卷积神经网络的跨模态行人重识别方法，在现有技术方案中引入多尺度特征对应模块，克服了当行人姿态变化大时发现模态间对应细节的问题。

为了实现上述目的，本申请技术方案如下：

一种基于卷积神经网络的跨模态行人重识别方法，包括：

获取带有身份标注的跨模态训练数据集，所述训练数据集中每个训练样本包括一个身份对应的红外线模态图像和日光模态图像；

将训练样本输入到基于Resnet-50构建的网络模型中，将所述Resnet- 50第三个残差层中第一个残差快输出的特征图记为F₃，所述特征图F₃送入3个分支分别进行处理，得到特征图f_g、f_l1、f_l2、f_l3、f_l4、f_l5，包括：

第一分支包括Resnet-50第三个残差层剩余的残差块和第四个残差层，提取出全局特征图f_g；

第二分支包括Resnet-50第三个残差层剩余的残差块和第四个残差层，通过垂直均匀切片得到局部特征图f_l1、f_l2；

第三分支包括Resnet-50第三个残差层剩余的残差块和第四个残差层，通过垂直均匀切片得到局部特征图f_l3、f_l4、f_l5；

分别计算红外线模态和日光模态特征图F₃、f_l1、f_l2、f_l3、f_l4、f_l5之间的特征对应关系；

对红外线模态和日光模态特征图F₃、f_l1、f_l2、f_l3、f_l4、f_l5进行特征重建，得到重建特征图

构建联合损失函数，根据红外线模态和日光模态特征图f_g、F₃、f_l1、 f_l2、f_l3、f_l4、f_l5以及重建特征图

计算联合损失，进行反向传播，更新网络模型的网络参数；

采用训练好的网络模型提取查询图像的特征，与数据库中图像的特征进行比对，识别出查询图像中行人的身份。

进一步的，所述第一分支的第四个残差层带有下采样。

进一步的，所述计算红外线模态和日光模态特征图F₃、f_l1、f_l2、f_l3、 f_l4、f_l5之间的特征对应关系，计算公式如下：

C(i，j)＝f_RGB(i)^T·f_IR(j)

其中，f_RGB(i)和f_IR(j)分别表示日光模态特征图和红外线模态特征图位置特征向量，i表示日光模态特征图i位置，j表示红外线模态特征图j 位置，C(i,j)表示位置特征对应关系。

进一步的，所述对红外线模态和日光模态特征图F₃、f_l1、f_l2、f_l3、 f_l4、f_l5进行特征重建，得到重建特征图，重建公式如下：

M_RGB(i)＝|f_RGB(i)|

M_IR(j)＝|f_IR(j)|

其中，f_RGB(i)和f_IR(j)分别表示日光模态特征图和红外线模态特征图位置特征向量，i表示日光模态特征图i位置，j表示红外线模态特征图j 位置，M_RGB表示日光模态特征图上所有位置的响应强度，MIN表示取最小值，MAX表示取最大值，M_IR表示红外线模态特征图上所有位置的响应强度，M_RGB(i)表示日光模态特征图上i位置的响应强度，M_IR(j)表示红外线模态特征图上j位置的响应强度，

表示重建后的日光模态特征图 i位置特征向量，

表示重建后的红外线模态特征图j位置特征向量。

进一步的，所述联合损失函数公式如下：

其中，

表示身份损失函数，

表示三元组损失函数，所述身份损失函数

和三元组损失函数

分别对全局特征计算损失，所述全局特征通过对全局特征图f_g进行GeM池化和全连接降维操作得到；

所述

表示SmoothAP损失函数，所述SmoothAP损失函数

分别对局部特征和局部重建特征计算损失，所述局部特征通过对局部特征图 f_l1、f_l2、f_l3、f_l4、f_l5进行GeM池化和全连接降维操作得到，所述局部重建特征通过对局部重建特征

进行GeM池化和全连接降维操作得到；

所述

表示密集三元组损失函数，所述密集三元组损失函数

分别对重建特征图

计算损失。

本申请提出的一种基于卷积神经网络的跨模态行人重识别方法，首先多尺度特征提取可使网络关注到行人的细节信息，克服卷积下采样带来的信息丢失。其次，特征对应操作可以缓解模态差异，以及行人姿势变化带来的特征不对齐问题。最后，提出的联合损失函数对不同层次的特征施加合适的约束，使得网络发现有区别性的模态共有特征。本申请技术方案提高了行人识别效果。

附图说明

图1为本申请基于卷积神经网络的跨模态行人重识别方法流程图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

本申请提出的一种基于卷积神经网络的跨模态行人重识别方法，具体而言，首先提取全局和局部特征图，然后分别在全局和局部水平上计算特征对应关系。最后，引入一个联合损失函数，对不同层次的特征用不同的损失函数进行训练，指导网络在所提取的模态共有特征中保留具有身份信息的特征。

在一个实施例中，如图1所示，一种基于卷积神经网络的跨模态行人重识别方法，包括：

步骤S1、获取带有身份标注的跨模态训练数据集，所述训练数据集中每个训练样本包括一个身份对应红外线模态图像和日光模态图像。

训练神经网络，首先需要获取训练数据集。本实施例读取带有身份标注的训练数据集，并按照图像中行人的身份随机取样划分批次，例如每个批次包含8个身份。本实施例每个训练样本包括一个身份的4张日光模态图像(RGB图像)和4张红外线图像(IR图像)。

步骤S2、将训练样本输入到基于Resnet-50构建的网络模型中，将所述Resnet-50第三个残差层中第一个残差快输出的特征图记为F₃，所述特征图F₃送入3个分支分别进行处理，得到特征图f_g、f_l1、f_l2、f_l3、f_l4、 f_l5。

本步骤用于获取多尺度特征图，主干网络采用双流Resnet50， ResNet50模型主要由一个浅层卷积块layer0和四个残差卷积层layer1、layer2、layer3和layer4组成。在layer0中，网络的参数针对每个模态是特定的，其后的所有模块共享参数。

layer1、layer2和layer 3的第一个残差块作为主干提取出特征F₃，从它向后延伸出三个分支。

第三分支包括Resnet-50第三个残差层剩余的残差块和第四个残差层，通过垂直均匀切片得到局部特征图f_l3、f_l4、f_l5。

具体的，第一个分支用来提取全局特征图，它由layer3的后三块和带有下采样的layer4组成。第二和第三分支的网络结构与第一个相同，唯一的不同是采用不带下采样的layer4，以此来保留细节，方便局部特征图的提取。第二和第三分支的输出的特征图分别沿竖直方向做二等分和三等分得到局部特征图f_l1,f_l2,f_l3,f_l4,f_l5。本申请采用分支提取不同水平的特征，利于发现不同尺寸特征的对应关系。

需要说明的是，上述操作对于红外线模态图像和日光模态图像分别进行操作，得到不同模态下的全局特征图和局部特征图。

为了便于后续步骤计算损失函数，本申请对于全局特征图和局部特征图，还分别做GeM池化操作(generalized-mean pooling)和降维操作，将特征图转化为特征向量。

对于全局特征图，在layer4后，本申请没有采用常用的最大池化，而是利用GeM池化(generalized-mean pooling)将输出转化为一维的特征向量，并在其后面采用全连接层降维到256以便于局部特征连接。最后对局部特征图做同样的池化和降维操作得到局部特征向量。

步骤S3、分别计算红外线模态和日光模态特征图F₃、f_l1、f_l2、f_l3、 f_l4、f_l5之间的特征对应关系。

本步骤对多尺度特征图F₃、f_l1、f_l2、f_l3、f_l4、f_l5计算特征对应关系，本质上特征对应也是一个寻找目标对象在不同图像中共有特征的问题，这也正是跨模态行人重识别的主要问题。

可以建立在两模态之间行人的特征对应来解决行人外表变化和模态间差异的问题。在训练阶段，通过寻找模态间的特征对应关系让网络学习会发现共有特征。

本实施例中，用特征余弦相似度来代表特征相似性，令f_IR∈R^c×h×w和f_RGB∈R^c×h×w分别代表IR和RGB图像的特征图。每个位置特征向量由f_RGB/IR(i)∈R^c表示，计算模态间的特征对应关系C∈R^hw×hw，公式如下：

C(i，j)＝f_RGB(i)^T·f_IR(j)

其中，f_RGB(i)和f_IR(j)分别表示日光模态特征图和红外线模态特征图位置特征向量，i表示日光模态特征图i位置，j表示红外线模态特征图j 位置，C(i,j)表示位置特征对应关系。所有C(i,j)共同组成模态间的特征对应关系C。

采用上述公式分别计算出红外线模态和日光模态特征图F₃之间的特征关系，红外线模态和日光模态特征图f_l1之间的特征关系，红外线模态和日光模态特征图f_l2之间的特征关系，红外线模态和日光模态特征图f_l3之间的特征关系，红外线模态和日光模态特征图f_l4之间的特征关系，以及红外线模态和日光模态特征图f_l5之间的特征关系。

根据上述公式，对同一身份的一对跨模态图像特征F₃计算全局特征相似度，发现显著特征的对应。对同一身份的f_l1～f_l5计算局部特征相似度，发现细节的特征的对应。对多尺度特征图F₃，f_l1,f_l2,f_l3,f_l4,f_l5分别计算特征的对应关系，以此来捕捉不同尺寸的模态共有特征。

步骤S4、对红外线模态和日光模态特征图F₃、f_l1、f_l2、f_l3、f_l4、f_l5进行特征重建，得到重建特征图

参考生成对抗网络中根据重建图的质量来指导网络学习的方式，本实施例也根据特征对应关系重建特征图，根据重建质量指导网络发现特征对应。由于背景等模态有关信息的存在，直接还原特征必定会收到影响。所以采用mask来过滤掉模态有关信息。以RGB图像为例，假定重识别任务中，有用的模态无关信息的相应要大于模态有关信息。所以用每个位置特征向量f_RGB(i)∈R^c的模作为响应强度，公式如下:

M_RGB(i)＝|f_RGB(i)|

上述公式用Mask过滤模态相关信息，RGB图像特征图的特征重建公式为：

同理，还可以得到红外线模态图像的重建公式：

M_IR(j)＝|f_IR(j)|

表示重建后的日光模态特征图 i位置特征向量，

表示重建后的红外线模态特征图j位置特征向量。

需要说明的是，本实施例采用上述公式对特征图F₃、f_l1、f₂、f_l3、 f_l4、f_l5进行特征重建，得到重建特征图

多尺度的特征对应使得网络关注到模态共有细节特征，在行人姿态发生变化时，依然能保持好的重识别效果。

步骤S5、构建联合损失函数，根据红外线模态和日光模态特征图f_g、 F₃、f_l1、f_l2、f_l3、f_l4、f_l5以及重建特征图

计算联合损失，进行反向传播，更新网络模型的网络参数。

本实施例构建了一个联合损失函数，包括提升网络重建特征图的质量和在模态无关特征中寻找身份区别特征。它由身份损失函数(ID loss)、三元组损失函数(Tripletloss)、SmoothAP损失函数(SmoothAP loss)和密集三元组损失函数(Dense tripletloss)

四种损失函数组成。将他们按不同的权重相加得到最终的目标函数，公式如下：

下面，详细描述每一项损失，这些损失函数都是本领域比较成熟的技术，本申请采用了这些损失函数，关于损失函数如何应用到本申请中进行特定的计算，这里不再赘述。

表示身份损失函数，

表示三元组损失函数，所述身份损失函数

和三元组损失函数

分别对全局特征计算损失，所述全局特征通过对全局特征图f_g进行GeM池化和全连接降维操作得到。

身份损失函数ID loss在行人重识别任务中，可以学习有区别性的特征，同时缩小类内距离，往往考虑采用多分类任务中ID Loss进行训练。 ID loss公式为：

上述身份损失函数对全局特征f_i进行计算，全局特征fi通过对全局特征图f_g进行GeM池化和全连接降维操作得到，其对应的标签为y_i。将全局特征fi输入到分类器中进行分类识别，C为行人身份个数，也即分类器分类的类别总数。w_k表示分类器第k类的权重，N为批量大小，

表示第y_i类的权重，公式中T表示转置。ID loss可以在训练中使同一类的特征快速相似，完成一个基本的聚类工作，但对于模态差异而言，过分追求特征对ID的表征能力，可能会引导网络关注到特定于目标但缺乏模态普适性的信息，如行人衣服颜色，姿势等。因此，本申请不采用重识别常用的对全局和局部变量都施加ID loss的设置，仅在第一个分支降维得到的一个全局特征中施加ID loss。这样可以引导网络进行一个较粗的ID聚类，但不必过分追究能表征ID的细节信息。

三元组损失函数Triplet loss通过阈值限制样本于正负样本间的相对距离来达到拉近类内距离，拉远类间距离的目的。它与ID loss的组合在行人ReID任务取得了不错的效果。三元组损失函数公式如下：

具体的，一个输入的三元组(Triplet)包括一对正样本对和一对负样本对，三张图片分别命名为固定图片(Anchor)a，正样本图片(Positive)p和负样本图片(Negative)n。图片a和图片p为一对正样本对，图片a和图片n为一对负样本对。

分别代表anthor、positive和 negative样本的特征，难样本挖掘的三元组即限制距离最远的正类样本与距离最近的正负样本间的相对距离。P代表批量中类的个数，k代表批量中每一个类图像的个数。难样本挖掘三重损失增强了度量学习的鲁棒性，同时进一步提高了性能。需要说明的是，公式中所计算的特征也是通过对全局特征图f_g进行GeM池化和全连接降维操作得到。

本实施例中所述

表示SmoothAP损失函数，所述SmoothAP损失函数

分别对局部特征和局部重建特征计算损失，所述局部特征通过对局部特征图f_l1、f_l2、f_l3、f_l4、f_l5进行GeM池化和全连接降维操作得到，所述局部重建特征通过对局部重建特征

进行GeM 池化和全连接降维操作得到。

mAP是ReID任务中常用的评价指标，但由于其计算过程中涉及到离散的排序函数，这导致其不能作为一个目标函数指导网络学习。SmoothAP 通过sigmoid函数来光滑查询图像查找的排序过程，来近似AP的计算。具体而言，AP的计算公式如下:

S_P表示实例i同类的样本(正类，与查询图像属于同一类的图像)，S_Ω 表示所有样本，R(i,S_P)表示实例i在S_P中的排名，R(i,S_Ω)代表实例i在所有图像中的排名。|S_p|代表正类图像数量。将排名函数展开：

I{·}表示指示函数，D_ij表示查询图像分别于实例j、i的相似度之差。用余弦距离表示相似度，若D_ij>0则，表示实例j更接近查询图像。显而易见，分子、分母分别代表了实例i在正类和所有图像中的相似度排序。由于指示函数I{·}不可导，所以用sigmoid函数来近似指示函数。公式如下：

τ控制sigmoid近似指示函数的精度，τ越低还原程度越好。AP的近似公式为：

为了与其他的损失函数保持一致，将1-AP作为最终的目标函数：

N为批量。与对比损失、三元组损失等基于度量的损失函数不同， SmoothAP能直接衡量排序的质量。本申请用SmoothAP函数来训练二三分支得到的局部特征和跨模态还原后得到的局部特征，使网络在关注两模态间共有的区别性特征。

ID Loss和Triplet Loss用来在前期缩小类内距离，扩大类间距离， SmoothAPLoss通过约束局部特征筛选保留那些有区别性的细节特征。

本实施例所述

表示密集三元组损失函数，所述密集三元组损失函数

分别对重建特征图

计算损失。

为了解决因环境或姿势导致的特征遮挡的问题，采用密集三元组损失函数。它首先计算模态共有mask来过滤被遮挡的特征。然后以特征图的 L2距离作为度量，计算三元组损失函数。这有助于网络学习有区别能力的共有特征。以IR-to-RGB为例，共有mask计算公式为:

令原图的特征图

为anchor，同类的红外线特征图还原的RGB特征图

为positive，不同类的红外线特征图还原的RGB特征图

为 negative。密集三元组损失函数公式为：

d⁺(i)，d^-(i)分别代表anchor与positive和negative特征图的L2距离，α为margin值。

本实施例用联合损失函数训练网络，将训练样本按照批次进行训练，每个批次计算联合损失，进行反向传播，更新网络模型的网络参数。循环训练样本80次，得到最终网络模型。

步骤S6、采用训练好的网络模型提取查询图像的特征，与数据库中图像的特征进行比对，识别出查询图像中行人的身份。

训练好的网络模型对查询图像(query)和数据库中图像(gallery)中每幅图像进行特征提取，将提取到的多尺度特征图f_g、f_l1、f_l2、f_l3、f_l4、 f_l5经GeM池化与降维后，沿通道维连接，作为行人最后特征。以特征间的欧氏距离作为特征相似度度量，计算query中图像的特征与gallery中图像的特征的相似度，并按相似度排序得到重识别结果。

以上所述实施例仅表达了本申请的实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于卷积神经网络的跨模态行人重识别方法，其特征在于，所述基于卷积神经网络的跨模态行人重识别方法，包括：

将训练样本输入到基于Resnet-50构建的网络模型中，将所述Resnet-50第三个残差层中第一个残差快输出的特征图记为F₃，所述特征图F₃送入3个分支分别进行处理，得到特征图f_g、f_l1、f_l2、f_l3、f_l4、f_l5，包括：

构建联合损失函数，根据红外线模态和日光模态特征图f_g、F₃、f_l1、f_l2、f_l3、f_l4、f_l5以及重建特征图

计算联合损失，进行反向传播，更新网络模型的网络参数；

2.根据权利要求1所述的基于卷积神经网络的跨模态行人重识别方法，其特征在于，所述第一分支的第四个残差层带有下采样。

3.根据权利要求1所述的基于卷积神经网络的跨模态行人重识别方法，其特征在于，所述计算红外线模态和日光模态特征图F₃、f_l1、f_l2、f_l3、f_l4、f_l5之间的特征对应关系，计算公式如下：

C(i，j)＝f_RGB(i)^T·f_IR(j)

其中，f_RGB(i)和f_IR(j)分别表示日光模态特征图和红外线模态特征图位置特征向量，i表示日光模态特征图i位置，j表示红外线模态特征图j位置，C(i，j)表示位置特征对应关系。

4.根据权利要求1所述的基于卷积神经网络的跨模态行人重识别方法，其特征在于，所述对红外线模态和日光模态特征图F₃、f_l1、f_l2、f_l3、f_l4、f_l5进行特征重建，得到重建特征图，重建公式如下：

M_RGB(i)＝|f_RGB(i)|

M_IR(j)＝|f_IR(j)|

其中，f_RGB(i)和f_IR(j)分别表示日光模态特征图和红外线模态特征图位置特征向量，i表示日光模态特征图i位置，j表示红外线模态特征图j位置，M_RGB表示日光模态特征图上所有位置的响应强度，MIN表示取最小值，MAX表示取最大值，M_IR表示红外线模态特征图上所有位置的响应强度，M_RGB(i)表示日光模态特征图上i位置的响应强度，M_IR(j)表示红外线模态特征图上j位置的响应强度，