CN112651262B

CN112651262B - 一种基于自适应行人对齐的跨模态行人重识别方法

Info

Publication number: CN112651262B
Application number: CN201910951963.2A
Authority: CN
Inventors: 何小海; 李波; 吴晓红; 刘强; 陈洪刚; 卿粼波; 滕奇志
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2019-10-09
Filing date: 2019-10-09
Publication date: 2022-10-14
Anticipated expiration: 2039-10-09
Also published as: CN112651262A

Abstract

本发明公开了一种基于自适应行人对齐的跨模态行人重识别方法。首先，利用基于残差网络预训练模型ResNet50的多路径网络分别提取红外图像和可见光图像的特征；然后，利用可见光图像的高层特征，线性地回归一组仿射变换参数，用于对可见光图像进行自适应地仿射变换；生成对齐矫正后的图像后，提取其特征并与原可见光图像提取的特征融合，作为可见光图像的最终特征；最后，将红外图像和可见光图像的特征映射到同一个特征空间中，结合身份损失函数和最难批次采样损失函数进行训练，最终达到相较于一般的跨模态行人重识别方法更高的识别精度。本发明主要应用于视频监控智能分析应用系统中，在图像检索，智能安防等领域具有开阔的应用前景。

Description

一种基于自适应行人对齐的跨模态行人重识别方法

技术领域

本发明涉及一种基于自适应行人对齐的跨模态行人重识别方法，以及一种新的网络模型MAPAN(Multipath Adaptive Pedestrian Alignment Network)，涉及视频智能监控领域中的跨模态行人重识别问题，属于计算机视觉与智能信息处理领域。

背景技术

行人重识别(Re-Identification)是计算机视觉领域中的一种技术，旨在匹配不同摄像机监控视频中具有相同身份(通常使用数字代替)的特定行人，通常被认为是图像检索的一个子问题。不同摄像机拍摄的行人图像，由于视角、行人姿态变化、光照变化等原因，可能会造成行人外观上的差异，也可能存在摄像机分辨率低、遮挡等多种挑战。行人重识别在视频监控，智能安防等领域开阔的应用前景，引起了工业界和学术界的广泛关注，使其成为计算机视觉领域一个既很有研究价值又极具挑战性的研究热点。

近年来，传统的行人重识别研究已经取得了巨大的进步，然而，传统的行人重识别都是利用可见光图像来匹配可见光图像，但是，在实际的应用场景中，可见光摄像机在夜晚是完全无法捕捉到清晰的图像的，难以满足视频智能监控系统的全天候视频分析的要求。随着社会和技术的发展，如今大部分的摄像机都配备了红外摄像功能，可以捕获行人夜晚或者白天的红外热像信息，为可见光图像以及红外图像的跨模态行人重识别VT-REID(Visible Thermal Cross-modality Person Re-identification)提供了有利条件。与传统的行人重识别不同，可见光图像及红外图像跨模态行人重识别VT-REID主要解决跨模态图像的匹配，比如，使用红外行人图像搜索跨摄像机设备的可见光图像。

近年来，深度学习方法，尤其是卷积神经网络CNN(Convolutional NeuralNetwork)在计算机视觉等领域取得了巨大成功。传统的特征工程方法经常难以取得同深度学习相当的识别精度，比如局部最大出现特征LOMO(Local Maximal OccurrenceRepresentation)应用于跨模态的行人重识别，就表现出很差的适应性以及识别精度。由于红外图像和可见光图像本身存在的巨大异构数据差异，很多现有的工作几乎都使用深度学习来构建跨模态识别模型，同时均试图通过尽可能地减少异构数据的跨模态差异来提高行人匹配精度。比如，有的工作通过共同优化特定模态和共享模态信息来得到跨模态分层匹配网络模型，或通过结合身份损失和排序损失来提高跨模态行人匹配准确率，或通过生成式对抗网络(GAN,Generative Adversarial Network)来生成一些匹配认证信息从而提高识别精度，或通过同时施加特征层和图像层的限制来提高识别精度等。但是，在图像数据采集过程中，由于摄像机拍摄角度不理想以及图像后处理误差等原因，单模态内的图像间就可能存在着大量的图像错位及不对齐现象，从而造成在单模态的可见光图像内部就可能存在着巨大的差异。因此，在针对跨模态的行人重识别，不仅需要减少异构数据的跨模态差异，同时还应尽可能减小单模态内的图像间由于图像不对齐带来的图像差异，从而提高跨模态行人重识别的精度。

发明内容

本发明提出了一种基于自适应行人对齐的跨模态行人重识别方法，设计了一种多路径输入的网络结构MAPAN(Multipath Adaptive Pedestrian Alignment Network)，分别采用一个批次数量的可见光图像和一个批次的红外图像作为输入。在标签信息的监督下，利用神经网络的自我学习能力，对错位严重的可见光图像进行自适应的对齐矫正，从而达到提高跨模态行人重识别精度的目的。

本发明通过以下技术方案来实现上述目的：

(1)多路径输入的网络结构MAPAN包含红外图像路径，可见光基础分支以及可见光仿射变换分支，利用红外图像分支，可见光基础分支分别提取红外图像Z的特征φ(Z)和可见光图像X的特征φ(X)；

(2)利用可见光路径提取的高层特征线性回归一组仿射变换参数A_θ，并生成图像变换网格，再通过双线性采样生成对齐矫正后的图像X′；

(3)通过仿射变换路径中的残差网络对矫正图像X′提取特征后φ′(X′)，将其与原可见光路径提取的特征融合，作为可见光图像的最终特征通过仿射变换分支中的残差网络对矫正图像X′提取特征φ′(X′)后，将其与原可见光分支提取的特征φ(X)通过加权相加的方式融合，即将λφ(X)+(1-λ)φ′(X′)整体作为可见光图像的最终特征，再与红外图像Z的特征φ(Z)进行度量学习；

(4)将红外图像的特征φ(Z)和可见光图像的特征λφ(X)+(1-λ)φ′(X′)映射到同一个特征空间中，结合身份损失和最难批次采样损失进行训练，最终提高跨模态行人重识别精度。

附图说明

图1一种基于自适应行人对齐的跨模态行人重识别方法；

具体实施方式

下面结合附图对本发明作进一步说明：

MAPAN模型网络结构和原理具体如下：

该网络模型框架以端到端的方式学习特征表示和距离度量，同时保持较高的可分辨性。它主要由两部分组成：用于特征提取的多径网络和用于特征嵌入的全连接层。具体来说，多径网络由三个分支组成：可见光仿射变换分支、可见光基础分支和红外图像分支，它们都不共享权值。可见光基础分支与红外图像分支结构相同，均使用残差网络ResNet50作为预训练模型，其包括5个下采样块和1个平均池化层。可见光仿射变换分支由网格网络、双线性采样器和残差网络ResNet50组成。所有输出特征向量的长度为2048。可见光仿射变换分支由双线性采样器、网格网络和具有与可见光基础分支相同结构的残差网络组成。网格网络包含一个平均池化层和两个全连接层。可见光仿射变换分支有两个输入张量，它们都来自可见光基础分支，一个是输入的可见光图像，另一个是从可见光基础分支中提取的第五残差块特征，形状为2048×9×5。

红外图像分支和可见光基础分支输入分别是三通道红外图像和可见光图像，高度和宽度分别为288和144。假设使用X(Z)表示可见光图像(红外图像)。在红外图像分支中，为红外图像Z提取的特征用φ(Z)表示，由可见光基础分支和可见光仿射变换分支提取的特征分别用φ(X)和φ′(X′)表示，其中X′表示可见光仿射变换分支中对X仿射变换获得的矫正图像。

高级特征图包含原始图像的低级特征图，并反映局部模式信息，从而可见光基础分支的高层响应注意力大部分集中在行人身上，且通常输入的可见光图像中存在较多的错位现象，因此，将可见光基础分支的第五残差块的特征图输入到网格网络中，回归出一组6维的变换参数A_θ，用于仿射变换对输入可见光行人图像进行对齐。具体地说，学习的转换参数A_θ用于生成双线性采样器的图像网格，从目标图像到源图像的坐标转换过程被定义为：

其中，

是变换图像的规则网格中的第k个目标坐标，

是输入图像中采样点的源坐标，A_θ是仿射变换矩阵，其中θ₁₁，θ₁₂，θ₂₁和θ₂₂主要控制转换图像的大小和旋转变化，而θ₁₃和θ₂₃控制转换图像的偏移。注意，坐标映射是从目标图像映射到输入图像的。由于转换矩阵A_θ包含连续可导的小数，并且目标坐标

是离散的，所以源坐标

是连续变化的。因此，当通过公式(1)建立目标坐标和源坐标之间的对应关系时，就需要某种采样策略来获取转换后的图像。在这里，本发明使用常用的双线性采样，那么采样器的输入图像X和输出图像X′之间的对应关系为:

其中,X_i′_j表示目标图像中每个通道中坐标(i,j)位置的像素值，X_nm表示源图像中每个通道中(n,m)坐标处的像素值，H和W表示目标图像(或源图像)的高度和宽度。双线性采样是连续可导的，因此上述方程式连续可导，并允许损失梯度反向传播，从而实现自适应行人对齐。关于X_nm和

的偏导数分别为：

显然，X′_ij对

的偏导数

完全类似于X′_i,j对

的偏导数

通过上述仿射变换过程获得X_i′_j之后，我们通过仿射变换分支的残差网络提取特征，从而获得矫正图像的特征φ′(X′)。

通过以上三个分支，可以得到前述特征φ(Z)，φ(X)，φ′(X′)。由于φ(X)和φ′(X′)都是对X提取的特征，为了充分利用这两种特征，本发明选择通过加权相加的方式融合φ(X)和φ′(X′)，即将λφ(X)+(1-λ)φ′(X′)整体作为对X提取的最终特征，其中λ是范围从0到1预定义权衡参数，以平衡两个特征的贡献。因此，后面仅考虑输入红外图像特征φ(Z)和输入可见光图像融合特征λφ(X)+(1-λ)φ′(X′)的距离度量学习。

由于跨模态图像检索任务实质上是将不同模态的可见光图像与红外图像匹配，因此有必要将可见光图像和红外图像的特征映射到同一特征空间，以减少红外图像和可见光图像之间的交叉模态差异。本发明将φ(Z)和λφ(X)+(1-λ)φ′(X′)通过同一个嵌套函数f_θ(本质上为一个全连接层，假设其参数为θ)映射到一个相同的特征空间，以获得嵌套特征f_θ(φ(Z))和f_θ(λφ(X)+(1-λ)φ′(X′))。为了简洁，将f_θ(φ(Z))和f_θ(λφ(X)+(1-λ)φ′(X′))简写为f_θ(Z)和f_θ(X)。

本发明使用常规的交叉熵损失来预测行人身份。对输入图片每个批次的采样策略是，在每个批次中，对于包含N个身份(ID)的数据集，首先随机选择P个身份，对于每个行人身份，然后随机抽取K个可见光行人图像和K个红外行人图像，从而将2×P×K张行人图像送进网络中训练。

特征嵌套层中的全连接层f_θ(·)和f_β(·)分别输出长度为512的一维特征向量f_θ(X)，f_θ(Z)和长度为N的一维特征向量f_β(f_θ(Z))，f_β(f_θ(X))。为了简洁表示，使用

来表示一个可见光图像批次X中的第i个人(即身份为i)的第j张图像，对于红外图像批次Z也是如此表示。

假设

和

然后

和

则分别代表输入行人

和

的身份预测概率。例如，

表示预测输入可见光图像

的身份为k的概率。使用

和

表示真实身份为i的输入图像

的标注信息，也即

和

那么一个批次中基于交叉熵损失的身份损失函数定义为：

Loss_ID(θ；X,Z)仅仅考虑了每个输入样本的身份，并未强调成对输入的样本是否属于同一身份。为了进一步减轻红外图像和可见光图像之间的跨模态差异，考虑使用单批次最难三元组采样损失函数。其核心思想是，对于一个批次中的每个红外图像样本

可以在该批次中的可见光图像中，搜索身份ID与

相同的“最难”的正样本

所谓“最难”，指的是

在该嵌套特征空间中，在该批次中的所有身份与

相同的可见光图像中，在特征空间中与

的距离最远。同理，对于

也可以在该批次的所有可见光图像中，搜索身份ID与

不同的“最难”的负样本

即

在该批次中的所有身份与

不同的可见光图像中，在特征空间中距离

最近。由于是单批次“最难”采样，因此称其为批次最难三元组损失：

其中,margin是预定义的正阈值，用于控制正负样本特征之间的最小距离，此处设置margin＝1.2，D(·)表示欧氏距离度量。最终，总损失函数定义为：

Loss＝Loss_ID+αLoss_BH (7)

其中α是预定义的加权参数，用于平衡身份损失Loss_ID和三元组损失Loss_BH的贡献。

本发明在SYSU-MM01数据集和RegDB数据集上进行了网络结构消融研究，其中Baseline表示基准网络，v-AT表示仅仅对可见光图像X进行仿射变换矫正且仅使用身份损失(Loss_ID)，t-AT表示仅对红外图像Z进行仿射变换矫正且仅使用身份损失(Loss_ID)，v-AT+t-AT表示同时对可见光图像X和红外图像Z进行仿射变换矫正且仅使用身份损失(Loss_ID)，v-AT+triplet表示仅仅对可见光图像X进行仿射变换矫正且使用身份损失(Loss_ID)和最难三元组损失(Loss_BH)，即本发明的网络结构MAPAN(Multipath Adaptive PedestrianAlignment Network)。另外还和一些主流算法进行了比较，使用单一查询设置进行评估，并使用Rank-k精度(k＝1、5、10)和平均匹配精度(mAP)作为评价指标。实验结果如表1，表2和表3所示，实验精度相比于基准网络和其他对比算法均有较大提高。

表1网络结构消融研究

表2 RegDB数据集上与主流算法结果对比

表3 SYSU-MM01数据集上与主流算法结果对比

Claims

1.一种基于自适应行人对齐的跨模态行人重识别方法，其特征在于以下步骤：

(1)分别使用红外图像分支，可见光基础分支中的残差网络模型提取红外图像Z的特征φ(Z)和可见光图像X的特征φ(X)；

(2)利用可见光分支中提取的高层特征，在网格网络中线性回归一组仿射变换参数A_θ，并生成图像变换网格，再通过双线性采样生成对齐矫正后的图像X′；

(3)通过仿射变换分支中的残差网络对矫正图像X′提取特征φ′(X′)后，将其与原可见光分支提取的特征φ(X)通过加权相加的方式融合，即将λφ(X)+(1-λ)φ′(X′)整体作为可见光图像的最终特征，其中λ是0到1区间的预定义权衡参数，以平衡两个特征的贡献，因此，仅考虑输入红外图像特征φ(Z)和输入可见光图像融合特征λφ(X)+(1-λ)φ′(X′)之间的距离度量；

(4)为减少红外图像和可见光图像之间的交叉模态差异，通过同一个嵌套函数f_θ将可见光图像特征λφ(X)+(1-λ)φ′(X′)和红外图像特征φ(Z)和映射到同一特征空间，以获得嵌套特征f_θ(φ(Z))和f_θ(λφ(X)+(1-λ)φ′(X′))，简写为f_θ(Z)和f_θ(X)；特征嵌套层中的全连接层f_θ(·)和f_β(·)分别输出长度为512的一维特征向量f_θ(X)，f_θ(Z)和长度为N的一维特征向量f_β(f_θ(X))，f_β(f_θ(Z))；使用

来表示一个可见光图像批次X中的第i个人的第j张图像，对于一个批次的红外图像Z也是如此表示；

和

分别代表输入行人

和

的身份预测概率，其中，

使用

和

表示真实身份为i的输入图像

和真实身份为i的输入图像

的标注信息；

和

一个批次中使用交叉熵损失预测身份的身份损失函数定义为：

Loss_ID(θ；X，Z)仅仅考虑了每个输入样本的身份，并未强调成对输入的样本是否属于同一身份；为了进一步缓解红外图像和可见光图像之间的跨模态差异，使用单批次最难三元组采样损失函数，其核心思想是，对于一个批次中的每个红外图像样本

在该批次中的可见光图像中，搜索身份ID与

相同的“最难”的正样本

所谓“最难”，指的是

在该特征空间中，在该批次中的所有身份与

相同的可见光图像中，在特征空间中与

的距离最远；对于

在该批次的所有可见光图像中，搜索身份ID与

不同的“最难”的负样本

即

在该批次中的所有身份与

不同的可见光图像中，在特征空间中距离

最近；由于是单批次“最难”采样，因此将其称为最难三元组采样损失函数：

其中，margin是预定义的正阈值，用于控制正负样本特征之间的最小距离，此处设置margin＝2；D(.)表示欧氏距离度量；最终，总损失函数定义为：

Loss＝Loss_ID+αLoss_BH (3)

其中α为预定义参数，用于平衡身份损失Loss_ID和三元组损失Loss_BH的贡献。

2.根据权利要求1所述的方法，其特征在于步骤(1)中多路径网络对输入图片每个批次的采样策略是，在每个批次中，对于包含N个身份(ID)的数据集，首先随机选择P个身份，对于每个行人身份，随机获取K张可见光行人图像和K张红外行人图像，从而将2×P×K张行人图像送进网络中训练；多路径网络各分支分别提取红外图像Z和可见光图像X的深层次特征，分别使用φ(Z)和φ(X)表示；所有输出特征向量的长度为2048。

3.根据权利要求1所述的方法，其特征在于步骤(2)中利用可见光基础分支提取的高层特征线性回归出一组仿射变换参数A_θ，然后通过下式建立仿射变换前后图像的坐标对应关系：