CN116030495A

CN116030495A - 基于倍率学习的低分辨率行人重识别算法

Info

Publication number: CN116030495A
Application number: CN202211615584.4A
Authority: CN
Inventors: 王奕丹; 李豪杰; 王智慧; 林林
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2022-12-15
Filing date: 2022-12-15
Publication date: 2023-04-28

Abstract

本发明属于计算机视觉领域，提供了一种基于倍率学习的低分辨率行人重识别算法，提出了一种新的非端到端倍率自适应融合与判别性特征回归网络模型，该模型学习恢复不同倍率低分辨率行人图像，并能够提取行人判别性信息进行图像检索。具体而言，设计了一个多任务超分识别学习网络，包含一个倍率自适应超分子网络和一个蒸馏识别子网络。倍率自适应超分子网络通过轮廓信息和细节信息自适应融合，能够针对不同倍率的低分辨率图像进行像素信息恢复，减少行人图像中的噪声干扰。蒸馏识别子网络具有识别损失和特征结构损失同步引导网络对行人判别性特征的提取。大量实验表明，本发明所提出的RAMN模型在准确性和效率方面均达到了最新水平。

Description

基于倍率学习的低分辨率行人重识别算法

技术领域

本发明属于计算机视觉技术领域，以提高低分辨率行人图像识别准确性为出发点，提出基于倍率学习的低分辨率行人重识别算法。

背景技术

行人重识别，旨在将同一个人的图像在多个摄像头中进行匹配，它被广泛应用于刑事侦查、智能安防、目标寻人、计算取证等多种领域场景。近年来行人重识别领域借助深度学习强大的表征能力取得了很大进展。但其中大部分方法只使用高分辨率图像作为输入，通过提取鲁棒的行人特征来匹配同身份的行人。在复杂的场景下，由于拍摄角度，相机参数，背景杂波等因素干扰，图像分辨率通常较低且倍率不一致，这对最终的检索精度势必会产生干扰。

当前基于深度学习的行人重识别算法发展迅速，研究者们提出很多鲁棒的、更具辨识度的判别性特征提取方法来解决行人重识别问题中特征提取难点问题。ABD-Net(ChenT,Ding S,Xie J,et al.Abd-net:Attentive but diverse person re-identification.ICCV,2019)通过整合通道注意和空间注意机制，同时引入SVDO正则化项，降低网络不同特征间耦合性，提高网络全局多样性特征表示能力。PCB(Sun Y,Zheng L,Yang Y,et al.Beyond part models:Person retrieval with refined part pooling(and a strong convolutional baseline).ECCV,2018)通过对特征图水平切块的方式，引导网络关注行人各局部区域特征表示。Spindle Net(Zhao H,Tian M,Sun S,etal.Spindle net:Person re-identification with human body region guided featuredecomposition and fusion.IEEE,2017)引入语义信息提取模块，利用姿态估计方式精准对齐人体部件的局部特征。PFD(Wang T,Liu H,Song P,et al.Pose-guided featuredisentangling for occluded person re-identification based ontransformer.AAAI,2022)提出基于transform的姿态引导特征分离方法，通过显式匹配行人可见身体部位信息，来消除遮挡噪声的干扰。然而，这些研究的重点是如何产生更准确的行人特征表示，而忽略了实际场景中采集到的行人图像分辨率不匹配问题。

针对分辨率不匹配问题，主要有两大研究方向:一是设计超分与识别多任务学习框架，恢复模糊图像细节信息后进行识别。PRI(Han K,Huang Y,Chen Z,et al.Predictionand recovery for adaptive low-resolution person re-identification.ECCV,2020)旨在通过生成动态软标签引导网络自监督预测最佳比例因子，恢复缺失图像细节。INTACT(Cheng Z,Dong Q,Gong S,et al.Inter-task association critic for cross-resolution person re-identification.CVPR,2020)旨在利用参数化约束来实现任务间的关联机制，引导超分图像学习到真实高分辨率图像的分布信息。MRJL(Zhang G,Chen Y,Lin W,et al.Low resolution information also matters:Learning multi-resolutionrepresentations for person re-identification.IJCAI,2021)旨在通过对低分辨率图像多倍率重建和双特征融合，突出低分辨率图像提供的全局信息。APSR(Han K,Huang Y,Song C,et al.Adaptive super-resolution for person re-identification with low-resolution images.PR,2021)提出一种多倍率像素信息自适应融合方法，抑制图像伪影干扰。另一种研究方向是图像特征解耦。DDGAN(Huang Y,Zha Z J,Fu X,et al.Real-worldperson re-identification via degradation invariance learning.CVPR,2020)通过多信息分离方法，获取图片的不变特征。Tian等提出借助自蒸馏和瓶颈信息互学习的方法(Tian X,Zhang Z,Lin S,et al.Farewell to mutual information:Variationaldistillation for cross-modal person re-identification.CVPR,2021)最大化共享特征确保特征不变性。与这些方案相比，本发明提出了图像倍率自适应的超分方法和特征结构学习函数，能够准确预测超分最佳比例因子，同时引导超分图像和真实图像分布一致性，以提高行人图像识别精度。

发明内容

本发明的目的是提供一个基于倍率自适应超分的行人重识别网络，通过对不同倍率低分辨率行人图像的高质量恢复和判别性特征提取，以提高行人重识别任务的准确性。在这项工作中，我们提出了一种倍率自适应蒸馏网络(RAMN)，以非端到端的方式处理像素和语义信息，如图1所示。具体而言，RAMN网络包含一个倍率自适应超分子网络和一个蒸馏识别子网络。倍率自适应超分子网络可以针对不同倍率的低分辨率图像进行像素信息恢复，减少行人图像中的噪声干扰。蒸馏识别子网络利用识别损失和特征相关性损失同步引导网络对行人判别性特征的提取。大量实验表明，所提出的RAMN模型在准确性和效率方面均达到了最新水平。

本发明的技术方案：

一种基于倍率学习的低分辨率行人重识别算法，

(1)倍率自适应超分子网络

倍率自适应超分子网络由堆叠七次的单元构成，每个单元结构有三个分支：H分支、M分支和α分支，分别实现学习低分辨率图像泛化的超分信息、细粒度的补充信息以及融合系数；行人图像经过卷积层提取到浅层特征F_c后，分别输入H分支和M分支；不同倍率输入图像在数据处理阶段分配不同倍率编码α_in，输入α分支获得融合系数；

浅层特征提取：

F_c＝f(x^L) (1)

其中，x^L∈R^h×w×3，代表低分辨率图像；f是一个3×3卷积；F_c∈R^h×w×c，其中h、w表示图像特征的高度和宽度，c是通道的数量；

H分支由DBPN中一组向下和向上投影单元组成，该分支通过对投影图像和原始图像的残差纠正，缓解投影误差；这种图像残差再投影方法能恢复行人图像的边缘轮廓信息，即泛化的行人信息；

H^t＝GB(H^t-1),H⁰＝F_c (2)

其中，GB是投影单元，H^t-1和H^t是第t个单元的输入和输出，第一个单元输入是浅层特征F_c；

在行人重识别任务中，边缘轮廓信息无法准确识别特定行人，还要补全细粒度信息；M分支为特征聚合分支，由卷积层和ReLU激活函数组成；卷积层实现对图像细粒度信息提取，M分支最终输出特征融合行人边缘轮廓信息和细粒度信息，以此得到行人判别性信息；

M^t＝Block(H^t-1，M^t-1)，M⁰＝F_c (3)

其中，Block是卷积单元，H^t-1和M^t-1是第t个单元的输入和输出，第一个单元输入是浅层特征F_c；

为确保倍率自适应超分子网络对各种倍率的输入图像进行精准超分，引入线形引导分支α根据图像输入倍率不同，动态控制不同特征信息的占比；

α^t＝T(α^t-1)，α⁰＝α_in，a^t＝σ(α^t)，b^t＝1-a^t (4)

M^t＝a^tH^t+b^t(DB(M^t-1)) (5)

其中，T是线性单元，由三个全连接层组成，α^t-1和α^t是第t个线性单元的输入输出；第一个单元输入是倍率编码α_in；σ是sigmoid函数，该函数将全连接层的输出映射为H分支和M分支的占比系数a^t和b^t；公式(5)为单元结构判别性特征的融合公式；

倍率自适应超分子网络将所有阶段M分支的融合特征整合作为最终输出，整合特征经过3×3卷积降维得到最终的高分辨率图像；

x_SR＝f_Rec(M¹，M²...M⁷) (6)

其中，f_Rec是concat操作，f_Rec是3×3卷积降维操作，x_SR是行人超分图像；

(2)蒸馏识别子网络

使用HRNet-ReID网络作为特征提取骨干网络，HRNet-ReID网络由四个分支并行学习从高到低不同分辨率的特征信息；为适应re-ID图像检索需求，每条分支最后的特征图经过平均池化和最大池化被压缩为特征序列作为最终输出；两条高分辨率信息分支学习空间位置信息，两条低分辨率信息分支突出对行人语义理解；HRNet-ReID网络通过对四条分支信息交互融合，维护所学特征的高空间敏感度，突出细粒度语义信息的表达；

为消除超分图像和真实图像在特征空间中的分布域差异，设计了蒸馏结构模型；蒸馏结构模型由两支完全相同的HRNet-ReID网络构成：真实高分辨率图像判别性特征提取分支和超分高分辨率图像判别性特征提取分支，网络参数不共享；同时提出特征结构学习公式，引导超分图像分支和真实图像分支进行特征分布一致性学习；特征结构学习公式如下所示：

其中，h是网络学习到的特征图，h(u)和h(v)是特征图中任意两点空间位置u和v，||h(u)||₂是u所在特征图的L₂范数，

代表对u所在的特征图归一化，

是对得到的归一化矩阵进行转置操作；

求解过程和

相同通过该公式能够计算出特征图任意两点间的相互关系，学习到HW×HW大小的特征结构关系图；

(3)Loss函数的设计

完整的多任务损失

表示如下：

其中，

是超分图像像素损失；

和

是行人重识别任务常用的交叉熵损失和难样本挖掘三元组损失；

和

是蒸馏网络强弱相关性损失；各损失函数的定义和约束范围如下，λ₁,λ₂,λ₃,λ₄,λ₅是权衡参数；

其中，x_SR是行人超分图像，x_HR是对应的高分辨率图，为任务的目标结果；

HRNet-ReID网络最终输出包括四支不同分辨率的特征序列、所有分支串联形成的整序列以及经过分类层后的特征分类序列，最终输出的六支特征序列记为[PART]_1-4,[GLB],[CLS]；

是x属于真实标签的概率；

其中，d_p,d_n∈{[PART]_1-4,[GLB]}，d_p是正样本序列，d_n是负样本序列；α是阈值；蒸馏识别子网络的高分辨率图像特征提取分支和超分图像特征提取分支都受到

和

损失约束；

为缩小超分图像和真实图像特征分布差异，提出结构相关性损失，将真实图像的特征关系转移到超分图像，引导识别网络准确提取超分图像判别性特征；公式(12)是特征结构强连接，S_h是高分辨率图像特征提取分支的输出，S_l是超分图像特征提取分支的输出，S_h,S_l∈{[PART]_1-4,[GLB]}，代表蒸馏网络两条分支六个序列的相互学习；

根据提出的特征结构学习公式，设计出特征结构弱连接损失函数公式(13)；高层语义更能准确表达特征结构信息，故选用低分辨率特征作为结构学习基准；故f_h和f_s分别代表蒸馏网络高分辨率图像特征提取分支和超分图像特征提取分支中[PART]₃和[PART]₄支路的特征图。

本发明的有益效果：

(1)我们提出了一种基于倍率自适应的识别学习网络，从像素和特征两方面切入，学习图像超分并进行图像检索，用于解决行人重识别算法在低分辨率行人数据集检索精度下降严重问题。

(2)我们提出基于倍率差异的自适应超分引导机制，通过自调节补充图像轮廓和细粒度信息，引导行人整体图像恢复。

(3)我们设计特征结构损失函数，引导同一行人不同倍率图像特征一致性表达，消除图像特征分布差异。

附图说明

图1为本发明提出的用于低分辨率行人重识别算法的网络框架图。

图2为本发明提出的超分网络单元结构框架图。

图3为本发明提出的蒸馏结构框架图。

图4为本发明提出的特征结构公式示意图。

图5为本发明的总损失函数变化曲线图。

图6为本发明中不同训练策略超分结果对比图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面对本发明的具体实施方式作进一步的详细描述。

我们实验涉及四个数据集，包括两个高分辨率数据集Market1501和DukeMTMC-reid以及两个合成低分辨率数据集MLR-Market1501和MLR-DukeMTMC-reid。实验评估是在两个合成低分数据集上进行的：MLR-Market1501包括32,668张由6台摄像机拍摄的1,501个行人的图像。MLR-DukeMTMC-reid包括36,411张由8台相机拍摄的1,404个行人的图像。低分数据集图像采取统一的MLR处理标准：对同一行人所有摄像头下的图像，随机选择一个摄像头，对该摄像头下的图像进行随机下采样操作，下采样系数r∈{2,3,4}，作为低分辨率图像查询库，其余摄像头下的图片保持不变，作为高分辨率图像图库。

α_in设置要求：图像预处理过程中，对下采样图像进行编码配对。γ＝2时，编码设置[1,0,0]；γ＝3时，编码设置[0,1,0]；γ＝4时，编码设置[0,0,1]；在训练阶段，图像和对应编码输入超分网络，训练网络对不同倍率图像的超分能力。在测试阶段，所有编码设置[1,1,1]，网络能够自适应输入图像的倍率信息超分出准确图像。

实施细节：在本实施例中，训练过程分为三个阶段。第一阶段，我们只进行超分模块的训练；在第二阶段，用传统的高分辨率数据集训练蒸馏上分支网络的识别性能；在第三阶段，在低分辨率数据集上进行超分和识别网络的整体训练。我们优化器使用momentumSGD，初始学习率设为0.003，并在每30个epoch后乘以0.1。权重衰减率设定为5e-4，我们的网络总共进行50个epoch训练。其中超参数λ₁,λ₂,λ₃,λ₄,λ₅分别为1，1.15，0.2，0.5和0.02。

对比实验：如表1所示，我们展示了在两个常用数据集上不同方法的识别精度结果。最后一行为本发明的方法，第一到九行是当前低分辨率行人重识别主流方法的实验结果，几乎覆盖该领域中的所有顶会方法。根据实验对比结果可以看出，本发明提出的方法在两个数据集上均达到了最先进的性能。相比于PS-HRNet方法，我们进行了倍率自适应超分图像的学习和结构损失函数的约束，在两个数据集上Rank1的精度分别提高了1.7％和4.4％，证实了本发明方法的有效性。

表1在MLR-Market1501和MLR-DukeMTMC-reid的不同方法的结果

消融实验：为验证各模块的有效性，本发明在MLR-Market1501数据集上对所有损失函数进行了消融实验，以说明我们提出的模块有效性，实验结果在表2。其中

代表

保证网络实现基本行人识别功能。

表示引入超分模块。

为蒸馏网络特征结构强弱连接损失

用来约束不同分辨率图像分布一致性。消融实验表明，提出的超分模块恢复了行人图像判别性信息，Rank1、Rank5和Rank10识别精度分别提高了1.8％，0.9％和0.4％。本发明提出的特征结构损失缩小了同类图像分布差异，Rank1、Rank5和Rank10识别精度在原基础上分别提高了2.1％，0.8％和0.5％。

表2在MLR-Market1501上不同损失函数的消融实验识别结果

迭代次数分析：为方便模型训练及对网络效率进行评估，损失函数变化曲线如图5所示，通过测试集结果验证和图示均能证明，在第50个epoch时实验结果趋于稳定，证明本方案在行人重识别任务中能够快速达到很好的结果。

非端到端训练策略：由于行人重识别任务训练集与测试集的不可见特性，训练和测试定位到的行人判别性区域会存在差异。前人采用端到端的训练方法，导致网络只关注训练集判别性区域恢复，出现测试集判别性区域恢复效果差的情况。本发明采取非端到端的训练策略，通过训练超分网络恢复低分辨率图像所有区域来避免重要信息的丢失。根据图6所示的不同训练策略超分输出对比图可以看出，非端到端训练策略能够更清晰地恢复行人图像区域和线条轮廓。表3的实验结果也证明，在行人重识别任务重非端到端的策略更优于端到端。

表3本发明在MLR-Market1501上不同训练策略的识别结果

训练策略	Rank1	Rank5	Rank10
				端到端	91.7	97.1	97.9
非端到端	93.2	97.6	98.3

以上所述乃是本发明的具体实施例及所运用的技术原理，若依本发明的构想所作的改变，其所产生的功能作用仍未超出说明书及附图所涵盖的精神时，仍应属本发明的保护范围。

Claims

1.一种基于倍率学习的低分辨率行人重识别算法，其特征在于，