CN117078967A

CN117078967A - 一种有效且轻量的多尺度行人重识别方法

Info

Publication number: CN117078967A
Application number: CN202311128778.6A
Authority: CN
Inventors: 张云佐; 康伟丽; 于璞泽; 杨月辉; 王双双
Original assignee: Shijiazhuang Tiedao University
Current assignee: Shijiazhuang Tiedao University
Priority date: 2023-09-04
Filing date: 2023-09-04
Publication date: 2023-11-17
Anticipated expiration: 2043-09-04
Also published as: CN117078967B

Abstract

本发明公开了一种有效且轻量的多尺度行人重识别方法，所述方法包括以下步骤：使用轻量的主干网络提取输入行人图像的特征；利用金字塔特征融合模块对主干网络得到的特征图进行融合处理；构建损失函数，对网络参数进行迭代优化；将最终提取到的行人图像特征与图像库中的各个图像进行相似性度量，输出匹配列表。本发明在保持较低的模型复杂度的同时，有效的提取行人图像的特征，并通过对特征的融合处理，增强了所得行人图像特征的鲁棒性，达到了优异的行人重识别性能。

Description

一种有效且轻量的多尺度行人重识别方法

技术领域

本发明涉及一种有效且轻量的多尺度行人重识别方法，属于计算机视觉技术领域。

背景技术

随着智能监控网络的快速发展以及人们对公共安全需求的不断增加，行人重识别已成为计算机视觉领域的研究热点之一。我国视频监控系统规模庞大，视频监控系统每天不间断的运作会产生海量的数据，如果安排人力对视频数据进行监察和分析会造成低效率并且难以实现有效处理监控数据的情况，因此，如何在海量视频监控数据中检索出有效行人的信息是当前值得研究的问题。

行人重识别(ReID)是一种利用计算机视觉在不同摄像机下检索同一个行人图像的技术、随着科技的发展和对公共安全需求的增加，行人ReID被广泛用于社区寻人和犯罪调查等智能安全领域。传统的ReID提取底层视觉特征的方法不适用于复杂场景和各种干扰存在的情况。随着深度学习的广泛应用和深度卷积神经网络的快速发展，行人ReID研究取得了重大的进展。

近年来，随着深度学习和深度卷积神经网络快速发展，基于多尺度特征的行人ReID研究取得了重大的进展。Pyramid是一种从粗到细的金字塔模型，分别实现了对行人图像的局部特征、全局特征和它们之间渐进信息的整合，有效全面的提取了行人的特征。Deep-Person将行人图像划分成多个部分，将每一部分视为从头到脚的身体局部序列送入LSTM中，整合人体的上下文信息，并将局部信息和全局信息进行聚合。GRMF方法从空间、通道和局部三个角度提取不同的特征，并设计两个有效的全局关系注意模块捕捉全局结构信息，实现多尺度特征的提取。密集特征金字塔网络DPFN通过密集金字塔融合模块，将高层语义信息和低层细节信息结合，提高特征图丰富度和尺度多样性。CANet是一种part-based金字塔结构，通过将特征图分割成不同的数量提取全局和局部特征。然而，上述基于多尺度特征提取的方法在进行设计时忽略了模型的复杂度，模型庞大并且实时性差。

因此，现有行人重识别研究逐步从重量级向轻量级过渡。OSNet引入深度可分离卷积构建网络，以较少的参数实现了优异的识别精度。MSFANet是一种类似于OSNet的方法，其设计了深度可分离卷积模块，结合注意力模块，设计不同的分支结构，减少了模型的计算量和参数量。基于孪生网络的轻量行人ReID方法将图像输入到轻量网络EfficientNet中，其在查询和图库图像之间共享权重以提取特征。PLR-OSNet和LightMBN在使用轻量的行人重识别网络的基础上，设计其他策略获取行人图像的多尺度特征。

一些基于深度学习的神经网络的方法，通过结合轻量级网络、注意力机制或多尺度特征融合模块获取特征。然而，这些方法大都没有很好地实现特征融合，在提高模型精确度的同时牺牲了一定的模型复杂度，并没有做好模型精确度和计算复杂度的权衡。一些轻量化的行人重识别方法，在提取特征时，仍然没有高效获取行人图像信息，导致以较高的成本学习到冗余的行人重识别特征，造成模型具有较大的计算量和参数量。行人重识别模型越来越多的有部署在移动环境中的需求，因此，设计一个高效、轻量的行人重识别方法是促进行人重识别发展应用的重要方面。

发明内容

针对现有方法中存在的问题，本发明的目的在于提供一种有效且轻量的多尺度行人重识别方法，包括以下步骤：

使用轻量的主干网络提取输入行人图像的特征；

利用金字塔特征融合模块对主干网络得到的特征图进行融合处理；

构建损失函数，对网络参数进行迭代优化；

将最终提取到的行人图像特征与图像库中的各个图像进行相似性度量，输出匹配列表。

进一步的，整体框架包括，轻量主干网络和金字塔特征融合模块。

进一步的，所述轻量的主干网络是由幻影多尺度模块堆叠而成的多尺度幻影网络。

进一步的，所述幻影多尺度模块通过聚合多个分支中不同数量的轻量幻影卷积块构成。

进一步的，所述聚合操作是对每个分支分配不同权重的自适应聚合。

进一步的，所述轻量幻影卷积块由基础操作和廉价操作构成，包括1×1卷积，3×3卷积，特征图拼接，BN和ReLU操作。

进一步的，所述金字塔特征融合模块所处理的主干网络的特征图为主干网络的后四层特征图。

进一步的，所述金字塔特征融合模块包括特征图相加，特征图拼接和特征图处理OP操作。

进一步的，所述特征图处理OP操作包括上采样、BN、ReLU和特征图拼接操作。

进一步的，所述轻量网络得到的特征和最终提取到的特征联合使用交叉熵损失、中心损失和难样本三元组损失进行训练。

与现有技术相比，本发明具有如下有益效果：

1、本发明提出了一种新颖的有效且轻量的多尺度行人重识别方法，有效提取到了鲁棒性特征，所有模块的设计都考虑了模型的大小，可以在保持模型复杂度大小的前提下，充分挖掘行人图像特征有效匹配行人。

2、针对本发明创新性地将Ghost卷积应用于行人重识别领域，设计了一个轻量的行人重识别基线网络，它是一种轻量级特征提取网络，可以有效地从行人图像中提取特征，且模型参数低，计算量小。

3、针对本发明创新性地将不同层不同种类的特征图进行聚合，根据不同特征图的特点，采用不同的操作有效地聚合了主干网络不同层的特征，增强了特征图的鲁棒性。

4、本发明在Market1501和DukeMTMC-reID两个广泛使用的数据集上进行了充分的实验，采用了全面的评价指标对模型精确度和复杂度进行评价：包括mAP、Rank-1、模型的参数量和浮点运算数。在四种指标下的实验结果充分证明了本发明方法的有效性。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明提供的一种有效且轻量的多尺度行人重识别方法的步骤流程图；

图2为本发明提供的一种有效且轻量的多尺度行人重识别方法的网络结构图；

图3为本发明提供的一个优选实施例的轻量幻影卷积块的结构示意图；

图4为本发明提供的一个优选实施例的幻影多尺度模块的结构示意图；

图5为本发明提供的一个优选实施例的金字塔特征融合模块的结构示意图。

具体实施方式

为了使本领域的技术人员可以更清楚地对本发明进行了解，下面结合具体实施例进行说明。此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。

如图1所示，为本发明提供的一个实施例的姿势引导对齐的轻量行人重识别方法的步骤流程图，包括：

S1，使用轻量的主干网络提取输入行人图像的特征；

S2，利用金字塔特征融合模块对主干网络得到的特征图进行处理融合；

S3，构建损失函数，对网络参数进行迭代优化；

S4，将最终提取到的行人图像特征与图像库中的各个图像进行相似性度量，输出匹配列表。

如图2所示，为本发明提供的一个实施例的有效且轻量的多尺度行人重识别方法的网络框架图。其主要包括两部分，多尺度幻影网络和金字塔特征融合模块。

本发明提供一个优选实施例执行S1。本实施例的目的在于利用轻量网络，充分提取行人图像的信息。从图2中的多尺度幻影网络我们可以看到所提轻量网络的整体框架，多尺度幻影网络主要通过幻影多尺度块(GMSB)堆叠构成，而幻影多尺度块是通过自适应聚合具有多个分支的不同数量的轻量幻影卷积(LightGConv)块得到。具体的构建过程如下：

S11，构建轻量幻影卷积块。

在深度神经网络的模型中，通常包含了丰富的特征图，这些特征图中会不可避免地出现冗余的特征图，因为有些特征图是非常相似的，可以将其中的一个特征图通过另一张特征图的廉价操作获得，减少模型的开销，因此，我们引入了幻影卷积的思想构建了轻量幻影卷积块，其结构如图3所示。

具体而言，使X＝{x₁,x₂,...,x_n}表示输入的特征图中的一组行人图像，其中n为一个batchsize输入的行人图像数量，c为特征图通道的数量，h为高，w为宽。我们首先将x_i进行1×1卷积操作(基础操作)，改变通道数为原始特征通道数的一半，得到特征f，/>其中c'＝c/2。随后，通过3×3卷积(廉价操作)实现对特征的进一步提取得到特征f'，/>最后将1×1卷积之后的特征图和3×3卷积之后的特征图进行特征图拼接操作，获取与原始特征通道数一致的特征图，最后经过BN和ReLU操作，得到最终的输出结果F。具体公式如下所示：

f＝Conv_1×1(x_i)

f'＝Conv_3×3(f)

其中，Conv_1×1表示1×1卷积，Conv_3×3表示3×3卷积，表示拼接操作。

S12，构建幻影多尺度模块。

为了实现对行人图像不同尺度特征图的提取，我们基于轻量幻影卷积块设计了一种全新的多分支特征提取结构-幻影多尺度模块，其结构如图4所示。幻影多尺度模块主要由三个分支组成，每个分支由不同数量的轻量幻影卷积块组成，分别为1，3，6，对应的感受野分别为3×3，7×7，13×13。分支的数量是我们通过大量实验得到的最佳的结果。假设输入的特征图为Q，我们首先对其执行1×1卷积操作，将得到的特征图分为三个分支分别执行具有不同数量幻影卷积块，得到特征Q₁，Q₂，Q₃，然后将每个分支得到的特征与统一聚合门进行聚合，得到特征q₁，q₂，q₃，我们使用自适应聚合机制对不同分支的特征赋予不同的权重，自适应聚合不同分支的特征得到Q'。具体公式如下所示：

Q'＝Σw_iq_i,i＝1,2,3

其中，w_i为对应第i个分支的权重，其通过神经网络学习。

最后我们使用1×1卷积将得到的特征图Q恢复为输入的通道数大小，使用残差连接将原始特征图与得到的特征进行元素级相加操作，经过RReLU激活函数操作后，得到最终的特征图。

S13，构建多尺度幻影网络。

多尺度幻影网络主要是通过对轻量的幻影多尺度模块进行堆叠得到的，详细的网络架构如表1所示。其主要由基本的卷积操作和幻影多尺度模块组成，每部分的幻影多尺度模块的数量是相同的。相比于OSNet方法这种设计的好处在于，我们利用更少的卷积实现了特征图信息的提取，减少了模型中的冗余特征的开销，更高效的获取了行人图像的多尺度特征。使用深度可分离卷积构建的OSNet模型具有2.2M的参数量和0.98G的计算量，我们所提方法的参数量为1.86M和0.81G，因此，我们所提网络框架有效地达到了模型的轻量化，实现了比OSNet更佳的轻量效果。

表1所提轻量网络-多尺度幻影网络的结构体系。Conv表示卷积层。Max pool表示最大池化。Avg pool表示平均池化。Global avg pool表示全局平均池化。fc代表全连接层

本发明提供了一个优选实施例执行S2。现有的特征金字塔操作无法有效聚合多层特征图之间的信息，只使用不同层之间特征的相加操作会破坏特征图之间的层次信息，导致不同通道之间的特征混淆，只使用不同层之间特征的拼接操作会使需要处理的通道信息增多，造成模型的计算量增加，因此，为了实现有效的特征融合并且不造成模型太大的计算负担，我们提出了一种轻量的金字塔特征融合模块，如图5所示。

与其他方法相比，我们所提金字塔特征融合模块具有显著的优势：采用元素级相加操作对相似特征图进行操作，对具有不同通道数的跨层特征图使用拼接操作。在有效实现特征融合的同时保持了参数量，没有造成模型更大的计算复杂度。

金字塔特征融合模块主要对轻量主干网络得到的后四层特征图进行处理，具体的流程如下所示：首先，我们将Layer4和Layer5的特征图采用元素级相加操作进行特征融合得到O₁，因为在多尺度幻影网络中，Layer4和Layer5特征图的通道具有相似语义特征的性质，所以采用元素级相加操作使其语义信息更好融合。其次，我们将得到的特征图O₁与Layer3得到的特征图进行拼接操作实现融合得到O₂。最后，我们采用特征图处理OP操作对特征图O₂进行处理，将其与Layer2得到的特征图实施拼接操作，输出得到的语义特征和信息特征结合的特征图O₃。具体公式如下所示：

O₁＝Π(L₄,L₅)

其中，Π()表示元素级相加操作，Φ()表示上采样操作。

本发明提供一个实施例执行S3。构建训练所需损失函数。在本实施例中，训练损失函数包含交叉熵损失、难样本三元组损失和中心损失三部分内容，具体步骤如下：

S31，构建交叉熵损失。我们采用带有平滑标签的交叉熵损失来计算真实值q与预测值p之间的概率。交叉熵损失公式如下所示：

其中，N表示批大小，y是真值身份标签，p_i是类i的身份预测分数。

S32，构建难样本三元组损失。为了优化嵌入空间，引入了难样本三元组损失(HardTriplet Loss)，使得类间距离大于类内距离。传统的三元组损失(Triplet Loss)随机从训练数据中抽取三张图片，虽然操作简单，但是抽样出来的绝大多数都易于区分的样本对，在现实场景下，难以区分的行人样本比较多，所以使用Hard Triplet Loss对模型训练，考虑锚样本与相似度最低的正样本和锚样本与相似度最高的负样本之间的距离，使网络学习到更好的表征，提高网络的分类能力。难样本三元组损失公式如下所示：

其中，P是随机选择的不同身份的行人，Q是每个身份随机选择的图像数量，PQ表示批量大小。α表示锚图像，a∈PQ，p表示正样本，n表示负样本，A表示正样本集，B并表示负样本集。d_a,p表示锚样本与正样本之间的距离。β是margin，初始化为0.3。

S33，构建中心损失。由于难样本三元组损失学习的是样本之间的相对距离，没有考虑类内的紧凑性。因此通过使用中心损失学习每个类的类中心，使得类内的距离变得更紧凑。中心损失公式如下所示：

其中，x_i是第i个特征的特征向量；c_yi是特征y_i的类中心。

在进行训练时，我们对多尺度幻影网络的输出结果使用交叉熵损失、难样本三元组损失和中心损失进行训练。在对整个网络进行训练时，我们也采用交叉熵损失、难样本三元组损失和中心损失进行训练。

基于上述实施例，本发明提供一个优选实施例S4，通过计算余弦距离进行行人图像特征之间的相似性度量，得到最终的匹配结果，以相似度从大到小生成匹配列表。余弦相似度计算如下所示：

其中，x_i和y_i为特征向量。

我们使用从0开始训练的多尺度幻影网络作为主干网络，并删除了模型最后的全局平均池化层和全连接层。输入图像的大小调整为256×128，然后通过随机裁剪、随机翻转、随机擦除和归一化进行增强。batchsize大小设置为64，我们每次选择16个行人身份，每个行人身份选择4张图像。权重衰减为5×10^-4。多尺度幻影网络模型在Market1501和DukeMTMC-reID数据集上训练400代，使用SGD优化器进行优化，初始学习率设置为0.065，每次在150、225、300和350代时衰减0.1。整体的网络框架模型在多尺度幻影网络模型权重的基础上进行微调，在Market1501和DukeMTMC-reID数据集上训练200代，使用Adam优化器进行优化，采用余弦退火学习率策略，初始学习率设置为7×10^-5，学习率在20个时期内从7×10^-5线性增加到7×10^-4，然后学习率执行余弦衰减。

为了验证以上实施例的有效性，我们在两个广泛使用的数据集Market1501和DukeMTMC-reID上进行验证。Market1501数据集包含1501个身份和32217张行人图像。训练集包含751个身份的12,936张图像，测试集包含750个身份的19,732张图像。DukeMTMC-reID数据集包含2,514个身份和总共36,441个行人图像。训练集包含702个身份的16,522个图像，测试集包含1,812个身份的19,889个图像。

以累积匹配特征(Cumulative Matching Characteristics,CMC)中Rank-n和平均精度均值(Mean Average Precision,mAP)对模型精确度效果进行评估；以模型参数量(Param)和浮点运算数(GFLOPs)对模型复杂度进行评估。其中，CMC中的Rank-n表示行人匹配结果列表中前n个图像与查询图像匹配成功的概率；mAP表示多分类任务中将平均精度AP(Average Precision)相加求和之后的平均值。

表2给出了在Market1501和DukeMTMC-reID数据集上提出的轻量级网络多尺度幻影网络与其他轻量级方法的准确率比较结果。本文方法在Market1501上的Rank-1和mAP分别为94.0％和83.0％，在DukeMTMC-reID数据集上的Rank-1和mAP分别为85.0％和70.8％。可以看出，我们所提出的行人ReID基线网络达到了最好的识别精度。与专门用于行人ReID任务的基线网络OSNet和MSFANet相比，我们提出的方法取得了比他们更好的结果。这验证了我们的方法可以更好地提取行人特征，也证明了引入鬼影从特征图中提取特征的有效性。

表2所提轻量网络与其他轻量的方法在Merket1501和DukeMTMC-reID数据集上的比较

表3显示了所提出的整个网络框架在Market1501和DukeMTMC-reID数据集上现有最先进方法的精度比较结果。本文方法在Market1501上的Rank-1和mAP分别为95.8％和87.2％，在DukeMTMC-reID数据集上的Rank-1和mAP分别为87.4％和75.1％。可以看出，我们提出的方法可以有效地获得鲁棒的行人图像特征，用于行人匹配过程，取得了良好的识别效果。

表3所提整体网络框架与其他的方法在Merket1501和DukeMTMC-reID数据集上的比较

表4显示了不同方法之间Params和GFLOPs的比较。我们提出的多尺度幻影网络的Params和GFLOPs分别为1.86M和0.81G。我们可以看到，与其他重量级人物ReID方法，如APR、CtF和PAII相比，多尺度幻影网络的Params和GFLOPs要小得多。与其他轻量级人员ReID方法相比，如OSNet、MSINet和MSNet。我们的方法具有更低的Params和GFLOPs，并且更轻。因此，我们提出的基线模型多尺度幻影网络是一种优秀的轻量级人物ReID方法。

表4所提轻量网络与其他的复杂度对比

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。上述各优选特征在互不冲突的情况下，可以任意组合使用。

Claims

1.一种有效且轻量的多尺度行人重识别方法，其特征在于，所述方法包括以下步骤：

使用轻量的主干网络提取输入行人图像的特征；

构建损失函数，对网络参数进行迭代优化；

2.根据权利要求1所述的有效且轻量的多尺度行人重识别方法，其特征在于，整体框架包括，轻量主干网络和金字塔特征融合模块。

3.根据权利要求1所述的有效且轻量的多尺度行人重识别方法，其特征在于，所述轻量的主干网络是由幻影多尺度模块堆叠而成的多尺度幻影网络。

4.根据权利要求3所述的有效且轻量的多尺度行人重识别方法，其特征在于，所述幻影多尺度模块通过聚合多个分支中不同数量的轻量幻影卷积块构成。

5.根据权利要求4所述的有效且轻量的多尺度行人重识别方法，其特征在于，所述聚合操作是对每个分支分配不同权重的自适应聚合。

6.根据权利要求4所述的有效且轻量的多尺度行人重识别方法，其特征在于，所述轻量幻影卷积块由基础操作和廉价操作构成，包括1×1卷积，3×3卷积，特征图拼接，BN和ReLU操作。

7.根据权利要求1所述的有效且轻量的多尺度行人重识别方法，其特征在于，所述金字塔特征融合模块所处理的主干网络的特征图为主干网络的后四层特征图。

8.根据权利要求1所述的有效且轻量的多尺度行人重识别方法，其特征在于，所述金字塔特征融合模块包括特征图相加，特征图拼接和特征图处理OP操作。

9.根据权利要求8所述的有效且轻量的多尺度行人重识别方法，其特征在于，所述特征图处理OP操作包括上采样、BN、ReLU和特征图拼接操作。

10.根据权利要求1所述的有效且轻量的多尺度行人重识别方法，其特征在于，所述轻量网络得到的特征和最终提取到的特征联合使用交叉熵损失、中心损失和难样本三元组损失进行训练。