CN114724187A

CN114724187A - 一种基于切片融合的行人重识别方法及装置

Info

Publication number: CN114724187A
Application number: CN202210456289.2A
Authority: CN
Inventors: 产思贤; 刘雅婷; 赖周年
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2022-04-27
Filing date: 2022-04-27
Publication date: 2022-07-08

Abstract

本发明公开了一种基于切片融合的行人重识别方法及装置，构建并训练包括主干网络、最大池化层、相邻关系模块和差异特征池化模块的行人重识别网络，对主干网络Resnet‑50进行修改并添加CA注意力模块，让网络关注具有辨别性特征，通过改进后的Resnet‑50进行特征提取，将提取后的特征分别经过相邻关系模块和差异特征池化模块，考虑相邻关系及全局差异关系，最后采用训练好的行人重识别网络进行新人重识别。本发明在行人重识别任务取得了不错的效果，能够有效的区分图像中穿着相似的人们。

Description

一种基于切片融合的行人重识别方法及装置

技术领域

本申请属于图像处理技术领域，尤其涉及一种基于切片融合的行人重识别方法及装置。

背景技术

行人重识别是图像检索的一类基本问题，其目的就是将查询集query中的目标图像匹配到由不同相机捕获的数据库集gallery中的图像。近年来，深度神经网络已被证明可以有效地提取图像分类问题的判别特征，因此被广泛用作人员重识别方法的基础模型。由于行人有不同的属性，例如：光照问题、遮挡问题、姿势问题、服饰问题、背景杂乱等问题，对这项研究带来了很多研究难点，特别是对于穿着非常相似的人们，是非常难区分的。主流的技术方案主要考虑的是全局特征的方法和局部特征的方法，但大部分都单独考虑局部，没有考虑局部与整体，局部与局部的特征关系，对于解决穿着非常相似的人们，不具有区分性。

发明内容

本申请的目的是提供一种基于切片融合的行人重识别方法及装置，在现有技术方案中考虑了局部与局部以及局部与全局的特征关系，同时使用CA注意力，增强网络中特征的表达能力。

为了实现上述目的，本申请技术方案如下：

一种基于切片融合的行人重识别方法，包括：

构建包括主干网络、最大池化层、相邻关系模块和差异特征池化模块的行人重识别网络；

将训练数据输入到主干网络，提取主特征图，然后通过最大池化层生成三种大小的第一特征图、第二特征图和第三特征图；

通过相邻关系模块分别将第一特征图、第二特征图和第三特征图进行水平切片，然后分别将切片后相邻的特征图进行两两融合，得到对应的融合特征图；

通过差异特征池化模块将主特征图分别进行最大池化操作和平均池化操作得到最大池化特征图和平均池化特征图，将平均池化特征图减去最大池化特征图得到差异特征图，并将差异特征图与最大池化特征图相加得到全局特征图；

对融合特征图、差异特征图和全局特征图均进行分类，计算联合分类损失，反向传播更新主干网络参数，完成训练；

将待识别图像输入到训练好的行人重识别网络，分别提取待识别图像和图像库中图像的特征，用余弦相似度来表示特征之间的相似度，完成待识别图像的识别。

进一步的，所述主干网络采用Resnet-50，包括五个阶段，分别为stage0、stage1、stage2、stage3和stage4。

进一步的，所述主干网络采用Resnet-50，包括五个阶段，分别为stage0、stage1、stage2、stage3和stage4，并在stage1之前和stage3之后加入了注意力模块。

进一步的，所述将第一特征图、第二特征图和第三特征图进行水平切片，切片后的特征图大小相同。

进一步的，所述对融合特征图、差异特征图和全局特征图均进行分类，包括：

对融合特征图、差异特征图和全局特征图分别通过Conv2d进行降维，然后进行归一化处理，再输入到全连接层分类器进行分类。

本申请还提出了一种基于切片融合的行人重识别装置，包括处理器以及存储有若干计算机指令的存储器，所述计算机指令被处理器执行时实现所述基于切片融合的行人重识别方法的步骤。

本申请提出的一种基于切片融合的行人重识别方法，在现有技术方案中，考虑了局部与局部以及局部与全局的特征关系，同时使用CA注意力增强网络中特征的表达能力，能够有效的区分图像中穿着相似的人们。

附图说明

图1为本申请基于切片融合的行人重识别方法流程图；

图2为本申请特征融合示意图；

图3为本申请差异特征池化示意图；

图4为本申请实施例主干网络示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提出了一种基于切片融合的行人重识别方法，包括：

步骤S1、构建包括主干网络、最大池化层、相邻关系模块和差异特征池化模块的行人重识别网络。

本申请首先构建了用于进行行人重识别的行人重识别网络模型，该行人重识别网络模型包括主干网络、最大池化层、相邻关系模块和差异特征池化模块。

其中主干网络采用Resnet-50，包括五个阶段(stage)，分别为stage0、stage1、stage2、stage3和stage4。

在一个优选的实施例中，如图4所示，主干网络在stage1之前和stage3之后加入了注意力模块。

本实施例在Resnet-50在stage1之前和stage3之后加入CA注意力机制，增强网络中特征的表达能力。一个CA注意力模块可以被看作是一个计算单元，旨在增强网络中特征的表达能力。CA通过精确的位置信息对通道关系和长期依赖性进行编码。

需要说明的是，现有技术将CA注意力模块插入到Mobile Network中，可以使MobileNetV2、EfficientNet等网络涨点，性能优于Squeeze Excitation(SE)、Convolutional BlockAttention Module(CBAM)等注意力模块。本实施例将CA注意力模块应用于Resnet-50中，将CA具体操作分为Coordinate信息嵌入和Coordinate Attention生成2个步骤。Coordinate信息嵌入：全局池化方法通常用于通道注意编码空间信息的全局编码，但由于它将全局空间信息压缩到通道描述符中，导致难以保存位置信息。为了促使注意力模块能够捕捉具有精确位置信息的远程空间交互，本实施例按照以下公式分解了全局池化，转化为一对一维特征编码操作：

具体地，给定输入X，首先使用尺寸为(H，1)或(1，W)的池化核分别沿着水平坐标和垂直坐标对每个通道进行编码，因此高度为h的第c通道的输出可以表示为：

同样地，宽度为w的第c通道的输出可以表示为:

Coordinate Attention生成：通过上述的变换可以很好的获得全局感受野并编码精确的位置信息，通过信息嵌入中的变换后，该部分将上面的变换进行合并操作，然后使用1x1卷积变换函数F对其进行变换操作:

其中，[.,.]操作为为沿空间维数的合并操作，f为对空间信息在水平方向和垂直方向进行编码的中间特征映射。然后沿着空间维数将f分解为2个单独的张量f^h∈R^C/r×H和f^w∈R^C/r×W，r用来控制SE块大小的缩减率，利用另外2个1x1卷积变换F_h和F_w分别将f_h和f_w变换为具有相同通道数的张量，输入X得到：

g^h＝σ(F_h(f^h))

g^w＝σ(F_w(f^h))。

为了降低模型的复杂性和计算开销，这里通常使用适当的缩减比(如32)来减少f的通道数。然后对输出g^h和g^w进行扩展，分别作为注意力权重。因此，Coordinate Attention的输出Y可以写成：

本实例中，stage1之前加入CA注意力，赋予其通道数为(64，64)，在stage3之后加入CA注意力，赋予其通道数为(1024，1024)，使其输入与输出的通道数保持不变，不改变输入特征的大小，在本实例中效果较好。

步骤S2、将训练数据输入到主干网络，提取主特征图，然后通过最大池化层生成三种大小的第一特征图、第二特征图和第三特征图。

本实施例读取带标签的行人重识别训练数据集，对训练数据集进行数据增强以及初始化图片尺寸，将同一批次的行人图像送入主干网络Resnet-50进行特征提取。

本实施例采用数据集Market-1501、DukeMTMC-reID、CUHK03作为训练数据集，训练数据集为带有人工标注的不同摄像头下的行人图像数据集。将所有图像大小调整为(384x128)即高为384，宽为128进行训练，使用水平翻转和随机擦除来扩充训练数据集，利用随机梯度下降来优化模型。本申请采用分批次进行训练，训练过程中批处理大小为64(即每个批次处理64张图片，有16个不同的id行人和每个id行人有4张不同的图片)。

采用加入CA注意力后的Resnet-50来特征提取，得到的主特征图F，经过自适应最大池化成三种大小的特征图F₁、F₂、F₃。

本实例中，输入图片的尺寸为(384x128)，经过提取网络后的到F的特征大小为(24x8)，再对F进行自适应最大池化，池化后的特征F₁大小为(7x1)，特征F₂大小为(5x1)，特征F₃大小为(3x1)。

步骤S3、通过相邻关系模块分别将第一特征图、第二特征图和第三特征图进行水平切片，然后分别将切片后相邻的特征图进行两两融合，得到对应的融合特征图。

本实施例对F₁、F₂、F₃分别水平平均切片成7块、5块、3块。经过相邻关系模块，把相邻的特征进行两两融合，得到6块、4块、2块特征。

具体地，首先对特征图F₁进行水平切片处理，得到特征图

特征大小都为(1x1)；其次对特征图F₂进行切片处理，得到特征图

特征大小都为(1x1)；最后对特征图F₃进行切片处理，得到特征图

特征大小都为(1x1)。

将切片后的特征进行特征融合，对特征图

进行相邻两块特征融合，得到特征图

特征大小都为(2x1)；其次对特征图

进行相邻两块特征融合，得到特征图

特征大小都为(2x1)；最后对特征图

进行相邻两块特征融合，得到特征图

特征大小都为(2x1)。

如图2所示，本实施例相邻两块特征融合，表现为任意相邻的特征进行融合。

步骤S4、通过差异特征池化模块将主特征图分别进行最大池化操作和平均池化操作得到最大池化特征图和平均池化特征图，将平均池化特征图减去最大池化特征图得到差异特征图，并将差异特征图与最大池化特征图相加得到全局特征图。

将输出特征图F进行特征处理，输入到差异特征池化模块，如图3所示，首先这个模块对特征图F分别进行最大池化操作(GMP)和平均池化操作(GAP)后得到特征F_GMP和特征F_GAP，再用特征F_GAP减去特征F_GMP得到差异特征F_cont，再加上特征F_GMP得到全局特征F_GCP。

具体地，常见的操作是把GMP和GAP操作后的特征相加，而这里本申请采用了特征相减，用平均池化减去最大池化得到差异性特征，最后再和最大池化相加得到最终特征。这种减法可以提取人体的局部特征，去掉了背景的干扰。

步骤S5、对融合特征图、差异特征图和全局特征图均进行分类，计算联合分类损失，反向传播更新主干网络参数，完成训练。

本实施例将融合特征图

以及差异特征图和全局特征图分别通过Conv2d进行降维，然后进行归一化处理，再输入到全连接层分类器进行分类。

具体地，对于上述特征图利用Conv2d来降维成256，通过降维来保留一些比较重要的特征，去除一些冗余的特征。再进行归一化处理，让处理后的特征去经过全连接层去分类，全连接层的输入为通道数即256，输出为数据集的id个数。

使用交叉熵损失与三元组损失的组合，计算联合损失，通过损失函数的反向传播对主干网络Resnet-50参数进行优化。联合损失为：

L＝L_triplet+λL_ce；

其中，L_ce表示交叉熵损失函数，L_triplet表示三元组损失函数，通过参数λ进行平衡。

其中

其中，N表示最小批量数，yⁿ表示真实标签，

表示预测标签。K表示id标签的数量，

是特征q_i与标签k的分类器。

其中，N_K表示最小批量包含的id数量，N_M表示每个最小批量里面每个id包含的图片数量。α是正样本和负样本的边界参数，

表示anchor样本,positive样本和negative样本的特征表示。

步骤S6、将待识别图像输入到训练好的行人重识别网络，分别提取待识别图像和图像库中图像的特征，用余弦相似度来表示特征之间的相似度，完成待识别图像的识别

具体实施方法为：将待识别的查询库query中的图片作为待查询图像输入到训练好的模型中，分别提取待查询图像和数据库gallery图像的特征，将提取的特征保存，并对待查询图像和数据库gallery图像的图像保存的特征计算余弦相似度(CosineSimilarity)进行匹配，根据余弦相似度对待识别图像用累积匹配曲线(CMC曲线)和平均正确率(mAP)进行评估。

余弦相似度计算公式如下：

其中A，B分别为待查询图像和数据库gallery图像特征向量，包括前述的融合特征图

以及差异特征图和全局特征图，被表示为n维向量，·表示向量内积，|| ||表示对向量求模。余弦相似度衡量两个向量的相似度，余弦相似度越大，代表特征越匹配。

需要说明的是，本申请提到的性能评价指标CMC曲线和mAP已经是比较成熟的性能评价指标，这里不再赘述。

在一个实施例中，本申请还提供了一种基于切片融合的行人重识别装置，包括处理器以及存储有若干计算机指令的存储器，所述计算机指令被处理器执行时实现所述基于切片融合的行人重识别方法的步骤。

关于基于切片融合的行人重识别装置的具体限定可以参见上文中对于基于切片融合的行人重识别方法的限定，在此不再赘述。上述基于切片融合的行人重识别装置可全部或部分通过软件、硬件及其组合来实现，可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上对应的操作。

存储器和处理器之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件互相之间可以通过一条或多条通讯总线或信号线实现电性连接。存储器中存储有可在处理器上运行的计算机程序，所述处理器通过运行存储在存储器内的计算机程序，从而实现本发明实施例中的网络拓扑布局方法。

其中，所述存储器可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。其中，存储器用于存储程序，所述处理器在接收到执行指令后，执行所述程序。

所述处理器可能是一种集成电路芯片，具有数据的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等。可以实现或者执行本发明实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于切片融合的行人重识别方法，其特征在于，所述基于切片融合的行人重识别方法，包括：

2.根据权利要求1所述的基于切片融合的行人重识别方法，其特征在于，所述主干网络采用Resnet-50，包括五个阶段，分别为stage0、stage1、stage2、stage3和stage4。

3.根据权利要求1所述的基于切片融合的行人重识别方法，其特征在于，所述主干网络采用Resnet-50，包括五个阶段，分别为stage0、stage1、stage2、stage3和stage4，并在stage1之前和stage3之后加入了注意力模块。

4.根据权利要求1所述的基于切片融合的行人重识别方法，其特征在于，所述将第一特征图、第二特征图和第三特征图进行水平切片，切片后的特征图大小相同。

5.根据权利要求1所述的基于切片融合的行人重识别方法，其特征在于，所述对融合特征图、差异特征图和全局特征图均进行分类，包括：

6.一种基于切片融合的行人重识别装置，包括处理器以及存储有若干计算机指令的存储器，其特征在于，所述计算机指令被处理器执行时实现权利要求1至权利要求5中任意一项所述方法的步骤。