CN112528879A

CN112528879A - 基于改进GhostNet的多分支行人重识别方法

Info

Publication number: CN112528879A
Application number: CN202011481203.9A
Authority: CN
Inventors: 高云园; 翟家豪; 曹震; 黄金诚; 张卷卷; 董骅
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2021-03-19
Anticipated expiration: 2040-12-15
Also published as: CN112528879B

Abstract

本发明公开了一种基于改进GhostNet的多分支行人重识别方法，首先将GhostNet提取的行人特征经过1ⅹ1卷积，降低通道数，再将特征图送入ResNet50的layer4和layer5，加深特征的通道信息，然后复制成三个分支,第一个分支进行最大池化均值归一化和降维卷积后得到一个全局特征，第二和第三个分支除了处理得到全局特征外，还分别对特征进行水平切割，第二个划分为2，第三个划分为3，在分别进行最大池化均值归一化和降维卷积后得到相应的特征，最后将得到的特征按全局特征和局部特征的不同分别送入三元组损失和交叉熵损失训练。训练160个迭代后，用数据集的query集和gallery集来评估模型的性能。

Description

基于改进GhostNet的多分支行人重识别方法

技术领域

本发明属于计算机视觉领域，涉及一种基于轻量级特征提取主干的多分支行人重识别方法。

技术背景

行人重识别(Person re-identification)也称行人再识别，是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题。给定一个监控行人图像，检索跨设备下的该行人图像。旨在弥补固定的摄像头的视觉局限，并可与行人检测/行人跟踪技术相结合，可广泛应用于智能视频监控、智能安保等领域。由于不同摄像设备之间的差异，同时行人兼具刚性和柔性的特性，外观易受穿着、尺度、遮挡、姿态和视角等影响，使得行人重识别成为计算机视觉领域中一个既具有研究价值同时又极具挑战性的热门课题。

行人重识别任务主要包括特征提取和相似度度量两个步骤。在特征提取上，深度卷积网络的蓬勃发展带来了更强大的特征表示，对于行人图像具有更好的分辨力和鲁棒性，这将Re-ID的性能提升到了一个新的水平；在相似度度量上，统一的度量都是采用特征向量间的欧式距离或者是余弦距离作为相似度的度量标准。

行人图片中包含主要的人物信息和无用的背景信息，为了让模型学习到有用的目标信息，通常使用卷积神经网络来对图片进行特征提取，并对提取的特征进行相应的处理进行学习，最后得到一个识别能力较好的识别模型。

在进行特征学习时，全局特征的目的是学习到最显著的外观表现，但是，一些细节性的特征在全局特征学习时是被忽略的，比如人身上或者衣服上的标志。全局特征会做特征均匀化，从而忽略掉一些细粒度的特征表现。局部特征可以关注更多的细节，但是无论是做关键点定位后的姿态估计还是图像的水平分块，都包含了很多先验知识，在很多的场景中，获得的图像数据不够完整，比如目标大面积被障碍物遮挡，姿态的大幅度变化，行人在图像中的不同占比，以及分块特征没有对齐校准等等。所以，局部特征的学习鲁棒性不够高，在做数据集的迁移时，模型往往适应性比较差。所以，单一做全局特征或者局部特征的学习产生的效果还是不理想的。

发明内容

为了客观、有效地融合细粒度特征，并且利用局部特征和全局特征的信息，本发明提出了一种基于轻量级特征提取主干的多分支行人重识别方法。本发明通过插入改进SE模块的GhostNet对图像进行特征提取，然后经过降维卷积，之后通过ResNet50的layer4和layer5进行通道信息的加深，然后进行了三个分支的联合训练，分别用Cross-Entropy和Triplet损失来训练局部特征和全局特征，最终使用训练好的模型实现行人重识别任务。

基于改进GhostNet的多分支行人重识别方法包括以下步骤：

步骤一，对GhostNet网络中的Ghost模块进行改进，使Ghost模块的输入经过SE模块后与最后一个Ghost Module的输出加权相加，然后将加权相加的结果与恒等映射后的输入相加作为Ghost模块的输出。并使用Mish激活层替代插入了SE模块的GhostNet网络中的ReLu激活函数。使用改进后的GhostNet网络的特征提取部分提取行人图片的特征，得到特征图f∈W×H×1280，W和H分别为特征图f的宽度和高度；

步骤二，将特征图f经过一个1×1的降维卷积，降低特征图f的通道数，得到特征图f¹∈W×H×1024，然后将f¹送入ResNet50网络的layer4和layer5中，加深特征的通道信息，得到特征图f²；

步骤三，将f²分为三个分支，三个分支对应的特征分别记为f₁，f₂，f₃。对这三个分支进行特征处理，具体步骤如下：

s3.1、将特征f₁输入特征重塑模块中，重塑成batch×256形状的特征向量

batch表示：每次喂入模型的图片数。

所述特征重塑模块的结构依次为最大池化、降维卷积、均值归一化，作用是将输入特征重塑成batch×256形状的特征向量。

s3.2、对于特征f₂，首先将f₂输入特征重塑模块，输出特征向量

然后将f₂水平划分为两个部分，将两个部分的特征分别输入特征重塑模块，得到的输出依次记为

s3.3对于特征f₃，首先将f₃输入特征重塑模块，输出特征向量

然后将f₃水平划分为三个部分，将三个部分的特征分别输入特征重塑模块，输出特征向量，依次记为

作为优选，在模型的训练过程中设置batch＝32。

步骤四，将

送入三元组损失Triplet Loss，将

先经过全连接层送入SoftMax，全连接的输出节点个数为数据集中人的类别数，再将SoftMax的输出送入交叉熵Cross-Entropy Loss，进行全局特征与局部特征的联合训练；三元组损失、SoftMax网络与交叉熵计算公式分别为:

其中，a和p为同一个目标的不同图片，n为与a不同目标的图片，

分别表示第i组输入的a、p、n图片。f(·)表示特征提取操作，‖·‖表示求L2范数，m为损失中的裕度值，N为训练的组数。

表示对输入样本的特征经过全连接层输出的第j个节点的输出，

表示第k个节点的输出，C表示类别总数。

是真实标签的one-hot向量，one-hot向量是指多分类标签中的真实目标的位置记为1，其余位置为0的向量。

是SoftMax网络的损失即公式(2)输出的向量。

作为优选，m＝0.3。

当训练损失不再有明显的下降变化时，完成训练优化，保存模型参数。

步骤五：使用训练优化后的模型进行行人重识别，将特征重塑模块中的batch设置为1,将需要查询的数据集的所有图像送入模型，得到所有图像的表征向量表，每张图像的表征向量为

五个向量连接而成，再将需要查询的目标人物的图像送入模型，得到该图像的表征向量，计算其与向量表中的每个向量的距离，按距离从小到大排序，输出排名靠前的若干张图像，完成行人重识别。

本发明具有以下有益效果：

第一，在特征提取主干上，选择了比ResNet50参数量更少的GhostNet，实验证明，两者的特征提取能力相当；在特征提取网络中，加入SE注意力机制，这使得在训练过程中，模型会更加关注有用的信息。

第二，在特征处理阶段，首先经过ResNet50的layer4和layer5加深特征的通道信息，然后复制分成三个分支，第一个分支代表了全局特征信息；第二个分支水平划分为2，表示细粒度为2的局部特征信息；第三个分支水平划分为3，表示细粒度为3的局部特征信息。并且在特征处理阶段使用梯度流更加平缓的Mish代替Relu激活函数。

第三，在有监督训练阶段，不同的特征送入不同的损失函数来约束。其中三个分支的最大池化得到的特征送入三元组损失，其余的局部特征送入交叉熵损失,进行多损失联合训练。

附图说明

图1表示行人重识别方法流程图；

图2表示在步长为2的Ghost模块中插入改进的SE模块的示意图；

图3表示实施例中特征提取网络对行人图片提取的特征图可视化；

图4表示基于GhostNet的多分支细粒度行人重识别模型；

图5(a)、(b)分别表示激活函数Mish和Relu的对比；

图6(a)、(b)、(c)、(d)分别表示实施例的训练过程中模型的交叉熵损失、三元组损失、总损失以及评估指标的变化曲线图；

图7为实施例的查询结果可视化。

具体实施方式

为了有效的提取行人的特征并进行分类识别，本发明对GhostNet网络的特征提取部分进行改进，并融合考虑了全局特征与局部特征。下面结合附图对本发明的实施例作详细说明：

如图1所示，基于改进GhostNet的行人重识别分类方法，具体包括如下步骤：

步骤一，使用将Mish激活层替换了Relu激活函数并添加了SE注意力机制的轻量级特征提取卷积神经网络GhostNet代替传统的特征提取网络ResNet50，提取数据集Market-1501中行人图片的特征。图2为添加了SE模块的步长为2的Ghost模块的网络结构。因为GhostNet的最后一层的特征层的通道为1280，所以将得到的特征图记为f∈W×H×1280；图3展示了GhostNet在行人图片上提取的特征图可视化。

步骤二，构建如图4所示分类模型，将特征图f经过一个1×1的降维卷积，降低尺寸，得到特征图f¹∈W×H×1024，此举的目的是为了送入ResNet50的layer4和layer5，因为layer4和layer5的输入必须为1024个通道。f¹经过ResNet50的layer4和layer5后加深了特征的通道信息，得到加深后的特征f²；

步骤三，将f²分为三个分支，三个分支对应的特征分别记为f₁，f₂，f₃。

特征f₁、f₂、f₃分别经过特征重塑模块后，得到32x256形状的全局特征向量

和

再分别将

和

在水平方向上划分为2个、3个部分后再输入特征重塑模块，分别得到32x256形状的局部特征向量

和

为了使训练中的梯度传播更平滑，把传统的激活函数Relu改成Mish，两者的对比如图5(a)、(b)所示，可以看到在x<0时，Relu函数的梯度一直是1保持不变，而Mish函数的梯度在一个平缓的变换范围内，这可能会有利于模型参数的梯度下降更新。

步骤四，将全局特征

送入三元组损失Triplet Loss，将

经过全连接层送入SoftMax，全连接的输出节点个数为数据集中人的类别数，再将SoftMax的输出送入交叉熵Cross-Entropy Loss，进行全局特征与局部特征的联合训练；。每次输入的图片数量为32张，即每次送入4个人物，每个人物有8张图像。将三元组损失中的裕度值m设置为0.3，最终模型训练过程中的损失及精度变化如图6(a)-(d)所示。

当训练损失不再明显变化时，完成训练优化，保存模型参数。

步骤五，使用数据集Market-1501中的query集和gallery集对模型进行性能评估。首先用模型提取gallery集中的所有样本的表征向量，其次将query集中的每一个样本提取它的表征向量，计算与gallery中的向量表向量间的距离，将最相近的几个样本记为查询到的结果集。最后计算查询结果的正确率来评估模型的好坏。模型的mAP和rank-k如下表所示，其中RK表示re-rank。

模型	mAP	RANK1	RANK5	RANK10
					GhostReID	82.07	92.58	97.09	98.40
GhostReID(RK)	91.76	94.21	97.03	97.80

步骤六、使用优化后的模型进行行人重识别，重识别的结果及可视化如图7所示。

Claims

1.基于改进GhostNet的多分支行人重识别方法，其特征在于：具体包括以下步骤：

步骤一，对GhostNet网络中的Ghost模块进行改进，使Ghost模块的输入经过SE模块后与最后一个Ghost Module的输出加权相加，然后将加权相加的结果与恒等映射后的输入相加作为Ghost模块的输出；并使用Mish激活层替代插入了SE模块的GhostNet网络中的ReLu激活层；使用改进后的GhostNet网络的特征提取部分提取行人图片的特征，得到特征图f∈W×H×1280，W和H分别为特征图f的宽度和高度；

步骤三，将f²分为三个分支，三个分支对应的特征分别记为f₁，f₂，f₃；对这三个分支进行特征处理，具体步骤如下：

s3.1、将特征f₁输入特征重塑模块中，重塑成batch×256形状的特征向量f₁ ^g，batch表示：每次喂入模型的图片数；

所述特征重塑模块的结构为依次将最大池化、降维卷积、均值归一化连接起来，作用是将输入特征重塑成batch×256形状的特征向量；