CN112528879A - 基于改进GhostNet的多分支行人重识别方法 - Google Patents

基于改进GhostNet的多分支行人重识别方法 Download PDF

Info

Publication number
CN112528879A
CN112528879A CN202011481203.9A CN202011481203A CN112528879A CN 112528879 A CN112528879 A CN 112528879A CN 202011481203 A CN202011481203 A CN 202011481203A CN 112528879 A CN112528879 A CN 112528879A
Authority
CN
China
Prior art keywords
feature
vector
module
pedestrian
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011481203.9A
Other languages
English (en)
Other versions
CN112528879B (zh
Inventor
高云园
翟家豪
曹震
黄金诚
张卷卷
董骅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202011481203.9A priority Critical patent/CN112528879B/zh
Publication of CN112528879A publication Critical patent/CN112528879A/zh
Application granted granted Critical
Publication of CN112528879B publication Critical patent/CN112528879B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于改进GhostNet的多分支行人重识别方法,首先将GhostNet提取的行人特征经过1ⅹ1卷积,降低通道数,再将特征图送入ResNet50的layer4和layer5,加深特征的通道信息,然后复制成三个分支,第一个分支进行最大池化均值归一化和降维卷积后得到一个全局特征,第二和第三个分支除了处理得到全局特征外,还分别对特征进行水平切割,第二个划分为2,第三个划分为3,在分别进行最大池化均值归一化和降维卷积后得到相应的特征,最后将得到的特征按全局特征和局部特征的不同分别送入三元组损失和交叉熵损失训练。训练160个迭代后,用数据集的query集和gallery集来评估模型的性能。

Description

基于改进GhostNet的多分支行人重识别方法
技术领域
本发明属于计算机视觉领域,涉及一种基于轻量级特征提取主干的多分支行人重识别方法。
技术背景
行人重识别(Person re-identification)也称行人再识别,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题。给定一个监控行人图像,检索跨设备下的该行人图像。旨在弥补固定的摄像头的视觉局限,并可与行人检测/行人跟踪技术相结合,可广泛应用于智能视频监控、智能安保等领域。由于不同摄像设备之间的差异,同时行人兼具刚性和柔性的特性,外观易受穿着、尺度、遮挡、姿态和视角等影响,使得行人重识别成为计算机视觉领域中一个既具有研究价值同时又极具挑战性的热门课题。
行人重识别任务主要包括特征提取和相似度度量两个步骤。在特征提取上,深度卷积网络的蓬勃发展带来了更强大的特征表示,对于行人图像具有更好的分辨力和鲁棒性,这将Re-ID的性能提升到了一个新的水平;在相似度度量上,统一的度量都是采用特征向量间的欧式距离或者是余弦距离作为相似度的度量标准。
行人图片中包含主要的人物信息和无用的背景信息,为了让模型学习到有用的目标信息,通常使用卷积神经网络来对图片进行特征提取,并对提取的特征进行相应的处理进行学习,最后得到一个识别能力较好的识别模型。
在进行特征学习时,全局特征的目的是学习到最显著的外观表现,但是,一些细节性的特征在全局特征学习时是被忽略的,比如人身上或者衣服上的标志。全局特征会做特征均匀化,从而忽略掉一些细粒度的特征表现。局部特征可以关注更多的细节,但是无论是做关键点定位后的姿态估计还是图像的水平分块,都包含了很多先验知识,在很多的场景中,获得的图像数据不够完整,比如目标大面积被障碍物遮挡,姿态的大幅度变化,行人在图像中的不同占比,以及分块特征没有对齐校准等等。所以,局部特征的学习鲁棒性不够高,在做数据集的迁移时,模型往往适应性比较差。所以,单一做全局特征或者局部特征的学习产生的效果还是不理想的。
发明内容
为了客观、有效地融合细粒度特征,并且利用局部特征和全局特征的信息,本发明提出了一种基于轻量级特征提取主干的多分支行人重识别方法。本发明通过插入改进SE模块的GhostNet对图像进行特征提取,然后经过降维卷积,之后通过ResNet50的layer4和layer5进行通道信息的加深,然后进行了三个分支的联合训练,分别用Cross-Entropy和Triplet损失来训练局部特征和全局特征,最终使用训练好的模型实现行人重识别任务。
基于改进GhostNet的多分支行人重识别方法包括以下步骤:
步骤一,对GhostNet网络中的Ghost模块进行改进,使Ghost模块的输入经过SE模块后与最后一个Ghost Module的输出加权相加,然后将加权相加的结果与恒等映射后的输入相加作为Ghost模块的输出。并使用Mish激活层替代插入了SE模块的GhostNet网络中的ReLu激活函数。使用改进后的GhostNet网络的特征提取部分提取行人图片的特征,得到特征图f∈W×H×1280,W和H分别为特征图f的宽度和高度;
步骤二,将特征图f经过一个1×1的降维卷积,降低特征图f的通道数,得到特征图f1∈W×H×1024,然后将f1送入ResNet50网络的layer4和layer5中,加深特征的通道信息,得到特征图f2
步骤三,将f2分为三个分支,三个分支对应的特征分别记为f1,f2,f3。对这三个分支进行特征处理,具体步骤如下:
s3.1、将特征f1输入特征重塑模块中,重塑成batch×256形状的特征向量
Figure BDA0002837651490000021
batch表示:每次喂入模型的图片数。
所述特征重塑模块的结构依次为最大池化、降维卷积、均值归一化,作用是将输入特征重塑成batch×256形状的特征向量。
s3.2、对于特征f2,首先将f2输入特征重塑模块,输出特征向量
Figure BDA0002837651490000022
然后将f2水平划分为两个部分,将两个部分的特征分别输入特征重塑模块,得到的输出依次记为
Figure BDA0002837651490000023
s3.3对于特征f3,首先将f3输入特征重塑模块,输出特征向量
Figure BDA0002837651490000024
然后将f3水平划分为三个部分,将三个部分的特征分别输入特征重塑模块,输出特征向量,依次记为
Figure BDA0002837651490000025
作为优选,在模型的训练过程中设置batch=32。
步骤四,将
Figure BDA0002837651490000031
送入三元组损失Triplet Loss,将
Figure BDA0002837651490000032
先经过全连接层送入SoftMax,全连接的输出节点个数为数据集中人的类别数,再将SoftMax的输出送入交叉熵Cross-Entropy Loss,进行全局特征与局部特征的联合训练;三元组损失、SoftMax网络与交叉熵计算公式分别为:
Figure BDA0002837651490000033
Figure BDA0002837651490000034
Figure BDA0002837651490000035
其中,a和p为同一个目标的不同图片,n为与a不同目标的图片,
Figure BDA0002837651490000036
分别表示第i组输入的a、p、n图片。f(·)表示特征提取操作,‖·‖表示求L2范数,m为损失中的裕度值,N为训练的组数。
Figure BDA0002837651490000037
表示对输入样本的特征经过全连接层输出的第j个节点的输出,
Figure BDA0002837651490000038
表示第k个节点的输出,C表示类别总数。
Figure BDA0002837651490000039
是真实标签的one-hot向量,one-hot向量是指多分类标签中的真实目标的位置记为1,其余位置为0的向量。
Figure BDA00028376514900000310
是SoftMax网络的损失即公式(2)输出的向量。
作为优选,m=0.3。
当训练损失不再有明显的下降变化时,完成训练优化,保存模型参数。
步骤五:使用训练优化后的模型进行行人重识别,将特征重塑模块中的batch设置为1,将需要查询的数据集的所有图像送入模型,得到所有图像的表征向量表,每张图像的表征向量为
Figure BDA00028376514900000311
五个向量连接而成,再将需要查询的目标人物的图像送入模型,得到该图像的表征向量,计算其与向量表中的每个向量的距离,按距离从小到大排序,输出排名靠前的若干张图像,完成行人重识别。
本发明具有以下有益效果:
第一,在特征提取主干上,选择了比ResNet50参数量更少的GhostNet,实验证明,两者的特征提取能力相当;在特征提取网络中,加入SE注意力机制,这使得在训练过程中,模型会更加关注有用的信息。
第二,在特征处理阶段,首先经过ResNet50的layer4和layer5加深特征的通道信息,然后复制分成三个分支,第一个分支代表了全局特征信息;第二个分支水平划分为2,表示细粒度为2的局部特征信息;第三个分支水平划分为3,表示细粒度为3的局部特征信息。并且在特征处理阶段使用梯度流更加平缓的Mish代替Relu激活函数。
第三,在有监督训练阶段,不同的特征送入不同的损失函数来约束。其中三个分支的最大池化得到的特征送入三元组损失,其余的局部特征送入交叉熵损失,进行多损失联合训练。
附图说明
图1表示行人重识别方法流程图;
图2表示在步长为2的Ghost模块中插入改进的SE模块的示意图;
图3表示实施例中特征提取网络对行人图片提取的特征图可视化;
图4表示基于GhostNet的多分支细粒度行人重识别模型;
图5(a)、(b)分别表示激活函数Mish和Relu的对比;
图6(a)、(b)、(c)、(d)分别表示实施例的训练过程中模型的交叉熵损失、三元组损失、总损失以及评估指标的变化曲线图;
图7为实施例的查询结果可视化。
具体实施方式
为了有效的提取行人的特征并进行分类识别,本发明对GhostNet网络的特征提取部分进行改进,并融合考虑了全局特征与局部特征。下面结合附图对本发明的实施例作详细说明:
如图1所示,基于改进GhostNet的行人重识别分类方法,具体包括如下步骤:
步骤一,使用将Mish激活层替换了Relu激活函数并添加了SE注意力机制的轻量级特征提取卷积神经网络GhostNet代替传统的特征提取网络ResNet50,提取数据集Market-1501中行人图片的特征。图2为添加了SE模块的步长为2的Ghost模块的网络结构。因为GhostNet的最后一层的特征层的通道为1280,所以将得到的特征图记为f∈W×H×1280;图3展示了GhostNet在行人图片上提取的特征图可视化。
步骤二,构建如图4所示分类模型,将特征图f经过一个1×1的降维卷积,降低尺寸,得到特征图f1∈W×H×1024,此举的目的是为了送入ResNet50的layer4和layer5,因为layer4和layer5的输入必须为1024个通道。f1经过ResNet50的layer4和layer5后加深了特征的通道信息,得到加深后的特征f2
步骤三,将f2分为三个分支,三个分支对应的特征分别记为f1,f2,f3
特征f1、f2、f3分别经过特征重塑模块后,得到32x256形状的全局特征向量
Figure BDA0002837651490000051
Figure BDA0002837651490000052
再分别将
Figure BDA0002837651490000053
Figure BDA0002837651490000054
在水平方向上划分为2个、3个部分后再输入特征重塑模块,分别得到32x256形状的局部特征向量
Figure BDA0002837651490000055
Figure BDA0002837651490000056
为了使训练中的梯度传播更平滑,把传统的激活函数Relu改成Mish,两者的对比如图5(a)、(b)所示,可以看到在x<0时,Relu函数的梯度一直是1保持不变,而Mish函数的梯度在一个平缓的变换范围内,这可能会有利于模型参数的梯度下降更新。
步骤四,将全局特征
Figure BDA0002837651490000057
送入三元组损失Triplet Loss,将
Figure BDA0002837651490000058
经过全连接层送入SoftMax,全连接的输出节点个数为数据集中人的类别数,再将SoftMax的输出送入交叉熵Cross-Entropy Loss,进行全局特征与局部特征的联合训练;。每次输入的图片数量为32张,即每次送入4个人物,每个人物有8张图像。将三元组损失中的裕度值m设置为0.3,最终模型训练过程中的损失及精度变化如图6(a)-(d)所示。
当训练损失不再明显变化时,完成训练优化,保存模型参数。
步骤五,使用数据集Market-1501中的query集和gallery集对模型进行性能评估。首先用模型提取gallery集中的所有样本的表征向量,其次将query集中的每一个样本提取它的表征向量,计算与gallery中的向量表向量间的距离,将最相近的几个样本记为查询到的结果集。最后计算查询结果的正确率来评估模型的好坏。模型的mAP和rank-k如下表所示,其中RK表示re-rank。
模型 mAP RANK1 RANK5 RANK10
GhostReID 82.07 92.58 97.09 98.40
GhostReID(RK) 91.76 94.21 97.03 97.80
步骤六、使用优化后的模型进行行人重识别,重识别的结果及可视化如图7所示。

Claims (2)

1.基于改进GhostNet的多分支行人重识别方法,其特征在于:具体包括以下步骤:
步骤一,对GhostNet网络中的Ghost模块进行改进,使Ghost模块的输入经过SE模块后与最后一个Ghost Module的输出加权相加,然后将加权相加的结果与恒等映射后的输入相加作为Ghost模块的输出;并使用Mish激活层替代插入了SE模块的GhostNet网络中的ReLu激活层;使用改进后的GhostNet网络的特征提取部分提取行人图片的特征,得到特征图f∈W×H×1280,W和H分别为特征图f的宽度和高度;
步骤二,将特征图f经过一个1×1的降维卷积,降低特征图f的通道数,得到特征图f1∈W×H×1024,然后将f1送入ResNet50网络的layer4和layer5中,加深特征的通道信息,得到特征图f2
步骤三,将f2分为三个分支,三个分支对应的特征分别记为f1,f2,f3;对这三个分支进行特征处理,具体步骤如下:
s3.1、将特征f1输入特征重塑模块中,重塑成batch×256形状的特征向量f1 g,batch表示:每次喂入模型的图片数;
所述特征重塑模块的结构为依次将最大池化、降维卷积、均值归一化连接起来,作用是将输入特征重塑成batch×256形状的特征向量;
s3.2、对于特征f2,首先将f2输入特征重塑模块,输出特征向量
Figure FDA0002837651480000011
然后将f2水平划分为两个部分,将两个部分的特征分别输入特征重塑模块,得到的输出依次记为
Figure FDA0002837651480000012
s3.3对于特征f3,首先将f3输入特征重塑模块,输出特征向量
Figure FDA0002837651480000013
然后将f3水平划分为三个部分,将三个部分的特征分别输入特征重塑模块,输出特征向量,依次记为
Figure FDA0002837651480000014
步骤四,将f1 g
Figure FDA0002837651480000015
送入三元组损失Triplet Loss,将
Figure FDA0002837651480000016
先经过全连接层送入SoftMax,全连接的输出节点个数为数据集中人的类别数,再将SoftMax的输出送入交叉熵Cross-Entropy Loss,进行全局特征与局部特征的联合训练;三元组损失、SoftMax网络与交叉熵计算公式分别为:
Figure FDA0002837651480000017
Figure FDA0002837651480000018
Figure FDA0002837651480000021
其中,a和p为同一个目标的不同图片,n为与a不同目标的图片,
Figure FDA0002837651480000022
分别表示第i组输入的a、p、n图片;f(·)表示特征提取操作,||·||表示求L2范数,m为损失中的裕度值,N为特征重塑过程中batch的大小;
Figure FDA0002837651480000027
表示对输入样本的特征经过全连接层输出的第j个节点的输出,
Figure FDA0002837651480000023
表示第k个节点的输出,C表示类别总数;
Figure FDA0002837651480000024
是真实标签的one-hot向量,one-hot向量是指多分类标签中的真实目标的位置记为1,其余位置为0的向量;
Figure FDA0002837651480000025
是SoftMax网络的损失即公式(2)输出的向量;
当训练损失不再有明显的下降变化时,完成训练优化,保存模型参数;
步骤五:使用训练优化后的模型进行行人重识别,将特征重塑模块中的batch设置为1,将需要查询的数据集的所有图像送入模型,得到所有图像的表征向量表,每张图像的表征向量为
Figure FDA0002837651480000026
五个向量连接而成,再将需要查询的目标人物的图像送入模型,得到该图像的表征向量,计算其与向量表中的每个向量的距离,按距离从小到大排序,输出排名靠前的若干张图像,完成行人重识别。
2.如权利要求1所述基于改进GhostNet的多分支行人重识别方法,其特征在于:在步骤四的模型训练过程中设置batch=32,m=0.3。
CN202011481203.9A 2020-12-15 2020-12-15 基于改进GhostNet的多分支行人重识别方法 Active CN112528879B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011481203.9A CN112528879B (zh) 2020-12-15 2020-12-15 基于改进GhostNet的多分支行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011481203.9A CN112528879B (zh) 2020-12-15 2020-12-15 基于改进GhostNet的多分支行人重识别方法

Publications (2)

Publication Number Publication Date
CN112528879A true CN112528879A (zh) 2021-03-19
CN112528879B CN112528879B (zh) 2024-02-02

Family

ID=75000372

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011481203.9A Active CN112528879B (zh) 2020-12-15 2020-12-15 基于改进GhostNet的多分支行人重识别方法

Country Status (1)

Country Link
CN (1) CN112528879B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113052254A (zh) * 2021-04-06 2021-06-29 安徽理工大学 多重注意力幽灵残差融合分类模型及其分类方法
CN113449743A (zh) * 2021-07-12 2021-09-28 西安科技大学 一种煤尘颗粒特征提取方法
CN114648500A (zh) * 2022-03-17 2022-06-21 江西科技师范大学 一种基于无人机和深度学习的农作物杂草检测方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784258A (zh) * 2019-01-08 2019-05-21 华南理工大学 一种基于多尺度特征切割与融合的行人重识别方法
CN110796026A (zh) * 2019-10-10 2020-02-14 湖北工业大学 一种基于全局特征拼接的行人重识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784258A (zh) * 2019-01-08 2019-05-21 华南理工大学 一种基于多尺度特征切割与融合的行人重识别方法
CN110796026A (zh) * 2019-10-10 2020-02-14 湖北工业大学 一种基于全局特征拼接的行人重识别方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113052254A (zh) * 2021-04-06 2021-06-29 安徽理工大学 多重注意力幽灵残差融合分类模型及其分类方法
CN113449743A (zh) * 2021-07-12 2021-09-28 西安科技大学 一种煤尘颗粒特征提取方法
CN114648500A (zh) * 2022-03-17 2022-06-21 江西科技师范大学 一种基于无人机和深度学习的农作物杂草检测方法及装置

Also Published As

Publication number Publication date
CN112528879B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
Cong et al. Going from RGB to RGBD saliency: A depth-guided transformation model
CN108764065B (zh) 一种行人重识别特征融合辅助学习的方法
CN110443143B (zh) 多分支卷积神经网络融合的遥感图像场景分类方法
CN112528879B (zh) 基于改进GhostNet的多分支行人重识别方法
CN111666851B (zh) 一种基于多粒度标签的交叉域自适应行人重识别方法
CN111539370A (zh) 一种基于多注意力联合学习的图像行人重识别方法和系统
Cao et al. Landmark recognition with sparse representation classification and extreme learning machine
CN111738143B (zh) 一种基于期望最大化的行人重识别方法
CN109784197B (zh) 基于孔洞卷积与注意力学习机制的行人再识别方法
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN111709311A (zh) 一种基于多尺度卷积特征融合的行人重识别方法
CN114419671B (zh) 一种基于超图神经网络的遮挡行人重识别方法
CN110728694B (zh) 一种基于持续学习的长时视觉目标跟踪方法
CN110516533B (zh) 一种基于深度度量的行人再辨识方法
CN108921850B (zh) 一种基于图像分割技术的图像局部特征的提取方法
CN111881716A (zh) 一种基于多视角生成对抗网络的行人重识别方法
CN111104973A (zh) 一种基于知识注意力的细粒度图像分类方法
CN112396036A (zh) 一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法
CN112766378A (zh) 一种专注细粒度识别的跨域小样本图像分类模型方法
Wang et al. Body part-level domain alignment for domain-adaptive person re-identification with transformer framework
Liu et al. Action recognition based on features fusion and 3D convolutional neural networks
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法
CN113011444B (zh) 一种基于神经网络频域注意力机制的图像识别方法
CN113591545A (zh) 一种基于深度学习的多级特征提取网络行人再识别方法
CN112446305A (zh) 一种基于分类权重等距分布损失模型的行人重识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant