CN112528879A - 基于改进GhostNet的多分支行人重识别方法 - Google Patents
基于改进GhostNet的多分支行人重识别方法 Download PDFInfo
- Publication number
- CN112528879A CN112528879A CN202011481203.9A CN202011481203A CN112528879A CN 112528879 A CN112528879 A CN 112528879A CN 202011481203 A CN202011481203 A CN 202011481203A CN 112528879 A CN112528879 A CN 112528879A
- Authority
- CN
- China
- Prior art keywords
- feature
- vector
- module
- pedestrian
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 23
- 230000009467 reduction Effects 0.000 claims abstract description 9
- 238000011176 pooling Methods 0.000 claims abstract description 5
- 238000012545 processing Methods 0.000 claims abstract description 5
- 238000010606 normalization Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 45
- 238000000605 extraction Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 9
- 238000012512 characterization method Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000007634 remodeling Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 238000005259 measurement Methods 0.000 description 4
- 238000012800 visualization Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 206010034719 Personality change Diseases 0.000 description 1
- 102100040160 Rabankyrin-5 Human genes 0.000 description 1
- 101710086049 Rabankyrin-5 Proteins 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于改进GhostNet的多分支行人重识别方法,首先将GhostNet提取的行人特征经过1ⅹ1卷积,降低通道数,再将特征图送入ResNet50的layer4和layer5,加深特征的通道信息,然后复制成三个分支,第一个分支进行最大池化均值归一化和降维卷积后得到一个全局特征,第二和第三个分支除了处理得到全局特征外,还分别对特征进行水平切割,第二个划分为2,第三个划分为3,在分别进行最大池化均值归一化和降维卷积后得到相应的特征,最后将得到的特征按全局特征和局部特征的不同分别送入三元组损失和交叉熵损失训练。训练160个迭代后,用数据集的query集和gallery集来评估模型的性能。
Description
技术领域
本发明属于计算机视觉领域,涉及一种基于轻量级特征提取主干的多分支行人重识别方法。
技术背景
行人重识别(Person re-identification)也称行人再识别,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题。给定一个监控行人图像,检索跨设备下的该行人图像。旨在弥补固定的摄像头的视觉局限,并可与行人检测/行人跟踪技术相结合,可广泛应用于智能视频监控、智能安保等领域。由于不同摄像设备之间的差异,同时行人兼具刚性和柔性的特性,外观易受穿着、尺度、遮挡、姿态和视角等影响,使得行人重识别成为计算机视觉领域中一个既具有研究价值同时又极具挑战性的热门课题。
行人重识别任务主要包括特征提取和相似度度量两个步骤。在特征提取上,深度卷积网络的蓬勃发展带来了更强大的特征表示,对于行人图像具有更好的分辨力和鲁棒性,这将Re-ID的性能提升到了一个新的水平;在相似度度量上,统一的度量都是采用特征向量间的欧式距离或者是余弦距离作为相似度的度量标准。
行人图片中包含主要的人物信息和无用的背景信息,为了让模型学习到有用的目标信息,通常使用卷积神经网络来对图片进行特征提取,并对提取的特征进行相应的处理进行学习,最后得到一个识别能力较好的识别模型。
在进行特征学习时,全局特征的目的是学习到最显著的外观表现,但是,一些细节性的特征在全局特征学习时是被忽略的,比如人身上或者衣服上的标志。全局特征会做特征均匀化,从而忽略掉一些细粒度的特征表现。局部特征可以关注更多的细节,但是无论是做关键点定位后的姿态估计还是图像的水平分块,都包含了很多先验知识,在很多的场景中,获得的图像数据不够完整,比如目标大面积被障碍物遮挡,姿态的大幅度变化,行人在图像中的不同占比,以及分块特征没有对齐校准等等。所以,局部特征的学习鲁棒性不够高,在做数据集的迁移时,模型往往适应性比较差。所以,单一做全局特征或者局部特征的学习产生的效果还是不理想的。
发明内容
为了客观、有效地融合细粒度特征,并且利用局部特征和全局特征的信息,本发明提出了一种基于轻量级特征提取主干的多分支行人重识别方法。本发明通过插入改进SE模块的GhostNet对图像进行特征提取,然后经过降维卷积,之后通过ResNet50的layer4和layer5进行通道信息的加深,然后进行了三个分支的联合训练,分别用Cross-Entropy和Triplet损失来训练局部特征和全局特征,最终使用训练好的模型实现行人重识别任务。
基于改进GhostNet的多分支行人重识别方法包括以下步骤:
步骤一,对GhostNet网络中的Ghost模块进行改进,使Ghost模块的输入经过SE模块后与最后一个Ghost Module的输出加权相加,然后将加权相加的结果与恒等映射后的输入相加作为Ghost模块的输出。并使用Mish激活层替代插入了SE模块的GhostNet网络中的ReLu激活函数。使用改进后的GhostNet网络的特征提取部分提取行人图片的特征,得到特征图f∈W×H×1280,W和H分别为特征图f的宽度和高度;
步骤二,将特征图f经过一个1×1的降维卷积,降低特征图f的通道数,得到特征图f1∈W×H×1024,然后将f1送入ResNet50网络的layer4和layer5中,加深特征的通道信息,得到特征图f2;
步骤三,将f2分为三个分支,三个分支对应的特征分别记为f1,f2,f3。对这三个分支进行特征处理,具体步骤如下:
所述特征重塑模块的结构依次为最大池化、降维卷积、均值归一化,作用是将输入特征重塑成batch×256形状的特征向量。
作为优选,在模型的训练过程中设置batch=32。
步骤四,将送入三元组损失Triplet Loss,将先经过全连接层送入SoftMax,全连接的输出节点个数为数据集中人的类别数,再将SoftMax的输出送入交叉熵Cross-Entropy Loss,进行全局特征与局部特征的联合训练;三元组损失、SoftMax网络与交叉熵计算公式分别为:
作为优选,m=0.3。
当训练损失不再有明显的下降变化时,完成训练优化,保存模型参数。
步骤五:使用训练优化后的模型进行行人重识别,将特征重塑模块中的batch设置为1,将需要查询的数据集的所有图像送入模型,得到所有图像的表征向量表,每张图像的表征向量为五个向量连接而成,再将需要查询的目标人物的图像送入模型,得到该图像的表征向量,计算其与向量表中的每个向量的距离,按距离从小到大排序,输出排名靠前的若干张图像,完成行人重识别。
本发明具有以下有益效果:
第一,在特征提取主干上,选择了比ResNet50参数量更少的GhostNet,实验证明,两者的特征提取能力相当;在特征提取网络中,加入SE注意力机制,这使得在训练过程中,模型会更加关注有用的信息。
第二,在特征处理阶段,首先经过ResNet50的layer4和layer5加深特征的通道信息,然后复制分成三个分支,第一个分支代表了全局特征信息;第二个分支水平划分为2,表示细粒度为2的局部特征信息;第三个分支水平划分为3,表示细粒度为3的局部特征信息。并且在特征处理阶段使用梯度流更加平缓的Mish代替Relu激活函数。
第三,在有监督训练阶段,不同的特征送入不同的损失函数来约束。其中三个分支的最大池化得到的特征送入三元组损失,其余的局部特征送入交叉熵损失,进行多损失联合训练。
附图说明
图1表示行人重识别方法流程图;
图2表示在步长为2的Ghost模块中插入改进的SE模块的示意图;
图3表示实施例中特征提取网络对行人图片提取的特征图可视化;
图4表示基于GhostNet的多分支细粒度行人重识别模型;
图5(a)、(b)分别表示激活函数Mish和Relu的对比;
图6(a)、(b)、(c)、(d)分别表示实施例的训练过程中模型的交叉熵损失、三元组损失、总损失以及评估指标的变化曲线图;
图7为实施例的查询结果可视化。
具体实施方式
为了有效的提取行人的特征并进行分类识别,本发明对GhostNet网络的特征提取部分进行改进,并融合考虑了全局特征与局部特征。下面结合附图对本发明的实施例作详细说明:
如图1所示,基于改进GhostNet的行人重识别分类方法,具体包括如下步骤:
步骤一,使用将Mish激活层替换了Relu激活函数并添加了SE注意力机制的轻量级特征提取卷积神经网络GhostNet代替传统的特征提取网络ResNet50,提取数据集Market-1501中行人图片的特征。图2为添加了SE模块的步长为2的Ghost模块的网络结构。因为GhostNet的最后一层的特征层的通道为1280,所以将得到的特征图记为f∈W×H×1280;图3展示了GhostNet在行人图片上提取的特征图可视化。
步骤二,构建如图4所示分类模型,将特征图f经过一个1×1的降维卷积,降低尺寸,得到特征图f1∈W×H×1024,此举的目的是为了送入ResNet50的layer4和layer5,因为layer4和layer5的输入必须为1024个通道。f1经过ResNet50的layer4和layer5后加深了特征的通道信息,得到加深后的特征f2;
步骤三,将f2分为三个分支,三个分支对应的特征分别记为f1,f2,f3。
为了使训练中的梯度传播更平滑,把传统的激活函数Relu改成Mish,两者的对比如图5(a)、(b)所示,可以看到在x<0时,Relu函数的梯度一直是1保持不变,而Mish函数的梯度在一个平缓的变换范围内,这可能会有利于模型参数的梯度下降更新。
步骤四,将全局特征送入三元组损失Triplet Loss,将经过全连接层送入SoftMax,全连接的输出节点个数为数据集中人的类别数,再将SoftMax的输出送入交叉熵Cross-Entropy Loss,进行全局特征与局部特征的联合训练;。每次输入的图片数量为32张,即每次送入4个人物,每个人物有8张图像。将三元组损失中的裕度值m设置为0.3,最终模型训练过程中的损失及精度变化如图6(a)-(d)所示。
当训练损失不再明显变化时,完成训练优化,保存模型参数。
步骤五,使用数据集Market-1501中的query集和gallery集对模型进行性能评估。首先用模型提取gallery集中的所有样本的表征向量,其次将query集中的每一个样本提取它的表征向量,计算与gallery中的向量表向量间的距离,将最相近的几个样本记为查询到的结果集。最后计算查询结果的正确率来评估模型的好坏。模型的mAP和rank-k如下表所示,其中RK表示re-rank。
模型 | mAP | RANK1 | RANK5 | RANK10 |
GhostReID | 82.07 | 92.58 | 97.09 | 98.40 |
GhostReID(RK) | 91.76 | 94.21 | 97.03 | 97.80 |
步骤六、使用优化后的模型进行行人重识别,重识别的结果及可视化如图7所示。
Claims (2)
1.基于改进GhostNet的多分支行人重识别方法,其特征在于:具体包括以下步骤:
步骤一,对GhostNet网络中的Ghost模块进行改进,使Ghost模块的输入经过SE模块后与最后一个Ghost Module的输出加权相加,然后将加权相加的结果与恒等映射后的输入相加作为Ghost模块的输出;并使用Mish激活层替代插入了SE模块的GhostNet网络中的ReLu激活层;使用改进后的GhostNet网络的特征提取部分提取行人图片的特征,得到特征图f∈W×H×1280,W和H分别为特征图f的宽度和高度;
步骤二,将特征图f经过一个1×1的降维卷积,降低特征图f的通道数,得到特征图f1∈W×H×1024,然后将f1送入ResNet50网络的layer4和layer5中,加深特征的通道信息,得到特征图f2;
步骤三,将f2分为三个分支,三个分支对应的特征分别记为f1,f2,f3;对这三个分支进行特征处理,具体步骤如下:
s3.1、将特征f1输入特征重塑模块中,重塑成batch×256形状的特征向量f1 g,batch表示:每次喂入模型的图片数;
所述特征重塑模块的结构为依次将最大池化、降维卷积、均值归一化连接起来,作用是将输入特征重塑成batch×256形状的特征向量;
步骤四,将f1 g,送入三元组损失Triplet Loss,将先经过全连接层送入SoftMax,全连接的输出节点个数为数据集中人的类别数,再将SoftMax的输出送入交叉熵Cross-Entropy Loss,进行全局特征与局部特征的联合训练;三元组损失、SoftMax网络与交叉熵计算公式分别为:
其中,a和p为同一个目标的不同图片,n为与a不同目标的图片,分别表示第i组输入的a、p、n图片;f(·)表示特征提取操作,||·||表示求L2范数,m为损失中的裕度值,N为特征重塑过程中batch的大小;
当训练损失不再有明显的下降变化时,完成训练优化,保存模型参数;
2.如权利要求1所述基于改进GhostNet的多分支行人重识别方法,其特征在于:在步骤四的模型训练过程中设置batch=32,m=0.3。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011481203.9A CN112528879B (zh) | 2020-12-15 | 2020-12-15 | 基于改进GhostNet的多分支行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011481203.9A CN112528879B (zh) | 2020-12-15 | 2020-12-15 | 基于改进GhostNet的多分支行人重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112528879A true CN112528879A (zh) | 2021-03-19 |
CN112528879B CN112528879B (zh) | 2024-02-02 |
Family
ID=75000372
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011481203.9A Active CN112528879B (zh) | 2020-12-15 | 2020-12-15 | 基于改进GhostNet的多分支行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112528879B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113052254A (zh) * | 2021-04-06 | 2021-06-29 | 安徽理工大学 | 多重注意力幽灵残差融合分类模型及其分类方法 |
CN113449743A (zh) * | 2021-07-12 | 2021-09-28 | 西安科技大学 | 一种煤尘颗粒特征提取方法 |
CN114648500A (zh) * | 2022-03-17 | 2022-06-21 | 江西科技师范大学 | 一种基于无人机和深度学习的农作物杂草检测方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109784258A (zh) * | 2019-01-08 | 2019-05-21 | 华南理工大学 | 一种基于多尺度特征切割与融合的行人重识别方法 |
CN110796026A (zh) * | 2019-10-10 | 2020-02-14 | 湖北工业大学 | 一种基于全局特征拼接的行人重识别方法 |
-
2020
- 2020-12-15 CN CN202011481203.9A patent/CN112528879B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109784258A (zh) * | 2019-01-08 | 2019-05-21 | 华南理工大学 | 一种基于多尺度特征切割与融合的行人重识别方法 |
CN110796026A (zh) * | 2019-10-10 | 2020-02-14 | 湖北工业大学 | 一种基于全局特征拼接的行人重识别方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113052254A (zh) * | 2021-04-06 | 2021-06-29 | 安徽理工大学 | 多重注意力幽灵残差融合分类模型及其分类方法 |
CN113449743A (zh) * | 2021-07-12 | 2021-09-28 | 西安科技大学 | 一种煤尘颗粒特征提取方法 |
CN114648500A (zh) * | 2022-03-17 | 2022-06-21 | 江西科技师范大学 | 一种基于无人机和深度学习的农作物杂草检测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112528879B (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cong et al. | Going from RGB to RGBD saliency: A depth-guided transformation model | |
CN108764065B (zh) | 一种行人重识别特征融合辅助学习的方法 | |
CN110443143B (zh) | 多分支卷积神经网络融合的遥感图像场景分类方法 | |
CN112528879B (zh) | 基于改进GhostNet的多分支行人重识别方法 | |
CN111666851B (zh) | 一种基于多粒度标签的交叉域自适应行人重识别方法 | |
CN111539370A (zh) | 一种基于多注意力联合学习的图像行人重识别方法和系统 | |
Cao et al. | Landmark recognition with sparse representation classification and extreme learning machine | |
CN111738143B (zh) | 一种基于期望最大化的行人重识别方法 | |
CN109784197B (zh) | 基于孔洞卷积与注意力学习机制的行人再识别方法 | |
CN111639564B (zh) | 一种基于多注意力异构网络的视频行人重识别方法 | |
CN111709311A (zh) | 一种基于多尺度卷积特征融合的行人重识别方法 | |
CN114419671B (zh) | 一种基于超图神经网络的遮挡行人重识别方法 | |
CN110728694B (zh) | 一种基于持续学习的长时视觉目标跟踪方法 | |
CN110516533B (zh) | 一种基于深度度量的行人再辨识方法 | |
CN108921850B (zh) | 一种基于图像分割技术的图像局部特征的提取方法 | |
CN111881716A (zh) | 一种基于多视角生成对抗网络的行人重识别方法 | |
CN111104973A (zh) | 一种基于知识注意力的细粒度图像分类方法 | |
CN112396036A (zh) | 一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法 | |
CN112766378A (zh) | 一种专注细粒度识别的跨域小样本图像分类模型方法 | |
Wang et al. | Body part-level domain alignment for domain-adaptive person re-identification with transformer framework | |
Liu et al. | Action recognition based on features fusion and 3D convolutional neural networks | |
CN112329662B (zh) | 基于无监督学习的多视角显著性估计方法 | |
CN113011444B (zh) | 一种基于神经网络频域注意力机制的图像识别方法 | |
CN113591545A (zh) | 一种基于深度学习的多级特征提取网络行人再识别方法 | |
CN112446305A (zh) | 一种基于分类权重等距分布损失模型的行人重识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |