CN115294601B - 基于多尺度特征动态融合的行人重识别方法 - Google Patents

基于多尺度特征动态融合的行人重识别方法 Download PDF

Info

Publication number
CN115294601B
CN115294601B CN202210870763.6A CN202210870763A CN115294601B CN 115294601 B CN115294601 B CN 115294601B CN 202210870763 A CN202210870763 A CN 202210870763A CN 115294601 B CN115294601 B CN 115294601B
Authority
CN
China
Prior art keywords
pedestrian
scale
branch
feature map
global
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210870763.6A
Other languages
English (en)
Other versions
CN115294601A (zh
Inventor
邹玮
浦嘉成
王加俊
胡丹峰
方二喜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202210870763.6A priority Critical patent/CN115294601B/zh
Publication of CN115294601A publication Critical patent/CN115294601A/zh
Application granted granted Critical
Publication of CN115294601B publication Critical patent/CN115294601B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于多尺度特征动态融合的行人重识别方法,包括构建包括主干网络和三条分支网络的神经网络,主干网络根据输入图像得到行人的多尺度全局特征图,三条分支网络根据行人的多尺度全局特征图提取全局特征和多维度的局部特征;根据全局特征和多维度的局部特征训练包括主干网络和三条分支网络的神经网络得到训练完成的神经网络,将待识别图像作为输入图像输入所述训练完成的神经网络得到行人重识别结果。本发明可以得到丰富且具有辨别性的特征、提高行人重识别的精度。

Description

基于多尺度特征动态融合的行人重识别方法
技术领域
本发明涉及图像识别技术领域,尤其是指一种基于多尺度特征动态融合的行人重识别方法。
背景技术
行人重识别(Person re-identification,Re-ID)是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。行人重识别用于弥补摄像头的视觉局限,并可与行人检测/行人跟踪技术相结合,广泛应用于智能视频监控、智能安保等领域。
Re-ID在实际应用场景下的数据非常复杂,由于收集跨摄像头匹配的人图像的困难十分大,目前主要技术难点为类内差异大,类间差异小。现有技术有基于表征学习的行人重识别,这种方法通过CNN网络提取图像的表征特征,然后进行训练模型,重识别则靠网络验证两张行人图像来实现。而基于度量学习的方法则是把重识别的实现放在对行人图像相似度比较上,也就是说对于同一行人的图片,他们之间相似度要更大,损失函数也是根据这种关系进行设计,如图1所示为行人重识别系统的框架设计图,其中参考图像集和查询集都是在测试集中出现的概念,测试时在查询集中选取元素到参考图像集中寻找,最终测试阶段对模型性能的评估是根据查询集中元素检索的效果来反映的。
尽管在卷积神经网络(Convolutional Neural Network,CNN)的端到端表示学习帮助下,RE-ID的性能得到了显著提升,但在如何进行特征提取和度量学习计算还有很大进步空间。作为一个实例级识别任务,在不相交的摄像机视图下重新识别人需要克服类内变化大和类间模糊两大困难。例如相机之间的视角变化(从正面到背面、侧面)给背包区域带来了较大的外观变化,这需要使用RE-ID特性来捕获细微的细节,用以区分具有相似外表的人,仅利用全局特征会忽略掉一部分细粒度信息,无法提取出具有辨别性的特征,这会大大降低识别性能。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术中的不足,提供一种基于多尺度特征动态融合的行人重识别方法,可以得到丰富且具有辨别性的特征、提高行人重识别的精度。
为解决上述技术问题,本发明提供了一种基于多尺度特征动态融合的行人重识别方法,包括以下步骤:
构建包括主干网络和三条分支网络的神经网络,所述主干网络根据输入图像得到行人的多尺度全局特征图,所述三条分支网络根据所述行人的多尺度全局特征图提取全局特征和多维度的局部特征;
根据所述全局特征和多维度的局部特征训练所述包括主干网络和三条分支网络的神经网络得到训练完成的神经网络;
将待识别图像作为输入图像输入所述训练完成的神经网络得到行人重识别结果。
作为优选的,所述主干网络包括七层,分别为:第一层卷积层、第二层最大池化层、第三层统一聚合门、第四层平均池化层、第五层统一聚合门、第六层平均池化层、第七层统一聚合门;
输入图像经过第一层卷积层后经下采样操作进入第二层最大池化层,然后经过第三层统一聚合门后经下采样操作进入第四层平均池化层,接着经过第五层统一聚合门后经下采样操作进入第六层平均池化层,最后经过第七层的统一聚合门后得到行人的多尺度全局特征图。
作为优选的,所述三条分支网络分别为Part-1分支、Part-2分支和Part-3分支,
所述Part-1分支从所述行人的多尺度全局特征图中提取全局特征,
所述Part-2分支和所述Part-3分支分别从所述行人的多尺度全局特征图中提取不同维度的局部特征。
作为优选的,所述Part-1分支包括带指数参数p的广义平均池化层,
所述带指数参数p的广义平均池化层从所述行人的多尺度全局特征图中提取全局特征
Figure BDA0003761127510000031
作为优选的,所述Part-2分支包括两个卷积核不相同的全局最大池化层,Part-2分支的一个全局最大池化层从所述行人的多尺度全局特征图中提取局部特征
Figure BDA0003761127510000032
Part-2分支的另一个全局最大池化层从所述行人的多尺度全局特征图中提取n个局部特征
Figure BDA0003761127510000033
所述Part-3分支包括两个卷积核不相同的全局最大池化层,Part-3分支的一个全局最大池化层从所述行人的多尺度全局特征图中提取局部特征
Figure BDA0003761127510000034
Part-3分支的另一个全局最大池化层从所述行人的多尺度全局特征图中提取m个局部特征
Figure BDA0003761127510000035
所述n与m取值不同。
作为优选的,所述Part-2分支的另一个全局最大池化层从所述行人的多尺度全局特征图中提取n个局部特征
Figure BDA0003761127510000041
具体为:
将所述行人的多尺度全局特征图的图谱分成上下两部分得到上半身多尺度全局特征图和下半身多尺度全局特征图,分别对所述上半身多尺度全局特征图和下半身多尺度全局特征图进行局部特征提取和降维,得到2个局部特征
Figure BDA0003761127510000042
和/>
Figure BDA0003761127510000043
作为优选的,所述Part-3分支的另一个全局最大池化层从所述行人的多尺度全局特征图中提取m个局部特征
Figure BDA0003761127510000044
具体为:
将所述行人的多尺度全局特征图的图谱分成上下三部分得到头部多尺度全局特征图、腹胸多尺度全局特征图和腿部多尺度全局特征图,分别对所述头部多尺度全局特征图、腹胸多尺度全局特征图和腿部多尺度全局特征图进行局部特征提取和降维,得到3个局部特征
Figure BDA0003761127510000045
和/>
Figure BDA0003761127510000046
作为优选的,根据所述全局特征和多维度的局部特征训练所述包括主干网络和三条分支网络的神经网络得到训练完成的神经网络,具体为:
使用所述局部特征
Figure BDA0003761127510000047
和局部特征/>
Figure BDA0003761127510000048
构建分类学习的损失函数L1,使用所述全局特征和局部特征/>
Figure BDA0003761127510000049
构建度量学习的损失函数L2;
根据所述分类学习的损失函数L1和度量学习的损失函数L2建立所述包括主干网络和三条分支网络的神经网络的联合训练的损失函数L=L1+αL2,其中α为加权因子;
获取训练集并使用训练集训练所述包括主干网络和三条分支网络的神经网络,直到所述联合训练的损失函数L收敛结束训练,得到所述训练完成的神经网络。
作为优选的,所述分类学习的损失函数L1为Softmax损失函数,所述度量学习的损失函数L2为三元组损失函数。
作为优选的,所述Part-1分支从所述行人的多尺度全局特征图中提取全局特征时,在所述行人的多尺度全局特征图进入所述Part-1分支时会进行下采样操作;
所述Part-2分支和所述Part-3分支分别从所述行人的多尺度全局特征图中提取不同维度的局部特征时,在所述行人的多尺度全局特征图进入所述Part-2分支和所述Part-3分支时不进行下采样操作。
本发明的上述技术方案相比现有技术具有以下优点:
本发明通过主干网络得到行人的多尺度全局特征图,并通过三条分支网络分别提取全局特征和多维度的局部特征,由此得到了丰富且具有辨别性的特征,提高了识别性能,提高了行人重识别的精度。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中
图1是行人重识别系统的框架设计图;
图2是本发明的流程图;
图3是本发明中主干网络的结构示意图;
图4是本发明中Part-1分支的结构示意图;
图5是本发明中Part-2分支的结构示意图;
图6是本发明中Part-3分支的结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
如图2所示,本发明公开了一种基于多尺度特征动态融合的行人重识别方法,包括:
S1:构建包括主干网络和三条分支网络的神经网络,所述主干网络根据输入图像得到行人的多尺度全局特征图,三条所述分支网络根据所述行人的多尺度全局特征图提取全局特征和多维度的局部特征,从而提取更精细的特征进行辨别。
如图3所示,所述主干网络包括七层,分别为第一层卷积层、第二层最大池化层、第三层统一聚合门(AG)、第四层平均池化层、第五层统一聚合门、第六层平均池化层、第七层统一聚合门;
输入图像经过第一层卷积层后经下采样操作进入第二层最大池化层,然后经过第三层统一聚合门后经下采样操作进入第四层平均池化层,接着经过第五层统一聚合门后经下采样操作进入第六层平均池化层,最后经过第七层的统一聚合门后得到行人的多尺度全局特征图。
本实施例中,第一层卷积层的卷积核为7x7、第二层最大池化层的卷积核为3x3、第四层和第六层平均池化层的卷积核均为2x2,下采样操作时的步长均为2。图像大小为384x128的输入图像经过4个不同感受野的卷积特征流后,提取到行人不同尺度的特征,再由统一聚合门进行动态融合形成大小为16x8x512维的行人的多尺度全局特征图,可以有效的学习到行人的多尺度特征。提取的特征是多尺度的,因此定义要提取的特征是变量同构和异构尺度的组合,所以本发明中设计的构建块由多个不同的卷积特征流组成,每个流所关注的特征尺度由指数决定,指数是一个新的维度因子,跨流线性增加,以确保每个块中捕获不同尺度;接着由统一聚合门(AG)生成的通道权值融合得到行人的多尺度全局特征图。AG是一种跨所有流共享参数的子网络,根据特定的输入图像,门可以通过为特定的尺度分配主导权重来生成异构的特征尺度。
所述三条分支网络分别为Part-1分支、Part-2分支和Part-3分支,所述Part-1分支从所述行人的多尺度全局特征图中提取全局特征,所述Part-2分支和所述Part-3分支分别从所述行人的多尺度全局特征图中提取不同维度的局部特征。
如图4所示,所述Part-1分支包括带指数参数p的广义平均池化(generalizedmean pooling,GeM)层和全连接层,所述带指数参数p的广义平均池化层从所述行人的多尺度全局特征图中提取全局特征
Figure BDA0003761127510000071
具体为将所述行人的多尺度全局特征图映射成所述全局特征/>
Figure BDA0003761127510000072
GeM将空间响应转化成固定大小,本实施例中p初始化为6.5。所述全连接层使用分类损失函数对所述全局特征/>
Figure BDA0003761127510000073
进行分类学习,同时使用三元组损失函数对所述全局特征
Figure BDA0003761127510000074
进行度量学习。
如图5所示,所述Part-2分支包括两个卷积核不相同的全局最大池化层,Part-2分支的一个全局最大池化层从所述行人的多尺度全局特征图中提取局部特征
Figure BDA0003761127510000075
Part-2分支的另一个全局最大池化层从所述行人的多尺度全局特征图中提取n个局部特征
Figure BDA0003761127510000076
Part-2分支的另一个全局最大池化层从所述行人的多尺度全局特征图中提取n个局部特征/>
Figure BDA0003761127510000077
具体为:将所述行人的多尺度全局特征图的图谱分成上下两部分得到上半身多尺度全局特征图和下半身多尺度全局特征图,分别对所述上半身多尺度全局特征图和下半身多尺度全局特征图进行局部特征提取和降维,得到2个局部特征/>
Figure BDA0003761127510000078
和/>
Figure BDA0003761127510000079
如图6所示,所述Part-3分支包括两个卷积核不相同的全局最大池化层,Part-3分支的一个全局最大池化层从所述行人的多尺度全局特征图中提取局部特征
Figure BDA0003761127510000081
Part-3分支的另一个全局最大池化层从所述行人的多尺度全局特征图中提取m个局部特征
Figure BDA0003761127510000082
Part-3分支的另一个全局最大池化层从所述行人的多尺度全局特征图中提取m个局部特征/>
Figure BDA0003761127510000083
具体为:将所述行人的多尺度全局特征图的图谱分成上下三部分得到头部多尺度全局特征图、腹胸多尺度全局特征图和腿部多尺度全局特征图,分别对所述头部多尺度全局特征图、腹胸多尺度全局特征图和腿部多尺度全局特征图进行局部特征提取和降维,得到3个局部特征/>
Figure BDA0003761127510000084
和/>
Figure BDA0003761127510000085
n与m取值不同。本实施例中,Part-2分支的一个全局最大池化层的卷积核大小为24x8,另一个全局最大池化层的卷积核大小为12x8。16x8x512维的行人的多尺度全局特征图经过卷积核大小为24x8的全局最大池化层得到1x1x2048维的局部特征
Figure BDA00037611275100000811
16x8x512维的行人的多尺度全局特征图通过卷积核大小为12x8的全局最大池化层后生成2x1x2048的向量,拆分生成2个1x1x2048的向量后再做降维得到2个1x1x256维的局部特征/>
Figure BDA0003761127510000086
和/>
Figure BDA0003761127510000087
本实施例中,Part-3分支的一个全局最大池化层的卷积核大小为24x8,另一个全局最大池化层的卷积核大小为12x8。16x8x512维的行人的多尺度全局特征图经过卷积核大小为24x8的全局最大池化层得到1x1x2048维的局部特征
Figure BDA0003761127510000088
16x8x512维的行人的多尺度全局特征图通过卷积核大小为8x8的全局最大池化层后生成3x1x2048的向量,拆分生成3个1x1x2048的向量,再做降维得到3个1x1x256维的局部特征/>
Figure BDA0003761127510000089
和/>
Figure BDA00037611275100000810
所述Part-1分支从所述行人的多尺度全局特征图中提取全局特征时,在所述行人的多尺度全局特征图进入所述Part-1分支时会进行下采样操作;所述Part-2分支和所述Part-3分支分别从所述行人的多尺度全局特征图中提取不同维度的局部特征时,在所述行人的多尺度全局特征图进入所述Part-2分支和所述Part-3分支时不进行下采样操作。不进行下采样操作,不仅可以获得更高分辨率的特征图、增强网络挖掘细节信息的能力,而且可以保留足够的局部特征感受野来对特征映射进行分块操作。
Part-2包括
Figure BDA0003761127510000091
和/>
Figure BDA0003761127510000092
三个特征尺度的局部特征,Part-3包括/>
Figure BDA0003761127510000093
Figure BDA0003761127510000094
和/>
Figure BDA0003761127510000095
四个特征尺度的局部特征,每个局部特征都分别计算,可以使得模型尽量对每个特征学习更多的信息,从而提高行人重识别的精确度。
S2:述全局特征和局部特征训练所述包括主干网络和三条分支网络的神经网络得到训练完成的神经网络。
S2-1:使用所述局部特征
Figure BDA0003761127510000096
和局部特征/>
Figure BDA0003761127510000097
构建分类学习的损失函数L1,所述Part-2分支的全局最大池化层后设有n个分类器,n个局部特征/>
Figure BDA0003761127510000098
输入n个分类器得到n个分类预测损失;所述Part-3分支的全局最大池化层后设有m个分类器,m个局部特征/>
Figure BDA0003761127510000099
Figure BDA00037611275100000910
输入m个分类器得到m个分类预测损失;使用n+m个分类预测损失构建分类学习的损失函数L1。使用所述全局特征/>
Figure BDA00037611275100000911
和局部特征/>
Figure BDA00037611275100000912
构建度量学习的损失函数L2;结合全局特征和局部特征来完善对学习特征的综合性,可以提高神经网络模型的识别能力。
分类学习的损失函数L1为Softmax损失函数,分类学习的损失函数还可以是交叉熵损失函数等其他函数。所述度量学习的损失函数L2为三元组损失函数,全局特征
Figure BDA00037611275100000913
和局部特征/>
Figure BDA00037611275100000914
通过利用三元组损失函数进行度量学习的计算,可以有效扩大不同类的区别、减少相同类的差距。通过softmax损失函数和三元组损失函数对不同的特征进行有区分的分类学习和度量学习,可以提高辨识性能。
S2-2:根据所述分类学习的损失函数L1和度量学习的损失函数L2建立所述包括主干网络和三条分支网络的神经网络的联合训练的损失函数L=L1+αL2,其中α为加权因子;本实施例中α取值0.3。
S2-3:获取训练集并使用训练集训练所述包括主干网络和三条分支网络的神经网络,直到所述联合训练的损失函数L收敛结束训练,得到所述训练完成的神经网络。
S3:别图像作为输入图像输入所述训练完成的神经网络得到行人重识别结果。
本发明通过主干网络得到行人的多尺度全局特征图,并通过三条分支网络分别提取全局特征和多维度的局部特征,由此得到了丰富且具有辨别性的特征,提高了识别性能,提高了行人重识别的精度。相比于传统的仅利用全局特征的方法,可以提取到更加细致细粒度的特征;并通过特征融合来融合全局特征和多维度的局部特征,使得最终获得的特征具有零件级的分辨度。
为了进一步说明本发明的有益效果,本实施例中在公开的行人数据集Market1501上,分别使用本发明方法、BDB(ICCV19)方法(详见文献“Dai,Z.,Chen,M.,Gu,X.,Zhu,S.,and Tan,P.,“Batch DropBlock Network for Person Re-identification and Beyond”,<i>arXiv e-prints</i>,2018.1”)、SONA(ICCV19)方法(详见文献“Xia B N,Gong Y,ZhangY,et al.Second-order non-local attention networks for person re-identification[C]//Proceedings of the IEEE International Conference onComputer Vision.2019:3760-3769”)、Auto-ReID(ICCV19)方法(详见文献“Quan R,DongX,Wu Y,et al.Auto-reid:Searching for a part-aware convnet for person re-identification[C]//Proceedings of the IEEE International Conference onComputer Vision.2019:3750-3759.”)和OSNet(ICCV19)方法(详见文献“Zhou K,Yang Y,Cavallaro A,et al.Omni-scale feature learning for person re-identification[C]//Proceedings of the IEEE International Conference on ComputerVision.2019:3702-3712”)进行行人重识别实验。
所有实验均使用单个Nvidia Tesla P100 GPU进行训练,训练批次大小(BatchSize)设为64,因此是每个批次随机选择16个身份(Identity),每个身份在一个随机批次中选择4张实例图像。对于Markeyt1501数据集,采用120个轮次训练,采用随机梯度下降算法进行训练,初始化学习率设为3.5e-5,前20个轮次采用warm up策略,是一种基于矩阵的快速计算神经网络输出的方法,可以防止神经网络开始学习率过大导致不能拟合的问题。20个轮次后将学习率线性增长到3.5e-4,当轮次达到60时学习率降为3.5e-5,当轮次达到90时,学习率降为3.5e-6。
训练时,将输入图像尺寸调整为384X128,为了提高模型的泛化能力,在输入图像前设置采用一种或两种的数据增强方案,如随机水平翻转(Random Horizontal Flip)、随机擦除(Random Erasing)和归一化(Normalization),通过以上方法可以提高数据集样本数量并增加噪声数据,在深度学习中,样本数量越多,训练出来的模型的鲁棒性越好,模型的泛化能力越强。测试时,同样将图像尺寸调整为384x128,数据增强只采用归一化。
通过平均精度均值(mean average precision,mAP)对识别结果进行对比,结果如表1所示。平均精度均值mAP把每个类别的精度均值都单独拿出来,然后计算所有类别AP的平均值,是对检测到的目标平均精度的一个综合度量,mAP越大,行人重识别的效果越好。
表1使用本发明方法、BDB(ICCV19)、SONA(ICCV19)、Auto-ReID(ICCV19)和OSNet进行行人重识别的结果对比表
方法 mAP
BDB(ICCV19) 86.7
SONA(ICCV19) 88.67
Auto-ReID(ICCV19) 85.1
OSNet(ICCV19) 84.1
本发明方法 88.9
从表1可以看出,本发明方法的mAP相较于现有技术都有提高,行人重识别效果得到了提高,证明了本发明的有益效果。
术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (7)

1.一种基于多尺度特征动态融合的行人重识别方法,其特征在于,包括以下步骤:
构建包括主干网络和三条分支网络的神经网络,所述主干网络根据输入图像得到行人的多尺度全局特征图,所述三条分支网络根据所述行人的多尺度全局特征图提取全局特征和多维度的局部特征;
根据所述全局特征和多维度的局部特征训练所述包括主干网络和三条分支网络的神经网络得到训练完成的神经网络;
将待识别图像作为输入图像输入所述训练完成的神经网络得到行人重识别结果;
所述主干网络包括七层,分别为:第一层卷积层、第二层最大池化层、第三层统一聚合门、第四层平均池化层、第五层统一聚合门、第六层平均池化层、第七层统一聚合门;
输入图像经过第一层卷积层后经下采样操作进入第二层最大池化层,然后经过第三层统一聚合门后经下采样操作进入第四层平均池化层,接着经过第五层统一聚合门后经下采样操作进入第六层平均池化层,最后经过第七层的统一聚合门后得到行人的多尺度全局特征图;
所述三条分支网络分别为Part-1分支、Part-2分支和Part-3分支,
所述Part-2分支包括两个卷积核不相同的全局最大池化层,所述Part-2分支的一个全局最大池化层将所述行人的多尺度全局特征图的图谱分成上下两部分得到上半身多尺度全局特征图和下半身多尺度全局特征图,分别对所述上半身多尺度全局特征图和下半身多尺度全局特征图进行局部特征提取和降维,得到2个局部特征
Figure FDA0004208008770000021
和/>
Figure FDA0004208008770000022
所述Part-3分支包括两个卷积核不相同的全局最大池化层,所述Part-3分支的一个全局最大池化层将所述行人的多尺度全局特征图的图谱分成上下三部分得到头部多尺度全局特征图、腹胸多尺度全局特征图和腿部多尺度全局特征图,分别对所述头部多尺度全局特征图、腹胸多尺度全局特征图和腿部多尺度全局特征图进行局部特征提取和降维,得到3个局部特征
Figure FDA0004208008770000023
和/>
Figure FDA0004208008770000024
2.根据权利要求1所述的基于多尺度特征动态融合的行人重识别方法,其特征在于:
所述Part-1分支从所述行人的多尺度全局特征图中提取全局特征,
所述Part-2分支和所述Part-3分支分别从所述行人的多尺度全局特征图中提取不同维度的局部特征。
3.根据权利要求1所述的基于多尺度特征动态融合的行人重识别方法,其特征在于:所述Part-1分支包括带指数参数p的广义平均池化层,
所述带指数参数p的广义平均池化层从所述行人的多尺度全局特征图中提取全局特征
Figure FDA0004208008770000025
4.根据权利要求1所述的基于多尺度特征动态融合的行人重识别方法,其特征在于:Part-2分支的另一个全局最大池化层从所述行人的多尺度全局特征图中提取局部特征
Figure FDA0004208008770000026
Part-3分支的另一个全局最大池化层从所述行人的多尺度全局特征图中提取局部特征/>
Figure FDA0004208008770000027
5.根据权利要求4所述的基于多尺度特征动态融合的行人重识别方法,其特征在于:根据所述全局特征和多维度的局部特征训练所述包括主干网络和三条分支网络的神经网络得到训练完成的神经网络,具体为:
使用所述局部特征
Figure FDA0004208008770000031
和局部特征/>
Figure FDA0004208008770000032
构建分类学习的损失函数L1,使用所述全局特征和局部特征/>
Figure FDA0004208008770000033
构建度量学习的损失函数L2;
根据所述分类学习的损失函数L1和度量学习的损失函数L2建立所述包括主干网络和三条分支网络的神经网络的联合训练的损失函数L=L1+αL2,其中α为加权因子;
获取训练集并使用训练集训练所述包括主干网络和三条分支网络的神经网络,直到所述联合训练的损失函数L收敛结束训练,得到所述训练完成的神经网络。
6.根据权利要求5所述的基于多尺度特征动态融合的行人重识别方法,其特征在于:所述分类学习的损失函数L1为Softmax损失函数,所述度量学习的损失函数L2为三元组损失函数。
7.根据权利要求1-6任一项所述的基于多尺度特征动态融合的行人重识别方法,其特征在于:
所述Part-1分支从所述行人的多尺度全局特征图中提取全局特征时,在所述行人的多尺度全局特征图进入所述Part-1分支时会进行下采样操作;
所述Part-2分支和所述Part-3分支分别从所述行人的多尺度全局特征图中提取不同维度的局部特征时,在所述行人的多尺度全局特征图进入所述Part-2分支和所述Part-3分支时不进行下采样操作。
CN202210870763.6A 2022-07-22 2022-07-22 基于多尺度特征动态融合的行人重识别方法 Active CN115294601B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210870763.6A CN115294601B (zh) 2022-07-22 2022-07-22 基于多尺度特征动态融合的行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210870763.6A CN115294601B (zh) 2022-07-22 2022-07-22 基于多尺度特征动态融合的行人重识别方法

Publications (2)

Publication Number Publication Date
CN115294601A CN115294601A (zh) 2022-11-04
CN115294601B true CN115294601B (zh) 2023-07-11

Family

ID=83823439

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210870763.6A Active CN115294601B (zh) 2022-07-22 2022-07-22 基于多尺度特征动态融合的行人重识别方法

Country Status (1)

Country Link
CN (1) CN115294601B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523470A (zh) * 2020-04-23 2020-08-11 苏州浪潮智能科技有限公司 特征融合块、卷积神经网络、行人重识别方法及相关设备
CN112464775A (zh) * 2020-11-21 2021-03-09 西北工业大学 一种基于多分支网络的视频目标重识别方法
CN112818931A (zh) * 2021-02-26 2021-05-18 中国矿业大学 基于多粒度深度特征融合的多尺度行人重识别方法
CN114005142A (zh) * 2021-11-17 2022-02-01 南昌航空大学 基于多尺度和注意特征聚合的行人重识别模型及识别方法
CN114241278A (zh) * 2021-12-29 2022-03-25 北京工业大学 一种多分支的行人重识别方法和系统
CN114299542A (zh) * 2021-12-29 2022-04-08 北京航空航天大学 一种基于多尺度特征融合的视频行人重识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523470A (zh) * 2020-04-23 2020-08-11 苏州浪潮智能科技有限公司 特征融合块、卷积神经网络、行人重识别方法及相关设备
CN112464775A (zh) * 2020-11-21 2021-03-09 西北工业大学 一种基于多分支网络的视频目标重识别方法
CN112818931A (zh) * 2021-02-26 2021-05-18 中国矿业大学 基于多粒度深度特征融合的多尺度行人重识别方法
CN114005142A (zh) * 2021-11-17 2022-02-01 南昌航空大学 基于多尺度和注意特征聚合的行人重识别模型及识别方法
CN114241278A (zh) * 2021-12-29 2022-03-25 北京工业大学 一种多分支的行人重识别方法和系统
CN114299542A (zh) * 2021-12-29 2022-04-08 北京航空航天大学 一种基于多尺度特征融合的视频行人重识别方法

Also Published As

Publication number Publication date
CN115294601A (zh) 2022-11-04

Similar Documents

Publication Publication Date Title
CN104166841B (zh) 一种视频监控网络中指定行人或车辆的快速检测识别方法
US9008365B2 (en) Systems and methods for pedestrian detection in images
CN103824070B (zh) 一种基于计算机视觉的快速行人检测方法
CN111259850A (zh) 一种融合随机批掩膜和多尺度表征学习的行人重识别方法
CN111460914B (zh) 一种基于全局和局部细粒度特征的行人重识别方法
Pei et al. A fast RetinaNet fusion framework for multi-spectral pedestrian detection
Wei et al. Deep learning-based person detection and classification for far field video surveillance
CN107909027B (zh) 一种具有遮挡处理的快速人体目标检测方法
CN105389562B (zh) 一种时空约束的监控视频行人重识别结果的二次优化方法
CN104504395A (zh) 基于神经网络实现人车分类的方法和系统
CN109472191A (zh) 一种基于时空上下文的行人重识别与追踪方法
CN109271932A (zh) 基于颜色匹配的行人再识别方法
CN102693427A (zh) 形成和使用用于检测图像的检测器的方法和设备
CN108280421A (zh) 基于多特征深度运动图的人体行为识别方法
CN111488766A (zh) 目标检测方法和装置
CN116824641B (zh) 姿态分类方法、装置、设备和计算机存储介质
CN104200202B (zh) 一种基于累加感知机的人体上半身检测方法
Dong et al. Nighttime pedestrian detection with near infrared using cascaded classifiers
CN115294601B (zh) 基于多尺度特征动态融合的行人重识别方法
CN115797970B (zh) 基于YOLOv5模型的密集行人目标检测方法及系统
CN116385401A (zh) 一种高精度纺织品缺陷可视化检测方法
CN109858308B (zh) 视频检索装置、视频检索方法和存储介质
CN107341456B (zh) 一种基于单幅户外彩色图像的天气晴阴分类方法
Zhu Image quality assessment model based on multi-feature fusion of energy Internet of Things
CN115240269A (zh) 基于体型变换的步态识别方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant