CN117078967A - 一种有效且轻量的多尺度行人重识别方法 - Google Patents
一种有效且轻量的多尺度行人重识别方法 Download PDFInfo
- Publication number
- CN117078967A CN117078967A CN202311128778.6A CN202311128778A CN117078967A CN 117078967 A CN117078967 A CN 117078967A CN 202311128778 A CN202311128778 A CN 202311128778A CN 117078967 A CN117078967 A CN 117078967A
- Authority
- CN
- China
- Prior art keywords
- lightweight
- pedestrian
- scale
- efficient
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000004927 fusion Effects 0.000 claims abstract description 22
- 238000005457 optimization Methods 0.000 claims abstract description 5
- 238000007499 fusion processing Methods 0.000 claims abstract description 4
- 238000005259 measurement Methods 0.000 claims abstract description 4
- 238000012545 processing Methods 0.000 claims description 9
- 230000002776 aggregation Effects 0.000 claims description 5
- 238000004220 aggregation Methods 0.000 claims description 5
- 230000004931 aggregating effect Effects 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 9
- 238000012549 training Methods 0.000 description 9
- 238000013461 design Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000012544 monitoring process Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- HXGPBZKGPPZSGX-UHFFFAOYSA-N 2,7-bis[fluoro(dipyridin-2-yl)methyl]-1,8-naphthyridine Chemical compound C=1C=CC=NC=1C(C=1N=C2N=C(C=CC2=CC=1)C(F)(C=1N=CC=CC=1)C=1N=CC=CC=1)(F)C1=CC=CC=N1 HXGPBZKGPPZSGX-UHFFFAOYSA-N 0.000 description 1
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011840 criminal investigation Methods 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种有效且轻量的多尺度行人重识别方法,所述方法包括以下步骤:使用轻量的主干网络提取输入行人图像的特征;利用金字塔特征融合模块对主干网络得到的特征图进行融合处理;构建损失函数,对网络参数进行迭代优化;将最终提取到的行人图像特征与图像库中的各个图像进行相似性度量,输出匹配列表。本发明在保持较低的模型复杂度的同时,有效的提取行人图像的特征,并通过对特征的融合处理,增强了所得行人图像特征的鲁棒性,达到了优异的行人重识别性能。
Description
技术领域
本发明涉及一种有效且轻量的多尺度行人重识别方法,属于计算机视觉技术领域。
背景技术
随着智能监控网络的快速发展以及人们对公共安全需求的不断增加,行人重识别已成为计算机视觉领域的研究热点之一。我国视频监控系统规模庞大,视频监控系统每天不间断的运作会产生海量的数据,如果安排人力对视频数据进行监察和分析会造成低效率并且难以实现有效处理监控数据的情况,因此,如何在海量视频监控数据中检索出有效行人的信息是当前值得研究的问题。
行人重识别(ReID)是一种利用计算机视觉在不同摄像机下检索同一个行人图像的技术、随着科技的发展和对公共安全需求的增加,行人ReID被广泛用于社区寻人和犯罪调查等智能安全领域。传统的ReID提取底层视觉特征的方法不适用于复杂场景和各种干扰存在的情况。随着深度学习的广泛应用和深度卷积神经网络的快速发展,行人ReID研究取得了重大的进展。
近年来,随着深度学习和深度卷积神经网络快速发展,基于多尺度特征的行人ReID研究取得了重大的进展。Pyramid是一种从粗到细的金字塔模型,分别实现了对行人图像的局部特征、全局特征和它们之间渐进信息的整合,有效全面的提取了行人的特征。Deep-Person将行人图像划分成多个部分,将每一部分视为从头到脚的身体局部序列送入LSTM中,整合人体的上下文信息,并将局部信息和全局信息进行聚合。GRMF方法从空间、通道和局部三个角度提取不同的特征,并设计两个有效的全局关系注意模块捕捉全局结构信息,实现多尺度特征的提取。密集特征金字塔网络DPFN通过密集金字塔融合模块,将高层语义信息和低层细节信息结合,提高特征图丰富度和尺度多样性。CANet是一种part-based金字塔结构,通过将特征图分割成不同的数量提取全局和局部特征。然而,上述基于多尺度特征提取的方法在进行设计时忽略了模型的复杂度,模型庞大并且实时性差。
因此,现有行人重识别研究逐步从重量级向轻量级过渡。OSNet引入深度可分离卷积构建网络,以较少的参数实现了优异的识别精度。MSFANet是一种类似于OSNet的方法,其设计了深度可分离卷积模块,结合注意力模块,设计不同的分支结构,减少了模型的计算量和参数量。基于孪生网络的轻量行人ReID方法将图像输入到轻量网络EfficientNet中,其在查询和图库图像之间共享权重以提取特征。PLR-OSNet和LightMBN在使用轻量的行人重识别网络的基础上,设计其他策略获取行人图像的多尺度特征。
一些基于深度学习的神经网络的方法,通过结合轻量级网络、注意力机制或多尺度特征融合模块获取特征。然而,这些方法大都没有很好地实现特征融合,在提高模型精确度的同时牺牲了一定的模型复杂度,并没有做好模型精确度和计算复杂度的权衡。一些轻量化的行人重识别方法,在提取特征时,仍然没有高效获取行人图像信息,导致以较高的成本学习到冗余的行人重识别特征,造成模型具有较大的计算量和参数量。行人重识别模型越来越多的有部署在移动环境中的需求,因此,设计一个高效、轻量的行人重识别方法是促进行人重识别发展应用的重要方面。
发明内容
针对现有方法中存在的问题,本发明的目的在于提供一种有效且轻量的多尺度行人重识别方法,包括以下步骤:
使用轻量的主干网络提取输入行人图像的特征;
利用金字塔特征融合模块对主干网络得到的特征图进行融合处理;
构建损失函数,对网络参数进行迭代优化;
将最终提取到的行人图像特征与图像库中的各个图像进行相似性度量,输出匹配列表。
进一步的,整体框架包括,轻量主干网络和金字塔特征融合模块。
进一步的,所述轻量的主干网络是由幻影多尺度模块堆叠而成的多尺度幻影网络。
进一步的,所述幻影多尺度模块通过聚合多个分支中不同数量的轻量幻影卷积块构成。
进一步的,所述聚合操作是对每个分支分配不同权重的自适应聚合。
进一步的,所述轻量幻影卷积块由基础操作和廉价操作构成,包括1×1卷积,3×3卷积,特征图拼接,BN和ReLU操作。
进一步的,所述金字塔特征融合模块所处理的主干网络的特征图为主干网络的后四层特征图。
进一步的,所述金字塔特征融合模块包括特征图相加,特征图拼接和特征图处理OP操作。
进一步的,所述特征图处理OP操作包括上采样、BN、ReLU和特征图拼接操作。
进一步的,所述轻量网络得到的特征和最终提取到的特征联合使用交叉熵损失、中心损失和难样本三元组损失进行训练。
与现有技术相比,本发明具有如下有益效果:
1、本发明提出了一种新颖的有效且轻量的多尺度行人重识别方法,有效提取到了鲁棒性特征,所有模块的设计都考虑了模型的大小,可以在保持模型复杂度大小的前提下,充分挖掘行人图像特征有效匹配行人。
2、针对本发明创新性地将Ghost卷积应用于行人重识别领域,设计了一个轻量的行人重识别基线网络,它是一种轻量级特征提取网络,可以有效地从行人图像中提取特征,且模型参数低,计算量小。
3、针对本发明创新性地将不同层不同种类的特征图进行聚合,根据不同特征图的特点,采用不同的操作有效地聚合了主干网络不同层的特征,增强了特征图的鲁棒性。
4、本发明在Market1501和DukeMTMC-reID两个广泛使用的数据集上进行了充分的实验,采用了全面的评价指标对模型精确度和复杂度进行评价:包括mAP、Rank-1、模型的参数量和浮点运算数。在四种指标下的实验结果充分证明了本发明方法的有效性。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明提供的一种有效且轻量的多尺度行人重识别方法的步骤流程图;
图2为本发明提供的一种有效且轻量的多尺度行人重识别方法的网络结构图;
图3为本发明提供的一个优选实施例的轻量幻影卷积块的结构示意图;
图4为本发明提供的一个优选实施例的幻影多尺度模块的结构示意图;
图5为本发明提供的一个优选实施例的金字塔特征融合模块的结构示意图。
具体实施方式
为了使本领域的技术人员可以更清楚地对本发明进行了解,下面结合具体实施例进行说明。此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。
如图1所示,为本发明提供的一个实施例的姿势引导对齐的轻量行人重识别方法的步骤流程图,包括:
S1,使用轻量的主干网络提取输入行人图像的特征;
S2,利用金字塔特征融合模块对主干网络得到的特征图进行处理融合;
S3,构建损失函数,对网络参数进行迭代优化;
S4,将最终提取到的行人图像特征与图像库中的各个图像进行相似性度量,输出匹配列表。
如图2所示,为本发明提供的一个实施例的有效且轻量的多尺度行人重识别方法的网络框架图。其主要包括两部分,多尺度幻影网络和金字塔特征融合模块。
本发明提供一个优选实施例执行S1。本实施例的目的在于利用轻量网络,充分提取行人图像的信息。从图2中的多尺度幻影网络我们可以看到所提轻量网络的整体框架,多尺度幻影网络主要通过幻影多尺度块(GMSB)堆叠构成,而幻影多尺度块是通过自适应聚合具有多个分支的不同数量的轻量幻影卷积(LightGConv)块得到。具体的构建过程如下:
S11,构建轻量幻影卷积块。
在深度神经网络的模型中,通常包含了丰富的特征图,这些特征图中会不可避免地出现冗余的特征图,因为有些特征图是非常相似的,可以将其中的一个特征图通过另一张特征图的廉价操作获得,减少模型的开销,因此,我们引入了幻影卷积的思想构建了轻量幻影卷积块,其结构如图3所示。
具体而言,使X={x1,x2,...,xn}表示输入的特征图中的一组行人图像,其中n为一个batchsize输入的行人图像数量,c为特征图通道的数量,h为高,w为宽。我们首先将xi进行1×1卷积操作(基础操作),改变通道数为原始特征通道数的一半,得到特征f,/>其中c'=c/2。随后,通过3×3卷积(廉价操作)实现对特征的进一步提取得到特征f',/>最后将1×1卷积之后的特征图和3×3卷积之后的特征图进行特征图拼接操作,获取与原始特征通道数一致的特征图,最后经过BN和ReLU操作,得到最终的输出结果F。具体公式如下所示:
f=Conv1×1(xi)
f'=Conv3×3(f)
其中,Conv1×1表示1×1卷积,Conv3×3表示3×3卷积,表示拼接操作。
S12,构建幻影多尺度模块。
为了实现对行人图像不同尺度特征图的提取,我们基于轻量幻影卷积块设计了一种全新的多分支特征提取结构-幻影多尺度模块,其结构如图4所示。幻影多尺度模块主要由三个分支组成,每个分支由不同数量的轻量幻影卷积块组成,分别为1,3,6,对应的感受野分别为3×3,7×7,13×13。分支的数量是我们通过大量实验得到的最佳的结果。假设输入的特征图为Q,我们首先对其执行1×1卷积操作,将得到的特征图分为三个分支分别执行具有不同数量幻影卷积块,得到特征Q1,Q2,Q3,然后将每个分支得到的特征与统一聚合门进行聚合,得到特征q1,q2,q3,我们使用自适应聚合机制对不同分支的特征赋予不同的权重,自适应聚合不同分支的特征得到Q'。具体公式如下所示:
Q'=Σwiqi,i=1,2,3
其中,wi为对应第i个分支的权重,其通过神经网络学习。
最后我们使用1×1卷积将得到的特征图Q恢复为输入的通道数大小,使用残差连接将原始特征图与得到的特征进行元素级相加操作,经过RReLU激活函数操作后,得到最终的特征图。
S13,构建多尺度幻影网络。
多尺度幻影网络主要是通过对轻量的幻影多尺度模块进行堆叠得到的,详细的网络架构如表1所示。其主要由基本的卷积操作和幻影多尺度模块组成,每部分的幻影多尺度模块的数量是相同的。相比于OSNet方法这种设计的好处在于,我们利用更少的卷积实现了特征图信息的提取,减少了模型中的冗余特征的开销,更高效的获取了行人图像的多尺度特征。使用深度可分离卷积构建的OSNet模型具有2.2M的参数量和0.98G的计算量,我们所提方法的参数量为1.86M和0.81G,因此,我们所提网络框架有效地达到了模型的轻量化,实现了比OSNet更佳的轻量效果。
表1所提轻量网络-多尺度幻影网络的结构体系。Conv表示卷积层。Max pool表示最大池化。Avg pool表示平均池化。Global avg pool表示全局平均池化。fc代表全连接层
本发明提供了一个优选实施例执行S2。现有的特征金字塔操作无法有效聚合多层特征图之间的信息,只使用不同层之间特征的相加操作会破坏特征图之间的层次信息,导致不同通道之间的特征混淆,只使用不同层之间特征的拼接操作会使需要处理的通道信息增多,造成模型的计算量增加,因此,为了实现有效的特征融合并且不造成模型太大的计算负担,我们提出了一种轻量的金字塔特征融合模块,如图5所示。
与其他方法相比,我们所提金字塔特征融合模块具有显著的优势:采用元素级相加操作对相似特征图进行操作,对具有不同通道数的跨层特征图使用拼接操作。在有效实现特征融合的同时保持了参数量,没有造成模型更大的计算复杂度。
金字塔特征融合模块主要对轻量主干网络得到的后四层特征图进行处理,具体的流程如下所示:首先,我们将Layer4和Layer5的特征图采用元素级相加操作进行特征融合得到O1,因为在多尺度幻影网络中,Layer4和Layer5特征图的通道具有相似语义特征的性质,所以采用元素级相加操作使其语义信息更好融合。其次,我们将得到的特征图O1与Layer3得到的特征图进行拼接操作实现融合得到O2。最后,我们采用特征图处理OP操作对特征图O2进行处理,将其与Layer2得到的特征图实施拼接操作,输出得到的语义特征和信息特征结合的特征图O3。具体公式如下所示:
O1=Π(L4,L5)
其中,Π()表示元素级相加操作,Φ()表示上采样操作。
本发明提供一个实施例执行S3。构建训练所需损失函数。在本实施例中,训练损失函数包含交叉熵损失、难样本三元组损失和中心损失三部分内容,具体步骤如下:
S31,构建交叉熵损失。我们采用带有平滑标签的交叉熵损失来计算真实值q与预测值p之间的概率。交叉熵损失公式如下所示:
其中,N表示批大小,y是真值身份标签,pi是类i的身份预测分数。
S32,构建难样本三元组损失。为了优化嵌入空间,引入了难样本三元组损失(HardTriplet Loss),使得类间距离大于类内距离。传统的三元组损失(Triplet Loss)随机从训练数据中抽取三张图片,虽然操作简单,但是抽样出来的绝大多数都易于区分的样本对,在现实场景下,难以区分的行人样本比较多,所以使用Hard Triplet Loss对模型训练,考虑锚样本与相似度最低的正样本和锚样本与相似度最高的负样本之间的距离,使网络学习到更好的表征,提高网络的分类能力。难样本三元组损失公式如下所示:
其中,P是随机选择的不同身份的行人,Q是每个身份随机选择的图像数量,PQ表示批量大小。α表示锚图像,a∈PQ,p表示正样本,n表示负样本,A表示正样本集,B并表示负样本集。da,p表示锚样本与正样本之间的距离。β是margin,初始化为0.3。
S33,构建中心损失。由于难样本三元组损失学习的是样本之间的相对距离,没有考虑类内的紧凑性。因此通过使用中心损失学习每个类的类中心,使得类内的距离变得更紧凑。中心损失公式如下所示:
其中,xi是第i个特征的特征向量;cyi是特征yi的类中心。
在进行训练时,我们对多尺度幻影网络的输出结果使用交叉熵损失、难样本三元组损失和中心损失进行训练。在对整个网络进行训练时,我们也采用交叉熵损失、难样本三元组损失和中心损失进行训练。
基于上述实施例,本发明提供一个优选实施例S4,通过计算余弦距离进行行人图像特征之间的相似性度量,得到最终的匹配结果,以相似度从大到小生成匹配列表。余弦相似度计算如下所示:
其中,xi和yi为特征向量。
我们使用从0开始训练的多尺度幻影网络作为主干网络,并删除了模型最后的全局平均池化层和全连接层。输入图像的大小调整为256×128,然后通过随机裁剪、随机翻转、随机擦除和归一化进行增强。batchsize大小设置为64,我们每次选择16个行人身份,每个行人身份选择4张图像。权重衰减为5×10-4。多尺度幻影网络模型在Market1501和DukeMTMC-reID数据集上训练400代,使用SGD优化器进行优化,初始学习率设置为0.065,每次在150、225、300和350代时衰减0.1。整体的网络框架模型在多尺度幻影网络模型权重的基础上进行微调,在Market1501和DukeMTMC-reID数据集上训练200代,使用Adam优化器进行优化,采用余弦退火学习率策略,初始学习率设置为7×10-5,学习率在20个时期内从7×10-5线性增加到7×10-4,然后学习率执行余弦衰减。
为了验证以上实施例的有效性,我们在两个广泛使用的数据集Market1501和DukeMTMC-reID上进行验证。Market1501数据集包含1501个身份和32217张行人图像。训练集包含751个身份的12,936张图像,测试集包含750个身份的19,732张图像。DukeMTMC-reID数据集包含2,514个身份和总共36,441个行人图像。训练集包含702个身份的16,522个图像,测试集包含1,812个身份的19,889个图像。
以累积匹配特征(Cumulative Matching Characteristics,CMC)中Rank-n和平均精度均值(Mean Average Precision,mAP)对模型精确度效果进行评估;以模型参数量(Param)和浮点运算数(GFLOPs)对模型复杂度进行评估。其中,CMC中的Rank-n表示行人匹配结果列表中前n个图像与查询图像匹配成功的概率;mAP表示多分类任务中将平均精度AP(Average Precision)相加求和之后的平均值。
表2给出了在Market1501和DukeMTMC-reID数据集上提出的轻量级网络多尺度幻影网络与其他轻量级方法的准确率比较结果。本文方法在Market1501上的Rank-1和mAP分别为94.0%和83.0%,在DukeMTMC-reID数据集上的Rank-1和mAP分别为85.0%和70.8%。可以看出,我们所提出的行人ReID基线网络达到了最好的识别精度。与专门用于行人ReID任务的基线网络OSNet和MSFANet相比,我们提出的方法取得了比他们更好的结果。这验证了我们的方法可以更好地提取行人特征,也证明了引入鬼影从特征图中提取特征的有效性。
表2所提轻量网络与其他轻量的方法在Merket1501和DukeMTMC-reID数据集上的比较
表3显示了所提出的整个网络框架在Market1501和DukeMTMC-reID数据集上现有最先进方法的精度比较结果。本文方法在Market1501上的Rank-1和mAP分别为95.8%和87.2%,在DukeMTMC-reID数据集上的Rank-1和mAP分别为87.4%和75.1%。可以看出,我们提出的方法可以有效地获得鲁棒的行人图像特征,用于行人匹配过程,取得了良好的识别效果。
表3所提整体网络框架与其他的方法在Merket1501和DukeMTMC-reID数据集上的比较
表4显示了不同方法之间Params和GFLOPs的比较。我们提出的多尺度幻影网络的Params和GFLOPs分别为1.86M和0.81G。我们可以看到,与其他重量级人物ReID方法,如APR、CtF和PAII相比,多尺度幻影网络的Params和GFLOPs要小得多。与其他轻量级人员ReID方法相比,如OSNet、MSINet和MSNet。我们的方法具有更低的Params和GFLOPs,并且更轻。因此,我们提出的基线模型多尺度幻影网络是一种优秀的轻量级人物ReID方法。
表4所提轻量网络与其他的复杂度对比
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。上述各优选特征在互不冲突的情况下,可以任意组合使用。
Claims (10)
1.一种有效且轻量的多尺度行人重识别方法,其特征在于,所述方法包括以下步骤:
使用轻量的主干网络提取输入行人图像的特征;
利用金字塔特征融合模块对主干网络得到的特征图进行融合处理;
构建损失函数,对网络参数进行迭代优化;
将最终提取到的行人图像特征与图像库中的各个图像进行相似性度量,输出匹配列表。
2.根据权利要求1所述的有效且轻量的多尺度行人重识别方法,其特征在于,整体框架包括,轻量主干网络和金字塔特征融合模块。
3.根据权利要求1所述的有效且轻量的多尺度行人重识别方法,其特征在于,所述轻量的主干网络是由幻影多尺度模块堆叠而成的多尺度幻影网络。
4.根据权利要求3所述的有效且轻量的多尺度行人重识别方法,其特征在于,所述幻影多尺度模块通过聚合多个分支中不同数量的轻量幻影卷积块构成。
5.根据权利要求4所述的有效且轻量的多尺度行人重识别方法,其特征在于,所述聚合操作是对每个分支分配不同权重的自适应聚合。
6.根据权利要求4所述的有效且轻量的多尺度行人重识别方法,其特征在于,所述轻量幻影卷积块由基础操作和廉价操作构成,包括1×1卷积,3×3卷积,特征图拼接,BN和ReLU操作。
7.根据权利要求1所述的有效且轻量的多尺度行人重识别方法,其特征在于,所述金字塔特征融合模块所处理的主干网络的特征图为主干网络的后四层特征图。
8.根据权利要求1所述的有效且轻量的多尺度行人重识别方法,其特征在于,所述金字塔特征融合模块包括特征图相加,特征图拼接和特征图处理OP操作。
9.根据权利要求8所述的有效且轻量的多尺度行人重识别方法,其特征在于,所述特征图处理OP操作包括上采样、BN、ReLU和特征图拼接操作。
10.根据权利要求1所述的有效且轻量的多尺度行人重识别方法,其特征在于,所述轻量网络得到的特征和最终提取到的特征联合使用交叉熵损失、中心损失和难样本三元组损失进行训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311128778.6A CN117078967B (zh) | 2023-09-04 | 2023-09-04 | 一种有效且轻量的多尺度行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311128778.6A CN117078967B (zh) | 2023-09-04 | 2023-09-04 | 一种有效且轻量的多尺度行人重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117078967A true CN117078967A (zh) | 2023-11-17 |
CN117078967B CN117078967B (zh) | 2024-03-01 |
Family
ID=88711610
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311128778.6A Active CN117078967B (zh) | 2023-09-04 | 2023-09-04 | 一种有效且轻量的多尺度行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117078967B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118506407A (zh) * | 2024-07-16 | 2024-08-16 | 南京信息工程大学 | 基于随机颜色丢弃和注意力的轻量行人重识别方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113159051A (zh) * | 2021-04-27 | 2021-07-23 | 长春理工大学 | 一种基于边缘解耦的遥感图像轻量化语义分割方法 |
CN114529982A (zh) * | 2022-01-14 | 2022-05-24 | 湖南大学 | 基于流式注意力的轻量级人体姿态估计方法及系统 |
CN115205274A (zh) * | 2022-07-26 | 2022-10-18 | 西南石油大学 | 一种基于轻量化级联网络的布匹瑕疵检测方法 |
CN115830392A (zh) * | 2022-12-20 | 2023-03-21 | 北方民族大学 | 基于改进的YOLOv5的学生行为识别方法 |
CN115841683A (zh) * | 2022-12-27 | 2023-03-24 | 石家庄铁道大学 | 一种联合多级特征的轻量行人重识别方法 |
CN116229410A (zh) * | 2022-12-05 | 2023-06-06 | 重庆邮电大学 | 融合多维信息池化的轻量级神经网络道路场景检测方法 |
CN116403042A (zh) * | 2023-04-07 | 2023-07-07 | 桂林电子科技大学 | 一种轻量化卫生用品缺陷检测的方法及装置 |
CN116665176A (zh) * | 2023-07-21 | 2023-08-29 | 石家庄铁道大学 | 一种面向车辆自动驾驶的多任务网络道路目标检测方法 |
-
2023
- 2023-09-04 CN CN202311128778.6A patent/CN117078967B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113159051A (zh) * | 2021-04-27 | 2021-07-23 | 长春理工大学 | 一种基于边缘解耦的遥感图像轻量化语义分割方法 |
CN114529982A (zh) * | 2022-01-14 | 2022-05-24 | 湖南大学 | 基于流式注意力的轻量级人体姿态估计方法及系统 |
CN115205274A (zh) * | 2022-07-26 | 2022-10-18 | 西南石油大学 | 一种基于轻量化级联网络的布匹瑕疵检测方法 |
CN116229410A (zh) * | 2022-12-05 | 2023-06-06 | 重庆邮电大学 | 融合多维信息池化的轻量级神经网络道路场景检测方法 |
CN115830392A (zh) * | 2022-12-20 | 2023-03-21 | 北方民族大学 | 基于改进的YOLOv5的学生行为识别方法 |
CN115841683A (zh) * | 2022-12-27 | 2023-03-24 | 石家庄铁道大学 | 一种联合多级特征的轻量行人重识别方法 |
CN116403042A (zh) * | 2023-04-07 | 2023-07-07 | 桂林电子科技大学 | 一种轻量化卫生用品缺陷检测的方法及装置 |
CN116665176A (zh) * | 2023-07-21 | 2023-08-29 | 石家庄铁道大学 | 一种面向车辆自动驾驶的多任务网络道路目标检测方法 |
Non-Patent Citations (1)
Title |
---|
夏烨等: "基于改进Ghost-YOLOv5s-BiFPN算法检测梨树花序", 《智慧农业(中英文)》, 17 October 2022 (2022-10-17) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118506407A (zh) * | 2024-07-16 | 2024-08-16 | 南京信息工程大学 | 基于随机颜色丢弃和注意力的轻量行人重识别方法及系统 |
CN118506407B (zh) * | 2024-07-16 | 2024-09-13 | 南京信息工程大学 | 基于随机颜色丢弃和注意力的轻量行人重识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117078967B (zh) | 2024-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2024021394A1 (zh) | 全局特征与阶梯型局部特征融合的行人重识别方法及装置 | |
Yu et al. | Spatial pyramid-enhanced NetVLAD with weighted triplet loss for place recognition | |
US20220180132A1 (en) | Cross-modality person re-identification method based on local information learning | |
CN110598543B (zh) | 基于属性挖掘和推理的模型训练方法及行人再识别方法 | |
CN111507217A (zh) | 一种基于局部分辨特征融合的行人重识别方法 | |
CN110852152B (zh) | 一种基于数据增强的深度哈希行人重识别方法 | |
CN117078967B (zh) | 一种有效且轻量的多尺度行人重识别方法 | |
US11908222B1 (en) | Occluded pedestrian re-identification method based on pose estimation and background suppression | |
CN110309810B (zh) | 一种基于批次中心相似度的行人重识别方法 | |
CN115393953B (zh) | 基于异构网络特征交互的行人重识别方法、装置及设备 | |
CN115841683B (zh) | 一种联合多级特征的轻量行人重识别方法 | |
CN109657082A (zh) | 基于全卷积神经网络的遥感图像多标签检索方法及系统 | |
Chen et al. | Combining the Convolution and Transformer for Classification of Smoke-Like Scenes in Remote Sensing Images | |
CN116523969B (zh) | 基于mscfm和mgfe的红外-可见光跨模态行人重识别方法 | |
Jing et al. | Learning holistic and discriminative features via an efficient external memory module for building extraction in remote sensing images | |
Wang et al. | Image splicing tamper detection based on deep learning and attention mechanism | |
CN117115850A (zh) | 一种基于离线蒸馏的轻量级行人重识别方法 | |
CN115830643A (zh) | 一种姿势引导对齐的轻量行人重识别方法 | |
CN113269117B (zh) | 一种基于知识蒸馏的行人重识别方法 | |
CN114067356B (zh) | 基于联合局部引导与属性聚类的行人重识别方法 | |
CN115705690A (zh) | 一种基于无人机和语义分割模型的建筑物震害评估方法 | |
Yang et al. | Robust feature mining transformer for occluded person re-identification | |
Champ et al. | Floristic participation at lifeclef 2016 plant identification task | |
Yelchuri et al. | Deep semantic feature reduction for efficient remote sensing Image Retrieval | |
CN116486101B (zh) | 一种基于窗口注意力的图像特征匹配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |