CN111709331B - 一种基于多粒度信息交互模型的行人重识别方法 - Google Patents
一种基于多粒度信息交互模型的行人重识别方法 Download PDFInfo
- Publication number
- CN111709331B CN111709331B CN202010495916.4A CN202010495916A CN111709331B CN 111709331 B CN111709331 B CN 111709331B CN 202010495916 A CN202010495916 A CN 202010495916A CN 111709331 B CN111709331 B CN 111709331B
- Authority
- CN
- China
- Prior art keywords
- global
- branches
- branch
- information interaction
- local
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
一种基于多粒度信息交互模型的行人重识别方法,属于机器视觉领域。该方法采用多粒度网络通过空间分块的方式在保留输入图片特征图的同时将该特征图分为多个尺度的子特征图,并且将原特征图作为全局分支处理,将每个子特征图作为局部分支处理。此外提出了多粒度信息交互模型来促进多个分支之间的信息交互。多粒度信息交互模型包含全局映射注意力模块和标签项互学习模块。全局映射注意力模块负责促进全局分支与局部分支之间的信息交互,标签项互学习模块负责促进多个全局分支之间的信息交互。最终利用多粒度信息交互模型分别促进了全局分支与局部分支以及不同全局分支之间的信息交互,进一步提高了具有多分支网络结构的行人重识别模型的性能。
Description
技术领域
本发明属于机器视觉领域,特别涉及一种基于多粒度信息交互模型的行人重识别方法。
背景技术
行人重识别也称行人再识别,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。行人重识别具有广泛的应用,例如多种场景的行人跟踪和视频监控。虽然行人重识别领域已经取得了很大的进展,但它仍然面临着来自背景遮挡、摄像机视角不同、光照和人体姿态变化大的挑战。
行人重识别分为基于图像的行人重识别与基于视频的行人重识别。如果数据集的数据单位均为图片,则属于基于图片的行人重识别任务,如果数据集的数据单位为视频,则属于基于视频的行人重识别任务。本发明是针对基于图片的行人重识别任务提出的。
近年来所提出的行人重识别方法大多数通过设计包含全局分支与局部分支的多分支卷积神经网络来获取行人图片的深度特征。但是这种只考虑多分支的网络结构存在以下问题:(1)有些行人图片不具有准确的边框,导致部分局部分支工作在无效的特征图上;(2)各个分支之间没有任何信息交互,导致无法互相补充有效信息。
基于上述问题,本发明提出了一种基于多粒度信息交互模型的行人重识别方法(Interactive Information Module based Person Re-identification,IIM-ReID)。其中IIM模型包含全局映射注意力模块Global-map Attention Module(GAM)和标签项互学习模块Label-Class Mutual Learning(LML)。GAM采用与多粒度网络Multiple GranularityNetwork(MGN)[G.Wang,Y.Yuan,X.Chen,J.Li,X.Zhou,Learning discriminativefeatureswith multiple granularities for person re-identification,in:2018ACMMultimedia Conference on Multimedia Conference,ACM,2018,pp.274–282.]类似的多全局分支与多局部分支的网络结构,设计GAM的目的是为了完成全局分支与局部分支间的信息交互。LML则是基于Deep Mutual Learning(DML)[Y.Zhang,T.Xiang,T.M.Hospedales,H.Lu,Deep mutual learning,in:Proceedings of the IEEE Conference on ComputerVision and PatternRecognition,2018,pp.4320–4328.]中的散度损失策略提出的,设计LML的目的是为了促进不同全局分支间的相互学习。
发明内容
本发明的主要目的是提出一种基于多粒度信息交互模型的行人重识别方法IIM-ReID,通过多粒度信息交互模型IIM促进了多个分支间的信息交互,增强了多个分支间信息的互补性,以进行高效的行人重识别。
为了实现上述目的,本发明提供如下技术方案:
一种基于多粒度信息交互模型的行人重识别方法,步骤如下:
步骤一、读取图片并使用Resnet-50作为特征提取层提取特征图;
步骤二、构建K个分支块,每个分支块blockk包括一个全局分支zgk和N个局部分支N表示局部分支数;其中全局分支zgk基于步骤一中得到的特征图采用全局平均池化生成;局部分支zpk,i基于步骤一中得到的特征图采用最大池化生成;
步骤三、对于K个分支块,分别使用K个多粒度信息交互模型进行多个分支间的信息交互。每个分支块的全局分支zgk与局部分支zpk接入对应的多粒度信息交互模型中的GAMk来进行该分支块的zgk与zpk的信息交互;
步骤四、将K个分支块中的全局分支zgk分别接入对应的多粒度信息交互模型中的LMLk,然后将所有的LMLk进行对接以进行各个分支块中zgk之间的信息交互;
步骤五、所有的全局分支zgk与局部分支zpk对输入图片做分类训练,即在每一个分支特征后接全连接层得到预测向量,然后计算交叉熵损失,该过程在GAMk中进行;
步骤六、在进行重识别搜寻时,将所有全局分支zgk与局部分支zpk的特征拼接在一起作为输入图片的最终特征。搜寻方法为计算探针图片特征与图库图片特征之间的余弦距离,然后根据距离大小进行排序,将排序后的图片标签序列与探针图片标签对比来计算精度。
与现有的技术相比,本发明具有以下有益效果:
1.步骤三中通过全局映射注意力模块GAM的网络结构与分段传播法的结合,可以实现在训练卷积神经网络的过程中得到生成热力图所需要的数据,省去了再次计算这些数据的过程,进而完成热力图的生成,然后分割热力图并且计算各分块的比例权重,将这些比例值作为局部分支在进行前向传播时产生的局部特征的权重(注意力)与局部分支相乘并拼接为一个全局特征,以此来实现在保留局部分支处理局部细节信息能力的同时填补局部分支对宏观信息的欠缺。
2.步骤四中使用了本发明提出的标签项互学习模块LML,与传统的相互学习策略相比,LML更加重视标签项的相互学习,并且只允许低概率的标签项向高概率的标签项学习,极大的减小了计算量。
3.与传统的多分支网络相比,本发明使多个分支的优点互补,在没有额外添加参数的前提下有效提升了多分支网络的性能。
附图说明
图1为本发明的训练算法流程图;
图2为本发明所使用网络整体结构图;
图3为全局分支的热力图;其中,(a-1)至(a-8)为拥有不准确边框的不同行人的图片,(b-1)至(b-8)为拥有不准确边框的不同行人的热力图;(c-1)至(c-8)为拥有准确边框的不同行人的图片,(d-1)至(d-8)为拥有准确边框的不同行人的热力图。
图4为GAM-2执行流程图;
图5为LML的效果对比图;其中,A为行人图片,(a-1)至(a-7)为不使用LML情况下全局分支zg1不同迭代次数的热力图,(b-1)至(b-7)为不使用LML情况下全局分支zg2不同迭代次数的热力图;(c-1)至(c-7)为使用LML情况下全局分支zg1不同迭代次数的热力图,(d-1)至(d-7)为使用LML情况下全局分支zg2不同迭代次数的热力图。
具体实施方式
为了对本发明进行更好的说明,下面以公开的行人重识别数据集Market-1501为例进行阐述。
图2为本发明所使用网络整体结构图,为了更清晰地说明,该实例中网络结构图中分支块数量K=2,第一个分支块中的局部分支数量N=2,第二个分支块中的局部分支数量N=3。在实际应用中,分支块数量及各个分支块中的局部分支数量可根据需要进行调整。
如图2所示,该网络首先利用特征提取层提取输入图片的特征图,然后将特征图用全局池化和局部池化的方式分为两个分支块,并且分别接入多粒度信息交互模型IIM-1与IIM-2。
上述技术方案步骤三中,GAM得到的全局分支的热力图如图3所示。图3中的样本来自于Market-1501,其中(a)表示拥有不准确边框的行人图片,(b)表示拥有准确边框的行人图片。从图3中可以看出对于拥有不准确边框的行人图片,热力图的红色区域大概分布在图片中行人的位置,而对于拥有准确边框的行人图片,热力图的红色区域分布在该行人的主要特征所在位置,例如该行人特有的背包。由此可以看出当局部分支工作在特征图的部分区域时,如果输入的行人图片的边框不准确,会造成局部分支工作在无效的特征图区域这样的问题,而本发明所提出的全局映射注意力模块GAM则是通过全局分支生成的热力图去引导局部注意力的计算,对工作在无效信息较多的区域的局部分支给予较低的权重,以此来降低不准确边框带来的影响。同时对于拥有准确边框的图片来说,GAM也可以做到合理的注意力分配。
上述技术方案步骤三中,GAM所使用的特殊训练方法如下:
在生成热力图方法Grad-CAM[R.R.Selvaraju,M.Cogswell,A.Das,R.Vedantam,D.Parikh,D.Batra,Grad-cam:Visual explanations from deep networks viagradient-basedlocalization,in:Proceedings of the IEEE InternationalConference onComputer Vision,2017,pp.618–626.]的基础上,为了能够将热力图的生成过程与网络模型的训练过程结合,本发明提出了分段反向传播。卷积神经网络的优化过程分为前向传播、反向传播以及更新参数三个步骤。通用的优化方法严格按顺序执行这三个步骤,而本发明提出的分段传播法优先完成全局分支的前项传播,然后将全局分支的反向传播过程分为两个阶段,在第一个阶段中,反向传播只经过预测向量的标签项,第二个阶段进行预测向量中剩余项的反向传播,最后进行局部分支的前向传播和反向传播。具体步骤包括:
第一,对于每一个分支块,在不进行局部分支的前向传播的情况下进行全局分支的前向传播,然后优先进行全局分支交叉熵损失Lid的反向传播,Lid的计算公式如下:
公式(1)中f为预测向量,W为全连接层的参数,N为输入图片的数量,M表示行人图片的身份数量。完成Lid的计算之后便可以获取从全局分支交叉熵损失Lid传播到预测向量标签项lc的梯度值Glabel,c表示第c个标签类,并在反向传播经过预测向量时分为两个步骤:(1)优先进行标签项的反向传播从而获取特征图X的梯度值/>用于计算热力图;(2)进行剩余项的反向传播。
第四,对每一个局部分支进行前向传播并与相应的比例权重Pu相乘形成加权局部特征fwp;
第五,将所有的加权局部特征fwp在通道维度上拼接为一个全局特征fg,并计算三元损失Ltriplet,Ltriplet的计算公式如下:
公式(2)中R表示每个训练批次中行人的身份数量,T表示该批次中每个身份所拥有的图像数量,fa表示三元损失中的搜查图片特征(anchor),本发明中即拼接得到的全局特征fg,fp表示与fa身份相同的不同图片特征,fn表示与fa身份不同的不同图片特征,m是一个超参数,用来调整相同身份特征的类内距离与不同身份特征的类间距离。
以图2中拥有三个局部分支的GAM-2为例,步骤三中GAM与分段反向传播法相结合的主要执行过程如下图所示:
GAM-2中计算局部注意力的方法为:
由于局部分支是按照均匀分割的方法将特征图水平分为数个子块,所以相应的将热力图水平分为相等数量的子块,并使用softmax计算每个子块中数值的总和所占的比例(softmax的计算在图4中被省略掉了),即局部注意力。在图4中,局部分支有三个,所以将全局分支的热力图水平分割为三个子块,然后计算局部注意力。
将局部分支与相应的局部注意力相乘,三个局部分支分别与由三个子块计算得来的局部注意力相乘得到三个加权局部特征,然后三个加权局部特征在通道维度上拼接为一个全局特征fg并计算三元损失Ltriplet,同时三个局部特征通过全连接层(FC)计算交叉熵损失Lid。
上述技术方案步骤四中,LML的计算方法为:
LML是基于散度损失实现的标签项互学习模块,相对于GAM,LML更偏向于对全局分支中标签项的散度损失计算。
在本发明的提出的网络中,LML负责两个分支块中的两个全局分支zg1与zg2的相互学习。首先,LML将zg1与zg2中预测向量的标签项筛选出来,分别记为P1和P2,然后比较标签项的概率大小,区别出较高概率的标签项与较低概率的标签项,该过程的公式如下:
Zmin=min{P1,P2} (3)
Zmax=max{P1,P2} (4)
然后将较高概率的标签项Zmax作为目标概率分布计算散度损失,该公式如下:
公式(5)中的xi为网络的输入,V和M表示在训练中表示输入的图像数量以及数据集的行人身份数量。
本发明提出的全局映射注意力模块GAM与标签项互学习模块LML的联动效果为:
全局映射注意力模块GAM需要在全局分支生成热力图,然后将热力图运用在局部注意力的计算中,这就要求全局分支生成的热力图具有良好的标注能力。所以,全局分支的表现性能是全局映射注意力模块GAM的关键,而标签项互学习模块LML正是用来提升全局分支的性能,尤其是与标签项有关的参数,而热力图的生成恰恰需要从标签项开始反向传播。综合来看,标签项互学习模块LML进一步提高了全局分支的性能,利用全局分支为局部分支提供质量更高的热力图,因此局部注意力的计算将会更加精确。
为验证本发明的准确性和鲁棒性,本发明在公开的Market-1501、DukeMTMC-reID和CUHK03-NP数据集上进行了实验。Market-1501数据集包含了32,668张行人图片,共有1501个不同的行人身份。人的图像边框由DPM探测器裁剪得到。数据集分为训练集及测试集,训练集包括12936张,共751个行人身份,测试集包括3368张查询图像和19732张图库图像,包含750个行人身份。DukeMTMC-reid数据集是为了行人重识别任务而从DukeMTMC中划分出的子数据集。该数据集包括共8个摄像头捕获的36411张行人图片,共有1404个行人身份,训练集包含16522张行人图像,共702个行人身份,测试集包含2228张查询图像和17661张图库图像,为剩余702个行人身份的图像。DukeMTMC-reID中人物图像的边框是手动标注的。CUHK03-np是针对CUHK03数据集而提出的一种新的划分协议。新协议将数据集划分为含有767个行人身份的训练集和700个行人身份的测试集。这个数据集提供了用两种方法标注的行人图像边框,分别是手动标注的边框和DPM检测器标注的边框。手动标注边框的CUHK03-NP数据集包括7,368张训练图像、1,400张查询图像和5,328张图库图像。DPM标注边框的数据集包括7365张训练图像、1400张查询图像和5332张图库图像。
为了评估本发明的性能,我们采用了累积匹配曲线CMC的rank-1、rank-5和rank-10和平均精度mAP作为评估标准。
实验设置:
本次测试中将所有输入图像的大小调整为384×128。在ImageNet数据集上预先训练的Resnet-50模型[K.He,X.Zhang,S.Ren,J.Sun,Deep residual learning for imagerecognition,in:Proceedings of the IEEE conference on computer visionandpattern recognition,2016,pp.770–778.]被用作IIM的特征提取层。Resnet-50是一种被广泛用于深度学习的基线网络,由多个残差块构成,每个残差块由多个卷积层构成,并且具有跳跃连接结构,可以缓解梯度消失的问题。为了方便验证不同子模块的性能,采用两个网络结构。第一个网络结构包含一个分支块,该分支块中有一个全局分支和6个局部分支,该网络结构用IIM(6)表示。由于只有一个分支块,所以IIM(6)没有执行LML子模块。第二个网络结构即是在本发明的技术方案中阐述的双分支块网络结构,第一个分支块有一个全局分支和两个局部分支,第二个分支块有一个全局分支和三个局部分支,这个网络结构用IIM(2-3)来表示。在训练过程中采用随机水平翻转[K.Simonyan,A.Zisserman,Very deepconvolutional networks for largescaleimage recognition,arXiv preprint arXiv:1409.1556(2014).]、随机擦除[Z.Zhong,L.Zheng,G.Kang,S.Li,Y.Yang,Random erasingdata augmentation,arXiv preprint arXiv:1708.04896(2017).]和随机裁剪[A.Krizhevsky,I.Sutskever,G.E.Hinton,Imagenet classification withdeepconvolutional neural networks,in:Advances in neural informationprocessingsystems,2012,pp.1097–1105.]作为数据增强的方法。每个训练批次大小为16,并选择Adam[D.P.Kingma,J.Ba,Adam:A method for stochastic optimization,arXivpreprintarXiv:1412.6980(2014).]作为优化器,优化器的权重衰减系数为5e-4,总迭代次数为350。初始学习率为2e-4,在第200次迭代和第300次迭代后分别下降到2e-5和2e-6。
表1为本发明提出的方法IIM在Market-1501数据集上的测试结果。
表1在Market-1501上的测试结果
mAP | Rank-1 | Rank-5 | Rank-10 | |
IIM(6) | 82.8% | 93.3% | 97.6% | 98.4% |
IIM(2-3) | 87.3% | 95.3% | 98.2% | 98.9% |
从表1中可以看出IIM(6)和IIM(2-3)均达到了较高的准确率,尤其是IIM(2-3)。相对于IIM(6),IIM(2-3)采用双分支块结构,同时使用了本发明提出的GAM与LML,准确率高过了IIM(6)。
表2为在DukeMTMC-reID数据集上的测试结果。相对于Market-1501数据集,DukeMTMC-reID数据集中的行人图片中行人的穿着较多,所以识别难度较大。
表2在DukeMTMC-reID上的测试结果
mAP | Rank-1 | Rank-5 | Rank-10 | |
IIM(6) | 74.9% | 86.0% | 93.1% | 95.2% |
IIM(2-3) | 77.6% | 88.1% | 94.4% | 96.1% |
可以看出在IIM在DukeMTMC-reID数据集上的准确率整体比Market-1501上要低。因为数据集图片的差异,这是基本上所有方法都会遇到的情况。IIM(2-3)的准确率仍然高于IIM(6),说明在不同数据集的情况下完全使用GAM与LML依然可以提高模型的准确率。
表3为在CUHK03-NP数据集上的测试结果。由于CUHK03-NP数据集中有两种方法标注的图像边框,所以要分别在手动标注数据集和DPM探测器标注数据集上测试。
表3在CUHK03-NP上的测试结果
大多数行人重识别方法在这个数据集上的准确率要远低于在Market-1501和DukeMTMC-reID上的准确率,这是因为部分图片存在大面积遮挡。但本发明提出的IIM大幅度提高了在该数据集上的准确率,基本上达到了在DukeMTMC-reID上的水准。IIM中的GAM能够降低行人图片中的无效信息的影响,这是一个影响准确率的重要因素。
为了进一步证明LML的作用,本发明采用了如下对比方法:
本发明对比了在使用与不适用LML情况下的IIM(2-3)中两个分支块的全局分支生成的热力图以及相应输入图片的标签项概率值。对比结果如下:
从图5可以看出,在不使用LML的情况下,两个不同全局分支zg1与zg2生成的热力图红色区域分布的位置差异较大,特别是在训练过程的最后一次迭代中。在使用LML的情况下,zg1与zg2的热力图中红色区域在第350次迭代主要集中在肩部和腰部,而在第350次迭代之前红色区域分布在不同的地方。模型收敛的情况下,使用LML的IIM(2-3)中标签项的概率也高于未使用LML的IIM(2-3)。所以,LML可以使两个全局分支产生高质量的热力图。对于未使用LML的IIM(2-3),在第50次迭代后,zg2的标签项概率一直高于zg1的标签项概率。相反,对于使用LML的IIM(2-3),没有一个分支的标签项概率始终高于另一个分支的标签项概率的情况,这是LML相互学习的效果。
Claims (1)
1.一种基于多粒度信息交互模型的行人重识别方法,其特征在于,步骤如下:
步骤一、读取图片并使用Resnet-50作为特征提取层提取特征图;
步骤二、构建K个分支块,每个分支块blockk包括一个全局分支zgk和N个局部分支N表示局部分支数;其中全局分支zgk基于步骤一中得到的特征图采用全局平均池化生成;局部分支zpk,i基于步骤一中得到的特征图采用最大池化生成;
步骤三、对于K个分支块,分别使用K个多粒度信息交互模型进行多个分支间的信息交互;每个分支块的全局分支zgk与局部分支zpk接入对应的多粒度信息交互模型中的GAMk来进行该分支块的zgk与zpk的信息交互;
步骤四、将K个分支块中的全局分支zgk分别接入对应的多粒度信息交互模型中的LMLk,然后将所有的LMLk进行对接以进行各个分支块中zgk之间的信息交互;
步骤四中,LML的计算方法为:
LML是基于散度损失实现的标签项互学习模块,LML负责两个分支块中的两个全局分支的相互学习;首先,LML将两个全局分支中预测向量的标签项筛选出来,分别记为Px和Py,然后比较标签项的概率大小,区别出较高概率的标签项与较低概率的标签项,该过程的公式如下:
Zmin=min{Px,Py} (3)
Zmax=max{Px,Py} (4)
然后将概率高的标签项Zmax作为目标概率分布计算散度损失,该公式如下:
公式(5)中的xi为网络的输入,V和M表示在训练中表示输入的图像数量以及数据集的行人身份数量;
步骤五、所有的全局分支zgk与局部分支zpk对输入图片做分类训练,在每一个分支特征后接全连接层得到预测向量,然后计算交叉熵损失,该过程在GAMk中进行;
步骤六、在进行重识别搜寻时,将所有全局分支zgk与局部分支zpk的特征拼接在一起作为输入图片的最终特征;搜寻方法为计算探针图片特征与图库图片特征之间的余弦距离,然后根据距离大小进行排序,将排序后的图片标签序列与探针图片标签对比来计算精度;
所述多粒度信息交互模型中的GAMk的训练方法如下:
在生成热力图方法Grad-CAM的基础上,卷积神经网络的分段传播法优先完成全局分支的前项传播,然后将全局分支的反向传播过程分为两个阶段,在第一个阶段中,反向传播只经过预测向量的标签项,第二个阶段进行预测向量中剩余项的反向传播,最后进行局部分支的前向传播和反向传播;
具体步骤包括:
第一,对于每一个分支块,在不进行局部分支的前向传播的情况下进行全局分支的前向传播,然后优先进行全局分支交叉熵损失Lid的反向传播,Lid的计算公式如下:
公式(1)中f为预测向量,W为全连接层的参数,N为输入图片的数量,M表示行人图片的身份数量;完成Lid的计算之后便能获取从全局分支交叉熵损失Lid传播到预测向量标签项lc的梯度值Glabel,c表示第c个标签类,并在反向传播经过预测向量时分为两个步骤:(1)优先进行标签项的反向传播,从而获取特征图X的梯度值/>用于计算热力图;(2)进行剩余项的反向传播;
第四,对每一个局部分支进行前向传播并与相应的比例权重Pu相乘形成加权局部特征fwp;
第五,将所有的加权局部特征fwp在通道维度上拼接为一个全局特征fg,并计算三元损失Ltriplet,Ltriplet的计算公式如下:
公式(2)中R表示每个训练批次中行人的身份数量,T表示该批次中每个身份所拥有的图像数量,fa表示三元损失中的搜查图片特征,fp表示与fa身份相同的不同图片特征,fn表示与fa身份不同的不同图片特征,m是一个超参数,用来调整相同身份特征的类内距离与不同身份特征的类间距离。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010495916.4A CN111709331B (zh) | 2020-06-03 | 2020-06-03 | 一种基于多粒度信息交互模型的行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010495916.4A CN111709331B (zh) | 2020-06-03 | 2020-06-03 | 一种基于多粒度信息交互模型的行人重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111709331A CN111709331A (zh) | 2020-09-25 |
CN111709331B true CN111709331B (zh) | 2023-06-09 |
Family
ID=72539388
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010495916.4A Active CN111709331B (zh) | 2020-06-03 | 2020-06-03 | 一种基于多粒度信息交互模型的行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111709331B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112800967B (zh) * | 2021-01-29 | 2022-05-17 | 重庆邮电大学 | 一种姿态驱动的遮挡行人重识别方法 |
CN112818931A (zh) * | 2021-02-26 | 2021-05-18 | 中国矿业大学 | 基于多粒度深度特征融合的多尺度行人重识别方法 |
CN114333062B (zh) * | 2021-12-31 | 2022-07-15 | 江南大学 | 基于异构双网络和特征一致性的行人重识别模型训练方法 |
CN114639165B (zh) * | 2022-03-16 | 2024-05-10 | 平安科技(深圳)有限公司 | 基于人工智能的行人重识别方法、装置、设备及存储介质 |
CN116110076B (zh) * | 2023-02-09 | 2023-11-07 | 国网江苏省电力有限公司苏州供电分公司 | 基于混合粒度网络的输电高空作业人员身份重识别方法和系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299262B (zh) * | 2018-10-09 | 2022-04-15 | 中山大学 | 一种融合多粒度信息的文本蕴含关系识别方法 |
CN109784288B (zh) * | 2019-01-22 | 2023-01-06 | 天津师范大学 | 一种基于判别感知融合的行人再识别方法 |
CN110070073A (zh) * | 2019-05-07 | 2019-07-30 | 国家广播电视总局广播电视科学研究院 | 基于注意力机制的全局特征和局部特征的行人再识别方法 |
CN110378301B (zh) * | 2019-07-24 | 2024-01-19 | 北京中星微电子有限公司 | 行人重识别方法及系统 |
CN110909701B (zh) * | 2019-11-28 | 2023-03-24 | 北京百度网讯科技有限公司 | 行人特征的提取方法、装置、设备及介质 |
-
2020
- 2020-06-03 CN CN202010495916.4A patent/CN111709331B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111709331A (zh) | 2020-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111709331B (zh) | 一种基于多粒度信息交互模型的行人重识别方法 | |
CN110321813B (zh) | 基于行人分割的跨域行人重识别方法 | |
CN111460914B (zh) | 一种基于全局和局部细粒度特征的行人重识别方法 | |
Cong et al. | Global-and-local collaborative learning for co-salient object detection | |
CN111881714A (zh) | 一种无监督跨域行人再识别方法 | |
CN109472191B (zh) | 一种基于时空上下文的行人重识别与追踪方法 | |
CN113065402B (zh) | 一种基于变形注意力机制的人脸检测方法 | |
CN112784728B (zh) | 基于衣物脱敏网络的多粒度换衣行人重识别方法 | |
CN107315795B (zh) | 联合特定人物和场景的视频实例检索方法及系统 | |
CN111027377B (zh) | 一种双流神经网络时序动作定位方法 | |
CN111460980A (zh) | 基于多语义特征融合的小目标行人的多尺度检测方法 | |
CN111310609B (zh) | 基于时序信息和局部特征相似性的视频目标检测方法 | |
CN113221770B (zh) | 基于多特征混合学习的跨域行人重识别方法及系统 | |
CN110827312A (zh) | 一种基于协同视觉注意力神经网络的学习方法 | |
CN115841683B (zh) | 一种联合多级特征的轻量行人重识别方法 | |
CN114299542A (zh) | 一种基于多尺度特征融合的视频行人重识别方法 | |
Sun et al. | AS-YOLO: An improved YOLOv4 based on attention mechanism and SqueezeNet for person detection | |
Waris et al. | CNN-based edge filtering for object proposals | |
Rao et al. | FPSiamRPN: Feature pyramid Siamese network with region proposal network for target tracking | |
Sun et al. | Deep learning based pedestrian detection | |
CN115830643B (zh) | 一种姿势引导对齐的轻量行人重识别方法 | |
CN108121970A (zh) | 一种基于差异矩阵和矩阵度量的行人重识别方法 | |
CN111832348B (zh) | 基于像素和通道注意力机制的行人重识别方法 | |
Xiang et al. | Optical flow estimation using spatial-channel combinational attention-based pyramid networks | |
Chen et al. | An efficient method for tracking failure detection using parallel correlation filtering and Siamese network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |