CN111709331A - 一种基于多粒度信息交互模型的行人重识别方法 - Google Patents

一种基于多粒度信息交互模型的行人重识别方法 Download PDF

Info

Publication number
CN111709331A
CN111709331A CN202010495916.4A CN202010495916A CN111709331A CN 111709331 A CN111709331 A CN 111709331A CN 202010495916 A CN202010495916 A CN 202010495916A CN 111709331 A CN111709331 A CN 111709331A
Authority
CN
China
Prior art keywords
branch
global
information interaction
local
branches
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010495916.4A
Other languages
English (en)
Other versions
CN111709331B (zh
Inventor
孔军
刘旭东
蒋敏
谈天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN202010495916.4A priority Critical patent/CN111709331B/zh
Publication of CN111709331A publication Critical patent/CN111709331A/zh
Application granted granted Critical
Publication of CN111709331B publication Critical patent/CN111709331B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

一种基于多粒度信息交互模型的行人重识别方法,属于机器视觉领域。该方法采用多粒度网络通过空间分块的方式在保留输入图片特征图的同时将该特征图分为多个尺度的子特征图,并且将原特征图作为全局分支处理,将每个子特征图作为局部分支处理。此外提出了多粒度信息交互模型来促进多个分支之间的信息交互。多粒度信息交互模型包含全局映射注意力模块和标签项互学习模块。全局映射注意力模块负责促进全局分支与局部分支之间的信息交互,标签项互学习模块负责促进多个全局分支之间的信息交互。最终利用多粒度信息交互模型分别促进了全局分支与局部分支以及不同全局分支之间的信息交互,进一步提高了具有多分支网络结构的行人重识别模型的性能。

Description

一种基于多粒度信息交互模型的行人重识别方法
技术领域
本发明属于机器视觉领域,特别涉及一种基于多粒度信息交互模型的行人 重识别方法。
背景技术
行人重识别也称行人再识别,是利用计算机视觉技术判断图像或者视频序 列中是否存在特定行人的技术。行人重识别具有广泛的应用,例如多种场景的 行人跟踪和视频监控。虽然行人重识别领域已经取得了很大的进展,但它仍然 面临着来自背景遮挡、摄像机视角不同、光照和人体姿态变化大的挑战。
行人重识别分为基于图像的行人重识别与基于视频的行人重识别。如果数 据集的数据单位均为图片,则属于基于图片的行人重识别任务,如果数据集的 数据单位为视频,则属于基于视频的行人重识别任务。本发明是针对基于图片 的行人重识别任务提出的。
近年来所提出的行人重识别方法大多数通过设计包含全局分支与局部分支 的多分支卷积神经网络来获取行人图片的深度特征。但是这种只考虑多分支的 网络结构存在以下问题:(1)有些行人图片不具有准确的边框,导致部分局部分 支工作在无效的特征图上;(2)各个分支之间没有任何信息交互,导致无法互相 补充有效信息。
基于上述问题,本发明提出了一种基于多粒度信息交互模型的行人重识别 方法(Interactive Information Module based Person Re-identification, IIM-ReID)。其中IIM模型包含全局映射注意力模块Global-map Attention Module(GAM)和标签项互学习模块Label-Class Mutual Learning(LML)。GAM采 用与多粒度网络Multiple GranularityNetwork(MGN)[G.Wang,Y.Yuan,X. Chen,J.Li,X.Zhou,Learningdiscriminativefeatures with multiple granularities for person re-identification,in:2018ACM Multimedia Conference on Multimedia Conference,ACM,2018,pp.274–282.]类似的多 全局分支与多局部分支的网络结构,设计GAM的目的是为了完成全局分支与局 部分支间的信息交互。LML则是基于Deep Mutual Learning(DML)[Y.Zhang,T. Xiang,T.M.Hospedales,H.Lu,Deep mutual learning,in:Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition,2018,pp. 4320–4328.]中的散度损失策略提出的,设计LML的目的是为了促进不同全局 分支间的相互学习。
发明内容
本发明的主要目的是提出一种基于多粒度信息交互模型的行人重识别方法 IIM-ReID,通过多粒度信息交互模型IIM促进了多个分支间的信息交互,增强 了多个分支间信息的互补性,以进行高效的行人重识别。
为了实现上述目的,本发明提供如下技术方案:
一种基于多粒度信息交互模型的行人重识别方法,步骤如下:
步骤一、读取图片并使用Resnet-50作为特征提取层提取特征图;
步骤二、构建K个分支块,每个分支块blockk包括一个全局分支zgk和N个 局部分
Figure BDA0002522808430000021
N表示局部分支数;其中全局分支zgk基于步骤一中 得到的特征图采用全局平均池化生成;局部分支zpk,i基于步骤一中得到的特征 图采用最大池化生成;
步骤三、对于K个分支块,分别使用K个多粒度信息交互模型进行多个分 支间的信息交互。每个分支块的全局分支zgk与局部分支zpk接入对应的多粒度 信息交互模型中的GAMk来进行该分支块的zgk与zpk的信息交互;
步骤四、将K个分支块中的全局分支zgk分别接入对应的多粒度信息交互模 型中的LMLk,然后将所有的LMLk进行对接以进行各个分支块中zgk之间的信息交 互;
步骤五、所有的全局分支zgk与局部分支zpk对输入图片做分类训练,即在 每一个分支特征后接全连接层得到预测向量,然后计算交叉熵损失,该过程在 GAMk中进行;
步骤六、在进行重识别搜寻时,将所有全局分支zgk与局部分支zpk的特征 拼接在一起作为输入图片的最终特征。搜寻方法为计算探针图片特征与图库图 片特征之间的余弦距离,然后根据距离大小进行排序,将排序后的图片标签序 列与探针图片标签对比来计算精度。
与现有的技术相比,本发明具有以下有益效果:
1.步骤三中通过全局映射注意力模块GAM的网络结构与分段传播法的结合, 可以实现在训练卷积神经网络的过程中得到生成热力图所需要的数据,省去了 再次计算这些数据的过程,进而完成热力图的生成,然后分割热力图并且计算 各分块的比例权重,将这些比例值作为局部分支在进行前向传播时产生的局部 特征的权重(注意力)与局部分支相乘并拼接为一个全局特征,以此来实现在保 留局部分支处理局部细节信息能力的同时填补局部分支对宏观信息的欠缺。
2.步骤四中使用了本发明提出的标签项互学习模块LML,与传统的相互学习 策略相比,LML更加重视标签项的相互学习,并且只允许低概率的标签项向高概 率的标签项学习,极大的减小了计算量。
3.与传统的多分支网络相比,本发明使多个分支的优点互补,在没有额外 添加参数的前提下有效提升了多分支网络的性能。
附图说明
图1为本发明的训练算法流程图;
图2为本发明所使用网络整体结构图;
图3为全局分支的热力图;其中,(a-1)至(a-8)为拥有不准确边框的不同行 人的图片,(b-1)至(b-8)为拥有不准确边框的不同行人的热力图;(c-1)至(c-8) 为拥有准确边框的不同行人的图片,(d-1)至(d-8)为拥有准确边框的不同行人 的热力图。
图4为GAM-2执行流程图;
图5为LML的效果对比图;其中,A为行人图片,(a-1)至(a-7)为不使用LML 情况下全局分支zg1不同迭代次数的热力图,(b-1)至(b-7)为不使用LML情况下 全局分支zg2不同迭代次数的热力图;(c-1)至(c-7)为使用LML情况下全局分支 zg1不同迭代次数的热力图,(d-1)至(d-7)为使用LML情况下全局分支zg2不同 迭代次数的热力图。
具体实施方式
为了对本发明进行更好的说明,下面以公开的行人重识别数据集 Market-1501为例进行阐述。
图2为本发明所使用网络整体结构图,为了更清晰地说明,该实例中网络结 构图中分支块数量K=2,第一个分支块中的局部分支数量N=2,第二个分支块中 的局部分支数量N=3。在实际应用中,分支块数量及各个分支块中的局部分支数 量可根据需要进行调整。
如图2所示,该网络首先利用特征提取层提取输入图片的特征图,然后将 特征图用全局池化和局部池化的方式分为两个分支块,并且分别接入多粒度信 息交互模型IIM-1与IIM-2。
上述技术方案步骤三中,GAM得到的全局分支的热力图如图3所示。图3中 的样本来自于Market-1501,其中(a)表示拥有不准确边框的行人图片,(b)表 示拥有准确边框的行人图片。从图3中可以看出对于拥有不准确边框的行人图 片,热力图的红色区域大概分布在图片中行人的位置,而对于拥有准确边框的 行人图片,热力图的红色区域分布在该行人的主要特征所在位置,例如该行人 特有的背包。由此可以看出当局部分支工作在特征图的部分区域时,如果输入 的行人图片的边框不准确,会造成局部分支工作在无效的特征图区域这样的问 题,而本发明所提出的全局映射注意力模块GAM则是通过全局分支生成的热力 图去引导局部注意力的计算,对工作在无效信息较多的区域的局部分支给予较 低的权重,以此来降低不准确边框带来的影响。同时对于拥有准确边框的图片 来说,GAM也可以做到合理的注意力分配。
上述技术方案步骤三中,GAM所使用的特殊训练方法如下:
在生成热力图方法Grad-CAM[R.R.Selvaraju,M.Cogswell,A.Das,R. Vedantam,D.Parikh,D.Batra,Grad-cam:Visual explanations from deep networks viagradient-basedlocalization,in:Proceedings of the IEEE InternationalConference onComputer Vision,2017,pp.618–626.]的基 础上,为了能够将热力图的生成过程与网络模型的训练过程结合,本发明提出 了分段反向传播。卷积神经网络的优化过程分为前向传播、反向传播以及更新 参数三个步骤。通用的优化方法严格按顺序执行这三个步骤,而本发明提出的 分段传播法优先完成全局分支的前项传播,然后将全局分支的反向传播过程分 为两个阶段,在第一个阶段中,反向传播只经过预测向量的标签项,第二个阶 段进行预测向量中剩余项的反向传播,最后进行局部分支的前向传播和反向传 播。具体步骤包括:
第一,对于每一个分支块,在不进行局部分支的前向传播的情况下进行全 局分支的前向传播,然后优先进行全局分支交叉熵损失Lid的反向传播,Lid的计 算公式如下:
Figure BDA0002522808430000061
公式(1)中f为预测向量,W为全连接层的参数,N为输入图片的数量,M表示行 人图片的身份数量。完成Lid的计算之后便可以获取从全局分支交叉熵损失Lid传 播到预测向量标签项lc的梯度值Glabel,c表示第c个标签类,
Figure BDA0002522808430000062
并在 反向传播经过预测向量时分为两个步骤:(1)优先进行标签项的反向传播从而获 取特征图X的梯度值
Figure BDA0002522808430000063
用于计算热力图;(2)进行剩余项的反向传播。
第二,计算生成热力图需要的梯度值
Figure BDA0002522808430000064
其中
Figure BDA0002522808430000065
表示Gc的第s个通道 层,并且结合步骤二的数据计算热力图:
Figure BDA0002522808430000066
Figure BDA0002522808430000067
其中,Xs表示特征图X的第s个通道层,
Figure BDA0002522808430000068
表示Xs相应于c类别的导数,ReLU 为激活函数,
Figure BDA0002522808430000069
表示
Figure BDA00025228084300000610
经过ReLU激活函数计算后的激活值,h和w分别为Xs的 长和宽;
第三,根据局部分支的数量将热力图水平分割为相等数量的子块gu,然后 计算各个子块梯度值的总和Au=sum(gu),进而计算各个子块数值的总和在所 有子块中的所占比例
Figure BDA00025228084300000611
即局部注意力;
第四,对每一个局部分支进行前向传播并与相应的比例权重Pu相乘形成加 权局部特征fwp
第五,将所有的加权局部特征fwp在通道维度上拼接为一个全局特征fg,并 计算三元损失Ltriplet,Ltriplet的计算公式如下:
Figure BDA0002522808430000071
公式(2)中R表示每个训练批次中行人的身份数量,T表示该批次中每个身份所拥有的图像数量,fa表示三元损失中的搜查图片特征(anchor),本发明中即拼接得 到的全局特征fg,fp表示与fa身份相同的不同图片特征,fn表示与fa身份不同的不 同图片特征,m是一个超参数,用来调整相同身份特征的类内距离与不同身份特 征的类间距离。
以图2中拥有三个局部分支的GAM-2为例,步骤三中GAM与分段反向传播 法相结合的主要执行过程如下图所示:
GAM-2中计算局部注意力的方法为:
由于局部分支是按照均匀分割的方法将特征图水平分为数个子块,所以相 应的将热力图水平分为相等数量的子块,并使用softmax计算每个子块中数值 的总和所占的比例(softmax的计算在图4中被省略掉了),即局部注意力。在图 4中,局部分支有三个,所以将全局分支的热力图水平分割为三个子块,然后计 算局部注意力。
将局部分支与相应的局部注意力相乘,三个局部分支分别与由三个子块计 算得来的局部注意力相乘得到三个加权局部特征,然后三个加权局部特征在通 道维度上拼接为一个全局特征fg并计算三元损失Ltriplet,同时三个局部特征通过 全连接层(FC)计算交叉熵损失Lid
上述技术方案步骤四中,LML的计算方法为:
LML是基于散度损失实现的标签项互学习模块,相对于GAM,LML更偏向于对 全局分支中标签项的散度损失计算。
在本发明的提出的网络中,LML负责两个分支块中的两个全局分支zg1与zg2的相互学习。首先,LML将zg1与zg2中预测向量的标签项筛选出来,分别记为P1和 P2,然后比较标签项的概率大小,区别出较高概率的标签项与较低概率的标签 项,该过程的公式如下:
Zmin=min{P1,P2} (3)
Zmax=max{P1,P2} (4)
然后将较高概率的标签项Zmax作为目标概率分布计算散度损失,该公式如下:
Figure BDA0002522808430000081
公式(5)中的xi为网络的输入,V和M表示在训练中表示输入的图像数量以及数据集的行人身份数量。
本发明提出的全局映射注意力模块GAM与标签项互学习模块LML的联动效 果为:
全局映射注意力模块GAM需要在全局分支生成热力图,然后将热力图运用 在局部注意力的计算中,这就要求全局分支生成的热力图具有良好的标注能力。 所以,全局分支的表现性能是全局映射注意力模块GAM的关键,而标签项互学 习模块LML正是用来提升全局分支的性能,尤其是与标签项有关的参数,而热 力图的生成恰恰需要从标签项开始反向传播。综合来看,标签项互学习模块LML 进一步提高了全局分支的性能,利用全局分支为局部分支提供质量更高的热力 图,因此局部注意力的计算将会更加精确。
为验证本发明的准确性和鲁棒性,本发明在公开的Market-1501、 DukeMTMC-reID和CUHK03-NP数据集上进行了实验。Market-1501数据集包含了 32,668张行人图片,共有1501个不同的行人身份。人的图像边框由DPM探测 器裁剪得到。数据集分为训练集及测试集,训练集包括12936张,共751个行 人身份,测试集包括3368张查询图像和19732张图库图像,包含750个行人身 份。DukeMTMC-reid数据集是为了行人重识别任务而从DukeMTMC中划分出的子 数据集。该数据集包括共8个摄像头捕获的36411张行人图片,共有1404个行 人身份,训练集包含16522张行人图像,共702个行人身份,测试集包含2228 张查询图像和17661张图库图像,为剩余702个行人身份的图像。DukeMTMC-reID 中人物图像的边框是手动标注的。CUHK03-np是针对CUHK03数据集而提出的一 种新的划分协议。新协议将数据集划分为含有767个行人身份的训练集和700 个行人身份的测试集。这个数据集提供了用两种方法标注的行人图像边框,分 别是手动标注的边框和DPM检测器标注的边框。手动标注边框的CUHK03-NP数 据集包括7,368张训练图像、1,400张查询图像和5,328张图库图像。DPM标注 边框的数据集包括7365张训练图像、1400张查询图像和5332张图库图像。
为了评估本发明的性能,我们采用了累积匹配曲线CMC的rank-1、rank-5 和rank-10和平均精度mAP作为评估标准。
实验设置:
本次测试中将所有输入图像的大小调整为384×128。在ImageNet数据集上 预先训练的Resnet-50模型[K.He,X.Zhang,S.Ren,J.Sun,Deep residual learning for imagerecognition,in:Proceedings of the IEEE conference on computer visionandpattern recognition,2016,pp.770–778.]被用作 IIM的特征提取层。Resnet-50是一种被广泛用于深度学习的基线网络,由多个 残差块构成,每个残差块由多个卷积层构成,并且具有跳跃连接结构,可以缓 解梯度消失的问题。为了方便验证不同子模块的性能,采用两个网络结构。第 一个网络结构包含一个分支块,该分支块中有一个全局分支和6个局部分支, 该网络结构用IIM(6)表示。由于只有一个分支块,所以IIM(6)没有执行LML子 模块。第二个网络结构即是在本发明的技术方案中阐述的双分支块网络结构, 第一个分支块有一个全局分支和两个局部分支,第二个分支块有一个全局分支 和三个局部分支,这个网络结构用IIM(2-3)来表示。在训练过程中采用随机水 平翻转[K.Simonyan,A.Zisserman,Very deep convolutional networks for largescaleimage recognition,arXivpreprint arXiv:1409.1556(2014).]、 随机擦除[Z.Zhong,L.Zheng,G.Kang,S.Li,Y.Yang,Random erasing data augmentation,arXiv preprint arXiv:1708.04896(2017).]和随机裁剪[A. Krizhevsky,I.Sutskever,G.E.Hinton,Imagenetclassification withdeep convolutional neural networks,in:Advances in neuralinformationprocessing systems,2012,pp.1097–1105.]作为数据增强的方 法。每个训练批次大小为16,并选择Adam[D.P.Kingma,J.Ba,Adam:A method for stochasticoptimization,arXivpreprint arXiv:1412.6980(2014).]作 为优化器,优化器的权重衰减系数为5e-4,总迭代次数为350。初始学习率为 2e-4,在第200次迭代和第300次迭代后分别下降到2e-5和2e-6。
表1为本发明提出的方法IIM在Market-1501数据集上的测试结果。
表1在Market-1501上的测试结果
mAP Rank-1 Rank-5 Rank-10
IIM(6) 82.8% 93.3% 97.6% 98.4%
IIM(2-3) 87.3% 95.3% 98.2% 98.9%
从表1中可以看出IIM(6)和IIM(2-3)均达到了较高的准确率,尤其是IIM(2-3)。相对于IIM(6),IIM(2-3)采用双分支块结构,同时使用了本发明提出的GAM与 LML,准确率高过了IIM(6)。
表2为在DukeMTMC-reID数据集上的测试结果。相对于Market-1501数据 集,DukeMTMC-reID数据集中的行人图片中行人的穿着较多,所以识别难度较大。
表2在DukeMTMC-reID上的测试结果
mAP Rank-1 Rank-5 Rank-10
IIM(6) 74.9% 86.0% 93.1% 95.2%
IIM(2-3) 77.6% 88.1% 94.4% 96.1%
可以看出在IIM在DukeMTMC-reID数据集上的准确率整体比Market-1501 上要低。因为数据集图片的差异,这是基本上所有方法都会遇到的情况。IIM(2-3) 的准确率仍然高于IIM(6),说明在不同数据集的情况下完全使用GAM与LML依 然可以提高模型的准确率。
表3为在CUHK03-NP数据集上的测试结果。由于CUHK03-NP数据集中有两 种方法标注的图像边框,所以要分别在手动标注数据集和DPM探测器标注数据 集上测试。
表3在CUHK03-NP上的测试结果
Figure BDA0002522808430000111
大多数行人重识别方法在这个数据集上的准确率要远低于在Market-1501 和DukeMTMC-reID上的准确率,这是因为部分图片存在大面积遮挡。但本发明 提出的IIM大幅度提高了在该数据集上的准确率,基本上达到了在 DukeMTMC-reID上的水准。IIM中的GAM能够降低行人图片中的无效信息的影响, 这是一个影响准确率的重要因素。
为了进一步证明LML的作用,本发明采用了如下对比方法:
本发明对比了在使用与不适用LML情况下的IIM(2-3)中两个分支块的全局 分支生成的热力图以及相应输入图片的标签项概率值。对比结果如下:
从图5可以看出,在不使用LML的情况下,两个不同全局分支zg1与zg2生成 的热力图红色区域分布的位置差异较大,特别是在训练过程的最后一次迭代中。 在使用LML的情况下,zg1与zg2的热力图中红色区域在第350次迭代主要集中在 肩部和腰部,而在第350次迭代之前红色区域分布在不同的地方。模型收敛的 情况下,使用LML的IIM(2-3)中标签项的概率也高于未使用LML的IIM(2-3)。 所以,LML可以使两个全局分支产生高质量的热力图。对于未使用LML的 IIM(2-3),在第50次迭代后,zg2的标签项概率一直高于zg1的标签项概率。相 反,对于使用LML的IIM(2-3),没有一个分支的标签项概率始终高于另一个分 支的标签项概率的情况,这是LML相互学习的效果。

Claims (4)

1.一种基于多粒度信息交互模型的行人重识别方法,其特征在于,步骤如下:
步骤一、读取图片并使用Resnet-50作为特征提取层提取特征图;
步骤二、构建K个分支块,每个分支块blockk包括一个全局分支zgk和N个局部分支
Figure FDA0002522808420000011
N表示局部分支数;其中全局分支zgk基于步骤一中得到的特征图采用全局平均池化生成;局部分支zpk,i基于步骤一中得到的特征图采用最大池化生成;
步骤三、对于K个分支块,分别使用K个多粒度信息交互模型进行多个分支间的信息交互;每个分支块的全局分支zgk与局部分支zpk接入对应的多粒度信息交互模型中的GAMk来进行该分支块的zgk与zpk的信息交互;
步骤四、将K个分支块中的全局分支zgk分别接入对应的多粒度信息交互模型中的LMLk,然后将所有的LMLk进行对接以进行各个分支块中zgk之间的信息交互;
步骤五、所有的全局分支zgk与局部分支zpk对输入图片做分类训练,即在每一个分支特征后接全连接层得到预测向量,然后计算交叉熵损失,该过程在GAMk中进行;
步骤六、在进行重识别搜寻时,将所有全局分支zgk与局部分支zpk的特征拼接在一起作为输入图片的最终特征;搜寻方法为计算探针图片特征与图库图片特征之间的余弦距离,然后根据距离大小进行排序,将排序后的图片标签序列与探针图片标签对比来计算精度。
2.根据权利要求1所述的一种基于多粒度信息交互模型的行人重识别方法,其特征在于,所述多粒度信息交互模型中的GAMk的训练方法如下:
在生成热力图方法Grad-CAM的基础上,卷积神经网络的分段传播法优先完成全局分支的前项传播,然后将全局分支的反向传播过程分为两个阶段,在第一个阶段中,反向传播只经过预测向量的标签项,第二个阶段进行预测向量中剩余项的反向传播,最后进行局部分支的前向传播和反向传播。
3.根据权利要求2所述的一种基于多粒度信息交互模型的行人重识别方法,其特征在于,具体步骤包括:
第一,对于每一个分支块,在不进行局部分支的前向传播的情况下进行全局分支的前向传播,然后优先进行全局分支交叉熵损失Lid的反向传播,Lid的计算公式如下:
Figure FDA0002522808420000021
公式(1)中f为预测向量,W为全连接层的参数,N为输入图片的数量,M表示行人图片的身份数量;完成Lid的计算之后便能获取从全局分支交叉熵损失Lid传播到预测向量标签项lc的梯度值Glabel,c表示第c个标签类,
Figure FDA0002522808420000022
并在反向传播经过预测向量时分为两个步骤:(1)优先进行标签项的反向传播,从而获取特征图X的梯度值
Figure FDA0002522808420000023
用于计算热力图;(2)进行剩余项的反向传播;
第二,计算生成热力图需要的梯度值
Figure FDA0002522808420000024
其中
Figure FDA0002522808420000025
表示Gc的第s个通道层,并且结合步骤二的数据计算热力图:
Figure FDA0002522808420000026
Figure FDA0002522808420000027
其中,Xs表示特征图X的第s个通道层,
Figure FDA0002522808420000028
表示Xs相应于c类别的导数,ReLU为激活函数,
Figure FDA0002522808420000029
表示
Figure FDA00025228084200000210
经过ReLU激活函数计算后的激活值,h和w分别为Xs的长和宽;
第三,根据局部分支的数量将热力图水平分割为相等数量的子块gu,然后计算各个子块梯度值的总和Au=sum(gu),进而计算各个子块数值的总和在所有子块中的所占比例
Figure FDA0002522808420000031
即局部注意力;
第四,对每一个局部分支进行前向传播并与相应的比例权重Pu相乘形成加权局部特征fwp
第五,将所有的加权局部特征fwp在通道维度上拼接为一个全局特征fg,并计算三元损失Ltriplet,Ltriplet的计算公式如下:
Figure FDA0002522808420000032
公式(2)中R表示每个训练批次中行人的身份数量,T表示该批次中每个身份所拥有的图像数量,fa表示三元损失中的搜查图片特征,即拼接得到的全局特征fg,fp表示与fa身份相同的不同图片特征,fn表示与fa身份不同的不同图片特征,m是一个超参数,用来调整相同身份特征的类内距离与不同身份特征的类间距离。
4.根据权利要求1所述的一种基于多粒度信息交互模型的行人重识别方法,其特征在于,步骤四中,LML的计算方法为:
LML是基于散度损失实现的标签项互学习模块,LML负责两个分支块中的两个全局分支的相互学习;首先,LML将两个全局分支中预测向量的标签项筛选出来,分别记为Px和Py,然后比较标签项的概率大小,区别出较高概率的标签项与较低概率的标签项,该过程的公式如下:
Zmin=min{Px,Py} (3)
zmax=max{Px,Py} (4)
然后将概率高的标签项Zmax作为目标概率分布计算散度损失,该公式如下:
Figure FDA0002522808420000033
公式(5)中的xi为网络的输入,V和M表示在训练中表示输入的图像数量以及数据集的行人身份数量。
CN202010495916.4A 2020-06-03 2020-06-03 一种基于多粒度信息交互模型的行人重识别方法 Active CN111709331B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010495916.4A CN111709331B (zh) 2020-06-03 2020-06-03 一种基于多粒度信息交互模型的行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010495916.4A CN111709331B (zh) 2020-06-03 2020-06-03 一种基于多粒度信息交互模型的行人重识别方法

Publications (2)

Publication Number Publication Date
CN111709331A true CN111709331A (zh) 2020-09-25
CN111709331B CN111709331B (zh) 2023-06-09

Family

ID=72539388

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010495916.4A Active CN111709331B (zh) 2020-06-03 2020-06-03 一种基于多粒度信息交互模型的行人重识别方法

Country Status (1)

Country Link
CN (1) CN111709331B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800967A (zh) * 2021-01-29 2021-05-14 重庆邮电大学 一种姿态驱动的遮挡行人重识别方法
CN112818931A (zh) * 2021-02-26 2021-05-18 中国矿业大学 基于多粒度深度特征融合的多尺度行人重识别方法
CN114333062A (zh) * 2021-12-31 2022-04-12 江南大学 基于异构双网络和特征一致性的行人重识别模型训练方法
CN116110076A (zh) * 2023-02-09 2023-05-12 国网江苏省电力有限公司苏州供电分公司 基于混合粒度网络的输电高空作业人员身份重识别方法和系统
WO2023173544A1 (zh) * 2022-03-16 2023-09-21 平安科技(深圳)有限公司 基于人工智能的行人重识别方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299262A (zh) * 2018-10-09 2019-02-01 中山大学 一种融合多粒度信息的文本蕴含关系识别方法
CN109784288A (zh) * 2019-01-22 2019-05-21 天津师范大学 一种基于判别感知融合的行人再识别方法
CN110070073A (zh) * 2019-05-07 2019-07-30 国家广播电视总局广播电视科学研究院 基于注意力机制的全局特征和局部特征的行人再识别方法
CN110378301A (zh) * 2019-07-24 2019-10-25 北京中星微电子有限公司 行人重识别方法及系统
CN110909701A (zh) * 2019-11-28 2020-03-24 北京百度网讯科技有限公司 行人特征的提取方法、装置、设备及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299262A (zh) * 2018-10-09 2019-02-01 中山大学 一种融合多粒度信息的文本蕴含关系识别方法
CN109784288A (zh) * 2019-01-22 2019-05-21 天津师范大学 一种基于判别感知融合的行人再识别方法
CN110070073A (zh) * 2019-05-07 2019-07-30 国家广播电视总局广播电视科学研究院 基于注意力机制的全局特征和局部特征的行人再识别方法
CN110378301A (zh) * 2019-07-24 2019-10-25 北京中星微电子有限公司 行人重识别方法及系统
CN110909701A (zh) * 2019-11-28 2020-03-24 北京百度网讯科技有限公司 行人特征的提取方法、装置、设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JUN KONG 等: "Multi-complement feature network for infrared-visible cross- modality personre-identification" *
XUDONG LIU 等: "Interactiveinformation moduleforperson re-identification" *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800967A (zh) * 2021-01-29 2021-05-14 重庆邮电大学 一种姿态驱动的遮挡行人重识别方法
CN112800967B (zh) * 2021-01-29 2022-05-17 重庆邮电大学 一种姿态驱动的遮挡行人重识别方法
CN112818931A (zh) * 2021-02-26 2021-05-18 中国矿业大学 基于多粒度深度特征融合的多尺度行人重识别方法
CN114333062A (zh) * 2021-12-31 2022-04-12 江南大学 基于异构双网络和特征一致性的行人重识别模型训练方法
CN114333062B (zh) * 2021-12-31 2022-07-15 江南大学 基于异构双网络和特征一致性的行人重识别模型训练方法
WO2023173544A1 (zh) * 2022-03-16 2023-09-21 平安科技(深圳)有限公司 基于人工智能的行人重识别方法、装置、设备及存储介质
CN116110076A (zh) * 2023-02-09 2023-05-12 国网江苏省电力有限公司苏州供电分公司 基于混合粒度网络的输电高空作业人员身份重识别方法和系统
CN116110076B (zh) * 2023-02-09 2023-11-07 国网江苏省电力有限公司苏州供电分公司 基于混合粒度网络的输电高空作业人员身份重识别方法和系统

Also Published As

Publication number Publication date
CN111709331B (zh) 2023-06-09

Similar Documents

Publication Publication Date Title
CN111709331B (zh) 一种基于多粒度信息交互模型的行人重识别方法
Liu et al. Learning deep multi-level similarity for thermal infrared object tracking
Oh et al. Onion-peel networks for deep video completion
CN107291945B (zh) 基于视觉注意力模型的高精度服装图像检索方法及系统
CN112184752A (zh) 一种基于金字塔卷积的视频目标跟踪方法
CN111460914B (zh) 一种基于全局和局部细粒度特征的行人重识别方法
CN111881714A (zh) 一种无监督跨域行人再识别方法
CN109472191B (zh) 一种基于时空上下文的行人重识别与追踪方法
CN113065402B (zh) 一种基于变形注意力机制的人脸检测方法
CN111833273B (zh) 基于长距离依赖的语义边界增强方法
CN107315795B (zh) 联合特定人物和场景的视频实例检索方法及系统
CN111027377B (zh) 一种双流神经网络时序动作定位方法
CN110827312A (zh) 一种基于协同视觉注意力神经网络的学习方法
Hu et al. Real-time Target Tracking Based on PCANet-CSK Algorithm
Waris et al. CNN-based edge filtering for object proposals
Dong et al. Hierarchical superpixel-to-pixel dense matching
CN112183675A (zh) 一种基于孪生网络的针对低分辨率目标的跟踪方法
CN109325407A (zh) 基于f-ssd网络滤波的光学遥感视频目标检测方法
CN111507416A (zh) 一种基于深度学习的吸烟行为实时检测方法
Yang et al. Robust visual tracking using adaptive local appearance model for smart transportation
CN112489089B (zh) 一种微型固定翼无人机机载地面运动目标识别与跟踪方法
Tan et al. IMSiam: IoU-aware Matching-adaptive Siamese network for object tracking
He et al. Variable scale learning for visual object tracking
CN117036897A (zh) 一种基于Meta RCNN的少样本目标检测方法
Scheck et al. Unsupervised domain adaptation from synthetic to real images for anchorless object detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant