CN114511881A - 基于层次注意力多任务深度模型的行人再识别方法 - Google Patents

基于层次注意力多任务深度模型的行人再识别方法 Download PDF

Info

Publication number
CN114511881A
CN114511881A CN202210106070.XA CN202210106070A CN114511881A CN 114511881 A CN114511881 A CN 114511881A CN 202210106070 A CN202210106070 A CN 202210106070A CN 114511881 A CN114511881 A CN 114511881A
Authority
CN
China
Prior art keywords
model
pedestrian
focus
pedestrians
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210106070.XA
Other languages
English (en)
Inventor
王其聪
黄艳
秦启峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Shenzhen Research Institute of Xiamen University
Original Assignee
Xiamen University
Shenzhen Research Institute of Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University, Shenzhen Research Institute of Xiamen University filed Critical Xiamen University
Priority to CN202210106070.XA priority Critical patent/CN114511881A/zh
Publication of CN114511881A publication Critical patent/CN114511881A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

基于层次注意力多任务深度模型的行人再识别方法,涉及计算机视觉。包括以下步骤:根据行人再识别数据集构建焦点图;设计层次注意力的多任务深度模型的行人再识别网络模型,通过该模型推断出行人间的相似性;计算两个子任务的分类损失和,通过反向传播和随机梯度下降法对网络模型进行端到端的训练,得到训练好的模型;利用训练好的网络模型测试行人再识别的识别效果,输出行人间的相似度,并按照其大小降序排序。能充分共享在底层细节和高层语义方面具有不同区分力的层次特征提升深度相似性学习性能。在焦点图节点多层近邻聚合间引入注意力机制,使每层近邻聚合后具有区分性的节点通道信息更具重要性,促进对样本间复杂相似性关系的深度推断。

Description

基于层次注意力多任务深度模型的行人再识别方法
技术领域
本发明属于计算机视觉领域,尤其是涉及一种基于层次注意力多任务深度模型的行人再识别方法。
背景技术
由于公共安全需求的增加和大量监控设备的使用,行人再识别任务受到了越来越多的关注并成为计算机视觉领域中的研究热点之一。行人再识别任务的目标是,当视频监控中出现了目标任务时,它会去判断目标是否在另一个地方或时间被另一个监控设备观察到。正是因为行人再识别的跨设备识别要求,它的研究难点在于以下几个方面。首先,由于各个监控设备的地点不同,因此,拍摄的行人往往具有不同的角度和姿势,若角度和姿势的变化导致和目标差异多大,会增加再识别的难度。其次,拍摄行人时,可能处于白天,而该目标可能在晚上出现在另一个监控设备的画面中,所以目标会出现强烈的明暗变化,这也会导致识别难度增加。此外,由于监控设备所在之处的人流量难以控制,当人流量大时,难免会对目标造成某种程度的遮挡,而这会导致目标图像中混入噪声,因此对再识别算法也提出了更高的要求。
目前基于相似性学习的再识别方法是解决上述问题的研究热点之一。相似性学习的目的是学习一个映射空间,使得样本在这个空间中,同类的样本相互靠近,异类的样本相互远离。由于仅优化相似性学习方法容易产生次优解,因此,大部分相似性学习方法与多任务学习方法结合以解决这个问题,即增加一个分类任务,通过多任务学习机制同时优化分类任务和相似性学习任务,并提升相似性学习任务的性能。但大多数现有方法仍然存在着两个问题:
1)大多数方法仅从深层CNN中利用最后一个全连接层中提取一个深层特征。然而实际上网络中的低层会提取一些边缘特征,高层可以进行形状或目标的认知,仅用单层的特征会导致特征对于某些变化敏感,例如视角、光照等。
2)目前多任务相似性学习方法大多将样本组织成一些样本组来考虑样本间的相关性,例如一对、三元组、四元组等。这些方法在损失函数中嵌入距离信息,通过计算样本组内相关样本的距离迫使类内距离缩小,类间距离增大。但是,由于样本组内考虑的信息有限,以这种方式学习到的嵌入空间也许会存在一些问题,即,某些样本特征在样本组内是具有区分性的,但从整个嵌入空间来看,这种区分性会丢失,导致样本特征具有局部可区分性。虽然也有部分学者考虑利用图结构进行相似性学习,以考虑更丰富的样本关系,但是这类方法没有充分利用共享特征,忽略了共享特征对于任务性能提升的重要性,使得性能受限。
因此在行人再识别方法中,不仅要考虑多层次特征带来的细节和语义信息,还要考虑样本间更丰富的关系进行相似性学习,并且需要设计共享特征的方式进行端到端训练,使得子任务之间能够相互提升。
发明内容
本发明针对上述问题和技术分析,提供一种基于层次注意力多任务深度模型的行人再识别方法。
本发明包括以下步骤:
1)根据行人再识别数据集构建焦点图;
2)设计层次注意力的多任务深度模型的行人再识别网络模型,通过该模型推断出行人间的相似性;
3)计算两个子任务的分类损失和,通过反向传播和随机梯度下降法对网络模型进行端到端的训练,最终得到训练好的模型;
4)利用训练好的网络模型测试行人再识别的识别效果,输出行人间的相似度,并按照其大小降序排序。
在步骤1),所述根据行人再识别数据集构建焦点图的具体步骤可为:
1.1首先,利用预训练的ResNet-50网络(K.He,X.Zhang,S.Ren,and J.Sun,“Deepresidual learning for image recognition,”in Computer Vision and PatternRecognition(CVPR), 2016,pp.770–778)提取训练集中所有行人图像的深度特征;
1.2将每一个特征都当作是一个焦点,计算每个焦点和其他所有节点的欧氏距离并当作相似度,求得每个焦点的前k个近邻;
1.3针对每个焦点和它的近邻集,为它们之间建立连接以构建焦点图;建立连接的具体规则为:若某个近邻的近邻集中存在节点,也在当前焦点的近邻集中,就将这些节点和这个近邻相连,则对于当前焦点,它的焦点图建立完毕,然后对其他所有焦点重复1.2和1.3步骤,即可得到所有的焦点图。
在步骤2)中,所述设计层次注意力的多任务深度模型的行人再识别网络模型,通过该模型推断出行人间的相似性,具体步骤可为:
2.1在第一个节点分类任务中,ResNet-50模型为主干网络,提取焦点图中节点的特征, ResNet-50在第一次卷积之后被分成三个阶段,分别是第二、三、四层残差层;每个阶段后增加了一个特征增强模块。特征增强模块内部,首先对输入的特征分别进行全局平均池化和全局最大池化,并将两个池化结果相加后,进行批正则化,激活后再进入一个神经元个数为512 的全连接层中,最后输出该阶段的特征。在第一个卷积和所有残差层之后,增加特征通道注意力学习模块,在该特征通道注意力学习模块中,学习每个通道特征的权重,权重大小控制在0~1之间,然后将权重和原特征相乘,再进行下一阶段的操作。
2.2在相似性推断任务中,设计了关系增强图卷积网络;焦点图的特征和邻接矩阵输入后,首先经过图卷积对节点特征矩阵进行邻域聚合和转换,对特征进行全局平均池化,压缩后输入到两个全连接层中,最后通过激活函数将其大小限制在0~1之间,然后在乘上图卷积输出之后的特征,并作为下一阶段的输入。最后的节点特征会经过两个全连接层,最后一个全连接层的神经元个数是2,表示将对特征进行二分类。
在步骤3)中,计算两个子任务的分类损失和,通过反向传播和随机梯度下降法对网络模型进行端到端的训练,具体步骤为:
3.1节点分类任务中,三个阶段的特征按列拼接后,融合成一个共享特征,该共享特征经过一个全连接层,对其进行分类训练,损失函数为交叉熵损失。相似性推断任务中,关系增强图卷积之后的特征经过两个全连接层,对其进行二分类,用于预测节点之间是否应当连接。
3.2两个任务的损失相加作为总损失,通过反向传播和随机梯度下降法对网络模型进行训练更新。
与现有的技术相比,本发明具有以下突出的优点:
本发明提出一种端到端的层次注意力的多任务深度模型框架,其可以利用节点分类任务辅助相似性推断任务。其中,为了解决单一特征的敏感性问题,我们还设计了具有特征增强功能的网络,使得整个模型能够充分共享在底层细节和高层语义方面具有不同区分力的层次特征来提升深度相似性学习的性能。此外,本发明设计了一种焦点图来表达数据间丰富的相关性,进而提出了关系增强图卷积网络,其在焦点图节点多层近邻聚合间引入注意力机制,使每层近邻聚合后具有区分性的节点通道信息更具重要性,可促进对样本间复杂相似性关系的深度推断。
附图说明
图1为构建焦点图示意图。
图2为本发明实施例的框架图。
图3为特征通道注意力学习模块框架图。
图4为特征增强模块框架图。
具体实施方式
下面将结合实施例和附图,对本发明的方法详细说明。
本发明实施例包括以下步骤:
1)根据行人再识别数据集构建焦点图。给定一个行人图像,该步骤的目的是为该行人建立一个焦点图,获取该图中节点对应的行人图像和该图的邻接矩阵。假设所有图像的集合为 D={v1,v2,…,vo},其中o表示所有样本的数量。以一张焦点图为例,我们现在对图像vf建立它的焦点图,它可以表示为
Figure BDA0003493972630000041
其中,V(f)表示以vf为焦点而采样的图像,A(f)表示该图的邻接矩阵。为了获取V(f),首先利用一个预训练的ResNet-50提取数据集中的所有图片特征,然后计算节点vf和其他所有图像之间的欧式距离:
Figure BDA0003493972630000042
Figure BDA0003493972630000043
表示节点vf对应特征的第i个通道,d(vf,vj)表示节点vf和vj之间的欧式距离。然后从这些距离中,选出距离vf最近的前k个节点,即可得V(f)
Figure BDA0003493972630000044
min(k)表示选择前k个最小值。然后,为了获得A(f),需要确定图内节点确立怎样的关系。具体建立连接的规则如图1所示。图中vf为焦点,其余节点组成了它的节点集V(f),对于其中的某个节点
Figure BDA0003493972630000045
来说,它也存在自己的点集,假设节点
Figure BDA0003493972630000046
同样也在
Figure BDA0003493972630000047
的节点集中,那么就将
Figure BDA0003493972630000048
Figure BDA0003493972630000049
建立连接。对V(f)中的每一个节点都做这样的评估,就可以得到A(f)
Figure BDA00034939726300000410
也就由此建立。
2)设计基于层次注意力的多任务深度模型的行人再识别网络模型,通过该模型推断出行人间的相似性。整体网络模型参见图2。
2.1在节点分类任务中,ResNet-50模型为主干网络,它主要由卷积层、最大池化层和四个残差块组成;在四个残差块前分别加上对应维度的特征通道注意力学习模块,然后对第二、三、四模块的输出做特征增强处理。
特征通道注意力学习模块的结构参见图3,已知节点vf的焦点图
Figure BDA0003493972630000051
假设节点集V(f)中某个节点经过骨干网络四个残差块之后的特征分别为X(i)∈RW×H×C,其中
Figure BDA0003493972630000052
Figure BDA0003493972630000053
表示第i阶段第c个通道的特征。前四个阶段特征的通道数量分别为:64、256、 512、1024。对于每一个W×H维的通道特征
Figure BDA0003493972630000054
首先通过全局平均池化操作(GAP)来获得每个通道对应的权重
Figure BDA0003493972630000055
Figure BDA0003493972630000056
因此,第i个阶段对应的特征的权值为:
Figure BDA0003493972630000057
然后利用激活函数将权值限制在0和1之间,得到Z(i);最后将特征和通道在对应位置相乘,得
Figure BDA0003493972630000058
特征增强模块的结构参见图4。已知骨干网络第二、三、四个残差块之后的图内某个节点的特征分别为X(i)∈RW×H×C,分别用全局平均池化和全局最大池化对X(i)处理,得到
Figure BDA0003493972630000059
Figure BDA00034939726300000510
然后将
Figure BDA00034939726300000511
Figure BDA00034939726300000512
相加,并经过一个全连接层,得到
Figure BDA00034939726300000513
最后将获取的m(2),m(3),m(4)按行拼接得到m,即网络的结果。同样的,可以得到图
Figure BDA00034939726300000514
中节点集的特征嵌入M(f),且
Figure BDA00034939726300000515
2.2在相似性推断任务中,关系增强图卷积网络以
Figure BDA00034939726300000516
的节点特征Mf和邻接矩阵A(f)作为输入,并经过4层图卷积网络,图卷积网络可以表示为:
Figure BDA00034939726300000517
其中,上标l表示图卷积的层号,W(l-1)表示第l-1层的图卷积参数,
Figure BDA00034939726300000518
D 表示A(f)的对角度矩阵,
Figure BDA00034939726300000519
然后对
Figure BDA00034939726300000520
的维度拓展,即
Figure BDA00034939726300000521
之后经过全局平均池化,得到特征通道的初始权重cw。cw经过压缩维度后,利用批标准化处理、全连接层、非线性激活函数学习,最后利用一个sigmoid激活函数得到处于0和1之间的值,即
Figure BDA0003493972630000061
然后将
Figure BDA0003493972630000062
Figure BDA0003493972630000063
对应位置相乘,即可得到带有注意力机制的节点特征矩阵
Figure BDA0003493972630000064
并作为下一层的输入。
3)计算两个子任务的分类损失和,通过反向传播和随机梯度下降法对网络模型进行端到端的训练。首先对于节点分类,在得到节点特征矩阵M(f)后,会经过一个具有类别数量神经元的全连接层。然后利用一个多分类的交叉熵损失函数进行节点分类任务:
Figure BDA0003493972630000065
Cls表示节点的类别数,若当前节点i属于第j类,那tij就为1,否则为0。在相似性推断任务中,首先利用节点特征
Figure BDA0003493972630000066
初始化边的特征E(f),然后利用一个全连接层转换边的特征,经过激活函数后,对边的特征利用一个全连接层进行二分类。最后一个全连接层的神经元数量为 2,然后,利用一个二分类的交叉熵损失函数训练,即:
Figure BDA0003493972630000067
其中,yci表示中心节点vc与它的第i个邻居vi之间是否真实连接,连接则为1,否则为0。
Figure BDA0003493972630000068
表示模型预测出的vc与vi连接的概率。因此我们模型的联合损失即为L=L1+L2,通过计算L的损失值,并通过反向传播和随机梯度下降法的端到端训练,整个网络模型会迭代更新参数值直至最优。
4)利用训练好的网络模型测试行人再识别的识别效果,输出行人间的相似度,并按照其大小降序排序。
在Market-1501、DukeMTMC-reID行人再识别数据集上,本发明提出的方法和其他行人再识别实验结果对比如表1和表2所示。
表1
Figure BDA0003493972630000069
Figure BDA0003493972630000071
表2
Figure BDA0003493972630000072
其中:
MHN对应B.Chen等人提出的方法(B.Chen,W.Deng,J.Hu,Mixed high-orderattention network for person re-identification,in:Proceedings of the IEEEInternational Conference on Computer Vision,2019,pp.371–381.);
CBN对应Z.Zhuang等人提出的方法(Z.Zhuang,L.Wei,L.Xie,T.Zhang,H.Zhang,H.Wu, H.Ai,Q.Tian,Rethinking the distribution gap of person re-identificationwith camera-based batch normalization,in:ECCV,2020.);
SAN对应C.Shen等人的方法(C.Shen,G.Qi,R.Jiang,Z.Jin,H.Yong,Y.Chen,andX.Hua, “Sharp attention network via adaptive sampling for person re-identification,”IEEE Transactions on Circuits and Systems for VideoTechnology,vol.29,no.10,pp.3016–3027,2019.)
PCB+RPP对应Y.Sun等人提出的方法(Y.Sun,L.Zheng,Y.Yang,Q.Tian,andS.Wang, “Beyond part models:Person retrieval with refined part pooling(and astrong convolutional baseline),”in Proceedings of the European Conference onComputer Vision(ECCV),September 2018,pp.480–496.);
MuDeep对应X.Qian等人提出的方法(X.Qian,Y.Fu,T.Xiang,Y.G.Jiang,X.Xue,Leader-based multi-scale attention deep architecture for person re-identification,IEEE Transactions on Pattern Analysis and Machine Intelligence42(2)(2020)371–385.);
DLPA对应L.Zhao等人提出的方法(L.Zhao,X.Li,Y.Zhuang,and J.Wang,“Deeply-learned part-aligned representations for person re-identification,”inProceedings of the IEEE International Conference on Computer Vision(ICCV),Oct2017,pp.3219–3228.);
MVP对应H.Sun等人提出的方法(H.Sun,Z.Chen,S.Yan,L.Xu,Mvp matching:Amaximum-value perfect matching for mining hard samples,with application toperson re-identification,in:Proceedings of the IEEE International Conferenceon Computer Vision,2019, pp.6737–6747.);
Pyramidal对应F.Zheng等人提出的方法(F.Zheng,C.Deng,X.Sun,X.Jiang,X.Guo,Z.Yu, F.Huang,R.Ji,Pyramidal person re-identification via multi-lossdynamic training,in:Proceedings of the IEEE Conference on Computer Vision andPattern Recognition,2019,pp.8514–8522);
SVDNet对应Y.Sun等人提出的方法(Y.Sun,L.Zheng,W.Deng,S.Wang,Svdnet forpedestrian retrieval,in:2017 IEEE International Conference on Computer Vision(ICCV),2017,pp. 3820–3828.);
Structural对应X.Yang等人提出的方法(X.Yang,P.Zhou,M.Wang,Personreidentification via structural deep metric learning,IEEE Transactions onNeural Networks and Learning Systems 30(10)(2019)2987–2998.);
Group-shuffling对应Y.Shen等人提出的方法(Y.Shen,H.Li,T.Xiao,S.Yi,D.Chen,X. Wang,Deep group-shuffling random walk for person re-identification,in:Proceedings of the IEEE Conference on Computer Vision and PatternRecognition(CVPR),2018.);
SGGNN对应Y.Shen等人提出的方法(Y.Shen,H.Li,S.Yi,D.Chen,X.Wang,Personre-identification with deep similarity-guided graph neural network,in:Proceedings of the European Conference on Computer Vision(ECCV),2018.);
CACE-Net对应X.Jiang等人提出的方法(X.Jiang,F.Yu,Y.Gong,S.Zhao,X.Guo,F.Huang,W.-S.Zheng,X.Sun,Devil’s in the detail:Graph-based key-point alignmentand embedding for 760 person re-id,arXiv preprint arXiv:2009.05250.);
P2-Net对应J.Guo等人提出的方法(J.Guo,Y.Yuan,L.Huang,C.Zhang,J.-G.Yao,and K. Han,“Beyond human parts:Dual part-aligned representations for personreidentification,”in Proceedings of the IEEE/CVF International Conference onComputer Vision(ICCV),October 2019, pp.3642–3651)
SPReID对应M.M.Kalayeh等人提出的(M.M.Kalayeh,E.Basaran,M.G¨okmen,M.E.Kamasak,and M.Shah,“Human semantic parsing for person re-identification,”inProceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR),June 2018,pp. 1062–1071.)
PIE对应L.Zheng等人提出的方法(L.Zheng,Y.Huang,H.Lu,Y.Yang,Pose-invariant embedding for deep person re-identification,IEEE Transactions onImage Processing 28(9)(2019) 4500–4509.);
AVA-reID对应L.Wu等人提出的方法(L.Wu,R.Hong,Y.Wang,and M.Wang, “Cross-entropy adversarial view adaptation for person re-identification,”IEEETransactions on Circuits and Systems for Video Technology,vol.30,no.7,pp.2081–2092,2020.)
CL对应W.Wang等人提出的方法(W.Wang,W.Pei,Q.Cao,S.Liu,G.Lu,and Y.W.Tai,“Push for center learning via orthogonalization and subspace masking forperson re-identification,” IEEE Transactions on Image Processing,vol.30,pp.907–920,2021.)。

Claims (4)

1.基于层次注意力多任务深度模型的行人再识别方法,其特征在于包括以下步骤:
1)根据行人再识别数据集构建焦点图;
2)设计层次注意力的多任务深度模型的行人再识别网络模型,通过该模型推断出行人间的相似性;
3)计算两个子任务的分类损失和,通过反向传播和随机梯度下降法对网络模型进行端到端的训练,最终得到训练好的模型;
4)利用训练好的网络模型测试行人再识别的识别效果,输出行人间的相似度,并按照其大小降序排序。
2.如权利要求1所述基于层次注意力多任务深度模型的行人再识别方法,其特征在于在步骤1)中,所述根据行人再识别数据集构建焦点图的具体步骤为:
1.1利用预训练的ResNet-50网络提取训练集中所有行人图像的深度特征;
1.2将每一个特征都当作是一个焦点,计算每个焦点和其他所有节点的欧氏距离并当作相似度,求得每个焦点的前k个近邻;
1.3针对每个焦点和它的近邻集,为它们之间建立连接以构建焦点图;建立连接的具体规则为:若某个近邻的近邻集中存在节点,也在当前焦点的近邻集中,则将这些节点和这个近邻相连;那么对于当前焦点,它的焦点图建立完毕,然后对其他所有焦点重复1.2和1.3步骤,即得到所有的焦点图。
3.如权利要求1所述基于层次注意力多任务深度模型的行人再识别方法,其特征在于在步骤2)中,所述设计层次注意力的多任务深度模型的行人再识别网络模型,通过该模型推断出行人间的相似性,具体步骤为:
2.1在第一个节点分类任务中,ResNet-50模型为主干网络,提取焦点图中节点的特征,ResNet-50在第一次卷积之后被分成三个阶段,分别是第二、三、四层残差层;每个阶段后增加了一个特征增强模块;特征增强模块内部,首先对输入的特征分别进行全局平均池化和全局最大池化,并将两个池化结果相加后,进行批正则化,激活后再进入一个神经元个数为512的全连接层中,最后输出该阶段的特征;在第一个卷积和所有残差层之后,增加特征通道注意力学习模块,在该特征通道注意力学习模块中,学习每个通道特征的权重,权重大小控制在0~1之间,然后将权重和原特征相乘,再进行下一阶段的操作;
2.2在相似性推断任务中,设计了关系增强图卷积网络;焦点图的特征和邻接矩阵输入后,首先经过图卷积对节点特征矩阵进行邻域聚合和转换,对特征进行全局平均池化,压缩后输入到两个全连接层中,最后通过激活函数将其大小限制在0~1之间,然后在乘上图卷积输出之后的特征,并作为下一阶段的输入;最后的节点特征会经过两个全连接层,最后一个全连接层的神经元个数是2,表示将对特征进行二分类。
4.如权利要求1所述基于层次注意力多任务深度模型的行人再识别方法,其特征在于在步骤3)中,计算两个子任务的分类损失和,通过反向传播和随机梯度下降法对网络模型进行端到端的训练,具体步骤为:
3.1节点分类任务中,三个阶段的特征按列拼接后,融合成一个共享特征,该共享特征经过一个全连接层,对其进行分类训练,损失函数为交叉熵损失;相似性推断任务中,关系增强图卷积之后的特征经过两个全连接层,对其进行二分类,用于预测节点之间是否应当连接;
3.2两个任务的损失相加作为总损失,通过反向传播和随机梯度下降法对网络模型进行训练更新。
CN202210106070.XA 2022-01-28 2022-01-28 基于层次注意力多任务深度模型的行人再识别方法 Pending CN114511881A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210106070.XA CN114511881A (zh) 2022-01-28 2022-01-28 基于层次注意力多任务深度模型的行人再识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210106070.XA CN114511881A (zh) 2022-01-28 2022-01-28 基于层次注意力多任务深度模型的行人再识别方法

Publications (1)

Publication Number Publication Date
CN114511881A true CN114511881A (zh) 2022-05-17

Family

ID=81552242

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210106070.XA Pending CN114511881A (zh) 2022-01-28 2022-01-28 基于层次注意力多任务深度模型的行人再识别方法

Country Status (1)

Country Link
CN (1) CN114511881A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695460A (zh) * 2020-05-29 2020-09-22 天津师范大学 一种基于局部图卷积网络的行人再识别方法
US20210150268A1 (en) * 2017-07-13 2021-05-20 Peking University Shenzhen Graduate School Method of using deep discriminate network model for person re-identification in image or video

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210150268A1 (en) * 2017-07-13 2021-05-20 Peking University Shenzhen Graduate School Method of using deep discriminate network model for person re-identification in image or video
CN111695460A (zh) * 2020-05-29 2020-09-22 天津师范大学 一种基于局部图卷积网络的行人再识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郑鑫;林兰;叶茂;王丽;贺春林;: "结合注意力机制和多属性分类的行人再识别", 中国图象图形学报, no. 05, 16 May 2020 (2020-05-16), pages 90 - 99 *

Similar Documents

Publication Publication Date Title
Hao et al. HSME: Hypersphere manifold embedding for visible thermal person re-identification
US20220375213A1 (en) Processing Apparatus and Method and Storage Medium
CN111767882A (zh) 一种基于改进yolo模型的多模态行人检测方法
CN112990211B (zh) 一种神经网络的训练方法、图像处理方法以及装置
Li et al. A survey on semantic segmentation
Wang et al. Regional detection of traffic congestion using in a large-scale surveillance system via deep residual TrafficNet
WO2022160772A1 (zh) 一种基于视角引导多重对抗注意力的行人重识别方法
CN109214263A (zh) 一种基于特征复用的人脸识别方法
CN112801015A (zh) 一种基于注意力机制的多模态人脸识别方法
Jain et al. AI-enabled object detection in UAVs: challenges, design choices, and research directions
Chavan et al. Convolutional neural network hand gesture recognition for American sign language
CN113361549A (zh) 一种模型更新方法以及相关装置
CN111695460A (zh) 一种基于局部图卷积网络的行人再识别方法
John et al. Real-time hand posture and gesture-based touchless automotive user interface using deep learning
Petrovai et al. Multi-task network for panoptic segmentation in automated driving
Cao et al. Learning spatial-temporal representation for smoke vehicle detection
CN115953643A (zh) 基于知识蒸馏的模型训练方法、装置及电子设备
CN114241250A (zh) 一种级联回归目标检测方法、装置及计算机可读存储介质
CN112070010A (zh) 一种联合多损失动态训练策略增强局部特征学习的行人重识别方法
CN111695531A (zh) 一种基于异构卷积网络的跨域行人再识别方法
CN117523208B (zh) 基于图像语义分割与分类的身份识别方法与系统
Jafri et al. Face Recognition using Deep Neural Network with" LivenessNet"
Joodi et al. Increasing validation accuracy of a face mask detection by new deep learning model-based classification
WO2023029559A1 (zh) 一种数据处理方法以及装置
CN114511881A (zh) 基于层次注意力多任务深度模型的行人再识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination