CN111259836A - 一种基于动态图卷积表征的视频行人重识别方法 - Google Patents
一种基于动态图卷积表征的视频行人重识别方法 Download PDFInfo
- Publication number
- CN111259836A CN111259836A CN202010067125.1A CN202010067125A CN111259836A CN 111259836 A CN111259836 A CN 111259836A CN 202010067125 A CN202010067125 A CN 202010067125A CN 111259836 A CN111259836 A CN 111259836A
- Authority
- CN
- China
- Prior art keywords
- video
- pedestrian
- adjacency matrix
- graph
- videos
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于动态图卷积表征的视频行人重识别方法,用于在给定待检索行人视频的情况下,能够从样本库行人视频中找出属于同一行人的对应视频。具体包括如下步骤:获取用于训练的视频行人重识别算法数据集,并定义算法目标;对视频进行特征提取,构建基于图像块的特征金字塔;对视频进行人体关节点检测,基于人体部件位置计算得到结构邻接矩阵;利用S2中所述提取得到的特征,基于图像特征相似度计算得到相似度邻接矩阵;结合所述结构邻接矩阵以及相似度邻接矩阵,构建采用注意力机制以及图卷积的联合学习框架;使用所述联合学习框架对视频进行特征提取,采用特征间距离对样本库内行人视频进行排序。本发明适用于真实视频中的行人重识别,面对各类复杂情况具有较佳的效果和鲁棒性。
Description
技术领域
本发明属于计算机视觉领域,特别地涉及一种基于动态图卷积表征的视频行人重识别方法。
背景技术
视频行人重识别被定义为如下问题:在给定待检索行人视频的情况下,从样本库行人视频中找出属于同一行人的对应视频。视频行人重识别常用于监控场景下行人跟踪、行人轨迹分析等应用中。传统方法通过对行人视频进行逐帧特征提取并加以融合,但是未考虑人体结构、视频内行人部件运动信息以及所提取特征之间的语义关联。本发明利用了人体结构以及特征相似度构建了一个整体的时空图结构,学习更加鲁棒的视频特征,这在本任务中是非常重要的。
由于统计建模的有效性,目前基于学习的方法逐渐被应用到视频行人重识别任务中。现有的基于学习的方法主要采用深度学习框架,输入一段行人视频,输出视频特征用于检索。
发明内容
为解决上述问题,本发明的目的在于提供一种基于动态图卷积表征的视频行人重识别方法。该方法基于深度神经网络,对行人视频中逐帧进行图像块划分,利用了人体结构以及特征相似度构建了一个整体的时空图结构,利用人体关节点检测算法得到的人体部件信息作为先验加入到图卷积模型中,从而使模型能够学习更加鲁棒的视频特征。
为实现上述目的,本发明的技术方案为:
一种基于时空上下文学习的手部姿态估计方法,其包括以下步骤:
S1、获取用于训练的视频行人重识别算法数据集,并定义算法目标;
S2、对视频进行特征提取,构建基于图像块的特征金字塔;
S3、对视频进行人体关节点检测,基于人体部件位置计算得到结构邻接矩阵;
S4、利用S2中所述提取得到的特征,基于图像特征相似度计算得到相似度邻接矩阵;
S5、结合所述结构邻接矩阵以及相似度邻接矩阵,构建采用时间注意力机制以及图卷积的联合学习框架;
S6、使用所述联合学习框架对视频进行特征提取,采用特征间距离对样本库内行人视频进行排序。
基于上述方案,各步骤可以通过如下方式实现:
优选的,步骤S1中,获取所述用于训练的视频行人重识别算法数据集每个训练视频中含有连续帧行人图像以及对应的人工标注yn∈RM,其中表示第n个视频中的第t帧行人图像,N为视频总数,T为该视频中帧数,M为标注行人总类别数;算法目标定义为:从候选行人视频中检索出和给定行人视频属于同一行人的视频。
优选的,步骤S2中,对视频进行特征提取,构建基于图像块的特征金字塔,具体包括以下子步骤:
S21、使用神经网络对视频中每一帧行人图像It提取特征,得到特征图ft∈Rd×h×w:
ft=F(It;θbackbone)
S22、对所述S21中得到的T个特征图应用3D全局平均值池化(Global AveragePooling),得到全局特征向量xgap∈Rd;
S23、对所述S21中得到的每个特征图应用金字塔池化(Pyramid Pooling),将ft在第二维度h进行等步长切分为1、2以及4个区域,并对每个区域中特征应用2D全局平均值池化(Global Average Pooling),得到金字塔特征向量其中xk表示第k个区域采用全局池化操作后得到的特征。
优选的,步骤S3中,对视频进行人体关节点检测,基于人体部件位置计算得到结构邻接矩阵,具体包括以下子步骤:
S31、使用人体关节点检测算法对视频中每一帧进行关节点检测,并得到头部、上半身、下半身三个部分的包围框;
Sk→{头部、上半身、下半身}
S33、构建结构邻接矩阵Ap,该邻接矩阵中第i行第j列的元素计算公式为:
优选的,步骤S4中,利用S2所述提取得到的特征,基于图像特征相似度计算得到相似度邻接矩阵Af,Af中第i行第j列的元素计算公式为:
优选的,步骤S5中,结合所述结构邻接矩阵以及相似度邻接矩阵,构建采用时间注意力机制以及图卷积的联合学习框架,具体包括以下子步骤:
S51、结合S3以及S4中所述结构邻接矩阵Ap和相似度邻接矩阵Af,构建图模型G={V,A},其中表示节点特征,A∈R(T×7)×(T×7)表示节点间关系的图邻接矩阵,A中第i行第j列的元素计算公式为:
其中γ为权重因子用以平衡结构邻接矩阵和相似度邻接矩阵。
其中Fgcn()为图卷积网络,θgcn为图卷积网络参数;
其中||·||1表示计算向量L1范数;
S54、对所述S22以及S53中分别得到的xgap和xgraph应用一层全连接操作,输出M类行人标签概率值p,xgap和xgraph对应的概率值p分别表示为pgap和pgraph,计算公式表示为:
pgap=Ffc(xgap;θfc)
pgraph=Ffc(xgraph;θfc)
其中Ffc()为全连接层,θfc为可训练参数。
优选的,步骤S6中,使用所述联合学习框架对视频进行特征提取,采用特征间距离对样本库内行人视频进行排序,具体包括:
S61、基于由S1-S5建立的端到端联合学习框架,采用组输入,在训练中,将多帧图像输入该端到端联合学习框架的神经网络中,所有网络参数θ通过最小化损失函数进行学习,其中损失函数L采用交叉熵损失函数与三元损失函数之和;
使用Adam优化方法和反向传播算法在损失函数L下训练整个网络;
S62、利用训练完成的神经网络对视频进行特征提取得到{xgraph,xgap}并拼接两个特征,通过计算给定待检索视频以及样本库内视频特征之间的欧几里得距离进行行人视频检索。
优选的,所述交叉熵损失函数为:
所述三元损失函数作用于特征,对输入视频构建锚点-正样本-负样本三元组,三元损失函数为:
其中:P、K为构造三元组输入所使用超参数,P表示每批数据中包含的类别数量,K表示每个类别对应的视频数量;
为第i个类别的第a个锚点所使用的全局特征;为第i个类别的第p个正样本所使用的全局特征;为第j个类别的第n个负样本所使用的经过图卷积得到的特征;为第i个类别的第a个锚点所使用的经过图卷积得到的特征;表示第i个类别的第p个正样本所使用的经过图卷积得到的特征;
总的损失函数为:
L=Lxent+Lhtri。
本发明的基于动态图卷积表征的视频行人重识别方法,相比于现有的视频行人重识别方法,具有以下有益效果:
首先,本发明的基于动态图卷积表征的视频行人重识别方法利用了行人视频中人体结构作为先验信息计算结构邻接矩阵,并结合特征相似度计算得到的相似度邻接矩阵,构建了人体结构驱动的时空图。该时空图内部连接关系随特征的更新而动态更新,可以有效利用数据驱动的方法解决复杂场景下的行人重识别问题。
其次,本发明提出了一种端到端的动态时空图学习算法,该方法在给定输入情况下,利用输入内部的时空一致性,学习特定场景下的视频内部图结构,有效提升了视频行人重识别的预测准确度。
本发明的基于动态图卷积表征的视频行人重识别方法,在行人跟踪、行人轨迹分析等应用中,可以有效提高行人重识别的准确率,具有良好的应用价值。例如,在行人跟踪的应用场景下,针对行人离开拍摄场地再次进入场地导致无法跟踪的现象,通过视频行人重识别算法可以提高跟踪的准确性。
附图说明
图1为本发明的的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
参考图1,在本发明的较佳实施例中,一种基于动态图卷积表征的视频行人重识别方法,包括以下步骤:
S1、获取用于训练的视频行人重识别算法数据集,并定义算法目标。本步骤中,视频行人重识别算法数据集每个训练视频中含有连续帧行人图像以及对应的人工标注yn∈RM,其中表示第n个视频中的第t帧行人图像,N为视频总数,T为该视频中帧数,M为标注行人总类别数;算法目标定义为:从候选行人视频中检索出和给定行人视频属于同一行人的视频。
S2、对视频进行特征提取,构建基于图像块的特征金字塔。本步骤中,具体包括以下子步骤:
S21、使用神经网络对视频中每一帧行人图像It提取特征,得到特征图ft∈Rd×h×w:
ft=F(It;θbackbone)
S22、对上述S21中得到的T个特征图应用3D全局平均值池化(Global AveragePooling),得到全局特征向量xgap∈Rd;
S23、对上述S21中得到的每个特征图应用金字塔池化(Pyramid Pooling),将ft在第二维度h进行等步长切分为1、2以及4个区域,并对每个区域中特征应用2D全局平均值池化(Global Average Pooling),得到金字塔特征向量其中xk表示第k个区域采用全局池化操作后得到的特征。
S3、对视频进行人体关节点检测,基于人体部件位置计算得到结构邻接矩阵。本步骤中,具体包括以下子步骤:
S31、使用人体关节点检测算法对视频中每一帧进行关节点检测,并得到头部、上半身、下半身三个部分的包围框;
Sk→{头部、上半身、下半身}
S33、构建结构邻接矩阵Ap,该邻接矩阵中第i行第j列的元素计算公式为:
S4、利用S2中上述提取得到的特征,基于图像特征相似度计算得到相似度邻接矩阵。本步骤中,相似度邻接矩阵记为Af,Af中第i行第j列的元素计算公式为:
S5、结合上述结构邻接矩阵以及相似度邻接矩阵,构建采用时间注意力机制以及图卷积的联合学习框架。本步骤中,具体包括以下子步骤:
S51、结合S3以及S4中所述结构邻接矩阵Ap和相似度邻接矩阵Af,构建图模型G={V,A},其中表示节点特征,A∈R(T×7)×(T×7)表示节点间关系的图邻接矩阵,A中第i行第j列的元素计算公式为:
其中γ为权重因子用以平衡结构邻接矩阵和相似度邻接矩阵。
其中Fgcn()为图卷积网络,θgcn为图卷积网络参数,A为网络中节点关系图;
其中||·||1表示计算向量L1范数;
S54、对上述S22以及S53中分别得到的xgap和xgraph应用一层全连接操作,输出M类行人标签概率值p,xgap和xgraph对应的概率值p分别表示为pgap和pgraph,计算公式表示为:
pgap=Ffc(xgap;θfc)
pgraph=Ffc(xgraph;θfc)
其中Ffc()为全连接层,θfc为可训练参数。
S6、使用上述联合学习框架对视频进行特征提取,采用特征间距离对样本库内行人视频进行排序。本步骤中,具体包括以下子步骤:
S61、基于由S1~S5建立的端到端联合学习框架,采用组输入,在训练中,将多帧图像输入该端到端联合学习框架的神经网络中,所有网络参数θ通过最小化损失函数进行学习,其中损失函数L采用交叉熵损失函数与三元损失函数之和。
其中,交叉熵损失函数为:
其中,三元损失函数作用于特征,对输入视频构建锚点-正样本-负样本三元组,三元损失函数为:
其中:P、K为构造三元组输入所使用超参数,P表示每批数据中包含的类别数量,K表示每个类别对应的视频数量;
为第i个类别的第a个锚点所使用的全局特征;为第i个类别的第p个正样本所使用的全局特征;为第j个类别的第n个负样本所使用的经过图卷积得到的特征;为第i个类别的第a个锚点所使用的经过图卷积得到的特征;表示第i个类别的第p个正样本所使用的经过图卷积得到的特征;
总的损失函数为:
L=Lxent+Lhtri。
使用Adam优化方法和反向传播算法在损失函数L下训练整个网络;
S62、利用训练完成的神经网络对视频进行特征提取得到{xgraph,xgap}并拼接两个特征,通过计算给定待检索视频以及样本库内视频特征之间的欧几里得距离进行行人视频检索。
下面将上述方法应用于具体实施例中,以便本领域技术人员能够更好地理解本发明的效果。
实施例
本实施例基于上述方法进行实验,具体的实现方法如前所述,不在详细阐述具体的步骤,下面仅针对实验结果展示其结果。
PRID2011数据集:该数据集包含由两个摄像头录制,分别包含385和749个行人。其中前200个行人为重复出现行人,视频长度在5帧至675帧之间。
iLIDS-VID数据集:该数据集包含共计600个行人视频,共出现300个行人,视频长度在23帧至192帧之间,平均长度73帧。
MARS数据集:该数据集包含共计1261个行人,包含大约20000个行人视频,采用DPM检测器以及GMMCP跟踪器将行人裁剪出来。该数据集由6个摄像头录制。
DukeMTMC-VideoReID数据集:该数据集包含4832个视频以及1812个行人,视频平均帧数168帧,行人通过手工标注裁剪。
基于视频的行人重识别方法主要流程如下:
1)利用人体关节点检测算法对行人视频进行关节点检测,并构建结构邻接矩阵;
2)利用行人视频提取出金字塔特征,并构建相似度邻接矩阵;
3)结合结构邻接矩阵以及相似度邻接矩阵,使用图卷积神经网络更新特征;
4)输出待检索视频特征以及样本库视频特征,计算特征间欧几里得距离进行排序。
5)本实施例检索精度如表1、2、3所示。表中数据显示本发明在Rank-1,Rank-5,Rank-20,mAP指标上的表现。同其他方法对比,本发明有进一步的提升。
表1为本实施例在PRID2011以及iLIDS-VID数据集上的评价指标对比
表2为本实施例在MARS数据集上的评价指标对比
表3为本实施例在DukeMTMC-VideoReID数据集上的评价指标对比
其中Ours为本发明方法,其余方法对应参考文献如下:
[1]L.Zheng,Z.Bie,Y.Sun,J.Wang,C.Su,S.Wang,and Q.Tian,“Mars:A videobenchmark for large-scale person re-identification,”in Proc.Eur.ConferenceComput.Vis.Springer,2016,pp.868-884.
[2]Z.Zhou,Y.Huang,W.Wang,L.Wang,and T.Tan,“See the forest for thetrees:Joint spatial and temporal recurrent neural networks for video-basedperson re-identification,”in Proc.IEEE Comput.Soc.Conf.Comput.Vis.PatternRecognit.,July 2017.
[3]S.Xu,Y.Cheng,K.Gu,Y.Yang,S.Chang,and P.Zhou,“Jointly attentivespatial-temporal pooling networks for video-based person re-identification,”in Proc.IEEE Int.Conf.Comput.Vis.,Oct 2017.
[4]G.Song,B.Leng,Y.Liu,C.Hetang,and S.Cai,“Region-based qualityestimation network for large-scale person re-identification,”in Proc.AAAI,2018,pp.7347-7354.
[5]D.Chen,H.Li,T.Xiao,S.Yi,and X.Wang,“Video person re-identificationwith competitive snippet-similarity aggregation and co-attentive snippetembedding,”in Proc.IEEE Comput.Soc.Conf.Com-put.Vis.Pattern Recognit.,June2018.
[6]S.Li,S.Bak,P.Carr,and X.Wang,“Diversity regularized spatiotemporalattention for video-based person re-identification,”in Proe.IEEE Comput.Soc.Conf.Comput.Vis.Pattern Recognit.,June 2018.
[7]J.Zhang,N.Wang,and L.Zhang,“Multi-shot pedestrian re-identification via sequential decision making,”in Proc.IEEE Comput.Soc.Conf.Comput.Vis.Pattern Recognit.,June 2018.
[8]Y.Wu,Y.Lin,X.Dong,Y.Yan,W.Ouyang,and Y.Yang,“Exploit the unknowngradually:One-shot video-based person re-identification by stepwiselearning,”in Proc.IEEE Comput.Soc.Conf.Comput.Vis.Pattern Recognit.,June2018.
[9]L.Wu,Y.Wang,L.Shao,and M.Wang,“3-d person vlad:Learning deepglobal representations for video-based person reidentification,”IEEETrans.Neural Netw.Learn.Syst.,2019.
[10]L.Wu,Y.Wang,J.Gao,and X.Li,“Where-and-when to look:Deep siameseattention networksfor video-based person re-identification,”IEEETrans.Multimedia,2018.
[11]J.Dai,P.Zhang,D.Wang,H.Lu,and H.Wang,“Video person re-identification by temporal residual learning,”IEEE Trans.Image Process.,vol.28,no.3,pp.1366-1377,2018.
[12]J.Li,S.Zhang,and T.Huang,“Multi-scale 3d convolution network forvideo based person re-identification,”in Proc.AAAI,2019.
[13]Y.Fu,X.Wang,Y.Wei,and T.Huang,“Sta:Spatial-temporal attention forlarge-scale video-based person re-identification,”in Proe.AAAI,2019.
[14]Y.Liu,Z.Yuan,W.Zhou,and H.Li,“Spatial and temporal mutualpromotion for video-based person re-identification,”in Proc.AAAI,2019.
[15]R.Zhang,J.Li,H.Sun,Y.Ge,P.Luo,X.Wang,and L.Lin,“Scan:Self-and-collaborative attention network for video person re-identification,”IEEETrans.Image Process.,2019.
[16]G.Chen,J.Lu,M.Yang,and J.Zhou,“Spatial-temporal attention-awarelearning for video-based person re-identification,”IEEE Trans.Image Process.,2019.
[17]C.-T.Liu,C.-W.Wu,Y.-C.F.Wang,and S.-Y.Chien,“Spatially andtemporally efficient non-local attention network for video-based person re-identification,”in Proc.BMVC,2019.
[18]H.Liu,Z.Jie,K.Jayashree,M.Qi,J.Jiang,S.Yan,and J.Feng,“Video-based person re-identification with accumulative motion context,”IEEETrans.Circuits Syst.Video Technol.,vol.28,no.10,pp.2788-2802,2017.
[19]R.Hou,B.Ma,H.Chang,X.Gu,S.Shan,and X.Cheh,“Interaction-and-aggregation network for person re-identification,”in Proc.IEEE Comput.Soc.Conf.Comput.Vis.Pattern Recognit.,2019,pp.9317-9326.
[20]Y.Yan,B.Ni,Z.Song,C.Ma,Y.Yan,and X.Yang,“Person re-identificationvia recurrent feature aggregation,”in Proe.Eur.ConferenceComput.Vis.Springer,2016,pp.701-716.
[21]N.McLaughlin,J.Martinez del Rineon,and P.Miller,“Recurrentconvolutional network for video-based person re-identification,”in Proc.IEEEComput.Soc.Conf.Comput.Vis.Pattern Recognit.,June 2016.
[22]Y.Liu,J.Yan,and W.Ouyang,“Quality aware network for set tosetrecognition,”in Proc.IEEE Comput.Soc.Conf.Comput.Vis.Pattern Recognit.,July 2017.
通过以上技术方案,本发明实施例基于深度学习技术发展了一种基于动态图卷积表征的行人重识别方法。本发明可以利用输入行人视频内人体结构以及特征相似度,学习更加鲁棒的特征,从而进行更准确的检索。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于动态图卷积表征的视频行人重识别方法,其特征在于,包括以下步骤:
S1、获取用于训练的视频行人重识别算法数据集,并定义算法目标;
S2、对视频进行特征提取,构建基于图像块的特征金字塔;
S3、对视频进行人体关节点检测,基于人体部件位置计算得到结构邻接矩阵;
S4、利用S2中所述提取得到的特征,基于图像特征相似度计算得到相似度邻接矩阵;
S5、结合所述结构邻接矩阵以及相似度邻接矩阵,构建采用时间注意力机制以及图卷积的联合学习框架;
S6、使用所述联合学习框架对视频进行特征提取,采用特征间距离对样本库内行人视频进行排序。
3.如权利要求2所述的基于动态图卷积表征的视频行人重识别方法,其特征在于,步骤S2中,对视频进行特征提取,构建基于图像块的特征金字塔,具体包括以下子步骤:
S21、使用神经网络对视频中每一帧行人图像It提取特征,得到特征图ft∈Rd×h×w:
ft=F(It;θbackbone)
S22、对所述S21中得到的T个特征图应用3D全局平均值池化(Global AveragePooling),得到全局特征向量xgap∈Rd;
6.如权利要求5所述的基于动态图卷积表征的视频行人重识别方法,其特征在于,步骤S5中,结合所述结构邻接矩阵以及相似度邻接矩阵,构建采用时间注意力机制以及图卷积的联合学习框架,具体包括以下子步骤:
S51、结合S3以及S4中所述结构邻接矩阵Ap和相似度邻接矩阵Af,构建图模型G={V,A},其中表示节点特征,A∈R(T×7)×(T×7)表示节点间关系的图邻接矩阵,A中第i行第j列的元素计算公式为:
其中γ为权重因子用以平衡结构邻接矩阵和相似度邻接矩阵。
其中Fgcn()为图卷积网络,θgcn为图卷积网络参数;
其中||·||1表示计算向量L1范数;
S54、对所述S22以及S53中分别得到的xgap和xgraph应用一层全连接操作,输出M类行人标签概率值p,xgap和xgraph对应的概率值p分别表示为pgap和pgraph,计算公式表示为:
pgap=Ffc(xgap;θfc)
pgraph=Ffc(xgraph;θfc)
其中Ffc()为全连接层,θfc为可训练参数。
7.如权利要求6所述的基于动态图卷积表征的视频行人重识别方法,其特征在于,步骤S6中,使用所述联合学习框架对视频进行特征提取,采用特征间距离对样本库内行人视频进行排序,具体包括:
S61、基于由S1~S5建立的端到端联合学习框架,采用组输入,在训练中,将多帧图像输入该端到端联合学习框架的神经网络中,所有网络参数θ通过最小化损失函数进行学习,其中损失函数L采用交叉熵损失函数与三元损失函数之和;
使用Adam优化方法和反向传播算法在损失函数L下训练整个网络;
S62、利用训练完成的神经网络对视频进行特征提取得到{xgraph,xgap}并拼接两个特征,通过计算给定待检索视频以及样本库内视频特征之间的欧几里得距离进行行人视频检索。
8.如权利要求7所述的基于动态图卷积表征的视频行人重识别方法,其特征在于,所述交叉熵损失函数为:
所述三元损失函数作用于特征,对输入视频构建锚点-正样本-负样本三元组,三元损失函数为:
其中:P、K为构造三元组输入所使用超参数,P表示每批数据中包含的类别数量,K表示每个类别对应的视频数量;
为第i个类别的第a个锚点所使用的全局特征;为第i个类别的第p个正样本所使用的全局特征;为第j个类别的第n个负样本所使用的经过图卷积得到的特征;为第i个类别的第a个锚点所使用的经过图卷积得到的特征;表示第i个类别的第p个正样本所使用的经过图卷积得到的特征;
总的损失函数为:
L=Lxent+Lhtri。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010067125.1A CN111259836A (zh) | 2020-01-20 | 2020-01-20 | 一种基于动态图卷积表征的视频行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010067125.1A CN111259836A (zh) | 2020-01-20 | 2020-01-20 | 一种基于动态图卷积表征的视频行人重识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111259836A true CN111259836A (zh) | 2020-06-09 |
Family
ID=70949012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010067125.1A Pending CN111259836A (zh) | 2020-01-20 | 2020-01-20 | 一种基于动态图卷积表征的视频行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111259836A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111898665A (zh) * | 2020-07-23 | 2020-11-06 | 武汉大学 | 基于邻居样本信息引导的跨域行人再识别方法 |
CN111931859A (zh) * | 2020-08-28 | 2020-11-13 | 中国科学院深圳先进技术研究院 | 一种多标签图像识别方法和装置 |
CN112132014A (zh) * | 2020-09-22 | 2020-12-25 | 德州学院 | 基于非督导金字塔相似性学习的目标重识别方法及系统 |
CN112183464A (zh) * | 2020-10-26 | 2021-01-05 | 天津大学 | 基于深度神经网络和图卷积网络的视频行人识别方法 |
CN112200111A (zh) * | 2020-10-19 | 2021-01-08 | 厦门大学 | 一种全局与局部特征融合的遮挡鲁棒行人重识别方法 |
CN112597956A (zh) * | 2020-12-30 | 2021-04-02 | 华侨大学 | 基于人体锚点集合与感知增强网络的多人姿态估计方法 |
CN112800957A (zh) * | 2021-01-28 | 2021-05-14 | 内蒙古科技大学 | 视频行人重识别方法、装置、电子设备及存储介质 |
CN113011329A (zh) * | 2021-03-19 | 2021-06-22 | 陕西科技大学 | 一种基于多尺度特征金字塔网络及密集人群计数方法 |
CN113157974A (zh) * | 2021-03-24 | 2021-07-23 | 西安维塑智能科技有限公司 | 一种基于文字表述的行人检索方法 |
CN113887544A (zh) * | 2021-12-07 | 2022-01-04 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、电子设备及计算机可读存储介质 |
CN114511870A (zh) * | 2020-10-27 | 2022-05-17 | 天津科技大学 | 一种结合图卷积神经网络的行人属性信息提取与重识别方法 |
CN114639165A (zh) * | 2022-03-16 | 2022-06-17 | 平安科技(深圳)有限公司 | 基于人工智能的行人重识别方法、装置、设备及存储介质 |
CN115205306A (zh) * | 2022-08-02 | 2022-10-18 | 吉林建筑大学 | 一种基于图卷积的医疗图像分割方法 |
CN114639165B (zh) * | 2022-03-16 | 2024-05-10 | 平安科技(深圳)有限公司 | 基于人工智能的行人重识别方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108596010A (zh) * | 2017-12-31 | 2018-09-28 | 厦门大学 | 行人重识别系统的实现方法 |
WO2019007524A1 (en) * | 2017-07-06 | 2019-01-10 | Toyota Motor Europe | TRACKING OBJECTS IN DIGITAL IMAGE SEQUENCES |
CN110427877A (zh) * | 2019-08-01 | 2019-11-08 | 大连海事大学 | 一种基于结构信息的人体三维姿态估算的方法 |
-
2020
- 2020-01-20 CN CN202010067125.1A patent/CN111259836A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019007524A1 (en) * | 2017-07-06 | 2019-01-10 | Toyota Motor Europe | TRACKING OBJECTS IN DIGITAL IMAGE SEQUENCES |
CN108596010A (zh) * | 2017-12-31 | 2018-09-28 | 厦门大学 | 行人重识别系统的实现方法 |
CN110427877A (zh) * | 2019-08-01 | 2019-11-08 | 大连海事大学 | 一种基于结构信息的人体三维姿态估算的方法 |
Non-Patent Citations (2)
Title |
---|
(印度)桑塔努·帕塔纳亚克(SANTANU PATTANAYAK): "《python数据分析基础 第2版》", vol. 2, 北京:中国传媒大学出版社北京:中国传媒大学出版社, pages: 112 - 113 * |
YIMING WU: "Adaptive Graph Representation Learning for Video Person Re-identification", pages 1 - 10 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111898665A (zh) * | 2020-07-23 | 2020-11-06 | 武汉大学 | 基于邻居样本信息引导的跨域行人再识别方法 |
CN111931859A (zh) * | 2020-08-28 | 2020-11-13 | 中国科学院深圳先进技术研究院 | 一种多标签图像识别方法和装置 |
CN111931859B (zh) * | 2020-08-28 | 2023-10-24 | 中国科学院深圳先进技术研究院 | 一种多标签图像识别方法和装置 |
CN112132014A (zh) * | 2020-09-22 | 2020-12-25 | 德州学院 | 基于非督导金字塔相似性学习的目标重识别方法及系统 |
CN112132014B (zh) * | 2020-09-22 | 2022-04-12 | 德州学院 | 基于非督导金字塔相似性学习的目标重识别方法及系统 |
CN112200111A (zh) * | 2020-10-19 | 2021-01-08 | 厦门大学 | 一种全局与局部特征融合的遮挡鲁棒行人重识别方法 |
CN112200111B (zh) * | 2020-10-19 | 2022-05-17 | 厦门大学 | 一种全局与局部特征融合的遮挡鲁棒行人重识别方法 |
CN112183464A (zh) * | 2020-10-26 | 2021-01-05 | 天津大学 | 基于深度神经网络和图卷积网络的视频行人识别方法 |
CN114511870A (zh) * | 2020-10-27 | 2022-05-17 | 天津科技大学 | 一种结合图卷积神经网络的行人属性信息提取与重识别方法 |
CN112597956A (zh) * | 2020-12-30 | 2021-04-02 | 华侨大学 | 基于人体锚点集合与感知增强网络的多人姿态估计方法 |
CN112597956B (zh) * | 2020-12-30 | 2023-06-02 | 华侨大学 | 基于人体锚点集合与感知增强网络的多人姿态估计方法 |
CN112800957A (zh) * | 2021-01-28 | 2021-05-14 | 内蒙古科技大学 | 视频行人重识别方法、装置、电子设备及存储介质 |
CN113011329B (zh) * | 2021-03-19 | 2024-03-12 | 陕西科技大学 | 一种基于多尺度特征金字塔网络及密集人群计数方法 |
CN113011329A (zh) * | 2021-03-19 | 2021-06-22 | 陕西科技大学 | 一种基于多尺度特征金字塔网络及密集人群计数方法 |
CN113157974A (zh) * | 2021-03-24 | 2021-07-23 | 西安维塑智能科技有限公司 | 一种基于文字表述的行人检索方法 |
CN113157974B (zh) * | 2021-03-24 | 2023-05-26 | 西安维塑智能科技有限公司 | 一种基于文字表述的行人检索方法 |
CN113887544B (zh) * | 2021-12-07 | 2022-02-15 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、电子设备及计算机可读存储介质 |
CN113887544A (zh) * | 2021-12-07 | 2022-01-04 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、电子设备及计算机可读存储介质 |
CN114639165A (zh) * | 2022-03-16 | 2022-06-17 | 平安科技(深圳)有限公司 | 基于人工智能的行人重识别方法、装置、设备及存储介质 |
CN114639165B (zh) * | 2022-03-16 | 2024-05-10 | 平安科技(深圳)有限公司 | 基于人工智能的行人重识别方法、装置、设备及存储介质 |
CN115205306A (zh) * | 2022-08-02 | 2022-10-18 | 吉林建筑大学 | 一种基于图卷积的医疗图像分割方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111259836A (zh) | 一种基于动态图卷积表征的视频行人重识别方法 | |
Yang et al. | Step: Spatio-temporal progressive learning for video action detection | |
CN109858390B (zh) | 基于端到端时空图学习神经网络的人体骨架行为识别方法 | |
Huang et al. | Multi-graph fusion and learning for RGBT image saliency detection | |
Long et al. | Stand-alone inter-frame attention in video models | |
Zhou et al. | Attention-based neural architecture search for person re-identification | |
Deng et al. | A voxel graph cnn for object classification with event cameras | |
Zhang et al. | Modeling long-and short-term temporal context for video object detection | |
Bai et al. | Curveformer: 3d lane detection by curve propagation with curve queries and attention | |
Yi et al. | A lightweight multiscale feature fusion network for remote sensing object counting | |
Zhu et al. | Self-supervised video object segmentation using integration-augmented attention | |
Li et al. | Dynamic feature-memory transformer network for RGBT tracking | |
Zhang et al. | Unseen object instance segmentation with fully test-time rgb-d embeddings adaptation | |
Sharma et al. | Scale-aware CNN for crowd density estimation and crowd behavior analysis | |
Zhai et al. | An object context integrated network for joint learning of depth and optical flow | |
Dai et al. | Exploring and Exploiting High-Order Spatial-Temporal Dynamics for Long-Term Frame Prediction | |
Koh et al. | Joint representation of temporal image sequences and object motion for video object detection | |
Wei et al. | Graph-theoretic spatiotemporal context modeling for video saliency detection | |
Deng et al. | A Dynamic Graph CNN with Cross-Representation Distillation for Event-Based Recognition | |
Qi et al. | TCNet: A novel triple-cooperative network for video object detection | |
Lee et al. | Real-time semantic segmentation on edge devices: A performance comparison of segmentation models | |
Tian et al. | Lightweight dual-task networks for crowd counting in aerial images | |
Fan et al. | QueryTrack: Joint-modality Query Fusion Network for RGBT Tracking | |
Bangunharcana et al. | Revisiting the receptive field of conv-gru in droid-slam | |
Deng et al. | A Dynamic GCN with Cross-Representation Distillation for Event-Based Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |