CN111259836A - 一种基于动态图卷积表征的视频行人重识别方法 - Google Patents

一种基于动态图卷积表征的视频行人重识别方法 Download PDF

Info

Publication number
CN111259836A
CN111259836A CN202010067125.1A CN202010067125A CN111259836A CN 111259836 A CN111259836 A CN 111259836A CN 202010067125 A CN202010067125 A CN 202010067125A CN 111259836 A CN111259836 A CN 111259836A
Authority
CN
China
Prior art keywords
video
pedestrian
adjacency matrix
graph
videos
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010067125.1A
Other languages
English (en)
Inventor
李玺
吴一鸣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202010067125.1A priority Critical patent/CN111259836A/zh
Publication of CN111259836A publication Critical patent/CN111259836A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于动态图卷积表征的视频行人重识别方法,用于在给定待检索行人视频的情况下,能够从样本库行人视频中找出属于同一行人的对应视频。具体包括如下步骤:获取用于训练的视频行人重识别算法数据集,并定义算法目标;对视频进行特征提取,构建基于图像块的特征金字塔;对视频进行人体关节点检测,基于人体部件位置计算得到结构邻接矩阵;利用S2中所述提取得到的特征,基于图像特征相似度计算得到相似度邻接矩阵;结合所述结构邻接矩阵以及相似度邻接矩阵,构建采用注意力机制以及图卷积的联合学习框架;使用所述联合学习框架对视频进行特征提取,采用特征间距离对样本库内行人视频进行排序。本发明适用于真实视频中的行人重识别,面对各类复杂情况具有较佳的效果和鲁棒性。

Description

一种基于动态图卷积表征的视频行人重识别方法
技术领域
本发明属于计算机视觉领域,特别地涉及一种基于动态图卷积表征的视频行人重识别方法。
背景技术
视频行人重识别被定义为如下问题:在给定待检索行人视频的情况下,从样本库行人视频中找出属于同一行人的对应视频。视频行人重识别常用于监控场景下行人跟踪、行人轨迹分析等应用中。传统方法通过对行人视频进行逐帧特征提取并加以融合,但是未考虑人体结构、视频内行人部件运动信息以及所提取特征之间的语义关联。本发明利用了人体结构以及特征相似度构建了一个整体的时空图结构,学习更加鲁棒的视频特征,这在本任务中是非常重要的。
由于统计建模的有效性,目前基于学习的方法逐渐被应用到视频行人重识别任务中。现有的基于学习的方法主要采用深度学习框架,输入一段行人视频,输出视频特征用于检索。
发明内容
为解决上述问题,本发明的目的在于提供一种基于动态图卷积表征的视频行人重识别方法。该方法基于深度神经网络,对行人视频中逐帧进行图像块划分,利用了人体结构以及特征相似度构建了一个整体的时空图结构,利用人体关节点检测算法得到的人体部件信息作为先验加入到图卷积模型中,从而使模型能够学习更加鲁棒的视频特征。
为实现上述目的,本发明的技术方案为:
一种基于时空上下文学习的手部姿态估计方法,其包括以下步骤:
S1、获取用于训练的视频行人重识别算法数据集,并定义算法目标;
S2、对视频进行特征提取,构建基于图像块的特征金字塔;
S3、对视频进行人体关节点检测,基于人体部件位置计算得到结构邻接矩阵;
S4、利用S2中所述提取得到的特征,基于图像特征相似度计算得到相似度邻接矩阵;
S5、结合所述结构邻接矩阵以及相似度邻接矩阵,构建采用时间注意力机制以及图卷积的联合学习框架;
S6、使用所述联合学习框架对视频进行特征提取,采用特征间距离对样本库内行人视频进行排序。
基于上述方案,各步骤可以通过如下方式实现:
优选的,步骤S1中,获取所述用于训练的视频行人重识别算法数据集
Figure BDA0002376314220000021
每个训练视频
Figure BDA0002376314220000022
中含有连续帧行人图像
Figure BDA0002376314220000023
以及对应的人工标注yn∈RM,其中
Figure BDA0002376314220000024
表示第n个视频中的第t帧行人图像,N为视频总数,T为该视频中帧数,M为标注行人总类别数;算法目标定义为:从候选行人视频中检索出和给定行人视频属于同一行人的视频。
优选的,步骤S2中,对视频进行特征提取,构建基于图像块的特征金字塔,具体包括以下子步骤:
S21、使用神经网络对视频中每一帧行人图像It提取特征,得到特征图ft∈Rd×h×w
ft=F(It;θbackbone)
其中F(·)表示卷积神经网络,θbackbone为神经网络参数,d、h、w分别为特征图的三个维度中的深度、高度和宽度;对每个视频中所有帧进行上述操作后得到所有特征图
Figure BDA0002376314220000031
S22、对所述S21中得到的T个特征图应用3D全局平均值池化(Global AveragePooling),得到全局特征向量xgap∈Rd
S23、对所述S21中得到的每个特征图应用金字塔池化(Pyramid Pooling),将ft在第二维度h进行等步长切分为1、2以及4个区域,并对每个区域中特征应用2D全局平均值池化(Global Average Pooling),得到金字塔特征向量
Figure BDA0002376314220000032
其中xk表示第k个区域采用全局池化操作后得到的特征。
优选的,步骤S3中,对视频进行人体关节点检测,基于人体部件位置计算得到结构邻接矩阵,具体包括以下子步骤:
S31、使用人体关节点检测算法对视频中每一帧进行关节点检测,并得到头部、上半身、下半身三个部分的包围框;
S32、对所述S1中输入的训练视频
Figure BDA0002376314220000033
按照所述S23等步长切分为1、2以及4个区域,得到图像块集合
Figure BDA0002376314220000034
并且每一图像块与所述金字塔特征向量
Figure BDA0002376314220000035
一一对应,构造Sk与所述的包围框之间的映射函数Fb,形式如下:
Sk→{头部、上半身、下半身}
S33、构建结构邻接矩阵Ap,该邻接矩阵中第i行第j列的元素计算公式为:
Figure BDA0002376314220000041
优选的,步骤S4中,利用S2所述提取得到的特征,基于图像特征相似度计算得到相似度邻接矩阵Af,Af中第i行第j列的元素计算公式为:
Figure BDA0002376314220000042
其中||·||2表示二范数,xi、xj分别为特征向量集台
Figure BDA0002376314220000043
中的第i个以及第j个特征向量。
优选的,步骤S5中,结合所述结构邻接矩阵以及相似度邻接矩阵,构建采用时间注意力机制以及图卷积的联合学习框架,具体包括以下子步骤:
S51、结合S3以及S4中所述结构邻接矩阵Ap和相似度邻接矩阵Af,构建图模型G={V,A},其中
Figure BDA0002376314220000044
表示节点特征,A∈R(T×7)×(T×7)表示节点间关系的图邻接矩阵,A中第i行第j列的元素计算公式为:
Figure BDA0002376314220000045
其中γ为权重因子用以平衡结构邻接矩阵和相似度邻接矩阵。
S52、建立图卷积网络,每一层加入ReLU激活函数,其中每一层的图结构为S51中所述的节点特征以及节点关系,图卷积网络输出特征
Figure BDA0002376314220000051
公式表示为:
Figure BDA0002376314220000052
其中Fgcn()为图卷积网络,θgcn为图卷积网络参数;
S53、对所述S52中的输出特征
Figure BDA0002376314220000053
应用如下时间注意力操作:
Figure BDA0002376314220000054
其中||·||1表示计算向量L1范数;
S54、对所述S22以及S53中分别得到的xgap和xgraph应用一层全连接操作,输出M类行人标签概率值p,xgap和xgraph对应的概率值p分别表示为pgap和pgraph,计算公式表示为:
pgap=Ffc(xgap;θfc)
pgraph=Ffc(xgraph;θfc)
其中Ffc()为全连接层,θfc为可训练参数。
优选的,步骤S6中,使用所述联合学习框架对视频进行特征提取,采用特征间距离对样本库内行人视频进行排序,具体包括:
S61、基于由S1-S5建立的端到端联合学习框架,采用组输入,在训练中,将多帧图像输入该端到端联合学习框架的神经网络中,所有网络参数θ通过最小化损失函数进行学习,其中损失函数L采用交叉熵损失函数与三元损失函数之和;
使用Adam优化方法和反向传播算法在损失函数L下训练整个网络;
S62、利用训练完成的神经网络对视频进行特征提取得到{xgraph,xgap}并拼接两个特征,通过计算给定待检索视频以及样本库内视频特征之间的欧几里得距离进行行人视频检索。
优选的,所述交叉熵损失函数为:
Figure BDA0002376314220000061
式中:
Figure BDA0002376314220000067
为预测得到的第i类行人标签概率值pgap
Figure BDA0002376314220000068
为预测得到的第i类行人标签概率值pgraph;yi为标注的第i类行人类别标签真值;
所述三元损失函数作用于特征,对输入视频构建锚点-正样本-负样本三元组,三元损失函数为:
Figure BDA0002376314220000062
其中:P、K为构造三元组输入所使用超参数,P表示每批数据中包含的类别数量,K表示每个类别对应的视频数量;
Figure BDA0002376314220000063
为第i个类别的第a个锚点所使用的全局特征;
Figure BDA0002376314220000064
为第i个类别的第p个正样本所使用的全局特征;
Figure BDA0002376314220000065
为第j个类别的第n个负样本所使用的经过图卷积得到的特征;
Figure BDA0002376314220000066
为第i个类别的第a个锚点所使用的经过图卷积得到的特征;
Figure BDA0002376314220000071
表示第i个类别的第p个正样本所使用的经过图卷积得到的特征;
总的损失函数为:
L=Lxent+Lhtri
本发明的基于动态图卷积表征的视频行人重识别方法,相比于现有的视频行人重识别方法,具有以下有益效果:
首先,本发明的基于动态图卷积表征的视频行人重识别方法利用了行人视频中人体结构作为先验信息计算结构邻接矩阵,并结合特征相似度计算得到的相似度邻接矩阵,构建了人体结构驱动的时空图。该时空图内部连接关系随特征的更新而动态更新,可以有效利用数据驱动的方法解决复杂场景下的行人重识别问题。
其次,本发明提出了一种端到端的动态时空图学习算法,该方法在给定输入情况下,利用输入内部的时空一致性,学习特定场景下的视频内部图结构,有效提升了视频行人重识别的预测准确度。
本发明的基于动态图卷积表征的视频行人重识别方法,在行人跟踪、行人轨迹分析等应用中,可以有效提高行人重识别的准确率,具有良好的应用价值。例如,在行人跟踪的应用场景下,针对行人离开拍摄场地再次进入场地导致无法跟踪的现象,通过视频行人重识别算法可以提高跟踪的准确性。
附图说明
图1为本发明的的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
参考图1,在本发明的较佳实施例中,一种基于动态图卷积表征的视频行人重识别方法,包括以下步骤:
S1、获取用于训练的视频行人重识别算法数据集,并定义算法目标。本步骤中,视频行人重识别算法数据集
Figure BDA0002376314220000081
每个训练视频
Figure BDA0002376314220000082
中含有连续帧行人图像
Figure BDA0002376314220000083
以及对应的人工标注yn∈RM,其中
Figure BDA0002376314220000084
表示第n个视频中的第t帧行人图像,N为视频总数,T为该视频中帧数,M为标注行人总类别数;算法目标定义为:从候选行人视频中检索出和给定行人视频属于同一行人的视频。
S2、对视频进行特征提取,构建基于图像块的特征金字塔。本步骤中,具体包括以下子步骤:
S21、使用神经网络对视频中每一帧行人图像It提取特征,得到特征图ft∈Rd×h×w
ft=F(It;θbackbone)
其中F(·)表示卷积神经网络,θbackbone为神经网络参数,d、h、w分别为特征图的三个维度中的深度、高度和宽度;对每个视频中所有帧进行上述操作后得到所有特征图
Figure BDA0002376314220000091
S22、对上述S21中得到的T个特征图应用3D全局平均值池化(Global AveragePooling),得到全局特征向量xgap∈Rd
S23、对上述S21中得到的每个特征图应用金字塔池化(Pyramid Pooling),将ft在第二维度h进行等步长切分为1、2以及4个区域,并对每个区域中特征应用2D全局平均值池化(Global Average Pooling),得到金字塔特征向量
Figure BDA0002376314220000092
其中xk表示第k个区域采用全局池化操作后得到的特征。
S3、对视频进行人体关节点检测,基于人体部件位置计算得到结构邻接矩阵。本步骤中,具体包括以下子步骤:
S31、使用人体关节点检测算法对视频中每一帧进行关节点检测,并得到头部、上半身、下半身三个部分的包围框;
S32、对上述S1中输入的训练视频
Figure BDA0002376314220000093
按照上述S23等步长切分为1、2以及4个区域,得到图像块集合
Figure BDA0002376314220000094
并且每一图像块与上述金字塔特征向量
Figure BDA0002376314220000095
一一对应,构造Sk与上述的包围框之间的映射函数Fb,形式如下:
Sk→{头部、上半身、下半身}
S33、构建结构邻接矩阵Ap,该邻接矩阵中第i行第j列的元素计算公式为:
Figure BDA0002376314220000096
S4、利用S2中上述提取得到的特征,基于图像特征相似度计算得到相似度邻接矩阵。本步骤中,相似度邻接矩阵记为Af,Af中第i行第j列的元素计算公式为:
Figure BDA0002376314220000101
其中‖·‖2表示二范数,xi、xj分别为特征向量集合
Figure BDA0002376314220000102
中的第i个以及第j个特征向量。
S5、结合上述结构邻接矩阵以及相似度邻接矩阵,构建采用时间注意力机制以及图卷积的联合学习框架。本步骤中,具体包括以下子步骤:
S51、结合S3以及S4中所述结构邻接矩阵Ap和相似度邻接矩阵Af,构建图模型G={V,A},其中
Figure BDA0002376314220000103
表示节点特征,A∈R(T×7)×(T×7)表示节点间关系的图邻接矩阵,A中第i行第j列的元素计算公式为:
Figure BDA0002376314220000104
其中γ为权重因子用以平衡结构邻接矩阵和相似度邻接矩阵。
S52、建立图卷积网络,每一层加入ReLU激活函数,其中每一层的图结构为S51中所述的节点特征以及节点关系,图卷积网络输出特征
Figure BDA0002376314220000105
公式表示为:
Figure BDA0002376314220000106
其中Fgcn()为图卷积网络,θgcn为图卷积网络参数,A为网络中节点关系图;
S53、对上述S52中的输出特征
Figure BDA0002376314220000107
应用如下时间注意力操作:
Figure BDA0002376314220000111
其中||·||1表示计算向量L1范数;
S54、对上述S22以及S53中分别得到的xgap和xgraph应用一层全连接操作,输出M类行人标签概率值p,xgap和xgraph对应的概率值p分别表示为pgap和pgraph,计算公式表示为:
pgap=Ffc(xgap;θfc)
pgraph=Ffc(xgraph;θfc)
其中Ffc()为全连接层,θfc为可训练参数。
S6、使用上述联合学习框架对视频进行特征提取,采用特征间距离对样本库内行人视频进行排序。本步骤中,具体包括以下子步骤:
S61、基于由S1~S5建立的端到端联合学习框架,采用组输入,在训练中,将多帧图像输入该端到端联合学习框架的神经网络中,所有网络参数θ通过最小化损失函数进行学习,其中损失函数L采用交叉熵损失函数与三元损失函数之和。
其中,交叉熵损失函数为:
Figure BDA0002376314220000112
式中:
Figure BDA0002376314220000113
为预测得到的第i类行人标签概率值pgap
Figure BDA0002376314220000114
为预测得到的第i类行人标签概率值pgraph;yi为标注的第i类行人类别标签真值;
其中,三元损失函数作用于特征,对输入视频构建锚点-正样本-负样本三元组,三元损失函数为:
Figure BDA0002376314220000121
其中:P、K为构造三元组输入所使用超参数,P表示每批数据中包含的类别数量,K表示每个类别对应的视频数量;
Figure BDA0002376314220000122
为第i个类别的第a个锚点所使用的全局特征;
Figure BDA0002376314220000123
为第i个类别的第p个正样本所使用的全局特征;
Figure BDA0002376314220000124
为第j个类别的第n个负样本所使用的经过图卷积得到的特征;
Figure BDA0002376314220000125
为第i个类别的第a个锚点所使用的经过图卷积得到的特征;
Figure BDA0002376314220000126
表示第i个类别的第p个正样本所使用的经过图卷积得到的特征;
总的损失函数为:
L=Lxent+Lhtri
使用Adam优化方法和反向传播算法在损失函数L下训练整个网络;
S62、利用训练完成的神经网络对视频进行特征提取得到{xgraph,xgap}并拼接两个特征,通过计算给定待检索视频以及样本库内视频特征之间的欧几里得距离进行行人视频检索。
下面将上述方法应用于具体实施例中,以便本领域技术人员能够更好地理解本发明的效果。
实施例
本实施例基于上述方法进行实验,具体的实现方法如前所述,不在详细阐述具体的步骤,下面仅针对实验结果展示其结果。
PRID2011数据集:该数据集包含由两个摄像头录制,分别包含385和749个行人。其中前200个行人为重复出现行人,视频长度在5帧至675帧之间。
iLIDS-VID数据集:该数据集包含共计600个行人视频,共出现300个行人,视频长度在23帧至192帧之间,平均长度73帧。
MARS数据集:该数据集包含共计1261个行人,包含大约20000个行人视频,采用DPM检测器以及GMMCP跟踪器将行人裁剪出来。该数据集由6个摄像头录制。
DukeMTMC-VideoReID数据集:该数据集包含4832个视频以及1812个行人,视频平均帧数168帧,行人通过手工标注裁剪。
基于视频的行人重识别方法主要流程如下:
1)利用人体关节点检测算法对行人视频进行关节点检测,并构建结构邻接矩阵;
2)利用行人视频提取出金字塔特征,并构建相似度邻接矩阵;
3)结合结构邻接矩阵以及相似度邻接矩阵,使用图卷积神经网络更新特征;
4)输出待检索视频特征以及样本库视频特征,计算特征间欧几里得距离进行排序。
5)本实施例检索精度如表1、2、3所示。表中数据显示本发明在Rank-1,Rank-5,Rank-20,mAP指标上的表现。同其他方法对比,本发明有进一步的提升。
表1为本实施例在PRID2011以及iLIDS-VID数据集上的评价指标对比
Figure BDA0002376314220000141
表2为本实施例在MARS数据集上的评价指标对比
Figure BDA0002376314220000151
表3为本实施例在DukeMTMC-VideoReID数据集上的评价指标对比
Figure BDA0002376314220000152
其中Ours为本发明方法,其余方法对应参考文献如下:
[1]L.Zheng,Z.Bie,Y.Sun,J.Wang,C.Su,S.Wang,and Q.Tian,“Mars:A videobenchmark for large-scale person re-identification,”in Proc.Eur.ConferenceComput.Vis.Springer,2016,pp.868-884.
[2]Z.Zhou,Y.Huang,W.Wang,L.Wang,and T.Tan,“See the forest for thetrees:Joint spatial and temporal recurrent neural networks for video-basedperson re-identification,”in Proc.IEEE Comput.Soc.Conf.Comput.Vis.PatternRecognit.,July 2017.
[3]S.Xu,Y.Cheng,K.Gu,Y.Yang,S.Chang,and P.Zhou,“Jointly attentivespatial-temporal pooling networks for video-based person re-identification,”in Proc.IEEE Int.Conf.Comput.Vis.,Oct 2017.
[4]G.Song,B.Leng,Y.Liu,C.Hetang,and S.Cai,“Region-based qualityestimation network for large-scale person re-identification,”in Proc.AAAI,2018,pp.7347-7354.
[5]D.Chen,H.Li,T.Xiao,S.Yi,and X.Wang,“Video person re-identificationwith competitive snippet-similarity aggregation and co-attentive snippetembedding,”in Proc.IEEE Comput.Soc.Conf.Com-put.Vis.Pattern Recognit.,June2018.
[6]S.Li,S.Bak,P.Carr,and X.Wang,“Diversity regularized spatiotemporalattention for video-based person re-identification,”in Proe.IEEE Comput.Soc.Conf.Comput.Vis.Pattern Recognit.,June 2018.
[7]J.Zhang,N.Wang,and L.Zhang,“Multi-shot pedestrian re-identification via sequential decision making,”in Proc.IEEE Comput.Soc.Conf.Comput.Vis.Pattern Recognit.,June 2018.
[8]Y.Wu,Y.Lin,X.Dong,Y.Yan,W.Ouyang,and Y.Yang,“Exploit the unknowngradually:One-shot video-based person re-identification by stepwiselearning,”in Proc.IEEE Comput.Soc.Conf.Comput.Vis.Pattern Recognit.,June2018.
[9]L.Wu,Y.Wang,L.Shao,and M.Wang,“3-d person vlad:Learning deepglobal representations for video-based person reidentification,”IEEETrans.Neural Netw.Learn.Syst.,2019.
[10]L.Wu,Y.Wang,J.Gao,and X.Li,“Where-and-when to look:Deep siameseattention networksfor video-based person re-identification,”IEEETrans.Multimedia,2018.
[11]J.Dai,P.Zhang,D.Wang,H.Lu,and H.Wang,“Video person re-identification by temporal residual learning,”IEEE Trans.Image Process.,vol.28,no.3,pp.1366-1377,2018.
[12]J.Li,S.Zhang,and T.Huang,“Multi-scale 3d convolution network forvideo based person re-identification,”in Proc.AAAI,2019.
[13]Y.Fu,X.Wang,Y.Wei,and T.Huang,“Sta:Spatial-temporal attention forlarge-scale video-based person re-identification,”in Proe.AAAI,2019.
[14]Y.Liu,Z.Yuan,W.Zhou,and H.Li,“Spatial and temporal mutualpromotion for video-based person re-identification,”in Proc.AAAI,2019.
[15]R.Zhang,J.Li,H.Sun,Y.Ge,P.Luo,X.Wang,and L.Lin,“Scan:Self-and-collaborative attention network for video person re-identification,”IEEETrans.Image Process.,2019.
[16]G.Chen,J.Lu,M.Yang,and J.Zhou,“Spatial-temporal attention-awarelearning for video-based person re-identification,”IEEE Trans.Image Process.,2019.
[17]C.-T.Liu,C.-W.Wu,Y.-C.F.Wang,and S.-Y.Chien,“Spatially andtemporally efficient non-local attention network for video-based person re-identification,”in Proc.BMVC,2019.
[18]H.Liu,Z.Jie,K.Jayashree,M.Qi,J.Jiang,S.Yan,and J.Feng,“Video-based person re-identification with accumulative motion context,”IEEETrans.Circuits Syst.Video Technol.,vol.28,no.10,pp.2788-2802,2017.
[19]R.Hou,B.Ma,H.Chang,X.Gu,S.Shan,and X.Cheh,“Interaction-and-aggregation network for person re-identification,”in Proc.IEEE Comput.Soc.Conf.Comput.Vis.Pattern Recognit.,2019,pp.9317-9326.
[20]Y.Yan,B.Ni,Z.Song,C.Ma,Y.Yan,and X.Yang,“Person re-identificationvia recurrent feature aggregation,”in Proe.Eur.ConferenceComput.Vis.Springer,2016,pp.701-716.
[21]N.McLaughlin,J.Martinez del Rineon,and P.Miller,“Recurrentconvolutional network for video-based person re-identification,”in Proc.IEEEComput.Soc.Conf.Comput.Vis.Pattern Recognit.,June 2016.
[22]Y.Liu,J.Yan,and W.Ouyang,“Quality aware network for set tosetrecognition,”in Proc.IEEE Comput.Soc.Conf.Comput.Vis.Pattern Recognit.,July 2017.
通过以上技术方案,本发明实施例基于深度学习技术发展了一种基于动态图卷积表征的行人重识别方法。本发明可以利用输入行人视频内人体结构以及特征相似度,学习更加鲁棒的特征,从而进行更准确的检索。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于动态图卷积表征的视频行人重识别方法,其特征在于,包括以下步骤:
S1、获取用于训练的视频行人重识别算法数据集,并定义算法目标;
S2、对视频进行特征提取,构建基于图像块的特征金字塔;
S3、对视频进行人体关节点检测,基于人体部件位置计算得到结构邻接矩阵;
S4、利用S2中所述提取得到的特征,基于图像特征相似度计算得到相似度邻接矩阵;
S5、结合所述结构邻接矩阵以及相似度邻接矩阵,构建采用时间注意力机制以及图卷积的联合学习框架;
S6、使用所述联合学习框架对视频进行特征提取,采用特征间距离对样本库内行人视频进行排序。
2.如权利要求1所述的基于动态图卷积表征的视频行人重识别方法,其特征在于,步骤S1中,获取所述用于训练的视频行人重识别算法数据集
Figure FDA0002376314210000011
每个训练视频
Figure FDA0002376314210000012
中含有连续帧行人图像
Figure FDA0002376314210000013
以及对应的人工标注yn∈RM,其中
Figure FDA0002376314210000014
表示第n个视频中的第t帧行人图像,N为视频总数,T为该视频中帧数,M为标注行人总类别数;算法目标定义为:从候选行人视频中检索出和给定行人视频属于同一行人的视频。
3.如权利要求2所述的基于动态图卷积表征的视频行人重识别方法,其特征在于,步骤S2中,对视频进行特征提取,构建基于图像块的特征金字塔,具体包括以下子步骤:
S21、使用神经网络对视频中每一帧行人图像It提取特征,得到特征图ft∈Rd×h×w
ft=F(It;θbackbone)
其中F(·)表示卷积神经网络,θbackbone为神经网络参数,d、h、w分别为特征图的三个维度中的深度、高度和宽度;对每个视频中所有帧进行上述操作后得到所有特征图
Figure FDA0002376314210000021
S22、对所述S21中得到的T个特征图应用3D全局平均值池化(Global AveragePooling),得到全局特征向量xgap∈Rd
S23、对所述S21中得到的每个特征图应用金字塔池化(Pyramid Pooling),将ft在第二维度h进行等步长切分为1、2以及4个区域,并对每个区域中特征应用2D全局平均值池化(Global Average Pooling),得到金字塔特征向量
Figure FDA0002376314210000022
其中xk表示第k个区域采用全局池化操作后得到的特征。
4.如权利要求3所述的基于动态图卷积表征的视频行人重识别方法,其特征在于,步骤S3中,对视频进行人体关节点检测,基于人体部件位置计算得到结构邻接矩阵,具体包括以下子步骤:
S31、使用人体关节点检测算法对视频中每一帧进行关节点检测,并得到头部、上半身、下半身三个部分的包围框;
S32、对所述S1中输入的训练视频
Figure FDA0002376314210000023
按照所述S23等步长切分为1、2以及4个区域,得到图像块集合
Figure FDA0002376314210000024
并且每一图像块与所述金字塔特征向量
Figure FDA0002376314210000031
一一对应,构造Sk与所述的包围框之间的映射函数Fb,形式如下:
Sk→{头部、上半身、下半身}
S33、构建结构邻接矩阵Ap,该邻接矩阵中第i行第j列的元素计算公式为:
Figure FDA0002376314210000032
5.如权利要求4所述的基于动态图卷积表征的视频行人重识别方法,其特征在于,步骤S4中,利用S2所述提取得到的特征,基于图像特征相似度计算得到相似度邻接矩阵Af,Af中第i行第j列的元素计算公式为:
Figure FDA0002376314210000033
其中||·||2表示二范数,xi、xj分别为特征向量集合
Figure FDA0002376314210000034
中的第i个以及第j个特征向量。
6.如权利要求5所述的基于动态图卷积表征的视频行人重识别方法,其特征在于,步骤S5中,结合所述结构邻接矩阵以及相似度邻接矩阵,构建采用时间注意力机制以及图卷积的联合学习框架,具体包括以下子步骤:
S51、结合S3以及S4中所述结构邻接矩阵Ap和相似度邻接矩阵Af,构建图模型G={V,A},其中
Figure FDA0002376314210000035
表示节点特征,A∈R(T×7)×(T×7)表示节点间关系的图邻接矩阵,A中第i行第j列的元素计算公式为:
Figure FDA0002376314210000041
其中γ为权重因子用以平衡结构邻接矩阵和相似度邻接矩阵。
S52、建立图卷积网络,每一层加入ReLU激活函数,其中每一层的图结构为S51中所述的节点特征以及节点关系,图卷积网络输出特征
Figure FDA0002376314210000042
公式表示为:
Figure FDA0002376314210000043
其中Fgcn()为图卷积网络,θgcn为图卷积网络参数;
S53、对所述S52中的输出特征
Figure FDA0002376314210000044
立用如下时间注意力操作:
Figure FDA0002376314210000045
其中||·||1表示计算向量L1范数;
S54、对所述S22以及S53中分别得到的xgap和xgraph应用一层全连接操作,输出M类行人标签概率值p,xgap和xgraph对应的概率值p分别表示为pgap和pgraph,计算公式表示为:
pgap=Ffc(xgap;θfc)
pgraph=Ffc(xgraph;θfc)
其中Ffc()为全连接层,θfc为可训练参数。
7.如权利要求6所述的基于动态图卷积表征的视频行人重识别方法,其特征在于,步骤S6中,使用所述联合学习框架对视频进行特征提取,采用特征间距离对样本库内行人视频进行排序,具体包括:
S61、基于由S1~S5建立的端到端联合学习框架,采用组输入,在训练中,将多帧图像输入该端到端联合学习框架的神经网络中,所有网络参数θ通过最小化损失函数进行学习,其中损失函数L采用交叉熵损失函数与三元损失函数之和;
使用Adam优化方法和反向传播算法在损失函数L下训练整个网络;
S62、利用训练完成的神经网络对视频进行特征提取得到{xgraph,xgap}并拼接两个特征,通过计算给定待检索视频以及样本库内视频特征之间的欧几里得距离进行行人视频检索。
8.如权利要求7所述的基于动态图卷积表征的视频行人重识别方法,其特征在于,所述交叉熵损失函数为:
Figure FDA0002376314210000051
式中:
Figure FDA0002376314210000052
为预测得到的第i类行人标签概率值pgap,
Figure FDA0002376314210000053
为预测得到的第i类行人标签概率值pgraph;yi为标注的第i类行人类别标签真值;
所述三元损失函数作用于特征,对输入视频构建锚点-正样本-负样本三元组,三元损失函数为:
Figure FDA0002376314210000061
其中:P、K为构造三元组输入所使用超参数,P表示每批数据中包含的类别数量,K表示每个类别对应的视频数量;
Figure FDA0002376314210000062
为第i个类别的第a个锚点所使用的全局特征;
Figure FDA0002376314210000063
为第i个类别的第p个正样本所使用的全局特征;
Figure FDA0002376314210000064
为第j个类别的第n个负样本所使用的经过图卷积得到的特征;
Figure FDA0002376314210000065
为第i个类别的第a个锚点所使用的经过图卷积得到的特征;
Figure FDA0002376314210000066
表示第i个类别的第p个正样本所使用的经过图卷积得到的特征;
总的损失函数为:
L=Lxent+Lhtri
CN202010067125.1A 2020-01-20 2020-01-20 一种基于动态图卷积表征的视频行人重识别方法 Pending CN111259836A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010067125.1A CN111259836A (zh) 2020-01-20 2020-01-20 一种基于动态图卷积表征的视频行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010067125.1A CN111259836A (zh) 2020-01-20 2020-01-20 一种基于动态图卷积表征的视频行人重识别方法

Publications (1)

Publication Number Publication Date
CN111259836A true CN111259836A (zh) 2020-06-09

Family

ID=70949012

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010067125.1A Pending CN111259836A (zh) 2020-01-20 2020-01-20 一种基于动态图卷积表征的视频行人重识别方法

Country Status (1)

Country Link
CN (1) CN111259836A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111898665A (zh) * 2020-07-23 2020-11-06 武汉大学 基于邻居样本信息引导的跨域行人再识别方法
CN111931859A (zh) * 2020-08-28 2020-11-13 中国科学院深圳先进技术研究院 一种多标签图像识别方法和装置
CN112132014A (zh) * 2020-09-22 2020-12-25 德州学院 基于非督导金字塔相似性学习的目标重识别方法及系统
CN112183464A (zh) * 2020-10-26 2021-01-05 天津大学 基于深度神经网络和图卷积网络的视频行人识别方法
CN112200111A (zh) * 2020-10-19 2021-01-08 厦门大学 一种全局与局部特征融合的遮挡鲁棒行人重识别方法
CN112597956A (zh) * 2020-12-30 2021-04-02 华侨大学 基于人体锚点集合与感知增强网络的多人姿态估计方法
CN112800957A (zh) * 2021-01-28 2021-05-14 内蒙古科技大学 视频行人重识别方法、装置、电子设备及存储介质
CN113011329A (zh) * 2021-03-19 2021-06-22 陕西科技大学 一种基于多尺度特征金字塔网络及密集人群计数方法
CN113157974A (zh) * 2021-03-24 2021-07-23 西安维塑智能科技有限公司 一种基于文字表述的行人检索方法
CN113887544A (zh) * 2021-12-07 2022-01-04 腾讯科技(深圳)有限公司 图像处理方法、装置、电子设备及计算机可读存储介质
CN114511870A (zh) * 2020-10-27 2022-05-17 天津科技大学 一种结合图卷积神经网络的行人属性信息提取与重识别方法
CN114639165A (zh) * 2022-03-16 2022-06-17 平安科技(深圳)有限公司 基于人工智能的行人重识别方法、装置、设备及存储介质
CN115205306A (zh) * 2022-08-02 2022-10-18 吉林建筑大学 一种基于图卷积的医疗图像分割方法
CN114639165B (zh) * 2022-03-16 2024-05-10 平安科技(深圳)有限公司 基于人工智能的行人重识别方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596010A (zh) * 2017-12-31 2018-09-28 厦门大学 行人重识别系统的实现方法
WO2019007524A1 (en) * 2017-07-06 2019-01-10 Toyota Motor Europe TRACKING OBJECTS IN DIGITAL IMAGE SEQUENCES
CN110427877A (zh) * 2019-08-01 2019-11-08 大连海事大学 一种基于结构信息的人体三维姿态估算的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019007524A1 (en) * 2017-07-06 2019-01-10 Toyota Motor Europe TRACKING OBJECTS IN DIGITAL IMAGE SEQUENCES
CN108596010A (zh) * 2017-12-31 2018-09-28 厦门大学 行人重识别系统的实现方法
CN110427877A (zh) * 2019-08-01 2019-11-08 大连海事大学 一种基于结构信息的人体三维姿态估算的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
(印度)桑塔努·帕塔纳亚克(SANTANU PATTANAYAK): "《python数据分析基础 第2版》", vol. 2, 北京:中国传媒大学出版社北京:中国传媒大学出版社, pages: 112 - 113 *
YIMING WU: "Adaptive Graph Representation Learning for Video Person Re-identification", pages 1 - 10 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111898665A (zh) * 2020-07-23 2020-11-06 武汉大学 基于邻居样本信息引导的跨域行人再识别方法
CN111931859A (zh) * 2020-08-28 2020-11-13 中国科学院深圳先进技术研究院 一种多标签图像识别方法和装置
CN111931859B (zh) * 2020-08-28 2023-10-24 中国科学院深圳先进技术研究院 一种多标签图像识别方法和装置
CN112132014A (zh) * 2020-09-22 2020-12-25 德州学院 基于非督导金字塔相似性学习的目标重识别方法及系统
CN112132014B (zh) * 2020-09-22 2022-04-12 德州学院 基于非督导金字塔相似性学习的目标重识别方法及系统
CN112200111A (zh) * 2020-10-19 2021-01-08 厦门大学 一种全局与局部特征融合的遮挡鲁棒行人重识别方法
CN112200111B (zh) * 2020-10-19 2022-05-17 厦门大学 一种全局与局部特征融合的遮挡鲁棒行人重识别方法
CN112183464A (zh) * 2020-10-26 2021-01-05 天津大学 基于深度神经网络和图卷积网络的视频行人识别方法
CN114511870A (zh) * 2020-10-27 2022-05-17 天津科技大学 一种结合图卷积神经网络的行人属性信息提取与重识别方法
CN112597956A (zh) * 2020-12-30 2021-04-02 华侨大学 基于人体锚点集合与感知增强网络的多人姿态估计方法
CN112597956B (zh) * 2020-12-30 2023-06-02 华侨大学 基于人体锚点集合与感知增强网络的多人姿态估计方法
CN112800957A (zh) * 2021-01-28 2021-05-14 内蒙古科技大学 视频行人重识别方法、装置、电子设备及存储介质
CN113011329B (zh) * 2021-03-19 2024-03-12 陕西科技大学 一种基于多尺度特征金字塔网络及密集人群计数方法
CN113011329A (zh) * 2021-03-19 2021-06-22 陕西科技大学 一种基于多尺度特征金字塔网络及密集人群计数方法
CN113157974A (zh) * 2021-03-24 2021-07-23 西安维塑智能科技有限公司 一种基于文字表述的行人检索方法
CN113157974B (zh) * 2021-03-24 2023-05-26 西安维塑智能科技有限公司 一种基于文字表述的行人检索方法
CN113887544B (zh) * 2021-12-07 2022-02-15 腾讯科技(深圳)有限公司 图像处理方法、装置、电子设备及计算机可读存储介质
CN113887544A (zh) * 2021-12-07 2022-01-04 腾讯科技(深圳)有限公司 图像处理方法、装置、电子设备及计算机可读存储介质
CN114639165A (zh) * 2022-03-16 2022-06-17 平安科技(深圳)有限公司 基于人工智能的行人重识别方法、装置、设备及存储介质
CN114639165B (zh) * 2022-03-16 2024-05-10 平安科技(深圳)有限公司 基于人工智能的行人重识别方法、装置、设备及存储介质
CN115205306A (zh) * 2022-08-02 2022-10-18 吉林建筑大学 一种基于图卷积的医疗图像分割方法

Similar Documents

Publication Publication Date Title
CN111259836A (zh) 一种基于动态图卷积表征的视频行人重识别方法
Yang et al. Step: Spatio-temporal progressive learning for video action detection
CN109858390B (zh) 基于端到端时空图学习神经网络的人体骨架行为识别方法
Huang et al. Multi-graph fusion and learning for RGBT image saliency detection
Long et al. Stand-alone inter-frame attention in video models
Zhou et al. Attention-based neural architecture search for person re-identification
Deng et al. A voxel graph cnn for object classification with event cameras
Zhang et al. Modeling long-and short-term temporal context for video object detection
Bai et al. Curveformer: 3d lane detection by curve propagation with curve queries and attention
Yi et al. A lightweight multiscale feature fusion network for remote sensing object counting
Zhu et al. Self-supervised video object segmentation using integration-augmented attention
Li et al. Dynamic feature-memory transformer network for RGBT tracking
Zhang et al. Unseen object instance segmentation with fully test-time rgb-d embeddings adaptation
Sharma et al. Scale-aware CNN for crowd density estimation and crowd behavior analysis
Zhai et al. An object context integrated network for joint learning of depth and optical flow
Dai et al. Exploring and Exploiting High-Order Spatial-Temporal Dynamics for Long-Term Frame Prediction
Koh et al. Joint representation of temporal image sequences and object motion for video object detection
Wei et al. Graph-theoretic spatiotemporal context modeling for video saliency detection
Deng et al. A Dynamic Graph CNN with Cross-Representation Distillation for Event-Based Recognition
Qi et al. TCNet: A novel triple-cooperative network for video object detection
Lee et al. Real-time semantic segmentation on edge devices: A performance comparison of segmentation models
Tian et al. Lightweight dual-task networks for crowd counting in aerial images
Fan et al. QueryTrack: Joint-modality Query Fusion Network for RGBT Tracking
Bangunharcana et al. Revisiting the receptive field of conv-gru in droid-slam
Deng et al. A Dynamic GCN with Cross-Representation Distillation for Event-Based Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination