CN111259836A

CN111259836A - 一种基于动态图卷积表征的视频行人重识别方法

Info

Publication number: CN111259836A
Application number: CN202010067125.1A
Authority: CN
Inventors: 李玺; 吴一鸣
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2020-06-09

Abstract

本发明公开了一种基于动态图卷积表征的视频行人重识别方法，用于在给定待检索行人视频的情况下，能够从样本库行人视频中找出属于同一行人的对应视频。具体包括如下步骤：获取用于训练的视频行人重识别算法数据集，并定义算法目标；对视频进行特征提取，构建基于图像块的特征金字塔；对视频进行人体关节点检测，基于人体部件位置计算得到结构邻接矩阵；利用S2中所述提取得到的特征，基于图像特征相似度计算得到相似度邻接矩阵；结合所述结构邻接矩阵以及相似度邻接矩阵，构建采用注意力机制以及图卷积的联合学习框架；使用所述联合学习框架对视频进行特征提取，采用特征间距离对样本库内行人视频进行排序。本发明适用于真实视频中的行人重识别，面对各类复杂情况具有较佳的效果和鲁棒性。

Description

一种基于动态图卷积表征的视频行人重识别方法

技术领域

本发明属于计算机视觉领域，特别地涉及一种基于动态图卷积表征的视频行人重识别方法。

背景技术

视频行人重识别被定义为如下问题：在给定待检索行人视频的情况下，从样本库行人视频中找出属于同一行人的对应视频。视频行人重识别常用于监控场景下行人跟踪、行人轨迹分析等应用中。传统方法通过对行人视频进行逐帧特征提取并加以融合，但是未考虑人体结构、视频内行人部件运动信息以及所提取特征之间的语义关联。本发明利用了人体结构以及特征相似度构建了一个整体的时空图结构，学习更加鲁棒的视频特征，这在本任务中是非常重要的。

由于统计建模的有效性，目前基于学习的方法逐渐被应用到视频行人重识别任务中。现有的基于学习的方法主要采用深度学习框架，输入一段行人视频，输出视频特征用于检索。

发明内容

为解决上述问题，本发明的目的在于提供一种基于动态图卷积表征的视频行人重识别方法。该方法基于深度神经网络，对行人视频中逐帧进行图像块划分，利用了人体结构以及特征相似度构建了一个整体的时空图结构，利用人体关节点检测算法得到的人体部件信息作为先验加入到图卷积模型中，从而使模型能够学习更加鲁棒的视频特征。

为实现上述目的，本发明的技术方案为：

一种基于时空上下文学习的手部姿态估计方法，其包括以下步骤：

S1、获取用于训练的视频行人重识别算法数据集，并定义算法目标；

S2、对视频进行特征提取，构建基于图像块的特征金字塔；

S3、对视频进行人体关节点检测，基于人体部件位置计算得到结构邻接矩阵；

S4、利用S2中所述提取得到的特征，基于图像特征相似度计算得到相似度邻接矩阵；

S5、结合所述结构邻接矩阵以及相似度邻接矩阵，构建采用时间注意力机制以及图卷积的联合学习框架；

S6、使用所述联合学习框架对视频进行特征提取，采用特征间距离对样本库内行人视频进行排序。

基于上述方案，各步骤可以通过如下方式实现：

优选的，步骤S1中，获取所述用于训练的视频行人重识别算法数据集

每个训练视频

中含有连续帧行人图像

以及对应的人工标注yⁿ∈R^M，其中

表示第n个视频中的第t帧行人图像，N为视频总数，T为该视频中帧数，M为标注行人总类别数；算法目标定义为：从候选行人视频中检索出和给定行人视频属于同一行人的视频。

优选的，步骤S2中，对视频进行特征提取，构建基于图像块的特征金字塔，具体包括以下子步骤：

S21、使用神经网络对视频中每一帧行人图像I_t提取特征，得到特征图f_t∈R^d×h×w：

f_t＝F(I_t；θ_backbone)

其中F(·)表示卷积神经网络，θ_backbone为神经网络参数，d、h、w分别为特征图的三个维度中的深度、高度和宽度；对每个视频中所有帧进行上述操作后得到所有特征图

S22、对所述S21中得到的T个特征图应用3D全局平均值池化(Global AveragePooling)，得到全局特征向量x_gap∈R^d；

S23、对所述S21中得到的每个特征图应用金字塔池化(Pyramid Pooling)，将f_t在第二维度h进行等步长切分为1、2以及4个区域，并对每个区域中特征应用2D全局平均值池化(Global Average Pooling)，得到金字塔特征向量

其中x_k表示第k个区域采用全局池化操作后得到的特征。

优选的，步骤S3中，对视频进行人体关节点检测，基于人体部件位置计算得到结构邻接矩阵，具体包括以下子步骤：

S31、使用人体关节点检测算法对视频中每一帧进行关节点检测，并得到头部、上半身、下半身三个部分的包围框；

S32、对所述S1中输入的训练视频

按照所述S23等步长切分为1、2以及4个区域，得到图像块集合

并且每一图像块与所述金字塔特征向量

一一对应，构造S_k与所述的包围框之间的映射函数F_b，形式如下：

S_k→{头部、上半身、下半身}

S33、构建结构邻接矩阵A^p，该邻接矩阵中第i行第j列的元素计算公式为：

优选的，步骤S4中，利用S2所述提取得到的特征，基于图像特征相似度计算得到相似度邻接矩阵A^f，A^f中第i行第j列的元素计算公式为：

其中||·||₂表示二范数，x_i、x_j分别为特征向量集台

中的第i个以及第j个特征向量。

优选的，步骤S5中，结合所述结构邻接矩阵以及相似度邻接矩阵，构建采用时间注意力机制以及图卷积的联合学习框架，具体包括以下子步骤：

S51、结合S3以及S4中所述结构邻接矩阵A^p和相似度邻接矩阵A^f，构建图模型G＝{V，A}，其中

表示节点特征，A∈R^{(T×7)×(T×7)}表示节点间关系的图邻接矩阵，A中第i行第j列的元素计算公式为：

其中γ为权重因子用以平衡结构邻接矩阵和相似度邻接矩阵。

S52、建立图卷积网络，每一层加入ReLU激活函数，其中每一层的图结构为S51中所述的节点特征以及节点关系，图卷积网络输出特征

公式表示为：

其中F_gcn()为图卷积网络，θ_gcn为图卷积网络参数；

S53、对所述S52中的输出特征

应用如下时间注意力操作：

其中||·||₁表示计算向量L1范数；

S54、对所述S22以及S53中分别得到的x_gap和x_graph应用一层全连接操作，输出M类行人标签概率值p，x_gap和x_graph对应的概率值p分别表示为p_gap和p_graph，计算公式表示为：

p_gap＝F_fc(x_gap；θ_fc)

p_graph＝F_fc(x_graph；θ_fc)

其中F_fc()为全连接层，θ_fc为可训练参数。

优选的，步骤S6中，使用所述联合学习框架对视频进行特征提取，采用特征间距离对样本库内行人视频进行排序，具体包括：

S61、基于由S1-S5建立的端到端联合学习框架，采用组输入，在训练中，将多帧图像输入该端到端联合学习框架的神经网络中，所有网络参数θ通过最小化损失函数进行学习，其中损失函数L采用交叉熵损失函数与三元损失函数之和；

使用Adam优化方法和反向传播算法在损失函数L下训练整个网络；

S62、利用训练完成的神经网络对视频进行特征提取得到{x_graph，x_gap}并拼接两个特征，通过计算给定待检索视频以及样本库内视频特征之间的欧几里得距离进行行人视频检索。

优选的，所述交叉熵损失函数为：

式中：

为预测得到的第i类行人标签概率值p_gap，

为预测得到的第i类行人标签概率值p_graph；y_i为标注的第i类行人类别标签真值；

所述三元损失函数作用于特征，对输入视频构建锚点-正样本-负样本三元组，三元损失函数为：

其中：P、K为构造三元组输入所使用超参数，P表示每批数据中包含的类别数量，K表示每个类别对应的视频数量；

为第i个类别的第a个锚点所使用的全局特征；

为第i个类别的第p个正样本所使用的全局特征；

为第j个类别的第n个负样本所使用的经过图卷积得到的特征；

为第i个类别的第a个锚点所使用的经过图卷积得到的特征；

表示第i个类别的第p个正样本所使用的经过图卷积得到的特征；

总的损失函数为：

L＝L_xent+L_htri。

本发明的基于动态图卷积表征的视频行人重识别方法，相比于现有的视频行人重识别方法，具有以下有益效果：

首先，本发明的基于动态图卷积表征的视频行人重识别方法利用了行人视频中人体结构作为先验信息计算结构邻接矩阵，并结合特征相似度计算得到的相似度邻接矩阵，构建了人体结构驱动的时空图。该时空图内部连接关系随特征的更新而动态更新，可以有效利用数据驱动的方法解决复杂场景下的行人重识别问题。

其次，本发明提出了一种端到端的动态时空图学习算法，该方法在给定输入情况下，利用输入内部的时空一致性，学习特定场景下的视频内部图结构，有效提升了视频行人重识别的预测准确度。

本发明的基于动态图卷积表征的视频行人重识别方法，在行人跟踪、行人轨迹分析等应用中，可以有效提高行人重识别的准确率，具有良好的应用价值。例如，在行人跟踪的应用场景下，针对行人离开拍摄场地再次进入场地导致无法跟踪的现象，通过视频行人重识别算法可以提高跟踪的准确性。

附图说明

图1为本发明的的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

参考图1，在本发明的较佳实施例中，一种基于动态图卷积表征的视频行人重识别方法，包括以下步骤：

S1、获取用于训练的视频行人重识别算法数据集，并定义算法目标。本步骤中，视频行人重识别算法数据集

每个训练视频

中含有连续帧行人图像

以及对应的人工标注yⁿ∈R^M，其中

S2、对视频进行特征提取，构建基于图像块的特征金字塔。本步骤中，具体包括以下子步骤：

f_t＝F(I_t；θ_backbone)

S22、对上述S21中得到的T个特征图应用3D全局平均值池化(Global AveragePooling)，得到全局特征向量x_gap∈R^d；

S23、对上述S21中得到的每个特征图应用金字塔池化(Pyramid Pooling)，将f_t在第二维度h进行等步长切分为1、2以及4个区域，并对每个区域中特征应用2D全局平均值池化(Global Average Pooling)，得到金字塔特征向量

其中x_k表示第k个区域采用全局池化操作后得到的特征。

S3、对视频进行人体关节点检测，基于人体部件位置计算得到结构邻接矩阵。本步骤中，具体包括以下子步骤：

S32、对上述S1中输入的训练视频

按照上述S23等步长切分为1、2以及4个区域，得到图像块集合

并且每一图像块与上述金字塔特征向量

一一对应，构造S_k与上述的包围框之间的映射函数F_b，形式如下：

S_k→{头部、上半身、下半身}

S4、利用S2中上述提取得到的特征，基于图像特征相似度计算得到相似度邻接矩阵。本步骤中，相似度邻接矩阵记为A^f，A^f中第i行第j列的元素计算公式为：

其中‖·‖₂表示二范数，x_i、x_j分别为特征向量集合

中的第i个以及第j个特征向量。

S5、结合上述结构邻接矩阵以及相似度邻接矩阵，构建采用时间注意力机制以及图卷积的联合学习框架。本步骤中，具体包括以下子步骤：

S51、结合S3以及S4中所述结构邻接矩阵A^p和相似度邻接矩阵A^f，构建图模型G＝{V,A}，其中

公式表示为：

其中F_gcn()为图卷积网络，θ_gcn为图卷积网络参数，A为网络中节点关系图；

S53、对上述S52中的输出特征

应用如下时间注意力操作：

其中||·||₁表示计算向量L1范数；

S54、对上述S22以及S53中分别得到的x_gap和x_graph应用一层全连接操作，输出M类行人标签概率值p，x_gap和x_graph对应的概率值p分别表示为p_gap和p_graph，计算公式表示为：

p_gap＝F_fc(x_gap；θ_fc)

p_graph＝F_fc(x_graph；θ_fc)

其中F_fc()为全连接层，θ_fc为可训练参数。

S6、使用上述联合学习框架对视频进行特征提取，采用特征间距离对样本库内行人视频进行排序。本步骤中，具体包括以下子步骤：

S61、基于由S1～S5建立的端到端联合学习框架，采用组输入，在训练中，将多帧图像输入该端到端联合学习框架的神经网络中，所有网络参数θ通过最小化损失函数进行学习，其中损失函数L采用交叉熵损失函数与三元损失函数之和。

其中，交叉熵损失函数为：

式中：

为预测得到的第i类行人标签概率值p_gap，

其中，三元损失函数作用于特征，对输入视频构建锚点-正样本-负样本三元组，三元损失函数为：

为第i个类别的第a个锚点所使用的全局特征；

为第i个类别的第p个正样本所使用的全局特征；

为第i个类别的第a个锚点所使用的经过图卷积得到的特征；

总的损失函数为：

L＝L_xent+L_htri。

下面将上述方法应用于具体实施例中，以便本领域技术人员能够更好地理解本发明的效果。

实施例

本实施例基于上述方法进行实验，具体的实现方法如前所述，不在详细阐述具体的步骤，下面仅针对实验结果展示其结果。

PRID2011数据集：该数据集包含由两个摄像头录制，分别包含385和749个行人。其中前200个行人为重复出现行人，视频长度在5帧至675帧之间。

iLIDS-VID数据集：该数据集包含共计600个行人视频，共出现300个行人，视频长度在23帧至192帧之间，平均长度73帧。

MARS数据集：该数据集包含共计1261个行人，包含大约20000个行人视频，采用DPM检测器以及GMMCP跟踪器将行人裁剪出来。该数据集由6个摄像头录制。

DukeMTMC-VideoReID数据集：该数据集包含4832个视频以及1812个行人，视频平均帧数168帧，行人通过手工标注裁剪。

基于视频的行人重识别方法主要流程如下：

1)利用人体关节点检测算法对行人视频进行关节点检测，并构建结构邻接矩阵；

2)利用行人视频提取出金字塔特征，并构建相似度邻接矩阵；

3)结合结构邻接矩阵以及相似度邻接矩阵，使用图卷积神经网络更新特征；

4)输出待检索视频特征以及样本库视频特征，计算特征间欧几里得距离进行排序。

5)本实施例检索精度如表1、2、3所示。表中数据显示本发明在Rank-1，Rank-5，Rank-20，mAP指标上的表现。同其他方法对比，本发明有进一步的提升。

表1为本实施例在PRID2011以及iLIDS-VID数据集上的评价指标对比

表2为本实施例在MARS数据集上的评价指标对比

表3为本实施例在DukeMTMC-VideoReID数据集上的评价指标对比

其中Ours为本发明方法，其余方法对应参考文献如下：

[1]L.Zheng，Z.Bie，Y.Sun，J.Wang，C.Su，S.Wang，and Q.Tian，“Mars：A videobenchmark for large-scale person re-identification，”in Proc.Eur.ConferenceComput.Vis.Springer，2016，pp.868-884.

[2]Z.Zhou，Y.Huang，W.Wang，L.Wang，and T.Tan，“See the forest for thetrees：Joint spatial and temporal recurrent neural networks for video-basedperson re-identification，”in Proc.IEEE Comput.Soc.Conf.Comput.Vis.PatternRecognit.，July 2017.

[3]S.Xu，Y.Cheng，K.Gu，Y.Yang，S.Chang，and P.Zhou，“Jointly attentivespatial-temporal pooling networks for video-based person re-identification，”in Proc.IEEE Int.Conf.Comput.Vis.，Oct 2017.

[4]G.Song，B.Leng，Y.Liu，C.Hetang，and S.Cai，“Region-based qualityestimation network for large-scale person re-identification，”in Proc.AAAI，2018，pp.7347-7354.

[5]D.Chen，H.Li，T.Xiao，S.Yi，and X.Wang，“Video person re-identificationwith competitive snippet-similarity aggregation and co-attentive snippetembedding，”in Proc.IEEE Comput.Soc.Conf.Com-put.Vis.Pattern Recognit.，June2018.

[6]S.Li，S.Bak，P.Carr，and X.Wang，“Diversity regularized spatiotemporalattention for video-based person re-identification，”in Proe.IEEE Comput.Soc.Conf.Comput.Vis.Pattern Recognit.，June 2018.

[7]J.Zhang，N.Wang，and L.Zhang，“Multi-shot pedestrian re-identification via sequential decision making，”in Proc.IEEE Comput.Soc.Conf.Comput.Vis.Pattern Recognit.，June 2018.

[8]Y.Wu，Y.Lin，X.Dong，Y.Yan，W.Ouyang，and Y.Yang，“Exploit the unknowngradually：One-shot video-based person re-identification by stepwiselearning，”in Proc.IEEE Comput.Soc.Conf.Comput.Vis.Pattern Recognit.，June2018.

[9]L.Wu，Y.Wang，L.Shao，and M.Wang，“3-d person vlad：Learning deepglobal representations for video-based person reidentification，”IEEETrans.Neural Netw.Learn.Syst.，2019.

[10]L.Wu，Y.Wang，J.Gao，and X.Li，“Where-and-when to look：Deep siameseattention networksfor video-based person re-identification，”IEEETrans.Multimedia，2018.

[11]J.Dai，P.Zhang，D.Wang，H.Lu，and H.Wang，“Video person re-identification by temporal residual learning，”IEEE Trans.Image Process.，vol.28，no.3，pp.1366-1377，2018.

[12]J.Li，S.Zhang，and T.Huang，“Multi-scale 3d convolution network forvideo based person re-identification，”in Proc.AAAI，2019.

[13]Y.Fu，X.Wang，Y.Wei，and T.Huang，“Sta：Spatial-temporal attention forlarge-scale video-based person re-identification，”in Proe.AAAI，2019.

[14]Y.Liu，Z.Yuan，W.Zhou，and H.Li，“Spatial and temporal mutualpromotion for video-based person re-identification，”in Proc.AAAI，2019.

[15]R.Zhang，J.Li，H.Sun，Y.Ge，P.Luo，X.Wang，and L.Lin，“Scan：Self-and-collaborative attention network for video person re-identification，”IEEETrans.Image Process.，2019.

[16]G.Chen，J.Lu，M.Yang，and J.Zhou，“Spatial-temporal attention-awarelearning for video-based person re-identification，”IEEE Trans.Image Process.，2019.

[17]C.-T.Liu，C.-W.Wu，Y.-C.F.Wang，and S.-Y.Chien，“Spatially andtemporally efficient non-local attention network for video-based person re-identification，”in Proc.BMVC，2019.

[18]H.Liu，Z.Jie，K.Jayashree，M.Qi，J.Jiang，S.Yan，and J.Feng，“Video-based person re-identification with accumulative motion context，”IEEETrans.Circuits Syst.Video Technol.，vol.28，no.10，pp.2788-2802，2017.

[19]R.Hou，B.Ma，H.Chang，X.Gu，S.Shan，and X.Cheh，“Interaction-and-aggregation network for person re-identification，”in Proc.IEEE Comput.Soc.Conf.Comput.Vis.Pattern Recognit.，2019，pp.9317-9326.

[20]Y.Yan，B.Ni，Z.Song，C.Ma，Y.Yan，and X.Yang，“Person re-identificationvia recurrent feature aggregation，”in Proe.Eur.ConferenceComput.Vis.Springer，2016，pp.701-716.

[21]N.McLaughlin，J.Martinez del Rineon，and P.Miller，“Recurrentconvolutional network for video-based person re-identification，”in Proc.IEEEComput.Soc.Conf.Comput.Vis.Pattern Recognit.，June 2016.

[22]Y.Liu，J.Yan，and W.Ouyang，“Quality aware network for set tosetrecognition，”in Proc.IEEE Comput.Soc.Conf.Comput.Vis.Pattern Recognit.，July 2017.

通过以上技术方案，本发明实施例基于深度学习技术发展了一种基于动态图卷积表征的行人重识别方法。本发明可以利用输入行人视频内人体结构以及特征相似度，学习更加鲁棒的特征，从而进行更准确的检索。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。