CN113807189A

CN113807189A - 一种基于人体部件学习和姿态重构的视频行人重识别方法

Info

Publication number: CN113807189A
Application number: CN202110959958.3A
Authority: CN
Inventors: 于慧敏; 李殊昭
Original assignee: Zhejiang University ZJU; Zigong Innovation Center of Zhejiang University
Current assignee: Zhejiang University ZJU; Zigong Innovation Center of Zhejiang University
Priority date: 2021-08-20
Filing date: 2021-08-20
Publication date: 2021-12-17
Anticipated expiration: 2041-08-20
Also published as: CN113807189B

Abstract

本发明涉及智能识别技术领域，旨在提供一种基于人体部件学习和姿态重构的视频行人重识别方法。包括：构建用于训练的特征提取网络；生成人体姿态图序列，参照第一帧人体姿态图对人体姿态图序列和行人图像序列中每一帧图像进行对齐；对人体姿态图序列进行编码和重构；将对齐后的视频序列提取行人序列外观特征；将输出的运动特征和行人序列外观特征进行拼接，得到行人图像序列的身份特征表达。本发明充分利用了人体的特殊构造方式，即包含多个固定的人体关键点用于行人身份特征学习。通过挖掘人体局部外观特征和步态运动特征，能有效提升行人目标重识别模型的鲁棒性和性能。

Description

一种基于人体部件学习和姿态重构的视频行人重识别方法

技术领域

本发明属于智能识别技术领域，特别地涉及一种基于人体部件学习和姿态重构的视频行人重识别方法，在算法设计和模型训练部分涉及了深度学习技术。

背景技术

作为当前重要的研究方向和研究热点，行人重识别在智能监控、智慧城市、治安防治和刑侦等领域都有着广泛的应用，例如跨摄像机的行人跟踪与行为分析，嫌疑或感兴趣人员的图片检索与查询等。行人重识别的任务是，在与摄像机A不存在重叠区域的摄像机B中对行人目标进行检索，重新找到在摄像机A中出现的行人目标。

随着深度学习的迅速发展，越来越多的研究者采用深度神经网络来解决行人重识别的问题，目前技术成果主要是集中在基于静态图片的行人重识别领域。然而，基于静态图片进行行人目标的重识别存在较多的局限性。首先，单张图片信息非常容易受到各种因素的干扰，例如行人姿态的变化、外界光照、背景变化等等；其次，在实际监控场景中，通常获取的都是视频格式的数据，其中包含了丰富的时序和运动信息，而静态行人图像则无法充分挖掘这些信息用于目标的重识别；最后，行人步态信息作为重要的生物身份信息，能够很好的辅助行人身份的判定，而这同样需要一段连续的视频才能充分学习挖掘。因此，越来越多的研究者开始将关注点转向在基于视频的行人目标重识别任务。

当前现有的基于视频的行人重识别算法主要分为两大类，其中一类是将一段视频看做多张静态图片，通过注意力模型挖掘多张图片中用于识别行人身份的信息相互进行补充，融合成为视频层级的特征。这类方法易于实现、时间以及计算资源利用率高，然而忽略了视频数据中重要的运动信息，导致无法很好地利用具有行人身份判别力的步态运动信息，降低了行人特征的判别力。另一类则是基于视频的算法，采用光流学习、3D卷积神经网络、RNN等结构提取运动信息。然而这类算法针对仅包含单一运动类别的行人重识别数据效果并不理想，难以提取潜在的行人步态运动特征，需要更为细致和针对性的设计。

发明内容

本发明要解决的技术问题是，克服现有技术中的不足，提供一种基于人体部件学习和姿态重构的视频行人重识别方法。

为解决技术问题，本发明的解决方案是：

提供一种基于人体部件学习和姿态重构的视频行人重识别方法，包括：从长度为T的连续视频中，用大小为H×W的矩形框将行人框选并裁切出来，得到行人图像序列S＝{I₁，I₂，...，I_T}；然后进行以下步骤处理：

(1)构建用于训练的特征提取网络

所述用于训练的特征提取网络包括：由卷积神经网络构成的图像特征提取器CE、图卷积神经网络构成的序列特征提取器GE、人体姿态关键点检测网络PN、人体姿态纹理编码器PTEN、人体姿态编码器网络PEN，以及人体姿态解码网络PDN；

(2)视频帧行人姿态关键点检测

生成人体姿态图序列P＝{PM₁，PM₂，...，PM_T}，参照第一帧人体姿态图PM₁对人体姿态图序列P和行人图像序列S中每一帧图像进行对齐；

(3)人体姿态图序列重构

利用人体姿态编码器PEN对N_f帧的人体姿态图序列进行编码，再利用人体姿态解码网络PDN对该N_f帧人体姿态图序列进行重构；

(4)将对齐后的视频序列

送入图像特征提取器CE和序列特征提取器GE中，提取行人序列外观特征f_A；

(5)将人体姿态编码器PEN输出的运动特征f_M和行人序列外观特征f_A进行拼接，得到行人图像序列S的身份特征表达f_id。

与现有技术相比，本发明的有益效果是：

1、本发明充分利用了人体的特殊构造方式，即包含多个固定的人体关键点用于行人身份特征学习。一方面，通过人体姿态关键点获取人体局部部件，利用图卷积神经网络充分挖掘人体局部部件之间的结构关系以及相同人体部件随时间变化的结构关系。另一方面，利用人体姿态关键点在连续帧之间的变化分析行人的步态运动信息，消除环境和背景等因素的干扰，挖掘潜在的具有身份判别力的步态生物特征。

2、本发明通过挖掘人体局部外观特征和步态运动特征，能有效提升行人目标重识别模型的鲁棒性和性能。

附图说明

图1是基于人体部件特征学习和姿态预测的行人目标重识别方法的步骤流程图。

图2是用于人体姿态关键点检测的OpenPose模型检测到的人体姿态关键点连接关系。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

本发明提出一种基于人体部件学习和姿态重构的视频行人重识别方法，包括：从长度为T的连续视频中，用大小为H×W的矩形框将行人框选并裁切出来，得到行人图像序列S＝{I₁，I₂，...，I_T}；然后进行以下步骤处理：

1、构建用于训练的特征提取网络，具体包括：由卷积神经网络构成的图像特征提取器CE，图卷积神经网络构成的序列特征提取器GE，人体姿态关键点检测网络PN，人体姿态编码器网络PEN，人体姿态纹理编码器PTEN，人体姿态解码网络PDN。

具体地，图像特征提取器CE和人体姿态纹理编码器PTEN采用ResNet-50的网络结构；序列特征提取器GE采用经典的图卷积网络GCN结构；人体姿态关键点检测网络PN采用现有网络OpenPose模型；人体姿态编码器网络PEN采用I3D卷积神经网络；人体姿态解码网络PDN包含四层转置卷积网络。

2、视频帧行人姿态关键点检测：生成人体姿态图序列P＝{PM₁，PM₂，...，PM_T}；参照第一帧人体姿态图PM₁对人体姿态图序列P和行人图像序列S中每一帧图像进行对齐。具体地：

(2.1)利用现有的网络OpenPose模型作为人体姿态关键点检测网络PN，对行人图像序列S中的每一帧图像I_t的18个人体姿态关键点进行检测，生成对应的人体姿态图PM_t，构成人体姿态图序列P＝{PM₁，PM₂，...，PM_T}；PM_t表示PM₁至PM_T中任意一个时刻下的人体姿态图；

(2.2)选取第一帧人体姿态图PM₁作为参照，计算其余人体姿态图的缩放参数，获得对齐后的人体姿态图序列

和对齐后的行人图像序列

该步骤具体包括：

(2.2.1)计算每一帧人体姿态图PM_t中所有人体姿态点坐标(x_t，y_t)之间的最大垂直距离作为该帧的尺度系数l_t。具体地，

其中，

是PM_t中所有人体姿态点中y坐标的最大值，

是PM_t中所有人体姿态点中y坐标的最小值。

(2.2.2)以第一帧人体姿态图PM₁的尺度系数l₁作为参照，计算每一帧尺度系数l_t与l₁之间的变换参数α＝{α₁，α₂，...，α_t}；

(2.2.3)利用每一帧图像的变换系数α_t对行人图像I_t和人体姿态图PM_t进行缩放，将缩放后图片中的行人与行人图像I₁中行人位置和大小对齐，即将

和

对齐。然后用大小为H×W的矩形框进行截取，得到对齐后的行人图像序列

和人体姿态图序列

3、人体姿态图序列重构：利用人体姿态编码器PEN对N_f帧的人体姿态图序列进行编码，再利用人体姿态解码网络PDN对该N_f帧人体姿态图序列进行重构。具体包括：

(3.1)利用人体姿态编码器PEN对N_f帧的人体姿态图序列

进行编码，获得序列运动特征f_M；

(3.2)利用人体姿态纹理编码器PTEN对当前帧人体姿态图

进行特征提取，获得人体姿态纹理特征

(3.3)将序列运动特征f_M和人体姿态纹理特征

共同送入到人体姿态解码器PDN中，重构生成上一帧人体姿态图

在与真实的该帧人体姿态图

进行对比后，通过最小化预测图像跟真实图像之间的均方误差进行训练优化，如下式所示：

(3.4)以上一帧人体姿态图

和序列运动特征f_M作为输入，重复步骤(3.2)和(3.3)；连续操作后得到重构的连续N_l帧人体姿态图

4、将对齐后的视频序列

送入图像特征提取器CE和序列特征提取器GE提取行人序列外观特征f_A。具体包括：

(4.1)将对齐后的行人图像序列

中的每一帧

分别送入图像特征提取器CE提取行人图像外观特征图f_t ^a；

(4.2)根据对应的人体姿态图

获得K个人体部件的矩形区域，并计算在行人图像外观特征图f_t ^a中的对应区域R_t＝{r₁，r₂，…，r_K}；

表示

至

中任意一个时刻下的人体姿态图；

(4.3)获取行人图像外观特征图f_t ^a中对应区域R_t的K个人体部件特征M_t＝{m₁，m₂，…，m_K}；

(4.4)对行人图像序列

中的所有人体部件特征M构建人体部件关联图G；该步骤具体包括：

(4.4.1)将行人图像序列

中每帧行人图片的K个人体部件特征M_t＝{m₁，m₂，...，m_K}分别作为人体部件关联图G的一个节点；

(4.4.2)对于每帧行人图片I_t提取的人体部件特征M_t，依据人体姿态关键点检测网络PN(OpenPose算法)中的人体姿态关键点连接关系构建人体部件关联图G的边，每条边的权重为1，具体连接关系如附图2所示；

(4.4.3)在相邻两帧行人图片I_t和I_t+1中对应相同人体部件的特征

和

之间构建一条人体部件关联图G的边，每条边的权重为1。

(4.5)将人体部件关联图G送入图卷积神经网络构成的序列特征提取器GE，利用图卷积神经网络提取行人序列外观特征f_A。

具体地，每一层图卷积网络包含下式操作：

其中，

表示人体部件关联图G的邻接矩阵，W⁽ⁱ⁾代表图卷积神经网络每一层的可学习参数；BN和ReLU分别代表批次归一化层和神经元激活层函数；X⁽ⁱ⁺¹⁾、X⁽ⁱ⁾分别为第i+1层和第i层的人体部件关联图特征。

5、将人体姿态编码器PEN输出的运动特征f_M和行人序列外观特征f_A进行拼接，得到行人图像序列S的身份特征表达f_id。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于人体部件学习和姿态重构的视频行人重识别方法，其特征在于，包括：从长度为T的连续视频中，用大小为H×W的矩形框将行人框选并裁切出来，得到行人图像序列S＝{I₁，I₂，...，I_T}；然后进行以下步骤处理：

(1)构建用于训练的特征提取网络

(2)视频帧行人姿态关键点检测

(3)人体姿态图序列重构

(4)将对齐后的视频序列

2.根据权利要求5所述的方法，其特征在于，所述步骤(1)中，由卷积神经网络构成的图像特征提取器CE和人体姿态纹理编码器PTEN采用ResNet-50的网络结构；图卷积神经网络构成的序列特征提取器GE采用经典的图卷积网络GCN结构；人体姿态关键点检测网络PN采用现有网络OpenPose模型；人体姿态编码器网络PEN采用I3D卷积神经网络；人体姿态解码网络PDN包含四层转置卷积网络。

3.根据权利要求1所述的方法，其特征在于，所述步骤(2)具体包括：

(2.1)利用人体姿态关键点检测网络PN对行人图像序列S中的每一帧图像I_t进行人体姿态关键点检测，生成对应的人体姿态图PM_t，构成人体姿态图序列P＝{PM₁，PM₂，...，PM_T}；