CN114187665B

CN114187665B - 一种基于人体骨架热图的多人步态识别方法

Info

Publication number: CN114187665B
Application number: CN202111560013.0A
Authority: CN
Inventors: 邵松青; 黄应文; 黄毅明; 颜淦标
Original assignee: CHANGXUN COMMUNICATION SERVICE CO LTD
Current assignee: CHANGXUN COMMUNICATION SERVICE CO LTD
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2023-10-20
Anticipated expiration: 2041-12-20
Also published as: CN114187665A

Abstract

本发明公开了一种基于人体骨架热图的多人步态识别方法，包括：采集行人步态视频序列；对步态视频中的每一帧进行目标检测，并对检测到的行人进行跟踪；利用2D姿态估计模型对行人进行人体姿态估计，得到2D人体骨架热图；将2D人体骨架热图按照时间维度拼接为3D人体骨架热图序列；将3D人体骨架热图序列输入到3D卷积神经网络进行训练，使用训练好的网络模型进行步态特征提取，得到行人步态特征向量；将提取到的待识别行人步态特征向量与数据库中已注册行人的特征向量进行相似性度量，完成特征匹配。本发明利用3D CNN从人体骨架热图中提取步态特征，能提高步态识别对于拍摄视角变换、携带物遮挡等干扰的鲁棒性。

Description

一种基于人体骨架热图的多人步态识别方法

技术领域

本发明涉及生物特征识别技术领域，尤其涉及一种基于人体骨架热图的多人步态识别方法。

背景技术

步态识别技术旨在通过人的走路方式来实现人身份的识别，是近年来新兴的生物特征识别技术之一。与人脸识别等其他生物特征识别技术相比，步态识别具有远距离、非侵入、非接触等优点，在公共安全、智能安防、金融安全等领域具有巨大的应用潜力。但目前步态识别在应用时受较多因素的影响，如跨视角拍摄、衣着遮挡、携带物遮挡等干扰，导致在现实场景下识别精度较低。

根据特征提取和表示的不同，可将目前步态识别的方法分为基于人体模型和基于人体表观的方法。基于人体模型的方法为人体建立结构或运动模型，如人体骨架模型，将人体步态特征映射到模型上，从所建立的模型中提取步态特征信息，将计算特征匹配相似度最高的目标作为识别结果；与基于模型的方法相比，基于人体表观的方法更加关注行人步态序列中的外形轮廓而非人体结构，如目前大多数基于人体表观的方法从步态剪影图中提取步态特征，目前基于步态剪影图的方法可以分为基于模板的方法和基于视频序列的方法，基于模板的方法旨在将步态剪影图序列压缩为一张模板图像，从该模板中提取人体步态特征信息，这样的思路忽略了步态的时序信息，相反，基于视频序列的方法直接从步态剪影图序列中提取步态特征信息，从而更好的保留了步态的时序信息。相比于基于模型的方法，基于人体表观的方法易受拍摄视角变化、携带物遮挡等干扰的影响，在步态识别落地应用中效果较差。

现有技术一：基于步态剪影图的步态识别方法

基于步态剪影图的步态识别方法旨在从人体外观提取步态特征，步态剪影图一般通过背景减除或分割算法从原始RGB视频中将人体掩膜从背景中分离出来得到，进而利用深度学习方法从步态剪影图序列中提取步态特征。目前基于步态剪影图的步态识别方法大部分摒弃将步态剪影图序列压缩为图像模板来提取特征的思路，而将步态剪影图序列直接输入神经网络模型进行特征提取，典型的特征提取网络有基于2D CNN的GaitSet、GaitPart以及基于3D CNN的GaitGL等。如专利“一种基于双流网络的步态识别方法”(CN112507803A)、“基于深度学习级联特征融合的步态识别方法”(CN113011396A)等均采用基于步态剪影图的步态识别方法。

首先，基于步态剪影图提取步态特征的方法依赖于人体的外观，对于拍摄视角变换、衣着变换、携带物遮挡等干扰的鲁棒性较差，在实际落地时难以应用。其次，从RGB图像中获取步态剪影图的难度较大，目前可以采用的方法可以分为传统方法和基于深度学习的方法，传统方法以背景减除为代表，难以应对复杂场景下步态剪影图的提取，且无法在多人场景中应用，基于深度学习的方法以实例分割算法为代表，相比于传统方法能在较复杂场景下提取步态剪影图，但通过分割得到的步态剪影图数据与步态数据集中提供的步态剪影图数据很难达到相似的分布，且深度模型难以达到实时的处理速度。

现有技术二：基于人体骨架的步态识别方法

基于人体骨架的步态识别方法旨在为人体建立模型来提取步态特征，首先采用人体姿态估计算法从原始RGB视频中提取人体关键点，得到人体骨架图，其次采用深度学习方法从其中提取步态特征，目前从人体骨架提取步态特征可以分为两种方式，一是将人体骨架采用矩阵表征，进而输入卷积神经网络或循环神经网络进行特征提取，如专利“一种基于骨架图序列异常关节修复的步态识别方法”(CN109871750A)，二是直接将人体骨架图序列输入图卷积神经网络进行特征提取，如专利“一种基于骨架信息的步态识别方法”(CN111310668A)。

基于人体骨架提取步态特征的方法有两种特征提取的形式：通过手动设计的变换将人体关键点坐标建模为伪图像输入卷积神经网络、循环神经网络等深度网络进行特征提取或者直接将骨架序列输入图卷积神经网络进行特征提取，将人体关键点变换为伪图像的方式容易丢失人体关键点之间的相对空间位置信息，而使用图卷积神经网络直接从人体骨架图提取特征的方式对骨架序列中的噪声很敏感，难以处理关键点缺失或训练测试时使用骨架数据存在分布差异(例如出自不同姿态估计模型)等情形。

发明内容

为解决上述技术问题，本发明的目的是提供一种基于人体骨架热图的多人步态识别方法。

本发明的目的通过以下的技术方案来实现：

一种基于人体骨架热图的多人步态识别方法，包括：

S1采集行人步态视频序列；

S2对步态视频中的每一帧进行目标检测，并对检测到的行人进行跟踪；

S3利用2D姿态估计模型对行人进行人体姿态估计，得到2D人体骨架热图；

S4将2D人体骨架热图按照时间维度拼接为3D人体骨架热图序列；

S5将3D人体骨架热图序列输入到3D卷积神经网络进行训练，使用训练好的网络模型进行步态特征提取，得到行人步态特征向量；

S6将提取到的待识别行人步态特征向量与数据库中已注册行人的特征向量进行相似性度量，完成特征匹配。

与现有技术相比，本发明的一个或多个实施例可以具有如下优点：

采用基于人体骨架热图的步态识别方法，相比于基于步态剪影图的方法，提取的人体骨架受视角变换、衣着及携带物变化等因素的影响较小，因此此种方法对于这些干扰具有较强的鲁棒性；

采用基于人体骨架热图的方法来提取特征，即摒弃直接采用人体关键点坐标而使用基于高斯分布的人体骨架热图序列来提取特征，由于基于高斯分布的人体骨架热图在某个人体关键点并不是一个确定的坐标，而是一个以该坐标点为中心的高斯概率分布，所以降低了步态特征提取对于人体关键点噪声的敏感性，使得此种步态识别方法能够容纳不同的人体姿态估计方法。

附图说明

图1是基于人体骨架热图的多人步态识别方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合实施例及附图对本发明作进一步详细的描述。

如图1所示，为基于人体骨架热图的多人步态识别方法流程，包括：

1)采集行人步态视频序列；

使用摄像头获取行人行走的RGB步态视频序列。

2)对步态视频中的每一帧进行目标检测，并对检测到的行人进行跟踪；

使用单阶段目标检测模型YOLOX对步态视频的每一帧进行目标检测，其中YOLOX模型在COCO train2017数据集上进行预训练，YOLOX输出画面中所有目标的检测框，滤除掉行人类别以外的其他物体检测框，保留行人检测框。

采用实时多目标跟踪算法ByteTrack对检测到的行人进行跟踪。ByteTrack采用一种高效的数据关联方式，首先，根据物体运动的相似性将高分检测框与现有的行人轨迹相匹配，并采用卡尔曼滤波在新的一帧中预测行人的位置，运动的相似性可以通过计算预测框与检测框之间的IoU(交并比)来表示；其次，在未匹配的行人轨迹和低分检测框之间执行第二次匹配，来避免得分较低的检测框直接被滤除的情况，同时能够滤除误检测的目标；对于没有匹配上跟踪轨迹而得分足够高的检测框，对其新建一个跟踪轨迹，对于没有匹配上检测框的跟踪轨迹，对其保留30帧，待该轨迹对应的行人再次出现时进行再次匹配，这样的匹配方式能有效解决跟踪目标因遮挡等因素导致检测得分下降带来的跟踪失败问题，保证了跟踪效果。

3)利用2D姿态估计模型对行人进行人体姿态估计，得到2D人体骨架热图；

采用自顶向下的2D姿态估计模型HRNet对行人进行人体姿态估计，得到2D人体骨架热图。不同于传统人体姿态估计方法将高分辨率特征图下采样至低分辨率、再从低分辨率特征图恢复至高分辨率的思路，HRNet在提取人体关键点的整个过程中始终保证主网络特征图保持高分辨率，通过在高分辨率特征图主网络逐渐并行加入低分辨率特征图子网络，各并行网络之间相互交换信息，实现多尺度特征融合，最终在高分辨率主网络输出人体骨架热图。

本实施例不仅限于使用HRNet作为人体姿态估计模型，也可以采用其他算法模型。同时，本发明也可以采用先估计人体关键点坐标，再由各关键点坐标生成人体骨架热图的方式，因为在实际中存储人体关键点坐标往往比存储骨架热图更节省空间资源，以此种方式来获取骨架热图的过程可用如下公式表述：

其中H_kij代表骨架热图中第k个人体关键点的高斯分布，σ代表高斯分布的标准差，(x_k，y_k)和c_k分别代表第k个人体关键点的坐标和置信度。

4)将2D人体骨架热图按照时间维度拼接为3D人体骨架热图序列；

将从步态视频序列中每一帧提取到的2D人体骨架热图沿时间维度拼接为3D的人体骨架热图序列。为了减少3D热图序列中的冗余，对连续的人体骨架热图序列在时间维度上进行均匀采样，即通过将连续的视频划分为等长的n个片段并从每个片段中随机选择一帧人体骨架热图，从而组成含有n帧骨架热图的序列，这样的采样策略能在时间维度上减少人体骨架特图序列的冗余，有益于后续特征的提取。

5)将3D人体骨架热图序列输入到3D卷积神经网络进行训练，使用训练好的网络模型进行步态特征提取，得到行人步态特征向量；

步态特征提取的模型使用3D卷积神经网络(3D-CNN)，将人体骨架热图序列输入至训练好的3D-CNN进行逐层卷积，提取热图序列中所包含的时空特征信息，在网络的末端进行时间空间聚合池化，使卷积网络所提取的特征得到充分融合，最后使用全连接层将特征图映射到特征空间，得到行人步态特征向量。

6)将提取到的待识别行人步态特征向量与数据库中已注册行人的特征向量进行相似性度量，完成特征匹配。

识别过程中，将提取到待识别的行人步态特征向量与数据库中已注册行人的特征向量进行相似性度量，其中一种方式可采用欧氏距离作为距离度量，在超过得分阈值的基础上，距离最近的特征向量对应的注册人员即为识别结果，否则视为未注册人员。

上述实施例基于人体骨架热图来提取步态特征，在一定程度上能提高了步态识别对于上述干扰的鲁棒性。加入多目标跟踪的方法对识别场景中的行人进行跟踪，从而实现多人场景下的步态识别；利用多目标跟踪算法(如ByteTrack)对识别场景中的行人进行跟踪，依次对每个跟踪目标进行人体姿态估计及步态特征提取。

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种基于人体骨架热图的多人步态识别方法，其特征在于，包括：

S1采集行人步态视频序列；

S6将提取到的待识别行人步态特征向量与数据库中已注册行人的特征向量进行相似性度量，完成特征匹配；

所述S2中：

使用单阶段目标检测模型YOLOX对步态视频的每一帧进行目标检测，并输出画面中所有目标的检测框，滤除掉行人类别以外的其他物体检测框，保留行人检测框；

采用实时多目标跟踪算法ByteTrack对检测到的行人进行跟踪，包括根据物体运动的相似性将高分检测框与现有的行人轨迹相匹配，并在新的一帧中预测行人的位置；在未匹配的行人轨迹和低分检测框之间执行第二次匹配，避免得分较低的检测框直接被滤除的情况，同时能够滤除误检测的目标；对于没有匹配上跟踪轨迹而得分足较高的检测框，新建一个跟踪轨迹，待轨迹对应的行人再次出现时进行再次匹配；

所述S3中，姿态估计模型在提取人体关键点的整个过程中始终保证主网络特征图保持高分辨率，通过在高分辨率特征图主网络逐渐并行加入低分辨率特征图子网络，各并行网络之间相互交换信息，实现多尺度特征融合，最终在高分辨率主网络输出人体骨架热图；

所述S4中，以减少3D热图序列中的冗余，对连续的人体骨架热图序列在时间维度上进行均匀采样，即通过将连续的视频划分为等长的n个片段并从每个片段中随机选择一帧人体骨架热图，从而组成含有n帧骨架热图的序列。

2.根据权利要求1所述的基于人体骨架热图的多人步态识别方法，其特征在于，所述S5具体包括将人体骨架热图序列输入至训练好的3D-CNN进行逐层卷积，提取热图序列中所包含的时空特征信息，在网络的末端进行时间空间聚合池化，使卷积网络所提取的特征得到充分融合，最后使用全连接层将特征图映射到特征空间，得到行人步态特征向量。

3.根据权利要求1所述的基于人体骨架热图的多人步态识别方法，其特征在于，S6中可采用欧氏距离作为距离度量，在超过得分阈值的基础上，距离最近的特征向量对应的注册人员即为识别结果，否则视为未注册人员。