CN115205983A

CN115205983A - 一种基于多特征聚合的跨视角步态识别方法、系统及设备

Info

Publication number: CN115205983A
Application number: CN202211115473.7A
Authority: CN
Inventors: 王中元; 陈建宇; 崔来中; 梁超; 邹勤; 邹华
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2022-09-14
Filing date: 2022-09-14
Publication date: 2022-10-18
Anticipated expiration: 2042-09-14
Also published as: CN115205983B

Abstract

本发明公开了一种基于多特征聚合的跨视角步态识别方法、系统及设备，首先对输入视频进行预处理获得步态序列；然后将处理后的步态序列输入基于多特征聚合的跨视角步态识别网络（GaitAMR）中，得到识别结果。具体而言，本发明提出了一种空间特征重组评估策略(SFRA)，通过重建受试者高质量的外观特征来消除空间域中存在的遮挡。其次，提出了一种整体和部分时间聚合策略(HPTA)，该策略从全局和局部两方面提取身体运动描述符，以捕获人体的独特运动模式。最后，提出了一种视图投影预测学习策略(VPPL)，将最佳视图下的特征作为补充信息嵌入特征识别部分，以增强识别过程中的视图稳定性。本发明通过有效地聚合这三个维度的特征表示，显著提升了步态识别的精度。

Description

一种基于多特征聚合的跨视角步态识别方法、系统及设备

技术领域

本发明属于生物特征识别技术领域，涉及一种步态识别方法、系统及设备，具体涉及一种基于多特征聚合的跨视角步态识别方法、系统及设备。

背景技术

步态识别是一种新兴的生物特征识别技术，旨在通过人们走路的姿态进行身份识别，与其他的生物识别技术相比，步态识别具有非接触远距离和不容易伪装的优点。深度学习推动了步态识别的进展，其通过在大量步态数据集上进行训练获得了远超传统识别方法的效果。然而，考虑到复杂环境下的步态识别及视角变化等干扰因素，步态识别的准确性尚不能满足应用要求。因此，提升复杂环境下步态识别方法的性能具有重要意义。

步态识别首先通过摄像头去采集步态信息，然后通过背景估计等算法进行步态检测，接着对步态序列轮廓区域作特征表征，对比步态数据库，作最终的步态识别。步态表征就是步态特征提取，这些特征包括结构化特征、非结构化特征和融合特征，目前大致分为三种表征类型：

（1）身体表征：步态识别中主流的身体表征可分为轮廓和骨骼两类。轮廓是现有研究中最常用的身体表征形式，且计算成本低。这种类型的身体表征迫使识别器关注步态而非服装和非步态因素，从而利于步态分类器。骨骼作为身体表征的另一种形式，通过对身体关节的分析，获得身体的静态和动态表征。与轮廓法相比，骨骼法对视角和外观的变化不敏感，因为姿态估计过程侧重于检测身体关节，而关节受遮挡的影响较小。

（2）时间表征：时间表征用于描述受试者的周期性运动信息，模板和序列是两种常见的时间表征形式。模板是将受试者轮廓的整个行走过程聚合在单一图像上，常见的步态模板包括时间模板和卷积模板。时间模板是步态识别中常用的模板形式，主要包括步态能量图(GEI)、时间保持步态图和帧差能量图。序列模板使用非聚合形式来学习步态序列中受试者在行走过程中的差异性。目前常用的学习步态序列中时序关系的策略有两种：一是循环学习策略，它利用循环神经网络计算当前帧与前一帧之间的依赖关系；二是3D矢量策略，该策略基于步态序列创建包含时序信息的3D张量，然后使用基于3D的深度模型学习步态序列中的时序关联。

（3）特征表征：特征表征主要关注人体轮廓的学习区域。现阶段步态研究中普遍认为轮廓区域可以分为全局和局部两类。具体来说，从整体角度提取轮廓特征被称为全局特征学习，这种特征表征对遮挡和外观变化更加敏感。相比之下，局部特征学习需要将步态剪影切片为多个切片，例如垂直/水平条，然后使用神经网络对这些局部切片进行处理，如胶囊网络或注意力网络。通常，通过局部特征学习得到的身体部位的权重对最终的识别结果存在影响，而且学习局部特征之间的关系还可以提高步态方法对方向变化的适应性。

现有步态识别方法大致从全局和局部的角度进行特征学习，全局特征学习侧重于轮廓整体的上下文信息，而忽略了身体各部位的细粒度学习；局部特征学习侧重于身体各部位的不同表示，缺乏对步态轮廓全局内容的表征。面对复杂条件导致的遮挡及视角变换等非步态干扰因素，现有方法的精度和鲁棒性仍然不足。

发明内容

为了解决上述技术问题，本发明提供了一种基于多特征聚合的跨视角步态识别方法、系统及设备。

本发明的方法所采用的技术方案是：一种基于多特征聚合的跨视角步态识别方法，包括以下步骤：

步骤1：对输入视频进行预处理操作，获得相应类别的步态序列，包括正常行走步态序列，背包行走步态序列，穿外套行走步态序列；

步骤2：将处理后的步态序列输入基于多特征聚合的跨视角步态识别网络中，得到识别结果；

所述基于多特征聚合的跨视角步态识别网络，包括基准网络、多尺度特征提取器、空间特征评估模块、整体和部分时间聚合模块、视角投影预测学习模块、多特征聚合模块和分类器；

所述基准网络，用于提取步态序列对应的内部特征，具体网络结构由顺序连接的5层组成，其中第3层为池化层，其余为3×3卷积层；

所述多尺度特征提取器，用于提取态序列对应内部特征的多尺度特征，多尺度特征包括帧级特征F _fl、短程特征F _sr和长程特征F _lr；其中，帧级特征F _fl用来保存外观轮廓信息，短程特征F _sr用来学习微运动表示，长程特征F _lr用于保存身体部位的周期性变化；所述多尺度特征提取器，由并行设置的帧级特征提取层、短程特征提取层和长程特征提取层组成；所述帧级特征提取层为3×3卷积层；所述短程特征提取层由顺序连接的2个3×1卷积层组合而成，其中第一个卷积层的输出与第二个卷层的输出融合后输出短程特征；所述长程特征提取层由MLP层和Sigmoid函数层组成，其中输入与Sigmoid函数层输出经过两次融合后输出长程特征；

所述空间特征评估模块，用于根据输入的多尺度特征，提取身体各部位最显著特征，实现重组高质量的外观特征；其具体结构包括三部分，第一部分由池化层、卷积操作层和Sigmoid函数层组成，其中输入与Sigmoid函数层输出经过两次融合后输出将多尺度特征转换为空间评估特征；第二部分由顺序设置的通过MLP层和Sigmoid层，及并行设置1×1卷积层组成，通过MLP层和Sigmoid层计算每帧中各部分的分值，然后与1×1卷积层得到的结果进行乘积运算得到局部权值矢量；第三部分包括最大值Max操作层、显著特征查找层和外观特征重组层，通过最大值Max操作层挑选分值最高的区域索引，然后通过该索引从局部权值矢量中选取显著部分特征，沿高度维度对这些部分特征进行重组；

所述整体和部分时间聚合模块，用于根据输入的多尺度特征，从全局和局部两方面提取身体运动描述符，学习人体的独特运动模式；所述整体和部分时间聚合模块包括整体自适应时序建模层和水平金字塔时序建模层；整体自适应时序建模层由两个包含LeakReLU的1×1卷积模块及Sigmoid操作构成；水平金字塔时序建模层先通过HPM层对特征进行水平划分，然后使用Maxpool层和Avgpool层组合对条带特征进行映射，最后使用MCM层提取特征中潜在的微运动表示；其中，时序输入中的短程特征由原始帧级特征与原始短程特征相加得到；长程特征由新的短程特征与原始长程特征相加得到；最后，通过对帧级特征、新的短程和长程特征沿通道维度进行融合得到两个时序建模层的输入特征；

所述视角投影预测学习模块，用于根据输入的多尺度特征，提取最佳视图特征作为特征识别过程中的补充信息；所述视角投影预测学习模块包括第一最大值Max操作层、第二最大值Max操作层、Avgpool池化层、全连接操作层、第三最大值Max操作层和最佳视角查找层，首先对输入的融合后的多尺度特征通过第一最大值Max操作层进行最大值Max操作得到多视角特征；然后使用第二最大值Max操作层，Avgpool池化层及全连接操作层对输入的融合后的多尺度特征进行计算，得到视角矩阵，接着使用第三最大值Max操作层从视角矩阵中得到视角值最大的索引，最后最佳视角查找层通过索引从多视角特征中选取最佳视角特征；

所述多特征聚合模块通过Concat拼接操作沿通道维度执行，用于将所述空间特征评估模块、整体和部分时间聚合模块和视角投影预测学习模块输出进行聚合；

所述分类器通过全连接操作执行，用于将所述多特征聚合模块输出进行识别，得到识别结果。

本发明的系统所采用的技术方案是：一种基于多特征聚合的跨视角步态识别系统，包括以下模块：

步态序列提取模块，用于对输入视频进行预处理操作，获得相应类别的步态序列，包括正常行走步态序列，背包行走步态序列，穿外套行走步态序列；

识别模块，用于将处理后的步态序列输入基于多特征聚合的跨视角步态识别网络中，得到识别结果；

本发明的设备所采用的技术方案是：一种基于多特征聚合的跨视角步态识别设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现所述的基于多特征聚合的跨视角步态识别方法。

与现有的步态识别方法相比，本发明具有以下的优点与积极效果：

（1）本发明通过空间特征重组评估策略，从步态序列中选择身体显著特征区域，重建高质量的外观特征，提升对人体遮挡的鲁棒性。

（2）通过整体和部分时间聚合策略，从全局和局部两方面提取身体动作描述符，获取人体完整且独特的运动模式，提高步态特征的鉴别力。

（3）通过视图投影预测学习策略，明确地将最佳视图特征作为补充信息嵌入到特征识别过程中，以增强识别过程中的视图稳定性。

附图说明

图1：本发明实施例的方法原理框架图；

图2：本发明实施例的基准网络结构示意图；

图3：本发明实施例的多尺度特征提取器结构示意图；

图4：本发明实施例的空间特征评估模块结构示意图；

图5：本发明实施例的整体和部分时间聚合模块结构示意图；

图6：本发明实施例的视角投影预测学习模块结构示意图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施案例对本发明做进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

为了满足复杂条件下的步态识别需求，本实施例采用空间特征评估策略来解决受试者行走过程中因遮挡导致的识别误差；针对视角变化带来的影响，本实施例采用视角投影预测策略对多视角进行评估，选取最佳视角下的特征作为特征识别过程中的补足信息。针对受试者的运动表示，本实施例采用整体和部分时间聚合策略协同式的从全局和局部两方面提取适配人体的运动模式。

本发明对给定步态数据进行预处理和数据增广。同时，充分考虑了复杂环境中步态轮廓因遮挡、携带物品、视角变化等引起的轮廓缺失，进而导致识别不准确等问题。本发明方法在常规步态识别的基础上确保了跨视角复杂环境下的模型识别精度，提高了模型在行人步态识别过程中的综合性能。

具体请见图1，本发明提供的一种基于多特征聚合的跨视角步态识别方法，包括以下步骤：

步骤1：对输入视频进行预处理操作，获得相应类别（包括正常行走,背包行走,穿外套行走等）的步态序列；

本实施例中，步骤1的具体实现包括以下子步骤：

步骤1.1：对视频进行切分操作，将视频片段切割为单帧放到指定文件夹中；

步骤1.2：对步骤1.1中处理后的单帧图像进行裁剪，指定尺寸为64×64大小；

步骤1.3：对步骤1.2裁剪后的图像进行数据增广处理，具体方式为随机组合以下操作：随机水平翻转、随机裁剪、随机仿射变换；从而实现扩增数据的效果。

步骤2：将处理后的步态序列输入基于多特征聚合的跨视角步态识别网络（GaitAMR）中，得到识别结果；

本实施例的基于多特征聚合的跨视角步态识别网络，包括基准网络、多尺度特征提取器、空间特征评估模块、整体和部分时间聚合模块、视角投影预测学习模块、多特征聚合模块和分类器；

本实施例的基准网络，用于提取步态序列对应的内部特征；

本实施例的多尺度特征提取器，用于提取态序列对应内部特征的多尺度特征，多尺度特征包括帧级特征F _fl、短程特征F _sr和长程特征F _lr；本实施例的空间特征评估模块，用于根据输入的多尺度特征，提取身体各部位最显著特征，实现重组高质量的外观特征；

本实施例的整体和部分时间聚合模块，用于根据输入的多尺度特征，从全局和局部两方面提取身体运动描述符，学习人体的独特运动模式；

本实施例的视角投影预测学习模块，用于根据输入的多尺度特征，提取最佳视图特征作为特征识别过程中的补充信息；

本实施例的多特征聚合模块，用于将空间特征评估模块、整体和部分时间聚合模块和视角投影预测学习模块输出进行聚合；

本实施例的分类器，用于将多特征聚合模块输出进行识别，得到识别结果。

请见图2，本实施例的基准网络，具具体网络结构由顺序连接的5层组成，其中第3层为池化层，其余为3×3卷积层。

请见图3，本实施例的多尺度特征提取器，由并行设置的帧级特征提取层、短程特征提取层和长程特征提取层组成；帧级特征提取层为3×3卷积层；短程特征提取层由顺序连接的2个3×1卷积层组合而成，其中第一个卷积层的输出与第二个卷层的输出融合后输出短程特征；长程特征提取层由MLP层和Sigmoid函数层组成，其中输入与Sigmoid函数层输出经过两次融合后输出长程特征。

请见图4，本实施例的空间特征评估模块，其具体结构包括三部分，第一部分由池化层、卷积操作层和Sigmoid函数层组成，其中输入与Sigmoid函数层输出经过两次融合后输出将多尺度特征转换为空间评估特征；第二部分由顺序设置的通过MLP层和Sigmoid层，及并行设置1×1卷积层组成，通过MLP层和Sigmoid层计算每帧中各部分的分值，然后与1×1卷积层得到的结果进行乘积运算得到局部权值矢量；第三部分包括最大值Max操作层、显著特征查找层和外观特征重组层，通过最大值Max操作层挑选分值最高的区域索引，然后通过该索引从局部权值矢量中选取显著部分特征，沿高度维度对这些部分特征进行重组。

具体实现过程如下：

其中Avgpool(·)表示沿通道维度的平均池化操作，Concat(·)表示沿通道维度的拼接操作，F _g表示初始全局多尺度特征；将初始全局多尺度特征输入到空间特征聚合器

中得到特征Y，然后将特征Y经过Sigmoid(·)运算得到一个掩码M，随后将初始全局多尺度特征F _g和掩码M进行加权计算得到最终的评估输出特征F _eval，其中∆(·)表示加权求和运算，⊙表示乘积运算；最后，使用带有sigmoid函数的多层感知器MLP从评估的特征中选择突出的身体部位进行特征重组，

表示评估特征，

表示第l个样本中第k帧的第q 部分的分值；l、k、q、表示第l个样本，第k帧，第q个部分。

请见图5，本实施例的整体和部分时间聚合模块，包括整体自适应时序建模层和水平金字塔时序建模层；整体自适应时序建模层由两个包含LeakReLU的1×1卷积模块及Sigmoid操作构成；水平金字塔时序建模层先通过HPM层对特征进行水平划分，然后使用Maxpool层和Avgpool层组合对条带特征进行映射，最后使用MCM层提取特征中潜在的微运动表示；其中，时序输入中的短程特征由原始帧级特征与原始短程特征相加得到；长程特征由新的短程特征与原始长程特征相加得到；最后，通过对帧级特征、新的短程和长程特征沿通道维度进行融合得到两个时序建模层的输入特征。

具体实现过程如下：

首先进行整体自适应时序建模（holistic adaptive temporal modeling,HATM）：

其中，Concat(·)指的是沿通道维度的拼接函数，LR(·)是LeakReLU激活函数，Conv (·)为卷积操作，FC(·)为全连接操作；通过对聚合多尺度特征后得到的特征F _t进行时间重要性评估计算进而得到时间权重W _t；最后将时间权重W _t与聚合特征F _t进行加权计算进而得到整体自适应时序特征F _HATM，⊙表示乘积运算，l和k表示第k帧和第l个序列；

为第l个序列中第k帧的时序特征、

为第l个序列中第k帧的权重；

水平金字塔时序建模（horizontal pyramid temporal modeling, HPTM）：

其中，Maxpool(·)表示全局最大池化操作，Avgpool(·)表示全局平均池化操作，Concat ^h(·)指的是沿特征高度进行拼接操作，h表示特征图的高度，

表示沿高度维度划分的特征，1≤j≤h；MCM(·)指的是微动作捕捉模块，用来提取身体各部分之间的时序关联F _HPTM；最终，将整体和部分的时序特征进行融合得到完整的时序特征F _HPTA= Concat(F _HATM， F _HPTM)，Concat(·)指的是沿通道维度进行拼接操作。

请见图6，本实施例的视角投影预测学习模块包括第一最大值Max操作层、第二最大值Max操作层、Avgpool池化层、全连接操作层、第三最大值Max操作层和最佳视角查找层，首先对输入的融合后的多尺度特征通过第一最大值Max操作层进行最大值Max操作得到多视角特征；然后使用第二最大值Max操作层，Avgpool池化层及全连接操作层对输入的融合后的多尺度特征进行计算，得到视角矩阵，接着使用第三最大值Max操作层从视角矩阵中得到视角值最大的索引，最后最佳视角查找层通过索引从多视角特征中选取最佳视角特征。

具体实现过程如下：

其中，Avgpool(·)表示全局平均池化操作，Concat(·)指的是沿通道维度的拼接函数，FC为全连接操作；将聚合后的多尺度特征进行计算得到视角特征F _v，然后对这些视角特征F _v进行视点概率预测和最大视点概率预测，获得概率预测值P _view；最后，选取概率预测值最大的视角下特征作为补足信息，进而缓解识别过程中视角变化带来的影响；其中∆ (·)表示加权求和运算，⊙表示乘积运算；

分别表示视角权重和视角偏置。

本发明采用的基于多特征聚合的跨视角步态识别网络，为训练好的基于多特征聚合的跨视角步态识别网络；训练过程中，采用三元损失函数和标准的交叉熵损失函数对基于多特征聚合的跨视角步态识别网络进行训练，训练过程中选取Adm优化器对梯度进行优化。

本发明通过整体和部分时间聚合策略，从全局和局部两方面提取身体动作描述符，获取人体完整且独特的运动模式，使得提取的特征具有更强的鉴别力；考虑到复杂环境下的遮挡问题，本发明利用空间特征重组评估策略，从步态序列中选择身体最显著特征区域，重建高质量的外观特征；为了应对视角变化带来的不利影响，本发明通过视图投影预测学习策略，明确地将最佳视图特征作为补充信息嵌入到特征识别过程中，增强识别过程中的视图稳定性。本发明在满足识别准确率的同时，提升了对遮挡及视角变化的鲁棒性，满足了复杂条件下精确、鲁棒步态识别的需求。

应当理解的是，上述针对实施案例的描述较为详细，并不能因此而认为是对本发明专利保护制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于多特征聚合的跨视角步态识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于多特征聚合的跨视角步态识别方法，其特征在于：步骤1中所述对输入视频进行预处理操作，具体实现包括以下子步骤：

步骤1.1：对视频进行切分操作，将视频片段切割为单帧；

步骤1.2：对步骤1.1中处理后的单帧图像裁剪为指定尺寸大小；

步骤1.3：对步骤1.2裁剪后的图像进行数据增广处理。

3.根据权利要求1所述的基于多特征聚合的跨视角步态识别方法，其特征在于：所述空间特征评估模块，用于根据输入的多尺度特征，提取身体各部位最显著特征，实现重组高质量的外观特征；

具体实现过程如下：

表示评估特征，

4.根据权利要求1所述的基于多特征聚合的跨视角步态识别方法，其特征在于：所述空间特征评估模块，所述整体和部分时间聚合模块，用于根据输入的多尺度特征，从全局和局部两方面提取身体运动描述符，学习人体的独特运动模式；

具体实现过程如下：

首先进行整体自适应时序建模：

为第l个序列中第k帧的时序特征、

为第l个序列中第k帧的权重；

水平金字塔时序建模：

表示沿高度维度划分的条带特征，1≤j≤h；MCM(·)指的是微动作捕捉模块，用来提取身体各部分之间的时序关联F _HPTM；最终，将整体和部分的时序特征进行融合得到完整的时序特征F _HPTA= Concat (F _HATM， F _HPTM)，Concat(·)指的是沿通道维度进行拼接操作。

5.根据权利要求1所述的基于多特征聚合的跨视角步态识别方法，其特征在于：所述视角投影预测学习模块，用于根据输入的多尺度特征，提取最佳视图特征作为特征识别过程中的补充信息；

具体实现过程如下：

其中，Avgpool(·)表示全局平均池化操作，Concat(·)指的是沿通道维度的拼接函数，FC为全连接操作；将聚合后的多尺度特征进行计算得到视角特征F _v，然后对这些视角特征F _v进行视点概率预测和最大视点概率预测，获得概率预测值P _view；最后，选取概率预测值最大的视角下特征作为补足信息，进而缓解识别过程中视角变化带来的影响；其中∆(·) 表示加权求和运算，⊙表示乘积运算；

分别表示视角权重和视角偏置。

6.根据权利要求1-5任意一项所述的基于多特征聚合的跨视角步态识别方法，其特征在于：所述基于多特征聚合的跨视角步态识别网络，为训练好的基于多特征聚合的跨视角步态识别网络；训练过程中，采用三元损失函数和标准的交叉熵损失函数对基于多特征聚合的跨视角步态识别网络进行训练，训练过程中选取Adm优化器对梯度进行优化。

7.一种基于多特征聚合的跨视角步态识别系统，其特征在于，包括以下模块：

8.一种基于多特征聚合的跨视角步态识别设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至6中任一项所述的基于多特征聚合的跨视角步态识别方法。