CN113435225A

CN113435225A - 一种基于分块水平金字塔时空特征融合模型和步态重排序的跨视角步态识别方法

Info

Publication number: CN113435225A
Application number: CN202010205355.XA
Authority: CN
Inventors: 贲晛烨; 翟鑫亮; 陈雷; 李玉军; 魏文辉; 宋延新
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-03-23
Filing date: 2020-03-23
Publication date: 2021-09-24
Anticipated expiration: 2040-03-23
Also published as: CN113435225B

Abstract

本发明提供了一种基于分块水平金字塔时空特征融合模型和步态重排序的跨视角步态识别方法，包括：获取训练样本集，构建三元组组合，预处理后构建分块水平金字塔时空特征融合模型并训练；获取注册样本集、待识别步态样本，预处理后进行初步步态识别：将注册样本集和待识别身份的步态样本送入训练好的分块水平金字塔时空特征融合模型中得到注册特征库和步态特征，通过欧式距离计算得到初步候选身份的候选集合；根据候选集合，计算互近邻特征集合，输出欧式距离最近的特征所对应的样本的身份为待识别样本的身份，得到最终的识别结果。本发明对时空特征进行融合，能在较低的计算复杂度且不增加学习参数的情况下将时空特征融合到一起，识别率高。

Description

一种基于分块水平金字塔时空特征融合模型和步态重排序的跨视角步态识别方法

技术领域

本发明涉及一种基于分块水平金字塔时空特征融合模型和步态重排序的跨视角步态识别方法，属于深度学习和模式识别技术领域。

背景技术

步态识别是一种利用人的行走姿势进行身份识别的生物识别技术。它依据不同个体间的步态不相同这一特点，根据人们走路姿势的不同来区分个体身份。与现有的生物特征识别技术如人脸识别、指纹识别、静脉识别、虹膜识别等技术相比，步态识别具有低分辨率、受环境影响小、易采集等特点。此外，诸如现有的人脸识别、指纹识别、静脉识别以及虹膜识别等技术，都需要待识别人的接触和配合才可以进行精准的身份识别，而步态识别技术可以在个体非接触、非受控和无察觉的情况下识别目标的身份信息。另外，个体行走姿势也不易模仿和伪装，这些都使得步态识别越来越受到研究人员的关注。

影响步态识别准确率的因素主要包括穿衣戴帽、携带物品、行走速度、注册步态与待识别步态视角存在差异等，其中视角变化对步态识别的影响是最具有挑战性的攻克难题。目前主流的步态识别方法大致可分为两大类：一类是基于模型的方法，这类方法的目的是提取鲁棒的步态特征并避免噪声干扰，全身的变化用一个低维矢量来表征，但是建模及其匹配过程都很复杂；另外一类是基于运动的方法，这类方法避开了建立复杂模型的过程，可以在无需拟合模型参数的情况下表征人体的运动模式。但当摄像机拍摄人行走方向发生变化时，同一人的运动外观会发生显著变化，导致基于运动的步态识别方法表现不佳。

通过观察行人步态特点，行人不同的身体部位对行人身份识别的贡献是不同的，比如现实生活中人们往往仅通过行人走路的腿部运动就可以判断出该目标的身份，而上半身以及头部可以作为辅助部分使识别更加准确。所以，将行人身体进行分块处理可以更加有效地进行步态特征学习。另外，重排序技术已经被证实在身份识别如人脸识别、行人重识别等领域有着优越表现，但是在步态识别中却没有被引入。所以，步态识别初步排序完成后，将候选身份进行重排序会提高步态识别的准确率。

发明内容

针对现有技术的不足，本发明提供一种基于分块水平金字塔时空特征融合模型和步态重排序的跨视角步态识别方法。

发明概述：

一种基于分块水平金字塔时空特征融合模型和步态重排序的跨视角步态识别方法，包括步态样本处理、分块水平金字塔时空特征融合模型训练、初步识别以及步态重排序。

为了避免步态序列尺度不同造成的干扰，将步态样本进行轮廓矫正处理后作为输入数据。为了使提取的步态特征更具有判别能力和鲁棒性，采用分块水平金字塔时空特征融合模型作为特征提取模型。为了改善初步识别的结果，采用步态重排序方法进行二次排序。

术语解释：

注册数据集：是指提前录入的已知标签的样本所构成的数据集，用来与待识别样本进行比对，并把该样本识别为与注册数据集中最接近的那个样本的标签。

本发明的技术方案如下：

一种基于分块水平金字塔时空特征融合模型和步态重排序的跨视角步态识别方法，包括：

(一)获取训练样本集，构建三元组组合，三元组组合包括锚样本、正样本、负样本，锚样本的视角为某一视角，正样本的视角与锚样本视角不同且正样本身份与锚样本身份相同，负样本的视角为任意视角且与锚样本的身份不同；

A、对训练样本的步态轮廓图进行预处理

对步态轮廓图进行轮廓矫正，以避免因行人距离摄像头距离的不同所造成的干扰；

将矫正后的步态轮廓图进行尺寸调整；

B、分块水平金字塔时空特征融合模型构建及训练

构建分块水平金字塔时空特征融合模型；所述分块水平金字塔时空特征融合模型包含分块水平金字塔网络和时空特征融合两个部分，其中第一部分将步态轮廓图样本分成单幅图像进行二维空间图像下的初步特征提取，第二部分将第一部分得到的不同分块以及不同帧的特征进行时空特征融合以得到该步态轮廓图样本的最终特征表达；

训练分块水平金字塔时空特征融合模型以得到判别能力强的特征提取模型；

(二)获取某一视角的注册样本集、另一视角的待识别步态样本，对两个样本的步态轮廓图进行预处理，所述预处理包括轮廓矫正、尺寸调整；

C、初步识别

根据训练好的分块水平金字塔时空特征融合模型，将预处理过的注册样本集送入模型中，得到该视角下的注册特征库；将待识别身份的步态轮廓图样本送入训练好的分块水平金字塔时空特征融合模型中得到步态特征，将步态特征与注册特征库中的每个特征进行欧式距离计算得到初步候选身份的候选集合；

D、步态重排序

根据候选集合，计算互近邻特征集合，输出欧式距离最近的特征所对应的样本的身份为待识别样本的身份，得到最终的识别结果。

本发明分块水平金字塔时空特征融合模型包含分块水平金字塔网络和时空特征融合两个部分，其中第一部分将步态序列样本分成单幅图像进行二维空间图像下的初步特征提取，第二部分将第一部分得到的不同分块以及不同帧的特征进行时空特征融合以得到该步态序列样本最终的特征表达。最后，在识别阶段，本发明将待查询身份的步态样本送入训练好的分块水平金字塔时空特征融合模型，得到步态特征后与注册数据集的特征进行比对，得到候选身份排序结果，再经过步态重排序，输出最终的识别结果。

优选的，步骤A中，步态轮廓图为实际场景中摄像头采集到行人视频后进行分割得到的步态轮廓图，或做实验时采用CASIA-B数据库提供的步态轮廓图。

根据本发明优选的，所述步骤A，步态轮廓图预处理，给定包含N个行人V种视角变化的步态数据集

表示数据集中第i个人的第v种视角的步态序列，

是

中的第j帧步态轮廓图，其中j＝1,2,…,n_i,v，n_i,v表示该步态序列的长度，包括：

a、读取每个步态序列，将包含行人的部分置于每帧图像的中心，并使头部置顶到图像的上部边缘，脚步置底到图像的下部边缘；

b、将步骤a得到的矫正后的步态序列都调整成相同的图像大小W×H，得到最终处理好的行人轮廓图，作为分块水平金字塔时空特征融合模型的输入。

根据本发明优选的，所述步骤B，分块水平金字塔时空特征融合模型构建及训练，包括：

c、对于每一帧行人轮廓图，先将其水平划分为R个区域，表示为

那么分块水平金字塔特征可以表示为：

上式中，

表示图像

的第r个分块区域，r＝1,2,…,R；F(·)表示由二维卷积神经网络构成的深度特征提取器，共包括六个卷积层及两个池化层，其具体网络结构参数如表1所示，本发明中深度特征提取器的网络结构是固定的，不会根据输入调整，每个分块独立学习不共享参数；H_K(·)表示K阶水平金字塔池化函数，它是将输入特征图沿着水平方向分别划分为2⁰,2¹,…,2^K个带状空间，总计M个带状空间，

如附图1所示，然后对于每个带状空间分别进行水平金字塔池化，即计算其平均值和最大值的和，最后经过一层全连接操作后作为这个带状空间的特征表达；

表示第r个分块的水平金字塔特征，即为初步特征，其中

表示一个l维的特征列向量；

表1深度特征提取器(F)网络参数

名称	核大小	步幅	填充	输出通道数
					Conv-1	5×5	1	2	32
Conv-2	3×3	1	1	32
					Pool-1	2×2	2	0	32
Conv-3	3×3	1	1	64
					Conv-4	3×3	1	1	64
Pool-2	2×2	2	0	64
					Conv5	3×3	1	1	128
Conv6	3×3	1	1	128

d、根据步骤c得到的每个分块的初步特征，以不同分块权重拼接的方式进行空间特征融合，得到一帧完整行人轮廓图的特征，具体表达如下：

其中p₁,p₂,…,p_R表示可学习的不同分块的权重，

是一个l*R维的向量；

e、根据步骤d得到的空间特征融合后的一帧完整行人轮廓图的特征表达，以最大步态能量表示的方式提取整个步态序列的时空特征，具体操作如下：对于一个长度为n_i,v的步态序列，经过步骤d每一帧进行空间特征融合后得到的此步态序列的特征集合为

则该步态序列的时空特征

为：

其中EleMax表示对应位置元素取最大值，

为最终特征，

表示一个l*R维的特征向量；得到分块水平金字塔时空特征融合模型，根据此模型，可提取锚样、正样本、负样本的步态特征；

f、根据步骤c、d、e所构建的分块水平金字塔时空特征融合模型，初始化模型参数，以减小三元组损失L_triplet作为训练目标，训练分块水平金字塔时空特征融合模型，损失函数如下:

上式中，其中d表示欧式距离度量函数，

表示第i个人第v种视角的步态序列

的特征，

表示第i个人第v′种视角的步态序列

的特征，

表示第j个人第v″种视角的步态序列

的特征，α表示余量(Margin)。由公式(4)可以看出，模型优化的目的是让同一行人不同视角的样本特征之间的距离越小越好，而不同行人之间的距离越大越好，以此实现跨视角步态识别。

根据本发明优选的，所述步骤C，初步识别，包括：

g、根据训练好的分块水平金字塔时空特征融合模型，将视角为v的注册数据集的数据经步骤a和步骤b后送入模型中，得到视角为v的注册特征库；

h、将待识别身份的视角为v′的步态样本q经过步骤a和步骤b后送入训练好的分块水平金字塔时空特征融合模型中得到步态特征

通过与步骤g得到的视角为v的注册特征库中每个特征进行欧式距离计算，进而得到距离最小的前s个特征集合

作为候选集合。

根据本发明优选的，所述步骤D，步态重排序，包括：

i、根据步骤h所得到候选集合，计算特征

的互近邻特征集合，计算方法如下：

上式中，

为

在步骤g得到的注册特征库(除去

本身)以及

之中计算欧式距离后得到的距离最小的前s个特征；

j、从步骤i得到的互近邻特征集合MutualNear(q,s)中找出与

的欧式距离最近的特征，输出该最近的特征所对应样本的身份，完成识别。

本发明的有益效果在于：

1、本发明所涉及的分块水平金字塔模型，将人体分块后经过水平金字塔提取空间特征，可以学习到行人不同身体部分对识别的贡献大小，有助于识别率和鲁棒性的提高。

2、本发明所涉及的时空特征融合方法，能够以可学习地方式为不同分块的特征分配相应地权重，并采取最大步态能量表示方法对时空特征进行融合，能够在较低的计算复杂度且不增加学习参数的情况下将时空特征很好地融合到一起。

3、本发明采用互近邻策略对初步识别结果进行重排序调整，提高了识别过程中目标的匹配精度。

附图说明

图1为本发明中的分块水平金字塔网络流程图；

图2为本发明一种基于分块水平金字塔时空特征融合模型和步态重排序的跨视角步态识别方法流程图。

具体实施方式

下面通过实施例并结合附图对本发明做进一步说明，但不限于此。

实施例1：

(一)获取训练样本集，构建三元组组合，三元组组合包括锚样本、正样本、负样本，锚样本的视角为某一视角，正样本的视角与锚样本视角不同且正样本身份与锚样本身份相同，负样本的视角为任意视角且与锚样本的身份不同；如图1所示：

A、步态轮廓图预处理，对步态轮廓图进行轮廓矫正，以避免因行人距离摄像头距离的不同所造成的干扰；将矫正后的步态轮廓图进行尺寸调整；

给定包含N个行人V种视角变化的步态数据集

表示数据集中第i个人的第v种视角的步态序列，

是

B、分块水平金字塔时空特征融合模型构建及训练

构建分块水平金字塔时空特征融合模型；所述分块水平金字塔时空特征融合模型包含分块水平金字塔网络和时空特征融合两个部分，其中第一部分将步态轮廓图样本分成单幅图像进行二维空间图像下的初步特征提取，第二部分将第一部分得到的不同分块以及不同帧的特征进行时空特征融合以得到该步态轮廓图样本的最终特征表达；训练分块水平金字塔时空特征融合模型以得到判别能力强的特征提取模型；

包括：

那么分块水平金字塔特征可以表示为：

上式中，

表示图像

表示第r个分块的水平金字塔特征，即为初步特征，其中

表示一个l维的特征列向量；

表1深度特征提取器(F)网络参数

其中p₁,p₂,…,p_R表示可学习的不同分块的权重，

是一个l*R维的向量；

则该步态序列的时空特征

为：

其中EleMax表示对应位置元素取最大值，

为最终特征，

上式中，其中d表示欧式距离度量函数，

表示第i个人第v种视角的步态序列

的特征，

表示第i个人第v′种视角的步态序列

的特征，

表示第j个人第v″种视角的步态序列

C、初步识别

根据训练好的分块水平金字塔时空特征融合模型，将预处理过的注册样本集送入模型中，得到该视角下的注册特征库；将待识别身份的步态轮廓图样本送入训练好的分块水平金字塔时空特征融合模型中得到步态特征，将步态特征与注册特征库中的每个特征进行欧式距离计算得到初步候选身份的候选集合；包括：

h、将待识别身份的视角为v′的步态样本q经过步骤a和步骤b后送入训练好的分块水平金字塔时空特征融合模型中得到特征

作为候选集合。

D、步态重排序

根据候选集合，计算互近邻特征集合，输出欧式距离最近的特征所对应的样本的身份为待识别样本的身份，得到最终的识别结果。包括：

i、根据步骤h所得到候选集合，计算特征

的互近邻特征集合，计算方法如下：

上式中，

为

在步骤g得到的注册特征库(除去

本身)以及

之中计算欧式距离后得到的距离最小的前s个特征；

j、从步骤i得到的互近邻特征集合MutualNear(q,s)中找出与

本实施例中，在训练阶段，将输入步态轮廓图的大小W×H设置为64×44，并设置分块水平金字塔分块数R＝3，金字塔阶数K＝3，所以对于每个步态序列最终会得到2⁰+2¹+2²+2³＝15个特征表达。选择Adam作为神经网络的优化器，使用Adam优化器会使模型收敛速度较快，Adam优化器的学习率设置为1e-4。三元组损失的余量α设置为0.2。迭代次数为30K次，批量大小设置为8个行人，其中每个行人取8个视角的步态序列。在测试阶段，步态识别重排序的互近邻算法中的k值设置为5。

为了验证本发明一种基于分块水平金字塔时空特征融合模型和步态重排序的跨视角步态识别方法的先进性，将本发明与现有10种先进步态识别方法进行比较，包括GEI、MFA、C3A、CMCC、VTM+QM、SVD、SVR、MvDA、Deep CNNs以及CPA。这些方法所涉及的超参数设置均采用各自方法的推荐值。由于CASIA-B数据库所涵盖的视角较为全面，本发明在CASIA-B数据集上对跨视角识别任务进行了充分的实验。表2到表12列出了在CASIA-B数据库上取得的实验结果，分别展示了不同方法在0°到180°查询视角下各个角度的识别率。可以看出，本发明的方法在多数情况下都能够取得最好的识别结果，并且都超过了80％的识别精度。特别是在所跨角度较大的情况下，如查询视角为0°注册视角为90°的极端情况下，本章方法比其他所有方法的识别率要高很多。

表2不同方法在CASIA-B数据库上的实验结果(0°查询视角)

表3不同方法在CASIA-B数据库上的实验结果(18°查询视角)

表4不同方法在CASIA-B数据库上的实验结果(36°查询视角)

表5不同方法在CASIA-B数据库上的实验结果(54°查询视角)

表6不同方法在CASIA-B数据库上的实验结果(72°查询视角)

表7不同方法在CASIA-B数据库上的实验结果(90°查询视角)

表8不同方法在CASIA-B数据库上的实验结果(108°查询视角)

表9不同方法在CASIA-B数据库上的实验结果(126°查询视角)

表10不同方法在CASIA-B数据库上的实验结果(144°查询视角)

表11不同方法在CASIA-B数据库上的实验结果(162°查询视角)

表12不同方法在CASIA-B数据库上的实验结果(180°查询视角)