CN109583298B

CN109583298B - 基于集合的跨视角步态识别方法

Info

Publication number: CN109583298B
Application number: CN201811255446.3A
Authority: CN
Inventors: 巢汉青; 张军平
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2018-10-26
Filing date: 2018-10-26
Publication date: 2023-05-02
Anticipated expiration: 2038-10-26
Also published as: CN109583298A

Abstract

本发明属于计算机视觉和机器学习技术领域，具体为一种基于集合的跨视角步态识别方法。本方法可以使用很少的帧数得到较高的识别结果，并能融合同一个人不同角度、不同衣着配饰的帧从中抽取鲁棒的身份信息。对于一个行人，用其所有视频中的所有帧组成一个集合；将这些帧做预处理，对每帧提出轮廓图并对齐；然后用神经网络对集合中的每一帧分别提取高层语义特征；接着融合每一帧的语义特征得到整个集合的语义特征；最后将集合的语义特征映射进一个具有判别力的空间用于身份识别。相较于基于目前主流的基于模板的步态识别方法和近年发展出的基于视频的步态识别方法，本方法在解决现实问题中使用更加灵活，能充分利用所有信息，并取得最优的识别效果。

Description

基于集合的跨视角步态识别方法

技术领域

本发明属于计算机视觉、机器学习技术领域，具体涉及基于视频的跨视角步态识别方法。

背景技术

基于视频的跨视角步态识别问题是计算机视觉和机器学习领域研究的问题之一。当给定不同视角下的步态视频帧序列，要求根据计算机视觉或机器学习算法判断步态帧序列的主体是否为同一个对象。目前该领域已经有不少前人工作，根据看待步态信息视角的不同，其主要方法可以分为两大类：基于步态模板图的方法和基于步态视频序列的方法。以下是这三类方法的一些参考文献：

[1]Han,J.,and Bhanu,B.2006.Individual recognition using gait energyimage.IEEE TPAMI 28(2):316–322.

[2]He,Y.；Zhang,J.；Shan,H.；and Wang,L.2019.Multi-task GANs for view-specific feature learning in gait recognition.IEEE TIFS 14(1):102–113.

[3]Hu,M.；Wang,Y.；Zhang,Z.；Little,J.J.；and Huang,D.2013.View-invariantdiscriminative projection for multi-view gait-based human identification.IEEETIFS 8(12):2034–2045.

[4]Liao,R.；Cao,C.；Garcia,E.B.；Yu,S.；and Huang,Y.2017.Pose-basedtemporal-spatial network(ptsn)for gait recognition with carrying and clothingvariations.In Chinese Conference on Biometric Recognition,474–483.Springer.

[5]Makihara,Y.；Sagawa,R.；Mukaigawa,Y.；Echigo,T.；and Yagi,Y.2006.Gaitrecognition using a view transformation model in the frequency domain.InECCV,151–163.Springer.

[6]Shiraga,K.；Makihara,Y.；Muramatsu,D.；Echigo,T.；and Yagi,Y.2016.GEINet:View-invariant gait recognition using a convolutional neuralnetwork.In ICB,1–8.

[7]Takemura,N.；Makihara,Y.；Muramatsu,D.；Echigo,T.；and Yagi,Y.2018.Oninput/output architectures for convolutional neural network-based crossviewgait recognition.IEEE TCSVT 1–1.

[8]Wang,C.；Zhang,J.；Wang,L.；Pu,J.；and Yuan,X.2012.Humanidentification using temporal information preserving gait template.IEEE TPAMI34(11):2164–2176.

[9]Wolf,T.；Babaee,M.；and Rigoll,G.2016.Multi-view gait recognitionusing 3D convolutional neural networks.In ICIP,4165–4169.

[10]Wu,Z.；Huang,Y.；Wang,L.；Wang,X.；and Tan,T.2017.A comprehensivestudy on cross-view gait based human identification with deep CNNs.IEEETPAMI39(2):209–226.

[11]Yu,S.；Chen,H.；Reyes,E.B.G.；and Poh,N.2017a.GaitGAN:Invariant gaitfeature extraction using generative adversarial networks.In CVPR Workshops,532–539.。

第一种基于步态模板图的方法通过预处理将步态信息压缩进一张图片。这部分工作主要集中在模板图生成和根据模板图进行步态识别两个方面。模板图生成主要通过像素级算术平均等方法将一个步态周期序列融合为一张图片，例如GEI[1]和CGI[8]。基于模板图的识别方法中，有一些是例如VTM的工作[5]，它们试图学习各个视角之间的映射从而将一个视角下的模板图投影至另一个视角，最终在同视角下进行身份识别。随着深度学习在图片生成上取得很好效果，这一框架也出现了一些基于深度学习的方法，例如[2,11]。另外一些工作例如ViDP[3]则学习一个视角不变的特征用于身份识别，这类方法中也包含了许多深度学习的方法[6,7,10]。由于模板图很难保留时间信息，同时像素级的计算容易造成视频中细节的丢失，这类基于步态模板图方法的效果有限。

近来，基于深度神经网络的模型在处理视频序列上得到了较大的应用。[4,9,10]直接将步态视频序列作为输入，使用LSTM或3DCNN等深度网络处理视频序列信息。这类方法有两个优势：1)由于直接将视频帧作为输入，它们能提取更加全面的信息；2)由于用了专门的深度网络来处理时序，可以更好的提取时间信息。然而这类网络多数较难训练，同时序的引入使得这类方法对帧率变化，缺帧和步速变化等现实场景中常见的情况很不鲁棒。

发明内容

本发明的目的在于提供一种识别率高、使用灵活且鲁棒的基于集合的跨视角步态识别方法。

本发明提出的跨视角步态识别方法，用一个由任意条件下拍摄的步态帧组成的没有序的集合来描述步态。本发明认为一个人的步态信息是一个分布

一个人的任何情况下拍摄的步态帧都是在

上的一个采样x，

只和身份有关。本发明就是要从采样的集合

中学习具有判别性的

的信息。基于上述假设，本发明对输入的集合没有任何限制，集合中包含的帧数任意，帧的拍摄角度可以不同，帧之间不需要连续甚至可以来自不同视频。这使得本方法较现有的基于步态模板或视频序列的方法更加灵活实用。接下来将分点具体介绍本发明的实现步骤。

一、整体步骤

本发明提出的基于集合的跨视角步态识别方法，具体流程参见图1，包含主流水线，多级全局流水线和水平金字塔映射3个模块。具体步骤为：

(1)输入一个人的步态帧集合

(2)在主流水线中，对于集合中的每一帧轮廓图x_i，用卷积神经网络提取其高层语义特征图v_i；

(3)在主流水线中，对于特征图集合V＝{v₁，v₂，v₃，...，v_n}，用集合池化提取整个集合的特征z_l；

(4)在多级全局流水线中，对主流水线中卷积神经网络不同层得到的特征图，分别用集合池化提取不同层的集合特征，并融合这些集合特征得到集合特征z_g；

(5)对于z_l和z_g，用水平金字塔映射得到62个不同尺度下的判别特征：f₁，f₂，f₃，...，f₆₂；

(6)拼接62个判别特征，得到判别特征F，用F进行身份识别。

上述步骤为模型在使用时或测试时的步骤，而在模型训练过程中步骤略有不同，训练使用Adam算法：

(1)从整个训练集中随机选取p个人，再从这p个人的训练样本中每人随机选出k个视频序列，组成p×k大小的一批数据；

(2)对于一批数据中的每个视频序列，随机抽取n帧组成用于输入的集合：

其中n是训练时的模型超参数，即最终用于一批次训练的数据为p×k个集合，具体可以取n＝30；

(3)-(6)步同上述模型使用过程中的(2)-(5)步；

(7)根据三元损失的定义，使用一批训练样本组成组三元组，共组成pk(pk-k)(k-1)组；

(8)对于每个三元组，用样本对应的f_i计算出62个损失L_i′，并对他们求和得到一个三元组的损失

(9)对所有非0的三元组损失求平均得到总损失L＝∑_L′＞0L′,用总损失训练整个网络。

二、主流水线

主流水线是集合特征提取的主要部分，首先使用一组共享参数的深层卷积神经网络独立的对输入集合中的每一帧提取高层语义信息。再用集合池化将每帧的高层语义信息融合为一个能描述集合特征的张量。其中，所用的卷积神经网络共有8层，从输入到输出顺序为卷积层SC_1，卷积层SC_2，池化层SP_1，卷积层SC_3，卷积层SC_4，池化层SP_2，卷积层SC_5，卷积层SC_6。

三、集合池化

集合池化的目的是将每帧的特征融合，得到一个集合的特征。因此，这是一个从集合到张量的映射。为了保持集合给本发明带来的优势，这一映射必须满足两个性质：1)排序不变性，这一性质保证映射的输入是一个集合而不是一个序列；2)映射需要可以接收任意视角的集合作为输入，以保证实用性。根据这两个优势，本发明提出了3种集合池化的实现方式。他们的输入相同，均为一个4维张量(n×c×h×w：集合维，特征图通道，特征图高，特征图宽)V，输出也相同，均为一个3维张量(c×h×w)。三种实现方式具体为：

(1)最大池化：在集合维度取最大值，输出一个3维张量(c×h×w)；

(2)加权融合池化，具体步骤为：

(a)在集合维度分别取最大、平均和中位数得到3个3维张量x_max，x_mean和x_median；

(b)在特征图通道维拼接3个张量得到一个3×c×h×w的特征图z′；

(c)对z′，输入一个1×1卷积得到最终c×h×w的特征图z；

(3)注意力池化，具体步骤为：

(b)复制上述3个3维张量n份并在特征图通道维和V拼接，得到一n×3c×h×w的张量V′，并输入一个1×1卷积得到一个n×c×h×w的注意力掩模a；

(c)利用下式计算最终的特征图z：

z＝∑V×(a+1)，

其中，求和项作用于集合维。

四、水平金字塔映射

在步态中，有助于身份识别的信息分布在不同尺度上。比如行走过程中整个人有规律的左右晃动是一个较大尺度的特征，而人走路时肩膀的倾斜情况则是一个较小尺度的特征。如果仅用一个向量来描述步态，很难同时兼顾各个尺度的特征。水平金字塔映射旨在最大程度保持低计算量的同时让模型关注到不同尺度的特征。示意图见图2，其输入为一个3维张量(c×h×w：特征图通道，特征图高，特征图宽)z，具体步骤为：

(1)对特征图z进行多尺度分割，尺度总数为

为超参数，实验中，取

(2)对于一个尺度

将特征图z在特征图高维上平均分割为2^s份3维张量，因此总共得到

个3维张量f″；

(3)对于每个f″，用下式进行映射：

f＝FC(GAP(f″)+GMP(f″))，

其中，GAP(·)是作用在特征图高和特征图宽维的全局平均函数，GMP(·)是作用在特征图高和特征图宽维的全局最大函数，FC(·)是一个全连接映射。

五、多级全局流水线

在多层卷积神经网络中，一般认为浅层的特征描述了细节信息，比如边界、轮廓，而深层的特征描述了更加抽象的概念比如猫或狗。在主流水线中，只对神经网络最后的输出做了集合池化操作来获得集合信息，这可能会导致一些细节信息的丢失。如图1所示，多级全局流水线目的在于弥补这一不足，从不同层次提取集合信息并进行融合。具体步骤为：

(1)其为一个5层卷积神经网络从输入到输出顺序为卷积层GC_1，卷积层GC_2，池化层GP_1，卷积层GC_3，卷积层GC_4；

(2)对主流水线中SP_1，SP_2和SC_6层的结果，用集合池化得到集合特征z_l1，z_l2和z_l；

(3)将z_l1作为GC_1层的输入，GP_1层的输出加上z_l2作为GC_3层的输入；

(4)将GC_4层的输出加上z_l得到最终输出z_g。

本发明方法具有很高的识别率，具有很高鲁棒性。本发明对输入的集合没有任何限制，这使得本方法较现有的基于步态模板或视频序列的方法更加灵活实用。

附图说明

图1：本发明的详细模型流程图。

图2：水平金字塔映射示意图。

图3：CASIA-B数据集示意图。

图4：OU-MVLP数据集示意图。

图5：识别性能随输入集合势变化曲线。

图6：本发明方法流程图示。

具体实施方式

介绍了本发明的具体步骤和模型之后，下面展示该发明在几个步态数据集的测试效果。

实验采用两个数据集，包括OU-MVLP数据集和CASIA-B，图3和图4展示了这两个数据集的一些样例。

OU-MVLP数据集是目前规模最大的多角度步态数据集，一共有10307个不同的人，每个人有14个视角(0°，15°，...，90°；180°，195°，...，270°)，每个视角有2个视频序列(#00-01)。这其中，5153个人的视频序列被作为训练集，剩下5154个人的视频序列被作为测试集。测试中#01序列被作为画廊集，#00序列被作为探针样本。本发明应用在此数据集时SC_1和SC_2层卷积输出通道数设为64；SC_3，SC_4，GC_1和GC_2层卷积输出通道数设为128，SC_5，SC_6，GC_3和GC_4层卷积输出通道数设为256。训练本发明的模型时批样本中p＝32，k＝16。

CASIA-B数据集一共有124个不同的人(#001-124)，11个不同的视角(0°，18°，...，180°)。其中，每个人在每个视角上有6组正常行走(NM)的步态序列(#01-06)，2组背着包(BG)行走的步态序列，2组穿的外套(CL)的步态序列。此数据集没有区分训练集和测试集，为了能和各种已有方法对比，实验使用了2种常见的划分方式：1)小训练集：前62个人的样本用作训练(#001-062)，后62个人的样本用作测试(#063-124)；2)大训练集：前74个人的样本用作训练(#001-074)，后50个人的样本用作测试(#075-124)。在所有实验设置的测试集中，每个人的NM#01-04被用作画廊集，其他6个序列按行走状态不同分为3个子集(NM，BG，CL)被用作探针样本。CASIA-B相比0U-MVLP数据量较小，本发明应用在此数据集时使用通道数较少的卷积层，SC_1和SC_2层卷积输出通道数设为32；SC_3，SC_4，GC_1和GC_2层卷积输出通道数设为64，SC_5，SC_6，GC_3和GC_4层卷积输出通道数设为128。训练本发明的模型时批样本中p＝8，k＝16。

实验使用Rank-1识别准确率作为性能指标。通过对整体步骤中第6步得到的F使用最近邻分类器来进行识别。如未特殊说明：1)模型中的集合池化默认选择最大池化方式，2)实验采用CASIA-B数据集并用大样本集训练，3)CASIA-B上的实验用#NM05-06做探针集。

实施例1：基于集合的步态识别方法识别性能

这部分实验展示了不同的模型，在跨视角下识别准确率。作为对比方法，我们选择了之前工作中取得最有效果或有代表性的模型。在OU-MVLP上有GEINet和Input/Output卷积网络2个模型，在CASIA-B上有生成对抗网络、自编码器、多任务生成对抗网络和卷积神经网络4种模型。表1展示了在OU-MVLP数据集上本发明的方法和其他方法比较。表2展示了在CASIA-B数据集上两个实验设置下本发明的方法和其他方法比较。可以看到，本发明相比其他方法有很大的提升。

实施例2：不同集合池化操作对识别准确率的影响

表3展示了使用3种不同集合池化操作时，模型的性能变化。可以看到，3种集合池化操作分别在NM，BG和CL上取得了最好效果且最大池化和注意力池化效果差别很小。本实验中为了是效过更加明显，没有使用多级全局流水线。

实施例3：输入集合包含帧数对识别准确率的影响

图5展示输入集合势改变，即包含帧数变化时，模型性能的变化趋势。从图中的曲线可以得出两个结论：1)本发明确实学习的是运动的步态而非静态的其他特征，因为图片越多准确率有明显提升；2)本发明具有很高鲁棒性，当帧数达到7帧时准确率就已超过82％。

实施例4：多角度输入对识别准确率的影响

表4展示当输入集合中包含两个角度时的模型识别的准确率。可以看到本发明很好的融合集合中包含的不同角度的信息并提升识别率。当两个角度差越大，包含的信息差异越大，集合的总信息量越大识别率也就越高，仅用10帧就可以在角度差达到36°时达到90.6％的识别率。

表1：OU-MVLP上不同方法下的识别准确率(％)

表2：CASIA-B上不同方法下的识别准确率(％)

表3：不同集合池化操作下的模型识别准确率(％)

	NM	BG	CL
				最大池化	93.2	84.7	70.2
加权融合池化	93.3	85.7	66.3
				注意力池化	93.7	84.2	69.4

表4：多角度输入对识别准确率的影响

视角差	18°&162°	36°&144°	54°&126°	72°&108°	90°	单视角
							所有帧	97.0	97.9	98.7	99.1	99.0	95.0
10帧	87.9	90.6	92.7	93.7	93.7	87.7

。