CN114120076A

CN114120076A - 基于步态运动估计的跨视角视频步态识别方法

Info

Publication number: CN114120076A
Application number: CN202210081840.XA
Authority: CN
Inventors: 钟孝云; 邹勤; 陈龙; 邱雁成; 王中元
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2022-03-01
Anticipated expiration: 2042-01-24
Also published as: CN114120076B

Abstract

本发明设计了一种基于步态运动估计的跨视角视频步态识别方法，特别是增加对视频步态运动的预测和对多视角步态特征的融合，和对多方向特征。提出一种步态图像分割方法和步态运动估计方法，同时提取步态空间与时序特征，结合对抗学习训练策略，研究和探索出一种基于步态运动估计的跨视角视频步态识别方法。所发明的方法，其输入为一个视频中多帧连续的步态图像序列，输出为对步态特征分类的标签。提高步态身份识别的准确度。

Description

基于步态运动估计的跨视角视频步态识别方法

技术领域

本发明涉及人工智能领域，具体涉及一种基于步态运动估计的跨视角视频步态识别方法。

背景技术

步态识别是指通过人的行走方式来识别或验证人的身份，它可以为信息系统登入提供安全保护。与其他生物特征识别技术相比，步态识别具有可以远距离实施、无需被识别者配合等优点。基于上述优势，步态识别技术对于区域访问控制、安防监控、刑事调查等多个应用方向都具有重要意义。

随着卷积神经网络的发展，基于深度学习的方法已被广泛应用于步态识别研究，借用神经网络强大的拟合能力，这些方法取得了较好的成果。现有基于深度学习的步态识别技术大多采用步态能量图（Gait Energy Image, GEI）作为神经网络训练和检测的输入特征。步态能量图提取方法简单，也能很好的表现步态的速度，形态等特征。但目前的视频步态识别系统存在以下问题。

首先，使用步态能量图作为步态特征缺少时序信息，难以有效地利用步态侧影间连续的时序特征。步态特征预处理提取时，首先利用图像分割技术从采集的视频帧中提取人物的侧影，图像分割技术的优劣决定了输入图像特征的质量。而来自同一段视频的不同帧的侧影间在时序上存在紧密联系。通过提取和分析不同视频帧之间步态特征的联系与差异，能够估计多角度步态的运动规律，从而充分利用步态侧影间的时序信息与多角度步态之间的联系，提高步态识别的准确率。因此，开展针对视频步态运动估计的高精度步态识别方法研究，具有重要的现实意义。

另外，现有的基于深度学习的视频步态识别技术主要关注于单一方向的步态识别，例如侧面、正面或背面，如何使采用单一方向视频训练得到的模型适配于其他方向的视频的步态识别，即实现跨视角的步态识别，是一个非常难的问题。在实际应用中，跨视角的步态识别具有非常迫切的行业需求。

针对以上问题，本发明提出了一种基于步态运动估计的跨视角视频步态识别方法。本发明提出一种步态图像分割方法和步态运动估计方法，同时提取步态空间与时序特征，结合对抗学习训练策略，研究和探索出一种基于步态运动估计的跨视角视频步态识别方法。

发明内容

本发明为了提高步态身份识别的准确度，特别是增加对视频步态运动的预测和对多视角步态特征的融合，和对多方向特征，提出了一种基于步态运动估计的跨视角视频步态识别方法及系统。所发明的方法，其输入为一个视频中多帧连续的步态图像序列，输出为对步态特征分类的标签。

本发明的基于步态运动估计的跨视角视频步态识别方法包含以下步骤：

步骤S1，构建步态图像分割深度学习网络，用于提取图像中的人物前景目标；

步骤S2，同步采集多人多方向的步态视频图像数据集，利用步态视频图像数据集对步骤S1构建的深度学习网络进行训练，得到步态前景分割模型；

步骤S3，构建基于GAN网络的步态运动估计网络，该网络包含一个步态运动估计编码-解码网络生成器和多个判别器；所述生成器输入为一个视角的n张连续步态序列图像，输出为m个不同视角的第n+1张步态预测图像；所述判别器的个数为m，各判别器输入数据为上述生成器输出的单角度步态预测图像和该角度对应的真实步态图像，输出为真或假的标签，其中，n大于等于2，m大于等于4；

步骤S4，利用步骤S2步态前景分割模型分割后的步态图像对步骤S3构建的深度学习网络进行训练；

步骤S5，构建用于步态身份识别的深度学习网络，该网络包括步态特征提取网络和LSTM网络；其中步态特征提取网络为步骤S4中训练所得生成器中的编码网络，利用该编码网络进行连续步态图像的步态特征提取；LSTM网络的输入数据为编码器提取的步态特征，输出为类别标签；

步骤S6，利用步骤S2处理后的视频步态数据集对步骤S5构建的深度学习网络进行训练；

步骤S7，利用步骤S6训练好的模型进行步态身份识别。

进一步地，所述步态图像分割深度学习网络W-Net网络，包括编码-解码网络和特征融合模块；其中，编码网络阶段输入数据为步态图像视频帧，并利用卷积层和池化层提取特征；解码阶段输入数据为编码模块的输出，利用反卷积重现图像分类后特征并还原尺寸；特征融合模块将不同层生成的特征图像进行融合；其中，特征融合层将编码模块与解码模块进行连接，同时各个特征融合层纵向连接，以最后一层特征融合层的输出作为提取的步态特征。

进一步地，所述步骤S1采用特征融合模块，将编码网络的每个池化层前的卷积层输出与相应解码网络部分最后的卷积层输出相融合；所述步骤S1中编码-解码网络采用池化索引保存特征细节。

进一步地，步骤S2的具体过程为：

S2-1，采用N个样本进行训练，每个样本包含一张原始步态图像和其对应的真实前景掩模图，其中

代表第c张图像，

代表该图像的真实前景掩模，T表示图像中像素的总数，故由步骤S1-3得到的融合图像特征可表述为：

其中，

为第i个像素值；

步骤S2-2，对上一步计算得出的融合图像特征和真实图像标签进行交叉熵损失计算；网络在训练时各编码、解码、融合层训练的参数，采用随机法进行初始化。设W为网络中参数权重值，F _i是融合特征图在像素i的输出值，P(.)表示计算联合概率，则对像素点i计算交叉熵损失为：

则对整张步态分割图像的所有像素点计算交叉熵损失，得到总损失L为：

。

进一步地，所述步骤3的具体过程如下：

S3-1，将连续的步态特征图像输入步态运动估计生成网络，经过生成网络的编码网络，输出1个融合的步态特征F _gait；

S3-2，将上一步提取的步态特征输入生成网络的解码网络，使得该特征经过多次上采样和反卷积操作，并与编码阶段对应的特征进行融合，最终得到m张不同角度的与输入图片大小相同的输出步态图片，作为网络估计第n+1张步态图片的结果；

S3-3，将上一步预测图像或真实第n+1张图片选择其一输入到判别层网络，判别器对输入图片进行卷积特征提取，并最终输出判别器的判断结果，即或真或假的标签；

S3-4，将上一步各个判别器输出进行加权求和，其中对与输入步态图像视频帧角度相同的判别器和方向不同的判别器分别配置权重，加权求和后得到最终标签值。

进一步地，所述步骤S4的过程如下：

将n张连续的时序步态图像I _t1与I _t2输入网络，网络生成预测的m个不同角度的第n +1张步态图像

；得到第i个角度的步态运动估计生成网络的L1 距离损失函数为：

S4-2，单个判别分支将真实的下一张图像

或者生成网络预测的生成图像

作为输入，输出真或假的标签值；增加了L1距离损失函数的单一判别器损失函数定义如下：

其中，D表示判别器的输出值，λ是对L1损失的系数，用于设置L1损失的权重，T表示输入判别器的图片，t用于表示输入判别器的图片I是生成器生成值或者的真实值；

S4-3，对m个不同角度的损失函数进行加权求和；若第d个角度为输入步态图像的角度，则网络总损失函数定义如下：

其中，对与输入步态图像视频帧角度相同的判别器和方向不同的判别器分别置权重α和β。

进一步地，所述步骤S5的具体过程如下：

S5-1，将

张连续的二值步态图像进行划分，每连续的n(n>=2) 张步态图像分为一组，则可得到h=K-n+1组连续的步态序列图像，每组包含n张图像；

S5-2，将上一步得到的h组连续的步态图像，输入步骤S4中训练完成的步态运动估计深度学习模型，经过步态运动估计生成网络编码网络，生成h个包含时序信息的步态特征；其中每一个步态特征都包含n张步态图像的空间、时序信息及对第n+1张步态运动图像的预测；

S5-3，将上一步得到的h个步态特征输出到LSTM网络中，输出大小为512×1的向量；

S5-4，将上一步得到的向量输入两层全连接层得到最终输出向量：

其中r表示数据集中总人数；

S5-5，将上一步得到的最终输出向量

输入Softmax函数进行身份预测。

进一步地，所述步骤S6的具体过程如下：

S6-1，构建识别结果真实标签；构建长度为r的二值向量y：

S6-2，将n张连续的二值步态图像输入步骤S5中构建的步态身份识别神经网络模型，得到长度为r的输出向量

；

S6-3，将上两步得到的真实值向量y与网络生成结果

计算交叉熵损失函数，损失函数如下：

。

本发明的优点：

1.本发明创新性地采用实现了利用编码-解码网络，通过单一视角下的前n张连续步态图像视频帧预测m个不同视角的第n+1张步态图像。其中，步态特征提取网络能够提取步态图像间的时序信息与多角度图像间联系，从而提取具有身份鉴别能力步态特征，进而高精度地进行步态身份识别。

2.本发明创新性构建了步态图像分割深度学习网络W-Net网络架构，在原有SegNet网络的基础上增加了特征融合模块，区别于传统网络利用解码网络生成图像，W-Net网络设计的特征融合模块同时获取编码、解码网络对应层的图像特征，并纵向连接所有特征融合层的输出从而生成最终结果，将各层编码、解码网络所提取的不同大小的特征进行融合，充分提取图像各级特征，提升图像分割精度。

3.本发明创新性使用对抗学习训练策略，将预测生成的步态特征与真实图像同时输入网络，使模型更好地提取连续步态图像中的时序信息和多角度步态图像间关联信息，提高识别的准确率。

4.本发明创新性使用提取出的步态时序特征进行步态身份识别，提高识别的准确率。

附图说明

图1是本发明的步态图像分割模型神经网络架构图。

图2是本发明的步态运动估计模型神经网络架构图。

图3是本发明的步态身份识别模型神经网络架构图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

本发明提供的方法设计了基于步态运动估计的跨视角视频步态识别方法，其包含以下步骤：

步骤S1，构建步态图像分割深度学习网络，该网络为W-Net网络，包括编码-解码网络和特征融合模块；其中，编码网络阶段输入数据为步态图像视频帧，并利用卷积层和池化层提取特征；解码网络阶段输入数据为编码模块的输出，利用反卷积重现图像分类后特征并还原尺寸；特征融合模块将不同层生成的特征图像进行融合；其中，特征融合层将编码模块与解码模块进行连接；具体实施过程说明如下：

S1-1，将待分割图像输入编码网络，利用卷积层和池化层对图像进行特征提取，将每个池化层前的一层卷积层输出传入对应的concat连接层，并在池化操作时记录池化索引，生成低分辨率图像特征；

S1-2，利用上一步记录的池化索引，将上一步得到的低分辨率图像特征进行多次上采样和反卷积，并将每一个卷积模块的最后一层输出传入对应的concat连接层，得到重现的图像特征，多次上采样根据W-Net网络结构定义，解码网络一共有5个网络层，也就对应5次上采样；

S1-3，将上两步得到的多个concat连接层依次进行卷积和反卷积操作，使其由多通道特征图像融合为单一特征图像，并且将其放大再裁剪为真实图像大小的特征图像，随后将5个处理后的融合层特征进行连接，并再次卷积以融合所有输出，最终得到融合的预测图像。

优选地，所述步骤S1中编码-解码网络采用池化索引保存特征细节。

优选地，所述步骤S1中编码网络包含13个卷积层与5个池化层；解码网络则包含13个卷积层与5个上采样层；特征融合模块则包含5个concat连接层。

优选地，所述步骤S1中编码、解码网络的卷积层采用大小为3*3的卷积核；特征融合模块的卷积层采用大小为1*1的卷积核。

步骤S2，同步采集多人多方向的步态视频图像数据集，利用步态视频图像数据集对步骤S1构建的深度学习网络进行训练，得到步态前景分割模型；本实施例同一步态采集的方向包括0゜、30゜、60゜、90゜、120゜和150゜，每个方向布置一台相机进行视频图像采集。对深度学习网络训练具体的步骤为：

代表第c张图像，

其中，

为第i个像素值；

步骤S2-2，对上一步计算得出的融合图像特征和真实图像标签进行交叉熵损失计算；网络在训练时各编码、解码、融合层训练的参数，采用随机法进行初始化。设W为网络中参数权重值，

是融合特征图在像素i的输出值，P(.)表示计算联合概率，则对像素点i计算交叉熵损失为：

。

进一步地，以损失函数L(W)为目标，使用反向传播算法对步骤S1中网络结构进行训练。

进一步地，步态图像分割网络以真实人物步态区域标注为监督进行有监督训练。

进一步地，所述步骤S2-2中使用的P函数为sigmoid函数。

步骤S3，构建基于GAN网络的步态运动估计网络，该网络包含步态运动估计编码-解码网络生成器和判别器；所述生成器输入为一个视角的n张连续步态序列图像，输出为m个不同角度的第n+1张步态预测图像；所述判别器的个数为m，各判别器输入数据为上述生成器输出的单角度步态预测图像和该角度对应的真实步态图像，输出为或真或假的标签，其中，n大于等于2，m大于等于4；本实施例中n取值为3，m取值为6；该步态运动估计网络的具体实施过程说明如下：

S3-1，将三张连续的步态特征图像输入步态运动估计生成网络，经过生成网络的编码网络，输出1个融合的步态特征F _gait；

S3-2，将上一步提取的步态特征输入生成网络的解码网络，使得该特征经过多次上采样和反卷积操作，并与编码阶段对应的特征进行融合，最终得到m张不同角度的与输入图片大小相同的输出步态图片，作为网络估计第四张步态图片的结果；

S3-3，将上一步预测图像或真实第四张图片选择其一输入到判别层网络，判别器对输入图片进行卷积特征提取，并最终输出判别器的判断结果，即或真或假的标签；

优选地，所述步骤S3中输入数据为三张连续的步态图片，输出为判别器输出的判断结果；编码与解码网络结构相对应，各自包含7个卷积层；判别器为5层卷积神经网络。

步骤S4，利用步骤S2步态前景分割模型分割后的图像对步骤S3构建的深度学习网络进行训练，训练策略采用对抗学习；通过对抗学习，使判别器不能区分输入的图像是真实图像还是生成预测图像，从而让网络提取具有时序信息的步态特征；具体实施过程说明如下：

S4-1，将三张连续的时序步态图像I _t1、I _t2和I _t3输入网络，网络生成预测的m个不同角度的第四张步态图像

；得到第i个角度的步态运动估计生成网络的L1距离损失函数为：

S4-2，单个判别分支将真实的下一张图像

或者生成网络预测的生成图像

其中，D表示判别器的输出值，λ是对L1损失的系数，用于设置L1损失的权重，T表示输入判别器的图片，t用于表示输入判别器的图片I是生成器生成值或者真实值；

其中，对与输入步态图像视频帧角度相同的判别器和方向不同的判别器分别配置权重，本实施例中权重α取0.5，权重β取值为0.2。

进一步地，以生成对抗网络总损失G ^＊为目标，使用反向传播算法对步骤S3中网络结构进行训练。

进一步地，通过对抗学习，步态运动估计生成网络输出的预测图片能很好地预测步态运动，网络经过训练后能很好地从三张输入步态图片提取步态时序信息和多角度步态信息。

步骤S5，构建用于步态身份识别的神经网络模型，该模型包括步态特征提取网络和LSTM网络；其中步态特征提取网络为步骤S4中训练得到的生成器中的编码网络，利用该编码网络进行连续步态图像的步态特征提取；LSTM网络输入数据为上述所提取的步态特征；具体实施过程说明如下：

S5-1，将

张连续的二值步态图像进行划分，每连续的n(n>=2) 张步态图像分为一组，则可得到

组连续的步态序列图像，每组包含n张图像；

S5-2，将上一步得到的h组连续的步态图像，输入步骤S4中训练完成的步态运动估计深度学习模型，经过步态运动估计生成网络编码网络，生成h个包含时序信息的步态特征；本实施例中每一个步态特征都包含三张步态图像的空间、时序信息及对第四张步态运动图像的预测；

其中r表示数据集中总人数；

S5-5，将上一步得到的最终输出向量

输入Softmax函数进行身份预测。

进一步地，所述步骤S5中，LSTM网络输入大小为512×（h）的向量，输出大小为

512×1向量。

进一步地，所述步骤S5中，全连接层输出向量

中每一个

代表数据集中确定的一人。

步骤S6，对步骤S5构建的深度学习网络进行训练，通过输入训练图像与真实标签值，不断缩小模型分类结果与真实值之间距离，提高了步态身份识别的准确率。具体实施过程说明如下：

S6-1，构建识别结果真实标签；构建长度为r的二值向量

：

；

S6-3，将上两步得到的真实值向量y与网络生成结果

计算交叉熵损失函数，损失函数如下：

。

进一步地，以交叉熵损失

为目标，使用梯度下降算法减小交叉熵损失，使用反向传播算法LSTM网络结构进行训练。

步骤S7，利用步骤S6训练好的模型进行步态运动估计身份识别。首先输入连续的步态图像，利用步骤S2训练好的步态图像分割网络对输入图像进行分割；随后将图像输入步骤S6训练好的模型进行步态运动估计身份识别，该模型输出身份识别结果。

本方法构建并训练步态图像分割神经网络，提高步态图像分割效果；利用对抗学习和编码-解码网络结构提取步态间多角度时序特征，提高了步态身份识别准确率。

基于同一发明构思，本发明还设计了一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述的基于步态运动估计的跨视角视频步态识别方法。

基于同一发明构思，本发明还设计了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如上所述的基于步态运动估计的跨视角视频步态识别方法。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于步态运动估计的跨视角视频步态识别方法，其特征在于，包括以下步骤：

步骤S2，同步采集多方向的步态视频图像数据集，利用步态视频图像数据集对步骤S1构建的深度学习网络进行训练，得到步态前景分割模型；

步骤S7，利用步骤S6训练好的模型进行步态身份识别。

2.根据权利要求1所述的基于步态运动估计的跨视角视频步态识别方法，其特征在于：所述步骤S1构建的步态图像分割深度学习网络为W-Net网络，包括编码-解码网络和特征融合模块；

其中，编码网络的输入数据为连续步态图像视频帧，并利用卷积层和池化层提取特征；解码网络的输入数据为编码网络的输出，利用反卷积重现图像分类后特征并还原尺寸；特征融合模块将不同层生成的特征图像进行融合；特征融合层将编码网络与解码网络进行连接，同时各个特征融合层纵向连接，以最后一层特征融合层的输出作为提取的步态特征。

3.根据权利要求2所述的基于步态运动估计的跨视角视频步态识别方法，其特征在于：所述步骤S1采用特征融合模块，将编码网络的每个池化层前的卷积层输出与相应解码网络部分最后的卷积层输出相融合；所述步骤S1中编码-解码网络采用池化索引保存特征细节。

4.根据权利要求2所述的基于步态运动估计的跨视角视频步态识别方法，其特征在于：步骤S2的具体过程为：