CN113378714A

CN113378714A - 一种跨场景不变和类别信息保持的步态表示方法及系统

Info

Publication number: CN113378714A
Application number: CN202110649824.1A
Authority: CN
Inventors: 王新年; 金泽浩; 吕柯同; 张涛
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2021-09-10
Anticipated expiration: 2041-06-10
Also published as: CN113378714B

Abstract

本发明提供一种跨场景不变和类别信息保持的步态表示方法及系统。本发明方法，包括：S1、基于姿态估计方法，从步态序列中提取出关节点；S2、基于提取的所述关节点，不考虑头肩点来代表步态，构建步态表示，并输出源步态表示；S3、基于类别信息保持GAN网络的转换器，将所述源步态表示转换为规定的场景表示，生成规范化的目标步态表示；S4、使用生成的所述目标步态表示和经过训练的分类器来识别人，得到最终的识别结果。本发明设计了一种跨场景不变的步态表示方法，即PoEM，同时设计了一种可以实现类别信息保持的对抗网络结构，两者构成的系统可以解决跨场景条件下的步态识别困难的问题。

Description

一种跨场景不变和类别信息保持的步态表示方法及系统

技术领域

本发明涉及跨场景步态识别技术领域，具体而言，尤其涉及一种跨场景不变和类别信息保持的步态表示方法及系统。

背景技术

跨场景步态识别是步态识别的一大挑战。跨场景是指待识别的视频序列中一个人穿着的衣服、携带的包或其被观察角度不同于其在步态视频序列注册时的各条件。很多方法被提出来解决这个问题，其中基于GaitSet和生成对抗网络(Generative AdversarialNetworks,GAN)的方法取得了很大的成功。 GaitSet将步态看作是一个由独立帧组成的步态集，并从中学习到身份信息。与GaitSet不同的是，基于GAN的方法使用GAN网络将不同场景的步态表示转换为标准化表示，并将其输入分类器进行识别。尽管基于GAN的方法的性能不如GaitSet，但GAN仍然是一种有前途的交叉场景识别方法。基于GAN 的方法主要包括特征提取和规范化表示生成两个阶段。GaitGANv1， GaitGANv2和VN-GAN专注于设计一个更好的生成器，他们只是使用GEI 模板作为原始特性输入GAN网络。PEI-MGANs提出了一种新的名为周期能量图像(Period Energy Image,PEI)的多通道步态模板和一种多任务生成对抗网络(MGANs)来保存更多在GaitGANs中丢失的时间信息。

PEI是GEI的变体，两种步态表示虽然都可以很好的代表步态序列，但是，由其获取方式决定了GEI和PEI都容易受到行人服装变化和携带情况变化的影响。这会使得相同人在不同的服装和携带条件下，具有不同的步态表示(GEI和PEI)。同时，现有的基于GAN网络的步态识别方法所设计的网络结构，没有做到保证生成图像在训练过程中逐渐趋于真实的同时，还能很好的兼顾增强同类别行人特征的共性(即：减小类内差距)和拉大不同类别行人特征的差别(即：增大类间差距)的作用。

发明内容

根据上述提出跨场景条件下的步态识别困难的技术问题，本发明提供一种跨场景不变和类别信息保持的步态表示方法及系统。本发明采用的技术手段如下：

一种跨场景不变和类别信息保持的步态表示方法，包括如下步骤：

S1、基于姿态估计方法，从步态序列中提取出关节点；

S2、基于提取的所述关节点，不考虑头肩点来代表步态，构建步态表示，并输出源步态表示；

S3、基于类别信息保持GAN网络的转换器，将所述源步态表示转换为规定的场景表示，生成规范化的目标步态表示；

S4、使用生成的所述目标步态表示和经过训练的分类器来识别人，得到最终的识别结果。

进一步地，所述步骤S1的具体实现过程如下：

S11、提取稳定关节点：在提取的25个关节点中提取稳定关节点，排除不稳定的关节点，得到18个稳定的关节点；

S12、矫正肘关节和腕关节的位置：以颈中线为中轴，将肘、腕点水平移向中轴，由肩点与颈点之间的残差矢量确定偏移量；该过程的数学表达式如式(1)所示：

其中，x为稳定关节点的原始位置，x'为稳定关节点的校正位置；上式中的i 分别表示右肩、右肘和右手腕的关节点，而j则表示左肩、左肘和左手腕的关节点。

进一步地，所述步骤S2的实现过程具体如下：

S21、生成骨架二值图：首先，构造一幅与每一帧大小相同的灰度值为零的图像；其次，将步态序列中每一帧中的稳定点标记到零图像中，并将零图像中心的MidHip点作为标记点；最后，将所有稳定点按规定的顺序连接，宽度为两个像素，生成骨架二值图；

S22、计算和激活步态表示：步态表示按照一定顺序记录一个人的骨架运动轨迹，定义为一个周期内骨架二值图的均值，如公式(2)所示：

其中，P为代表一个步态序列的步态表示，B_t为第t帧的骨架二值图；T为步态序列的总帧数；

S23、使用伽马变换式(3)激活步态表示，伽马变换式(3)如下所示：

P^*(r,c)＝C×P(r,c)^γ (3)

其中，C为常数，γ为指数；(r,c)表示矩阵元素的下标；P^*(r,c)是激活的步态表示，输出源步态表示。

进一步地，所述步骤S3中的类别信息保持GAN网络，包括转换器、真 /假判决器、相关判决器和非相关判决器；其中，转换器用于生成规范化的步态表示；真假判决器、相关判决器和非相关判决器用于确保生成的步态表示更接近目标步态表示；所述类别信息保持GAN网络的总体损失函数定义如式 (4)所示：

其中，sel(·)为等概率随机选择函数。

分别为真/假判决器、相关判决器和非相关判决器的损失函数，公式中的I_S是源步态表示，I_G是生成步态表示，I_T是目标步态表示，I_I是非相关步态表示。

进一步地，所述真/假判决器D₁用于辨别输入的步态表示是否真实；如果输入的步态表示是从真实步态序列中提取的真实步态表示，所述真/ 假判决器将输出1；如果输入的步态表示是由源步态表示经过转换器生成的步态表示，将输出0；所述真/假判决器D₁的损失函数定义为

如公式 (5)所示：

其中，I_S是源步态表示，I_G是生成步态表示。

进一步地，所述相关判决器D₂用于激励所述转换器寻找的步态表示中同类别的身份信息；以一个源步态表示和一个通过选择函数选择的步态表示作为相关判决器D₂的输入，并被训练产生一个标量，用于表示输入对中的I₂是来自同类真图还是同类假图；相关判决器D₂的输出依据输入对中两图所对应的标签，如果输入对中的I₂是来自与I_S属于同类真图I_T，输出1，否则输出是0；所述相关判决器D₂的损失函数定义为

如公式(6)所示：

其中，I_S是源步态表示，I_T是输入对中I_S对应的同类别的目标步态表示，I_G是输入对中I_S对应的同类别的生成步态表示，C_S和C₂分别表示I_S和I₂的标签，如果I₂是来自I_G，其标签C₂为I_G的标签，而I_G的标签继承于其对应的未进行转换的I_S。

进一步地，所述非相关判决器D₃用于激励所述转换器寻找到不同人或称不同类别的差别信息。以一个源步态表示和一个通过选择函数选择的步态表示作为非相关判决器D₃的输入，称两张图像为一组输入对，并被训练产生一个标量，用于判断输入对中的I₃来自同类真图或来自不同类假图。非相关判决器D₃用的输出依据输入对中两图所对应的标签，如果输入对中的I₃是来自与I_S属于同类的真图I_T，输出1，否则输出0；所述相关判决器D₃的损失函数定义为

如公式(7)所示：

其中，I_S是源步态表示，I_T是输入对中I_S对应的同类别的目标步态表示，I_I是输入对中I_S对应的不同类别的生成步态表示，C_S和C₃分别表示I_S和I₃的标签，若是I₃是来自I_I，其标签C₃为I_I的标签，而I_I的标签继承于其对应的未进行转换的I_S。

进一步地，所述步骤S3中还包括训练所述类别信息保持GAN网络的步骤，如下：

从人在不同场景下的步态序列中提取源步态表示，形成源步态表示数据集，并将从正常90°拍摄步行条件下的步态序列中提取的步态表示作为目标步态表示。源步态表示数据集和目标步态表示构成输入步态表示对，同时将两张图像所对应的标签作为类别信息保持GAN网络的输入，所有的输入步态表示对和其对应的标签分批次的训练类别信息保持GAN网络。

进一步地，所述步骤S4的具体实现过程如下：

将规范化的步态表示分为训练集和测试集，把训练集的图像和对应的标签一同输入分类器中进行训练，然后把测试集输入分类器，得到最终的识别结果。

本发明还提供了一种基于上述跨场景不变和类别信息保持的步态表示方法的步态表示系统，包括：

姿势估计模块，用于基于姿态估计方法，从步态序列中提取出关节点；

特征提取模块，用于基于提取的所述关节点，不考虑头肩点来代表步态，构建步态表示，并输出源步态表示；

规范化步态表示模块，用于基于类别信息保持GAN网络的转换器，将所述源步态表示转换为规定的场景表示，生成规范化的目标步态表示；

分类器模块，用于使用生成的所述目标步态表示和经过训练的分类器来识别人，得到最终的识别结果。

较现有技术相比，本发明具有以下优点：

1、本发明提供的跨场景不变和类别信息保持的步态表示方法，去除头肩信息的步态表示PoEM在步态识别任务中优于GEI，对场景变化具有更好的稳定性和鲁棒性，减小跨场景带给步态识别结果的影响。

2、本发明提供的跨场景不变和类别信息保持的步态表示方法，设计了类别信息保持GAN网络，使得转化器在生成图像时，既能保证生成的图像可以具有良好的真实性，同时可以很好的缩小图像的类内距离，增大图像的类间距离。从而能够使步态识别任务难度降低，提高识别的准确率。

3、本发明提供的跨场景不变和类别信息保持的步态表示方法，通过利用骨架信息提取出的去除头肩信息的步态表示PoEM和“类别保持GAN网络”得到一种在跨场景条件下更具稳定性和鲁棒性的全新步态表示。

基于上述理由本发明可在跨场景步态识别等领域广泛推广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方法流程图。

图2为本发明实施例提供的骨架二值图。

图3为本发明实施例提供的无头肩姿态能量图。

图4为本发明类别信息保持GAN网络结构示意图。

图5为本发明系统流程图。

图6为本发明实施例提供的GEI和PoEM两种步态表示对比图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1所示，本发明提供了一种跨场景不变和类别信息保持的步态表示方法，包括如下步骤：

S1、基于姿态估计方法，从步态序列中提取出关节点；

具体实施时，作为本发明优选的实施方式，所述步骤S1的具体实现过程如下：

S11、提取稳定关节点：在提取的25个关节点中提取稳定关节点，排除不稳定的关节点，得到18个稳定的关节点；本实施例中，不稳定的关节点包括：由于头部或面部的点容易受帽子和视角的影响，耳点、眼点、鼻点为不稳定的关节点。同时，由于服装和搬运对肩关节点的影响很大，因此肩关节点为不稳定的关节点。

其中，x为稳定关节点的原始位置，x'为稳定关节点的校正位置；上式中的i 分别表示右肩(RShoulder)、右肘(RElbow)和右手腕(RWrist)的关节点，而j则表示左肩(LShoulder)、左肘(LElbow)和左手腕(LWrist)的关节点。

具体实施时，作为本发明优选的实施方式，所述步骤S2的实现过程具体如下：

S21、生成骨架二值图：首先，构造一幅与每一帧大小相同的灰度值为零的图像；其次，将步态序列中每一帧中的稳定点标记到零图像中，并将零图像中心的MidHip点作为标记点；最后，将所有稳定点按规定的顺序连接，宽度为两个像素，生成骨架二值图；为了减少摄像机距离的影响，本实施例中，骨架二值图被归一化到预定义的大小，如256×256。以同样的方式生成步态序列每帧的骨架二值图，如图2所示。

其中，P为代表一个步态序列的步态表示，B_t为第t帧的骨架二值图；T为步态序列的总帧数；步态表示PoEM反映了步态周期中人的骨骼运动轨迹和各肢体运动的频率。某一点的值越高，对应部分出现在该点的频率越高。

P^*(r,c)＝C×P(r,c)^γ (3)

其中，C为常数，本实施例中，C＝2；γ为指数，本实施例中，γ＝0.5；(r,c) 表示矩阵元素的下标；P^*(r,c)是激活的步态表示，输出源步态表示。如图3 所示，展示了来自不同场景的源步态表示PoEM示例。

具体实施时，作为本发明优选的实施方式，所述步骤S3中的类别信息保持GAN网络，包括转换器、真/假判决器、相关判决器和非相关判决器；如图4所示，其中，转换器用于生成规范化的步态表示；真假判决器、相关判决器和非相关判决器用于确保生成的步态表示更接近目标步态表示；所述类别信息保持GAN网络的总体损失函数定义如式(4)所示：

其中，sel(·)为等概率随机选择函数。

具体实施时，作为本发明优选的实施方式，在训练阶段，从人在不同场景下的步态序列中提取源步态表示，形成源步态表示数据集，并将从正常90°拍摄步行条件下的步态序列中提取的步态表示作为目标步态表示。源步态表示数据集和目标步态表示构成输入步态表示对，同时将两张图像所对应的标签作为类别信息保持GAN网络的输入，所有的输入步态表示对和其对应的标签分批次的训练类别信息保持GAN网络。

具体实施时，作为本发明优选的实施方式，所述真/假判决器D₁用于辨别输入的步态表示是否真实；如果输入的步态表示是从真实步态序列中提取的真实步态表示，所述真/假判决器将输出1；如果输入的步态表示是由源步态表示经过转换器生成的步态表示，将输出0；所述真/假判决器D₁的损失函数定义为

如公式(5)所示：

其中，I_S是源步态表示，I_G是生成步态表示。由于网络在训练时设置的批次大小为128，即一批次输入GAN网络128张源PoEM，则每一批次输入真/ 假判决器D₁，都会得到对应这一批次的128个真/假判决器D₁的输出(0或1)， D₁(I₁)是根据这一批次真/假判决器D₁的输出计算得出的1的占比。

具体实施时，作为本发明优选的实施方式，所述相关判决器D₂用于激励所述转换器寻找的步态表示中同类别的身份信息；以一个源步态表示和一个通过选择函数选择的步态表示作为相关判决器D₂的输入，并被训练产生一个标量，用于表示输入对中的I₂是来自同类真图(即：目标PoEM)还是同类假图(即：生成PoEM)；相关判决器D₂的输出依据输入对中两图所对应的标签，如果输入对中的I₂是来自与I_S属于同类真图I_T(即：标签一致)，输出1，否则输出是0；所述相关判决器D₂的损失函数定义为

如公式(6)所示：

其中，I_S是源步态表示，I_T是输入对中I_S对应的同类别的目标步态表示，I_G是输入对中I_S对应的同类别的生成步态表示，C_S和C₂分别表示I_S和I₂的标签，如果I₂是来自I_G，其标签C₂为I_G的标签，而I_G的标签继承于其对应的未进行转换的I_S。由于网络在训练时设置一批次输入GAN网络128张源 PoEM，则每一批次输入相关判决器D₂，都会得到对应这一批次的128个相关判决器D₂输出(0或1)，D₂(I_S,C_S,I₂,C₂)是根据这一批次相关判决器D₂的输出计算得出的1的占比。

具体实施时，作为本发明优选的实施方式，所述非相关判决器D₃用于激励所述转换器寻找到不同人或称不同类别的差别信息。以一个源步态表示和一个通过选择函数选择的步态表示作为非相关判决器D₃的输入，称两张图像为一组输入对，并被训练产生一个标量，用于判断输入对中的I₃来自同类真图(即：目标PoEM)或来自不同类假图(即：非相关PoEM)。非相关判决器D₃用的输出依据输入对中两图所对应的标签，如果输入对中的I₃是来自与I_S属于同类的真图I_T(即：标签一致)，输出1，否则输出0；所述相关判决器D₃的损失函数定义为

如公式(7)所示：

其中，I_S是源步态表示，I_T是输入对中I_S对应的同类别的目标步态表示，I_I是输入对中I_S对应的不同类别的生成步态表示(即，非相关PoEM)，C_S和C₃分别表示I_S和I₃的标签，若是I₃是来自I_I，其标签C₃为I_I的标签，而I_I的标签继承于其对应的未进行转换的I_S。由于网络在训练时设置一批次输入GAN 网络128张源PoEM，则每一批次输入判决器，都会得到对应这一批次的128 个非相关判决器D₃的输出(0或1)，D₃(I_S,C_S,I₃,C₃)是根据这一批次非相关判决器D₃的输出计算得出的1的占比。

具体实施时，作为本发明优选的实施方式，所述步骤S4的具体实现过程如下：

将规范化的步态表示分为训练集和测试集，把训练集的图像和对应的标签一同输入分类器中进行训练，然后把测试集输入分类器(K近邻分类器、随机森林)，得到最终的识别结果。

一种基于上述跨场景不变和类别信息保持的步态表示方法的步态表示系统，如图5所示，包括：姿势估计模块、特征提取模块、规范化步态表示模块以及分类器模块，其中：

对于本发明实施例的而言，由于其与上面实施例中的相对应，所以描述的比较简单，相关相似之处请参见上面实施例中部分的说明即可，此处不再详述。

为了验证本发明方法的有效性，将本发明方法与GEI方法进行对比，本方法所提出的PoEM作为一种新的步态表示，在步态识别任务中优于GEI。 GEI是一种常用的步态特征，它是通过在一个步态序列中对一个步态周期中的轮廓进行平均产生的。当人的行走状态发生变化时，从外轮廓信息中提取的GEI可能失效。如图6所示，为不同行走条件下的GEIs，从图中可以看出，第二列的人在换衣服、换包条件下的GEIs与正常行走条件下的GEIs有所不同。但是，第三栏所列的本方法提出的PoEM在三种行走条件下可以保持很好的一致性。这是因为当一个人的衣服或携带情况发生变化时，他的外轮廓会发生巨大的变化，而骨骼的变化很小。因此，所提出的基于骨架的PoEM 对场景变化具有更好的稳定性和鲁棒性，减小跨场景带给步态识别结果的影响。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种跨场景不变和类别信息保持的步态表示方法，其特征在于，包括如下步骤：

S1、基于姿态估计方法，从步态序列中提取出关节点；

2.根据权利要求1所述的跨场景不变和类别信息保持的步态表示方法，其特征在于，所述步骤S1的具体实现过程如下：

其中，x为稳定关节点的原始位置，x'为稳定关节点的校正位置；上式中的i分别表示右肩、右肘和右手腕的关节点，而j则表示左肩、左肘和左手腕的关节点。

3.根据权利要求1所述的跨场景不变和类别信息保持的步态表示方法，其特征在于，所述步骤S2的实现过程具体如下：

P^*(r,c)＝C×P(r,c)^γ (3)

4.根据权利要求1所述的跨场景不变和类别信息保持的步态表示方法，其特征在于，所述步骤S3中的类别信息保持GAN网络，包括转换器、真/假判决器、相关判决器和非相关判决器；其中，转换器用于生成规范化的步态表示；真假判决器、相关判决器和非相关判决器用于确保生成的步态表示更接近目标步态表示；所述类别信息保持GAN网络的总体损失函数定义如式(4)所示：

其中，sel(·)为等概率随机选择函数。

5.根据权利要求4所述的跨场景不变和类别信息保持的步态表示方法，其特征在于，所述真/假判决器D₁用于辨别输入的步态表示是否真实；如果输入的步态表示是从真实步态序列中提取的真实步态表示，所述真/假判决器将输出1；如果输入的步态表示是由源步态表示经过转换器生成的步态表示，将输出0；所述真/假判决器D₁的损失函数定义为

如公式(5)所示：

其中，I_S是源步态表示，I_G是生成步态表示。

6.根据权利要求4所述的跨场景不变和类别信息保持的步态表示方法，其特征在于，所述相关判决器D₂用于激励所述转换器寻找的步态表示中同类别的身份信息；以一个源步态表示和一个通过选择函数选择的步态表示作为相关判决器D₂的输入，并被训练产生一个标量，用于表示输入对中的I₂是来自同类真图还是同类假图；相关判决器D₂的输出依据输入对中两图所对应的标签，如果输入对中的I₂是来自与I_S属于同类真图I_T，输出1，否则输出是0；所述相关判决器D₂的损失函数定义为

如公式(6)所示：

7.根据权利要求4所述的跨场景不变和类别信息保持的步态表示方法，其特征在于，所述非相关判决器D₃用于激励所述转换器寻找到不同人或称不同类别的差别信息。以一个源步态表示和一个通过选择函数选择的步态表示作为非相关判决器D₃的输入，称两张图像为一组输入对，并被训练产生一个标量，用于判断输入对中的I₃来自同类真图或来自不同类假图。非相关判决器D₃用的输出依据输入对中两图所对应的标签，如果输入对中的I₃是来自与I_S属于同类的真图I_T，输出1，否则输出0；所述相关判决器D₃的损失函数定义为

如公式(7)所示：

8.根据权利要求1所述的跨场景不变和类别信息保持的步态表示方法，其特征在于，所述步骤S3中还包括训练所述类别信息保持GAN网络的步骤，如下：

9.根据权利要求1所述的跨场景不变和类别信息保持的步态表示方法，其特征在于，所述步骤S4的具体实现过程如下：

10.一种基于权利要求1-9中任意一项权利要求所述跨场景不变和类别信息保持的步态表示方法的步态表示系统，其特征在于，包括：