CN114677755B

CN114677755B - 一种基于分层及分块特征融合的跨视角步态识别方法

Info

Publication number: CN114677755B
Application number: CN202210245454.XA
Authority: CN
Inventors: 贲晛烨; 姚军; 陈振学; 周洪超; 姜威; 黄天欢; 刘畅
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2022-03-14
Filing date: 2022-03-14
Publication date: 2024-04-26
Anticipated expiration: 2042-03-14
Also published as: CN114677755A

Abstract

本发明涉及一种基于分层及分块特征融合的跨视角步态识别方法，包括：构建并训练基于分层及分块特征融合网络模型；将待识别身份的步态剪影图序列送入训练好的基于分层及分块特征融合网络模型获取步态特征，通过与注册数据集进行特征相似性比对完成查询样本的身份识别；构建基于分层及分块特征融合网络模型，包括：依次构建分层步态识别框架、部分特征混合掩膜、骨架网络、分级水平金字塔、分块特征融合模块；本发明提出的分层步态识别框架，打破通用步态识别框架先提取特征再进行特征映射的先后顺序，可以从特征提取的任意阶段获取特征进行映射，使用高级特征与低级特征相结合的方式，具有更好的效果以及更大的灵活性。

Description

一种基于分层及分块特征融合的跨视角步态识别方法

技术领域

本发明涉及一种基于分层及分块特征融合的跨视角步态识别方法，属于深度学习和模式识别技术领域。

背景技术

步态特征是一种相对新兴的生物特征，与当前广泛使用的生物识别技术如虹膜、人脸、指纹等特征不同，其具有远距离和非接触的特点，并且具备很好的区分性。传统生物特征的获取往往依赖于受试者的配合，例如，在进行人脸识别时，要求受试者所处的环境光线合理，并且为了获取比较准确的面部特征，还需要受试者在一定的视角内进行配合；在进行指纹识别时，需要受试者进行接触式的特征采集。区别于以上特征采集方式，步态特征可以在远距离上获取，通常可达数十米，并且其获取特征的方式是非接触式的，可以在受试者无感的情况下完成采集，不需要受试者配合，由于其不需要进行类似人脸特征获取时的特征点定位等操作，其对于光线等环境因素要求更低。最重要的，步态特征具有很好的区分性。不同人在正常行走时的体态、姿势等不易模仿及伪装，具有很强的区分性，而步态特征的采集过程具有很强的隐蔽性，一定程度上避免了类似于修改指纹等伪造生物特征的问题。

步态识别技术在安防领域的应用固然具有非常大的优势，前景也非常乐观，然而其存在一些固有的问题。从步态特征采集的设备和环境来说，其具有多样性。不同的摄像机可能存在分辨率、采集高度、采集视角、环境光强度等差异，都给步态识别的准确率带来了一定的挑战。环境光强度、分辨率等问题可以通过分割、裁剪以及二值化人物部分进行一定程度上的解决，并不会对识别结果带来特别大的影响。当前阶段，步态识别技术最大的难度在于受视角差异或摄像机角度影响较大。此外，着装情况、负重等也会对行走姿势造成一定的改变，同样会影响到步态识别的准确率。现实生活中，摄像头等设备采集的步态数据往往不能达到实验环境下的理想状态，如高度、视角等都是不可控的，这将严重影响传统步态识别模型、算法的有效性。所以，如何解决跨视角条件下的步态识别问题，是推动步态识别技术走进现实生产生活的关键

发明内容

针对现有技术的不足，本发明提供一种基于分层及分块特征融合的跨视角步态识别方法。

发明概述：

一种基于分层及分块特征融合的跨视角步态识别方法，包括构建分层步态识别框架，部分特征混合掩膜构建、骨架网络构建、分级水平金字塔构建、分块特征融合模块构建、整体框架训练及跨视角步态识别。

针对通用步态识别框架存在的较为严格的图像序列处理先后顺序问题，构建分层步态识别框架，为了使步态序列中的行人剪影预先包含其他部位特征，构建部分特征混合掩膜进行轮廓样本的增强作为输入数据。为了简单有效地提取序列特征，构建简洁的骨架网络进行初步的特征提取。为了增加网络深度及充分利用步态序列的高级特征和低级特征，构建分级水平金字塔结构，搭配瓶颈结构实现以最小的计算成本提升网络深度，并同时进行通道的平滑连接。为了将特征各个相邻与不相邻分块进行有效融合，提高特征辨识度，构建分块特征融合模块对各个分块特征进行二次分配。为了提升整个框架的判别性特征表示能力，使用三元组损失和交叉熵损失联合对整个框架的模型进行训练，最终利用训练好的模型进行跨视角步态识别。

术语解释：

注册数据集(gallery)：指提前录入的已知身份标签的步态样本所构成的数据集。

查询数据集(probe)：指用来作为测试输入、待识别的步态样本所构成的数据集。

步态识别：指将查询数据集中的各个样本与注册数据集中的所有样本进行比对，并将查询数据集中的样本确定为与注册数据集中最接近的样本的标签。

跨视角步态识别：指注册数据集和查询数据集中的步态样本采集自不同视角，利用注册数据集中已知的单个视角下的步态样本，实现不同视角下采集的查询数据集的识别。

本发明的技术方案如下：

一种基于分层及分块特征融合的跨视角步态识别方法，包括：

构建并训练基于分层及分块特征融合网络模型；

将待识别身份的步态剪影图序列送入训练好的基于分层及分块特征融合网络模型获取步态特征，通过与注册数据集进行特征相似性比对完成查询样本的身份识别，完成跨视角步态识别；

其中，构建基于分层及分块特征融合网络模型，包括：依次构建分层步态识别框架、部分特征混合掩膜、骨架网络、分级水平金字塔、分块特征融合模块；

构建部分特征混合掩膜使得步态序列中的行人剪影预先包含其他部位特征；构建骨架网络进行初步的特征提取；构建分级水平金字塔增加网络深度，充分利用步态序列的高级特征和低级特征，构建分级水平金字塔结构，搭配瓶颈结构实现以最小的计算成本提升网络深度，并同时进行通道的平滑连接；构建分块特征融合模块对各个分块特征进行二次分配。

根据本发明优选的，构建分层步态识别框架，是指：从逻辑上将基于分层及分块特征融合网络模型即步态识别网络分为特征提取层、特征连接层和特征映射层，从特征提取各个阶段直接获取特征进行映射。

根据本发明优选的，构建部分特征混合掩膜，是指：对输入的步态剪影图序列进行预增强，从序列生成混合了各个分块特征的掩膜并覆盖原来的剪影图序列。

根据本发明优选的，构建骨架网络，是指：骨架网络的搭建以简洁高效为目标，骨架网络包括若干卷积层和池化层，输入剪影图序列在骨架网络中进行简单的初级特征及高级特征提取。随后进入分级水平金字塔进行网络深度拓展，实现最高效的特征提取过程。

根据本发明优选的，构建分级水平金字塔，是指：分级水平金字塔包括帧池化层及瓶颈结构；从骨架网络提取的各个阶段特征首先输入帧池化层提取最大能量帧，将各个阶段提取到的最大能量帧通过若干层瓶颈结构，以极小的计算成本进行网络深度的扩展，随后将各个阶段特征按特定分块组合进行分块。

根据本发明优选的，构建分块特征融合模块，是指：分块特征融合模块类似于一个加权的注意力机制，分块特征融合模块用于对分级水平金字塔分块后的特征进行二次分配；分块特征融合模块通过计算各个分块之间的关系系数矩阵，对各个分块的特征进行重新分配，使各个分块融合其他相邻与不相邻分块特征，增强特征的辨别性。

根据本发明优选的，训练基于分层及分块特征融合网络模型，是指：对分块特征融合模块的输出进行拼接输入全连接层映射后，利用三元组损失和交叉熵损失组合训练整个基于分层及分块特征融合网络模型，以得到具有高判别性的训练好的基于分层及分块特征融合网络模型。

根据本发明优选的，身份识别的具体实现过程如下：

将注册数据集送入训练好的基于分层及分块特征融合网络模型中，将输出的特征作为每个步态轮廓序列的整体特征表示，得到注册数据集的特征数据库；

将待识别的查询数据集中的样本送入训练好的基于分层及分块特征融合网络模型，得到查询数据集的特征；

将查询数据集中的每一个样本的特征与注册数据集中的所有特征进行欧氏距离计算，最终将查询数据集中的每个样本识别为注册数据集中与之欧氏距离最小的特征的标签，输出查询样本的身份标签，完成识别。

进一步优选的，构建分层步态识别框架，具体是指：

a、输入图像输入特征提取层，提取到分级特征作为特征连接层的输入；

b、输入特征连接层的分级特征经过特征连接层的平滑和进一步提取，按特定分块组合进行分块用于特征映射；

c、特征映射层将步骤b中分块后的特征进行映射并拼接，作为最终特征。

进一步优选的，构建部分特征混合掩膜，具体是指：

d、构建分块关系矩阵，以进行各个分块关系的确定。

对于输入的一个批次图像序列其中，N表示该批次中图像序列的数量，v_n表示第n个图像序列，s表示单个图像序列中的帧数，C表示初始的通道数，h和w分别表示图像序列中单帧图片的长和宽；部分特征混合掩膜的输入为一个批次图像中的单个序列其中x_t表示图像序列中的第t帧图像；

首先，对输入的图像序列v_n在第一个维度上进行最大值池化，得到一张具有最大能量的单帧图像

然后，在h维度上，即视觉上的水平方向上，将单帧图像x_i均分为p个条带，其中p为可调节的超参数；如公式(1)所示，经过变形的单帧图像变为其中，dim＝1表示在第一个维度上变形，对于x_i即为在h所在的维度；

x_reshape＝reshape(x_i)_dim＝1 (1)

再次，在x_reshape的w所在维度上，即dim＝2维度进行最大值池化和均值池化并加和，得到p个条带的特征表示，如公式(2)所示：

mask_n＝maxpooling(x_reshape)_dim＝2+avg pooling(x_reshape)_dim＝2 (2)

其中，maxpooling(·)和avg pooling(·)分别表示最大值池化和平均值池化，为图像序列v_n所对应的掩膜；

最后采用两个参数不共享的全连接层，将全连接层的隐层神经元数量设置为p，将其中一个全连接层输出进行转置，并与另一个全连接层输出进行相乘，最终结果经过一个Softmax层，得到关系矩阵计算过程如公式(3)所示：

R_n＝softmax(Linear(mask_n)×Linear(mask_n)^t) (3)

其中，Linear(·)表示全连接层；

e、利用步骤d中的关系矩阵生成轮廓图序列中各帧图像的掩膜，并与原图像结合。

将初始图像序列v_n进行变形，从视觉上即分成p块，得到将最后两个维度进行交换后与各分块关系矩阵R_n进行相乘，最终再进行变形恢复至原始图像尺寸，乘以系数r之后与初始图像序列v_n进行按位相加，即得到最终的输出如公式(4)所示：

v_out＝v_n+r×reshape((reshape(v_n)×R_n)) (4)

其中，r是调节部分特征比例的超参数。

进一步优选的，构建骨架网络，具体包括：

骨架网络包括三个卷积块，每两个卷积块之间添加一层池化层。

进一步优选的，构建分级水平金字塔，具体包括：

g、特征平滑，使用瓶颈结构进行预先的处理；

h、按特定分块组合进行分块，具体包括：输出为s为序列长度；c为输出通道数；h和w分别为特征图的高和宽；在dim＝0，即s所在维度上进行最大值池化，即得到一个最大能量帧如公式(5)所示，其中，maxpool(·)表示最大值池化操作：

x＝maxpool(v)_dim＝0 (5)

对于表1中的三个阶段(包括第一阶段、第二阶段及第三阶段)得到的最大能量帧x，分别对其进行变形操作，将其水平分割为m个条带，得到新的特征图如公式(6)所示：

x_reshape＝reshape(v) (6)

其中，reshape(·)为变形操作，其有可调节参数m，在第二阶段中分别为2和4；

最后对x_reshape在最后一个维度dim＝2上进行最大值池化maxpooling(·)和均值池化avgpooling(·)并加和，即得到分级水平金字塔的一部分特征；如公式(7)所示：

f_[2,4]＝maxpooling(x_reshape)_dim＝2+avg pooling(x_reshape)_dim＝2 (7)

其中，表示第二阶段中m＝4分块所得到的一部分特征；经过分级水平金字塔，分别从三个阶段得到f_[1,1]、f_[1,2]、f_[2,2]、f_[2,4]、f_[3,4]和f_[3,8]共计6个部分特征；将其在最后一个维度，即dim＝1进行拼接后输入到全连接层，即得到空间特征提取部分最终的特征如公式(8)所示：

f_spatial＝Linear(cat(f_[1，*]，f_[2，*]，f_[3，*])_dim＝1) (8)

其中，cat(·)表示拼接操作，表示第一阶段特征。

进一步优选的，构建分块特征融合模块，具体包括：

i、获取各分块之间关系矩阵：首先序列特征x_i在dim＝1维度上，即h维度上进行了均匀分块，并在dim＝2维度上进行了均值和最大值池化，得到了初始的特征信息矩阵，如公式(9)所示：

其中，x_reshape为变形得到的m分块的原始特征，mask_n即为初始化的信息矩阵；后续处理mask_n时采用两个结构相同但是参数不共享的全连接层适当增加参数量，将全连接层的隐层神经元数量设置为m，将其中一个全连接层输出进行转置，并与另一个全连接层输出进行相乘，最终结果经过一个softmax层，就得到了关系矩阵计算过程如公式(10)所示，其中，t表示转置操作，Linear为全连接层；

R_n＝softmax(Linear(sigmoid(mask_n))×Linear(sigmoid(mask_n))^t) (10)

j、分块特征的二次分配并与原来的特征相加；将初始图像序列v_n进行变形，得到并与公式(10)得到的各分块关系矩阵R_n进行相乘，最终再进行变形，乘以系数α之后与初始图像序列v_n进行加和，即得到最终的输出如公式(11)所示：

v_out＝v_n+α×reshape((reshape(v_n)×R_n)) (11)

其中，α是调节分块特征比例的超参数。

进一步优选的，sigmoid函数如公式(12)所示。

进一步优选的，训练基于分层及分块特征融合网络模型，具体包括：

k、对获取到的组合特征进行如下特征映射：

Y＝Separate_fc(v_out) (13)

其中，Separate_fc表示分组的全连接层，是特征映射的输出；

l、构建骨架网络，并按分层步态识别框架中特征提取层、特征连接层和特征映射层的先后顺序，依次使步态序列经过部分特征混合掩膜、骨架网络、分级水平金字塔、分块特征融合模块处理，经过步骤k进行特征的映射；在特征映射后利用三元组损失和交叉熵损失对组合特征Y进行判别性约束，并以减小组合损失为训练目标，训练整个基于分层及分块特征融合网络模型。

进一步优选的，损失函数具体如下：

先将行人身份特征y经过一个输出维度与行人身份数量n相等的全连接层，接下来经过Softmax层将其中每个维度的值y_i归一化为该行人对应各个行人身份的概率如公式(14)所示：

行人特征y经过Softmax转化的即为预测标签；原始的真实标签使用独热向量进行表示；对于行人样本k，构造向量y^(k)，令其第y^(k)个元素值为1，其他位置的值为0；训练目标即为使预测概率分布尽可能接近样本k的真实标签的概率分布y^(k)，用于衡量概率分布差异的函数交叉熵即为：

其中，为标签向量y^(k)中的元素，为预测向量中的值；

假设一个批次样本数量为N，交叉熵损失函数定义如下：

采用三元组损失相比使用交叉熵损失具有更大的灵活性，其目的在于调整样本间的距离，不受分类数量的影响，在分类任务上具有较好的效果，因此广泛应用于微表情识别和步态识别领域等。其计算过程如公式(17)所示。

其中，N_Tri表示一个批次所包含的三元组数量，和分别为该批次中第i个三元组的锚样本、正样本和负样本所对应的特征向量，margin表示余量；

将两个损失函数进行加和，最终的损失函数如公式(18)所示；其中，即为最终的损失函数；

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现基于分层及分块特征融合的跨视角步态识别方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现基于分层及分块特征融合的跨视角步态识别方法的步骤。

本发明的有益效果在于：

1、本发明提出的分层步态识别框架，打破通用步态识别框架先提取特征再进行特征映射的先后顺序，可以从特征提取的任意阶段获取特征进行映射，使用高级特征与低级特征相结合的方式，具有更好的效果以及更大的灵活性。

2、本发明提出的基于分层及分块特征融合的特征提取网络以部分特征混合掩膜结构对图像序列进行预处理，增强了图像序列的辨识度，通过分级水平金字塔，从骨架网络特征提取的各个阶段进行特征获取，并使用瓶颈结构，以最小的计算成本进行网络结构的加深，同时进行特征的平滑连接。

3、本发明提出的分块特征融合模块，能够对分级水平金字塔提取到的分块特征进行二次分配，融合各个相邻与不相邻分块的特征，增强了特征的辨别性。同时该模块位于分级水平金字塔之后，在单帧图片上进行计算，计算量小且不需要引入过多的参数。

附图说明

图1为本发明中部分特征混合掩膜的网络结构示意图；

图2为本发明中分级水平金字塔的网络结构示意图；

图3为本发明中分块特征融合模块的网络结构示意图；

图4为本发明提出的基于分层及分块特征融合的跨视角步态识别方法的整体框架图。

图5为本发明中瓶颈结构的网络结构示意图。

具体实施方式

下面通过实施例并结合附图对本发明做进一步说明，但不限于此。

实施例1

一种基于分层及分块特征融合的跨视角步态识别方法，如图4所示，包括：

构建并训练基于分层及分块特征融合网络模型；

实施例2

根据实施例1所述的一种基于分层及分块特征融合的跨视角步态识别方法，其区别在于：

构建分层步态识别框架，是指：从逻辑上将基于分层及分块特征融合网络模型即步态识别网络分为特征提取层、特征连接层和特征映射层，从特征提取各个阶段直接获取特征进行映射。对通用的步态识别框架进行改进，打破原有的严格意义上的步态轮廓序列处理先后顺序，而是按功能层面划分，构建分层步态识别框架。具体是指：

构建部分特征混合掩膜，部分特征混合掩膜通过从步态轮廓序列中获取到一个包含各个身体部位的关系矩阵，其矩阵维度与分块数量有关，反映了各个分块的全系权重。该关系矩阵经过与原图像序列乘积得到序列中每张图像的掩膜，覆盖回原图像既能够保证原图像总体保留原始特征，同时混合了其他相邻与不相邻分块的特征。是指：对输入的步态剪影图序列进行预增强，从序列生成混合了各个分块特征的掩膜并覆盖原来的剪影图序列。具体是指：

d、构建分块关系矩阵，以进行各个分块关系的确定。

如图1所示，对于输入的一个批次图像序列其中，N表示该批次中图像序列的数量，v_n表示第n个图像序列，s表示单个图像序列中的帧数，C表示初始的通道数，h和w分别表示图像序列中单帧图片的长和宽；部分特征混合掩膜的输入为一个批次图像中的单个序列其中x_t表示图像序列中的第t帧图像；

首先，对输入的图像序列v_n在第一个维度上进行最大值池化，从序列中得到一张具有最大能量的单帧图像这将作为产生掩膜的基础图像；

x_reshape＝reshape(x_i)_dim＝1 (1)

再次，在x_reshape的w所在维度上，即dim＝2维度进行最大值池化和均值池化并加和，目的为得到p个条带的特征表示，如公式(2)所示：

mask_n＝maxpooling(x_reshape)_dim＝2+avg pooling(x_reshape)_dim＝2 (2)

其中，maxpooling(·)和avg pooling(·)分别表示最大值池化和平均值池化，为图像序列v_n所对应的掩膜；对于原始输入图像，输入通道数C为1，对于后续的计算来说这个数值过小，并不能够很好地表达各个分块之间的联系，因此在后续处理mask_n时采用两个结构相同但是参数不共享的全连接层适当增加参数量，以此来更好地生成表示各分块之间关系的关系矩阵。之所以采用两个参数不共享的全连接层，是因为从物理意义上来说，对于p个分块中的第i个分块p_i和第j个分块p_j，p_i对于p_j的作用与p_j对于p_i的作用应该是不同的，这样产生的关系矩阵理想情况下应该是非对称结构。

因此，最后采用两个参数不共享的全连接层，为了便于计算和观察，此处将全连接层的隐层神经元数量设置为p，将其中一个全连接层输出进行转置，并与另一个全连接层输出进行相乘，最终结果经过一个Softmax层，得到关系矩阵计算过程如公式(3)所示：

R_n＝softmax(Linear(mask_n)×Linear(mask_n)^t) (3)

其中，Linear(·)表示全连接层；

将初始图像序列v_n进行变形，从视觉上即分成p块，得到将最后两个维度进行交换后与公式(3)得到的各分块关系矩阵R_n进行相乘，最终再进行变形恢复至原始图像尺寸，乘以系数r之后与初始图像序列v_n进行按位相加，即得到最终的输出如公式(4)所示：

v_out＝v_n+r×reshape((reshape(v_n)×R_n)) (4)

其中，r是调节部分特征比例的超参数。经过部分特征混合掩膜处理，原始输入图像各部分将预先加上不同比例的其他部分特征，有利于后续具有判别性特征的提取。

构建骨架网络，是指：骨架网络的搭建以简洁高效为目标，骨架网络包括若干卷积层和池化层，输入剪影图序列在骨架网络中进行简单的初级特征及高级特征提取。随后进入分级水平金字塔进行网络深度拓展，实现最高效的特征提取过程。具体包括：

网络骨架如表1所示，骨架网络包括三个卷积块，每两个卷积块之间添加一层池化层。由于基于轮廓序列的步态识别训练需要消耗大量的计算资源，因此在骨架网络中引入了最大池化层，该池化层为特征提供了基本的平移不变性，并减少了特征图尺寸大小。与此同时，加入池化操作能够使网络关注到低级特征及高级特征，提高特征的辨别性。整个骨架网络的结构参数如表1所示。

表1

构建分级水平金字塔，分级金字塔从结构上是对水平金字塔的改进，经过骨架网络提取的特征通道数量不统一，需要进行合理的统一。经过水平金字塔中的瓶颈结构，网络深度进一步加深，通道数量也进行了平滑。经过分级金字塔，特征维度趋于一致，便于后期特征的映射处理。是指：分级水平金字塔包括帧池化层及瓶颈结构；从骨架网络提取的各个阶段特征首先输入帧池化层提取最大能量帧，将各个阶段提取到的最大能量帧通过若干层瓶颈结构，以极小的计算成本进行网络深度的扩展，随后将各个阶段特征按特定分块组合进行分块。具体包括：

g、特征平滑，使用瓶颈结构进行预先的处理；瓶颈结构如图5所示。然后输入到特征映射层进行后续的处理。如图2所示。

h、按特定分块组合进行分块，具体包括：方便后续进行分块特征融合。分块方式如图2所示。以P_HP2(即为第二阶段对应的分级水平金字塔部分)为例。图2中，P_HP2最左侧CNN模块即对应表1中的阶段一中三层卷积的输出。其输出为s为序列长度；c为输出通道数；h和w分别为特征图的高和宽；在dim＝0，即s所在维度上进行最大值池化，即得到一个最大能量帧如公式(5)所示，其中，maxpool(·)表示最大值池化操作：

x＝maxpool(v)_dim＝0 (5)

对于表1中的三个阶段(包括第一阶段、第二阶段及第三阶段)得到的最大能量帧x，分别对其进行变形操作，以m＝4为例，将其水平分割为m个条带，得到新的特征图如公式(6)所示：

x_reshape＝reshape(v) (6)

f_[2,4]＝maxpooling(x_reshape)_dim＝2+avg pooling(x_reshape)_dim＝2 (7)

f_spatial＝Linear(cat(f_[1，*]，f_[2，*]，f_[3，*])_dim＝1) (8)

其中，cat(·)表示拼接操作，f_[1，*]表示第一阶段特征。

构建分块特征融合模块，是指：分块特征融合模块类似于一个加权的注意力机制，分块特征融合模块用于对分级水平金字塔分块后的特征进行二次分配；分块特征融合模块通过计算各个分块之间的关系系数矩阵，对各个分块的特征进行重新分配，使各个分块融合其他相邻与不相邻分块特征，增强特征的辨别性。具体包括：

i、获取各分块之间关系矩阵：如图3所示，对于经过特征提取层和特征连接层输出的序列特征图3对PPF结构图以分块数m＝4进行了详细图解。首先序列特征x_i在dim＝1维度上，即h维度上进行了均匀分块，并在dim＝2维度上进行了均值和最大值池化，得到了初始的特征信息矩阵，如公式(9)所示：

其中，x_reshape为变形得到的m分块的原始特征，mask_n即为初始化的信息矩阵；此时mask_n各分块之间是相互独立的。为了增加网络的非线性能力，接下来添加了sigmoid函数。后续处理mask_n时采用两个结构相同但是参数不共享的全连接层适当增加参数量，理由已经在步骤d中详细介绍。为了便于计算和观察，本模块仍将全连接层的隐层神经元数量设置为m，将其中一个全连接层输出进行转置，并与另一个全连接层输出进行相乘，最终结果经过一个softmax层，就得到了关系矩阵计算过程如公式(10)所示，其中，t表示转置操作，Linear为全连接层；

R_n＝softmax(Linear(sigmoid(mask_n))×Linear(sigmoid(mask_n))^t) (10)

v_out＝v_n+α×reshape((reshape(v_n)×R_n)) (11)

其中，α是调节分块特征比例的超参数。经过分块特征融合模块，输出特征图将实现各部分特征的融合，相比于多尺度特征映射，采用该模块能够实现不相邻分块特征的灵活组合。

sigmoid函数如公式(12)所示。

训练基于分层及分块特征融合网络模型，是指：对分块特征融合模块的输出进行拼接输入全连接层映射后，利用三元组损失和交叉熵损失组合训练整个基于分层及分块特征融合网络模型，以得到具有高判别性的训练好的基于分层及分块特征融合网络模型。具体包括：

k、对获取到的组合特征进行如下特征映射：

Y＝Separate_fc(v_out) (13)

其中，Separate_fc表示分组的全连接层，是特征映射的输出；

身份识别的具体实现过程如下：

将查询数据集中的每一个样本的特征与注册数据集中的所有特征进行欧氏距离计算，最终将查询数据集中的每个样本识别为注册数据集中与之欧氏距离最小的特征的标签，输出查询样本的身份标签，完成识别。具体是指：

行人特征y经过Softmax转化的即为预测标签；原始的真实标签使用独热(One-hot)向量进行表示；对于行人样本k，构造向量y^(k)，令其第y^(k)(样本k标签类别的离散数值)个元素值为1，其他位置的值为0；训练目标即为使预测概率分布尽可能接近样本k的真实标签的概率分布y^(k)，用于衡量概率分布差异的函数交叉熵即为：

其中，为标签向量y^(k)中的元素，为预测向量中的值；

假设一个批次样本数量为N，交叉熵损失函数定义如下：

将两个损失函数进行加和，最终的损失函数如公式18所示；其中，即为最终的损失函数；采用两种损失函数相结合的方式，既能保证模型快速收敛，同时能够实现比较好的识别效果。

本发明涉及一种基于分层及分块特征融合的跨视角步态识别算法，构建分层步态识别框架，便于从特征提取各个阶段进行特征的映射。构建部分特征混合掩膜，预先对剪影图序列进行处理，使各个部位预先混合其他部位特征，搭建简洁高效的骨架网络进行特征的预提取，同时取高级特征和低级特征输入特征平滑层的瓶颈结构进行特征的进一步提取，接下来使用分块特征融合模块进行各个分块特征的二次分配，实现具有高辨识度的特征获取。最后，在三元组损失和交叉熵损失的联合约束下对整个步态识别框架进行训练。在识别阶段，本发明将待查询身份的步态样本送入训练好的基于分层及分块特征融合的特征提取网络，得到步态特征后与注册数据集的特征进行比对，最终得到查询样本的识别结果。

本实施例中，首先将步态轮廓序列图的大小W×H设置为64×44，并设置部分特征混合掩膜分块数量为32，分级水平金字塔分块组合为[1,2,4],[2,4],[4,8]，部分特征混合掩膜的系数r和分块特征融合模块的系数α均为0.1。本实施例中所有实验均使用SGD优化器进行训练，动量设置为0.9，学习率设置为0.1。三元组损失的余量设置为0.2，权重比例设置为1.0，交叉熵损失的权重比例设置为0.1。训练阶段，对预处理后的每个步态轮廓序列随机选取连续的30帧作为模型输入。测试阶段，预处理后的步态轮廓序列的所有帧均用来获取最终的特征表示，且选择Rank-1准确率衡量模型步态识别性能的精度。

为了验证本发明提出的一种基于分层及分块特征融合的跨视角步态识别方法的先进性，将本发明与现有的7种先进步态识别方法进行比较，包括GEInet、CNN-3D、CNN-LB、ACL、GLN、GaitPart和GaitSet。CASIA-B数据库涵盖11个视角，分布较为全面，因此本发明在CASIA-B数据集上对本发明的跨视角步态识别性能进行了充分的实验。CASIA-B是一个应用广泛的步态数据集，包含124名受试者的13640段视频。每个受试者有10个类型的步态轮廓序列，包括正常行走条件下采集的6个类型(索引为NM#01-06)，背包条件下采集的2个类型(索引为BG#01-02)，穿着外套条件下采集的2个类型(索引为CL#01-02)。每个类型包括11个不同视角(0°-180°间隔18°)的步态轮廓序列。在此实施例中，用CASIA-B数据库前74个受试者的所有步态轮廓序列用于模型训练，剩下50个受试者的步态轮廓序列进行测试。在一个批次中，受试者的数量设置为8人，每个受试者的序列数为16段，模型迭代至20K次和40K次降低学习率为之前的十分之一，累计迭代次数设置为60K次。在测试阶段，正常类型下采样的6个类型的步态轮廓序列中前四个类型(即NM#01-04)作为注册数据集，剩下的NM#05-06、BG#01-02和CL#01-02分别作为查询数据集。表2中列出了本发明和其他6种先进步态识别方法分别在正常、背包和穿着外套这三种行走条件下的跨视角步态识别率。表2中的结果是每个查询视角在除去自身视角外的其他注册视角下进行跨视角识别的平均Rank-1准确率。

表2

由表2可看出，本发明方法在所有跨行走条件情况下，均取得了最好的识别效果。在三种类型的行走条件下，本发明方法的识别率超过所有其他先进的对比方法，分别达到了97.8％、93.5％和81.0％。

实施例3

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现基于分层及分块特征融合的跨视角步态识别方法的步骤。

实施例4

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现基于分层及分块特征融合的跨视角步态识别方法的步骤。

Claims

1.一种基于分层及分块特征融合的跨视角步态识别方法，其特征在于，包括：

构建并训练基于分层及分块特征融合网络模型；

构建部分特征混合掩膜使得步态序列中的行人剪影预先包含其他部位特征；构建骨架网络进行初步的特征提取；构建分级水平金字塔增加网络深度，充分利用步态序列的高级特征和低级特征，构建分级水平金字塔结构，搭配瓶颈结构实现以最小的计算成本提升网络深度，并同时进行通道的平滑连接；构建分块特征融合模块对各个分块特征进行二次分配；

构建分层步态识别框架，是指：从逻辑上将基于分层及分块特征融合网络模型即步态识别网络分为特征提取层、特征连接层和特征映射层，从特征提取各个阶段直接获取特征进行映射；

部分特征混合掩膜通过从步态轮廓序列中获取到一个包含各个身体部位的关系矩阵，其矩阵维度与分块数量有关，该关系矩阵经过与原图像序列乘积得到序列中每张图像的掩膜，覆盖回原图像；构建部分特征混合掩膜，是指：对输入的步态剪影图序列进行预增强，从序列生成混合了各个分块特征的掩膜并覆盖原来的剪影图序列；

构建分级水平金字塔，是指：分级水平金字塔包括帧池化层及瓶颈结构；从骨架网络提取的各个阶段特征首先输入帧池化层提取最大能量帧，将各个阶段提取到的最大能量帧通过若干层瓶颈结构，以极小的计算成本进行网络深度的扩展，随后将各个阶段特征按特定分块组合进行分块；

构建分块特征融合模块，是指：分块特征融合模块用于对分级水平金字塔分块后的特征进行二次分配；分块特征融合模块通过计算各个分块之间的关系系数矩阵，对各个分块的特征进行重新分配，使各个分块融合其他相邻与不相邻分块特征，增强特征的辨别性。

2.根据权利要求1所述的一种基于分层及分块特征融合的跨视角步态识别方法，其特征在于，构建分层步态识别框架，具体是指：

3.根据权利要求1所述的一种基于分层及分块特征融合的跨视角步态识别方法，其特征在于，构建部分特征混合掩膜，具体是指：

d、构建分块关系矩阵，以进行各个分块关系的确定；

4.根据权利要求1所述的一种基于分层及分块特征融合的跨视角步态识别方法，其特征在于，构建骨架网络，是指：骨架网络包括若干卷积层和池化层，输入剪影图序列在骨架网络中进行初级特征及高级特征提取。

5.根据权利要求1所述的一种基于分层及分块特征融合的跨视角步态识别方法，其特征在于，构建分级水平金字塔，具体包括：

g、特征平滑，使用瓶颈结构进行预先的处理；

h、按特定分块组合进行分块。

6.根据权利要求1所述的一种基于分层及分块特征融合的跨视角步态识别方法，其特征在于，训练基于分层及分块特征融合网络模型，是指：对分块特征融合模块的输出进行拼接输入全连接层映射后，利用三元组损失和交叉熵损失组合训练整个基于分层及分块特征融合网络模型，以得到具有高判别性的训练好的基于分层及分块特征融合网络模型。

7.根据权利要求1-6任一所述的一种基于分层及分块特征融合的跨视角步态识别方法，其特征在于，身份识别的具体实现过程如下：

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-7任一所述的基于分层及分块特征融合的跨视角步态识别方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任一所述的基于分层及分块特征融合的跨视角步态识别方法的步骤。