CN116912949B

CN116912949B - 一种基于视角感知部分明智注意力机制的步态识别方法

Info

Publication number: CN116912949B
Application number: CN202311167350.2A
Authority: CN
Inventors: 单彩峰; 宋旭; 黄延; 贲晛烨
Original assignee: Shandong University of Science and Technology
Current assignee: Shandong University of Science and Technology
Priority date: 2023-09-12
Filing date: 2023-09-12
Publication date: 2023-12-22
Anticipated expiration: 2043-09-12
Also published as: CN116912949A

Abstract

本发明公开了一种基于视角感知部分明智注意力机制的步态识别方法，属于步态识别领域，其步骤为：构造数据集并划分为训练集和测试集，构建步态特征提取网络，其包括帧级特征编码器、序列级特征编码器和全连接层；构建视角感知部分明智注意力机制，利用部分级细粒度通道注意信息来选择视角信息最多的通道，并捕获部分级特征中的通道间关系；步态特征提取网络和视角感知部分明智注意力机制共同构成视角感知步态识别模型，采用三元组损失、身份交叉熵损失和视角交叉熵损失以及训练集训练该模型直到满足训练次数，用测试集测试训练完成的模型。本发明能够提取丰富的时间特征，实现步态识别系统识别性能的提升。

Description

一种基于视角感知部分明智注意力机制的步态识别方法

技术领域

本发明属于步态识别技术领域，具体涉及一种基于视角感知部分明智注意力机制的步态识别系统性能优化方法。

背景技术

步态识别作为一种根据行人的体型和行走风格判断行人身份的新兴生物特征识别技术，在模式识别领域的研究正逐渐受到关注。相比于其他生物特征识别技术如指纹识别，人脸识别，步态识别具有能够实现远距离，任意视角，任意姿态条件下行人身份识别的优点。采用深度学习技术设计出的高性能步态识别技术，能够广泛应用道路监控、机场安全、刑事追踪等领域。

由于相机视角、行人服装和携带条件等协变量因素的变化而引起的步态模式的变化，会显著影响步态识别系统的准确性，因此需要提取鉴别力强的步态特征。现有步态特征提取方法引入了各种约束条件来处理协变量的变化，例如引入视角感知约束，通过利用已知的视角信息监督和约束步态特征提取模型学习过程，将视角信息嵌入到步态特征提取模型中，减少视角差异导致的负面影响，从而提高步态特征提取模型在协变量变化条件的有效性。然而当前方法存在两个主要的缺点：

（1）在视角感知约束上，现有方法直接利用视角标签对步态特征提取模型提取的特征进行监督和约束，忽略了不同身体部位对于视角信息的不同敏感性，不能有效地将视角感知约束和行人步态特征结合，导致这些方法不能够充分地发挥视角信息的作用。（2）在步态特征提取上，现有方法通过元素相加的方式对所有帧的进行组合获取长期特征，缺少对长时间跨度序列中运动变化的建模，不能充分地挖掘多样的步态中时间特征。

发明内容

针对现有技术中存在的上述问题，本发明提出了一种基于视角感知部分明智注意力机制的步态识别方法，设计合理，解决了现有技术的不足，具有良好的效果。

为了实现上述发明目的，本发明采取以下技术方案：

一种基于视角感知部分明智注意力机制的步态识别方法，包括以下步骤：

S1、构造数据集D并划分为训练集D_train和测试集D_test；

S2、构建步态特征提取网络，所述步态特征提取网络包括帧级特征编码器FLFE、序列级特征编码器SLFE和全连接层，其中FLFE用于提取轮廓序列各帧的空间特征，SLFE用于聚合时间信息；

S3、构建视角感知部分明智注意力机制，利用部分级细粒度通道注意信息来选择视角信息最多的通道，并捕获部分级特征中的通道间关系；

S4、步态特征提取网络和视角感知部分明智注意力机制共同构成视角感知步态识别模型，采用三元组损失、身份交叉熵损失和视角交叉熵损失以及训练集D_train训练该模型直到满足训练次数，用测试集D_test测试训练完成的模型。

进一步地，在S1中，将全部N个行人不用视角、不同行走条件步态视频数据，使用预处理算法获取图像大小为H×W的步态轮廓序列组成数据集D，将数据集划分为训练集D_train和测试集D_test。

进一步地，所述FLFE由4个2D卷积层、1个最大池化层和1个水平池化层串联组成，其链接顺序为2D卷积层C1、2D卷积层C2、最大池化层、2D卷积层C3、2D卷积层C4、水平池化层，其中4个卷积层的卷积核大小均为3×3，输出通道数量依次为32、64、128、128，最大池化层和水平池化层的池化核大小为2×2；

所述FLFE的输入为步态轮廓序列，定义为，表示步态序列第帧步态轮廓图，维度为1×H×W，分别代表图像的通道数、高和宽，经过4层2D卷积和1层最大池化后的步态轮廓特征大小为128×h×w，其中h= H/2，w= W/2，然后在水平池化层中，将每一帧步态轮廓特征分成p份，每一份大小为128×1×w，然后分别对每一份在空间维度进行全局最大池化和全局平均池化，得到p份128维特征，记为，维度为128×p，最终输出的一个序列步态轮廓特征记为。

进一步地，所述SLFE包括多尺度膨胀时间特征提取器MSDTE和集合池化层，所述MSDTE由两部分结构组成，第一部分结构由1D卷积层、1D批归一化层、1D卷积层、1D批归一化层依次串联组成，两个ID卷积层的卷积核大小为3，膨胀率为1，第二部分结构由1D卷积层、1D批归一化层、第二1D卷积层、1D批归一化层依次串联组成，两个1D卷积层的卷积核大小为3，膨胀率为2；

帧级特征分别经过第一和第二部分结构生成短期特征和长期特征，、和的维度相同，不同尺度的步态特征采用拼接方式进行聚合，通过一个时间池化层输出序列级特征，序列级特征输入到全连接层中，生成步态特征，维度为256×h。

进一步地，在所述S3中，步态特征被划分为个部分，将每个部分步态特征输入到一个通道注意模块，该模块由两个1D卷积层、1个ReLu激活函数层和1个Sigmoid层级联组成，其链接顺序为1D卷积层、ReLu激活函数层、1D卷积层、Sigmoid层，利用该模块生成一个通道分数，与部分步态特征相乘，生成最终的部分级视角特征，表示为：

；

其中，和表示一维卷积层的参数矩阵；

将个部分级视角特征连接在一起获得视角特征，将添加到步态特征中，产生具有视图感知的步态特征，进行步态识别。

进一步地，在所述S4中，设步态轮廓序列组的样本三元组为R=（Q，P，N），其中Q和P来自同一受试者，Q和N来自两个不同的受试者；

三元组损失表示为：

；

其中是类内距离和类间距离之间的阈值；

交叉熵损失包含身份交叉熵和视角交叉熵两部分，表示为：

；

其中，表示样本数量，是类别数量，标签表示第样本的身份类别是第类，标签表示第样本的视角类别是第类，表示第样本的类别是预测概率；

总损失表示为：

；

其中，、和为超参数；

在训练阶段，每一次训练从训练集中采样P×K个样本，将三元组损失的阈值设置为0.2，并选择Adam优化器进行训练；在测试阶段，将整个步态轮廓序列直接输入模型进行特征提取。

有益技术效果：

本发明设计了基于视角感知部分注意力机制的步态识别方法，在步态特征模型训练过程中，有效地提取了部分级别上的显著视图特征，充分利用了视角信息对于识别的积极作用，提高了步态特征的鉴别力。并设计了基于膨胀卷积的多尺度膨胀时间特征提取器，建立一个新的步态特征提取模型，能够提取丰富的时间特征，实现步态识别系统识别性能的提升。

附图说明

图1是本发明中步态识别方法实现流程图。

图2是本发明中步态提取网络结构图。

图3是本发明中水平池化结构图。

图4是本发明中多尺度膨胀时间特征提取器结构图。

图5是本发明中视角感知部分明智注意力机制结构图。

图6是本发明中通道注意力模块结构图。

图7是本发明中视角感知步态识别模型训练框架图。

具体实施方式

为了使本发明的目的、技术方案以及优点部分更加明确，以下结合附图及实施例，对本发明做进一步的详细说明。下面通过参考附图描述的实例属于示例性质，并不能认为是对本发明的限制。需要理解的是，在本发明的描述中，所涉及到如顶、底、上、下、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

为进一步说明本发明的技术方案，下面将通过具体实施例进行详细说明。

一种基于视角感知部分明智注意力机制的步态识别方法，如图1所示，包括以下步骤：

S1、构造数据集D并划分为训练集D_train和测试集D_test；

在S1中，将全部N个行人不用视角、不同行走条件步态视频数据，使用预处理算法获取图像大小为H×W的步态轮廓序列组成数据集D，将数据集划分为训练集D_train和测试集D_test；

S2、构建步态特征提取网络，如图2所示，步态特征提取网络包括帧级特征编码器FLFE、序列级特征编码器SLFE和全连接层，其中FLFE用于提取轮廓序列各帧的空间特征，SLFE用于聚合时间信息；

FLFE由4个2D卷积层、1个最大池化层和1个水平池化层串联组成，其链接顺序为2D卷积层C1、2D卷积层C2、最大池化层、2D卷积层C3、2D卷积层C4、水平池化层，其中4个卷积层的卷积核大小均为3×3，输出通道数量依次为32、64、128、128，最大池化层和水平池化层的池化核大小为2×2；

FLFE的输入为步态轮廓序列，定义为，表示步态序列第帧步态轮廓图，维度为1×H×W，分别代表图像的通道数、高和宽，经过4层2D卷积和1层最大池化后的步态轮廓特征大小为128×p×w，其中p= H/2，w= W/2，然后在水平池化层中，如图3 所示，将每一帧步态轮廓特征分成p份，每一份大小为128×1×w，然后分别对每一份在空间维度进行全局最大池化和全局平均池化，得到p份128维特征，记为，维度为128×p，最终输出的一个序列步态轮廓特征记为；

SLFE包括多尺度膨胀时间特征提取器MSDTE和集合池化层，考虑到不同的主体在不同的时间尺度上可能存在不同的特征，本发明提出MSDTE来丰富时间特征的多样性。如图4所示，MSDTE由两部分结构组成，第一部分结构由1D卷积层、1D批归一化层、1D卷积层、1D批归一化层依次串联组成，两个ID卷积层的卷积核大小为3，膨胀率为1，能够有效地提取段时间的时间运动模式和细微的变化；第二部分结构由1D卷积层、1D批归一化层、1D卷积层、1D批归一化层依次串联组成，两个1D卷积层的卷积核大小为3，膨胀率为2，能够捕捉更大时间尺度的步态特征；

帧级特征分别经过第一和第二部分结构生成短期特征和长期特征，、、的维度相同，不同尺度的步态特征、和采用拼接方式进行聚合，然后通过一个时间池化层输出序列级特征，最后将序列级特征输入到全连接层中，生成步态特征，维度为 256×h。

考虑到不同身体部位对视角变化的敏感性不同，本发明的方法旨在训练过程中利用注意机制动态定位视角敏感部位。具体地，在S3中，如图5和6所示，步态特征被划分为个部分，将每个部分步态特征输入到一个通道注意模块，该模块由两个1D卷积层、1个 ReLu激活函数层和1个Sigmoid层级联组成，其链接顺序为1D卷积层、ReLu激活函数层、1D卷积层、Sigmoid层，利用该模块生成一个通道分数，与部分步态特征相乘，生成最终的部分级视角特征，表示为：

；

其中，和表示一维卷积层的参数矩阵；

将个部分级视角特征连接在一起获得视角特征，将添加到步态特征中，产生具有视图感知的步态特征。

这些具有视图感知能力的步态特征利用了从VPA模型中获得的丰富的视图特定信息。最后，利用结合了原始步态特征和VPA模块捕获的视图感知信息的增强表示，即视图感知步态特征，进行步态识别。

S4、步态特征提取网络和视角感知部分明智注意力机制共同构成视角感知步态识别模型，采用三元组损失、身份交叉熵损失和视角交叉熵损失以及训练集D_train训练该模型直到满足训练次数，用测试集D_test测试训练完成的模型，如图7所示。

在S4中，设步态轮廓序列组的样本三元组为R=（Q，P，N），其中Q和P来自同一受试者，Q和N来自两个不同的受试者；

三元组损失表示为：

；

其中是类内距离和类间距离之间的阈值；对于三元组R，每个步态特征分为h部分特征，本发明计算了每部分相应特征三元组的三元组损失，即计算了h个三元组损失。

交叉熵损失包含身份交叉熵和视角交叉熵两部分，表示为：

；

总损失表示为：

；

其中，、和为超参数。

在训练阶段，每一次训练从训练集中采样个样本，表示该批次人数，表示该批次中每人的训练样本数，具体参数和均设置为8。另外，由于步态视频的长度可能会发生变化，因此训练阶段需要一个固定长度的序列作为输入。具体来说，每个样本序列的长度被设置为30帧，如果一个原始视频的长度小于15帧，它将被丢弃。当长度超过15帧但小于30帧时，它会被重复采样。将三元组损失的阈值m设置为0.2，并选择Adam优化器进行训练。训练次数被设置为2000，学习速率被初始化为0.0003，然后经过15000次训练后减少到 0.00002，、和均为1.0，在测试阶段，将整个步态轮廓序列直接输入模型进行特征提取。

本发明模型在跨视角正常行走，跨视角带背包行走，跨视角换外套行走条件下分别获得了98.5%, 95.7%和91.0%的准确率，目前最先进的现有技术在跨视角正常行走，跨视角带背包行走，跨视角换外套行走条件下分别获得了98.1%、95.2%与88.0%准确率。此外，本发明的视角感知部分明智注意力机制的灵活性允许它应用于不同的步态识别网络，产生一致的性能改进。如应用在步态特征提取网络GaitPart上，促进GaitPart在跨视角正常行走，跨视角带背包行走，跨视角换外套行走条件下准确率分别提升了0.4%，0.5%和2.9%。

当然，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

1.一种基于视角感知部分明智注意力机制的步态识别方法，其特征在于，包括以下步骤：

S1、构造数据集D并划分为训练集D_train和测试集D_test；

S2、构建步态特征提取网络，所述步态特征提取网络包括帧级特征编码器、序列级特征编码器和全连接层，其中帧级特征编码器用于提取轮廓序列各帧的空间特征，序列级特征编码器用于聚合时间信息；

在所述S3中，步态特征F_g被划分为p个部分，将每个部分步态特征F_gj输入到一个通道注意模块，该模块由两个1D卷积层、1个ReLu激活函数层和1个Sigmoid层级联组成，其链接顺序为1D卷积层、ReLu激活函数层、1D卷积层、Sigmoid层，利用该模块生成一个通道分数m_j，m_j与部分步态特征F_gj相乘，生成最终的部分级视角特征F_vj，表示为：

F_vj＝Sigmoid(W₁(ReLu(W₂(F_gj))))×F_gj；

其中，W₁和W₂表示一维卷积层的参数矩阵；

将p个部分级视角特征连接在一起获得视角特征F_v，将F_v添加到步态特征F_g中，产生具有视图感知的步态特征F_vg，进行步态识别；

2.根据权利要求1所述的一种基于视角感知部分明智注意力机制的步态识别方法，其特征在于，在S1中，将全部N个行人不用视角、不同行走条件步态视频数据，使用预处理算法获取图像大小为H×W的步态轮廓序列组成数据集D，将数据集划分为训练集D_train和测试集D_test。

3.根据权利要求1所述的一种基于视角感知部分明智注意力机制的步态识别方法，其特征在于，所述帧级特征编码器由4个2D卷积层、1个最大池化层和1个水平池化层串联组成，其链接顺序为2D卷积层C1、2D卷积层C2、最大池化层、2D卷积层C3、2D卷积层C4、水平池化层，其中4个卷积层的卷积核大小均为3×3，输出通道数量依次为32、64、128、128，最大池化层和水平池化层的池化核大小为2×2；

所述帧级特征编码器的输入为步态轮廓序列，定义为X＝{x₁,x₂,…,x_n}，x_n表示步态序列第n帧步态轮廓图，维度为1×H×W，分别代表图像的通道数、高和宽，经过4层2D卷积和1层最大池化后的步态轮廓特征大小为128×h×w，其中h＝H/2，w＝W/2，然后在水平池化层中，将每一帧步态轮廓特征分成p份，每一份大小为128×1×w，然后分别对每一份在空间维度进行全局最大池化和全局平均池化，得到p份128维特征，记为f_f，维度为128×p，最终输出的一个序列步态轮廓特征记为F_f＝f_f1,f_f2,…,f_fn}。

4.根据权利要求3所述的一种基于视角感知部分明智注意力机制的步态识别方法，其特征在于，所述序列级特征编码器包括多尺度膨胀时间特征提取器MSDTE和集合池化层，所述MSDTE由两部分结构组成，第一部分结构由1D卷积层、1D批归一化层、1D卷积层、1D批归一化层依次串联组成，两个ID卷积层的卷积核大小为3，膨胀率为1，第二部分结构由1D卷积层、1D批归一化层、第二1D卷积层、1D批归一化层依次串联组成，两个1D卷积层的卷积核大小为3，膨胀率为2；

帧级特征}_f分别经过第一和第二部分结构生成短期特征F_s和长期特征F_l，F_f、F_s和F_l的维度相同，不同尺度的步态特征采用拼接方式进行聚合，通过一个时间池化层输出序列级特征，序列级特征输入到全连接层中，生成步态特征F_g，维度为256×h。

5.根据权利要求1所述的一种基于视角感知部分明智注意力机制的步态识别方法，其特征在于，在所述S4中，设步态轮廓序列组的样本三元组为R＝(Q，P，N)，其中Q和P来自同一受试者，Q和N来自两个不同的受试者；

三元组损失L_tp表示为：

L_tp(R)＝max(m+D_Q,P-D_Q,N,0)；

其中m是类内距离D_Q,P和类间距离D_Q,N之间的阈值；

交叉熵损失L_ce包含身份交叉熵L_ice和视角交叉熵L_vce两部分，表示为：

其中，N表示样本数量，M是类别数量，标签表示第i样本的身份类别是第j类，标签/>表示第i样本的视角类别是第j类，p_ij表示第i样本的类别是j预测概率；

总损失L表示为：

L＝α×L_tp+β×L_ice+γ×L_vce；

其中α、β和γ为超参数；

在训练阶段，每一次训练从训练集中采样P×K个样本，将三元组损失的阈值m设置为0.2，并选择Adam优化器进行训练；在测试阶段，将整个步态轮廓序列直接输入模型进行特征提取。