CN111967358B

CN111967358B - 一种基于注意力机制的神经网络步态识别方法

Info

Publication number: CN111967358B
Application number: CN202010778327.7A
Authority: CN
Inventors: 张顺利; 林贝贝
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2020-08-05
Filing date: 2020-08-05
Publication date: 2021-08-31
Anticipated expiration: 2040-08-05
Also published as: CN111967358A

Abstract

本发明提供了一种基于注意力机制的步态识别方法，包括以下步骤：从基准数据集中分割出训练集和测试集；通过未嵌入注意力机制的步态提取模型预训练网络，以此来使得模型对人体步态有好的适应性；在网络中嵌入时域和空域注意力机制模块，并加载预训练的网络模型参数；重新运用数据集训练基于注意力机制的步态识别特征提取模型，以此可以获得较好的步态识别结果。

Description

一种基于注意力机制的神经网络步态识别方法

技术领域

本发明属于模式识别中的步态识别领域，涉及一种基于时间域注意力和空间域注意力的步态识别方法。

背景技术

步态识别是一种根据人体行走时的姿态进行识别的生物识别技术。区别于传统的生物识别技术，步态识别技术具有无需受试者配合以及可以远距离识别的优势。目前，步态识别被广泛用于门禁监控、身份认证等诸多领域，并且人体步态不易于伪装具有唯一性，有助于精确地进行识别工作。具有广泛的应用前景。

一个典型的步态识别系统主要包括三个部分，即步态图像预处理，人体步态特征提取和基于步态特征的识别分类。首先，由于实际情况下采集的人体的步态视频可能存在各种噪声，所以需要对视频进行清洗处理，以便后续阶段对步态识别进行特征提取和识别工作。其次，需要基于预处理后的人体步态视频构建相应的步态数据库，通过人体步态数据库可以训练出适用于提取人体步态特征的特征提取模型。训练出的人体步态特征提取模型可以从清洗过的人体步态视频中生成易于认证的特征向量。最后，基于人体步态特征提取模型的提取结果，利用相应的识别分类模型，就可以得到步态识别分类的结果。

人体步态特征提取模型是步态识别的核心，直接关系到步态识别的效果。目前，人体步态特征提取模型多采用二维卷积模型进行构造，但二维卷积只能提取视频序列中的空间信息而忽视了时域信息。因此，本发明整体的步态特征提取模型是基于三维卷积模型进行构建。另一方面，现有的步态特征提取模型，往往对人体步态的各个特征做等价处理，即人体步态中的每一个特征对于识别过程起相同的效果。这并不符合直观的感受，步态识别的过程往往更加关注人体下肢的运动变化。因此，让特征提取模型能够自适应的学习不同部位的特征权重是至关重要的。引入注意力机制可以让特征提取模型具备自适应学习特征权重的功能，由于采用三维卷积模型构建网络，所以注意力机制又可以进一步的分为时域注意力和空域注意力两部分。而现今的基于注意力机制的步态识别方法，构建的注意力机制存在着信息利用不够全面等问题，存在着一定的提升空间。

发明内容

本发明针对上述的不足之处，本发明的目的就在于提供了一种基于注意力机制的神经网络步态识别方法。

基于注意力机制的神经网络步态识别方法，包括如下步骤：

步骤一)训练基于注意力机制的步态特征提取模型：

构建神经网络的训练集和测试集；

三维卷积神经网络的输入格式设置为B*C*T*H*W，其中B表示批量维度，C表示输入步态图像的通道数，T表示输入的步态视频序列的帧长，H和W为每帧步态视频序列的长和宽；

通过迭代优化策略，利用样本及样本标签预训练步态特征提取模型，使得训练后的步态特征提取模型能从人体步态中提取出较好的特征；

步骤二)在网络中添加注意力机制模块：

加载步骤一)训练后的网络参数，在此基础上嵌入时域注意力机制模块和空域注意力机制模块，重新训练网络；

所述时域注意力机制模块利用权重计算，计算方式如下：

其中F_S为合成的步态特征集，f_t为第t帧的步态特征，总共包含T帧，α_t为第t帧对应的权重；α_t的计算方法为：

对输入的第t帧图像进行3个卷积核为1x1x1的卷积操作，每一个卷积操作得到一张对应的特征图，将第一张特征图和第二张特征图相乘，得到维度为t*t的特征图，表示每一帧对其他帧的编码，通过softmax函数求解概率生成每一帧对于其他帧的权重，再与卷积操作得到的第三张特征图相乘得到α_t；

所述空域注意力机制模块利用权重计算，计算方式如下：

其中X_s为加权后的步态特征图，X_c为原始的特征图，M_s(·)为空域注意力权重，

为点乘操作；M_s(·)的计算方法为：

对输入的图像进行3个卷积核为1x1x1的卷积操作，每一个卷积操作得到一张对应的特征图，将第一张特征图和第二张特征图相乘，得到维度为(h*w)*(h*w)的特征图，表示空间中每一点对其他点的编码，通过softmax函数求解概率生成每一点对于其他点的权重，再与卷积操作得到的第三张特征图相乘得到M_s(·)；

完成时域注意力机制模块和空域注意力机制模块嵌入后，再通过迭代优化策略，使用新的网络结构，利用样本及样本标签预训练，使得训练后的基于注意力机制的步态识别网络能从人体步态中提取出更鲁棒的特征，即可将神经网络用于步态识别。

进一步的，其特征在于，所述训练集和测试集由CASIA-B步态数据集中分割得到。

进一步的，其特征在于，所述神经网络输入归一化至64*44大小。

进一步的，所述步骤二)中，计算α_t和M_s(·)时先对输入图像Max和Mean对通道域的信息进行压缩，将压缩后的图像用于计算α_t和M_s(·)。

本发明针对现有步态识别方法，提供一种基于注意力机制的步态识别方法，该方法利用时域注意力和空域注意力的增强重要特征派生出最佳特征子集进行步态特征提取模型的建立，统一解决现有的步态识别方法中存在的特征集重要信息利用不够全面的问题。

附图说明

为了更清楚地说明本发明的技术方案，下面对实施例描述中所需的附图作简单介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图，这些附图直接得到的技术方案也应属于本发明的保护范围。

图1为时域注意力的框架；

图2为空域注意力的框架。

具体实施方式

本发明的基于注意力机制的步态识别方法，利用中科院发布的CASIA-B步态数据集进行的实验。具体包括以下步骤：

(1)训练基于注意力机制的步态特征提取模型。

1.1)从基准数据集CASIA-B中分割出训练集和测试集。

1.2)三维卷积神经网络的输入大小被设置为B*C*T*H*W，其中B表示批量维度，C表示输入步态图像的通道数，T表示输入的步态视频序列的帧长，H和W为每帧步态视频序列的长和宽。在本方法中将样本归一化至64*44大小。

1.3)通过迭代优化策略，利用样本及样本标签预训练步态特征提取模型，使得训练后的步态特征提取模型能从人体步态中提取出较好的特征。

(2)在网络中添加注意力机制模块。

2.1)在网络中加入注意力机制模块，加载步骤1训练后的网络参数，在此基础上依次嵌入时域和空域注意力机制模块，重新训练网络。

2.2)通过迭代优化策略，使用新的网络结构，利用样本及样本标签预训练，使得训练后的基于注意力机制的步态识别网络能从人体步态中提取出更鲁棒的特征。通过上述训练得到的步态识别网络即可用于步态识别。

其中时域和空域注意力机制模块具体包括：

(1)搭建时域注意力模块。

步态识别中特征提取网络输入的步态视频的长度往往不固定，所以步态识别中一个关键问题是如何合成不定长度的步态视频序列产生的特征集。传统的合成方式主要采用平均合成。平均合成的计算公式如下(1):

其中F_S为合成的步态特征集，f_t为第t帧的步态特征，总共包含T帧。平均合成的方式等价地处理了每一帧的特征，而实际情况中，每一帧对于合成的步态特征集的贡献不一致，需要赋予对应的权重。因此本方法拟采用权重合成的方式生成步态特征集。权重合成的计算公式如下(2):

其中α_t为第t帧对应的权重。α_t的生成过程如图1所示。

其中X为时域注意力机制模块的输入，其对应的维度为c(通道)*t(帧数)*h*w(图片的长宽)。而X₁，X₂，X₃为中间状态的特征图。Y为时域注意力机制加权输出的结果。X₁₂₃为公式(1)中的α_t。整个框架的流程如下：首先通过统计学函数Max和Mean对通道域的信息进行压缩，该操作可以极大的节约显存消耗。通过拼接两个统计学函数的输出结果可以得到X_cat中间状态的特征图。其次通过3个分离的卷积操作进一步的整合X_cat中的通道信息，对应生成X₁，X₂和X₃三个中间状态的特征图，3个卷积的卷积核为1x1x1。X₁,X₂和X₃特征图初始大小均为(1,t,h,w)，生成过程完全等价。但是特征图X₁和X₂将被转换维度并用于生成时域注意力图，而生成的时域注意力图将进一步作用于特征图X₃上生成时序注意力。具体的实施过程，将特征图X₁和X₂的大小分别转换为(t,h*w)和(h*w,t)并进行矩阵相乘。由此可以得到时域注意力图X₁₂，其维度为t*t。第一维度的t表示序列中的所有帧，而第二维度的t表示视频序列中的所有帧对第一维度相应帧的编码，通过softmax函数求解可以将第二维度的特征值转化为相应的概率值，其中概率和为1。该概率值等同于生成了每一帧对于其他帧的权重。最后，通过X₃和X₁₂特征图的乘积可以得到X₁₂₃为最终的每一帧的权重α_t。

(2)搭建空域注意力模块。

步态识别中除了时域需要自适应权重之外，人体步态的特征图即空间域同样需要自适应权重。例如，运动过程中的人体下肢部分产生的特征往往比人体上肢产生的特征更加重要。因此本方法进一步引入了空域注意力模块，空间域注意力的计算公式如下(2):

为点乘操作。M_s(·)的生成过程如图2所示。其中整体流程与图1时域注意力类似。在中间状态特征图X₁，X₂和X₃进行了相应的调整，其中X₁₂是对空间信息进行编码，其维度为(h*w)*(h*w),意味着空间中每一点对其他点的编码，与特征图X₃相乘最后可得到权重特征图X₁₂₃即为公式(2)中的M_s(·)。Y为空域注意力的输出结果。

Claims

1.一种基于注意力机制的神经网络步态识别方法，其特征在于，包括如下步骤：

步骤一)训练基于注意力机制的步态特征提取模型：

构建神经网络的训练集和测试集；

三维卷积神经网络的输入格式设置为B*C*T*H*W，其中B表示批量维度，C表示输入步态图像的通道的数，T表示输入的步态视频序列的帧长，H和W为每帧步态视频序列的长和宽；

步骤二)在网络中添加注意力机制模块：

所述时域注意力机制模块利用权重计算，计算方式如下：

对输入的第t帧图像分别进行3个卷积核为1x1x1的卷积操作，得到三张特征图X₁、X₂和X₃，将特征图X₁和X₂的大小分别转换为(t,h*w)和(h*w,t)并进行矩阵相乘，得到维度为t*t的特征图，表示每一帧对其他帧的编码，通过softmax函数求解概率生成每一帧对于其他帧的权重，再与卷积操作得到的第三张特征图X₃相乘得到α_t；

所述空域注意力机制模块利用权重计算，计算方式如下：

为点乘操作；M_s(·)的计算方法为：

对输入的图像进行3个卷积核为1x1x1的卷积操作，得到三张特征图X₁、X₂和X₃，将特征图X₁和X₂的大小分别转换为(t,h*w)和(h*w,t)并进行矩阵相乘，得到维度为(h*w)*(h*w)的特征图，表示空间中每一点对其他点的编码，通过softmax函数求解概率生成每一点对于其他点的权重，再与卷积操作得到的第三张特征图X₃相乘得到M_s(·)；

2.如权利要求1所述的一种基于注意力机制的神经网络步态识别方法，其特征在于，所述训练集和测试集由CASIA-B步态数据集中分割得到。

3.如权利要求1所述的一种基于注意力机制的神经网络步态识别方法，其特征在于，所述神经网络输入归一化至64*44大小。

4.如权利要求1所述的一种基于注意力机制的神经网络步态识别方法，其特征在于，所述步骤二)中，计算α_t和M_s(·)时先对输入图像通过统计学函数Max和Mean对通道域的信息进行压缩，将压缩后的图像用于计算α_t和M_s(·)。