CN113947814A

CN113947814A - 一种基于时空信息增强和多尺度显著性特征提取的跨视角步态识别方法

Info

Publication number: CN113947814A
Application number: CN202111259508.XA
Authority: CN
Inventors: 贲晛烨; 黄天欢; 周洪超; 姚军; 刘畅; 许文正; 姚云鹏
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-10-28
Filing date: 2021-10-28
Publication date: 2022-01-18
Anticipated expiration: 2041-10-28
Also published as: CN113947814B

Abstract

本发明涉及一种基于时空信息增强和多尺度显著性特征提取的跨视角步态识别方法，包括步态轮廓预处理、构建双注意力残差学习块、骨架网络构建、多尺度显著性特征提取模块构建、整体框架训练及跨视角步态识别。将步态样本进行轮廓矫正处理后作为输入数据。设计基于3D卷积的双注意残差学习块并以此作为基本块构建骨架网络，逐步提升网络对时空信息重要性的感知能力，有效过滤干扰信息。为了充分挖掘显著性的细粒度特征以获取更为鲁棒的局部特征表示，设计多尺度的显著性特征提取模块对骨架网络获取的全局特征进行进一步的信息提取。为了提升整个框架的判别性特征表示能力使用三元组损失进行整个框架训练，最终利用训好的模型进行跨视角的步态识别。

Description

一种基于时空信息增强和多尺度显著性特征提取的跨视角步态识别方法

技术领域

本发明涉及一种基于时空信息增强和多尺度显著性特征提取的跨视角步态识别方法，属于深度学习和模式识别技术领域。

背景技术

步态识别是一种通过识别人的体型和行走方式进行身份识别的技术。与指纹、虹膜、人脸等生物特征相比，步态可以在远距离、低分辨率场景及不需要被受试者配合的情况下进行，且难以伪装。因此，步态识别可以广泛应用于多种特殊领域。然而，步态识别受到许多外部因素的影响，如服装、携带条件和相机视角的变化。其中，视角变化是影响步态识别性能最主要的因素之一，因为不同的视角会带来巨大的外观差异。

传统的跨视角步态识别主要基于公共空间的投影学习，这类步态识别方法产生了令人鼓舞的性能提升。然而，较大的视角差异仍然严重影响步态识别的性能。

近年来，基于深度学习的跨视角步态识别技术取得了巨大的成功。这些方法可以分为三类，即基于模型、基于模板和基于序列的方法。第一类方法利用3D信息重构人体的3D模型，这类方法通常依赖于多个高分辨率相机，且容易受到姿态估计的准确性和剪影序列质量的影响。第二类方法将步态序列的轮廓信息聚合到一个模板中，该算法虽然简单，但忽略了步态序列中的时间信息。第三类方法直接从原始的步态轮廓序列中提取步态特征，以保留更多的时间信息。这类方法包括两种时空信息的建模方式：顺序建模和利用3D卷积同时建模。序列建模在提取帧级别的特征后，再利用时间模型对时间信息进行编码。而采用3D卷积同时建模是一种相对较新的步态识别方法，使得跨视角的步态识别性能得到了显著提升。然而，目前基于序列的方法仍存在以下缺点：1)序列建模可能会破坏时空信息的协同作用，使序列中的时空信息难以充分挖掘。2)基于3D卷积的方法在全局时空信息提取后直接进行简单的局部特征映射，不足以捕获更为复杂和关键的时空特征，且缺乏对部分特征的进一步信息提取。

因此，如何有效提取步态序列中的关键时空信息，并提升网络对部分特征的表示能力是基于深度学习的跨视角步态识别性能提升的关键。

发明内容

针对现有技术的不足，本发明提供一种基于时空信息增强和多尺度显著性特征提取的跨视角步态识别方法。

发明概述：

一种基于时空信息增强和多尺度显著性特征提取的跨视角步态识别方法，包括步态样本预处理、双注意力残差学习块设计、骨架网络构建、多尺度显著性特征提取模块设计、整体框架训练及跨视角步态识别。

为了避免步态序列尺度不同造成的干扰，将步态样本进行轮廓矫正处理后作为输入数据。为了充分提取步态序列包含的重要时空信息，设计基于3D卷积的双注意残差学习块并以此作为基本块构建骨架网络，逐步提升网络对时空信息重要性的感知能力，有效过滤干扰信息。为了充分挖掘显著性的细粒度特征以获取更为鲁棒的局部特征表示，设计多尺度的显著性特征提取模块对骨架网络获取的全局特征进行进一步的信息提取。为了提升整个框架的判别性特征表示能力，使用三元组损失进行整个框架的模型训练，最终利用训练好的模型进行跨视角的步态识别。

术语解释：

1、注册数据集(gallery)：指提前录入的已知标签的步态样本所构成的数据集。

2、查询数据集(probe)：指用来作为测试输入、待识别的步态样本所构成的数据集。

3、步态识别：指将查询数据集中的每个样本与注册数据集中的所有样本进行比对，并将查询数据集中的样本识别为与注册数据集中最接近的那个样本标签。

4、跨视角步态识别：指注册数据集和查询数据集中的步态样本在不同视角下采集，利用注册数据集中已知的单个视角下的步态样本建模，实现不同视角下采集的查询数据集的识别。

本发明的技术方案如下：

一种基于时空信息增强和多尺度显著性特征提取的跨视角步态识别方法，包括步骤如下：

(1)构建整个基于时空信息增强和多尺度显著性特征提取网络并进行训练，包括：

A、步态轮廓预处理

对步态轮廓图进行轮廓矫正，使人体轮廓位于图像中心，同时将矫正后的步态轮廓图进行尺寸调整；

B、构建双注意力残差学习块

双注意力残差学习块包括时空双注意力单元、三个并行的核大小分别为3×3×3，1×3×3，3×1×1的3D卷积层、一个用于调整通道数进行残差学习的1×1×1卷积层、一个逐元素相加操作以及一个Leaky ReLU激活函数；

输入首先进入时空双注意力单元，随后进入三个并行的3D卷积分支并将输出进行逐元素相加；最后进行残差学习并将残差学习的结果进行Leaky ReLU的非线性激活，以获取最终的输出；

C、构建骨架网络

骨架网络包括若干初始层以及3个堆叠的双注意力残差学习块；

输入的剪影序列首先在初始层进行处理以提取浅层的时空信息，随后顺序通过3个双注意力残差学习块，通过最大化各级时间注意力和空间注意力的互补性，逐级过滤干扰信息；

D、构建多尺度显著性特征提取模块

多尺度显著性特征提取模块包括一个多尺度的显著性提取器和一个多尺度的显著性聚合器；

E、整个基于时空信息增强和多尺度显著性特征提取网络训练

整个基于时空信息增强和多尺度显著性特征提取网络包括骨架网络、多尺度显著性特征提取模块；

对多尺度显著性特征提取模块的输出进行简单的分组全连接映射后，利用三元组损失训练整个基于时空信息增强和多尺度显著性特征提取网络；

(2)跨视角步态识别

获取待识别身份的步态轮廓序列并通过步骤A所述的步态轮廓预处理后，将得到的待识别身份的步态轮廓序列送入训练好的基于时空信息增强和多尺度的显著性特征提取网络获取步态特征，通过与注册数据集进行特征相似性比对完成待测样本的身份识别。

根据本发明优选的，步骤A中，通过CASIA-B数据库和OUISIR数据库获取步态轮廓序列。

根据本发明优选的，步骤A，步态轮廓预处理，是指：对每个步态轮廓序列进行如下处理：

a、读取每个步态轮廓序列，将包括行人的部分置于每帧图像的中心，并对图像进行矫正使得行人头部置于图像的上边缘，脚置于图像的下边缘；

b、将步骤a得到的矫正后的步态轮廓序列调整成相同的图像大小W×H，得到最终处理好的行人轮廓序列。

根据本发明优选的，所述步骤B，构建双注意力残差学习块，包括：

c、构建时空双注意力单元，时空双注意力单元包括左边、右边两个平行的注意力分支，左边注意力分支是时间注意力分支，探索时间轴上特征之间的相关性，右边是空间注意分支，探索空间维度内具有强语义的特征；

时间注意力分支中，输入X∈R^{N×C×T×H×W}，N、C、T、H、W分别表示batch大小、通道数、输入序列的帧数、高度、宽度；首先，在通道维度进行平均操作获得一个全局的时空张量F∈R^N ^×1×T×H×W；然后，通过平均池化对F的时空信息进行聚合得张量F_t∈R^{N×1×T×1×1}，并将张量F_t送入一个核大小为3×1×1的3D卷积层K_t，最后，获取时间注意力得分S_t∈R^{N×1×T×1×1}，表示如式(Ⅰ)所示：

S_t＝K_t*F_t (Ⅰ)

空间注意力分支中，输入X∈R^{N×C×T×H×W}，首先，在通道维度进行平均操作获得一个全局的时空张量F∈R^{N×1×T×H×W}；然后，通过平均池化对F的时间轴进行压缩得张量F_s∈R^N ^×1×1×H×W，并使用一个核大小为1×3×3的3D卷积层K_s，最后，获取空间注意力得分S_s∈R^N ^×1×1×H×W,表示如式(Ⅱ)所示：

S_s＝K_s*F_s (Ⅱ)

将时间注意力得分、空间注意力得分以一种逐元素相乘的方式进行聚合，并送入一个sigmoid激活函数σ，获取最终的时空注意力掩码M∈R^{N×1×T×H×W}，表示如式(Ⅲ)所示：

M＝σ(S_t×S_s) (Ⅲ)

对于输入X∈R^{N×C×T×H×W}，时空双注意力单元的最终输出Y_stda∈R^{N×C×T×H×W}如式(Ⅳ)所示：

Y_stda＝X+X⊙M (Ⅳ)

d、将步骤c中的时空双注意力单元嵌入改进后的Inflated 3D ConvNet子模块的头部，并引入残差学习机制，构成双注意力残差学习块。

令Y_stda∈R^{N×C×T×H×W}和Y_darl∈R^{N×C×T×H×W}分别表示时空双注意单元和双注意力残差学习块的输出，输入X∈R^{N×C×T×H×W}首先送入时空双注意力单元得到输出Y_stda，随后将Y_stda分别送入3×3×3的卷积层、1×3×3的卷积层、3×1×1的卷积层这三个分支并进行逐元素相加得Y_con，表示如式(Ⅴ)所示：

Y_con＝W₁Y_stda+W₂Y_stda+W₃Y_stda (Ⅴ)

式(Ⅴ)中，W₁、W₂、W₃分别表示三个并行的核大小分别为3×3×3，1×3×3，3×1×1的3D卷积层；

最终对输入X进行残差学习，表示如式(Ⅵ)所示：

Y_dare＝δ(Y_con+W₄X) (Ⅵ)

式(Ⅵ)中，W₄是一个用于匹配通道数的3D卷积层，δ表示Leaky ReLU激活。

根据本发明优选的，所述步骤C，骨架网络构建，包括：

骨架网络包括若干初始层以及3个堆叠的双注意力残差学习块；初始层包括两个基本的3D卷积层：第一层3D卷积层用于提取浅层时空信息并将输出输入第二层3D卷积层，第二层3D卷积层用于整合局部序列片段的时间信息；3个堆叠的双注意力残差学习块以初始层的输出特征作为输入，并将前一个双注意力残差学习块的输出作为下一个双注意力残差学习块的输入，以此逐级前向传播；

根据本发明优选的，所述步骤D，构建多尺度显著性特征提取模块，包括：

e、构建多尺度的显著性提取器，首先，将从骨架网络获取的特征图F_back∈R^N ^×C×T×H×W沿着水平方向划分成K个基于部分的带状空间，每个带状空间大小为N×C×T×(H/K)×W；然后，将每个带状空间的尺度调整为N×C×T×K×W'，并对每个带状空间使用一个由三个平行的具有不同膨胀率的1D卷积组成的空间金字塔卷积层，获取每个带状空间内的多尺度信息；将这三个平行的具有不同膨胀率的1D卷积的输出按通道级联，生成形状大小为N×3C×T×K×W'的多尺度特征描述子；最后，在多尺度特征描述子上采用全局最大池化操作并得到多尺度特征向量Z∈R^N×3C×K×W'；

f、构建多尺度的显著性聚合器，对每个带状空间进行显著性特征选择并实现自适应的特征聚合；多尺度的显著性聚合器包括softmax激活、逐元素乘法⊙和一个加权和操作；对步骤e获取的特征向量Z进行softmax激活，得到显著性敏感权值张量W∈R^N×3C×K×W'；聚合后的显著局部特征Sal(X)以及显著性敏感权值张量W分别如式(VII)、式(Ⅷ)所示：

Sal(X)＝ψ(W⊙Z)(VII)

W＝Softmax(Z)(Ⅷ)

式(VII)中，Sal(X)∈R^N×3C×K，ψ表示加权和操作；

根据本发明优选的，步骤E，训练整个基于时空信息增强和多尺度显著性特征提取网络，包括：

g、对显著的局部特征Sal(X)进行如式(Ⅸ)所示的特征映射：

Y＝Separate_fc(Sal(X)) (Ⅸ)

式(Ⅸ)中，Separate_fc表示分组的全连接层，

是特征映射后的输出；

h、利用三元组损失对特征Y中包含的K个带状空间特征分别进行判别性约束，并以减小三元组损失为训练目标，训练整个基于时空信息增强和多尺度显著性特征提取网络，损失函数具体如式(Ⅹ)、式(Ⅺ)所示：

式(Ⅹ)、式(Ⅺ)中，(U,V)表示一个mini-batch中受试者的数量和每个受试者的步态轮廓序列数，

表示损失中非零项的个数，K表示水平划分带状空间的个数，m表示三元组损失的余量(Margin)，

表示第u个受试者第v个步态轮廓序列特征Y的第k个带状空间特征(

类似)，d₊和d_-分别测量正样本对和负样本对特征之间的相似性。

根据本发明优选的，步骤(2)中，步态轮廓序列是实际场景中摄像头采集到的行人视频经分割所得。

根据本发明优选的，步骤(2)中，跨视角步态识别，包括：

i、根据训练好的基于时空信息增强和多尺度的显著性特征提取网络，将注册数据集经步骤A后送入训练好的基于时空信息增强和多尺度的显著性特征提取网络中，将训练好的基于时空信息增强和多尺度的显著性特征提取网络输出的K个带状特征进行级联作为每个步态轮廓序列的整体特征表示，最终得到注册数据集的特征数据库；

j、将待识别的查询数据集中的样本经步骤A后，送入训练好的基于时空信息增强和多尺度的显著性特征提取网络，得到查询数据集的特征；将查询数据集中的每一个步态样本特征与步骤i中得到的注册数据集中的所有特征进行欧氏距离计算，最终将该查询样本识别为注册数据集中与之欧氏距离最小的特征的标签，输出查询样本的身份标签，完成识别。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现基于时空信息增强和多尺度显著性特征提取的跨视角步态识别方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现基于时空信息增强和多尺度显著性特征提取的跨视角步态识别方法的步骤。

本发明的有益效果为：

1、本发明提出的双注意残差学习块，通过引入稀疏性实现了计算资源和网络性能的平衡。同时时空双注意机制的引入，有效增强了模块对时空信息重要性的感知能力。

2、本发明提出的基于时空信息增强和多尺度显著性特征提取网络以注意残差学习块为基本块并通过逐层连接的方式构建骨架网络。多级的时空双注意力刺激，使得骨架网络能够有效地逐级过滤干扰信息，实现对步态轮廓序列的全局关键时空信息提取。

3、本发明提出的多尺度显著性特征提取模块，能够对骨架网络获取的全局特征进行多尺度的显著性特征提取以挖掘更为鲁棒的细粒度特征，有效提升了模型对局部特征的表示能力。同时该模块实现了自适应的显著性特征聚合而不需引入额外的参数。

附图说明

图1为本发明中时空双注意力单元的结构示意图；

图2(a)为现有的Inflated 3D ConvNet子模块的结构示意图；

图2(b)为本发明双注意力残差学习块的结构示意图；

图3为本发明提出的基于时空信息增强和多尺度显著性特征提取的跨视角步态识别方法的整体框架图；

图4为本发明中多尺度显著性特征提取模块的结构示意图。

具体实施方式

下面结合说明书附图和实施例对本发明作进一步限定，但不限于此。

实施例1

A、步态轮廓预处理

通过CASIA-B数据库和OUISIR数据库获取步态轮廓序列，对步态轮廓图进行轮廓矫正，使人体轮廓位于图像中心，以避免因行人距离摄像头距离的不同所造成的干扰；同时将矫正后的步态轮廓图进行尺寸调整；给定包含N个步态轮廓序列的注册数据集X＝{x_i|i＝1,2,…,N}；

对每个步态轮廓序列(一个步态轮廓序列即一个步态轮廓视频，包含多张/多帧步态轮廓图)进行如下处理：

b、将步骤a得到的矫正后的步态轮廓序列调整成相同的图像大小W×H，得到最终处理好的行人轮廓序列，作为基于时空信息增强和多尺度显著性特征提取网络的输入。

B、构建双注意力残差学习块

双注意力残差学习块以Inflated 3D ConvNet的子模块为原型，在原始Inflated3D ConvNet的子模块(如附图2(a)所示)中引入稀疏性，以缓解对计算资源的需求。同时在头部嵌入一个时空双注意单元，以提升该模块对与时空信息重要性的感知能力，最后利用残差学习机制，确保网络性能不会因为宽度的增加而有明显的下降。

双注意力残差学习块的具体结构如附图2(b)所示，双注意力残差学习块包括头部的时空双注意力单元(STDA Unit)、三个并行的核大小分别为3×3×3，1×3×3，3×1×1的3D卷积层、一个用于调整通道数进行残差学习的1×1×1卷积层、一个逐元素相加操作(Element-wise Addition)以及一个Leaky ReLU激活函数；

构建双注意力残差学习块，包括：

c、构建时空双注意力单元，如图1所示，以有效地增强重要的时空信息、抑制非区分性时空信息。如附图1所示，时空双注意力单元包括左边、右边两个平行的注意力分支，左边注意力分支是时间注意力分支，探索时间轴上特征之间的相关性，右边是空间注意分支，探索空间维度内具有强语义的特征；

S_t＝K_t*F_t (Ⅰ)

空间注意的设计是为了引导网络在空间维度上提取更多重要的语义信息。为获得空间注意权重，空间注意力分支中，输入X∈R^{N×C×T×H×W}，首先，在通道维度进行平均操作获得一个全局的时空张量F∈R^{N×1×T×H×W}；然后，通过平均池化对F的时间轴进行压缩得张量F_s∈R^{N×1×1×H×W}，并使用一个核大小为1×3×3的3D卷积层K_s，最后，获取空间注意力得分S_s∈R^N ^×1×1×H×W,表示如式(Ⅱ)所示：

S_s＝K_s*F_s (Ⅱ)

为了充分利用时空注意力，将时间注意力得分、空间注意力得分以一种逐元素相乘的方式进行聚合，并送入一个sigmoid激活函数σ，获取最终的时空注意力掩码M∈R^N ^×1×T×H×W，表示如式(Ⅲ)所示：

M＝σ(S_t×S_s) (Ⅲ)

Y_stda＝X+X⊙M (Ⅳ)

改进原始的Inflated 3D ConvNet的子模块,不同于图2(a),移除原始Inflated3D ConvNet子模块中头部核大小为1×1×1的卷积层和max-pooling层。为寻求计算资源和网络表示能力之间的折衷，在原Inflated 3D ConvNet子模块中引入了稀疏性，以缓解对计算资源的需求。具体地，将剩下的卷积层替换为三个新的3D卷积层W₁,W₂,W₃。W₁,W₂,W₃的核大小分别为3×3×3,1×3×3和3×1×1。

Y_con＝W₁Y_stda+W₂Y_stda+W₃Y_stda (Ⅴ)

最终对输入X进行残差学习，表示如式(Ⅵ)所示：

Y_dare＝δ(Y_con+W₄X) (Ⅵ)

式(Ⅵ)中，W₄是一个用于匹配通道数的3D卷积层，能确保模型在宽度增加时不会有显著的性能损失；δ表示Leaky ReLU激活。

C、构建骨架网络

骨架网络构建，包括：

基于时空信息增强和多尺度显著性特征提取的跨视角步态识别方法的整体框架图如附图3所示，其中MP3d表示最大池化层，DARL表示双注意力残差学习块，HS表示水平切分，MSSD和MSSA分别表示多尺度的显著性提取器和多尺度的显著性聚合器。骨架网络包括若干初始层以及3个堆叠的双注意力残差学习块；初始层包括两个基本的3D卷积层，输入步态轮廓序列，首先，在初始层中进行处理：第一层3D卷积层(Intial-layer1)提取浅层时空信息并将输出输入第二层3D卷积层(Intial-layer2)，以整合局部序列片段的时间信息；然后，3个堆叠的双注意力残差学习块以初始层的输出特征作为输入，并将前一个双注意力残差学习块的输出作为下一个双注意力残差学习块的输入，以此逐级前向传播；由于基于轮廓序列的步态识别训练需要消耗大量的GPU内存，因此在骨架网络中引入了最大池化层(Max-pooling)，该最大池化层为特征提供了基本的平移不变性，并减少了特征的空间大小。整个骨架网络的结构参数如表1所示。

表1

D、构建多尺度显著性特征提取模块

多尺度显著性特征提取模块类似于一个多尺度的显著性特征感受器，感知哪些基于局部的多尺度特征更具有判别性。多尺度显著性特征提取模块包括一个多尺度的显著性提取器和一个多尺度的显著性聚合器。多尺度的显著性提取器将骨架网络获取的全局时空信息水平划分成多个带状空间，通过对每个带状空间进行多尺度的显著性特征提取，获取每个带状空间内部更丰富、更显著的细粒度信息；多尺度的显著性聚合器对每个带状空间的多尺度信息进行显著性特征选择，并实现自适应的特征聚合，以获取更为紧凑的局部特征表示而不需引入任何额外的参数。

如附图4所示，MSSD和MSSA分别表示多尺度的显著性提取器和多尺度的显著性聚合器，构建多尺度显著性特征提取模块，包括：

e、构建多尺度的显著性提取器，首先，将从骨架网络获取的特征图F_back∈R^N ^×C×T×H×W沿着水平方向划分成K个基于部分的带状空间，每个带状空间大小为N×C×T×(H/K)×W；然后，将每个带状空间的尺度调整为N×C×T×K×W'，并对每个带状空间使用一个由三个平行的具有不同膨胀率的1D卷积组成的空间金字塔卷积层，获取每个带状空间内部的多尺度信息；然后将这三个平行的具有不同膨胀率的1D卷积的输出按通道级联，生成形状大小为N×3C×T×K×W'的多尺度特征描述子；最后，在多尺度特征描述子上采用全局最大池化操作得到多尺度特征向量Z∈R^N×3C×K×W'；

f、为了获取更为紧凑的特征表示，构建多尺度的显著性聚合器，对每个带状空间进行显著性特征选择并实现自适应的特征聚合；多尺度的显著性聚合器包括softmax激活、逐元素乘法⊙和一个加权和操作；对步骤e获取的特征向量Z进行softmax激活，得到显著性敏感权值张量W∈R^N×3C×K×W'；聚合后的显著局部特征Sal(X)以及显著性敏感权值张量W分别如式(VII)、式(Ⅷ)所示：

Sal(X)＝ψ(W⊙Z) (VII)

W＝Softmax(Z) (Ⅷ)

式(VII)中，Sal(X)∈R^N×3C×K，ψ表示加权和操作；

E、整个基于时空信息增强和多尺度显著性特征提取网络训练

对多尺度显著性特征提取模块的输出进行简单的分组全连接映射后，利用三元组损失训练整个基于时空信息增强和多尺度显著性特征提取网络；以得到判别性强的特征提取模型。

训练整个基于时空信息增强和多尺度显著性特征提取网络，包括：

g、为了进一步跨通道整合多尺度的显著性信息，对显著的局部特征Sal(X)进行如式(Ⅸ)所示的特征映射：

Y＝Separate_fc(Sal(X)) (Ⅸ)

式(Ⅸ)中，Separate_fc表示分组的全连接层，

是特征映射后的输出；

h、根据步骤C构建骨架网络，并在骨架网络的头部根据步骤f、g使用多尺度显著性特征提取模块。对多尺度显著性特征提取模块的输出进行简单地全连接映射后，将三元组损失嵌入到整体的网络框架中。具体地，在特征映射后利用三元组损失对特征Y中包含的K个带状空间特征分别进行判别性约束，并以减小三元组损失为训练目标，训练整个基于时空信息增强和多尺度显著性特征提取网络，损失函数具体如式(Ⅹ)、式(Ⅺ)所示：

由式(Ⅹ)、式(Ⅺ)可以看出，模型优化的目的是让同一行人不同视角的样本特征之间的距离越小越好，而不同行人样本特征之间的距离越大越好，以此实现跨视角步态识别。

(2)跨视角步态识别

本发明设计双注意力残差学习块，通过改进原始的Inflated 3D ConvNet的子模块并在其头部嵌入时空双注意力机制，使得模块能够充分挖掘步态序列中的时空信息并对其中的干扰信息进行有效过滤。同时以双注意力残差学习块为基本块构建骨架网络进行全局的时空信息提取。在骨架网络头部设计了多尺度的显著性特征提取模块，对骨架网络所获取的全局时空特征进行多尺度的细粒度特征提取并进行自适应的多尺度信息聚合，以获取鲁棒且紧凑的局部特征表示。最后，在三元组损失的约束下对整个步态识别框架进行训练。在识别阶段，本发明将待查询身份的步态样本送入训练好的基于时空信息增强和多尺度的显著性特征提取网络，得到步态特征后与注册数据集的特征进行比对，最终得到待查询样本的识别结果。

步态轮廓序列是实际场景中摄像头采集到的行人视频经分割所得。

步骤(2)中，跨视角步态识别，包括：

本实施例中，首先，对步态轮廓序列进行预处理并将输入步态轮廓序列图的大小W×H设置为64×44，并设置多尺度显著性特征提取模块中水平划分带状空间的个数K＝32。本实施例中所有实验均使用Adam优化器进行训练，动量设置为0.9，学习率设置为1-e4。三元组损失的余量设置为0.2。训练阶段，对预处理后的每个步态轮廓序列随机选取连续的30帧作为模型输入。测试阶段，预处理后的步态轮廓序列的所有帧均用来获取最终的特征表示，且选择Rank-1准确率衡量模型步态识别的性能。

为了验证本发明提出的一种基于时空信息增强和多尺度显著性特征提取的跨视角步态识别方法的先进性，首先在CASIA-B步态数据库上将本发明与现有的6种先进步态识别方法进行比较，包括GEInet、CNN-LB、ACL、GaitPart、GaitSet和MT3D。

由于CASIA-B数据库涵盖视角全面，因此，本发明在CASIA-B数据集上对跨视角识别任务进行了充分的实验。CASIA-B是一个应用广泛的步态数据集，包含124名受试者的113640段视频。每个受试者有10个类型的步态轮廓序列，包括正常行走条件下采集的6个类型(索引为NM#01-06)，背包条件下采集的2个类型(索引为BG#01-02)，穿着外套条件下采集的2个类型(索引为CL#01-02)。每个类型包括11个不同视角(0°-180°间隔18°)的步态轮廓序列。

在此实施例中，用CASIA-B数据库前74个受试者的所有步态轮廓序列用于模型训练，剩下50个受试者的步态轮廓序列进行测试。在一个mini-batch中，受试者的数量和每个受试者的序列数分别设置为(8；8)，模型迭代次数设置为100K次。在测试阶段，正常条件下采样的6个类型的步态轮廓序列中前四个类型(即NM#01-04)作为注册数据集，剩下的NM#05-06、BG#01-02和CL#01-02分别作为查询数据集。

表2中列出了本发明和其他6种先进步态识别方法在CASIA-B数据库上三种不同行走条件下(包括正常、背包和穿着外套)的跨视角步态识别率。表2中的结果是每个查询视角在另10个注册视角下分别进行跨视角识别的平均Rank-1准确率(％)。

表2

由表2可看出，本发明方法在所有跨行走条件情况下，均取得了最好的识别效果。在正常和穿着外套的行走条件下，本发明方法的识别率超过所有其他先进的对比方法，分别达到了97.1％和81.9％。在背包行走条件下，本发明方法和MT3D均取得了最高识别率93.0％。

为了进一步为了验证本发明方法的泛化性，在OUISIR数据集上对本发明方法进行了评估。OUISIR是一个由4007名受试者组成的步态数据集。该数据库有四个视角(55°、65°、75°、85°)，相比于CASIA-B，OUIRIS数据库包含视角较少但有更多的受试者，因此可用来验证各步态识别方法的泛化性能。其中每个受试者采集了两个正常行走条件下的步态序列(索引为#01，#02)。在此实施例中，OUIRIS数据库中的3836名受试者用于训练并采用五折交叉验证。在一个mini-batch中，受试者的数量和每个受试者的序列数分别设置为(32；4)，模型迭代次数设置为60K次。在测试阶段，索引#01的序列作为注册数据集，索引#02的序列作为查询数据集。

本发明方法和其它先进方法包括NN、MGAN、CNNS和MT3D在各个视角下的跨视角步态识别结果如表3所示。表3中的结果为OUIRIS数据库四个不同查询视角的跨视角识别Rank-1准确率(％)。

表3

观察表3可发现，本发明方法在所有跨视角情况下都达到了最高的精度，具有明显的性能优势。在相同视角进行识别的情况下，虽然本发明的方法获得了次优结果，但与最优结果的差异不超过0.2％，这与本发明方法与在跨视角识别情况下取得的性能提升相比非常微弱。

此外，从表3中可以看出，当查询数据集和注册数据集之间的视角差异增大时，CNNS、MGAN和MT3D方法的识别精度都会大幅下降，例如：查询视角和注册视角分别为(55°，85°)的识别率相比于查询视角和注册视角分别为(55°，65°)和(55°，75°)的识别率有明显下降。然而，在查询视角和注册视角差异很大的情况下，本发明方法仍然能够获得优异且稳定的识别性能，由此可见本发明方法对视角变化的鲁棒性更强，具有更好的泛化能力。

实施例2

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现实施例1所述的基于时空信息增强和多尺度显著性特征提取的跨视角步态识别方法的步骤。

实施例3

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现实施例1所述的基于时空信息增强和多尺度显著性特征提取的跨视角步态识别方法的步骤。

Claims

1.一种基于时空信息增强和多尺度显著性特征提取的跨视角步态识别方法，其特征在于，包括步骤如下：

A、步态轮廓预处理

B、构建双注意力残差学习块

C、构建骨架网络

D、构建多尺度显著性特征提取模块

E、构建整个基于时空信息增强和多尺度显著性特征提取网络并训练

对多尺度显著性特征提取模块的输出进行分组全连接映射后，利用三元组损失训练整个基于时空信息增强和多尺度显著性特征提取网络；

(2)跨视角步态识别

2.根据权利要求1所述的一种基于时空信息增强和多尺度显著性特征提取的跨视角步态识别方法，其特征在于，步态轮廓预处理，是指：对每个步态轮廓序列进行如下处理：

3.根据权利要求1所述的一种基于时空信息增强和多尺度显著性特征提取的跨视角步态识别方法，其特征在于，所述步骤B，构建双注意力残差学习块，包括：

S_t＝K_t*F_t (Ⅰ)

空间注意力分支中，输入X∈R^{N×C×T×H×W}，首先，在通道维度进行平均操作获得一个全局的时空张量F∈R^{N×1×T×H×W}；然后，通过平均池化对F的时间轴进行压缩得张量F_s∈R^{N×1×1×H×W}，并使用一个核大小为1×3×3的3D卷积层K_s，最后，获取空间注意力得分S_s∈R^{N×1×1×H×W},表示如式(Ⅱ)所示：

S_s＝K_s*F_s (Ⅱ)

M＝σ(S_t×S_s) (Ⅲ)

Y_stda＝X+X⊙M (Ⅳ)

d、将步骤c中的时空双注意力单元嵌入改进后的Inflated 3D ConvNet子模块的头部，并引入残差学习机制，构成双注意力残差学习块；

Y_con＝W₁Y_stda+W₂Y_stda+W₃Y_stda (Ⅴ)

最终对输入X进行残差学习，表示如式(Ⅵ)所示：

Y_dare＝δ(Y_con+W₄X) (Ⅵ)

4.根据权利要求1所述的一种基于时空信息增强和多尺度显著性特征提取的跨视角步态识别方法，其特征在于，所述步骤C，骨架网络构建，包括：

骨架网络包括若干初始层以及3个堆叠的双注意力残差学习块；初始层包括两个基本的3D卷积层，输入步态轮廓序列，首先，在初始层中进行处理：第一层3D卷积层提取浅层时空信息并将输出输入第二层3D卷积层，以整合局部序列片段的时间信息；然后，3个堆叠的双注意力残差学习块以初始层的输出特征作为输入，并将前一个双注意力残差学习块的输出作为下一个双注意力残差学习块的输入，以此逐级前向传播。

5.根据权利要求1所述的一种基于时空信息增强和多尺度显著性特征提取的跨视角步态识别方法，其特征在于，所述步骤D，构建多尺度显著性特征提取模块，包括：

e、构建多尺度的显著性提取器，首先，将从骨架网络获取的特征图F_back∈R^{N×C×T×H×W}沿着水平方向划分成K个基于部分的带状空间，每个带状空间大小为N×C×T×(H/K)×W；然后，将每个带状空间的尺度调整为N×C×T×K×W'，并对每个带状空间使用一个由三个平行的具有不同膨胀率的1D卷积组成的空间金字塔卷积层，获取每个带状空间内的多尺度信息；将这三个平行的具有不同膨胀率的1D卷积的输出按通道级联，生成形状大小为N×3C×T×K×W'的多尺度特征描述子；最后，在多尺度特征描述子上采用全局最大池化操作并得到多尺度特征向量Z∈R^N×3C×K×W'；

f、构建多尺度的显著性聚合器，对每个带状空间进行显著性特征选择并实现自适应的特征聚合；多尺度的显著性聚合器包括softmax激活、逐元素乘法⊙和一个加权和操作；对步骤e获取的特征向量Z进行softmax激活，得到显著性敏感权值张量W∈R^N×3C×K×W'，聚合后的显著的局部特征Sal(X)以及显著性敏感权值张量W分别如式(VII)、式(Ⅷ)所示：

Sal(X)＝ψ(W⊙Z) (VII)

W＝Softmax(Z) (Ⅷ)

式(VII)中，Sal(X)∈R^N×3C×K，ψ表示加权和操作。

6.根据权利要求5所述的一种基于时空信息增强和多尺度显著性特征提取的跨视角步态识别方法，其特征在于，步骤E，训练整个基于时空信息增强和多尺度显著性特征提取网络，包括：

g、对显著的局部特征Sal(X)进行如式(Ⅸ)所示的特征映射：

Y＝Separate_fc(Sal(X)) (Ⅸ)

式(Ⅸ)中，Separate_fc表示分组的全连接层，

是特征映射后的输出；

h、在特征映射后，利用三元组损失对特征Y中包含的K个带状空间特征分别进行判别性约束，并以减小三元组损失为训练目标，训练整个基于时空信息增强和多尺度显著性特征提取网络，损失函数具体如式(Ⅹ)、式(Ⅺ)所示：

表示损失中非零项的个数，K表示水平划分带状空间的个数，m表示三元组损失的余量，

表示第u个受试者第v个步态轮廓序列特征Y的第k个带状空间特征，d₊和d_-分别测量正样本对和负样本对特征之间的相似性。

7.根据权利要求1所述的一种基于时空信息增强和多尺度显著性特征提取的跨视角步态识别方法，其特征在于，步骤(2)中，跨视角步态识别，包括：

8.根据权利要求1所述的一种基于时空信息增强和多尺度显著性特征提取的跨视角步态识别方法，其特征在于，步骤A中，通过CASIA-B数据库和OUISIR数据库获取步态轮廓序列；

步骤(2)中，步态轮廓序列是实际场景中摄像头采集到的行人视频经分割所得。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-8任一所述的基于时空信息增强和多尺度显著性特征提取的跨视角步态识别方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-8任一所述的基于时空信息增强和多尺度显著性特征提取的跨视角步态识别方法的步骤。