CN112926549B

CN112926549B - 基于时间域-空间域特征联合增强的步态识别方法与系统

Info

Publication number: CN112926549B
Application number: CN202110404465.3A
Authority: CN
Inventors: 冯镔; 黄小虎; 刘文予
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2021-04-15
Filing date: 2021-04-15
Publication date: 2022-06-24
Anticipated expiration: 2041-04-15
Also published as: CN112926549A

Abstract

本发明公开了一种基于时间域‑空间域特征联合增强的步态识别方法，对待检测步态序列，先使用卷积神经网络提取序列特征表达，再自适应地捕捉显著的空域特征，最后分别进行空间域与时间域的建模。自适应显著性特征生成模块可灵活地提取来自不同身体区域的突出特征，有效地丰富特征的多样性与显著性。基于这样的多区域显著性特征，本发明，分别对输入步态序列进行空间域与时间域的建模，通过联合优化，输出空间域‑时间域联合增强的步态特征。本方法在不同场景下的精度高、鲁棒性强，能有效克服由于行人携带不同物品或穿着不同衣物产生的外观变化所导致的不利因素。本发明还提供了相应的基于时间域‑空间域特征联合增强的步态识别系统。

Description

基于时间域-空间域特征联合增强的步态识别方法与系统

技术领域

本发明属于计算机视觉技术领域，更具体地，涉及一种基于时间域-空间域特征联合增强的步态识别方法与系统。

背景技术

步态识别在人们的日常生活有许多方面的应用，如智能安防、公共安全、行人识别等。步态识别研究的是如何依赖行人行走的步态序列对行人身份进行识别。

目前的步态识别方案通常是要么主要关注时域信息建模、要么主要关注空域信息建模。由于这些方法没有联合考虑时间域-空间域特征增强的建模，因此无法很好地适应实际场景(跨视角、换装)的应用。另一方面，由于没有对细粒度的显著性特征进行捕捉，这些方法对于特征相近的不同行人序列会判断出错。

因此需要设计一种步态识别特征建模方案，不仅能够联合时间域-空间域的建模，还能够提取出细粒的步态特征，使得网络能够适应多变的应用场景同时对近似的步态序列更具识别力。

发明内容

本发明的目的在于提供一种基于时间域-空间域特征联合增强的步态识别方法，该方法不仅能够联合时间域-空间域的建模，还能够提取出细粒的步态特征，使得网络能够适应多变的应用场景同时对更好地分辨近似的步态序列。

为实现上述目的，按照本发明的一个方面，提供了一种基于时间域-空间域特征联合增强的步态识别方法，包括下述步骤：

(1)特征提取：

(1.1)对每个输入步态序列，首先截取一段长度为40帧的序列片段，然后对该片段随机不重复地采样30帧；

(1.2)对每个采样位置，进行高维特征的提取，首先选取采样位置的1帧图片作为原始数据，然后将原始数据送到特征提取网络中进行特征提取，得到深度特征表达，得到深度特征表达。

具体地，对于输入的步态序列图像，采用六层的卷积神经网络作为特征提取网络，其中前两层卷积网络的输出通道均为32，第三层是步长为2的最大池化(max pooling)层，第四、五、六卷积层的输出特征通道数分别为：64、64、128；

(2)训练显著性特征生成器：

(2.1)采用三组卷积核处理来自步骤(1.2)的深度特征输表达，得到三组输出特征；

(2.2)接收步骤(2.1)的三组输出特征，监督不同组特征关注不同的空域显著性区域，并输出空域重叠惩罚(Overlapped Activation Penalty)损失函数值L_oap；

具体地，监督三组输出特征关注不同的空域区域，首先应用均值池化(GlobalAverage Pooling，GAP)与最大值池化(Global Max Pooling，GMP)进行通道压缩，对每个已压缩的特征图取第K大的值作为Sigmoid函数的阈值进行激活，此处取K＝15，Sigmoid函数定义式为

将这三组被激活的特征按元素相乘、累加，得到空域重叠惩罚(Overlapped Activation Penalty，OAP)损失函数值L_oap；

(2.3)接收步骤(2.1)的三组输出特征，将该特征在纵向尺度进行划分，提取块级局部特征，再联合应用空域均值池化(Global Average Pooling)与最大值池化(GlobalMax Pooling)得到向量特征输出。

(3)“内部关系”与“外部关系”建模：

(3.1)接收步骤(2.3)的向量特征输出，对同一帧的三组特征进行建模。进行“内部关系”的帧内建模，首先将同一帧图像的三组特征连接到一起，输入到一个多层感知机(Multi-layer Perceptron，MLP)中，输出一个帧内跨组交互的特征向量，该特征向量的维度为128维，接着将该特征向量分别与三组特征相乘并采用Sigmoid函数激活，最后将激活后的三组特征向量与原特征向量相乘，作为“内部关系”建模模块的输出；

(3.2)接收步骤(2.3)的向量特征输出，对相邻帧的三组特征进行建模。进行“外部关系”的帧间建模，首先将相邻三帧/五帧图像的特征连接到一起，输入到一个多层感知机(MLP)中，输出一个帧间跨组交互的特征向量，该特征向量的维度为384/640维，接着将该特征向量分别与三帧/五帧图像的特征相乘并采用Sigmoid函数激活，最后将激活后的三帧/五帧特征向量与原特征向量相乘，通过时域池化并把三帧/五帧建模的结果相加，作为“外部关系”建模模块的输出；

(3.3)接收步骤(3.1)与(3.2)的“内部关系”与“外部关系”建模的输出，将它们相加作为加和特征输出。

(4)模型的输出与训练：

(4.1)接收步骤(3.3)的加和特征输出，利用时域全局最大池化进行处理，获取网络最终输出；

(4.2)接收步骤(4.1)的网络最终输出，采用三元组损失函数对模型进行训练，获得损失函数值L_tri，其函数表达式为：

其中N表示训练样本的数量，i为单个训练样本对应的序号索引，

与

分别表示第i个样本的正样本对特征距离与负样本对特征距离，α为提升优化性能所需的margin，设为α＝0.2。

(5)利用上述训练好的模型对待检测测试步态序列进行行人身份预测，包括如下子步骤：

(5.1)利用步骤(1.2)(2)(3)(4.1)处理待测试步态序列的所有帧图像，获取待测试输出特征；

(5.2)将步骤(5.1)的测试输出特征与数据库存储的特征进行比对。称待测试的序列为probe，数据库存储特征为gallery。将该probe与gallery中所有特征进行欧氏距离的计算，取距离最小的一组作为待测试序列的匹配对象。

按照本发明的另一方面，还提供了一种基于时间域-空间域特征联合增强的步态识别系统，所述系统包括特征提取模块、自适应显著性特征生成模块、“内部关系”建模模块、“外部关系”建模模块，其中：

所述特征提取模块，用于对输入的步态序列进行统一的特征编码，得到统一的特征表达，具体包括二维卷积特征计算子模块、二维最大池化下采样子模块，其中：

所述二维卷积特征计算子模块，用于对图像特征进行空域建模；

所述二维最大池化下采样子模块，用于压缩输出特征的空域维度；

所述自适应显著性特征生成模块，用于提取丰富的显著性空域特征，并使其在空间分布上不重合；

所述“内部关系”建模模块，用于对自适应显著性特征生成模块输出的多组特征进行帧内建模，使其优化空域特征的表达；

所述“外部关系”建模模块，用于对自适应显著性特征生成模块输出的多组特征进行帧间建模，使其优化时域特征的表达。

通过本发明所构思的以上技术方案，与现有技术相比，本发明具有以下技术效果：

(1)准确度高：本方法与以往的方案相比，对时间域-空间域特征进行联合的建模，同时捕捉了时域的动作特征与空域的显著特征，从而有效地提升了模型的识别准确率。

(2)灵活性强：本发明采用自适应模块提取空域的显著特征，该策略能够在复杂的实际场景中灵活地提取识别力强的空域特征，因此能够帮助网络更好地应用在不同场景中。

(3)鲁棒性强：本发明兼顾了时空域特征提取的全面性与显著性特征提取的灵活性，在跨视角及换装的识别场景中都达到了当前的最优性能，具备很强的识别鲁棒性。

附图说明

图1是本发明基于时间域-空间域特征联合增强的步态识别的流程图；

图2是本发明中自适应显著性特征生成模块的示意图；

图3是本发明中“内部关系”建模的示意图；

图4是本发明中“外部关系”建模的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

以下首先就本发明的技术术语进行解释和说明：

CASIA-B数据集：该数据库是由中国科学院牵头制作，共包含124个行人，其中每个行人包含110段步态序列，总计13640段序列。每个行人的110段序列中，每10段序列对应一个相机拍摄视角，共计11个拍摄视角(0°，18°，36°，…，180°)。10段序列中，6段为正常行人状态序列(NM)，2段为背包状态序列(BG)，2段为穿大衣状态序列(CL)。本发明在训练阶段采用前74个人作为训练集，后50人作为测试集。测试集中，将4段NM序列作为gallery，2段NM、2段CL、2段BG作为probe。

平均首位命中率(Average Rank-1 Accuracy，ARA)：首位命中率指的是测试过程中，排名第一的匹配样本有多少是正确的；平均首位命中率指的是不同测试行人的首位命中率的平均值。

如图1所示，本发明基于时间域-空间域特征联合增强的步态识别方法包括以下步骤：

(1)特征提取：

(1.2)对每个采样位置，进行高维特征的提取，首先选取采样位置的1帧图片作为原始数据，然后将原始数据送到特征提取网络中进行特征提取，得到深度特征表达。对于输入的步态序列图像，采用六层的卷积神经网络作为特征提取网络，其中前两层卷积网络的输出通道均为32，第三层是步长为2的最大池化(max pooling)层，第四、五、六卷积层的输出特征通道数分别为：64、64、128。

(2)训练显著性特征生成器：

(2.1)如图2所示，采用三组卷积核处理来自步骤(1.2)的深度特征表达，得到三组输出特征；

(2.2)如图2所示，监督三组输出特征关注不同的空域区域，首先应用均值池化(Global Average Pooling)与最大值池化(Global Max Pooling)进行通道压缩，对每个已压缩的特征图取第K大的值作为Sigmoid函数的阈值进行激活，此处取K＝15，Sigmoid函数定义式为

将这三组被激活的特征按元素相乘、累加，得到空域重叠惩罚(Overlapped Activation Penalty)损失函数值L_oap；

(3)“内部关系”与“外部关系”建模：

(3.1)接收步骤(2.3)的向量特征输出，如图3所示，对同一帧的三组特征进行建模。进行“内部关系”的帧内建模，首先将同一帧图像的三组特征连接到一起，输入到一个多层感知机(MLP)中，输出一个帧内跨组交互的特征向量，该特征向量的维度为128维，接着将该特征向量分别与三组特征相乘并采用Sigmoid函数激活，最后将激活后的三组特征向量与原特征向量相乘，作为“内部关系”建模模块的输出；

(3.2)接收步骤(2.3)的向量特征输出，如图4所示，对相邻帧的三组特征进行建模。进行“外部关系”的帧间建模，首先将相邻三帧/五帧图像的特征连接到一起，输入到一个多层感知机(MLP)中，输出一个帧间跨组交互的特征向量，该特征向量的维度为384/640维，接着将该特征向量分别与三帧/五帧图像的特征相乘并采用Sigmoid函数激活，最后将激活后的三帧/五帧特征向量与原特征向量相乘，通过时域池化并把三帧/五帧建模的结果相加，作为“外部关系”建模模块的输出；

(4)模型的输出与训练：

与

(5.2)步骤(5.1)的测试输出特征与数据库存储的特征进行比对。称待测试的序列为probe，数据库存储特征为gallery。将该probe与gallery中所有特征进行欧氏距离的计算，取距离最小的一组作为待测试序列的匹配对象。

以下通过实验实例来证明本发明的有效性，实验结果证明本发明能够提高手势识别的识别准确率。

本发明在CASIA-B数据集上，与4种已有的具有代表性的步态识别方法进行了对比，表1是本发明方法和用于比较的4种对比方法在该数据集上的ARA指标的表现，结果的数值越大表示识别性能越好，从表中可以看到，本发明方法(即表1中注明的Our Method)提升非常明显。

表1不同方法在CASIA-B数据集上的ARA指标的表现

方法	NM	BG	CL	平均
					CNN-LB	89.9	72.4	54.0	72.1
GaitNet	91.6	85.7	58.9	78.7
					GaitSet	95.0	87.2	70.4	84.2
GaitPart	96.2	91.5	78.7	88.8
					Our Method	97.2	93.4	81.9	90.8

进一步地，本发明还提供了一种基于时间域-空间域特征联合增强的步态识别系统，所述系统包括特征提取模块、自适应显著性特征生成模块、“内部关系”建模模块、“外部关系”建模模块，其中：

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于时间域-空间域特征联合增强的步态识别方法，其特征在于，所述方法包括下述步骤：

(1)特征提取：

(1.2)对每个采样位置，进行高维特征的提取，首先选取采样位置的1帧图片作为原始数据，然后将原始数据送到特征提取网络中进行特征提取，得到深度特征表达；

(2)训练显著性特征生成器：

(2.1)采用三组卷积核处理来自步骤(1.2)的深度特征表达，得到三组输出特征；

(2.2)接收步骤(2.1)的三组输出特征，监督不同组特征关注不同的空域显著性区域，并输出空域重叠惩罚损失函数值L_oap；具体为：监督三组输出特征关注不同的空域区域，首先应用均值池化与最大值池化进行通道压缩，对每个已压缩的特征图取第K大的值作为Sigmoid函数的阈值进行激活，Sigmoid函数定义式为

将这三组被激活的特征按元素相乘、累加，得到空域重叠惩罚损失函数值L_oap；

(2.3)接收步骤(2.1)的三组输出特征，将该特征在纵向尺度进行划分，提取块级局部特征，再联合应用空域均值池化与最大值池化得到向量特征输出；

(3)“内部关系”与“外部关系”建模：

(3.1)接收步骤(2.3)的向量特征输出，对同一帧的三组特征进行建模，得到“内部关系”建模的输出；具体为：进行“内部关系”的帧内建模，首先将同一帧图像的三组特征连接到一起，输入到一个多层感知机中，输出一个帧内跨组交互的特征向量，该特征向量的维度为128维，接着将该特征向量分别与三组特征相乘并采用Sigmoid函数激活，最后将激活后的三组特征向量与原特征向量相乘，作为“内部关系”建模模块的输出；

(3.2)接收步骤(2.3)的向量特征输出，对相邻帧的三组特征进行建模，得到“外部关系”建模的输出；具体为：进行“外部关系”的帧间建模，首先将相邻三帧/五帧图像的特征连接到一起，输入到一个多层感知机中，输出一个帧间跨组交互的特征向量，该特征向量的维度为384维，接着将该特征向量分别与三帧/五帧图像的特征相乘并采用Sigmoid函数激活，最后将激活后的三帧/五帧特征向量与原特征向量相乘，通过时域池化并把三帧/五帧建模的结果相加，作为“外部关系”建模模块的输出；

(3.3)接收步骤(3.1)与(3.2)的“内部关系”与“外部关系”建模的输出，将它们相加作为加和特征输出；

(4)模型的输出与训练：

(4.2)接收步骤(4.1)的网络最终输出，采用三元组损失函数对模型进行训练，获得损失函数值L_tri；

(5.2)将步骤(5.1)的测试输出特征与数据库存储的特征进行比对，选取最接近的一组特征作为匹配特征，并将匹配者的身份作为测试序列行人的身份。

2.根据权利要求1所述的基于时间域-空间域特征联合增强的步态识别方法，其特征在于，所述步骤(1.2)具体为：对于输入的步态序列图像，采用六层的卷积神经网络作为特征提取网络，其中前两层卷积网络的输出通道均为32，第三层是步长为2的最大池化层，第四、五、六卷积层的输出特征通道数分别为：64、64、128。

3.根据权利要求1所述的基于时间域-空间域特征联合增强的步态识别方法，其特征在于，所述K＝15。

4.根据权利要求1或2所述的基于时间域-空间域特征联合增强的步态识别方法，其特征在于，所述步骤(4.2)具体为：采用三元组损失函数对模型进行训练，其函数表达式为：

与

分别表示第i个样本的正样本对特征距离与负样本对特征距离，α为提升优化性能所需的margin。

5.根据权利要求4所述的基于时间域-空间域特征联合增强的步态识别方法，其特征在于，所述α＝0.2。

6.根据权利要求1或2所述的基于时间域-空间域特征联合增强的步态识别方法，其特征在于，所述步骤(5.2)具体为：将待测试的序列称为probe，数据库存储特征称为gallery，将该probe与gallery中所有特征进行欧氏距离的计算，取距离最小的一组作为待测试序列的匹配对象。

7.一种基于时间域-空间域特征联合增强的步态识别系统，其特征在于，所述系统包括特征提取模块、自适应显著性特征生成模块、“内部关系”建模模块、“外部关系”建模模块，其中：

所述“内部关系”建模模块，用于对自适应显著性特征生成模块输出的多组特征进行帧内建模，使其优化空域特征的表达；具体为：进行“内部关系”的帧内建模，首先将同一帧图像的三组特征连接到一起，输入到一个多层感知机中，输出一个帧内跨组交互的特征向量，该特征向量的维度为128维，接着将该特征向量分别与三组特征相乘并采用Sigmoid函数激活，最后将激活后的三组特征向量与原特征向量相乘，作为“内部关系”建模模块的输出；

所述“外部关系”建模模块，用于对自适应显著性特征生成模块输出的多组特征进行帧间建模，使其优化时域特征的表达；具体为：进行“外部关系”的帧间建模，首先将相邻三帧/五帧图像的特征连接到一起，输入到一个多层感知机中，输出一个帧间跨组交互的特征向量，该特征向量的维度为384维，接着将该特征向量分别与三帧/五帧图像的特征相乘并采用Sigmoid函数激活，最后将激活后的三帧/五帧特征向量与原特征向量相乘，通过时域池化并把三帧/五帧建模的结果相加，作为“外部关系”建模模块的输出。