CN116704611A - 一种基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别方法 - Google Patents

一种基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别方法 Download PDF

Info

Publication number
CN116704611A
CN116704611A CN202310711767.4A CN202310711767A CN116704611A CN 116704611 A CN116704611 A CN 116704611A CN 202310711767 A CN202310711767 A CN 202310711767A CN 116704611 A CN116704611 A CN 116704611A
Authority
CN
China
Prior art keywords
gait
feature
fine
stage
feature extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310711767.4A
Other languages
English (en)
Inventor
贲晛烨
刘畅
王亮
庄兆意
单彩峰
黄永祯
郝敬全
辛国茂
郑其荣
刘大扬
李玉军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Watrix Technology Beijing Co ltd
Shenzhen Research Institute Of Shandong University
Institute of Automation of Chinese Academy of Science
Shandong University
Shandong University of Science and Technology
Shandong Jianzhu University
Taihua Wisdom Industry Group Co Ltd
Original Assignee
Watrix Technology Beijing Co ltd
Shenzhen Research Institute Of Shandong University
Institute of Automation of Chinese Academy of Science
Shandong University
Shandong University of Science and Technology
Shandong Jianzhu University
Taihua Wisdom Industry Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Watrix Technology Beijing Co ltd, Shenzhen Research Institute Of Shandong University, Institute of Automation of Chinese Academy of Science, Shandong University, Shandong University of Science and Technology, Shandong Jianzhu University, Taihua Wisdom Industry Group Co Ltd filed Critical Watrix Technology Beijing Co ltd
Priority to CN202310711767.4A priority Critical patent/CN116704611A/zh
Publication of CN116704611A publication Critical patent/CN116704611A/zh
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Image Analysis (AREA)

Abstract

本发明涉及一种基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别方法,包括:骨干网络构建:提取基础步态的浅层、中层、深层特征;运动特征混合模块构建:融合相邻帧之间的步态信息,提取时序信息;细粒度多阶段特征提取模块构建:对特征进行水平划分提取初步的空间特征。并引入一个分支进行进一步水平划分,加入空间注意力机制,提取更加细粒度的特征;整体框架训练;跨视角步态识别。本发明能够有效利用步态轮廓序列中的帧级时间信息,以及细粒度的空间信息,在特征提取方面更加有效。

Description

一种基于运动特征混合和细粒度多阶段特征提取的跨视角步 态识别方法
技术领域
本发明涉及基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别方法,属于深度学习和模式识别技术领域。
背景技术
步态是指人体在行走时的姿态变化以及行为特征。步态识别是指通过一个人的步态来确定该行人身份。目前的步态识别技术大多数是通过远距离传感器采集到的人体的步态特征来对行人进行识别。相比较于目前已经较为成熟的生物特征识别技术,例如人脸、声纹、指纹、DNA等生物特征识别技术,步态识别技术具有非受控、隐匿性高的特点。基于上述优点,步态识别技术可以广泛应用于各种安防领域。然而,步态识别技术在实际应用中会受到很多协变量因素的影响,如服装、携带物和视角的变化。其中,视角的变化会使步态外观发生巨大的改变,所以成为了影响步态识别性能最主要的因素。所以,有效地解决跨视角步态识别的问题,是进一步发展步态识别技术的关键。
目前的步态识别技术可以分为两类,即基于模型的方法与基于外观的方法。基于模型的跨视角步态识别方法通过不同方式对人体步态序列进行建模,从模型中提取人体的结构、运动参数或者其他的信息作为特征进行跨视角步态识别。这类方法在对人体建模时需要消耗大量的计算资源,或者在提取人体骨架关键点时需要有较高分辨率的图像等。基于外观的方法的输入数据一般是步态轮廓,步态轮廓是对原始的步态RGB图像经过分割、裁剪、二值化等处理后得到的二值化图像。基于外观的方法可以进一步细化为基于类能量图的方法和基于步态轮廓序列的方法。基于类能量图的方法将轮廓序列按照一定的规则进行叠加,从而将步态的时空信息聚合到一张图片上。此类方法虽然节省计算资源,却忽略了对时序信息的提取。基于步态轮廓序列的方法直接将整个步态轮廓序列作为输入数据,相较于类能量图,步态轮廓序列包含了丰富的时空信息。基于步态轮廓序列的方法一般都是通过人工神经网络提取到具有视角不变性的步态特征。而目前基于步态轮廓序列的方法不能很好地提取到步态特征中所蕴含的丰富的时空信息。
因此,如何提取到具有视角不变性的步态特征,有效利用步态序列丰富的时空信息,是提高跨视角步态识别准确率的关键。
发明内容
针对现有技术的不足,本发明提供一种基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别方法。
发明概述:
一种基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别方法,包括骨干网络构建、运动特征混合模块构建、细粒度多阶段特征提取模块构建、整体框架训练及跨视角步态识别。
为了提取基础的步态特征,设计了骨干网络对输入数据进行特征提取。为了获取丰富的时序信息,构建运动特征混合模块来混合相邻帧之间的特征。为了提取到详细的空间信息,构建细粒度多阶段特征提取模块,使网络能够发现更加细粒度的步态特征,并对空间上的步态特征信息分配不同权重。为了提高整个框架结构的判别能力,联合三元组损失和交叉熵损失对整个模型进行训练。最终利用训练好的网络模型进行跨视角步态识别。
术语解释:
1、注册数据集(gallery):指提前录入的已知标签的步态样本所构成的数据集。
2、查询数据集(probe):指用来作为测试输入、待识别的步态样本所构成的数据集。
3、步态轮廓序列:指对原始的步态RGB图像序列经过分割、裁剪、二值化等处理后得到的二值化图像序列。
4、步态识别:指将查询数据集中的每个样本与注册数据集中的所有样本进行比对,并将查询数据集中的样本识别为与注册数据集中最接近的那个样本标签。
5、跨视角步态识别:指注册数据集和查询数据集中的步态样本在不同视角下采集,利用注册数据集中已知的单个视角下的步态样本建模,实现不同视角下采集的查询数据集的识别。
本发明的技术方案如下:
一种基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别方法,包括步骤如下:
(1)构建特征提取模型的网络架构,并进行训练;包括:
A、骨干网络构建
骨干网络包括若干卷积层和若干池化层,输入的步态轮廓序列在骨干网络中逐级提取浅层、中层和深层三个阶段的步态特征;
B、运动特征混合模块构建
运动特征混合模块用于提取步态特征的时序信息;具体是指:对经由步骤A提取到的步态特征,使用运动特征混合模块进行进一步的特征提取,融合相邻帧之间的步态信息,提取时序信息;
C、细粒度多阶段特征提取模块构建
细粒度多阶段特征提取模块用于:对通过步骤A和步骤B得到的包括时序信息的步态特征进行水平划分实现初步的空间特征提取;在得到初步的空间特征后,引入一个分支进行进一步水平划分,并在此基础上加入空间注意力机制,提取到更加细粒度的特征;
D、整体框架训练
特征提取模型的网络架构为基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别网络,包括骨干网络、运动特征混合模块以及细粒度多阶段特征提取模块;
对经由细粒度多阶段特征提取模块得到的更加细粒度的特征进行拼接,作为最终的特征表示,利用三元组损失和交叉熵损失组合训练整个的基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别网络;
(2)跨视角步态识别,包括:将查询数据集的步态轮廓序列送入训练好的基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别网络中提取步态特征,通过与注册数据集进行特征相似性比对完成查询样本的身份识别。
根据本发明优选的,步骤A中,骨干网络构建,包括:
骨干网络包括顺序连接的卷积层Conv-1、卷积层Conv-2、卷积层Conv-3、池化层Maxpool-1、卷积层Conv-4、卷积层Conv-5、池化层Maxpool-2、卷积层Conv-6、卷积层Conv-7;输入步态轮廓序列之后,卷积层Conv-3输出浅层阶段的步态特征,卷积层Conv-5输出中层阶段的步态特征,卷积层Conv-7输出深层阶段的步态特征。
根据本发明优选的,步骤B中,运动特征混合模块构建,包括:
运动特征混合模块包括两个卷积核大小为1×1的2D卷积层、一个参数共享的卷积核大小为3×3的2D卷积层、拼接单元、Sigmoid激活函数层、点乘及加和操作单元、最大值池化层;
经由步骤A得到不同阶段的输出特征图其中,s表示一个步态图像序列样本的序列长度,c表示骨干网络对应阶段的输出通道数,h和w分别表示每一帧特征图的长和宽;
首先,将不同阶段的输出特征图xn经过一个卷积核大小为1×1的2D卷积层,将输出通道降低α倍,α为超参数;
然后,对于每一帧输出的特征图将后续的所有帧特征经过一个参数共享的卷积核大小为3×3的2D卷积层,将相邻帧之间做相加处理,如式(I)所示:
式(I)中,Conv3×3(·)表示卷积核大小为3×3的2D卷积层;表示第t+1帧融合了帧级信息后的特征图,xt+1表示xt′的下一帧特征图;
再次,在得到融合了帧级信息后的特征图后,将所有帧级特征图通过拼接单元拼接起来并经过一个卷积核为1×1的2D卷积层恢复为原始尺寸的特征图,如式(II)所示:
式(II)中,为融合相邻帧信息后的特征图,Conv1×1(·)表示卷积核为1×1的2D卷积层,Concat(·)表示沿时序维度的拼接操作;/>表示第t帧融合了帧级信息后的特征图;
最后,在得到融合相邻帧信息后的特征图后,将其经过Sigmoid激活函数层的Sigmoid激活函数,并通过点乘及加和操作单元与原始的特征图xn进行像素级点乘以及加和操作,得到运动特征混合模块的输出如式(III)所示:
并通过最大值池化层对xout进行像素级最大值池化操作,如式(IV)所示:
fn=FrameMax(xout) (IV)
将序列糅合为一帧多阶段特征图即提取到的包括时序信息的步态特征,FrameMax(·)表示像素级最大值池化操作。
进一步优选的,α取16。
根据本发明优选的,步骤C中,细粒度多阶段特征提取模块构建,包括:
粒度多阶段特征提取模块包括上半分支和下半分支;上半分支包括由池化层和全连接层;下半分支包括裁剪操作、池化层、空间注意力模块和全连接层;其中,空间注意力模块包括全连接层、ReLU激活函数、全连接层、Sigmoid激活函数;
在提取多阶段特征图fn后,将每一个阶段的特征进行水平划分为k块,得到在w维度进行最大值和均值池化,经过一个全连接层得到一部分特征映射/>如式(V)及(VI)所示:
xreshape=Reshapeh(fn) (V)
其中,Reshapeh(·)表示水平方向的变形操作,Avgpoolingw(·)和Maxpoolingw(·)分别表示w维度的均值池化和最大值池化,FC1(·)表示全连接层;
在得到xreshape后,将其沿h维度按照细粒度分块倍率r进行进一步的切分,得到如式(VII)所示:
xslice=Sliceh(xreshape) (VII)
式(VII)中,Sliceh(·)表示h维度切分操作;
对xslice在w维度进行最大值和均值池化,然后经过一个全连接层得到细粒度特征如式(VIII)所示:
xr=FC2(Avgpoolingw(xslice)+Maxpoolingw(xslice)) (VIII)
将细粒度特征xr送入空间注意力模块中;将xr沿通道维度和最后一个维度进行均值以及最大值池化,然后经过全连接层和ReLU激活函数,最后再通过一个全连接层和一个Sigmoid激活函数得到不同分块上的不同权重系数,并与原来的特征xr相乘后得到有权重的细粒度分块特征如式(IX)所示:
其中,SA(·)表示空间注意力模块;
得到有权重的细粒度分块特征后,将其沿水平分块维度进行最大值池化与均值池化操作,使得到的分块数量恢复到k个,得到特征映射/>
将两部分特征映射与/>进行拼接并经过一个全连接层,得到每一个阶段最终的特征映射/>
最终,将浅层、中层、深层阶段提取得到的三个最终的特征即更加细粒度的特征映射拼接就得到了最终的行人步态特征表示即最终的特征表示f。
根据本发明优选的,步骤D中,整体框架训练,包括:
使用三元组损失函数时,三元组损失函数如式(X)所示。
式(X)中,为该批次中第i个三元组的锚样本步态特征,/>表示与锚样本身份相同的正样本步态特征,/>表示与锚样本身份不同的负样本步态特征,NTri表示在一个批次之中所能构成的三元组的总数,ai表示第i个三元组的锚样本,pi表示第i个三元组的正样本,ni表示第i个三元组的负样本;
使用交叉熵损失函数时,将受试者的最终的特征表示f经过一个输出通道数与身份总数N相等的全连接层;接下来,经过Softmax激活函数将f中的每一个元素的值fi归一化为一个大小为[0,1]之间的身份概率值表示预测行人身份为i的概率大小,如式(XI)所示:
最终得到该样本的行人特征的预测标签分布而对于行人样本的真实标签,使用独热向量来表示,即对于身份为k的行人,构造独热向量/>令其第k个元素为1,即其他元素值为0;则交叉熵计算如式(XII)所示:
式(XII)中,表示身份为k的行人的真实标签分布,/>表示身份为k的行人的预测标签分布,/>表示/>中第i个元素,/>表示/>中第i个元素;
假设一个批次样本数量为B,交叉熵损失函数定义如式(XIII):
整体框架训练时,采用的损失函数如式(XIV)所示。
通过最小化三元组损失和交叉熵损失的组合来完成整个的基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别网络的训练。
根据本发明优选的,步骤E中,跨视角步态识别,包括:
将注册数据集输入训练好的基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别网络中,将训练好的基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别网络的输出的特征作为每个步态轮廓序列的整体特征表示,最终得到注册数据集的特征数据库;
将待识别的查询数据集中的样本送入训练好的基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别网络,输出查询数据集的最终的特征表示;
将查询数据集中的每一个步态样本的最终的特征表示与得到的注册数据集中的所有特征进行欧氏距离计算,最终将该查询样本识别为注册数据集中与之欧氏距离最小的特征的标签,输出查询样本的身份标签,完成跨视角步态识别。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别方法的步骤。
本发明的有益效果为:
1、本发明提出的运动特征混合模块能够实现帧级特征混合,使每一帧步态特征都能融合相邻帧之间的特征,以此来提取运动信息,丰富时序特征。
2、本发明提出的细粒度多阶段特征提取模块,实现了空间维度上细化步态特征,并在该模块中加入了空间注意力机制,能够关注到更加有用的细粒度步态特征。
附图说明
图1为本发明中运动特征混合模块的网络架构示意图;
图2(a)为本发明中细粒度多阶段特征提取模块的网络架构示意图;
图2(b)为本发明中细粒度多阶段特征提取模块中空间注意力模块的网络架构示意图;
图3为本发明中提出的基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别方法的整体框架示意图。
具体实施方式
下面通过实施例并结合附图对本发明做进一步说明,但不限于此。
实施例1
一种基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别方法,如图3所示,包括步骤如下:
(1)构建特征提取模型的网络架构,并进行训练;包括:
A、骨干网络构建
骨干网络包括若干卷积层和若干池化层,输入的步态轮廓序列在骨干网络中逐级提取浅层、中层和深层三个阶段的步态特征;
B、运动特征混合模块构建
运动特征混合模块用于提取步态特征的时序信息;具体是指:对经由步骤A提取到的步态特征,使用运动特征混合模块进行进一步的特征提取,融合相邻帧之间的步态信息,提取时序信息;
C、细粒度多阶段特征提取模块构建
细粒度多阶段特征提取模块用于:对通过步骤A和步骤B得到的包括时序信息的步态特征进行水平划分实现初步的空间特征提取;在得到初步的空间特征后,引入一个分支进行进一步水平划分,并在此基础上加入空间注意力机制,提取到更加细粒度的特征;
D、整体框架训练
特征提取模型的网络架构为基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别网络,包括骨干网络、运动特征混合模块以及细粒度多阶段特征提取模块;
对经由细粒度多阶段特征提取模块得到的更加细粒度的特征进行拼接,作为最终的特征表示,利用三元组损失和交叉熵损失组合训练整个的基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别网络;以得到具有很好的拟合能力以及判别性强的特征提取模型;
(2)跨视角步态识别,包括:将查询数据集的步态轮廓序列送入训练好的基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别网络中提取步态特征,通过与注册数据集进行特征相似性比对完成查询样本的身份识别。
实施例2
根据实施例1所述的一种基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别方法,其区别在于:
步骤A中,骨干网络构建,包括:
骨干网络由一系列卷积层和池化层构成,输入的步态轮廓序列在骨干网络中逐级提取浅层、中层和深层三个阶段的步态特征,其网络结构以及参数如表1所示。骨干网络包括顺序连接的卷积层Conv-1、卷积层Conv-2、卷积层Conv-3、池化层Maxpool-1、卷积层Conv-4、卷积层Conv-5、池化层Maxpool-2、卷积层Conv-6、卷积层Conv-7;输入步态轮廓序列之后,将两个池化层(Maxpool-1、Maxpool-2)应用于相应的卷积层之后,减小了特征图的尺寸并将骨干网络划分为了三个阶段,特征图也根据不同阶段相应的拥有更加高级的语义信息。卷积层Conv-3输出浅层阶段的步态特征,卷积层Conv-5输出中层阶段的步态特征,卷积层Conv-7输出深层阶段的步态特征。卷积层Conv-3、Conv-5、Conv-7的输出作为后续步骤的输入。这样操作的特点就是能够同时提取到步态序列的低级和高级特征,更浅的阶段提取到的更多的是图像的纹理、轮廓等特征,而较深的阶段则更关注于高级、更为抽象的语义信息。能够使得后续网络能够处理更加丰富的信息,并使网络更具拓展性;
表1
步骤B中,运动特征混合模块构建,运动特征混合模块专注于提取步态特征的时序信息。对经由步骤A提取到的步态特征,使用运动特征混合模块进行进一步的特征提取,能够融合相邻帧之间的步态信息,以此达到对时序信息的提取,包括:
运动特征混合模块包括两个卷积核大小为1×1的2D卷积层、一个参数共享的卷积核大小为3×3的2D卷积层、拼接单元、Sigmoid激活函数层、点乘及加和操作单元、最大值池化层;运动特征混合模块的网络架构如图1所示;
经由步骤A得到不同阶段的输出特征图(即浅层、中层和深层三个阶段的步态特征),其中,s表示一个步态图像序列样本的序列长度,c表示骨干网络对应阶段的输出通道数,h和w分别表示每一帧特征图的长和宽;
首先,将不同阶段的输出特征图xn经过一个卷积核大小为1×1的2D卷积层,将输出通道降低α倍,α为超参数;α取16。
然后,对于每一帧输出的特征图将后续的所有帧特征经过一个参数共享的卷积核大小为3×3的2D卷积层,将相邻帧之间做相加处理,如式(I)所示:
式(I)中,Conv3×3(·)表示卷积核大小为3×3的2D卷积层;表示第t+1帧融合了帧级信息后的特征图,xt+1表示xt′的下一帧特征图;
再次,在得到融合了帧级信息后的特征图后,将所有帧级特征图通过拼接单元拼接起来并经过一个卷积核为1×1的2D卷积层恢复为原始尺寸的特征图,如式(II)所示:
式(II)中,为融合相邻帧信息后的特征图,Conv1×1(·)表示卷积核为1×1的2D卷积层,Concat(·)表示沿时序维度的拼接操作;/>表示第t帧融合了帧级信息后的特征图;
最后,在得到融合相邻帧信息后的特征图后,将其经过Sigmoid激活函数层的Sigmoid激活函数,并通过点乘及加和操作单元与原始的特征图xn进行像素级点乘以及加和操作,得到运动特征混合模块的输出如式(III)所示:
并通过最大值池化层对xout进行像素级最大值池化操作,如式(IV)所示:
fn=FrameMax(xout) (IV)
将序列糅合为一帧多阶段特征图即提取到的包括时序信息的步态特征,FrameMax(·)表示像素级最大值池化操作。不仅可以提取到最明显的时序特征,而且也能合理地减少计算量,便于后续地网络操作;
步骤C中,细粒度多阶段特征提取模块构建,细粒度多阶段特征提取模块对通过步骤A和步骤B得到多个阶段的步态特征进行水平划分实现初步的空间特征提取;然后在得到水平划分的特征后,引入一个分支对该特征进行进一步水平划分,并在此基础上加入空间注意力机制,以提取到更加细粒度的特征,包括:
粒度多阶段特征提取模块包括上半分支和下半分支;上半分支包括由池化层和全连接层;下半分支包括裁剪操作、池化层、空间注意力模块和全连接层;其中,空间注意力模块包括全连接层、ReLU激活函数、全连接层、Sigmoid激活函数;
细粒度多阶段特征提取模块如附图2(a)所示。在提取多阶段特征图fn后,将每一个阶段的特征进行水平划分为k块,浅层阶段特征包含信息较少,于是,提取整体和分块数目较少的块的特征,将特征图水平分为k=2块;而深层阶段包含信息较多于是提取分块数目较多的块的细节特征,将特征图水平分为k=16块;中层阶段将特征图水平分为k=4块,得到在w维度进行最大值和均值池化,经过一个全连接层得到一部分特征映射/>如式(V)及(VI)所示:
xreshape=Reshapeh(fn) (V)
其中,Reshapeh(·)表示水平方向的变形操作,Avgpoolingw(·)和Maxpoolingw(·)分别表示w维度的均值池化和最大值池化,FC1(·)表示全连接层;本发明中将全连接层的隐藏层设置为256维;
为了发现更加细粒度的特征信息,在得到xreshape后,将其沿h维度按照细粒度分块倍率r进行进一步的切分,得到如式(VII)所示:
xslice=Sliceh(xreshape) (VII)
式(VII)中,Sliceh(·)表示h维度切分操作;
对xslice在w维度进行最大值和均值池化,然后经过一个全连接层得到细粒度特征如式(VIII)所示:
xr=FC2(Avgpoolingw(xslice)+Maxpoolingw(xslice)) (VIII)
将细粒度特征xr送入空间注意力模块中;将xr沿通道维度和最后一个维度进行均值以及最大值池化,然后经过全连接层和ReLU激活函数,最后再通过一个全连接层和一个Sigmoid激活函数得到不同分块上的不同权重系数,并与原来的特征xr相乘后得到有权重的细粒度分块特征如式(IX)所示:
其中,SA(·)表示空间注意力模块,空间注意力模块如附图2(b)所示;
得到有权重的细粒度分块特征后,将其沿水平分块维度进行最大值池化与均值池化操作,使得到的分块数量恢复到k个,得到特征映射/>
将两部分特征映射与/>进行拼接并经过一个全连接层,得到每一个阶段最终的特征映射/>
最终,将浅层、中层、深层阶段提取得到的三个最终的特征即更加细粒度的特征映射拼接就得到了最终的行人步态特征表示即最终的特征表示f。
步骤D中,整体框架训练,对经由细粒度多阶段特征提取模块得到的特征进行拼接作为最终的特征表示,利用三元组损失和交叉熵损失组合训练整个基于运动特征混合和细粒度多阶段特征提取的步态识别网络,以得到具有很好的拟合能力以及判别性强的特征提取模型。包括:
使用三元组损失函数时,三元组损失函数如式(X)所示。
式(X)中,为该批次中第i个三元组的锚样本步态特征,/>表示与锚样本身份相同的正样本步态特征,/>表示与锚样本身份不同的负样本步态特征,NTri表示在一个批次之中所能构成的三元组的总数,ai表示第i个三元组的锚样本,pi表示第i个三元组的正样本,ni表示第i个三元组的负样本;
使用交叉熵损失函数时,将受试者的最终的特征表示f经过一个输出通道数与身份总数N相等的全连接层;接下来,经过Softmax激活函数将f中的每一个元素的值fi归一化为一个大小为[0,1]之间的身份概率值表示预测行人身份为i的概率大小,如式(XI)所示:
最终得到该样本的行人特征的预测标签分布而对于行人样本的真实标签,使用独热向量来表示,即对于身份为k的行人,构造独热向量/>令其第k个元素为1,即其他元素值为0;则交叉熵计算如式(XII)所示:
式(XII)中,表示身份为k的行人的真实标签分布,/>表示身份为k的行人的预测标签分布,/>表示/>中第i个元素,/>表示/>中第i个元素;
假设一个批次样本数量为B,交叉熵损失函数定义如式(XIII):
整体框架训练时,采用的损失函数如式(XIV)所示。
通过最小化三元组损失和交叉熵损失的组合来完成整个的基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别网络的训练。这样可以保证特征提取模型能够快速收敛,同时达到较好的识别性能。
步骤E中,跨视角步态识别,包括:
将注册数据集输入训练好的基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别网络中,将训练好的基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别网络的输出的特征作为每个步态轮廓序列的整体特征表示,最终得到注册数据集的特征数据库;
将待识别的查询数据集中的样本送入训练好的基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别网络,输出查询数据集的最终的特征表示;
将查询数据集中的每一个步态样本的最终的特征表示与得到的注册数据集中的所有特征进行欧氏距离计算,最终将该查询样本识别为注册数据集中与之欧氏距离最小的特征的标签,输出查询样本的身份标签,完成跨视角步态识别。
本实施例中,将步态轮廓序列尺寸均为64×44,在训练阶段,取用每一段步态序列的30帧,在测试阶段,取用步态序列的全部帧。在超参数设置方面,将多阶段金字塔分块数k设置为:浅层时k=2块、中层时k=4块、深层时k=16块,将细粒度分块倍率r设置为:浅层时r1=4、中层时r1=2、深层时r1=1。三元组损失的余量margin固定为0.2,使用SGD优化器训练网络,初始学习率设置为0.1。训练过程中,在第8k次降低学习率为0.01,在第16k次降低为0.001,总共训练30k次。
CASIA-B步态数据集由中国科学院自动化研究所创建,在实验室环境下对124个受试者的步态数据进行了采集,每个受试者包含三种类型的序列:正常类型(Normal,NM)、背包类型(Bagging,BG)以及着装类型(Clothing,CL)。其中,每一个受试者有六段正常类型的步态序列:NM-01、NM-02、NM-03、NM-04、NM-05、NM-06;两段背包类型的步态序列:BG-01、BG-02;两段着装类型的步态序列:CL-01、CL-02。对于每一组不同类型的步态样本,均包括11个视角(0°,18°,36°,54°,72°,90°,108°,126°,154°,162°,180°)下的不同情况。综上所述,CASIA-B步态数据集总共包含约124×10×11×13640段步态序列,本实施例实验在CASIA-B数据集上训练网络模型时使用前74人的全部样本,测试集使用数据集的后50人的样本。测试集中,取NM-01、NM-02、NM-03、NM-04作为注册样本,NM-05、NM-06作为正常类型的查询样本,BG-01、BG-02作为背包类型的查询样本,CL-01、CL-02作为着装类型的查询样本。设置每一个批次大小为128,即挑选8个身份的受试者,每个受试者挑选16段序列。为了验证本发明提出的一种基于时空信息增强和多尺度显著性特征提取的跨视角步态识别方法的先进性,将本发明与现有的7种先进步态识别方法在CASIA-B数据集上进行比较,包括GEInet、CNN-LB、ACL、GaitPart、GaitSet、GCEM、GaitSlice。表2为CASIA-B数据库不同查询视角的跨视角识别平均Rank-1准确率(%)。
表2
/>
由表2可看出,本发明方法在所有跨行走条件情况下,均取得了最好的识别效果。在三种类型的行走条件下,本发明方法的识别率超过所有其他先进的对比方法,分别达到了97.7%、93.5%和81.8%。
实施例3
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现实施例1或2基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别方法的步骤。
实施例4
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现实施例1或2基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别方法的步骤。

Claims (9)

1.一种基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别方法,其特征在于,包括步骤如下:
(1)构建特征提取模型的网络架构,并进行训练;包括:
A、骨干网络构建
骨干网络包括若干卷积层和若干池化层,输入的步态轮廓序列在骨干网络中逐级提取浅层、中层和深层三个阶段的步态特征;
B、运动特征混合模块构建
运动特征混合模块用于提取步态特征的时序信息;具体是指:对经由步骤A提取到的步态特征,使用运动特征混合模块进行进一步的特征提取,融合相邻帧之间的步态信息,提取时序信息;
C、细粒度多阶段特征提取模块构建
细粒度多阶段特征提取模块用于:对通过步骤A和步骤B得到的包括时序信息的步态特征进行水平划分实现初步的空间特征提取;在得到初步的空间特征后,引入一个分支进行进一步水平划分,并在此基础上加入空间注意力机制,提取到更加细粒度的特征;
D、整体框架训练
特征提取模型的网络架构为基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别网络,包括骨干网络、运动特征混合模块以及细粒度多阶段特征提取模块;
对经由细粒度多阶段特征提取模块得到的更加细粒度的特征进行拼接,作为最终的特征表示,利用三元组损失和交叉熵损失组合训练整个的基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别网络;
(2)跨视角步态识别,包括:将查询数据集的步态轮廓序列送入训练好的基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别网络中提取步态特征,通过与注册数据集进行特征相似性比对完成查询样本的身份识别。
2.根据权利要求1所述的一种基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别方法,其特征在于,步骤A中,骨干网络构建,包括:
骨干网络包括顺序连接的卷积层Conv-1、卷积层Conv-2、卷积层Conv-3、池化层Maxpool-1、卷积层Conv-4、卷积层Conv-5、池化层Maxpool-2、卷积层Conv-6、卷积层Conv-7;输入步态轮廓序列之后,卷积层Conv-3输出浅层阶段的步态特征,卷积层Conv-5输出中层阶段的步态特征,卷积层Conv-7输出深层阶段的步态特征。
3.根据权利要求1所述的一种基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别方法,其特征在于,步骤B中,运动特征混合模块构建,包括:
运动特征混合模块包括两个卷积核大小为1×1的2D卷积层、一个参数共享的卷积核大小为3×3的2D卷积层、拼接单元、Sigmoid激活函数层、点乘及加和操作单元、最大值池化层;
经由步骤A得到不同阶段的输出特征图其中,s表示一个步态图像序列样本的序列长度,c表示骨干网络对应阶段的输出通道数,h和w分别表示每一帧特征图的长和宽;
首先,将不同阶段的输出特征图xn经过一个卷积核大小为1×1的2D卷积层,将输出通道降低α倍,α为超参数;
然后,对于每一帧输出的特征图将后续的所有帧特征经过一个参数共享的卷积核大小为3×3的2D卷积层,将相邻帧之间做相加处理,如式(I)所示:
式(I)中,Conv3×3(·)表示卷积核大小为3×3的2D卷积层;表示第t+1帧融合了帧级信息后的特征图,xt+1表示xt′的下一帧特征图;
再次,在得到融合了帧级信息后的特征图后,将所有帧级特征图通过拼接单元拼接起来并经过一个卷积核为1×1的2D卷积层恢复为原始尺寸的特征图,如式(II)所示:
式(II)中,为融合相邻帧信息后的特征图,Conv1×1(·)表示卷积核为1×1的2D卷积层,Concat(·)表示沿时序维度的拼接操作;/>表示第t帧融合了帧级信息后的特征图;
最后,在得到融合相邻帧信息后的特征图后,将其经过Sigmoid激活函数层的Sigmoid激活函数,并通过点乘及加和操作单元与原始的特征图xn进行像素级点乘以及加和操作,得到运动特征混合模块的输出如式(III)所示:
并通过最大值池化层对xout进行像素级最大值池化操作,如式(IV)所示:
fn=FrameMax(xout)(IV)
将序列糅合为一帧多阶段特征图即提取到的包括时序信息的步态特征,FrameMax(·)表示像素级最大值池化操作。
4.根据权利要求3所述的一种基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别方法,其特征在于,α取16。
5.根据权利要求1所述的一种基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别方法,其特征在于,步骤C中,细粒度多阶段特征提取模块构建,包括:
粒度多阶段特征提取模块包括上半分支和下半分支;上半分支包括由池化层和全连接层;下半分支包括裁剪操作、池化层、空间注意力模块和全连接层;其中,空间注意力模块包括全连接层、ReLU激活函数、全连接层、Sigmoid激活函数;
在提取多阶段特征图fn后,将每一个阶段的特征进行水平划分为k块,得到在w维度进行最大值和均值池化,经过一个全连接层得到一部分特征映射/>如式(V)及(VI)所示:
xreshape=Reshapeh(fn) (V)
其中,Reshapeh(·)表示水平方向的变形操作,Avgpoolingw(·)和Maxpoolingw(·)分别表示w维度的均值池化和最大值池化,FC1(·)表示全连接层;
在得到xreshape后,将其沿h维度按照细粒度分块倍率r进行进一步的切分,得到如式(VII)所示:
xslice=Sliceh(xreshape) (VII)
式(VII)中,Sliceh(·)表示h维度切分操作;
对xslice在w维度进行最大值和均值池化,然后经过一个全连接层得到细粒度特征如式(VIII)所示:
xr=FC2(Avgpoolingw(xslice)+Maxpoolingw(xslice)) (VIII)
将细粒度特征xr送入空间注意力模块中;将xr沿通道维度和最后一个维度进行均值以及最大值池化,然后经过全连接层和ReLU激活函数,最后再通过一个全连接层和一个Sigmoid激活函数得到不同分块上的不同权重系数,并与原来的特征xr相乘后得到有权重的细粒度分块特征如式(IX)所示:
其中,SA(·)表示空间注意力模块;
得到有权重的细粒度分块特征后,将其沿水平分块维度进行最大值池化与均值池化操作,使得到的分块数量恢复到k个,得到特征映射/>
将两部分特征映射与/>进行拼接并经过一个全连接层,得到每一个阶段最终的特征映射/>
最终,将浅层、中层、深层阶段提取得到的三个最终的特征即更加细粒度的特征映射拼接就得到了最终的行人步态特征表示即最终的特征表示f。
6.根据权利要求1所述的一种基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别方法,其特征在于,步骤D中,整体框架训练,包括:
使用三元组损失函数时,三元组损失函数如式(X)所示:
式(X)中,为该批次中第i个三元组的锚样本步态特征,/>表示与锚样本身份相同的正样本步态特征,/>表示与锚样本身份不同的负样本步态特征,NTri表示在一个批次之中所能构成的三元组的总数,ai表示第i个三元组的锚样本,pi表示第i个三元组的正样本,ni表示第i个三元组的负样本;
使用交叉熵损失函数时,将受试者的最终的特征表示f经过一个输出通道数与身份总数N相等的全连接层;接下来,经过Softmax激活函数将f中的每一个元素的值fi归一化为一个大小为[0,1]之间的身份概率值表示预测行人身份为i的概率大小,如式(XI)所示:
最终得到该样本的行人特征的预测标签分布而对于行人样本的真实标签,使用独热向量来表示,即对于身份为k的行人,构造独热向量/>令其第k个元素为1,即/>其他元素值为0;则交叉熵计算如式(XII)所示:
式(XII)中,表示身份为k的行人的真实标签分布,/>表示身份为k的行人的预测标签分布,/>表示/>中第i个元素,/>表示/>中第i个元素;
假设一个批次样本数量为B,交叉熵损失函数定义如式(XIII):
整体框架训练时,采用的损失函数如式(XIV)所示:
通过最小化三元组损失和交叉熵损失的组合来完成整个的基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别网络的训练。
7.根据权利要求1-6任一所述的一种基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别方法,其特征在于,步骤E中,跨视角步态识别,包括:
将注册数据集输入训练好的基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别网络中,将训练好的基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别网络的输出的特征作为每个步态轮廓序列的整体特征表示,最终得到注册数据集的特征数据库;
将待识别的查询数据集中的样本送入训练好的基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别网络,输出查询数据集的最终的特征表示;
将查询数据集中的每一个步态样本的最终的特征表示与得到的注册数据集中的所有特征进行欧氏距离计算,最终将该查询样本识别为注册数据集中与之欧氏距离最小的特征的标签,输出查询样本的身份标签,完成跨视角步态识别。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-7任一所述的基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一所述的基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别方法的步骤。
CN202310711767.4A 2023-06-15 2023-06-15 一种基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别方法 Pending CN116704611A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310711767.4A CN116704611A (zh) 2023-06-15 2023-06-15 一种基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310711767.4A CN116704611A (zh) 2023-06-15 2023-06-15 一种基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别方法

Publications (1)

Publication Number Publication Date
CN116704611A true CN116704611A (zh) 2023-09-05

Family

ID=87823536

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310711767.4A Pending CN116704611A (zh) 2023-06-15 2023-06-15 一种基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别方法

Country Status (1)

Country Link
CN (1) CN116704611A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116912949A (zh) * 2023-09-12 2023-10-20 山东科技大学 一种基于视角感知部分明智注意力机制的步态识别方法
CN117690583A (zh) * 2024-02-01 2024-03-12 吉林大学 基于物联网的康复护理交互式管理系统及方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116912949A (zh) * 2023-09-12 2023-10-20 山东科技大学 一种基于视角感知部分明智注意力机制的步态识别方法
CN116912949B (zh) * 2023-09-12 2023-12-22 山东科技大学 一种基于视角感知部分明智注意力机制的步态识别方法
CN117690583A (zh) * 2024-02-01 2024-03-12 吉林大学 基于物联网的康复护理交互式管理系统及方法
CN117690583B (zh) * 2024-02-01 2024-04-09 吉林大学 基于物联网的康复护理交互式管理系统及方法

Similar Documents

Publication Publication Date Title
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN111709311B (zh) 一种基于多尺度卷积特征融合的行人重识别方法
CN109829427B (zh) 一种基于纯度检测和空间注意力网络的人脸聚类方法
CN111126360A (zh) 基于无监督联合多损失模型的跨域行人重识别方法
CN110598543B (zh) 基于属性挖掘和推理的模型训练方法及行人再识别方法
CN112307995B (zh) 一种基于特征解耦学习的半监督行人重识别方法
CN116704611A (zh) 一种基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别方法
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN110598018B (zh) 一种基于协同注意力的草图图像检索方法
CN109325507A (zh) 一种结合超像素显著性特征与hog特征的图像分类算法和系统
CN113505719B (zh) 基于局部-整体联合知识蒸馏算法的步态识别模型压缩系统及方法
CN114782977B (zh) 一种基于拓扑信息和亲和度信息引导行人重识别方法
CN113920472A (zh) 一种基于注意力机制的无监督目标重识别方法及系统
CN113177612A (zh) 一种基于cnn少样本的农业病虫害图像识别方法
CN110633631B (zh) 一种基于部件幂集和多尺度特征的行人重识别方法
CN116030495A (zh) 基于倍率学习的低分辨率行人重识别算法
Guehairia et al. Deep random forest for facial age estimation based on face images
CN111488797B (zh) 一种行人再识别方法
Hou et al. A face detection algorithm based on two information flow block and retinal receptive field block
CN116246305A (zh) 一种基于混合部件变换网络的行人检索方法
CN115661754A (zh) 一种基于维度融合注意力的行人重识别方法
CN115439930A (zh) 一种基于时空维度筛选的多特征融合步态识别方法
Li et al. Criminal investigation image classification based on spatial cnn features and elm
Wang et al. Classification of remotely sensed images using an ensemble of improved convolutional network
CN116486101B (zh) 一种基于窗口注意力的图像特征匹配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination