CN115205983A - 一种基于多特征聚合的跨视角步态识别方法、系统及设备 - Google Patents
一种基于多特征聚合的跨视角步态识别方法、系统及设备 Download PDFInfo
- Publication number
- CN115205983A CN115205983A CN202211115473.7A CN202211115473A CN115205983A CN 115205983 A CN115205983 A CN 115205983A CN 202211115473 A CN202211115473 A CN 202211115473A CN 115205983 A CN115205983 A CN 115205983A
- Authority
- CN
- China
- Prior art keywords
- layer
- features
- feature
- range
- visual angle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005021 gait Effects 0.000 title claims abstract description 111
- 230000002776 aggregation Effects 0.000 title claims abstract description 76
- 238000004220 aggregation Methods 0.000 title claims abstract description 76
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 230000004931 aggregating effect Effects 0.000 claims abstract description 6
- 102100021866 Hepatocyte growth factor Human genes 0.000 claims abstract description 3
- 101000898034 Homo sapiens Hepatocyte growth factor Proteins 0.000 claims abstract description 3
- 101001081314 Oryctolagus cuniculus Heptapoietin A light chain Proteins 0.000 claims abstract description 3
- 230000008521 reorganization Effects 0.000 claims abstract description 3
- 230000000007 visual effect Effects 0.000 claims description 50
- 238000000605 extraction Methods 0.000 claims description 33
- 238000011156 evaluation Methods 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 30
- 238000011176 pooling Methods 0.000 claims description 28
- 230000008569 process Effects 0.000 claims description 27
- 230000006798 recombination Effects 0.000 claims description 11
- 238000005215 recombination Methods 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000008859 change Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000000737 periodic effect Effects 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 238000006116 polymerization reaction Methods 0.000 claims description 4
- 230000000295 complement effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000013434 data augmentation Methods 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims 1
- 239000000284 extract Substances 0.000 abstract 1
- 238000012512 characterization method Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000013209 evaluation strategy Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 239000002775 capsule Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
- G06V40/25—Recognition of walking or running movements, e.g. gait recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/42—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多特征聚合的跨视角步态识别方法、系统及设备,首先对输入视频进行预处理获得步态序列;然后将处理后的步态序列输入基于多特征聚合的跨视角步态识别网络(GaitAMR)中,得到识别结果。具体而言,本发明提出了一种空间特征重组评估策略(SFRA),通过重建受试者高质量的外观特征来消除空间域中存在的遮挡。其次,提出了一种整体和部分时间聚合策略(HPTA),该策略从全局和局部两方面提取身体运动描述符,以捕获人体的独特运动模式。最后,提出了一种视图投影预测学习策略(VPPL),将最佳视图下的特征作为补充信息嵌入特征识别部分,以增强识别过程中的视图稳定性。本发明通过有效地聚合这三个维度的特征表示,显著提升了步态识别的精度。
Description
技术领域
本发明属于生物特征识别技术领域,涉及一种步态识别方法、系统及设备,具体涉及一种基于多特征聚合的跨视角步态识别方法、系统及设备。
背景技术
步态识别是一种新兴的生物特征识别技术,旨在通过人们走路的姿态进行身份识别,与其他的生物识别技术相比,步态识别具有非接触远距离和不容易伪装的优点。深度学习推动了步态识别的进展,其通过在大量步态数据集上进行训练获得了远超传统识别方法的效果。然而,考虑到复杂环境下的步态识别及视角变化等干扰因素,步态识别的准确性尚不能满足应用要求。因此,提升复杂环境下步态识别方法的性能具有重要意义。
步态识别首先通过摄像头去采集步态信息,然后通过背景估计等算法进行步态检测,接着对步态序列轮廓区域作特征表征,对比步态数据库,作最终的步态识别。步态表征就是步态特征提取,这些特征包括结构化特征、非结构化特征和融合特征,目前大致分为三种表征类型:
(1)身体表征:步态识别中主流的身体表征可分为轮廓和骨骼两类。轮廓是现有研究中最常用的身体表征形式,且计算成本低。这种类型的身体表征迫使识别器关注步态而非服装和非步态因素,从而利于步态分类器。骨骼作为身体表征的另一种形式,通过对身体关节的分析,获得身体的静态和动态表征。与轮廓法相比,骨骼法对视角和外观的变化不敏感,因为姿态估计过程侧重于检测身体关节,而关节受遮挡的影响较小。
(2)时间表征:时间表征用于描述受试者的周期性运动信息,模板和序列是两种常见的时间表征形式。模板是将受试者轮廓的整个行走过程聚合在单一图像上,常见的步态模板包括时间模板和卷积模板。时间模板是步态识别中常用的模板形式,主要包括步态能量图(GEI)、时间保持步态图和帧差能量图。序列模板使用非聚合形式来学习步态序列中受试者在行走过程中的差异性。目前常用的学习步态序列中时序关系的策略有两种:一是循环学习策略,它利用循环神经网络计算当前帧与前一帧之间的依赖关系;二是3D矢量策略,该策略基于步态序列创建包含时序信息的3D张量,然后使用基于3D的深度模型学习步态序列中的时序关联。
(3)特征表征:特征表征主要关注人体轮廓的学习区域。现阶段步态研究中普遍认为轮廓区域可以分为全局和局部两类。具体来说,从整体角度提取轮廓特征被称为全局特征学习,这种特征表征对遮挡和外观变化更加敏感。相比之下,局部特征学习需要将步态剪影切片为多个切片,例如垂直/水平条,然后使用神经网络对这些局部切片进行处理,如胶囊网络或注意力网络。通常,通过局部特征学习得到的身体部位的权重对最终的识别结果存在影响,而且学习局部特征之间的关系还可以提高步态方法对方向变化的适应性。
现有步态识别方法大致从全局和局部的角度进行特征学习,全局特征学习侧重于轮廓整体的上下文信息,而忽略了身体各部位的细粒度学习;局部特征学习侧重于身体各部位的不同表示,缺乏对步态轮廓全局内容的表征。面对复杂条件导致的遮挡及视角变换等非步态干扰因素,现有方法的精度和鲁棒性仍然不足。
发明内容
为了解决上述技术问题,本发明提供了一种基于多特征聚合的跨视角步态识别方法、系统及设备。
本发明的方法所采用的技术方案是:一种基于多特征聚合的跨视角步态识别方法,包括以下步骤:
步骤1:对输入视频进行预处理操作,获得相应类别的步态序列,包括正常行走步态序列,背包行走步态序列,穿外套行走步态序列;
步骤2:将处理后的步态序列输入基于多特征聚合的跨视角步态识别网络中,得到识别结果;
所述基于多特征聚合的跨视角步态识别网络,包括基准网络、多尺度特征提取器、空间特征评估模块、整体和部分时间聚合模块、视角投影预测学习模块、多特征聚合模块和分类器;
所述基准网络,用于提取步态序列对应的内部特征,具体网络结构由顺序连接的5层组成,其中第3层为池化层,其余为3×3卷积层;
所述多尺度特征提取器,用于提取态序列对应内部特征的多尺度特征,多尺度特征包括帧级特征F fl 、短程特征F sr 和长程特征F lr ;其中,帧级特征F fl 用来保存外观轮廓信息,短程特征F sr 用来学习微运动表示,长程特征F lr 用于保存身体部位的周期性变化;所述多尺度特征提取器,由并行设置的帧级特征提取层、短程特征提取层和长程特征提取层组成;所述帧级特征提取层为3×3卷积层;所述短程特征提取层由顺序连接的2个3×1卷积层组合而成,其中第一个卷积层的输出与第二个卷层的输出融合后输出短程特征;所述长程特征提取层由MLP层和Sigmoid函数层组成,其中输入与Sigmoid函数层输出经过两次融合后输出长程特征;
所述空间特征评估模块,用于根据输入的多尺度特征,提取身体各部位最显著特征,实现重组高质量的外观特征;其具体结构包括三部分,第一部分由池化层、卷积操作层和Sigmoid函数层组成,其中输入与Sigmoid函数层输出经过两次融合后输出将多尺度特征转换为空间评估特征;第二部分由顺序设置的通过MLP层和Sigmoid层,及并行设置1×1卷积层组成,通过MLP层和Sigmoid层计算每帧中各部分的分值,然后与1×1卷积层得到的结果进行乘积运算得到局部权值矢量;第三部分包括最大值Max操作层、显著特征查找层和外观特征重组层,通过最大值Max操作层挑选分值最高的区域索引,然后通过该索引从局部权值矢量中选取显著部分特征,沿高度维度对这些部分特征进行重组;
所述整体和部分时间聚合模块,用于根据输入的多尺度特征,从全局和局部两方面提取身体运动描述符,学习人体的独特运动模式;所述整体和部分时间聚合模块包括整体自适应时序建模层和水平金字塔时序建模层;整体自适应时序建模层由两个包含LeakReLU的1×1卷积模块及Sigmoid操作构成;水平金字塔时序建模层先通过HPM层对特征进行水平划分,然后使用Maxpool层和Avgpool层组合对条带特征进行映射,最后使用MCM层提取特征中潜在的微运动表示;其中,时序输入中的短程特征由原始帧级特征与原始短程特征相加得到;长程特征由新的短程特征与原始长程特征相加得到;最后,通过对帧级特征、新的短程和长程特征沿通道维度进行融合得到两个时序建模层的输入特征;
所述视角投影预测学习模块,用于根据输入的多尺度特征,提取最佳视图特征作为特征识别过程中的补充信息;所述视角投影预测学习模块包括第一最大值Max操作层、第二最大值Max操作层、Avgpool池化层、全连接操作层、第三最大值Max操作层和最佳视角查找层,首先对输入的融合后的多尺度特征通过第一最大值Max操作层进行最大值Max操作得到多视角特征;然后使用第二最大值Max操作层,Avgpool池化层及全连接操作层对输入的融合后的多尺度特征进行计算,得到视角矩阵,接着使用第三最大值Max操作层从视角矩阵中得到视角值最大的索引,最后最佳视角查找层通过索引从多视角特征中选取最佳视角特征;
所述多特征聚合模块通过Concat拼接操作沿通道维度执行,用于将所述空间特征评估模块、整体和部分时间聚合模块和视角投影预测学习模块输出进行聚合;
所述分类器通过全连接操作执行,用于将所述多特征聚合模块输出进行识别,得到识别结果。
本发明的系统所采用的技术方案是:一种基于多特征聚合的跨视角步态识别系统,包括以下模块:
步态序列提取模块,用于对输入视频进行预处理操作,获得相应类别的步态序列,包括正常行走步态序列,背包行走步态序列,穿外套行走步态序列;
识别模块,用于将处理后的步态序列输入基于多特征聚合的跨视角步态识别网络中,得到识别结果;
所述基于多特征聚合的跨视角步态识别网络,包括基准网络、多尺度特征提取器、空间特征评估模块、整体和部分时间聚合模块、视角投影预测学习模块、多特征聚合模块和分类器;
所述基准网络,用于提取步态序列对应的内部特征,具体网络结构由顺序连接的5层组成,其中第3层为池化层,其余为3×3卷积层;
所述多尺度特征提取器,用于提取态序列对应内部特征的多尺度特征,多尺度特征包括帧级特征F fl 、短程特征F sr 和长程特征F lr ;其中,帧级特征F fl 用来保存外观轮廓信息,短程特征F sr 用来学习微运动表示,长程特征F lr 用于保存身体部位的周期性变化;所述多尺度特征提取器,由并行设置的帧级特征提取层、短程特征提取层和长程特征提取层组成;所述帧级特征提取层为3×3卷积层;所述短程特征提取层由顺序连接的2个3×1卷积层组合而成,其中第一个卷积层的输出与第二个卷层的输出融合后输出短程特征;所述长程特征提取层由MLP层和Sigmoid函数层组成,其中输入与Sigmoid函数层输出经过两次融合后输出长程特征;
所述空间特征评估模块,用于根据输入的多尺度特征,提取身体各部位最显著特征,实现重组高质量的外观特征;其具体结构包括三部分,第一部分由池化层、卷积操作层和Sigmoid函数层组成,其中输入与Sigmoid函数层输出经过两次融合后输出将多尺度特征转换为空间评估特征;第二部分由顺序设置的通过MLP层和Sigmoid层,及并行设置1×1卷积层组成,通过MLP层和Sigmoid层计算每帧中各部分的分值,然后与1×1卷积层得到的结果进行乘积运算得到局部权值矢量;第三部分包括最大值Max操作层、显著特征查找层和外观特征重组层,通过最大值Max操作层挑选分值最高的区域索引,然后通过该索引从局部权值矢量中选取显著部分特征,沿高度维度对这些部分特征进行重组;
所述整体和部分时间聚合模块,用于根据输入的多尺度特征,从全局和局部两方面提取身体运动描述符,学习人体的独特运动模式;所述整体和部分时间聚合模块包括整体自适应时序建模层和水平金字塔时序建模层;整体自适应时序建模层由两个包含LeakReLU的1×1卷积模块及Sigmoid操作构成;水平金字塔时序建模层先通过HPM层对特征进行水平划分,然后使用Maxpool层和Avgpool层组合对条带特征进行映射,最后使用MCM层提取特征中潜在的微运动表示;其中,时序输入中的短程特征由原始帧级特征与原始短程特征相加得到;长程特征由新的短程特征与原始长程特征相加得到;最后,通过对帧级特征、新的短程和长程特征沿通道维度进行融合得到两个时序建模层的输入特征;
所述视角投影预测学习模块,用于根据输入的多尺度特征,提取最佳视图特征作为特征识别过程中的补充信息;所述视角投影预测学习模块包括第一最大值Max操作层、第二最大值Max操作层、Avgpool池化层、全连接操作层、第三最大值Max操作层和最佳视角查找层,首先对输入的融合后的多尺度特征通过第一最大值Max操作层进行最大值Max操作得到多视角特征;然后使用第二最大值Max操作层,Avgpool池化层及全连接操作层对输入的融合后的多尺度特征进行计算,得到视角矩阵,接着使用第三最大值Max操作层从视角矩阵中得到视角值最大的索引,最后最佳视角查找层通过索引从多视角特征中选取最佳视角特征;
所述多特征聚合模块通过Concat拼接操作沿通道维度执行,用于将所述空间特征评估模块、整体和部分时间聚合模块和视角投影预测学习模块输出进行聚合;
所述分类器通过全连接操作执行,用于将所述多特征聚合模块输出进行识别,得到识别结果。
本发明的设备所采用的技术方案是:一种基于多特征聚合的跨视角步态识别设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现所述的基于多特征聚合的跨视角步态识别方法。
与现有的步态识别方法相比,本发明具有以下的优点与积极效果:
(1)本发明通过空间特征重组评估策略,从步态序列中选择身体显著特征区域,重建高质量的外观特征,提升对人体遮挡的鲁棒性。
(2)通过整体和部分时间聚合策略,从全局和局部两方面提取身体动作描述符,获取人体完整且独特的运动模式,提高步态特征的鉴别力。
(3)通过视图投影预测学习策略,明确地将最佳视图特征作为补充信息嵌入到特征识别过程中,以增强识别过程中的视图稳定性。
附图说明
图1:本发明实施例的方法原理框架图;
图2:本发明实施例的基准网络结构示意图;
图3:本发明实施例的多尺度特征提取器结构示意图;
图4:本发明实施例的空间特征评估模块结构示意图;
图5:本发明实施例的整体和部分时间聚合模块结构示意图;
图6:本发明实施例的视角投影预测学习模块结构示意图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施案例对本发明做进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
为了满足复杂条件下的步态识别需求,本实施例采用空间特征评估策略来解决受试者行走过程中因遮挡导致的识别误差;针对视角变化带来的影响,本实施例采用视角投影预测策略对多视角进行评估,选取最佳视角下的特征作为特征识别过程中的补足信息。针对受试者的运动表示,本实施例采用整体和部分时间聚合策略协同式的从全局和局部两方面提取适配人体的运动模式。
本发明对给定步态数据进行预处理和数据增广。同时,充分考虑了复杂环境中步态轮廓因遮挡、携带物品、视角变化等引起的轮廓缺失,进而导致识别不准确等问题。本发明方法在常规步态识别的基础上确保了跨视角复杂环境下的模型识别精度,提高了模型在行人步态识别过程中的综合性能。
具体请见图1,本发明提供的一种基于多特征聚合的跨视角步态识别方法,包括以下步骤:
步骤1:对输入视频进行预处理操作,获得相应类别(包括正常行走,背包行走,穿外套行走等)的步态序列;
本实施例中,步骤1的具体实现包括以下子步骤:
步骤1.1:对视频进行切分操作,将视频片段切割为单帧放到指定文件夹中;
步骤1.2:对步骤1.1中处理后的单帧图像进行裁剪,指定尺寸为64×64大小;
步骤1.3:对步骤1.2裁剪后的图像进行数据增广处理,具体方式为随机组合以下操作:随机水平翻转、随机裁剪、随机仿射变换;从而实现扩增数据的效果。
步骤2:将处理后的步态序列输入基于多特征聚合的跨视角步态识别网络(GaitAMR)中,得到识别结果;
本实施例的基于多特征聚合的跨视角步态识别网络,包括基准网络、多尺度特征提取器、空间特征评估模块、整体和部分时间聚合模块、视角投影预测学习模块、多特征聚合模块和分类器;
本实施例的基准网络,用于提取步态序列对应的内部特征;
本实施例的多尺度特征提取器,用于提取态序列对应内部特征的多尺度特征,多尺度特征包括帧级特征F fl 、短程特征F sr 和长程特征F lr ;本实施例的空间特征评估模块,用于根据输入的多尺度特征,提取身体各部位最显著特征,实现重组高质量的外观特征;
本实施例的整体和部分时间聚合模块,用于根据输入的多尺度特征,从全局和局部两方面提取身体运动描述符,学习人体的独特运动模式;
本实施例的视角投影预测学习模块,用于根据输入的多尺度特征,提取最佳视图特征作为特征识别过程中的补充信息;
本实施例的多特征聚合模块,用于将空间特征评估模块、整体和部分时间聚合模块和视角投影预测学习模块输出进行聚合;
本实施例的分类器,用于将多特征聚合模块输出进行识别,得到识别结果。
请见图2,本实施例的基准网络,具具体网络结构由顺序连接的5层组成,其中第3层为池化层,其余为3×3卷积层。
请见图3,本实施例的多尺度特征提取器,由并行设置的帧级特征提取层、短程特征提取层和长程特征提取层组成;帧级特征提取层为3×3卷积层;短程特征提取层由顺序连接的2个3×1卷积层组合而成,其中第一个卷积层的输出与第二个卷层的输出融合后输出短程特征;长程特征提取层由MLP层和Sigmoid函数层组成,其中输入与Sigmoid函数层输出经过两次融合后输出长程特征。
请见图4,本实施例的空间特征评估模块,其具体结构包括三部分,第一部分由池化层、卷积操作层和Sigmoid函数层组成,其中输入与Sigmoid函数层输出经过两次融合后输出将多尺度特征转换为空间评估特征;第二部分由顺序设置的通过MLP层和Sigmoid层,及并行设置1×1卷积层组成,通过MLP层和Sigmoid层计算每帧中各部分的分值,然后与1×1卷积层得到的结果进行乘积运算得到局部权值矢量;第三部分包括最大值Max操作层、显著特征查找层和外观特征重组层,通过最大值Max操作层挑选分值最高的区域索引,然后通过该索引从局部权值矢量中选取显著部分特征,沿高度维度对这些部分特征进行重组。
具体实现过程如下:
其中Avgpool(·)表示沿通道维度的平均池化操作,Concat(·)表示沿通道维度
的拼接操作,F g 表示初始全局多尺度特征;将初始全局多尺度特征输入到空间特征聚合器中得到特征Y,然后将特征Y经过Sigmoid(·)运算得到一个掩码M,随后将初始全
局多尺度特征F g 和掩码M进行加权计算得到最终的评估输出特征F eval ,其中∆(·)表示加权
求和运算,⊙表示乘积运算;最后,使用带有sigmoid函数的多层感知器MLP从评估的特征中
选择突出的身体部位进行特征重组,表示评估特征,表示第l个样本中第k帧的第q
部分的分值;l、k、q、表示第l个样本,第k帧,第q个部分。
请见图5,本实施例的整体和部分时间聚合模块,包括整体自适应时序建模层和水平金字塔时序建模层;整体自适应时序建模层由两个包含LeakReLU的1×1卷积模块及Sigmoid操作构成;水平金字塔时序建模层先通过HPM层对特征进行水平划分,然后使用Maxpool层和Avgpool层组合对条带特征进行映射,最后使用MCM层提取特征中潜在的微运动表示;其中,时序输入中的短程特征由原始帧级特征与原始短程特征相加得到;长程特征由新的短程特征与原始长程特征相加得到;最后,通过对帧级特征、新的短程和长程特征沿通道维度进行融合得到两个时序建模层的输入特征。
具体实现过程如下:
首先进行整体自适应时序建模(holistic adaptive temporal modeling,HATM):
其中,Concat(·)指的是沿通道维度的拼接函数,LR(·)是LeakReLU激活函数,Conv (·)为卷积操作,FC(·)为全连接操作;通过对聚合多尺度特征后得到的特征F t 进行
时间重要性评估计算进而得到时间权重W t ;最后将时间权重W t 与聚合特征F t 进行加权计算
进而得到整体自适应时序特征F HATM ,⊙表示乘积运算,l和k表示第k帧和第l个序列;为第l个序列中第k帧的时序特征、为第l个序列中第k帧的权重;
水平金字塔时序建模(horizontal pyramid temporal modeling, HPTM):
其中,Maxpool(·)表示全局最大池化操作,Avgpool(·)表示全局平均池化操作,Concat h (·)指的是沿特征高度进行拼接操作,h表示特征图的高度,表示沿高度维度
划分的特征,1≤j≤h;MCM(·)指的是微动作捕捉模块,用来提取身体各部分之间的时序关
联F HPTM ;最终,将整体和部分的时序特征进行融合得到完整的时序特征F HPTA = Concat(F HATM, F HPTM ),Concat(·)指的是沿通道维度进行拼接操作。
请见图6,本实施例的视角投影预测学习模块包括第一最大值Max操作层、第二最大值Max操作层、Avgpool池化层、全连接操作层、第三最大值Max操作层和最佳视角查找层,首先对输入的融合后的多尺度特征通过第一最大值Max操作层进行最大值Max操作得到多视角特征;然后使用第二最大值Max操作层,Avgpool池化层及全连接操作层对输入的融合后的多尺度特征进行计算,得到视角矩阵,接着使用第三最大值Max操作层从视角矩阵中得到视角值最大的索引,最后最佳视角查找层通过索引从多视角特征中选取最佳视角特征。
具体实现过程如下:
其中,Avgpool(·)表示全局平均池化操作,Concat(·)指的是沿通道维度的拼接
函数,FC为全连接操作;将聚合后的多尺度特征进行计算得到视角特征F v ,然后对这些视角
特征F v 进行视点概率预测和最大视点概率预测,获得概率预测值P view ;最后,选取概率预测
值最大的视角下特征作为补足信息,进而缓解识别过程中视角变化带来的影响;其中∆
(·)表示加权求和运算,⊙表示乘积运算;分别表示视角权重和视角偏置。
本发明采用的基于多特征聚合的跨视角步态识别网络,为训练好的基于多特征聚合的跨视角步态识别网络;训练过程中,采用三元损失函数和标准的交叉熵损失函数对基于多特征聚合的跨视角步态识别网络进行训练,训练过程中选取Adm优化器对梯度进行优化。
本发明通过整体和部分时间聚合策略,从全局和局部两方面提取身体动作描述符,获取人体完整且独特的运动模式,使得提取的特征具有更强的鉴别力;考虑到复杂环境下的遮挡问题,本发明利用空间特征重组评估策略,从步态序列中选择身体最显著特征区域,重建高质量的外观特征;为了应对视角变化带来的不利影响,本发明通过视图投影预测学习策略,明确地将最佳视图特征作为补充信息嵌入到特征识别过程中,增强识别过程中的视图稳定性。本发明在满足识别准确率的同时,提升了对遮挡及视角变化的鲁棒性,满足了复杂条件下精确、鲁棒步态识别的需求。
应当理解的是,上述针对实施案例的描述较为详细,并不能因此而认为是对本发明专利保护制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (8)
1.一种基于多特征聚合的跨视角步态识别方法,其特征在于,包括以下步骤:
步骤1:对输入视频进行预处理操作,获得相应类别的步态序列,包括正常行走步态序列,背包行走步态序列,穿外套行走步态序列;
步骤2:将处理后的步态序列输入基于多特征聚合的跨视角步态识别网络中,得到识别结果;
所述基于多特征聚合的跨视角步态识别网络,包括基准网络、多尺度特征提取器、空间特征评估模块、整体和部分时间聚合模块、视角投影预测学习模块、多特征聚合模块和分类器;
所述基准网络,用于提取步态序列对应的内部特征,具体网络结构由顺序连接的5层组成,其中第3层为池化层,其余为3×3卷积层;
所述多尺度特征提取器,用于提取态序列对应内部特征的多尺度特征,多尺度特征包括帧级特征F fl 、短程特征F sr 和长程特征F lr ;其中,帧级特征F fl 用来保存外观轮廓信息,短程特征F sr 用来学习微运动表示,长程特征F lr 用于保存身体部位的周期性变化;所述多尺度特征提取器,由并行设置的帧级特征提取层、短程特征提取层和长程特征提取层组成;所述帧级特征提取层为3×3卷积层;所述短程特征提取层由顺序连接的2个3×1卷积层组合而成,其中第一个卷积层的输出与第二个卷层的输出融合后输出短程特征;所述长程特征提取层由MLP层和Sigmoid函数层组成,其中输入与Sigmoid函数层输出经过两次融合后输出长程特征;
所述空间特征评估模块,用于根据输入的多尺度特征,提取身体各部位最显著特征,实现重组高质量的外观特征;其具体结构包括三部分,第一部分由池化层、卷积操作层和Sigmoid函数层组成,其中输入与Sigmoid函数层输出经过两次融合后输出将多尺度特征转换为空间评估特征;第二部分由顺序设置的通过MLP层和Sigmoid层,及并行设置1×1卷积层组成,通过MLP层和Sigmoid层计算每帧中各部分的分值,然后与1×1卷积层得到的结果进行乘积运算得到局部权值矢量;第三部分包括最大值Max操作层、显著特征查找层和外观特征重组层,通过最大值Max操作层挑选分值最高的区域索引,然后通过该索引从局部权值矢量中选取显著部分特征,沿高度维度对这些部分特征进行重组;
所述整体和部分时间聚合模块,用于根据输入的多尺度特征,从全局和局部两方面提取身体运动描述符,学习人体的独特运动模式;所述整体和部分时间聚合模块包括整体自适应时序建模层和水平金字塔时序建模层;整体自适应时序建模层由两个包含LeakReLU的1×1卷积模块及Sigmoid操作构成;水平金字塔时序建模层先通过HPM层对特征进行水平划分,然后使用Maxpool层和Avgpool层组合对条带特征进行映射,最后使用MCM层提取特征中潜在的微运动表示;其中,时序输入中的短程特征由原始帧级特征与原始短程特征相加得到;长程特征由新的短程特征与原始长程特征相加得到;最后,通过对帧级特征、新的短程和长程特征沿通道维度进行融合得到两个时序建模层的输入特征;
所述视角投影预测学习模块,用于根据输入的多尺度特征,提取最佳视图特征作为特征识别过程中的补充信息;所述视角投影预测学习模块包括第一最大值Max操作层、第二最大值Max操作层、Avgpool池化层、全连接操作层、第三最大值Max操作层和最佳视角查找层,首先对输入的融合后的多尺度特征通过第一最大值Max操作层进行最大值Max操作得到多视角特征;然后使用第二最大值Max操作层,Avgpool池化层及全连接操作层对输入的融合后的多尺度特征进行计算,得到视角矩阵,接着使用第三最大值Max操作层从视角矩阵中得到视角值最大的索引,最后最佳视角查找层通过索引从多视角特征中选取最佳视角特征;
所述多特征聚合模块通过Concat拼接操作沿通道维度执行,用于将所述空间特征评估模块、整体和部分时间聚合模块和视角投影预测学习模块输出进行聚合;
所述分类器通过全连接操作执行,用于将所述多特征聚合模块输出进行识别,得到识别结果。
2.根据权利要求1所述的基于多特征聚合的跨视角步态识别方法,其特征在于:步骤1中所述对输入视频进行预处理操作,具体实现包括以下子步骤:
步骤1.1:对视频进行切分操作,将视频片段切割为单帧;
步骤1.2:对步骤1.1中处理后的单帧图像裁剪为指定尺寸大小;
步骤1.3:对步骤1.2裁剪后的图像进行数据增广处理。
3.根据权利要求1所述的基于多特征聚合的跨视角步态识别方法,其特征在于:所述空间特征评估模块,用于根据输入的多尺度特征,提取身体各部位最显著特征,实现重组高质量的外观特征;
具体实现过程如下:
4.根据权利要求1所述的基于多特征聚合的跨视角步态识别方法,其特征在于:所述空间特征评估模块,所述整体和部分时间聚合模块,用于根据输入的多尺度特征,从全局和局部两方面提取身体运动描述符,学习人体的独特运动模式;
具体实现过程如下:
首先进行整体自适应时序建模:
其中,Concat(·)指的是沿通道维度的拼接函数,LR(·)是LeakReLU激活函数,Conv
(·)为卷积操作,FC(·)为全连接操作;通过对聚合多尺度特征后得到的特征F t 进行时间
重要性评估计算进而得到时间权重W t ;最后将时间权重W t 与聚合特征F t 进行加权计算进而
得到整体自适应时序特征F HATM ,⊙表示乘积运算,l和k表示第k帧和第l个序列;为第l个
序列中第k帧的时序特征、为第l个序列中第k帧的权重;
水平金字塔时序建模:
5.根据权利要求1所述的基于多特征聚合的跨视角步态识别方法,其特征在于:所述视角投影预测学习模块,用于根据输入的多尺度特征,提取最佳视图特征作为特征识别过程中的补充信息;
具体实现过程如下:
6.根据权利要求1-5任意一项所述的基于多特征聚合的跨视角步态识别方法,其特征在于:所述基于多特征聚合的跨视角步态识别网络,为训练好的基于多特征聚合的跨视角步态识别网络;训练过程中,采用三元损失函数和标准的交叉熵损失函数对基于多特征聚合的跨视角步态识别网络进行训练,训练过程中选取Adm优化器对梯度进行优化。
7.一种基于多特征聚合的跨视角步态识别系统,其特征在于,包括以下模块:
步态序列提取模块,用于对输入视频进行预处理操作,获得相应类别的步态序列,包括正常行走步态序列,背包行走步态序列,穿外套行走步态序列;
识别模块,用于将处理后的步态序列输入基于多特征聚合的跨视角步态识别网络中,得到识别结果;
所述基于多特征聚合的跨视角步态识别网络,包括基准网络、多尺度特征提取器、空间特征评估模块、整体和部分时间聚合模块、视角投影预测学习模块、多特征聚合模块和分类器;
所述基准网络,用于提取步态序列对应的内部特征,具体网络结构由顺序连接的5层组成,其中第3层为池化层,其余为3×3卷积层;
所述多尺度特征提取器,用于提取态序列对应内部特征的多尺度特征,多尺度特征包括帧级特征F fl 、短程特征F sr 和长程特征F lr ;其中,帧级特征F fl 用来保存外观轮廓信息,短程特征F sr 用来学习微运动表示,长程特征F lr 用于保存身体部位的周期性变化;所述多尺度特征提取器,由并行设置的帧级特征提取层、短程特征提取层和长程特征提取层组成;所述帧级特征提取层为3×3卷积层;所述短程特征提取层由顺序连接的2个3×1卷积层组合而成,其中第一个卷积层的输出与第二个卷层的输出融合后输出短程特征;所述长程特征提取层由MLP层和Sigmoid函数层组成,其中输入与Sigmoid函数层输出经过两次融合后输出长程特征;
所述空间特征评估模块,用于根据输入的多尺度特征,提取身体各部位最显著特征,实现重组高质量的外观特征;其具体结构包括三部分,第一部分由池化层、卷积操作层和Sigmoid函数层组成,其中输入与Sigmoid函数层输出经过两次融合后输出将多尺度特征转换为空间评估特征;第二部分由顺序设置的通过MLP层和Sigmoid层,及并行设置1×1卷积层组成,通过MLP层和Sigmoid层计算每帧中各部分的分值,然后与1×1卷积层得到的结果进行乘积运算得到局部权值矢量;第三部分包括最大值Max操作层、显著特征查找层和外观特征重组层,通过最大值Max操作层挑选分值最高的区域索引,然后通过该索引从局部权值矢量中选取显著部分特征,沿高度维度对这些部分特征进行重组;
所述整体和部分时间聚合模块,用于根据输入的多尺度特征,从全局和局部两方面提取身体运动描述符,学习人体的独特运动模式;所述整体和部分时间聚合模块包括整体自适应时序建模层和水平金字塔时序建模层;整体自适应时序建模层由两个包含LeakReLU的1×1卷积模块及Sigmoid操作构成;水平金字塔时序建模层先通过HPM层对特征进行水平划分,然后使用Maxpool层和Avgpool层组合对条带特征进行映射,最后使用MCM层提取特征中潜在的微运动表示;其中,时序输入中的短程特征由原始帧级特征与原始短程特征相加得到;长程特征由新的短程特征与原始长程特征相加得到;最后,通过对帧级特征、新的短程和长程特征沿通道维度进行融合得到两个时序建模层的输入特征;
所述视角投影预测学习模块,用于根据输入的多尺度特征,提取最佳视图特征作为特征识别过程中的补充信息;所述视角投影预测学习模块包括第一最大值Max操作层、第二最大值Max操作层、Avgpool池化层、全连接操作层、第三最大值Max操作层和最佳视角查找层,首先对输入的融合后的多尺度特征通过第一最大值Max操作层进行最大值Max操作得到多视角特征;然后使用第二最大值Max操作层,Avgpool池化层及全连接操作层对输入的融合后的多尺度特征进行计算,得到视角矩阵,接着使用第三最大值Max操作层从视角矩阵中得到视角值最大的索引,最后最佳视角查找层通过索引从多视角特征中选取最佳视角特征;
所述多特征聚合模块通过Concat拼接操作沿通道维度执行,用于将所述空间特征评估模块、整体和部分时间聚合模块和视角投影预测学习模块输出进行聚合;
所述分类器通过全连接操作执行,用于将所述多特征聚合模块输出进行识别,得到识别结果。
8.一种基于多特征聚合的跨视角步态识别设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至6中任一项所述的基于多特征聚合的跨视角步态识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211115473.7A CN115205983B (zh) | 2022-09-14 | 2022-09-14 | 一种基于多特征聚合的跨视角步态识别方法、系统及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211115473.7A CN115205983B (zh) | 2022-09-14 | 2022-09-14 | 一种基于多特征聚合的跨视角步态识别方法、系统及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115205983A true CN115205983A (zh) | 2022-10-18 |
CN115205983B CN115205983B (zh) | 2022-12-02 |
Family
ID=83573585
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211115473.7A Active CN115205983B (zh) | 2022-09-14 | 2022-09-14 | 一种基于多特征聚合的跨视角步态识别方法、系统及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115205983B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113496149A (zh) * | 2020-03-20 | 2021-10-12 | 山东大学 | 一种基于联合层次选择的子空间学习的跨视角步态识别方法 |
CN113869151A (zh) * | 2021-09-14 | 2021-12-31 | 武汉大学 | 一种基于特征融合的跨视角步态识别方法及系统 |
CN113887358A (zh) * | 2021-09-23 | 2022-01-04 | 南京信息工程大学 | 按部分学习解耦表征的步态识别方法 |
CN114120076A (zh) * | 2022-01-24 | 2022-03-01 | 武汉大学 | 基于步态运动估计的跨视角视频步态识别方法 |
CN114783054A (zh) * | 2022-03-24 | 2022-07-22 | 西北大学 | 一种基于无线和视频特征融合的步态识别方法 |
-
2022
- 2022-09-14 CN CN202211115473.7A patent/CN115205983B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113496149A (zh) * | 2020-03-20 | 2021-10-12 | 山东大学 | 一种基于联合层次选择的子空间学习的跨视角步态识别方法 |
CN113869151A (zh) * | 2021-09-14 | 2021-12-31 | 武汉大学 | 一种基于特征融合的跨视角步态识别方法及系统 |
CN113887358A (zh) * | 2021-09-23 | 2022-01-04 | 南京信息工程大学 | 按部分学习解耦表征的步态识别方法 |
CN114120076A (zh) * | 2022-01-24 | 2022-03-01 | 武汉大学 | 基于步态运动估计的跨视角视频步态识别方法 |
CN114783054A (zh) * | 2022-03-24 | 2022-07-22 | 西北大学 | 一种基于无线和视频特征融合的步态识别方法 |
Non-Patent Citations (1)
Title |
---|
王科俊等: "多视角步态识别综述", 《自动化学报》 * |
Also Published As
Publication number | Publication date |
---|---|
CN115205983B (zh) | 2022-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110135375B (zh) | 基于全局信息整合的多人姿态估计方法 | |
WO2022036777A1 (zh) | 基于卷积神经网络的人体动作姿态智能估计方法及装置 | |
CN110009679B (zh) | 一种基于多尺度特征卷积神经网络的目标定位方法 | |
Shang et al. | PRRNet: Pixel-Region relation network for face forgery detection | |
CN110555434B (zh) | 一种局部对比和全局指导的立体图像视觉显著性检测方法 | |
CN108520216B (zh) | 一种基于步态图像的身份识别方法 | |
CN111563418A (zh) | 一种基于注意力机制的非对称多模态融合显著性检测方法 | |
CN110263768A (zh) | 一种基于深度残差网络的人脸识别方法 | |
CN113963032A (zh) | 一种融合目标重识别的孪生网络结构目标跟踪方法 | |
CN110263605A (zh) | 基于二维人体姿态估计的行人服饰颜色识别方法及装置 | |
CN113378649A (zh) | 身份、位置和动作识别方法、系统、电子设备及存储介质 | |
CN108280421A (zh) | 基于多特征深度运动图的人体行为识别方法 | |
CN112861605A (zh) | 基于时空混合特征的多人步态识别方法 | |
CN112329662B (zh) | 基于无监督学习的多视角显著性估计方法 | |
US11854306B1 (en) | Fitness action recognition model, method of training model, and method of recognizing fitness action | |
Hirner et al. | FC-DCNN: A densely connected neural network for stereo estimation | |
CN113011359B (zh) | 一种基于图像的同时检测平面结构和生成平面描述的方法及应用 | |
CN115205983B (zh) | 一种基于多特征聚合的跨视角步态识别方法、系统及设备 | |
CN114360058B (zh) | 一种基于行走视角预测的跨视角步态识别方法 | |
Zhao et al. | Semi-supervised hand appearance recovery via structure disentanglement and dual adversarial discrimination | |
CN116091793A (zh) | 一种基于光流融合的光场显著性检测方法 | |
CN115147758A (zh) | 基于帧内帧间特征差异化的深度伪造视频检测方法及系统 | |
CN115359513A (zh) | 基于关键点监督和分组特征融合的多视图行人检测方法 | |
CN114596609A (zh) | 一种视听伪造检测方法及装置 | |
Raskin et al. | Dimensionality reduction for articulated body tracking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |