CN116912949B - 一种基于视角感知部分明智注意力机制的步态识别方法 - Google Patents
一种基于视角感知部分明智注意力机制的步态识别方法 Download PDFInfo
- Publication number
- CN116912949B CN116912949B CN202311167350.2A CN202311167350A CN116912949B CN 116912949 B CN116912949 B CN 116912949B CN 202311167350 A CN202311167350 A CN 202311167350A CN 116912949 B CN116912949 B CN 116912949B
- Authority
- CN
- China
- Prior art keywords
- gait
- layer
- visual angle
- convolution
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005021 gait Effects 0.000 title claims abstract description 117
- 230000000007 visual effect Effects 0.000 title claims abstract description 49
- 230000008447 perception Effects 0.000 title claims abstract description 29
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000007246 mechanism Effects 0.000 title claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 39
- 238000012360 testing method Methods 0.000 claims abstract description 25
- 238000000605 extraction Methods 0.000 claims abstract description 24
- 238000011176 pooling Methods 0.000 claims description 39
- 238000010606 normalization Methods 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 230000007774 longterm Effects 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 2
- 238000004220 aggregation Methods 0.000 claims description 2
- 230000003340 mental effect Effects 0.000 claims 1
- 238000005070 sampling Methods 0.000 claims 1
- 230000006872 improvement Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000007792 addition Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000037237 body shape Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
- G06V40/25—Recognition of walking or running movements, e.g. gait recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于视角感知部分明智注意力机制的步态识别方法,属于步态识别领域,其步骤为:构造数据集并划分为训练集和测试集,构建步态特征提取网络,其包括帧级特征编码器、序列级特征编码器和全连接层;构建视角感知部分明智注意力机制,利用部分级细粒度通道注意信息来选择视角信息最多的通道,并捕获部分级特征中的通道间关系;步态特征提取网络和视角感知部分明智注意力机制共同构成视角感知步态识别模型,采用三元组损失、身份交叉熵损失和视角交叉熵损失以及训练集训练该模型直到满足训练次数,用测试集测试训练完成的模型。本发明能够提取丰富的时间特征,实现步态识别系统识别性能的提升。
Description
技术领域
本发明属于步态识别技术领域,具体涉及一种基于视角感知部分明智注意力机制的步态识别系统性能优化方法。
背景技术
步态识别作为一种根据行人的体型和行走风格判断行人身份的新兴生物特征识别技术,在模式识别领域的研究正逐渐受到关注。相比于其他生物特征识别技术如指纹识别,人脸识别,步态识别具有能够实现远距离,任意视角,任意姿态条件下行人身份识别的优点。采用深度学习技术设计出的高性能步态识别技术,能够广泛应用道路监控、机场安全、刑事追踪等领域。
由于相机视角、行人服装和携带条件等协变量因素的变化而引起的步态模式的变化,会显著影响步态识别系统的准确性,因此需要提取鉴别力强的步态特征。现有步态特征提取方法引入了各种约束条件来处理协变量的变化,例如引入视角感知约束,通过利用已知的视角信息监督和约束步态特征提取模型学习过程,将视角信息嵌入到步态特征提取模型中,减少视角差异导致的负面影响,从而提高步态特征提取模型在协变量变化条件的有效性。然而当前方法存在两个主要的缺点:
(1)在视角感知约束上,现有方法直接利用视角标签对步态特征提取模型提取的特征进行监督和约束,忽略了不同身体部位对于视角信息的不同敏感性,不能有效地将视角感知约束和行人步态特征结合,导致这些方法不能够充分地发挥视角信息的作用。(2)在步态特征提取上,现有方法通过元素相加的方式对所有帧的进行组合获取长期特征,缺少对长时间跨度序列中运动变化的建模,不能充分地挖掘多样的步态中时间特征。
发明内容
针对现有技术中存在的上述问题,本发明提出了一种基于视角感知部分明智注意力机制的步态识别方法,设计合理,解决了现有技术的不足,具有良好的效果。
为了实现上述发明目的,本发明采取以下技术方案:
一种基于视角感知部分明智注意力机制的步态识别方法,包括以下步骤:
S1、构造数据集D并划分为训练集Dtrain和测试集Dtest;
S2、构建步态特征提取网络,所述步态特征提取网络包括帧级特征编码器FLFE、序列级特征编码器SLFE和全连接层,其中FLFE用于提取轮廓序列各帧的空间特征,SLFE用于聚合时间信息;
S3、构建视角感知部分明智注意力机制,利用部分级细粒度通道注意信息来选择视角信息最多的通道,并捕获部分级特征中的通道间关系;
S4、步态特征提取网络和视角感知部分明智注意力机制共同构成视角感知步态识别模型,采用三元组损失、身份交叉熵损失和视角交叉熵损失以及训练集Dtrain训练该模型直到满足训练次数,用测试集Dtest测试训练完成的模型。
进一步地,在S1中,将全部N个行人不用视角、不同行走条件步态视频数据,使用预处理算法获取图像大小为H×W的步态轮廓序列组成数据集D,将数据集划分为训练集Dtrain和测试集Dtest。
进一步地,所述FLFE由4个2D卷积层、1个最大池化层和1个水平池化层串联组成,其链接顺序为2D卷积层C1、2D卷积层C2、最大池化层、2D卷积层C3、2D卷积层C4、水平池化层,其中4个卷积层的卷积核大小均为3×3,输出通道数量依次为32、64、128、128,最大池化层和水平池化层的池化核大小为2×2;
所述FLFE的输入为步态轮廓序列,定义为,表示步态序列第帧步态轮廓图,维度为1×H×W,分别代表图像的通道数、高和宽,经过4层2D卷积和1层最
大池化后的步态轮廓特征大小为128×h×w,其中h= H/2,w= W/2,然后在水平池化层中,将
每一帧步态轮廓特征分成p份,每一份大小为128×1×w,然后分别对每一份在空间维度进
行全局最大池化和全局平均池化,得到p份128维特征,记为,维度为128×p,最终输出的
一个序列步态轮廓特征记为。
进一步地,所述SLFE包括多尺度膨胀时间特征提取器MSDTE和集合池化层,所述MSDTE由两部分结构组成,第一部分结构由1D卷积层、1D批归一化层、1D卷积层、1D批归一化层依次串联组成,两个ID卷积层的卷积核大小为3,膨胀率为1,第二部分结构由1D卷积层、1D批归一化层、第二1D卷积层、1D批归一化层依次串联组成,两个1D卷积层的卷积核大小为3,膨胀率为2;
帧级特征分别经过第一和第二部分结构生成短期特征和长期特征,、和的维度相同,不同尺度的步态特征采用拼接方式进行聚合,通过一个时间池化层输出序
列级特征,序列级特征输入到全连接层中,生成步态特征,维度为256×h。
进一步地,在所述S3中,步态特征被划分为个部分,将每个部分步态特征输
入到一个通道注意模块,该模块由两个1D卷积层、1个ReLu激活函数层和1个Sigmoid层级联
组成,其链接顺序为1D卷积层、ReLu激活函数层、1D卷积层、Sigmoid层,利用该模块生成一
个通道分数,与部分步态特征相乘,生成最终的部分级视角特征,表示为:
;
其中,和表示一维卷积层的参数矩阵;
将个部分级视角特征连接在一起获得视角特征,将添加到步态特征中,产
生具有视图感知的步态特征,进行步态识别。
进一步地,在所述S4中,设步态轮廓序列组的样本三元组为R=(Q,P,N),其中Q和P来自同一受试者,Q和N来自两个不同的受试者;
三元组损失表示为:
;
其中是类内距离和类间距离之间的阈值;
交叉熵损失包含身份交叉熵和视角交叉熵两部分,表示为:
;
其中,表示样本数量,是类别数量,标签表示第样本的身份类别是第类,
标签表示第样本的视角类别是第类,表示第样本的类别是预测概率;
总损失表示为:
;
其中,、和为超参数;
在训练阶段,每一次训练从训练集中采样P×K个样本,将三元组损失的阈值设
置为0.2,并选择Adam优化器进行训练;在测试阶段,将整个步态轮廓序列直接输入模型进
行特征提取。
有益技术效果:
本发明设计了基于视角感知部分注意力机制的步态识别方法,在步态特征模型训练过程中,有效地提取了部分级别上的显著视图特征,充分利用了视角信息对于识别的积极作用,提高了步态特征的鉴别力。并设计了基于膨胀卷积的多尺度膨胀时间特征提取器,建立一个新的步态特征提取模型,能够提取丰富的时间特征,实现步态识别系统识别性能的提升。
附图说明
图1是本发明中步态识别方法实现流程图。
图2是本发明中步态提取网络结构图。
图3是本发明中水平池化结构图。
图4是本发明中多尺度膨胀时间特征提取器结构图。
图5是本发明中视角感知部分明智注意力机制结构图。
图6是本发明中通道注意力模块结构图。
图7是本发明中视角感知步态识别模型训练框架图。
具体实施方式
为了使本发明的目的、技术方案以及优点部分更加明确,以下结合附图及实施例,对本发明做进一步的详细说明。下面通过参考附图描述的实例属于示例性质,并不能认为是对本发明的限制。需要理解的是,在本发明的描述中,所涉及到如顶、底、上、下、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
为进一步说明本发明的技术方案,下面将通过具体实施例进行详细说明。
一种基于视角感知部分明智注意力机制的步态识别方法,如图1所示,包括以下步骤:
S1、构造数据集D并划分为训练集Dtrain和测试集Dtest;
在S1中,将全部N个行人不用视角、不同行走条件步态视频数据,使用预处理算法获取图像大小为H×W的步态轮廓序列组成数据集D,将数据集划分为训练集Dtrain和测试集Dtest;
S2、构建步态特征提取网络,如图2所示,步态特征提取网络包括帧级特征编码器FLFE、序列级特征编码器SLFE和全连接层,其中FLFE用于提取轮廓序列各帧的空间特征,SLFE用于聚合时间信息;
FLFE由4个2D卷积层、1个最大池化层和1个水平池化层串联组成,其链接顺序为2D卷积层C1、2D卷积层C2、最大池化层、2D卷积层C3、2D卷积层C4、水平池化层,其中4个卷积层的卷积核大小均为3×3,输出通道数量依次为32、64、128、128,最大池化层和水平池化层的池化核大小为2×2;
FLFE的输入为步态轮廓序列,定义为,表示步态序列第帧
步态轮廓图,维度为1×H×W,分别代表图像的通道数、高和宽,经过4层2D卷积和1层最大池
化后的步态轮廓特征大小为128×p×w,其中p= H/2,w= W/2,然后在水平池化层中,如图3
所示,将每一帧步态轮廓特征分成p份,每一份大小为128×1×w,然后分别对每一份在空间
维度进行全局最大池化和全局平均池化,得到p份128维特征,记为,维度为128×p,最终
输出的一个序列步态轮廓特征记为;
SLFE包括多尺度膨胀时间特征提取器MSDTE和集合池化层,考虑到不同的主体在不同的时间尺度上可能存在不同的特征,本发明提出MSDTE来丰富时间特征的多样性。如图4所示,MSDTE由两部分结构组成,第一部分结构由1D卷积层、1D批归一化层、1D卷积层、1D批归一化层依次串联组成,两个ID卷积层的卷积核大小为3,膨胀率为1,能够有效地提取段时间的时间运动模式和细微的变化;第二部分结构由1D卷积层、1D批归一化层、1D卷积层、1D批归一化层依次串联组成,两个1D卷积层的卷积核大小为3,膨胀率为2,能够捕捉更大时间尺度的步态特征;
帧级特征分别经过第一和第二部分结构生成短期特征和长期特征,、、的维度相同,不同尺度的步态特征、和采用拼接方式进行聚合,然后通过一个时间
池化层输出序列级特征,最后将序列级特征输入到全连接层中,生成步态特征,维度为
256×h。
S3、构建视角感知部分明智注意力机制,利用部分级细粒度通道注意信息来选择视角信息最多的通道,并捕获部分级特征中的通道间关系;
考虑到不同身体部位对视角变化的敏感性不同,本发明的方法旨在训练过程中利
用注意机制动态定位视角敏感部位。具体地,在S3中,如图5和6所示,步态特征被划分为
个部分,将每个部分步态特征输入到一个通道注意模块,该模块由两个1D卷积层、1个
ReLu激活函数层和1个Sigmoid层级联组成,其链接顺序为1D卷积层、ReLu激活函数层、1D卷
积层、Sigmoid层,利用该模块生成一个通道分数,与部分步态特征相乘,生成最终
的部分级视角特征,表示为:
;
其中,和表示一维卷积层的参数矩阵;
将个部分级视角特征连接在一起获得视角特征,将添加到步态特征中,产
生具有视图感知的步态特征。
这些具有视图感知能力的步态特征利用了从VPA模型中获得的丰富的视图特定信息。最后,利用结合了原始步态特征和VPA模块捕获的视图感知信息的增强表示,即视图感知步态特征,进行步态识别。
S4、步态特征提取网络和视角感知部分明智注意力机制共同构成视角感知步态识别模型,采用三元组损失、身份交叉熵损失和视角交叉熵损失以及训练集Dtrain训练该模型直到满足训练次数,用测试集Dtest测试训练完成的模型,如图7所示。
在S4中,设步态轮廓序列组的样本三元组为R=(Q,P,N),其中Q和P来自同一受试者,Q和N来自两个不同的受试者;
三元组损失表示为:
;
其中是类内距离和类间距离之间的阈值;对于三元组R,每个步态特征
分为h部分特征,本发明计算了每部分相应特征三元组的三元组损失,即计算了h个三元组
损失。
交叉熵损失包含身份交叉熵和视角交叉熵两部分,表示为:
;
其中,表示样本数量,是类别数量,标签表示第样本的身份类别是第类,
标签表示第样本的视角类别是第类,表示第样本的类别是预测概率;
总损失表示为:
;
其中,、和为超参数。
在训练阶段,每一次训练从训练集中采样个样本,表示该批次人数,表示
该批次中每人的训练样本数,具体参数和均设置为8。另外,由于步态视频的长度可能会
发生变化,因此训练阶段需要一个固定长度的序列作为输入。具体来说,每个样本序列
的长度被设置为30帧,如果一个原始视频的长度小于15帧,它将被丢弃。当长度超过15帧但
小于30帧时,它会被重复采样。将三元组损失的阈值m设置为0.2,并选择Adam优化器进行训
练。训练次数被设置为2000,学习速率被初始化为0.0003,然后经过15000次训练后减少到
0.00002,、和均为1.0,在测试阶段,将整个步态轮廓序列直接输入模型进行特征提取。
本发明模型在跨视角正常行走,跨视角带背包行走,跨视角换外套行走条件下分别获得了98.5%, 95.7%和91.0%的准确率,目前最先进的现有技术在跨视角正常行走,跨视角带背包行走,跨视角换外套行走条件下分别获得了98.1%、95.2%与88.0%准确率。此外,本发明的视角感知部分明智注意力机制的灵活性允许它应用于不同的步态识别网络,产生一致的性能改进。如应用在步态特征提取网络GaitPart上,促进GaitPart在跨视角正常行走,跨视角带背包行走,跨视角换外套行走条件下准确率分别提升了0.4%,0.5%和2.9%。
当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。
Claims (5)
1.一种基于视角感知部分明智注意力机制的步态识别方法,其特征在于,包括以下步骤:
S1、构造数据集D并划分为训练集Dtrain和测试集Dtest;
S2、构建步态特征提取网络,所述步态特征提取网络包括帧级特征编码器、序列级特征编码器和全连接层,其中帧级特征编码器用于提取轮廓序列各帧的空间特征,序列级特征编码器用于聚合时间信息;
S3、构建视角感知部分明智注意力机制,利用部分级细粒度通道注意信息来选择视角信息最多的通道,并捕获部分级特征中的通道间关系;
在所述S3中,步态特征Fg被划分为p个部分,将每个部分步态特征Fgj输入到一个通道注意模块,该模块由两个1D卷积层、1个ReLu激活函数层和1个Sigmoid层级联组成,其链接顺序为1D卷积层、ReLu激活函数层、1D卷积层、Sigmoid层,利用该模块生成一个通道分数mj,mj与部分步态特征Fgj相乘,生成最终的部分级视角特征Fvj,表示为:
Fvj=Sigmoid(W1(ReLu(W2(Fgj))))×Fgj;
其中,W1和W2表示一维卷积层的参数矩阵;
将p个部分级视角特征连接在一起获得视角特征Fv,将Fv添加到步态特征Fg中,产生具有视图感知的步态特征Fvg,进行步态识别;
S4、步态特征提取网络和视角感知部分明智注意力机制共同构成视角感知步态识别模型,采用三元组损失、身份交叉熵损失和视角交叉熵损失以及训练集Dtrain训练该模型直到满足训练次数,用测试集Dtest测试训练完成的模型。
2.根据权利要求1所述的一种基于视角感知部分明智注意力机制的步态识别方法,其特征在于,在S1中,将全部N个行人不用视角、不同行走条件步态视频数据,使用预处理算法获取图像大小为H×W的步态轮廓序列组成数据集D,将数据集划分为训练集Dtrain和测试集Dtest。
3.根据权利要求1所述的一种基于视角感知部分明智注意力机制的步态识别方法,其特征在于,所述帧级特征编码器由4个2D卷积层、1个最大池化层和1个水平池化层串联组成,其链接顺序为2D卷积层C1、2D卷积层C2、最大池化层、2D卷积层C3、2D卷积层C4、水平池化层,其中4个卷积层的卷积核大小均为3×3,输出通道数量依次为32、64、128、128,最大池化层和水平池化层的池化核大小为2×2;
所述帧级特征编码器的输入为步态轮廓序列,定义为X={x1,x2,…,xn},xn表示步态序列第n帧步态轮廓图,维度为1×H×W,分别代表图像的通道数、高和宽,经过4层2D卷积和1层最大池化后的步态轮廓特征大小为128×h×w,其中h=H/2,w=W/2,然后在水平池化层中,将每一帧步态轮廓特征分成p份,每一份大小为128×1×w,然后分别对每一份在空间维度进行全局最大池化和全局平均池化,得到p份128维特征,记为ff,维度为128×p,最终输出的一个序列步态轮廓特征记为Ff=ff1,ff2,…,ffn}。
4.根据权利要求3所述的一种基于视角感知部分明智注意力机制的步态识别方法,其特征在于,所述序列级特征编码器包括多尺度膨胀时间特征提取器MSDTE和集合池化层,所述MSDTE由两部分结构组成,第一部分结构由1D卷积层、1D批归一化层、1D卷积层、1D批归一化层依次串联组成,两个ID卷积层的卷积核大小为3,膨胀率为1,第二部分结构由1D卷积层、1D批归一化层、第二1D卷积层、1D批归一化层依次串联组成,两个1D卷积层的卷积核大小为3,膨胀率为2;
帧级特征}f分别经过第一和第二部分结构生成短期特征Fs和长期特征Fl,Ff、Fs和Fl的维度相同,不同尺度的步态特征采用拼接方式进行聚合,通过一个时间池化层输出序列级特征,序列级特征输入到全连接层中,生成步态特征Fg,维度为256×h。
5.根据权利要求1所述的一种基于视角感知部分明智注意力机制的步态识别方法,其特征在于,在所述S4中,设步态轮廓序列组的样本三元组为R=(Q,P,N),其中Q和P来自同一受试者,Q和N来自两个不同的受试者;
三元组损失Ltp表示为:
Ltp(R)=max(m+DQ,P-DQ,N,0);
其中m是类内距离DQ,P和类间距离DQ,N之间的阈值;
交叉熵损失Lce包含身份交叉熵Lice和视角交叉熵Lvce两部分,表示为:
其中,N表示样本数量,M是类别数量,标签表示第i样本的身份类别是第j类,标签/>表示第i样本的视角类别是第j类,pij表示第i样本的类别是j预测概率;
总损失L表示为:
L=α×Ltp+β×Lice+γ×Lvce;
其中α、β和γ为超参数;
在训练阶段,每一次训练从训练集中采样P×K个样本,将三元组损失的阈值m设置为0.2,并选择Adam优化器进行训练;在测试阶段,将整个步态轮廓序列直接输入模型进行特征提取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311167350.2A CN116912949B (zh) | 2023-09-12 | 2023-09-12 | 一种基于视角感知部分明智注意力机制的步态识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311167350.2A CN116912949B (zh) | 2023-09-12 | 2023-09-12 | 一种基于视角感知部分明智注意力机制的步态识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116912949A CN116912949A (zh) | 2023-10-20 |
CN116912949B true CN116912949B (zh) | 2023-12-22 |
Family
ID=88356857
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311167350.2A Active CN116912949B (zh) | 2023-09-12 | 2023-09-12 | 一种基于视角感知部分明智注意力机制的步态识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116912949B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113947814A (zh) * | 2021-10-28 | 2022-01-18 | 山东大学 | 一种基于时空信息增强和多尺度显著性特征提取的跨视角步态识别方法 |
CN114998995A (zh) * | 2022-06-13 | 2022-09-02 | 西安电子科技大学 | 基于度量学习和时空双流网络的跨视角步态识别方法 |
CN115050093A (zh) * | 2022-05-23 | 2022-09-13 | 山东大学 | 一种基于分阶段多级金字塔的跨视角步态识别方法 |
CN116704611A (zh) * | 2023-06-15 | 2023-09-05 | 山东大学深圳研究院 | 一种基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别方法 |
CN116704612A (zh) * | 2023-06-15 | 2023-09-05 | 山东大学深圳研究院 | 一种基于对抗域自适应学习的跨视角步态识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111325111A (zh) * | 2020-01-23 | 2020-06-23 | 同济大学 | 一种融合逆注意力和多尺度深度监督的行人重识别方法 |
-
2023
- 2023-09-12 CN CN202311167350.2A patent/CN116912949B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113947814A (zh) * | 2021-10-28 | 2022-01-18 | 山东大学 | 一种基于时空信息增强和多尺度显著性特征提取的跨视角步态识别方法 |
CN115050093A (zh) * | 2022-05-23 | 2022-09-13 | 山东大学 | 一种基于分阶段多级金字塔的跨视角步态识别方法 |
CN114998995A (zh) * | 2022-06-13 | 2022-09-02 | 西安电子科技大学 | 基于度量学习和时空双流网络的跨视角步态识别方法 |
CN116704611A (zh) * | 2023-06-15 | 2023-09-05 | 山东大学深圳研究院 | 一种基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别方法 |
CN116704612A (zh) * | 2023-06-15 | 2023-09-05 | 山东大学深圳研究院 | 一种基于对抗域自适应学习的跨视角步态识别方法 |
Non-Patent Citations (4)
Title |
---|
Facial expression recognition based on Local Binary Patterns: A comprehensive study;Caifeng Shan等;《Image and Vision Computing》;第803-816页 * |
Flexible Gait Recognition Based on Flow Regulation of Local Features Between Key Frames;Guoheng Huang等;《IEEE Access》(第8期);第75381-75392页 * |
基于GaitPart 的跨视角步态识别方法;刘健虎等;《太原理工大学学报》;第1-11页 * |
换装行人重识别研究进展;张鹏等;《中国图象图形学报》;第28卷(第5期);第1242-1264页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116912949A (zh) | 2023-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
Zhang et al. | Real-time sow behavior detection based on deep learning | |
CN106096561B (zh) | 基于图像块深度学习特征的红外行人检测方法 | |
CN108520226B (zh) | 一种基于躯体分解和显著性检测的行人重识别方法 | |
CN111898736B (zh) | 基于属性感知的高效行人重识别方法 | |
CN111709311B (zh) | 一种基于多尺度卷积特征融合的行人重识别方法 | |
CN111523462B (zh) | 基于自注意增强cnn的视频序列表情识别系统及方法 | |
CN110399821B (zh) | 基于人脸表情识别的顾客满意度获取方法 | |
CN111259850A (zh) | 一种融合随机批掩膜和多尺度表征学习的行人重识别方法 | |
CN106709449A (zh) | 一种基于深度学习和强化学习的行人重识别方法及系统 | |
CN105354548A (zh) | 一种基于ImageNet检索的监控视频行人重识别方法 | |
CN107767416B (zh) | 一种低分辨率图像中行人朝向的识别方法 | |
CN112464730B (zh) | 一种基于域无关前景特征学习的行人再识别方法 | |
CN104504395A (zh) | 基于神经网络实现人车分类的方法和系统 | |
CN104636755A (zh) | 一种基于深度学习的人脸美丽评价方法 | |
Lu et al. | Multi-object detection method based on YOLO and ResNet hybrid networks | |
CN111199212B (zh) | 基于注意力模型的行人属性识别方法 | |
CN108960047A (zh) | 基于深度二次树的视频监控中人脸去重方法 | |
CN112070010B (zh) | 一种联合多损失动态训练策略增强局部特征学习的行人重识别方法 | |
CN110533100A (zh) | 一种基于机器学习进行cme检测和跟踪的方法 | |
CN102184384A (zh) | 一种基于多尺度局部相位量化特征的人脸识别方法 | |
CN108416795B (zh) | 基于排序池化融合空间特征的视频动作识别方法 | |
CN115439884A (zh) | 一种基于双分支自注意力网络的行人属性识别方法 | |
Huo et al. | 3DVSD: An end-to-end 3D convolutional object detection network for video smoke detection | |
CN111488797B (zh) | 一种行人再识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |