CN111967358B - 一种基于注意力机制的神经网络步态识别方法 - Google Patents
一种基于注意力机制的神经网络步态识别方法 Download PDFInfo
- Publication number
- CN111967358B CN111967358B CN202010778327.7A CN202010778327A CN111967358B CN 111967358 B CN111967358 B CN 111967358B CN 202010778327 A CN202010778327 A CN 202010778327A CN 111967358 B CN111967358 B CN 111967358B
- Authority
- CN
- China
- Prior art keywords
- gait
- attention mechanism
- feature map
- frame
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
- G06V40/25—Recognition of walking or running movements, e.g. gait recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于注意力机制的步态识别方法,包括以下步骤:从基准数据集中分割出训练集和测试集;通过未嵌入注意力机制的步态提取模型预训练网络,以此来使得模型对人体步态有好的适应性;在网络中嵌入时域和空域注意力机制模块,并加载预训练的网络模型参数;重新运用数据集训练基于注意力机制的步态识别特征提取模型,以此可以获得较好的步态识别结果。
Description
技术领域
本发明属于模式识别中的步态识别领域,涉及一种基于时间域注意力和空间域注意力的步态识别方法。
背景技术
步态识别是一种根据人体行走时的姿态进行识别的生物识别技术。区别于传统的生物识别技术,步态识别技术具有无需受试者配合以及可以远距离识别的优势。目前,步态识别被广泛用于门禁监控、身份认证等诸多领域,并且人体步态不易于伪装具有唯一性,有助于精确地进行识别工作。具有广泛的应用前景。
一个典型的步态识别系统主要包括三个部分,即步态图像预处理,人体步态特征提取和基于步态特征的识别分类。首先,由于实际情况下采集的人体的步态视频可能存在各种噪声,所以需要对视频进行清洗处理,以便后续阶段对步态识别进行特征提取和识别工作。其次,需要基于预处理后的人体步态视频构建相应的步态数据库,通过人体步态数据库可以训练出适用于提取人体步态特征的特征提取模型。训练出的人体步态特征提取模型可以从清洗过的人体步态视频中生成易于认证的特征向量。最后,基于人体步态特征提取模型的提取结果,利用相应的识别分类模型,就可以得到步态识别分类的结果。
人体步态特征提取模型是步态识别的核心,直接关系到步态识别的效果。目前,人体步态特征提取模型多采用二维卷积模型进行构造,但二维卷积只能提取视频序列中的空间信息而忽视了时域信息。因此,本发明整体的步态特征提取模型是基于三维卷积模型进行构建。另一方面,现有的步态特征提取模型,往往对人体步态的各个特征做等价处理,即人体步态中的每一个特征对于识别过程起相同的效果。这并不符合直观的感受,步态识别的过程往往更加关注人体下肢的运动变化。因此,让特征提取模型能够自适应的学习不同部位的特征权重是至关重要的。引入注意力机制可以让特征提取模型具备自适应学习特征权重的功能,由于采用三维卷积模型构建网络,所以注意力机制又可以进一步的分为时域注意力和空域注意力两部分。而现今的基于注意力机制的步态识别方法,构建的注意力机制存在着信息利用不够全面等问题,存在着一定的提升空间。
发明内容
本发明针对上述的不足之处,本发明的目的就在于提供了一种基于注意力机制的神经网络步态识别方法。
基于注意力机制的神经网络步态识别方法,包括如下步骤:
步骤一)训练基于注意力机制的步态特征提取模型:
构建神经网络的训练集和测试集;
三维卷积神经网络的输入格式设置为B*C*T*H*W,其中B表示批量维度,C表示输入步态图像的通道数,T表示输入的步态视频序列的帧长,H和W为每帧步态视频序列的长和宽;
通过迭代优化策略,利用样本及样本标签预训练步态特征提取模型,使得训练后的步态特征提取模型能从人体步态中提取出较好的特征;
步骤二)在网络中添加注意力机制模块:
加载步骤一)训练后的网络参数,在此基础上嵌入时域注意力机制模块和空域注意力机制模块,重新训练网络;
所述时域注意力机制模块利用权重计算,计算方式如下:
其中FS为合成的步态特征集,ft为第t帧的步态特征,总共包含T帧,αt为第t帧对应的权重;αt的计算方法为:
对输入的第t帧图像进行3个卷积核为1x1x1的卷积操作,每一个卷积操作得到一张对应的特征图,将第一张特征图和第二张特征图相乘,得到维度为t*t的特征图,表示每一帧对其他帧的编码,通过softmax函数求解概率生成每一帧对于其他帧的权重,再与卷积操作得到的第三张特征图相乘得到αt;
所述空域注意力机制模块利用权重计算,计算方式如下:
对输入的图像进行3个卷积核为1x1x1的卷积操作,每一个卷积操作得到一张对应的特征图,将第一张特征图和第二张特征图相乘,得到维度为(h*w)*(h*w)的特征图,表示空间中每一点对其他点的编码,通过softmax函数求解概率生成每一点对于其他点的权重,再与卷积操作得到的第三张特征图相乘得到Ms(·);
完成时域注意力机制模块和空域注意力机制模块嵌入后,再通过迭代优化策略,使用新的网络结构,利用样本及样本标签预训练,使得训练后的基于注意力机制的步态识别网络能从人体步态中提取出更鲁棒的特征,即可将神经网络用于步态识别。
进一步的,其特征在于,所述训练集和测试集由CASIA-B步态数据集中分割得到。
进一步的,其特征在于,所述神经网络输入归一化至64*44大小。
进一步的,所述步骤二)中,计算αt和Ms(·)时先对输入图像Max和Mean对通道域的信息进行压缩,将压缩后的图像用于计算αt和Ms(·)。
本发明针对现有步态识别方法,提供一种基于注意力机制的步态识别方法,该方法利用时域注意力和空域注意力的增强重要特征派生出最佳特征子集进行步态特征提取模型的建立,统一解决现有的步态识别方法中存在的特征集重要信息利用不够全面的问题。
附图说明
为了更清楚地说明本发明的技术方案,下面对实施例描述中所需的附图作简单介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图,这些附图直接得到的技术方案也应属于本发明的保护范围。
图1为时域注意力的框架;
图2为空域注意力的框架。
具体实施方式
本发明的基于注意力机制的步态识别方法,利用中科院发布的CASIA-B步态数据集进行的实验。具体包括以下步骤:
(1)训练基于注意力机制的步态特征提取模型。
1.1)从基准数据集CASIA-B中分割出训练集和测试集。
1.2)三维卷积神经网络的输入大小被设置为B*C*T*H*W,其中B表示批量维度,C表示输入步态图像的通道数,T表示输入的步态视频序列的帧长,H和W为每帧步态视频序列的长和宽。在本方法中将样本归一化至64*44大小。
1.3)通过迭代优化策略,利用样本及样本标签预训练步态特征提取模型,使得训练后的步态特征提取模型能从人体步态中提取出较好的特征。
(2)在网络中添加注意力机制模块。
2.1)在网络中加入注意力机制模块,加载步骤1训练后的网络参数,在此基础上依次嵌入时域和空域注意力机制模块,重新训练网络。
2.2)通过迭代优化策略,使用新的网络结构,利用样本及样本标签预训练,使得训练后的基于注意力机制的步态识别网络能从人体步态中提取出更鲁棒的特征。通过上述训练得到的步态识别网络即可用于步态识别。
其中时域和空域注意力机制模块具体包括:
(1)搭建时域注意力模块。
步态识别中特征提取网络输入的步态视频的长度往往不固定,所以步态识别中一个关键问题是如何合成不定长度的步态视频序列产生的特征集。传统的合成方式主要采用平均合成。平均合成的计算公式如下(1):
其中FS为合成的步态特征集,ft为第t帧的步态特征,总共包含T帧。平均合成的方式等价地处理了每一帧的特征,而实际情况中,每一帧对于合成的步态特征集的贡献不一致,需要赋予对应的权重。因此本方法拟采用权重合成的方式生成步态特征集。权重合成的计算公式如下(2):
其中αt为第t帧对应的权重。αt的生成过程如图1所示。
其中X为时域注意力机制模块的输入,其对应的维度为c(通道)*t(帧数)*h*w(图片的长宽)。而X1,X2,X3为中间状态的特征图。Y为时域注意力机制加权输出的结果。X123为公式(1)中的αt。整个框架的流程如下:首先通过统计学函数Max和Mean对通道域的信息进行压缩,该操作可以极大的节约显存消耗。通过拼接两个统计学函数的输出结果可以得到Xcat中间状态的特征图。其次通过3个分离的卷积操作进一步的整合Xcat中的通道信息,对应生成X1,X2和X3三个中间状态的特征图,3个卷积的卷积核为1x1x1。X1,X2和X3特征图初始大小均为(1,t,h,w),生成过程完全等价。但是特征图X1和X2将被转换维度并用于生成时域注意力图,而生成的时域注意力图将进一步作用于特征图X3上生成时序注意力。具体的实施过程,将特征图X1和X2的大小分别转换为(t,h*w)和(h*w,t)并进行矩阵相乘。由此可以得到时域注意力图X12,其维度为t*t。第一维度的t表示序列中的所有帧,而第二维度的t表示视频序列中的所有帧对第一维度相应帧的编码,通过softmax函数求解可以将第二维度的特征值转化为相应的概率值,其中概率和为1。该概率值等同于生成了每一帧对于其他帧的权重。最后,通过X3和X12特征图的乘积可以得到X123为最终的每一帧的权重αt。
(2)搭建空域注意力模块。
步态识别中除了时域需要自适应权重之外,人体步态的特征图即空间域同样需要自适应权重。例如,运动过程中的人体下肢部分产生的特征往往比人体上肢产生的特征更加重要。因此本方法进一步引入了空域注意力模块,空间域注意力的计算公式如下(2):
Claims (4)
1.一种基于注意力机制的神经网络步态识别方法,其特征在于,包括如下步骤:
步骤一)训练基于注意力机制的步态特征提取模型:
构建神经网络的训练集和测试集;
三维卷积神经网络的输入格式设置为B*C*T*H*W,其中B表示批量维度,C表示输入步态图像的通道的数,T表示输入的步态视频序列的帧长,H和W为每帧步态视频序列的长和宽;
通过迭代优化策略,利用样本及样本标签预训练步态特征提取模型,使得训练后的步态特征提取模型能从人体步态中提取出较好的特征;
步骤二)在网络中添加注意力机制模块:
加载步骤一)训练后的网络参数,在此基础上嵌入时域注意力机制模块和空域注意力机制模块,重新训练网络;
所述时域注意力机制模块利用权重计算,计算方式如下:
其中FS为合成的步态特征集,ft为第t帧的步态特征,总共包含T帧,αt为第t帧对应的权重;αt的计算方法为:
对输入的第t帧图像分别进行3个卷积核为1x1x1的卷积操作,得到三张特征图X1、X2和X3,将特征图X1和X2的大小分别转换为(t,h*w)和(h*w,t)并进行矩阵相乘,得到维度为t*t的特征图,表示每一帧对其他帧的编码,通过softmax函数求解概率生成每一帧对于其他帧的权重,再与卷积操作得到的第三张特征图X3相乘得到αt;
所述空域注意力机制模块利用权重计算,计算方式如下:
对输入的图像进行3个卷积核为1x1x1的卷积操作,得到三张特征图X1、X2和X3,将特征图X1和X2的大小分别转换为(t,h*w)和(h*w,t)并进行矩阵相乘,得到维度为(h*w)*(h*w)的特征图,表示空间中每一点对其他点的编码,通过softmax函数求解概率生成每一点对于其他点的权重,再与卷积操作得到的第三张特征图X3相乘得到Ms(·);
完成时域注意力机制模块和空域注意力机制模块嵌入后,再通过迭代优化策略,使用新的网络结构,利用样本及样本标签预训练,使得训练后的基于注意力机制的步态识别网络能从人体步态中提取出更鲁棒的特征,即可将神经网络用于步态识别。
2.如权利要求1所述的一种基于注意力机制的神经网络步态识别方法,其特征在于,所述训练集和测试集由CASIA-B步态数据集中分割得到。
3.如权利要求1所述的一种基于注意力机制的神经网络步态识别方法,其特征在于,所述神经网络输入归一化至64*44大小。
4.如权利要求1所述的一种基于注意力机制的神经网络步态识别方法,其特征在于,所述步骤二)中,计算αt和Ms(·)时先对输入图像通过统计学函数Max和Mean对通道域的信息进行压缩,将压缩后的图像用于计算αt和Ms(·)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010778327.7A CN111967358B (zh) | 2020-08-05 | 2020-08-05 | 一种基于注意力机制的神经网络步态识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010778327.7A CN111967358B (zh) | 2020-08-05 | 2020-08-05 | 一种基于注意力机制的神经网络步态识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111967358A CN111967358A (zh) | 2020-11-20 |
CN111967358B true CN111967358B (zh) | 2021-08-31 |
Family
ID=73364575
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010778327.7A Active CN111967358B (zh) | 2020-08-05 | 2020-08-05 | 一种基于注意力机制的神经网络步态识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111967358B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113298083A (zh) * | 2021-02-25 | 2021-08-24 | 阿里巴巴集团控股有限公司 | 一种数据处理方法及装置 |
CN112906673A (zh) * | 2021-04-09 | 2021-06-04 | 河北工业大学 | 一种基于注意力机制的下肢运动意图预测方法 |
CN112926549B (zh) * | 2021-04-15 | 2022-06-24 | 华中科技大学 | 基于时间域-空间域特征联合增强的步态识别方法与系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9633268B1 (en) * | 2015-12-18 | 2017-04-25 | Beijing University Of Posts And Telecommunications | Method and device for gait recognition |
CN109446991A (zh) * | 2018-10-30 | 2019-03-08 | 北京交通大学 | 基于全局和局部特征融合的步态识别方法 |
CN109657581A (zh) * | 2018-12-07 | 2019-04-19 | 南京高美吉交通科技有限公司 | 基于双目相机行为检测的城市轨道交通闸机通行控制方法 |
CN109886090A (zh) * | 2019-01-07 | 2019-06-14 | 北京大学 | 一种基于多时间尺度卷积神经网络的视频行人再识别方法 |
CN110826389A (zh) * | 2019-09-02 | 2020-02-21 | 东华大学 | 基于注意力3d频率卷积神经网络的步态识别方法 |
CN110956111A (zh) * | 2019-11-22 | 2020-04-03 | 苏州闪驰数控系统集成有限公司 | 人工智能cnn、lstm神经网络步态识别系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10460194B2 (en) * | 2014-03-07 | 2019-10-29 | Lior Wolf | System and method for the detection and counting of repetitions of repetitive activity via a trained network |
-
2020
- 2020-08-05 CN CN202010778327.7A patent/CN111967358B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9633268B1 (en) * | 2015-12-18 | 2017-04-25 | Beijing University Of Posts And Telecommunications | Method and device for gait recognition |
CN109446991A (zh) * | 2018-10-30 | 2019-03-08 | 北京交通大学 | 基于全局和局部特征融合的步态识别方法 |
CN109657581A (zh) * | 2018-12-07 | 2019-04-19 | 南京高美吉交通科技有限公司 | 基于双目相机行为检测的城市轨道交通闸机通行控制方法 |
CN109886090A (zh) * | 2019-01-07 | 2019-06-14 | 北京大学 | 一种基于多时间尺度卷积神经网络的视频行人再识别方法 |
CN110826389A (zh) * | 2019-09-02 | 2020-02-21 | 东华大学 | 基于注意力3d频率卷积神经网络的步态识别方法 |
CN110956111A (zh) * | 2019-11-22 | 2020-04-03 | 苏州闪驰数控系统集成有限公司 | 人工智能cnn、lstm神经网络步态识别系统 |
Non-Patent Citations (2)
Title |
---|
《Multi-view gait recognition using 3d convolutional neural networks》;Thomas Wolf等;《016 IEEE International Conference on Image Processing (ICIP)》;20161231;第4165–4169页 * |
《基于卷积神经网络与注意力模型的人体步态识别》;王涛等;《传感技术学报》;20190715;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111967358A (zh) | 2020-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111967358B (zh) | 一种基于注意力机制的神经网络步态识别方法 | |
CN103605972B (zh) | 一种基于分块深度神经网络的非限制环境人脸验证方法 | |
CN110232341B (zh) | 基于卷积-堆叠降噪编码网络的半监督学习图像识别方法 | |
CN111832516B (zh) | 基于无监督视频表示学习的视频行为识别方法 | |
CN108133188A (zh) | 一种基于运动历史图像与卷积神经网络的行为识别方法 | |
CN112347888B (zh) | 基于双向特征迭代融合的遥感图像场景分类方法 | |
CN110378208B (zh) | 一种基于深度残差网络的行为识别方法 | |
CN106650650B (zh) | 一种跨年龄人脸识别方法 | |
CN113627266B (zh) | 基于Transformer时空建模的视频行人重识别方法 | |
CN116258989A (zh) | 基于文本与视觉的时空关联型多模态情感识别方法、系统 | |
CN112507800A (zh) | 一种基于通道注意力机制和轻型卷积神经网络的行人多属性协同识别方法 | |
CN113033276A (zh) | 一种基于转换模块的行为识别方法 | |
CN116246102A (zh) | 一种基于自编码器与决策树的图像分类方法与系统 | |
CN114780767A (zh) | 一种基于深度卷积神经网络的大规模图像检索方法及系统 | |
CN116452862A (zh) | 基于领域泛化学习的图像分类方法 | |
CN117593666B (zh) | 一种极光图像的地磁台站数据预测方法及系统 | |
CN109886160B (zh) | 一种非限定条件下的人脸识别方法 | |
CN114283301A (zh) | 一种基于Transformer的自适应医学影像分类方法及系统 | |
CN110728352A (zh) | 一种基于深度卷积神经网络的大规模图像分类方法 | |
CN113269702A (zh) | 基于跨尺度特征融合的低曝光静脉图像增强方法 | |
CN111461061A (zh) | 一种基于相机风格适应的行人重识别方法 | |
CN114360058B (zh) | 一种基于行走视角预测的跨视角步态识别方法 | |
CN113553917B (zh) | 一种基于脉冲迁移学习的办公设备识别方法 | |
CN115062754A (zh) | 一种基于优化胶囊的雷达目标识别方法 | |
CN111754459B (zh) | 基于统计深度特征的染色伪造图像检测方法及电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20201120 Assignee: BEIJING TOPMOO TECHNOLOGY Co.,Ltd. Assignor: Beijing Jiaotong University Contract record no.: X2021990000833 Denomination of invention: A neural network gait recognition method based on attention mechanism Granted publication date: 20210831 License type: Common License Record date: 20211229 |
|
EE01 | Entry into force of recordation of patent licensing contract |