CN110688898B - 基于时空双流卷积神经网络的跨视角步态识别方法 - Google Patents
基于时空双流卷积神经网络的跨视角步态识别方法 Download PDFInfo
- Publication number
- CN110688898B CN110688898B CN201910788826.1A CN201910788826A CN110688898B CN 110688898 B CN110688898 B CN 110688898B CN 201910788826 A CN201910788826 A CN 201910788826A CN 110688898 B CN110688898 B CN 110688898B
- Authority
- CN
- China
- Prior art keywords
- gait
- image
- neural network
- convolutional neural
- gei
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005021 gait Effects 0.000 title claims abstract description 188
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 34
- 238000012795 verification Methods 0.000 claims abstract description 20
- 238000012545 processing Methods 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 11
- 230000000877 morphologic effect Effects 0.000 claims description 7
- 230000008030 elimination Effects 0.000 claims description 4
- 238000003379 elimination reaction Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 230000005484 gravity Effects 0.000 claims description 2
- 239000000523 sample Substances 0.000 description 37
- 230000006870 function Effects 0.000 description 16
- 230000008569 process Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 238000001514 detection method Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 210000002414 leg Anatomy 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000007477 logistic regression Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000011524 similarity measure Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 241000282461 Canis lupus Species 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 239000000499 gel Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 210000003423 ankle Anatomy 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010367 cloning Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000005260 corrosion Methods 0.000 description 1
- 230000007797 corrosion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 230000003628 erosive effect Effects 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 210000002683 foot Anatomy 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 210000000554 iris Anatomy 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
- G06V40/25—Recognition of walking or running movements, e.g. gait recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种基于时间空间双流卷积神经网络的跨视角步态识别方法。本发明针对步态识别问题,首先将实验中所需数据集处标准化处理成统一格式,再将步态剪影图分别融合成为步态能量图和彩色步态图,其中彩色步态图(CGI)可解决目前步态识别中不能很好地保留步态序列中时间信息问题,最后通过设计构建基于时间空间的双流卷积神经网络,计算注册样本和验证样本之间的相似度,从而判断注册样本和验证样本是否属于同一目标。该方法提高了步态识别的准确率。
Description
技术领域
本发明属于步态识别领域,具体涉及一种基于时空双流卷积神经网络的跨视角步态识别方法,在充分利用了空间信息的情况下,通过保留步态序列时间信息的方法可以较好地解决跨视角下步态识别问题。
背景技术
步态是人在行走过程中姿态的变化。不同于人脸、指纹、虹膜等,步态是唯一可在远距离非受控状态下获得的生物特征。心理学证据表明,每个人的步态存在一定的差异,因此可用于身份的鉴别。步态识别指利用步态信息对人的身份进行识别的技术。近年来,随着视频监控设备在机场、车站、商场的普及,步态识别在社会安全、市场营销、生物认证、视频监控和法律援助等领域逐渐发挥重要的作用。
步态识别任务包括计算机视觉领域内多个基本研究方向。对于一段给定的包含一个或多个行人行走过程的视频序列,广义上的步态识别流程可以分为4个主要阶段:行人检测、行人分割、行人追踪和行人识别。行人检测阶段定位行人在单帧图像中的位置,确定行人大小。行人分割阶段针对行人检测结果进行像素级的分割并去除视频中的背景信息。行人追踪阶段确定目标的运动轨迹,区分视频序列中的不同个体。一般意义上的步态识别,即指行人识别阶段,利用从行人轮廓图序列中提取特征对人进行身份辨认。
步态识别任务可以根据任务目标分为两类。第一类为验证任务,给定注册样本(Probe Sample)xp和验证样本(Gallery Sample)xg,依据某种相似度指标或给定的阈值判断它们是否具有相同身份。第二类为辨别任务,即给定注册样本xp和验证集(Gallery Set)中N个样本 表示验证集中第i个验证样本,找出验证集中和注册样本具有相同身份的验证样本。
由于人在行走过程中可能处于各种不同的状态,现有的步态识别数据集为了保证能够对算法进行有效评估,引入了视角、衣着和携带物等协变量。其中视角变化会极大地影响行人在行走过程中整体的外观对于同一个人在不同视角下的步态序列,如何通过有效的算法判断其是否具有相同的身份是当前步态识别领域研究的一个热点问题。
步态识别主要包括传统的机器学习方法和如今火热的深度学习方法。
传统的机器学习方法的发展主要从2个角度展开:1)从轮廓图序列中手工提取与步态相关的静态或动态特征,并对特征进行降维或匹配;2)直接通过步态轮廓图构造保持步态序列中时间与空间信息的模版,利用机器学习方法学习具有判别力的表示。步态能量图(GEI)和步态熵图是两种常用的步态模板,它们计算复杂度较低,有效保持步态序列中的空间信息,但丢失时序信息。为了解决该问题,Wang等[WANG C,ZHANG J P,WANG L,etal.Human Identification Using Temporal Information Preserving Gait Template]和Liu等[LIU J Y,ZHENG N N.Gait History Image:A Novel Temporal Template forGait Recognition]分别提出可以有效保持步态中时序信息的步态模板。近年来关于步态识别的研究工作主要以步态模板为输入,围绕如何从中提取具有身份信息的特征进行展开。由于行人的步态容易受到多种协变量影响而发生变化,身份特征的提取因此会变得相当具有挑战性。相机与行人的相对视角是对步态识别性能影响最大的协变量。较大的视角变化会使处在不同视角下的步态特征间存在高度的非线性相关性。为了解决视角变化的问题,机器学习方法通过学习投影的方式将处于不同视角下的步态模板投影到一个视角无关的公共子空间中进行识别。Bashi等[BASHI K,XIANG T,GONG S G.Cross View GaitRecognition Using Correlation Strength]使用典型相关分析学习针对特定视角的投影矩阵。Hu等[HU M D,WANG Y H,ZHANG Z X,et al.View-Invariant DiscriminativeProjection for Multi-view Gait-Based Human Identification]挖掘数据的低维几何结构,学习视角无关的判别投影矩阵。在此基础上,后续方法进行有效改进,如引入支持向量回归对非线性相关性建模或使用优化的步态能量图等。
基于浅层模型的传统方法虽然在一定程度上缓解各种协变量的影响,但对于解决不同视角下步态特征之间的高度非线性相关性依然缺乏有效的建模手段。此外,早期提出的步态模板始终无法完整保存步态序列中的时空信息,而机器学习方法又缺乏对序列数据的端到端建模能力。
近年来,深度学习技术由于具有强大的模型预测能力,已成为计算机视觉和图像处理领域通用的技术。以卷积神经网络和递归神经网络为基础的模型也提供对图像和序列数据进行特征抽取的有效方式。步态识别作为以图像序列为输入的任务,在一定程度上也适合运用深度学习方法进行建模。基于神经网络的非线性模型也给消除步态识别中协变量的影响提供有效的解决手段。
深度学习在步态识别上的应用主要分为两大类:一种是判别式方法,另一种是生成式方法。
其中判别式方法主要包括如Zhang等[ZHANG X F,SUN S Q,LI C,etal.DeepGait:A Learning Deep Convolutional Representation for GaitRecognition]提出的基于预训练模型的方法;如Shiraga等[SHIRAGA K,MAKIHARA Y,MURAMATSU D,et al.GEINet:View-Invariant Gait Recognition Using aConvolutional Neural Network]提出的基于步态能量图网络的方法;如Wolf等[WOLF T,BABAEE M,RIGOLL G.Multi-view Gait Recognition Using 3D Convolutional NeuralNetworks]提出的基于3D卷积的方法;Takemura等[TAKEMURA N,MAKIHARA Y,MURAMATSU D,et al.On Input/Output Architectures for Convolutional Neural Network-BasedCross-View Gait Recognition]提出的基于度量学习的方法;如Liao等[LIAO R J,CAO CS,GARCIA E B,et al.Pose-Based TemporalSpatial Network(PTSN)for GaitRecognition with Carrying and Clothing Variations]提出的基于人体姿态关键点的方法;如Wu[WU Z F,HUANG Y Z,WANG L,et al.A Comprehensive Study on Cross-ViewGait Based Human Identification with Deep CNNs]等提出的基于相似度学习的方法。
生成式方法主要包括Feng等[FENG Y,LI Y C,LUO J B.Learning EffectiveGait Features Using LSTM]提出的基于长短时记忆模块和人体关节热图的方法;Yu等[YUS Q,CHEN H F,REYES E B G,et al.GaitGAN:Invariant Gait Feature ExtractionUsing Generative Adversarial Networks]提出的基于生成对抗网络的方法;Yu等[YU SQ,CHEN H F,WANG Q,et al.Invariant Feature Extraction for Gait RecognitionUsing Only One Uniform Model]提出的基于多层自编码器的方法等。
发明内容
本发明的目的是:构建一个人体步态识别的方案。
为了达到上述目的,本发明的技术方案是提供了一种基于时空双流卷积神经网络的跨视角步态识别方法,其特征在于,包括以下步骤:
步骤1、采用CASIA-B数据集和同组人员共同采集的DHU-GaitSet数据集作为实验数据集,将实验数据集基于高斯模型背景建模,完成高斯背景建模后,利用步态序列中的当前帧与背景帧作减运算,并取绝对值完成背景差分,将差分后的前景运动图像与背景图像进行二值化分割得到粗略的步态剪影图,对获得的粗略的步态剪影图进行形态学处理以得到更精确的步态剪影图,随后进行人影消除得到最终的步态剪影图,最后将处理好的步态剪影图进行标准化使运动目标中心对齐;
步骤2、将上一步获得的步态剪影图分别融合成为步态能量图GEI和保留了步态序列时间信息的彩色步态能量图CGI;
步骤3、构建基于时间和空间的双流卷积神经网络,该双流卷积神经网络的基网络为卷积神经网络,用于计算注册样本和验证样本之间的相似度,注册样本和验证样本为相对应的注册的步态能量图GEI和验证的步态能量图GEI以及相对应的注册的彩色步态能量图CGI和验证的彩色步态能量图CGI,由四层CNN组成并有两个入口,其中一个入口的输入为注册的步态能量图GEI和验证的步态能量图GEI,另一入口的输入为注册的彩色步态能量图CGI和验证的彩色步态能量图CGI,双流卷积神经网络的最顶层使用Softmax来判断验证样本和注册样本是否属于同一目标;
步骤4:运用二分类交叉熵损失作为模型的目标函数训练基于时间和空间的双流卷积神经网络。
优选地,步骤2中,在得到步态剪影图后,对于每一帧步态图,定位图像中目标的最高和最低白色像素点,并记录这两点间的距离,其次计算每张步态剪影图中目标的重心位置,在此基础上形成一个长宽比为1:1的矩形框将步态信息框出并按此比例裁剪和融合,通过对标准化步态剪影图轮廓的色彩映射,再叠加融合成为所述彩色步态能量图CGI。
优选地,所述双流卷积神经网络通过一个函数将输入映射到目标空间,在目标空间使用简单的距离对比注册样本和验证样本相似度,在训练阶段去最小化来自相同类别的一对样本的损失函数值,最大化来自不同类别的一堆样本的损失函数值。
优选地,在双流卷积神经网络中,每对注册的步态能量图GEI和验证的步态能量图GEI和每对注册的彩色步态能量图CGI和验证的彩色步态能量图CGI分别在局部区域内相互比较,在分别计算步态能量图GEI和彩色步态能量图CGI的图像对之间的差值之前,只使用线性投影,由16对卷积核在最底卷积阶段实现,一对卷积核接受两个输入,看作权重比较器,在每个空间位置,首先分别对其两个输入的局部区域重新加权,然后将这些加权后的项相加来模拟减法。
本发明可用于辨识可疑人员,提高安全等级,也可以在公交领域应用,实现安防布控、无卡出行、人群密度、超流量预警等。
本发明的优点是:通过构建时空双流卷积神经网络,在充分利用步态序列的空间信息的前提下,通过采用CGIs来保留步态序列的时间信息。从而解决在跨视角下步态识别问题。
附图说明
图1为标准化轮廓图实例;
图2为标准步态剪影图合成GEI效果图;
图3为标准步态剪影图合成CGI效果图;
图4为典型的步态识别流程;
图5为网络架构。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
如图1所示为步态能量图的生成流程,其具体的实施如下:
步骤1:采用CASIA-B数据集和同组人员共同采集的DHU-GaitSet数据集作为实验数据集,将数据集通过高斯背景建模、背景差分与二值化分割、图像形态学处理、人影消除将原始步态序列处理成了步态剪影图,并进行了图像的标准化处理。
CASIA-B数据集为一个多视角步态数据集,提供11中不同视角(0°~180°)下的数据,视角变化较大,除了采集了行人正常行走下状态下(NM01-NM06)的步态序列,该数据集还采集了每个视角下行人穿着外套时的步态序列(CL01-CL02)和每个视角下携带背包行走的步态序列(BG01-BG02)。数据采集过程中,相机的拍摄会引入较多的高斯噪声,因而在背景建模时采用高斯模型抑制此类噪声,之后通过背景差分、二值化分割以及图像的形态学处理中的膨胀和腐蚀来得到高质量的步态剪影图,最后将步态剪影图标准化处理成长宽比为1:1的图像
具体步骤包括如下6步:
1)高斯背景建模
首先将数据基于高斯模型背景建模,高斯分布与背景建模的关系是:图像中每个像素点的颜色值作为一个随机过程x,并假设该点的像素值出现的概率服从高斯分布。令I(x,y,t)表示像素点(x,y)在t时刻的像素值,则有:
其中,P(I(x,y,t))为像素点(x,y)在t时刻服从高斯分布的概率;η(x,μt,σt)为t时刻的高斯分布;μt和σt分别为t时刻该像素高斯分布的均值和标准差;。
我们首先从步态序列中选取第一帧图像作为背景图,并计算一段时间内图像序列中每个点的均值μt与方差σt 2作为背景模型,由第一帧图像中像素值的标准差计算结果进行初始化。
μ0(x,y)=I(x,y,0)
σ0(x,y)=std_init
σ0 2=std_init2
其中,std_init为初始的标准偏差。
接着进行背景与前景像素区分,其中前景与背景的检测公式如下:
前景检测公式:
|I(x,y,t)-μt-1(x,y)|≥T
背景检测公式:
|I(x,y,t)-μt-1(x,y)|<T
其中,T为分割阈值,一般设置范围为0.7-0.75,本发明中设置为0.72,μt-1(x,y)为像素点(x,y)在t-1时刻的像素值。
随着图像帧数和像素的变化,对背景值进行相应的迭代更新,如下式所示:
μt(x,y)=(1-α)μt-1(x,y)+αI(x,y,t)
σt 2(x,y)=(1-α)σt-1(x,y)+α(I(x,y,t)-μt(x,y))2
其中,α为权重的学习速率,该值可根据实际使用调整。
2)背景差分与二值化分割
完成高斯背景建模后,利用步态序列中的当前帧与背景帧作减运算,并取绝对值完成背景差分。将差分后的前景运动图像与背景图像进行二值化分割,如下式所示:
式中,Gk(x,y)为二值化分割后的图像前背景的像素值。至此,经过基于高斯模型的背景差分和二值化处理后,我们可以得到粗略的步态剪影图,但是差分和二值化之后的图像必然会存在噪点和空洞等,尤其是地面上有人影时,将会对后续产生严重影响,因此引入图像形态学处理和消除人影操作。
3)步态图像形态学处理
将经过以上步骤后的图像进行形态学处理以得到更精确的步态剪影图。在此我们采用膨胀和腐蚀的组合操作来处理有噪点和干扰的粗略步态剪影图。
处理的具体过程与方法为:首先对图像利用垂直模板进行闭运算,然后进行开运算。对于较大且难以消除的噪点区域,通过8连通的贴标签法提取一个单连通区域,即可获得运动目标。
4)基于人体模型的人影消除操作
形态学处理有效地消除了孤立的噪声区域,并且使步态图像更加平滑,更符合实际的人体轮廓。但由于在获取步态运动图像过程中,人影作为人体场景中的一部分,在形态学和连通处理时很难消除。
人影在人体模型确定的区域之外,和脚部区域连接,在水平方向上扩展。在人影消除时,可以将在一定宽度之外的前景区域判断为噪声。具体处理过程为:首先人体分割建模法确定膝盖和脚踝的位置,接着计算小腿部中线,然后延长中线和人体区域底部边界点的交点为最低点,最后对人体区域外部的噪声进行消除。
5)步态剪影图的标准化
通过之前几步的图像预处理得到的原始步态剪影图中运动目标大小不同,主要是由于运动对象在行走过程中与摄像机的距离远近发生变化。由于同一对象在不同角度下步态的形状会发生变化,不同对象之间具有不同的步态,在目标步态提取的过程中会发生误差。为了方便后续的步态特征提取,在模型进行训练和识别之前,我们先对处理好的步态剪影图序列进行标准化使运动目标中心对齐。标准化的轮廓图只包含运动目标轮廓,这样不仅可以保存时间和空间信息同时还可以减少无关信息的影响。对于包含很多无关区域、运动目标大小不同并且运动目标中心不对齐的轮廓图,轮廓图的标准化非常重要。我们在之前几步处理好的步态剪影图中提取包含运动目标的标准化轮廓图,每个标准化轮廓图B可以表示为:B=(x,y,w,h)。其中(x,y)表示左上角坐标。w和h分别表示为标准化轮廓图的宽度和高度。其中,标准化轮廓图的高度为运动目标的高度。为了减少图像缩放尺度的影响,我们将标准化轮廓图的比例设为1,即w=h。为了标准化轮廓图,首先计算每个运动目标的中心(Gx,Gy),其中x的计算如下式。
在本发明中,我们选用w=h=224的尺寸进行了数据的处理。如图1所示为原始步态剪影图标准化后的到的标准化步态剪影图。
步骤2:将步态剪影图分别融合成为步态能量图(GEI)和保留了步态序列时间信息的彩色步态能量图(CGI)。
步态能量图(Gait Engery Image,GEI)是步态检测中常用的特征,GEI的实质是将步态剪影图进行平均化相加操作,其能很好的表现步态的速度,形态等特征。其定义如下式:
其中,g(x,y)为步态剪影图平均化相加后的结果,Sq,t(x,y)表示在第q个步态序列中,时刻t的步态剪影图中坐标为(x,y)的像素值。
对步骤1中处理得到的标准步态剪影图进行处理的到GEI,本发明没有将每个步态序列按照每一步态周期来处理成GEI,而是将每个步态序列处理成一个GEI,因其效果并不亚于前者,且其处理过程较简单。基于OpenCV处理后,其效果如图2所示,展示了三种状态下,11个视角下的步态能量图。
彩色步态能量图(CGI)相对于普通的步态能量图,其保留了步态序列的时间信息。首先将步骤1中处理得到的标准步态剪影图进行像素值反转,即将前景的像素值从1处理成0,将背景的像素值从0处理成1。
其次,我们对一个步态序列进行步态周期检测,我们通过下式计算步态轮廓图像I中目标腿部区域的平均宽度W。通过目标腿部距离我们可以判断得到一个步态周期包含多少张标准步态剪影图。
其中,W为目标腿部区域平均宽度,H为目标高度,Li和Ri是标准化步态剪影图中前景第i行的最左和最右像素点的相对位置。α和β为消除外在影响的比例系数。
接着,我们对步态图进行颜色的映射,即用不同颜色够勾勒出每一时刻的步态图,本专利中我们采用了一种线性插值函数将时间信息编码为三个颜色分量(即红、绿、蓝)并将其映射到每个步态周期的标准化剪影图上,如下式所示。
其中,R(kt)为映射到剪影图上的红色分量的值,G(kt)为映射到剪影图上绿色分量的值,B(kt)为映射到剪影图上蓝色分量的值,kt=(Wt-Wmin)/(Wmax-Wmin),Wt代表t时刻的目标腿部宽度,Wmax和Wmin为一个步态周期的目标腿部宽度的最大最小值。I取值为255。
最后,通过以上公示可以计算出每个步态序列中第t帧图像Ct(x,y)的彩色步态轮廓图,其计算式如下,
式中,h′t(x,y)为本专利中采用的每个点R,G,B三通道的分量系数。通过彩色步态图Ct,彩色步态能量图(CGI)CG(x,y)可由以下公式进行平均化相加操作得到。如图3为标准步态剪影图合成CGI效果图。
步骤3:构建基于时空的双流卷积神经网络,该网络的基网络为卷积神经网络,网络由四层CNN组成并有两个入口,其中一个入口的输入为注册(probe)和验证(Gallery)的GEIs,另一入口的输入为probe和gallery的CGIs。
该网络的思路基于典型的步态识别方法,其流程如图4所示。第一,按照以上所述的方法分别的到步态序列的GEIs和CGIs。第二,给定probe GEI和gallery GEI,分别计算每一对的相似度。简单来说,可以直接计算两个GEIs和两个CGIs之间的欧式距离。最后,根据计算得到的相似度来判别probe GEI的类别。与以往的方法不同,本发明采用基于深度卷积神经网络(CNN)实现上述第二步,即通过神经网络来达到计算欧式距离并得到probe GEI类别的效果。
网络架构如图5所示,该网络中,所有的卷积核尺寸为3*3,步长为1,并且本专利中均采用小尺寸的卷积核去代替较大尺寸的卷积核,即用2个3*3的卷积核代替5*5的卷积核,2个3*3的卷积核与5*5的卷积核感受野相同,但是网络的参数量减少,并且提升了网络深度,这使得网络性能有所提升。该网络的池化层均采用Max Pooling,池化层尺寸为2*2,步长为2。该网络的左侧输入为probe GEIs和gallery GEIs,图像尺寸为240*240,右侧输入为probe CGIs和gallery CGIs,图像尺寸为240*240。网络中的N为局部响应归一化(LRN)技术,使得神经元中响应比较大的值变得相对更大,并抑制其他反馈较小的神经元,增强了模型的泛化能力。网络中的D为Dropout技术,减少每次训练时的参数量,提高模型准确率,增强模型的泛化能力。
在神经网络中,网络的某层输入的probe样本和gallery样本可以模仿减法运算来得到一对特征的差别,另一层随后可以通过两者的差别进而得到样本间的相似度。本发明的主要思想是通过一个函数将输入映射到目标空间,在目标空间使用简单的距离(欧式距离等)进行对比相似度。在训练阶段去最小化来自相同类别的一对样本的损失函数值,最大化来自不同类别的一堆样本的损失函数值。给定一组映射函数Gw(X),其中参数W为共享参数向量,我们的目的就是去找一组参数W,使得当X1和X2属于同一类别的时候,相似性度量较小,且最小化损失函数。当属于不同类别时,相似性度量较大,且最大化损失函数。其中X1和X2是网络的一组输入图像,Y为输入组的一个0,1标签,如果输入为同一个人,即一组正对,那么Y=0,否则Y=1,相似性度量公式如下。
Ew(X1,X2)=||Gw(X1)-Gw(X2)||
式中,Ew(X1,X2)表示相似度。
为了更好地训练网络,网络的最后一层需要两个节点来构成一个二分类器。在网络的顶层设置一个Softmax层,利用逻辑回归损失对整个网络进行训练。总而言之,我们需要至少两个具有可训练参数的层来构成一个有效的预测器,用一对步态特征计算相似性。该预测器可用下式表示:
其中,x为probe GEI,xi为gallery GEI,φ将x和xi映射到同一空间,与此同时,计算两个输入的权值差,η作为预测器来预测最终的相似度。在此,φ可由一层或多层卷层和全连接层组成,/>必须有两个输入并且可由一个卷积层或全连接层构成。预测器η由全连接层和Softmax层构成。Si为预测器。
在该网络中,每对GEIs和CGIs分别在局部区域内相互比较,在分别计算GEIs和CGIs图像对之间的差值之前,只使用线性投影,这是由16对卷积核在最底卷积阶段实现的。一对卷积核可接受两个输入,可以看作权重比较器。在每个空间位置,首先分别对其两个输入的局部区域重新加权,然后将这些加权后的项相加来模拟减法。如图2所示,虽然采用加权的方式,但是一些学习到的成对滤波器确实是用probe GEIs减去gallery GEIs。本发明的目的是模拟基于线性归一化的步态识别方法。这相当于将不同视角的GEIs投影到一个公共空间中,使GEIs和CGIs特征变得更具可比性。然而,不同的是,在匹配层之上还有三个卷积阶段。随后网络的深层非线性部分被认为有助于从GEIs和CGIs对之间的差异中学习更多复杂信息。给定GEIs和CGIs的大小为240*240,C4层神经元的输入特征图大小为26×26。C3层的输出的feature maps尺寸为20×20。从这些特征中,最顶层的二分类器会挖掘出最具鉴别性的特征,从而判断出GEI对具有相同身份的概率,即相似度。网络可以简明地表述为:
Si=W4f(W3f(W2(f(W1x)+f(W′1xi)))),
其中,Wl和W′l分别代表了probe和gallery第l层的权值(卷积层的卷积核),f为非线性激活函数,本发明中我们采用Leaky-Relu作为非线性激活函数。
步骤4:运用二分类交叉熵损失作为模型的目标函数训练基于时间和空间的双流卷积神经网络,并在网络的最后一层卷积层融合时间空间信息,该网络用于计算注册样本(Probe Sample)和验证样本(Gallery Sample)之间的相似度,网络最顶层使用Softmax来判断验证样本和注册样本是否属于同一目标,从而完成跨视角下步态识别任务。
本发明中,我们采用逻辑回归损失及反向传播算法对网络进行训练,将Mini-Batch尺寸设置为64,每训练一个Mini-Batch进行一次网络的权值更新,逻辑回归损失函数如下式所示。
我们使用均值为0,标准差为0.01的高斯分布初始化每一层的权重。所有偏置项都用常数零进行初始化。对于所有网络层,权值和偏置项的动量设置为0.9,权值衰减设置为0.0005。网络学习率设置为0.001。训练时我们向网络提供一个平衡的训练集,即正样本和负样本分别构成训练集的一半,验证时,网络的左边网络和右边网络的输入probe/galleryGEIs和probe/gallery CGIs都来自同一正负样本对。为了得到一个正样本对,我们随机选取一个对象,然后选取它当前的两个视角,最后分别选取他在这些视角中的两个序列。为了得到一个负样本对,除了从两个不同的实验对象中挑选出序列外,其余做法如上。我们根据CASIA-B数据集验证集的经验结果确定迭代次数,迭代次数为60万次。
Claims (3)
1.一种基于时空双流卷积神经网络的跨视角步态识别方法,其特征在于,包括以下步骤:
步骤1、采用CASIA-B数据集和同组人员共同采集的DHU-GaitSet数据集作为实验数据集,将实验数据集基于高斯模型背景建模,完成高斯背景建模后,利用步态序列中的当前帧与背景帧作减运算,并取绝对值完成背景差分,将差分后的前景运动图像与背景图像进行二值化分割得到粗略的步态剪影图,对获得的粗略的步态剪影图进行形态学处理以得到更精确的步态剪影图,随后进行人影消除得到最终的步态剪影图,最后将处理好的步态剪影图进行标准化使运动目标中心对齐;
步骤2、将上一步获得的步态剪影图分别融合成为步态能量图GEI和保留了步态序列时间信息的彩色步态能量图CGI;
步骤3、构建基于时间和空间的双流卷积神经网络,该双流卷积神经网络的基网络为卷积神经网络,用于计算注册样本和验证样本之间的相似度,注册样本和验证样本为相对应的注册的步态能量图GEI和验证的步态能量图GEI以及相对应的注册的彩色步态能量图CGI和验证的彩色步态能量图CGI,由四层CNN组成并有两个入口,其中一个入口的输入为注册的步态能量图GEI和验证的步态能量图GEI,另一入口的输入为注册的彩色步态能量图CGI和验证的彩色步态能量图CGI,双流卷积神经网络的最顶层使用Softmax来判断验证样本和注册样本是否属于同一目标;
步骤4:运用二分类交叉熵损失作为模型的目标函数训练基于时间和空间的双流卷积神经网络,在双流卷积神经网络中,每对注册的步态能量图GEI和验证的步态能量图GEI和每对注册的彩色步态能量图CGI和验证的彩色步态能量图CGI分别在局部区域内相互比较,在分别计算步态能量图GEI和彩色步态能量图CGI的图像对之间的差值之前,只使用线性投影,由16对卷积核在最底卷积阶段实现,一对卷积核接受两个输入,看作权重比较器,在每个空间位置,首先分别对其两个输入的局部区域重新加权,然后将这些加权后的项相加来模拟减法。
2.如权利要求1所述的一种基于时空双流卷积神经网络的跨视角步态识别方法,其特征在于,步骤2中,在得到步态剪影图后,对于每一帧步态图,定位图像中目标的最高和最低白色像素点,并记录这两点间的距离,其次计算每张步态剪影图中目标的重心位置,在此基础上形成一个长宽比为1:1的矩形框将步态信息框出并按此比例裁剪和融合,通过对标准化步态剪影图轮廓的色彩映射,再叠加融合成为所述彩色步态能量图CGI。
3.如权利要求1所述的一种基于时空双流卷积神经网络的跨视角步态识别方法,其特征在于,所述双流卷积神经网络通过一个函数将输入映射到目标空间,在目标空间使用简单的距离对比注册样本和验证样本相似度,在训练阶段去最小化来自相同类别的一对样本的损失函数值,最大化来自不同类别的一堆样本的损失函数值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910788826.1A CN110688898B (zh) | 2019-08-26 | 2019-08-26 | 基于时空双流卷积神经网络的跨视角步态识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910788826.1A CN110688898B (zh) | 2019-08-26 | 2019-08-26 | 基于时空双流卷积神经网络的跨视角步态识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110688898A CN110688898A (zh) | 2020-01-14 |
CN110688898B true CN110688898B (zh) | 2023-03-31 |
Family
ID=69108728
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910788826.1A Active CN110688898B (zh) | 2019-08-26 | 2019-08-26 | 基于时空双流卷积神经网络的跨视角步态识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110688898B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113435225B (zh) * | 2020-03-23 | 2022-07-12 | 山东大学 | 一种基于分块水平金字塔时空特征融合模型和步态重排序的跨视角步态识别方法 |
CN111898533B (zh) * | 2020-07-30 | 2023-11-28 | 中国计量大学 | 一种基于时空特征融合的步态分类方法 |
CN111931619B (zh) * | 2020-07-31 | 2024-04-05 | 杭州电子科技大学 | 一种基于优化聚类算法的跨域步态重识别方法 |
CN112101176B (zh) * | 2020-09-09 | 2024-04-05 | 元神科技(杭州)有限公司 | 一种结合用户步态信息的用户身份识别方法及系统 |
CN112215868B (zh) * | 2020-09-10 | 2023-12-26 | 湖北医药学院 | 基于生成对抗网络的去除手势图像背景的方法 |
CN112507803A (zh) * | 2020-11-16 | 2021-03-16 | 北京理工大学 | 一种基于双流网络的步态识别方法 |
CN112329716A (zh) * | 2020-11-26 | 2021-02-05 | 重庆能源职业学院 | 一种基于步态特征的行人年龄段识别方法 |
CN112580445B (zh) * | 2020-12-03 | 2022-10-11 | 电子科技大学 | 基于生成对抗网络的人体步态图像视角转化方法 |
CN114360058B (zh) * | 2021-12-31 | 2024-05-28 | 北京航空航天大学 | 一种基于行走视角预测的跨视角步态识别方法 |
CN114627424A (zh) * | 2022-03-25 | 2022-06-14 | 合肥工业大学 | 一种基于视角转化的步态识别方法和系统 |
CN114998995A (zh) * | 2022-06-13 | 2022-09-02 | 西安电子科技大学 | 基于度量学习和时空双流网络的跨视角步态识别方法 |
CN115050105B (zh) * | 2022-08-17 | 2022-12-30 | 杭州觅睿科技股份有限公司 | 一种人影可疑性判定方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9633268B1 (en) * | 2015-12-18 | 2017-04-25 | Beijing University Of Posts And Telecommunications | Method and device for gait recognition |
CN107403154A (zh) * | 2017-07-20 | 2017-11-28 | 四川大学 | 一种基于动态视觉传感器的步态识别方法 |
CN109886090A (zh) * | 2019-01-07 | 2019-06-14 | 北京大学 | 一种基于多时间尺度卷积神经网络的视频行人再识别方法 |
CN110070029A (zh) * | 2019-04-17 | 2019-07-30 | 北京易达图灵科技有限公司 | 一种步态识别方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104299012B (zh) * | 2014-10-28 | 2017-06-30 | 银河水滴科技(北京)有限公司 | 一种基于深度学习的步态识别方法 |
US9984284B2 (en) * | 2016-09-19 | 2018-05-29 | King Fahd University Of Petroleum And Minerals | Apparatus and method for gait recognition |
CN107103277B (zh) * | 2017-02-28 | 2020-11-06 | 中科唯实科技(北京)有限公司 | 一种基于深度相机和3d卷积神经网络的步态识别方法 |
CN109002785A (zh) * | 2018-07-05 | 2018-12-14 | 西安交通大学 | 基于运动时序能量图的步态识别方法 |
CN109376747A (zh) * | 2018-12-11 | 2019-02-22 | 北京工业大学 | 一种基于双流卷积神经网络的视频火焰检测方法 |
-
2019
- 2019-08-26 CN CN201910788826.1A patent/CN110688898B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9633268B1 (en) * | 2015-12-18 | 2017-04-25 | Beijing University Of Posts And Telecommunications | Method and device for gait recognition |
CN107403154A (zh) * | 2017-07-20 | 2017-11-28 | 四川大学 | 一种基于动态视觉传感器的步态识别方法 |
CN109886090A (zh) * | 2019-01-07 | 2019-06-14 | 北京大学 | 一种基于多时间尺度卷积神经网络的视频行人再识别方法 |
CN110070029A (zh) * | 2019-04-17 | 2019-07-30 | 北京易达图灵科技有限公司 | 一种步态识别方法及装置 |
Non-Patent Citations (2)
Title |
---|
基于步态特征提取方法的研究;白鑫等;《软件导刊》;20090730(第07期);全文 * |
基于过程神经网络的步态模式自动分类;王斐等;《东北大学学报(自然科学版)》;20110415(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110688898A (zh) | 2020-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110688898B (zh) | 基于时空双流卷积神经网络的跨视角步态识别方法 | |
Mahmood et al. | Robust spatio-temporal features for human interaction recognition via artificial neural network | |
CN111274916B (zh) | 人脸识别方法和人脸识别装置 | |
CN108268859A (zh) | 一种基于深度学习的人脸表情识别方法 | |
Awais et al. | Real-time surveillance through face recognition using HOG and feedforward neural networks | |
Migdal et al. | Background subtraction using markov thresholds | |
CN108537743A (zh) | 一种基于生成对抗网络的面部图像增强方法 | |
CN112215180A (zh) | 一种活体检测方法及装置 | |
Tong et al. | Multi-view gait recognition based on a spatial-temporal deep neural network | |
Guo et al. | Improved hand tracking system | |
Zheng et al. | Attention-based spatial-temporal multi-scale network for face anti-spoofing | |
Ghosh et al. | Object detection from videos captured by moving camera by fuzzy edge incorporated Markov random field and local histogram matching | |
Qian et al. | Intelligent surveillance systems | |
Yuan et al. | MFFFLD: A multimodal-feature-fusion-based fingerprint liveness detection | |
Baltzakis et al. | Visual tracking of hands, faces and facial features of multiple persons | |
Liu et al. | Detecting presentation attacks from 3d face masks under multispectral imaging | |
He et al. | Local compact binary count based nonparametric background modeling for foreground detection in dynamic scenes | |
Ijiri et al. | Human Re-identification through Distance Metric Learning based on Jensen-Shannon Kernel. | |
CN115205903A (zh) | 一种基于身份迁移生成对抗网络的行人重识别方法 | |
Inalou et al. | AdaBoost-based face detection in color images with low false alarm | |
Subudhi et al. | Integration of fuzzy Markov random field and local information for separation of moving objects and shadows | |
Grabner et al. | Autonomous learning of a robust background model for change detection | |
Fritz et al. | Object recognition using local information content | |
Liu et al. | Weighted sequence loss based spatial-temporal deep learning framework for human body orientation estimation | |
CN115203663B (zh) | 小视角远距离视频步态精准识别身份认证系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |