CN114120076A - 基于步态运动估计的跨视角视频步态识别方法 - Google Patents

基于步态运动估计的跨视角视频步态识别方法 Download PDF

Info

Publication number
CN114120076A
CN114120076A CN202210081840.XA CN202210081840A CN114120076A CN 114120076 A CN114120076 A CN 114120076A CN 202210081840 A CN202210081840 A CN 202210081840A CN 114120076 A CN114120076 A CN 114120076A
Authority
CN
China
Prior art keywords
gait
network
image
motion estimation
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210081840.XA
Other languages
English (en)
Other versions
CN114120076B (zh
Inventor
钟孝云
邹勤
陈龙
邱雁成
王中元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202210081840.XA priority Critical patent/CN114120076B/zh
Publication of CN114120076A publication Critical patent/CN114120076A/zh
Application granted granted Critical
Publication of CN114120076B publication Critical patent/CN114120076B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明设计了一种基于步态运动估计的跨视角视频步态识别方法,特别是增加对视频步态运动的预测和对多视角步态特征的融合,和对多方向特征。提出一种步态图像分割方法和步态运动估计方法,同时提取步态空间与时序特征,结合对抗学习训练策略,研究和探索出一种基于步态运动估计的跨视角视频步态识别方法。所发明的方法,其输入为一个视频中多帧连续的步态图像序列,输出为对步态特征分类的标签。提高步态身份识别的准确度。

Description

基于步态运动估计的跨视角视频步态识别方法
技术领域
本发明涉及人工智能领域,具体涉及一种基于步态运动估计的跨视角视频步态识别方法。
背景技术
步态识别是指通过人的行走方式来识别或验证人的身份,它可以为信息系统登入提供安全保护。与其他生物特征识别技术相比,步态识别具有可以远距离实施、无需被识别者配合等优点。基于上述优势,步态识别技术对于区域访问控制、安防监控、刑事调查等多个应用方向都具有重要意义。
随着卷积神经网络的发展,基于深度学习的方法已被广泛应用于步态识别研究,借用神经网络强大的拟合能力,这些方法取得了较好的成果。现有基于深度学习的步态识别技术大多采用步态能量图(Gait Energy Image, GEI)作为神经网络训练和检测的输入特征。步态能量图提取方法简单,也能很好的表现步态的速度,形态等特征。但目前的视频步态识别系统存在以下问题。
首先,使用步态能量图作为步态特征缺少时序信息,难以有效地利用步态侧影间连续的时序特征。步态特征预处理提取时,首先利用图像分割技术从采集的视频帧中提取人物的侧影,图像分割技术的优劣决定了输入图像特征的质量。而来自同一段视频的不同帧的侧影间在时序上存在紧密联系。通过提取和分析不同视频帧之间步态特征的联系与差异,能够估计多角度步态的运动规律,从而充分利用步态侧影间的时序信息与多角度步态之间的联系,提高步态识别的准确率。因此,开展针对视频步态运动估计的高精度步态识别方法研究,具有重要的现实意义。
另外,现有的基于深度学习的视频步态识别技术主要关注于单一方向的步态识别,例如侧面、正面或背面,如何使采用单一方向视频训练得到的模型适配于其他方向的视频的步态识别,即实现跨视角的步态识别,是一个非常难的问题。在实际应用中,跨视角的步态识别具有非常迫切的行业需求。
针对以上问题,本发明提出了一种基于步态运动估计的跨视角视频步态识别方法。本发明提出一种步态图像分割方法和步态运动估计方法,同时提取步态空间与时序特征,结合对抗学习训练策略,研究和探索出一种基于步态运动估计的跨视角视频步态识别方法。
发明内容
本发明为了提高步态身份识别的准确度,特别是增加对视频步态运动的预测和对多视角步态特征的融合,和对多方向特征,提出了一种基于步态运动估计的跨视角视频步态识别方法及系统。所发明的方法,其输入为一个视频中多帧连续的步态图像序列,输出为对步态特征分类的标签。
本发明的基于步态运动估计的跨视角视频步态识别方法包含以下步骤:
步骤S1,构建步态图像分割深度学习网络,用于提取图像中的人物前景目标;
步骤S2,同步采集多人多方向的步态视频图像数据集,利用步态视频图像数据集对步骤S1构建的深度学习网络进行训练,得到步态前景分割模型;
步骤S3,构建基于GAN网络的步态运动估计网络,该网络包含一个步态运动估计编码-解码网络生成器和多个判别器;所述生成器输入为一个视角的n张连续步态序列图像,输出为m个不同视角的第n+1张步态预测图像;所述判别器的个数为m,各判别器输入数据为上述生成器输出的单角度步态预测图像和该角度对应的真实步态图像,输出为真或假的标签,其中,n大于等于2,m大于等于4;
步骤S4,利用步骤S2步态前景分割模型分割后的步态图像对步骤S3构建的深度学习网络进行训练;
步骤S5,构建用于步态身份识别的深度学习网络,该网络包括步态特征提取网络和LSTM网络;其中步态特征提取网络为步骤S4中训练所得生成器中的编码网络,利用该编码网络进行连续步态图像的步态特征提取;LSTM网络的输入数据为编码器提取的步态特征,输出为类别标签;
步骤S6,利用步骤S2处理后的视频步态数据集对步骤S5构建的深度学习网络进行训练;
步骤S7,利用步骤S6训练好的模型进行步态身份识别。
进一步地,所述步态图像分割深度学习网络W-Net网络,包括编码-解码网络和特征融合模块;其中,编码网络阶段输入数据为步态图像视频帧,并利用卷积层和池化层提取特征;解码阶段输入数据为编码模块的输出,利用反卷积重现图像分类后特征并还原尺寸;特征融合模块将不同层生成的特征图像进行融合;其中,特征融合层将编码模块与解码模块进行连接,同时各个特征融合层纵向连接,以最后一层特征融合层的输出作为提取的步态特征。
进一步地,所述步骤S1采用特征融合模块,将编码网络的每个池化层前的卷积层输出与相应解码网络部分最后的卷积层输出相融合;所述步骤S1中编码-解码网络采用池化索引保存特征细节。
进一步地,步骤S2的具体过程为:
S2-1,采用N个样本进行训练,每个样本包含一张原始步态图像和其对应的真实前景 掩模图,其中
Figure 733898DEST_PATH_IMAGE002
代表第c张图像,
Figure 713356DEST_PATH_IMAGE004
代表该图像的真实前景掩模,T表示图像中像素的总数,故由步骤S1-3得到的融合图像特征 可表述为:
Figure 40563DEST_PATH_IMAGE006
其中,
Figure 498089DEST_PATH_IMAGE008
为第i个像素值;
步骤S2-2,对上一步计算得出的融合图像特征和真实图像标签进行交叉熵损失计算;网络在训练时各编码、解码、融合层训练的参数,采用随机法进行初始化。设W为网络中参数权重值,F i 是融合特征图在像素i的输出值,P(.)表示计算联合概率,则对像素点i计算交叉熵损失为:
Figure 125511DEST_PATH_IMAGE010
则对整张步态分割图像的所有像素点计算交叉熵损失,得到总损失L为:
Figure 744711DEST_PATH_IMAGE012
进一步地,所述步骤3的具体过程如下:
S3-1,将连续的步态特征图像输入步态运动估计生成网络,经过生成网络的编码网络,输出1个融合的步态特征F gait
S3-2,将上一步提取的步态特征输入生成网络的解码网络,使得该特征经过多次上采样和反卷积操作,并与编码阶段对应的特征进行融合,最终得到m张不同角度的与输入图片大小相同的输出步态图片,作为网络估计第n+1张步态图片的结果;
S3-3,将上一步预测图像或真实第n+1张图片选择其一输入到判别层网络,判别器对输入图片进行卷积特征提取,并最终输出判别器的判断结果,即或真或假的标签;
S3-4,将上一步各个判别器输出进行加权求和,其中对与输入步态图像视频帧角度相同的判别器和方向不同的判别器分别配置权重,加权求和后得到最终标签值。
进一步地,所述步骤S4的过程如下:
n张连续的时序步态图像I t1 I t2 输入网络,网络生成预测的m个不同角度的第n +1张步态图像
Figure 824793DEST_PATH_IMAGE014
;得到第i个角度的步态运动估计生成网络的L1 距离损失函数为:
Figure 820431DEST_PATH_IMAGE016
S4-2,单个判别分支将真实的下一张图像
Figure 551627DEST_PATH_IMAGE018
或者生成网络预测的生 成图像
Figure 358040DEST_PATH_IMAGE020
作为输入,输出真或假的标签值;增加了L1距离损失函数的单一判别 器损失函数定义如下:
Figure 174686DEST_PATH_IMAGE022
其中,D表示判别器的输出值,λ是对L1损失的系数,用于设置L1损失的权重,T表示输入判别器的图片,t用于表示输入判别器的图片I是生成器生成值或者的真实值;
S4-3,对m个不同角度的损失函数进行加权求和;若第d个角度为输入步态图像的角度,则网络总损失函数定义如下:
Figure 459168DEST_PATH_IMAGE024
其中,对与输入步态图像视频帧角度相同的判别器和方向不同的判别器分别置权重αβ
进一步地,所述步骤S5的具体过程如下:
S5-1,将
Figure 44870DEST_PATH_IMAGE025
张连续的二值步态图像进行划分,每连续的n(n>=2) 张步态图像分为一 组,则可得到h=K-n+1组连续的步态序列图像,每组包含n张图像;
S5-2,将上一步得到的h组连续的步态图像,输入步骤S4中训练完成的步态运动估计深度学习模型,经过步态运动估计生成网络编码网络,生成h个包含时序信息的步态特征;其中每一个步态特征都包含n张步态图像的空间、时序信息及对第n+1张步态运动图像的预测;
S5-3,将上一步得到的h个步态特征输出到LSTM网络中,输出大小为512×1的向量;
S5-4,将上一步得到的向量输入两层全连接层得到最终输出向量:
Figure 287764DEST_PATH_IMAGE027
其中r表示数据集中总人数;
S5-5,将上一步得到的最终输出向量
Figure 591706DEST_PATH_IMAGE028
输入Softmax函数进行身份预测。
进一步地,所述步骤S6的具体过程如下:
S6-1,构建识别结果真实标签;构建长度为r的二值向量y
Figure 414300DEST_PATH_IMAGE030
S6-2,将n张连续的二值步态图像输入步骤S5中构建的步态身份识别神经网络模 型,得到长度为r的输出向量
Figure 120088DEST_PATH_IMAGE031
S6-3,将上两步得到的真实值向量y与网络生成结果
Figure 2724DEST_PATH_IMAGE031
计算交叉熵损失函数,损失 函数如下:
Figure 100002_DEST_PATH_IMAGE033
本发明的优点:
1.本发明创新性地采用实现了利用编码-解码网络,通过单一视角下的前n张连续步态图像视频帧预测m个不同视角的第n+1张步态图像。其中,步态特征提取网络能够提取步态图像间的时序信息与多角度图像间联系,从而提取具有身份鉴别能力步态特征,进而高精度地进行步态身份识别。
2.本发明创新性构建了步态图像分割深度学习网络W-Net网络架构,在原有SegNet网络的基础上增加了特征融合模块,区别于传统网络利用解码网络生成图像,W-Net网络设计的特征融合模块同时获取编码、解码网络对应层的图像特征,并纵向连接所有特征融合层的输出从而生成最终结果,将各层编码、解码网络所提取的不同大小的特征进行融合,充分提取图像各级特征,提升图像分割精度。
3.本发明创新性使用对抗学习训练策略,将预测生成的步态特征与真实图像同时输入网络,使模型更好地提取连续步态图像中的时序信息和多角度步态图像间关联信息,提高识别的准确率。
4.本发明创新性使用提取出的步态时序特征进行步态身份识别,提高识别的准确率。
附图说明
图1是本发明的步态图像分割模型神经网络架构图。
图2是本发明的步态运动估计模型神经网络架构图。
图3是本发明的步态身份识别模型神经网络架构图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本发明提供的方法设计了基于步态运动估计的跨视角视频步态识别方法,其包含以下步骤:
步骤S1,构建步态图像分割深度学习网络,该网络为W-Net网络,包括编码-解码网络和特征融合模块;其中,编码网络阶段输入数据为步态图像视频帧,并利用卷积层和池化层提取特征;解码网络阶段输入数据为编码模块的输出,利用反卷积重现图像分类后特征并还原尺寸;特征融合模块将不同层生成的特征图像进行融合;其中,特征融合层将编码模块与解码模块进行连接;具体实施过程说明如下:
S1-1,将待分割图像输入编码网络,利用卷积层和池化层对图像进行特征提取,将每个池化层前的一层卷积层输出传入对应的concat连接层,并在池化操作时记录池化索引,生成低分辨率图像特征;
S1-2,利用上一步记录的池化索引,将上一步得到的低分辨率图像特征进行多次上采样和反卷积,并将每一个卷积模块的最后一层输出传入对应的concat连接层,得到重现的图像特征,多次上采样根据W-Net网络结构定义,解码网络一共有5个网络层,也就对应5次上采样;
S1-3,将上两步得到的多个concat连接层依次进行卷积和反卷积操作,使其由多通道特征图像融合为单一特征图像,并且将其放大再裁剪为真实图像大小的特征图像,随后将5个处理后的融合层特征进行连接,并再次卷积以融合所有输出,最终得到融合的预测图像。
优选地,所述步骤S1中编码-解码网络采用池化索引保存特征细节。
优选地,所述步骤S1中编码网络包含13个卷积层与5个池化层;解码网络则包含13个卷积层与5个上采样层;特征融合模块则包含5个concat连接层。
优选地,所述步骤S1中编码、解码网络的卷积层采用大小为3*3的卷积核;特征融合模块的卷积层采用大小为1*1的卷积核。
步骤S2,同步采集多人多方向的步态视频图像数据集,利用步态视频图像数据集对步骤S1构建的深度学习网络进行训练,得到步态前景分割模型;本实施例同一步态采集的方向包括0゜、30゜、60゜、90゜、120゜和150゜,每个方向布置一台相机进行视频图像采集。对深度学习网络训练具体的步骤为:
S2-1,采用N个样本进行训练,每个样本包含一张原始步态图像和其对应的真实前 景掩模图,其中
Figure DEST_PATH_IMAGE034
代表第c张图像,
Figure DEST_PATH_IMAGE035
代表该图像的真实前景掩模,T表示图像中像素的总数,故由步骤S1-3得到的融合图像特征 可表述为:
Figure DEST_PATH_IMAGE036
其中,
Figure DEST_PATH_IMAGE037
为第i个像素值;
步骤S2-2,对上一步计算得出的融合图像特征和真实图像标签进行交叉熵损失计 算;网络在训练时各编码、解码、融合层训练的参数,采用随机法进行初始化。设W为网络中 参数权重值,
Figure DEST_PATH_IMAGE038
是融合特征图在像素i的输出值,P(.)表示计算联合概率,则对像素点i计算 交叉熵损失为:
Figure DEST_PATH_IMAGE040
则对整张步态分割图像的所有像素点计算交叉熵损失,得到总损失L为:
Figure DEST_PATH_IMAGE042
进一步地,以损失函数L(W)为目标,使用反向传播算法对步骤S1中网络结构进行训练。
进一步地,步态图像分割网络以真实人物步态区域标注为监督进行有监督训练。
进一步地,所述步骤S2-2中使用的P函数为sigmoid函数。
步骤S3,构建基于GAN网络的步态运动估计网络,该网络包含步态运动估计编码-解码网络生成器和判别器;所述生成器输入为一个视角的n张连续步态序列图像,输出为m个不同角度的第n+1张步态预测图像;所述判别器的个数为m,各判别器输入数据为上述生成器输出的单角度步态预测图像和该角度对应的真实步态图像,输出为或真或假的标签,其中,n大于等于2,m大于等于4;本实施例中n取值为3,m取值为6;该步态运动估计网络的具体实施过程说明如下:
S3-1,将三张连续的步态特征图像输入步态运动估计生成网络,经过生成网络的编码网络,输出1个融合的步态特征F gait
S3-2,将上一步提取的步态特征输入生成网络的解码网络,使得该特征经过多次上采样和反卷积操作,并与编码阶段对应的特征进行融合,最终得到m张不同角度的与输入图片大小相同的输出步态图片,作为网络估计第四张步态图片的结果;
S3-3,将上一步预测图像或真实第四张图片选择其一输入到判别层网络,判别器对输入图片进行卷积特征提取,并最终输出判别器的判断结果,即或真或假的标签;
S3-4,将上一步各个判别器输出进行加权求和,其中对与输入步态图像视频帧角度相同的判别器和方向不同的判别器分别配置权重,加权求和后得到最终标签值。
优选地,所述步骤S3中输入数据为三张连续的步态图片,输出为判别器输出的判断结果;编码与解码网络结构相对应,各自包含7个卷积层;判别器为5层卷积神经网络。
步骤S4,利用步骤S2步态前景分割模型分割后的图像对步骤S3构建的深度学习网络进行训练,训练策略采用对抗学习;通过对抗学习,使判别器不能区分输入的图像是真实图像还是生成预测图像,从而让网络提取具有时序信息的步态特征;具体实施过程说明如下:
S4-1,将三张连续的时序步态图像I t1 I t2 I t3 输入网络,网络生成预测的m个不同 角度的第四张步态图像
Figure DEST_PATH_IMAGE044
;得到第i个角度的步态运动估计生成网络的L1距离损失函数为:
Figure DEST_PATH_IMAGE046
S4-2,单个判别分支将真实的下一张图像
Figure DEST_PATH_IMAGE048
或者生成网络预测的生成图像
Figure DEST_PATH_IMAGE050
作为输入,输出真或假的标签值;增加了L1距离损失函数的单一判别器损失函数定 义如下:
Figure DEST_PATH_IMAGE052
其中,D表示判别器的输出值,λ是对L1损失的系数,用于设置L1损失的权重,T表示输入判别器的图片,t用于表示输入判别器的图片I是生成器生成值或者真实值;
S4-3,对m个不同角度的损失函数进行加权求和;若第d个角度为输入步态图像的角度,则网络总损失函数定义如下:
Figure DEST_PATH_IMAGE053
其中,对与输入步态图像视频帧角度相同的判别器和方向不同的判别器分别配置权重,本实施例中权重α取0.5,权重β取值为0.2。
进一步地,以生成对抗网络总损失G 为目标,使用反向传播算法对步骤S3中网络结构进行训练。
进一步地,通过对抗学习,步态运动估计生成网络输出的预测图片能很好地预测步态运动,网络经过训练后能很好地从三张输入步态图片提取步态时序信息和多角度步态信息。
步骤S5,构建用于步态身份识别的神经网络模型,该模型包括步态特征提取网络和LSTM网络;其中步态特征提取网络为步骤S4中训练得到的生成器中的编码网络,利用该编码网络进行连续步态图像的步态特征提取;LSTM网络输入数据为上述所提取的步态特征;具体实施过程说明如下:
S5-1,将
Figure 57879DEST_PATH_IMAGE025
张连续的二值步态图像进行划分,每连续的n(n>=2) 张步态图像分为一 组,则可得到
Figure DEST_PATH_IMAGE054
组连续的步态序列图像,每组包含n张图像;
S5-2,将上一步得到的h组连续的步态图像,输入步骤S4中训练完成的步态运动估计深度学习模型,经过步态运动估计生成网络编码网络,生成h个包含时序信息的步态特征;本实施例中每一个步态特征都包含三张步态图像的空间、时序信息及对第四张步态运动图像的预测;
S5-3,将上一步得到的h个步态特征输出到LSTM网络中,输出大小为512×1的向量;
S5-4,将上一步得到的向量输入两层全连接层得到最终输出向量:
Figure DEST_PATH_IMAGE055
其中r表示数据集中总人数;
S5-5,将上一步得到的最终输出向量
Figure 808797DEST_PATH_IMAGE028
输入Softmax函数进行身份预测。
进一步地,所述步骤S5中,LSTM网络输入大小为512×(h)的向量,输出大小为
512×1向量。
进一步地,所述步骤S5中,全连接层输出向量
Figure DEST_PATH_IMAGE056
中每一个
Figure DEST_PATH_IMAGE058
代表数据集中确定的 一人。
步骤S6,对步骤S5构建的深度学习网络进行训练,通过输入训练图像与真实标签值,不断缩小模型分类结果与真实值之间距离,提高了步态身份识别的准确率。具体实施过程说明如下:
S6-1,构建识别结果真实标签;构建长度为r的二值向量
Figure DEST_PATH_IMAGE059
Figure DEST_PATH_IMAGE060
S6-2,将n张连续的二值步态图像输入步骤S5中构建的步态身份识别神经网络模 型,得到长度为r的输出向量
Figure 57507DEST_PATH_IMAGE031
S6-3,将上两步得到的真实值向量y与网络生成结果
Figure 642203DEST_PATH_IMAGE031
计算交叉熵损失函数,损失 函数如下:
Figure DEST_PATH_IMAGE061
进一步地,以交叉熵损失
Figure DEST_PATH_IMAGE063
为目标,使用梯度下降算法减小交叉熵损失,使 用反向传播算法LSTM网络结构进行训练。
步骤S7,利用步骤S6训练好的模型进行步态运动估计身份识别。首先输入连续的步态图像,利用步骤S2训练好的步态图像分割网络对输入图像进行分割;随后将图像输入步骤S6训练好的模型进行步态运动估计身份识别,该模型输出身份识别结果。
本方法构建并训练步态图像分割神经网络,提高步态图像分割效果;利用对抗学习和编码-解码网络结构提取步态间多角度时序特征,提高了步态身份识别准确率。
基于同一发明构思,本发明还设计了一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的基于步态运动估计的跨视角视频步态识别方法。
基于同一发明构思,本发明还设计了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如上所述的基于步态运动估计的跨视角视频步态识别方法。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (8)

1.一种基于步态运动估计的跨视角视频步态识别方法,其特征在于,包括以下步骤:
步骤S1,构建步态图像分割深度学习网络,用于提取图像中的人物前景目标;
步骤S2,同步采集多方向的步态视频图像数据集,利用步态视频图像数据集对步骤S1构建的深度学习网络进行训练,得到步态前景分割模型;
步骤S3,构建基于GAN网络的步态运动估计网络,该网络包含一个步态运动估计编码-解码网络生成器和多个判别器;所述生成器输入为一个视角的n张连续步态序列图像,输出为m个不同视角的第n+1张步态预测图像;所述判别器的个数为m,各判别器输入数据为上述生成器输出的单角度步态预测图像和该角度对应的真实步态图像,输出为真或假的标签,其中,n大于等于2,m大于等于4;
步骤S4,利用步骤S2步态前景分割模型分割后的步态图像对步骤S3构建的深度学习网络进行训练;
步骤S5,构建用于步态身份识别的深度学习网络,该网络包括步态特征提取网络和LSTM网络;其中步态特征提取网络为步骤S4中训练所得生成器中的编码网络,利用该编码网络进行连续步态图像的步态特征提取;LSTM网络的输入数据为编码器提取的步态特征,输出为类别标签;
步骤S6,利用步骤S2处理后的视频步态数据集对步骤S5构建的深度学习网络进行训练;
步骤S7,利用步骤S6训练好的模型进行步态身份识别。
2.根据权利要求1所述的基于步态运动估计的跨视角视频步态识别方法,其特征在于:所述步骤S1构建的步态图像分割深度学习网络为W-Net网络,包括编码-解码网络和特征融合模块;
其中,编码网络的输入数据为连续步态图像视频帧,并利用卷积层和池化层提取特征;解码网络的输入数据为编码网络的输出,利用反卷积重现图像分类后特征并还原尺寸;特征融合模块将不同层生成的特征图像进行融合;特征融合层将编码网络与解码网络进行连接,同时各个特征融合层纵向连接,以最后一层特征融合层的输出作为提取的步态特征。
3.根据权利要求2所述的基于步态运动估计的跨视角视频步态识别方法,其特征在于:所述步骤S1采用特征融合模块,将编码网络的每个池化层前的卷积层输出与相应解码网络部分最后的卷积层输出相融合;所述步骤S1中编码-解码网络采用池化索引保存特征细节。
4.根据权利要求2所述的基于步态运动估计的跨视角视频步态识别方法,其特征在于:步骤S2的具体过程为:
S2-1,采用N个样本进行训练,每个样本包含一张原始步态图像和其对应的真实前景掩 模图,其中
Figure 289543DEST_PATH_IMAGE002
代表第c张图像,
Figure 234365DEST_PATH_IMAGE004
代表该图像的真实前景掩模,T表示图像中像素的总数,故由步骤S1-3得到的融合图像特征 可表述为:
Figure 399898DEST_PATH_IMAGE006
其中,
Figure 139184DEST_PATH_IMAGE008
为第i个像素值;
步骤S2-2,对上一步计算得出的融合图像特征和真实图像标签进行交叉熵损失计算;网络在训练时各编码、解码、融合层训练的参数,采用随机法进行初始化;设W为网络中参数权重值,F i 是融合特征图在像素i的输出值,P(.)表示计算联合概率,则对像素点i计算交叉熵损失为:
Figure 390168DEST_PATH_IMAGE010
则对整张步态分割图像的所有像素点计算交叉熵损失,得到总损失L为:
Figure 229028DEST_PATH_IMAGE012
5.根据权利要求2所述的基于步态运动估计的跨视角视频步态识别方法,其特征在于:步骤S3的具体过程为:
S3-1,将连续的步态特征图像输入步态运动估计生成网络,经过生成网络的编码网络,输出1个融合的步态特征F gait
S3-2,将上一步提取的步态特征输入生成网络的解码网络,使得该特征经过多次上采样和反卷积操作,并与编码阶段对应的特征进行融合,最终得到m张不同角度的与输入图片大小相同的输出步态图片,作为网络估计第n+1张步态图片的结果;
S3-3,将上一步预测图像或真实第n+1张图片选择其一输入到判别层网络,判别器对输入图片进行卷积特征提取,并最终输出判别器的判断结果,即或真或假的标签;
S3-4,将上一步各个判别器输出进行加权求和,其中对与输入步态图像视频帧角度相同的判别器和方向不同的判别器分别配置权重,加权求和后得到最终标签值。
6.根据权利要5所述的基于步态运动估计的跨视角视频步态识别方法,其特征在于:所述步骤S4的过程如下:
n张连续的时序步态图像I t1 I t2 输入网络,网络生成预测的m个不同角度的第n+1张 步态图像
Figure 311385DEST_PATH_IMAGE014
;得到第i个角度的步态运动估计生成网络的L1距离 损失函数为:
Figure 300201DEST_PATH_IMAGE016
S4-2,单个判别分支将真实的下一张图像
Figure 287748DEST_PATH_IMAGE018
或者生成网络预测的生成图像
Figure DEST_PATH_IMAGE020
作为输入,输出真或假的标签值;增加了L1距离损失函数的单一判别器损失 函数定义如下:
Figure DEST_PATH_IMAGE022
其中,D表示判别器的输出值,λ是对L1损失的系数,用于设置L1损失的权重,T表示输入判别器的图片,t用于表示输入判别器的图片I是生成器生成值或者的真实值;
S4-3,对m个不同角度的损失函数进行加权求和;若第d个角度为输入步态图像的角度,则网络总损失函数定义如下:
Figure DEST_PATH_IMAGE024
其中,对与输入步态图像视频帧角度相同的判别器和方向不同的判别器分别置权重αβ
7.根据权利要求6所述的基于步态运动估计的跨视角视频步态识别方法,其特征在于:步骤S5的具体过程为:
S5-1,将
Figure DEST_PATH_IMAGE025
张连续的二值步态图像进行划分,每连续的n (n>=2) 张步态图像分为一组, 则可得到h=K-n+1组连续的步态序列图像,每组包含n张图像;
S5-2,将上一步得到的h组连续的步态图像,输入步骤S4中训练完成的步态运动估计深度学习模型,经过步态运动估计生成网络编码网络,生成h个包含时序信息的步态特征;其中每一个步态特征都包含n张步态图像的空间、时序信息及对第n+1张步态运动图像的预测;
S5-3,将上一步得到的h个步态特征输出到LSTM网络中,输出大小为512×1的向量;
S5-4,将上一步得到的向量输入两层全连接层得到最终输出向量:
Figure DEST_PATH_IMAGE027
其中r表示数据集中总人数;
S5-5,将上一步得到的最终输出向量
Figure DEST_PATH_IMAGE028
输入Softmax函数进行身份预测。
8.根据权利要求7所述的基于步态运动估计的跨视角视频步态识别方法,其特征在于:步骤S6的具体过程为:
S6-1,构建识别结果真实标签;构建长度为r的二值向量y
Figure DEST_PATH_IMAGE030
S6-2,将n张连续的二值步态图像输入步骤S5中构建的步态身份识别神经网络模型,得 到长度为r的输出向量
Figure DEST_PATH_IMAGE031
S6-3,将上两步得到的真实值向量y与网络生成结果
Figure 623308DEST_PATH_IMAGE031
计算交叉熵损失函数,损失函数 如下:
Figure DEST_PATH_IMAGE033
CN202210081840.XA 2022-01-24 2022-01-24 基于步态运动估计的跨视角视频步态识别方法 Active CN114120076B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210081840.XA CN114120076B (zh) 2022-01-24 2022-01-24 基于步态运动估计的跨视角视频步态识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210081840.XA CN114120076B (zh) 2022-01-24 2022-01-24 基于步态运动估计的跨视角视频步态识别方法

Publications (2)

Publication Number Publication Date
CN114120076A true CN114120076A (zh) 2022-03-01
CN114120076B CN114120076B (zh) 2022-04-29

Family

ID=80361268

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210081840.XA Active CN114120076B (zh) 2022-01-24 2022-01-24 基于步态运动估计的跨视角视频步态识别方法

Country Status (1)

Country Link
CN (1) CN114120076B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115205983A (zh) * 2022-09-14 2022-10-18 武汉大学 一种基于多特征聚合的跨视角步态识别方法、系统及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107085716A (zh) * 2017-05-24 2017-08-22 复旦大学 基于多任务生成对抗网络的跨视角步态识别方法
US20170243058A1 (en) * 2014-10-28 2017-08-24 Watrix Technology Gait recognition method based on deep learning
CN108596026A (zh) * 2018-03-16 2018-09-28 中国科学院自动化研究所 基于双流生成对抗网络的跨视角步态识别装置及训练方法
CN109726654A (zh) * 2018-12-19 2019-05-07 河海大学 一种基于生成对抗网络的步态识别方法
CN109902646A (zh) * 2019-03-08 2019-06-18 中南大学 一种基于长短时记忆网络的步态识别方法
CN111401303A (zh) * 2020-04-08 2020-07-10 山东大学 一种身份与视角特征分离的跨视角步态识别方法
CN112487903A (zh) * 2020-11-23 2021-03-12 中国信息通信科技集团有限公司 基于对抗网络的步态数据生成方法及设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170243058A1 (en) * 2014-10-28 2017-08-24 Watrix Technology Gait recognition method based on deep learning
CN107085716A (zh) * 2017-05-24 2017-08-22 复旦大学 基于多任务生成对抗网络的跨视角步态识别方法
CN108596026A (zh) * 2018-03-16 2018-09-28 中国科学院自动化研究所 基于双流生成对抗网络的跨视角步态识别装置及训练方法
CN109726654A (zh) * 2018-12-19 2019-05-07 河海大学 一种基于生成对抗网络的步态识别方法
CN109902646A (zh) * 2019-03-08 2019-06-18 中南大学 一种基于长短时记忆网络的步态识别方法
CN111401303A (zh) * 2020-04-08 2020-07-10 山东大学 一种身份与视角特征分离的跨视角步态识别方法
CN112487903A (zh) * 2020-11-23 2021-03-12 中国信息通信科技集团有限公司 基于对抗网络的步态数据生成方法及设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HANQING CHAO.ET AL: ""GaitSet: Cross-view Gait Recognition through Utilizing Gait as a Deep Set"", 《IEEE》 *
QI HONG.ET AL: ""Cross-View Gait Recognition Based on Feature Fusion"", 《IEEE》 *
孙睿成: ""基于深度学习的人体步态视角转化与识别方法研究"", 《中国优秀硕士学位论文全文数据库》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115205983A (zh) * 2022-09-14 2022-10-18 武汉大学 一种基于多特征聚合的跨视角步态识别方法、系统及设备

Also Published As

Publication number Publication date
CN114120076B (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN113936339B (zh) 基于双通道交叉注意力机制的打架识别方法和装置
CN111738231B (zh) 目标对象检测方法、装置、计算机设备和存储介质
CN109948475B (zh) 一种基于骨架特征和深度学习的人体动作识别方法
CN111444881A (zh) 伪造人脸视频检测方法和装置
CN111079646A (zh) 基于深度学习的弱监督视频时序动作定位的方法及系统
CN111639571B (zh) 基于轮廓卷积神经网络的视频动作识别方法
CN113221641A (zh) 基于生成对抗网络和注意力机制的视频行人重识别方法
Chen et al. Action recognition with temporal scale-invariant deep learning framework
WO2023030182A1 (zh) 图像生成方法及装置
CN111523378A (zh) 一种基于深度学习的人体行为预测方法
CN112200096B (zh) 基于压缩视频实现实时异常行为识别的方法、装置及其存储介质
CN112036379A (zh) 基于注意力时间池化图卷积的骨架动作识别方法
CN111914731A (zh) 一种基于自注意力机制的多模态lstm的视频动作预测方法
Arya et al. Object detection using deep learning: A review
Caetano et al. Activity recognition based on a magnitude-orientation stream network
CN112668638A (zh) 一种图像美学质量评估和语义识别联合分类方法及系统
CN113221770A (zh) 基于多特征混合学习的跨域行人重识别方法及系统
CN114120076B (zh) 基于步态运动估计的跨视角视频步态识别方法
CN111209886B (zh) 一种基于深度神经网络的快速行人再识别方法
Begampure et al. Intelligent video analytics for human action detection: a deep learning approach with transfer learning
Li et al. Trajectory-pooled spatial-temporal architecture of deep convolutional neural networks for video event detection
Saif et al. Aggressive action estimation: a comprehensive review on neural network based human segmentation and action recognition
Huang et al. Temporally-aggregating multiple-discontinuous-image saliency prediction with transformer-based attention
CN114782995A (zh) 一种基于自注意力机制的人交互行为检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant