CN111414840A - 步态识别方法、装置、设备及计算机可读存储介质 - Google Patents

步态识别方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN111414840A
CN111414840A CN202010185319.1A CN202010185319A CN111414840A CN 111414840 A CN111414840 A CN 111414840A CN 202010185319 A CN202010185319 A CN 202010185319A CN 111414840 A CN111414840 A CN 111414840A
Authority
CN
China
Prior art keywords
human body
recognized
body posture
information
posture information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010185319.1A
Other languages
English (en)
Inventor
李玺
吴昊潜
田�健
曾浩
吴飞
董霖
叶新江
方毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Meiri Interdynamic Network Technology Co ltd
Zhejiang University ZJU
Original Assignee
Zhejiang Meiri Interdynamic Network Technology Co ltd
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Meiri Interdynamic Network Technology Co ltd, Zhejiang University ZJU filed Critical Zhejiang Meiri Interdynamic Network Technology Co ltd
Priority to CN202010185319.1A priority Critical patent/CN111414840A/zh
Publication of CN111414840A publication Critical patent/CN111414840A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • G06V40/25Recognition of walking or running movements, e.g. gait recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种步态识别方法、装置、设备和存储介质。该方法包括:对待处理的视频数据中各视频帧进行人体姿态估计处理,得到视频数据中各待识别对象的人体姿态信息,人体姿态信息至少包含表征待识别对象的步态的人体关键关节点的信息;将待识别对象的人体姿态信息输入至特征识别网络,得到视频数据中各待识别对象的特征向量;对于每个待识别对象,在特征库中搜索与待识别对象的特征向量匹配的目标特征向量,并将目标特征向量对应的身份信息确定为待识别对象的识别结果。采用本方法能够显著降低衣着变化对步态识别造成的影响,完成跨衣着识别,能更准确表征待识别对象的步态特征,从而提高了识别结果的准确率。

Description

步态识别方法、装置、设备及计算机可读存储介质
技术领域
本申请涉及计算机视觉技术领域,特别是涉及一种步态识别方法、装置、设备及计算机可读存储介质。
背景技术
步态是指人们行走时的方式,这是一种复杂的行为特征。步态识别是近年来越来越多的研究者所关注的一种较新的生物特征识别技术,它是通过人的走路方式来识别人的身份的方法。与其他的生物识别技术相比,步态识别具有非接触远距离和不容易伪装的优点。
目前主流识别方式以人体轮廓图作为特征输入。一种方式是,首先生成步态能量图(Gait Engery Image,GEI)作为特征,将时序信息转化为能量特征,然后输入3DCNN(Convolutional Neural Networks,卷积神经网络)进行训练。另一种方式是,首先在人体轮廓图上利用卷积神经网络提取隐层信息,然后在隐层的特征层做时序上的融合,最后使用分类识别网络进行训练。
上述识别方式会受到衣着的影响,例如衣着的厚薄、长短、款式等会明显影响人的轮廓。这种轮廓的差异会远大于身份间的差异,从而使得识别算法在跨衣着情况下的识别能力较低。而实际应用场景中,由于对象检索的时间跨度长,对象的衣着往往是变化的。特别是在某些安防场景中,我们需要防止识别对象通过更换衣着躲避识别。因此,跨衣着情况在实际应用场景中是有强烈需要的,而目前主流方式不能满足这样的需求。
发明内容
为解决对象衣着对步态识别结果的影响的问题,提出一种能够显著降低衣着变化对步态识别造成的影响,完成跨衣着识别的步态识别方法、装置、设备和存储介质。
第一方面,本申请实施例提供一种步态识别方法,该方法包括:
对待处理的视频数据中各视频帧进行人体姿态估计处理,得到所述视频数据中各待识别对象的人体姿态信息,所述人体姿态信息至少包含表征所述待识别对象的步态的人体关键关节点的信息;
将所述待识别对象的人体姿态信息输入至特征识别网络,得到所述视频数据中各待识别对象的特征向量;
对于每个待识别对象,在特征库中搜索与所述待识别对象的特征向量匹配的目标特征向量,并将所述目标特征向量对应的身份信息确定为所述待识别对象的识别结果。
在一种可能的实施方式中,将所述待识别对象的人体姿态信息输入至特征识别网络之前,还包括:对于所述视频数据中的每一视频帧,根据所述视频帧中的待识别对象的指定人体关键关节点的坐标信息,对所述待识别对象的人体关键关节点的坐标信息进行对齐处理;
将所述待识别对象的人体姿态信息输入至特征识别网络,包括:将对齐处理后的所述待识别对象的人体姿态信息输入至特征识别网络。
在一种可能的实施方式中,根据所述待识别对象的人体姿态信息,将所述视频数据中各视频帧中的人体关键关节点的坐标信息进行对齐处理,包括:
对于每一视频帧,根据所述待识别对象的人体姿态信息,计算所述人体关键关节点中的指定人体关键关节点的坐标信息之间的中心点坐标;
将各人体关键关节点的坐标信息减去所述中心点坐标,得到各人体关键关节点的第一矫正坐标;
将各人体关键关节点的第一矫正坐标分别除以所述指定人体关键关节点之间的长度,得到各人体关键关节点的第二矫正坐标并作为对齐处理后的人体姿态信息。
在一种可能的实施方式中,将所述待识别对象的人体姿态信息输入至特征识别网络,得到所述视频数据中各待识别对象的特征向量,包括:
将所述待识别对象的人体姿态信息在所述特征识别网络的坐标通道上进行卷积处理,得到N维人体姿态信息向量;
对于所述N维人体姿态信息向量分别进行如下处理:先将所述N维人体姿态信息向量输入至所述特征识别网络的第一卷积层以提取所述待识别对象的每个关键关节点的时序信息,再将所述第一卷积层的输出结果输入至所述特征识别网络的第二卷积层以提取所述待识别对象的每个关键关节点的空间信息;以及先将所述N维人体姿态信息向量输入至所述特征识别网络的第三卷积层以提取所述待识别对象的每个关键关节点的空间信息,再将所述第三卷积层的输出结果输入至所述特征识别网络的第四卷积层以提取所述待识别对象的每个关键关节点的时序信息;
将所述第二卷积层的输出结果和所述第四卷积层的输出结果进行融合处理,得到所述视频数据中各待识别对象的N通道特征向量。
在一种可能的实施方式中,将所述第二卷积层的输出结果和所述第四卷积层的输出结果进行融合处理,得到所述视频数据中各待识别对象的N通道特征向量,包括:
将所述第二卷积层的输出结果和所述第四卷积层的输出结果进行特征拼接处理,得到所述视频数据中各待识别对象的N通道特征向量。
在一种可能的实施方式中,所述N为32。
基于上述任一实施例,所述人体关键关节点包括:鼻子、左眼、右眼、左耳、右耳、左肩、右肩、左肘、右肘、左腕、右腕、左髋、右髋、左膝、右膝、左踝和右踝中的至少一个。
第二方面,本申请实施例提供一种步态识别装置,该装置包括:
人体姿态估计模块,用于对待处理的视频数据中各视频帧进行人体姿态估计处理,得到所述视频数据中各待识别对象的人体姿态信息,所述人体姿态信息至少包含表征所述待识别对象的步态的人体关键关节点的信息;
特征识别模块,用于将所述待识别对象的人体姿态信息输入至特征识别网络,得到所述视频数据中各待识别对象的特征向量;
身份识别模块,用于对于每个待识别对象,在特征库中搜索与所述待识别对象的特征向量匹配的目标特征向量,并将所述目标特征向量对应的身份信息确定为所述待识别对象的识别结果。
在一种可能的实施方式中,所述特征识别模块将所述待识别对象的人体姿态信息输入至特征识别网络之前,还用于:对于所述视频数据中的每一视频帧,根据所述视频帧中的待识别对象的指定人体关键关节点的坐标信息,对所述待识别对象的人体关键关节点的坐标信息进行对齐处理;
所述特征识别模块将所述待识别对象的人体姿态信息输入至特征识别网络时,具体用于:将对齐处理后的所述待识别对象的人体姿态信息输入至特征识别网络。
在一种可能的实施方式中,所述特征识别模块根据所述待识别对象的人体姿态信息,将所述视频数据中各视频帧中的人体关键关节点的坐标信息进行对齐处理时,具体用于:
对于每一视频帧,根据所述待识别对象的人体姿态信息,计算所述人体关键关节点中的指定人体关键关节点的坐标信息之间的中心点坐标;
将各人体关键关节点的坐标信息减去所述中心点坐标,得到各人体关键关节点的第一矫正坐标;
将各人体关键关节点的第一矫正坐标分别除以所述指定人体关键关节点之间的长度,得到各人体关键关节点的第二矫正坐标并作为对齐处理后的人体姿态信息。
在一种可能的实施方式中,所述特征识别模块将所述待识别对象的人体姿态信息输入至特征识别网络,得到所述视频数据中各待识别对象的特征向量时,具体用于:
将所述待识别对象的人体姿态信息在所述特征识别网络的坐标通道上进行卷积处理,得到N维人体姿态信息向量;
对于所述N维人体姿态信息向量分别进行如下处理:先将所述N维人体姿态信息向量输入至所述特征识别网络的第一卷积层以提取所述待识别对象的每个关键关节点的时序信息,再将所述第一卷积层的输出结果输入至所述特征识别网络的第二卷积层以提取所述待识别对象的每个关键关节点的空间信息;以及先将所述N维人体姿态信息向量输入至所述特征识别网络的第三卷积层以提取所述待识别对象的每个关键关节点的空间信息,再将所述第三卷积层的输出结果输入至所述特征识别网络的第四卷积层以提取所述待识别对象的每个关键关节点的时序信息;
将所述第二卷积层的输出结果和所述第四卷积层的输出结果进行融合处理,得到所述视频数据中各待识别对象的N通道特征向量。
在一种可能的实施方式中,所述特征识别模块将所述第二卷积层的输出结果和所述第四卷积层的输出结果进行融合处理,得到所述视频数据中各待识别对象的N通道特征向量时,具体用于:
将所述第二卷积层的输出结果和所述第四卷积层的输出结果进行特征拼接处理,得到所述视频数据中各待识别对象的N通道特征向量。
在一种可能的实施方式中,所述N为32。
基于上述任一实施例,所述人体关键关节点包括:鼻子、左眼、右眼、左耳、右耳、左肩、右肩、左肘、右肘、左腕、右腕、左髋、右髋、左膝、右膝、左踝和右踝中的至少一个。
第三方面,本申请实施例提供一种电子设备,该电子设备包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中:
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述第一方面所述的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令用于执行上述第一方面所述的方法。
本发明实施例中,先对待处理的视频数据中各视频帧进行人体姿态估计处理,得到视频数据中各待识别对象的人体姿态信息,再将待识别对象的人体姿态信息作为输入,输入至特征识别网络,得到表征该待识别对象的步态的特征向量,最后通过与特征库中特征向量的比对,确定待识别对象的身份信息,从而完成步态识别。由于将人体姿态估计结果作为特征识别网络的输入,而不是将人体轮廓图作为输入进行特征提取,可以显著降低衣着变化对步态识别造成的影响,完成跨衣着识别,从而基于人体姿态估计结果得到的特征向量能更准确表征待识别对象的步态特征,进而提高了识别结果的准确率。
附图说明
图1为本申请实施例中提供的一种步态识别方法的流程示意图;
图2为本申请实施例中提供的一种步态识别装置的示意图;
图3为本申请实施例中提供的一种电子设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在本申请的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。
本发明实施例提供的技术方案适用于基于步态信息进行身份识别的任何场景,如安防、公安、公共交通等。
实施例一、
参见图1所示,本实施例中的一种步态识别方法,包括:
S101、对待处理的视频数据中各视频帧进行人体姿态估计处理,得到视频数据中各待识别对象的人体姿态信息,所述人体姿态信息至少包含表征所述待识别对象的步态的人体关键关节点的信息。
在具体实施中,可通过摄像头等图像采集装置进行视频数据的采集,将采集到的部分或全部视频数据作为待处理的视频数据。其中,对待处理的视频数据中的待识别对象(如行人)进行步态识别的过程,可以实时进行步态识别处理,也可以是周期性进行步态识别处理,还可以是事件触发时(例如需要监测指定对象的行踪)进行步态识别处理,本发明实施例中不做限定。
本实施例中,可以采用标准的开源人体姿态估计算法模型,如OpenPose、AlphaPose等,对待处理的视频数据中各视频帧进行人体姿态估计处理,从视频数据(即视频序列)中提取人体姿态信息。
其中,所述人体姿态信息至少包含表征所述待识别对象的步态的人体关键关节点的坐标信息。该坐标信息可以是二维坐标信息,也可以是三维坐标信息,本发明实施例中不对坐标信息的具体实现进行限定。
本实施例中,人体关键关节点包括:鼻子、左眼、右眼、左耳、右耳、左肩、右肩、左肘、右肘、左腕、右腕、左髋、右髋、左膝、右膝、左踝和右踝中的至少一个。在一种可能的实现方式中,提取到的人体关键关节点包括上述17个关节点。
在具体实施中,视频数据对应的人体姿态信息是一组frame_num(帧数)*M(关节点数)*P(坐标维度)的向量。例如,frame_num*17*2的向量。具体的,若该视频数据中只有单个行人,则该视频数据对应的人体姿态信息是该行人的人体姿态信息,即一组frame_num(帧数)*M(关节点数)*P(坐标维度)的向量;若该视频数据中有多个行人(即两个或两个以上的行人),则该视频数据对应的人体姿态信息是每个行人的人体姿态信息,即多组frame_num(帧数)*M(关节点数)*P(坐标维度)的向量。
以视频数据中仅包含单个行人为例,对于每个视频帧,该视频帧中仅包含该行人,该视频帧经过人体姿态估计处理之后可以得到该行人的头、左手、右手等共17个关节点坐标,每个坐标为x,y,z的3维坐标(M=17,P=3),则一个视频帧的人体姿态信息可以以一个M*P大小的向量数组表示,若该视频数据包含20个视频帧,则frame_num=20帧,整段视频数据的人体姿态信息可表示为frame_num*M*P大小的向量数组。其中,视频数据中包含多个行人的情况与此类似,此处不再一一举例说明。
S102、将所述待识别对象的人体姿态信息输入至特征识别网络,得到所述视频数据中各待识别对象的特征向量。
在具体实施中,对于每个待识别对象,将该待识别对象的人体姿态信息作为输入,输入至特征识别网络,以得到表征该待识别对象的步态的特征向量。
其中,特征识别网络可以是基于训练数据预先训练得到的神经网络模型,如卷积神经网络(Convolutional Neural Network,简称CNN)、深度神经网络(Deep NeuralNetworks,简称DNN)等。
在一种可能的实现方式中,S102得到的各待识别对象的特征向量可以是512维特征向量。当然,本发明实施例中不限定各待识别对象的特征向量的维数,也可以是128维,64维等。
S103、对于每个待识别对象,在特征库中搜索与所述待识别对象的特征向量匹配的目标特征向量,并将所述目标特征向量对应的身份信息确定为所述待识别对象的识别结果。
在具体实施中,预先配置了特征库,该特征库中包含了特征向量与身份信息(如身份ID)之间的对应关系。对于每个待识别对象,将待识别对象的特征向量与特征库中的特征向量做搜索比对,找到与待识别对象的特征向量相似度满足条件的目标特征向量,并将该目标特征向量对应的身份ID确定为该待识别对象的识别结果,即该待识别对象的身份ID。
其中,相似度满足条件可以是相似度最高,也可以是相似度大于或等于设定阈值。
在实施时,计算两个特征向量的相似度,可以采用欧氏距离算法、余弦距离算法等。本发明实施例中不对其进行限定。
本发明实施例中,先对待处理的视频数据中各视频帧进行人体姿态估计处理,得到视频数据中各待识别对象的人体姿态信息,再将待识别对象的人体姿态信息作为输入,输入至特征识别网络,得到表征该待识别对象的步态的特征向量,最后通过与特征库中特征向量的比对,确定待识别对象的身份信息,从而完成步态识别。由于将人体姿态估计结果作为特征识别网络的输入,而不是将人体轮廓图作为输入进行特征提取,可以显著降低衣着变化对步态识别造成的影响,完成跨衣着识别,从而基于人体姿态估计结果得到的特征向量能更准确表征待识别对象的步态特征,进而提高了识别结果的准确率。
实施例二、
在实施例一的基础上,本实施例在S101之后,且在S102之前,即将待识别对象的人体姿态信息输入至特征识别网络之前,还包括对每一视频帧中的人体关键关节点进行缩放和对齐操作,使整个视频数据中所有视频帧的人体关键关节点尺度一致、坐标对齐。具体如下:
对于所述视频数据中的每一视频帧,根据所述视频帧中的待识别对象的指定人体关键关节点的坐标信息,对所述待识别对象的人体关键关节点的坐标信息进行对齐处理。
相应的,S102中将所述待识别对象的人体姿态信息输入至特征识别网络,包括:将对齐处理后的所述待识别对象的人体姿态信息输入至特征识别网络。
在具体实施中,根据所述待识别对象的人体姿态信息,将所述视频数据中各视频帧中的人体关键关节点的坐标信息进行对齐处理,包括:
对于每一视频帧,根据所述待识别对象的人体姿态信息,计算所述人体关键关节点中的指定人体关键关节点的坐标信息之间的中心点坐标;
将各人体关键关节点的坐标信息减去所述中心点坐标,得到各人体关键关节点的第一矫正坐标;以及
将各人体关键关节点的第一矫正坐标分别除以所述指定人体关键关节点之间的长度,得到各人体关键关节点的第二矫正坐标并作为对齐处理后的人体姿态信息。
举例说明,假设指定人体关键关节点为左肩和右肩,则先根据左肩的坐标信息和右肩的坐标信息,求出左肩和右肩这两个人体关键关节点之间的中心点坐标,然后将上述17个人体关键关节点的坐标分别减去中心点坐标,这样所有视频帧对齐到原点。接着将上述17个人体关键关节点的坐标除以左肩到右肩的长度,这样所有视频帧缩放到同一尺度。其中,左肩和右肩的长度可以是这两个人体关键关节点的直线距离、欧氏距离等。
本实施例中在将人体姿态信息将待识别对象的人体姿态信息输入至特征识别网络之前,对每一视频帧中的人体关键关节点进行缩放和对齐操作,从而排除了由于人体运动在视频帧内处于不同位置的情况下,对人体姿态信息的影响,也排除由于人体处于不同距离而大小不同的情况下,对人体姿态信息的影响。
实施例三、
基于上述任一实施例,S102中的特征识别网络为卷积神经网络,即通过对人体姿态信息进行卷积处理,得到待识别对象的特征向量。具体如下:
S102中将待识别对象的人体姿态信息输入至特征识别网络,得到视频数据中各待识别对象的特征向量,包括:
将所述待识别对象的人体姿态信息在所述特征识别网络的坐标通道上进行卷积处理,得到N维人体姿态信息向量;
对于所述N维人体姿态信息向量分别进行如下处理:先将所述N维人体姿态信息向量输入至所述特征识别网络的第一卷积层以提取所述待识别对象的每个关键关节点的时序信息,再将所述第一卷积层的输出结果输入至所述特征识别网络的第二卷积层以提取所述待识别对象的每个关键关节点的空间信息;以及先将所述N维人体姿态信息向量输入至所述特征识别网络的第三卷积层以提取所述待识别对象的每个关键关节点的空间信息,再将所述第三卷积层的输出结果输入至所述特征识别网络的第四卷积层以提取所述待识别对象的每个关键关节点的时序信息;
将所述第二卷积层的输出结果和所述第四卷积层的输出结果进行融合处理,得到所述视频数据中各待识别对象的N通道特征向量。
在具体实施中,输入至特征识别网络的是一个序列,即一组frame_num(帧数)*M(关节点数)*P(坐标维度)的向量,例如frame_num*17*2的向量。先将上述向量在坐标通道上做卷积处理生成N维人体姿态信息向量,然后对N维人体姿态信息向量分别进行两种不同的处理,作为两条支路。一条支路先以卷积神经网络提取每个人体关键关节点的时序信息,然后再以卷积层提取人体关键关节点的空间信息。另一条支路先用卷积层提取人体关键关节点的空间信息,然后再利用卷积神经网络提取人体关键关节点的特征的时序信息。最后对两条支路的特征进行融合,得到N通道特征向量(即N组特征向量)。其中,若视频数据中包含多个行人,则对于每个行人生成一个N通道的特征向量。
其中,时序信息表示各人体关键关节点在时间维度上的变化,例如,左手关节点在时间维度上的变化。具体实施时可以但不限于使用时间维度卷积处理。
空间信息表示各人体关键关节点表征的人体各部位的长度比例,具体实施时可以但不限于使用空间维度卷积处理。
在一种可能的实施方式中,将第二卷积层的输出结果和第四卷积层的输出结果进行融合处理,得到视频数据中各待识别对象的N通道特征向量,包括:
将所述第二卷积层的输出结果和所述第四卷积层的输出结果进行特征拼接处理,得到所述视频数据中各待识别对象的N通道特征向量。
在具体实施中,特征向量的融合处理可以采用拼接的方式,即将第四卷积层输出的特征向量拼接在第二卷积层输出的特征向量之后,得到视频数据中各待识别对象的N通道特征向量,也可以将第二卷积层输出的特征向量拼接在第四卷积层输出的特征向量之后,得到视频数据中各待识别对象的N通道特征向量。
其中,在将第二卷积层的输出结果和第四卷积层的输出结果进行融合处理时,除了上述拼接方式,还可以将第二卷积层的输出结果和第四卷积层的输出结果采用向量相加的方式得到各待识别对象的N通道特征向量;还可以先拼接然后使用全连接层计算处理,得到各待识别对象的N通道特征向量,等等,本发明实施例中不对融合处理的具体实现方式进行限定。
在一种可能的实施方式中,根据实验和仿真经验,该N可以为32。
本实施例中,使用卷积神经网络而不是长短期记忆网络来处理向量的时序信息,可以对时序信息的相位、幅度、形变鲁棒,提取视频数据的规律信息,从而能够进一步降低衣着变化对步态识别造成的影响,完成跨衣着识别。
实施例四、
基于同一发明构思,本实施例提供了一种步态识别装置,参见图2所示,该装置包括:
人体姿态估计模块21,用于对待处理的视频数据中各视频帧进行人体姿态估计处理,得到所述视频数据中各待识别对象的人体姿态信息,所述人体姿态信息至少包含表征所述待识别对象的步态的人体关键关节点的信息;
特征识别模块22,用于将所述待识别对象的人体姿态信息输入至特征识别网络,得到所述视频数据中各待识别对象的特征向量;
身份识别模块23,用于对于每个待识别对象,在特征库中搜索与所述待识别对象的特征向量匹配的目标特征向量,并将所述目标特征向量对应的身份信息确定为所述待识别对象的识别结果。
在一种可能的实施方式中,所述特征识别模块22将所述待识别对象的人体姿态信息输入至特征识别网络之前,还用于:对于所述视频数据中的每一视频帧,根据所述视频帧中的待识别对象的指定人体关键关节点的坐标信息,对所述待识别对象的人体关键关节点的坐标信息进行对齐处理;
所述特征识别模块22将所述待识别对象的人体姿态信息输入至特征识别网络时,具体用于:将对齐处理后的所述待识别对象的人体姿态信息输入至特征识别网络。
在一种可能的实施方式中,所述特征识别模块22根据所述待识别对象的人体姿态信息,将所述视频数据中各视频帧中的人体关键关节点的坐标信息进行对齐处理时,具体用于:
对于每一视频帧,根据所述待识别对象的人体姿态信息,计算所述人体关键关节点中的指定人体关键关节点的坐标信息之间的中心点坐标;
将各人体关键关节点的坐标信息减去所述中心点坐标,得到各人体关键关节点的第一矫正坐标;
将各人体关键关节点的第一矫正坐标分别除以所述指定人体关键关节点之间的长度,得到各人体关键关节点的第二矫正坐标并作为对齐处理后的人体姿态信息。
在一种可能的实施方式中,所述特征识别模块22将所述待识别对象的人体姿态信息输入至特征识别网络,得到所述视频数据中各待识别对象的特征向量时,具体用于:
将所述待识别对象的人体姿态信息在所述特征识别网络的坐标通道上进行卷积处理,得到N维人体姿态信息向量;
对于所述N维人体姿态信息向量分别进行如下处理:先将所述N维人体姿态信息向量输入至所述特征识别网络的第一卷积层以提取所述待识别对象的每个关键关节点的时序信息,再将所述第一卷积层的输出结果输入至所述特征识别网络的第二卷积层以提取所述待识别对象的每个关键关节点的空间信息;以及先将所述N维人体姿态信息特征向量输入至所述特征识别网络的第三卷积层以提取所述待识别对象的每个关键关节点的空间信息,再将所述第三卷积层的输出结果输入至所述特征识别网络的第四卷积层以提取所述待识别对象的每个关键关节点的时序信息;
将所述第二卷积层的输出结果和所述第四卷积层的输出结果进行融合处理,得到所述视频数据中各待识别对象的N通道特征向量。
在一种可能的实施方式中,所述特征识别模块22将所述第二卷积层的输出结果和所述第四卷积层的输出结果进行融合处理,得到所述视频数据中各待识别对象的N通道特征向量时,具体用于:
将所述第二卷积层的输出结果和所述第四卷积层的输出结果进行特征拼接处理,得到所述视频数据中各待识别对象的N通道特征向量。
在一种可能的实施方式中,所述N为32。
基于上述任一实施例,所述人体关键关节点包括:鼻子、左眼、右眼、左耳、右耳、左肩、右肩、左肘、右肘、左腕、右腕、左髋、右髋、左膝、右膝、左踝和右踝中的至少一个。
上述步态识别装置可以软件或硬件的性应用于计算机设备中。具体的,计算机设备可以是提供步态识别服务的服务器或个人电脑,也可以是诸如数码相机、移动终端(如智能手机等)、平板电脑等终端设备。
若以软件形式应用于计算机设备中,上述步态识别装置可以为独立的软件,也可以作为大型系统(如操作系统等)的子系统(子组件),提供步态识别服务。
若以硬件形式应用于计算机设备中,上述步态识别装置示例性的可以为终端或服务器的控制器(或处理器)。
实施例五、
本申请提供一种电子设备的结构示意图,参见图3所示,电子设备30以通用计算设备的形式表现,电子设备30的组件可以包括但不限于:至少一个处理器306、至少一个存储器302、连接不同系统组件(包括存储器302和处理器306)的总线303。
其中,总线303表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储器302可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)3026和/或高速缓存存储器3022,还可以进一步包括只读存储器(ROM)3023。
存储器302还可以包括具有一组(至少一个)程序模块3024的程序/实用工具3025,这样的程序模块3024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
本实施例中,所述存储器302存储有可被所述至少一个处理器306执行的指令,所述指令被所述至少一个处理器306执行,以使所述至少一个处理器306能够执行:
对待处理的视频数据中各视频帧进行人体姿态估计处理,得到所述视频数据中各待识别对象的人体姿态信息,所述人体姿态信息至少包含表征所述待识别对象的步态的人体关键关节点的信息;
将所述待识别对象的人体姿态信息输入至特征识别网络,得到所述视频数据中各待识别对象的特征向量;以及
对于每个待识别对象,在特征库中搜索与所述待识别对象的特征向量匹配的目标特征向量,并将所述目标特征向量对应的身份信息确定为所述待识别对象的识别结果。
在一种可能的实施方式中,所述至少一个处理器306将所述待识别对象的人体姿态信息输入至特征识别网络之前,还执行:对于所述视频数据中的每一视频帧,根据所述视频帧中的待识别对象的指定人体关键关节点的坐标信息,对所述待识别对象的人体关键关节点的坐标信息进行对齐处理;
所述至少一个处理器306将所述待识别对象的人体姿态信息输入至特征识别网络时,具体执行:将对齐处理后的所述待识别对象的人体姿态信息输入至特征识别网络。
在一种可能的实施方式中,所述至少一个处理器306根据所述待识别对象的人体姿态信息,将所述视频数据中各视频帧中的人体关键关节点的坐标信息进行对齐处理时,具体执行:
对于每一视频帧,根据所述待识别对象的人体姿态信息,计算所述人体关键关节点中的指定人体关键关节点的坐标信息之间的中心点坐标;
将各人体关键关节点的坐标信息减去所述中心点坐标,得到各人体关键关节点的第一矫正坐标;
将各人体关键关节点的第一矫正坐标分别除以所述指定人体关键关节点之间的长度,得到各人体关键关节点的第二矫正坐标并作为对齐处理后的人体姿态信息。
在一种可能的实施方式中,所述至少一个处理器306将所述待识别对象的人体姿态信息输入至特征识别网络,得到所述视频数据中各待识别对象的特征向量时,具体执行:
将所述待识别对象的人体姿态信息在所述特征识别网络的坐标通道上进行卷积处理,得到N维人体姿态信息向量;
对于所述N维人体姿态信息向量分别进行如下处理:先将所述N维人体姿态信息向量输入至所述特征识别网络的第一卷积层以提取所述待识别对象的每个关键关节点的时序信息,再将所述第一卷积层的输出结果输入至所述特征识别网络的第二卷积层以提取所述待识别对象的每个关键关节点的空间信息;以及先将所述N维人体姿态信息向量输入至所述特征识别网络的第三卷积层以提取所述待识别对象的每个关键关节点的空间信息,再将所述第三卷积层的输出结果输入至所述特征识别网络的第四卷积层以提取所述待识别对象的每个关键关节点的时序信息;
将所述第二卷积层的输出结果和所述第四卷积层的输出结果进行融合处理,得到所述视频数据中各待识别对象的N通道特征向量。
在一种可能的实施方式中,所述至少一个处理器306将所述第二卷积层的输出结果和所述第四卷积层的输出结果进行融合处理,得到所述视频数据中各待识别对象的N通道特征向量时,具体执行:
将所述第二卷积层的输出结果和所述第四卷积层的输出结果进行特征拼接处理,得到所述视频数据中各待识别对象的N通道特征向量。
在一种可能的实施方式中,所述N为32。
基于上述任一实施例,所述人体关键关节点包括:鼻子、左眼、右眼、左耳、右耳、左肩、右肩、左肘、右肘、左腕、右腕、左髋、右髋、左膝、右膝、左踝和右踝中的至少一个。
本实施例中,电子设备30也可以与一个或多个外部设备304(例如键盘、指向设备等)通信,还可与一个或者多个使得用户能与电子设备30交互的设备通信,和/或与使得该电子设备30能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口305进行。并且,电子设备30还可以通过网络适配器306与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图3所示,网络适配器306通过总线303与用于电子设备30的其它模块通信。应当理解,尽管图3中未示出,可以结合电子设备30使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
本领域技术人员应当理解,图3仅仅是计算装置的举例,并不构成对计算装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件。
实施例六、
本申请实施例还提供了一种计算机可读存储介质,存储为执行上述处理器所需执行的计算机可执行指令,其包含用于执行上述处理器所需执行的程序。
在一些可能的实施方式中,本申请提供的步态识别方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使所述电子设备执行本说明书上述描述的根据本申请各种示例性实施方式的步态识别方法中的步骤。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的用于步态识别的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在计算设备上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
上述所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

Claims (10)

1.一种步态识别方法,其特征在于,所述方法包括:
对待处理的视频数据中各视频帧进行人体姿态估计处理,得到所述视频数据中各待识别对象的人体姿态信息,所述人体姿态信息至少包含表征所述待识别对象的步态的人体关键关节点的信息;
将所述待识别对象的人体姿态信息输入至特征识别网络,得到所述视频数据中各待识别对象的特征向量;
对于每个待识别对象,在特征库中搜索与所述待识别对象的特征向量匹配的目标特征向量,并将所述目标特征向量对应的身份信息确定为所述待识别对象的识别结果。
2.根据权利要求1所述的方法,其特征在于,将所述待识别对象的人体姿态信息输入至特征识别网络之前,还包括:对于所述视频数据中的每一视频帧,根据所述视频帧中的待识别对象的指定人体关键关节点的坐标信息,对所述待识别对象的人体关键关节点的坐标信息进行对齐处理;
将所述待识别对象的人体姿态信息输入至特征识别网络,包括:将对齐处理后的所述待识别对象的人体姿态信息输入至特征识别网络。
3.根据权利要求2所述的方法,其特征在于,根据所述待识别对象的人体姿态信息,将所述视频数据中各视频帧中的人体关键关节点的坐标信息进行对齐处理,包括:
对于每一视频帧,根据所述待识别对象的人体姿态信息,计算所述人体关键关节点中的指定人体关键关节点的坐标信息之间的中心点坐标;
将各人体关键关节点的坐标信息减去所述中心点坐标,得到各人体关键关节点的第一矫正坐标;
将各人体关键关节点的第一矫正坐标分别除以所述指定人体关键关节点之间的长度,得到各人体关键关节点的第二矫正坐标并作为对齐处理后的人体姿态信息。
4.根据权利要求1-3任一项所述的方法,其特征在于,将所述待识别对象的人体姿态信息输入至特征识别网络,得到所述视频数据中各待识别对象的特征向量,包括:
将所述待识别对象的人体姿态信息在所述特征识别网络的坐标通道上进行卷积处理,得到N维人体姿态信息向量;
对于所述N维人体姿态信息向量分别进行如下处理:先将所述N维人体姿态信息向量输入至所述特征识别网络的第一卷积层以提取所述待识别对象的每个关键关节点的时序信息,再将所述第一卷积层的输出结果输入至所述特征识别网络的第二卷积层以提取所述待识别对象的每个关键关节点的空间信息;以及先将所述N维人体姿态信息向量输入至所述特征识别网络的第三卷积层以提取所述待识别对象的每个关键关节点的空间信息,再将所述第三卷积层的输出结果输入至所述特征识别网络的第四卷积层以提取所述待识别对象的每个关键关节点的时序信息;
将所述第二卷积层的输出结果和所述第四卷积层的输出结果进行融合处理,得到所述视频数据中各待识别对象的N通道特征向量。
5.根据权利要求4所述的方法,其特征在于,将所述第二卷积层的输出结果和所述第四卷积层的输出结果进行融合处理,得到所述视频数据中各待识别对象的N通道特征向量,包括:
将所述第二卷积层的输出结果和所述第四卷积层的输出结果进行特征拼接处理,得到所述视频数据中各待识别对象的N通道特征向量。
6.根据权利要求4所述的方法,其特征在于,所述N通道为32通道。
7.根据权利要求1-3任一项所述的方法,其特征在于,所述人体关键关节点包括:鼻子、左眼、右眼、左耳、右耳、左肩、右肩、左肘、右肘、左腕、右腕、左髋、右髋、左膝、右膝、左踝和右踝中的至少一个。
8.一种步态识别装置,其特征在于,所述装置包括:
人体姿态估计模块,用于对待处理的视频数据中各视频帧进行人体姿态估计处理,得到所述视频数据中各待识别对象的人体姿态信息,所述人体姿态信息至少包含表征所述待识别对象的步态的人体关键关节点的信息;
特征识别模块,用于将所述待识别对象的人体姿态信息输入至特征识别网络,得到所述视频数据中各待识别对象的特征向量;
身份识别模块,用于对于每个待识别对象,在特征库中搜索与所述待识别对象的特征向量匹配的目标特征向量,并将所述目标特征向量对应的身份信息确定为所述待识别对象的识别结果。
9.一种电子设备,其特征在于,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中:
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7任一项权利要求所述的方法。
10.一种计算机可读存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令用于执行如权利要求1至7任一项权利要求所述的方法。
CN202010185319.1A 2020-03-17 2020-03-17 步态识别方法、装置、设备及计算机可读存储介质 Pending CN111414840A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010185319.1A CN111414840A (zh) 2020-03-17 2020-03-17 步态识别方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010185319.1A CN111414840A (zh) 2020-03-17 2020-03-17 步态识别方法、装置、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN111414840A true CN111414840A (zh) 2020-07-14

Family

ID=71492964

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010185319.1A Pending CN111414840A (zh) 2020-03-17 2020-03-17 步态识别方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111414840A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967326A (zh) * 2020-07-16 2020-11-20 北京交通大学 一种基于轻量化多尺度特征提取的步态识别方法
CN112232224A (zh) * 2020-10-19 2021-01-15 西安建筑科技大学 一种lstm与cnn相结合的跨视角步态识别方法
CN114470719A (zh) * 2022-03-22 2022-05-13 北京蓝田医疗设备有限公司 一种全自动姿态矫正训练方法及系统
CN114937246A (zh) * 2022-07-06 2022-08-23 中航信移动科技有限公司 一种行人识别方法、电子设备及存储介质
WO2023138154A1 (zh) * 2022-01-24 2023-07-27 上海商汤智能科技有限公司 对象识别方法、网络训练方法、装置、设备、介质及程序
WO2023207197A1 (zh) * 2022-04-28 2023-11-02 深圳云天励飞技术股份有限公司 目标重识别方法、装置、设备和计算机可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110084156A (zh) * 2019-04-12 2019-08-02 中南大学 一种步态特征提取方法及基于步态特征的行人身份识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110084156A (zh) * 2019-04-12 2019-08-02 中南大学 一种步态特征提取方法及基于步态特征的行人身份识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LIAO R J: ""Pose-Based Temporal-Spatial Network(PTSN) for Gait Recognition with Carrying and Clothing Variations"" *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967326A (zh) * 2020-07-16 2020-11-20 北京交通大学 一种基于轻量化多尺度特征提取的步态识别方法
CN112232224A (zh) * 2020-10-19 2021-01-15 西安建筑科技大学 一种lstm与cnn相结合的跨视角步态识别方法
WO2023138154A1 (zh) * 2022-01-24 2023-07-27 上海商汤智能科技有限公司 对象识别方法、网络训练方法、装置、设备、介质及程序
CN114470719A (zh) * 2022-03-22 2022-05-13 北京蓝田医疗设备有限公司 一种全自动姿态矫正训练方法及系统
CN114470719B (zh) * 2022-03-22 2022-12-20 北京蓝田医疗设备有限公司 一种全自动姿态矫正训练方法及系统
WO2023207197A1 (zh) * 2022-04-28 2023-11-02 深圳云天励飞技术股份有限公司 目标重识别方法、装置、设备和计算机可读存储介质
CN114937246A (zh) * 2022-07-06 2022-08-23 中航信移动科技有限公司 一种行人识别方法、电子设备及存储介质
CN114937246B (zh) * 2022-07-06 2023-02-07 中航信移动科技有限公司 一种行人识别方法、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN111414840A (zh) 步态识别方法、装置、设备及计算机可读存储介质
CN110135375B (zh) 基于全局信息整合的多人姿态估计方法
Bao et al. Pose-guided tracking-by-detection: Robust multi-person pose tracking
Ahmed et al. DTW-based kernel and rank-level fusion for 3D gait recognition using Kinect
Chen et al. Human action recognition using star skeleton
Yuan et al. Ear recognition based on local information fusion
CN114220176A (zh) 一种基于深度学习的人体行为的识别方法
Kumarapu et al. Animepose: Multi-person 3d pose estimation and animation
CN109934183B (zh) 图像处理方法及装置、检测设备及存储介质
Liang et al. Resolving ambiguous hand pose predictions by exploiting part correlations
Lin et al. Depth and skeleton associated action recognition without online accessible rgb-d cameras
Lee et al. 3-D human behavior understanding using generalized TS-LSTM networks
KR20220076398A (ko) Ar장치를 위한 객체 인식 처리 장치 및 방법
Kovač et al. Frame–based classification for cross-speed gait recognition
CN111444488A (zh) 一种基于动态手势的身份认证方法
Ly et al. Emotion recognition via body gesture: Deep learning model coupled with keyframe selection
CN111950321A (zh) 步态识别方法、装置、计算机设备及存储介质
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
CN111291612A (zh) 一种基于多人多摄像头跟踪的行人重识别方法及装置
CN110807391A (zh) 基于视觉的人-无人机交互用人体姿态指令识别方法
Keceli et al. Recognition of basic human actions using depth information
CN111738096A (zh) 一种基于骨架姿态的人物跟踪算法
Jessika et al. A study on part affinity fields implementation for human pose estimation with deep neural network
CN116994332A (zh) 基于轮廓图引导的跨模态行人重识别方法及系统
CN110781724A (zh) 一种人脸识别神经网络、方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200714