CN108305283B - 基于深度相机和基本姿势的人体行为识别方法及装置 - Google Patents

基于深度相机和基本姿势的人体行为识别方法及装置 Download PDF

Info

Publication number
CN108305283B
CN108305283B CN201810059713.3A CN201810059713A CN108305283B CN 108305283 B CN108305283 B CN 108305283B CN 201810059713 A CN201810059713 A CN 201810059713A CN 108305283 B CN108305283 B CN 108305283B
Authority
CN
China
Prior art keywords
human body
time
depth camera
basic
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810059713.3A
Other languages
English (en)
Other versions
CN108305283A (zh
Inventor
陈�峰
孙鹏飞
王贵锦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201810059713.3A priority Critical patent/CN108305283B/zh
Publication of CN108305283A publication Critical patent/CN108305283A/zh
Application granted granted Critical
Publication of CN108305283B publication Critical patent/CN108305283B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度相机和基本姿势的人体行为识别方法及装置,其中,方法包括:通过深度相机检测人体行为的图像,并提取关键点信息;根据输入的图像进行人体三维结构的重建;重建人体三维数据进行关键姿势的识别和相应的特征提取,以得到姿势特征描述集的时间序列;将其与预先训练的特征描述集进行匹配,得到基本姿势的初始时间描述序列;去除初始时间描述序列的重复信息,得到最终时间描述序列;将最终时间描述序列输入到预先训练好的长短时记忆网络以进行人体的行为识别,以得到识别结果。该方法可以减少识别目标动作快慢不同及动作不标准带来的干扰,能够保持识别视角不变,更加容易构建数据库,提高人体行为识别的鲁棒性和准确性。

Description

基于深度相机和基本姿势的人体行为识别方法及装置
技术领域
本发明涉及人机交互技术领域,特别涉及一种基于深度相机和基本姿势的人体行为识别方法及装置。
背景技术
随着计算机视觉技术的发展,以及卷积神经网络的出现,计算机对于多类物体静态识别的准确率和速度不断改善,计算机对于自然世界的有了一定的理解能力。同时对于序列任务,包括语音识别技术和语言翻译等一些具有明显时间尺度的识别问题,长短时记忆网络取得了良好的效果,原因就是它能够将历史的信息存入到细胞单元中,随着时间尺度的增长,该网络结构依然保存着相对完整的历史记忆,从而实现良好的识别效果。
然而对于视频的人体行为识别还没有取得良好的效果,目前主要有两种的主流方法,一类是基于RGB图像的,除了利用图片二维信息,加上时间尺度,利用3D卷积神经网络的方法来识别物体,但是该类方法,具有训练速度慢,易受环境背景影响等缺点,效果不是很理想;另外一种方法,主要思想侧重于降维,采用的工具是深度相机,由于深度相机可以捕捉深度信息,可以更好的描述人体的空间运动信息,因为基于视频的人体行为识别,主要的动作部位还是人体,在该类别中,首先将人进行定位,再将人的关键点部分进行提取,人体的关节运动基本是由身体的关键点决定的,这样利用关键点随着时间序列运动的信息能够很理想的将人体的动作描述成序列信息。
然而,对于视频中的人体行为理解仍然有很大的难点,其中之一就是视角可能会跟随拍摄位置活着人体相对于相机的角度发生变化,比如一种走路可能有不同的角度这些对于训练集是必要的,这会带来一个庞大数据库的问题,而且针对于每一个动作,不同的人体会对于完成的时间有着个体的差异。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于深度相机和基本姿势的人体行为识别方法,该方法可以减少识别目标动作快慢不同及动作不标准带来的干扰,能够保持识别视角不变,提高人体行为识别的鲁棒性。
本发明的另一个目的在于提出一种基于深度相机和基本姿势的人体行为识别装置。
为达到上述目的,本发明一方面实施例提出了一种基于深度相机和基本姿势的人体行为识别方法,包括:通过深度相机检测人体行为的图像,并提取关键点信息;根据输入的所述图像进行人体三维结构的重建,以保证视角不变性;将重建后的人体三维数据进行关键部位的姿势的识别和相应的特征提取,以得到姿势特征描述集的时间序列;根据所述特征描述集的时间序列与预先训练的特征描述集进行匹配,以得到基本姿势的初始时间描述序列;去除所述初始时间描述序列的重复信息,以得到最终时间描述序列;以及将所述最终时间描述序列输入到预先训练好的长短时记忆网络以进行人体的行为识别,以得到识别结果。
本发明实施例的基于深度相机和基本姿势的人体行为识别方法,在根据人体行为的图像提取得到关键点信息之后,可以进行人体三维结构的重建,从而保证视角不变性,有效减少数据库的构建,并且通过关键部位的姿势的识别和相应的特征提取得到姿势特征描述集的时间序列,以得到最终时间描述序列,进而输入到预先训练好的长短时记忆网络,得到识别结果,有效避免个体完成动作的快慢影响识别结果,提高识别的准确性和可靠性,以及有效去除噪音动作,大大提高了识别结果的鲁棒性。
另外,根据本发明上述实施例的基于深度相机和基本姿势的人体行为识别方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,在通过深度相机检测人体行为的图像之前,还包括:从数据库中采集训练集和测试集;将所述训练集的视频数据进行逐帧分解,并且每一帧对人体进行3D位置矫正,使得视角保持不变,获取一个满足预设条件的人体3D模型;对所述人体3D模型进行分割,以将人体的不同部位分割成多个部分,并进行基本姿势的聚类操作和相应的特征提取,并去除动作的冗余信息;通过长短时记忆网络结构对采集到的行为识别数据进行识别,以得到所述训练好的长短时记忆网络。
进一步地,在本发明的一个实施例中,所述每一帧对人体进行3D位置矫正,进一步包括:以髋关节的三个点形成的平面为中心进行计算,根据身体其他的关节点相对于所述髋关节的距离和角度重新校正为躯体正对所述深度相机的摄像头的角度。
可选地,在本发明的一个实施例中,所述多个部分包括头部、双臂、双腿、上半身与下半身所呈的角度以及重心。
进一步地,在本发明的一个实施例中,所述将所述最终时间描述序列输入到预先训练好的长短时记忆网络以进行人体的行为识别,进一步包括:通过所述长短时记忆网络运用不同帧之间的相关顺序信息区分同一种基本姿势在不同动作。
为达到上述目的,本发明另一方面实施例提出了一种基于深度相机和基本姿势的人体行为识别装置,包括:检测模块,用于通过深度相机检测人体行为的图像,并提取关键点信息;重建模块,用于根据输入的所述图像进行人体三维结构的重建,以保证视角不变性;提取模块,用于将重建后的人体三维数据进行关键部位的姿势的识别和相应的特征提取,以得到姿势特征描述集的时间序列;匹配模块,用于根据所述特征描述集的时间序列与预先训练的特征描述集进行匹配,以得到基本姿势的初始时间描述序列;去除模块,用于去除所述初始时间描述序列的重复信息,以得到最终时间描述序列;识别模块,用于将所述最终时间描述序列输入到预先训练好的长短时记忆网络以进行人体的行为识别,以得到识别结果。
本发明实施例的基于深度相机和基本姿势的人体行为识别装置,在根据人体行为的图像提取得到关键点信息之后,可以进行人体三维结构的重建,从而保证视角不变性,有效减少数据库的构建,并且通过关键部位的姿势的识别和相应的特征提取得到姿势特征描述集的时间序列,以得到最终时间描述序列,进而输入到预先训练好的长短时记忆网络,得到识别结果,有效避免个体完成动作的快慢影响识别结果,提高识别的准确性和可靠性,以及有效去除噪音动作,大大提高了识别结果的鲁棒性。
另外,根据本发明上述实施例的基于深度相机和基本姿势的人体行为识别装置还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,在通过深度相机检测人体行为的图像之前,还包括:从数据库中采集训练集和测试集;将所述训练集的视频数据进行逐帧分解,并且每一帧对人体进行3D位置矫正,使得视角保持不变,获取一个满足预设条件的人体3D模型;对所述人体3D模型进行分割,以将人体的不同部位分割成多个部分,并进行基本姿势的聚类操作和相应的特征提取,并去除动作的冗余信息;通过长短时记忆网络结构对采集到的行为识别数据进行识别,以得到所述训练好的长短时记忆网络。
进一步地,在本发明的一个实施例中,所述每一帧对人体进行3D位置矫正,进一步包括:以髋关节的三个点形成的平面为中心进行计算,根据身体其他的关节点相对于所述髋关节的距离和角度重新校正为躯体正对所述深度相机的摄像头的角度。
可选地,在本发明的一个实施例中,所述多个部分包括头部、头部、双臂、双腿、上半身与下半身所呈的角度以及重心。
进一步地,在本发明的一个实施例中,所述将所述最终时间描述序列输入到预先训练好的长短时记忆网络以进行人体的行为识别,进一步包括:通过所述长短时记忆网络运用不同帧之间的相关顺序信息区分同一种基本姿势在不同动作。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明实施例的基于深度相机和基本姿势的人体行为识别方法的流程图;
图2是本发明一个实施例的基于深度相机和基本姿势的人体行为识别方法的流程图;
图3是本发明一个实施例的人体关键点的示意图;
图4是本发明一个实施例中任意关节点与髋关节平面的矫正示意图;
图5是本发明一个实施例中离线训练阶段的人体模型的矫正例子模型示意图;
图6是本发明一个实施例中去除冗余信息的流程图;
图7是本发明一个实施例中腿部基本姿势示意图;
图8是本发明一个实施例中长短时记忆网络的结构示意图;和
图9是本发明实施例的基于深度相机和基本姿势的人体行为识别装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的基于深度相机和基本姿势的人体行为识别方法及装置,首先将参照附图描述根据本发明实施例提出的基于深度相机和基本姿势的人体行为识别方法。
图1是本发明一个实施例的基于深度相机和基本姿势的人体行为识别方法的流程图。如图1所示,该基于深度相机和基本姿势的人体行为识别方法包括以下步骤:
在步骤S1中,通过深度相机检测人体行为的图像,并提取关键点信息。
可以理解的是,本发明实施例首先可以为识别的数据库进行数据采集,其中,采集数据为本实施例对人力行为信息分类的22个关键点的信息,下面会进行详细解释。
在步骤S2中,根据输入的图像进行人体三维结构的重建,以保证视角不变性。
具体来说,将收集到的数据进行划分为训练集和测试集,并将训练集的视频数据进行逐帧的分解,每一帧对人体进行3D位置的矫正,矫正到正对相机的统一视角,同时做好归一化操作,通过该预处理操作步骤从而实现视角不变的基本目标,得到一个规范的人体3D模型。
需要说明的是,保证视角不变性可以有效减少数据库的构建,更加方便快捷。
在步骤S3中,将重建后的人体三维数据进行关键部位的姿势的识别和相应的特征提取,以得到姿势特征描述集的时间序列。
举例而言,本发明实施例对于得到的3D模型进行分割,其中,将人体的不同部位可以分割成7个部分,并进行基本姿势的聚类操作和相应的特征提取,得到姿势特征描述集的时间序列。
在步骤S4中,根据特征描述集的时间序列与预先训练的特征描述集进行匹配,以得到基本姿势的初始时间描述序列。
可选地,基本姿势的初始时间描述序列可以包括运动对象的种类,基本姿势的数目,各种对象的类内变化等。
在步骤S5中,去除初始时间描述序列的重复信息,以得到最终时间描述序列。
具体来说,对采集到的动作进行冗余信息的去除,从而克服同一个动作时间尺度的影响,减小被识别者动作快慢不一和动作不标准对识别的影响,增加其鲁棒性。
在步骤S6中,将最终时间描述序列输入到预先训练好的长短时记忆网络以进行人体的行为识别,以得到识别结果。
在具体示例中,采集到的行为识别数据进行识别,采用的是长短时记忆网络结构,该网络结构对于时间序列具有良好的效果。
结合图2本发明一个实施例的基于深度相机和基本姿势的人体行为识别方法的算法流程图具体介绍该方法的步骤。如图2所示,该方法可以分为两个阶段:离线训练阶段和在线识别阶段。首先,对在线识别步骤进行详细解释。在本发明的实施例中,在线识别阶段步骤包括:
步骤S201:数据采集和制作。
在具体示例中,利用kinect或者其他深度相机进行数据库的制作,其中在数据库制作的过程中,尽可能包含多个角度,并且对于不同身高的人群,不同性别的人进行等比例的划分,确保样本数据库制作的合理性;并且将数据集和测试集按照一定比例分开,实施例中采取的比例为4:1,如果想丰富训练样本集合比例和相应调高。
步骤S202:关键点的规范化操作。
在具体示例中,由于人体存在身高胖瘦差异以及人体所在视频中的位置存在一定的不确定性,需要对人体首先进行对齐操作,该操作可以采取如下两种方式。
方式一:对于人体在视频序列中出现的3维坐标出现的最小值先进行求值,然后将原关键点坐标减掉最小的关键点坐标,进行规范化,如公式所示其中,Xnew表示的新的坐标,Y和Z依次类推。
方式二:除了进行简单的归一,本发明实施例还可以将人体的大小固定到一个统一的范围,做一次拉伸变换,k表示拉伸系数,如果3个k等于1,则表示X,Y,Z的范围都是0-1之间,例如还可以规范到100*100*100,则可取所有的k等于100,这样就克服了身高胖瘦所产生的数据大小的不一致性的缺点,一种理想情况可以按照人体的比例来取值,比如X,Y,Z对应的k分别是50,170,20,这样的比例更加符合人体结构,有利于后期提取更理想的特征。具体公式如下:
Xmax=argmax{X1,X2,...},Xmin=argmin{X1,X2,...};
Ymax=argmax{Y1,Y2,...},Xmin=argmin{Y1,Y2,...};
Zmax=argmax{Z1,Z2,...},Zmin=argmin{Z1,Z2,...};
Xnew=Xorig-Xmin,Ynew=Yorig-Ymin,Znew=Zorig-Zmin
Figure BDA0001554952360000091
步骤S203:特征提取操作。
在具体示例中,本发明需要建立人体行为在每一帧的描述特征集,需要采集与处理后和矫正之后的信息,包含了训练集中每一帧的信息,本发明中将人体的分为7个部分:双手和双脚的空间信息、头部的方向信息、上半身躯干部分下半身的角度信息;和身体的重心位置。
图3为本发明实施例的人体关键点示意图,结合图3介绍图中划分的22个关键点进行说明。
针对于双手和双脚的空间信息的特征可以采取两种方案:
1、直接采用空间曲线聚类的方式进行。本发明实施例可以定义关键点的欧式距离,按照曲线在三维空间的位置进行接下来的聚类操作。
2、手动选取距离(包括点线距,点面距,面面距等),角度(包括面面角,线面角,线线角等)等特征,具体如下:
其中,双手和双脚的空间信息的特征可以取相应的角度特征如图3所示。关键点3和4的角度,关键点4和5的角度和关键点5和6的角度作为特征,关键点5与关键点11的距离,表示右臂的状态,同理,关键点9到关键点11的距离表示另左臂的状态,面面角可以采用关键点3、4、5与髋关节的关键点12、13、14形成平面的角度来表示其中的一种特征。
例如,腿部的特征可以用关键点13,关键点15点的角度,关键点15,关键点16的角度,关键点16,关键点17的角度特征来表示。
又例如,头部的方向信息包括两类,简单的说就是转动头部或者俯仰头部的上下左右角度。其中,本发明实施例可以分别用以下两种方式表示:
1、关键点1与关键点2和关键点11构成线的角度表示左右转动头部的特征。
2、关键点1、21、22构成的平面与髋关节平面(关键点12、13、14构成的角度)面面角表述头部的俯仰信息。
针对于躯干的信息,本发明实施例采用关键点2、11构成的线与髋关节平面构成的角度表示上半身和下半身所构成特征角度,比如鞠躬可以该角度可以0-90°之间。
身体的重心位置可以表述成未归一化之前的髋的部分和身体呈现的角度,计算如下,比如人躺在床上的重心可以用近似0度表示,而站立的过程中重心角度为90度。
具体来说,一般情况下,对同一个动作,由于相机是固定的,个体在做动作的时候,对于人体的平面和相机的相对位置具有一定的差异性,本发明实施例针对这一差异性,首先做了一个矫正工作,如图4所示,在人体所有的关键点中,髋关节构成的平面中,A,B,C为髋关节构成的一个平面,D可以设为任意一点相对于该平面的位置,那么该点相对于平面有个距离,定义为+h或者-h,其中的正负号表示相对于髋关节点构成平面的前和后,比如人在走路时脚踝的位置可能在髋关节的前面或者后面交替出现,在人体的关键点中,人体的行为动作,针对于两个髋关节所形成的平面中差异变化较小,可以选取该部分作为参考点,身体其他部位的参考点,可以根据该位置进行矫正工作,具体就是计算其他肢体关键点的与该平面的距离和角度和方位信息。在本发明的一个具体实施例中,计算过程可以如下:
设点D的坐标为(x0,y0,z0);
设平面方程:
Ax+By+Cz+D=0;
设平面ABC的法向量为v;
计算距离为:
Figure BDA0001554952360000111
对于面面角公式,设平面DAB的法向量为p,则计算公式如下:
Figure BDA0001554952360000112
同理平面ACD和平面ABC的面面角也可求,通过距离和两个面面角可唯一确定了点D的空间位置。
进一步地,由于人体相对于相机的运动,特别是当出现侧身等情形时,通过将髋关节矫正为相对于镜头是90°的角度,其他的关键点相对于髋关节构成的平面ABC均已知,三个点,三个条件,可以求解其他关键点在矫正之后的位置。
如图5所示,通过矫正后的人体行为会变得标准化。
步骤S204:基本姿势的聚类。
在具体示例中,在该步骤中,将所有的训练的集的视频拆分成时间序列的图片,将上述提取的特征进行聚类操作,在聚类的方法中,一般要考虑到两个因素,第一个是划分成类的数目,第二个就是计算类之间距离的方式,常用的有欧式距离,,如可以采取k-means聚类方法。
对于四肢聚类基本姿势的聚类方法如下:
分解训练集中各类动作中的肢体序列,规定好划分好的k类,指定好参数,选择好k个初始的特征信息,设为c1到ck;
对于其他的数据分别计算距离公式,距离的远近归为第k类;
对于标记为第k类的数据,重新计算在该类中所有数据的中心,选择该中心为数据的聚类中心点,重复以上步骤,知道数据改变的变化小于给定的阈值,聚类后产生的效果如图7所示。
步骤S205:行为时间序列描述集合。
在具体示例中,在上述的步骤中,可以获得的基本姿势的描述袋,其中包括重心位置,四肢的描述,躯干角度,以及头部姿态的7种描述状态;将训练集中的每一类动作可以在该基本的描述带中,获得一个基于时间序列的基本姿势描述集;对于获得的每一类动作的时间序列描述集合存在着重复的序列。图6为本发明实施例中去除冗余信息的示意图,如图6所示,人在走路的过程中,由于时间的快慢会存在一些重复的序列。需要将这些重复的序列进行去除,例如腿部在走路过程中获得的特征描述为1,1,2,3,4,4,5,5,5等,需要将其归一化为1,2,3,4,5。这样就去除了在特征描述中由于个体的差异和时间采样快慢导致的数据集差异问题,从而减少了构建数据库的构建过程。
步骤S206:长短时间记忆网络模型。
图8为本发明实施例中长短时记忆网络的示意图,上述步骤中已经获得了每种动作的时间序列描述集,通过构建LSTM网络,利用该网络的记忆效应很好的区分随时间序列变化的信息。最终时间描述序列输入到预先训练好的长短时记忆网络以进行人体的行为识别,进一步包括:通过长短时记忆网络运用不同帧之间的相关顺序信息区分同一种基本姿势在不同动作。
进一步地,接下来对在线识别步骤进行详细解释。在本发明的实施例中,在线识别阶段步骤包括:
步骤S207:实时采集3D关键点,具体方法和离线训练阶段关键点采集方法相同。
步骤S208:关键点预处理和3D矫正。
步骤S209:特征提取。
步骤S210:行为时间描述序列。
步骤S211:识别。利用离线阶段训练完成的网络结构进行直接的行为识别。采用的双网络进行识别过程,第一个网络的目的是识别网络,目标是可以得到一个识别出多种基本姿势的一个序列集合,并且这个序列集合去除了多余的冗余信息,从而有效克服了同一个动作,不同的人完成的时间不同的差异,这样从而减少了数据库的构建,第二个网络就是一个典型的分类器网络,利用离线用训练好的数据进行识别操作。
步骤S212:后处理。对识别结果进行进一步处理。
步骤S213:显示识别结果。将识别结果显示出来,可在显示器中显示。
本发明实施例的基于深度相机和基本姿势的人体行为识别方法,在根据人体行为的图像提取得到关键点信息之后,可以进行人体三维结构的重建,从而保证视角不变性,有效减少数据库的构建,并且通过关键部位的姿势的识别和相应的特征提取得到姿势特征描述集的时间序列,以得到最终时间描述序列,进而输入到预先训练好的长短时记忆网络,得到识别结果,有效避免个体完成动作的快慢影响识别结果,提高识别的准确性和可靠性,以及有效去除噪音动作,大大提高了识别结果的鲁棒性。
其次参照附图描述根据本发明实施例提出的基于深度相机和基本姿势的人体行为识别装置。
图9是本发明实施例的本发明实施例的基于深度相机和基本姿势的人体行为识别装置的结构示意图。
如图9所示,该基于深度相机和基本姿势的人体行为识别装置10,包括:检测模块901、重建模块902、提取模块903、匹配模块904、去除模块905和识别模块906。
其中,检测模块901,用于通过深度相机检测人体行为的图像,并提取关键点信息。
重建模块902,用于根据输入的图像进行人体三维结构的重建,以保证视角不变性;
提取模块903,用于将重建后的人体三维数据进行关键部位的姿势的识别和相应的特征提取,以得到姿势特征描述集的时间序列;
匹配模块904,用于根据特征描述集的时间序列与预先训练的特征描述集进行匹配,以得到基本姿势的初始时间描述序列;
去除模块905,用于去除初始时间描述序列的重复信息,以得到最终时间描述序列;
识别模块906,用于将最终时间描述序列输入到预先训练好的长短时记忆网络以进行人体的行为识别,以得到识别结果。
在具体实施例中,基于深度相机和基本姿势的人体行为识别装置还包括:采集模块,用于从数据库中采集训练集和测试集;分解模块,用于将训练集的视频数据进行逐帧分解,并且每一帧对人体进行3D位置矫正,使得视角保持不变,获取一个满足预设条件的人体3D模型;分割模块,用于对人体3D模型进行分割,以将人体的不同部位分割成多个部分,并进行基本姿势的聚类操作和相应的特征提取,并去除动作的冗余信息,其中,多个部分包括头部、双臂、双腿、上半身与下半身所呈的角度以及重心;训练模块,用于通过长短时记忆网络结构对采集到的行为识别数据进行识别,以得到训练好的长短时记忆网络。
在具体实施例中分,解模块进一步用于:以髋关节的三个点形成的平面为中心进行计算,根据身体其他的关节点相对于髋关节的距离和角度重新校正为躯体正对深度相机的摄像头的角度。
在具体实施例中训练模块进一步用于:通过长短时记忆网络运用不同帧之间的相关顺序信息区分同一种基本姿势在不同动作。
需要说明的是,前述对基于深度相机和基本姿势的人体行为识别方法实施例的解释说明也适用于该实施例基于深度相机和基本姿势的人体行为识别的装置,此处不再赘述。
本发明实施例的基于深度相机和基本姿势的人体行为识别装置,在根据人体行为的图像提取得到关键点信息之后,可以进行人体三维结构的重建,从而保证视角不变性,有效减少数据库的构建,并且通过关键部位的姿势的识别和相应的特征提取得到姿势特征描述集的时间序列,以得到最终时间描述序列,进而输入到预先训练好的长短时记忆网络,得到识别结果,有效避免个体完成动作的快慢影响识别结果,提高识别的准确性和可靠性,以及有效去除噪音动作,大大提高了识别结果的鲁棒性。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于深度相机和基本姿势的人体行为识别方法,其特征在于,包括以下步骤:
通过深度相机检测人体行为的图像,并提取关键点信息;
根据输入的所述图像进行人体三维结构的重建,以保证视角不变性;
将重建后的人体三维数据进行关键部位的姿势的识别和相应的特征提取,以得到重心位置、四肢描述、躯干角度、以及头部姿态的姿势特征描述集的时间序列;
根据所述特征描述的时间序列与预先训练的各部位姿势特征描述词袋进行匹配,以得到基本姿势的初始时间描述序列,所述基本姿势的初始时间描述序列包括运动对象的种类,基本姿势的数目,各种对象的类内变化;
去除所述初始时间描述序列的重复信息,以得到最终时间描述序列;以及
将所述最终时间描述序列输入到预先训练好的长短时记忆网络以进行人体的行为识别,以得到识别结果。
2.根据权利要求1所述的基于深度相机和基本姿势的人体行为识别方法,其特征在于,在通过深度相机检测人体行为的图像之前,还包括:
从数据库中采集训练集和测试集;
将所述训练集的视频数据进行逐帧分解,并且每一帧对人体进行3D位置矫正,使得视角保持不变,获取一个满足预设条件的人体3D模型;
对所述人体3D模型进行分割,以将人体的不同部位分割成多个部分,并进行基本姿势的聚类操作和相应的特征提取,并去除动作的冗余信息;
通过长短时记忆网络结构对采集到的行为识别数据进行识别,以得到所述训练好的长短时记忆网络。
3.根据权利要求1或2所述的基于深度相机和基本姿势的人体行为识别方法,其特征在于,所述每一帧对人体进行3D位置矫正,进一步包括:
以髋关节三个点形成的平面为中心进行计算,根据身体其他的关节点相对于所述髋关节的距离和角度重新校正为躯体正对所述深度相机的摄像头的角度。
4.根据权利要求2所述的基于深度相机和基本姿势的人体行为识别方法,其特征在于,所述多个部分包括头部、双臂、双腿、上半身与下半身所呈的角度以及重心。
5.根据权利要求1所述的基于深度相机和基本姿势的人体行为识别方法,其特征在于,所述将所述最终时间描述序列输入到预先训练好的长短时记忆网络以进行人体的行为识别,进一步包括:
通过所述长短时记忆网络运用不同帧之间的相关顺序信息区分同一种基本姿势的不同动作。
6.一种基于深度相机和基本姿势的人体行为识别装置,其特征在于,包括:
检测模块,用于通过深度相机检测人体行为的图像,并提取关键点信息;
重建模块,用于根据输入的所述图像进行人体三维结构的重建,以保证视角不变性;
提取模块,用于将重建后的人体三维数据进行关键部位的姿势的识别和相应的特征提取,以得到重心位置、四肢描述、躯干角度、以及头部姿态的姿势特征描述集的时间序列;
匹配模块,用于根据所述特征描述的时间序列与预先训练的各部位姿势特征描述词袋进行匹配,以得到基本姿势的初始时间描述序列,所述基本姿势的初始时间描述序列包括运动对象的种类,基本姿势的数目,各种对象的类内变化;
去除模块,用于去除所述初始时间描述序列的重复信息,以得到最终时间描述序列;以及
识别模块,用于将所述最终时间描述序列输入到预先训练好的长短时记忆网络以进行人体的行为识别,以得到识别结果。
7.根据权利要求6所述的基于深度相机和基本姿势的人体行为识别装置,其特征在于,还包括:
采集模块,用于从数据库中采集训练集和测试集;
分解模块,用于将所述训练集的视频数据进行逐帧分解,并且每一帧对人体进行3D位置矫正,使得视角保持不变,获取一个满足预设条件的人体3D模型;
分割模块,用于对所述人体3D模型进行分割,以将人体的不同部位分割成多个部分,并进行基本姿势的聚类操作和相应的特征提取,并去除动作的冗余信息;
训练模块,用于通过长短时记忆网络结构对采集到的行为识别数据进行识别,以得到所述训练好的长短时记忆网络。
8.根据权利要求6或7所述的基于深度相机和基本姿势的人体行为识别装置,其特征在于,所述分解模块进一步用于:
以髋关节的三个点形成的平面为中心进行计算,根据身体其他的关节点相对于所述髋关节的距离和角度重新校正为躯体正对所述深度相机的摄像头的角度。
9.根据权利要求7所述的基于深度相机和基本姿势的人体行为识别装置,其特征在于,所述多个部分包括头部、双臂、双腿、上半身与下半身所呈的角度以及重心。
10.根据权利要求6所述的基于深度相机和基本姿势的人体行为识别装置,其特征在于,所述训练模块进一步用于:
通过所述长短时记忆网络运用不同帧之间的相关顺序信息区分同一种基本姿势的不同动作。
CN201810059713.3A 2018-01-22 2018-01-22 基于深度相机和基本姿势的人体行为识别方法及装置 Active CN108305283B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810059713.3A CN108305283B (zh) 2018-01-22 2018-01-22 基于深度相机和基本姿势的人体行为识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810059713.3A CN108305283B (zh) 2018-01-22 2018-01-22 基于深度相机和基本姿势的人体行为识别方法及装置

Publications (2)

Publication Number Publication Date
CN108305283A CN108305283A (zh) 2018-07-20
CN108305283B true CN108305283B (zh) 2020-12-08

Family

ID=62866187

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810059713.3A Active CN108305283B (zh) 2018-01-22 2018-01-22 基于深度相机和基本姿势的人体行为识别方法及装置

Country Status (1)

Country Link
CN (1) CN108305283B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117753B (zh) * 2018-07-24 2021-04-20 广州虎牙信息科技有限公司 部位识别方法、装置、终端及存储介质
CN109508684B (zh) * 2018-11-21 2022-12-27 中山大学 一种视频中人体行为识别的方法
CN110222665B (zh) * 2019-06-14 2023-02-24 电子科技大学 一种基于深度学习和姿态估计的监控中人体动作识别方法
CN110210456A (zh) * 2019-06-19 2019-09-06 贵州理工学院 一种基于3d卷积神经网络的头部姿态估计方法
CN110826401B (zh) * 2019-09-26 2023-12-26 广州视觉风科技有限公司 一种人体肢体语言识别方法及系统
CN111063024A (zh) * 2019-12-11 2020-04-24 腾讯科技(深圳)有限公司 三维虚拟人驱动方法、装置、电子设备及存储介质
CN111126268B (zh) * 2019-12-24 2023-04-25 北京奇艺世纪科技有限公司 关键点检测模型训练方法、装置、电子设备及存储介质
CN111259749A (zh) * 2020-01-10 2020-06-09 上海大学 一种基于双向lstm的复杂环境下实时人体姿势识别方法
CN111401188B (zh) * 2020-03-10 2023-10-31 清华大学 一种基于人体关键点特征的交警手势识别方法
CN111696178A (zh) * 2020-05-06 2020-09-22 广东康云科技有限公司 人像三维模型和仿真人像动画的生成方法、装置和介质
WO2021243561A1 (zh) * 2020-06-02 2021-12-09 中国科学院深圳先进技术研究院 行为识别装置及方法
CN112837362A (zh) * 2021-01-28 2021-05-25 清华大学深圳国际研究生院 获取空间定位的三维人体姿态估计方法及计算机可读存储介质
CN115147339A (zh) * 2021-03-31 2022-10-04 华为技术有限公司 人体关键点检测方法及相关装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246884B (zh) * 2013-05-22 2016-08-10 清华大学 基于深度图像序列的实时人体动作识别方法及装置
CN107609460B (zh) * 2017-05-24 2021-02-02 南京邮电大学 一种融合时空双重网络流和attention机制的人体行为识别方法

Also Published As

Publication number Publication date
CN108305283A (zh) 2018-07-20

Similar Documents

Publication Publication Date Title
CN108305283B (zh) 基于深度相机和基本姿势的人体行为识别方法及装置
Jiang et al. Multi-layered gesture recognition with Kinect.
Dikovski et al. Evaluation of different feature sets for gait recognition using skeletal data from Kinect
Ji et al. Interactive body part contrast mining for human interaction recognition
Guo et al. Multiview cauchy estimator feature embedding for depth and inertial sensor-based human action recognition
Uddin et al. Human activity recognition using body joint‐angle features and hidden Markov model
CN110490109B (zh) 一种基于单目视觉的在线人体康复动作识别方法
Chen Sitting posture recognition based on OpenPose
CN108875586B (zh) 一种基于深度图像与骨骼数据多特征融合的功能性肢体康复训练检测方法
Kumar et al. Indian sign language recognition using graph matching on 3D motion captured signs
Jalal et al. Daily human activity recognition using depth silhouettes and transformation for smart home
Ghazal et al. Human posture classification using skeleton information
CN109815816B (zh) 一种基于深度学习的考生考场异常行为分析方法
CN106909890B (zh) 一种基于部位聚类特征的人体行为识别方法
Bhuyan et al. Hand pose identification from monocular image for sign language recognition
Uddin et al. Human Activity Recognition via 3-D joint angle features and Hidden Markov models
CN110796101A (zh) 一种嵌入式平台的人脸识别方法及系统
Li et al. Posture recognition technology based on kinect
CN109993116B (zh) 一种基于人体骨骼相互学习的行人再识别方法
Islam et al. Representation for action recognition with motion vector termed as: SDQIO
Switonski et al. Dynamic time warping in gait classification of motion capture data
Chikkanna et al. Kinect based real-time gesture spotting using HCRF
Jessika et al. A study on part affinity fields implementation for human pose estimation with deep neural network
Özbay et al. 3D Human Activity Classification with 3D Zernike Moment Based Convolutional, LSTM-Deep Neural Networks.
Liu et al. An effective view and time-invariant action recognition method based on depth videos

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant