CN110263720A - 基于深度图像和骨骼信息的动作识别方法 - Google Patents

基于深度图像和骨骼信息的动作识别方法 Download PDF

Info

Publication number
CN110263720A
CN110263720A CN201910542873.8A CN201910542873A CN110263720A CN 110263720 A CN110263720 A CN 110263720A CN 201910542873 A CN201910542873 A CN 201910542873A CN 110263720 A CN110263720 A CN 110263720A
Authority
CN
China
Prior art keywords
action
bone
point cloud
point
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910542873.8A
Other languages
English (en)
Other versions
CN110263720B (zh
Inventor
张良
郭守向
其他发明人请求不公开姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Civil Aviation University of China
Original Assignee
Civil Aviation University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Civil Aviation University of China filed Critical Civil Aviation University of China
Priority to CN201910542873.8A priority Critical patent/CN110263720B/zh
Publication of CN110263720A publication Critical patent/CN110263720A/zh
Application granted granted Critical
Publication of CN110263720B publication Critical patent/CN110263720B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

一种基于深度图像与骨骼信息的人体动作识别方法。其包括采集人体动作视频,从中提取深度图像和骨骼动作帧序列;从深度图像中提取出全局点云特征向量;从骨骼动作帧序列中生成骨骼点特征向量;将全局点云特征向量和骨骼点特征向量输入两个SVM分类器中进行训练,得到两个动作分类模型;利用两个动作分类模型对待识别人体动作样本的类别进行识别等步骤。本发明提供的基于深度图像与骨骼信息的人体动作识别方法基于深度图像生成运动历史点云,提取运动历史点云的全局特征,同时融合骨骼点特征,结合两种特征,提高了动作识别的鲁棒性。

Description

基于深度图像和骨骼信息的动作识别方法
技术领域
本发明属于计算机视觉和模式识别技术领域,具体涉及一种基于深度图像与骨骼信息的人体动作识别方法。
背景技术
随着计算机技术的快速发展,对于动作识别的需要越来越迫切,在诸如:智能视频监控、病人监护系统、人机交互、虚拟现实、智能家居,游戏体感等领域将有着越来越重要的应用。
在动作识别早期阶段,大量使用传统的RGB视频序列进行动作识别,但这种方式对各种因素极为敏感,例如:光照变化,视点变化,遮挡和背景因素,使得行为识别仍然面临着挑战。随着技术的进步,近年来出现了配有深度传感器的深度摄像机,例如微软的kinect深度摄像机和华硕公司的Xtiont深度摄像机。这种深度摄像机既能获取传统RGB图像,并且可以同时获取高质量的深度图像和骨骼信息。与传统相机相比,深度相机具有对周围因素影响不敏感等一系列优点,因此利用深度摄像机进行人体动作识别也逐渐成为研究的热点。
利用深度相机识别人体动作主要分为两大类:(1)利用深度图像实现动作识别。Yang等提出将深度图像序列投影到笛卡儿积平面上获得3个方向上的深度运动图(depthmotion map,DMM),对深度运动图提取梯度直方图。Liu等人提出利用运动历史点云(MotionHistory Point cloud,MHPC)对动作视频进行表示,其将一个动作的深度图序列看作是一个整体进行处理,完整地保留了动作的空间与时序信息,完成了对动作的全局表示。中国专利公开号CN105912999A中公开了一种基于深度图像生成运动历史点云进行动作识别的方法,但准确识别需要较高质量的点云的数据,并且该方法无法对运动历史点云高效提取特征。(2)利用骨骼信息进行动作识别。Wang等人提出运用关键姿态序列(Key-pose-motif)对动作进行描述,对动作方式的差异具有鲁棒性。Xia等人提出关节点位置直方图(Histogramof 3D Joint Location,HOJ3D)对人体动作进行表示,采用离散隐马尔科夫模型进行分类。这两种方法依然对骨骼信息提出较高要求,在训练样本数量相对较少的情况下,常常会导致过度拟合,无法满足识别的准确度要求。
发明内容
为了解决上述问题,本发明的目在于提供一种基于深度图像与骨骼信息的人体动作识别方法。
为了达到上述目的,本发明提供的基于骨骼信息和深度图像的动作识别方法包括按顺序进行的下列步骤:
1)利用深度摄像机采集人体动作视频,然后从每一个人的人体动作视频中分别提取出多帧深度图像和骨骼动作帧序列而作为一个人体动作样本,由所有人的人体动作样本构成训练样本;
2)对上述训练样本中的每一帧深度图像进行预处理以去除背景干扰,然后由预处理后的多帧深度图像生成运动历史点云,之后对运动历史点云进行降采样,以减少点云数量和提高识别速度,然后从降采样后的运动历史点云中提取出全局点云特征向量ν;
3)对步骤1)得到的骨骼动作帧序列进行预处理,去除其中的冗余帧,然后分别提取每一骨骼动作帧的相对位移、相对位置和相对角度特征,得到特征集合,利用局部聚合向量描述子算法生成骨骼点特征向量F;
4)将按上述步骤1)至3)得到的大量训练样本的全局点云特征向量ν和骨骼点特征向量F分别输入到两个SVM分类器中进行训练,得到所需要的两个动作分类模型;
5)利用上述两个动作分类模型对待识别人体动作样本的类别进行识别。
在步骤2)中,所述的对上述训练样本中的每一帧深度图像进行预处理以去除背景干扰,然后由预处理后的多帧深度图像生成运动历史点云,之后对运动历史点云进行降采样,以减少点云数量和提高识别速度,然后从降采样后的运动历史点云中提取出全局点云特征向量ν的方法是:
(1)对深度图像进行预处理;
依据深度值的大小从深度图像中获取人体动作区域,由此将人体动作区域和背景区域分离开;
然后应用背景差分法检测人体运动区域中的人体,公式如下:
其中,D(x,y)为深度图像中某个像素点与深度摄像机间的距离;D'(x,y)为深度图像中当前像素点与深度摄像机间的距离;σth为预先设定的距离阈值;Dbk(x,y)为某个像素点背景的距离;
(2)将每一帧预处理后的深度图像进行坐标转换,生成运动历史点云;
将每一帧预处理后的深度图像从二维坐标系转换到三维相机坐标系下,得到人体的实际三维坐标数据,然后将三维相机坐标系下三维点的X、Y、Z值赋给点云三维点的X、Y、Z值,以点云的存储格式表示三维坐标数据,得到三维人体运动历史体;运动历史点云是由每一帧深度图像得到的三维人体运动历史体填充而生成;
运动历史点云是将一个动作序列压缩成一个包含空间信息与时间信息的点的集合,公式为MHPC={P1,P2,...,Pn},其中n表示MHPC中点的个数;点云中任一点的坐标定义为Pi(x,y,z,h),i∈(1,n),其中Pi.x,Pi.y,Pi.z是指在三维相机坐标系下点的x,y,z坐标值,用来记录人体动作的发生位置;Pi.h为深度图像的帧号,用来记录该点的发生时间;
(3)对生成的运动历史点云进行降采样;
(4)从降采样后的运动历史点云中提取出全局点云特征向量;
具体方法如下:
(4.1)计算运动历史点云中每一个点的法线;
运动历史点云中每一个点pi对应一个协方差矩阵C,公式如下:
其中,k表示点pi邻近点的数目,表示最近邻近点的三维质心,λj表示协方差矩阵的第j个特征值,表示第j个特征向量,vp表示视点方向向量;
通过上式得到运动历史点云中每一个点pi的法线
(4.2)利用上述法线计算降采样后的运动历史点云的中心点与任意一点之间的三个角度,得到三组n维向量;
通过下列公式可以计算出该运动历史点云的中心点与任意一点之间的三个角度α,φ,θ:
其中,为运动历史点云中两个点的坐标,分别为点和点对应的法线,ν,u,w为定义的三个坐标轴方向向量,n为运动历史点云中点的数量;
通过计算运动历史点云的中心点与每一点之间的三个角度α,φ,θ,可以得到三组{α123…αn},{β123…βn},{θ123…θn}n维向量;
(4.3)连接每组n维向量;
通过转换矩阵可将每组n维向量降维成一个50维向量,然后将三组50维向量连接起来,最后得到一个150维的全局点云特征向量ν,作为一个人体动作样本的点云特征;
其中:
为计算得到的三组n维向量;
为转换矩阵;
为降维后得到的的全局点云特征向量;
则连接后的[α123…α50123…β50123…θ50]为连接后的全局点云特征向量。
在步骤3)中,所述的对步骤1)得到的骨骼动作帧序列进行预处理,去除其中的冗余帧,然后分别提取每一骨骼动作帧的相对位移、相对位置和相对角度特征,得到特征集合,利用局部聚合向量描述子算法生成骨骼点特征向量F的方法是:
骨骼动作帧序列为人体运动期间的多个骨骼动作帧,每一骨骼动作帧保存三维相机坐标系下的20个人体骨骼点坐标,具体为头部、右肩、脊柱中心、右肘、右腕、右手、右臀部、右膝盖、右踝、颈部、左肩、臀部中心、左肘、左腕、左手、左臀部、左膝盖、左踝和左脚,用来表示所有人体骨骼点在三维相机坐标系下的三维坐标;
具体方法如下:
(1)对骨骼动作帧序列进行预处理,去除掉一部分冗余帧;
(2)将预处理后的骨骼动作帧序列进行坐标变换;
由于三维相机坐标系并不是真实世界中的坐标,在这里需要转换到实际场景坐标才有意义,实际场景骨骼点坐标用表示;设深度摄像机在X轴、Y轴、Z轴的偏转角度分别为θxyz,实际场景坐标系与三维相机坐标系原点的偏移量为Δx,Δy,Δz;通过下式就可以实现从三维相机坐标系到实际场景坐标系之间的转换:
其中:
即在实际场景坐标系下所有人体骨骼点三维坐标用来表示;
(3)从经过坐标变换的骨骼动作帧序列中分别计算出人体骨骼帧的相对位移特征、相对位置特征和相对角度特征,得到各自的特征集合,然后将上述三组特征集合合并成一个局部特征集合,之后聚类生成k类字典,最后生成骨骼点特征向量;
具体方法如下:
(3.1)计算相对位移特征,得到相对位移特征特征集合;
将第s+1骨骼动作帧和第s-1骨骼动作帧下的头部、右手、左手、右脚和左脚坐标的位移差值作为相对位移特征,计算公式如下:
表示第s骨骼动作帧下人体骨骼点i的坐标ΔT是第s+1骨骼动作帧和第s-1骨骼动作帧之间的时间间隔,s为总的骨骼动作帧数量;一个人体动作样本的相对位移特征构成的特征集合为
(3.2)计算相对位置特征,得到相对位置特征集合;
将第s骨骼动作帧下头部与脊柱中心、左手与脊柱中心、右手与脊柱中心的坐标差值作为相对位置特征,计算公式如下:
其中,表示第s骨骼动作帧下头、左手、右手的坐标 表示第s骨骼动作帧下中心骨骼点脊柱中心的坐标s为骨骼动作帧;则一个人体动作样本的相对位置特征构成的特征集合为
(3.3)计算相对角度特征,得到相对角度特征集合;
将第s骨骼动作帧时头与脊柱中心的余弦值、左手与脊柱中心的余弦值、右手与脊柱中心的余弦值这三个余弦值作为相对角度特征,计算公式如下:
其中,表示第s骨骼动作帧下头部、左手、右手的坐标 表示第s骨骼动作帧下脊柱中心的坐标s为骨骼动作帧,则一个人体动作样本的相对角度特征构成的特征集合为
(3.4)将上述三组特征集合合并成一个局部特征集合{νs},作为一个人体动作样本的特征集合;
(3.5)将所有人体动作样本的特征集合合并成一个总体特征集合,然后聚类生成k类字典;
将所有人体动作样本的特征集合合并成一个总体特征集合{νs},然后将总体特征集合用K-means聚类方法生成k类字典{c}={c1,c2,c3...ci},i∈(1,k);
(3.6)采用VLAD算法并利用上述字典从人体动作样本中生成骨骼点特征向量;
具体方法如下:
一个人体动作样本的局部特征集合为{νs}=[x1,x2,x3,......xN],其中N为局部特征的个数,
第一步:
将每个局部特征量化到最近邻的字典,并计算其与最近邻字典的残差,字典ci的残差计算公式如下:
其中ci∈{c},NN(x)=ci表示字典ci为局部特征集合{νs}的最近邻字典,vi表示人体动作样本中最近邻字典中属于字典ci的所有局部特征集合与字典ci的残差累计和;
第二步:
将所有字典上的残差进行串联,得到VLAD特征向量F=[v1,v2,...vk],利用主成分分析法归一化生成相同维度的特征向量F,作为一个人体动作样本的骨骼点特征向量。
在步骤5)中,所述的利用上述两个动作分类模型对待识别人体动作样本的类别进行识别的方法是:
(1)将待识别人体动作视频按上述步骤1)至3)进行处理而得到的全局点云特征向量ν和骨骼点特征向量F;
(2)将上述全局点云特征向量ν和骨骼点特征向量F分别输入到上述步骤4)中获得的两个对应的动作分类模型中,SVM分类器的输出是每个人体动作类别标签的准确率,并将其大小归一化为[0,1],得到两个概率向量为yq=[y1,…,yk,…yC],q∈{1,2},yk∈{0,1}(1≤k≤C),其中C为人体动作样本的动作类别总数;
(3)对上述两个概率向量进行加权相加,得到最后的总概率向量,然后取概率向量中准确率最大值所在的类别作为待识别人体动作样本的类别,从而实现人体动作识别,识别公式如下:
其中,αq为权值,取值范围为0—1,yq为分类器SVM输出的概率向量,Q为SVM分类器的数量,y*为加权相加后准确率最大值所在的类别。
本发明提供的基于深度图像与骨骼信息的人体动作识别方法基于深度图像生成运动历史点云,提取运动历史点云的全局特征,同时融合骨骼点特征,结合两种特征,提高了动作识别的鲁棒性。
附图说明
图1为本发明提供的基于骨骼信息和深度图像的动作识别方法流程图;
图2为运动历史点云生成流程图;
图3为基于深度图像生成的运动历史点云示意图;
图4为全局点云特征向量计算定义的坐标系;
图5为人体骨骼点示意图
具体实施方式
下面结合附图对本发明提供的基于骨骼信息和深度图像的动作识别方法作进一步详细描述。
如图1所示,本发明提供的基于骨骼信息和深度图像的动作识别方法包括按顺序进行的下列步骤:
1)利用微软的kinect深度摄像机采集人体动作视频,然后通过微软提供的api接口从每一个人的人体动作视频中分别提取出多帧深度图像和骨骼动作帧序列而作为一个人体动作样本,由所有人的人体动作样本构成训练样本;
2)对上述训练样本中的每一帧深度图像进行预处理以去除背景干扰,然后由预处理后的多帧深度图像生成运动历史点云,之后对运动历史点云进行降采样,以减少点云数量和提高识别速度,然后从降采样后的运动历史点云中提取出全局点云特征向量ν;
具体步骤如下:
(1)对深度图像进行预处理;
深度摄像机采集的深度图像中包括人体动作区域和背景区域,为了更利于后续特征向量提取,首先对深度图像进行预处理,方法是依据深度值(即深度摄像机上深度传感器的距离值)的大小从深度图像中获取人体动作区域,由此将人体动作区域和背景区域分离开。
然后应用背景差分法检测人体运动区域中的人体,公式如下:
其中,D(x,y)为深度图像中某个像素点与深度摄像机间的距离;D'(x,y)为深度图像中当前像素点与深度摄像机间的距离;σth为预先设定的距离阈值;Dbk(x,y)为某个像素点背景的距离。
(2)将每一帧预处理后的深度图像进行坐标转换,生成运动历史点云;
如图2所示,将每一帧预处理后的深度图像从二维坐标系转换到三维相机坐标系下,得到人体的实际三维坐标数据,然后将三维相机坐标系下三维点的X、Y、Z值赋给点云三维点的X、Y、Z值,以点云的存储格式表示三维坐标数据,得到三维人体运动历史体。运动历史点云是由每一帧深度图像得到的三维人体运动历史体填充而生成,所生成的运动历史点云(MHPC)如图3所示。
运动历史点云是将一个动作序列压缩成一个包含空间信息与时间信息的点的集合,公式为MHPC={P1,P2,...,Pn},其中n表示MHPC中点的个数。点云中任一点的坐标定义为Pi(x,y,z,h),i∈(1,n),其中Pi.x,Pi.y,Pi.z是指在三维相机坐标系下点的x,y,z坐标值,用来记录人体动作的发生位置;Pi.h为深度图像的帧号,用来记录该点的发生时间。
(3)对生成的运动历史点云进行降采样;
由于上述生成的运动历史点云数据量庞大,直接提取全局点云特征向量耗费时间,为了加快算法的计算和识别速度,需要对生成的运动历史点云进行降采样以降低点云密度;
(4)从降采样后的运动历史点云中提取出全局点云特征向量;
具体方法如下:
(4.1)计算运动历史点云中每一个点的法线;
运动历史点云中每一个点pi对应一个协方差矩阵C,公式如下:
其中,k表示点pi邻近点的数目,表示最近邻近点的三维质心,λj表示协方差矩阵的第j个特征值,表示第j个特征向量,vp表示视点方向向量;
通过上式得到运动历史点云中每一个点pi的法线
(4.2)利用上述法线计算降采样后的运动历史点云的中心点与任意一点之间的三个角度,得到三组n维向量;
全局点云特征向量计算定义的坐标系如图4所示,在运动历史点云的中心点上定义了如上的一个固定的局部坐标系,通过下列公式可以计算出该运动历史点云的中心点与任意一点之间的三个角度α,φ,θ:
其中,为运动历史点云中两个点的坐标,分别为点和点对应的法线,ν,u,w为定义的三个坐标轴方向向量,n为运动历史点云中点的数量。
通过计算运动历史点云的中心点与每一点之间的三个角度α,φ,θ,可以得到三组{α123…αn},{β123…βn},{θ123…θn}n维向量。
(4.3)连接每组n维向量;
通过转换矩阵可将每组n维向量降维成一个50维向量,然后将三组50维向量连接起来,最后得到一个150维的全局点云特征向量ν,作为一个人体动作样本的点云特征。
其中:
为计算得到的三组n维向量;
为转换矩阵;
为降维后得到的的全局点云特征向量;
则连接后的[α123…α50123…β50123…θ50]为连接后的全局点云特征向量。
3)对步骤1)得到的骨骼动作帧序列进行预处理,去除其中的冗余帧,然后分别提取每一骨骼动作帧的相对位移、相对位置和相对角度特征,得到特征集合,利用局部聚合向量描述子(VLAD)算法生成骨骼点特征向量F;
通过微软提供的api接口从人体动作视频中得到的骨骼动作帧序列为人体运动期间的多个骨骼动作帧,每一骨骼动作帧保存三维相机坐标系下的20个人体骨骼点坐标,具体为头部、右肩、脊柱中心、右肘、右腕、右手、右臀部、右膝盖、右踝、颈部、左肩、臀部中心、左肘、左腕、左手、左臀部、左膝盖、左踝和左脚,如图5所示。用来表示所有人体骨骼点在三维相机坐标系下的三维坐标;
具体方法如下:
(1)对骨骼动作帧序列进行预处理;
由于骨骼动作帧序列中包含大量的冗余帧,所以需要首先去除掉一部分冗余帧。
(2)将预处理后的骨骼动作帧序列进行坐标变换;
由于三维相机坐标系并不是真实世界中的坐标,在这里需要转换到实际场景坐标才有意义,实际场景骨骼点坐标用表示。设深度摄像机在X轴、Y轴、Z轴的偏转角度分别为θxyz,实际场景坐标系与三维相机坐标系原点的偏移量为Δx,Δy,Δz。通过下式就可以实现从三维相机坐标系到实际场景坐标系之间的转换。
其中:
即在实际场景坐标系下所有人体骨骼点三维坐标用来表示。
(3)从经过坐标变换的骨骼动作帧序列中分别计算出人体骨骼帧的相对位移特征、相对位置特征和相对角度特征,得到各自的特征集合,然后将上述三组特征集合合并成一个局部特征集合,之后聚类生成k类字典,最后生成骨骼点特征向量;
分别计算人体骨骼点不同特征的主要目的是获得更小的特征,而较小的特征集合能够更好利用VLAD(局部聚合描述子向量)算法聚合生成骨骼点特征向量。
具体方法如下:
(3.1)计算相对位移特征,得到相对位移特征特征集合;
将第s+1骨骼动作帧和第s-1骨骼动作帧下的头部、右手、左手、右脚和左脚坐标的位移差值作为相对位移特征,计算公式如下:
表示第s骨骼动作帧下人体骨骼点i的坐标ΔT是第s+1骨骼动作帧和第s-1骨骼动作帧之间的时间间隔,s为总的骨骼动作帧数量。一个人体动作样本的相对位移特征构成的特征集合为
(3.2)计算相对位置特征,得到相对位置特征集合;
将第s骨骼动作帧下头部与脊柱中心、左手与脊柱中心、右手与脊柱中心的坐标差值作为相对位置特征,计算公式如下:
其中,表示第s骨骼动作帧下头、左手、右手的坐标 表示第s骨骼动作帧下中心骨骼点脊柱中心的坐标s为骨骼动作帧。则一个人体动作样本的相对位置特征构成的特征集合为
(3.3)计算相对角度特征,得到相对角度特征集合;
将第s骨骼动作帧时头与脊柱中心的余弦值、左手与脊柱中心的余弦值、右手与脊柱中心的余弦值这三个余弦值作为相对角度特征,计算公式如下:
其中,表示第s骨骼动作帧下头部、左手、右手的坐标 表示第s骨骼动作帧下脊柱中心的坐标s为骨骼动作帧,则一个人体动作样本的相对角度特征构成的特征集合为
(3.4)将上述三组特征集合合并成一个局部特征集合{νs},作为一个人体动作样本的特征集合;
(3.5)将所有人体动作样本的特征集合合并成一个总体特征集合,然后聚类生成k类字典;
将所有人体动作样本的特征集合合并成一个总体特征集合{νs},然后将总体特征集合用K-means聚类方法生成k类字典{c}={c1,c2,c3...ci},i∈(1,k);
(3.6)采用VLAD算法并利用上述字典从人体动作样本中生成骨骼点特征向量;
具体方法如下:
一个人体动作样本的局部特征集合为{νs}=[x1,x2,x3,......xN],其中N为局部特征的个数,
第一步:
将每个局部特征量化到最近邻的字典,并计算其与最近邻字典的残差,字典ci的残差计算公式如下:
其中ci∈{c},NN(x)=ci表示字典ci为局部特征集合{νs}的最近邻字典,vi表示人体动作样本中最近邻字典中属于字典ci的所有局部特征集合与字典ci的残差累计和;
第二步:
将所有字典上的残差进行串联,得到VLAD特征向量F=[v1,v2,...vk],利用主成分分析法(PCA)归一化生成相同维度的特征向量F,作为一个人体动作样本的骨骼点特征向量;
4)将按上述步骤1)至3)得到的大量训练样本的全局点云特征向量ν和骨骼点特征向量F分别输入到两个SVM分类器中进行训练,得到所需要的两个动作分类模型;
5)利用上述两个动作分类模型对待识别人体动作样本的类别进行识别;
具体方法如下:
(1)将待识别人体动作视频按上述步骤1)至3)进行处理而得到的全局点云特征向量ν和骨骼点特征向量F;
(2)将上述全局点云特征向量ν和骨骼点特征向量F分别输入到上述步骤4)中获得的两个对应的动作分类模型中,SVM分类器的输出是每个人体动作类别标签的准确率,并将其大小归一化为[0,1],得到两个概率向量为yq=[y1,…,yk,…yC],q∈{1,2},yk∈{0,1}(1≤k≤C),其中C为人体动作样本的动作类别总数。
(3)对上述两个概率向量进行加权相加,得到最后的总概率向量,然后取概率向量中准确率最大值所在的类别作为待识别人体动作样本的类别,从而实现人体动作识别。识别公式如下:
其中,αq为权值,取值范围为0—1,yq为分类器SVM输出的概率向量,Q为SVM分类器的数量,y*为加权相加后准确率最大值所在的类别。

Claims (4)

1.一种基于骨骼信息和深度图像的动作识别方法,其特征在于:所述的基于骨骼信息和深度图像的动作识别方法包括按顺序进行的下列步骤:
1)利用深度摄像机采集人体动作视频,然后从每一个人的人体动作视频中分别提取出多帧深度图像和骨骼动作帧序列而作为一个人体动作样本,由所有人的人体动作样本构成训练样本;
2)对上述训练样本中的每一帧深度图像进行预处理以去除背景干扰,然后由预处理后的多帧深度图像生成运动历史点云,之后对运动历史点云进行降采样,以减少点云数量和提高识别速度,然后从降采样后的运动历史点云中提取出全局点云特征向量ν;
3)对步骤1)得到的骨骼动作帧序列进行预处理,去除其中的冗余帧,然后分别提取每一骨骼动作帧的相对位移、相对位置和相对角度特征,得到特征集合,利用局部聚合向量描述子算法生成骨骼点特征向量F;
4)将按上述步骤1)至3)得到的大量训练样本的全局点云特征向量ν和骨骼点特征向量F分别输入到两个SVM分类器中进行训练,得到所需要的两个动作分类模型;
5)利用上述两个动作分类模型对待识别人体动作样本的类别进行识别。
2.根据权利要求1所述的基于骨骼信息和深度图像的动作识别方法,其特征在于:在步骤2)中,所述的对上述训练样本中的每一帧深度图像进行预处理以去除背景干扰,然后由预处理后的多帧深度图像生成运动历史点云,之后对运动历史点云进行降采样,以减少点云数量和提高识别速度,然后从降采样后的运动历史点云中提取出全局点云特征向量ν的方法是:
(1)对深度图像进行预处理;
依据深度值的大小从深度图像中获取人体动作区域,由此将人体动作区域和背景区域分离开;
然后应用背景差分法检测人体运动区域中的人体,公式如下:
其中,D(x,y)为深度图像中某个像素点与深度摄像机间的距离;D'(x,y)为深度图像中当前像素点与深度摄像机间的距离;σth为预先设定的距离阈值;Dbk(x,y)为某个像素点背景的距离;
(2)将每一帧预处理后的深度图像进行坐标转换,生成运动历史点云;
将每一帧预处理后的深度图像从二维坐标系转换到三维相机坐标系下,得到人体的实际三维坐标数据,然后将三维相机坐标系下三维点的X、Y、Z值赋给点云三维点的X、Y、Z值,以点云的存储格式表示三维坐标数据,得到三维人体运动历史体;运动历史点云是由每一帧深度图像得到的三维人体运动历史体填充而生成;
运动历史点云是将一个动作序列压缩成一个包含空间信息与时间信息的点的集合,公式为MHPC={P1,P2,...,Pn},其中n表示MHPC中点的个数;点云中任一点的坐标定义为Pi(x,y,z,h),i∈(1,n),其中Pi.x,Pi.y,Pi.z是指在三维相机坐标系下点的x,y,z坐标值,用来记录人体动作的发生位置;Pi.h为深度图像的帧号,用来记录该点的发生时间;
(3)对生成的运动历史点云进行降采样;
(4)从降采样后的运动历史点云中提取出全局点云特征向量;
具体方法如下:
(4.1)计算运动历史点云中每一个点的法线;
运动历史点云中每一个点pi对应一个协方差矩阵C,公式如下:
其中,k表示点pi邻近点的数目,表示最近邻近点的三维质心,λj表示协方差矩阵的第j个特征值,表示第j个特征向量,vp表示视点方向向量;
通过上式得到运动历史点云中每一个点pi的法线
(4.2)利用上述法线计算降采样后的运动历史点云的中心点与任意一点之间的三个角度,得到三组n维向量;
通过下列公式可以计算出该运动历史点云的中心点与任意一点之间的三个角度α,φ,θ:
其中,为运动历史点云中两个点的坐标,分别为点和点对应的法线,ν,u,w为定义的三个坐标轴方向向量,n为运动历史点云中点的数量;
通过计算运动历史点云的中心点与每一点之间的三个角度α,φ,θ,可以得到三组{α123…αn},{β123…βn},{θ123…θn}n维向量;
(4.3)连接每组n维向量;
通过转换矩阵可将每组n维向量降维成一个50维向量,然后将三组50维向量连接起来,最后得到一个150维的全局点云特征向量ν,作为一个人体动作样本的点云特征;
其中:
为计算得到的三组n维向量;
为转换矩阵;
为降维后得到的的全局点云特征向量;
则连接后的[α123…α50123…β50123…θ50]为连接后的全局点云特征向量。
3.根据权利要求1所述的基于骨骼信息和深度图像的动作识别方法,其特征在于:在步骤3)中,所述的对步骤1)得到的骨骼动作帧序列进行预处理,去除其中的冗余帧,然后分别提取每一骨骼动作帧的相对位移、相对位置和相对角度特征,得到特征集合,利用局部聚合向量描述子算法生成骨骼点特征向量F的方法是:
骨骼动作帧序列为人体运动期间的多个骨骼动作帧,每一骨骼动作帧保存三维相机坐标系下的20个人体骨骼点坐标,具体为头部、右肩、脊柱中心、右肘、右腕、右手、右臀部、右膝盖、右踝、颈部、左肩、臀部中心、左肘、左腕、左手、左臀部、左膝盖、左踝和左脚,用来表示所有人体骨骼点在三维相机坐标系下的三维坐标;
具体方法如下:
(1)对骨骼动作帧序列进行预处理,去除掉一部分冗余帧;
(2)将预处理后的骨骼动作帧序列进行坐标变换;
由于三维相机坐标系并不是真实世界中的坐标,在这里需要转换到实际场景坐标才有意义,实际场景骨骼点坐标用表示;设深度摄像机在X轴、Y轴、Z轴的偏转角度分别为θxyz,实际场景坐标系与三维相机坐标系原点的偏移量为Δx,Δy,Δz;通过下式就可以实现从三维相机坐标系到实际场景坐标系之间的转换:
其中:
即在实际场景坐标系下所有人体骨骼点三维坐标用来表示;
(3)从经过坐标变换的骨骼动作帧序列中分别计算出人体骨骼帧的相对位移特征、相对位置特征和相对角度特征,得到各自的特征集合,然后将上述三组特征集合合并成一个局部特征集合,之后聚类生成k类字典,最后生成骨骼点特征向量;
具体方法如下:
(3.1)计算相对位移特征,得到相对位移特征特征集合;
将第s+1骨骼动作帧和第s-1骨骼动作帧下的头部、右手、左手、右脚和左脚坐标的位移差值作为相对位移特征,计算公式如下:
表示第s骨骼动作帧下人体骨骼点i的坐标ΔT是第s+1骨骼动作帧和第s-1骨骼动作帧之间的时间间隔,s为总的骨骼动作帧数量;一个人体动作样本的相对位移特征构成的特征集合为
(3.2)计算相对位置特征,得到相对位置特征集合;
将第s骨骼动作帧下头部与脊柱中心、左手与脊柱中心、右手与脊柱中心的坐标差值作为相对位置特征,计算公式如下:
其中,表示第s骨骼动作帧下头、左手、右手的坐标 表示第s骨骼动作帧下中心骨骼点脊柱中心的坐标s为骨骼动作帧;则一个人体动作样本的相对位置特征构成的特征集合为
(3.3)计算相对角度特征,得到相对角度特征集合;
将第s骨骼动作帧时头与脊柱中心的余弦值、左手与脊柱中心的余弦值、右手与脊柱中心的余弦值这三个余弦值作为相对角度特征,计算公式如下:
其中,表示第s骨骼动作帧下头部、左手、右手的坐标 表示第s骨骼动作帧下脊柱中心的坐标s为骨骼动作帧,则一个人体动作样本的相对角度特征构成的特征集合为
(3.4)将上述三组特征集合合并成一个局部特征集合{νs},作为一个人体动作样本的特征集合;
(3.5)将所有人体动作样本的特征集合合并成一个总体特征集合,然后聚类生成k类字典;
将所有人体动作样本的特征集合合并成一个总体特征集合{νs},然后将总体特征集合用K-means聚类方法生成k类字典{c}={c1,c2,c3...ci},i∈(1,k);
(3.6)采用VLAD算法并利用上述字典从人体动作样本中生成骨骼点特征向量;
具体方法如下:
一个人体动作样本的局部特征集合为{νs}=[x1,x2,x3,......xN],其中N为局部特征的个数,
第一步:
将每个局部特征量化到最近邻的字典,并计算其与最近邻字典的残差,字典ci的残差计算公式如下:
其中ci∈{c},NN(x)=ci表示字典ci为局部特征集合{νs}的最近邻字典,vi表示人体动作样本中最近邻字典中属于字典ci的所有局部特征集合与字典ci的残差累计和;
第二步:
将所有字典上的残差进行串联,得到VLAD特征向量F=[v1,v2,...vk],利用主成分分析法归一化生成相同维度的特征向量F,作为一个人体动作样本的骨骼点特征向量。
4.根据权利要求1至3中任一项所述的基于骨骼信息和深度图像的动作识别方法,其特征在于:在步骤5)中,所述的利用上述两个动作分类模型对待识别人体动作样本的类别进行识别的方法是:
(1)将待识别人体动作视频按上述步骤1)至3)进行处理而得到的全局点云特征向量ν和骨骼点特征向量F;
(2)将上述全局点云特征向量ν和骨骼点特征向量F分别输入到上述步骤4)中获得的两个对应的动作分类模型中,SVM分类器的输出是每个人体动作类别标签的准确率,并将其大小归一化为[0,1],得到两个概率向量为yq=[y1,…,yk,…yC],q∈{1,2},yk∈{0,1}(1≤k≤C),其中C为人体动作样本的动作类别总数;
(3)对上述两个概率向量进行加权相加,得到最后的总概率向量,然后取概率向量中准确率最大值所在的类别作为待识别人体动作样本的类别,从而实现人体动作识别,识别公式如下:
其中,αq为权值,取值范围为0—1,yq为分类器SVM输出的概率向量,Q为SVM分类器的数量,y*为加权相加后准确率最大值所在的类别。
CN201910542873.8A 2019-06-21 2019-06-21 基于深度图像和骨骼信息的动作识别方法 Active CN110263720B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910542873.8A CN110263720B (zh) 2019-06-21 2019-06-21 基于深度图像和骨骼信息的动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910542873.8A CN110263720B (zh) 2019-06-21 2019-06-21 基于深度图像和骨骼信息的动作识别方法

Publications (2)

Publication Number Publication Date
CN110263720A true CN110263720A (zh) 2019-09-20
CN110263720B CN110263720B (zh) 2022-12-27

Family

ID=67920236

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910542873.8A Active CN110263720B (zh) 2019-06-21 2019-06-21 基于深度图像和骨骼信息的动作识别方法

Country Status (1)

Country Link
CN (1) CN110263720B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110916707A (zh) * 2019-12-18 2020-03-27 上海皓桦科技股份有限公司 二维骨骼图像获取方法、系统及装置
CN111773700A (zh) * 2020-07-24 2020-10-16 网易(杭州)网络有限公司 一种动画数据的处理方法和装置
CN111797733A (zh) * 2020-06-22 2020-10-20 浙江大华技术股份有限公司 一种基于图像的行为识别方法、装置、设备和存储介质
CN111914796A (zh) * 2020-08-17 2020-11-10 四川大学 基于深度图和骨骼点的人体行为识别方法
CN112464847A (zh) * 2020-12-07 2021-03-09 北京邮电大学 视频中人体动作切分方法及装置
CN113196289A (zh) * 2020-07-02 2021-07-30 浙江大学 人体动作识别方法、人体动作识别系统及设备
CN113449637A (zh) * 2021-06-28 2021-09-28 桂林电子科技大学 毫米波雷达人体骨骼姿势估计方法和装置
CN113792595A (zh) * 2021-08-10 2021-12-14 北京爱笔科技有限公司 目标行为检测方法、装置、计算机设备和存储介质
CN114332378A (zh) * 2021-12-31 2022-04-12 西安交通大学 基于二维医学影像的人体骨骼三维模型获取方法及系统
CN114782497A (zh) * 2022-06-20 2022-07-22 中国科学院自动化研究所 运动功能分析方法和电子设备
CN114998491A (zh) * 2022-08-01 2022-09-02 阿里巴巴(中国)有限公司 数字人驱动方法、装置、设备及存储介质
CN115857836A (zh) * 2023-02-10 2023-03-28 中南大学湘雅医院 基于大数据的信息储存方法及装置
CN116309712A (zh) * 2023-03-15 2023-06-23 南通大学 一种基于深度相机的功能运动分析系统及方法
CN116434335A (zh) * 2023-03-30 2023-07-14 东莞理工学院 动作序列识别和意图推断方法、装置、设备及存储介质
CN116453220A (zh) * 2023-04-19 2023-07-18 北京百度网讯科技有限公司 目标对象姿态确定方法、训练方法、装置及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002017798A1 (de) * 2000-08-31 2002-03-07 Plus Endoprothetik Ag Verfahren und anordnung zur ermittlung einer belastungsachse einer extremität
US20120219209A1 (en) * 2011-02-25 2012-08-30 Microsoft Corporation Image Labeling with Global Parameters
CN105912991A (zh) * 2016-04-05 2016-08-31 湖南大学 基于3d点云与关键骨骼节点的行为识别
CN106156714A (zh) * 2015-04-24 2016-11-23 北京雷动云合智能技术有限公司 基于骨骼关节特征和表面特征融合的人体行为识别方法
CN106650687A (zh) * 2016-12-30 2017-05-10 山东大学 一种基于深度信息和骨骼信息的姿势矫正方法
CN109902614A (zh) * 2019-02-25 2019-06-18 重庆邮电大学 一种基于局部时空特征的人体行为识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002017798A1 (de) * 2000-08-31 2002-03-07 Plus Endoprothetik Ag Verfahren und anordnung zur ermittlung einer belastungsachse einer extremität
US20120219209A1 (en) * 2011-02-25 2012-08-30 Microsoft Corporation Image Labeling with Global Parameters
CN106156714A (zh) * 2015-04-24 2016-11-23 北京雷动云合智能技术有限公司 基于骨骼关节特征和表面特征融合的人体行为识别方法
CN105912991A (zh) * 2016-04-05 2016-08-31 湖南大学 基于3d点云与关键骨骼节点的行为识别
CN106650687A (zh) * 2016-12-30 2017-05-10 山东大学 一种基于深度信息和骨骼信息的姿势矫正方法
WO2018120964A1 (zh) * 2016-12-30 2018-07-05 山东大学 一种基于深度信息和骨骼信息的姿势矫正方法
CN109902614A (zh) * 2019-02-25 2019-06-18 重庆邮电大学 一种基于局部时空特征的人体行为识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
朱国刚等: "基于Kinect传感器骨骼信息的人体动作识别", 《计算机仿真》 *
许艳等: "深度图像与骨骼数据的多特征融合人体行为识别", 《小型微型计算机系统》 *
郭丹丹等: "基于时空域Adaboost算法的人体动作识别研究", 《北京信息科技大学学报(自然科学版)》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110916707B (zh) * 2019-12-18 2023-06-27 上海皓桦科技股份有限公司 二维骨骼图像获取方法、系统及装置
CN110916707A (zh) * 2019-12-18 2020-03-27 上海皓桦科技股份有限公司 二维骨骼图像获取方法、系统及装置
CN111797733A (zh) * 2020-06-22 2020-10-20 浙江大华技术股份有限公司 一种基于图像的行为识别方法、装置、设备和存储介质
CN113196289B (zh) * 2020-07-02 2023-05-26 浙江大学 人体动作识别方法、人体动作识别系统及设备
CN113196289A (zh) * 2020-07-02 2021-07-30 浙江大学 人体动作识别方法、人体动作识别系统及设备
CN111773700A (zh) * 2020-07-24 2020-10-16 网易(杭州)网络有限公司 一种动画数据的处理方法和装置
CN111773700B (zh) * 2020-07-24 2024-05-10 网易(杭州)网络有限公司 一种动画数据的处理方法和装置
CN111914796B (zh) * 2020-08-17 2022-05-13 四川大学 基于深度图和骨骼点的人体行为识别方法
CN111914796A (zh) * 2020-08-17 2020-11-10 四川大学 基于深度图和骨骼点的人体行为识别方法
CN112464847A (zh) * 2020-12-07 2021-03-09 北京邮电大学 视频中人体动作切分方法及装置
CN113449637A (zh) * 2021-06-28 2021-09-28 桂林电子科技大学 毫米波雷达人体骨骼姿势估计方法和装置
CN113792595A (zh) * 2021-08-10 2021-12-14 北京爱笔科技有限公司 目标行为检测方法、装置、计算机设备和存储介质
CN114332378A (zh) * 2021-12-31 2022-04-12 西安交通大学 基于二维医学影像的人体骨骼三维模型获取方法及系统
CN114332378B (zh) * 2021-12-31 2024-01-16 西安交通大学 基于二维医学影像的人体骨骼三维模型获取方法及系统
CN114782497A (zh) * 2022-06-20 2022-07-22 中国科学院自动化研究所 运动功能分析方法和电子设备
CN114998491B (zh) * 2022-08-01 2022-11-18 阿里巴巴(中国)有限公司 数字人驱动方法、装置、设备及存储介质
CN114998491A (zh) * 2022-08-01 2022-09-02 阿里巴巴(中国)有限公司 数字人驱动方法、装置、设备及存储介质
CN115857836A (zh) * 2023-02-10 2023-03-28 中南大学湘雅医院 基于大数据的信息储存方法及装置
CN116309712A (zh) * 2023-03-15 2023-06-23 南通大学 一种基于深度相机的功能运动分析系统及方法
CN116309712B (zh) * 2023-03-15 2024-01-30 南通大学 一种基于深度相机的功能运动分析系统及方法
CN116434335A (zh) * 2023-03-30 2023-07-14 东莞理工学院 动作序列识别和意图推断方法、装置、设备及存储介质
CN116434335B (zh) * 2023-03-30 2024-04-30 东莞理工学院 动作序列识别和意图推断方法、装置、设备及存储介质
CN116453220A (zh) * 2023-04-19 2023-07-18 北京百度网讯科技有限公司 目标对象姿态确定方法、训练方法、装置及电子设备
CN116453220B (zh) * 2023-04-19 2024-05-10 北京百度网讯科技有限公司 目标对象姿态确定方法、训练方法、装置及电子设备

Also Published As

Publication number Publication date
CN110263720B (zh) 2022-12-27

Similar Documents

Publication Publication Date Title
CN110263720A (zh) 基于深度图像和骨骼信息的动作识别方法
CN106295568B (zh) 基于表情和行为双模态结合的人类自然状态情感识别方法
Rogez et al. Lcr-net: Localization-classification-regression for human pose
Jojic et al. Tracking self-occluding articulated objects in dense disparity maps
Polikovsky et al. Facial micro-expression detection in hi-speed video based on facial action coding system (FACS)
CN109472198B (zh) 一种姿态鲁棒的视频笑脸识别方法
CN109086706B (zh) 应用于人机协作中的基于分割人体模型的动作识别方法
Liu et al. New research advances of facial expression recognition
CN111914643A (zh) 一种基于骨骼关键点检测的人体动作识别方法
CN113408455A (zh) 一种基于多流信息增强图卷积网络的动作识别方法、系统及存储介质
CN112329525A (zh) 一种基于时空图卷积神经网络的手势识别方法和装置
Lei et al. Geometric feature based facial expression recognition using multiclass support vector machines
CN111507184B (zh) 基于并联空洞卷积和身体结构约束的人体姿态检测方法
Xia et al. Face occlusion detection using deep convolutional neural networks
Badhe et al. Artificial neural network based indian sign language recognition using hand crafted features
Jitaru et al. Toward language-independent lip reading: A transfer learning approach
Gao et al. Learning and synthesizing MPEG-4 compatible 3-D face animation from video sequence
Fakhfakh et al. Gesture recognition system for isolated word sign language based on key-point trajectory matrix
Sun et al. Deep Facial Attribute Detection in the Wild: From General to Specific.
Özbay et al. 3D Human Activity Classification with 3D Zernike Moment Based Convolutional, LSTM-Deep Neural Networks.
CN116311518A (zh) 一种基于人体交互意图信息的层级人物交互检测方法
CN114973305A (zh) 一种针对拥挤人群的精确人体解析方法
Al-Rousan et al. Recognition of dynamic gestures in arabic sign language using two stages hierarchical scheme
Ding et al. Recovering the linguistic components of the manual signs in american sign language
Peng et al. Application of mean shift algorithm in real-time facial expression recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant