CN104598890B

CN104598890B - 一种基于rgb‑d视频的人体行为识别方法

Info

Publication number: CN104598890B
Application number: CN201510051252.1A
Authority: CN
Inventors: 陈克虎; 刘天亮
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2015-01-30
Filing date: 2015-01-30
Publication date: 2017-07-28
Anticipated expiration: 2035-01-30
Also published as: CN104598890A

Abstract

本发明公开了一种基于RGB‑D视频的人体行为识别方法，属于计算机视觉的行为识别技术领域。该方法根据RGB‑D视频中不同类别的人体行为动作具有不同的运动信息、几何信息和纹理信息，对RGB‑D摄像机获取的RGB‑D视频分别提取稠密MovingPose特征、SHOPC特征和HOG3D特征，采用边缘限制的多核学习方法对三种特征进行特征融合，最后采用Exemplars‑SVM线性分类器对人体行为动作进行判决。相比现有技术，本发明中所采用的提取的三种特征融合后具有光照不变性、尺度不变性和视角不变性，对动作执行者之间的外形差异和行为动作过程差异都具有显著的鲁棒性，在一定程度上能提高人体行为动作的识别准确度。

Description

一种基于RGB-D视频的人体行为识别方法

技术领域

本发明涉及一种人体行为识别方法，尤其涉及一种基于RGB-D视频的人体行为识别方法，属于计算机视觉的行为识别技术领域。

背景技术

人体行为识别可以在很多方面应用，比如智能监控、人机交互和体育视频处理。基于输入的视频数据，人体行为识别方法可以分为三类，包括：基于RGB视频数据的方法、基于深度视频数据的方法以及基于两种数据相结合的方法。

由于深度传感器能够获取更加丰富的外观和结构信息，所以深度摄像机在计算机视觉领域越来越受到广泛的关注。近年来，越来越多的公司开发出了RGB-D摄像机，该类设备的特点是能够实时的提供RGB图像和深度图像，比如2010年微软发布了能够实时采集RGB-D图像的摄像头(即Kinect)；2011年华硕发布了Xtion PRO；2013年体感控制器制造公司Leap发布的Leap Motion。

RGB-D视频相比于RGB视频具有几个优点。首先，他们提供了额外的身体外形和结构信息，这些信息已经成功的应用在从单幅深度图中获取骨架节点信息和稠密点云结构信息；其次，在深度图中去除掉了色彩和纹理信息，这使得人体检测和分割更容易；第三，深度传感器对光照变化不敏感，这使得在黑暗环境下的监视设备带来了好处。

设计基于RGB-D视频的有效特征在很多计算机视觉问题中仍然是很重要的研究问题。很多现有的人体行为识别技术[Cheng,Qin,Ye,Huang,Tian.Human daily actionanalysis with multi-view and color-depth data.Computer Vision–ECCV2012.Workshops and Demonstrations,52-61:Springer,2012.]将深度序列以和彩色视频相同的方法来处理，采用基于色彩的识别方法。然而，虽然这些方法适用于彩色视频序列，将它们简单地推广到深度视频序列可能不会产生最优的结果[Oreifej,Liu.Hon4d:Histogram of oriented 4d normals for activity recognition from depthsequences.Computer Vision and Pattern Recognition(CVPR),2013IEEE Conferenceon,716-723:IEEE,2013.]。由深度摄像机获得的信息也可以采用几何特征来提取更丰富的特征描述子。例如，[Tang et al.Histogram of oriented normal vectors for objectrecognition with a depth sensor.Computer Vision–ACCV2012,525-538:Springer,2013.]采用法线向量直方图用于深度图像的目标检测。给定一个深度图像，他们计算相对应的空间导数，将其转换到极坐标，并且采用它们的2D直方图作为目标描述子。最近，[Oreifej,Liu.Hon4d:Histogram of oriented 4d normals for activity recognitionfrom depth sequences.Computer Vision and Pattern Recognition(CVPR),2013IEEEConference on,716-723:IEEE,2013.]通过增加时间导数将相同的技术扩展到时间维度。将深度视频序列以这种方式进行处理的缺点是深度图像中的噪声在这种微分操作过程中被过于放大。

基于深度图的行为识别方法可以分为基于全局的方法[Yang,Zhang,Tian.Recognizing actions using depth motion maps-based histograms of orientedgradients.Proceedings of the 20th ACM international conference on Multimedia,1057-1060:ACM,2012.]；和局部方法[Xia,Aggarwal.Spatio-temporal depth cuboidsimilarity feature for activity recognition using depth camera.ComputerVision and Pattern Recognition(CVPR),2013IEEE Conference on,2834-2841:IEEE,2013.]。全局方法采用全局特征，例如轮廓和空-时volume信息。例如，[Li et al.Actionrecognition based on a bag of 3d points.Computer Vision and PatternRecognition Workshops(CVPRW),2010IEEE Computer Society Conference on,9-14:IEEE,2010.]从2D轮廓中采样边界像素点作为特征。[Yang et al.Recognizing actionsusing depth motion maps-based histograms of oriented gradients.Proceedings ofthe 20th ACM international conference on Multimedia,1057-1060:ACM,2012.]2D投影的时间导数来获取深度运动图(DMM)。[Vieira et al.Stop:Space-time occupancypatterns for 3d action recognition from depth map sequences.Progress inPattern Recognition,Image Analysis,Computer Vision,and Applications,252-259:Springer,2012.]采用空-时占用模式计算3D中的轮廓。最近，[Oreifej,Liu.Hon4d:Histogram of oriented4d normals for activity recognition from depthsequences.Computer Vision and Pattern Recognition(CVPR),2013IEEE Conferenceon,716-723:IEEE,2013.]通过添加时间导数扩展了3D法线直方图[Tang et al.Histogramof oriented normal vectors for object recognition with a depthsensor.Computer Vision–ACCV 2012,525-538:Springer,2013.]到4D。标准化梯度向量到单位幅值，并且投影到一个优化的具有600个cell的多面体来获取直方图。

基于运动轨迹的行为识别方法[H.Wang,Klaser,Schmid,Liu.Actionrecognition by dense trajectories.Computer Vision and Pattern Recognition(CVPR),2011IEEE Conference on,3169-3176:IEEE,2011.]在深度视频序列中也不稳定。因此，凭借最近的基于深度的行为识别方法采用可选择的方法提取可靠的感兴趣点。[J.Wang,Liu,Chorowski,Chen,Wu.Robust 3d action recognition with randomoccupancy patterns.Computer Vision–ECCV2012,872-885:Springer,2012.]从每个随机子volume中提取Haar特征。[Xia,Aggarwal.Spatio-temporal depth cuboid similarityfeature for activity recognition using depth camera.Computer Vision andPattern Recognition(CVPR),2013IEEE Conference on,2834-2841:IEEE,2013.]利用滤波策略提取空-时感兴趣点。该方法在行为的执行速度大于信号的flip时，就失效了，因为受到摄像机的噪声干扰。这些方法都对视点变化敏感。

综上所述，现有的基于RGB-D数据的人体行为识别技术普遍存在着特征的稳定性和识别准确率低的问题。

发明内容

本发明所要解决的技术问题在于克服现有技术不足，提供一种基于RGB-D视频的人体行为识别方法，具有更好的特征稳定性和更高的识别准确率。

本发明具体采用以下技术方案：

一种基于RGB-D视频的人体行为识别方法，利用从RGB-D视频中所提取的多种特征的融合特征进行人体行为的识别，所述多种特征包括稠密MovingPose特征，所述稠密MovingPose特征的提取方法具体如下：

步骤1、对RGB-D视频中的人体骨架节点进行归一化；

步骤2、对已归一化后的人体骨架采用圆柱体或者椎体进行人体表面拟合，然后在该拟合的表面上进行稠密采样，以稠密采样点作为行为动作跟踪点；

步骤3、对于每帧中每一行为动作跟踪点，获取其相应的MovingPose描述，MovingPose描述子的表达式为：

其中，为t时刻所对应帧中第i个动作跟踪点的MovingPose描述，p_i(t)为t时刻所对应帧中第i个动作跟踪点的三维空间坐标，δp_i(t)、δ²p_i(t)分别表示p_i(t)关于时间的一阶导数和二阶导数，参数α和β是一阶导数和二阶导数的相对重要性权值；

步骤4、将RGB-D视频各帧中的同一行为动作跟踪点依次连接，形成该动作跟踪点的轨迹特征，所有动作跟踪点的轨迹特征构成该RGB-D视频的底层轨迹特征；

步骤5、利用词典学习方法将RGB-D视频的底层轨迹特征用直方图形式进行表示，即得到RGB-D视频的稠密MovingPose特征。

进一步地，所述多种特征还包括超级有向主成分直方图特征-SHOPC特征，所述SHOPC特征的提取方法具体如下：

步骤1、对RGB-D视频的三维点云信息进行归一化；

步骤2、提取归一化后的三维点云信息的HOPC(Histogram of OrientedPrincipal Components，有向主成分直方图)特征；

步骤3、利用稀疏编码词典学习方法对HOPC特征进行稀疏编码差值表示，然后利用自适应空-时金字塔对稀疏编码差值表示的HOPC特征进行空-时整合优化处理，得到RGB-D视频的SHOPC特征。

更进一步地，所述多种特征还包括HOG3D纹理特征。

优选地，使用边缘限制多核学习特征融合方法进行所述多种特征的融合，所述边缘限制多核学习特征融合方法中的SVM优化目标函数如下：

s.t.

y_i(w·Φ(x_i)+b)-1+ξ_i≥0,

其中，其中，w表示SVM中分类超平面系数向量；表示对误判的惩罚项，参数C表示惩罚因子；表示对MKL基元特征核矩阵权值系数的约束项，d_k表示第k种基元特征的系数，σ_k表示对基元特征间的先验知识加权系数；Φ(x_i)表示样本x_i在高维空间中对应的特征表示；

所述边缘限制多核学习特征融合方法中的核函数为归一化的RBF核函数，具体如下：

其中，x_i和x_j分别为第i和第j个基元特征样本，x_i,q和x_j,q分别为x_i和x_j两个特征向量的第q个分量；D表示样本的特征维度；参数γ决定着从低维空间到高维空间的映射关系。

相比现有技术，本发明具有以下有益效果：

本发明充分利用RGB-D摄像机所提供的深度信息，基于深度视频信息分别提取稠密MovingPose特征和SHOPC特征，基于RGB视频信息提取HOG3D特征，并由此组合构成更鲁棒的整体特征；本发明方法能够降低不同人之间的体貌特征、外观衣着、行为过程的差异(速度差异，镜像差异等)以及光照变化、遮挡的影响，从而提高人体行为识别在复杂条件下的准确度；

本发明利用MCMKL(Margin-Constrained Multiple Kernel Learning，边缘限制多核学习)进行多种特征的融合，相比于直接将多种类型的特征连接成一个更高维的特征向量的方式，MCMKL可以避免因总特征的维度过高造成的维度灾难，同时可以消除对较低区分度的基元特征有效互补信息的弱化影响。

附图说明

图1为具体实施方式中本发明人体行为识别方法的流程示意图；

图2为Kinect获得的人体骨架节点信息示例；

图3为点云空-时邻域整合的示意图；

图4为归一化运动能量累计曲线；

图5为沿骨架节点轨迹获取SHOPC特征的流程示意图。

具体实施方式

下面结合附图对本发明的技术方案进行详细说明：

本发明的思路是根据不同的人体行为类别具有不同的运动信息、外观几何信息和纹理信息，对RGB-D摄像机获取的RGB-D视频提取稠密MovingPose特征、SHOPC特征和HOG3D特征，采用MCMKL方法进行三种特征的融合处理，获取每种特征中具有显著性的特征互补信息。最后采用Exemplars-SVM分类器，对于人体行为类别进行判决。

本发明的基于RGB-D视频的人体行为识别方法，包括训练阶段和测试阶段，其整体流程如图1所示。

所述训练阶段包括以下步骤：

步骤A、获取各人体行为类的RGB-D视频样本并从各RGB-D视频样本中分别根据人体骨架节点运动能量去除冗余帧。

本发明技术方案中的RGB-D视频可采用现有的各种RGB-D摄像机获取，本实施方式中采用微软公司的Kinect，该装置除能获得RGB图像和深度图像，该装置除能获得RGB图像和深度图像，可以分别应用NITE库和PCL库获取人体骨架节点信息和点云信息；为后续提取稠密MovingPose特征、SHOPC特征和HOG3D特征提供了便利，图2即显示了Kinect获取的人体骨架信息的一个实例。

从各RGB-D视频样本中分别进行去除冗余帧操作，缩小特征提取范围，提高系统运算效率。时间冗余帧的去除可采用现有的K-means聚类法[Zhuang,Rui,Huang,Mehrotra.Adaptive key frame extraction using unsupervised clustering.ImageProcessing,1998.ICIP 98.Proceedings.1998International Conference on,1:866-870:IEEE,1998.]、帧间相关性度量法[Ejaz,Tariq,Baik.Adaptive key frameextraction for video summarization using an aggregation mechanism.Journal ofVisual Communication and Image Representation,23:1031-1040,2012.]、光流法[Liu,Shao,Rockett.Boosted key-frame selection and correlated pyramidal motion-feature representation for human action recognition.Pattern Recognition,46:1810-1818,2013.]等方法。然而上述方法均较复杂，由于本实施例中采用Kinect，可直接获取人体骨架节点信息，人体骨架节点位置运动信息就可以代表对应身体部分的运动，因此可采用人体骨架节点信息作为剔除冗余帧的依据，从而降低计算复杂度高，该方法具体如下：

步骤1、通过Kinect获取视频样本中每一帧所对应的人体骨架节点信息，任一人体骨架节点可以表示为p_i＝(p_x,p_y,p_z)，i∈{1,...,N}，N表示人体骨架节点总数；

步骤2、按照步骤1的方法获取视频样本所有帧的人体骨架节点信息，任一人体骨架节点可以表示为时间t的函数p_i(t)＝(p_x(t),p_y(t),p_z(t))；分别计算任一人体骨架节点关于时间t的一阶导数和二阶导数δp(t)和δ²p(t)，最终获得当前帧的运动能量描述特征向量：X(t)＝[P(t),αδP(t),βδ²P(t)]，

其中，P(t)＝{p₁(t),...,p_N(t)}表示在时刻t处所有身体骨架节点的集合；δP(t)＝{δp₁(t),...,δp_N(t)}表示在时刻t处所有身体骨架节点近似速度的集合；δ²P(t)＝{δ²p₁(t),...,δ²p_N(t)}表示在时刻t处所有身体骨架节点近似加速度的集合；α和β为两个权值，其取值范围均为(0，1]；(实验中发现当α＝0.75，β＝0.6时得到最佳的实验效果)；

为了简便起见，本实例中的δp(t)和δ²p(t)，采用以当前帧为中心的连续5帧长度的时间窗口中的近似估值，即：

δp(t)＝p(t+1)-p(t-1)

δ²p(t)＝p(t+2)+p(t-2)-2·p(t)；

步骤3、计算相邻帧运动能量特征向量的距离，将该距离与一个预设阈值ξ比较，当小于该阈值时就去除该帧，否则就保留该帧。

步骤B、对预处理后的候选帧进行特征提取，所述特征提取具体如下：

步骤B1、对各个视频样本，利用NITE工具箱可以直接获取人体的3D骨架节点，对3D骨架节点利用椭圆柱体进行3D表面拟合处理，然后在拟合的表面上获取采样点，最后利用这些采样点获取稠密MovingPose特征；

对于人体行为识别而言，常用的基于运动轨迹的行为识别方法有[H.Wang etal.Action recognition by dense trajectories.Computer Vision and PatternRecognition(CVPR),2011IEEE Conference on,3169-3176:IEEE,2011.]；[Wu,Oreifej,Shah.Action recognition in videos acquired by a moving camera using motiondecomposition of lagrangian particle trajectories.Computer Vision(ICCV),2011IEEE International Conference on,1419-1426:IEEE,2011.]，这些方法中获取跟踪点的方法主要有稠密光流算法[Alvarez,Weickert,Sánchez.Reliable estimation ofdense optical flow fields with large displacements.International Journal ofComputer Vision,39:41-56,2000.]，KLT跟踪算法[Lucas,Kanade.An iterative imageregistration technique with an application to stereo vision.IJCAI,81:674-679,1981.]，但是这些算法获得的轨迹并不完全稳定，可能受到图像中的噪声影响。为了获得更加稳定的运动轨迹，本发明中对人体骨架进行3D表面拟合，采用3D拟合表面采样点作为轨迹跟踪点，因为在相邻帧之间提取的采样点数相同，轨迹可以一一对应，所以获取的轨迹信息十分稳定。稠密轨迹特征一般只是获取每个采样点的空间坐标信息作为轨迹特征，而稠密MovingPose特征获取每个采样点的MovingPose信息作为轨迹特征。相比于简单的空间坐标信息，MovingPose特征既包含静态的空间坐标信息，又包含该采样点在视频中的速度和加速度信息。速度能够描述采样点的运动速率和方向，加速度能够获取速度的变化信息。方向上的变化以及速度上产生非零加速度，在具有圆周运动的行为中具有很大作用，因此MovingPose特征能够获取更丰富的运动信息。

所述稠密MovingPose特征的提取包括以下步骤：

步骤1、骨架节点的归一化处理

(1)统计训练数据集里各个骨骼段的平均长度(两个相连骨骼节点间的长度定义为骨骼段)。令S＝[s₁,s₂,...,s_m](N_S表示骨骼段的数目)表示统计得到的骨骼段的期望长度；然后将S归一化为单位向量。对于给定的训练样本和测试样本，从根节点(hip节点)，沿骨架树相邻节点向前计算下一个节点位置，使第i个骨骼段的长度为s_i，同时保持该向量的方向不变。

(2)以hip中心为原点p_hip＝[0,0,0]，其他节点以hip节点为参考，就可以得到P＝[p₁-p_hip,...,p_N-p_hip](N_K表示骨架节点的数目)。

(3)方向归一化处理

如图3所示，取p₀、p₁、p₂、p₄和p₈5个点用来拟合一个空间平面，f(p)＝π^T·[p^T,1]＝0，||π||²＝1，通过最小化这5个点到该平面的距离来拟合平面：

s.t.||π||²＝1

其中矩阵P是由各控制点的相应齐次坐标构成，定义为

该平面的参数π＝[π_x,π_y,π_z,π_t]^T使等式(1)达到最小化，对应于P的最小奇异奇异向量，可以通过奇异值分解对其进行求解。

利用该拟合的平面进一步求取旋转矩阵R。该旋转矩阵是将平面f(p)＝π^T[p^T,1]^T＝0映射到x-y平面上：u(p)＝e_z·[p^T,1]^T＝0，其中e_z＝[0,0,1,0]^T。

平面f(p)＝0和u(p)＝0的法线分别表示为

e'_z＝[0,0,1]^T (4)

将拟合平面旋转到x-y平面等效于将拟合平面的法线π'旋转到x-y平面的法线e'_z。假设旋转矩阵R的旋转轴为x，旋转角度为θ

则旋转矩阵R由如下公式定义：

R＝I·cosθ+A·sinθ+(1-cosθ)·x·x^T (6)

其中A是x的斜对称矩阵

旋转矩阵可以用于所有帧内3D节点位置和3D点云的方向标准化。

步骤2、3D表面拟合与采样

表面拟合是对已标准化后的人体骨架采用圆柱体或者椎体进行人体表面拟合。然后在该拟合的表面上进行稠密采样，获取稠密MovingPose所需的行为动作跟踪点。表面拟合与采样的方法采用[Gupta,Martinez,Little,Woodham.3D Pose from Motion forCross-view Action Recognition via Non-linear Circulant Temporal Encoding..]中提供的方法。

步骤3、提取稠密MovingPose特征

(1)MovingPose特征：

由步骤2获取的拟合表面中任一采样点的3D空间位置可以表示为p_i＝(p_x,p_y,p_z)，其中i∈{1,...,N_mp},N_mp是拟合表面采样点的总数。对于每帧中的任一采样点，均计算其相应的MovingPose描述子。该描述子由标准化的3D姿态p_i(t₀)＝[p_x(t₀),p_y(t₀),p_z(t₀)]以及其一阶和二阶导数δp_i(t₀)和δ²p_i(t₀)构成。相应导数的数值解是通过以当前帧为中心的帧长度为5的时间窗口进行估计：

δp_i(t₀)≈p_i(t₀+1)-p_i(t₀-1) (8)

δ²p_i(t₀)≈p_i(t₀+2)+p_i(t₀-2)-2·p_i(t₀) (9)

则该采样点在时间t₀处最终的描述子表示为：参数α和β是关于两部分导数的相对重要性。

(2)稠密MovingPose轨迹：

将RGB-D视频内每帧由步骤2获取的拟合表面采样点对应地进行连接，形成多条轨迹，如任意一条轨迹表示为限制轨迹的长度为L帧，有利于克服轨迹偏离初始位置的问题，同时有利于底层特征间保持可比性。

(3)采用词典学习方法将底层的轨迹特征以直方图形式进行来表示：

首先，对底层轨迹特征构建一个词典D_mp，初始化词典中词典基元数目(实验验证取4000得到的实验效果较好)。为了降低时间计算复杂度，在所有训练样本的底层轨迹特征中随机选取100,000个，然后采用K-means聚类方法获取词典D_mp。假设任一视频样本为Sample_n，其去除时间冗余后剩余帧数为N_F，那么对该样本就可提取底层轨迹特征为Tr＝(Tr₁,Tr₂,...,Tr_Ns)，其中将底层轨迹特征Tr中的每条轨迹通过欧式距离分配到离它最近的词典基元，最终获得和词典基元数目相同维数的直方图描述子MP_n。

步骤B2、对各个视频样本，利用深度视频信息获取对应的点云视频信息，然后在点云序列上结合3D骨架节点轨迹信息提取SHOPC特征；

本发明采用SHOPC特征来嵌入外观信息，计算沿轨迹的空-时volume内的点SHOPC特征，描述人体的外观特征。HOPC(Histogram of Oriented Principal Components)，可以获取3D点云序列内，任意点周围的局部几何特征，相对于普通的RGB特征具有光照不变性、方向不变性。在人体骨架节点轨迹空-时邻域上采用自适应空-时金字塔，分割一组空-时grids。将每个grid提取的SHOPC特征向量集成为最终的外观特征。时间金字塔由[Laptev,Marszalek,Schmid,Rozenfeld.Learning realistic human actions frommovies.Computer Vision and Pattern Recognition,2008.CVPR 2008.IEEE Conferenceon,1-8:IEEE,2008.]引入，用来描述人体行为的大体时间顺序。自适应时间分割形成的时间金字塔，对人体行为执行速度差异具有鲁棒性。

所述SHOPC特征的提取包括以下步骤：

步骤1、三维点云信息的归一化处理

对获取的3D点云空间坐标采用如步骤B1中骨架节点的归一化方法进行相同的归一化处理。

步骤2、提取来自三维点云的底层HOPC视觉特征

令Q＝{Q₁,Q₂,…,Q_t,…,Q_nf}表示由深度摄像机获取的3D点云数据，其中nf表示3D点云帧数，Q_t表示在时间t处的3D点云帧。定义点p＝(x_t,y_t,z_t)^T，1≤t≤nf为点云帧Q_t中的任意一点。通过在时间间隔[t-τ,t+τ](时间邻域半径τ≥0)内累加融合点云序列形成一个空-时累加3D点云帧(如图2所示)，在该空-时累加3D点云帧中，Ω(p)表示点p的一个以p为中心，半径为r的3D球体空-时邻域。对于p点邻域内的外观视觉特征(如点云的空间分布结构)通过采用该点邻域内的散度矩阵C来描述。

其中表示点p空间邻域Ω(p)内点的个数。

根据主成分分析PCA的原理，在散度矩阵C上进行矩阵分解，可得CV＝EV，其中E表示以散度矩阵C的特征值(λ₁、λ₂和λ₃)为对角线元素的矩阵，其中(λ₁≥λ₂≥λ₃)，V表示由散度矩阵C的特征向量组成的矩阵[v₁,v₂,v₃]，其中v₁,v₂,v₃分别和λ₁,λ₂,λ₃对应，按照相应的特征值的大小降序排列。

本发明提出的对于点p的HOPC描述子，是通过将该点散度矩阵对应的每个特征向量投影到正m面体的m个方向上得到。此处采用m＝20的正20面体，每个面对应于直方图的每个bin。令U∈R^3×m表示正20面体的体中心点到面中心点的方向向量构成的矩阵：

U＝[u₁,u₂,…,u_i,…,u_m]

对于一个正20面体，使其中心位于原点，则这些方向向量就可以归一化为：

其中为黄金分割比例，表示向量u_i(1≤i≤m)的长度。

由于特征向量仅表示3D空间中相应点的最大变化方向，因此存在着180^°的歧义性问题。为了消除该歧义性，考虑通过点p空间邻域Ω(p)内其他点和点p之间向量的方向和幅值的分布来决定。本发明以特征向量v_j和所有p空间邻域内的向量的内积的符号来决定每个特征向量v_j的符号：

其中o＝q-p，sign(x)为关于标量x的符号函数。注意上式中对投影o^Tv_j的平方操作可以将由噪声引起的较小的投影去除掉。若特征向量v₁，v₂和v₃的符号不全相等，例如，v₁×v₂≠v₃，则将值最小的那个特征向量的符号取反。然后，将每个特征向量v_j在正m面体的归一化方向矩阵U上进行投影：

b_j＝U^Tv_j∈R^m，1≤j≤3 (12)

假如特征向量v_j和u_i∈U的方向一致，则v_j的幅值应该完全的投影到第i个bin。然而，由正m面体的方向组成的U中的每个u_i，与其它方向之间不是完全正交。于是v_j在其他bin中的投影值也可能是非零值。为了克服这种影响，本发明利用由任意两个相邻向量u_k和u_l间的投影，计算得到某一阈值ψ，对投影b_j进行关于阈值ψ的量化处理。

注意，对于任意u_k∈U，均能找到一个u_l∈U，使得量化后的向量为：

其中1≤z≤m为向量分量下标。设h_j为由对应的特征值λ_j尺度归一化的向量：

按特征值降序排列将对应特征向量的有向主成分直方图连接形成点p的HOPC描述：

步骤3、提取SHOPC(Super Histogram of Oriented Principal Components)特征

在底层的HOPC特征描述子基础上，本发明采用稀疏编码词典学习策略，对HOPC特征进行稀疏表示编码。对Depth深度视频，采用自适应空-时金字塔分解为一组空-时grids。利用每个grid提取的特征向量，依次串联拼接成一个整体的SHOPC特征。

(1)单个volume体空间上SHOPC特征提取

首先词典学习，同时获取稀疏系数矩阵，然后对之前提取的HOPC底层特征进行编码。矩阵为所有N_p个点云的特征集合，其中M＝3m。

稀疏编码问题可以通过等式(17)求解：

满足

此处，D∈R^M×K表示词典，其中K为词典基元个数，每列d_k∈R^M×1都表示一个词典基元，α表示稀疏系数向量，λ表示稀疏度限制的参数。

对每列稀疏系数向量α_i(1≤i≤N_p)，进行范数归一化；任意底层HOPC特征g_i由第k个词典基元表示的稀疏系数为α_i,k。

1)空间轴采用加权平均pooling聚合策略

在每个分割段的grid内，对于t时刻单帧点云在空间划分的H×W范围中，通过采用稀疏系数加权叠加底层HOPC特征和每个词典基元的差值来自适应加权平均实现聚合：

其中s_k(t)表示在第t帧的volume内所有HOPC特征相对于第k个词典基元的差值向量pooling的结果，N_t表示第t帧内底层HOPC特征的个数。

2)时间轴上采用最大化pooling聚合L_V帧内的特征：

s_k为整个volume内第k个词典基元的向量表示；L_V表示整个volume包含的帧数；i表示对应向量的第i个分量索引。最终特征描述S是将K个词典基元得到的向量表示s_k拼接形成的KM维的特征向量：

(2)自适应空-时金字塔

1)获取自适应时间分割点

给定一个点云序列，首先把第t帧点云Q_t投影到3个正交平面，获得三幅投影图像v∈{1,2,3}。相邻两帧之间的差值采用阈值法，生成一幅二值图像，通过累计该二值图像中非零元素的个数作为运动能量：

其中ε(t)和ζ分别为第t帧的运动能量和预设的阈值；求和函数sum(·)统计相应二值图像中非零元素的个数。一帧的运动能量反映它相对于整个运动序列的相对运动状态。

如图4所示，在归一化的运动能量轴上平均分割出一组分割点，将这些分割点通过能量曲线ε(t)映射到对应的时间点，这些时间点即为时间分割点。此处，采用一个3层的时间金字塔：{t₀～t₄}，{t₀～t₂,t₂～t₄}，{t₀～t₁,t₁～t₂,t₂～t₃,t₃～t₄}。

2)提取沿着身体节点轨迹获取轨迹空-时邻域上的SHOPC特征.

如图5所示，将沿着节点轨迹的空-时volume视为一个单独的视频序列。在该视频volume上应用自适应空-时金字塔获得n_H×n_W×7个空-时cells。在每个cell上，采用和上述相同的特征聚合策略：空间轴自适应加权平均pooling和时间轴最大化pooling。将所有空-时cell得到的特征向量，拼接成沿节点轨迹的SHOPC特征。最后，获取到每条节点轨迹的SHOPC特征结合起来作为视频样本Sample_n的整个点云序列的几何特征SP_n。

步骤B3、对各个视频样本，利用RGB视频信息在3D骨架节点邻域提取HOG3D纹理特征；

HOG(histograms of Gradients)在静态图像的纹理描述上一般能够获得很好的效果。HOG3D是将HOG特征从静态图像扩展到视频中的一种纹理特征，其延续了HOG对纹理描述的优良特性。所以本发明采用HOG3D对身体节点空-时邻域进行纹理描述，从而弥补运动特征和几何特征的不足。

所述HOG3D特征的提取包括以下步骤：

步骤1、计算空-时方向梯度直方图

(1)梯度计算

为了提高内存利用率，采用积分视频计算均值梯度向量。给定一个RGB视频序列V(x,y,t)，沿着x,y,t方向的偏导数分别表示为：对于的积分视频分别表示为：

对于的积分视频也分别采取等式(21)的方式得到。

对任意的3D空-时立方体空间b＝(x,y,t,w,h,l)^T,其中(x,y,t)^T表示它的空-时位置，(w,h,l)^T分别表示它的宽度、高度和长度。计算它的均值梯度为对于表示为：

和也分别采取等式(22)的方式得到。

(2)梯度量化

在空-时3D空间中我们采用如步骤B2中所示的正m面体进行梯度的量化处理。此处采用m＝20的正20面体，每个面对应于直方图的每个bin。令U∈R^3×m表示正20面体的体中心点到面中心点的方向向量构成的矩阵：

U＝[u₁,u₂,…,u_i,…,u_m]

此处的U定义和步骤B2中完全相同，在正m面体的归一化方向矩阵U上进行投影为：

其中，

和步骤B2中相同，由正m面体的方向组成的U中的每个u_i，与其它方向之间不是完全正交。这里也需要对投影进行阈值处理：

此处的阈值ψ≈1.29107。

(3)计算直方图

对于给定的空-时立方体空间c＝(x_c,y_c,t_c,w_c,h_c,l_c)^T，将其分割为N_x×N_y×N_t个子块。对于任意子块b_i都对应一个均值梯度向量应用正多面体将量化为q_bi。通过对所有子块b_i的均值梯度量化向量q_bi求和即可获得空-时立方体空间c的直方图h_c：

通过实验发现，当N_x＝N_y＝N_t＝3时可以得到最优的实验结果。

步骤2、结合骨架节点邻域计算HOG3D特征

此处采用和步骤B2相同的策略，将沿着节点轨迹的空时volume视为一个单独的视频序列。在该视频volume上应用自适应空时金字塔获得n_H×n_W×7个空-时cells。在每个cell c_i(1≤i≤n_H×n_W×7)上分别计算空-时梯度量化直方图h_ci。将所有空-时cell得到的直方图特征向量，拼接成沿节点轨迹的HOG3D特征。最后，获取将每条节点轨迹的HOG3D特征结合起来作为视频样本Sample_n的整个RGB视频的纹理特征HP_n。

步骤C、利用边缘限制的多核学习方法对步骤B中提取的稠密MovingPose特征、SHOPC特征和HOG3D特征进行特征融合处理；

最简单的多特征融合方式是直接将多种类型的特征连接成一个更高维的特征向量，但是这种方式往往会弱化包含有效互补信息的低区分度基元特征，同时有可能因为总特征的维度过高造成维度灾难。多核学习(MKL)是另外一种很有效的特征融合方式[Bach,Lanckriet,Jordan.Multiple kernel learning,conic duality,and the SMOalgorithm.Proceedings of the twenty-first international conference on Machinelearning,6:ACM,2004.]，它一般与基于核的分类器结合使用(比如SVM)。MKL通过多种核函数将不同的基元特征对应的核矩阵结合为最优的多核矩阵，可以有效避免直接特征融合方式产生的维数灾难问题。

但是，MKL倾向于只选取具有较大区分度的少数基元特征，而忽略其他包含有效互补信息的低区分度基元特征。因此，MKL有时不能完全将多种基元特征的有效信息结合起来。

另一方面，MKL通常采用基于高斯RBF的核来将每个基元特征映射到高维空间。不同的基元特征往往采用不同的核参数来达到其最优性能。但是，不同的基元特征特征维度通常不相等。因此，MKL不能够同时达到每个基元特征的最优性能。

基于上述问题，本发明提出了MCMKL(Margin-Constrained Multiple KernelLearning)，主要有以下两方面优化：(1)增加了额外的边缘限制条件；(2)采用维度归一化参数的RBF核。

在SVM中，边缘距离定义为两个类别的支持向量间的垂直距离。通常基元特征在训练的模型中获得的边缘距离与其特征的区分度成正比。所以，可以利用边缘距离来衡量每个基元特征的区分度，指导MKL每个基元特征权值的学习。

MCMKL采用维度归一化的RBF核，使得每个基元特征对应的高维空间具有相似的核参数，因此可以去除由多种特征维度差异带来的影响，使每个基元特征的区分度达到最大化。

(1)边缘限制

给定一组基元特征以及与它们相对应的核矩阵K_k(1≤k≤N_K，N_K表示基元特征数目)，多核学习MKL的目标就是通过学习获得最优的结合核^：K_opt＝Σ_kd_k·K_k，其中d_k为第k个基元特征的权值。

MKL的优化过程，将核权值优化部分融合到基于核的标准支持向量机SVM目标函数中，如下所示

满足，y_i(w·Φ(x_i)+b)-1+ξ_i≥0 (27)

目标函数(26)和标准约束的C-SVM模型的目标函数基本一致，唯一的区别是添加了对MKL的基元特征核矩阵权值系数的约束项该约束项能够防止在包含大量基元特征核的情况下出现过拟合的现象，因为最后只有一少部分的基元特征核被采用。因此，大多数的权值将会依赖于参数σ中的部分元素置为0，这样来选取优先选择的基元特征。

在标准的SVM基础上，引入两个额外的限制条件：1)d_k≥0，保证了权值符号为正的物理意义。2)A_pd≥p，采用该限制对一些先验知识(比如，人体行为识别中运动信息要比纹理信息更重要)进行约束。这里我们假设对特征优先级的先验知识不可知，因此我们将σ_k(1≤k≤N_K)都设置为相同的常数，并且舍弃A_pd≥p的限制条件。

不等式(27)中的Φ(x_i)表示样本x_i在K_opt高维空间中对应的特征表示：

然后，利用求解标准SVM目标函数的最优化方法进行求解。采用交替迭代min-max最小-最大优化策略，利用两个迭代步骤来实现MKL的学习过程。

第一步，首先固定基元特征权值d_k，即K_opt＝Σ_kd_k*K_k的形式固定；然后，等式(26)的优化问题，可以利用求解标准SVM目标函数最优化的方法求解，如下所示：

满足，

其中为一个非零值，对应于第i类的支撑向量。

第二步，固定然后采用投影梯度下降法更新基元特征权值d_k，如下所示：

重复两个迭代步骤，直到达到收敛或者最大迭代次数就获得了基元特征的权值。

基元特征的区分度能通过由各个基元特征训练得到的SVM分类模型中的边缘距离来判别。本发明利用边缘距离来约束等式(31)和(32)对d_k更新后的取值范围。

首先、分别计算获得每个基元特征的边缘距离m_k：

其中，m_k表示第k种基元特征训练得到的SVM模型得到的边缘距离，w_k表示训练得到的SVM模型系数向量，表示SVM的目标函数。

接着，选取其中某个基元特征作为参考基元特征：其特征权值d_s和边缘距离m_s都作为参考值。第k个基元特征的权值限制在[LB_k,UB_k]范围内，即

其中参数η控制d_k/d_s与边缘变化之间的灵敏度。当η越大，LB_k和UB_k的值就对d_k/d_s的变化越敏感；常数δ控制d_k的取值范围。实验中，一般设置η＝1.5，δ＝1。

(2)利用基元特征维度对核参数归一化：

采用广泛应用的非线性高斯RBF核进行基元特征归一化，定义为：

其中x_i和x_j分别为第i和第j个基元特征样本，x_i,q和x_j,q分别为x_i和x_j两个特征向量的第q个分量；D是样本的特征维度；参数γ决定着从低维空间到高维空间的映射关系。

假设，特征向量x_i和x_j的每个特征维度都归一化至[0,1]区间，假如对不同的基元特征都采用相同的RBF核参数γ，那么当特征维度变大时，核值会降低。

在MKL融合过程中，多种基元特征的特征维度通常不相等。于是，对于不同的特征应该采用不同的核参数γ，才能使得MKL对于每种基元特征同时达到最大的区分度。

基于上述考虑，本发明提出了基元特征维度归一化的RBF核DNRBF(DimensionallyNormalized RBF)，如下式所示：

步骤D、利用K-means聚类方法对每个人体行为类提取具有较高类内支持率和类间增长率的的模板Exemplars；对每个Exemplar，以自身作为正样本，其他类中的Exemplars作为负样本，训练一个独立的SVM分类器，训练特征为步骤C中由稠密MovingPose特征、SHOPC特征和HOG3D特征经过边缘限制多核学习后的融合特征；

本发明应用Exemplars-SVM作为分类器，可以有效的解决语义类内视觉变化多样性的问题(比如，打电话的动作，有人习惯左手持电话，而有人习惯右手持电话)。若采用普通的分类器对语义类内包含视觉变化的行为类进行分类，则训练得到的分类器分类效果一般比较差或者产生过于泛化的结果。所以采用Exemplars-SVM来解决语义类内多样化的问题，首先针对每个语义类通过聚类的方式选取多个Exemplars实例，然后针对每个Exemplar实例都学习一个分类器，训练分类器的正样本即为该Exemplar实例，负样本为其他语义类的Exemplars实例。在测试阶段，对于输入的测试样本，利用训练得到的Exemplars-SVM对测试样本分别进行判别，利用判决得到的结果和对应的判决得分进行结果的归一化综合得到最终的判决结果。

给定一组通过聚类得到的各个语义类的Exemplars实例，利用x_E表示每个Exemplar实例，N_E表示负样本的个数。通过最优化如下的凸目标函数，以求解权值向量w_E：

其中h(x)＝max(0,1-x)。

而普通的SVM分类器的目标函数为：

Ω(w,b)＝||w||²+C·h(w^Tx+b) (38)

和普通的SVM相比，Exemplars-SVM的惩罚项是将正负样本的惩罚项分开，因为在Exemplars-SVM中正样本数目只有一个，和负样本数目个数差异悬殊，那么正样本被错分到负样本的概率就很大，所以采用正负样本惩罚力度有别的方式来调节正负样本数目悬殊带来的影响。

对于等式(37)，一般令C₁>>C₂，使得训练的模型正样本判决不容易判决出错。Exemplars-SVM的实现方法借鉴[Chang,Lin.LIBSVM:a library for support vectormachines.ACM Transactions on Intelligent Systems and Technology(TIST),2:27,2011.]提供的源码，通过理解等式(37)引伸出的其物理含义，即通过调节不同的惩罚系数C₁和C₂之间的比率，使得正样本相对于负样本对整个优化目标函数的整体贡献基本保持平衡，以弥补正负样本之间数目过于悬殊的数据不平衡影响。针对该物理意义，本发明提出了一种Exemplars-SVM相对简单的实现方案，即通过增加Exemplar-SVM训练中正样本的个数来调节正负样本不均衡带来的影响，正样本增加的方式采用对Exemplar的简单重复，而训练的模型采用等式(38)的普通模型，该实现方法简单有效。

所述测试阶段包括以下步骤：

步骤E、对RGB-D视频中的测试行为，按照步骤A～C中提出的视觉特征提取方法和融合策略提取和融合特征，以获得相应的鲁棒视觉特征；

步骤F、利用训练阶段获得的一系列Exemplars-SVM分类器分别对测试行为的融合特征进行判决，然后对各SVM分类器的判决置信度进行归一化，综合各个SVM分类器的判决结果得到最终判决结果。

判决结果校准：

基于Exemplars-SVM的判决方法，由于每个Exemplar判决器独立地训练，它们的输出结果并不具有可比性。对于测试样本，Exemplars-SVM中的每个SVM判决器的判决结果输出，通过拟合到等式(39)的Sigmoid函数进行归一化处理，使得各个SVM的输出结果之间具有可比性：

其中，α_E，β_E为Sigmoid函数参数，w_E为学习得到的Exemplar-SVM的参数。

采用二分类的SVM来解决多类别判决的问题，获取Exemplars-SVM判决结果的方案如下：

(1)类内Exemplars-SVM结果综合的方法：

a.Exemplars-SVM中有1个判决为1，则将该测试样本判决为1，置信度设置为该Exemplar对应SVM的判决得分；

b.Exemplars-SVM中有多个判决为1，将该测试样本判决为1，置信度设置为各个SVM判决得分的最大值

c.Exemplars-SVM中没有一个判决为1，则将该测试样本判决为0，输出概率为各个Exemplars-SVM判决得分的平均值。

(2)类间的判决结果比较

a.如果在各个类间的判决结果中，只有一类的判决结果为1，则将该类的标号确定为最终的判决结果。

b.如果在各个类间有多个类的判决器结果为1，则比较相应的置信度；置信度最大的类，则判决为该类标号为最终判决结果。

c.如果在各个类间没有一个类的判决器判决结果为1，则比较各个类判决为0的置信度，置信度最小的类就作为该类的判决结果。

Claims

1.一种基于RGB-D视频的人体行为识别方法，利用从RGB-D视频中所提取的多种特征的融合特征进行人体行为的识别，其特征在于，所述多种特征包括稠密MovingPose特征，所述稠密MovingPose特征的提取方法具体如下：

步骤1、对RGB-D视频中的人体骨架节点进行归一化；

X_{t}^{i} = [p_{i} (t), {αδp}_{i} (t), {βδ}^{2} p_{i} (t)]

2.如权利要求1所述基于RGB-D视频的人体行为识别方法，其特征在于，所述多种特征还包括超级有向主成分直方图特征-SHOPC特征，所述SHOPC特征的提取方法具体如下：

步骤1、对RGB-D视频的三维点云信息进行归一化；

步骤2、提取归一化后的三维点云信息的HOPC特征；

3.如权利要求2所述基于RGB-D视频的人体行为识别方法，其特征在于，所述多种特征还包括HOG3D纹理特征。

4.如权利要求1～3任一项所述基于RGB-D视频的人体行为识别方法，其特征在于，使用边缘限制多核学习特征融合方法进行所述多种特征的融合，所述边缘限制多核学习特征融合方法中的SVM优化目标函数如下：

f = \underset{w, ξ_{i}, d_{k}}{m i n} (\frac{1}{2} | | w | |^{2} + C \underset{i}{Σ} ξ_{i} + \underset{k}{Σ} σ_{k} \cdot d_{k})

s.t.

y_i(w·Φ(x_i)+b)-1+ξ_i≥0,

\begin{matrix} ξ_{i} &GreaterEqual; 0 & &ForAll; i \end{matrix},

\begin{matrix} d_{k} &GreaterEqual; 0 & &ForAll; k \end{matrix};

其中，w表示SVM中分类超平面系数向量；表示对误判的惩罚项，参数C表示惩罚因子；表示对MKL基元特征核矩阵权值系数的约束项，d_k表示第k种基元特征的系数，σ_k表示对基元特征间的先验知识加权系数；Φ(x_i)表示样本x_i在高维空间中对应的特征表示；

K (x_{i}, x_{j}) = \exp (- \frac{γ}{D} Σ_{q = 1}^{D} {(x_{i, q} - x_{j, q})}^{2})

5.如权利要求1～3任一项所述基于RGB-D视频的人体行为识别方法，其特征在于，使用改进Exemplars-SVM分类器进行人体行为的识别；所述改进Exemplars-SVM分类器在训练过程中，通过简单重复Exemplars-SVM分类器训练样本中正样本的数目来弥补正负样本数目过于悬殊导致的数据不平衡影响，然后延用普通SVM的目标函数进行训练。

6.如权利要求1～3任一项所述基于RGB-D视频的人体行为识别方法，其特征在于，在对于RGB-D视频进行特征提取之前，首先根据人体骨架节点运动能量去除RGB-D视频中的冗余帧。