CN105488491A

CN105488491A - 基于金字塔匹配直方图交叉核的人体睡眠姿态检测方法

Info

Publication number: CN105488491A
Application number: CN201510976121.4A
Authority: CN
Inventors: 任爱锋; 董彬彬; 杨晓东; 吕翔宇
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2015-12-23
Filing date: 2015-12-23
Publication date: 2016-04-13

Abstract

本发明公开了基于金字塔匹配直方图交叉核的人体睡眠姿态检测方法，采用Artec和Kinect采集数据；建立出每个模型其自己的协调的系统；建立投影坐标系统，提取深度图像；通过SIFT算法提取出每一幅深度图像的尺度和旋转不变特征包；将得到的SIFT特征编码成可见的visual？words并进行聚类，得到dictionary；通过统计属于每个质心的SIFT特征数目得到的bag？of？words代入到基于金字塔匹配直方图交叉核的人体睡眠姿态检测方法中识别出输入的每个3维人体睡眠模型的每一种睡眠姿态。本发明人为误差较小且不易产生分类灾难，对视角变化、仿射变换、噪声保持稳定性,实现了输入的每个3维人体睡眠模型的每一种具体的睡眠姿态的精确判断。

Description

基于金字塔匹配直方图交叉核的人体睡眠姿态检测方法

技术领域

本发明属于生物医学信息技术领域，尤其涉及基于金字塔匹配直方图交叉核的人体睡眠姿态检测方法。

背景技术

在日常生活中，由于错误睡姿使得局部组织遭受严重压力，让人们患上褥疮，尤其是卧床不起的病人。而且错误的睡姿可能引起心脏疾病和颈椎疾病等。所以研究不同的睡眠姿势对监视，健康护理，老年看护是重要的。所以人体睡眠姿态识别是一个重要研究方向，它的最终目的是输出一个人的整体或者局部肢体的结构参数。睡眠姿态识别的研究方法应该说，涉及了生物医学工程、生物医学信息学等。以往有些基于这方面研究的方法都是基于普通光学图像，比如常见的RGB图像，这类图像容易受光照、阴影等外界变化的影响，或者基于ECG信号，并且由于人体关节自由度大，及人的体型、着装较大差异性，常导致睡眠姿态识别系统识别不准确。随着光电技术的快速发展，深度传感设备的成本逐渐降低，人们获取深度图像的方法也越来越多。该方向的研究也越来越成为计算机视觉领域的研究趋势。具体原因包括：一方面，深度传感设备不仅操作简单，并且极大简化了普通照相机的标定过程；另一方面，得到的深度图像由于直接包含了人体的深度信息，能够有效的克服普通光学图像遇到的上述问题。从深度图像中进行姿态识别不仅具有研究意义，更重要的是人体睡眠姿态识别具有广阔的应用前景与商业价值，以下是它几个典型的应用领域：1)智能监控系统(参见：VinczeM，ZillichM，PonweiserW，etal.Integratedvisionsystemforthesemanticinterpretationofactivitieswhereapersonhandlesobjects[J]，ComputerVisionandImageUnderstanding，2009，113(6):682-692)；2)高级人机交互；3)远程医疗。基于普通光学图像的睡眠姿态估计主要有基于模型和基于无模型两类，对于前者的方法而言，要将预先构造的人体模型与图像中人体构造的各部分的形状、色彩、轮廓等特征对应起来，以求解人体模型的各种参数，这种方法不需要庞大的样本库和稳定的估计算法，但由于该方法被复杂模型所限制不被通用，并且也不适合目前普遍具有海量数据的实际应用领域；基于无模型方法不需要事先构造人体模型，而是以一种学习的方式来构造人体特征与人体睡眠姿态之间的映射关系。无模型方法通过学习方法改善人体睡眠姿态识别效果，适合当前的应用需求。然而，这些方法都是从图像中提取色彩、轮廓、形状、边缘等特征，由于普通光学图像容易受光照、阴影等变化因数的影响，所以所提取的该类特征的鲁棒性及有效性较差。与普通光学图像相比，深度图像包含了更为丰富的空间信息，从中既可以提取物体轮廓、形状区域特征，还可以提取出模型外观的立体特征，而且深度图像像素记录的因为是距离信息，具有颜色无关性，所以这在一定程度上克服了普通光学图像遇到的上述问题，随着光电技术的发展，很多研究学者结合深度图像性质把很多经典算法应用在该类图像上。比如LuXia(参照：XiaL，ChenCC，AggarwalJ.K.HumandetectionusingdepthinformationbyKinect[C]，CVPRW，2011.)等人结合像素深度信息利用Canny算子从图像中提取边缘特征，通过距离变换和模型匹配，进行部位检测的方法来识别姿态；尽管上述方法在一定程度上弥补了普通光学图像的缺点，但碍于一般传感设备不适用任何环境等因素，基于深度图像的人体睡眠姿态识别一直没有突破性的进展。

发明内容

本发明的目的在于提供一种新的基于金字塔匹配直方图交叉核的人体睡眠姿态检测方法，旨在解决现有的人体睡眠姿态检测方法单一和准确率低的问题。

本发明是这样实现的，基于金字塔匹配直方图交叉核的人体睡眠姿态检测方法，所述基于金字塔匹配直方图交叉核的人体睡眠姿态检测方法包括：

采用Artec和Kinect采集数据；

通过平移和缩放坐标系统的尺度将每个3维人体睡眠模型从模型的中心移动到坐标系统的原点，坐标轴的最大值变为1，建立出每个模型其自己的协调的系统；

通过建立投影坐标系统，从位于大的球体表面的照相机位置提取深度图像，每个3维人体睡眠模型用了十套内接于相同球体而旋转角度不同的十二面体，照相机位置位于规则正十二面体的20个顶点，每个视角的照相机朝向规则正十二面体的中心，每套正十二面体从这二十个不同的角度提取出10幅图像，一共提取出一百幅图像；

通过SIFT算法提取出每一幅深度图像的尺度和旋转不变特征包，每一幅图像大约有三十到四十个SIFT特征，每个特征为128维向量，得到一个3维人体睡眠模型的3000到5000个SIFT特征；

通过K-means算法将得到的SIFT特征编码成可见的visualwords并进行聚类，得到dictionary；

通过统计属于每个质心(dictionary中的每个visualword)的SIFT特征数目得到的bagofwords代入到基于金字塔匹配直方图交叉核的人体睡眠姿态检测方法中得到输入的每个3维人体睡眠模型的每一种睡眠姿态。

进一步，所述通过建立投影坐标系统包括：

将3维人体睡眠模型从模型的中心移动到坐标系统的原点，定义平移公式：

T i = \frac{M a x C o o r i + M i n C o o r i}{2}, i = x, y, z;

MaxCoori和MinCoori是各自坐标轴上的最大和最小坐标值，缩放是各向同性的，根据距离模型的x,y,z轴上的最大值来进行标准化，公式为：

S = \frac{1}{M i n i = x, y, z (M a x C o o r i - M i n C o o r i)};

进一步，所述通过SIFT算法提取出每一幅深度图像的尺度和旋转不变特征包具体包括：

构建尺度空间中，高斯卷积核是实现尺度变换的唯一线性核，于是一幅二维图像的尺度空间定义为L(x,y,σ)：

L(x,y,σ)＝G(x,y,σ)*I(x,y)

；

G (x, y, σ) = \frac{1}{2 {πσ}^{2}} e^{- (x^{2} + y^{2}) / 2 σ^{2}}

其中G(x,y,σ)是尺度可变高斯函数，(x，y)是空间坐标，是尺度坐标，σ大小决定图像的平滑程度，大尺度对应图像的概貌特征，小尺度对应图像的细节特征，大的σ值对应粗糙尺度，反之，对应精细尺度，利用不同尺度的高斯差分核与图像卷积生成：

D(x,y,σ)＝(G(x,y,kσ)-G(x,y,σ))*I(x,y)

；

＝L(x,y,kσ)-L(x,y,σ)

为每个特征点计算一个方向，利用关键点邻域像素的梯度方向分布特性为每个关键点指定方向参数，使算子具备旋转不变性：

m (x, y) = \sqrt{{(L (x + 1, y) - L (x - 1, y))}^{2} + {(L (x, y + 1) - L (x, y - 1))}^{2}}

；

θ(x,y)＝αtan2((L(x,y+1)-L(x,y-1))/(L(x+1,y)-L(x-1,y)))

为(x,y)处梯度的模值和方向公式，其中L所用的尺度为每个关键点各自所在的尺度。

进一步，所述通过K-means算法将得到的SIFT特征编码成可见的visualwords并进行聚类具体包括：

对于每一个样例i(visualword)，根据公式计算其应该属于哪个质心：

c^{(j)} : = \underset{j}{\arg \min} | | x^{(i)} - μ_{j} | |^{2};

对于每一个类j，重新计算该类的质心，由此构建dictionary：

μ_{j} : = \frac{Σ_{i = 1}^{m} 1 {c^{(i)} = j} x^{(i)}}{Σ_{i = 1}^{m} 1 {c^{(i)} = j}} .

进一步，所述通过统计属于每个质心(dictionary中的每个visualword)的SIFT特征数目得到的bagofwords代入到基于金字塔匹配直方图交叉核的人体睡眠姿态检测方法中得到输入的每个3维人体睡眠模型的每一种睡眠姿态包括：

一个线性判别函数是指x的各个分量的线性组合而成的函数：

g(x)＝W^TX+W₀；

两类情况:对于两类问题的决策规则为：

如果g(x)>0，则判定x属于C₁；

如果g(x)<0，则判定x属于C₂；

如果g(x)＝0，则可以将x任意分到某一类或者拒绝判定；

方程g(x)＝0定义了一个判定面，它把归类于C₁的点与归类于C₂的点分开来；

在最优分类面中采用适当的内积函数K(x_i,x_j)就实现某一非线性变换后的线性分类，相应的分类函数为：

f (x) = sgn {Σ_{i = 1}^{k} α_{i} * y_{i} k (x_{i} * x) + b^{*};

直方图交叉核的定义：

k_{int} (A, B) = Σ_{i = 1}^{n} \min {a_{i}, b_{i}};

基于金字塔匹配直方图交叉核支持向量机首先在低维空间中完成数据计算，然后通过直方图交叉核将输入空间映射到高维特征空间，最终在高维特征空间中构造出最优分离超平面，从而把平面上本身不好分的非线性数据分开。

本发明的另一目的在于提供一种所述的基于金字塔匹配直方图交叉核的人体睡眠姿态检测方法的人体睡眠姿态检测系统，所述人体睡眠姿态检测系统包括：

采集模块，用于采用Artec和Kinect采集数据；

模型协调系统模块，用于通过平移和缩放坐标系统的尺度将每个3维人体睡眠模型从模型的中心移动到坐标系统的原点，坐标轴的最大值变为1，建立出每个模型自己的协调的系统；

坐标系统建立模块，用于通过建立投影坐标系统，从位于大的球体表面的照相机位置提取深度图像，每个3维人体睡眠模型用了十套内接于相同球体而旋转角度不同的十二面体，照相机位置位于规则正十二面体的20个顶点，每个视角的照相机朝向规则正十二面体的中心，每套正十二面体从这二十个不同的角度提取出10幅图像，一共提取出一百幅图像；

提取模块，用于通过SIFT算法提取出每一幅深度图像的尺度和旋转不变特征包，每一幅图像大约有三十到四十个SIFT特征，每个特征为128维向量，得到一个3维人体睡眠模型的3000到5000个SIFT特征；

聚类模块，用于通过K-means算法将得到的SIFT特征编码成可见的visualwords并进行聚类，得到dictionary；

睡眠姿态模块，用于通过统计属于每个质心(dictionary中的每个visualword)的SIFT特征数目得到的bagofwords代入到基于金字塔匹配直方图交叉核的人体睡眠姿态检测方法中得到输入的每个3维人体睡眠模型的每一种睡眠姿态。

进一步，所述坐标系统建立模块进一步包括：

深度图像提取单元，用于从位于大的球体表面的照相机位置提取深度图像；

摄像单元，每个3维人体睡眠模型用了十套内接于相同球体而旋转角度不同的十二面体，照相机位置位于规则正十二面体的20个顶点，每个视角的照相机朝向规则正十二面体的中心；

图像提取单元，每套正十二面体从这二十个不同的角度提取出10幅图像，一共提取出一百幅图像。

本发明的另一目的在于提供一种应用所述基于金字塔匹配直方图交叉核的人体睡眠姿态检测方法的智能监控系统。

本发明的另一目的在于提供一种应用所述基于金字塔匹配直方图交叉核的人体睡眠姿态检测方法的高级人机交互系统。

本发明的另一目的在于提供一种应用所述基于金字塔匹配直方图交叉核的人体睡眠姿态检测方法的远程医疗系统。

本发明提供的基于金字塔匹配直方图交叉核的人体睡眠姿态检测方法，传统的睡眠姿态监测方法通过从普通光学图像中提取人体各部位的色彩、形状、轮廓、边缘等特征，进而判断人体的睡眠姿态；或者通过压力分布式床采集人体睡眠姿态数据得到身体部位与床接触的位置的压力图像信息判断人的睡眠姿势。本发明不受普通光学图像受光照、阴影等变化因素的影响和压力分布式床采集数据的误差，以及没有公开的人体睡眠姿态深度数据库及相关构建方法，而是自己通过Artec和Kinect采集3维人体睡眠模型数据构造了涵盖了人们日常常见的睡眠中的姿态序列数据库，同时人为误差较小且不易产生分类灾难。算法中通过建立投影坐标系统，从围绕着3维人体睡眠模型的视点摄取出3维人体模型的深度图像集合，用图像特征集合来描述模型的三维人体睡眠模型的几何特征。然后提取图像旋转、尺度缩放、亮度变化保持不变性，对视角变化、仿射变换、噪声也保持一定程度的稳定性；独特性(Distinctiveness)好，信息量丰富的SIFT特征。接着通过K-means算法将得到的SIFT特征编码成可见的visualwords并进行聚类，得到图像特征的dictionary。并计算图像中所有的SIFT特征与dictionary中每个质心的距离，距离最短则属于那个质心。通过统计属于每个质心的特征数目得到的bagofwords(即统计直方图)代入到基于金字塔匹配直方图交叉核的人体睡眠姿态检测方法中实现了输入的每个3维人体睡眠模型的每一种具体的睡眠姿态的精确判断。

附图说明

图1是本发明实施例提供的基于金字塔匹配直方图交叉核的人体睡眠姿态检测方法流程图。

图2是本发明实施例提供的睡眠姿势图。

图3是本发明实施例提供的构建图像尺度空间的过程图。

图4是本发明实施例提供的构建图像金字塔的过程图。

图5是本发明实施例提供的检测DOG尺度空间极值点的过程图。

图6是本发明实施例提供的图像关键点描述子特征示意图。

图7是本发明实施例提供的图像的每个关键点特征的128维向量示意图。

图8是本发明实施例提供的支持向量机方法中直方图交叉核示意图。

图9是本发明实施例提供的算法流程图。

图10是本发明实施例提供的提取的深度图。

图11是本发明实施例提供的提取的图像的SIFT示意图。

图12是本发明实施例提供的使用方法的混淆矩阵结果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

人体睡眠姿态识别是一个重要研究方向，它在众多领域具有广阔应用前景，比如智能监控、高级人机交互、远程医疗等。但是碍于普通光学图像容易受光照、阴影等外界因素影响，人体睡眠姿态识别的研究一直没有取得突破性的进展，直到近几年随着深度传感设备的发展，人们从深度图像中识别姿态产生了极大的兴趣，但是关于3维立体网格数据人体睡眠模型的睡眠监测的研究还很少。基于视觉相似度的方法没有从3维立体模型上直接获得几何特征的。且由于两个3维立体模型如果相似，那么从各个角度看上去它们应该都很接近，因此两个三维立体模型之间的相似度可以转化为相应模型二维形状之间相似度的总和。从围绕着3维立体模型的视点摄取出3维立体模型的二维图像集合，图像特征集合被用来描述三维立体模型的几何特征。SIFT特征是图像的局部特征，其对旋转、尺度缩放、亮度变化保持不变性，对视角变化、仿射变换、噪声也保持一定程度的稳定性；独特性(Distinctiveness)好，信息量丰富，适用于在海量特征数据库中进行快速、准确的匹配；多量性，即使少数的几个物体也可以产生大量的SIFT特征向量；高速性，经优化的SIFT匹配算法甚至可以达到实时的要求；可扩展性，可以很方便的与其他形式的特征向量进行联合。局部影像特征的描述与侦测可以帮助辨识物体，SIFT特征是基于物体上的一些局部外观的兴趣点而与影像的大小和旋转无关。对于光线、噪声、一些微视角改变的容忍度也相当高。基于这些特性，它们是高度显著而且相对容易撷取，在母数庞大的特征数据库中，很容易辨识物体而且鲜有误认。使用SIFT特征描述对于部分物体遮蔽的侦测率也相当高，甚至只需要3个以上的SIFT物体特征就足以计算出位置与方位。在现今的电脑硬件速度下和小型的特征数据库条件下，辨识速度可接近即时运算。SIFT特征的信息量大，适合在海量数据库中快速准确匹配。所以本发明使用Bagofwords(利用K-means算法提取出的二维图像的SIFT特征的直方图集合)匹配三维人体睡眠模型，这种方法对3维人体睡眠模型的形变、模型退化和噪声的干扰具有较好的鲁棒性。SIFT特征由一组二维形状特征集合构成，这些特征提取自模型在不同视角下的一百幅投影图像。为此，以实现较高准确率的基于深度图像的人体睡眠姿态识别为目的，本发明通过分析深度图像的成像原理，以及图像特征集合被用来描述三维人体模型的几何特征，自己构造的3维人体睡眠姿态数据库，并用将提取出的Bagofwords(利用K-means算法提取从模型在不同视角下投影得到的二维图像的SIFT特征的直方图集合)带入基于金字塔匹配直方图交叉核支持向量机方法在普通PC上进行人体不同的睡眠姿态识别。

下面结合附图对本发明的应用原理作详细的描述。

如图1所示，本发明实施例的基于金字塔匹配直方图交叉核的人体睡眠姿态检测方法包括以下步骤：

S101：采用Artec和Kinect采集3维人体睡眠模型数据；

S102：通过平移和缩放坐标系统的尺度将每个3维人体睡眠模型从模型的中心移动到坐标系统的原点，然后将坐标轴的最大值变为1，保证渲染出的每一幅图像都包含3维人体睡眠模型，由此建立出每个模型其自己的协调的系统；

S103：通过建立投影坐标系统，从位于大的球体(空间上包含整个3维人体睡眠模型)表面的照相机位置提取深度图像，每个3维人体睡眠模型用了十套内接于相同球体而旋转角度不同的十二面体，照相机位置位于规则正十二面体的20个顶点。每个视角的照相机朝向规则正十二面体的中心，每套正十二面体从这二十个不同的角度提取出10幅图像，一共提取出一百幅图像；

S104：通过SIFT算法提取出每一幅深度图像的尺度和旋转不变特征包，每一幅图像大约有三十到四十个SIFT特征，每个特征为128维向量，得到一个3维人体睡眠模型的3000到5000个SIFT特征；

S105：通过K-means算法将上一步得到的SIFT特征编码成可见的visualwords并进行聚类，得到dictionary；

S106：通过统计属于每个质心(dictionary中的每个visualword)的SIFT特征数目得到的bagofwords代入到基于金字塔匹配直方图交叉核的人体睡眠姿态检测方法中得到输入的每个3维人体睡眠模型的每一种睡眠姿态。

下面结合具体实施例对本发明的应用原理作进一步的描述。

下面结合用于3维人体模型睡眠姿态识别算法。

第一步，建立每个模型的坐标系统：通过平移和缩放坐标系统的尺度将每个3维人体睡眠模型从模型的中心移动到坐标系统的原点，然后使用计算的缩放因子将其缩放至直径为1的单位球体内，保证渲染出的每一幅图像都包含3维人体睡眠模型，由此建立出每个模型其自己的协调的系统。

将3维人体睡眠模型的中心(T＝(T_X；T_Y；T_Z))移动到坐标系统的中心点，定义平移公式为

T i = \frac{M a x C o o r i + M i n C o o r i}{2}, i = x, y, z - - - (1)

MaxCoori和MinCoori是第i个坐标轴上的最大和最小坐标值，缩放是各向同性的，根据距离模型的x，y，z轴上的最大值来进行标准化，公式为：

S = \frac{1}{M i n i = x, y, z (M a x C o o r i - M i n C o o r i)} - - - (2)

模型每个点的坐标均减去Ti以实现平移变换，乘以缩放因子s实现尺度变换。这样即可得到完整实用的一个3维人体睡眠坐标系统。

第二步，提取三维人体睡眠模型的深度图像：出于特征提取和匹配效率的考虑，无法穷尽所有视角的二维图像去描述三维人体睡眠模型的特征，而只能基于一定数量的视角进行近似计算。由于十二面体是拥有顶点个数最多的柏拉图体，LFD方法将光场相机分别安放在一组规则正十二面体的二十个顶点上以摄取三维人体睡眠模型的二维图像集合。算法使用二维图像保存三维人体睡眠模型在各个视角中的正交投影。由于从规则正十二面体上对应顶点获得的两张二维图像是一致的。因此从安置在二十个顶点的视角可以摄取十幅不同的图片，每张投影图的规格被设定为256x256像素。为了减小采样误差以增强模型特征的鲁棒性，采用了十套内接于相同球体而旋转角度不同的正十二面体。为了保证拍摄视角不重合，需要细致安排这些十二面体之间的旋转角度。每一套分布在十二面体顶点的视角都会摄取十幅模型的二维图像，因而所有视角共同生成一百幅二维投影，不同角度的拍摄可以更为全面地描述每个三维人体睡眠模型的整体特征。摄取投影的过程可以有效地去除高频噪声，削弱网格退化等因素对特征匹配稳定性的不利影响。

第三步，提取每一幅深度图像的SIFT特征：用SIFT算法提取出每一幅深度图像的尺度和旋转不变特征包，每一幅图像大约有三十到四十个SIFT特征，每个特征为128维向量，最终一个3维人体睡眠模型有3000到5000个SIFT特征。

首先进行初始化操作，构建尺度空间，高斯卷积核是实现尺度变换的唯一线性核，于是一幅二维图像的尺度空间定义为：

L(x,y,σ)＝G(x,y,σ)*I(x,y)

(3)

G (x, y, σ) = \frac{1}{2 {πσ}^{2}} e^{- (x^{2} + y^{2}) / 2 σ^{2}}

其中G(x，y，σ)是尺度可变高斯函数，(x，y)是空间坐标，是尺度坐标。σ大小决定图像的平滑程度，大尺度对应图像的概貌特征，小尺度对应图像的细节特征。大的σ值对应粗糙尺度(低分辨率)，反之，对应精细尺度(高分辨率)。为了有效的在尺度空间检测到稳定的关键点，提出了高斯差分尺度空间(DOGscale-space)。利用不同尺度的高斯差分核与图像卷积生成。

D(x,y,σ)＝(G(x,y,kσ)-G(x,y,σ))*I(x,y)

(4)

＝L(x,y,kσ)-L(x,y,σ)

由附图3可见不同σ下图像尺度空间的构建过程，接着建立图像金字塔：对于一幅深度图像I，建立其在不同尺度(scale)的图像，也成为子八度(octave)，这是为了scale-invariant，也就是在任何尺度都能够有对应的特征点，第一个子八度的scale为原图大小，后面每个octave为上一个octave降采样的结果，即原图的1/4(长宽分别减半)，构成下一个子八度(高一层金字塔)。从附图4可以明白建立过程。

然后检测DOG尺度空间极值点，每一个采样点要和它所有的相邻点比较，看其是否比它的图像域和尺度域的相邻点大或者小。中间的检测点和它同尺度的8个相邻点和上下相邻尺度对应的9×2个点共26个点比较，以确保在尺度空间和二维图像空间都检测到极值点。一个点如果在DOG尺度空间本层以及上下两层的26个领域中是最大或最小值时，就认为该点是图像在该尺度下的一个特征点，如附图5所示。

接着除去不好的特征点，通过拟和三维二次函数以精确确定关键点的位置和尺度(达到亚像素精度)，同时去除低对比度的关键点和不稳定的边缘响应点。空间尺度函数泰勒展开式如下：

D (x) = D + \frac{\partial D^{T}}{\partial X} X + \frac{1}{2} X^{T} \frac{\partial^{2} D}{\partial X^{2}} X - - - (5)

对上式求导，并令其为0，得到精确的位置：

\hat{X} = - \frac{\partial D^{- 1}}{\partial X^{2}} \frac{\partial D}{\partial X} - - - (6)

在已经检测到的特征点中，要去掉低对比度的特征点和不稳定的边缘响应点。去除低对比度的点：把公式(6)带入到公式(5)，即在DoGSpace的极值点处D(x)取值，只取前两项可得：

D (\hat{X}) = D + \frac{1}{2} \frac{\partial D^{T}}{\partial X} \hat{X} - - - (7)

若|D(X1)|≥0.03，该特征点就保留下来，否则丢弃，并且要去除边缘响应。上一步中确定了每幅图中的特征点，为每个特征点计算一个方向，依照这个方向做进一步的计算，利用关键点邻域像素的梯度方向分布特性为每个关键点指定方向参数，使算子具备旋转不变性。

m (x, y) = \sqrt{{(L (x + 1, y) - L (x - 1, y))}^{2} + {(L (x, y + 1) - L (x, y - 1))}^{2}}

(8)

θ(x,y)＝αtan2((L(x,y+1)-L(x,y-1))/(L(x+1,y)-L(x-1,y)))

为(x，y)处梯度的模值和方向公式。其中L所用的尺度为每个关键点各自所在的尺度。至此，图像的关键点已经检测完毕，每个关键点有三个信息：位置，所处尺度、方向，由此可以确定一个SIFT特征区域。

生成关键点描述子，首先将坐标轴旋转为关键点的方向，以确保旋转不变性。以关键点为中心取8×8的窗口。附图6左部分的中央为当前关键点的位置，每个小格代表关键点邻域所在尺度空间的一个像素，利用公式求得每个像素的梯度幅值与梯度方向，箭头方向代表该像素的梯度方向，箭头长度代表梯度模值，然后用高斯窗口对其进行加权运算。附图6中蓝色的圈代表高斯加权的范围(越靠近关键点的像素梯度方向信息贡献越大)。然后在每4×4的小块上计算8个方向的梯度方向直方图，绘制每个梯度方向的累加值，即可形成一个种子点，如附图6右部分示。此图中一个关键点由2×2共4个种子点组成，每个种子点有8个方向向量信息。如附图7，计算keypoint周围的16*16的window中每一个像素的梯度，而且使用高斯下降函数降低远离中心的权重。这样就对每个feature形成一个4*4*8＝128维的描述子，每一维都可以表示4*4个格子中一个的scale/orientation.将这个向量归一化之后，就进一步去除了光照的影响。这样就得到了所有的图像的SIFT特征。

第四步，获得每个三维人体睡眠模型的特征直方图：通过将上一步得到的SIFT特征编码成可见的visualwords并用K-means算法进行分类。

对于每一个样例SIFT特征i(visualword)，计算其应该属于的类

c^{(i)} : = \underset{j}{\arg \min} | | x^{(i)} - μ_{j} | |^{2} - - - (9)

当k-means收敛时，对于每一个类j，重新计算该类的质心，

μ_{j} : = \frac{Σ_{i = 1}^{m} 1 {c^{(i)} = j} x^{(i)}}{Σ_{i = 1}^{m} 1 {c^{(i)} = j}} - - - (10)

由此确定dictionary的大小size，即质心的个数(维数128)，词典构建完毕。然后初始化一个size个bin的初始值为0的直方图h，每一幅深度图有很多个SIFT特征(visualword)，接着计算这些SIFT特征和每一个质心的距离，看看每一个SIFT特征离哪一个质心最近，那么直方图h中相对应的bin就加一，计算完这幅图像所有的SIFT特征之后，就得到一个bin＝size的直方图，然后进行归一化，用这个size维的向量来表示这幅图像，所有图像计算完成之后，就得到了Bagofwords。

第五步，识别三维人体睡眠姿态：上步得到的所有的Bagofwords，可以构成一个输入空间X，由d(大小为size)维的特征向量集组成，特征向量直径范围为D；向量最小的矢量距离为

X = {X | X = {[f_{1}^{1}, ..., f_{d}^{1}], ..., [f_{1}^{m_{x}}, ..., f_{d}^{m_{x}}]}} - - - (11)

特征抽取函数Φ：

Φ(x)＝[H_-1(x),H₀(x),...,H_L(x)](12)

L = [\log_{2}^{D}] x &Element; X - - - (13)

H_i(x)就是由x在i层分辨率下构成的直方图，直方图宽度(分辨率)为2ⁱ，r_i是直方图的维数：

Φ(x)就是一个金字塔形状直方图的集合。后一个直方图的间距是前一个的两倍，直到生成L个直方图，每个直方图相当于一层。i代表由数据集构成的第i个直方图，金字塔的第i层，底层直方图H_-1(x)足够小，每个数据集X中的点都落在独立的块中。然后直方图宽度增大直到最后一个H_L(x)所有的数据点都在一个直方图块中。两组输入数据的特征的相似度定义为在每层上新匹配的特征数量的加权和：

K_{Δ} (Φ (y), Φ (z)) = Σ_{i = 0}^{L} w_{i} N_{i} - - - (15)

y和z分别代表不同的数据集。N_i代表两层之间新匹配的数目。“新匹配”就是在小宽度(binsize)的直方图上未匹配，而在大一倍宽度直方图则匹配。两组输入数据的特征的相似度定义为在每层上新匹配的特征数量的加权和：

N_i＝L(H_i(y),H_i(z))-L(H_i-1(y),H_i-1(z))(16)

L (A, B) = Σ_{j = 1}^{r} \min (A^{(j)}, B^{(j)}) - - - (17)

L为直方图交集函数，即直方图交叉核，衡量两个直方图条之间的重叠程度。A和B分别为有r维的直方图，A^(j)为A中的第j维。如附图8中的两组1维特征集y和z。(a)中，浅色虚线是直方图边界；加粗的实线代表较低层直方图已经匹配的点对；加粗点线代表此层的直方图中新匹配的点对，两组输入数据的特征的相似度定义为在每层上新匹配的特征数量的加权和如公式12，w_i代表每一层上的权重，与两点在该层上匹配的程度成正比，由直方图宽度决定。在第i个直方图上的直方图宽度越宽匹配权重越小。i从0开始，因为i＝-1时，没有点匹配。最终的计算相似度公式：

K_{Δ} (Φ (y), Φ (z)) = Σ_{i = 0}^{L} \frac{1}{2^{i}} (L (H_{i} (y), H_{i} (z)) - L (H_{i - 1} (y), H_{i - 1} (z))) - - - (18)

归一化处理，使用每一个输入数据集自身之间的相似度来计算最终的结果进行函数的归一化，以特征自身的相似度为1计算。如下公式：

\overset{&OverBar;}{K_{Δ}} (P, Q) = \frac{1}{\sqrt{C}} K_{Δ} (P, Q) - - - (19)

C = \overset{&OverBar;}{K_{Δ}} (P, P) \overset{&OverBar;}{K_{Δ}} (Q, Q) - - - (20)

针对不同的多分辨率直方图进行比较计算，这些直方图的宽度值可以随意改变的。通过改变宽度值，得到多个(T个)PyramidMatchKernel，进行组合得到最终比较结果。这就产生了T个特征配对：

Φ₁(y),...,Φ_T(y)(21)

对于输入y和z，结合之后产生的内核值是：

Σ_{j = 1}^{T} k_{Δ} (Φ_{j} (y), Φ_{j} (z)) - - - (22)

基于金字塔匹配直方图交叉核支持向量机方法中用到的线性判别函数(discriminantfunction)是指由x的各个分量的线性组合而成的函数：

g(x)＝W^TX+W₀(23)

两类情况:对于两类问题的决策规则为：

如果g(x)>0，则判定x属于C₁；

如果g(x)<0，则判定x属于C₂；

如果g(x)＝0，则可以将x任意分到某一类或者拒绝判定。

方程g(x)＝0定义了一个判定面，它把归类于C₁的点与归类于C₂的点分开来。

根据泛函的相关理论，只要一种核函数K(x_i,x_j)满足Mercer条件，它就对应某一变换空间中的内积。因此，在最优分类面中采用适当的内积函数K(x_i,x_j)就可以实现某一非线性变换后的线性分类，而计算复杂度却没有增加，相应的分类函数为：

f (x) = sgn {Σ_{i = 1}^{k} α_{i} * y_{i} k (x_{i} * x) + b^{*} - - - (24)

直方图交叉核的定义：

k_{int} (A, B) = Σ_{i = 1}^{n} \min {a_{i}, b_{i}} - - - (25)

最终由特征集匹配和分类函数的结果即可识别出输入的3维人体睡眠模型的每一种睡眠姿态。

本发明的不同方法的结果对比如下表：

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.基于金字塔匹配直方图交叉核的人体睡眠姿态检测方法，其特征在于，所述基于金字塔匹配直方图交叉核的人体睡眠姿态检测方法包括：

采用Artec和Kinect采集数据；

通过SIFT算法提取出每一幅深度图像的尺度和旋转不变特征包，每一幅图像有三十到四十个SIFT特征，每个特征为128维向量，得到一个3维人体睡眠模型的3000到5000个SIFT特征；

通过统计属于每个质心(dictionary中的每个visualword)的SIFT特征数目得到的得到的bagofwords代入到基于金字塔匹配直方图交叉核的人体睡眠姿态检测方法中得到输入的每个3维人体睡眠模型的每一种睡眠姿态。

2.如权利要求1所述的基于金字塔匹配直方图交叉核的人体睡眠姿态检测方法，其特征在于，所述通过建立投影坐标系统包括：

3.如权利要求1所述的基于金字塔匹配直方图交叉核的人体睡眠姿态检测方法，其特征在于，所述通过SIFT算法提取出每一幅深度图像的尺度和旋转不变特征包具体包括：

L(x,y,σ)＝G(x,y,σ)*I(x,y)

4.如权利要求1所述的基于金字塔匹配直方图交叉核的人体睡眠姿态检测方法，其特征在于，所述通过K-means算法将得到的SIFT特征编码成可见的visualwords并进行聚类具体包括：

对于每一个类j，重新计算该类的质心，由此构建dictionary：

5.如权利要求1所述的基于金字塔匹配直方图交叉核的人体睡眠姿态检测方法，其特征在于，所述通过统计属于每个质心(dictionary中的每个visualword)的SIFT特征数目得到的bagofwords代入到基于金字塔匹配直方图交叉核的人体睡眠姿态检测方法中得到输入的每个3维人体睡眠模型的每一种睡眠姿态包括：

一个线性判别函数是指x的各个分量的线性组合而成的函数：

g(x)＝W^TX+W₀；

两类情况:对于两类问题的决策规则为：

如果g(x)>0，则判定x属于C₁；

如果g(x)<0，则判定x属于C₂；

如果g(x)＝0，则将x任意分到某一类或者拒绝判定；

直方图交叉核的定义：

6.一种如权利要求1所述的基于金字塔匹配直方图交叉核的人体睡眠姿态检测方法的人体睡眠姿态检测系统，其特征在于，所述人体睡眠姿态检测系统包括：

采集模块，用于采用Artec和Kinect采集数据；

提取模块，用于通过SIFT算法提取出每一幅深度图像的尺度和旋转不变特征包，每一幅图像有三十到四十个SIFT特征，每个特征为128维向量，得到一个3维人体睡眠模型的3000到5000个SIFT特征；

7.如权利要求6所述的人体睡眠姿态检测系统，其特征在于，所述坐标系统建立模块进一步包括：

8.一种应用权利要求1-5任意一项所述基于金字塔匹配直方图交叉核的人体睡眠姿态检测方法的智能监控系统。

9.一种应用权利要求1-5任意一项所述基于金字塔匹配直方图交叉核的人体睡眠姿态检测方法的高级人机交互系统。

10.一种应用权利要求1-5任意一项所述基于金字塔匹配直方图交叉核的人体睡眠姿态检测方法的远程医疗系统。