CN106778813A

CN106778813A - 深度图像的自适应聚类分割算法

Info

Publication number: CN106778813A
Application number: CN201611043021.7A
Authority: CN
Inventors: 胡勇
Original assignee: Jinling Institute of Technology
Current assignee: Jinling Institute of Technology
Priority date: 2016-11-24
Filing date: 2016-11-24
Publication date: 2017-05-31
Anticipated expiration: 2036-11-24
Also published as: CN106778813B

Abstract

本发明提供一种深度图像的自适应聚类分割算法，涉及数字图像处理技术领域。该方法包括：获取深度图像，对采集的图像样本进行滤波等预处理，提取深度图像的直方图，采用改进的自适应K‑means算法对直方图数据进行聚类，得到类别中心和类别标记等信息，作为分割深度图像的阈值。本发明能自适应地确定深度图像的目标数目，增强K‑means算法的收敛性，降低K‑means算法的迭代次数，从而快速有效分割深度图像。

Description

深度图像的自适应聚类分割算法

技术领域

本发明涉及一种基于K-means(K均值)的深度图像自适应聚类分割算法，属于数字图像处理技术领域。

背景技术

深度图像是指具有深度信息的图像，图像中的像素值大小反映了目标景深的远近，体现了该像素点的距离采集设备的真实世界距离。

由于包含了目标的深度信息，深度图像弥补了传统图像采集设备只能获取二维图像的缺点，满足了机器视觉对于三维物体识别的要求。由于深度图像具备不受光源照射方向及物体表面特性的影响、不存在阴影、不受颜色相近信号影响等优势，国内外学者对这方面的研究一直都非常重视，基于深度信息的目标检测、跟踪与识别也逐渐成为机器视觉领域的研究重点和热点。

随着电子工业的不断进步，深度图像采集设备也逐渐获得推广和应用。2010年微软推出了用于Xbox360的体感外设3D摄像机Kinect，而且还提供了支持硬件的软件开发包和应用程序开发接口。由于其功能强大且相对廉价，成功的将基于深度信息的手势识别技术应用于商业领域中。

聚类分析作为一种非监督学习方法，是机器学习领域中的一个重要的研究方向，也是数据处理的重要分析工具和方法。K均值聚类算法(K-means算法)，作为聚类方法中一个基本的划分方法，到目前为止仍然是一种应用广泛且有效的技术。

分割前景目标是深度图像处理的第一步，也是基础步骤。目前获取分割阈值的算法主要分为两种：经验阈值的方法或是无监督聚类方法。第一种方法由人工根据经验给定，通过估计前景目标与采集设备的距离设定阈值，适用性差，容易造成目标分割错误；第二种方法往往预先指定类别数，然后采用K-means等算法聚类得到类别中心等信息，但容易造成算法难以收敛或是迭代次数过多，甚至分类错误。

在现有技术中，有多种基于K-means聚类算法的深度图像分割算法。本发明选用了2012年和2013年Fabian的两篇国际会议论文作为对比文献，通过实验证明，本发明的实际数据均优于对比文献。(对比文献:[1]Fabian Prada,Leandro Cruz,Luiz Velho.ObjectExtraction in RGBD Images.25th SIBGRAPI(2012)-Conference on Graphics,Patternsand Images.OuroPreto,Brazil,2012；[2]Fabian Prada,Leandro Cruz,LuizVelho.Improving Object Extraction with Depth-Based Methods.2013XXXIX LatinAmerican Computing Conference(CLEI),2013)。

因此，快速准确的自适应聚类方法是获取精确阈值的有效手段之一，同时对于后续的目标检测、跟踪与识别都有着重要的现实意义。

发明内容

本发明所要解决的技术问题是：在深度图像中，准确获取前景目标的分割阈值。

所采用的技术方案是：

步骤1：建立深度图像样本库；

步骤2：对采集的深度图像进行预处理；

步骤3：获取深度图像的直方图；

步骤4：采用基于改进的自适应K-means算法的自适应聚类算法；

步骤5：提取分割阈值。

本发明的优点：本发明提供一种深度图像的自适应聚类分割算法。该算法能自适应获取图像中的类别数目并选择初始类中心点，收敛速度快，迭代次数少(见表1～表3)，准确获取类别信息。该方法基于K-means算法，简单有效，且具备实时性。

附图说明

图1：深度图像的自适应聚类分割算法框图；

图2深度图像及其直方图；

图2a.深度图像；

图2b.对应的彩色图像；

图2c.深度图像的直方图。

具体实施方式

如图1所示，对采集的深度图像进行滤波预处理，提取深度图像的直方图参数；根据直方图数据判定类别数目并选择初始类中心点，采用基于K-means的聚类算法进行聚类，迭代完成后，即可获得类别中心及范围等信息；根据目标的距离特性，获取分割阈值。

本发明采用如下技术方案：

深度图像的自适应聚类分割算法，其步骤如下：

步骤1：建立深度图像样本库；

采用微软的体感外设3D摄像机Kinect采集深度图像，场景不限，前景目标主要为操作者或是操作者的脸、手、手臂、躯干；

根据Kinect设备的SDK文档描述，采集的深度图中，每个像素均为16位无符号短整型数据，前13位为深度信息，后3位为用户索引ID。经过SDK内部处理，得到当前像素点的深度信息，该值体现了该像素点距离采集设备的真实世界距离，其范围是0-4000毫米，即：0-4米。步骤3中的直方图数据来源于此，反映在横坐标上。

步骤2：预处理步骤；

对采集的深度图像进行预处理，消除噪声和孤立点。中值滤波是一种非线性的信号处理方法，对滤除脉冲干扰和图像扫描噪声非常有效，可以克服线性滤波器处理图像细节模糊的问题，同时保持图像的边缘特性。本发明采用的是3*3的中值滤波。

步骤3：获取深度图像的直方图；

经过预处理后，提取深度图像的直方图数据，以便于后续处理。直方图是反映一个图像像素灰度级分布的统计表，其中：横坐标代表了图像像素的灰度级，纵坐标代表了该灰度级占图像像素总数的百分比，反映了图像中某种灰度值出现的频率。在本发明中，采用了灰度直方图的统计方法，对深度信息进行统计，而不需要将深度图像转换为灰度图像。在得到的深度信息直方图中，横坐标代表了像素的深度信息，其范围是0-4000；纵坐标代表了该深度值占像素总数的百分比，反映了图像中某种深度值出现的频率。

步骤4：改进的自适应K-means算法基本步骤如下：

(1)从直方图数据中选择N个点作为初始聚类中心；

(2)扫描直方图中全部数据，计算每个点与聚类中心的距离，并根据最小距离将该点归入相应的类；

(3)根据步骤(2)的划分，重新计算每个类的聚类中心；

(4)设定终止条件：如果条件满足，则算法终止；如果条件不满足，则返回到步骤(2)。

迭代终止后，即可获得最终的类别中心、类别标记和类别范围等信息。

在传统的K-means算法基本步骤中，确定初始类别数目N的方法有两种：人工指定数目或是经过迭代，多次运行以获取最佳值；确定初始类中心的方法是随机选取或是多次随机选取，然后选取具有最小误差平方和的簇集。人工指定初始类别数目的方法，会导致迭代次数的增加和样本的分类错误；而多次运行的方法显然会增加算法的时空开销，降低算法的收敛速度和实时性。

步骤4改进的自适应K-means算法中的基本步骤(1)采用如下方法：按照从小到大的顺序，在直方图中查找连续不为零的一段数据，将其标记为一类，并将其中的最大值标记为该类的初始类中心；若该段数据宽度不足(即：连续不为零的数据个数小于阈值T)，则与相邻段合并，直到满足预设的数据宽度阈值T。在深度图像的直方图中，数据所表达的含义是深度信息，即：目标与采集设备的距离，若数据不连续(即：两段数据的间隔超过阈值T，间隔中的数据均为零)，即可判定为不同目标(参见图2)。在Kinect采集的深度图像中，其分辨率为1mm，数据宽度阈值T通常设定为50～200，即：5cm～20cm。本发明中的T＝100。

一次扫描直方图数据后，得到初始类别数目N和各类的初始类中心，设定终止条件，采用K-means算法进行迭代聚类。迭代结束后，即可获得最终的类别中心和类别范围等信息。

为简化聚类过程，可将初始类别数目N的上限预定为5个。当初始类别数目N达到上限时，直接将后续数据归为一类。因后续数据的深度值很大，与采集设备的距离很远，不会对前景目标的分类造成影响。

步骤4改进的自适应K-means算法中的基本步骤(2)中的距离量度采用欧式距离。

步骤4改进的自适应K-means算法中的基本步骤(4)中的终止条件设定为：前三类的聚类中心不再变动或总位移小于0.1，若实际类别只有两个，则为前两类的聚类中心不再变动或总位移小于0.1；或迭代次数达到10次。

步骤5：提取分割阈值的过程；

由于在深度图像中，前景通常为距离较近的目标，对应于类别中的第1类，因此可将第1类的类别范围设为分割阈值，实现前景的有效分割。也可根据实际情况，设定相应阈值，将第2类或第3类分割出来。

实验结果及分析：

为了验证本发明所述的深度图像的自适应聚类分割算法的系统性能，采用了业内普遍使用的Nicolas Pugeault的手势静态图片库作为测试数据库。该数据库采集了5位不同操作者的24种不同手势，每种手势的样本数为1000张以上，总计超过13万张。其中一半为RGB图像，另一半为深度图像。

通过对测试数据库中的65894个深度图像样本的测试，得到表1～表3的算法实际性能。本发明的实验平台为：64位Win7+Matlab R2009a，CPU为IntelCore i3，内存4G。

图2为测试数据库中的一幅深度图像样本及其对应的彩色图像和直方图(图2b.的彩色图像见其他证明文件)。为方便显示，直方图中的纵坐标为实际数值的Log值，从直方图中可以看出，不为零的数据可以分为三个部分，分别对应三个类别目标，三个部分中间的大段数据均为零。

表1算法的迭代次数占比

表2样本图像的类别数占比

表3迭代终止时的聚类中心总位移

在表1和表3可以看出，本发明算法的迭代次数很低，绝大多数情况只需要一次就能达到最终结果，而对比文献的平均迭代次数达到4次以上；迭代终止时的聚类中心总位移很低，在绝大多数情况下，聚类中心不再移动，而对比文献的聚类中心总位移明显高于本发明。说明本发明算法对类别数目和类别中心的估计非常准确，有效地节省了算法的时空消耗。实验统计的平均时间消耗为0.0148秒/幅，完全满足实时需要。从表2可以看出，样本图像的类别数并不固定，对于需要预先确定类别数目的k-means算法来说，如果指定类别数目，会造成算法难以收敛或结果不准确。通过与两篇对比文献的比较，可以直观的判断出本发明所具有的优点。

Claims

1.一种深度图像的自适应聚类分割算法，其步骤如下：

步骤1：建立深度图像样本库；

采用3D摄像机采集深度图像，场景不限，前景目标主要为操作者或是操作者的脸、手、手臂、躯干；

步骤2：预处理步骤；

对采集的深度图像进行预处理，采用中值滤波过滤噪声，以便于后续处理；

步骤3：获取深度图像的直方图；

经过预处理后，提取深度图像的直方图数据；

步骤4：改进的自适应K-means算法基本步骤如下：

(1)从直方图数据中选择N个点作为初始聚类中心；

(3)根据步骤(2)的划分，重新计算每个类的聚类中心；

(4)设定终止条件：如果条件满足，则算法终止；如果条件不满足，则返回到步骤(2)；

步骤5：提取分割阈值；

根据最终的类别中心点及类别标记等信息，计算分割图像前景所需要的阈值。

2.根据权利要求1所述的一种深度图像的自适应聚类分割算法，其特征在于，所述的步骤1的3D摄像机为微软的体感外设3D摄像机Kinect。

3.根据权利要求1所述的一种深度图像的自适应聚类分割算法，其特征在于，所述的步骤2的预处理方法为：

采用中值滤波对图像进行平滑，过滤噪声。

4.根据权利要求1所述的一种深度图像的自适应聚类分割算法，其特征在于，步骤3中的获取深度图像的直方图过程为：

在深度图像中，统计具有相同距离的像素点个数，得到相应的直方图。

5.根据权利要求1所述的一种深度图像的自适应聚类分割算法，其特征在于，步骤4中的基本步骤(1)从直方图数据中选择N个点作为初始聚类中心，具体采用如下方法：

按照从小到大的顺序，在直方图中查找连续不为零的一段数据，将其标记为一类，并将其中的最大值标记为该类的初始类中心；若该段数据宽度不足即：连续不为零的数据个数小于阈值T，则与相邻段合并，直到满足预设的数据宽度阈值T；在深度图像的直方图中，数据所表达的含义是深度信息，即：目标与采集设备的距离，若数据不连续即：两段数据的间隔超过阈值T，间隔中的数据均为零，即可判定为不同目标。

6.根据权利要求5所述的一种深度图像的自适应聚类分割算法，其特征在于，数据宽度阈值T通常设定为50～200；本发明优选为T＝100。

7.根据权利要求1或5所述的的一种深度图像的自适应聚类分割算法，其特征在于，步骤4中的基本步骤(1)中N个点作为初始类别数目的上限预定为5个。

8.根据权利要求1的一种深度图像的自适应聚类分割算法，其特征在于，步骤4中的基本步骤(2)中的距离量度采用欧式距离。

9.根据权利要求1的一种深度图像的自适应聚类分割算法，其特征在于，步骤4中的基本步骤(4)中的终止条件设定为：前三类的聚类中心不再变动或总位移小于0.1，若实际类别只有两个，则为前两类的聚类中心不再变动或总位移小于0.1；或迭代次数达到10次。

10.根据权利要求1所述的一种深度图像的自适应聚类分割算法，其特征在于，步骤5中的提取分割阈值过程为：

由步骤4得到类别中心和类别范围后，计算分割图像前景所需要的阈值；由于在深度图像中，前景通常为距离最近的目标，对应于类别中的第1类，因此可将第1类的类别范围设为分割阈值，实现前景的有效分割。