CN107862698B

CN107862698B - 基于k均值聚类的光场前景分割方法及装置

Info

Publication number: CN107862698B
Application number: CN201711230611.5A
Authority: CN
Inventors: 刘杰; 周建设; 陈宪宇; 代锋
Original assignee: Institute of Computing Technology of CAS; Capital Normal University
Current assignee: Institute of Computing Technology of CAS; Capital Normal University
Priority date: 2017-11-29
Filing date: 2017-11-29
Publication date: 2019-01-08
Anticipated expiration: 2037-11-29
Also published as: CN107862698A

Abstract

本发明公开了一种基于K均值聚类的光场前景分割方法及装置，方法包括：针对待处理的光场图像，提取重聚焦图像、极线平面图像和全清晰图像；采用结构张量方法对极线平面图像进行处理，获取极线平面深度信息；采用离散余弦响应方法对重聚焦图像进行处理，获取重聚焦信息；采用超像素分割技术讲全清晰图像分割的多个区域，针对每一个区域，获取区域颜色特征、区域几何特征、区域对应点特征和区域重聚焦特征；并采用K均值聚类计算区域之间的相似度；基于相似度，采用图割算法标记前景和背景，获取光场图像的前景分割结果。上述方法处理后的前景分割结果比现有技术中的前景分割结果更准确。

Description

基于K均值聚类的光场前景分割方法及装置

技术领域

本发明属于图像处理技术，尤其涉及一种基于K均值聚类的光场前景分割方法及装置。

背景技术

随着图像技术的发展，图像处理和图像操作的便捷性要求越来越高。准确和便捷的图像前景分割技术是现代图像处理领域的标准要求。前景分割被广泛应用于图像编辑、动画制作、物体识别、监控分析等各个领域。传统算法主要有基于阈值、基于边缘等一些算法。然而，这种算法对一些特殊场景的分割准确率较低。例如：当前景与背景颜色十分相似时，出现外表伪装；当背景杂乱，有各种颜色的物体，这时容易错误地把部分背景分割成前景。另外，有的算法依赖于人工的简单标记。当处理图片数量较大时，就无法对每张图片进行手动逐一标记。

现有技术中公开一种基于三维光场的静态场景前景分割方法，该方法包括：通过相机在一条一维直线上等间隔拍摄一场景的序列图像以构建三维光场，并生成场景的对极平面图；使用直线检测算法提取所述对极平面图中的直线特征并计算斜率信息，由所述斜率信息恢复场景中不同物体的深度信息，并使用快速插值算法生成整个场景的深度图像；对所述深度图像中的不同物体设定对应的深度阈值，并根据所述深度阈值对不同物体进行快速分割；尤其在复杂户外场景的分割中，能够准确恢复场景中多个物体之间的空间关系，较好地克服了现有基于区域聚类和数学形态学等方法在复杂场景应用中存在的过分割问题，在针对特定目标提取时有较高的分割效率。

上述方法是使用相机沿直线多次拍摄，且在得到深度图像后，使用阈值法得到前景，上述方法处理过程简单，容易造成前景区域不连续。

发明内容

针对现有技术中的问题，本发明提供一种基于K均值聚类的光场前景分割方法及装置。

第一方面，本发明提供一种基于K均值聚类的光场前景分割方法，包括：

步骤A：针对待处理的光场图像，从所述光场图像中提取重聚焦图像、极线平面图像和全清晰图像；

步骤B：采用结构张量方法对所述极线平面图像进行处理，获取所述光场图像中不同透镜视角的极线平面深度信息；

步骤C：采用离散余弦响应方法对所述重聚焦图像进行处理，获取所述光场图像的重聚焦信息；

步骤D：采用超像素分割技术对所述全清晰图像进行处理，获取全清晰图像分割后的多个区域，以及

步骤E：针对每一个区域，基于该区域的极线平面深度信息、所述重聚焦信息、颜色信息和几何信息对该区域进行特征提取，获得该区域的颜色特征、几何特征、对应点特征和重聚焦特征；

步骤F：对于所有区域，基于每一个区域的颜色特征、几何特征、对应点特征和重聚焦特征，采用K均值聚类计算相邻区域之间的相似度；

步骤G：基于相邻区域之间的相似度，采用图割算法标记前景和背景，获取所述光场图像的前景分割结果。

可选地，所述步骤B包括：

光场图像的坐标信息为(s,t,x,y)，其中，(s,t)代表拍摄场景的光线入射角度维度，(x,y)代表光线入射位置维度；所述极线平面图像的坐标信息为(x,s)或者(y,t)；

步骤B1、根据视差与深度之间的转换公式一、所述极线平面图像的结构张量公式二，获取所述极线平面图像中一条光线的方向公式三；

步骤B2、根据所述极线平面图像中一条光线的方向，估计场景点所在的深度，及该深度的可信度；

步骤B3、每一场景点所在的深度和深度可信度组成极线平面深度信息；

其中，公式一：

f是微透镜阵列与成像面的距离，D是物体到相机的距离；

公式二：

G_σ是以σ为方差的高斯函数，I_x和I_s分别是(y^*,t^*)下极线平面在x和s方向的梯度分量；

用一个向量表示极线平面图像中一条光线的方向：

公式三：

估计的场景点所在的深度为：

公式四：

估计深度的可信度为：

公式五：

可选地，所述步骤C包括：

针对每一张重聚焦图像，使用一个滑动窗口对每一个像素及其邻域进行离散余弦变换DCT：经过离散余弦变换后，所述重聚焦图像中每一个像素得到K＝a²个DCT频率响应分量；剩下的K-1个DCT频率响应分量记为{w_k},k＝1,2,…,K-1；

且每一个像素在一张重聚焦图像中的聚焦度为

可选地，所述步骤D包括：

步骤D1、首先计算全聚焦图像的梯度图，然后将梯度小于预设G_th的像素选择出来；

步骤D2、然后用四邻域准则将基于所述梯度图选择出来的像素连接起来；连接起来的像素块中，区域面积小于预设S_th的都被过滤掉，没有被过滤的区域用数字标记起来；

在采用超像素技术预划分的全清晰图像中的区域和没有被过滤的区域中，包含有相同数字标记的两个相邻区域就被合并，得到多个区域，用{S_i},I＝1,2,…,I来表示多个区域。

可选地，所述步骤E包括：

每一个区域的颜色特征为

其中区域内像素的数目；

区域几何特征：

区域位置特征就是区域平均中心到全清晰图像的曼哈顿距离；

C_p(S_i)＝‖p(S_i)-p‖₂；

其中p(S_i)区域S_i的位置中心坐标，p是整个全清晰图像的中心坐标；

对每个区域内的极线平面深度信息，根据公式七获取每个区域的对应点特征；

公式七：

选取的第一个聚焦特征为公式八表示的加权区域平均聚焦度；

公式八：

选取的第二个聚焦特征是公式九表示的加权区域统计聚焦度；

公式九：

(S_i,j)为区域S_i应聚焦在第j层的像素个数。

可选地，步骤F包括：

采用下述公式十计算相邻区域之间的相似度：

公式十：B′(S_i1,S_i2)＝N(K_max-1)-B(S_i1,S_i2)；

其中，

k∈[2,K_max]，K_max是在重复运行中为K均值聚类设置的最大聚类的数量，N是K均值聚类的重复次数，n表示给定k的n次运行，l_nk(S_i)是区域S_i的第n个区域聚类结果。函数T(·)代表布尔函数。

可选地，步骤G包括：

构造能量函数E(L)，最小化全局能量函数E(L)，然后得到最终的前景分割结果；

其中，T(·)代表布尔函数；

平滑项L_w(·,·)强制平滑前景；L_w(S_i1,S_i2)＝βB′(S_i1,S_i2)；β为参数。

可选地，所述光场图像的前景分割结果为由0和1组成的二值图，像素值为0表示该像素点是背景，像素值为1表示该像素点是前景。

第二方面，本发明实施例还提供一种基于K均值聚类的光场前景分割装置，包括：存储器、处理器、总线以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面的方法的步骤。

第三方面，本发明实施例还提供一种计算机存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如第一方面的方法的步骤。

本发明具有的有益效果如下：

本发明的基于K均值聚类的光场前景分割方法及装置，通过结构张量方法，对光场极线平面提取对应点特征；可以提取光场中不同透镜视角图中的像素点对应关系；

通过使用离散余弦响应方法，对光场重聚焦堆栈提取两种类型的重聚焦特征(如下述提及的第一聚焦特征和第二聚焦特征)；通过这一步骤可以求取光场场景图中每一像素的聚焦最清晰的深度值；

用超像素分割技术，加上一些后期处理手段，将全聚焦图片分成颜色相似的基本区域；进而具有相同颜色的连续像素被归入一个基本区域，同时基本基于保有规整的边界；

在全聚焦图上提取颜色特征、区域位置特征、区域大小特征；提取出能反应基本区域特性的多个特征；

将所有特征输入K均值聚类算法，按照预设参数重复运行多次，统计两个区域属于同属前景或背景的概率并计算边界强度；得到两个基本区域之间的边界强度；

从各种可能的分割结果中，根据基本区域的特征和边界强度，得到最终的分割结果；得到最终前景分割结果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明一实施例提供的光场图像下，两个不同聚焦层的重聚焦信息的示意图；

图2为本发明实施例中方法的流程示意图；

图3为本发明实施例中图像预处理和区域生成的示意图；

图4为本发明实施例中图像生成的层次边界强度的示意图；

图5本发明实施例的方法和传统方法的性能比较示意图；

图6为本发明实施例提供的极线平面的示意图；

图7为本发明实施例提供的基于K均值聚类的光场前景分割装置的结构示意图。

具体实施方式

为了更好的解释本发明，以便于理解，下面结合附图，通过具体实施方式，对本发明作详细描述。

在以下的描述中，将描述本发明的多个不同的方面，然而，对于本领域内的普通技术人员而言，可以仅仅利用本发明的一些或者全部结构或者流程来实施本发明。为了解释的明确性而言，阐述了特定的数目、配置和顺序，但是很明显，在没有这些特定细节的情况下也可以实施本发明。在其它情况下，为了不混淆本发明，对于一些众所周知的特征将不再进行详细阐述。

当前，前景分割是将物体前景与场景视图分开。它通常用于图像编辑，视觉跟踪和图像识别算法。大多数分割算法都是普通二维图像。且这些分割算法需要用户的指示才能识别某些特殊场景中的前景区域，如复杂或伪装背景。

随着计算摄影技术的发展，光场图像已经进入了大众的视野。光场图像包含从不同视图采样的许多冗余像素，因此可用于提取许多有用的辅助图像，如重聚焦图像，3D图像和深度图。这些辅助信息实际上是场景的三维信息，它反应了图片中前景与背景的本质关系。从这一角度出发，光场前景分割算法可以有效地解决一些传统前景分割的问题。

第一、前景与背景分别有复杂而且丰富的颜色，难以单靠颜色去区分前景和背景的区域。

第二、前景与背景有相似的颜色，即外表伪装，使得传统算法容易混淆前景与背景。

第三、传统分割技术需要用户框出前景部分的主体，如果需要处理图片数量特别多，传统技术无法批量处理。

目前，光场相机技术已经较为成熟并广泛使用。使用光场相机能够拍摄光场图像。光场图像是一个四维的数据，相比普通图像，它额外记录了光线入射的方向，相当于普通相机从不同视角拍摄了同一个场景。光场数据在后期处理中重新转化为重聚焦图像或者极线平面图像，并基于这些新的图像来进一步分析。

因此，可以使用重聚焦信息和对应点信息来对光场图像来进行分割。重聚焦图像对于边缘点和亮点估计深度信息比较准，多视角的对应点信息估计纹理复杂和带有噪声的情况会比较准确。因此，同时使用这两种信息有利于提高复杂图像的分割效果。

结合图1和图2所示，本实施例的方法包括下述步骤：

101：针对待处理的光场图像，从所述光场图像中提取重聚焦图像、极线平面图像和全清晰图像。

举例来说，本实施例中可使用Lytro公司提供的LytroDesktop软件，对光场图像进行处理，包括提取重聚焦图像和全清晰图像。除使用该软件处理以外，亦可根据现有算法自行编写代码进行处理。而极线平面图，则由光场图像直接提取，将四维的光场(s,t,x,y)分别沿(s,x)和(t,y)展开，直接提取的图像就是极线平面图。

102：采用结构张量方法对所述极线平面图像进行处理，获取所述光场图像中不同透镜视角的极线平面深度信息(下述简称深度信息)。

举例来说，极线平面深度信息可包括：极线斜率(即经过简单变换得到的深度信息)、深度信息的可信度。

本实施例中通过步骤102可以提取光场中不同透镜视角图中的像素点对应关系，如图6所示的对应关系，在图6中(b)图是(a)图的极线平面，其中，(b)图中一种颜色的斜率相同的点就是对应的点。

103：采用离散余弦响应方法对所述重聚焦图像进行处理，获取所述光场图像的重聚焦信息。

即，本实施例中通过使用离散余弦响应方法，对光场重聚焦堆栈提取两种类型的重聚焦特征(即对应下述的第一个聚焦特征和第二个聚焦特征)；通过这一步骤可以求取光场场景图中每一像素的聚焦最清晰的深度值。

104：采用超像素分割技术对所述全清晰图像进行处理，获取全清晰图像分割后的多个区域。

本实施例中，使用超像素分割技术，加上一些后期处理手段，将全聚焦图片分成颜色相似的基本区域；进而具有相同颜色的连续像素被归入一个基本区域，同时基本基于保有规整的边界。

105：针对每一个区域，基于该区域的极线平面深度信息、所述重聚焦信息、颜色信息和几何信息对该区域进行特征提取，获得该区域的颜色特征、几何特征、对应点特征和重聚焦特征。

本实施例中，每一个区域都有颜色特征、几何特征、重聚焦特征、对应点特征。下述结合公式的详细描述中每一个区域的四个大特征又可以更细化成8个具体的公式。

特别说明的是，上述步骤中的颜色信息是指全清晰图像中每个像素的R、G、B三个颜色通道。

几何信息是指在全聚焦图被划分成区域以后，每个区域的形状大小、位置信息。

也就是说，对每一个区域提取颜色特征、几何特征(即位置特征和大小特征)、重聚焦特征、对应点特征；以便提取出能反应基本区域特性的多个特征。每一个区域有自己独一无二的特征。

106：对于所有区域，基于每一个区域的颜色特征、几何特征、对应点特征和重聚焦特征，采用K均值聚类计算相邻区域之间的相似度。

107：基于相邻区域之间的相似度，采用图割算法标记前景和背景，获取所述光场图像的前景分割结果。

本实施例中，将所有特征输入K均值聚类算法，基于设置的参数重复运行多次，统计两个区域属于同属前景或背景的概率并计算边界强度；得到两个基本区域之间的边界强度；根据基本区域的特征和边界强度，得到最终分割结果；得到最终前景分割结果。

上述方法使用K均值聚类对图像区域进行分类，然后通过通过K均值聚类，来采样不同区域被归类到同一个类别中的概率，来生成分层区域边界，根据分类结果，可以计算出符合图割算法的区域距离，最后得到分割结果。

实验部分：申请人还利用了一个光场数据集来测试算法，如图5所示。该数据集中的大多数图像具有可分离的前景物体，适用于前景分割。将本申请的算法与现有的算法进行比较，本申请的算法在F1准确率中超过现有的算法。

为更好的理解本发明实施例的方法，以下对各个步骤进行详细说明。

针对上述步骤102：基于结构张量提取对应点信息

光场可以使用一个4D的坐标轴(s,t,x,y)来进行表示，其中(s,t)代表拍摄场景的光线入射角度维度，(x,y)代表拍摄场景的光线入射位置维度。

普通图像就是当(s,t)取一个定值的时候，(x,y)所组成的一个二维平面图像。而从不同的(s,t)中看(x,y)构成的图像，会有视角上的几度差异。

本实施例中将四维坐标分散，只从(x,s)或者(y,t)中观察光线的模式，可以看到由不同直线组合构成的图像，这就叫做极线平面。

可以推出视差与深度之间的转换公式：

其中，Δx是在x维度上的偏移量，Δs是在s维度上的偏移量，f是微透镜阵列与成像面的距离，D是物体到相机的距离。根据此公式(1)，可以由极线平面中的对应点关系，推出场景点的深度。

可理解的是，相机所拍摄的场景点其实是三维的，像素点在图片里就是二维的。所以三维空间的场景点，投影在二维图片上的就是一个像素点。

本实施例中，使用结构变量的方法来取深度。若要求得深度信息，首先要求取给定(y^*,t^*)下的极线平面的直线斜率，由此可得y^*下的一条直线上的斜率。

首先计算给极线平面的结构张量H：

其中，G_σ是以σ为方差的高斯函数，用于平滑和去除噪点，而I_x和I_s分别是(y^*,t^*)下极线平面在x和s方向的梯度分量。极线平面中一条光线的方向可以用一个向量n来表示，如公式(3)所示。

那么该场景点所在的深度D即可根据公式(1)估计出来，如公式(4)所示。

所估计深度的可信度为

其中，上述公式中的H_xs、H_xx、H_ss是变换中的一种数据结构。

上述公式(2)的结构张量是利用像素周围的局部区域来估计深度的。如果像素周围颜色分布均匀，没有足够的信息用来估计深度，那么在这部分均匀的区域里，深度可信度低且深度估计值为噪声。

本实施例中的深度信息可包括每一场景点的深度和该深度的可信度。

针对步骤103：基于离散余弦响应方法提取重聚焦信息

重聚焦是另一种可以辅助分割的信息。本实施例重聚焦图像即为浅景深图像。

4D光场中的光线可以依据所需要聚焦的深度，重新叠加和融合光线颜色。在这种颜色重新组合的情况下，可以轻松地渲染出浅景深的效果。

换言之，就是可以在一定深度的深度范围内，对4D光场数据里提取出的二维图像进行重聚焦。由于图像进行重聚焦后，每个像素点与其邻域呈现出的清晰与模糊效果，是和场景点的深度有关的。因此，通过对重聚焦于不同深度的重聚焦图像进行聚焦度检测，就可以获得场景点的深度信息。

针对重聚焦图像，本实施例中使用一个滑动窗口对每一个像素及其邻域进行离散余弦变换(DCT)；经过变换后，重聚焦图像每一个像素可以得到K＝a²个DCT频率响应分量。其中直流分量会被过滤，因为直流分量不能带来任何聚焦信息。剩下的K-1个DCT频率响应分量被记为{w_k},k＝1,2,…,K-1。

上述的w_k可通过下述的公式(6)计算。

其中，S_(x,y)是图像I中以像素(x,y)为中心的a×a像素滑动窗口。该处显示的是二维的离散余弦变换，进而得到的结果也是二维的频率响应，公式(6)中的u和v分别表示这个频域的两个坐标轴。

经过这种DCT变换之后，每一个像素得到的是一堆数值(有K个)。这K个数分别代表着关于聚焦度的物理意义。因此要把它们整合成公式(7)中的聚焦度F。

本实施中定义一个像素在一张重聚焦图像中的聚焦度F为

由于聚焦度是与浅景深图像(即重聚焦图像)聚焦的深度相关的，因此理论上而言，使得一个像素点的聚焦度在一张浅景深图像(即重聚焦图像)中取得最大，则该浅景深图像所聚焦的深度就是该像素点的深度。

特别说明的是，重聚焦图像即为本实施例部分区域提及的浅景深图像，重聚焦堆栈是多张重聚焦图像在不同深度的图像集合，每一个像素都有一个聚焦度。

如图1所示，图1示出了光场图像下，两个不同聚焦层的重聚焦信息，图1(a)是聚焦在背景草地上的重聚焦图像，图1(b)是图1(a)的离散余弦变换的响应值加权平均处理后的图；图1(c)是聚焦在前景花朵上的重聚焦图像，图1(d)是图1(c)的离散余弦变换的响应值加权平均处理后的示意图。

针对上述的步骤104：K均值聚类区域分割

本实施例中使用超像素技术来为全清晰图像预划分区域。接着在正式分割前，先进行相似颜色区域融合。这是为了保证相邻区域颜色有一定差异，区域内颜色一致，并减少区域的数量。融合步骤如下：

首先：计算全聚焦图像的梯度图，然后将梯度小于预设值G_th的像素选择出来。

然后，采用四邻域准则将聚集在一起的像素连接起来。聚集起来的像素块中，区域面积小于S_th(设定值)的都被过滤掉，未被过滤的区域的用数字标记起来。

在之前的区域中(在采用超像素技术预划分的全清晰图像中的区域和没有被过滤的区域中)，包含有相同数字标记的两个相邻区域就被合并，用{S_i},i＝1,2,…,I来表示这些新的区域，如图3(c)所示。

这里J是重聚焦层的层数。因为在重聚焦图像中，物体的位置不会随着聚焦深度的改变而改变。尽管失焦物体的边缘会出现模糊，这并不会影响物体边缘的定位。

这里其实两种区域的概念，一种是超像素预划分的区域，这个是主要的区域概念，如图3中的(a)图，表示分割成小块小块的区域，面积小而数量多；

另一种是算梯度图之后，过滤，用四邻域连接起来的颜色相似的像素，所组成的区域，如图3中的(b)图，对于整个图片而言，颜色相似的那些大块的区域，面积大而数量少。后者用来指导前者的合并，得到的结果是前者的一种合并后的区域分布，如图3(c)所示。

再者，基于划分的区域，使用重聚焦信息，极线平面深度信息，颜色信息和区域几何信息来提取特征。

本实施例中，颜色信息是从全清晰图像中来的，就是RGB三个颜色。区域几何信息就是统计区域的像素个数和位置。

图像分割就是对像素点进行分类的过程，本实施例中使用区域作为分类的对象。重聚焦信息和极线平面深度信息都是具有隐含的真实世界位置信息的三维信息。颜色线索是一般有用的线索。区域几何线索包括区域的区域属性和位置属性，因为假设分割对象位于图像的中心，而大区域通常属于背景，该些假设通过后续的循环确认是否正确，进而实现正确的区分前景和背景。

针对上述的步骤105：

在本实施例的光场图像算法中，特征包括四类，区域颜色特征、区域几何特征、重聚焦特征和对应点特征。

1)区域颜色决定了这一块区域的视觉效果。因此，使用区域平均颜色可以将颜色差异大的不同物体区分开。

颜色特征：

其中区域内像素的数目，C_r,g,b表示RGB三个颜色。

2)区域几何特征是区域形状、位置的指示特征。

本实施例中将大区域与小区域分割开，那么预分割中得到的较大的区域块能被图割算法独立地判断是否属于前景。本实施例中，可以假设大部分面积较大的区域是属于背景，而小部分面积中等的区域有很大可能是属于前景。区域大小定义为属于区域内的像素点个数。

区域大小：

3)加入区域位置特征可以有效避免K均值聚类不具有空间信息的缺点。区域位置特征就是区域平均中心到全清晰图像的曼哈顿距离。

区域位置特征：C_p(S_i)＝‖p(S_i)-p‖₂ (10)

其中p(S_j)区域S_i的位置中心坐标，p是整个图像的中心坐标。

4)由极线平面所求得的深度信息，对其在区域内取平均值，可得区域内对应点特征。

即，从极线平面计算深度相当于在不同视图中找到对应的像素点。当像素位于物体的边缘或像素具有纹理邻域时，对应点计算比较准确。极线平面深度值最后通过加权平均进行聚合得到对应点特征。

对应点特征：

对应点特征是对一个区域而言的，是这个区域的对应点的加权融合，属于深度信息的一个体现，r(x,y)表示的是对应上述公式(5)中的可信度。

应说明的是，极线平面中表现出来的那些线，其实是一个场景点在不同视角下的投影，不同的视角上对应同一个场景点的那些像素点，称之为对应点。对应点特征其实是提取的不同视角中的对应点。

5)由于聚焦度信息的加入，可以有效地提高K均值聚类对图像分割的准确性。

选用的第一个聚焦特征为加权区域平均聚焦度C_af：

6)第二个聚焦特征是加权区域统计聚焦度C_hf。

此特征首先计算每个像素的最大聚焦度所对应的下标，然后统计区域内所有的最大聚焦度下标得到直方图。

尽管单个像素的最大聚焦度对应的下标值并不能可靠地代表该像素聚焦的图层，但区域内所有的像素一起进行投票统计，得到的聚焦图层的可信度会大大提高。

定义h(S_i)是区域S_i内达到最大聚焦度的像素统计数目。

h(S_i)＝{j|j＝argmax_j′F^(j′)(x,y),(x,y)∈S_i} (13)

定义t(S_i,j)为认为区域S_i应聚焦在第j层的像素个数，那么t(S_i,j)满足则加权区域统计聚焦度

本实施例中，公式(14)中J是重聚焦层的层数。

针对上述的步骤106：层次边界

在计算所有区域特征后，选择其中经典的K均值聚类来进行特征分类。K均值聚类首先会根据聚类数目，随机分配聚类中心。然后计算各分类中对象的均值，获得一个新的聚类中心，这个过程会不断重复直到收敛。对于每个区域，都有一个样本向量

x＝(C_af,C_hf,C_d,C_r,C_g,C_b,C_a,C_p) (15)

其中，C_af表示加权区域平均聚焦度，C_hf表示加权区域统计聚焦度，C_d表示对应点特征，C_r表示区域颜色特征红色，C_g表示区域颜色特征绿色，C_b表示区域颜色特征蓝色，C_a表示区域大小特征，C_p表示区域位置特征。

因此，K均值聚类运行在八维特征空间中，向量的所有分量映射到0和1之间的间隔，以进行归一化。

然而，K均值聚类是一个不稳定的算法，因为它的集群中心是随机初始化的。为了克服上述限制，本实施例中构建了一个算法，反复运行N次不同数值k下的K均值聚类，其中k∈[2,K_max]。K_max是在重复运行中为K均值聚类设置的最大聚类的数目。最后，可以得到N(K_max-1)个聚类结果。将所有结果集合在一个总体投票中：

其中K_max是预先设置的最大聚类的数量，N是K均值聚类的重复次数，n表示给定k的n次运行，l_nk(S_i)是区域S_i的第n个区域聚类结果。函数T(·)代表布尔函数。边界值B(S_i1,S_i2)测量两个区域S_i1和S_i2之间的差异。它计算N(K_max-1)个结果中区域S_i1和S_i2处于相同聚类类型的次数。如果选择几个不同的阈值，绘制B(S_i1,S_i2)的二值化图，将得到一个分层结果，如图5所示。然后，可以计算区域之间的相似度：

B′(S_i1,S_i2)＝N(K_max-1)-B(S_i1,S_i2) (17)

针对上述的步骤107：前景分割和优化

K均值聚类无法确定区域是否属于前景或背景。因此，基于之前区域的分割结果，利用图割算法标记前景和背景。构造能量函数E(L)：

E(L)＝∑_i∈IL_c(S_i)+∑_i1,i2∈IL_w(S_i1,S_i2)T(L(S_i1)≠L(S_i2)) (18)

其中T(·)代表布尔函数。对于数据项L_c，表示将前景或背景标签分配给一个区域的代价。

平滑项L_c(·,·)强制平滑前景，此项描述了两个区域的相似度。此外，我们引入参数β来平衡这两项。函数描述为

L_w(S_i1,S_i2)＝βB′(S_i1,S_i2) (20)

本实施例中的目标是最小化全局能量函数E(L)，然后得到最终的前景分割结果。

图4中示出了N＝10、K_max＝11光场图像生成的层次边界的强度示意图。

本实施例中使用K均值聚类对图像区域进行分类，然后通过从集合方法借用思想来生成分层区域边界。根据分类结果，可以计算出符合图割算法的区域距离，最后得到分割结果。

可理解的是，本实施例中装置的输入是一个光场图像。这个图像是用光场相机拍摄的，具体一种相机是LytroIllum，。

光场图像能提取出一种结构，叫极线平面，光场图像还能生成重聚焦图像、全清晰图像。

本实施例中光场图像其实是一堆传感器数据，从这堆数据里可以使用lytro相机的附带软件直接生成，也可以通过算法自行提取。除了lytro相机，还有raytrix公司的相机能够拍摄光场图片，而且本实施例的装置可以处理任意的光场图像。

本实施例的装置的输出是一张0、1图，像素值0代表着图片上对应的像素点是背景，像素值1代表着图片上对应的像素点是前景。即，本实施例的目的是做出一种能够从光场数据里面，自动分离前景背景的效果，它可以用来辅助抠图、识别等其他算法。

根据本发明的另一方面，本发明还提供一种基于K均值聚类的光场前景分割装置，该装置可包括：存储器、处理器、总线以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述方法的步骤，具体包括：

在一种可选的实现方式中，上述步骤B可包括：

其中，公式一：

f是微透镜阵列与成像面的距离，D是物体到相机的距离；

公式二：

用一个向量表示极线平面图像中一条光线的方向：

公式三：

估计的场景点所在的深度为：

公式四：

估计深度的可信度为：

公式五：

在另一可选的实现场景中，上述步骤C可包括：

且每一个像素在一张重聚焦图像中的聚焦度为

在再一可选的实现场景中，上述步骤D可包括：

进一步地，上述步骤E可包括：

每一个区域的颜色特征为

其中区域内像素的数目；

区域几何特征：

C_p(S_i)＝‖p(S_i)-p‖₂；

公式七：

公式八：

公式九：

其中，t(S_j,i)为认为区域S_j应聚焦在第i层的像素个数。

此外，步骤F包括：采用下述公式十计算相邻区域之间的相似度：

公式十：B′(S_i1,S_i2)＝N(K_max-1)-B(S_i1,S_i2)；

其中，

可选地，步骤G可包括：

其中，T(·)代表布尔函数；

本实施例的装置，通过结构张量方法，对光场极线平面提取对应点特征；可以提取光场中不同透镜视角图中的像素点对应关系；

具体地，上述处理器可以包括中央处理器(CPU)，或者特定集成电路(ApplicationSpecific Integrated Circuit，ASIC)，或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。处理器通过读取并执行存储器中存储的计算机程序指令，以实现上述实施例中的任意一种基于K均值聚类的光场前景分割方法。

在一个示例中，上述装置还可包括通信接口和总线。其中，如图7所示，处理器、存储器、通信接口通过总线连接并完成相互间的通信。

通信接口，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线包括硬件、软件或两者，将该装置的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

另外，结合上述实施例中的方法，本发明实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种基于K均值聚类的光场前景分割方法。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

最后应说明的是：以上所述的各实施例仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或全部技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于K均值聚类的光场前景分割方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述步骤B包括：

其中，公式一：

Δs是在x维度上的偏移量，Δs是在s维度上的偏移量；

f是微透镜阵列与成像面的距离，D是物体到相机的距离；

公式二：

其中，上述公式中的H_xs、H_xx、H_ss均为变换中的一种数据结构；

用一个向量表示极线平面图像中一条光线的方向：

公式三：

估计的场景点所在的深度为：

公式四：

估计深度的可信度为：

公式五：

其中，(y^*,t^*)为给定的极限平面，y^*和t^*均为给定极限平面的坐标。

3.根据权利要求2所述的方法，其特征在于，所述步骤C包括：

针对每一张重聚焦图像，使用一个滑动窗口对每一个像素及其邻域进行离散余弦变换DCT：经过离散余弦变换后，所述重聚焦图像中每一个像素得到K＝a²个DCT频率响应分量；前K-1个DCT频率响应分量记为{w_k},k＝1,2,…,K-1；

且每一个像素在一张重聚焦图像中的聚焦度为

其中，a是表示像素个数的参数。

4.根据权利要求3所述的方法，其特征在于，所述步骤D包括：

步骤D1、首先计算全聚焦图像的梯度图，然后将梯度小于预设值G_th的像素选择出来；

步骤D2、然后用四邻域准则将基于所述梯度图选择出来的像素连接起来；连接起来的像素块中，区域面积小于预设值S_th的都被过滤掉，没有被过滤的区域用数字标记起来；

5.根据权利要求4所述的方法，其特征在于，所述步骤E包括：

每一个区域的颜色特征为

其中为区域内像素的数目；

区域几何特征：

公式七：

公式八：

公式九：

其中，S_i为区域；

J是重聚焦层的层数；

是区域S_i重聚焦的j层；

D(x,y)为极限平面深度值；

r(x,y)为极限平面深度值的可信度；

t(S_i,j)为区域S_i应聚焦在第j层的像素个数；

F(·)为聚焦度。

6.根据权利要求5所述的方法，其特征在于，步骤F包括：

采用下述公式十计算相邻区域之间的相似度：

公式十：B′(S_i1,S_i2)＝N(K_max-1)-B(S_i1,S_i2)；

其中，

k∈[2,K_max]，K_max是在重复运行中为K均值聚类设置的最大聚类的数量，N是K均值聚类的重复次数，n表示给定k的n次运行，l_nk(S_i)是区域S_i的第n个区域聚类结果，函数T(·)代表布尔函数；

其中，S_i1和S_i2为多个区域中的任意两个相邻区域。

7.根据权利要求6所述的方法，其特征在于，步骤G包括：

其中，T(·)代表布尔函数；

平滑项L_w(·,·)强制平滑前景；L_w(S_i1,S_i2)＝βB′(S_i1,S_i2)；β为参数；

其中，I为S_i的区域索引集合；

S_i1和S_i2为多个区域中的任意两个相邻区域；

L(·)为判断(·)是前景或背景的函数。

8.根据权利要求1所述的方法，其特征在于：

所述光场图像的前景分割结果为由0和1组成的二值图，像素值为0表示背景，像素值为1表示前景。

9.一种基于K均值聚类的光场前景分割装置，其特征在于，包括：存储器、处理器、总线以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1-8任意一项的方法的步骤。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于：所述程序被处理器执行时实现如权利要求1-8任意一项的方法的步骤。