CN105590312A

CN105590312A - 前景图像分割方法和装置

Info

Publication number: CN105590312A
Application number: CN201410645593.7A
Authority: CN
Inventors: 赵颖; 王刚; 刘丽艳
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2014-11-12
Filing date: 2014-11-12
Publication date: 2016-05-18
Anticipated expiration: 2034-11-12
Also published as: US20160133027A1; JP2016095849A; CN105590312B; JP6631179B2; US9767567B2

Abstract

提供了前景图像分割方法和装置。该方法可以包括：获取输入图像及其颜色信息和深度信息；基于输入图像的深度信息，对输入图像进行粗略分割以获得初始三色图；基于输入图像的颜色信息，对该初始三色图中的未知区域进行腐蚀或膨胀，以获得优化的三色图；以及根据优化的三色图分割出前景图像。通过此方法，能够基于输入图像的颜色信息对该初始三色图进行优化以获得更准确的三色图，由此从该三色图准确分割出前景图像。

Description

前景图像分割方法和装置

技术领域

本发明涉及图像处理领域，更具体地，涉及从图像中分割前景图像的方法和装置。

背景技术

前景图像分割技术即我们通常所说的抠图技术，目的在于将目标对象从图像中提取或分割出来，并估计由该对象所覆盖的区域中的每个像素的透明度，即Alpha值(α蒙版)。提取的目标对象区域被称为图像的前景区域或者前景图像，其余部分被称为图像的背景区域或者背景图像。

该技术在图像或视频编辑应用领域有广泛的应用，用户可以借此技术将前景分割出来，与另外一个背景无缝地集成在一起，例如在虚拟拍照中将前景，例如人与虚拟背景相结合达到“身临其境”的效果，在视频会议中将与会人员从原背景中分离出来与其他背景集成，等等。

从图像合成的角度，可以将图像I(x,y)建模为前景图像F(x,y)与背景图像B(x,y)以其α(x,y)值的线性组合，如以下的公式(1)所示：

I_p＝α_pF_p+(1-α_p)B_p(1)

其中I_p为图像的像素点p的像素值，F_p为像素点p的前景分量，B_p像素点p的背景分量，α_p为透明度Alpha值，其取值范围为[0,1]。当α_p＝1时，像素点p属于前景区域；当α_p＝0时，像素点p属于背景区域。

也就是说抠图问题变为求解此方程，为此，通常采用三色图来增加条件限定的方式求解。所谓三色图即包含黑、白、灰三种颜色的标记图像，每种颜色代表一个区域类型。其中，黑色表示已知的背景区域；白色表示已知的前景区域；灰色表示未知区域，即不能确定该区域哪部分属于背景，哪部分属于前景。

由于三色图的引入，抠图的求解转化为计算未知像素点p(而不是整幅图像的所有像素点)的Alpha值、前景分量F_p及背景分量B_p，其中，F_p和B_p可以根据像素点p的邻域点进行估计而得到。获得F_p和B_p之后，像素点p的Alpha值α_p就可以根据如下公式(2)得到：

α_{p} = \frac{(I_{p} - B_{p}) * (F_{p} - B_{p})}{{| | F_{p} - B_{p} | |}^{2}} - - - (2)

可见，三色图的形成是抠图处理的基础，形成更准确的三色图有助于更精确地将前景对象从图像或视频中分割出来。

在目前用于形成三色图的方法中，可以通过用户交互的方式由用户指定图像中的三色图，比如在图像上画出一些线段以标明图像中的哪些部分是前景哪些部分是背景。此方法需要用户手动生成三色图，这对于用户而言是麻烦的，生成的三色图也不够准确。还可以通过引入深度信息来帮助自动生成三色图，虽然此方法不再需要用户交互，但是在某些情况下仍然不能生成准确的三色图。比如，在某个前景区域仅包含一种颜色并且该颜色没有在其他前景区域中出现的情况下，将该区域标记为未知区域很可能导致该区域被错误地分类为背景区域。

而且，如上所述，未知像素点p的Alpha值的计算依赖于对在该像素点p的邻域中的已知前景点和背景点的采样，因此获得更准确的前景和背景样本点对Alpha值的计算即抠图的质量来说至关重要。

发明内容

考虑到上述问题而做出本发明，提供了能够从图像中准确地分割出前景图像的方法和装置。

根据本发明的一个方面，提供了前景图像分割方法，该方法可以包括：获取输入图像及其颜色信息和深度信息；基于输入图像的深度信息，对输入图像进行粗略分割以获得初始三色图；基于输入图像的颜色信息，对该初始三色图中的未知区域进行腐蚀或膨胀，以获得优化的三色图；以及根据优化的三色图分割出前景图像。

在一个可选的实施例中，基于输入图像的颜色分布对该初始三色图中的未知区域进行腐蚀或膨胀可以包括：将该初始三色图的未知区域划分为多个局部区域；对于每一局部区域，判断其中的颜色分布是否满足预定条件，如果不满足则对该局部区域进行腐蚀或膨胀直到该局部区域的颜色分布满足该预定条件。

在一个可选的实施例中，所述预定条件可以是：该局部区域中的颜色种类为两种。

在一个可选的实施例中，该前景图像分割方法还可以包括：检测前景对象的构成部件之间的缝隙区域；在经过腐蚀或膨胀的三色图中标记出所述缝隙区域，作为未知区域的部分，以获得优化的三色图。

在一个可选的实施例中，根据优化的三色图分割出前景图像可以包括：对于该优化的三色图的未知区域中的每个像素，从该像素的邻域中选择该像素的最佳前景像素-背景像素对；根据该最佳前景像素-背景像素对的颜色值估计该像素的前景分量和背景分量；根据该像素的前景分量和背景分量的估计值计算该像素的Alpha值；基于该优化的三色图中所获得的前景区域以及该未知区域中的每个像素的Alpha值，分割出前景图像。

在一个可选的实施例中，从该像素的邻域中选择该像素的最佳前景像素-背景像素对可以包括：以输入图像的深度信息作为权重，对输入图像的颜色信息进行加权线性变换，获得变换后的输入图像的颜色信息；对于该优化的三色图中的未知区域中的每个像素，从该像素的邻域中的前景区域中选择多个前景像素样本，并从该像素的邻域中的背景区域中选择多个背景像素样本，以构成样本集合；对于该样本集合中的任意一个前景像素和任意一个背景像素构成的前景像素-背景像素对，基于该前景像素-背景像素对的变换后的颜色信息和空间位置信息构造能量函数；获得使得该能量函数最小的前景像素-背景像素对，作为所述最佳前景像素-背景像素对。

在一个可选的实施例中，根据该最佳前景像素-背景像素对的颜色值估计该像素的前景分量和背景分量可以包括：对于该像素的邻域内的每个像素，获得相应的最佳前景像素-背景像素对；计算该像素的最佳前景像素-背景像素对中的前景像素的颜色值以及该像素的邻域内的每个像素的最佳前景像素-背景像素对中的前景像素的颜色值的平均值，作为该像素的前景分量的估计值；计算该像素的最佳前景像素-背景像素对中的背景像素的颜色值以及该像素的邻域内的每个像素的最佳前景像素-背景像素对中的背景像素的颜色值的平均值，作为该像素的背景分量的估计值。

在一个可选的实施例中，根据该像素的前景分量和背景分量的估计值计算该像素的Alpha值可以包括：利用该像素的前景分量和背景分量的估计值计算Alpha估计值；计算该像素的前景分量和背景分量的估计值以及该像素的实际颜色值之间的偏差；根据该像素的Alpha估计值以及该偏差计算以该像素的前景分量和背景分量的估计值来计算该像素的Alpha值的可信度；基于该α的估计值以及该可信度计算该像素的Alpha值。

根据本发明的另一方面，提供了前景图像分割装置，包括：获取部件，获取输入图像及其颜色信息和深度信息；粗略分割部件，基于输入图像的深度信息，对输入图像进行粗略分割以获得初始三色图；三色图优化部件，基于输入图像的颜色分布，对该初始三色图中的未知区域进行腐蚀或膨胀，以获得优化的三色图；以及前景图像分割部件，根据优化的三色图分割出前景图像。

在一个可选的实施例中，所述三色图优化部件可以将该初始三色图的未知区域划分为多个局部区域，并且对于每一局部区域，判断其中的颜色分布是否满足预定条件，如果不满足则对该局部区域进行腐蚀或膨胀直到该局部区域的颜色分布满足该预定条件。

根据本发明，能够基于深度信息从输入图像生成初始三色图，基于输入图像的颜色信息对该初始三色图进行优化获得更准确的三色图，由此从该三色图准确分割出前景图像。

而且，根据本发明，可以对输入图像的颜色信息进行加权线性变换以将前景和背景中的相近颜色区分开来，并且由于采用了良好的采样策略，能够选择最佳样本对计算未知像素点的Alpha值，进一步提高了分割出的前景图像的准确性。

附图说明

图1示出根据本发明的一个实施例的前景图像分割方法的流程图。

图2示出了输入图像以及相应的初始三色图的例子。

图3示出了未知区域的划分的例子。

图4示出了对于图3中所划分的每个小矩形区域内的未知区域的优化的流程。

图5a-5c示出了未知区域的示例以及相应的腐蚀膨胀处理的示意图。

图6示出了存在缝隙的抠图结果的示意图。

图7示出了利用骨架信息标记缝隙区域的例子。

图8a和图8b分别示出了输入图像中的缝隙以及根据缝隙标记方法获得的三色图。

图9示出了根据本发明的另一实施例的基于最佳样本对分割前景图像的方法的流程图。

图10示出了根据实施例的颜色信息变换的示意图。

图11a和11b分别示出了像素点p和q的样本点具有交集以及没有交集的示意图。

图12示出了根据本发明的前景图像分割方法的一种可能的应用场景。

图13示出了根据本发明的另一实施例的前景图像分割装置的功能框图。

图14示出了根据本发明的实施例的实现前景图像分割的系统的硬件配置的示意图。

具体实施方式

为了使本领域技术人员更好地理解本发明，下面结合附图和具体实施方式对本发明作进一步详细说明。

如图1所示，根据此实施例的前景图像分割方法100可以包括：步骤S110，获取输入图像及其颜色信息和深度信息；步骤S120，基于输入图像的深度信息，对输入图像进行粗略分割以获得初始三色图；步骤S130，基于输入图像的颜色信息，对该初始三色图中的未知区域进行腐蚀或膨胀，以获得优化的三色图；以及步骤S140，根据优化的三色图分割出前景图像。

在步骤S110中获取的输入图像可以是包括需要进行抠图的对象的彩色图像及其相应的深度图像。现有技术中存在能够同时捕捉场景的颜色以及深度信息的摄像装置，例如PrimeSense摄像头、Kinect或其他深度摄像头。由此，可以同时获得输入图像的颜色信息以及深度信息。当然，本领域中已知的以及将来可能出现的任何其他获得图像的颜色信息以及深度信息的方法都可以应用于本发明，本发明对其获得方式没有特别限制，只要能够获得输入图像的颜色及深度信息即可。

例如，在一个实施例中，利用深度摄像机拍摄目标场景的RGB彩色图像和深度图像。深度图像的像素值表示某一时刻该场景中物体到摄像机的距离。在本发明的计算过程中，我们将深度值归一化到[0,1]的范围内，边界值1表示距离摄像机最近的物体，边界值0表示距离摄像机无穷远或超出摄像机工作范围。

在步骤S120中，基于输入图像的深度信息，对输入图像进行粗略分割以获得初始三色图。在下文中，将以“人”作为前景对象的例子进行有关前景对象分割的描述，然而本发明的前景对象不限于人。

例如，可以利用现有方法在输入图像中进行人的检测。比如，可以利用模板匹配的方法或者通过微软公司的深度摄像头Kinect提供的相应库函数进行对象检测。根据检测到的对象(人的区域)，可以假定某些像素属于前景或背景以便生成初始三色图。

此生成过程可以包括对于输入图像中的像素的深度信息进行阈值判断，以决定其是否属于前景区域。例如，可以将检测到的人的区域假定为前景区域，对该区域之外的像素，如果其深度值与该人的区域的深度平均值保持连续(例如该像素的深度值与该深度平均值的差小于一预定阈值)，则可判定该像素属于前景区域；如果其深度值与该人的区域的深度平均值存在明显差异(例如该像素的深度值与该深度平均值的差大于一预定阈值)，则判定该像素属于背景区域。另外，通过对检测到的人的区域实施先腐蚀再膨胀操作，可以得到未知区域。据此，生成初始三色图。

图2示出了输入图像以及相应的初始三色图的例子，其中白色区域表示前景区域，黑色区域表示背景区域，灰色区域表示未知区域。

需要指出的是，虽然上文中以“人”作为前景对象描述了基于深度信息生成初始三色图的方法，但是本发明中的前景对象不限于人。对于任何其他对象，比如动物或者物体，如果预先获得或者存储了该对象的相应形状特征或者任何其他可供检测的特征，则也可以利用这些特征基于深度信息进行检测，在此不再赘述。

由于深度摄像机的精度较低，检测结果的边缘粗糙，通过在步骤S120中进行对象检测得到的前景区域通常会包含部分背景点或者缺失部分前景点，因此，在本发明的实施例中，在步骤S130中对初始三色图进行优化以更准确地标记出未知区域。

如之前所述，三色图中未知区域的标记会影响抠图质量。本发明人发现，当某个前景区域只包含一种颜色且这种颜色没有在其他前景区域中出现(比如白色着装的人的头发区域)，并且该区域被标记为未知区域时，这部分区域将会被错误分类为背景区域，从而降低抠图质量。

据此，本发明提出了优化未知区域的条件：在局部范围内，未知区域应该包含一种前景颜色和一种背景颜色。因此，在步骤S130中，根据输入图像的颜色信息对该初始三色图中的未知区域进行腐蚀或膨胀，以获得优化的三色图。

在一个实施例中，可以根据该初始三色图中所划分的未知区域内的颜色分布信息，迭代地收缩或者扩张(腐蚀或膨胀)该未知区域，直到该区域的颜色种类满足该条件。例如，可以将该初始三色图的未知区域划分为多个局部区域，对于每一个局部区域，判断其中的颜色分布是否满足该条件，如果不满足则对该局部区域进行腐蚀或膨胀直到该局部区域的颜色分布满足该条件。

图3示出了未知区域的划分的一个具体例子。如图3中所示，取包括该未知区域的外接矩形，以该矩形中的前景区域的近似中心线将包括该矩形区域划分为近似对称的左右两部分，并将每部分划分为多个小矩形区域，从而将该未知区域划分为多个局部区域。需要注意的是，为了突出显示该未知区域，在图3中将该未知区域示出为白色而将前景区域和背景区域都示出为黑色。当然，图3所示的未知区域的划分仅仅是一个例子，任何其他适当的划分方式也是可能的。

图4示出了对于如上所划分的每个小矩形区域内的未知区域的优化的流程。如图4所示。在步骤S131，根据在步骤S110中所获取的颜色信息计算该未知区域内的颜色分布。例如，可以采用KNN(K-最近邻)算法来计算颜色分布直方图，获得颜色分布信息。

在步骤S132，判断该未知区域内的颜色种类是否等于2。如果是，则处理前进到步骤S136，不对该未知区域进行腐蚀膨胀处理，对该未知区域的优化完成。图5a示意性示出了满足该条件的未知区域的示意图。在图中将该局部区域的未知区域示出为规则的矩形仅仅是示意性的，实际上，该未知区域可能是不规则的形状。

另一方面，如果该未知区域内的颜色种类不等于2，则处理前进到步骤S133，以判断该颜色种类是否小于2。如果是，则表明该未知区域只包含背景点，如图5b所示，很有可能没有覆盖到真正的前景边缘，因此，在步骤S134中，将从前景边缘向已知的前景区域扩张该未知区域(膨胀处理)；如果不是，即该未知区域内的颜色种类大于两种，这表明该未知区域可能包含过多的前景点(包含多于一种颜色的前景)，如图5c所示，因此，在步骤S135中，将从前景边缘向背景边缘收缩未知区域(腐蚀处理)。

上述的腐蚀或膨胀处理可以通过形态学操作而实现，形态学操作对于本领域技术人员而言是很容易实现的，在此不再赘述其细节。

对于每一个划分的局部区域重复执行该腐蚀或膨胀处理，直至未知区域的颜色种类满足条件。由此，在步骤S130中，获得未知区域经过优化的三色图，其中对未知区域的分割更加准确，为随后的抠图打下了良好的基础。

在某些情况下，前景对象的某些组成部件之间可能形成缝隙，比如人的胳膊与躯干之间的缝隙。这些缝隙不能通过形态学操作而从前景区域中消除掉，会使得抠图结果中仍然会有一些背景残留。图6示出了可能存在这样的缝隙的抠图结果的示意图。如图6所示，在人的手臂与身体之间形成的两个三角形的区域即是缝隙区域，其中包含了背景图像。

因此，在一个可选的实施例中，可以对输入图像进行缝隙检测并将检测到的缝隙区域标记为未知区域。例如，可以计算出骨架信息。具体地，可以通过KinectSDK提供的方法、基于时间-空间推理及建模的人体姿态估计方法(Model-basedhumanposeestimationwithspatio-temporalinferencing)等从输入图像获得肩膀、手肘、手腕等的手臂节点以及胯部、膝盖、脚腕等的腿部节点，以获得骨架信息。

图7示出了利用骨架信息标记缝隙区域的一个具体例子。如图7所示，根据肩膀、手肘、手腕等手臂节点形成一个三角形，这个三角形是手臂与躯干之间所能形成的缝隙区域的最小覆盖。类似地，根据胯部、膝盖、脚腕等腿部节点形成一个矩形，这个矩形是两腿之间所能形成的缝隙区域的最小覆盖。将上述潜在的缝隙区域标记为未知区域，并将其添加到在步骤S130中所获得的优化的三色图中。当然，在图7中示出的矩形和三角形仅仅是示例性的，取决于缝隙的形成方式，缝隙区域可以是任何其他适当的形状。

图8(a)示出了示例的输入图像中的缝隙的示意图，图8(b)示出了根据此缝隙标记方法获得的三色图。

随后，在步骤S140，根据优化的三色图分割出前景图像。此三色图可以是在步骤S130中获得的经过颜色优化的三色图，也可以是进一步经过缝隙标记的三色图。

如之前所述，通过计算在该三色图的未知区域内的像素点p的Alpha值来进行前景图像的分割。例如，可以通过在像素点p的邻域内的前景区域和背景区域中进行采样，根据采样的前景和背景点来估计像素点p的前景分量F_p及背景分量B_p。获得F_p和B_p之后，像素点p的Alpha值α_p就可以通过上述公式(2)求解。根据解出的Alpha值α_p，就可以判断该像素p是否属于前景区域。

例如，可以设置Alpha值α_p的预定阈值T，当求解的Alpha值α_p大于等于该阈值T时，就可以取α_p等于1，即表明该像素p属于前景区域；当求解的α_p小于该阈值T时，就可以取α等于0，即表明该像素p不属于前景区域，而是属于背景区域。该预定阈值T可以由本领域技术人员根据经验或者具体应用需要而设置。

由此，根据本实施例的前景图像分割方法100，能够基于深度信息从输入图像生成初始三色图，基于输入图像的颜色信息对该初始三色图进行优化生成更准确的三色图，由此从该三色图准确分割出前景图像。

所分割出的前景图像可以输出到显示装置用于显示，或者输出到处理装置用于对该前景图像进行进一步的处理，比如合成处理等等。

在这样的抠图方法中，未知像素点p的Alpha值的计算依赖于在该像素点p的邻域中采样的前景点和背景点，因此获得更准确的前景和背景样本点有助于准确分割出前景图像。

为此，在本发明的另一实施例中，提出了基于最佳样本对分割前景图像的方法。图9示出了根据此实施例的基于最佳样本对分割前景图像的方法的流程图。

如图9所示，该分割方法900包括：步骤S910，对于三色图的未知区域中的每个像素，从该像素的邻域中选择该像素的最佳前景像素-背景像素对；步骤S920，根据该最佳前景像素-背景像素对的颜色值估计该像素的前景分量和背景分量；步骤S930，根据该像素的前景分量和背景分量的估计值计算该像素的Alpha值；以及步骤S940基于该优化的三色图中所获得的前景区域以及该未知区域中的每个像素的Alpha值，分割出前景图像。

在步骤S910中，为了区分相似的前景颜色和背景颜色以便选择最佳的最佳前景像素-背景像素对，比如区分前景中的白色衬衫和背景中的白色墙面，以输入图像的深度信息作为权重，对输入图像的颜色信息进行加权线性变换。

在此实施例中，按对象而不是按像素来进行变换。因此，首先根据深度信息对输入图像中的像素进行聚类操作，例如可以使用传统的K-means聚类算法，将具有相似深度信息的像素聚类，并将它们的深度信息取为同一值，比如该类中的所有像素的深度信息的平均值。这样做的考虑是，即使是同一对象上的像素点，其深度信息也不一定完全相同。比如，在目标对象是人的情况下，由于人的鼻子、眼睛等距离摄像机的距离不同，相应的像素点的深度信息会稍有不同。

图10示出了此颜色信息变换的示意图。如图10所示，依据聚类后的深度信息对输入图像的颜色信息进行加权线性变换，如以下公式(3)所示，

R_p＝I_p*D_p+L_p(3)

其中，I_p是输入图像的像素点p的颜色信息，D_p是像素点p的聚类后的深度信息，L_p是像素点p的亮度信息，R_p是像素点p的变换后的颜色信息。为了避免经此变换操作后使得原本不相似的像素颜色变得相似，在此使用亮度值L_p作为限制条件。

然后，通过以下公式(4)对变换后的颜色信息进行归一化处理，

C_{p} = \frac{R_{p}}{\max (R)} - - - (4)

其中，C_p是像素点p的归一化后的颜色信息。由此，获得变换后的输入图像的颜色信息。

然后，基于输入图像的变换后的颜色信息，对于三色图的未知区域中的每个像素，从该像素的邻域中选择该像素的最佳前景像素-背景像素对。由于输入图像的深度信息的精度较低且具有噪声，使用它对输入图像的颜色信息进行变换仍然可能具有一定的局限性，因此，根据本发明的采样策略是尽量避免前景样本和背景样本具有相似的颜色。以下详细描述根据本发明的实施例的采样方法。

首先，对于该优化的三色图中的未知区域中的每个像素，从该像素的邻域中的前景区域中选择多个前景像素样本，并从该像素的邻域中的背景区域中选择多个背景像素样本，以构成样本集合。其中，对于未知区域内的任意的像素点p(以下称为未知像素点p)，从邻域内初始选出的前景-背景样本对的样本集合与未知像素点p的相邻像素点q的前景-背景样本对的集合没有交集。例如，图11a和11b分别示出了像素点p和q的样本点具有交集以及没有交集的示意图。

具体地，例如，可以通过在未知像素点p的圆形邻域内，沿N个方向进行采样，来获得像素点p的初始样本集合，其中包括前景区域中的m个前景样本点以及背景区域中的n个背景样本点。在一个具体例子中，N＝8，不过，取决于具体应用情况，N可以是任何其他适当的整数值。m和n都是大于1的整数，并且两者可以相等也可以不相等。

在选择了未知像素点p的样本集合之后，在选择其相邻点q的样本集合时，已经被选取作为像素点p的样本集合的样本点就不再被选作像素点q的样本点。以此方式，为如上获得的三色图的未知区域中的每个位置像素点进行前景和背景样本点的采样。

在未知像素点p的m个前景样本点以及n个背景样本点构成的集合中，对于任意一个前景像素和任意一个背景像素构成的前景像素-背景像素对，构造能量函数以获得使得该能量函数最小的前景像素-背景像素对，作为最佳前景像素-背景像素对。由于最佳的样本点在颜色以及空间位置上与未知像素点p都应具有最小的差距，因此，基于该前景像素-背景像素对的变换后的颜色信息和空间位置信息来构造该能量函数。

现在描述构建能量函数的一个例子。在此例子中，可以基于未知像素点p的前景像素-背景像素对的颜色信息和空间位置信息，计算出该未知像素点p的Alpha估计值。然后将这个估计值带入到以上公式(2)中，就可以得到p的颜色信息的估计值。通过计算上述颜色信息的估计值与实际值之间的差别，就可以得到将p分类为前景点的代价。然后，在p的邻域内对该分类代价进行累计便构建出了能量函数。

在颜色信息方面，如果未知像素点p与某一前景样本点f_i的相似程度大于p与某一背景样本点b_j的相似程度，则p被分类为前景点的概率要高于被分类为背景点的概率。基于这样的假设，可以定义颜色信息度量PF_c(p；f_i,b_j)，如以下公式(5)所示。

{PF}_{c} (p; f_{i}, b_{j}) = \frac{{| | B_{j} - C_{p} | |}^{2}}{{| | F_{i} - C_{p} | |}^{2} + {| | B_{j} - C_{p} | |}^{2}} - - - (5)

其中，F_i是前景样本点f_i的颜色信息，B_j是背景样本点b_j的颜色信息，C_p是未知像素点p的颜色信息。需要注意的是，以上颜色信息均为变换后的颜色空间中的颜色信息。

在空间位置方面，如果未知像素点p与某一前景样本点f_i的相近程度大于p与某一背景样本点b_j的相近程度，则p被分类为前景点的概率要高于被分类为背景点的概率。基于这样的假设，可以定义空间位置度量PF_s(p；f_i,b_j)，如以下公式(6)所示。

{PF}_{s} (p; f_{i}, b_{j}) = \frac{{| | b_{j} (x, y, z) - p (x, y, z) | |}^{2}}{{| | f_{i} (x, y, z) - p (x, y, z) | |}^{2} + {| | b_{j} (x, y, z) - p (x, y, z) | |}^{2}} - - - (6)

其中，(x,y,z)表示像素点的三维坐标。可以通过利用相应像素点的深度信息来计算其三维的空间位置度量。

基于以上的颜色及空间位置度量，可以按照以下公式(7)计算出未知像素点p属于前景点的概率，即Alpha估计值

{\tilde{α}}_{p} = \frac{{PF}_{s} (p; f_{i}, b_{j}) * {PF}_{c} (p; f_{i}, b_{j})}{{PF}_{s} (p; f_{i}, b_{j}) * {PF}_{c} (p; f_{i}, b_{j}) + (1 - {PF}_{s} (p; f_{i}, b_{j})) * (1 - {PF}_{c} (p; f_{i}, b_{j}))} - - - (7)

将如上所计算的Alpha估计值以及前景-背景样本对的颜色信息带入以上公式(2)，可以得到未知像素点p的颜色估计值，由此，计算该颜色估计值与未知像素点p的实际颜色值的偏差M_p(F_i,B_j)，如公式(8)所示。该值描述了使用这组前景-背景样本对(F_i,B_j)对未知像素点p进行正确分类所需要的代价。

M_{p} (F_{i}, B_{j}) = | | C_{p} - ({\tilde{α}}_{p} F_{i} + (1 - {\tilde{α}}_{p}) B_{j}) | | - - - (8)

考虑到局部连续性，将p的邻域Ω_p内的所有未知像素点q的偏差M_q(F_i,B_j)进行累加，并以此作为未知像素点p的能量函数，如公式(9)所示。

E_{p} (f_{i}, b_{j}) = \underset{q &Element; Ω_{p}}{Σ} M_{q} {(F_{i}, B_{j})}^{2} - - - (9)

使得公式(9)中的E_p(f_i,b_j)获得最小值的一组前景-背景样本对即最佳的样本对。因此，可以通过求解公式(9)的最小值来从未知像素点p的样本集合中筛选出最佳的前景-背景样本对如以下公式(10)所示。

({\tilde{f}}_{p}, {\tilde{b}}_{p}) = {\arg \min}_{f, b} E_{p} (f_{i}, b_{j}) - - - (10)

由此，在步骤S910中，对于三色图的未知区域中的每个像素，从该像素的邻域中选择该像素的最佳前景像素-背景像素对。然后，在步骤S920中，可以根据该最佳前景像素-背景像素对的颜色值来估计该像素的前景分量和背景分量。

由于相邻的像素应该具有相似的Alpha值，可以对未知像素点p的最佳前景-背景样本对以及在像素点p的邻域Ω_p内筛选出来的最佳前景-背景样本对进行平均处理，以便去除噪声。

具体地，以上述方式，对于该未知像素点p的邻域Ω_p内的每个未知像素点，获得相应的最佳前景像素-背景像素对，计算该像素点p的最佳前景-背景样本对中的前景像素的颜色值以及该像素点p的邻域Ω_p内的每个像素的最佳前景-背景样本对中的前景像素的颜色值的平均值，作为该像素点p的前景分量的估计值。类似地，计算该像素点p的最佳前景-背景样本对中的背景像素的颜色值以及该像素点p的邻域Ω_p内的每个像素的最佳前景-背景样本对中的背景像素的颜色值的平均值，作为该像素点p的背景分量的估计值。

由此，得到未知像素点p的前景分量和背景分量的估计值和如以下公式(11)和(12)所示。

{\hat{F}}_{p} = avg ({\tilde{f}}_{q &Element; Ω_{p}}) - - - (11)

{\hat{B}}_{p} = avg ({\tilde{b}}_{q &Element; Ω_{p}}) - - - (12)

然后，在步骤S930中，可以根据该像素点p的前景分量和背景分量的估计值和来计算该像素点p的Alpha值。以上已经根据公式(7)计算了像素点p的Alpha估计值为了计算该像素点p的Alpha值，还需要知道使用上述的前景分量和背景分量的估计值来计算p的Alpha值的可信度。

具体地，可以计算该像素点p的前景分量和背景分量的估计值和与该像素的实际颜色值C_p之间的偏差，并根据该像素的Alpha估计值以及该偏差计算上述可信度。例如，可以根据以下公式(13)计算可信度CF_p。

{CF}_{p} = \exp (- λ M_{p} ({\hat{F}}_{p}, {\hat{B}}_{p})) - - - (13)

其中，λ是下降因子。该可信度CF_p表示使用上述的前景分量和背景分量的估计值来计算该未知像素点p的Alpha值的可信程度。当估计的前景分量和背景分量不能够正确建立该未知像素点p的颜色模型时，该估计值的可信度会变得很低。

由此，可以基于该Alpha估计值以及该可信度计算该未知像素点p的Alpha值。例如，可以根据以下公式(14)来计算该Alpha值α_p。

α_{p} = {CF}_{p} \frac{(C_{p} - {\hat{B}}_{p}) * ({\hat{F}}_{p} - {\hat{B}}_{p})}{| | {\hat{F}}_{p} - {\hat{B}}_{p} | |} + (1 - {CF}_{p}) {\tilde{α}}_{p} - - - (14)

根据以上公式(14)，当估计的前景分量和背景分量的可信度CF_p很低时，公式(14)右边第一项的值非常小，该Alpha值α_p基本上等于Alpha估计值由此可以以避免Alpha值的局部突变导致结果出现不平滑。

以此方式，计算出上述三色图的未知区域中的所有未知像素点的Alpha值。在步骤S940中，基于该三色图中所获得的前景区域以及该未知区域中的每个像素的Alpha值，可以分割出前景图像。

具体地，例如，可以从上述三色图以及该未知区域中的每个像素的Alpha值获得输入图像的Alpha蒙版。对该Alpha蒙版实施上述的阈值化处理可以生成前景蒙版图。

例如，可以如上设置Alpha值的预定阈值T，对于在步骤S930中所计算的未知区域中的每个像素的Alpha值，当该Alpha值大于等于该阈值T时，可以将该Alpha值取为等于1，即表明该像素属于前景区域；当该Alpha值小于该阈值T时，可以将该Alpha值取为等于0，即表明该像素不属于前景区域，而是属于背景区域。该预定阈值T可以由本领域技术人员根据经验或者具体应用需要而设置。

由此，获得前景蒙版图。将该前景蒙版图与输入图像进行与操作，就可以分割出前景图像。

根据此实施例的前景图像分割方法，对输入图像的颜色信息进行加权线性变换能够将前景和背景中的相近颜色区分开来，并且由于采用了良好的采样策略，能够选择最佳样本对计算未知像素点的Alpha值，进一步提高了分割出的前景图像的准确性。

作为例子，图12示出了根据本发明的前景图像分割方法的一种可能的应用场景。应用系统100可以包括深度摄像头101、计算机102、投影仪103以及投影屏幕104。摄像头101可以是上述的能够同时捕获颜色及深度信息的摄像头。计算机102可以接收由该摄像头101捕捉的场景的图像或视频帧以及相应的颜色和深度信息，并可以通过其处理器分析由摄像头101捕获的信息，执行上述的前景图像分割方法，将前景对象从场景中分离出来。分离出的前景对象可以与其他背景相结合，用于不同的应用场景。投影仪103以及投影屏幕104可以显示结合后的图像或场景。当然投影仪103以及投影屏幕104仅仅是显示设备的示例，其可被其他显示设备所替换，例如电视屏幕等。需要声明的是，此处描述的系统100仅仅作为一个例子示例说明，本发明并不限于此，可以取决于具体应用需要对系统100的组成做出变化或调整。

根据本发明的另一方面，提供了一种前景图像分割装置。图13示出了根据本发明的一个实施例的前景图像分割装置的功能框图。

如图13所示，该前景图像分割装置1300可以包括：获取部件1310，获取输入图像及其颜色信息和深度信息；粗略分割部件1320，基于输入图像的深度信息，对输入图像进行粗略分割以获得初始三色图；三色图优化部件1330，基于输入图像的颜色分布，对该初始三色图中的未知区域进行腐蚀或膨胀，以获得优化的三色图；以及前景图像分割部件1340，根据优化的三色图分割出前景图像。

在一个实施例中，该三色图优化部件1330将粗略分割部件1320获得的该初始三色图的未知区域划分为多个局部区域，并且对于每一局部区域，判断其中的颜色分布是否满足预定条件。如果不满足，则该三色图优化部件1330对该局部区域进行腐蚀或膨胀直到该局部区域的颜色分布满足该预定条件，由此获得优化的三色图。其中，该预定条件可以是：该局部区域中的颜色种类为两种。

在另一实施例中，该三色图优化部件1330检测前景对象的构成部件之间的缝隙区域，并且在经过腐蚀或膨胀的三色图中标记出所述缝隙区域，作为未知区域的部分，以获得优化的三色图。

在另一实施例中，前景图像分割部件1340对于该三色图优化部件1330获得的优化的三色图的未知区域中的每个像素，从该像素的邻域中选择该像素的最佳前景像素-背景像素对，根据该最佳前景像素-背景像素对的颜色值估计该像素的前景分量和背景分量，并根据该像素的前景分量和背景分量的估计值计算该像素的Alpha值，由此基于该优化的三色图中所获得的前景区域以及该未知区域中的每个像素的Alpha值，分割出前景图像。

在另一实施例中，具体地，该前景图像分割部件1340可以包括最佳样本对选择部件(未示出)，用于为该优化的三色图中的未知区域中的每个像素选择最佳样本对。最佳样本对选择部件可以以输入图像的深度信息作为权重，对输入图像的颜色信息进行加权线性变换，获得变换后的输入图像的颜色信息。然后，该最佳样本对选择部件对于该优化的三色图中的未知区域中的每个像素，从该像素的邻域中的前景区域中选择多个前景像素样本，并从该像素的邻域中的背景区域中选择多个背景像素样本，以构成样本集合。对于该样本集合中的任意一个前景像素和任意一个背景像素构成的前景像素-背景像素对，基于该前景像素-背景像素对的变换后的颜色信息和空间位置信息构造能量函数，获得使得该能量函数最小的前景像素-背景像素对，作为所述最佳前景像素-背景像素对。

在另一实施例中，具体地，前景图像分割部件1340还可以包括估计部件(未示出)，该估计部件对于该像素的邻域内的每个像素，获得相应的最佳前景像素-背景像素对，计算该像素的最佳前景像素-背景像素对中的前景像素的颜色值以及该像素的邻域内的每个像素的最佳前景像素-背景像素对中的前景像素的颜色值的平均值，作为该像素的前景分量的估计值，并且计算该像素的最佳前景像素-背景像素对中的背景像素的颜色值以及该像素的邻域内的每个像素的最佳前景像素-背景像素对中的背景像素的颜色值的平均值，作为该像素的背景分量的估计值。

在另一实施例中，具体地，前景图像分割部件1340还可以包括Alpha值计算部件(未示出)，其利用该像素的前景分量和背景分量的估计值计算Alpha估计值，计算该像素的前景分量和背景分量的估计值以及该像素的实际颜色值之间的偏差，根据该像素的Alpha估计值以及该偏差计算以该像素的前景分量和背景分量的估计值来计算该像素的Alpha值的可信度，并基于该α的估计值以及该可信度计算该像素的Alpha值。

关于图13所示的前景图像分割装置1300的各部件的操作可以参考结合图1所示的流程图进行的描述，这里不再赘述。根据该前景图像分割装置，能够基于深度信息从输入图像生成初始三色图，基于输入图像的颜色信息对该初始三色图进行优化生成更准确的三色图，由此从该三色图准确分割出前景图像。而且，该前景图像分割装置可以对输入图像的颜色信息进行加权线性变换以将前景和背景中的相近颜色区分开来，并且由于采用了良好的采样策略，能够选择最佳样本对计算未知像素点的Alpha值，进一步提高了分割出的前景图像的准确性。

接下来，参考图14描述根据本发明的一个实施例的实现从目标场景中分割出前景对象的前景图像分割系统的硬件配置。如图14所示，系统1400包括：输入设备1410，用于从外部输入将要处理的图像、例如上述的彩色图像和灰度图像、以及要处理的信息、例如深度信息，该输入设备1410可以包括例如键盘、鼠标、以及通信网络及其所连接的远程输入设备等等；处理设备1420，用于实施上述的按照本发明实施例的前景图像分割方法，或者实施为上述的按照本发明实施例的前景图像分割装置，例如可以包括计算机的中央处理器或其它的具有处理能力的芯片等等，可以连接到诸如因特网的网络(未示出)，根据处理过程的需要而从网络获取数据例如输入图像等等，另外，该处理设备1420还可以对分割出的前景对象进行需要的处理，比如合成处理等等；输出设备1430，用于向外部输出上述前景图像分割的结果，包括分割的前景图像以及前景图像的合成结果等等，该输出设备1430可以包括例如显示器、打印机、以及通信网络及其所连接的远程输出设备等等；以及存储设备1440，用于以易失或非易失的方式存储上述处理过程所涉及的图像、数据、所获得的结果、命令以及中间数据等等，该存储设备1440可以包括例如随机存取存储器(RAM)、只读存储器(ROM)、硬盘、或半导体存储器等等的各种易失或非易失性存储器。

当然，为了简化，图14中仅示出了该系统中与本发明有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，系统1400还可以包括任何其他适当的组件。

以上已经参考附图详细描述了根据本发明的实施例的前景对象分割方

法、装置和系统。尽管在以上以人作为前景对象的例子进行描述，但是本领域技术人员很清楚，本发明可应用的对象不限于人，可以是任何其他动物、物体等等。

本公开中涉及的装置、设备、系统的方框图仅作为例示性的例子，并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

本公开中的步骤流程图以及以上方法描述仅作为例示性的例子，并且不意图要求或暗示必须按照给出的顺序进行各个实施例的步骤。如本领域技术人员将认识到的，可以按任意顺序进行以上实施例中的步骤的顺序。诸如“其后”、“然后”、“接下来”等等的词语不意图限制步骤的顺序；这些词语仅用于引导读者通读这些方法的描述。此外，例如使用冠词“一个”、“一”或者“该”对于单数的要素的任何引用不被解释为将该要素限制为单数。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本发明。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本发明的范围。因此，本发明不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

Claims

1.一种前景图像分割方法，包括：

获取输入图像及其颜色信息和深度信息；

基于输入图像的深度信息，对输入图像进行粗略分割以获得初始三色图；

基于输入图像的颜色信息，对该初始三色图中的未知区域进行腐蚀或膨胀，以获得优化的三色图；以及

根据优化的三色图分割出前景图像。

2.如权利要求1所述的方法，其中基于输入图像的颜色分布对该初始三色图中的未知区域进行腐蚀或膨胀包括：

将该初始三色图的未知区域划分为多个局部区域；

对于每一局部区域，判断其中的颜色分布是否满足预定条件，如果不满足则对该局部区域进行腐蚀或膨胀直到该局部区域的颜色分布满足该预定条件。

3.如权利要求2所述的方法，其中所述预定条件是：该局部区域中的颜色种类为两种。

4.如权利要求2所述的方法，还包括：

检测前景对象的构成部件之间的缝隙区域；

在经过腐蚀或膨胀的三色图中标记出所述缝隙区域，作为未知区域的部分，以获得优化的三色图。

5.如权利要求1所述的方法，其中根据优化的三色图分割出前景图像包括：

对于该优化的三色图的未知区域中的每个像素，从该像素的邻域中选择该像素的最佳前景像素-背景像素对；

根据该最佳前景像素-背景像素对的颜色值估计该像素的前景分量和背景分量；

根据该像素的前景分量和背景分量的估计值计算该像素的Alpha值；

基于该优化的三色图中所获得的前景区域以及该未知区域中的每个像素的Alpha值，分割出前景图像。

6.如权利要求5所述的方法，其中从该像素的邻域中选择该像素的最佳前景像素-背景像素对包括：

以输入图像的深度信息作为权重，对输入图像的颜色信息进行加权线性变换，获得变换后的输入图像的颜色信息；

对于该优化的三色图中的未知区域中的每个像素，从该像素的邻域中的前景区域中选择多个前景像素样本，并从该像素的邻域中的背景区域中选择多个背景像素样本，以构成样本集合；

对于该样本集合中的任意一个前景像素和任意一个背景像素构成的前景像素-背景像素对，基于该前景像素-背景像素对的变换后的颜色信息和空间位置信息构造能量函数；

获得使得该能量函数最小的前景像素-背景像素对，作为所述最佳前景像素-背景像素对。

7.如权利要求6所述的方法，其中根据该最佳前景像素-背景像素对的颜色值估计该像素的前景分量和背景分量包括：

对于该像素的邻域内的每个像素，获得相应的最佳前景像素-背景像素对；

计算该像素的最佳前景像素-背景像素对中的前景像素的颜色值以及该像素的邻域内的每个像素的最佳前景像素-背景像素对中的前景像素的颜色值的平均值，作为该像素的前景分量的估计值；

计算该像素的最佳前景像素-背景像素对中的背景像素的颜色值以及该像素的邻域内的每个像素的最佳前景像素-背景像素对中的背景像素的颜色值的平均值，作为该像素的背景分量的估计值。

8.如权利要求7所述的方法，其中根据该像素的前景分量和背景分量的估计值计算该像素的Alpha值包括：

利用该像素的前景分量和背景分量的估计值计算Alpha估计值；

计算该像素的前景分量和背景分量的估计值以及该像素的实际颜色值之间的偏差；

根据该像素的Alpha估计值以及该偏差计算以该像素的前景分量和背景分量的估计值来计算该像素的Alpha值的可信度；

基于该Alpha估计值以及该可信度计算该像素的Alpha值。

9.一种前景图像分割装置，包括：

获取部件，获取输入图像及其颜色信息和深度信息；

粗略分割部件，基于输入图像的深度信息，对输入图像进行粗略分割以获得初始三色图；

三色图优化部件，基于输入图像的颜色分布，对该初始三色图中的未知区域进行腐蚀或膨胀，以获得优化的三色图；以及

前景图像分割部件，根据优化的三色图分割出前景图像。

10.如权利要求9所述的装置，其中所述三色图优化部件：

将该初始三色图的未知区域划分为多个局部区域；