CN103971361B

CN103971361B - 图像处理装置和方法

Info

Publication number: CN103971361B
Application number: CN201310048270.5A
Authority: CN
Inventors: 谢术富; 何源; 孙俊
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2013-02-06
Filing date: 2013-02-06
Publication date: 2017-05-10
Anticipated expiration: 2033-02-06
Also published as: CN103971361A; US9311538B2; JP2014154160A; US20140226856A1; JP6277750B2

Abstract

本公开涉及一种图像处理装置和方法。根据本公开的图像处理装置包括：输入单元，用于对图像中包含的对象图像执行点击以获得点击点；计算单元，用于计算所述图像的边缘图；估计单元，用于基于所述点击点和所述边缘图，估计所述对象图像的颜色模型；对象分类单元，用于基于所述边缘图和所述颜色模型，对所述图像中的每个像素进行分类，以获得所述图像的二值图像；以及检测单元，用于基于所述二值图像，检测包含所述对象图像的区域。根据本公开的图像处理装置和方法，可以提高检测对象图像的边界的精度，从而便利于从图像中去除对象图像，使得处理后的图像更加美观。

Description

图像处理装置和方法

技术领域

本公开涉及图像处理的技术领域，具体地涉及用于检测诸如手指图像之类的对象图像的边界的装置和方法。

背景技术

这个部分提供了与本公开有关的背景信息，这不一定是现有技术。

当例如使用顶置式扫描仪扫描书本时，用户会用手指按住书本的两侧来完成扫描过程。在校正后的书本扫描图像上，手指会出现在书本的两侧边界上。这使得校正后的图像很不美观。因此，有必要去除校正图像上的手指图像。

为了去除手指图像，通常需要采取两个步骤：首先，检测出手指区域；其次，去除手指区域。显然，自动地检测并去除手指区域是有用的。然而，考虑到书本内容具有各种类型并且手指可能接触到书本内容，难以准确地检测出手指区域。

发明内容

这个部分提供了本公开的一般概要，而不是其全部范围或其全部特征的全面披露。

本公开的目的在于提供一种图像处理装置和图像处理方法，其能够提高检测诸如手指图像之类的对象图像的边界的精度，从而便利于从图像中去除对象图像，使得处理后的图像更加美观。

根据本公开的一方面，提供了一种图像处理装置，该装置包括：输入单元，用于对图像中包含的对象图像执行点击以获得点击点；计算单元，用于计算所述图像的边缘图；估计单元，用于基于所述点击点和所述边缘图，估计所述对象图像的颜色模型；对象分类单元，用于基于所述边缘图和所述颜色模型，对所述图像中的每个像素进行分类，以获得所述图像的二值图像；以及检测单元，用于基于所述二值图像，检测包含所述对象图像的区域。

根据本公开的另一方面，提供了一种图像处理方法，该方法包括：对图像中包含的对象图像执行点击以获得点击点；计算所述图像的边缘图；基于所述点击点和所述边缘图，估计所述对象图像的颜色模型；基于所述边缘图和所述颜色模型，对所述图像中的每个像素进行分类，以获得所述图像的二值图像；以及基于所述二值图像，检测包含所述对象图像的区域。

根据本公开的另一方面，提供了一种程序产品，该程序产品包括存储在其中的机器可读指令代码，其中，所述指令代码当由计算机读取和执行时，能够使所述计算机执行根据本公开的图像处理方法。

根据本公开的另一方面，提供了一种机器可读存储介质，其上携带有根据本公开的程序产品。

根据本公开的图像处理装置和方法需要与用户进行交互以获取关于点击点的信息。进一步，根据本公开的图像处理装置和方法借助于颜色信息和边缘信息两者来检测诸如手指图像之类的对象图像的边界。由此，根据本公开的图像处理装置和方法可以提高检测对象图像的边界的精度，从而便利于从图像中去除对象图像，使得处理后的图像更加美观。

从在此提供的描述中，进一步的适用性区域将会变得明显。这个概要中的描述和特定例子只是为了示意的目的，而不旨在限制本公开的范围。

附图说明

在此描述的附图只是为了所选实施例的示意的目的而非全部可能的实施，并且不旨在限制本公开的范围。在附图中：

图1（a）和图1（b）为本公开的技术方案所针对的图像的例子的示意图；

图2为根据本公开的实施例的图像处理装置的框图；

图3为根据本公开的实施例的图像处理装置的应用的例子的示意图；

图4为根据本公开的实施例的图像处理装置中的计算单元的框图；

图5为根据本公开的实施例的图像处理装置中的估计单元的框图；

图6（a）至图6（d）为根据本公开的实施例的图像处理装置中的估计单元中的扩展区域获取单元的应用的例子的示意图；

图7为根据本公开的实施例的图像处理装置中的检测单元的框图；

图8（a）至图8（d）为根据本公开的实施例的图像处理装置中的检测单元的应用的例子的示意图；

图9为根据本公开的实施例的图像处理装置中的检测单元中的膨胀单元的应用的例子的示意图；

图10为根据本公开的实施例的图像处理方法的流程图；以及

图11为其中可以实现根据本公开的实施例的图像处理装置和方法的通用个人计算机的示例性结构的框图。

虽然本公开容易经受各种修改和替换形式，但是其特定实施例已作为例子在附图中示出，并且在此详细描述。然而应当理解的是，在此对特定实施例的描述并不打算将本公开限制到公开的具体形式，而是相反地，本公开目的是要覆盖落在本公开的精神和范围之内的所有修改、等效和替换。要注意的是，贯穿几个附图，相应的标号指示相应的部件。

具体实施方式

现在参考附图来更加充分地描述本公开的例子。以下描述实质上只是示例性的，而不旨在限制本公开、应用或用途。

提供了示例实施例，以便本公开将会变得详尽，并且将会向本领域技术人员充分地传达其范围。阐述了众多的特定细节如特定部件、装置和方法的例子，以提供对本公开的实施例的详尽理解。对于本领域技术人员而言将会明显的是，不需要使用特定的细节，示例实施例可以用许多不同的形式来实施，它们都不应当被解释为限制本公开的范围。在某些示例实施例中，没有详细地描述众所周知的过程、众所周知的结构和众所周知的技术。

图1（a）和图1（b）示出了本公开的技术方案所针对的图像的例子。当例如使用顶置式扫描仪扫描书本B时，用户会用左手LH和右手RH的手指按住书本的两侧来完成扫描过程，这样一来就会获得如图1（a）所示的图像。可以使用本领域已知的方法对获得的图像进行校正。例如，可以提取图像的上下边界，然后通过从曲面到平面的变换而得到校正后的图像。在图1（b）中示出了校正后的图像的例子。如图1（b）所示，在校正后的书本扫描图像上，手指图像F会出现在书本的两侧边界上，并且手指图像F可能接触到书本内容T。这使得校正后的图像很不美观。因此，有必要去除校正图像上的手指图像F。

为了去除手指图像F，通常需要采取两个步骤：首先，检测出手指区域；其次，去除手指区域。使用本公开的技术方案，可以提高检测出如图1（b）所示的手指区域的精度，从而便利于去除手指区域，使得校正后的书本扫描图像更加美观。

如图2所示，根据本公开的实施例的图像处理装置200可以包括输入单元210、计算单元220、估计单元230、对象分类单元240和检测单元250。

输入单元210可以点击图像中包含的对象图像以获得点击点。例如，如图3的左侧所示，在从校正后的图像中裁剪的包含手指图像F的图像I上，输入单元210可以对手指图像F执行点击以获得点击点P。这样一来就可以明确的是，点击点P位于手指区域之内。输入单元210可以是诸如鼠标之类的能够执行点击功能的任何装置，本公开对此并没有特殊限制。

计算单元220可以计算图像I的边缘图。边缘图是关于图像I的边缘信息的图。边缘信息指示了图像I上的像素是否是边缘像素。计算单元220可以基于图像I的像素信息和通过输入单元210获得的点击点P的信息来计算边缘图，也可以仅基于图像I的像素信息来计算边缘图，这一点稍后会详细地描述。

基于通过输入单元210获得的点击点P和由计算单元220计算的边缘图，估计单元230可以估计手指图像（对象图像）F的颜色模型。

进一步，基于由计算单元220计算的边缘图和由估计单元230估计的颜色模型，对象分类单元240可以对图像I中的每个像素进行分类，以获得图像I的二值图像。在二值图像中，图像I的每个像素被简单地划分为手指（对象）像素和非手指（对象）像素。

进而，基于通过对象分类单元240获得的二值图像，检测单元250可以检测包含手指图像F的区域。在理想情况下，如图3的右侧所示，可以获得用阴影部分表示的手指区域。

在根据本公开的实施例的图像处理装置200中，在获得图像的二值图像时，既利用了手指图像的颜色模型又利用了图像的边缘图。进一步，在估计手指图像的颜色模型时，既利用了点击点的信息又利用了图像的边缘图。由此可以大大提高手指区域的检测精度，从而便利于从图像中去除手指图像，使得处理后的图像更加美观。

为了更好地理解本公开的技术方案，下面针对图2所示的图像处理装置200的相应部件进行更加详细地描述。

图4为根据本公开的实施例的图像处理装置中的计算单元400的框图。图4所示的计算单元400对应于图2所示的计算单元220。

计算单元400可以包括距离计算单元410、距离梯度计算单元420和边缘分类单元430。

距离计算单元410可以计算图像I（参见图3）中的每个像素的颜色和点击点P的颜色之间的距离以获得距离图。点击点P的颜色可以是点击点P处的像素的颜色，或者可以是包含点击点P的预定区域之内的像素的平均颜色。

具体地，假定图像I的宽度和高度分别为w₀和h₀，点击点P在图像I中的坐标为（x_click，y_click），并且点击点P的颜色表示为color_click=(r_click,g_click,b_click)。这里，r_click、g_click和b_click分别是点击点P的颜色的R值、G值和B值。距离计算单元410可以通过以下公式（1）来计算图像I中的每个像素（x_i，y_i）的颜色color_xi,yi和点击点P的颜色color_click之间的距离dist_i，j：

dist_i，j＝|color_xi，yi-color_click|,1≤y_i≤h₀,1≤x_i≤w₀ （1）

这样一来，就可以获得图像I的距离图。

进一步，距离梯度计算单元420可以向通过距离计算单元410获得的距离图施加梯度算子（例如Sobel算子）以获得距离梯度图像Grad_click。计算梯度图像的方法在本领域中是众所周知的，因此本公开在此不再详细描述。

进而，基于通过距离梯度计算单元420获得的距离梯度图像Grad_click，边缘分类单元430可以将图像I中的具有大于预定距离梯度阈值的距离梯度的像素分类为边缘像素，并且将图像I中的其它像素分类为非边缘像素，从而获得图像I的边缘图。特别地，边缘分类单元430可以通过以下公式（2）来获得图像I的边缘图：

其中，T_click指示预定距离梯度阈值，Grad_click（x_i，y_i）指示像素（x_i，y_i）与点击点P之间的距离梯度，而Edge_click（x_i，y_i）则指示关于像素（x_i，y_i）是边缘像素还是非边缘像素的边缘信息。这里，边缘像素被赋值为0，而非边缘像素则被赋值为255。这样一来，计算单元400就获得了图像I的边缘图。

根据本公开的优选实施例，计算单元400还可以进一步包括灰度转换单元440和亮度梯度计算单元450。灰度转换单元440可以将图像I从彩色图像转换成灰度图像。亮度梯度计算单元450可以向灰度图像施加梯度算子（例如Sobel算子）以获得亮度梯度图像。从彩色图像转换成灰度图像的方法和计算亮度梯度图像的方法在本领域中是众所周知的，因此本公开在此不再详细描述。

在这种情况下，基于通过距离梯度计算单元420获得的距离梯度图像和通过亮度梯度计算单元450获得的亮度梯度图像，边缘分类单元430可以将图像I中的具有大于预定距离梯度阈值的距离梯度或者具有大于预定亮度梯度阈值的亮度梯度的像素分类为边缘像素，并且将图像I中的其它像素分类为非边缘像素，从而获得图像I的增强边缘图。特别地，边缘分类单元430可以通过以下公式（3）来获得图像I的增强边缘图：

其中，T_intensity指示预定亮度梯度阈值，Grad_intensity（x_i，y_i）指示像素（x_i，y_i）的亮度梯度，而Edge_enhance（x_i，y_i）则指示关于像素（x_i，y_i）是边缘像素还是非边缘像素的增强边缘信息。这里，边缘像素被赋值为0，而非边缘像素则被赋值为255。这样一来，计算单元400就获得了图像I的增强边缘图。

由于图像I的距离梯度图像和亮度梯度图像具有一定的互补性，所以借助于这两种图像的信息，计算单元400能够更加完整地检测出手指图像的边缘。

需要指出的是，计算单元400也可以仅包括灰度转换单元440、亮度梯度计算单元450和边缘分类单元430，而不包括距离计算单元410和距离梯度计算单元420。在这种情况下，基于通过亮度梯度计算单元450获得的亮度梯度图像，边缘分类单元430可以将图像I中的具有大于预定亮度梯度阈值的亮度梯度的像素分类为边缘像素，并且将图像I中的其它像素分类为非边缘像素，从而获得图像I的边缘图。此时，计算单元400仅基于图像I的像素信息来计算边缘图，而没有使用点击点P的信息。

接下来参考图5描述根据本公开的实施例的图像处理装置中的估计单元500。图5所示的估计单元500对应于图2所示的估计单元230。

估计单元500可以包括扩展区域获取单元510和颜色模型获取单元520。

例如参考图6，基于点击点P和通过计算单元220（400）获得的边缘图，扩展区域获取单元510可以获得包含点击点P的扩展区域，所述扩展区域位于手指图像F之内。具体地，图6（d）中的阴影部分就表示了扩展区域。

进一步，基于扩展区域之内的每个像素的颜色，颜色模型获取单元520可以获得手指图像F的颜色模型。

为了获得稳定而有效的皮肤颜色模型，通常需要许多样本（亦即像素）。然而，用户在手指图像中仅点击了一个点（亦即点击点）。在这种情况下，需要获得更多的像素用于皮肤颜色模型估计。因此，通过扩展区域获取单元510获得位于手指图像F之内的包含点击点P的扩展区域是有必要的。基于扩展区域之内的每个像素的颜色而不是仅基于点击点P处的像素的颜色，颜色模型获取单元520可以获得稳定而有效的手指图像F的颜色模型。

具体地，扩展区域获取单元510可以包括设置单元515和搜索单元511-514。

设置单元515可以设置包含点击点P的最大扩展区域E，如图6（b）中的虚线所示。搜索单元511可以从点击点P开始在水平方向上向左搜索第一个边界像素作为扩展区域的左侧边界像素，并且搜索单元512可以从点击点P开始在水平方向上向右搜索第一个边界像素作为扩展区域的右侧边界像素。

针对水平方向上的在左侧边界像素和右侧边界像素之间的每个基准像素，搜索单元513可以从基准像素开始在垂直方向上向上搜索第一个边界像素作为扩展区域的上侧边界像素，并且搜索单元514可以从基准像素开始在垂直方向上向下搜索第一个边界像素作为扩展区域的下侧边界像素。

这里，扩展区域获取单元510以最大扩展区域E之内的每个像素为中心设置滑动窗口，对滑动窗口中的边缘像素的数目进行计数，并且将满足滑动窗口中的边缘像素的数目大于预定阈值这一条件的像素定义为边界像素。

参考图6（a）至图6（c）进行说明。假定最大扩展区域E的x和y坐标范围分别为[x₀,x₁]和[y₀,y₁]，如图6（c）所示。扩展区域的水平范围[x_0-ext,x_1-ext]可以确定如下。对于最大扩展区域E之内的水平方向上的点击点P(x_click,y_click)右侧的点(x_click-r,y_click)，其中x_click≤x_click-r≤x₁，以其为中心设置滑动窗口，并且对滑动窗口中的边缘像素的数目进行计数。然后，搜索单元511可以从左向右检测满足滑动窗口中的边缘像素的数目大于预定阈值这一条件的第一个像素，并且将检测到的像素的x坐标指示为x_1-ext。当然，也有可能一直检测到最大扩展区域E的右侧边界也未能检测到边界像素。此时，可以将最大扩展区域E的右侧边界的x坐标指示为x_1-ext。

相应地，对于最大扩展区域E之内的水平方向上的点击点P(x_click,y_click)左侧的点(x_click-l,y_click)，其中x₀≤x_click-l≤x_click，以其为中心设置滑动窗口，并且对滑动窗口中的边缘像素的数目进行计数。然后，搜索单元512可以从右向左检测满足滑动窗口中的边缘像素的数目大于预定阈值这一条件的第一个像素，并且将检测到的像素的x坐标指示为x_0-ext。当然，也有可能一直检测到最大扩展区域E的左侧边界也未能检测到边界像素。此时，可以将最大扩展区域E的左侧边界的x坐标指示为x_0-ext。

在扩展区域的水平范围[x_0-ext,x_1-ext]确定之后，针对水平方向上的在左侧边界像素和右侧边界像素之间的每个基准像素(x,y_click)，其中x_0-ext≤x≤x_1-ext，其垂直范围[y_0-ext,y_1-ext]可以确定如下。对于最大扩展区域E之内的垂直方向上的基准像素(x,y_click)上侧的点(x,y_up)，其中y₀≤y_up≤y_click，以其为中心设置滑动窗口，并且对滑动窗口中的边缘像素的数目进行计数。然后，搜索单元513可以从下向上检测满足滑动窗口中的边缘像素的数目大于预定阈值这一条件的第一个像素，并且将检测到的像素的y坐标指示为y_0-ext。当然，也有可能一直检测到最大扩展区域E的上侧边界也未能检测到边界像素。此时，可以将最大扩展区域E的上侧边界的y坐标指示为y_0-ext。

相应地，对于最大扩展区域E之内的垂直方向上的基准像素(x,y_click)下侧的点(x,y_down)，其中y_click≤y_down≤y₁，以其为中心设置滑动窗口，并且对滑动窗口中的边缘像素的数目进行计数。然后，搜索单元514可以从上向下检测满足滑动窗口中的边缘像素的数目大于预定阈值这一条件的第一个像素，并且将检测到的像素的y坐标指示为y_1-ext。当然，也有可能一直检测到最大扩展区域E的下侧边界也未能检测到边界像素。此时，可以将最大扩展区域E的下侧边界的y坐标指示为y_1-ext。这样一来，就获得了位于手指图像F之内的包含点击点P的扩展区域。

需要说明的是，在上面描述的技术方案中，首先确定了扩展区域的水平范围[x_0-ext,x_1-ext]，然后才确定扩展区域的垂直范围[y_0-ext,y_1-ext]。然而，本公开并不限于此。例如，也可以首先确定扩展区域的垂直范围[y_0-ext,y_1-ext]，然后再确定扩展区域的水平范围[x_0-ext,x_1-ext]。具体的确定方法与上面描述的类似，在此不再赘述。

在获得了位于手指图像F之内的包含点击点P的扩展区域之后，颜色模型获取单元520可以获得手指图像的颜色模型。例如，借助于混合高斯模型、肤色阈值和利用贝叶斯分类器的直方图模型等，可以获得手指图像的颜色模型。下面给出一个获得颜色模型的具体例子。本领域技术人员可以理解的是，也可以采用与给出的具体例子不同的其它方法来获得颜色模型。

由于手指颜色可能由多个颜色中心构成，所以这里使用多个高斯模型。假定属于扩展区域的所有点都表示为(x_i,y_i)，其中0≤i≤N-1，并且N指示扩展区域中的像素的数目。可以将扩展区域之内的每个像素(x_i,y_i)的颜色特征表达为二维向量f_i=(r’_i,g’_i)。r’_i和g’_i可以计算如下：

其中，r_i，g_i和b_i分别指示像素(x_i,y_i)的r值、g值和b值。

为了得到多个颜色中心，使用K均值聚类算法来得到K个簇，

为了得到多个颜色中心，可以向扩展区域之内的像素施加K均值聚类算法，将扩展区域之内的像素聚类为K个簇(w_i,C_i)，其中，0≤i≤K-1，并且K为自然数。这里，w_i表示簇C_i的权重，其值等于簇C_i中的像素的数目与扩展区域中所有像素的数目的比值。

对于每个簇C_i，使用其包含的像素来计算簇中聚类的像素的颜色特征的均值向量和协方差矩阵S_i如下：

其中，Num_i指示簇C_i中的像素的数目。

然后，基于每个簇C_k中聚类的像素的颜色特征的平均值和协方差矩阵S_k，可以计算扩展区域之内的每个像素(i,j)的颜色特征和每个簇C_k之间的马氏距离Ma-d(j,j,C_k)如下：

进一步，基于每个簇C_k在扩展区域之内的权重w_k，可以计算扩展区域之内的每个像素(i,j)的颜色特征和K个簇之间的加权马氏距离d(i,j)如下：

进而，可以将满足加权马氏距离d(i,j)小于预定阈值的像素的数目与扩展区域之内的全部像素的数目的比率等于设定比率这一条件的所述预定阈值设置为颜色阈值T_color。

具体地，在将这些像素点的距离d(i,j)按照从大到小排序后，可以根据设定的比例ζ(如0.98)来选择颜色阈值。例如，该颜色阈值应当保证小于该颜色阈值的像素数目与扩展区域之内的所有像素数目的比值等于设定的比例ζ。最后，估计得到的颜色模型包括K个高斯模型（w_i,S_i）(0≤i≤K-1)和颜色阈值T_color。

如上面参考图2描述的那样，基于图像I的边缘图和手指图像的颜色模型，对象分类单元240可以对图像I中的每个像素进行分类，以获得图像I的二值图像。

具体地，对象分类单元240可以将图像I中的作为边缘图中的非边缘像素并且与颜色模型的距离小于颜色阈值的像素分类为手指（对象）像素，并且将图像I中的其它像素分类为非手指（对象）像素。

更加具体地，例如根据如上所述估计得到的颜色模型和增强边缘图，对象分类单元240可以将图像I中的每个像素(i,j)分类如下。首先，根据公式（4）和（5）计算像素(i,j)的颜色特征向量。然后，根据公式（8）和（9）计算像素(i,j)与颜色模型之间的距离。最后，通过以下公式（10）来对像素(i,j)进行分类：

其中，Edge_enhance(j,j)可以通过公式（3）来计算，d(j,j)可以通过公式（9）来计算。

通过这样的操作，就可以得到只包括像素值为“0”和“255”的图像I的二值图像。这里，像素值“0”表示该像素更接近于手指像素，而像素值“255”则表示该像素与非手指像素更接近。

接下来参考图7描述根据本公开的实施例的图像处理装置中的检测单元700。图7所示的检测单元700对应于图2所示的检测单元250。

如图7所示，检测单元700可以包括噪声去除单元710，用于去除二值图像中的噪声部分。

由于书本内容具有各种类型，所以在通过对象分类单元获得的二值图像中，有些非手指像素会被分类为手指像素而成为噪声像素。因此，有必要去除这些噪声像素。

具体地，噪声去除单元710可以在二值图像中设置滑动窗口，然后对滑动窗口中的手指像素（亦即像素值为“0”的像素）的数目进行计数。如果滑动窗口中的手指像素的数目小于预定阈值，则判断这些手指像素实际上是噪声像素，并将这些像素设置为非手指像素，亦即将像素值从“0”转换为“255”。

代替地或者另外，噪声去除单元710可以包括连通域分析单元711和像素转换单元712。连通域分析单元711可以对二值图像执行连通域分析（CCA）算法，以获得二值图像中的连通域。连通域中的像素均为手指像素。CCA算法在本领域中是众所周知的，本公开对此不再详细描述。

针对获得的每个连通域，如果满足以下条件中的任何一个，则像素转换单元712可以将连通域中的手指像素全部转换为非手指像素：

1）连通域的面积小于预定面积；

2）连通域的宽高比大于预定比率；

3）手指图像位于图像的左侧，并且连通域的左侧边界与图像的左侧边界之间的距离大于预定阈值；或者

4）手指图像位于图像的右侧，并且连通域的右侧边界与图像的右侧边界之间的距离大于预定阈值。

下面对上面提到的四个条件逐一加以解释。首先，对于条件1）而言，手指图像会占据一定的区域。当连通域的面积过小时，就不可能是手指图像，而可能是噪声部分。进一步，对于条件2）而言，手指图像具有一定的宽高比。如图8（a）所示，当连通域的宽高比过大时，更有可能是诸如书本内容T之类的噪声部分，而不可能是手指图像F1或F2。

进而，对于条件3）和4）而言，手指一般都位于图像的竖直边界上。当连通域远离图像的竖直边界而靠近图像的中间时，就不可能是手指图像，而可能是噪声部分。

另外，如图7所示，检测单元700可以进一步包括连通域处理单元720和填充单元730。如图8（b）、8（c）和8（d）所示，连通域处理单元720可以根据点击点获得点击点所在的连通域F1，并且在垂直方向上搜索附近的连通域F2。填充单元730可以对包含点击点的连通域F1与搜索到的连通域F2（亦即区域F’）进行填充操作，以得到填充连通域F”。

考虑到在像素分类过程中手指图像可能被划分为几个孤立的部分（例如图8（a）和8（b）中的F1和F2），这里将那些与包含点击点的连通域F1在竖直方向上接近的连通域如F2进行合并。此外，由于检测到的手指图像上可能存在孔洞，因此这里可以利用填充操作来填充这些孔洞。具体地，可以分别检测到图像I中每一列的最上侧和最下侧的手指像素（即像素值为“0”的像素），然后将位于这两个像素之间的所有像素都设置为手指像素。通过填充操作后，手指上的孔洞区域会被填充掉，如图8(d)所示。

另外，如图7所示，检测单元700可以进一步包括膨胀单元740，用于对二值图像中的填充连通域执行膨胀操作。如图9所示，由于手指图像的边界有可能没有包含在检测到的手指区域A中，所以有必要进行膨胀操作，以将手指区域A扩大到区域A’。膨胀操作的具体方法在本领域中是众所周知的，本公开对此并没有特殊限制。

本公开以手指图像为例在上面进行了描述。根据本公开的实施例，在获得图像的二值图像时，既利用了手指图像的颜色模型又利用了图像的边缘图。进一步，在估计手指图像的颜色模型时，既利用了点击点的信息又利用了图像的边缘图。由此可以大大提高手指区域的检测精度，从而便利于从图像中去除手指图像，使得处理后的图像更加美观。

下面结合图10来描述根据本公开的实施例的图像处理方法。如图10所示，根据本公开的实施例的图像处理方法开始于步骤S110。在步骤S110中，对图像中包含的对象图像执行点击以获得点击点。

接下来，在步骤S120中，计算图像的边缘图。

接下来，在步骤S130中，基于点击点和边缘图，估计对象图像的颜色模型。

接下来，在步骤S140中，基于边缘图和颜色模型，对图像中的每个像素进行分类，以获得图像的二值图像。

最后，在步骤S150中，基于二值图像，检测包含对象图像的区域。

根据本公开的实施例，在步骤S120中计算图像的边缘图时，可以计算图像中的每个像素的颜色和点击点的颜色之间的距离以获得距离图。然后，可以向距离图施加梯度算子以获得距离梯度图像。如果图像中的像素具有大于预定距离梯度阈值的距离梯度，则被分类为边缘像素，否则被分类为非边缘像素。

根据本公开的实施例，在步骤S120中计算图像的边缘图时，可以计算图像中的每个像素的颜色和点击点的颜色之间的距离以获得距离图。然后，可以向距离图施加梯度算子以获得距离梯度图像。进一步，可以将图像从彩色图像转换成灰度图像，并且向灰度图像施加梯度算子以获得亮度梯度图像。如果图像中的像素具有大于预定距离梯度阈值的距离梯度或者具有大于预定亮度梯度阈值的亮度梯度，则被分类为边缘像素，否则被分类为非边缘像素。

根据本公开的实施例，在步骤S130中估计对象的颜色模型时，可以基于点击点和边缘图，获得包含点击点的扩展区域，所述扩展区域位于对象图像之内。然后，基于扩展区域之内的每个像素的颜色，可以获得对象图像的颜色模型。

具体地，在获得包含点击点的扩展区域时，可以设置包含点击点的最大扩展区域。然后，可以从点击点开始在水平方向上向左搜索第一个边界像素作为扩展区域的左侧边界像素，并且可以从点击点开始在水平方向上向右搜索第一个边界像素作为扩展区域的右侧边界像素。

进一步，针对水平方向上的在左侧边界像素和右侧边界像素之间的每个基准像素，可以从基准像素开始在垂直方向上向上搜索第一个边界像素作为扩展区域的上侧边界像素，并且可以从基准像素开始在垂直方向上向下搜索第一个边界像素作为扩展区域的下侧边界像素。

这里，以最大扩展区域之内的每个像素为中心设置滑动窗口，对滑动窗口中的边缘像素的数目进行计数，并且将满足滑动窗口中的边缘像素的数目大于预定阈值这一条件的像素定义为边界像素。

根据本公开的实施例，在步骤S140中对图像中的每个像素进行分类时，如果图像中的像素为边缘图中的非边缘像素并且与颜色模型的距离小于颜色阈值，则被分类为对象像素，否则被分类为非对象像素。

根据本公开的实施例，在步骤S150中检测包含对象图像的区域时，可以去除二值图像中的噪声部分。

具体地，在去除二值图像中的噪声部分时，可以对二值图像执行连通域分析算法，以获得二值图像中的连通域，所述连通域中的像素均为对象像素。如果连通域满足以下条件中的任何一个，则将连通域中的对象像素全部转换为非对象像素：

1）连通域的面积小于预定面积；

2）连通域的宽高比大于预定比率；

3）对象图像位于图像的左侧，并且连通域的左侧边界与图像的左侧边界之间的距离大于预定阈值；或者

4）对象图像位于图像的右侧，并且连通域的右侧边界与图像的右侧边界之间的距离大于预定阈值。

根据本公开的实施例，在步骤S150中检测包含对象图像的区域时，可以进一步根据点击点获得点击点所在的连通域，并且在垂直方向上搜索附近的连通域。然后，可以对包含点击点的连通域与搜索到的连通域进行填充操作，以得到填充连通域。

根据本公开的实施例，在步骤S150中检测包含对象图像的区域时，可以进一步对二值图像中的填充连通域执行膨胀操作。

根据本公开的实施例的图像处理方法的上述步骤的各种具体实施方式前面已经作过详细描述，在此不再重复说明。

显然，根据本公开的图像处理方法的各个操作过程可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。

而且，本公开的目的也可以通过下述方式实现：将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备，并且该系统或设备中的计算机或者中央处理单元（CPU）读出并执行上述程序代码。此时，只要该系统或者设备具有执行程序的功能，则本公开的实施方式不局限于程序，并且该程序也可以是任意的形式，例如，目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。

上述这些机器可读存储介质包括但不限于：各种存储器和存储单元，半导体设备，磁盘单元例如光、磁和磁光盘，以及其它适于存储信息的介质等。

另外，计算机通过连接到因特网上的相应网站，并且将依据本公开的计算机程序代码下载和安装到计算机中然后执行该程序，也可以实现本公开的技术方案。

如图11所示，CPU 1301根据只读存储器(ROM)1302中存储的程序或从存储部分1308加载到随机存取存储器(RAM)1303的程序执行各种处理。在RAM 1303中，也根据需要存储当CPU 1301执行各种处理等等时所需的数据。CPU 1301、ROM 1302和RAM 1303经由总线1304彼此连接。输入/输出接口1305也连接到总线1304。

下述部件连接到输入/输出接口1305：输入部分1306（包括键盘、鼠标等等）、输出部分1307（包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，以及扬声器等）、存储部分1308（包括硬盘等）、通信部分1309（包括网络接口卡比如LAN卡、调制解调器等）。通信部分1309经由网络比如因特网执行通信处理。根据需要，驱动器1310也可连接到输入/输出接口1305。可拆卸介质1311比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1310上，使得从中读出的计算机程序根据需要被安装到存储部分1308中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质1311安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图11所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1311。可拆卸介质1311的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘（包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 1302、存储部分1308中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

在本公开的系统和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

以上虽然结合附图详细描述了本公开的实施例，但是应当明白，上面所描述的实施方式只是用于说明本公开，而并不构成对本公开的限制。对于本领域的技术人员来说，可以对上述实施方式作出各种修改和变更而没有背离本公开的实质和范围。因此，本公开的范围仅由所附的权利要求及其等效含义来限定。

关于包括以上实施例的实施方式，还公开下述的附记：

附记1.一种图像处理装置，包括：

输入单元，用于对图像中包含的对象图像执行点击以获得点击点；

计算单元，用于计算所述图像的边缘图；

估计单元，用于基于所述点击点和所述边缘图，估计所述对象图像的颜色模型；

对象分类单元，用于基于所述边缘图和所述颜色模型，对所述图像中的每个像素进行分类，以获得所述图像的二值图像；以及

检测单元，用于基于所述二值图像，检测包含所述对象图像的区域。

附记2．根据附记1所述的装置，其中，所述计算单元包括：

距离计算单元，用于计算所述图像中的每个像素的颜色和所述点击点的颜色之间的距离以获得距离图；

距离梯度计算单元，用于向所述距离图施加梯度算子以获得距离梯度图像；以及

边缘分类单元，用于将所述图像中的具有大于预定距离梯度阈值的距离梯度的像素分类为边缘像素，并且将所述图像中的其它像素分类为非边缘像素。

附记3．根据附记1所述的装置，其中，所述计算单元包括：

距离梯度计算单元，用于向所述距离图施加梯度算子以获得距离梯度图像；

灰度转换单元，用于将所述图像从彩色图像转换成灰度图像；

亮度梯度计算单元，用于向所述灰度图像施加梯度算子以获得亮度梯度图像；以及

边缘分类单元，用于将所述图像中的具有大于预定距离梯度阈值的距离梯度或者具有大于预定亮度梯度阈值的亮度梯度的像素分类为边缘像素，并且将所述图像中的其它像素分类为非边缘像素。

附记4．根据附记1所述的装置，其中，所述估计单元包括：

扩展区域获取单元，用于基于所述点击点和所述边缘图，获得包含所述点击点的扩展区域，所述扩展区域位于所述对象图像之内；以及

颜色模型获取单元，用于基于所述扩展区域之内的每个像素的颜色，获得所述对象图像的颜色模型。

附记5．根据附记4所述的装置，其中，所述扩展区域获取单元包括：

设置单元，用于设置包含所述点击点的最大扩展区域；

第一搜索单元，用于从所述点击点开始在水平方向上向左搜索第一个边界像素作为所述扩展区域的左侧边界像素；

第二搜索单元，用于从所述点击点开始在水平方向上向右搜索第一个边界像素作为所述扩展区域的右侧边界像素；

第三搜索单元，用于针对水平方向上的在所述左侧边界像素和所述右侧边界像素之间的每个基准像素，从所述基准像素开始在垂直方向上向上搜索第一个边界像素作为所述扩展区域的上侧边界像素；以及

第四搜索单元，用于从所述基准像素开始在垂直方向上向下搜索第一个边界像素作为所述扩展区域的下侧边界像素，其中，

所述扩展区域获取单元以所述最大扩展区域之内的每个像素为中心设置滑动窗口，对所述滑动窗口中的边缘像素的数目进行计数，并且将满足所述滑动窗口中的边缘像素的数目大于预定阈值这一条件的像素定义为所述边界像素。

附记6．根据附记1所述的装置，其中，所述对象分类单元将所述图像中的作为所述边缘图中的非边缘像素并且与所述颜色模型的距离小于颜色阈值的像素分类为对象像素，并且将所述图像中的其它像素分类为非对象像素。

附记7．根据附记1所述的装置，其中，所述检测单元包括：噪声去除单元，用于去除所述二值图像中的噪声部分。

附记8．根据附记7所述的装置，其中，所述噪声去除单元包括：

连通域分析单元，用于对所述二值图像执行连通域分析算法，以获得所述二值图像中的连通域，所述连通域中的像素均为对象像素；以及

像素转换单元，用于如果所述连通域满足以下条件中的任何一个，则将所述连通域中的对象像素全部转换为非对象像素：

所述连通域的面积小于预定面积；

所述连通域的宽高比大于预定比率；

所述对象图像位于所述图像的左侧，并且所述连通域的左侧边界与所述图像的左侧边界之间的距离大于预定阈值；或者

所述对象图像位于所述图像的右侧，并且所述连通域的右侧边界与所述图像的右侧边界之间的距离大于预定阈值。

附记9．根据附记8所述的装置，其中，所述检测单元进一步包括：

连通域处理单元，用于根据所述点击点获得所述点击点所在的连通域，并在垂直方向上搜索附近的连通域；以及

填充单元，用于对包含所述点击点的连通域与搜索到的连通域进行填充操作，以得到填充连通域。

附记10．根据附记9所述的装置，其中，所述检测单元进一步包括：

膨胀单元，用于对所述二值图像中的填充连通域执行膨胀操作。

附记11．根据附记1所述的装置，其中，所述对象图像为手指图像。

附记12．根据附记1所述的装置，其中，所述点击点的颜色是所述点击点处的像素的颜色或者包含所述点击点的预定区域之内的像素的平均颜色。

附记13.一种图像处理方法，包括：

对图像中包含的对象图像执行点击以获得点击点；

计算所述图像的边缘图；

基于所述点击点和所述边缘图，估计所述对象图像的颜色模型；

基于所述边缘图和所述颜色模型，对所述图像中的每个像素进行分类，以获得所述图像的二值图像；以及

基于所述二值图像，检测包含所述对象图像的区域。

附记14．根据附记13所述的方法，其中，计算所述图像的边缘图的步骤包括：

计算所述图像中的每个像素的颜色和所述点击点的颜色之间的距离以获得距离图；

向所述距离图施加梯度算子以获得距离梯度图像；以及

如果所述图像中的像素具有大于预定距离梯度阈值的距离梯度，则被分类为边缘像素，否则被分类为非边缘像素。

附记15．根据附记13所述的方法，其中，计算所述图像的边缘图的步骤包括：

向所述距离图施加梯度算子以获得距离梯度图像；

将所述图像从彩色图像转换成灰度图像；

向所述灰度图像施加梯度算子以获得亮度梯度图像；以及

如果所述图像中的像素具有大于预定距离梯度阈值的距离梯度或者具有大于预定亮度梯度阈值的亮度梯度，则被分类为边缘像素，否则被分类为非边缘像素。

附记16．根据附记13所述的方法，其中，基于所述点击点和所述边缘图来估计所述对象图像的颜色模型的步骤包括：

基于所述点击点和所述边缘图，获得包含所述点击点的扩展区域，所述扩展区域位于所述对象图像之内；以及

基于所述扩展区域之内的每个像素的颜色，获得所述对象图像的颜色模型。

附记17．根据附记16所述的方法，其中，基于所述点击点和所述边缘图获得包含所述点击点的扩展区域的步骤包括：

设置包含所述点击点的最大扩展区域；

从所述点击点开始在水平方向上向左搜索第一个边界像素作为所述扩展区域的左侧边界像素；

从所述点击点开始在水平方向上向右搜索第一个边界像素作为所述扩展区域的右侧边界像素；以及

针对水平方向上的在所述左侧边界像素和所述右侧边界像素之间的每个基准像素，通过以下步骤设置所述扩展区域的上侧边界像素和下侧边界像素：

从所述基准像素开始在垂直方向上向上搜索第一个边界像素作为所述扩展区域的上侧边界像素；以及

从所述基准像素开始在垂直方向上向下搜索第一个边界像素作为所述扩展区域的下侧边界像素，其中

以所述最大扩展区域之内的每个像素为中心设置滑动窗口，对所述滑动窗口中的边缘像素的数目进行计数，并且将满足所述滑动窗口中的边缘像素的数目大于预定阈值这一条件的像素定义为所述边界像素。

附记18．根据附记13所述的方法，其中，基于所述边缘图和所述颜色模型对所述图像中的每个像素进行分类以获得所述图像的二值图像的步骤包括：

如果所述图像中的像素为所述边缘图中的非边缘像素并且与所述颜色模型的距离小于颜色阈值，则被分类为对象像素，否则被分类为非对象像素。

附记19．一种程序产品，包括存储在其中的机器可读指令代码，其中，所述指令代码当由计算机读取和执行时，能够使所述计算机执行根据附记13-18中任何一项所述的方法。

附记20．一种机器可读存储介质，其上携带有根据附记19所述的程序产品。

Claims

1.一种图像处理装置，包括：

计算单元，用于计算所述图像的边缘图；

检测单元，用于基于所述二值图像，检测包含所述对象图像的区域，其中，所述估计单元包括：

颜色模型获取单元，用于基于所述扩展区域之内的每个像素的颜色，获得所述对象图像的颜色模型，并且

其中，所述扩展区域获取单元包括：

设置单元，用于设置包含所述点击点的最大扩展区域；

第四搜索单元，用于从所述基准像素开始在垂直方向上向下搜索第一个边界像素作为所述扩展区域的下侧边界像素，并且

其中，所述扩展区域获取单元以所述最大扩展区域之内的每个像素为中心设置滑动窗口，对所述滑动窗口中的边缘像素的数目进行计数，并且将满足所述滑动窗口中的边缘像素的数目大于预定阈值这一条件的像素定义为所述边界像素。

2.根据权利要求1所述的装置，其中，所述计算单元包括：

3.根据权利要求1所述的装置，其中，所述计算单元包括：

4.根据权利要求1所述的装置，其中，所述对象分类单元将所述图像中的作为所述边缘图中的非边缘像素并且与所述颜色模型的距离小于颜色阈值的像素分类为对象像素，并且将所述图像中的其它像素分类为非对象像素。

5.根据权利要求1所述的装置，其中，所述检测单元包括：噪声去除单元，用于去除所述二值图像中的噪声部分。

6.根据权利要求5所述的装置，其中，所述噪声去除单元包括：

所述连通域的面积小于预定面积；

所述连通域的宽高比大于预定比率；

7.根据权利要求6所述的装置，其中，所述检测单元进一步包括：

8.一种图像处理方法，包括：

对图像中包含的对象图像执行点击以获得点击点；

计算所述图像的边缘图；

基于所述二值图像，检测包含所述对象图像的区域，

其中，基于所述点击点和所述边缘图来估计所述对象图像的颜色模型的步骤包括：

基于所述扩展区域之内的每个像素的颜色，获得所述对象图像的颜色模型，并且

其中，基于所述点击点和所述边缘图获得包含所述点击点的扩展区域的步骤包括：

设置包含所述点击点的最大扩展区域；

从所述基准像素开始在垂直方向上向下搜索第一个边界像素作为所述扩展区域的下侧边界像素，并且

其中，以所述最大扩展区域之内的每个像素为中心设置滑动窗口，对所述滑动窗口中的边缘像素的数目进行计数，并且将满足所述滑动窗口中的边缘像素的数目大于预定阈值这一条件的像素定义为所述边界像素。