CN102725773B

CN102725773B - 数字化图像的前景背景分割的系统与方法

Info

Publication number: CN102725773B
Application number: CN200980163374.2A
Authority: CN
Inventors: J.范
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2009-12-02
Filing date: 2009-12-02
Publication date: 2015-12-02
Anticipated expiration: 2029-12-02
Also published as: CN102725773A; EP2507766A4; WO2011068508A1; EP2507766A1; US8792711B2; US20120275694A1

Abstract

一种用于分割数字化图像上的前景和背景区域的系统和方法使用具有处理器和系统存储器的计算机以将所述图像分割成初始区域并且从所述初始区域识别背景区域。估计所述图像的完整背景表面，并且利用所估计的背景表面矫正所述图像的像素以归一化所述图像。将归一化的像素与阈值颜色进行比较以确定背景区域的最终分割。

Description

数字化图像的前景背景分割的系统与方法

背景技术

利用数字手持相机将文件数字化有时是便利的。然而，利用数字相机的文件捕获具有很多固有限制。例如，难以将均匀照明投射到文件表面上，而这常常导致在已获得的页面中的不均照射和色移。与利用手持数字相机数字化的文件共有的另一问题是由于相机在用户的手中的运动致使文本常常不清楚且模糊。

这些类型的情况使得相机捕获的文件难以分析并转换成有用的电子格式。例如，模糊或不清楚的文本使得光学字符识别难（如果不是不可能的话）以将数字化图像转换成文本可编辑文件。

一种用来解决该问题的方法是文件的前景和背景的分割，其通常称为文件图像分析群落中的二值化。前景和背景的分割通常是朝着文件图像分析和识别的第一步。对于均匀背景上的具有文本的良好扫描的文件而言，通过全局阈值可以获得高质量的分割。然而，对于相机捕获的文件图像而言，不均匀照明是常事，并且全局阈值化方法常常产生不可接受的结果。自适应阈值化算法已经被开发出来了；然而，此类程序可能在处理包含图的文件方面具有困难。

附图说明

根据以下的、与附图相结合地进行的详细描述，本公开的各种特征和优点将是显而易见的，所述附图一起通过示例的方式图示出了本公开的特征并且其中：

图1是根据本公开的、用于分割数字化图像上的前景和背景区域的系统的实施例的示意图；

图2是由来自用于分割图1的数字化图像上的前景和背景区域的系统的实施例的数字相机产生的数字化图像的视图；

图3是根据本公开的、具有前景区域和背景区域的图2的数字化图像的颜色梯度幅度的视图；

图4是根据本公开的、通过分水岭变换处理被分割成1140个区域的颜色梯度幅度的视图；

图5是根据本公开的、通过将图4的颜色梯度幅度量化成256级而构建的梯度直方图的视图；

图6是根据本公开的、通过噪声阈值比较技术被分割成230个区域的图4的数字化图像的视图；

图7是根据本公开的、用于分割数字化图像上的前景和背景区域的方法的实施例的流程图；以及

图8是根据本公开的、用于分割数字化图像上的前景和背景区域的方法的另一实施例的流程图。

具体实施方式

现在将对图中图示的示例性实施例进行参考，并且特定的语言将在本文中用于描述相同的东西。然而，将理解的是，并不因此意图限制本公开的范围。本文举例说明的特征的变更和进一步修改以及本文举例说明的原理的附加应用（其将被相关领域中熟练的并且拥有本公开的人想到）将被认为在本公开的范围内。

如本文所使用的，参考正被描述的图的方位来使用方向术语，诸如“顶部”、“底部”、“前面”、“后面”、“前端”、“尾部”等。因为本文公开的各种实施例的部件能够被定位在多个不同的方位上，所以所述方向术语是仅用于说明性目的，而无意于是限制的。如本文所使用的，术语“计算机”指的是任何类型的计算设备，包括个人计算机、大型计算机、便携式计算机、PDA、智能电话或工作站计算机，其包括处理单元、系统存储器以及将处理单元耦合至计算机的各种部件的系统总线。处理单元可以包括一个或多个处理器，其中的每个可以具有各种市售处理器中的任何一种的形式。通常，每个处理器从只读存储器（ROM）和/或随机存取存储器(RAM)接收指令和数据。系统存储器通常包括ROM（其存储包含计算机的启动例程的基本输入/输出系统（BIOS））和用于存储计算机程序指令和数据的RAM。

计算机还通常包括用于用户交互（例如，输入命令或数据，接收或观看结果）的输入设备，诸如键盘、定点设备（例如，计算机鼠标）、麦克风、相机或任何其他已知与计算设备一起使用的输入装置。计算机还可以包括输出设备，诸如监视器或显示器、投影仪、打印机、音频扬声器、或任何其他已知可由计算设备控制的设备。在某些实施例中，计算机还可以包括一个或多个图形卡，其中的每个能够驱动一个或多个与内部或外部时钟源同步的显示输出。

本文使用术语“计算机程序”以指机器可读指令，其被存储在有形的计算机可读存储介质上，用于使得包括处理器和系统存储器的计算设备执行一系列的处理步骤，所述处理步骤转换数据和/或产生有形的结果，诸如显示指示或打印的标记。

如本文所使用的术语“计算机可读介质”和“计算机可读存储介质”包括任何种类的存储器或存储设备，不管是易失性的还是非易失性的，诸如软盘、硬盘、CD-ROM、闪速存储器、只读存储器以及随机存取存储器，其适于为数据、数据结构以及机器可执行的指令提供非易失性或永久性存储器。适于有形地体现这些指令和数据的存储设备包括所有形式的非易失性存储器，例如包括半导体存储设备（诸如EPROM、EEPROM以及闪速存储设备）、磁盘（诸如内部硬盘和可移动硬盘）、磁光盘、以及光盘（诸如CD、CDROM、DVD-ROM、DVD-RAM、以及DVD-RW）。上述类型的计算机可读介质或相关设备中的任何一个可以与计算机的一部分相关联或被包括作为计算机的一部分，并且通过相应接口连接到系统总线。其他计算机可读存储设备（例如，磁带驱动器、闪速存储器设备以及数字视频盘）也可以与计算机一起使用。

本文描述的示例性实施例通常提供用于分割相机捕获的文件图像的前景和背景的系统与方法。可以通过利用根据梯度幅度的直方图估计的阈值、将分水岭变换应用于经噪声阈值化的（thresholded）颜色梯度幅度来执行初始的颜色分割。显著的背景区域可以被识别并且被插值以形成图像的完整背景表面的估计。所估计的背景表面可以被用来对原始图像进行归一化，从而使得背景像素变成纯白并且矫正前景的照明变化。然后可以通过将归一化像素与基于归一化像素根据欧几里得颜色距离计算的阈值颜色进行比较来确定最终的前景和背景分割。

图1中提供的是通常在10处指示的用于分割数字化图像的前景和背景区域的系统的一个实施例的视图的示意图。该系统可以包括数字复印机（通常在20处指示）、计算机（通常在40处指示）、以及用于将数字图像分割成前景和背景区域的装置。

数字复印机20可以数字地捕获并且复制原始硬拷贝文件12的数字的或数字化的图像14。数字复印机可以是数字相机、扫描仪等。如在图1中的实施例中示出的那样,数字复印机20可以是手持式数字相机22。相机22可以拍摄文件的数字图像。数字化图像可以是原始文件的数字复制品。可以将数字化图像从相机发送到用于处理的计算机40。

图2示出了由数字相机22生成的数字化图像14a的实施例。该图像可以包括前景区域16a（诸如文本、图形、摄影图像等）以及背景区域18a。

返回到图1，计算机40可以是基于微处理器的计算设备，诸如台式计算机(如图1中所示)、膝上型计算机、上网本、PDA、因特网服务器、应用服务器等。计算机可以包括处理器42以及包含有形的计算机可读存储介质的系统存储器44。

处理器42可以被配置成接收、分析以及分割由上述数字复印机20产生的数字化图像14。处理器42可以包括用于识别数字图像14并将数字图像14分割成前景区域16和背景区域18的诸如编程之类的装置。在一个实施例中，该编程可以通过利用估计的背景表面将图像归一化来分割数字图像的前景和背景区域，并且将归一化的像素与阈值颜色进行比较以确定背景区域的最终分割。

为了归一化图像，该程序可以首先估计数字化图像14的背景表面。可以通过将图像分割成初始区域并且从该初始区域中识别背景区域来完成估计背景表面。可以通过缩小并且平滑图像、确定该图像的颜色梯度幅度、并且将分水岭变换应用到该颜色梯度幅度来确定初始区域。

图3示出了具有前景区域16b和背景区域18b的原始图像14的颜色梯度幅度14b。图4示出了通过分水岭变换处理分割成1140个区域的颜色梯度幅度14b。被分割的图像14c可以具有前景区域16c和背景区域18c。可以通过将该区域的颜色梯度幅度与阈值相比较来确定前景和背景区域。该阈值以上或以下的幅度可以将该区域识别为前景或背景。尽管该方法具有参数无关的优点，但是该方法当被应用到真实图像时由于可能被不经意地识别为前景或背景区域并且导致过度分割的图像中的噪声的原因而致使遭受过度分割。因此，如图4中所示出的那样，1140个区域产生有噪声的和杂波图像。

该过度分割问题可以通过如方程式1中所描述的那样将非线性硬阈值化（hard-thresholding）应用到颜色梯度幅度来解决：

[1]

其中g是颜色梯度幅度，而th_g是阈值。该阈值th_g可以基于梯度幅度的直方图来加以估计。图5图示出了梯度直方图gh[256]，其可以通过将梯度幅度值量化成256级并且对落入各个仓（bin）中的值的数目进行计数来加以构建。针对大多数文件而言，可以假设该背景区域是平滑的并且占据文件页面的最大部分。这意味着背景区域的梯度幅度构成了直方图gh中的最高峰。基于该假设，可以通过曲线T的尾部来设定阈值th_g。此外，已经被确定的是，在定位峰值位置方面，加权平均值比简单的最大值搜索更稳健。

可以使用方程式[2]来寻找峰值位置，

[2]

其中，通过方程式[3]来寻找w_k：

[3]

然后可以通过三个连续计数gh[m]、gh[m+1]、gh[m+2]都在直方图峰值的所设定的百分比之下的标准来搜索直方图的尾部位置m，gh_low=λ·gh_peak，其中λ可以被设定成0.125。

将分段的图像与如由直方图的峰值位置确定的阈值进行比较大大降低了总的过度分割。图6示出了已经被通过上述噪声阈值比较技术分割成230个区域的数字化图像14a。图像14d具有足够数量的前景区域16d以及背景区域18d，以便清晰地从前景区域中识别并分割背景区域。

一旦初始分割的区域被确定，则程序可以基于该区域的类似平均颜色将所述区域聚集成组。当所述区域被聚集时，可以基于像素计数、亮度以及空间范围来识别背景区域群集。将了解的是，文件的背景区域在统计上比前景区域占据页面的更多空间并且通常具有相对一致的颜色。为此，处理器可以被编程为识别具有与背景区域相同的颜色并且覆盖文件面的大部分的分割区域。

通常，文件的背景由被诸如图和图形之类的前景对象分开的多个区域组成。所识别的背景区域的数量越大，完整的背景表面的构建就越精确。区域聚集有助于背景识别。由于颜色是背景区域的关键特性，所以区域的平均颜色可以被用于区域聚集。在一个实施例中，可以使用QT聚集算法，因为QT聚集算法不需要群集的数量的先验知识。

欧几里得颜色距离可以被用作两个区域的距离量度。群集直径可以被定义为该群集中的所有对的最大颜色距离，其中阈值d被凭经验设定。然而，QT聚集的计算复杂性可能太高而不能包括所有区域。由于作为噪声阈值化的结果，背景区域的尺寸容易非常大，所以用于减少用于聚集的区域的数量的非常有效的方法是仅包括具有大于阈值N_min（例如N_min=max{width,height}）的像素计数的区域。

可以根据如方程式[4]中所描述的那样考虑像素计数、亮度以及空间范围的度量来选择背景区域的群集。

[4]

其中N、以及S分别是像素计数、平均亮度以及群集的边界框尺寸。

在背景区域已经被识别后，程序可以使用迭代方法以使用具有背景区域的潜在表面（potentialsurface）的方法作为起点来对完整背景表面（β_R,β_G,β_B）进行插值。该迭代方法可以为背景区域的像素固定值。可以针对每个R、G、B通道计算用于每个非背景像素的四邻残值。可以利用每次迭代独立地更新四邻残值。当绝对残数的总和下降到阈值以下时（所述阈值被设定成与非背景像素的总数量成比例），可以停止所述迭代，如方程式[5]所描述的那样：

[5]

其中、、和是三个颜色通道的残数。在实践中，可以通过从一维线性插值曲面而不是从任意恒定值开始获得明显更快的收敛。

一旦完成该插值，程序就可以将估计的完整背景表面按比例放大到原始图像的分辨率并且使用方程式[6]来归一化该图像：

[6]

然后背景像素可以被矫正到估计的背景表面，从而使得基本上全部背景像素具有有着(255,255,255)的R、G、B值的近似纯白的颜色。

然后可以通过使用方程式[7]确定所有像素的欧几里得颜色距离并且将归一化的像素与阈值颜色相比较来完成图像的背景和前景区域的最终分割。

[7]

具有大于阈值的欧几里得颜色距离的像素可以被识别为背景像素。可以根据信噪比以及预定的应用特征来确定所述欧几里得颜色距离阈值。

理想地，所有背景像素将具有零的距离，并且任何具有零以上的距离的像素都应被识别为前景。在实践中，文件图像被噪声和模糊降低质量。因此，可以根据信噪比和应用特征（诸如期望的字符笔划宽度）来确定阈值。由于距离图像是标量灰度图像（其中去除了不均照射），所以还可以使用本领域中已知的全局阈值化算法。在一个实施例中，在60到100的范围内的阈值产生好的结果。

总的来说，为了归一化图像，该程序首先估计数字化图像14的背景表面。可以通过假设数字化图像可以由方程式[8]中示出的彩色图像形成模型加以描述来完成估计所述背景表面：

[8]

其中(,,)是所观测的图像，（R,G,B)是反射图像，而(λ_R,λ_G,λ_B)是照亮的表面（lightsurface）。照亮的表面(λ_R,λ_G,λ_B)可以被估计并且然后被用于“归一化”所观测的图像以获得方程式[9]中描述的反射图像。

[9]

如果原始文件背景具有均匀的反射率，那么背景区域中的照亮的表面与所观测的图像成比例。然后可以对部分表面数据进行插值以形成完整背景表面（β_R,β_G,β_B)。

最后，可以通过方程式[10]来计算归一化图像：

[10]

由于背景像素被归一化成(255,255,255)，以及前景像素上的不均照明的影响被矫正，所以可以通过对像素与(255,255,255)之间的颜色距离进行简单阈值化来将背景和前景像素容易地分开。

可以通过系统存储器44中的处理器62存储编程的结果。如上所述，系统存储器可以是易失性或非易失性的存储设备。系统存储器可以存储来自相机的数字图像以及通过软件程序进行的分割的结果。

图7中提供的是略述用于分割数字化图像上的前景和背景区域的方法的一个实施例中的步骤的流程图。可以通过具有处理器和系统存储器的计算机执行该方法。该方法（通常在300处指示）包括估计该图像的完整背景表面（如在310处指示的那样）。可以利用估计的背景表面矫正图像的像素以使所述图像归一化，如在320处指示的那样。可以将归一化的像素与阈值颜色进行比较以确定背景区域的最终分割，如在330处指示的那样。

估计完整背景表面的步骤还可以包括将该图像分割成初始区域。可以从所述初始区域中识别背景区域。此外，可以利用所述背景区域对完整背景表面进行插值。

将图像分割成初始区域的步骤可以包括缩小和平滑所述图像。可以计算图像的颜色梯度幅度。可以将图像的颜色梯度幅度与噪声阈值相比较，并且可以将分水岭变换应用到经阈值化的颜色梯度幅度以确定初始分割区域。

识别背景区域的步骤可以包括基于平均颜色将区域聚集在一起。可以基于像素计数、亮度以及空间范围来选择背景区域的群集。

对完整背景表面进行插值的步骤可以包括使用迭代方法来为背景区域的像素固定值。可以针对每个R、G、B通道的每个非背景像素计算并更新四邻残值。当绝对残数的总和下降到阈值以下时（所述阈值被设定成与非背景像素的总数量成比例），可以停止所述迭代。

将归一化的像素与阈值颜色进行比较以确定最终分割的步骤可以包括确定所有像素的欧几里得颜色距离，如在350处指示的那样。具有大于阈值的欧几里得颜色距离的像素可以被识别为背景像素，如在352处指示的那样。可以根据信噪比来确定所述欧几里得颜色距离阈值，如在354处指示的那样。

图8中提供的是略述用于分割数字化图像上的前景和背景区域的方法的另一实施例中的步骤的流程图。可以通过具有处理器和系统存储器的计算机执行该方法。该方法（通常在400处指示）可以包括将图像分割成初始区域，如在410处指示的那样。可以从所述初始区域识别背景区域，如在420处指示的那样。可以使用背景区域对完整背景表面进行插值，如在430处指示的那样。可以利用完整背景表面归一化该图像，如在440处指示的那样。可以将归一化的像素与阈值颜色进行比较以确定背景区域的最终分割，如在450处指示的那样。

将图像分割成初始区域的步骤还可以包括缩小和平滑所述图像。图像的颜色梯度幅度可以被计算并且与噪声阈值比较。可以将分水岭变换应用于经阈值化的颜色梯度幅度以确定初始分割区域。

识别背景区域的步骤还可以包括基于平均颜色将区域聚集在一起。可以基于像素计数、亮度以及空间范围来选择区域的群集并且将其识别为背景区域。

对完整背景表面进行插值的步骤还可以包括使用迭代方法来为背景区域的像素固定值。可以针对每个R、G、B通道的每个非背景像素确定并更新四邻残值。当绝对残数的总和下降到阈值以下时（所述阈值被设定成与非背景像素的总数量成比例），可以停止所述迭代。

利用经插值的背景表面归一化所述图像的步骤的步骤还可以包括根据缩小的图像估计完整背景表面。该缩小的图像可以被按比例放大到原始分辨率，并且可以利用所估计的背景表面矫正所述图像的全部像素从而使得全部背景像素具有近似纯白的颜色。

将归一化的像素与阈值颜色进行比较以确定最终分割的步骤可以包括确定所有像素的欧几里得颜色距离。具有大于阈值的欧几里得颜色距离的像素可以被识别为背景像素。可以根据信噪比以及预定的应用来确定所述欧几里得颜色距离阈值。

将被理解的是，上文提及的布置举例说明了本文公开的原理的应用。对于本领域普通技术人员而言将显而易见的是，在不偏离如权利要求中阐述的本公开的原理和思想的情况下，可以作出许多修改。

Claims

1.一种用于分割数字化图像上的前景和背景区域的方法，所述方法由具有处理器和系统存储器的计算机来执行，包括以下步骤：

通过以下方式估计所述图像的完整背景表面：

将所述图像分割成初始区域；

从所述初始区域识别背景区域；以及

利用所述背景区域对完整背景表面进行插值；

利用所估计的背景表面矫正所述图像的像素以归一化所述图像；以及

将归一化的像素与阈值颜色进行比较以确定背景区域的最终分割。

2.根据权利要求1所述的方法，其中将所述图像分割成初始区域的所述步骤进一步包括：

缩小并平滑所述图像；

计算所述图像的颜色梯度幅度；

将所述图像的所述颜色梯度幅度与噪声阈值进行比较；以及

将分水岭变换应用于经阈值化的颜色梯度幅度以确定所述初始分割区域。

3.根据权利要求1所述的方法，其中识别背景区域的所述步骤进一步包括：

基于平均颜色将区域聚集在一起；以及

基于像素计数、亮度以及空间范围来选择背景区域的群集。

4.根据权利要求1所述的方法，其中对完整背景表面进行插值的所述步骤进一步包括：

使用迭代方法来固定所述背景区域的像素的值；

针对每个R、G、B通道的每个非背景像素计算并更新4邻残值；以及

当绝对残数的总和下降到被设定成与非背景像素的总数量成比例的阈值以下时，停止所述迭代。

5.根据权利要求1所述的方法，其中，将归一化的像素与阈值颜色进行比较以确定最终分割的所述步骤进一步包括：

确定所有像素的欧几里得颜色距离；

将具有大于阈值的欧几里得颜色距离的像素识别为背景像素；以及

根据信噪比以及预定的应用特征来确定所述欧几里得颜色距离阈值。

6.一种用于分割数字化图像上的前景和背景区域的方法，所述方法由具有处理器和系统存储器的计算机来执行，包括以下步骤：

将所述图像分割成初始区域；

从所述初始区域识别背景区域；

利用所述背景区域对完整背景表面进行插值；

利用所述完整背景表面归一化所述图像；以及

7.根据权利要求6所述的方法，其中将所述图像分割成初始区域的所述步骤进一步包括：

缩小并平滑所述图像；

计算所述图像的颜色梯度幅度；

将所述图像的所述颜色梯度幅度与噪声阈值进行比较；以及

8.根据权利要求6所述的方法，其中识别背景区域的所述步骤进一步包括：

基于平均颜色将区域聚集在一起；以及

基于像素计数、亮度以及空间范围来选择背景区域的群集。

9.根据权利要求6所述的方法，其中对完整背景表面进行插值的所述步骤进一步包括：

使用迭代方法来固定所述背景区域的像素的值；

10.根据权利要求6所述的方法，其中利用经插值的背景表面归一化所述图像的所述步骤进一步包括：

根据缩小的图像估计完整背景表面；

将所述缩小的图像按比例放大到原始分辨率；以及

利用所估计的背景表面矫正所述图像的全部像素，从而使得全部背景像素具有纯白的颜色。

11.根据权利要求6所述的方法，其中，将归一化的像素与阈值颜色进行比较以确定最终分割的所述步骤进一步包括：

确定全部像素的欧几里得颜色距离；

12.一种用于分割数字化图像上的前景和背景区域的设备，其中所述设备包括：

用于通过以下方式估计所述图像的完整背景表面的装置：

将所述图像分割成初始区域；

从所述初始区域识别背景区域；以及

利用所述背景区域对完整背景表面进行插值；

用于利用所估计的背景表面矫正所述图像的像素以归一化所述图像的装置；以及

用于将归一化的像素与阈值颜色进行比较以确定背景区域的最终分割的装置。