CN104715247A

CN104715247A - 封闭区域识别方法和设备

Info

Publication number: CN104715247A
Application number: CN201310681998.1A
Authority: CN
Inventors: 张庆久; 乐宁
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2013-12-12
Filing date: 2013-12-12
Publication date: 2015-06-17

Abstract

本发明涉及封闭区域识别方法和设备，用于精确地识别文档中的封闭区域。该方法包括对包含封闭区域的输入图像进行二值化，以获得二值化图像；扫描二值化图像以确定候选区域；依次扫描候选区域内的每个点，通过以下方式向每一个点附加类别标号：扫描其相邻点，如果在其相邻点中存在已被分配有类别标号的点，则将所述相邻点的类别标号中最小的值分配给该点的类别标号；如果其相邻点中不存在已被分配有类别标号的点，则使类别标号值递增1，并将该新的类别标号值分配给该点的类别标号；以及将具有相同类别标号值的点识别为属于同一个区域。即使封闭区域彼此相连，根据本发明的方法仍然可以提取所有封闭区域，并且与对区域进行标记的线的形状和宽度无关。

Description

封闭区域识别方法和设备

技术领域

本发明涉及图像处理技术，更具体地，涉及封闭区域识别方法和设备。

背景技术

人们通常在阅读文档时对感兴趣的内容进行标记。因此，提出了一些方法，以提取文档中所标记区域。但是，一些方法无法精确地分离多个连通的区域。一些方法可以提取多个区域，但是当这些区域彼此连通时，无法精确地提取这些区域。其他一些方法基于图形方法来提取连通的封闭区域，但是这些方法也无法精确地提取封闭区域。

还提出了一些方法，这些方法为了提取封闭区域可能需要知晓所标记区域的形状。一些提取方法仅适用于特定形状的区域。例如，一些方法仅能够提取矩形形状的区域。显然，这种限制对于用户而言不方便。

近年来提出了一些方法，其假定所标记区域是通过直线构成的。但是，很难以确保用户所描绘的线是直线。这也限制了这些方法的应用。

题为“User-enclosed Region Extraction From Scanned DocumentImages(从扫描文档图像中提取用户封闭区域)”的美国专利US6,351,559提出了一种从扫描文档图像中提取用户描绘的封闭区域的设备。其中，连通体分析器以位图格式分析文档，从而使得该设备能够检测可能存在的用户封闭区域，而无论文档图像的内容是什么。双向连通体模块使得用户可以用具有任何形状的标记来包围一个区域。用户所描绘的区域可以横跨文档页面上的文本行或图像。检测分析过滤器使用多个探索器来消除与用户所描绘的标记相似的小字符和图形。但是，该方法无法精确地提取封闭区域，也不支持多区域相连的情况。

因此，需要一种能够精确地识别和提取文档的封闭区域的方法。

发明内容

本公开提出了一种封闭区域识别方法和设备，能够精确地识别和提取多个连通的封闭区域。

根据本发明的一个方面，提出了一种封闭区域识别方法，该方法首先对包含一个或更多个封闭区域的输入图像进行二值化，以获得二值化图像。然后扫描二值化图像，通过以下方式，针对每行和每列确定候选区域：行的起始点和结束点分别是该行的第一个前景点和最后一个前景点，列的起始点和结束点分别是该列的第一个前景点和最后一个前景点，在所述候选区域内的点被称为候选点。然后，依次扫描每一个候选点，通过以下方式向每一个候选点附加类别标号：扫描其相邻点，如果在其相邻点中存在已被分配有类别标号的点，则将所述相邻点的类别标号中最小的值分配给该候选点的类别标号；如果其相邻点中不存在已被分配有类别标号的点，则使类别标号值递增1，并将该新的类别标号值分配给该候选点的类别标号。具有相同类别标号值的候选点可以被识别为属于同一个区域。

优选地，所述方法还包括：针对二值化图像中的所有点，初始化类别标号。

优选地，将由具有相同类别标号值、且该类别标号值与不在候选区域内的点的类别标号值不同的候选点组成的区域识别为一个封闭区域。

优选地，扫描其相邻点的步骤还包括：如果所述相邻点的类别标号值不同，则将所述相邻点中的类别标号中最小的值分配给这些类别标号。

优选地，对输入图像进行二值化的步骤包括：

计算输入图像的每个像素点的多通道值的方差；

如果方差大于阈值，则将该像素点在二值化图像中的值设置为1；否则设置为0。

优选地，在进行二值化之后，还包括：对二值化图像进行去噪。

优选地，对二值化图像进行去噪的步骤包括：根据已知的图像信息，对二值化图像进行去噪。

根据本发明的另一方面，提出了一种封闭区域识别设备，包括：预处理单元，被配置为二值化包含一个或更多个封闭区域的输入图像，以获得二值化图像；候选区域确定单元，被配置为扫描二值化图像，针对每行和每列确定候选区域：行的起始点和结束点分别是该行的第一个前景点和最后一个前景点，列的起始点和结束点分别是该列的第一个前景点和最后一个前景点，在所述候选区域内的点被称为候选点；类别标号附加单元，被配置为依次扫描每个候选点，通过以下方式向每一个候选点附加类别标号：扫描其相邻点，如果在其相邻点中存在已被分配有类别标号的点，则将所述相邻点的类别标号中最小的值分配给该候选点的类别标号；如果其相邻点中不存在已被分配有类别标号的点，则使类别标号值递增1，并将该新的类别标号值分配给该候选点的类别标号；以及区域分类单元，被配置为将具有相同类别标号值的候选点识别为属于同一个区域。

根据本发明的又一方面，提出了一种文档处理设备，包括：图像捕获系统，用于将文档转换为数字格式，以获得输入图像；以及封闭区域提取系统，用于对所述输入图像执行根据本发明实施例所述的封闭区域识别方法，以提取所述输入图像中的封闭区域。

与现有技术不同，根据本发明实施例的封闭区域提取方法和设备在多个方面改善了封闭区域提取的性能，至少包括：

1.即使封闭区域彼此相连，根据本发明实施例的封闭区域提取方法和设备仍然可以提取所有封闭区域，并且精确地识别每一点是在封闭区域内还是在封闭区域外。

2.根据本发明实施例的封闭区域提取方法和设备与线的宽度和线的形状无关。包围感兴趣区域的线可以是曲线、直线或任意形状。同样，对于线的宽度也没有限制。线可以是粗线或者细线。

3.根据本发明实施例的封闭区域提取方法和设备对于封闭区域的形状没有限制。可检测的封闭区域可以是凸行或凹形。可检测的封闭区域也可以非常大，或者非常小。

附图说明

通过下面结合附图说明本发明的优选实施例，将使本发明的上述及其它目的、特征和优点更加清楚，其中：

图1是示出了根据本发明实施例的封闭区域提取系统的示意框图；

图2示出了根据本发明实施例的封闭区域提取方法的流程图；

图3示出了根据本发明实施例的二值化过程的流程图；

图4示出了根据本发明实施例的类别标号设置过程的流程图；

图5示出了标记有一些封闭区域的常见页面的示例；

图6示出了图5所示的页面中要检测的范围；

图7示出了根据本发明实施例的方法，针对图5所示的示例所获得的二值化图像；

图8示出了对图5所示的示例执行根据本发明实施例的方法所检测到的封闭区域；以及

图9示出了根据本发明实施例的封闭区域识别方法可应用于的文档处理设备的框图。

具体实施方式

以下参照附图，对本发明的示例实施例进行详细描述。在以下描述中，一些具体实施例仅用于描述目的，而不应该理解为对本发明有任何限制，而只是本发明的示例。在可能导致对本发明的理解造成混淆时，将省略常规结构或构造。

本申请的发明人受到连通体标记方法(connected-componentlabeling)方法(可参见http:／／en.wikipedia.org／wiki／Connected-component_labeling)的启发，将该方法用于标记位图图像中的点，其中用相同的标记来标记属于相同组的点，从而提出根据本发明实施例的封闭区域提取系统和方法。

图1是示出了根据本发明实施例的封闭区域提取系统100的示意框图。该系统100包括：预处理单元110、候选区域确定单元120、类别标号附加单元130和区域分类单元140、输入单元150和存储器160。

输入单元150向预处理单元110输入要处理的文件。该文件以图像的形式表示，并且包括一个或更多个用户标注的封闭区域。

预处理单元110被配置为二值化输入图像，以增强封闭区域的边界。用户通常会使用高光颜色来标记封闭区域，因此，在多数情况下，可以将高光颜色当做前景颜色，以对输入图像进行二值化。

二值化后的图像被输入候选区域确定单元120。候选区域确定单元120扫描二值化图像中的每一行和每一列，以确定候选区域。具体地，针对某一行，如果其第一个前景点是p1，最后一个前景点是p2，则针对该行的候选区域是[p1，p2]。同样，针对某一列，如果其第一个前景点是q1，最后一个前景点是q2，则针对该列的候选区域是[q1，q2]。将处于候选范围内的点称为候选点。

类别标号附加单元130被配置为扫描每个候选点，向每一个候选点附加类别标号。根据本发明的实施例，类别标号附加单元130通过以下方式向每一个候选点附加类别标号：扫描其相邻点，如果在其相邻点中存在已被分配有类别标号的点，则将所述相邻点的类别标号中最小的值分配给该候选点的类别标号；如果其相邻点中不存在已被分配有类别标号的点，则使类别标号值递增1，并将该新的类别标号值分配给该候选点的类别标号。

类别标号附加单元130所附加的类别标号可以以矩阵的形式存储在存储器160中。当然，存储器160中也可以存储待处理的二值化图像、所确定的候选范围的标记等信息。

最后，区域分类单元140根据附加的类别标号，来识别区域。具体地，具有相同类别标号值的候选点被识别为属于同一个区域。

根据本发明的实施例，类别标号附加单元130在每一个候选点附加类别标号之前，针对二值化图像中的所有点，初始化类别标号，以便在后续处理中对类别标号进行修改。

根据本发明的实施例，具有相同类别标号值、且该类别标号值与不在候选区域内的点(即，背景点)的类别标号值不同的候选点组成的区域被识别为一个封闭区域。

根据本发明的实施例，如果相邻点的类别标号值不同，而类别标号附加单元将相邻点中的类别标号中的最小值分配给这些相邻点的类别标号。

根据本发明的实施例，作为一个示例，预处理单元110可根据以下方式来对图像进行二值化：计算输入图像的每个像素点的多通道值的方差；如果方差大于阈值，则将该像素点在二值化图像中的值设置为1；否则设置为0。

根据本发明的实施例，预处理单元110在对图像进行二值化之后，对图像进行去噪，以增强封闭区域的边界。

根据本发明的实施例，预处理单元110可根据已知的图像信息，对二值化图像进行去噪。例如，可以根据已知的线段的宽度、颜色等，来对二值化图像进行处理，以去除其中的噪声。

图2示出了根据本发明实施例的封闭区域提取方法200的流程图。首先，在步骤S201，对输入图像进行预处理，以消除噪声并通过对图像进行二值化来增强线条，以获得二值化图像。

接下来在步骤S202，通过以下方式，针对每行和每列确定候选区域：行的起始点和结束点分别是该行的第一个前景点和最后一个前景点，列的起始点和结束点分别是该列的第一个前景点和最后一个前景点，在所述候选区域内的点被称为候选点。

接下来在步骤S203，依次扫描每个候选点，通过以下方式向每一个候选点附加类别标号：扫描其相邻点，如果在其相邻点中存在已被分配有类别标号的点，则将所述相邻点的类别标号中最小的值分配给该候选点的类别标号；如果其相邻点中不存在已被分配有类别标号的点，则使类别标号值递增1，并将该新的类别标号值分配给该候选点的类别标号。

最后，在步骤S204，识别输入图像中的封闭区域，将具有相同类别标号值的候选点识别为属于同一个区域。

图3示出了根据本发明实施例的二值化过程300的流程图。首先，在步骤S301，扫描输入图像的每一个点。

接下来在步骤S302，针对输入图像中的每一个像素，估计多个信道值的方差。然后在步骤S303，进行方差判断，以设置二值化图像中对应点的值。最后在步骤S304，输出得到的二值化图像。

例如，如果点p处的方差大于阈值，则认为点p是高光点，并且将二值化图像中点p处的值设置为1。否则，将二值化图像中点p处的值设置为0。特别地，还可以指定某种特定颜色C。在这种情况下，如果高光点p’的标准方差在特定范围内，则将二值化图像中点p’处的值设置为1。否则，将二值化图像中点p’处的值设置为0。该二值化过程可以直接作用于彩色图像，并且与传统方法不同。在传统方法中，在进行二值化之前需要将彩色图像改变为灰度图。此外，根据本发明的实施例，如果输入图像具有彩色背景，则如果所标记的颜色C与背景的颜色不同，则同样可以提取所标记的像素并进行二值化。

图4示出了根据本发明实施例的类别标号设置过程的流程图。

在步骤S401，创建索引矩阵A并对索引矩阵A进行初始化。索引矩阵A用于存储输入图像中每一个点的类标的索引值。因此，A具有与输入图像相同的大小。然后，扫描二值化图像。如果一个点是前景点，则将其对应的索引矩阵A中的索引值设置为-1。如果一个点是背景点且其在候选区域内，即其在所在行(或所在列)的第一个前景点和最后一个前经典之间，则将其对应的索引矩阵A中的索引值设置为-2。否则，针对在候选区域之外的背景点，将其索引值设置为0。

接下来，在步骤S402，创建类别矩阵B以存储对应点的类别。类别矩阵B的构造原理如下：初始B只有一个元素，且其值为0，即B[0]=0；在算法运行过程中，如果创建了一个新的类别p，其父类别和根类别就是它自己，即B[p]=p；在之后的运算过程中如果发现，p类别的父类别是q，则将其值设为B[p]＝q。作为示例，例如B[0]=，B[1]=1，B[2]＝1，B[3]=2，那么3的父类别B[3]是2，2的父类别B[2]是1，1的父类别B[1]还是1(说明它是根类别或根节点)，这样2，3的根类别就是1。B的标号就是A中的索引值，但不包含(-1，-2)，其值就是对应标号的父类别。

在步骤S403，扫描索引矩阵A的每一行。如果其值为-2，表示其对应的点为背景点，则扫描其8个相邻点并选择值大于-1的相邻点。如果没有相邻点满足该条件，即没有相邻点的值大于-1，则在矩阵B中添加一个类别。否则，即被扫描的点的8个相邻点中存在值大于-1的相邻点，则选择值大于-1的相邻点，并从所选择的相邻点的根节点(即，类别)中选择最小值，并将索引矩阵A中的元素设置为该最小值。如果存在多个值大于-1的相邻点，则更新这些值在B中对应的值，将其对应的类别的值设为其中的最小值。这是因为它们属于同一个区域。

在步骤S404，更新矩阵B，用其根节点的值来设置每个元素的值。在步骤S405，更新矩阵A，针对大于-1的元素，用其根节点的值来设置它们的值。

在步骤S406，对输入图像的像素点进行分组，在A中对应的索引值具有相同值的像素点属于同一个区域。换言之，具有与不在候选区域内的背景点相同的索引值的点与这些背景点属于同一个区域，其他的区域即封闭区域。

具体地，类别标号设置算法的伪代码以下表示为如下：

当然，在上面所述的实施例中设置的-2、-1和0的值是示意性的。本领域技术人员根据其思想，可以设置其他适当的值。此外，在上面所述的实施例中，根据被扫描点的8个相邻点来设置其类别。本领域技术人员可以明了，可以使用其他数目的相邻点，例如16个。这取决于算法的处理能力和所需的处理效果。

图5示出了标记有一些封闭区域的常见页面的示例。根据本发明实施例的方法可以快速地且精确地提取这些区域。图6示出了根据图5所示的页面所确定的候选区域。图7示出了根据本发明的方法所获得的二值化图像。图8是根据本发明的方法所检测到的封闭区域。其中不同的封闭区域(即，具有不同的类别标号值的点)由不同的标记表示。

图9示出了根据本发明实施例的封闭区域识别方法可应用于的文档处理设备1000的框图。设备1000包括图像捕获系统1100和封闭区域提取系统1200。图像捕获系统1100可以是扫描仪、多功能打印机、摄像机等。图像捕获系统1100将实际文档扫描为数字格式，以获得输入图像。封闭区域提取系统1200对图像捕获系统所获得的输入图像执行根据本发明实施例的封闭区域提取方法，自动地从图像中提取或所标记的区域。在一个示例中，当用户在先前阅读文档时对其中的重点部分进行标记，则在后来希望提取所标记部分的文本时，其可以将标记了的文档放入文档处理设备1000，由图像捕获系统1100将其扫描为数字格式，然后由封闭区域提取系统1200提取其中的封闭区域，即所标记的区域，最后，可以对所标记的区域进行文本识别，从而企图所标记部分的文本。在另一个示例中，用户可以在阅读文档时标记非重点部分。这样，在提取了封闭区域之后，可以擦除所识别的封闭区域，从而仅剩下重点部分。

根据本发明实施例的封闭区域提供方法和设备可以应用于输入电子白板、平板PC、桌面PC、移动电话、PDA等具有文档和图像处理功能的电子设备中。当用户在这种电子设备上进行文档阅读时可以对文档进行标记，以突出重点区域，并在稍后需要时，通过应用根据本发明实施例的方法，识别出各个标记的区域。这样，用户可以在需要时仅阅读所标记的重点区域。

与现有技术不同，根据本发明实施例的封闭区域提取系统和方法在多个方面改善了封闭区域提取的性能。即使封闭区域彼此相连，根据本发明实施例的封闭区域提取系统和方法仍然可以提取所有封闭区域，并且精确地识别每一点是在封闭区域内还是在封闭区域外。

而且，根据本发明实施例的封闭区域提取系统和方法与线的宽度和线的形状无关。包围感兴趣区域的线可以是曲线、直线或任意形状。同样，对于线的宽度也没有限制。线可以是粗线或者细线。

此外，根据本发明实施例的封闭区域提取系统和方法对于封闭区域的形状没有限制。可检测的封闭区域可以是凸行或凹形。可检测的封闭区域也可以非常大，或者非常小。

这里所公开的本发明实施例的其他设置包括执行在先概述的方法实施例的步骤和操作的软件程序。更具体地，计算机程序产品是如下的一种实施例：具有计算机可读介质，计算机可读介质上编码有计算机程序逻辑，当在计算设备上执行时，计算机程序逻辑提供相关的操作，从而提供上述技术方案。当在计算系统的至少一个处理器上执行时，计算机程序逻辑使得处理器执行本发明实施例所述的操作(方法)。本发明的这种设置典型地提供为设置或编码在例如光介质(例如CD-ROM)、软盘或硬盘等的计算机可读介质上的软件、代码和／或其他数据结构、或者诸如一个或多个ROM或RAM或PROM芯片上的固件或微代码的其他介质、或专用集成电路(ASIC)、或一个或多个模块中的可下载的软件图像、共享数据库等。软件或固件或这种配置可安装在计算设备上，以使得计算设备中的一个或多个处理器执行本发明实施例所述的技术。结合诸如一组数据通信设备或其他实体中的计算设备进行操作的软件过程也可以提供根据本发明的设备。根据本发明的设备也可以分布在多个数据通信设备上的多个软件过程、或者在一组小型专用计算机上运行的所有软件过程、或者单个计算机上运行的所有软件过程之间。

应该理解，严格地讲，本发明的实施例可以实现为计算机设备上的软件程序、软件和硬件、或者单独的软件和／或单独的电路。

应当注意的是，在以上的描述中，仅以示例的方式，示出了本发明的技术方案，但并不意味着本发明局限于上述步骤和单元结构。在可能的情形下，可以根据需要对步骤和单元结构进行调整和取舍。因此，某些步骤和单元并非实施本发明的总体发明思想所必需的元素。因此，本发明所必需的技术特征仅受限于能够实现本发明的总体发明思想的最低要求，而不受以上具体实例的限制。

至此已经结合优选实施例对本发明进行了描述。应该理解，本领域技术人员在不脱离本发明的精神和范围的情况下，可以进行各种其它的改变、替换和添加。因此，本发明的范围不局限于上述特定实施例，而应由所附权利要求所限定。

Claims

1.一种封闭区域识别方法，包括：

对包含一个或更多个封闭区域的输入图像进行二值化，以获得二值化图像；

扫描二值化图像，针对每行和每列确定候选区域：行的起始点和结束点分别是该行的第一个前景点和最后一个前景点，列的起始点和结束点分别是该列的第一个前景点和最后一个前景点，在所述候选区域内的点被称为候选点；

依次扫描每个候选点，通过以下方式向每一个候选点附加类别标号：

扫描其相邻点，如果在其相邻点中存在已被分配有类别标号的点，则将所述相邻点的类别标号中最小的值分配给该候选点的类别标号；如果其相邻点中不存在已被分配有类别标号的点，则使类别标号值递增1，并将该新的类别标号值分配给该候选点的类别标号；以及

将具有相同类别标号值的候选点识别为属于同一个区域。

2.根据权利要求1所述的封闭区域识别方法，还包括：针对二值化图像中的所有点，初始化类别标号。

3.根据权利要求1所述的封闭区域识别方法，其中，将由具有相同类别标号值、且该类别标号值与不在候选区域内的点的类别标号值不同的候选点组成的区域识别为一个封闭区域。

4.根据权利要求1所述的封闭区域识别方法，其中，扫描其相邻点的步骤还包括：如果所述相邻点的类别标号值不同，则将所述相邻点中的类别标号中最小的值分配给这些类别标号。

5.根据权利要求1所述的封闭区域识别方法，其中，对输入图像进行二值化包括：

计算输入图像的每个像素点的多通道值的方差；

6.根据权利要求1所述的封闭区域识别方法，在进行二值化之后，还包括：

对二值化图像进行去噪。

7.根据权利要求6所述的封闭区域识别方法，其中，对二值化图像进行去噪包括：

根据已知的图像信息，对二值化图像进行去噪。

8.一种封闭区域识别设备，包括：

预处理单元，被配置为二值化包含一个或更多个封闭区域的输入图像，以获得二值化图像；

候选区域确定单元，被配置为扫描二值化图像，针对每行和每列确定候选区域：行的起始点和结束点分别是该行的第一个前景点和最后一个前景点，列的起始点和结束点分别是该列的第一个前景点和最后一个前景点，在所述候选区域内的点被称为候选点；

类别标号附加单元，被配置为依次扫描每个候选点，通过以下方式向每一个候选点附加类别标号：

区域分类单元，被配置为将具有相同类别标号值的候选点识别为属于同一个区域。

9.根据权利要求8所述的封闭区域识别设备，其中，所述类别标号附加单元被配置为在向每一个候选点附加类别标号之前，针对二值化图像中的所有点，初始化类别标号。

10.根据权利要求8所述的封闭区域识别设备，其中，所述区域分类单元被配置为将由具有相同类别标号值、且该类别标号值与不在候选区域内的点的类别标号值不同的候选点组成的区域识别为一个封闭区域。

11.根据权利要求8所述的封闭区域识别设备，其中，如果所述相邻点的类别标号值不同，则所述类别标号附加单元被配置为将所述相邻点中的类别标号中最小的值分配给这些类别标号。

12.根据权利要求8所述的封闭区域识别设备，其中，所述预处理单元被配置为：

计算输入图像的每个像素点的多通道值的方差；

13.根据权利要求8所述的封闭区域识别设备，其中，所述预处理单元还被配置为在进行二值化之后，对二值化图像进行去噪。

14.根据权利要求13所述的封闭区域识别设备，其中，所述预处理单元被配置为根据已知的图像信息，对二值化图像进行去噪。

15.一种文档处理设备，包括：

图像捕获系统，用于将文档转换为数字格式，以获得输入图像；以及

封闭区域提取系统，用于对所述输入图像执行根据权利要求1-7之一所述的方法，以提取所述输入图像中的封闭区域。