CN103839059A

CN103839059A - 用于提取文档图像中的文档边界的装置、方法及电子设备

Info

Publication number: CN103839059A
Application number: CN201210479419.0A
Authority: CN
Inventors: 谢术富; 何源; 孙俊
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2012-11-22
Filing date: 2012-11-22
Publication date: 2014-06-04
Anticipated expiration: 2032-11-22
Also published as: CN103839059B

Abstract

本发明提供了用于提取文档图像中的文档边界的装置、方法及电子设备，以克服现有的图像处理技术所提取的文档边界不准确的问题。上述装置包括：用于利用动态规划算法确定初始形状上每个形状点的最新位置的计算单元；以及用于获取文档边界的边界获取单元；其中，计算单元用于根据如下信息构建代价函数以实现动态规划算法：每个候选位置与其按照预定顺序的下一个邻近候选位置之间连线所包含的非边界点比例，以及每个候选位置与其按照预定顺序的后多个邻近候选位置同在一条直线上的程度。上述方法用于执行能够实现上述装置的功能的处理。电子设备包括上述装置。本发明的上述技术能够应用于图像处理领域。

Description

用于提取文档图像中的文档边界的装置、方法及电子设备

技术领域

本发明涉及图像处理领域，尤其涉及一种用于提取文档图像中的文档边界的装置、方法及电子设备。

背景技术

随着数字图像数目的急剧增长，图像处理逐渐成为一个热门且不可或缺的领域。数字图像一般是指通过例如数码相机、扫描仪等设备捕获的图像，也可以通过任意的非图像数据合成而得到，例如通过数学函数等。

通常，在扫描仪扫描或数码相机拍摄得到的文档图像中，由于文档的形状（如书比较厚）和扫描仪及照相机的安装配置等因素的影响，几何畸变常常存在于产生的图像中。因此，去除几何畸变对于提高文档的可读性以及后续处理（如文档结构分析，OCR）的性能有重要的作用。

目前，现有的图像处理技术通常是通过检测页边框（即，实际的内容区域）或文档边界、然后将曲面转换为平面的方法来去除几何畸变。然而，在实际应用中，文档内容的类型是多种多样的，甚至有的页面中只包含图像而不包含文字。在这种情况下，现有的这些图像处理技术是很难提取到文档的页边框的，从而导致其所获得的文档边界也是不准确的。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

鉴于此，本发明提供了一种用于提取文档图像中的文档边界的装置、方法及电子设备，以至少解决现有的图像处理技术所提取的文档边界不准确的问题。

根据本发明的一个方面，提供了一种用于提取文档图像中的文档边界的装置，该装置包括：计算单元，其被配置用于根据上述文档图像中的文档的参考点位置以及上述文档边界的初始形状，利用动态规划算法分别为上述初始形状上每个形状点在其各自的多个候选位置中确定最新位置；以及边界获取单元，其被配置用于根据上述每个形状点的最新位置来获取上述文档边界；其中，上述计算单元被配置用于根据如下信息构建代价函数以实现上述动态规划算法：每个候选位置与其按照预定顺序的下一个邻近候选位置之间连线所包含的非边界点比例，以及每个候选位置与其按照预定顺序的后多个邻近候选位置同在一条直线上的程度。

根据本发明的另一个方面，还提供了一种用于提取文档图像中的文档边界的方法，该方法包括：根据上述文档图像中的文档的参考点位置以及上述文档边界的初始形状，利用动态规划算法分别为上述初始形状上每个形状点在其各自的多个候选位置中确定最新位置，以获得上述文档边界；其中，上述动态规划算法利用根据如下信息所构建的代价函数来实现：每个候选位置与其按照预定顺序的下一个邻近候选位置之间连线所包含的非边界点比例，以及每个候选位置与其按照预定顺序的后多个邻近候选位置同在一条直线上的程度。

根据本发明的另一个方面，还提供了一种电子设备，该电子设备包括如上所述的用于提取文档图像中的文档边界的装置。

上述根据本发明实施例的用于提取文档图像中的文档边界的装置、方法及电子设备，能够获得至少以下益处之一：利用至少两种类型信息来构造代价函数，进而通过动态规划算法来获得文档边界的形状，能够提高文档边界的提取精度；通过首先利用粗边界修正文档边界的初始形状、然后再进行边界提取的方式来进一步提高边界提取的准确度；以及通过多项式曲线拟合技术来进一步去除噪声影响，以使得文档边界更加平滑、准确。

通过以下结合附图对本发明的最佳实施例的详细说明，本发明的这些以及其他优点将更加明显。

附图说明

本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分，而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中：

图1是示意性地示出根据本发明的实施例的用于提取文档图像中的文档边界的装置的一种示例结构的框图。

图2是示出如图1所示的计算单元的可能的示例结构的框图。

图3是示出利用扫描仪对文档进行扫描所得到的文档图像的一个示例的示意图。

图4是示出统计形状模型中的平均形状的一个示例的示意图。

图5是示出统计形状模型中的平均形状变换到文档图像中的一个示例的示意图。

图6A是图5中的部分边界附近的局部放大图。

图6B是示出利用粗边界对图6A中的形状点进行调整之后的结果的示意图。

图7是示出利用粗边界对图5中的形状点进行调整之后的结果的示意图。

图8是示出形状点的搜索方向的一个示例的示意图。

图9是示意性地示出根据本发明的实施例的用于提取文档图像中的文档边界的方法的一种示例性处理的流程图。

图10是示出可用来实现根据本发明的实施例的用于提取文档图像中的文档边界的装置和方法的一种可能的信息处理设备的硬件配置的结构简图。

本领域技术人员应当理解，附图中的元件仅仅是为了简单和清楚起见而示出的，而且不一定是按比例绘制的。例如，附图中某些元件的尺寸可能相对于其他元件放大了，以便有助于提高对本发明实施例的理解。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

本发明的实施例提供了一种用于提取文档图像中的文档边界的装置，该装置包括：计算单元，其被配置用于根据上述文档图像中的文档的参考点位置以及上述文档边界的初始形状，利用动态规划算法分别为上述初始形状上每个形状点在其各自的多个候选位置中确定最新位置；以及边界获取单元，其被配置用于根据上述每个形状点的最新位置来获取上述文档边界；其中，上述计算单元被配置用于根据如下信息构建代价函数以实现上述动态规划算法：每个候选位置与其按照预定顺序的下一个邻近候选位置之间连线所包含的非边界点比例，以及每个候选位置与其按照预定顺序的后多个邻近候选位置同在一条直线上的程度。

下面结合图1来详细描述根据本发明的实施例的用于提取文档图像中的文档边界的装置的一个示例。

如图1所示，根据本发明的实施例的用于提取文档图像中的文档边界的装置100包括计算单元110和边界获取单元120。

其中，在根据本发明的实施例的用于提取文档图像中的文档边界的装置的具体实现方式中，上述文档图像是指针对某个文档所捕获的图像，例如，可以是利用扫描仪对文档进行扫描所获得的图像，或者，也可以是通过拍摄文档所获得的图像，等等。

需要说明的是，在根据本发明的实施例的用于提取文档图像中的文档边界的装置的具体实现方式中，上述文档可以是打开的书籍、杂志，也可以是其他类型的文档，等等。

在已知上述文档图像中的文档的参考点位置以及已知上述文档边界的初始形状的情况下，计算单元110能够利用动态规划算法分别为上述初始形状上每个形状点在其各自的多个候选位置中确定最新位置。

其中，在一些实现方式中，上述“文档的参考点”可以包括文档的角点。此外，在其他一些实现方式中，上述“文档的参考点”也可以包括其他类型的参考点，例如文档的中心点等。下面结合图2来描述文档图像和文档的参考点的一个可能的示例。

在如图2所示的示例中，文档D_OC为打开的书籍。其中，在该示例中，文档D_OC的参考点包括6个角点，分别是4个页角点C₁、C₃、C₄和C₆以及2个书脊线角点C₂和C₅。

需要说明的是，上述文档的参考点可以预先确定，例如，可以根据文档的实际待提取的边界确定。

在一个例子中，当待提取的边界是诸如图2所示的文档D_OC的上、下边界时，也即，所要提取的上边界包括C₁和C₂之间的边界S₁₁以及C₂和C₃之间的边界S₁₂，所要提取的下边界包括C₆和C₅之间的边界S₂₁以及C₅和C₄之间的边界S₂₂，文档的参考点可以选取如图2所示的C₁~C₆这6个角点（即这6个角点的位置是已知的）。

在其他例子中，若待提取的边界只包含如图2所示的上、下边界中的部分，则文档的参考点也可以相应地选择上述6个角点中的部分角点。例如，假设待提取的边界只包括诸如图2所示的边界S₁₁，则文档的参考点可以选取C₁和C₂这两个角点。类似地，可以针对不同情况下的待提取的边界来确定文档的参考点的选取，这里不再赘述。

此外，需要说明的是，上述文档边界的初始形状包括用于表示待提取的上述文档边界的多个形状点，可以预先确定或获得。下文中，将在结合图4~图7所描述的示例中给出文档边界的初始形状的示例性描述。

根据以上描述可知，上述初始形状上的每个形状点各自分别具有多个候选位置（即多个候选点）。通过动态规划算法，计算单元110可以在上述每个形状点的多个候选位置中各选择一个位置来作为对应的形状点的最新位置。

通常，可以通过构造代价函数以及求解所构造的代价函数的方法来实现动态规划算法。

在根据本发明的实施例的用于提取文档图像中的文档边界的装置的一个实现方式中，计算单元110可以利用如下信息来构造用于实现动态规划算法的代价函数：每个候选位置与其按照预定顺序的下一个邻近候选位置之间连线所包含的非边界点的比例（以下简称“第一类信息”）；每个候选位置与其按照预定顺序的后多个邻近候选位置同在一条直线上的程度（以下简称“第二类信息”）。

在一个例子中，根据如上所述的第一类信息和第二类信息，计算单元110可以构造获得如表达式一所描述的代价函数：

表达式一：

E (p_{0}, p_{1}, . . ., p_{t}) = w_{edge} \cdot Σ_{i = 0}^{t - 1} Edge (p_{i}, p_{i + 1}) + w_{line} \cdot Σ_{i = 0}^{t - k} Line (p_{i}, p_{i + 1}, . . ., p_{i + k})

在表达式一中，p_i表示第i个形状点的候选位置，其中，上述初始形状上的形状点共有t+1个；为由上述第一类信息表示的代价项（表示对两点是否位于文档边界上的度量），其中，#{non-edge pixels}表示p_i和p_i+1所在直线的预定宽度邻域内所包含的非边界像素点数量，#{all pixels}表示p_i和p_i+1所在直线的预定宽度邻域内所包含的所有像素点数量；

为由上述第二类信息表示的代价项（表示对这k+1个点共线性的代价度量，例如，k可以为3，也可以为其他大于3小于t的整数），其中，

d_i+j表示p_i+j到p_i和p_i+k所在直线的距离；此外，w_edge为

的权重，w_line为

的权重，其可以经验来设定，也可以通过试验的方式来确定。

需要注意的是，在表达式一中，i是用于表示形状点序数的参数，但本领域的技术人员都知道，在求和运算中，i的取值是可以不同的。例如，在表达式一的

这一项中，i的取值范围是0,1,2,…,t-1；而在表达式一的这一项中，i的取值范围则是0,1,2,…,t-k。

下面结合图3来描述计算单元110的一个示例。

如图3所示，在根据本发明的实施例的用于提取文档图像中的文档边界的装置的一个实现方式中，计算单元110可以包括ASM计算子单元310和初始形状获得子单元320。

在一个实现方式中，ASM计算子单元310可以利用主动形状模型（Active Shape Model，ASM）方法来获得用于描述文档边界的平均形状以及形状的变化模式的统计形状模型，以及获得用于描述文档边界形状中的每个形状点的像素特征的剖面模型。需要说明的是，对于本领域的技术人员来说，ASM方法的具体处理和过程可以根据公知常识和/或公开资料所获知，这里省略其详细描述。

此外，需要说明的是，ASM计算子单元310利用ASM方法所获得的统计形状模型中的平均形状包括多个形状点和多个参考点，其中，平均形状上的多个参考点与文档的多个参考点分别相对应。在一些实现方式中，平均形状上的参考点也可以是文档角点。

此外，在一个实现方式中，在确定了平均形状上的多个参考点的位置的情况下，可以基于平均形状上的多个参考点的位置来进一步确定平均形状上的多个形状点的位置，例如，可以在相邻的参考点之间按照设定的间隔来确定对应的各个形状点的位置。

图4示出了上述平均形状的一个示例。如图4所示，平均形状S_o上共包含6个参考点C₁₀、C₂₀、C₃₀、C₄₀、C₅₀和C₆₀，其中，C₁₀~C₆₀分别对应如图2所示的文档D_OC的6个参考点C₁~C₆。此外，平均形状S_o上还包括C₁₀与C₂₀之间的x个（在图4中x为5，也可以为其他数量）形状点，以及C₂₀与C₃₀之间、C₄₀与C₅₀之间、C₅₀与C₆₀之间的3x个形状点。

由此，初始形状获得子单元320可以根据上述平均形状的参考点与文档图像中的参考点的对应关系，将上述平均形状变换到文档图像中，以获得待提取的文档边界的初始形状。

下面举例来描述将上述平均形状变换到文档图像中的一个示例处理。假设上述统计形状模型中的平均形状如图4所示。

平均形状S_o中的6个参考点C₁₀、C₂₀、C₃₀、C₄₀、C₅₀和C₆₀（在该示例中为文档角点）分别对应于C₁、C₂、C₃、C₄、C₅和C₆。假设如图2所示的文档的6个参考点（角点）C₁、C₂、C₃、C₄、C₅和C₆的坐标分别是（X₀,Y₀）、（X₁,Y₁）、（X₂,Y₂）、（X₃,Y₃）、（X₄,Y₄）和（X₅,Y₅），可以用x=(x₀,y₀，...,x₅,y₅)来表示C₁~C₆的坐标（已知量）。类似地，平均形状中的六个角点坐标假设可以用

来表示（已知量）。于是，根据x=(x₀,y₀，...,x₅,y₅)与这两个量，可以利用表达式二来计算

变换到上述文档图像上的仿射变换参数：

表达式二：

[\begin{matrix} x \\ 1 \end{matrix}] = [\begin{matrix} s_{x} \cos θ & - s_{y} \sin θ & t_{x} \\ s_{x} \sin θ & s_{y} \cos θ & t_{y} \\ 0 & 0 & 1 \end{matrix}] \cdot [\begin{matrix} \overset{&OverBar;}{x} \\ 1 \end{matrix}]

其中，s_x和s_y分别表示沿x和y方向的尺度变换参数，θ表示旋转角度，t_x和t_y分别表示沿x和y方向的平移参数。根据上述仿射变换参数，则可以得到平均形状

变换后的形状

并且可以将形状

作为待提取的文档边界的初始形状（这里省略了

的具体表达形式）。

通过上文描述可知，在一个例子中，计算单元110可以根据上述第一和第二类信息来构造如表达式一所示的代价函数。在另一个例子中，计算单元110也可以根据上述第一和第二类信息以及以下将要描述的第三类信息来构建代价函数。

其中，上述第三类信息为：每个候选位置对应的像素特征与该候选位置的剖面模型之间的距离。

在该实现方式的一个例子中，计算单元110根据上述第一、第二和第三类信息所构造的代价函数如下：

表达式三：

E (p_{0}, p_{1}, . . ., p_{t})

= w_{edge} \cdot Σ_{i = 0}^{t - 1} Edge (p_{i}, p_{i + 1}) + w_{line} \cdot Σ_{i = 0}^{t - k} Line (p_{i}, p_{i + 1}, . . ., p_{i + k}) + w_{dist} \cdot Σ_{i = 0}^{t} f (p_{i})

其中，f(p_i)表示p_i的当前位置的像素特征与p_i对应的剖面模型（如局部纹理模型）之间的相似程度（例如可以采用马氏距离作为度量），w_dist为

的权重（可以经验来设定，也可以通过试验的方式来确定），其余参数的含义与表达式一中相同，这里不再赘述。其中，“与p_i对应的剖面模型”是指平均形状上与p_i对应的形状点所对应的剖面模型。

需要注意的是，在表达式三的

这一项中，i的取值范围是0,1,2,…,t。

然而，在一些例子中，变换后的形状

可能并未位于文档的边界上。在一些实现方式中，可以通过首先提取粗边界、然后利用粗边界来调整变换后的形状

的方法来使变换后的形状尽可能地位于文档的边界上。下面将结合图5~图7来描述包括上述粗边界提取过程的一个示例。

在该示例中，初始形状获得子单元320在将平均形状

变换到文档图像中、得到变换后的形状

之后（如图5所示），还可以在文档图像中获得与文档图像中的多个参考点有关的粗边界，然后，将变换后的平均形状中的每个形状点更新为粗边界上与该形状点距离最小的边界点，并由此获得文档边界的初始形状。

在一个实现方式中，可以按照如下将要描述的方式来获得上述粗边界。

首先，计算上述文档图像的梯度图像，并将其转换为二值图像M(.)：将梯度值超过设定阈值的像素设置为0，以及将梯度值低于设定阈值的像素设置为255。

在位于二值图像上部的参考点之间的每列像素点中，将满足以下条件的像素点确定为粗边界点：该像素点自身的亮度值为0，该像素点的上方相邻像素点的亮度值为255，以及该像素点的下方相邻像素点的亮度值为0。例如，对于上边界，在每列像素中自上而下检测到第一个满足如下条件的像素点作为上边界像素：

表达式四：

\{\begin{matrix} M (i^{'}, j^{'}) = 0 \\ M (i^{'} + 1, j^{'}) = 0 \\ M (i^{'} - 1, j^{'}) = 255 \end{matrix}

其中，“0”表示前景像素（具有比较大的梯度值），“255”表示背景像素（具有比较小的梯度值），i'和j'分别表示像素的行和列。这样，得到的所有上边界像素即组成了上述上边界。

类似地，在位于二值图像下半部的参考点之间的每列像素点中，将满足以下条件的像素点确定为粗边界点：该像素点自身的亮度值为0，该像素点的上方相邻像素点的亮度值为0，以及该像素点的下方相邻像素点的亮度值为255。例如，对于下边界，在每列像素中自下而上检测第一个满足如下条件的像素点作为下边界像素：

表达式五：

\{\begin{matrix} M (i^{'}, j^{'}) = 0 \\ M (i^{'} + 1, j^{'}) = 255 \\ M (i^{'} - 1, j^{'}) = 0 \end{matrix}

这样，得到的所有上边界像素即组成了上述下边界。需要说明的是，此时所得到的上边界和下边界均是指粗边界。

然后，可以按照如下的方法来用上述粗边界调整变换后的形状

例如，在得到文档的粗边界之后，对于形状

中的任一个形状点，可以计算该形状点与其对应的上边界或下边界上的每个点的距离，并将该形状点更新为与该形状点之间距离最小的那个上边界点或下边界点。类似地，可以将形状

中的每个形状点都更新为与其距离最小的上边界点或下边界点，从而完成对形状的更新，并将更新后的形状

作为待提取的文档边界的初始形状。

图6A为图5中的部分边界附近的局部放大图。如图6A中所示，q₁至q₅为变换后的形状

上的5个形状点，图6A中的虚线部分为文档角点C₅和C₆之间所检测到的粗边界（左下边界，即下边界的左半部分）。通过计算可知，该粗边界上距离q₁最近的点为p1（图6A中未示出），距离q₂最近的点为p₂，……，依此类推，由此，可以将形状点q₁至q₅依次更新为p₁至p₅，更新后的形状点如图6B所示。

通过上述操作，变换后的形状点都将位于文档的上边界或下边界上。图7示出了将图5中的形状点经过更新后的结果。

需要说明的是，在上述结合图5~图7所描述的示例中，计算单元110中可以不只包括上述ASM计算子单元310和初始形状获得子单元320，还可以包括用于实现其他功能（例如获得粗边界；利用粗边界调整变换后的形状；以及为初始形状上每个形状点在其各自的多个候选位置中确定最新位置；等等）的子单元，这里不再详述。

此外，在根据本发明的实施例的用于提取文档图像中的文档边界的装置的一个实现方式中，在获得文档边界的初始形状（例如变换后的形状

或者利用粗边界对形状

进行调整之后的形状等）之后，计算单元110可以利用动态规划算法来为上述初始形状上每个形状点在其各自的多个候选位置中确定最新位置，也即，进一步修正上述初始形状。例如，计算单元110可以基于文档边界的初始形状、通过如下迭代计算来修正该初始形状，直至修正后的形状不再发生变化为止：根据剖面模型获得初始形状中每个形状点的多个候选位置，并利用动态规划算法为上述每个形状点在其多个候选位置中选择最新位置以产生新的形状；以及根据统计形状模型对新的形状进行约束，使得约束后的形状符合统计形状模型的特点，并将约束后产生的形状作为下一次迭代的初始形状。

下面结合图8来描述上述迭代计算的一个示例。

根据文档边界的初始形状，计算单元110在初始形状的每个形状点附近进行相应地搜索，以获得初始形状上每个形状点的多个候选位置。例如，针对每个形状点来说，计算单元110可以将该点与下个邻近的形状点之间连线的垂线方向作为该点的搜索方向。

如图8所示，p_i、p_i+1和p_i+2为三个相邻的形状点，p_i对应的搜索方向可以为p_i p_i+1连线的法线方向，p_i+1的搜索方向可以为p_i+1p_i+2连线的法线方向。点p_i的搜索方向d_i可以根据表达式六获得，其中，k_i为连接点p_i和p_i+1的直线的斜率：

表达式六：

d_i＊k_i=-1

对形状点p_i，沿方向d_i在其两侧采样M（例如M为6）个像素点p_i，j(j=0,…,M-1)，假设像素点p_i，j的特征用g_i，j表示，则像素点p_i，j的马氏距离可根据下式获得：

f (g_{i, j}) = {(g_{i, j} - \overset{&OverBar;}{g})}^{T} S_{g}^{- 1} (g_{i, j} - \overset{&OverBar;}{g})

其中，

和S_g分别为像素点p_i，j对应的平均形状中的形状点的归一化灰度梯度的特征均值和协方差矩阵（可参考以下文献：TF Cootes and CJTaylor，“Statistical models of appearance for medical image analysis andcomputer vision,”Proceedings of SPIE Medical Imaging,2001）。

对于每个形状点p_i，将其对应的M个像素点按照它们的距离f(g_i，j)进行排序，选择出前k个距离最小的像素点，并将这k个像素点的位置作为形状点p_i的k个候选位置。

为了从候选位置中选择合适的位置（像素点），可以利用动态规划算法来选择具有最小代价的位置。这里对四条边界（左上，右上，左下及右下）分别选择出候选位置（候选像素点）。代价函数可以采用如上的表达式三。

需要注意的是，在表达式三中，各个代价度量的范围是不同的。因此，在融合这三部分代价的时候，需要对每个代价度量根据其值域的范围进行归一化之后再融合。根据设定的代价函数，利用标准的动态规划算法可以选择出每个形状点的候选点（候选位置），从而得到文档边界的整体形状。

然后，通过利用与ASM算法相同的形状约束方法来对得到的文档边界的整体形状进行形状约束，以保证得到合理的文档边界形状。由此，从上文所述的获得每个形状点的候选位置的步骤直到上述进行形状约束的步骤，完成了一次迭代过程。重复进行迭代，直至两次迭代产生的形状之差小于预定阈值（可以根据经验值设定，也可以通过试验的方法来确定）为止。

通过以上描述可知，通过计算单元110的处理，可以得到文档边界的初始形状上每个形状点的最新位置，由此，边界获取单元120可以根据这些形状点的最新位置来获取文档边界。

在根据本发明的实施例的用于提取文档图像中的文档边界的装置的一个实现方式中，边界获取单元120可以按照如下方式来获得上述文档边界：针对每相邻两个形状点，根据这两个形状点的最新位置之间的连线来确定对应的搜索区域，并为上述连线上的每点确定边界点；以及根据确定的边界点得到上述文档边界，并利用曲线拟合算法对上述文档边界的相邻参考点之间的部分进行平滑，将经过平滑处理后的文档边界作为最终获得的文档边界。

例如，当上述两次迭代产生的形状之差小于预定阈值时，可以开始进行边界提取。根据检测到的文档边界形状，连接相邻的每两个形状点各得到一条直线段；对位于每个直线段上的每个位置，在直线两侧搜索梯度值大于设定阈值的像素点作为该位置的文档边界位置。通过对相邻的形状点重复该过程，可以得到文档的边界。此外，可以利用多项式曲线拟合技术来拟合每条边界（左上边界，右上边界，左下边界，右下边界），以进一步去除噪声点的影响，得到平滑的文档边界。

通过以上描述可知，上述根据本发明的实施例的用于提取文档图像中的文档边界的装置利用至少两种类型信息来构造代价函数，进而通过动态规划算法来获得文档边界的形状，能够提高文档边界的提取精度，解决了现有的图像处理技术所提取的文档边界不准确的问题。在一些实施例中，上述用于提取文档图像中的文档边界的装置还可以通过首先利用粗边界修正文档边界的初始形状、然后再进行边界提取的方式来进一步提高边界提取的准确度。此外，在其他一些实施例中，上述用于提取文档图像中的文档边界的装置还能够通过多项式曲线拟合技术来进一步去除噪声影响，以使得文档边界更加平滑、准确。

此外，本发明的实施例还提供了一种用于提取文档图像中的文档边界的方法，该方法包括：根据上述文档图像中的文档的参考点位置以及上述文档边界的初始形状，利用动态规划算法分别为上述初始形状上每个形状点在其各自的多个候选位置中确定最新位置，以获得上述文档边界；其中，上述动态规划算法利用根据如下信息所构建的代价函数来实现：每个候选位置与其按照预定顺序的下一个邻近候选位置之间连线所包含的非边界点比例，以及每个候选位置与其按照预定顺序的后多个邻近候选位置同在一条直线上的程度。

下面结合图9来描述上述用于提取文档图像中的文档边界的方法的一种示例性处理。

如图9所示，根据本发明的实施例的用于提取文档图像中的文档边界的方法的处理流程900开始于步骤S910，然后执行步骤S920。

在步骤S920中，根据文档图像中的文档的参考点位置以及文档边界的初始形状，利用动态规划算法分别为初始形状上每个形状点在其各自的多个候选位置中确定最新位置。然后执行步骤S930。其中，步骤S920中所执行的处理例如可以与上文中结合图1所描述的计算单元110的处理相同，并能够达到类似的技术效果，在此不再赘述。

其中，动态规划算法例如可以利用根据上文所述的第一类和第二类信息所构造的代价函数来实现，所构造的代价函数如上文所述的表达式一所示，这里不再赘述。

此外，在另一个实现方式中，步骤S920中还可以包括如上文结合图3所描述的ASM计算子单元310和初始形状获得子单元320的处理，以通过ASM方法获得文档边界的初始形状。这样，在一个例子中，代价函数还可以根据上文所述的第一类、第二类和第三类信息来构造获得，所构造的代价函数可以如上文所述的表达式三所示，这里不再赘述。

在步骤S930中，根据所确定的初始形状上每个形状点的最新位置，获取文档边界。然后执行步骤S940。其中，步骤S930中所执行的处理例如可以与上文中结合图1所描述的边界获取单元120的处理相同，并能够达到类似的技术效果，在此不再赘述。

处理流程900结束于步骤S940。

通过以上描述可知，上述根据本发明的实施例的用于提取文档图像中的文档边界的方法利用至少两种类型信息来构造代价函数，进而通过动态规划算法来获得文档边界的形状，能够提高文档边界的提取精度，解决了现有的图像处理技术所提取的文档边界不准确的问题。在一些实施例中，上述用于提取文档图像中的文档边界的方法还可以通过首先利用粗边界修正文档边界的初始形状、然后再进行边界提取的方式来进一步提高边界提取的准确度。此外，在其他一些实施例中，上述用于提取文档图像中的文档边界的方法还能够通过多项式曲线拟合技术来进一步去除噪声影响，以使得文档边界更加平滑、准确。

此外，本发明的实施例还提供了一种电子设备，该电子设备包括如上所述的用于提取文档图像中的文档边界的装置。在根据本发明的实施例的上述电子设备的具体实现方式中，上述电子设备可以是以下设备中的任意一种设备：计算机；平板电脑；个人数字助理；多媒体播放设备；手机以及电纸书等等。其中，该电子设备具有上述用于提取文档图像中的文档边界的装置的各种功能和技术效果，这里不再赘述。

上述根据本发明的实施例的用于提取文档图像中的文档边界的装置中的各个组成单元、子单元、模块等可以通过软件、固件、硬件或其任意组合的方式进行配置。在通过软件或固件实现的情况下，可从存储介质或网络向具有专用硬件结构的机器（例如图10所示的通用机器1000）安装构成该软件或固件的程序，该机器在安装有各种程序时，能够执行上述各组成单元、子单元的各种功能。

图10是示出了可用来实现根据本发明的实施例的用于提取文档图像中的文档边界的装置和方法的一种可能的信息处理设备的硬件配置的结构简图。

在图10中，中央处理单元(CPU)1001根据只读存储器(ROM)1002中存储的程序或从存储部分1008加载到随机存取存储器(RAM)1003的程序执行各种处理。在RAM 1003中，还根据需要存储当CPU 1001执行各种处理等等时所需的数据。CPU 1001、ROM 1002和RAM 1003经由总线1004彼此连接。输入/输出接口1005也连接到总线1004。

下述部件也连接到输入/输出接口1005：输入部分1006（包括键盘、鼠标等等）、输出部分1007（包括显示器，例如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等）、存储部分1008（包括硬盘等）、通信部分1009（包括网络接口卡例如LAN卡、调制解调器等）。通信部分1009经由网络例如因特网执行通信处理。根据需要，驱动器1010也可连接到输入/输出接口1005。可拆卸介质1011例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器1010上，使得从中读出的计算机程序可根据需要被安装到存储部分1008中。

在通过软件实现上述系列处理的情况下，可以从网络例如因特网或从存储介质例如可拆卸介质1011安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图10所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1011。可拆卸介质1011的例子包含磁盘(包含软盘)、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘（包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 1002、存储部分1008中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

此外，本发明还提出了一种存储有机器可读取的指令代码的程序产品。上述指令代码由机器读取并执行时，可执行上述根据本发明的实施例的用于提取文档图像中的文档边界的方法。相应地，用于承载这种程序产品的例如磁盘、光盘、磁光盘、半导体存储器等的各种存储介质也包括在本发明的公开中。

在上面对本发明具体实施例的描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

此外，本发明的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行，也可以按照其他的时间顺序、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

此外，显然，根据本发明的上述方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。

而且，本发明的目的也可以通过下述方式实现：将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备，并且该系统或设备中的计算机或者中央处理单元（CPU）读出并执行上述程序代码。

此时，只要该系统或者设备具有执行程序的功能，则本发明的实施方式不局限于程序，并且该程序也可以是任意的形式，例如，目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。

上述这些机器可读存储介质包括但不限于：各种存储器和存储单元，半导体设备，磁盘单元例如光、磁和磁光盘，以及其它适于存储信息的介质等。

另外，客户计算机通过连接到因特网上的相应网站，并且将依据本发明的计算机程序代码下载和安装到计算机中然后执行该程序，也可以实现本发明。

最后，还需要说明的是，在本文中，诸如左和右、第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

综上，在根据本发明的实施例中，本发明提供了如下方案但不限于此：

附记1.一种用于提取文档图像中的文档边界的装置，包括：

计算单元，其被配置用于根据所述文档图像中的文档的参考点位置以及所述文档边界的初始形状，利用动态规划算法分别为所述初始形状上每个形状点在其各自的多个候选位置中确定最新位置；以及

边界获取单元，其被配置用于根据所述每个形状点的最新位置来获取所述文档边界；

其中，所述计算单元被配置用于根据如下信息构建代价函数以实现所述动态规划算法：

每个候选位置与其按照预定顺序的下一个邻近候选位置之间连线所包含的非边界点比例，以及

每个候选位置与其按照预定顺序的后多个邻近候选位置同在一条直线上的程度。

附记2.根据附记1所述的用于提取文档图像中的文档边界的装置，其中，所述代价函数为：

E (p_{0}, p_{1}, . . ., p_{t}) = w_{edge} \cdot Σ_{i = 0}^{t - 1} Edge (p_{i}, p_{i + 1}) + w_{line} \cdot Σ_{i = 0}^{t - k} Line (p_{i}, p_{i + 1}, . . ., p_{i + k})

其中，p_i表示第i个形状点的候选位置，其中，所述初始形状上的形状点共有t+1个；

#{non-edge pixels}表示p_i和p_i+1所在直线的预定宽度邻域内所包含的非边界像素点数量，#{all pixels}表示p_i和p_i+1所在直线的预定宽度邻域内所包含的所有像素点数量；

d_i+j表示p_i+j到p_i和p_i+k所在直线的距离；以及w_edge为

的权重，w_line为

Σ_{i = 0}^{t - k} Line (p_{i}, p_{i + 1}, \cdot \cdot \cdot, p_{i + k})

的权重。

附记3.根据附记1或2所述的用于提取文档图像中的文档边界的装置，所述计算单元包括：

ASM计算子单元，其被配置用于利用主动形状模型（ASM）方法获得用于描述文档边界的平均形状以及形状的变化模式的统计形状模型、以及用于描述文档边界形状中的形状点的像素特征的剖面模型，其中，所述文档边界的平均形状包括多个形状点和多个参考点；以及

初始形状获得子单元，其被配置用于根据所述统计形状模型中平均形状的参考点与所述文档图像中的参考点的对应关系，将所述平均形状变换到所述文档图像中，以获得所述文档边界的初始形状。

附记4.根据附记3所述的用于提取文档图像中的文档边界的装置，其中，所述计算单元还被配置用于根据如下信息来构建所述代价函数：

每个候选位置对应的像素特征与该候选位置的剖面模型之间的距离。

附记5.根据附记4所述的用于提取文档图像中的文档边界的装置，其中，所述代价函数为：

E (p_{0}, p_{1}, . . ., p_{t})

= w_{edge} \cdot Σ_{i = 0}^{t - 1} Edge (p_{i}, p_{i + 1}) + w_{line} \cdot Σ_{i = 0}^{t - k} Line (p_{i}, p_{i + 1}, . . ., p_{i + k}) + w_{dist} \cdot Σ_{i = 0}^{t} f (p_{i});

附记6.根据附记4或5所述的用于提取文档图像中的文档边界的装置，其中，所述计算单元被配置用于：

基于所述初始形状，通过如下迭代计算来修正所述初始形状，直至修正后的形状不再发生变化为止：

根据所述剖面模型获得所述初始形状中每个形状点的多个候选位置，并利用动态规划算法为每个所述形状点在其多个候选位置中选择最新位置以产生新的形状；以及

根据所述统计形状模型，对所述新的形状进行约束，使得约束后的形状符合统计形状模型的特点，并将约束后产生的形状作为下一次迭代的初始形状。

附记7.根据附记3-6中任一所述的用于提取文档图像中的文档边界的装置，其中，所述初始形状获得子单元被配置用于：

在所述文档图像中获得与所述文档图像中的多个参考点有关的粗边界；以及

将变换后的平均形状中的形状点更新为所述粗边界上与其距离最小的边界点。

附记8.根据附记7所述的用于提取文档图像中的文档边界的装置，其中，所述初始形状获得子单元被配置用于：

计算所述文档图像的梯度图像，并获得所述梯度图像的二值图像：将梯度值超过设定阈值的像素设置为0，而梯度值低于设定阈值的像素设置为255；

在位于所述二值图像上部的参考点之间的每列像素点中，将满足以下条件的像素点确定为粗边界点：该像素点自身的亮度值为0，该像素点的上方相邻像素点的亮度值为255，以及该像素点的下方相邻像素点的亮度值为0；以及

在位于所述二值图像下半部的参考点之间的每列像素点中，将满足以下条件的像素点确定为粗边界点：该像素点自身的亮度值为0，该像素点的上方相邻像素点的亮度值为0，以及该像素点的下方相邻像素点的亮度值为255。

附记9.根据附记1-8中任一所述的用于提取文档图像中的文档边界的装置，其中，所述边界获取单元被配置用于：

针对每相邻两个形状点，根据该两个形状点的最新位置之间的连线来确定对应的搜索区域，并为所述连线上的每点确定边界点；以及

根据确定的边界点得到所述文档边界，并利用曲线拟合算法对所述文档边界的相邻参考点之间的部分进行平滑。

附记10.根据附记1-9中任一所述的用于提取文档图像中的文档边界的装置，其中，所述参考点为文档角点。

附记11.一种用于提取文档图像中的文档边界的方法，包括：

根据所述文档图像中的文档的参考点位置以及所述文档边界的初始形状，利用动态规划算法分别为所述初始形状上每个形状点在其各自的多个候选位置中确定最新位置，以获得所述文档边界；其中，所述动态规划算法利用根据如下信息所构建的代价函数来实现：

附记12.根据附记11所述的用于提取文档图像中的文档边界的方法，其中，所述代价函数为：

E (p_{0}, p_{1}, . . ., p_{t}) = w_{edge} \cdot Σ_{i = 0}^{t - 1} Edge (p_{i}, p_{i + 1}) + w_{line} \cdot Σ_{i = 0}^{t - k} Line (p_{i}, p_{i + 1}, . . ., p_{i + k})

其中，p_i表示第i个形状点的候选位置，其中，所述初始形状上的形状点共有t+1个；#{non-edge pixels}表示p_i和p_i+1所在直线的预定宽度邻域内所包含的非边界像素点数量，#{all pixels}表示p_i和p_i+1所在直线的预定宽度邻域内所包含的所有像素点数量；

d_i+j表示p_i+j到p_i和p_i+k所在直线的距离；以及w_edge为

的权重，w_line为

Σ_{i = 0}^{t - k} Line (p_{i}, p_{i + 1}, \cdot \cdot \cdot, p_{i + k})

的权重。

附记13.根据附记11或12所述的用于提取文档图像中的文档边界的方法，还包括：

利用主动形状模型方法获得用于描述文档边界的平均形状以及形状的变化模式的统计形状模型、以及用于描述文档边界形状中的形状点的像素特征的剖面模型，其中，所述文档边界的平均形状包括多个形状点和多个参考点；以及

根据所述统计形状模型中平均形状的参考点与所述文档图像中的参考点的对应关系，将所述平均形状变换到所述文档图像中，以获得所述文档边界的初始形状。

附记14.根据附记13所述的用于提取文档图像中的文档边界的方法，其中，所述代价函数还根据以下信息来构建：

附记15.根据附记14所述的用于提取文档图像中的文档边界的方法，其中，所述代价函数为：

E (p_{0}, p_{1}, . . ., p_{t})

= w_{edge} \cdot Σ_{i = 0}^{t - 1} Edge (p_{i}, p_{i + 1}) + w_{line} \cdot Σ_{i = 0}^{t - k} Line (p_{i}, p_{i + 1}, . . ., p_{i + k}) + w_{dist} \cdot Σ_{i = 0}^{t} f (p_{i});

其中，f(p_i)表示p_i的当前位置的像素特征与p_i对应的剖面模型之间的相似程度，w_dist为

的权重。

附记16.根据附记14或15所述的用于提取文档图像中的文档边界的方法，其中，所述利用动态规划算法分别为所述初始形状上每个形状点在其各自的多个候选位置中确定最新位置的步骤包括：

附记17.一种电子设备，包括如附记1-10中任一所述的用于提取文档图像中的文档边界的装置。

附记18.根据附记17所述的电子设备，其中，所述电子设备是以下设备中的任意一种：

计算机；平板电脑；个人数字助理；多媒体播放设备；手机以及电纸书。

附记19.一种存储有机器可读取的指令代码的程序产品，所述程序产品在执行时能够使所述机器执行根据附记11-16中任一所述的方法。

附记20.一种计算机可读存储介质，其上存储有根据附记19所述的程序产品。

Claims

1.一种用于提取文档图像中的文档边界的装置，包括：

2.根据权利要求1所述的用于提取文档图像中的文档边界的装置，其中，所述代价函数为：

E (p_{0}, p_{1}, . . ., p_{t}) = w_{edge} \cdot Σ_{i = 0}^{t - 1} Edge (p_{i}, p_{i + 1}) + w_{line} \cdot Σ_{i = 0}^{t - k} Line (p_{i}, p_{i + 1}, . . ., p_{i + k})

#{non-edge pixels}表示点p_i和点p_i+1所在直线的预定宽度邻域内所包含的非边界像素点数量，#{all pixels}表示p_i和p_i+1所在直线的预定宽度邻域内所包含的所有像素点数量；

p_i，…,p_i+k表示相邻的k+1个形状点；d_i+j表示点p_i+j到p_i和p_i+k所在直线的距离；以及w_edge为

的权重，w_line为

的权重。

3.根据权利要求1或2所述的用于提取文档图像中的文档边界的装置，所述计算单元包括：

4.根据权利要求3所述的用于提取文档图像中的文档边界的装置，其中，所述计算单元还被配置用于根据如下信息来构建所述代价函数：每个候选位置对应的像素特征与该候选位置的剖面模型之间的距离。

5.根据权利要求4所述的用于提取文档图像中的文档边界的装置，其中，所述代价函数为：

E (p_{0}, p_{1}, . . ., p_{t})

= w_{edge} \cdot Σ_{i = 0}^{t - 1} Edge (p_{i}, p_{i + 1}) + w_{line} \cdot Σ_{i = 0}^{t - k} Line (p_{i}, p_{i + 1}, . . ., p_{i + k}) + w_{dist} \cdot Σ_{i = 0}^{t} f (p_{i});

其中，f(p_i)表示p_i的当前位置的像素特征与其对应的剖面模型之间的相似程度，w_dist为

的权重。

6.根据权利要求4或5所述的用于提取文档图像中的文档边界的装置，其中，所述计算单元被配置用于：

根据所述剖面模型获得所述初始形状上每个形状点的多个候选位置，并利用动态规划算法为每个所述形状点在其多个候选位置中选择最新位置以产生新的形状；以及

7.根据权利要求3-6中任一所述的用于提取文档图像中的文档边界的装置，其中，所述初始形状获得子单元被配置用于：在所述文档图像中获得与所述文档图像中的多个参考点有关的粗边界；以及将变换后的平均形状中的形状点更新为所述粗边界上与其距离最小的边界点。

8.根据权利要求1-7中任一所述的用于提取文档图像中的文档边界的装置，其中，所述计算单元被配置用于：

9.一种用于提取文档图像中的文档边界的方法，包括：

10.一种电子设备，包括如权利要求1-8中任一所述的用于提取文档图像中的文档边界的装置。