CN106295484B

CN106295484B - 提取文档边界的方法和装置

Info

Publication number: CN106295484B
Application number: CN201510325050.1A
Authority: CN
Inventors: 汪留安; 范伟; 孙俊
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2015-06-12
Filing date: 2015-06-12
Publication date: 2019-11-22
Anticipated expiration: 2035-06-12
Also published as: CN106295484A

Abstract

本发明提供了一种提取文档边界的方法和装置。根据一个实施例的提取文档边界的方法包括：获取基准平面的深度；获取放置在基准平面上的文档的文档图像；获取文档图像的三维点的深度；基于基准平面的深度以及文档图像的三维点的深度在文档图像中提取文档的边界。根据本发明实施例的提取文档边界的方法和装置，可以利用基准平面和文档图像中的三维点的深度在文档图像中提取文档的边界，从而可以降低文档的内容对边界提取的影响。

Description

提取文档边界的方法和装置

技术领域

本发明涉及一种图像处理方法，更具体地，涉及一种基于二维(2D)图像中的三维(3D)信息提取文档边界的方法和装置。

背景技术

随着信息技术的发展和办公自动化的普及，越来越多的文档以图像格式进行存储。通常，通过诸如扫描仪或数字相机的获取单元来获取文档的图像。但是在文档图像中，背景区域的存在可能会降低用户的阅读体验。

此外，当通过扫描仪或者在更坏的情况下通过数字相机获取的文档图像中，通常图像存在畸变问题。文档图像的畸变对后续处理工作，如OCR识别、数字文档的版面分析以及文档自动化等都带来极大困难。

边缘检测是计算机视觉领域的一个非常重要的领域。对边缘的检测有助于分割和识别物体。通过检测并提取文档图像中文档的边界，可以将文档图像中的背景区域去除以提高用户的阅读体验。

现有的文档边界的提取方法主要关注于2D图像，或采用固定的假设模型。这些方法面临如下问题：文档的内容往往会影响边界提取性能，因此很难精确的提取文档的内边界；此外，很难使用模型的方法来描述文档边界。

发明内容

本发明的目的之一在于提供一种基于2D图像中的3D信息提取文档边界的方法及装置。

根据本发明的一个方面，一种提取文档边界的方法，包括：获取基准平面的深度；获取放置在基准平面上的文档的文档图像；获取文档图像的的三维点的深度；基于基准平面的深度以及文档图像的三维点的深度在文档图像中提取文档的边界。

根据本发明的另一个方面，还提供了一种用于在文档图像中提取文档边界的装置，包括：基准平面的深度获取单元，用于获取基准平面的深度；文档图像获取单元，用于获取放置在基准平面上的文档的文档图像；文档图像的三维点的深度获取单元，用于获取文档图像的三维点的深度；以及边界提取单元，用于基于基准平面的深度以及文档图像的三维点的深度在文档图像中提取文档的边界。

另外，根据本发明的又一方面，还提供了一种存储介质。上述存储介质包括机器可读的程序代码，当在信息处理设备上执行上述程序代码时，上述程序代码使得信息处理设备执行根据本发明的上述方法。

此外，根据本发明的再一方面，还提供了一种程序产品。上述程序产品包括机器可执行的指令，当在信息处理设备上执行上述指令时，使得上述信息处理设备执行根据本发明的上述方法。

根据本发明实施例的提取文档边界的方法和装置，可以利用基准平面和文档图像中的三维点的深度在文档图像中提取文档的边界，从而可以降低文档的内容对边界提取的影响。

通过以下结合附图对本发明的最佳实施例的详细说明，本发明的这些以及其它优点将更加明显。

附图说明

本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件，其中

图1示意性地示出了根据本发明的一个实施例的提取文档边界的流程图；

图2是具有三维点的文档图像；

图3示出了去除了背景区域的文档图像；

图4示意性地示出了根据本发明的一个实施例的提取文档外边界的流程图；

图5是基于多个候选边界点拟合出的外边界的示意图；

图6示意性地示出了根据本发明的一个实施例的提取文档内边界的流程图；

图7是基于候选边界点拟合出的内边界的示意图；

图8示意性地示出了根据本发明的一个实施例的提取书籍的书脊线的流程图；

图9是基于多个候选边界点拟合出的书脊线的示意图；

图10示意性地示出了根据本发明的一个实施例的提取文档下边界的流程图；

图11示例性的示出了掩模候选区域中的扫描线；

图12示意性地示出了根据本发明的一个实施例的提取文档边界的装置的框图；

图13是其中可以实现根据本发明的实施例的方法和/或装置的通用个人计算机的示例性结构的框图。

具体实施例

下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施例中描述的元素和特征可以与一个或更多个其它附图或实施例中示出的元素和特征相结合。应当注意，为了清楚的目的，附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。

本领域技术人员可以理解，本发明中使用的“上”、“下”、“内”、“外”等术语仅是为描述的方便，而不是对所涉及的特征的位置的具体限定。

本发明的发明人发现：在具有3D信息的2D文档图像中，利用在文档上的三维点的深度与基准平面的深度之间的差异提取文档的边界，可以更精确的提取文档的边界。

图1示意性地示出了根据本发明的一个实施例的提取文档边界的流程图，图2是具有三维点的文档图像。以下结合图1和图2来描述提取文档边界的具体过程。

提取文档边界的方法100从步骤S110开始，包括：步骤S130，获取基准平面的深度；步骤S150，获取放置在基准平面上的文档的文档图像；步骤S170，获取文档图像的三维点的深度；步骤S190，基于基准平面的深度以及文档图像的三维点的深度在文档图像中提取文档的边界。

在步骤S130中，由于基准平面存在一定的高度差异，因此，可以通过对基准平面进行扫描以获取基准平面的深度。例如可以采用扫描单元对基准平面进行扫描，并通过三维信息获取单元获取基准平面的深度。特别地，在本文中，所提及的深度均是相对于基准平面的。

可以在扫描单元的参考坐标系中定义沿x轴的采样频率和沿y轴采样频率，扫描单元以预定的x轴，y轴采样频率对基准平面进行扫描，这样就获取了多个基准平面的采样点的深度。基于所获取的基准平面的采样点的深度即可获取基准平面的平坦度水平。

通过对基准平面的扫描，可以降低基准平面的平坦度对文档边界的提取的影响。

在步骤S150中，例如可以通过图像采集单元获取放置在基准平面上的文档的文档图像。在采集到的图像中，针对待提取的文档边界，如图2所示，在与待识别的文档边界基本上平行的坐标轴为u轴(与x轴的方向基本上平行)，与待识别的文档边界基本上垂直的坐标轴为v轴(与y轴的方向基本上平行)，每个像素具有坐标(u，v)。

在步骤S170中，可以采用扫描单元对放置在基准平面上的文档进行扫描，并基于三维信息获取单元获取的采样点的三维信息(x，y，z)将采样点配准到文档图像中，以便获取与采样点对应的文档图像的三维点的深度。

在一种可能的示例中，沿一个坐标轴方向的采样频率可以不同于沿另一个坐标轴方向的采样频率，并且沿一个轴或两个轴的对文档的采样频率可以低于2D图像的分辨率。特别地，在本实施例中，如图2所示，针对待提取的文档边界，在与待识别的文档边界基本上垂直的坐标轴方向y上(v轴方向)的采样频率可以显著地高于另一个坐标轴方向x上(u轴方向)的采样频率，以便更精确地获取文档边界附近三维点的深度变化。

在给定x轴的采样频率以及y轴的采样频率的情况下，三维信息获取单元获取了采样点的三维信息，即获取了采样点的三维坐标(x，y，z)，其中z为采样点的深度。然后通过将采样点通过坐标变换配准到文档图像中，使得在2D文档图像中产生了与采样点对应的三维点，文档图像的三维点的坐标为(u，v，z)，其中u，v是与采样点对应的三维点在文档图像坐标系下的u轴和v轴坐标，z是与采样点对应的三维点的深度。

在本文中，将在文档图像中采样频率较高的方向上的采样点的连线称为扫描线。这样，通过配准在文档图像中形成了多条扫描线。

需要指出，在2D文档图像上配准三维点的方法是本领域技术人员公知的，更多地的细节在此不再赘述。

在文档图像上配准了三维点之后，可以利用这些三维点的深度与基准平面的深度之间的差异来提取文档边界。

在步骤S190中，考虑到文档上的三维点的深度显著大于在基准平面的深度，因此，可以利用检测深度幅值的变化来提取文档的边界。例如，针对每一条扫描线，可以逐点地确定该扫描线上相邻的三维点之间的深度差异，并且在确定的深度差异超过预定值的情况下，将相邻的三维点中深度较大的点作为文档边界的候选点，然后基于文档边界的候选点拟合出文档边界。

根据上述本发明实施例的提取文档边界的方法，通过利用在文档上的三维点的深度与基准平面的深度之间的差异来提取文档的边界，这样边界提取可以不受文档内容的影响，从而提高文档边界提取的精度。

在一个可能的示例中，可以在步骤S190之前具有一个对文档图像进行预处理的步骤。在预处理步骤中，由于对放置在基准平面上的文档的扫描采样区域的位置可以是已知的，可以通过在文档图像中去除扫描采样区域以外的背景区域来减少数据处理量。图3示出了去除了背景区域的文档图像。

以上结合图1-3描述了基于基准平面深度以及文档图像的三维点的深度提取文档边界的方法。然而，针对一些特定的文档，可能包括多个不同类型的边界。

例如，当文档图像中的文档是书籍时，如图3所示，针对书籍的页面，边界可以包括上边界，下边界，书脊线、外边界。其中，上边界和下边界与是与书脊线基本上垂直的书籍的边界，而外边界是与书脊线基本上平行的书籍的边界。此外，在展开的书籍较厚的情况下，在外边界的内侧还可能具有内边界。

在下文中，将以书籍为例，结合图4和5详细地说明对文档的不同的边界的提取。其中，图4示意性地示出了根据本发明的一个实施例的提取文档外边界的流程图。图5是基于多个候选边界点拟合出的外边界的示意图。

在本实施例中，可以利用基准平面以及文档图像的三维点的深度与深度阈值T的关系来提取文档的边界。例如，如上所述，通过对基准平面的扫描后，获取了多个基准平面的采样点的深度，这样，可以预先确定深度阈值T，使得预定比例(例如98％)的基准平面的采样点的深度小于预先确定深度阈值T。在确定了深度阈值T的情况下，当文档图像中的三维点的深度大于深度阈值T时，即可以判定该三维点可能在文档上而不在基准平面上。因此可以通过检测文档图像的三维点与深度阈值T的关系来提取文档的边界。

需要指出的是，对基准平面进行的扫描旨在获取基准平面的基础深度水平，因此，对基准平面的扫描采样频率(即获取的基准平面的采样点的数量)优选小于对文档的扫描采样频率。

在本实施例中，获取基准平面的深度、获取文档图像以及文档图像的三维点的步骤与上文所描述的方式类似，在此不再赘述。

如图4所示，提取文档的外边界的方法400包括如下步骤。

步骤S410，针对每一条扫描线，从文档图像的边缘开始，逐点地判定文档图像的三维点是否属于可能在文档上的三维点。

可以基于深度阈值T依据下面的公式(1)将文档图像中的三维点分为三类：当文档图像的三维点的深度小于阈值T时，判定该文档图像上的三维点属于在基准平面上的三维点；当文档图像的三维点的深度大于深度阈值T并且小于深度阈值T的预设倍数k时，判定文档图像上的三维点属于可能在文档上的三维点；当文档图像的三维点的深度大于深度阈值T的预设倍数k时，判定文档图像的三维点属于在文档上的三维点。

其中，f(u，v，x，y，z)表示文档图像的三维点的标记。其中，基准平面上的三维点的标记为0，可能在文档上的三维点的标记为1，而在文档上的三维点标记为2。k为文档3D计算系数。例如，当文档是书籍时，k可以取2.5。可以根据文档的类型或通过经验值来确定k的取值，在此不再赘述。

在依据深度阈值T对文档图像中的三维点进行了分类并获取了各类三维点的标记后，可以依据上述分类以及标记来提取文档的边界。

在文档图像的边缘处，识别出的文档图像的三维点基本上都属于基准平面上的三维点，而在文档边界附近区域中，有可能识别出可能在文档上的三维点。由于在扫描线的方向上，采样频率较高，即对深度变化的敏感度较高，因此可以基于文档图像中的三维点的类型变化来提取文档的边界。

在一个可能的示例中，上述对三维点类型的判定可以不从文档图像的边缘开始而是从扫描线上的某一位置开始。可以根据文档在文档图像中的位置来确定判定开始的位置。例如，本领域技术人员根据文档在文档图像中的位置能够确定，从每一条扫描线开始的前n个三维点均是在基准平面上的三维点，则上述逐点判定可以从每一条扫描线的第n+1个三维点开始。

步骤S430，当连续出现超过预定个数的可能在文档上的三维点时，将上述连续出现的可能在文档上的三维点中的任何一个作为每一条扫描线上的候选外边界点。

在本实施例中，预定的个数可以是2个。

优选地，可以将第一个出现的可能在文档上的三维点作为每一条扫描线上的候选外边界点。

步骤S450，基于从多条扫描线获取的候选外边界点拟合出文档的外边界。

如图5所示，其中加粗的三维点表示该扫描线上的候选外边界点，基于这些候选外边界点拟合出一条关于(u，v)的直线501，拟合出的直线501即是文档的外边界。

在一种可能的示例中，可以利用ransac方法对多个候选外边界点进行拟合。本领域技术人员应该知晓，基于确定的候选边界点拟合出边界的算法并不限于给出的ransac方法，任何能够从多个候选边界点去除异常的点得到文档边界的拟合算法均可以适用。

在提取了文档的外边界的情况下，可以利用所提取的外边界进一步提取文档的内边界。在下文中，结合图6和7详细地说明对文档内边界的提取。其中，图6示意性地示出了根据本发明的一个实施例的提取文档内边界的流程图；图7是基于候选边界点拟合出的内边界的示意图。

为了便于说明，在本实施例中，将扫描线分为三个区域，区域a对应于文档外边界与文档图像外边缘之间的区域，即基准平面对应的区域；区域b对应于文档外边界与文档内边界之间的区域，即文档边界对应的区域；区域c对应于从文档内边界开始向内的区域，即文档页面对应的区域。

考虑到内边界位于外边界的内侧，因此区域a中的三维点在本实施方式中不予考虑。如果以区域c中的三维点作为有效数据，而将区域b中的三维点作为异常数据拟合出一条直线。此时，如果逐点地计算扫描线上各个三维点(区域b、c中)相对于拟合出的直线的拟合误差，则区域b中的三维点的拟合误差应大于区域c中的三维点的拟合误差。

据此，如图6所示，提取文档的内边界的方法600包括如下步骤。

步骤S610，针对每一条扫描线，从与所提取的文档的外边界开始，选取预定数量的三维点。预定数量的设定使得在区域c中选取的三维点的个数大于在区域b中选取的三维点的个数。

步骤S630，利用所选取的预定数量的三维点拟合出一条直线。即，基于所选取的区域b、c中的三维点，拟合一条关于(y，z)的直线。可选但非限定地，可以利用ransac方法拟合上述关于(y，z)的直线。

步骤S650，基于拟合出的直线，从文档的外边界内侧的下一个三维点开始，逐点地获取相对于拟合出的直线的拟合误差。由于区域b中的三维点对于拟合出的直线来说属于异常点，因此区域b中的三维点获取的拟合误差大于区域c中的三维点获取的拟合误差。

步骤S670，将前m个拟合误差小于误差阈值T’的三维点中的任何一个作为候选内边界点。优选地，可以将第一个出现的拟合误差小于误差阈值T’的三维点作为候选内边界点。

在一个可能的示例中，上述误差阈值T’可以与深度阈值T取相同的值。

步骤S690，基于从多条扫描线获取的候选内边界点拟合出文档的内边界。同样，可选但非限定地，可以利用ransac方法对多个候选内边界点进行拟合，如图7所示，其中白色加粗的三维点表示该扫描线上的候选内边界点，基于这些候选内边界点拟合出一条关于(u，v)的直线701，拟合出的直线701即是文档的内边界。

在本实施例中，基于2D文档图像中的三维点的深度进一步提取了书籍的内边界，并将书籍的内边界作为在背景去除时所应用的边界。应理解，在所提取书籍的内边界非常接近所提取的书籍的外边界的情况下，可以选择所提取的书籍的外边界作为在背景去除时所应用的边界。

在以上的实施例中，以书籍为例描述了对文档内边界提取的方法。然而，本实施例中公开的方法不仅限于书籍的应用，在被扫描的文档对象较厚而同时具有内、外边界的场合，本实施例的内边界提取的方法均可适用。

针对书籍等特定的文档对象，还需要提取书籍的书脊线。在下文中，结合图8和图9详细地说明对书籍的书脊线的提取。其中，图8示意性地示出了根据本发明的一个实施例的提取书籍的书脊线的流程图，图9是基于多个候选边界点拟合出的书脊线的示意图。

针对书脊线，当展开的书籍被放置在基准平面上时，书脊线附近区域的深度变化通常大于书页面上的其他区域的深度变化。据此，通过计算书籍页面上各三维点与前后相邻的三维点之间的深度差异来提取书籍的书脊线。具体地，如图8所示，提取书籍的书脊线的方法800包括如下步骤。

步骤S810，逐点地获取当前三维点与在当前三维点之前和之后距离为预设步长d的三维点之间的深度差，并且获取深度差之和。

在本实施例中，距离为预设步长d是指当前三维点和在前或在后三维点之间具有d-1个三维点。例如，当前三维点是扫描线上的第i个三维点，则在当前三维点之前距离为预设步长d的三维点是扫描线上的第i-d个三维点，两个三维点之间的深度差为z_i-z_i-d。而在当前三维点之后距离为预设步长d的三维点是扫描线上的第i+d个三维点，两者的深度差为z_i-z_i+d。而深度差之和为|z_i-z_i-d+z_i-z_i+d|。

在一个可能的示例中，可以从扫描线上的预定位置的三维点开始获取上述深度差之和。

步骤S830，将具有最大深度差之和的三维点作为每一条扫描线上的候选书脊线点。

步骤S850，基于从多条扫描线获取的候选书脊线点拟合出书籍的书脊线。同样，可选但非限定地，可以利用ransac方法对多个候选书脊线点进行拟合，如图9所示，其中白色加粗的三维点表示该扫描线上的候选书脊线点，基于这些候选书脊线点拟合出一条关于(u，v)的直线901，拟合出的直线901即是书籍的书脊线。

在上文中，不仅详细地说明了提取文档的外边界、内边界的方法，还针对书籍这类特定的文档对象详细地说明了提取书籍的书脊线的方法。应注意到，上述这些边界与扫描线的方向基本上垂直的。而针对与扫描线的方向基本上平行的文档的上边界和下边界，通常可以使用公知的动态规划法在文档边界附近的区域中跟踪出一条具有最大梯度的边界路径来完成。

由于动态规划法受跟踪区域大小的影响较大，为了降低文档内容对边界提取的影响，在本实施例中，在待提取的文档边界附近的区域生成一个限制跟踪区域的掩模。掩模的生成进一步去除了很多非边界区域，并能有效降低书籍内容对边界提取的影响。

在下文中，以文档的下边界为例，将结合图10和图11详细地说明了掩模的生成和对文档的上边界和下边界的提取。其中，图10示意性地示出了根据本发明的一个实施例的提取文档下边界的流程图，图11示例性的示出了掩模候选区域中的扫描线。

如图10所示，提取文档的下边界的方法1000包括如下步骤。

步骤S1010，确定掩模的候选区域的位置。

首先，可以通过确定候选区域的位置来限定掩模的大体位置。具体地，在文档图像中选择一条所有三维点均属于在文档上的三维点的扫描线作为候选区域的第一边，选择一条所有的三维点属于在基准平面上的三维点的扫描线作为第二边。这样，保证了文档的上或下边界位于第一边与第二边之间的候选区域。

在一个可能的示例中，为了避免可能的误差，可以分别以第一边和第二边为基准向两侧扩展预定的距离，例如，分别向两侧扩展一条扫描线，将经扩展的第一边和第二边之间的区域作为掩模的候选区域。

步骤S1030，利用在候选区域中的多条扫描线上的三维点的深度生成掩模。

在确定了候选区域的情况下，候选区域内部包括若干条扫描线，这些扫描线中可能同时包括上文提及的三类扫描点：在基准平面上的三维点，可能在文档上的三维点以及在文档上的三维点。

例如，在下边界的候选区域中，如果扫描线的某一部分的三维点属于在文档上的三维点，则文档的下边界不会在这部分扫描线的上侧。这是由于，在这部分扫描线的上侧都是在文档上的三维点。换言之，文档的下边界应处于这部分扫描线的下侧。据此，针对文档的下边界，可以通过排除扫描线上的文档上的三维点对应的部分的上侧区域来形成掩模。

首先，从候选区域的外边界依次向内搜素，针对每一条扫描线，逐点地判定三维点是否属于在文档上的三维点。应理解，针对下边界，搜索从下向上进行，而针对上边界，搜索从上向下进行。也就是说，搜索均是从文档外侧区域向文档页面区域进行的。

在图11中示例性的示出了下边界的候选区域中的3条扫描线，由外向内依次为扫描线L3，L2，L1。应理解，在该区域中还包括图中并未示出的更多的扫描线。针对首先搜索到的扫描线L3，逐点地对扫描线L3进行搜索。由于扫描线L3上不存在连续两个在文档上的三维点的，则继续向内搜索。

当搜索到的扫描线L2后，然后逐点地对扫描线L2进行搜索。如图所示，由黑色三维点示出的扫描线L2断开为四部分，这是因为扫描线L2的一部分三维点由于被文档边缘遮挡而无法被图像采集单元获取。

针对扫描线L2第一部分L2a，虽然这部分扫描线呈现在文档图像中的文档页面上，但实际上由于遮挡，这部分包含的三维点均位于基准平面上。因此，在该部分对应的区域并未生成掩模。

针对扫描线L2的第二部分L2b，这部分扫描线上的三维点属于在文档上的三维点。因此，当连续搜索到两个在文档上的三维点时，假设为该扫描线上的第i个三维点和第i+1个三维点，对应坐标为(u_i，v_i)、(u_i+1，v_i+1)，针对第i个和第i+1个三维点之间的区域：以(u_i+u_i+1)/2作为掩模的一个边界，同时，由于扫描线L2是第一次搜索到的包括在文档上的三维点的扫描线，以候选区域的下边界作为掩模的另一个边界。

在第i+2个三维点仍属于在文档上的三维点的情况下，针对第i+1个和第i+2个三维点之间的区域：以(u_i+u_i+1)/2和(u_i+1+u_i+2)/2两者之间的最小值作为掩模的一个边界，以候选区域的下边界作为掩模的另一个边界。

也就是说，针对扫描线L2第二部分L2b上的连续两个在文档上的三维点之间的区域，以扫描线上任意相邻两个在文档上的三维点的横坐标的平均值的最小值作为掩模的一个边界，以候选区域的外边界作为掩模的另一边界。

针对扫描线L2的第三部分L2c，与第一部分L2a类似，由于这部分包含的三维点均位于基准平面上，因此在该部分对应的区域并未生成掩模。

针对扫描线L2的第四部分L2d，与第二部分L2b类似，这部分扫描线上的三维点属于在文档上的三维点。因此，在该部分对应的区域中，以整条扫描线上任意相邻两个在文档上的三维点的横坐标的平均值的最小值作为掩模的一个边界，以候选区域的外边界作为掩模的另一个边界。

如上所述，针对扫描线L2，分别在扫描线L2的第二和第四部分生成了掩模，而在第一和第三部分并未生成掩模。

当完成了对扫描线L2的扫描后，继续向内扫描。当搜索到扫描线L1后，逐点地对扫描线L1进行搜素。

针对扫描线L1的第一部分L1a，与扫描线L2的第一部分L2a类似，虽然这部分扫描线呈现在文档图像中的文档页面上，但实际上，这部分包含的三维点均位于基准平面上。因此，在该部分对应的区域并未生成掩模。

针对扫描线L1的第二部分L1b，由于这部分扫描线上的扫描点均属于在文档上的三维点，因此，按上文描述的那样，在该部分生成了掩模。

具体地，针对连续两个在文档上的三维点之间的区域，以扫描线上任意相邻两个在文档上的三维点的横坐标的平均值的最小值作为掩模的一个边界。同时，由于扫描线L1并不是第一次搜索到的包括在文档上的三维点的扫描线，则以扫描线L1外侧相邻的扫描线L2的横坐标的最大值作为掩模的另一个边界。

应理解，对于在前面的过程中已生成掩模的区域，例如，扫描线L2的第二、第四部分对应的区域，即使当前扫描线在这些区域中也包含在文档上的三维点，也不再重新生成掩模的边界。

接下来，继续向内搜索其它扫描线。当完成对所有在候选区域中的扫描线的搜索后，即可以在下边界对应的区域内生成掩模。

步骤S1050，在掩模限定的区域中利用动态规划法提取文档的下边界。

基于上述方法生成掩模后，进一步限定了文档的下边界的候选区域，再利用动态规划法在候选区域中提取文档的下边界。通过动态规划法来提取对象的边界是本领域公知的，其具体细节在此不再赘述。

以上，以下边界为例，详细地说明了在利用文档图像中的三维点的深度生成的掩模中提取文档的下边界的方法。针对上边界，同样可以采用上文描述的掩模生成方法和边界提取方法来提取。

通过利用文档图像中的三维点的深度生成的掩模，并在掩模的范围内使用动态规划法提取文档的上、下边界，可以消除文档的内容对边界提取的影响，并进一步提高了所提取的文档边界的精度。

通过上文描述的方法，完成了对文档的内边界、外边界、上边界、下边界和书脊线(书籍的情况下)的提取，即获取了文档边界在2D文档图像中的坐标。假设，边界上的任意一点(u，v，z)的深度(即z)与距离该点最近的三维点具有相同的深度，接着通过坐标变换即可以获取文档边界上的任意一点的三维坐标(x，y，z)。

下面结合图12对根据本发明的实施例的用于提取文档边界的装置1200予以简要描述，其中的细节可参见上文对提取文档边界的方法进行的描述。

图12是示意性地示出了根据本发明的一个实施例的提取文档边界的装置1200的框图。其中，为了简明起见仅仅示出了与本发明密切相关的部分。在利用文档图像的三维点的深度来提取文档边界的装置1200中，能够执行以上参考图1所描述的提取文档边界的方法。文档提取装置1200包括：基准平面的深度获取单元1210、文档图像深度获取单元1220、文档图像的三维点的深度获取单元1230以及边界提取单元1240。

基准平面的深度获取单元1210用于获取基准平面的深度。文档图像获取单元1220用于放置在基准平面上的文档的文档图像。文档图像的三维点的深度获取单元1230用于获取文档图像的三维点的深度。基准平面的深度获取单元1210、文档图像深度获取单元1220和文档图像的三维点的深度获取单元1230可以借助通信单元从外部获取基准平面的深度、放置在基准平面上的文档的文档图像以及文档图像的三维点的深度，或者从预先存储在本地的数据中获取上述信息，还可以从连接到文档提取装置1200的图像采集单元、扫描单元以及三维信息获取单元获取上述信息。

边界提取单元1240，用于基于基准平面的深度以及文档图像的三维点的深度在文档图像中提取文档的边界。

在一个可能的示例中，边界提取单元1240可以包括第一边界提取子单元1241。第一边界提取子单元1241可以基于对文档图像中的三维点的分类来提取文档的外边界。具体地，第一边界提取子单元1241例如可以配置成能够执行结合图4和图5描述的提取文档外边界的方法，具体细节在此不再赘述。

在一个可能的示例中，边界提取单元1240可以包括第二边界提取子单元1242。第二边界提取子单元1242可以在文档边界对应的区域和文档页面对应的区域中选择预定数量的三维点，并根据这些三维点拟合出一条直线，然后基于扫描线上的三维点相对于拟合出的直线的拟合误差来提取文档的内边界。具体地，第二边界提取子单元1242例如可以配置成能够执行结合图6和图7描述的提取文档内边界的方法，具体细节在此不再赘述。

在一个可能的示例中，边界提取单元1240可以包括第三边界提取子单元1243。第三边界提取子单元1243可以在基于文档的三维点的深度生成的掩模中利用动态规划法来提取文档的上边界和/或下边界。具体地，第三边界提取子单元1243例如可以配置成能够执行结合图10和图11描述的掩模生成方法和边界提取方法来提取文档的上边界和/或下边界，具体细节在此不再赘述。

在一个可能的示例中，边界提取单元1240可以包括第四边界提取子单元1244。第四边界提取子单元1244可以基于书籍页面上的三维点的深度差异来提取书脊线。具体地，第四边界提取子单元1244例如可以配置成能够执行结合图8和图9描述的提取书籍的书脊线的方法，具体细节在此不再赘述。

以上结合具体实施例描述了本发明的基本原理，但是，需要指出的是，对本领域的普通技术人员而言，能够理解本发明的方法和装置的全部或者任何步骤或者部件，可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。

因此，本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。计算装置可以是公知的通用装置。因此，本发明的目的也可以仅仅通过提供包含实现方法或者装置的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本发明，并且存储有这样的程序产品的存储介质也构成本发明。显然，存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。

在通过软件和/或固件实现本发明的实施例的情况下，从存储介质或网络向具有专用硬件结构的计算机，例如图13所示的通用计算机1300安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等等。

在图13中，中央处理单元(CPU)1301根据只读存储器(ROM)1302中存储的程序或从存储部分1308加载到随机存取存储器(RAM)1303的程序执行各种处理。在RAM 1303中，也根据需要存储当CPU 1301执行各种处理等等时所需的数据。CPU 1301、ROM 1302和RAM 1303经由总线1304彼此链路。输入/输出接口1305也链路到总线1304。

下述部件链路到输入/输出接口1305：输入部分1306(包括键盘、鼠标等等)、输出部分1307(包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分1308(包括硬盘等)、通信部分1309(包括网络接口卡比如LAN卡、调制解调器等)。通信部分1309经由网络比如因特网执行通信处理。根据需要，驱动器1310也可链路到输入/输出接口1305。可拆卸介质1311比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1310上，使得从中读出的计算机程序根据需要被安装到存储部分1308中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质1311安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图7所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1311。可拆卸介质1311的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 1302、存储部分1308中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

本发明还提出一种存储有机器可读取的指令代码的程序产品。指令代码由机器读取并执行时，可执行上述根据本发明实施例的方法。

相应地，用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

最后，还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外，在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

通过上述的描述，本发明的实施例提供了以下的技术方案，但不限于此。

附记1.一种提取文档边界的方法，包括：

获取基准平面的深度；

获取放置在基准平面上的文档的文档图像；

获取所述文档图像的三维点的深度；

基于所述基准平面的深度以及所述文档图像的三维点的深度在所述文档图像中提取文档的边界。

附记2.根据附记1所述的方法，其中，提取所述文档的边界包括：针对每一条扫描线，从所述文档图像的边缘开始，逐点地判定文档图像的三维点是否属于可能在文档上的三维点；

当连续出现超过预定个数的可能在文档上的三维点时，将连续出现的所述可能在文档上的三维点中的任何一个作为所述每一条扫描线上的候选外边界点；

基于从多条扫描线获取的所述候选外边界点拟合出所述文档的外边界；

其中，当所述文档图像的三维点的深度大于深度阈值并且小于所述深度阈值的预设倍数时，判定所述文档图像的三维点属于可能在文档上的三维点，所述深度阈值通过使预定比例的基准平面的点的深度小于所述深度阈值来确定。

附记3.根据附记2所述的方法，其中，将第一个出现的所述可能在文档上的三维点作为每一条扫描线上的所述候选外边界点

附记4.根据附记2所述的方法，其中，提取所述文档的边界还包括：

针对每一条扫描线，从拟合出的所述文档的外边界开始，选取预定数量的三维点；

利用所选取预定数量的三维点拟合出一条直线；

基于拟合出的所述直线，从所述外边界内侧的下一个三维点开始，逐点地获取拟合误差；

将前n个拟合误差小于所述误差阈值的三维点中的任何一个作为候选内边界点；

基于从多条扫描线获取的所述候选内边界点拟合出所述文档的内边界。

附记5.根据附记4所述的方法，其中，将第一个出现的拟合误差小于深度阈值的三维点作为每一条扫描线上的所述候选内边界点。

附记6.根据附记1所述的方法，其中，提取所述文档的边界还包括：

选择一条所有三维点均属于在文档上的三维点的扫描线作为第一边，选择一条没有任何一个三维点属于在文档上的三维点的扫描线作为第二边，分别以所述第一边和所述第二边为基准向两侧扩展预定的距离，将经扩展的第一边和第二边之间的区域作为候选区域；

利用在所述候选区域中的多条扫描线上的三维点的深度生成掩模；

在所述掩模中提取所述文档的上边界或下边界；

其中，当所述文档图像的三维点的深度小于深度阈值时，判定所述文档图像的三维点属于在基准平面上的三维点，当所述文档图像的三维点的深度大于所述深度阈值的预设倍数时，判定所述文档图像的三维点属于在文档上的三维点，所述深度阈值通过使预定比例的基准平面的采样点的深度小于所述深度阈值来确定。

附记7.根据附记6所述的方法，其中，生成所述掩模包括：

从所述候选区域的外边界依次向内搜素，针对每一条扫描线，逐点地判定三维点是否属于所述在文档上的三维点；

当连续搜索到两个在文档上的三维点时，针对所述两个在文档上的三维点之间的区域：

以在所述扫描线上搜索到的任意相邻两个在文档上的三维点的横坐标的平均值的最小值作为所述掩模的一个边界；

以所述扫描线外侧相邻的扫描线的横坐标的最大值作为所述掩模的另一个边界，其中当所述扫描线是第一次搜索到的包括在文档上的三维点的扫描线的情况下，以所述候选区域的外边界作为所述掩模的另一个边界。

附记8.根据附记6所述的方法，其中，在所述掩模中利用动态规划法提取所述文档的上边界或下边界。

附记9.根据附记1-8中的任一项所述的方法，其中，放置在所述基准平面上的所述文档是书籍。

附记10.根据附记9所述的方法，其中，提取所述文档的边界还包括：

针对每一条扫描线上的三维点，逐点地获取当前三维点与在所述当前三维点之前和之后距离为预设步长的三维点之间的深度差，并且获取所述深度差之和；

将具有最大深度差之和的三维点作为所述每一条扫描线上的候选书脊线点；

基于从多条扫描线获取的所述候选书脊线点拟合出所述书籍的书脊线。

附记11.根据附记2，4或10所述的方法，其中，所述拟合采用RANSAC方法。

附记12.一种用于在文档图像中提取文档边界的装置，包括：

基准平面的深度获取单元，用于获取基准平面的深度；

文档图像获取单元，用于获取放置在所述基准平面上的文档的文档图像

文档图像的三维点的深度获取单元，用于获取所述文档图像的三维点的深度；以及

边界提取单元，用于基于所述基准平面的深度以及所述文档图像的三维点的深度在所述文档图像中提取文档的边界。

附记13.根据附记12所述的装置，其中，所述边界提取单元包括第一边界提取子单元，所述第一边界提取子单元包括：

第一判定模块，用于针对每一条扫描线，从所述文档图像的边缘开始，逐点地判定所述文档图像的三维点是否属于可能在文档上的三维点；

第一候选边界点确定模块，用于当连续出现超过预定个数的所可能在文档上的三维点时，将连续出现的所述可能在文档上的三维点中的任何一个作为所述每一条扫描线上的候选外边界点；

第一边界拟合模块，用于基于从多条扫描线获取的所述候选外边界点拟合出所述文档的外边界；

其中，当所述文档图像的三维点的深度大于深度阈值并且小于所述深度阈值的预设倍数时，判定所述文档图像的三维点属于可能在文档上的三维点，所述深度阈值通过使预定比例的基准平面的采样点的深度小于所述深度阈值来确定。

附记14.根据附记13所述的装置，其中，所述边界提取单元包括第二边界提取子单元，所述第二边界提取子单元包括：

第二选取模块，用于针对每一条扫描线，从拟合出的所述文档的外边界开始，选取预定数量的三维点；

第二拟合误差获取模块，用于利用所选取的预定数量的三维点拟合出一条直线，并基于拟合出的所述直线，从所述文档的外边界内侧的下一个三维点开始，逐点地获取拟合误差；

第二候选边界点确定模块，用于将前n个拟合误差小于所述误差阈值的三维点中的任何一个作为候选内边界点；

第二边界拟合模块，用于基于从多条扫描线获取的所述候选内边界点拟合出所述文档的内边界。

附记15.根据附记13所述的装置，其中，所述边界提取单元包括第三边界提取子单元，所述第三边界提取子单元包括：

第三候选区域确定模块，用于选择一条所有三维点均属于在文档上的三维点的扫描线作为第一边，选择一条没有任何一个三维点属于在文档上的三维点的扫描线作为第二边，分别以所述第一边和所述第二边为基准向两侧扩展预定的距离，将经扩展的第一边和第二边之间的区域作为候选区域；

第三掩模生成模块，用于利用在所述候选区域中的多条扫描线上的三维点的深度生成掩模；

第三边界提取模块，用于在所述掩模中提取所述文档的上边界或下边界；

附记16.根据附记15所述的装置，其中，第三掩模生成模块包括：

第三判定子模块，用于从所述候选区域的外边界依次向内搜素，针对每一条扫描线，逐点地判定三维点是否属于所述在文档上的三维点；

第三掩模边界确定子模块，用于当连续搜索到两个在文档上的三维点时，针对所述两个在文档上的三维点之间的区域：

附记17.根据附记15所述的装置，其中，第三边界提取模块在所述掩模中利用动态规划法提取所述文档的上边界或下边界。

附记18.根据附记12-17中的任一项所述的装置，其中，放置在所述基准平面上的所述文档是书籍。

附记19.根据附记18所述的装置，其中，所述边界提取单元包括第四边界提取子单元，所述第四边界提取子单元包括：

第四获取模块，用于针对每一条扫描线上的三维点，逐点地获取当前三维点与在所述当前三维点之前和之后距离为预设步长的三维点之间的深度差，并且获取所述深度差之和；

第四候选书脊线点确定模块，用于将具有最大深度差之和的三维点作为所述每一条扫描线上的候选书脊线点；

第四边界拟合模块，用于基于从多条扫描线获取的所述候选书脊线点拟合出所述书籍的书脊线。

附记20.根据附记13，14或19所述的装置，其中，所述第一、第二和第四边界拟合模块采用RANSAC方法拟合。

以上实施例仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种提取文档边界的方法，包括：

获取基准平面的深度；

获取放置在所述基准平面上的所述文档的文档图像；

获取所述文档图像的三维点的深度；

基于所述基准平面的深度以及所述文档图像的三维点的深度在所述文档图像中提取所述文档的边界。

2.根据权利要求1所述的方法，其中，提取所述文档的边界包括：

针对每一条扫描线，从所述文档图像的边缘开始，逐点地判定所述文档图像的三维点是否属于可能在文档上的三维点；

当连续出现超过预定个数的可能在文档上的三维点时，将所述连续出现的可能在文档上的三维点中的任何一个作为所述每一条扫描线上的候选外边界点；

3.根据权利要求2所述的方法，其中，提取所述文档的边界还包括：

利用所选取的预定数量的三维点拟合出一条直线；

基于拟合出的所述直线，从所述文档的外边界内侧的下一个三维点开始，逐点地获取拟合误差；

将前n个拟合误差小于误差阈值的三维点中的任何一个作为候选内边界点；

4.根据权利要求2所述的方法，其中，提取所述文档的边界还包括：

在所述掩模中提取所述文档的上边界或下边界；

5.根据权利要求4所述的方法，其中，生成所述掩模包括：

6.根据权利要求5所述的方法，其中，在所述掩模中利用动态规划法提取所述文档的上边界或下边界。

7.根据权利要求1-6中的任一项所述的方法，其中，放置在所述基准平面上的所述文档是书籍。

8.根据权利要求7所述的方法，其中，提取所述文档的边界还包括：

9.根据权利要求2或3所述的方法，其中，所述拟合采用RANSAC方法。

10.一种用于在文档图像中提取文档边界的装置，包括：

基准平面的深度获取单元，用于获取基准平面的深度；

文档图像获取单元，用于获取放置在所述基准平面上的文档的文档图像；