CN105844207B

CN105844207B - 文本行提取方法和文本行提取设备

Info

Publication number: CN105844207B
Application number: CN201510021514.XA
Authority: CN
Inventors: 汪留安; 田中宏; 范伟; 孙俊
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2015-01-15
Filing date: 2015-01-15
Publication date: 2019-03-29
Anticipated expiration: 2035-01-15
Also published as: CN105844207A

Abstract

本发明公开了文本行提取方法和文本行提取设备。根据本发明的文本行提取方法包括：提取输入文档图像中的连通域；确定连通域之间的潜在链接；调整潜在链接构成的生成树；以及基于调整后的生成树，优化与生成树对应的文本行，使得文本行中字符的总差异最小。根据本发明的文本行提取方法和文本行提取设备能够准确地、鲁棒地提取出文档图像中的文本行。

Description

文本行提取方法和文本行提取设备

技术领域

本发明一般地涉及图像处理领域。具体而言，本发明涉及一种能够准确地、鲁棒地提取文档图像中的文本行的方法和设备。

背景技术

近年来，图像处理技术得到了蓬勃的发展。其中，涉及文档图像的光学字符识别处理在商业和个人的应用中较为广泛地存在。对于光学字符识别技术来说，一个基本的任务是提取文档图像中的文本行。在此基础之上，才能进行确定文本行的方向、确定文本行中的字符等操作。

图1示出了提取文档图像中的文本行的结果的示例。其中，用穿过文字的横线表明所提取的文本行的位置和包含的字符。

由于提取文本行的处理需要应用到广泛的文档图像类型，例如图书、手册、封面、杂志、报纸等，所以复杂的背景、不同的行方向、低图像质量、不同类型的语言文字等提高了文本行提取处理的难度。大多数传统的提取文本行的处理针对特定类型的文档的特殊文本行形式，无法以通用的处理方式，准确地提取各种类型的文档图像中的文本行。

因此，期望一种提取文档图像中的文本行的方法和设备，其能够准确地、鲁棒地提取各种类型的文档图像中的文本行。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

本发明的目的是针对现有技术的上述问题，提出了一种能够准确地、鲁棒地提取各种类型的文档图像中的文本行的方法和设备。

为了实现上述目的，根据本发明的一个方面，提供了一种文本行提取方法，该文本行提取方法包括：提取输入文档图像中的连通域；确定连通域之间的潜在链接；调整潜在链接构成的生成树；以及基于调整后的生成树，优化与生成树对应的文本行，使得文本行中字符的总差异最小。

根据本发明的另一个方面，提供了一种文本行提取设备，该文本行提取设备包括：连通域提取装置，被配置为：提取输入文档图像中的连通域；潜在链接确定装置，被配置为：确定连通域之间的潜在链接；生成树调整装置，被配置为：调整潜在链接构成的生成树；以及文本行优化装置，被配置为：基于调整后的生成树，优化与生成树对应的文本行，使得文本行中字符的总差异最小。

另外，根据本发明的另一方面，还提供了一种存储介质。所述存储介质包括机器可读的程序代码，当在信息处理设备上执行所述程序代码时，所述程序代码使得所述信息处理设备执行根据本发明的上述方法。

此外，根据本发明的再一方面，还提供了一种程序产品。所述程序产品包括机器可执行的指令，当在信息处理设备上执行所述指令时，所述指令使得所述信息处理设备执行根据本发明的上述方法。

附图说明

参照下面结合附图对本发明实施例的说明，会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中，相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。附图中：

图1示出了提取文档图像中的文本行的结果的示例；

图2示出了根据本发明的实施例的文本行提取方法的流程图；

图3示出了确定连通域之间的潜在链接的方法的流程图；

图4示出了调整潜在链接构成的生成树的方法的流程图；

图5示出了根据本发明实施例的文本行提取设备的结构方框图；以及

图6示出了可用于实施根据本发明实施例的方法和设备的计算机的示意性框图。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行详细描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施方式的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤，而省略了与本发明关系不大的其他细节。另外，还需要指出的是，在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。

下面将参照图2描述根据本发明的实施例的文本行提取方法的流程。

图2示出了根据本发明的实施例的文本行提取方法的流程图。如图2所示，根据本发明的实施例的文本行提取方法包括如下步骤：提取输入文档图像中的连通域(步骤S1)；确定连通域之间的潜在链接(步骤S2)；调整潜在链接构成的生成树(步骤S3)；以及基于调整后的生成树，优化与生成树对应的文本行，使得文本行中字符的总差异最小(步骤S4)。

在步骤S1中，提取输入文档图像中的连通域。

连通域的提取是图像处理技术中常见的操作，在此不受特别的限制，可以采用任何已知的适当的方法来提取连通域。例如，利用最大稳定极值区域(Maximal StableExtremal Region，MSER)算法。

应注意，可分别在黑底白字假设下和白底黑字假设下提取连通域，这样可以提取到最全面的前景文字。

当然，也可以仅在黑底白字假设下或白底黑字假设下提取连通域，这样对于仅出现黑底白字或白底黑字一种文字的情况可以减少不必要的计算量。

应注意，如果分别在黑底白字假设下和白底黑字假设下提取出第一连通域和第二连通域，则针对第一连通域和第二连通域分别进行后续的各个处理，而不是对于第一连通域和第二连通域一起进行后续的各个处理。

提取出连通域之后，可以利用分类器融合的方法来快速地、准确地去除非文本的连通域。

Adaboost分类器可以快速地将连通域分类为文本和非文本两类，Adaboost分类器所利用的特征例如包括连通域的宽度、高度、长宽比、前景/背景灰度值比、归一化的前景/背景灰度值比、占空比、方差等。

CNN分类器可以准确地将连通域分类为文本和非文本两类，CNN分类器所利用的特征例如是灰度特征。

分类器融合方法可以是先利用Adaboost分类器将连通域分类为正样本和负样本，然后将Adaboost分类器分类出的负样本去除。对于Adaboost分类器分类出的正样本中具有低置信度的正样本，再次使用CNN分类器分类，将CNN分类器分类出的负样本去除。

这样，利用了Adaboost分类器处理速度快的优势，分类了大多数连通域，对于Adaboost分类器分类出的低置信度的正样本，利用CNN分类器进行再次分类，保证了分类的正确性。

Adaboost分类器仅为处理速度快的分类器的示例，CNN分类器仅为分类准确的分类器的示例，本发明不限于此。

也可以仅采用一种分类器，而非利用分类器融合来对连通域进行分类。

在步骤S2中，确定连通域之间的潜在链接。

连通域之间的链接将连通域连成文本行，为此，需要找到并确定连通域之间的链接。在步骤S2中，寻找可能的链接，即潜在链接。

具体地，如图3所示，在步骤S31中，针对每个连通域，确定多个预定方向上的候选链接。

多个预定方向例如是0°、45°、90°、135°、180°、225°、270°、315°方向。0°和180°表示水平方向向左和水平方向向右。

候选链接连接的是相邻的两个连通域。相邻与否例如可通过下面的公式确定：

dist(x_i,x_j)＜3*min(max(w_i,h_i),max(w_j,h_j))

其中，dist(x_i、x_j)表示连通域i和j之间的距离，具体计算方式可灵活设计，min()表示取最小值，max()表示取最大值，w_i、h_i为连通域i的宽度和高度，w_j、h_j为连通域j的宽度和高度。倍数3仅为示例。

满足上式的彼此处于预定方向上的两个连通域认为是相邻连通域，并且其间存在该预定方向上的候选链接。

然后，在步骤S32中，针对每个候选链接，计算候选链接的权值。

例如，连通域p、q之间的候选链接的权值w(p,q)通过如下公式计算：

w(p,q)＝α*d_w+β*o_w

其中，α和β是权重，可由本领域技术人员灵活选取。

d_w＝(w₁+h₁+w₂+h₂)/d,其中，w₁、h₁为连通域p的宽度和高度，w₂、h₂为连通域q的宽度和高度，d为连通域p和q之间的距离，距离d的计算方式可由本领域技术人员灵活调整。

o_w＝a/(a₁+a₂)，其中，a₁、a₂表示连通域p和q在候选链接对应的预定方向上的长度，a表示连通域p和q在候选链接对应的预定方向上重叠的长度。a₁、a₂、a的计算方式在满足上述限定的情况下可灵活设计。

优选地，可以提高水平方向和垂直方向上的候选链接的权值。例如，在上述计算之后乘以大于1的放大系数，得到水平方向和垂直方向上的候选链接的权值。这样做的原因是文本行方向主要是水平方向和垂直方向。

接着，在步骤S33中，根据候选链接的权值的大小，选取预定数量的候选链接作为所述潜在链接。

例如，选取每个连通域的候选链接中权值最大的两个候选链接作为潜在链接。

在步骤S3中，调整潜在链接构成的生成树。

首先，如图4所示，在步骤S41中，按照链接权值最小原则，基于潜在链接，构建包括所有连通域的最小生成树，使得所有连通域连接在一起，无方向，无循环，总权值最小。

链接权值最小原则是指所有连通域连接在一起，构成一个无方向、无循环的最小生成树，最小生成树的节点是连通域，边是潜在链接，潜在链接的权值如前述计算，对于这个最小生成树来说，所有边的权值总和，即总权值最小。

通过构建最小生成树，可以去除冗余的潜在链接。

然后，在步骤S42中，按照预定准则，调整所构建的生成树上的潜在链接，直至满足预定条件。

预定准则包括：去除生成树上的与同一连通域关联的4个或更多个潜在链接、去除生成树上的与同一连通域关联的3个潜在链接中不能两两构成线性链接的潜在链接、去除生成树上的与同一连通域关联的、不能构成线性链接的2个潜在链接。

两个潜在链接如果能够成一条近似的直线，就认为它们能够构成线性链接。这一预定准则能够去除文本行之间的潜在链接，基于文本行的线性特性。

去除之后，判断是否满足预定条件。

预定条件包括调整前后的生成树不变或者调整次数超过预定阈值。

然而，在按照预定准则去除潜在链接后，可能会去除掉不应去除的链接，导致一些连通域与生成树上大多数连通域断开。

因此，如果此时不满足预定条件，则对于因上述去除而与生成树不存在连接的连通域，按照链接权值最小原则，基于潜在链接，重新将这样的连通域与生成树上的连通域连接，并重新执行上述去除步骤直至满足预定条件。

如果此时满足预定条件，则结束步骤S3的处理。此时，有可能存在因上述去除而与生成树不存在连接的连通域，但由于已经满足预定条件而终止了步骤S3的处理，从而未被连接到生成树上的大多数连通域。

在步骤S4中，基于调整后的生成树，优化与生成树对应的文本行，使得文本行中字符的总差异最小。

与生成树对应的文本行是指生成树上的连通域和连通域之间的潜在链接将连通域相连从而构成的待优化的文本行。

具体地，将去除的连通域与生成树上的连通域按照链接权值最小原则，基于潜在连接，重新与生成树连接；然后，保持生成树的原有连接不变并保留或断开新添加的链接，使得文本行中字符的总差异最小，从而优化生成树；按优化后的生成树上的潜在链接，将生成树上存在连接的连通域组合成所优化的文本行。

也就是说，生成树上的链接已经固定，在优化文本行的过程中保持不变。主要考量的是新添加的链接。保留或断开新添加的链接的标准是文本行中字符的总差异最小。

其中，文本行中字符的总差异与行内拟合误差、行内相邻文本距离误差、行内文本颜色误差、行内文本高度误差中的至少一个相关。

行内拟合误差是指基于多个连通域之间的潜在链接，将多个连通域拟合为一个文本行，拟合出来的中心线与多个连通域之间的偏差的总和。行内相邻文本距离误差是指一个文本行内的相邻文本(连通域)之间的距离。行内文本颜色误差是指一个文本行内的文本(连通域)之间在颜色上的差异。行内文本高度误差是指一个文本行内的文本(连通域)之间在高度上的差异。以上四个误差的具体计算方式可以灵活设计。主要是从这些方面来考量文本行中字符的总差异，使得所有文本行的总的行内差异最小。此步骤可通过维特比算法实现。

经优化后，生成树上所保留的潜在链接将生成树上的连通域组合成所优化的文本行。

具体地，按生成树上的潜在链接，对所优化的文本行进行一阶拟合。

一阶拟合能够很好地处理水平方向或垂直方向上直线形式的文本行。但对于弯曲的文本行，一阶拟合可能还不够。

因此，优选地，在一阶拟合之后，计算一阶拟合所得到的直线上的每个连通域的中心点与直线的距离的最大值；当最大值大于预定门限时，对所优化的文本行进行二阶拟合。这里所计算的最大值即为前文所提到的行内拟合误差。预定门限例如是文本行的平均高度。

优选地，如果所优化的文本行能够合并为新文本行，并且新文本行的平滑特性好，则将合并后的新文本行作为所优化的文本行。例如，如果合并前的两个文本行具有相同的方向、类似的文本行高度、小的距离、以及存在重叠，则合并后的新文本行平滑特性好。

优选地，如果所优化的文本行不包括全部的连通域，则将剩余的满足特定条件的连通域合并入距离其最近的文本行。特定条件例如是剩余的连通域的中心点与拟合所得到的直线的距离的绝对值小于预定门限。预定门限例如是文本行的平均高度。

经过上述处理，噪声连通域和两个文本行可能被拟合为一个文本行，因此，需要对于过拟合的文本行进行断开。可以利用相邻文本行的类似性，指导文本行的断开。通过文本行间的距离和文本行平均高度的相似性，可以判定相邻的文本行。

针对每一个所优化的文本行，可以判断是否存在与其临近的文本行。如果不存在与其临近的文本行，可以在该文本行的潜在断开位置处断开该文本行；如果存在与其临近的文本行，可以利用相邻文本行指导地断开。

具体地，如果所优化的两个文本行邻近且重合、并且较长文本行的潜在断开位置与较短文本行的边缘对齐，则在潜在断开位置处断开较长文本行。如果所优化的两个文本行邻近且重合、并且两个文本行的潜在断开位置对齐，则在潜在断开位置处断开两个文本行。

其中，文本行的潜在断开位置可以根据文本行中的相邻连通域之间的距离与文本行的平均高度进行判定。举例来说，如果文本行中的相邻连通域之间的距离大于文本行的平均高度的两倍，则相邻连通域之间是潜在断开位置。

优选地，还可以根据文本行方向重合比率、文本行拟合误差、文本行中的连通域变化率、识别引擎的识别置信度中的至少一个，去除所优化的文本行中的噪声。

文本行方向重合比率是指相邻文本行在行方向上的重合比率。如果一个文本行与相邻的文本行重合比率都较低，表明该文本行可能不是文本区域的文本，所以删除该文本行。文本行拟合误差太大表明可能是噪声，需去除。文本行中的连通域变化率是连通域的一个常见指标，也能用来区分噪声。识别引擎的识别置信度是指文本行进行光学字符识别等的识别引擎输出的置信度，如果置信度过低，说明是噪声。通过根据这几个方面，可以去除噪声(文本行)，提高文本行提取的准确度。每个方面中可以计算平均值和方差。

此外，如上所述，可以分别在黑底白字假设下和白底黑字假设下提取出第一连通域和第二连通域，则针对第一连通域和第二连通域分别进行后续的各个处理。此时，如果针对第一连通域优化的文本行与针对第二连通域优化的文本行重叠，则去除两者中较小的文本行。

根据本发明的方法不需要任何关于文本行方向的先验知识，对于水平、垂直、弯曲、混合形式的文本行方向都具有鲁棒性。通过使得文本行中字符的总差异最小，可以处理中文和日文中多笔画现象所导致的可能的误提取，即对于中日文也具有鲁棒性。有指导的文本行断开，比无指导的文本行断开更加准确。

下面，将参照图5描述根据本发明实施例的文本行提取设备。

图5示出了根据本发明实施例的文本行提取设备的结构方框图。如图5所示，根据本发明的文本行提取设备500包括：连通域提取装置51，被配置为：提取输入文档图像中的连通域；潜在链接确定装置52，被配置为：确定连通域之间的潜在链接；生成树调整装置53，被配置为：调整潜在链接构成的生成树；以及文本行优化装置54，被配置为：基于调整后的生成树，优化与生成树对应的文本行，使得文本行中字符的总差异最小。

在一个实施例中，潜在链接确定装置52被进一步配置为：针对每个连通域，确定多个预定方向上的候选链接；针对每个候选链接，计算候选链接的权值；根据候选链接的权值的大小，选取预定数量的候选链接作为所述潜在链接。

在一个实施例中，生成树调整装置53被进一步配置为：按照链接权值最小原则，基于潜在链接，构建包括所有连通域的最小生成树；按照预定准则，调整所构建的生成树上的潜在链接，直至满足预定条件。

在一个实施例中，生成树调整装置53被进一步配置为：去除生成树上的与同一连通域关联的4个或更多个潜在链接；去除生成树上的与同一连通域关联的3个潜在链接中不能两两构成线性链接的潜在链接；去除生成树上的与同一连通域关联的、不能构成线性链接的2个潜在链接；如果此时不满足预定条件，则对于因上述去除而与生成树不存在连接的连通域，按照链接权值最小原则，基于潜在链接，重新将这样的连通域与生成树上的连通域连接，并重新执行上述去除操作直至满足预定条件。

在一个实施例中，文本行优化装置54被进一步配置为：将去除的连通域与生成树上的连通域按照链接权值最小原则，基于潜在连接，重新与生成树连接；保持生成树的原有连接不变并保留或断开新添加的链接，使得文本行中字符的总差异最小，从而优化生成树；其中，文本行中字符的总差异与行内拟合误差、行内相邻文本距离误差、行内文本颜色误差、行内文本高度误差中的至少一个相关；按优化后的生成树上的潜在链接，将生成树上存在连接的连通域组合成所优化的文本行。

在一个实施例中，文本行优化装置54被进一步配置为：按生成树上的潜在链接，对所优化的文本行进行一阶拟合；并且在一阶拟合所得到的直线上的每个连通域的中心点与该直线的距离的最大值大于预定门限时，对所优化的文本行进行二阶拟合。

在一个实施例中，如果所优化的文本行能够合并为新文本行，并且新文本行的平滑特性好，则所述文本行优化装置54将合并后的新文本行作为所优化的文本行。

在一个实施例中，如果所优化的文本行不包括全部的连通域，则所述文本行优化装置54将剩余的满足特定条件的连通域合并入距离其最近的文本行。

在一个实施例中，文本行提取设备500还包括：断开装置，被配置为：针对每一个所优化的文本行，判断是否存在与其临近的文本行；在判断结果为否时，在该文本行的潜在断开位置处断开该文本行；在判断结果为是时，相邻文本行间相互指导地断开。

在一个实施例中，文本行提取设备500还包括：噪声去除装置，被配置为：根据文本行方向重合比率、文本行拟合误差、文本行中的连通域变化率、识别引擎的识别置信度中的至少一个，去除所优化的文本行中的噪声。

由于在根据本发明的文本行提取设备500中所包括的各个装置中的处理分别与上面描述的文本行提取方法中所包括的各个步骤中的处理类似，因此为了简洁起见，在此省略这些装置和单元的详细描述。

此外，这里尚需指出的是，上述设备中各个组成装置、单元可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知，在此不再赘述。在通过软件或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机(例如图6所示的通用计算机600)安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等。

在图6中，中央处理单元(CPU)601根据只读存储器(ROM)602中存储的程序或从存储部分608加载到随机存取存储器(RAM)603的程序执行各种处理。在RAM 603中，还根据需要存储当CPU 601执行各种处理等等时所需的数据。CPU 601、ROM 602和RAM 603经由总线604彼此连接。输入/输出接口605也连接到总线604。

下述部件连接到输入/输出接口605：输入部分606(包括键盘、鼠标等等)、输出部分607(包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分608(包括硬盘等)、通信部分609(包括网络接口卡比如LAN卡、调制解调器等)。通信部分609经由网络比如因特网执行通信处理。根据需要，驱动器610也可连接到输入/输出接口605。可拆卸介质611比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器610上，使得从中读出的计算机程序根据需要被安装到存储部分608中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质611安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图6所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质611。可拆卸介质611的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 602、存储部分608中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时，可执行上述根据本发明实施例的方法。

相应地，用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

在上面对本发明具体实施例的描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

此外，本发明的方法不限于按照说明书中描述的时间顺序来执行，也可以按照其他的时间顺序地、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露，但是，应该理解，上述的所有实施例和示例均是示例性的，而非限制性的。本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。

附记

1.一种文本行提取方法，包括：

提取输入文档图像中的连通域；

确定连通域之间的潜在链接；

调整潜在链接构成的生成树；以及

基于调整后的生成树，优化与生成树对应的文本行，使得文本行中字符的总差异最小。

2.如附记1所述的方法，其中所述确定连通域之间的潜在链接包括：

针对每个连通域，确定多个预定方向上的候选链接；

针对每个候选链接，计算候选链接的权值；

根据候选链接的权值的大小，选取预定数量的候选链接作为所述潜在链接。

3.如附记1所述的方法，其中所述调整潜在链接构成的生成树包括：

按照链接权值最小原则，基于潜在链接，构建包括所有连通域的最小生成树；

按照预定准则，调整所构建的生成树上的潜在链接，直至满足预定条件。

4.如附记3所述的方法，其中所述按照预定准则，调整所构建的生成树上的潜在链接包括：

去除生成树上的与同一连通域关联的4个或更多个潜在链接；

去除生成树上的与同一连通域关联的3个潜在链接中不能两两构成线性链接的潜在链接；

去除生成树上的与同一连通域关联的、不能构成线性链接的2个潜在链接；

如果此时不满足预定条件，则对于因上述去除而与生成树不存在连接的连通域，按照链接权值最小原则，基于潜在链接，重新将这样的连通域与生成树上的连通域连接，并重新执行上述去除步骤直至满足预定条件。

5.如附记4所述的方法，其中所述基于调整后的生成树，优化与生成树对应的文本行，使得文本行中字符的总差异最小包括：

将去除的连通域与生成树上的连通域按照链接权值最小原则，基于潜在连接，重新与生成树连接；

保持生成树的原有连接不变并保留或断开新添加的链接，使得文本行中字符的总差异最小，从而优化生成树；

其中，文本行中字符的总差异与行内拟合误差、行内相邻文本距离误差、行内文本颜色误差、行内文本高度误差中的至少一个相关；

按优化后的生成树上的潜在链接，将生成树上存在连接的连通域组合成所优化的文本行。

6.如附记5所述的方法，其中所述将生成树上存在连接的连通域组合成所优化的文本行包括：

按生成树上的潜在链接，对所优化的文本行进行一阶拟合；

其中在一阶拟合之后，计算拟合所得到的直线上的每个连通域的中心点与该直线的距离的最大值；

当最大值大于预定门限时，对所优化的文本行进行二阶拟合。

7.如附记6所述的方法，其中如果所优化的文本行能够合并为新文本行，并且新文本行的平滑特性好，则将合并后的新文本行作为所优化的文本行。

8.如附记1所述的方法，其中如果所优化的文本行不包括全部的连通域，则将剩余的满足特定条件的连通域合并入距离其最近的文本行。

9.如附记1所述的方法，还包括：

针对每一个所优化的文本行，判断是否存在与其临近的文本行；

在判断结果为否时，在该文本行的潜在断开位置处断开该文本行；在判断结果为是时，相邻文本行间相互指导地断开。

10.如附记1所述的方法，还包括：根据文本行方向重合比率、文本行拟合误差、文本行中的连通域变化率、识别引擎的识别置信度中的至少一个，去除所优化的文本行中的噪声。

11.一种文本行提取设备，包括：

连通域提取装置，被配置为：提取输入文档图像中的连通域；

潜在链接确定装置，被配置为：确定连通域之间的潜在链接；

生成树调整装置，被配置为：调整潜在链接构成的生成树；以及

文本行优化装置，被配置为：基于调整后的生成树，优化与生成树对应的文本行，使得文本行中字符的总差异最小。

12.如附记11所述的设备，其中所述潜在链接确定装置被进一步配置为：

针对每个连通域，确定多个预定方向上的候选链接；

针对每个候选链接，计算候选链接的权值；

13.如附记11所述的设备，其中所述生成树调整装置被进一步配置为：

14.如附记13所述的设备，其中所述生成树调整装置被进一步配置为：

去除生成树上的与同一连通域关联的4个或更多个潜在链接；

如果不满足预定条件，则对于因上述去除而与生成树不存在连接的连通域，按照链接权值最小原则，基于潜在链接，重新将这样的连通域与生成树上的连通域连接，并重新执行上述去除操作直至满足预定条件。

15.如附记14所述的设备，其中所述文本行优化装置被进一步配置为：

16.如附记15所述的设备，其中所述文本行优化装置被进一步配置为：

按生成树上的潜在链接，对所优化的文本行进行一阶拟合；并且在一阶拟合所得到的直线上的每个连通域的中心点与该直线的距离的最大值大于预定门限时，对所优化的文本行进行二阶拟合。

17.如附记16所述的设备，其中如果所优化的文本行能够合并为新文本行，并且新文本行的平滑特性好，则所述文本行优化装置将合并后的新文本行作为所优化的文本行。

18.如附记11所述的设备，其中如果所优化的文本行不包括全部的连通域，则所述文本行优化装置将剩余的满足特定条件的连通域合并入距离其最近的文本行。

19.如附记11所述的设备，还包括：

断开装置，被配置为：

20.如附记11所述的设备，还包括：

噪声去除装置，被配置为：根据文本行方向重合比率、文本行拟合误差、文本行中的连通域变化率、识别引擎的识别置信度中的至少一个，去除所优化的文本行中的噪声。

Claims

1.一种文本行提取方法，包括：

提取输入文档图像中的连通域；

针对每个连通域，确定多个预定方向上的候选链接；

针对每个候选链接，计算所述候选链接的权值；

根据所述候选链接的权值的大小，选取预定数量的所述候选链接作为所述连通域之间的潜在链接；

调整所述潜在链接构成的生成树；以及

基于调整后的生成树，优化与所述生成树对应的文本行，使得所述文本行中字符的总差异最小。

2.如权利要求1所述的方法，其中所述调整潜在链接构成的生成树包括：

按照链接权值最小原则，基于所述潜在链接，构建包括所有连通域的最小生成树；

3.如权利要求2所述的方法，其中所述按照预定准则，调整所构建的生成树上的潜在链接包括：

去除生成树上的与同一连通域关联的4个或更多个潜在链接；

如果此时不满足预定条件，则对于因上述去除而与所述生成树不存在连接的连通域，按照链接权值最小原则，基于所述潜在链接，重新将这样的连通域与生成树上的连通域连接，并重新执行上述去除步骤直至满足预定条件。

4.如权利要求3所述的方法，其中所述基于调整后的生成树，优化与所述生成树对应的文本行，使得所述文本行中字符的总差异最小包括：

将去除的连通域与所述生成树上的连通域按照所述链接权值最小原则，基于所述潜在连接，重新与所述生成树连接；

保持所述生成树的原有连接不变并保留或断开新添加的链接，使得所述文本行中字符的总差异最小，从而优化所述生成树；

其中，所述文本行中字符的总差异与行内拟合误差、行内相邻文本距离误差、行内文本颜色误差、行内文本高度误差中的至少一个相关；

按优化后的生成树上的潜在链接，将所述生成树上存在连接的连通域组合成所优化的文本行。

5.如权利要求4所述的方法，其中所述将生成树上存在连接的连通域组合成所优化的文本行包括：

按所述生成树上的潜在链接，对所优化的文本行进行一阶拟合；

其中在一阶拟合之后，计算一阶拟合所得到的直线上的每个连通域的中心点与该直线的距离的最大值；

当所述最大值大于预定门限时，对所优化的文本行进行二阶拟合。

6.如权利要求5所述的方法，其中如果所优化的文本行能够合并为新文本行，并且所述新文本行的平滑特性好，则将合并后的新文本行作为所优化的文本行。

7.如权利要求1所述的方法，其中如果所优化的文本行不包括全部的连通域，则将剩余的满足特定条件的连通域合并入距离其最近的文本行。

8.如权利要求1所述的方法，还包括：

9.一种文本行提取设备，包括：

潜在链接确定装置，被配置为：

针对每个连通域，确定多个预定方向上的候选链接；

针对每个候选链接，计算所述候选链接的权值；和

生成树调整装置，被配置为：调整所述潜在链接构成的生成树；以及

文本行优化装置，被配置为：基于调整后的生成树，优化与所述生成树对应的文本行，使得所述文本行中字符的总差异最小。