CN102375988B

CN102375988B - 文件图像处理方法和设备

Info

Publication number: CN102375988B
Application number: CN2010102576506A
Authority: CN
Inventors: 孙俊; 堀田悦伸; 于浩; 直井聪
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2010-08-17
Filing date: 2010-08-17
Publication date: 2013-12-25
Anticipated expiration: 2030-08-17
Also published as: US8345977B2; JP2012043408A; CN102375988A; US20120045129A1; JP5644678B2

Abstract

本发明公开了一种文件图像处理方法和设备，其中文件图像处理方法包括：对文件图像进行水平文本行提取；对文件图像进行垂直文本行提取；设置重叠矩阵，所述重叠矩阵的元素的值指示了水平文本行和垂直文本行之间的重叠关系；在垂直方向上对重叠矩阵进行合并；在水平方向上对重叠矩阵进行合并；基于合并后的重叠矩阵的元素的值，确定文件图像中的一个或多个文本重叠区域；在一个或多个文本重叠区域中的一个内，分别对水平文本行和垂直文本行的笔画或像素点总数进行计数；以及如果水平文本行的笔画或像素点总数大于垂直文本行的笔画或像素点总数，则确定该文本重叠区域的取向是水平取向，反之则确定该文本重叠区域的取向是垂直取向。

Description

文件图像处理方法和设备

技术领域

本发明涉及图像处理领域，特别涉及一种文件图像处理方法和设备。

背景技术

文本行提取是文件图像处理中的关键步骤。存在两种主要的传统方法来从图像中获得文本行。第一种类型的方法是使用布局分析将文本段落与图像分开并提取文本行。另一种类型的方法则使用了从自然景观图像中进行文本提取的思想。相关的技术文件可参见E Shafait，D.Keysers，T.Breuel，“Performance evaluation and benchmarking of six pagesegmentation algorithms”.IEEE Trans.On Pattern Analysis and MachineIntelligence.v30，n6，pp941-954，November，30，2007(以下称为技术文件1)和E.Kim，et Al，“Scene text extraction using focus of mobile camera”.Proceedings of the 10th International conference on Document Analysisand Recognition，p166～170，2009.7.26～29，Barcelona(以下称为技术文件2)，这两个技术文件的整体内容通过引用结合于此。

文本提取的目的是要通过对提取的文本行的字符识别来决定扫描的页面的取向。文本提取的关键需求包括：

1.从图像中提取全部文本行是不必要的。

2.速度应当尽可能地快。

传统的方法对于上述两个需求而言是存在问题的。基于布局分析的方法不能满足速度需求。而且，基于布局分析的方法会分析整个文件图像。如果图像的结构非常复杂，则文本行提取通常会失败。第二种类型的方法(参见技术文件2)非常快速，但是它主要用于从户外自然景观文本中进行水平文本行提取。当第二种类型的方法应用于扫描的文件图像时，在扫描的文件包括水平文本行、垂直文本行和图像的情况下，一个很大的问题是如何找到文本行的正确方向。本发明的目的就是要从扫描的文件图像中进行快速而可靠的文本行提取。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。但是，应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图用来确定本发明的关键性部分或重要部分，也不是意图用来限定本发明的范围。其目的仅仅是以简化的形式给出关于本发明的某些概念，以此作为稍后给出的更详细描述的前序。

鉴于现有技术的上述情形，本发明的目的是提供一种文件图像处理方法和设备，其能够从扫描的文件图像中进行快速而可靠的文本行提取，尤其适用于布局分析失败的情况下的复杂文件图像。

为了实现上述目的，根据本发明的一方面，提供了一种文件图像处理方法，其包括如下步骤：对所述文件图像进行水平文本行提取，以获得水平文本行，其中所述水平文本行的行数用Nh来表示；对所述文件图像进行垂直文本行提取，以获得垂直文本行，其中所述垂直文本行的列数用Nv来表示；设置具有Nh行Nv列的重叠矩阵MO，所述重叠矩阵MO的第i行第j列的元素MO(i，j)的值指示了第i行的水平文本行和第j列的垂直文本行之间的重叠关系，其中1≤i≤Nh并且1≤j≤Nv；在垂直方向上对所述重叠矩阵MO进行合并，使得如果一列垂直文本行同时与多行水平文本行重叠，则将指示该列垂直文本行和所述多行水平文本行中的每一个之间的重叠关系的所述重叠矩阵MO的元素的值设置为相同值；在水平方向上对所述重叠矩阵MO进行合并，使得如果一行水平文本行同时与多列垂直文本行重叠，则将指示该行水平文本行和所述多列垂直文本行中的每一个之间的重叠关系的所述重叠矩阵MO的元素的值设置为相同值；基于合并后的所述重叠矩阵MO的元素的值，确定所述文件图像中的一个或多个文本重叠区域；在所述一个或多个文本重叠区域中的一个内，分别对水平文本行和垂直文本行的笔画或像素点总数进行计数；以及如果水平文本行的笔画或像素点总数大于垂直文本行的笔画或像素点总数，则确定所述一个或多个文本重叠区域中的所述一个的取向是水平取向，并且如果水平文本行的笔画或像素点总数小于垂直文本行的笔画或像素点总数，则确定所述一个或多个文本重叠区域中的所述一个的取向是垂直取向。

根据本发明的另一方面，还提供了一种文件图像处理设备，其包括：水平文本行提取单元，用于对所述文件图像进行水平文本行提取，以获得水平文本行，其中所述水平文本行的行数用Nh来表示；垂直文本行提取单元，用于对所述文件图像进行垂直文本行提取，以获得垂直文本行，其中所述垂直文本行的列数用Nv来表示；重叠矩阵设置单元，用于设置具有Nh行Nv列的重叠矩阵MO，所述重叠矩阵MO的第i行第j列的元素MO(i，j)的值指示了第i行的水平文本行和第j列的垂直文本行之间的重叠关系，其中1≤i≤Nh并且1≤j≤Nv；垂直合并单元，用于在垂直方向上对所述重叠矩阵MO进行合并，使得如果一列垂直文本行同时与多行水平文本行重叠，则将指示该列垂直文本行和所述多行水平文本行中的每一个之间的重叠关系的所述重叠矩阵MO的元素的值设置为相同值；水平合并单元，用于在水平方向上对所述重叠矩阵MO进行合并，使得如果一行水平文本行同时与多列垂直文本行重叠，则将指示该行水平文本行和所述多列垂直文本行中的每一个之间的重叠关系的所述重叠矩阵MO的元素的值设置为相同值；文本重叠区域确定单元，用于基于所述垂直合并单元和水平合并单元合并后的所述重叠矩阵MO的元素的值，确定所述文件图像中的一个或多个文本重叠区域；计数单元，用于在所述文本重叠区域确定单元确定的一个或多个文本重叠区域中的一个内，分别对水平文本行和垂直文本行的笔画或像素点总数进行计数；以及文本取向确定单元，用于如果所述计数单元计数的水平文本行的笔画或像素点总数大于垂直文本行的笔画或像素点总数，则确定所述一个或多个文本重叠区域中的所述一个的取向是水平取向，并且如果所述计数单元计数的水平文本行的笔画或像素点总数小于垂直文本行的笔画或像素点总数，则确定所述一个或多个文本重叠区域中的所述一个的取向是垂直取向。

根据本发明的另一方面，还提供了用于实现上述文件图像处理方法的计算机程序产品。

根据本发明的另一方面，还提供了计算机可读介质，其上记录有用于实现上述文件图像处理方法的计算机程序代码。

在本发明的上述技术方案中，对文件图像既进行水平文本行提取又进行垂直文本行提取，基于水平文本行和垂直文本行的重叠关系确定文件图像中的一个或多个文本重叠区域，并且基于笔画或像素点总数来确定文本重叠区域的取向。因此，能够从扫描的文件图像中进行快速而可靠的文本行提取，尤其适用于布局分析失败的情况下的复杂文件图像。

附图说明

本发明可以通过参考下文中结合附图所给出的详细描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分，用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中：

图1是示出根据本发明实施例的文件图像处理方法的流程图；

图2是示出作为根据本发明实施例的具体例子的进行水平文本行提取的示图；

图3是示出作为根据本发明实施例的具体例子的进行垂直文本行提取的示图；以及

图4是示出根据本发明实施例的文件图像处理设备的框图。

本领域技术人员应当理解，附图中的元件仅仅是为了简单和清楚起见而示出的，而且不一定是按比例绘制的。例如，附图中某些元件的尺寸可能相对于其它元件放大了，以便有助于提高对本发明实施例的理解。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤，而省略了与本发明关系不大的其它细节。

下面参照附图详细描述根据本发明实施例的文件图像处理方法。

图1是示出根据本发明实施例的文件图像处理方法的流程图。

首先，在步骤S110中，对文件图像进行水平文本行提取。

在复杂的文件图像中，可以包括文本和图像，其中文本既包括水平文本行又包括垂直文本行。通过在步骤S110中对文件图像进行水平文本行提取之后，可以获得文件图像中的水平文本行。这里，水平文本行的行数用Nh来表示。

下一步，在步骤S120中，对文件图像进行垂直文本行提取。

通过执行步骤S120可以获得文件图像中的垂直文本行。这里，垂直文本行的列数用Nv来表示。由此就获得了Nh行的水平文本行和Nv列的垂直文本行。

关于具体的(水平或垂直)文本行提取，存在许多方法。相关的技术文件可参见上面提到的技术文件2以及N.Ezaki，et.Al，“Text detectionfrom natural scene images：towards a system for visually impairedpersons”.International Conference on Pattern Recognition.P683-686，2004(以下称为技术文件3)，该技术文件3的整体内容同样通过引用结合于此。

下一步，在步骤S130中，设置重叠矩阵MO。

重叠矩阵MO具有Nh行和Nv列，以与在步骤S110中获得的水平文本行的行数和在步骤S120中获得的垂直文本行的列数相对应。重叠矩阵MO的第i行第j列的元素MO(i，j)的值指示了第i行的水平文本行和第j列的垂直文本行之间的重叠关系，其中1≤i≤Nh并且1≤j≤Nv。换言之，设置重叠矩阵MO的目的，就是要表达在步骤S110中获得的水平文本行中的每一行和在步骤S120中获得的垂直文本行中的每一列之间的重叠关系。这种重叠关系有助于确定复杂文件图像中的一个或多个文本重叠区域。

根据本发明的优选实施例，MO(i，j)＝0指示第i行的水平文本行和第j列的垂直文本行之间没有重叠，并且MO(i，j)＝i指示第i行的水平文本行和第j列的垂直文本行之间发生重叠。当然，MO(i，j)也可以取其它值来指示第i行的水平文本行和第j列的垂直文本行之间的重叠关系。

下一步，在步骤S140中，在垂直方向上对重叠矩阵MO进行合并。

如果一列垂直文本行同时与多行水平文本行重叠，则将指示该列垂直文本行和所述多行水平文本行中的每一个之间的重叠关系的重叠矩阵MO的元素的值设置为相同值。通过这种合并，使得重叠矩阵MO中的元素的值的多样性减少。最终，可以依据重叠矩阵MO中的值相同的元素的分布情况来确定复杂文件图像中的一个或多个文本重叠区域。

根据本发明的优选实施例，如果一列垂直文本行同时与多行水平文本行重叠，则将指示该列垂直文本行和所述多行水平文本行中的每一个之间的重叠关系的重叠矩阵MO的元素的值设置为它们中的最小值(或者最大值等等)。

下一步，在步骤S150中，在水平方向上对重叠矩阵MO进行合并。

如果一行水平文本行同时与多列垂直文本行重叠，则将指示该行水平文本行和所述多列垂直文本行中的每一个之间的重叠关系的重叠矩阵MO的元素的值设置为相同值。通过这种合并，进一步使得重叠矩阵MO中的元素的值的多样性减少。

根据本发明的优选实施例，如果一行水平文本行同时与多列垂直文本行重叠，则将指示该行水平文本行和所述多列垂直文本行中的每一个之间的重叠关系的重叠矩阵MO的元素的值设置为它们中的最小值(或者最大值等等)。

在文件图像布局简单的情况下，在执行步骤S140和S150之后即可执行下一个步骤。在文件图像布局复杂的情况下，可以反复执行步骤S140和S150，重复在垂直方向上和水平方向上对重叠矩阵MO进行合并，直到重叠矩阵MO的元素的值不再发生变化为止。

下一步，在步骤S160中，基于合并后的重叠矩阵MO的元素的值，确定文件图像中的一个或多个文本重叠区域。

在合并后的重叠矩阵MO中，具有各自不同的相同值的元素分布在不同的区域。按照该相同值的分布，即可确定文件图像中的一个或多个文本重叠区域。

下一步，在步骤S170中，在一个或多个文本重叠区域中的一个内，分别对水平文本行和垂直文本行的笔画或像素点总数进行计数。

对于每一个文本重叠区域而言，在正确取向的文本行中总是会聚集比较多的笔画或像素点总数，而在错误取向的文本行中则会聚集比较少的笔画或像素点总数。

最后，在步骤S180中，确定一个或多个文本重叠区域中的一个的取向。

如果水平文本行的笔画或像素点总数大于垂直文本行的笔画或像素点总数，则确定该文本重叠区域的取向是水平取向。如果水平文本行的笔画或像素点总数小于垂直文本行的笔画或像素点总数，则确定该文本重叠区域的取向是垂直取向。另外需要说明的是，如果水平文本行的笔画或像素点总数刚好等于垂直文本行的笔画或像素点总数，则无法确定该文本重叠区域的取向是水平取向还是垂直取向。在这种特殊情况下，不对这个文本重叠区域的取向进行判断。

采用根据本发明的上述文件图像处理方法，可以从扫描的文件图像中快速确定一个或多个文本重叠区域及其正确的取向，这尤其适用于布局分析失败的情况下的复杂文件图像。

在确定了文件图像中的文本重叠区域的取向的情况下，如果确定一个或多个文本重叠区域中的每一个的取向是水平取向，则确定文件图像是水平取向；如果确定一个或多个文本重叠区域中的每一个的取向是垂直取向，则确定文件图像是垂直取向；而如果确定一个或多个文本重叠区域的取向既包括水平取向又包括垂直取向，则确定文件图像是混合取向。

在下文中，参考图2和3来具体地描述根据本发明的文件图像处理方法。

图2是示出作为根据本发明实施例的具体例子的进行水平文本行提取的示图。如图2所示，在对文件图像进行水平文本行提取之后，获得了5行水平文本行，分别用H-1、H-2、H-3、H-4和H-5来表示。

图3是示出作为根据本发明实施例的具体例子的进行垂直文本行提取的示图。如图3所示，在对文件图像进行垂直文本行提取之后，获得了7列垂直文本行，分别用V-1、V-2、V-3、V-4、V-5、V-6和V-7来表示。

根据获得的5行水平文本行和7列垂直文本行之间的重叠关系，可以设置如表1所示的5行7列的重叠矩阵MO。

表1

	V-1	V-2	V-3	V-4	V-5	V-6	V-7
								H-1	1	0	0	0	0	0	0
H-2	2	2	0	0	0	0	0
								H-3	3	3	0	0	0	0	0
H-4	4	0	0	0	0	0	0
								H-5	0	0	5	5	5	5	5

如表1所示，重叠矩阵MO的第i行第j列的元素MO(i，j)的值指示了第i行的水平文本行和第j列的垂直文本行之间的重叠关系。当第i行的水平文本行和第j列的垂直文本行之间没有重叠时，MO(i，j)＝0。当第i行的水平文本行和第j列的垂直文本行之间发生重叠时，MO(i，j)＝i。

然后，在垂直方向上对如表1所示的重叠矩阵MO进行合并。

首先对第V-1列进行合并。第V-1列垂直文本行同时与第H-1、H-2、H-3和H-4行水平文本行重叠。扫描得到MO(1，1)、MO(2，1)、MO(3，1)和MO(4，1)中的最小值为1。所以，将MO(1，1)、MO(2，1)、MO(3，1)和MO(4，1)的值全都设置为1，得到表2。

表2

	V-1	V-2	V-3	V-4	V-5	V-6	V-7
								H-1	1	0	0	0	0	0	0
H-2	1	2	0	0	0	0	0
								H-3	1	3	0	0	0	0	0
H-4	1	0	0	0	0	0	0
								H-5	0	0	5	5	5	5	5

然后对V-2列进行合并。第V-2列垂直文本行同时与第H-2和H-3行水平文本行重叠。扫描得到MO(2，2)和MO(3，2)中的最小值为2。所以，将MO(2，2)和MO(3，2)的值全都设置为2，得到表3。

表3

	V-1	V-2	V-3	V-4	V-5	V-6	V-7
								H-1	1	0	0	0	0	0	0
H-2	1	2	0	0	0	0	0
								H-3	1	2	0	0	0	0	0
H-4	1	0	0	0	0	0	0
								H-5	0	0	5	5	5	5	5

在垂直方向上对重叠矩阵MO进行合并完成之后，再在水平方向上对如表3所示的重叠矩阵MO进行合并。

首先对第H-1行进行合并。第H-1行水平文本行同时与第V-1和V-2列垂直文本行重叠。扫描得到MO(2，1)和MO(2，2)中的最小值为1。所以，将MO(2，1)和MO(2，2)的值全都设置为1，得到表4。

表4

	V-1	V-2	V-3	V-4	V-5	V-6	V-7
								H-1	1	0	0	0	0	0	0
H-2	1	1	0	0	0	0	0
								H-3	1	2	0	0	0	0	0
H-4	1	0	0	0	0	0	0
								H-5	0	0	5	5	5	5	5

然后对第H-3行进行合并。第H-3行水平文本行同时与第V-1和V-2列垂直文本行重叠。扫描得到MO(3，1)和MO(3，2)中的最小值为1。所以，将MO(3，1)和MO(3，2)的值全都设置为1，得到表5。

表5

	V-1	V-2	V-3	V-4	V-5	V-6	V-7
								H-1	1	0	0	0	0	0	0
H-2	1	1	0	0	0	0	0
								H-3	1	1	0	0	0	0	0
H-4	1	0	0	0	0	0	0
								H-5	0	0	5	5	5	5	5

由于如图2和3所示的文件图像的例子布局简单，所以在进行一次垂直方向和水平方向的重叠矩阵MO的合并之后，就完成了重叠矩阵MO的合并过程。然而在文件图像布局复杂的情况下，可能需要重复在垂直方向上和水平方向上对重叠矩阵MO进行合并，直到重叠矩阵MO的元素的值不再发生变化为止。

接下来，基于如表5所示的合并后重叠矩阵MO的元素值，确定文件图像中的一个或多个文本重叠区域。如图2和3所示的文件图像具有两个文本重叠区域。第一个文本重叠区域包括第H-1、H-2、H-3和H-4行水平文本行以及第V-1和V-2列垂直文本行。第二个文本重叠区域包括第H-5水平文本行以及第V-3、V-4、V-5、V-6和V-7列垂直文本行。

然后，在第一个文本重叠区域中，分别对第H-1、H-2、H-3和H-4行水平文本行以及第V-1和V-2列垂直文本行的笔画或像素点总数进行计数。从图2和2可以明显地看出，第H-1、H-2、H-3和H-4行水平文本行中的笔画或像素点总数大于第V-1和V-2列垂直文本行中的笔画或像素点总数。因此，可以确定第一个文本重叠区域的取向是水平取向。

然后，在第二个文本重叠区域中，分别对第H-5水平文本行以及第V-3、V-4、V-5、V-6和V-7列垂直文本行的笔画或像素点总数进行计数。从图2和2可以明显地看出，第H-5水平文本行中的笔画或像素点总数小于第V-3、V-4、V-5、V-6和V-7列垂直文本行中的笔画或像素点总数。因此，可以确定第二个文本重叠区域的取向是垂直取向。

因为如图2和3所示的文件图像中包括的文本重叠区域的取向既包括水平取向又包括垂直取向，所以可以确定该文件图像是混合取向。

在上面描述的根据本发明的文件图像处理方法的例子中，首先在垂直方向上对重叠矩阵MO进行合并，然后在水平方向上对重叠矩阵MO进行合并。然而，本发明不限于此。例如，也可以首先在水平方向上对重叠矩阵MO进行合并，然后在垂直方向上对重叠矩阵MO进行合并。而且，在对重叠矩阵MO进行合并时，也可以在垂直方向上和水平方向上交叉进行。亦即，不必在垂直方向上对所有的垂直文本行合并完成之后再在水平方向上对所有的水平文本行进行合并，而是可以在垂直方向上对一列垂直文本行合并完成之后，即可在水平方向上对一行水平文本行进行合并。本发明对重叠矩阵MO的合并顺序并没有特殊要求。

下面参照附图详细描述根据本发明实施例的文件图像处理设备。

图4是示出根据本发明实施例的文件图像处理设备400的框图。

如图4所示，根据本发明的实施例的设备400包括水平文本行提取单元410、垂直文本行提取单元420、重叠矩阵设置单元430、垂直合并单元440、水平合并单元450、文本重叠区域确定单元460、计数单元470和文本取向确定单元480。

水平文本行提取单元410用于对文件图像进行水平文本行提取，以获得水平文本行，其中水平文本行的行数用Nh来表示。

垂直文本行提取单元420用于对文件图像进行垂直文本行提取，以获得垂直文本行，其中垂直文本行的列数用Nv来表示。

重叠矩阵设置单元430用于设置具有Nh行Nv列的重叠矩阵MO，所述重叠矩阵MO的第i行第j列的元素MO(i，j)的值指示了第i行的水平文本行和第j列的垂直文本行之间的重叠关系，其中1≤i≤Nh并且1≤j≤Nv。

垂直合并单元440用于在垂直方向上对重叠矩阵MO进行合并，使得如果一列垂直文本行同时与多行水平文本行重叠，则将指示该列垂直文本行和所述多行水平文本行中的每一个之间的重叠关系的所述重叠矩阵MO的元素的值设置为相同值。

水平合并单元450用于在水平方向上对重叠矩阵MO进行合并，使得如果一行水平文本行同时与多列垂直文本行重叠，则将指示该行水平文本行和所述多列垂直文本行中的每一个之间的重叠关系的所述重叠矩阵MO的元素的值设置为相同值。

文本重叠区域确定单元460用于基于垂直合并单元440和水平合并单元450合并后的重叠矩阵MO的元素的值，确定文件图像中的一个或多个文本重叠区域。

计数单元470用于在文本重叠区域确定单元460确定的一个或多个文本重叠区域中的一个内，分别对水平文本行和垂直文本行的笔画或像素点总数进行计数。

文本取向确定单元480用于如果计数单元470计数的水平文本行的笔画或像素点总数大于垂直文本行的笔画或像素点总数，则确定该文本重叠区域的取向是水平取向，并且如果计数单元470计数的水平文本行的笔画或像素点总数小于垂直文本行的笔画或像素点总数，则确定该文本重叠区域的取向是垂直取向。

根据本发明的实施例，在文本重叠区域确定单元460确定文件图像中的一个或多个文本重叠区域之前，垂直合并单元440和水平合并单元450可以重复在垂直方向上和水平方向上对重叠矩阵MO进行合并，直到重叠矩阵MO的元素的值不再发生变化为止。

根据本发明的实施例，MO(i，j)＝0指示第i行的水平文本行和第j列的垂直文本行之间没有重叠，并且MO(i，j)＝i指示第i行的水平文本行和第j列的垂直文本行之间发生重叠。如果一列垂直文本行同时与多行水平文本行重叠，则垂直合并单元440将指示该列垂直文本行和所述多行水平文本行中的每一个之间的重叠关系的重叠矩阵MO的元素的值设置为它们中的最小值。如果一行水平文本行同时与多列垂直文本行重叠，则水平合并单元450将指示该行水平文本行和所述多列垂直文本行中的每一个之间的重叠关系的所述重叠矩阵MO的元素的值设置为它们中的最小值。

根据本发明的实施例，设备400可以进一步包括图像取向确定单元(未示出)，该图像取向确定单元用于：如果文本取向确定单元480确定一个或多个文本重叠区域中的每一个的取向是水平取向，则确定文件图像是水平取向；如果文本取向确定单元480确定一个或多个文本重叠区域中的每一个的取向是垂直取向，则确定文件图像是垂直取向；以及如果文本取向确定单元480确定一个或多个文本重叠区域的取向既包括水平取向又包括垂直取向，则确定文件图像是混合取向。

该设备400中的上述各个单元的各种具体实施方式前面已经作过详细描述，在此不再重复说明。

显然，根据本发明的上述方法的各个操作过程可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。

而且，本发明的目的也可以通过下述方式实现：将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备，并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。此时，只要该系统或者设备具有执行程序的功能，则本发明的实施方式不局限于程序，并且该程序也可以是任意的形式，例如，目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。

上述这些机器可读存储介质包括但不限于：各种存储器和存储单元，半导体设备，磁盘单元例如光、磁和磁光盘，以及其它适于存储信息的介质等。

另外，计算机通过连接到因特网上的相应网站，并且将依据本发明的计算机程序代码下载和安装到计算机中然后执行该程序，也可以实现本发明。

在本发明的设备和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

以上虽然结合附图详细描述了本发明的实施例，但是应当明白，上面所描述的实施方式只是用于说明本发明，而并不构成对本发明的限制。对于本领域的技术人员来说，可以对上述实施方式作出各种修改和变更而没有背离本发明的实质和范围。因此，本发明的范围仅由所附的权利要求及其等效含义来限定。

通过上面对本发明的实施例的描述可知，本发明涵盖的技术方案包括但不限于如下的内容：

附记1.一种文件图像处理方法，包括：

对所述文件图像进行水平文本行提取，以获得水平文本行，其中所述水平文本行的行数用Nh来表示；

对所述文件图像进行垂直文本行提取，以获得垂直文本行，其中所述垂直文本行的列数用Nv来表示；

设置具有Nh行Nv列的重叠矩阵MO，所述重叠矩阵MO的第i行第j列的元素MO(i，j)的值指示了第i行的水平文本行和第j列的垂直文本行之间的重叠关系，其中1≤i≤Nh并且1≤j≤Nv；

在垂直方向上对所述重叠矩阵MO进行合并，使得如果一列垂直文本行同时与多行水平文本行重叠，则将指示该列垂直文本行和所述多行水平文本行中的每一个之间的重叠关系的所述重叠矩阵MO的元素的值设置为相同值；

在水平方向上对所述重叠矩阵MO进行合并，使得如果一行水平文本行同时与多列垂直文本行重叠，则将指示该行水平文本行和所述多列垂直文本行中的每一个之间的重叠关系的所述重叠矩阵MO的元素的值设置为相同值；

基于合并后的所述重叠矩阵MO的元素的值，确定所述文件图像中的一个或多个文本重叠区域；

在所述一个或多个文本重叠区域中的一个内，分别对水平文本行和垂直文本行的笔画或像素点总数进行计数；以及

如果水平文本行的笔画或像素点总数大于垂直文本行的笔画或像素点总数，则确定所述一个或多个文本重叠区域中的所述一个的取向是水平取向，并且如果水平文本行的笔画或像素点总数小于垂直文本行的笔画或像素点总数，则确定所述一个或多个文本重叠区域中的所述一个的取向是垂直取向。

附记2.根据附记1所述的方法，进一步包括：

在确定所述文件图像中的一个或多个文本重叠区域之前，重复在垂直方向上和水平方向上对所述重叠矩阵MO进行合并，直到所述重叠矩阵MO的元素的值不再发生变化为止。

附记3.根据附记1或2所述的方法，其中，

MO(i，j)＝0指示第i行的水平文本行和第j列的垂直文本行之间没有重叠；

MO(i，j)＝i指示第i行的水平文本行和第j列的垂直文本行之间发生重叠；

如果一列垂直文本行同时与多行水平文本行重叠，则将指示该列垂直文本行和所述多行水平文本行中的每一个之间的重叠关系的所述重叠矩阵MO的元素的值设置为它们中的最小值；并且

如果一行水平文本行同时与多列垂直文本行重叠，则将指示该行水平文本行和所述多列垂直文本行中的每一个之间的重叠关系的所述重叠矩阵MO的元素的值设置为它们中的最小值。

附记4.根据附记1所述的方法，进一步包括：

如果确定所述一个或多个文本重叠区域中的每一个的取向是水平取向，则确定所述文件图像是水平取向；

如果确定所述一个或多个文本重叠区域中的每一个的取向是垂直取向，则确定所述文件图像是垂直取向；以及

如果确定所述一个或多个文本重叠区域的取向既包括水平取向又包括垂直取向，则确定所述文件图像是混合取向。

附记5.一种文件图像处理设备，包括：

水平文本行提取单元，用于对所述文件图像进行水平文本行提取，以获得水平文本行，其中所述水平文本行的行数用Nh来表示；

垂直文本行提取单元，用于对所述文件图像进行垂直文本行提取，以获得垂直文本行，其中所述垂直文本行的列数用Nv来表示；

重叠矩阵设置单元，用于设置具有Nh行Nv列的重叠矩阵MO，所述重叠矩阵MO的第i行第j列的元素MO(i，j)的值指示了第i行的水平文本行和第j列的垂直文本行之间的重叠关系，其中1≤i≤Nh并且1≤j≤Nv；

垂直合并单元，用于在垂直方向上对所述重叠矩阵MO进行合并，使得如果一列垂直文本行同时与多行水平文本行重叠，则将指示该列垂直文本行和所述多行水平文本行中的每一个之间的重叠关系的所述重叠矩阵MO的元素的值设置为相同值；

水平合并单元，用于在水平方向上对所述重叠矩阵MO进行合并，使得如果一行水平文本行同时与多列垂直文本行重叠，则将指示该行水平文本行和所述多列垂直文本行中的每一个之间的重叠关系的所述重叠矩阵MO的元素的值设置为相同值；

文本重叠区域确定单元，用于基于所述垂直合并单元和水平合并单元合并后的所述重叠矩阵MO的元素的值，确定所述文件图像中的一个或多个文本重叠区域；

计数单元，用于在所述文本重叠区域确定单元确定的一个或多个文本重叠区域中的一个内，分别对水平文本行和垂直文本行的笔画或像素点总数进行计数；以及

文本取向确定单元，用于如果所述计数单元计数的水平文本行的笔画或像素点总数大于垂直文本行的笔画或像素点总数，则确定所述一个或多个文本重叠区域中的所述一个的取向是水平取向，并且如果所述计数单元计数的水平文本行的笔画或像素点总数小于垂直文本行的笔画或像素点总数，则确定所述一个或多个文本重叠区域中的所述一个的取向是垂直取向。

附记6.根据附记5所述的设备，其中，在所述文本重叠区域确定单元确定所述文件图像中的一个或多个文本重叠区域之前，所述垂直合并单元和所述水平合并单元重复在垂直方向上和水平方向上对所述重叠矩阵MO进行合并，直到所述重叠矩阵MO的元素的值不再发生变化为止。

附记7.根据附记5或6所述的设备，其中，

如果一列垂直文本行同时与多行水平文本行重叠，则所述垂直合并单元将指示该列垂直文本行和所述多行水平文本行中的每一个之间的重叠关系的所述重叠矩阵MO的元素的值设置为它们中的最小值；并且

如果一行水平文本行同时与多列垂直文本行重叠，则所述水平合并单元将指示该行水平文本行和所述多列垂直文本行中的每一个之间的重叠关系的所述重叠矩阵MO的元素的值设置为它们中的最小值。

附记8.根据附记5所述的设备，进一步包括图像取向确定单元，该图像取向确定单元用于：

如果所述文本取向确定单元确定所述一个或多个文本重叠区域中的每一个的取向是水平取向，则确定所述文件图像是水平取向；

如果所述文本取向确定单元确定所述一个或多个文本重叠区域中的每一个的取向是垂直取向，则确定所述文件图像是垂直取向；以及

如果所述文本取向确定单元确定所述一个或多个文本重叠区域的取向既包括水平取向又包括垂直取向，则确定所述文件图像是混合取向。

附记9.一种程序产品，包括存储在其中的机器可读指令代码，其中，所述指令代码当由计算机读取和执行时，能够使所述计算机执行根据附记1-4中任何一项所述的方法。

附记10.一种机器可读存储介质，其上携带有根据附记9所述的程序产品。

Claims

1.一种文件图像处理方法，包括：

设置具有Nh行Nv列的重叠矩阵MO，所述重叠矩阵MO的笫i行第j列的元素MO(i，j)的值指示了第i行的水平文本行和笫j列的垂直文本行之间的重叠关系，其中1≤i≤Nh并且1≤j≤Nv；

在所述文件图像布局简单的情况下，基于合并后的所述重叠矩阵MO的元素的值，确定所述文件图像中的一个或多个文本重叠区域；

2.根据权利要求1所述的方法，进一步包括：

在所述文件图像布局复杂的情况下，在确定所述文件图像中的一个或多个文本重叠区域之前，重复在垂直方向上和水平方向上对所述重叠矩阵MO进行合并，直到所述重叠矩阵MO的元素的值不再发生变化为止。

3.根据权利要求1或2所述的方法，其中，

MO(i，i)＝i指示第i行的水平文本行和第j列的垂直文本行之间发生重叠；

4.根据权利要求1所述的方法，进一步包括：

5.一种文件图像处理设备，包括：

文本重叠区域确定单元，用于在所述文件图像布局简单的情况下，基于所述垂直合并单元和水平合并单元合并后的所述重叠矩阵MO的元素的值，确定所述文件图像中的一个或多个文本重叠区域；

6.根据权利要求5所述的设备，其中，在所述文件图像布局复杂的情况下，在所述文本重叠区域确定单元确定所述文件图像中的一个或多个文本重叠区域之前，所述垂直合并单元和所述水平合并单元重复在垂直方向上和水平方向上对所述重叠矩阵MO进行合并，直到所述重叠矩阵MO的元素的值不再发生变化为止。

7.根据权利要求5或6所述的设备，其中，

8.根据权利要求5所述的设备，进一步包括图像取向确定单元，该图像取向确定单元用于：