CN102262618B

CN102262618B - 一种版面信息识别的方法及装置

Info

Publication number: CN102262618B
Application number: CN201010193898.0A
Authority: CN
Inventors: 高良才; 汤帜; 房婧; 仇睿恒
Original assignee: BEIDA FANGZHENG TECHN INST Co Ltd BEIJING; Peking University; Peking University Founder Group Co Ltd
Current assignee: New Founder Holdings Development Co ltd; Peking University; Peking University Founder Research and Development Center
Priority date: 2010-05-28
Filing date: 2010-05-28
Publication date: 2014-07-09
Anticipated expiration: 2030-05-28
Also published as: CN102262618A

Abstract

本发明提供一种版面信息识别方法，包括：读取待识别版面，分离字符文本对象与图像对象，合并文本块，将图像对象保留为图像块；从合并的文本块中识别出图注文本块；利用优化方法对图像块和图注文本块进行最优匹配，从而获得相关联的图像块与图注文本块；从所述版面的文本块中去掉图注文本块，并确定其余文本块和图像块的阅读顺序；在阅读顺序中将图注文本块插回到相关联的图像块之后。相应地，本发明提供一种版面信息识别装置。本发明将版面上的全部图像和图注综合考虑，通过最优匹配方法获得图像与图注的全局最优匹配，不受图像与图注数目以及它们之间空间样式的限制，能够从全局上找到最优的关联关系，从而改进现有的版面阅读顺序识别效果。

Description

一种版面信息识别的方法及装置

技术领域

本发明涉及数字文档处理技术领域，尤其涉及数字文档中版面信息的识别，其中，包括图注的识别、图像与图注的关联关系的识别和利用识别的图像与图注的关联关系来改进阅读顺序的识别效果。

背景技术

近年来，数字文档结构抽取技术已成为数字文档分析与理解领域的研究热点，它包含布局结构抽取和逻辑结构抽取两方面。其中，布局结构抽取主要目的是将文档版面划分成块，一般用树状结构来表示块之间的布局关系，该方向的研究已较为成熟；而现有的逻辑结构抽取技术主要限于将布局分析得到的分块赋予不同的逻辑含义，例如章节、标题、段落、作者及单位、脚注、图表、页码等，从而得到逻辑部件。

但是，对于逻辑部件之间的关系，例如，图像与图注的关联关系、版面阅读顺序识别等，研究相对较少。而逻辑部件之间的关系对于版面信息的正确识别具有重要的意义，比如，图像与图注的关联关系的识别，不但能够用于提高版面阅读顺序的识别效果，而且对于图像检索等研究也有重要意义。

当前的图像与图注的关联识别研究，主要采用距离靠近原则，并且多依赖图注通常位于图像正上方或正下方并且居中的特征，选取距离图像最近的图注为其标题，例如可参见“Logical StructureAnalysis of Book Document Images Using Contents Information”，Proceedings of International Conference on Document Analysisand Recognition，1997。这种方法的缺点在于，当页面上含有多个图像时，特别是随着数字文档版面布局的多样化，图像与图注的空间布局变得越来越复杂，按照距离靠近原则选取图像的图注容易导致匹配错乱，也就是说，仅靠单个图像与图注的距离和样式，很难正确地确定复杂版面中多个图像与图注的关联关系。

发明内容

为了解决以上问题，本发明提供一种版面信息识别的方法及装置，其中，包括图注的识别、图像与图注的关联关系的识别和利用识别的图像与图注的关联关系来改进阅读顺序的识别效果。通过这种方法，可正确地识别复杂版面中逻辑元素图注以及图像与图注的关联关系，并可利用识别出来的图像与图注的关联关系来改进复杂版面中阅读顺序的识别效果。

为了实现以上目的，本发明提供一种识别图注的方法，包括以下步骤：读取待识别版面，分离该版面中的字符文本对象与图像对象，并将字符文本对象合并成文本块，将图像对象保留为图像块；从合并的文本块中识别出图注文本块。其中，根据文档布局结构分析方法和/或根据数字文档中的数据对象类型来分离字符文本对象与图像对象；根据以下中的至少一种来识别图注文本块：文本块的字体属性、文本块与图像块的距离、文本块的字数、文本块是否符合图注的表现形式。

本发明提供一种识别图像和图注的关联关系的方法，包括以下步骤：利用上述识别图注的方法来识别图注文本块和图像块；利用优化方法对图像块和图注文本块进行最优匹配，从而获得相关联的图像块与图注文本块。其中，优选地，利用优化方法使实现最优匹配的图像块和图注文本块之间的距离之和最小，更优选地，可采用二分图最优匹配方法来匹配图像块与图注文本块。

本发明提供一种改进版面阅读顺序的识别效果的方法，包括以下步骤：利用上述识别图像与图注的关联关系的方法来识别图像块与图注文本块之间的匹配关系；从版面的文本块中去掉图注文本块，并识别其余文本块和图像块的阅读顺序；在阅读顺序中将图注文本块插回到相匹配的图像块之后。

为了实现以上方法，本发明提供一种版面信息识别装置，包括：读取单元、图注识别单元、匹配单元、阅读顺序改进单元和输出单元，其中，输出单元可根据实际需要分别输出阅读顺序、图像块与图注文本块的关联关系、识别的图注文本块、按照识别的阅读顺序排列的文本块和图像块。这些单元的具体操作与上述方法中的相应步骤相同。

本发明将版面上的全部图像和图注综合考虑，通过最优匹配方法获得图像与图注的全局最优匹配，不受图像与图注数目以及它们之间空间样式的限制，能够从全局上找到最优的关联关系。同时，通过图像与图注的全局最优匹配，能够很大程度上改进现有的版面阅读顺序识别效果。

附图说明

图1是根据本发明构造的带权二分图构造的示意图；

图2是根据本发明的版面信息识别装置的示意性框图；

图3是第一实施例中的示意性页面；

图4是第一实施例中的识别方法的流程图；

图5是第一实施例中图注识别方法的流程图；

图6a和图6b分别是第一实施例中的二分图构造以及KM算法计算的最优匹配结果的示意图；

图7是第一实施例中KM算法的流程图；

图8是利用现有的基于XY树的页面分块的原始方法对图3所示页面进行阅读顺序排序的效果图；

图9是第一实施例中利用本发明方法对图3所示页面进行阅读顺序排序的效果图；

图10是第二实施例中的示意性页面。

具体实施方式

以下，将结合附图和实施例对本发明进行详细描述。

本发明的主要研究对象包括图注的识别以及图像与图注的关联关系的识别，旨在通过这些版面信息的识别来改进阅读顺序的识别效果和其它逻辑结构抽取等相关应用。本发明主要应用于满足以下条件的数字文档：能够按页读取数字文档，能够获取每页的字符文本对象与图像对象以及它们的字体、位置坐标等相关属性，比如，一般的PDF文档和方正公司制作的CEBX格式的数字文档。

在本发明中，图注识别方法包括以下步骤：

(1)读取待识别版面，分离该版面中的字符文本对象与图像对象，并将字符文本对象合并成文本块，将图像对象保留为图像块。其中，可根据文档布局结构分析方法和/或根据数字文档中的数据对象类型来分离字符文本对象与图像对象；

(2)从合并的文本块中识别出图注类型的文本块，即，图注文本块，比如，可根据以下中的至少一种来识别图注文本块：文本块内主要字体的字号、文本块与图像块的距离、文本块的字数、文本块是否符合图注的表现形式。

在从文本块中识别出图注文本块之后，通过优化方法对图像块和图注文本块进行最优匹配，从而获得相关联的图像块与图注文本块。

具体地讲，在一个实施例中，由于相互关联的图像块与图注文本块之间的距离通常接近(或者最接近)，所以为了使所有的图像都找到相关联的图注(或者使所有的图注都找到相关联的图像)，可以将与该图像相距足够近(或者最近)的图注作为与其相关联的图注。在这种情况下，可以利用优化方法使实现最优匹配的图像块和图注文本块之间的距离之和最小。

这里，可采用二分图最优匹配方法来实现最优匹配的图像块和图注文本块之间的距离之和最小，具体如下：

(1)构造带权二分图G＝{X，Y，E}

如图1所示，在该二分图中，将图像块集合与图注文本块集合分别作为二分图的X、Y两个子集合，分别表示为X＝{X₁，X₂，…X_i，…X_n}和Y＝{Y₁，Y₂，…Y_j，…Y_m}，其中，n为版面内图像块的数目，i为图像块的编号，m为版面内图注文本块的数目，j为图注文本块的编号。E＝{e_ij}表示连接顶点集合X和Y的边集合，其中的元素e_ij表示图像块X_i与图注文本块Y_j的边，其权值ω_ij为图像块X_i的外接矩形框的中心点与图注文本块Y_j的外接矩形框的中心点之间的欧式距离。

(2)利用二分图最优匹配算法获得图像块与图注文本块的最优匹配

在具体实现时，可将图1所示二分图中的边e_ij的权值ω_ij取反，并利用KM(Kuhn-Munkras)最大权匹配算法进行最优完备匹配，从而获得具有最小权匹配结果的图像与图注文本块作为最优匹配的图像块与图注文本块。

当版面上的图像块与图注文本块的数目不是一一对应时，用虚拟节点将数目少的子集合补齐，即，使两个子集合的数目相等，并赋予一个大数作为虚拟边的权值。

在正确识别出图像与图注的关联关系之后，利用这些关联关系来改进阅读顺序的识别效果，具体如下：

(1)从版面的文本块中去掉图注文本块，可利用现有的阅读顺序方法来确定其余文本块和图像块的阅读顺序；

(2)在阅读顺序中将图注文本块插回到相匹配的图像块之后，从而得到完整的阅读顺序。

通过这种方法，既保证在排序过程中，逻辑关系紧密的图像与图注不会被其它文档对象拆分，又避免过早地合并图像与图注容易造成版面分块之间的交叠影响排序算法的执行的问题，从而很大程度上提高了阅读顺序识别的正确率。

这里，应该指出，根据本发明方法识别的图注不仅可用于识别图像与图注的关联关系，而且还可用于需要利用图注的任何其它应用，比如图像检索等；根据本发明方法识别的图像与图注的关联关系不仅可用于改进阅读顺序的识别效果，而且还可用于需要利用图像与图注的关联关系的任何其它应用，比如图像检索等；根据本发明方法改进的阅读顺序可用于版面内容重排和信息抽取等需要利用阅读顺序的任何应用。因此，可根据实际应用需要分别输出根据本发明识别的阅读顺序、图像块与图注文本块的关联关系、识别的图注文本块、按照识别的阅读顺序排列的文本块和图像块以供任何需要这些识别信息的应用使用。

为了实现以上方法，本发明提供一种版面信息识别装置。参照图2，该装置可包括读取单元1、图注识别单元2、匹配单元3、阅读顺序改进单元4和输出单元5，其中，读取单元1读取待识别版面，分离该版面中的字符文本对象与图像对象，并将字符文本对象合并成文本块，将图像对象保留为图像块；图注识别单元2从合并的文本块中识别出图注文本块；匹配单元3利用优化方法对图像块和图注文本块进行最优匹配，从而获得相关联的图像块与图注文本块；阅读顺序改进单元4从版面的文本块中去掉图注文本块，并确定其余文本块和图像块的阅读顺序，然后在阅读顺序中将图注文本块插回到相匹配的图像块之后；输出单元5根据实际应用需要可分别输出识别的阅读顺序、图像块与图注文本块的关联关系、识别的图注文本块、按照识别的阅读顺序排列的文本块和图像块以供需要利用这些识别信息的任何应用使用。这些单元的具体操作与上述方法中的相应步骤相同，因此，省略其详细描述。

以下，将通过具体的实施例来对本发明的具体实现进行详细描述。

(第一实施例)

在本实施例中，采用电子图书《21世纪计算机基础教程》(北京邮电大学出版社)，该电子图书共有317页，待识别版面如图3所示，基于二分图最优匹配来识别图像与图注的关联关系。

参照图4，本实施例中的识别方法包括以下步骤：

步骤S1、读取页面和分离文本对象与图像对象

在本实施例中，页面分块情况如图3中的矩形框所示，其中存在四个图像块与五个文本块。

步骤S2、识别图注文本块

在本实施例中，通过设置置信度来确定当前文本块是否是图注文本块。参照图5，该步骤具体如下：

步骤S21、计算字号置信度Q1

Q1＝当前文本块主要字体的字号/版面内所有字符文本的主要字体的字号

其中，关于主要字体的计算，采用现有技术统计一定范围内出现频率最高的字体作为主要字体。在本实施例中，图注文本块的主要字体的字号为9，页面内所有字符的主要字体的字号为10.56，置信度Q1＝9/10.56＝0.85。

步骤S22、计算距离图像置信度Q2

Q2＝是否与图像块距离接近

在本实施例中，四个图注文本块分别与图像块位置接近，因而置信度Q均为1。

步骤S23、计算字数置信度Q3

Q3＝当前文本块中的文字个数/版面文本块的平均文字个数

在本实施例中，四个图注文本块的文字个数分别为10，12，11，11，页面内文本块的平均文字个数为25，因此，置信度Q3分别为0.4，0.48，0.44和0.44。

步骤S24、计算表现形式置信度Q4

Q4＝是否符合图注的正则表达式

在本实施例中，将正则表达式定义为：^(图[[：空格：]]*[[：数字：]]+([-.][[：数字：]]+|\\([[：数字：]]+\\)))，即形如“图1-1”“图1.1”等常规形式，四个图注文本块均满足该形式，因而置信度Q4均为1。当然，应该理解，上述正则表达式仅仅是表示当前文本块是否符合图注的表现形式的示例性实现，任何可表达当前文本块是否符合图注的表现形式均应包括在本发明的保护范围内。

步骤S25、加权计算总体置信度R

R＝(u×Q1+v×Q2+w×Q3+x×Q4)/(u+v+w+x)

其中，u，v，w，x表示加权系数，均为自然数，在本实施例中取u＝3，v＝2，w＝1，x＝1，经计算四个图注文本块的总体置信度分别为0.85，0.86，0.85和0.85。

步骤S26、判断总体置信度R是否超过阈值r，如果R≥r，则在步骤S27中判断当前文本块为图注文本块，如果R＜r，则在步骤S28中判断当前文本块不是图注文本块。在本实施例中，取阈值r为0.7，即当总体置信度超过0.7时，即判断当前文本块为图注文本块，因此，图3中四个图注文本块均能被正确识别。

步骤S3、构造图像块和图注文本块的二分图并计算权值

在本实施例中，构造如图6a所示的带权二分图G＝{X，Y，E}，即，将图3中的图像块集合与图注文本块集合分别作为二分图的X，Y两个子集合，即，X＝{X₁，X₂，X₃，X₄}，Y＝{Y₁，Y₂，Y₃，Y₄}，并且以图像块外接矩形框的中心点和图注文本块外接矩形框的中心点的欧式距离作为边集合E中的边e_ij的权值ω_ij。因此，在本实施例中，需要分别计算ω₁₁、ω₁₂、ω₁₃、ω₁₄、ω₂₁、ω₂₂、ω₂₃、ω₂₄、ω₃₁、ω₃₂、ω₃₃、ω₃₄、ω₄₁、ω₄₂、ω₄₃、ω₄₄，并且由于图像数目和图注数目一一对应，所以无需补齐节点。

步骤S4、利用KM算法寻找图像块与图注文本块之间的关联关系

在本实施例中，优化的目标为使匹配结果中所有匹配对的边的权值之和尽可能小，因此，需要计算二分图的最小权匹配。实际实现中，对所有边的权值实施取反操作，并应用KM最大权匹配算法计算出最大权匹配结果，该结果即为图像与图注的最小权匹配结果。

参照图7，KM算法具体实现如下：

a)给出初始标号

l (x_{i}) = \max_{j} ω_{ij}, l (y_{j}) = 0, i, j = 1,2 . . ., t, t = \max (n, m)

其中，在本实施例中，n和m均为4；

b)求出边集E_l＝{(xi，y_j)|l(xi)+l(y_j)＝ωij}、G_l＝(X，Y，E_l)及G_l中的一个匹配M；

c)判断M是否已饱和X的所有节点，如果M已饱和X的所有结点，则进行第d步，否则进行第e步；

d)判断M为G的最优匹配，并结束计算；

e)在X中找一M非饱和点x₀，令A←{x₀}，B←φ，A，B是两个集合；

f)判断N_Gl(A)是否等于B，如果N_Gl(A)＝B，则转第k步，否则进行第g步，其中，是与A中节点邻接的节点集合；

g)找一结点y∈N_Gl(A)-B；

h)判断y是否是M饱和点，如果y是M饱和点，则进行第i步，否则进行第j步；

i)找出y的配对点z，令A←A∪{z}，B←B∪{y}，转第f步；

j)存在一条从x0到y的可增广路P，令M←M⊕E(P)，转第c步；

k)按下式计算a值：

a = \underset{y_{j} &NotElement; N_{Gl} (A)}{\min_{x_{i} &Element; A}} {l (xi) + l (y_{j}) - ωij},

修改标号：

l)根据l′求E_l′及G_l′；

m)令l←l′，G_l←G_l′，转第g步。

通过以上KM算法即可得到图像与图注的关联关系，即，对每个图像块X_i找到匹配的图注文本块Y_j。在本实施例中，如图6a所示，四个图像和四个图注可以构成完备二分图，匹配结果如图6b中连线所示。如果利用现有的距离靠近原则判断方法，仅靠单个图像和图注的距离和样式，容易混淆关联关系，例如图像块3和图像块4均与图注文本块3距离相近，无法正确判断图像与图注的关联关系。而通过本发明，则可找到全局最优关联关系，即，可将图像块3与图注文本块3关联，将图像块4与图注文本块4关联。

步骤S5、输出版面中全部的相匹配的图像块与图注文本块，并用于改进版面阅读顺序的识别效果

具体实现如下：

a)在保留图像与图注的关联关系的前提下，从版面的文本块中去掉图注文本块；

b)对步骤a保留下来的全部其它的版面分块，采用现有方法进行阅读顺序识别；

c)识别出阅读顺序以后，将图注文本块插回到阅读顺序中相匹配的图像块之后，得到完整阅读顺序。

图8显示了利用现有的基于XY树页面分块的阅读顺序识别方法(例如可参见“Optimized XY-cut for Determining a Page ReadingOrder”，Proceedings of the Eighth International Conference onDocument Analysis and Recognition，2005)对图3所示页面进行阅读顺序排序的效果图，图9显示了利用本发明方法对图3所示页面进行阅读顺序排序的效果图，其中，折线表示阅读顺序。从这两幅图可看出，在图8中，图像块1和其图注文本块1以及图像块2与其图注文本块2被拆分开，因此，这部分的排序不够合理；而在图9中，逻辑关系紧密的图像块1和其图注文本块1以及图像块2与其图注文本块2没有被拆分开，而是按照“图像块1→图注文本块1→图像块2→图注文本块2”的顺序被阅读，因此，提高了阅读顺序识别的正确率，改进效果明显。

(第二实施例)

在本实施例中，以电子图书《21世纪计算机基础教程》第165页为例来说明本发明对图像块数目和图注文本块数目不相等情况的处理。一般情况下，当图像块数目和图注文本块数目不相等时，图像块的数目会多于图注文本块的数目。

如图10所示，在该页面中，最后一个文字块中存在一个随文图像块5，而图像块5和图像块3到图注文本块3的距离都很相近。如果仅靠单个图像与图注的距离和样式，容易混淆关联关系。而在本实施例中，在二分图中用虚拟节点补齐图注文本块集合Y，并赋予一个大数(比如，9999)作为虚拟边的权值，其余实现方法与第一实施例相同。通过这种方法，可正确地识别出匹配关系，即，图像块1至图像块4与图注文本块1至图注文本块4分别对应匹配，而图像块5孤立无匹配图注。

同样，将匹配结果应用于改进版面阅读顺序，得到的排序结果如图10中的折线所示，符合人的阅读习惯。

以上已参照附图和实施例对本发明进行了详细描述，但是，应该理解，本发明并不限于以上所公开的具体实施例，任何本领域的技术人员在此基础之上容易想到的修改和变型都应包括在本发明的保护范围内。

Claims

1.一种改进版面阅读顺序识别效果的方法，包括以下步骤：

读取待识别版面，分离该版面中的字符文本对象与图像对象，并将字符文本对象合并成文本块，将图像对象保留为图像块；

从合并的文本块中识别出图注文本块；

利用优化方法对图像块和图注文本块进行最优匹配，使实现最优匹配的图像块和图注文本块之间的距离之和最小，从而获得相关联的图像块与图注文本块；

从所述版面的文本块中去掉图注文本块，并确定其余文本块和图像块的阅读顺序；

在阅读顺序中将图注文本块插回到相关联的图像块之后；

其中，根据以下中的至少一种来识别图注文本块：文本块的字体属性、文本块与图像块的距离、文本块的字数、文本块是否符合图注的表现形式；

并且，通过以下步骤来识别图注文本块：

计算字号置信度Q1，其中，Q1为当前文本块主要字体的字号与版面内所有字符文本的主要字体的字号之比；

计算距离图像置信度Q2，其中，Q2表示是否与图像块距离接近；

计算字数置信度Q3，其中，Q3为当前文本块中的文字个数与版面文本块的平均文字个数之比；

计算表现形式置信度Q4，其中，Q4表示是否符合图注的正则表达式；

加权计算总体置信度R，其中，R=(u×Q1+v×Q2+w×Q3+x×Q4)／(u+v+w+x)，其中，u，v，w，x表示加权系数，均为自然数；

判断总体置信度R是否超过阈值r，如果R≥r，则判断当前文本块为图注文本块，如果R<r，则判断当前文本块不是图注文本块。

2.根据权利要求1所述的方法，其特征在于，根据文档布局结构分析方法和／或根据数字文档中的数据对象类型来分离字符文本对象与图像对象。

3.根据权利要求1所述的方法，其特征在于，所述优化方法为二分图最优匹配方法，该方法包括以下步骤：

构造带权二分图，该二分图以图像块和图注文本块作为二分图的两个子集合，以图像块外接矩形框的中心点和图注文本块外接矩形框的中心点的欧式距离作为二分图中边的权值；

利用二分图最优匹配方法获得最优匹配的图像块与图注文本块。

4.根据权利要求3所述的方法，其特征在于，将所述二分图中边的权值取反，并利用Kuhn-Munkras最大权匹配算法进行最优完备匹配，从而获得具有最小权匹配结果的图像与图注文本块作为最优匹配的图像块与图注文本块。

5.根据权利要求3所述的方法，其特征在于，当版面上的图像块与图注文本块的数目不是一一对应时，用虚拟节点将数目少的子集合补齐，并赋予一个大数作为虚拟边的权值。

6.根据权利要求1所述的方法，其特征在于，输出以下中的至少一种：阅读顺序、图像块与图注文本块的关联关系、识别的图注文本块、按照识别的阅读顺序排列的文本块和图像块。

7.一种识别图注的方法，包括以下步骤：

利用以下中的至少一种从合并的文本块中识别出图注文本块：文本块的字体属性、文本块与图像块的距离、文本块的字数、文本块的表现形式，

而且，通过以下步骤来识别图注文本块：

8.一种识别图像与图注的关联关系的方法，包括以下步骤：

利用权利要求7所述的识别图注的方法来识别图注文本块和图像块；

利用优化方法对图像块和图注文本块进行最优匹配，使实现最优匹配的图像块和图注文本块之间的距离之和最小，从而获得相关联的图像块与图注文本块。

9.根据权利要求8所述的方法，其特征在于，

所述优化方法为二分图最优匹配方法，该方法包括以下步骤：

利用二分图最优匹配算法获得图像块与图注文本块的最优匹配。

10.一种版面信息识别装置，包括：

读取单元，其用于读取待识别版面，分离该版面中的字符文本对象与图像对象，并将字符文本对象合并成文本块，将图像对象保留为图像块；

图注识别单元，其用于从合并的文本块中识别出图注文本块；

匹配单元，其用于利用优化方法对图像块和图注文本块进行最优匹配，使实现最优匹配的图像块和图注文本块之间的距离之和最小，从而获得相关联的图像块与图注文本块；

阅读顺序改进单元，其用于从版面的文本块中去掉图注文本块，并确定其余文本块和图像块的阅读顺序，然后在阅读顺序中将图注文本块插回到相匹配的图像块之后；

其中，所述图注识别单元利用以下中的至少一种来识别图注文本块：文本块的字体属性、文本块与图像块的距离、文本块的字数、文本块是否符合图注的表现形式；

并且，所述图注识别单元通过执行以下步骤来识别图注文本块：

11.根据权利要求10所述的装置，其特征在于，还包括输出单元，该输出单元输出以下中的至少一种：阅读顺序、图像块与图注文本块的关联关系、识别的图注文本块、按照识别的阅读顺序排列的文本块和图像块。