CN101866418A - 确定文档阅读顺序的方法和设备 - Google Patents
确定文档阅读顺序的方法和设备 Download PDFInfo
- Publication number
- CN101866418A CN101866418A CN 200910134520 CN200910134520A CN101866418A CN 101866418 A CN101866418 A CN 101866418A CN 200910134520 CN200910134520 CN 200910134520 CN 200910134520 A CN200910134520 A CN 200910134520A CN 101866418 A CN101866418 A CN 101866418A
- Authority
- CN
- China
- Prior art keywords
- reading
- document
- file
- path
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Character Input (AREA)
Abstract
本发明提供一种确定文档阅读顺序的方法,包括如下步骤:(a)基于预先定义的规则集合确定文档图像中文档块集合的阅读路径规范;(b)基于文档块集合的阅读路径规范确定候选的阅读顺序;(c)基于自适应的置信度评价方法来评价每个候选阅读顺序的置信度;(d)根据置信度来决定最终的文档阅读顺序。应用本发明,能够有效地确定文档阅读顺序以利于版面重构,以便将原本例如A4纸大小的较大文档中的文档块按阅读顺序进行排列,从而适合于在诸如手机或PDA的小屏幕设备上显示。
Description
技术领域
本发明涉及一种确定文档阅读顺序的方法和一种确定文档阅读顺序的设备。更具体地说,本发明涉及一种基于自适应的置信度评价方法来评价多个候选阅读顺序的置信度并根据置信度来决定最终的文档阅读顺序的确定文档阅读顺序的方法和设备。
背景技术
一般地,文档图像处理包括如下几个方面:图像预处理,包括图像的二值化(将彩色或灰度的图像转换为二值图像)、倾斜校正(补偿扫描时的图像倾斜)等;版面分析,对预处理得到的二值图像进行分析,提取图像中的文字、表格、分隔线、图片等区域,并进一步将相邻的文字区域合并为文字行和文字段落;版面理解,对版面分析得到的结果进行进一步处理,例如从文字段落中进一步分析出标题和普通段落、和表格相关联的表头以及和图片相关联的图注等,另外版面理解中的一个重要任务是分析文档的阅读顺序,即确定文字段落之间在阅读上的相对顺序;光学字符识别,将以图像形式存在的文字转换为对应的文字编码,一幅文档图像经字符识别软件处理后可成为一个电子格式的文档文件。
已经有多种现有技术能够实现将文档划分为多个文档块,例如,非专利文献1提出了一种由下而上的文档版面分割的方法,非专利文献2提出了一种基于图像背景信息的文档版面分割的方法。
当前,通常扫描的文档图像为例如A4大小(大约21*30cm),这种尺寸的图像不适宜用小屏幕的设备(如手机、PDA(个人数字助理))浏览,这种情况下需要对图像的版面进行重构,涉及到对文字重新分行、分页等等,其中一个重要前提是确保文字段落按照正确的阅读顺序排序。
确定文档的阅读顺序的方法可以分为两类,一类是将文档图像作字符识别后,利用文字的语义信息确定段落的先后顺序,由于字符识别本身存在一定的错误率,且文字语义分析技术目前仍处在探索阶段,因此此类方法距实际应用仍有距离;另一类是利用文档段落之间的几何位置信息,参照人们在做文档排版是的一些习惯规则来确定阅读顺序,此类方法一般实用性较强。
专利文献1提供了一种方法,该方法确定标题和文字块的关系,然后确定给定的标题所覆盖的文字块的区域。该方法先将标题从文字块中分离出来,然后基于自然语言处理技术和与主要的文字块的间隔关系来确定一个权重的二分图,最后应用优化技术对文字块分组。
专利文献2提出了一种针对多列文档(例如杂志、报纸等)的阅读顺序提取方法。该方法先将文档分为同质区域和非同质区域,然后利用最优二分图匹配方法确定同质区域的阅读顺序,利用简单的距离关系确定非同质区域的阅读顺序。
专利文献3提出一种提取指定文档的阅读顺序的方法。该方法首先基于自然语言处理技术和空间间隔关系建立一个加权的二分图,然后使用最优化匹配方法将文字块分组,并确定每组文字块的阅读顺序。
专利文献4提出了一种针对文本的阅读顺序提取方法。该方法中,文本被分组为多个文字块,这些文字块基于相互之间相似度和特点而被表示为一个包含边和顶点的图结构。通过所有的顶点来计算一个最优的哈密尔顿(Hamilton)路径,然后所有的文字块按照该哈密尔顿路径进行排序。
非专利文献3提出了一种基于树结构变换的方法,该方法基于文档单元的几何关系来将文档表示为一个树结构,然后基于一些特定规则对树作变换,最终整个文档的阅读顺序按照树搜索的方法而被确定。
【专利文献1】中国专利申请CN 200410091432.4
【专利文献2】中国专利申请CN 200410091433.9
【专利文献3】中国专利申请CN 200410091434.3
【专利文献4】美国专利US 6175844 B1
【非专利文献1】Anil K.Jain,Bin Yu,Page Segmentation Using DocumentModel,Fourth International Conference Document Analysis and Recognition(ICDAR′97),1997,page34~38.
【非专利文献2】N.Normand,C.Viard-Gaudin,A background basedadaptive page segmentation algorithm,Third International Conference onDocument Analysis and Recognition(ICDAR′95)-Volume 1,1995,page138~141.
【非专利文献3】Tsujimoto,S.and Asada,G.Major Components of aComplete Text Reading System.IEEE Proceedings,Vol.80,No.7,July 1992,pp.1133-1149.
发明内容
上文现有技术所提出的阅读顺序提取方法中所存在的第一个问题是不具备扩展性,难以适应不同类型的文档。然而适应性对阅读顺序提取方法是非常重要的。存在的第二个问题是上述文献的方法对一篇文档只能给出一种阅读顺序。鉴于上述问题而作出本发明,本发明提出的方法能给出多种阅读顺序以及每种顺序的置信度,并且具有适应性。
根据本发明的一个方面,提供一种确定文档阅读顺序的方法,包括如下步骤:(a)基于预先定义的规则集合确定文档图像中文档块集合的阅读路径规范;(b)基于文档块集合的阅读路径规范确定候选的阅读顺序;(c)基于自适应的置信度评价方法来评价每个候选阅读顺序的置信度;(d)根据置信度来决定最终的文档阅读顺序。
根据本发明的另一个方面,提供一种确定文档阅读顺序的设备,包括:阅读路径规范确定装置,基于预先定义的规则集合确定文档图像中文档块集合的阅读路径规范;候选阅读顺序确定装置,基于文档块集合的阅读路径规范确定候选的阅读顺序;置信度评价装置,基于自适应的置信度评价方法来评价每个候选阅读顺序的置信度;决定装置,根据置信度来决定最终的文档阅读顺序。
本发明属于光学字符识别(OCR,Optical Character Recognition)、文档版面理解、版面重构以及版面评价等技术领域,可以用于根据阅读顺序安排文档。应用本发明,能够有效地确定文档阅读顺序以利于版面重构,以便将原本例如A4纸大小的较大文档中的文档块按阅读顺序进行排列,从而适合于在诸如手机或PDA的小屏幕设备上显示。
通过阅读结合附图考虑的以下本发明的优选实施例的详细描述,将更好地理解本发明的以上和其他目标、特征、优点和技术及工业重要性。
附图说明
图1示出根据本发明实施例的确定文档阅读顺序的方法的总体流程图;
图2示意性地示出文档块的位置定义;
图3示意性地示出了应用通用规则的情况的文档块位置关系;
图4A示出了应用邻域规则的第1种情况的流程图;
图4B示意性地示出了应用邻域规则的第1种情况的文档块位置关系;
图4C示出了应用邻域规则的第2种情况的流程图;
图4D示意性地示出了应用邻域规则的第2种情况的文档块位置关系;
图5A示出了应用邻域规则的第3种情况的流程图;
图5B示意性地示出了应用邻域规则的第3种情况的文档块位置关系;
图5C示出了应用邻域规则的第4种情况的流程图;
图5D示意性地示出了应用邻域规则的第4种情况的文档块位置关系;
图5E示出了应用邻域规则的第5种情况的流程图;
图5F示意性地示出了应用邻域规则的第5种情况的文档块位置关系;
图5G示出了应用邻域规则的第6种情况的流程图;
图5H示意性地示出了应用邻域规则的第6种情况的文档块位置关系;
图6示意性地示出了应用分隔线规则在具有水平分隔线的情况;
图7A示意性地示出了在垂直方向应用路径访问规则的情况;
图7B示意性地示出了在水平方向应用路径访问规则的情况;
图8A示例性地示出了一个包含若干文档块的文档图像;
图8B示例性地示出了对图8A示出的文档图像应用通用规则后的路径规范矩阵;
图8C示例性地示出了对图8A示出的文档图像应用邻域规则后的路径规范矩阵;
图8D示例性地示出了对图8A示出的文档图像应用分割线规则后的路径规范矩阵;
图8E示例性地示出了对图8A示出的文档图像应用路径访问规则后的路径规范矩阵;
图9示出在图8B到图8E示出的路径规范矩阵的基础上得到的候选的文档阅读顺序的结果;
图10示意性地示出了文档块在水平方向的13种关系;
图11示意性地示出了文档块在垂直方向的13种关系;
图12示出根据本发明实施例的确定文档阅读顺序的设备的总体框图。
具体实施方式
下面参考附图详细描述本发明的示例实施例。
图1示出了根据本发明的一个实施例的确定文档阅读顺序的方法的总体流程图。针对一个文档的一系列文档块的集合,最初假设从一个文档块到任意一个其它的文档块的阅读路径都是可接受的。在步骤S100,利用一系列的判断文档块在阅读路径上是否能够相邻的规则,诸如通用规则、邻域规则、分隔线规则、及路径访问规则,来判断某个路径是否可接受,来确定文档图像中文档块集合的阅读路径规范。由此,可选的阅读路径的数量可以被大幅减少。然后,在步骤S200,搜索阅读顺序,即,在所有可接受的阅读路径规范集合中查找对于整个文档的所有可能的完整的阅读顺序,从而给出从某一给定的起始文档块开始可以经由哪些文档块最终到达文档的末尾即最末的一个文档块的候选的阅读顺序。然后,在步骤S300,通过自适应的置信度计算方法来计算每个完整的候选阅读顺序的置信度。在步骤S400,根据置信度来决定最终的文档阅读顺序。
关于起始文档块的选择,可以选择位于文档图像中任意位置的文档块作为起始,诸如位于左上或右上的文档块,只要处理文档时起始文档块的选取标准与已知文档的训练过程中所采用的起始文档块的选取标准一致即可。
图2示意性地示出了文档块位置的定义。参考图2,文档块被表示为矩形,坐标轴原点在左上角,文档块的位置意味着X和Y方向的坐标,该坐标可以是基于像素的距离或是相对的距离,所述相对的距离诸如以图像中左上角的块的左上角坐标为参考的相对距离。在下文中,用li,ti,ri,bi分别表示文档块i的左、顶部、右和底部的坐标。
图3示意性地示出了应用通用规则的情况的文档块位置关系。通用规则是指,对于给定的两个文档块i和j,如果满足公式(1),则块i到块j的路径是不可接受的。
li>rj且bi>tj或者
ri>lj且ti>bj (1)
参考图3,应用通用规则,文档块i到j、h、k的路径都是不可接受的。
图4A示出了应用邻域规则的第1种情况的流程图,图4B示意性地示出了应用邻域规则的第1种情况的文档块位置关系。
邻域规则的情况1是指:在从文档块i到文档块j的路径满足通用规则的情况下,如果存在另一个块k满足如下的公式(2),则从i到j以及从j到i的路径都是不可接受的。
lk<ri并且rk>li并且lk<rj并且rk>lj并且
tk>min(bi,bj)并且bk<max(ti,tj) (2)
min()表示‘()’之中各值的最小值,max()表示‘()’之中各值的最大值。
图4C示出了应用邻域规则的第2种情况的流程图,图4D示意性地示出了应用邻域规则的第2种情况的文档块位置关系。
邻域规则的情况2是指:在从文档块i到文档块j的路径满足通用规则的情况下,如果存在另一个块k满足如下的公式(3),则从i到j以及从j到i的路径都是不可接受的。
tk<bi并且bk>ti并且tk<bj并且bk>tj并且
lk>min(ri,rj)并且rk<max(li,lj) (3)
图5A示出了应用邻域规则的第3种情况的流程图,图5B示意性地示出了应用邻域规则的第3种情况的文档块位置关系。
邻域规则的情况3是指:在从文档块i到文档块j的路径满足通用规则的情况下,如果满足bi<tj,并且对于其它任意一个文档块k,文档块i到k的路径满足通用规则,那么如果满足公式(4),则从i到j的路径是不可接受的。
tk>bi并且bk<tj并且lk<ri并且rk>lj (4)
图5C示出了应用邻域规则的第4种情况的流程图,图5D示意性地示出了应用邻域规则的第4种情况的文档块位置关系。邻域规则的情况4是指:在从文档块i到文档块j的路径满足通用规则的情况下,如果满足bi<tj且li<lj,并且对于其它任意一个文档块k,文档块i到k的路径满足通用规则,那么如果满足公式(5),则从i到j的阅读路径是不可接受的。
rk>li并且rk<lj并且tk>bi并且tk<bj (5)
图5E示出了应用邻域规则的第5种情况的流程图,图5F示意性地示出了应用邻域规则的第5种情况的文档块位置关系。邻域规则的情况5是指:在从文档块i到文档块j的路径满足通用规则的情况下,如果满足bi≥tj且ri≥lj,并且对于其它任意一个文档块k,文档块i到k的路径满足通用规则,那么如果满足公式(6),则从i到j的阅读路径是不可接受的。
lk>ri并且rk<lj并且tk<bi并且bk>tj (6)
图5G示出了应用邻域规则的第6种情况的流程图,图5H示意性地示出了应用邻域规则的第6种情况的文档块位置关系。邻域规则的情况6是指:在从文档块i到文档块j的路径满足通用规则的情况下,如果满足bi≥tj、ri≥lj和ti≥tj,并且对于其它任意一个文档块k,文档块i到k的路径满足通用规则,那么如果满足公式(7),则从i到j的阅读路径是不可接受的。
bk>ti并且bk<tj并且lk>ri并且lk<rj (7)
图6以水平分隔线为例示意性地示出了应用分隔线规则的情况。文档图像中通常存在垂直或水平的分隔线,可以通过多种现有技术来提取,例如能够通过提取文档块的方法将其作为文档块来提取,由于分隔线是不是理想中的直线而是现实的线段,因而不仅具有长度而且具有宽度。对于水平分隔线s,以及位于s上方的文档块集合Set(Ab),满足如下的公式(8)。
ls<ri并且rs>li并且bi<ts (8)
其中i是集合Set(Ab)中任意一个文档块。
假设同时有另一位于分隔线s下方的文档块集合Set(Un),满足如下的公式(9)。
ls<rm并且rs>lm并且tm>bs (9)
其中m是集合Set(Un)中任意一个文档块。在此情况下,可以通过坐标值的比较而得到,只有Set(Ab)中右下角的文档块到Set(Un)中左上角文档块的路径是可接受的,并且Set(Ab)中其余的块到Set(Un)中其余的块的路径都被认为是不可接受的。例如,在图6中,块h到m的路径是可接受的,然而其他的路径,例如i到m、h到n都被认为是不可接受的。
尽管未示出,但本领域技术人员能够理解,该方法对垂直的分隔线同样适用。即对于垂直分隔线s,位于s左边的文档块集合Set(Le),满足如下的公式(10)。
ts<bi并且bs>ti并且ri<ls (10)
其中i是Set(Le)中任意一个文档块。位于s右边的文档块集合Set(Ri),满足如下的公式(11)。
ts<bi并且bs>ti并且li>rs (11)
其中i是Set(Ri)中任意一个文档块。在此情况下,可以通过坐标值的比较而得到,只有Set(Le)中右下角的块到Set(Ri)中左上角块的路径是可接受的,并且Set(Le)中其余的块到Set(Ri)中其余的块的路径都被认为是不可接受的。
图7A和7B示意性地示出了应用路径访问规则的情况,图7A和7B分别示出垂直方向和水平方向的情况。图7A示出的情况是,文档块i到文档块集合Set(ALe)中的所有块的路径满足通用规则,并且集合Set(ALe)中的任意一个文档块j满足如下的公式(12)。
ri<lj并且ti>bj并且bi>tj (12)
在此情况下,可以通过坐标值的比较而得到,只有文档块i到Set(ALe)中左上角的路径是可接受的,并且i到Set(ALe)中的其它文档块的路径被认为是不可接受的。例如,在图7A中,块i到j的路径是可接受的,然而块i到块k和h的路径是不可接受的。
图7B示出应用路径访问规则的另一种情况,即,从文档块集合Set(ATop)到文档块i的路径满足通用规则,并且集合Set(ATop)中的任意一个文档块j满足如下的公式(13)。
li<rj并且ri>lj并且ti>bj (13)
在此情况下,可以通过坐标值的比较而得到,只有Set(ATop)中左下角的块到i的路径是可接受的,Set(ATop)中其它文档块到i的路径都被认为是不可接受的。例如,在图7B中,块h到i的路径是可接受的,然而块j或k到块i的路径是不可接受的。
显然,上述的通用规则、邻域规则、分割线规则、及路径访问规则可以分别使用,也可以组合使用。可以预先从中选择一些规则组成规则集合,来确定一个文档块在阅读路径上是否可以被置于另一个文档块的前方或后方并且与之相邻。
图8A至图8E示出了根据本发明实施例按照阅读路径确定规则来确定文档块的阅读路径规范矩阵的例子。
图8A示例性地示出了一个包含17个文档块的文档图像。图8B到图8E示出了对图8A示出的文档图像分别应用规则后得到的路径规范矩阵。图8B示例性地示出了对图8A示出的文档图像应用通用规则后的路径规范矩阵;图8C示例性地示出了对图8A示出的文档图像应用邻域规则后的路径规范矩阵;图8D示例性地示出了对图8A示出的文档图像应用分割线规则后的路径规范矩阵;图8E示例性地示出了对图8A示出的文档图像应用路径访问规则后的路径规范矩阵。
在路径规范矩阵中,如果第i行第j列的位置(i,j)上的值为0,表示文档块i到j的路径是可接受的,否则(例如值为-1)表示不可接受。
图9给出了在图8B到图8E示出的路径规范矩阵的基础上得到的候选的文档阅读顺序的结果。图9示出了14种候选的阅读顺序,其搜索方法可以采用遍历方法,即每个文档块只能被遍历一次并且遍历的规则是基于路径矩阵规范的。
在获得多个候选阅读顺序之后,自适应的置信度评价方法对每个候选阅读顺序计算置信度,从而选择其中的一个阅读顺序作为最终的文档阅读顺序。
下面描述步骤S300采用的利用自适应的置信度评价方法来计算候选的文档阅读顺序的置信度的方法。首先分析两个文档块在水平和垂直方向的所有可能的位置关系。
图10示意性地示出了文档块在水平方向的13种关系,由上到下依次为:
rj<li;
rj>li-g并且rj<li+g;
rj>li+g并且lj<li-g;
rj>ri-g并且lj<li-g;
rj>ri+g并且lj<li-g;
rj>li+g并且lj>li-g;
rj>ri-g并且lj>li-g;
rj>ri+g并且lj>li-g;
rj>li+g并且lj<li+g;
rj>ri-g并且lj<li+g;
rj>ri+g并且lj<li+g;
lj>ri-g并且rj>ri+g;
lj>ri+g;
其中g是一个预先设定的阈值,例如对200dpi图像可设为15个像素,即g=15。
图11示意性地示出了文档块在垂直方向的13种关系,由左到右依次为:
bj<ti;
bj>ti-g并且bj<ti+g;
bj>ti+g并且tj<ti-g;
bj>bi-g并且tj<ti-g;
bj>bi+g并且tj<ti-g;
bj>ti+g并且tj>ti-g;
bj>bi-g并且tj>ti-g;
bj>bi+g并且tj>ti-g;
bj>ti+g并且tj<ti+g;
bj>bi-g并且tj<ti+g;
bj>bi+g并且tj<ti+g;
tj>bi-g并且bj>bi+g;
tj>bi+g.
在文档块i的阅读顺序在j之前的情况下,结合水平方向的13种关系以及垂直方向的13种关系,总共在二维方向上可以得到169种关系,可以建立一个位置关系矩阵P,其第x行第y列的元素p(x,y)表示二维方向上两个文档块的某种位置关系。
初始化前面所定义的169种位置关系的概率为0,即矩阵P中各个元素初始值为0。
在给定阅读顺序的文档训练集的基础上统计每种可能的文档块位置关系的阅读顺序发生概率。给定一个训练文档集合,其中各个文档的阅读顺序是预先定义好的,其文档块的位置以及文档块之间的位置关系也是给定的。
对于任意一个训练文档,其中包含n个文档块以及一个预先定义的阅读顺序,例如从文档块1至文档块2至文档块3...至文档块n。
对于阅读顺序中的文档块1和文档块2,在矩阵P中,向与该两个文档块的位置关系相对应的位置关系的值赋1。然后针对文档块1和所有其它的文档块,向矩阵P中相应的位置关系的元素赋值。
然后,类似地,跟据文档块2以及随后的(n-2)个块的位置关系,向矩阵P中相应的位置关系的元素赋值。直至文档块(n-1)和文档块n被处理,从而得到某文档块在另一文档块之前的情况下其各种位置关系的概率值。
在此,可以选择进一步将概率值规范化到[0,1]区间。实际上,对于比较其各种位置关系的概率值大小,是否进行规范化不影响比较结果。
下面描述基于与候选阅读顺序的文档块位置关系相应的阅读顺序发生概率,来确定该候选阅读顺序的置信度。一个候选阅读顺序中n个文档块的阅读顺序为从文档块1至文档块2至文档块3...至文档块n。
首先将该候选的阅读顺序的置信度初始化为0。
针对该候选阅读顺序中的文档块1及文档块2,将与该两个文档块的位置关系相应的概率值加到该候选阅读顺序的置信度上,然后类似地,将文档块1和其余的所有的文档块的位置关系的概率值都加到该候选阅读顺序的置信度上。
然后类似地,基于文档块2和所有的后续文档块的位置关系,调整该候选阅读顺序的置信度值,直至最后的两个文档块被处理。
在此,可以选择进一步将置信度的值除以(n*(n-1)/2)。实际上,对于比较各个候选阅读顺序的置信度的大小,是否除以(n*(n-1)/2)不影响比较结果。
可以选择各个候选阅读顺序之中置信度最大的作为最终的文档阅读顺序,然而,也可以根据实际情况选择其它置信度的阅读顺序作为最终的文档阅读顺序。
图12示出按照本发明实施例的确定文档阅读顺序的设备。其中,阅读路径规范确定装置100可以用来执行前述的步骤S100,即,基于预先定义的规则集合确定文档图像中文档块集合的阅读路径规范。候选阅读顺序确定装置200可以用来执行前述的步骤S200,即,基于文档块集合的阅读路径规范确定候选的阅读顺序。置信度评价装置300可以用来执行前述的步骤S300,即基于自适应的置信度评价方法来评价每个候选阅读顺序的置信度。置信度评价装置300可以进一步包括统计装置和置信度确定装置。统计装置用来枚举两个文档块之间的所有可能的位置关系,根据文档训练集中给定阅读顺序的各个文档,统计每种可能的文档块位置关系的阅读顺序发生概率。置信度确定装置用来基于与候选阅读顺序的文档块位置关系相应的阅读顺序发生概率,来确定该候选阅读顺序的置信度。决定装置400可以用来执行前述的步骤S400,即,根据置信度来决定最终的文档阅读顺序。
在说明书中说明的一系列操作能够通过硬件、软件、或者硬件与软件的组合来执行。当由软件执行该一系列操作时,可以把其中的计算机程序安装到内置于专用硬件的计算机中的存储器中,使得计算机执行该计算机程序。或者,可以把计算机程序安装到能够执行各种类型的处理的通用计算机中,使得计算机执行该计算机程序。
例如,可以把计算机程序预先存储到作为记录介质的硬盘或者ROM(只读存储器)中。或者,可以临时或者永久地存储(记录)计算机程序到可移动记录介质中,诸如软盘、CD-ROM(光盘只读存储器)、MO(磁光)盘、DVD(数字多功能盘)、磁盘、或半导体存储器。可以把这样的可移动记录介质作为封装软件提供。
本发明已经参考具体实施例进行了详细说明。然而,很明显,在不背离本发明的精神的情况下,本领域技术人员能够对实施例执行更改和替换。换句话说,本发明用说明的形式公开,而不是被限制地解释。要判断本发明的要旨,应该考虑所附的权利要求。
Claims (10)
1.一种确定文档阅读顺序的方法,包括如下步骤:
(a)基于预先定义的规则集合确定文档图像中文档块集合的阅读路径规范;
(b)基于文档块集合的阅读路径规范确定候选的阅读顺序;
(c)基于自适应的置信度评价方法来评价每个候选阅读顺序的置信度;
(d)根据置信度来决定最终的文档阅读顺序。
2.按照权利要求1所述的确定文档阅读顺序的方法,其中,在步骤(d)中,选择候选阅读顺序中置信度最高的阅读顺序为最终的文档阅读顺序。
3.按照权利要求1所述的确定文档阅读顺序的方法,其中,步骤(a)中的所述规则集合包括下列规则中的一个或多个:通用规则;邻域规则;分割线规则;及路径访问规则。
4.按照权利要求1所述的确定文档阅读顺序的方法,其中,在步骤(a)中,基于预先定义的规则集合,根据文档图像中两个或多个文档块之间的位置关系,来判断文档块在阅读路径上的前后关系以及在阅读路径上是否前后相邻,以确定阅读路径规范。
5.按照权利要求1~4中任意一个所述的确定文档阅读顺序的方法,其中,步骤(c)包括如下步骤:
(c1)枚举两个文档块之间的所有可能的位置关系,根据文档训练集中给定阅读顺序的各个文档,统计每种可能的文档块位置关系的阅读顺序发生概率;
(c2)基于与候选阅读顺序的文档块位置关系相应的阅读顺序发生概率,来确定该候选阅读顺序的置信度。
6.一种确定文档阅读顺序的设备,包括:
阅读路径规范确定装置,基于预先定义的规则集合确定文档图像中文档块集合的阅读路径规范;
候选阅读顺序确定装置,基于文档块集合的阅读路径规范确定候选的阅读顺序;
置信度评价装置,基于自适应的置信度评价方法来评价每个候选阅读顺序的置信度;
决定装置,根据置信度来决定最终的文档阅读顺序。
7.按照权利要求6所述的确定文档阅读顺序的设备,其中,所述决定装置选择候选阅读顺序中置信度最高的阅读顺序为最终的文档阅读顺序。
8.按照权利要求6所述的确定文档阅读顺序的设备,其中,所述规则集合包括下列规则中的一个或多个:通用规则;邻域规则;分割线规则;及路径访问规则。
9.按照权利要求6所述的确定文档阅读顺序的设备,其中,所述阅读路径规范确定装置基于预先定义的规则集合,根据文档图像中两个或多个文档块之间的位置关系,来判断文档块在阅读路径上的前后关系以及在阅读路径上是否前后相邻,以确定阅读路径规范。
10.按照权利要求6~9中任意一个所述的确定文档阅读顺序的设备,其中,所述置信度评价装置包括:
统计装置,枚举两个文档块之间的所有可能的位置关系,根据文档训练集中给定阅读顺序的各个文档,统计每种可能的文档块位置关系的阅读顺序发生概率;
置信度确定装置,基于与候选阅读顺序的文档块位置关系相应的阅读顺序发生概率,来确定该候选阅读顺序的置信度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200910134520 CN101866418B (zh) | 2009-04-17 | 2009-04-17 | 确定文档阅读顺序的方法和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200910134520 CN101866418B (zh) | 2009-04-17 | 2009-04-17 | 确定文档阅读顺序的方法和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101866418A true CN101866418A (zh) | 2010-10-20 |
CN101866418B CN101866418B (zh) | 2013-02-27 |
Family
ID=42958140
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 200910134520 Expired - Fee Related CN101866418B (zh) | 2009-04-17 | 2009-04-17 | 确定文档阅读顺序的方法和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101866418B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102479173A (zh) * | 2010-11-25 | 2012-05-30 | 北京大学 | 识别版面阅读顺序的方法及装置 |
CN102521219A (zh) * | 2011-12-19 | 2012-06-27 | 方正国际软件有限公司 | 版式与流式混合排版系统及其排版方法 |
CN102541826A (zh) * | 2010-12-27 | 2012-07-04 | 北大方正集团有限公司 | 文字块内容重组方法及装置 |
CN102708371A (zh) * | 2012-04-23 | 2012-10-03 | 重庆大学 | 基于分割线的漫画帧识别与自动排序方法 |
CN103488619A (zh) * | 2013-07-05 | 2014-01-01 | 百度在线网络技术(北京)有限公司 | 一种用于进行文档文件处理的方法及装置 |
CN106802884A (zh) * | 2017-02-17 | 2017-06-06 | 同方知网(北京)技术有限公司 | 一种版式文档正文碎片化的方法 |
CN108268429A (zh) * | 2017-06-15 | 2018-07-10 | 广东神马搜索科技有限公司 | 网络文学章节的确定方法和装置 |
CN108334805A (zh) * | 2017-03-08 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 检测文档阅读顺序的方法和装置 |
US11069342B2 (en) | 2017-03-10 | 2021-07-20 | Tencent Technology (Shenzhen) Company Limited | Method for training voice data set, computer device, and computer-readable storage medium |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6321219B1 (en) * | 1998-08-14 | 2001-11-20 | Microsoft Corporation | Dynamic symbolic links for computer file systems |
JP4023066B2 (ja) * | 1999-04-02 | 2007-12-19 | セイコーエプソン株式会社 | 光源装置、および、これを備えた照明光学系ならびにプロジェクタ |
CN100568221C (zh) * | 2004-11-22 | 2009-12-09 | 北京北大方正技术研究院有限公司 | 一种对报纸版面进行文字阅读顺序恢复的方法 |
CN1604074A (zh) * | 2004-11-22 | 2005-04-06 | 北京北大方正技术研究院有限公司 | 一种对图文互斥分栏串文版面确定文字阅读顺序的方法 |
CN101122895A (zh) * | 2007-08-09 | 2008-02-13 | 无敌科技(西安)有限公司 | 一种计算机辅助外语阅读训练系统及其方法 |
-
2009
- 2009-04-17 CN CN 200910134520 patent/CN101866418B/zh not_active Expired - Fee Related
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102479173B (zh) * | 2010-11-25 | 2013-11-06 | 北京大学 | 识别版面阅读顺序的方法及装置 |
CN102479173A (zh) * | 2010-11-25 | 2012-05-30 | 北京大学 | 识别版面阅读顺序的方法及装置 |
CN102541826B (zh) * | 2010-12-27 | 2014-08-06 | 北大方正集团有限公司 | 文字块内容重组方法及装置 |
CN102541826A (zh) * | 2010-12-27 | 2012-07-04 | 北大方正集团有限公司 | 文字块内容重组方法及装置 |
CN102521219A (zh) * | 2011-12-19 | 2012-06-27 | 方正国际软件有限公司 | 版式与流式混合排版系统及其排版方法 |
CN102708371A (zh) * | 2012-04-23 | 2012-10-03 | 重庆大学 | 基于分割线的漫画帧识别与自动排序方法 |
CN102708371B (zh) * | 2012-04-23 | 2014-04-30 | 重庆大学 | 基于分割线的漫画帧识别与自动排序方法 |
CN103488619B (zh) * | 2013-07-05 | 2017-05-24 | 百度在线网络技术(北京)有限公司 | 一种用于进行文档文件处理的方法及装置 |
CN103488619A (zh) * | 2013-07-05 | 2014-01-01 | 百度在线网络技术(北京)有限公司 | 一种用于进行文档文件处理的方法及装置 |
CN106802884A (zh) * | 2017-02-17 | 2017-06-06 | 同方知网(北京)技术有限公司 | 一种版式文档正文碎片化的方法 |
CN106802884B (zh) * | 2017-02-17 | 2020-09-22 | 同方知网(北京)技术有限公司 | 一种版式文档正文碎片化的方法 |
CN108334805A (zh) * | 2017-03-08 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 检测文档阅读顺序的方法和装置 |
WO2018161764A1 (zh) * | 2017-03-08 | 2018-09-13 | 腾讯科技(深圳)有限公司 | 检测文档阅读顺序的方法、计算机设备和存储介质 |
CN108334805B (zh) * | 2017-03-08 | 2020-04-03 | 腾讯科技(深圳)有限公司 | 检测文档阅读顺序的方法和装置 |
US11069342B2 (en) | 2017-03-10 | 2021-07-20 | Tencent Technology (Shenzhen) Company Limited | Method for training voice data set, computer device, and computer-readable storage medium |
CN108268429A (zh) * | 2017-06-15 | 2018-07-10 | 广东神马搜索科技有限公司 | 网络文学章节的确定方法和装置 |
CN108268429B (zh) * | 2017-06-15 | 2021-08-06 | 阿里巴巴(中国)有限公司 | 网络文学章节的确定方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN101866418B (zh) | 2013-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101866418B (zh) | 确定文档阅读顺序的方法和设备 | |
CN111814722B (zh) | 一种图像中的表格识别方法、装置、电子设备及存储介质 | |
US7899249B2 (en) | Media material analysis of continuing article portions | |
US8908961B2 (en) | System and methods for arabic text recognition based on effective arabic text feature extraction | |
CN101453575B (zh) | 一种视频字幕信息提取方法 | |
CN111027297A (zh) | 一种对图像型pdf财务数据关键表格信息的处理方法 | |
Arai et al. | Method for automatic e-comic scene frame extraction for reading comic on mobile devices | |
CN1343339A (zh) | 视频流可分类符号分离的方法与系统 | |
Ma et al. | Segmentation and recognition for historical Tibetan document images | |
US20010033694A1 (en) | Handwriting recognition by word separation into sillouette bar codes and other feature extraction | |
US6473524B1 (en) | Optical object recognition method and system | |
Chowdhury et al. | Automated segmentation of math-zones from document images | |
CN115953797A (zh) | 表格识别、文档获取方法和存储介质 | |
CN111832497B (zh) | 一种基于几何特征的文本检测后处理方法 | |
US8457404B2 (en) | Image processing apparatus, computer readable medium for image processing and computer data signal for image processing | |
JP3529036B2 (ja) | 文書付き画像の分類方法 | |
Blomqvist et al. | Reading the ransom: Methodological advancements in extracting the swedish wealth tax of 1571 | |
JPH11232439A (ja) | 文書画像構造解析方法 | |
Li et al. | Segmenting compound biomedical figures into their constituent panels | |
JP4194309B2 (ja) | 文書方向推定方法および文書方向推定プログラム | |
JP3957471B2 (ja) | 分離文字列統合装置 | |
CN116630790B (zh) | 一种基于边缘精度评价的分类结果优化方法 | |
Blomqvist et al. | Joint handwritten text recognition and word classification for tabular information extraction | |
MacCormack | Semi-automatic Segmentation & Alignment of Handwritten Historical Text Images with the use of Bayesian Optimisation | |
Vesalainen et al. | Image Segmentation methods for fine-grained OCR Document Layout Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130227 Termination date: 20160417 |
|
CF01 | Termination of patent right due to non-payment of annual fee |