CN1604074A - 一种对图文互斥分栏串文版面确定文字阅读顺序的方法 - Google Patents
一种对图文互斥分栏串文版面确定文字阅读顺序的方法 Download PDFInfo
- Publication number
- CN1604074A CN1604074A CN 200410091433 CN200410091433A CN1604074A CN 1604074 A CN1604074 A CN 1604074A CN 200410091433 CN200410091433 CN 200410091433 CN 200410091433 A CN200410091433 A CN 200410091433A CN 1604074 A CN1604074 A CN 1604074A
- Authority
- CN
- China
- Prior art keywords
- district
- summit
- dull
- sequence
- hurdle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000013507 mapping Methods 0.000 claims abstract description 6
- 230000007717 exclusion Effects 0.000 claims description 45
- 238000013459 approach Methods 0.000 claims description 6
- 239000000700 radioactive tracer Substances 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 4
- 230000003416 augmentation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000008676 import Effects 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 229920006395 saturated elastomer Polymers 0.000 claims description 3
- 238000005194 fractionation Methods 0.000 claims description 2
- 230000001788 irregular Effects 0.000 abstract description 6
- 230000008569 process Effects 0.000 abstract description 4
- 238000004458 analytical method Methods 0.000 abstract description 2
- 230000001419 dependent effect Effects 0.000 abstract 1
- 230000001846 repelling effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 101100136971 Arabidopsis thaliana PMR6 gene Proteins 0.000 description 2
- 101100057245 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) ENA1 gene Proteins 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 101100058971 Arabidopsis thaliana CALS12 gene Proteins 0.000 description 1
- 101100536512 Arabidopsis thaliana PMR5 gene Proteins 0.000 description 1
- 102100029801 Calcium-transporting ATPase type 2C member 1 Human genes 0.000 description 1
- 101000728145 Homo sapiens Calcium-transporting ATPase type 2C member 1 Proteins 0.000 description 1
- 101001064774 Homo sapiens Peroxidasin-like protein Proteins 0.000 description 1
- -1 PMR3 Proteins 0.000 description 1
- 108700038780 PMR5 Proteins 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Processing Or Creating Images (AREA)
Abstract
本发明属于文字与图形信息处理技术领域,具体涉及一种对图文互斥分栏串文版面确定文字阅读顺序的方法。针对现有复杂形状版面中阅读顺序存在歧义的缺陷,首次定义了不规则版面特有对象“单调排版区”并提出版面层次树模型,采用自顶向下逐层分解方法构造层次树;然后各层版面对象依据空间关系映射成独立的全序序列,特别对“单调排版区”对象间复杂的空间关系采用图论二分图最大匹配的匈牙利算法映射成全序序列。最后自下而上根据各层版面对象的全序序列形成文字的阅读顺序。本发明主要应用于报纸、杂志、广告等视觉表现复杂的排版处理,优点在于自动化,无需手工干涉,且时间复杂度多项式级,大大提高了印前流程效率,效果更符合人类的视觉脉络。
Description
技术领域
本发明属于文字与图形的信息处理技术,具体涉及一种对图文互斥分栏串文版面确定文字阅读顺序的方法。
背景技术
随着印刷品尤其是报刊杂志视觉表现日益丰富的需要,文字内容在版面中的布局日趋复杂而多样,一个页面上存在多个篇章,各个篇章又包含多栏且文字与图像通常混排于一个不规则区域内。与文字混排的图像称为互斥图,根据性质不同分为不串文互斥即图存在的区域不能排文字、不分栏串文互斥即文字在遇到互斥图后继续穿越造成一行文字被隔开和分栏串文互斥即文字遇到互斥图后被反射排到下一行,以正向横排为例,直到互斥图的左边区域排完才能排右边区域。分栏串文图文互斥是中文等东方文字特有的版面,使得排版区域形状不规则、顺序不连贯且空间关系不单一,在排版及其逆过程文档图像理解时,此种版面中如何把二维版面空间内不连续的区域与一维连续文字流进行一一对应即确定文字阅读顺序是个难题;另外复杂版面中文字排版必须遵守与矩形Manhattan版面相同的多种布局约束:互斥约束、屏蔽约束、撑满约束、空间连续有序约束和贪心约束等,满足上述约束的前提下如何在非Manhattan版面中描述文档布局复杂结构是另一个难点。对图文互斥分栏串文版面确定文字阅读顺序就是用来解决这些技术问题的方法。
目前,由于图文互斥分栏串文版面是中文等东方语言的特有版面,国外主要文字与图形处理排版软件如Word、InDesign和PageMaker等都没有这项功能。对报纸版面的研究缺乏对不规则版面结构关系的描述(参见文献“Automatic page analysis of a digital library from newspaperarchives”,Gatos B,Mantzaris S,Perantonis S,et al.InternationalJournal of Digital Libraries,2000,3(1):77~84),而在版面理解中解决阅读顺序时基于平铺式空间关系,且时间复杂度随版面对象的增加而指数上升(参见文献“Document understanding for a broad class of documents”,Aiello M,Monz C,Todoran L,et al.International Journal on DocumentAnalysis and Recognition,2002,5(1):1~16.);但版面对象间多达13种二维Allen关系(参见文献Maintaining knowledge about temporalintervals[J].Communications of the ACM,Allen J.,1983,26(11):832~843),使得阅读顺序存在二义性且局限于矩形版面的处理。
发明内容
针对现有复杂版面阅读顺序确定中存在的缺陷,本发明的目的是提出一种基于层次结构的阅读顺序确定方法,该方法能把文字流在图文互斥分栏串文版面中排版出符合人类视觉脉络且阅读顺序唯一的样式,本发明的另一个目的是使得复杂版面的生成完全自动化,无需人工干预,且时间复杂度与处理矩形规则版面相当,大大提高印前流程的速度。
为达到以上目的,本发明采用的技术方案是:一种对图文互斥分栏串文版面确定文字阅读顺序的方法,包括以下步骤:
(1)输入用于文字排版的区域边界闭合曲线及互斥图,用多边形逼近排版区域和互斥图区域的边界曲线并表示为排版多边形和互斥多边形,排版多边形区域与互斥多边形区域的差作为“篇章区”;
(2)版面层次树自顶向下包括“篇章区”、“栏区”、“单调排版区”、“行区”和“字区”,由位置、形状样式信息自顶向下进行版面分解来构造版面层次树的“栏区”、“行区”和“字区”,对于无样式信息的“单调排版区”层,利用簇奇异顶点扫描线算法生成“单调排版区”,所述的簇奇异顶点为排版多边形上前后两个顶点都位于其上方或下方的顶点,所述的扫描线算法是:求出所有簇奇异顶点并把纵坐标从小到大排序,经过每个簇奇异顶点纵坐标生成扫描线,扫描线与排版多边形的交为多个扫描线段,每两个相邻扫描线的扫描线段从左到右一一配对与排版多边形的边构成多个封闭区域即为“单调排版区”,其边界由4段组成:上边界为上扫描线段,下边界为下扫描线段,左边界为排版多边形位于上下扫描线段左端点间的边,右边界为排版多边形位于上下扫描线段右端点间的边,如果一个“单调排版区”的下边界与另一个“单调排版区”的上边界相同则合并为一个“单调排版区”。
(3)在版面层次树各层分别建立版面对象的空间邻接关系,“栏区”、“行区”和“字区”只有一种邻接关系可按左大于右和上大于下的规则映射成单一的全序序列,但“单调排版区”空间关系复杂,既有左右又有上下邻接关系,需首先建立空间关系邻接有向图,拆分转化为二分图,并进行最大匹配,基于最大匹配结果确定“单调排版区”层的全序序列;
(4)由各层全序序列自下而上的推导出文字在图文互斥分栏串文版面上的阅读顺序。
更进一步,为使本发明具有更好的效果:
步骤(1)中,排版区域和互斥图边界曲线以交互式输入,互斥图亦可以图像格式输入,由于每个文字必须完全位于排版区域内且不能与互斥图相交,对排版边界曲线用内切多边形逼近,而互斥边界曲线用外切多边形逼近,排版多边形区域与互斥多边形区域的差计算方法是如果二者没有交点则用排版多边形表示排版多边形区域的外边界、用互斥多边形表示排版多边形区域的内边界;若有交点,首先求出二者的交点,排版多边形区域的边界多边形的顶点分别取自位于互斥多边形区域外的排版多边形的顶点、位于排版多边形区域内的互斥多边形的顶点及交点。
步骤(2)中,排版多边形区域的形状与位置信息决定了“篇章区”,由栏数和栏间距信息和“篇章区”的外接矩形大小计算出每个栏的栏宽,把“篇章区”按栏宽分割为多个“栏区”,在“单调排版区”内根据行高和行间距求出每个“行区”的上下纵坐标并以此生成两条水平扫描线,“单调排版区”与两条扫描线形成一个多边形,这个多边形的内接矩形即为“行区”,在“行区”内按字宽和字间距生成矩形的“字区”。
步骤(3)中,“栏区”和“字区”层是左右邻接关系,“行区”层是上下邻接关系,且每个“栏区”和“字区”最多都只有一个左邻和右邻,“行区”最多只有一个上邻和下邻,“栏区”和“字区”层按左大于右都可以形成单一的全序序列,“行区”层按上大于下的映射规则亦可形成单一的全序序列;“单调排版区”层以”单调排版区”为顶点、以左邻和上邻为有向边分别建立有向左邻接图和有向上邻接图,对有向图进行拆分转化来构造二分图,二分图的两个顶点集X和Y都包含有向图的所有顶点,二分图的边满足下面条件:
1)若X的顶点m和Y的顶点n是有向左邻接图或有向上邻接图有向边的出点和入点,则它们在二分图中也存在边;
2)若有向上邻接图中顶点a的后继顶点b和顶点c的后继顶点d是有向左邻接图同一条有向边的出点和入点,则顶点a与顶点c在二分图中存在边;
3)若有向上邻接图中顶点e的先驱顶点f和顶点g的先驱顶点h是有向左邻接图同一条有向边的出点和入点,则顶点e与顶点g在二分图中存在边;
由最大匹配M生成全序序列的方法是如果X的顶点i与Y的顶点j是M的配对饱和点且X的顶点j与Y的顶点k是M的配对饱和点,则顶点i→顶点j→顶点k形成一个序列,递推使所有顶点都包含在这个序列中。
步骤(3)中,在进行阅读顺序确定时将图论中最大匹配的匈牙利算法用于“单调排版区”复杂的空间关系到全序序列的映射。
利用匈牙利算法进行最大匹配,具体步骤如下:
1)任给出图G的一个初始匹配M;
2)若M已饱和X的所有结点,则M即是最大匹配,计算结束,否则进行下一步;
3)找X中任一M非饱和点x0,令A←{x0},B←φ,A,B是两个集合;
4)如N(A)=B,将x0作为饱和点(或称为伪饱和点)转第2)步,否则进行下一步,其中,N(A)Y,是与A中结点邻接的结点集合;
5)找一结点y∈N(A)-B;
6)如y是M饱和点,则找出y的配对点z,令A←A∪{z},B←B∪{y},转第4)步,否则进行下一步;
7)存在一条从x0到y的可增广道路P,令M←MP,即M与P进行环和,转第2)步。
步骤(4)中,文字阅读顺序由“字区”在整个排版区域的全序序列确定,方法是:
1)若“行区”Tile_a在“单调排版区”PMR_a中是“行区”Tile_b的先驱,则“行区”Tile_a中最后一个“字区”与“行区”Tile_b中第一个“字区”形成一个新的“字区”序列,这样在每个“单调排版区”中所有“字区”形成了一个全序序列;
2)若“单调排版区”PMR_a在“栏区”Column_a中是“单调排版区”PMR_b的先驱,则“单调排版区”PMR_a中最后一个“字区”与“单调排版区”PMR_b中第一个“字区”形成一个新的“字区”序列,这样在每个“栏区”中所有“字区”形成了一个全序序列;
3)若“栏区”Column_a在“篇章区”中是“栏区”Column_b的先驱,则“栏区”Column_a中最后一个“字区”与“栏区”Column_b中第一个“字区”形成一个新的“字区”序列,这样在“篇章区”中所有“字区”形成了一个全序序列,这个序列即为文字在图文互斥分栏串文版面的阅读顺序。
本发明的效果在于针对图文互斥分栏串文版面的特点,有效的利用复杂不规则版面中的形状信息、空间关系信息,以统一的数学模型——版面层次树模型进行表示版面对象间的逻辑关系和物理空间关系,特别首次定义了复杂版面特有的版面对象“单调排版区”,对“单调排版区”版面对象间复杂的空间关系采用图论最大匹配的匈牙利算法映射成唯一的阅读顺序序列,使得复杂不规则版面阅读顺序的核心处理只在”单调排版区”层进行,其他层阅读顺序处理流程和复杂度完全与规则矩形版面相同,从而精确确定图文互斥分栏串文版面中文字的阅读顺序,且更符合人类的视觉脉络;本发明另一个效果是所有处理完全自动化,且时间复杂度是版面对象个数多项式级别的,大大提高了排版效率,使得信息发布速度更加快捷、表现更加丰富。
附图说明
图1是本发明的处理流程图;
图2是自顶向下逐层构造版面层次树示意图;
图3是扫描线算法生成“单调排版区”示意图;
图4是图3“单调排版区”的有向上邻接图;
图5是图3“单调排版区”的有向左邻接图;
图6是图4和图5拆分转化成的二分图;
图7是“单调排版区”最大匹配结果示意图;
图8是单栏图文互斥分栏串文确定阅读顺序的实例示意图;
图9是双栏图文互斥分栏串文确定阅读顺序的实例示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步地描述,以含有菱形互斥图的不规则排版区域为例,图1给出了本发明的流程图,包括以下步骤:
一、输入用于文字排版的区域边界闭合曲线及互斥图。排版区域以交互式输入,互斥图以图像格式输入。由于每个文字必须完全位于排版区域内且不能与互斥图相交,对排版边界曲线用内切多边形逼近,而互斥边界曲线用外切多边形逼近。排版多边形区域与互斥多边形区域的差计算方法是如果二者没有交点则用排版多边形表示排版多边形区域的外边界、用互斥多边形表示排版多边形区域的内边界;若有交点,首先求出二者的交点,排版多边形区域的边界多边形的顶点分别取自位于互斥多边形区域外的排版多边形的顶点、位于排版多边形区域内的互斥多边形的顶点及交点。用多边形逼近排版区域和互斥图区域的边界曲线并表示为排版多边形和互斥多边形,排版多边形区域与互斥多边形区域的差作为“篇章区”;
二、版面层次树自顶向下包括“篇章区”、“栏区”、“单调排版区”、“行区”和“字区”,由位置、形状样式信息自顶向下进行版面分解来构造版面层次树的“栏区”、“行区”和“字区”,如图2所示,排版多边形区域的形状与位置信息决定了“篇章区”,由栏数和栏间距信息和“篇章区”的外接矩形大小计算出每个栏的栏宽,把“篇章区”按栏宽分割为多个“栏区”,在“单调排版区”内根据行高和行间距求出每个“行区”的上下纵坐标并以此生成两条水平扫描线,“单调排版区”与两条扫描线形成一个多边形,这个多边形的内接矩形即为“行区”,在“行区”内按字宽和字间距生成矩形的“字区”。对于无样式信息的“单调排版区”层,利用簇奇异顶点扫描线算法生成“单调排版区”,簇奇异顶点为排版多边形上前后两个顶点都位于其上方或下方的顶点,扫描线算法是:求出所有簇奇异顶点并把纵坐标从小到大排序,经过每个簇奇异顶点纵坐标生成扫描线,扫描线与排版多边形的交为多个扫描线段,每两个相邻扫描线的扫描线段从左到右一一配对与排版多边形的边构成多个封闭区域即为“单调排版区”,其边界由4段组成:上边界为上扫描线段,下边界为下扫描线段,左边界为排版多边形位于上下扫描线段左端点间的边,右边界为排版多边形位于上下扫描线段右端点间的边。如果一个“单调排版区”的下边界与另一个“单调排版区”的上边界相同则合并为一个“单调排版区”,如图3所示,用PMR表示“单调排版区”(下同),PMR2、PMR3、PMR6和PMR9都是合并后的“单调排版区”。
三、在版面层次树各层分别建立版面对象的空间邻接关系,“栏区”和“字区”层是左右邻接关系,“行区”层是上下邻接关系,且每个“栏区”和“字区”最多都只有一个左邻和右邻,“行区”最多只有一个上邻和下邻,“栏区”和“字区”层按左大于右都可以形成单一的全序序列,“行区”层按上大于下的映射规则亦可形成单一的全序序列;“单调排版区”层以“单调排版区”为顶点、以左邻和上邻为有向边分别建立有向左邻接图(如图4所示)和有向上邻接图(如图5所示),对有向图进行拆分转化来构造二分图(如图6所示,f_PMR表示X顶点集的顶点,t_PMR表示Y顶点集的顶点,下同),二分图的两个顶点集X和Y都包含有向图的所有顶点,二分图的边满足下面条件:
(1)若X的顶点m和Y的顶点n是有向左邻接图或有向上邻接图有向边的出点和入点,则它们在二分图中也存在边;
(2)若有向上邻接图中顶点a的后继顶点b和顶点c的后继顶点d是有向左邻接图同一条有向边的出点和入点,则顶点a与顶点c在二分图中存在边;
(3)若有向上邻接图中顶点e的先驱顶点f和顶点g的先驱顶点h是有向左邻接图同一条有向边的出点和入点,则顶点e与顶点g在二分图中存在边。
利用匈牙利算法进行最大匹配(如图7所示),具体步骤如下:
(1)任给出图G的一个初始匹配M;
(2)若M已饱和X的所有结点,则M即是最大匹配,计算结束,否则进行下一步;
(3)找X中任一M非饱和点x0,令A←{x0},B←φ,A,B是两个集合;
(4)如N(A)=B,将x0作为饱和点,或称为伪饱和点,转第(2)步,否则进行下一步(N(A)Y,是与A中结点邻接的结点集合);
(5)找一结点y∈N(A)-B;
(6)如y是M饱和点,则找出y的配对点z,令A←A∪{z},B←B∪{y},转第(4)步,否则进行下一步;
(7)存在一条从x0到y的可增广道路P,令M←MP,即M与P进行环和,转第(2)步。
由最大匹配M生成全序序列的方法是如果X的顶点a与Y的顶点b是M的配对饱和点且X的顶点b与Y的顶点c是M的配对饱和点,则顶点a→顶点b→顶点c形成一个序列,递推使所有顶点都包含在这个序列中,图3“单调排版区”的序列为:
PMR4→PMR1→PMR2→PMR3→PMR5→PMR7→PMR6→PMR9→PMR10。
四、由各层全序序列自下而上的推导出文字在图文互斥分栏串文版面上的阅读顺序,文字阅读顺序由“字区”在整个排版区域的全序序列确定,方法是:
(1)若“行区”Tile_a在“单调排版区”PMR_a中是“行区”Tile_b的先驱,则“行区”Tile_a中最后一个“字区”与“行区”Tile_b中第一个“字区”形成一个新的“字区”序列,这样在每个“单调排版区”中所有“字区”形成了一个全序序列;
(2)若“单调排版区”PMR_a在“栏区”Column_a中是“单调排版区”PMR_b的先驱,则“单调排版区”PMR_a中最后一个“字区”与“单调排版区”PMR_b中第一个“字区”形成一个新的“字区”序列,这样在每个“栏区”中所有“字区”形成了一个全序序列;
(3)若“栏区”Column_a在“篇章区”中是“栏区”Column_b的先驱,则“栏区”Column_a中最后一个“字区”与“栏区”Column_b中第一个“字区”形成一个新的“字区”序列,这样在“篇章区”中所有“字区”形成了一个全序序列,这个序列即为文字在图文互斥分栏串文版面的阅读顺序。图8和图9分别给出了单栏和双栏情况下的具有复杂互斥图像的矩形排版区域的文字阅读顺序确定结果。
Claims (7)
1.一种对图文互斥分栏串文版面确定文字阅读顺序的方法,包括以下步骤:
(1)输入用于文字排版的区域边界闭合曲线及互斥图,用多边形逼近排版区域和互斥图区域的边界曲线并表示为排版多边形和互斥多边形,排版多边形区域与互斥多边形区域的差作为“篇章区”;
(2)版面层次树自顶向下包括“篇章区”、“栏区”、“单调排版区”、“行区”和“字区”,由位置、形状样式信息自顶向下进行版面分解来构造版面层次树的“栏区”、“行区”和“字区”,对于无样式信息的“单调排版区”层,利用簇奇异顶点扫描线算法生成“单调排版区”,所述的簇奇异顶点为排版多边形上前后两个顶点都位于其上方或下方的顶点,所述的扫描线算法是:求出所有簇奇异顶点并把纵坐标从小到大排序,经过每个簇奇异顶点纵坐标生成扫描线,扫描线与排版多边形的交为多个扫描线段,每两个相邻扫描线的扫描线段从左到右一一配对与排版多边形的边构成多个封闭区域即为“单调排版区”,其边界由4段组成:上边界为上扫描线段,下边界为下扫描线段,左边界为排版多边形位于上下扫描线段左端点间的边,右边界为排版多边形位于上下扫描线段右端点间的边,如果一个“单调排版区”的下边界与另一个“单调排版区”的上边界相同则合并为一个“单调排版区”;
(3)在版面层次树各层分别建立版面对象的空间邻接关系,“栏区”、“行区”和“字区”只有一种邻接关系可按左大于右和上大于下的规则映射成单一的全序序列,但“单调排版区”空间关系复杂,既有左右又有上下邻接关系,需首先建立空间关系邻接有向图,拆分转化为二分图,并进行最大匹配,基于最大匹配结果确定“单调排版区”层的全序序列;
(4)由各层全序序列自下而上的推导出文字在图文互斥分栏串文版面上的阅读顺序。
2.如权利要求1所述的一种对图文互斥分栏串文版面确定文字阅读顺序的方法,其特征在于:步骤(1)中,排版区域和互斥图边界曲线以交互式输入,互斥图亦可以图像格式输入,由于每个文字必须完全位于排版区域内且不能与互斥图相交,对排版边界曲线用内切多边形逼近,而互斥边界曲线用外切多边形逼近,排版多边形区域与互斥多边形区域的差计算方法是如果二者没有交点则用排版多边形表示排版多边形区域的外边界、用互斥多边形表示排版多边形区域的内边界,若有交点,首先求出二者的交点,排版多边形区域的边界多边形的顶点分别取自位于互斥多边形区域外的排版多边形的顶点、位于排版多边形区域内的互斥多边形的顶点及交点。
3.如权利要求1或2所述的一种对图文互斥分栏串文版面确定文字阅读顺序的方法,其特征在于:步骤(2)中,排版多边形区域的形状与位置信息决定了“篇章区”,由栏数和栏间距信息和“篇章区”的外接矩形大小计算出每个栏的栏宽,把“篇章区”按栏宽分割为多个“栏区”,在“单调排版区”内根据行高和行间距求出每个“行区”的上下纵坐标并以此生成两条水平扫描线,“单调排版区”与两条扫描线形成一个多边形,这个多边形的内接矩形即为“行区”,在“行区”内按字宽和字间距生成矩形的“字区”。
4.如权利要求1所述的一种对图文互斥分栏串文版面确定文字阅读顺序的方法,其特征在于:步骤(3)中,“栏区”和“字区”层是左右邻接关系,“行区”层是上下邻接关系,且每个“栏区”和“字区”最多都只有一个左邻和右邻,“行区”最多只有一个上邻和下邻,“栏区”和“字区”层按左大于右都可以形成单一的全序序列,“行区”层按上大于下的映射规则亦可形成单一的全序序列;“单调排版区”层以”单调排版区”为顶点、以左邻和上邻为有向边分别建立有向左邻接图和有向上邻接图,对有向图进行拆分转化来构造二分图,二分图的两个顶点集X和Y都包含有向图的所有顶点,二分图的边满足下面条件:
1)若X的顶点m和Y的顶点n是有向左邻接图或有向上邻接图有向边的出点和入点,则它们在二分图中也存在边;
2)若有向上邻接图中顶点a的后继顶点b和顶点c的后继顶点d是有向左邻接图同一条有向边的出点和入点,则顶点a与顶点c在二分图中存在边;
3)若有向上邻接图中顶点e的先驱顶点f和顶点g的先驱顶点h是有向左邻接图同一条有向边的出点和入点,则顶点e与顶点g在二分图中存在边;
由最大匹配M生成全序序列的方法是如果X的顶点i与Y的顶点j是M的配对饱和点且X的顶点j与Y的顶点k是M的配对饱和点,则顶点i→顶点j→顶点k形成一个序列,递推使所有顶点都包含在这个序列中。
5.如权利要求1所述的一种对图文互斥分栏串文版面确定文字阅读顺序的方法,其特征在于:步骤(3)中,在进行阅读顺序确定时将图论中最大匹配的匈牙利算法用于“单调排版区”复杂的空间关系到全序序列的映射。
6.如权利要求5所述的一种对图文互斥分栏串文版面确定文字阅读顺序的方法,其特征在于:步骤(3)中,利用匈牙利算法进行最大匹配,具体步骤如下:
1)任给出图G的一个初始匹配M;
2)若M已饱和X的所有结点,则M即是最大匹配,计算结束,否则进行下一步;
3)找X中任一M非饱和点x0,令A←{x0},B←φ,A,B是两个集合;
4)如N(A)=B,将x0作为饱和点,或称为伪饱和点,转第2)步,否则进行下一步,其中,N(A)Y,是与A中结点邻接的结点集合;
5)找一结点y∈N(A)-B;
6)如y是M饱和点,则找出y的配对点z,令A←A∪{z},B←B∪{y},转第4)步,否则进行下一步;
7)存在一条从x0到y的可增广道路P,令M←MP,即M与P进行环和,转第2)步。
7.如权利要求1所述的一种对图文互斥分栏串文版面确定文字阅读顺序的方法,其特征在于:步骤(4)中,文字阅读顺序由“字区”在整个排版区域的全序序列确定,方法是:
1)若“行区”Tile_a在“单调排版区”PMR_a中是“行区”Tile_b的先驱,则“行区”Tile_a中最后一个“字区”与“行区”Tile_b中第一个“字区”形成一个新的“字区”序列,这样在每个“单调排版区”中所有“字区”形成了一个全序序列;
2)若“单调排版区”PMR_a在“栏区”Column_a中是“单调排版区”PMR_b的先驱,则“单调排版区”PMR_a中最后一个“字区”与“单调排版区”PMR_b中第一个“字区”形成一个新的“字区”序列,这样在每个“栏区”中所有“字区”形成了一个全序序列;
3)若“栏区”Column_a在“篇章区”中是“栏区”Column_b的先驱,则“栏区”Column_a中最后一个“字区”与“栏区”Column_b中第一个“字区”形成一个新的“字区”序列,这样在“篇章区”中所有“字区”形成了一个全序序列,这个序列即为文字在图文互斥分栏串文版面的阅读顺序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200410091433 CN1604074A (zh) | 2004-11-22 | 2004-11-22 | 一种对图文互斥分栏串文版面确定文字阅读顺序的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200410091433 CN1604074A (zh) | 2004-11-22 | 2004-11-22 | 一种对图文互斥分栏串文版面确定文字阅读顺序的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1604074A true CN1604074A (zh) | 2005-04-06 |
Family
ID=34667255
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 200410091433 Pending CN1604074A (zh) | 2004-11-22 | 2004-11-22 | 一种对图文互斥分栏串文版面确定文字阅读顺序的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1604074A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100412857C (zh) * | 2006-09-15 | 2008-08-20 | 北京北大方正电子有限公司 | 一种分类广告自动排版的方法 |
CN101046798B (zh) * | 2006-03-31 | 2010-05-12 | 北京北大方正电子有限公司 | 一种排版领域的图文绕排方法 |
CN101013417B (zh) * | 2007-02-12 | 2010-05-19 | 北京大学 | 一种改变排版数据换行属性的划版辅助装置及方法 |
CN102479173A (zh) * | 2010-11-25 | 2012-05-30 | 北京大学 | 识别版面阅读顺序的方法及装置 |
CN102541826A (zh) * | 2010-12-27 | 2012-07-04 | 北大方正集团有限公司 | 文字块内容重组方法及装置 |
CN101866418B (zh) * | 2009-04-17 | 2013-02-27 | 株式会社理光 | 确定文档阅读顺序的方法和设备 |
CN103488619A (zh) * | 2013-07-05 | 2014-01-01 | 百度在线网络技术(北京)有限公司 | 一种用于进行文档文件处理的方法及装置 |
CN103870793A (zh) * | 2012-12-10 | 2014-06-18 | 北大方正集团有限公司 | 纸媒广告的监测方法和装置 |
CN106096592A (zh) * | 2016-07-22 | 2016-11-09 | 浙江大学 | 一种数字图书的版面分析方法 |
CN106503629A (zh) * | 2016-10-10 | 2017-03-15 | 语联网(武汉)信息技术有限公司 | 一种词典图片分割方法及装置 |
CN108228552A (zh) * | 2016-12-14 | 2018-06-29 | 北大方正集团有限公司 | 盒子排版方法及装置 |
WO2020233379A1 (zh) * | 2019-05-17 | 2020-11-26 | 上海肇观电子科技有限公司 | 版面分析方法、阅读辅助设备、电路及介质 |
CN114495147A (zh) * | 2022-01-25 | 2022-05-13 | 北京百度网讯科技有限公司 | 识别方法、装置、设备以及存储介质 |
-
2004
- 2004-11-22 CN CN 200410091433 patent/CN1604074A/zh active Pending
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101046798B (zh) * | 2006-03-31 | 2010-05-12 | 北京北大方正电子有限公司 | 一种排版领域的图文绕排方法 |
CN100412857C (zh) * | 2006-09-15 | 2008-08-20 | 北京北大方正电子有限公司 | 一种分类广告自动排版的方法 |
CN101013417B (zh) * | 2007-02-12 | 2010-05-19 | 北京大学 | 一种改变排版数据换行属性的划版辅助装置及方法 |
CN101866418B (zh) * | 2009-04-17 | 2013-02-27 | 株式会社理光 | 确定文档阅读顺序的方法和设备 |
CN102479173A (zh) * | 2010-11-25 | 2012-05-30 | 北京大学 | 识别版面阅读顺序的方法及装置 |
CN102479173B (zh) * | 2010-11-25 | 2013-11-06 | 北京大学 | 识别版面阅读顺序的方法及装置 |
CN102541826A (zh) * | 2010-12-27 | 2012-07-04 | 北大方正集团有限公司 | 文字块内容重组方法及装置 |
CN102541826B (zh) * | 2010-12-27 | 2014-08-06 | 北大方正集团有限公司 | 文字块内容重组方法及装置 |
CN103870793A (zh) * | 2012-12-10 | 2014-06-18 | 北大方正集团有限公司 | 纸媒广告的监测方法和装置 |
CN103870793B (zh) * | 2012-12-10 | 2017-11-24 | 北大方正集团有限公司 | 纸媒广告的监测方法和装置 |
CN103488619A (zh) * | 2013-07-05 | 2014-01-01 | 百度在线网络技术(北京)有限公司 | 一种用于进行文档文件处理的方法及装置 |
CN106096592A (zh) * | 2016-07-22 | 2016-11-09 | 浙江大学 | 一种数字图书的版面分析方法 |
CN106096592B (zh) * | 2016-07-22 | 2019-05-24 | 浙江大学 | 一种数字图书的版面分析方法 |
CN106503629A (zh) * | 2016-10-10 | 2017-03-15 | 语联网(武汉)信息技术有限公司 | 一种词典图片分割方法及装置 |
CN108228552A (zh) * | 2016-12-14 | 2018-06-29 | 北大方正集团有限公司 | 盒子排版方法及装置 |
CN108228552B (zh) * | 2016-12-14 | 2020-10-16 | 北大方正集团有限公司 | 盒子排版方法及装置 |
WO2020233379A1 (zh) * | 2019-05-17 | 2020-11-26 | 上海肇观电子科技有限公司 | 版面分析方法、阅读辅助设备、电路及介质 |
CN114495147A (zh) * | 2022-01-25 | 2022-05-13 | 北京百度网讯科技有限公司 | 识别方法、装置、设备以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1604074A (zh) | 一种对图文互斥分栏串文版面确定文字阅读顺序的方法 | |
CN114005123B (zh) | 一种印刷体文本版面数字化重建系统及方法 | |
CN101206639B (zh) | 一种基于pdf的复杂版面的标引方法 | |
CN105589841B (zh) | 一种pdf文档表格识别的方法 | |
CN101375278B (zh) | 用于处理注释的策略 | |
JPH11250041A (ja) | 文書処理装置および文書処理方法 | |
CN107292936B (zh) | 一种汉字字体矢量化方法 | |
CN101840582A (zh) | 一种地籍图地块的边界数字化方法 | |
CN1085866C (zh) | 能改变字符大小的字符串输出方法与装置 | |
CN110688825A (zh) | 一种版式文档中的含线表格信息提取方法 | |
Futrelle | Summarization of diagrams in documents | |
CN101694727A (zh) | 基于建筑图纸的中国古代建筑过程建模方法 | |
JP2005043990A (ja) | 文書処理装置および文書処理方法 | |
CN106446863B (zh) | 一种pdf文档逻辑图识别的方法 | |
CN1584932A (zh) | 用于图像转图形中边界线追踪的优化方法 | |
CN1920811A (zh) | 一种文字排版的方法 | |
CN1641686A (zh) | 乱笔顺库建立方法及联机手写汉字识别评测系统 | |
CN1621241A (zh) | 一种随机性艺术挂网的方法 | |
Abello | Hierarchical graph maps | |
CN1617172A (zh) | 平面图案的设计设备和方法 | |
TWI385584B (zh) | 自動排列手寫字串之裝置及方法 | |
CN1881221A (zh) | 微机电系统中三维实体到标准工艺版图的转换方法 | |
CN1808347A (zh) | 一种藏字计算机输入方法 | |
CN1052800C (zh) | 三笔三拼汉字编码输入法及键盘 | |
CN108510563A (zh) | 一种模仿装饰艺术风格Art-Deco进行的图案快速生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Open date: 20050406 |