CN110688825A - 一种版式文档中的含线表格信息提取方法 - Google Patents
一种版式文档中的含线表格信息提取方法 Download PDFInfo
- Publication number
- CN110688825A CN110688825A CN201910743582.5A CN201910743582A CN110688825A CN 110688825 A CN110688825 A CN 110688825A CN 201910743582 A CN201910743582 A CN 201910743582A CN 110688825 A CN110688825 A CN 110688825A
- Authority
- CN
- China
- Prior art keywords
- lines
- line
- cell
- straight
- horizontal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000004458 analytical method Methods 0.000 claims abstract description 6
- 230000011218 segmentation Effects 0.000 claims description 16
- 238000012163 sequencing technique Methods 0.000 claims description 9
- 230000008520 organization Effects 0.000 claims description 5
- 230000000149 penetrating effect Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 8
- 230000009286 beneficial effect Effects 0.000 abstract description 4
- 238000006243 chemical reaction Methods 0.000 abstract description 3
- 230000001788 irregular Effects 0.000 abstract description 2
- 238000000605 extraction Methods 0.000 description 7
- 101150055297 SET1 gene Proteins 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 101150117538 Set2 gene Proteins 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明涉及本发明涉及一种版式文档中的含线表格信息提取方法,包括以下步骤:步骤一、解析版式文档,逐页获取页面信息及页面中文字块和直线信息;步骤二、对各页的直线进行合并;步骤三、连续页拼接,将所有页面拼接,最终整个版式文件获得一个虚拟页;步骤四、提取表格所在位置和表格中直线信息;步骤五、结合文字块和表格线提取表格中各单元格内容和位置信息;步骤六、表格单元格的组织结构分析,本发明能有效提高表格的识别效果,尤其是不规则表格,减少了版式文档排版识别、转换的困难,有助于提高版式文档解析的效率和效果。
Description
技术领域
本发明涉及版式文档信息提取领域,尤其涉及一种版式文档中的含线表格信息提取方法。
背景技术
版式文档格式是版面呈现效果固定的电子文档格式,版式文档的呈现与设备无关,在各种设备上阅读、打印或印刷时,其版面的呈现结果都是一致的。版式文档主要应用于成文后文件的发布、传播和存档。常见的版式文档格式有PDF、OFD、CEBX等。版式文档中存储的是非结构化的数据,没有记录文档的逻辑结构,没有段落、大纲、表格等元素,不利于信息再利用。为了版式文档进行分析理解,表格的提取和解析对版式文档的是重要的。但是版式文档中并不存在表格结构,它是分别以文字块和直线、矩形等对象显示的,由于其互相之间不存在逻辑关系,当包含表格的版式文档转换为其他类型文档时,其排版、编辑效果都很差。
对于多页面版式文档的表格信息识别,现有技术中:
专利文献“一种文档转换中的表格处理方法及装置(申请号CN101866335 A)”描述了一种根据表格线段划分表格逻辑单元区域的提取表格结构信息的方法,但是基于线段划分查找逻辑单元区域的计算代价较高,且并未处理不同逻辑单元区域之间的位置关系。
专利文献“一种识别文档中数据表格的方法及装置”(申请号CN101976232 A)描述的方法仅基于版式文档中的文字块信息,未使用文档中的直线对象,由于使用信息不充分,对于较为复杂的表格结构,识别效果会受到较大限制。
专利文献“基于PDF文件的表格提取方法和装置”(申请号CN105988979A),更侧重单元格的组织,且需依赖表格内的文字内容构建关键词属性表,对于新领域未建立词表的文件处理效果会受限。
已有的专利文献中,表格的提取都仅以忠实地提取原表格结构为目标,所以主要以表格的直线为出发点提取,对表格内容的组织和便于理解方面,仍有欠缺。
发明内容
为了解决现有技术存在的问题,为达到以上目的,本发明提供一种版式文档中的含线表格信息提取方法。
本发明采用的技术方案是:本发明采用的技术方案是:一种版式文档中的含线表格信息提取方法,包括以下步骤:步骤一、解析版式文档,逐页获取页面信息及页面中文字块和直线信息;步骤二、对各页的直线进行合并;步骤三、连续页拼接,将所有页面拼接,最终整个版式文件获得一个虚拟页;步骤四、提取表格所在位置和表格中直线信息;步骤五、结合文字块和表格线提取表格中各单元格内容和位置信息;步骤六、表格单元格的组织结构分析。
优选步骤二的具体步骤如下:对水平直线按垂直高度排序,竖直直线按水平方向排序;以水平直线的合并为例,根据两条相邻水平直线的垂直位置和水平距离判断是否处于同一直线,若两者纵轴位置之差和水平距离均小于给定的允许误差范围,则合并该两端线段;经过上述合并,得到新的line_objs集合;
优选述步骤四的具体步骤如下:定位表格可能的所在位置,具体步骤如下:对合并的虚拟页中采用各页内部的直线合并相同的策略进行直线合并,对文章中水平直线和竖直直线分别按从上到下从左到右的顺序排序,查找各表格所在区域,遍历页面内水平直线,寻找与其共顶点的左边垂直线left_line和右边垂直线right_line,若查找到,在水平直线集合中查找与left_line和right_line均共顶点的直线,若查找到满足条件的直线,则根据4条直线位置确定表格所在矩形区域;其次,将获得的表格边界线所构成的矩形区域内的所有直线都提取出来,若可取到包围表格线内存在直线,则获得表格的边界直线,和所有内部分割线,该直线的集合记为table_line_objs;否则认为第一步获得的表格边界线并不构成一个表格。
优选步骤五的具体步骤如下:提取所有与表格所在矩形区域存在重叠的文字块,记为table_text_objs,以聚类的思路获得各文字块组成的表格单元格。
优选步骤六的具体步骤如下:从上到下查找表格内部首个非表格外包围直线的水平贯穿直线,获得其上方的所有表格单元格;对上一步获得的表格单元格,从左到右依次搜索贯穿该区域的垂直切分线,若不存在则当前当前行仅一个cell,记录为首行结点;若存在垂直切分线,对垂直切分线切分得到的非首个区域重复如上步骤,若每个块均不存在横向切分线则记录当前行结构;每个横向贯穿水平线切分的行解析的结果进行列对齐;若输出的表格结构为标准的m×n表格,直接以标准表格结构输出;若存在一列对多行的结构,则首列单独输出,其对应的多行表格以标准表格结构输出。
优选查找最近的表格直线步骤如下:对表格中的水平直线包含顶端和底端的表格线从上到下排序,依次遍历,对首个在当前cell文字块下方且和当前的文字块有水平位置重叠的直线记录为当前表格cell的下方包围直线,上一和当前的文字块有水平位置重叠的直线记为当前表格cell的上方包围直线;对包含表格边界线的所有垂直直线从左到右排序,依次遍历,对首个在当前cell文字块右方且和当前文字块有垂直重叠的直线记录为当前表格cell的右端包围直线,上一和当前文字块有垂直位置重叠的直线记为当前表格cell的左端包围直线,为了提高查找效率,边界线的集合可以取查找块分割直线时查找到的所有分割直线加上整个表格的外边界线。本发明的有益效果:本发明对表格信息的提取以表格内部文字为出发点,关注如何更高效更好地在将版式文本以纯文本形式输出时,尽可能合理地提取并保留表格的形式和信息更高效、准确地将版式中的表格数据提取和组织,能有效提高表格的识别效果,尤其是不规则表格,减少了版式文档排版识别、转换的困难,有助于提高版式文档解析的效率和效果。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:图1为一种版式文档中含线表格的信息提取方法步骤的示意图。
具体实施方式
以下结合附图对本发明的示范性实施方式做出说明,其中包括本发明实施方式的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施方式做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述,一种版式文档中含线表格的信息提取方法,包括以下步骤:
1.解析版式文档,逐页获取页面信息及页面中文字块和直线信息。其中具体包括:
a)页面信息包括页面大小信息
b)文字块信息包括字符内码、颜色、位置(包围矩形包含横轴坐标(x1,x2)和纵轴坐标(y1,y2))、字体字号等信息,文字块集合记为text_objs
c)直线信息包括颜色、位置(矩形坐标宽度(x1,x2)和高度(y1,y2)),根据直线的宽度和高度确定是水平直线还是竖直直线,具体而言,若线条宽度大于高度,则为水平直线;反之为竖直直线。直线集合记为line_objs
2.对各页的直线进行简单合并
a)对水平直线按垂直高度排序,竖直直线按水平方向排序;
b)以水平直线的合并为例,根据两条相邻水平直线的垂直位置和水平距离判断是否处于同一直线。若两者纵轴位置之差和水平距离均小于给定的允许误差范围,则合并该两端线段;
c)经过上述合并,得到新的line_objs集合
3.连续页拼接,将所有页面拼接,最终整个版式文件获得一个虚拟页。对于任意连续的两个页面,合并思路如下
a)逐个拼接页面,下一页的文字块和直线均加上一个偏移项y_off,保证上一页面尾部和下一页面顶端文字内容和表格内容连续阅读。识别是否存在跨页需拼接的连续表格,若存在则取偏移项y_off使得两页直线可拼接得到一条直线;若不存在,以文章行距拼接。
b)为了判断是否存在跨页表格,提取前一页的底端坐标达到当前页最下方(坐标值大于等于所有文字块矩形坐标、直线矩形坐标)的所有竖直直线集合vlines_set1,和下一页顶端坐标达到当前页最上方的所有竖直直线vlines_set2。若两个集合均不为空,将两组直线均从左到右排序,若两组直线集合中的竖直直线可以逐个分别在可允许的误差范围内左右对齐,则认为存在跨页表格。
c)对认为存在跨页表格的两页,查找是否存在前一页页面底端的水平直线、下一页页面顶端的水平直线,若存在,则取y_off为前一页最底端水平直线的纵坐标y1,使得上述两条水平线合并为同一条。若不存在前一页页面底端的水平直线或下一页页面顶端的水平直线,则取y_off为前一页竖直直线集合vlines_set1的直线纵坐标y2,使得两页的竖直直线恰以0的间隔合并。
4.提取表格所在位置和表格中直线信息
a)首先,定位表格可能的所在位置,具体步骤如下:
i.对合并的虚拟页中采用各页内部的直线合并相同的策略进行直线合并。
ii.对文章中水平直线和竖直直线分别按从上到下从左到右的顺序排序
iii.依次查找各表格所在区域。遍历页面内水平直线,依次寻找与其共顶点的左边垂直线left_line和右边垂直线right_line,若查找到,在水平直线集合中查找与left_line和right_line均共顶点的直线。若查找到满足条件的直线,则根据4条直线位置确定表格所在矩形区域
b)其次,将获得的表格边界线所构成的矩形区域内的所有直线都提取出来。若可取到包围表格线内存在直线,则获得表格的边界直线,和所有内部分割线,该直线的集合记为table_line_objs;否则认为第一步获得的表格边界线并不构成一个表格。
5.对上一步提取的每一个表格区域,结合文字块和表格线提取表格中各单元格内容和位置信息
a)提取所有与表格所在矩形区域存在重叠的文字块,记为table_text_objs
b)以聚类的思路获得各文字块组成的表格单元格
i.依次遍历表格中的文字块,首个文字块首先构成一个单元格,记为cell0。其后的每个文字块,对当前已构成的所有单元格cell0,cell1,……,celln-1,查找是否存在一个单元格中的文字块与当前文字块之间不存在表格线切分,若存在k使得cellk中的文字块与当前文字块之间无表格线切分,则将当前块加入cellk中,否则,当前文字块构成新的单元格celln。
ii.判断两个文字块中间是否存在分割直线的思路如下:
1.若两个文字块无纵向重叠,且存在水平直线,与两个文字块的水平方向均重叠,且垂直坐标在两个文字块中间,则认为两个文字块存在水平直线切分;
2.若两个文字块无水平重叠,且存在垂直直线,与两个文字块的垂直方向均重叠,且水平坐标在两个文字块中间,则认为两个文字块存在垂直直线切分。
iii.对每个cell,查找其上下左右四个方向最近的表格直线,以此确定每个cell的包围矩形。
iv.查找最近的表格直线思路如下:
1.对表格中的水平直线(包含顶端和底端的表格线)从上到下排序,依次遍历,对首个在当前cell文字块下方且和当前的文字块有水平位置重叠的直线记录为当前表格cell的下方包围直线,上一和当前的文字块有水平位置重叠的直线记为当前表格cell的上方包围直线;
2.对包含表格边界线的所有垂直直线从左到右排序,依次遍历,对首个在当前cell文字块右方且和当前文字块有垂直重叠的直线记录为当前表格cell的右端包围直线,上一和当前文字块有垂直位置重叠的直线记为当前表格cell的左端包围直线
3.为了提高查找效率,边界线的集合可以取查找块分割直线时查找到的所有分割直线加上整个表格的外边界线
6.表格单元格的组织结构分析。对已经提取的表格单元格集合cells,根据其包围矩形位置确定表格的cell组织方式
a)从上到下查找表格内部首个非表格外包围直线的水平贯穿直线,获得其上方的所有表格单元格;
b)对上一步获得的表格单元格,从左到右依次搜索贯穿该区域的垂直切分线,若不存在则当前当前行仅一个cell,记录为首行结点;若存在垂直切分线,对垂直切分线切分得到的非首个区域重复如上步骤,若每个块均不存在横向切分线则记录当前行结构;
c)每个横向贯穿水平线切分的行解析的结果进行列对齐;
d)若输出的表格结构为标准的m×n表格,直接以标准表格结构输出;若存在一列对多行的结构,则首列单独输出,其对应的多行表格以标准表格结构输出。
Claims (7)
1.一种版式文档中的含线表格信息提取方法,包括以下步骤:步骤一、解析版式文档,逐页获取页面信息及页面中文字块和直线信息;步骤二、对各页的直线进行合并;步骤三、连续页拼接,将所有页面拼接,最终整个版式文件获得一个虚拟页;步骤四、提取表格所在位置和表格中直线信息;步骤五、结合文字块和表格线提取表格中各单元格内容和位置信息;步骤六、表格单元格的组织结构分析。
2.根据权利要求1所述一种版式文档中的含线表格信息提取方法,其特征是;所述步骤二的具体步骤如下:对水平直线按垂直高度排序,竖直直线按水平方向排序;以水平直线的合并为例,根据两条相邻水平直线的垂直位置和水平距离判断是否处于同一直线,若两者纵轴位置之差和水平距离均小于给定的允许误差范围,则合并该两端线段;经过上述合并,得到新的line_objs集合。
3.根据权利要求1所述一种版式文档中的含线表格信息提取方法,其特征是;所述步骤四的具体步骤如下:定位表格可能的所在位置,具体步骤如下:对合并的虚拟页中采用各页内部的直线合并相同的策略进行直线合并,对文章中水平直线和竖直直线分别按从上到下从左到右的顺序排序,查找各表格所在区域,遍历页面内水平直线,寻找与其共顶点的左边垂直线left_line和右边垂直线right_line,若查找到,在水平直线集合中查找与left_line和right_line均共顶点的直线,若查找到满足条件的直线,则根据4条直线位置确定表格所在矩形区域;其次,将获得的表格边界线所构成的矩形区域内的所有直线都提取出来,若可取到包围表格线内存在直线,则获得表格的边界直线,和所有内部分割线,该直线的集合记为table_line_objs;否则认为第一步获得的表格边界线并不构成一个表格。
4.根据权利要求1所述一种版式文档中的含线表格信息提取方法,其特征是;步骤五的具体步骤如下:提取所有与表格所在矩形区域存在重叠的文字块,记为table_text_objs,以聚类的思路获得各文字块组成的表格单元格。
5.根据权利要求1所述一种版式文档中的含线表格信息提取方法,其特征是;所述步骤六的具体步骤如下:从上到下查找表格内部首个非表格外包围直线的水平贯穿直线,获得其上方的所有表格单元格;对上一步获得的表格单元格,从左到右依次搜索贯穿该区域的垂直切分线,若不存在则当前当前行仅一个cell,记录为首行结点;若存在垂直切分线,对垂直切分线切分得到的非首个区域重复如上步骤,若每个块均不存在横向切分线则记录当前行结构;每个横向贯穿水平线切分的行解析的结果进行列对齐;若输出的表格结构为标准的m×n表格,直接以标准表格结构输出;若存在一列对多行的结构,则首列单独输出,其对应的多行表格以标准表格结构输出。
6.根据权利要求4所述一种版式文档中的含线表格信息提取方法,其特征是,以聚类的思路获得各文字块组成的表格单元格的步骤;依次遍历表格中的文字块,首个文字块首先构成一个单元格,记为cell0,其后的每个文字块,对当前已构成的所有单元格cell0,cell1,……,celln-1,查找是否存在一个单元格中的文字块与当前文字块之间不存在表格线切分,若存在k使得cellk中的文字块与当前文字块之间无表格线切分,则将当前块加入cellk中,否则,当前文字块构成新的单元格cell,依次遍历表格中的文字块,首个文字块首先构成一个单元格,记为cell0,对每个cell,查找其上下左右四个方向最近的表格直线,以此确定每个cell的包围矩形。
7.根据权利要求6所述一种版式文档中的含线表格信息提取方法,其特征是,查找最近的表格直线步骤如下:对表格中的水平直线包含顶端和底端的表格线从上到下排序,依次遍历,对首个在当前cell文字块下方且和当前的文字块有水平位置重叠的直线记录为当前表格cell的下方包围直线,上一和当前的文字块有水平位置重叠的直线记为当前表格cell的上方包围直线;对包含表格边界线的所有垂直直线从左到右排序,依次遍历,对首个在当前cell文字块右方且和当前文字块有垂直重叠的直线记录为当前表格cell的右端包围直线,上一和当前文字块有垂直位置重叠的直线记为当前表格cell的左端包围直线,为了提高查找效率,边界线的集合可以取查找块分割直线时查找到的所有分割直线加上整个表格的外边界线。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910743582.5A CN110688825A (zh) | 2019-08-13 | 2019-08-13 | 一种版式文档中的含线表格信息提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910743582.5A CN110688825A (zh) | 2019-08-13 | 2019-08-13 | 一种版式文档中的含线表格信息提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110688825A true CN110688825A (zh) | 2020-01-14 |
Family
ID=69108168
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910743582.5A Pending CN110688825A (zh) | 2019-08-13 | 2019-08-13 | 一种版式文档中的含线表格信息提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110688825A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111611883A (zh) * | 2020-05-07 | 2020-09-01 | 北京智通云联科技有限公司 | 基于最小单元格聚类的表格版面分析方法、系统及设备 |
CN113221743A (zh) * | 2021-05-12 | 2021-08-06 | 北京百度网讯科技有限公司 | 表格解析方法、装置、电子设备和存储介质 |
CN115114412A (zh) * | 2022-08-31 | 2022-09-27 | 北京弘玑信息技术有限公司 | 文档中的信息检索方法及电子设备、存储介质 |
CN117912039A (zh) * | 2024-03-20 | 2024-04-19 | 南昌航空大学 | 一种文档图像版面分析方法 |
CN117912039B (zh) * | 2024-03-20 | 2024-05-24 | 南昌航空大学 | 一种文档图像版面分析方法 |
-
2019
- 2019-08-13 CN CN201910743582.5A patent/CN110688825A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111611883A (zh) * | 2020-05-07 | 2020-09-01 | 北京智通云联科技有限公司 | 基于最小单元格聚类的表格版面分析方法、系统及设备 |
CN111611883B (zh) * | 2020-05-07 | 2023-08-15 | 北京智通云联科技有限公司 | 基于最小单元格聚类的表格版面分析方法、系统及设备 |
CN113221743A (zh) * | 2021-05-12 | 2021-08-06 | 北京百度网讯科技有限公司 | 表格解析方法、装置、电子设备和存储介质 |
CN113221743B (zh) * | 2021-05-12 | 2024-01-12 | 北京百度网讯科技有限公司 | 表格解析方法、装置、电子设备和存储介质 |
CN115114412A (zh) * | 2022-08-31 | 2022-09-27 | 北京弘玑信息技术有限公司 | 文档中的信息检索方法及电子设备、存储介质 |
CN115114412B (zh) * | 2022-08-31 | 2022-11-08 | 北京弘玑信息技术有限公司 | 文档中的信息检索方法及电子设备、存储介质 |
CN117912039A (zh) * | 2024-03-20 | 2024-04-19 | 南昌航空大学 | 一种文档图像版面分析方法 |
CN117912039B (zh) * | 2024-03-20 | 2024-05-24 | 南昌航空大学 | 一种文档图像版面分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105589841B (zh) | 一种pdf文档表格识别的方法 | |
JP3940491B2 (ja) | 文書処理装置および文書処理方法 | |
US9798925B2 (en) | Method for identifying PDF document | |
US7705848B2 (en) | Method of identifying semantic units in an electronic document | |
JP4343213B2 (ja) | 文書処理装置および文書処理方法 | |
CN101206639B (zh) | 一种基于pdf的复杂版面的标引方法 | |
US20060294460A1 (en) | Generating a text layout boundary from a text block in an electronic document | |
US20070136660A1 (en) | Creation of semantic objects for providing logical structure to markup language representations of documents | |
KR101394723B1 (ko) | 문서 내의 목록들의 재구성 | |
CN110704570A (zh) | 一种连续页版式文档结构化信息提取方法 | |
CN110688825A (zh) | 一种版式文档中的含线表格信息提取方法 | |
JP2005526314A (ja) | 文書構造識別器 | |
CN110765739B (zh) | 一种从pdf文档中抽取表格数据和篇章结构的方法 | |
CN101872340A (zh) | 一种基于版面格式模板的排版方法及装置 | |
EP2110758B1 (en) | Searching method based on layout information | |
CN105159877A (zh) | 一种跨媒体自动排版系统及其方法 | |
US7046847B2 (en) | Document processing method, system and medium | |
JP2003288334A (ja) | 文書処理装置及び文書処理方法 | |
CN111368695A (zh) | 一种表格结构提取方法 | |
CN114359943A (zh) | Ofd版式文档段落识别方法及装置 | |
US9049400B2 (en) | Image processing apparatus, and image processing method and program | |
JP5446877B2 (ja) | 目次構造特定装置 | |
CN102110108B (zh) | 一种对小样文件的处理方法及装置 | |
JPH0821057B2 (ja) | 文書画像解析方式 | |
JPH03127169A (ja) | マルチメディア文書構造化方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200114 |
|
WD01 | Invention patent application deemed withdrawn after publication |