CN110110313A - 文档表格解析方法及装置 - Google Patents
文档表格解析方法及装置 Download PDFInfo
- Publication number
- CN110110313A CN110110313A CN201910388152.6A CN201910388152A CN110110313A CN 110110313 A CN110110313 A CN 110110313A CN 201910388152 A CN201910388152 A CN 201910388152A CN 110110313 A CN110110313 A CN 110110313A
- Authority
- CN
- China
- Prior art keywords
- information
- line segment
- identified
- coordinate
- horizontal line
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 34
- 238000000034 method Methods 0.000 claims abstract description 23
- 239000000284 extract Substances 0.000 claims description 4
- 230000009467 reduction Effects 0.000 abstract description 14
- 230000000694 effects Effects 0.000 abstract description 8
- 150000001875 compounds Chemical class 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007639 printing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/174—Form filling; Merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明提供一种文档表格解析方法及装置,涉及文件解析技术领域。该方法包括获取非编辑文档中待识别表格相关的线段特征信息,线段特征信息包括:线段的坐标信息;根据线段特征信息,获取待识别表格中横线段信息及竖线段信息;根据待识别表格中横线段信息及竖线段信息,获取初始表格信息;根据初始表格信息和线段的坐标信息,生成与待识别表格对应的可编辑表格。通过线段特征信息获取待识别表格中横线段信息和竖线段信息,并根据该横线段信息和竖线段信息,获取初始表格信息,最后根据初始表格信息和待识别表格相关的线段特征信息,生成待识别表格对应的可编辑表格。该方法有效解决了复合表格及缺线表格还原复杂度高,还原效果差的问题。
Description
技术领域
本发明涉及文件解析技术领域,具体而言,涉及一种文档表格解析方法及装置。
背景技术
便捷式文档格式PDF作为一种电子文件格式,其与操作系统平台无关,也即,PDF文件不管是在windows,Unix还是在苹果公司的Mac OS操作系统中都是通用的,该优点使得PDF格式成为在互联网上进行电子文档发行和数字化信息传播的理想文档格式。PDF文件以编程语言PostScript图像模型为基础,无论在哪种打印机上都可以保证精确的颜色和准确的打印效果,即PDF会忠实地再现原稿的每一个字符、颜色及图像。
通常,当需要对文件中的表格内容进行编辑更改时,需将PDF格式文件转换为可编辑格式的文件,例如Word格式文件等。但是,对于PDF格式而言,表格是以图片的形式展现的,其并不能获知表格的具体形式(由几行几列组成、是否为复合表格、是否存在缺线等)、及每个单元格中包含的具体数据等。故如何从PDF格式文件中准确的还原表格并获取表格中的数据变得尤为重要。
现有技术中,通过提取PDF表格中的字符和线段信息,可以对PDF中简单表格进行还原及处理,但是对于复杂表格(例如:复合表格、缺少边线的表格等)的还原及相应单元格对应数据的提取,准确性较差。
发明内容
本发明的目的在于,针对上述现有技术中的不足,提供一种文档表格解析方法及装置,以解决现有技术中,PDF文档中表格解析还原准确性差的问题。
为实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请实施例提供一种文档表格解析方法,包括:
获取非编辑文档中待识别表格相关的线段特征信息,所述线段特征信息包括:线段的坐标信息;
根据所述线段特征信息,获取所述待识别表格中横线段信息及竖线段信息;
根据所述待识别表格中横线段信息及竖线段信息,获取初始表格信息;
根据所述初始表格信息和所述线段的坐标信息,生成与所述待识别表格对应的可编辑表格。
可选地,所述根据所述线段特征信息,获取所述待识别表格中横线段信息及竖线段信息,包括:
根据所述线段特征信息,提取第一特征集合、第二特征集合,其中,所述第一特征集合包括:横线段的纵坐标、竖线段的纵坐标最大值、竖线段的纵坐标最小值;所述第二特征集合包括:竖线段的横坐标、横线段的横坐标最大值、横线段的横坐标最小值;
根据所述第一特征集合、所述第二特征集合,确定所述待识别表格中横线段信息及竖线段信息。
可选地,所述根据所述第一特征集合、所述第二特征集合,确定所述待识别表格中横线段信息及竖线段信息,包括:
将所述第一特征集合中元素坐标差值小于预设阈值的坐标值删除,并对剩余元素坐标值大小进行排序,得到所述横线段信息;
将所述第二特征集合中元素坐标差值小于预设阈值的坐标值删除,并对剩余元素坐标值大小进行排序,得到所述竖线段信息。
可选地,所述根据所述初始表格信息和所述线段的坐标信息,生成与所述待识别表格对应的可编辑表格,包括:
获取所述初始表格信息中初始线段的坐标信息;
获取所述初始线段的坐标信息和所述线段的坐标信息之间的差异信息;
根据所述差异信息更新所述初始表格信息,得到目标表格信息;
根据所述目标表格信息,生成与所述待识别表格对应的可编辑表格。
可选地,所述根据所述差异信息更新所述初始表格信息,得到目标表格信息之后,还包括:
根据所述目标表格信息,获取目标表格的各单元格坐标;
根据所述目标表格的各单元格坐标,在所述非编辑文档中获取各所述单元格对应的数据;
根据各所述单元格对应的数据填充所述待识别表格对应的可编辑表格。
第二方面,本申请实施例提供一种文档表格解析装置,包括:第一获取模块、第二获取模块、第三获取模块及生成模块;
所述第一获取模块,用于获取非编辑文档中待识别表格相关的线段特征信息,所述线段特征信息包括:线段的坐标信息;
所述第二获取模块,用于根据所述线段特征信息,获取所述待识别表格中横线段信息及竖线段信息;
所述第三获取模块,用于根据所述待识别表格中横线段信息及竖线段信息,获取初始表格信息;
所述生成模块,用于根据所述初始表格信息和所述线段的坐标信息,生成与所述待识别表格对应的可编辑表格。
可选地,所述第二获取模块,具体用于根据所述线段特征信息,提取第一特征集合、第二特征集合,其中,所述第一特征集合包括:横线段的纵坐标、竖线段的纵坐标最大值、竖线段的纵坐标最小值;所述第二特征集合包括:竖线段的横坐标、横线段的横坐标最大值、横线段的横坐标最小值;根据所述第一特征集合、所述第二特征集合,确定所述待识别表格中横线段信息及竖线段信息。
可选地,所述第二获取模块,具体用于将所述第一特征集合中元素坐标差值小于预设阈值的坐标值删除,并对剩余元素坐标值大小进行排序,得到所述横线段信息;将所述第二特征集合中元素坐标差值小于预设阈值的坐标值删除,并对剩余元素坐标值大小进行排序,得到所述竖线段信息。
可选地,所述生成模块,具体用于获取所述初始表格信息中初始线段的坐标信息;获取所述初始线段的坐标信息和所述线段的坐标信息之间的差异信息;根据所述差异信息更新所述初始表格信息,得到目标表格信息;根据所述目标表格信息,生成与所述待识别表格对应的可编辑表格。
可选地,还包括第四获取模块、第五获取模块及数据填充模块;
所述第四获取模块,用于根据所述目标表格信息,获取目标表格的各单元格坐标;
所述第五获取模块,用于根据所述目标表格的各单元格坐标,在所述非编辑文档中获取各所述单元格对应的数据;
所述数据填充模块,用于根据各所述单元格对应的数据填充所述待识别表格对应的可编辑表格。
本申请的有益效果是:本申请实施例提供的文档表格解析方法,通过获取待识别表格相关的线段特征信息,根据线段特征信息获取待识别表格中横线段信息和竖线段信息,并根据该横线段信息和竖线段信息,获取初始表格信息,最后根据初始表格信息和待识别表格相关的线段特征信息,生成待识别表格对应的可编辑表格。该方法有效解决了复合表格及缺线表格还原复杂度高,还原效果差的问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种文档表格解析方法流程示意图;
图2为本申请实施例提供的另一种文档表格解析方法流程示意图;
图3为本申请实施例提供的初始表格信息示意图;
图4为本申请实施例提供的又一种文档表格解析方法流程示意图;
图5为本申请实施例提供的另一种文档表格解析方法流程示意图;
图6为本申请实施例提供的初始表格和目标表格示意图;
图7为本申请实施例提供的又一种文档表格解析方法流程示意图;
图8为本申请实施例提供的一种文档表格解析装置示意图;
图9为本申请实施例提供的另一种文档表格解析装置示意图;
图10为本申请实施例提供的又一种文档表格解析装置示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参照图1,图1为本申请实施例提供的一种文档表格解析方法流程示意图,该方法包括:
S101、获取非编辑文档中待识别表格相关的线段特征信息,线段特征信息包括:线段的坐标信息。
可选地,本实施例中的非编辑文档可以是PDF格式文档,其主要优点是能够保证文件展示的美观性和一致性,无论利用哪个操作系统、哪个软件打开文档,其文件格式均是一致的,不会出现格式错乱等问题。
对于表格文件,其在PDF文档中是以不可编辑的形式存在的,对于计算机来说,其扫描PDF文档,并不能获知被扫描的文档中表格文件是否为表格信息,而是把文档当成图谱,进行OCR识别,得到待识别表格中每条线段的特征信息;需要说明的是,OCR(OpticalCharacter Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。或者是根据PDF文件格式及文件标准,直接从PDF文件中解码出每条线段的特征信息。其中,线段特征信息可以包括线段的坐标信息,例如:每条线段的横坐标值及纵坐标值。
可选地,还可以是CAJ文档(China Academic Journals,中国学术期刊全文数据库),或者是XPS(XML Paper Specification,电子文件格式)等,对于本申请中的非编辑文档,本申请不做具体限制。
S102、根据线段特征信息,获取待识别表格中横线段信息及竖线段信息。
可选地,根据获取到的线段的横坐标信息及纵坐标信息,可以判断线段属于横线段还是竖线段。例如:当某条线段的纵坐标保持不变,而横坐标不断增大时,则可以判断该条线段为横线段,相反的,当某条线段的横坐标保持不变,而纵坐标不断增大时,则可以判断该条线段为竖线段。
需要说明的是,线段一般可以看作是矩形框,对于横线段,其纵坐标即为该横线段对应的矩形框的上下中点的值;对于竖线段,其横坐标即为该竖线段对应的矩形框的左右中点的值。
通常,一条横线段(竖线段)可能是由多个横线段(竖线段)拼接而成的。可选地,可以通过设定距离阈值,对于横线段,可以将纵坐标小于距离阈值、横坐标相交(横坐标相等或是存在包含)或是小于距离阈值的横线段合并,得到一条横线段。同样的,对于竖线段,可以将横坐标小于距离阈值、纵坐标相交(纵坐标相等或是存在包含)或是小于距离阈值的竖线段合并,得到一条竖线段。可选地,上述距离阈值可以根据实际线段的坐标信息进行设定,例如,对于较粗的线段,该距离阈值可以稍微大一点,对于较细的线段,该距离阈值可以稍微小一点,只要能使得明显存在拼接关系的线段合并即可。
S103、根据待识别表格中横线段信息及竖线段信息,获取初始表格信息。
可选地,可以根据上述获取的横线段和竖线段的坐标信息,确定一个初始表格信息。例如:根据每个横线段的左端点坐标,及每个竖线段的下端点坐标,确定该待识别表格中存在的横线段数量及竖线段数量,根据横线段的数量和端点坐标信息、及竖线段的数量和端点坐标信息,可以获取初始表格信息。需要说明的是,该初始表格并非真实存在的表格,其可以是计算机在进行表格提取过程中设定的虚拟表格,用于获取待识别表格对应的真实表格的过程中的过渡计算。
假设存在3个横线段,其端点坐标分别为A(0,0),B(1,0),C(2,0),则可以根据该三个端点坐标确定三个横线段的起始点及排列间隔,同样的,假设存在3个竖线段,其端点坐标分别为D(0,0),E(0,1),F(0,2),则可以根据该三个端点坐标确定三个竖线段的起始点及排列间隔,从而可以根据该3个横线段和竖线段的排列关系,获取到3x3(三行三列)的初始表格信息。
S104、根据初始表格信息和线段的坐标信息,生成与待识别表格对应的可编辑表格。
需要说明的是,上述获取的初始表格信息,其并非为真实的待识别表格信息,只是对于真实待识别表格的初步还原,该初始表格信息中包含的单元格均为单个单元格,实际情况中,真实的待识别表格中可能会存在复合单元格,故,可以根据初始表格信息中的线段信息和步骤S101中获取的待识别表格相关的线段的坐标信息,进行线段坐标比对分析,删除初始表格信息中存在的非真实线段信息等,从而对初始表格信息进行调整,并根据调整后的初始表格信息,生成与待识别表格对应的可编辑表格,以解决待识别表格中可能存在复合单元格的问题。
本申请实施例提供的文档表格解析方法,通过获取待识别表格相关的线段特征信息,根据线段特征信息获取待识别表格中横线段信息和竖线段信息,并根据该横线段信息和竖线段信息,获取初始表格信息,最后根据初始表格信息和待识别表格相关的线段特征信息,生成待识别表格对应的可编辑表格。该方法有效解决了复合表格及缺线表格还原复杂度高,还原效果差的问题。
图2为本申请实施例提供的另一种文档表格解析方法流程示意图,进一步地,如图2所示,根据线段特征信息,获取待识别表格中横线段信息及竖线段信息,包括:
S201、根据线段特征信息,提取第一特征集合、第二特征集合。
其中,第一特征集合包括:横线段的纵坐标、竖线段的纵坐标最大值、竖线段的纵坐标最小值;第二特征集合包括:竖线段的横坐标、横线段的横坐标最大值、横线段的横坐标最小值。
图3为本申请实施例提供的初始表格信息示意图,可选地,上述获取到初始表格信息后,可以根据线段特征信息及初始表格信息,获取第一特征集合和第二特征集合。如图3(a)所示,第一特征集合可以包括:所有横线段的纵坐标和所有竖线段中竖线段纵坐标的最小值和最大值。其中,所有横线段的纵坐标形成列表{y1,y2,y3,y4},竖线段纵坐标的最小值和最大值形成列表{y0,ym},这样,得到的第一特征集合即为{y1,y2,y3,y4,y0,ym}。同理,如图3(b)所示,第二特征集合可以包括:所有竖线段的横坐标和所有横线段中横线段横坐标的最小值和最大值。其中,所有竖线段的横坐标形成列表{x1,x2,x3,x4},横线段横坐标的最小值和最大值形成列表{x0,xm},这样,得到第二特征集合即为{x1,x2,x3,x4,x0,xm}。
S202、根据第一特征集合、第二特征集合,确定待识别表格中横线段信息及竖线段信息。
可选地,可以根据第一特征集合中元素个数,确定待识别表格中横线段的数量,也可以根据第二特征集合中元素个数,确定待识别表格中竖线段的数量。
需要说明的是,在实际情况中,表格并非均是完整表格,其可能存在缺少边线的情况,例如:缺少上下边界线(横线段),抑或是左右边界线(竖线段),假设缺少上下横边界线,则,仅仅根据所有横线段的纵坐标确定表格中横线段的信息是不准确的,例如,对于三行三列的表格,当其缺少上下横边界线时,其仅根据所有横线段的纵坐标确定的横线段的信息中横线段的数量为2,而对于待识别表格的完整还原,是需要将缺少的边界线一起还原,故,通过获取竖线段中纵坐标的最大值和最小值,将该竖线段中纵坐标的最大值和最小值作为缺少的上下横边界线的起始点,就可以对缺少的横边界线进行还原,从而确定出待识别表格中横线段信息,其中,横线段信息包括:横线段的数量和坐标值等。同样的,对于缺少左右竖边界线的情况,与之相同,此处不再一一赘述。
图4为本申请实施例提供的又一种文档表格解析方法流程示意图,进一步地,如图4所示,根据第一特征集合、第二特征集合,确定待识别表格中横线段信息及竖线段信息,包括:
S301、将第一特征集合中元素坐标差值小于预设阈值的坐标值删除,并对剩余元素坐标值大小进行排序,得到横线段信息。
在一些实施例中,如图3(a)中所示,当待识别表格不存在缺少上下边线的情况时,获取的第一特征集合中的元素y0和y1是相近的甚至是相等的,ym和y4也是相近或相当的,这样,当根据第一特征集合中元素个数确定横线段数量时,会比实际横线段的数量多出两个,故,可以通过设定预设阈值,对元素坐标差值小于预设阈值的坐标删除,避免根据第一特征集合确定的待识别表格中横线段的数量比实际多。需要说明的是,通过去重后,得到的第一特征集合中元素的个数减去1,即代表横线段的具体数量。
而对于待识别表格存在缺少上下边线的情况,可以将第一特征集合中纵坐标的最小值和最大值,作为缺少的上下边线的纵坐标,从而确定出横线段的数量。
另外,可以根据确定的各横线段的纵坐标,对该多个横线段的纵坐标进行排序,根据排序大小,可以具体确定出每个横线段所处的位置。
S302、将第二特征集合中元素坐标差值小于预设阈值的坐标值删除,并对剩余元素坐标值大小进行排序,得到竖线段信息。
同样的,对于待识别表格中存在或不存在缺少左右边界线的情况,确定竖线段的数量及其所处位置的分析过程与步骤S301相同,此处不再一一赘述。
图5为本申请实施例提供的另一种文档表格解析方法流程示意图,图6为本申请实施例提供的初始表格和目标表格示意图,进一步地,如图5所示,根据初始表格信息和线段的坐标信息,生成与待识别表格对应的可编辑表格,包括:
S401、获取初始表格信息中初始线段的坐标信息。
需要说明的是,上述获取的初始表格信息并非与非编辑文档中待识别表格相同,其只是对待识别表格的初步还原,而对于表格中单元格的细节部分,并不能真实的表示。可选地,可以先获取该初始表格信息中初始线段的坐标信息,便于将该初始表格信息中初始线段的信息与非编辑文档中待识别表格相关线段的坐标信息进行比对分析。
S402、获取初始线段的坐标信息和线段的坐标信息之间的差异信息。
具体地,将通过步骤S401获取的初始表格信息的初始线段的坐标信息,与步骤S101中获取的非编辑文档中待识别表格相关的线段坐标信息,进行比对,若非编辑文档中待识别表格相关的线段坐标信息中不包含初始表格信息的部分初始线段的坐标信息,也即待识别表格中可能存在复合单元格,两个单元格之间没有被分割线段分割开,而生成的初始表格信息中,每个单元格均是独立的,每个单元格之间均是被分割线段分割开的,这样,对应到待识别表格中,该初始表格信息中的该分割线段即为非真实线段,通过初始线段的坐标信息和线段的坐标信息之间的差异信息,可以将该初始表格信息的类似该分割线的初始线段的坐标信息进行删除。
S403、根据差异信息更新初始表格信息,得到目标表格信息。
通过上述分析比对,可以将初始表格信息中的所有非真实线段信息(待识别表格中真实不存在的线段信息)进行过滤删除,进而可以根据初始表格信息中的剩余线段坐标信息,得到目标表格信息,如图6所示,图6(a)为初始表格示意图,图6(b)为目标表格示意图,将初始表格信息中的线段ab信息经过过滤,即可得到该目标表格信息(此目标表格为包含复合单元格的表格),该目标表格信息也即非编辑文档中待识别表格的真实信息。
S404、根据目标表格信息,生成与待识别表格对应的可编辑表格。
可选地,上述得到的目标表格信息可以是暂存储在计算机中,对于计算机来说,其可以是一些数值,计算机还需要根据这些数值对应的线段坐标值信息,生成可编辑的表格,该可编辑表格是与非编辑文档中待识别表格对应的,从而对待识别表格进行了完整还原。
图7为本申请实施例提供的又一种文档表格解析方法流程示意图,进一步地,如图7所示,根据差异信息更新初始表格信息,得到目标表格信息之后,还包括:
S501、根据目标表格信息,获取目标表格的各单元格坐标。
S502、根据目标表格的各单元格坐标,在非编辑文档中获取各单元格对应的数据。
上述获取的目标表格信息也即原始PDF文件中待提取的表格信息,通过前述分析,可以直接获取到该目标表格的各个线段坐标信息,从而可以对应得到该目标表格中每个单元格的边界坐标信息,根据每个单元格的边界坐标信息,可以定位单元格的具体位置。相应的,可以在非编辑文档的待识别表格中,与定位出的各个单元格的具体位置对应的边界区域内,扫描获取边界区域内包含的具体文本信息内容。
S503、根据各单元格对应的数据填充待识别表格对应的可编辑表格。
上述获取到PDF文件中待识别表格对应的每个单元格中的具体文本信息后,可以对应的将文本信息分别填充至生成的可编辑表格中的对应位置,从而实现了对PDF文件中表格信息及其表格包含的文本信息的完整提取。
在一些实施例中,可以根据用户对表格格式的不同需求,将上述生成的可编辑表格格式进行格式变换,例如:转换成JSON格式(JavaScript Object Notation,轻量及数据交换格式),或者,也可以转换成HTML格式(Hyper Text Markup Language,超文本标记语言)等,具体根据用户需求进行转换,此处不做具体限制。
本申请实施例提供的文档表格解析方法,通过获取待识别表格相关的线段特征信息,根据线段特征信息获取待识别表格中横线段信息和竖线段信息,并根据该横线段信息和竖线段信息,获取初始表格信息,最后根据初始表格信息和待识别表格相关的线段特征信息,生成待识别表格对应的可编辑表格,该方法有效解决了复合表格及缺线表格还原复杂度高,还原效果差的问题。另外,通过确定单元格的边界坐标信息,可以对待识别表格中每个单元格对应的文本信息进行提取,从而对待识别表格及其包含的文本内容均进行了有效提取,表格还原度较高。
图8为本申请实施例提供的一种文档表格解析装置示意图,如图7所示,该装置包括:第一获取模块710、第二获取模块720、第三获取模块730及生成模块740。
第一获取模块710,用于获取非编辑文档中待识别表格相关的线段特征信息,线段特征信息包括:线段的坐标信息;第二获取模块720,用于根据线段特征信息,获取待识别表格中横线段信息及竖线段信息;第三获取模块730,用于根据待识别表格中横线段信息及竖线段信息,获取初始表格信息;生成模块740,用于根据初始表格信息和线段的坐标信息,生成与待识别表格对应的可编辑表格。
进一步地,第二获取模块720,具体用于根据线段特征信息,提取第一特征集合、第二特征集合,其中,第一特征集合包括:横线段的纵坐标、竖线段的纵坐标最大值、竖线段的纵坐标最小值;第二特征集合包括:竖线段的横坐标、横线段的横坐标最大值、横线段的横坐标最小值;根据第一特征集合、第二特征集合,确定待识别表格中横线段信息及竖线段信息。
进一步地,第二获取模块720,具体用于将第一特征集合中元素坐标差值小于预设阈值的坐标值删除,并对剩余元素坐标值大小进行排序,得到横线段信息;将第二特征集合中元素坐标差值小于预设阈值的坐标值删除,并对剩余元素坐标值大小进行排序,得到竖线段信息。
进一步地,生成模块740,具体用于获取初始表格信息中初始线段的坐标信息;获取初始线段的坐标信息和线段的坐标信息之间的差异信息;根据差异信息更新初始表格信息,得到目标表格信息;根据目标表格信息,生成与待识别表格对应的可编辑表格。
图9为本申请实施例提供的另一种文档表格解析装置示意图,进一步地,如图9所示,该装置还包括第四获取模块750、第五获取模块760及数据填充模块770。
第四获取模块750,用于根据目标表格信息,获取目标表格的各单元格坐标;第五获取模块760,用于根据目标表格的各单元格坐标,在非编辑文档中获取各单元格对应的数据;数据填充模块770,用于根据各单元格对应的数据填充待识别表格对应的可编辑表格。
上述装置可用于执行上述方法实施例提供的方法,具体实现方式和技术效果类似,这里不再赘述。
图10为本申请实施例提供的又一种文档表格解析装置示意图,如图10所示,该装置包括:处理器801和存储器802,其中:存储器802用于存储程序,处理器801调用存储器802存储的程序,以执行上述方法实施例。具体实现方式和技术效果类似,这里不再赘述。
该装置可以集成于终端或服务器等设备,本申请中不作限制。
可选地,本发明还提供一种程序产品,例如计算机可读存储介质,包括程序,该程序在被处理器执行时用于执行上述方法实施例。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考方法实施例中的对应过程,本申请中不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种文档表格解析方法,其特征在于,包括:
获取非编辑文档中待识别表格相关的线段特征信息,所述线段特征信息包括:线段的坐标信息;
根据所述线段特征信息,获取所述待识别表格中横线段信息及竖线段信息;
根据所述待识别表格中横线段信息及竖线段信息,获取初始表格信息;
根据所述初始表格信息和所述线段的坐标信息,生成与所述待识别表格对应的可编辑表格。
2.根据权利要求1所述的方法,其特征在于,所述根据所述线段特征信息,获取所述待识别表格中横线段信息及竖线段信息,包括:
根据所述线段特征信息,提取第一特征集合、第二特征集合,其中,所述第一特征集合包括:横线段的纵坐标、竖线段的纵坐标最大值、竖线段的纵坐标最小值;所述第二特征集合包括:竖线段的横坐标、横线段的横坐标最大值、横线段的横坐标最小值;
根据所述第一特征集合、所述第二特征集合,确定所述待识别表格中横线段信息及竖线段信息。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一特征集合、所述第二特征集合,确定所述待识别表格中横线段信息及竖线段信息,包括:
将所述第一特征集合中元素坐标差值小于预设阈值的坐标值删除,并对剩余元素坐标值大小进行排序,得到所述横线段信息;
将所述第二特征集合中元素坐标差值小于预设阈值的坐标值删除,并对剩余元素坐标值大小进行排序,得到所述竖线段信息。
4.根据权利要求1所述的方法,其特征在于,所述根据所述初始表格信息和所述线段的坐标信息,生成与所述待识别表格对应的可编辑表格,包括:
获取所述初始表格信息中初始线段的坐标信息;
获取所述初始线段的坐标信息和所述线段的坐标信息之间的差异信息;
根据所述差异信息更新所述初始表格信息,得到目标表格信息;
根据所述目标表格信息,生成与所述待识别表格对应的可编辑表格。
5.根据权利要求4所述的方法,其特征在于,所述根据所述差异信息更新所述初始表格信息,得到目标表格信息之后,还包括:
根据所述目标表格信息,获取目标表格的各单元格坐标;
根据所述目标表格的各单元格坐标,在所述非编辑文档中获取各所述单元格对应的数据;
根据各所述单元格对应的数据填充所述待识别表格对应的可编辑表格。
6.一种文档表格解析装置,其特征在于,包括:第一获取模块、第二获取模块、第三获取模块及生成模块;
所述第一获取模块,用于获取非编辑文档中待识别表格相关的线段特征信息,所述线段特征信息包括:线段的坐标信息;
所述第二获取模块,用于根据所述线段特征信息,获取所述待识别表格中横线段信息及竖线段信息;
所述第三获取模块,用于根据所述待识别表格中横线段信息及竖线段信息,获取初始表格信息;
所述生成模块,用于根据所述初始表格信息和所述线段的坐标信息,生成与所述待识别表格对应的可编辑表格。
7.根据权利要求6所述的装置,其特征在于,所述第二获取模块,具体用于根据所述线段特征信息,提取第一特征集合、第二特征集合,其中,所述第一特征集合包括:横线段的纵坐标、竖线段的纵坐标最大值、竖线段的纵坐标最小值;所述第二特征集合包括:竖线段的横坐标、横线段的横坐标最大值、横线段的横坐标最小值;
根据所述第一特征集合、所述第二特征集合,确定所述待识别表格中横线段信息及竖线段信息。
8.根据权利要求7所述的装置,其特征在于,所述第二获取模块,具体用于将所述第一特征集合中元素坐标差值小于预设阈值的坐标值删除,并对剩余元素坐标值大小进行排序,得到所述横线段信息;
将所述第二特征集合中元素坐标差值小于预设阈值的坐标值删除,并对剩余元素坐标值大小进行排序,得到所述竖线段信息。
9.根据权利要求6所述的装置,其特征在于,所述生成模块,具体用于获取所述初始表格信息中初始线段的坐标信息;
获取所述初始线段的坐标信息和所述线段的坐标信息之间的差异信息;
根据所述差异信息更新所述初始表格信息,得到目标表格信息;
根据所述目标表格信息,生成与所述待识别表格对应的可编辑表格。
10.根据权利要求9所述的装置,其特征在于,还包括第四获取模块、第五获取模块及数据填充模块;
所述第四获取模块,用于根据所述目标表格信息,获取目标表格的各单元格坐标;
所述第五获取模块,用于根据所述目标表格的各单元格坐标,在所述非编辑文档中获取各所述单元格对应的数据;
所述数据填充模块,用于根据各所述单元格对应的数据填充所述待识别表格对应的可编辑表格。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910388152.6A CN110110313A (zh) | 2019-05-09 | 2019-05-09 | 文档表格解析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910388152.6A CN110110313A (zh) | 2019-05-09 | 2019-05-09 | 文档表格解析方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110110313A true CN110110313A (zh) | 2019-08-09 |
Family
ID=67489236
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910388152.6A Pending CN110110313A (zh) | 2019-05-09 | 2019-05-09 | 文档表格解析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110110313A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110598196A (zh) * | 2019-09-16 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种缺失外边框的表格数据提取方法、装置和存储介质 |
CN111611883A (zh) * | 2020-05-07 | 2020-09-01 | 北京智通云联科技有限公司 | 基于最小单元格聚类的表格版面分析方法、系统及设备 |
CN111859895A (zh) * | 2020-07-28 | 2020-10-30 | 浙江明度智控科技有限公司 | 一种对批量文档内表格进行比对的方法、系统和存储介质 |
CN112712014A (zh) * | 2020-12-29 | 2021-04-27 | 平安健康保险股份有限公司 | 表格图片结构解析方法、系统、设备和可读存储介质 |
CN112800731A (zh) * | 2021-02-23 | 2021-05-14 | 浪潮云信息技术股份公司 | 一种图像表格提取中应对畸变图形的表格修复方法 |
CN112861822A (zh) * | 2021-04-06 | 2021-05-28 | 刘羽 | 基于pdf文件解析的图谱数据处理方法 |
CN117037194A (zh) * | 2023-05-10 | 2023-11-10 | 广州方舟信息科技有限公司 | 单据图像的表格识别方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160259770A1 (en) * | 2015-03-02 | 2016-09-08 | Canon Kabushiki Kaisha | Information processing system, server apparatus, control method, and storage medium |
CN109446487A (zh) * | 2018-11-01 | 2019-03-08 | 北京神州泰岳软件股份有限公司 | 一种解析便携式文档格式文档表格的方法及装置 |
-
2019
- 2019-05-09 CN CN201910388152.6A patent/CN110110313A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160259770A1 (en) * | 2015-03-02 | 2016-09-08 | Canon Kabushiki Kaisha | Information processing system, server apparatus, control method, and storage medium |
CN109446487A (zh) * | 2018-11-01 | 2019-03-08 | 北京神州泰岳软件股份有限公司 | 一种解析便携式文档格式文档表格的方法及装置 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110598196A (zh) * | 2019-09-16 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种缺失外边框的表格数据提取方法、装置和存储介质 |
CN111611883A (zh) * | 2020-05-07 | 2020-09-01 | 北京智通云联科技有限公司 | 基于最小单元格聚类的表格版面分析方法、系统及设备 |
CN111611883B (zh) * | 2020-05-07 | 2023-08-15 | 北京智通云联科技有限公司 | 基于最小单元格聚类的表格版面分析方法、系统及设备 |
CN111859895A (zh) * | 2020-07-28 | 2020-10-30 | 浙江明度智控科技有限公司 | 一种对批量文档内表格进行比对的方法、系统和存储介质 |
CN111859895B (zh) * | 2020-07-28 | 2023-11-03 | 明度智云(浙江)科技有限公司 | 一种对批量文档内表格进行比对的方法、系统和存储介质 |
CN112712014A (zh) * | 2020-12-29 | 2021-04-27 | 平安健康保险股份有限公司 | 表格图片结构解析方法、系统、设备和可读存储介质 |
CN112712014B (zh) * | 2020-12-29 | 2024-04-30 | 平安健康保险股份有限公司 | 表格图片结构解析方法、系统、设备和可读存储介质 |
CN112800731A (zh) * | 2021-02-23 | 2021-05-14 | 浪潮云信息技术股份公司 | 一种图像表格提取中应对畸变图形的表格修复方法 |
CN112861822A (zh) * | 2021-04-06 | 2021-05-28 | 刘羽 | 基于pdf文件解析的图谱数据处理方法 |
CN112861822B (zh) * | 2021-04-06 | 2024-03-12 | 刘羽 | 基于pdf文件解析的图谱数据处理方法 |
CN117037194A (zh) * | 2023-05-10 | 2023-11-10 | 广州方舟信息科技有限公司 | 单据图像的表格识别方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110110313A (zh) | 文档表格解析方法及装置 | |
US10755093B2 (en) | Hierarchical information extraction using document segmentation and optical character recognition correction | |
CN111512315B (zh) | 文档元数据的按块提取 | |
JP3940491B2 (ja) | 文書処理装置および文書処理方法 | |
JP4343213B2 (ja) | 文書処理装置および文書処理方法 | |
JP3425408B2 (ja) | 文書読取装置 | |
US8224090B2 (en) | Apparatus and method for analyzing and determining correlation of information in a document | |
CN102117269A (zh) | 对文档进行数字化的装置及方法 | |
US20110222776A1 (en) | Form template definition method and form template definition apparatus | |
US20090274369A1 (en) | Image processing device, image processing method, program, and storage medium | |
CN113723270A (zh) | 基于rpa及ai的文件处理方法及装置 | |
JP2011150466A (ja) | 文字列認識装置、文字列認識プログラムおよび文字列認識方法 | |
CN110765739A (zh) | 一种从pdf文档中抽取表格数据和篇章结构的方法 | |
CN115331247A (zh) | 文档结构识别方法、装置、电子设备及可读存储介质 | |
JP7309811B2 (ja) | データ注釈方法、装置、電子機器および記憶媒体 | |
CN113283231B (zh) | 获取签章位的方法、设置系统、签章系统及存储介质 | |
CN112114803A (zh) | 基于深度学习的ui界面的前端代码生成方法、设备及介质 | |
CN115130437B (zh) | 一种文档智能填写方法、装置及存储介质 | |
Jain et al. | TSR-DSAW: table structure recognition via deep spatial association of words | |
Liang | Document structure analysis and performance evaluation | |
CN115359505A (zh) | 一种电力图纸检测提取方法及系统 | |
CN112733513A (zh) | 自动整理航司退改规则的方法、系统、终端和存储介质 | |
CN114780773B (zh) | 文档图片分类方法、装置、存储介质及电子设备 | |
CN113836865B (zh) | 基于文件扫描的文字识别方法、终端及存储装置 | |
JP5574272B2 (ja) | 画像読取装置、画像処理装置およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190809 |