CN110598196A - 一种缺失外边框的表格数据提取方法、装置和存储介质 - Google Patents

一种缺失外边框的表格数据提取方法、装置和存储介质 Download PDF

Info

Publication number
CN110598196A
CN110598196A CN201910871534.4A CN201910871534A CN110598196A CN 110598196 A CN110598196 A CN 110598196A CN 201910871534 A CN201910871534 A CN 201910871534A CN 110598196 A CN110598196 A CN 110598196A
Authority
CN
China
Prior art keywords
outer frame
abscissa
transverse
frame
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910871534.4A
Other languages
English (en)
Inventor
朱龙军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910871534.4A priority Critical patent/CN110598196A/zh
Publication of CN110598196A publication Critical patent/CN110598196A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明提供了一种缺失外边框的表格数据提取方法,包括:获取缺失外边框的表格;基于该表格中已有的表格线,确定该待补充外边框的纵向范围和横向访问,并基于该确定横向范围和纵向访问,补充该表格中缺失的外边框,得到具有完整外边框的表格,进而基于该具有完整外边框的表格提取其中的数据。采用本方案,既能合理的补齐缺失的外边框,又能利用上原有的线条信息,从而保证了提取的准确率。

Description

一种缺失外边框的表格数据提取方法、装置和存储介质
技术领域
本发明涉及技术领域,更具体的说,是涉及一种缺失外边框的表格数据提取方法、装置和存储介质。
背景技术
PDF文档作为一种常用的文档,具体应用时,可能需要将PDF文档中涉及的表格数据应用于各个领域,如在金融领域,企业权威信息通过PDF格式发布,如上市招股书、季度报、年报、半年报等。
通过缺失外边框的表格提取技术,可以更加完整地提取到企业的信息,快速地将机器不可读的PDF文件转换为格式化信息;从而为后续处理打下基础,如“key-value”识别、图谱建设、数据库建设、舆情分析、买卖建议等等。
而该PDF表格提取的过程,将其提取为格式化的列表信息,以Json、csv或其他格式化形式存储,实现了讲该PDF文档中的表格数据,抽取为结构化信息,在该结构化的基础上,才能够应用于上述的领域中。
如图1所示的为现有技术中对于外边框缺失表格添加外边框的示意图,仅仅缺失外边框的表格,由于其内边框仍然存在,所以可以通过内边框,获取到其最左、最右、最高、最低线的信息,从而加以补充,获取页面上的所有横线信息,聚合横线的左顶点,补充一条竖线,穿过最左边的所有顶点,其中(a)为添加外边框之前的表格,(b)为添加外边框之后的表格。
但是,如图1所示现有技术中添加外边框的方案,在表格比较多的情况下,很容易些出现误连接的问题,将不同的表格作为同一个表格,并连接在一起,其中(a)为添加外边框之前的表格,(b)为添加外边框之后的表格,该添加的左侧的外边框,将两个表格作为一个表格误连接在一起。
所以,亟需一种能够之前准确对于PDF文档中缺失外边框的表格数据提取方法。
发明内容
有鉴于此,本发明提供了一种缺失外边框的表格数据提取方法,以克服现有技术中不能准确对于PDF文档中缺失外边框的表格数据进行提取的问题。
为实现上述目的,本发明提供如下技术方案:
一种缺失外边框的表格数据提取方法,包括:
获取缺失外边框的表格;
基于所述表格中已有表格线,确定待补充外边框的纵向范围和横向范围;
依据所述待补充外边框的纵向范围和横向范围,补充所述表格中缺失的外边框,得到具有完整外边框的表格;
提取所述具有完整外边框的表格中数据。
本发明实施例还提供了一种缺失外边框的表格数据提取装置,包括:
获取模块,用于获取缺失外边框的表格;
分析模块,用于基于所述表格中已有表格线,确定待补充外边框的纵向范围和横向范围;依据所述待补充外边框的纵向范围和横向范围,补充所述表格中缺失的外边框,得到具有完整外边框的表格;
提取模块,用于提取所述具有完整外边框的表格中数据。
经由上述的技术方案可知,与现有技术相比,本发明提供了一种缺失外边框的表格数据提取方法,包括:获取缺失外边框的表格;基于该表格中已有的表格线,确定该待补充外边框的纵向范围和横向访问,并基于该确定横向范围和纵向访问,补充该表格中缺失的外边框,得到具有完整外边框的表格,进而基于该具有完整外边框的表格提取其中的数据。采用本方案,既能合理的补齐缺失的外边框,又能利用上原有的线条信息,从而保证了提取的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为现有技术中对于外边框缺失表格添加外边框的示意图;
图2为本发明实施例提供的缺失外边框的表格数据提取方法的流程图;
图3为本发明实施例提供的缺失外边框的表格数据提取方法中边缘单元格示意图;
图4为本发明实施例提供的缺失外边框的表格数据提取方法的应用场景示意图;
图5为本发明实施例提供的缺失外边框的表格数据提取装置的结构框图;
图6为本发明实施例提供的缺失外边框的表格数据提取装置的硬件结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本方案中发明人对于表格进行分析、总结,得到了如下结论:
合理的表格有两个特征:
(1)表格之间互相没有关联,没有交点;
(2)表格都是横平竖直的一个方块,基本不存在异形表格。
图2为本发明实施例提供的缺失外边框的表格数据提取方法的流程图,所述方法可以包括:
步骤S100:获取缺失外边框的表格;
其中,通过对于PDF文档进行分析,确定其中的表格。
其中,该表格缺失外边框,具体的,该缺失的外边框可以是上边框、下边框、左边框和右边框中的任一一个或者多个。
具体实施中可以采用开源的三方库读取PDF文件,如pdfminer、tabula、pdfplumber等等,本方案是基于上述三方库读取的PDF文件进行的步骤。
具体实施中,该三方库从PDF文档进行分析,读取每页PDF的线段信息,根据线段信息拼凑出表格的信息。
具体实施中,执行本方案的设备从三方库输出的信息中获取表格。
步骤S200:基于所述表格中已有表格线,确定待补充外边框的纵向范围和横向范围;
其中,基于该表格中已有表格线,能够确定该表格所在的范围,而根据该表格线可以计算/确定出该待补充外边框的纵向范围和横向范围。
其中,步骤S200基于所述表格中已有表格线,确定待补充外边框的纵向范围和横向范围,包括:
步骤S201:选择待补充的目标外边框;
具体的,可以对于已有表格线中,任意表格线是否有交点来判断是否该表格中是否有待补充的边框。
具体实施中,因为完整的表格是由一个封闭的外边框(表格线)和其内部的表格线组成,则当该表格中各个表格线均与其他表格线有交点,则该表格中无待补充的外边框。
如该表格缺失右边框,则该表格中的表格线在该表格的右边框区域处无交点,可以参考图1(a)中的表格;
如该表格缺失左边框,则该表格中的表格线,在该左边框区域处,无交点,可以参考图1(a)中的表格;
如该表格缺失上边框,则该表格中的表格线,在该上边框区域处,无交点;
如该表格缺失下边框,则该表格中的表格线,在该下边框区域处,无交点。
则,根据该表格中的表格线是否出现无交点的情况,可以确定其出现无交点的区域是缺失边框的区域。
步骤S202:分析所述目标外边框,得到所述目标外边框的类型;
具体的,根据该缺失边框的区域,确定该目标外边框的类型,如是侧边框还是上/下边框等。
步骤S203:基于所述目标外边框的类型是侧边框,分析所述表格中已有表格线,得到所述目标外边框的横坐标和上下两端点的纵坐标;
其中,所述横坐标表征了所述目标外边框在所述表格所在页面中横向取值范围,所述纵坐标表征了所述目标外边框在所述表格所在页面中纵向取值范围。
具体的,基于该表格中,在该表格的分布区域中,分析该表格已有表格线的分布情况,确定该目标外边框的横坐标和纵坐标区域范围。
其中,所述基于所述目标外边框的类型是侧边框,步骤S203,具体包括:
步骤S2031:分析所述表格中已有表格线,获取与所述目标外边框平行的至少一条纵向表格线;
具体的,在该表格中,获取与该侧边框平行的纵向表格线。
步骤S2032:基于线段相交的信息,获取与所述至少一条纵向表格线相交的横向表格线;
基于线段相交的信息,从该表格所在页面中,获取与该纵向表格线相交的横向表格线。
需要说明的是,基于线段相交的信息,确定的横向表格线,一定是该表格中的表格线。由于相交关系的存在,避免了取到其他相邻表格的横线。
步骤S2033:在预设坐标系中,从与横向表格线相交的至少一条纵向表格线中,选择纵向坐标最大端点和最小端点的纵坐标作为所述目标外边框的纵坐标的取值范围;
具体的,从该与横向表格线相交的多个纵向表格线中,选择纵向坐标最大端点和最小端点的纵坐标,作为该目标外边框的纵坐标的取值范围。
其中,该纵向坐标的最大端点和最小端点可以不在同一条纵向表格线中。
由于在纵向坐标中最大端点表示了该表格在纵向的最高位置,在纵向坐标中最小端点表示了该表格在纵向的最低位置,则基于这两个端点,能够确定该表格在纵向的最高点和最低点,即该侧边框的在纵向的最高点和最低点。
具体实施中,该表格中各个点的坐标,可以采用该PDF页面中的绝对坐标表示。
步骤S2034:基于所述侧边框是左边框,在预设坐标系中,从所述横向表格线中,选择横坐标最小的顶点的横坐标作为所述目标外边框的横坐标。
其中,当该侧边框是左边框时,在该预设坐标系中,选择该表格中最左侧的一个点作为该侧边框横坐标。
具体的,从该横向表格线中,选择横坐标最小的顶点的横坐标作为该目标外边框的横坐标。
例如,线段表示为一个四维的坐标(X0,Y0,X1,Y1),X0为横坐标的起始,X1为横坐标的终点,Y0为纵坐标的起始,Y1为纵坐标的终点。
其中,该步骤S2033中,确定的是纵坐标的起始点Y0和终点Y1。
在本步骤S2034中,确定的是横坐标X,则得到的该侧边框的坐标是(X,Y0,X,Y1)。
步骤S2035:基于所述侧边框是右边框,在预设坐标系中,从所述横向表格线中,选择横坐标最大的顶点的横坐标作为横坐标。
其中,当该侧边框是右边框时,在该预设坐标系中,选择该表格中最右侧的一个点作为该侧边框横坐标。
具体的,从该横向表格线中,选择横坐标最大的顶点的横坐标作为该目标外边框的横坐标。
例如,该步骤S2033中,确定的是纵坐标的起始点Y0和终点Y1。在本步骤S2035中,确定的是横坐标X’,则得到的该侧边框的坐标是(X’,Y0,X’,Y1)。
步骤S204:基于所述目标外边框的类型是上/下边框,分析所述表格中已有表格线,得到所述目标外边框的纵坐标和左右两端点的横坐标。
具体的,基于该表格中,在该表格的分布区域中,分析该表格已有表格线的分布情况,确定该目标外边框的纵坐标和横坐标区域范围。
其中,所述基于所述目标外边框的类型是上/下边框,步骤S204,具体包括:
步骤S2041:分析所述表格中已有表格线,获取与所述目标外边框平行的至少一条横向表格线;
具体的,在该表格中,获取与该侧边框平行的横向表格线。
步骤S2042:基于线段相交的信息,获取与所述至少一条横向表格线相交的纵向表格线;
基于线段相交的信息,从该表格所在页面中,获取与该横向表格线相交的纵向表格线。
需要说明的是,基于线段相交的信息,确定的纵向表格线,一定是该表格中的表格线。由于相交关系的存在,避免了取到其他相邻一个表格的纵线。
步骤S2043:在预设坐标系中,从与纵向表格线相交的至少一条横向表格线中,选择横向坐标最大端点和最小端点的横坐标作为所述目标外边框的横坐标的横向取值范围;
具体的,从该与纵向表格线相交的多个横向表格线中,选择横向坐标最大端点和最小端点的横坐标,作为该目标外边框的横坐标的取值范围。
其中,该横向坐标的最大端点和最小端点可以不在同一条横向表格线中。
由于在横向坐标中最大端点表示了该表格在横向的最右侧位置,在横向坐标中最小端点表示了该表格在横向的最左侧位置,则基于这两个端点,能够确定该表格在横向的最左侧点和最右侧点,即该侧边框的在横向的最左侧点和最右侧点。
具体实施中,该表格中各个点的坐标,可以采用该PDF页面中的绝对坐标表示。
步骤S2044:基于所述目标外边框是上边框,在预设坐标系中,从所述纵向表格线中,选择纵坐标最大的顶点的纵坐标作为所述目标外边框的纵坐标;
其中,当该目标外边框是上边框时,在该预设坐标系中,选择该表格中纵坐标最大的一个点作为该侧边框纵坐标。
具体的,从该纵向表格线中,选择纵坐标最大的顶点的纵坐标作为该目标外边框的纵坐标。
例如,线段表示为一个四维的坐标(X0,Y0,X1,Y1),X0为横坐标的起始,X1为横坐标的终点,Y0为纵坐标的起始,Y1为纵坐标的终点。
其中,该步骤S2043中,确定的是横坐标的起始点X0和终点X1。
在本步骤S2044中,确定的是纵坐标Y,则得到的该目标外边框的坐标是(X0,Y,X1,Y)。
步骤S2045:基于所述目标外边框是下边框,在预设坐标系中,从所述纵向表格线中,选择纵坐标最小的顶点的纵坐标作为所述目标外边框的纵坐标。
其中,当该目标外边框是下边框时,在该预设坐标系中,选择该表格中纵坐标最小的一个点作为该目标外边框的纵坐标。
具体的,从该纵向表格线中,选择纵坐标最大的顶点的纵坐标作为该目标外边框的纵坐标。
例如,该步骤S2043中,确定的是横坐标的起始点X0和终点X1。
在本步骤S2045中,确定的是纵坐标Y’,则得到的该目标外边框的坐标是(X0,Y’,X1,Y’)。
步骤S300:依据所述待补充外边框的纵向范围和横向范围,补充所述表格中缺失的外边框,得到具有完整外边框的表格;
其中,依据上述步骤S200中确定的待补充外边框的纵向范围和横向范围,对于该表格中缺失的外边框进行补充,得到具有完整外边框的表格。
其中,步骤S300依据所述待补充外边框的纵坐标和横坐标,补充所述表格中缺失的外边框,包括:
步骤S311:基于所述目标外边框的横坐标和纵坐标的取值范围,得到一条纵向的线段;
其中,基于上述步骤S203中目标外边框的横坐标和上下两端点的纵坐标确定的该纵坐标的取值范围,得到一条纵向的线段。
如,该目标外边框是左边框时,该线段取值是(X,Y0,X,Y1);该目标外边框是右边框时,该线段取值是(X’,Y0,X’,Y1)。
步骤S312:将所述纵向的线段作为所述表格的外边框补充至所述表格中。
具体的,基于该线段的坐标,将该线段作为表格的外边框补充到表格中,以使得该表格具有侧边框。
其中,步骤S300依据所述待补充外边框的纵坐标和横坐标,补充所述表格中缺失的外边框,包括:
步骤S321:基于所述目标外边框的纵坐标和横坐标的取值范围,得到一条横向的线段;
其中,基于上述步骤S204中目标外边框的纵坐标和左右两端点的横坐标确定的该横坐标的取值范围,得到一条横向的线段。
如,该目标外边框是上边框时,该线段取值是(X0,Y,X1,Y);该目标外边框是下边框时,该线段取值是(X0,Y’,X1,Y’)。
步骤S322:将所述横向的线段作为所述表格的外边框补充至所述表格中。
具体的,基于该线段的坐标,将该线段作为表格的外边框补充到表格中,以使得该表格具有上/下边框。
具体的,该步骤S200基于所述表格中已有表格线,确定待补充外边框的纵向范围和横向范围,可以包括:
步骤S211:获取与待补充的外边框方向对应的边缘单元格,所述边缘单元格在与所述待补充的外边框方向无相邻的单元格;
其中,先获取页面中的线段,基于各个线段出现的交点,确定以四个交点为顶点的最小矩形,该最小矩形作为表格中的单元格。
具体的,可以对于已有表格线中,任意表格线是否有交点来判断是否该表格中是否有待补充的边框。
基于有待补充的边框,选择与该待补充边框区域相邻的单元格作为边缘单元格。
如图3所示的边缘单元格示意图,图中,灰色区域所示的为边缘单元格。
步骤S212:按照预设的文字对齐方式,将所述边缘单元格中的文字信息对齐;
按照预设的文字对齐方式,对于该边缘单元格中文字信息进行对齐,以使得基于该边缘单元格中的文字分布区域能够确定该边缘单元格所占的区域。
步骤S213:基于所述边缘单元格中的文字信息对齐位置,确定所述待补充外边框的纵向范围和横向范围。
具体的,基于该边缘单元格中文字信息经过几次对齐,确定了该边缘单元格所占的区域,则根据该区域分析得到该边缘单元格缺失的边。
依次分析即可得到几个边缘单元格缺失的边,对于该多个边集合,即可计算得到该待补充外边框的纵向范围和横向范围。
例如,表格具有两个缺失边的边缘单元格,其中,边缘单元格1缺失的边是坐标是(X0,Y,X1,Y),边缘单元格2缺失的边是坐标是(X1,Y,X2,Y),则该外边框是坐标范围是(X0,Y,X2,Y)。
步骤S400:提取所述具有完整外边框的表格中数据。
其中,经过上述步骤中对于表格的外边框进行补充,得到具有完整外边框的表格。
则相应的信息提取程序能够对于该表格中的数据进行完整和准确的提取。
作为一个具体示例,该具有完整外边框的表格如下表1所示:
表1
未出席董事职务 未出席董事姓名 未出席董事的原因说明 被委托人姓名
独立董事 刘守豹 公务原因 李丹
将其进行提取为格式化信息,以Json为例,其提取该表格中的信息并存储为如下内容:
1[
2["未出席董事职务","未出席董事姓名","未出席董事的原因说明","被委托人姓名"],
3["独立董事","刘守豹","公务原因","李丹"]
4]
相应的,后续的程序能够对于该存储的内容进行处理。
下面对本发明实施例提供的缺失外边框的表格数据提取方法的应用场景进行介绍。
图4所示的为缺失外边框的表格数据提取方法的应用场景示意图,本应用场景中,该待补充的外边框的左侧边框。
其中(a)表示的是待补充边框的表格;
其中(b)为在表格中选择与该待补充边框平行的竖线(纵向的线段),采用粗虚线表示选择的横线;
其中(c)为在表格中选择与该竖线相交的横线,采用粗虚线表示选择的横线;
其中(d)表示在表格中选择的横线中最左侧点的横坐标,在竖线中选择最高点和最低点的纵坐标,采用圆表示选中的点;
其中(e)表示在表格中以选择最高点和最低点的纵坐标,以该横线中最左侧点的横坐标,在该表格中补充左侧边框,图中采用粗实线表示。
下面对本发明实施例提供的缺失外边框的表格数据提取装置进行介绍,下文描述的缺失外边框的表格数据提取装置可与上文缺失外边框的表格数据提取方法相互对应参照。
图5为本发明实施例提供的缺失外边框的表格数据提取装置的结构框图,该缺失外边框的表格数据提取具体可以为提取表格的客户端,参照图4,该缺失外边框的表格数据提取装置可以包括:获取模块501、分析模块502和提取模块503;
其中,获取模块501,用于获取缺失外边框的表格;
其中,分析模块503,用于基于所述表格中已有表格线,确定待补充外边框的纵向范围和横向范围;依据所述待补充外边框的纵向范围和横向范围,补充所述表格中缺失的外边框,得到具有完整外边框的表格;
其中,提取模块503,用于提取所述具有完整外边框的表格中数据。
优选的,所述分析模块具体用于:
选择待补充的目标外边框;
分析所述目标外边框,得到所述目标外边框的类型;
基于所述目标外边框的类型是侧边框,分析所述表格中已有表格线,得到所述目标外边框的横坐标和上下两端点的纵坐标,所述横坐标表征了所述目标外边框在所述表格所在页面中横向取值范围,所述纵坐标表征了所述目标外边框在所述表格所在页面中纵向取值范围;
基于所述目标外边框的类型是上/下边框,分析所述表格中已有表格线,得到所述目标外边框的纵坐标和左右两端点的横坐标。
优选的,所述分析模块具体用于:
分析所述表格中已有表格线,获取与所述目标外边框平行的至少一条纵向表格线;
基于线段相交的信息,获取与所述至少一条纵向表格线相交的横向表格线;
在预设坐标系中,从与横向表格线相交的至少一条纵向表格线中,选择纵向坐标最大端点和最小端点的纵坐标作为所述目标外边框的纵坐标的取值范围;
基于所述侧边框是左边框,在预设坐标系中,从所述横向表格线中,选择横坐标最小的顶点的横坐标作为所述目标外边框的横坐标。
基于所述侧边框是右边框,在预设坐标系中,从所述横向表格线中,选择横坐标最大的顶点的横坐标作为横坐标。
优选的,所述分析模块具体用于:
分析所述表格中已有表格线,获取与所述目标外边框平行的至少一条横向表格线;
基于线段相交的信息,获取与所述至少一条横向表格线相交的纵向表格线;
在预设坐标系中,从与纵向表格线相交的至少一条横向表格线中,选择横向坐标最小和最大的点作为横坐标的取值范围;
基于所述侧边框是左边框,在预设坐标系中,从所述横向表格线中,选择横坐标最小的顶点的横坐标作为横坐标。
在预设坐标系中,从与纵向表格线相交的至少一条横向表格线中,选择横向坐标最大端点和最小端点的横坐标作为所述目标外边框的横坐标的横向取值范围;
基于所述侧边框是上边框,在预设坐标系中,从所述纵向表格线中,选择纵坐标最大的顶点的纵坐标作为所述目标外边框的纵坐标;
基于所述侧边框是下边框,在预设坐标系中,从所述纵向表格线中,选择纵坐标最小的顶点的纵坐标作为所述目标外边框的纵坐标。
优选的,所述分析模块具体用于:
基于所述目标外边框的横坐标和纵坐标的取值范围,得到一条纵向的线;
将所述纵向的线作为所述表格的侧边框补充至所述表格中。
优选的,所述分析模块具体用于:
基于所述目标外边框的纵坐标和横坐标的取值范围,得到一条横向的线;
将所述横向的线作为所述表格的侧边框补充至所述表格中。
优选的,所述分析模块具体用于:
获取与待补充的外边框方向对应的边缘单元格,所述边缘单元格在与所述待补充的外边框方向无相邻的单元格;
按照预设的文字对齐方式,将所述边缘单元格中的文字信息对齐;
基于所述边缘单元格中的文字信息对齐位置,确定所述待补充外边框的纵向范围和横向范围。
可选的,缺失外边框的表格数据提取装置可以为硬件设备,上文描述的模块、单元可以设置于缺失外边框的表格数据提取装置内的功能模块。图6示出了缺失外边框的表格数据提取装置的硬件结构框图,参照图6,登录移动游戏的装置可以包括:处理器1,通信接口2,存储器3和通信总线4;其中处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;可选的,通信接口2可以为通信模块的接口,如GSM模块的接口;
处理器1,用于执行程序;存储器3,用于存放程序;程序可以包括程序代码,所述程序代码包括计算机操作指令;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路;存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
其中,程序可具体用于:
获取缺失外边框的表格;
基于所述表格中已有表格线,确定待补充外边框的纵向范围和横向范围;
依据所述待补充外边框的纵向范围和横向范围,补充所述表格中缺失的外边框,得到具有完整外边框的表格;
提取所述具有完整外边框的表格中数据。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种缺失外边框的表格数据提取方法,其特征在于,包括:
获取缺失外边框的表格;
基于所述表格中已有表格线,确定待补充外边框的纵向范围和横向范围;
依据所述待补充外边框的纵向范围和横向范围,补充所述表格中缺失的外边框,得到具有完整外边框的表格;
提取所述具有完整外边框的表格中数据。
2.根据权利要求1所述的方法,其特征在于,基于所述表格中已有表格线,确定待补充外边框的纵向范围和横向范围,包括:
选择待补充的目标外边框;
分析所述目标外边框,得到所述目标外边框的类型;
基于所述目标外边框的类型是侧边框,分析所述表格中已有表格线,得到所述目标外边框的横坐标和上下两端点的纵坐标,所述横坐标表征了所述目标外边框在所述表格所在页面中横向取值范围,所述纵坐标表征了所述目标外边框在所述表格所在页面中纵向取值范围;
基于所述目标外边框的类型是上/下边框,分析所述表格中已有表格线,得到所述目标外边框的纵坐标和左右两端点的横坐标。
3.根据权利要求2所述的方法,其特征在于,所述基于所述目标外边框的类型是侧边框,分析所述表格中已有表格线,得到所述目标外边框的横坐标和上下两端点的纵坐标,包括:
分析所述表格中已有表格线,获取与所述目标外边框平行的至少一条纵向表格线;
基于线段相交的信息,获取与所述至少一条纵向表格线相交的横向表格线;
在预设坐标系中,从与横向表格线相交的至少一条纵向表格线中,选择纵向坐标最大端点和最小端点的纵坐标作为所述目标外边框的纵坐标的取值范围;
基于所述侧边框是左边框,在预设坐标系中,从所述横向表格线中,选择横坐标最小的顶点的横坐标作为所述目标外边框的横坐标;
基于所述侧边框是右边框,在预设坐标系中,从所述横向表格线中,选择横坐标最大的顶点的横坐标作为横坐标。
4.根据权利要求2所述的方法,其特征在于,所述基于所述目标外边框的类型是上/下边框,分析所述表格中已有表格线,得到所述目标外边框的纵坐标和左右两端点的横坐标,包括:
分析所述表格中已有表格线,获取与所述目标外边框平行的至少一条横向表格线;
基于线段相交的信息,获取与所述至少一条横向表格线相交的纵向表格线;
在预设坐标系中,从与纵向表格线相交的至少一条横向表格线中,选择横向坐标最大端点和最小端点的横坐标作为所述目标外边框的横坐标的横向取值范围;
基于所述侧边框是上边框,在预设坐标系中,从所述纵向表格线中,选择纵坐标最大的顶点的纵坐标作为所述目标外边框的纵坐标;
基于所述侧边框是下边框,在预设坐标系中,从所述纵向表格线中,选择纵坐标最小的顶点的纵坐标作为所述目标外边框的纵坐标。
5.根据权利要求3所述的方法,其特征在于,依据所述待补充外边框的纵坐标和横坐标,补充所述表格中缺失的外边框,包括:
基于所述目标外边框的横坐标和纵坐标的取值范围,得到一条纵向的线段;
将所述纵向的线段作为所述表格的外边框补充至所述表格中。
6.根据权利要求4所述的方法,其特征在于,依据所述待补充外边框的纵坐标和横坐标,补充所述表格中缺失的外边框,包括:
基于所述目标外边框的纵坐标和横坐标的取值范围,得到一条横向的线段;
将所述横向的线段作为所述表格的外边框补充至所述表格中。
7.根据权利要求1所述的方法,其特征在于,所述基于所述表格中已有表格线,确定待补充外边框的纵向范围和横向范围,包括:
获取与待补充的外边框方向对应的边缘单元格,所述边缘单元格在与所述待补充的外边框方向无相邻的单元格;
按照预设的文字对齐方式,将所述边缘单元格中的文字信息对齐;
基于所述边缘单元格中的文字信息对齐位置,确定所述待补充外边框的纵向范围和横向范围。
8.一种缺失外边框的表格数据提取装置,其特征在于,包括:
获取模块,用于获取缺失外边框的表格;
分析模块,用于基于所述表格中已有表格线,确定待补充外边框的纵向范围和横向范围;依据所述待补充外边框的纵向范围和横向范围,补充所述表格中缺失的外边框,得到具有完整外边框的表格;
提取模块,用于提取所述具有完整外边框的表格中数据。
9.一种缺失外边框的表格数据提取设备,其特征在于,包括:存储器和处理器;
所述处理器用于执行所述存储器中存储的计算机程序;
所述存储器用于存储计算机程序,所述计算机程序用于执行权利要求1-7任一项所述的工位分配的方法。
10.一种存储介质,其特征在于,包括若干指令用以执行如权利要求1-7任一项所述的方法。
CN201910871534.4A 2019-09-16 2019-09-16 一种缺失外边框的表格数据提取方法、装置和存储介质 Pending CN110598196A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910871534.4A CN110598196A (zh) 2019-09-16 2019-09-16 一种缺失外边框的表格数据提取方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910871534.4A CN110598196A (zh) 2019-09-16 2019-09-16 一种缺失外边框的表格数据提取方法、装置和存储介质

Publications (1)

Publication Number Publication Date
CN110598196A true CN110598196A (zh) 2019-12-20

Family

ID=68859783

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910871534.4A Pending CN110598196A (zh) 2019-09-16 2019-09-16 一种缺失外边框的表格数据提取方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN110598196A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112906695A (zh) * 2021-04-14 2021-06-04 数库(上海)科技有限公司 适配多类ocr识别接口的表格识别方法及相关设备
CN113887181A (zh) * 2021-09-16 2022-01-04 华清科盛(北京)信息技术有限公司 一种表格重建方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112906695A (zh) * 2021-04-14 2021-06-04 数库(上海)科技有限公司 适配多类ocr识别接口的表格识别方法及相关设备
CN113887181A (zh) * 2021-09-16 2022-01-04 华清科盛(北京)信息技术有限公司 一种表格重建方法及装置

Similar Documents

Publication Publication Date Title
CN110516208B (zh) 一种针对pdf文档表格提取的系统及方法
CN108717744B (zh) 识别金融单据上的印章序号的方法、装置及终端设备
CN112115774A (zh) 结合rpa和ai的文字识别方法、装置、电子设备和存储介质
CN108334879B (zh) 一种区域提取方法、系统及终端设备
WO2021129121A1 (zh) 表格识别方法和装置、计算机可读存储介质
CN110866529A (zh) 字符识别方法、装置、电子设备及存储介质
CN111046735B (zh) 一种车道线点云提取方法、电子设备及存储介质
CN112883926B (zh) 表格类医疗影像的识别方法及装置
CN109389050B (zh) 一种流程图连接关系识别方法
CN110598196A (zh) 一种缺失外边框的表格数据提取方法、装置和存储介质
CN111914805A (zh) 表格结构化方法、装置、电子设备及存储介质
CN112560850A (zh) 基于自定义模板的身份证信息自动提取和真伪校验方法
CN113409461A (zh) 构建地貌地图的方法、装置、电子设备和可读存储介质
CN109871743B (zh) 文本数据的定位方法及装置、存储介质、终端
CN111597845A (zh) 一种二维码检测方法、装置、设备及可读存储介质
CN110688995B (zh) 地图查询的处理方法,计算机可读存储介质和移动终端
CN111753830A (zh) 一种作业图像校正方法和计算设备
CN110909563B (zh) 提取文字骨架的方法、装置、设备和计算机可读存储介质
CN113486848B (zh) 文档表格识别方法、装置、设备及存储介质
CN114495144A (zh) 文本图像中表格key-value信息的提取方法及装置
CN106909720B (zh) 一种有限元节点坐标快速提取方法
CN112766269A (zh) 一种图片文本检索方法、智能终端及存储介质
CN113128496A (zh) 一种从图像中提取结构化数据的方法、装置和设备
JP2020119559A (ja) 文字認識方法及び文字認識装置
CN111753722A (zh) 一种基于特征点类型的指纹识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40018601

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination