CN110472208A - Pdf文档中表格解析的方法、系统、存储介质及电子设备 - Google Patents
Pdf文档中表格解析的方法、系统、存储介质及电子设备 Download PDFInfo
- Publication number
- CN110472208A CN110472208A CN201910560269.8A CN201910560269A CN110472208A CN 110472208 A CN110472208 A CN 110472208A CN 201910560269 A CN201910560269 A CN 201910560269A CN 110472208 A CN110472208 A CN 110472208A
- Authority
- CN
- China
- Prior art keywords
- line
- pdf document
- line segment
- text block
- list data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000004458 analytical method Methods 0.000 title claims abstract description 30
- 238000003860 storage Methods 0.000 title claims abstract description 10
- 238000001514 detection method Methods 0.000 claims abstract description 22
- 238000013135 deep learning Methods 0.000 claims abstract description 14
- 238000003708 edge detection Methods 0.000 claims abstract description 13
- 239000000284 extract Substances 0.000 claims abstract description 7
- 238000013481 data capture Methods 0.000 claims description 16
- 238000012795 verification Methods 0.000 claims description 8
- 238000012163 sequencing technique Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 5
- 238000009877 rendering Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 18
- 238000012545 processing Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005498 polishing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 239000002023 wood Substances 0.000 description 1
Landscapes
- Character Input (AREA)
Abstract
本发明涉及PDF文档中表格解析的方法、系统、存储介质及电子设备,S1:对PDF文档中的绘图指令进行解析,获得线段;S2:根据线段解析出表格及表格对应的位置,根据表格及表格对应的位置获取表格数据;S3:对表格数据进行校验,若表格格式错误,则进入步骤S4,若表格格式正确,则提取表格数据并进入步骤S5;S4:通过图像边缘检测算法对PDF文档进行解析,获得线段,然后进入步骤S2;S5:通过基于深度学习的物体探测算法来探测PDF文档中无表格线的表格存在的区域,并在判定成功的区域中的文本块的排列位置,添加表格线得到表格数据,提取表格数据。通过使用本发明,大大提高了采集表格数据的效率,提高了准确性。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及PDF文档中表格解析的方法、系统、存储介质及电子设备。
背景技术
上市公司的公告以及研究报告一般都是PDF文件,我们需要从这些文件中取得数据录入数据库,这些数据往往在表格中。以前通过人工打开PDF文件,复制黏贴所需要的数据到录入系统,或者根据模版匹配,又或者通过PDF表格解析的方法提取表格数据。
手动进行录入的方法,一是费事费力,数据录入不能很及时,还容易出错。根据模版匹配的方法,该方法由于模版和PDF格式息息相关,需要配置很多模版,而且PDF来源我们无法控制,万一作者一改格式就会失效。
由于PDF文件记录的是最后显示的呈现形式,内部并没有表格的结构化数据,但是记录一系列的操作Operator,类似于记录一幅画是怎么画的,先在哪个位置画一条线,然后在哪里写了个字,通过PDF文件能解析出一些画线和文字的位置。目前较为常规的PDF表格解析,一般是通过解析表格线段,以及文字的特征来识别表格,表格线段解析遇到表格线缺失就会不成功;而文字特征常用于,较固定表格内容的表格解析,如已知部分行列的文本特征,通过文字位置,间距来判断特定格式表格,通用型有限。
发明内容
为解决上述问题,本发明提出一种PDF文档中表格解析的方法,目的在于获取PDF文档中的表格数据。本申请实施例还提供了相应的系统、存储介质及电子设备。
一种PDF文档中表格解析的方法,包括以下步骤:
S1:对PDF文档中的绘图指令进行解析,获得线段;
S2:根据线段解析出表格及表格对应的位置,根据表格及表格对应的位置获取表格数据;
S3:对表格数据进行校验,若表格格式错误,则进入步骤S4,若表格格式正确,则提取表格数据并进入步骤S5;
S4:通过图像边缘检测算法对PDF文档进行解析,获得线段,然后进入步骤S2;
S5:通过基于深度学习的物体探测算法来探测PDF文档中无表格线的表格存在的区域,并在判定成功的区域中的文本块的排列位置,添加表格线得到表格数据,提取表格数据。
优选的,所述根据线段解析出表格及表格对应的位置,根据表格及表格对应的位置获取表格数据包括以下步骤:
S201:根据线段识别由线段所形成的单元格以及表格区域,得到表格线数据;
S202:根据每个单元格所对应的坐标,再根据对绘图指令的解析得到各单元格矩形区域内的文本块及文本块对应的坐标;
S203:根据表格线数据和文本块得到表格数据。
优选的,所述根据线段识别由线段所形成的单元格以及表格区域包括以下步骤:
S2011:将所有线段分为水平线和垂直线,并按坐标排序,遍历所有水平线和垂直线,获取交点,建立交点和水平线、垂直线的对应关系;
S2012:按顺序遍历各个交点,若一交点一侧相邻的水平线与该交点一侧相邻的垂直线相交,则判断该水平线、垂直线以及该交点所在的水平线、垂直线所形成的区域是单元格;
S2013:将识别的单元格排序,遍历所有的单元格,合并相邻的单元格,直到所有相邻的单元格都合并,得到表格区域。
优选的,所述得到表格线数据之后还包括:对解析得到的得到表格线数据进行修正。
优选的,所述对解析得到的得到表格线数据进行修正包括:
建立网格系统,将各线段端点粘附到最近的网格端点,并将线段吸附到网格;
根据所有水平线和垂直线的交点,判断最外侧的交点是否是其中一线段的起点或者终点,若不是线段的起点和终点,则在该线段的起点或者终点添加线段。
优选的,所述根据线段识别由线段所形成的单元格以及表格区域还包括以下步骤:
S2014:对跨页的表格区域进行合并。
优选的,所述对跨页的表格区域进行合并包括:
去除PDF文档中的页眉和页脚,若一页的最后一个表格和下一页的第一个表格之间不存在其他的元素,且两个表格区域的宽度、列宽都能对应,则判断为跨页表格区域,并将上述两个表格区域进行合并。
优选的,所述对表格数据进行校验包括:对生成的表格进行格式校验,判断表格的行列是否相等,若相等,则表格格式正确,若不相等,则表格格式错误。
优选的,所述通过图像边缘检测算法对PDF文档进行解析,获得线段包括以下步骤:
S401:过滤绘图指令中渲染文字的指令,对处理后的PDF文档生成灰度图片;
S402:由左往右扫描灰度图片的所有像素,对每一列像素从上到下循环取点的灰度值和上一点比较,若灰度差大于设定阈值,则对应的像素点为某条水平线的开始,并记录下对应的坐标;向右查找相邻的像素与其上方像素的灰度差,直到某点与上一点灰度差未达到设定阈值,则对应的像素点为某条水平线的结束,记录对应的线段;
S403:由上往下扫描灰度图片的所有像素,对每一行像素从左到右循环取点的灰度值和上一点比较,若灰度差大于设定阈值,则对应的像素点为某条垂直线的开始,并记录下对应的坐标;向下查找相邻的像素与其左方像素的灰度差,直到某点与上一点灰度差未达到设定阈值,则对应的像素点为某条垂直线的结束,记录对应的线段。
优选的,所述在判定成功的区域中的文本块的排列位置,添加表格线包括:
S501:根据表格区域中的文本块及文本块对应的坐标,对文本块分割成文本块,并对所有的文本块排序;
S502:对表格区域内的文本块进行水平、垂直方向投影,选取文本块的最右端和最下端分别做垂直线和水平线。
一种PDF文档中表格解析的系统,包括:
指令解析单元,用于对PDF文档中的绘图指令进行解析,获得线段;
数据获取单元,用于根据线段解析出表格及表格对应的位置,根据表格及表格对应的位置获取表格数据;
校验单元,对表格数据进行校验;
图像边缘解析单元,用于通过图像边缘检测算法对PDF文档进行解析,获得线段;
物体探测单元,用于通过基于深度学习的物体探测算法来探测PDF文档中无表格线的表格存在的区域;
表格线添加单元,用于在判定成功的区域中的文本块的排列位置添加表格线;
第二数据获取单元,在判定成功的区域中得到表格数据。
优选的,所述第一数据获取单元包括:数据获取子单元,用于根据线段识别由线段所形成的单元格以及表格区域,得到表格线数据;根据每个单元格所对应的坐标,再根据对绘图指令的解析得到各单元格矩形区域内的文本块及文本块对应的坐标;根据表格线数据和文本块得到表格数据。
优选的,所述根据线段识别由线段所形成的单元格以及表格区域包括:
将所有线段分为水平线和垂直线,并按坐标排序,遍历所有水平线和垂直线,获取交点,建立交点和水平线、垂直线的对应关系;
按顺序遍历各个交点,若一交点一侧相邻的水平线与该交点一侧相邻的垂直线相交,则判断该水平线、垂直线以及该交点所在的水平线、垂直线所形成的区域是单元格;
将识别的单元格排序,遍历所有的单元格,合并相邻的单元格,直到所有相邻的单元格都合并,得到表格区域。
优选的,所述第一数据获取单元还包括:修正单元,用于对解析得到的得到表格线数据进行修正。
优选的,所述对解析得到的得到表格线数据进行修正包括:
建立网格系统,将各线段端点粘附到最近的网格端点,并将线段吸附到网格;
根据所有水平线和垂直线的交点,判断最外侧的交点是否是其中一线段的起点或者终点,若不是线段的起点和终点,则在该线段的起点或者终点添加线段。
优选的,所述第一数据获取单元还包括:合并单元,用于对跨页的表格区域进行合并。
优选的,所述对跨页的表格区域进行合并包括:
去除PDF文档中的页眉和页脚,若一页的最后一个表格和下一页的第一个表格之间不存在其他的元素,且两个表格区域的宽度、列宽都能对应,则判断为跨页表格区域,并将上述两个表格区域进行合并。
优选的,所述对表格数据进行校验包括:对生成的表格进行格式校验,判断表格的行列是否相等,若相等,则表格格式正确,若不相等,则表格格式错误。
优选的,所述通过图像边缘检测算法对PDF文档进行解析,获得线段包括:
过滤绘图指令中渲染文字的指令,对处理后的PDF文档生成灰度图片;
由左往右扫描灰度图片的所有像素,对每一列像素从上到下循环取点的灰度值和上一点比较,若灰度差大于设定阈值,则对应的像素点为某条水平线的开始,并记录下对应的坐标;向右查找相邻的像素与其上方像素的灰度差,直到某点与上一点灰度差未达到设定阈值,则对应的像素点为某条水平线的结束,记录对应的线段;
由上往下扫描灰度图片的所有像素,对每一行像素从左到右循环取点的灰度值和上一点比较,若灰度差大于设定阈值,则对应的像素点为某条垂直线的开始,并记录下对应的坐标;向下查找相邻的像素与其左方像素的灰度差,直到某点与上一点灰度差未达到设定阈值,则对应的像素点为某条垂直线的结束,记录对应的线段。
优选的,所述在判定成功的区域中的文本块的排列位置添加表格线包括:
根据表格区域中的文本块及文本块对应的坐标,对文本块分割成文本块,并对所有的文本块排序;
对表格区域内的文本块进行水平、垂直方向投影,选取文本块的最右端和最下端分别做垂直线和水平线。
一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行所述PDF文档中表格解析的方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行所述PDF文档中表格解析的方法的步骤。
通过使用本发明,可以实现以下效果:
通过解析PDF文档中的绘图指令,获取表格数据;若表格格式错误,则图像边缘检测算法对PDF文档进行解析,获取表格数据;对于没有表格线的表格,则采用物体探测算法来探测PDF文档中表格,获取表格数据。本发明与现有人工处理PDF表格数据相比,大大提高了采集表格数据的效率,提高了准确性。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1是本发明实施例一的整体流程示意图;
图2是本发明实施例一中步骤S2的流程示意图;
图3是本发明实施例一中步骤S201的流程示意图;
图4是本发明实施例一中的单元格的示意图;
图5是本发明实施例一中表格的区域的示意图;
图6是本发明实施例一中修正前表格线的示意图;
图7是本发明实施例一中修正后表格线的示意图;
图8是本发明实施例一中HTML表格的示意图;
图9是本发明实施例一中步骤S4的流程示意图;
图10是本发明实施例一中没有表格线的表格的示意图;
图11是本发明实施例一中RPN网络的结构示意图;
图12是本发明实施例一中表格存在区域的示意图;
图13是本发明实施例一中步骤S5的流程示意图;
图14是本发明实施例一中补上表格线后的表格的示意图;
图15是本发明实施例二的整体结构示意图;
图16是本发明实施例二中第一数据获取单元的结构示意图;
图17是本发明实施例四的结构示意图。
具体实施方式
以下结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
实施例一
本发明的基本思想是对于有完整表格线的表格,则通过对PDF文档中的绘图指令进行解析,获取表格数据;对于表格格式错误的表格,则通过图像边缘检测算法对PDF文档进行解析,获取表格数据;对于没有表格线的表格,则通过基于深度学习的物体探测算法来探测PDF文档中无表格线的表格存在的区域,,并在判定成功的表格区域中的文本块排列位置补上表格线,形成有表格线的表格,最后再通过对PDF文档中的绘图指令进行解析,获取表格数据。
如图1所示,本发明实施例一提出一种PDF文档中表格解析识别的方法,包括以下步骤:
S1:对PDF文档中的绘图指令进行解析,获得线段;
S2:根据线段解析出表格及表格对应的位置,根据表格及表格对应的位置获取表格数据;
S3:对表格数据进行校验,若表格格式错误,则进入步骤S4,若表格格式正确,则提取表格数据并进入步骤S5;
S4:通过图像边缘检测算法对PDF文档进行解析,获得线段,然后进入步骤S2;
S5:通过基于深度学习的物体探测算法来探测PDF文档中无表格线的表格存在的区域,并在判定成功的区域中的文本块的排列位置,添加表格线得到表格数据,提取表格数据。
由于PDF文档记录的是最后显示的呈现形式,内部并没有表格的结构化数据,但是PDF文档中记录有一系列的绘图指令。绘图指令记录整个PDF文档的建立过程,如:在什么位置画了一条线、在什么位置画一条线写了个字、在什么位置画了一个图形。通过对PDF文档中的绘图指令进行解析,找出对应画表格线的操作指令,就可以解析出画线的位置,找出对应写字的操作,就可以解析出写字的位置。
例如,通过解析PDF的绘图指令,可以解析出m(moveto)、l(lineto)以及(re)操作。m(moveto)操作指的是画笔移动到某个坐标;l(lineto)操作指的是画线到另外一个坐标。(re)操作指的是在某个坐标画矩形。
以下是PDF的绘图指令代码:
可以解析出其中的m(moveto)操作和l(lineto)操作。
以下是PDF的另一绘图指令代码:
可以解析出其中画矩形的(re)操作,并解析出起始点、长、宽。
如图2所示,步骤S2具体包括以下步骤:
S201:根据线段识别由线段所形成的单元格以及表格区域,得到表格线数据;
S202:根据每个单元格所对应的坐标,再根据对绘图指令的解析得到各单元格矩形区域内的文本块及文本块对应的坐标;
S203:根据表格线数据和文本块得到表格数据。
如图3所示,上述步骤S201中,根据线段识别由线段所形成的单元格以及表格区域包括以下步骤:
S2011:将所有线段分为水平线和垂直线,并按坐标排序,遍历所有水平线和垂直线,获取交点,建立交点和水平线、垂直线的对应关系;
通过对PDF文档中画表格线的操作指令进行解析,即可解析出所有表格线及其相应的坐标。表格线根据坐标可以分为水平线和垂直线。而每条表格线都有对应的函数表达式,通过数学计算可以得到该表格线与其他表格线的交点,每个交点都与这两条相交的水平线和垂直线相对应。
在一实施例中,若PDF文档中的表格数据缺少边缘数据,则解析得到的线段也将缺少水平线或者垂直线,因此需要对缺失的表格线进行补充。根据水平线和垂直线的交点,若该交点是其中一线段的起点或者终点,则说明该位置不缺少表格线;相反,若该交点不是其中一线段的起点和终点,则说明该位置缺少表格线,并添加对应的水平线或者垂直线。
S2012:按顺序遍历各个交点,若一交点一侧相邻的水平线与该交点一侧相邻的垂直线相交,则判断该水平线、垂直线以及该交点所在的水平线、垂直线所形成的区域是单元格;
如图4所示,在经历交点A时,交点A一侧相邻的水平线l1与一侧相邻的垂直线l2相交,由此可以判断交点A、B、C、D所形成的区域为封闭的,即单元格。若一交点一侧相邻的水平线与该交点一侧相邻的垂直线不相交,则说明不是单元格。对于水平线和垂直线相交判断的技术方案,在步骤S2011中已经详细说明。
S2013:将识别的单元格排序,遍历所有的单元格,合并相邻的单元格,直到所有相邻的单元格都合并,得到表格区域。
表格的区域指的是表格的最大区域。结合图5,当单元格S1-S12如图排布,通过将所有相邻的单元格合并,从而得到表格的区域S。
在一实施例中,很多PDF文档中的表格区域是跨页的,如果将其作为两张表格来提取表格数据,则会造成数据的错误,因此在本实施例中,可以将跨页的表格区域进行合并。具体包括以下步骤:
S2014:对跨页的表格区域进行合并。
为避免PDF文档中页眉和页脚对判断的干扰,首先去除PDF文档中的页眉和页脚。若本页的最后一个表格和下一页的第一个表格之间不存在其他的元素,且两个表格的宽度、列宽都能对应,则判断为跨页表格,并将上述两个表格区域进行合并。其中,其他的元素为其他文字、图片等,而这些文字、图片同样可以通过对PDF文档中的绘图指令的解析来判断是否存在。
在一实施例中,通过步骤S1解析出的线段并不是标准的表格线。如图6所示,正常情况下的一条线段可能是由多条线段组成,甚至有些误差或者有些倾斜。我们需要在一定范围内,修正一些倾斜角度,把几乎水平或垂直的线段修正成水平线和垂直线、把有重叠的或几乎要碰到一起的接近线段组合成最长的线段。
为了更好的合并临近的线段,首先在整个页面建立一个网格系统,比如4点单位的网格,然后线段端点粘附到最近的网格端点,线段吸附到网格,对倾斜角度在一定范围的线段,矫正为水平或垂直线段,其他多余的线段丢弃,最终得到如图7所示的线段。
通过上述步骤S201,可以得到表格线数据。而通过PDF文档中的绘图指令可以解析得到各单元格矩形区域内的文本块及文本块对应的坐标。将文本块对应的坐标填入对应的单元格,即可得到得到类似如图8中的HTML表格。然后其他数据处理程序就可以先定位到表格数据,然后根据行列特征从结构化的HTML表格中取得相关数据进行进一步处理。
在获取表格数据之后,需要对生成的表格数据做校验。判断表格的行列是否相等,若行列相等,则说明表格格式正确,若行列不相等,则说明表格格式错误。在表格格式正确的情况下,说明通过步骤S1~S2已经获取了一定的表格数据。然后再提供人工智能机器视觉中的物体探测算法来实现没有表格线的表格数据的获取。若表格格式错误,则需要通过步骤S4来对表格线进行补齐,然后再获取表格数据。
如图9所示,通过图像边缘检测算法对PDF文档进行解析,获得线段包括以下步骤:
S401:过滤绘图指令中渲染文字的指令,对处理后的PDF文档生成灰度图片;
S402:由左往右扫描灰度图片的所有像素,对每一列像素从上到下循环取点的灰度值和上一点比较,若灰度差大于设定阈值,则对应的像素点为某条水平线的开始,并记录下对应的坐标;向右查找相邻的像素与其上方像素的灰度差,直到某点与上一点灰度差未达到设定阈值,则对应的像素点为某条水平线的结束,记录对应的线段;
S403:由上往下扫描灰度图片的所有像素,对每一行像素从左到右循环取点的灰度值和上一点比较,若灰度差大于设定阈值,则对应的像素点为某条垂直线的开始,并记录下对应的坐标;向下查找相邻的像素与其左方像素的灰度差,直到某点与上一点灰度差未达到设定阈值,则对应的像素点为某条垂直线的结束,记录对应的线段。
根据常理可知,线段的灰度值是高于线段区域外的灰度值。根据这一特点,在本实施例的步骤S402~S403中,通过对每个像素点与相邻的像素点的灰度值差来判断该像素点是否为线段的一部分。在扫描灰度图片的所有像素后,得到所有的水平线和垂直线。
在很多PDF文档中,有些表格会把表格数据中的表格线删除,只留下文本块,如图10所示,该图中的表格为没有表格线的表格。然而通过对PDF文档中的绘图指令进行解析,则无法获取对应的表格数据。在本实施例中,通过物体探测算法以及训练模型算法来得到最终的表格数据。
由于没有线段参考,因此只能从文字位置来判断,但是复杂布局又影响着通过文字位置判断,所以我们首先判断表格区域,然后在区域内解析表格。
表格在一定程度上可以作为一类物体,采用人工智能物体识别的方式对表格区域进行探测,如采用Faster RCNN、Object Detection模型等,得到表格可能存在的区域。如图10~12所示,首先,输入图片,经过卷积层Conv Layers的处理,得到卷积特征图FeatureMaps,然后区域候选网络RPN(Region Propose Network)对提取的卷积特征图进行处理后通过基于深度学习的分类器Classifier得到表格区域,RPN网络用于寻找可能包含物体objects的预定义数量的区域。
深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。深度学习的训练过程包括:自下而上的非监督学习:从底层开始,一层一层的往顶层训练,分别得到各层参数;自上而下的监督学习,基于第一步的得到的各层参数进一步调整整个多层模型的参数,这一步是一个有监督的训练过程。通过大量数据样本的训练得到的模型,能够准确的判断出没有表格线的表格区域。
在正常情况下,在探测后的表格区域需要进行多种修正。若有探测范围相交,则可以通过物体探测算法判断的可能性以及包含范围进行取舍;若表格区域如果穿过了文本块,说明探测的表格区域可能发生偏移,通过平移和缩放范围,找到不和文本块相交的合适区域。
在表格区域判定之后,需要在判定成功的表格区域中的文本块排列位置补上表格线。如图13所示,具体包括以下步骤:
S501:根据表格区域中的文本块及文本块对应的坐标,对文本块分割成文本块,并对所有的文本块排序;
S502:对表格区域内的文本块进行水平、垂直方向投影,选取文本块的最右端和最下端分别做垂直线和水平线。
对该表格区域中的文字通过解析能够得到每个文字的坐标,根据文字坐标,粘连附近文字,形成文本块。而表格是由行列组成,对该表格区域所有文本块排序。对表格区域内文本块进行水平、垂直方向投影等手段,可以使X、Y轴方向形成有文字和无文字的区间,选取有文字区间的最右端和最下端分别做垂直线和水平线,得到如图14中所示的有表格线的表格数据。
实施例二
如图15所示,本发明实施例二提出一种PDF文档中表格解析的系统,包括:
指令解析单元,用于对PDF文档中的绘图指令进行解析,获得线段;
第一数据获取单元,用于根据线段解析出表格及表格对应的位置,根据表格及表格对应的位置获取表格数据;
校验单元,对表格数据进行校验;
图像边缘解析单元,用于通过图像边缘检测算法对PDF文档进行解析,获得线段;
物体探测单元,通过基于深度学习的物体探测算法来探测PDF文档中无表格线的表格存在的区域;
表格线添加单元,用于在判定成功的区域中的文本块的排列位置添加表格线;
第二数据获取单元,在判定成功的区域中得到表格数据。
首先,指令解析单元对PDF文档中的绘图指令进行解析,获得线段;第一数据获取单元根据线段解析出表格及表格对应的位置,根据表格及表格对应的位置获取表格数据;校验单元对表格数据进行校验,若表格格式错误,则图像边缘解析单元通过图像边缘检测算法对PDF文档进行解析,获得线段;然后第一数据获取单元根据线段解析出表格及表格对应的位置,根据表格及表格对应的位置获取表格数据;若表格格式正确,则提取表格数据;然后通过基于深度学习的物体探测算法来探测PDF文档中无表格线的表格存在的区域,表格线添加单元在判定成功的区域中的文本块的排列位置添加表格线,第二数据获取单元在判定成功的区域中得到表格数据。
如图16所示,第一数据获取单元包括:数据获取子单元,用于根据线段识别由线段所形成的单元格以及表格区域,得到表格线数据;根据每个单元格所对应的坐标,再根据对绘图指令的解析得到各单元格矩形区域内的文本块及文本块对应的坐标;根据表格线数据和文本块得到表格数据。
其中,根据线段识别由线段所形成的单元格以及表格区域所采用的方案为:
将所有线段分为水平线和垂直线,并按坐标排序,遍历所有水平线和垂直线,获取交点,建立交点和水平线、垂直线的对应关系;
按顺序遍历各个交点,若一交点一侧相邻的水平线与该交点一侧相邻的垂直线相交,则判断该水平线、垂直线以及该交点所在的水平线、垂直线所形成的区域是单元格;
将识别的单元格排序,遍历所有的单元格,合并相邻的单元格,直到所有相邻的单元格都合并,得到表格区域。
作为本实施例的优选,第一数据获取单元还包括:修正单元,用于对解析得到的得到表格线数据进行修正。通过指令解析单元解析出的线段并不是标准的表格线。正常情况下的一条线段可能是由多条线段组成,甚至有些误差或者有些倾斜。我们需要在一定范围内,修正一些倾斜角度,把几乎水平或垂直的线段修正成水平线和垂直线、把有重叠的或几乎要碰到一起的接近线段组合成最长的线段。
在一实施例中,对解析得到的得到表格线数据进行修正所采用的方案为:
建立网格系统,将各线段端点粘附到最近的网格端点,并将线段吸附到网格;
根据所有水平线和垂直线的交点,判断最外侧的交点是否是其中一线段的起点或者终点,若不是线段的起点和终点,则在该线段的起点或者终点添加线段。
作为本实施例的优选,第一数据获取单元还包括:合并单元,用于对跨页的表格区域进行合并。在一实施例中,很多PDF文档中的表格区域是跨页的,如果将其作为两张表格来提取表格数据,则会造成数据的错误,因此在本实施例中,可以将跨页的表格区域进行合并。
在一实施例中,对跨页的表格区域进行合并所采用的方案为:
去除PDF文档中的页眉和页脚,若一页的最后一个表格和下一页的第一个表格之间不存在其他的元素,且两个表格区域的宽度、列宽都能对应,则判断为跨页表格区域,并将上述两个表格区域进行合并。
校验单元对表格数据进行校验所采用的方案为:
对生成的表格进行格式校验,判断表格的行列是否相等,若相等,则表格格式正确,若不相等,则表格格式错误。
图像边缘解析单元通过图像边缘检测算法对PDF文档进行解析,获得线段所采用的方案为:
过滤绘图指令中渲染文字的指令,对处理后的PDF文档生成灰度图片;
由左往右扫描灰度图片的所有像素,对每一列像素从上到下循环取点的灰度值和上一点比较,若灰度差大于设定阈值,则对应的像素点为某条水平线的开始,并记录下对应的坐标;向右查找相邻的像素与其上方像素的灰度差,直到某点与上一点灰度差未达到设定阈值,则对应的像素点为某条水平线的结束,记录对应的线段;
由上往下扫描灰度图片的所有像素,对每一行像素从左到右循环取点的灰度值和上一点比较,若灰度差大于设定阈值,则对应的像素点为某条垂直线的开始,并记录下对应的坐标;向下查找相邻的像素与其左方像素的灰度差,直到某点与上一点灰度差未达到设定阈值,则对应的像素点为某条垂直线的结束,记录对应的线段。
物体探测单元通过基于深度学习的物体探测算法来探测PDF文档中无表格线的表格存在的区域的方案为:
首先,输入图片,经过卷积层Conv Layers的处理,得到卷积特征图Feature Maps,然后区域候选网络RPN(Region Propose Network)对提取的卷积特征图进行处理后通过基于深度学习的分类器Classifier得到表格区域,RPN网络用于寻找可能包含物体objects的预定义数量的区域。
表格线添加单元在判定成功的区域中的文本块的排列位置添加表格线的方案为:
根据表格区域中的文本块及文本块对应的坐标,对文本块分割成文本块,并对所有的文本块排序;
对表格区域内的文本块进行水平、垂直方向投影,选取文本块的最右端和最下端分别做垂直线和水平线。
对该表格区域中的文字通过解析能够得到每个文字的坐标,根据文字坐标,粘连附近文字,形成文本块。而表格是由行列组成,对该表格区域所有文本块排序。对表格区域内文本块进行水平、垂直方向投影等手段,可以使X、Y轴方向形成有文字和无文字的区间,选取有文字区间的最右端和最下端分别做垂直线和水平线,得到有表格线的表格数据。第二数据获取单元在判定成功的区域中得到表格数据。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。作为模块或单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现木公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
实施例三
本发明实施例三提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一实施例中所述PDF文档中表格解析方法的步骤。PDF文档中表格解析的方法的具体步骤可参考前述实施例中关于上述表格解析各步骤的详细描述,此处不再赘述。所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
实施例四
本发明实施例四提供一种电子设备,该电子设备可以包括处理器以及用于存储所述处理器的可执行指令的存储器。其中,所述处理器配置为经由执行所述可执行指令来执行上述任一实施例中PDF文档中表格解析的方法的步骤。该PDF文档中表格解析的方法的步骤可参考前述方法实施例中的详细描述,此处不再赘述。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。
图17示出根据本公开示例实施方式中一种电子设备的示意图。例如,电子设备可以被提供为一服务器或客户端。参照图17,电子设备包括处理组件,其进一步包括一个或多个处理器,以及由存储器所代表的存储器资源,用于存储可由处理组件执行的指令,例如应用程序。存储器中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件被配置为执行指令,以执行上述方法。
电子设备还可以包括一个电源组件被配置为执行电子设备的电源管理,一个有线或无线网络接口被配置为将电子设备连接到网络,和一个输入输出(I/O)接口。电子设备可以操作基于存储在存储器的操作系统,例如Windows Server,Mac OSX,Unix、Linux,FreeBSD或类似。
本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (13)
1.PDF文档中表格解析的方法,其特征在于,包括以下步骤:
S1:对PDF文档中的绘图指令进行解析,获得线段;
S2:根据线段解析出表格及表格对应的位置,根据表格及表格对应的位置获取表格数据;
S3:对表格数据进行校验,若表格格式错误,则进入步骤S4,若表格格式正确,则提取表格数据并进入步骤S5;
S4:通过图像边缘检测算法对PDF文档进行解析,获得线段,然后进入步骤S2;
S5:通过基于深度学习的物体探测算法来探测PDF文档中无表格线的表格存在的区域,并在判定成功的区域中的文本块的排列位置,添加表格线得到表格数据,提取表格数据。
2.根据权利要求1所述的PDF文档中表格解析的方法,其特征在于,所述根据线段解析出表格及表格对应的位置,根据表格及表格对应的位置获取表格数据包括以下步骤:
S201:根据线段识别由线段所形成的单元格以及表格区域,得到表格线数据;
S202:根据每个单元格所对应的坐标,再根据对绘图指令的解析得到各单元格矩形区域内的文本块及文本块对应的坐标;
S203:根据表格线数据和文本块得到表格数据。
3.根据权利要求2所述的PDF文档中表格解析的方法,其特征在于,所述根据线段识别由线段所形成的单元格以及表格区域包括以下步骤:
S2011:将所有线段分为水平线和垂直线,并按坐标排序,遍历所有水平线和垂直线,获取交点,建立交点和水平线、垂直线的对应关系;
S2012:按顺序遍历各个交点,若一交点一侧相邻的水平线与该交点一侧相邻的垂直线相交,则判断该水平线、垂直线以及该交点所在的水平线、垂直线所形成的区域是单元格;
S2013:将识别的单元格排序,遍历所有的单元格,合并相邻的单元格,直到所有相邻的单元格都合并,得到表格区域。
4.根据权利要求2所述的PDF文档中表格解析的方法,其特征在于,所述得到表格线数据之后还包括:对解析得到的得到表格线数据进行修正。
5.根据权利要求4所述的PDF文档中表格解析的方法,其特征在于,所述对解析得到的得到表格线数据进行修正包括:
建立网格系统,将各线段端点粘附到最近的网格端点,并将线段吸附到网格;
根据所有水平线和垂直线的交点,判断最外侧的交点是否是其中一线段的起点或者终点,若不是线段的起点和终点,则在该线段的起点或者终点添加线段。
6.根据权利要求3所述的PDF文档中表格解析的方法,其特征在于,所述根据线段识别由线段所形成的单元格以及表格区域还包括以下步骤:
S2014:对跨页的表格区域进行合并。
7.根据权利要求6所述的PDF文档中表格解析的方法,其特征在于,所述对跨页的表格区域进行合并包括:
去除PDF文档中的页眉和页脚,若一页的最后一个表格和下一页的第一个表格之间不存在其他的元素,且两个表格区域的宽度、列宽都能对应,则判断为跨页表格区域,并将上述两个表格区域进行合并。
8.根据权利要求1所述的PDF文档中表格解析的方法,其特征在于,所述对表格数据进行校验包括:对生成的表格进行格式校验,判断表格的行列是否相等,若相等,则表格格式正确,若不相等,则表格格式错误。
9.根据权利要求1所述的PDF文档中表格解析的方法,其特征在于,所述通过图像边缘检测算法对PDF文档进行解析,获得线段包括以下步骤:
S401:过滤绘图指令中渲染文字的指令,对处理后的PDF文档生成灰度图片;
S402:由左往右扫描灰度图片的所有像素,对每一列像素从上到下循环取点的灰度值和上一点比较,若灰度差大于设定阈值,则对应的像素点为某条水平线的开始,并记录下对应的坐标;向右查找相邻的像素与其上方像素的灰度差,直到某点与上一点灰度差未达到设定阈值,则对应的像素点为某条水平线的结束,记录对应的线段;
S403:由上往下扫描灰度图片的所有像素,对每一行像素从左到右循环取点的灰度值和上一点比较,若灰度差大于设定阈值,则对应的像素点为某条垂直线的开始,并记录下对应的坐标;向下查找相邻的像素与其左方像素的灰度差,直到某点与上一点灰度差未达到设定阈值,则对应的像素点为某条垂直线的结束,记录对应的线段。
10.根据权利要求1所述的PDF文档中表格解析的方法,其特征在于,所述在判定成功的区域中的文本块的排列位置,添加表格线包括:
S501:根据表格区域中的文本块及文本块对应的坐标,对文本块分割成文本块,并对所有的文本块排序;
S502:对表格区域内的文本块进行水平、垂直方向投影,选取文本块的最右端和最下端分别做垂直线和水平线。
11.一种PDF文档中表格解析的系统,其特征在于,包括:
指令解析单元,用于对PDF文档中的绘图指令进行解析,获得线段;
第一数据获取单元,用于根据线段解析出表格及表格对应的位置,根据表格及表格对应的位置获取表格数据;
校验单元,对表格数据进行校验;
图像边缘解析单元,用于通过图像边缘检测算法对PDF文档进行解析,获得线段;
物体探测单元,用于通过基于深度学习的物体探测算法来探测PDF文档中无表格线的表格存在的区域;
表格线添加单元,用于在判定成功的区域中的文本块的排列位置添加表格线;
第二数据获取单元,在判定成功的区域中得到表格数据。
12.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至10任一项所述PDF文档中表格解析的方法的步骤。
13.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行根据权利要求1至10任一项所述PDF文档中表格解析的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910560269.8A CN110472208A (zh) | 2019-06-26 | 2019-06-26 | Pdf文档中表格解析的方法、系统、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910560269.8A CN110472208A (zh) | 2019-06-26 | 2019-06-26 | Pdf文档中表格解析的方法、系统、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110472208A true CN110472208A (zh) | 2019-11-19 |
Family
ID=68507014
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910560269.8A Pending CN110472208A (zh) | 2019-06-26 | 2019-06-26 | Pdf文档中表格解析的方法、系统、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110472208A (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111027297A (zh) * | 2019-12-23 | 2020-04-17 | 海南港澳资讯产业股份有限公司 | 一种对图像型pdf财务数据关键表格信息的处理方法 |
CN111259830A (zh) * | 2020-01-19 | 2020-06-09 | 中国农业科学院农业信息研究所 | 一种海外农业pdf文档内容碎片化方法及系统 |
CN111368744A (zh) * | 2020-03-05 | 2020-07-03 | 中国工商银行股份有限公司 | 图片中非结构化表格识别方法及装置 |
CN111368695A (zh) * | 2020-02-28 | 2020-07-03 | 上海汇航捷讯网络科技有限公司 | 一种表格结构提取方法 |
CN111860315A (zh) * | 2020-07-20 | 2020-10-30 | 中国建设银行股份有限公司 | 一种表格线的检测方法、装置、设备及存储介质 |
CN112100426A (zh) * | 2020-09-22 | 2020-12-18 | 哈尔滨工业大学(深圳) | 基于视觉和文本特征的通用表格信息检索的方法与系统 |
CN112241730A (zh) * | 2020-11-21 | 2021-01-19 | 杭州投知信息技术有限公司 | 一种基于机器学习的表格提取方法和系统 |
CN112257400A (zh) * | 2020-11-13 | 2021-01-22 | 腾讯科技(深圳)有限公司 | 表格数据提取方法、装置、计算机设备和存储介质 |
CN112380812A (zh) * | 2020-10-09 | 2021-02-19 | 北京中科凡语科技有限公司 | Pdf不完整框线表格提取方法、装置、设备及存储介质 |
CN112418204A (zh) * | 2020-11-18 | 2021-02-26 | 杭州未名信科科技有限公司 | 基于纸质文档的文本识别方法、系统及计算机介质 |
CN112651331A (zh) * | 2020-12-24 | 2021-04-13 | 万兴科技集团股份有限公司 | 文本表格提取方法、系统、计算机设备及存储介质 |
CN112712014A (zh) * | 2020-12-29 | 2021-04-27 | 平安健康保险股份有限公司 | 表格图片结构解析方法、系统、设备和可读存储介质 |
CN112818894A (zh) * | 2021-02-08 | 2021-05-18 | 深圳万兴软件有限公司 | 识别pdf文件中文本框的方法、装置及计算机设备及存储介质 |
CN113297308A (zh) * | 2021-03-12 | 2021-08-24 | 北京房江湖科技有限公司 | 表格结构化信息提取方法、装置及电子设备 |
CN113486638A (zh) * | 2021-07-29 | 2021-10-08 | 浙江大华技术股份有限公司 | 表格的重构方法和装置、存储介质及电子装置 |
CN113761873A (zh) * | 2021-09-07 | 2021-12-07 | 平安国际智慧城市科技股份有限公司 | Pdf解析方法、装置、电子设备及可存储介质 |
CN114218233A (zh) * | 2022-02-22 | 2022-03-22 | 子长科技(北京)有限公司 | 一种年报的处理方法、装置、电子设备及存储介质 |
CN116070596A (zh) * | 2023-03-29 | 2023-05-05 | 深圳市奥思网络科技有限公司 | 基于动态数据的pdf文件生成方法、装置及相关介质 |
CN116259064A (zh) * | 2023-03-09 | 2023-06-13 | 北京百度网讯科技有限公司 | 表格结构识别方法、表格结构识别模型的训练方法及装置 |
CN116861912A (zh) * | 2023-08-31 | 2023-10-10 | 合肥天帷信息安全技术有限公司 | 一种基于深度学习的表格实体抽取方法及系统 |
CN117912039A (zh) * | 2024-03-20 | 2024-04-19 | 南昌航空大学 | 一种文档图像版面分析方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897690A (zh) * | 2017-02-22 | 2017-06-27 | 南京述酷信息技术有限公司 | Pdf表格提取方法 |
CN108416279A (zh) * | 2018-02-26 | 2018-08-17 | 阿博茨德(北京)科技有限公司 | 文档图像中的表格解析方法及装置 |
CN108446264A (zh) * | 2018-03-26 | 2018-08-24 | 阿博茨德(北京)科技有限公司 | Pdf文档中的表格矢量解析方法及装置 |
CN109635268A (zh) * | 2018-12-29 | 2019-04-16 | 南京吾道知信信息技术有限公司 | Pdf文件中表格信息的提取方法 |
-
2019
- 2019-06-26 CN CN201910560269.8A patent/CN110472208A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897690A (zh) * | 2017-02-22 | 2017-06-27 | 南京述酷信息技术有限公司 | Pdf表格提取方法 |
CN108416279A (zh) * | 2018-02-26 | 2018-08-17 | 阿博茨德(北京)科技有限公司 | 文档图像中的表格解析方法及装置 |
CN108446264A (zh) * | 2018-03-26 | 2018-08-24 | 阿博茨德(北京)科技有限公司 | Pdf文档中的表格矢量解析方法及装置 |
CN109635268A (zh) * | 2018-12-29 | 2019-04-16 | 南京吾道知信信息技术有限公司 | Pdf文件中表格信息的提取方法 |
Non-Patent Citations (1)
Title |
---|
赵荣椿等: "《数字图像处理》", 西北工业大学出版社, pages: 343 - 344 * |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111027297A (zh) * | 2019-12-23 | 2020-04-17 | 海南港澳资讯产业股份有限公司 | 一种对图像型pdf财务数据关键表格信息的处理方法 |
CN111259830A (zh) * | 2020-01-19 | 2020-06-09 | 中国农业科学院农业信息研究所 | 一种海外农业pdf文档内容碎片化方法及系统 |
CN111368695B (zh) * | 2020-02-28 | 2023-06-20 | 上海汇航捷讯网络科技有限公司 | 一种表格结构提取方法 |
CN111368695A (zh) * | 2020-02-28 | 2020-07-03 | 上海汇航捷讯网络科技有限公司 | 一种表格结构提取方法 |
CN111368744A (zh) * | 2020-03-05 | 2020-07-03 | 中国工商银行股份有限公司 | 图片中非结构化表格识别方法及装置 |
CN111368744B (zh) * | 2020-03-05 | 2023-06-27 | 中国工商银行股份有限公司 | 图片中非结构化表格识别方法及装置 |
CN111860315A (zh) * | 2020-07-20 | 2020-10-30 | 中国建设银行股份有限公司 | 一种表格线的检测方法、装置、设备及存储介质 |
CN112100426A (zh) * | 2020-09-22 | 2020-12-18 | 哈尔滨工业大学(深圳) | 基于视觉和文本特征的通用表格信息检索的方法与系统 |
CN112100426B (zh) * | 2020-09-22 | 2024-05-24 | 哈尔滨工业大学(深圳) | 基于视觉和文本特征的通用表格信息检索的方法与系统 |
CN112380812A (zh) * | 2020-10-09 | 2021-02-19 | 北京中科凡语科技有限公司 | Pdf不完整框线表格提取方法、装置、设备及存储介质 |
CN112257400A (zh) * | 2020-11-13 | 2021-01-22 | 腾讯科技(深圳)有限公司 | 表格数据提取方法、装置、计算机设备和存储介质 |
CN112418204A (zh) * | 2020-11-18 | 2021-02-26 | 杭州未名信科科技有限公司 | 基于纸质文档的文本识别方法、系统及计算机介质 |
CN112241730A (zh) * | 2020-11-21 | 2021-01-19 | 杭州投知信息技术有限公司 | 一种基于机器学习的表格提取方法和系统 |
CN112651331A (zh) * | 2020-12-24 | 2021-04-13 | 万兴科技集团股份有限公司 | 文本表格提取方法、系统、计算机设备及存储介质 |
CN112651331B (zh) * | 2020-12-24 | 2024-04-16 | 万兴科技集团股份有限公司 | 文本表格提取方法、系统、计算机设备及存储介质 |
CN112712014B (zh) * | 2020-12-29 | 2024-04-30 | 平安健康保险股份有限公司 | 表格图片结构解析方法、系统、设备和可读存储介质 |
CN112712014A (zh) * | 2020-12-29 | 2021-04-27 | 平安健康保险股份有限公司 | 表格图片结构解析方法、系统、设备和可读存储介质 |
CN112818894A (zh) * | 2021-02-08 | 2021-05-18 | 深圳万兴软件有限公司 | 识别pdf文件中文本框的方法、装置及计算机设备及存储介质 |
CN112818894B (zh) * | 2021-02-08 | 2023-12-15 | 深圳万兴软件有限公司 | 识别pdf文件中文本框的方法、装置及计算机设备及存储介质 |
CN113297308A (zh) * | 2021-03-12 | 2021-08-24 | 北京房江湖科技有限公司 | 表格结构化信息提取方法、装置及电子设备 |
CN113297308B (zh) * | 2021-03-12 | 2023-09-22 | 贝壳找房(北京)科技有限公司 | 表格结构化信息提取方法、装置及电子设备 |
CN113486638A (zh) * | 2021-07-29 | 2021-10-08 | 浙江大华技术股份有限公司 | 表格的重构方法和装置、存储介质及电子装置 |
CN113761873A (zh) * | 2021-09-07 | 2021-12-07 | 平安国际智慧城市科技股份有限公司 | Pdf解析方法、装置、电子设备及可存储介质 |
CN114218233A (zh) * | 2022-02-22 | 2022-03-22 | 子长科技(北京)有限公司 | 一种年报的处理方法、装置、电子设备及存储介质 |
CN116259064A (zh) * | 2023-03-09 | 2023-06-13 | 北京百度网讯科技有限公司 | 表格结构识别方法、表格结构识别模型的训练方法及装置 |
CN116259064B (zh) * | 2023-03-09 | 2024-05-17 | 北京百度网讯科技有限公司 | 表格结构识别方法、表格结构识别模型的训练方法及装置 |
CN116070596B (zh) * | 2023-03-29 | 2023-06-09 | 深圳市奥思网络科技有限公司 | 基于动态数据的pdf文件生成方法、装置及相关介质 |
CN116070596A (zh) * | 2023-03-29 | 2023-05-05 | 深圳市奥思网络科技有限公司 | 基于动态数据的pdf文件生成方法、装置及相关介质 |
CN116861912B (zh) * | 2023-08-31 | 2023-12-05 | 合肥天帷信息安全技术有限公司 | 一种基于深度学习的表格实体抽取方法及系统 |
CN116861912A (zh) * | 2023-08-31 | 2023-10-10 | 合肥天帷信息安全技术有限公司 | 一种基于深度学习的表格实体抽取方法及系统 |
CN117912039A (zh) * | 2024-03-20 | 2024-04-19 | 南昌航空大学 | 一种文档图像版面分析方法 |
CN117912039B (zh) * | 2024-03-20 | 2024-05-24 | 南昌航空大学 | 一种文档图像版面分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110472208A (zh) | Pdf文档中表格解析的方法、系统、存储介质及电子设备 | |
CN107798321A (zh) | 一种试卷分析方法和计算设备 | |
US10685462B2 (en) | Automatic data extraction from a digital image | |
Kovalevsky | Image pattern recognition | |
US9886669B2 (en) | Interactive visualization of machine-learning performance | |
US8391609B2 (en) | Method of massive parallel pattern matching against a progressively-exhaustive knowledge base of patterns | |
US8977054B2 (en) | Candidate identification by image fingerprinting and model matching | |
EP1519302B1 (en) | System and method for detecting a hand-drawn object in electronic ink input | |
WO2007117334A2 (en) | Document analysis system for integration of paper records into a searchable electronic database | |
CN1770174A (zh) | 剖析分层列表和大纲 | |
CN109657221A (zh) | 一种文档段落排序方法、排序装置、电子设备及存储介质 | |
US20070133877A1 (en) | Script recognition for ink notes | |
CN112949476B (zh) | 基于图卷积神经网络的文本关系检测方法、装置及存储介质 | |
CN111310426A (zh) | 基于ocr的表格版式恢复方法、装置及存储介质 | |
JP6690089B2 (ja) | 帳票認識方法、帳票認識装置、及び帳票認識プログラム | |
CN112446259A (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
JPH06301781A (ja) | コンピュータによるパターン認識のためのイメージ変換方法及び装置 | |
CN109284702B (zh) | 一种基于图像模式的答题卷给分及阅卷系统 | |
JP2018063600A (ja) | 情報処理装置、情報処理方法およびプログラム | |
WO2021143058A1 (zh) | 基于图像的信息比对方法、装置、电子设备及计算机可读存储介质 | |
JP7195092B2 (ja) | 手描きの表の識別 | |
CN110490157A (zh) | 文字评估方法、文字学习方法、装置、设备及存储介质 | |
CN105187443A (zh) | 一种测试web验证码的系统及方法 | |
CN113850238B (zh) | 文档检测方法、装置、电子设备及存储介质 | |
JP3898645B2 (ja) | 帳票書式編集装置および帳票書式編集プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191119 |