CN110765739A - 一种从pdf文档中抽取表格数据和篇章结构的方法 - Google Patents

一种从pdf文档中抽取表格数据和篇章结构的方法 Download PDF

Info

Publication number
CN110765739A
CN110765739A CN201911017195.XA CN201911017195A CN110765739A CN 110765739 A CN110765739 A CN 110765739A CN 201911017195 A CN201911017195 A CN 201911017195A CN 110765739 A CN110765739 A CN 110765739A
Authority
CN
China
Prior art keywords
line
lines
extracting
chapter
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911017195.XA
Other languages
English (en)
Other versions
CN110765739B (zh
Inventor
范举
韩涵
卢卫
杜小勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Renmin University of China
Original Assignee
Renmin University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Renmin University of China filed Critical Renmin University of China
Priority to CN201911017195.XA priority Critical patent/CN110765739B/zh
Publication of CN110765739A publication Critical patent/CN110765739A/zh
Application granted granted Critical
Publication of CN110765739B publication Critical patent/CN110765739B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及一种从PDF文档中自动抽取表格数据和篇章结构的方法,其步骤:从PDF文件中进行章节抽取,得到带有篇章结构的PDF文件;从带有篇章结构的PDF文件进行裁剪;对裁剪后的PDF文件进行表格抽取,同时,对章节号和章节名也进行表格抽取,得到表格;将表格以html页面进行展示,完成抽取。本发明能自动化提取数据,提供一套浏览器端的操作界面,有良好的用户交互;可以在数据处理领域中应用。

Description

一种从PDF文档中抽取表格数据和篇章结构的方法
技术领域
本发明涉及一种数据处理领域,特别是关于一种从PDF文档中自动抽取表格数据和篇章结构的方法。
背景技术
在数据处理领域中,例如上市公司招股书、财报、年报等披露文件的信息抽取,表格数据和篇章结构的抽取可以辅助金融从业者的信息挖掘工作。互联网上的文档是进行知识抽取的重要资源。除了大量的网页页面,互联网上还有很多公开的PDF资源。PDF中包含着许多难以从网页上检索到的信息。诸如上市公司的行业法规、企业客户/供应商、财务数据等信息都存在于上市公司信息披露的表格中,与传统网页相比,PDF缺乏结构信息,确定其目录结构,提取特定篇章下的表格数据更加困难。
在该领域中现有技术方案主要包括专利201510083646.5、专利201710095978.4、专利201811630768.1。
专利201510083646.5通过提取PDF文档中的横纵线条,针对横纵线条进行排序,从而重绘PDF中的表格。但是该专利文献无法完整地提取边框未封闭的表格。
专利201710095978.4通过同时提取PDF文档中的线条信息以及PDF图像中的线条信息进行表格提取,通过线条的投影首先得到表格位置,再依次得到表格内各线条的位置,从而提高准确度。但是该专利文献提取的是PDF文档中所有的表格,缺失提取特定目录下表格的能力。
专利201811630768.1通过线条提取有边框表格,通过估计文本框边界提取无边框表格。专利201811630768.1中通过分析线条的对齐方式,确定单元格是否被合并,这种合并方式往往受限于对齐阈值的设计,且该专利也缺乏提取特定目录下表格的能力。
发明内容
针对上述问题,本发明的目的是提供一种从PDF文档中自动抽取表格数据和篇章结构的方法,其能自动化提取数据,提供一套浏览器端的操作界面,有良好的用户交互。
为实现上述目的,本发明采取以下技术方案:一种从PDF文档中自动抽取表格数据和篇章结构的方法,其步骤:1)从PDF文件中进行章节抽取,得到带有篇章结构的PDF文件;2)从带有篇章结构的PDF文件进行裁剪;3)对裁剪后的PDF文件进行表格抽取,同时,对章节号和章节名也进行表格抽取,得到表格;4)将表格以html页面进行展示,完成抽取。
进一步,所述步骤1)中,对PDF文件进行章节抽取的方法包括以下步骤:1.1)按行抽取PDF文档的特征,具体特征包括:该行文字颜色、是否加粗、字体大小、字体;1.2)将含有相同特征的行划为一组,为特征分组;1.3)按文字大小计算每种大小文字占全文的比例,完成字体分组;1.4)根据字体分组的比例信息,设定目录字体大小的下界估计值,并使用该估计值剔除特征分组中小于该估计值的字体分组;1.5)根据PDF文档中的各个因素为剩余的特征分组设定打分函数;1.6)按打分函数给每个特征分组打分,将分数从高到底排序,从第一组开始依次为各特征分组打分,选取满足条件的前K个特征分组,完成章节抽取。
进一步,所述步骤1.5)中,PDF文档中的各个因素包括:是否加粗、是否匹配目录模板、该特征所代表的行是否分布在多个页面、该特征是否为彩色、字体大小。
进一步,所述打分函数的结果是PDF文档中的各个因素的分数之和。
进一步,所述步骤1.6)中,其中,满足条件是指:从第一个组开始检查各个组别是否匹配目录模板,直到第一个不匹配目录模板的分组出现;如果没有分组匹配目录模板,则选取第一个组。
进一步,所述步骤2)中,在章节提取部分能获得每个章节项的页码,根据页码对PDF文档进行裁剪。
进一步,所述步骤3)中,表格抽取具体包括以下步骤:3.1)对PDF文件进行单元格提取;3.2)对提取到的所有单元格按从上到下,从左到右的顺序排序;3.3)构建一个空的列表T用于存放已经产生的表格;3.4)依次遍历所有单元格,对每个单元格,检查该单元格与列表T中的表格是否是“紧密贴合”,如果是,则将该单元格加入列表T中的表格;否则,以该单元格为基础新建一个表格,并将新建立的表格加入列表T中;3.5)对任意合法的页数i,取第i页最底部表格t1,第i+1页最顶部表格t2,检查t1和t2是否列对齐,如果是,连接两个表格,完成表格提取。
进一步,所述步骤3.1)中,对PDF文件进行单元格提取方法包括以下步骤:3.1.1)提取PDF图像信息,对该图像信息利用OpenCV进行形态学处理,提取图像信息中的直线;3.1.2)将相互连接的线条进行合并;3.1.3)对合并后的线条分类,分成横线和竖线两组;3.1.4)对每条横线和竖线,检查两条线是否互相交叠,若相互交叠则生成交叉点;如无相互交叠的横线和竖线,则该页无表格;3.1.5)对所有的横线,检查其线条上最左交叉点和最右交叉点是否位于横线两端,如果不在横线两端,则将该横线视作“可扩展的横线”;3.1.6)任取两条“可扩展的横线”h1、h2,遍历其上的交叉点有无共同的竖线;如果有,则绘制两条线段,分别将h1,h2的两端相连;3.1.7)如果在步骤3.1.6)中出现了绘制线段的情况,则重复步骤3.1.2)至3.1.4),反之进入下一步;3.1.8)遍历所有的交叉点,对其中任意一个交叉点node1,检查其横线和竖线,检查交叉点node1横线上的下一个有竖线的交叉点的竖线和node1竖线上的下一个有横线的交叉点的横线之间,是否存在交叉点node2,如果存在,以node1和node2为单元格对角线上的两个端点,构建一个单元格。
进一步,所述步骤3.1.6)中,绘制是指,新建立两条线段hl1和hl2加入步骤3.1.3)中的线条组中,hl1连接起h1和h2的最左端点,hl2连接起h1和h2的最右端点,有共同交叉点的话,则绘制两条线段。
进一步,所述步骤3.4)中,检查单元格与列表T中的表格是否“紧密贴合”的方法为:对于单元格c和表格t,都具有属性左边线距离页面左侧距离x_min、右边线距离页面左侧距离x_max、下边线距离页面下侧距离y_min和上边线距离页面下侧距离y_max;若属性满足下列情况之一即为紧密贴合:
(1)表格t的x_max属性与单元格的x_min属性相等,且满足表格t的y_min等于c的y_min或表格t的y_max等于c的y_max;
(2)表格t的y_max属性与单元格的y_min相等相等,且满足表格t的x_min等于c的x_min或表格t的x_max等于c的x_max。
本发明由于采取以上技术方案,其具有以下优点:1、专利申请号为201510083646.5的文献是通过提取PDF文档中的横纵线条,针对横纵线条进行排序,从而重绘PDF中的表格。与该现有文献相比,本发明对未封闭边框的表格边框进行了估计,可以提取边框未封闭的表格。2、专利申请号为201710095978.4的文献是通过同时提取PDF文档中的线条信息以及PDF图像中的线条信息进行表格提取,通过线条的投影首先得到表格位置,再依次得到表格内各线条的位置,从而提高准确度。与该现有文献相比,本发明未使用线条数据进行垂直投影和水平投影,而是首先将线条数据进行合并过滤,转换为单元格,然后通过组合单元格形成表格。3、与其他现有文献相比,本发明通过构建线条直接的交叉点形成单元格,进而组合得到表格的方法,方便了将表格可视化为html表格、或转为excel等格式,增强了工具的易用性。4、本发明可以提取边框未封闭的表格、识别表格中的跨行跨列单元格、有效地合并跨页表格、导出excel,从而使得PDF表格提取这一流程更加方便和实用。
附图说明
图1是本发明的整体流程示意图;
图2是本发明抽取表格时表格中的点和线的示例图。
具体实施方式
下面结合附图和实施例对本发明进行详细的描述。
如图1所示,本发明提供一种从PDF文档中自动抽取表格数据和篇章结构的方法,其包括以下步骤:
1)从PDF文件中进行章节抽取,得到带有篇章结构的PDF文件;
2)从带有篇章结构的PDF文件进行裁剪:在章节提取部分可以方便获得每个章节项的页码,根据页码可以对PDF文档进行裁剪。
3)对裁剪后的PDF文件进行表格抽取,同时,对章节号和章节名也进行表格抽取,得到表格;
4)将表格以html页面进行展示,完成抽取。
上述步骤1)中,对PDF文件进行章节抽取的方法包括以下步骤:
1.1)按行抽取PDF文档的特征,具体特征包括:该行文字颜色、是否加粗、字体大小、字体。
1.2)分组:将含有相同特征的行划为一组(以下简称“特征分组”)。
1.3)按文字大小计算每种大小文字占全文的比例(以下简称“字体分组”)。
1.4)根据字体分组的比例信息,设定目录字体大小的下界估计值,并使用该估计值剔除特征分组中小于该估计值的字体分组。
1.5)根据PDF文档中的各个因素为剩余的特征分组设定打分函数;PDF文档中的各个因素包括:是否加粗、是否匹配目录模板(如是否带有“一、”,“二、”这样的字符串)、该特征所代表的行是否分布在多个页面、颜色、字体大小等。
评分函数考虑的因素如下:
Figure BDA0002246077530000041
Figure BDA0002246077530000051
其中,打分函数的结果是PDF文档中的各个因素的分数之和。
1.6)按打分函数给每个特征分组打分,将分数从高到底排序,从第一组开始依次为各特征分组打分,选取满足条件的前K个特征分组,完成章节抽取;其中,满足条件是指:从第一个组开始检查各个组别是否匹配目录模板,直到第一个不匹配目录模板的分组出现;如果没有分组匹配目录模板,则选取第一个组。
上述步骤3)中,在表格提取方面,本发明可以将以下情况中的表格完整的提取:一是部分PDF是由word等文档转换而来,这部分PDF文档中会保留word表格中单元格的遗留信息,本发明通过这些遗留信息直接获得单元格的位置和大小;二是对于非word转换而来的文档,本发明从PDF的背景图中利用OpenCV识别表格底色、边框线条等信息,进而对边框线条进行组合得到各个单元格,进而得到表格。另外,对于一些无最左边框和最右边框的表格(即表格最左(右)边单元格缺少左(右)边框)时,本发明同样可以完整地提取表格。
表格抽取具体包括以下步骤:
3.1)对PDF文件进行单元格提取,具体提取方法包括以下步骤:
3.1.1)提取PDF图像信息,对该图像信息利用OpenCV进行形态学处理:腐蚀膨胀,提取图像信息中的直线。
3.1.2)将相互连接的线条进行合并;需要注意的是:如果两条线条相互重叠,也认为是相互连接的线条。
3.1.3)对合并后的线条分类,分成横线和竖线两组。
3.1.4)对每条横线和竖线,检查两条线是否互相交叠,若相互交叠则生成交叉点;如无相互交叠的横线和竖线,则该页无表格。
3.1.5)对所有的横线,检查其线条上最左交叉点和最右交叉点是否位于横线两端,如果不在横线两端,则将该横线视作“可扩展的横线”(如图2所示,图中白色的长方形为交叉点,黑色边框的圆形为“可扩展的横线”两端)。
3.1.6)任取两条“可扩展的横线”h1、h2(即遍历这些横线的集合,每次遍历时取一条线h1,并在该次遍历时重复遍历集合,取一条线h2),遍历其上的交叉点有无共同的竖线;如果有,则绘制两条线段,分别将h1,h2的两端相连;
此处的“绘制”是指,新建立两条线段hl1和hl2加入步骤3.1.3)中的线条组中,hl1连接起h1和h2的最左端点,hl2连接起h1和h2的最右端点,有共同交叉点的话,则绘制两条线段。
3.1.7)如果在步骤3.1.6)中出现了绘制线段的情况,则重复步骤3.1.2)至3.1.4),反之进入下一步。
3.1.8)遍历所有的交叉点,对其中任意一个交叉点node1,检查其横线和竖线,检查交叉点node1横线上的下一个有竖线的交叉点的竖线和node1竖线上的下一个有横线的交叉点的横线之间,是否存在交叉点node2,如果存在,以node1和node2为单元格对角线上的两个端点,构建一个单元格。
3.2)对提取到的所有单元格按从上到下,从左到右的顺序排序。
3.3)构建一个空的列表T用于存放已经产生的表格。
3.4)依次遍历所有单元格,对每个单元格,检查该单元格与列表T中的表格是否是“紧密贴合”,如果是,则将该单元格加入列表T中的表格;否则,以该单元格为基础新建一个表格,并将新建立的表格加入列表T中。
检查单元格与列表T中的表格是否“紧密贴合”的方法为:
对于单元格c和表格t,都具有属性左边线距离页面左侧距离x_min、右边线距离页面左侧距离x_max、下边线距离页面下侧距离y_min和上边线距离页面下侧距离y_max。若属性满足下列情况之一即为紧密贴合:
(1)表格t的x_max属性与单元格的x_min属性相等,且满足表格t的y_min等于c的y_min或表格t的y_max等于c的y_max。
(2)表格t的y_max属性与单元格的y_min相等相等,且满足表格t的x_min等于c的x_min或表格t的x_max等于c的x_max。
以单元格为基础新建表格、以及将单元格加入已存在的列表T中的表格时,表格会记录各个单元格边界的位置,并形成一个用于记录单元格所有竖线的横坐标的横向坐标集(x_axis),以及一个用于记录单元格所有横线的总坐标的纵向坐标集(y_axis)。这两个坐标集用于在表格构建完成时,匹配每个单元格的位置,从而获得单元格的跨行跨列情况,便于将表格导出成Html。
3.5)对任意合法的页数i,取第i页最底部表格t1,第i+1页最顶部表格t2,检查t1和t2是否列对齐,如果是,连接两个表格,完成表格提取。
上述步骤4)中,表格以html页面进行展示,并支持在页面中直接复制表格内容粘贴至excel:通过将解析的表格转换为html表格的方法,以及将html表格嵌入html文档的方法,利用excel和浏览器对html表格的翻译方法,从而粘贴至excel。
上述各实施例仅用于说明本发明,各个步骤都是可以有所变化的,在本发明技术方案的基础上,凡根据本发明原理对个别步骤进行的改进和等同变换,均不应排除在本发明的保护范围之外。

Claims (10)

1.一种从PDF文档中自动抽取表格数据和篇章结构的方法,其特征在于包括以下步骤:
1)从PDF文件中进行章节抽取,得到带有篇章结构的PDF文件;
2)从带有篇章结构的PDF文件进行裁剪;
3)对裁剪后的PDF文件进行表格抽取,同时,对章节号和章节名也进行表格抽取,得到表格;
4)将表格以html页面进行展示,完成抽取。
2.如权利要求1所述方法,其特征在于:所述步骤1)中,对PDF文件进行章节抽取的方法包括以下步骤:
1.1)按行抽取PDF文档的特征,具体特征包括:该行文字颜色、是否加粗、字体大小、字体;
1.2)将含有相同特征的行划为一组,为特征分组;
1.3)按文字大小计算每种大小文字占全文的比例,完成字体分组;
1.4)根据字体分组的比例信息,设定目录字体大小的下界估计值,并使用该估计值剔除特征分组中小于该估计值的字体分组;
1.5)根据PDF文档中的各个因素为剩余的特征分组设定打分函数;
1.6)按打分函数给每个特征分组打分,将分数从高到底排序,从第一组开始依次为各特征分组打分,选取满足条件的前K个特征分组,完成章节抽取。
3.如权利要求2所述方法,其特征在于:所述步骤1.5)中,PDF文档中的各个因素包括:是否加粗、是否匹配目录模板、该特征所代表的行是否分布在多个页面、该特征是否为彩色、字体大小。
4.如权利要求3所述方法,其特征在于:所述打分函数的结果是PDF文档中的各个因素的分数之和。
5.如权利要求2所述方法,其特征在于:所述步骤1.6)中,其中,满足条件是指:从第一个组开始检查各个组别是否匹配目录模板,直到第一个不匹配目录模板的分组出现;如果没有分组匹配目录模板,则选取第一个组。
6.如权利要求1所述方法,其特征在于:所述步骤2)中,在章节提取部分能获得每个章节项的页码,根据页码对PDF文档进行裁剪。
7.如权利要求1所述方法,其特征在于:所述步骤3)中,表格抽取具体包括以下步骤:
3.1)对PDF文件进行单元格提取;
3.2)对提取到的所有单元格按从上到下,从左到右的顺序排序;
3.3)构建一个空的列表T用于存放已经产生的表格;
3.4)依次遍历所有单元格,对每个单元格,检查该单元格与列表T中的表格是否是“紧密贴合”,如果是,则将该单元格加入列表T中的表格;否则,以该单元格为基础新建一个表格,并将新建立的表格加入列表T中;
3.5)对任意合法的页数i,取第i页最底部表格t1,第i+1页最顶部表格t2,检查t1和t2是否列对齐,如果是,连接两个表格,完成表格提取。
8.如权利要求7所述方法,其特征在于:所述步骤3.1)中,对PDF文件进行单元格提取方法包括以下步骤:
3.1.1)提取PDF图像信息,对该图像信息利用OpenCV进行形态学处理,提取图像信息中的直线;
3.1.2)将相互连接的线条进行合并;
3.1.3)对合并后的线条分类,分成横线和竖线两组;
3.1.4)对每条横线和竖线,检查两条线是否互相交叠,若相互交叠则生成交叉点;如无相互交叠的横线和竖线,则该页无表格;
3.1.5)对所有的横线,检查其线条上最左交叉点和最右交叉点是否位于横线两端,如果不在横线两端,则将该横线视作“可扩展的横线”;
3.1.6)任取两条“可扩展的横线”h1、h2,遍历其上的交叉点有无共同的竖线;如果有,则绘制两条线段,分别将h1,h2的两端相连;
3.1.7)如果在步骤3.1.6)中出现了绘制线段的情况,则重复步骤3.1.2)至3.1.4),反之进入下一步;
3.1.8)遍历所有的交叉点,对其中任意一个交叉点node1,检查其横线和竖线,检查交叉点node1横线上的下一个有竖线的交叉点的竖线和node1竖线上的下一个有横线的交叉点的横线之间,是否存在交叉点node2,如果存在,以node1和node2为单元格对角线上的两个端点,构建一个单元格。
9.如权利要求8所述方法,其特征在于:所述步骤3.1.6)中,绘制是指,新建立两条线段hl1和hl2加入步骤3.1.3)中的线条组中,hl1连接起h1和h2的最左端点,hl2连接起h1和h2的最右端点,有共同交叉点的话,则绘制两条线段。
10.如权利要求7所述方法,其特征在于:所述步骤3.4)中,检查单元格与列表T中的表格是否“紧密贴合”的方法为:
对于单元格c和表格t,都具有属性左边线距离页面左侧距离x_min、右边线距离页面左侧距离x_max、下边线距离页面下侧距离y_min和上边线距离页面下侧距离y_max;若属性满足下列情况之一即为紧密贴合:
(1)表格t的x_max属性与单元格的x_min属性相等,且满足表格t的y_min等于c的y_min或表格t的y_max等于c的y_max;
(2)表格t的y_max属性与单元格的y_min相等相等,且满足表格t的x_min等于c的x_min或表格t的x_max等于c的x_max。
CN201911017195.XA 2019-10-24 2019-10-24 一种从pdf文档中抽取表格数据和篇章结构的方法 Active CN110765739B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911017195.XA CN110765739B (zh) 2019-10-24 2019-10-24 一种从pdf文档中抽取表格数据和篇章结构的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911017195.XA CN110765739B (zh) 2019-10-24 2019-10-24 一种从pdf文档中抽取表格数据和篇章结构的方法

Publications (2)

Publication Number Publication Date
CN110765739A true CN110765739A (zh) 2020-02-07
CN110765739B CN110765739B (zh) 2023-10-10

Family

ID=69333377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911017195.XA Active CN110765739B (zh) 2019-10-24 2019-10-24 一种从pdf文档中抽取表格数据和篇章结构的方法

Country Status (1)

Country Link
CN (1) CN110765739B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340000A (zh) * 2020-03-23 2020-06-26 深圳智能思创科技有限公司 一种针对pdf文档表格提取优化方法及系统
CN111709349A (zh) * 2020-06-11 2020-09-25 杭州尚尚签网络科技有限公司 一种针对带表格合同的ocr识别方法
CN112036294A (zh) * 2020-08-28 2020-12-04 山谷网安科技股份有限公司 一种纸质表格结构自动识别的方法及装置
CN113191344A (zh) * 2021-04-22 2021-07-30 读书郎教育科技有限公司 一种智能台灯自动统分的方法及智能台灯
CN113343658A (zh) * 2021-07-01 2021-09-03 湖南四方天箭信息科技有限公司 一种pdf文件信息抽取方法、装置以及计算机设备
CN113761873A (zh) * 2021-09-07 2021-12-07 平安国际智慧城市科技股份有限公司 Pdf解析方法、装置、电子设备及可存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007095102A (ja) * 2006-12-25 2007-04-12 Toshiba Corp 文書処理装置および文書処理方法
CN105988979A (zh) * 2015-02-16 2016-10-05 北京邮电大学 基于pdf文件的表格提取方法和装置
CN106897690A (zh) * 2017-02-22 2017-06-27 南京述酷信息技术有限公司 Pdf表格提取方法
CN109635268A (zh) * 2018-12-29 2019-04-16 南京吾道知信信息技术有限公司 Pdf文件中表格信息的提取方法
CN110110097A (zh) * 2019-05-13 2019-08-09 江苏省质量技术监督信息中心 一种基于模式识别技术在标准化文献元数据提取实现方法
CN110348294A (zh) * 2019-05-30 2019-10-18 平安科技(深圳)有限公司 Pdf文档中图表的定位方法、装置及计算机设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007095102A (ja) * 2006-12-25 2007-04-12 Toshiba Corp 文書処理装置および文書処理方法
CN105988979A (zh) * 2015-02-16 2016-10-05 北京邮电大学 基于pdf文件的表格提取方法和装置
CN106897690A (zh) * 2017-02-22 2017-06-27 南京述酷信息技术有限公司 Pdf表格提取方法
CN109635268A (zh) * 2018-12-29 2019-04-16 南京吾道知信信息技术有限公司 Pdf文件中表格信息的提取方法
CN110110097A (zh) * 2019-05-13 2019-08-09 江苏省质量技术监督信息中心 一种基于模式识别技术在标准化文献元数据提取实现方法
CN110348294A (zh) * 2019-05-30 2019-10-18 平安科技(深圳)有限公司 Pdf文档中图表的定位方法、装置及计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
葛一兵,余智华: "基于XML的PDF文档内容与结构的表示的实现" *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340000A (zh) * 2020-03-23 2020-06-26 深圳智能思创科技有限公司 一种针对pdf文档表格提取优化方法及系统
CN111709349A (zh) * 2020-06-11 2020-09-25 杭州尚尚签网络科技有限公司 一种针对带表格合同的ocr识别方法
CN111709349B (zh) * 2020-06-11 2023-12-01 杭州尚尚签网络科技有限公司 一种针对带表格合同的ocr识别方法
CN112036294A (zh) * 2020-08-28 2020-12-04 山谷网安科技股份有限公司 一种纸质表格结构自动识别的方法及装置
CN112036294B (zh) * 2020-08-28 2023-08-25 山谷网安科技股份有限公司 一种纸质表格结构自动识别的方法及装置
CN113191344A (zh) * 2021-04-22 2021-07-30 读书郎教育科技有限公司 一种智能台灯自动统分的方法及智能台灯
CN113343658A (zh) * 2021-07-01 2021-09-03 湖南四方天箭信息科技有限公司 一种pdf文件信息抽取方法、装置以及计算机设备
CN113343658B (zh) * 2021-07-01 2024-04-09 湖南四方天箭信息科技有限公司 一种pdf文件信息抽取方法、装置以及计算机设备
CN113761873A (zh) * 2021-09-07 2021-12-07 平安国际智慧城市科技股份有限公司 Pdf解析方法、装置、电子设备及可存储介质

Also Published As

Publication number Publication date
CN110765739B (zh) 2023-10-10

Similar Documents

Publication Publication Date Title
CN110765739B (zh) 一种从pdf文档中抽取表格数据和篇章结构的方法
EP2343670B1 (en) Apparatus and method for digitizing documents
CN110968667B (zh) 一种基于文本状态特征的期刊文献表格抽取方法
CN110516221B (zh) 提取pdf文档中图表数据的方法、设备和存储介质
CN109858036B (zh) 一种文书划分方法及装置
CN110163030B (zh) 一种基于图像信息的pdf有边框表格抽取方法
CA2519216A1 (en) Method and expert system for document conversion
CN116311259B (zh) 一种pdf业务文档的信息抽取方法
US20130124684A1 (en) Visual separator detection in web pages using code analysis
WO2021042507A1 (zh) pdf文档中表格数据的提取方法、设备和存储介质
CN111797630A (zh) 一种面向pdf格式论文的生物医学实体识别方法
CN115828874A (zh) 基于图像识别技术的行业表格数字化处理方法
CN112651331A (zh) 文本表格提取方法、系统、计算机设备及存储介质
CN109726369A (zh) 一种基于标准文献的智能模板化题录技术实现方法
CN110688825A (zh) 一种版式文档中的含线表格信息提取方法
JP4787955B2 (ja) 対象文書からキーワードを抽出する方法、システムおよびプログラム
JP2013254321A (ja) 画像処理装置、画像処理方法及びプログラム
CN112417826A (zh) Pdf在线编辑方法、装置、电子设备和可读存储介质
CN115713775B (zh) 一种从文档中提取表格的方法、系统和计算机设备
CN116311300A (zh) 表格生成方法、装置、电子设备以及存储介质
CN110688842A (zh) 一种文档标题层级的分析方法、装置及服务器
EP3470993A1 (en) A method and system for click thru capability of electronic media
CN109656652A (zh) 网页图表绘制方法、装置、计算机设备和存储介质
CN113065316A (zh) 将方正小样文件动态转换成html并录入题库、从题库选题组稿并生成小样文件的方法
Xiang et al. Recovering semantic relations from web pages based on visual cues

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant