CN110765739A - 一种从pdf文档中抽取表格数据和篇章结构的方法 - Google Patents
一种从pdf文档中抽取表格数据和篇章结构的方法 Download PDFInfo
- Publication number
- CN110765739A CN110765739A CN201911017195.XA CN201911017195A CN110765739A CN 110765739 A CN110765739 A CN 110765739A CN 201911017195 A CN201911017195 A CN 201911017195A CN 110765739 A CN110765739 A CN 110765739A
- Authority
- CN
- China
- Prior art keywords
- line
- lines
- extracting
- chapter
- page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明涉及一种从PDF文档中自动抽取表格数据和篇章结构的方法,其步骤:从PDF文件中进行章节抽取,得到带有篇章结构的PDF文件;从带有篇章结构的PDF文件进行裁剪;对裁剪后的PDF文件进行表格抽取,同时,对章节号和章节名也进行表格抽取,得到表格;将表格以html页面进行展示,完成抽取。本发明能自动化提取数据,提供一套浏览器端的操作界面,有良好的用户交互;可以在数据处理领域中应用。
Description
技术领域
本发明涉及一种数据处理领域,特别是关于一种从PDF文档中自动抽取表格数据和篇章结构的方法。
背景技术
在数据处理领域中,例如上市公司招股书、财报、年报等披露文件的信息抽取,表格数据和篇章结构的抽取可以辅助金融从业者的信息挖掘工作。互联网上的文档是进行知识抽取的重要资源。除了大量的网页页面,互联网上还有很多公开的PDF资源。PDF中包含着许多难以从网页上检索到的信息。诸如上市公司的行业法规、企业客户/供应商、财务数据等信息都存在于上市公司信息披露的表格中,与传统网页相比,PDF缺乏结构信息,确定其目录结构,提取特定篇章下的表格数据更加困难。
在该领域中现有技术方案主要包括专利201510083646.5、专利201710095978.4、专利201811630768.1。
专利201510083646.5通过提取PDF文档中的横纵线条,针对横纵线条进行排序,从而重绘PDF中的表格。但是该专利文献无法完整地提取边框未封闭的表格。
专利201710095978.4通过同时提取PDF文档中的线条信息以及PDF图像中的线条信息进行表格提取,通过线条的投影首先得到表格位置,再依次得到表格内各线条的位置,从而提高准确度。但是该专利文献提取的是PDF文档中所有的表格,缺失提取特定目录下表格的能力。
专利201811630768.1通过线条提取有边框表格,通过估计文本框边界提取无边框表格。专利201811630768.1中通过分析线条的对齐方式,确定单元格是否被合并,这种合并方式往往受限于对齐阈值的设计,且该专利也缺乏提取特定目录下表格的能力。
发明内容
针对上述问题,本发明的目的是提供一种从PDF文档中自动抽取表格数据和篇章结构的方法,其能自动化提取数据,提供一套浏览器端的操作界面,有良好的用户交互。
为实现上述目的,本发明采取以下技术方案:一种从PDF文档中自动抽取表格数据和篇章结构的方法,其步骤:1)从PDF文件中进行章节抽取,得到带有篇章结构的PDF文件;2)从带有篇章结构的PDF文件进行裁剪;3)对裁剪后的PDF文件进行表格抽取,同时,对章节号和章节名也进行表格抽取,得到表格;4)将表格以html页面进行展示,完成抽取。
进一步,所述步骤1)中,对PDF文件进行章节抽取的方法包括以下步骤:1.1)按行抽取PDF文档的特征,具体特征包括:该行文字颜色、是否加粗、字体大小、字体;1.2)将含有相同特征的行划为一组,为特征分组;1.3)按文字大小计算每种大小文字占全文的比例,完成字体分组;1.4)根据字体分组的比例信息,设定目录字体大小的下界估计值,并使用该估计值剔除特征分组中小于该估计值的字体分组;1.5)根据PDF文档中的各个因素为剩余的特征分组设定打分函数;1.6)按打分函数给每个特征分组打分,将分数从高到底排序,从第一组开始依次为各特征分组打分,选取满足条件的前K个特征分组,完成章节抽取。
进一步,所述步骤1.5)中,PDF文档中的各个因素包括:是否加粗、是否匹配目录模板、该特征所代表的行是否分布在多个页面、该特征是否为彩色、字体大小。
进一步,所述打分函数的结果是PDF文档中的各个因素的分数之和。
进一步,所述步骤1.6)中,其中,满足条件是指:从第一个组开始检查各个组别是否匹配目录模板,直到第一个不匹配目录模板的分组出现;如果没有分组匹配目录模板,则选取第一个组。
进一步,所述步骤2)中,在章节提取部分能获得每个章节项的页码,根据页码对PDF文档进行裁剪。
进一步,所述步骤3)中,表格抽取具体包括以下步骤:3.1)对PDF文件进行单元格提取;3.2)对提取到的所有单元格按从上到下,从左到右的顺序排序;3.3)构建一个空的列表T用于存放已经产生的表格;3.4)依次遍历所有单元格,对每个单元格,检查该单元格与列表T中的表格是否是“紧密贴合”,如果是,则将该单元格加入列表T中的表格;否则,以该单元格为基础新建一个表格,并将新建立的表格加入列表T中;3.5)对任意合法的页数i,取第i页最底部表格t1,第i+1页最顶部表格t2,检查t1和t2是否列对齐,如果是,连接两个表格,完成表格提取。
进一步,所述步骤3.1)中,对PDF文件进行单元格提取方法包括以下步骤:3.1.1)提取PDF图像信息,对该图像信息利用OpenCV进行形态学处理,提取图像信息中的直线;3.1.2)将相互连接的线条进行合并;3.1.3)对合并后的线条分类,分成横线和竖线两组;3.1.4)对每条横线和竖线,检查两条线是否互相交叠,若相互交叠则生成交叉点;如无相互交叠的横线和竖线,则该页无表格;3.1.5)对所有的横线,检查其线条上最左交叉点和最右交叉点是否位于横线两端,如果不在横线两端,则将该横线视作“可扩展的横线”;3.1.6)任取两条“可扩展的横线”h1、h2,遍历其上的交叉点有无共同的竖线;如果有,则绘制两条线段,分别将h1,h2的两端相连;3.1.7)如果在步骤3.1.6)中出现了绘制线段的情况,则重复步骤3.1.2)至3.1.4),反之进入下一步;3.1.8)遍历所有的交叉点,对其中任意一个交叉点node1,检查其横线和竖线,检查交叉点node1横线上的下一个有竖线的交叉点的竖线和node1竖线上的下一个有横线的交叉点的横线之间,是否存在交叉点node2,如果存在,以node1和node2为单元格对角线上的两个端点,构建一个单元格。
进一步,所述步骤3.1.6)中,绘制是指,新建立两条线段hl1和hl2加入步骤3.1.3)中的线条组中,hl1连接起h1和h2的最左端点,hl2连接起h1和h2的最右端点,有共同交叉点的话,则绘制两条线段。
进一步,所述步骤3.4)中,检查单元格与列表T中的表格是否“紧密贴合”的方法为:对于单元格c和表格t,都具有属性左边线距离页面左侧距离x_min、右边线距离页面左侧距离x_max、下边线距离页面下侧距离y_min和上边线距离页面下侧距离y_max;若属性满足下列情况之一即为紧密贴合:
(1)表格t的x_max属性与单元格的x_min属性相等,且满足表格t的y_min等于c的y_min或表格t的y_max等于c的y_max;
(2)表格t的y_max属性与单元格的y_min相等相等,且满足表格t的x_min等于c的x_min或表格t的x_max等于c的x_max。
本发明由于采取以上技术方案,其具有以下优点:1、专利申请号为201510083646.5的文献是通过提取PDF文档中的横纵线条,针对横纵线条进行排序,从而重绘PDF中的表格。与该现有文献相比,本发明对未封闭边框的表格边框进行了估计,可以提取边框未封闭的表格。2、专利申请号为201710095978.4的文献是通过同时提取PDF文档中的线条信息以及PDF图像中的线条信息进行表格提取,通过线条的投影首先得到表格位置,再依次得到表格内各线条的位置,从而提高准确度。与该现有文献相比,本发明未使用线条数据进行垂直投影和水平投影,而是首先将线条数据进行合并过滤,转换为单元格,然后通过组合单元格形成表格。3、与其他现有文献相比,本发明通过构建线条直接的交叉点形成单元格,进而组合得到表格的方法,方便了将表格可视化为html表格、或转为excel等格式,增强了工具的易用性。4、本发明可以提取边框未封闭的表格、识别表格中的跨行跨列单元格、有效地合并跨页表格、导出excel,从而使得PDF表格提取这一流程更加方便和实用。
附图说明
图1是本发明的整体流程示意图;
图2是本发明抽取表格时表格中的点和线的示例图。
具体实施方式
下面结合附图和实施例对本发明进行详细的描述。
如图1所示,本发明提供一种从PDF文档中自动抽取表格数据和篇章结构的方法,其包括以下步骤:
1)从PDF文件中进行章节抽取,得到带有篇章结构的PDF文件;
2)从带有篇章结构的PDF文件进行裁剪:在章节提取部分可以方便获得每个章节项的页码,根据页码可以对PDF文档进行裁剪。
3)对裁剪后的PDF文件进行表格抽取,同时,对章节号和章节名也进行表格抽取,得到表格;
4)将表格以html页面进行展示,完成抽取。
上述步骤1)中,对PDF文件进行章节抽取的方法包括以下步骤:
1.1)按行抽取PDF文档的特征,具体特征包括:该行文字颜色、是否加粗、字体大小、字体。
1.2)分组:将含有相同特征的行划为一组(以下简称“特征分组”)。
1.3)按文字大小计算每种大小文字占全文的比例(以下简称“字体分组”)。
1.4)根据字体分组的比例信息,设定目录字体大小的下界估计值,并使用该估计值剔除特征分组中小于该估计值的字体分组。
1.5)根据PDF文档中的各个因素为剩余的特征分组设定打分函数;PDF文档中的各个因素包括:是否加粗、是否匹配目录模板(如是否带有“一、”,“二、”这样的字符串)、该特征所代表的行是否分布在多个页面、颜色、字体大小等。
评分函数考虑的因素如下:
其中,打分函数的结果是PDF文档中的各个因素的分数之和。
1.6)按打分函数给每个特征分组打分,将分数从高到底排序,从第一组开始依次为各特征分组打分,选取满足条件的前K个特征分组,完成章节抽取;其中,满足条件是指:从第一个组开始检查各个组别是否匹配目录模板,直到第一个不匹配目录模板的分组出现;如果没有分组匹配目录模板,则选取第一个组。
上述步骤3)中,在表格提取方面,本发明可以将以下情况中的表格完整的提取:一是部分PDF是由word等文档转换而来,这部分PDF文档中会保留word表格中单元格的遗留信息,本发明通过这些遗留信息直接获得单元格的位置和大小;二是对于非word转换而来的文档,本发明从PDF的背景图中利用OpenCV识别表格底色、边框线条等信息,进而对边框线条进行组合得到各个单元格,进而得到表格。另外,对于一些无最左边框和最右边框的表格(即表格最左(右)边单元格缺少左(右)边框)时,本发明同样可以完整地提取表格。
表格抽取具体包括以下步骤:
3.1)对PDF文件进行单元格提取,具体提取方法包括以下步骤:
3.1.1)提取PDF图像信息,对该图像信息利用OpenCV进行形态学处理:腐蚀膨胀,提取图像信息中的直线。
3.1.2)将相互连接的线条进行合并;需要注意的是:如果两条线条相互重叠,也认为是相互连接的线条。
3.1.3)对合并后的线条分类,分成横线和竖线两组。
3.1.4)对每条横线和竖线,检查两条线是否互相交叠,若相互交叠则生成交叉点;如无相互交叠的横线和竖线,则该页无表格。
3.1.5)对所有的横线,检查其线条上最左交叉点和最右交叉点是否位于横线两端,如果不在横线两端,则将该横线视作“可扩展的横线”(如图2所示,图中白色的长方形为交叉点,黑色边框的圆形为“可扩展的横线”两端)。
3.1.6)任取两条“可扩展的横线”h1、h2(即遍历这些横线的集合,每次遍历时取一条线h1,并在该次遍历时重复遍历集合,取一条线h2),遍历其上的交叉点有无共同的竖线;如果有,则绘制两条线段,分别将h1,h2的两端相连;
此处的“绘制”是指,新建立两条线段hl1和hl2加入步骤3.1.3)中的线条组中,hl1连接起h1和h2的最左端点,hl2连接起h1和h2的最右端点,有共同交叉点的话,则绘制两条线段。
3.1.7)如果在步骤3.1.6)中出现了绘制线段的情况,则重复步骤3.1.2)至3.1.4),反之进入下一步。
3.1.8)遍历所有的交叉点,对其中任意一个交叉点node1,检查其横线和竖线,检查交叉点node1横线上的下一个有竖线的交叉点的竖线和node1竖线上的下一个有横线的交叉点的横线之间,是否存在交叉点node2,如果存在,以node1和node2为单元格对角线上的两个端点,构建一个单元格。
3.2)对提取到的所有单元格按从上到下,从左到右的顺序排序。
3.3)构建一个空的列表T用于存放已经产生的表格。
3.4)依次遍历所有单元格,对每个单元格,检查该单元格与列表T中的表格是否是“紧密贴合”,如果是,则将该单元格加入列表T中的表格;否则,以该单元格为基础新建一个表格,并将新建立的表格加入列表T中。
检查单元格与列表T中的表格是否“紧密贴合”的方法为:
对于单元格c和表格t,都具有属性左边线距离页面左侧距离x_min、右边线距离页面左侧距离x_max、下边线距离页面下侧距离y_min和上边线距离页面下侧距离y_max。若属性满足下列情况之一即为紧密贴合:
(1)表格t的x_max属性与单元格的x_min属性相等,且满足表格t的y_min等于c的y_min或表格t的y_max等于c的y_max。
(2)表格t的y_max属性与单元格的y_min相等相等,且满足表格t的x_min等于c的x_min或表格t的x_max等于c的x_max。
以单元格为基础新建表格、以及将单元格加入已存在的列表T中的表格时,表格会记录各个单元格边界的位置,并形成一个用于记录单元格所有竖线的横坐标的横向坐标集(x_axis),以及一个用于记录单元格所有横线的总坐标的纵向坐标集(y_axis)。这两个坐标集用于在表格构建完成时,匹配每个单元格的位置,从而获得单元格的跨行跨列情况,便于将表格导出成Html。
3.5)对任意合法的页数i,取第i页最底部表格t1,第i+1页最顶部表格t2,检查t1和t2是否列对齐,如果是,连接两个表格,完成表格提取。
上述步骤4)中,表格以html页面进行展示,并支持在页面中直接复制表格内容粘贴至excel:通过将解析的表格转换为html表格的方法,以及将html表格嵌入html文档的方法,利用excel和浏览器对html表格的翻译方法,从而粘贴至excel。
上述各实施例仅用于说明本发明,各个步骤都是可以有所变化的,在本发明技术方案的基础上,凡根据本发明原理对个别步骤进行的改进和等同变换,均不应排除在本发明的保护范围之外。
Claims (10)
1.一种从PDF文档中自动抽取表格数据和篇章结构的方法,其特征在于包括以下步骤:
1)从PDF文件中进行章节抽取,得到带有篇章结构的PDF文件;
2)从带有篇章结构的PDF文件进行裁剪;
3)对裁剪后的PDF文件进行表格抽取,同时,对章节号和章节名也进行表格抽取,得到表格;
4)将表格以html页面进行展示,完成抽取。
2.如权利要求1所述方法,其特征在于:所述步骤1)中,对PDF文件进行章节抽取的方法包括以下步骤:
1.1)按行抽取PDF文档的特征,具体特征包括:该行文字颜色、是否加粗、字体大小、字体;
1.2)将含有相同特征的行划为一组,为特征分组;
1.3)按文字大小计算每种大小文字占全文的比例,完成字体分组;
1.4)根据字体分组的比例信息,设定目录字体大小的下界估计值,并使用该估计值剔除特征分组中小于该估计值的字体分组;
1.5)根据PDF文档中的各个因素为剩余的特征分组设定打分函数;
1.6)按打分函数给每个特征分组打分,将分数从高到底排序,从第一组开始依次为各特征分组打分,选取满足条件的前K个特征分组,完成章节抽取。
3.如权利要求2所述方法,其特征在于:所述步骤1.5)中,PDF文档中的各个因素包括:是否加粗、是否匹配目录模板、该特征所代表的行是否分布在多个页面、该特征是否为彩色、字体大小。
4.如权利要求3所述方法,其特征在于:所述打分函数的结果是PDF文档中的各个因素的分数之和。
5.如权利要求2所述方法,其特征在于:所述步骤1.6)中,其中,满足条件是指:从第一个组开始检查各个组别是否匹配目录模板,直到第一个不匹配目录模板的分组出现;如果没有分组匹配目录模板,则选取第一个组。
6.如权利要求1所述方法,其特征在于:所述步骤2)中,在章节提取部分能获得每个章节项的页码,根据页码对PDF文档进行裁剪。
7.如权利要求1所述方法,其特征在于:所述步骤3)中,表格抽取具体包括以下步骤:
3.1)对PDF文件进行单元格提取;
3.2)对提取到的所有单元格按从上到下,从左到右的顺序排序;
3.3)构建一个空的列表T用于存放已经产生的表格;
3.4)依次遍历所有单元格,对每个单元格,检查该单元格与列表T中的表格是否是“紧密贴合”,如果是,则将该单元格加入列表T中的表格;否则,以该单元格为基础新建一个表格,并将新建立的表格加入列表T中;
3.5)对任意合法的页数i,取第i页最底部表格t1,第i+1页最顶部表格t2,检查t1和t2是否列对齐,如果是,连接两个表格,完成表格提取。
8.如权利要求7所述方法,其特征在于:所述步骤3.1)中,对PDF文件进行单元格提取方法包括以下步骤:
3.1.1)提取PDF图像信息,对该图像信息利用OpenCV进行形态学处理,提取图像信息中的直线;
3.1.2)将相互连接的线条进行合并;
3.1.3)对合并后的线条分类,分成横线和竖线两组;
3.1.4)对每条横线和竖线,检查两条线是否互相交叠,若相互交叠则生成交叉点;如无相互交叠的横线和竖线,则该页无表格;
3.1.5)对所有的横线,检查其线条上最左交叉点和最右交叉点是否位于横线两端,如果不在横线两端,则将该横线视作“可扩展的横线”;
3.1.6)任取两条“可扩展的横线”h1、h2,遍历其上的交叉点有无共同的竖线;如果有,则绘制两条线段,分别将h1,h2的两端相连;
3.1.7)如果在步骤3.1.6)中出现了绘制线段的情况,则重复步骤3.1.2)至3.1.4),反之进入下一步;
3.1.8)遍历所有的交叉点,对其中任意一个交叉点node1,检查其横线和竖线,检查交叉点node1横线上的下一个有竖线的交叉点的竖线和node1竖线上的下一个有横线的交叉点的横线之间,是否存在交叉点node2,如果存在,以node1和node2为单元格对角线上的两个端点,构建一个单元格。
9.如权利要求8所述方法,其特征在于:所述步骤3.1.6)中,绘制是指,新建立两条线段hl1和hl2加入步骤3.1.3)中的线条组中,hl1连接起h1和h2的最左端点,hl2连接起h1和h2的最右端点,有共同交叉点的话,则绘制两条线段。
10.如权利要求7所述方法,其特征在于:所述步骤3.4)中,检查单元格与列表T中的表格是否“紧密贴合”的方法为:
对于单元格c和表格t,都具有属性左边线距离页面左侧距离x_min、右边线距离页面左侧距离x_max、下边线距离页面下侧距离y_min和上边线距离页面下侧距离y_max;若属性满足下列情况之一即为紧密贴合:
(1)表格t的x_max属性与单元格的x_min属性相等,且满足表格t的y_min等于c的y_min或表格t的y_max等于c的y_max;
(2)表格t的y_max属性与单元格的y_min相等相等,且满足表格t的x_min等于c的x_min或表格t的x_max等于c的x_max。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911017195.XA CN110765739B (zh) | 2019-10-24 | 2019-10-24 | 一种从pdf文档中抽取表格数据和篇章结构的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911017195.XA CN110765739B (zh) | 2019-10-24 | 2019-10-24 | 一种从pdf文档中抽取表格数据和篇章结构的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110765739A true CN110765739A (zh) | 2020-02-07 |
CN110765739B CN110765739B (zh) | 2023-10-10 |
Family
ID=69333377
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911017195.XA Active CN110765739B (zh) | 2019-10-24 | 2019-10-24 | 一种从pdf文档中抽取表格数据和篇章结构的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110765739B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111340000A (zh) * | 2020-03-23 | 2020-06-26 | 深圳智能思创科技有限公司 | 一种针对pdf文档表格提取优化方法及系统 |
CN111709349A (zh) * | 2020-06-11 | 2020-09-25 | 杭州尚尚签网络科技有限公司 | 一种针对带表格合同的ocr识别方法 |
CN112036294A (zh) * | 2020-08-28 | 2020-12-04 | 山谷网安科技股份有限公司 | 一种纸质表格结构自动识别的方法及装置 |
CN113191344A (zh) * | 2021-04-22 | 2021-07-30 | 读书郎教育科技有限公司 | 一种智能台灯自动统分的方法及智能台灯 |
CN113343658A (zh) * | 2021-07-01 | 2021-09-03 | 湖南四方天箭信息科技有限公司 | 一种pdf文件信息抽取方法、装置以及计算机设备 |
CN113761873A (zh) * | 2021-09-07 | 2021-12-07 | 平安国际智慧城市科技股份有限公司 | Pdf解析方法、装置、电子设备及可存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007095102A (ja) * | 2006-12-25 | 2007-04-12 | Toshiba Corp | 文書処理装置および文書処理方法 |
CN105988979A (zh) * | 2015-02-16 | 2016-10-05 | 北京邮电大学 | 基于pdf文件的表格提取方法和装置 |
CN106897690A (zh) * | 2017-02-22 | 2017-06-27 | 南京述酷信息技术有限公司 | Pdf表格提取方法 |
CN109635268A (zh) * | 2018-12-29 | 2019-04-16 | 南京吾道知信信息技术有限公司 | Pdf文件中表格信息的提取方法 |
CN110110097A (zh) * | 2019-05-13 | 2019-08-09 | 江苏省质量技术监督信息中心 | 一种基于模式识别技术在标准化文献元数据提取实现方法 |
CN110348294A (zh) * | 2019-05-30 | 2019-10-18 | 平安科技(深圳)有限公司 | Pdf文档中图表的定位方法、装置及计算机设备 |
-
2019
- 2019-10-24 CN CN201911017195.XA patent/CN110765739B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007095102A (ja) * | 2006-12-25 | 2007-04-12 | Toshiba Corp | 文書処理装置および文書処理方法 |
CN105988979A (zh) * | 2015-02-16 | 2016-10-05 | 北京邮电大学 | 基于pdf文件的表格提取方法和装置 |
CN106897690A (zh) * | 2017-02-22 | 2017-06-27 | 南京述酷信息技术有限公司 | Pdf表格提取方法 |
CN109635268A (zh) * | 2018-12-29 | 2019-04-16 | 南京吾道知信信息技术有限公司 | Pdf文件中表格信息的提取方法 |
CN110110097A (zh) * | 2019-05-13 | 2019-08-09 | 江苏省质量技术监督信息中心 | 一种基于模式识别技术在标准化文献元数据提取实现方法 |
CN110348294A (zh) * | 2019-05-30 | 2019-10-18 | 平安科技(深圳)有限公司 | Pdf文档中图表的定位方法、装置及计算机设备 |
Non-Patent Citations (1)
Title |
---|
葛一兵,余智华: "基于XML的PDF文档内容与结构的表示的实现" * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111340000A (zh) * | 2020-03-23 | 2020-06-26 | 深圳智能思创科技有限公司 | 一种针对pdf文档表格提取优化方法及系统 |
CN111709349A (zh) * | 2020-06-11 | 2020-09-25 | 杭州尚尚签网络科技有限公司 | 一种针对带表格合同的ocr识别方法 |
CN111709349B (zh) * | 2020-06-11 | 2023-12-01 | 杭州尚尚签网络科技有限公司 | 一种针对带表格合同的ocr识别方法 |
CN112036294A (zh) * | 2020-08-28 | 2020-12-04 | 山谷网安科技股份有限公司 | 一种纸质表格结构自动识别的方法及装置 |
CN112036294B (zh) * | 2020-08-28 | 2023-08-25 | 山谷网安科技股份有限公司 | 一种纸质表格结构自动识别的方法及装置 |
CN113191344A (zh) * | 2021-04-22 | 2021-07-30 | 读书郎教育科技有限公司 | 一种智能台灯自动统分的方法及智能台灯 |
CN113343658A (zh) * | 2021-07-01 | 2021-09-03 | 湖南四方天箭信息科技有限公司 | 一种pdf文件信息抽取方法、装置以及计算机设备 |
CN113343658B (zh) * | 2021-07-01 | 2024-04-09 | 湖南四方天箭信息科技有限公司 | 一种pdf文件信息抽取方法、装置以及计算机设备 |
CN113761873A (zh) * | 2021-09-07 | 2021-12-07 | 平安国际智慧城市科技股份有限公司 | Pdf解析方法、装置、电子设备及可存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110765739B (zh) | 2023-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110765739B (zh) | 一种从pdf文档中抽取表格数据和篇章结构的方法 | |
EP2343670B1 (en) | Apparatus and method for digitizing documents | |
CN110968667B (zh) | 一种基于文本状态特征的期刊文献表格抽取方法 | |
CN110516221B (zh) | 提取pdf文档中图表数据的方法、设备和存储介质 | |
CN109858036B (zh) | 一种文书划分方法及装置 | |
CN110163030B (zh) | 一种基于图像信息的pdf有边框表格抽取方法 | |
CA2519216A1 (en) | Method and expert system for document conversion | |
CN116311259B (zh) | 一种pdf业务文档的信息抽取方法 | |
US20130124684A1 (en) | Visual separator detection in web pages using code analysis | |
WO2021042507A1 (zh) | pdf文档中表格数据的提取方法、设备和存储介质 | |
CN111797630A (zh) | 一种面向pdf格式论文的生物医学实体识别方法 | |
CN115828874A (zh) | 基于图像识别技术的行业表格数字化处理方法 | |
CN112651331A (zh) | 文本表格提取方法、系统、计算机设备及存储介质 | |
CN109726369A (zh) | 一种基于标准文献的智能模板化题录技术实现方法 | |
CN110688825A (zh) | 一种版式文档中的含线表格信息提取方法 | |
JP4787955B2 (ja) | 対象文書からキーワードを抽出する方法、システムおよびプログラム | |
JP2013254321A (ja) | 画像処理装置、画像処理方法及びプログラム | |
CN112417826A (zh) | Pdf在线编辑方法、装置、电子设备和可读存储介质 | |
CN115713775B (zh) | 一种从文档中提取表格的方法、系统和计算机设备 | |
CN116311300A (zh) | 表格生成方法、装置、电子设备以及存储介质 | |
CN110688842A (zh) | 一种文档标题层级的分析方法、装置及服务器 | |
EP3470993A1 (en) | A method and system for click thru capability of electronic media | |
CN109656652A (zh) | 网页图表绘制方法、装置、计算机设备和存储介质 | |
CN113065316A (zh) | 将方正小样文件动态转换成html并录入题库、从题库选题组稿并生成小样文件的方法 | |
Xiang et al. | Recovering semantic relations from web pages based on visual cues |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |