CN110795919A - 一种pdf文档中的表格抽取方法、装置、设备及介质 - Google Patents

一种pdf文档中的表格抽取方法、装置、设备及介质 Download PDF

Info

Publication number
CN110795919A
CN110795919A CN201911082095.5A CN201911082095A CN110795919A CN 110795919 A CN110795919 A CN 110795919A CN 201911082095 A CN201911082095 A CN 201911082095A CN 110795919 A CN110795919 A CN 110795919A
Authority
CN
China
Prior art keywords
target
target field
information
pdf document
cells
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911082095.5A
Other languages
English (en)
Other versions
CN110795919B (zh
Inventor
陈宇
陈运文
王江
朱耀邦
钱亦欣
纪达麒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Daerguan Information Technology (shanghai) Co Ltd
Original Assignee
Daerguan Information Technology (shanghai) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Daerguan Information Technology (shanghai) Co Ltd filed Critical Daerguan Information Technology (shanghai) Co Ltd
Priority to CN201911082095.5A priority Critical patent/CN110795919B/zh
Publication of CN110795919A publication Critical patent/CN110795919A/zh
Application granted granted Critical
Publication of CN110795919B publication Critical patent/CN110795919B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明实施例公开了一种PDF表格识别和抽取方法、装置、设备及介质。其中,PDF表格识别和抽取方法包括:在包括有至少一个表格的PDF文档中,提取与至少一个表格的内容对应的结构化数据;将至少一个表格的结构化数据分别与待抽取表格内容对应的标注数据集进行匹配,确定与标注数据集匹配的目标表格;在目标表格中,识别出与标注数据集匹配的目标字段单元格集合;将目标表格中的所述目标字段单元格集合中的内容,写入至可编辑文档中。本发明实施例的技术方案通过将PDF文档中的表格对应的结构化数据与标注数据集进行匹配,实现了从表格中抽取特定单元格的技术效果,无需根据具体业务编写特定业务逻辑,提高了PDF文档中的表格抽取的通用性。

Description

一种PDF文档中的表格抽取方法、装置、设备及介质
技术领域
本发明实施例涉及数字图像处理技术,尤其涉及一种PDF文档中的表格抽取方法、装置、设备及介质。
背景技术
PDF(Portable Document Format,便携式文档格式)文件格式可以将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中,其具有跨平台、高集成度和高安全性等优点,因而越来越多的电子图书、产品说明、公司文告以及网络资料开始使用PDF格式文件。
随着PDF格式文档的广泛应用,越来越多的文档需要转化为PDF格式进行传输以及阅读,例如,债券募集书、招股说明书等,而且在很多情况下,我们需要从这些文档中包含的表格内提取重要数据信息进行统计和分析等,显然,从PDF格式文档中不能方便的将数据信息转化成可读写的信息。
并且,现有技术中,还没有特定的工具能够进行表格中单元格的抽取,当我们需要对PDF文档中表格的部分单元格进行抽取时,通常都需要根据具体业务场景去编写一些特定的业务逻辑,不具有通用性。
发明内容
本发明实施例提供一种PDF文档中的表格抽取方法、装置、设备及介质,以从PDF文档包含的表格中抽取需要的数据信息。
第一方面,本发明实施例提供了一种PDF文档中的表格抽取方法,所述方法包括:
在包括有至少一个表格的PDF文档中,提取与所述至少一个表格的内容对应的结构化数据;
将所述至少一个表格的结构化数据分别与待抽取表格内容对应的标注数据集进行匹配,确定与所述标注数据集匹配的目标表格;
在所述目标表格中,识别出与所述标注数据集匹配的目标字段单元格集合;
将所述目标表格中的所述目标字段单元格集合中的内容,写入至可编辑文档中。
第二方面,本发明实施例还提供了一种PDF文档中的表格抽取装置,所述装置包括:
结构化数据提取模块,用于在包括有至少一个表格的PDF文档中,提取与所述至少一个表格的内容对应的结构化数据;
目标表格确定模块,用于将所述至少一个表格的结构化数据分别与待抽取表格内容对应的标注数据集进行匹配,确定与所述标注数据集匹配的目标表格;
目标字段单元格获取模块,用于在所述目标表格中,识别出与所述标注数据集匹配的目标字段单元格集合;
文档写入模块,用于将所述目标表格中的所述目标字段单元格集合中的内容,写入至可编辑文档中。
第三方面,本发明实施例还提供了一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例提供的PDF文档中的表格抽取方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例提供的PDF文档中的表格抽取方法。
本发明实施例的技术方案,通过将PDF文档中的表格对应的结构化数据与标注数据集进行匹配,确定与标注数据集匹配的目标表格,再从目标表格中,识别出与标注数据集匹配的目标字段单元格集合,最终将目标字段单元格集合中的内容,写入至可编辑文档中,实现了从PDF文档包含的表格中抽取特定单元格并将其写入可编辑文档的技术效果,无需根据具体业务编写特定业务逻辑,提高了PDF文档中的表格抽取的通用性。
附图说明
图1是本发明实施例一中的一种PDF文档中的表格抽取方法的流程图;
图2是本发明实施例二中的一种PDF文档中的表格抽取方法的流程图;
图3是本发明实施例三中的一种PDF文档中的表格抽取方法的流程图;
图4是本发明实施例四中的一种PDF文档中的表格抽取装置的结构示意图;
图5是本发明实施例五提供的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一中的一种PDF文档中的表格抽取方法的流程图,本实施例的技术方案适用于从PDF文档包含的表格中抽取特定单元格的情况,该方法可以由PDF文档中的表格抽取装置执行,该装置可以由软件和/或硬件来实现,并可以集成在各种通用计算机设备中,具体包括如下步骤:
步骤110、在包括有至少一个表格的PDF文档中,提取与所述至少一个表格的内容对应的结构化数据。
其中,结构化数据是与表格对应的二维数组形式。例如,解析得到PDF文档中的表1如下:
表1兴趣爱好统计表
姓名 年龄 爱好
老王 23 古典绘画流派
老朱 27 地理历史
则其对应的结构化数据为如下形式:
[[[姓名][年龄][爱好]]
[[老王][23][古典绘画流派]]
[[老朱][27][历史地理]]]
当然,也可以在结构化数据开头增加表格的标题,如“兴趣爱好统计表”,以使结构化数据更加清晰准确的表达当前表格中包含的主要信息。
本实施例中,对PDF文档中包含的全部表格进行解析后,得到与每个表格对应的结构化数据,每组结构化数据中包含了与其对应的表格的具体信息,用于后续特定单元格的提取。
步骤120、将所述至少一个表格的结构化数据分别与待抽取表格内容对应的标注数据集进行匹配,确定与所述标注数据集匹配的目标表格。
其中,标注数据集是预先在程序中标注的与待抽取表格内容对应的数据集合,用于与待抽取表格对应的结构化数据进行匹配,确定目标表格,同时也可以用于确定目标表格中待抽取的单元格。
本实施例中,将从PDF文档中解析到的至少一个表格对应的结构化数据依次与待抽取表格内容对应的标注数据集进行匹配,将匹配度较高的结构化数据对应的表格确定为目标表格。示例性的,可以比较结构化数据与标注数据集中匹配词语的个数,当匹配词语个数在标注数据集中的占比超过设定阈值,则确定当前结构化数据对应的表格为目标表格,也可以通过计算结构化数据与标注数据集的相似度,当相似度大于设定阈值时,确认当前结构化数据对应的表格为目标表格。
在一个具体的例子中,标注数据集为[[兴趣爱好表][姓名][爱好]],则通过将该标注数据集与上述表1对应的结构化数据进行比对,计算结构化数据与标注数据集的相似度,当相似度大于45%时,则确定表1为目标表格。
可以理解的是,在将PDF文档中表格的结构化数据分别与待抽取表格内容对应的标注数据集进行匹配时,可以为表格各部分设置不同的权值,例如,表头的权值大于其他单元格的权值,以提高匹配准确性。在上述具体例子中,可以将表格标题“兴趣爱好统计表”以及表头“姓名”、“年龄”和“爱好”的权值设置为最高,表格其他单元格的权值低于表格标题和表头的权值。
步骤130、在所述目标表格中,识别出与所述标注数据集匹配的目标字段单元格集合。
其中,目标字段单元格集合是由目标表格中与标注数据集匹配的目标字段单元格构成的集合。
本实施例中,在确定与标注数据集匹配度较高的目标表格后,需要进一步从目标表格中提取与标注数据集匹配的目标字段单元格,因此,采用特定方式识别目标表格中与标注数据集匹配的目标字段单元格。
示例性的,特定方式可以是直接比较目标表格中的单元格与标注数据集中的目标字段是否相同来确定目标表格中的目标字段单元格,也可以是计算目标表格中包含的全部单元格与标注数据集包含的目标字段的相似度,以确定目标字段单元格,例如,确定表1是目标表格,当表格1行3列单元格中的“爱好”与标注数据集中的某一目标字段相似度大于设定阈值(例如,相似度大于75%),则确定该单元格属于目标字段单元格,并最终将全部目标字段单元格组成目标字段单元格集合。
步骤140、将所述目标表格中的所述目标字段单元格集合中的内容,写入至可编辑文档中。
在从目标表格中抽取出目标字段单元格集合的基础上,如果想进一步对表格中的数据进行统计和分析,则需要将其录入到特定类型的可编辑文档中进行处理。本实施例中,采用自动化工具将识别出的目标字段单元格集合中的内容,写入至可编辑文档中。示例性的,可编辑文档可以是报表或者Excel等文档格式。
本发明实施例的技术方案,通过将PDF文档中的表格对应的结构化数据与标注数据集进行匹配,确定与标注数据集匹配的目标表格,再从目标表格中,识别出与标注数据集匹配的目标字段单元格集合,最终将目标字段单元格集合中的内容,写入至可编辑文档中,实现了从PDF文档包含的表格中抽取特定单元格并将其写入可编辑文档的技术效果,无需根据具体业务编写特定业务逻辑,提高了PDF文档中的表格抽取的通用性。
实施例二
图2为本发明实施例二提供的一种PDF文档中的表格抽取方法的流程图,本实施例在上述实施例的基础上进一步细化,提供了在目标表格中,识别出与标注数据集匹配的目标字段单元格集合的具体步骤。下面结合图2对本发明实施例二提供的一种PDF文档中的表格抽取方法进行说明,包括以下步骤:
步骤210、在包括有至少一个表格的PDF文档中,提取与所述至少一个表格的内容对应的结构化数据。
步骤220、将所述至少一个表格的结构化数据分别与待抽取表格内容对应的标注数据集进行匹配,确定与所述标注数据集匹配的目标表格。
步骤230、根据所述目标表格中包含的单元格与所述标注数据集中包含的目标字段的相似度,得到与所述目标字段相对应的所述目标字段单元格集合。
本实施例中,提供了一种具体的识别出与标注数据集匹配的目标字段单元格集合的方式,通过计算目标表格中的单元格与标注数据集中包含的目标字段的相似度来确定当前计算单元格是否属于目标字段单元格,并由全部目标字段单元格构成目标字段单元格集合。
可选的,所述根据所述目标表格中包含的单元格与所述标注数据集中包含的目标字段的相似度,得到与所述目标字段相对应的所述目标字段单元格集合,包括:
依次计算所述目标表格中包含的全部单元格与所述目标字段的相似度;
若当前单元格与所述目标字段的相似度大于预设相似度阈值时,将当前单元格加入至所述目标字段单元格集合。
本可选的实施例中,提供了根据目标表格中包含的单元格与标注数据集中包含的目标字段的相似度,得到目标字段单元格集合的具体方式:依次计算目标表格中包含的全部单元格与标注数据集中每个目标字段的相似度,当某一单元格与目标字段相似度大于预设阈值(例如,相似度大于75%),则确定该单元格属于目标字段单元格,并将其加入至目标字段单元格集合。
其中,相似度计算可以采用将N-gram语言模型(具体的,2-gram或者3-gram)生成的与各单元格中的内容对应的词向量与标注数据集中的目标字段进行匹配的方式。
步骤240、根据预先训练的分类模型对所述目标表格中包含的单元格进行分类处理,得到与所述目标字段相对应的所述目标字段单元格集合。
本实施例中,提供了另一种具体的识别出与标注数据集匹配的目标字段单元格集合的方式,采用预先训练的分类模型将目标表格中的全部单元格进行分类,以得到目标字段单元格集合。其中,分类模型是将大量训练样本输入至原始分类模型中进行训练得到的可用于根据单元格内容对表格中的单元格进行分类的模型。
可选的,所述根据预先训练的分类模型对所述目标表格中包含的单元格进行分类处理,得到与所述目标字段相对应的所述目标字段单元格集合,包括:
通过支持向量机SVM分类器,依次判断所述目标表格中包含的全部单元格是否与所述目标字段匹配,并根据判断结果,将所述目标表格中包含的单元格分为匹配单元格和不匹配单元格;
将所述匹配单元格加入至所述目标字段单元格集合。
本可选的实施例中,提供了根据预先训练的分类模型对目标表格中的单元格进行分类处理,得到目标字段单元格集合的具体方式:采用SVM分类器,依次判断目标表格中包含的全部单元格是否与目标字段匹配,具体可对每个单元格生成的特征向量,并进行二分类,例如,若与目标字段匹配则将该单元格标识为1,反之,标识为0,即通过SVM分类器将目标表格中的单元格按照是否与目标字段匹配分为两类,并最终将标识为1的单元格加入至目标字段单元格集合。
步骤250、根据预先获取的脚本规则,从所述目标表格中包含的全部单元格中提取与所述目标字段匹配的至少一个单元格,得到与所述目标字段相对应的所述目标字段单元格集合。
其中,脚本规则是预先根据具体业务逻辑编写的一些符合具体情况的逻辑规则,可用作对上述两个步骤中目标字段单元格抽取方法的一个补充工具。
步骤240和步骤250是采用通用方法进行目标字段单元格抽取的,本实施例中,也可根据与具体业务逻辑相关的脚本规则,从目标表格中包含的全部单元格中进一步提取与目标字段匹配的单元格,并将抽取出的单元格进一步加入至目标字段单元格集合中。可以理解的是,步骤230~步骤250是根据情况执行其中至少一项的,可以将至少一种方法识别出的目标字段单元格取并集获取最终目标字段单元格集合,图2中所示不对其执行的先后顺序构成限定。
步骤260、将所述目标表格中的所述目标字段单元格集合中的内容,写入至可编辑文档中。
本实施例的技术方案,通过计算目标表格中单元格与标注数据集中的目标字段的相似度、根据预先训练的分类模型对目标表格中包含的单元格进行分类处理以及根据预先获取的脚本规则从目标表格中包含的全部单元格中提取与目标字段匹配的至少一个单元格中的至少一种方式获取目标表格中与标注数据集匹配的目标字段单元格集合,实现了无需根据具体业务编写特定业务逻辑,就可以从PDF文档包含的表格中抽取特定单元格并将其写入可编辑文档的技术效果,提高了PDF文档中的表格抽取的通用性,同时,三种目标字段单元格集合的获取方式配合使用提高了表格中单元格抽取的准确性。
实施例三
图3为本发明实施例三中的一种PDF文档中的表格抽取方法的流程图,本实施例在上述实施例的基础上进一步细化,提供了在包括有至少一个表格的PDF文档中,提取与所述至少一个表格的内容对应的结构化数据之前的具体步骤以及将所述目标表格中的所述目标字段单元格集合中的内容,写入至可编辑文档中的具体步骤。下面结合图3对本发明实施例三提供的一种PDF文档中的表格抽取方法进行说明,包括以下步骤:
步骤310、采用PDF文档解析工具,对所述PDF文档中包含的内容进行解析,生成PDF区块信息;
其中,所述PDF区块信息包括:文本信息和/或线条信息;所述文本信息或者所述线条信息中包括位置信息。
本实施例中,为了识别PDF文档中包含的表格,首先采用PDF文档解析工具,以文本块为单位,对PDF文档进行拆分,生成包含文本信息和/或线条信息的多个PDF区块信息。其中,每一个PDF区块信息都携带有位置信息,可用于对文本或者线条的定位。示例性的,文档解析工具可以采用Node.js,对PDF文档进行拆分时的最小单位文本块是可以根据实际情况进行调节的,例如,可以选择长10厘米,宽1.5厘米的文本块。
步骤320、将文本信息解析为由单字信息构成的序列,所述单字信息中包括位置信息。
本实施例中,在将PDF文档拆分为PDF区块信息后,将PDF区块信息包含的文字信息进行解析,生成单字构成的序列,序列中每个单字都携带位置信息,用于对PDF文档结构的准确识别。
步骤330、根据所述单字信息和/或所述线条信息,确定表格区域位置信息。
本实施例中,可以根据PDF区块信息中包含的线条信息对线条进行拼接,从而确定是否存在表格,以及表格的位置,另外,在一些PDF中经常包含一些无线框的表格,此时,无法通过线条的组合来判断是否存在表格,但无线框表格中的具体内容是按照有规律的特定方式排列的,因此,可以根据单字信息中包含的位置信息来判断PDF文档中是否存在无线框表格以及表格的区域位置信息。
可选的,根据所述单字信息和/或所述线条信息,确定表格区域位置信息,包括:
如果根据所述线条信息确定所述PDF文档中存在有线框表格,则通过膨胀腐蚀算法,对所述线条信息进行合并处理,得到所述有线框表格,并获取与所述有线框表格对应的表格区域位置信息;
如果根据所述单字信息解析得到的对齐信息确定存在无线框表格,则根据所述对齐信息,得到所述无线框表格,并获取与所述无线框表格对应的表格区域位置信息。
本实施例中,提供了一种根据单字信息和/或线条信息,确定表格区域位置信息的方式,具体的,当根据线条信息确定PDF文档中存在有线框表格时,可以采用一些计算机视觉算法(例如,膨胀腐蚀算法)对线条进行拼接,得到有线框表格,并且根据线条信息中携带的位置信息确定该有线框表格对应的表格区域位置信息;当根据单字信息解析得到的对齐信息确定存在无线框表格时,可以根据对齐信息得到所述无线框表格,并且根据单字信息中携带的位置信息确定该无线框表格对应的表格区域位置信息。
步骤340、根据所述表格区域位置信息,获取落入表格区域内的单字信息,还原得到所述PDF文档中的至少一个表格。
本实施例中,在确定当前存在表格,且确定表格区域位置信息的基础上,根据表格区域位置信息与单字位置信息的对照,确定当前表格区域内每个单元格的具体内容,还原得到PDF文档中的至少一个表格。
步骤350、在包括有至少一个表格的PDF文档中,提取与所述至少一个表格的内容对应的结构化数据。
步骤360、将所述至少一个表格的结构化数据分别与待抽取表格内容对应的标注数据集进行匹配,确定与所述标注数据集匹配的目标表格;
步骤370、在所述目标表格中,识别出与所述标注数据集匹配的目标字段单元格集合。
步骤380、通过软件流程自动化RPA技术,将所述目标字段单元格集合中包含的全部目标字段单元格录入到所述可编辑文档中。
其中,软件流程自动化(Robotic Process Automation,RPA),是指用软件自动化方式实现在各个行业中本来是人工操作计算机完成的业务。
本实施例中,可以采用RPA工具来实现将从目标表格中抽取出来的全部目标字段单元格录入到所述可编辑文档中,以实现对表格数据的后续统计、分析和使用。
本实施例的技术方案,采用PDF文档解析工具,对PDF文档中包含的内容进行解析,生成PDF区块信息,并根据PDF区块信息中包含的文本信息和线条信息还原PDF文档中的表格,然后在PDF文档包含的表格中确定与标注数据集匹配的目标表格,并在目标表格中,识别出与标注数据集匹配的目标字段单元格集合,最终采用RPA技术,将目标字段单元格集合中包含的全部目标字段单元格录入到可编辑文档中,一方面,通过PDF区块信息还原表格,提高了PDF文档中表格识别的准确性,另一方面,与RPA技术配合使用实现了自动将抽取出的表格信息填入可编辑文档,节省人力资源。
实施例四
图4为本发明实施例四中的一种PDF文档中的表格抽取装置的结构示意图,该PDF文档中的表格抽取装置,包括:结构化数据提取模块410、目标表格确定模块420、目标字段单元格获取模块430和文档写入模块440。
结构化数据提取模块410,用于在包括有至少一个表格的PDF文档中,提取与所述至少一个表格的内容对应的结构化数据;
目标表格确定模块420,用于将所述至少一个表格的结构化数据分别与待抽取表格内容对应的标注数据集进行匹配,确定与所述标注数据集匹配的目标表格;
目标字段单元格获取模块430,用于在所述目标表格中,识别出与所述标注数据集匹配的目标字段单元格集合;
文档写入模块440,用于将所述目标表格中的所述目标字段单元格集合中的内容,写入至可编辑文档中。
本发明实施例的技术方案,通过将PDF文档中的表格对应的结构化数据与标注数据集进行匹配,确定与标注数据集匹配的目标表格,再从目标表格中,识别出与标注数据集匹配的目标字段单元格集合,最终将目标字段单元格集合中的内容,写入至可编辑文档中,实现了从PDF文档包含的表格中抽取特定单元格并将其写入可编辑文档的技术效果,无需根据具体业务编写特定业务逻辑,提高了PDF文档中的表格抽取的通用性。
可选的,所述PDF文档中的表格抽取装置,还包括:
区块信息生成模块,用于在包括有至少一个表格的PDF文档中,提取与所述至少一个表格的内容对应的结构化数据之前,采用PDF文档解析工具,对所述PDF文档中包含的内容进行解析,生成PDF区块信息;
其中,所述PDF区块信息包括:文本信息和/或线条信息;所述文本信息或者所述线条信息中包括位置信息;
单字信息解析模块,用于将文本信息解析为由单字信息构成的序列,所述单字信息中包括位置信息;
位置信息确定模块,用于根据所述单字信息和/或所述线条信息,确定表格区域位置信息;
表格还原模块,用于根据所述表格区域位置信息,获取落入表格区域内的单字信息,还原得到所述PDF文档中的至少一个表格。
可选的,所述位置信息确定模块,包括:
有线框表格位置获取单元,用于如果根据所述线条信息确定所述PDF文档中存在有线框表格,则通过膨胀腐蚀算法,对所述线条信息进行合并处理,得到所述有线框表格,并获取与所述有线框表格对应的表格区域位置信息;
无线框表格位置获取单元,用于如果根据所述单字信息解析得到的对齐信息确定存在无线框表格,则根据所述对齐信息,得到所述无线框表格,并获取与所述无线框表格对应的表格区域位置信息。
可选的,所述目标字段单元格获取模块430,包括:
相似度计算单元,用于根据所述目标表格中包含的单元格与所述标注数据集中包含的目标字段的相似度,得到与所述目标字段相对应的所述目标字段单元格集合;
单元格分类单元,用于根据预先训练的分类模型对所述目标表格中包含的单元格进行分类处理,得到与所述目标字段相对应的所述目标字段单元格集合;
单元格提取单元,用于根据预先获取的脚本规则,从所述目标表格中包含的全部单元格中提取与所述目标字段匹配的至少一个单元格,得到与所述目标字段相对应的所述目标字段单元格集合。
可选的,所述文档写入模块440,具体用于:
通过软件流程自动化RPA技术,将所述目标字段单元格集合中包含的全部目标字段单元格录入到所述可编辑文档中。
可选的,所述相似度计算单元,具体用于:
依次计算所述目标表格中包含的全部单元格与所述目标字段的相似度;
若当前单元格与所述目标字段的相似度大于预设相似度阈值时,将当前单元格加入至所述目标字段单元格集合。
可选的,所述单元格分类单元,具体用于:
通过支持向量机SVM分类器,依次判断所述目标表格中包含的全部单元格是否与所述目标字段匹配,并根据判断结果,将所述目标表格中包含的单元格分为匹配单元格和不匹配单元格;
将所述匹配单元格加入至所述目标字段单元格集合。
本发明实施例所提供的PDF文档中的表格抽取装置可执行本发明任意实施例所提供的PDF文档中的表格抽取方法,具备执行方法相应的功能模块和有益效果。
实施例五
图5为本发明实施例五提供的一种电子设备的结构示意图,如图5所示,该电子设备包括处理器50和存储器51;设备中处理器50的数量可以是一个或多个,图5中以一个处理器50为例;设备中的处理器50和存储器51可以通过总线或其他方式连接,图5中以通过总线连接为例。
存储器51作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的一种倒PDF文档中的表格抽取方法对应的程序指令/模块(例如,PDF文档中的表格抽取装置中的结构化数据提取模块410、目标表格确定模块420、目标字段单元格获取模块430和文档写入模块440)。处理器50通过运行存储在存储器51中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的PDF文档中的表格抽取方法。
该方法包括:
在包括有至少一个表格的PDF文档中,提取与所述至少一个表格的内容对应的结构化数据;
将所述至少一个表格的结构化数据分别与待抽取表格内容对应的标注数据集进行匹配,确定与所述标注数据集匹配的目标表格;
在所述目标表格中,识别出与所述标注数据集匹配的目标字段单元格集合;
将所述目标表格中的所述目标字段单元格集合中的内容,写入至可编辑文档中。
存储器51可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器51可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器51可进一步包括相对于处理器50远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实施例六
本发明实施例六还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种PDF文档中的表格抽取方法,该方法包括:
在包括有至少一个表格的PDF文档中,提取与所述至少一个表格的内容对应的结构化数据;
将所述至少一个表格的结构化数据分别与待抽取表格内容对应的标注数据集进行匹配,确定与所述标注数据集匹配的目标表格;
在所述目标表格中,识别出与所述标注数据集匹配的目标字段单元格集合;
将所述目标表格中的所述目标字段单元格集合中的内容,写入至可编辑文档中。
当然,本发明实施例所提供的包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的PDF文档中的表格抽取方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述一种PDF文档中的表格抽取装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种PDF文档中的表格抽取方法,其特征在于,包括:
在包括有至少一个表格的PDF文档中,提取与所述至少一个表格的内容对应的结构化数据;
将所述至少一个表格的结构化数据分别与待抽取表格内容对应的标注数据集进行匹配,确定与所述标注数据集匹配的目标表格;
在所述目标表格中,识别出与所述标注数据集匹配的目标字段单元格集合;
将所述目标表格中的所述目标字段单元格集合中的内容,写入至可编辑文档中。
2.根据权利要求1所述的方法,其特征在于,在包括有至少一个表格的PDF文档中,提取与所述至少一个表格的内容对应的结构化数据之前,包括:
采用PDF文档解析工具,对所述PDF文档中包含的内容进行解析,生成PDF区块信息;
其中,所述PDF区块信息包括:文本信息和/或线条信息;所述文本信息或者所述线条信息中包括位置信息;
将文本信息解析为由单字信息构成的序列,所述单字信息中包括位置信息;
根据所述单字信息和/或所述线条信息,确定表格区域位置信息;
根据所述表格区域位置信息,获取落入表格区域内的单字信息,还原得到所述PDF文档中的至少一个表格。
3.根据权利要求2所述的方法,其特征在于,根据所述单字信息和/或所述线条信息,确定表格区域位置信息,包括:
如果根据所述线条信息确定所述PDF文档中存在有线框表格,则通过膨胀腐蚀算法,对所述线条信息进行合并处理,得到所述有线框表格,并获取与所述有线框表格对应的表格区域位置信息;
如果根据所述单字信息解析得到的对齐信息确定存在无线框表格,则根据所述对齐信息,得到所述无线框表格,并获取与所述无线框表格对应的表格区域位置信息。
4.根据权利要求1所述的方法,其特征在于,在所述目标表格中,识别出与所述标注数据集匹配的目标字段单元格集合,包括下述至少一项:
根据所述目标表格中包含的单元格与所述标注数据集中包含的目标字段的相似度,得到与所述目标字段相对应的所述目标字段单元格集合;
根据预先训练的分类模型对所述目标表格中包含的单元格进行分类处理,得到与所述目标字段相对应的所述目标字段单元格集合;
根据预先获取的脚本规则,从所述目标表格中包含的全部单元格中提取与所述目标字段匹配的至少一个单元格,得到与所述目标字段相对应的所述目标字段单元格集合。
5.根据权利要求1所述的方法,其特征在于,将所述目标表格中的所述目标字段单元格集合中的内容,写入至可编辑文档中,包括:
通过软件流程自动化RPA技术,将所述目标字段单元格集合中包含的全部目标字段单元格录入到所述可编辑文档中。
6.根据权利要求4所述的方法,其特征在于,所述根据所述目标表格中包含的单元格与所述标注数据集中包含的目标字段的相似度,得到与所述目标字段相对应的所述目标字段单元格集合,包括:
依次计算所述目标表格中包含的全部单元格与所述目标字段的相似度;
若当前单元格与所述目标字段的相似度大于预设相似度阈值时,将当前单元格加入至所述目标字段单元格集合。
7.根据权利要求4所述的方法,其特征在于,所述根据预先训练的分类模型对所述目标表格中包含的单元格进行分类处理,得到与所述目标字段相对应的所述目标字段单元格集合,包括:
通过支持向量机SVM分类器,依次判断所述目标表格中包含的全部单元格是否与所述目标字段匹配,并根据判断结果,将所述目标表格中包含的单元格分为匹配单元格和不匹配单元格;
将所述匹配单元格加入至所述目标字段单元格集合。
8.一种PDF表格识别和抽取装置,其特征在于,包括:
结构化数据提取模块,用于在包括有至少一个表格的PDF文档中,提取与所述至少一个表格的内容对应的结构化数据;
目标表格确定模块,用于将所述至少一个表格的结构化数据分别与待抽取表格内容对应的标注数据集进行匹配,确定与所述标注数据集匹配的目标表格;
目标字段单元格获取模块,用于在所述目标表格中,识别出与所述标注数据集匹配的目标字段单元格集合;
文档写入模块,用于将所述目标表格中的所述目标字段单元格集合中的内容,写入至可编辑文档中。
9.一种电子设备,其特征在于,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的PDF文档中的表格抽取方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的PDF文档中的表格抽取方法。
CN201911082095.5A 2019-11-07 2019-11-07 一种pdf文档中的表格抽取方法、装置、设备及介质 Active CN110795919B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911082095.5A CN110795919B (zh) 2019-11-07 2019-11-07 一种pdf文档中的表格抽取方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911082095.5A CN110795919B (zh) 2019-11-07 2019-11-07 一种pdf文档中的表格抽取方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN110795919A true CN110795919A (zh) 2020-02-14
CN110795919B CN110795919B (zh) 2023-10-31

Family

ID=69443221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911082095.5A Active CN110795919B (zh) 2019-11-07 2019-11-07 一种pdf文档中的表格抽取方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN110795919B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507230A (zh) * 2020-04-11 2020-08-07 创景未来(北京)科技有限公司 一种文档和表格数据的识别和提取方法及系统
CN111695330A (zh) * 2020-06-30 2020-09-22 望海康信(北京)科技股份公司 生成表格的方法、装置、电子设备及计算机可读存储介质
CN111897884A (zh) * 2020-07-20 2020-11-06 北京用友薪福社云科技有限公司 数据关系信息显示方法、终端设备
CN111913993A (zh) * 2020-08-12 2020-11-10 望海康信(北京)科技股份公司 表格数据生成方法、装置、电子设备及计算机可读存储介质
CN112232198A (zh) * 2020-10-15 2021-01-15 北京来也网络科技有限公司 基于rpa及ai的表格内容提取方法、装置、设备及介质
CN112528832A (zh) * 2020-12-07 2021-03-19 国网青海省电力公司电力科学研究院 对pdf格式的继电保护定值单进行处理的方法和系统
CN112560417A (zh) * 2020-12-24 2021-03-26 万兴科技集团股份有限公司 一种表格编辑方法、装置、计算机设备及存储介质
CN112597927A (zh) * 2020-12-28 2021-04-02 电子科技大学 二维表格识别方法、装置、设备及系统
CN113221743A (zh) * 2021-05-12 2021-08-06 北京百度网讯科技有限公司 表格解析方法、装置、电子设备和存储介质
CN113627892A (zh) * 2021-08-16 2021-11-09 深圳市云采网络科技有限公司 一种bom数据的识别方法及其电子设备
US20220108108A1 (en) * 2020-10-05 2022-04-07 Automation Anywhere, Inc. Method and system for extraction of data from documents for robotic process automation
CN115017872A (zh) * 2022-08-10 2022-09-06 北京文因互联科技有限公司 智能标注pdf文件中表格的方法、装置及电子设备
CN117272970A (zh) * 2023-11-22 2023-12-22 太平金融科技服务(上海)有限公司深圳分公司 一种文档生成方法、装置、设备以及存储介质
CN117496545A (zh) * 2024-01-02 2024-02-02 物产中大数字科技有限公司 一种面向pdf文档的表格数据融合处理方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140369602A1 (en) * 2013-06-14 2014-12-18 Lexmark International Technology S.A. Methods for Automatic Structured Extraction of Data in OCR Documents Having Tabular Data
US20190294663A1 (en) * 2018-03-26 2019-09-26 Abc Fintech Co., Ltd. Method and device for positioning table in pdf document
CN110390269A (zh) * 2019-06-26 2019-10-29 平安科技(深圳)有限公司 Pdf文档表格提取方法、装置、设备及计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140369602A1 (en) * 2013-06-14 2014-12-18 Lexmark International Technology S.A. Methods for Automatic Structured Extraction of Data in OCR Documents Having Tabular Data
US20190294663A1 (en) * 2018-03-26 2019-09-26 Abc Fintech Co., Ltd. Method and device for positioning table in pdf document
CN110390269A (zh) * 2019-06-26 2019-10-29 平安科技(深圳)有限公司 Pdf文档表格提取方法、装置、设备及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张元鸣;陈苗;陆佳炜;徐俊;肖刚;: "非结构化表格文档数据抽取与组织模型研究" *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507230A (zh) * 2020-04-11 2020-08-07 创景未来(北京)科技有限公司 一种文档和表格数据的识别和提取方法及系统
CN111695330A (zh) * 2020-06-30 2020-09-22 望海康信(北京)科技股份公司 生成表格的方法、装置、电子设备及计算机可读存储介质
CN111695330B (zh) * 2020-06-30 2023-10-27 望海康信(北京)科技股份公司 生成表格的方法、装置、电子设备及计算机可读存储介质
CN111897884A (zh) * 2020-07-20 2020-11-06 北京用友薪福社云科技有限公司 数据关系信息显示方法、终端设备
CN111897884B (zh) * 2020-07-20 2024-02-23 北京用友薪畴数字科技有限公司 数据关系信息显示方法、终端设备
CN111913993A (zh) * 2020-08-12 2020-11-10 望海康信(北京)科技股份公司 表格数据生成方法、装置、电子设备及计算机可读存储介质
CN111913993B (zh) * 2020-08-12 2024-02-23 望海康信(北京)科技股份公司 表格数据生成方法、装置、电子设备及计算机可读存储介质
US20220108108A1 (en) * 2020-10-05 2022-04-07 Automation Anywhere, Inc. Method and system for extraction of data from documents for robotic process automation
CN112232198A (zh) * 2020-10-15 2021-01-15 北京来也网络科技有限公司 基于rpa及ai的表格内容提取方法、装置、设备及介质
CN112528832A (zh) * 2020-12-07 2021-03-19 国网青海省电力公司电力科学研究院 对pdf格式的继电保护定值单进行处理的方法和系统
CN112560417A (zh) * 2020-12-24 2021-03-26 万兴科技集团股份有限公司 一种表格编辑方法、装置、计算机设备及存储介质
CN112597927A (zh) * 2020-12-28 2021-04-02 电子科技大学 二维表格识别方法、装置、设备及系统
CN113221743A (zh) * 2021-05-12 2021-08-06 北京百度网讯科技有限公司 表格解析方法、装置、电子设备和存储介质
CN113221743B (zh) * 2021-05-12 2024-01-12 北京百度网讯科技有限公司 表格解析方法、装置、电子设备和存储介质
CN113627892A (zh) * 2021-08-16 2021-11-09 深圳市云采网络科技有限公司 一种bom数据的识别方法及其电子设备
CN113627892B (zh) * 2021-08-16 2023-09-01 深圳市云采网络科技有限公司 一种bom数据的识别方法及其电子设备
CN115017872A (zh) * 2022-08-10 2022-09-06 北京文因互联科技有限公司 智能标注pdf文件中表格的方法、装置及电子设备
CN117272970A (zh) * 2023-11-22 2023-12-22 太平金融科技服务(上海)有限公司深圳分公司 一种文档生成方法、装置、设备以及存储介质
CN117272970B (zh) * 2023-11-22 2024-03-01 太平金融科技服务(上海)有限公司深圳分公司 一种文档生成方法、装置、设备以及存储介质
CN117496545A (zh) * 2024-01-02 2024-02-02 物产中大数字科技有限公司 一种面向pdf文档的表格数据融合处理方法及装置
CN117496545B (zh) * 2024-01-02 2024-03-15 物产中大数字科技有限公司 一种面向pdf文档的表格数据融合处理方法及装置

Also Published As

Publication number Publication date
CN110795919B (zh) 2023-10-31

Similar Documents

Publication Publication Date Title
CN110795919B (zh) 一种pdf文档中的表格抽取方法、装置、设备及介质
CN108932294B (zh) 基于索引的简历数据处理方法、装置、设备及存储介质
CN111222305B (zh) 一种信息结构化方法和装置
CN107657048B (zh) 用户识别方法及装置
US8620079B1 (en) System and method for extracting information from documents
CN110427488B (zh) 文档的处理方法及装置
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN110909123B (zh) 一种数据提取方法、装置、终端设备及存储介质
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN112527994A (zh) 情绪分析方法、装置、设备及可读存储介质
CN112632278A (zh) 一种基于多标签分类的标注方法、装置、设备及存储介质
CN110580308A (zh) 信息审核方法及装置、电子设备、存储介质
CN110362798B (zh) 裁决信息检索分析方法、装置、计算机设备和存储介质
CN110532449B (zh) 一种业务文档的处理方法、装置、设备和存储介质
CN114357174B (zh) 基于ocr和机器学习的代码分类系统及方法
CN110222139B (zh) 道路实体数据去重方法、装置、计算设备和介质
CN112380346B (zh) 金融新闻情感分析方法、装置、计算机设备及存储介质
CN113420116A (zh) 医疗文档的分析方法、装置、设备及介质
CN116127105A (zh) 一种大数据平台的数据汇集方法及装置
CN110826318A (zh) 物流信息识别的方法、设备、计算机设备和存储介质
CN112115362B (zh) 一种基于相似代码识别的编程信息推荐方法及装置
CN110909538B (zh) 问答内容的识别方法、装置、终端设备及介质
CN114169331A (zh) 地址解析方法、装置、计算机设备和存储介质
CN113743982A (zh) 广告投放方案推荐方法、装置、计算机设备及存储介质
CN112800771A (zh) 文章识别方法、装置、计算机可读存储介质和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Room 501, 502, 503, No. 66 Boxia Road, China (Shanghai) Pilot Free Trade Zone, Pudong New Area, Shanghai, March 2012

Applicant after: Daguan Data Co.,Ltd.

Address before: Room 301, 303 and 304, block B, 112 liangxiu Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai, 201203

Applicant before: DATAGRAND INFORMATION TECHNOLOGY (SHANGHAI) Co.,Ltd.

GR01 Patent grant
GR01 Patent grant