CN112287660A - Pdf文件中的表格解析方法及装置、计算设备、存储介质 - Google Patents
Pdf文件中的表格解析方法及装置、计算设备、存储介质 Download PDFInfo
- Publication number
- CN112287660A CN112287660A CN201911227255.0A CN201911227255A CN112287660A CN 112287660 A CN112287660 A CN 112287660A CN 201911227255 A CN201911227255 A CN 201911227255A CN 112287660 A CN112287660 A CN 112287660A
- Authority
- CN
- China
- Prior art keywords
- target
- text
- content
- target keyword
- pdf file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000006243 chemical reaction Methods 0.000 claims abstract description 35
- 238000000605 extraction Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000011282 treatment Methods 0.000 description 5
- 238000001959 radiotherapy Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000003292 glue Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 231100000331 toxic Toxicity 0.000 description 1
- 230000002588 toxic effect Effects 0.000 description 1
- 238000011269 treatment regimen Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
Abstract
一种PDF文件中的表格解析方法及装置、计算设备、存储介质,所述PDF文件中的表格解析方法包括:将待识别PDF文件转换成对应的文本文件;根据所述文本文件的转换信息确定表格的位置;基于预设的目标关键词以及所述表格的位置,从所述表格中的文本内容提取与所述目标关键词对应的目标内容;至少输出所述目标内容。上述方案,能够提高从PDF文件中解析表格内容的准确度。
Description
技术领域
本发明实施例涉及计算机信息识别处理领域,尤其涉及一种PDF文件中的表格解析方法及装置、计算设备、存储介质。
背景技术
便携式文档格式(Portable Document Format,PDF)是一种目前国际通用的电子文档开放标准。表格作为PDF电子文档内容的重要组成部分,使用频率非常高,但是PDF表格只是基于视觉的,在PDF文档格式中并不存在表格格式,只是一团团文字和一些穿插其中的图像线。这种表格又叫做文字流表格,对于它的识别称为基于文字流的表格识别。
现在市场上已有一些在线PDF解析,现有的在线PDF解析系统分为全自动PDF解析系统以及半自动PDF解析系统。现有的在线PDF解析系统首先都是解析一个PDF文档,从PDF内容流中分离出文字流、图像等原始信息。根据文字流节点解析出表格所在区域。对表格的区域进行结构化。
然而,现有的表格解析时,根据文字流节点解析出表格所在区域以及对表格的区域进行结构化。易出现无法正确进行表格结构化以及结构化后的表格格式错乱等现象,从而导致PDF中表格的解析准确度较低。
发明内容
本发明实施例解决的技术问题是PDF中表格的解析准确度较低。
为解决上述技术问题,本发明实施例提供一种PDF文件中的表格解析方法,包括:将待识别PDF文件转换成对应的文本文件;根据所述文本文件的转换信息确定表格的位置;基于预设的目标关键词以及所述表格的位置,从所述表格中的文本内容提取与所述目标关键词对应的目标内容;至少输出所述目标内容。
可选的,所述转换信息包括如下至少一种:段落信息、字体、字号、行间距、文字的横纵坐标。
可选的,所述根据所述文本文件的转换信息确定表格的位置,包括:基于表格标题关键词,确定所述表格标题关键词的位置;获取所述表格标题关键词的上下文中包括换行符的文字流;基于所述包括换行符的文字流,确定所述表格的位置。
可选的,在将待识别PDF文件转换成对应的文本文件之后,还包括以下至少一种:根据所述文本文件的转换信息确定表格每行文本位置;根据所述本文文件的转换信息确定表格中横线及竖线的位置。
可选的,所述基于预设的目标关键词以及所述表格的位置,从所述表格中的文本内容提取与所述目标关键词对应的目标内容,包括:基于预设的目标关键词以及所述表格的位置,以及所述表格每行文本位置和所述表格中横线及竖线的位置中的至少一种,在所述表格中的文本内容对所述目标关键词进行定位;基于所述目标关键词的定位结果,确定所述目标关键词对应的配对位置;基于所述目标关键词的配对位置,从所述表格中的文本内容提取所述目标关键词对应的目标内容。
可选的,所述基于预设的目标关键词以及所述表格的位置,从所述表格中的文本内容提取与所述目标关键词对应的目标内容,包括:基于预设的目标关键词以及所述表格的位置,在所述表格中的文本内容对所述目标关键词进行定位;基于所述目标关键词的定位结果,确定所述目标关键词对应的配对位置;基于所述目标关键词的配对位置,从所述表格中的文本内容提取所述目标关键词对应的目标内容。
可选的,所述基于所述目标关键词的定位结果,确定所述目标关键词对应的配对位置,包括:根据所述目标关键词的定位结果,将所述目标关键词所在位置之前的预设第一区域以及所述目标关键词所在位置之后的预设第二区域作为所述目标关键词对应的配对位置。
可选的,所述基于所述目标关键词的配对位置,从所述表格中的文本内容提取所述目标关键词对应的目标内容,包括以下任一种:若所述目标关键词的配对位置出现在所述表格的标题中,则从所述标题中的文本内容获取所述目标关键词对应的目标内容;若所述目标关键词的配对位置出现在所述表格除标题之外的其他位置对应的文本内容中,采用正则方式提取所述目标关键词对应的目标内容。
可选的,所述至少输出所述目标内容,包括:输出所述目标内容、所述目标内容所在的所述待识别PDF文件的文件名称、所述目标内容在所述待识别PDF文件中的表格的标识。
本发明实施例还提供一种PDF文件中的表格解析装置,包括:转换单元,适于将待识别PDF文件转换成对应的文本文件;位置确定单元,适于根据所述文本文件的转换信息确定表格的位置;提取单元,适于基于预设的目标关键词以及所述表格的位置,从所述表格中的文本内容提取与所述目标关键词对应的目标内容;输出单元,适于至少输出所述目标内容。
可选的,所述转换信息包括如下至少一种:段落信息、字体、字号、行间距、文字的横纵坐标。
可选的,所述位置确定单元,适于基于表格标题关键词,确定所述表格标题关键词的位置;获取所述表格标题关键词的上下文中包括换行符的文字流;基于所述包括换行符的文字流,确定所述表格的位置。
可选的,所述位置确定单元,还适于在将待识别PDF文件转换成对应的文本文件之后,根据所述文本文件的转换信息确定表格每行文本位置;和/或,根据所述本文文件的转换信息确定表格中横线及竖线的位置。
可选的,所述提取单元,适于基于预设的目标关键词以及所述表格的位置,以及所述表格每行文本位置和所述表格中横线及竖线的位置中的至少一种,在所述表格中的文本内容对所述目标关键词进行定位;基于所述目标关键词的定位结果,确定所述目标关键词对应的配对位置;基于所述目标关键词的配对位置,从所述表格中的文本内容提取所述目标关键词对应的目标内容。
可选的,所述提取单元,适于基于预设的目标关键词以及所述表格的位置,在所述表格中的文本内容对所述目标关键词进行定位;基于所述目标关键词的定位结果,确定所述目标关键词对应的配对位置;基于所述目标关键词的配对位置,从所述表格中的文本内容提取所述目标关键词对应的目标内容。
可选的,所述提取单元,适于根据所述目标关键词的定位结果,将所述目标关键词所在位置之前的预设第一区域以及所述目标关键词所在位置之后的预设第二区域作为所述目标关键词对应的配对位置。
可选的,所述提取单元适于采用如下任一种方式从所述表格中的文本内容提取所述目标关键词对应的目标内容:若所述目标关键词的配对位置出现在所述表格的标题中,则从所述标题中的文本内容获取所述目标关键词对应的目标内容;若所述目标关键词的配对位置出现在所述表格除标题之外的其他位置对应的文本内容中,采用正则方式提取所述目标关键词对应的目标内容。
可选的,所述输出单元,适于输出所述目标内容、所述目标内容所在的所述待识别PDF文件的文件名称、所述目标内容在所述待识别PDF文件中的表格的标识。
本发明实施例还提供一种计算设备,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述任一种PDF文件中的表格解析方法的步骤。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质为非易失性存储介质或非瞬态存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述任一种PDF文件中的表格解析方法的步骤。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
在将待识别PDF文件转换成对应的文本文件后,基于文本文件的转换信息确定表格的位置,进而基于预设的目标关键词以及表格的位置,在表格中的文本内容提取与目标关键词对应的目标内容,基于PDF文件对应的文本文件,采用基于目标关键词对应的内容从表格中确定对应的目标内容,无须依赖表格的结构化,从而可以提高从PDF文件中解析表格内容的准确度。
附图说明
图1是本发明实施例中的一种PDF文件中的表格解析方法的流程图;
图2是本发明实施例中的PDF文件中的一张病人特性表的示意图;
图3是本发明实施例中的一种PDF文件中的表格解析装置的结构示意图。
具体实施方式
现有技术中,现有的在线PDF解析系统分为全自动PDF解析系统以及半自动PDF解析系统。现有的在线PDF解析系统首先都是解析一个PDF文档,从PDF内容流中分离出文字流、图像等原始信息。根据文字流节点解析出表格所在区域。对表格的区域进行结构化。半自动PDF解析系统将PDF内容可视化,用户根据屏幕输出内容框选择表格的所在区域。而全自动PDF解析系统根据文本框的结构模式以及表格边框自动判断表格所在区域。两种系统都会进行表格内容栅格化处理,即对所有文字流节点按照水平和垂直方向分别进行空间划分,并将结果进行保存,形成概念上的待重现表格边框结构。随后,解析系统再根据栅格化结果对表格内容进行归位,即从栅格化后形成的概念表格结构中找到每个文字流节点所在表格单元位置,建立文字流节点间的相对关系,实现表格实体结构。最后,解析系统对实体结构进行一维序列化输出,将结果保存成通用结构化编码格式,如csv、excel、HTML等。然而,现有的表格解析时,根据文字流节点解析出表格所在区域以及对表格的区域进行结构化。易出现无法正确进行表格结构化以及表格格式错乱等现象,从而导致PDF中表格的解析准确度较低。
在本发明的实施例中,在将待识别PDF文件转换成对应的文本文件后,基于文本文件的转换信息确定表格的位置,进而基于预设的目标关键词以及表格的位置,在表格中的文本内容提取与目标关键词对应的目标内容,基于PDF文件对应的文本文件,采用基于目标关键词对应的内容从表格中确定对应的目标内容,无须依赖表格的结构化,从而可以提高从PDF文件中解析表格内容的准确度。
为使本发明实施例的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
参照图1,给出了本发明实施例中的一种PDF文件中的表格解析方法的流程图。具体可以包括如下步骤:
步骤11,将待识别PDF文件转换成对应的文本文件。
在具体实施中,PDFMiner是一个可以从PDF文件中提取信息的python库。与其他PDF相关的工具不同,PDFMiner可以获取和分析文本数据。PDFMiner可以获取某一页中文本的准确位置和一些如字体、行数的信息。PDFMiner包括一个PDF转换器,可以把PDF文件转换成HTML等格式。PDFMiner还可以包括一个扩展的PDF解析器,可以用于除文本分析以外的其他用途。
PDFMiner内置两个工具:pdf2txt.py和dumppdf.py。pdf2txt.py用于从PDF文件中提取所有文本内容,也即将PDF文件转换成文本文件。对于加密的PDF文件,则需要提供对应的密码才能解析。PDFMiner有以下特点:使用python编写、解析、分析,并转换成PDF文档,支持PDF-1.7规范,支持中日韩语言和垂直书写脚本,支持各种字体类型(Type1、TrueType、Type3、CID等),支持基本加密(RC4),可以完成PDF与HTML转换,纲要(TOC)的提取,完成标签内容提取,通过分组文本块重建原始的布局。Python是一种面向对象的解释型计算机程序设计语言。Python具有丰富和强大的库。Python常被昵称为胶水语言,能够把用其他语言制作的各种模块(尤其是C/C++)联结在一起。
步骤12,根据所述文本文件的转换信息确定表格的位置。
在具体实施中,文本文件的转换信息可以包括段落信息、字体、字号、行间距、文字的横纵坐标等中的至少一种。
通常相邻段落的行与行之间的行间距与同一段落内的行与行之间行间距不同,不同类型的文件部分采用的字体或字号可能不同,如纯文本段落内的文字的字号与表格中的字号可能不同,因此,可以基于转换信息确定表格的位置。
在本发明实施例中,可以基于表格标题关键词,确定表格标题关键词的位置。获取表格标题关键词的上下文中包括换行符的文字流。基于所述包括换行符的文字流以及所述表格的起始位置,确定所述表格的位置。通常表格中的文字流很短,多个文字流填满PDF的一行或半行,从而能够基于表格的属性来判断表格的位置及区域,提高表格位置及区域确定的准确度。
在本发明实施例中,基于文本文件的转换信息还可以确定表格每行文本位置以及表格中横线及竖线的位置中的至少一种。具体而言,可以根据文本文件的转换信息中的段落信息、具有换行符的文字流等确定表格每行文本位置。
步骤13,基于预设的目标关键词以及所述表格的位置,从所述表格中的文本内容提取与所述目标关键词对应的目标内容。
在本发明一实施例中,采用如下方式基于从表格中的文本内容提取与目标关键词对应的目标内容,基于预设的目标关键词以及表格的位置,在表格中的文本内容对目标关键词进行定位。根据目标关键词的定位结果,确定目标关键词对应的配对位置。根据目标关键词的配对位置,从表格的文本内容提取目标关键词对应的目标的内容。
在本发明另一实施中,采用如下方式基于从表格中的文本内容提取与目标关键词对应的目标内容,基于预设的目标关键词以及所述表格的位置,以及所述表格每行文本位置和所述表格中横线及竖线的位置中的至少一种,在所述表格中的文本内容对所述目标关键词进行定位;基于所述目标关键词的定位结果,确定所述目标关键词对应的配对位置;基于所述目标关键词的配对位置,从所述表格中的文本内容提取所述目标关键词对应的目标内容。在基于表格的位置的基础上,考虑表格每行文本位置以及表格中横线及竖线的位置中的至少一种,对于没有横线及竖线的表格,或者横线及竖线不完整的表格,可以避免表格的结构化对目标内容提取的影响。对于具有横线及竖线的表格,还可以进一步提高表格区域的确定的准确性,进而提高在表格中的文本内容提取的目标内容的准确度。
在本发明实施例中,可以采用如下方式确定目标关键词对应的配对位置:根据目标关键词的定位结果,将目标关键词所在位置之前的预设第一区域以及目标关键词所在位置之后的预设第二区域作为目标关键词对应的配对位置。例如,可以将目标关键词所在位置之前的预设数目的字符或者预设数目的行数作为第一区域,可以将目标关键词所在位置之后的预设数目的字符或者预设数目的行数作为第二区域。第一区域或第二区域的覆盖范围可以根据实际应用需求进行设定,此处不再赘述。
在具体实施中,根据配对位置的不同,目标关键词对应的目标内容的确定方式不同:
在本发明一实施例中,若目标关键词的配对位置出现在表格的标题中,则从标题中的文本内容获取目标关键词对应的目标内容。
在本发明另一实施例中,若目标关键词的配对位置出现在表格除标题之外的其他位置对应的文本内容中,可以采用正则方式提取目标关键词对应的目标内容。
基于应用场景及应用领域的需求不同,预设的目标关键词不同。例如,在医学的放疗领域,放疗领域比较关注的是治疗方法、人数、生存率、毒副作用等。通常在表格里描述患者信息比如治疗分组,患者人数等。治疗分组中通常列出治疗方案的名称或简称。可以将治疗方案的名称或简称可以作为表格标题关键词,基于表格标题关键词以及表格标题关键词的上下文中的包括换行符的文字流,确定表格的位置。参照图2,给出了本发明实施例中PDF文件中的一张病人特性(patient characteristics)表Table 1的示意图,Table 1中记载了两种治疗方案CIMRT和HIMRT的一些病人相关的数据。如需要查找的内容为CIMRT的人数,则可以将CIMRT作为目标关键词,并在表格的文本内容中查找目标关键词CIMRT,对目标关键词CIMRT进行定位。当目标关键词出现在标题中,则在标题的文本内容中查找目标内容n及n的取值152。
步骤14,至少输出所述目标内容。
在具体实施中,可以将得到的目标内容输出。在本发明实施例中,为了提高输出内容的丰富性,还可以输出目标内容所在的待识别PDF文件的文件名称、目标内容在待识别PDF文件中的表格的标识,其中表格的标识用于区分PDF文件中不同的表格,从而在得到目标内容的同时,还可以确定目标内容在PDF文件中的位置,有利于用户快速定位到目标内容的位置。
在具体实施中,输出所述目标内容的格式可以根据实际应用需求进行设定,例如,采用键:值(key:value)形式输出目标内容。参照图2,输出的目标内容为{'patient_n':[152,151],'T1':[59,61],'GS6':[51,53]},目标内容中包括在CIMRT组以及HIMRT组的病人数量n、在CIMRT组以及HIMRT组T1指标数据,在在CIMRT组以及HIMRT组的GS6指标数据。
本发明实施例还提供一种PDF文件中的表格解析装置的结构示意图。参照图3,给出了本发明实施例中的一种PDF文件中的表格解析装置的结构示意图。
在具体实施中,PDF文件中的表格解析装置30可以包括:转换单元31、位置确定单元32、提取单元33及输出单元34,其中:
转换单元31,适于将待识别PDF文件转换成对应的文本文件;
位置确定单元32,适于根据所述文本文件的转换信息确定表格的位置;
提取单元33,适于基于预设的目标关键词以及所述表格的位置,从所述表格中的文本内容提取与所述目标关键词对应的目标内容;
输出单元34,适于至少输出所述目标内容。
在具体实施中,所述转换信息包括如下至少一种:段落信息、字体、字号、行间距、文字的横纵坐标。
在具体实施中,所述位置确定单元32,适于基于表格标题关键词,确定所述表格标题关键词的位置;获取所述表格标题关键词的上下文中包括换行符的文字流;基于所述包括换行符的文字流,确定所述表格的位置。
在具体实施中,所述位置确定单元32,还可以适于在将待识别PDF文件转换成对应的文本文件之后,根据所述文本文件的转换信息确定表格每行文本位置;和/或,根据所述本文文件的转换信息确定表格中横线及竖线的位置。
在具体实施中,所述提取单元33可以适于基于预设的目标关键词以及所述表格的位置,以及所述表格每行文本位置和所述表格中横线及竖线的位置中的至少一种,在所述表格中的文本内容对所述目标关键词进行定位;基于所述目标关键词的定位结果,确定所述目标关键词对应的配对位置;基于所述目标关键词的配对位置,从所述表格中的文本内容提取所述目标关键词对应的目标内容。
在具体实施中,所述提取单元33可以适于基于预设的目标关键词以及所述表格的位置,在所述表格中的文本内容对所述目标关键词进行定位;基于所述目标关键词的定位结果,确定所述目标关键词对应的配对位置;基于所述目标关键词的配对位置,从所述表格中的文本内容提取所述目标关键词对应的目标内容。
在具体实施中,所述提取单元33可以适于根据所述目标关键词的定位结果,将所述目标关键词所在位置之前的预设第一区域以及所述目标关键词所在位置之后的预设第二区域作为所述目标关键词对应的配对位置。
在具体实施中,所述提取单元33可以适于采用如下任一种方式从所述表格中的文本内容提取所述目标关键词对应的目标内容:若所述目标关键词的配对位置出现在所述表格的标题中,则从所述标题中的文本内容获取所述目标关键词对应的目标内容;若所述目标关键词的配对位置出现在所述表格除标题之外的其他位置对应的文本内容中,采用正则方式提取所述目标关键词对应的目标内容。
在具体实施中,所述输出单元34可以适于输出所述目标内容、所述目标内容所在的所述待识别PDF文件的文件名称、所述目标内容在所述待识别PDF文件中的表格的标识。
在具体实施中,PDF文件中的表格解析装置的工作原理及工作流程,可以参考本发明上述任一实施例中对PDF文件中的表格解析方法的描述,此处不再赘述。
本发明实施例还提供一种计算设备,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述任一实施例提供的PDF文件中的表格解析方法的步骤。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质为非易失性存储介质或非瞬态存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述任一实施例提供的PDF文件中的表格解析方法的步骤。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于任一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
Claims (20)
1.一种PDF文件中的表格解析方法,其特征在于,包括:
将待识别PDF文件转换成对应的文本文件;
根据所述文本文件的转换信息确定表格的位置;
基于预设的目标关键词以及所述表格的位置,从所述表格中的文本内容提取与所述目标关键词对应的目标内容;
至少输出所述目标内容。
2.如权利要求1所述的PDF文件中的表格解析方法,其特征在于,所述转换信息包括如下至少一种:段落信息、字体、字号、行间距、文字的横纵坐标。
3.如权利要求1所述的PDF文件中的表格解析方法,其特征在于,所述根据所述文本文件的转换信息确定表格的位置,包括:
基于表格标题关键词,确定所述表格标题关键词的位置;
获取所述表格标题关键词的上下文中包括换行符的文字流;
基于所述包括换行符的文字流,确定所述表格的位置。
4.如权利要求3所述的PDF文件中的表格解析方法,其特征在于,在将待识别PDF文件转换成对应的文本文件之后,还包括以下至少一种:
根据所述文本文件的转换信息确定表格每行文本位置;
根据所述本文文件的转换信息确定表格中横线及竖线的位置。
5.如权利要求4所述的PDF文件中的表格解析方法,其特征在于,所述基于预设的目标关键词以及所述表格的位置,从所述表格中的文本内容提取与所述目标关键词对应的目标内容,包括:
基于预设的目标关键词以及所述表格的位置,以及所述表格每行文本位置和所述表格中横线及竖线的位置中的至少一种,在所述表格中的文本内容对所述目标关键词进行定位;
基于所述目标关键词的定位结果,确定所述目标关键词对应的配对位置;
基于所述目标关键词的配对位置,从所述表格中的文本内容提取所述目标关键词对应的目标内容。
6.如权利要求1至5任一项所述的PDF文件中的表格解析方法,其特征在于,所述基于预设的目标关键词以及所述表格的位置,从所述表格中的文本内容提取与所述目标关键词对应的目标内容,包括:
基于预设的目标关键词以及所述表格的位置,在所述表格中的文本内容对所述目标关键词进行定位;
基于所述目标关键词的定位结果,确定所述目标关键词对应的配对位置;
基于所述目标关键词的配对位置,从所述表格中的文本内容提取所述目标关键词对应的目标内容。
7.如权利要求6所述的PDF文件中的表格解析方法,其特征在于,所述基于所述目标关键词的定位结果,确定所述目标关键词对应的配对位置,包括:
根据所述目标关键词的定位结果,将所述目标关键词所在位置之前的预设第一区域以及所述目标关键词所在位置之后的预设第二区域作为所述目标关键词对应的配对位置。
8.如权利要求7所述的PDF文件中的表格解析方法,其特征在于,所述基于所述目标关键词的配对位置,从所述表格中的文本内容提取所述目标关键词对应的目标内容,包括以下任一种:
若所述目标关键词的配对位置出现在所述表格的标题中,则从所述标题中的文本内容获取所述目标关键词对应的目标内容;
若所述目标关键词的配对位置出现在所述表格除标题之外的其他位置对应的文本内容中,采用正则方式提取所述目标关键词对应的目标内容。
9.如权利要求1所述的PDF文件中的表格解析方法,其特征在于,所述至少输出所述目标内容,包括:
输出所述目标内容、所述目标内容所在的所述待识别PDF文件的文件名称、所述目标内容在所述待识别PDF文件中的表格的标识。
10.一种PDF文件中的表格解析装置,其特征在于,包括:
转换单元,适于将待识别PDF文件转换成对应的文本文件;
位置确定单元,适于根据所述文本文件的转换信息确定表格的位置;
提取单元,适于基于预设的目标关键词以及所述表格的位置,从所述表格中的文本内容提取与所述目标关键词对应的目标内容;
输出单元,适于至少输出所述目标内容。
11.如权利要求10所述的PDF文件中的表格解析装置,其特征在于,所述转换信息包括如下至少一种:段落信息、字体、字号、行间距、文字的横纵坐标。
12.如权利要求10所述的PDF文件中的表格解析装置,其特征在于,所述位置确定单元,适于基于表格标题关键词,确定所述表格标题关键词的位置;获取所述表格标题关键词的上下文中包括换行符的文字流;基于所述包括换行符的文字流,确定所述表格的位置。
13.如权利要求12所述的PDF文件中的表格解析装置,其特征在于,所述位置确定单元,还适于在将待识别PDF文件转换成对应的文本文件之后,根据所述文本文件的转换信息确定表格每行文本位置;和/或,根据所述本文文件的转换信息确定表格中横线及竖线的位置。
14.如权利要求13所述的PDF文件中的表格解析装置,其特征在于,所述提取单元,适于基于预设的目标关键词以及所述表格的位置,以及所述表格每行文本位置和所述表格中横线及竖线的位置中的至少一种,在所述表格中的文本内容对所述目标关键词进行定位;基于所述目标关键词的定位结果,确定所述目标关键词对应的配对位置;基于所述目标关键词的配对位置,从所述表格中的文本内容提取所述目标关键词对应的目标内容。
15.如权利要求10至14任一项所述的PDF文件中的表格解析装置,其特征在于,所述提取单元,适于基于预设的目标关键词以及所述表格的位置,在所述表格中的文本内容对所述目标关键词进行定位;基于所述目标关键词的定位结果,确定所述目标关键词对应的配对位置;基于所述目标关键词的配对位置,从所述表格中的文本内容提取所述目标关键词对应的目标内容。
16.如权利要求15所述的PDF文件中的表格解析装置,其特征在于,所述提取单元,适于根据所述目标关键词的定位结果,将所述目标关键词所在位置之前的预设第一区域以及所述目标关键词所在位置之后的预设第二区域作为所述目标关键词对应的配对位置。
17.如权利要求16所述的PDF文件中的表格解析装置,其特征在于,所述提取单元适于采用如下任一种方式从所述表格中的文本内容提取所述目标关键词对应的目标内容:若所述目标关键词的配对位置出现在所述表格的标题中,则从所述标题中的文本内容获取所述目标关键词对应的目标内容;若所述目标关键词的配对位置出现在所述表格除标题之外的其他位置对应的文本内容中,采用正则方式提取所述目标关键词对应的目标内容。
18.如权利要求10所述的PDF文件中的表格解析装置,其特征在于,所述输出单元,适于输出所述目标内容、所述目标内容所在的所述待识别PDF文件的文件名称、所述目标内容在所述待识别PDF文件中的表格的标识。
19.一种计算设备,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,其特征在于,所述处理器运行所述计算机指令时执行权利要求1至9任一项所述的PDF文件中的表格解析方法的步骤。
20.一种计算机可读存储介质,计算机可读存储介质为非易失性存储介质或非瞬态存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1至9中任一项所述的PDF文件中的表格解析方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911227255.0A CN112287660A (zh) | 2019-12-04 | 2019-12-04 | Pdf文件中的表格解析方法及装置、计算设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911227255.0A CN112287660A (zh) | 2019-12-04 | 2019-12-04 | Pdf文件中的表格解析方法及装置、计算设备、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112287660A true CN112287660A (zh) | 2021-01-29 |
Family
ID=74418885
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911227255.0A Pending CN112287660A (zh) | 2019-12-04 | 2019-12-04 | Pdf文件中的表格解析方法及装置、计算设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112287660A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030105680A1 (en) * | 2001-06-08 | 2003-06-05 | W.W. Grainger, Inc. | System and method for retrieving information from an electronic catalog |
CN102722475A (zh) * | 2012-05-09 | 2012-10-10 | 深圳市万兴软件有限公司 | 一种PDF文档中的表格转换成Excel表格的方法 |
CN105488062A (zh) * | 2014-09-19 | 2016-04-13 | 鞍钢股份有限公司 | 一种精准信息系统数据搜索方法 |
CN105518667A (zh) * | 2014-06-30 | 2016-04-20 | 微软技术许可有限责任公司 | 理解供搜索的表格 |
CN107622230A (zh) * | 2017-08-30 | 2018-01-23 | 中国科学院软件研究所 | 一种基于区域识别与分割的pdf表格数据解析方法 |
CN107818075A (zh) * | 2017-10-16 | 2018-03-20 | 平安科技(深圳)有限公司 | 表格信息结构化提取方法、电子设备及计算机可读存储介质 |
CN107832676A (zh) * | 2017-10-16 | 2018-03-23 | 平安科技(深圳)有限公司 | 表格信息换行识别方法、电子设备及计算机可读存储介质 |
CN107844468A (zh) * | 2017-10-16 | 2018-03-27 | 平安科技(深圳)有限公司 | 表格信息跨页识别方法、电子设备及计算机可读存储介质 |
CN108470021A (zh) * | 2018-03-26 | 2018-08-31 | 阿博茨德(北京)科技有限公司 | Pdf文档中表格的定位方法及装置 |
CN109062874A (zh) * | 2018-06-12 | 2018-12-21 | 平安科技(深圳)有限公司 | 财政数据的获取方法、终端设备及介质 |
-
2019
- 2019-12-04 CN CN201911227255.0A patent/CN112287660A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030105680A1 (en) * | 2001-06-08 | 2003-06-05 | W.W. Grainger, Inc. | System and method for retrieving information from an electronic catalog |
CN102722475A (zh) * | 2012-05-09 | 2012-10-10 | 深圳市万兴软件有限公司 | 一种PDF文档中的表格转换成Excel表格的方法 |
CN105518667A (zh) * | 2014-06-30 | 2016-04-20 | 微软技术许可有限责任公司 | 理解供搜索的表格 |
CN105488062A (zh) * | 2014-09-19 | 2016-04-13 | 鞍钢股份有限公司 | 一种精准信息系统数据搜索方法 |
CN107622230A (zh) * | 2017-08-30 | 2018-01-23 | 中国科学院软件研究所 | 一种基于区域识别与分割的pdf表格数据解析方法 |
CN107818075A (zh) * | 2017-10-16 | 2018-03-20 | 平安科技(深圳)有限公司 | 表格信息结构化提取方法、电子设备及计算机可读存储介质 |
CN107832676A (zh) * | 2017-10-16 | 2018-03-23 | 平安科技(深圳)有限公司 | 表格信息换行识别方法、电子设备及计算机可读存储介质 |
CN107844468A (zh) * | 2017-10-16 | 2018-03-27 | 平安科技(深圳)有限公司 | 表格信息跨页识别方法、电子设备及计算机可读存储介质 |
CN108470021A (zh) * | 2018-03-26 | 2018-08-31 | 阿博茨德(北京)科技有限公司 | Pdf文档中表格的定位方法及装置 |
CN109062874A (zh) * | 2018-06-12 | 2018-12-21 | 平安科技(深圳)有限公司 | 财政数据的获取方法、终端设备及介质 |
Non-Patent Citations (1)
Title |
---|
王永志; 金樑; 朱月琴; 白明; 包晓栋;: "基于大数据技术的地学文档关键词提取算法研发", 地球物理学进展, no. 03, pages 1274 - 1281 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9495347B2 (en) | Systems and methods for extracting table information from documents | |
US10402402B2 (en) | Method, device, server and storage apparatus of reviewing SQL | |
US9256798B2 (en) | Document alteration based on native text analysis and OCR | |
CN110770735B (zh) | 具有嵌入式数学表达式的文档的编码转换 | |
US9436882B2 (en) | Automated redaction | |
US9098581B2 (en) | Method for finding text reading order in a document | |
US9898452B2 (en) | Annotation data generation and overlay for enhancing readability on electronic book image stream service | |
CN102855317A (zh) | 一种基于演示视频的多模式索引方法及系统 | |
CN113407731A (zh) | 一种基于知识图谱和协同过滤的api推荐方法 | |
JP2019032704A (ja) | 表データ構造化システムおよび表データ構造化方法 | |
US9049400B2 (en) | Image processing apparatus, and image processing method and program | |
JP2006072744A (ja) | 文書処理装置、その制御方法、プログラム、及び記憶媒体 | |
CN110209780B (zh) | 一种问题模板生成方法、装置、服务器及存储介质 | |
WO2011074942A1 (en) | System and method of converting data from a multiple table structure into an edoc format | |
KR102345410B1 (ko) | 빅데이터 지능형 수집 방법 및 장치 | |
US20180330156A1 (en) | Detection of caption elements in documents | |
CN103440231A (zh) | 用于比较文本的设备和方法 | |
CN112287660A (zh) | Pdf文件中的表格解析方法及装置、计算设备、存储介质 | |
CN116360794A (zh) | 数据库语言解析方法、装置、计算机设备及存储介质 | |
US20130332824A1 (en) | Embedded font processing method and device | |
CN114115831A (zh) | 数据处理方法、装置、设备和存储介质 | |
CN106557564A (zh) | 一种对象数据分析方法及装置 | |
CN114118072A (zh) | 文档结构化方法、装置、电子设备和计算机可读存储介质 | |
CN112287742A (zh) | 文件中的流程图解析方法及装置、计算设备、存储介质 | |
US8271874B2 (en) | Method and apparatus for locating and transforming data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |