CN115017872B - 智能标注pdf文件中表格的方法、装置及电子设备 - Google Patents
智能标注pdf文件中表格的方法、装置及电子设备 Download PDFInfo
- Publication number
- CN115017872B CN115017872B CN202210953243.1A CN202210953243A CN115017872B CN 115017872 B CN115017872 B CN 115017872B CN 202210953243 A CN202210953243 A CN 202210953243A CN 115017872 B CN115017872 B CN 115017872B
- Authority
- CN
- China
- Prior art keywords
- data
- target
- file
- structured
- target table
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/174—Form filling; Merging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种智能标注PDF文件中表格的方法、装置及电子设备,通过获取待处理文件,并基于待处理文件得到目标表格数据,待处理文件的文件格式为PDF,待处理文件包括目标表格,基于目标表格数据以及目标表格数据对应的表格类型,获取结构化表格数据,基于结构化表格数据以及预先获取的已标注标签数据,标注目标表格。通过上述方式,可以自动识别目标表格数据,并基于目标表格数据以及目标表格数据对应的表格类型,获取结构化表格数据,进而可以基于结构化表格数据以及预先获取的已标注标签数据,完成对目标表格的智能标注,能够提高标注PDF文件中表格的效率以及提高标注PDF文件中表格的准确率。
Description
技术领域
本发明涉及计算机软件技术领域,尤其涉及一种智能标注PDF文件中表格的方法、装置及电子设备。
背景技术
在当今大数据时代,信息具有重要价值,智能抽取信息,并将信息进行结构化是一个重要的技术方向。
PDF(Portable Document Format,可携带文档格式)是文本数据的一种常见格式,PDF文件中往往包含许多表格。表格数据结构复杂,包含普通表格、合并单元格表格、表格嵌套表格等多种类型。在许多场景中,我们需要将PDF文件中的表格摘录出来并且按照其原始数据格式结构化,且保证提取出信息的准确性。目前解决该问题的方法主要是人工手动标注。
目前人工手动进行表格标注的过程中,标注人员需要先确定PDF文件中所包括的目标表格,然后用鼠标选取目标表格中的一个单元格,进行打标签操作。目标表格中的每个单元格都需重复执行该操作,直至全部单元格标注完成。
可见,人工手动标注表格的方式存在标注效率低、成本高、容易出现标注边界或标注类型错误等问题,因此,如何快速且准确率高地标注PDF文件中的表格的问题是目前业界亟待解决的重要课题。
发明内容
本发明提供一种智能标注PDF文件中表格的方法、装置及电子设备,用以解决现有技术中人工手动标注表格存在的标注效率低、成本高、错误率高的缺陷,实现快速且准确率高地标注PDF文件中的表格。
本发明提供的一种智能标注PDF文件中表格的方法,所述方法包括:
获取待处理文件,并基于所述待处理文件得到目标表格数据,其中,所述待处理文件的文件格式为PDF,所述待处理文件包括目标表格;
基于所述目标表格数据以及所述目标表格数据对应的表格类型,获取结构化表格数据;
基于所述结构化表格数据以及预先获取的已标注标签数据,标注所述目标表格。
可选的,所述结构化表格数据包括不同结构信息对应的数据,所述已标注标签数据为基于所述目标表格,预先标注标签的数据;
所述基于所述结构化表格数据以及预先获取的已标注标签数据,标注所述目标表格的步骤,包括:
基于所述结构化表格数据,获取所述已标注标签数据对应的结构信息,作为当前结构信息;
基于所述当前结构信息,以及所述结构化表格数据,确定结构信息与所述当前结构信息一致的数据,作为当前数据,其中,所述当前数据为所述目标表格中未标注的数据;
将所述已标注标签数据对应的标签,作为所述当前数据的标签。
可选的,在所述基于所述目标表格数据以及所述目标表格数据对应的表格类型,获取结构化表格数据的步骤之前,所述方法还包括:
将所述目标表格数据输入至预先训练好的分类模型,得到所述目标表格数据对应的表格类型,其中,所述分类模型为基于样本表格数据预先训练得到的。
可选的,所述基于所述待处理文件得到目标表格数据的步骤,包括:
解析所述待处理文件,获取具有层级结构的可编辑数据;
识别所述具有层级结构的可编辑数据,得到目标表格数据。
可选的,在所述基于所述结构化表格数据以及预先获取的已标注标签数据,标注所述目标表格的步骤之前,所述方法还包括:
接收数据标注指令,并基于所述数据标注指令,获取标注的数据的标注信息,得到已标注标签数据。
可选的,所述基于所述目标表格数据以及所述目标表格数据对应的表格类型,获取结构化表格数据的步骤,包括:
基于所述目标表格数据对应的表格类型,确定数据存储规则;
基于所述目标表格数据以及所述数据存储规则,得到结构化表格数据。
本发明还提供一种智能标注PDF文件中表格的装置,所述装置包括:
第一获取模块,用于获取待处理文件,并基于所述待处理文件得到目标表格数据,其中,所述待处理文件的文件格式为PDF,所述待处理文件包括目标表格;
第二获取模块,用于基于所述目标表格数据以及所述目标表格数据对应的表格类型,获取结构化表格数据;
标注模块,用于基于所述结构化表格数据以及预先获取的已标注标签数据,标注所述目标表格。
可选的,所述结构化表格数据包括不同结构信息对应的数据,所述已标注标签数据为基于所述目标表格,预先标注标签的数据;
所述标注模块包括:
获取单元,用于基于所述结构化表格数据,获取所述已标注标签数据对应的结构信息,作为当前结构信息;
第一确定单元,用于基于所述当前结构信息,以及所述结构化表格数据,确定结构信息与所述当前结构信息一致的数据,作为当前数据,其中,所述当前数据为所述目标表格中未标注的数据;
第二确定单元,用于将所述已标注标签数据对应的标签,作为所述当前数据的标签。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述智能标注PDF文件中表格的方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述智能标注PDF文件中表格的方法的步骤。
本发明提供的智能标注PDF文件中表格的方法、装置及电子设备,通过获取待处理文件,并基于待处理文件得到目标表格数据,其中,待处理文件的文件格式为PDF,待处理文件包括目标表格,基于目标表格数据以及目标表格数据对应的表格类型,获取结构化表格数据,基于结构化表格数据以及预先获取的已标注标签数据,标注目标表格。通过上述方式,可以自动识别目标表格数据,并基于目标表格数据以及目标表格数据对应的表格类型,获取结构化表格数据,进而可以基于结构化表格数据以及预先获取的已标注标签数据,完成对目标表格的智能标注,相较于人工手动标注表格的方式,能够提高标注PDF文件中表格的效率以及提高标注PDF文件中表格的准确率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的智能标注PDF文件中表格的方法的流程示意图之一;
图2是本发明提供的智能标注PDF文件中表格的方法的流程示意图之二;
图3是本发明提供的智能标注PDF文件中表格的方法的流程示意图之三;
图4是本发明提供的智能标注PDF文件中表格的方法的流程示意图之四;
图5是本发明提供的智能标注PDF文件中表格的装置的结构示意图;
图6是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了实现快速且准确率高地标注PDF文件中的表格,本发明公开了一种智能标注PDF文件中表格的方法、装置、电子设备、非暂态计算机可读存储介质及计算机程序产品。下面首先对本发明公开的一种智能标注PDF文件中表格的方法进行介绍:
如图1所示,本发明公开了一种智能标注PDF文件中表格的方法,所述方法包括:
S101,获取待处理文件,并基于所述待处理文件得到目标表格数据。
当用户需要标注PDF文件中表格时,可以在设备中点击对应的PDF文件或将PDF文件传输至对应的设备,这样,便可以获取到需要进行表格标注的PDF文件,即待处理文件。
其中,待处理文件的文件格式为PDF,PDF是一种独立于应用程序、硬件、操作系统的方式呈现文档的文件格式。待处理文件包括目标表格,目标表格可以把信息或数据整理成行与列的结构,或者可以把信息或数据整理为更为复杂的结构。目标表格常用于通信、研究与数据分析。
为了标注PDF文件中的表格,可以识别待处理文件,即PDF文件,从而得到目标表格数据。在一种实施方式中,可以将待处理文件输入至预先训练好的识别模型,从而得到识别模型输出的目标表格数据。
作为一种实施方式,可以将得到的目标表格数据存储为其他文件格式的数据,例如,可以将目标表格数据存储为json,当然也可以根据实际需要存储为其他的文件格式,这都是合理的。
S102,基于所述目标表格数据以及所述目标表格数据对应的表格类型,获取结构化表格数据。
为了方便后续实现智能标注PDF文件中表格,在得到目标表格数据后,可以基于目标表格数据以及目标表格数据对应的表格类型,获取结构化表格数据。
在一种实施方式中,可以基于目标表格数据对应的表格类型的结构,将目标表格数据按照表格类型的结构进行存储,从而得到目标结构化数据。
其中,目标表格数据对应的表格类型的结构能够指示目标表格数据包括的各个数据按照某种对应关系成组存储。表格类型可以为普通表格、合并单元格表格、表格嵌套表格等,在此不作具体限定。
在另一种实施方式中,可以将目标表格数据以及目标表格数据对应的表格类型,也就是带有表格类型标签的目标表格数据输入至表格重整化程序,表格重整化程序可以基于目标表格数据对应的表格类型,调整目标表格数据,从而表格重整化程序可以输出结构化表格数据。
上述步骤S101以及上述步骤S102实现了表格信息摘录,即将PDF中的目标表格数据摘录出来,并存储为结构化的数据格式,也就是得到结构化表格数据。
S103,基于所述结构化表格数据以及预先获取的已标注标签数据,标注所述目标表格。
由于结构化表格数据为将目标表格数据按照对应的表格类型的结构进行存储得到的数据,因此,在获取到结构化表格数据以及预先获取的已标注标签数据后,可以基于已标注标签数据和结构化表格数据的对应关系,标注目标表格。这样便可以实现表格智能标注,即根据已标注标签数据,便可以将目标表格对应的全部信息标注,进而便可以输出标注结果。
也就是说,本发明提供的智能标注PDF文件中表格的方法,只需要用户标注少量数据便可以实现对目标表格的智能标注,并且,能够解放生产力,提高标注效率,降低标注成本。
作为一种实施方式,目标表格数据以及其对应的标注结果可以作为机器学习算法的训练数据。
可见,本发明提供的智能标注PDF文件中表格的方法,通过获取待处理文件,并基于待处理文件得到目标表格数据,其中,待处理文件的文件格式为PDF,待处理文件包括目标表格,基于目标表格数据以及目标表格数据对应的表格类型,获取结构化表格数据,基于结构化表格数据以及预先获取的已标注标签数据,标注目标表格。通过上述方式,可以自动识别目标表格数据,并基于目标表格数据以及目标表格数据对应的表格类型,获取结构化表格数据,进而可以基于结构化表格数据以及预先获取的已标注标签数据,完成对目标表格的智能标注,相较于人工手动标注表格的方式,能够提高标注PDF文件中表格的效率以及提高标注PDF文件中表格的准确率。
作为本发明的一种实施方式,上述结构化表格数据可以包括不同结构信息对应的数据,即结构化表格数据的数据按照不同的对应关系进行存储,每种对应关系的结构信息不同。上述已标注标签数据可以为基于目标表格,预先标注标签的数据。
在获取到结构化表格数据以及预先获取的已标注标签数据后,由于已标注标签数据可以为基于目标表格,预先标注标签的数据,也就是说,结构化表格数据与已标注标签数据存在相同的数据,因此,可以将已标注标签数据整合至结构化表格数据。
在一种实施方式中,可以将结构化表格数据以及已标注标签数据输入至信息整合程序,信息整合程序可以将已标注标签数据整合至结构化表格数据。
如图2所示,上述基于所述结构化表格数据以及预先获取的已标注标签数据,标注所述目标表格的步骤,可以包括:
S201,基于所述结构化表格数据,获取所述已标注标签数据对应的结构信息,作为当前结构信息。
由于,已经将已标注标签数据整合至结构化表格数据,即结构化表格数据中包括已标注标签数据。因此,可以基于结构化表格数据,获取已标注标签数据对应的结构信息,作为当前结构信息。
例如,目标表格如表1所示:
表1
已标注标签数据包括:项目(标签):项目,日期(标签):2019年度。金额(标签):1756.62。其中,已标注标签数据的可以按照对应关系存储,如表2所示:
表2
可以基于结构化表格数据,获取已标注标签数据对应的结构信息,即可以获取到项目对应的结构信息为结构信息A,2019年度对应的结构信息为结构信息B,1756.62对应的结构信息为结构信息C,进而将结构信息A、结构信息B以及结构信息C作为当前结构信息。
S202,基于所述当前结构信息,以及所述结构化表格数据,确定结构信息与所述当前结构信息一致的数据,作为当前数据。
在获取到当前结构信息后,可以基于当前结构信息,以及结构化表格数据,确定结构信息与当前结构信息一致的数据,作为当前数据。其中,当前数据为目标表格中未标注的数据。
在一种实施方式中,在获取到当前结构信息后,也可以将已标注标签数据与结构化表格数据包括的数据进行对比,从而将结构信息与当前结构信息一致的数据,作为当前数据。
例如,承接上述步骤S201的例子,在获取到当前结构信息后,即获取到结构信息A、结构信息B以及结构信息C后,可以将项目与结构化表格数据包括的数据进行对比,从而得到结构信息A对应的数据,作为当前数据,即当前数据为利息支出、减:利息收入、其他以及合计。
同样地,可以将2019年度与结构化表格数据包括的数据进行对比,从而得到结构信息B对应的数据,作为当前数据,即当前数据为2018年度以及2017年度。可以将1756.62与结构化表格数据包括的数据进行对比,从而得到结构信息C对应的数据,作为当前数据,即488.21以及153.87。
S203,将所述已标注标签数据对应的标签,作为所述当前数据的标签。
在获取到当前数据后,可以将已标注标签数据对应的标签,作为当前数据的标签。例如,承接上述步骤S202的例子,至少可以得到表3、表4、表5对应的数据,表3、表4、表5仅为示意性。
表3
表4
表5
在一种实施方式中,可以将结构化表格数据以及已标注标签数据输入信息整合程序,信息整合程序可以将结构化表格数据包括的已标注标签数据以及未标注的数据进行对比,确定与已标注标签数据结构信息一致的未标注的数据,从而将未标注的数据的标签赋给未标注的数据。以此类推,直至将结构化表格数据中的各个数据均标注,便可以实现表格智能标注。
作为本发明的一种实施方式,在上述基于所述目标表格数据以及所述目标表格数据对应的表格类型,获取结构化表格数据的步骤之前,上述方法还可以包括:
将所述目标表格数据输入至预先训练好的分类模型,得到所述目标表格数据对应的表格类型,其中,分类模型为基于样本表格数据预先训练得到的。
为了能够确定表格类型,可以将目标表格数据输入至预先训练好的分类模型,分类模型可以基于目标表格数据,对目标表格数据进行分类,从而确定并输出目标表格数据的类型。其中,分类模型为基于样本表格数据预先训练得到的。这样,便可以获取更加精确的表格类型,以便后续实现智能标注,提高智能标注的精确度。
作为本发明的一种实施方式,上述基于所述待处理文件得到目标表格数据的步骤,可以包括:
解析所述待处理文件,获取具有层级结构的可编辑数据。
由于待处理文件,即需要进行表格标注的PDF文件存在不可编辑的情况,为了能够更加方便的获取目标表格数据,可以解析待处理文件,从而获取具有层级结构的数据。
在一种实施方式中,在获取到待处理文件后,可以将待处理文件输入至解析器,解析器可以对待处理文件进行解析,从而得到具有层级结构的可编辑数据,其中,可编辑数据的层级结构与待处理文件所包括的层级结构一致,具有层级结构的数据即为需要进行表格标注的PDF文件包括的各个级别的标题对应的数据。
识别所述具有层级结构的可编辑数据,得到目标表格数据。
在获取到具有层级结构的数据后,可以识别具有层级结构的数据,得到目标表格数据,在一种实施方式中,可以将具有层级结构的数据输入至分类器,分类器便利具有层级结构的数据,便可以识别得到目标表格数据。
可见,本发明公开的智能标注PDF文件中表格的方法,能够解析待处理文件,获取具有层级结构的可编辑数据,识别具有层级结构的可编辑数据,得到目标表格数据。这样能够针对不可编辑的PDF文件进行解析,从而能够获取不可编辑的PDF文件包括的目标表格数据。
作为本发明的一种实施方式,在上述基于所述结构化表格数据以及预先获取的已标注标签数据,标注所述目标表格的步骤之前,上述方法还可以包括:
接收数据标注指令,并基于所述数据标注指令,获取标注的数据的标注信息,得到已标注标签数据。
为了能够获取已标注标签数据,可以将待处理文件,即需要进行表格标注的PDF文件输入至PDF渲染器,进而用户可以采用标注工具对表格进行标注。
用户可以定位目标表格中的单元格,进而针对该单元格,选取预先设置的标签中的当前标签,作为该单元格的标签,其中,预先设置的标签的数量即为需要标注的单元格的数量。这样,便可以接收到数据标注指令。
以此类推,用户标注完数据后,便可以基于数据标注指令,获取标注的数据的标注信息,得到已标注标签数据。其中,已标注标签数据包括标签位置、标签对应的单元格的内容、标签的内容等数据。
相应的,在上述步骤S203的步骤中,即将所述已标注标签数据对应的标签,作为所述当前数据的标签的步骤中,可以将已标注标签数据对应的标签的内容,作为当前数据的标签,并且将标签位置与当前数据对应存储,以便在对当前数据进行显示时,能够将当前数据加载至标签位置所指示的位置。
可见,本发明公开的智能标注PDF文件中表格的方法,能够接收数据标注指令,并基于数据标注指令,获取标注的数据的标注信息,得到已标注标签数据。这样便可以获取精确的已标注标签数据,后续实现智能标注,并提高智能标注的精确性。
作为本发明的一种实施方式,如图3所示,上述基于所述目标表格数据以及所述目标表格数据对应的表格类型,获取结构化表格数据的步骤,可以包括:
S301,基于所述目标表格数据对应的表格类型,确定数据存储规则。
在确定出目标表格数据对应的表格类型后,可以基于目标表格数据对应的表格类型,从预设的规则库中确定数据存储规则,其中,数据存储规则为能够指示目标表格数据包括的各个数据按照某种对应关系进行存储的规则。
S302,基于所述目标表格数据以及所述数据存储规则,得到结构化表格数据。
在确定出目标表格数据对应的数据存储规则后,可以基于目标表格数据以及数据存储规则,也就是将目标表格数据按照数据存储规则进行存储,即将目标表格数据的数据按照不同的对应关系进行存储,从而得到不同结构信息对应的数据,即结构化表格数据。
可见,本发明公开的智能标注PDF文件中表格的方法,能够基于目标表格数据对应的表格类型,确定数据存储规则,基于目标表格数据以及数据存储规则,得到结构化表格数据。这样便可以快速得到结构化表格数据,以便后续实现智能标注。
为了能够更加清楚地理解本发明公开的智能标注PDF文件中表格的方法,下面结合图4对本发明公开的智能标注PDF文件中表格的方法进行举例介绍,如图4所示:
S401,获取需要进行表格标注的PDF文件。
S402,将待处理文件输入至解析器,得到具有层级结构的数据。
S403,识别具有层级结构的可编辑数据,得到目标表格数据。
S404,将目标表格数据输入至预先训练好的分类模型,得到目标表格数据对应的表格类型。
S405,将目标表格数据以及目标表格数据对应的表格类型输入至表格重整化程序,得到表格重整化程序输出结构化表格数据。
S406,将需要进行表格标注的PDF文件输入至PDF渲染器。
S407,接收数据标注指令,基于数据标注指令,获取标注的数据的标注信息,得到已标注标签数据。
其中,上述步骤S402-步骤S405与上述步骤S406-步骤S407的执行顺序可以为先执行步骤S402-步骤S405,再执行步骤S406-步骤S407。也可以先执行步骤S406-步骤S407,再执行步骤S402-步骤S405。也可以同时执行步骤S402-步骤S405以及步骤S406-步骤S407。这都是合理的。
S408,将已标注标签数据整合至结构化表格数据。
在得到结构化表格数据以及已标注标签数据后,可以将结构化表格数据以及已标注标签数据输入至信息整合程序,从而将已标注标签数据整合至结构化表格数据。
S409,基于结构化表格数据,获取已标注标签数据对应的结构信息,作为当前结构信息,基于当前结构信息,以及结构化表格数据,确定结构信息与当前结构信息一致的数据,作为当前数据,将已标注标签数据对应的标签,作为当前数据的标签。
也就是说,基于结构化表格数据以及已标注标签数据,对目标表格中的各个单元格进行打标签。
S410,输出将目标表格对应的全部信息标注完毕的标注结果。
可见,本发明提供的智能标注PDF文件中表格的方法,能够提高标注PDF文件中表格的效率以及提高标注PDF文件中表格的准确率。
下面对本发明提供的智能标注PDF文件中表格的装置进行描述,下文描述的智能标注PDF文件中表格的装置与上文描述的智能标注PDF文件中表格的方法可相互对应参照。
如图5所示,一种智能标注PDF文件中表格的装置,所述装置包括:
第一获取模块510,用于获取待处理文件,并基于所述待处理文件得到目标表格数据。
其中,所述待处理文件的文件格式为PDF,所述待处理文件包括目标表格。
第二获取模块520,用于基于所述目标表格数据以及所述目标表格数据对应的表格类型,获取结构化表格数据。
标注模块530,用于基于所述结构化表格数据以及预先获取的已标注标签数据,标注所述目标表格。
可见,本发明提供的智能标注PDF文件中表格的装置,通过获取待处理文件,并基于待处理文件得到目标表格数据,其中,待处理文件的文件格式为PDF,待处理文件包括目标表格,基于目标表格数据以及目标表格数据对应的表格类型,获取结构化表格数据,基于结构化表格数据以及预先获取的已标注标签数据,标注目标表格。通过上述方式,可以自动识别目标表格数据,并基于目标表格数据以及目标表格数据对应的表格类型,获取结构化表格数据,进而可以基于结构化表格数据以及预先获取的已标注标签数据,完成对目标表格的智能标注,相较于人工手动标注表格的方式,能够提高标注PDF文件中表格的效率以及提高标注PDF文件中表格的准确率。
作为本发明的一种实施方式,上述结构化表格数据包括不同结构信息对应的数据,上述已标注标签数据为基于所述目标表格,预先标注标签的数据。
上述标注模块530可以包括:
获取单元,用于基于所述结构化表格数据,获取所述已标注标签数据对应的结构信息,作为当前结构信息。
第一确定单元,用于基于所述当前结构信息,以及所述结构化表格数据,确定结构信息与所述当前结构信息一致的数据,作为当前数据。
其中,所述当前数据为所述目标表格中未标注的数据;
第二确定单元,用于将所述已标注标签数据对应的标签,作为所述当前数据的标签。
作为本发明的一种实施方式,上述装置还可以包括:
输入模块,用于在所述基于所述目标表格数据以及所述目标表格数据对应的表格类型,获取结构化表格数据之前,将所述目标表格数据输入至预先训练好的分类模型,得到所述目标表格数据对应的表格类型。
其中,所述分类模型为基于样本表格数据预先训练得到的。
作为本发明的一种实施方式,上述第一获取模块510可以包括:
解析单元,用于解析所述待处理文件,获取具有层级结构的可编辑数据。
识别单元,用于识别所述具有层级结构的可编辑数据,得到目标表格数据。
作为本发明的一种实施方式,上述装置还可以包括:
第三获取模块,用于在所述基于所述结构化表格数据以及预先获取的已标注标签数据,标注所述目标表格之前,接收数据标注指令,并基于所述数据标注指令,获取标注的数据的标注信息,得到已标注标签数据。
作为本发明的一种实施方式,上述第二获取模块520可以包括:
第三确定单元,用于基于所述目标表格数据对应的表格类型,确定数据存储规则。
第四确定单元,用于基于所述目标表格数据以及所述数据存储规则,得到结构化表格数据。
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行上述各方法所提供的智能标注PDF文件中表格的方法。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的智能标注PDF文件中表格的方法。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法所提供的智能标注PDF文件中表格的方法。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种智能标注PDF文件中表格的方法,其特征在于,所述方法包括:
获取待处理文件,并基于所述待处理文件得到目标表格数据,其中,所述待处理文件的文件格式为PDF,所述待处理文件包括目标表格;
基于所述目标表格数据以及所述目标表格数据对应的表格类型,获取结构化表格数据;
基于所述结构化表格数据以及预先获取的已标注标签数据,标注所述目标表格,其中,所述结构化表格数据包括不同结构信息对应的数据,所述已标注标签数据为基于所述目标表格,预先标注标签的数据;
所述基于所述结构化表格数据以及预先获取的已标注标签数据,标注所述目标表格的步骤,包括:
基于所述结构化表格数据,获取所述已标注标签数据对应的结构信息,作为当前结构信息;
基于所述当前结构信息,以及所述结构化表格数据,确定结构信息与所述当前结构信息一致的数据,作为当前数据,其中,所述当前数据为所述目标表格中未标注的数据;
将所述已标注标签数据对应的标签,作为所述当前数据的标签。
2.根据权利要求1所述的方法,其特征在于,在所述基于所述目标表格数据以及所述目标表格数据对应的表格类型,获取结构化表格数据的步骤之前,所述方法还包括:
将所述目标表格数据输入至预先训练好的分类模型,得到所述目标表格数据对应的表格类型,其中,所述分类模型为基于样本表格数据预先训练得到的。
3.根据权利要求1或2所述的方法,其特征在于,所述基于所述待处理文件得到目标表格数据的步骤,包括:
解析所述待处理文件,获取具有层级结构的可编辑数据;
识别所述具有层级结构的可编辑数据,得到目标表格数据。
4.根据权利要求1或2所述的方法,其特征在于,在所述基于所述结构化表格数据以及预先获取的已标注标签数据,标注所述目标表格的步骤之前,所述方法还包括:
接收数据标注指令,并基于所述数据标注指令,获取标注的数据的标注信息,得到已标注标签数据。
5.根据权利要求1或2所述的方法,其特征在于,所述基于所述目标表格数据以及所述目标表格数据对应的表格类型,获取结构化表格数据的步骤,包括:
基于所述目标表格数据对应的表格类型,确定数据存储规则;
基于所述目标表格数据以及所述数据存储规则,得到结构化表格数据。
6.一种智能标注PDF文件中表格的装置,其特征在于,所述装置包括:
第一获取模块,用于获取待处理文件,并基于所述待处理文件得到目标表格数据,其中,所述待处理文件的文件格式为PDF,所述待处理文件包括目标表格;
第二获取模块,用于基于所述目标表格数据以及所述目标表格数据对应的表格类型,获取结构化表格数据;
标注模块,用于基于所述结构化表格数据以及预先获取的已标注标签数据,标注所述目标表格,其中,所述结构化表格数据包括不同结构信息对应的数据,所述已标注标签数据为基于所述目标表格,预先标注标签的数据;
所述标注模块包括:
获取单元,用于基于所述结构化表格数据,获取所述已标注标签数据对应的结构信息,作为当前结构信息;
第一确定单元,用于基于所述当前结构信息,以及所述结构化表格数据,确定结构信息与所述当前结构信息一致的数据,作为当前数据,其中,所述当前数据为所述目标表格中未标注的数据;
第二确定单元,用于将所述已标注标签数据对应的标签,作为所述当前数据的标签。
7.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述智能标注PDF文件中表格的方法的步骤。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述智能标注PDF文件中表格的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210953243.1A CN115017872B (zh) | 2022-08-10 | 2022-08-10 | 智能标注pdf文件中表格的方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210953243.1A CN115017872B (zh) | 2022-08-10 | 2022-08-10 | 智能标注pdf文件中表格的方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115017872A CN115017872A (zh) | 2022-09-06 |
CN115017872B true CN115017872B (zh) | 2022-10-25 |
Family
ID=83066039
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210953243.1A Active CN115017872B (zh) | 2022-08-10 | 2022-08-10 | 智能标注pdf文件中表格的方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115017872B (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11295071B2 (en) * | 2014-12-09 | 2022-04-05 | 100.Co, Llc | Graphical systems and methods for human-in-the-loop machine intelligence |
CN108416279B (zh) * | 2018-02-26 | 2022-04-19 | 北京阿博茨科技有限公司 | 文档图像中的表格解析方法及装置 |
CN110795919B (zh) * | 2019-11-07 | 2023-10-31 | 达观数据有限公司 | 一种pdf文档中的表格抽取方法、装置、设备及介质 |
CN114625820A (zh) * | 2022-02-16 | 2022-06-14 | 武汉大学 | 一种面向人工智能遥感影像解译的样本库系统及组织方法 |
-
2022
- 2022-08-10 CN CN202210953243.1A patent/CN115017872B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115017872A (zh) | 2022-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110795919B (zh) | 一种pdf文档中的表格抽取方法、装置、设备及介质 | |
CN110704633A (zh) | 命名实体识别方法、装置、计算机设备及存储介质 | |
CN108932294B (zh) | 基于索引的简历数据处理方法、装置、设备及存储介质 | |
CN107392143B (zh) | 一种基于svm文本分类的简历精确解析方法 | |
CN112163553B (zh) | 物料价格核算方法、装置、存储介质和计算机设备 | |
CN109002425B (zh) | 企业上下游关系的获取方法、终端设备及介质 | |
CN111444718A (zh) | 一种保险产品需求文档处理方法、装置及电子设备 | |
CN116244410A (zh) | 一种基于知识图谱和自然语言的指标数据分析方法及系统 | |
CN113282498A (zh) | 测试用例的生成方法、装置、设备及存储介质 | |
CN110909768B (zh) | 一种标注数据获取方法及装置 | |
CN112989050B (zh) | 一种表格分类方法、装置、设备及存储介质 | |
CN115017872B (zh) | 智能标注pdf文件中表格的方法、装置及电子设备 | |
CN111241329A (zh) | 基于图像检索的古文字考释方法和装置 | |
CN114154480A (zh) | 信息提取方法、装置、设备和存储介质 | |
CN113033178B (zh) | 用于商业计划书的文本评估方法、装置及计算机 | |
CN112241445B (zh) | 一种标注方法及装置、电子设备、存储介质 | |
CN115829925A (zh) | 外观缺陷检测方法、装置、计算机设备及存储介质 | |
CN106294433B (zh) | 设备信息处理方法及装置 | |
CN114780589A (zh) | 多表连接查询方法、装置、设备及存储介质 | |
JP2015191277A (ja) | データ識別方法、データ識別プログラム及びデータ識別装置 | |
CN114490993A (zh) | 小样本意图识别方法、系统、设备及存储介质 | |
CN114417788A (zh) | 图纸解析方法、装置、存储介质及电子设备 | |
CN110083540B (zh) | 接口测试方法及装置 | |
US11170164B2 (en) | System and method for cell comparison between spreadsheets | |
CN111078574A (zh) | 生成影响分析报告的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |