CN115422340A

CN115422340A - 一种数值提取方法、装置、电子设备及存储介质

Info

Publication number: CN115422340A
Application number: CN202211141324.8A
Authority: CN
Inventors: 赵鹏
Original assignee: Chengdu Knownsec Information Technology Co ltd
Current assignee: Chengdu Knownsec Information Technology Co ltd
Priority date: 2022-09-20
Filing date: 2022-09-20
Publication date: 2022-12-02

Abstract

本发明的实施例提供了一种数值提取方法、装置、电子设备及存储介质，涉及数据处理技术领域，方法包括：获取待提取的PDF文件，确定待提取的PDF文件中的各元素的坐标，基于各元素的坐标，确定待提取的PDF文件中的句子和/或表格，将句子进行解析，得到各词语以及各词语对应的参数信息，基于各词语和各词语对应的参数信息，创建各句子的树形结构，获取用户输入的关键词，基于关键词，从各树形结构中和/或表格中，确定关键词对应的数值。能够快速精确的从大量的PDF文件中找到对应关键词的所有数据，可以降低数据提取成本，避免人工统计造成的提取数据不准确且效率低下的问题。

Description

一种数值提取方法、装置、电子设备及存储介质

技术领域

本发明涉及数据处理技术领域，具体而言，涉及一种数值提取方法、装置、电子设备及存储介质。

背景技术

科技文献是科技发展技术积累的结晶，是现代化企业科学研究、组织生产、提高产品质量必要技术文献。随着科学技术不断发展，科技文献的积累日益丰富，互联网拥有很多公开的PDF科技文献资源，资源中包含了众多有价值、值得挖掘的信息。但是和传统网页，Word，txt等文档相比，科技文献PDF格式多样，也存在缺乏结构信息，提取表格数据，图片数据等非常困难。

目前对于PDF文件中数值的提取一般基于人工方式进行提取，当PDF文件过多，则需要大量的人力对PDF文件中需要的数值进行提取。该种提取方式易出错且效率低下。

发明内容

本发明的目的在于提供一种数值提取方法、装置、电子设备及存储介质，能够提高提取PDF中数值的效率。

为了实现上述目的，本申请实施例采用的技术方案如下：

第一方面，本申请实施例提供了一种数值提取方法，所述方法包括：

获取待提取的PDF文件；

确定所述待提取的PDF文件中的各元素的坐标，其中，各元素包括文字以及线条；

基于各元素的坐标，确定所述待提取的PDF文件中的句子和/或表格；

将所述句子进行解析，得到各词语以及各词语对应的参数信息，其中，所述参数信息包括词语属性以及上下词语关系；

基于各词语和各词语对应的参数信息，创建各句子的树形结构；

获取用户输入的关键词；

基于所述关键词，从各树形结构中和/或表格中，确定所述关键词对应的数值。

在可选的实施方式中，基于各元素的坐标，确定所述待提取的PDF文件中的句子的步骤，包括：

基于各元素的坐标；

确定相邻元素之间的距离；

在相邻元素之间的距离小于预设距离时，基于相邻元素构成句子。

在可选的实施方式中，所述方法还包括：

针对每个句子，确定该句子的第一起始坐标和该句子的下一行句子的第二起始坐标；

在所述第一起始坐标的横坐标和所述第二起始坐标的横坐标相同的情况下，确定该句子预设范围内是否存在线条；

若存在，将各句子构成表格。

在可选的实施方式中，所述基于所述关键词，从各树形结构，确定所述关键词对应的数值的步骤，包括：

基于所述关键词，遍历各树形结构；

在目标树形结构中的目标词语与所述关键词匹配的情况下，确定所述目标词语的词语属性；

在目标词语的词语属性为名词时，在所述目标树形结构中，确定所述目标词语对应的宾语；

获取所述目标树形结构中与所述宾语对应的数值。

在可选的实施方式中，所述基于所述关键词，遍历各树形结构的步骤，包括：

基于所述关键词，通过中序遍历方式遍历各树形结构。

在可选的实施方式中，所述基于所述关键词，从各表格中，确定所述关键词对应的数值的步骤，包括：

基于所述关键词，从各表格中，基于正则匹配的方式确定所述关键词对应的数值。

在可选的实施方式中，所述方法还包括：

将各树形结构和/或各表格基于protobuf格式保存。

第二方面，本申请实施例提供了一种数值提取装置，所述装置包括：

第一获取模块，用于获取待提取的PDF文件；

第一确定模块，用于提取所述待提取的PDF文件中的各元素的坐标，其中，各元素包括文字以及线条；

第二确定模块，用于基于各元素的坐标，确定所述待提取的PDF文件中的句子和/或表格；

解析模块，用于将所述句子进行解析，得到各词语以及各词语对应的参数信息，其中，所述参数信息包括词语属性以及上下词语关系；

创建模块，用于基于各词语和各词语对应的参数信息，创建各句子的树形结构；

第二获取模块，用于获取用户输入的关键词；

第三确定模块，用于基于所述关键词，从各树形结构中和/或表格中，确定所述关键词对应的数值。

第三方面，本申请实施例提供了一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现所述数值提取方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述数值提取方法的步骤。

本申请具有以下有益效果：

本申请通过获取待提取的PDF文件，确定待提取的PDF文件中的各元素的坐标，基于各元素的坐标，确定待提取的PDF文件中的句子和/或表格，将句子进行解析，得到各词语以及各词语对应的参数信息，基于各词语和各词语对应的参数信息，创建各句子的树形结构，获取用户输入的关键词，基于关键词，从各树形结构中和/或表格中，确定关键词对应的数值。能够快速精确的从大量的PDF文件中找到对应关键词的所有数据，可以降低数据提取成本，避免人工统计造成的提取数据不准确且效率低下的问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的电子设备的方框示意图；

图2为本发明实施例提供的一种数值提取的步骤流程示意图之一；

图3为本发明实施例提供的一种数值提取的步骤流程示意图之二；

图4为本发明实施例提供的一种数值提取的步骤流程示意图之三；

图5为本发明实施例提供的待提取的PDF文件的示意图；

图6为本发明实施例提供的一种数值提取的步骤流程示意图之四；

图7为本发明实施例提供的一种数值提取装置的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中，需要说明的是，若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，若出现术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

经过发明人大量研究发现，目前对于PDF文件中数值的提取一般基于人工方式进行提取，当PDF文件过多，则需要大量的人力对PDF文件中需要的数值进行提取。该种提取方式易出错且效率低下。

有鉴于对上述问题的发现，本实施例提供了一种数值提取方法、装置、电子设备及存储介质，能够通过获取待提取的PDF文件，确定待提取的PDF文件中的各元素的坐标，基于各元素的坐标，确定待提取的PDF文件中的句子和/或表格，将句子进行解析，得到各词语以及各词语对应的参数信息，基于各词语和各词语对应的参数信息，创建各句子的树形结构，获取用户输入的关键词，基于关键词，从各树形结构中和/或表格中，确定关键词对应的数值。能够快速精确的从大量的PDF文件中找到对应关键词的所有数据，可以降低数据提取成本，避免人工统计造成的提取数据不准确且效率低下的问题，下面对本实施例提供的方案进行详细阐述。

本实施例提供一种可以对数值进行提取的电子设备。在一种可能的实现方式中，所述电子设备可以为用户终端，例如，电子设备可以是，但不限于，服务器、智能手机、个人电脑(PersonalComputer，PC)、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、移动上网设备(Mobile Internet Device，MID)等。

请参照图1，图1是本申请实施例提供的电子设备100的结构示意图。所述电子设备100还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。

所述电子设备100包括数值提取装置110、存储器120及处理器130。

所述存储器120及处理器130各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述数值提取装置110包括至少一个可以软件或固件(firmware)的形式存储于所述存储器120中或固化在所述电子设备100的操作系统(operating system，OS)中的软件功能模块。所述处理器130用于执行所述存储器120中存储的可执行模块，例如所述数值提取装置110所包括的软件功能模块及计算机程序等。

其中，所述存储器120可以是，但不限于，随机存取存储器(RandomAccess Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable ProgrammableRead-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable ProgrammableRead-Only Memory，EEPROM)等。其中，存储器120用于存储程序，所述处理器130在接收到执行指令后，执行所述程序。

请参照图2，图2为应用于图1的电子设备100的一种数值提取方法的流程图，以下将方法包括各个步骤进行详细阐述。

步骤201：获取待提取的PDF文件。

步骤202：提取待提取PDF文件中的各元素的坐标。

其中，各元素包括文字以及线条。

步骤203：基于各元素的坐标，确定待提取的PDF文件中的句子和/或表格。

步骤204：将句子进行解析，得到各词语以及各词语对应的参数信息。

其中，参数信息包括词语属性以及上下词语关系。

步骤205：基于各词语和各词语对应的参数信息，创建各句子的树形结构。

步骤206：获取用户输入的关键词。

步骤207：基于关键词，从各树形结构中和/或表格中，确定关键词对应的数值。

需要说明的是，待提取的PDF文件可以为金融数据的PDF文件、实验数据的PDF文件、研究数据的PDF文件等，本申请对待提取的PDF文件的类型不作具体限制。

为了便于对待提取的PDF文件中需要的数值的提取，需要先提取待提取的PDF文件中各个元素的坐标，由于待提取的PDF文件中的元素包含文字和线条，确定待提取的PDF文件中的各个文字的坐标和线条的坐标。

需要说明的是，文字的坐标可以将当前页面的左下位置处作为零点，确定文字在当前坐标系中的横坐标和纵坐标，作为文字的坐标。

线条的坐标则可以基于当前页面的左下位置处作为零点，线条可以为与横轴平行的线条和与纵轴平行的线条，当线条为与横轴平行的线条时，确定线条的纵坐标，以及线条的横坐标的开始坐标和横坐标结束坐标，当线条为与纵轴平行的线条时，确定线条的横坐标，以及线条的纵坐标的开始坐标和纵坐标的结束坐标。

基于各元素的坐标之间的关系，确定待提取的PDF文件中的句子和/表格。

在一示例性中，当确定待提取的PDF文件中包含五个文字元素时，确定每个元素的坐标，当相邻两个文字元素的坐标之间的距离小于预设距离时，确定五个元素构成一个句子。将句子进行jieba分词，得到多个词语，并通过NLP自然语言处理句子，确定多个词语的词语属性，例如：词语可以为主语属性、谓语属性、宾语属性、名词、动词等。每个词语之间构成上下词语关系，如，句子为：净利率值为A。将句子分词后，得到净利率值、为、A。“净利率值”为“为”的上一词语，“为”为“净利率值”的下一词语，“A”为“为”的下一词语，将“净利率值”、“为”以及“A”构成树形结构。

在获取到用户输入的关键词时，当关键词为“净利率值”时，可以对每个句子的树形结构进行遍历查找，从树形结构“净利率值”、“为”以及“A”构成树形结构中，确定与关键词对应的数值为“A”，将A提取出来。

在另一示例中，当确定待提取的PDF文件中包含5个句子元素，且确定待提取的PDF文件中还包含线条元素时，在每个句子周围均检测到线条时，确定待提取的PDF文件中的五个句子构成表格。

在另一示例中，当确定待提取的PDF文件中包含10个文字元素，基于各元素的坐标，确定10个文字元素构成两个句子，且第一行句子和第二行句子左对齐，则判定上述两个句子构成表格。

将各树形结构和/或各表格基于protobuf格式保存，避免占用较多存储空间，且可以提高提取速度。

在获取到用户输入的关键词时，可以对每个表格进行查找，从各表格中，确定与关键词对应的数值。

针对如何确定待提取的PDF文件的句子，如图3所示，提供了一种数值提取方法，包括以下步骤：

步骤203-1：基于各元素的坐标。

步骤203-2：确定相邻元素之间的距离。

步骤203-3：在相邻元素之间的距离小于预设距离时，基于相邻元素构成句子。

示例性的，确定待提取的PDF文件中各个文字的坐标，确定相邻两个文字坐标之间的距离，确定两个文字坐标之间的距离的方式有多种，在一示例中，可以基于欧氏距离计算两个坐标之间的距离。

将相邻文字之间的距离与预设距离进行比较，在相邻文字之间的距离大于预设距离，则相邻的文字无法构成句子。在相邻文字之间的距离小于预设距离时，基于相邻元素构成句子。

需要说明的是，预设距离可以设置为3mm、4mm、5mm等，本申请对此不作具体限制。

针对如何确定待提取的PDF文件的表格，如图4所示，提供了一种数值提取方法，包括以下步骤：

步骤301：针对每个句子，确定该句子的第一起始坐标和该句子的下一行句子的第二起始坐标。

步骤302：在第一起始坐标的横坐标和第二起始坐标的横坐标相同的情况下，确定该句子预设范围内是否存在线条。

步骤303：若存在，将各句子构成表格。

示例性的，在确定待提取的PDF文件中的表格时，先确定获取的各个文字元素的坐标，基于各文字元素的坐标，构成句子，再确定每个句子的第一起始坐标，确定每个句子的第一起始坐标和下一行句子的第二起始坐标，在第一起始坐标和第二起始坐标的横坐标相同时，并且在句子的预设范围内存在线条，即句子中的包含某一个文字元素和线条的距离满足预设条件时，将句子满足条件的句子构成表格，预设条件即为该句子的预设范围内存在线条。

示例性的，如图5所示，为待提取的PDF文件，图中确定的句子为第一列中的句子，确定第一行第一列的句子与第二行第一列的句子的第一起始坐标和第二起始坐标，即确定“主要会计数据”的第一起始坐标和“业营业总收入”的第二起始坐标，确定“主要会计数据”的第一起始坐标和“业营业总收入”的第二起始坐标的横坐标相同，对每个句子均确定每个句子和下一行句子的第一起始坐标和第二起始坐标，确定所有满足第一起始坐标和第二起始坐标的横坐标相同的句子，确定每个句子的预设范围内是否存在线条，在存在线条的各句子构成表格。

在确定待提取的PDF文件的表格时，在另一实例中，分别确定每个句子和下一行句子的第一起始坐标和第二起始坐标，确定所有满足第一起始坐标和第二起始坐标的横坐标相同的句子，将横坐标相同的句子构成表格。

针对基于用户输入的关键词，从句子的树形结构中确定数值，如图6所示，提供了一种数值提取方法，包括以下步骤：

步骤207-1：基于所述关键词，遍历各树形结构。

步骤207-2：在目标树形结构中的目标词语与所述关键词匹配的情况下，确定所述目标词语的词语属性。

步骤207-3：在目标词语的词语属性为名词时，在所述目标树形结构中，确定所述目标词语对应的宾语。

步骤207-4：获取所述目标树形结构中与所述宾语对应的数值。

遍历每个句子对应的树形结构，在检测到与关键词匹配的树形结构时，将匹配的树形结构确定为目标树形结构，从目标树形结构中确定与关键词匹配的目标词语的词语属性，当目标词语为名词时，确定目标树形结构中目标词语的宾语，在目标树形结构中确定宾语后的数值，将该数值输出。

在另一实例中，可以将多个句子构成段落，基于段落中各词语和各词语的词语属性，构成段落对应的树形结构，在接收到用户输入的关键词时，遍历各个段落对应的树形结构，从各树形结构中提取与关键词对应的数值。

需要说明的是，基于关键词，对于树形结构的遍历，可以通过前序遍历、中序遍历或者后序遍历的方式从树形结构中确定关键词对应的数值，本申请对于遍历方式不作具体限制。

当需要从待提取的PDF文件的表格中确定关键词对应的数值时，可以基于正则匹配的方式，从表格中确定关键词对应的数值。

请参照图7，本申请实施例还提供了一种应用于图1所述电子设备100的数值提取装置110，所述数值提取装置110包括：

第一获取模块111，用于获取待提取的PDF文件；

第一确定模块112，用于提取所述待提取的PDF文件中的各元素的坐标，其中，各元素包括文字以及线条；

第二确定模块113，用于基于各元素的坐标，确定所述待提取的PDF文件中的句子和/或表格；

解析模块114，用于将所述句子进行解析，得到各词语以及各词语对应的参数信息，其中，所述参数信息包括词语属性以及上下词语关系；

创建模块115，用于基于各词语和各词语对应的参数信息，创建各句子的树形结构；

第二获取模块116，用于获取用户输入的关键词；

第三确定模块117，用于基于所述关键词，从各树形结构中和/或表格中，确定所述关键词对应的数值。

优选地，所述第二确定模块113还用于：

基于各元素的坐标；

确定相邻元素之间的距离；

优选地，所述装置还包括：

第四确定模块，用于针对每个句子，确定该句子的第一起始坐标和该句子的下一行句子的第二起始坐标；

第五确定模块，用于在所述第一起始坐标的横坐标和所述第二起始坐标的横坐标相同的情况下，确定该句子预设范围内是否存在线条；

构建模块，用于若存在，将各句子构成表格。

优选地，所述第三确定模块117还用于：

基于所述关键词，遍历各树形结构；

获取所述目标树形结构中与所述宾语对应的数值。

优选地，所述第三确定模块117还用于：

基于所述关键词，通过中序遍历方式遍历各树形结构。

优选地，所述第三确定模块117还用于：

优选地，将各树形结构和/或各表格基于protobuf格式保存。

本申请还提供一种电子设备100，电子设备100包括处理器130以及存储器120。存储器120存储有计算机可执行指令，计算机可执行指令被处理器130执行时，实现该数值提取方法。

本申请实施例还提供一种计算机可读存储介质，存储介质存储有计算机程序，计算机程序被处理器130执行时，实现该数值提取方法。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述，仅为本申请的各种实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种数值提取方法，其特征在于，所述方法包括：

获取待提取的PDF文件；

获取用户输入的关键词；

2.根据权利要求1所述的方法，其特征在于，基于各元素的坐标，确定所述待提取的PDF文件中的句子的步骤，包括：

基于各元素的坐标；

确定相邻元素之间的距离；

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

若存在，将各句子构成表格。

4.根据权利要求1所述的方法，其特征在于，所述基于所述关键词，从各树形结构，确定所述关键词对应的数值的步骤，包括：

基于所述关键词，遍历各树形结构；

获取所述目标树形结构中与所述宾语对应的数值。

5.根据权利要求4所述的方法，其特征在于，所述基于所述关键词，遍历各树形结构的步骤，包括：

基于所述关键词，通过中序遍历方式遍历各树形结构。

6.根据权利要求1所述的方法，其特征在于，所述基于所述关键词，从各表格中，确定所述关键词对应的数值的步骤，包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将各树形结构和/或各表格基于protobuf格式保存。

8.一种数值提取装置，其特征在于，所述装置包括：

第一获取模块，用于获取待提取的PDF文件；

第二获取模块，用于获取用户输入的关键词；

9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1-7任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。