CN116089515A

CN116089515A - 一种数据抽取方法、装置、电子设备及存储介质

Info

Publication number: CN116089515A
Application number: CN202310080514.1A
Authority: CN
Inventors: 杨波; 邱炜远; 张大鹏; 江张鹏; 敖宇钢; 秦艺文; 刘新超; 陈鹏
Original assignee: Peoples Insurance Company of China
Current assignee: Peoples Insurance Company of China
Priority date: 2023-01-18
Filing date: 2023-01-18
Publication date: 2023-05-09

Abstract

本申请公开了一种数据抽取方法，以解决通过ETL技术抽取、同步SAP系统生产库的数据时，数据抽取效率较低的问题。方法包括：预测待抽取数据中各子数据的抽取时长；根据各子数据的抽取时长和历史平均抽取时长，对各子数据进行数据拆分和/或数据合并处理，得到具备均衡抽取时长的各目标子数据；其中，各目标子数据满足：不同的目标子数据的均衡抽取时长之差小于等于预设时长差阈值；按照调用不同的数据抽取服务器抽取相同数量的目标子数据的调用方式，分别调用数据抽取服务器对目标子数据同步进行数据抽取。本申请还公开一种数据抽取装置、电子设备及计算机可读存储介质。

Description

一种数据抽取方法、装置、电子设备及存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种数据抽取方法、装置、电子设备及计算机可读存储介质。

背景技术

数据处理中的系统应用和产品(systems applications and products in dataprocessing，SAP)系统，作为主要的企业资源管理系统，承载着企业各个部门的大量业务原始单据、明细数据。相关技术中，为了节约SAP系统的存储资源，通常会通过SAP系统的数据仓库技术(Extract-Transform-Load，ETL)定期将SAP系统生产库的数据抽取、同步到HANA数据库，并在数据抽取完成后从SAP系统生产库中删除对应的源数据。

然而，采用上述相关技术进行数据抽取时，由于通常是直接将SAP系统生产库中待抽取的子数据分别分配至多个数据抽取服务器进行数据抽取，并不考虑各子数据的数据量大小，这样，对于处理数据量较小的数据抽取服务器而言，仅需花费较少数据抽取时间进行数据抽取，并且数据抽取之后大部分时间处于空闲状态；而对于处理数据量较大的数据抽取服务器，则需要花费较多数据抽取时间进行数据抽取，大部分时间处于繁忙状态，总而言之，也即各数据抽取服务器的数据抽取时间不均衡，从而导致整体数据抽取效率较低，难以保证后续数据分析的实时性。

发明内容

本申请实施例提供一种数据抽取方法，用以解决现有技术中通过ETL技术抽取、同步SAP系统生产库的数据时，整体数据抽取效率较低的问题。

本申请实施例还提供一种数据抽取装置，一种电子设备，以及一种计算机可读存储介质。

本申请实施例采用下述技术方案：

一种数据抽取方法，包括：

预测待抽取数据中各子数据的抽取时长；

根据各子数据的抽取时长和历史平均抽取时长，对各子数据进行数据拆分和/或数据合并处理，得到具备均衡抽取时长的各目标子数据；其中，各目标子数据满足：不同的目标子数据的均衡抽取时长之差小于等于预设时长差阈值；

按照调用不同的数据抽取服务器抽取相同数量的目标子数据的调用方式，分别调用数据抽取服务器对目标子数据同步进行数据抽取。

可选的，根据各子数据的抽取时长和历史平均抽取时长，对各子数据进行数据拆分和/或数据合并处理，得到具备均衡抽取时长的各目标子数据，包括：

根据各子数据的知识网络描述，确定各子数据的分区信息；其中，知识网络描述包括子数据的名称和主键；分区信息用于表征子数据的执行区域；

根据各子数据的分区信息，分别计算各子数据的执行区域的历史平均抽取时长；

根据各子数据的抽取时长和历史平均抽取时长，对各子数据进行数据拆分和/或数据合并处理，得到具备均衡抽取时长的各目标子数据。

可选的，根据各子数据的知识网络描述，确定各子数据的分区信息，包括：

根据各子数据，以及各子数据的名称、主键和外键，构建知识网络；其中，各子数据为知识网络的网络节点，各子数据的名称和主键用于生成知识网络的知识网络描述，各子数据的外键用于确定网络节点之间的关系；

基于知识网络，将知识网络描述相同的各子数据划分为同一执行分区，以确定各子数据的分区信息。

可选的，根据各子数据的分区信息，分别计算各子数据的执行区域的历史平均抽取时长，包括：

根据各子数据的分区信息，确定各子数据的执行分区的总数量；

计算各子数据的执行分区的总数据抽取时长；

根据各子数据的执行分区的总数量和各子数据的执行分区的总数据抽取时长，分别计算各子数据的执行区域的历史平均抽取时长。

根据各子数据的抽取时长和历史平均抽取时长，对抽取时长小于历史平均抽取时长的子数据进行数据合并处理，得到具备均衡抽取时长的各目标子数据；和/或，

根据各子数据的抽取时长和历史平均抽取时长，对抽取时长大于等于历史平均抽取时长的子数据进行数据拆分处理，得到具备均衡抽取时长的各目标子数据。

可选的，按照调用不同的数据抽取服务器抽取相同数量的目标子数据的调用方式，分别调用数据抽取服务器对目标子数据同步进行数据抽取，包括：

根据知识网络的有向边，确定各目标子数据的调度路径；

根据调度路径，按照调用不同的数据抽取服务器抽取相同数量的目标子数据的调用方式，分别调用数据抽取服务器对目标子数据同步进行数据抽取。

可选的，预测待抽取数据中各子数据的抽取时长，包括：

计算待抽取数据中各子数据的数据量；

根据各子数据的数据量、历史抽取数据的数据量以及历史抽取数据的历史抽取时长，预测待抽取数据中各子数据的抽取时长。

一种数据抽取装置，包括预测模块、处理模块和抽取模块，其中：

预测模块，用于预测待抽取数据中各子数据的抽取时长；

处理模块，用于根据各子数据的抽取时长和历史平均抽取时长，对各子数据进行数据拆分和/或数据合并处理，得到具备均衡抽取时长的各目标子数据；

抽取模块，用于按照调用不同的数据抽取服务器抽取相同数量的目标子数据的调用方式，分别调用数据抽取服务器对目标子数据同步进行数据抽取。

可选的，处理模块，包括：

确定单元，用于根据各子数据的知识网络描述，确定各子数据的分区信息；其中，知识网络描述包括子数据的名称和主键；分区信息用于表征子数据的执行区域；

计算单元，用于根据各子数据的分区信息，分别计算各子数据的执行区域的历史平均抽取时长；

处理单元，用于根据各子数据的抽取时长和历史平均抽取时长，对各子数据进行数据拆分和/或数据合并处理，得到具备均衡抽取时长的各目标子数据。

可选的，确定单元，用于：

可选的，计算单元，包括：

计算各子数据的执行分区的总数据抽取时长；

可选的，处理模块，用于：

可选的，抽取模块，用于：

根据知识网络的有向边，确定各目标子数据的调度路径；

可选的，预测模块，用于：

计算待抽取数据中各子数据的数据量；

一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的数据抽取方法的步骤。

一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的数据抽取方法的步骤。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：

采用本申请实施例提供的方法，可以先预测待抽取数据中各子数据的抽取时长；然后，根据各子数据的抽取时长和历史平均抽取时长，对各子数据进行数据拆分和/或数据合并处理，得到具备均衡抽取时长的各目标子数据；其中，各目标子数据满足：不同的目标子数据的均衡抽取时长之差小于等于预设时长差阈值；最后，按照调用不同的数据抽取服务器抽取相同数量的目标子数据的调用方式，分别调用数据抽取服务器对目标子数据同步进行数据抽取，这样，由于各数据抽取服务器抽取的各目标子数据具备均衡抽取时长，因此，可以保证各数据抽取服务器对各目标子数据进行抽取时所花费的抽取时长均衡，从而可以解决现有技术通过ETL技术抽取、同步SAP系统生产库的数据时，由于未考虑各子数据的数据量大小，导致整体数据抽取效率较低的问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1a为本申请实施例提供的一种数据抽取方法的实现流程示意图；

图1b为本申请实施例提供的历史抽取数据的历史抽取时长的示意图；

图1c为本申请实施例提供的根据各子数据的抽取时长和历史平均抽取时长，对各子数据进行数据拆分和/或数据合并处理的实现流程示意图；

图1d为本申请实施例中提供的一种知识网络的结构示意图；

图1e为SAP系统的近线库视图重建的操作界面；

图2为本申请实施例提供一种数据抽取装置的具体结构示意图；

图3为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请各实施例提供的技术方案。

实施例1

相关技术中，为了节约SAP系统的存储资源，通常会通过SAP系统的数据仓库技术(Extract-Transform-Load，ETL)定期将SAP系统生产库的数据抽取、同步到HANA数据库，并在数据抽取完成后从SAP系统生产库中删除对应的源数据。其中，HANA数据库一方面可以实现数据超高的压缩比例，降低内存负担；另一方面，HANA数据库可以在后续实现较快的数据查询速度。

例如，现有SAP系统的财务数据会在财务月结完成后(大约在每月的8日完成)，跑定时ETL作业(比如，每月的10日)，以将SAP系统中上个月的财务明细数据，从生产库抽取到近线库HANA数据库，并进行数据比对，待数据完全一致后，完成归档。同时，在生产库执行历史数据删除，仅保留预设时间段内(比如，12个月)的财务明细数据，而将预设时间段以前的历史数据先与近线库比对，若完全一致，则进行删除。

为解决现有技术中通过ETL技术抽取、同步SAP系统生产库的数据时，由于未考虑各子数据的数据量大小，导致整体数据抽取效率较低的问题，本申请实施例提供一种数据抽取方法，可以先预测待抽取数据中各子数据的抽取时长；然后，根据各子数据的抽取时长和历史平均抽取时长，对各子数据进行数据拆分和/或数据合并处理，得到具备均衡抽取时长的各目标子数据；其中，各目标子数据满足：不同的目标子数据的均衡抽取时长之差小于等于预设时长差阈值；最后，按照调用不同的数据抽取服务器抽取相同数量的目标子数据的调用方式，分别调用数据抽取服务器对目标子数据同步进行数据抽取。

该方法的执行主体，可以是各种类型的计算设备，或者，可以是安装于计算设备上的应用程序或应用(Application，APP)。所述的计算设备，比如可以是手机、平板电脑、智能可穿戴设备等用户终端，也可以是服务器等。

为便于描述，本申请实施例以该方法的执行主体为服务器为例，对该方法进行介绍。本领域技术人员可以理解，本申请实施例以该服务器为例对方法进行介绍，仅是一种示例性说明，并不对本方案对应的权利要求保护范围构成限制。

具体地，本申请实施例提供的该方法的实现流程如图1a所示，包括如下步骤：

步骤11，预测待抽取数据中各子数据的抽取时长。

待抽取数据，是指根据实际需求确定的需要进行数据抽取的数据库中的目标数据。例如，若根据实际需求确定需要对数据库A进行全量抽取，则待抽取数据为数据库A中的全部数据。其中，全量抽取类似于数据迁移或数据复制，可以将数据源中的所有表或所有视图原封不动的从数据库中抽取出来，并转换成自己的ETL工具可以识别的格式。

或者，若根据实际需求确定需要对数据库B进行增量抽取，则待抽取数据为数据库B中的增量数据，也即数据库B中新增或者发生修改的数据。其中，增量抽取是指仅将数据源中自最近一次抽取以来新增或发生修改的数据(例如，新增或者发生修改的表或视图)从数据库中抽取出来，并转换成自己的ETL工具可以识别的格式。可选的，在确定待抽取的增量数据时，可以采用时间戳方法，也即基于快照比较的变化数据捕获方式，具体地，可以在源表上增加一个时间戳字段，待SAP系统中更新、修改表数据的时候，同时修改时间戳字段的值。当进行数据抽取时，则可以通过比较上次抽取时间与时间戳字段的值来确定待抽取的增量数据。

待抽取数据中的子数据，可以理解为待抽取数据中的部分数据。例如，以待抽取数据为多个表或多个视图为例，则待抽取数据中的子数据可以指多个表中的一个表，或者，可以指多个视图中的一个视图。

抽取时长，是指数据抽取服务器对待抽取数据中各子数据进行抽取时所耗费的时长。

本申请实施例中，预测待抽取数据中各子数据的抽取时长时，可以先计算待抽取数据中各子数据的数据量；然后，根据各子数据的数据量、历史抽取数据的数据量以及历史抽取数据的历史抽取时长，预测待抽取数据中各子数据的抽取时长。

实际应用场景中，在计算得到待抽取数据中各子数据的数据量之后，可以根据各子数据的字段信息(例如，表名称或者表ID)确定在历史月份中数据抽取服务器对各历史子数据进行抽取时所耗费的历史抽取时长，以及各历史子数据的数据量，然后，根据历史抽取数据的数据量以及历史抽取数据的历史抽取时长计算单位数据量所耗费的单位抽取时长；最后，根据各子数据的数据量以及计算得到的单位抽取时长，预测待抽取数据中各子数据的抽取时长。

例如，如图1b所示，假设需要预测表ID为EA71883A660B1EDCADF843743FAC8A3B的表中的数据的抽取时长，则可以根据该表ID确定在历史月份中数据抽取服务器对该表中的历史数据进行抽取时所耗费的历史抽取时长，以及抽取的各历史子数据的数据量；然后，根据各子数据的数据量、历史抽取数据的数据量以及历史抽取数据的历史抽取时长，预测待抽取数据中各子数据的抽取时长。如图1b所示，根据表ID(EA71883A660B1EDCADF843743FAC8A3B)进行查询后可以确定数据抽取服务器在2022年4月份对该表中的历史数据进行了两次数据抽取，其中，第一次数据抽取耗费的历史抽取时长为5948单位时间(也即图1b中的“总执行时长”)，第二次数据抽取耗费的历史抽取时长为10740单位时间(也即图1b中的“总执行时长”)。然后，可以进一步获取第一次数据抽取和第二次数据抽取对应的历史抽取数据的数据量，并基于确定的历史抽取时长和历史抽取数据的数据量计算单位数据量抽取时所耗费的单位抽取时长；最后，可以根据单位数据量抽取时所耗费的单位抽取时长以及各子数据的数据量，预测待抽取数据中各子数据的抽取时长。

步骤12，根据各子数据的抽取时长和历史平均抽取时长，对各子数据进行数据拆分和/或数据合并处理，得到具备均衡抽取时长的各目标子数据；其中，各目标子数据满足：不同的目标子数据的均衡抽取时长之差小于等于预设时长差阈值。

本申请实施例中，考虑到相关技术进行数据抽取时，由于通常是直接将SAP系统生产库中待抽取的子数据分别分配至多个数据抽取服务器进行数据抽取，并不考虑各子数据的数据量大小，这样，可能使得各数据抽取服务器的数据抽取时间不均衡，从而导致整体数据抽取效率较低，难以保证后续数据分析的实时性。为了避免该问题，本申请实施例中可以根据各子数据的抽取时长和历史平均抽取时长，对各子数据进行数据拆分和/或数据合并处理，从而得到具备均衡抽取时长的各目标子数据。

如图1c所示，本申请实施例中，根据各子数据的抽取时长和历史平均抽取时长，对各子数据进行数据拆分和/或数据合并处理时，可以按照如下步骤121～步骤123实现：

步骤121，根据各子数据的知识网络描述，确定各子数据的分区信息；其中，知识网络描述包括子数据的名称和主键；分区信息用于表征子数据的执行区域。

本申请实施例中，根据各子数据的知识网络描述，确定各子数据的分区信息时，可以先根据各子数据，以及各子数据的名称、主键和外键，构建知识网络；其中，各子数据为知识网络的网络节点，各子数据的名称和主键用于生成知识网络的知识网络描述，各子数据的外键用于确定网络节点之间的关系；然后，基于知识网络，将知识网络描述相同的各子数据划分为同一执行分区，以确定各子数据的分区信息。

其中，知识网络可以是有向图结构，有向图结构中的各网络节点可以由各子数据构成；有向图结构中的“边”可以用于表征各子数据之间的关系，可以通过各子数据的外键确定。

如图1d所示，为本申请实施例中提供的一种知识网络的结构示意图，该结构示意图中各圆点为知识网络的网络节点，不同的圆点之间的连线为知识网络的“边”。

其次，本申请实施例中，将知识网络描述相同的各子数据划分为同一执行分区，也即将名称和主键相同的子数据划分为同一执行分区。

例如，如图1e所示，为我公司的SAP系统的近线库视图重建的操作界面，操作界面中展示了部分可抽取到近线库的任务表清单，在构建该部分任务表的知识网络时，可以将每个表对应为知识网络中的一个节点，例如，将收付费系统接口-财务单证表对应为知识网络中的节点1；将收付费系统接口-原保险业务单证主表对应为知识网络中的节点2；将收付费系统接口-财务凭证跟踪表对应为知识网络中的节点3等等，以此类推，最终生成的知识网络的网络节点数量与所有任务表的数量相同。

同时，可以根据每个表的名称和主键生成每个表的知识网络描述，例如，将收付费系统接口-财务单证表的知识网络描述确定为“收付费系统接口-财务单证”。

最后，基于构建的知识网络，将知识网络描述相同的各子数据划分为同一执行分区，以确定各子数据的分区信息。例如，沿用图1e，从图1e中可以看出，收付费系统接口-财务单证和收付费系统接口-财务单证汇总表的知识网络描述相同，因此，可以将收付费系统接口-财务单证和收付费系统接口-财务单证汇总表划分为同一执行分区。

步骤122，根据各子数据的分区信息，分别计算各子数据的执行区域的历史平均抽取时长。

本申请实施例中，根据各子数据的分区信息分别计算各子数据的执行区域的历史平均抽取时长时，可以先根据各子数据的分区信息，确定各子数据的执行分区的总数量；然后，计算各子数据的执行分区的总数据抽取时长；最后，根据各子数据的执行分区的总数量和各子数据的执行分区的总数据抽取时长，分别计算各子数据的执行区域的历史平均抽取时长。

步骤123，根据各子数据的抽取时长和历史平均抽取时长，对各子数据进行数据拆分和/或数据合并处理，得到具备均衡抽取时长的各目标子数据。

在一种可选的实施方式中，可以根据各子数据的抽取时长和历史平均抽取时长，对抽取时长小于历史平均抽取时长的子数据进行数据合并处理，得到具备均衡抽取时长的各目标子数据；和/或，对抽取时长大于等于历史平均抽取时长的子数据进行数据拆分处理，得到具备均衡抽取时长的各目标子数据。

例如，假设历史平均抽取时长为40秒，子数据A预测的抽取时长为10秒，子数据B预测的抽取时长为25秒，子数据C预测的抽取时长为75秒，则为了保证各子数据的抽取时长均衡，本申请实施例中，可以将子数据A和子数据B进行数据合并处理，然后将合并后的数据发送至同一数据抽取服务器进行数据抽取；以及，对子数据C进行数据拆分处理，比如可以将子数据C拆分为抽取时长分别为40秒的数据C1和35秒的数据C2两部分数据。

需要说明的是，上述将子数据C拆分为抽取时长分别为40秒的数据C1和35秒的数据C2两部分数据仅是本申请实施例的一种示例性说明，并不对本申请实施例造成任何限定。

再例如，假设历史平均抽取时长为40秒，子数据A预测的抽取时长为15秒，子数据B预测的抽取时长为25秒，子数据C预测的抽取时长为70秒，则为了保证各子数据的抽取时长均衡，本申请实施例中，可以将子数据C拆分为抽取时长分别为40秒的数据C1、15秒的数据C2，以及15秒的数据C3三部分数据；然后，将C1发送至数据抽取服务器1进行数据抽取；将数据C2和子数据A或者子数据B进行数据合并处理，并将合并后的数据发送至数据抽取服务器2进行数据抽取；将数据C3和数据C2合并剩下的子数据(子数据A或者子数据B)进行数据合并处理，并将合并后的数据发送至数据抽取服务器3进行数据抽取。

通过上述步骤123，可以根据各子数据的抽取时长和历史平均抽取时长，对各子数据进行二次划分，这样，可以使得每个执行分区中待抽取的子数据的抽取时长保持在平均状态，这样，可以避免由于未考虑各子数据的数据量大小，使得某些子数据的数据量过大，需要耗费较长抽取时间，从而导致整体数据抽取效率较低的问题。

步骤13，按照调用不同的数据抽取服务器抽取相同数量的目标子数据的调用方式，分别调用数据抽取服务器对目标子数据同步进行数据抽取。

本申请实施例中，在执行步骤13时，可以先根据知识网络的有向边，确定各目标子数据的调度路径；然后，根据调度路径，按照调用不同的数据抽取服务器抽取相同数量的目标子数据的调用方式，分别调用数据抽取服务器对目标子数据同步进行数据抽取。

通过步骤13的实施方式，可以将各子数据的抽取任务平均分配到多条抽取路径上，而且每条任务执行路径保持接近的抽取时长，从而避免相关技术中通过单个数据抽取服务器对所有待抽取数据进行数据抽取时造成的单点抽取压力，以及避免由于各子数据的数据量不均衡，导致整体数据抽取效率较低的问题。

采用本申请实施例提供的该方法，可以先预测待抽取数据中各子数据的抽取时长；然后，根据各子数据的抽取时长和历史平均抽取时长，对各子数据进行数据拆分和/或数据合并处理，得到具备均衡抽取时长的各目标子数据；其中，各目标子数据满足：不同的目标子数据的均衡抽取时长之差小于等于预设时长差阈值；最后，按照调用不同的数据抽取服务器抽取相同数量的目标子数据的调用方式，分别调用数据抽取服务器对目标子数据同步进行数据抽取，这样，由于各数据抽取服务器抽取的各目标子数据具备均衡抽取时长，因此，可以保证各数据抽取服务器对各目标子数据进行抽取时所花费的抽取时长均衡，从而可以解决现有技术通过ETL技术抽取、同步SAP系统生产库的数据时，由于未考虑各子数据的数据量大小，导致整体数据抽取效率较低的问题。

实施例2

为解决现有技术中通过ETL技术抽取、同步SAP系统生产库的数据时，由于未考虑各子数据的数据量大小，导致整体数据抽取效率较低的问题，本申请实施例提供一种数据抽取装置20，该装置20的具体结构示意图如图2所示，包括预测模块21、处理模块22和抽取模块23，其中：

预测模块21，用于预测待抽取数据中各子数据的抽取时长；

处理模块22，用于根据各子数据的抽取时长和历史平均抽取时长，对各子数据进行数据拆分和/或数据合并处理，得到具备均衡抽取时长的各目标子数据；

抽取模块23，用于按照调用不同的数据抽取服务器抽取相同数量的目标子数据的调用方式，分别调用数据抽取服务器对目标子数据同步进行数据抽取。

可选的，处理模块22，包括：

可选的，确定单元，用于：

可选的，计算单元，包括：

计算各子数据的执行分区的总数据抽取时长；

可选的，处理模块22，用于：

可选的，抽取模块23，用于：

根据知识网络的有向边，确定各目标子数据的调度路径；

可选的，预测模块21，用于：

计算待抽取数据中各子数据的数据量；

采用本申请实施例提供的该装置，可以先预测待抽取数据中各子数据的抽取时长；然后，根据各子数据的抽取时长和历史平均抽取时长，对各子数据进行数据拆分和/或数据合并处理，得到具备均衡抽取时长的各目标子数据；其中，各目标子数据满足：不同的目标子数据的均衡抽取时长之差小于等于预设时长差阈值；最后，按照调用不同的数据抽取服务器抽取相同数量的目标子数据的调用方式，分别调用数据抽取服务器对目标子数据同步进行数据抽取，这样，由于各数据抽取服务器抽取的各目标子数据具备均衡抽取时长，因此，可以保证各数据抽取服务器对各目标子数据进行抽取时所花费的抽取时长均衡，从而可以解决现有技术通过ETL技术抽取、同步SAP系统生产库的数据时，由于未考虑各子数据的数据量大小，导致整体数据抽取效率较低的问题。

实施例3

图3为实现本申请各个实施例的一种电子设备的硬件结构示意图，该电子设备300包括但不限于：射频单元301、网络模块302、音频输出单元303、输入单元304、传感器305、显示单元306、用户输入单元307、接口单元308、存储器309、处理器310、以及电源311等部件。本领域技术人员可以理解，图3中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本申请实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

其中，处理器310，用于预测待抽取数据中各子数据的抽取时长；根据各子数据的抽取时长和历史平均抽取时长，对各子数据进行数据拆分和/或数据合并处理，得到具备均衡抽取时长的各目标子数据；其中，各目标子数据满足：不同的目标子数据的均衡抽取时长之差小于等于预设时长差阈值；按照调用不同的数据抽取服务器抽取相同数量的目标子数据的调用方式，分别调用数据抽取服务器对目标子数据同步进行数据抽取。

计算各子数据的执行分区的总数据抽取时长；

根据知识网络的有向边，确定各目标子数据的调度路径；

可选的，预测待抽取数据中各子数据的抽取时长，包括：

计算待抽取数据中各子数据的数据量；

存储器309，用于存储可在处理器310上运行的计算机程序，该计算机程序被处理器310执行时，实现处理器310所实现的上述功能。

应理解的是，本申请实施例中，射频单元301可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器310处理；另外，将上行的数据发送给基站。通常，射频单元301包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元301还可以通过无线通信系统与网络和其他设备通信。

电子设备通过网络模块302为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元303可以将射频单元301或网络模块302接收的或者在存储器309中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元303还可以提供与电子设备300执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元303包括扬声器、蜂鸣器以及受话器等。

输入单元304用于接收音频或视频信号。输入单元304可以包括图形处理器(Graphics Processing Unit，GPU)3041和麦克风3042，图形处理器3041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元306上。经图形处理器3041处理后的图像帧可以存储在存储器309(或其它存储介质)中或者经由射频单元301或网络模块302进行发送。麦克风3042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元301发送到移动通信基站的格式输出。

电子设备300还包括至少一种传感器305，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板3061的亮度，接近传感器可在电子设备300移动到耳边时，关闭显示面板3061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器305还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元306用于显示由用户输入的信息或提供给用户的信息。显示单元306可包括显示面板3061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板3061。

用户输入单元307可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元307包括触控面板3071以及其他输入设备3072。触控面板3071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板3071上或在触控面板3071附近的操作)。触控面板3071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器310，接收处理器310发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板3071。除了触控面板3071，用户输入单元307还可以包括其他输入设备3072。具体地，其他输入设备3072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板3071可覆盖在显示面板3061上，当触控面板3071检测到在其上或附近的触摸操作后，传送给处理器310以确定触摸事件的类型，随后处理器310根据触摸事件的类型在显示面板3061上提供相应的视觉输出。虽然在图3中，触控面板3071与显示面板3061是作为两个独立的部件来实现电子设备的输入和输出功能，但是在某些实施例中，可以将触控面板3071与显示面板3061集成而实现电子设备的输入和输出功能，具体此处不做限定。

接口单元308为外部装置与电子设备300连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元308可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到电子设备300内的一个或多个元件或者可以用于在电子设备300和外部装置之间传输数据。

存储器309可用于存储软件程序以及各种数据。存储器309可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器309可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器310是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器309内的软件程序和/或模块，以及调用存储在存储器309内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。处理器310可包括一个或多个处理单元；优选的，处理器310可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器310中。

电子设备300还可以包括给各个部件供电的电源311(比如电池)，优选的，电源311可以通过电源管理系统与处理器310逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，电子设备300包括一些未示出的功能模块，在此不再赘述。

优选的，本申请实施例还提供一种电子设备，包括处理器310，存储器309，存储在存储器309上并可在所述处理器310上运行的计算机程序，该计算机程序被处理器310执行时实现上述数据抽取方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述数据抽取方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种数据抽取方法，其特征在于，包括：

预测待抽取数据中各子数据的抽取时长；

根据各所述子数据的所述抽取时长和历史平均抽取时长，对各所述子数据进行数据拆分和/或数据合并处理，得到具备均衡抽取时长的各目标子数据；其中，所述各目标子数据满足：不同的所述目标子数据的均衡抽取时长之差小于等于预设时长差阈值；

按照调用不同的数据抽取服务器抽取相同数量的目标子数据的调用方式，分别调用数据抽取服务器对所述目标子数据同步进行数据抽取。

2.如权利要求1所述的方法，其特征在于，根据各所述子数据的所述抽取时长和历史平均抽取时长，对各所述子数据进行数据拆分和/或数据合并处理，得到具备均衡抽取时长的各目标子数据，包括：

根据各所述子数据的知识网络描述，确定各所述子数据的分区信息；其中，所述知识网络描述包括所述子数据的名称和主键；所述分区信息用于表征所述子数据的执行区域；

根据各所述子数据的所述分区信息，分别计算各所述子数据的所述执行区域的所述历史平均抽取时长；

根据各所述子数据的所述抽取时长和所述历史平均抽取时长，对各所述子数据进行数据拆分和/或数据合并处理，得到具备均衡抽取时长的各所述目标子数据。

3.如权利要求2所述的方法，其特征在于，根据各所述子数据的知识网络描述，确定各所述子数据的分区信息，包括：

根据各所述子数据，以及各所述子数据的所述名称、所述主键和所述外键，构建知识网络；其中，各所述子数据为所述知识网络的网络节点，各所述子数据的所述名称和所述主键用于生成所述知识网络的所述知识网络描述，各所述子数据的所述外键用于确定所述网络节点之间的关系；

基于所述知识网络，将所述知识网络描述相同的各所述子数据划分为同一执行分区，以确定各所述子数据的所述分区信息。

4.如权利要求2所述的方法，其特征在于，根据各所述子数据的所述分区信息，分别计算各所述子数据的所述执行区域的所述历史平均抽取时长，包括：

根据各所述子数据的所述分区信息，确定各所述子数据的所述执行分区的总数量；

计算各所述子数据的所述执行分区的总数据抽取时长；

根据各所述子数据的所述执行分区的所述总数量和各所述子数据的所述执行分区的所述总数据抽取时长，分别计算各所述子数据的所述执行区域的所述历史平均抽取时长。

5.如权利要求1所述的方法，其特征在于，根据各所述子数据的所述抽取时长和历史平均抽取时长，对各所述子数据进行数据拆分和/或数据合并处理，得到具备均衡抽取时长的各目标子数据，包括：

根据各所述子数据的所述抽取时长和历史平均抽取时长，对所述抽取时长小于所述历史平均抽取时长的所述子数据进行数据合并处理，得到具备均衡抽取时长的各所述目标子数据；和/或，

根据各所述子数据的所述抽取时长和历史平均抽取时长，对所述抽取时长大于等于所述历史平均抽取时长的所述子数据进行数据拆分处理，得到具备均衡抽取时长的各所述目标子数据。

6.如权利要求1所述的方法，其特征在于，按照调用不同的数据抽取服务器抽取相同数量的目标子数据的调用方式，分别调用数据抽取服务器对所述目标子数据同步进行数据抽取，包括：

根据所述知识网络的有向边，确定各所述目标子数据的调度路径；

根据所述调度路径，按照调用不同的数据抽取服务器抽取相同数量的目标子数据的调用方式，分别调用所述数据抽取服务器对所述目标子数据同步进行数据抽取。

7.如权利要求1所述的方法，其特征在于，预测待抽取数据中各子数据的抽取时长，包括：

计算所述待抽取数据中各所述子数据的数据量；

根据各所述子数据的数据量、历史抽取数据的数据量以及所述历史抽取数据的历史抽取时长，预测所述待抽取数据中各所述子数据的所述抽取时长。

8.一种数据抽取装置，其特征在于，包括预测模块、处理模块和抽取模块，其中：

预测模块，用于预测待抽取数据中各子数据的抽取时长；

处理模块，用于根据各所述子数据的所述抽取时长和历史平均抽取时长，对各所述子数据进行数据拆分和/或数据合并处理，得到具备均衡抽取时长的各目标子数据；

抽取模块，用于按照调用不同的数据抽取服务器抽取相同数量的目标子数据的调用方式，分别调用数据抽取服务器对所述目标子数据同步进行数据抽取。

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的数据抽取方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的数据抽取方法的步骤。