CN109271435A

CN109271435A - 一种支持断点续传的数据抽取方法及系统

Info

Publication number: CN109271435A
Application number: CN201811076270.5A
Authority: CN
Inventors: 陈晓伟; 刘春忆
Original assignee: Linewell Software Co Ltd
Current assignee: Linewell Software Co Ltd
Priority date: 2018-09-14
Filing date: 2018-09-14
Publication date: 2019-01-25
Anticipated expiration: 2038-09-14
Also published as: CN109271435B

Abstract

本发明属于互联网信息处理技术领域，公开了一种支持断点续传的数据抽取方法及系统，数据抽取系统包括配置数据库模块、设置模块、抽取数据模块、记录和保存模块；数据抽取方法首先根据抽取的数据来源信息配置抽取数据库，选择增量字段；然后设置开始时间、间隔时间、每次抽取最大记录数、每次调度分页抽取记录数，抽取数据；随后记录并保存流程调度次数、流程总抽取记录数、流程上次抽取记录数、当前调度抽取完成记录数、已完成分页数、总分页数，服务器故障后再次抽取从之前已完成的下一页开始抽取。本发明的数据抽取方法可避免服务器负载过大，确保服务器的稳定性，不会重复抽取已完成的数据，提高了数据抽取的效率。

Description

一种支持断点续传的数据抽取方法及系统

技术领域

本发明属于互联网信息处理技术领域，涉及一种支持断点续传的数据抽取方法及系统。

背景技术

目前，业内常用的现有技术是这样的：

近年来，随着互联网的不断发展，人类生产生活方式的日新月异，积累了大量的业务数据。需要对大量数据进行分析、挖掘提取成有用的知识形成报表、图表，从而诞生了BI。而ETL(Extract-Transform-Load)则是BI项目形成数据仓库最重要的一个环节。

常用的ETL工具诸如Datastage、Powercenter、Automatic、Kettle、NIFI等都有自己的工具或者处理器进行数据抽取转换加载。而数据抽取过程中，需要保证大数据量下数据的完整性、准确性、一致性的同时，支持服务器故障等灾难发生数据只需继续抽取，而不是重新抽取，并且需要保证数据抽取的效率。

综上所述，现有技术存在的问题是：

服务器故障后，数据需要重新抽取，使得抽取效率低，浪费时间。

现有技术中，没有根据分析数据设置批次导入数据的起始值、间隔值、每次调度最多抽取记录数、查询数据库分页数等信息，导致不能实现数据的分批次分页抽取、抽取效率低；

不能在某次调度出现服务器故障、系统内存溢出、集群节点异常等不可预见问题时待服务器重新恢复正常时进行断点续传。

解决上述技术问题的难度和意义：

上述问题需要一个较完整的解决方案，对源数据进行分析以及较完整的监控日志记录，方面流程跟踪以及历史数据统计分析。

难度在于分析源数据的维度定义，抽取规则定义以及流程调度信息的监控日志记录管理；在于要有较高的抽取和装载性能，对业务系统的影响不能太大，倾入性不能太强；在于服务器发生故障后下次恢复启动需要对未抽取完成的数据进行断点续传。

发明内容

针对现有技术存在的问题，本发明提供了一种支持断点续传的数据抽取方法及系统，支持在服务器故障、系统内存溢出、集群节点异常等不可预见问题时保留原来抽取进度，实现断点续传。

本发明旨在基于开源ETL工具-NIFI进行二次开发，原生处理器支持配置数据源信息，配置物理表信息，配置增量抽取字段，并将截止当前时间该字段的数据最大值保存到处理器状态中。

本发明提供设置每次抽取最大记录数、每次调度分页抽取记录数、开始时间、间隔时间，并记录整个流程抽取总共抽取记录数、上次执行抽取记录数、调度次数，当前调度抽取完成记录数、已完成分页数、总分页数等信息，以供实现断点续传功能。

本发明是这样实现的，一种支持断点续传的数据抽取方法为：

限定数据分批次抽取范围、每次调度抽取最多记录数；范围内记录数大于设置的最大值，对间隔时间进行等分取前者，以此类推直到满足抽取的范围数据数量小于或者等于设置的最大记录数；

记录每次分页抽取的抽取时间截止点、已完成分页数、总分页数状态信息；当出现服务器故障、系统内存溢出、集群节点异常不可预见问题时，保留原来抽取进度，下次调度时继续抽取未完成的分页数。

具体包括：

步骤1：根据抽取的数据来源信息，选择有建立索引且内容不为空的时间类型的字段作为增量字段。处理器的“Maximum-value Columns”属性配置成数据库的字段，处理器执行时会根据配置的字段组装SQL的WHERE从句条件，如“TIME>’2018-01-01 00:00:00’”。第一次调度根据开始时间初值再加上时间间隔，明确这次抽取只抽取该时间段内的数据，并在抽取完成后保存已完成的时间截止值。之后每次调度将上次的截止值作为初值，该次调度抽取的数据截止值为上次截止值加上时间间隔。确保了每次只抽取一批次的数据，避免数据量太大内存消耗过大而抛出OOM异常，影响整体服务器稳定性。

步骤2：根据实际应用场景，数据抽取通常会避免系统使用高峰期。抽取的源数据库，可能既用于实际生产环境使用，白天高并发访问。为了不影响正常时间的用户访问，所以抽取数据只能在晚上进行。本发明通过任务调度控制任务执行的时间，通过控制任务最多抽取记录数控制每次任务最多抽取的量，避免服务器负载过大并且适应实际可供抽取数据的有限时间。

步骤3：根据设置的每次抽取最大记录数、每次调度分页抽取记录数实现对数据库记录的分页查询。最大记录数指一次调度最多查询的记录数，分页抽取记录数则为每次请求数据库查询的记录数。在首次查询后记录当前调度抽取完成记录数、已完成分页数、总分页数以及之后每次查询记录当前调度抽取完成记录数、已完成分页数。每一次调度中的每次数据库查询成功都会将查询信息记录下来，以供流程监控及错误数据排查。假设在此过程中服务器发生故障，导致只抽取完成了部分分页数，待下次服务器重新恢复正常，流程将读取之前抽取的状态信息，继续执行此次任务。

本发明的另一目的在于提供一种支持断点续传的数据抽取计算机程序，所述支持断点续传的数据抽取计算机程序实现所述的持断点续传的数据抽取方法。

本发明的另一目的在于提供一种终端，所述终端至少搭载实现所述支持断点续传的数据抽取方法的控制器。

本发明的另一目的在于提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行所述的支持断点续传的数据抽取方法。

本发明的另一目的在于提供一种支持断点续传的数据抽取系统，包括配置数据库模块、设置模块、抽取数据模块、记录和保存模块；

所述配置数据库模块用于配置抽取数据库；

所述设置模块用于设置开始时间、间隔时间、每次抽取最大记录数、每次调度分页抽取记录数；

所述抽取数据模块用于数据的抽取；

所述记录和保存模块用于记录并保存流程调度次数、流程总抽取记录数、流程上次抽取记录数、当前调度抽取完成记录数、已完成分页数、总分页数。

本发明的另一目的在于提供一种互联网数据抽取平台，所述互联网数据抽取平台至少搭载所述的支持断点续传的数据抽取系统。

综上所述，本发明的优点及积极效果为：

本发明每次调度抽取都只抽取一定时间段内的数据，确保了每次只抽取一批次的数据，避免了数据量太大内存消耗过大导致的服务器异常，确保了服务器的稳定性。

现有原生NIFI处理器并不支持对数据进行时间段内的配置。根据选择增量字段，第一次调度全量抽取数据，记录最大值，然后之后数据库新的记录才会做增量。这样很容易造成内存溢出，集群节点挂起，服务器宕机。

本发明可以根据实际应用场景，避免在系统使用高峰期抽取数据，不影响正常时间的用户访问，抽取数据只在晚上进行，通过任务调度控制任务执行的时间，通过控制任务最多抽取记录数控制每次任务最多抽取的量，避免服务器负载过大并且适应实际可供抽取数据的有限时间。

现有原生NIFI处理器并不支持对数据进行每次最多抽取记录数，每次任务最多抽取量的配置。只能控制调度时间，多久调度一次，不能控制调度最多抽取的记录数。这种控制方式一旦数据分布不均匀，会出现有时处理的数据量很大，晚上未完成所有执行任务，影响到白天生产环境上的用户访问。

本发明每一次调度中的每次数据库查询成功都会将查询信息记录下来，以供流程监控及错误数据排查。服务器发生故障后再次抽取时，待下次服务器重启流程将读取之前抽取的状态信息，继续执行此次任务，提高了数据抽取的效率。

现有原生NIFI处理器并未记录流程抽取信息，只记录了增量数据的状态。一旦发生数据抽取过程中服务器宕机，下次只能继续抽取。无法知道哪些数据是抽取成功的，这样就不能实现数据的断点续传，而是重新上传数据。

本发明根据分析数据设置批次导入数据的起始值、间隔值、每次调度最多抽取记录数、查询数据库分页数等信息，实现了数据的分批次分页抽取。在保证数据准确性的同时，提升抽取效率，同时在某次调度出现服务器故障、系统内存溢出、集群节点异常等不可预见问题时待服务器重新恢复正常时可以进行断点续传。

附图说明

图1是本发明实施例提供的支持断点续传的数据抽取方法流程图。

图2是本发明实施例提供的支持断点续传的数据抽取系统示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明限定了数据分批次抽取范围、每次调度抽取最多记录数，如果范围内记录数大于设置的最大值，则需要对间隔时间进行等分取前者，以此类推知道满足抽取的范围数据数量小于或者等于设置的最大记录数。

记录了每次分页抽取的状态信息即抽取时间截止点、已完成分页数、总分页数，当出现服务器故障、系统内存溢出、集群节点异常等不可预见问题时保留原来抽取进度，下次调度时继续抽取未完成的分页数。

如图1所示，本发明实施例提供的支持断点续传的数据抽取方法，包括：

S101：根据抽取的数据来源信息配置抽取数据库，选择增量字段；

S102：设置开始时间、间隔时间、每次抽取最大记录数、每次调度分页抽取记录数，抽取数据；

S103：记录并保存流程调度次数、流程总抽取记录数、流程上次抽取记录数、当前调度抽取完成记录数、已完成分页数、总分页数，服务器故障后再次抽取从之前已完成的下一页开始抽取。

所述增量字段为有建立索引且内容不为空的时间类型的字段；

所述抽取数据第一次调度只抽取开始时间初值加上时间间隔的时间段内的数据，保存已完成的抽取时间截至值，之后每次调度将上次截至值作为初值，当次抽取的数据截至值为上次截至值加上时间间隔；

最大记录数为一次调度最多查询的记录数，分页抽取记录数为每次请求数据库查询的记录数。

如图2所示，本发明还提供一种支持断点续传的数据抽取系统，包括配置数据库模1块、设置模块2、抽取数据模块3、记录和保存模块4；

所述配置数据库模块1用于配置抽取数据库；

所述设置模块2用于设置开始时间、间隔时间、每次抽取最大记录数、每次调度分页抽取记录数；

所述抽取数据模块3用于数据的抽取；

所述记录和保存模块4用于记录并保存流程调度次数、流程总抽取记录数、流程上次抽取记录数、当前调度抽取完成记录数、已完成分页数、总分页数。

下面结合实施例对本发明做进一步详细说明。

本发明实施例提供的支持断点续传的数据抽取方法，包括以下几个步骤：

步骤1：根据抽取的数据来源信息配置抽取数据库中“traffic_police”.”v_rel_driver_license”，选择有建立索引且内容不为空的时间类型的“JL_RKSJ”字段作为增量字段，提升条件查询数据效率。开始时间设置为“2017-08-01 00:00:00”,间隔时间25920000000(ms)即30天。第一次调度则会抽取“JL_RKSJ”在2017年8月1号到2017年8月30号间的数据，并在抽取完成后保存key为“traffic_police”.”v_rel_driver_license”@！@jl_rksj值为“2017-08-30 00:00:00”的状态信息、。之后调度将“2017-08-30 00:00:00”作为开始值，该次调度抽取的数据截止值为顺延30天后的值。

步骤2：根据实际应用场景，数据抽取通常会避免系统使用高峰期。通过设置任务调度最多抽取300w数据，10w条分页，从数据库中分页查询。如果某次调度抽取范围内的数据量太大，超出预先设定的300w数据，则会一直拆分间隔时间为1/2间隔时间，直到抽取的数据量小于或者等于任务调度最多抽取记录数。

步骤3：记录流程的调度次数(flow_schedule_times)、流程的总抽取记录数(flow_total_record)、流程上次抽取记录数(flow_last_record)、当前调度抽取完成记录数(task_curr_record)、已完成分页数(task_finish_page_no)、总分页数(task_total_page_no)。集群环境下，该状态信息保存在zookeeper的节点上，节点之间的数据进行同步。在此过程中如果服务器发生故障，导致只抽取完成了x页，待下次服务器重新恢复正常，流程将读取之前抽取的状态信息，继续抽取x+1页及之后页码的数据。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种支持断点续传的数据抽取方法，其特征在于，所述支持断点续传的数据抽取方法包括：

限定数据分批次抽取范围、每次调度抽取最多记录数；

范围内记录数大于设置的最大值，对间隔时间进行等分取前者，以此类推直到满足抽取的范围数据数量小于或者等于设置的最大记录数；

2.如权利要求1所述的支持断点续传的数据抽取方法，其特征在于，所述支持断点续传的数据抽取方法具体包括：

步骤一，根据抽取的数据来源信息配置抽取数据库，选择增量字段；

步骤二，设置开始时间、间隔时间、每次抽取最大记录数、每次调度分页抽取记录数，抽取数据；

步骤三，记录并保存流程调度次数、流程总抽取记录数、流程上次抽取记录数、当前调度抽取完成记录数、已完成分页数、总分页数，服务器故障后再次抽取从之前已完成的下一页开始抽取。

3.如权利要求1所述的支持断点续传的数据抽取方法，其特征在于，

步骤一，具体包括：根据抽取的数据来源信息，选择有建立索引且内容不为空的时间类型的字段作为增量字段；处理器的“Maximum-value Columns”属性配置成数据库的字段，处理器执行时根据配置的字段组装SQL的WHERE从句条件；第一次调度根据开始时间初值再加上时间间隔，这次抽取只抽取该时间段内的数据，并在抽取完成后保存已完成的时间截止值；

每次调度将上次的截止值作为初值，当前次数调度抽取的数据截止值为上次截止值加上时间间隔；每次只抽取一批次的数据。

4.如权利要求1所述的支持断点续传的数据抽取方法，其特征在于，

步骤二具体包括：根据实际应用场景，抽取数据在晚上进行；通过控任务调度控制任务执行的时间，通过控制任务最多抽取记录数控制每次任务最多抽取的量。

5.如权利要求1所述的支持断点续传的数据抽取方法，其特征在于，

步骤三具体包括：根据设置的每次抽取最大记录数、每次调度分页抽取记录数实现对数据库记录的分页查询；在首次查询后记录当前调度抽取完成记录数、已完成分页数、总分页数以及之后每次查询记录当前调度抽取完成记录数、已完成分页数；

每一次调度中的每次数据库查询成功均将查询信息记录，用于流程监控及错误数据排查；过程中服务器发生故障时，读取之前抽取的状态信息，继续执行此次任务。

6.一种支持断点续传的数据抽取计算机程序，其特征在于，所述支持断点续传的数据抽取计算机程序实现权利要求1～5任意一项所述的持断点续传的数据抽取方法。

7.一种终端，其特征在于，所述终端至少搭载实现权利要求1～5任意一项所述支持断点续传的数据抽取方法的控制器。

8.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-5任意一项所述的支持断点续传的数据抽取方法。

9.一种实现权利要求1所述支持断点续传的数据抽取方法的支持断点续传的数据抽取系统，其特征在于，所述支持断点续传的数据抽取系统包括：

配置数据库模块，用于配置抽取数据库；

设置模块，用于设置开始时间、间隔时间、每次抽取最大记录数、每次调度分页抽取记录数；

抽取数据模块，用于数据的抽取；

记录和保存模块，用于记录并保存流程调度次数、流程总抽取记录数、流程上次抽取记录数、当前调度抽取完成记录数、已完成分页数、总分页数。

10.一种互联网数据抽取平台，其特征在于，所述互联网数据抽取平台至少搭载权利要求9所述的支持断点续传的数据抽取系统。