CN107436902A

CN107436902A - 基于海量数据的数据抽取方法和系统

Info

Publication number: CN107436902A
Application number: CN201610365351.1A
Authority: CN
Inventors: 阎开品; 葛胜利
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2016-05-27
Filing date: 2016-05-27
Publication date: 2017-12-05
Anticipated expiration: 2036-05-27
Also published as: CN107436902B

Abstract

本发明提供了一种基于海量数据的数据抽取方法和系统，其中，所述方法能包括：根据设定的条件，将指定数据源表中的数据分为动态源数据和静态源数据；对所述静态源数据进行初始化处理，得到静态目标数据；为所述动态源数据配置抽取任务，执行所述抽取任务抽取动态源数据，得到动态目标数据；将所述静态目标数据和动态目标数据分别存储成对应的静态目标数据文件和动态目标数据文件，并入指定数据仓库。所述系统包括分类模块、静态数据处理模块、动态数据处理模块和数据存储模块。本发明减少了抽取任务数量，提高了数据抽取的效率，降低了后期运维成本和难度，满足了业务快速发展的变化和需求。

Description

基于海量数据的数据抽取方法和系统

技术领域

本发明涉及数据库数据处理技术领域，具体地说，涉及一种基于海量数据的数据抽取方法和系统。

背景技术

数据仓库(Data Warehouse，简称DW或DWH)，是为企业级别的决策制定过程提供所有类型数据支持的战略集合，是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。数据仓库系统是一个信息提供平台，它从业务处理系统获得数据，并为用户提供各种手段从数据中获取信息和知识。因而，对于一些企事业，均构建有自己的数据仓库。

数据仓库的构建需要多个环节，从数据的抽取、存储到使用，每一步都至关重要。其中作为第一步的数据抽取，数据抽取效率的高低和抽取方法是否灵活，将直接影响整个数据仓库的抽取压力和数据的快速使用。

目前数据仓库中常见的抽取方式是离线抽取，通常一个数据表配置一个抽取任务，每天通过调度系统根据设定的时间规则从线上表进行抽取。抽取策略包括全量抽取和增量抽取。例如，可以对昨天的数据根据每条记录的创建或修改时间进行增量或全量抽取，对于日志表进行流水日志方式的抽取。

伴随着公司业务的不断发展，数据仓库的数据会迅速地从几百万增加到数亿级，与此同时，数据表中的数据也会根据业务情况变的越来越多样性。如果只是采用单一不变的抽取方式，已经不能满足当今数据抽取的快速变化的需求。例如，针对数据仓库中的采购订单明细表，从采购单下单到正式采购期间，线上采销人员可以对刚提交的采购单进行删除(物理删除)。订单数据先是被记录到采购订单明细表中，然后又被物理删除。根据现有技术，为了数据准确性，对有物理删除记录的数据源表采取每天整表全量抽取。而对于一些大型公司来说，采购订单量很大，采购订单明细表的数据就更大。在这种情况下采用整表全量抽取的方式，显然既浪费抽取时间，又没有必要。因为当线上采销人员对刚提交的采购单删除时，对于采购订单明细表而言，只有近期数据发生了变化，而历史已采购的数据是没有变动的。

另外，对于海量数据，根据现有技术，一个具有大量数据的数据表只能通过创建多任务分段同时抽取。这种方式会导致任务多、后期维护成本高。

再有，现有技术中的抽取时间戳字段较为固定和死板(通常是创建或修改时间)，不能根据业务情况或需求进行灵活设定，最终只能期待线上研发对源表进行结构改造。

发明内容

本发明要解决的技术问题在于，针对现有技术的不足，提供一种基于海量数据的数据抽取方法和系统，用于提高数据抽取的效率，满足业务快速发展的变化和需求。

为了解决上述技术问题，根据本发明的一个方面，本发明提供了一种基于海量数据的数据抽取方法，其中，包括：

根据设定的条件，将指定数据源表中的数据分为动态源数据和静态源数据；

对所述静态源数据进行初始化处理，得到静态目标数据；

为所述动态源数据配置抽取任务，执行所述抽取任务抽取动态源数据，得到动态目标数据；

将所述静态目标数据和动态目标数据分别存储成对应的静态目标数据文件和动态目标数据文件，并入指定数据仓库。

优选地，所述根据设定的条件，将数据表中的数据分为动态源数据和静态源数据的步骤具体为：

通过SQL的条件语句，应用设定的条件，将数据表中的数据分为动态源数据和静态源数据。

优选地，所述SQL的条件语句使用所述数据源表中的任意字段，所述设定的条件为与所述字段相匹配的条件。

优选地，所述为所述动态源数据配置抽取任务，执行所述抽取任务的步骤具体为：

为所述动态源数据配置抽取任务，包括数据抽取方式和任务执行时间；

根据配置的数据抽取方式，按照任务执行时间执行所述抽取任务。

优选地，在执行所述抽取任务之前，根据设定的条件，将符合静态源数据条件的动态源数据转移到静态源数据。

优选地，在执行所述抽取任务抽取动态源数据后，将所述动态目标数据切分成多个动态目标数据分片，每个分片存储为一个动态目标数据分片文件。

优选地，对所述静态源数据进行初始化处理之后，还包括对所述静态目标数据进行切片处理得到多个静态目标数据切片文件的步骤。

为了解决上述技术问题，根据本发明的另一个方面，本发明提供了一种基于海量数据的数据抽取系统，其中，包括：

分类模块，用于根据设定的条件，将指定数据源表中的数据分为动态源数据和静态源数据；

静态数据处理模块，用于对所述静态源数据进行初始化，得到静态目标数据；

动态数据处理模块；用于为所述动态源数据配置抽取任务，通过执行所述抽取任务，得到动态目标数据；和

数据存储模块，用于将所述静态目标数据和动态目标数据分别存储成对应的静态目标数据文件和动态目标数据文件，并入指定数据仓库。

优选地，所述分类模块包括：

条件设定单元，用于设定区分动态源数据和静态源数据的条件；和

数据分类单元，用于根据所述设定的条件，将数据表中的数据分为动态源数据和静态源数据。

优选地，所述动态数据处理模块包括：

任务配置单元，用于为所述动态源数据配置抽取规则；包括动态源数据的抽取方式和抽取任务的执行时间；和

任务执行单元，用于根据所述抽取规则，执行所述抽取任务，得到动态目标数据。

优选地，所述动态数据处理模块还包括：

数据转移单元，用于根据设定的条件，将符合静态源数据条件的动态源数据转移到静态源数据。

优选地，所述数据存储模块包括：

切片单元，用于将所述静态目标数据或动态目标数据切分为多个对应的静态目标数据切片或动态目标数据切片；

文件存储单元，用于将得到的静态目标数据存储为成对应的静态目标数据文件，或将静态目标数据切片存储为静态目标数据切片文件，或将抽取的动态目标数据存储为动态目标数据文件，或将动态目标数据切片分别存储为成对应的动态目标数据切片文件；和

存储单元，与所述文件存储单元相连接，用于将所述静态目标数据文件或静态目标数据切片文件，和动态目标数据文件或动态目标数据切片文件并入指定数据仓库。

本发明为海量级数据且抽取情况较为复杂(如物理删除)的数据表，提供了一种全新的抽取方法，无需等待线上数据表的改造来满足业务要求；本发明只抽取动态源数据，从而降低了抽取压力，提高了抽取效率；并且，由于仅有一个抽取任务，减少了抽取任务数量，因而降低了后期运维成本和难度。

附图说明

通过参照以下附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1为本发明所述基于海量数据的数据抽取方法的流程示意图；

图2为本发明所述基于海量数据的数据抽取系统的原理结构图；

图3为本发明中分类模块的原理结构图；

图4为本发明中一动态数据处理模块的原理结构图；

图5为本发明中另一动态数据处理模块的原理结构图；

图6为本发明中数据存储模块的原理结构图；

图7为本发明一具体实施例的方法流程图；

图8为本发明所述源数据表架构结构图；和

图9为本发明所述目标数据架构图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质，公知的方法、过程、流程没有详细叙述。另外附图不一定是按比例绘制的。

附图中的流程图、框图图示了本发明实施例的系统、方法、装置的可能的体系框架、功能和操作，流程图和框图上的方框可以代表一个模块、程序段或仅仅是一段代码，所述模块、程序段和代码都是用来实现规定逻辑功能的可执行指令。也应当注意，所述实现规定逻辑功能的可执行指令可以重新组合，从而生成新的模块和程序段。因此附图的方框以及方框顺序只是用来更好的图示实施例的过程和步骤，而不应以此作为对发明本身的限制。

如图1所示，本发明提供了一种基于海量数据的数据抽取方法，其中，包括：

步骤S1，根据设定的条件，将数据源表中的数据分为动态源数据和静态源数据；

步骤S2，对所述静态源数据进行初始化处理，得到静态目标数据；

步骤S3，为所述动态源数据配置抽取任务，执行所述抽取任务，得到动态目标数据；

步骤S4，将所述静态目标数据和动态目标数据分别存储成对应的静态目标数据文件和动态目标数据文件，并入指定数据仓库。

同时，本发明提供了一种基于海量数据的数据抽取系统1，用于实现上述方法,从指定数据源表中抽取数据存入到数据仓库2中。所述系统1包括：分类模块11、静态数据处理模块12、动态数据处理模块13和数据存储模块14。其中，分类模块11用于根据设定的条件，将数据表中的数据分为动态源数据和静态源数据；静态数据处理模块12用于对所述静态源数据进行初始化，得到静态目标数据；动态数据处理模块13用于为所述动态源数据配置抽取任务，通过执行所述抽取任务抽取动态源数据，得到动态目标数据；数据存储模块14用于将所述静态目标数据和动态目标数据分别存储成对应的静态目标数据文件和动态目标数据文件，并入指定数据仓库。

在本发明中，通过设定的条件，将大数据表中的数据分为会发生变化的动态源数据和不再变化的静态源数据两部分。通常来说，动态源数据量会很小，因而可以仅对动态源数据配置抽取任务。由于本发明只对小数据量的动态源数据配置抽取任务，从整体上减少了数据抽取范围和抽取压力，提高了抽取效率，同时减少了抽取任务的配置量，降低了后期运维的成本和难度。

以下对上述的系统和方法展开详细地说明。

如图3所示，分类模块11包括条件设定单元111和数据分类单元112。其中，条件设定单元111用于设定区分动态源数据和静态源数据的条件；数据分类单元112根据所述的设定的条件，将数据表中的数据分为动态源数据和静态源数据。其中，数据分类单元112通过SQL的条件语句应用设定的条件，将数据表中的数据分为动态源数据和静态源数据。条件设定单元111可以设定所述数据表中的任意字段为SQL的条件语句，并匹配任意与所述字段匹配的条件。

例如，在一个采购明细表中，近3个月的部分采购数据会有变化的可能性，但对于3个月前的采购数据基本已经稳定，不需要每天都进行抽取。因而，对于该表，可将“创建时间在3个月以内，并且采购状态为新采购单或等待入库”的数据设置为动态源数据，不满足这个条件的数据设置为静态源数据。此处的动态源数据的判断条件与表中“创建时间”和“采购单状态”这两个字段相匹配。

前述的设定条件可分为绝对条件和相对条件：

所谓绝对条件：就是必须要满足的指定条件，如：2016年创建的数据为动态源数据，或采购单状态为新采购单状态的为动态源数据。

所谓相对条件：就是指满足相对的条件，如：近3个月内的数据为动态源数据，或当前年份的数据为动态源数据(即2016创建的数据为动态源数据)。

总之，选择绝对条件还是相对条件来判断静态或动态源数据，都需要根据业务情况进行判定。

当将数据表中的数据分为动态源数据和静态源数据之后，对这两类数据分别进行处理。本发明中的静态数据处理模块通过初始化操作，得到静态目标数据。关于动态源数据的处理，如图4所示，为本发明中动态数据处理模块的原理结构图。所述动态数据处理模块13包括任务配置单元131和任务执行单元132。其中，所述任务配置单元131用于为所述动态源数据配置抽取规则，所述抽取规则包括动态源数据的抽取方式和抽取任务的执行时间。例如根据业务情况或需要配置为全量抽取或增量抽取，关于抽取任务的执行时间，可设定为每天、隔天、或一定的天数执行，在执行抽取任务这天，可定时一次或多次执行抽取任务，具体可根据实际情况设定。任务执行单元132用于根据抽取规则，执行所述抽取任务，得到动态目标数据。

由于本发明可以根据业务情况或需求灵活设定数据源表中的任意字段为SQL的条件语句，并不仅仅局限于抽取时间戳，因而不必对源表进行结构改造。

随着时间推移，当前的动态源数据会逐渐不再符合动态源数据的分类条件，而变为静态源数据，此时，需要将该类动态源数据转成静态源数据，因而，所述动态数据处理模块13还包括数据转移单元133，如图5所示，与所述分类模块11相连接，根据分类模块11设定的条件，将符合静态源数据条件的动态源数据B划分为静态源数据A。例如，在采购明细表中，若把3个月内的数据设定为动态源数据，且因为线上数据有物理删除，而设置为全量抽取。过4个月以后，前期为动态的数据中，将有一个月的数据不满足动态源数据的判断条件而归至静态源数据中，这样始终保持动态源数据是近3个月的数据。

所述数据存储模块14包括切片单元141、文件存储单元142、存储单元143，如图6所示。

切片单元141用于根据需要，将所述静态目标数据或动态目标数据切分为多个对应的静态目标数据切片或动态目标数据切片。其中，在本发明中，经过静态数据处理模块12的处理后，如果静态目标数据量不大，则不需要对其进行切片，则直接通过文件存储单元142存储为静态目标数据文件Fs。如果所述静态目标数据量较大，则经过切片单元141的切片处理，将静态目标数据切分为多个静态目标数据分片D1-Dn，通过文件存储单元142，将每个静态目标数据分片存储成对应的静态目标数据分片文件，即共有分片文件F1-Fn。例如，在采购明细表中，可根据记录的创建年份，将数据进行切片处理。如：2015年创建的数据为数据切片1，2014年创建的数据为数据切片2，2014年以前的数据为数据切片3。通过对静态目标数据的分片处理，在静态目标数据有问题时，可以只针对有问题的分片进行修复，而不需要全量修复。在用户使用数据，需要向用户推送数据时，也可针对业务需要，将必要的部分数据文件推送给用户。

经过动态数据处理模块13执行抽取任务得到的动态目标数据，通常数据量较小，不需要切分，直接经过文件存储单元142，将抽取的动态目标数据存储为动态目标数据文件。

如果动态目标数据量较大，则可以经过与静态目标数据相同的切分处理，得到多个动态目标数据切片，经过文件存储单元142分别存储为成对应的动态目标数据切片文件。

存储单元143将所述静态目标数据文件或静态目标数据切片文件，和动态目标数据文件或动态目标数据切片文件并入指定数据仓库。

如图7所示，为本发明一具体实施例的方法流程图。

步骤S1a：根据数据源表中数据的业务情况，通过SQL的条件语句判断当前的数据是静态源数据还是动态源数据，将数据分为动态源数据和静态源数据。该判断语句可使用表中任何字段，配以任何条件。通常来说，静态源数据量较大，动态源数据量较小，如图8所示的数据表架构。

步骤S2a：对于动态源数据，在该步骤中配置抽取任务的抽取规则，具体包括动态源数据的抽取方式和抽取任务的执行时间。

步骤S3a：根据设定的抽取规则，采用全量式或增量式，在设定的时间内抽取动态源数据。例如，可以每天采用全量式执行一次抽取任务。

步骤S4a：根据抽取到的数据生成动态目标数据文件。

对于满足静态源数据条件的数据，只需在步骤S6a进行一次初始化处理即可。

步骤S7a：此时，可视静态目标数据的大小及业务的需要，判断是否需要进行切片。如果不需要，则在步骤S10a根据得到静态目标数据生成静态目标数据文件。如果需要，则在步骤S8a，以表中某个辅助字段，将静态目标数据进行切片处理，将所述的静态目标数据分为不同的切片，并在步骤S9a，根据这些静态目标数据切片生成不同的静态目标数据切片文件中。当采用全量式抽取数据后，得到的目标数据架构如图9所示。

其中，切片处理为可选部分，可根据表的业务情况、数据量大小进行切片。切片处理的好处在于，将大数据化小，便于后期的数据问题定位、重跑、使用和推送。

步骤S56a：将所述的静态目标数据文件或多个静态目标数据切片文件及动态目标数据文件并入指定数据仓库的数据表中。

动态源数据伴随着时间推移，以及动静态源数据的判断条件的变化，将部分动态源数据逐步划分为静态源数据。

本发明解决了大数据量级，同时有物理删除等复杂多变的数据抽取情况，通过本发明所述的抽取方法，不局限于记录的创建或修改时间，能快速满足业务发展的变化和需求，无需等待线上表改造来满足业务要求。针对于海量数据，仅通过置一个抽取任务来抽取动态变化的数据，既满足了业务需求，也降低了抽取压力，提高了抽取效率，而且还降低了后期运维成本和难度。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于海量数据的数据抽取方法，其中，包括：

对所述静态源数据进行初始化处理，得到静态目标数据；

2.如权利要求1所述的基于海量数据的数据抽取方法，其中，所述根据设定的条件，将数据表中的数据分为动态源数据和静态源数据的步骤具体为：

3.如权利要求2所述的基于海量数据的数据抽取方法，其中，所述SQL的条件语句使用所述数据源表中的任意字段，所述设定的条件为与所述字段相匹配的条件。

4.如权利要求1所述的基于海量数据的数据抽取方法，其中，所述为所述动态源数据配置抽取任务，执行所述抽取任务的步骤具体为：

5.如权利要求4所述的基于海量数据的数据抽取方法，其中，在执行所述抽取任务之前，根据设定的条件，将符合静态源数据条件的动态源数据划分为静态源数据。

6.如权利要求1或4或5所述的基于海量数据的数据抽取方法，其中，在执行所述抽取任务得到动态目标数据后，将所述动态目标数据切分成多个动态目标数据分片，每个分片存储为一个动态目标数据分片文件。

7.如权利要求1所述的基于海量数据的数据抽取方法，其中，对所述静态源数据进行初始化处理之后，还包括对所述静态目标数据进行切片处理得到多个静态目标数据切片文件的步骤。

8.一种基于海量数据的数据抽取系统，其中，包括：

动态数据处理模块，用于为所述动态源数据配置抽取任务，通过执行所述抽取任务，得到动态目标数据；和

9.如权利要求8所述的基于海量数据的数据抽取系统，其中，所述分类模块包括：

10.如权利要求8所述的基于海量数据的数据抽取系统，其中，所述动态数据处理模块包括：

任务配置单元，用于为所述动态源数据配置抽取规则，所述抽取规则包括动态源数据的抽取方式和抽取任务的执行时间；和

11.如权利要求10所述的基于海量数据的数据抽取系统，其中，所述动态数据处理模块还包括：

数据转移单元，用于根据设定的条件，将符合静态源数据条件的动态源数据划分为静态源数据。

12.如权利要求8所述的基于海量数据的数据抽取系统，其中，所述数据存储模块包括：

文件存储单元，用于将得到的静态目标数据存储为成对应的静态目标数据文件，或将静态目标数据切片存储为静态目标数据切片文件，或将抽取的动态目标数据存储为动态目标数据文件，或将动态目标数据切片分别存储成对应的动态目标数据切片文件；和