CN104915414A

CN104915414A - 数据抽取方法及装置

Info

Publication number: CN104915414A
Application number: CN201510307352.6A
Authority: CN
Inventors: 曹明爽
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2015-06-04
Filing date: 2015-06-04
Publication date: 2015-09-16

Abstract

本发明提供一种数据抽取方法及装置，能够快读高效地抽取数据。该方法包括：将数据表划分为多个数据段；从多个数据段中同时分别抽取数据，得到多个抽取数据文件；将所有抽取数据文件合并到一个目录下。

Description

数据抽取方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种数据抽取方法及装置。

背景技术

数据仓库ETL(Extraction-Transformation-Loading)系统是数据仓库中数据整理阶段的一个主要工具，它与元数据管理相结合，提供对不同数据源的数据进行抽取，转换和加载的功能。数据抽取作为数据仓库ETL系统的第一环节，直接影响后续整个数据仓库应用的效率。

目前大部分数据仓库的离线数据是按T+1时效抽取的，即数据仓库每天会抽取源系统前一天的数据快照。如果源系统的数据量不是很大，基本上在几个小时内就能够抽取完成。但是，在海量数据抽取(如数据行数超过数十亿)过程中，ETL数据抽取技术满足不了抽取时效要求，出现瓶颈。

现有技术采用增量策略进行数据抽取，具体过程为：首先，在数据正式使用之前，提前全量抽取一份最近的快照数据。随后，根据表的业务规则按数据的更新时间戳每天增量抽取在上次全量抽取之后有更新或新增的数据；最后，将原始全量数据和增量数据做合并，合并后的结果就是最新的一份全量数据。该方法也有缺点：抽数周期拉长，必须事先判断并预估足够长的抽数缓冲时间，提前备份某个时间点之前的静态数据；对数据有严格要求，必须满足增量抽取条件，如果没有增量字段，或更新数据不修改增量时间戳，就会照成数据不一致。

发明内容

有鉴于此，本发明提供一种数据抽取方法及装置，能够快读高效地抽取数据。

为实现上述目的，根据本发明的一个方面，提供了一种数据抽取方法，包括：将数据表划分为多个数据段；从所述多个数据段中同时分别抽取数据，得到多个抽取数据文件；将所有所述抽取数据文件合并到一个目录下。

可选地，所述从所述多个数据段中同时分别抽取数据，得到多个抽取数据文件的步骤包括：获取各个所述数据段对应的抽数语句，其中，所有所述抽数语句的并集能够覆盖整个所述数据表；根据各个所述数据段对应的所述抽数语句，生成各个所述数据段对应的抽取任务；同时调启各个所述抽取任务，从对应的所述数据段中抽取数据得到所述抽取数据文件。

可选地，所述将数据表划分为多个数据段的步骤包括：将数据表平均地划分为数据量相等的多个数据段。

可选地，所述将数据表划分为多个数据段的步骤包括：根据数据创建时间字段或者根据主键字段将所述数据表划分为所述多个数据段。

可选地，将所有所述抽取数据文件合并到一个目录下的步骤包括：将所有所述抽取数据文件通过hdfs命令合并到一个目录下。

可选地，在对所述数据段抽取数据失败的情况下，该方法还包括：仅对该数据段重新抽取数据。

为实现上述目的，根据本发明的另一个方面，提供了一种数据抽取装置，包括：划分模块，用于将数据表划分为多个数据段；抽取模块，用于从所述多个数据段中同时分别抽取数据，得到多个数据文件；合并模块，用于将所有所述抽取数据文件合并到一个目录下。

可选地，所述抽取模块还用于：获取各个所述数据段对应的抽数语句，其中，所有所述抽数语句的并集能够覆盖整个所述数据表；根据各个所述数据段对应的所述抽数语句，生成各个所述数据段对应的抽取任务；同时调启各个所述抽取任务，从对应的所述数据段中抽取数据得到所述抽取数据文件。

可选地，所述划分模块还用于：将数据表平均地划分为数据量相等的多个数据段。

可选地，所述划分模块还用于：根据数据创建时间字段或者根据主键字段将所述数据表划分为所述多个数据段。

可选地，所述合并模块还用于：将所有所述抽取数据文件通过hdfs命令合并到一个目录下。

可选地，在对所述数据段抽取数据失败的情况下，该装置中还包括：重抽取模块，用于仅对该数据段重新抽取数据。

根据本发明的技术方案，将整个数据表分割为多个相对小的数据段同时分别进行抽取数据，在保障数据采集的完整性的同时，减少了数据采集的整体时间，提高了数据抽取的效率。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的数据抽取方法的主要步骤的示意图；

图2是根据本发明实施例的数据抽取装置的主要部件的示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本发明实施例的数据抽取方法的主要步骤的示意图。如图1所示，该数据抽取方法包括如下步骤A至步骤C。

步骤A：将数据表划分为多个数据段。需要说明的是，数据表除了理解为单个表之外，还可被广义地理解为分库分表的数据表集合形式，本发明不做限定。

在本发明的实施方式中，可以将数据表平均地划分为数据量相等的多个数据段，这样可以使得对各个数据段进行后续处理时耗时基本一致，不会出现等待现象，进一步提高了抽取效率。

在本发明的实施方式中，根据数据创建时间字段或者根据主键字段将数据表划分为多个数据段，这两种划分方法具有简单易行的优点。

步骤B：从多个数据段中同时分别抽取数据，得到多个抽取数据文件。

在本发明的实施方式中，步骤B的具体过程包括如下步骤B1至B3。

步骤B1：获取各个数据段对应的抽数语句，其中，所有抽数语句的并集覆盖整个数据表。在现有技术中对整张数据表全量抽取数据需要有一个抽数模板，抽数模板是指记录抽数语句的配置文件。相应地，在本发明的数据抽取方法中，可以为每个数据段配置相应的抽数语句。抽数语句即能被数据库识别并且可以执行的sql语句。抽数语句可以是由程序员人工设置后保存在计算机中，也可以是计算机通过程序自动生成抽数语句。需要注意的是，所有抽数语句的并集要求全面地覆盖整个数据表，不允许整张数据表中有未被覆盖到的数据，以免发生漏抽取。

步骤B2：根据各个数据段对应的抽数语句，生成各个数据段对应的抽取任务。通常是计算机通过程序根据抽数语句自动生成抽取任务。

步骤B3：同时调启各个抽取任务，从与抽取任务对应的数据段中抽取得到数据文件。多个抽取任务同时被调用启动，但执行任务的时长可能长短不一。只有当最后一个抽取任务结束，才算完成本步骤。

步骤C：将所有抽取数据文件合并到一个目录下。

在本发明的实施方式中，将所有抽取数据文件通过hdfs(HadoopDistributed File System，分布式文件系统)命令合并到一个目录下。这样数据就抽取完成了，之后可以通过hive外部表的方式，将location指定到该目录从而访问到全部抽取数据。

在本发明的数据抽取方法中，在对数据段抽取数据失败的情况下，本发明实施方式中的抽取数据方法还可包括以下步骤：仅对该数据段重新抽取数据，而无需对整个数据表重新抽取数据，这样增强了数据抽取的容错性。

图2是根据本发明实施例的数据抽取装置的主要部件的示意图。如图2所示，该数据抽取装置20包括划分模块21、抽取模块22和合并模块23。

划分模块21用于将数据表划分为多个数据段。可选地，划分模块21用于将数据表平均地划分为数据量相等的多个数据段，这样可以使得对各个数据段进行后续处理时耗时基本一致，不会出现等待现象，进一步提高了抽取效率。可选地，划分模块21用于根据数据创建时间字段或者根据主键字段将数据表划分为多个数据段，这两种划分方法具有简单易行的优点。

抽数模块22用于从所述多个数据段中同时分别抽取数据，得到多个数据文件。具体地，抽取模块22可用于：获取各个所述数据段对应的抽数语句，其中，所有所述抽数语句的并集能够覆盖整个所述数据表；根据各个所述数据段对应的所述抽数语句，生成各个所述数据段对应的抽取任务；同时调启各个所述抽取任务，从对应的所述数据段中抽取数据得到所述抽取数据文件。需要注意的是，所有抽数语句的并集要求全面地覆盖整个数据表，不允许整张数据表中有未被覆盖到的数据，以免发生漏抽取。

合并模块23用于将所有抽取数据文件合并到一个目录下。可选地，合并模块23用于将所有抽取数据文件通过hdfs命令合并到一个目录下。

在对数据段抽取数据失败的情况下，该数据抽取装置20中还可包括重抽取模块(图中未示出)，用于仅对该数据段重新抽取数据。该实施例的装置无需对整个数据表重新抽取数据，这样增强了数据抽取的容错性。

综上所述，根据本发明实施例的数据抽取方法和装置中，将整个数据表分割为多个相对小的数据段同时分别进行抽取数据，在保障数据采集的完整性的同时，减少了数据采集的整体时间，提高了数据抽取的效率。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种数据抽取方法，其特征在于，包括：

将数据表划分为多个数据段；

从所述多个数据段中同时分别抽取数据，得到多个抽取数据文件；

将所有所述抽取数据文件合并到一个目录下。

2.根据权利要求1所述的方法，其特征在于，所述从所述多个数据段中同时分别抽取数据，得到多个抽取数据文件的步骤包括：

获取各个所述数据段对应的抽数语句，其中，所有所述抽数语句的并集能够覆盖整个所述数据表；

根据各个所述数据段对应的所述抽数语句，生成各个所述数据段对应的抽取任务；

同时调启各个所述抽取任务，从对应的所述数据段中抽取数据得到所述抽取数据文件。

3.根据权利要求1所述的方法，其特征在于，所述将数据表划分为多个数据段的步骤包括：将数据表平均地划分为数据量相等的多个数据段。

4.根据权利要求1所述的方法，其特征在于，所述将数据表划分为多个数据段的步骤包括：根据数据创建时间字段或者根据主键字段将所述数据表划分为所述多个数据段。

5.根据权利要求1所述的方法，其特征在于，将所有所述抽取数据文件合并到一个目录下的步骤包括：将所有所述抽取数据文件通过hdfs命令合并到一个目录下。

6.根据权利要求1所述的方法，其特征在于，在对所述数据段抽取数据失败的情况下，该方法还包括：仅对该数据段重新抽取数据。

7.一种数据抽取装置，其特征在于，包括：

划分模块，用于将数据表划分为多个数据段；

抽取模块，用于从所述多个数据段中同时分别抽取数据，得到多个数据文件；

合并模块，用于将所有所述抽取数据文件合并到一个目录下。

8.根据权利要求7所述的装置，其特征在于，所述抽取模块还用于：

9.根据权利要求7所述的装置，其特征在于，所述划分模块还用于：将数据表平均地划分为数据量相等的多个数据段。

10.权利要求7所述的装置，其特征在于，所述划分模块还用于：根据数据创建时间字段或者根据主键字段将所述数据表划分为所述多个数据段。

11.根据权利要求7所述的装置，其特征在于，所述合并模块还用于：将所有所述抽取数据文件通过hdfs命令合并到一个目录下。

12.根据权利要求7所述的装置，其特征在于，在对所述数据段抽取数据失败的情况下，该装置中还包括：重抽取模块，用于仅对该数据段重新抽取数据。