CN105468725B

CN105468725B - 一种关系型数据库中表分段抽取系统及方法

Info

Publication number: CN105468725B
Application number: CN201510812954.7A
Authority: CN
Inventors: 郭李明
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2015-11-20
Filing date: 2015-11-20
Publication date: 2019-03-08
Anticipated expiration: 2035-11-20
Also published as: CN105468725A

Abstract

本发明提供了一种关系型数据库中表分段抽取系统及方法，系统包括抽取模块、日志模块及步长管理模块；抽取模块根据步长管理模块中的优化步长信息对表进行分段构造，并根据构造的分段对表进行分段抽取，并将分段抽取结果记录在日志模块，形成日志信息，步长管理模块根据日志信息动态地生成优化步长信息。本发明通过将低于平均抽取行数的分段进行合并，将高于平均抽取行数的分段进行拆分，智能地优化各个分段的数据行数，使各个分段的数据趋于均匀，从而提升读取关系型数据表时效率和性能。

Description

一种关系型数据库中表分段抽取系统及方法

技术领域

本发明属于大数据分布式计算领域，尤其涉及一种关系型数据库中表分段抽取系统及方法。

背景技术

随着大数据领域的技术越来越成熟，很多公司都会引入一项或者多项大数据的技术给公司的某项业务或者某些领域带来新的发展，比如根据用户信息分析挖掘出用户行为热点，提供给公司的决策层，调整产品，吻合用户需求。大数据技术固然不错，但是前提是需要有数据，有数据后才可谈使用哪些技术。在国内甚至全世界的大部分公司的数据都存储在传统的关系型数据库中，比如MySQL、Oracle、SQL Server等，但是传统的关系型数据库不能胜任海量数据下的分析统计工作，分布式的大数据存储和计算框架却很适合，图1所示为现有技术中利用HADOOP和Hive架构实现海量数据统计分析的示意图。在数据抽取阶段的工作一般是利用JDBC与数据库进行通信，使用ETL工具将数据抽取并导入到HADOOP的HDFS中。用户可以向Hive提交SQL，Hive会启动一些系列的MAPREDUCE程序并读取HDFS中的数据进行查询分析。

HADOOP具有非常好的扩展性和容错性，这也使得公司在应付海量数据时可以从容的面对，不需要担心数据会容纳不了和丢失。因此会将一些历史数据或者访问量很低的数据从关系型数据库转移到HDFS中，利用类似于HIVE这一类的技术对其进行分析统计和做数据挖掘。

在目前大数据领域中还有一些技术可以直接的连接关系型数据库进行查询分析，不需要将数据转移到HDFS，比如Presto就可以配置关系型数据库的数据源。

当前数据增长越来越迅速，对数据的分析统计时效性要求也越来越高，如何能快速从关系型数据库中把数据抽取出来，成为了越来越多的公司考虑的问题。一般来说从关系型数据库中抽取数据有两种方式：

1、全表单线程抽取。

2、对表进行分段抽取，并且可以设置并发量。

对于全表单线程抽取，速度明显是难以保证的，时间容易拖长；分段抽取的策略处理的方式按照固定的偏移量对表进行分段处理，这种方式容易造成数据倾斜，因为在实际业务中，数据是不连续的，容易造成数据空洞或者是集中，这种情况下分段出来的数据，可能有一段或者几段的数据量很大，其余的很小。

发明内容

(一)要解决的技术问题

本发明的目的在于，提供一种关系型数据库中表分段抽取系统及方法，提升读取关系型数据表时效率和性能。

(二)技术方案

本发明提供一种关系型数据库中表分段抽取系统，包括：

抽取模块，用于对表进行分段抽取；

日志模块，用于根据抽取模块的分段抽取结果，生成日志信息并存储；

步长管理模块，用于提取日志模块中的日志信息，并根据该日志信息，生成优化步长信息并存储。

本发明还一种关系型数据库中表分段抽取方法，包括：

S1，对表进行分段抽取；

S2，根据分段抽取结果，生成日志信息并存储；

S3，提取存储的日志信息，并根据该日志信息，生成优化步长信息并存储。

(三)有益效果

本发明提供的关系型数据库中表分段抽取系统及方法，通过将低于平均抽取行数的分段进行合并，将高于平均抽取行数的分段进行拆分，智能地优化各个分段的数据行数，使各个分段的数据趋于均匀，从而提升读取关系型数据表时效率和性能。

附图说明

图1是现有技术中利用HADOOP和Hive架构实现海量数据统计分析的示意图。

图2是本发明提供的关系型数据库中表分段抽取方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明提供一种关系型数据库中表分段抽取系统及方法，系统包括抽取模块、日志模块及步长管理模块；抽取模块根据步长管理模块中的优化步长信息对表进行分段构造，并根据构造的分段对表进行分段抽取，并将分段抽取结果记录在日志模块，形成日志信息，步长管理模块根据日志信息动态地生成优化步长信息。本发明通过将低于平均抽取行数的分段进行合并，将高于平均抽取行数的分段进行拆分，智能地优化各个分段的数据行数，使各个分段的数据趋于均匀，从而提升读取关系型数据表时效率和性能。

根据本发明的一种实施方式，关系型数据库中表分段抽取系统包括：

抽取模块，用于对表进行分段抽取；

优选地，步长管理模块可以采用一个管理线程在后台检测日志模块是否有新的日志信息，若有，则提取新的日志信息至一个全局排队列表中，可配置提取频率，如3分钟/次；然后管理线程启动若干个用于计算动态步长的子线程，子线程可以是4个，子线程根据全局排队列表中的日志信息，生成优化步长信息，并存储于一个优化结果表中，以供抽取模块进行分段抽取。

根据本发明的一种实施方式，抽取模块判断所述步长管理模块中是否存储有优化步长信息，若是，则根据所述优化步长信息对表进行分段构造，并根据构造的分段对表进行分段抽取；否则，根据固定步长信息对表进行分段构造，并根据构造的分段对表进行分段抽取；其中，优化步长信息和固定步长信息均包括分段总数及每个分段的抽取行数。

根据本发明的一种实施方式，日志信息包括对表进行分段抽取时每个分段的开始位置、结束位置及抽取行数。

根据本发明的一种实施方式，步长管理模块包括：

日志检测子模块，用于从所述日志模块中提取日志信息；

步长计算子模块，用于根据日志信息中记录的每个分段的开始位置、结束位置及抽取行数，计算出最优的分段数及每个分段的最优步长，得到优化步长信息；

存储子模块，用于存储优化步长信息。

根据本发明的一种实施方式，步长计算子模块计算出每个分段的最优步长，得到优化步长信息，其原理是将低于平均抽取行数的分段进行合并，将高于平均抽取行数的分段进行拆分，具体包括：

按照每个分段的开始位置对每个分段进行升序排序；

计算每个分段的平均抽取行数m，其公式为：

m＝L/n，其中，L为每个分段的行数的合计值，n为总的分段数；

合并抽取行数低于平均抽取行数m的相邻分段，并记录通过合并而得到的分段数n₁；

记录读取行数等于平均读取行数m的分段数n₂；

计算需拆分的分段数n₃，其公式为：

n₃＝n－n₁－n₂；

计算每个需拆分分段x的拆分分段数k_x，其公式为：

k_x＝L_x/L₁×n₃，其中，L_x为该需拆分分段x的抽取行数，L₁为需拆分的分段总行数合计值；

计算每个需拆分分段x拆分后的每个分段的行数L_xx：

L_xx＝L_x/k_x；

计算优化后的分段总数N，其公式为：

N＝n₁+n₂+n_x，其中，n_x为每个需拆分分段拆分后分段数的合计值；

将优化后的分段总数N及每个分段的抽取行数作为优化步长信息。

优选地，可将分段合并及分段拆分的条件进一步进行限定，如，将抽取行数小于m/2的相邻分段进行合并，将抽取行数大于等于m/2且小于等于3m/2的分段进行保留，将抽取行数大于3m/2的分段进行拆分。

图2是本发明提供的关系型数据库中表分段抽取方法的流程图，方法包括：

S1，对表进行分段抽取；

S2，根据分段抽取结果，生成日志信息并存储；

根据本发明的一种实施方式，步骤S1包括：判断是否存储有优化步长信息，若是，则根据优化步长信息对表进行分段构造，并根据构造的分段对表进行分段抽取；否则，根据固定步长信息对表进行分段构造，并根据构造的分段对表进行分段抽取；其中，优化步长信息和固定步长信息均包括分段总数N及每个分段的抽取行数。

根据本发明的一种实施方式，步骤S3包括：

S31，提取日志信息；

S32，根据日志信息中记录的每个分段的开始位置、结束位置及抽取行数，计算出最优的分段数及每个分段的最优步长，得到优化步长信息；

S33，存储优化步长信息。

根据本发明的一种实施方式，步骤S32的原理是将低于平均抽取行数的分段进行合并，将高于平均抽取行数的分段进行拆分，具体包括：

按照每个分段的开始位置对每个分段进行升序排序；

计算每个分段的平均抽取行数m，其公式为：

合并抽取行数低于平均抽取行数的相邻分段，并记录通过合并而得到的分段数n₁；

记录读取行数等于平均读取行数m的分段数n₂；

计算需拆分的分段数n₃，其公式为：

n₃＝n－n₁－n₂；

计算每个需拆分分段x的拆分分段数k_x，其公式为：

计算每个需拆分分段x拆分后的每个分段的行数L_xx：

L_xx＝L_x/k_x；

计算优化后的分段总数N，其公式为：

本发明适用于从关系型数据库中抽取数据时出现了数据倾斜的场景，例如电商的订单表，由于数据归档或者促销等因素，会导致数据不连续不均衡，那么在数据抽取过程中，极有可能出现某个阶段的数据量过大或者过小。本发明针对此种场景，可以对关系型数据库表的数据进行切分，根据每次的运行的日志信息，对切分结果应用动态步长算法进行优化，使每个分段的数据趋近于平均。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种关系型数据库中表分段抽取系统，其特征在于，包括：

抽取模块，用于对表进行分段抽取；

步长管理模块，用于提取所述日志模块中的日志信息，并根据该日志信息，生成优化步长信息并存储，所述优化步长信息供所述抽取模块对表进行后续的分段抽取，

其中，所述优化步长信息包括优化分段总数及每个分段的优化抽取行数。

2.根据权利要求1所述的关系型数据库中表分段抽取系统，其特征在于，所述抽取模块判断所述步长管理模块中是否存储有优化步长信息，若是，则根据所述优化步长信息对表进行分段构造，并根据构造的分段对表进行分段抽取；否则，根据固定步长信息对表进行分段构造，并根据构造的分段对表进行分段抽取；其中，固定步长信息包括分段总数及每个分段的抽取行数。

3.根据权利要求2所述的关系型数据库中表分段抽取系统，其特征在于，所述日志信息包括对表进行分段抽取时每个分段的开始位置、结束位置及抽取行数。

4.根据权利要求3所述的关系型数据库中表分段抽取系统，其特征在于，所述步长管理模块包括：

日志检测子模块，用于从所述日志模块中提取日志信息；

存储子模块，用于存储优化步长信息。

5.根据权利要求4所述的关系型数据库中表分段抽取系统，其特征在于，所述步长计算子模块计算出每个分段的最优步长，得到优化步长信息包括：

按照每个分段的开始位置对每个分段进行升序排序；

计算每个分段的平均抽取行数m，其公式为：

记录读取行数等于平均读取行数m的分段数n₂；

计算需拆分的分段数n₃，其公式为：

n₃＝n-n₁-n₂；

计算每个需拆分分段x的拆分分段数k_x，其公式为：

计算每个需拆分分段x拆分后的每个分段的行数L_xx：

L_xx＝L_x/k_x；

计算优化后的分段总数N，其公式为：

6.一种关系型数据库中表分段抽取方法，其特征在于，包括：

S1，对表进行分段抽取；

S2，根据分段抽取结果，生成日志信息并存储；

S3，提取存储的日志信息，并根据该日志信息，生成优化步长信息并存储，所述优化步长信息供所述抽取模块对表进行后续的分段抽取，

7.根据权利要求6所述的关系型数据库中表分段抽取方法，其特征在于，所述步骤S1包括：判断是否存储有优化步长信息，若是，则根据所述优化步长信息对表进行分段构造，并根据构造的分段对表进行分段抽取；否则，根据固定步长信息对表进行分段构造，并根据构造的分段对表进行分段抽取；其中，固定步长信息包括分段总数N及每个分段的抽取行数。

8.根据权利要求7所述的关系型数据库中表分段抽取方法，其特征在于，所述日志信息包括对表进行分段抽取时每个分段的开始位置、结束位置及抽取行数。

9.根据权利要求8所述的关系型数据库中表分段抽取方法，其特征在于，所述步骤S3包括：

S31，提取日志信息；

S33，存储优化步长信息。

10.根据权利要求9所述的关系型数据库中表分段抽取方法，其特征在于，所述步骤S32包括：

按照每个分段的开始位置对每个分段进行升序排序；

计算每个分段的平均抽取行数m，其公式为：

记录读取行数等于平均读取行数m的分段数n₂；

计算需拆分的分段数n₃，其公式为：

n₃＝n-n₁-n₂；

计算每个需拆分分段x的拆分分段数k_x，其公式为：

计算每个需拆分分段x拆分后的每个分段的行数L_xx：

L_xx＝L_x/k_x；

计算优化后的分段总数N，其公式为：