CN104182502A

CN104182502A - 一种数据抽取方法及装置

Info

Publication number: CN104182502A
Application number: CN201410406481.6A
Authority: CN
Inventors: 曹连超; 辛国茂; 亓开元; 刘伟; 李占强; 卢军佐
Original assignee: Inspur Beijing Electronic Information Industry Co Ltd
Current assignee: Inspur Beijing Electronic Information Industry Co Ltd
Priority date: 2014-08-18
Filing date: 2014-08-18
Publication date: 2014-12-03
Anticipated expiration: 2034-08-18
Also published as: CN104182502B

Abstract

本发明提供一种数据抽取方法，应用于关系型数据库，所述方法包括：根据选取的数据表中某字段的值域分布，将所述数据表分成M个数据分区，所述字段的类型为数值型或者所述字段的值能够转换成数值；根据所述各数据分区的数据行数计算所述各数据分区的权重；根据所述各数据分区的权重为所述各数据分区分配线程数；所述各数据分区分配的各线程数的总和等于预设的总线程数N，其中M≤N；开启N个线程，按照所分配的线程数，分别对所述各数据分区采用相应数量的线程进行数据抽取。本发明通过对将数据表分为若干数据分区，动态分配各数据分区的线程数，解决了各线程分配数据不均匀的问题，提高了关系型数据的数据抽取效率。

Description

一种数据抽取方法及装置

技术领域

本发明涉及数据抽取领域，具体涉及关系型数据库的数据抽取方法及装置。

背景技术

数据集成是把不同来源、格式和特点的数据在逻辑上或物理上有机地集中，从而提供全面的数据共享，是企业商务智能、数据仓库系统的重要组成部分。ETL是企业数据集成的主要解决方案。ETL中三个字母分别代表的是Extract、Transform、Load，即抽取、转换、加载。数据抽取是从数据源中抽取数据的过程。实际应用中，数据源较多采用的是关系型数据库。

从关系型数据库中抽取数据的方式可以分为直接导出备份数据和通过JDBC等接口读数据等方式。其中通过ODBC或者JDBC等接口读取的方式比较灵活，不仅可以进行数据的全量抽取，又可以进行增量抽取。然而，通过ODBC或者JDBC等接口抽取数据的方式如果不采用多线程并行的话效率会比较低，特别是大数据时代到来的今天，经常需要抽取具有上亿条数据的数据库表。多线程并行抽取数据需要对数据源中的数据进行预分割，如果每个线程分配的数据条目分布不均，多线程的效率会大打折扣；但是如果想要让每个线程分配的数据十分均匀，需要计算数据表中数据的详细分布情况，这样在抽取数据之前需要做大量的数据库操作，影响抽取数据的效率。本专利提出数据预分区的概念，通过简单的数据库预操作获取每个数据分区的数据条目数，并按照数据条目数为每个分区动态分配抽取数据的线程，可以有效解决上述难题。

发明内容

本发明所要解决的技术问题是提供一种关系型数据库的数据抽取方法，以提高数据抽取的效率。

为了解决上述技术问题，本发明提供了一种数据抽取方法，应用于关系型数据库，所述方法包括：

根据所述各数据分区的数据行数计算所述各数据分区的权重；

根据所述各数据分区的权重为所述各数据分区分配线程数；为所述各数据分区分配的线程数的总和等于预设的总线程数N，其中M≤N；

开启N个线程，按照所分配的线程数，分别对所述各数据分区采用相应数量的线程进行数据抽取。

较佳地，

所述根据所述各数据分区的数据行数计算所述各数据分区的权重包括：

获取所述各数据分区的数据行数C_m，1≤m≤M；

第m个数据分区的权重为w_m，C＝C₁+…+C_m+…+C_M，各数据分区的权重之和为1；

所述根据所述各数据分区的权重为所述各数据分区分配线程数包括：

为第m个数据分区分配线程数INT(w_mN)，INT为向下取整；

将剩余未分配的线程数N_o分配到所有数据分区中的N_o个数据分区中，其中，

N_{o} = N - Σ_{m = 1}^{m = M} n_{int} (m) .

较佳地，

根据所述各数据分区的权重为所述各数据分区分配线程数之后，所述开启N个线程前，还包括：

如果数据分区分配的线程数大于等于2，则将该数据分区均分成数据子分区，该数据分区的数据子分区的个数为该数据分区分配的线程数，该数据分区的每个数据子分区对应一个线程。

较佳地，

将第i个数据分区与第j个数据分区合并，其中所述第i个数据分区分配的线程数为0，所述第j个数据分区分配的线程数不为0，1≤i≤M，1≤j≤M，i不等于j。

较佳地，

所述按照所分配的线程数，分别对所述各数据分区采用相应数量的线程进行数据抽取包括：

分别按照分配给所述各数据分区的各数据子分区的线程数，采用相应数量的线程对各数据子分区进行数据抽取。

本发明还提供一种数据抽取装置，应用于关系型数据库，所述装置包括分区模块、分配模块和抽取模块，其中，

所述分区模块用于根据选取的数据表中某字段的值域分布，将所述数据表分成M个数据分区，所述字段的类型为数值型或者所述字段的值能够转换成数值；

所述分配模块进一步包括权重计算单元和线程分配单元；

所述权重计算单元用于根据所述各数据分区的数据行数计算所述各数据分区的权重；

所述线程分配单元用于根据所述各数据分区的权重为所述各数据分区分配线程数；所述各数据分区分配的各线程数的总和等于预设的总线程数N，其中M≤N；

所述抽取模块用于开启N个线程，按照所分配的线程数，分别对所述各数据分区采用相应数量的线程进行数据抽取

较佳地，

所述权重计算单元用于根据所述各数据分区的数据行数计算所述各数据分区的权重是指：

获取所述各数据分区的数据行数C_m，1≤m≤M；

所述线程分配单元用于根据所述各数据分区的权重为所述各数据分区分配线程数是指：

为第m个数据分区分配线程数INT(w_mN)，INT为向下取整；

N_{o} = N - Σ_{m = 1}^{m = M} n_{int} (m) .

较佳地，

所述装置还包括子分区模块，

所述子分区模块用于当线程分配单元为数据分区分配的线程数大于等于2时，则将该数据分区均分成数据子分区，该数据分区的数据子分区的个数为该数据分区分配的线程数，该数据分区的每个数据子分区对应一个线程。

较佳地，

所述装置还包括合并模块，

所述合并模块用于将第i个数据分区与第j个数据分区合并，其中所述第i个数据分区分配的线程数为0，所述第j个数据分区分配的线程数不为0，1≤i≤M，1≤j≤M，i不等于j。

较佳地，

所述抽取模块按照所分配的线程数，分别对所述各数据分区采用相应数量的线程进行数据抽取是指：

上述方案对将数据表分为若干数据分区，动态分配各数据分区的线程数，解决了各线程分配数据不均匀的问题，提高了关系型数据的数据抽取效率。

附图说明

图1是本发明实施例一中的数据抽取方法的流程图；

图2是本发明实施例一中的数据抽取方法的数据分区示意图；

图3是本发明实施例一中的数据抽取方法的数据分区示意图；

图4是本发明实施例一中的数据抽取装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下文中将结合附图对本申请的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

本发明为效避免多线程抽取数据时线程之间分配数据不均匀引起的效率低下的问题，提出将要抽取数据的数据区间进行分区的概念，计算每个分区的权重然后为每个分区动态分配抽取数据的线程，用户可以根据实际情况设置分区数量和线程的数量，设置数据分区可以将全局问题看作一个一个局部问题去解决，针对数据的分布合理的分配线程资源。下面结合附图，对本发明的实施步骤进行详细说明。

实施例一

如图1所示，本发明中应用于关系型数据库的数据抽取方法包括：

S101：根据选取的数据表中某字段的值域分布，将所述数据表分成M个数据分区；所述字段的类型为数值型或者所述字段的值能够转换成数值；

用户可以预先设定数据分区的个数M和需要分配的总线程数N。

具体的，和在选定某一字段id后，查询字段id在数据库中的最小值和最大值Min(id)和Max(id)，通过ODBC或者JDBC接口在关系型数据库中执行SQL语句：

select max(id),min(id)from[表名]

将字段id的值域[Min(id),Max(id)]平均分割成M个数据分区。如图2所示，按照字段id的最小值Min(id)和最大值Max(id)平均分配M个数据分区的区间，并设1到M为每个分区的编号。

设第m个数据分区的区间为RG(m)，区间的左右边界分别为R_left(m)和R_right(m)，则第m个数据分区的区间表达式为：

RG (m) = \{\begin{matrix} [R_{left} (m), R_{right} (m)) = [Min (id) + T * (m - 1), Min (id) + T * m), 1 \leq m < M \\ [R_{left} (m), R_{right} (m)] = [Min (id) + T * (m - 1), Max (id)], m = M \end{matrix}

S102：根据所述各数据分区的数据行数计算所述各数据分区的权重；

首先需要获取述各数据分区的数据行数C_m，1≤m≤M；

第m个数据分区的权重为w_m，C＝C₁+…+C_m+…+C_M，各数据分区的权重之和为1。

在实际操作是，可以并行的通过ODBC或者JDBC等数据库接口执行SQL查询语句获取M个数据分区的数据行数。对于编号为m的分区(1≤m<M)，对应的线程通过ODBC或者JDBC接口在关系型数据库中执行SQL查询语句：

select count(*)from[表名]where id>＝R_left(m)and id<R_right(m)

对于编号为m＝M的分区，对应的线程通过ODBC或者JDBC接口在关系型数据库中执行SQL查询语句：

select count(*)from[表名]where id>＝R_left(m)and id<＝Max(id)

设获得的第m个分区的行数为C_m。则要抽取的数据表的总行数C的值为：

C＝C₁+…+C_m+…+C_M,1≤m≤M

可以按照下面公式设置第m个数据分区的权值为w_m，w_m满足如下多项式：

\{\begin{matrix} w_{m} = \frac{C_{m}}{C}, 1 \leq m \leq M \\ w_{1} + . . . + w_{m} + . . . + w_{M} = 1 \end{matrix}

在本实施例中，根据上述计算公式，数据分区的数据行数越多，其对应的权重越大。

在其它的实施例中也可以按照其它规则设置每个数据分区的权重。

S103：根据所述各数据分区的权重为所述各数据分区分配线程数；所述各数据分区分配的各线程数的总和等于预设的总线程数N，其中M≤N；

按照每个数据分区的权重，为每个分区动态分配抽取数据的线程数。

理想状态下，为第m个数据分区分配线程数INT(w_mN)，INT为向下取整；

N_{o} = N - Σ_{m = 1}^{m = M} n_{int} (m) .

由于w_mN很可能为小数，设n_dec(m)＝w_mN-INT(w_mN)，

对集合{n_dec(1),…,n_dec(m),…,n_dec(M)}(1≤m≤M)中的元素进行遍历，从大到小取前N_o个元素的分区编号m的值组成新的集合K，设k_x∈K，将分区编号为k_x的数据分区分配的线程数加1，即编号为k_x的数据分区抽取数据的线程数为：n_int(k_x)+1。

至此，所有的N个线程已分配完毕。

S104：开启N个线程，按照所分配的线程数，分别对所述各数据分区采用相应数量的线程进行数据抽取

具体的，分别按照分配给各数据分区的各数据子分区的线程数，采用相应数量的线程对各数据子分区进行数据抽取

具体操作时，设每个线程对应的抽取数据的数据子区间的左右边界值分别为r_left(x)和r_right(x)，当1≤x<N的时候，通过ODBC或者JDBC接口在关系数据库中执行如下SQL查询语句：

Select[字段1],[字段2],..,from[表名]where id>＝r_left(x)and id<r_right(x)

当x＝N时，通过ODBC或者JDBC接口在关系数据库中执行如下SQL语句：

Select[字段1],[字段2],..,from[表名]where id>＝r_left(x)and id<＝r_right(x)。

优选地，

在步骤S103后，S104前，还可以包括：

S3011：如果数据分区分配的线程数大于等于2，则将该数据分区均分成数据子分区，该数据分区的数据子分区的个数为该数据分区分配的线程数，该数据分区的每个数据子分区对应一个线程。

具体操作中，设编号为m的分区分配的线程数为n_c(m)，设单个分区内部每个线程抽取数据的左右边界值设为r_left(x)和r_right(x)，其中x为线程编号(1≤x≤n_c(m))。

若n_c(m)不等于0，编号为m的分区内部第x个线程抽取数据的子区间rg_m(x)的表达式为：

r g_{m} (x) = \{\begin{matrix} [r_{left} (x), r_{right} (x)) = [R_{left} (m) + t * (x - 1), R_{left} (m) + t * m), 1 \leq x < n_{c} (m) \\ [r_{left} (x), r_{right} (x)] = [R_{left} (m) + t * (x - 1), R_{right} (m)], x = n_{c} (m) \end{matrix}

优选地，

在步骤S103后，S104前，还可以包括：

S1032：将第i个数据分区与第j个数据分区合并，其中所述第i个数据分区分配的线程数为0，所述第j个数据分区分配的线程数不为0，1≤i≤M，1≤j≤M，i不等于j。

该步骤是将分配线程数为0的数据分区的区间与临近的分配线程数非0的数据分区的相邻子区间合并。若某些数据分区分配了0个抽取数据的线程，但是这些数据分区中可能含有数据，需要将这些数据分区的区间合并到临近的分配线程数大于0的分区的相邻子区间中。默认将分配线程数为0的数据分区合并到右边分区的相邻子区间中；若分配线程数为0的数据分区处在整个数据区间的末尾，将该数据分区合并到左边数据分区的相邻子区间中。

具体在操作时，可以按以下方法操作：

1)若第m个分区分配的线程数为0且右边相邻的分区分配的线程数大于0，即n_c(m)等于0且n_c(m+1)>0，如图3所示，默认将编号为m的数据分区的区间RG(m)与右边临近的编号为m+1的数据分区内部第1个数据子区间rg_m+1(1)合并，即rg_m+1(1)＝rg_m+1(1)∪RG(m)。

2)若第M个分区分配的线程数为0且左边相邻的分区分配的线程数大于0(n_c(M)等于0且n_c(M-1)>0)，默认将编号为M的数据分区的区间RG(M)与左边临近的编号为M-1的分区内部第n_c(M-1)个数据子区间rg_M-1(n_c(M-1))(分区内部最右边的数据子区间)合并，即rg_M-1(n_c(M-1))＝rg_M-1(n_c(M-1))∪RG(M)。

3)若有连续多个分配线程数为0的数据分区，将这些数据分区合并然后执行1)或者2)。

合并之后的数据子区间作为每个线程抽取数据的边界值。

如图4所示，本实施例一还提供一种数据抽取装置，包括：包括分区模块11、分配模块12和抽取模块13，其中，

所述分区模块11用于根据选取的数据表中某字段的值域分布，将所述数据表分成M个数据分区，所述字段的类型为数值型或者所述字段的值能够转换成数值；

所述分配模块12进一步包括权重计算单元121和线程分配单元122；

所述权重计算单元121用于根据所述各数据分区的数据行数计算所述各数据分区的权重；

所述线程分配单元122用于根据所述各数据分区的权重为所述各数据分区分配线程数；所述各数据分区分配的各线程数的总和等于预设的总线程数N，其中M≤N；

所述抽取模块13用于开启N个线程，按照所分配的线程数，分别对所述各数据分区采用相应数量的线程进行数据抽取。

较佳地，

所述权重计算单元121用于根据所述各数据分区的数据行数计算所述各数据分区的权重是指：

获取所述各数据分区的数据行数C_m，1≤m≤M；

所述线程分配单元122用于根据所述各数据分区的权重为所述各数据分区分配线程数是指：

为第m个数据分区分配线程数INT(w_mN)，INT为向下取整；

N_{o} = N - Σ_{m = 1}^{m = M} n_{int} (m) .

较佳地，所述装置还包括子分区模块14，

所述子分区模块14用于当线程分配单元为数据分区分配的线程数大于等于2时，则将该数据分区均分成数据子分区，该数据分区的数据子分区的个数为该数据分区分配的线程数，该数据分区的每个数据子分区对应一个线程。

较佳地，所述装置还包括合并模块15，

所述合并模块15用于将第i个数据分区与第j个数据分区合并，其中所述第i个数据分区分配的线程数为0，所述第j个数据分区分配的线程数不为0，1≤i≤M，1≤j≤M，i不等于j。

较佳地，

所述抽取模块13按照所分配的线程数，分别对所述各数据分区采用相应数量的线程进行数据抽取是指：

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现，相应地，上述实施例中的各模块/模块可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本申请不限制于任何特定形式的硬件和软件的结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种数据抽取方法，应用于关系型数据库，其特征在于，所述方法包括：

根据选取的数据表中某字段的值域分布，将所述数据表分成M个数据分区，所述字段的类型为数值型或者所述字段的值能够转换成数值；

根据所述各数据分区的权重为所述各数据分区分配线程数；所述各数据分区分配的各线程数的总和等于预设的总线程数N，其中M≤N；

2.如权利要求1所述的方法，其特征在于：

获取所述各数据分区的数据行数C_m，1≤m≤M；

为第m个数据分区分配线程数INT(w_mN)，INT为向下取整；

N_{o} = N - Σ_{m = 1}^{m = M} n_{int} (m) .

3.如权利要求2所述的方法，其特征在于：

4.如权利要求3所述的方法，其特征在于：

5.如权利要求4所述的方法，其特征在于：

6.一种数据抽取装置，应用于关系型数据库，其特征在于，所述装置包括分区模块、分配模块和抽取模块，其中，

所述分配模块进一步包括权重计算单元和线程分配单元；

所述抽取模块用于开启N个线程，按照所分配的线程数，分别对所述各数据分区采用相应数量的线程进行数据抽取。

7.如权利要求6所述的装置，其特征在于：

获取所述各数据分区的数据行数C_m，1≤m≤M；

为第m个数据分区分配线程数INT(w_mN)，INT为向下取整；

N_{o} = N - Σ_{m = 1}^{m = M} n_{int} (m) .

8.如权利要求7所述的装置，其特征在于，所述装置还包括子分区模块，

9.如权利要求8所述的装置，其特征在于，所述装置还包括合并模块，

10.如权利要求9所述的装置，其特征在于：