CN104112011A

CN104112011A - 一种海量数据提取的方法及装置

Info

Publication number: CN104112011A
Application number: CN201410340118.9A
Authority: CN
Inventors: 陈工孟; 唐杰
Original assignee: SHENZHEN GTA INFORMATION TECHNOLOGY Co Ltd
Current assignee: Shenzhen xishima Data Technology Co.,Ltd.
Priority date: 2014-07-16
Filing date: 2014-07-16
Publication date: 2014-10-22
Anticipated expiration: 2034-07-16
Also published as: CN104112011B

Abstract

本发明适用于大数据处理技术领域，提供了一种海量数据提取的方法及装置，该方法包括：在接收到数据提取请求信息时，根据所述请求信息中的时间范围通过B-Tree索引确定待提取数据所在的数据分区，并确定该数据分区列内的偏移开始位置PB和偏移结束位置PE，根据所述请求信息中的列信息通过列索引确定每个列相对所述数据子块的起始位置P_i，并根据所述请求信息中数据主键对应的数据子块编号确定该数据主键的起始位置P_C；提取位置范围[P_C+P_i+PB，P_C+P_i+PE]内的数据。通过本发明可有效减少索引大小，提高索引定位效率和数据提取效率。

Description

一种海量数据提取的方法及装置

技术领域

本发明属于大数据处理技术领域，尤其涉及一种海量数据提取的方法及装置。

背景技术

随着大数据时代的来临，对海量数据的处理(包括数据的存储、提取等)的需求越来越大。目前主要采用关系型数据库来存储海量数据。然而，数据存储在关系型数据库中，使用B-Tree和聚簇索引的方式，索引比较大(1.6G的数据，索引超过200M)，查询数据时，加载索引数据比较多，另外获取一条数据需要从磁盘提取整行数据，磁盘I/O比较耗时。当提取的数据涉及到多个表时，提取效率更低，性能更差。

发明内容

本发明实施例提供一种海量数据提取的方法及装置，以减少索引大小，提高索引定位效率和数据提取效率。

本发明实施例的第一方面，提供一种海量数据提取的方法，所述方法包括：

从原始数据库中获取原始数据，并根据预设规则对所述原始数据进行分区；

根据分区规则建立B-Tree索引；

根据存入数据分区中的数据列类型、数据分区的时间范围以及数据列存入的先后顺序建立列索引；

将所述数据分区中的数据块拆分成多个数据子块，对所述数据子块进行编号，每个数据子块对应一个数据主键，并将所述数据主键的列数据根据所述列索引存入对应的数据子块中；

在接收到数据提取请求信息时，根据所述请求信息中的时间范围通过B-Tree索引确定待提取数据所在的数据分区，并确定该数据分区列内的偏移开始位置PB和偏移结束位置PE，根据所述请求信息中的列信息通过列索引确定每个列相对所述数据子块的起始位置P_i，并根据所述请求信息中数据主键对应的数据子块编号确定该数据主键数据的起始位置P_C；

提取位置范围[P_C+P_i+PB，P_C+P_i+PE]内的数据。

本发明实施例的第二方面，一种海量数据提取的装置，所述装置包括：

分区单元，用于从原始数据库中获取原始数据，并根据预设规则对所述原始数据进行分区；

第一索引单元，用于根据分区规则建立B-Tree索引；

第二索引单元，用于根据存入数据分区中的数据列类型、数据分区的时间范围以及数据列存入的先后顺序建立列索引；

第一处理单元，用于将所述数据分区中的数据块拆分成多个数据子块，对所述数据子块进行编号，每个数据子块对应一个数据主键，并将所述数据主键的列数据根据所述列索引存入对应的数据子块中；

第二处理单元，用于在接收到数据提取请求信息时，根据所述请求信息中的时间范围通过B-Tree索引确定待提取数据所在的数据分区，并确定该数据分区列内的偏移开始位置PB和偏移结束位置PE，根据所述请求信息中的列信息通过列索引确定每个列相对所述数据子块的起始位置P_i，并根据所述请求信息中数据主键对应的数据子块编号确定该数据主键数据的起始位置P_C；

数据提取单元，用于提取位置范围[P_C+P_i+PB，P_C+P_i+PE]内的数据。

本发明实施例与现有技术相比存在的有益效果是：本发明实施例根据时间范围对数据进行分区，并根据所述数据分区建立B-Tree索引(根据时间范围建立的索引)以及列索引，使得数据分区中的时间范围索引和列索引共用，有效减少索引的大小。而且，在数据查询时，可以根据时间范围索引、列索引以及列偏移定位数据，提高索引定位效率和数据提取效率。另外，数据按列存储，使得在提取数据时，单列数据不需要提取整行数据，有效减少冗余数据的提取，具有较强的易用性和实用性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的海量数据提取方法的实现流程图；

图2是本发明实施例二提供的海量数据提取装置的架构示例；

图3是本发明实施例三提供的海量数据提取装置的组成结构图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透切理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一：

图1示出了本发明第一实施例提供的海量数据提取方法的实现流程，其过程详述如下：

在步骤S101中，从原始数据库中获取原始数据，并根据预设规则对所述原始数据进行分区。

在本实施例中，所述对原始数据进行分区是指根据预设规则将同类型的数据存放在一个数据文件中。例如根据时间范围，将连续5年的数据存放为一个数据文件，则2000-2005数据为一个文件，2006-2010数据为一个文件。

作为本发明的另一示例，为了方便计算索引，在根据预设规则对所述原始数据进行分区之前，还包括：

对获取的所述原始数据进行填充处理，以使得填充处理后的数据与时间点对齐。由于数据与时间点是对齐的，从而所有的列可共用对应的时间范围。例如如果数据是每天一条，则将数据按照每天一条填充，当天没有数据的，填充一条空数据，从而保证每天都有数据填充。

在步骤S102中，根据分区规则建立B-Tree索引。

在本实施例中，可以根据预定的时间范围规则(例如，连续5年的数据存放为一个数据文件)，创建对应的数据分区，在数据分区中根据时间范围建立B-Tree索引，由于数据与时间点是对齐的，从而所有的列都可共用该时间范围。

在步骤S103中，根据存入数据分区中的数据列类型、数据分区的时间范围以及数据列存入的先后顺序建立列索引，并将所述列索引存入对应的数据分区中。

示例性的，所述列索引的计算公式可如下：

y_{n} = T \times Σ_{i = 1}^{n - 1} Li;

其中，y_n为第n列索引，即第n列的数据在数据子块中的开始位置，T为时间范围内总的时间点个数，Li为第i列的单个字段数据长度，n为总列数，n为大于或等于2的整数。例如一个数据分区时间范围为5年，每年250个时间点的数据，则T为1250个时间点，第一列的数据类型为整型(Int型)，则L1＝4字节，第二列的列索引为5000。

在步骤S104中，将所述数据分区中的数据块拆分成多个数据子块，对所述数据子块进行编号，每个数据子块对应一个数据主键，并将所述数据主键的列数据根据所述列索引存入对应的数据子块中。

具体的可以是，将数据分区中的数据块根据一个数据主键(例如交易代码)存储所有列所需的存储空间拆分成多个数据子块，并根据拆分的先后顺序对所述数据子块进行编号，每个数据主键申请一个数据子块，并记录该数据主键所申请的数据子块编号，作为数据提取的索引。将该数据主键的列数据根据所述列索引依此存入对应的数据子块中。

其中，所述数据子块的大小T为时间范围内总的时间点个数，Li为第i列的单个字段数据长度，n为总列数；例如一个数据分区时间范围为5年，每年250个时间点的数据，则T为1250个时间点，一共有四列数据，每列数据类型都为整型，占用4个字节，则一个数据子块的大小为：1250*(4+4+4+4)＝20000字节。

需要说明的是，每个数据分区中的数据按数据主键进行分块，每个数据块中的数据按列进行存储。数据分区中记录主键索引、时间范围索引、列索引，其中索引均使用相对偏移的方式，每个主键共用列索引，每个列共用时间范围索引；数据提取时，根据所述时间范围索引、主键索引以及列索引定位到待提取数据的起始位置。

在步骤S105中，在接收到数据提取请求信息时，根据所述请求信息中的时间范围通过B-Tree索引确定待提取数据所在的数据分区，并确定该数据分区列内的偏移开始位置PB和偏移结束位置PE，根据所述请求信息中的列信息通过列索引确定每个列相对所述数据子块的起始位置P_i，并根据所述请求信息中数据主键对应的数据子块编号确定该数据主键数据的起始位置P_C。

在本实施例中，根据所述请求信息中的时间范围，确定待提取数据所在的数据分区，并确定该数据分区列内的偏移开始位置(PB)和偏移结束位置(PE)，时间范围索引数据分区内共用，一个数据分区只需要查找一次；根据所述请求信息中的列信息通过列索引确定每个列相对所述数据子块的起始位置(P_i)(即该列的第一个数据相对于第一列的第一个数据的相对偏移)，列索引数据分区内共用，一个数据分区只需要查找一次；根据所述请求信息中数据主键对应的数据子块编号确定数据主键的起始位置(P_C)，一个数据主键查找一次；则查询N个数据主键M个列T个时间点只需要计算(N+M+T)次索引。

在步骤S106中，提取位置范围[P_C+P_i+PB，P_C+P_i+PE]内的数据。

在本实施例中，位置范围[P_C+P_i+PB，P_C+P_i+PE]内的数据即为所述待提取数据。

通过本发明实施例，数据查询时索引计算次数减少，数据按列提取，有效的减少了计算量以及I/O的压力，提高了数据查询和提取的效率，表1给出了同等条件下，关系型数据库(mysql)与数据分区文件的数据查询对比情况(数据时间为20年，数据量为700万条数据，数据分区使用5年进行分区，提取一年数据)：

表1

从表1中可以看出，本发明实施例所述的数据分区的查询方式与现有关系型数据库的查询方式相比，明显的减少了数据查询时间，提高了数据查询效率。

本发明实施例通过对原始数据进行分区，更有利于数据的存储、更新、备份和恢复；数据分区中时间范围索引和列索引共用，减少了索引大小，数据更新时不需要修改索引，索引大小基本固定，有利于对索引进行高速缓存；数据查询时，时间范围索引和列索引只需计算一次，减少了索引计算量，提高了数据定位的效率；按列存储数据，减少了冗余数据的提取。本发明实施例扩展了海量数据处理方式，极大的提高了数据存储、定位、提取的效率。

实施例二：

图2示出了本发明第二实施例提供的海量数据提取装置的架构示例，如图2所示，该海量数据高速缓存装置架构从下到上依次包括数据库层、适配器层、数据存储层、数据提取层以及应用层，各层的具体应用如下：

1)数据库层

数据库层包括多个原始数据库，所述原始数据库用于存储原始数据。

2)适配器层

适配器层包括多个数据适配器，所述数据适配器主要用于从所述原始数据库中获取原始数据(所述原始数据每一行表示一个数据主键一个时间点的数据，每一列表示一个时间点的数据)，并对获取的所述原始数据进行预处理。

所述预处理具体包括：根据预定的时间范围规则(例如，连续5年的数据存放为一个数据文件)，创建对应的数据分区，在数据分区中根据时间范围建立B-Tree索引；根据存入数据分区中的数据列类型、数据分区的时间范围以及数据列存入数据分区的先后顺序建立列索引，并将所述列索引存入对应的数据分区中；将数据分区中的数据块根据一个数据主键存储所有列所需的存储空间拆分成多个数据子块，并根据拆分的先后顺序对所述数据子块进行编号，每个数据主键申请一个数据子块，并记录该数据主键所申请的数据子块编号，作为数据提取的索引。将该数据主键的列数据根据所述列索引依此存入对应的数据子块中。

3)数据存储层

所述数据存储层主要用于存储预处理后的数据。

4)数据提取层

数据提取层主要功能是处理用户的数据请求。具体是，在接收到数据提取请求信息时，根据所述请求信息中的时间范围，确定待提取数据所在的数据分区，并确定该数据分区列内的偏移开始位置(PB)和偏移结束位置(PE)，时间范围索引数据分区内共用，一个数据分区只需要查找一次；根据所述请求信息中的列信息通过列索引确定每个列相对所述数据子块的起始位置(P_i)(即该列的第一个数据相对于第一列的第一个数据的相对偏移)，，列索引数据分区内共用，一个数据分区只需要查找一次；根据所述请求信息中数据主键对应的数据子块编号确定数据主键的起始位置(P_C)，一个数据主键查找一次；则查询N个数据主键M个列T个时间点只需要计算(N+M+T)次索引。

5)应用层

所述应用层提供了图形交互界面。用户通过所述图形交互界面可以查询、提取所需的数据。

所述应用层还提供了基于统计分析平台的统一接口，使得各种类型的数据都可以通过所述统一接口获取，并以标准的矩阵数据格式返回给用户。通过所述统一接口减少了用户查询、提取数据的时间成本。同时，通过所述统一接口隔离了用户与原始数据库的直接交互，提高了系统的安全性和稳定性。

实施例三：

图3示出了本发明第三实施例提供的海量数据提取装置的组成结构，为了便于说明，仅示出了与本发明实施例相关的部分。

该海量数据提取装置可以是运行于终端设备内的软件单元、硬件单元或者软硬件相结合的单元，也可以作为独立的挂件集成到所述终端设备中或者运行于所述终端设备的应用系统中。

该海量数据提取装置包括分区单元31、第一索引单元32、第二索引单元33、第一处理单元34、第二处理单元35以及数据提取单元36。其中，各单元的具体功能如下：

分区单元31，用于从原始数据库中获取原始数据，并根据预设规则对所述原始数据进行分区；

第一索引单元32，用于根据分区规则建立B-Tree索引；

第二索引单元33，用于根据存入数据分区中的数据列类型、数据分区的时间范围以及数据列存入的先后顺序建立列索引；

第一处理单元34，用于将所述数据分区中的数据块拆分成多个数据子块，对所述数据子块进行编号，每个数据子块对应一个数据主键，并将所述数据主键的列数据根据所述列索引存入对应的数据子块中；

第二处理单元35，用于在接收到数据提取请求信息时，根据所述请求信息中的时间范围通过B-Tree索引确定待提取数据所在的数据分区，并确定该数据分区列内的偏移开始位置PB和偏移结束位置PE，根据所述请求信息中的列信息通过列索引确定每个列相对所述数据子块的起始位置P_i，并根据所述请求信息中数据主键对应的数据子块编号确定该数据主键的起始位置P_C；

数据提取单元36，用于提取位置范围[P_C+P_i+PB，P_C+P_i+PE]内的数据。

进一步的，所述列索引的计算公式如下：

y_{n} = T \times Σ_{i = 1}^{n - 1} Li;

其中，y_n为第n列索引，T为时间范围内总的时间点个数，Li为第i列的单个字段数据长度，n为大于或等于2的整数。

进一步的，所述分区单元31用于：

根据时间范围对所述原始数据进行分区。

进一步的，所述分区单元31还用于：

对获取的所述原始数据进行填充处理，以使得填充处理后的数据与时间点对齐。

进一步的，所述第一处理单元34用于：

将数据分区中的数据块根据一个数据主键存储所有列所需的存储空间拆分成多个数据子块。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元或模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元或模块既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述装置中单元、模块的具体工作过程，可以参考前述方法实施例一、二中的对应过程，在此不再赘述。

综上所述，通过对原始数据进行分区，更有利于数据的存储、更新、备份和恢复；数据分区中时间范围索引和列索引共用，减少了索引大小，数据更新时不需要修改索引，索引大小基本固定，有利于对索引进行高速缓存；数据查询时，时间范围索引和列索引只需计算一次，减少了索引计算量，提高了数据定位的效率；按列存储数据，减少了冗余数据的提取。本发明实施例扩展了海量数据处理方式，极大的提高了数据存储、定位、提取的效率，具有较强的易用性和实用性。

在本发明实施例所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明实施例各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明实施例各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例各实施例技术方案的精神和范围。

Claims

1.一种海量数据提取的方法，其特征在于，所述方法包括：

根据分区规则建立B-Tree索引；

在接收到数据提取请求信息时，根据所述请求信息中的时间范围通过B-Tree索引确定待提取数据所在的数据分区，并确定该数据分区列内的偏移开始位置PB和偏移结束位置PE，根据所述请求信息中的列信息通过列索引确定每个列相对所述数据子块的起始位置P_i，并根据所述请求信息中数据主键对应的数据子块编号确定该数据主键的起始位置P_C；

提取位置范围[P_C+P_i+PB，P_C+P_i+PE]内的数据。

2.如权利要求1所述的方法，其特征在于，所述列索引的计算公式如下：

y_{n} = T \times Σ_{i = 1}^{n - 1} Li;

3.如权利要求1所述的方法，其特征在于，所述根据预设规则对所述原始数据进行分区包括：

根据时间范围对所述原始数据进行分区。

4.如权利要求1至3任一项所述的方法，其特征在于，在根据预设规则对所述原始数据进行分区之前，还包括：

5.如权利要求1所述的方法，其特征在于，所述将所述数据分区中的数据块拆分成多个数据子块包括：

6.一种海量数据提取的装置，其特征在于，所述装置包括：

第一索引单元，用于根据分区规则建立B-Tree索引；

第二处理单元，用于在接收到数据提取请求信息时，根据所述请求信息中的时间范围通过B-Tree索引确定待提取数据所在的数据分区，并确定该数据分区列内的偏移开始位置PB和偏移结束位置PE，根据所述请求信息中的列信息通过列索引确定每个列相对所述数据子块的起始位置P_i，并根据所述请求信息中数据主键对应的数据子块编号确定该数据主键的起始位置P_C；

7.如权利要求6所述的装置，其特征在于，所述列索引的计算公式如下：

y_{n} = T \times Σ_{i = 1}^{n - 1} Li;

8.如权利要求6所述的装置，其特征在于，所述分区单元用于：

根据时间范围对所述原始数据进行分区。

9.如权利要求6至8任一项所述的装置，其特征在于，所述分区单元还用于：

10.如权利要求6所述的装置，其特征在于，所述第一处理单元用于：