CN105930371A

CN105930371A - 一种面向大数据的基于hdfs的维存储及查询方法

Info

Publication number: CN105930371A
Application number: CN201610227844.9A
Authority: CN
Inventors: 陈勇; 胡中骥; 贾昱
Original assignee: Science And Technology Co Ltd Is Swum In Jiangsu At Once
Current assignee: Science And Technology Co Ltd Is Swum In Jiangsu At Once
Priority date: 2016-04-14
Filing date: 2016-04-14
Publication date: 2016-09-07

Abstract

本发明公开了一种面向大数据的基于HDFS的维存储及查询方法。首先，按维分割存储数据，使得聚集计算只需访问相关维对应数据，避免了检索无关数据；接着构建维层次编码，建立基于维层次编码的B+树索引，快速定位维存储数据，节省了I/O开销；同时设计高效并行查询算法，进一步提高查询效率。

Description

一种面向大数据的基于HDFS的维存储及查询方法

技术领域

本发明所属的技术领域为大数据领域，其涉及到一种联机分析处理系统及方法的实现。涉及一种面向大数据的基于HDFS的维存储及查询方法。

背景技术

联机分析处理是一种能够快速、灵活地进行复杂查询处理，并以直观易懂的形式返回查询结果的技术，简称(OLAP)。OLAP聚集计算效率往往与其数据的存储结构密切相关。在传统OLAP中，应用比较广泛的有基于关系型存储的ROLAP和基于多维数组存储的MOLAP。然而，面向行存储的ROLAP往往需要扫描整行数据，进而影响整体查询效率；MOLAP用多维数组存储预聚集的数据，可以快速响应OLAP聚集计算，但是其更新代价高且预处理数据所占用的空间随着维数的增加呈指数型增长。以往的OLAP存储技术已经无法适应日益增长的OLAP海量数据查询分析。目前有一种基于的海量数据仓库系统Ilive和Pig来应对OLAP海量数据分析。Pig可以并行处理数据但依然是面向行存储，面临扫描全行的行暴力扫描问题；Hlive虽然可以避免全行检索，但它缺乏有效的索引机制。

发明内容

本发明的目的是提出了一种面向大数据的基于HDFS的维存储及查询方法。首先，按维分割存储数据，使得聚集计算只需访问相关维对应数据，避免了检索无关数据；接着构建维层次编码，建立基于维层次编码的B+树索引，快速定位维存储数据，节省了I/O开销；同时设计高效并行查询算法，进一步提高查询效率。

本发明所采用的技术方案是：

一种面向大数据的基于HDFS的维存储及查询方法，包括如下步骤：

S1、按维分割，以维为单位提取每一维对应的度量信息，按维独立组织行数据；

S2、维层次编码，根据维数据的层次特性创建编码；

S3、基于HDFS的HDFile存储，根据前述获取的维信息及其对应的度量数据，以每一维最细粒度的层次属性值为单位存储其对应的TID和度量值；

S4、基于维层次编码的B+树索引；

S5、数据更新；

S6、数据查询。

进一步的，所述步骤1中维分割步骤如下：

1.根据用户的分析模式定义数据源中维的个数，提取每一维的信息；

2.根据每一维成员值在行记录中的位置提取对应的度量列，把原始数据中相关的列以维为单位抽取出来，作为一个存储单位。

进一步的，所述步骤4中，编码长度与关键码大小成正比。

进一步的，所述步骤4中，编码长度相等时，相同位置1大于0。

进一步的，所述步骤5中增加相应的度量数据的步骤如下：

1)将需要追加的数据以<TID，meature-list>的形式提取出来；

2)根据该维的层次编码检索该维对应的维层次索引，找到相应的HDFile文件；

3)将1)中提取的<TID，meature-list>追加到该HDFile中。

进一步的，所述步骤5中数据更新步骤包括如下：

(1)添加维

根据该维包含的列计算该维各层次的编码位数，同时生成该维的编码表文件：根据编码表文件和事实表的数据构造对应于该维的HDFile并存储到HDFS文件系统上。

添加基于该维层次编码对应的B+树索引文件；

(2)删除维

检索namenode上该维的B+树索引，找到HDFS上该维对应的HDFile并删除；

删除namenode上该维对应的维层次B+树索引文件；

删除该维对应的维编码表文件。

进一步的，所述步骤6中数据查询步骤如下：

1)提取查询命令中的维属性值，扫描维层次编码文件，提取维属性值对应的编码；

2)根据获取的编码值，扫描B+树索引，查找HDFS上对应的HDFile的目录，如果目录不为空，则启动一个MapReduce Job转到3)，否则，返回空值；

3)将MapReduce任务的输出结果写到指定文件中，即为聚集结果。

本发明的有益效果是，

本发明公开的一种面向大数据的基于HDFS的维存储及查询方法。首先，按维分割存储数据，使得聚集计算只需访问相关维对应数据，避免了检索无关数据；接着构建维层次编码，建立基于维层次编码的B+树索引，快速定位维存储数据，节省了I/O开销；同时设计高效并行查询算法，进一步提高查询效率。

下面结合附图对本发明作进一步详细描述。

附图说明

图1为本发明面向大数据的基于HDFS的维存储及查询方法的体系结构图。

图2为地区维的维层次树结构图。

具体实施方式

为了加深对本发明的理解，下面结合附图和实施例对本发明作进一步详细的说明。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本方法采用的源数据的形式如表所示，包含TID列、维层次属性列和度量列。TID表示该维层次属性值在原始数据基表中出现的位置，quantity是度量列，TID和quantity之间是维层次属性列。

表一sales

如表所示，首先按维提取源数据中对应的TID和度量信息，同时对每一维的成员值基于维层次特性进行进行编码，然后存储维成员对应的TID和度量到HDFS上的HDFile(HadoopFile)中，接着构建基于维层次编码为键值的B+树索引。直至所有维对应的维文件和维层次编码索引都生成完毕，把每一维对应的B+树索引存储到磁盘上。

1.按维分割

针对联机分析通常以维为单位进行聚集计算的特点，本方法以维为单位提取每一维对应的度量信息。按维独立组织行数据区别于传统关系数据库中以行记录组织数据，避免了数据检索过程中不必要的行扫描时间。具体的维分割步骤如下：

首先，根据用户的分析模式定义数据源中维的个数，提取每一维的信息。将上述表一中的continent，country，和city三列提取出来构成地区维，而时间维由year、month、和day三列组成。其次，根据每一维成员值在行记录中的位置提取对应的度量列。通常每个维通常包含多个层次，每个层次对应一列，并且维的层次之间有一定的语义关系，如表一中continent的范畴比country要大，而year又可以包含month。基于维数据的这种层次特性，本方法把原始数据中相关的列以维为单位抽取出来，作为一个存储单位。

2维层次编码

维层次编码是根据维数据的层次特性创建的编码，其形式化描述如下。

定义1：维层次树DTree＝(V，E)，其中节点V是维中各个层次所有取值的集合；根节点是一个抽象节点，不具有实际含义。边E是各个取值之间的层次关系。若两个取值具有层次关系，则在DTree中，层次较高的值成为层次较低的值的父节点。如地区维从上往下的层次为(洲，国家，城市)。地区维层次树中的节点由洲、国家和城市的所有取值组成。亚洲与中国、韩国和日本具有层次关系，因此在维层次树中，“亚洲”成为“中国”、“韩国”和“日本”的父节点。

定义2：层次属性编码长度DL_Code_Len(L)＝[log2m]，m是L层中不同成员的最大个数。假设一个维层次属性包含30个不同的属性值，则基本编码长度至少设为5位。

定义3：层次属性编码DL_Code(Ln)＝{(…(DL_Code(L1)<<(DL_Code_Len(L2)|(DL_Code(L2))…)<<DL_Code_Len(Ln)|<b1…b0…>bi∈{o，1}。其中k表示维D的所有维层次二进制编码的位数之和，Ln为维D中的第n层次属性，其值域为dom(L)＝{d1，…dm}对于分层的维，为维层次属性的每一个不同属性值指定一个唯一的编码(编码的分配基于属性值在原数据中的先后次序)。

维层次树中，根节点无维层次编码。非根节点的维层次编码为自根节点至该节点的路径上所有编码的串联，除根节点外，所有节点的值编码由定义3生成。地区维层次树中，假定大洲这一层设定两位编码，除掉00，亚洲编码为01，欧洲编码为10；国家这一层设定三位编码，则亚洲中的中国编码为01001；城市这一层设定四位编码，则中国上海的编码为010010001。表二给出了基于表一的地区维和时间维。

表二：不同层次属性值的编码。

维层次编码隐含了维层次之问的语义关系，有利于索引的创建和查询中的范围检索。本方法对数据采用维层次编码，可以充分利用维的层次性，有效支持联机查询中的范围查询。并且编码后的数据其位数减少使得对数据本身进行操作时可以大大缩减时间开销，同时也节约了数据存储空间。

3基于HDFS的HDFile存储

根据前述获取的维信息及其对应的度量数据，以每一维最细粒度的层次属性值为单位存储其对应的TID和度量值，本方法中将最基本的存储单位定义为HDFile。根据构造的维层次编码，提取维成员属性值对应的编码为HDFile文件名，HDFile文件内容定义为二元组<TID，measure-list>的集合，按行分割二元组。在构建HDFile的同时将其存储于HDFS上，基于HDFS中对文件的基本操作，可以对HDFile进行新建、读取、写入、追加、删除等操作。其中TID和measure-list以空格分隔，通过计算多组TID的交集可以确定待查询数据在基表中的确切位置以供数据立方体计算所使用；measure表示度量，根据measure可以求得聚集数据单元的度量值。考虑到数据表中一般包含多个度量值，此处用“|”分隔符加以区分，即measure-list中各个度量值之间以“|”分隔。

HDFile按维存储的结构，有助于快速定位被筛选的数据。在选择聚集计算中涉及的维时，不检索无关的列数据，可以有效降低聚集操作的I/O开销。以一个有5千万条记录，每条记录占用1K字节的表查询为例，若对某维对应的度量值进行sum操作，需要读取的交易记录数据量为50000000*1024＝47.5GB(未建索引的情况下)。读取并处理如此大的数据量会耗费较长的磁盘I/O时间，导致数据处理效率低、时间长。在HDFile模式下，仅仅是对该维所对应的TID和度量数据进行扫描，同样以有5千万条记录的一个单表为例，对特定的维进行查询。假设该维对应的TID占5字节，度量属性占有25字节，读取到的数据量只有50000000*(5+25)＝1.4GB。这相对于全表扫描读取47.5G字节的数据量减少了几十倍。4.基于维层次编码的B+树索引

在大规模数据存储方面，大量数据存储在外存磁盘中，而在外存磁盘中读取/写入块中某数据时，首先需要定位到磁盘中的某块，如何有效地查找磁盘中的数据，需要一种合理高效的外存数据结构，B+树最基本的价值是在基于块的方式存储数据从而能够有效的提高检索效率。和其他的结构如二元查找树不同，B+树有很高的出度(通常是100或更高阶)，这就减少了在一个树中查找一个元素需要的I/O操作次数。

本方法中的B+树以维层次编码作为关键字，可以快速的实现快速定位HDFile文件。

基于维层次编码的B+树索引其构造方法与一般的B+树构造方法类似，这里将维层次编码作为关键码，基于维层次编码的B+树索引其关键码大小遵循以下规则：

1)编码长度与关键码大小成正比。

2)编码长度相等时，相同位置1大于0。

根据上述关键码的比较规则，按照传统B+树的构建算法，即可生成基于维层次编码的B+树索引。

本方法构建基于维层次特性的索引时以维为单位，单独建立B+树索引，这样既减小了整棵索引树的存储空间，又增加了读取维对应度量值的灵活性，减少了多余的I/O操作。

B+树的存储可以分两种情况：一是当整个树可以读到内存里的时候，可以把每一维对应的B+树以对象的形式序列化成一个文件，用到这个维的B+树从文件里读取到内存；二是当节点很多以至于内存放不下整棵树的时候，就得考虑把节点分开存放在不同的文件中。针对联机数据大多具有层次性并且属性值重复性比较高，本方法以属性值的编码作为键值，可以有效减少B+树中关键字的个数，从而减少整棵树的占用空间，提高查询效率。

文件的索引由如下三部分构成：范围+前缀+二分查找。

a)范围：例如，搜索所有country，假设country的编码长度是3，则搜索范围是000-111在索引树中定位到叶子节点后，在叶子节点中采用二分查找，查找到本节点第一个超过搜索范围的关键码，则本节点中在其左侧的关键码全部为符合要求的关键码，从而获取相应文件目录。

b)范围+前缀：搜索中国的所有city，假设city编码长度是4位，则原本搜索范围应为0000000-1111111，中国的编码是000，则搜索范围缩小为0000000-0001111。在索引树中定位到叶子节点后，在叶子几点中采用二分查找，则本节点中在其左侧的关键码全部为符合要求的关键码，从而获取相应文件目录。

范围+前缀的方法体现了数据本身的层次结构，而二分查找应用于索引节点内部，以提高节点内搜索速度。

5.数据更新

当某一维需要增加相应的度量数据时，具体方法描述如下：

1)将需要追加的数据以<TID，meature-list>的形式提取出来；

3)将1)中提取的<TID，meature-list>追加到该HDFile中。

本方法设计的维存储系统在除了支持数据的批量更新之外，在索引更新和维更新方面也比较灵活。

当数据的分析模式发生变化，系统需要增加新的数据视角(添加新的维度)或者摈弃原来存在的分析角度(删除原有的维度)时，本文的更新策略如下：

(1)添加维

添加基于该维层次编码对应的B+树索引文件；

(2)删除维

删除namenode上该维对应的维层次B+树索引文件；

删除该维对应的维编码表文件。

6.数据查询

针对一个查询，首先要检索维相关的维层次B+树索引获得对应的存储在HDFS上HDFile，接着将获取的文件目录作为MapReduce的输入，然后启动一个MapReduce Job。MapReduce分析操作完成对HDFile的聚集操作，最后将计算结果输出到指定的文件中。

输入：查询相关的维

输出：聚集结果

要说明的是，以上所述实施例是对本发明技术方案的说明而非限制，所属技术领域普通技术人员的等同替换或者根据现有技术而做的其他修改，只要没超出本发明技术方案的思路和范围，均应包含在本发明所要求的权利范围之内。

Claims

1.一种面向大数据的基于HDFS的维存储及查询方法，其特征在于：包括如下步骤：

S2、维层次编码，根据维数据的层次特性创建编码；

S4、基于维层次编码的B+树索引；

S5、数据更新；

S6、数据查询。

2.根据权利要求1所述的一种面向大数据的基于HDFS的维存储及查询方法，其特征在于：所述步骤1中维分割步骤如下：

3.根据权利要求1所述的一种面向大数据的基于HDFS的维存储及查询方法，其特征在于：所述步骤4中，编码长度与关键码大小成正比。

4.根据权利要求1或3所述的一种面向大数据的基于HDFS的维存储及查询方法，其特征在于：所述步骤4中，编码长度相等时，相同位置1大于0。

5.根据权利要求1所述的一种面向大数据的基于HDFS的维存储及查询方法，其特征在于：所述步骤5中增加相应的度量数据的步骤如下：

1)将需要追加的数据以<TID，meature-list>的形式提取出来；

3)将1)中提取的<TID，meature-list>追加到该HDFile中。

6.根据权利要求1所述的一种面向大数据的基于HDFS的维存储及查询方法，其特征在于：所述步骤5中数据更新步骤包括如下：

(1)添加维

添加基于该维层次编码对应的B+树索引文件；

(2)删除维

删除namenode上该维对应的维层次B+树索引文件；

删除该维对应的维编码表文件。

7.根据权利要求1所述的一种面向大数据的基于HDFS的维存储及查询方法，其特征在于：所述步骤6中数据查询步骤如下：