CN106372114B

CN106372114B - 一种基于大数据的联机分析处理系统和方法

Info

Publication number: CN106372114B
Application number: CN201610707020.1A
Authority: CN
Inventors: 林劼; 赵艳艳; 唐源; 钟德建; 李年华
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2016-08-23
Filing date: 2016-08-23
Publication date: 2019-09-10
Anticipated expiration: 2036-08-23
Also published as: CN106372114A

Abstract

本发明公开了一种基于大数据的联机分析处理系统和方法，该系统能够在Hadoop环境下针对不同规模级别数据集进行快速多维查询分析。通过查询规划评估选择的查询计划包括支持Hive的MDX查询和基于Hbase预计算缓存机制的多维查询。实现可扩展集群节点上支持Hive数据仓库的MDX查询，基于Hbase预计算缓存机制的多维查询优化，满足不同规模级别数据集的低延迟多维查询需求，解决了单一数据源背景下不同OLAP数据组织模型的OLAP多维查询。针对大规模数据集上的Hive多维查询性能优化问题，提出一种构建基于Hbase缓存的分段逐层降维聚合算法。该算法把解决大规模数据多维查询计算的MOLAP带入了大数据OLAP系统中，极大增强了大数据背景下，不同规模级别数据多维查询的可扩展性和高效性。

Description

一种基于大数据的联机分析处理系统和方法

技术领域

本发明涉及一种大数据的Hadoop（一个开发和运行处理大数据的软件平台）环境下的分析处理方法，尤其涉及一种基于大数据的联机分析处理系统和方法。

背景技术

近年来，随着OLAP（联机分析处理）技术的不断发展，OLAP系统产品层出不穷，但是大多数都是基于关系型数据库的ROLAP（关系数据库联机分析处理）系统或者单一的MOLAP（多维数据库联机分析处理）系统。虽然，单节点内存扩展性和面向列的内存数据库技术的不断增强提升了ROLAP系统的查询性能。但是，企业级应用产生的TB到PB级数据规模已经突破传统OLAP所能支持的最大查询限度。传统的ROLAP系统架构存在的缺陷主要有以下三个方面：

1、传统ROLAP系统的MDX（是一种支持多维对象与数据定义和操作的查询语言）查询受到特定数据库的限制、无法完成可扩展集群节点上支持Hive（基于Hadoop的一个数据仓库工具）数据仓库的MDX查询，所述传统ROLAP系统架构在扩展性方面成为制约多维查询分析性能的瓶颈因素。

2、在MDX查询中，传统ROLAP系统缺乏一定的灵活性。当符合某一特定的分析主题发生变化时，需要同时将针对该主题定义和设计的多维模型需要重新调整，当面对大规模数据处理时传统ROLAP系统缺乏灵活性势必会造成分析模型的改变。

3、传统ROLAP是通过基于内存的聚集缓存层中设计聚集表来提高多维查询效率。所以，其只涉及到低纬度的小规模数据多维查询，而在内存中完成聚合计算的性能会受到大规模、高纬度数据量查询需求的制约。同时当面对大规模数据处理时，ROLAP过多的连接操作使得查询处理性能受到制约。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于大数据的联机分析处理系统和方法，该系统满足不同规模级别数据集多维查询要求，提出的OLAP查询优化的算法和缓存策略极大地降低海量数据下多维查询中的查询延迟问题。根据OLAP系统中多维数据模型的构建方法和合适的缓存策略对查询性能的影响，以及大量实时运算而产生的响应和处理时间延迟问题，提出了一种基于Hbase（一个分布式的面向列的开源数据库）缓存的特殊OLAP算法的多维查询解决方案。

本发明的目的是通过以下技术方案来实现的：一种基于大数据的联机分析处理系统，该系统包括用户接口模块、查询规划模块、MDX查询解释模块、HQL查询解释模块、元数据管理模块、MDX聚集缓存模块、基于Hbase的Cube构建缓存模块和数据存储模块；所述的HQL为一种针对Hadoop的一个数据仓库工具Hive的查询语言；

所述的用户接口模块接受来自用户针对不同规模数据集上的MDX和HQL查询请求，供查询规划模块调用；

所述的MDX查询解释模块负责对MDX进行解释和执行查询处理，完成整个解释和查询计算，实现读取维度成员值和单元格值的联机分析处理即OLAP数据访问功能；

所述的HQL查询解释模块负责HQL查询请求解释，形成相应的查询解释语法树，对查询解释语法树所有节点进行相应的执行规则定义，并生成针对一个查询请求相应的查询模型；根据查询模型判断是否存在请求对应的形式化Cube多维模型，Cube即多维立方体；如果存在与查询匹配的Cube，该模块会遍历和选择以键值对形式保存在Hbase中的Cube进行查询，如果Cube不存在，则基于Hbase的Cube构建缓存会向数据存储模块发送细节数据请求，进行Cube构建；

所述的查询规划模块进行查询计划分析、执行处理；

所述的元数据管理模块负责对维度表数据、Cube元数据和Cube中间结果这些元数据信息进行规范管理；

所述的MDX聚集缓存模块定义多个由内存中一组计算值构成的单元格值，主要负责为查询解释模块逐条或者批量地提供单元格值；

所述的基于Hbase的Cube构建缓存模块负责大规模数据集上的Hive多维查询性能优化，通过遍历子Cube生成树来创建一个完全Cube，将预先计算完成Cube的计算结果保存到Hbase当中，以备离线处理所需查询调用从而达到加快查询速度的目的；

所述的数据存储模块负责为MDX查询解释的单元格值计算提供维度的成员和细节数据，将事实表、维度表和单元格值这些数据分布式存储在不同的可扩展集群节点上。

所述的查询规划模块包括权限控制器、查询监听器、查询分析器和查询计划分配器；

所述的权限控制器主要针对不同的用户进行Cube操作的权限设置；

所述的查询监听器主要接受来自多个客户端的多用户查询请求；

所述的查询分析器根据数据规模、实时性要求、存储空间大小和多表连接操作这些指标作为查询评估函数的参数，进行查询评估计算；

所述的查询计划分配器选择查询分析器的计算结果相应的查询计划。

所述的MDX查询解释模块包括创建单元格请求模块、成员读取器对象模块、Schema读取器对象模块和OLAP计算器模块；所述的Schema为一个多维数据库，包含一个逻辑模型；

所述的创建单元格请求模块主要根据当前的一组维度成员上下文环境创建单元格请求，单元格请求中包含所有必要的从聚集缓存层中获取单元格的值的信息；

所述的成员读取器对象模块实现对维度成员的读取；

所述的Schema读取器对象模块实现调用各个维度成员读取器对象；

所述的OLAP计算器实现调用OLAP的Schema读取器对象。

所述的元数据管理模块包括定义模块和Hive表元数据获取模块；

所述的定义模块实现对MDX查询解释中执行MDX语句所需的多维数据模型映射文件和HQL多维查询中的维度表数据进行定义；

所述的Hive表元数据获取模块在建立形式化Cube时，从Hive获取Hive表的元数据。

所述的基于Hbase的Cube构建缓存模块包括形式化定义模块、多维Cube构建模块、Cube计算结果物理化模块和物理化结果存储模块；

所述的形式化定义模块对基于Hbase缓存的Cube模型中包括Cube维度、子Cube维度数目、针对聚合计算前后的子Cube数目计算方法，以及包含两个计算任务实体的子Cube值的计算方法的数据模型的形式化定义；

所述的多维Cube构建模块主要通过Hbase缓存的分段逐层降维聚合算法构建形式化多维Cube；

所述的Cube计算结果物理化模块主要通过Cube数目进行HTable的Region分割策略创建HTable，将创建的HTable转换成Hfile文件，完成Cube计算结果的物理化过程；所述的HTable为Hbase中的一张大的逻辑表Table被划分成的一个或者多个分表，所述的Region为Hbase中的一张大的逻辑表Table被划分成的一个或多个分区，所述的Hfile为Hbase中<Key，Value>键值数据的存储格式；

所述的物理化结果存储模块主要把物理化结果保存到Hbase中，并进行压缩存储处理，以备离线处理所需查询调用。

所述的数据存储模块包括计算模块和存储模块；所述的计算模块主要通过调用相应的缓存模块从Hive数据存储模块读取测试数据，完成聚集计算和Cube预计算；所述的存储模块将预计算的缓存值分别保存在存储模块的Hive和Hbase中。

所述的一种基于大数据的联机分析处理系统的处理方法，其特征在于：所述的方法具体实现步骤如下：

S11、接受来自用户接口层的MDX和HQL查询请求；

S12、通过查询规划模块进行查询计划分析、执行处理；

S13、若选择第一查询计划的MDX查询解释模块执行查询，其步骤如下：

S131、MDX查询解释模块会向MDX聚集缓存模块发送单元格请求，判断是否存在单元格值集；

S132、如果单元格在缓存中，直接从MDX聚集缓存模块中获取查询结果；如果单元格不在缓存中，该缓存模块会向数据存储模块发送单元格计算请求；

S133、MDX聚集管理器会进行查询请求创建、缓存对象创建、以及调用基于原始表查询的HQL语句生成方法，进行HQL执行并获取和处理结果集；

S134、当执行简单的多表join操作HQL语句时，首先会分别调用基于原始表查询的HQL语句生成方法，进行各个维度表中成员及其不同级别下维度成员的读取和度量的读取，最后再做聚合计算处理；

S135、将S134中HQL执行之后获取和处理的结果集分配到已经创建好的聚集缓存对象的各个分段中，分段中保存计算单元格的值；

S14、若选择第二查询计划的HQL查询解释模块执行查询，其步骤如下：

S141、解析HQL查询请求，同样形成相应的查询解释语法树；

S142、遍历查询解释语法树，并为所有节点定义相应的执行规则；

S143、遍历查询解释语法树的所有节点，并生成针对一个查询请求相应的查询模型；

S144、根据查询模型判断是否存在查询请求对应的形式化Cube；

S145、如果存在与查询匹配的Cube，HQL查询解释模块遍历和选择以键值对形式保存在Hbase中的形式化子Cube进行查询；如果不存在与查询匹配的Cube，HQL查询解释模块向缓存层发送形式化Cube多维模型的构建请求，然后按照分段逐层降维聚合算法进行基于Hbase缓存的形式化Cube构建；

S15、获取Cube，返回查询结果，查询结束。

所述的一种基于大数据的联机分析处理方法，所述的方法还包括一个构建形式化多为Cube的步骤：

S21、将原始数据输入到Mapper进行数据分块和计算处理；

S22、遍历Mapper处理生成的Cube生成树的Cube分段；判断Cube分段是否为空；

S23、如果Cube分段为空，转到S29执行；如果Cube分段不为空，将Cube分段输入到Mapper进行计算处理；

S24、遍历Mapper处理生产的Cube分段的层级；判断该层级是否为空；

S25、如果层级为空，转到S29执行；如果层级不为空，将Cube分段层级输入到Mapper进行计算处理；

S26、遍历Mapper处理生产的Cube分段的层级的节点；判断该节点是否为空；

S27、如果节点为空，转到S29执行；如果节点不为空，将每个层级维度组合输入到Mapper进行计算节点处理；

S28、Mapper进行洗牌和排序处理；

S29、Reducer聚集合并处理。

所述的Mapper为封装了MapReduce应用的数据的映射处理逻辑，所述的Reducer为封装了MapReduce应用的数据规约处理逻辑。

所述的一种基于大数据的联机分析处理方法，所述的MDX聚集缓存模块接收MDX查询解释模块的单元格请求后进行如下处理：

S31、接受来自MDX查询解释模块的单元格值的计算请求；

S32、根据查询请求中的列组索引标识，从该聚集缓存层中获取聚合缓存对象并判断该聚合缓存对象是否为空；

S33、如果聚集缓存对象为空说明聚集缓存还未建立，则调用记录单元格请求方法创建请求；同时建立缓存对象并进行单元格的值的计算；

S34、如果聚集缓存对象不为空，则调用聚集缓存对象的获取单元格值的方法，判断聚集缓存对象从缓存中获取单元格值的方法是否为空；

S35、如果S34的方法不为空，该方法内部根据度量查找匹配的分段，调用分段的获取单元格值的方法，根据分段中的信息生成基于聚合表查找情况下的HQL查询语句，从分段的数据集中查找相应的单元格的值；

S36、如果S34方法为空，说明缓存中的聚集缓存对象中没有相应的单元格的值，集合管理器在针对一组列集columns的聚集缓存对象Map<CellKey，OlapCell>中，CellKey为负责访问单元对象CellInfo，OlapCell为最终返回给表现层的单元格值的对象，根据度量的个数创建多个具有相同列集的分段；计算单元格的值则转换成对若干个分段segment[]的求值；其中columns即数据库的逻辑表中的一组列的集合；segment[]的大小是通过不同列集合个数指定segment[]的大小；

S37、根据segments中的信息生成基于原始表查询的HQL语句，执行HQL语句获取HQL结果集，并解析以上结果集；将结果集中的数据填充到行二维数组rows[][]和各列中，该结果集中的每条记录的值包括若干维度列值和若干度量值；其中segments是由一组特定的列值和一个度量值组成的单元格值的集合，rows[][]的大小是通过特定上下文环境中列的个数指定，rows为一个二维数组，可以将执行HQL的结果集数据填充到该数值中；

S38、为每个segments创建数据集对象DataSet，其中，DataSet中存储的单元格值的个数由各限定列的指定值个数乘积决定，若所有限定列都取唯一值，最终决定一个唯一的单元格；

S39、将S37填充到rows[][]中的结果集数据分配给每个分段的DataSet中，确保每个segments的设置数据集方法被调用，从而通过segments的求值计算，完成单元格值的计算。

本发明的有益效果是：一种基于大数据的联机分析处理系统和方法，该系统能够在Hadoop环境下，针对不同规模级别数据集进行快速多维查询分析。通过查询规划评估选择的查询计划包括支持Hive的MDX查询以及基于Hbase预计算缓存机制的多维查询。实现了可扩展集群节点上支持Hive数据仓库的MDX查询，基于Hbase预计算缓存机制的多维查询优化，满足了不同规模级别数据集的低延迟多维查询需求，解决了单一数据源背景下不同OLAP数据组织模型的OLAP多维查询。针对大规模数据集上的Hive多维查询性能优化问题，提出了一种构建基于Hbase的Cube缓存的分段逐层降维聚合算法。该算法把解决大规模数据多维查询计算的MOLAP带入了大数据OLAP系统中，极大地增强了大数据背景下，不同规模级别数据多维查询的可扩展性和高效性。提出了支持Hive的MDX查询解释方法、基于Hbase缓存的Cube构建算法查询优化方案和一种针对以上查询方案的查询规划方法。

附图说明

图1为系统功能模块图；

图2为查询规划模块图；

图3为MDX查询解释模块图；

图4为基于Hbase的形式化Cube多维模型图；

图5为基于Hbase的Cube构建缓存模块图；

图6为系统查询执行流程图；

图7为HQL查询解释模块图；

图8为MDX聚集缓存模块图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

如图1所示，一种基于大数据的联机分析处理系统，该系统包括用户接口模块、查询规划模块、MDX查询解释模块、HQL查询解释模块、元数据管理模块、MDX聚集缓存模块、基于Hbase的Cube构建缓存模块和数据存储模块；

所述的HQL查询解释模块负责HQL查询请求解释，形成相应的查询解释语法树，对查询解释语法树所有节点进行相应的执行规则定义，并生成针对一个查询请求相应的查询模型；根据查询模型判断是否存在请求对应的形式化Cube多维模型；如果存在与查询匹配的Cube，该模块会遍历和选择以键值对形式保存在Hbase中的Cube进行查询，如果Cube不存在，则基于Hbase的Cube构建缓存会向数据存储模块发送细节数据请求，按照相应的算法进行Cube构建；

所述的查询规划模块进行查询计划分析、执行处理；

如图2所述，所述的查询规划模块包括权限控制器、查询监听器、查询分析器和查询计划分配器，根据查询计划分配器选择用MDX查询解释模块查询或者用HQL查询解释模块查询；

所述的权限控制器主要针对不同的用户进行Cube操作的权限设置，用户的权限一般包括访问和构建整个Cube及其子Cube的权限；

如图3所示，所述的MDX查询解释模块包括创建单元格请求模块、成员读取器对象模块、Schema读取器对象模块和OLAP计算器模块；

由于MDX查询语句包含行轴、列轴和切片轴对象。所以该查询语句的结果集为若干个OLAP轴对象和一个单元格值集。每个OLAP轴对象由若干个包含维度成员集合的位置对象组成。当一条成员表达式的MDX语句被请求时，MDX语句会被解释为维度成员和单元格的读取，通过构造单元格计算请求实现单元格的读取。

OLAP计算器模块调用OLAP的Schema读取器对象模块，Schema读取器对象模块将会逐一地调用各个维度成员读取器对象进行维度成员读取。为了提高OLAP数据访问速度，将使用快速成员读取器来快速获取所需要的维度成员值；由于，维度存在一个由若干个不同级别构成的层次关系；所以，读取维度成员值时，会缓存维度层次关系下的所有级别所包括的成员。

创建单元格请求模块根据当前的一组维度成员上下文环境创建单元格请求。单元格请求中包含了所有必要的从聚集缓存层中获取单元格的值的信息。当前的一组维度成员的交集便是要求值的单元格。通过调用查询请求类的方法，把各个成员对应的列和列值加载到查询请求类中。

MDX查询解释模块将单元格计算请求发送到MDX聚集缓存模块，调用聚合管理器进行单元格计算请求的处理。

当MDX聚集缓存模块记录了成批的单元格请求，并保存在请求批处理对象中时。MDX查询解释模块会调用批处理单元格读取类的加载聚集缓存对象的方法，批量读取单元格的值。

所述的Hive表元数据获取模块在建立形式化Cube时，从Hive获取Hive表的元数据。元数据管理模块还将元数据保存在数据存储模块中。

如图4所示，所述的多维Cube构建模块主要通过Hbase缓存的分段逐层降维聚合算法构建形式化多维Cube，构建形式化多维Cube的方法如下：

S11、将原始数据输入到Mapper进行数据分块和计算处理；

S12、遍历以上Mapper处理生成的Cube生成树的Cube分段；判断Cube分段是否为空；

S13、如果Cube分段为空，转到S19执行；如果Cube分段不为空，将以上Cube分段输入到Mapper进行计算处理；

S14、遍历以上Mapper处理生产的Cube分段的层级；判断该层级是否为空；

S15、如果层级为空，转到S19执行；如果层级不为空，将以上Cube分段层级输入到Mapper进行计算处理；

S16、遍历以上Mapper处理生产的Cube分段的层级的节点；判断该节点是否为空；

S17、如果节点为空，转到S19执行；如果节点不为空，将每个层级维度组合输入到Mapper进行计算节点处理；

S18、Mapper进行洗牌和排序处理；

S19、Reducer聚集合并处理。

如图5所示，所述的Cube计算结果物理化模块主要通过Cube数目进行HTable的Region分割策略创建HTable，将创建的HTable转换成Hfile文件，完成Cube计算结果的物理化过程；

所述的物理化结果存储模块主要把物理化结果保存到Hbase中，并进行压缩存储处理，以备离线处理所需查询调用，加快了查询速度。

所述的数据存储模块包括计算模块和存储模块；所述的计算模块根据查询请求执行相应的查询计划，并调用相应的缓存模块从Hive数据存储模块读取测试数据，完成聚集计算和Cube预计算；所述的存储模块将预计算的缓存值分别保存在存储模块的Hive和Hbase中。

如图6所示，一种基于大数据的联机分析处理系统的处理方法，所述的方法具体实现步骤如下：

S21、接受来自用户接口层的MDX和HQL查询请求；

S22、通过查询规划模块进行查询计划分析、执行处理；

S23、若选择第一查询计划的MDX查询解释模块执行查询，其步骤如下：

S231、MDX查询解释模块会向MDX聚集缓存模块发送单元格请求，判断是否存在单元格值集；

S232、如果单元格在缓存中，直接从MDX聚集缓存模块中获取查询结果；如果单元格不在缓存中，该缓存模块会向数据存储模块发送单元格计算请求；

S233、MDX聚集管理器会进行查询请求创建、缓存对象创建、以及调用基于原始表查询的HQL语句生成方法，进行HQL执行并获取和处理结果集；

S234、当执行简单的多表join操作HQL语句，比如事实表和事实表、事实表和维度表、一级维度表和二级维度表都通过主键和外键进行join时，首先会分别调用基于原始表查询的HQL语句生成方法，进行各个维度表中成员及其不同级别下维度成员的读取和度量的读取，最后再做聚合计算处理

S235、将以上中间结果集分配到已经创建好的聚集缓存对象的各个分段中，该分段中保存了计算单元格的值；

如图7所示，S24、若选择第二查询计划的HQL查询解释模块执行查询，其步骤如下：

S241、接受HQL请求；

S242、解析HQL查询请求，同样形成相应的查询语法树；

S243、遍历以上查询语法树，并为所有节点定义相应的执行规则；

S244、遍历语法树的所有节点，并生成针对一个查询请求相应的查询模型；

S245、根据以上查询模型判断是否存在查询请求对应的形式化Cube；

S246、如果存在与查询匹配的Cube，HQL查询解释模块会遍历和选择以键值对形式保存在Hbase中的形式化子Cube进行查询；如果不存在与查询匹配的Cube，HQL查询解释模块会向缓存层发送形式化Cube多维模型的构建请求，然后按照分段逐层降维聚合算法进行基于Hbase缓存的形式化Cube构建；

S25、获取Cube，返回查询结果，查询结束。

如图8所示，一种基于大数据的联机分析处理方法，MDX聚集缓存模块接收MDX查询解释模块的单元格请求后进行如下处理：

S31、接受来自MDX查询解释模块的单元格值的计算请求；

S33、如果聚集缓存对象为空说明聚集缓存还未建立，则调用记录单元格请求方法创建请求；同时建立的缓存对象并进行单元格的值的计算；

S34、如果聚集缓存对象不为空，则调用聚集缓存对象的获取单元格值的方法，判断聚合缓存对象从缓存中获取单元格值的方法是否为空；

S35、如果S34方法不为空，该方法内部会根据度量查找匹配的分段，调用分段的获取单元格值的方法，根据分段中的信息生成基于聚合表查找情况下的HQL查询语句，从分段的数据集中查找相应的单元格的值；

S36、如果S34方法为空，说明缓存中的聚集缓存对象中没有相应的单元格的值，集合管理器会在针对一组列集columns的聚集缓存对象Map<CellKey，OlapCell>中，根据度量的个数创建多个具有相同列集的分段；计算单元格的值则转换成对若干个分段segment[]的求值；

S37、根据segments中的信息生成基于原始表查询的HQL语句，执行HQL语句获取HQL结果集，并解析以上结果集；将结果集中的数据填充到行二维数组rows[][]和各列中，该结果集中的每条记录的值包括若干维度列值和若干度量值；

本发明提出了一种大数据环境下，针对不同规模级别数据进行快速多维查询分析。同时支持Hive的MDX查询解释方法以及基于Hbase预计算缓存机制的多维查询优化方法的OLAP系统架构。该系统依托于大数据平台上Hadoop、Mapreduce框架及其Hive数据仓库和Hbase分布式数据库等子项目强大的计算和存储能力。根据查询规划方法，通过可扩展集群节点上支持Hive的MDX查询解释技术，以及基于Hbase缓存的Cube构建算法的查询优化技术完成系统的设计和实施。

本发明是面向不同规模级别数据集的多维查询需求，解决了单一数据源背景下不同OLAP数据组织模型的OLAP多维查询。提供灵活、快速地多维查询解决方案的软件平台，用户可以通过该平台进行不同规模级别数据的多维查询，包括支持Hive的实时MDX查询、基于Hbase预计算缓存机制的离线多维查询。提供直观的多维查询、报表展示和输出、交互式查询、Cube操作等功能。同时，提供REST Server服务接口，JDBC/ODBC连接，实现Cube缓存管理等服务。大数据OLAP系统简洁的用户操作、集成化数据管理、快速查询等特性极大地方便了用户对不同规模数据进行多维查询的灵活性和高效性。通过查询规划方法保证了提供查询规划支持多用户、多任务、多查询的高并发性多维查询特点，通过该方法把支持Hive的实时MDX在线多维查询和基于Hbase预计算缓存机制的离线多维查询划分为第一查询计划和第二查询计划。

查询规划模块包括权限控制器、查询监听器、查询分析器、查询计划分配器等组件；首先，针对不同的用户进行Cube操作权限设置。用户的权限一般包括，访问和构建整个Cube及其子Cube的权限。然后，查询监听器接受来自多个客户端的多用户查询请求，设定不同的查询计划；根据数据规模、实时性要求、存储空间大小、多表连接操作等参数作为查询评估函数的参数，进行查询评估计算；最后，通过以上计算结果，查询计划分配器选择查询计划。查询规划评估参数分析如下所示：

数据规模评估：根据用户提交的查询请求针对的数据规模级别进行评估，决策查询计划的执行选择。

实时性要求判断：与基于内存缓存的OLAP系统相比，基于磁盘缓存的OLAP系统多维查询的实时性好。

存储空间大小评估：根据OLAP系统的额外存储空间的大小，决策查询计划的执行选择。

复杂多表连接操作：当涉及到超过十几个表的复杂多表的连接操作时，对于Hive而言可能性能上是一个很大的问题。所以，基于Hive的多表连接查询，可以选择第二查询计划，选择Cube进行多表连接的聚合查找。

本发明的基于Hbase预计算缓存机制的离线多维查询，作为一个Hive的辅助查询加速器希望最终的查询HQL类似于直接在Hive上查询。同时在建立Cube时需要从Hive中获取Hive表的维度表元数据。由于重复缓存Cube数据，会占据额外的存储空间，而且会造成不必要的磁盘I/O，增加了运行时间。所以通过一定的缓存策略，仅仅缓存满足查询条件的计算结果，保存构建完全Cube时生成的临时的子Cube，可以大大节省了空间开销。因此，本发明的基于大数据系统的新型OLAP，在针对Cube的缓存策略设计如下：

（1）缓存Cube的策略根据“时间维度”进行人工划分。

（2）通过where条件设置Cube创建的起始时间和结束时间。

（3）按照“时间维度”存在的层次关系进行划分。年、月、日可以是时间维的一个层次关系。在该层次关系由包括年、月、日的三个级别组成。按照“时间维度表”进行缓存策略设置，即选最近3个月的子Cube以及其他可供用户自定义的策略进行缓存。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于大数据的联机分析处理系统，其特征在于：该系统包括用户接口模块、查询规划模块、MDX查询解释模块、HQL查询解释模块、元数据管理模块、MDX聚集缓存模块、基于Hbase的Cube构建缓存模块和数据存储模块；

所述的HQL查询解释模块负责HQL查询请求解释，形成相应的查询解释语法树，对查询解释语法树所有节点进行相应的执行规则定义，并生成针对一个查询请求相应的查询模型；根据查询模型判断是否存在请求对应的形式化Cube多维模型；如果存在与查询匹配的Cube，该模块会遍历和选择以键值对形式保存在Hbase中的Cube进行查询，如果Cube不存在，则基于Hbase的Cube构建缓存模块会向数据存储模块发送细节数据请求，进行Cube构建；

所述的查询规划模块进行查询计划分析、执行处理；

2.根据权利要求1所述的一种基于大数据的联机分析处理系统，其特征在于：所述的查询规划模块包括权限控制器、查询监听器、查询分析器和查询计划分配器；

3.根据权利要求1所述的一种基于大数据的联机分析处理系统，其特征在于：所述的MDX查询解释模块包括创建单元格请求模块、成员读取器对象模块、Schema读取器对象模块和OLAP计算器模块；

所述的成员读取器对象模块实现对维度成员的读取；

所述的OLAP计算器模块实现调用OLAP的Schema读取器对象。

4.根据权利要求1所述的一种基于大数据的联机分析处理系统，其特征在于：所述的元数据管理模块包括定义模块和Hive表元数据获取模块；

5.根据权利要求1所述的一种基于大数据的联机分析处理系统，其特征在于：所述的基于Hbase的Cube构建缓存模块包括形式化定义模块、多维Cube构建模块、Cube计算结果物理化模块和物理化结果存储模块；

所述的Cube计算结果物理化模块主要通过Cube数目进行HTable的Region分割策略创建HTable，将创建的HTable转换成Hfile文件，完成Cube计算结果的物理化过程；

6.根据权利要求1所述的一种基于大数据的联机分析处理系统，其特征在于：所述的数据存储模块包括计算模块和存储模块；所述的计算模块主要通过调用相应的缓存模块从Hive数据存储模块读取测试数据，完成聚集计算和Cube预计算；所述的存储模块将预计算的缓存值分别保存在存储模块的Hive和Hbase中。

7.如权利要求1-6中的任意一项所述的一种基于大数据的联机分析处理系统的处理方法，其特征在于：所述的方法具体实现步骤如下：

S11、接受来自用户接口层的MDX和HQL查询请求；

S12、通过查询规划模块进行查询计划分析、执行处理；

S141、解析HQL查询请求，同样形成相应的查询解释语法树；

S15、获取Cube，返回查询结果，查询结束。

8.根据权利要求7所述的处理方法，其特征在于：所述的方法还包括一个构建形式化多维Cube的步骤：

S21、将原始数据输入到Mapper进行数据分块和计算处理；

S28、Mapper进行洗牌和排序处理；

S29、Reducer聚集合并处理。

9.根据权利要求7所述的处理方法，其特征在于：所述的MDX聚集缓存模块接收MDX查询解释模块的单元格请求后进行如下处理：

S31、接受来自MDX查询解释模块的单元格值的计算请求；

S32、根据查询请求中的列组索引标识，从聚集缓存层中获取聚合缓存对象并判断该聚合缓存对象是否为空；

S36、如果S34方法为空，说明缓存中的聚集缓存对象中没有相应的单元格的值，集合管理器在针对一组列集columns的聚集缓存对象Map<CellKey，OlapCell>中，其中，CellKey为负责访问单元对象CellInfo，OlapCell为最终返回给表现层的单元格值的对象，根据度量的个数创建多个具有相同列集的分段；计算单元格的值则转换成对若干个分段segment[]的求值；