CN107301206A - 一种基于预运算的分布式olap分析方法及系统 - Google Patents

一种基于预运算的分布式olap分析方法及系统 Download PDF

Info

Publication number
CN107301206A
CN107301206A CN201710402937.5A CN201710402937A CN107301206A CN 107301206 A CN107301206 A CN 107301206A CN 201710402937 A CN201710402937 A CN 201710402937A CN 107301206 A CN107301206 A CN 107301206A
Authority
CN
China
Prior art keywords
data
cube
distributed
result
olap
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710402937.5A
Other languages
English (en)
Inventor
林育蓓
古振威
张星明
梁桂煌
陈霖
吴世豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201710402937.5A priority Critical patent/CN107301206A/zh
Publication of CN107301206A publication Critical patent/CN107301206A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于预运算的分布式OLAP分析方法及系统,主要是在分布式数据仓库基础上构建数据模型,根据数据模型定义数据立方体;对给定的数据立方体启动预运算任务,以并行计算的方式进行立方体预构建,将结果保存到分布式键值存储系统中;将多维分析操作经过一系列步骤转换为对数据立方体的key‑value查询操作,从构建好的立方体中直接获取分析结果,并将结果以丰富多样的图表形式展现;同时利用NoSQL对OLAP查询操作进行缓存优化。本发明充分发挥了Hadoop平台强大的处理性能,进行数据立方体预构建,克服了传统方法每次查询都需要从原始数据中进行大量计算导致查询缓慢的问题,从而提高OLAP分析效率和系统性能。

Description

一种基于预运算的分布式OLAP分析方法及系统
技术领域
本发明涉及大数据分析的技术领域,尤其是指一种基于预运算的分布式OLAP分析方法及系统。
背景技术
随着信息化技术的不断发展和完善,计算机科学技术被广泛应用于各行各业,与此同时也积累了海量的数据。如何从这些海量数据中提取有效信息充分挖掘其中蕴含的价值,成为许多管理决策者日益关心的重要问题。对于政府机构而言,大数据分析技术可以提高政府信息管理水平,通过对各级政府部分积攒的海量数据进行深入分析,从而为政府政策方针的制定提供参考依据,提高政府的管理效率和宏观决策水平。对于企业组织而言,可以通过大数据分析技术进行精准营销和提高服务质量促进企业服务转型,成为企业赢得竞争的关键。目前,大数据分析技术被广泛应用于商业智能、政府决策、公共服务等领域,从而提高各领域的运行效率和整个社会经济的集约化程度。
大数据分析一般要经过数据采集、数据预处理、数据存储与管理、在线分析处理、分析结果可视化等步骤。其中,在线分析处理(OLAP)是一种将要分析的数据转化为用户易于理解的维度,提供从各种可能地视角观察信息的软件技术,以便于管理人员和分析人员可以快速、一致、交互地访问他们所关心的数据。在线分析处理(OLAP)作为大数据分析过程中的核心环节,通过构建数据立方体为用户提供多维动态分析,包括各个维度的计算和查询应用。用户可以结合自己的查询分析需求通过切片、切块、旋转、上钻、下钻等多维操作对数据仓库中的海量数据进行快速灵活的分析处理,并以直观的、方便决策人员理解形式将查询结果展示出来,从多个层次、多个角度、多个侧面对数据进行剖析,以便决策人员做出决定。
传统的在线分析处理方法是基于集中式结构化数据存储方式如关系型数据库管理系统采用单节点运行计算的方式,将多维数据分为存储数据和维关键字的事实表和存放维信息的维表两部分,通过多表连接、分组聚集计算等操作实现多维分析。由于传统的数据库处理量级尚小,单台服务器的性能很容易满足需求,也不需要消耗额外的存储空间。但在大数据时代,数据规模急剧增大,事实表动辄千万到亿量级同时还有千万量级的维表,由于采用单节点的计算方式计算能力和资源都相对有限,单台服务器的性能会成为瓶颈甚至导致服务器崩溃。此外,如果每次查询都需要从原始数据中进行大量综合计算,会导致查询延迟过长,随着数据的不断积累,查询响应时间也会不断增加以至于超过用户所能忍受的等待时间。由此可见,传统的在线分析处理分析方法无法很好地适用于大数据分析场景的要求。因此,为了实现对海量数据的在线分析处理分析,需要一种性能稳定、高效的分布式OLAP方法及系统。
与传统在线分析处理方法不同,基于预运算的分布式OLAP分析方法及系统是在Hadoop的基础上采用集群并行计算的方式进行多维数据分析,从而极大提高在线分析处理能力,解决传统分析方法无法对海量数据进行高效分析处理的问题。此外,根据数据立方体的定义通过预先计算的方式对数据模型进行预构建来削减Hadoop环境中处理超过百亿行数据规模时的查询延迟时间,从而解决查询时间会随数据规模的不断增长而增加的问题。同时,为了更好地对预构建过程进行控制,还需要对构建任务进行监控和管理以便及时根据任务运行状态进行调整构建过程。
针对大数据应用分析场景的特点,充分利用大数据分布式计算技术和分布式存储技术,在分布式数据仓库的基础上,研究一种真正可靠、性能稳定、查询高效的基于预运算的分布式OLAP分析方法及系统,从而实现海量数据的高效可靠的在线分析处理是本发明的重点。
发明内容
本发明的目的在于克服传统在线分析处理分析技术的不足,提供了一种基于预运算的分布式OLAP分析方法及系统,充分利用Hadoop集群mapreduce框架的并行处理性能,通过预运算的方式将多维立方体的表连接、聚合运算等计算过程在用户查询之前提前进行计算并将计算结果缓存到分布式键值数据库存储系统中,从而提高多维查询的效率,提高OLAP分析系统的性能。
为实现上述目的,本发明所提供的技术方案,如下:
一种基于预运算的分布式OLAP分析方法,首先,在服务器集群上搭建Hadoop平台,在HDFS基础上构建分布式数据仓库;然后基于分布式数据仓库选择事实表和关联一组维表构建数据模型,根据数据模型定义数据立方体;再对给定的数据立方体启动数据立方体预运算任务,将作业提交到Hadoop集群中运行进行数据立方体预构建,并在构建过程中对作业运行情况进行实时监控,及时掌握作业运行状态,将计算好的中间结果保存到分布式键值存储系统中供后续分析查询;而后将用户多维操作转换为MDX语句并提交,根据MDX语句进行缓存检查,如果查询结果命中则直接返回结果集,否则,执行MDX查询语句,将MDX查询转换为SQL进行查询;接着将SQL生成的执行计划转换为对数据立方体的key-value查询操作;最后,分布式键值存储系统根据查询操作返回查询结果集,并将结果集以数据表或者图表的形式返回给用户。
所述数据立方体预构建流程按如下步骤执行:
1)根据cube的定义将数据仓库中源数据表中所有相关的表连接后提取相关数据,从而生成原始数据并插入到一个临时表中;
2)生成原始数据表后,这些数据文件存储在HDFS中,但文件大小不一甚至有些文件是空的,为了避免后续的mapreduce任务受数据文件大小不同和分布不均的影响导致任务执行缓慢的情况,需要对表数据进行重新分配来均衡数据文件的分布;
3)根据上一步生成的表计算表中度量的distinct值从而生成事实表并写入文件;
4)依据上一步生成的distinct column文件和维度表计算各个维度的distinct值以构建字典表,查询字典表可以获得维成员值;
5)通过临时表计算所有维度可能的组合生成Base Cuboid文件;
6)计算各层Cuboid文件,从第N层开始计算Cuboid文件,每一步都以前一步的结果作为输入,然后从中去除某个维度后进行聚合,生成一个子Cuboid,直到第0层Cuboid文件计算完成;
7)将顺序文件格式的Cuboid文件转换为HFile文件,避免Cuboid文件频繁地直接插入而影响HBase的性能,也减少了大量的磁盘IO操作;
8)将HFile文件加载到HTable中从而将结果存储到HBase中,同时将原始文件删除。
一种基于预运算的分布式OLAP分析系统,包括:
cube构建模块,该cube构建模块包括源数据加载单元、数据模型定义单元、数据立方体预构建单元;所述源数据加载单元用于配置数据源连接信息从分布式数据仓库中加载原始数据表信息到分析系统中;所述数据模型定义单元用于定义事实表和一组维表,构建面向主题的星状模型或雪花型模型结构,根据模型结构定义相应的数据立方体,包括cube名称、维度信息、度量信息等,并将数据立方体相关元数据保存到系统中。所述cube预构建单元用于根据数据立方体的定义从数据仓库中读取原始数据通过mapreduce计算生成Htable并将其加载到HBase中以供多维查询模块使用;
多维查询模块,该多维查询模块包括MDX转换单元、NoSQL缓存单元和OLAP查询单元;所述MDX转换单元用于将多维操作语言MDX转换为SQL;所述NoSQL缓存单元用于管理用户已经查询过的结果集;所述OLAP查询单元用于将SQL进行解析转换成对预先构建好的数据立方体的key-value查询操作以获取结果并返回给用户;
分析结果可视化模块,该分析结果可视化模块包括多维查询单元和结果显示单元;所述多维查询单元负责将用户操作如切片、切块、钻取、旋转等表示为对应的MDX语句,并将其发送到OLAP服务器;所述结果显示单元利用HTML、JS等前端技术负责将查询结果集以数据表或者丰富多样的图表形式进行前端展示。
本发明与现有技术相比,具有如下优点与有益效果:
1、基于分布式数据仓库的OLAP分析,不仅可以满足海量数据的存储要求,同时可充分发挥服务器集群的并行处理性能,并提供一定的可扩展性。利用Hadoop强大的分布式计算能力,查询计算任务能够借助集群成百上千个计算节点的总体资源,从而保证系统能够以并发方式对这些计算任务进行处理,并通过合并生成最终结果。
2、采用预运算的方式进行cube构建,可以有效解决传统的在线分析处理每次查询都需要从原始数据中进行大量计算导致查询缓慢的问题,基于并行计算的方式对立方体进行预构建从而提高cube构建效率。OLAP分析系统的cube构建模块采用分布式列式数据存储方式,可以有效节省海量数据的存储空间,同时提高数据立方体的查询性能。
3、借助分布式NoSQL数据库高性能、易扩展的特点,采用基于纯内存的NoSQL数据库进行缓存优化,将已经查询的数据结果集保存到内存中,可以有效避免多个决策者在进行决策分析时会多次重复OLAP分析操作进行重复计算,从而可以减轻系统负担提高系统性能和查询效率,保证海量数据的高效查询分析。
附图说明
图1为基于预运算的分布式OLAP分析方法总体流程图。
图2为基于预运算的分布式OLAP分析系统层次结构图。
图3为元数据自动化配置流程图。
图4为OLAP查询缓存流程图。
图5为数据模型定义流程图。
图6为预运算流程图。
图7为查询测试时间对比图。
具体实施方式
下面结合实施案例对本发明作进一步的说明。
参见图1所示,本实施例所提供的基于预运算的分布式OLAP分析方法,具体是:首先,在服务器集群上搭建Hadoop平台,在HDFS基础上构建分布式数据仓库;然后基于分布式数据仓库选择事实表和关联一组维表构建数据模型,根据数据模型定义数据立方体;再对给定的数据立方体启动数据立方体预运算任务,将作业提交到Hadoop集群中运行进行数据立方体预构建,并在构建过程中对作业运行情况进行实时监控,及时掌握作业运行状态,将计算好的中间结果保存到分布式键值存储系统中供后续分析查询;而后将用户多维操作转换为MDX语句并提交,根据MDX语句进行缓存检查,如果查询结果命中则直接返回结果集,否则,执行MDX查询语句,将MDX查询转换为SQL进行查询;接着将SQL生成的执行计划转换为对数据立方体的key-value查询操作;最后,分布式键值存储系统根据查询操作返回查询结果集,并将结果集以数据表或者图表的形式返回给用户。
所述数据立方体预构建流程按如下步骤执行:
1)根据cube的定义将数据仓库中源数据表中所有相关的表连接后提取相关数据,从而生成原始数据并插入到一个临时表中;
2)生成原始数据表后,这些数据文件存储在HDFS中,但文件大小不一甚至有些文件是空的,为了避免后续的mapreduce任务受数据文件大小不同和分布不均的影响导致任务执行缓慢的情况,需要对表数据进行重新分配来均衡数据文件的分布;
3)根据上一步生成的表计算表中度量的distinct值从而生成事实表并写入文件;
4)依据上一步生成的distinct column文件和维度表计算各个维度的distinct值以构建字典表,查询字典表可以获得维成员值;
5)通过临时表计算所有维度可能的组合生成Base Cuboid文件;
6)计算各层Cuboid文件,从第N层开始计算Cuboid文件,每一步都以前一步的结果作为输入,然后从中去除某个维度后进行聚合,生成一个子Cuboid,直到第0层Cuboid文件计算完成;
7)将顺序文件格式的Cuboid文件转换为HFile文件,避免Cuboid文件频繁地直接插入而影响HBase的性能,也减少了大量的磁盘IO操作;
8)将HFile文件加载到HTable中从而将结果存储到HBase中,同时将原始文件删除。
基于上述的分布式OLAP分析方法进行结构设计,本实施例提供的分布式OLAP分析系统,包括cube构建模块、多维查询模块、分析结果可视化模块。
cube构建模块包括源数据加载单元、数据模型定义单元、数据立方体预构建单元;所述源数据加载单元用于配置数据源连接信息从分布式数据仓库中加载原始数据表信息到分析系统中;所述数据模型定义单元用于定义事实表和一组维表,构建面向主题的星状模型或雪花型模型结构,根据模型结构定义相应的数据立方体,包括cube名称、维度信息、度量信息等,并将数据立方体相关元数据保存到系统中。所述cube预构建单元用于根据数据立方体的定义从数据仓库中读取原始数据通过mapreduce计算生成Htable并将其加载到HBase中以供多维查询模块使用;
多维查询模块包括MDX转换单元、NoSQL缓存单元和OLAP查询单元;所述MDX转换单元用于将多维操作语言MDX转换为SQL;所述NoSQL缓存单元用于管理用户已经查询过的结果集;所述OLAP查询单元用于将SQL进行解析转换成对预先构建好的数据立方体的key-value查询操作以获取结果并返回给用户;
分析结果可视化模块包括多维查询单元和结果显示单元;所述多维查询单元负责将用户操作如切片、切块、钻取、旋转等表示为对应的MDX语句,并将其发送到OLAP服务器;所述结果显示单元利用HTML、JS等前端技术负责将查询结果集以数据表或者丰富多样的图表形式进行前端展示。
为了测试本实施例上述基于预运算的分布式OLAP分析方法及系统的应用效果,我们将这一技术应用到某社保大数据分析平台当中。整个分析系统层次结构如图2所示,从上至下划分为四层:
1)表现层
表现层是直接与用户进行交互的层次,通过查询接口获得多维分析结果并利用HTML、JS等前端技术将OLAP分析结果采用丰富多样的图表形式如报表、饼图、柱状图、折线图、堆叠图等显示在WEB浏览器上。
2)应用层
应用层用于接收上层的用户请求并做出响应,同时向下层提交SQL查询获取查询结果。其中WEB服务器负责处理用户界面的交互,从服务层同步元数据生成cube schema文件,元数据自动化配置流程如图3所示,并根据cube schema将用户多维操作如切片、切块、钻取、旋转等表示为相应的MDX语句,并将其发送到OLAP服务器。OLAP服务器负责接收MDX语句,并检查查询是否已缓存,若缓存不命中则将MDX语句转换为对应的SQL并发送到服务层进行查询,查询缓存流程如图4所示。
3)服务层
服务层是整个系统的核心,负责数据立方体的构建和执行多维查询。首先根据分析目标进行数据模型定义并将cube metadata信息存储到系统中,详细数据模型定义流程如图5所示。然后根据数据立方体的定义,从分布数据仓库获取原始数据进行数据立方体预构建,并将cube的计算结果存储到到HBase中。具体数据立方体预运算流程如图6所示。最后,将SQL生成的执行计划转换为对HBase的key-value查询操作,从构建好的cube获取查询结果并返回给上一层。
4)存储层
存储层作为持久层,在HDFS基础上构建数据仓库,由多个存储节点组成,负责存储管理要分析的原始数据,为上层提供数据存储服务。
对于系统的性能考量,主要从执行查询分析的效率上体现。本系统将从OLAP查询性能测试、OLAP查询缓存性能测试两方面对系统的实际应用情况进行说明和验证。
OLAP查询性能测试主要是基于不同OLAP方法对构建的数据立方体进行OLAP操作测试系统的响应速度。根据系统中构建的数据立方体,对数据立方体进行包括切块、切片、上卷、下钻和旋转五种OLAP查询操作,其响应时间如图7所示。由图可知,在没有设置OLAP查询缓存的情况下,基于实时计算的传统分析方法耗时均多于本系统的查询时间。此外,由于系统是采用预运算的方式在OLAP查询中的各个操作耗时相对稳定,所有操作都能在毫秒级内完成,其快速且稳定的响应在于查询操作是直接获取数据,不用进行表连接、聚合等其它操作。
OLAP查询缓存主要是为了减少用户重复查询时造成系统的重复运算,提高OLAP的响应速度。因此,缓存的性能测试内容主要是在没配置缓存和配置了缓存两种场景下,分别进行OLAP查询,比较查询缓存对系统响应速度的影响。测试的数据集大小分别为600条、2万条、20万条以及200万条,实验结果如下表所示。
编号 记录数 不使用缓存(s) 使用缓存(s)
1 600 0.76 0.05
2 20000 0.91 0.07
2 200000 1.45 0.06
3 2000000 3.45 0.05
可以看到,分布式缓存对于系统针对相同查询在响应速度上有很大提高,考虑到多个决策者在进行决策分析时会多次重复OLAP分析,查询缓存的配置对于提高系统性能,减轻系统负担具有重要作用,进一步提升平台的分析性能。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (3)

1.一种基于预运算的分布式OLAP分析方法,其特征在于:首先,在服务器集群上搭建Hadoop平台,在HDFS基础上构建分布式数据仓库;然后基于分布式数据仓库选择事实表和关联一组维表构建数据模型,根据数据模型定义数据立方体;再对给定的数据立方体启动数据立方体预运算任务,将作业提交到Hadoop集群中运行进行数据立方体预构建,并在构建过程中对作业运行情况进行实时监控,及时掌握作业运行状态,将计算好的中间结果保存到分布式键值存储系统中供后续分析查询;而后将用户多维操作转换为MDX语句并提交,根据MDX语句进行缓存检查,如果查询结果命中则直接返回结果集,否则,执行MDX查询语句,将MDX查询转换为SQL进行查询;接着将SQL生成的执行计划转换为对数据立方体的key-value查询操作;最后,分布式键值存储系统根据查询操作返回查询结果集,并将结果集以数据表或者图表的形式返回给用户。
2.根据权利要求1所述的一种基于预运算的分布式OLAP分析方法,其特征在于,所述数据立方体预构建流程按如下步骤执行:
1)根据cube的定义将数据仓库中源数据表中所有相关的表连接后提取相关数据,从而生成原始数据并插入到一个临时表中;
2)生成原始数据表后,这些数据文件存储在HDFS中,但文件大小不一甚至有些文件是空的,为了避免后续的mapreduce任务受数据文件大小不同和分布不均的影响导致任务执行缓慢的情况,需要对表数据进行重新分配来均衡数据文件的分布;
3)根据上一步生成的表计算表中度量的distinct值从而生成事实表并写入文件;
4)依据上一步生成的distinct column文件和维度表计算各个维度的distinct值以构建字典表,查询字典表能够获得维成员值;
5)通过临时表计算所有维度可能的组合生成Base Cuboid文件;
6)计算各层Cuboid文件,从第N层开始计算Cuboid文件,每一步都以前一步的结果作为输入,然后从中去除某个维度后进行聚合,生成一个子Cuboid,直到第0层Cuboid文件计算完成;
7)将顺序文件格式的Cuboid文件转换为HFile文件,避免Cuboid文件频繁地直接插入而影响HBase的性能,也减少了大量的磁盘IO操作;
8)将HFile文件加载到HTable中从而将结果存储到HBase中,同时将原始文件删除。
3.一种基于预运算的分布式OLAP分析系统,其特征在于,包括:
cube构建模块,该cube构建模块包括源数据加载单元、数据模型定义单元、数据立方体预构建单元;所述源数据加载单元用于配置数据源连接信息从分布式数据仓库中加载原始数据表信息到分析系统中;所述数据模型定义单元用于定义事实表和一组维表,构建面向主题的星状模型或雪花型模型结构,根据模型结构定义相应的数据立方体,包括cube名称、维度信息、度量信息,并将数据立方体相关元数据保存到系统中;所述cube预构建单元用于根据数据立方体的定义从数据仓库中读取原始数据通过mapreduce计算生成Htable并将其加载到HBase中;
多维查询模块,该多维查询模块包括MDX转换单元、NoSQL缓存单元和OLAP查询单元;所述MDX转换单元用于将多维操作语言MDX转换为SQL;所述NoSQL缓存单元用于管理用户已经查询过的结果集;所述OLAP查询单元用于将SQL进行解析转换成对预先构建好的数据立方体的key-value查询操作以获取结果并返回给用户;
分析结果可视化模块,该分析结果可视化模块包括多维查询单元和结果显示单元;所述多维查询单元负责将用户操作转换为对应的MDX语句,并将其发送到OLAP服务器;所述结果显示单元负责将查询结果集以数据表或图表形式进行前端展示。
CN201710402937.5A 2017-06-01 2017-06-01 一种基于预运算的分布式olap分析方法及系统 Pending CN107301206A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710402937.5A CN107301206A (zh) 2017-06-01 2017-06-01 一种基于预运算的分布式olap分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710402937.5A CN107301206A (zh) 2017-06-01 2017-06-01 一种基于预运算的分布式olap分析方法及系统

Publications (1)

Publication Number Publication Date
CN107301206A true CN107301206A (zh) 2017-10-27

Family

ID=60137377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710402937.5A Pending CN107301206A (zh) 2017-06-01 2017-06-01 一种基于预运算的分布式olap分析方法及系统

Country Status (1)

Country Link
CN (1) CN107301206A (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107958048A (zh) * 2017-11-27 2018-04-24 安徽经邦软件技术有限公司 一种基于财务数据分析的多维数据库系统及实现方法
CN108153834A (zh) * 2017-12-14 2018-06-12 广州市玄武无线科技股份有限公司 一种商业智能应用查询数据的方法、装置及电子设备
CN108334554A (zh) * 2017-12-29 2018-07-27 上海跬智信息技术有限公司 一种新型的olap预计算模型及构建方法
CN108595552A (zh) * 2018-04-10 2018-09-28 平安科技(深圳)有限公司 数据立方体发布方法、装置、电子设备和存储介质
CN108829707A (zh) * 2018-05-02 2018-11-16 国网浙江省电力有限公司信息通信分公司 跨业务域的大数据智能分析系统及方法
CN109086354A (zh) * 2018-07-17 2018-12-25 于果鑫 一种基于可扩展节点集群的大数据分析处理系统
CN109656958A (zh) * 2018-12-18 2019-04-19 北京小米移动软件有限公司 数据查询方法以及系统
CN109710700A (zh) * 2018-11-22 2019-05-03 昆明理工大学 一种olap语义缓存方法
CN109753507A (zh) * 2018-12-29 2019-05-14 上海跬智信息技术有限公司 基于NoSQL类数据库的OLAP实现系统构建方法、实现系统及实现方法
CN109947818A (zh) * 2019-03-12 2019-06-28 银清科技(北京)有限公司 基于支付系统的数据报表展示方法和装置
CN109992417A (zh) * 2019-03-20 2019-07-09 跬云(上海)信息科技有限公司 预计算olap系统及实现方法
CN110222124A (zh) * 2019-05-08 2019-09-10 跬云(上海)信息科技有限公司 基于olap的多维数据处理方法及系统
CN110347755A (zh) * 2019-07-08 2019-10-18 南威软件股份有限公司 一种基于Hadoop和HBase的大数据多维数据分析方法及系统
CN110555021A (zh) * 2018-03-26 2019-12-10 深圳先进技术研究院 数据存储方法、查询方法及相关装置
CN110851442A (zh) * 2019-10-23 2020-02-28 中国科学院国家空间科学中心 科学实验卫星任务数据的多维数据立方体构建系统及方法
CN111046054A (zh) * 2019-12-01 2020-04-21 国家电网有限公司客户服务中心 一种电力营销业务数据分析的方法和系统
CN111143328A (zh) * 2019-12-26 2020-05-12 山东翰林科技有限公司 一种敏捷商业智能数据构建方法、系统、设备、存储介质
CN112181980A (zh) * 2020-09-16 2021-01-05 武汉大学 一种面向大规模分析的时空大数据立方体组织方法及系统
CN112685421A (zh) * 2020-12-31 2021-04-20 浪潮云信息技术股份公司 一种基于大数据和预计算的热线分析方法及模型
CN112835966A (zh) * 2019-11-22 2021-05-25 北京金山云网络技术有限公司 数据查询方法、装置以及电子设备
CN112970012A (zh) * 2019-01-15 2021-06-15 谷歌有限责任公司 用于在查询时间时指定olap多维数据集的系统和方法
CN113157541A (zh) * 2021-04-20 2021-07-23 贵州优联博睿科技有限公司 面向分布式数据库的多并发olap型查询性能预测方法及系统
CN113360472A (zh) * 2021-06-11 2021-09-07 杭州东方通信软件技术有限公司 基于Kylin OLAP的多维数据分析方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955502A (zh) * 2014-04-24 2014-07-30 科技谷(厦门)信息技术有限公司 一种可视化olap的应用实现方法及系统
CN106126604A (zh) * 2016-06-20 2016-11-16 华南理工大学 一种基于分布式数据仓库的社保数据联机分析处理系统
CN106372114A (zh) * 2016-08-23 2017-02-01 电子科技大学 一种基于大数据的联机分析处理系统和方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955502A (zh) * 2014-04-24 2014-07-30 科技谷(厦门)信息技术有限公司 一种可视化olap的应用实现方法及系统
CN106126604A (zh) * 2016-06-20 2016-11-16 华南理工大学 一种基于分布式数据仓库的社保数据联机分析处理系统
CN106372114A (zh) * 2016-08-23 2017-02-01 电子科技大学 一种基于大数据的联机分析处理系统和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
教练_我要踢球: "Kylin中的cube构建", 《CSDN博客》 *

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107958048A (zh) * 2017-11-27 2018-04-24 安徽经邦软件技术有限公司 一种基于财务数据分析的多维数据库系统及实现方法
CN108153834A (zh) * 2017-12-14 2018-06-12 广州市玄武无线科技股份有限公司 一种商业智能应用查询数据的方法、装置及电子设备
CN108153834B (zh) * 2017-12-14 2020-11-06 广州市玄武无线科技股份有限公司 一种商业智能应用查询数据的方法、装置及电子设备
WO2019019574A1 (zh) * 2017-12-29 2019-01-31 上海跬智信息技术有限公司 一种新型的olap预计算模型及构建方法
CN108334554B (zh) * 2017-12-29 2021-10-01 上海跬智信息技术有限公司 一种新型的olap预计算模型及构建方法
CN108334554A (zh) * 2017-12-29 2018-07-27 上海跬智信息技术有限公司 一种新型的olap预计算模型及构建方法
CN110555021B (zh) * 2018-03-26 2023-09-19 深圳先进技术研究院 数据存储方法、查询方法及相关装置
CN110555021A (zh) * 2018-03-26 2019-12-10 深圳先进技术研究院 数据存储方法、查询方法及相关装置
CN108595552A (zh) * 2018-04-10 2018-09-28 平安科技(深圳)有限公司 数据立方体发布方法、装置、电子设备和存储介质
CN108829707A (zh) * 2018-05-02 2018-11-16 国网浙江省电力有限公司信息通信分公司 跨业务域的大数据智能分析系统及方法
CN109086354A (zh) * 2018-07-17 2018-12-25 于果鑫 一种基于可扩展节点集群的大数据分析处理系统
CN109710700A (zh) * 2018-11-22 2019-05-03 昆明理工大学 一种olap语义缓存方法
CN109656958A (zh) * 2018-12-18 2019-04-19 北京小米移动软件有限公司 数据查询方法以及系统
CN109656958B (zh) * 2018-12-18 2021-11-16 北京小米移动软件有限公司 数据查询方法以及系统
CN109753507A (zh) * 2018-12-29 2019-05-14 上海跬智信息技术有限公司 基于NoSQL类数据库的OLAP实现系统构建方法、实现系统及实现方法
CN112970012A (zh) * 2019-01-15 2021-06-15 谷歌有限责任公司 用于在查询时间时指定olap多维数据集的系统和方法
US11941031B2 (en) 2019-01-15 2024-03-26 Google Llc Systems and methods for specifying OLAP cube at query time
CN109947818A (zh) * 2019-03-12 2019-06-28 银清科技(北京)有限公司 基于支付系统的数据报表展示方法和装置
CN109992417A (zh) * 2019-03-20 2019-07-09 跬云(上海)信息科技有限公司 预计算olap系统及实现方法
CN110222124A (zh) * 2019-05-08 2019-09-10 跬云(上海)信息科技有限公司 基于olap的多维数据处理方法及系统
CN110347755A (zh) * 2019-07-08 2019-10-18 南威软件股份有限公司 一种基于Hadoop和HBase的大数据多维数据分析方法及系统
CN110851442A (zh) * 2019-10-23 2020-02-28 中国科学院国家空间科学中心 科学实验卫星任务数据的多维数据立方体构建系统及方法
CN110851442B (zh) * 2019-10-23 2022-07-12 中国科学院国家空间科学中心 科学实验卫星任务数据的多维数据立方体构建系统及方法
CN112835966A (zh) * 2019-11-22 2021-05-25 北京金山云网络技术有限公司 数据查询方法、装置以及电子设备
CN111046054A (zh) * 2019-12-01 2020-04-21 国家电网有限公司客户服务中心 一种电力营销业务数据分析的方法和系统
CN111143328A (zh) * 2019-12-26 2020-05-12 山东翰林科技有限公司 一种敏捷商业智能数据构建方法、系统、设备、存储介质
CN112181980A (zh) * 2020-09-16 2021-01-05 武汉大学 一种面向大规模分析的时空大数据立方体组织方法及系统
CN112181980B (zh) * 2020-09-16 2024-02-02 武汉大学 一种面向大规模分析的时空大数据立方体组织方法及系统
CN112685421A (zh) * 2020-12-31 2021-04-20 浪潮云信息技术股份公司 一种基于大数据和预计算的热线分析方法及模型
CN113157541A (zh) * 2021-04-20 2021-07-23 贵州优联博睿科技有限公司 面向分布式数据库的多并发olap型查询性能预测方法及系统
CN113157541B (zh) * 2021-04-20 2024-04-05 贵州优联博睿科技有限公司 面向分布式数据库的多并发olap型查询性能预测方法及系统
CN113360472A (zh) * 2021-06-11 2021-09-07 杭州东方通信软件技术有限公司 基于Kylin OLAP的多维数据分析方法及系统

Similar Documents

Publication Publication Date Title
CN107301206A (zh) 一种基于预运算的分布式olap分析方法及系统
US11334548B2 (en) Index sharding
US20120011144A1 (en) Aggregation in parallel computation environments with shared memory
Crotty et al. The case for interactive data exploration accelerators (IDEAs)
EP3654198A1 (en) Conversational database analysis
US20220391386A1 (en) Systems and Methods for Database Analysis
EP2469423B1 (en) Aggregation in parallel computation environments with shared memory
US11507555B2 (en) Multi-layered key-value storage
US11836136B2 (en) Distributed pseudo-random subset generation
US11809468B2 (en) Phrase indexing
Grund et al. An overview of HYRISE-a Main Memory Hybrid Storage Engine.
Shakhovska et al. Big Data Model" Entity and Features"
Ptiček et al. Big data and new data warehousing approaches
Bellatreche et al. How to exploit the device diversity and database interaction to propose a generic cost model?
US20220277003A1 (en) Object Indexing
Liu et al. PAIRPQ: an efficient path index for regular path queries on knowledge graphs
Kovačević et al. Alternative business intelligence engines
Ordonez et al. A survey on parallel database systems from a storage perspective: rows versus columns
Li et al. An improved distributed query for large-scale RDF data
Xie et al. SAT: sampling acceleration tree for adaptive database repartition
Zhang et al. HG-Bitmap join index: A hybrid GPU/CPU bitmap join index mechanism for OLAP
Stockinger et al. Zns-efficient query processing with zurichnosql
Balakayeva et al. Modeling the processing of a large amount of data
Lian et al. The optimization of cost-model for join operator on spark SQL platform
Sankar et al. An efficient and scalable RDF indexing strategy based on b-hashed-bitmap algorithm using cuda

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20171027