CN113360472A

CN113360472A - 基于Kylin OLAP的多维数据分析方法及系统

Info

Publication number: CN113360472A
Application number: CN202110657031.4A
Authority: CN
Inventors: 张文霖; 方春蓉; 何怡静; 曾东将; 张宝光; 杨克伟
Original assignee: Hangzhou Eastcom Software Technology Co ltd
Current assignee: Hangzhou Eastcom Software Technology Co ltd
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2021-09-07

Abstract

本发明提供一种基于Kyl in OLAP的多维数据分析处理方法及系统，包括：定期从数据库中采集数据集写入HDFS文件系统中；获取hadoop集群的数据仓库中的数据表的结构信息，并根据该结构信息配置生成多个多维立方体；通过Kyl in多维引擎同步HDFS文件系统中的数据集，并根据该数据集和多维立方体构建生成多个立方体段存储在Hbase数据库中；响应于用户输入的查询语句，通过Kyl in多维引擎在Hbase数据库中查找对应的立方体段，并返回该立方体段中的数据结果。基于Kyl in OLAP引擎和Saiku工具实现了高定制多维数据分析报表，配置数据维度后无需人工整合，根据业务需求，自由灵活组合各维度，系统自动按并列、级别等多种组合方式执行数据调度、汇聚、计算和呈现，并支持报表、图表等多形式呈现。

Description

基于Kylin OLAP的多维数据分析方法及系统

技术领域

本发明涉及多维数据分析领域,尤其涉及一种基于Kylin OLAP的多维数据分析方法及系统。

背景技术

目前，各个公司在对集团内部数据进行管理时，需要建设多个系统，分别应对不同的业务领域的数据需求。其中，每一个领域应用需要调用多个系统的数据进行人工整合、统计和分析。现有数据的整合分析流程如图1所示，包括：(1)业务方提出报表需求和统计维度；(2)业务方自主登录或由系统维护方确认报表需求可行性：涉及系统的数量、已有数据是否支持、是否可通过查询支撑，并确认方案；(3)若系统支持，业务方分别登录各个系统，按条件查询获取数据并记录；若不支持，业务方则需向系统方提出定制化需求，由系统方跑数并整合数据；若为常用报表，定制化开发为系统功能；(4)数据计算、分析和最终报表输出依赖人工操作。

针对现有技术的数据处理流程，不难发现其中存在以下问题：

(1)各领域数据由多个系统单独管理和维护，导致集团数据源分散、数据割裂，数据整合成本高，数据权限设置繁琐、不统一等问题；

(2)各系统数据统计维度，查询条件、功能固化，数据分析和引用难以满足业务多样化需求，需要把各类需求实现到系统功能，但这样也会导致系统开发成本高，效率慢，系统的功能结构繁琐、数据冗余；

(3)定制化数据提取需求均由平台运维人员人工执行脚本触发，增加人工维护成本且增加了数据与需求不一致的风险；

(4)综合报表需要业务方重复登录多个系统进行操作、数据记录和整合，增加人工成本且提高数据错误风险，影响工作效率；

(5)多变的业务规则变更需要修改系统代码，无法动态调整，且容易出现漏改、错改、复工等情况，整体配置不够灵活；

(6)数据查看分散，不利于监控数据情况和故障分析。

发明内容

有鉴于此，本申请实施例提供了一种基于Kylin OLAP的多维数据分析方法及系统。

第一方面，本申请实施例提供了一种基于Kylin OLAP的多维数据分析方法，包括：

定期从相关数据库中采集数据集写入HDFS文件系统中；

通过Kylin多维引擎获取hadoop集群的数据仓库中的数据表的结构信息，并根据所述结构信息配置生成多个多维立方体；

通过Kylin多维引擎同步HDFS文件系统中的数据集，并根据所述数据集和所述多维立方体构建生成多个立方体段存储在Hbase数据库中；所述立方体段是指维度不同的数据组合后生成的一个数据结果集；

响应于用户从可视化的客户端界面输入的查询语句，通过Kylin多维引擎在Hbase数据库中查找对应的立方体段，并返回所述立方体段中的数据结果。

可选地，所述定期从相关数据库中采集相关数据集写入到HDFS文件系统中包括：

调用ETL工具KETTLE每天从相关数据库中采集相关数据集写入HDFS文件系统中。

可选地，在将所述相关数据集写入到HDFS文件系统前还包括：对采集的相关数据集进行预处理，所述预处理包括：对数据集数据清洗、整合、加载。

可选地，在对采集的相关数据集进行预处理前还包括：

从Hadoop的数据仓库中获取数据存储时的数据结构信息，根据所述数据结构信息对采集的数据集进行预处理。

可选地，所述相关数据库包括：Oracle数据库、MYSQL数据库。

可选地，所述通过Kylin多维引擎获取hadoop集群的数据仓库中的数据表的结构信息，并根据所述结构信息配置生成多个多维立方体包括包括：

从Hadoop集群的数据仓库中获取目标数据表结构，并根据所述目标数据表结构设置对应的维度表配置信息；

根据所述维度表配置信息，生成多个多维立方体，所述多维立方体中包括了目标数据表、维度表以及目标数据表和维度表之间的关系。

可选地，所述响应于用户从可视化的客户端界面输入的查询语句，通过Kylin多维引擎在Hbase数据库中查找对应的立方体段，并返回所述立方体段中的数据结果包括：

响应于用户从saiku Web客户端界面可视化拉取需要的数据条件构建成相关的查询语句，调用Kylin多维引擎在Hbase数据库中查找对应的立方体段，并返回立方体段中的数据结果。

根据用户输入的查询语句，确定用户需要查询的数据维度；

根据所述数据维度在Hbase中查找所述数据维度对应的立方体段，并返回立方体段中的数据结果。

第二方面，本申请实施例提供了一种基于Kylin OLAP的多维数据分析系统，包括：

采集单元，定期调用ETL工具KETTLE从相关数据库中采集数据集写入HDFS文件系统中；

数据处理单元，用于通过Kylin多维引擎获取hadoop集群的数据仓库中的数据表的结构信息，并根据所述结构信息配置生成多个多维立方体；以及通过Kylin多维引擎同步HDFS文件系统中的数据集，并根据所述数据集和所述多维立方体构建生成多个立方体段存储在Hbase数据库中；所述立方体段是指维度不同的数据组合后生成的一个数据结果集；

查询单元，响应于用户从可视化的客户端界面输入的查询语句，通过Kylin多维引擎在Hbase数据库中查找对应的立方体段，并返回所述立方体段中的数据结果。

本申请实施例提供一种基于Kylin OLAP的多维数据分析处理方法及系统具有以下优点：

(1)提高了数据综合可管理性，数据访问权限控制按照逐级管理的原则，做到权限统一配置；

(2)采用组件化设计思想，系统框架与业务逻辑分离；具备开放的体系架构，持各组件的单独升级，实现在线升级功能，灵活配置报表维度，解决新报表必须定制开发或人工处理问题；

(3)系统提供了完善的备份机制，以应对风险和灾难恢复，确保数据安全、提高系统可用性、降低业务损失；

(4)提供统一的图形用户界面风格，功能菜单应按照数据维度、数据结构等分类方法进行组织，易整合、易应用；

(5)在一个平台存储和管理数据，合理存储和分布数据，在满足业务需求的基础上，避免不可靠的数据传输、不必要的数据复制和同步，避免冗余数据；

(6)功能充分考虑冗余、复用机制，合理采用多进程、多线程，提高数据处理的实时性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为一种现有的数据整合分析流程图；

图2为Kylin OLAP引擎的基础框架示意图；

图3为本申请实施例提供的一种多维数据分析处理流程图；

图4为本申请实施例提供的一种在Kylin多维引擎中生成立方体段的流程示意图；

图5为本申请实施例提供的一种基于Kylin OLAP的多维数据分析处理方法流程图；

图6为本申请实施例提供的一种基于Kylin OLAP的多维数据分析处理系统结构图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

Apache Kylin是一个开源的、分布式的分析型数据仓库，提供Hadoop/Spark之上的SOL查询接口及多维分析(OLAP)能力以支持超大规模数据，最初由eBay开发并贡献至开源社区，它能在亚秒内查询巨大的表。

Kylin的系统架构如图2所示，包括数据源、存储引擎、REST Server、查询引擎(Query Engine)、路由(Routing)、元数据(Metadata)、任务引擎(Cube Build Engine)。

REST Server是一条面向应用程序开发的入口点，提供一些restful接口，例如创建cube、刷新cube、合并cube等cube的操作，project、table、cube等元数据管理、用户访问权限、系统配置动态修改等。除此之外还可以通过该接口实现SQL的查询，这些接口一方面可以通过第三方程序的调用，另一方也被kylin的web界面使用。

查询引擎(Query Engine)用于当Cube准备就绪后，获取并解析用户查询的语句，并与其他组件交互，向用户返回对应的结果。

路由(Routing)负责将解析SQL生成的执行计划转换成cube缓存的查询，cube是通过预计算缓存在Hbase中，这部分查询是可以在秒级甚至毫秒级完成。

元数据(Metadata)管理保存Kylin中的所有元数据，包括Cube元数据，其他组件都是以此为基础。

Cube构建引擎(Cube Build Engine)是所有模块的基础，负责预计算创建cube，创建的过程是通过hive读取原始数据然后通过一些Mapreduce模型计算生成Htable然后存储到Hbase中。

Kylin支持多种数据源且采用预计算的方式。其中，默认的数据源是Hive，默认的预计算结果存储引擎是HBase。

因此，在本申请实施例结合Kylin OLAP的框架设计提出了一种基于Kylin OLAP的多维数据分析处理方法，其过程如图3所示，包括数据采集、数据构建，数据的查询与显示。

1、数据采集

通过每日调度任务程序调用ETL工具KETLLE每天从相关数据库中采集相关数据集写入到HDFS文件系统中。其中，相关数据库可以是ORACLE数据库、MYSQL数据库或者其他数据库，在本申请实施例并不对此进行限定。

具体地，KETLLE从相关数据库中采集到数据以后，根据预先获取的Hadoop中的HIVE数据仓库中定义的数据结构对所采集的数据进行清洗、整合、加载以后写入到HDFS文件数据集群中。

2、数据构建

当采集的数据写入到HDFS文件数据集群中以后，还需要对HDFS文件数据集群中的海量数据进行整合，具体如图4所示，通过Kylin多维分析引擎从Hadoop的HIVE数据仓库中获取存储数据表模型，然后开始创建数据模型(Data Model)。具体地，针对HIVE的目标数据表结构设置多种维度、计算指标、统计形式、构建方式等配置，通过这些配置生成不同的cube立方体。然后根据生成的cube立方体的配置信息(包括配置的事实表、维度表)去HDFS文件系统中获取需要汇聚的数据集，并进行Build构建生成立方体段(Cube Segment)并存储在Hadoop的HBASE数据库中。

3、数据的查询与显示

Kylin提供与多种数据可视化工具的整合能力，如Saiku，Tableau，PowerBI等，令用户可以使用BI工具或者使用标准SQL通过ODBC、JDBC或RESTFUL API对Hadoop数据进行分析。

在此以结合Saiku的二次开发为例进行说明，Saiku是一个轻量级的开源OLAP分析模块化分析工具,它易于嵌入、可扩展和可配置，Saiku RESTful服务器连接到现有的OLAP系统。通过轻量级的基于jQuery的前端支持用户友好、直观的分析,用户可以使用易于使用、拖放界面进行复杂、强大的分析，利用OLAP和内存引擎进行向下钻取，过滤、分类、排序和生成图表，从浏览器中探索数据，不需要编程或安装软件。快速轻松地浏览庞大而复杂的数据集，以找到用户需要的答案。分析来自几乎任何地方的数据，将其部署到每个人，而不需要与其他企业商业智能工具相关的成本。

如图5所示，利用Workbench工具可以快速，简易和可视化的配置获取连接的数据源信息用来编写含有Cube立方体的数据表关联关系，生成有效的Mondrian-schema的xml格式文件。通过上传有效的Mondrian-schema.xml文件在Saiku界面上展示相关数据模型和数据报表条件。

Saiku利用Mondrian在界面生成相应的MDX语句提交到Saiku Restful服务器转换为对应的SQL数据库语句，最终将SQL通过JDBC提交给Kylin执行，返回多层维度的报表数据到前台界面展示。并且可以利用Web界面的友好简单操作对数据进行向上向下钻取，过滤、分类、排序、计算和生成图表，还可以在原有的统计维度或者指标的基础上添加自定义的算法或者公式以获取个性化的统计数据。Saiku提供了跨系统的快速、一致、安全的数据视图，因此每个人都看到相同的数字，只需从业务术语列表中拖动所需的信息，就可以创建详细的报告或漂亮的可视化，保存并共享发现或导出到PDF和Excel中。

结合Saiku多维工具进行数据查询展示的过程包括：

根据Workbench工具或者自定义编写相关数据模型的Mondrian的xml文件，通过Saiku配置页面进行上传。

配置每个Mondrian文件所对应的数据源信息。

在Saiku Web界面查看对应数据源、数据报表模型，通过拉取等操作查询对应的多维数据。

在本申请实施例中基于Kylin OLAP引擎和Saiku工具实现了高定制多维数据分析报表，配置数据维度后无需人工整合，根据业务需求，自由灵活组合各维度，系统自动按并列、级别等多种组合方式执行数据调度、汇聚、计算和呈现，并支持报表、图表等多形式呈现

本申请实施例还提供了一种基于Kylin OLAP的多维数据分析处理方法，如图5所示，包括：

步骤S501，定期从相关数据库中采集相关数据集写入HDFS文件系统中；

通过每日调度程序调用ETL工具KETTLE每天从相关数据库中采集相关数据集写入到HDFS文件系统中。其中，数据集是指一类数据的集合，可以类比数据库中的表，比如销售数据集、人员数据集、财务数据集等。

进一步地，在将采集的数据集写入到HDFS文件系统之前还包括：获取HIVE数据仓库里定义的数据结构，根据获取的数据结构对KETTLE采集的数据进行清洗、整合、加载以后存储到HDFS文件系统中。

步骤S502，Kylin多维引擎从Hadoop集群的数据仓库中获取目标数据表的结构信息，并根据获取的结构信息配置生成多个立方体；

具体地，Kylin从HIVE数据仓库中获取目标数据表结构信息，针对HIVE的目标数据表结构设置相应的维度表配置，通过这些配置生成不同的多维立方体(cube)。其中cube立方体中包含了目标数据表、维度表以及目标数据表和维度表之间的关系。

在针对HIVE的目标数据表结构设置相应的维度表配置包括：针对或的的目标数据表设置多中维度、计算指标、统计形式、构建方式等配置。

需要说明的是，在本申请实施例中，多维立方体只是多维模型的一个形象的说法，立方体其本身只有三维，但多维模型不仅限于三维模型，可以组合更多的维度。

步骤S503，通过Kylin多维引擎同步HDFS文件系统中的数据集，并根据所述数据集和所述立方体构建生成多个立方体段存储在Hbase数据库中；

在Kylin多维引擎中，生成相应的cube立方体以后，根据cube立方体的配置信息(如配置的事实表、维度表)从HDFS文件系统中获取需要汇聚的数据集进行Build构建生成立方体段(Cube Segment)存储在HBase数据库中。然后可以通过键值对key/value的方式快速高效的在海量数据中根据维度的值查询出相应的统计指标。存储在Hbase中的立方体段是指维度不同的数据组合后计算出的一个数据结果集。通过Kylin多维引擎在Hbase数据库中查找对应的立方体段，并返回所述立方体段中的数据结果。

步骤S504，响应于用户从可视化的客户端界面输入的查询语句，通过Kylin多维引擎从Hbase数据库中查找对应的立方体段，并返回该立方体段中的数据结果。

利用Saiku构建可视化的数据查看界面Saiku Web界面。用户从saiku Web客户端界面可视化拉取需要的数据条件构建成相关的查询语句以后，后端通过JDBC接口连接到Kylin，Kylin在内部调用与HBASE相关的API接口在HBASE据库中查询满足用户需求的统计指标数据并返回相应的数据。

具体地，用户在输入查询语句时，已经确定了对需要查询的数据选取的数据维度。那么在获取数据时首先会根据选定的维度找到Hbase中对应的立方体段。由于立方体段中存储的是已经计算好的结果，因此可以直接返回立方体段中存储的结果集数据。

在本申请实施例中，通过Kylin多维分析引擎对HDFS文件数据库中的海量数据进行整合，大大提升了数据查询、整合、汇聚、分析、输出报表、输出图表的效率。可支撑复杂业务下的多维度结构、多时间段、多报表形式需求，做了进一步数据采集、调度、管理、权限设置优化，新增报表导出、字段隐藏、维度上钻下钻、自动计算、多项筛选等报表功能，在维护上减轻了多发定制化开发、跑数人工的投入，在使用上减轻了业务人员的工作量，从数据应用上降低了数据错误风险。

本申请实施例还提供了一种基于Kylin OLAP的多维数据分析处理系统，如图6所示，包括采集单元601、数据处理单元602和查询单元603。这些元件可以连接到内部总线，也可以通过单独的布线彼此连接。

采集单元601定期调用ETL工具KETTLE从相关数据库中采集相关数据集写入HDFS文件系统中；

数据处理单元602用于通过Kylin多维引擎从Hadoop集群的数据仓库中获取数据模型，并根据获取的数据模型配置生成多个立方体；以及通过Kylin多维引擎同步HDFS文件系统中的数据集，并根据所述数据集和所述立方体构建生成多个立方体段存储在Hbase数据库中；

查询单元603响应于用户从可视化的客户端界面输入的查询语句，通过Kylin多维引擎从Hbase数据库中进行数据查询，并返回对应的数据。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种基于Kylin OLAP的多维数据分析方法，其特征在于，包括：

定期从相关数据库中采集数据集写入HDFS文件系统中；

2.根据权利要求1所述的方法，其特征在于，所述定期从相关数据库中采集相关数据集写入到HDFS文件系统中包括：

3.根据权利要求2所述的方法，其特征在于，在将所述相关数据集写入到HDFS文件系统前还包括：对采集的相关数据集进行预处理，所述预处理包括：对数据集数据清洗、整合、加载。

4.根据权利要求3所述的方法，其特征在于，在对采集的相关数据集进行预处理前还包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述相关数据库包括：Oracle数据库、MYSQL数据库。

6.根据权利要求1所述的方法，其特征在于，所述通过Kylin多维引擎获取hadoop集群的数据仓库中的数据表的结构信息，并根据所述结构信息配置生成多个多维立方体包括：

根据所述维度表配置信息生成多个多维立方体，所述多维立方体中包括了目标数据表、维度表以及目标数据表和维度表之间的关系。

7.根据权利要求1所述的方法，其特征在于，所述响应于用户从可视化的客户端界面输入的查询语句，通过Kylin多维引擎在Hbase数据库中查找对应的立方体段，并返回所述立方体段中的数据结果包括：

8.根据权利1所述的方法，其特征在于，所述响应于用户从可视化的客户端界面输入的查询语句，通过Kylin多维引擎在Hbase数据库中查找对应的立方体段，并返回所述立方体段中的数据结果包括：

根据用户输入的查询语句，确定用户需要查询的数据维度；

9.一种基于Kylin OLAP的多维数据分析系统，其特征在于，包括：