CN110781210A

CN110781210A - 一种应对大规模数据多维聚合实时查询的数据处理平台

Info

Publication number: CN110781210A
Application number: CN201810852204.6A
Authority: CN
Inventors: 于洋; 李鹏; 高经郡; 郭振强
Original assignee: Beijing Kejie Information Technology Co Ltd
Current assignee: Beijing Kejie Information Technology Co Ltd
Priority date: 2018-07-30
Filing date: 2018-07-30
Publication date: 2020-02-11

Abstract

本发明公开了一种应对大规模数据多维聚合实时查询的数据处理平台，包括数据服务首页、数据查询、数据处理以及系统管理，其中平台角色分为普通人员和管理人员，其中系统管理模块只针对管理人员开放，数据处理分为项目管理和cube管理，系统管理模块分为集群监控和项目权限管理，本发明提供可视化操作界面，降低操作难度与学习成本，使多维分析查询效率大大提升，响应时间降低至毫秒级；同时因为数据的计算是通过预处理方式进行处理，数据的计算使用硬盘计算，相对于spark使用内存计算，成本更低，且预计算模式不追求计算的高实时性，用户可以根据需求降低服务器集群成本；提供任务监控和集群监控功能，可以帮助用户有效的管理集群和数据处理任务。

Description

一种应对大规模数据多维聚合实时查询的数据处理平台

技术领域

本发明涉及到数据处理技术领域，特别涉及一种应对大规模数据多维聚合实时查询的数据处理平台。

背景技术

随着大数据时代的到来，各种信息量呈爆炸式增长，为了能够迅速、一致、交互地从各个方面观察信息，以达到深入理解数据的目的，企业需要通过对数据进行多维聚合分析，但是从大规模数据集中进行多维聚合分析的实时性成为一道技术瓶颈。

现有技术中多使用spark来进行对大数据量的多维聚合分析，但是其局限性导致了一些特定场景的不适用性。例如数据量级在TB级别以上，聚合维度较多且需要实时响应查询结果的场景下，spark的性能急剧下降，无法满足场景需求。

常见的多维聚合分析场景下，技术多使用sparksql引擎进行查询，其主要的数据解析过程是将数据从HDFS中读取到内存中，对数据采用内存列存储，既 spark中的dataframe，通过内置的sql解析器解析sql后在内存中对读入的数据进行多维的解析，然后在将解析后的数据进行输出。在小规模的数据量级下，sparksql还是能够快速的响应实时的查询需求，但是在大规模数据集的情况下，对于集群的内存使用成倍增加，响应时间同样成倍增加，同时查询维度的增加也会对响应时间造成影响，维度越多，响应越慢。

大数据量下多维度的实时聚合查询目前的多使用spark等分布式查询引擎，但是查询效率很低，往往达不到实时甚至准实时，更无法为更多的分析平台提供实时的查询数据。

现有技术缺陷：一、查询效率低，响应时长会根据查询维度和数据量的增加而成倍递增；二、集群成本高；三、需要开发人员具有很高的sql开发能力，学习成本高；四、不便于管理和监控。

发明内容

发明的目的在于提供一种应对大规模数据多维聚合实时查询的数据处理平台，，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种应对大规模数据多维聚合实时查询的数据处理平台，包括数据服务首页、数据查询、数据处理以及系统管理四个模块，其中平台角色分为普通人员和管理人员，其中系统管理模块只针对管理人员开放，数据处理分为项目管理和cube管理，系统管理模块分为集群监控和项目权限管理，其中，

数据服务首页：汇总平台上相关cube以及任务数据，提供任务总数，cube 总数以及每日新增cube数量，可以通过图表形式查看每日成功或者失败的计算任务或者cube；

数据查询：可视化的SQL提交界面，用户可以在查询界面内通过编写sql 的方式预览需要处理的数据表信息；

项目管理：可以新增或编辑项目，并通过项目的各种基本信息进行项目的查询，项目需要指定有管理此项目权限的用户，项目中需要对数据表进行绑定，也就是当前项目需要用到哪些表信息，roc还会针对已加载的表进行检测，当hive中表进行更改会做出相应的提醒；

cube管理：可以新增并编辑cube，并可以根据cube信息进行查询，提供 cube调度功能按钮，可以将cube添加到任务队列中，按照周期定时执行，新建cube中需要对指标字段进行指定计算方式，在构建cube中，可以根据数据内容进行不同的优化，包括必要维度，层级维度，衍生维度；

集群监控：roc计算节点的服务器运行状态监控，可以查看当前服务器运行的负载情况以及服务器当前的运行状态指标；

项目权限管理：管理平台用户角色，分配项目管理权限。

优选的，用户使用平台开发任务步骤如下：

步骤1)：新建项目；

步骤2)：项目中绑定数据表；

步骤3)：新建cube；

步骤4)：指定cube计算方式；

步骤5)：调度并构建cube；

步骤6)：数据查询。

优选的，数据流转过程如下：

步骤31)：用户通过平台构建cube调度任务；

步骤32)：任务会根据用户设置的运行周期自动调度；

步骤33)：平台的构建引擎会解析用户在cube创建时添加的维度和指标；

步骤34)：构建引擎重构任务为SQL，提交到底层计算集群中；

步骤35)：计算集群会对提交的SQL进行解析；

步骤36)：从HIVE元数据中读取任务所需要的元数据；

步骤37)：通过第五步解析的SQL结合第六步提取的元数据进行计算；

步骤38)：将根据第三步中定义好的维度和指标，通过第七步生成结果数据，写入到hbase数据库中；

步骤39)：用户想要根据设定好的维度进行多维分析查询时候，可以使用JDBC的API调用方式或者是使用数据查询功能对指标进行查询；

步骤310)：SQL解析引擎会将解析的查询语句提交到查询引擎；

步骤311)：查询引擎会从HBASE数据库中进行数据的读取并返还展示给查询用户。

与现有技术相比，本发明的有益效果是：

1、本发明提出的应对大规模数据多维聚合实时查询的数据处理平台，本发明为了解决大规模数据集的情况下，支持多维聚合分析查询实时响应(毫秒级别响应)，提供可视化操作界面，降低操作难度与学习成本。

2、本发明提出的应对大规模数据多维聚合实时查询的数据处理平台，用户可以通过可视化界面创建和管理CUBE，对要查询的数据集进行预建模，预先对数据做多维索引，将聚合维度组合结果数据预先进行存储，用户查询时直接查询结果数据而不是从原始数据中进行解析，使多维分析查询效率大大提升，响应时间降低至毫秒级；同时因为数据的计算是通过预处理方式进行处理，数据的计算使用硬盘计算，相对于spark使用内存计算，成本更低，且预计算模式不追求计算的高实时性，用户可以根据需求降低服务器集群成本。

3、本发明提出的应对大规模数据多维聚合实时查询的数据处理平台，提供任务监控和集群监控功能，可以帮助用户有效的管理集群和数据处理任务。

附图说明

图1为本发明的模块结构示意图；

图2为本发明的数据流转示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，一种应对大规模数据多维聚合实时查询的数据处理平台，包括数据服务首页、数据查询、数据处理以及系统管理四个模块，其中平台角色分为普通人员和管理人员，其中系统管理模块只针对管理人员开放，数据处理分为项目管理和cube管理，系统管理模块分为集群监控和项目权限管理，其中，

cube管理：可以新增并编辑cube，并可以根据cube信息进行查询，提供 cube调度功能按钮，可以将cube添加到任务队列中，按照周期定时执行，新建cube中需要对指标字段进行指定计算方式，例如：SUM，MAX，COUNT 等；在构建cube中，在构建cube中，可以根据数据内容进行不同的优化，包括必要维度，层级维度，衍生维度；

项目权限管理：管理平台用户角色，分配项目管理权限。

用户使用平台开发任务步骤如下：

步骤一：新建项目；

步骤二：项目中绑定数据表；

步骤三：新建cube；

步骤四：指定cube计算方式；

步骤五：调度并构建cube；

步骤六：数据查询。

数据流转过程如下：

第一步：用户通过平台构建cube调度任务；

第二步：任务会根据用户设置的运行周期自动调度；

第三步：平台的构建引擎会解析用户在cube创建时添加的维度和指标；

第四步：构建引擎重构任务为SQL，提交到底层计算集群中；

第五步：计算集群会对提交的SQL进行解析；

第六步：从HIVE元数据中读取任务所需要的元数据；

第七步：通过第五步解析的SQL结合第六步提取的元数据进行计算；

第八步：将根据第三步中定义好的维度和指标，通过第七步生成结果数据，写入到hbase数据库中；

第九步：用户想要根据设定好的维度进行多维分析查询时候，可以使用 JDBC的API调用方式或者是使用数据查询功能对指标进行查询；

第十步：SQL解析引擎会将解析的查询语句提交到查询引擎；

第十一步：查询引擎会从HBASE数据库中进行数据的读取并返还展示给查询用户。

现有技术与本发明进行对比：

使用相同的服务器集群，数据量在10T情况下，分别使用SparkSql和Roc 使用同样的维度进行数据查询时候的性能对比，可见聚合维度在6的情况下由于服务器集群内存不足导致SparkSql因内存不足问题而无法正常查询，但是ROC在不同的情况下表现极为稳定且响应效率极快，对比结果如下表：

本发明通过预创建cube的方式，支持多维度分析以及各种聚合函数，将数据进行预处理，同时提供支持JDBC查询方式的交互式API，能够在T级别或者更大的数据量级上提供实时的多维聚合分析查询，并提供了可视化管理CUBE界面以及实时查询操作界面。

综上所述，本发明提出的应对大规模数据多维聚合实时查询的数据处理平台，本发明为了解决大规模数据集的情况下，支持多维聚合分析查询实时响应(毫秒级别响应)，提供可视化操作界面，降低操作难度与学习成本，用户可以通过可视化界面创建和管理CUBE，对要查询的数据集进行预建模，预先对数据做多维索引，将聚合维度组合结果数据预先进行存储，用户查询时直接查询结果数据而不是从原始数据中进行解析，使多维分析查询效率大大提升，响应时间降低至毫秒级；同时因为数据的计算是通过预处理方式进行处理，数据的计算使用硬盘计算，相对于spark使用内存计算，成本更低，且预计算模式不追求计算的高实时性，用户可以根据需求降低服务器集群成本；提供任务监控和集群监控功能，可以帮助用户有效的管理集群和数据处理任务。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种应对大规模数据多维聚合实时查询的数据处理平台，其特征在于，包括数据服务首页、数据查询、数据处理以及系统管理四个模块，其中平台角色分为普通人员和管理人员，其中系统管理模块只针对管理人员开放，数据处理分为项目管理和cube管理，系统管理模块分为集群监控和项目权限管理，其中，

数据服务首页：汇总平台上相关cube以及任务数据，提供任务总数，cube总数以及每日新增cube数量，可以通过图表形式查看每日成功或者失败的计算任务或者cube；

数据查询：可视化的SQL提交界面，用户可以在查询界面内通过编写sql的方式预览需要处理的数据表信息；

cube管理：可以新增并编辑cube，并可以根据cube信息进行查询，提供cube调度功能按钮，可以将cube添加到任务队列中，按照周期定时执行，新建cube中需要对指标字段进行指定计算方式，在构建cube中，可以根据数据内容进行不同的优化，包括必要维度，层级维度，衍生维度；

项目权限管理：管理平台用户角色，分配项目管理权限。

2.根据权利要求1所述的一种应对大规模数据多维聚合实时查询的数据处理平台，其特征在于，用户使用平台开发任务步骤如下：

步骤1)：新建项目；

步骤2)：项目中绑定数据表；

步骤3)：新建cube；

步骤4)：指定cube计算方式；

步骤5)：调度并构建cube；

步骤6)：数据查询。

3.根据权利要求1所述的一种应对大规模数据多维聚合实时查询的数据处理平台，其特征在于，数据流转过程如下：

步骤31)：用户通过平台构建cube调度任务；

步骤32)：任务会根据用户设置的运行周期自动调度；

步骤34)：构建引擎重构任务为SQL，提交到底层计算集群中；

步骤35)：计算集群会对提交的SQL进行解析；

步骤36)：从HIVE元数据中读取任务所需要的元数据；

步骤310)：SQL解析引擎会将解析的查询语句提交到查询引擎；