CN110781210A - 一种应对大规模数据多维聚合实时查询的数据处理平台 - Google Patents

一种应对大规模数据多维聚合实时查询的数据处理平台 Download PDF

Info

Publication number
CN110781210A
CN110781210A CN201810852204.6A CN201810852204A CN110781210A CN 110781210 A CN110781210 A CN 110781210A CN 201810852204 A CN201810852204 A CN 201810852204A CN 110781210 A CN110781210 A CN 110781210A
Authority
CN
China
Prior art keywords
data
cube
query
management
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810852204.6A
Other languages
English (en)
Inventor
于洋
李鹏
高经郡
郭振强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kejie Information Technology Co Ltd
Original Assignee
Beijing Kejie Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kejie Information Technology Co Ltd filed Critical Beijing Kejie Information Technology Co Ltd
Priority to CN201810852204.6A priority Critical patent/CN110781210A/zh
Publication of CN110781210A publication Critical patent/CN110781210A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种应对大规模数据多维聚合实时查询的数据处理平台,包括数据服务首页、数据查询、数据处理以及系统管理,其中平台角色分为普通人员和管理人员,其中系统管理模块只针对管理人员开放,数据处理分为项目管理和cube管理,系统管理模块分为集群监控和项目权限管理,本发明提供可视化操作界面,降低操作难度与学习成本,使多维分析查询效率大大提升,响应时间降低至毫秒级;同时因为数据的计算是通过预处理方式进行处理,数据的计算使用硬盘计算,相对于spark使用内存计算,成本更低,且预计算模式不追求计算的高实时性,用户可以根据需求降低服务器集群成本;提供任务监控和集群监控功能,可以帮助用户有效的管理集群和数据处理任务。

Description

一种应对大规模数据多维聚合实时查询的数据处理平台
技术领域
本发明涉及到数据处理技术领域,特别涉及一种应对大规模数据多维聚合实时查询的数据处理平台。
背景技术
随着大数据时代的到来,各种信息量呈爆炸式增长,为了能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的,企业需要通过对数据进行多维聚合分析,但是从大规模数据集中进行多维聚合分析的实时性成为一道技术瓶颈。
现有技术中多使用spark来进行对大数据量的多维聚合分析,但是其局限性导致了一些特定场景的不适用性。例如数据量级在TB级别以上,聚合维度较多且需要实时响应查询结果的场景下,spark的性能急剧下降,无法满足场景需求。
常见的多维聚合分析场景下,技术多使用sparksql引擎进行查询,其主要的数据解析过程是将数据从HDFS中读取到内存中,对数据采用内存列存储,既 spark中的dataframe,通过内置的sql解析器解析sql后在内存中对读入的数据进行多维的解析,然后在将解析后的数据进行输出。在小规模的数据量级下,sparksql还是能够快速的响应实时的查询需求,但是在大规模数据集的情况下,对于集群的内存使用成倍增加,响应时间同样成倍增加,同时查询维度的增加也会对响应时间造成影响,维度越多,响应越慢。
大数据量下多维度的实时聚合查询目前的多使用spark等分布式查询引擎,但是查询效率很低,往往达不到实时甚至准实时,更无法为更多的分析平台提供实时的查询数据。
现有技术缺陷:一、查询效率低,响应时长会根据查询维度和数据量的增加而成倍递增;二、集群成本高;三、需要开发人员具有很高的sql开发能力,学习成本高;四、不便于管理和监控。
发明内容
发明的目的在于提供一种应对大规模数据多维聚合实时查询的数据处理平台,,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种应对大规模数据多维聚合实时查询的数据处理平台,包括数据服务首页、数据查询、数据处理以及系统管理四个模块,其中平台角色分为普通人员和管理人员,其中系统管理模块只针对管理人员开放,数据处理分为项目管理和cube管理,系统管理模块分为集群监控和项目权限管理,其中,
数据服务首页:汇总平台上相关cube以及任务数据,提供任务总数,cube 总数以及每日新增cube数量,可以通过图表形式查看每日成功或者失败的计算任务或者cube;
数据查询:可视化的SQL提交界面,用户可以在查询界面内通过编写sql 的方式预览需要处理的数据表信息;
项目管理:可以新增或编辑项目,并通过项目的各种基本信息进行项目的查询,项目需要指定有管理此项目权限的用户,项目中需要对数据表进行绑定,也就是当前项目需要用到哪些表信息,roc还会针对已加载的表进行检测,当hive中表进行更改会做出相应的提醒;
cube管理:可以新增并编辑cube,并可以根据cube信息进行查询,提供 cube调度功能按钮,可以将cube添加到任务队列中,按照周期定时执行,新建cube中需要对指标字段进行指定计算方式,在构建cube中,可以根据数据内容进行不同的优化,包括必要维度,层级维度,衍生维度;
集群监控:roc计算节点的服务器运行状态监控,可以查看当前服务器运行的负载情况以及服务器当前的运行状态指标;
项目权限管理:管理平台用户角色,分配项目管理权限。
优选的,用户使用平台开发任务步骤如下:
步骤1):新建项目;
步骤2):项目中绑定数据表;
步骤3):新建cube;
步骤4):指定cube计算方式;
步骤5):调度并构建cube;
步骤6):数据查询。
优选的,数据流转过程如下:
步骤31):用户通过平台构建cube调度任务;
步骤32):任务会根据用户设置的运行周期自动调度;
步骤33):平台的构建引擎会解析用户在cube创建时添加的维度和指标;
步骤34):构建引擎重构任务为SQL,提交到底层计算集群中;
步骤35):计算集群会对提交的SQL进行解析;
步骤36):从HIVE元数据中读取任务所需要的元数据;
步骤37):通过第五步解析的SQL结合第六步提取的元数据进行计算;
步骤38):将根据第三步中定义好的维度和指标,通过第七步生成结果数据,写入到hbase数据库中;
步骤39):用户想要根据设定好的维度进行多维分析查询时候,可以使用JDBC的API调用方式或者是使用数据查询功能对指标进行查询;
步骤310):SQL解析引擎会将解析的查询语句提交到查询引擎;
步骤311):查询引擎会从HBASE数据库中进行数据的读取并返还展示给查询用户。
与现有技术相比,本发明的有益效果是:
1、本发明提出的应对大规模数据多维聚合实时查询的数据处理平台,本发明为了解决大规模数据集的情况下,支持多维聚合分析查询实时响应(毫秒级别响应),提供可视化操作界面,降低操作难度与学习成本。
2、本发明提出的应对大规模数据多维聚合实时查询的数据处理平台,用户可以通过可视化界面创建和管理CUBE,对要查询的数据集进行预建模,预先对数据做多维索引,将聚合维度组合结果数据预先进行存储,用户查询时直接查询结果数据而不是从原始数据中进行解析,使多维分析查询效率大大提升,响应时间降低至毫秒级;同时因为数据的计算是通过预处理方式进行处理,数据的计算使用硬盘计算,相对于spark使用内存计算,成本更低,且预计算模式不追求计算的高实时性,用户可以根据需求降低服务器集群成本。
3、本发明提出的应对大规模数据多维聚合实时查询的数据处理平台,提供任务监控和集群监控功能,可以帮助用户有效的管理集群和数据处理任务。
附图说明
图1为本发明的模块结构示意图;
图2为本发明的数据流转示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,一种应对大规模数据多维聚合实时查询的数据处理平台,包括数据服务首页、数据查询、数据处理以及系统管理四个模块,其中平台角色分为普通人员和管理人员,其中系统管理模块只针对管理人员开放,数据处理分为项目管理和cube管理,系统管理模块分为集群监控和项目权限管理,其中,
数据服务首页:汇总平台上相关cube以及任务数据,提供任务总数,cube 总数以及每日新增cube数量,可以通过图表形式查看每日成功或者失败的计算任务或者cube;
数据查询:可视化的SQL提交界面,用户可以在查询界面内通过编写sql 的方式预览需要处理的数据表信息;
项目管理:可以新增或编辑项目,并通过项目的各种基本信息进行项目的查询,项目需要指定有管理此项目权限的用户,项目中需要对数据表进行绑定,也就是当前项目需要用到哪些表信息,roc还会针对已加载的表进行检测,当hive中表进行更改会做出相应的提醒;
cube管理:可以新增并编辑cube,并可以根据cube信息进行查询,提供 cube调度功能按钮,可以将cube添加到任务队列中,按照周期定时执行,新建cube中需要对指标字段进行指定计算方式,例如:SUM,MAX,COUNT 等;在构建cube中,在构建cube中,可以根据数据内容进行不同的优化,包括必要维度,层级维度,衍生维度;
集群监控:roc计算节点的服务器运行状态监控,可以查看当前服务器运行的负载情况以及服务器当前的运行状态指标;
项目权限管理:管理平台用户角色,分配项目管理权限。
用户使用平台开发任务步骤如下:
步骤一:新建项目;
步骤二:项目中绑定数据表;
步骤三:新建cube;
步骤四:指定cube计算方式;
步骤五:调度并构建cube;
步骤六:数据查询。
数据流转过程如下:
第一步:用户通过平台构建cube调度任务;
第二步:任务会根据用户设置的运行周期自动调度;
第三步:平台的构建引擎会解析用户在cube创建时添加的维度和指标;
第四步:构建引擎重构任务为SQL,提交到底层计算集群中;
第五步:计算集群会对提交的SQL进行解析;
第六步:从HIVE元数据中读取任务所需要的元数据;
第七步:通过第五步解析的SQL结合第六步提取的元数据进行计算;
第八步:将根据第三步中定义好的维度和指标,通过第七步生成结果数据,写入到hbase数据库中;
第九步:用户想要根据设定好的维度进行多维分析查询时候,可以使用 JDBC的API调用方式或者是使用数据查询功能对指标进行查询;
第十步:SQL解析引擎会将解析的查询语句提交到查询引擎;
第十一步:查询引擎会从HBASE数据库中进行数据的读取并返还展示给查询用户。
现有技术与本发明进行对比:
使用相同的服务器集群,数据量在10T情况下,分别使用SparkSql和Roc 使用同样的维度进行数据查询时候的性能对比,可见聚合维度在6的情况下由于服务器集群内存不足导致SparkSql因内存不足问题而无法正常查询,但是ROC在不同的情况下表现极为稳定且响应效率极快,对比结果如下表:
Figure RE-GDA0001786460100000071
本发明通过预创建cube的方式,支持多维度分析以及各种聚合函数,将数据进行预处理,同时提供支持JDBC查询方式的交互式API,能够在T级别或者更大的数据量级上提供实时的多维聚合分析查询,并提供了可视化管理CUBE界面以及实时查询操作界面。
综上所述,本发明提出的应对大规模数据多维聚合实时查询的数据处理平台,本发明为了解决大规模数据集的情况下,支持多维聚合分析查询实时响应(毫秒级别响应),提供可视化操作界面,降低操作难度与学习成本,用户可以通过可视化界面创建和管理CUBE,对要查询的数据集进行预建模,预先对数据做多维索引,将聚合维度组合结果数据预先进行存储,用户查询时直接查询结果数据而不是从原始数据中进行解析,使多维分析查询效率大大提升,响应时间降低至毫秒级;同时因为数据的计算是通过预处理方式进行处理,数据的计算使用硬盘计算,相对于spark使用内存计算,成本更低,且预计算模式不追求计算的高实时性,用户可以根据需求降低服务器集群成本;提供任务监控和集群监控功能,可以帮助用户有效的管理集群和数据处理任务。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (3)

1.一种应对大规模数据多维聚合实时查询的数据处理平台,其特征在于,包括数据服务首页、数据查询、数据处理以及系统管理四个模块,其中平台角色分为普通人员和管理人员,其中系统管理模块只针对管理人员开放,数据处理分为项目管理和cube管理,系统管理模块分为集群监控和项目权限管理,其中,
数据服务首页:汇总平台上相关cube以及任务数据,提供任务总数,cube总数以及每日新增cube数量,可以通过图表形式查看每日成功或者失败的计算任务或者cube;
数据查询:可视化的SQL提交界面,用户可以在查询界面内通过编写sql的方式预览需要处理的数据表信息;
项目管理:可以新增或编辑项目,并通过项目的各种基本信息进行项目的查询,项目需要指定有管理此项目权限的用户,项目中需要对数据表进行绑定,也就是当前项目需要用到哪些表信息,roc还会针对已加载的表进行检测,当hive中表进行更改会做出相应的提醒;
cube管理:可以新增并编辑cube,并可以根据cube信息进行查询,提供cube调度功能按钮,可以将cube添加到任务队列中,按照周期定时执行,新建cube中需要对指标字段进行指定计算方式,在构建cube中,可以根据数据内容进行不同的优化,包括必要维度,层级维度,衍生维度;
集群监控:roc计算节点的服务器运行状态监控,可以查看当前服务器运行的负载情况以及服务器当前的运行状态指标;
项目权限管理:管理平台用户角色,分配项目管理权限。
2.根据权利要求1所述的一种应对大规模数据多维聚合实时查询的数据处理平台,其特征在于,用户使用平台开发任务步骤如下:
步骤1):新建项目;
步骤2):项目中绑定数据表;
步骤3):新建cube;
步骤4):指定cube计算方式;
步骤5):调度并构建cube;
步骤6):数据查询。
3.根据权利要求1所述的一种应对大规模数据多维聚合实时查询的数据处理平台,其特征在于,数据流转过程如下:
步骤31):用户通过平台构建cube调度任务;
步骤32):任务会根据用户设置的运行周期自动调度;
步骤33):平台的构建引擎会解析用户在cube创建时添加的维度和指标;
步骤34):构建引擎重构任务为SQL,提交到底层计算集群中;
步骤35):计算集群会对提交的SQL进行解析;
步骤36):从HIVE元数据中读取任务所需要的元数据;
步骤37):通过第五步解析的SQL结合第六步提取的元数据进行计算;
步骤38):将根据第三步中定义好的维度和指标,通过第七步生成结果数据,写入到hbase数据库中;
步骤39):用户想要根据设定好的维度进行多维分析查询时候,可以使用JDBC的API调用方式或者是使用数据查询功能对指标进行查询;
步骤310):SQL解析引擎会将解析的查询语句提交到查询引擎;
步骤311):查询引擎会从HBASE数据库中进行数据的读取并返还展示给查询用户。
CN201810852204.6A 2018-07-30 2018-07-30 一种应对大规模数据多维聚合实时查询的数据处理平台 Pending CN110781210A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810852204.6A CN110781210A (zh) 2018-07-30 2018-07-30 一种应对大规模数据多维聚合实时查询的数据处理平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810852204.6A CN110781210A (zh) 2018-07-30 2018-07-30 一种应对大规模数据多维聚合实时查询的数据处理平台

Publications (1)

Publication Number Publication Date
CN110781210A true CN110781210A (zh) 2020-02-11

Family

ID=69378483

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810852204.6A Pending CN110781210A (zh) 2018-07-30 2018-07-30 一种应对大规模数据多维聚合实时查询的数据处理平台

Country Status (1)

Country Link
CN (1) CN110781210A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113360529A (zh) * 2021-06-01 2021-09-07 北京沃东天骏信息技术有限公司 一种Kylin集群的数据查询方法和装置
CN113806439A (zh) * 2021-09-14 2021-12-17 南方电网调峰调频发电有限公司西部检修试验分公司 基于Web的多维数据可视化系统及应用
CN113868226A (zh) * 2021-09-09 2021-12-31 猪八戒股份有限公司 一种数据库管理方法、数据库平台及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020029207A1 (en) * 2000-02-28 2002-03-07 Hyperroll, Inc. Data aggregation server for managing a multi-dimensional database and database management system having data aggregation server integrated therein
CN103399925A (zh) * 2013-08-05 2013-11-20 河海大学 一种基于水文数据的降雨多维分析系统及其实现方法
CN106897386A (zh) * 2017-01-23 2017-06-27 武汉奇米网络科技有限公司 一种大数据多维分析方法及系统
CN107704608A (zh) * 2017-10-17 2018-02-16 北京览群智数据科技有限责任公司 一种olap多维分析和数据挖掘系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020029207A1 (en) * 2000-02-28 2002-03-07 Hyperroll, Inc. Data aggregation server for managing a multi-dimensional database and database management system having data aggregation server integrated therein
CN103399925A (zh) * 2013-08-05 2013-11-20 河海大学 一种基于水文数据的降雨多维分析系统及其实现方法
CN106897386A (zh) * 2017-01-23 2017-06-27 武汉奇米网络科技有限公司 一种大数据多维分析方法及系统
CN107704608A (zh) * 2017-10-17 2018-02-16 北京览群智数据科技有限责任公司 一种olap多维分析和数据挖掘系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王心杰: ""面向海量数据的高性能多维OLAP技术的研究"", 《中国优秀硕士学位论文全文数据库(电子期刊)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113360529A (zh) * 2021-06-01 2021-09-07 北京沃东天骏信息技术有限公司 一种Kylin集群的数据查询方法和装置
CN113868226A (zh) * 2021-09-09 2021-12-31 猪八戒股份有限公司 一种数据库管理方法、数据库平台及可读存储介质
CN113806439A (zh) * 2021-09-14 2021-12-17 南方电网调峰调频发电有限公司西部检修试验分公司 基于Web的多维数据可视化系统及应用

Similar Documents

Publication Publication Date Title
Liu et al. Survey of real-time processing systems for big data
Wu et al. Query optimization for massively parallel data processing
US9747349B2 (en) System and method for distributing queries to a group of databases and expediting data access
CN103440288A (zh) 一种大数据存储方法及装置
Liang et al. Express supervision system based on NodeJS and MongoDB
CN103678665A (zh) 一种基于数据仓库的异构大数据整合方法和系统
CN104239572A (zh) 基于分布式缓存实现元数据分析的系统及方法
CN112148718A (zh) 一种用于城市级数据中台的大数据支撑管理系统
CN111221791A (zh) 一种多源异构数据导入数据湖的方法
CN108509437A (zh) 一种ElasticSearch查询加速方法
US20190080006A1 (en) Computing features of structured data
Mohammed et al. A review of big data environment and its related technologies
CN110781210A (zh) 一种应对大规模数据多维聚合实时查询的数据处理平台
El Alami et al. Supply of a key value database redis in-memory by data from a relational database
AU2004311725A1 (en) Optimization for aggregate navigation for distinct count metrics
Liu et al. Using provenance to efficiently improve metadata searching performance in storage systems
CN114218211A (zh) 数据处理系统、方法、计算机设备以及可读存储介质
Alsubaiee et al. Asterix: scalable warehouse-style web data integration
Hasan et al. An approach for data transformation in homogeneous and heterogeneous information systems
Shao et al. The establishment of data analysis model about E-commerce’s behavior based on Hadoop platform
WO2008055202A2 (en) System and method for distributing queries to a group of databases and expediting data access
CN111399838A (zh) 一种基于SparkSQL和物化视图的数据建模方法及装置
CN114138831A (zh) 一种数据搜索方法、装置及存储介质
CN113742346A (zh) 资产大数据平台架构优化方法
Fong et al. Toward a scale-out data-management middleware for low-latency enterprise computing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200211