CN106708917A - 一种数据处理方法、装置以及olap系统 - Google Patents
一种数据处理方法、装置以及olap系统 Download PDFInfo
- Publication number
- CN106708917A CN106708917A CN201610514055.3A CN201610514055A CN106708917A CN 106708917 A CN106708917 A CN 106708917A CN 201610514055 A CN201610514055 A CN 201610514055A CN 106708917 A CN106708917 A CN 106708917A
- Authority
- CN
- China
- Prior art keywords
- storage
- data
- component
- target
- internal memory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
Abstract
本发明实施例公开了一种数据处理方法、装置以及OLAP系统,OLAP系统包括内存计算组件和分布式存储组件;其中方法包括:获取用户查询请求,并提取用户查询请求中的查询参数,并按照预设格式将查询参数转换为目标查询参数,并将目标查询参数传输至内存计算组件;控制内存计算组件在分布式存储组件中查找出与目标查询参数对应的目标存储数据;控制内存计算组件对目标存储数据进行统计分析,以得到查询结果数据,并显示查询结果数据;其中,分布式存储组件是用于存储多个存储数据的组件,多个存储数据包括目标存储数据。采用本发明,可提升OLAP系统的查询速度,且更易于扩展。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据处理方法、装置以及OLAP系统。
背景技术
OLAP(Online Analytical Processing,联机分析处理)系统是数据仓库系统最主要的应用,专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且将查询结果提供给决策人员,以便他们准确掌握企业的经营状况,了解对象的需求,制定正确的方案。
目前通常是使用infobright或Kylin(麒麟)来搭建OLAP系统。其中,使用Infobright来搭建OLAP系统的缺点是不能支持大数据量,且当数据量大时,查询速度很慢,并且不是分布式存储,扩展不方便。其中,在基于Kylin的OLAP系统中,使用的是Hive(基于Hadoop的一个数据仓库工具)来查询hbase(分布式的、面向列的开源数据库)中数据,且需要跑mapreduce(编程模型)任务,从而导致查询速度较慢。由此可见,目前的OLAP系统在查询速度和扩展方面依然存在较多缺陷。
发明内容
本发明实施例提供一种数据处理方法、装置以及OLAP系统,可提升OLAP系统的查询速度,且更易于扩展。
本发明实施例提供了一种基于OLAP系统的数据处理方法,所述OLAP系统包括内存计算组件和分布式存储组件;所述方法包括:
获取用户查询请求,并提取所述用户查询请求中的查询参数,并按照预设格式将所述查询参数转换为目标查询参数,并将所述目标查询参数传输至所述内存计算组件;
控制所述内存计算组件在所述分布式存储组件中查找出与所述目标查询参数对应的目标存储数据;
控制所述内存计算组件对所述目标存储数据进行统计分析,以得到查询结果数据,并显示所述查询结果数据;
其中,所述分布式存储组件是用于存储多个存储数据的组件,所述多个存储数据包括所述目标存储数据。
相应地,本发明实施例还提供了一种基于OLAP系统的数据处理装置,所述OLAP系统包括内存计算组件和分布式存储组件;所述装置包括:
获取转换模块,用于获取用户查询请求,并提取所述用户查询请求中的查询参数,并按照预设格式将所述查询参数转换为目标查询参数,并将所述目标查询参数传输至所述内存计算组件;
第一控制模块,用于控制所述内存计算组件在所述分布式存储组件中查找出与所述目标查询参数对应的目标存储数据;
第一控制模块,还用于控制所述内存计算组件对所述目标存储数据进行统计分析,以得到查询结果数据,并显示所述查询结果数据;
其中,所述分布式存储组件是用于存储多个存储数据的组件,所述多个存储数据包括所述目标存储数据。
相应地,本发明实施例还提供了一种OLAP系统,包括:界面交互组件、格式转换引擎、内存计算组件以及分布式存储组件;
所述界面交互组件界面,用于获取用户查询请求并提取所述用户查询请求中的查询参数,以将所述查询参数传输至格式转换引擎;
所述格式转换引擎,用于将所述查询参数的格式转换为结构化查询语言SQL格式,并将为SQL格式的查询参数作为目标查询参数;
所述格式转换引擎,还用于将所述目标查询参数传输至所述内存计算组件;
所述内存计算组件,用于在所述分布式存储组件中查找出与所述目标查询参数对应的目标存储数据;
所述内存计算组件,还用于对所述目标存储数据进行统计分析,以得到查询结果数据,并将所述查询结果数据返回至所述界面交互组件以进行显示;
所述分布式存储组件,用于存储多个存储数据;所述多个存储数据包括所述目标存储数据。
本发明实施例通过将用户查询请求对应的目标查询参数传输至内存计算组件,可以使内存计算组件在分布式存储组件中查找出与目标查询参数对应的目标存储数据,并且内存计算组件可以对目标存储数据进行统计分析,以得到查询结果数据;其中,分布式存储组件是用于存储多个存储数据的组件;由此可见,通过将使用内存计算的内存计算组件作为OLAP系统的计算框架,可以提高OLAP系统的查询速度和吞吐量,而且通过分布式存储组件存储所有要分析的数据(即多个存储数据),可以方便利用分布式计算,且也便于扩展。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种OLAP系统的系统架构图;
图1a是本发明实施例提供的一种系统性能对比的示意图;
图1b是本发明实施例提供的另一种系统性能对比的示意图;
图1c是本发明实施例提供的又一种系统性能对比的示意图;
图1d是本发明实施例提供的又一种系统性能对比的示意图;
图1e是本发明实施例提供的又一种系统性能对比的示意图;
图1f是本发明实施例提供的一种交互界面的展示示意图;
图1g是本发明实施例提供的另一种交互界面的展示示意图;
图2是本发明实施例提供一种基于OLAP系统的数据处理方法的流程示意图;
图3是本发明实施例提供另一种基于OLAP系统的数据处理方法的流程示意图;
图4是本发明实施例提供一种基于OLAP系统的数据处理装置的结构示意图;
图5是本发明实施例提供一种获取转换模块的结构示意图;
图6是本发明实施例提供另一种基于OLAP系统的数据处理装置的结构示意图;
图7是本发明实施例提供又一种基于OLAP系统的数据处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,是本发明实施例提供的一种OLAP系统的系统架构图,所述OLAP系统包括:界面交互组件、格式转换引擎、内存计算组件、分布式存储组件、数据入库辅助组件、分布式资源管理组件以及分布式资源协调服务组件;
所述界面交互组件,用于获取用户查询请求并提取所述用户查询请求中的查询参数,以将所述查询参数传输至格式转换引擎;
具体的,所述界面交互组件可以通过jar包的方式调用所述转换引擎,以将所述查询参数传输至所述转换引擎。
所述格式转换引擎,用于将所述查询参数的格式转换为结构化查询语言SQL格式,并将为SQL格式的查询参数作为目标查询参数;
具体的,所述格式转换引擎可以将所述查询参数的格式(这里具体为MDX(MultiDimensional Expressions,多维表达式)格式)转换为SQL(Structured Query Language,结构化查询语言格式)格式,并将为SQL格式的查询参数作为目标查询参数。
所述格式转换引擎,还用于将所述目标查询参数传输至所述内存计算组件;
具体的,所述格式转换引擎通过odbc(Open Database Connectivity,开发数据库连接)调用所述内存计算组件,以向所述内存计算组件发起查询分析请求,其中,所述查询分析请求携带有所述目标查询参数,即实现了将所述目标查询参数传输至所述内存计算组件。
所述内存计算组件,用于在所述分布式存储组件中查找出与所述目标查询参数对应的目标存储数据;
所述内存计算组件,还用于对所述目标存储数据进行统计分析,以得到查询结果数据,并将所述查询结果数据返回至所述界面交互组件以进行显示;
所述分布式存储组件,用于存储多个存储数据;所述多个存储数据包括所述目标存储数据。
所述数据入库辅助组件,用于当检测到数据入库请求时,生成与所述数据入库请求所携带的多个存储数据对应的第一入库表格,并将所述第一入库表格传输至所述内存计算组件;
所述内存计算组件,还用于生成与所述多个存储数据对应的主键值,并将所述主键值添加至所述第一入库表格,以得到第二入库表格;
所述分布式存储组件,具体用于根据所述数据入库请求对所述多个存储数据进行存储;
则所述内存计算组件用于在所述分布式存储组件中查找出与所述目标查询参数对应的目标存储数据时,具体用于:在所述第二入库表格中查找与所述目标查询参数对应的查询路径,并根据所述查询路径在所述分布式存储组件中查找与所述目标查询参数对应的目标存储数据;
所述分布式资源管理组件,用于对所述OLAP系统中的系统资源进行管理和控制;其中,所述分布式资源管理组件可以为YARN(Yet Another Resource Negotiator,另一种资源协调者)组件,所述YARN组件可以提高OLAP系统的资源利用率,所述资源具体包括内容、I/O、网络、磁盘等等。其中,所述YARN组件有Resource Manage(资源管理)和NodeManage(节点管理)两种类型的节点,通过这两种类型节点可以管理和分配集群中各节点的资源。
所述分布式资源协调服务组件,用于对所述OLAP系统进行同步服务、配置维护和命名服务;所述分布式资源协调服务组件可以为Zookeeper组件,所述Zookeeper组件可以保持系统的稳定性。
具体的,由于现有中基于infobright或Kylin的OLAP系统在面对大数据量时的系统性能都不如现有中基于Spark的OLAP系统,因此,可以将Spark和Impala的查询速度和吞吐量进行比较。具体请一并参见图1a和图1b,是本发明实施例提供的一种系统性能对比的示意图,图1a和图1b的测试环境为15T数据、21节点、64G内存。从图1a和图1b的比较结果可以看出不管单用户还是10个用户并发查询,impala都是spark的7倍以上的查询速度,而吞吐量方面impala也是spark的6倍以上,因此,通过将Impala组件作为本发明所提供的OLAP系统的计算框架(即所述OLAP系统中的内存计算组件可以为Impala组件)可以大大提升OLAP的查询速度和吞吐量。其中,所述数据入库辅助组件可以为Hive组件,因此,所述第一入库表格可以为Hive表格,且所述Hive组件可以将所述Hive表格传输至所述Impala组件(即所述内存计算组件),并由所述Impala组件将所述主键值添加至所述Hive表格,以得到Impala表格(所述Impala表格即为所述第二入库表格);其中,所述Hive组件和所述Impala组件是共用元数据的。
其中,所述OLAP系统中的所述分布式存储组件可为HDFS(Hadoop DistributedFile System,分布式文件系统)组件,通过所述HDFS组件存储所有要分析的数据(即所述多个存储数据),可以方便利用分布式计算,同时由于所述HDFS组件可以设置存储数据份数来容错,所以可以防止一个数据节点故障造成数据丢失的情况。其中,所述Impala组件可以通过Impalad进程访问所述HDFS组件中所存储的数据。
优选的,所述分布式存储组件中所存储的多个存储数据的存储格式为列式存储格式Parquet;其中,由于所述OLAP系统经常是对特定的某些列进行分析,所以通过使用Parquet能够只查询需要的列,充分利用了CPU(Central Processing Unit,中央处理器)和内存的效率,以提高查询快速。请一并参见图1c,是对Impala支持的Parquet存储格式和其它几种文件存储格式的性能比较示意图,从图1c可以得知Parquet存储格式对应的查询速度是最快的,因此,将Parquet作为本发明所提供的OLAP系统的文件存储格式,可以进一步提高查询速度。
优选的,所述分布式存储组件中所存储的多个存储数据均为压缩后的数据,所述压缩后的数据是由snappy压缩算法进行压缩所得到的。在保证速度的前提下,本发明同时考虑到节省存储成本,因此,本发明使用Parquet文件存储格式所支持的snappy压缩算法来对所述分布式存储组件中所存储的多个存储数据进行压缩。请一并参见图1d和图1e,分别是snappy压缩算法与其他几种压缩算法的性能比较示意图,通过图1d和图1e的比较,可以看出snappy压缩算法对应的查询速度只比不压缩对应的查询速度低4%,但存储成本却少了25%,因此在不影响用户体验的前提下,本发明使用同时能够节省存储成本的snappy压缩算法对所述多个存储数据进行压缩。
其中,常用的BI交互系统有Saiku和JPivot两种,Saiku是以JSP实现,能够方便个性化改造,同时界面美观,操作方便。请一并参见图1f和图1g,图1f为Saiku界面的示意图,图1f是JPivot界面的示意图,从图1f和图1g可以得知Saiku界面更加美观,操作更加方便,因此,本发明将Saiku组件作为OLAP系统中的BI交互系统(即所述界面交互组件可以为所述Saiku组件),可以使查询结果展示更加直观。其中,所述格式转换引擎可以为Mondrian引擎,其中,所述Saiku组件可以通过jar包的方式调用所述Mondrian引擎,所述Mondrian引擎可以通过odbc调用所述Impala组件。
本发明实施例通过将用户查询请求对应的目标查询参数传输至内存计算组件,可以使内存计算组件在分布式存储组件中查找出与目标查询参数对应的目标存储数据,并且内存计算组件可以对目标存储数据进行统计分析,以得到查询结果数据;其中,分布式存储组件是用于存储多个存储数据的组件;由此可见,通过将使用内存计算的内存计算组件作为OLAP系统的计算框架,可以提高OLAP系统的查询速度和吞吐量,而且通过分布式存储组件存储所有要分析的数据(即多个存储数据),可以方便利用分布式计算,且也便于扩展。而且内存计算组件可以具体为Impala组件,从而可以进一步提升OLAP的查询速度和吞吐量;而且将HDFS组件作为分布式存储组件,不仅可以方便利用分布式计算,同时由于HDFS组件可以设置存储数据份数来容错,所以可以防止一个数据节点故障造成数据丢失的情况;同时通过将Parquet作为OLAP系统的文件存储格式,可以进一步提高查询速度,并通过使用snappy压缩算法对多个存储数据进行压缩,可以既不影响查询速度还能够节省存储成本;而且将Saiku组件作为界面交互组件,可以使查询结果展示更加直观。
请参见图2,是本发明实施例提供一种基于OLAP系统的数据处理方法的流程示意图,所述方法可以包括:
S201,获取用户查询请求,并提取所述用户查询请求中的查询参数,并按照预设格式将所述查询参数转换为目标查询参数,并将所述目标查询参数传输至所述内存计算组件;
具体的,所述OLAP系统包括内存计算组件和分布式存储组件,所述内存计算组件是所述OLAP系统中的计算框架,所述分布式存储组件是所述OLAP系统的存储组件;所述OLAP系统还包括界面交互组件和格式转换引擎,则部署有OLAP系统的OLAP服务器具体可以控制所述界面交互组件获取用户查询请求并提取所述用户查询请求中的查询参数,以将所述查询参数传输至所述格式转换引擎,并控制所述格式转换引擎将所述查询参数的格式转换为结构化查询语言SQL格式,并将为SQL格式的查询参数作为目标查询参数,并控制所述格式转换引擎将所述目标查询参数传输至所述内存计算组件。
S202,控制所述内存计算组件在所述分布式存储组件中查找出与所述目标查询参数对应的目标存储数据;
其中,所述分布式存储组件是用于存储多个存储数据的组件,所述多个存储数据包括所述目标存储数据。
S203,控制所述内存计算组件对所述目标存储数据进行统计分析,以得到查询结果数据,并显示所述查询结果数据;
具体的,所述OLAP服务器可以控制所述内存计算组件对所述目标存储数据进行统计分析,以得到查询结果数据;所述OLAP服务器进一步控制所述内存计算组件将所述查询结果数据传输至所述界面交互组件,并控制所述界面交互组件显示所述查询结果数据。
本发明实施例通过将用户查询请求对应的目标查询参数传输至内存计算组件,可以使内存计算组件在分布式存储组件中查找出与目标查询参数对应的目标存储数据,并且内存计算组件可以对目标存储数据进行统计分析,以得到查询结果数据;其中,分布式存储组件是用于存储多个存储数据的组件;由此可见,通过将使用内存计算的内存计算组件作为OLAP系统的计算框架,可以提高OLAP系统的查询速度和吞吐量,而且通过分布式存储组件存储所有要分析的数据(即多个存储数据),可以方便利用分布式计算,且也便于扩展。
请参见图3,是本发明实施例提供另一种基于OLAP系统的数据处理方法的流程示意图,所述方法可以包括:
S301,当检测到数据入库请求时,控制所述数据入库辅助组件生成与所述数据入库请求所携带的多个存储数据对应的第一入库表格,并将所述第一入库表格传输至所述内存计算组件;
具体的,所述OLAP系统包括:界面交互组件、格式转换引擎、内存计算组件、分布式存储组件、数据入库辅助组件,所述内存计算组件是所述OLAP系统中的计算框架,所述分布式存储组件是所述OLAP系统的存储组件。部署有所述OLAP系统的OLAP服务器可以在检测到数据入库请求时控制所述数据入库辅助组件生成与所述数据入库请求所携带的多个存储数据对应的第一入库表格,并将所述第一入库表格传输至所述内存计算组件。其中,所述数据入库辅助组件可以为Hive组件,所述内存计算组件可以为Impala组件,因此,所述第一入库表格可以为Hive表格,且所述Hive组件可以将所述Hive表格传输至所述Impala组件(即所述内存计算组件)。
S302,控制所述内存计算组件生成与所述多个存储数据对应的主键值,并将所述主键值添加至所述第一入库表格,以得到第二入库表格;
具体的,所述OLAP服务器可以进一步控制所述内存计算组件生成与所述多个存储数据对应的主键值,并将所述主键值添加至所述第一入库表格,以得到第二入库表格。即所述Impala组件(即所述内存计算组件)可以将所述主键值添加至所述Hive表格,以得到Impala表格(所述Impala表格即为所述第二入库表格);其中,所述Hive组件和所述Impala组件是共用元数据的。
S303,控制所述分布式存储组件对所述多个存储数据进行存储;
具体的,所述分布式存储组件可为HDFS组件,通过所述HDFS组件存储所有要分析的数据(即所述多个存储数据),可以方便利用分布式计算,同时由于所述HDFS组件可以设置存储数据份数来容错,所以可以防止一个数据节点故障造成数据丢失的情况。
S304,控制所述界面交互组件获取用户查询请求并提取所述用户查询请求中的查询参数,以将所述查询参数传输至格式转换引擎;
具体的,当用户在所述界面交互组件所提供的交互界面中进行查询操作时,所述OLAP服务器可以控制所述界面交互组件获取用户查询请求并提取所述用户查询请求中的查询参数,以将所述查询参数传输至格式转换引擎。其中,所述界面交互组件可以为Saiku组件,所述格式转换引擎可以为Mondrian引擎,所述Saiku组件可以通过jar包的方式调用所述Mondrian引擎,以将所述查询参数传输至所述Mondrian引擎。
S305,控制所述格式转换引擎将所述查询参数的格式转换为结构化查询语言SQL格式,并将为SQL格式的查询参数作为目标查询参数;
具体的,所述格式转换引擎(即所述Mondrian引擎)可以将所述查询参数的格式(这里具体为MDX格式)转换为SQL格式,并将为SQL格式的查询参数作为目标查询参数。
S306,控制所述格式转换引擎将所述目标查询参数传输至所述内存计算组件;
具体的,所述格式转换引擎(即所述Mondrian引擎)可以通过odbc调用所述内存计算组件(即所述Impala组件),以向所述内存计算组件(即所述Impala组件)发起查询分析请求,其中,所述查询分析请求携带有所述目标查询参数,即实现了将所述目标查询参数传输至所述内存计算组件(即所述Impala组件)。
S307,控制所述内存计算组件在所述第二入库表格中查找与所述目标查询参数对应的查询路径;
具体的,由于所述内存计算组件为所述Impala组件,所以所述第二入库表格为Impala表格,因此,所述OLAP服务器可以控制所述Impala组件在所述Impala表格中查找与所述目标查询参数对应的查询路径。
S308,控制所述内存计算组件根据所述查询路径在所述分布式存储组件中查找与所述目标查询参数对应的目标存储数据;
具体的,所述OLAP服务器可以控制所述Impala组件通过Impalad进程访问所述HDFS组件中所存储的数据,进而可以控制所述Impala组件根据所述查询路径在所述HDFS组件中查找与所述目标查询参数对应的目标存储数据。
S309,控制所述内存计算组件对所述目标存储数据进行统计分析,以得到查询结果数据,并显示所述查询结果数据;
具体的,所述OLAP服务器可以控制所述Impala组件对所述目标存储数据进行统计分析,以得到查询结果数据;所述OLAP服务器进一步控制所述Impala组件将所述查询结果数据传输至所述Saiku组件,并控制所述Saiku组件显示所述查询结果数据。
其中,S301-S303的步骤具体应用于数据入库的场景,S304-S309的步骤具体应用于数据查询分析的场景,因此,S301-S303的步骤可以在S304-S309的任一步骤之间执行,即本发明实施例不对S301-S303的步骤与S304-S309的步骤之间的执行顺序进行限定。
可选的,所述OLAP系统还可以包括分布式资源管理组件和分布式资源协调服务组件。所述分布式资源管理组件,用于对所述OLAP系统中的系统资源进行管理和控制;其中,所述分布式资源管理组件可以为YARN组件,所述YARN组件可以提高OLAP系统的资源利用率,所述资源具体包括内容、I/O、网络、磁盘等等。其中,所述YARN组件有Resource Manage(资源管理)和Node Manage(节点管理)两种类型的节点,通过这两种类型节点可以管理和分配集群中各节点的资源。所述分布式资源协调服务组件,用于对所述OLAP系统进行同步服务、配置维护和命名服务;所述分布式资源协调服务组件可以为Zookeeper组件,所述Zookeeper组件可以保持系统的稳定性。
可选的,所述分布式存储组件(即所述HDFS组件)中所存储的多个存储数据的存储格式为列式存储格式Parquet;所述分布式存储组件(即所述HDFS组件)中所存储的多个存储数据均为压缩后的数据,所述压缩后的数据是由snappy压缩算法进行压缩所得到的。
其中,所述OLAP系统中的Saiku组件、Mondrian引擎、Impala组件、HDFS组件、Hive组件、YARN组件、Zookeeper组件以及Parquet存储格式和snappy压缩算法的作用与优势,具体可以参见上述图1至图1g对应实施例中的OLAP系统,这里不再进赘述。
可选的,所述OLAP服务器可以基于所述OLAP系统创建多个存储分析模型,并根据业务场景信息在所述多个存储分析模型中选择对应的目标存储分析模型,并控制所述目标存储分析模型按照预设的存储分析规则对所述业务场景信息关联的业务数据进行存储、查询以及分析;其中,每个存储分析模型均关联有对应的存储分析规则,所述存储分析规则包括查询频率、分析维度变化状态、数据入库存储频率以及数据清理频率;
具体的,所述目标存储分析模型可以分为3种:固化模型、临时模型、半固化模型;所述固化模型是指分析维度固定不变、查询频率为经常分析级别、数据入库存储频率为每天入库频率、数据清理频率为月表保留一年、天表保留一月的频率;所述临时模型是指分析维度可变、查询频率为临时分析级别、数据入库存储频率为按需入库频率、数据清理频率为仅保留最近一个月的数据的频率;所述半固化模型是指分析维度可变、查询频率为偶尔分析级别、数据入库存储频率为按需入库频率、数据清理频率为仅保留最近一周的数据的频率。
本发明实施例通过将用户查询请求对应的目标查询参数传输至内存计算组件,可以使内存计算组件在分布式存储组件中查找出与目标查询参数对应的目标存储数据,并且内存计算组件可以对目标存储数据进行统计分析,以得到查询结果数据;其中,分布式存储组件是用于存储多个存储数据的组件;由此可见,通过将使用内存计算的内存计算组件作为OLAP系统的计算框架,可以提高OLAP系统的查询速度和吞吐量,而且通过分布式存储组件存储所有要分析的数据(即多个存储数据),可以方便利用分布式计算,且也便于扩展。而且内存计算组件可以具体为Impala组件,从而可以进一步提升OLAP的查询速度和吞吐量;而且将HDFS组件作为分布式存储组件,不仅可以方便利用分布式计算,同时由于HDFS组件可以设置存储数据份数来容错,所以可以防止一个数据节点故障造成数据丢失的情况;同时通过将Parquet作为OLAP系统的文件存储格式,可以进一步提高查询速度,并通过使用snappy压缩算法对多个存储数据进行压缩,可以既不影响查询速度还能够节省存储成本;而且将Saiku组件作为界面交互组件,可以使查询结果展示更加直观。
请参见图4,是本发明实施例提供一种基于OLAP系统的数据处理装置的结构示意图,所述OLAP系统包括内存计算组件和分布式存储组件;所述数据处理装置1可以应用于OLAP服务器中,所述数据处理装置1可以包括:获取转换模块10、第一控制模块20;
获取转换模块10,用于获取用户查询请求,并提取所述用户查询请求中的查询参数,并按照预设格式将所述查询参数转换为目标查询参数,并将所述目标查询参数传输至所述内存计算组件;
具体的,请一并参见图5,是本发明实施例提供一种获取转换模块10的结构示意图,所述OLAP系统还包括界面交互组件和格式转换引擎,所述获取转换模块10可以包括:界面控制单元101、引擎控制单元102;
所述界面控制单元101,用于控制所述界面交互组件获取用户查询请求并提取所述用户查询请求中的查询参数,以将所述查询参数传输至格式转换引擎;
具体的,当用户在所述界面交互组件所提供的交互界面中进行查询操作时,所述界面控制单元101可以控制所述界面交互组件获取用户查询请求并提取所述用户查询请求中的查询参数,以将所述查询参数传输至格式转换引擎。其中,所述界面交互组件可以为Saiku组件,所述格式转换引擎可以为Mondrian引擎,所述Saiku组件可以通过jar包的方式调用所述Mondrian引擎,以将所述查询参数传输至所述Mondrian引擎。
所述引擎控制单元102,用于控制所述格式转换引擎将所述查询参数的格式转换为结构化查询语言SQL格式,并将为SQL格式的查询参数作为目标查询参数;
具体的,所述引擎控制单元102可以控制所述格式转换引擎(即所述Mondrian引擎)将所述查询参数的格式(这里具体为MDX格式)转换为SQL格式,并将为SQL格式的查询参数作为目标查询参数。
所述引擎控制单元102,还用于控制所述格式转换引擎将所述目标查询参数传输至所述内存计算组件;
具体的,所述引擎控制单元102还可以控制所述格式转换引擎(即所述Mondrian引擎)通过odbc调用所述内存计算组件(所述内存计算组件可以为Impala组件),以向所述内存计算组件(即所述Impala组件)发起查询分析请求,其中,所述查询分析请求携带有所述目标查询参数,即实现了将所述目标查询参数传输至所述内存计算组件(即所述Impala组件)。
所述第一控制模块20,用于控制所述内存计算组件在所述分布式存储组件中查找出与所述目标查询参数对应的目标存储数据;
其中,所述分布式存储组件是用于存储多个存储数据的组件,所述多个存储数据包括所述目标存储数据。所述分布式存储组件可以为HDFS组件。
所述第一控制模块20,还用于控制所述内存计算组件对所述目标存储数据进行统计分析,以得到查询结果数据,并显示所述查询结果数据;
具体的,所述第一控制模块20可以控制所述内存计算组件对所述目标存储数据进行统计分析,以得到查询结果数据;所述第一控制模块20可以进一步控制所述内存计算组件将所述查询结果数据传输至所述界面交互组件,并由所述界面控制单元101控制所述界面交互组件显示所述查询结果数据。
其中,所述OLAP系统中的Impala组件、HDFS组件的作用与优势,具体可以参见上述图1至图1b对应实施例中的OLAP系统,这里不再进赘述。
本发明实施例通过将用户查询请求对应的目标查询参数传输至内存计算组件,可以使内存计算组件在分布式存储组件中查找出与目标查询参数对应的目标存储数据,并且内存计算组件可以对目标存储数据进行统计分析,以得到查询结果数据;其中,分布式存储组件是用于存储多个存储数据的组件;由此可见,通过将使用内存计算的内存计算组件作为OLAP系统的计算框架,可以提高OLAP系统的查询速度和吞吐量,而且通过分布式存储组件存储所有要分析的数据(即多个存储数据),可以方便利用分布式计算,且也便于扩展。
再请参见图6,是本发明实施例提供另一种基于OLAP系统的数据处理装置的结构示意图。所述OLAP系统包括Impala组件和HDFS组件;所述数据处理装置1可以应用于OLAP服务器中,所述数据处理装置1可以包括上述图4对应实施例中的获取转换模块10和第一控制模块20,进一步的,所述数据处理装置1还可以包括第二控制模块30、第三控制模块40、模型创建模块50;
其中,所述OLAP系统还包括数据入库辅助组件;
则所述第二控制模块30,用于当检测到数据入库请求时,控制所述数据入库辅助组件生成与所述数据入库请求所携带的多个存储数据对应的第一入库表格,并将所述第一入库表格传输至所述内存计算组件;
具体的,所述第二控制模块30可以在检测到数据入库请求时控制所述数据入库辅助组件生成与所述数据入库请求所携带的多个存储数据对应的第一入库表格,并将所述第一入库表格传输至所述内存计算组件。其中,所述数据入库辅助组件可以为Hive组件,所述内存计算组件可以为Impala组件,因此,所述第一入库表格可以为Hive表格,且所述Hive组件可以将所述Hive表格传输至所述Impala组件(即所述内存计算组件)。
所述第一控制模块20,还用于控制所述内存计算组件生成与所述多个存储数据对应的主键值,并将所述主键值添加至所述第一入库表格,以得到第二入库表格;
具体的,所述第一控制模块20可以进一步控制所述内存计算组件生成与所述多个存储数据对应的主键值,并将所述主键值添加至所述第一入库表格,以得到第二入库表格。即所述Impala组件(即所述内存计算组件)可以将所述主键值添加至所述Hive表格,以得到Impala表格(所述Impala表格即为所述第二入库表格);其中,所述Hive组件和所述Impala组件是共用元数据的。
所述第三控制模块40,用于控制所述分布式存储组件对所述多个存储数据进行存;
其中,所述分布式存储组件可为HDFS组件,通过所述HDFS组件存储所有要分析的数据(即所述多个存储数据),可以方便利用分布式计算,同时由于所述HDFS组件可以设置存储数据份数来容错,所以可以防止一个数据节点故障造成数据丢失的情况。
则所述第一控制模块20用于控制所述内存计算组件在所述分布式存储组件中查找出与所述目标查询参数对应的目标存储数据时,具体用于:
控制所述内存计算组件在所述第二入库表格中查找与所述目标查询参数对应的查询路径,并控制所述内存计算组件根据所述查询路径在所述分布式存储组件中查找与所述目标查询参数对应的目标存储数据;
具体的,由于所述内存计算组件为所述Impala组件,所以所述第二入库表格为Impala表格,因此,所述第一控制模块20可以控制所述Impala组件在所述Impala表格中查找与所述目标查询参数对应的查询路径,并控制所述Impala组件通过Impalad进程访问所述HDFS组件中所存储的数据,进而可以控制所述Impala组件根据所述查询路径在所述HDFS组件中查找与所述目标查询参数对应的目标存储数据。
可选的,所述OLAP系统还可以包括分布式资源管理组件和分布式资源协调服务组件。所述分布式资源管理组件,用于对所述OLAP系统中的系统资源进行管理和控制;其中,所述分布式资源管理组件可以为YARN组件,所述YARN组件可以提高OLAP系统的资源利用率,所述资源具体包括内容、I/O、网络、磁盘等等。其中,所述YARN组件有Resource Manage(资源管理)和Node Manage(节点管理)两种类型的节点,通过这两种类型节点可以管理和分配集群中各节点的资源。所述分布式资源协调服务组件,用于对所述OLAP系统进行同步服务、配置维护和命名服务;所述分布式资源协调服务组件可以为Zookeeper组件,所述Zookeeper组件可以保持系统的稳定性。
可选的,所述分布式存储组件(即所述HDFS组件)中所存储的多个存储数据的存储格式为列式存储格式Parquet;所述分布式存储组件(即所述HDFS组件)中所存储的多个存储数据均为压缩后的数据,所述压缩后的数据是由snappy压缩算法进行压缩所得到的。
其中,所述OLAP系统中的Saiku组件、Mondrian引擎、Impala组件、HDFS组件、Hive组件、YARN组件、Zookeeper组件以及Parquet存储格式和snappy压缩算法的作用与优势,具体可以参见上述图1至图1g对应实施例中的OLAP系统,这里不再进赘述。
其中,所述模型创建模块50,用于基于所述OLAP系统创建多个存储分析模型,并根据业务场景信息在所述多个存储分析模型中选择对应的目标存储分析模型,并控制所述目标存储分析模型按照预设的存储分析规则对所述业务场景信息关联的业务数据进行存储、查询以及分析;其中,每个存储分析模型均关联有对应的存储分析规则,所述存储分析规则包括查询频率、分析维度变化状态、数据入库存储频率以及数据清理频率;
具体的,所述目标存储分析模型可以分为3种:固化模型、临时模型、半固化模型;所述固化模型是指分析维度固定不变、查询频率为经常分析级别、数据入库存储频率为每天入库频率、数据清理频率为月表保留一年、天表保留一月的频率;所述临时模型是指分析维度可变、查询频率为临时分析级别、数据入库存储频率为按需入库频率、数据清理频率为仅保留最近一个月的数据的频率;所述半固化模型是指分析维度可变、查询频率为偶尔分析级别、数据入库存储频率为按需入库频率、数据清理频率为仅保留最近一周的数据的频率。
本发明实施例通过将用户查询请求对应的目标查询参数传输至内存计算组件,可以使内存计算组件在分布式存储组件中查找出与目标查询参数对应的目标存储数据,并且内存计算组件可以对目标存储数据进行统计分析,以得到查询结果数据;其中,分布式存储组件是用于存储多个存储数据的组件;由此可见,通过将使用内存计算的内存计算组件作为OLAP系统的计算框架,可以提高OLAP系统的查询速度和吞吐量,而且通过分布式存储组件存储所有要分析的数据(即多个存储数据),可以方便利用分布式计算,且也便于扩展。而且内存计算组件可以具体为Impala组件,从而可以进一步提升OLAP的查询速度和吞吐量;而且将HDFS组件作为分布式存储组件,不仅可以方便利用分布式计算,同时由于HDFS组件可以设置存储数据份数来容错,所以可以防止一个数据节点故障造成数据丢失的情况;同时通过将Parquet作为OLAP系统的文件存储格式,可以进一步提高查询速度,并通过使用snappy压缩算法对多个存储数据进行压缩,可以既不影响查询速度还能够节省存储成本;而且将Saiku组件作为界面交互组件,可以使查询结果展示更加直观。
请参见图7,是本发明实施例提供又一种基于OLAP系统的数据处理装置的结构示意图。如图7所示,所述数据处理装置1000可以应用于OLAP服务器中,所述数据处理装置1000可以包括:至少一个处理器1001,例如CPU,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图7所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图7所示的数据处理装置1000中,用户接口1003主要用于为用户提供输入的接口,获取用户输出的数据;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,并具体执行以下步骤:
获取用户查询请求,并提取所述用户查询请求中的查询参数,并按照预设格式将所述查询参数转换为目标查询参数,并将所述目标查询参数传输至所述内存计算组件;
控制所述内存计算组件在所述分布式存储组件中查找出与所述目标查询参数对应的目标存储数据;
控制所述内存计算组件对所述目标存储数据进行统计分析,以得到查询结果数据,并显示所述查询结果数据;
其中,所述分布式存储组件是用于存储多个存储数据的组件,所述多个存储数据包括所述目标存储数据;所述OLAP系统包括内存计算组件和分布式存储组件。
在一个实施例中,所述OLAP系统还包括界面交互组件和格式转换引擎;
则所述处理器1001在执行获取用户查询请求,并提取所述用户查询请求中的查询参数,并按照预设格式将所述查询参数转换为目标查询参数,并将所述目标查询参数传输至内存计算组件时,具体执行以下步骤:
控制所述界面交互组件获取用户查询请求并提取所述用户查询请求中的查询参数,以将所述查询参数传输至格式转换引擎;
控制所述格式转换引擎将所述查询参数的格式转换为结构化查询语言SQL格式,并将为SQL格式的查询参数作为目标查询参数;
控制所述格式转换引擎将所述目标查询参数传输至所述内存计算组件。
在一个实施例中,所述OLAP系统还包括数据入库辅助组件;
则所述处理器1001还执行以下步骤:
当检测到数据入库请求时,控制所述数据入库辅助组件生成与所述数据入库请求所携带的多个存储数据对应的第一入库表格,并将所述第一入库表格传输至所述内存计算组件;
控制所述内存计算组件生成与所述多个存储数据对应的主键值,并将所述主键值添加至所述第一入库表格,以得到第二入库表格;
控制所述分布式存储组件对所述多个存储数据进行存储;
则所述处理器1001在执行控制所述内存计算组件在所述分布式存储组件中查找出与所述目标查询参数对应的目标存储数据时,具体执行以下步骤:
控制所述内存计算组件在所述第二入库表格中查找与所述目标查询参数对应的查询路径;
控制所述内存计算组件根据所述查询路径在所述分布式存储组件中查找与所述目标查询参数对应的目标存储数据。
在一个实施例中,所述OLAP系统还包括分布式资源管理组件和分布式资源协调服务组件;
所述分布式资源管理组件是用于对所述OLAP系统中的系统资源进行管理和控制的组件;
所述分布式资源协调服务组件是用于对所述OLAP系统进行同步服务、配置维护和命名服务的组件。
在一个实施例中,所述分布式存储组件中所存储的多个存储数据的存储格式为列式存储格式Parquet;
所述分布式存储组件中所存储的多个存储数据均为压缩后的数据,所述压缩后的数据是由snappy压缩算法进行压缩所得到的。
在一个实施例中,所述内存计算组件是Impala组件,所述分布式存储组件是HDFS组件。
在一个实施例中,所述界面交互组件是Saiku组件,所述格式转换引擎是Mondrian引擎。
在一个实施例中,所述数据入库辅助组件是Hive组件,所述第一入库表格是Hive表格,所述第二入库表格是Impala表格。
在一个实施例中,所述分布式资源管理组件是YARN组件,所述分布式资源协调服务组件是Zookeeper组件。
在一个实施例中,所述处理器1001还执行以下步骤:
基于所述OLAP系统创建多个存储分析模型,并根据业务场景信息在所述多个存储分析模型中选择对应的目标存储分析模型,并控制所述目标存储分析模型按照预设的存储分析规则对所述业务场景信息关联的业务数据进行存储、查询以及分析;
其中,每个存储分析模型均关联有对应的存储分析规则,所述存储分析规则包括查询频率、分析维度变化状态、数据入库存储频率以及数据清理频率。
本发明实施例通过将用户查询请求对应的目标查询参数传输至内存计算组件,可以使内存计算组件在分布式存储组件中查找出与目标查询参数对应的目标存储数据,并且内存计算组件可以对目标存储数据进行统计分析,以得到查询结果数据;其中,分布式存储组件是用于存储多个存储数据的组件;由此可见,通过将使用内存计算的内存计算组件作为OLAP系统的计算框架,可以提高OLAP系统的查询速度和吞吐量,而且通过分布式存储组件存储所有要分析的数据(即多个存储数据),可以方便利用分布式计算,且也便于扩展。而且内存计算组件可以具体为Impala组件,从而可以进一步提升OLAP的查询速度和吞吐量;而且将HDFS组件作为分布式存储组件,不仅可以方便利用分布式计算,同时由于HDFS组件可以设置存储数据份数来容错,所以可以防止一个数据节点故障造成数据丢失的情况;同时通过将Parquet作为OLAP系统的文件存储格式,可以进一步提高查询速度,并通过使用snappy压缩算法对多个存储数据进行压缩,可以既不影响查询速度还能够节省存储成本;而且将Saiku组件作为界面交互组件,可以使查询结果展示更加直观。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (20)
1.一种基于OLAP系统的数据处理方法,其特征在于,所述OLAP系统包括内存计算组件和分布式存储组件;所述方法包括:
获取用户查询请求,并提取所述用户查询请求中的查询参数,并按照预设格式将所述查询参数转换为目标查询参数,并将所述目标查询参数传输至所述内存计算组件;
控制所述内存计算组件在所述分布式存储组件中查找出与所述目标查询参数对应的目标存储数据;
控制所述内存计算组件对所述目标存储数据进行统计分析,以得到查询结果数据,并显示所述查询结果数据;
其中,所述分布式存储组件是用于存储多个存储数据的组件,所述多个存储数据包括所述目标存储数据。
2.如权利要求1所述的方法,其特征在于,所述OLAP系统还包括界面交互组件和格式转换引擎;
则所述获取用户查询请求,并提取所述用户查询请求中的查询参数,并按照预设格式将所述查询参数转换为目标查询参数,并将所述目标查询参数传输至内存计算组件,包括:
控制所述界面交互组件获取用户查询请求并提取所述用户查询请求中的查询参数,以将所述查询参数传输至格式转换引擎;
控制所述格式转换引擎将所述查询参数的格式转换为结构化查询语言SQL格式,并将为SQL格式的查询参数作为目标查询参数;
控制所述格式转换引擎将所述目标查询参数传输至所述内存计算组件。
3.如权利要求1所述的方法,其特征在于,所述OLAP系统还包括数据入库辅助组件;所述方法还包括:
当检测到数据入库请求时,控制所述数据入库辅助组件生成与所述数据入库请求所携带的多个存储数据对应的第一入库表格,并将所述第一入库表格传输至所述内存计算组件;
控制所述内存计算组件生成与所述多个存储数据对应的主键值,并将所述主键值添加至所述第一入库表格,以得到第二入库表格;
控制所述分布式存储组件对所述多个存储数据进行存储;
则所述控制所述内存计算组件在所述分布式存储组件中查找出与所述目标查询参数对应的目标存储数据,包括:
控制所述内存计算组件在所述第二入库表格中查找与所述目标查询参数对应的查询路径;
控制所述内存计算组件根据所述查询路径在所述分布式存储组件中查找与所述目标查询参数对应的目标存储数据。
4.如权利要求1所述的方法,其特征在于,所述OLAP系统还包括分布式资源管理组件和分布式资源协调服务组件;
所述分布式资源管理组件是用于对所述OLAP系统中的系统资源进行管理和控制的组件;
所述分布式资源协调服务组件是用于对所述OLAP系统进行同步服务、配置维护和命名服务的组件。
5.如权利要求1所述的方法,其特征在于,所述分布式存储组件中所存储的多个存储数据的存储格式为列式存储格式Parquet;
所述分布式存储组件中所存储的多个存储数据均为压缩后的数据,所述压缩后的数据是由snappy压缩算法进行压缩所得到的。
6.如权利要求1所述的方法,其特征在于,所述内存计算组件是Impala组件,所述分布式存储组件是HDFS组件。
7.如权利要求2所述的方法,其特征在于,所述界面交互组件是Saiku组件,所述格式转换引擎是Mondrian引擎。
8.如权利要求3所述的方法,其特征在于,所述数据入库辅助组件是Hive组件,所述第一入库表格是Hive表格,所述第二入库表格是Impala表格。
9.如权利要求4所述的方法,其特征在于,所述分布式资源管理组件是YARN组件,所述分布式资源协调服务组件是Zookeeper组件。
10.如权利要求1至9任一项所述的方法,其特征在于,还包括:
基于所述OLAP系统创建多个存储分析模型,并根据业务场景信息在所述多个存储分析模型中选择对应的目标存储分析模型,并控制所述目标存储分析模型按照预设的存储分析规则对所述业务场景信息关联的业务数据进行存储、查询以及分析;
其中,每个存储分析模型均关联有对应的存储分析规则,所述存储分析规则包括查询频率、分析维度变化状态、数据入库存储频率以及数据清理频率。
11.一种基于OLAP系统的数据处理装置,其特征在于,所述OLAP系统包括内存计算组件和分布式存储组件;所述装置包括:
获取转换模块,用于获取用户查询请求,并提取所述用户查询请求中的查询参数,并按照预设格式将所述查询参数转换为目标查询参数,并将所述目标查询参数传输至所述内存计算组件;
第一控制模块,用于控制所述内存计算组件在所述分布式存储组件中查找出与所述目标查询参数对应的目标存储数据;
第一控制模块,还用于控制所述内存计算组件对所述目标存储数据进行统计分析,以得到查询结果数据,并显示所述查询结果数据;
其中,所述分布式存储组件是用于存储多个存储数据的组件,所述多个存储数据包括所述目标存储数据。
12.如权利要求11所述的装置,其特征在于,所述OLAP系统还包括界面交互组件和格式转换引擎;
则所述获取转换模块包括:
界面控制单元,用于控制所述界面交互组件获取用户查询请求并提取所述用户查询请求中的查询参数,以将所述查询参数传输至格式转换引擎;
引擎控制单元,用于控制所述格式转换引擎将所述查询参数的格式转换为结构化查询语言SQL格式,并将为SQL格式的查询参数作为目标查询参数;
所述引擎控制单元,还用于控制所述格式转换引擎将所述目标查询参数传输至所述内存计算组件。
13.如权利要求11所述的装置,其特征在于,所述OLAP系统还包括数据入库辅助组件;所述装置还包括:
第二控制模块,用于当检测到数据入库请求时,控制所述数据入库辅助组件生成与所述数据入库请求所携带的多个存储数据对应的第一入库表格,并将所述第一入库表格传输至所述内存计算组件;
所述第一控制模块,还用于控制所述内存计算组件生成与所述多个存储数据对应的主键值,并将所述主键值添加至所述第一入库表格,以得到第二入库表格;
第三控制模块,用于控制所述分布式存储组件对所述多个存储数据进行存储;
则所述第一控制模块用于控制所述内存计算组件在所述分布式存储组件中查找出与所述目标查询参数对应的目标存储数据时,具体用于:
控制所述内存计算组件在所述第二入库表格中查找与所述目标查询参数对应的查询路径,并控制所述内存计算组件根据所述查询路径在所述分布式存储组件中查找与所述目标查询参数对应的目标存储数据。
14.如权利要求11所述的装置,其特征在于,所述OLAP系统还包括分布式资源管理组件和分布式资源协调服务组件;
所述分布式资源管理组件是用于对所述OLAP系统中的系统资源进行管理和控制的组件;
所述分布式资源协调服务组件是用于对所述OLAP系统进行同步服务、配置维护和命名服务的组件。
15.如权利要求11所述的装置,其特征在于,所述分布式存储组件中所存储的多个存储数据的存储格式为列式存储格式Parquet;
所述分布式存储组件中所存储的多个存储数据均为压缩后的数据,所述压缩后的数据是由snappy压缩算法进行压缩所得到的。
16.如权利要求11至15任一项所述的装置,其特征在于,还包括:
模型创建模块,用于基于所述OLAP系统创建多个存储分析模型,并根据业务场景信息在所述多个存储分析模型中选择对应的目标存储分析模型,并控制所述目标存储分析模型按照预设的存储分析规则对所述业务场景信息关联的业务数据进行存储、查询以及分析;
其中,每个存储分析模型均关联有对应的存储分析规则,所述存储分析规则包括查询频率、分析维度变化状态、数据入库存储频率以及数据清理频率。
17.一种OLAP系统,其特征在于,包括:界面交互组件、格式转换引擎、内存计算组件以及分布式存储组件;
所述界面交互组件,用于获取用户查询请求并提取所述用户查询请求中的查询参数,以将所述查询参数传输至格式转换引擎;
所述格式转换引擎,用于将所述查询参数的格式转换为结构化查询语言SQL格式,并将为SQL格式的查询参数作为目标查询参数;
所述格式转换引擎,还用于将所述目标查询参数传输至所述内存计算组件;
所述内存计算组件,用于在所述分布式存储组件中查找出与所述目标查询参数对应的目标存储数据;
所述内存计算组件,还用于对所述目标存储数据进行统计分析,以得到查询结果数据,并将所述查询结果数据返回至所述界面交互组件以进行显示;
所述分布式存储组件,用于存储多个存储数据;所述多个存储数据包括所述目标存储数据。
18.如权利要求17所述的OLAP系统,其特征在于,所述OLAP系统还包括数据入库辅助组件;
所述数据入库辅助组件,用于当检测到数据入库请求时,生成与所述数据入库请求所携带的多个存储数据对应的第一入库表格,并将所述第一入库表格传输至所述内存计算组件;
所述内存计算组件,还用于生成与所述多个存储数据对应的主键值,并将所述主键值添加至所述第一入库表格,以得到第二入库表格;
所述分布式存储组件,具体用于根据所述数据入库请求对所述多个存储数据进行存储;
则所述内存计算组件用于在所述分布式存储组件中查找出与所述目标查询参数对应的目标存储数据时,具体用于:
在所述第二入库表格中查找与所述目标查询参数对应的查询路径,并根据所述查询路径在所述分布式存储组件中查找与所述目标查询参数对应的目标存储数据。
19.如权利要求17所述的OLAP系统,其特征在于,所述OLAP系统还包括分布式资源管理组件和分布式资源协调服务组件;
所述分布式资源管理组件,用于对所述OLAP系统中的系统资源进行管理和控制;
所述分布式资源协调服务组件,用于对所述OLAP系统进行同步服务、配置维护和命名服务。
20.如权利要求17所述的OLAP系统,其特征在于,所述分布式存储组件中所存储的多个存储数据的存储格式为列式存储格式Parquet;
所述分布式存储组件中所存储的多个存储数据均为压缩后的数据,所述压缩后的数据是由snappy压缩算法进行压缩所得到的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610514055.3A CN106708917B (zh) | 2016-06-30 | 2016-06-30 | 一种数据处理方法、装置以及olap系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610514055.3A CN106708917B (zh) | 2016-06-30 | 2016-06-30 | 一种数据处理方法、装置以及olap系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106708917A true CN106708917A (zh) | 2017-05-24 |
CN106708917B CN106708917B (zh) | 2019-03-15 |
Family
ID=58940325
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610514055.3A Active CN106708917B (zh) | 2016-06-30 | 2016-06-30 | 一种数据处理方法、装置以及olap系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106708917B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330024A (zh) * | 2017-06-21 | 2017-11-07 | 华为机器有限公司 | 标签系统数据的存储方法和装置 |
CN108875042A (zh) * | 2018-06-27 | 2018-11-23 | 中国农业银行股份有限公司 | 一种混合联机分析处理系统及数据查询方法 |
CN109002440A (zh) * | 2017-06-06 | 2018-12-14 | 北京京东尚科信息技术有限公司 | 用于大数据多维分析的方法、装置及系统 |
CN109471893A (zh) * | 2018-10-24 | 2019-03-15 | 上海连尚网络科技有限公司 | 网络数据的查询方法、设备及计算机可读存储介质 |
CN110188111A (zh) * | 2019-05-30 | 2019-08-30 | 上海优扬新媒信息技术有限公司 | 一种离线数据批量更新方法、装置和分布式存储系统 |
CN110704521A (zh) * | 2019-08-30 | 2020-01-17 | 深圳壹账通智能科技有限公司 | 接口数据接入方法及系统 |
CN110764700A (zh) * | 2019-10-12 | 2020-02-07 | 上海陆家嘴国际金融资产交易市场股份有限公司 | 数据存储方法、装置、计算机设备和存储介质 |
CN110879804A (zh) * | 2019-11-20 | 2020-03-13 | 珠海格力电器股份有限公司 | 一种流式定位数据处理方法、系统、处理装置及存储介质 |
CN111161047A (zh) * | 2019-12-25 | 2020-05-15 | 中国建设银行股份有限公司 | 银行业务数据处理、查询方法及装置 |
CN112346966A (zh) * | 2020-10-19 | 2021-02-09 | 北京航天科颐技术有限公司 | 一种专用控制器测试数据自动分析方法 |
CN112966031A (zh) * | 2019-12-12 | 2021-06-15 | 北京奇艺世纪科技有限公司 | 数据处理方法、装置、电子设备及计算机可读存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103268336A (zh) * | 2013-05-13 | 2013-08-28 | 刘峰 | 一种快数据和大数据结合的数据处理方法及其系统 |
CN103744891A (zh) * | 2013-12-23 | 2014-04-23 | 大唐软件技术股份有限公司 | 一种数据查询方法和系统 |
CN103955502A (zh) * | 2014-04-24 | 2014-07-30 | 科技谷(厦门)信息技术有限公司 | 一种可视化olap的应用实现方法及系统 |
CN104317896A (zh) * | 2014-10-24 | 2015-01-28 | 浪潮软件股份有限公司 | 一种基于海量数据进行分布式比对碰撞方法 |
CN104579777A (zh) * | 2015-01-06 | 2015-04-29 | 浪潮软件股份有限公司 | 日志管理系统和实现方法 |
CN104750746A (zh) * | 2013-12-30 | 2015-07-01 | 中国移动通信集团上海有限公司 | 业务数据的处理方法、装置及分布式内存数据库系统 |
CN105550351A (zh) * | 2015-12-28 | 2016-05-04 | 中国民航信息网络股份有限公司 | 旅客行程数据即席查询系统及方法 |
-
2016
- 2016-06-30 CN CN201610514055.3A patent/CN106708917B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103268336A (zh) * | 2013-05-13 | 2013-08-28 | 刘峰 | 一种快数据和大数据结合的数据处理方法及其系统 |
CN103744891A (zh) * | 2013-12-23 | 2014-04-23 | 大唐软件技术股份有限公司 | 一种数据查询方法和系统 |
CN104750746A (zh) * | 2013-12-30 | 2015-07-01 | 中国移动通信集团上海有限公司 | 业务数据的处理方法、装置及分布式内存数据库系统 |
CN103955502A (zh) * | 2014-04-24 | 2014-07-30 | 科技谷(厦门)信息技术有限公司 | 一种可视化olap的应用实现方法及系统 |
CN104317896A (zh) * | 2014-10-24 | 2015-01-28 | 浪潮软件股份有限公司 | 一种基于海量数据进行分布式比对碰撞方法 |
CN104579777A (zh) * | 2015-01-06 | 2015-04-29 | 浪潮软件股份有限公司 | 日志管理系统和实现方法 |
CN105550351A (zh) * | 2015-12-28 | 2016-05-04 | 中国民航信息网络股份有限公司 | 旅客行程数据即席查询系统及方法 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109002440A (zh) * | 2017-06-06 | 2018-12-14 | 北京京东尚科信息技术有限公司 | 用于大数据多维分析的方法、装置及系统 |
CN107330024A (zh) * | 2017-06-21 | 2017-11-07 | 华为机器有限公司 | 标签系统数据的存储方法和装置 |
CN108875042B (zh) * | 2018-06-27 | 2021-06-08 | 中国农业银行股份有限公司 | 一种混合联机分析处理系统及数据查询方法 |
CN108875042A (zh) * | 2018-06-27 | 2018-11-23 | 中国农业银行股份有限公司 | 一种混合联机分析处理系统及数据查询方法 |
CN109471893A (zh) * | 2018-10-24 | 2019-03-15 | 上海连尚网络科技有限公司 | 网络数据的查询方法、设备及计算机可读存储介质 |
CN110188111A (zh) * | 2019-05-30 | 2019-08-30 | 上海优扬新媒信息技术有限公司 | 一种离线数据批量更新方法、装置和分布式存储系统 |
CN110704521A (zh) * | 2019-08-30 | 2020-01-17 | 深圳壹账通智能科技有限公司 | 接口数据接入方法及系统 |
CN110764700A (zh) * | 2019-10-12 | 2020-02-07 | 上海陆家嘴国际金融资产交易市场股份有限公司 | 数据存储方法、装置、计算机设备和存储介质 |
CN110764700B (zh) * | 2019-10-12 | 2023-02-07 | 未鲲(上海)科技服务有限公司 | 数据存储方法、装置、计算机设备和存储介质 |
CN110879804A (zh) * | 2019-11-20 | 2020-03-13 | 珠海格力电器股份有限公司 | 一种流式定位数据处理方法、系统、处理装置及存储介质 |
CN112966031A (zh) * | 2019-12-12 | 2021-06-15 | 北京奇艺世纪科技有限公司 | 数据处理方法、装置、电子设备及计算机可读存储介质 |
CN111161047A (zh) * | 2019-12-25 | 2020-05-15 | 中国建设银行股份有限公司 | 银行业务数据处理、查询方法及装置 |
CN112346966A (zh) * | 2020-10-19 | 2021-02-09 | 北京航天科颐技术有限公司 | 一种专用控制器测试数据自动分析方法 |
CN112346966B (zh) * | 2020-10-19 | 2024-01-23 | 北京航天科颐技术有限公司 | 一种专用控制器测试数据自动分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106708917B (zh) | 2019-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106708917A (zh) | 一种数据处理方法、装置以及olap系统 | |
DE102020208110A1 (de) | Verfahren und vorrichtungen zum aggregieren von telemetriedaten in einer edge-umgebung | |
CN103761309B (zh) | 一种运营数据处理方法及系统 | |
CN102567495B (zh) | 一种海量信息存储系统及实现方法 | |
TW202002587A (zh) | 基於區塊鏈的資料處理方法和裝置 | |
CN109582667A (zh) | 一种基于电力调控大数据的多数据库混合存储方法及系统 | |
CN105450705B (zh) | 业务数据处理方法及设备 | |
US10108689B2 (en) | Workload discovery using real-time analysis of input streams | |
CN103077070B (zh) | 云计算管理系统以及云计算系统的管理方法 | |
CN105701181A (zh) | 一种动态异构元数据获取方法及系统 | |
US10394805B2 (en) | Database management for mobile devices | |
CN102930062A (zh) | 一种数据库快速水平扩展的方法 | |
CN105468720A (zh) | 集成分布式数据处理系统的方法、相应系统及其数据处理方法 | |
CN105930417B (zh) | 一种基于云计算的大数据etl交互式处理平台 | |
CN110110006A (zh) | 数据管理方法及相关产品 | |
CN105339899B (zh) | 用于在软件定义网络中使应用程序集群的方法和控制器 | |
CN107343021A (zh) | 国网云中应用的一种基于大数据的日志管理系统 | |
CN107590181A (zh) | 一种大数据的智能分析系统 | |
CN103646051A (zh) | 一种基于列存储的大数据并行处理系统及方法 | |
CN101256599B (zh) | 基于网格的分布仿真平台数据收集系统 | |
CN107402926A (zh) | 一种查询方法以及查询设备 | |
CN106302640A (zh) | 数据请求处理方法及装置 | |
CN110442602A (zh) | 数据查询方法、装置、服务器及存储介质 | |
CN108287889B (zh) | 一种基于弹性表模型的多源异构数据存储方法和系统 | |
CN114254033A (zh) | 一种基于bs架构的数据处理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |