CN102541656A - 生成多维分析Cube的方法和系统 - Google Patents

生成多维分析Cube的方法和系统 Download PDF

Info

Publication number
CN102541656A
CN102541656A CN2010106193885A CN201010619388A CN102541656A CN 102541656 A CN102541656 A CN 102541656A CN 2010106193885 A CN2010106193885 A CN 2010106193885A CN 201010619388 A CN201010619388 A CN 201010619388A CN 102541656 A CN102541656 A CN 102541656A
Authority
CN
China
Prior art keywords
main frame
cube
module
information
resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010106193885A
Other languages
English (en)
Other versions
CN102541656B (zh
Inventor
王颖卓
吴金坛
冯兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unionpay Co Ltd
Original Assignee
China Unionpay Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unionpay Co Ltd filed Critical China Unionpay Co Ltd
Priority to CN201010619388.5A priority Critical patent/CN102541656B/zh
Publication of CN102541656A publication Critical patent/CN102541656A/zh
Application granted granted Critical
Publication of CN102541656B publication Critical patent/CN102541656B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于数据仓库生成多维分析Cube的系统,所述系统包括第一主机和第二主机,其特征在于,所述第一主机包括管理模块,所述管理模块包括资源获取模块和任务分配模块;所述第一主机和第二主机各自包括工作模块;其中,所述资源获取模块被配置成根据Cube基本信息获取Cube信息,以及根据第一主机和第二主机的基本资源信息获取第一主机和第二主机的资源信息,所述任务分配模块被配置成基于所述Cube信息以及所述第一主机和第二主机的资源信息将Cube生成任务分配给所述第一主机或者第二主机,所述工作模块用于生成Cube。

Description

生成多维分析Cube的方法和系统
技术领域
本发明涉及分布式计算,并且尤其涉及基于数据仓库生成多维分析Cube的方法和系统。
背景技术
数据仓库是一个作为决策支持系统和联机分析应用数据源的结构化数据环境。传统的数据仓库建设,基本分为3个部分组成:ETL(Extraction-Transformation-Loading,即数据提取、转换和加载)、数据仓库和BI工具(Business Intelligence Tool)。如图1所示,ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层(未示出)后进行清洗、转换、集成,最后加载到数据仓库中。数据仓库中的存储数据成为联机分析处理、数据挖掘的基础。BI工具实施地对数据仓库中的数据进行各种分析,并给出报告。在BI展现中,多维分析Cube是一种行之有效的也是广泛采用的多维分析工具,而且由于性能、权限、业务划分等原因,往往需要生成大量的多维分析Cube。
如图1所示,为了避免资源的冲突,现有技术中的数据仓库系统通常为上述的3个部分配置各自相对独立的硬件资源主机1-3,另外还设置了主机4用于响应和处理用户的访问以及Cube的使用。如此,每台数据仓库系统的主机相对独立,各负其责。
但是,现有的数据仓库系统的系统整体的资源利用率较低。由于数据仓库系统的特性,每一类型的任务都需要耗费相当的主机资源;并且在不同的时间段内,由于任务的不同,不同主机的资源使用率又完全不同。例如:完成ETL任务的主机1通常在晚上进行数据抽取和整理;数据库管理和查询主机2通常在需要进行数据整理和复杂的SQL语句查询的时候,资源使用率高;负责多维分析Cube生成的主机3只有在生成Cube的时候会占用全部的主机资源;负责处理用户访问和多维分析使用的主机4,在工作时间段上资源使用明显,而且为了性能考虑,必须留出充足的系统资源以相应用户的请求,而非工作时间段资源使用率较低。
生成大量的多维分析Cube需要耗费大量的资源,但是现有的数据仓库系统的各个主机资源的使用相对不均,使用率不高。因此,需要一种资源使用率高的生成多维分析Cube的方法和系统。
发明内容
根据本发明的一个目的,提供了一种基于数据仓库生成多维分析Cube的系统,所述系统包括第一主机和第二主机,其特征在于,
所述第一主机包括管理模块,所述管理模块包括资源获取模块和任务分配模块;
所述第一主机和第二主机各自包括工作模块;
其中,所述资源获取模块被配置成根据Cube基本信息获取Cube信息,以及根据第一主机和第二主机的基本资源信息获取第一主机和第二主机的资源信息,
所述任务分配模块被配置成基于所述Cube信息以及所述第一主机和第二主机的资源信息将Cube生成任务分配给所述第一主机或者第二主机,
所述工作模块用于生成Cube。
优选地,所述第二主机包括备份管理模块,所述备份管理模块被配置成在异常状态下代替管理模块。
优选地,所述系统还包括第一存储器,所述第一存储器是公共存储器,用于存储生成的Cube文件,所述第一存储器设置在所述第一主机或者第二主机中。
优选地,所述系统还包括第二存储器,所述第二存储器是公共存储器,用于存储未生成的Cube文件,所述第二存储器设置在所述第一主机或者第二主机中。
优选地,所述基本Cube信息包括Cube的分区模式、生成周期,数据周期、名称、生成该Cube的时间估算,最小CPU使用估算中的一个或多个。
优选地,所述第一主机和第二主机的基本资源信息包括CPU资源、内存资源、磁盘I/O、网路I/O中的一个或多个。
优选地,所述管理模块进一步包括日志回收模块,用于把分散在不同主机上的任务日志回收,进行统一管理。
根据本发明的另一个目的,提供了一种基于数据仓库生成多维分析Cube的方法,其特征在于,所述方法包括以下步骤:
在第一主机中设置管理模块,所述管理模块包括资源获取模块和任务分配模块;
在第一主机和第二主机中设置工作模块;
利用资源获取模块根据Cube基本信息获取Cube信息。
利用资源获取模块根据所述第一主机和第二主机的基本资源信息获取所述第一主机和第二主机的资源信息。
利用任务分配模块基于所述Cube信息以及所述第一主机和第二主机的资源信息分配Cube生成任务并将该任务发送至所述第一或第二主机。
利用工作模块生成Cube。
本发明的技术方案提出了一种新型的生成大量多维分析Cube的系统和方法,通过集中的统一控制,能够合理控制数据仓库的多主机系统在不同时间段内的不同程度的空闲资源,分布式生成多维分析Cube。另外,通过设置多个工作模块和备份管理模块使得系统的可靠性得到了很大的提高。所有的工作模块都是实时工作的,这样即使有一个工作模块出错,其他工作模块不受任何影响,仍然能够完成其余的工作。
附图说明
在参照附图阅读了本发明的具体实施方式以后,本领域技术人员将会更清楚地了解本发明的各个方面。本领域技术人员应当理解的是,这些附图仅仅用于配合具体实施方式说明本发明的技术方案,而并非意在对本发明的保护范围构成限制。其中,
图1是现有技术中的基于数据仓库生成多维分析Cube的系统;
图2是根据本发明实施例的基于数据仓库生成多维分析Cube的系统的示意图;
图3根据本发明实施例的基于数据仓库生成多维分析Cube的系统的管理模块示意图;
图4是根据本发明实施例的基于数据仓库生成多维分析Cube的系统的部署逻辑图;
图5是根据本发明实施例的数据仓库生成多维分析Cube的方法流程图;
具体实施方式
参考图2,其是根据本发明实施例的基于数据仓库生成多维分析Cube的系统的示意图。图2中的上下两部分是系统组成的逻辑实体对照,本领域的技术人员可以理解,图2中简化或省略了一些常规部件。在该实施例中,Cube生成系统包括完成ETL主机、数据库管理和查询主机2、Cube生成主机3以及处理用户访问的主机4。数据仓库系统的所述4台主机可以通过以太网连接。其中,在主机2设置了管理模块和工作模块,管理模块负责统一控制Cube生成任务的产生和分配,工作模块用于生成Cube。
图3根据本发明实施例的基于数据仓库生成多维分析Cube的系统的管理模块示意图。根据本发明的该实施例,管理模块可以包括Cube基本信息管理模块、资源获取模块、任务分配模块和日志回收模块。Cube基本信息管理模块可以从数据仓库系统的存储器中存储的Cube配置文件中提取并存储Cube的基本信息,该基本信息可以包括Cube本身信息,诸如Cube的分区模式、生成周期,数据周期、名称、存放路径等,以及Cube资源信息,诸如生成该Cube的时间估算,最小CPU使用估算等。资源获取模块用于获取各个主机的基本资源,例如CPU(系统、用户、等待、空闲)资源、内存资源、磁盘I/O、网路I/O等。例如,可以编写脚本在各个主机上运行,每隔一段时间,资源获取模块主动获取当前主机的CPU、内存、磁盘、网络等使用情况,并且生成一个格式化的“资源使用报告”。或者,管理模块可以“命令”设置在各个主机中的工作模块获取主机基本资源信息生成资源报告并发送到指定目录供资源获取模块定时提取,这里指定的目录可以是设置在各个主机中的公共存储器。资源获取模块调用Cube基本信息管理模块判断当前需要生成的Cube数量并且解析某一个Cube的基本信息生成表示Cube信息的结构化参数或,并且解析不同主机的资源报告生成表示主机资源的结构化参数,然后这些信息或发送给任务分配模块。任务分配模块传递过来的“Cube信息”和“主机资源信息”决定由哪台主机执行生成该Cube,同时生成任务并把该任务发送给该主机,例如当前空闲的主机或者当前有足够资源生成该Cube的主机。本领域人员可知主机与主机之间可以使用但不限于FTP协议来传输各种信息。
但是本领域的技术人员可以理解的是,本发明的管理模块不限于上述的配置方式,例如可以省略Cube基本信息管理模块而由资源获取模块来完成Cube基本信息的获取并产生Cube信息。
图3示出的管理模块还包括可选的日志回收模块,该模块用于把分散在不同主机上的任务日志回收,便于统一管理。
下面将结合图4阐述本发明的工作模块。图4是根据本发明另一实施例的基于数据仓库生成多维分析Cube的系统的部署逻辑图。如上文所述,工作模块被设置在各个主机中用于生成Cube。如图4所示,数据仓库系统包括第一主机和第二主机,第一和第二主机分别包括第一工作模块和第二工作模块。第一工作模块和/或第二工作模块根据根据接收的Cube生成任务在进行例如环境清理(如原有的一些临时文件的删除)和备份(对要更新的文件备份,已应对出差错后的任务回退)之后生成具体的多维分析Cube,然后把生成好的多维分析发布到用于用户访问的主机,在本例中用户访问的主机可以为第一主机或者第二主机。在多维分析生成结束后,工作模块进行资源回收并等待下一个Cube生成任务。应当理解,第一主机或第二主机中设置了管理模块(未示出),其可以被实现为图3所述的管理模块。
在图4所示的例子中,还在第一和第二主机中分别设置了作为公共存储区域的第一存储器和第二存储器,其中第一存储器用于存储已经生成的Cube文件,第二存储器用于存储未生成的Cube文件。在Cube生成的过程中,Cube文件在写入数据,此时Cube文件是不能访问的。因此,为了减少Cube文件不能访问的时间,把访问存储和生成储存分开了。公共第二存储器用于生成Cube,公共第一存储器用于为提供用户访问。从而在Cube文件生成成功后,会从第二存储器发送到第一存储器中,这样Cube不能访问的时间就“局限”在发送所需的时间内。另外,通常只有“用户访问主机”才提供Cube的对外访问服务,在其他主机上成功生成的Cube文件需要通过数据传输模块传递到“用户访问主机”上,用户才能访问。例如,第二主机为用户访问主机”,那么可以在第二工作模块中设置数据传输模块。
根据本发明的另一个实施例,在各个主机中还设置了备份管理模块,所述备份管理模块被配置成在异常状态下例如,当管理模块失效时代替管理模块进行工作,从而提高了系统的可靠性。
图5是根据本发明实施例的数据仓库生成多维分析Cube的方法流程图。在第一步骤中,由资源获取模块获取Cube信息。在第二步骤中,由资源获取模块获取主机资源信息。在第三步骤中,由任务分配模块分配任务。在第四步骤中,由工作模块生成Cube。上述四个步骤的操作可以通过本发明的上述各个实施例中的模块完成。本领域的技术人员还可以理解的是,本发明的方法可以采用计算机程序实现。
本发明结合图2至5和上述描述说明了本发明的实施方式,本领域技术人员应该理解源自这些实施方式的修改和改变仍落在本发明的范围内。本领域技术人员应该理解上述的各种特征能够以各种方式适当地结合以形成本发明实施例的多个变型。由此,本发明并不局限于上述特定实施方式,而应由权利要求和它们的等同物限定。

Claims (8)

1.一种基于数据仓库生成多维分析Cube的系统,所述系统包括第一主机和第二主机,其特征在于,
所述第一主机包括管理模块,所述管理模块包括资源获取模块和任务分配模块;
所述第一主机和第二主机各自包括工作模块;
其中,所述资源获取模块被配置成根据Cube基本信息获取Cube信息,以及根据第一主机和第二主机的基本资源信息获取第一主机和第二主机的资源信息,
所述任务分配模块被配置成基于所述Cube信息以及所述第一主机和第二主机的资源信息将Cube生成任务分配给所述第一主机或者第二主机,
所述工作模块用于生成Cube。
2.如权利要求1所述的系统,其特征在于,所述第二主机包括备份管理模块,所述备份管理模块被配置成在异常状态下代替管理模块。
3.如权利要求1所述的系统,其特征在于,所述系统还包括第一存储器,所述第一存储器是公共存储器,用于存储生成的Cube文件,所述第一存储器设置在所述第一主机或者第二主机中。
4.如权利要求3所述的系统,其特征在于,所述系统还包括第二存储器,所述第二存储器是公共存储器,用于存储未生成的Cube文件,所述第二存储器设置在所述第一主机或者第二主机中。
5.如权利要求1所述的系统,其特征在于,所述基本Cube信息包括Cube的分区模式、生成周期,数据周期、名称、生成该Cube的时间估算,最小CPU使用估算中的一个或多个。
6.如权利要求1所述的系统,其特征在于,所述第一主机和第二主机的基本资源信息包括CPU资源、内存资源、磁盘I/O、网路I/O中的一个或多个。
7.如权利要求1所述的系统,其特征在于,所述管理模块进一步包括日志回收模块,用于把分散在不同主机上的任务日志回收,进行统一管理。
8.一种基于数据仓库生成多维分析Cube的方法,其特征在于,所述方法包括以下步骤:
在第一主机中设置管理模块,所述管理模块包括资源获取模块和任务分配模块;
在第一主机和第二主机中设置工作模块;
利用资源获取模块根据Cube基本信息获取Cube信息。
利用资源获取模块根据所述第一主机和第二主机的基本资源信息获取所述第一主机和第二主机的资源信息。
利用任务分配模块基于所述Cube信息以及所述第一主机和第二主机的资源信息分配Cube生成任务并将该任务发送至所述第一或第二主机。
利用工作模块生成Cube。
CN201010619388.5A 2010-12-31 2010-12-31 生成多维分析Cube的方法和系统 Active CN102541656B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010619388.5A CN102541656B (zh) 2010-12-31 2010-12-31 生成多维分析Cube的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010619388.5A CN102541656B (zh) 2010-12-31 2010-12-31 生成多维分析Cube的方法和系统

Publications (2)

Publication Number Publication Date
CN102541656A true CN102541656A (zh) 2012-07-04
CN102541656B CN102541656B (zh) 2014-04-16

Family

ID=46348612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010619388.5A Active CN102541656B (zh) 2010-12-31 2010-12-31 生成多维分析Cube的方法和系统

Country Status (1)

Country Link
CN (1) CN102541656B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108196959A (zh) * 2018-02-07 2018-06-22 聚好看科技股份有限公司 Etl系统的资源管理方法及装置
CN112632043A (zh) * 2021-01-26 2021-04-09 浙江争游网络科技有限公司 一种数据仓库优化方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030061260A1 (en) * 2001-09-25 2003-03-27 Timesys Corporation Resource reservation and priority management
JP2006244457A (ja) * 2005-02-01 2006-09-14 Seiko Epson Corp リソース管理システムおよびリソース管理プログラム、並びにリソース管理方法
CN101183368A (zh) * 2007-12-06 2008-05-21 华南理工大学 联机分析处理中分布式计算及查询海量数据的方法和系统
CN101452485A (zh) * 2008-12-31 2009-06-10 中国建设银行股份有限公司 一种基于关系数据库生成多维立方体的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030061260A1 (en) * 2001-09-25 2003-03-27 Timesys Corporation Resource reservation and priority management
JP2006244457A (ja) * 2005-02-01 2006-09-14 Seiko Epson Corp リソース管理システムおよびリソース管理プログラム、並びにリソース管理方法
CN101183368A (zh) * 2007-12-06 2008-05-21 华南理工大学 联机分析处理中分布式计算及查询海量数据的方法和系统
CN101452485A (zh) * 2008-12-31 2009-06-10 中国建设银行股份有限公司 一种基于关系数据库生成多维立方体的方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108196959A (zh) * 2018-02-07 2018-06-22 聚好看科技股份有限公司 Etl系统的资源管理方法及装置
CN108196959B (zh) * 2018-02-07 2021-06-01 聚好看科技股份有限公司 Etl系统的资源管理方法及装置
CN112632043A (zh) * 2021-01-26 2021-04-09 浙江争游网络科技有限公司 一种数据仓库优化方法和装置
CN112632043B (zh) * 2021-01-26 2021-08-17 浙江争游网络科技有限公司 一种数据仓库优化方法和装置

Also Published As

Publication number Publication date
CN102541656B (zh) 2014-04-16

Similar Documents

Publication Publication Date Title
US10691716B2 (en) Dynamic partitioning techniques for data streams
JP6510112B2 (ja) データストリーム取り込み及び永続性ポリシ
US9794135B2 (en) Managed service for acquisition, storage and consumption of large-scale data streams
US9276959B2 (en) Client-configurable security options for data streams
US9858322B2 (en) Data stream ingestion and persistence techniques
US10635644B2 (en) Partition-based data stream processing framework
CN104065685B (zh) 面向云计算环境的分层存储系统中的数据迁移方法
CN101620609A (zh) 多租户数据存储和访问方法和装置
CN107688611B (zh) 一种基于saltstack的Redis键值管理系统及方法
US10747665B2 (en) Cost-based garbage collection scheduling in a distributed storage environment
CN102983996A (zh) 一种高可用集群资源管理的动态配置方法与系统
CN111930716A (zh) 一种数据库扩容方法、装置及系统
CN103109293A (zh) 一种用户行为处理系统及方法
CN102685222B (zh) 一种用于电力系统的云存储资源管理装置
CN102541656B (zh) 生成多维分析Cube的方法和系统
CN108604231A (zh) 镜像处理方法以及计算设备
CN112347036B (zh) 一种云存储系统的云间迁移方法及装置
GB2542585A (en) Task scheduler and task scheduling process
CN118051353A (zh) 一种等离子体控制系统中数据共享与通信协同方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant