CN102541656A - 生成多维分析Cube的方法和系统 - Google Patents
生成多维分析Cube的方法和系统 Download PDFInfo
- Publication number
- CN102541656A CN102541656A CN2010106193885A CN201010619388A CN102541656A CN 102541656 A CN102541656 A CN 102541656A CN 2010106193885 A CN2010106193885 A CN 2010106193885A CN 201010619388 A CN201010619388 A CN 201010619388A CN 102541656 A CN102541656 A CN 102541656A
- Authority
- CN
- China
- Prior art keywords
- host
- cube
- module
- information
- resource
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 12
- 238000004458 analytical method Methods 0.000 title abstract description 12
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000005192 partition Methods 0.000 claims description 3
- 238000004064 recycling Methods 0.000 claims description 3
- 238000004141 dimensional analysis Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000011084 recovery Methods 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013515 script Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于数据仓库生成多维分析Cube的系统,所述系统包括第一主机和第二主机,其特征在于,所述第一主机包括管理模块,所述管理模块包括资源获取模块和任务分配模块;所述第一主机和第二主机各自包括工作模块;其中,所述资源获取模块被配置成根据Cube基本信息获取Cube信息,以及根据第一主机和第二主机的基本资源信息获取第一主机和第二主机的资源信息,所述任务分配模块被配置成基于所述Cube信息以及所述第一主机和第二主机的资源信息将Cube生成任务分配给所述第一主机或者第二主机,所述工作模块用于生成Cube。
Description
技术领域
本发明涉及分布式计算,并且尤其涉及基于数据仓库生成多维分析Cube的方法和系统。
背景技术
数据仓库是一个作为决策支持系统和联机分析应用数据源的结构化数据环境。传统的数据仓库建设,基本分为3个部分组成:ETL(Extraction-Transformation-Loading,即数据提取、转换和加载)、数据仓库和BI工具(Business Intelligence Tool)。如图1所示,ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层(未示出)后进行清洗、转换、集成,最后加载到数据仓库中。数据仓库中的存储数据成为联机分析处理、数据挖掘的基础。BI工具实施地对数据仓库中的数据进行各种分析,并给出报告。在BI展现中,多维分析Cube是一种行之有效的也是广泛采用的多维分析工具,而且由于性能、权限、业务划分等原因,往往需要生成大量的多维分析Cube。
如图1所示,为了避免资源的冲突,现有技术中的数据仓库系统通常为上述的3个部分配置各自相对独立的硬件资源主机1-3,另外还设置了主机4用于响应和处理用户的访问以及Cube的使用。如此,每台数据仓库系统的主机相对独立,各负其责。
但是,现有的数据仓库系统的系统整体的资源利用率较低。由于数据仓库系统的特性,每一类型的任务都需要耗费相当的主机资源;并且在不同的时间段内,由于任务的不同,不同主机的资源使用率又完全不同。例如:完成ETL任务的主机1通常在晚上进行数据抽取和整理;数据库管理和查询主机2通常在需要进行数据整理和复杂的SQL语句查询的时候,资源使用率高;负责多维分析Cube生成的主机3只有在生成Cube的时候会占用全部的主机资源;负责处理用户访问和多维分析使用的主机4,在工作时间段上资源使用明显,而且为了性能考虑,必须留出充足的系统资源以相应用户的请求,而非工作时间段资源使用率较低。
生成大量的多维分析Cube需要耗费大量的资源,但是现有的数据仓库系统的各个主机资源的使用相对不均,使用率不高。因此,需要一种资源使用率高的生成多维分析Cube的方法和系统。
发明内容
根据本发明的一个目的,提供了一种基于数据仓库生成多维分析Cube的系统,所述系统包括第一主机和第二主机,其特征在于,
所述第一主机包括管理模块,所述管理模块包括资源获取模块和任务分配模块;
所述第一主机和第二主机各自包括工作模块;
其中,所述资源获取模块被配置成根据Cube基本信息获取Cube信息,以及根据第一主机和第二主机的基本资源信息获取第一主机和第二主机的资源信息,
所述任务分配模块被配置成基于所述Cube信息以及所述第一主机和第二主机的资源信息将Cube生成任务分配给所述第一主机或者第二主机,
所述工作模块用于生成Cube。
优选地,所述第二主机包括备份管理模块,所述备份管理模块被配置成在异常状态下代替管理模块。
优选地,所述系统还包括第一存储器,所述第一存储器是公共存储器,用于存储生成的Cube文件,所述第一存储器设置在所述第一主机或者第二主机中。
优选地,所述系统还包括第二存储器,所述第二存储器是公共存储器,用于存储未生成的Cube文件,所述第二存储器设置在所述第一主机或者第二主机中。
优选地,所述基本Cube信息包括Cube的分区模式、生成周期,数据周期、名称、生成该Cube的时间估算,最小CPU使用估算中的一个或多个。
优选地,所述第一主机和第二主机的基本资源信息包括CPU资源、内存资源、磁盘I/O、网路I/O中的一个或多个。
优选地,所述管理模块进一步包括日志回收模块,用于把分散在不同主机上的任务日志回收,进行统一管理。
根据本发明的另一个目的,提供了一种基于数据仓库生成多维分析Cube的方法,其特征在于,所述方法包括以下步骤:
在第一主机中设置管理模块,所述管理模块包括资源获取模块和任务分配模块;
在第一主机和第二主机中设置工作模块;
利用资源获取模块根据Cube基本信息获取Cube信息。
利用资源获取模块根据所述第一主机和第二主机的基本资源信息获取所述第一主机和第二主机的资源信息。
利用任务分配模块基于所述Cube信息以及所述第一主机和第二主机的资源信息分配Cube生成任务并将该任务发送至所述第一或第二主机。
利用工作模块生成Cube。
本发明的技术方案提出了一种新型的生成大量多维分析Cube的系统和方法,通过集中的统一控制,能够合理控制数据仓库的多主机系统在不同时间段内的不同程度的空闲资源,分布式生成多维分析Cube。另外,通过设置多个工作模块和备份管理模块使得系统的可靠性得到了很大的提高。所有的工作模块都是实时工作的,这样即使有一个工作模块出错,其他工作模块不受任何影响,仍然能够完成其余的工作。
附图说明
在参照附图阅读了本发明的具体实施方式以后,本领域技术人员将会更清楚地了解本发明的各个方面。本领域技术人员应当理解的是,这些附图仅仅用于配合具体实施方式说明本发明的技术方案,而并非意在对本发明的保护范围构成限制。其中,
图1是现有技术中的基于数据仓库生成多维分析Cube的系统;
图2是根据本发明实施例的基于数据仓库生成多维分析Cube的系统的示意图;
图3根据本发明实施例的基于数据仓库生成多维分析Cube的系统的管理模块示意图;
图4是根据本发明实施例的基于数据仓库生成多维分析Cube的系统的部署逻辑图;
图5是根据本发明实施例的数据仓库生成多维分析Cube的方法流程图;
具体实施方式
参考图2,其是根据本发明实施例的基于数据仓库生成多维分析Cube的系统的示意图。图2中的上下两部分是系统组成的逻辑实体对照,本领域的技术人员可以理解,图2中简化或省略了一些常规部件。在该实施例中,Cube生成系统包括完成ETL主机、数据库管理和查询主机2、Cube生成主机3以及处理用户访问的主机4。数据仓库系统的所述4台主机可以通过以太网连接。其中,在主机2设置了管理模块和工作模块,管理模块负责统一控制Cube生成任务的产生和分配,工作模块用于生成Cube。
图3根据本发明实施例的基于数据仓库生成多维分析Cube的系统的管理模块示意图。根据本发明的该实施例,管理模块可以包括Cube基本信息管理模块、资源获取模块、任务分配模块和日志回收模块。Cube基本信息管理模块可以从数据仓库系统的存储器中存储的Cube配置文件中提取并存储Cube的基本信息,该基本信息可以包括Cube本身信息,诸如Cube的分区模式、生成周期,数据周期、名称、存放路径等,以及Cube资源信息,诸如生成该Cube的时间估算,最小CPU使用估算等。资源获取模块用于获取各个主机的基本资源,例如CPU(系统、用户、等待、空闲)资源、内存资源、磁盘I/O、网路I/O等。例如,可以编写脚本在各个主机上运行,每隔一段时间,资源获取模块主动获取当前主机的CPU、内存、磁盘、网络等使用情况,并且生成一个格式化的“资源使用报告”。或者,管理模块可以“命令”设置在各个主机中的工作模块获取主机基本资源信息生成资源报告并发送到指定目录供资源获取模块定时提取,这里指定的目录可以是设置在各个主机中的公共存储器。资源获取模块调用Cube基本信息管理模块判断当前需要生成的Cube数量并且解析某一个Cube的基本信息生成表示Cube信息的结构化参数或,并且解析不同主机的资源报告生成表示主机资源的结构化参数,然后这些信息或发送给任务分配模块。任务分配模块传递过来的“Cube信息”和“主机资源信息”决定由哪台主机执行生成该Cube,同时生成任务并把该任务发送给该主机,例如当前空闲的主机或者当前有足够资源生成该Cube的主机。本领域人员可知主机与主机之间可以使用但不限于FTP协议来传输各种信息。
但是本领域的技术人员可以理解的是,本发明的管理模块不限于上述的配置方式,例如可以省略Cube基本信息管理模块而由资源获取模块来完成Cube基本信息的获取并产生Cube信息。
图3示出的管理模块还包括可选的日志回收模块,该模块用于把分散在不同主机上的任务日志回收,便于统一管理。
下面将结合图4阐述本发明的工作模块。图4是根据本发明另一实施例的基于数据仓库生成多维分析Cube的系统的部署逻辑图。如上文所述,工作模块被设置在各个主机中用于生成Cube。如图4所示,数据仓库系统包括第一主机和第二主机,第一和第二主机分别包括第一工作模块和第二工作模块。第一工作模块和/或第二工作模块根据根据接收的Cube生成任务在进行例如环境清理(如原有的一些临时文件的删除)和备份(对要更新的文件备份,已应对出差错后的任务回退)之后生成具体的多维分析Cube,然后把生成好的多维分析发布到用于用户访问的主机,在本例中用户访问的主机可以为第一主机或者第二主机。在多维分析生成结束后,工作模块进行资源回收并等待下一个Cube生成任务。应当理解,第一主机或第二主机中设置了管理模块(未示出),其可以被实现为图3所述的管理模块。
在图4所示的例子中,还在第一和第二主机中分别设置了作为公共存储区域的第一存储器和第二存储器,其中第一存储器用于存储已经生成的Cube文件,第二存储器用于存储未生成的Cube文件。在Cube生成的过程中,Cube文件在写入数据,此时Cube文件是不能访问的。因此,为了减少Cube文件不能访问的时间,把访问存储和生成储存分开了。公共第二存储器用于生成Cube,公共第一存储器用于为提供用户访问。从而在Cube文件生成成功后,会从第二存储器发送到第一存储器中,这样Cube不能访问的时间就“局限”在发送所需的时间内。另外,通常只有“用户访问主机”才提供Cube的对外访问服务,在其他主机上成功生成的Cube文件需要通过数据传输模块传递到“用户访问主机”上,用户才能访问。例如,第二主机为用户访问主机”,那么可以在第二工作模块中设置数据传输模块。
根据本发明的另一个实施例,在各个主机中还设置了备份管理模块,所述备份管理模块被配置成在异常状态下例如,当管理模块失效时代替管理模块进行工作,从而提高了系统的可靠性。
图5是根据本发明实施例的数据仓库生成多维分析Cube的方法流程图。在第一步骤中,由资源获取模块获取Cube信息。在第二步骤中,由资源获取模块获取主机资源信息。在第三步骤中,由任务分配模块分配任务。在第四步骤中,由工作模块生成Cube。上述四个步骤的操作可以通过本发明的上述各个实施例中的模块完成。本领域的技术人员还可以理解的是,本发明的方法可以采用计算机程序实现。
本发明结合图2至5和上述描述说明了本发明的实施方式,本领域技术人员应该理解源自这些实施方式的修改和改变仍落在本发明的范围内。本领域技术人员应该理解上述的各种特征能够以各种方式适当地结合以形成本发明实施例的多个变型。由此,本发明并不局限于上述特定实施方式,而应由权利要求和它们的等同物限定。
Claims (8)
1.一种基于数据仓库生成多维分析Cube的系统,所述系统包括第一主机和第二主机,其特征在于,
所述第一主机包括管理模块,所述管理模块包括资源获取模块和任务分配模块;
所述第一主机和第二主机各自包括工作模块;
其中,所述资源获取模块被配置成根据Cube基本信息获取Cube信息,以及根据第一主机和第二主机的基本资源信息获取第一主机和第二主机的资源信息,
所述任务分配模块被配置成基于所述Cube信息以及所述第一主机和第二主机的资源信息将Cube生成任务分配给所述第一主机或者第二主机,
所述工作模块用于生成Cube。
2.如权利要求1所述的系统,其特征在于,所述第二主机包括备份管理模块,所述备份管理模块被配置成在异常状态下代替管理模块。
3.如权利要求1所述的系统,其特征在于,所述系统还包括第一存储器,所述第一存储器是公共存储器,用于存储生成的Cube文件,所述第一存储器设置在所述第一主机或者第二主机中。
4.如权利要求3所述的系统,其特征在于,所述系统还包括第二存储器,所述第二存储器是公共存储器,用于存储未生成的Cube文件,所述第二存储器设置在所述第一主机或者第二主机中。
5.如权利要求1所述的系统,其特征在于,所述基本Cube信息包括Cube的分区模式、生成周期,数据周期、名称、生成该Cube的时间估算,最小CPU使用估算中的一个或多个。
6.如权利要求1所述的系统,其特征在于,所述第一主机和第二主机的基本资源信息包括CPU资源、内存资源、磁盘I/O、网路I/O中的一个或多个。
7.如权利要求1所述的系统,其特征在于,所述管理模块进一步包括日志回收模块,用于把分散在不同主机上的任务日志回收,进行统一管理。
8.一种基于数据仓库生成多维分析Cube的方法,其特征在于,所述方法包括以下步骤:
在第一主机中设置管理模块,所述管理模块包括资源获取模块和任务分配模块;
在第一主机和第二主机中设置工作模块;
利用资源获取模块根据Cube基本信息获取Cube信息。
利用资源获取模块根据所述第一主机和第二主机的基本资源信息获取所述第一主机和第二主机的资源信息。
利用任务分配模块基于所述Cube信息以及所述第一主机和第二主机的资源信息分配Cube生成任务并将该任务发送至所述第一或第二主机。
利用工作模块生成Cube。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010619388.5A CN102541656B (zh) | 2010-12-31 | 2010-12-31 | 生成多维分析Cube的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010619388.5A CN102541656B (zh) | 2010-12-31 | 2010-12-31 | 生成多维分析Cube的方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102541656A true CN102541656A (zh) | 2012-07-04 |
CN102541656B CN102541656B (zh) | 2014-04-16 |
Family
ID=46348612
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010619388.5A Active CN102541656B (zh) | 2010-12-31 | 2010-12-31 | 生成多维分析Cube的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102541656B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108196959A (zh) * | 2018-02-07 | 2018-06-22 | 聚好看科技股份有限公司 | Etl系统的资源管理方法及装置 |
CN112632043A (zh) * | 2021-01-26 | 2021-04-09 | 浙江争游网络科技有限公司 | 一种数据仓库优化方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030061260A1 (en) * | 2001-09-25 | 2003-03-27 | Timesys Corporation | Resource reservation and priority management |
JP2006244457A (ja) * | 2005-02-01 | 2006-09-14 | Seiko Epson Corp | リソース管理システムおよびリソース管理プログラム、並びにリソース管理方法 |
CN101183368A (zh) * | 2007-12-06 | 2008-05-21 | 华南理工大学 | 联机分析处理中分布式计算及查询海量数据的方法和系统 |
CN101452485A (zh) * | 2008-12-31 | 2009-06-10 | 中国建设银行股份有限公司 | 一种基于关系数据库生成多维立方体的方法及装置 |
-
2010
- 2010-12-31 CN CN201010619388.5A patent/CN102541656B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030061260A1 (en) * | 2001-09-25 | 2003-03-27 | Timesys Corporation | Resource reservation and priority management |
JP2006244457A (ja) * | 2005-02-01 | 2006-09-14 | Seiko Epson Corp | リソース管理システムおよびリソース管理プログラム、並びにリソース管理方法 |
CN101183368A (zh) * | 2007-12-06 | 2008-05-21 | 华南理工大学 | 联机分析处理中分布式计算及查询海量数据的方法和系统 |
CN101452485A (zh) * | 2008-12-31 | 2009-06-10 | 中国建设银行股份有限公司 | 一种基于关系数据库生成多维立方体的方法及装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108196959A (zh) * | 2018-02-07 | 2018-06-22 | 聚好看科技股份有限公司 | Etl系统的资源管理方法及装置 |
CN108196959B (zh) * | 2018-02-07 | 2021-06-01 | 聚好看科技股份有限公司 | Etl系统的资源管理方法及装置 |
CN112632043A (zh) * | 2021-01-26 | 2021-04-09 | 浙江争游网络科技有限公司 | 一种数据仓库优化方法和装置 |
CN112632043B (zh) * | 2021-01-26 | 2021-08-17 | 浙江争游网络科技有限公司 | 一种数据仓库优化方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN102541656B (zh) | 2014-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104965850B (zh) | 一种基于开源技术的数据库高可用实现方法 | |
EP3180695B1 (en) | Systems and methods for auto-scaling a big data system | |
CN105005570B (zh) | 基于云计算的海量智能用电数据挖掘方法及装置 | |
US9794135B2 (en) | Managed service for acquisition, storage and consumption of large-scale data streams | |
US9276959B2 (en) | Client-configurable security options for data streams | |
CN102265277B (zh) | 数据存储系统的操作方法和装置 | |
CN104050042B (zh) | Etl作业的资源分配方法及装置 | |
CN109656911A (zh) | 分布式并行处理数据库系统及其数据处理方法 | |
US20140358977A1 (en) | Management of Intermediate Data Spills during the Shuffle Phase of a Map-Reduce Job | |
US9384200B1 (en) | Parallelizing backup and restore for network-attached storage | |
KR20140122240A (ko) | 확장 가능한 환경에서의 파티션 관리 기법 | |
CN103905537A (zh) | 分布式环境下管理工业实时数据存储的系统 | |
EP3069275A1 (en) | Data stream ingestion and persistence techniques | |
CN101694626A (zh) | 脚本执行系统及方法 | |
KR20140119090A (ko) | 확장 가능한 환경에서의 동적 로드 밸런싱 기법 | |
CN101980207B (zh) | 一种数据库访问的实现方法和系统 | |
CN113553313B (zh) | 一种数据迁移方法及系统、存储介质、电子设备 | |
US20080172668A1 (en) | Profile-based cpu/core affinity | |
US10810054B1 (en) | Capacity balancing for data storage system | |
CN111274223A (zh) | 一种一键部署大数据和深度学习容器云平台及其构建方法 | |
JP2021026659A (ja) | ストレージシステム及びリソース割当て制御方法 | |
KR101765725B1 (ko) | 대용량 방송용 빅데이터 분산 병렬처리를 위한 동적 디바이스 연결 시스템 및 방법 | |
KR20190061247A (ko) | 빅데이터 처리 플랫폼의 실시간 자원 사용률 모니터링 시스템 | |
CN102541656B (zh) | 生成多维分析Cube的方法和系统 | |
CN107528871A (zh) | 存储系统中的数据分析 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |