CN102819616B - 云端线上即时多维度分析系统与方法 - Google Patents

云端线上即时多维度分析系统与方法 Download PDF

Info

Publication number
CN102819616B
CN102819616B CN201210325232.5A CN201210325232A CN102819616B CN 102819616 B CN102819616 B CN 102819616B CN 201210325232 A CN201210325232 A CN 201210325232A CN 102819616 B CN102819616 B CN 102819616B
Authority
CN
China
Prior art keywords
clouds
dimension
dimensional analysis
multi dimensional
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210325232.5A
Other languages
English (en)
Other versions
CN102819616A (zh
Inventor
林志鸿
杨德邵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chunghwa Telecom Co Ltd
Original Assignee
Chunghwa Telecom Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chunghwa Telecom Co Ltd filed Critical Chunghwa Telecom Co Ltd
Publication of CN102819616A publication Critical patent/CN102819616A/zh
Application granted granted Critical
Publication of CN102819616B publication Critical patent/CN102819616B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

一种应用于云端线上分析作业资料处理阶段的自动化技术,通过指令产生器依据中继资料生成多层次汇总的指令及程序,自动完成预先汇总作业,无须专业人员介入。本发明亦揭露一种于云端线上分析作业中实作枢纽分析表的方法,提供直观、视觉化、所见即所得、即时互动的操作方式。本发明所有作业皆在云端平台内,利用现有云端运算技术来处理,将线上分析作业与云端技术结合,将使系统具有线上动态增减资源的扩充性,通过平行计算而大幅缩短处理时间,并能达成传统技术所无法做到的超大维度分析,或非结构性的资料分析。

Description

云端线上即时多维度分析系统与方法
技术领域
本发明属于云端运算(Cloud Computing)领域,特别涉及云端线上即时多维度分析系统与方法。
背景技术
线上分析作业(Online Analytical Process,OLAP)技术,主要与线上交易作业(Online Transaction Process,OLTP)作区别。线上交易处理即为一般的资料新增删除修改查询作业,而线上分析作业则着重于查询与分析,主要态样为提供资料的各面向及多维度即时分析,近年来已是商业智慧技术基础且重要的一环。
随着云端运算技术的蓬勃发展,云端服务或系统对资料处理能力及储存容量几乎可无限制动态扩充,伴随而来的是待分析的资料动辄为规模在数百Terabytes以上的海量等级,远远超过传统OLAP伺服器所能处理的范围,如何将商业智慧技术推展应用于云端运算平台成为一大课题。将线上分析作业与云端技术结合,将使系统具有线上动态增减资源的扩充性,通过平行计算而大幅缩短处理时间,并能达成传统技术所无法做到的超大维度分析,或非结构性的资料分析。目前在云端运算平台所发展出的线上分析技术较成熟的有Pig OLAPsketch和Zohmg等。
Pig OLAP sketch的作法是将资料汇整处理,使资料量大幅减低至传统OLAP伺服器能处理的范围,然后汇出至云端平台外部,由外部的传统OLAP伺服器来提供即时分析显示的功效。此作法固然可以达到对云内资料作线上分析的目的,但平添了将资料汇出至云外并汇入传统OLAP伺服器的动作,增加作业复杂度。此外,将资料汇出至云外后将无法利用云端架构之可扩充性与平行计算等优点,能处理的资料量会受限于该OLAP伺服器的计算能力与储存空间,亦无法达成超大维度与非结构化资料的分析。
而Zohmg则是所有作业皆在云端平台内,利用现有云端运算技术来处理,为与本发明最接近的先前技术,故本章节的探讨主要以此先前技术作为比较对象。
传统线上分析作业为提高查询阶段的效率而采用一种预先处理的技巧,将资料依各层面分析的汇总值预先计算好,储存成多维结构(MOLAP)或关连结构(ROLAP)或混合结构(HOLAP)的方块(Cube),在查询阶段因只需依索引取得预先汇总结果而缩短反应时间,满足线上分析即时性的需求。多维结构多半储存为档案,通过索引档案位移量直接存取来加快速度,关联结构则储存于关联式资料库,利用其索引的能力来快速取值。然而在云端运算架构中皆无这些技巧可用,因而须另寻其它的方法来取代。
为提供云端即时线上分析,先前技术是在Hadoop(Apache软件基金会所研发的开放源码并行运算编程工具和分布式档案系统)此一云端运算平台下,利用HBase此一云端快速索引储存机制,储存预先汇总结果来达成。熟悉该项技艺者受限于现有较成熟的可用技术之下,一般也会推导得出这种设计,然而,完整线上分析作业功能在云端实作时尚有许多困难须突破,并非可轻易达成者。目前云端运算平台的限制在于快速索引储存机制单纯只有索引存取资料的功能,预先汇总所需之关联(JOIN)、群组(GROUP BY)、计数(COUNT)、相异计数(DISTINCTCOUNT)、加总(SUM)、最大值(MAX)、最小值(MIN)、平均(AVG)等运算须另搭配云端计算作业,例如具有MapReduce逻辑的平行处理过程,才能完成。先前技术的作法是在资料处理阶段产生一套程式专案,由程式设计师修改撰写其中部分MapReduce程式码后,交由系统执行预先汇总作业。此方式使得资料处理过程中须有程式专业人员介入才能达成,使用上困难繁杂,亦容易出错。此外,先前技术在线上分析作业中,是发展出一套http API介面指令,由专业人员下达指令查询,取得回传的JSON(JavaScript Object Notation,JavaScript物件表示法)格式资料,解析其中的数值。此方式同样须倚赖专业人员,并非适合一般使用者操作的介面。
综上所述,先前技术需仰赖专业人员为每个资料处理工作撰写平行计算程式码,并为每次查询下达指令分析回传结果,既困难繁杂又容易出错,实非一良善之设计,而亟待加以改良。
发明内容
本发明云端线上即时多维度分析系统与方法的目的,在于揭露一种应用于云端线上分析作业资料处理阶段的自动化技术,通过指令产生器依据中继资料生成多层次汇总之指令及程序,自动完成预先汇总作业,无须专业人员介入。
本发明之次一目的在揭露一种于云端线上分析作业中实作枢纽分析表的方法,提供直观、视觉化、所见即所得、即时互动的操作方式。
达成上述发明目的的云端线上即时多维度分析系统与方法,该系统包含一个云端平行计算平台、复数个原始维度表、一个以上的原始事实表,以及一到多个枢纽分析介面;该云端平行计算平台具有一个云端储存及计算模组、一个云端快速存取模组、一到多个指令产生器、复数个中继资料以及一个即时多维度分析模组;该原始维度表及该原始事实表通过上载传输介面上载至该云端平行计算平台后储存于该云端储存及计算模组;该中继资料具有该上载储存资料的内容及关联资讯;该指令产生器依据该中继资料产生指令,驱动该云端储存及计算模组预先分析该上载储存资料,计算多维度汇总后,将分析结果及相关资料转换储存于该云端快速存取模组以供即时呈现;该枢纽分析介面通过传输介面与该即时多维度分析模组连接,且该即时多维度分析模组通过传输介面与该云端快速存取模组连接以即时取得该分析结果及该相关资料;其特征为该指令产生器是自动产生该多维度汇总及该资料转换所需的指令,自动完成该汇总及该转换程序;以及使用者是透过该枢纽分析介面即时互动操作浏览枢纽分析结果。该方法包含上载原始维度表及原始事实表至云端储存及计算模组、设定中继资料、预先计算多维度分析结果储存于云端快速存取模组、转换维度及中继资料至云端快速存取模组、即时呈现线上枢纽分析结果等步骤。
本发明所揭露的云端线上即时多维度分析系统与方法具备下列优点:
1.本发明将线上分析作业与云端技术结合,使系统具有线上动态增减资源的扩充性,通过平行计算而大幅缩短处理时间,并能达成传统技术所无法做到的超大维度分析,或非结构性之资料分析。
2.本发明通过指令产生器依据中继资料生成多层次汇总的指令及程序,自动完成预先汇总作业,无须专业人员介入。
3.本发明以云端技术实作枢纽分析表,提供使用者直观、视觉化、所见即所得、即时互动的操作方式。
附图说明
图1为本发明云端线上即时多维度分析系统架构示意图。
图2为本发明云端线上即时多维度分析系统的指令产生器与中继资料细部分解图。
图3为本发明云端线上即时多维度分析方法的步骤图。
附图标记说明:
1、云端平行计算平台;11、云端储存及计算模组;12、云端快速存取模组;13、指令产生器;131、汇总指令产生器;132、维度表转换指令产生器;133、维度中继资料转换指令产生器;134、事实表中继资料转换指令产生器;14、中继资料;141、维度表中继资料;142、事实表中继资料;15、即时多维度分析模组;2、原始维度表;3、原始事实表;4、枢纽分析介面;1000、上载原始维度表及原始事实表至云端储存及计算模组;2000、设定中继资料;3000、预先计算多维度分析结果,储存于云端快速存取模组;4000、转换维度及中继资料至云端快速存取模组;5000、即时呈现线上枢纽分析结果。
具体实施方式
请参阅图1、图2及图3所示,图1为本发明云端线上即时多维度分析系统架构示意图;图2为本发明云端线上即时多维度分析系统的指令产生器与中继资料细部分解图;图3为本发明云端线上即时多维度分析方法之步骤图。其相关之实施方式说明于下:
图1揭露本发明云端线上即时多维度分析系统较佳实施例的架构。系统包含一个云端平行计算平台1,具有一个云端储存及计算模组11,一个云端快速存取模组12,一个到多个指令产生器13,复数个中继资料14以及一个即时多维度分析模组15;于该云端平行计算平台1之外,尚有复数个原始维度表2及一个以上待分析的原始事实表3,以及一到多个枢纽分析介面4。管理者将该原始维度表2及原始事实表3上载至该云端平行计算平台1时,是储存于该云端储存及计算模组11;且管理者设定的资料内容资讯以及资料间的关联资讯,是储存于该中继资料14中;该指令产生器13是依据该中继资料14产生指令,驱动该云端储存及计算模组11预先计算分析所储存的资料;该分析结果是储存于该云端快速存取模组12以供即时呈现;该中继资料14中,即时呈现所需的部分亦被转换储存至该云端快速存取模组12中;使用者是透过该枢纽分析介面4即时互动操作浏览枢纽分析结果;该枢纽分析介面4是与该即时多维度分析模组15连接,该即时多维度分析模组15与该云端快速存取模组12连接以即时取得并呈现多维度分析结果。
该云端平行计算平台1是一个提供海量级资料分散式运算与储存的环境,具容错能力、高可用性、高效能、弹性扩充等特性,熟悉该项技艺者可用Hadoop、Amazon EC2(亚马逊弹性云端运算)、中华电信HiCloud(提供让使用者可以租用云端电脑运行所需应用的服務)等平台达成。在该云端平台内,该云端储存及计算模组11管理所储存的海量资料,并提供类似SQL指令的查询语言与执行介面,管理者可用较高阶的语法描述所欲进行的计算,该模组会自动将其转换为MapReduce的工作交由系统执行。欲提供功能较完整的多维度分析,该高阶查询语言需能支援关联(JOIN)、群组(GROUP BY)、计数(COUNT)、相异计数(DISTINCTCOUNT)、加总(SUM)、最大值(MAX)、最小值(MIN)、平均(AVG)等计算,熟悉该项技艺者可用Hive(数据仓库工具)、Pig(开源分布式云端数据库系统)等套件来达成。此外,该云端快速存取模组12提供线上即时分析所需高速取得资料的能力,资料以特殊索引方式存入后,该模组可在毫秒之内通过索引键将资料取出,熟悉该项技艺者可采用以键-值(key-value)对应关系作为索引的BigTable(压缩的、高效能的、高可扩展性的Google文件系统)、HBase(分布式数据库管理系统列数据库)、Cassandra(开源分布式云端数据库系统)等套件来达成。
请参考图2本发明云端线上即时多维度分析系统飞指令产生器与中继资料细部分解图,进一步揭露该指令产生器13及该中继资料14之细部架构。该指令产生器13包含一到多个汇总指令产生器131、一到多个维度转换指令产生器132、一到多个维度中继资料转换指令产生器133以及一到多个事实表中继资料转换指令产生器134。该中继资料14包括一到多个维度表中继资料141及一到多个事实表中继资料142。该汇总指令产生器131是读入该维度表中继资料141及该事实表中继资料142后,据以产生所有可能分析面向的排列组合的汇总指令,交由该云端储存及计算模组11来平行计算,并将回传的汇总结果依特殊索引方式产生指令储存于该云端快速存取模组12。该维度表转换指令产生器132是读入该维度表中继资料141后,据以产生维度表查询指令,向该云端储存及计算模组11查询,并将回传的维度资料依特殊索引方式产生指令储存于该云端快速存取模组12。该维度中继资料转换指令产生器133是读入该维度表中继资料141后,产生指令将其依特殊索引方式转换储存于该云端快速存取模组12。该事实表中继资料转换指令产生器134是读入该事实表中继资料142后,产生指令将其依特殊索引方式转换储存于该云端快速存取模组12。
请参考图3本发明云端线上即时多维度分析方法的步骤图,进一步揭露在上述架构之下如何达成本发明云端线上即时多维度分析的功能。首先在步骤1000上载该原始维度表2及该原始事实表3至该云端储存及计算模组11。
该原始事实表3为待分析的资料,包含多笔纪录,每笔纪录具有一至多个可汇总的栏位及一至多个用以区分的栏位,可汇总的栏位经汇总后形成多维度分析中的量值(measure),用以区分的栏位则形成多维度分析中的维度(dimension)。举一范例,假设该原始事实表3之一为客户基本资料,具有以下栏位:
栏位名称栏位意义栏位型态多维度分析
customerID客户代码String  客户人数
gender性别Char(维度)
age年龄Integer最低年龄、最高年龄
city县市别String(维度)
salary年收入Integer平均年收入
industry行业别String(维度)
在多维度分析中是将其客户代码经相异计数(DISTINCT COUNT)计算汇总后得到客户人数之量值;年龄经最小值(MIN)及最大值(MAX)计算汇总后得到最低年龄、最高年龄之量值;年收入经平均(AVG)计算汇总后得到平均年收入之量值。而性别、县市别、行业别则分别形成三个维度,用于不同的分析面向。熟悉该项技艺者可任意将维度与量值排列组合来作多维度分析,例如在上例中可依不同性别分析客户的最低年龄、最高年龄,或依不同行业别分析客户的平均年收入,或依性别、县市别交叉分析其客户人数等。
该原始维度表2系列举各分析面向中可能出现代码值及其显示名称与展现顺序。上述范例中有性别、县市别、行业别等三个分析面向,假设其可能出现的值分别如下:
性别维度
代码值显示名称展现顺序
M男1
F女2
县市别维度
代码值显示名称展现顺序
TP  台北市  1
NT  新北市  2
TC  台中市  3
TN  台南市  4
KS  高雄市  5
OT  其它    6
行业别维度
代码值显示名称展现顺序
A农林渔牧业1
B矿业2
C制造业3
D营造业4
E服务业5
O其它6
熟悉该项技艺者可透过FTP(文件传输协议)、SFTP(SSH文件传输协议)、HTTP(超文本传输协议)、HTTPS(超文本传输安全协议)、odbc(开放数据库互连)、jdbc(Java数据库联机)等传输方法将上述原始资料上载至该云端平行计算平台1的主机后,再以该云端储存及计算模组11所提供之应用程式介面(API)、指令行命令(CLI)、图形化介面(GUI)等将资料汇入该模组,凡此种种方法的组合皆应视为本步骤之等效实施。值得一提的是若上述该原始资料原本即储存在该云端平行计算平台1,则本步骤可以省略,或只需做后半部汇入的动作。
接着于步骤2000中设定中继资料。此步骤主要将维度表以及事实表的资料格式、相互关系记录于中继资料中,作为后续步骤的输入,帮助自动化处理。上述范例中,该三组原始维度表2对应的中继资料内容如下:
维度代码  显示名称 维
表 代码栏位 名称栏位 序栏位
g性别dim_gender gender_code gender_name gender_order
c县市别dim_city city_code city_name city_order
i行业别dim_industry code name sorting
由于不同的多维度分析可能会有相同的分析面向,熟悉该项技艺者可建立共用的维度中继资料。
上述范例中,该原始事实表3对应的中继资料内容如下:
分析报表名称客户分析
事实表来源customer
量值量值显示名称汇总计算方法及栏位
客户人数COUNT(DISTINCT customerID)
最低年龄MIN(age)
最高年龄MAX(age)
平均年收入AVG(salary)
维度维度栏位对应维度代码
gender  g
city  c
industry i
熟悉该项技艺者可提供图形化介面(GUI)引导使用者标示上述资料的性质,不需要具备云端专业知识的人员介入,仅需对资料格式有所了解,甚至高阶使用者本身即可胜任。
然后于步骤3000中预先计算多维度分析结果,储存于该云端快速存取模组11。此步骤由该汇总指令产生器131读入该维度表中继资料141及该事实表中继资料142后,对所有可能分析面向的排列组合产生汇总指令,交由该云端储存及计算模组11执行,并将回传的汇总结果依特殊设计的索引方式储存于该云端快速存取模组11中。
上述范例中,所有可能分析面向之排列组合计有:依县市别、依性别、依行业别、县市别与性别交叉、性别与行业别交叉、县市别与性别与行业别交叉、以及不区分全部加总等,以维度代码分别表示为c,g,i,cg,ci,gi,cgi,ALL。熟习该项技艺者可用适当的程式语言如Python、C#、Perl、Java、C、C++等来撰写该汇总指令产生器131,其中上述排列组合可用二进位列举来产生,如本范例由三位数之二进位列举000、001、010、011、100、101、110、111,令三个位元分别代表分析面向是否包含c、g、i,位元为1代表包含对应的分析面向,则可产生ALL、i、g、gi、c、ci、cg、cgi之维度代码排列组合,熟悉该项技艺者在处理上述代码组合时可依字母顺序排序以维持一致性。
该汇总指令产生器131依据该维度中继资料141及该事实表中继资料142可产生所有维度组合之汇总指令,例如依县市别与性别与行业别交叉分析之汇总指令为:
SELECT
CONCAT(c.city_code,’,’,g.gender_code,’,’,i.code),
COUNT(DISTINCT f.CustomerID),
MIN(f.age),
MAX(f.age),
AVG(f.salary)
FROM
customer f
LEFT OUTER JOIN dim_city c ON f.city=j.code
LEFT OUTER JOIN dim_gender g ON f.gender=g.gender_code
LEFT OUTER JOIN dim_industry i ON f.indus try=i.code
GROUP BY
c.city_code,g.gender_code,i.code;
上述汇总指令交由该云端储存及计算模组11执行后,将所得汇总结果依键-值(key-value)关系索引储存于该云端快速存取模组12以供后续步骤快速取出,储存时以维度代码组合为列索引键,维度值之组合加上量值顺序为行索引键。举例说明,假设上例中其中一笔传回之汇总结果「TP,M,E 6573752855782596」,代表台北市男性服务业的客户人数为657375人,年龄范围在28岁到55岁,平均年薪为782596元,其指令为:
put ‘customer_analysis’,‘cgi’,‘m:TP,M,E:1’,‘657375’
put‘customer_analysis’,‘cgi’,‘m:TP,M,E:2’,‘28’
put‘customer_ana lysis’,‘cgi’,‘m:TP,M,E:3’,‘55’
put‘customer_analysis’,‘cgi’,‘m:TP,M,E:4’,‘782596’
其中customer_analysis为对应此事实表汇总之表格名称,可由使用者指定或系统自动产生。产生指令的规则,即存放维度代码组合为cgi、维度值组合为TP,M,E的第1个量值时,其列索引键为cgi,行索引键为m:TP,M,E:1,其余情况皆以此类推。
该维度表中继资料141及该事实表中继资料具备产生上述汇总指令及储存指令所需的完整资讯。熟悉该项技艺者据此撰写程式将中继资料套进指令中,并处理资料的输入与输出,即可完成该汇总指令指令产生器131。
步骤4000转换维度及中继资料至云端快速存取模组可与上述步骤3000同时进行。需转换储存的资料包括维度表、维度中继资料、及事实表中继资料等,分别由该维度表转换指令产生器132、该维度中继资料转换指令产生器133及该事实表中继资料转换指令产生器134完成。
上述范例中,以县市别维度为例,该维度表转换指令产生器132系依据该维度表中继资料141产生以下维度表查询指令:
select city_code,city_name from dim_city order by city_order;
向该云端储存及计算模组11查询,并将回传之维度资料依键-值(key-value)关系索引储存于该云端快速存取模组12以供后续步骤快速取出,储存时以维度代码为列索引键,以特定关键字如first作为行索引键索引第一个维度值,接着以维度值配合另一特定关键字如next作为行索引键索引下一个维度值,直到整个维度表皆能索引到为止;每个维度值以又另一特定关键字如name作为行索引键索引该维度值之显示名称。以上述县市别维度为例其指令为:
put ‘dimensions’,‘c’,‘d:first’,‘TP’
put ‘dimensions’,‘c’,‘d:name:TP’,‘台北市’
put ‘dimensions’,‘c’,‘d:next:TP’,‘NT’
put ‘dimensions’,‘c’,‘d:name:NT’,‘新北市’
put ‘dimensions’,‘c’,‘d:next:NT’,‘TC’
put ‘dimensions’,‘c’,‘d:name:TC’,‘台中市’
put ‘dimensions’,‘c’,‘d:next:TC’,‘TN’
put ‘dimensions’,‘c’,‘d:name:TN’,‘台南市’
put ‘dimensions’,‘c’,‘d:next:TN’,‘KS’
put ‘dimensions’,‘c’,‘d:name:KS’,‘高雄市’
put ‘dimensions’,‘c’,‘d:next:KS’,‘OT’
put ‘dimensions’,‘c’,‘d:name:OT’,‘其它’
其中dimensions为系统储存维度资讯的表格名称。产生指令的规则,即以维度代码c为列索引键,利用关键字first索引第一个维度值,并以各维度值及关键字next索引下一个维度值,并以各维度值及关键字name索引该维度值之显示名称。熟悉该项技艺者据此撰写程式将中继资料套进指令中,并处理资料的输入与输出,即可完成该维度表转换指令产生器132。
上述范例中,该维度中继资料转换指令产生器133系依据该维度表中继资料141产生以下指令,将其依键-值(key-value)关系索引储存于该云端快速存取模组12:
put ‘dimensions’,‘g’,‘d:dimname’,‘性别’
put ‘dimensions’,‘c’,‘d:dimname’,‘县市别’
put ‘dimensions’,‘i’,‘d:dimname’,‘行业别’
产生指令的规则,即以维度代码为列索引,配合关键字dimname来索引其维度名称。熟悉该项技艺者据此撰写程式将中继资料套进指令中,并处理资料的输入与输出,即可完成该维度中继资料转换指令产生器133。
上述范例中,该事实表中继资料转换指令产生器134系依据该事实表中继资料142产生以下指令,将其依键-值(key-value)关系索引储存于该云端快速存取模组12:
put ‘customer_analysis’,‘cube’,‘m:cubename’,‘客户分析’
put ‘customer_analysis’,‘cube’,‘m:dimensions’,‘cgi’
put ‘customer_analysis’,‘measures’,‘m:count’,‘4’
put ‘customer_analysis’,‘measures’,‘m:name:1’,‘客户人数’
put ‘customer_analysis’,‘measures’,‘m:name:2’,‘最低年龄’
put ‘customer_analysis’,‘measures’,‘m:name:3’,‘最高年龄’
put ‘customer_analysis’,‘measures’,‘m:name:4’,‘平均年收入’
产生指令的规则,即以关键字cube为列索引,配合关键字cubename来索引分析报表名称,及关键字dimensions来索引所有维度代码。此外并以关键字measures为另一列索引,配合关键字count来索引共有多少个量值,及关键字name配合量值序号来索引该量值之名称。熟悉该项技艺者据此撰写程式将中继资料套进指令中,并处理资料之输入与输出,即可完成该事实表中继资料转换指令产生器134。
最后在步骤5000中即时呈现线上枢纽分析结果。使用者透过该枢纽分析介面4动态改变维度、量值来安排呈现的方式时,该枢纽分析介面4是通过该即时多维度分析模组15向该云端快速存取模组12动态取得分析报表中对应的资讯来即时呈现。动态枢纽分析报表中通常须显示分析报表名称,并将分析报表所有可分析维度列出让使用者动态改变;使用者操作设定欲分析的面向并安排其行、列位置后,动态枢纽分析表显示目前交叉分析名称,并于行、列标头各显示指定维度所有项目名称,以及于资料区中显示量值名称,及特定维度交叉条件下对应量值之汇总值。该即时多维度分析模组15向该云端快速存取模组12动态取得上述资讯的方法,分别说明如下。
取得分析报表名称的方法,即如上所述规则,以关键字cube为列索引,配合关键字cubename的索引方式取出。上述范利取得分析报表名称之指令为:
get ‘customer_analysis’,‘cube’,‘m:cubename’
取得分析报表所有可分析维度的方法,即如上所述规则,以关键字cube为列索引,配合关键字dimensions之索引方式取出。上述范利取得分析报表所有可分析维度之指令为:
get ‘customer_analysis’,‘cube’,‘m:dimensions’
显示目前交叉分析名称的方法,即如上所述规则,以维度代码为列索引,配合关键字dimname来索引其维度名称,将目前交叉分析之各维度名称取出以显示其组合。以上述范例的县市别为例,维度代码为c,取得维度名称的指令为:
get ‘dimensions’,‘c’,‘d:dimname’
取得维度所有项目值及名称的方法,即如上所述规则,以维度代码为列索引键,以关键字first作为行索引键索引第一个维度值,接着以维度值配合另一关键字next作为行索引键索引下一个维度值,直到整个维度表皆能索引到为止;每个维度值以又另一关键字name作为行索引键索引该维度值之显示名称。以上述范例之县市别别为例,取得维度所有项目值及名称的指令为:
get  ‘dimensions’,‘c’,‘d:first’取得「TP」
get  ‘dimensions’,‘c’,‘d:name:TP’取得「台北市」
get  ‘dimensions’,‘c’,‘d:next:TP’取得「NT」
get  ‘dimensions’,‘c’,‘d:name:NT’取得「新北市」
get  ‘dimensions’,‘c’,‘d:next:NT’取得「TC」
get  ‘dimensions’,‘c’,‘d:name:TC’取得「台中市」
get  ‘dimensions’,‘c’,‘d:next:TC’取得「TN」
get  ‘dimensions’,‘c’,‘d:name:TN’取得「台南市」
get  ‘dimensions’,‘c’,‘d:next:TN’取得「KS」
get  ‘dimensions’,‘c’,‘d:name:KS’取得「高雄市」
get  ‘dimensions’,‘c’,‘d:next:KS’取得「OT」
get  ‘dimensions’,‘c’,‘d:name:OT’取得「其它」
显示量值名称的方法,首先取得量值个数,再依序取得各量值名称。取得量值个数的方法,即如上所述规则,以关键字measures为一列索引,配合关键字count来索引共有多少个量值。上述范例中取得量值个数的指令为:
get  ‘customer_analysis’,‘measures’,‘m:count’
接着依序取得各量值名称,即如上所述规则,以关键字measures为列索引,并以关键字name配合量值序号来索引该量值之名称。上述范例中依序取得各量值名称的指令为:
get  ‘customer_analysis’,‘measures’,‘m:name:1’
get  ‘customer_analysis’,‘measures’,‘m:name:2’
get  ‘customer_analysis’,‘measures’,‘m:name:3’
get  ‘customer_analysis’,‘measures’,‘m:name:4’
取得特定维度交叉条件下对应量值之汇总值的方法,即如上所述规则,以维度代码组合为列索引键,维度值之组合加上量值顺序为行索引键。例如在县市别、性别交叉分析下,取得台中市男性的平均年收入,其指令为:
get  ‘customer_analysis’,‘cg’,‘m:TC,M:4’
其中cg为县市别、性别交叉分析之索引键,TC,M为台中市男性之索引键,而4为平均年收入之索引键。
该枢纽分析介面4之多维度分析操作方式,可包括向下钻研(Drill Down)、向上小计(Roll Up)、切片(Slice)、切块(Dice)、跨越钻研(Drill Across)、穿透分析(Drill Through)等,熟习该项技艺者皆可撰写程式依据上述存取方法来达成。
上列详细说明乃针对本发明之一可行实施例进行具体说明,惟该实施例并非用以限制本发明之专利范围,凡未脱离本发明技艺精神所为之等效实施或变更,均应包含于本案之专利范围中。

Claims (14)

1.一种云端线上即时多维度分析系统,包含:
云端平行计算平台,其包含云端储存及计算模组、云端快速存取模组、指令产生器、中继资料以及即时多维度分析模组;
原始维度表及原始事实表,是通过上载传输介面上载至该云端平行计算平台后储存于该云端储存及计算模组;以及
枢纽分析介面,该枢纽分析介面通过传输介面与该即时多维度分析模组连接,且该即时多维度分析模组通过传输介面与该云端快速存取模组连接以即时取得分析结果及相关资料;
该中继资料具有上载储存资料的内容及关联资讯;该指令产生器依据该中继资料产生指令,驱动该云端储存及计算模组预先分析该上载储存资料,计算多维度汇总后,将分析结果及相关资料转换储存于该云端快速存取模组以供即时呈现;该多维度汇总及该资料转换所需的指令是自动产生,并提供使用者透过该枢纽分析介面即时互动操作浏览枢纽分析结果;
所述中继资料包含下列一项或一项以上:各维度表储存位置、各维度显示名称、各维度项目显示名称、各事实表储存位置、各事实表可分析维度、各事实表可汇总量值、各量值显示名称、各量值汇总方法。
2.如权利要求1所述的云端线上即时多维度分析系统,其特征在于,所述云端平行计算平台是包含:Hadoop、Amazon EC2以及中华电信HiCloud。
3.如权利要求1所述的云端线上即时多维度分析系统,其特征在于,所述云端储存及计算模组提供高阶查询语言与执行介面,并支援该多维度汇总所需的运算。
4.如权利要求3所述的云端线上即时多维度分析系统,其特征在于,高阶查询语言所支援的所需运算包含:关联、群组、计数、相异计数、加总、最大值、最小值、平均。
5.如权利要求4所述的云端线上即时多维度分析系统,其特征在于,所述云端储存及计算模组为:Hive或Pig。
6.如权利要求1所述的云端线上即时多维度分析系统,其特征在于,所述云端快速存取模组为下列之一:BigTable、HBase或Cassandra。
7.如权利要求1所述的云端线上即时多维度分析系统,其特征在于,所述该上载传输介面为下列之一:FTP、SFTP、HTTP、HTTPS、odbc或jdbc。
8.如权利要求1所述的云端线上即时多维度分析系统,其特征在于,所述枢纽分析介面操作方式包含下列之一项或一项以上:动态改变维度或量值之安排呈现方式、向下钻研、向上小计、切片、切块、跨越钻研、穿透分析。
9.一种云端线上即时多维度分析方法,包含以下步骤:
(1)上载原始维度表及原始事实表至云端储存及计算模组;
(2)设定中继资料;
(3)预先计算多维度分析结果储存于云端快速存取模组、转换维度及该中继资料至云端快速存取模组、即时呈现线上枢纽分析结果;
所述中继资料包含下列一项或一项以上:各维度表储存位置、各维度显示名称、各维度项目显示名称、各事实表储存位置、各事实表可分析维度、各事实表可汇总量值、各量值显示名称、各量值汇总方法。
10.如权利要求9所述的云端线上即时多维度分析方法,其特征在于,所述原始维度表及原始事实表原本即储存在云端平行计算平台,而省略该上载原始维度表及原始事实表至云端储存及计算模组的步骤。
11.如权利要求9或10所述的云端线上即时多维度分析方法,其特征在于,所述预先计算多维度分析结果步骤,是由一到多个指令产生器依据该中继资料产生指令自动执行。
12.如权利要求11所述的云端线上即时多维度分析方法,其特征在于,所述指令产生器依据该中继资料产生指令时,是以二进位列举来产生所有可能分析面向的排列组合。
13.如权利要求9或10所述的云端线上即时多维度分析方法,其特征在于,所述预先计算多维度分析结果储存于云端快速存取模组步骤,是将汇总结果依键-值关系索引储存,且以维度代码组合为列索引键,维度值之组合加上量值顺序为行索引键。
14.如权利要求9或10所述的云端线上即时多维度分析方法,其特征在于,所述转换维度至云端快速存取模组步骤,是将维度表依键-值关系索引储存于云端快速存取模组,且以维度代码为列索引键,一特定关键字用以索引第一个维度值,以各维度值配合另一特定关键字索引下一个维度值,并以各维度值配合又另一特定关键字索引该维度值之显示名称。
CN201210325232.5A 2011-12-28 2012-09-05 云端线上即时多维度分析系统与方法 Expired - Fee Related CN102819616B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW100149085A TWI436222B (zh) 2011-12-28 2011-12-28 Real - time multi - dimensional analysis system and method on cloud
TW100149085 2011-12-28

Publications (2)

Publication Number Publication Date
CN102819616A CN102819616A (zh) 2012-12-12
CN102819616B true CN102819616B (zh) 2015-09-16

Family

ID=47303727

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210325232.5A Expired - Fee Related CN102819616B (zh) 2011-12-28 2012-09-05 云端线上即时多维度分析系统与方法

Country Status (2)

Country Link
CN (1) CN102819616B (zh)
TW (1) TWI436222B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10460052B2 (en) * 2016-12-22 2019-10-29 Sap Se Parallel model creation in cloud platform
CN108984574B (zh) 2017-06-05 2021-01-05 北京嘀嘀无限科技发展有限公司 数据处理方法及装置
CN109151000A (zh) * 2018-08-01 2019-01-04 长沙拓扑陆川新材料科技有限公司 一种云平台并行通信的系统及方法
CN110769037B (zh) * 2019-09-28 2021-12-07 西南电子技术研究所(中国电子科技集团公司第十研究所) 嵌入式边缘计算平台资源配置方法
US11960497B2 (en) * 2020-03-05 2024-04-16 Guangzhou Quick Decision Information Technology Co., Ltd. Method and system for automatically generating data determining result

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101008953A (zh) * 2007-01-30 2007-08-01 金蝶软件(中国)有限公司 联机分析处理系统中处理非空数据的方法和装置
CN102238025A (zh) * 2010-04-30 2011-11-09 英业达股份有限公司 使用在线分析处理技术获取统计数据的系统及其方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101089846A (zh) * 2006-06-16 2007-12-19 国际商业机器公司 数据分析方法、设备以及数据分析辅助方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101008953A (zh) * 2007-01-30 2007-08-01 金蝶软件(中国)有限公司 联机分析处理系统中处理非空数据的方法和装置
CN102238025A (zh) * 2010-04-30 2011-11-09 英业达股份有限公司 使用在线分析处理技术获取统计数据的系统及其方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《面向商业OLAP 的并行数据抽取接口设计》;冯永, 吴开贵, 熊忠阳, 吴中福;《重庆大学学报(自然科学版)》;20041231;第27卷(第12期);第116-119页,第123页 *

Also Published As

Publication number Publication date
TWI436222B (zh) 2014-05-01
CN102819616A (zh) 2012-12-12
TW201327199A (zh) 2013-07-01

Similar Documents

Publication Publication Date Title
US11086751B2 (en) Intelligent metadata management and data lineage tracing
US11681694B2 (en) Systems and methods for grouping and enriching data items accessed from one or more databases for presentation in a user interface
US11941016B2 (en) Using specified performance attributes to configure machine learning pipepline stages for an ETL job
Karnitis et al. Migration of relational database to document-oriented database: Structure denormalization and data transformation
US11847040B2 (en) Systems and methods for detecting data alteration from source to target
Phaneendra et al. Big Data-solutions for RDBMS problems-A survey
US9043344B1 (en) Data mining and model generation using an in-database analytic flow generator
JP2016532199A (ja) 選択性用データビットインターリーブによるリレーショナルデータベースのマルチカラムインデックスの生成
CN102819616B (zh) 云端线上即时多维度分析系统与方法
KR102565455B1 (ko) 신속한 스크리닝을 위한 도메인-특정 언어 해석기 및 대화형 시각적 인터페이스
CN103761111A (zh) 一种基于bpel语言构建数据密集型工作流引擎的方法及其系统
CN111444256A (zh) 一种数据可视化的实现方法和装置
US20160162521A1 (en) Systems and Methods for Data Ingest in Interest-Driven Business Intelligence Systems
EP3259687A1 (en) Integrated intermediary computing device for data analytic enhancement
CN116089495A (zh) 一种基于大数据的自助分析平台
Nadipalli Effective business intelligence with QuickSight
CN113722564A (zh) 基于空间图卷积能源物资供应链的可视化方法及装置
Delchev et al. Big Data Analysis Architecture
CN112231380A (zh) 采集数据的综合处理方法、系统、存储介质及电子设备
Hunker et al. A systematic classification of database solutions for data mining to support tasks in supply chains
CN116303336A (zh) 一种基于数据编织架构的数据管理方法
CN105528360B (zh) 以服务导向架构的走动式指令重组的设计实现于实时商业智能系统
US20130268855A1 (en) Examining an execution of a business process
Dunlop Beginning Big Data with Power BI and Excel 2013: Big Data Processing and Analysis Using PowerBI in Excel 2013
Büscher et al. VPI-FP: an integrative information system for factory planning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150916

Termination date: 20160905