CN108829707A - 跨业务域的大数据智能分析系统及方法 - Google Patents

跨业务域的大数据智能分析系统及方法 Download PDF

Info

Publication number
CN108829707A
CN108829707A CN201810410708.2A CN201810410708A CN108829707A CN 108829707 A CN108829707 A CN 108829707A CN 201810410708 A CN201810410708 A CN 201810410708A CN 108829707 A CN108829707 A CN 108829707A
Authority
CN
China
Prior art keywords
data
dimension
combination
metadata
cube
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810410708.2A
Other languages
English (en)
Inventor
李继红
陈建
秦俊宁
王志强
江樱
汤亿则
王红凯
卢文达
邱菊
沈骥
林成龙
卜京
孙殿涛
林晓静
许峥
戴东省
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Information and Telecommunication Co Ltd
Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
State Grid Information and Telecommunication Co Ltd
Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Information and Telecommunication Co Ltd, Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd filed Critical State Grid Information and Telecommunication Co Ltd
Priority to CN201810410708.2A priority Critical patent/CN108829707A/zh
Publication of CN108829707A publication Critical patent/CN108829707A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明旨在提供跨业务域的大数据智能分析系统及方法,以解决现有技术方案中预计算时间过长、结果数据量过大的问题。系统包括数量立方体逻辑模型构建模块、数量立方体构建模块和查询分析服务模块。方法包括获取待分析业务数据的元数据,并根据待分析业务数据的元数据构建数量立方体逻辑模型,基于维度定义获取各维度组合;从各维度组合中选取被查询概率大于设定值的维度组合作为选定维度组合;根据选定维度组合和度量定义对待分析业务数据进行预计算以得到各选定维度组合的度量值;根据选定维度组合及其度量值构建数量立方体;根据数据立方体建立索引。有益技术效果:减少构建数据立方体所需的维度组合种类,进而预计算的计算量和计算时间。

Description

跨业务域的大数据智能分析系统及方法
技术领域
本发明涉及大数据领域,具体涉一种跨业务域的大数据智能分析系统及方法。
背景技术
在信息化和数据化的时代,如何对数据进行多维分析以进行决策支持,是商务智能和数据挖掘领域的重要课题,OLAP就是为了解决这一问题而产生的。一般情况下,数据仓库的数据量较大,直接在大量数据上进行多维聚合运算需要耗费大量的计算资源,以及过长的查询耗时。OLAP提供了一种基于预计算提高多维分析效率的解决方案,即通过实现一个“数据立方体”对数据仓库中的数据按不同的维度组合进行预聚合,并把结果保存下来;当分析师进行实际业务查询时,无需重新对数据执行聚合运算,而是直接读取预计算结果,这使得对百万甚至上亿数据规模的分析变得可能。在大数据多维分析场景中,数据规模往往在千亿甚至万亿级别,且维度数量过多、维度基数超大,存在维度爆炸的隐患。如果依然对所有维度组合的情况进行预计算,一定会导致预计算时间过长、结果数据量过大,增加了预计算和存储成本。
发明内容
本发明旨在提供跨业务域的大数据智能分析系统及方法,以解决现有技术方案中预计算时间过长、结果数据量过大的问题。
为了实现所述目的,本发明跨业务域的大数据智能分析系统,包括:
数据立方体逻辑模型构建模块,用于获取待分析业务数据的元数据,并根据待分析业务数据的元数据构建数据立方体逻辑模型,其中,所述数据立方体逻辑模型包括维度定义和度量定义;
数据立方体构建模块,用于获取待分析业务数据和数据立方体逻辑模型,基于数据立方体逻辑模型的维度定义获取各维度组合,从各维度组合中选取被查询概率大于设定值的维度组合作为选定维度组合;根据选定维度组合和数据立方体逻辑模型中的度量定义对待分析业务数据进行预计算以得到各选定维度组合的度量值,根据选定维度组合及其度量值构建数据立方体;
查询分析服务模块,用于根据数据立方体建立索引以供用户查询分析。
优选的,系统还包括:
数据接入模块,用于从各业务系统读取数据的元数据,并根据元数据选择需要接入的数据;
数据整合模块,用于对数据接入模块选择的需要接入的数据进行数据抽取,并将抽取的数据进行数据整合以得到待分析业务数据。
优选的,所述根据元数据选择需要接入的数据包括:显示元数据以供用户选择,获取用户选择的元数据,根据用户选择的元数据选择需要接入的数据。
优选的,所述根据选定维度组合及其度量值构建数据立方体包括:根据选定维度组合及其度量值建立事实表。
优选的,所述数据立方体构建模块还包括层级关系定义,所述层级关系为维度的层次结构的级别关系。
优选的,所述设定值为1‰。
作为本发明的另一方面,跨业务域的大数据智能分析方法,包括如下步骤:
获取待分析业务数据的元数据,并根据待分析业务数据的元数据构建数据立方体逻辑模型,其中,所述数据立方体逻辑模型包括维度定义和度量定义;
获取待分析业务数据和数据立方体逻辑模型,基于数据立方体逻辑模型的维度定义获取各维度组合;
从各维度组合中选取被查询概率大于设定值的维度组合作为选定维度组合;
根据选定维度组合和数据立方体逻辑模型中的度量定义对待分析业务数据进行预计算以得到各选定维度组合的度量值;
根据选定维度组合及其度量值构建数据立方体;
根据数据立方体建立索引以供用户查询分析。
优选的,方法还包括:
从各业务系统读取数据的元数据,并根据元数据选择需要接入的数据;
对需要接入的数据进行数据抽取,并将抽取的数据进行数据整合以得到待分析业务数据。
优选的,所述数据立方体构建模块还包括层级关系定义,所述层级关系为维度的层次结构的级别关系。
优选的,所述设定值为1‰。
通过实施本发明可以取得以下有益技术效果:本发明根据被查询概率大于设定值的维度组合构建数据立方体,进而减少构建数据立方体所需的维度组合种类;由于减少了构建数据立方体所需的维度组合种类,因此也减少了构建数据立方体所需的预计算的计算量和预计算的计算时间,进而减低了预计算的计算成本;由于减少了构建数据立方体所需的维度组合种类,因此也减少了数据立方体的数据存储量,进而降低存储成本。
附图说明
图1为本申请实施例中的跨业务域的大数据智能分析系统的一种连接图;
图2为本申请实施例中的跨业务域的大数据智能分析系统的另一种连接图;
图3为本申请实施例中的跨业务域的大数据智能分析系统的一种流程图;
图4为本申请实施例中的跨业务域的大数据智能分析系统的另一种流程图。
具体实施方式
为了便于本领域技术人员的理解,下面结合具体实施例对本发明作进一步的说明:
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
实施例1:
如图1和图2所示,跨业务域的大数据智能分析系统,包括:
数据立方体逻辑模型构建模块1,用于获取待分析业务数据的元数据,并根据待分析业务数据的元数据构建数据立方体逻辑模型,其中,所述数据立方体逻辑模型包括维度定义和度量定义;
数据立方体构建模块2,用于获取待分析业务数据和数据立方体逻辑模型,基于数据立方体逻辑模型的维度定义获取各维度组合,从各维度组合中选取被查询概率大于设定值的维度组合作为选定维度组合;根据选定维度组合和数据立方体逻辑模型中的度量定义对待分析业务数据进行预计算以得到各选定维度组合的度量值,根据选定维度组合及其度量值构建数据立方体;
查询分析服务模块3,用于根据数据立方体建立索引以供用户查询分析。
通过实施本发明可以取得以下有益技术效果:本发明根据被查询概率大于设定值的维度组合构建数据立方体,进而减少构建数据立方体所需的维度组合种类;由于减少了构建数据立方体所需的维度组合种类,因此也减少了构建数据立方体所需的预计算的计算量和预计算的计算时间,进而减低了预计算的计算成本;由于减少了构建数据立方体所需的维度组合种类,因此也减少了数据立方体的数据存储量,进而降低存储成本。查询分析服务模块根据数据立方体建立索引后以供用户查询分析,进而使得系统可以实现查询分析的目的。
本实施例中,元数据指的是:描述数据的数据,如表名、字段名称、字段类型、基数、是否为主键外键等等。维度指的是:观察数据的一种角度,如时间、区域等。度量指的是:要分析展示的数据,即指标。度量值指的:是度量的值,即指标的值。
作为本实施例中的一种可选实施方式,如图2所示,系统还包括:
数据接入模块5,用于从各业务系统读取数据的元数据,并根据元数据选择需要接入的数据;
数据整合模块6,用于对数据接入模块选择的需要接入的数据进行数据抽取,并将抽取的数据进行数据整合以得到待分析业务数据。
数据接入模块先读取元数据,再根据元数据选择需要接入的数据,使得系统无需读取全部数据,提高效率。
通过数据接入模块所选择的需要接入的数据进行数据抽取和数据整合,涵盖业务范围更加广泛、全面,大大提高系统的可用性。数据整合指的是对企业多个业务系统数据源的数据关联整合,例如,在供应商合同履约信息中,通过到货日期、过账日期与财务系统进行关联,可获得过账金额、合同金额等数据来从更多维度对供应商履约行为进行更加全面的评估。
作为本实施例中的一种可选实施方式,所述根据元数据选择需要接入的数据包括:显示元数据以供用户选择,获取用户选择的元数据,根据用户选择的元数据选择需要接入的数据。使得系统可以接受用户的选择,并根据用户的选择选择需要接入的数据。
作为本实施例中的一种可选实施方式,所述根据选定维度组合及其度量值构建数据立方体包括:根据选定维度组合及其度量值建立事实表。事实表中维度可以为键值对数据格式(key-value),并通过键值对与维表进行关联,其主键用于查询,可以提高查询效率。事实表指的是存放度量值的表,同时存放了维表的外键。维表指的是对维度描述的表。
作为本实施例中的一种可选实施方式,所述数据立方体构建模块还包括层级关系定义,所述层级关系为维度的层次结构的级别关系;所述基于数据立方体逻辑模型的维度定义获取各维度组合包括:根据层级关系和维度定义获取各维度组合(除预设条件下的维度组合外的所有维度组合,其中预设条件为维度组合中至少存在一个层级高的维度在层级低的维度之后)。在构建数据立方体逻辑模型时,如有层级关系,如省级=>市级=>县级=>区级,或年月日时分秒这种层级关系,如果按不同维度组合直接进行计算,则要覆盖所有维度组合的计算需计算2的N次方种(假定有ABC三个有一定层级关系的维度,直接计算需要覆盖ABC、AB、BC、AC、A、B、C、空8种),如按照如层级关系进行计算,低级别的层级出现时高级别的层级一定是先出现了的(月之前肯定要指定年,日之前肯定要指定月),那么计算结果范围将缩小至N+1种(ABC、AB、A、空)。
作为本实施例中的一种可选实施方式,数据立方体存储在列式数据库中,并通过缓存技术存储之前已经查询的结果,在后续查询中首先在缓存中进行匹配,降低IO开销,使得查询更加高效。
作为本实施例中的一种可选实施方式,所述设定值为1‰。设定值可以根据实际使用需求进行设置,如也可以设置成万分之一,千万分之一等。
作为本实施例中的一种可选实施方式,查询分析服务模块还用于基于立方数据体建立可视化查询,以便于用户以拖、拉、拽等方式方便的进行分析,便于实施分析思路的快速验证和报表开发。
实施例2:
如图3和图4所示,跨业务域的大数据智能分析方法,包括如下步骤:
步骤S1:获取待分析业务数据的元数据,并根据待分析业务数据的元数据构建数据立方体逻辑模型,其中,所述数据立方体逻辑模型包括维度定义和度量定义;
步骤S2:获取待分析业务数据和数据立方体逻辑模型;
步骤S3:基于数据立方体逻辑模型的维度定义获取各维度组合;
步骤S4:从各维度组合中选取被查询概率大于设定值的维度组合作为选定维度组合;
步骤S5:根据选定维度组合和数据立方体逻辑模型中的度量定义对待分析业务数据进行预计算以得到各选定维度组合的度量值;
步骤S6:根据选定维度组合及其度量值构建数据立方体;
步骤S7:根据数据立方体建立索引以供用户查询分析。
作为本实施例中的一种可选实施方式,如图4所示,方法还包括:
步骤S01:从各业务系统读取数据的元数据,并根据元数据选择需要接入的数据;
步骤S02:对需要接入的数据进行数据抽取,并将抽取的数据进行数据整合以得到待分析业务数据。
作为本实施例中的一种可选实施方式,所述数据立方体构建模块还包括层级关系定义,所述层级关系为维度的层次结构的级别关系。
作为本实施例中的一种可选实施方式,所述设定值为1‰。
本实施例中方法的原理和效果可以参考实施例1中系统的原理和效果,并实施例不再详细描述。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.跨业务域的大数据智能分析系统,其特征在于,包括:
数据立方体逻辑模型构建模块,用于获取待分析业务数据的元数据,并根据待分析业务数据的元数据构建数据立方体逻辑模型,其中,所述数据立方体逻辑模型包括维度定义和度量定义;
数据立方体构建模块,用于获取待分析业务数据和数据立方体逻辑模型,基于数据立方体逻辑模型的维度定义获取各维度组合,从各维度组合中选取被查询概率大于设定值的维度组合作为选定维度组合;根据选定维度组合和数据立方体逻辑模型中的度量定义对待分析业务数据进行预计算以得到各选定维度组合的度量值,根据选定维度组合及其度量值构建数据立方体;
查询分析服务模块,用于根据数据立方体建立索引以供用户查询分析。
2.如权利要求1所述的跨业务域的大数据智能分析系统,其特征在于,系统还包括:
数据接入模块,用于从各业务系统读取数据的元数据,并根据元数据选择需要接入的数据;
数据整合模块,用于对数据接入模块选择的需要接入的数据进行数据抽取,并将抽取的数据进行数据整合以得到待分析业务数据。
3.如权利要求2所述的跨业务域的大数据智能分析系统,其特征在于,所述根据元数据选择需要接入的数据包括:显示元数据以供用户选择,获取用户选择的元数据,根据用户选择的元数据选择需要接入的数据。
4.如权利要求1所述的跨业务域的大数据智能分析系统,其特征在于,所述根据选定维度组合及其度量值构建数据立方体包括:根据选定维度组合及其度量值建立事实表。
5.如权利要求1所述的跨业务域的大数据智能分析系统,其特征在于,所述数据立方体构建模块还包括层级关系定义,所述层级关系为维度的层次结构的级别关系。
6.如权利要求1所述的跨业务域的大数据智能分析系统,其特征在于,所述设定值为1‰。
7.跨业务域的大数据智能分析方法,其特征在于,包括如下步骤:
获取待分析业务数据的元数据,并根据待分析业务数据的元数据构建数据立方体逻辑模型,其中,所述数据立方体逻辑模型包括维度定义和度量定义;
获取待分析业务数据和数据立方体逻辑模型,基于数据立方体逻辑模型的维度定义获取各维度组合;
从各维度组合中选取被查询概率大于设定值的维度组合作为选定维度组合;
根据选定维度组合和数据立方体逻辑模型中的度量定义对待分析业务数据进行预计算以得到各选定维度组合的度量值;
根据选定维度组合及其度量值构建数据立方体;
根据数据立方体建立索引以供用户查询分析。
8.如权利要求7所述的跨业务域的大数据智能分析方法,其特征在于,方法还包括:
从各业务系统读取数据的元数据,并根据元数据选择需要接入的数据;
对需要接入的数据进行数据抽取,并将抽取的数据进行数据整合以得到待分析业务数据。
9.如权利要求7所述的跨业务域的大数据智能分析方法,其特征在于,所述数据立方体构建模块还包括层级关系定义,所述层级关系为维度的层次结构的级别关系。
10.如权利要求7所述的跨业务域的大数据智能分析方法,其特征在于,所述设定值为1‰。
CN201810410708.2A 2018-05-02 2018-05-02 跨业务域的大数据智能分析系统及方法 Pending CN108829707A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810410708.2A CN108829707A (zh) 2018-05-02 2018-05-02 跨业务域的大数据智能分析系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810410708.2A CN108829707A (zh) 2018-05-02 2018-05-02 跨业务域的大数据智能分析系统及方法

Publications (1)

Publication Number Publication Date
CN108829707A true CN108829707A (zh) 2018-11-16

Family

ID=64147990

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810410708.2A Pending CN108829707A (zh) 2018-05-02 2018-05-02 跨业务域的大数据智能分析系统及方法

Country Status (1)

Country Link
CN (1) CN108829707A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684419A (zh) * 2018-12-17 2019-04-26 河南四维远见信息技术有限公司 一种基于大数据的数据立方体处理方法、装置及电子设备
CN109960704A (zh) * 2019-01-03 2019-07-02 青岛萨纳斯智能科技股份有限公司 大数据机器学习智能科研平台
CN110209380A (zh) * 2019-05-30 2019-09-06 上海直真君智科技有限公司 一种面向大数据异构模型的统一动态元数据处理方法
CN111782734A (zh) * 2019-04-04 2020-10-16 华为技术服务有限公司 数据压缩、解压方法和装置
CN112650819A (zh) * 2020-12-29 2021-04-13 清华大学 元数据立方体的构建方法、装置、设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1564160A (zh) * 2004-04-22 2005-01-12 重庆市弘越科技有限公司 建立及查询多维数据立方体的方法
CN101178732A (zh) * 2007-12-12 2008-05-14 江苏省电力公司 基于元数据快速实现数据仓库过程的方法
CN104090960A (zh) * 2014-07-11 2014-10-08 北京科技大学 一种基于热连轧生产流程的动态多主题数据仓库建立方法
CN106600067A (zh) * 2016-12-19 2017-04-26 广州视源电子科技股份有限公司 多维立方体模型的优化方法和装置
CN106997386A (zh) * 2017-03-28 2017-08-01 上海跬智信息技术有限公司 一种olap预计算模型、自动建模方法及自动建模系统
CN107301206A (zh) * 2017-06-01 2017-10-27 华南理工大学 一种基于预运算的分布式olap分析方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1564160A (zh) * 2004-04-22 2005-01-12 重庆市弘越科技有限公司 建立及查询多维数据立方体的方法
CN101178732A (zh) * 2007-12-12 2008-05-14 江苏省电力公司 基于元数据快速实现数据仓库过程的方法
CN104090960A (zh) * 2014-07-11 2014-10-08 北京科技大学 一种基于热连轧生产流程的动态多主题数据仓库建立方法
CN106600067A (zh) * 2016-12-19 2017-04-26 广州视源电子科技股份有限公司 多维立方体模型的优化方法和装置
CN106997386A (zh) * 2017-03-28 2017-08-01 上海跬智信息技术有限公司 一种olap预计算模型、自动建模方法及自动建模系统
CN107301206A (zh) * 2017-06-01 2017-10-27 华南理工大学 一种基于预运算的分布式olap分析方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王心杰: "面向海量数据的高性能多维OLAP技术的研究" *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684419A (zh) * 2018-12-17 2019-04-26 河南四维远见信息技术有限公司 一种基于大数据的数据立方体处理方法、装置及电子设备
CN109684419B (zh) * 2018-12-17 2023-10-03 河南四维远见信息技术有限公司 一种基于大数据的数据立方体处理方法、装置及电子设备
CN109960704A (zh) * 2019-01-03 2019-07-02 青岛萨纳斯智能科技股份有限公司 大数据机器学习智能科研平台
CN111782734A (zh) * 2019-04-04 2020-10-16 华为技术服务有限公司 数据压缩、解压方法和装置
CN111782734B (zh) * 2019-04-04 2024-04-12 华为技术服务有限公司 数据压缩、解压方法和装置
CN110209380A (zh) * 2019-05-30 2019-09-06 上海直真君智科技有限公司 一种面向大数据异构模型的统一动态元数据处理方法
CN112650819A (zh) * 2020-12-29 2021-04-13 清华大学 元数据立方体的构建方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
CN108829707A (zh) 跨业务域的大数据智能分析系统及方法
US20230084389A1 (en) System and method for providing bottom-up aggregation in a multidimensional database environment
Zhang et al. A weighted kernel possibilistic c‐means algorithm based on cloud computing for clustering big data
Chebbi et al. Big data: Concepts, challenges and applications
CN107622326B (zh) 用户分类、可用资源预测方法、装置及设备
Fang et al. Meteorological data analysis using mapreduce
Esteves et al. A new approach for accurate distributed cluster analysis for Big Data: competitive K-Means
Song et al. Brepartition: Optimized high-dimensional knn search with bregman distances
Hua et al. SANE: Semantic-aware namespacein ultra-large-scale file systems
Saad et al. Efficient skyline computation on uncertain dimensions
US10719497B2 (en) Utilization of optimized ordered metadata structure for container-based large-scale distributed storage
Qian et al. An evaluation of Lucene for keywords search in large-scale short text storage
Lim et al. Lazy and eager approaches for the set cover problem
Shah et al. Big data analytics framework for spatial data
CN110399396B (zh) 高效的数据处理
Villarroya et al. Enabling efficient distributed spatial join on large scale vector-raster data lakes
Ma et al. Efficient attribute-based data access in astronomy analysis
Lian et al. Sql or nosql? which is the best choice for storing big spatio-temporal climate data?
Choi et al. ReSKY: Efficient subarray skyline computation in array databases
Otoo et al. Chunked extendible dense arrays for scientific data storage
JP2004192657A (ja) 情報検索システム、情報検索方法および情報検索用プログラムを記録した記録媒体
Li et al. mcatcs: A highly efficient cross-matching scheme for multi-band astronomical catalogs
Rslan et al. An efficient hybridized index technique for moving object database
Nimako et al. Chunked extendible dense arrays for scientific data storage
CN117540056B (zh) 数据查询的方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181116