CN104391948A - 数据仓库的数据标准化构建方法及系统 - Google Patents

数据仓库的数据标准化构建方法及系统 Download PDF

Info

Publication number
CN104391948A
CN104391948A CN201410707013.2A CN201410707013A CN104391948A CN 104391948 A CN104391948 A CN 104391948A CN 201410707013 A CN201410707013 A CN 201410707013A CN 104391948 A CN104391948 A CN 104391948A
Authority
CN
China
Prior art keywords
dimension
data
split
dimension table
fact
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410707013.2A
Other languages
English (en)
Other versions
CN104391948B (zh
Inventor
钟世冠
苏超
覃杰聪
阮国恒
陈少敏
潘世成
李文航
肖逊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Power Grid Co Ltd
Qingyuan Power Supply Bureau of Guangdong Power Grid Co Ltd
Original Assignee
Qingyuan Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingyuan Power Supply Bureau of Guangdong Power Grid Co Ltd filed Critical Qingyuan Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority to CN201410707013.2A priority Critical patent/CN104391948B/zh
Publication of CN104391948A publication Critical patent/CN104391948A/zh
Application granted granted Critical
Publication of CN104391948B publication Critical patent/CN104391948B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • G06F16/212Schema design and management with details for data modelling support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据仓库的数据标准化构建方法,包括步骤:S1、获取用于标准化构建的数据仓库的每一个源数据表;其中,每一个源数据表中包括M条关于维度的记录以及N条关于度量的记录,所述M、N为大于等于0的整数;S2、将每一所述源数据表对应拆分为一个以所述N个度量为主的事实表以及M个维度表;S3、将拆分后的且存在笛卡尔乘积的每一所述维度表拆分为对应多个单一维度的维度表;S4、基于生成的所述事实表和维度表的关联关系而构成星形连接网络,从而使数据标准化后的数据仓库为具有星形结构的关系型数据库。本发明还公开了一种数据仓库的数据标准化构建系统。

Description

数据仓库的数据标准化构建方法及系统
技术领域
本发明涉及数据库领域,尤其涉及一种数据仓库的数据标准化构建方法及系统。 
背景技术
在事务处理系统中的数据,主要用于记录和查询业务情况。随着数据仓库(DW)技术的不断成熟,企业的数据逐渐变成了决策的主要依据。数据仓库中的数据是从许多业务处理系统中抽取、转换而来,对于这样一个复杂的企业数据环境,如何以安全、高效的方式来对它们进行管理和访问就变得尤为重要。解决这一问题的关键是数据仓库的数据标准化构建。 
发明内容
本发明的目的是提供一种数据仓库的数据标准化构建方法,能有效数据仓库的数据进行标准化构建,从而利于对标准化构建后的数据库的搜索,提高数据访问的效率。 
本发明实施例提供了一种数据仓库的数据标准化构建方法,包括步骤: 
S1、获取用于标准化构建的数据仓库的每一个源数据表;其中,每一个源数据表中包括M条关于维度的记录以及N条关于度量的记录,所述M、N为大于等于0的整数;
S2、将每一所述源数据表对应拆分为一个以所述N个度量为主的事实表以及M个维度表;其中将对应的N条度量数据存储在所述事实表中,并将所述事实表与M个维度表的对应关联关系记录在所述事实表中;将对应的M条维度数据存储在对应的M个维度表中,并生成一个维度的维度ID;
S3、将拆分后的且存在笛卡尔乘积的每一所述维度表拆分为对应多个单一维度的维度表;其中,存在笛卡尔乘积的每一所述维度表包括m个维度,则对应拆分为m个单一维度表,每一个单一维度表对应存储一个维度数据,并同时将所述事实表中与存在笛卡尔乘积的所述维度表关联的维度ID对应拆分m个单一维度ID,以对应m个单一维度表;
S4、基于生成的所述事实表和维度表的关联关系而构成星形连接网络,从而使数据标准化后的数据仓库为具有星形结构的关系型数据库。
作为上述方案的改进,在所述步骤S2和/或S3中,拆分后的所述M个维度表分别包括维度ID以及与该维度表相对应的一组特征字段; 
拆分后的所述事实表包括M个分别指向所述M个维度表中的维度ID的维度ID以及N条度量字段。
作为上述方案的改进,在所述步骤S2和/或S3中,多个所述源数据表对应拆分出来的多个维度表中,属于相同维度的两个以上的维度表可合并成一个维度表;在合并后的所述维度表中,可根据维度ID来依次排列合并前的每个维度表的记录信息。 
本发明实施例还提供了一种数据仓库的数据标准化构建系统,包括: 
源数据表获取单元,获取用于标准化构建的数据仓库的每一个源数据表;其中,每一个源数据表中包括M条关于维度的记录以及N条关于度量的记录,所述M、N为大于等于0的整数;
源数据表拆分单元,将每一所述源数据表对应拆分为一个以所述N个度量为主的事实表以及M个维度表;其中将对应的N条度量数据存储在所述事实表中,并将所述事实表与M个维度表的对应关联关系记录在所述事实表中;将对应的M条维度数据存储在对应的M个维度表中,并生成一个维度的维度ID;
多维度表拆分单元,将拆分后的且存在笛卡尔乘积的每一所述维度表拆分为对应多个单一维度的维度表;其中,存在笛卡尔乘积的每一所述维度表包括m个维度,则对应拆分为m个单一维度表,每一个单一维度表对应存储一个维度数据,并同时将所述事实表与存在笛卡尔乘积的所述维度表关联的维度ID对应拆分m个单一维度ID,以对应m个单一维度表;以及
星形模型构建单元,基于生成的所述事实表和维度表的关联关系而构成星形连接网络,从而使数据标准化后的数据仓库为具有星形结构的关系型数据库。
作为上述方案的改进,在所述源数据表拆分单元和/或多维度表拆分单元中,拆分后的所述M个维度表分别包括维度ID以及与该维度表相对应的一组特征字段; 
拆分后的所述事实表包括M个分别指向所述M个维度表中的维度ID的维度ID以及N条度量字段。
作为上述方案的改进,在所述源数据表拆分单元和/或多维度表拆分单元中,多个所述源数据表对应拆分出来的多个维度表中,属于相同维度的两个以上的维度表可合并成一个维度表;在合并后的所述维度表中,可根据维度ID来依次排列合并前的每个维度表的记录信息。 
与现有技术相比,本发明公开的数据仓库的数据标准化构建方法及系统通过将数据仓库中的每一源数据表对应拆分为一个以所述N个度量为主的事实表以及M个维度表,并将拆分后的且存在笛卡尔乘积的每一所述维度表拆分为对应多个单一维度的维度表,以及基于生成的所述事实表和维度表的关联关系而构成星形连接网络,从而使数据标准化后的数据仓库为具有星形结构的关系型数据库,能有效数据仓库的数据进行标准化构建,从而利于对标准化构建后的数据库的搜索,提高数据访问的效率。 
附图说明
图1是本发明实施例中一种数据仓库的数据标准化构建方法的流程示意图。 
图2是利用本发明的数据仓库的数据标准化构建方法将生成的事实表和维度表构成雪花形模型的一个实例图。 
 图3是利用本发明的数据仓库的数据标准化构建方法将生成的事实表和维度表构成星形模型的一个实例图。 
图4是本发明实施例中一种数据仓库的数据标准化构建系统的结构框图。 
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。 
参见图1,是本发明实施例提供的一种数据仓库的数据标准化构建方法的流程示意图。该数据仓库的数据标准化构建方法包括步骤: 
S101、获取用于标准化构建的数据仓库的每一个源数据表;其中,每一个源数据表中包括M条关于维度的记录以及N条关于度量的记录,所述M、N为大于等于0的整数;
S102、将每一所述源数据表对应拆分为一个以所述N个度量为主的事实表以及M个维度表;其中将对应的N条度量数据存储在所述事实表中,并将所述事实表与M个维度表的对应关联关系记录在所述事实表中;将对应的M条维度数据存储在对应的M个维度表中,并生成一个维度的维度ID;
S103、将拆分后的且存在笛卡尔乘积的每一所述维度表拆分为对应多个单一维度的维度表;其中,存在笛卡尔乘积的每一所述维度表包括m个维度,则对应拆分为m个单一维度表,每一个单一维度表对应存储一个维度数据,并同时将所述事实表中与存在笛卡尔乘积的所述维度表关联的维度ID对应拆分m个单一维度ID,以对应m个单一维度表;
S104、基于生成的所述事实表和维度表的关联关系而构成星形连接网络,从而使数据标准化后的数据仓库为具有星形结构的关系型数据库。
其中,在所述步骤S101中,首先是将已有的数据仓库的每一数据表提取出来,其中,假设每一个源数据表中包括M条关于维度的记录以及N条关于度量的记录,所述M、N为大于等于0的整数。 
然后,在所述步骤S102中,将获取到的每一源数据表标准化拆分为事实表和维度表的模式,且拆分后的所述M个维度表分别包括维度ID以及与该维度表相对应的一组特征字段;拆分后的所述事实表包括M个分别指向所述M个维度表中的维度ID的维度ID以及N条度量字段。 
具体过程为: 已有数据仓库有源数据表D包含A1、A2、… An、B1、B2、…Bm, 其中A1-An为枚举型的文本值或数据值,B1-Bm为数据值型的度量值,则将源数据表D拆分为一个事实表Fmn和n个维度表(DA1-DAn)组成,事实表Fmn的构成是A1ID、A2ID、…AnID、B1、B2、…Bm ,其中A1ID、A2ID、…AnID分别和n 个维度表进行关联, 每个维度表的构成是AnID、AnName。,所谓AnID是指维度An的ID,即唯一的数字标示;AnName是指维度An的名称Name,即特征字段,如:有客户维度,存在两个维度值,则有客户ID{100,101},对应的客户名称{‘客户1’,‘客户2’}。 
下面,通过实例来说明如何将每一源数据表标准化拆分为事实表和维度表的模式: 
示例一: 标准化为事实表+维度表的模式
有电量信息统计表-DLXXTJB, 如下:
序号 字段名称 字段类型 备注
1 TJ_DATA Date 统计时间
2 SSGDJ varchar(32) 所属供电局
3 GDLX varchar(32) 供电类型
4 GDL Number 供电量
5 SDL number 售电量
源数据表1
分析上表,字段1、2、3是维度,4和5是度量,则将上表拆分为4张表,一张以度量为主的事实表和三张维度表,如下所示:
序号 字段名称 字段类型 备注
1 TIME_ID Number(8) 统计日期,如20140909,关联日期维表 d_time
2 SSGDJ_ID Number(8) 所属供电局id,关联供电局维表 d_ssgdj
3 GDLX _ID Number(8) 供电类型id,关联供电类型维表 d_gdlx
4 GDL Number 供电量
5 SDL number 售电量
事实表1事实表 F_DL_XXTJB
 
序号 字段名称 字段类型 备注
1 TIME_ID Number(8) 统计日期,如20140909,关联日期维表 d_time
2 YEAR_ID Number(8)  
3 YEAR_NAME varchar(32)  
4 MONTH_ID Number(8)  
5 MONHT_NAME varchar(32)  
6 DAY_ID Number(8)  
7 DAY_NAME varchar(32)  
维度表1: 时间维表 d_time
 
序号 字段名称 字段类型 备注
1 SSGDJ_ID Number(8) 所属供电局id,关联供电局维表 d_ssgdj
2 SSGDJ_NAME varchar(32) 所属供电局名称
3 SSGDJ_JC varchar(32) 所属供电局简称
4 PNO Number(8) 排序号
5      
维度表2, 供电局信息表 d_ssgdj
序号 字段名称 字段类型 备注
1 GDLX _ID Number(8) 所属供电局id,关联供电局维表 d_ssgdj
2 GDLX _NAME varchar(32) 所属产品名称
3 GDLX _JC varchar(32) 所属供电局简称
4 PNO Number(8) 排序号
5      
维度表3, 供电类型 d_gdlx
通过上述实例,可以清楚了解如何将每一各带M条关于维度的记录以及N条关于度量的记录的源数据表对应拆分为一个以所述N个度量为主的事实表以及M个维度表。可以理解的,多个所述源数据表对应拆分出来的多个维度表中,属于相同维度的两个以上的维度表可合并成一个维度表;在合并后的所述维度表中,可根据维度ID来依次排列合并前的每个维度表的记录信息。
在所述步骤S103中,由于通过步骤S102拆分后的维度表中,可能会存在笛卡尔乘积的多个维度,这样将不利于搜索效率,因此需要将拆分后的且存在笛卡尔乘积的每一所述维度表拆分为对应多个单一维度的维度表。例如,笛卡儿乘积的维度表P是由A、B、C 3个维度组成,则将维度表P拆分为3个单一维度表分别对应单一维度表A、单一维度表B、单一维度表C,同时将事实表中和维度表P表关联的维度ID拆分为三个单一维度ID,分别对应关联A、B、C三个单一维度表中的维度ID。 
在所述步骤S104中,基于生成的所述事实表和维度表的关联关系而构成星形连接网络,从而使数据标准化后的数据仓库为具有星形结构的关系型数据库。 
星形模型使数据仓库形成了一个集成系统,为最终用户提供报表服务,为用户提供分析服务对象;星形模式通过使用一个包含主题的事实表和多个包含事实的非正规化描述的维度表来支持各种决策查询;星形模型可以采用关系型数据库结构模型的核心是事实表围绕事实表的是维度表。通过事实表将各种不同的维度表连接起来各个维度表都连接到中央事实表。维度表中的对象通过事实表与另一维度表中的对象相关联。这样就能建立各个维度表对象之间的联系。每一个维度表通过一个维度ID与事实表进行连接;这种结构使用户能够很容易地从维度表中的数据分析开始获得维度ID以便连接到中心的事实表进行查询。因此,具有星形结构的关系型数据库具有如下效果:一、可以提高查询的效率。这种结构使用户能够很容易地从维度表中的数据分析开始,获得维度ID,以便连接到中心的事实表进行查询。二、对于非计算机专业的用户而言,星形模式比较直观,通过分析星形模式很容易组合出各种查询。 
 下面,通过实例来说明如何将拆分后的事实表和维度表标准化为星形模型的模式: 
示例二: 标准化为星形模型
销售额事实表Sales, 
 
员工维 
 
部门维 
 
销售额事实表中只包含了员工维的关键字(ID), 员工维中包含所需部门,但部门是一张独立的维表,因此员工维和部门维表形成了关联关系,而销售额事实表只有通过员工维才能和部门维挂上钩。标准化的过程就是把这些模型来给进行转换的工程。
参考图2~图3,下面通过实例对比,说明本实施例通过构建星形结构的关系型数据库相比构建雪花形结构的关系型数据库更能提高搜索效率。 
多维分析的解决方案中,根据事实表和维度表的关系,又可将常见的模型分为星形模型和雪花形模型。在设计逻辑型数据的模型的时候,一般应考虑数据是按照星形模型还是雪花形模型进行组织。 
当所有维表都直接连接到“ 事实表”上时,整个图解就像星星一样,故将该模型称为星形模型,如图 2所示。 
星形架构是一种非正规化的结构,多维数据集的每一个维度都直接与事实表相连接,不存在渐变维度,所以数据有一定的冗余,如在地域维度表中,存在国家 A 省 B 的城市 C 以及国家 A 省 B 的城市 D 两条记录,那么国家 A 和省 B 的信息分别存储了两次,即存在冗余。 
当有一个或多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表上时,其图解就像多个雪花连接在一起,故称雪花模型。雪花模型是对星形模型的扩展。它对星形模型的维表进一步层次化,原有的各维表可能被扩展为小的事实表,形成一些局部的 " 层次 " 区域,这些被分解的表都连接到主维度表而不是事实表。如图3所示,将地域维表又分解为国家,省份,城市等维表。它的优点是 : 通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能。雪花形结构去除了数据冗余。 
星形模型因为数据的冗余所以很多统计查询不需要做外部的连接,因此一般情况下效率比雪花形模型要高。星形结构不用考虑很多正规化的因素,设计与实现都比较简单。雪花形模型由于去除了冗余,有些统计就需要通过表的联接才能产生,所以效率不一定有星形模型高。正规化也是一种比较复杂的过程,相应的数据库结构设计、数据的 ETL、以及后期的维护都要复杂一些。因此在冗余可以接受的前提下,实际运用中星形模型使用更多,也更有效率。 
本发明实施例公开的数据仓库的数据标准化构建方法包括对数据仓库进行包括模型严格按照事实表和维度表模式构造、星形模型构造、存在笛卡儿积表的标准化等多个标准化构建。其中,模型严格按照事实表和维度表模式构造只以标准数据仓库建模模式规范数据仓库模型,所有数据必须以事实表和维度表方式构建;星形模型构造是将数据仓库模型需要以星形模型构造,剔出雪花形构造,以保证搜索的效率;而存在笛卡儿积表的标准化是指剔出以笛卡儿积模式生成的维度表。因此,本发明实施例能有效数据仓库的数据进行标准化构建,从而利于对标准化构建后的数据库的搜索,提高数据访问的效率。另外,由于本发明的数据搜索模型是对已有数据仓库中的数据进行搜索,需要对数据仓库的数据进行标准化,但数据标准化的过程不会影响到已有数据仓库的使用,所述数据标准化过程就是通过SQL语言进行数据扩展,即保持原有数据仓库的表结构和数据不变,利用SQL语言生成新的表结构和数据。 
参考图4,是本发明实施例提供的一种数据仓库的数据标准化构建系统的方框图。该数据仓库的数据标准化构建系统包括: 
源数据表获取单元401,获取用于标准化构建的数据仓库的每一个源数据表;其中,每一个源数据表中包括M条关于维度的记录以及N条关于度量的记录,所述M、N为大于等于0的整数;
源数据表拆分单元402,将每一所述源数据表对应拆分为一个以所述N个度量为主的事实表以及M个维度表;其中将对应的N条度量数据存储在所述事实表中,并将所述事实表与M个维度表的对应关联关系记录在所述事实表中;将对应的M条维度数据存储在对应的M个维度表中,并生成一个维度的维度ID;
多维度表拆分单元403,将拆分后的且存在笛卡尔乘积的每一所述维度表拆分为对应多个单一维度的维度表;其中,存在笛卡尔乘积的每一所述维度表包括m个维度,则对应拆分为m个单一维度表,每一个单一维度表对应存储一个维度数据,并同时将所述事实表中与存在笛卡尔乘积的所述维度表关联的维度ID对应拆分m个单一维度ID,以对应m个单一维度表;
星形模型构建单元404,基于生成的所述事实表和维度表的关联关系而构成星形连接网络,从而使数据标准化后的数据仓库为具有星形结构的关系型数据库。
其中,在所述源数据表获取单元401中,首先是将已有的数据仓库的每一数据表提取出来,其中,假设每一个源数据表中包括M条关于维度的记录以及N条关于度量的记录,所述M、N为大于等于0的整数。 
然后,通过源数据表拆分单元402将获取到的每一源数据表标准化拆分为事实表和维度表的模式,且拆分后的所述M个维度表分别包括维度ID以及与该维度表相对应的一组特征字段;拆分后的所述事实表包括M个分别指向所述M个维度表中的维度ID的维度ID以及N条度量字段。 
具体过程为: 已有数据仓库有源数据表D包含A1、A2、… An、B1、B2、…Bm, 其中A1-An为枚举型的文本值或数据值,B1-Bm为数据值型的度量值,则将源数据表D拆分为一个事实表Fmn和n个维度表(DA1-DAn)组成,事实表Fmn的构成是A1ID、A2ID、…AnID、B1、B2、…Bm ,其中A1ID、A2ID、…AnID分别和n 个维度表进行关联, 每个维度表的构成是AnID、AnName。,所谓AnID是指维度An的ID,即唯一的数字标示;AnName是指维度An的名称Name,即特征字段,如:有客户维度,存在两个维度值,则有客户ID{100,101},对应的客户名称{‘客户1’,‘客户2’}。 
可以理解的,多个所述源数据表对应拆分出来的多个维度表中,属于相同维度的两个以上的维度表可合并成一个维度表;在合并后的所述维度表中,可根据维度ID来依次排列合并前的每个维度表的记录信息。 
在所述多维度表拆分单元403中,由于通过源数据表拆分单元402拆分后的维度表中,可能会存在笛卡尔乘积的多个维度,这样将不利于搜索效率,因此需要将拆分后的且存在笛卡尔乘积的每一所述维度表拆分为对应多个单一维度的维度表。例如,笛卡儿乘积的维度表P是由A、B、C 3个维度组成,则将维度表P拆分为3个单一维度表分别对应单一维度表A、单一维度表B、单一维度表C,同时将事实表中和维度表P表关联的维度ID拆分为三个单一维度ID,分别对应关联A、B、C三个单一维度表中的维度ID。 
在所述星形模型构建单元404中,基于生成的所述事实表和维度表的关联关系而构成星形连接网络,从而使数据标准化后的数据仓库为具有星形结构的关系型数据库。具有星形结构的关系型数据库具有如下效果:一、可以提高查询的效率。这种结构使用户能够很容易地从维度表中的数据分析开始,获得维度ID,以便连接到中心的事实表进行查询。二、对于非计算机专业的用户而言,星形模式比较直观,通过分析星形模式很容易组合出各种查询。 
综上所述,本发明公开的数据仓库的数据标准化构建方法及系统通过将数据仓库中的每一源数据表对应拆分为一个以所述N个度量为主的事实表以及M个维度表,并将拆分后的且存在笛卡尔乘积的每一所述维度表拆分为对应多个单一维度的维度表,以及基于生成的所述事实表和维度表的关联关系而构成星形连接网络,从而使数据标准化后的数据仓库为具有星形结构的关系型数据库,能有效数据仓库的数据进行标准化构建,从而利于对标准化构建后的数据库的搜索,提高数据访问的效率。 
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。 

Claims (6)

1.一种数据仓库的数据标准化构建方法,其特征在于,包括步骤:
S1、获取用于标准化构建的数据仓库的每一个源数据表;其中,每一个源数据表中包括M条关于维度的记录以及N条关于度量的记录,所述M、N为大于等于0的整数;
S2、将每一所述源数据表对应拆分为一个以所述N个度量为主的事实表以及M个维度表;其中将对应的N条度量数据存储在所述事实表中,并将所述事实表与M个维度表的对应关联关系记录在所述事实表中;将对应的M条维度数据存储在对应的M个维度表中,并生成一个维度的维度ID;
S3、将拆分后的且存在笛卡尔乘积的每一所述维度表拆分为对应多个单一维度的维度表;其中,存在笛卡尔乘积的每一所述维度表包括m个维度,则对应拆分为m个单一维度表,每一个单一维度表对应存储一个维度数据,并同时将所述事实表中与存在笛卡尔乘积的所述维度表关联的维度ID对应拆分m个单一维度ID,以对应m个单一维度表;
S4、基于生成的所述事实表和维度表的关联关系而构成星形连接网络,从而使数据标准化后的数据仓库为具有星形结构的关系型数据库。
2.如权利要求1所述的数据仓库的数据标准化构建方法,其特征在于:
在所述步骤S2和S3中,拆分后的所述M个维度表分别包括维度ID以及与该维度表相对应的一组特征字段;
拆分后的所述事实表包括M个分别指向所述M个维度表中的维度ID的维度ID以及N条度量字段。
3. 如权利要求1所述的数据仓库的数据标准化构建方法,其特征在于,在所述步骤S2和S3中,多个所述源数据表对应拆分出来的多个维度表中,属于相同维度的两个以上的维度表可合并成一个维度表;在合并后的所述维度表中,可根据维度ID来依次排列合并前的每个维度表的记录信息。
4.一种数据仓库的数据标准化构建系统,其特征在于,包括:
源数据表获取单元,获取用于标准化构建的数据仓库的每一个源数据表;其中,每一个源数据表中包括M条关于维度的记录以及N条关于度量的记录,所述M、N为大于等于0的整数;
源数据表拆分单元,将每一所述源数据表对应拆分为一个以所述N个度量为主的事实表以及M个维度表;其中将对应的N条度量数据存储在所述事实表中,并将所述事实表与M个维度表的对应关联关系记录在所述事实表中;将对应的M条维度数据存储在对应的M个维度表中,并生成一个维度的维度ID;
多维度表拆分单元,将拆分后的且存在笛卡尔乘积的每一所述维度表拆分为对应多个单一维度的维度表;其中,存在笛卡尔乘积的每一所述维度表包括m个维度,则对应拆分为m个单一维度表,每一个单一维度表对应存储一个维度数据,并同时将所述事实表与存在笛卡尔乘积的所述维度表关联的维度ID对应拆分m个单一维度ID,以对应m个单一维度表;以及
星形模型构建单元,基于生成的所述事实表和维度表的关联关系而构成星形连接网络,从而使数据标准化后的数据仓库为具有星形结构的关系型数据库。
5.如权利要求4所述的数据仓库的数据标准化构建系统,其特征在于:
在所述源数据表拆分单元和/或多维度表拆分单元中,拆分后的所述M个维度表分别包括维度ID以及与该维度表相对应的一组特征字段;
拆分后的所述事实表包括M个分别指向所述M个维度表中的维度ID的维度ID以及N条度量字段。
6.如权利要求1所述的数据仓库的数据标准化构建方法,其特征在于,在所述源数据表拆分单元和/或多维度表拆分单元中,多个所述源数据表对应拆分出来的多个维度表中,属于相同维度的两个以上的维度表可合并成一个维度表;在合并后的所述维度表中,可根据维度ID来依次排列合并前的每个维度表的记录信息。
CN201410707013.2A 2014-12-01 2014-12-01 数据仓库的数据标准化构建方法及系统 Active CN104391948B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410707013.2A CN104391948B (zh) 2014-12-01 2014-12-01 数据仓库的数据标准化构建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410707013.2A CN104391948B (zh) 2014-12-01 2014-12-01 数据仓库的数据标准化构建方法及系统

Publications (2)

Publication Number Publication Date
CN104391948A true CN104391948A (zh) 2015-03-04
CN104391948B CN104391948B (zh) 2017-11-21

Family

ID=52609852

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410707013.2A Active CN104391948B (zh) 2014-12-01 2014-12-01 数据仓库的数据标准化构建方法及系统

Country Status (1)

Country Link
CN (1) CN104391948B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104850623A (zh) * 2015-05-19 2015-08-19 杭州迅涵科技有限公司 多维度数据分析模型动态扩展方法和系统
CN105224635A (zh) * 2015-09-24 2016-01-06 广州精点计算机科技有限公司 一种基于混合模型的并行olap构建装置及构建方法
CN105488632A (zh) * 2015-12-14 2016-04-13 国家电网公司 一种基于维度模型的电力数据分析方法及装置
CN105574188A (zh) * 2015-12-23 2016-05-11 武汉璞华大数据技术有限公司 一种数据分维度分层次管理的方法及系统
CN106294792A (zh) * 2016-08-15 2017-01-04 上海携程商务有限公司 关联查询系统的建立方法及建立系统
CN106528810A (zh) * 2016-11-18 2017-03-22 党玉龙 一种融合异构数据便于快速大数据分析的方法
CN107491457A (zh) * 2016-06-13 2017-12-19 阿里巴巴集团控股有限公司 一种用于业务数据标准化的方法与设备
CN107577787A (zh) * 2017-09-15 2018-01-12 广东万丈金数信息技术股份有限公司 关联数据信息入库的方法及系统
CN107943863A (zh) * 2017-11-09 2018-04-20 北京许继电气有限公司 基于商业智能的敏捷建模方法和系统
CN108052601A (zh) * 2017-12-12 2018-05-18 福建中金在线信息科技有限公司 数据库建立方法、装置及终端
CN108345602A (zh) * 2017-01-22 2018-07-31 株式会社日立制作所 数据多维建模系统及数据多维建模方法
CN108647339A (zh) * 2018-05-14 2018-10-12 五八有限公司 一种维度建模方法、装置、设备及存储介质
CN109408502A (zh) * 2018-11-14 2019-03-01 成都四方伟业软件股份有限公司 一种数据标准处理方法、装置及其存储介质
CN110019195A (zh) * 2017-09-27 2019-07-16 北京国双科技有限公司 一种数据的存储方法及装置
CN110069499A (zh) * 2019-04-18 2019-07-30 中国联合网络通信集团有限公司 数据管理方法、装置、系统及存储介质
US10460052B2 (en) * 2016-12-22 2019-10-29 Sap Se Parallel model creation in cloud platform
CN111078776A (zh) * 2019-12-10 2020-04-28 北京明略软件系统有限公司 数据表的标准化方法、装置、设备及存储介质
CN112488580A (zh) * 2020-12-18 2021-03-12 江苏苏宁云计算有限公司 基于多维特征参数的智能动态维度排序方法及系统
CN112597149A (zh) * 2020-11-25 2021-04-02 贝壳技术有限公司 数据表相似度确定方法及装置
CN113010611A (zh) * 2019-12-19 2021-06-22 北京阿博茨科技有限公司 一种自动生成关系型数据库表间关系的方法和系统
CN113297184A (zh) * 2021-07-23 2021-08-24 北京达佳互联信息技术有限公司 数据处理方法、装置、设备及计算机可读存储介质
CN113868266A (zh) * 2021-12-06 2021-12-31 广州市玄武无线科技股份有限公司 一种web前端的星型模型布局的生成方法及装置、电子设备
CN114004208A (zh) * 2021-10-19 2022-02-01 江苏瑞中数据股份有限公司 一种可灵活定制的新型电力营销系统报表模板构建方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6052686A (en) * 1997-07-11 2000-04-18 At&T Corporation Database processing using schemas
CN101916261A (zh) * 2010-07-28 2010-12-15 北京播思软件技术有限公司 一种分布式并行数据库系统的数据分区方法
CN102385629A (zh) * 2011-11-21 2012-03-21 山东浪潮金融信息系统有限公司 一种数据仓库中父子模型引申为网络模型的应用方法
CN103927337A (zh) * 2014-03-26 2014-07-16 北京国双科技有限公司 用于联机分析处理中关联关系的数据处理方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6052686A (en) * 1997-07-11 2000-04-18 At&T Corporation Database processing using schemas
CN101916261A (zh) * 2010-07-28 2010-12-15 北京播思软件技术有限公司 一种分布式并行数据库系统的数据分区方法
CN102385629A (zh) * 2011-11-21 2012-03-21 山东浪潮金融信息系统有限公司 一种数据仓库中父子模型引申为网络模型的应用方法
CN103927337A (zh) * 2014-03-26 2014-07-16 北京国双科技有限公司 用于联机分析处理中关联关系的数据处理方法和装置

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104850623A (zh) * 2015-05-19 2015-08-19 杭州迅涵科技有限公司 多维度数据分析模型动态扩展方法和系统
CN104850623B (zh) * 2015-05-19 2018-08-07 杭州迅涵科技有限公司 多维度数据分析模型动态扩展方法和系统
CN105224635A (zh) * 2015-09-24 2016-01-06 广州精点计算机科技有限公司 一种基于混合模型的并行olap构建装置及构建方法
CN105488632A (zh) * 2015-12-14 2016-04-13 国家电网公司 一种基于维度模型的电力数据分析方法及装置
CN105574188A (zh) * 2015-12-23 2016-05-11 武汉璞华大数据技术有限公司 一种数据分维度分层次管理的方法及系统
CN107491457A (zh) * 2016-06-13 2017-12-19 阿里巴巴集团控股有限公司 一种用于业务数据标准化的方法与设备
CN106294792B (zh) * 2016-08-15 2019-05-31 上海携程商务有限公司 关联查询系统的建立方法及建立系统
CN106294792A (zh) * 2016-08-15 2017-01-04 上海携程商务有限公司 关联查询系统的建立方法及建立系统
CN106528810A (zh) * 2016-11-18 2017-03-22 党玉龙 一种融合异构数据便于快速大数据分析的方法
US10460052B2 (en) * 2016-12-22 2019-10-29 Sap Se Parallel model creation in cloud platform
CN108345602B (zh) * 2017-01-22 2021-06-25 株式会社日立制作所 数据多维建模系统及数据多维建模方法
CN108345602A (zh) * 2017-01-22 2018-07-31 株式会社日立制作所 数据多维建模系统及数据多维建模方法
CN107577787A (zh) * 2017-09-15 2018-01-12 广东万丈金数信息技术股份有限公司 关联数据信息入库的方法及系统
CN110019195A (zh) * 2017-09-27 2019-07-16 北京国双科技有限公司 一种数据的存储方法及装置
CN107943863A (zh) * 2017-11-09 2018-04-20 北京许继电气有限公司 基于商业智能的敏捷建模方法和系统
CN107943863B (zh) * 2017-11-09 2021-09-28 北京许继电气有限公司 基于商业智能的敏捷建模方法和系统
CN108052601A (zh) * 2017-12-12 2018-05-18 福建中金在线信息科技有限公司 数据库建立方法、装置及终端
CN108647339A (zh) * 2018-05-14 2018-10-12 五八有限公司 一种维度建模方法、装置、设备及存储介质
CN109408502A (zh) * 2018-11-14 2019-03-01 成都四方伟业软件股份有限公司 一种数据标准处理方法、装置及其存储介质
CN110069499A (zh) * 2019-04-18 2019-07-30 中国联合网络通信集团有限公司 数据管理方法、装置、系统及存储介质
CN110069499B (zh) * 2019-04-18 2021-05-18 中国联合网络通信集团有限公司 数据管理方法、装置、系统及存储介质
CN111078776A (zh) * 2019-12-10 2020-04-28 北京明略软件系统有限公司 数据表的标准化方法、装置、设备及存储介质
CN113010611A (zh) * 2019-12-19 2021-06-22 北京阿博茨科技有限公司 一种自动生成关系型数据库表间关系的方法和系统
CN112597149A (zh) * 2020-11-25 2021-04-02 贝壳技术有限公司 数据表相似度确定方法及装置
CN112597149B (zh) * 2020-11-25 2022-11-22 贝壳技术有限公司 数据表相似度确定方法及装置
CN112488580A (zh) * 2020-12-18 2021-03-12 江苏苏宁云计算有限公司 基于多维特征参数的智能动态维度排序方法及系统
CN113297184A (zh) * 2021-07-23 2021-08-24 北京达佳互联信息技术有限公司 数据处理方法、装置、设备及计算机可读存储介质
CN113297184B (zh) * 2021-07-23 2021-12-28 北京达佳互联信息技术有限公司 数据处理方法、装置、设备及计算机可读存储介质
CN114004208A (zh) * 2021-10-19 2022-02-01 江苏瑞中数据股份有限公司 一种可灵活定制的新型电力营销系统报表模板构建方法
CN114004208B (zh) * 2021-10-19 2022-09-09 江苏瑞中数据股份有限公司 一种可灵活定制的电力营销系统报表模板构建方法
CN113868266A (zh) * 2021-12-06 2021-12-31 广州市玄武无线科技股份有限公司 一种web前端的星型模型布局的生成方法及装置、电子设备

Also Published As

Publication number Publication date
CN104391948B (zh) 2017-11-21

Similar Documents

Publication Publication Date Title
CN104391948A (zh) 数据仓库的数据标准化构建方法及系统
WO2020192064A1 (zh) 一种增量数据一致性实现方法及装置
CN109299154B (zh) 一种大数据的数据存储系统及方法
CN102426609B (zh) 一种基于MapReduce编程架构的索引生成方法和装置
US6449619B1 (en) Method and apparatus for pipelining the transformation of information between heterogeneous sets of data sources
CN102750406B (zh) 一种基于模型集和差异模型的电网模型多版本管理方法
CN104751359B (zh) 用于支付清算的系统及方法
WO2012012968A1 (zh) 一种分布式并行数据库系统的数据分区方法
CN103177094B (zh) 一种物联网数据清洗方法
CN102521225A (zh) 增量数据抽取装置和增量数据抽取方法
CN103198159A (zh) 一种基于事务重做的异构集群多副本一致性维护方法
CN102867066B (zh) 数据汇总装置和数据汇总方法
CN105930446A (zh) 一种基于Hadoop分布式技术的电信客户标签生成方法
CN104699857A (zh) 基于知识工程的大数据存储方法
CN103646100A (zh) 报表数据组织模型
CN105022791A (zh) 一种新型的kv分布式数据存储方法
CN102508833A (zh) 数据监控装置及方法
CN102521356B (zh) 基于确定有限状态自动机的正则表达式匹配设备和方法
CN110489490B (zh) 基于分布式数据库的数据存储和查询方法
CN114153809A (zh) 基于数据库日志并行实时增量统计的方法
CN113934797B (zh) 一种银行业超大数据同步方法和系统
CN113961546B (zh) 一种支持在线分析统计的实时查询库设计方法
CN105574074A (zh) 一种基于智能电网wams的时序大数据存储方法
CN109388635A (zh) 一种多值数据基于二进制和字典表的数据存储法
CN114064660A (zh) 基于ElasticSearch的数据结构化分析方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20151221

Address after: 511515 Lianjiang road in Guangdong province Qingyuan City Qingcheng District No. 18 (Qingyuan Power Supply Bureau)

Applicant after: QINGYUAN POWER SUPPLY BUREAU, GUANGDONG POWER GRID CO., LTD.

Applicant after: GUANGZHOU YUENENG INFORMATION TECHNOLOGY CO., LTD.

Address before: 511515 Lianjiang road in Guangdong province Qingyuan City Qingcheng District No. 18 (Qingyuan Power Supply Bureau)

Applicant before: QINGYUAN POWER SUPPLY BUREAU, GUANGDONG POWER GRID CO., LTD.

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200304

Address after: Guangzhou Yuexiu District City, Guangdong province 510060 Dongfeng Road No. 757

Co-patentee after: QINGYUAN POWER SUPPLY BUREAU, GUANGDONG POWER GRID CO., LTD.

Patentee after: GUANGDONG STATE GRID CO., LTD.

Address before: 511515 Lianjiang road in Guangdong province Qingyuan City Qingcheng District No. 18 (Qingyuan Power Supply Bureau)

Co-patentee before: GUANGZHOU YUENENG INFORMATION TECHNOLOGY CO., LTD.

Patentee before: QINGYUAN POWER SUPPLY BUREAU, GUANGDONG POWER GRID CO., LTD.