CN105574188A - 一种数据分维度分层次管理的方法及系统 - Google Patents

一种数据分维度分层次管理的方法及系统 Download PDF

Info

Publication number
CN105574188A
CN105574188A CN201510977181.8A CN201510977181A CN105574188A CN 105574188 A CN105574188 A CN 105574188A CN 201510977181 A CN201510977181 A CN 201510977181A CN 105574188 A CN105574188 A CN 105574188A
Authority
CN
China
Prior art keywords
data
dimension
collection
module
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510977181.8A
Other languages
English (en)
Inventor
陈卓
吴斌奕
张洪沛
王少华
罗诚
铁明珠
李舒燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Purvar Big Data Technology Co Ltd
Original Assignee
Wuhan Purvar Big Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Purvar Big Data Technology Co Ltd filed Critical Wuhan Purvar Big Data Technology Co Ltd
Priority to CN201510977181.8A priority Critical patent/CN105574188A/zh
Publication of CN105574188A publication Critical patent/CN105574188A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种数据分维度分层次管理的方法及系统,其中方法包括以下步骤:步骤1:采用至少一种收集方式收集原始数据;步骤2:将收集到的原始数据存入基本表中,在基本表中对存入数据进行维度拆分;步骤3:将拆分后的原始数据根据维度分别存入多个维度表,并根据所有维度表的外键和关键字建立事实表。本发明对海量数据进行分维度分层次的管理,实现海量数据的收集、存储和快速精准的数据查询,提高数据分析的效率,为企业的决策提供及时准确的数据依据。

Description

一种数据分维度分层次管理的方法及系统
技术领域
本发明涉及一种数据分维度分层次管理的方法及系统,属于计算机技术领域。
背景技术
当前,信息技术和互联网技术的新发展,带来了数据的爆发式增长,数据正在成为驱动经济增长和社会进步的重要基础和战略资源。不论任何规模的企业,无不每时每刻都产生着大量的数据。随着企业信息化的发展,数据的分析和统计成为了企业领导层决策的重要因素。由于企业的业务数据量的迅猛增长,数据库存储的数据量成TB甚至PB级的数据规模,并且数据来源也更加多元化,如何存储这些海量数据并进行快速精准的数据查询,是传统的关系数据库系统无法全部解决的难题。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种,对企业海量业务数据进行分维度分层次的管理,实现海量数据的收集、存储和快速精准的数据查询,提高数据分析的效率,为企业的决策提供及时准确的数据依据的数据分维度分层次管理的方法及系统。
本发明解决上述技术问题的技术方案如下:一种数据分维度分层次管理的方法,包括以下步骤:
步骤1:采用至少一种收集方式收集原始数据;
步骤2:将收集到的原始数据存入基本表中,在基本表中对存入数据进行维度拆分;
步骤3:将拆分后的原始数据根据维度分别存入多个维度表,并根据所有维度表的外键和关键字建立事实表。
本发明的有益效果是:对海量数据进行分维度分层次的管理,实现海量数据的收集、存储和快速精准的数据查询,提高数据分析的效率,为企业的决策提供及时准确的数据依据。每一个事实表都有一组维度表通过关键字与之关联;事实表中存储主要数据,只需查询事实表就可以查询到主要信息,而无需将多个庞大的基本表进行联表查询,同时维度表一般较小,与事实表连接时速度很快,并不影响查询效率。通过这种数据存储结构,可以极大的提高数据查询效率。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,还包括步骤4:将每个维度表中数据根据不同类别创建视图,得到数据立方体;所有维度表对应多维数据立方体。
采用上述进一步方案的有益效果是,事实表和维度表中存储了所有数据各种维度的详细信息,但在根据用户需求做数据分析并展示数据时,往往只需要部分的数据,通过建立多维度数据立方体,可以方便定制数据,聚焦特定的数据。在实际应用中可以任意抽取多维数据立方体中的数据用于Web应用、手机APP应用、微信应用等各种应用的数据分析展示;从数据安全性角度来看,多维度数据立方体是物理上并不存在的虚拟数据集,存储动态的数据集合,即便用户操作数据立方体也无法更改和删除事实表和维度表中的数据,保障了原始数据的安全性。
进一步,所述步骤1具体包括以下步骤:
步骤1.1:确定数据来源,根据数据来源和数据种类选用不同的收集方式和收集工具;
步骤1.2:采用选用的收集方式和收集工具收集数据。
进一步,所述数据来源包括业务系统数据、电子表格、系统运行日志文件、移动终端数据、数据供应商和互联网数据等。
进一步,所述数据种类包括结构化数据、半结构化数据和非结构化数据。
进一步,所述收集方式包括手动收集和自动收集。
采用上述进一步方案的有益效果是,手动收集有Web应用上传、远程文件传输、云存储等方式。自动收集主要采用有ETL工具集收集,运用ETL工具从数据源抽取出所需的数据,进行数据转换、清洗,并加载数据到目标数据存储区。
进一步,所述步骤2具体包括以下步骤:
步骤2.1:将收集到的原始数据存入基本表中;
步骤2.2:对基本表中的原始数据进行预处理、分析和维度拆分,将原始数据按维度分组。
本发明解决上述技术问题的技术方案如下:一种数据分维度分层次管理的系统,包括数据收集模块、维度拆分模块和分表存储模块;
所述数据收集模块用于采用至少一种收集方式收集原始数据;
所述维度拆分模块用于将收集到的原始数据存入基本表中,在基本表中对存入数据进行维度拆分;
所述分表存储模块用于将拆分后的原始数据根据维度分别存入多个维度表,并根据所有维度表的外键和关键字建立事实表。
本发明的有益效果是:每一个事实表都有一组维度表通过关键字与之关联。事实表中存储主要数据,只需查询事实表就可以查询到主要信息,而无需将多个庞大的基本表进行联表查询,同时维度表一般较小,与事实表连接时速度很快,并不影响查询效率。通过这种数据存储结构,可以极大的提高数据查询效率。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,还包括立方体模块;
所述立方体模块用于将每个维度表中数据根据不同类别创建视图,得到数据立方体;所有维度表对应多维数据立方体。
采用上述进一步方案的有益效果是,事实表和维度表中存储了所有数据各种维度的详细信息,但在根据用户需求做数据分析并展示数据时,往往只需要部分的数据,通过建立多维度数据立方体,可以方便定制数据,聚焦特定的数据。在实际应用中可以任意抽取多维数据立方体中的数据用于Web应用、手机APP应用、微信应用等各种应用的数据分析展示;从数据安全性角度来看,多维度数据立方体是物理上并不存在的虚拟数据集,存储动态的数据集合,即便用户操作数据立方体也无法更改和删除事实表和维度表中的数据,保障了原始数据的安全性。
进一步,所述数据收集模块包括来源判断模块和收集模块;
所述来源判断模块用于确定数据来源,根据数据来源和数据种类选用不同的收集方式和收集工具;
所述收集模块用于采用选用的收集方式和收集工具收集数据。
附图说明
图1为本发明实施例1所述的一种数据分维度分层次管理的方法流程图;
图2为本发明实施例1所述的一种数据分维度分层次管理的系统结构框图;
图3为本发明具体示例所述的一种数据分维度分层次管理的方法流程图。
附图中,各标号所代表的部件列表如下:
1、数据收集模块,2、维度拆分模块,3、分表存储模块。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,为本发明实施例1所述的一种数据分维度分层次管理的方法,包括以下步骤:
步骤1:采用至少一种收集方式收集原始数据;
步骤2:将收集到的原始数据存入基本表中,在基本表中对存入数据进行维度拆分;
步骤3:将拆分后的原始数据根据维度分别存入多个维度表,并根据所有维度表的外键和关键字建立事实表。
本发明实施例2所述的方法,在实施例1的基础上,还包括步骤4:将每个维度表中数据根据不同类别创建视图,得到数据立方体;所有维度表对应多维数据立方体。
本发明实施例3所述的方法,在实施例1或2的基础上,所述步骤1具体包括以下步骤:
步骤1.1:确定数据来源,根据数据来源和数据种类选用不同的收集方式和收集工具;
步骤1.2:采用选用的收集方式和收集工具收集数据。
本发明实施例4所述的方法,在实施例3的基础上,所述数据来源包括业务系统数据、电子表格、系统运行日志文件、移动终端数据、数据供应商和互联网数据等。
本发明实施例5所述的方法,在实施例3或4的基础上,所述数据种类包括结构化数据、半结构化数据和非结构化数据。
本发明实施例6所述的方法,在实施例3-5任一实施例的基础上,所述收集方式包括手动收集和自动收集。
本发明实施例7所述的方法,在实施例1-6任一实施例的基础上,所述步骤2具体包括以下步骤:
步骤2.1:将收集到的原始数据存入基本表中;
步骤2.2:对基本表中的原始数据进行预处理、分析和维度拆分,将原始数据按维度分组。
如图2所示,为本发明实施例1所述的一种数据分维度分层次管理的系统,包括数据收集模块1、维度拆分模块2和分表存储模块3;
所述数据收集模块1用于采用至少一种收集方式收集原始数据;
所述维度拆分模块2用于将收集到的原始数据存入基本表中,在基本表中对存入数据进行维度拆分;
所述分表存储模块3用于将拆分后的原始数据根据维度分别存入多个维度表,并根据所有维度表的外键和关键字建立事实表。
本发明实施例2所述的方法,在实施例1的基础上,还包括立方体模块;
所述立方体模块用于将每个维度表中数据根据不同类别创建视图,得到数据立方体;所有维度表对应多维数据立方体。
本发明实施例3所述的方法,在实施例1或2的基础上,所述数据收集模块包括来源判断模块和收集模块;
所述来源判断模块用于确定数据来源,根据数据来源和数据种类选用不同的收集方式和收集工具;
所述收集模块用于采用选用的收集方式和收集工具收集数据。
如图3所示,在具体示例中,本发明所述的一种数据分维度分层次管理的方法,包括以下步骤:
步骤一:确定数据来源,根据数据的来源和种类选用不同的收集方式和收集工具。数据的来源包括有业务系统数据、电子表格、系统运行日志文件、移动终端数据、数据供应商、互联网数据等。数据的种类包括结构化数据、半结构化数据和非结构化数据。针对这些数据来源和种类选择不同的数据收集方式和收集工具。
步骤二:进行数据收集。该步骤运用各种收集方式和收集工具对企业数据进行数据收集。收集方式有手动收集和自动收集两种方式。手动收集有Web应用上传、远程文件传输、云存储等方式。自动收集主要采用有ETL工具集收集,运用ETL工具从数据源抽取出所需的数据,进行数据转换、清洗,并加载数据到目标数据存储区。
步骤三:将收集到的数据存入基本表。该步骤是通过各种方式收集到的原始数据进行数据存储,存入基本表。
步骤四:将基本表中的数据拆分维度。该步骤是通过数据预处理,对数据进行分析,拆分维度,建立多维的数据模型。
步骤五:将基本表中的数据分别存入事实表和维度表。该步骤是将基本表中的数据经过上一步骤的拆分维度后,分别存入事实表和维度表中。事实表是主表,包含了所有维度的外键。维度表是各个维度对应的表,存储维度的主键和其他信息。每一个事实表都有一组维度表通过关键字与之关联。事实表中存储主要数据,只需查询事实表就可以查询到主要信息,而无需将多个庞大的基本表进行联表查询,同时维度表一般较小,与事实表连接时速度很快,并不影响查询效率。通过这种数据存储结构,可以极大的提高数据查询效率。
步骤六:通过创建视图建立多维度数据立方体。事实表和维度表中存储了所有数据各种维度的详细信息,但在根据用户需求做数据分析并展示数据时,往往只需要部分的数据,通过建立多维度数据立方体,可以方便定制数据,聚焦特定的数据。在实际应用中可以任意抽取多维数据立方体中的数据用于Web应用、手机APP应用、微信应用等各种应用的数据分析展示。
从数据安全性角度来看,多维度数据立方体是物理上并不存在的虚拟数据集,存储动态的数据集合,即便用户操作数据立方体也无法更改和删除事实表和维度表中的数据,保障了原始数据的安全性。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据分维度分层次管理的方法,其特征在于,包括以下步骤:
步骤1:采用至少一种收集方式收集原始数据;
步骤2:将收集到的原始数据存入基本表中,在基本表中对存入数据进行维度拆分;
步骤3:将拆分后的原始数据根据维度分别存入多个维度表,并根据所有维度表的外键和关键字建立事实表。
2.根据权利要求1所述的一种数据分维度分层次管理的方法,其特征在于,所述步骤1具体包括以下步骤:
步骤1.1:确定数据来源,根据数据来源和数据种类选用不同的收集方式和收集工具;
步骤1.2:采用选用的收集方式和收集工具收集数据。
3.根据权利要求2所述的一种数据分维度分层次管理的方法,其特征在于,所述数据来源包括业务系统数据、电子表格、系统运行日志文件、移动终端数据、数据供应商和互联网数据。
4.根据权利要求2所述的一种数据分维度分层次管理的方法,其特征在于,所述数据种类包括结构化数据、半结构化数据和非结构化数据。
5.根据权利要求2所述的一种数据分维度分层次管理的方法,其特征在于,所述收集方式包括手动收集和自动收集。
6.根据权利要求1-5任一项所述的一种数据分维度分层次管理的方法,其特征在于,所述步骤2具体包括以下步骤:
步骤2.1:将收集到的原始数据存入基本表中;
步骤2.2:对基本表中的原始数据进行预处理、分析和维度拆分,将原始数据按维度分组。
7.根据权利要求6所述的一种数据分维度分层次管理的方法,其特征在于,还包括步骤4:将每个维度表中数据根据不同类别创建视图,得到数据立方体;所有维度表对应多维数据立方体。
8.一种数据分维度分层次管理的系统,其特征在于,包括数据收集模块、维度拆分模块和分表存储模块;
所述数据收集模块用于采用至少一种收集方式收集原始数据;
所述维度拆分模块用于将收集到的原始数据存入基本表中,在基本表中对存入数据进行维度拆分;
所述分表存储模块用于将拆分后的原始数据根据维度分别存入多个维度表,并根据所有维度表的外键和关键字建立事实表。
9.根据权利要求8所述的一种数据分维度分层次管理的系统,其特征在于,所述数据收集模块包括来源判断模块和收集模块;
所述来源判断模块用于确定数据来源,根据数据来源和数据种类选用不同的收集方式和收集工具;
所述收集模块用于采用选用的收集方式和收集工具收集数据。
10.根据权利要求8或9所述的一种数据分维度分层次管理的系统,其特征在于,还包括立方体模块;
所述立方体模块用于将每个维度表中数据根据不同类别创建视图,得到数据立方体;所有维度表对应多维数据立方体。
CN201510977181.8A 2015-12-23 2015-12-23 一种数据分维度分层次管理的方法及系统 Pending CN105574188A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510977181.8A CN105574188A (zh) 2015-12-23 2015-12-23 一种数据分维度分层次管理的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510977181.8A CN105574188A (zh) 2015-12-23 2015-12-23 一种数据分维度分层次管理的方法及系统

Publications (1)

Publication Number Publication Date
CN105574188A true CN105574188A (zh) 2016-05-11

Family

ID=55884319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510977181.8A Pending CN105574188A (zh) 2015-12-23 2015-12-23 一种数据分维度分层次管理的方法及系统

Country Status (1)

Country Link
CN (1) CN105574188A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649436A (zh) * 2016-09-08 2017-05-10 东软集团股份有限公司 数据归档方法与装置
CN106776709A (zh) * 2016-11-15 2017-05-31 山东浪潮云服务信息科技有限公司 一种企业信息的处理方法及装置
CN107395418A (zh) * 2017-07-21 2017-11-24 暴风集团股份有限公司 网络行为数据的统计处理方法、系统及服务器
CN110866722A (zh) * 2019-11-12 2020-03-06 上海燕汐软件信息科技有限公司 业务处理系统及方法
CN112559516A (zh) * 2020-11-25 2021-03-26 成都中科大旗软件股份有限公司 基于数仓实现多维立方体数据分析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521374A (zh) * 2011-12-20 2012-06-27 南京捷梭软件科技有限公司 基于关系型联机分析处理的智能数据聚集方法及其系统
CN103793422A (zh) * 2012-10-31 2014-05-14 国际商业机器公司 基于增强星型模型的立方体元数据及查询语句生成
CN103853820A (zh) * 2014-02-20 2014-06-11 北京用友政务软件有限公司 一种数据处理方法及系统
CN104391948A (zh) * 2014-12-01 2015-03-04 广东电网有限责任公司清远供电局 数据仓库的数据标准化构建方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521374A (zh) * 2011-12-20 2012-06-27 南京捷梭软件科技有限公司 基于关系型联机分析处理的智能数据聚集方法及其系统
CN103793422A (zh) * 2012-10-31 2014-05-14 国际商业机器公司 基于增强星型模型的立方体元数据及查询语句生成
CN103853820A (zh) * 2014-02-20 2014-06-11 北京用友政务软件有限公司 一种数据处理方法及系统
CN104391948A (zh) * 2014-12-01 2015-03-04 广东电网有限责任公司清远供电局 数据仓库的数据标准化构建方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649436A (zh) * 2016-09-08 2017-05-10 东软集团股份有限公司 数据归档方法与装置
CN106776709A (zh) * 2016-11-15 2017-05-31 山东浪潮云服务信息科技有限公司 一种企业信息的处理方法及装置
CN107395418A (zh) * 2017-07-21 2017-11-24 暴风集团股份有限公司 网络行为数据的统计处理方法、系统及服务器
CN110866722A (zh) * 2019-11-12 2020-03-06 上海燕汐软件信息科技有限公司 业务处理系统及方法
CN112559516A (zh) * 2020-11-25 2021-03-26 成都中科大旗软件股份有限公司 基于数仓实现多维立方体数据分析方法

Similar Documents

Publication Publication Date Title
CN105574188A (zh) 一种数据分维度分层次管理的方法及系统
Han et al. Hgrid: A data model for large geospatial data sets in hbase
CN102419752B (zh) 一种工业数据库报文存储方法
CN102214176B (zh) 超大维表的切分与表连接方法
CN100498785C (zh) 一种联机分析处理系统中多维数据读写的方法和装置
CN104252489A (zh) 一种根据经纬度数据快速获得位置文字描述信息的方法
CN106611246A (zh) 一种国土资源综合管理系统
CN102982103A (zh) 一种olap海量多维数据维存储方法
CN101566981A (zh) 分析处理系统中建立动态虚拟数据仓库的方法
CN102855332A (zh) 一种基于图形数据库的图形配置管理数据库
CN104794221A (zh) 一种基于业务对象的多维数据分析系统
CN104462258A (zh) 一种多版本的非结构化模型的组织管理方法
CN104035956A (zh) 一种基于分布式列存储的时间序列数据存储方法
CN102375827A (zh) 一种对版本化的电网模型数据库进行快速加载的方法
CN103870557A (zh) 基于数据库的电子档案存储系统
CN104462588A (zh) 一种基于云数据库的知识产权检索系统
CN107273443A (zh) 一种基于大数据模型元数据的混合索引方法
Min et al. Data mining and economic forecasting in DW-based economical decision support system
CN116578628A (zh) 一种长江航道大数据业务分析方法及装置
CN102945271A (zh) 一种单宗地多次变更历史关系的简化存储和回溯方法
CN106372121A (zh) 服务器及数据处理方法
Sun et al. Application of improved storage technology in Intelligent Transportation System.
NH et al. Development of global soil information facilities
Jia et al. Research on real time data warehouse architecture
CN103761679A (zh) 一种典型工况差异比较的方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160511