CN110119391A - 一种基于服务数据的数据仓库创建方法及数据仓库 - Google Patents
一种基于服务数据的数据仓库创建方法及数据仓库 Download PDFInfo
- Publication number
- CN110119391A CN110119391A CN201910399114.0A CN201910399114A CN110119391A CN 110119391 A CN110119391 A CN 110119391A CN 201910399114 A CN201910399114 A CN 201910399114A CN 110119391 A CN110119391 A CN 110119391A
- Authority
- CN
- China
- Prior art keywords
- data
- layer
- warehouse
- service
- data warehouse
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
Abstract
本发明公开了一种基于服务数据的数据仓库创建方法及数据仓库,包括:在所述数据仓库创建多个相关数据层;基于预设算法,对各层数据加工与处理进行初始化;采集服务数据;基于上述初始化,对所述服务数据进行加工与处理。本发明可对多数据源进行整合、对数据进行建模加工,并设置有统一的数据标准,为基于服务数据的数据仓库创建提供良好的解决方案。
Description
技术领域
本发明涉及大数据技术领域,具体涉及一种基于服务数据的数据仓库创建方法及数据仓库。
背景技术
随着计算机存储能力的提升和复杂算法的发展,近年来网络数据量成指数级增长,科学数据处理、商业智能数据分析等具有海量数据需求的应用变得越来越普遍,传统的Oracle(mysql)+sql技术架构已不能满足大数据处理要求,对于数据仓库的搭建,业界比较常用的是分布式+ETL的方式,但是基于服务的分布式+ETL数据仓库技术却一直没有比较好的解决方案。
发明内容
针对上述现有技术中的缺陷,本发明提供一种基于服务数据的数据仓库创建方法及数据仓库,架构上分为数据采集、数据存储、数据分析、数据服务等,可对多数据源进行整合、对数据进行建模加工,并设置有统一的数据标准,为基于服务数据的数据仓库创建提供良好的解决方案。
本发明具体为:一种基于服务数据的数据仓库创建方法,其特征在于,包括:
在所述数据仓库创建多个相关数据层;
基于预设算法,对各层数据加工与处理进行初始化;
采集服务数据;
基于上述初始化,对所述服务数据进行加工与处理。
其中,所述在所述数据仓库创建多个相关数据层,包括:
创建数据存储层、数据仓库层。
其中,所述在所述数据仓库创建多个相关数据层还包括:
以所述数据仓库层为基础创建主题层、汇总层、应用层。
其中,所述采集服务数据具体包括:
采集业务系统中的服务数据,将采集的服务数据存储在所述数据存储层中。
其中,所述基于上述初始化,对所述服务数据进行加工与处理具体包括:
按照数据仓库层数据加工与处理的要求,对所述数据存储层中存储的数据进行加工与处理。
其中,所述方法还包括:
将处理后的数据存放在所述数据仓库层中。
其中,所述数据采集具体包括:
采用Flume+Kafka+Storm组合架构进行数据采集,实现对海量数据的实时处理。
其中,所述数据加工与处理包括:
对内部数据和外部数据、结构化数据和非结构化数据进行采集;
对脏数据和无效数据进行清洗;
对非结构化数据进行结构化加工;
在结构化数据的基础上进行建模和数据挖掘。
其中,按照数据仓库层数据加工与处理的要求,对所述数据存储层中存储的数据进行加工与处理,具体包括:
根据所述数据处理流程,结合所述主题层、汇总层、应用层的数据加工与处理要求,对所述数据存储层中存储的数据进行有选择的提取,将单一的数据信息转换成体系信息,将点信息数据转换成面信息数据;
所述将加工与处理后的数据存放在所述数据仓库层中,具体包括:
将加工与处理后的数据相应地存放在所述主题层、汇总层、应用层中。
其中,根据所述数据处理流程,按照数据仓库层数据加工与处理的要求,对所述数据存储层中存储的数据进行加工与处理后,所述方法还包括:
所述主题层将本层存放的数据按照各宏观业务分析领域分别进行归类、分析,并将各分析结果进行关联。
第二方面,本发明还提出了一种基于服务数据的数据仓库,适用于上述的基于服务数据的数据仓库创建方法,其特征在于,包括:
数据存储层、数据仓库层、主题层、汇总层、应用层;
所述数据存储层用于保存业务系统的服务数据;
所述数据仓库层用于承载所述主题层、汇总层、应用层的数据;
所述主题层用于将所述服务数据进行综合、归类和分析;
所述汇总层用于支撑固定分析需求,提高数据查询性能;
所述应用层用于为前端应用的展现提供数据。
其中,所述数据存储层保存的服务数据,是采用Flume+Kafka+Storm组合架构在所述业务系统中进行数据采集得到的。
其中,所述主题层包括至少一个主题表,各主题表分别对应不同的宏观业务分析领域及相关分析算法,用于对所述服务数据进行分领域分析。
其中,所述汇总层具体用于:
聚合原子粒度事实表及维度表,用于支撑固定分析需求;生成高粒度表,用于提高数据查询性能。
其中,所述数据仓库建立在Hadoop分布式系统上,所述数据仓库层还用于:
承载数据算法模型,建立数据分析模型立方体;
所述数据算法模型包括数据挖掘模型、分布式计算引擎、高性能机器学习算法库、即席查询功能。
所述数据仓库从架构层次上分为数据采集、数据存储、数据分析、数据服务;数据采集负责从业务系统(各业务子系统)中汇集信息数据,系统支持Kafka、Storm、Flume及传统的ETL采集工具;数据存储提供Hdfs、Hbase等相结合的存储模式,支持海量数据的分布式存储;数据分析支持传统的OLAP分析,支持基于Spark常规机器学习算法以及基于Python的机器学习、数据分析和数据可视化等。
本发明的有益效果体现在:
本发明得到的数据仓库从架构上分为数据采集、数据存储、数据分析、数据服务等,可对多数据源进行整合、对数据进行建模加工,并设置有统一的数据标准,为基于服务数据的数据仓库创建提供良好的解决方案。在数据采集是采用Flume+Kafka+Storm的组合架构,采用Flume和ETL工具作为Kafka的Producer,采用Storm作为Kafka的Consumer,Strom可实现对海量数据的实时处理。数据仓库建立在Hadoop分布式系统之上,可提供多种丰富的算法模型,充分满足业务需求。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1为本发明某一实施例一种基于服务数据的数据仓库创建方法流程图;
图2为本发明另一实施例一种基于服务数据的数据仓库创建方法流程图;
图3为本发明实施例一种基于服务数据的数据仓库结构图;
图4为本发明实施例一种基于服务数据的数据仓库架构图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只作为示例,而不能以此来限制本发明的保护范围。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
如图1所示,为本发明某一实施例一种基于服务数据的数据仓库创建方法,其包括:
在所述数据仓库创建多个相关数据层;
基于预设算法,对各层数据加工与处理进行初始化;
采集服务数据;
基于上述初始化,对所述服务数据进行加工与处理。
其中,所述在所述数据仓库创建多个相关数据层,包括:
创建数据存储层、数据仓库层。
其中,所述在所述数据仓库创建多个相关数据层还包括:
以所述数据仓库层为基础创建主题层、汇总层、应用层。
其中,所述采集服务数据具体包括:
采集业务系统中的服务数据,将采集的服务数据存储在所述数据存储层中。
其中,所述基于上述初始化,对所述服务数据进行加工与处理具体包括:
按照数据仓库层数据加工与处理的要求,对所述数据存储层中存储的数据进行加工与处理。
其中,所述方法还包括:
将处理后的数据存放在所述数据仓库层中。
如图2所示,为本发明一种基于服务数据的数据仓库创建方法实施例,包括:
S11:创建数据存储层、数据仓库层,在所述数据仓库层之上创建主题层、汇总层、应用层;
S12:建立数据处理流程,通过预设算法实现各层数据加工与处理的标准化、规范化;所述预设算法,是在汇集数据资源所需的标准规范信息后制定的,旨在于建立数据标准型数据仓库;
S13:对业务系统中的服务数据进行数据采集,将采集的数据存储在所述数据存储层中;
S14:根据所述数据处理流程,按照数据仓库层数据加工与处理的要求,对所述数据存储层中存储的数据进行加工与处理;
S15:将加工与处理后的数据存放在所述数据仓库层中。
优选地,所述数据采集具体包括:
采用Flume+Kafka+Storm组合架构进行数据采集,实现对海量数据的实时处理。
所述数据采集分为实时数据采集和定时数据采集,实时数据采集主要通过Streamsets配置数据源组件Kafka等方式实现,定时数据采集主要通过Sqoop等采集工具配合ETL流程实现;采用Flume和ETL工具作为Kafka的Producer,采用Storm作为Kafka的Consumer,Strom可实现对海量数据的实时处理;采集的数据存储于数据存储层,在数据仓库层各层次间数据转换提取加载。
优选地,所述数据加工与处理包括:
对内部数据和外部数据、结构化数据和非结构化数据进行采集;
对脏数据和无效数据进行清洗;
对非结构化数据进行结构化加工;
在结构化数据的基础上进行建模和数据挖掘。
优选地,根据所述数据处理流程,按照数据仓库层数据加工与处理的要求,对所述数据存储层中存储的数据进行加工与处理,具体包括:
根据所述数据处理流程,结合所述主题层、汇总层、应用层的数据加工与处理要求,对所述数据存储层中存储的数据进行有选择的提取,将单一的数据信息转换成体系信息,将点信息数据转换成面信息数据;
所述将加工与处理后的数据存放在所述数据仓库层中,具体包括:
将加工与处理后的数据相应地存放在所述主题层、汇总层、应用层中。
优选地,根据所述数据处理流程,按照数据仓库层数据加工与处理的要求,对所述数据存储层中存储的数据进行加工与处理后,还包括:
所述主题层将本层存放的数据按照各宏观业务分析领域分别进行归类、分析,并将各分析结果进行关联。
如图3所示,为本发明一种基于服务数据的数据仓库实施例,适用于上述基于服务数据的数据仓库创建方法,包括:
数据存储层21、数据仓库层22、主题层23、汇总层24、应用层25;
所述数据存储层21用于保存业务系统的服务数据;
所述数据仓库层22用于承载所述主题层23、汇总层24、应用层25的数据;
所述主题层23用于将所述服务数据进行综合、归类和分析;
所述汇总层24用于支撑固定分析需求,提高数据查询性能;
所述应用层25用于为前端应用的展现提供数据。
优选地,所述数据存储层21保存的服务数据,是采用Flume+Kafka+Storm组合架构在所述业务系统中进行数据采集得到的。
所述数据采集分为实时数据采集和定时数据采集,实时数据采集主要通过Streamsets配置数据源组件Kafka等方式实现,定时数据采集主要通过Sqoop等采集工具配合ETL流程实现;采用Flume和ETL工具作为Kafka的Producer,采用Storm作为Kafka的Consumer,Strom可实现对海量数据的实时处理;采集的数据存储于数据存储层,在数据仓库层各层次间数据转换提取加载。
优选地,所述主题层23包括至少一个主题表,各主题表分别对应不同的宏观业务分析领域及相关分析算法,用于对所述服务数据进行分领域分析。
所述主题表可以包括用户主题表、服务商主题表、订单主题表、收入主题表、流量主题表等。
优选地,所述汇总层24具体用于:
聚合原子粒度事实表及维度表,用于支撑固定分析需求;生成高粒度表,用于提高数据查询性能。
优选地,所述数据仓库建立在Hadoop分布式系统上,所述数据仓库层22还用于:
承载数据算法模型,建立数据分析模型立方体;
所述数据算法模型包括数据挖掘模型、分布式计算引擎、高性能机器学习算法库、即席查询功能。
所述数据仓库从架构层次上分为数据采集、数据存储、数据分析、数据服务;数据采集负责从业务系统(各业务子系统)中汇集信息数据,系统支持Kafka、Storm、Flume及传统的ETL采集工具;数据存储提供Hdfs、Hbase等相结合的存储模式,支持海量数据的分布式存储;数据分析支持传统的OLAP分析,支持基于Spark常规机器学习算法以及基于Python的机器学习、数据分析和数据可视化等。相应地,本发明给出一种基于服务数据的数据仓库架构图,如图4所示。
本发明得到的数据仓库从架构上分为数据采集、数据存储、数据分析、数据服务等,可对多数据源进行整合、对数据进行建模加工,并设置有统一的数据标准,为基于服务数据的数据仓库创建提供良好的解决方案。在数据采集是采用Flume+Kafka+Storm的组合架构,采用Flume和ETL工具作为Kafka的Producer,采用Storm作为Kafka的Consumer,Strom可实现对海量数据的实时处理。数据仓库建立在Hadoop分布式系统之上,可提供多种丰富的算法模型,充分满足业务需求。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。
Claims (10)
1.一种基于服务数据的数据仓库创建方法,其特征在于,包括:
在所述数据仓库创建多个相关数据层;
基于预设算法,对各层数据加工与处理进行初始化;
采集服务数据;
基于上述初始化,对所述服务数据进行加工与处理。
2.如权利要求1基于服务数据的数据仓库创建方法,其特征在于,所述在所述数据仓库创建多个相关数据层,包括:
创建数据存储层、数据仓库层。
3.如权利要求2基于服务数据的数据仓库创建方法,其特征在于,所述在所述数据仓库创建多个相关数据层还包括:
以所述数据仓库层为基础创建主题层、汇总层、应用层。
4.如权利要求2基于服务数据的数据仓库创建方法,其特征在于,所述采集服务数据具体包括:
采集业务系统中的服务数据,将采集的服务数据存储在所述数据存储层中。
5.如权利要求2基于服务数据的数据仓库创建方法,其特征在于,所述基于上述初始化,对所述服务数据进行加工与处理具体包括:
按照数据仓库层数据加工与处理的要求,对所述数据存储层中存储的数据进行加工与处理。
6.如权利要求2基于服务数据的数据仓库创建方法,其特征在于,所述方法还包括:
将处理后的数据存放在所述数据仓库层中。
7.一种基于服务数据的数据仓库,适用于如权利要求1-6项任一所述的基于服务数据的数据仓库创建方法,其特征在于,包括:
数据存储层、数据仓库层、主题层、汇总层、应用层;
所述数据存储层用于保存业务系统的服务数据;
所述数据仓库层用于承载所述主题层、汇总层、应用层的数据;
所述主题层用于将所述服务数据进行综合、归类和分析;
所述汇总层用于支撑固定分析需求,提高数据查询性能;
所述应用层用于为前端应用的展现提供数据。
8.如权利要求7所述的数据仓库,其特征在于,所述数据存储层保存的服务数据,是采用Flume+Kafka+Storm组合架构在所述业务系统中进行数据采集得到的。
9.如权利要求8所述的数据仓库,其特征在于,所述主题层包括至少一个主题表,各主题表分别对应不同的宏观业务分析领域及相关分析算法,用于对所述服务数据进行分领域分析。
10.如权利要求9所述的数据仓库,其特征在于,所述汇总层具体用于:
聚合原子粒度事实表及维度表,用于支撑固定分析需求;生成高粒度表,用于提高数据查询性能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910399114.0A CN110119391A (zh) | 2019-05-14 | 2019-05-14 | 一种基于服务数据的数据仓库创建方法及数据仓库 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910399114.0A CN110119391A (zh) | 2019-05-14 | 2019-05-14 | 一种基于服务数据的数据仓库创建方法及数据仓库 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110119391A true CN110119391A (zh) | 2019-08-13 |
Family
ID=67522362
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910399114.0A Pending CN110119391A (zh) | 2019-05-14 | 2019-05-14 | 一种基于服务数据的数据仓库创建方法及数据仓库 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110119391A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111198918A (zh) * | 2020-01-17 | 2020-05-26 | 国网福建省电力有限公司 | 基于大数据平台的数据处理系统及链路优化方法 |
CN112380218A (zh) * | 2020-11-18 | 2021-02-19 | 浪潮天元通信信息系统有限公司 | 一种基于etl进行数据仓库各层数据表汇总的自动触发方法 |
CN113609238A (zh) * | 2021-07-24 | 2021-11-05 | 全图通位置网络有限公司 | 基于Hadoop平台的地理实体空间数据的处理方法及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106339509A (zh) * | 2016-10-26 | 2017-01-18 | 国网山东省电力公司临沂供电公司 | 一种基于大数据技术的电网运营数据共享系统 |
CN108768741A (zh) * | 2018-06-08 | 2018-11-06 | 上海新炬网络技术有限公司 | 一种基于大数据的网管数据互联系统 |
CN109189764A (zh) * | 2018-09-20 | 2019-01-11 | 北京桃花岛信息技术有限公司 | 一种基于Hive的高校数据仓库分层设计方法 |
-
2019
- 2019-05-14 CN CN201910399114.0A patent/CN110119391A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106339509A (zh) * | 2016-10-26 | 2017-01-18 | 国网山东省电力公司临沂供电公司 | 一种基于大数据技术的电网运营数据共享系统 |
CN108768741A (zh) * | 2018-06-08 | 2018-11-06 | 上海新炬网络技术有限公司 | 一种基于大数据的网管数据互联系统 |
CN109189764A (zh) * | 2018-09-20 | 2019-01-11 | 北京桃花岛信息技术有限公司 | 一种基于Hive的高校数据仓库分层设计方法 |
Non-Patent Citations (1)
Title |
---|
朱东妹: "《数据仓库与数据挖掘概念、方法及图书馆应用》", 31 August 2017, 安徽师范大学出版社 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111198918A (zh) * | 2020-01-17 | 2020-05-26 | 国网福建省电力有限公司 | 基于大数据平台的数据处理系统及链路优化方法 |
CN112380218A (zh) * | 2020-11-18 | 2021-02-19 | 浪潮天元通信信息系统有限公司 | 一种基于etl进行数据仓库各层数据表汇总的自动触发方法 |
CN112380218B (zh) * | 2020-11-18 | 2023-03-28 | 浪潮通信信息系统有限公司 | 一种基于etl进行数据仓库各层数据表汇总的自动触发方法 |
CN113609238A (zh) * | 2021-07-24 | 2021-11-05 | 全图通位置网络有限公司 | 基于Hadoop平台的地理实体空间数据的处理方法及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109684352B (zh) | 数据分析系统、方法、存储介质及电子设备 | |
CN104767813B (zh) | 基于openstack的公众行大数据服务平台 | |
CN105045820B (zh) | 一种处理海量级数据的视频图像信息的方法及数据库系统 | |
CN110119391A (zh) | 一种基于服务数据的数据仓库创建方法及数据仓库 | |
CN114638160B (zh) | 一种面向复杂装备数字孪生模型的知识服务方法 | |
Stantic et al. | Opportunities in Big Data Management and Processing. | |
Vaisman et al. | Data warehouses: Next challenges | |
Gao et al. | Big data processing and application research | |
KR101955376B1 (ko) | 비공유 아키텍처 기반의 분산 스트림 처리 엔진에서 관계형 질의를 처리하는 방법, 이를 수행하기 위한 기록 매체 및 장치 | |
Sun et al. | A distributed incremental information acquisition model for large-scale text data | |
Gadu et al. | A knowledge management framework using business intelligence solutions | |
Martinho et al. | An architecture for data warehousing in big data environments | |
Delchev et al. | Big Data Analysis Architecture | |
Shakhovska et al. | Big Data information technology and data space architecture | |
Lou et al. | Research on data query optimization based on SparkSQL and MongoDB | |
US10324927B2 (en) | Data-driven union pruning in a database semantic layer | |
Zhang et al. | Storing fuzzy ontology in fuzzy relational database | |
Puspalatha et al. | Data processing in big data by using Hive interface | |
Nair | Comparative Analysis of Selected Hadoop-based Tools: A Literature Review and User’s Perspective | |
Lou et al. | Hydrological stream data pipeline framework based on IoTDB | |
Zhang | Research on big data storage structure and query optimization | |
Marszałek | Modification of parallelization for fast sort algorithm | |
Bauerdick et al. | HEP Software Foundation Community White Paper Working Group-Data Analysis and Interpretation | |
Khan et al. | Towards an Adaptive Framework for Real-Time Visualization of Streaming Big Data. | |
Yu et al. | Power Information Network Traffic Anomaly Detection Mechanism Based on Big Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190813 |
|
RJ01 | Rejection of invention patent application after publication |