CN111259068A - 一种基于数据仓库的数据开发方法及系统 - Google Patents
一种基于数据仓库的数据开发方法及系统 Download PDFInfo
- Publication number
- CN111259068A CN111259068A CN202010346796.1A CN202010346796A CN111259068A CN 111259068 A CN111259068 A CN 111259068A CN 202010346796 A CN202010346796 A CN 202010346796A CN 111259068 A CN111259068 A CN 111259068A
- Authority
- CN
- China
- Prior art keywords
- data
- database
- hive
- metadata
- data development
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于数据仓库的数据开发方法及系统,包括以下步骤:S1、将元数据加载到hive中;S2、在hive上进行数据开发;S3、将步骤S2中数据开发的结果表同步到目标数据库中。本方案通过将元数据加载到hive中,在通过现有的python、SQL等技术在hive上进行数据开发,由于python、SQL等技术是较为现有的技术,因此,技术人员可以根据项目的实际情况对数据开发的流程进行配置调整,同时所需要使用的组件大部分是开源社区免费支持的,各组件可以较为便捷升级版本,达到更好的性能和功能的提升。解决了现有的数据库开发平台扩展性、适应性较差的问题。
Description
技术领域
本发明涉及数据仓库领域,特别涉及一种基于数据仓库的数据开发方法及系统。
背景技术
数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。
现有技术中实现数据仓库上的数据开发,需要实现的步骤有如下步骤: 第一步,购买、部署商业版ETL开发平台。第二步,在商业平台上配置数据入库抽取信息。第三步,写数据开发脚本,用商业平台定时调度。第四步,在商业平台上把开发后的数据抽取到常用数据库中。第五步,第三方应用读取常用数据库。
现有的数据库开发平台有以下缺陷:平台功能不一定适合本项目的实际情况,每个项目的数据开发粒度不一样,采用商业版平台只能采用的是满足开发粒度很细的开发流程,才能覆盖面广,这样导致开发粒度没有那么细的项目必须适应平台的复杂流程,用户体验差。产品质量缺陷无法及时解决,产品本身是闭源的,质量缺陷只能靠产品公司进行bug修改,版本升级来解决,无法调动开源社区的群策群力来快速升级,快速解决问题。
发明内容
本发明的目的在于:提供了一种基于数据仓库的数据开发方法及系统,解决了现有的数据库开发平台功能不一定适合本项目的实际情况,每个项目的数据开发粒度不一样,采用商业版平台只能采用的是满足开发粒度很细的开发流程,才能覆盖面广,这样导致开发粒度没有那么细的项目必须适应平台的复杂流程,用户体验差的问题。
本发明采用的技术方案如下:
一种基于数据仓库的数据开发方法,包括以下步骤:
S1、将元数据加载到hive中;
S2、在hive上进行数据开发;
S3、将步骤S2中数据开发的结果表同步到目标数据库中。
本方案通过将元数据加载到hive中,在通过现有的python、SQL等技术在hive上进行数据开发,由于python、SQL等技术是较为现有的技术,因此,技术人员可以根据项目的实际情况对数据开发的流程进行配置调整,同时所需要使用的组件大部分是开源社区免费支持的,各组件可以较为便捷升级版本,达到更好的性能和功能的提升。解决了现有的数据库开发平台扩展性、适应性较差的问题。
进一步的,所述储存元数据的数据库包括关系型数据库和ES数据库中的至少一种。
进一步的,所述储存元数据的数据库为关系型数据库时,通过Sqoop组件将元数据从关系型数据库加载到hive中。
进一步的,所述储存元数据的数据库为ES数据库时,通过在hive中创建ES映射表将元数据从ES数据库加载到hive中。
进一步的,所述步骤S2中通过运行python程序、调用SQL文件在hive上进行数据开发
进一步的,所述步骤S3中的目标数据库为关系型数据库。
进一步的,所述步骤S3通过Sqoop组件程序,将结果表同步到关系型数据库中。
一种基于数据仓库的数据开发系统,包括数据库、数据仓库和操作端,所述操作端包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令,实现上述的一种基于数据仓库的数据开发方法。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1.本发明一种基于数据仓库的数据开发方法及系统,数据开发粒度可控,各项目对数据治理的粒度不一样,可以通过SQL文件里的SQL组合自己控制开发粒度和口径;
2.本发明一种基于数据仓库的数据开发方法及系统,组件的缺陷可通过多种方式解决,如通过组件版本升级或者在开源社区群策群力咨询得以解决;
3.本发明一种基于数据仓库的数据开发方法及系统,用到的组件全是开源社区免费支持的,对经费不足的项目减轻了负担,降低开发成本;
4.本发明一种基于数据仓库的数据开发方法及系统,各组件免费升级,组件依赖开源社区庞大后援支持,各组件可以跟着社区一起升级版本,达到更好的性能和功能的提升。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,其中:
图1是本发明的数据开发全流程示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合图1对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
入库:指数据文件加载进数据库中的过程。本文特指数据文件加载到Hive的过程
hive:hive是基于Hadoop的一个数据仓库工具,数据仓库数据的主要存储形式。
同步:两种数据存储载体上的数据转换过程。
数据开发:指根据用户的口径,对不同粒度的数据按指定维度进行汇总、统计。
Sqoop:开源组件,主要用于在Hadoop(hive)与传统的关系型数据库,如MySQL、Oracle、Postgres等之间进行数据的传递,可以将一个关系型数据库中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
ES数据库:ES(ElasticSearch)是一个基于Lucene的搜索服务器,它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口,Elasticsearch是用Java语言开发的,并作为Apache许可条款下的开放源码发布,是一种流行的企业级搜索引擎。
实施例1
一种基于数据仓库的数据开发方法,包括以下步骤:
S1、将元数据加载到hive中;
S2、在hive上进行数据开发;
S3、将步骤S2中数据开发的结果表同步到目标数据库中。
本方案通过将元数据加载到hive中,在通过现有的python、SQL等技术在hive上进行数据开发,由于python、SQL等技术是较为现有的技术,因此,技术人员可以根据项目的实际情况对数据开发的流程进行配置调整,同时所需要使用的组件大部分是开源社区免费支持的,各组件可以较为便捷升级版本,达到更好的性能和功能的提升。解决了现有的数据库开发平台扩展性、适应性较差的问题。
实施例2
本实施例在实施例1的基础上进一步的,所述储存元数据的数据库包括关系型数据库和ES数据库中的至少一种。
进一步的,所述储存元数据的数据库为关系型数据库时,通过Sqoop组件将元数据从关系型数据库加载到hive中。
进一步的,所述储存元数据的数据库为ES数据库时,通过在hive中创建ES映射表将元数据从ES数据库加载到hive中。
实施例3
本实施例在实施例1的基础上进一步的,所述步骤S2中通过运行python程序、调用SQL文件在hive上进行数据开发
实施例4
本实施例在实施例1的基础上进一步的,所述步骤S3中的目标数据库为关系型数据库。
进一步的,所述步骤S3通过Sqoop组件程序,将结果表同步到关系型数据库中。
实施例5
一种基于数据仓库的数据开发系统,包括数据库、数据仓库和操作端,所述操作端包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令,实现上述的一种基于数据仓库的数据开发方法。
实施例6
如图1所示,一种基于本方案的数据开发实例,首先,ETL操作端对数据文件执行字符集转换脚本(encode_help.sh),然后执行入库脚本(file2hive.py)将数据文件导入hive中,然后数据开发操作端通过执行脚本(execHQL.py)分别在ODS、DW、DWS和APP中对数据文件进行开发得到结果表,最后数据开发操作端通过执行同步脚本(h2o.py)将结果表同步到关系数据库管理系统RDBMS。其中,入库脚本(file2hive.py)和同步脚本(h2o.py)基于Sqoop组件程序实现,执行脚本(execHQL.py)为用于操作SQL文件的python模板程序。采用本方案,可以通过调整SQL文件里的SQL组合自己控制开发粒度和口径以适应不同的项目需求,同时所需要使用的组件大部分是开源社区免费支持的,各组件可以较为便捷升级版本,达到更好的性能和功能的提升。解决了现有的数据库开发平台扩展性、适应性较差的问题。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (8)
1.一种基于数据仓库的数据开发方法,其特征在于:包括以下步骤:
S1、将元数据加载到hive中;
S2、在hive上进行数据开发;
S3、将步骤S2中数据开发的结果表同步到目标数据库中。
2.根据权利要求1所述的一种基于数据仓库的数据开发方法,其特征在于:所述储存元数据的数据库包括关系型数据库和ES数据库中的至少一种。
3.根据权利要求2所述的一种基于数据仓库的数据开发方法,其特征在于:所述储存元数据的数据库为关系型数据库时,通过Sqoop组件将元数据从关系型数据库加载到hive中。
4.根据权利要求2所述的一种基于数据仓库的数据开发方法,其特征在于:所述储存元数据的数据库为ES数据库时,通过在hive中创建ES映射表将元数据从ES数据库加载到hive中。
5.根据权利要求1所述的一种基于数据仓库的数据开发方法,其特征在于:所述步骤S2中通过运行python程序、调用SQL文件在hive上进行数据开发。
6.根据权利要求1所述的一种基于数据仓库的数据开发方法,其特征在于:所述步骤S3中的目标数据库为关系型数据库。
7.根据权利要求6所述的一种基于数据仓库的数据开发方法,其特征在于:所述步骤S3通过Sqoop组件程序,将结果表同步到关系型数据库中。
8.一种基于数据仓库的数据开发系统,其特征在于:包括数据库、数据仓库和操作端,所述操作端包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令,实现如权利要求1所述的一种基于数据仓库的数据开发方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010346796.1A CN111259068A (zh) | 2020-04-28 | 2020-04-28 | 一种基于数据仓库的数据开发方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010346796.1A CN111259068A (zh) | 2020-04-28 | 2020-04-28 | 一种基于数据仓库的数据开发方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111259068A true CN111259068A (zh) | 2020-06-09 |
Family
ID=70953539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010346796.1A Pending CN111259068A (zh) | 2020-04-28 | 2020-04-28 | 一种基于数据仓库的数据开发方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111259068A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113742360A (zh) * | 2021-08-09 | 2021-12-03 | 广州市易工品科技有限公司 | 基于元数据快速生成异构数据库sql脚本方法和装置 |
CN114611044A (zh) * | 2022-03-18 | 2022-06-10 | 江苏红网技术股份有限公司 | 一种基于数据仓库的数据开发系统及方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105138661A (zh) * | 2015-09-02 | 2015-12-09 | 西北大学 | 一种基于Hadoop的网络安全日志k-means聚类分析系统及方法 |
CN107145542A (zh) * | 2017-04-25 | 2017-09-08 | 上海斐讯数据通信技术有限公司 | 从url中高效提取用户客户端id的方法和系统 |
CN107967316A (zh) * | 2017-11-22 | 2018-04-27 | 平安科技(深圳)有限公司 | 一种数据同步方法、设备及计算机可读存储介质 |
CN108345691A (zh) * | 2018-03-15 | 2018-07-31 | 北京神州泰岳软件股份有限公司 | 数据源通用处理框架构建方法、数据源处理方法及装置 |
CN109189764A (zh) * | 2018-09-20 | 2019-01-11 | 北京桃花岛信息技术有限公司 | 一种基于Hive的高校数据仓库分层设计方法 |
CN109739893A (zh) * | 2018-12-28 | 2019-05-10 | 上海连尚网络科技有限公司 | 一种元数据管理方法、设备及计算机可读介质 |
CN109815219A (zh) * | 2019-02-18 | 2019-05-28 | 国家计算机网络与信息安全管理中心 | 支持多数据库引擎的数据生命周期管理的实现方法 |
-
2020
- 2020-04-28 CN CN202010346796.1A patent/CN111259068A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105138661A (zh) * | 2015-09-02 | 2015-12-09 | 西北大学 | 一种基于Hadoop的网络安全日志k-means聚类分析系统及方法 |
CN107145542A (zh) * | 2017-04-25 | 2017-09-08 | 上海斐讯数据通信技术有限公司 | 从url中高效提取用户客户端id的方法和系统 |
CN107967316A (zh) * | 2017-11-22 | 2018-04-27 | 平安科技(深圳)有限公司 | 一种数据同步方法、设备及计算机可读存储介质 |
CN108345691A (zh) * | 2018-03-15 | 2018-07-31 | 北京神州泰岳软件股份有限公司 | 数据源通用处理框架构建方法、数据源处理方法及装置 |
CN109189764A (zh) * | 2018-09-20 | 2019-01-11 | 北京桃花岛信息技术有限公司 | 一种基于Hive的高校数据仓库分层设计方法 |
CN109739893A (zh) * | 2018-12-28 | 2019-05-10 | 上海连尚网络科技有限公司 | 一种元数据管理方法、设备及计算机可读介质 |
CN109815219A (zh) * | 2019-02-18 | 2019-05-28 | 国家计算机网络与信息安全管理中心 | 支持多数据库引擎的数据生命周期管理的实现方法 |
Non-Patent Citations (1)
Title |
---|
博客园: "数据仓库--通用的数据仓库分层方法", 《HTTPS://WWW.CNBLOGS.COM/ITBOYS/P/10592871.HTML》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113742360A (zh) * | 2021-08-09 | 2021-12-03 | 广州市易工品科技有限公司 | 基于元数据快速生成异构数据库sql脚本方法和装置 |
CN113742360B (zh) * | 2021-08-09 | 2023-12-29 | 广州市易工品科技有限公司 | 基于元数据快速生成异构数据库sql脚本方法和装置 |
CN114611044A (zh) * | 2022-03-18 | 2022-06-10 | 江苏红网技术股份有限公司 | 一种基于数据仓库的数据开发系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11669510B2 (en) | Parallel processing of disjoint change streams into a single stream | |
US10558615B2 (en) | Atomic incremental load for map-reduce systems on append-only file systems | |
US11663033B2 (en) | Design-time information based on run-time artifacts in a distributed computing cluster | |
Herrmann et al. | Living in parallel realities: Co-existing schema versions with a bidirectional database evolution language | |
US8782604B2 (en) | Sandbox support for metadata in running applications | |
US20170357653A1 (en) | Unsupervised method for enriching rdf data sources from denormalized data | |
US10528341B2 (en) | User-configurable database artifacts | |
US11243852B2 (en) | ACL based open transactions in replication environment | |
US20180232404A1 (en) | Self-recomposing program to transform data between schemas | |
US10977011B2 (en) | Structured development for web application frameworks | |
US20090228527A1 (en) | System and method for providing data migration services | |
US8667010B2 (en) | Database table partitioning allowing overlaps used in full text query | |
US9513901B2 (en) | Deploying incremental scripts | |
US10083031B2 (en) | Cognitive feature analytics | |
US9547672B2 (en) | Zero-outage database reorganization | |
US10262055B2 (en) | Selection of data storage settings for an application | |
CN111259068A (zh) | 一种基于数据仓库的数据开发方法及系统 | |
Challawala et al. | MySQL 8 for Big Data: Effective Data Processing with MySQL 8, Hadoop, NoSQL APIs, and Other Big Data Tools | |
CN113139017A (zh) | 一种数据同步方法、装置、电子设备及存储介质 | |
US9747295B1 (en) | Updating a large dataset in an enterprise computer system | |
US20110320474A1 (en) | Availability of Database Objects During Database Operations | |
US20230205510A1 (en) | Upgrading a target system in a continuous integration system | |
US20150213078A1 (en) | Mass delete restriction in a database | |
US20160140117A1 (en) | Asynchronous sql execution tool for zero downtime and migration to hana | |
Aven | Hadoop in 24 Hours, Sams Teach Yourself |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200609 |
|
RJ01 | Rejection of invention patent application after publication |