CN108446145A - 一种分布式文件自动加载mpp数据库方法 - Google Patents
一种分布式文件自动加载mpp数据库方法 Download PDFInfo
- Publication number
- CN108446145A CN108446145A CN201810234422.3A CN201810234422A CN108446145A CN 108446145 A CN108446145 A CN 108446145A CN 201810234422 A CN201810234422 A CN 201810234422A CN 108446145 A CN108446145 A CN 108446145A
- Authority
- CN
- China
- Prior art keywords
- data
- greenplum
- mpp
- newly
- clusters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/445—Program loading or initiating
- G06F9/44521—Dynamic linking or loading; Link editing at or after load time, e.g. Java class loading
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
Abstract
本发明公布了一种分布式文件自动加载MPP数据库方法,包括Hadoop集群、Shell脚本和greenPlum集群,所述Hadoop集群用于在hive数据库中新建一个数据库,此数据库只存储需要同步到greenplum集群中的数据,当有数据写入就会自动同步,所述Shell脚本用于对hive元数据库进行定时检测,如发现特定数据库中发生新增表,或字段数据变更,则将新增或变更数据发送到greenplum master节点,所述greenPlum集群用于将master节点负责接收shell脚本传入的表名称、表字段、字段类型、对应HDFS路径,根据如下信息自动生成greenplum外部表,最终将外部表数据同步转换到内部表,实现数据加载同步工作。
Description
技术领域
本发明涉及数据库领域,具体涉及一种分布式文件自动加载MPP数据库方法。
背景技术
在现有大数据时代,多种大数据工具应用而生,围绕数据仓库工具分为以下几种:Hadoop分布式计算框架,围绕HDFS(分布式文件存储系统)hive建立的数据仓库基本以T+1离线计算为主;GreenPlum为Mpp分布式数据库系统,满足各种Bi用户需求。
随着现有互联网,物联网的发展.产生越来越多的数据,传统关系型数据库已经很难满足数据仓库的清洗和分析,围绕hadoop的大规模分布式计算框架应用而生,其整套框架可以很好的满足数据仓库大数据量的清洗工作,但其本身对sql语言支持有限,且查询响应速度很难满足报表,接口等时效性高需求,所以需要结合greenplum分布式关系型数据库一起使用。
目前技术的主要问题如下:不同数据库之间数据同步,需要在接收数据库预先建立好表,此操作多为人工操作,容易出错且效率不佳;不同数据库之间的数据同步,多为使用第三方ETL工具实现,学习成本以及性能调优,维护都需要大量人力投入。
发明内容
针对上述问题,本发明一种分布式文件自动加载MPP数据库方法,无需在GreenPlum数据库预先建立好对应表结构,释放人力减少人工操作,无需使用第三方ETL工具,采用GreenPlum外部表方式自动映射分布式文件,结合hive元数据.自动完成表名,字段,字段类型获取,最终在将外部表转换为内部表,数据加载速度极快,而且又省去中间大量人为介入。
本发明一种分布式文件自动加载MPP数据库方法,包括Hadoop集群、Shell脚本和greenPlum集群。
进一步地,所述Hadoop集群用于在hive数据库中新建一个数据库,此数据库只存储需要同步到greenplum集群中的数据,当有数据写入就会自动同步。
进一步地,所述Shell脚本用于对hive元数据库进行定时检测,如发现特定数据库中发生新增表,或字段数据变更,则将新增或变更数据发送到greenplum master节点。
进一步地,所述greenPlum集群用于将master节点负责接收shell脚本传入的表名称、表字段、字段类型、对应HDFS路径,根据如下信息自动生成greenplum外部表,最终将外部表数据同步转换到内部表,实现数据加载同步工作。
进一步地,运行时,开始进行shell脚本判定,查看特定数据库中是否有新增表或现有表更新,如果hive元数据没有发现更新 ,则结束执行。
进一步地,运行时,开始进行shell脚本判定,查看特定数据库中是否有新增表或现有表更新,如存在新增表,shell sql脚本获取新增表名称、表字段、表数据、字段类型、HDFS对应路径等需要的数据,外部表数据插入内部表,完成数据加载工作,将HDFS数据转化存储为GP数据,完成数据搬运工作,Gpmaster节点在接收到shell脚本返回值,根据表名称等字段创建外部表指向对应HDFS路径,外部表数据同步转换到内部表,实现数据加载同步工作。
进一步地,在数据加载模块设置有自适应模式单元,用于设置数据加载自适应模式为高扩展性适应MPP数据库的多种加载数据模式以及数据的多种传输模式。
本发明的有益效果是:利用greenplum外部表加载数据方式实现智能化和自动化,做到了分布式文件快速、准确加载数据,减少了对开发人员的依赖性.该方法在某大型互联网公司的使用中,对数据开发速度提升50%,加载速度提升200%。
附图说明
图1为本发明一种分布式文件自动加载MPP数据库方法的架构图。
图2为本发明一种分布式文件自动加载MPP数据库方法的逻辑实现图。
图3为本发明一种分布式文件自动加载MPP数据库方法的逻辑实现图。
具体实施方式
以下结合说明书附图对本发明进一步详细说明。应当理解为,此处所描述的实施例仅用于解释本发明,但并不限定本发明。
本发明一种分布式文件自动加载MPP数据库方法,包括Hadoop集群、Shell脚本和greenPlum集群。
所述Hadoop集群用于在hive数据库中新建一个数据库,此数据库只存储需要同步到greenplum集群中的数据,当有数据写入就会自动同步。
所述Shell脚本用于对hive元数据库进行定时检测,如发现特定数据库中发生新增表,或字段数据变更,则将新增或变更数据发送到greenplum master节点。
所述greenPlum集群用于将master节点负责接收shell脚本传入的表名称、表字段、字段类型、对应HDFS路径,根据如下信息自动生成greenplum外部表,最终将外部表数据同步转换到内部表,实现数据加载同步工作。
运行时,开始进行shell脚本判定,查看特定数据库中是否有新增表或现有表更新,如果hive元数据没有发现更新 ,则结束执行。
运行时,开始进行shell脚本判定,查看特定数据库中是否有新增表或现有表更新,如存在新增表,shell sql脚本获取新增表名称、表字段、表数据、字段类型、HDFS对应路径等需要的数据,外部表数据插入内部表,完成数据加载工作,将HDFS数据转化存储为GP数据,完成数据搬运工作,Gpmaster节点在接收到shell脚本返回值,根据表名称等字段创建外部表指向对应HDFS路径,外部表数据同步转换到内部表,实现数据加载同步工作。
在数据加载模块设置有自适应模式单元,用于设置数据加载自适应模式为高扩展性适应MPP数据库的多种加载数据模式以及数据的多种传输模式。
图1为本发明一种分布式文件自动加载MPP数据库方法的架构图,包括HDFS路径、hive元数据、GPMaster节点和GPSegment。
图2为本发明一种分布式文件自动加载MPP数据库方法的逻辑实现图,运行时,开始进行shell脚本判定,查看特定数据库中是否有新增表或现有表更新,如果hive元数据没有发现更新 ,则结束执行。
图3为本发明一种分布式文件自动加载MPP数据库方法的逻辑实现图,运行时,开始进行shell脚本判定,查看特定数据库中是否有新增表或现有表更新,如存在新增表,shell sql脚本获取新增表名称、表字段、表数据、字段类型、HDFS对应路径等需要的数据,外部表数据插入内部表,完成数据加载工作,将HDFS数据转化存储为GP数据,完成数据搬运工作,Gpmaster节点在接收到shell脚本返回值,根据表名称等字段创建外部表指向对应HDFS路径,外部表数据同步转换到内部表,实现数据加载同步工作。
以上对本发明的实施例进行了详细说明,但所述内容仅为本发明的较佳实施例,不能被认为用于限定本发明的实施范围。凡依本发明范围所作的均等变化与改进等,均应仍归属于本专利涵盖范围之内。
Claims (7)
1.一种分布式文件自动加载MPP数据库方法,其特征在于:包括Hadoop集群、Shell脚本和greenPlum集群。
2.根据权利要求1所述一种分布式文件自动加载MPP数据库方法,其特征在于所述Hadoop集群用于在hive数据库中新建一个数据库,此数据库只存储需要同步到greenplum集群中的数据,当有数据写入就会自动同步。
3.根据权利要求1所述一种分布式文件自动加载MPP数据库方法,其特征在于所述Shell脚本用于对hive元数据库进行定时检测,如发现特定数据库中发生新增表,或字段数据变更,则将新增或变更数据发送到greenplum master节点。
4.根据权利要求1所述一种分布式文件自动加载MPP数据库方法所述greenPlum集群用于将master节点负责接收shell脚本传入的表名称、表字段、字段类型、对应HDFS路径,根据如下信息自动生成greenplum外部表,最终将外部表数据同步转换到内部表,实现数据加载同步工作。
5.根据权利要求1 所述的一种分布式文件自动加载MPP数据库方法,其特征在于运行时,开始进行shell脚本判定,查看特定数据库中是否有新增表或现有表更新,如果hive元数据没有发现更新 ,则结束执行。
6.根据权利要求1所述的一种分布式文件自动加载MPP数据库方法,其特征在于:运行时,开始进行shell脚本判定,查看特定数据库中是否有新增表或现有表更新,如存在新增表,shell sql脚本获取新增表名称、表字段、表数据、字段类型、HDFS对应路径等需要的数据,外部表数据插入内部表,完成数据加载工作,将HDFS数据转化存储为GP数据,完成数据搬运工作,Gpmaster节点在接收到shell脚本返回值,根据表名称等字段创建外部表指向对应HDFS路径,外部表数据同步转换到内部表,实现数据加载同步工作。
7.根据权利要求1所述的一种分布式文件自动加载MPP数据库方法,其特征在于:在数据加载模块设置有自适应模式单元,用于设置数据加载自适应模式为高扩展性适应MPP数据库的多种加载数据模式以及数据的多种传输模式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810234422.3A CN108446145A (zh) | 2018-03-21 | 2018-03-21 | 一种分布式文件自动加载mpp数据库方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810234422.3A CN108446145A (zh) | 2018-03-21 | 2018-03-21 | 一种分布式文件自动加载mpp数据库方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108446145A true CN108446145A (zh) | 2018-08-24 |
Family
ID=63196093
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810234422.3A Pending CN108446145A (zh) | 2018-03-21 | 2018-03-21 | 一种分布式文件自动加载mpp数据库方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108446145A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110209646A (zh) * | 2019-05-14 | 2019-09-06 | 汇通达网络股份有限公司 | 一种基于实时流式计算的数据平台系统 |
CN110943882A (zh) * | 2019-11-12 | 2020-03-31 | 浙江原初数据科技有限公司 | 一种基于联网监测的黑广播实时识别系统及其识别方法 |
CN111625300A (zh) * | 2020-06-08 | 2020-09-04 | 成都信息工程大学 | 一种高效的数据采集加载方法及系统 |
CN112632114A (zh) * | 2019-10-08 | 2021-04-09 | 中国移动通信集团辽宁有限公司 | Mpp数据库快速读取数据的方法、装置及计算设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663020A (zh) * | 2012-03-21 | 2012-09-12 | 北京英孚斯迈特信息技术有限公司 | 一种cdc数据分发方法和装置 |
CN104572895A (zh) * | 2014-12-24 | 2015-04-29 | 天津南大通用数据技术股份有限公司 | MPP数据库与Hadoop集群数据互通方法、工具及实现方法 |
CN105045929A (zh) * | 2015-08-31 | 2015-11-11 | 国家电网公司 | 一种基于mpp构架的分布式关系型数据库 |
CN105069149A (zh) * | 2015-08-24 | 2015-11-18 | 电子科技大学 | 一种面向结构化列式数据的分布式并行数据导入方法 |
CN105279280A (zh) * | 2015-11-16 | 2016-01-27 | 天津南大通用数据技术股份有限公司 | 快速迁移Oracle数据到MPP数据库的方法及工具 |
CN105930384A (zh) * | 2016-04-14 | 2016-09-07 | 南京理工大学 | 基于Hadoop体系的传感云数据存储系统及其实现方法 |
-
2018
- 2018-03-21 CN CN201810234422.3A patent/CN108446145A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663020A (zh) * | 2012-03-21 | 2012-09-12 | 北京英孚斯迈特信息技术有限公司 | 一种cdc数据分发方法和装置 |
CN104572895A (zh) * | 2014-12-24 | 2015-04-29 | 天津南大通用数据技术股份有限公司 | MPP数据库与Hadoop集群数据互通方法、工具及实现方法 |
CN105069149A (zh) * | 2015-08-24 | 2015-11-18 | 电子科技大学 | 一种面向结构化列式数据的分布式并行数据导入方法 |
CN105045929A (zh) * | 2015-08-31 | 2015-11-11 | 国家电网公司 | 一种基于mpp构架的分布式关系型数据库 |
CN105279280A (zh) * | 2015-11-16 | 2016-01-27 | 天津南大通用数据技术股份有限公司 | 快速迁移Oracle数据到MPP数据库的方法及工具 |
CN105930384A (zh) * | 2016-04-14 | 2016-09-07 | 南京理工大学 | 基于Hadoop体系的传感云数据存储系统及其实现方法 |
Non-Patent Citations (1)
Title |
---|
刘荣辉: "《大数据架构技术与实例分析》", 31 January 2018, 东北师范大学出版社 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110209646A (zh) * | 2019-05-14 | 2019-09-06 | 汇通达网络股份有限公司 | 一种基于实时流式计算的数据平台系统 |
CN112632114A (zh) * | 2019-10-08 | 2021-04-09 | 中国移动通信集团辽宁有限公司 | Mpp数据库快速读取数据的方法、装置及计算设备 |
CN112632114B (zh) * | 2019-10-08 | 2024-03-19 | 中国移动通信集团辽宁有限公司 | Mpp数据库快速读取数据的方法、装置及计算设备 |
CN110943882A (zh) * | 2019-11-12 | 2020-03-31 | 浙江原初数据科技有限公司 | 一种基于联网监测的黑广播实时识别系统及其识别方法 |
CN110943882B (zh) * | 2019-11-12 | 2022-03-01 | 浙江原初数据科技有限公司 | 一种基于联网监测的黑广播实时识别系统及其识别方法 |
CN111625300A (zh) * | 2020-06-08 | 2020-09-04 | 成都信息工程大学 | 一种高效的数据采集加载方法及系统 |
CN111625300B (zh) * | 2020-06-08 | 2023-03-24 | 成都信息工程大学 | 一种高效的数据采集加载方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108446145A (zh) | 一种分布式文件自动加载mpp数据库方法 | |
US10628422B2 (en) | Implementing a logically partitioned data warehouse using a container map | |
Zhao et al. | Modeling MongoDB with relational model | |
US10360269B2 (en) | Proxy databases | |
CN101477572B (zh) | 基于tds过渡数据存储技术的动态数据仓库的方法与系统 | |
CN103246749B (zh) | 面向分布式计算的矩阵数据库系统及其查询方法 | |
CN104123392A (zh) | 一种关系型数据库迁移到HBase数据库的工具和方法 | |
CN101593203B (zh) | 带有前处理和后处理的数据库复合查询系统及方法 | |
WO2015062181A1 (zh) | 用于实现多源异构数据资源自动同步的方法 | |
CN104484472A (zh) | 一种混合多种异构数据源的数据库集群及实现方法 | |
CN107895046B (zh) | 一种异构数据集成平台 | |
CN104794247A (zh) | 一种多结构数据库集成查询方法 | |
CN103345502A (zh) | 分布式数据库的事务处理方法和系统 | |
CN101710336A (zh) | 一种利用关系中间件加速数据处理的方法 | |
CN114647716B (zh) | 一种适用于泛化数据仓库的系统 | |
CN104504008A (zh) | 一种基于嵌套的SQL到HBase的数据迁移算法 | |
CN104199955A (zh) | 信息管理系统及方法 | |
CN115687468A (zh) | 一种ETL流程Kettle在分布式服务中处理数据的系统 | |
CN105550351B (zh) | 旅客行程数据即席查询系统及方法 | |
CN107729410A (zh) | 一种适用于电力设备大数据的数据库引擎 | |
CN103942294A (zh) | 智能交通领域中海量数据检索的查询规划方法 | |
Wang et al. | Multi-source heterogeneous data integration technology and its development | |
CN117785871A (zh) | 一种业务模型、软件模型、存储模型高度一致的存储系统 | |
CN103593404B (zh) | 一种数据库一体化在线管理系统实现方法 | |
Wen-bing et al. | Research on heterogeneous digital map resource query algorithm based on web services |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180824 |