CN108446145A - 一种分布式文件自动加载mpp数据库方法 - Google Patents

一种分布式文件自动加载mpp数据库方法 Download PDF

Info

Publication number
CN108446145A
CN108446145A CN201810234422.3A CN201810234422A CN108446145A CN 108446145 A CN108446145 A CN 108446145A CN 201810234422 A CN201810234422 A CN 201810234422A CN 108446145 A CN108446145 A CN 108446145A
Authority
CN
China
Prior art keywords
data
greenplum
mpp
newly
clusters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810234422.3A
Other languages
English (en)
Inventor
王姗姗
徐成健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Some Mdt Infotech Ltd In Suzhou
Original Assignee
Some Mdt Infotech Ltd In Suzhou
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Some Mdt Infotech Ltd In Suzhou filed Critical Some Mdt Infotech Ltd In Suzhou
Priority to CN201810234422.3A priority Critical patent/CN108446145A/zh
Publication of CN108446145A publication Critical patent/CN108446145A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44521Dynamic linking or loading; Link editing at or after load time, e.g. Java class loading
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Abstract

本发明公布了一种分布式文件自动加载MPP数据库方法,包括Hadoop集群、Shell脚本和greenPlum集群,所述Hadoop集群用于在hive数据库中新建一个数据库,此数据库只存储需要同步到greenplum集群中的数据,当有数据写入就会自动同步,所述Shell脚本用于对hive元数据库进行定时检测,如发现特定数据库中发生新增表,或字段数据变更,则将新增或变更数据发送到greenplum master节点,所述greenPlum集群用于将master节点负责接收shell脚本传入的表名称、表字段、字段类型、对应HDFS路径,根据如下信息自动生成greenplum外部表,最终将外部表数据同步转换到内部表,实现数据加载同步工作。

Description

一种分布式文件自动加载MPP数据库方法
技术领域
本发明涉及数据库领域,具体涉及一种分布式文件自动加载MPP数据库方法。
背景技术
在现有大数据时代,多种大数据工具应用而生,围绕数据仓库工具分为以下几种:Hadoop分布式计算框架,围绕HDFS(分布式文件存储系统)hive建立的数据仓库基本以T+1离线计算为主;GreenPlum为Mpp分布式数据库系统,满足各种Bi用户需求。
随着现有互联网,物联网的发展.产生越来越多的数据,传统关系型数据库已经很难满足数据仓库的清洗和分析,围绕hadoop的大规模分布式计算框架应用而生,其整套框架可以很好的满足数据仓库大数据量的清洗工作,但其本身对sql语言支持有限,且查询响应速度很难满足报表,接口等时效性高需求,所以需要结合greenplum分布式关系型数据库一起使用。
目前技术的主要问题如下:不同数据库之间数据同步,需要在接收数据库预先建立好表,此操作多为人工操作,容易出错且效率不佳;不同数据库之间的数据同步,多为使用第三方ETL工具实现,学习成本以及性能调优,维护都需要大量人力投入。
发明内容
针对上述问题,本发明一种分布式文件自动加载MPP数据库方法,无需在GreenPlum数据库预先建立好对应表结构,释放人力减少人工操作,无需使用第三方ETL工具,采用GreenPlum外部表方式自动映射分布式文件,结合hive元数据.自动完成表名,字段,字段类型获取,最终在将外部表转换为内部表,数据加载速度极快,而且又省去中间大量人为介入。
本发明一种分布式文件自动加载MPP数据库方法,包括Hadoop集群、Shell脚本和greenPlum集群。
进一步地,所述Hadoop集群用于在hive数据库中新建一个数据库,此数据库只存储需要同步到greenplum集群中的数据,当有数据写入就会自动同步。
进一步地,所述Shell脚本用于对hive元数据库进行定时检测,如发现特定数据库中发生新增表,或字段数据变更,则将新增或变更数据发送到greenplum master节点。
进一步地,所述greenPlum集群用于将master节点负责接收shell脚本传入的表名称、表字段、字段类型、对应HDFS路径,根据如下信息自动生成greenplum外部表,最终将外部表数据同步转换到内部表,实现数据加载同步工作。
进一步地,运行时,开始进行shell脚本判定,查看特定数据库中是否有新增表或现有表更新,如果hive元数据没有发现更新 ,则结束执行。
进一步地,运行时,开始进行shell脚本判定,查看特定数据库中是否有新增表或现有表更新,如存在新增表,shell sql脚本获取新增表名称、表字段、表数据、字段类型、HDFS对应路径等需要的数据,外部表数据插入内部表,完成数据加载工作,将HDFS数据转化存储为GP数据,完成数据搬运工作,Gpmaster节点在接收到shell脚本返回值,根据表名称等字段创建外部表指向对应HDFS路径,外部表数据同步转换到内部表,实现数据加载同步工作。
进一步地,在数据加载模块设置有自适应模式单元,用于设置数据加载自适应模式为高扩展性适应MPP数据库的多种加载数据模式以及数据的多种传输模式。
本发明的有益效果是:利用greenplum外部表加载数据方式实现智能化和自动化,做到了分布式文件快速、准确加载数据,减少了对开发人员的依赖性.该方法在某大型互联网公司的使用中,对数据开发速度提升50%,加载速度提升200%。
附图说明
图1为本发明一种分布式文件自动加载MPP数据库方法的架构图。
图2为本发明一种分布式文件自动加载MPP数据库方法的逻辑实现图。
图3为本发明一种分布式文件自动加载MPP数据库方法的逻辑实现图。
具体实施方式
以下结合说明书附图对本发明进一步详细说明。应当理解为,此处所描述的实施例仅用于解释本发明,但并不限定本发明。
本发明一种分布式文件自动加载MPP数据库方法,包括Hadoop集群、Shell脚本和greenPlum集群。
所述Hadoop集群用于在hive数据库中新建一个数据库,此数据库只存储需要同步到greenplum集群中的数据,当有数据写入就会自动同步。
所述Shell脚本用于对hive元数据库进行定时检测,如发现特定数据库中发生新增表,或字段数据变更,则将新增或变更数据发送到greenplum master节点。
所述greenPlum集群用于将master节点负责接收shell脚本传入的表名称、表字段、字段类型、对应HDFS路径,根据如下信息自动生成greenplum外部表,最终将外部表数据同步转换到内部表,实现数据加载同步工作。
运行时,开始进行shell脚本判定,查看特定数据库中是否有新增表或现有表更新,如果hive元数据没有发现更新 ,则结束执行。
运行时,开始进行shell脚本判定,查看特定数据库中是否有新增表或现有表更新,如存在新增表,shell sql脚本获取新增表名称、表字段、表数据、字段类型、HDFS对应路径等需要的数据,外部表数据插入内部表,完成数据加载工作,将HDFS数据转化存储为GP数据,完成数据搬运工作,Gpmaster节点在接收到shell脚本返回值,根据表名称等字段创建外部表指向对应HDFS路径,外部表数据同步转换到内部表,实现数据加载同步工作。
在数据加载模块设置有自适应模式单元,用于设置数据加载自适应模式为高扩展性适应MPP数据库的多种加载数据模式以及数据的多种传输模式。
图1为本发明一种分布式文件自动加载MPP数据库方法的架构图,包括HDFS路径、hive元数据、GPMaster节点和GPSegment。
图2为本发明一种分布式文件自动加载MPP数据库方法的逻辑实现图,运行时,开始进行shell脚本判定,查看特定数据库中是否有新增表或现有表更新,如果hive元数据没有发现更新 ,则结束执行。
图3为本发明一种分布式文件自动加载MPP数据库方法的逻辑实现图,运行时,开始进行shell脚本判定,查看特定数据库中是否有新增表或现有表更新,如存在新增表,shell sql脚本获取新增表名称、表字段、表数据、字段类型、HDFS对应路径等需要的数据,外部表数据插入内部表,完成数据加载工作,将HDFS数据转化存储为GP数据,完成数据搬运工作,Gpmaster节点在接收到shell脚本返回值,根据表名称等字段创建外部表指向对应HDFS路径,外部表数据同步转换到内部表,实现数据加载同步工作。
以上对本发明的实施例进行了详细说明,但所述内容仅为本发明的较佳实施例,不能被认为用于限定本发明的实施范围。凡依本发明范围所作的均等变化与改进等,均应仍归属于本专利涵盖范围之内。

Claims (7)

1.一种分布式文件自动加载MPP数据库方法,其特征在于:包括Hadoop集群、Shell脚本和greenPlum集群。
2.根据权利要求1所述一种分布式文件自动加载MPP数据库方法,其特征在于所述Hadoop集群用于在hive数据库中新建一个数据库,此数据库只存储需要同步到greenplum集群中的数据,当有数据写入就会自动同步。
3.根据权利要求1所述一种分布式文件自动加载MPP数据库方法,其特征在于所述Shell脚本用于对hive元数据库进行定时检测,如发现特定数据库中发生新增表,或字段数据变更,则将新增或变更数据发送到greenplum master节点。
4.根据权利要求1所述一种分布式文件自动加载MPP数据库方法所述greenPlum集群用于将master节点负责接收shell脚本传入的表名称、表字段、字段类型、对应HDFS路径,根据如下信息自动生成greenplum外部表,最终将外部表数据同步转换到内部表,实现数据加载同步工作。
5.根据权利要求1 所述的一种分布式文件自动加载MPP数据库方法,其特征在于运行时,开始进行shell脚本判定,查看特定数据库中是否有新增表或现有表更新,如果hive元数据没有发现更新 ,则结束执行。
6.根据权利要求1所述的一种分布式文件自动加载MPP数据库方法,其特征在于:运行时,开始进行shell脚本判定,查看特定数据库中是否有新增表或现有表更新,如存在新增表,shell sql脚本获取新增表名称、表字段、表数据、字段类型、HDFS对应路径等需要的数据,外部表数据插入内部表,完成数据加载工作,将HDFS数据转化存储为GP数据,完成数据搬运工作,Gpmaster节点在接收到shell脚本返回值,根据表名称等字段创建外部表指向对应HDFS路径,外部表数据同步转换到内部表,实现数据加载同步工作。
7.根据权利要求1所述的一种分布式文件自动加载MPP数据库方法,其特征在于:在数据加载模块设置有自适应模式单元,用于设置数据加载自适应模式为高扩展性适应MPP数据库的多种加载数据模式以及数据的多种传输模式。
CN201810234422.3A 2018-03-21 2018-03-21 一种分布式文件自动加载mpp数据库方法 Pending CN108446145A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810234422.3A CN108446145A (zh) 2018-03-21 2018-03-21 一种分布式文件自动加载mpp数据库方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810234422.3A CN108446145A (zh) 2018-03-21 2018-03-21 一种分布式文件自动加载mpp数据库方法

Publications (1)

Publication Number Publication Date
CN108446145A true CN108446145A (zh) 2018-08-24

Family

ID=63196093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810234422.3A Pending CN108446145A (zh) 2018-03-21 2018-03-21 一种分布式文件自动加载mpp数据库方法

Country Status (1)

Country Link
CN (1) CN108446145A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209646A (zh) * 2019-05-14 2019-09-06 汇通达网络股份有限公司 一种基于实时流式计算的数据平台系统
CN110943882A (zh) * 2019-11-12 2020-03-31 浙江原初数据科技有限公司 一种基于联网监测的黑广播实时识别系统及其识别方法
CN111625300A (zh) * 2020-06-08 2020-09-04 成都信息工程大学 一种高效的数据采集加载方法及系统
CN112632114A (zh) * 2019-10-08 2021-04-09 中国移动通信集团辽宁有限公司 Mpp数据库快速读取数据的方法、装置及计算设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663020A (zh) * 2012-03-21 2012-09-12 北京英孚斯迈特信息技术有限公司 一种cdc数据分发方法和装置
CN104572895A (zh) * 2014-12-24 2015-04-29 天津南大通用数据技术股份有限公司 MPP数据库与Hadoop集群数据互通方法、工具及实现方法
CN105045929A (zh) * 2015-08-31 2015-11-11 国家电网公司 一种基于mpp构架的分布式关系型数据库
CN105069149A (zh) * 2015-08-24 2015-11-18 电子科技大学 一种面向结构化列式数据的分布式并行数据导入方法
CN105279280A (zh) * 2015-11-16 2016-01-27 天津南大通用数据技术股份有限公司 快速迁移Oracle数据到MPP数据库的方法及工具
CN105930384A (zh) * 2016-04-14 2016-09-07 南京理工大学 基于Hadoop体系的传感云数据存储系统及其实现方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663020A (zh) * 2012-03-21 2012-09-12 北京英孚斯迈特信息技术有限公司 一种cdc数据分发方法和装置
CN104572895A (zh) * 2014-12-24 2015-04-29 天津南大通用数据技术股份有限公司 MPP数据库与Hadoop集群数据互通方法、工具及实现方法
CN105069149A (zh) * 2015-08-24 2015-11-18 电子科技大学 一种面向结构化列式数据的分布式并行数据导入方法
CN105045929A (zh) * 2015-08-31 2015-11-11 国家电网公司 一种基于mpp构架的分布式关系型数据库
CN105279280A (zh) * 2015-11-16 2016-01-27 天津南大通用数据技术股份有限公司 快速迁移Oracle数据到MPP数据库的方法及工具
CN105930384A (zh) * 2016-04-14 2016-09-07 南京理工大学 基于Hadoop体系的传感云数据存储系统及其实现方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘荣辉: "《大数据架构技术与实例分析》", 31 January 2018, 东北师范大学出版社 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209646A (zh) * 2019-05-14 2019-09-06 汇通达网络股份有限公司 一种基于实时流式计算的数据平台系统
CN112632114A (zh) * 2019-10-08 2021-04-09 中国移动通信集团辽宁有限公司 Mpp数据库快速读取数据的方法、装置及计算设备
CN112632114B (zh) * 2019-10-08 2024-03-19 中国移动通信集团辽宁有限公司 Mpp数据库快速读取数据的方法、装置及计算设备
CN110943882A (zh) * 2019-11-12 2020-03-31 浙江原初数据科技有限公司 一种基于联网监测的黑广播实时识别系统及其识别方法
CN110943882B (zh) * 2019-11-12 2022-03-01 浙江原初数据科技有限公司 一种基于联网监测的黑广播实时识别系统及其识别方法
CN111625300A (zh) * 2020-06-08 2020-09-04 成都信息工程大学 一种高效的数据采集加载方法及系统
CN111625300B (zh) * 2020-06-08 2023-03-24 成都信息工程大学 一种高效的数据采集加载方法及系统

Similar Documents

Publication Publication Date Title
CN108446145A (zh) 一种分布式文件自动加载mpp数据库方法
US10628422B2 (en) Implementing a logically partitioned data warehouse using a container map
Zhao et al. Modeling MongoDB with relational model
US10360269B2 (en) Proxy databases
CN101477572B (zh) 基于tds过渡数据存储技术的动态数据仓库的方法与系统
CN103246749B (zh) 面向分布式计算的矩阵数据库系统及其查询方法
CN104123392A (zh) 一种关系型数据库迁移到HBase数据库的工具和方法
CN101593203B (zh) 带有前处理和后处理的数据库复合查询系统及方法
WO2015062181A1 (zh) 用于实现多源异构数据资源自动同步的方法
CN104484472A (zh) 一种混合多种异构数据源的数据库集群及实现方法
CN107895046B (zh) 一种异构数据集成平台
CN104794247A (zh) 一种多结构数据库集成查询方法
CN103345502A (zh) 分布式数据库的事务处理方法和系统
CN101710336A (zh) 一种利用关系中间件加速数据处理的方法
CN114647716B (zh) 一种适用于泛化数据仓库的系统
CN104504008A (zh) 一种基于嵌套的SQL到HBase的数据迁移算法
CN104199955A (zh) 信息管理系统及方法
CN115687468A (zh) 一种ETL流程Kettle在分布式服务中处理数据的系统
CN105550351B (zh) 旅客行程数据即席查询系统及方法
CN107729410A (zh) 一种适用于电力设备大数据的数据库引擎
CN103942294A (zh) 智能交通领域中海量数据检索的查询规划方法
Wang et al. Multi-source heterogeneous data integration technology and its development
CN117785871A (zh) 一种业务模型、软件模型、存储模型高度一致的存储系统
CN103593404B (zh) 一种数据库一体化在线管理系统实现方法
Wen-bing et al. Research on heterogeneous digital map resource query algorithm based on web services

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180824