CN108446145A

CN108446145A - 一种分布式文件自动加载mpp数据库方法

Info

Publication number: CN108446145A
Application number: CN201810234422.3A
Authority: CN
Inventors: 王姗姗; 徐成健
Original assignee: Some Mdt Infotech Ltd In Suzhou
Current assignee: Some Mdt Infotech Ltd In Suzhou
Priority date: 2018-03-21
Filing date: 2018-03-21
Publication date: 2018-08-24

Abstract

本发明公布了一种分布式文件自动加载MPP数据库方法，包括Hadoop集群、Shell脚本和greenPlum集群，所述Hadoop集群用于在hive数据库中新建一个数据库，此数据库只存储需要同步到greenplum集群中的数据，当有数据写入就会自动同步，所述Shell脚本用于对hive元数据库进行定时检测，如发现特定数据库中发生新增表，或字段数据变更，则将新增或变更数据发送到greenplum master节点，所述greenPlum集群用于将master节点负责接收shell脚本传入的表名称、表字段、字段类型、对应HDFS路径，根据如下信息自动生成greenplum外部表，最终将外部表数据同步转换到内部表，实现数据加载同步工作。

Description

一种分布式文件自动加载MPP数据库方法

技术领域

本发明涉及数据库领域，具体涉及一种分布式文件自动加载MPP数据库方法。

背景技术

在现有大数据时代,多种大数据工具应用而生,围绕数据仓库工具分为以下几种：Hadoop分布式计算框架,围绕HDFS（分布式文件存储系统）hive建立的数据仓库基本以T+1离线计算为主；GreenPlum为Mpp分布式数据库系统,满足各种Bi用户需求。

随着现有互联网,物联网的发展.产生越来越多的数据，传统关系型数据库已经很难满足数据仓库的清洗和分析，围绕hadoop的大规模分布式计算框架应用而生,其整套框架可以很好的满足数据仓库大数据量的清洗工作，但其本身对sql语言支持有限,且查询响应速度很难满足报表,接口等时效性高需求，所以需要结合greenplum分布式关系型数据库一起使用。

目前技术的主要问题如下：不同数据库之间数据同步,需要在接收数据库预先建立好表，此操作多为人工操作,容易出错且效率不佳；不同数据库之间的数据同步,多为使用第三方ETL工具实现，学习成本以及性能调优,维护都需要大量人力投入。

发明内容

针对上述问题，本发明一种分布式文件自动加载MPP数据库方法，无需在GreenPlum数据库预先建立好对应表结构,释放人力减少人工操作，无需使用第三方ETL工具，采用GreenPlum外部表方式自动映射分布式文件，结合hive元数据.自动完成表名,字段,字段类型获取，最终在将外部表转换为内部表，数据加载速度极快,而且又省去中间大量人为介入。

本发明一种分布式文件自动加载MPP数据库方法，包括Hadoop集群、Shell脚本和greenPlum集群。

进一步地，所述Hadoop集群用于在hive数据库中新建一个数据库，此数据库只存储需要同步到greenplum集群中的数据，当有数据写入就会自动同步。

进一步地，所述Shell脚本用于对hive元数据库进行定时检测，如发现特定数据库中发生新增表，或字段数据变更，则将新增或变更数据发送到greenplum master节点。

进一步地，所述greenPlum集群用于将master节点负责接收shell脚本传入的表名称、表字段、字段类型、对应HDFS路径，根据如下信息自动生成greenplum外部表，最终将外部表数据同步转换到内部表，实现数据加载同步工作。

进一步地，运行时，开始进行shell脚本判定，查看特定数据库中是否有新增表或现有表更新，如果hive元数据没有发现更新，则结束执行。

进一步地，运行时，开始进行shell脚本判定，查看特定数据库中是否有新增表或现有表更新，如存在新增表，shell sql脚本获取新增表名称、表字段、表数据、字段类型、HDFS对应路径等需要的数据，外部表数据插入内部表，完成数据加载工作，将HDFS数据转化存储为GP数据，完成数据搬运工作，Gpmaster节点在接收到shell脚本返回值，根据表名称等字段创建外部表指向对应HDFS路径，外部表数据同步转换到内部表，实现数据加载同步工作。

进一步地，在数据加载模块设置有自适应模式单元，用于设置数据加载自适应模式为高扩展性适应MPP数据库的多种加载数据模式以及数据的多种传输模式。

本发明的有益效果是：利用greenplum外部表加载数据方式实现智能化和自动化,做到了分布式文件快速、准确加载数据,减少了对开发人员的依赖性.该方法在某大型互联网公司的使用中,对数据开发速度提升50%，加载速度提升200%。

附图说明

图1为本发明一种分布式文件自动加载MPP数据库方法的架构图。

图2为本发明一种分布式文件自动加载MPP数据库方法的逻辑实现图。

图3为本发明一种分布式文件自动加载MPP数据库方法的逻辑实现图。

具体实施方式

以下结合说明书附图对本发明进一步详细说明。应当理解为，此处所描述的实施例仅用于解释本发明，但并不限定本发明。

所述Hadoop集群用于在hive数据库中新建一个数据库，此数据库只存储需要同步到greenplum集群中的数据，当有数据写入就会自动同步。

所述Shell脚本用于对hive元数据库进行定时检测，如发现特定数据库中发生新增表，或字段数据变更，则将新增或变更数据发送到greenplum master节点。

所述greenPlum集群用于将master节点负责接收shell脚本传入的表名称、表字段、字段类型、对应HDFS路径，根据如下信息自动生成greenplum外部表，最终将外部表数据同步转换到内部表，实现数据加载同步工作。

运行时，开始进行shell脚本判定，查看特定数据库中是否有新增表或现有表更新，如果hive元数据没有发现更新，则结束执行。

运行时，开始进行shell脚本判定，查看特定数据库中是否有新增表或现有表更新，如存在新增表，shell sql脚本获取新增表名称、表字段、表数据、字段类型、HDFS对应路径等需要的数据，外部表数据插入内部表，完成数据加载工作，将HDFS数据转化存储为GP数据，完成数据搬运工作，Gpmaster节点在接收到shell脚本返回值，根据表名称等字段创建外部表指向对应HDFS路径，外部表数据同步转换到内部表，实现数据加载同步工作。

在数据加载模块设置有自适应模式单元，用于设置数据加载自适应模式为高扩展性适应MPP数据库的多种加载数据模式以及数据的多种传输模式。

图1为本发明一种分布式文件自动加载MPP数据库方法的架构图，包括HDFS路径、hive元数据、GPMaster节点和GPSegment。

图2为本发明一种分布式文件自动加载MPP数据库方法的逻辑实现图，运行时，开始进行shell脚本判定，查看特定数据库中是否有新增表或现有表更新，如果hive元数据没有发现更新，则结束执行。

图3为本发明一种分布式文件自动加载MPP数据库方法的逻辑实现图，运行时，开始进行shell脚本判定，查看特定数据库中是否有新增表或现有表更新，如存在新增表，shell sql脚本获取新增表名称、表字段、表数据、字段类型、HDFS对应路径等需要的数据，外部表数据插入内部表，完成数据加载工作，将HDFS数据转化存储为GP数据，完成数据搬运工作，Gpmaster节点在接收到shell脚本返回值，根据表名称等字段创建外部表指向对应HDFS路径，外部表数据同步转换到内部表，实现数据加载同步工作。

以上对本发明的实施例进行了详细说明，但所述内容仅为本发明的较佳实施例，不能被认为用于限定本发明的实施范围。凡依本发明范围所作的均等变化与改进等，均应仍归属于本专利涵盖范围之内。

Claims

1.一种分布式文件自动加载MPP数据库方法，其特征在于：包括Hadoop集群、Shell脚本和greenPlum集群。

2.根据权利要求1所述一种分布式文件自动加载MPP数据库方法，其特征在于所述Hadoop集群用于在hive数据库中新建一个数据库，此数据库只存储需要同步到greenplum集群中的数据，当有数据写入就会自动同步。

3.根据权利要求1所述一种分布式文件自动加载MPP数据库方法，其特征在于所述Shell脚本用于对hive元数据库进行定时检测，如发现特定数据库中发生新增表，或字段数据变更，则将新增或变更数据发送到greenplum master节点。

4.根据权利要求1所述一种分布式文件自动加载MPP数据库方法所述greenPlum集群用于将master节点负责接收shell脚本传入的表名称、表字段、字段类型、对应HDFS路径，根据如下信息自动生成greenplum外部表，最终将外部表数据同步转换到内部表，实现数据加载同步工作。

5.根据权利要求1 所述的一种分布式文件自动加载MPP数据库方法，其特征在于运行时，开始进行shell脚本判定，查看特定数据库中是否有新增表或现有表更新，如果hive元数据没有发现更新，则结束执行。

6.根据权利要求1所述的一种分布式文件自动加载MPP数据库方法，其特征在于：运行时，开始进行shell脚本判定，查看特定数据库中是否有新增表或现有表更新，如存在新增表，shell sql脚本获取新增表名称、表字段、表数据、字段类型、HDFS对应路径等需要的数据，外部表数据插入内部表，完成数据加载工作，将HDFS数据转化存储为GP数据，完成数据搬运工作，Gpmaster节点在接收到shell脚本返回值，根据表名称等字段创建外部表指向对应HDFS路径，外部表数据同步转换到内部表，实现数据加载同步工作。

7.根据权利要求1所述的一种分布式文件自动加载MPP数据库方法，其特征在于：在数据加载模块设置有自适应模式单元，用于设置数据加载自适应模式为高扩展性适应MPP数据库的多种加载数据模式以及数据的多种传输模式。