CN106599116B

CN106599116B - 云平台数据集成管理系统和方法

Info

Publication number: CN106599116B
Application number: CN201611084553.5A
Authority: CN
Inventors: 衡星辰; 陈丰; 张诗军; 甘杉; 范国勇
Original assignee: BN Co; China Southern Power Grid Co Ltd
Current assignee: BN Co; China Southern Power Grid Co Ltd
Priority date: 2016-11-30
Filing date: 2016-11-30
Publication date: 2019-03-26
Anticipated expiration: 2036-11-30
Also published as: CN106599116A

Abstract

本发明公开了一种云平台数据集成管理系统和方法，其中，云平台数据集成管理系统，包括基础层和应用层，所述基础层为应用层提供应用支撑；所述基础层，包括元数据管理模块和系统管理模块，所述应用层，包括数据流管理模块、云资源管理模块、计划管理模块、监控台、文件生成器和智能执行引擎。实现高效率、低成本且实施难度低的优点。

Description

云平台数据集成管理系统和方法

技术领域

本发明涉及数据处理领域，尤其涉及云平台数据集成管理系统和方法。

背景技术

随着大数据时代的来临，企业的数据量越来越大，时效性要求越来越高。现有的ETL性能上越来越难满足企业的要求，导致数据延时以及数据不全，影响企业决策分析以及跨部门的协作，成为企业未来发展的瓶颈。现阶段企业需要拥有一套成熟、高效、稳定且灵活的ETL工具来协助企业搬运数据，实现数据即时共享，支撑企业基于大数据的决策分析。

目前大部分企业都已开展了提升ETL效率的项目。其中解决方案如下：

1)沿用原有的软件，重新购置更高性能的机器，满足现有的需求。

2)并行执行ETL任务，同时打开多台机器，按经验设置ETL任务的执行时间安排执行计划。

3)将巨大数据的库表进行分区，并对每个分区安排执行任务，并发对数据进行数据迁移。

上述解决方案存在以下缺陷：

1、成本高：重新购置机器，成本高，专业ETL技术人员成本高。

2、效率低：虽然能实现并行，但并不能完全利用每台机器的性能。

3、实施难度大：对实施人员技术要求较高，需要有专业的ETL技术和经验，大大增加用人成本与人员的依赖，增大人员流动导致的项目风险。

发明内容

为了克服现有技术的不足，本发明的目的在于提供一种云平台数据集成管理系统和方法，从而实现高效率、低成本且实施难度低的优点。

本发明的目的采用以下技术方案实现：

一种云平台数据集成管理系统，包括基础层和应用层，所述基础层为应用层提供应用支撑；

所述基础层，包括元数据管理模块和系统管理模块，

所述元数据管理模块：管理数据源和目标数据库的数据，

所述系统管理模块：管理集成管理系统的基础信息；

所述应用层，包括数据流管理模块、云资源管理模块、计划管理模块、监控台、文件生成器和智能执行引擎，

所述数据流管理模块：对来自数据源的数据流进行执行文件配置和执行模板管理；

所述文件生成器：通过执行文件配置与执行模板结合，批量生成数据抽取执行文件；

所述云资源管理模块：管理云服务器集群中所有的服务器资源，并通过智能策略配置对服务器资源进行智能的自动分配，从而生成服务器清单和服务器分配策略文件；

所述计划管理模块：对数据抽取执行文件进行管理规划，从而生成任务执行计划文件；

所述智能执行引擎：根据任务执行计划文件、数据抽取执行文件、服务器清单和服务器分配策略文件完成数据抽取任务分配。

优选的，还包括，监控台：监控云平台数据集成管理系统的运行信息。

优选的，所述运行信息包括，数据抽取计划的执行信息、数据抽取的错误信息和服务器资源信息。

优选的，所述智能执行引擎完成数据抽取任务分配：具体为，依据任务执行计划文件、数据抽取执行文件和服务器清单作为参数，通过粒子群算法实现自动分配服务器资源与数据抽取节点的数量。

优选的，通过粒子群算法实现自动分配服务器资源与数据抽取节点的数量具体为：开始时，管理系统为云服务器集群中的每个云服务器分配一个任务执行，当任务执行完后，将当前执行耗时与历史执行耗时平均值进行对比，若任务执行耗时比历史平均值高，则认为该云服务器已经满负荷，不再给该云服务器添加新的任务，保持派发当前任务数给该云服务器；否则，认为该云服务器还能添加更多的任务，则会在当前派发任务数基础上再加一，派发给云服务器。

优选的，若任务执行耗时比历史平均值高15％，则认为该云服务器已经满负荷。

优选的，所述系统管理模块管理集成管理系统的基础信息，包括，系统中的用户、角色、组织机构以及系统的数据权限。

同时本发明还公开了一种数据集成管理方法，包括：

分别进行数据抽取任务、服务器资源和任务执行计划配置；

将上述配置的数据抽取任务、服务器资源和任务执行计划输入到智能执行引擎中，智能执行引擎依据任务执行计划文件、数据抽取执行文件和服务器清单作为参数，实现自动分配服务器资源与数据抽取节点的数量，从而安排任务文件执行；

实时输出任务文件执行的状态信息。

优选的，所述任务文件执行的状态信息，包括服务器运行信息、数据抽取节点运行信息、任务执行信息和执行错误信息。

相比现有技术，本发明的有益效果在于：

高效率:云平台数据集成系统(CDI)的主控能使任务最大并行度执行，从而提供执行效率，减少搬运数据时间，为企业决策增分夺秒。

低成本:数据集成节点云平时在低功耗运行或者停止状态，消耗比较低。在扩展方面，沿用旧的机器接入，没有太多的限制，不用增加新的设备。

实施难度低:通过可视化任务配置与监控，大大降低实施人员的技术要求，降低人员成本，减少人员流动对项目的影响。

通过云平台数据集成系统(CDI)加速数据流转，解决目前企业数据搬运效率低下的问题，企业可更快速、更透彻掌握业务运作，做出准确判断。

附图说明

图1为本发明实施例所述的云平台数据集成管理系统的原理框图；

图2为本发明实施例所述的云平台数据集成管理系统的使用原理框图；

图3为本发明实施例所述的云平台数据集成管理方法的流程图；

图4为本发明实施例所述的云平台数据集成管理方法的使用原理框图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述：

如图1和图2所示，一种云平台数据集成管理系统，包括基础层和应用层，基础层为应用层提供应用支撑；

基础层，包括元数据管理模块和系统管理模块，

元数据管理模块：管理数据源和目标数据库的数据，元数据管理是所有数据抽取的基础，在数据流中所有的类型的数据源和目标数据库中的所有表和字段都通过元数据管理模块进行管理；

系统管理模块：管理集成管理系统的基础信息；

应用层，包括数据流管理模块、云资源管理模块、计划管理模块、监控台、文件生成器和智能执行引擎，

数据流管理模块：对来自数据源的数据流进行执行文件配置和执行模板管理；

文件生成器：通过执行文件配置与执行模板结合，批量生成数据抽取执行文件；

云资源管理模块：管理云服务器集群中所有的服务器资源，并通过智能策略配置对服务器资源进行智能的自动分配，从而生成服务器清单和服务器分配策略文件；

计划管理模块：对数据抽取执行文件进行管理规划，从而生成任务执行计划文件；

智能执行引擎：根据任务执行计划文件、数据抽取执行文件、服务器清单和服务器分配策略文件完成数据抽取任务分配。

优选的，还包括，监控台：监控云平台数据集成管理系统的运行信息，以便更好的制定计划与排查错误。

优选的，运行信息包括，数据抽取计划的执行信息、数据抽取的错误信息和服务器资源信息。

优选的，智能执行引擎完成数据抽取任务分配：具体为，依据任务执行计划文件、数据抽取执行文件和服务器清单作为参数，通过粒子群算法实现自动分配服务器资源与数据抽取节点的数量。

优选的，系统管理模块管理集成管理系统的基础信息，包括，系统中的用户、角色、组织机构以及系统的数据权限。

如图3所示，一种数据集成管理方法，包括：

分别进行数据抽取任务、服务器资源和任务执行计划配置；

实时输出任务文件执行的状态信息。

优选的，任务文件执行的状态信息，包括服务器运行信息、数据抽取节点运行信息、任务执行信息和执行错误信息。

数据集成管理方法具体应用如图4所示，配置员通过云平台数据集成系统分别进行数据抽取任务、服务器资源和任务执行计划配置；

云平台数据集成系统自动输入到智能执行引擎中，引擎根据服务器清单、任务执行计划和任务执行文件为参数，通过粒子群算法实现自动分配服务器资源与数据抽取节点的数量并安排任务文件执行，即系统开始时，为每个云服务器分配一个任务执行，当任务执行完后，将当前执行耗时与历史执行耗时平均值进行对比，若任务执行耗时比历史平均值高出15％，系统则认为该云服务器已经满负荷，不再往云服务器添加更多的任务，保持派发当前任务数给云服务器；若任务执行耗时与历史平均值想近，系统则认为该云服务器还可以添加更多的任务，系统会在当前派发任务数基础上再加一，派发给云服务器；

云平台数据集成系统实时输出执行状态信息，包括：服务器运行信息、数据抽取节点运行信息、任务执行信息和执行错误信息等供监控台进行调用，使监控人员能快速掌握任务运行信息。

对本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及形变，而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims

1.一种云平台数据集成管理系统，其特征在于，包括基础层和应用层，所述基础层为应用层提供应用支撑；

所述基础层，包括元数据管理模块和系统管理模块，

所述元数据管理模块：管理数据源和目标数据库的数据，

所述系统管理模块：管理集成管理系统的基础信息；

所述智能执行引擎：根据任务执行计划文件、数据抽取执行文件、服务器清单和服务器分配策略文件完成数据抽取任务分配；

所述智能执行引擎完成数据抽取任务分配：具体为，依据任务执行计划文件、数据抽取执行文件和服务器清单作为参数，通过粒子群算法实现自动分配服务器资源与数据抽取节点的数量。

2.根据权利要求1所述的云平台数据集成管理系统，其特征在于，还包括，监控台：监控云平台数据集成管理系统的运行信息。

3.根据权利要求2所述的云平台数据集成管理系统，其特征在于，所述运行信息包括，数据抽取计划的执行信息、数据抽取的错误信息和服务器资源信息。

4.根据权利要求1所述的云平台数据集成管理系统，其特征在于，通过粒子群算法实现自动分配服务器资源与数据抽取节点的数量具体为：开始时，管理系统为云服务器集群中的每个云服务器分配一个任务执行，当任务执行完后，将当前执行耗时与历史执行耗时平均值进行对比，若任务执行耗时比历史平均值高，则认为该云服务器已经满负荷，不再给该云服务器添加新的任务，保持派发当前任务数给该云服务器；否则，认为该云服务器还能添加更多的任务，则会在当前派发任务数基础上再加一，派发给云服务器。

5.根据权利要求4所述的云平台数据集成管理系统，其特征在于，若任务执行耗时比历史平均值高15％，则认为该云服务器已经满负荷。

6.根据权利要求1或2所述的云平台数据集成管理系统，其特征在于，所述系统管理模块管理集成管理系统的基础信息，包括，系统中的用户、角色、组织机构以及系统的数据权限。

7.一种基于权利要求1至6任一所述的云平台数据集成管理系统的数据集成管理方法，其特征在于，包括：

分别进行数据抽取任务、服务器资源和任务执行计划配置；

实时输出任务文件执行的状态信息。

8.根据权利要求7所述的数据集成管理方法，其特征在于，通过粒子群算法实现自动分配服务器资源与数据抽取节点的数量具体为：开始时，管理系统为云服务器集群中的每个云服务器分配一个任务执行，当任务执行完后，将当前执行耗时与历史执行耗时平均值进行对比，若任务执行耗时比历史平均值高，则认为该云服务器已经满负荷，不再给该云服务器添加新的任务，保持派发当前任务数给该云服务器；否则，认为该云服务器还能添加更多的任务，则会在当前派发任务数基础上再加一，派发给云服务器。

9.根据权利要求7所述的数据集成管理方法，其特征在于，所述任务文件执行的状态信息，包括服务器运行信息、数据抽取节点运行信息、任务执行信息和执行错误信息。