CN106599116B - 云平台数据集成管理系统和方法 - Google Patents
云平台数据集成管理系统和方法 Download PDFInfo
- Publication number
- CN106599116B CN106599116B CN201611084553.5A CN201611084553A CN106599116B CN 106599116 B CN106599116 B CN 106599116B CN 201611084553 A CN201611084553 A CN 201611084553A CN 106599116 B CN106599116 B CN 106599116B
- Authority
- CN
- China
- Prior art keywords
- server
- data
- file
- task
- cloud
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010354 integration Effects 0.000 title claims abstract description 29
- 238000000034 method Methods 0.000 title abstract description 6
- 238000007726 management method Methods 0.000 claims abstract description 85
- 239000002245 particle Substances 0.000 claims description 10
- 238000012544 monitoring process Methods 0.000 claims description 4
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 230000008520 organization Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种云平台数据集成管理系统和方法,其中,云平台数据集成管理系统,包括基础层和应用层,所述基础层为应用层提供应用支撑;所述基础层,包括元数据管理模块和系统管理模块,所述应用层,包括数据流管理模块、云资源管理模块、计划管理模块、监控台、文件生成器和智能执行引擎。实现高效率、低成本且实施难度低的优点。
Description
技术领域
本发明涉及数据处理领域,尤其涉及云平台数据集成管理系统和方法。
背景技术
随着大数据时代的来临,企业的数据量越来越大,时效性要求越来越高。现有的ETL性能上越来越难满足企业的要求,导致数据延时以及数据不全,影响企业决策分析以及跨部门的协作,成为企业未来发展的瓶颈。现阶段企业需要拥有一套成熟、高效、稳定且灵活的ETL工具来协助企业搬运数据,实现数据即时共享,支撑企业基于大数据的决策分析。
目前大部分企业都已开展了提升ETL效率的项目。其中解决方案如下:
1)沿用原有的软件,重新购置更高性能的机器,满足现有的需求。
2)并行执行ETL任务,同时打开多台机器,按经验设置ETL任务的执行时间安排执行计划。
3)将巨大数据的库表进行分区,并对每个分区安排执行任务,并发对数据进行数据迁移。
上述解决方案存在以下缺陷:
1、成本高:重新购置机器,成本高,专业ETL技术人员成本高。
2、效率低:虽然能实现并行,但并不能完全利用每台机器的性能。
3、实施难度大:对实施人员技术要求较高,需要有专业的ETL技术和经验,大大增加用人成本与人员的依赖,增大人员流动导致的项目风险。
发明内容
为了克服现有技术的不足,本发明的目的在于提供一种云平台数据集成管理系统和方法,从而实现高效率、低成本且实施难度低的优点。
本发明的目的采用以下技术方案实现:
一种云平台数据集成管理系统,包括基础层和应用层,所述基础层为应用层提供应用支撑;
所述基础层,包括元数据管理模块和系统管理模块,
所述元数据管理模块:管理数据源和目标数据库的数据,
所述系统管理模块:管理集成管理系统的基础信息;
所述应用层,包括数据流管理模块、云资源管理模块、计划管理模块、监控台、文件生成器和智能执行引擎,
所述数据流管理模块:对来自数据源的数据流进行执行文件配置和执行模板管理;
所述文件生成器:通过执行文件配置与执行模板结合,批量生成数据抽取执行文件;
所述云资源管理模块:管理云服务器集群中所有的服务器资源,并通过智能策略配置对服务器资源进行智能的自动分配,从而生成服务器清单和服务器分配策略文件;
所述计划管理模块:对数据抽取执行文件进行管理规划,从而生成任务执行计划文件;
所述智能执行引擎:根据任务执行计划文件、数据抽取执行文件、服务器清单和服务器分配策略文件完成数据抽取任务分配。
优选的,还包括,监控台:监控云平台数据集成管理系统的运行信息。
优选的,所述运行信息包括,数据抽取计划的执行信息、数据抽取的错误信息和服务器资源信息。
优选的,所述智能执行引擎完成数据抽取任务分配:具体为,依据任务执行计划文件、数据抽取执行文件和服务器清单作为参数,通过粒子群算法实现自动分配服务器资源与数据抽取节点的数量。
优选的,通过粒子群算法实现自动分配服务器资源与数据抽取节点的数量具体为:开始时,管理系统为云服务器集群中的每个云服务器分配一个任务执行,当任务执行完后,将当前执行耗时与历史执行耗时平均值进行对比,若任务执行耗时比历史平均值高,则认为该云服务器已经满负荷,不再给该云服务器添加新的任务,保持派发当前任务数给该云服务器;否则,认为该云服务器还能添加更多的任务,则会在当前派发任务数基础上再加一,派发给云服务器。
优选的,若任务执行耗时比历史平均值高15%,则认为该云服务器已经满负荷。
优选的,所述系统管理模块管理集成管理系统的基础信息,包括,系统中的用户、角色、组织机构以及系统的数据权限。
同时本发明还公开了一种数据集成管理方法,包括:
分别进行数据抽取任务、服务器资源和任务执行计划配置;
将上述配置的数据抽取任务、服务器资源和任务执行计划输入到智能执行引擎中,智能执行引擎依据任务执行计划文件、数据抽取执行文件和服务器清单作为参数,实现自动分配服务器资源与数据抽取节点的数量,从而安排任务文件执行;
实时输出任务文件执行的状态信息。
优选的,通过粒子群算法实现自动分配服务器资源与数据抽取节点的数量具体为:开始时,管理系统为云服务器集群中的每个云服务器分配一个任务执行,当任务执行完后,将当前执行耗时与历史执行耗时平均值进行对比,若任务执行耗时比历史平均值高,则认为该云服务器已经满负荷,不再给该云服务器添加新的任务,保持派发当前任务数给该云服务器;否则,认为该云服务器还能添加更多的任务,则会在当前派发任务数基础上再加一,派发给云服务器。
优选的,所述任务文件执行的状态信息,包括服务器运行信息、数据抽取节点运行信息、任务执行信息和执行错误信息。
相比现有技术,本发明的有益效果在于:
高效率:云平台数据集成系统(CDI)的主控能使任务最大并行度执行,从而提供执行效率,减少搬运数据时间,为企业决策增分夺秒。
低成本:数据集成节点云平时在低功耗运行或者停止状态,消耗比较低。在扩展方面,沿用旧的机器接入,没有太多的限制,不用增加新的设备。
实施难度低:通过可视化任务配置与监控,大大降低实施人员的技术要求,降低人员成本,减少人员流动对项目的影响。
通过云平台数据集成系统(CDI)加速数据流转,解决目前企业数据搬运效率低下的问题,企业可更快速、更透彻掌握业务运作,做出准确判断。
附图说明
图1为本发明实施例所述的云平台数据集成管理系统的原理框图;
图2为本发明实施例所述的云平台数据集成管理系统的使用原理框图;
图3为本发明实施例所述的云平台数据集成管理方法的流程图;
图4为本发明实施例所述的云平台数据集成管理方法的使用原理框图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述:
如图1和图2所示,一种云平台数据集成管理系统,包括基础层和应用层,基础层为应用层提供应用支撑;
基础层,包括元数据管理模块和系统管理模块,
元数据管理模块:管理数据源和目标数据库的数据,元数据管理是所有数据抽取的基础,在数据流中所有的类型的数据源和目标数据库中的所有表和字段都通过元数据管理模块进行管理;
系统管理模块:管理集成管理系统的基础信息;
应用层,包括数据流管理模块、云资源管理模块、计划管理模块、监控台、文件生成器和智能执行引擎,
数据流管理模块:对来自数据源的数据流进行执行文件配置和执行模板管理;
文件生成器:通过执行文件配置与执行模板结合,批量生成数据抽取执行文件;
云资源管理模块:管理云服务器集群中所有的服务器资源,并通过智能策略配置对服务器资源进行智能的自动分配,从而生成服务器清单和服务器分配策略文件;
计划管理模块:对数据抽取执行文件进行管理规划,从而生成任务执行计划文件;
智能执行引擎:根据任务执行计划文件、数据抽取执行文件、服务器清单和服务器分配策略文件完成数据抽取任务分配。
优选的,还包括,监控台:监控云平台数据集成管理系统的运行信息,以便更好的制定计划与排查错误。
优选的,运行信息包括,数据抽取计划的执行信息、数据抽取的错误信息和服务器资源信息。
优选的,智能执行引擎完成数据抽取任务分配:具体为,依据任务执行计划文件、数据抽取执行文件和服务器清单作为参数,通过粒子群算法实现自动分配服务器资源与数据抽取节点的数量。
优选的,通过粒子群算法实现自动分配服务器资源与数据抽取节点的数量具体为:开始时,管理系统为云服务器集群中的每个云服务器分配一个任务执行,当任务执行完后,将当前执行耗时与历史执行耗时平均值进行对比,若任务执行耗时比历史平均值高,则认为该云服务器已经满负荷,不再给该云服务器添加新的任务,保持派发当前任务数给该云服务器;否则,认为该云服务器还能添加更多的任务,则会在当前派发任务数基础上再加一,派发给云服务器。
优选的,若任务执行耗时比历史平均值高15%,则认为该云服务器已经满负荷。
优选的,系统管理模块管理集成管理系统的基础信息,包括,系统中的用户、角色、组织机构以及系统的数据权限。
如图3所示,一种数据集成管理方法,包括:
分别进行数据抽取任务、服务器资源和任务执行计划配置;
将上述配置的数据抽取任务、服务器资源和任务执行计划输入到智能执行引擎中,智能执行引擎依据任务执行计划文件、数据抽取执行文件和服务器清单作为参数,实现自动分配服务器资源与数据抽取节点的数量,从而安排任务文件执行;
实时输出任务文件执行的状态信息。
优选的,通过粒子群算法实现自动分配服务器资源与数据抽取节点的数量具体为:开始时,管理系统为云服务器集群中的每个云服务器分配一个任务执行,当任务执行完后,将当前执行耗时与历史执行耗时平均值进行对比,若任务执行耗时比历史平均值高,则认为该云服务器已经满负荷,不再给该云服务器添加新的任务,保持派发当前任务数给该云服务器;否则,认为该云服务器还能添加更多的任务,则会在当前派发任务数基础上再加一,派发给云服务器。
优选的,任务文件执行的状态信息,包括服务器运行信息、数据抽取节点运行信息、任务执行信息和执行错误信息。
数据集成管理方法具体应用如图4所示,配置员通过云平台数据集成系统分别进行数据抽取任务、服务器资源和任务执行计划配置;
云平台数据集成系统自动输入到智能执行引擎中,引擎根据服务器清单、任务执行计划和任务执行文件为参数,通过粒子群算法实现自动分配服务器资源与数据抽取节点的数量并安排任务文件执行,即系统开始时,为每个云服务器分配一个任务执行,当任务执行完后,将当前执行耗时与历史执行耗时平均值进行对比,若任务执行耗时比历史平均值高出15%,系统则认为该云服务器已经满负荷,不再往云服务器添加更多的任务,保持派发当前任务数给云服务器;若任务执行耗时与历史平均值想近,系统则认为该云服务器还可以添加更多的任务,系统会在当前派发任务数基础上再加一,派发给云服务器;
云平台数据集成系统实时输出执行状态信息,包括:服务器运行信息、数据抽取节点运行信息、任务执行信息和执行错误信息等供监控台进行调用,使监控人员能快速掌握任务运行信息。
对本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。
Claims (9)
1.一种云平台数据集成管理系统,其特征在于,包括基础层和应用层,所述基础层为应用层提供应用支撑;
所述基础层,包括元数据管理模块和系统管理模块,
所述元数据管理模块:管理数据源和目标数据库的数据,
所述系统管理模块:管理集成管理系统的基础信息;
所述应用层,包括数据流管理模块、云资源管理模块、计划管理模块、监控台、文件生成器和智能执行引擎,
所述数据流管理模块:对来自数据源的数据流进行执行文件配置和执行模板管理;
所述文件生成器:通过执行文件配置与执行模板结合,批量生成数据抽取执行文件;
所述云资源管理模块:管理云服务器集群中所有的服务器资源,并通过智能策略配置对服务器资源进行智能的自动分配,从而生成服务器清单和服务器分配策略文件;
所述计划管理模块:对数据抽取执行文件进行管理规划,从而生成任务执行计划文件;
所述智能执行引擎:根据任务执行计划文件、数据抽取执行文件、服务器清单和服务器分配策略文件完成数据抽取任务分配;
所述智能执行引擎完成数据抽取任务分配:具体为,依据任务执行计划文件、数据抽取执行文件和服务器清单作为参数,通过粒子群算法实现自动分配服务器资源与数据抽取节点的数量。
2.根据权利要求1所述的云平台数据集成管理系统,其特征在于,还包括,监控台:监控云平台数据集成管理系统的运行信息。
3.根据权利要求2所述的云平台数据集成管理系统,其特征在于,所述运行信息包括,数据抽取计划的执行信息、数据抽取的错误信息和服务器资源信息。
4.根据权利要求1所述的云平台数据集成管理系统,其特征在于,通过粒子群算法实现自动分配服务器资源与数据抽取节点的数量具体为:开始时,管理系统为云服务器集群中的每个云服务器分配一个任务执行,当任务执行完后,将当前执行耗时与历史执行耗时平均值进行对比,若任务执行耗时比历史平均值高,则认为该云服务器已经满负荷,不再给该云服务器添加新的任务,保持派发当前任务数给该云服务器;否则,认为该云服务器还能添加更多的任务,则会在当前派发任务数基础上再加一,派发给云服务器。
5.根据权利要求4所述的云平台数据集成管理系统,其特征在于,若任务执行耗时比历史平均值高15%,则认为该云服务器已经满负荷。
6.根据权利要求1或2所述的云平台数据集成管理系统,其特征在于,所述系统管理模块管理集成管理系统的基础信息,包括,系统中的用户、角色、组织机构以及系统的数据权限。
7.一种基于权利要求1至6任一所述的云平台数据集成管理系统的数据集成管理方法,其特征在于,包括:
分别进行数据抽取任务、服务器资源和任务执行计划配置;
将上述配置的数据抽取任务、服务器资源和任务执行计划输入到智能执行引擎中,智能执行引擎依据任务执行计划文件、数据抽取执行文件和服务器清单作为参数,实现自动分配服务器资源与数据抽取节点的数量,从而安排任务文件执行;
实时输出任务文件执行的状态信息。
8.根据权利要求7所述的数据集成管理方法,其特征在于,通过粒子群算法实现自动分配服务器资源与数据抽取节点的数量具体为:开始时,管理系统为云服务器集群中的每个云服务器分配一个任务执行,当任务执行完后,将当前执行耗时与历史执行耗时平均值进行对比,若任务执行耗时比历史平均值高,则认为该云服务器已经满负荷,不再给该云服务器添加新的任务,保持派发当前任务数给该云服务器;否则,认为该云服务器还能添加更多的任务,则会在当前派发任务数基础上再加一,派发给云服务器。
9.根据权利要求7所述的数据集成管理方法,其特征在于,所述任务文件执行的状态信息,包括服务器运行信息、数据抽取节点运行信息、任务执行信息和执行错误信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611084553.5A CN106599116B (zh) | 2016-11-30 | 2016-11-30 | 云平台数据集成管理系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611084553.5A CN106599116B (zh) | 2016-11-30 | 2016-11-30 | 云平台数据集成管理系统和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106599116A CN106599116A (zh) | 2017-04-26 |
CN106599116B true CN106599116B (zh) | 2019-03-26 |
Family
ID=58594215
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611084553.5A Active CN106599116B (zh) | 2016-11-30 | 2016-11-30 | 云平台数据集成管理系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106599116B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112019592B (zh) * | 2020-07-14 | 2022-07-12 | 御群智能科技(苏州)有限公司 | 基于边缘计算的云制造数据高效处理系统 |
CN111861779A (zh) * | 2020-07-22 | 2020-10-30 | 山东钢铁股份有限公司 | 一种钢铁制造工业的互联网平台系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103955510A (zh) * | 2014-04-30 | 2014-07-30 | 广西电网公司电力科学研究院 | 基于etl云平台上传的海量电力营销数据整合方法 |
CN104915259A (zh) * | 2015-06-15 | 2015-09-16 | 浪潮软件集团有限公司 | 一种应用于分布式采集系统的任务调度方法 |
-
2016
- 2016-11-30 CN CN201611084553.5A patent/CN106599116B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN106599116A (zh) | 2017-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3180695B1 (en) | Systems and methods for auto-scaling a big data system | |
CN105631026A (zh) | 一种安全数据分析系统 | |
CN104239144A (zh) | 一种多级分布式任务处理系统 | |
CN102917006B (zh) | 一种实现计算资源和对象权限的统一控制管理方法及装置 | |
CN109617099B (zh) | 一种虚拟储能协调控制系统及其方法 | |
CN103645795A (zh) | 一种基于人工神经网络的云计算数据中心节能方法 | |
CN107861796A (zh) | 一种支持云数据中心能耗优化的虚拟机调度方法 | |
CN105071994B (zh) | 一种海量数据监控系统 | |
CN112882828B (zh) | 基于slurm作业调度系统的昇腾处理器管理和调度方法 | |
CN105357251A (zh) | 一种资源池的管理系统及管理方法 | |
CN106294757A (zh) | 一种基于超图划分的分布式数据库及其集群分区方法 | |
CN106126403A (zh) | Oracle数据库故障分析方法和装置 | |
CN106599116B (zh) | 云平台数据集成管理系统和方法 | |
CN110727508A (zh) | 一种任务调度系统和调度方法 | |
CN106027318A (zh) | 一种基于云计算的虚拟机两级优化调度管理平台 | |
CN107729218A (zh) | 一种监控处理计算资源设备的系统及方法 | |
CN104156505A (zh) | 一种基于用户行为分析的Hadoop集群作业调度方法及装置 | |
CN109542874A (zh) | 导出方法、导出装置、服务器、终端和可读存储介质 | |
CN116974994A (zh) | 一种基于集群的高效能文件协作系统 | |
CN111506407A (zh) | Pull模式与Push模式相结合的资源管理与作业调度方法、系统及介质 | |
CN107589995B (zh) | 一种数据业务播前预览任务调度方法 | |
CN105991366B (zh) | 一种业务监控方法及系统 | |
Chen et al. | Research on the application and security of cloud computing in smart power grids | |
CN104915246A (zh) | 一种基于工作流的高可配分布式实时计算引擎及控制方法 | |
CN108363671A (zh) | 一种接口切换的方法、终端设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |