CN111158672A - 一种集成化交互式Elastic MapReduce作业管理方法 - Google Patents

一种集成化交互式Elastic MapReduce作业管理方法 Download PDF

Info

Publication number
CN111158672A
CN111158672A CN201911409790.8A CN201911409790A CN111158672A CN 111158672 A CN111158672 A CN 111158672A CN 201911409790 A CN201911409790 A CN 201911409790A CN 111158672 A CN111158672 A CN 111158672A
Authority
CN
China
Prior art keywords
zeppelin
rear end
big data
cluster
interactive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911409790.8A
Other languages
English (en)
Other versions
CN111158672B (zh
Inventor
李涛
刘牧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cloud Information Technology Co Ltd
Original Assignee
Inspur Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Cloud Information Technology Co Ltd filed Critical Inspur Cloud Information Technology Co Ltd
Priority to CN201911409790.8A priority Critical patent/CN111158672B/zh
Publication of CN111158672A publication Critical patent/CN111158672A/zh
Application granted granted Critical
Publication of CN111158672B publication Critical patent/CN111158672B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/34Graphical or visual programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/38Creation or generation of source code for implementing user interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Stored Programmes (AREA)

Abstract

本发明提供一种集成化交互式Elastic MapReduce作业管理方法,属于大数据开发技术领域,(1)通过设计Elastic MapReduce系统实现Hadoop集群托管的功能;(2)通过修改Zeppelin源码,将Zeppelin交互式作业管理的功能集成到Elastic MapReduce系统之中,实现集群托管、作业交互以及协作共享的功能;(3)通过修改Zeppelin Interpreter模块代码,预置常用Interpreter,简化用户操作流程,实现一键启用、自由插拔的功能。

Description

一种集成化交互式Elastic MapReduce作业管理方法
技术领域
本发明涉及大数据开发技术,尤其涉及一种集成化交互式Elastic MapReduce作业管理方法。
背景技术
大数据技术的快速发展正在影响和改变着越来越多行业,传统的数据管理系统难以处理与日俱增正的业务数据,针对大数据处理发展出的Hadoop生态体系正在被越来越广泛的应用到企业或组织的业务数据管理系统之中。通常在开始使用Hadoop或是Spark等分布式处理系统之前,都需要根据自身业务数据的特征,选取机器硬件和软件的配置,部署Hadoop、Spark等应用软件,启动并调试Hadoop或是Spark等分布式处理系统。当大数据系统部署完成投入使用之后,还需要对系统进行日常运营维护,需要持续的投入大量人力物力。Elastic MapReduce服务可以轻松解决这个问题!Elastic MapReduce是一个托管集群平台,直接通过Web页面连接并操作远端的Hadoop分布式处理系统,用户完全不需要关心机器选型、环境配置、集群部署、运行维护等细节,可以将资源集中用于业务应用的开发之中。目前主要的云服务厂商均推出Elastic MapReduce服务,一般用户通过Elastic MapReduce服务控制台开通服务并创建集群资源,然后通过集群CLI使用shell命令行的方式提交作业,或者通过开源的Apache Zeppelin的Web GUI配置Zeppelin Interpreter选项卡并启动,以实现交互式数据探索和作业笔记共享。这个过程中需要操作多个Web页面,并进行一系列配置。不但会降低数据分析工作者的工作效率,而且会造成用户体验不佳等影响。而且针对原生的Apache Zeppelin进行各种配置是一件复杂且繁琐的事情,许多数据分析工作者并不具备相应的经验和技能。
目前针对大数据集群进行资源托管的Elastic MapReduce服务,能够极大简化大数据环境搭建和应用程序部署的流程,使得用户可以快速的预置、部署、扩展或是更新集群配置。数据分析工作者通过Elastic MapReduce服务的Web界面或者是RESTful API创建或是变更Namespace,同时可以将Namespace中的存储资源和计算资源分享给其他数据分析工作者。而且在进行上述操作的过程中,数据分析工作者完全不必担心基础资源的预置、集群配置与优化以及运行维护等问题,Elastic MapReduce服务会完成这些工作。ElasticMapReduce服务拥有“一键式”高可用功能,通过复选框即可以为HDFS、Spark、YARN、Hive、HBase等大数据应用软件配置高可用。而且随着业务的发展,数据分析工作者可以动态地对Namespace的存储资源和计算资源进行扩容,快速地配置成百数千个实例,而不需要暂停正在运行的作业。
发明内容
为了解决以上技术问题,本发明提出了一种基于Zeppelin的集成化交互式Elastic MapReduce作业管理方法,集成了Zeppelin内核的Elastic MapReduce服务,支持通过复选框一键配置Zeppelin Interpreter,提供多种Interpreter,方便数据分析工作者进行数据分析和数据可视化,而且还不需要跳出Elastic MapReduce服务的Web界面。同时系统还提供作业笔记在线保存、离线下载以及分享的功能,方便数据分析工作者使用和分享业务数据洞察。
本发明的技术方案是:
一种集成化交互式Elastic MapReduce作业管理方法,基于Zeppelin集成化交互式Elastic MapReduce作业操作系统,前端提供交互式操作界面,后端负责与Hadoop集群进行通信;后端集成Zeppelin内核,前端实现Zeppelin Interpreter一键安装。
进一步的,
具体步骤如下:
将Angular框架和Spring Boot框架前后端分离;前端负责用户交互界面,提供集群信息展示以及集群配置、作业笔记等文件在线下载功能,后端实现通过RESTful API访问远端大数据集群组件的功能。
进一步的,
前端通过API与后端相连,提供交互式Namespace创建、修改与删除,并且可将Namespace授权给其他用户使用,又可以取消授权。
再进一步的,
每个Namespace中都可以创建、修改、删除大数据应用程序资源,通过选项卡一键配置组件高可用。所述大数据应用程序资源包括HDFS目录、YARN队列、HBase命名空间、Hive数据库。
进一步的,
将修改的Zeppelin内核集成到后端,通过API与前段相连,前端选取并配置作业所需的Interpreter,前端作业提交后,后端负责将作业分发相应的大数据集群组件,作业完成后,将处理结果通过后端返回给前端页面。
进一步的,前端页面的作业笔记会通过后端实时上传到大数据集群的节点,保证数据的安全性。同时,前端提供作业笔记离线下载API,让用户下载使用。
(1)通过设计Elastic MapReduce系统实现Hadoop集群托管的功能;
(2)通过修改Zeppelin源码,将Zeppelin交互式作业管理的功能集成到ElasticMapReduce系统之中,实现集群托管、作业交互以及协作共享的功能;
(3)通过修改Zeppelin Interpreter模块代码,预置常用Interpreter,简化用户操作流程,实现一键启用、自由插拔的功能。
本发明的有益效果是
(1)增加了Hadoop集群的功能性;
(2)提高了Hadoop集群的易用性;
(3)提供了Hadoop集群资源信息的可视化;
(4)提高了Hadoop平台的多元性;
(5)提升了Elastic MapReduce系统作业操作的高效性
(6)简化用户操作流程,优化用户体验。
附图说明
图1是Elastic MapReduce(E-MR)作业管理系统设计架构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
研发高效易用的交互式集成化的Elastic MapReduce作业操作系统,前端提供交互式操作界面,后端负责与Hadoop集群进行通信。后端集成Zeppelin内核,前端实现Zeppelin Interpreter一键安装,轻松实现作业数据分析和数据可视化,分布式作业笔记存储和离线下载,实现对Hadoop集群资源的简单操作和高效利用
体步骤如下:
基于Zeppelin的集成化交互式Elastic MapReduce作业管理系统提供了大数据集群管理的集成解决方案,系统的总体设计思路为Angular框架和Spring Boot框架实现前后端分离。前端负责用户交互界面,提供集群信息展示以及集群配置、作业笔记等文件在线下载功能,后端实现通过RESTful API访问远端大数据集群组件的功能。前端通过API与后端相连,提供交互式Namespace创建、修改与删除,轻松实现资源的隔离,并且可将Namespace授权给其他用户使用,必要时又可以取消授权,方便组织内部进行协作。而且每个Namespace中都可以创建、修改、删除HDFS目录、YARN队列、HBase命名空间、Hive数据库等大数据应用程序资源,通过选项卡一键配置组件高可用。将修改Zeppelin内核集成到后端,通过API与前段相连,前端选取并配置作业所需的Interpreter,前端作业提交后,后端负责将作业分发相应的大数据集群组件,作业完成后,将处理结果通过后端返回给前端页面。前端页面的作业笔记会通过后端实时上传到大数据集群的多个节点,保证数据的安全性。同时,前端提供作业笔记离线下载API,方便用户下载使用。
以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (8)

1.一种交互式Elastic MapReduce作业管理方法,其特征在于,
基于Zeppelin集成化交互式Elastic MapReduce作业操作系统,前端提供交互式操作界面,后端负责与Hadoop集群进行通信;后端集成Zeppelin内核,前端实现ZeppelinInterpreter一键安装。
2.根据权利要求1所述的方法,其特征在于,
具体步骤如下:
将Angular框架和Spring Boot框架前后端分离;前端负责用户交互界面,提供集群信息展示以及集群配置、作业笔记等文件在线下载功能,后端实现通过RESTful API访问远端大数据集群组件的功能。
3.根据权利要求2所述的方法,其特征在于,
前端通过API与后端相连,提供交互式Namespace创建、修改与删除,并且可将Namespace授权给其他用户使用,又可以取消授权。
4.根据权利要求3所述的方法,其特征在于,
每个Namespace中都可以创建、修改、删除大数据应用程序资源,通过选项卡一键配置组件高可用。
5.根据权利要求4所述的方法,其特征在于,
所述大数据应用程序资源包括HDFS目录、YARN队列、HBase命名空间、Hive数据库。
6.根据权利要求1所述的方法,其特征在于,
将修改的Zeppelin内核集成到后端,通过API与前段相连,前端选取并配置作业所需的Interpreter,前端作业提交后,后端负责将作业分发相应的大数据集群组件,作业完成后,将处理结果通过后端返回给前端页面。
7.根据权利要求6所述的方法,其特征在于,
前端页面的作业笔记会通过后端实时上传到大数据集群的节点,保证数据的安全性。
8.根据权利要求7所述的方法,其特征在于,
同时,前端提供作业笔记离线下载API,让用户下载使用。
CN201911409790.8A 2019-12-31 2019-12-31 一种集成化交互式Elastic MapReduce作业管理方法 Active CN111158672B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911409790.8A CN111158672B (zh) 2019-12-31 2019-12-31 一种集成化交互式Elastic MapReduce作业管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911409790.8A CN111158672B (zh) 2019-12-31 2019-12-31 一种集成化交互式Elastic MapReduce作业管理方法

Publications (2)

Publication Number Publication Date
CN111158672A true CN111158672A (zh) 2020-05-15
CN111158672B CN111158672B (zh) 2023-04-21

Family

ID=70559921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911409790.8A Active CN111158672B (zh) 2019-12-31 2019-12-31 一种集成化交互式Elastic MapReduce作业管理方法

Country Status (1)

Country Link
CN (1) CN111158672B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131302A (zh) * 2020-09-08 2020-12-25 银盛支付服务股份有限公司 一种商业数据分析方法及平台
CN112241312A (zh) * 2020-10-27 2021-01-19 浪潮云信息技术股份公司 基于Docker的快捷集成式Elastic MapReduce服务系统及实现方法
CN112291244A (zh) * 2020-10-30 2021-01-29 常州微亿智造科技有限公司 一种工业生产数据实时处理平台系统多租用户方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180341956A1 (en) * 2017-05-26 2018-11-29 Digital River, Inc. Real-Time Web Analytics System and Method
CN109740765A (zh) * 2019-01-31 2019-05-10 成都品果科技有限公司 一种基于亚马逊网络服务器的机器学习系统搭建方法
CN110134564A (zh) * 2019-03-29 2019-08-16 山东浪潮云信息技术有限公司 一种可视化的Kafka集群监控方法
CN110147228A (zh) * 2018-02-13 2019-08-20 北京京东尚科信息技术有限公司 命令行编辑组件和方法
CN110519100A (zh) * 2019-09-03 2019-11-29 浪潮云信息技术有限公司 一种多集群管理方法、终端及计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180341956A1 (en) * 2017-05-26 2018-11-29 Digital River, Inc. Real-Time Web Analytics System and Method
CN110147228A (zh) * 2018-02-13 2019-08-20 北京京东尚科信息技术有限公司 命令行编辑组件和方法
CN109740765A (zh) * 2019-01-31 2019-05-10 成都品果科技有限公司 一种基于亚马逊网络服务器的机器学习系统搭建方法
CN110134564A (zh) * 2019-03-29 2019-08-16 山东浪潮云信息技术有限公司 一种可视化的Kafka集群监控方法
CN110519100A (zh) * 2019-09-03 2019-11-29 浪潮云信息技术有限公司 一种多集群管理方法、终端及计算机可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
网易云计算: "《Zeppelin: 让大数据插上机器学习的翅膀》", 《ZEPPELIN: 让大数据插上机器学习的翅膀》 *
覃伟荣: "Hadoop中改进的共享式存储设备设计", 《计算机工程与设计》 *
覃伟荣;: "Hadoop中改进的共享式存储设备设计" *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131302A (zh) * 2020-09-08 2020-12-25 银盛支付服务股份有限公司 一种商业数据分析方法及平台
CN112131302B (zh) * 2020-09-08 2024-05-07 银盛支付服务股份有限公司 一种商业数据分析方法及平台
CN112241312A (zh) * 2020-10-27 2021-01-19 浪潮云信息技术股份公司 基于Docker的快捷集成式Elastic MapReduce服务系统及实现方法
CN112291244A (zh) * 2020-10-30 2021-01-29 常州微亿智造科技有限公司 一种工业生产数据实时处理平台系统多租用户方法

Also Published As

Publication number Publication date
CN111158672B (zh) 2023-04-21

Similar Documents

Publication Publication Date Title
US11288053B2 (en) Conversion and restoration of computer environments to container-based implementations
US11829742B2 (en) Container-based server environments
US11106455B2 (en) Integration of containers with external elements
US11178207B2 (en) Software version control without affecting a deployed container
US10162666B2 (en) Apparatus, systems and methods for cross-cloud software migration and deployment
Scolati et al. A containerized big data streaming architecture for edge cloud computing on clustered single-board devices
US10061619B2 (en) Thread pool management
US9792290B2 (en) Object store management operations within compute-centric object stores
CA2781496C (en) Porting virtual machine images between platforms
CN111158672B (zh) 一种集成化交互式Elastic MapReduce作业管理方法
US20130304788A1 (en) Application component decomposition and deployment
Naik Docker container-based big data processing system in multiple clouds for everyone
US10191735B2 (en) Language-independent program composition using containers
US10540162B2 (en) Generating service images having scripts for the deployment of services
CN103064742A (zh) 一种hadoop集群的自动部署系统及方法
US20130297795A1 (en) Owner command execution in a multi-tenant cloud hosting environment
US20190207823A1 (en) Dynamic delivery of software functions
JP2014078085A (ja) 実行制御プログラム、実行制御方法および情報処理装置
US20180285203A1 (en) Exploiting object tags to produce a work order across backup engines for a backup job
US10698722B2 (en) Virtual machine migration across cloud computing providers
US11625282B2 (en) Systems and methods of remote machine learning training with remote submission and execution through a coding notebook
Zburivsky Hadoop cluster deployment
Sukhoroslov Integration of Everest platform with BOINC-based desktop grids
CN112241312B (zh) 基于Docker的快捷集成式Elastic MapReduce服务系统及实现方法
Hurley et al. Self-managing data in the clouds

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 250100 No. 1036 Tidal Road, Jinan High-tech Zone, Shandong Province, S01 Building, Tidal Science Park

Applicant after: Inspur cloud Information Technology Co.,Ltd.

Address before: 250100 No. 1036 Tidal Road, Jinan High-tech Zone, Shandong Province, S01 Building, Tidal Science Park

Applicant before: Tidal Cloud Information Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant