CN112882728A - 一种基于Yarn的大数据平台实时计算服务Flink的部署方法 - Google Patents

一种基于Yarn的大数据平台实时计算服务Flink的部署方法 Download PDF

Info

Publication number
CN112882728A
CN112882728A CN202110317799.7A CN202110317799A CN112882728A CN 112882728 A CN112882728 A CN 112882728A CN 202110317799 A CN202110317799 A CN 202110317799A CN 112882728 A CN112882728 A CN 112882728A
Authority
CN
China
Prior art keywords
flink
data platform
ambari
big data
yann
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110317799.7A
Other languages
English (en)
Inventor
孙亮亮
孙兴艳
江燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cloud Information Technology Co Ltd
Original Assignee
Inspur Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Cloud Information Technology Co Ltd filed Critical Inspur Cloud Information Technology Co Ltd
Priority to CN202110317799.7A priority Critical patent/CN112882728A/zh
Publication of CN112882728A publication Critical patent/CN112882728A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • G06F8/61Installation

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Stored Programmes (AREA)

Abstract

本发明公开了一种基于Yarn的大数据平台实时计算服务Flink的部署方法,属于大数据平台运维管理技术领域。本发明的基于Yarn的大数据平台实时计算服务Flink的部署方法通过制作不同版本号的安装包,结合大数据平台自定义部署应用,加载和自动更新配置,管理集群节点。该发明的基于Yarn的大数据平台实时计算服务Flink的部署方法能够增强大数据平台的数据处理能力、可视化展示能力、运营管理能力,实现快速部署,同时降低部署成本,具有很好的推广应用价值。

Description

一种基于Yarn的大数据平台实时计算服务Flink的部署方法
技术领域
本发明涉及大数据平台运维管理技术领域,具体提供一种基于Yarn的大数据平台实时计算服务Flink的部署方法。
背景技术
随着数据时代的不断发展,一项优秀的数据计算技术对于企业运营管理优化、业务改进、信息价值提炼等方面具有显著的改善作用,Apache Flink凭借其强大的计算能力和先进的设计理念,成为当下炙手可热的技术框架,被众多互联网大公司所重视。但对于如何将Flink快速部署应用于生产环境,实现与大数据平台技术的完美结合,充分挖掘数据的潜力,成为众多开发者必须面临的难题。
在传统的手工安装部署方式中,对于大数据组件安装难度大、组件兼容性问题很难解决,安装过程太过复杂。安装部署完成后组件的状态、运行情况,不能有效及时的监测,很不利于后期的运行维护。
Flink存在多种安装部署方式,不同模式的安装配置也不相同。Flink的集群部署模式有Mesos、Docker、Kubernetes、Yarn等,要与大数据平台相结合需要从众多模式中选择合适的部署模式。
发明内容
本发明的技术任务是针对上述存在的问题,提供一种能够增强大数据平台的数据处理能力、可视化展示能力、运营管理能力,实现快速部署,同时降低部署成本的基于Yarn的大数据平台实时计算服务Flink的部署方法。
为实现上述目的,本发明提供了如下技术方案:
一种基于Yarn的大数据平台实时计算服务Flink的部署方法,该方法通过制作不同版本号的安装包,结合大数据平台自定义部署应用,加载和自动更新配置,管理集群节点。
作为优选,该基于Yarn的大数据平台实时计算服务Flink的部署方法包括以下步骤:
S1、以Ansible为初始化安装配置工具;
S2、用Ambari安装管理监控大数据平台软件;
S3、用Ambari安装管理监控Ambari自定义的集成服务Flink;
S4、通过Yarn进行管理调度实时计算服务Flink。
作为优选,步骤S1中,将Ambari及Ambari触发大数据软件安装的相关接口和基础环境工具部署过程开发成Ansible脚本,通过Ansible命令触发执行Ansible脚本,自动化的安装。
Ansible是一种高级的脚本类语言,而非标准语言;不需要安装agent,分为管理节点和远程被管节点通过SSH认证;可用范围广,包括各种操作系统、虚拟化、公有云等。
作为优选,所述基础环境工具包括mysql数据库、jdk和nginx。
作为优选,步骤S2中,通过Ambari Server通知AmbariAgent安装对应大数据平台软件,AmbariAgent定时发送各个主机每个大数据平台软件模块的状态给Ambari Server,在Ambari的GUI界面展示给用户。
GUI即Graphical User Interface,图形用户界面。
Ambari是Apache Software Foundation的一个顶级开源项目,是一个用来创建、管理、监视大数据分布式集群的工具。Ambari是一个分布式架构的软件,由Ambari Server和AmbariAgent组成。
作为优选,步骤S3中,制作通过Ambari部署的自定义集成服务Flink,根据Ambari的mpack包的开发模板需求,将Flink基于yarn的安装部署制作成Ambari的mpack包。
作为优选,mpack包内容包括基于yarn模式的Flink在Ambari中的安装、启动、停止、卸载、安全认证及状态检查的脚本、版本信息和Flink的应用的访问链接配置文件、Flink服务的配置参数文件。
作为优选,步骤S4中,通过Yarn-session命令启动Flink,Yarn客户端检查要请求的资源是否可用,将Flink相关的jar包及配置上传到hdfs,Yarn客户端向RM申请一个Yarn容器以启动AM,在特定主机上Yarn的节点代理中启动容器运行Flink。
通过本发明所述基于Yarn的大数据平台实时计算服务Flink的部署方法形成以Ansible为初始化安装配置工具;用Ambari安装管理监控hadoop,yarn,ranger,zookeeper,solr等大数据平台软件以及Ambari自定义的集成服务Flink;通过Yarn进行管理调度实时计算服务Flink。
与现有技术相比,本发明的基于Yarn的大数据平台实时计算服务Flink的部署方法具有以下突出的有益效果:所述基于Yarn的大数据平台实时计算服务Flink的部署方法解决了实时计算Flink部署的繁琐配置,提高资源利用效率,版本差异化等问题。完成了Flink的自动化部署,与大数据平台的结合,增强大数据平台的资源调度和数据处理能力;同时支持可视化和自定义参数的界面化安装;服务安装后的健康状况监控,显著提高了大数据平台实时计算服务部署效率和运维管理,降低了部署成本,实现快速部署,与大数据平台紧密结合,增强了大数据平台的数据处理能力、可视化展示能力、运营管理能力,具有良好的推广应用价值。
具体实施方式
下面将结合实施例,对本发明的基于Yarn的大数据平台实时计算服务Flink的部署方法作进一步详细说明。
实施例
本发明的基于Yarn的大数据平台实时计算服务Flink的部署方法通过制作不同版本号的安装包,结合大数据平台自定义部署应用,加载和自动更新配置,管理集群节点,具体包括以下步骤:
S1、以Ansible为初始化安装配置工具。
将Ambari及Ambari触发大数据软件安装的相关接口和基础环境工具部署过程开发成Ansible脚本,通过Ansible命令触发执行Ansible脚本,自动化的安装。基础环境工具包括mysql数据库、jdk和nginx。
S2、用Ambari安装管理监控大数据平台软件。
通过Ambari Server通知Ambari Agent安装对应大数据平台软件,Ambari Agent定时发送各个主机每个大数据平台软件模块的状态给Ambari Server,在Ambari的GUI界面展示给用户。GUI即Graphical User Interface,图形用户界面。通过Ambari这个软件可以使hadoop大数据软件更易使用,且可以方便集成我们自己的Flink服务让Ambari统一管理。
S3、用Ambari安装管理监控Ambari自定义的集成服务Flink。
制作通过Ambari部署的自定义集成服务Flink,根据Ambari的mpack包的开发模板需求,将Flink基于yarn的安装部署制作成Ambari的mpack包。其中使用python作为开发语言,mpack包内容包括基于yarn模式的Flink在Ambari中的安装、启动、停止、卸载、安全认证及状态检查的脚本;版本信息和Flink的应用的访问链接配置文件;Flink服务的配置参数文件。通过命令打包成相应版本的mpack包,使用时通过ambari-server的mpack安装命令,将部署包添加到Ambari集群服务中。通过ambari-server进行Flink自动化安装部署,同时又便于版本管理。为了使得服务数据的安全得到保证,在Ambari中开启kerberos的安全认证。Flink启动时可以在Ambari服务管理页面中Flink的配置界面设置参数开启安全认证,Flink在安装部署时生成Keytab票据,服务数据访问时通过keytab认证后才可正常使用,这样就解决了服务安全隐患问题。使用Ambari作为安装部署的管理工具,具有开源,社区支持性特点,可以二次开发,相较于手工方式来说操作便捷,可以自动安装兼容组件。在Ambari的Web页面,可以根据自身需求设置Flink的服务参数,做到可视化配置管理,Ambari自定义服务mpack包中的configuration模块里可以定义配置参数,这些参数在Ambari页面中可以手动更改,方便部署后Flink相关配置的动态调整。
S4、通过Yarn进行管理调度实时计算服务Flink。
通过Yarn-session命令启动Flink,Yarn客户端检查要请求的资源是否可用,将Flink相关的jar包及配置上传到hdfs,Yarn客户端向RM申请一个Yarn容器以启动AM,在特定主机上Yarn的节点代理中启动容器运行Flink。
Yarn的主要功能是资源管理和作业调度/监控,主要方法是创建全局的ResourceManager(RM)和若干针对应用程序的Application Master(AM)。Yarn通过ResourceManager将各个资源(计算、内存、带宽等)安排给NodeManager(Yarn的节点代理)。ResourceManager和NodeManager构成数据计算框架,Yarn的作业容器由NodeManager启动、管理和监控;由ResourceManager来调度Yarn的作业容器可以运行各种分布式应用程序。Flink在Yarn中启动一个长期运行的集群并结合hadoop大数据软件使用。大数据平台以Yarn作为资源管理器,使得Flink的部署方式在采用Yarn-session模式启动时,管理起来更加便利,可充分利用集群资源,提高机器的利用率。通过yarn-session命令启动flink,Yarn客户端会首先检查要请求的资源是否可用,然后将包含flink相关的jar包及配置上传到hdfs。然后Yarn客户端会向ResourceManager申请一个Yarn容器用以启动ApplicationMaster,然后在特定主机上Yarn的NodeManager中启动容器运行Flink。Yarn中启动Flink后,会生成随机的Flink访问端口号和yarn中的applicationId,通过nginx配置将Flink的web服务代理出来用于外部访问,加上配置Nginx实现简单的用户认证,一定程度上提高安全性。
以上所述的实施例,只是本发明较优选的具体实施方式,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims (8)

1.一种基于Yarn的大数据平台实时计算服务Flink的部署方法,其特征在于:该方法通过制作不同版本号的安装包,结合大数据平台自定义部署应用,加载和自动更新配置,管理集群节点。
2.根据权利要求1所述的基于Yarn的大数据平台实时计算服务Flink的部署方法,其特征在于:包括以下步骤:
S1、以Ansible为初始化安装配置工具;
S2、用Ambari安装管理监控大数据平台软件;
S3、用Ambari安装管理监控Ambari自定义的集成服务Flink;
S4、通过Yarn进行管理调度实时计算服务Flink。
3.根据权利要求2所述的基于Yarn的大数据平台实时计算服务Flink的部署方法,其特征在于:步骤S1中,将Ambari及Ambari触发大数据软件安装的相关接口和基础环境工具部署过程开发成Ansible脚本,通过Ansible命令触发执行Ansible脚本,自动化的安装。
4.根据权利要求3所述的基于Yarn的大数据平台实时计算服务Flink的部署方法,其特征在于:所述基础环境工具包括mysql数据库、jdk和nginx。
5.根据权利要求4所述的基于Yarn的大数据平台实时计算服务Flink的部署方法,其特征在于:步骤S2中,通过Ambari Server通知AmbariAgent安装对应大数据平台软件,AmbariAgent定时发送各个主机每个大数据平台软件模块的状态给Ambari Server,在Ambari的GUI界面展示给用户。
6.根据权利要求5所述的基于Yarn的大数据平台实时计算服务Flink的部署方法,其特征在于:步骤S3中,制作通过Ambari部署的自定义集成服务Flink,根据Ambari的mpack包的开发模板需求,将Flink基于yarn的安装部署制作成Ambari的mpack包。
7.根据权利要求6所述的基于Yarn的大数据平台实时计算服务Flink的部署方法,其特征在于:mpack包内容包括基于yarn模式的Flink在Ambari中的安装、启动、停止、卸载、安全认证及状态检查的脚本、版本信息和Flink的应用的访问链接配置文件、Flink服务的配置参数文件。
8.根据权利要求7所述的基于Yarn的大数据平台实时计算服务Flink的部署方法,其特征在于:步骤S4中,通过Yarn-session命令启动Flink,Yarn客户端检查要请求的资源是否可用,将Flink相关的jar包及配置上传到hdfs,Yarn客户端向RM申请一个Yarn容器以启动AM,在特定主机上Yarn的节点代理中启动容器运行Flink。
CN202110317799.7A 2021-03-25 2021-03-25 一种基于Yarn的大数据平台实时计算服务Flink的部署方法 Pending CN112882728A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110317799.7A CN112882728A (zh) 2021-03-25 2021-03-25 一种基于Yarn的大数据平台实时计算服务Flink的部署方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110317799.7A CN112882728A (zh) 2021-03-25 2021-03-25 一种基于Yarn的大数据平台实时计算服务Flink的部署方法

Publications (1)

Publication Number Publication Date
CN112882728A true CN112882728A (zh) 2021-06-01

Family

ID=76042248

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110317799.7A Pending CN112882728A (zh) 2021-03-25 2021-03-25 一种基于Yarn的大数据平台实时计算服务Flink的部署方法

Country Status (1)

Country Link
CN (1) CN112882728A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113961570A (zh) * 2021-12-22 2022-01-21 四川新网银行股份有限公司 一种应用于MYSQL BINLog变更数据的实时采集方法
CN114489833A (zh) * 2021-12-31 2022-05-13 武汉达梦数据库股份有限公司 一种在应用程序中提交flink作业到yarn集群的实现方法与装置
CN114880103A (zh) * 2022-07-11 2022-08-09 中电云数智科技有限公司 一种flink任务适配hadoop生态的系统和方法
CN115237435A (zh) * 2022-08-09 2022-10-25 杭州玳数科技有限公司 一种将PyFlink任务部署到yarn集群的方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113961570A (zh) * 2021-12-22 2022-01-21 四川新网银行股份有限公司 一种应用于MYSQL BINLog变更数据的实时采集方法
CN114489833A (zh) * 2021-12-31 2022-05-13 武汉达梦数据库股份有限公司 一种在应用程序中提交flink作业到yarn集群的实现方法与装置
CN114489833B (zh) * 2021-12-31 2022-12-23 武汉达梦数据库股份有限公司 一种在应用程序中提交flink作业到yarn集群的实现方法与装置
CN114880103A (zh) * 2022-07-11 2022-08-09 中电云数智科技有限公司 一种flink任务适配hadoop生态的系统和方法
CN114880103B (zh) * 2022-07-11 2022-09-09 中电云数智科技有限公司 一种flink任务适配hadoop生态的系统和方法
CN115237435A (zh) * 2022-08-09 2022-10-25 杭州玳数科技有限公司 一种将PyFlink任务部署到yarn集群的方法
CN115237435B (zh) * 2022-08-09 2023-02-14 杭州玳数科技有限公司 一种将PyFlink任务部署到yarn集群的方法

Similar Documents

Publication Publication Date Title
CN112882728A (zh) 一种基于Yarn的大数据平台实时计算服务Flink的部署方法
US11924068B2 (en) Provisioning a service
KR101891506B1 (ko) 하나 이상의 클라우드 시스템 상에 애플리케이션들을 이식 가능하게 배치하기 위한 방법들 및 시스템들
US9015712B1 (en) Environment template-driven environment provisioning in a virtual infrastructure
US10873510B2 (en) Packaging tool for first and third party component deployment
US20190149420A1 (en) System and method for automated system management
US9509553B2 (en) System and methods for management virtualization
EP3559801A1 (en) Methods, systems, and portal using software containers for accelerating aspects of data analytics application development and deployment
CN112214330A (zh) 集群中主节点的部署方法、装置及计算机可读存储介质
US20170171034A1 (en) Dynamic/on-demand packaging as part of deployment
WO2017202211A1 (zh) 虚拟机上安装业务版本的方法及装置
US10594800B2 (en) Platform runtime abstraction
US20130042239A1 (en) System and method for use of a virtual assembly builder
Buyya et al. Multi-cloud resource provisioning with Aneka: A unified and integrated utilisation of microsoft azure and amazon EC2 instances
CN112099919A (zh) 一种基于云计算api的应用服务可视化快速部署方法
CN114706690B (zh) 一种Kubernetes容器共享GPU方法及系统
CN110162312B (zh) 一种基于IML的BeeGFS配置方法与装置
US20120265879A1 (en) Managing servicability of cloud computing resources
Khalel et al. Enhanced load balancing in kubernetes cluster by minikube
Ferreira et al. {SMARTER}: experiences with cloud native on the edge
KR20160081822A (ko) 클라우드 컴퓨팅 기반의 해운 항만 물류 서비스 플랫폼 구축 장치 및 방법
US11829779B2 (en) Scalable specification and self-governance for autonomous databases, cluster databases and multi-tenant databases in cloud and on-prem environment
KR102637540B1 (ko) 표준화 스택과 자율형 오퍼레이터 기반 클라우드 컴퓨팅 환경 구성 및 운영 자동화 시스템
US20230221935A1 (en) Blueprints-based deployment of monitoring agents
Hashimi et al. Performance Evaluation of Conventional and Systematic IT Services Automation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination