CN112882728A

CN112882728A - 一种基于Yarn的大数据平台实时计算服务Flink的部署方法

Info

Publication number: CN112882728A
Application number: CN202110317799.7A
Authority: CN
Inventors: 孙亮亮; 孙兴艳; 江燕
Original assignee: Inspur Cloud Information Technology Co Ltd
Current assignee: Inspur Cloud Information Technology Co Ltd
Priority date: 2021-03-25
Filing date: 2021-03-25
Publication date: 2021-06-01

Abstract

本发明公开了一种基于Yarn的大数据平台实时计算服务Flink的部署方法，属于大数据平台运维管理技术领域。本发明的基于Yarn的大数据平台实时计算服务Flink的部署方法通过制作不同版本号的安装包，结合大数据平台自定义部署应用，加载和自动更新配置，管理集群节点。该发明的基于Yarn的大数据平台实时计算服务Flink的部署方法能够增强大数据平台的数据处理能力、可视化展示能力、运营管理能力，实现快速部署，同时降低部署成本，具有很好的推广应用价值。

Description

一种基于Yarn的大数据平台实时计算服务Flink的部署方法

技术领域

本发明涉及大数据平台运维管理技术领域，具体提供一种基于Yarn的大数据平台实时计算服务Flink的部署方法。

背景技术

随着数据时代的不断发展，一项优秀的数据计算技术对于企业运营管理优化、业务改进、信息价值提炼等方面具有显著的改善作用，Apache Flink凭借其强大的计算能力和先进的设计理念，成为当下炙手可热的技术框架，被众多互联网大公司所重视。但对于如何将Flink快速部署应用于生产环境，实现与大数据平台技术的完美结合，充分挖掘数据的潜力，成为众多开发者必须面临的难题。

在传统的手工安装部署方式中，对于大数据组件安装难度大、组件兼容性问题很难解决，安装过程太过复杂。安装部署完成后组件的状态、运行情况，不能有效及时的监测，很不利于后期的运行维护。

Flink存在多种安装部署方式，不同模式的安装配置也不相同。Flink的集群部署模式有Mesos、Docker、Kubernetes、Yarn等，要与大数据平台相结合需要从众多模式中选择合适的部署模式。

发明内容

本发明的技术任务是针对上述存在的问题，提供一种能够增强大数据平台的数据处理能力、可视化展示能力、运营管理能力，实现快速部署，同时降低部署成本的基于Yarn的大数据平台实时计算服务Flink的部署方法。

为实现上述目的，本发明提供了如下技术方案：

一种基于Yarn的大数据平台实时计算服务Flink的部署方法，该方法通过制作不同版本号的安装包，结合大数据平台自定义部署应用，加载和自动更新配置，管理集群节点。

作为优选，该基于Yarn的大数据平台实时计算服务Flink的部署方法包括以下步骤：

S1、以Ansible为初始化安装配置工具；

S2、用Ambari安装管理监控大数据平台软件；

S3、用Ambari安装管理监控Ambari自定义的集成服务Flink；

S4、通过Yarn进行管理调度实时计算服务Flink。

作为优选，步骤S1中，将Ambari及Ambari触发大数据软件安装的相关接口和基础环境工具部署过程开发成Ansible脚本，通过Ansible命令触发执行Ansible脚本，自动化的安装。

Ansible是一种高级的脚本类语言，而非标准语言；不需要安装agent，分为管理节点和远程被管节点通过SSH认证；可用范围广，包括各种操作系统、虚拟化、公有云等。

作为优选，所述基础环境工具包括mysql数据库、jdk和nginx。

作为优选，步骤S2中，通过Ambari Server通知AmbariAgent安装对应大数据平台软件，AmbariAgent定时发送各个主机每个大数据平台软件模块的状态给Ambari Server，在Ambari的GUI界面展示给用户。

GUI即Graphical User Interface，图形用户界面。

Ambari是Apache Software Foundation的一个顶级开源项目，是一个用来创建、管理、监视大数据分布式集群的工具。Ambari是一个分布式架构的软件，由Ambari Server和AmbariAgent组成。

作为优选，步骤S3中，制作通过Ambari部署的自定义集成服务Flink，根据Ambari的mpack包的开发模板需求，将Flink基于yarn的安装部署制作成Ambari的mpack包。

作为优选，mpack包内容包括基于yarn模式的Flink在Ambari中的安装、启动、停止、卸载、安全认证及状态检查的脚本、版本信息和Flink的应用的访问链接配置文件、Flink服务的配置参数文件。

作为优选，步骤S4中，通过Yarn-session命令启动Flink，Yarn客户端检查要请求的资源是否可用，将Flink相关的jar包及配置上传到hdfs，Yarn客户端向RM申请一个Yarn容器以启动AM，在特定主机上Yarn的节点代理中启动容器运行Flink。

通过本发明所述基于Yarn的大数据平台实时计算服务Flink的部署方法形成以Ansible为初始化安装配置工具；用Ambari安装管理监控hadoop,yarn,ranger，zookeeper,solr等大数据平台软件以及Ambari自定义的集成服务Flink；通过Yarn进行管理调度实时计算服务Flink。

与现有技术相比，本发明的基于Yarn的大数据平台实时计算服务Flink的部署方法具有以下突出的有益效果：所述基于Yarn的大数据平台实时计算服务Flink的部署方法解决了实时计算Flink部署的繁琐配置，提高资源利用效率，版本差异化等问题。完成了Flink的自动化部署，与大数据平台的结合，增强大数据平台的资源调度和数据处理能力；同时支持可视化和自定义参数的界面化安装；服务安装后的健康状况监控，显著提高了大数据平台实时计算服务部署效率和运维管理，降低了部署成本，实现快速部署，与大数据平台紧密结合，增强了大数据平台的数据处理能力、可视化展示能力、运营管理能力，具有良好的推广应用价值。

具体实施方式

下面将结合实施例，对本发明的基于Yarn的大数据平台实时计算服务Flink的部署方法作进一步详细说明。

实施例

本发明的基于Yarn的大数据平台实时计算服务Flink的部署方法通过制作不同版本号的安装包，结合大数据平台自定义部署应用，加载和自动更新配置，管理集群节点，具体包括以下步骤：

S1、以Ansible为初始化安装配置工具。

将Ambari及Ambari触发大数据软件安装的相关接口和基础环境工具部署过程开发成Ansible脚本，通过Ansible命令触发执行Ansible脚本，自动化的安装。基础环境工具包括mysql数据库、jdk和nginx。

S2、用Ambari安装管理监控大数据平台软件。

通过Ambari Server通知Ambari Agent安装对应大数据平台软件，Ambari Agent定时发送各个主机每个大数据平台软件模块的状态给Ambari Server，在Ambari的GUI界面展示给用户。GUI即Graphical User Interface，图形用户界面。通过Ambari这个软件可以使hadoop大数据软件更易使用，且可以方便集成我们自己的Flink服务让Ambari统一管理。

S3、用Ambari安装管理监控Ambari自定义的集成服务Flink。

制作通过Ambari部署的自定义集成服务Flink，根据Ambari的mpack包的开发模板需求，将Flink基于yarn的安装部署制作成Ambari的mpack包。其中使用python作为开发语言，mpack包内容包括基于yarn模式的Flink在Ambari中的安装、启动、停止、卸载、安全认证及状态检查的脚本；版本信息和Flink的应用的访问链接配置文件；Flink服务的配置参数文件。通过命令打包成相应版本的mpack包，使用时通过ambari-server的mpack安装命令，将部署包添加到Ambari集群服务中。通过ambari-server进行Flink自动化安装部署，同时又便于版本管理。为了使得服务数据的安全得到保证，在Ambari中开启kerberos的安全认证。Flink启动时可以在Ambari服务管理页面中Flink的配置界面设置参数开启安全认证，Flink在安装部署时生成Keytab票据，服务数据访问时通过keytab认证后才可正常使用，这样就解决了服务安全隐患问题。使用Ambari作为安装部署的管理工具，具有开源，社区支持性特点，可以二次开发，相较于手工方式来说操作便捷，可以自动安装兼容组件。在Ambari的Web页面，可以根据自身需求设置Flink的服务参数，做到可视化配置管理，Ambari自定义服务mpack包中的configuration模块里可以定义配置参数，这些参数在Ambari页面中可以手动更改，方便部署后Flink相关配置的动态调整。

S4、通过Yarn进行管理调度实时计算服务Flink。

通过Yarn-session命令启动Flink，Yarn客户端检查要请求的资源是否可用，将Flink相关的jar包及配置上传到hdfs，Yarn客户端向RM申请一个Yarn容器以启动AM，在特定主机上Yarn的节点代理中启动容器运行Flink。

Yarn的主要功能是资源管理和作业调度/监控，主要方法是创建全局的ResourceManager(RM)和若干针对应用程序的Application Master(AM)。Yarn通过ResourceManager将各个资源(计算、内存、带宽等)安排给NodeManager(Yarn的节点代理)。ResourceManager和NodeManager构成数据计算框架，Yarn的作业容器由NodeManager启动、管理和监控；由ResourceManager来调度Yarn的作业容器可以运行各种分布式应用程序。Flink在Yarn中启动一个长期运行的集群并结合hadoop大数据软件使用。大数据平台以Yarn作为资源管理器，使得Flink的部署方式在采用Yarn-session模式启动时，管理起来更加便利，可充分利用集群资源，提高机器的利用率。通过yarn-session命令启动flink，Yarn客户端会首先检查要请求的资源是否可用，然后将包含flink相关的jar包及配置上传到hdfs。然后Yarn客户端会向ResourceManager申请一个Yarn容器用以启动ApplicationMaster，然后在特定主机上Yarn的NodeManager中启动容器运行Flink。Yarn中启动Flink后，会生成随机的Flink访问端口号和yarn中的applicationId，通过nginx配置将Flink的web服务代理出来用于外部访问，加上配置Nginx实现简单的用户认证，一定程度上提高安全性。

以上所述的实施例，只是本发明较优选的具体实施方式，本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims

1.一种基于Yarn的大数据平台实时计算服务Flink的部署方法，其特征在于：该方法通过制作不同版本号的安装包，结合大数据平台自定义部署应用，加载和自动更新配置，管理集群节点。

2.根据权利要求1所述的基于Yarn的大数据平台实时计算服务Flink的部署方法，其特征在于：包括以下步骤：

S1、以Ansible为初始化安装配置工具；

S2、用Ambari安装管理监控大数据平台软件；

S3、用Ambari安装管理监控Ambari自定义的集成服务Flink；

S4、通过Yarn进行管理调度实时计算服务Flink。

3.根据权利要求2所述的基于Yarn的大数据平台实时计算服务Flink的部署方法，其特征在于：步骤S1中，将Ambari及Ambari触发大数据软件安装的相关接口和基础环境工具部署过程开发成Ansible脚本，通过Ansible命令触发执行Ansible脚本，自动化的安装。

4.根据权利要求3所述的基于Yarn的大数据平台实时计算服务Flink的部署方法，其特征在于：所述基础环境工具包括mysql数据库、jdk和nginx。

5.根据权利要求4所述的基于Yarn的大数据平台实时计算服务Flink的部署方法，其特征在于：步骤S2中，通过Ambari Server通知AmbariAgent安装对应大数据平台软件，AmbariAgent定时发送各个主机每个大数据平台软件模块的状态给Ambari Server，在Ambari的GUI界面展示给用户。

6.根据权利要求5所述的基于Yarn的大数据平台实时计算服务Flink的部署方法，其特征在于：步骤S3中，制作通过Ambari部署的自定义集成服务Flink，根据Ambari的mpack包的开发模板需求，将Flink基于yarn的安装部署制作成Ambari的mpack包。

7.根据权利要求6所述的基于Yarn的大数据平台实时计算服务Flink的部署方法，其特征在于：mpack包内容包括基于yarn模式的Flink在Ambari中的安装、启动、停止、卸载、安全认证及状态检查的脚本、版本信息和Flink的应用的访问链接配置文件、Flink服务的配置参数文件。

8.根据权利要求7所述的基于Yarn的大数据平台实时计算服务Flink的部署方法，其特征在于：步骤S4中，通过Yarn-session命令启动Flink，Yarn客户端检查要请求的资源是否可用，将Flink相关的jar包及配置上传到hdfs，Yarn客户端向RM申请一个Yarn容器以启动AM，在特定主机上Yarn的节点代理中启动容器运行Flink。