CN112698880A - 一种Cloudera Manager与flink结合的方法、计算机设备及存储介质 - Google Patents

一种Cloudera Manager与flink结合的方法、计算机设备及存储介质 Download PDF

Info

Publication number
CN112698880A
CN112698880A CN202011561677.4A CN202011561677A CN112698880A CN 112698880 A CN112698880 A CN 112698880A CN 202011561677 A CN202011561677 A CN 202011561677A CN 112698880 A CN112698880 A CN 112698880A
Authority
CN
China
Prior art keywords
flink
cluster
manager
cloudera
building
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011561677.4A
Other languages
English (en)
Inventor
刘跃红
李佳喜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yinsheng Payment Service Co Ltd
Original Assignee
Yinsheng Payment Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yinsheng Payment Service Co Ltd filed Critical Yinsheng Payment Service Co Ltd
Priority to CN202011561677.4A priority Critical patent/CN112698880A/zh
Publication of CN112698880A publication Critical patent/CN112698880A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及公开了一种Cloudera Manager与flink结合的方法、计算机设备及存储介质,涉及前端维护技术领域,本发明的Cloudera Manager集群维护组件hdfs、yarn、zk比较简单,可以可视化管理,方便监控集群IO、CPU、磁盘以及内存等指标,集成了flink,可以不用单独去搭建一个集群,不用重复搭建hdfs,zk,yarn等维护组件,减少维护工作量,减少对机器资源的浪费。

Description

一种Cloudera Manager与flink结合的方法、计算机设备及存 储介质
技术领域
本发明涉及前端维护技术领域,具体来说,涉及一种Cloudera Manager与flink结合的方法、计算机设备及存储介质。
背景技术
目前我们搭建的Cloudera Manager集群,没有flink维护组件,需要利用现有的Cloudera Manager里面的hdfs、yarn以及zk来集成flink,达成flink集群的实现,完成flink程序大批量实时消费的目标,但是,如果单独搭建这hdfs、yarn以及zk个维护组件,那就只有分开去管理,而且维护起来比较麻烦,例如出问题之后重启动,停止等操作只有去服务器操作。
发明内容
为了克服现有技术的不足,本发明的一种Cloudera Manager与flink结合的方法、计算机设备及存储介质,能够将hdfs、yarn以及zk三者结合来集成flink,统一管理。
本发明解决其技术问题所采用的技术方案是:一种基于Cloudera Manager与flink结合的方法,其改进之处在于,包括搭建集群、编写程序及上传并运行数据。
作为上述技术方案的进一步改进,搭建集群包括多台机器搭建Cloudera Manager集群。
作为上述技术方案的进一步改进,多台机器搭建Cloudera Manager集群包括下列步骤:
步骤1.01,修改主机hosts;
步骤1.02,关闭防火墙、清空规则以及selinux;
步骤1.03,将Cloudera Manager集群时间设置同步,安装ntpd;
步骤1.04,安装JDK,并赋值执行权限,添加配置文件;
步骤1.05,数据库驱动安装;
步骤1.06,MySQL安装,创建Cloudera Manager管理数据库,设置权限;
步骤1.07,解除linux系统打开文件最大数量的限制,并设置linux交换区内存和透明页;
步骤1.08,解压并安装Cloudera Manager的主节点和次节点;
步骤1.09,开通httpd;
步骤1.10,对Cloudera Manager集群的页面进行维护组件配置。
作为上述技术方案的进一步改进,步骤1.10中,维护组件包括hdfs、yarn、zk。
作为上述技术方案的进一步改进,搭建Cloudera Manager集群包括安装flink。
作为上述技术方案的进一步改进,安装flink步骤如下:
步骤1.11,flink压缩包解压,修改配置文件;
步骤1.12,修改环境变量;
步骤1.13,修改日志文件。
作为上述技术方案的进一步改进,搭建Cloudera Manager集群包括ClouderaManager集成flink的配置。
作为上述技术方案的进一步改进,Cloudera Manager集成flink的配置包括下列步骤:
步骤1.14,修改flink安装目录下的配置文件;
步骤1.15,上传flink的jar包到flink的lib目录。
作为上述技术方案的进一步改进,编写程序及上传运行数据包括kafka集群数据流推送。
作为上述技术方案的进一步改进,编写程序及上传运行数据包括实时消费flink程序提交集群部署。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法。
一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行上述任一项所述方法的计算机程序。
本发明的有益效果是:
1、Cloudera Manager集群维护组件hdfs、yarn、zk比较简单,可以可视化管理;
2、方便监控集群IO、CPU、磁盘以及内存等指标;
3、集成了flink,可以不用单独去搭建一个集群,也可以不用重复搭建hdfs、zk、yarn维护组件;
4、可以减少维护工作量,减少对机器资源的浪费。
附图说明
图1为本发明的整体结构图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整地描述,以充分地理解本发明的目的、特征和效果。显然,所描述的实施例只是本发明的一部分实施例,而不是全部实施例,基于本发明的实施例,本领域的技术人员在不付出创造性劳动的前提下所获得的其他实施例,均属于本发明保护的范围。另外,专利中涉及到的所有联接/连接关系,并非单指构件直接相接,而是指可根据具体实施情况,通过添加或减少联接辅件,来组成更优的联接结构。本发明创造中的各个技术特征,在不互相矛盾冲突的前提下可以交互组合。
参考图1,本发明揭示了一种基于Cloudera Manager与flink结合的方法,包括搭建集群、编写程序及上传并运行数据。搭建集群包括多台机器搭建Cloudera Manager集群。多台机器搭建Cloudera Manager集群包括下列步骤:
步骤1.01,修改主机hosts,在每台机器的hosts文件中配置好集群服务器的IP和对应域名,并且每个节点都需要配置;
步骤1.02,关闭防火墙、清空规则以及关闭selinux,本发明需要清空以前默认的防火墙的一些规则,例如允许其他服务器访问指定端口等;
步骤1.03,将Cloudera Manager集群时间设置同步,安装ntpd;
步骤1.04,安装JDK,并赋值执行权限,添加配置文件,解压JDK之后,把对应的目录设置为755,允许其他普通用户访问这个目录文件,并且可以使用目录下的文件或者jar包;
步骤1.05,数据库驱动安装;
步骤1.06,MySQL安装,创建Cloudera Manager管理数据库,设置权限,主要做法是在mysql中创建对应的数据库,并配置对应的用户有权限对该数据库进行操作,例如增删改除等;
步骤1.07,解除linux系统打开文件最大数量的限制,并设置linux交换区内存和透明页,属于优化类,可以防止出现开销过大问题;
步骤1.08,Cloudera Manager架构属于一个集群,一个服务器为主,其他为子节点,父节点主要用于元数据的处理,链接数据库,管理各个节点,这里需要解压并安装Cloudera Manager的主节点和次节点;
步骤1.09,开通httpd,开通httpd是为了搭建好集群后,可以页面操作,安装各个组件(例如hdfs,zk,yarn等),不用再去其他节点手动安装,出现配置不一样的问题;
步骤1.10,对Cloudera Manager集群的页面进行hdfs、yarn、zk配置,对每个组件进行安装,选中对应的组件,按每个子节点的内存和磁盘,分配不同角色等操作。
在上述实施例中,本发明先将Cloudera Manager集群搭建好,再进行hdfs、ysrn以及zk的配置,以便hdfs、ysrn以及zk与flink结合,统一管理。
进一步的,搭建Cloudera Manager集群包括安装flink。安装flink步骤如下:
步骤1.11,flink压缩包解压,修改配置文件;
步骤1.12,修改环境变量;
步骤1.13,为了防止执行程序的时候一些不必要的日志也写到集群,那样集群磁盘扛不住,会导致宕机,可以修改每个服务器flink下的文件,调大日志的等级。
在上述实施例当中,本发明的flink安装,主要是调整job和task的大小、并发、重试以及端口,修改环境变量时,可以提交任务执行flink,找到flink安装目录,修改日志文件可以把日志级别调大,否避免磁盘爆满的情况发生。
搭建Cloudera Manager集群包括Cloudera Manager集成flink的配置。ClouderaManager集成flink的配置包括下列步骤:
步骤1.14,修改flink安装目录下的配置文件;
步骤1.15,上传flink的jar包到flink的lib目录。
在上述实施例当中,本发明修改对应配置文件,主要是为了提交到yarn集群的时候,能够准确找到yarn的配置,并成功调用。为了避免集成失败,集成的时候需要上传flink的jar包到flink的lib目录,值得注意的是,为了集成flink在yarn上执行时候,有些中间文件会写到hdfs上,如果没有对应的包来驱动,写入会报错。
另外,编写程序及上传运行数据包括kafka集群数据流推送。Kafka的数据流是由其他程序或者工具推送过来,具有一定规范的格式(例如json格式),有flume监控业务日志后实时推送。
最后,编写程序及上传运行数据包括实时消费flink程序提交集群部署。Flink主要是对数据流的一些业务逻辑处理,按Flink程序一定的规则提交。由于Flink程序处理数据属于现有技术比较成熟的技术,本发明不再重复赘述。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法。
一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行上述任一项所述方法的计算机程序。
本发明的有益效果是:
1、Cloudera Manager集群维护组件hdfs、yarn、zk比较简单,可以可视化管理;
2、方便监控集群IO、CPU、磁盘以及内存等指标;
3、集成了flink,可以不用单独去搭建一个集群,也可以不用重复搭建hdfs、zk、yarn维护组件;
4、可以减少维护工作量,减少对机器资源的浪费。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围。

Claims (12)

1.一种基于Cloudera Manager与flink结合的方法,其特征在于,包括搭建集群,根据集群内部的hdfs、yarn以及zk集成flink集群,再编写程序及上传并运行数据。
2.根据权利要求1所述的一种基于Cloudera Manager与flink结合的方法,其特征在于,搭建集群包括多台机器搭建Cloudera Manager集群。
3.根据权利要求2所述的一种基于Cloudera Manager与flink结合的方法,其特征在于,多台机器搭建Cloudera Manager集群包括下列步骤:
步骤1.01,修改主机hosts;
步骤1.02,关闭防火墙、清空规则以及selinux;
步骤1.03,将Cloudera Manager集群时间设置同步,安装ntpd;
步骤1.04,安装JDK,并赋值执行权限,添加配置文件;
步骤1.05,数据库驱动安装;
步骤1.06,MySQL安装,创建Cloudera Manager管理数据库,设置权限;
步骤1.07,解除linux系统打开文件最大数量的限制,并设置linux交换区内存和透明页;
步骤1.08,解压并安装Cloudera Manager的主节点和次节点;
步骤1.09,开通httpd;
步骤1.10,对Cloudera Manager集群的页面进行维护组件配置。
4.根据权利要求3所述的一种基于Cloudera Manager与flink结合的方法,其特征在于,步骤1.10中,维护组件包括hdfs、yarn、zk。
5.根据权利要求3所述的一种基于Cloudera Manager与flink结合的方法,其特征在于,搭建Cloudera Manager集群包括安装flink。
6.根据权利要求5所述的一种基于Cloudera Manager与flink结合的方法,其特征在于,安装flink步骤如下:
步骤1.11,flink压缩包解压,修改配置文件;
步骤1.12,修改环境变量;
步骤1.13,修改日志文件。
7.根据权利要求6所述的一种基于Cloudera Manager与flink结合的方法,其特征在于,搭建Cloudera Manager集群包括Cloudera Manager集成flink的配置。
8.根据权利要求7所述的一种基于Cloudera Manager与flink结合的方法,其特征在于,Cloudera Manager集成flink的配置包括下列步骤:
步骤1.14,修改flink安装目录下的配置文件;
步骤1.15,上传flink的jar包到flink的lib目录。
9.根据权利要求1所述的一种基于Cloudera Manager与flink结合的方法,其特征在于,编写程序及上传运行数据包括kafka集群数据流推送。
10.根据权利要求1所述的一种基于Cloudera Manager与flink结合的方法,其特征在于,编写程序及上传运行数据包括实时消费flink程序提交集群部署。
11.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至10任一项所述方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至10任一项所述方法的计算机程序。
CN202011561677.4A 2020-12-25 2020-12-25 一种Cloudera Manager与flink结合的方法、计算机设备及存储介质 Pending CN112698880A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011561677.4A CN112698880A (zh) 2020-12-25 2020-12-25 一种Cloudera Manager与flink结合的方法、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011561677.4A CN112698880A (zh) 2020-12-25 2020-12-25 一种Cloudera Manager与flink结合的方法、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN112698880A true CN112698880A (zh) 2021-04-23

Family

ID=75510597

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011561677.4A Pending CN112698880A (zh) 2020-12-25 2020-12-25 一种Cloudera Manager与flink结合的方法、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN112698880A (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107908708A (zh) * 2017-11-09 2018-04-13 北京锐安科技有限公司 一种集群文件同步的方法、系统、设备和存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107908708A (zh) * 2017-11-09 2018-04-13 北京锐安科技有限公司 一种集群文件同步的方法、系统、设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
留不住斜阳: "Cloudera Manager 5.14.X 安装部署", HTTPS://BLOG.CSDN.NET/LUBIN2016/ARTICLE/DETAILS/108406654, 4 September 2020 (2020-09-04), pages 1 - 20 *
程序员欣宸: "Flink on Yarn三部曲", HTTPS://BLOG.CSDN.NET/LUBIN2016/ARTICLE/DETAILS/108406654, 7 April 2020 (2020-04-07), pages 1 - 13 *

Similar Documents

Publication Publication Date Title
US11882054B2 (en) Terminating data server nodes
CN107689953B (zh) 一种面向多租户云计算的容器安全监控方法及系统
CN110716910B (zh) 一种日志管理方法、装置、设备和存储介质
CN102609281B (zh) 分布式软件补丁更新方法及系统
US8032779B2 (en) Adaptively collecting network event forensic data
US10083070B2 (en) Log file reduction according to problem-space network topology
CN112383507A (zh) 防火墙策略管理方法、装置、系统与计算机可读存储介质
US8392469B2 (en) Model based distributed application management
US11805146B2 (en) System and method for detection promotion
CN112698880A (zh) 一种Cloudera Manager与flink结合的方法、计算机设备及存储介质
CN109284204B (zh) 一种基于虚拟化计算的大数据平台运维方法以及系统
CN109324892B (zh) 分布式管理方法、分布式管理系统及装置
US11698911B2 (en) System and methods for performing updated query requests in a system of multiple database engine
Cao et al. Research on reliability evaluation of big data system
US11500874B2 (en) Systems and methods for linking metric data to resources
US20170220611A1 (en) Analysis of system information
EP4091066B1 (en) Systems and methods for performing updated query requests in a system of multiple database engine
CN111459532A (zh) 基于自主研发环境的云平台优化方法
US20230229545A1 (en) Intelligent log analysis and retention for microservices applications
US20240061840A1 (en) Scan Parsing
CN110968264B (zh) 一种ASM架构下分配diskgroup的方法
US20240070002A1 (en) Hang detection models and management for heterogenous applications in distributed environments
US20230070242A1 (en) Highly scalable container network interface operation to reduce startup overhead of functions
CN115757041B (zh) 可动态配置的多集群日志采集的方法及应用
US11463323B2 (en) Discovery process identification and classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination