CN106802852A - 一种Linux平台组件统一监控的方法 - Google Patents

一种Linux平台组件统一监控的方法 Download PDF

Info

Publication number
CN106802852A
CN106802852A CN201710039069.9A CN201710039069A CN106802852A CN 106802852 A CN106802852 A CN 106802852A CN 201710039069 A CN201710039069 A CN 201710039069A CN 106802852 A CN106802852 A CN 106802852A
Authority
CN
China
Prior art keywords
service
component
monitoring
configuration
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710039069.9A
Other languages
English (en)
Inventor
李永信
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201710039069.9A priority Critical patent/CN106802852A/zh
Publication of CN106802852A publication Critical patent/CN106802852A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system

Landscapes

  • Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种Linux平台组件统一监控的方法,属于生产环境监控技术领域,本发明监控服务启动成功后,会读取指定目录中的配置文件,根据组件配置的健康探测类型和方法,监控进程实时调用确认组件运行状态,并对失败的状态进行记录,如果达到特定次数,则系统认为该组件无法正常提供服务,将按照配置的脚本进行服务重启。确保组件健康,保证系统的稳定运行。

Description

一种Linux平台组件统一监控的方法
技术领域
本发明涉及生产环境监控技术,尤其涉及一种Linux平台组件统一监控的方法。
背景技术
随着信息化水平的发展,各类系统层出不穷,伴随着消费者复杂多变的需求,产品部署所需的技术组件也日益增多,如何保证生产环境产品的安全、稳定运行也逐步成为企业关注的重点。
发明内容
面对各类层出不穷的软件产品,为了保障产品的安全、稳定运行,本发明提出了一种Linux平台组件统一监控的方法,定义统一的健康检查规范,对于系统运行所需的核心组件,可以按照规范,自定义针对组件的yaml格式配置,无论是单机还是集群组件,均可对运行状况进行监控,保证系统的健康运行。
本发明的目的是对Linux平台下组件健康状态进行实时统一监控管理,保证产品的稳定运行。
本发明的技术方案是:
一种Linux平台组件统一监控的方法,
监控服务启动成功后,会读取指定目录中的配置文件,根据组件配置的健康探测类型和方法,监控进程实时调用确认组件运行状态,并对失败的状态进行记录,如果达到特定次数,则系统认为该组件无法正常提供服务,将按照配置的脚本进行服务重启。
健康监控服务启动时可以指定监控配置的路径,监控服务会遍历该路径下的所有yaml配置文件。
配置文件模板如下:
针对每个组件,监控服务会首先对按照detect配置其进行探测,检测进程pid文件是否存在,除了pid方式外,监控服务支持file方式,指定组件探测文件,服务会自动进行调用,并按照返回值来判定执行结果以及组件的可用状态,对于监测失败的组件,服务会自动对失败次数进行计数,若失败次数到达detect定义的retry数,则对该服务进行重启。
配置中start、stop、restart分别对应组件的启动、停止、重启命令,type支持standard和file方式,standard标识该服务为系统标准的服务,运行标准服务的启停命令来进行操作;针对非标准的服务,定义为file的方式,定义自己的操作脚本。
本发明的有益效果是
对Linux平台组件的运行状况进行有效的监测,有效保障了系统运行的稳定性。
附图说明
图1是健康监测示意图。
具体实施方式
下面对本发明的内容进行更加详细的阐述:
健康监控服务启动时可以指定监控配置的路径,监控服务会遍历该路径下的所有yaml配置文件,配置文件模板如下:
针对每个组件,监控服务会首先对按照detect配置其进行探测,最常见的方式为检测进程pid文件是否存在,除了pid方式外,监控服务支持file方式,指定组件探测文件,服务会自动进行调用,并按照返回值来判定执行结果以及组件的可用状态,对于监测失败的组件,服务会自动对失败次数进行计数,若失败次数到达detect定义的retry数,则对该服务进行重启。
配置中start、stop、restart分别对应组件的启动、停止、重启命令,type支持standard和file方式,standard标识该服务为系统标准的服务,运行标准服务的启停命令来进行操作,比如sshd服务在CentOS7下对应为:
systemctl start sshd.service
针对非标准的服务,比如Tomcat,可以定义为file的方式,定义自己的操作脚本。
cluster配置该组件是单节点还是集群部署,若为单节点则直接按照detect等配置进行操作,对于集群部署的组件,若没有管理节点,则启停或检测会涉及多个节点,需要配置节点ip地址以及各节点操作顺序,当然也可以指定文件,各节点的操作均在文件中指定。
此外,不同组件之间可能存在功能依赖,比如NFS组件依赖于rpcbind组件,则可以在NFS的配置中配置dependency,多个组件按照依赖顺序检测。
另外,为了满足个性化的需求,也可针对特定服务进行相应的拓展,定义相应的名单。
本发明是一种对Linux平台下组件健康状态进行实时统一监控管理的方法,基于该方法,对于安装在系统中的组件,只需要按照支持的选项对组件进行配置,并统一放到特定路径下,即可将组件纳入统一健康监控管理。

Claims (5)

1.一种Linux平台组件统一监控的方法,其特征在于,
监控服务启动成功后,会读取指定目录中的配置文件,根据组件配置的健康探测类型和方法,监控进程实时调用确认组件运行状态,并对失败的状态进行记录,如果达到特定次数,则系统认为该组件无法正常提供服务,将按照配置的脚本进行服务重启。
2.根据权利要求1所述的方法,其特征在于,
健康监控服务启动时可以指定监控配置的路径,监控服务会遍历该路径下的所有yaml配置文件。
3.根据权利要求2所述的方法,其特征在于,
配置文件模板如下
4.根据权利要求3所述的方法,其特征在于,
针对每个组件,监控服务会首先对按照detect配置其进行探测,检测进程pid文件是否存在,除了pid方式外,监控服务支持file方式,指定组件探测文件,服务会自动进行调用,并按照返回值来判定执行结果以及组件的可用状态,对于监测失败的组件,服务会自动对失败次数进行计数,若失败次数到达detect定义的retry数,则对该服务进行重启。
5.根据权利要求4所述的方法,其特征在于,
配置中start、stop、restart分别对应组件的启动、停止、重启命令,type支持standard和file方式,standard标识该服务为系统标准的服务,运行标准服务的启停命令来进行操作;针对非标准的服务,定义为file的方式,定义自己的操作脚本。
CN201710039069.9A 2017-01-19 2017-01-19 一种Linux平台组件统一监控的方法 Pending CN106802852A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710039069.9A CN106802852A (zh) 2017-01-19 2017-01-19 一种Linux平台组件统一监控的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710039069.9A CN106802852A (zh) 2017-01-19 2017-01-19 一种Linux平台组件统一监控的方法

Publications (1)

Publication Number Publication Date
CN106802852A true CN106802852A (zh) 2017-06-06

Family

ID=58986936

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710039069.9A Pending CN106802852A (zh) 2017-01-19 2017-01-19 一种Linux平台组件统一监控的方法

Country Status (1)

Country Link
CN (1) CN106802852A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107526670A (zh) * 2017-09-01 2017-12-29 掌阅科技股份有限公司 服务自动监控方法、电子设备、计算机存储介质
WO2020181699A1 (zh) * 2019-03-11 2020-09-17 烽火通信科技股份有限公司 一种管控融合型电信网络管理方法及系统
CN113377601A (zh) * 2020-03-10 2021-09-10 奇安信科技集团股份有限公司 一种国产系统感知服务启停的方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833494A (zh) * 2010-05-06 2010-09-15 浪潮电子信息产业股份有限公司 一种硬件健康状态监控方法
CN103701661A (zh) * 2013-12-23 2014-04-02 浪潮(北京)电子信息产业有限公司 一种实现节点监控的方法及系统
US20140145929A1 (en) * 2009-04-02 2014-05-29 Oblong Industries, Inc. Cross-user hand tracking and shape recognition user interface

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140145929A1 (en) * 2009-04-02 2014-05-29 Oblong Industries, Inc. Cross-user hand tracking and shape recognition user interface
CN101833494A (zh) * 2010-05-06 2010-09-15 浪潮电子信息产业股份有限公司 一种硬件健康状态监控方法
CN103701661A (zh) * 2013-12-23 2014-04-02 浪潮(北京)电子信息产业有限公司 一种实现节点监控的方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
吴永佩: "《Linux指令范例速查辞典》", 31 March 2014, 中国铁道出版社 *
樊伟钰: "面向WebJoin的服务器集群监控系统的设计与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
王津津: "基于SaltStack的云数据库自动化部署系统的设计与实现", 《万方》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107526670A (zh) * 2017-09-01 2017-12-29 掌阅科技股份有限公司 服务自动监控方法、电子设备、计算机存储介质
WO2020181699A1 (zh) * 2019-03-11 2020-09-17 烽火通信科技股份有限公司 一种管控融合型电信网络管理方法及系统
CN113377601A (zh) * 2020-03-10 2021-09-10 奇安信科技集团股份有限公司 一种国产系统感知服务启停的方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN109814879B (zh) 自动化ci/cd项目部署方法、存储介质
CN108038019B (zh) 一种基板管理控制器的故障自动恢复方法及系统
US9386079B2 (en) Method and system of virtual desktop infrastructure deployment studio
US9348573B2 (en) Installation and fault handling in a distributed system utilizing supervisor and dependency manager nodes
CN109271170B (zh) 一种分布式系统部署方法、系统、电子设备及存储介质
US8332496B2 (en) Provisioning of operating environments on a server in a networked environment
CN109495306B (zh) 一种业务网络的扩容方法及设备
CN106802852A (zh) 一种Linux平台组件统一监控的方法
KR20160067180A (ko) 가상 머신들을 관리하는 장치 및 방법
WO2013051142A1 (ja) 更新制御装置、更新制御プログラム、および更新制御方法
US9223601B2 (en) Control device, control method, and non-transitory computer-readable storage medium for a virtual system deployment
CN107977223B (zh) 一种配置兼容性检查方法及装置
US7844766B1 (en) System and method for location specific computer enabled services/monitoring
CN105607972B (zh) 一种异常修复的方法及装置
CN109426510B (zh) 软件处理方法、装置、电子设备及计算机可读存储介质
CN104360878A (zh) 一种应用软件部署的方法及装置
CN105224441B (zh) 虚拟机信息采集装置、方法及虚拟机信息维护方法和系统
CN113645162B (zh) 一种交换机的硬件测试方法、系统、设备以及介质
CN111639314B (zh) 容器登录系统、方法、服务器及存储介质
CN109697142B (zh) 一种云计算环境下裸金属服务器的检测方法及设备
US11693731B2 (en) System and methods for diagnosing and repairing a smart mobile device by disabling components
CN101989220A (zh) 压力测试方法
WO2015131643A1 (zh) 软件检测方法及装置
CN114640709A (zh) 一种边缘节点的处理方法、装置及介质
CN108897646B (zh) 一种bios芯片的切换方法及基板管理控制器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170606