CN106802852A - 一种Linux平台组件统一监控的方法 - Google Patents
一种Linux平台组件统一监控的方法 Download PDFInfo
- Publication number
- CN106802852A CN106802852A CN201710039069.9A CN201710039069A CN106802852A CN 106802852 A CN106802852 A CN 106802852A CN 201710039069 A CN201710039069 A CN 201710039069A CN 106802852 A CN106802852 A CN 106802852A
- Authority
- CN
- China
- Prior art keywords
- service
- component
- monitoring
- configuration
- file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/302—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
Landscapes
- Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明提供一种Linux平台组件统一监控的方法,属于生产环境监控技术领域,本发明监控服务启动成功后,会读取指定目录中的配置文件,根据组件配置的健康探测类型和方法,监控进程实时调用确认组件运行状态,并对失败的状态进行记录,如果达到特定次数,则系统认为该组件无法正常提供服务,将按照配置的脚本进行服务重启。确保组件健康,保证系统的稳定运行。
Description
技术领域
本发明涉及生产环境监控技术,尤其涉及一种Linux平台组件统一监控的方法。
背景技术
随着信息化水平的发展,各类系统层出不穷,伴随着消费者复杂多变的需求,产品部署所需的技术组件也日益增多,如何保证生产环境产品的安全、稳定运行也逐步成为企业关注的重点。
发明内容
面对各类层出不穷的软件产品,为了保障产品的安全、稳定运行,本发明提出了一种Linux平台组件统一监控的方法,定义统一的健康检查规范,对于系统运行所需的核心组件,可以按照规范,自定义针对组件的yaml格式配置,无论是单机还是集群组件,均可对运行状况进行监控,保证系统的健康运行。
本发明的目的是对Linux平台下组件健康状态进行实时统一监控管理,保证产品的稳定运行。
本发明的技术方案是:
一种Linux平台组件统一监控的方法,
监控服务启动成功后,会读取指定目录中的配置文件,根据组件配置的健康探测类型和方法,监控进程实时调用确认组件运行状态,并对失败的状态进行记录,如果达到特定次数,则系统认为该组件无法正常提供服务,将按照配置的脚本进行服务重启。
健康监控服务启动时可以指定监控配置的路径,监控服务会遍历该路径下的所有yaml配置文件。
配置文件模板如下:
针对每个组件,监控服务会首先对按照detect配置其进行探测,检测进程pid文件是否存在,除了pid方式外,监控服务支持file方式,指定组件探测文件,服务会自动进行调用,并按照返回值来判定执行结果以及组件的可用状态,对于监测失败的组件,服务会自动对失败次数进行计数,若失败次数到达detect定义的retry数,则对该服务进行重启。
配置中start、stop、restart分别对应组件的启动、停止、重启命令,type支持standard和file方式,standard标识该服务为系统标准的服务,运行标准服务的启停命令来进行操作;针对非标准的服务,定义为file的方式,定义自己的操作脚本。
本发明的有益效果是
对Linux平台组件的运行状况进行有效的监测,有效保障了系统运行的稳定性。
附图说明
图1是健康监测示意图。
具体实施方式
下面对本发明的内容进行更加详细的阐述:
健康监控服务启动时可以指定监控配置的路径,监控服务会遍历该路径下的所有yaml配置文件,配置文件模板如下:
针对每个组件,监控服务会首先对按照detect配置其进行探测,最常见的方式为检测进程pid文件是否存在,除了pid方式外,监控服务支持file方式,指定组件探测文件,服务会自动进行调用,并按照返回值来判定执行结果以及组件的可用状态,对于监测失败的组件,服务会自动对失败次数进行计数,若失败次数到达detect定义的retry数,则对该服务进行重启。
配置中start、stop、restart分别对应组件的启动、停止、重启命令,type支持standard和file方式,standard标识该服务为系统标准的服务,运行标准服务的启停命令来进行操作,比如sshd服务在CentOS7下对应为:
systemctl start sshd.service
针对非标准的服务,比如Tomcat,可以定义为file的方式,定义自己的操作脚本。
cluster配置该组件是单节点还是集群部署,若为单节点则直接按照detect等配置进行操作,对于集群部署的组件,若没有管理节点,则启停或检测会涉及多个节点,需要配置节点ip地址以及各节点操作顺序,当然也可以指定文件,各节点的操作均在文件中指定。
此外,不同组件之间可能存在功能依赖,比如NFS组件依赖于rpcbind组件,则可以在NFS的配置中配置dependency,多个组件按照依赖顺序检测。
另外,为了满足个性化的需求,也可针对特定服务进行相应的拓展,定义相应的名单。
本发明是一种对Linux平台下组件健康状态进行实时统一监控管理的方法,基于该方法,对于安装在系统中的组件,只需要按照支持的选项对组件进行配置,并统一放到特定路径下,即可将组件纳入统一健康监控管理。
Claims (5)
1.一种Linux平台组件统一监控的方法,其特征在于,
监控服务启动成功后,会读取指定目录中的配置文件,根据组件配置的健康探测类型和方法,监控进程实时调用确认组件运行状态,并对失败的状态进行记录,如果达到特定次数,则系统认为该组件无法正常提供服务,将按照配置的脚本进行服务重启。
2.根据权利要求1所述的方法,其特征在于,
健康监控服务启动时可以指定监控配置的路径,监控服务会遍历该路径下的所有yaml配置文件。
3.根据权利要求2所述的方法,其特征在于,
配置文件模板如下
4.根据权利要求3所述的方法,其特征在于,
针对每个组件,监控服务会首先对按照detect配置其进行探测,检测进程pid文件是否存在,除了pid方式外,监控服务支持file方式,指定组件探测文件,服务会自动进行调用,并按照返回值来判定执行结果以及组件的可用状态,对于监测失败的组件,服务会自动对失败次数进行计数,若失败次数到达detect定义的retry数,则对该服务进行重启。
5.根据权利要求4所述的方法,其特征在于,
配置中start、stop、restart分别对应组件的启动、停止、重启命令,type支持standard和file方式,standard标识该服务为系统标准的服务,运行标准服务的启停命令来进行操作;针对非标准的服务,定义为file的方式,定义自己的操作脚本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710039069.9A CN106802852A (zh) | 2017-01-19 | 2017-01-19 | 一种Linux平台组件统一监控的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710039069.9A CN106802852A (zh) | 2017-01-19 | 2017-01-19 | 一种Linux平台组件统一监控的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106802852A true CN106802852A (zh) | 2017-06-06 |
Family
ID=58986936
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710039069.9A Pending CN106802852A (zh) | 2017-01-19 | 2017-01-19 | 一种Linux平台组件统一监控的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106802852A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107526670A (zh) * | 2017-09-01 | 2017-12-29 | 掌阅科技股份有限公司 | 服务自动监控方法、电子设备、计算机存储介质 |
WO2020181699A1 (zh) * | 2019-03-11 | 2020-09-17 | 烽火通信科技股份有限公司 | 一种管控融合型电信网络管理方法及系统 |
CN113377601A (zh) * | 2020-03-10 | 2021-09-10 | 奇安信科技集团股份有限公司 | 一种国产系统感知服务启停的方法、装置及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101833494A (zh) * | 2010-05-06 | 2010-09-15 | 浪潮电子信息产业股份有限公司 | 一种硬件健康状态监控方法 |
CN103701661A (zh) * | 2013-12-23 | 2014-04-02 | 浪潮(北京)电子信息产业有限公司 | 一种实现节点监控的方法及系统 |
US20140145929A1 (en) * | 2009-04-02 | 2014-05-29 | Oblong Industries, Inc. | Cross-user hand tracking and shape recognition user interface |
-
2017
- 2017-01-19 CN CN201710039069.9A patent/CN106802852A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140145929A1 (en) * | 2009-04-02 | 2014-05-29 | Oblong Industries, Inc. | Cross-user hand tracking and shape recognition user interface |
CN101833494A (zh) * | 2010-05-06 | 2010-09-15 | 浪潮电子信息产业股份有限公司 | 一种硬件健康状态监控方法 |
CN103701661A (zh) * | 2013-12-23 | 2014-04-02 | 浪潮(北京)电子信息产业有限公司 | 一种实现节点监控的方法及系统 |
Non-Patent Citations (3)
Title |
---|
吴永佩: "《Linux指令范例速查辞典》", 31 March 2014, 中国铁道出版社 * |
樊伟钰: "面向WebJoin的服务器集群监控系统的设计与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
王津津: "基于SaltStack的云数据库自动化部署系统的设计与实现", 《万方》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107526670A (zh) * | 2017-09-01 | 2017-12-29 | 掌阅科技股份有限公司 | 服务自动监控方法、电子设备、计算机存储介质 |
WO2020181699A1 (zh) * | 2019-03-11 | 2020-09-17 | 烽火通信科技股份有限公司 | 一种管控融合型电信网络管理方法及系统 |
CN113377601A (zh) * | 2020-03-10 | 2021-09-10 | 奇安信科技集团股份有限公司 | 一种国产系统感知服务启停的方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109814879B (zh) | 自动化ci/cd项目部署方法、存储介质 | |
CN108038019B (zh) | 一种基板管理控制器的故障自动恢复方法及系统 | |
US9386079B2 (en) | Method and system of virtual desktop infrastructure deployment studio | |
US9348573B2 (en) | Installation and fault handling in a distributed system utilizing supervisor and dependency manager nodes | |
CN109271170B (zh) | 一种分布式系统部署方法、系统、电子设备及存储介质 | |
US8332496B2 (en) | Provisioning of operating environments on a server in a networked environment | |
CN109495306B (zh) | 一种业务网络的扩容方法及设备 | |
CN106802852A (zh) | 一种Linux平台组件统一监控的方法 | |
KR20160067180A (ko) | 가상 머신들을 관리하는 장치 및 방법 | |
WO2013051142A1 (ja) | 更新制御装置、更新制御プログラム、および更新制御方法 | |
US9223601B2 (en) | Control device, control method, and non-transitory computer-readable storage medium for a virtual system deployment | |
CN107977223B (zh) | 一种配置兼容性检查方法及装置 | |
US7844766B1 (en) | System and method for location specific computer enabled services/monitoring | |
CN105607972B (zh) | 一种异常修复的方法及装置 | |
CN109426510B (zh) | 软件处理方法、装置、电子设备及计算机可读存储介质 | |
CN104360878A (zh) | 一种应用软件部署的方法及装置 | |
CN105224441B (zh) | 虚拟机信息采集装置、方法及虚拟机信息维护方法和系统 | |
CN113645162B (zh) | 一种交换机的硬件测试方法、系统、设备以及介质 | |
CN111639314B (zh) | 容器登录系统、方法、服务器及存储介质 | |
CN109697142B (zh) | 一种云计算环境下裸金属服务器的检测方法及设备 | |
US11693731B2 (en) | System and methods for diagnosing and repairing a smart mobile device by disabling components | |
CN101989220A (zh) | 压力测试方法 | |
WO2015131643A1 (zh) | 软件检测方法及装置 | |
CN114640709A (zh) | 一种边缘节点的处理方法、装置及介质 | |
CN108897646B (zh) | 一种bios芯片的切换方法及基板管理控制器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170606 |