CN105550094B - 一种高可用系统状态自动监控方法 - Google Patents

一种高可用系统状态自动监控方法 Download PDF

Info

Publication number
CN105550094B
CN105550094B CN201510910430.1A CN201510910430A CN105550094B CN 105550094 B CN105550094 B CN 105550094B CN 201510910430 A CN201510910430 A CN 201510910430A CN 105550094 B CN105550094 B CN 105550094B
Authority
CN
China
Prior art keywords
monitoring
monitoring system
high availabitity
console
availabitity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510910430.1A
Other languages
English (en)
Other versions
CN105550094A (zh
Inventor
倪雅琦
陈龙
黄林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Sichuan Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Sichuan Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Sichuan Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201510910430.1A priority Critical patent/CN105550094B/zh
Publication of CN105550094A publication Critical patent/CN105550094A/zh
Application granted granted Critical
Publication of CN105550094B publication Critical patent/CN105550094B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3017Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is implementing multitasking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3604Software analysis for verifying properties of programs
    • G06F11/3612Software analysis for verifying properties of programs by runtime analysis

Abstract

本发明公开了一种高可用系统状态自动监控方法,部署高可用监控系统控制台和高可用监控系统客户端,高可用监控系统控制台对高可用监控系统客户端发送的监控信息进行分析,当分析结果为存在故障时,执行相应的修复策略。本发明所述的高可用系统状态自动监控方法能够集中监控和管理应用程序,及时发现应用程序故障,并快速进行自动修复,解决传统监控存在的时延过长、人工干预排查、故障定位难的问题。

Description

一种高可用系统状态自动监控方法
技术领域
本发明涉及计算机数据通信技术领域,尤其涉及一种高可用系统状态自动监控方法。
背景技术
在应用系统、主机数目规模庞大的信息中心,涉及成百上千台主机和数以千计个应用程序。每个程序出现故障,都会导致某个业务中断,经济影响巨大。传统的监控系统虽然能监控到业务中断,但时延较长,不能对故障进行定位,也不能进行自动修复,需要人为干预排查原因,无法立即解决问题。若通过传统的人力轮询巡检、修复手段,必将投入巨大的人力资源,而且存在难于及时解决故障、恢复生产的问题。
发明内容
针对上述技术问题,本发明的目的在于提供一种高可用系统状态自动监控方法,能够集中监控和管理应用程序,及时发现应用程序故障并快速进行自动修复,解决传统监控存在的时延过长、人工干预排查、故障定位难的问题。
为达此目的,本发明采用以下技术方案:
一种高可用系统状态自动监控方法,包括如下步骤:
A、部署高可用监控系统控制台和高可用监控系统客户端;
B、设置高可用监控系统监控参数、高可用监控系统客户端监控信息要素和修复策略;
C、高可用监控系统客户端发送监控信息到高可用监控系统控制台,并在高可用监控系统控制台对监控信息进行汇总、分析和图形呈现,所述监控信息包括监控信息要素的具体内容;
D、高可用监控系统控制台分析监控数据,并根据分析结果判断是否存在故障,若存在故障,则执行相应的高可用监控系统客户端修复策略。
特别地,所述步骤A中高可用监控系统控制台包括两台PC服务器,组成集群高可用系统,监控系统客户端包括若干台应用服务器。
特别地,所述步骤B中高可用监控系统监控参数具体包括但不限于监控的时延阀值、频率。
特别地,所述步骤B中高可用监控系统客户端监控信息要素具体包括但不限于操作系统健康状态、主机CPU、内存、网卡、HBA卡、磁盘、卷组、文件系统、数据库进程、应用程序进程、网络端口。
特别地,所述步骤B中高可用监控系统客户端修复策略具体包括但不限于:对于应用进程故障,重新启动进程;对于具有冗余备用的硬件故障,转移服务至备用硬件;对于没有冗余备用的硬件故障,定位问题所在,在控制台告警请求人工干预。
本发明提出的一种高可用系统状态自动监控方法,高可用监控系统控制台对高可用监控系统客户端发送的监控信息进行分析,当分析结果为存在故障时,执行相应的修复策略,从而能够集中监控和管理应用程序,及时发现应用程序故障,并快速进行自动修复,解决传统监控存在的时延过长、人工干预排查、故障定位难的问题。
附图说明
图1是本发明实施例提供的高可用系统状态自动监控方法的流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容,除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
实施例一
请参照图1所示,图1为本发明实施例提供的高可用系统状态自动监控方法的流程图。
本实施例中,高可用系统状态自动监控方法具体包括:
S101、部署高可用监控系统控制台和高可用监控系统客户端。
采用两台PC服务器组成集群高可用系统,作为高可用监控系统控制台,并分别对其部署高可用监控系统控制台模块;同时若干多台应用服务器作为高可用监控系统客户端,分别部署高可用监控系统客户端模块。
S102、设置高可用监控系统监控参数、高可用监控系统客户端监控信息要素和修复策略。
高可用监控系统控制台根据每个高可用监控系统客户端不同的软、硬件环境,设置具体的监控信息要素,包括操作系统健康状态、主机CPU、内存、网卡、HBA卡、磁盘、卷组、文件系统、数据库进程、应用程序进程、网络端口等;同时,根据每个应用系统的特点,设置时延阀值、频率等监控参数;同时,根据应用系统的特征和业务的需求,设置高可用修复策略。所述高可用修复策略包括:对于应用进程故障,重新启动进程;对于具有冗余备用的硬件故障,转移服务至备用硬件;对于没有冗余备用的硬件故障,定位问题所在,在控制台告警请求人工干预。
S103、高可用监控系统客户端发送监控信息到高可用监控系统控制台,并在高可用监控系统控制台对监控信息进行汇总、分析和图形呈现。
高可用监控系统客户端收集每台客户端上的配置信息、状态信息和日志,统一、集中传输到高可用监控系统控制台数据库,做汇总和分析,并呈现在控制台界面上。同时,高可用监控系统客户端发送监控信息到高可用监控系统控制台,并在高可用监控系统控制台对监控信息进行汇总、分析和图形呈现。所述客户信息包括S102中设置的监控信息要素的具体内容。所述高可用监控系统客户端发送监控信息的间隔时间根据需要进行设定,高可用监控系统控制台发现某个程序或部件在设定的间隔时间内没有反应,则认为其已出现故障。
S104、高可用监控系统控制台分析监控数据,并根据分析结果判断是否存在故障,若是,则执行S105;若否,则返回S103。
高可用监控系统控制台将监控数据与系统内部预设的相关阈值进行比较,并根据比较结果判断是否存在故障。
S105、执行相应的高可用监控系统客户端修复策略。
若判断存在故障时,则根据故障具体情况执行相应的S102中设置的高可用监控系统客户端修复策略。对于应用进程故障,重新启动进程;对于有冗余备用的硬件故障,转移服务至备用硬件,如将服务ip转移到备用网卡;对于没有冗余备用的硬件故障,及时在控制台告警,具体定位问题所在,请求人工干预。
本发明的技术方案,通过高可用监控系统控制台对高可用监控系统客户端发送的监控信息进行分析,当分析结果为存在故障时,执行相应的修复策略,从而能够集中监控和管理应用程序,及时发现应用程序故障,并快速进行自动修复,解决传统监控存在的时延过长、人工干预排查、故障定位难的问题。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (4)

1.一种高可用系统状态自动监控方法,其特征在于,包括如下步骤:
A、部署高可用监控系统控制台和高可用监控系统客户端;
B、设置高可用监控系统监控参数、高可用监控系统客户端监控信息要素和修复策略;
C、高可用监控系统客户端发送监控信息到高可用监控系统控制台,并在高可用监控系统控制台对监控信息进行汇总、分析和图形呈现,所述监控信息包括监控信息要素的具体内容;
D、高可用监控系统控制台分析监控数据,并根据分析结果判断是否存在故障,若存在故障,则执行相应的高可用监控系统客户端修复策略;
高可用监控系统客户端收集每台客户端上的配置信息、状态信息和日志,统一、集中传输到高可用监控系统控制台数据库,做汇总和分析,并呈现在控制台界面上;高可用监控系统客户端发送监控信息到高可用监控系统控制台,并在高可用监控系统控制台对监控信息进行汇总、分析和图形呈现;所述高可用监控系统客户端发送监控信息的间隔时间根据需要进行设定,高可用监控系统控制台发现某个程序或部件在设定的间隔时间内没有反应,则认为其已出现故障;若判断存在故障时,则根据故障具体情况执行相应的步骤B中设置的高可用监控系统客户端修复策略;对于应用进程故障,重新启动进程;对于有冗余备用的硬件故障,转移服务至备用硬件;对于没有冗余备用的硬件故障,及时在控制台告警,具体定位问题所在,请求人工干预。
2.根据权利要求1所述的高可用系统状态自动监控方法,其特征在于,所述步骤A中高可用监控系统控制台包括两台PC服务器,组成集群高可用系统,监控系统客户端包括若干台应用服务器。
3.根据权利要求1所述的高可用系统状态自动监控方法,其特征在于,所述步骤B中高可用监控系统监控参数具体包括但不限于监控的时延阀值、频率。
4.根据权利要求1所述的高可用系统状态自动监控方法,其特征在于,所述步骤B中高可用监控系统客户端监控信息要素具体包括但不限于操作系统健康状态、主机CPU、内存、网卡、HBA卡、磁盘、卷组、文件系统、数据库进程、应用程序进程、网络端口。
CN201510910430.1A 2015-12-10 2015-12-10 一种高可用系统状态自动监控方法 Active CN105550094B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510910430.1A CN105550094B (zh) 2015-12-10 2015-12-10 一种高可用系统状态自动监控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510910430.1A CN105550094B (zh) 2015-12-10 2015-12-10 一种高可用系统状态自动监控方法

Publications (2)

Publication Number Publication Date
CN105550094A CN105550094A (zh) 2016-05-04
CN105550094B true CN105550094B (zh) 2018-02-06

Family

ID=55829290

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510910430.1A Active CN105550094B (zh) 2015-12-10 2015-12-10 一种高可用系统状态自动监控方法

Country Status (1)

Country Link
CN (1) CN105550094B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107294786A (zh) * 2017-07-13 2017-10-24 郑州云海信息技术有限公司 一种故障信息处理方法及装置
CN109245819A (zh) * 2018-07-19 2019-01-18 郑州云海信息技术有限公司 一种故障定位方法及相关装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079896A (zh) * 2007-06-22 2007-11-28 西安交通大学 一种并行存储系统的多可用性机制共存架构
CN101694632A (zh) * 2009-10-19 2010-04-14 浪潮电子信息产业股份有限公司 一种用于数据库集群系统按需执行资源计划的方法
CN101859317A (zh) * 2010-05-10 2010-10-13 浪潮电子信息产业股份有限公司 一种利用虚拟化构建数据库集群的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7929684B2 (en) * 2003-07-28 2011-04-19 Alcatel-Lucent Usa Inc. High availability multi-tenant feature

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079896A (zh) * 2007-06-22 2007-11-28 西安交通大学 一种并行存储系统的多可用性机制共存架构
CN101694632A (zh) * 2009-10-19 2010-04-14 浪潮电子信息产业股份有限公司 一种用于数据库集群系统按需执行资源计划的方法
CN101859317A (zh) * 2010-05-10 2010-10-13 浪潮电子信息产业股份有限公司 一种利用虚拟化构建数据库集群的方法

Also Published As

Publication number Publication date
CN105550094A (zh) 2016-05-04

Similar Documents

Publication Publication Date Title
CN109412870B (zh) 告警监控方法及平台、服务器、存储介质
CN107707376B (zh) 一种监控和告警的方法和系统
CN106685676B (zh) 一种节点切换方法及装置
CN108092836A (zh) 一种服务器的监控方法及装置
CN112073265B (zh) 一种基于分布式边缘计算的物联网监控方法和系统
CN104750596B (zh) 一种告警信息处理方法及服务子系统
WO2016188100A1 (zh) 信息系统故障场景信息收集方法及系统
CN103699063B (zh) 一种制造执行系统mes中离线数据的采集装置和方法
WO2011155621A1 (ja) 障害検出装置、障害検出方法およびプログラム記録媒体
CN103414916B (zh) 一种故障诊断系统及方法
US8306782B2 (en) System for monitoring and diagnosing remote devices
CN109408210B (zh) 分布式定时任务管理方法及系统
CN111884878A (zh) 基于区块链的数据监控方法
CN109164720A (zh) 基于IIoT的注塑机机群远程监控系统和方法
CN112380089A (zh) 一种数据中心监控预警方法及系统
CN114024834A (zh) 故障定位方法、装置、电子设备及可读存储介质
CN108776625A (zh) 一种服务故障的修复方法、装置和存储介质
CN111488258A (zh) 一种用于软硬件运行状态分析与预警的系统
CN105550094B (zh) 一种高可用系统状态自动监控方法
CN108199901A (zh) 硬件报修方法、系统、设备、硬件管理服务器与存储介质
CN105681070A (zh) 一种自动收集计算机集群节点信息并分析的方法及系统
CN109800133A (zh) 一种统一监控告警的方法、一站式监控告警平台及系统
KR101433045B1 (ko) 사전 장애 탐지 시스템 및 방법
CN112910733A (zh) 一种基于大数据的全链路监控系统及方法
CN104331353A (zh) 软件高可用保证的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant