CN105550094A - 一种高可用系统状态自动监控方法 - Google Patents

一种高可用系统状态自动监控方法 Download PDF

Info

Publication number
CN105550094A
CN105550094A CN201510910430.1A CN201510910430A CN105550094A CN 105550094 A CN105550094 A CN 105550094A CN 201510910430 A CN201510910430 A CN 201510910430A CN 105550094 A CN105550094 A CN 105550094A
Authority
CN
China
Prior art keywords
supervisory system
high availabitity
availability
control desk
availabitity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510910430.1A
Other languages
English (en)
Other versions
CN105550094B (zh
Inventor
倪雅琦
陈龙
黄林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Sichuan Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Sichuan Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Sichuan Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201510910430.1A priority Critical patent/CN105550094B/zh
Publication of CN105550094A publication Critical patent/CN105550094A/zh
Application granted granted Critical
Publication of CN105550094B publication Critical patent/CN105550094B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3017Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is implementing multitasking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3604Software analysis for verifying properties of programs
    • G06F11/3612Software analysis for verifying properties of programs by runtime analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种高可用系统状态自动监控方法,部署高可用监控系统控制台和高可用监控系统客户端,高可用监控系统控制台对高可用监控系统客户端发送的监控信息进行分析,当分析结果为存在故障时,执行相应的修复策略。本发明所述的高可用系统状态自动监控方法能够集中监控和管理应用程序,及时发现应用程序故障,并快速进行自动修复,解决传统监控存在的时延过长、人工干预排查、故障定位难的问题。

Description

一种高可用系统状态自动监控方法
技术领域
本发明涉及计算机数据通信技术领域,尤其涉及一种高可用系统状态自动监控方法。
背景技术
在应用系统、主机数目规模庞大的信息中心,涉及成百上千台主机和数以千计个应用程序。每个程序出现故障,都会导致某个业务中断,经济影响巨大。传统的监控系统虽然能监控到业务中断,但时延较长,不能对故障进行定位,也不能进行自动修复,需要人为干预排查原因,无法立即解决问题。若通过传统的人力轮询巡检、修复手段,必将投入巨大的人力资源,而且存在难于及时解决故障、恢复生产的问题。
发明内容
针对上述技术问题,本发明的目的在于提供一种高可用系统状态自动监控方法,能够集中监控和管理应用程序,及时发现应用程序故障并快速进行自动修复,解决传统监控存在的时延过长、人工干预排查、故障定位难的问题。
为达此目的,本发明采用以下技术方案:
一种高可用系统状态自动监控方法,包括如下步骤:
A、部署高可用监控系统控制台和高可用监控系统客户端;
B、设置高可用监控系统监控参数、高可用监控系统客户端监控信息要素和修复策略;
C、高可用监控系统客户端发送监控信息到高可用监控系统控制台,并在高可用监控系统控制台对监控信息进行汇总、分析和图形呈现,所述监控信息包括监控信息要素的具体内容;
D、高可用监控系统控制台分析监控数据,并根据分析结果判断是否存在故障,若存在故障,则执行相应的高可用监控系统客户端修复策略。
特别地,所述步骤A中高可用监控系统控制台包括两台PC服务器,组成集群高可用系统,监控系统客户端包括若干台应用服务器。
特别地,所述步骤B中高可用监控系统监控参数具体包括但不限于监控的时延阀值、频率。
特别地,所述步骤B中高可用监控系统客户端监控信息要素具体包括但不限于操作系统健康状态、主机CPU、内存、网卡、HBA卡、磁盘、卷组、文件系统、数据库进程、应用程序进程、网络端口。
特别地,所述步骤B中高可用监控系统客户端修复策略具体包括但不限于:对于应用进程故障,重新启动进程;对于具有冗余备用的硬件故障,转移服务至备用硬件;对于没有冗余备用的硬件故障,定位问题所在,在控制台告警请求人工干预。
本发明提出的一种高可用系统状态自动监控方法,高可用监控系统控制台对高可用监控系统客户端发送的监控信息进行分析,当分析结果为存在故障时,执行相应的修复策略,从而能够集中监控和管理应用程序,及时发现应用程序故障,并快速进行自动修复,解决传统监控存在的时延过长、人工干预排查、故障定位难的问题。
附图说明
图1是本发明实施例提供的高可用系统状态自动监控方法的流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容,除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
实施例一
请参照图1所示,图1为本发明实施例提供的高可用系统状态自动监控方法的流程图。
本实施例中,高可用系统状态自动监控方法具体包括:
S101、部署高可用监控系统控制台和高可用监控系统客户端。
采用两台PC服务器组成集群高可用系统,作为高可用监控系统控制台,并分别对其部署高可用监控系统控制台模块;同时若干多台应用服务器作为高可用监控系统客户端,分别部署高可用监控系统客户端模块。
S102、设置高可用监控系统监控参数、高可用监控系统客户端监控信息要素和修复策略。
高可用监控系统控制台根据每个高可用监控系统客户端不同的软、硬件环境,设置具体的监控信息要素,包括操作系统健康状态、主机CPU、内存、网卡、HBA卡、磁盘、卷组、文件系统、数据库进程、应用程序进程、网络端口等;同时,根据每个应用系统的特点,设置时延阀值、频率等监控参数;同时,根据应用系统的特征和业务的需求,设置高可用修复策略。所述高可用修复策略包括:对于应用进程故障,重新启动进程;对于具有冗余备用的硬件故障,转移服务至备用硬件;对于没有冗余备用的硬件故障,定位问题所在,在控制台告警请求人工干预。
S103、高可用监控系统客户端发送监控信息到高可用监控系统控制台,并在高可用监控系统控制台对监控信息进行汇总、分析和图形呈现。
高可用监控系统客户端收集每台客户端上的配置信息、状态信息和日志,统一、集中传输到高可用监控系统控制台数据库,做汇总和分析,并呈现在控制台界面上。同时,高可用监控系统客户端发送监控信息到高可用监控系统控制台,并在高可用监控系统控制台对监控信息进行汇总、分析和图形呈现。所述客户信息包括S102中设置的监控信息要素的具体内容。所述高可用监控系统客户端发送监控信息的间隔时间根据需要进行设定,高可用监控系统控制台发现某个程序或部件在设定的间隔时间内没有反应,则认为其已出现故障。
S104、高可用监控系统控制台分析监控数据,并根据分析结果判断是否存在故障,若是,则执行S105;若否,则返回S103。
高可用监控系统控制台将监控数据与系统内部预设的相关阈值进行比较,并根据比较结果判断是否存在故障。
S105、执行相应的高可用监控系统客户端修复策略。
若判断存在故障时,则根据故障具体情况执行相应的S102中设置的高可用监控系统客户端修复策略。对于应用进程故障,重新启动进程;对于有冗余备用的硬件故障,转移服务至备用硬件,如将服务ip转移到备用网卡;对于没有冗余备用的硬件故障,及时在控制台告警,具体定位问题所在,请求人工干预。
本发明的技术方案,通过高可用监控系统控制台对高可用监控系统客户端发送的监控信息进行分析,当分析结果为存在故障时,执行相应的修复策略,从而能够集中监控和管理应用程序,及时发现应用程序故障,并快速进行自动修复,解决传统监控存在的时延过长、人工干预排查、故障定位难的问题。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (5)

1.一种高可用系统状态自动监控方法,其特征在于,包括如下步骤:
A、部署高可用监控系统控制台和高可用监控系统客户端;
B、设置高可用监控系统监控参数、高可用监控系统客户端监控信息要素和修复策略;
C、高可用监控系统客户端发送监控信息到高可用监控系统控制台,并在高可用监控系统控制台对监控信息进行汇总、分析和图形呈现,所述监控信息包括监控信息要素的具体内容;
D、高可用监控系统控制台分析监控数据,并根据分析结果判断是否存在故障,若存在故障,则执行相应的高可用监控系统客户端修复策略。
2.根据权利要求1所述的高可用系统状态自动监控方法,其特征在于,所述步骤A中高可用监控系统控制台包括两台PC服务器,组成集群高可用系统,监控系统客户端包括若干台应用服务器。
3.根据权利要求1所述的高可用系统状态自动监控方法,其特征在于,所述步骤B中高可用监控系统监控参数具体包括但不限于监控的时延阀值、频率。
4.根据权利要求1所述的高可用系统状态自动监控方法,其特征在于,所述步骤B中高可用监控系统客户端监控信息要素具体包括但不限于操作系统健康状态、主机CPU、内存、网卡、HBA卡、磁盘、卷组、文件系统、数据库进程、应用程序进程、网络端口。
5.根据权利要求1所述的高可用系统状态自动监控方法,其特征在于,所述步骤B中高可用监控系统客户端修复策略具体包括但不限于:对于应用进程故障,重新启动进程;对于具有冗余备用的硬件故障,转移服务至备用硬件;对于没有冗余备用的硬件故障,定位问题所在,在控制台告警请求人工干预。
CN201510910430.1A 2015-12-10 2015-12-10 一种高可用系统状态自动监控方法 Active CN105550094B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510910430.1A CN105550094B (zh) 2015-12-10 2015-12-10 一种高可用系统状态自动监控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510910430.1A CN105550094B (zh) 2015-12-10 2015-12-10 一种高可用系统状态自动监控方法

Publications (2)

Publication Number Publication Date
CN105550094A true CN105550094A (zh) 2016-05-04
CN105550094B CN105550094B (zh) 2018-02-06

Family

ID=55829290

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510910430.1A Active CN105550094B (zh) 2015-12-10 2015-12-10 一种高可用系统状态自动监控方法

Country Status (1)

Country Link
CN (1) CN105550094B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107294786A (zh) * 2017-07-13 2017-10-24 郑州云海信息技术有限公司 一种故障信息处理方法及装置
CN109245819A (zh) * 2018-07-19 2019-01-18 郑州云海信息技术有限公司 一种故障定位方法及相关装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050025303A1 (en) * 2003-07-28 2005-02-03 Hostetler Larry Blythe High availability multi-tenant feature
CN101079896A (zh) * 2007-06-22 2007-11-28 西安交通大学 一种并行存储系统的多可用性机制共存架构
CN101694632A (zh) * 2009-10-19 2010-04-14 浪潮电子信息产业股份有限公司 一种用于数据库集群系统按需执行资源计划的方法
CN101859317A (zh) * 2010-05-10 2010-10-13 浪潮电子信息产业股份有限公司 一种利用虚拟化构建数据库集群的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050025303A1 (en) * 2003-07-28 2005-02-03 Hostetler Larry Blythe High availability multi-tenant feature
CN101079896A (zh) * 2007-06-22 2007-11-28 西安交通大学 一种并行存储系统的多可用性机制共存架构
CN101694632A (zh) * 2009-10-19 2010-04-14 浪潮电子信息产业股份有限公司 一种用于数据库集群系统按需执行资源计划的方法
CN101859317A (zh) * 2010-05-10 2010-10-13 浪潮电子信息产业股份有限公司 一种利用虚拟化构建数据库集群的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107294786A (zh) * 2017-07-13 2017-10-24 郑州云海信息技术有限公司 一种故障信息处理方法及装置
CN109245819A (zh) * 2018-07-19 2019-01-18 郑州云海信息技术有限公司 一种故障定位方法及相关装置

Also Published As

Publication number Publication date
CN105550094B (zh) 2018-02-06

Similar Documents

Publication Publication Date Title
CN108600029B (zh) 一种配置文件更新方法、装置、终端设备及存储介质
US10592330B2 (en) Systems and methods for automatic replacement and repair of communications network devices
CN112073265B (zh) 一种基于分布式边缘计算的物联网监控方法和系统
US9900226B2 (en) System for managing a remote data processing system
US11204824B1 (en) Intelligent network operation platform for network fault mitigation
CN103414916B (zh) 一种故障诊断系统及方法
CN106685676B (zh) 一种节点切换方法及装置
EP3926891A1 (en) Intelligent network operation platform for network fault mitigation
CN103699063A (zh) 一种制造执行系统mes中离线数据的采集装置和方法
CN110134518A (zh) 一种提高大数据集群多节点应用高可用性的方法及系统
CN108199901B (zh) 硬件报修方法、系统、设备、硬件管理服务器与存储介质
CN108052358B (zh) 一种分布式部署的系统和方法
CN103595572B (zh) 一种云计算集群中节点自修复的方法
CN110119325A (zh) 服务器故障处理方法、装置、设备及计算机可读存储介质
CN115550164A (zh) 一种一键安装、管理单节点大数据组件的方法及系统
Cao et al. ITIL Incident management process reengineering in industry 4.0 environments
CN106487598B (zh) 异构冗余Snmp协议多实例实现系统及其实现方法
CN103414920B (zh) 通过信令流量判断业务状态的系统和方法
CN113448947B (zh) 一种mongo数据库分布式部署运维的方法和装置
CN105550094A (zh) 一种高可用系统状态自动监控方法
CN105849699B (zh) 控制数据中心架构设备的方法
CN117194154A (zh) 一种基于微服务的apm全链路监控系统及方法
WO2019241199A1 (en) System and method for predictive maintenance of networked devices
CN116149954A (zh) 一种服务器智能运维系统及其方法
US20220086034A1 (en) Over the top networking monitoring system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant