CN105490870A - 一种批量监控Linux服务器运行状态的方法 - Google Patents

一种批量监控Linux服务器运行状态的方法 Download PDF

Info

Publication number
CN105490870A
CN105490870A CN201510804986.2A CN201510804986A CN105490870A CN 105490870 A CN105490870 A CN 105490870A CN 201510804986 A CN201510804986 A CN 201510804986A CN 105490870 A CN105490870 A CN 105490870A
Authority
CN
China
Prior art keywords
server
monitoring
state
batch
running status
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510804986.2A
Other languages
English (en)
Inventor
李洋
任华进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201510804986.2A priority Critical patent/CN105490870A/zh
Publication of CN105490870A publication Critical patent/CN105490870A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/14Arrangements for monitoring or testing data switching networks using software, i.e. software packages

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Environmental & Geological Engineering (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种批量监控Linux服务器运行状态的方法,所述方法通过在网络中一台监控节点上部署监控脚本,定时获取网络上其它服务器的运行状态,并将结果保存到本监控节点上;当有服务器发生宕机或其它异常情况时,监控节点就会检测到错误,同时生成错误日志并保存到每台服务器对应的监控日志中,实现批量对服务器的运行状态进行实时监控。本发明提出的基于Shell脚本的实时监控方法,将会在监控节点上部署批量扫描器,不会占用被监控服务器的系统资源。同时将所有服务器的运行状态数据统一输送到监控节点上,十分方便运维人员主动维护。而且,当服务器状态异常后,运维人员还可以从日志中轻易确定故障发生的时间,非常实用。

Description

一种批量监控Linux服务器运行状态的方法
技术领域
本发明涉及Linux服务器监控技术领域,具体涉及一种批量监控Linux服务器运行状态的方法,通过在网络中一台监控节点上部署监控脚本,定时获取网络上其它服务器的运行状态,并将结果保存到本监控节点上。当有服务器发生宕机或其它异常情况时,监控节点就会检测到错误,同时生成错误日志并保存到每台服务器对应的监控日志中,实现批量对服务器的运行状态进行实时监控的目的。
背景技术
随着服务器技术的不断发展,企业机房中的服务器数量变得越来越多,在满足广大企业日益增长的计算机存储需求的同时,也使得我们监控服务器运行状态的工作变得越来越繁琐。通常情况下,如果服务器配置了管理卡,出现硬件故障时可能会有告警,及时通知运维人员处理故障。但是,如果服务器直接宕机或者系统资源占用过多,此时管理卡一般不会检测到告警,但是这将直接影响到业务运行,只有运维人员发现业务无法使用或运行缓慢后才会引起注意,而且难以判断发生故障的时间。另外,对机房大量服务器逐台检查也会消耗过多的人力和时间成本。
发明内容
本发明要解决的技术问题是:为了解决上述问题,提供一种批量监控Linux服务器运行状态的方法。
本发明所采用的技术方案为:
一种批量监控Linux服务器运行状态的方法,所述方法通过在网络中一台监控节点上部署监控脚本,定时获取网络上其它服务器的运行状态,并将结果保存到本监控节点上;当有服务器发生宕机或其它异常情况时,监控节点就会检测到错误,同时生成错误日志并保存到每台服务器对应的监控日志中,实现批量对服务器的运行状态进行实时监控。
所述方法涉及的程序包括:1)批量扫描器scan.sh、2)状态获取及判断机制get_state.sh,其中:
1)批量扫描器scan.sh:使用Shell脚本编写,允许自定义被扫描的IP地址段范围及扫描间隔,在计划扫描的时间到来后,会批量在每台被监控服务器上调用状态获取及判断机制,并将返回值传回到监控节点上;
2)状态获取及判断机制get_state.sh:通过Linux系统管理命令获取服务器的运行状态,同时对服务器的存活状态做出判断,将结果记录到监控日志中,每台被监控服务器都有一个独立的日志文件。
所述方法实现步骤如下:
1)在监控节点上部署scan.sh和get_state.sh,复制脚本文件至任意目录,要求这两个脚本位于同一目录下;
2)创建ip.txt文件,里面填写好所有服务器的IP地址,每行一个;
3)修改扫描时间间隔,单位是秒;
4)赋予脚本文件可执行权限,执行脚本;
5)监控过程与结果分析。
所述监控过程与结果分析操作步骤如下:
1)scan.sh用于创建后台监控进程,根据扫描列表中定义的IP地址段远程连接到每台被监控的服务器上,同时将get_state脚本复制到远程服务器上获取最新状态,最后负责将数据传回监控节点;
2)get_state.sh用于获取服务器的运行状态,同时对服务器的存活状态做出判断,将结果记录到监控日志中,日志文件以主机名结尾;
日志文件详细记录了此台服务器的运行状态,包括服务器当前存活状态、已运行时间、各资源占用率以及关机或重启记录;
3)通过查看日志中的存活标记及日志记录时间,确认服务器有无发生宕机问题;
4)最后,对有问题的服务器进行维护。
本发明的有益效果为:
本发明提出的基于Shell脚本的实时监控方法,将会在监控节点上部署批量扫描器,不会占用被监控服务器的系统资源。同时将所有服务器的运行状态数据统一输送到监控节点上,十分方便运维人员主动维护。而且,当服务器状态异常后,运维人员还可以从日志中轻易确定故障发生的时间,非常实用。本方法无需安装第三方软件,简单易用。批量扫描器使用Shell脚本编写,通用性强,可跨平台使用。另外,可以自定义扫描范围及扫描间隔,适应不同的监控环境。同时支持后台监控,无需人为干预。
附图说明
图1为本发明方法流程图。
具体实施方式
下面根据说明书附图,结合具体实施方式对本发明进一步说明:
实施例1:
一种批量监控Linux服务器运行状态的方法,所述方法通过在网络中一台监控节点上部署监控脚本,定时获取网络上其它服务器的运行状态,并将结果保存到本监控节点上;当有服务器发生宕机或其它异常情况时,监控节点就会检测到错误,同时生成错误日志并保存到每台服务器对应的监控日志中,实现批量对服务器的运行状态进行实时监控。
实施例2:
在实施例1的基础上,本实施例所述方法涉及的程序包括:1)批量扫描器scan.sh、2)状态获取及判断机制get_state.sh,其中:
1)批量扫描器scan.sh:使用Shell脚本编写,允许自定义被扫描的IP地址段范围及扫描间隔,在计划扫描的时间到来后,会批量在每台被监控服务器上调用状态获取及判断机制,并将返回值传回到监控节点上;
2)状态获取及判断机制get_state.sh:通过Linux系统管理命令获取服务器的运行状态,同时对服务器的存活状态做出判断,将结果记录到监控日志中,每台被监控服务器都有一个独立的日志文件。
其中:scan.sh程序:
#!/bin/bash
while[true]
do
foriin`catip.txt`
do
scpget_state.shroot$i:/root
sshroot$i"chmod777get_state.sh;./get_state.sh"
scproot$i:/root/state*Logs
done
sleep3600
done
说明1:程序调用的ip.txt文件可以自行创建,里面填写好所有服务器的IP地址,每行一个;
说明2:sleep3600部分为扫描间隔,单位是秒,默认1小时扫描一次,可修改。
get_state.sh程序:
#!/bin/bash
echo“====================Serverislive====================”>>state_$HOSTNAME.log
uptime>>state_$HOSTNAME.log
free>>state_$HOSTNAME.log
df–Th>>state_$HOSTNAME.log
iostat-m>>state_$HOSTNAME.log
lastreboot>>state_$HOSTNAME.log
实施例3:
如图1所示,在实施例2的基础上,本实施例所述方法实现步骤如下:
1)在监控节点上部署scan.sh和get_state.sh,复制脚本文件至任意目录,比如/root目录等,但要求这两个脚本位于同一目录下;
2)创建ip.txt文件,里面填写好所有服务器的IP地址,每行一个;例如:
10.7.18.1
10.7.18.2
10.7.18.3
……
3)修改扫描时间间隔,单位是秒,默认1小时扫描一次;
sleep3600
4)赋予脚本文件可执行权限,执行脚本;
#chmod777scan.shget_state.sh
#./scan.sh&
5)监控过程与结果分析。
实施例4:
在实施例3的基础上,本实施例所述监控过程与结果分析操作步骤如下:
1)scan.sh用于创建后台监控进程,根据扫描列表中定义的IP地址段远程连接到每台被监控的服务器上,同时将get_state脚本复制到远程服务器上获取最新状态,最后负责将数据传回监控节点;
2)get_state.sh用于获取服务器的运行状态,同时对服务器的存活状态做出判断,将结果记录到监控日志中,日志文件以主机名结尾;
日志文件详细记录了此台服务器的运行状态,包括服务器当前存活状态、已运行时间、各资源占用率以及关机或重启记录等:
==================Serverislive======================
18:37:34up8days,3:21,2users,loadaverage:0.00,0.01,0.00
totalusedfreesharedbufferscached
Mem:3283949650824432331252010716867080
-/+buffers/cache:33399632505500
Swap:16490488016490488
FilesystemTypeSizeUsedAvailUse%Mountedon
/dev/mapper/VolGroup-lv_rootext450G14G34G29%/
tmpfstmpfs16G016G0%/dev/shm
/dev/sda1ext4485M33M427M8%/boot
/dev/mapper/VolGroup-lv_homeext4210G188M199G1%/home
/dev/sdzxfs3.7T68M3.7T1%/mnt
Linux2.6.32-431.el6.x86_64(localhost.localdomain)09/14/2015_x86_64_(8CPU)
avg-cpu:%user%nice%system%iowait%steal%idle
0.000.000.020.010.0099.97
Device:tpsMB_read/sMB_wrtn/sMB_readMB_wrtn
sda0.130.000.0059371
sdb0.000.000.0000
sdc0.000.000.0010
sdd0.000.000.0000
rebootsystemboot2.6.32-431.el6.xSunSep615:16-18:37(8+03:20)
rebootsystemboot2.6.32-431.el6.xWedAug2616:19-15:13(10+22:53)
rebootsystemboot2.6.32-431.el6.xWedAug2616:13-15:13(10+22:59)
rebootsystemboot2.6.32-431.el6.xWedAug2615:43-15:13(10+23:29)
rebootsystemboot2.6.32-431.el6.xWedAug2615:19-15:13(10+23:53)
rebootsystemboot2.6.32-431.el6.xThuJul3009:56-09:58(00:02)
rebootsystemboot2.6.32-431.el6.xTueJun2311:25-09:58(36+22:33)
3)通过查看日志中的存活标记及日志记录时间,可以确认服务器有无发生宕机问题:
当服务器状态异常时,最直接的表现即是业务宕机或者运行效率下降;
例如,日志最后一条存活标记记录于22:16:49,由于监控扫描间隔为1小时,由此可以判断问题发生于22:16:49-23:16:49之间1小时范围内;而系统日志一般是无法记录问题发生时间的;
如果服务器未发生宕机等严重问题,日志中的存活标记会一直记录,进而可以查看系统启动记录,确认是否发生过计划外的自动重启问题,以及查看系统资源使用状态,推断服务器是否有运行缓慢或者性能下降等隐患;
查看loadaverage一项可以得出当前服务器的CPU压力较高,且仍有上升趋势,建议采取紧急措施限制资源消耗;另外,从内存使用明细可见内存占用率也已达到82%以上,容易造成服务器运行缓慢、性能下降等问题;
4)最后,对有问题的服务器进行维护。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (4)

1.一种批量监控Linux服务器运行状态的方法,其特征在于:所述方法通过在网络中一台监控节点上部署监控脚本,定时获取网络上其它服务器的运行状态,并将结果保存到本监控节点上;当有服务器发生宕机或其它异常情况时,监控节点就会检测到错误,同时生成错误日志并保存到每台服务器对应的监控日志中,实现批量对服务器的运行状态进行实时监控。
2.根据权利要求1所述的一种批量监控Linux服务器运行状态的方法,其特征在于,所述方法涉及的程序包括:1)批量扫描器scan.sh、2)状态获取及判断机制get_state.sh,其中:
1)批量扫描器scan.sh:使用Shell脚本编写,允许自定义被扫描的IP地址段范围及扫描间隔,在计划扫描的时间到来后,会批量在每台被监控服务器上调用状态获取及判断机制,并将返回值传回到监控节点上;
2)状态获取及判断机制get_state.sh:通过Linux系统管理命令获取服务器的运行状态,同时对服务器的存活状态做出判断,将结果记录到监控日志中,每台被监控服务器都有一个独立的日志文件。
3.根据权利要求2所述的一种批量监控Linux服务器运行状态的方法,其特征在于,所述方法实现步骤如下:
1)在监控节点上部署scan.sh和get_state.sh,复制脚本文件至任意目录,要求这两个脚本位于同一目录下;
2)创建ip.txt文件,里面填写好所有服务器的IP地址,每行一个;
3)修改扫描时间间隔,单位是秒;
4)赋予脚本文件可执行权限,执行脚本;
5)监控过程与结果分析。
4.根据权利要求3所述的一种批量监控Linux服务器运行状态的方法,其特征在于,所述监控过程与结果分析操作步骤如下:
1)scan.sh用于创建后台监控进程,根据扫描列表中定义的IP地址段远程连接到每台被监控的服务器上,同时将get_state脚本复制到远程服务器上获取最新状态,最后负责将数据传回监控节点;
2)get_state.sh用于获取服务器的运行状态,同时对服务器的存活状态做出判断,将结果记录到监控日志中,日志文件以主机名结尾;
日志文件详细记录了此台服务器的运行状态,包括服务器当前存活状态、已运行时间、各资源占用率以及关机或重启记录;
3)通过查看日志中的存活标记及日志记录时间,确认服务器有无发生宕机问题;
4)最后,对有问题的服务器进行维护。
CN201510804986.2A 2015-11-20 2015-11-20 一种批量监控Linux服务器运行状态的方法 Pending CN105490870A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510804986.2A CN105490870A (zh) 2015-11-20 2015-11-20 一种批量监控Linux服务器运行状态的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510804986.2A CN105490870A (zh) 2015-11-20 2015-11-20 一种批量监控Linux服务器运行状态的方法

Publications (1)

Publication Number Publication Date
CN105490870A true CN105490870A (zh) 2016-04-13

Family

ID=55677611

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510804986.2A Pending CN105490870A (zh) 2015-11-20 2015-11-20 一种批量监控Linux服务器运行状态的方法

Country Status (1)

Country Link
CN (1) CN105490870A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844158A (zh) * 2017-01-25 2017-06-13 郑州云海信息技术有限公司 一种服务器节点状态的监测方法及装置
CN107276841A (zh) * 2017-04-26 2017-10-20 杭州沃趣科技股份有限公司 一种针对Oracle Goldengate进行健康状态检测的方法
CN107329876A (zh) * 2017-06-29 2017-11-07 喀什博雅成信网络科技有限公司 一种服务器运行监控方法及系统
CN107861995A (zh) * 2017-10-18 2018-03-30 福建中金在线信息科技有限公司 Linux服务器代码实时同步方法及装置
CN108880949A (zh) * 2018-09-26 2018-11-23 郑州云海信息技术有限公司 一种基于云平台的信息解析的方法和装置
CN109324974A (zh) * 2018-10-09 2019-02-12 郑州云海信息技术有限公司 一种控制批量执行脚本的方法及装置
CN109358998A (zh) * 2018-10-10 2019-02-19 郑州云海信息技术有限公司 一种服务器检测方法、装置及系统
CN110912754A (zh) * 2019-12-12 2020-03-24 广州西麦科技股份有限公司 一种用于批量运维远程主机的方法和管理系统
CN110958321A (zh) * 2019-12-09 2020-04-03 杭州安恒信息技术股份有限公司 一种安全产品监控方法、装置、设备及介质
CN111221557A (zh) * 2020-01-15 2020-06-02 苏州浪潮智能科技有限公司 一种批量刷新服务器bmc的方法及装置
CN112187581A (zh) * 2020-09-29 2021-01-05 北京百度网讯科技有限公司 服务信息处理方法、装置、设备及计算机存储介质
WO2021098393A1 (zh) * 2019-11-19 2021-05-27 平安科技(深圳)有限公司 智能化系统资源监控方法、装置、电子设备及存储介质
CN113064762A (zh) * 2021-04-09 2021-07-02 上海新炬网络信息技术股份有限公司 基于多样探测的服务自恢复方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030056199A1 (en) * 2001-09-19 2003-03-20 Jun Li Hyperbolic tree space display of computer system monitoring and analysis data
CN101408889A (zh) * 2008-11-12 2009-04-15 阿里巴巴集团控股有限公司 一种性能监控的方法、装置及系统
CN103019910A (zh) * 2011-09-26 2013-04-03 北京新媒传信科技有限公司 一种监控Linux服务器中资源的方法和系统
CN103051496A (zh) * 2012-12-21 2013-04-17 大唐软件技术股份有限公司 一种监测点服务器的监控方法及装置
CN103984618A (zh) * 2014-06-05 2014-08-13 浪潮电子信息产业股份有限公司 一种linux服务器硬盘活动状态的监控方法
CN104360922A (zh) * 2014-10-20 2015-02-18 浪潮电子信息产业股份有限公司 一种基于ipmitool的自动监测BMC工作状态的方法
CN104794041A (zh) * 2015-05-08 2015-07-22 浪潮电子信息产业股份有限公司 一种Linux服务器阵列卡活动状态的监控方法及其装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030056199A1 (en) * 2001-09-19 2003-03-20 Jun Li Hyperbolic tree space display of computer system monitoring and analysis data
CN101408889A (zh) * 2008-11-12 2009-04-15 阿里巴巴集团控股有限公司 一种性能监控的方法、装置及系统
CN103019910A (zh) * 2011-09-26 2013-04-03 北京新媒传信科技有限公司 一种监控Linux服务器中资源的方法和系统
CN103051496A (zh) * 2012-12-21 2013-04-17 大唐软件技术股份有限公司 一种监测点服务器的监控方法及装置
CN103984618A (zh) * 2014-06-05 2014-08-13 浪潮电子信息产业股份有限公司 一种linux服务器硬盘活动状态的监控方法
CN104360922A (zh) * 2014-10-20 2015-02-18 浪潮电子信息产业股份有限公司 一种基于ipmitool的自动监测BMC工作状态的方法
CN104794041A (zh) * 2015-05-08 2015-07-22 浪潮电子信息产业股份有限公司 一种Linux服务器阵列卡活动状态的监控方法及其装置

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844158A (zh) * 2017-01-25 2017-06-13 郑州云海信息技术有限公司 一种服务器节点状态的监测方法及装置
CN107276841A (zh) * 2017-04-26 2017-10-20 杭州沃趣科技股份有限公司 一种针对Oracle Goldengate进行健康状态检测的方法
CN107329876A (zh) * 2017-06-29 2017-11-07 喀什博雅成信网络科技有限公司 一种服务器运行监控方法及系统
CN107861995A (zh) * 2017-10-18 2018-03-30 福建中金在线信息科技有限公司 Linux服务器代码实时同步方法及装置
CN108880949A (zh) * 2018-09-26 2018-11-23 郑州云海信息技术有限公司 一种基于云平台的信息解析的方法和装置
CN109324974A (zh) * 2018-10-09 2019-02-12 郑州云海信息技术有限公司 一种控制批量执行脚本的方法及装置
CN109358998A (zh) * 2018-10-10 2019-02-19 郑州云海信息技术有限公司 一种服务器检测方法、装置及系统
WO2021098393A1 (zh) * 2019-11-19 2021-05-27 平安科技(深圳)有限公司 智能化系统资源监控方法、装置、电子设备及存储介质
CN110958321A (zh) * 2019-12-09 2020-04-03 杭州安恒信息技术股份有限公司 一种安全产品监控方法、装置、设备及介质
CN110912754A (zh) * 2019-12-12 2020-03-24 广州西麦科技股份有限公司 一种用于批量运维远程主机的方法和管理系统
CN111221557A (zh) * 2020-01-15 2020-06-02 苏州浪潮智能科技有限公司 一种批量刷新服务器bmc的方法及装置
CN112187581A (zh) * 2020-09-29 2021-01-05 北京百度网讯科技有限公司 服务信息处理方法、装置、设备及计算机存储介质
CN112187581B (zh) * 2020-09-29 2022-08-02 北京百度网讯科技有限公司 服务信息处理方法、装置、设备及计算机存储介质
US11663037B2 (en) 2020-09-29 2023-05-30 Beijing Baidu Netcom Science And Technology Co., Ltd. Service information processing method, apparatus, device and computer storage medium
CN113064762A (zh) * 2021-04-09 2021-07-02 上海新炬网络信息技术股份有限公司 基于多样探测的服务自恢复方法

Similar Documents

Publication Publication Date Title
CN105490870A (zh) 一种批量监控Linux服务器运行状态的方法
US10474521B2 (en) Service directory and fault injection management systems and methods
US8782472B2 (en) Troubleshooting system using device snapshots
US8910172B2 (en) Application resource switchover systems and methods
US10235252B1 (en) Retroactive log retrieval service
US20060074946A1 (en) Point of view distributed agent methodology for network management
CN101753357A (zh) 一种网络服务器集中监控系统和方法
CN108259270A (zh) 一种数据中心统一管理系统设计方法
CN105553731A (zh) 一种自动巡检方法及装置
CN108199901A (zh) 硬件报修方法、系统、设备、硬件管理服务器与存储介质
CN104794041A (zh) 一种Linux服务器阵列卡活动状态的监控方法及其装置
CN114389937A (zh) 一种运维监控管理系统
US9183068B1 (en) Various methods and apparatuses to restart a server
Antunes et al. Detection and prediction of resource-exhaustion vulnerabilities
US9218205B2 (en) Resource management in ephemeral environments
Li et al. Going through the life cycle of faults in clouds: Guidelines on fault handling
Huang et al. PDA: A Tool for Automated Problem Determination.
US20080216057A1 (en) Recording medium storing monitoring program, monitoring method, and monitoring system
CN110521233B (zh) 标识中断的方法、接入点、远程配置的方法、系统和介质
WO2019241199A1 (en) System and method for predictive maintenance of networked devices
US12020039B2 (en) Compute instance warmup operations
US7467068B2 (en) Method and apparatus for detecting dependability vulnerabilities
CN110365627B (zh) 应用程序同步方法、装置、计算设备以及存储介质
CN115934453A (zh) 一种故障排查方法、装置及存储介质
CN109150666A (zh) 一种预防网站宕机的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160413

RJ01 Rejection of invention patent application after publication