CN109040277A - 一种服务器的远程监控方法及装置 - Google Patents
一种服务器的远程监控方法及装置 Download PDFInfo
- Publication number
- CN109040277A CN109040277A CN201810948800.4A CN201810948800A CN109040277A CN 109040277 A CN109040277 A CN 109040277A CN 201810948800 A CN201810948800 A CN 201810948800A CN 109040277 A CN109040277 A CN 109040277A
- Authority
- CN
- China
- Prior art keywords
- server
- operating parameter
- remote control
- parameter
- visited
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
- H04L67/025—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP] for remote control or remote monitoring of applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/069—Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/06—Generation of reports
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0805—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
- H04L43/0817—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
Abstract
本发明提供了一种服务器的远程监控方法及装置,上述方法包括:以预设周期对服务器进程池中的多个处于使用状态的服务器进行远控探活,并获取各服务器的远控探活结果;若对所述多个服务器中的任一服务器远控探活成功,则收集所述服务器当前的运行参数;将所述服务器当前的运行参数进行汇总,生成监控报告并发送至指定远程监控平台。基于本发明提供的服务器的远程监控方法能够在不依赖操作系统的前提下,仅需服务器上电连网后即密切监控服务器底层硬件信息及运行状态,及时探测服务器发生的故障以及预警处理。
Description
技术领域
本发明涉及互联网技术领域,特别是涉及一种服务器的远程监控方法及装置。
背景技术
随着互联网的不断普及,计算设备的应用范围也越来越广泛。对于各种计算设备来讲,需要服务器提供基本的服务,以响应不同的服务请求。由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求对服务器要求较高。
由于计算量以及容量的增大,服务器在运行过程中难免会出现各种故障。目前,对于服务器的监控主要是在操作系统成功运行之后,对操作系统的监控,但是,采用上述方法不仅具有局限性,对于服务器的其他故障不能及时发现。
发明内容
本发明提供了一种服务器的远程监控方法及装置以克服上述问题或者至少部分地解决上述问题。
根据本发明的一个方面,提供了一种服务器的远程监控方法,包括:
以预设周期对服务器进程池中的多个处于使用状态的服务器进行远控探活,并获取各服务器的远控探活结果;
若对所述多个服务器中的任一服务器远控探活成功,则收集所述服务器当前的运行参数;
将所述服务器当前的运行参数进行汇总,生成监控报告并发送至指定远程监控平台。
可选地,所述以预设周期对服务器进程池中的多个处于使用状态的服务器进行远控探活,并获取各服务器的远控探活结果,包括:
以预设周期向所述服务器进程池中的多个处于使用状态的服务器发送远控探活请求,记录并存储各服务器响应所述远控探活请求的响应日志;
基于所述响应日志获取所述各服务器的远控探活结果。
可选地,所述若对所述多个服务器中的任一服务器远控探活成功,则收集所述服务器当前的运行参数,包括:
若对所述多个服务器中的任一服务器远控探活成功,则向所述服务器发送至少一个参数获取请求,并接收所述服务器响应所述参数获取请求返回的信息,完成对所述服务器当前的运行参数的收集。
可选地,所述将所述服务器当前的运行参数进行汇总之后,生成监控报告并发送至指定远程监控平台之前,还包括:
对所述运行参数进行分析,判断所述服务器的运行状态是否正常;
若所述服务器的运行状态正常,则正常记录所述服务器的运行参数;
若所述服务器的运行状态不正常,则记录所述服务器的运行参数后向所述远程监控平台发送报警信息。
可选地,所述将所述服务器当前的运行参数进行汇总,生成监控报告并发送至指定远程监控平台之前,还包括:
记录所述服务器在指定时间段内的多组运行参数,判断所述多组运行参数的变化规律是否属于预设的报警策略;
若是,则向所述监控平台发送报警信息。
可选地,所述记录所述服务器在指定时间段内的多组运行参数,判断所述多组运行参数的变化规律是否属于预设的报警策略,包括:
记录所述服务器中任一硬件在指定时间段内的多组温度数据,基于所述多组温度数据计算所述硬件在所述指定时间段内的升温速率,判断所述升温速率是否在预设速率范围内;和/或
记录所述服务器中任一硬件在指定时间段内的多组输入、输出功率,基于所述多组输入、输出功率判断所述硬件的功耗是否在预设功耗范围。
可选地,所述以预设周期对服务器进程池中的多个处于使用状态的服务器进行远控探活,并获取各服务器的远控探活结果之后,还包括:
若对所述多个服务器中的任一服务器远控探活失败,则向所述远程监控平台发送报警信息。
可选地,所述以预设周期对服务器进程池中的多个处于使用状态的服务器进行远控探活之前,还包括:
将所述多个服务器中各服务器的特征信息录入所述远程监控平台,并在服务器和特征信息之间建立对应关系;
所述特征信息包括:服务器的IP、MAC地址、主机名称和/或SN号。
可选地,所述方法还包括:基于所述各服务器的型号和/或所处环境配置不同的远控命令和/或参数。
可选地,所述方法还包括:向所述多个服务器中的至少一个服务器发送远控操作命令,由所述服务器响应所述远控操作命令执行相应的操作。
根据本发明的另一个方面,还提供了一种服务器的远程监控装置,包括:
探活模块,配置为以预设周期对服务器进程池中的多个处于使用状态的服务器进行远控探活,并获取各服务器的远控探活结果;
参数收集模块,配置为若对所述多个服务器中的任一服务器远控探活成功,则收集所述服务器当前的运行参数;
报告模块,配置为将所述服务器当前的运行参数进行汇总,生成监控报告并发送至指定远程监控平台。
可选地,所述探活模块包括:
请求发送单元,配置为以预设周期向所述服务器进程池中的多个处于使用状态的服务器发送远控探活请求,记录并存储各服务器响应所述远控探活请求的响应日志;
结果获取单元,配置为基于所述响应日志获取所述各服务器的远控探活结果。
可选地,所述参数收集模块还配置为:
当对所述多个服务器中的任一服务器远控探活成功时,向所述服务器发送至少一个参数获取请求,并接收所述服务器响应所述参数获取请求返回的信息,完成对所述服务器当前的运行参数的收集。
可选地,所述报告模块还配置为:
对所述运行参数进行分析,判断所述服务器的运行状态是否正常;
当所述服务器的运行状态正常时,正常记录所述服务器的运行参数;
当所述服务器的运行状态不正常时,记录所述服务器的运行参数后向所述远程监控平台发送报警信息。
可选地,所述装置还包括:
判断模块,配置为记录所述服务器在指定时间段内的多组运行参数,判断所述多组运行参数的变化规律是否属于预设的报警策略;
第一报警模块,配置为当所述运行参数的变化规律属于预设的报警策略时,向所述监控平台发送报警信息。
可选地,所述判断模块还配置为:
记录所述服务器中任一硬件在指定时间段内的多组温度数据;基于所述多组温度数据计算所述硬件在所述指定时间段内的升温速率,判断所述升温速率是否在预设速率范围内;和/或
记录所述服务器中任一硬件在指定时间段内的多组输入、输出功率,基于所述多组输入、输出功率判断所述硬件的功耗是否在预设功耗范围。
可选地,所述装置还包括:
第二报警模块,配置为当所述探活模块对所述多个服务器中的任一服务器远控探活失败时,向所述远程监控平台发送报警信息。
可选地,所述装置还包括:
信息录入模块,配置为将所述多个服务器中各服务器的特征信息录入所述远程监控平台,并在服务器和特征信息之间建立对应关系;
所述特征信息包括:服务器的IP、MAC地址、主机名称和/或SN号。
可选地,所述装置还包括:配置模块,配置为基于所述各服务器的型号和/或所处环境配置不同的远控命令和/或参数。
可选地,所述装置还包括:命令发送模块,配置为向所述多个服务器中的至少一个服务器发送远控操作命令,由所述服务器响应所述远控操作命令执行相应的操作。
根据本发明的另一方面,还提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序代码,当所述计算机程序代码在计算设备上运行时,导致所述计算设备执行上述任一项所述的服务器的远程监控方法。
根据本发明的另一方面,还提供了一种计算设备,包括:
处理器;
存储有计算机程序代码的存储器;
当所述计算机程序代码被所述处理器运行时,导致所述计算设备执行上述任一项所述的服务器的远程监控方法。
本发明提供了一种服务器的远程监控方法及装置,本发明提供的监控方法中可周期性的对多个处于使用状态的服务器进行远控探活,并且在探活成功后对服务器底层的运行参数进行收集,进而对运行参数进行汇总以生成监控报告发送至指定监控平台。基于本发明提供的服务器的远程监控方法能够在不依赖操作系统的前提下,仅需服务器上电连网后即密切监控服务器底层硬件信息及运行状态,及时探测服务器发生的故障以及预警处理。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是根据本发明实施例的服务器的远程监控方法流程示意图;
图2是根据本发明优选实施例的服务器的远程监控方法流程示意图;
图3是根据本发明实施例的服务器的远程监控装置结构示意图;
图4是根据本发明优选实施例的服务器的远程监控装置结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
对于传统方法来讲,对服务器的监控方案都是在操作系统开始运行之后,布一个agent,通过所布的agent在操作系统上收集日志信息,如断网信息等,但是,这种方式赖于操作系统,有些在操作系统还未开始运行时可能出现的故障无法完全监控到。举例来说,对于双电源服务器,如果其中一个电源失效,在操作系统里面是无法监控到的。
图1是根据本发明实施例的服务器的远程监控方法流程示意图,如图1所示,根据本发明实施例的服务器的远程监控方法可以包括:
步骤S102,以预设周期对服务器进程池中的多个处于使用状态的服务器进行远控探活,并获取各服务器的远控探活结果;
步骤S104,若对多个服务器中的任一服务器远控探活成功,则收集该服务器当前的运行参数;
步骤S106,将服务器当前的运行参数进行汇总,生成监控报告并发送至指定远程监控平台。
本发明实施例提供了一种服务器的远程监控方法,周期性的对多个处于使用状态的服务器进行远控探活,并且在探活成功后对服务器底层的运行参数进行收集,进而对运行参数进行汇总以生成监控报告发送至指定监控平台。本实施例中的服务器当前的的运行参数可以是硬件信息、温度等进行收集。基于本发明实施例提供的服务器的远程监控方法能够在不依赖操作系统的前提下,仅需服务器上电连网后即密切监控服务器底层硬件信息及运行状态,及时探测服务器发生的故障以及预警处理。
对服务器的远控探活是检测服务器是否正常运行提供服务,本发明实施例中,对于已部署的服务器会有专门的远程监控平台对这些服务器进行记录,并对记录的服务器进行管理,例如,确定哪些服务器处于工作状态提供正常服务,哪些服务器处于非工作状态,因此,可以有一个服务器进程池对处于工作状态的服务器进行管理。远程监控平台所监控的服务器可以是所有机房的服务器,也可以是特定的机房的一批服务器,还可以是指定的一部分服务器,本发明不做限定。在确定远程监控平台需要监控的服务器之后,上述步骤S102对服务器进行远控探活之前,还可以将确定远程监控平台需要监控的多个服务器中各服务器的特征信息录入远程监控平台,并在服务器和特征信息之间建立对应关系;其中,服务器的特征信息可以包括:服务器的IP、MAC地址、主机名称和/或SN号,基于上述特征信息可直接定位至相对应的服务器。
此时,若想了解各服务器的状态,可以对服务器进程池中的多个处于使用状态的服务器进行远控探活,以确定各服务器的运行状态是否正常。对服务器探活的预设周期可快可慢,维护人员可以根据服务器的服务类型设定远控探活的周期,如半个小时、十分钟、一分钟或是其他时间周期,本发明不做限定。
目前常用的服务器多为机架式服务器,机架式服务器中安装有远程控制卡,(以下简称远控卡),本发明实施例中对服务器进行远控探活主要为对该远控卡进行探活。服务器中的远控卡在上电之后即可开始运行。假如对该远控卡进行远程探活的结果是失败,则说明该远控卡探查不到,可能是远控卡发生故障或是网络故障,亦或是服务故障,此时就可以在服务器底层故障时及时获知,以便进行后续维护工作。
优选地,上述步骤S102在周期性对服务器进行远控探活时,可以以预设周期向服务器进程池中的多个处于使用状态的服务器发送远控探活请求,记录并存储各服务器响应远控探活请求的响应日志;基于上述响应日志获取各服务器的远控探活结果。对单个服务器来说,远控探活结果会有两种情况,一种是服务器响应探活请求,看它的log没有什么问题,就可以认为这个服务器是好的,表示该服务器“活着”,即代表其运行正常。
上述步骤S104可以进一步包括:若对多个服务器中的任一服务器远控探活成功,则向服务器发送至少一个参数获取请求,并接收服务器响应上述参数获取请求返回的信息,完成对服务器当前的运行参数的收集。其中,服务器当前的运行参数包括但不限于以下参数:服务器电源的负载、电源、CPU、磁盘,raid卡,SD卡,网卡等服务器中各硬件的温度、电压、功率以及某些硬件的老化程度等参数指标,也可以是noc或者site中所存储的常见指标列表中的任一项或多项硬件指标,本发明对此不做限定。
对服务器远控探活时,可以只发一个简单的请求,或是利用“ping”命令测试成功即可。而在收集服务器的运行参数时,需要发特定的多个参数获取请求,例如,收集CPU相关参数时,就发送与CPU相关的参数获取请求,收集电源相关参数时,则发与电源相关的参数获取请求,进而再收集服务器响应上述参数获取请求所返回的信息,以完成对服务器当前运行参数的收集。
如图2所示,本发明优选实施例在步骤S106之前,还可以包括步骤S108,对运行参数进行分析,判断服务器的运行状态是否正常;若服务器的运行状态正常,则正常记录服务器的运行参数;若服务器的运行状态不正常,则记录服务器的运行参数后向远程监控平台发送报警信息。也就是说,在获取到服务器的运行参数之后,可以基于所获取到的运行参数进行分析,判断服务器是否发生故障,比如电源是否过载、电源的温度是否在可控范围之内、各种硬件(CPU、磁盘,raid卡,SD卡等硬件)的温度、湿度、功率、老化程度等各种运行参数以及各硬件的状态、指标是否在预设范围之外,进而在服务器的底层硬件发生故障时及时获取故障信息,以便及时通知维护人员有效辅助后期的维护工作。
进一步地,继续参见图2,本发明优选实施例在上述步骤S108之后,还可以包括步骤S110,记录服务器在指定时间段内的多组运行参数,判断上述多组运行参数的变化规律是否属于预设的报警策略;若是,则向监控平台发送报警信息。在本优选实施例中,除了对所检测到的服务器的单组运行参数进行分析之外,还可以对连续监测到的服务器的多组运行参数进行分析,判断服务器是否具有潜在的故障,进而发出预警信息。监测到多组运行参数后,可根据各硬件的温度变化、湿度变化、功率变化及高负载情况等判断服务器是否具有潜在状况。
在一优选实施例中,上述步骤S110可以包括:记录服务器中任一硬件在指定时间段内的多组温度数据;基于上述多组温度数据计算该硬件在指定时间段内的升温速率,判断该升温速率是否在预设速率范围内。
对于相对简单的报警策略来讲,比如可以为不同的硬件设定相应地温度阈值,当检测到该硬件的温度超过该阈值时会发送报警信息。但是,可能由于环境因素或服务器受到的其他干扰因素,而造成升温速率较快,在这种情况下,服务器发故障的概率也是很大的。而基于本发明优选实施例提供的策略可以对连续检测到的服务器多组运行参数进行分析,以判断服务器是否存在潜在故障危险。
举例来讲,对于服务器CPU设定的温度阈值为如60°,简单的测量则是检测到CPU的温度超过60°才会报警,但是基于本优选实施例提供方案检测到CPU从50°升到60°只用了5分钟时间,通过计算得出该升温速率已经超过了维护人员设定的速率,此时同样可以向远程控制平台发送报警信息,提醒维护人员特别注意。
除上述介绍的之外,还可以对机房环境的异常情况进行监控,如空调制冷、疑似风扇运转故障等。假设某一时间段内(基于统计数据,每天相同时间段内处理器负载大致相同,或者可以近似忽略少部分误差)为30°,如果在监测期间某天中的同一时刻、同样的温度传感器有明显的温度变化,比如35°,在排除负载变化之后,则可猜测为环境温度变化(升高)。已知环境温差越大,散热效果越好,即对于相同的产热功率,相同的风量下(冷却风扇),流入的空气温度越低,因此,散热效果越好。显然,最终会导致测试到的芯片运行时温度越低(产热和散热达到平衡时,温度基本维持小范围波动)。因此,可以通过服务器内特定的一个或多个传感器来预估环境温度的变化。
可选地,还可以记录服务器中任一硬件在指定时间段内的多组输入、输出功率,基于多组输入、输出功率判断该硬件的功耗是否在预设功耗范围。例如根据电源的输入输出功率可以获知电源的功耗,进而对电源负载、损耗、转换效率等进行判断。此外,还可以对各硬件的老化程度进行监测。如通过raid卡远控实时或定时查看各硬件的使用情况,如容量、生产日期、使用寿命等,以便及时获取服务器中某个硬件潜在的故障,向运维人员发送预警信息。
上述所介绍的是关于对服务器远控探活成功时的检测方案,远控探活结果还会存在另一种情况,则是对服务器的远控探活失败,则可以直接向远程监控平台发送报警信息。向远程监控平台发送报警信息时,可以以邮件的形式发送至维护人员的邮箱或是在远程监控平台弹出报警显示框以进行服务器的报警保障处理。
最后,当检测到各服务器底层硬件信息、温度、日志等信息之后,可以对上述信息进行汇总、出具报告,对于已经产生的故障和探活失败情况,进行报警和报障处理,对于可以预见的服务器失效,进行更加密切的监控和预警处理。
当维护人员接收到上述报警信息之后,还可以基于远程控制平台对服务器进行开关机,重启,内置硬件监测等底层操作,并提供命令行工具,通过命令行的工具可以在远端执行命令行工具指定台机器、指定IP、指定端口,然后去收集对应服务器一系列的输出和一系列的日志,掌握各服务器的运行状态及相关参数。
上述实施例中提及,远控探活之前还可以录入各服务器的特征信息,进一步地,还可以根据各服务器的型号和/或所处环境配置不同的远控命令和/或参数。由于服务器型号不同,其中设置的远控卡类型也不尽相同,相应地,各服务器所能接收并执行的参数获取请求类型可能也会有所差异。而对于服务器所处环境则可以是机房温度、湿度等等。因此,在远控探活之前根据各服务器的型号和/或所处环境配置不同的远控命令和/或参数,以便后续更加快捷、有效地发送远控探活请求或参数获取请求。本发明实施例中的远控命令可以是对服务器各运行参数的参数获取请求相关的远控命令,参数则可以包括IP、端口、用户名以及密码等其他服务器相关参数,本发明对此不做限定。
前文所介绍的为对各服务器进行远控探活以及运行参数的收集,在本发明另一优选实施例中,还可以向多个服务器中的至少一个服务器发送远控操作命令,由该服务器响应远控操作命令执行相应的操作。即通过远控向一个或多个服务器中的远控卡批量发送重启、开机、关机,装系统、下线块硬盘等操作命令,实现对服务器的批量运维,减少运维成本。本实施例的对服务器远控操作方式与收集各服务器运行参数的方式类似,具体执行时只需进行命令以及参数的修改。
基于同一发明构思,本发明实施例还提供了一种服务器的远程监控装置,如图3所示,本发明实施例提供的服务器的远程监控装置可以包括:
探活模块10,配置为以预设周期对服务器进程池中的多个处于使用状态的服务器进行远控探活,并获取各服务器的远控探活结果;
参数收集模块20,配置为若对多个服务器中的任一服务器远控探活成功,则收集服务器当前的运行参数;
报告模块30,配置为将服务器当前的运行参数进行汇总,生成监控报告并发送至指定远程监控平台。
在本发明一优选实施例中,如图4所示,探活模块10可以包括:
请求发送单元11,配置为以预设周期向服务器进程池中的多个处于使用状态的服务器发送远控探活请求,记录并存储各服务器响应远控探活请求的响应日志;
结果获取单元12,配置为基于响应日志获取各服务器的远控探活结果。
在本发明一优选实施例中,参数收集模块20还可以配置为:
当对多个服务器中的任一服务器远控探活成功时,向服务器发送至少一个参数获取请求,并接收该服务器响应上述参数获取请求返回的信息,完成对服务器当前的运行参数的收集。
在本发明一优选实施例中,报告模块30还可以配置为:
对上述运行参数进行分析,判断服务器的运行状态是否正常;当服务器的运行状态正常时,正常记录服务器的运行参数;当服务器的运行状态不正常时,记录服务器的运行参数后向远程监控平台发送报警信息。
在本发明一优选实施例中,如图4所示,服务器的远程监控装置还可以包括:
判断模块40,配置为记录服务器在指定时间段内的多组运行参数,判断上述多组运行参数的变化规律是否属于预设的报警策略;
第一报警模块50,配置为当上述运行参数的变化规律属于预设的报警策略时,向监控平台发送报警信息。
在本发明一优选实施例中,判断模块40还可以配置为:
记录服务器中任一硬件在指定时间段内的多组温度数据;基于上述多组温度数据计算硬件在指定时间段内的升温速率,判断该升温速率是否在预设速率范围内;和/或
记录服务器中任一硬件在指定时间段内的多组输入、输出功率,基于上述多组输入、输出功率判断该硬件的功耗是否在预设功耗范围。
在本发明一优选实施例中,如图4所示,服务器的远程监控装置还可以包括:
第二报警模块60,配置为当探活模块对多个服务器中的任一服务器远控探活失败时,向远程监控平台发送报警信息。
在本发明一优选实施例中,如图4所示,服务器的远程监控装置还可以包括:
信息录入模块70,配置为将多个服务器中各服务器的特征信息录入远程监控平台,并在服务器和特征信息之间建立对应关系;
特征信息包括:服务器的IP、MAC地址、主机名称和/或SN号。
在本发明一优选实施例中,如图4所示,服务器的远程监控装置还可以包括:
配置模块80,配置为基于所述各服务器的型号和/或所处环境配置不同的远控命令和/或参数。
在本发明一优选实施例中,如图4所示,服务器的远程监控装置还可以包括:
命令发送模块90,配置为向多个服务器中的至少一个服务器远控操作命令,由上述服务器响应远控操作命令执行相应的操作。
基于同一发明构思,本发明实施例还提供了一种计算机存储介质,计算机存储介质存储有计算机程序代码,当计算机程序代码在计算设备上运行时,导致计算设备上述任一项的服务器的远程监控方法。
基于同一发明构思,本发明实施例还提供了一种计算设备,包括:
处理器;
存储有计算机程序代码的存储器;
当计算机程序代码被处理器运行时,导致计算设备执行上述任一项的服务器的远程监控方法。
本发明实施例提供了一种更加有效的服务器的远程监控方法及装置,基于本发明实施例提供的方法,可以周期性地向需要监控的服务器发送探活请求,当检测到服务器处于正常运行状态时,可以继续检测并收集其底层硬件的运行参数、指标、状态等信息进行汇总分析,不仅可以在服务器探活失败的情况下发送异常报警信息,还可以在底层硬件发生故障或可能发生故障的时候及时向维护人员发送报警信息,由维护人员对当前故障进行处理,或对可能发生故障的服务器进行降级处理,保证系统的正常运行。
所属领域的技术人员可以清楚地了解到,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,为简洁起见,在此不另赘述。
另外,在本发明各个实施例中的各功能单元可以物理上相互独立,也可以两个或两个以上功能单元集成在一起,还可以全部功能单元都集成在一个处理单元中。上述集成的功能单元既可以采用硬件的形式实现,也可以采用软件或者固件的形式实现。
本领域普通技术人员可以理解:所述集成的功能单元如果以软件的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,其包括若干指令,用以使得一台计算设备(例如个人计算机,服务器,或者网络设备等)在运行所述指令时执行本发明各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM),磁碟或者光盘等各种可以存储程序代码的介质。
或者,实现前述方法实施例的全部或部分步骤可以通过程序指令相关的硬件(诸如个人计算机,服务器,或者网络设备等的计算设备)来完成,所述程序指令可以存储于一计算机可读取存储介质中,当所述程序指令被计算设备的处理器执行时,所述计算设备执行本发明各实施例所述方法的全部或部分步骤。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:在本发明的精神和原则之内,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案脱离本发明的保护范围。
根据本发明实施例的一个方面,提供了一种A1.一种服务器的远程监控方法,包括:
以预设周期对服务器进程池中的多个处于使用状态的服务器进行远控探活,并获取各服务器的远控探活结果;
若对所述多个服务器中的任一服务器远控探活成功,则收集所述服务器当前的运行参数;
将所述服务器当前的运行参数进行汇总,生成监控报告并发送至指定远程监控平台。
A2.根据A1所述的方法,其中,所述以预设周期对服务器进程池中的多个处于使用状态的服务器进行远控探活,并获取各服务器的远控探活结果,包括:
以预设周期向所述服务器进程池中的多个处于使用状态的服务器发送远控探活请求,记录并存储各服务器响应所述远控探活请求的响应日志;
基于所述响应日志获取所述各服务器的远控探活结果。
A3.根据A2所述的方法,其中,所述若对所述多个服务器中的任一服务器远控探活成功,则收集所述服务器当前的运行参数,包括:
若对所述多个服务器中的任一服务器远控探活成功,则向所述服务器发送至少一个参数获取请求,并接收所述服务器响应所述参数获取请求返回的信息,完成对所述服务器当前的运行参数的收集。
A4.根据A1所述的方法,其中,所述将所述服务器当前的运行参数进行汇总之后,生成监控报告并发送至指定远程监控平台之前,还包括:
对所述运行参数进行分析,判断所述服务器的运行状态是否正常;
若所述服务器的运行状态正常,则正常记录所述服务器的运行参数;
若所述服务器的运行状态不正常,则记录所述服务器的运行参数后向所述远程监控平台发送报警信息。
A5.根据A1所述的方法,其中,所述将所述服务器当前的运行参数进行汇总,生成监控报告并发送至指定远程监控平台之前,还包括:
记录所述服务器在指定时间段内的多组运行参数,判断所述多组运行参数的变化规律是否属于预设的报警策略;
若是,则向所述监控平台发送报警信息。
A6.根据A5所述的方法,其中,所述记录所述服务器在指定时间段内的多组运行参数,判断所述多组运行参数的变化规律是否属于预设的报警策略,包括:
记录所述服务器中任一硬件在指定时间段内的多组温度数据,基于所述多组温度数据计算所述硬件在所述指定时间段内的升温速率,判断所述升温速率是否在预设速率范围内;和/或
记录所述服务器中任一硬件在指定时间段内的多组输入、输出功率,基于所述多组输入、输出功率判断所述硬件的功耗是否在预设功耗范围。
A7.根据A1-A6任一项所述的方法,其中,所述以预设周期对服务器进程池中的多个处于使用状态的服务器进行远控探活,并获取各服务器的远控探活结果之后,还包括:
若对所述多个服务器中的任一服务器远控探活失败,则向所述远程监控平台发送报警信息。
A8.根据A1-6任一项所述的方法,其中,所述以预设周期对服务器进程池中的多个处于使用状态的服务器进行远控探活之前,还包括:
将所述多个服务器中各服务器的特征信息录入所述远程监控平台,并在服务器和特征信息之间建立对应关系;
所述特征信息包括:服务器的IP、MAC地址、主机名称和/或SN号。
A9.根据A8所述的方法,其中,还包括:基于所述各服务器的型号和/或所处环境配置不同的远控命令和/或参数。
A10.根据A8所述的方法,其中,还包括:向所述多个服务器中的至少一个服务器发送远控操作命令,由所述服务器响应所述远控操作命令执行相应的操作。
根据本发明实施例的另一个方面,还提供了B11.一种服务器的远程监控装置,包括:
探活模块,配置为以预设周期对服务器进程池中的多个处于使用状态的服务器进行远控探活,并获取各服务器的远控探活结果;
参数收集模块,配置为若对所述多个服务器中的任一服务器远控探活成功,则收集所述服务器当前的运行参数;
报告模块,配置为将所述服务器当前的运行参数进行汇总,生成监控报告并发送至指定远程监控平台。
B12.根据B11所述的装置,其中,所述探活模块包括:
请求发送单元,配置为以预设周期向所述服务器进程池中的多个处于使用状态的服务器发送远控探活请求,记录并存储各服务器响应所述远控探活请求的响应日志;
结果获取单元,配置为基于所述响应日志获取所述各服务器的远控探活结果。
B13.根据B12所述的装置,其中,所述参数收集模块还配置为:
当对所述多个服务器中的任一服务器远控探活成功时,向所述服务器发送至少一个参数获取请求,并接收所述服务器响应所述参数获取请求返回的信息,完成对所述服务器当前的运行参数的收集。
B14.根据B11所述的装置,其中,所述报告模块还配置为:
对所述运行参数进行分析,判断所述服务器的运行状态是否正常;
当所述服务器的运行状态正常时,正常记录所述服务器的运行参数;
当所述服务器的运行状态不正常时,记录所述服务器的运行参数后向所述远程监控平台发送报警信息。
B15.根据B11所述的装置,其中,还包括:
判断模块,配置为记录所述服务器在指定时间段内的多组运行参数,判断所述多组运行参数的变化规律是否属于预设的报警策略;
第一报警模块,配置为当所述运行参数的变化规律属于预设的报警策略时,向所述监控平台发送报警信息。
B16.根据B15所述的装置,其中,所述判断模块还配置为:
记录所述服务器中任一硬件在指定时间段内的多组温度数据;基于所述多组温度数据计算所述硬件在所述指定时间段内的升温速率,判断所述升温速率是否在预设速率范围内;和/或
记录所述服务器中任一硬件在指定时间段内的多组输入、输出功率,基于所述多组输入、输出功率判断所述硬件的功耗是否在预设功耗范围。
B17.根据B11-B16任一项所述的装置,其中,还包括:
第二报警模块,配置为当所述探活模块对所述多个服务器中的任一服务器远控探活失败时,向所述远程监控平台发送报警信息。
B18.根据B11-B16任一项所述的装置,其中,还包括:
信息录入模块,配置为将所述多个服务器中各服务器的特征信息录入所述远程监控平台,并在服务器和特征信息之间建立对应关系;
所述特征信息包括:服务器的IP、MAC地址、主机名称和/或SN号。
B19.根据B18所述的装置,其中,还包括:配置模块,配置为基于所述各服务器的型号和/或所处环境配置不同的远控命令和/或参数。
B20.根据B18所述的装置,其中,还包括:
命令发送模块,配置为向所述多个服务器中的至少一个服务器发送远控操作命令,由所述服务器响应所述远控操作命令执行相应的操作。
根据本发明实施例的另一个方面,还提供了C21.一种计算机存储介质,所述计算机存储介质存储有计算机程序代码,当所述计算机程序代码在计算设备上运行时,导致所述计算设备执行A1-A10任一项所述的服务器的远程监控方法。
根据本发明实施例的另一个方面,还提供了D22.一种计算设备,包括:
处理器;
存储有计算机程序代码的存储器;
当所述计算机程序代码被所述处理器运行时,导致所述计算设备执行A1-A10任一项所述的服务器的远程监控方法。
Claims (10)
1.一种服务器的远程监控方法,包括:
以预设周期对服务器进程池中的多个处于使用状态的服务器进行远控探活,并获取各服务器的远控探活结果;
若对所述多个服务器中的任一服务器远控探活成功,则收集所述服务器当前的运行参数;
将所述服务器当前的运行参数进行汇总,生成监控报告并发送至指定远程监控平台。
2.根据权利要求1所述的方法,其中,所述以预设周期对服务器进程池中的多个处于使用状态的服务器进行远控探活,并获取各服务器的远控探活结果,包括:
以预设周期向所述服务器进程池中的多个处于使用状态的服务器发送远控探活请求,记录并存储各服务器响应所述远控探活请求的响应日志;
基于所述响应日志获取所述各服务器的远控探活结果。
3.根据权利要求2所述的方法,其中,所述若对所述多个服务器中的任一服务器远控探活成功,则收集所述服务器当前的运行参数,包括:
若对所述多个服务器中的任一服务器远控探活成功,则向所述服务器发送至少一个参数获取请求,并接收所述服务器响应所述参数获取请求返回的信息,完成对所述服务器当前的运行参数的收集。
4.根据权利要求1所述的方法,其中,所述将所述服务器当前的运行参数进行汇总之后,生成监控报告并发送至指定远程监控平台之前,还包括:
对所述运行参数进行分析,判断所述服务器的运行状态是否正常;
若所述服务器的运行状态正常,则正常记录所述服务器的运行参数;
若所述服务器的运行状态不正常,则记录所述服务器的运行参数后向所述远程监控平台发送报警信息。
5.根据权利要求1所述的方法,其中,所述将所述服务器当前的运行参数进行汇总,生成监控报告并发送至指定远程监控平台之前,还包括:
记录所述服务器在指定时间段内的多组运行参数,判断所述多组运行参数的变化规律是否属于预设的报警策略;
若是,则向所述监控平台发送报警信息。
6.根据权利要求5所述的方法,其中,所述记录所述服务器在指定时间段内的多组运行参数,判断所述多组运行参数的变化规律是否属于预设的报警策略,包括:
记录所述服务器中任一硬件在指定时间段内的多组温度数据,基于所述多组温度数据计算所述硬件在所述指定时间段内的升温速率,判断所述升温速率是否在预设速率范围内;和/或
记录所述服务器中任一硬件在指定时间段内的多组输入、输出功率,基于所述多组输入、输出功率判断所述硬件的功耗是否在预设功耗范围。
7.根据权利要求1-6任一项所述的方法,其中,所述以预设周期对服务器进程池中的多个处于使用状态的服务器进行远控探活,并获取各服务器的远控探活结果之后,还包括:
若对所述多个服务器中的任一服务器远控探活失败,则向所述远程监控平台发送报警信息。
8.一种服务器的远程监控装置,包括:
探活模块,配置为以预设周期对服务器进程池中的多个处于使用状态的服务器进行远控探活,并获取各服务器的远控探活结果;
参数收集模块,配置为若对所述多个服务器中的任一服务器远控探活成功,则收集所述服务器当前的运行参数;
报告模块,配置为将所述服务器当前的运行参数进行汇总,生成监控报告并发送至指定远程监控平台。
9.一种计算机存储介质,所述计算机存储介质存储有计算机程序代码,当所述计算机程序代码在计算设备上运行时,导致所述计算设备执行权利要求1-7任一项所述的服务器的远程监控方法。
10.一种计算设备,包括:
处理器;
存储有计算机程序代码的存储器;
当所述计算机程序代码被所述处理器运行时,导致所述计算设备执行权利要求1-7任一项所述的服务器的远程监控方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810948800.4A CN109040277A (zh) | 2018-08-20 | 2018-08-20 | 一种服务器的远程监控方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810948800.4A CN109040277A (zh) | 2018-08-20 | 2018-08-20 | 一种服务器的远程监控方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109040277A true CN109040277A (zh) | 2018-12-18 |
Family
ID=64631567
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810948800.4A Pending CN109040277A (zh) | 2018-08-20 | 2018-08-20 | 一种服务器的远程监控方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109040277A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110601914A (zh) * | 2019-08-05 | 2019-12-20 | 深圳市大拿科技有限公司 | 监测服务器存活状态的方法及系统 |
CN110932938A (zh) * | 2019-12-02 | 2020-03-27 | 安徽三实信息技术服务有限公司 | 一种主机运行远程监控系统 |
CN111258870A (zh) * | 2020-01-17 | 2020-06-09 | 中国建设银行股份有限公司 | 分布式存储系统的性能分析方法、装置、设备及存储介质 |
CN111915127A (zh) * | 2020-06-17 | 2020-11-10 | 成都美迅检测设备有限公司 | 设备监测方法、装置、电子设备及存储介质 |
CN113706739A (zh) * | 2021-07-09 | 2021-11-26 | 中联重科土方机械有限公司 | 远程故障诊断处理方法、平台及系统 |
CN115834696A (zh) * | 2022-10-20 | 2023-03-21 | 北京新数科技有限公司 | 一种数据库性能监控平台数据采集装置 |
CN116743791A (zh) * | 2022-09-30 | 2023-09-12 | 腾讯云计算(北京)有限责任公司 | 一种地铁云平台云边同步方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101753357A (zh) * | 2008-12-18 | 2010-06-23 | 方大集团股份有限公司 | 一种网络服务器集中监控系统和方法 |
US20130262914A1 (en) * | 2012-03-27 | 2013-10-03 | Delta Electronics, Inc. | Cloud system and method for monitoring and handling abnormal states of physical machine in the cloud system |
CN105335271A (zh) * | 2015-09-24 | 2016-02-17 | 浪潮电子信息产业股份有限公司 | 一种状态监控装置、综合监控系统和方法 |
CN105450472A (zh) * | 2015-12-03 | 2016-03-30 | 广州云新信息技术有限公司 | 一种自动获取服务器物理部件状态的方法及装置 |
CN105490868A (zh) * | 2015-11-17 | 2016-04-13 | 世纪龙信息网络有限责任公司 | 异地机房数据双向同步监控方法与系统 |
US20180227329A1 (en) * | 2017-02-09 | 2018-08-09 | Kyland Technology Co.,Ltd. | Method and apparatus for detecting security using an industry internet operating system |
-
2018
- 2018-08-20 CN CN201810948800.4A patent/CN109040277A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101753357A (zh) * | 2008-12-18 | 2010-06-23 | 方大集团股份有限公司 | 一种网络服务器集中监控系统和方法 |
US20130262914A1 (en) * | 2012-03-27 | 2013-10-03 | Delta Electronics, Inc. | Cloud system and method for monitoring and handling abnormal states of physical machine in the cloud system |
CN105335271A (zh) * | 2015-09-24 | 2016-02-17 | 浪潮电子信息产业股份有限公司 | 一种状态监控装置、综合监控系统和方法 |
CN105490868A (zh) * | 2015-11-17 | 2016-04-13 | 世纪龙信息网络有限责任公司 | 异地机房数据双向同步监控方法与系统 |
CN105450472A (zh) * | 2015-12-03 | 2016-03-30 | 广州云新信息技术有限公司 | 一种自动获取服务器物理部件状态的方法及装置 |
US20180227329A1 (en) * | 2017-02-09 | 2018-08-09 | Kyland Technology Co.,Ltd. | Method and apparatus for detecting security using an industry internet operating system |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110601914A (zh) * | 2019-08-05 | 2019-12-20 | 深圳市大拿科技有限公司 | 监测服务器存活状态的方法及系统 |
CN110601914B (zh) * | 2019-08-05 | 2022-11-22 | 深圳市大拿科技有限公司 | 监测服务器存活状态的方法及系统 |
CN110932938A (zh) * | 2019-12-02 | 2020-03-27 | 安徽三实信息技术服务有限公司 | 一种主机运行远程监控系统 |
CN111258870A (zh) * | 2020-01-17 | 2020-06-09 | 中国建设银行股份有限公司 | 分布式存储系统的性能分析方法、装置、设备及存储介质 |
CN111915127A (zh) * | 2020-06-17 | 2020-11-10 | 成都美迅检测设备有限公司 | 设备监测方法、装置、电子设备及存储介质 |
CN113706739A (zh) * | 2021-07-09 | 2021-11-26 | 中联重科土方机械有限公司 | 远程故障诊断处理方法、平台及系统 |
CN116743791A (zh) * | 2022-09-30 | 2023-09-12 | 腾讯云计算(北京)有限责任公司 | 一种地铁云平台云边同步方法、装置、设备及存储介质 |
CN115834696A (zh) * | 2022-10-20 | 2023-03-21 | 北京新数科技有限公司 | 一种数据库性能监控平台数据采集装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109040277A (zh) | 一种服务器的远程监控方法及装置 | |
CN105446328B (zh) | 发电机组远程故障诊断和健康监测系统及数据捕获方法 | |
CN104142679B (zh) | 使用大数据进行的用于工业系统的风险评估 | |
CN107369303B (zh) | 工厂智能诊断方法、装置及系统 | |
CN112187514A (zh) | 一种数据中心网络设备智能运维系统、方法及终端 | |
US10539932B2 (en) | Machine diagnostics based on overall system energy state | |
CN101764846B (zh) | 一种远程集中式磁盘阵列运行监控系统的实现方法 | |
CN106209432A (zh) | 基于动态阈值的网络设备亚健康预警方法及装置 | |
CN105302120A (zh) | 智能设备的远程服务装置、系统和方法 | |
CN103138980A (zh) | 设备故障反馈系统及方法 | |
CN104142663A (zh) | 云平台中的工业设备和系统证明 | |
US20240094095A1 (en) | Managing The Effectiveness Of Repairs In Refrigeration Assets | |
CN104796273A (zh) | 一种网络故障根源诊断的方法和装置 | |
CN111353911A (zh) | 电力设备运维方法、系统、设备和存储介质 | |
CN104932978B (zh) | 一种系统运行故障自检测及自修复的方法和系统 | |
US20210148996A1 (en) | System and method of monitoring electrical devices to detect anomaly in the electrical devices | |
CN115118581B (zh) | 一种基于5g的物联网数据全链路监控和智能保障系统 | |
CN103746829A (zh) | 一种基于集群的故障感知系统及其方法 | |
CN105373118A (zh) | 一种智能设备数据采集方法 | |
CN110472749A (zh) | 设备的远程监控方法及监控设备 | |
CN109556899A (zh) | 一种冰箱检测方法、工控机及冰箱检测系统 | |
CN114995348A (zh) | 一种变频传动全寿命周期管理方法 | |
CN105099762B (zh) | 一种系统运维功能的自检方法及自检系统 | |
CN116224137A (zh) | 一种ups设备故障预警方法及系统 | |
CN103616877B (zh) | 能源管网的监控诊断方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181218 |
|
RJ01 | Rejection of invention patent application after publication |