CN105591816A - It运维服务器的运行状态检测方法 - Google Patents

It运维服务器的运行状态检测方法 Download PDF

Info

Publication number
CN105591816A
CN105591816A CN201510902028.9A CN201510902028A CN105591816A CN 105591816 A CN105591816 A CN 105591816A CN 201510902028 A CN201510902028 A CN 201510902028A CN 105591816 A CN105591816 A CN 105591816A
Authority
CN
China
Prior art keywords
server
monitor message
target
sub
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510902028.9A
Other languages
English (en)
Inventor
刘水
胡佳龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING HELI SITENG TECHNOLOGY CO LTD
Original Assignee
BEIJING HELI SITENG TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING HELI SITENG TECHNOLOGY CO LTD filed Critical BEIJING HELI SITENG TECHNOLOGY CO LTD
Priority to CN201510902028.9A priority Critical patent/CN105591816A/zh
Publication of CN105591816A publication Critical patent/CN105591816A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring

Abstract

本发明提供了IT运维服务器的运行状态检测方法,涉及电子信息领域。该IT运维服务器的运行状态检测方法,采用系统监控的方式,通过同时获取了服务器性能、服务器容量和服务器状态这三个方面的参数,使得本地能够同时依据这三个参数对服务器的整体状态进行评价,当某一方面出问题的时候,则采用报警的方式来告知用户,进而使得用户可以对服务器的是否正常得到直观的提醒,进而采取相应的措施,以保证服务器能够正常的提供服务。

Description

IT运维服务器的运行状态检测方法
技术领域
本发明涉及电子信息领域,具体而言,涉及IT运维服务器的运行状态检测方法。
背景技术
随着电子信息技术的发展,互联网和移动互联网的使用已经得到了大范围的推广。互联网技术是指计算机技术的基础上开发建立的一种信息技术。通常所说的使用互联网,是用户通过操作电脑终端来向网络端,或者是另一个终端发送信息,并且接收相应的反馈信息的过程。通常情况下,两个终端之间进行信息交互同样需要由网络端进行中转,也就是,两个终端进行信息交互的时候,需要先将发送给对方的信息传送给网络端,再由网络端转发给指定的终端,这种信息的传递也是使用服务器的基础。
如常见的聊天软件的使用,便是当用户A需要传递消息给用户B时。首先由用户A通过操作第一终端,将所要发送的消息上传给网络端(由服务商所控制的服务器),上传的内容除了消息外,还有如第一终端的识别码、地址、第二终端(用户B所操作的终端)的识别码和地址等。网络端在接收到第一终端所上传的内容后,按照第一终端的识别码来验证第一终端是否有权限,并在确认之后,按照第二终端的地址,将消息传送给第二终端,进而使操作第二终端的用户能够查看到。相类似的,其他依赖互联网技术也是采用这种方式将信息由A方传递给B方。具体的,所传递的消息不限于用户想传递的消息,还有如指令、代码等等。
不论是哪种互联网技术,在进行信息传递的时候都会利用到服务器进行身份的验证和消息的中转。通常情况下,一个服务器只对同一个服务(或者是某个服务中的子服务)进行处理,但在处理任务的时候,则需要同事面对大量的终端(通常一个终端对应着一个用户)。因此,当服务器的运行出现问题的时候,会有大量用户受到影响,如,当网络聊天服务器宕机的时候,则导致通过该服务器进行信息中转的用户,无法再进行信息的传输。
尤其是,在当前大数据技术快速发展的情况下,对IT技术进行指出的服务器如果出现宕机问题,则会导致某个数据传输环节的严重迟缓,甚至导致包含该数据传输环节的整个系统无法工作。
发明内容
本发明的目的在于提供IT运维服务器的运行状态检测方法,以降低服务器宕机的概率。
第一方面,本发明实施例提供了IT运维服务器的运行状态检测方法,包括:
获取目标运维服务器中的多种主要监控信息,主要监控信息包括以下三种:服务器性能、服务器容量和服务器状态;
分别比较每种主要监控信息是否超过相应的阈值;
若一种主要监控信息超过预定的阈值,则触发第一报警动作。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,还包括:
获取目标运维服务器中的多种次要监控信息,次要监控信息包括以下一种或多种:服务器配置、服务器进程、服务器温度和服务器服务;
分别判断每种次要监控信息是否符合预设的要求;
若一种次要监控信息不符合预设的要求,则触发第二报警动作。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,分别比较每种主要监控信息是否超过相应的阈值包括:
分别比较服务器性能中,每种服务器子性能是否超过预定的阈值,服务器子性能包括CPU性能、内存性能、进程性能、磁盘性能、网口性能和风扇性能;
若多种服务器子性能中的一种超过预定的阈值,则执行步骤触发第一报警动作。
结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,分别比较每种主要监控信息是否超过相应的阈值包括:
分别比较服务器容量中,每种服务器子容量是否超过预定的阈值,服务器子容量包括文件系统当前使用百分比和文件系统当前使用大小;
若多种服务器子容量中的一种超过预定的阈值,则执行步骤触发第一报警动作。
结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,分别比较每种主要监控信息是否超过相应的阈值包括:
分别比较服务器状态中,每种服务器子状态是否超过预定的阈值,服务器子状态包括内存状态、光纤网卡状态、在线用户数状态、风扇运行状态、路由运行状态、系统板卡工作状态、硬盘状态灯、硬盘状态、电源工作状态、文件系统运行状态、VIDEO卡运行状态、CPU运行状态、DVD卡运行状态和FCHBA卡运行状态;
若多种服务器子状态中的一种超过预定的阈值,则执行步骤触发第一报警动作。
结合第一方面,本发明实施例提供了第一方面的第五种可能的实施方式,其中,分别比较每种次要监控信息是否符合预设的要求包括:
分别判断服务器进程中,每种服务器子进程是否符合预设的要求,服务器子进程包括进程状态、进程父ID、进程名、进程实际调用时间、进程占用的虚拟内存的大小和进程占用的核心内存;
若多种服务器子进程中的一种不符合预设的要求,则执行步骤触发第二报警动作;
和/或,分别判断服务器温度中,每种服务器子温度是否符合预设的要求,服务器子温度包括系统温度、CPU温度和内存温度;
若多种服务器子温度中的一种不符合预设的要求,则执行步骤触发第二报警动作;
和/或,分别判断服务器服务中,每种服务器子服务是否符合预设的要求,服务器子服务包括服务状态、服务所拥有的组、服务启动时间、服务名称、服务Pid;
若多种服务器子服务中的一种不符合预设的要求,则执行步骤触发第二报警动作。
结合第一方面,本发明实施例提供了第一方面的第六种可能的实施方式,其中,还包括:
获取目标运维服务器的服务器类型;
从多个不同类型的脚本中,选择与服务器类型相对应的目标脚本,目标脚本中携带有获取主要监控信息的代码;
将目标脚本写入目标运维服务器中;
通过调用写入目标运维服务器中的目标脚本,以执行步骤获取目标运维服务器中的多种主要监控信息。
结合第一方面,本发明实施例提供了第一方面的第七种可能的实施方式,其中,若一种主要监控信息超过预定的阈值,则触发第一报警动作包括:
若主要监控信息的数值位于第一阈值范围,则触发第一子报警动作;
若主要监控信息的数值位于第二阈值范围,则触发第二子报警动作;第一阈值范围和第二阈值范围数值上相邻。
结合第一方面,本发明实施例提供了第一方面的第八种可能的实施方式,其中,还包括:在步骤通过调用写入目标运维服务器中的目标脚本,以执行步骤获取目标运维服务器中的多种主要监控信息前,还包括:
获取写入目标运维服务器中的目标脚本;
根据目标运维服务器的故障记录,调整目标脚本中所携带的代码;
将调整后的目标脚本写入目标运维服务器中。
本发明实施例提供的IT运维服务器的运行状态检测方法,采用系统监控的方式,与现有技术中的服务器经常在运行的过程中出现宕机等导致服务器无法工作的情况相比,其通过同时获取了服务器性能、服务器容量和服务器状态这三个方面的参数,使得本地能够同时依据这三个参数对服务器的整体状态进行评价,当某一方面出问题的时候,则采用报警的方式来告知用户,进而使得用户可以对服务器的是否正常得到直观的提醒,进而采取相应的措施,以保证服务器能够正常的提供服务。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例所提供的IT运维服务器的运行状态检测方法的基本流程图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
互联网技术的实施依赖于服务器对信息的中转,服务器的性能和优良程度也决定了使用该服务器进行信息交互的通畅性和安全性。
一般情况,服务器所能够提供的服务是受编写在其内部的软件(脚本)所决定,使用者将数据或者指令发送给服务器,服务器内部的软件便会对数据或指令进行处理。当使用者的数量增加的时候,或者是服务器内并行的软件/数据过多的时候,服务器的负载量则会大大增加,进而,服务器会长时间出去高负荷工作的状态。高负荷工作状态时间的延长则会直接导致服务器停止运行。相关技术中,在一个服务系统(同时包含多个服务器)中通常会采用负载均衡的方式来调节不同服务器之间的工作负荷,将新接到的任务分配给负荷较轻的服务器来执行。但此种执行方式只能够保证每个服务器的工作量是相似的,但由于无法预知服务器的状态,依旧没有解决预知服务器停止工作的问题。
有鉴于此,本申请提供了IT运维服务器的运行状态检测方法,如图1所示,包括:
S101,获取目标运维服务器中的多种主要监控信息,主要监控信息包括以下三种:服务器性能、服务器容量和服务器状态;
S102,分别比较每种主要监控信息是否超过相应的阈值;
S103,若一种主要监控信息超过预定的阈值,则触发第一报警动作。
该方法的执行首先需要获取目标运维服务器(多个运维服务器中的一个)中的主要监控信息。实际上,目标运维服务器在运行的时候具有很多种属性,如运行的程序量、程序名称、响应时间,缓存总空间、缓存剩余空间等等,每一种属性都客观的反应了服务器当前的状态,如果想要对服务器的运行状态进行全面的监控的话,当然,最优的方案(在不计成本的前提下)是要将这些所有属性都获取到,这样才能够让用户(服务器的维护人员)清楚,且全面的了解到服务器的种种信息,进而,也就能够对服务器进行全面的监管。但实际上,同时获取这些属性是不现实的,这受到了资金、技术支持等等多方面的约束,因此,针对运维服务器而言,在保证各方面的约束都较为合理的情况下,应当以获取以下三种信息为主,也就是服务器性能、服务器容量和服务器状态。这三种信息能够客观、且较为全面的反应服务器当前的运行状态。进一步,还需要将这三种信息分别进行比较,当这三种信息中的某一种超过设定的阈值时,则触发第一报警动作。
需要说明的是,服务器性能、服务器容量和服务器状态这三种信息,每一种都包含了大量的子信息,如服务器性能包含有A-E这5种子信息,在判断服务器性能是否超过阈值时,实际上是基于这5种子信息来进行判断。判断的方式有两种,第一种是对这五种子信息进行综合评价,即,根据这5中子信息的数值,来综合计算出综合数值,并且将这个综合数值作为服务器性能的实际值,之后,再将这个实际值与阈值进行比较,如果实际值超过了阈值,则认为服务器性能超过了阈值;第二种方式是为这5中子信息分别设定不同的阈值,并在分别比较每种子信息,如果有一种子信息超过阈值,则认为服务器性能超过了阈值。
具体而言,第一报警动作可以是指向用户进行提示,还可以是指系统自动启动备用服务器来分担目标运维服务器的工作。
优选的,在进行服务器性能、服务器容量和服务器状态分别与阈值进行比较之后,可以将第一报警动作进行进一步的划分,也就是分别使用三种具体的报警动作,每种报警动作对应一种主要监控信息。也就是,当服务器性能超过相应阈值时,采用第一报警动作中的第一种方式进行报警;当服务器容量超过相应阈值时,采用第一报警动作中的第二种方式进行报警;当服务器状态超过相应阈值时,采用第一报警动作中的第三种方式进行报警。
在进行比较的时候,阈值是可以由用户进行设定的,并不一定是每个运维服务器的阈值均是一样。
具体的,除了对主要监控信息进行监控,在某些情况下,还可以对次要监控信息进行监控,进而更为全面的了解目标运维服务器的当前运行状态。
也就是,本申请所提供的IT运维服务器的运行状态检测方法,还包括:
11,获取目标运维服务器中的多种次要监控信息,次要监控信息包括以下一种或多种:服务器配置、服务器进程、服务器温度和服务器服务;
12,分别判断每种次要监控信息是否符合预设的要求;
13,若一种次要监控信息不符合预设的要求,则触发第二报警动作。
相类似的,服务器配置、服务器进程、服务器温度和服务器服务这四种次要监控信息,每种都包含有很多子项目,在分别判断这四种次要监控信息是否符合预设的要求时,可以是分别判断一种次要监控信息中多个子信息是否符合相应的要求,有一种子信息不符合要求,则认为这种次要监控信息不符合要求;也可以是判断分别判断一种次要监控信息中多个子信息是否符合相应的要求后,为每个子信息设置不同的权值,并且累加不符合要求的子信息的权值,当权值超过预定阈值的时候,则认为该次要监控信息不符合要求。
需要说明的是,第一报警动作和第二报警动作可以是相同的,也可以是不同的,但为了更明显的告知用户,应当将第一报警动作和第二报警动作设计为不同的形式。
下面,对主要监控信息和次要监控信息的具体内容进行说明。
步骤S102,分别比较每种主要监控信息是否超过相应的阈值包括:
分别比较服务器性能中,每种服务器子性能是否超过预定的阈值,服务器子性能包括CPU性能、内存性能、进程性能、磁盘性能、网口性能和风扇性能;
若多种服务器子性能中的一种超过预定的阈值,则执行步骤触发第一报警动作。
步骤S102,分别比较每种主要监控信息是否超过相应的阈值包括:
分别比较服务器容量中,每种服务器子容量是否超过预定的阈值,服务器子容量包括文件系统当前使用百分比和文件系统当前使用大小;
若多种服务器子容量中的一种超过预定的阈值,则执行步骤触发第一报警动作。
步骤S102,分别比较每种主要监控信息是否超过相应的阈值包括:
分别比较服务器状态中,每种服务器子状态是否超过预定的阈值,服务器子状态包括内存状态、光纤网卡状态、在线用户数状态、风扇运行状态、路由运行状态、系统板卡工作状态、硬盘状态灯、硬盘状态、电源工作状态、文件系统运行状态、VIDEO卡运行状态、CPU运行状态、DVD卡运行状态和FCHBA卡运行状态;
若多种服务器子状态中的一种超过预定的阈值,则执行步骤触发第一报警动作。
步骤12,分别比较每种次要监控信息是否符合预设的要求包括:
分别判断服务器进程中,每种服务器子进程是否符合预设的要求,服务器子进程包括进程状态、进程父ID、进程名、进程实际调用时间、进程占用的虚拟内存的大小和进程占用的核心内存;
若多种服务器子进程中的一种不符合预设的要求,则执行步骤触发第二报警动作;
和/或,分别判断服务器温度中,每种服务器子温度是否符合预设的要求,服务器子温度包括系统温度、CPU温度和内存温度;
若多种服务器子温度中的一种不符合预设的要求,则执行步骤触发第二报警动作;
和/或,分别判断服务器服务中,每种服务器子服务是否符合预设的要求,服务器子服务包括服务状态、服务所拥有的组、服务启动时间、服务名称、服务Pid;
若多种服务器子服务中的一种不符合预设的要求,则执行步骤触发第二报警动作。
以上列举出了各种主要监控信息的具体考察内容和次要监控信息的考察内容。在进行具体操作的时候,用户可以根据需要从这些具体考察内容中选择一种或多种进行考察,也可以是对这些具体内容均进行考察。
下面简述两种依据服务器子性能来判断服务器性能是否超过预设阈值的方法,服务器容量和服务器状态也可以采用类似的方式进行判断。
第一种,服务器子性能包括CPU性能、内存性能、进程性能、磁盘性能、网口性能和风扇性能,这6个性能的实际值(实际使用度)分别是60、75、66、58、45和85,可以设定一个标准阈值为70,可以看出有两个评分(内存性能75,风扇性能85)超过这个阈值了,则说明内存和风扇处于高负荷运转状态,此时则执行第一报警动作。
第二种,参照第一种,在确定了超过阈值的有内存性能和风扇性能后,查找内存性能和风扇性能所对应的权值,如分别是6和7,权值阈值为15,那么可以计算出,超过预定阈值的权值之和为6+7=13,没有超过权值阈值15,此时,则认为服务器性能没有超过预定阈值,也就不同触发第一报警动作。
下面给出两个具体的参数例子,以供参考,
服务器子容量的两个指标,如表1所示,可以看出,每种都包含了多个报警级别。如文件系统当前使用百分比,就有0-70%,70%-85%,85%-90%和90%-100%这多种档位,当文件系统当前使用百分比处于不同状态的时候,可以进行不同报警(小于70%是正常状态,不需要报警)。
表1
容量评估的标准 评判标准
正常 warning error critical
文件系统当前使用百分比 use%<70% use%>70% use%>85% user>=90%
文件系统当前使用大小 use<70% use>70% use>85% user>=90%
相类似的,本申请实施例中,还给出了服务器子性能的具体比较参数,如表2所示,与服务器子容量类似,也有多种档位设置。
表2
本申请所提供的的IT运维服务器的运行状态检测方法,还包括:
获取目标运维服务器的服务器类型;
从多个不同类型的脚本中,选择与服务器类型相对应的目标脚本,目标脚本中携带有获取主要监控信息的代码;
将目标脚本写入目标运维服务器中;
通过调用写入目标运维服务器中的目标脚本,以执行步骤获取目标运维服务器中的多种主要监控信息。
也就是,针对不同的运维服务器可以设置不同的脚本,脚本的作用是调取运维服务器中相应的主要监控信息和次要监控信息,不同的服务器需要使用不同的代码,操作的时候,可以先将代码编写完成,再根据服务器类型的不同来向目标运维服务器中写入脚本。此种提前编写多种脚本的方式,避免了不懂编程的人员无法调取运维服务器中主要、次要监控信息的问题。通常,按照服务器采集协议的不同,可以将采集协议(影响脚本的编写)分类为:SNMP、Telnet、SSH。按照服务器的操作系统来分类,可以分为Linux系统、Window系统、Unix系统。对linux系统和Unix系统机器使用Telnet和Ssh协议,Window系统机器使用SNMP协议。按照此种方式的分类,能够保证编写出来的协议能够被服务器的系统所识别。
进一步,本申请所提供的IT运维服务器的运行状态检测方法,若一种主要监控信息超过预定的阈值,则触发第一报警动作包括:
若主要监控信息的数值位于第一阈值范围,则触发第一子报警动作;
若主要监控信息的数值位于第二阈值范围,则触发第二子报警动作;第一阈值范围和第二阈值范围数值上相邻。
也就是如表1和表2所示,将同一种监控信息(或者是子信息)的阈值分为多个档位,当位于不同档位的时候,采用不同的报警动作。
具体的,该IT运维服务器的运行状态检测方法,还包括:在步骤通过调用写入目标运维服务器中的目标脚本,以执行步骤获取目标运维服务器中的多种主要监控信息前,还包括:
获取写入目标运维服务器中的目标脚本;
根据目标运维服务器的故障记录,调整目标脚本中所携带的代码;
将调整后的目标脚本写入目标运维服务器中。
也就是,为了避免同时监控过多的信息,可以参考稿目标运维服务器历史记录中的故障记录,并且参照故障记录来调整脚本中的代码。调整后的代码用于获取主要监控信息中的一个或多个,也可以是用于获取主要监控信息的多个子信息中的一个或多个,而不是获取全部的信息。此种方式,避免了监控信息过多,而使得系统负担加大。
需要说明的是,在执行本申请所提供的方法前,用户还需要通过提供用户名、密码等信息进行登录,和设置等操作。具体的,使用脚本进行采集的过程如下:
1采集器通过存储job信息查看当前是否有执行job
系统中配置目标机的相关信息以及采集指标信息执行时间信息保存在采集器(携带有目标脚本)中,采集器查看当前是否有执行的job,没有执行job当前程序结束,有执行job,获取job相关信息。
2获取凭证信息
凭证信息包含用户名、设置密码、设置协议类型,job中获取凭证信息,通过ping主机以及用户名密码登陆主机判断凭证是否有效
3通过用户名密码以及协议获取目标机脚本执行结果
当前采集器支持ssh、telnet、snmp三种协议,通过配置好的协议访问到目标机(目标运维服务器),执行指标脚本返回xml结果(主要监控信息和次要监控信息)。
4校验结果
通过xml规范,配置了相应的xsd文件检验返回结果是否有效。无效结果记录错误日志,待后续查看处理,有效结果放到队列中由预警分析服务进行分析以及告警。
本申请实施例还提供了IT运维服务器的运行状态检测装置,包括:
获取模块,用于获取目标运维服务器中的多种主要监控信息,主要监控信息包括以下三种:服务器性能、服务器容量和服务器状态;
比较模块,用于分别比较每种主要监控信息是否超过相应的阈值;
报警模块,用于若一种主要监控信息超过预定的阈值,则触发第一报警动作。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (9)

1.IT运维服务器的运行状态检测方法,其特征在于,包括:
获取目标运维服务器中的多种主要监控信息,所述主要监控信息包括以下三种:服务器性能、服务器容量和服务器状态;
分别比较每种主要监控信息是否超过相应的阈值;
若一种主要监控信息超过预定的阈值,则触发第一报警动作。
2.根据权利要求1所述的IT运维服务器的运行状态检测方法,其特征在于,还包括:
获取目标运维服务器中的多种次要监控信息,所述次要监控信息包括以下一种或多种:服务器配置、服务器进程、服务器温度和服务器服务;
分别判断每种次要监控信息是否符合预设的要求;
若一种次要监控信息不符合预设的要求,则触发第二报警动作。
3.根据权利要求2所述的IT运维服务器的运行状态检测方法,其特征在于,所述分别比较每种主要监控信息是否超过相应的阈值包括:
分别比较服务器性能中,每种服务器子性能是否超过预定的阈值,所述服务器子性能包括CPU性能、内存性能、进程性能、磁盘性能、网口性能和风扇性能;
若多种所述服务器子性能中的一种超过预定的阈值,则执行步骤所述触发第一报警动作。
4.根据权利要求3所述的IT运维服务器的运行状态检测方法,其特征在于,所述分别比较每种主要监控信息是否超过相应的阈值包括:
分别比较服务器容量中,每种服务器子容量是否超过预定的阈值,所述服务器子容量包括文件系统当前使用百分比和文件系统当前使用大小;
若多种所述服务器子容量中的一种超过预定的阈值,则执行步骤所述触发第一报警动作。
5.根据权利要求4所述的IT运维服务器的运行状态检测方法,其特征在于,所述分别比较每种主要监控信息是否超过相应的阈值包括:
分别比较服务器状态中,每种服务器子状态是否超过预定的阈值,所述服务器子状态包括内存状态、光纤网卡状态、在线用户数状态、风扇运行状态、路由运行状态、系统板卡工作状态、硬盘状态灯、硬盘状态、电源工作状态、文件系统运行状态、VIDEO卡运行状态、CPU运行状态、DVD卡运行状态和FCHBA卡运行状态;
若多种所述服务器子状态中的一种超过预定的阈值,则执行步骤所述触发第一报警动作。
6.根据权利要求2所述的IT运维服务器的运行状态检测方法,其特征在于,所述分别比较每种次要监控信息是否符合预设的要求包括:
分别判断服务器进程中,每种服务器子进程是否符合预设的要求,所述服务器子进程包括进程状态、进程父ID、进程名、进程实际调用时间、进程占用的虚拟内存的大小和进程占用的核心内存;
若多种所述服务器子进程中的一种不符合预设的要求,则执行步骤所述触发第二报警动作;
和/或,分别判断服务器温度中,每种服务器子温度是否符合预设的要求,所述服务器子温度包括系统温度、CPU温度和内存温度;
若多种所述服务器子温度中的一种不符合预设的要求,则执行步骤所述触发第二报警动作;
和/或,分别判断服务器服务中,每种服务器子服务是否符合预设的要求,所述服务器子服务包括服务状态、服务所拥有的组、服务启动时间、服务名称、服务Pid;
若多种所述服务器子服务中的一种不符合预设的要求,则执行步骤所述触发第二报警动作。
7.根据权利要求1所述的IT运维服务器的运行状态检测方法,其特征在于,还包括:
获取目标运维服务器的服务器类型;
从多个不同类型的脚本中,选择与所述服务器类型相对应的目标脚本,所述目标脚本中携带有获取所述主要监控信息的代码;
将所述目标脚本写入所述目标运维服务器中;
通过调用所述写入目标运维服务器中的目标脚本,以执行步骤所述获取目标运维服务器中的多种主要监控信息。
8.根据权利要求5所述的IT运维服务器的运行状态检测方法,其特征在于,所述若一种主要监控信息超过预定的阈值,则触发第一报警动作包括:
若所述主要监控信息的数值位于第一阈值范围,则触发第一子报警动作;
若所述主要监控信息的数值位于第二阈值范围,则触发第二子报警动作;所述第一阈值范围和所述第二阈值范围数值上相邻。
9.根据权利要求7所述的IT运维服务器的运行状态检测方法,其特征在于,还包括:在步骤所述通过调用所述写入目标运维服务器中的目标脚本,以执行步骤所述获取目标运维服务器中的多种主要监控信息前,还包括:
获取所述写入目标运维服务器中的目标脚本;
根据所述目标运维服务器的故障记录,调整所述目标脚本中所携带的代码;
将所述调整后的目标脚本写入所述目标运维服务器中。
CN201510902028.9A 2015-12-10 2015-12-10 It运维服务器的运行状态检测方法 Pending CN105591816A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510902028.9A CN105591816A (zh) 2015-12-10 2015-12-10 It运维服务器的运行状态检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510902028.9A CN105591816A (zh) 2015-12-10 2015-12-10 It运维服务器的运行状态检测方法

Publications (1)

Publication Number Publication Date
CN105591816A true CN105591816A (zh) 2016-05-18

Family

ID=55931075

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510902028.9A Pending CN105591816A (zh) 2015-12-10 2015-12-10 It运维服务器的运行状态检测方法

Country Status (1)

Country Link
CN (1) CN105591816A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106506278A (zh) * 2016-11-17 2017-03-15 杭州华三通信技术有限公司 一种服务可用性监控方法及装置
CN106708707A (zh) * 2016-12-23 2017-05-24 郑州云海信息技术有限公司 一种基于服务器架构的服务器监控系统
CN107360019A (zh) * 2017-06-06 2017-11-17 武汉票据交易中心有限公司 一种服务器的线程监控方法及系统
WO2018201863A1 (zh) * 2017-05-05 2018-11-08 平安科技(深圳)有限公司 一种应用程序运维方法、装置、设备以及存储介质
CN109344025A (zh) * 2018-07-27 2019-02-15 网宿科技股份有限公司 Cpu性能自监控方法及服务器
CN109450699A (zh) * 2018-12-06 2019-03-08 合肥海诺恒信息科技有限公司 一体化企业it运维管理系统及方法
CN109460340A (zh) * 2018-10-22 2019-03-12 重庆电子工程职业学院 计算机硬件监控方法及装置
CN109460344A (zh) * 2018-09-26 2019-03-12 国家计算机网络与信息安全管理中心 一种服务器的运维分析方法与系统
CN110134558A (zh) * 2019-05-17 2019-08-16 网易(杭州)网络有限公司 一种服务器的检测方法和装置
CN112286766A (zh) * 2020-11-02 2021-01-29 深圳市巨文科技有限公司 一种硬件故障报警系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101997925A (zh) * 2010-11-22 2011-03-30 北京亮点时间科技有限公司 具有预警功能的服务器监控方法及其系统
CN102143431A (zh) * 2011-03-15 2011-08-03 北京红旗胜利科技发展有限责任公司 一种报警方法、报警系统及移动报警终端
CN103248675A (zh) * 2013-04-23 2013-08-14 浪潮电子信息产业股份有限公司 一种用于监控服务器硬件状态的轮询方法
CN103713981A (zh) * 2013-12-31 2014-04-09 国网山东省电力公司 一种数据库服务器性能检测和预警方法
US20150019715A1 (en) * 2013-07-12 2015-01-15 Pulse.io, Inc. Methods and Systems for Performance Monitoring for Mobile Applications
CN104320285A (zh) * 2014-11-06 2015-01-28 中国建设银行股份有限公司 一种网站运行状态监控方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101997925A (zh) * 2010-11-22 2011-03-30 北京亮点时间科技有限公司 具有预警功能的服务器监控方法及其系统
CN102143431A (zh) * 2011-03-15 2011-08-03 北京红旗胜利科技发展有限责任公司 一种报警方法、报警系统及移动报警终端
CN103248675A (zh) * 2013-04-23 2013-08-14 浪潮电子信息产业股份有限公司 一种用于监控服务器硬件状态的轮询方法
US20150019715A1 (en) * 2013-07-12 2015-01-15 Pulse.io, Inc. Methods and Systems for Performance Monitoring for Mobile Applications
CN103713981A (zh) * 2013-12-31 2014-04-09 国网山东省电力公司 一种数据库服务器性能检测和预警方法
CN104320285A (zh) * 2014-11-06 2015-01-28 中国建设银行股份有限公司 一种网站运行状态监控方法及装置

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106506278A (zh) * 2016-11-17 2017-03-15 杭州华三通信技术有限公司 一种服务可用性监控方法及装置
CN106506278B (zh) * 2016-11-17 2020-05-12 新华三技术有限公司 一种服务可用性监控方法及装置
CN106708707A (zh) * 2016-12-23 2017-05-24 郑州云海信息技术有限公司 一种基于服务器架构的服务器监控系统
WO2018201863A1 (zh) * 2017-05-05 2018-11-08 平安科技(深圳)有限公司 一种应用程序运维方法、装置、设备以及存储介质
CN107360019A (zh) * 2017-06-06 2017-11-17 武汉票据交易中心有限公司 一种服务器的线程监控方法及系统
CN109344025A (zh) * 2018-07-27 2019-02-15 网宿科技股份有限公司 Cpu性能自监控方法及服务器
CN109344025B (zh) * 2018-07-27 2022-06-17 网宿科技股份有限公司 Cpu性能自监控方法及服务器
CN109460344A (zh) * 2018-09-26 2019-03-12 国家计算机网络与信息安全管理中心 一种服务器的运维分析方法与系统
CN109460344B (zh) * 2018-09-26 2023-04-28 国家计算机网络与信息安全管理中心 一种服务器的运维分析方法与系统
CN109460340A (zh) * 2018-10-22 2019-03-12 重庆电子工程职业学院 计算机硬件监控方法及装置
CN109450699A (zh) * 2018-12-06 2019-03-08 合肥海诺恒信息科技有限公司 一体化企业it运维管理系统及方法
CN110134558A (zh) * 2019-05-17 2019-08-16 网易(杭州)网络有限公司 一种服务器的检测方法和装置
CN110134558B (zh) * 2019-05-17 2024-01-26 网易(杭州)网络有限公司 一种服务器的检测方法和装置
CN112286766A (zh) * 2020-11-02 2021-01-29 深圳市巨文科技有限公司 一种硬件故障报警系统

Similar Documents

Publication Publication Date Title
CN105591816A (zh) It运维服务器的运行状态检测方法
KR102118670B1 (ko) Ict 인프라 관리 시스템 및 이를 이용한 ict 인프라 관리 방법
US10021125B2 (en) Infrastructure monitoring tool for collecting industrial process control and automation system risk data
CN107431716B (zh) 用于生成合并的、经过滤的和基于相关安全风险的通知的通知子系统
CN106462702B (zh) 用于在分布式计算机基础设施中获取并且分析电子取证数据的方法和系统
US20060200373A1 (en) Facilitating Root Cause Analysis for Abnormal Behavior of Systems in a Networked Environment
CN108092836A (zh) 一种服务器的监控方法及装置
US10503145B2 (en) System and method for asset fleet monitoring and predictive diagnostics using analytics for large and varied data sources
CN108353086B (zh) 用于监测工业控制系统的部署确保检查
CN107526349A (zh) 异常配置更改的检测
US10341182B2 (en) Method and system for detecting network upgrades
CN116204385A (zh) 一种计算机日志监控方法及系统
US8601318B2 (en) Method, apparatus and computer program product for rule-based directed problem resolution for servers with scalable proactive monitoring
US10719608B2 (en) Patch monitoring and analysis
CN113411209A (zh) 一种分布式的密码服务全链路检测系统及方法
CN111478792B (zh) 一种割接信息处理方法、系统及装置
JP2009049490A (ja) ネットワーク監視装置、ネットワーク監視システム
US20180123917A1 (en) System and method for monitoring multiple terminal devices
KR101490316B1 (ko) 네트워크 장비의 장애 검출 시스템 및 이를 이용한 장애 검출 방법
CN105553786A (zh) 一种网络行为安全检测的方法和装置
CN110995500A (zh) 节点日志管控方法、系统及相关组件
CN105099819A (zh) 一种监控网站状态的系统和方法
KR102366846B1 (ko) 데이터유출 탐지 보안 시스템 및 방법
KR102229613B1 (ko) 머신러닝 자가점검 기능을 이용하는 비대면 인증 기반 웹방화벽 유지보수 방법 및 장치
US11677463B2 (en) Infrastructure integrity and attestation of an all-photonics network

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160518

RJ01 Rejection of invention patent application after publication