CN109660380B - 服务器运行状态的监控方法、平台、系统及可读存储介质 - Google Patents

服务器运行状态的监控方法、平台、系统及可读存储介质 Download PDF

Info

Publication number
CN109660380B
CN109660380B CN201811144424.XA CN201811144424A CN109660380B CN 109660380 B CN109660380 B CN 109660380B CN 201811144424 A CN201811144424 A CN 201811144424A CN 109660380 B CN109660380 B CN 109660380B
Authority
CN
China
Prior art keywords
server
monitoring
abnormal
instruction
alarm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811144424.XA
Other languages
English (en)
Other versions
CN109660380A (zh
Inventor
熊晓龙
聂品
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Financial Technology Co Ltd Shanghai
Original Assignee
OneConnect Financial Technology Co Ltd Shanghai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Financial Technology Co Ltd Shanghai filed Critical OneConnect Financial Technology Co Ltd Shanghai
Priority to CN201811144424.XA priority Critical patent/CN109660380B/zh
Publication of CN109660380A publication Critical patent/CN109660380A/zh
Application granted granted Critical
Publication of CN109660380B publication Critical patent/CN109660380B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring

Abstract

本发明公开了一种服务器运行状态的监控方法,包括以下步骤:调用本地数据库中存储的接口调用关联列表,得到关联的服务器及其身份标识、监控规则,其中,所述监控规则至少包括监控时间和/或监控周期;基于关联的服务器及其身份标识、监控时间和/或监控周期,向服务器下发上报指令;监测预设时间间隔内是否接收到服务器基于所述上报指令上报的心跳信息,以判定服务器的运行状态。本发明还公开了一种平台、系统及可读存储介质。本发明能够对集群系统内多个服务器的运行状态进行可配置化定时监控,并节约系统资源,进而节省人力成本和监管成本。

Description

服务器运行状态的监控方法、平台、系统及可读存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种服务器运行状态的监控方法、平台、系统及可读存储介质。
背景技术
随着计算机与网络技术的极速发展,服务器作为一种提供计算服务的计算机设备,被广泛应用在各个领域中,以提供快速、高效、安全的计算服务。同时,随着计算机信息业务量的快速增长,需要更多的服务器以确保计算服务质量。
然而,在实际应用中,服务器全年二十四小时不间断运行,负载量较大,时间一长容易出现宕机情况而无法运转,严重影响业务的发展。现有技术中,为能够及时发现出现宕机的服务器,主要采用以下方法:1.依赖工作人员的自觉性和责任感对服务器进行实时监控,以便能够在第一时间发现并进行维护,以最大化减少对业务的影响,但服务器数量增多,意味着需要增加多个工作人员,进而需要花费更多的人力成本和监管成本;2.采集各服务器的日志数据,再根据日志数据逐个判断服务器是否宕机,但运算量大耗费时间长,存在非实时性、无异常预警等缺点。
发明内容
本发明的主要目的在于提供一种服务器运行状态的监控方法、平台、系统及可读存储介质,旨在解决如何对集群系统内多个服务器的运行状态进行可配置化定时监控,并节约系统资源的技术问题。
为实现上述目的,本发明提供的一种服务器运行状态的监控方法,包括:
调用本地数据库中存储的接口调用关联列表,得到关联的服务器及其身份标识、监控规则,其中,所述监控规则至少包括监控时间和/或监控周期;
基于关联的服务器及其身份标识、监控时间和/或监控周期,向服务器下发上报指令;
监测预设时间间隔内是否接收到服务器基于所述上报指令上报的心跳信息,以判定服务器的运行状态。
可选的,所述监测预设时间间隔内是否接收到服务器基于所述上报指令上报的心跳信息,以判定服务器的运行状态包括:
监测预设时间间隔内是否接收到服务器基于所述上报指令上报的心跳信息;
若在预设时间间隔内接收到服务器上报的心跳信息,则判定服务器的运行状态为运行正常;
若在预设时间间隔内未接收到服务器上报的心跳信息,则判定服务器的运行状态为运行异常。
可选的,在所述监测预设时间间隔内是否接收到服务器基于所述上报指令上报的心跳信息,以判定服务器的运行状态之后,所述服务器运行状态的监控方法还包括:
当判定服务器的运行状态为运行异常时,根据运行异常的服务器的身份标识,获取该服务器的基本属性,其中,所述基本属性包括实时性强/中/弱;
若所述实时性强则确定异常报警等级为高级;若所述实时性中则确定异常报警等级为中级;若所述实时性弱则确定异常报警等级为低级;
基于预设告警规则与确定的所述异常报警等级,输出告警信息。
可选的,所述基于预设告警规则与确定的所述异常报警等级,输出告警信息包括:
当确定的所述异常报警等级为高级时,输出告警信息至告警界面,并获取该服务器的维护人员的联系方式,向维护人员发出告警语音信息;
当确定的所述异常报警等级为中级时,输出告警信息至告警界面,并获取该运行异常服务器的维护人员的联系方式,向维护人员发送告警文本信息;
当确定的所述异常报警等级为低级时,输出告警信息至告警界面。
可选的,当判定服务器的运行状态为运行异常时,所述服务器运行状态的监控方法还包括:
再次向运行异常的服务器下发上报指令;
若预设时间间隔内接收到该服务器上报的心跳信息,则将该服务器的运行状态修正为运行正常;
若预设时间间隔内仍未接收到该服务器上报的心跳信息,则执行所述基于预设告警规则与确定的所述异常报警等级,输出告警信息的操作。
可选的,在所述调用本地数据库中存储的接口调用关联列表,得到关联的服务器及其身份标识、监控规则之前,所述服务器运行状态的监控方法还包括:
监测是否存在服务器监控指令;
当存在所述服务器监控指令时,判断所述服务器监控指令是否携带身份标识;
若所述服务器监控指令携带身份标识,则所述服务器监控指令为手动监控指令,并根据所述服务器监控指令携带的身份标识,向该身份标识对应的服务器下发上报指令以执行相应的判定操作;
若所述服务器监控指令未携带身份标识,则所述服务器监控指令为自动监控指令,并执行所述调用本地数据库中存储的接口调用关联列表,得到关联的服务器及其身份标识、监控规则的操作。
可选的,在所述监测预设时间间隔内是否接收到服务器基于所述上报指令上报的心跳信息,以判定服务器的运行状态之后,所述服务器运行状态的监控方法还包括:
根据每一次下发的上报指令及其判定的运行状态,得到所有关联服务器的监控数据;
对所述监控数据进行次数统计,以统计得到各服务器的异常次数和监控次数;
根据各服务器的异常次数和监控次数,计算得到各服务器的异常频率;
在监控界面上显示所述监控数据和所述异常频率。
此外,为实现上述目的,本发明还提供一种监控管理平台,所述监控管理平台包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的服务器监控程序,所述服务器监控程序被所述处理器执行时实现如上述中任一项所述的服务器运行状态的监控方法的步骤。
此外,为实现上述目的,本发明还提供一种服务器监控系统,所述服务器监控系统包括如上所述的监控管理平台,以及与所述监控管理平台关联的多个服务器;
所述服务器用于,在接收到所述监控管理平台下发的上报指令时,将本服务器的心跳信息上报至所述监控管理平台。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有服务器监控程序,所述服务器监控程序被处理器执行时实现如上述中任一项所述的服务器运行状态的监控方法的步骤。
本发明首先通过调用本地数据库中存储的接口调用关联列表,得到关联的服务器及其身份标识、监控规则,其中,监控规则至少包括监控时间和/或监控周期,然后基于关联的服务器及其身份标识、监控时间和/或监控周期,向服务器下发上报指令,最后监测预设时间间隔内是否接收到服务器基于上报指令上报的心跳信息,以判定服务器的运行状态是正常还是异常,从而能够对集群系统内多个服务器的运行状态进行可配置化定时监控,进而持续稳定地监控关联的所有服务器,并节约系统资源,进而节省人力成本和监管成本。
附图说明
图1为本发明实施例方案涉及的监控管理平台运行环境的结构示意图;
图2为本发明服务器运行状态的监控方法一实施例的流程示意图;
图3为图2步骤S30一实施例的细化流程示意图;
图4为本发明服务器运行状态的监控方法另一实施例的流程示意图;
图5为本发明服务器监控系统一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的监控管理平台运行环境的结构示意图。
如图1所示,该监控管理平台可以包括:处理器1001,例如CPU,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的监控管理平台的硬件结构并不构成对监控管理平台的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及计算机程序。其中,操作系统是管理和控制监控管理平台和软件资源的程序,支持服务器监控程序以及其它软件和/或程序的运行。
在图1所示的监控管理平台的硬件结构中,网络接口1004主要用于接入网络;用户接口1003主要用于侦测确认指令和编辑指令等。而处理器1001可以用于调用存储器1005中存储的服务器监控程序,并执行以下操作:
调用本地数据库中存储的接口调用关联列表,得到关联的服务器及其身份标识、监控规则,其中,所述监控规则至少包括监控时间和/或监控周期;
基于关联的服务器及其身份标识、监控时间和/或监控周期,向服务器下发上报指令;
监测预设时间间隔内是否接收到服务器基于所述上报指令上报的心跳信息,以判定服务器的运行状态。
进一步地,所述监控管理平台通过处理器1001调用存储器1005中存储的服务器监控程序,以执行下述操作:
监测预设时间间隔内是否接收到服务器基于所述上报指令上报的心跳信息;
若在预设时间间隔内接收到服务器上报的心跳信息,则判定服务器的运行状态为运行正常;
若在预设时间间隔内未接收到服务器上报的心跳信息,则判定服务器的运行状态为运行异常。
进一步地,所述监控管理平台通过处理器1001调用存储器1005中存储的服务器监控程序,以执行下述操作:
当判定服务器的运行状态为运行异常时,根据运行异常的服务器的身份标识,获取该服务器的基本属性,其中,所述基本属性包括实时性强/中/弱;
若所述实时性强则确定异常报警等级为高级;若所述实时性中则确定异常报警等级为中级;若所述实时性弱则确定异常报警等级为低级;
基于预设告警规则与确定的所述异常报警等级,输出告警信息。
进一步地,所述监控管理平台通过处理器1001调用存储器1005中存储的服务器监控程序,以执行下述操作:
当确定的所述异常报警等级为高级时,输出告警信息至告警界面,并获取该服务器的维护人员的联系方式,向维护人员发出告警语音信息;
当确定的所述异常报警等级为中级时,输出告警信息至告警界面,并获取该运行异常服务器的维护人员的联系方式,向维护人员发送告警文本信息;
当确定的所述异常报警等级为低级时,输出告警信息至告警界面。
进一步地,所述监控管理平台通过处理器1001调用存储器1005中存储的服务器监控程序,以执行下述操作:
再次向运行异常的服务器下发上报指令;
若预设时间间隔内接收到该服务器上报的心跳信息,则将该服务器的运行状态修正为运行正常;
若预设时间间隔内仍未接收到该服务器上报的心跳信息,则执行所述基于预设告警规则与确定的所述异常报警等级,输出告警信息的操作。
进一步地,所述监控管理平台通过处理器1001调用存储器1005中存储的服务器监控程序,以执行下述操作:
监测是否存在服务器监控指令;
当存在所述服务器监控指令时,判断所述服务器监控指令是否携带身份标识;
若所述服务器监控指令携带身份标识,则所述服务器监控指令为手动监控指令,并根据所述服务器监控指令携带的身份标识,向该身份标识对应的服务器下发上报指令以执行相应的判定操作;
若所述服务器监控指令未携带身份标识,则所述服务器监控指令为自动监控指令,并执行所述调用本地数据库中存储的接口调用关联列表,得到关联的服务器及其身份标识、监控规则的操作。
进一步地,所述监控管理平台通过处理器1001调用存储器1005中存储的服务器监控程序,以执行下述操作:
根据每一次下发的上报指令及其判定的运行状态,得到所有关联服务器的监控数据;
对所述监控数据进行次数统计,以统计得到各服务器的异常次数和监控次数;
根据各服务器的异常次数和监控次数,计算得到各服务器的异常频率;
在监控界面上显示所述监控数据和所述异常频率。
基于上述监控管理平台硬件结构,提出本发明服务器运行状态的监控方法的各个实施例。
参照图2,图2为本发明服务器运行状态的监控方法一实施例的流程示意图。
本实施例中,服务器运行状态的监控方法包括:
步骤S10,调用本地数据库中存储的接口调用关联列表,得到关联的服务器及其身份标识、监控规则,其中,监控规则至少包括监控时间和/或监控周期;
本实施例中,本监控管理平台采用接口与多个服务器进行关联以建立通信连接,实现信息交互。接口优选Restful API,用以配置http协议等。而接口调用关联列表就是记录监控管理平台与各服务器之间的关联关系,通过关联列表得到关联的服务器及其身份标识、监控规则。身份标识,具有唯一性,用以查找和区分每台关联的服务器,可以是MAC地址、IP地址、ID号,具体根据实际需要进行设置。MAC(Medium/Media Access Control)地址,用来表示互联网上每一个站点的标识符,采用十六进制数表示,共六个字节(48位)。IP地址是指互联网协议地址(Internet Protocol Address,又译为网际协议地址),是IP协议提供的一种统一的地址格式,并为互联网上的每一个网络和每一台主机分配一个逻辑地址,以此来屏蔽物理地址的差异,是一个32位的二进制数,通常被分割为4个字节(8位二进制数)。ID号优选由MAC地址或IP地址+timestamp(毫秒)+seq(16或者32位)组成,seq为扩展标识符,可由厂家自己分配或自定义,进而区分每台服务器。当关联关系建立之后,对数据的交互是通过查找身份标识得到对应的调用接口,从而将数据通过特定的调用接口发送出去的。
本实施例中,不同服务器提供相同或不相同的服务,相应地每台服务器可以对应相同或不相同的监控规则,用以满足不同服务器的监控需求,比如有的可以是早晚两次监控,有的是每隔半小时监控,具体根据实际情况进行设置,进而监控规则至少包括监控时间、监控周期,还可以包括单日监控次数、频率等内容。其中,监控时间可以是起始时间或每次监控的具体时间或时间段,如上午9点12分。
进一步地,监控服务器,可以是根据接口调用关联列表自动监控,也可以是手动监控,满足监控方当下实时获取监控结果。具体地,在步骤S10之前,监测是否存在服务器监控指令,当存在所述服务器监控指令时,判断服务器监控指令是否携带身份标识。若携带身份标识则为手动监控指令,反之若未携带身份标识则为自动监控指令。当接收到服务器监控指令为手动监控指令时,根据服务器监控指令携带的身份标识,向该身份标识对应的服务器下发上报指令。比如在监控界面上显示关联的服务器,并设置监控按键,当平台监管人员手动选取服务器并点击监控按键时,触发监控指令。监控指令携带服务器的身份标识,进而向该身份标识对应的服务器下发上报指令,也就是当下对该服务器进行监控,无需等到列表中规定的监控时间才监控。应当理解的是,向该身份标识对应的服务器下发上报指令之后,执行步骤S30的操作以判定该服务器的运行状态。当接收到服务器监控指令为自动监控指令时,则执行步骤S10的操作,进而无需工作人员手动操作,即可对关联的服务器自动进行监控。
步骤S20,基于关联的服务器及其身份标识、监控时间和/或监控周期,向服务器下发上报指令;
本实施例中,根据关联的服务器及其身份标识、监控时间和/或监控周期,即可确定每台服务器的监控规则,进而向服务器下发上报指令以监控接口调用关联列表中关联的所有服务器的运行状态。进一步地,为更好理解本实施例,以接口调用关联列表举例如下表1:
服务器 身份标识 监控时间 监控周期
1 MAC地址a 时间点0:00;12:00
2 MAC地址b 时间段05:00~0:00 每一小时
3 MAC地址c 起始时间9:15 每半小时
4 MAC地址d 时间点11:45 一周三次(周一周三周五)
表1
由表1可知,关联的服务器数量共4台,每台的监控规则不同。也就是,监控管理平台在每天0:00和12:00这两个时间点向服务器1下发上报指令;在每天05:00~0:00这个时间段每一小时向服务器2下发上报指令;每天9:15开始每半小时向服务器3下发上报指令;每周的周一周三周五这三天的11:45向服务器4下发上报指令,进而对关联的4台服务器的运行状态进行监控。
应当理解的是,在实际使用中,关联的服务器数量甚至更多,成千上万台,为免同时下发指令或同时接收反馈信息,造成网络拥堵,以及同时进行运算耗费资源大,导致耗费时间长,具有一定的时延性等问题,可以将服务器进行划分,错开监控时间,进一步地,可以将实时性强的归类为一批,实时性弱的归类为一批,分批下发指令进行监控,具体服务器的监控时间根据实际情况进行设置。
步骤S30,监测预设时间间隔内是否接收到服务器基于上报指令上报的心跳信息,以判定服务器的运行状态。
本实施例中,心跳信息是服务器在接收到监控管理平台发送的上报指令后,根据上报指令指示将本机的心跳信息反馈给监控管理平台。心跳信息优选包括本机身份标识和运行状态信息,运行状态信息是表明服务器自身运行状态的信息,包括工作时间、运行时长、CPU使用率、当前进程CPU使用率、当前进程内存使用率、磁盘使用率等内容。
本实施例中,服务器的运行状态有两种,一种是正常另一种是异常。服务器在正常运行的情况下,服务器在接收到上报指令时,响应上报指令,即将心跳信息上报至监控管理平台。而服务器运行异常,诸如断电、温度过高、超负荷等造成无法运转,就会出现死机、关机的情况,进而无法响应上报指令,致使监控管理平台未能接收到反馈信息,也就是服务器运行异常而无法响应上报指令。应当理解的是,从下发上报指令到接收到反馈的心跳信息必然存在时间间隔,这个时间间隔根据当前网络情况以及服务器本身响应情况变化而变动,可能间隔不到1秒,也可能长达1分钟,因而以预设时间间隔内是否接收到反馈信息判定服务器的运行状态。
本实施例中,首先通过调用本地数据库中存储的接口调用关联列表,得到关联的服务器及其身份标识、监控规则,其中,监控规则至少包括监控时间和/或监控周期,然后基于关联的服务器及其身份标识、监控时间和/或监控周期,向服务器下发上报指令,最后监测预设时间间隔内是否接收到服务器基于上报指令上报的心跳信息,以判定服务器的运行状态是正常还是异常,从而能够对集群系统内多个服务器的运行状态进行可配置化定时监控,进而持续稳定地监控关联的所有服务器,并节约系统资源,进而节省人力成本和监管成本。
参照图3,图3为图2步骤S30一实施例的细化流程示意图。
基于上述实施例,本实施例中,步骤S30,监测预设时间间隔内是否接收到服务器基于上报指令上报的心跳信息,以判定服务器的运行状态,包括:
步骤S31,监测预设时间间隔内是否接收到服务器基于上报指令上报的心跳信息;
步骤S32,若在预设时间间隔内接收到服务器上报的心跳信息,则判定服务器的运行状态为运行正常;
步骤S33,若在预设时间间隔内未接收到服务器上报的心跳信息,则判定服务器的运行状态为运行异常。
本实施例中,由于下发上报指令到接收到反馈的心跳信息存在时间间隔,这个时间间隔根据当前网络情况以及服务器本身响应情况变化而变动,因而预先设置时间间隔的阈值,如1分钟、3分钟、10分钟不等,以此来判定服务器的运行状态,进而若超时即可自动判定监控结果,无需过多等待,进而第一时间发现异常的服务器。同时可以理解的是,不同服务器可以对应相同或不同的时间间隔,具体根据实际需要进行设置。当监控管理平台在预设时间内接收到反馈信息即可确定其运行正常,若未在预设时间内接收到反馈信息则确定其运行异常。服务器运行异常,也就是宕机。
例如,对于实时性强的服务器a,向服务器a下发上报指令后,在30秒内接收到服务器a上报的心跳信息,确定服务器a运行状态正常;或在30秒内未接收到服务器a上报的心跳信息,确定服务器a运行状态异常。对于实时性弱的服务器b,向服务器b下发上报指令后,在1分钟内接收到服务器b上报的心跳信息,确定服务器b运行状态正常;或在1分钟内未接收到服务器b上报的心跳信息,确定服务器b运行状态异常。将未在预设时间内接收到反馈信息的服务器的运行状态判定为异常,进而第一时间发现异常服务器,即可告知维护人员进行维护,具体告知方式在下文实施例中详述。
参照图4,图4为本发明服务器运行状态的监控方法另一实施例的流程示意图。
基于上述实施例,在步骤S30之后,服务器运行状态的监控方法还包括:
步骤S40,当判定服务器的运行状态为运行异常时,根据运行异常的服务器的身份标识,获取该服务器的基本属性,其中,基本属性包括实时性强/中/弱;
步骤S50,若实时性强则确定异常报警等级为高级;若实时性中则确定异常报警等级为中级;若实时性弱则确定异常报警等级为低级;
步骤S60,基于预设告警规则与确定的异常报警等级,输出告警信息。
本实施例中,由于关联的服务器众多,因而根据服务器的身份标识进行区分,区分每一台服务器,进而根据运行状态为异常的服务器对应的身份标识,获取该服务器的基本属性,进而确定异常报警等级。基本属性是表明服务器的实时性强弱。在实际应用中,不同服务器可以对应不同告警操作,比如实时性强的对应告警等级高,实时性一般的对应告警等级中,实时性弱的对应告警等级低。通过预设告警规则与确定的异常报警等级,输出告警信息,从而使维护人员能够第一时间进行维护,减少异常服务器对业务产生的不利影响。
进一步地,步骤S50,基于预设告警规则与确定的异常报警等级,输出告警信息,包括:
1、当确定的异常报警等级为高级时,输出告警信息至告警界面,并获取该服务器的维护人员的联系方式,向维护人员发出告警语音信息;
2、当确定的异常报警等级为中级时,输出告警信息至告警界面,并获取该运行异常服务器的维护人员的联系方式,向维护人员发送告警文本信息;
3、当确定的异常报警等级为低级时,输出告警信息至告警界面。
本实施例中,异常报警等级为高级时,说明当前非常紧急、刻不容缓,服务器运行异常对业务影响相当大,需要监管人员或维护人员第一时间知道这个服务器运行异常的消息,进而处理异常的服务器,因而输出告警信息至告警界面,并获取该服务器的维护人员的联系方式,通过手机拨号向维护人员发出告警语音信息。异常报警等级为中级时,说明当前紧急,输出告警信息至告警界面,并获取该运行异常服务器的维护人员的联系方式,以将告警文本信息以邮件、短信形式发送至维护人员的邮箱和/或手机,进而当监管人员或维护人员看到告警信息时进行相应处理。异常报警等级为低级时,说明当前一般,服务器运行异常对业务影响不大,当然也是要告知监管人员,让监管人员知道并了解情况,因而输出告警信息至告警界面即可。
进一步可选地,在本发明另一实施例中,当判定服务器的运行状态为运行异常时,服务器运行状态的监控方法还包括:
步骤A、再次向运行异常的服务器下发上报指令;
步骤B、若预设时间间隔内接收到该服务器上报的心跳信息,则将该服务器的运行状态修正为运行正常;
步骤C、若预设时间间隔内仍未接收到该服务器上报的心跳信息,则执行基于预设告警规则与确定的异常报警等级,输出告警信息的操作。
本实施例中,考虑到可能存在网络拥堵或信息接收不通畅等情况,可以在达到预设时间间隔上的时间节点再次下发上报指令,也就是第一次判定服务器异常时,再次下发上报指令,若第二次能够在预设时间间隔内接收到反馈信息,则将该服务器从异常状态修正为正常运行状态,避免误判。若第二次仍未能够在预设时间间隔内接收到反馈信息,则执行基于预设告警规则与确定的异常报警等级,输出告警信息的操作,用以第一时间将异常信息告知监管人员或维护人员。
进一步可选的,基于上述实施例,在步骤S30之后,服务器运行状态的监控方法还包括:
步骤d、根据每一次下发的上报指令及其判定的运行状态,得到所有关联服务器的监控数据;
步骤e、对监控数据进行次数统计,以统计得到各服务器的异常次数和监控次数;
步骤f、根据各服务器的异常次数和监控次数,计算得到各服务器的异常频率;
步骤g、在监控界面上显示监控数据和异常频率。
本实施例中,由于关联的服务器多,且每台服务器有其各自的监控时间、频率、次数等要求,同时每一次下发的上报指令,必定存在对应的监控结果,也就是判定服务器的运行状态到底是正常还是异常,得到所有关联服务器的监控数据。监控数据是监控关联的服务器所产生的所有相关数据,包括监控时间、监控结果、具体监控哪台服务器等,进而对监控数据进行统计分析,得到各服务器的异常频率,进而在监控界面上进行显示,以供监控人员能够一目了然了解各个服务器的情况,从而制定有效的规避措施,或升级更新服务器等。此处统计分析的方式包括,分别统计每台服务器总监控次数、总异常监控结果的次数,得到异常频率。监控人员通过本监控管理平台的监控界面,即可实时掌握了解所有监控数据。其中,异常频率的计算公式为异常次数除以监控次数的百分比。
参照图5,图5为本发明服务器监控系统一实施例的功能模块示意图。
本实施例中,服务器监控系统包括监控管理平台10,以及与监控管理平台10关联的多个服务器20。
服务器20用于,在接收到监控管理平台10下发的上报指令时,将本服务器20的心跳信息上报至监控管理平台10。
本实施例中,监控管理平台10采用接口与多个服务器20进行关联以建立通信连接,实现信息交互。任意一台服务器20在接收到监控管理平台10下发的上报指令时,响应上报指令,也就是将本机的心跳信息上报至监控管理平台10,以供告知监控管理平台10本机的运行状态,实现系统内多个服务器的监管。
此外,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有服务器监控程序,所述服务器监控程序被处理器执行时实现如上述中任一项所述的服务器运行状态的监控方法的步骤。
本发明计算机可读存储介质具体实施例与上述服务器运行状态的监控方法的各实施例基本相同,在此不再详细赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个可读存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,这些均属于本发明的保护之内。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.一种服务器运行状态的监控方法,其特征在于,包括:
调用本地数据库中存储的接口调用关联列表,得到关联的服务器及其身份标识、监控规则,其中,所述监控规则至少包括监控时间和/或监控周期;
基于关联的服务器及其身份标识、监控时间和/或监控周期,向服务器下发上报指令;
监测预设时间间隔内是否接收到服务器基于所述上报指令上报的心跳信息,以判定服务器的运行状态;
在所述监测预设时间间隔内是否接收到服务器基于所述上报指令上报的心跳信息,以判定服务器的运行状态之后,所述服务器运行状态的监控方法还包括:
当判定服务器的运行状态为运行异常时,根据运行异常的服务器的身份标识,获取该服务器的基本属性,其中,所述基本属性包括实时性强/中/弱;
若所述实时性强则确定异常报警等级为高级;若所述实时性中则确定异常报警等级为中级;若所述实时性弱则确定异常报警等级为低级;
基于预设告警规则与确定的所述异常报警等级,输出告警信息。
2.如权利要求1所述的服务器运行状态的监控方法,其特征在于,所述监测预设时间间隔内是否接收到服务器基于所述上报指令上报的心跳信息,以判定服务器的运行状态包括:
监测预设时间间隔内是否接收到服务器基于所述上报指令上报的心跳信息;
若在预设时间间隔内接收到服务器上报的心跳信息,则判定服务器的运行状态为运行正常;
若在预设时间间隔内未接收到服务器上报的心跳信息,则判定服务器的运行状态为运行异常。
3.如权利要求1所述的服务器运行状态的监控方法,其特征在于,所述基于预设告警规则与确定的所述异常报警等级,输出告警信息包括:
当确定的所述异常报警等级为高级时,输出告警信息至告警界面,并获取该服务器的维护人员的联系方式,向维护人员发出告警语音信息;
当确定的所述异常报警等级为中级时,输出告警信息至告警界面,并获取该运行异常服务器的维护人员的联系方式,向维护人员发送告警文本信息;
当确定的所述异常报警等级为低级时,输出告警信息至告警界面。
4.如权利要求1所述的服务器运行状态的监控方法,其特征在于,当判定服务器的运行状态为运行异常时,所述服务器运行状态的监控方法还包括:
再次向运行异常的服务器下发上报指令;
若预设时间间隔内接收到该服务器上报的心跳信息,则将该服务器的运行状态修正为运行正常;
若预设时间间隔内仍未接收到该服务器上报的心跳信息,则执行所述基于预设告警规则与确定的所述异常报警等级,输出告警信息的操作。
5.如权利要求1所述的服务器运行状态的监控方法,其特征在于,在所述调用本地数据库中存储的接口调用关联列表,得到关联的服务器及其身份标识、监控规则之前,所述服务器运行状态的监控方法还包括:
监测是否存在服务器监控指令;
当存在所述服务器监控指令时,判断所述服务器监控指令是否携带身份标识;
若所述服务器监控指令携带身份标识,则所述服务器监控指令为手动监控指令,并根据所述服务器监控指令携带的身份标识,向该身份标识对应的服务器下发上报指令以执行相应的判定操作;
若所述服务器监控指令未携带身份标识,则所述服务器监控指令为自动监控指令,并执行所述调用本地数据库中存储的接口调用关联列表,得到关联的服务器及其身份标识、监控规则的操作。
6.如权利要求1所述的服务器运行状态的监控方法,其特征在于,在所述监测预设时间间隔内是否接收到服务器基于所述上报指令上报的心跳信息,以判定服务器的运行状态之后,所述服务器运行状态的监控方法还包括:
根据每一次下发的上报指令及其判定的运行状态,得到所有关联服务器的监控数据;
对所述监控数据进行次数统计,以统计得到各服务器的异常次数和监控次数;
根据各服务器的异常次数和监控次数,计算得到各服务器的异常频率;
在监控界面上显示所述监控数据和所述异常频率。
7.一种监控管理平台,其特征在于,所述监控管理平台包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的服务器监控程序,所述服务器监控程序被所述处理器执行时实现如权利要求1至6中任一项所述的服务器运行状态的监控方法的步骤。
8.一种服务器监控系统,其特征在于,所述服务器监控系统包括如权利要求7所述的监控管理平台,以及与所述监控管理平台关联的多个服务器;
所述服务器用于,在接收到所述监控管理平台下发的上报指令时,将本服务器的心跳信息上报至所述监控管理平台。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有服务器监控程序,所述服务器监控程序被处理器执行时实现如权利要求1至6中任一项所述的服务器运行状态的监控方法的步骤。
CN201811144424.XA 2018-09-28 2018-09-28 服务器运行状态的监控方法、平台、系统及可读存储介质 Active CN109660380B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811144424.XA CN109660380B (zh) 2018-09-28 2018-09-28 服务器运行状态的监控方法、平台、系统及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811144424.XA CN109660380B (zh) 2018-09-28 2018-09-28 服务器运行状态的监控方法、平台、系统及可读存储介质

Publications (2)

Publication Number Publication Date
CN109660380A CN109660380A (zh) 2019-04-19
CN109660380B true CN109660380B (zh) 2022-09-06

Family

ID=66110691

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811144424.XA Active CN109660380B (zh) 2018-09-28 2018-09-28 服务器运行状态的监控方法、平台、系统及可读存储介质

Country Status (1)

Country Link
CN (1) CN109660380B (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109660426B (zh) * 2018-12-14 2021-03-05 泰康保险集团股份有限公司 监控方法及系统、计算机可读介质和电子设备
CN110297739A (zh) * 2019-06-04 2019-10-01 平安科技(深圳)有限公司 基于数据治理平台的数据监控方法及相关设备
CN110502259B (zh) * 2019-07-16 2023-10-10 视联动力信息技术股份有限公司 服务器版本升级方法、视联网系统、电子设备及存储介质
CN110531988B (zh) * 2019-08-06 2023-06-06 新华三大数据技术有限公司 应用程序的状态预测方法及相关装置
CN110688274B (zh) * 2019-08-30 2022-04-12 平安科技(深圳)有限公司 基于Windows Server操作系统的活动目录监控方法及相关设备
CN110620701B (zh) * 2019-09-12 2024-03-08 北京百度网讯科技有限公司 数据流监控处理方法、装置、设备及存储介质
CN110769268A (zh) * 2019-11-07 2020-02-07 网易(杭州)网络有限公司 数据流监测方法及装置
CN111127255B (zh) * 2019-11-22 2024-02-27 青岛海信智慧生活科技有限公司 一种智慧酒店管理系统
CN112860504A (zh) * 2019-11-26 2021-05-28 北京京东尚科信息技术有限公司 监控方法及装置、计算机存储介质、电子设备
CN111209167B (zh) * 2020-01-10 2023-09-15 深圳震有科技股份有限公司 一种任务状态的展现方法、存储介质、显示终端
CN111400149A (zh) * 2020-01-19 2020-07-10 上海趣蕴网络科技有限公司 一种应用性能数据监控系统、客户端及方法
CN111367981B (zh) * 2020-03-06 2023-08-22 北京思特奇信息技术股份有限公司 自动化监控稽核报表数据抽取的方法、系统、介质及设备
CN111444063A (zh) * 2020-04-15 2020-07-24 北京易点淘网络技术有限公司 服务器的预警方法、装置、存储介质及电子设备
CN111614501A (zh) * 2020-05-25 2020-09-01 厦门二五八网络科技集团股份有限公司 一种监控方法及系统
CN113765687B (zh) * 2020-06-05 2023-08-01 网联清算有限公司 服务器的故障报警方法、装置、设备及存储介质
CN111832943B (zh) * 2020-07-14 2023-11-28 北京思特奇信息技术股份有限公司 硬件设备故障管理方法、装置、电子设备及存储介质
CN112232835A (zh) * 2020-10-16 2021-01-15 北京明略昭辉科技有限公司 用于电商平台产品监测的方法、服务器和终端设备
CN112286762A (zh) * 2020-10-30 2021-01-29 深圳壹账通智能科技有限公司 基于云环境的系统信息分析方法、装置、电子设备及介质
CN115080337A (zh) * 2021-03-16 2022-09-20 网联清算有限公司 数据监控方法、装置、系统、服务器及可读存储介质
CN113032223B (zh) * 2021-04-20 2023-04-11 上海哔哩哔哩科技有限公司 服务器状态检测方法及装置
CN113381881B (zh) * 2021-05-25 2022-12-09 山东浪潮爱购云链信息科技有限公司 一种主机监控告警处理的方法、装置
CN113760409A (zh) * 2021-09-09 2021-12-07 广州市百果园网络科技有限公司 服务实例管理方法、装置、设备及存储介质
CN114328139A (zh) * 2021-12-17 2022-04-12 江苏银承网络科技股份有限公司 大厅接口的监控方法、装置、存储介质及服务器
CN114500228B (zh) * 2021-12-29 2024-03-29 深圳市共进电子股份有限公司 自动化测试方法和自动测试系统
CN114513437B (zh) * 2022-01-20 2023-05-16 杭州朗和科技有限公司 一种网络测试方法、装置、介质及计算设备
CN114827038B (zh) * 2022-06-24 2022-09-27 深圳市麦希通讯技术有限公司 数据上报方法、装置、设备及存储介质
CN115190045B (zh) * 2022-07-06 2024-04-09 南京云柜网络科技有限公司 快递柜系统服务的监控方法、装置、电子设备及存储介质
CN115225534A (zh) * 2022-07-26 2022-10-21 雷沃工程机械集团有限公司 一种监控服务器的运行状态监控方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102111310A (zh) * 2010-12-31 2011-06-29 网宿科技股份有限公司 Cdn设备状态监控方法和系统
US8676958B1 (en) * 2006-02-10 2014-03-18 Open Invention Network, Llc System and method for monitoring the status of multiple servers on a network
CN107995049A (zh) * 2017-12-25 2018-05-04 广州供电局有限公司 电力安全区跨区同步故障监测方法、装置和系统
CN108416987A (zh) * 2018-04-20 2018-08-17 华科物联有限公司 九小场所智慧消防物联网系统
CN108449207A (zh) * 2018-03-16 2018-08-24 北京邦邦共赢网络科技有限公司 一种监控服务器运行状态的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8676958B1 (en) * 2006-02-10 2014-03-18 Open Invention Network, Llc System and method for monitoring the status of multiple servers on a network
CN102111310A (zh) * 2010-12-31 2011-06-29 网宿科技股份有限公司 Cdn设备状态监控方法和系统
CN107995049A (zh) * 2017-12-25 2018-05-04 广州供电局有限公司 电力安全区跨区同步故障监测方法、装置和系统
CN108449207A (zh) * 2018-03-16 2018-08-24 北京邦邦共赢网络科技有限公司 一种监控服务器运行状态的方法和装置
CN108416987A (zh) * 2018-04-20 2018-08-17 华科物联有限公司 九小场所智慧消防物联网系统

Also Published As

Publication number Publication date
CN109660380A (zh) 2019-04-19

Similar Documents

Publication Publication Date Title
CN109660380B (zh) 服务器运行状态的监控方法、平台、系统及可读存储介质
CN106452901B (zh) 一种基于运维管理的智能工单的自定义派发方法
CN109669835B (zh) MySQL数据库监控方法、装置、设备及可读存储介质
TW201507403A (zh) 網站的監控方法、業務處理裝置及系統
CN104699759A (zh) 一种数据库自动化运行维护方法
CN107169700B (zh) 一种家电故障统计方法及装置
CN107947998B (zh) 一种基于应用系统的实时监测系统
US7933211B2 (en) Method and system for providing prioritized failure announcements
CN112631913A (zh) 应用程序的运行故障监控方法、装置、设备和存储介质
CN103440190A (zh) 设备故障报警方法,装置与cim系统
CN107800557B (zh) 一种告警监控方法及装置
CN111130867B (zh) 一种基于物联网的智能家居设备告警方法及装置
CN111339062A (zh) 数据监控方法、装置、电子设备及存储介质
CN114240053A (zh) 充电站自动故障上报系统及方法
CN106506199A (zh) 系统线上接口的自动监控方法及装置
EP1622310A2 (en) Administration system for network management systems
CN106970696B (zh) 一种电子设备管理方法及电子设备
CN113037549A (zh) 一种运维环境告警方法
CN111475495A (zh) 基于大数据的质量分析方法、系统及存储介质
CN111488997A (zh) 自动运维方法、装置、设备及存储介质
CN111262731A (zh) 告警方法、装置、服务器设备及存储介质
CN109120439B (zh) 分布式集群告警输出方法、装置、设备及可读存储介质
CN112711517A (zh) 一种服务器性能监控方法、装置、存储介质及终端
CN107872349B (zh) 实时快照统计方法、装置及可读存储介质
CN105607983A (zh) 数据异常监控方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant