CN108092836A - 一种服务器的监控方法及装置 - Google Patents

一种服务器的监控方法及装置 Download PDF

Info

Publication number
CN108092836A
CN108092836A CN201611040525.3A CN201611040525A CN108092836A CN 108092836 A CN108092836 A CN 108092836A CN 201611040525 A CN201611040525 A CN 201611040525A CN 108092836 A CN108092836 A CN 108092836A
Authority
CN
China
Prior art keywords
server
fault
module
monitoring data
fault message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611040525.3A
Other languages
English (en)
Inventor
沈亚棋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei Gaozhan Science and Technology Co., Ltd.
Original Assignee
Shenzhen Lanxi Land Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Lanxi Land Technology Co Ltd filed Critical Shenzhen Lanxi Land Technology Co Ltd
Priority to CN201611040525.3A priority Critical patent/CN108092836A/zh
Publication of CN108092836A publication Critical patent/CN108092836A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
    • H04L41/0609Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time based on severity or priority
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
    • H04L41/0622Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time based on time
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种服务器的监控方法及装置,其监控方法包括:获取服务器预设的监测数据;对监测数据进行分析,基于分析结果判断服务器是否处于故障状态;若服务器处于故障状态,则基于监测数据生成故障信息;将故障信息发送至与故障信息对应的智能终端。本发明实施例在服务器进入故障状态后,智能终端的用户能及时得知服务器的故障信息,以便于后续故障的及时处理,且不需要用户定期查看服务器的运行状态,节省了人力成本。

Description

一种服务器的监控方法及装置
技术领域
本发明涉及通信领域,具体涉及一种服务器的监控方法及装置。
背景技术
随着互联网时代的发展,企业的业务越来越复杂,用户的需求多样化,服务器大幅增加,面对上千甚至更多的服务器,对于服务器的性能、业务状态等方面的实时把握,异常的及时处理等是个不小的挑战。
目前很多企业有搭建服务器监控系统,监控系统实时监控服务器的运行状态,但是这需要运维监控人员定时查看监控系统提供的监控数据,从而判断服务器是否异常,这样不仅效率低下,加大运维成本,同时也会导致服务器的故障无法及时排除,甚至被忽略。
发明内容
本发明要解决的技术问题在于,针对现有技术的缺陷,提供一种服务器的监控方法及装置,可以在故障发生时及时提醒运维人员,提高效率。
本发明解决其技术问题所采用的技术方案是:
一种服务器的监控方法,包括:
获取所述服务器预设的监测数据;
对所述监测数据进行分析,基于分析结果判断所述服务器是否处于故障状态;
若所述服务器处于故障状态,则基于所述监测数据生成故障信息;
将所述故障信息发送至与所述故障信息对应的智能终端。
一种服务器的监控装置,包括:
监测数据获取模块,用于获取所述服务器预设的监测数据;
分析判断模块,用于对所述监测数据进行分析,基于分析结果判断所述服务器是否处于故障状态;
故障信息生成模块,用于若所述服务器处于故障状态,则基于所述监测数据生成故障信息;
第一故障信息发送模块,用于将所述故障信息发送至与所述故障信息对应的智能终端。
一种服务器,包括如上述任一项所述的服务器的监控装置。
本发明与现有技术相比具有如下优点:
本发明实施例通过对服务器预设的监测数据进行分析,判断其是否处于故障状态,在服务器处于故障状态时,将服务器的故障信息发送给对应的智能终端,从而使得在服务器进入故障状态后,智能终端的用户能及时得知服务器的故障信息,以便于后续故障的及时处理,且不需要用户定期查看服务器的运行状态,节省了人力成本。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明的服务器的监控方法的第一实施例的流程示意图;
图2是本发明的服务器的监控方法的第二实施例的流程示意图;
图3是本发明的服务器的监控方法的第三实施例的流程示意图;
图4是本发明的服务器的监控方法的第四实施例的流程示意图;
图5是本发明的服务器的监控方法的第五实施例的流程示意图;
图6是本发明的服务器的监控装置的第一实施例的结构示意图;
图7是本发明的服务器的监控装置的第二实施例的结构示意图;
图8是本发明的服务器的监控装置的第三实施例的结构示意图;
图9是本发明的服务器的监控装置的第四实施例的结构示意图;
图10是本发明的服务器的监控装置的第五实施例的结构示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
请参照图1,是本发明的服务器的监控方法的第一实施例的流程示意图。服务器的监控方法包括以下步骤:
步骤S101,获取对服务器预设的监测数据。监测数据可以基于Zabbix系统来获取。zabbix是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。zabbix能监视各种网络参数,保证服务器系统的安全运营;并提供灵活的通知机制以让系统管理员快速定位/解决存在的各种问题。现有技术中,zabbix系统只能监视各种网络参数,而本发明实施例对zabbix系统的监控参数做了重新定义,其监控参数主要是监控服务器性能数据和/或业务数据。
具体来讲,监测数据包括服务器性能监控数据和/或业务监控数据。其中,服务器性能监控数据包括但不限于:CPU的负载、利用率、温度,内存的可用空间、使用率,swap空间使用率,磁盘的空间剩余、磁盘I/O读写情况,网络的连通性,网卡的数据流量情况,网络连接数,系统进程数等。业务监控数据包括但不限于:服务的端口存在性、服务的进程存在性、访问响应时间、登陆响应时间、关键页面的状态、数据库的连同存活、数据库的索引使用率、表锁状态、数据库cache命中情况等。
步骤S102,对监测数据进行分析,基于分析结果判断服务器是否处于故障状态。具体来讲,若对监测数据进行分析,得到分析结果如CPU过载、磁盘空间不足、数据库查询时间过长、访问人数过多等此类的问题,即可判定服务器进入了故障状态。
步骤S103,若服务器处于故障状态,则基于监测数据生成故障信息。故障信息的格式和内容可以由用户根据需要自行设置。以监测的CPU的温度数据为例,当CPU的温度数据超过预设温度时,可以将CPU的最高温度、平均温度,以及超出预设温度的持续时间作为故障信息。
步骤S104,将故障信息发送至与故障信息对应的智能终端。智能终端可以是手机、也可以是电脑。值得注意的是,步骤S104可以通过邮件、短信和/或微信的形式将故障信息发送给对应的智能终端。
本发明的实施例通过对服务器预设的监测数据进行分析,判断其是否处于故障状态,在服务器处于故障状态时,将服务器的故障信息发送给对应的智能终端,从而使得在服务器进入故障状态后,智能终端的用户能及时得知服务器的故障信息,以便于后续故障的及时处理,且不需要用户定期查看服务器的运行状态,节省了人力成本。
请参照图2,是本发明的服务器的监控方法的第二实施例的流程示意图。本发明实施例在检测到故障等级较高(故障严重和/或故障持续一定时间)时,会自动告警升级,向更高级别的智能终端发送故障信息。该方法具体包括以下步骤:
步骤S201,获取对服务器预设的监测数据。其中,监测数据包括服务器性能监控数据和/或业务监控数据。服务器性能监控数据及业务监控数据已在上文中作了详细的介绍,故在此不作赘述。
步骤S202,对监测数据进行分析,基于分析结果判断服务器是否处于故障状态。
步骤S203,若服务器处于故障状态,则基于监测数据生成故障信息。
步骤S204,将故障信息发送至与故障信息对应的智能终端。
步骤S205,获取服务器的故障持续时间。
步骤S206,基于故障持续时间和监测数据进行分析,确定服务器的故障等级。一般来讲,故障持续时间与故障等级成正比关系,故障持续时间越长,故障等级越高。此外,监测数据的异常情况也决定了故障等级,例如服务器停止运行持续1小时、服务器关键部件故障2小时、服务器可用内存小于100M持续1小时、核心服务(应用)中断1小时、核心服务器(应用)异常2小时等,上述情况下,故障等级较高。值得注意的是,以上只为举例,同一监测数据的故障等级的高低可以由用户根据情况自定义。
步骤S207,若故障等级超过预设等级,则将故障信息发送至与故障等级相匹配的智能终端。
若故障等级低于预设等级,则重复执行步骤S205,直至故障清除。该步骤会在本发明的方法的第三实施例做详细介绍。
作为一种实施方式,与故障等级相匹配的智能终端包括与故障信息对应的智能终端和高级智能终端。通常来讲,与故障信息对应的智能终端是低级智能终端,其用户通常为低级运维人员。而高级智能终端的用户则是高级运维人员。高级运维人员可以是低级运维人员的上级。也就是说,本发明实施例在初次得知服务器故障时,会对低级智能终端进行告警,并在此之后检测故障等级,以及确定故障等级超出预设等级时,不仅会对低级智能终端进行再次告警,还会对高级智能终端进行告警,以便引起运维人员及其上级的重视。
作为另一种实施方式,与故障等级相匹配的智能终端也可以仅包括高级智能终端。也就是说,本发明实施例在再次检测到服务器处于故障状态,且故障等级超出预设等级时,只会对高级智能终端进行告警。
此外,本发明实施例在将故障信息发送至与故障等级相匹配的智能终端后,还会再次检测服务器是否处于故障状态,在确定服务器处于故障状态后,获取当前的故障持续时间,并基于当前的故障持续时间和监测数据,得到当前的故障等级,同时判断当前故障等级是否大于N+1(假设步骤S207的预设等级为N),若判断结果为是,则将故障信息发送至与当前故障等级相匹配的智能终端,并重复执行上述步骤,直至当前的故障等级达到预设的最高故障等级。也就是说,在服务器一直处于故障状态的情况下,本发明的实施例会基于故障持续时间和监测数据实时更新故障等级,随着故障等级的上升,接收故障信息的智能终端的等级也随之上升,从而实现故障信息的层层上报。
本发明实施例在服务器故障时,会对低级智能终端进行告警,并在此之后检测故障等级,在确定故障等级超出预设等级后,还会对更高级别的智能终端进行告警,可以让运维人员及公司管理人员能够及时的了解到服务器及业务的异常,从而保证服务器故障能够及时处理,使服务器及业务能够正常运行。
请参照图3,是本发明的服务器的监控方法的第三实施例的流程示意图。本实施例侧重于对故障等级进行实时监测,该方法具体包括以下步骤:
步骤S301,获取对服务器预设的监测数据。其中,监测数据包括服务器性能监控数据和/或业务监控数据。服务器性能监控数据及业务监控数据已在上文中作了详细的介绍,故在此不作赘述。
步骤S302,对监测数据进行分析,基于分析结果判断服务器是否处于故障状态。
步骤S303,若服务器处于故障状态,则基于监测数据生成故障信息。
步骤S304,将故障信息发送至与故障信息对应的智能终端。
步骤S305,检测服务器是否处于故障状态,若检测结果为是,则执行步骤S306,若检测结果为否,则不作任何处理。
步骤S306,获取服务器的故障持续时间。
步骤S307,基于故障持续时间和监测数据进行分析,确定服务器的故障等级。一般来讲,故障持续时间与故障等级成正比关系,故障持续时间越长,故障等级越高。此外,监测数据的异常情况也决定了故障等级。
步骤S308,判断故障等级是否超过预设等级,若判断结果为是,则执行步骤S309,若判断结果为否,则执行步骤S305。
步骤S309,将故障信息发送至与故障等级相匹配的智能终端。
本发明的实施例在故障等级低于预设等级时,还会对故障等级进行实时监测,直至故障清除,在监测过程中,一旦有故障等级超出预设等级,则将故障信息发送至与故障等级相匹配的智能终端,这样,对于较低级别的故障来言,可以避免其由于级别过低而被运维人员忽视。
请参照图4,是本发明的服务器的监控方法的第四实施例的流程示意图。本实施例侧重于对故障的自动化运维,该方法具体包括以下步骤:
步骤S401,获取对服务器预设的监测数据。其中,监测数据包括服务器性能监控数据和/或业务监控数据。服务器性能监控数据及业务监控数据已在上文中作了详细的介绍,故在此不作赘述。
步骤S402,对监测数据进行分析,基于分析结果判断服务器是否处于故障状态。
步骤S403,若服务器处于故障状态,则基于监测数据生成故障信息。
步骤S404,将故障信息发送至与故障信息对应的智能终端。
步骤S405,若服务器处于故障状态,基于监测数据,确定故障类别。
步骤S406,在预设故障类别信息库中,查询与故障类别对应的故障处理命令。具体地,故障处理命令包括但不限于:重启应用(Apache、nginx、redis等);通过IPMI(Intelligent Platform Management Interface,智能型平台管理接口)重启服务器;自动释放磁盘空间(例如删除老文件,清除/tmp目录等);CPU过载时将一个虚拟机迁移到另外一台物理服务器;以及在云环境下,一台服务器CPU、硬盘、内存等硬件资源不足的情况下,自动添加资源等。
步骤S407,执行故障处理命令。
值得注意的是,步骤S405和步骤S403之间不存在先后顺序,其前后顺序可以置换。
本发明的实施例在服务器处于故障状态后,确定其故障类别,并在预设故障类别信息库中,查询与故障类别对应故障处理命令,执行该故障处理命令,这样,就不需要运费人员手动处理故障,从而实现了自动化运维,降低了运维成本,提升了运维效率。
请参照图5,是本发明的服务器的监控方法的第五实施例的流程示意图。本实施例,该方法具体包括以下步骤:
步骤S501,获取对服务器预设的监测数据。其中,监测数据包括服务器性能监控数据和/或业务监控数据。服务器性能监控数据及业务监控数据已在上文中作了详细的介绍,故在此不作赘述。
步骤S502,对监测数据进行分析,基于分析结果判断服务器是否处于故障状态。
步骤S503,若服务器处于故障状态,则基于监测数据生成故障信息。
步骤S504,将故障信息发送至与故障信息对应的智能终端。
步骤S505,基于监测数据,确定故障类别。
步骤S506,在预设故障类别信息库中,查询与故障类别对应故障处理命令。故障处理命令已在上文中做了详细介绍,故在此不作赘述。
步骤S507,执行故障处理命令。
步骤S508,检测服务器是否处于故障状态,若检测结果为否,则执行步骤S509,若检测结果为是,则执行步骤S510。
步骤S509,向智能终端发送故障恢复信息。
步骤S510,获取服务器的故障持续时间。
步骤S511,对故障持续时间和监测数据进行分析,确定服务器的故障等级。
步骤S512,若故障等级超过预设等级,则将故障信息发送至与故障等级相匹配的智能终端。
值得注意的,步骤S503和步骤S505的没有先后顺序,可以同时进行,也可以先后进行,但是步骤S512应在步骤S504之后。在本实施例中,步骤S505的顺序在步骤S503之后。
本发明的实施例在检测到服务器故障后,会对相应的智能终端进行初次告警,并在自动执行运维命令,对故障进行修复,并在故障修复失败后,对故障的等级进行判断,并对与故障等级相匹配的智能终端进行告警。从而使得运维人员及其相应的管理人员能及时的了解到服务器及其业务的异常;同时在检测到故障时,自动对故障进行恢复,从而实现了自动化运维、降低了运维成本,提升了运维效率,保证了服务器和业务的稳定正常运行。
现结合实际案例,以监控tomcat的进程来进行告警和自动远程执行命令来进行说明:
Zabbix服务器端配置:
增加监控项:添加一项名为tomcat_proc的监控项,type为zabbix agent(被动模式);key为proc.num[,root,all,tomcat]
创建触发器:创建一个tomcat is down on{HOST.NAME}的触发器,表达式为{project:proc.num[,root,all,tomcat].last()}=0,严重级别设置为high
配置维护周期(可选):设置一个维护时间,防止在维护时间,也会告警。
修改配置文件,设置zabbix脚本存放
Vim/usr/local/etc/zabbix_server.conf
AlertScriptsPath=/zabbix_scripts
配置邮箱及邮件发送脚本
安装邮件发送命令:yum install mailx
配置发送邮箱信息:vim/etc/mail.rc
set from=user@lxland.com
set smtp=smtp.lxland.com
set smtp-auth-user=user@lxland.com
set smtp-auth-password=password
set smtp-auth=login
配置邮件发送脚本:
Vim/zabbix_scripts/zabbix_mail.sh
#!/bin/bash
to=$1
subject=$2
body=$3
cat<<EOF|/usr/bin/mailx-s"$subject"″$to"
$body
EOF
赋予脚本执行权限:Chomod 755/zabbix_scripts/zabbix_mail.s
配置报警媒介:创建一个mail的媒介;tpye为script,script name填上面的邮件脚本mail.sh。
创建邮件用户:创建几个不同用户如运维人员、DBA、运维经理、总经理;并配置对应的邮箱;接收的故障类型;接收时间,授权的服务器等。
配置告警动作
创建一个动作tomcat;选择恢复时也进行通知。
条件设置为非维护期间and触发器为触发器=monmitor:tomcat is down on111.222.333.444
操作部分配置:默认时间60秒;
步骤1,远程执行命令sudo/etc/init.d/tomcat restart
步骤1-5发送邮件给运维
步骤5,发生邮件给运维、DBA
步骤10,发送邮件给运维、DBA、运维经理
步骤30发送邮件给总经理
Zabbix客户端配置(让zabbix用户可以远程执行重启tomcat命令并不需要密码):vim/etc/sudoers
zabbix ALL=NOPASSWD:/etc/init.d/tomcat restart
上述对本发明的服务器的监控方法的实施例作了详细,下文将针对相应于该方法的服务器的监控装置做继续介绍。
请参照图6,是本发明的服务器的监控装置的第一实施例的结构示意图。监控装置100包括监测数据获取模块110、分析判断模块120、故障信息生成模块130和第一故障信息发送模块140。
监测数据获取模块110,用于获取对服务器预设的监测数据。其中,监测数据包括服务器性能监控数据和/或业务监控数据。服务器性能监控数据及业务监控数据已在上文中作了详细的介绍,故在此不作赘述。
分析判断模块120,用于对监测数据进行分析,基于分析结果判断服务器是否处于故障状态。具体来讲,若对监测数据进行分析,得到分析结果如CPU过载、磁盘空间不足、数据库查询时间过长、访问人数过多等此类的问题,即可判定服务器进入了故障状态。
故障信息生成模块130,用于若服务器处于故障状态,则基于监测数据生成故障信息。故障信息的格式和内容可以由用户根据需要自行设置。以监测的CPU的温度数据为例,当CPU的温度数据超过预设温度时,可以将CPU的最高温度、平均温度,以及超出预设温度的持续时间作为故障信息。
第一故障信息发送模块140,用于将故障信息发送至与故障信息对应的智能终端。智能终端可以是手机、也可以是电脑。值得注意的是,第一故障信息发送模块140可以通过邮件、短信和/或微信的形式将故障信息发送给对应的智能终端。
本发明的实施例通过对服务器预设的监测数据进行分析,判断其是否处于故障状态,在服务器处于故障状态时,将服务器的故障信息发送给对应的智能终端,从而使得在服务器进入故障状态后,智能终端的用户能及时得知服务器的故障信息,以便于后续故障的及时处理,且不需要用户定期查看服务器的运行状态,节省了人力成本。
请参照图7,是本发明的服务器的监控装置的第二实施例的结构示意图。监控装置200包括监测数据获取模块210、分析判断模块220、故障信息生成模块230、第一故障信息发送模块240、第一时间获取模块250、第一故障等级确定模块260和第二故障信息发送模块270。
监测数据获取模块210,用于获取对服务器预设的监测数据。其中,监测数据包括服务器性能监控数据和/或业务监控数据。服务器性能监控数据及业务监控数据已在上文中作了详细的介绍,故在此不作赘述。
分析判断模块220,用于对监测数据进行分析,基于分析结果判断服务器是否处于故障状态。分析判断模块220已在上文做了详细介绍,故在此不作赘述。
故障信息生成模块230,用于若服务器处于故障状态,则基于监测数据生成故障信息。障信息生成模块230已在上文做了详细介绍,故在此不作赘述。
第一故障信息发送模块240,用于将故障信息发送至与故障信息对应的智能终端。智能终端可以是手机、也可以是电脑。
第一时间获取模块250,用于在第一故障信息发送模块240将所述故障信息发送至与故障信息对应的智能终端后,获取服务器的故障持续时间。
第一故障等级确定模块260,用于基于故障持续时间和监测数据进行分析,确定服务器的故障等级。
第二故障信息发送模块270,用于若故障等级超过预设等级,则将故障信息发送至与故障等级相匹配的智能终端。
作为一种实施方式,与故障等级相匹配的智能终端包括与故障信息对应的智能终端和高级智能终端。通常来讲,与故障信息对应的智能终端是低级智能终端,其用户通常为低级运维人员。而高级智能终端的用户则是高级运维人员。高级运维人员可以是低级运维人员的上级。也就是说,本发明实施例在初次得知服务器故障时,会对低级智能终端进行告警,并在此之后检测故障等级,以及确定故障等级超出预设等级时,不仅会对低级智能终端进行再次告警,还会对高级智能终端进行告警,以便引起运维人员及其上级的重视。
作为另一种实施方式,与故障等级相匹配的智能终端也可以仅包括高级智能终端。也就是说,本发明实施例在再次检测到服务器处于故障状态,且故障等级超出预设等级时,只会对高级智能终端进行告警。
此外,监控装置200还包括处理模块280,处理模块280用于在第二故障信息发送模块270在将故障信息发送至与故障等级相匹配的智能终端后,还会再次检测服务器是否处于故障状态,在确定服务器处于故障状态后,获取当前的故障持续时间,并基于当前的故障持续时间和监测数据,得到当前的故障等级,同时判断当前故障等级是否大于N+1(假设步骤S207的预设等级为N),若判断结果为是,则将故障信息发送至与当前故障等级相匹配的智能终端,并重复执行上述步骤,直至当前的故障等级达到预设的最高故障等级。也就是说,在服务器一直处于故障状态的情况下,本发明的实施例会基于故障持续时间和监测数据实时更新故障等级,随着故障等级的上升,接收故障信息的智能终端的等级也随之上升,从而实现故障信息的层层上报。
本发明实施例在服务器故障时,会对低级智能终端进行告警,并在此之后检测故障等级,在确定故障等级超出预设等级后,还会对更高级别的智能终端进行告警,以使运维人员及公司管理人员能够及时的了解到服务器及业务的异常,从而保证服务器故障能够及时处理,使服务器及业务能够正常运行。
请参照图8,是本发明的服务器的监控装置的第三实施例的结构示意图。监控装置300包括监测数据获取模块310、分析判断模块320、故障信息生成模块230、第一故障信息发送模块340、故障类别确定模块350、查询模块360和命令执行模块370。
监测数据获取模块310,用于获取对服务器预设的监测数据。其中,监测数据包括服务器性能监控数据和/或业务监控数据。服务器性能监控数据及业务监控数据已在上文中作了详细的介绍,故在此不作赘述。
分析判断模块320,用于对监测数据进行分析,基于分析结果判断服务器是否处于故障状态。分析判断模块320已在上文做了详细介绍,故在此不作赘述。
故障信息生成模块330,用于若服务器处于故障状态,则基于监测数据生成故障信息。故障信息生成模块330已在上文做了详细介绍,故在此不作赘述。
第一故障信息发送模块340,用于将故障信息发送至与故障信息对应的智能终端。智能终端可以是手机、也可以是电脑。
故障类别确定模块350,与分析判断模块320连接,用于在分析判断模块320在分析判断模块对监测数据进行分析,基于分析结果判断服务器处于故障状态之后,基于监测数据,确定故障类别。
查询模块360,用于在预设故障类别信息库中,查询与故障类别对应故障处理命令。故障处理命令已在上文中做了详细介绍,故在此不作赘述。
命令执行模块370,用于执行故障处理命令。
本发明的实施例在服务器处于故障状态后,确定其故障类别,并在预设故障类别信息库中,查询与故障类别对应故障处理命令,执行该故障处理命令,这样,就不需要运费人员手动处理故障,从而实现了自动化运维,降低了运维成本,提升了运维效率。
请参照图9,是本发明的服务器的监控装置的第四实施例的结构示意图。监控装置400包括监测数据获取模块410、分析判断模块420、故障信息生成模块430、第一故障信息发送模块440、故障类别确定模块450、查询模块460、命令执行模块470、第一检测模块480和故障恢复信息模块490。
监测数据获取模块410,用于获取对服务器预设的监测数据。其中,监测数据包括服务器性能监控数据和/或业务监控数据。服务器性能监控数据及业务监控数据已在上文中作了详细的介绍,故在此不作赘述。
分析判断模块420,用于对监测数据进行分析,基于分析结果判断服务器是否处于故障状态。
故障信息生成模块430,用于若服务器处于故障状态,则基于监测数据生成故障信息。
第一故障信息发送模块440,用于将故障信息发送至与故障信息对应的智能终端。智能终端可以是手机、也可以是电脑。
故障类别确定模块450,与分析判断模块420连接,用于在分析判断模块420在分析判断模块对监测数据进行分析,基于分析结果判断服务器处于故障状态之后,基于监测数据,确定故障类别。
查询模块460,用于在预设故障类别信息库中,查询与故障类别对应故障处理命令。故障处理命令已在上文中做了详细介绍,故在此不作赘述。
命令执行模块470,用于执行故障处理命令。
第一检测模块480,用于在命令执行模块470执行所述故障处理命令之后,检测服务器是否处于故障状态。
故障恢复信息模块490,用于若检测结果为否,则向智能终端发送故障恢复信息。
本发明的实施例在服务器处于故障状态后,自动执行与当前故障对应故障处理命令,此外,在检测到故障修复后,还向上述智能终端发送故障恢复信息,除了减少了运维成本,提高了效率,还加大了运维人员对服务器的监控力度。
请参照图10,是本发明的服务器的监控装置的第五实施例的结构示意图。监控装置500包括监测数据获取模块510、分析判断模块520、故障信息生成模块530、第一故障信息发送模块540、故障类别确定模块550、查询模块560、命令执行模块570、第二检测模块580、第二时间获取模块590、第二故障等级确定模块591、第三故障信息发送模块592。
监测数据获取模块510,用于获取对服务器预设的监测数据。其中,监测数据包括服务器性能监控数据和/或业务监控数据。服务器性能监控数据及业务监控数据已在上文中作了详细的介绍,故在此不作赘述。
分析判断模块520,用于对监测数据进行分析,基于分析结果判断服务器是否处于故障状态。
故障信息生成模块530,用于若服务器处于故障状态,则基于监测数据生成故障信息。
第一故障信息发送模块540,用于将故障信息发送至与故障信息对应的智能终端。智能终端可以是手机、也可以是电脑。
故障类别确定模块550,与分析判断模块520连接,用于在分析判断模块420在分析判断模块对监测数据进行分析,基于分析结果判断服务器处于故障状态之后,基于监测数据,确定故障类别。
查询模块560,用于在预设故障类别信息库中,查询与故障类别对应故障处理命令。故障处理命令已在上文中做了详细介绍,故在此不作赘述。
命令执行模块570,用于执行故障处理命令。
第二检测模块580,用于在命令执行模块570执行所述故障处理命令之后,以及第一故障信息发送模块540将故障信息发送至与故障信息对应的智能终端的之后,检测服务器是否处于故障状态。
第二时间获取模块590,用于若第二检测模块580的检测结果为是,则获取服务器的故障持续时间。
第二故障等级确定模块591,用于基于故障持续时间和监测数据进行分析,确定服务器的故障等级。
第三故障信息发送模块592,用于若故障等级超过预设等级,则将故障信息发送至与故障等级相匹配的智能终端。
本发明的实施例在检测到服务器故障后,会对相应的智能终端进行初次告警,并在自动执行运维命令,对故障进行修复,并在故障修复失败后,对故障的等级进行判断,并对与故障等级相匹配的智能终端进行告警。从而使得运维人员及其相应的管理人员能及时的了解到服务器及其业务的异常;同时在检测到故障时,自动对故障进行恢复,从而实现了自动化运维、降低了运维成本,提升了运维效率,保证了服务器和业务的稳定正常运行。
此外,本发明实施例还提供了一种服务器,该服务器包括上述服务器的监控装置。
本发明是通过几个具体实施例进行说明的,本领域技术人员应当明白,在不脱离本发明范围的情况下,还可以对本发明进行各种变换和等同替代。另外,针对特定情形或具体情况,可以对本发明做各种修改,而不脱离本发明的范围。因此,本发明不局限于所公开的具体实施例,而应当包括落入本发明权利要求范围内的全部实施方式。

Claims (10)

1.一种服务器的监控方法,其特征在于,包括:
获取对所述服务器预设的监测数据;
对所述监测数据进行分析,基于分析结果判断所述服务器是否处于故障状态;
若所述服务器处于故障状态,则基于所述监测数据生成故障信息;
将所述故障信息发送至与所述故障信息对应的智能终端。
2.如权利要求1所述的服务器的监控方法,其特征在于,所述将所述故障信息发送至与所述故障信息对应的智能终端步骤之后,还包括:
获取所述服务器的故障持续时间;
基于所述故障持续时间和所述监测数据进行分析,确定所述服务器的故障等级;
若所述故障等级超过预设等级,则将所述故障信息发送至与所述故障等级相匹配的智能终端。
3.如权利要求1所述的服务器的监控方法,其特征在于,所述基于分析结果判断所述服务器是否处于故障状态的步骤之后,还包括:
若所述服务器处于故障状态,基于所述监测数据,确定故障类别;
在预设故障类别信息库中,查询与所述故障类别对应的故障处理命令;
执行所述故障处理命令。
4.如权利要求3所述的服务器的监控方法,其特征在于,所述执行所述故障处理命令的步骤之后,还包括:
检测所述服务器是否处于故障状态;
若检测结果为否,则向所述智能终端发送故障恢复信息。
5.如权利要求3所述的服务器的监控方法,其特征在于,在所述执行所述故障处理命令的步骤之后,以及所述将所述故障信息发送至与所述故障信息对应的智能终端的步骤之后,还包括:
检测所述服务器是否处于故障状态;
若检测结果为是,则获取所述服务器的故障持续时间;
对所述故障持续时间和所述监测数据进行分析,确定所述服务器的故障等级;
若所述故障等级超过预设等级,则将所述故障信息发送至与所述故障等级相匹配的智能终端。
6.一种服务器的监控装置,其特征在于,包括:
监测数据获取模块,用于获取所述服务器预设的监测数据;
分析判断模块,用于对所述监测数据进行分析,基于分析结果判断所述服务器是否处于故障状态;
故障信息生成模块,用于若所述服务器处于故障状态,则基于所述监测数据生成故障信息;
第一故障信息发送模块,用于将所述故障信息发送至与所述故障信息对应的智能终端。
7.如权利要求6所述的服务器的监控装置,其特征在于,还包括:
第一时间获取模块,用于在第一故障信息发送模块将所述故障信息发送至与所述故障信息对应的智能终端后,获取所述服务器的故障持续时间;
第一故障等级确定模块,用于基于所述故障持续时间、所述监测数据进行分析,确定所述服务器的故障等级;
第二故障信息发送模块,用于若所述故障等级超过预设等级,则将所述故障信息发送至与所述故障等级相匹配的智能终端。
8.如权利要求6所述的服务器的监控装置,其特征在于,还包括:
故障类别确定模块,用于在分析判断模块对所述监测数据进行分析,基于分析结果判断所述服务器处于故障状态之后,则基于所述监测数据,确定故障类别;
查询模块,用于在预设故障类别信息库中,查询与所述故障类别对应故障处理命令;
命令执行模块,用于执行所述故障处理命令。
9.如权利要求8所述的服务器的监控装置,其特征在于,还包括:
第一检测模块,用于在所述命令执行模块执行所述故障处理命令之后,检测所述服务器是否处于故障状态;
故障恢复信息模块,用于若检测结果为否,则向所述智能终端发送故障恢复信息。
10.如权利要求8所述的服务器的监控装置,其特征在于,还包括:
第二检测模块,用于在所述命令执行模块执行所述故障处理命令之后,以及所述第一故障信息发送模块将所述故障信息发送至与所述故障信息对应的智能终端的之后,检测所述服务器是否处于故障状态;
第二时间获取模块,用于若检测结果为是,则获取所述服务器的故障持续时间;
第二故障等级确定模块,用于基于所述故障持续时间和所述监测数据进行分析,确定所述服务器的故障等级;
第三故障信息发送模块,用于若所述故障等级超过预设等级,则将所述故障信息发送至与所述故障等级相匹配的智能终端。
CN201611040525.3A 2016-11-21 2016-11-21 一种服务器的监控方法及装置 Pending CN108092836A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611040525.3A CN108092836A (zh) 2016-11-21 2016-11-21 一种服务器的监控方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611040525.3A CN108092836A (zh) 2016-11-21 2016-11-21 一种服务器的监控方法及装置

Publications (1)

Publication Number Publication Date
CN108092836A true CN108092836A (zh) 2018-05-29

Family

ID=62170375

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611040525.3A Pending CN108092836A (zh) 2016-11-21 2016-11-21 一种服务器的监控方法及装置

Country Status (1)

Country Link
CN (1) CN108092836A (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108767858A (zh) * 2018-07-03 2018-11-06 国网湖南省电力有限公司 基于gis平台的输电线路外破的应急处理方法及系统
CN108833190A (zh) * 2018-07-27 2018-11-16 郑州云海信息技术有限公司 一种nfs服务故障告警方法、装置和存储介质
CN108959038A (zh) * 2018-07-16 2018-12-07 郑州云海信息技术有限公司 一种分布式应用服务监控的方法及装置
CN108988334A (zh) * 2018-08-03 2018-12-11 广东电网有限责任公司 电网故障等级发布方法
CN109002384A (zh) * 2018-06-29 2018-12-14 郑州云海信息技术有限公司 一种服务器故障的报警方法、装置、设备及存储介质
CN109150626A (zh) * 2018-09-26 2019-01-04 郑州云海信息技术有限公司 Ftp服务监测方法、装置、终端及计算机可读存储介质
CN109347684A (zh) * 2018-11-21 2019-02-15 安徽云融信息技术有限公司 一种网络服务器监测系统
CN109358983A (zh) * 2018-09-04 2019-02-19 深圳市宝德计算机系统有限公司 服务器数据处理方法、装置以及存储介质
CN110048888A (zh) * 2019-04-16 2019-07-23 深圳市致宸信息科技有限公司 一种基于zabbix监控告警的方法、服务器、设备及存储介质
CN110164101A (zh) * 2019-04-09 2019-08-23 烽台科技(北京)有限公司 一种处理报警信息的方法及设备
CN110213125A (zh) * 2019-05-23 2019-09-06 南京维拓科技股份有限公司 一种云环境下基于时序数据的异常检测系统
CN110502407A (zh) * 2019-08-12 2019-11-26 广州小丑鱼信息科技有限公司 一种自动化运维监测方法及系统
CN111010291A (zh) * 2019-11-25 2020-04-14 恩亿科(北京)数据科技有限公司 业务流程异常告警方法、装置、电子设备及存储介质
CN111104237A (zh) * 2018-10-26 2020-05-05 上海宝信软件股份有限公司 可配置的故障自动化处理方法和系统及计算机存储介质
CN111193616A (zh) * 2019-12-13 2020-05-22 广州朗国电子科技有限公司 自动运维方法、装置、系统、存储介质及自动运维服务器
CN112131030A (zh) * 2019-06-09 2020-12-25 霍尼韦尔国际公司 利用智能滤波算法的数字输入边缘检测
CN112395046A (zh) * 2020-07-30 2021-02-23 上海有孚智数云创数字科技有限公司 基于温度预测的虚拟机迁移规划调度方法及其系统与介质
CN112965658A (zh) * 2021-02-04 2021-06-15 许亮 一种磁盘io处理方法及系统
CN113553242A (zh) * 2021-08-16 2021-10-26 中煤科工集团重庆研究院有限公司 基于Zabbix的煤矿联网系统故障处置方法及系统
CN113608825A (zh) * 2021-06-29 2021-11-05 济南浪潮数据技术有限公司 虚拟机高可用迁移控制方法、系统、终端及存储介质
CN113852519A (zh) * 2021-11-26 2021-12-28 北京国电通网络技术有限公司 服务器工作状态监控设备、方法、装置和计算机可读介质
CN114239880A (zh) * 2021-12-13 2022-03-25 华北电力大学 一种风电机组运行状态的监测系统及监测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101651556A (zh) * 2008-08-14 2010-02-17 中芯国际集成电路制造(北京)有限公司 服务器监控系统及监控方法
US20110161513A1 (en) * 2009-12-29 2011-06-30 Clear Channel Management Services, Inc. Media Stream Monitor
CN103167004A (zh) * 2011-12-15 2013-06-19 中国移动通信集团上海有限公司 云平台主机系统故障修复方法及云平台前端控制服务器
CN103163841A (zh) * 2011-12-12 2013-06-19 苏州艾隆科技有限公司 自动化设备远程监控系统及方法
CN105159813A (zh) * 2015-08-05 2015-12-16 北京百度网讯科技有限公司 基于数据中心的故障报警方法、装置、管理设备及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101651556A (zh) * 2008-08-14 2010-02-17 中芯国际集成电路制造(北京)有限公司 服务器监控系统及监控方法
US20110161513A1 (en) * 2009-12-29 2011-06-30 Clear Channel Management Services, Inc. Media Stream Monitor
CN103163841A (zh) * 2011-12-12 2013-06-19 苏州艾隆科技有限公司 自动化设备远程监控系统及方法
CN103167004A (zh) * 2011-12-15 2013-06-19 中国移动通信集团上海有限公司 云平台主机系统故障修复方法及云平台前端控制服务器
CN105159813A (zh) * 2015-08-05 2015-12-16 北京百度网讯科技有限公司 基于数据中心的故障报警方法、装置、管理设备及系统

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109002384A (zh) * 2018-06-29 2018-12-14 郑州云海信息技术有限公司 一种服务器故障的报警方法、装置、设备及存储介质
CN108767858A (zh) * 2018-07-03 2018-11-06 国网湖南省电力有限公司 基于gis平台的输电线路外破的应急处理方法及系统
CN108767858B (zh) * 2018-07-03 2022-04-22 国网湖南省电力有限公司 基于gis平台的输电线路外破的应急处理方法及系统
CN108959038A (zh) * 2018-07-16 2018-12-07 郑州云海信息技术有限公司 一种分布式应用服务监控的方法及装置
CN108833190A (zh) * 2018-07-27 2018-11-16 郑州云海信息技术有限公司 一种nfs服务故障告警方法、装置和存储介质
CN108988334A (zh) * 2018-08-03 2018-12-11 广东电网有限责任公司 电网故障等级发布方法
CN109358983A (zh) * 2018-09-04 2019-02-19 深圳市宝德计算机系统有限公司 服务器数据处理方法、装置以及存储介质
CN109150626A (zh) * 2018-09-26 2019-01-04 郑州云海信息技术有限公司 Ftp服务监测方法、装置、终端及计算机可读存储介质
CN111104237A (zh) * 2018-10-26 2020-05-05 上海宝信软件股份有限公司 可配置的故障自动化处理方法和系统及计算机存储介质
CN109347684A (zh) * 2018-11-21 2019-02-15 安徽云融信息技术有限公司 一种网络服务器监测系统
CN110164101A (zh) * 2019-04-09 2019-08-23 烽台科技(北京)有限公司 一种处理报警信息的方法及设备
CN110048888A (zh) * 2019-04-16 2019-07-23 深圳市致宸信息科技有限公司 一种基于zabbix监控告警的方法、服务器、设备及存储介质
CN110213125A (zh) * 2019-05-23 2019-09-06 南京维拓科技股份有限公司 一种云环境下基于时序数据的异常检测系统
CN112131030A (zh) * 2019-06-09 2020-12-25 霍尼韦尔国际公司 利用智能滤波算法的数字输入边缘检测
CN110502407A (zh) * 2019-08-12 2019-11-26 广州小丑鱼信息科技有限公司 一种自动化运维监测方法及系统
CN111010291A (zh) * 2019-11-25 2020-04-14 恩亿科(北京)数据科技有限公司 业务流程异常告警方法、装置、电子设备及存储介质
CN111010291B (zh) * 2019-11-25 2022-08-09 恩亿科(北京)数据科技有限公司 业务流程异常告警方法、装置、电子设备及存储介质
CN111193616A (zh) * 2019-12-13 2020-05-22 广州朗国电子科技有限公司 自动运维方法、装置、系统、存储介质及自动运维服务器
CN112395046A (zh) * 2020-07-30 2021-02-23 上海有孚智数云创数字科技有限公司 基于温度预测的虚拟机迁移规划调度方法及其系统与介质
CN112965658A (zh) * 2021-02-04 2021-06-15 许亮 一种磁盘io处理方法及系统
CN113608825A (zh) * 2021-06-29 2021-11-05 济南浪潮数据技术有限公司 虚拟机高可用迁移控制方法、系统、终端及存储介质
CN113553242A (zh) * 2021-08-16 2021-10-26 中煤科工集团重庆研究院有限公司 基于Zabbix的煤矿联网系统故障处置方法及系统
CN113852519A (zh) * 2021-11-26 2021-12-28 北京国电通网络技术有限公司 服务器工作状态监控设备、方法、装置和计算机可读介质
CN114239880A (zh) * 2021-12-13 2022-03-25 华北电力大学 一种风电机组运行状态的监测系统及监测方法

Similar Documents

Publication Publication Date Title
CN108092836A (zh) 一种服务器的监控方法及装置
CN109586952B (zh) 服务器扩容方法、装置
CN108763038B (zh) 告警数据的管理方法、装置、计算机设备及存储介质
CN110166462B (zh) 访问控制方法、系统、电子设备及计算机存储介质
CN104022902A (zh) 一种监控服务器集群的方法和系统
CN105159964A (zh) 一种日志监控方法及系统
CN109460343A (zh) 基于日志的系统异常监控方法、装置、设备及存储介质
CN107947998B (zh) 一种基于应用系统的实时监测系统
CN109254922B (zh) 一种服务器BMC Redfish功能的自动化测试方法及装置
CN107707415B (zh) 一种基于SaltStack的服务器配置自动监控与告警方法
CN112380089A (zh) 一种数据中心监控预警方法及系统
CN111510339B (zh) 一种工业互联网数据监测方法和装置
CN114358106A (zh) 系统异常检测方法、装置、计算机程序产品及电子设备
CN106452941A (zh) 网络异常的检测方法及装置
CN103227662A (zh) 一种基于状态控制的电力通信设备安全检测方法及系统
CN113965497B (zh) 服务器异常识别方法、装置、计算机设备及可读存储介质
CN108039971A (zh) 一种告警方法及装置
CN114860525A (zh) 一种硬盘故障检测方法、装置、设备及存储介质
CN117596119A (zh) 一种基于snmp协议的设备数据采集与监控方法及系统
CN110647086B (zh) 一种基于运行大数据分析的智能运维监控系统
CN106445789A (zh) 一种监控可视化方法及系统
CN108122036B (zh) 一种变电站带电运检辅助分析方法
CN115686756A (zh) 虚拟机迁移方法、装置、存储介质以及电子设备
CN111176950A (zh) 一种监控服务器集群的网卡的方法和设备
CN110069382A (zh) 软件监控方法、服务器、终端设备、计算机设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20190122

Address after: 437300 New Space of Zhonghuo Guanggu Industrial Park, Chibi City, Xianning City, Hubei Province

Applicant after: Hubei Gaozhan Science and Technology Co., Ltd.

Address before: 518000 Longcheng Street Longfuju 5, Longgang District, Shenzhen City, Guangdong Province, 201-203, 2nd floor, Block A, Rongchao Yinglong Building

Applicant before: SHENZHEN LANXI LAND TECHNOLOGY CO., LTD.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20180529

RJ01 Rejection of invention patent application after publication