CN109309575A - 一种确定监控系统健康度的方法和装置 - Google Patents

一种确定监控系统健康度的方法和装置 Download PDF

Info

Publication number
CN109309575A
CN109309575A CN201710616223.4A CN201710616223A CN109309575A CN 109309575 A CN109309575 A CN 109309575A CN 201710616223 A CN201710616223 A CN 201710616223A CN 109309575 A CN109309575 A CN 109309575A
Authority
CN
China
Prior art keywords
failure
item
monitoring
target monitoring
health degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710616223.4A
Other languages
English (en)
Inventor
符立佳
苗辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou Baishan Cloud Polytron Technologies Inc
Guizhou Baishancloud Technology Co Ltd
Original Assignee
Guizhou Baishan Cloud Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou Baishan Cloud Polytron Technologies Inc filed Critical Guizhou Baishan Cloud Polytron Technologies Inc
Priority to CN201710616223.4A priority Critical patent/CN109309575A/zh
Publication of CN109309575A publication Critical patent/CN109309575A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0695Management of faults, events, alarms or notifications the faulty arrangement being the maintenance, administration or management system
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种确定监控系统健康度的方法和装置,此方法包括:确定目标监控项和目标监控项的故障预期,通过测试设备对所述监控系统针对目标监控项进行符合所述故障预期的故障模拟,从监控系统接收故障模拟结果,根据所述目标监控项的故障预期和故障模拟结果确定健康度评分。本发明通过使用测试设备模拟故障情景的方式,提供了快速检验所有监控环节健康度的方法和装置,完全自动完成,使监控的准确性提升80%;监控系统整体评价的效率提升100%;大幅度消除人力成本。本发明的检测方式更贴合监控系统实际运行模式,并且还提供检测异常结果的故障环节判定方法,检测同时给出故障环节的判定结果,提高异常处理的效率。

Description

一种确定监控系统健康度的方法和装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种确定监控系统健康度的方法和装置。
背景技术
随着互联网的高速发展,终端用户对网络访问的服务质量越来越高,对于访问故障的容忍度越来越低,为了保障业务和系统的稳定性,避免故障的发生,所有的网络业务和系统都配置或设置了监控系统,监控系统的设备状态、网络状态、程序运行状态、系统状态、业务状态等等。而在此环境下,监控系统本身的健康度检测,就成了必须要解决的问题。
现有技术的缺点包括:
1)使用两套监控系统互相检测的方式,来确保单一监控系统没有失效,此方案需要搭建和维护两套监控系统,大幅提高监控系统的成本。
2)对监控系统本身不进行监控,通过人工使用和故障发生才能知道监控系统出现故障,无法主动发现监控系统的问题,风险高。
3)通过统计监控每个周期时间产生监控告警信息的个数,来判定监控系统自身的健康度,无法发现细节问题,无法直接定位到问题环节且监控效果不准确。
4)通过定期巡检方式进行监控系统健康度评定,周期长,人工工作量大,人工成本高。
发明内容
为了解决上述技术问题,本发明提供了一种确定监控系统健康度的方法和装置。
本发明提供了一种确定监控系统健康度的方法,包括:确定目标监控项和目标监控项的故障预期,通过测试设备对所述监控系统针对目标监控项进行符合所述故障预期的故障模拟,从监控系统接收故障模拟结果,根据所述目标监控项的故障预期和故障模拟结果确定健康度评分。
上述确定监控系统健康度的方法还具有以下特点:
所述通过测试设备对所述监控系统针对目标监控项进行符合所述故障预期的故障模拟包括:使用所述测试设备上配置的设置有所述监控系统的各监控项的监控项测试程序发出所述目标监控项的故障预期状态对应的监控告警数据,或者使用测试设备上安装的监控数据发送程序发出所述目标监控项的故障预期状态对应的监控告警数据。
上述确定监控系统健康度的方法还具有以下特点:
所述根据所述目标监控项的故障预期和故障模拟结果确定健康度评分包括:确定不满足相应故障预期的目标监控项,根据监控项故障级别分数表确定此目标监控项故障模拟结果中故障级别对应的分数与故障预期所对应的分数的差,使用预设满分减去不满足各故障预期的目标监控项对应的分数差,获得健康度评分。
上述确定监控系统健康度的方法还具有以下特点:
所述方法还包括:判断所述健康度评分是否满足重新评测条件,如果是,检测所述监控系统中关于不符合故障预期的各目标监控项的各处理环节的有效性,根据检测结果确定监控系统的最终健康度评分。
上述确定监控系统健康度的方法还具有以下特点:
所述重新评测条件是指所述健康度评分小于预设评分阈值和/或不满足各故障预期的目标监控项的个数大于预设门限个数;
所述根据检测结果确定监控系统的最终健康度评分包括:根据不符合故障预期的各目标监控项对应的失效的环节的占比的程度降低所述健康度评分得到最终健康度评分。
上述确定监控系统健康度的方法还具有以下特点:
所述检测所述监控系统中关于不符合故障预期的各目标监控项的各处理环节的有效性包括:
检测监控数据采集程序日志中相应于所述目标监控项的监控数据是否正常采集,如果是则记录所述目标监控项对应的采集环节有效,如果否则记录所述目标监控项对应的采集环节失效;
检测监控数据库是否成功存储所述目标监控项,如果是则记录所述目标监控项对应的存储环节有效,如果否则记录所述目标监控项对应的存储环节失效;
检测所述目标监控项的判定是否超过相应的阈值,如果是则记录所述目标监控项对应的阈值判定环节有效,如果否则记录所述目标监控项对应的阈值判定环节失效;
检测监控信息发送日志中是否包括所述目标监控项的信息,如果是则记录所述目标监控项对应的监控信息发送环节有效,如果否则记录所述目标监控项对应的监控信息发送环节失效。
本发明还提供了一种确定监控系统健康度的装置,包括:
触发模块,用于确定目标监控项和目标监控项的故障预期,触发测试设备对所述监控系统针对目标监控项进行符合所述故障预期的故障模拟;
接收模块,用于从监控系统接收故障模拟结果;
评分模块,用于根据所述目标监控项的故障预期和故障模拟结果确定健康度评分。
上述确定监控系统健康度的装置还具有以下特点:
所述触发模块用于发送第一触发信号用于触发所述测试设备使用所述测试设备上配置的设置有所述监控系统的各监控项的监控项测试程序发出所述目标监控项的故障预期状态对应的监控告警数据,或者发送第二触发信号用于触发测试设备使用测试设备上安装的监控数据发送程序发出所述目标监控项的故障预期状态对应的监控告警数据。
上述确定监控系统健康度的装置还具有以下特点:
所述评分模块用于确定不满足相应故障预期的目标监控项,根据监控项故障级别分数表确定此目标监控项故障模拟结果中故障级别对应的分数与故障预期所对应的分数的差,使用预设满分减去不满足各故障预期的目标监控项对应的分数差,获得健康度评分。
上述确定监控系统健康度的装置还具有以下特点:还包括:
第二判断模块,用于判断所述健康度评分是否满足重新评测条件;
环节检测模块,用于在第二判断模块判定健康度评分满足重新评测条件时,检测所述监控系统中关于不符合故障预期的各目标监控项的各处理环节的有效性;
重评测模块,用于根据检测结果确定监控系统的最终健康度评分。
上述确定监控系统健康度的装置还具有以下特点:
所述重新评测条件是指所述健康度评分小于预设评分阈值和/或不满足各故障预期的目标监控项的个数大于预设门限个数;
所述重评测模块用于使用以下方法根据检测结果确定监控系统的最终健康度评分:根据不符合故障预期的各目标监控项对应的失效的环节的占比的程度降低所述健康度评分得到最终健康度评分。
上述确定监控系统健康度的装置还具有以下特点:
所述环节检测模块用于使用以下方法检测所述监控系统中关于不符合故障预期的各目标监控项的各处理环节的有效性:
检测监控数据采集程序日志中相应于所述目标监控项的监控数据是否正常采集,如果是则记录所述目标监控项对应的采集环节有效,如果否则记录所述目标监控项对应的采集环节失效;
检测监控数据库是否成功存储所述目标监控项,如果是则记录所述目标监控项对应的存储环节有效,如果否则记录所述目标监控项对应的存储环节失效;
检测所述目标监控项的判定是否超过相应的阈值,如果是则记录所述目标监控项对应的阈值判定环节有效,如果否则记录所述目标监控项对应的阈值判定环节失效;
检测监控信息发送日志中是否包括所述目标监控项的信息,如果是则记录所述目标监控项对应的监控信息发送环节有效,如果否则记录所述目标监控项对应的监控信息发送环节失效。
本发明通过使用测试设备模拟故障情景的方式,提供了快速检验所有监控环节健康度的方法和装置,完全自动完成,使监控的准确性提升80%;监控系统整体评价的效率提升100%;大幅度消除人力成本。本发明的检测方式更贴合监控系统实际运行模式,并且还提供检测异常结果的故障环节判定方法,检测同时给出故障环节的判定结果,提高异常处理的效率。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是实施例一中确定监控系统健康度的方法的流程图;
图2是实施例二中确定监控系统健康度的方法的流程图;
图3是实施例三中确定监控系统健康度的装置的结构图;
图4是实施例四中确定监控系统健康度的装置的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
图1是实施例一中确定监控系统健康度的方法的流程图,此方法包括:
步骤101,确定目标监控项和目标监控项的故障预期;
步骤102,通过测试设备对所述监控系统针对目标监控项进行符合所述故障预期的故障模拟;
步骤103,从监控系统接收故障模拟结果;
步骤104,根据所述目标监控项的故障预期和故障模拟结果确定健康度评分。
其中,
步骤101中,目标监控项包括基础监控项、应用监控项和服务监控项。
基础监控项包括以下项中的至少一种:CPU使用率、内存使用率、磁盘使用率、设备负载。
应用监控项包括以下项中的至少一种:应用端口(例如80端口、53端口)、应用进程(例如DNS进程、HTTP进程)。
服务监控项包括各项服务业务(例如下载业务、直播业务、视频点播业务)。
故障预期是指监控系统中目标监控项对应的相应的故障等级,例如监控系统中的基础监控项CPU使用率的故障等级为重大故障,一般故障,轻微故障,则可以根据测试需要设置CPU使用率的故障预期为上述故障等级中的一种。
步骤101之前还包括判断所述健康度评分是否满足重新评测条件,如果是,则执行步骤101。
满足健康度评价条件是以下情况中的至少一种:
到达健康度评价周期;
在监控系统故障后收到确认所述监控系统是否恢复正常的触发条件;
在监控系统升级后收到确认所述监控系统是否运行正常的触发条件。
步骤102中通过测试设备对所述监控系统针对目标监控项进行符合所述故障预期的故障模拟包括:使用测试设备上配置的设置有监控系统的各监控项的监控项测试程序发出目标监控项的故障预期对应的监控告警数据,或者使用测试设备上安装的监控数据发送程序发出所述目标监控项的故障预期状态对应的监控告警数据。
步骤104中,根据目标监控项的故障预期和故障模拟结果确定健康度评分包括:确定不满足相应故障预期的目标监控项,根据监控项故障级别分数表确定此目标监控项故障模拟结果中故障级别对应的分数与故障预期所对应的分数的差,使用预设满分减去不满足各故障预期的目标监控项对应的分数差,获得健康度评分。其中,确定不满足相应故障预期的目标监控项的方法具体为:判断监控告警列表里对应于各目标监控项是否接收到告警信息,并进一步判断告警信息中的告警级别是否满足各目标监控项相应的预期。如果没有接收到对应于某目标监控项的告警信息或者接收到告警信息但不满足此目标监控项相应的预期,则认为此目标监控项不满足相应故障预期。
以CPU利用率为典型的目标监控项为例,对于CPU利用率的监控项故障级别分数表举例如下表:
监控项 故障级别 故障级别 故障级别
CPU利用率 重大故障 一般故障 轻微故障
分数 10 5 1
如图2所示,此方法还包括:步骤105,判断所述健康度评分是否满足重新评测条件,如果是,执行步骤106,如果否,执行步骤107。
步骤106,检测所述监控系统中关于不符合故障预期的各目标监控项的各处理环节的有效性,根据检测结果确定监控系统的最终健康度评分;本方法结束。
步骤107,将所述健康度评分作为最终健康度评分;本方法结束。
步骤105中,重新评测条件是指所述健康度评分小于预设评分阈值(例如90分)和/或不满足各故障预期的目标监控项的个数大于预设门限个数(例如2个)。根据检测结果确定监控系统的最终健康度评分包括:根据不符合故障预期的各目标监控项对应的失效的环节的占比的程度降低所述健康度评分,得到最终健康度评分。例如,不符合故障预期的各目标监控项对应的失效的环节的占比的程度和降低所述健康度评分的程度成正相关,即不符合故障预期的各目标监控项对应的失效的环节的占比的程度越大,降低所述健康度评分的程度越大。可以使用比例对应的方式,例如不符合故障预期的各目标监控项对应的失效的环节的占比的程度大于80%,则将健康度评分减少总分的30%,不符合故障预期的各目标监控项对应的失效的环节的占比的程度大于50%小于80%,则将健康度评分减少总分的20%,不符合故障预期的各目标监控项对应的失效的环节的占比的程度小于50%,则将健康度评分减少总分的10%。
步骤106中检测所述监控系统中关于不符合故障预期的各目标监控项的各处理环节的有效性包括:
检测监控数据采集程序日志中相应于所述目标监控项的监控数据是否正常采集,如果是则记录所述目标监控项对应的采集环节有效,如果否则记录所述目标监控项对应的采集环节失效;
检测监控数据库是否成功存储所述目标监控项,如果是则记录所述目标监控项对应的存储环节有效,如果否则记录所述目标监控项对应的存储环节失效;
检测所述目标监控项的判定是否超过相应的阈值,如果是则记录所述目标监控项对应的阈值判定环节有效,如果否则记录所述目标监控项对应的阈值判定环节失效;
检测监控信息发送日志中是否包括所述目标监控项的信息,如果是则记录所述目标监控项对应的监控信息发送环节有效,如果否则记录所述目标监控项对应的监控信息发送环节失效。
本发明中除了可以检测监控系统的各目标监控项的各环节的有效情况,还可以检测本检测装置自身的信息接收环节是否有效,具体的,检查本检测装置的目标监控项的监控信息接收日志,通过确定此目标监控项的监控信息是否正常来判断本检测装置自身的信息接收环节是否有效。
图3是实施例三中确定监控系统健康度的装置的结构图,此装置包括:触发模块、接收模块、评分模块。
触发模块用于确定目标监控项和目标监控项的故障预期,触发测试设备对所述监控系统针对目标监控项进行符合所述故障预期的故障模拟;
接收模块用于从监控系统接收故障模拟结果;
评分模块用于根据所述目标监控项的故障预期和故障模拟结果确定健康度评分。
其中,
触发模块用于发送第一触发信号用于触发所述测试设备使用所述测试设备上配置的设置有所述监控系统的各监控项的监控项测试程序发出所述目标监控项的故障预期状态对应的监控告警数据,或者发送第二触发信号用于触发测试设备使用测试设备上安装的监控数据发送程序发出所述目标监控项的故障预期状态对应的监控告警数据。
评分模块用于确定不满足相应故障预期的目标监控项,根据监控项故障级别分数表确定此目标监控项故障模拟结果中故障级别对应的分数与故障预期所对应的分数的差,使用预设满分减去不满足各故障预期的目标监控项对应的分数差,获得健康度评分。
此装置还包括第一判断模块。第一判断模块用于判断监控系统是否满足健康度评价条件;在判断满足健康度评价条件时,向所述触发模块发送启动信号使触发模块执行相应的功能。
第一判断模块判断监控系统满足健康度评价条件是以下情况中的至少一种时判定监控系统满足健康度评价条件:
到达健康度评价周期;
在监控系统故障后收到确认所述监控系统是否恢复正常的触发条件;
在监控系统升级后收到确认所述监控系统是否运行正常的触发条件。
实施例四中本装置除了上述功能模块还包括第二判断模块、环节检测模块、重评测模块。
第二判断模块用于判断所述健康度评分是否满足重新评测条件;
环节检测模块用于在第二判断模块判定健康度评分满足重新评测条件时,检测所述监控系统中关于不符合故障预期的各目标监控项的各处理环节的有效性;
重评测模块用于根据检测结果确定监控系统的最终健康度评分。
重新评测条件是指所述健康度评分小于预设评分阈值和/或不满足各故障预期的目标监控项的个数大于预设门限个数。重评测模块用于使用以下方法根据检测结果确定监控系统的最终健康度评分:根据不符合故障预期的各目标监控项对应的失效的环节的占比的程度降低所述健康度评分得到最终健康度评分。
环节检测模块用于使用以下方法检测所述监控系统中关于不符合故障预期的各目标监控项的各处理环节的有效性:
检测监控数据采集程序日志中相应于所述目标监控项的监控数据是否正常采集,如果是则记录所述目标监控项对应的采集环节有效,如果否则记录所述目标监控项对应的采集环节失效;
检测监控数据库是否成功存储所述目标监控项,如果是则记录所述目标监控项对应的存储环节有效,如果否则记录所述目标监控项对应的存储环节失效;
检测所述目标监控项的判定是否超过相应的阈值,如果是则记录所述目标监控项对应的阈值判定环节有效,如果否则记录所述目标监控项对应的阈值判定环节失效;
检测监控信息发送日志中是否包括所述目标监控项的信息,如果是则记录所述目标监控项对应的监控信息发送环节有效,如果否则记录所述目标监控项对应的监控信息发送环节失效。
具体实施例一
判断监控系统满足健康度评价条件时,确定目标监控项为CPU利用率和内存使用率。确定CPU利用率和内存使用率的故障预期均为重大故障。
通过测试设备对所述监控系统针对目标监控项进行符合所述故障预期的故障模拟。从监控系统接收故障模拟结果为CPU利用率的故障预期为重大故障,内存使用率的故障预期均为一般故障。
CPU利用率的监控项故障级别分数表如下表:
监控项 故障级别 故障级别 故障级别
CPU利用率 重大故障 一般故障 轻微故障
分数 10 4 1
CPU利用率的监控项故障级别分数表如下表:
监控项 故障级别 故障级别 故障级别
内存使用率 重大故障 一般故障 轻微故障
分数 10 5 2
不满足相应故障预期的目标监控项为内存使用率,根据内存使用率故障级别分数表确定此目标监控项故障模拟结果中故障级别对应的分数为5,故障预期中的相应分数为10,两者的差为5,使用预设满分100减去此差,获得健康度评分为95分,预设评分阈值为90分,判断此评分大于此评分阈值,则不需要进行重新评测,最终监控系统健康度评分为95分。
具体实施例二
判断监控系统满足健康度评价条件时,确定目标监控项为CPU利用率和内存使用率。确定CPU利用率和内存使用率的故障预期均为重大故障。
通过测试设备对所述监控系统针对目标监控项进行符合所述故障预期的故障模拟。从监控系统接收故障模拟结果为CPU利用率的故障预期均为轻微故障。
不满足相应故障预期的目标监控项为CPU利用率和内存使用率,根据 CPU利用率的故障级别分数表确定此目标监控项故障模拟结果中故障级别对应的分数为1,故障预期中的相应分数为10,两者的差为9。根据内存使用率的故障级别分数表确定此目标监控项故障模拟结果中故障级别对应的分数为2,故障预期中的相应分数为10,两者的差为8。
使用预设满分100减去此两个差,获得健康度评分为83分,预设评分阈值为90分,判断此评分小于此评分阈值,则需要进行重新评测,检测CPU 利用率的各处理环节的有效性,统计失效的环节的占比为80%,则将健康度评分减少总分的30%即将健康度评分为83减少30分,健康度评分更新为53 分。检测内存利用率的各处理环节的有效性,统计失效的环节的占比为30%,则将健康度评分减少总分的10%即将健康度评分为53减少10分,最终的健康度评分为43分。
本发明通过使用测试设备模拟故障情景的方式,提供了快速检验所有监控环节健康度的方法和装置,完全自动完成,使监控的准确性提升80%;监控系统整体评价的效率提升100%;大幅度消除人力成本。本发明的检测方式更贴合监控系统实际运行模式,并且还提供检测异常结果的故障环节判定方法,检测同时给出故障环节的判定结果,提高异常处理的效率。
上面描述的内容可以单独地或者以各种方式组合起来实施,而这些变型方式都在本发明的保护范围之内。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现,相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案而非限制,仅仅参照较佳实施例对本发明进行了详细说明。本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围当中。

Claims (12)

1.一种确定监控系统健康度的方法,其特征在于,包括:
确定目标监控项和目标监控项的故障预期,通过测试设备对所述监控系统针对目标监控项进行符合所述故障预期的故障模拟,从监控系统接收故障模拟结果,根据所述目标监控项的故障预期和故障模拟结果确定健康度评分。
2.如权利要求1所述的确定监控系统健康度的方法,其特征在于,
所述通过测试设备对所述监控系统针对目标监控项进行符合所述故障预期的故障模拟包括:使用所述测试设备上配置的设置有所述监控系统的各监控项的监控项测试程序发出所述目标监控项的故障预期状态对应的监控告警数据,或者使用测试设备上安装的监控数据发送程序发出所述目标监控项的故障预期状态对应的监控告警数据。
3.如权利要求1所述的确定监控系统健康度的方法,其特征在于,
所述根据所述目标监控项的故障预期和故障模拟结果确定健康度评分包括:确定不满足相应故障预期的目标监控项,根据监控项故障级别分数表确定此目标监控项故障模拟结果中故障级别对应的分数与故障预期所对应的分数的差,使用预设满分减去不满足各故障预期的目标监控项对应的分数差,获得健康度评分。
4.如权利要求1、2或3所述的确定监控系统健康度的方法,其特征在于,
所述方法还包括:判断所述健康度评分是否满足重新评测条件,如果是,检测所述监控系统中关于不符合故障预期的各目标监控项的各处理环节的有效性,根据检测结果确定监控系统的最终健康度评分。
5.如权利要求4所述的确定监控系统健康度的方法,其特征在于,
所述重新评测条件是指所述健康度评分小于预设评分阈值和/或不满足各故障预期的目标监控项的个数大于预设门限个数;
所述根据检测结果确定监控系统的最终健康度评分包括:根据不符合故障预期的各目标监控项对应的失效的环节的占比的程度降低所述健康度评分得到最终健康度评分。
6.如权利要求4所述的确定监控系统健康度的方法,其特征在于,
所述检测所述监控系统中关于不符合故障预期的各目标监控项的各处理环节的有效性包括:
检测监控数据采集程序日志中相应于所述目标监控项的监控数据是否正常采集,如果是则记录所述目标监控项对应的采集环节有效,如果否则记录所述目标监控项对应的采集环节失效;
检测监控数据库是否成功存储所述目标监控项,如果是则记录所述目标监控项对应的存储环节有效,如果否则记录所述目标监控项对应的存储环节失效;
检测所述目标监控项的判定是否超过相应的阈值,如果是则记录所述目标监控项对应的阈值判定环节有效,如果否则记录所述目标监控项对应的阈值判定环节失效;
检测监控信息发送日志中是否包括所述目标监控项的信息,如果是则记录所述目标监控项对应的监控信息发送环节有效,如果否则记录所述目标监控项对应的监控信息发送环节失效。
7.一种确定监控系统健康度的装置,其特征在于,包括:
触发模块,用于确定目标监控项和目标监控项的故障预期,触发测试设备对所述监控系统针对目标监控项进行符合所述故障预期的故障模拟;
接收模块,用于从监控系统接收故障模拟结果;
评分模块,用于根据所述目标监控项的故障预期和故障模拟结果确定健康度评分。
8.如权利要求7所述的确定监控系统健康度的装置,其特征在于,
所述触发模块用于发送第一触发信号用于触发所述测试设备使用所述测试设备上配置的设置有所述监控系统的各监控项的监控项测试程序发出所述目标监控项的故障预期状态对应的监控告警数据,或者发送第二触发信号用于触发测试设备使用测试设备上安装的监控数据发送程序发出所述目标监控项的故障预期状态对应的监控告警数据。
9.如权利要求7所述的确定监控系统健康度的装置,其特征在于,
所述评分模块用于确定不满足相应故障预期的目标监控项,根据监控项故障级别分数表确定此目标监控项故障模拟结果中故障级别对应的分数与故障预期所对应的分数的差,使用预设满分减去不满足各故障预期的目标监控项对应的分数差,获得健康度评分。
10.如权利要求7、8或9所述的确定监控系统健康度的装置,其特征在于,还包括:
第二判断模块,用于判断所述健康度评分是否满足重新评测条件;
环节检测模块,用于在第二判断模块判定健康度评分满足重新评测条件时,检测所述监控系统中关于不符合故障预期的各目标监控项的各处理环节的有效性;
重评测模块,用于根据检测结果确定监控系统的最终健康度评分。
11.如权利要求10所述的确定监控系统健康度的装置,其特征在于,
所述重新评测条件是指所述健康度评分小于预设评分阈值和/或不满足各故障预期的目标监控项的个数大于预设门限个数;
所述重评测模块用于使用以下方法根据检测结果确定监控系统的最终健康度评分:根据不符合故障预期的各目标监控项对应的失效的环节的占比的程度降低所述健康度评分得到最终健康度评分。
12.如权利要求10所述的确定监控系统健康度的装置,其特征在于,
所述环节检测模块用于使用以下方法检测所述监控系统中关于不符合故障预期的各目标监控项的各处理环节的有效性:
检测监控数据采集程序日志中相应于所述目标监控项的监控数据是否正常采集,如果是则记录所述目标监控项对应的采集环节有效,如果否则记录所述目标监控项对应的采集环节失效;
检测监控数据库是否成功存储所述目标监控项,如果是则记录所述目标监控项对应的存储环节有效,如果否则记录所述目标监控项对应的存储环节失效;
检测所述目标监控项的判定是否超过相应的阈值,如果是则记录所述目标监控项对应的阈值判定环节有效,如果否则记录所述目标监控项对应的阈值判定环节失效;
检测监控信息发送日志中是否包括所述目标监控项的信息,如果是则记录所述目标监控项对应的监控信息发送环节有效,如果否则记录所述目标监控项对应的监控信息发送环节失效。
CN201710616223.4A 2017-07-26 2017-07-26 一种确定监控系统健康度的方法和装置 Pending CN109309575A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710616223.4A CN109309575A (zh) 2017-07-26 2017-07-26 一种确定监控系统健康度的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710616223.4A CN109309575A (zh) 2017-07-26 2017-07-26 一种确定监控系统健康度的方法和装置

Publications (1)

Publication Number Publication Date
CN109309575A true CN109309575A (zh) 2019-02-05

Family

ID=65201912

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710616223.4A Pending CN109309575A (zh) 2017-07-26 2017-07-26 一种确定监控系统健康度的方法和装置

Country Status (1)

Country Link
CN (1) CN109309575A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111221704A (zh) * 2019-12-30 2020-06-02 北京云星宇交通科技股份有限公司 一种确定办公管理应用系统运行状态的方法及系统
CN112069017A (zh) * 2019-06-11 2020-12-11 顺丰科技有限公司 业务系统监控方法及装置
CN113852503A (zh) * 2021-09-24 2021-12-28 国科量子通信网络有限公司 量子设备管理系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0240971A2 (en) * 1986-04-08 1987-10-14 Tektronix, Inc. Apparatus for providing an indication of color television signal validity
CN101291261A (zh) * 2008-04-28 2008-10-22 华为技术有限公司 一种板内设备测试方法和系统
CN101945122A (zh) * 2010-08-17 2011-01-12 江苏金思源电力科技有限公司 可组态智能视频监控平台及其监控方法
CN104780361A (zh) * 2015-03-27 2015-07-15 南京邮电大学 一种城市视频监控系统的质量评价方法
CN106549831A (zh) * 2016-11-24 2017-03-29 国家电网公司 一种信息系统的健康分析方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0240971A2 (en) * 1986-04-08 1987-10-14 Tektronix, Inc. Apparatus for providing an indication of color television signal validity
CN101291261A (zh) * 2008-04-28 2008-10-22 华为技术有限公司 一种板内设备测试方法和系统
CN101945122A (zh) * 2010-08-17 2011-01-12 江苏金思源电力科技有限公司 可组态智能视频监控平台及其监控方法
CN104780361A (zh) * 2015-03-27 2015-07-15 南京邮电大学 一种城市视频监控系统的质量评价方法
CN106549831A (zh) * 2016-11-24 2017-03-29 国家电网公司 一种信息系统的健康分析方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
谢婷,张铁骏: "视频监控系统性能测试方案实现", 《工业控制计算机》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069017A (zh) * 2019-06-11 2020-12-11 顺丰科技有限公司 业务系统监控方法及装置
CN111221704A (zh) * 2019-12-30 2020-06-02 北京云星宇交通科技股份有限公司 一种确定办公管理应用系统运行状态的方法及系统
CN111221704B (zh) * 2019-12-30 2023-06-30 北京云星宇交通科技股份有限公司 一种确定办公管理应用系统运行状态的方法及系统
CN113852503A (zh) * 2021-09-24 2021-12-28 国科量子通信网络有限公司 量子设备管理系统
CN113852503B (zh) * 2021-09-24 2023-10-13 国科量子通信网络有限公司 量子设备管理系统

Similar Documents

Publication Publication Date Title
US7712083B2 (en) Method and apparatus for monitoring and updating system software
US8774023B2 (en) Method and system for detecting changes in network performance
CN103095728B (zh) 一种基于行为数据融合的网络安全评分系统和方法
US20160378583A1 (en) Management computer and method for evaluating performance threshold value
CN102740112B (zh) 一种基于视频监控系统的设备轮巡的控制方法
JP5468041B2 (ja) プラントの機器維持管理システム
CN104796273A (zh) 一种网络故障根源诊断的方法和装置
CN105335271A (zh) 一种状态监控装置、综合监控系统和方法
CN103797468A (zh) 系统异常的自动化检测
CN105116870B (zh) 空调机组的故障分析方法、装置和系统
CN107391335B (zh) 一种用于检查集群健康状态的方法和设备
CN109309575A (zh) 一种确定监控系统健康度的方法和装置
JP2015028700A (ja) 障害検知装置、障害検知方法、障害検知プログラム及び記録媒体
CN105450292A (zh) 一种故障诊断分析方法、装置及系统
CN112286771A (zh) 一种针对全域资源监控的告警方法
CN103150250A (zh) 应用程序性能检测系统和应用程序性能检测方法
CN102141948A (zh) 带噪声的监控器检测和间歇故障隔离
CN114239734A (zh) 一种分布式车载健康管理系统
US8601318B2 (en) Method, apparatus and computer program product for rule-based directed problem resolution for servers with scalable proactive monitoring
CN110489260A (zh) 故障识别方法、装置及bmc
US8949669B1 (en) Error detection, correction and triage of a storage array errors
CN117391675B (zh) 一种数据中心基础设施运维管理方法
CN111526109A (zh) 自动检测web威胁识别防御系统的运行状态的方法及装置
US20170302506A1 (en) Methods and apparatus for fault detection
CN107992408B (zh) 一种软件探测器的软件探测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190205