CN109039795A - 一种云服务器资源监控方法和系统 - Google Patents

一种云服务器资源监控方法和系统 Download PDF

Info

Publication number
CN109039795A
CN109039795A CN201710439003.9A CN201710439003A CN109039795A CN 109039795 A CN109039795 A CN 109039795A CN 201710439003 A CN201710439003 A CN 201710439003A CN 109039795 A CN109039795 A CN 109039795A
Authority
CN
China
Prior art keywords
cloud server
monitoring
server
cloud
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710439003.9A
Other languages
English (en)
Other versions
CN109039795B (zh
Inventor
王景春
张海锋
苗辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou Baishan Cloud Polytron Technologies Inc
Guizhou Baishancloud Technology Co Ltd
Original Assignee
Guizhou Baishan Cloud Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou Baishan Cloud Polytron Technologies Inc filed Critical Guizhou Baishan Cloud Polytron Technologies Inc
Priority to CN201710439003.9A priority Critical patent/CN109039795B/zh
Publication of CN109039795A publication Critical patent/CN109039795A/zh
Application granted granted Critical
Publication of CN109039795B publication Critical patent/CN109039795B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/50Testing arrangements

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Environmental & Geological Engineering (AREA)
  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明提供了一种云服务器资源监控方法和系统。涉及云计算领域;解决了由于添加了大量监控机构建监控网络造成的监控效率低下、准确度较低且成本大幅增加的问题。该方法包括:向云服务器集群中的至少一台云服务器下发针对所述云服务器集群可用性的监控任务;接收日志服务器发送的对所述至少一台云服务器返回的监测结果数据分析后得到的聚合分析结果,所述聚合分析结果包含所述云服务器集群中的不可用的云服务器信息。本发明提供的技术方案适用于云服务器集群,实现了灵活快速精确的云服务器资源监控。

Description

一种云服务器资源监控方法和系统
技术领域
本发明涉及云计算领域,尤其涉及一种云服务器资源监控方法和系统。
背景技术
随着云计算技术越来越多地应用到各个领域,云计算环境下集群服务器系统的监控和管理需求也越来越大。在所有的监控项目中,以云服务器资源的可用性监测最为重要——服务首先要可用才能对其他方面进行评价,而响应时间过长、丢包率过高,也都使用户体验大打折扣。在云计算环境下,由于其服务器资源数量庞大,可用性监测的监控对象和监控规模也随着增大,随之增加的还有监控数据量和监控系统的复杂度。
现有技术一般采购大量监控机自建分布式监控网络或购买第三方监测服务对云服务器进行可用性探测,具体的,使用多台监控机针对云服务器进行ping探测并将结果回传至监控数据库进行分析,得出该云服务器存活状态、响应时长和丢包率的平均值。在网络环境正常的情况下,这种方式能比较准确地判定云服务器的连通性。
但在现有探测环境下,以上方法存在以下问题:
1)采购监控机、自建监控网络或第三方监测服务需要耗费大量成本;
2)现有ping探测需要在各监控机上配置探测目标策略,当策略需要更改时,需要大量人力物力对各监控机的配置进行下发/更新操作,耗时较长,效率低下;
3)被监控云服务器的可用性,一般是根据多台监控机ping得的监测结果求均值来衡量,当监控机本身的网络出现问题,就可能误报,造成监控结果的不准确,一旦该监控机本身的问题没有被及时发现,误报行为还会延续到下一次的监控中;
4)现有的ping探测仅探测单个节点的网络连通情况,而无法获知多个节点间或某个区域内的网络连通情况,这导致现有数据无法应用于云服务中的故障切换、路由优化等策略,性价比较低。
综上所述,现有监控方案由于添加了大量监控机构建监控网络,造成了监控效率低下、准确度较低且成本大幅增加的问题。
发明内容
本发明旨在解决上面描述的问题。
根据本发明的第一方面,提供了一种云服务器资源监控方法,包括:
向云服务器集群中的至少一台云服务器下发针对所述云服务器集群可用性的监控任务;
接收日志服务器发送的对所述至少一台云服务器返回的监测结果数据分析后得到的聚合分析结果,所述聚合分析结果包含所述云服务器集群中的不可用的云服务器信息。
优选的,下发针对所述云服务器集群可用性的监控任务具体为下发任务列表,在所述任务列表中包含有目标云服务器的IP地址,指示接收到该任务列表的云服务器对所述目标云服务器进行监测。
优选的,该方法还包括:
配置执行监控任务的范围,该范围内包含所述云服务器集群中的至少一台云服务器。
优选的,向云服务器集群中的至少一台云服务器下发针对所述云服务器集群可用性的监控任务的步骤之前,还包括:
为所述执行监控任务的范围内的至少一台云服务器分别生成监控任务。
优选的,接收日志服务器发送的对所述至少一台云服务器返回的监测结果数据分析后得到的聚合分析结果的步骤之后,还包括:
根据所述聚合分析结果,将所述执行监控任务的范围内包含的不可用的云服务器自该范围内剔除。
根据本发明的另一方面,还提供了一种云服务器资源监控方法,包括:
接收中心服务器下发的针对云服务器集群可用性的监控任务,所述监控任务指示对所述云服务器集群中的至少一台云服务器进行可用性监测;
执行所述监控任务,获取监测结果;
向日志服务器返回监测结果数据,供所述日志服务器分析得到所述云服务器集群中的不可用的云服务器信息。
优选的,所述监控任务具体为任务列表,在所述任务列表中包含有目标云服务器的IP地址,
执行所述监控任务,获取监测结果的步骤包括:
向所述监控任务指示的目标云服务器的IP地址逐个发送探测消息,探测所述IP地址是否可达;
收集所述目标云服务器对所述探测消息的响应作为监测结果。
优选的,该方法还包括:
在接收到所述云服务集群中其他云服务器发送的探测消息时,对该探测消息进行响应。
根据本发明的另一方面,提供了一种云服务器资源监控方法,包括:
接收所述云服务器集群中至少一台云服务器上报的依据中心服务器指示的监控任务生成的监测结果数据;
对所述监测结果数据进行分析,得到聚合分析结果,所述聚合分析结果包含所述云服务器集群中的不可用的云服务器信息;
向所述中心服务器上报所述聚合分析结果。
根据本发明的另一方面,提供了一种云服务器资源监控系统,包括中心服务器、日志服务器和云服务器集群,所述云服务器集群包含多台云服务器;
所述中心服务器,用于向云服务器集群中的至少一台云服务器下发针对所述云服务器集群可用性的监控任务,接收所述日志服务器发送的对所述至少一台云服务器返回的监测结果数据分析后得到的聚合分析结果,所述聚合分析结果包含所述云服务器集群中的不可用的云服务器信息;
所述日志服务器,用于接收所述云服务器集群中至少一台云服务器上报的依据中心服务器指示的监控任务生成的监测结果数据,对所述监测结果数据进行分析,得到聚合分析结果,向所述中心服务器上报所述聚合分析结果;
所述云服务器,用于接收所述中心服务器下发的针对云服务器集群可用性的监控任务,所述监控任务指示对所述云服务器集群中的至少一台云服务器进行可用性监测,执行所述监控任务,获取监测结果,向所述日志服务器返回监测结果数据,供所述日志服务器分析得到所述云服务器集群中的不可用的云服务器信息。
优选的,所述中心服务器,还用于配置执行监控任务的范围,该范围内包含所述云服务器集群中的至少一台云服务器。
优选的,所述中心服务器,还用于为所述执行监控任务的范围内的至少一台云服务器分别生成监控任务。
优选的,所述中心服务器,还用于根据所述聚合分析结果,将所述执行监控任务的范围内包含的不可用的云服务器自该范围内剔除。
优选的,所述云服务器,还用于在接收到所述云服务集群中其他云服务器发送的探测消息时,对该探测消息进行响应。
本发明提供了一种云服务器资源监控方法和系统,中心服务器向云服务器集群中的至少一台云服务器下发针对所述云服务器集群可用性的监控任务,云服务器接收监控任务后,执行所述监控任务,获取监测结果,并向日志服务器返回监测结果数据,供所述日志服务器分析得到所述云服务器集群中的不可用的云服务器信息;日志服务器对所述监测结果数据进行分析,得到聚合分析结果,所述聚合分析结果包含所述云服务器集群中的不可用的云服务器信息,然后向所述中心服务器上报所述聚合分析结果。解决了由于添加了大量监控机构建监控网络造成的监控效率低下、准确度较低且成本大幅增加的问题,实现了灵活快速精确的云服务器资源监控。
参照附图来阅读对于示例性实施例的以下描述,本发明的其他特性特征和优点将变得清晰。
附图说明
并入到说明书中并且构成说明书的一部分的附图示出了本发明的实施例,并且与描述一起用于解释本发明的原理。在这些附图中,类似的附图标记用于表示类似的要素。下面描述中的附图是本发明的一些实施例,而不是全部实施例。对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他的附图。
图1示例性地示出了本发明的实施例一提供的一种云服务器资源监控方法的流程;
图2示例性地示出了本发明的实施例二提供的一种云服务器资源监控方法的流程;
图3示例性地示出了本发明的实施例三提供的一种云服务器资源监控系统的架构。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
现有的云服务器集群中对服务器资源进行监控的方案存在如下问题:
存在以下问题:
1)采购监控机、自建监控网络或第三方监测服务需要耗费大量成本;
2)现有ping探测需要在各监控机上配置探测目标策略,当策略需要更改时,需要大量人力物力对各监控机的配置进行下发/更新操作,耗时较长,效率低下;
3)被监控云服务器的可用性,一般是根据多台监控机ping得的监测结果求均值来衡量,当监控机本身的网络出现问题,就可能误报,造成监控结果的不准确,一旦该监控机本身的问题没有被及时发现,误报行为还会延续到下一次的监控中;
4)现有的ping探测仅探测单个节点的网络连通情况,而无法获知多个节点间或某个区域内的网络连通情况,这导致现有数据无法应用于云服务中的故障切换、路由优化等策略,性价比较低。
为了解决上述问题,本发明的实施例提供了一种云服务器资源监控方法和系统。通过云服务器集群中的一台或多台云服务器完成可用性检测,对云服务器集群工作状态进行监控,不需要添加额外的监控机,而通过既有的云服务器集群架构完成监控检测,实现了高效、高准确度的云服务器集群监控。
首先结合附图,对本发明的实施例一进行说明。
本发明实施例提供了一种云服务器资源监控方法,使用该方法实现对云服务器集群工作状态监控的流程如图1所示,包括:
步骤101、配置执行监控任务的范围,该范围内包含所述云服务器集群中的至少一台云服务器;
本步骤中,通过配置各个云服务器的任务状态来确定执行监控任务的云服务器。优选的,通过云服务器的可用性来筛选能够执行监控任务的云服务器。进一步的,还可在可用的云服务器中进行进一步筛选,如将云服务器覆盖范围划分为多个区域,在同一区域内存在多个可用的云服务器时,选择其中之一为该区域内执行监控任务的云服务器;或,根据业务需求对单线服务器进行划分区域监控,对三线或bgp服务器进行全部监控机监控的策略(即全部可用的云服务器均作为执行监控任务的云服务器)。
各云服务器的任务状态可由服务器配置管理中心维护。服务器配置管理中心可以是一个独立的设备,也可集成于中心服务器中。
在系统初始化时,各云服务器的任务状态可统一设置为表明能够执行监控任务,也可以由管理人员配置的配置文件中获取初始设置。在后续的监测过程中,会对执行监控任务的云服务器范围不断进行调整,具体参见步骤107的相关说明。
步骤102、中心服务器为所述执行监控任务的范围内的至少一台云服务器分别生成监控任务;
本步骤中,中心服务器为能够执行监控任务的云服务器分别生成监控任务,具体的,生成任务列表,在任务列表中包含有目标云服务器的IP地址,指示接收到该任务列表的云服务器对所述目标云服务器进行监测。
执行监控任务的云服务器本身也可被其他云作为器作为目标云服务器进行监测,以保证云服务器集群中的全部云服务器都能够得到监控。
步骤103、中心服务器向云服务器集群中的至少一台云服务器下发针对所述云服务器集群可用性的监控任务;
本步骤,具体的,中心服务器向执行监控任务的范围内的云服务器下发针对所述云服务器集群可用性的监控任务具体为下发任务列表。
可由中心服务器主动向云服务器下发;也可由云服务器在检测到自己的任务状态表明能够执行监控任务时,向中心服务器请求获取。
可以是周期性的更新监控任务,也可以根据操作指令等外部控制信息进行更新。
步骤104、云服务器接收中心服务器下发的针对云服务器集群可用性的监控任务,执行所述监控任务,获取监测结果;
本步骤中,云服务器在接收到中心服务器下发的监控任务时,更新当前的任务状态,具体的:
(1)对获取前有任务(即任务状态表明能够执行监控任务),获取后没有任务的,取消该云服务器监控任务,断开连接;
(2)对获取前有任务,获取后有任务的,接收最新任务数据(如任务列表);
(3)对获取前没任务,获取后有任务的,连接中心服务器,接收相关任务数据;
(4)对获取前没任务,获取后也没任务的,不作处理。
然后,云服务器执行监控任务,如向所述监控任务指示的目标云服务器的IP地址逐个发送探测消息,探测所述IP地址是否可达,收集所述目标云服务器对所述探测消息的响应作为监测结果。优选的,可采用Ping探测目标云服务器的可用性。
优选的,由于执行监控任务的云服务器也能够被其他云服务器监控,因此,云服务器在接收到所述云服务集群中其他云服务器发送的探测消息时,对该探测消息进行响应。
获取的监测结果数据至少包括以下信息:目标机IP,监控服务器IP、响应延时、丢包率。根据实际业务需求,上述监测结果数据还可以包含以下信息中的任一或任意多项:
目标机IP运营商、目标机IP省份、监控机IP运营商、监控机IP省份、探测时间。
其中,目标机指被监测的目标云服务器,监控机指执行监控任务的云服务器。
步骤105、云服务器向日志服务器返回监测结果数据,供所述日志服务器分析得到所述云服务器集群中的不可用的云服务器信息。
步骤106、日志服务器接收所述监测结果数据,对所述监测结果数据进行分析,得到聚合分析结果;
本步骤中,根据监测结果数据从目标机或监控机维度进行聚合分析,具体的,可从监测结果数据中的任一或任意多个信息维度进行聚合,得到聚合分析结果,聚合分析结果包含云服务器可用性信息,根据聚合分析结果能够获取所述云服务器集群中的不可用的云服务器信息。
聚合分析还能够获取不同粒度的网络情况,包括多个区域间的网络情况、不同运营商连接某区域/节点的网络情况、周边区域连接某区域的网络情况等。
步骤107、日志服务器向所述中心服务器上报所述聚合分析结果。
步骤108、中心服务器接收聚合分析结果,根据所述聚合分析结果,将所述执行监控任务的范围内包含的不可用的云服务器自该范围内剔除;
本步骤中,中心服务器接收到聚合分析结果后,根据其内容,确定不可用的云服务器,进而确定了云服务器集群的工作状态。进一步的,需要对执行监控任务的云服务器进行调整,将不可用的云服务器从中剔除,返回步骤101,调整配置,进入下一轮监控监测。对不在执行监控任务的范围内的不可用云服务器,可在下一轮监控任务中继续对其进行监测,也可暂停对其监测(即将其从目标云服务器的范围内剔除)。
下面结合附图,对本发明的实施例二进行说明。
本发明实施例提供了一种云服务器资源监控方法,使用该依法完成对云服务器可用性监控的流程如图2所示,包括:
步骤①:中心服务器读取并更新配置文件从而得到任务列表;配置文件可由网络管理人员配置,也可根据既定大区划分自动生成。
所述更新配置文件为周期性检测更新情况,若配置文件被更新则及时更新任务列表;
步骤②:云服务器向服务器配置管理中心(可为独立设备,也可集成于中心服务器中)获取本机任务状态,进一步从中心服务器获取监控任务(中心服务器主动同步或云服务器周期性获取该监控任务),监控任务具体为任务列表,根据任务列表中的目标云服务器IP地址对目标云服务器(即需要被监控的云服务器)进行ping探测;
步骤③:将ping结果数据存入云服务器硬盘,由云服务器的另一线程进行读取结果数据并回传给日志服务器,当日志服务器成功接收结果数据后,返回数据ID,并从云服务器硬盘中删除所述结果数据;
步骤④:日志服务器接收到ping监测结果数据,判断是否为正确的数据格式,若是则存入日志服务器数据库;获取的监测结果数据至少包括以下信息:目标机IP,监控服务器IP、响应延时、丢包率。根据实际业务需求,上述监测结果数据还可以包含以下信息中的任一或任意多项:
目标机IP运营商、目标机IP省份、监控机IP运营商、监控机IP省份、探测时间。
其中,目标机指被监测的目标云服务器,监控机指执行监控任务的云服务器。
步骤⑤:日志服务器数据库周期性对探测数据进行聚合分析操作,通过聚合操作可以对探测结果进行修正,还可以获取到不同粒度的网络节点之间的网络连通情况。
通过对结果数据的多种聚合分析,能够对ping值超过一定阈值的服务器进行报警、对在新覆盖方案暂时移除工作效率较低的节点(云服务器)并做相应的排查、对某节点发生故障或无法服务时、通过最优节点列表选择最优节点替换故障节点进行服务、根据节点间的连通情况优化内容在节点间传输的路由策略。
步骤⑥:日志服务器周期性将聚合分析的结果返回给中心服务器,中心服务器根据分析结果更改配置文件,重新执行步骤②。
步骤⑦:通过各种接口调用聚合分析结果。
优选的,步骤①中所述中心服务器为主备服务器方案,主备中心服务器之间周期性进行心跳检测,备中心服务器基本功能同主中心服务器,但若与主中心服务器之间心跳检测正常,则只做心跳检测和接收数据存入数据库的处理,若检测到与主中心服务器心跳检测异常,则读取配置文件,下发任务;
步骤①中所述任务列表记录了目标云服务器的IP地址以及对应的ping探测任务;
步骤②中所述对目标云服务器进行ping探测为周期性探测,每隔一定时间间隔统计一次平均延时和平均丢包率,同时将数据存入本地文件;
步骤②中所述获取本机任务状态包括:
(1)对获取前有任务(即任务状态表明能够执行监控任务),获取后没有任务的,取消该云服务器监控任务,断开连接;
(2)对获取前有任务,获取后有任务的,接收最新任务数据;
(3)对获取前没任务,获取后有任务的,连接相应ip,接收相关任务数据;
(4)对获取前没任务,获取后也没任务的,不作处理;
步骤⑤⑥中所述对探测结果进行修正具体指:原来对一个目标云服务器的探测结果,是将多台探测云服务器(即执行监控任务的云服务器)的探测结果求均值(时延均值,丢包率均值),由于探测云服务器本身同时也是其他探测云服务器的目标云服务器,当从对该目标云服务器的探测结果得知其不可用时,及时删除该目标云服务器作为探测云服务器去探测其他目标云服务器所得到的探测数据,避免了错误的探测数据引起的探测结果的不准确。
步骤⑤中所述聚合操作包括从监控机和目标机维度进行数据的聚合分析;
步骤⑤中所述监控机聚合数据包含以下维度,可根据其中任一或任意多个进行聚合:
目标机IP、目标机IP运营商、目标机IP省份、探测时间、响应延时、丢包率;
所述目标机聚合数据格式包含以下维度,可根据其中任一或任意多个进行聚合:
监控机IP、监控机IP运营商、监控机IP省份、探测时间、响应延时、丢包率;
步骤⑤中所述不同粒度网络情况包括多个区域间的网络情况、不同运营商连接某区域/节点的网络情况、周边区域连接某区域的网络情况等。
步骤⑦中通过各种接口调用聚合分析结果包括:用于根据修正后的节点可用性、节点之间的连通情况制定报警、覆盖方案、故障切换、路由优化等策略。
下面结合附图,对本发明的实施例三进行说明。
本发明实施例提供了一种云服务器资源监控系统,其架构如图3所示,包括中心服务器、日志服务器和云服务器集群,所述云服务器集群包含多台云服务器;
所述中心服务器,用于向云服务器集群中的至少一台云服务器下发针对所述云服务器集群可用性的监控任务,接收所述日志服务器发送的对所述至少一台云服务器返回的监测结果数据分析后得到的聚合分析结果,所述聚合分析结果包含所述云服务器集群中的不可用的云服务器信息;
所述日志服务器,用于接收所述云服务器集群中至少一台云服务器上报的依据中心服务器指示的监控任务生成的监测结果数据,对所述监测结果数据进行分析,得到聚合分析结果,向所述中心服务器上报所述聚合分析结果;
所述云服务器,用于接收所述中心服务器下发的针对云服务器集群可用性的监控任务,所述监控任务指示对所述云服务器集群中的至少一台云服务器进行可用性监测,执行所述监控任务,获取监测结果,向所述日志服务器返回监测结果数据,供所述日志服务器分析得到所述云服务器集群中的不可用的云服务器信息。
优选的,所述中心服务器,还用于配置执行监控任务的范围,该范围内包含所述云服务器集群中的至少一台云服务器。
优选的,所述中心服务器,还用于为所述执行监控任务的范围内的至少一台云服务器分别生成监控任务。
优选的,所述中心服务器,还用于根据所述聚合分析结果,将所述执行监控任务的范围内包含的不可用的云服务器自该范围内剔除。
优选的,所述云服务器,还用于在接收到所述云服务集群中其他云服务器发送的探测消息时,对该探测消息进行响应。
优选的,该系统还包含服务器配置管理中心,用于维护各云服务器的任务状态,接受操作人员或中心服务器的控制,向各云服务器提供查询。服务器配置管理中心可为独立的设备,也可集成于中心服务器中。
本发明的实施例提供了一种云服务器资源监控方法和系统,中心服务器向云服务器集群中的至少一台云服务器下发针对所述云服务器集群可用性的监控任务,云服务器接收监控任务后,执行所述监控任务,获取监测结果,并向日志服务器返回监测结果数据,供所述日志服务器分析得到所述云服务器集群中的不可用的云服务器信息;日志服务器对所述监测结果数据进行分析,得到聚合分析结果,所述聚合分析结果包含所述云服务器集群中的不可用的云服务器信息,然后向所述中心服务器上报所述聚合分析结果。云服务器作为被监控目标的同时,也可以执行监控任务,实现了云服务器之间互相检测,和现有技术相比无需额外部署监控机,不仅降低成本,还支持了监控系统跟随服务器集群规模的实时扩展,同时可以获得节点之间的网络连通情况,效率提高,数据更全;中心化配置管理降低监控配置的工作量,在配置需要更改时无需在各监控机进行配置更新,使得配置更改更加快速和灵活;中心服务器可以根据监控结果智能更新配置文件并实时下发,及时剔除故障的云服务器,实时更新监控任务,完成云监控系统的自学习自我完善过程,使监控结果更准确。解决了由于添加了大量监控机构建监控网络造成的监控效率低下、准确度较低且成本大幅增加的问题,实现了灵活快速精确的云服务器资源监控。
上面描述的内容可以单独地或者以各种方式组合起来实施,而这些变型方式都在本发明的保护范围之内。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制。尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (14)

1.一种云服务器资源监控方法,其特征在于,包括:
向云服务器集群中的至少一台云服务器下发针对所述云服务器集群可用性的监控任务;
接收日志服务器发送的对所述至少一台云服务器返回的监测结果数据分析后得到的聚合分析结果,所述聚合分析结果包含所述云服务器集群中的不可用的云服务器信息。
2.根据权利要求1所述的云服务器资源监控方法,其特征在于,下发针对所述云服务器集群可用性的监控任务具体为下发任务列表,在所述任务列表中包含有目标云服务器的IP地址,指示接收到该任务列表的云服务器对所述目标云服务器进行监测。
3.根据权利要求1所述的云服务器资源监控方法,其特征在于,该方法还包括:
配置执行监控任务的范围,该范围内包含所述云服务器集群中的至少一台云服务器。
4.根据权利要求3所述的云服务器资源监控方法,其特征在于,向云服务器集群中的至少一台云服务器下发针对所述云服务器集群可用性的监控任务的步骤之前,还包括:
为所述执行监控任务的范围内的至少一台云服务器分别生成监控任务。
5.根据权利要3所述的云服务器资源监控方法,其特征在于,接收日志服务器发送的对所述至少一台云服务器返回的监测结果数据分析后得到的聚合分析结果的步骤之后,还包括:
根据所述聚合分析结果,将所述执行监控任务的范围内包含的不可用的云服务器自该范围内剔除。
6.一种云服务器资源监控方法,其特征在于,包括:
接收中心服务器下发的针对云服务器集群可用性的监控任务,所述监控任务指示对所述云服务器集群中的至少一台云服务器进行可用性监测;
执行所述监控任务,获取监测结果;
向日志服务器返回监测结果数据,供所述日志服务器分析得到所述云服务器集群中的不可用的云服务器信息。
7.根据权利要求6所述的云服务器资源监控方法,其特征在于,所述监控任务具体为任务列表,在所述任务列表中包含有目标云服务器的IP地址,
执行所述监控任务,获取监测结果的步骤包括:
向所述监控任务指示的目标云服务器的IP地址逐个发送探测消息,探测所述IP地址是否可达;
收集所述目标云服务器对所述探测消息的响应作为监测结果。
8.根据权利要求7所述的云服务器资源监控方法,其特征在于,该方法还包括:
在接收到所述云服务集群中其他云服务器发送的探测消息时,对该探测消息进行响应。
9.一种云服务器资源监控方法,其特征在于,包括:
接收所述云服务器集群中至少一台云服务器上报的依据中心服务器指示的监控任务生成的监测结果数据;
对所述监测结果数据进行分析,得到聚合分析结果,所述聚合分析结果包含所述云服务器集群中的不可用的云服务器信息;
向所述中心服务器上报所述聚合分析结果。
10.一种云服务器资源监控系统,其特征在于,包括中心服务器、日志服务器和云服务器集群,所述云服务器集群包含多台云服务器;
所述中心服务器,用于向云服务器集群中的至少一台云服务器下发针对所述云服务器集群可用性的监控任务,接收所述日志服务器发送的对所述至少一台云服务器返回的监测结果数据分析后得到的聚合分析结果,所述聚合分析结果包含所述云服务器集群中的不可用的云服务器信息;
所述日志服务器,用于接收所述云服务器集群中至少一台云服务器上报的依据中心服务器指示的监控任务生成的监测结果数据,对所述监测结果数据进行分析,得到聚合分析结果,向所述中心服务器上报所述聚合分析结果;
所述云服务器,用于接收所述中心服务器下发的针对云服务器集群可用性的监控任务,所述监控任务指示对所述云服务器集群中的至少一台云服务器进行可用性监测,执行所述监控任务,获取监测结果,向所述日志服务器返回监测结果数据,供所述日志服务器分析得到所述云服务器集群中的不可用的云服务器信息。
11.根据权利要求10所述的云服务器资源监控系统,其特征在于,
所述中心服务器,还用于配置执行监控任务的范围,该范围内包含所述云服务器集群中的至少一台云服务器。
12.根据权利要求11所述的云服务器资源监控系统,其特征在于,
所述中心服务器,还用于为所述执行监控任务的范围内的至少一台云服务器分别生成监控任务。
13.根据权利要11所述的云服务器资源监控系统,其特征在于,
所述中心服务器,还用于根据所述聚合分析结果,将所述执行监控任务的范围内包含的不可用的云服务器自该范围内剔除。
14.根据权利要求10所述的云服务器资源监控系统,其特征在于,
所述云服务器,还用于在接收到所述云服务集群中其他云服务器发送的探测消息时,对该探测消息进行响应。
CN201710439003.9A 2017-06-12 2017-06-12 一种云服务器资源监控方法和系统 Active CN109039795B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710439003.9A CN109039795B (zh) 2017-06-12 2017-06-12 一种云服务器资源监控方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710439003.9A CN109039795B (zh) 2017-06-12 2017-06-12 一种云服务器资源监控方法和系统

Publications (2)

Publication Number Publication Date
CN109039795A true CN109039795A (zh) 2018-12-18
CN109039795B CN109039795B (zh) 2021-10-08

Family

ID=64629994

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710439003.9A Active CN109039795B (zh) 2017-06-12 2017-06-12 一种云服务器资源监控方法和系统

Country Status (1)

Country Link
CN (1) CN109039795B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111193643A (zh) * 2019-12-31 2020-05-22 苏州浪潮智能科技有限公司 一种云服务器状态监控系统及方法
CN111338917A (zh) * 2018-12-19 2020-06-26 贵州白山云科技股份有限公司 一种确定服务器服务能力的动态控制方法及装置
CN112129343A (zh) * 2020-09-11 2020-12-25 武汉天宝莱信息技术有限公司 一种基于云平台的服务器集群监测系统及方法
CN113572644A (zh) * 2021-07-26 2021-10-29 武汉众邦银行股份有限公司 一种互联网云拨测自动化监控方法及装置
CN115277397A (zh) * 2022-08-09 2022-11-01 北京有竹居网络技术有限公司 内容分发网络中内容服务器的控制方法、设备及存储介质
CN115580561A (zh) * 2022-09-29 2023-01-06 广州广电运通金融电子股份有限公司 应用程序的监控方法、设备、计算机可读存储介质和系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246439A (zh) * 2008-03-18 2008-08-20 中兴通讯股份有限公司 一种基于任务调度的自动化测试方法及系统
CN101651564A (zh) * 2009-09-08 2010-02-17 杭州华三通信技术有限公司 一种许可证检测方法、分布式网管系统和服务器
CN101707632A (zh) * 2009-10-28 2010-05-12 浪潮电子信息产业股份有限公司 一种动态监控服务器集群性能并实时报警的方法
CN102075384A (zh) * 2010-12-20 2011-05-25 创新科存储技术有限公司 一种性能测试系统及方法
CN102984004A (zh) * 2012-12-03 2013-03-20 珠海金山网络游戏科技有限公司 服务端监控方法及监控系统
CN103159106A (zh) * 2013-03-27 2013-06-19 中山市卓梅尼控制技术有限公司 电梯维保系统
CN103227839A (zh) * 2013-05-10 2013-07-31 网宿科技股份有限公司 内容分发网络服务器区域自治的管理系统
CN104407966A (zh) * 2014-12-19 2015-03-11 北京京东尚科信息技术有限公司 一种jvm的内存对象数量统计系统及方法
US20150073613A1 (en) * 2013-09-10 2015-03-12 Max Chin Li Smart cloud service power outlet with surge protection and cloud service power consumption monitoring system
CN106331150A (zh) * 2016-09-18 2017-01-11 北京百度网讯科技有限公司 用于调度云服务器的方法和装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246439A (zh) * 2008-03-18 2008-08-20 中兴通讯股份有限公司 一种基于任务调度的自动化测试方法及系统
CN101651564A (zh) * 2009-09-08 2010-02-17 杭州华三通信技术有限公司 一种许可证检测方法、分布式网管系统和服务器
CN101707632A (zh) * 2009-10-28 2010-05-12 浪潮电子信息产业股份有限公司 一种动态监控服务器集群性能并实时报警的方法
CN102075384A (zh) * 2010-12-20 2011-05-25 创新科存储技术有限公司 一种性能测试系统及方法
CN102984004A (zh) * 2012-12-03 2013-03-20 珠海金山网络游戏科技有限公司 服务端监控方法及监控系统
CN103159106A (zh) * 2013-03-27 2013-06-19 中山市卓梅尼控制技术有限公司 电梯维保系统
CN103227839A (zh) * 2013-05-10 2013-07-31 网宿科技股份有限公司 内容分发网络服务器区域自治的管理系统
US20150073613A1 (en) * 2013-09-10 2015-03-12 Max Chin Li Smart cloud service power outlet with surge protection and cloud service power consumption monitoring system
CN104407966A (zh) * 2014-12-19 2015-03-11 北京京东尚科信息技术有限公司 一种jvm的内存对象数量统计系统及方法
CN106331150A (zh) * 2016-09-18 2017-01-11 北京百度网讯科技有限公司 用于调度云服务器的方法和装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111338917A (zh) * 2018-12-19 2020-06-26 贵州白山云科技股份有限公司 一种确定服务器服务能力的动态控制方法及装置
CN111338917B (zh) * 2018-12-19 2023-03-28 贵州白山云科技股份有限公司 一种确定服务器服务能力的动态控制方法及装置
CN111193643A (zh) * 2019-12-31 2020-05-22 苏州浪潮智能科技有限公司 一种云服务器状态监控系统及方法
CN112129343A (zh) * 2020-09-11 2020-12-25 武汉天宝莱信息技术有限公司 一种基于云平台的服务器集群监测系统及方法
CN113572644A (zh) * 2021-07-26 2021-10-29 武汉众邦银行股份有限公司 一种互联网云拨测自动化监控方法及装置
CN113572644B (zh) * 2021-07-26 2024-01-23 武汉众邦银行股份有限公司 一种互联网云拨测自动化监控方法及装置
CN115277397A (zh) * 2022-08-09 2022-11-01 北京有竹居网络技术有限公司 内容分发网络中内容服务器的控制方法、设备及存储介质
CN115277397B (zh) * 2022-08-09 2024-08-23 北京有竹居网络技术有限公司 内容分发网络中内容服务器的控制方法、设备及存储介质
CN115580561A (zh) * 2022-09-29 2023-01-06 广州广电运通金融电子股份有限公司 应用程序的监控方法、设备、计算机可读存储介质和系统

Also Published As

Publication number Publication date
CN109039795B (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
CN109039795A (zh) 一种云服务器资源监控方法和系统
CN107707377B (zh) 一种分析网络节点可用性的方法及系统
CN112073265B (zh) 一种基于分布式边缘计算的物联网监控方法和系统
CN107544839B (zh) 虚拟机迁移系统、方法及装置
US9800653B2 (en) Measuring responsiveness of a load balancing system
CN109857613A (zh) 一种基于采集集群的自动化运维系统
US10548036B2 (en) Fault monitoring by assessing spatial distribution of queries in a utility supply network
CN111817911A (zh) 一种探测网络质量的方法、装置、计算设备及存储介质
CN109787827B (zh) 一种cdn网络监控的方法及装置
CN112333249A (zh) 一种业务服务系统及方法
CN108234161A (zh) 用于线上线下多层网络架构的通路检测方法及系统
CN106021070A (zh) 服务器集群监测方法及装置
CN110196780B (zh) 确定服务器状态的方法、装置、存储介质和电子装置
CN110855481B (zh) 数据采集系统及方法
Li et al. An efficient CPP solution for resilience-oriented SDN controller deployment
CN106034047A (zh) 数据处理方法及装置
JP4900358B2 (ja) サーバ管理システム,サーバ管理方法及びサーバ管理用プログラム
CN110266741B (zh) 一种内容分发网络中的客户业务自动调度方法及装置
CN113300914A (zh) 网络质量监测方法、装置、系统、电子设备和存储介质
US20240281754A1 (en) Performance index value calculation system and performance index value calculation method
CN113890850B (zh) 路由容灾系统及方法
CN109639480B (zh) 一种数据上报的系统和方法
JP2019508975A (ja) ハイパースケール環境における近隣監視
US20240323102A1 (en) Network service build system and network service build method
CN104714868A (zh) 一种分布式计算机自动拨测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant