CN109005085A - 一种服务可用性监控系统、方法、装置及设备 - Google Patents

一种服务可用性监控系统、方法、装置及设备 Download PDF

Info

Publication number
CN109005085A
CN109005085A CN201810972482.5A CN201810972482A CN109005085A CN 109005085 A CN109005085 A CN 109005085A CN 201810972482 A CN201810972482 A CN 201810972482A CN 109005085 A CN109005085 A CN 109005085A
Authority
CN
China
Prior art keywords
testing
service
point
task
service cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810972482.5A
Other languages
English (en)
Other versions
CN109005085B (zh
Inventor
冯浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201810972482.5A priority Critical patent/CN109005085B/zh
Publication of CN109005085A publication Critical patent/CN109005085A/zh
Application granted granted Critical
Publication of CN109005085B publication Critical patent/CN109005085B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/50Testing arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/561Adding application-functional data or data for application control, e.g. adding metadata

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Telephonic Communication Services (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明实施例提供了一种服务可用性监控系统、方法、装置及设备,其中,该系统包括:配置管理数据库CMDB、拨测任务分发中心、拨测点以及监控平台;CMDB,用于保存服务集群对应的服务集群元数据;拨测任务分发中心,用于根据服务集群元数据和拨测点信息,分配拨测任务;将拨测任务下发至拨测点;并接收针对拨测任务的拨测结果;将拨测结果进行聚合得到可用性评价值;拨测点,用于接收拨测任务;确定拨测任务中包括的服务集群对应的拨测代码;根据拨测代码对服务集群进行拨测,得到拨测结果;将拨测结果返回至拨测任务分发中心;监控平台,用于接收并根据可用性评价值进行报警。如此,能够降低对服务可用性监控的复杂度。

Description

一种服务可用性监控系统、方法、装置及设备
技术领域
本发明涉及计算机技术领域,特别是涉及一种服务可用性监控系统、方法、装置及设备。
背景技术
服务可用性非常重要,被称为“服务生命线”。为了保证服务的稳定性,服务提供方监控服务的可用性,并在出现问题时,及时报警。如此,使得在服务出现问题时,能够及时发现问题并进行处理。
现有技术中,针对不同类型的服务,采用不同的拨测框架监控服务可用性。如检测浏览器提供的服务是否可用,是通过检测浏览器是否能够打开网页来确定,当浏览器能够打开网页时,确定服务可用;当浏览器不能够打开网页时,确定服务不可用;而检测聊天软件的通话服务是否可用,是通过向后端服务器发送信息,检测是否能够接收到反馈信息,当能够接收到反馈信息时,确定服务可用;而当无法接收反馈信息时,确定服务不可用,等等。
然而,发明人在实现本发明的过程中发现,现有技术至少存在如下问题:
目前,服务提供方一般会提供多种不同类型的服务,且服务提供方在提供的服务有可能是变化的。例如,时段1提供的服务包括服务1和服务2;而在时段2时,提供的服务包括服务1、服务2和服务3。如此,针对时段1中服务1和服务2的拨测框架无法实现对服务3可用性的监控。如此,即需要先增加针对服务3的拨测框架的部署,然后才能对时段2中包括的所有服务的服务可用性进行监控。而在已有的拨测框架基础上重新部署非常麻烦,如此使得对服务可用性的监控过程复杂。
发明内容
本发明实施例的目的在于提供一种服务可用性监控系统、方法、装置及设备,以降低对服务可用性监控的复杂度。具体技术方案如下:
第一方面,本发明实施例提供了一种服务可用性监控系统,包括:配置管理数据库CMDB、拨测任务分发中心、拨测点以及监控平台;
所述CMDB,用于保存服务集群对应的服务集群元数据;
所述拨测任务分发中心,用于获取服务集群对应的所述服务集群元数据;确定拨测点信息;根据所述服务集群元数据和拨测点信息,分配拨测任务;将所述拨测任务下发至拨测点;并接收所述拨测点返回的针对所述拨测任务的拨测结果;将所述拨测结果进行聚合得到可用性评价值,并将所述可用性评价值发送至监控平台;
所述拨测点,用于接收所述拨测任务分发中心下发的拨测任务;确定所述拨测任务中包括的服务集群对应的拨测代码;根据所述拨测代码对所述服务集群进行拨测,得到拨测结果;将所述拨测结果返回至所述拨测任务分发中心;
所述监控平台,用于接收所述拨测任务分发中心发送的所述可用性评价值,并根据所述可用性评价值进行报警。
可选的,所述拨测任务分发中心,具体用于确定拨测点的总数、各个拨测点对应的数据中心属性以及各个拨测点的负载情况;并根据所述服务集群元数据、所述拨测点的总数、各个拨测点对应的所述数据中心属性、以及各个拨测点的所述负载情况,分配拨测任务。
可选的,所述拨测点,具体用于通过持续集成/持续发布CI/CD与各个拨测代码实时联动,确定所述拨测任务中包括的服务集群对应的拨测代码,其中,所述各个拨测代码被托管至代码管理系统GitLab中。
可选的,所述监控平台,用于接收所述拨测任务分发中心发送的多个所述可用性评价值,并在多个所述可用性评价值满足预设规则时进行报警。
第二方面,本发明实施例提供了一种服务可用性监控方法,应用于拨测任务分发中心,包括:
获取服务集群对应的服务集群元数据;
确定拨测点信息;
根据所述服务集群元数据和拨测点信息,分配拨测任务;
将所述拨测任务下发至拨测点;并接收所述拨测点返回的针对所述拨测任务的拨测结果;
将所述拨测结果进行聚合得到可用性评价值,并将所述可用性评价值发送至监控平台。
可选的,所述拨测点信息包括拨测点的总数、各个拨测点对应的数据中心属性以及各个拨测点的负载情况;
所述根据所述服务集群元数据和拨测点信息,分配拨测任务,包括:
根据所述服务集群元数据、所述拨测点的总数、各个拨测点对应的所述数据中心属性、以及各个拨测点的所述负载情况,分配拨测任务。
第三方面,本发明实施例提供了一种服务可用性监控方法,应用于拨测点,包括:
接收拨测任务分发中心下发的拨测任务;
确定所述拨测任务中包括的服务集群对应的拨测代码;
根据所述拨测代码对所述服务集群进行拨测,得到拨测结果;
将所述拨测结果返回至所述拨测任务分发中心,以使所述拨测任务分发中心将所述拨测结果进行聚合得到可用性评价值,并将所述可用性评价值发送至监控平台。
可选的,所述确定所述拨测任务中包括的服务集群对应的拨测代码,包括:
通过持续集成/持续发布CI/CD与各个拨测代码实时联动,确定所述拨测任务中包括的服务集群对应的拨测代码,其中,所述各个拨测代码被托管至代码管理系统GitLab中。
第四方面,本发明实施例提供了一种服务可用性监控方法,应用于监控平台,包括:
接收拨测任务分发中心发送的可用性评价值;
根据所述可用性评价值进行报警。
可选的,所述接收拨测任务分发中心发送的可用性评价值,包括:
接收所述拨测任务分发中心发送的多个所述可用性评价值;
所述根据所述可用性评价值进行报警,包括:
在多个所述可用性评价值满足预设规则时进行报警。
第五方面,本发明实施例提供了一种服务可用性监控装置,应用于拨测任务分发中心,包括:
获取模块,用于获取服务集群对应的服务集群元数据;
确定模块,用于确定拨测点信息;
分配模块,用于根据所述服务集群元数据和拨测点信息,分配拨测任务;
下发模块,用于将所述拨测任务下发至拨测点;
接收模块,用于接收所述拨测点返回的针对所述拨测任务的拨测结果;
聚合模块,用于将所述拨测结果进行聚合得到可用性评价值;
发送模块,用于将所述可用性评价值发送至监控平台。
可选的,所述拨测点信息包括拨测点的总数、各个拨测点对应的数据中心属性以及各个拨测点的负载情况;
所述分配模块,具体用于根据所述服务集群元数据、所述拨测点的总数、各个拨测点对应的所述数据中心属性、以及各个拨测点的所述负载情况,分配拨测任务。
第六方面,本发明实施例提供了一种服务可用性监控装置,应用于拨测点,包括:
接收模块,用于接收拨测任务分发中心下发的拨测任务;
第一确定模块,用于确定所述拨测任务中包括的服务集群对应的拨测代码;
第二确定模块,用于根据所述拨测代码对所述服务集群进行拨测,得到拨测结果;
返回结果模块,用于将所述拨测结果返回至所述拨测任务分发中心,以使所述拨测任务分发中心将所述拨测结果进行聚合得到可用性评价值,并将所述可用性评价值发送至监控平台。
可选的,所述第一确定模块,具体用于通过持续集成/持续发布CI/CD与各个拨测代码实时联动,确定所述拨测任务中包括的服务集群对应的拨测代码,其中,所述各个拨测代码被托管至代码管理系统GitLab中。
第七方面,本发明实施例提供了一种服务可用性监控装置,应用于监控平台,包括:
接收模块,用于接收拨测任务分发中心发送的可用性评价值;
报警模块,用于根据所述可用性评价值进行报警。
可选的,所述接收模块,具体用于接收所述拨测任务分发中心发送的多个所述可用性评价值;
所述报警模块,具体用于在多个所述可用性评价值满足预设规则时进行报警。
第八方面,本发明实施例提供了一种拨测任务分发设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器,所述通信接口,所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现上述第二方面所述的方法步骤。
第九方面,本发明实施例提供了一种拨测设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器,所述通信接口,所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现上述第三方面所述的方法步骤。
第十方面,本发明实施例提供了一种监控设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器,所述通信接口,所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现上述第四方面所述的方法步骤。
在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第二方面所述的方法步骤。
在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第三方面所述的方法步骤。
在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第四方面所述的方法步骤。
在本发明实施的又一方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第二方面所述的方法步骤。
在本发明实施的又一方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第三方面所述的方法步骤。
在本发明实施的又一方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第四方面所述的方法步骤。
本发明实施例提供的服务可用性监控系统、方法、装置及设备中,配置管理数据库(Configuration Management Database,CMDB),用于保存服务集群对应的服务集群元数据;拨测点中拨测点通过接收拨测任务分发中心下发的拨测任务,确定拨测任务中包括的服务集群对应的拨测代码;并根据拨测代码对服务集群进行拨测,得到拨测结果;将拨测结果返回至拨测任务分发中心,拨测任务分发中心将拨测结果进行聚合得到可用性评价值,并将可用性评价值发送至监控平台,监控根据该可用性评价值进行报警。如此,在新增服务时,无需对拨测框架进行重新部署,只需在CMDB中保存新增服务集群对应的服务集群元数据,即可实现对新增服务可用性的监控,如此能够降低对服务可用性监控的复杂度。且能够节省重新部署对时间的消耗,使得能够高效地对服务可用性进行监控。当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的服务可用性监控系统的结构示意图;
图2为本发明实施例提供的服务可用性监控方法的一种流程图;
图3为本发明实施例提供的服务可用性监控方法的另一种流程图;
图4为本发明实施例提供的服务可用性监控方法的另一种流程图;
图5为本发明实施例提供的具体实施例的示意图;
图6为本发明实施例的服务可用性监控装置的一种结构示意图;
图7为本发明实施例的服务可用性监控装置的另一种结构示意图;
图8为本发明实施例的服务可用性监控装置的一种结构示意图;
图9为本发明实施例提供的拨测任务分发设备的结构示意图;
图10为本发明实施例提供的拨测设备的结构示意图;
图11为本发明实施例提供的监控设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
为了满足用户各种各样的需求,服务提供方需要提供多种不同类型的服务。而对于服务来说,服务可用性非常重要。为了保证服务的稳定性,服务提供方监控服务的可用性,并在出现问题时,及时报警。如此,能够在服务出现问题时,能够及时发现问题并进行处理。
现有技术中,针对于多种不同类型的服务,通过采用不同的拨测框架监控服务可用性,且不同服务对应的服务可用性通过不同的指标来评价。如检测浏览器提供的服务是否可用,是通过检测浏览器是否能够打开网页来确定,当浏览器能够打开网页时,确定服务可用;当浏览器不能够打开网页时,确定服务不可用;而检测聊天软件的通话服务是否可用,是通过向后端服务器发送信息,检测是否能够接收到反馈信息,当能够接收到反馈信息时,确定服务可用;而当无法接收反馈信息时,确定服务不可用。
现有技术中针对不同服务的拨测框架或拨测方式不同,没有一种通用的拨测框架同时适用于多个不同类型的服务。
目前,服务提供方一般会提供多种不同类型的服务,且服务提供方提供的服务有可能会随着时间变化。例如,时段1提供的服务包括服务1和服务2;而在时段2时,提供的服务包括服务1、服务2和服务3。如此,针对时段1中服务1和服务2的拨测框架无法实现对服务3可用性的监控。如此,即需要先增加针对服务3的拨测框架的部署,然后才能对时段2中包括的所有服务的服务可用性进行监控。而在已有的拨测框架基础上重新部署非常麻烦,如此使得对服务可用性的监控过程复杂。同时,重新部署还会造成时间上的消耗,使得对服务可用性的监控消耗时间过长。且调整拨测策略还需要重新上线。
为了降低对服务可用性监控过程的复杂度,本发明实施例提供了一种服务可用性监控系统,包括:配置管理数据库CMDB、拨测任务分发中心、拨测点以及监控平台。CMDB,用于保存服务集群对应的服务集群元数据;拨测点中拨测点通过接收拨测任务分发中心下发的拨测任务,确定拨测任务中包括的服务集群对应的拨测代码;并根据拨测代码对服务集群进行拨测,得到拨测结果;将拨测结果返回至拨测任务分发中心,拨测任务分发中心将拨测结果进行聚合得到可用性评价值,并将可用性评价值发送至监控平台,监控根据该可用性评价值进行报警。如此,针对多种不同类型的服务,提供了一种简单通用的拨测框架,能够实现拨测逻辑与物理拨测框架的解耦,当服务发生变化时,无需对已有的拨测框架进行重新部署,只需要在CMDB中注册发生变化的服务的信息,即可实现对服务可用性的监控。下面进行详细地介绍。
本发明实施例提供了一种服务可用性监控系统,如图1所示,包括:配置管理数据库CMDB101、拨测任务分发中心102、拨测点103以及监控平台104。
CMDB101,用于保存服务集群对应的服务集群元数据。
元数据是关于数据的组织、数据域及其关系的信息。简单理解,即为描述数据的数据。服务集群元数据即为描述服务集群的数据,可以包括服务集群的名称、服务的对象、服务集群对应的服务名称、所位于的数据中心(Data Center,DC)以及下属的服务器等等。其中,所位于的DC可以按地域划分,如北京、上海等。
服务集群可以是实现具体服务的集群。具体可以是ActiveMQ集群、Kafka集群、Zookeeper集群等等。
CMDB101可以认为是服务集群元数据存储中心,保存每个服务集群的属性,通过CMDB101对服务进行注册,即向CMDB101中写入服务集群对应的服务集群元数据。
拨测任务分发中心102,用于获取服务集群对应的服务集群元数据;确定拨测点信息;根据服务集群元数据和拨测点信息,分配拨测任务;将拨测任务下发至拨测点;并接收拨测点返回的针对拨测任务的拨测结果;将拨测结果进行聚合得到可用性评价值,并将可用性评价值发送至监控平台。
拨测任务分发中心102可以是平台、服务器、电子设备等。
拨测任务分发中心102从CMDB101中获取服务集群对应的服务集群元数据。
拨测点信息可以包括拨测点的总数以及各个拨测点对应的数据中心属性,等等。具体地,拨测点可以是互联网数据中心(Internet Data Center,IDC)服务器。拨测点的总数可以是IDC服务器的个数。拨测点对应的数据中心属性,可以是拨测点所位于的地理位置,如北京、上海等;或者可以是拨测点所位于的机房、或者拨测点信息输出的出口等等。具体地,确定拨测点信息可以包括确定各个拨测点的数据中心属性,如确定各个IDC服务器对应的数据中心属性,即确定各个IDC服务器所位于的地理位置;确定所有IDC服务器的总数,等等。
拨测任务具体可以包括:各个拨测点分别与各个服务集群的对应关系。简单可以理解为分配哪个拨测点对哪个服务集群进行拨测。如,拨测点1对应服务集群1,即分配拨测点1对服务集群1进行拨测;或者拨测点2对应服务集群2和服务集群3,即分配拨测点2对服务集群2和服务集群3进行拨测。
具体地,根据服务集群元数据和拨测点信息,分配拨测任务,可以包括:根据服务集群元数据,如服务集群下属的机器的个数、和/或所位于的数据中心,以及拨测点信息,如拨测点的总数、和/或拨测点对应的数据中心属性等,分配各个拨测点分别与服务集群的对应关系。如服务集群1位于数据中心1、服务集群2位于数据中心2;拨测点1对应的数据中心属性为拨测点位于数据中心1,拨测点2对应的数据中心属性为拨测点位于数据中心2,则可以分配拨测任务:拨测点1对应服务集群1,即分配拨测点1对服务集群1进行拨测;拨测点2对应服务集群2,即分配拨测点2对服务集群2进行拨测。
拨测任务中指示各个拨测点对应的服务集群。拨测任务分发中心将拨测任务对应地发送至各个拨测点,以使拨测点对其对应的各个服务集群进行拨测,以得到拨测结果,并将该拨测结果返回至拨测任务分发中心。
拨测结果是拨测点针对服务集群进行拨测得到的结果。拨测任务分发中心102对拨测结果进行聚合,可以是将得到的拨测结果进行量化;或者也可以是将多次得到的拨测结果进行整合、量化等。如针对网络服务进行拨测得到的拨测结果是拨测耗时,对拨测结果进行聚合可以是确定网络连通的拨测耗时阈值,在拨测耗时大于拨测耗时阈值时可以确定网络未连通,此时可以聚合得到可用性评价值为0;在拨测耗时不大于拨测耗时阈值时可以确定网络连通,此时可以聚合得到可用性评价值为1。
拨测点103,用于接收拨测任务分发中心102下发的拨测任务;确定拨测任务中包括的服务集群对应的拨测代码;根据拨测代码对服务集群进行拨测,得到拨测结果;将拨测结果返回至拨测任务分发中心。
拨测点103可以是IDC服务器。一个IDC服务器可以作为一个拨测点。一种实现方式中,多个拨测点可以实现拨测点集群。
具体地,预先生成各个服务集群分别对应的拨测代码。其中,拨测代码实现判断服务是否可用的逻辑。检测不同服务的服务可用性是通过采用不同的方式来实现的,则实现不同服务的服务集群可以对应不同的拨测代码。
将各个拨测代码更新至代码管理系统GitLab。
如此,可以通过服务集群名称从GitLab中获取该服务集群对应的拨测代码。
拨测点,具体用于通过持续集成/持续发布(Continuous integration/continuous deployment,CI/CD)与各个拨测代码实时联动,确定拨测任务中包括的服务集群对应的拨测代码,其中,各个拨测代码被托管至代码管理系统GitLab中。
监控平台104,用于接收拨测任务分发中心102发送的可用性评价值,并根据可用性评价值进行报警。
可用性评价值可以是布尔值。如0、1。本发明实施例一种可实现方式中,可用性评价值为1时表示服务可用,可用性评价值为0时表示服务不可用。当检测到可用性评价值为0时进行报警。如此可以根据可用性评价值直接进行报警。如此能够直观地、及时地进行报警,使得服务出现问题时及时地提示,进而使得可以对服务出现的问题进行处理,以此保证服务的稳定性等。且根据布尔值判断是否报警,实现简单,能够避免报警时的误报,实现准确报警。
具体地,监控平台104可以接收拨测任务分发中心发送的多个可用性评价值,并在多个可用性评价值满足预设规则时进行报警。
在预设时间范围内进行多次拨测,针对多次拨测得到的拨测结果进行聚合得多个可用性评价值,在多个可用性评价值满足预设规则时进行报警。其中,预设时间范围可以是30s、1分钟等等。多个可用性评价值可以是4个、5个等。预设规则可以是多个可用性评价值中有超过预设阈值个表示服务不可用,如为0。例如,可以是当5个可用性评价值中有3个为0时进行报警。
本发明实施例中,在新增服务时,无需对拨测框架进行重新部署,只需在CMDB中保存新增服务集群对应的服务集群元数据,即可实现对新增服务可用性的监控,如此能够降低对服务可用性监控的复杂度。且能够节省重新部署对时间的消耗,使得能够高效地对服务可用性进行监控。
本发明一种可选的实施例中,拨测任务分发中心,具体用于确定拨测点的总数、各个拨测点对应的数据中心属性以及各个拨测点的负载情况;并根据服务集群元数据、拨测点的总数、各个拨测点对应的数据中心属性、以及各个拨测点的负载情况,分配拨测任务。
具体地,在分配拨测任务的过程中考虑各个拨测点的负载情况。其中,各个拨测点的负载情况可以是拨测点当前负责拨测的服务集群的数量。
服务提供方提供的服务有可能发生变化,如此,服务对应的服务集群也会相应地发生变化。
例如,本发明实施例提供的服务可用性监控系统中包括拨测点1和拨测点2。在时段1中拨测点1对应拨测的服务集群包括服务集群1、服务集群2和服务集群3;拨测点2对应拨测的服务集群包括服务集群4、服务集群5和服务集群6。拨测点1和拨测点2的负载数量均为3。而在时段2时,服务集群1和服务集群2下线,此时,拨测点1的负载数量为1,拨测点2的负载数量为3。拨测点2的负载数量大于拨测点1的负载数量。此时,在分配拨测任务时考虑各个拨测点的负载数量,可以重新分配拨测任务,例如,分配拨测点1对应拨测的服务集群包括服务集群3和服务集群4;拨测点2对应拨测的服务集群包括服务集群5和服务集群6拨测点。
如此使得各个拨测点对应的服务集群均衡,能够实现拨测均衡,避免因为拨测负载问题造成的误报等。
本发明实施例还提供了一种服务可用性监控方法,应用于拨测任务分发中心,如图2所示,包括:
S201,获取服务集群对应的服务集群元数据。
拨测任务分发中心从CMDB中获取各个服务集群对应的服务集群元数据。
具体地,服务集群元数据以及服务集群在上述实施例中已经进行了详细地介绍,这里就不再赘述。
S202,确定拨测点信息。
拨测点信息可以包括拨测点的总数以及各个拨测点对应的数据中心属性等。
拨测点可以是IDC服务器。拨测点的总数可以是IDC服务器的个数。
拨测点对应的数据中心属性,可以是拨测点所位于的地理位置,如北京、上海等;或者可以是拨测点所位于的机房、或者拨测点信息输出的出口等等。
S203,根据服务集群元数据和拨测点信息,分配拨测任务。
拨测任务具体可以包括:各个拨测点分别与各个服务集群的对应关系。简单可以理解为分配哪个拨测点对哪个服务集群进行拨测。如,拨测点1对应服务集群1,即分配拨测点1对服务集群1进行拨测;或者拨测点2对应服务集群2和服务集群3,即分配拨测点2对服务集群2和服务集群3进行拨测。
具体地,可以根据服务集群元数据,如服务集群下属的机器的个数,以及拨测点信息,如拨测点的总数和拨测点对应的数据中心属性,分配各个拨测点分别与服务集群的对应关系。
且本发明实施例中,在分配拨测任务时,考虑拨测点的数据中心属性,如此可以分配与服务集群位于同一数据中心的拨测点对该服务集群进行拨测,如此,能够避免由于跨DC产生的误报。
本发明实施例中,拨测任务分发中心是负责任务分发的,并不进行实际的拨测处理。
S204,将拨测任务下发至拨测点;并接收拨测点返回的针对拨测任务的拨测结果。
拨测任务中指示各个拨测点对应的服务集群。拨测任务分发中心将拨测任务对应地发送至各个拨测点,以使拨测点对其对应的各个服务集群进行拨测,以得到拨测结果,并将该拨测结果返回至拨测任务分发中心。如此,拨测任务分发中心可以接收针对拨测任务的拨测结果,即对各个服务进群进行拨测的拨测结果。
S205,将拨测结果进行聚合得到可用性评价值,并将可用性评价值发送至监控平台。
如此使得,监控平台可以根据可用性评价值进行报警。
具体地,可用性评价值可以是布尔Boolean值,如0、1。
拨测任务分发中心对拨测结果进行聚合的过程在上述图1所示实施例中已进行了详细介绍,这里就不再赘述。
本发明实施中,能够实现拨测逻辑与物理拨测框架的解耦,当服务发生变化时,无需对已有的拨测框架进行重新部署,只需要在CMDB中注册发生变化的服务的信息,即可实现对服务可用性的监控。且根据该服务集群元数据和拨测点信息分配拨测任务,能够实现服务集群的准确拨测,提高拨测的可靠性,提高服务的健壮性。
本发明一种可选的实施例中,拨测点信息包括拨测点的总数、各个拨测点对应的数据中心属性以及各个拨测点的负载情况。
步骤S203,根据服务集群元数据和拨测点信息,分配拨测任务,可以包括:
根据服务集群元数据、拨测点的总数、各个拨测点对应的数据中心属性、以及各个拨测点的负载情况,分配拨测任务。
即在分配拨测任务的过程中考虑拨测点的负载情况。例如,可以在拨测点的负载情况发生变化时,重新分配拨测任务。
服务提供方提供的服务有可能发生变化,如此,服务对应的服务集群也会相应地发生变化。本发明实施例中,可以实时监测各个拨测点的负载情况。具体地,可以通过代理服务器Proxy实现对各个拨测点的负载情况的监测。
如此,拨测任务分发中心在分配拨测任务时考虑各个拨测点的负载情况。具体地,考虑各个拨测点的负载情况、分配拨测任务的过程在上述图1实施例中已经进行了详细地介绍,这里就不再赘述。
如此,实现均衡拨测,避免拨测点负载过高时拨测结果的抖动等。
且在各个拨测点的拨测数量均达到饱和时,如各个拨测点负责拨测的服务集群的数量均达到该拨测点能够承担的最大数量时,可以实现拨测点的扩容。具体地,将新增拨测点,如IDC服务器的信息加入至拨测点信息中,如此,拨测任务分发中心获取到的拨测点信息中包括新增的拨测点的信息,进而拨测任务分发中心可以根据增加新拨测点后的所有拨测点,以及服务集群元数据继续分配拨测任务。如此,能够实现拨测的稳定性,进而避免由于拨测点不足的原因对服务可用性监控的影响。
本发明实施例还提供了一种服务可用性监控方法,应用于拨测点,如图3所示,包括:
S301,接收拨测任务分发中心下发的拨测任务。
拨测任务中包括该拨测点对应拨测的服务集群。
S302,确定拨测任务中包括的服务集群对应的拨测代码。
具体地,通过CI/CD与各个拨测代码实时联动,确定拨测任务中包括的服务集群对应的拨测代码,其中,各个拨测代码被托管至代码管理系统GitLab中。
拨测点可以根据服务集群的名称从代码管理系统,如GitLab中获取该服务集群对应的拨测代码。
本发明实施例中,针对每个服务的区别,判断服务是否可用是通过不同的逻辑来实现的,对应地开发实现不同服务的服务集群对应的拨测代码。具体地,拨测代码可以按照预设的格式开发、上传。例如,基于C语言的格式、基于超级文本预处理语言(HypertextPreprocessor,PHP)的格式,等等。拨测代码开发完成后,可以按照服务集群的名称更新中代码管理系统,如GitLab中。一旦更新成功,通过CI/CD的方式,GitLab中的拨测代码自动分发部署到各个拨测点组成的拨测点集群中。
S303,根据拨测代码对服务集群进行拨测,得到拨测结果。
拨测点进行实际的拨测。具体地,可以进行多次拨测,即对服务集群进行多次访问。
具体地,CMDB中可以保存各个服务集群的连接信息。拨测点可以根据拨测任务获取该任务中该拨测点对应的服务集群的连接信息,如连接端口,建立与该服务集群的连接。然后对该服务进群进行拨测,得到针对该拨测任务的、该拨测任务中服务集群对应的拨测结果。
其中,拨测也可以理解为模拟访问。例如,控制拨测话机拨打他号(例如可以包括各种特服号),得出拨打结果:成功、无法接通、久叫不应、对方拒接、掉话等。
S304,将拨测结果返回至拨测任务分发中心。
如此,以使拨测任务分发中心将拨测结果进行聚合得到可用性评价值,并将可用性评价值发送至监控平台。
具体地,拨测任务分发中心对拨测结果进行处理的过程在上述实施例中进行详细地介绍。
本发明实施例中,拨测点根据拨测任务分发中心下发的拨测任务对服务集群进行拨测,以得到拨测结果。如此,能够实现拨测逻辑与物理拨测框架的解耦,且拨测框架简单,能够快速地实现服务的接入。
本发明实施例还一种服务可用性监控方法,应用于监控平台,如图4所示,包括:
S401,接收拨测任务分发中心发送的可用性评价值。
监控平台与拨测任务分发中心交互,以接收拨测任务分发中心发送的可用性评价值。
具体地,可以在预设时间范围内,接收拨测任务分发中心发送的多个可用性评价值。其中,预设时间范围可以是30s、1分钟等等。
S402,根据可用性评价值进行报警。
具体地,在多个可用性评价值满足预设规则时进行报警。
例如,多个可用性评价值可以是4个、5个等。预设规则可以是多个可用性评价值中有超过预设阈值个表示服务不可用,如为0。例如,可以是当5个可用性评价值中有3个为0时进行报警。
本发明实施例中,监控平台无需对可用性评价值进行处理,能够直观、及时地报警。且根据布尔值进行简单判断,使得报警过程简便,实现高效报警,且减少误报率。且监控平台只需保存可用性评价值即可,相比较于根据多种不同类型的指标进行判断是否报警,还能够减少监控平台的存储占用率。
本发明实施例还提供了一个具体实施例,如图5所示。
服务提供方可以提供多个不同类型的服务。具体地,上线多个实现不同服务的服务集群,如服务进群1、服务进群2、服务进群3。具体地,服务集群可以是ActiveMQ集群、Kafka集群、Zookeeper集群等等。
各个服务集群进行服务注册,具体地可以是分别向CMDB注册该服务集群对应的信息。其中,服务集群对应的信息可以是描述服务集群的服务集群元数据,具体可以包括服务集群的名称、服务的对象、服务集群对应的服务名称、所位于的DC以及下属的服务器等等。
拨测任务分发中心从CMDB中获取关于服务集群的信息,结合拨测点信息和关于服务集群的信息,如服务集群元数据,分配拨测任务;并向拨测集群下发任务,具体地,针对拨测任务,对应地将拨测任务下发至组成拨测集群中的各个拨测点,如拨测点1、拨测点2以及拨测点3等。进而完成状态收集,即接收拨测点反馈的这对拨测任务中服务集群的拨测结果。并根据拨测结果得到服务集群对应的可用性评价值,如0或1;并将该可用性评价值发送至监控平台,监控平台接收到该可用性评价值之后,判断是否需要报警,如可用性评价值为0时,表示服务不可用,此时进行报警。且本发明实施例中,可以在接收到的多个可用性评价值中有预设个为0时,进行报警。如5个可用性评价值中有3个为0时,再进行报警。如此,能够防止报警结果的抖动。
拨测点在接收到拨测任务分发中心下发的拨测任务时,对拨测任务中,该拨测点对应的拨测集群进行拨测,具体地可以是进行模拟访问。如此,能够得到针对该拨测集群的拨测结果。
针对不同的服务集群,确定对应的不同的拨测代码。如实现ActiveMQ集群服务可用性拨测逻辑的拨测代码、实现Kafka集群服务可用性拨测逻辑的拨测代码、实现Zookeeper集群服务可用性拨测逻辑的拨测代码,等等。通过GitLab对拨测代码进行管理,具体地,可以通过CI/CD上传、更新拨测代码至GitLab中。且拨测集群可以通过CI/CD与GitLab中各个拨测代码实时联动,确定拨测任务中包括的服务集群对应的拨测代码。
本发明实施例还一种服务可用性监控装置,应用于拨测任务分发中心,如图6所示,包括:
获取模块601,用于获取服务集群对应的服务集群元数据;
确定模块602,用于确定拨测点信息;
分配模块603,用于根据服务集群元数据和拨测点信息,分配拨测任务;
下发模块604,用于将拨测任务下发至拨测点;
接收模块605,用于接收拨测点返回的针对拨测任务的拨测结果;
聚合模块606,用于将拨测结果进行聚合得到可用性评价值;
发送模块607,用于将可用性评价值发送至监控平台。
本发明实施例中,能够实现拨测逻辑与物理拨测框架的解耦,当服务发生变化时,无需对已有的拨测框架进行重新部署,只需要在CMDB中注册发生变化的服务的信息,即可实现对服务可用性的监控。且根据该服务集群元数据和拨测点信息分配拨测任务,能够实现服务集群的准确拨测,提高拨测的可靠性,提高服务的健壮性。
可选的,拨测点信息包括拨测点的总数、各个拨测点对应的数据中心属性以及各个拨测点的负载情况;
分配模块603,具体用于根据服务集群元数据、拨测点的总数、各个拨测点对应的数据中心属性、以及各个拨测点的负载情况,分配拨测任务。
需要说明的是,本发明实施例提供的服务可用性监控装置是应用上述应用于拨测任务分发中心的服务可用性监控方法的装置,则上述应用于拨测任务分发中心的服务可用性监控方法的所有实施例均适用于该装置,且均能达到相同或相似的有益效果。
本发明实施例还提供了一种服务可用性监控装置,应用于拨测点,如图7所示,包括:
接收模块701,用于接收拨测任务分发中心下发的拨测任务;
第一确定模块702,用于确定拨测任务中包括的服务集群对应的拨测代码;
第二确定模块703,用于根据拨测代码对服务集群进行拨测,得到拨测结果;
返回结果模块704,用于将拨测结果返回至拨测任务分发中心,以使拨测任务分发中心将拨测结果进行聚合得到可用性评价值,并将可用性评价值发送至监控平台。
本发明实施例中,拨测点根据拨测任务分发中心下发的拨测任务对服务集群进行拨测,以得到拨测结果。如此,能够实现拨测逻辑与物理拨测框架的解耦,且拨测框架简单,能够快速地实现服务的接入。
可选的,第一确定模块702,具体用于通过CI/CD与各个拨测代码实时联动,确定拨测任务中包括的服务集群对应的拨测代码,其中,各个拨测代码被托管至代码管理系统GitLab中。
需要说明的是,本发明实施例提供的服务可用性监控装置是应用上述应用于拨测点的服务可用性监控方法的装置,则上述应用于拨测点的服务可用性监控方法的所有实施例均适用于该装置,且均能达到相同或相似的有益效果。
本发明实施例还提供了一种服务可用性监控装置,应用于监控平台,如图8所示,包括:
接收模块801,用于接收拨测任务分发中心发送的可用性评价值;
报警模块802,用于根据可用性评价值进行报警。
本发明实施例中,监控平台无需对可用性评价值进行处理,能够直观、及时地报警。且根据布尔值进行简单判断,使得报警过程简便,实现高效报警,且减少误报率。且监控平台只需保存可用性评价值即可,相比较于根据多种不同类型的指标进行判断是否报警,还能够减少监控平台的存储占用率。
可选的,接收模块801,具体用于接收拨测任务分发中心发送的多个可用性评价值;
报警模块,具体用于在多个可用性评价值满足预设规则时进行报警。
需要说明的是,本发明实施例提供的服务可用性监控装置是应用上述应用于监控平台的服务可用性监控方法的装置,则上述应用于监控平台的服务可用性监控方法的所有实施例均适用于该装置,且均能达到相同或相似的有益效果。
本发明实施例还提供了一种拨测任务分发设备,如图9所示,包括处理器901、通信接口902、存储器903和通信总线904,其中,处理器901,通信接口902,存储器903通过通信总线904完成相互间的通信,
存储器903,用于存放计算机程序;
处理器901,用于执行存储器903上所存放的程序时,实现上述应用于拨测任务分发中心的服务可用性监控方法的方法步骤。
本发明实施例中,能够实现拨测逻辑与物理拨测框架的解耦,当服务发生变化时,无需对已有的拨测框架进行重新部署,只需要在CMDB中注册发生变化的服务的信息,即可实现对服务可用性的监控。且根据该服务集群元数据和拨测点信息分配拨测任务,能够实现服务集群的准确拨测,提高拨测的可靠性,提高服务的健壮性。
本发明实施例还提供了一种拨测设备,如图10所示,包括处理器1001、通信接口1002、存储器1003和通信总线1004,其中,处理器1001,通信接口1002,存储器1003通过通信总线1004完成相互间的通信,
存储器1003,用于存放计算机程序;
处理器1001,用于执行存储器1003上所存放的程序时,实现上述应用于拨测点的服务可用性监控方法的方法步骤。
本发明实施例中,拨测点根据拨测任务分发中心下发的拨测任务对服务集群进行拨测,以得到拨测结果。如此,能够实现拨测逻辑与物理拨测框架的解耦,且拨测框架简单,能够快速地实现服务的接入。
本发明实施例还提供了一种监控设备,如图11所示,包括处理器1101、通信接口1102、存储器1103和通信总线1104,其中,处理器1101,通信接口1102,存储器1103通过通信总线1104完成相互间的通信,
存储器1103,用于存放计算机程序;
处理器1101,用于执行存储器1103上所存放的程序时,实现上述应用于监控平台的服务可用性监控方法的方法步骤。
本发明实施例中,监控平台无需对可用性评价值进行处理,能够直观、及时地报警。且根据布尔值进行简单判断,使得报警过程简便,实现高效报警,且减少误报率。且监控平台只需保存可用性评价值即可,相比较于根据多种不同类型的指标进行判断是否报警,还能够减少监控平台的存储占用率。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。其中,电子设备可以包括上述拨测任务分发设备、拨测设备、和监控设备。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述应用于拨测任务分发中心的服务可用性监控方法的方法步骤。
本发明实施例中,能够实现拨测逻辑与物理拨测框架的解耦,当服务发生变化时,无需对已有的拨测框架进行重新部署,只需要在CMDB中注册发生变化的服务的信息,即可实现对服务可用性的监控。且根据该服务集群元数据和拨测点信息分配拨测任务,能够实现服务集群的准确拨测,提高拨测的可靠性,提高服务的健壮性。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述应用于拨测点的服务可用性监控方法的方法步骤。
本发明实施例中,拨测点根据拨测任务分发中心下发的拨测任务对服务集群进行拨测,以得到拨测结果。如此,能够实现拨测逻辑与物理拨测框架的解耦,且拨测框架简单,能够快速地实现服务的接入。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述应用于监控平台的服务可用性监控方法的方法步骤。
本发明实施例中,监控平台无需对可用性评价值进行处理,能够直观、及时地报警。且根据布尔值进行简单判断,使得报警过程简便,实现高效报警,且减少误报率。且监控平台只需保存可用性评价值即可,相比较于根据多种不同类型的指标进行判断是否报警,还能够减少监控平台的存储占用率。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述应用于拨测任务分发中心的服务可用性监控方法的方法步骤。
本发明实施例中,能够实现拨测逻辑与物理拨测框架的解耦,当服务发生变化时,无需对已有的拨测框架进行重新部署,只需要在CMDB中注册发生变化的服务的信息,即可实现对服务可用性的监控。且根据该服务集群元数据和拨测点信息分配拨测任务,能够实现服务集群的准确拨测,提高拨测的可靠性,提高服务的健壮性。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述应用于拨测点的服务可用性监控方法的方法步骤。
本发明实施例中,拨测点根据拨测任务分发中心下发的拨测任务对服务集群进行拨测,以得到拨测结果。如此,能够实现拨测逻辑与物理拨测框架的解耦,且拨测框架简单,能够快速地实现服务的接入。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述应用于监控平台的服务可用性监控方法的方法步骤。
本发明实施例中,监控平台无需对可用性评价值进行处理,能够直观、及时地报警。且根据布尔值进行简单判断,使得报警过程简便,实现高效报警,且减少误报率。且监控平台只需保存可用性评价值即可,相比较于根据多种不同类型的指标进行判断是否报警,还能够减少监控平台的存储占用率。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统、装置、设备、存储介质以及计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (19)

1.一种服务可用性监控系统,其特征在于,包括:配置管理数据库CMDB、拨测任务分发中心、拨测点以及监控平台;
所述CMDB,用于保存服务集群对应的服务集群元数据;
所述拨测任务分发中心,用于获取服务集群对应的所述服务集群元数据;确定拨测点信息;根据所述服务集群元数据和拨测点信息,分配拨测任务;将所述拨测任务下发至拨测点;并接收所述拨测点返回的针对所述拨测任务的拨测结果;将所述拨测结果进行聚合得到可用性评价值,并将所述可用性评价值发送至监控平台;
所述拨测点,用于接收所述拨测任务分发中心下发的拨测任务;确定所述拨测任务中包括的服务集群对应的拨测代码;根据所述拨测代码对所述服务集群进行拨测,得到拨测结果;将所述拨测结果返回至所述拨测任务分发中心;
所述监控平台,用于接收所述拨测任务分发中心发送的所述可用性评价值,并根据所述可用性评价值进行报警。
2.根据权利要求1所述的监控系统,其特征在于,所述拨测任务分发中心,具体用于确定拨测点的总数、各个拨测点对应的数据中心属性以及各个拨测点的负载情况;并根据所述服务集群元数据、所述拨测点的总数、各个拨测点对应的所述数据中心属性、以及各个拨测点的所述负载情况,分配拨测任务。
3.根据权利要求1所述的监控系统,其特征在于,所述拨测点,具体用于通过持续集成/持续发布CI/CD与各个拨测代码实时联动,确定所述拨测任务中包括的服务集群对应的拨测代码,其中,所述各个拨测代码被托管至代码管理系统GitLab中。
4.根据权利要求1所述的监控系统,其特征在于,所述监控平台,用于接收所述拨测任务分发中心发送的多个所述可用性评价值,并在多个所述可用性评价值满足预设规则时进行报警。
5.一种服务可用性监控方法,其特征在于,应用于拨测任务分发中心,包括:
获取服务集群对应的服务集群元数据;
确定拨测点信息;
根据所述服务集群元数据和拨测点信息,分配拨测任务;
将所述拨测任务下发至拨测点;并接收所述拨测点返回的针对所述拨测任务的拨测结果;
将所述拨测结果进行聚合得到可用性评价值,并将所述可用性评价值发送至监控平台。
6.根据权利要求5所述的方法,其特征在于,所述拨测点信息包括拨测点的总数、各个拨测点对应的数据中心属性以及各个拨测点的负载情况;
所述根据所述服务集群元数据和拨测点信息,分配拨测任务,包括:
根据所述服务集群元数据、所述拨测点的总数、各个拨测点对应的所述数据中心属性、以及各个拨测点的所述负载情况,分配拨测任务。
7.一种服务可用性监控方法,其特征在于,应用于拨测点,包括:
接收拨测任务分发中心下发的拨测任务;
确定所述拨测任务中包括的服务集群对应的拨测代码;
根据所述拨测代码对所述服务集群进行拨测,得到拨测结果;
将所述拨测结果返回至所述拨测任务分发中心,以使所述拨测任务分发中心将所述拨测结果进行聚合得到可用性评价值,并将所述可用性评价值发送至监控平台。
8.根据权利要求7所述的方法,其特征在于,所述确定所述拨测任务中包括的服务集群对应的拨测代码,包括:
通过持续集成/持续发布CI/CD与各个拨测代码实时联动,确定所述拨测任务中包括的服务集群对应的拨测代码,其中,所述各个拨测代码被托管至代码管理系统GitLab中。
9.一种服务可用性监控方法,其特征在于,应用于监控平台,包括:
接收拨测任务分发中心发送的可用性评价值;
根据所述可用性评价值进行报警。
10.根据权利要求9所述的方法,其特征在于,所述接收拨测任务分发中心发送的可用性评价值,包括:
接收所述拨测任务分发中心发送的多个所述可用性评价值;
所述根据所述可用性评价值进行报警,包括:
在多个所述可用性评价值满足预设规则时进行报警。
11.一种服务可用性监控装置,其特征在于,应用于拨测任务分发中心,包括:
获取模块,用于获取服务集群对应的服务集群元数据;
确定模块,用于确定拨测点信息;
分配模块,用于根据所述服务集群元数据和拨测点信息,分配拨测任务;
下发模块,用于将所述拨测任务下发至拨测点;
接收模块,用于接收所述拨测点返回的针对所述拨测任务的拨测结果;
聚合模块,用于将所述拨测结果进行聚合得到可用性评价值;
发送模块,用于将所述可用性评价值发送至监控平台。
12.根据权利要求11所述的装置,其特征在于,所述拨测点信息包括拨测点的总数、各个拨测点对应的数据中心属性以及各个拨测点的负载情况;
所述分配模块,具体用于根据所述服务集群元数据、所述拨测点的总数、各个拨测点对应的所述数据中心属性、以及各个拨测点的所述负载情况,分配拨测任务。
13.一种服务可用性监控装置,其特征在于,应用于拨测点,包括:
接收模块,用于接收拨测任务分发中心下发的拨测任务;
第一确定模块,用于确定所述拨测任务中包括的服务集群对应的拨测代码;
第二确定模块,用于根据所述拨测代码对所述服务集群进行拨测,得到拨测结果;
返回结果模块,用于将所述拨测结果返回至所述拨测任务分发中心,以使所述拨测任务分发中心将所述拨测结果进行聚合得到可用性评价值,并将所述可用性评价值发送至监控平台。
14.根据权利要求13所述的装置,其特征在于,所述第一确定模块,具体用于通过持续集成/持续发布CI/CD与各个拨测代码实时联动,确定所述拨测任务中包括的服务集群对应的拨测代码,其中,所述各个拨测代码被托管至代码管理系统GitLab中。
15.一种服务可用性监控装置,其特征在于,应用于监控平台,包括:
接收模块,用于接收拨测任务分发中心发送的可用性评价值;
报警模块,用于根据所述可用性评价值进行报警。
16.根据权利要求15所述的装置,其特征在于,所述接收模块,具体用于接收所述拨测任务分发中心发送的多个所述可用性评价值;
所述报警模块,具体用于在多个所述可用性评价值满足预设规则时进行报警。
17.一种拨测任务分发设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,所述处理器,所述通信接口,所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现权利要求5-6任一所述的方法步骤。
18.一种拨测设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,所述处理器,所述通信接口,所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现权利要求7-8任一所述的方法步骤。
19.一种监控设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,所述处理器,所述通信接口,所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现权利要求9-10任一所述的方法步骤。
CN201810972482.5A 2018-08-24 2018-08-24 一种服务可用性监控系统、方法、装置及设备 Active CN109005085B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810972482.5A CN109005085B (zh) 2018-08-24 2018-08-24 一种服务可用性监控系统、方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810972482.5A CN109005085B (zh) 2018-08-24 2018-08-24 一种服务可用性监控系统、方法、装置及设备

Publications (2)

Publication Number Publication Date
CN109005085A true CN109005085A (zh) 2018-12-14
CN109005085B CN109005085B (zh) 2021-01-29

Family

ID=64593877

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810972482.5A Active CN109005085B (zh) 2018-08-24 2018-08-24 一种服务可用性监控系统、方法、装置及设备

Country Status (1)

Country Link
CN (1) CN109005085B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109921925A (zh) * 2019-02-15 2019-06-21 北京奇艺世纪科技有限公司 一种拨测方法及装置
CN110098958A (zh) * 2019-04-09 2019-08-06 国网上海市电力公司 适用于ims移动办公与智能运维的通信管理系统及危险告警方法
CN110489158A (zh) * 2019-08-01 2019-11-22 北京字节跳动网络技术有限公司 对代码托管平台进行优化的方法、装置、介质和电子设备
CN110932940A (zh) * 2019-12-10 2020-03-27 北京奇艺世纪科技有限公司 一种源地址转换服务监控方法及装置
CN111158979A (zh) * 2019-12-19 2020-05-15 中国建设银行股份有限公司 服务的拨测方法、系统、装置及存储介质
CN111221714A (zh) * 2020-01-02 2020-06-02 广州虎牙科技有限公司 服务拨测方法、装置、系统及存储介质
CN113068216A (zh) * 2021-03-17 2021-07-02 上海牙木通讯技术有限公司 网络拨测方法、网络拨测系统及计算机可读存储介质
CN113132431A (zh) * 2019-12-31 2021-07-16 网联清算有限公司 服务监控方法、服务监控装置、电子设备及介质
CN113190452A (zh) * 2021-05-08 2021-07-30 广州趣丸网络科技有限公司 一种拨测服务系统、方法、设备和存储介质
CN113595819A (zh) * 2021-07-22 2021-11-02 中移(杭州)信息技术有限公司 网站健康检测方法、装置、设备以及计算机可读存储介质
CN115277397A (zh) * 2022-08-09 2022-11-01 北京有竹居网络技术有限公司 内容分发网络中内容服务器的控制方法、设备及存储介质
CN115514663A (zh) * 2022-09-23 2022-12-23 北京奇艺世纪科技有限公司 一种拨测方法、系统、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030005078A1 (en) * 2001-06-28 2003-01-02 Turicchi Thomas Edwin Apparatus and method for providing user-requested content through an alternate network service
US20070038737A1 (en) * 2005-07-19 2007-02-15 International Business Machines Corporation System and method for networking educational equipment
CN106412063A (zh) * 2016-09-29 2017-02-15 赛尔网络有限公司 教育网内cdn节点检测与资源调度系统及方法
CN106936659A (zh) * 2015-12-30 2017-07-07 华为技术有限公司 一种公有云的拨测方法和装置
CN107332730A (zh) * 2017-06-19 2017-11-07 北京奇艺世纪科技有限公司 一种协议可扩展的服务可用性探测系统及方法
CN108156024A (zh) * 2017-12-11 2018-06-12 深圳市易聆科信息技术股份有限公司 一种基于分布式网站可用性探测方法、系统及存储介质
CN108418710A (zh) * 2018-02-09 2018-08-17 北京奇艺世纪科技有限公司 一种分布式监控系统、方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030005078A1 (en) * 2001-06-28 2003-01-02 Turicchi Thomas Edwin Apparatus and method for providing user-requested content through an alternate network service
US20070038737A1 (en) * 2005-07-19 2007-02-15 International Business Machines Corporation System and method for networking educational equipment
CN106936659A (zh) * 2015-12-30 2017-07-07 华为技术有限公司 一种公有云的拨测方法和装置
CN106412063A (zh) * 2016-09-29 2017-02-15 赛尔网络有限公司 教育网内cdn节点检测与资源调度系统及方法
CN107332730A (zh) * 2017-06-19 2017-11-07 北京奇艺世纪科技有限公司 一种协议可扩展的服务可用性探测系统及方法
CN108156024A (zh) * 2017-12-11 2018-06-12 深圳市易聆科信息技术股份有限公司 一种基于分布式网站可用性探测方法、系统及存储介质
CN108418710A (zh) * 2018-02-09 2018-08-17 北京奇艺世纪科技有限公司 一种分布式监控系统、方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
姜峰: ""基于用户感知的自动拨测系统"", 《科学与财富》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109921925A (zh) * 2019-02-15 2019-06-21 北京奇艺世纪科技有限公司 一种拨测方法及装置
CN110098958A (zh) * 2019-04-09 2019-08-06 国网上海市电力公司 适用于ims移动办公与智能运维的通信管理系统及危险告警方法
CN110489158A (zh) * 2019-08-01 2019-11-22 北京字节跳动网络技术有限公司 对代码托管平台进行优化的方法、装置、介质和电子设备
CN110489158B (zh) * 2019-08-01 2023-05-05 北京字节跳动网络技术有限公司 对代码托管平台进行优化的方法、装置、介质和电子设备
CN110932940A (zh) * 2019-12-10 2020-03-27 北京奇艺世纪科技有限公司 一种源地址转换服务监控方法及装置
CN111158979A (zh) * 2019-12-19 2020-05-15 中国建设银行股份有限公司 服务的拨测方法、系统、装置及存储介质
CN113132431B (zh) * 2019-12-31 2023-01-31 网联清算有限公司 服务监控方法、服务监控装置、电子设备及介质
CN113132431A (zh) * 2019-12-31 2021-07-16 网联清算有限公司 服务监控方法、服务监控装置、电子设备及介质
CN111221714A (zh) * 2020-01-02 2020-06-02 广州虎牙科技有限公司 服务拨测方法、装置、系统及存储介质
CN113068216A (zh) * 2021-03-17 2021-07-02 上海牙木通讯技术有限公司 网络拨测方法、网络拨测系统及计算机可读存储介质
CN113190452A (zh) * 2021-05-08 2021-07-30 广州趣丸网络科技有限公司 一种拨测服务系统、方法、设备和存储介质
CN113595819A (zh) * 2021-07-22 2021-11-02 中移(杭州)信息技术有限公司 网站健康检测方法、装置、设备以及计算机可读存储介质
CN113595819B (zh) * 2021-07-22 2024-05-07 中移(杭州)信息技术有限公司 网站健康检测方法、装置、设备以及计算机可读存储介质
CN115277397A (zh) * 2022-08-09 2022-11-01 北京有竹居网络技术有限公司 内容分发网络中内容服务器的控制方法、设备及存储介质
CN115514663A (zh) * 2022-09-23 2022-12-23 北京奇艺世纪科技有限公司 一种拨测方法、系统、装置、电子设备及存储介质
CN115514663B (zh) * 2022-09-23 2023-10-27 北京奇艺世纪科技有限公司 一种拨测方法、系统、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN109005085B (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
CN109005085A (zh) 一种服务可用性监控系统、方法、装置及设备
CN111181801B (zh) 节点集群测试方法、装置、电子设备及存储介质
US8938489B2 (en) Monitoring system performance changes based on configuration modification
CN108377201B (zh) 网络异常感知方法、装置、设备及计算机可读存储介质
CN110808922B (zh) 一种消息处理方法、装置、存储介质及电子设备
US20060200373A1 (en) Facilitating Root Cause Analysis for Abnormal Behavior of Systems in a Networked Environment
US11283696B2 (en) Diagnostic testing in networks
CN107872402A (zh) 全局流量调度的方法、装置及电子设备
US9104565B2 (en) Fault tracing system and method for remote maintenance
CN109992473A (zh) 应用系统的监控方法、装置、设备及存储介质
CN109921925A (zh) 一种拨测方法及装置
CN109669835A (zh) MySQL数据库监控方法、装置、设备及可读存储介质
CN109815093A (zh) 服务器监控方法、装置、计算机设备及存储介质
CN110688277A (zh) 用于微服务框架的数据监控方法及装置
CN105515884B (zh) 一种统计流量的方法和装置
CN108039956A (zh) 应用监控方法、系统和计算机可读存储介质
CN108400885A (zh) 一种服务可用性检测方法、装置及电子设备
CN109982034A (zh) 视频监控系统中的访问请求处理方法及装置
CN112948224A (zh) 一种数据处理方法、装置、终端及存储介质
CN110673973B (zh) 应用程序编程接口api的异常确定方法和装置
de Carvalho et al. Efficient configuration of monitoring slices for cloud platform administrators
CN108880930B (zh) 一种网络环路的检测方法及设备
CN108681499B (zh) 运维监控方法、装置与计算机可读存储介质
CN107395450B (zh) 应用登录情况的监测方法和装置、存储介质、电子装置
CN109274533A (zh) 一种基于规则引擎的Web服务故障的定位装置和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant