CN103685486A - 跨数据中心集群的分布式系统监控方法及系统 - Google Patents

跨数据中心集群的分布式系统监控方法及系统 Download PDF

Info

Publication number
CN103685486A
CN103685486A CN201310636793.1A CN201310636793A CN103685486A CN 103685486 A CN103685486 A CN 103685486A CN 201310636793 A CN201310636793 A CN 201310636793A CN 103685486 A CN103685486 A CN 103685486A
Authority
CN
China
Prior art keywords
monitoring
monitoring client
information
control end
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310636793.1A
Other languages
English (en)
Other versions
CN103685486B (zh
Inventor
杨庆林
孙毓忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Flux Technology Co ltd
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201310636793.1A priority Critical patent/CN103685486B/zh
Publication of CN103685486A publication Critical patent/CN103685486A/zh
Application granted granted Critical
Publication of CN103685486B publication Critical patent/CN103685486B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明涉及一种跨数据中心集群的分布式系统监控方法及系统,该系统采用多层分布式的架构,共包括业务层和支撑层两个层级及其业务端、控制端、汇总端、监控端四个模块组成的监控架构;其中,业务层包括业务端、控制端两类功能对象;支撑层包括汇总端和监控端两类功能对象;从而实现了统一管理、稳定开放的针对云计算跨越多数据中心的监控架构。

Description

跨数据中心集群的分布式系统监控方法及系统
技术领域
本发明涉及服务器集群监控领域,尤其涉及横跨多数据中心实现监控系统及方法。
背景技术
随着云计算越来越多地应用到信息产业的各个领域,云平台所依托的数据中心数量逐渐增多、规模日趋庞大,进而出现单一云平台中运行的业务横跨多个数据中心的情况。如何有效地实现监控和管理庞大数量、跨数据中心、跨地域的集群设备并且保证系统的高性能和高可用性是当前面临的必要和紧迫的问题。
目前业界普遍采用的第一种监控架构是金字塔式的,例如由某大学的国家高性能计算机实验室研发针对的通用的应用于大规模Linux集群的监控系统软件SuperMon,它分为三个层次:底层每个节点上的数据服务(mon)用来收集节点状态信息,中层的数据集中器(Supermon)汇总来自每个mon的数据并处理来自上层的数据请求实例,最上层的应用客户端或顶层数据集中器汇总每个Supermon的数据,进行显示或者再次汇总;另外由Yahoo开发的基于Hadoop之上的用于分布式系统状态监控的大型数据采集与分析系统Chukwa,由Agent和Collector组件组成,Agent负责采集监控主机上原始数据,Collector负责收集Agent发送的数据并做持久化处理。这些软件组成的模块首先所有最底层被监控的服务器节点上的代理程序收集数据,然后每个代理程序将数据汇聚给所在集群的中心监控服务器节点,最后中心监控服务器节点将数据累积上传给总监控服务器节点,监控集群的数据则需要从总监控节点获取。
采用这种架构存在以下几个问题:
(1)大量监控数据由下层服务器节点同时向总监控节点汇集,同时总监控节点还要响应业务方面获取监控数据的请求,无疑极大增加了总监控节点的输入输出压力,同时也直接导致稳定性下降,不能很好地满足日常业务需求。
(2)监控系统中节点角色的唯一性,如果中心监控节点出现问题,则部分监控系统就失效了;如果总监控服务器节点出现故障或宕机,则整个监控系统随之陷于瘫痪。
(3)面对跨多个数据中心的业务时,总监控节点在总数据量和架构的瓶颈限制下将很难横跨多个数据中心,将很大程度上减慢响应的时间而无法满足实时性的要求。
第二种监控架构为分布式架构,突出的代表是由美国UC Berkeley开发维护的Ganglia软件,它基于XML技术的数据传递可以是系统的状态数据跨越不同的系统平台而进行交互,解决了系统间异构性的问题;采用基于多播的listen/announce协议,每个节点向所有相邻节点发出自身节点的状态监控信息。收发大量不必要的冗余信息,造成网络和节点I/O开销非常大,导致监控数据刷新的频率较慢。
另外,上面所述的Ganglia在用户进行安装初始化过程中,每个节点的代理端gmond都需要手工配置参数后才能运行,如果需要变更运行配置参数,还需要逐个节点进行修改后重启程序,过程非常繁琐,是监控系统的灵活性和可扩展性随之下降。
发明专利一种超大规模集群监控系统及方法,该系统包括分区监控服务器和中心监控服务器;每个分区监控服务器采集到每个分区集群内部信息后,将该信息推送至中心监控服务器;中心监控服务器接收来自分区监控服务器的信息,并按照信息对所有分区进行统一配置,然后将统一配置结果提供给分区监控服务器;分区监控服务器接收来自中心监控服务器的统一配置结果,按此结果对集群进行监控和管理。该发明采用了分区监控服务器和中心监控服务器的金字塔架构,当下层分区监控服务器及被监控的节点规模增大时,中心监控服务器的网络和本机I/O非常大。并且没有实现对于业务个性化监控请求的定制,没有对于单个业务运行在多个数据中心情况下的协同处理,仍然停留在单个数据中心的层面。但是仅仅解决业务定制的问题,并没有将各层节点的职能做了清晰地划分而使监控集群更加高效。
发明专利分布式集群监控系统及方法,该方法包括以下步骤:每个分中心监控服务器采集到每个分布式集群内部的信息后,将信息推送至中心监控服务器。中心监控服务器接收来自分中心监控服务器的信息,并按照信息对所有分布式集群进行统一配置,然后将统一配置的结果提供给分中心监控服务器。分中心监控服务器接收来自中心监控服务器的统一配置结果,按照配置结果对分布式集群进行监控和管理。该发明为每个子集群创建了分中心的监控器,将采集到的集群内部信息推送到中心监控服务器,仍然会造成中心监控服务器的网络和节点I/O巨大的问题没有解决。没有满足业务的个性化监控定制需求,并且针对各层节点的动态扩展性和运行时稳定性不佳。
发明内容
为了解决对云计算横跨多数据中心的服务器集群的监控当前面临的诸多问题,提出了跨数据中心集群的分布式系统监控方法及系统,采用监控数据汇聚和节点关系控制相分离的方式实现,降低了高层节点的负载,使监控系统更加有针对性和效率。通过使用统一的集中式监控平台,有效实现了对超大规模集群进行高效的监控和管理。
具体地讲,本发明公开了一种跨数据中心集群的分布式系统监控系统,该系统采用多层分布式的架构,共包括业务层和支撑层两个层级及其业务端、控制端、汇总端、监控端四个模块组成的监控架构;其中,业务层包括业务端、控制端两类功能对象;支撑层包括汇总端和监控端两类功能对象;
监控模板,用于规定监控端需要收集的数据域的信息;
业务端,用于向监控集群请求获取所有监控数据信息;
控制端,用于保存汇总端和监控端服务器的映射关系;负责处理业务端、控制端、监控端和汇总端的注册请求,并协调这业务端、汇总端、监控端服务器正常地运行;管理和控制汇总端和监控端的监控内容和策略;
汇总端,用于统计和处理监控端上传的监控数据;分解由控制端下发的监控模板,根据内容下发给对应的监控端;响应业务端提交的获取集群内的监控数据请求;向控制端上传其下辖监控端的资源或设备的报警信息;
监控端,用于根据监控模板监控本机的各项指标数据,并向汇总端进行提交;运行由汇总端下发更新的监控模板规定的内容;
监控集群,用于将监控端、汇总端和控制端运行完整监控系统模块的集合。
该四个模块在该系统中均包括多个服务器节点。
该数据域的信息,包括控制端和汇总端的设备信息、域元素的名称、数值精度、域元素单位、采集和上传的时间间隔和上下限值、唯一标识、附加信息等数据域相关的内容和待监控端节点列表、监控起止时间、备用分流控制端节点列表、备用分流汇总端节点列表、数值特征汇总方式等策略操作的相关信息。
本发明还公开了一种跨数据中心集群的分布式系统监控方法,采用多层分布式的架构,共包括业务层和支撑层两个层级及其业务端、控制端、汇总端、监控端四个模块组成的监控架构;其中,业务层包括业务端、控制端两类功能对象;支撑层包括汇总端和监控端两类功能对象;
启动步骤,用于规定监控端需要收集的数据域的信息;
业务步骤,用于向监控集群请求获取所有监控数据信息;
控制步骤,用于保存汇总端和监控端服务器的映射关系;负责处理业务端、控制端、监控端和汇总端的注册请求,并协调这业务端、汇总端、监控端服务器正常地运行;管理和控制汇总端和监控端的监控内容和策略;
汇总步骤,用于统计和处理监控端上传的监控数据;分解由控制端下发的监控模板,根据内容下发给对应的监控端;响应业务端提交的获取集群内的监控数据请求;向控制端上传其下辖监控端的资源或设备的报警信息;
监控步骤,用于根据监控模板监控本机的各项指标数据,并向汇总端进行提交;运行由汇总端下发更新的监控模板规定的内容;
监控集群步骤,用于将监控端、汇总端和控制端运行完整监控系统模块的集合。
四个模块的启动步骤如下:
步骤S1,控制端初始化过程;
步骤S11,如果监控集群在没有其他的控制端的情况下,则直接运行新控制端即可;
步骤S12,如果监控集群存在其他控制端时,则新控制端将本机信息向监控集群中在任意一个目的控制端发送注册请求;
步骤S13,目的控制端返回注册结果信息,如果成功,则返回包括所有控制端节点的信息,然后运行下面的步骤;如果失败则终止;
步骤S14,新添加的控制端如果存在下辖汇总端和监控端等服务器节点时,则继续向目的控制端同步其下辖汇总端-监控端映射关系以及监控端的监控模板信息;
步骤S15,目的控制端将包括新添加的控制端配置信息、新增的下辖汇总端-监控端映射关系和监控模板信息等内容同步到监控集群众所有其他的控制端中。
其中,汇总步骤具体包括如下步骤:
步骤S21,新汇总端向控制端发送包括本机配置信息的注册请求;
步骤S22,控制端处理步骤S21的请求并返回结果,成功则继续进行下列步骤;失败则终止;
步骤S23,汇总端如果有下辖的监控端节点时,则将其与所有下辖监控端的映射关系、各节点监控模板和配置信息整理并向控制端发送加入监控集群的附加请求;如果没有下辖监控端节点,则终止;
步骤S24,控制端处理S23步骤的附加请求,校验并记录新增加的汇总端上传的配置信息、各个监控模板和汇总端-监控端映射关系信息;
步骤S25,控制端根据汇总端的配置等信息处理并返回汇总端和监控端绑定结果,并返回备用分流控制端服务器信息列表;
步骤S26,控制端将本机信息、新增的汇总端-监控端映射关系数据和监控模板同步到另外的控制端中。
监控步骤分封闭式和开放式,其中封闭式监控步骤具体包括如下步骤:
步骤S31,监控端将包括本机信息的注册请求发送给汇总端;
步骤S32,汇总端将包括监控模板等信息返回给监控端;
步骤S33,监控端根据步骤S32返回的监控模板中规定的内容,评估本节点的配置和性能后进行填充,然后上传给汇总端;
步骤S34,汇总端根据步骤S33填充的监控模板内容确定是否进行添加。如果添加,则更新保存本机中的汇总端-监控端的映射关系和监控端节点的模板信息;反之,则向监控端节点回应拒绝信息;
步骤S35,最后将监控端的监控模板和新增的汇总端-监控端映射关系上传到控制端中,完成与监控端的绑定操作;
步骤S36,汇总端向监控端返回注册处理结果信息;
步骤S37,控制端向监控集群中所有其他的监控端同步新增加的汇总端-监控端映射关系信息和监控模板。
监控步骤分封闭式和开放式,其中开放式监控步骤具体包括如下步骤:
步骤S41,新监控端将包括本机配置信息的注册请求发送给控制端;
步骤S42,控制端将监控模板信息返回给请求的监控端;
步骤S43,监控端根据本机的实际配置和性能填充步骤S42返回的监控模板,继续向控制端发送请求;
步骤S44,控制端根据步骤S43中填充好的监控模板的信息确定是否在监控集群中添加监控端,如果成功添加则返回控制端保存的下辖汇总端列表信息给监控端,之后进行下述步骤;反之则返回拒绝信息;
步骤S45,监控端收到步骤S44中的汇总端节点列表之后,验证与汇总端节点的连通性;
步骤S46,如果联通成功则将本机信息和欲加入的汇总端信息向控制端提交绑定请求;
步骤S47,控制端将此监控端的请求进行记录并新增汇总端-监控端映射关系后,将监置控模板信息和配信息下发到对应的汇总端中,然后向新监控端发送绑定成功信息;
步骤S48,新监控端根据步骤S43中填充好的监控模板规定的数据内容要求收集和整理,然后向汇总端上传监控数据;
步骤S49,在步骤S42中的控制端向监控集群中的其他控制端节点同步新加入的监控端信息及与汇总端的映射关系。
业务步骤具体包括如下步骤:
步骤S51,业务端向控制端发送包括业务端的基本信息、请求的进行监控的节点集合、需要获取节点的数据域及其采集频率和精度等内容的监控模板请求信息;
步骤S52,控制端根据业务端的请求,在所有汇总端-监控端映射关系中查询符合条件的汇总端和监控端服务器节点列表,然后生成为后续业务端与汇总端通信索引用的唯一标识;
步骤S53,控制端分解业务端的请求内容,分别将包括业务端节点信息、对应的监控端节点列表集合、唯一标识等监控模板信息逐个下发给所有监控端对应汇总端服务器;
步骤S54,控制端向业务端返回包括汇总端列表信息的请求处理结果和在S52步骤中生成的业务端和汇总端通信的唯一标识;
步骤S55,业务端将包括机器信息和唯一标识的监控请求逐个发送给步骤S54中的列表中的所有汇总端服务器;
步骤S56,汇总端根据业务端的请求中包括的机器信息和唯一标识查询并整理其需要的所有下辖监控端的数据;
步骤S57,汇总端将步骤S56中的监控数据返回给业务端。
所述的跨数据中心集群的分布式系统监控方法,开放式监控步骤在监控集群中的注销过程、封闭式监控步骤在监控集群中的注销过程、汇总步骤在监控集群的注销过程与各自的启动步骤相同。
本发明中系统实现了统一管理、稳定开放的针对云计算跨越多数据中心的监控架构,具有如下技术效果:
1、控制端和汇总端负责维护整个监控集群各类型节点列表和映射关系等核心数据,降低了上层节点的负载,缩短了监控数据传输路径,降低了网络间和节点I/O的开销,使监控系统更加高效。
2、控制端和汇总端均采用分布式的架构,包括各自的备用分流节点,在单个节点负载量较大或者宕机的情况下,仍然能够保证了系统运行和响应的稳定性。
3、开放性的监控系统很好的满足了多数据中心和多业务方的可定制化监控的需求,例如在业务跨多数据中心的情况下,即可根据业务方的需求进行监控信息的定制和获取;在监控过程中,业务的监控需求可以实现动态同步到所有目的监控节点并执行。
附图说明
图1为多示意图;
图1监控系统结构图;
图2监控系统初始化流程图;
图3控制端初始化过程;
图4汇总端初始化过程;
图5封闭式监控端初始化过程;
图6开放式监控端初始化过程;
图7业务端初始化过程。
具体实施方式
本发明的监控系统采用多层分布式的架构,并且系统共包括两个层级及其下四个模块类型组成的监控软件架构。两个层级分别为业务层和支撑层(参见附图1),四个软件模块分别是:业务层包括运行业务端监控软件的服务器(简称业务端)和运行控制端软件服务器(简称控制端)两类功能对象;支撑层包括运行汇总端软件的服务器(简称汇总端)和运行监控端软件的服务器(简称监控端)两类功能对象。每个模块类型在监控系统中包括多个节点。
监控模板(简称模板):规定监控端需要收集的数据域的信息,包括控制端和汇总端的设备信息、域元素的名称、数值精度、域元素单位、采集和上传的时间间隔和上下限值、唯一标识、附加信息等数据域相关的内容和待监控端节点列表、监控起止时间、备用分流控制端节点列表、备用分流汇总端节点列表、数值特征汇总方式等策略操作的相关信息。
业务端:向监控集群请求获取所有指定服务器节点的监控数据信息。
控制端:保存汇总端和监控端服务器的映射关系;负责处理业务端、控制端、监控端和汇总端的注册请求,并协调这业务端、汇总端、监控端服务器正常地运行;管理和控制汇总端和监控端的监控内容和策略。
汇总端:统计和处理监控端上传的监控数据;分解由控制端下发的监控模板,根据内容下发给对应的监控端;响应业务端提交的获取集群内的监控数据请求;向控制端上传其下辖监控端的资源或设备的报警信息。
监控端:根据监控模板监控本机的各项指标数据,并向汇总端进行提交;运行由汇总端下发更新的监控模板规定的内容。
监控集群:以上所有类型的服务器节点(监控端、汇总端和控制端)运行完整监控系统模块的集合。
本发明的监控系统启动的流程如附图2所示,每个模块部分的详细启动流程分解为如下具体步骤:
步骤S1,控制端初始化过程(参见图3)
步骤S11,如果监控集群在没有其他的控制端的情况下,则直接运行新控制端即可。
步骤S12,如果监控集群存在其他控制端时,则新控制端将本机信息向监控集群中在任意一个目的控制端发送注册请求。
步骤S13,目的控制端返回注册结果信息,如果成功,则返回包括所有控制端节点的信息,然后运行下面的步骤;如果失败则终止。
步骤S14,新添加的控制端如果存在下辖汇总端和监控端等服务器节点时,则继续向目的控制端同步其下辖汇总端-监控端映射关系以及监控端的监控模板信息。
步骤S15,目的控制端将包括新添加的控制端配置信息、新增的下辖汇总端-监控端映射关系和监控模板信息等内容同步到监控集群众所有其他的控制端中。
同理,可以类似上述步骤完成控制端服务器节点在监控集群的注销过程。
步骤S2,汇总端初始化过程(参见附图4)
步骤S21,新汇总端向控制端发送包括本机配置信息的注册请求;
步骤S22,控制端处理步骤S21的请求并返回结果,成功则继续进行下列步骤;失败则终止。
步骤S23,汇总端如果有下辖的监控端节点时,则将其与所有下辖监控端的映射关系、各节点监控模板和配置信息整理并向控制端发送加入监控集群的附加请求;如果没有下辖监控端节点,则终止;
步骤S24,控制端处理步骤S23的附加请求,校验并记录新增加的汇总端上传的配置信息、各个监控模板和汇总端-监控端映射关系信息;
步骤S25,控制端根据汇总端的配置等信息处理并返回汇总端和监控端绑定结果,并返回备用分流控制端服务器信息列表;
步骤S26,控制端将本机信息、新增的汇总端-监控端映射关系数据和监控模板同步到另外的控制端中。
同理,可以类似上述步骤完成汇总端在监控集群的注销过程。
步骤S3,封闭式监控端初始化过程(参见附图5)
步骤S31,监控端将包括本机信息的注册请求发送给汇总端;
步骤S32,汇总端将包括监控模板等信息返回给监控端;
步骤S33,监控端根据步骤S32返回的监控模板中规定的内容,评估本节点的配置和性能后进行填充,然后上传给汇总端。
步骤S34,汇总端根据步骤S33填充的监控模板内容确定是否进行添加。如果添加,则更新保存本机中的汇总端-监控端的映射关系和监控端节点的模板信息。反之,则向监控端节点回应拒绝信息。
步骤S35,最后将监控端的监控模板和新增的汇总端-监控端映射关系上传到控制端中,完成与监控端的绑定操作。
步骤S36,汇总端向监控端返回注册处理结果信息。
步骤S37,控制端向监控集群中所有其他的监控端同步新增加的汇总端-监控端映射关系信息和监控模板。
同理,可以类似上述步骤完成封闭式监控端在监控集群中的注销过程。
步骤S4,开放式监控端初始化过程(参见附图6)
步骤S41,新监控端将包括本机配置信息的注册请求发送给控制端;
步骤S42,控制端将监控模板信息返回给请求的监控端。
步骤S43,监控端根据本机的实际配置和性能填充步骤S42返回的监控模板,继续向控制端发送请求。
步骤S44,控制端根据步骤S43中填充好的监控模板的信息确定是否在监控集群中添加监控端,如果成功添加则返回控制端保存的下辖汇总端列表信息给监控端,之后进行下述步骤;反之则返回拒绝信息。
步骤S45,监控端收到步骤S44中的汇总端节点列表之后,验证与汇总端节点的连通性。
步骤S46,如果联通成功则将本机信息和欲加入的汇总端信息向控制端提交绑定请求。
步骤S47,控制端将此监控端的请求进行记录并新增汇总端-监控端映射关系后,将监置控模板信息和配信息下发到对应的汇总端中,然后向新监控端发送绑定成功信息。
步骤S48,新监控端根据步骤S43中填充好的监控模板规定的数据内容要求收集和整理,然后向汇总端上传监控数据。
步骤S49,在步骤S42中的控制端向监控集群中的其他控制端节点同步新加入的监控端信息及与汇总端的映射关系。
同理,可以类似上述步骤完成开放式监控端在监控集群中的注销过程。
步骤S5,业务端初始化过程(参见附图7)
步骤S51,业务端向控制端发送包括业务端的基本信息、请求的进行监控的节点集合、需要获取节点的数据域及其采集频率和精度等内容的监控模板请求信息;
步骤S52,控制端根据业务端的请求,在所有汇总端-监控端映射关系中查询符合条件的汇总端和监控端服务器节点列表,然后生成为后续业务端与汇总端通信索引用的唯一标识;
步骤S53,控制端分解业务端的请求内容,分别将包括业务端节点信息、对应的监控端节点列表集合、唯一标识等监控模板信息逐个下发给所有监控端对应汇总端服务器;
步骤S54,控制端向业务端返回包括汇总端列表信息的请求处理结果和在S52步骤中生成的业务端和汇总端通信的唯一标识;
步骤S55,业务端将包括机器信息和唯一标识的监控请求逐个发送给步骤S54中的列表中的所有汇总端服务器;
步骤S56,汇总端根据业务端的请求中包括的机器信息和唯一标识查询并整理其需要的所有下辖监控端的数据;
步骤S57,汇总端将步骤S56中的监控数据返回给业务端。
综上所述,本发明解决了背景技术部分所列当前存在的诸多问题,因此具有良好的应用前景和市场推广价值。实现了统一管理、稳定开放的针对云计算跨越多数据中心的监控架构,此架构有如下优点:
1、控制端和汇总端负责维护整个监控集群各类型节点列表和映射关系等核心数据,降低了上层节点的负载,缩短了监控数据传输路径,降低了网络间和节点I/O的开销,使监控系统更加高效。
2、控制端和汇总端均采用分布式的架构,包括各自的备用分流节点,在单个节点负载量较大或者宕机的情况下,仍然能够保证了系统运行和响应的稳定性。
3、开放性的监控系统很好的满足了多数据中心和多业务方的可定制化监控的需求,例如在业务跨多数据中心的情况下,即可根据业务方的需求进行监控信息的定制和获取;在监控过程中,业务的监控需求可以实现动态同步到所有目的监控节点并执行。

Claims (10)

1.一种跨数据中心集群的分布式系统监控系统,其特征在于,该系统采用多层分布式的架构,共包括业务层和支撑层两个层级及其业务端、控制端、汇总端、监控端四个模块组成的监控架构;其中,业务层包括业务端、控制端两类功能对象;支撑层包括汇总端和监控端两类功能对象;
监控模板,用于规定监控端需要收集的数据域的信息;
业务端,用于向监控集群请求获取所有监控数据信息;
控制端,用于保存汇总端和监控端服务器的映射关系;负责处理业务端、控制端、监控端和汇总端的注册请求,并协调这业务端、汇总端、监控端服务器正常地运行;管理和控制汇总端和监控端的监控内容和策略;
汇总端,用于统计和处理监控端上传的监控数据;分解由控制端下发的监控模板,根据内容下发给对应的监控端;响应业务端提交的获取集群内的监控数据请求;向控制端上传其下辖监控端的资源或设备的报警信息;
监控端,用于根据监控模板监控本机的各项指标数据,并向汇总端进行提交;运行由汇总端下发更新的监控模板规定的内容;
监控集群,用于将监控端、汇总端和控制端运行完整监控系统模块的集合。
2.如权利要求1所述的跨数据中心集群的分布式系统监控系统,其特征在于,该四个模块在该系统中均包括多个服务器节点。
3.如权利要求1所述的跨数据中心集群的分布式系统监控系统,其特征在于,该数据域的信息,包括控制端和汇总端的设备信息、域元素的名称、数值精度、域元素单位、采集和上传的时间间隔和上下限值、唯一标识、附加信息等数据域相关的内容和待监控端节点列表、监控起止时间、备用分流控制端节点列表、备用分流汇总端节点列表、数值特征汇总方式等策略操作的相关信息。
4.一种跨数据中心集群的分布式系统监控方法,其特征在于,采用多层分布式的架构,共包括业务层和支撑层两个层级及其业务端、控制端、汇总端、监控端四个模块组成的监控架构;其中,业务层包括业务端、控制端两类功能对象;支撑层包括汇总端和监控端两类功能对象;
启动步骤,用于规定监控端需要收集的数据域的信息;
业务步骤,用于向监控集群请求获取所有监控数据信息;
控制步骤,用于保存汇总端和监控端服务器的映射关系;负责处理业务端、控制端、监控端和汇总端的注册请求,并协调这业务端、汇总端、监控端服务器正常地运行;管理和控制汇总端和监控端的监控内容和策略;
汇总步骤,用于统计和处理监控端上传的监控数据;分解由控制端下发的监控模板,根据内容下发给对应的监控端;响应业务端提交的获取集群内的监控数据请求;向控制端上传其下辖监控端的资源或设备的报警信息;
监控步骤,用于根据监控模板监控本机的各项指标数据,并向汇总端进行提交;运行由汇总端下发更新的监控模板规定的内容;
监控集群步骤,用于将监控端、汇总端和控制端运行完整监控系统模块的集合。
5.如权利要求4所述的跨数据中心集群的分布式系统监控方法,其特征在于,四个模块的启动步骤如下:
步骤S1,控制端初始化过程;
步骤S11,如果监控集群在没有其他的控制端的情况下,则直接运行新控制端即可;
步骤S12,如果监控集群存在其他控制端时,则新控制端将本机信息向监控集群中在任意一个目的控制端发送注册请求;
步骤S13,目的控制端返回注册结果信息,如果成功,则返回包括所有控制端节点的信息,然后运行下面的步骤;如果失败则终止;
步骤S14,新添加的控制端如果存在下辖汇总端和监控端等服务器节点时,则继续向目的控制端同步其下辖汇总端-监控端映射关系以及监控端的监控模板信息;
步骤S15,目的控制端将包括新添加的控制端配置信息、新增的下辖汇总端-监控端映射关系和监控模板信息等内容同步到监控集群众所有其他的控制端中。
6.如权利要求4所述的跨数据中心集群的分布式系统监控方法,其特征在于,汇总步骤具体包括如下步骤:
步骤S21,新汇总端向控制端发送包括本机配置信息的注册请求;
步骤S22,控制端处理步骤S21的请求并返回结果,成功则继续进行下列步骤;失败则终止;
步骤S23,汇总端如果有下辖的监控端节点时,则将其与所有下辖监控端的映射关系、各节点监控模板和配置信息整理并向控制端发送加入监控集群的附加请求;如果没有下辖监控端节点,则终止;
步骤S24,控制端处理S23步骤的附加请求,校验并记录新增加的汇总端上传的配置信息、各个监控模板和汇总端-监控端映射关系信息;
步骤S25,控制端根据汇总端的配置等信息处理并返回汇总端和监控端绑定结果,并返回备用分流控制端服务器信息列表;
步骤S26,控制端将本机信息、新增的汇总端-监控端映射关系数据和监控模板同步到另外的控制端中。
7.如权利要求4所述的跨数据中心集群的分布式系统监控方法,其特征在于,监控步骤分封闭式和开放式,其中封闭式监控步骤具体包括如下步骤:
步骤S31,监控端将包括本机信息的注册请求发送给汇总端;
步骤S32,汇总端将包括监控模板等信息返回给监控端;
步骤S33,监控端根据步骤S32返回的监控模板中规定的内容,评估本节点的配置和性能后进行填充,然后上传给汇总端;
步骤S34,汇总端根据步骤S33填充的监控模板内容确定是否进行添加。如果添加,则更新保存本机中的汇总端-监控端的映射关系和监控端节点的模板信息;反之,则向监控端节点回应拒绝信息;
步骤S35,最后将监控端的监控模板和新增的汇总端-监控端映射关系上传到控制端中,完成与监控端的绑定操作;
步骤S36,汇总端向监控端返回注册处理结果信息;
步骤S37,控制端向监控集群中所有其他的监控端同步新增加的汇总端-监控端映射关系信息和监控模板。
8.如权利要求4所述的跨数据中心集群的分布式系统监控方法,其特征在于,监控步骤分封闭式和开放式,其中开放式监控步骤具体包括如下步骤:
步骤S41,新监控端将包括本机配置信息的注册请求发送给控制端;
步骤S42,控制端将监控模板信息返回给请求的监控端;
步骤S43,监控端根据本机的实际配置和性能填充步骤S42返回的监控模板,继续向控制端发送请求;
步骤S44,控制端根据步骤S43中填充好的监控模板的信息确定是否在监控集群中添加监控端,如果成功添加则返回控制端保存的下辖汇总端列表信息给监控端,之后进行下述步骤;反之则返回拒绝信息;
步骤S45,监控端收到步骤S44中的汇总端节点列表之后,验证与汇总端节点的连通性;
步骤S46,如果联通成功则将本机信息和欲加入的汇总端信息向控制端提交绑定请求;
步骤S47,控制端将此监控端的请求进行记录并新增汇总端-监控端映射关系后,将监置控模板信息和配信息下发到对应的汇总端中,然后向新监控端发送绑定成功信息;
步骤S48,新监控端根据步骤S43中填充好的监控模板规定的数据内容要求收集和整理,然后向汇总端上传监控数据;
步骤S49,在步骤S42中的控制端向监控集群中的其他控制端节点同步新加入的监控端信息及与汇总端的映射关系。
9.如权利要求4所述的跨数据中心集群的分布式系统监控方法,其特征在于,业务步骤具体包括如下步骤:
步骤S51,业务端向控制端发送包括业务端的基本信息、请求的进行监控的节点集合、需要获取节点的数据域及其采集频率和精度等内容的监控模板请求信息;
步骤S52,控制端根据业务端的请求,在所有汇总端-监控端映射关系中查询符合条件的汇总端和监控端服务器节点列表,然后生成为后续业务端与汇总端通信索引用的唯一标识;
步骤S53,控制端分解业务端的请求内容,分别将包括业务端节点信息、对应的监控端节点列表集合、唯一标识等监控模板信息逐个下发给所有监控端对应汇总端服务器;
步骤S54,控制端向业务端返回包括汇总端列表信息的请求处理结果和在S52步骤中生成的业务端和汇总端通信的唯一标识;
步骤S55,业务端将包括机器信息和唯一标识的监控请求逐个发送给步骤S54中的列表中的所有汇总端服务器;
步骤S56,汇总端根据业务端的请求中包括的机器信息和唯一标识查询并整理其需要的所有下辖监控端的数据;
步骤S57,汇总端将步骤S56中的监控数据返回给业务端。
10.如权利要求4所述的跨数据中心集群的分布式系统监控方法,其特征在于,开放式监控步骤在监控集群中的注销过程、封闭式监控步骤在监控集群中的注销过程、汇总步骤在监控集群的注销过程与各自的启动步骤相同。
CN201310636793.1A 2013-12-02 2013-12-02 跨数据中心集群的分布式系统监控方法及系统 Active CN103685486B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310636793.1A CN103685486B (zh) 2013-12-02 2013-12-02 跨数据中心集群的分布式系统监控方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310636793.1A CN103685486B (zh) 2013-12-02 2013-12-02 跨数据中心集群的分布式系统监控方法及系统

Publications (2)

Publication Number Publication Date
CN103685486A true CN103685486A (zh) 2014-03-26
CN103685486B CN103685486B (zh) 2017-01-18

Family

ID=50321761

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310636793.1A Active CN103685486B (zh) 2013-12-02 2013-12-02 跨数据中心集群的分布式系统监控方法及系统

Country Status (1)

Country Link
CN (1) CN103685486B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103944780A (zh) * 2014-04-02 2014-07-23 云南电网公司 一种分布链式流水it监控数据中心数据处理的方法
CN104184819A (zh) * 2014-08-29 2014-12-03 城云科技(杭州)有限公司 多层级负载均衡云资源监控方法
CN104270434A (zh) * 2014-09-22 2015-01-07 珠海许继芝电网自动化有限公司 一种基于云服务的服务状态监视系统
CN104301159A (zh) * 2014-11-13 2015-01-21 中国建设银行股份有限公司 一种服务器集群的监控方法和系统
CN104519130A (zh) * 2014-12-16 2015-04-15 北京中交兴路车联网科技有限公司 一种跨idc的数据共享缓存方法
CN105187554A (zh) * 2015-09-29 2015-12-23 北京京东尚科信息技术有限公司 服务器性能监控方法及系统
CN105389219A (zh) * 2015-10-15 2016-03-09 北京乐动卓越科技有限公司 一种跨机房通讯的方法和系统
CN106790723A (zh) * 2017-03-23 2017-05-31 泰康保险集团股份有限公司 应用服务的监控方法、负载均衡设备与监控设备
CN108234150A (zh) * 2016-12-09 2018-06-29 中兴通讯股份有限公司 用于数据中心监控系统的数据采集和处理方法及系统
CN108809717A (zh) * 2018-06-12 2018-11-13 中国铁塔股份有限公司 节点采集区服务器、分布式监控方法和系统
CN109787850A (zh) * 2017-11-10 2019-05-21 阿里巴巴集团控股有限公司 监控系统、监控方法及计算节点
CN109886795A (zh) * 2019-01-15 2019-06-14 网联清算有限公司 跨机房分布式对账处理方法及装置
CN109951370A (zh) * 2017-12-21 2019-06-28 博元森禾信息科技(北京)有限公司 多大数据中心分层互联互通方法及装置
CN112202895A (zh) * 2020-09-30 2021-01-08 北京达佳互联信息技术有限公司 监控指标数据的收集方法、系统、电子设备及存储介质
CN112543111A (zh) * 2019-09-23 2021-03-23 北京轻享科技有限公司 一种业务监测的方法、监测中心及业务监测系统
CN113449161A (zh) * 2020-03-26 2021-09-28 北京沃东天骏信息技术有限公司 数据汇集方法、装置、系统及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040230602A1 (en) * 2003-05-14 2004-11-18 Andrew Doddington System and method for decoupling data presentation layer and data gathering and storage layer in a distributed data processing system
CN101237359A (zh) * 2008-02-27 2008-08-06 中兴通讯股份有限公司 一种监听系统和方法
CN102739450A (zh) * 2012-06-29 2012-10-17 深圳市博瑞得科技有限公司 信令监测系统分布式平台架构及其处理方法
CN102932195A (zh) * 2011-08-09 2013-02-13 上海天旦网络科技发展有限公司 一种基于网络协议分析的业务分析监控方法及系统
CN103152352A (zh) * 2013-03-15 2013-06-12 北京邮电大学 一种基于云计算环境的全信息安全取证监听方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040230602A1 (en) * 2003-05-14 2004-11-18 Andrew Doddington System and method for decoupling data presentation layer and data gathering and storage layer in a distributed data processing system
CN101237359A (zh) * 2008-02-27 2008-08-06 中兴通讯股份有限公司 一种监听系统和方法
CN102932195A (zh) * 2011-08-09 2013-02-13 上海天旦网络科技发展有限公司 一种基于网络协议分析的业务分析监控方法及系统
CN102739450A (zh) * 2012-06-29 2012-10-17 深圳市博瑞得科技有限公司 信令监测系统分布式平台架构及其处理方法
CN103152352A (zh) * 2013-03-15 2013-06-12 北京邮电大学 一种基于云计算环境的全信息安全取证监听方法和系统

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103944780A (zh) * 2014-04-02 2014-07-23 云南电网公司 一种分布链式流水it监控数据中心数据处理的方法
CN104184819A (zh) * 2014-08-29 2014-12-03 城云科技(杭州)有限公司 多层级负载均衡云资源监控方法
CN104184819B (zh) * 2014-08-29 2017-12-05 城云科技(中国)有限公司 多层级负载均衡云资源监控方法
CN104270434A (zh) * 2014-09-22 2015-01-07 珠海许继芝电网自动化有限公司 一种基于云服务的服务状态监视系统
CN104301159A (zh) * 2014-11-13 2015-01-21 中国建设银行股份有限公司 一种服务器集群的监控方法和系统
CN104301159B (zh) * 2014-11-13 2019-01-25 中国建设银行股份有限公司 一种服务器集群的监控方法和系统
CN104519130A (zh) * 2014-12-16 2015-04-15 北京中交兴路车联网科技有限公司 一种跨idc的数据共享缓存方法
CN104519130B (zh) * 2014-12-16 2018-02-27 北京中交兴路车联网科技有限公司 一种跨idc的数据共享缓存方法
CN105187554A (zh) * 2015-09-29 2015-12-23 北京京东尚科信息技术有限公司 服务器性能监控方法及系统
CN105389219A (zh) * 2015-10-15 2016-03-09 北京乐动卓越科技有限公司 一种跨机房通讯的方法和系统
CN108234150A (zh) * 2016-12-09 2018-06-29 中兴通讯股份有限公司 用于数据中心监控系统的数据采集和处理方法及系统
CN106790723A (zh) * 2017-03-23 2017-05-31 泰康保险集团股份有限公司 应用服务的监控方法、负载均衡设备与监控设备
CN106790723B (zh) * 2017-03-23 2020-03-13 泰康保险集团股份有限公司 应用服务的监控方法、负载均衡设备与监控设备
CN109787850A (zh) * 2017-11-10 2019-05-21 阿里巴巴集团控股有限公司 监控系统、监控方法及计算节点
CN109951370A (zh) * 2017-12-21 2019-06-28 博元森禾信息科技(北京)有限公司 多大数据中心分层互联互通方法及装置
CN109951370B (zh) * 2017-12-21 2022-07-05 博元森禾信息科技(北京)有限公司 多大数据中心分层互联互通方法及装置
CN108809717A (zh) * 2018-06-12 2018-11-13 中国铁塔股份有限公司 节点采集区服务器、分布式监控方法和系统
CN109886795A (zh) * 2019-01-15 2019-06-14 网联清算有限公司 跨机房分布式对账处理方法及装置
CN112543111A (zh) * 2019-09-23 2021-03-23 北京轻享科技有限公司 一种业务监测的方法、监测中心及业务监测系统
CN113449161A (zh) * 2020-03-26 2021-09-28 北京沃东天骏信息技术有限公司 数据汇集方法、装置、系统及存储介质
CN112202895A (zh) * 2020-09-30 2021-01-08 北京达佳互联信息技术有限公司 监控指标数据的收集方法、系统、电子设备及存储介质

Also Published As

Publication number Publication date
CN103685486B (zh) 2017-01-18

Similar Documents

Publication Publication Date Title
CN103685486A (zh) 跨数据中心集群的分布式系统监控方法及系统
US9716746B2 (en) System and method using software defined continuity (SDC) and application defined continuity (ADC) for achieving business continuity and application continuity on massively scalable entities like entire datacenters, entire clouds etc. in a computing system environment
CN107066319B (zh) 一种面向异构资源的多维调度系统
CN106357426B (zh) 一种基于工业云的大规模分布式智能数据采集系统及方法
CN107544839B (zh) 虚拟机迁移系统、方法及装置
CN109412874B (zh) 设备资源的配置方法、装置、服务器及存储介质
CN104486445A (zh) 一种基于云平台的分布式可扩展资源监控系统及方法
CN103383689A (zh) 一种服务进程故障检测方法、装置及服务节点
CN105025095A (zh) 实现云计算弹性服务的集群架构
CN103827825A (zh) 虚拟资源对象组件
CN103152393A (zh) 一种云计算的计费方法和计费系统
CN109218100A (zh) 分布式对象存储集群及其请求响应方法、系统和存储介质
CN107302465A (zh) 一种PCIe Switch服务器整机管理方法
CN104660690B (zh) 云视频服务监控系统
CN102984012A (zh) 管理服务资源的方法及服务资源管理系统
CN106375328A (zh) 一种大规模数据分发系统运行时自适应优化方法
CN105580007A (zh) 监控计算网络
CN102638378A (zh) 一种集成异构存储设备的海量存储系统监控方法
CN114598586B (zh) 一种多云场景算力网格化方法及系统
CN104683450A (zh) 视频服务监控云系统
CN112527493A (zh) 一种边缘计算服务的创建方法、装置、系统及介质
CN110580198A (zh) OpenStack计算节点自适应切换为控制节点的方法及装置
CN115733754A (zh) 基于云原生中台技术的资源管理系统及其弹性构建方法
CN113596925A (zh) 一种面向5g基站的切片编排方法及系统
CN105764097A (zh) 资源分配方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240320

Address after: Room 711C, Floor 7, Building A, Yard 19, Ronghua Middle Road, Daxing District, Beijing Economic-Technological Development Area, 100176

Patentee after: Beijing Zhongke Flux Technology Co.,Ltd.

Country or region after: China

Address before: 100190 No. 6 South Road, Zhongguancun Academy of Sciences, Beijing, Haidian District

Patentee before: Institute of Computing Technology, Chinese Academy of Sciences

Country or region before: China

TR01 Transfer of patent right