CN103024060B - 一种开放式云计算大规模集群监控系统及方法 - Google Patents

一种开放式云计算大规模集群监控系统及方法 Download PDF

Info

Publication number
CN103024060B
CN103024060B CN201210558843.4A CN201210558843A CN103024060B CN 103024060 B CN103024060 B CN 103024060B CN 201210558843 A CN201210558843 A CN 201210558843A CN 103024060 B CN103024060 B CN 103024060B
Authority
CN
China
Prior art keywords
cluster
monitoring
server
data
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210558843.4A
Other languages
English (en)
Other versions
CN103024060A (zh
Inventor
须成忠
曾经纬
杨聪
洪爵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201210558843.4A priority Critical patent/CN103024060B/zh
Publication of CN103024060A publication Critical patent/CN103024060A/zh
Application granted granted Critical
Publication of CN103024060B publication Critical patent/CN103024060B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明属于云计算技术领域,尤其涉及一种开放式云计算大规模集群监控系统及方法。本发明的开放式云计算大规模集群监控系统包括监控端、功能服务器集群和云平台服务器集群,所述监控端用于供用户选择要监控的对象,所述功能服务器集群用于接收监控端选择需要动态监控层次与监控对象,将监控指令下发;所述云平台服务器集群用于接收功能服务器集群的监控指令,将监控到的节点信息传送给功能服务器集群。本发明实施例的开放式云计算大规模集群监控系统及方法对集群中运行的物理机与虚拟机进行动态实时监控,为集群管理员提供更加实时、可靠与详细的监控服务;另外,将节点监控信息进行上报,将监控信息进行统一存储防止大量的数据冗余。

Description

一种开放式云计算大规模集群监控系统及方法
技术领域
本发明属于云计算技术领域,尤其涉及一种开放式云计算大规模集群监控系统及方法。
背景技术
监控系统能够辅助数据中心管理员及时了解与管理服务器集群,并在集群发生状况时能够更快的解决突发问题,保证云计算集群的安全、稳定与可靠。另外,监控系统基础框架中对于监控信息的获取模块,能够监控计算任务对于计算资源的消耗情况,为云计算计费系统提供基础服务与可靠保障。监控信息也为日后进行云端运行状况分析和改进提供了重要的参考依据。
当前主流的监控系统通常将监控信息存储在每一个节点上,之后发送广播进行监控信息的传送,这样会造成大量的数据冗余,而且有可能形成网络风暴。而本发明采用独立监控模块,集群中每个节点上的轻量级守护进程只负责发送监控信息,而所有数据处理及存储会在第三方监控系统中进行,从而使得对集群的压力降至最低。另外,监控服务器集群可以根据被监控集群的大小进行调整,如果集群规模较大,可将监控服务器中的几个子模块分别运行在不同的物理服务器中;反之,则可将子模块运行在同一个服务器中。
当前流行的监控系统ganglia,监控架构是将监控信息存储在每一个节点上,之后将该节点的监控信息广播,从而使得每一个节点上都存储了整个集群的监控信息。这样势必会造成大量的数据冗余,当节点的数量增加时,容易形成网络风暴,造成大量的网络资源与存储资源浪费。除此之外,现有的监控系统是静态对节点与集群信息进行监控,并不能实现实时动态的监控。
发明内容
本发明提供了一种开放式云计算大规模集群监控系统及方法,旨在解决现有的监控系统将监控信息存储在每一个节点上,造成大量的数据冗余,造成大量的网络资源与存储资源浪费以及不能实时动态监控的技术问题。
本发明提供的技术方案为:一种开放式云计算大规模集群监控系统,包括监控端、功能服务器集群和云平台服务器集群,所述监控端用于供用户选择要监控的对象,
功能服务器集群:用于接收监控端选择需要动态监控层次与监控对象,将监控指令下发;
云平台服务器集群:用于接收功能服务器集群的监控指令,将监控到的节点信息传送给功能服务器集群。
本发明的技术方案还包括:所述功能服务器集群包括消息队列服务器、中心服务器、网络服务器以及数据库服务器,所述消息队列服务器负责接收各个节点发送过来的数据,并按照中心服务器的需求来进程数据的递送;所述中心服务器用于将接收的数据进行数据持久化,并检查节点列表与监控数据流;所述网页服务器用于为用户监控提供可视化服务,并支持数据查询功能;所述数据库服务器用于进行大规模的数据分析、查询、插入等操作。
本发明的技术方案还包括:所述中心服务器包括:
数据持久化模块:负责将解包的数据进行持久化,并存入数据库服务器;
报警模块:负责检查节点列表与监控数据流,如果有触发报警的条件,则将报警信息发送到网页服务器;
节点列表更新模块:负责收集节点信息,并将其更新到节点列表之中;
节点列表分析模块:负责不间断的分析节点列表状态,对于新加入的节点,退出的节点信息通过报警模块发送到网页服务器。
本发明的技术方案还包括:所述数据库服务器的数据库采用MongoDB,包括主节点和多个从节点,所述从节点与主节点的数据进程同步。
本发明的技术方案还包括:所述网页服务器包括数据池,所述数据池用于存储整个集群中所有节点监控信息的最新值。
本发明的技术方案还包括:所述云平台服务器集群包括虚拟机集群和物理机集群,所述虚拟机集群和物理机集群包括至少一个虚拟机和物理机,所述虚拟机与对应的物理机进行通讯。
本发明的技术方案还包括:所述云平台服务器集群包括数据收集单元、控制单元、数据封装单元、监听单元和系统参数XML配置单元;所述数据收集单元对系统进行解析,提取出有用的监控数据;所述控制单元根据功能服务器集群的指令对进程进行控制、守护或开发;所述数据封装单元用于完成监控数据的转换与封装,方便发送模块进程数据传送,所述监听单元负责监听从数据队列服务器发送过来的指令,并将其传入相应的模块;所述系统参数XML配置单元主要负责系统基本参数的配置。
本发明的技术方案还包括:所述数据收集单元包括三个模块:/proc解析模块、用户自定义收集模块和第三方插件收集模块,所述/proc解析模块负责对操作系统的/proc文件系统进行解析,提取出有用的监控数据,所述用户自定义收集模块通过开放API来支持用户自定义监控模式,所述第三方插件收集模块用来支持用户配置与使用第三方插件收集工具或协议。
本发明的技术方案还包括:所述控制单元包括沉睡功能模块、进程控制模块和用户自定义控制模块,所述沉睡功能模块用于确保该守护进程轻量级运行,所述进程控制模块用于根据功能服务器集群的指令改变某一进程的运行状态或杀死该进程,所述用户自定义控制模块用于方便用户进程二次开发或者使用第三方控制软件。
本发明采取的另一技术方案为:一种开放式云计算大规模集群监控方法,包括:
步骤a:根据自身需求选择需要动态监控层次与监控对象;
步骤b:根据用户选择的监控层次与动态监控对象,系统生成监控信息图;
步骤c:将监控信息发送到监控端供用户进行查看。
本发明的技术方案还包括:所述选择的监控对象为当前集群状况诊断,系统对存储在消息队列服务器中的节点列表进行分析,提取出当前集群中是否有节点退出或者新增节点,形成诊断信息A1;采用NoSQL数据库MongoDB进行数据持久化,提取持久化数据,并对网络IO、内存、CPU、磁盘等信息进行分析,提取出集群的运行状况,形成诊断信息A2;形成最终诊断信息A1+A2,并将诊断信息推送至网页服务器。
本发明的技术方案还包括:所述选择的监控对象为集群监控,所述网页服务器间隔一段时间向消息队列服务器的集群监控模块发送监控命令,集群监控模块收到该命令后,对自身的节点列表进行分析,分析出当前集群中节点的变动情况,形成监控信息A3,所述消息队列服务器将监控信息A3发送到网页服务器。
本发明的技术方案具有如下优点或有益效果:本发明实施例的开放式云计算大规模集群监控系统及方法通过开放式集群节点守护进程模块收集用户指定或自定义的节点信息,对集群中运行的物理机与虚拟机进行动态实时监控,另外对集群的运行状况与运行中出现的问题进行实时监控,为集群管理员提供更加实时、可靠与详细的监控服务;另外,本发明实施例的开放式云计算大规模集群监控系统及方法统一将节点监控信息进行上报,将监控信息进行统一存储,避免在每一个节点上都存储整个集群的监控信息,防止大量的数据冗余。
附图说明
附图1是本发明实施例的开放式云计算大规模集群监控系统的结构示意图;
附图2是本发明实施例的开放式云计算大规模集群监控系统的虚拟云数据对象的结构示意图;
附图3是本发明实施例的开放式云计算大规模集群监控系统的虚拟云适配器的结构示意图;
附图4是本发明实施例的开放式云计算大规模集群监控方法的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参阅图1,为本发明实施例的开放式云计算大规模集群监控系统的结构示意图。本发明实施例的开放式云计算大规模集群监控系统包括运行守护进程的功能服务器集群、云平台服务器集群和监控端。其中运行守护进程的云平台服务器集群的粒度可以为Federation(联盟),也可以为Cluster集群(节点服务器集群)。功能服务器集群包括监控服务器与消息队列服务器,其中,监控服务器为一台,消息队列服务器可以为多台。监控服务器包括网页服务器、中心服务器和数据库服务器。监控服务器的数据库采用MongoDB(基于分布式文件存储的数据库),其运行在一台数据库服务器之上,例如NoSQL数据库(非关系型的数据库)服务器。监控端可以为PC(采用JSP网页形式呈现)或手机(采用HTTP协议与Web服务器交互)。云平台服务器集群包括虚拟机集群和物理机集群,虚拟机集群和物理机集群包括至少一个虚拟机和物理机,虚拟机与对应的物理机进行通讯。
在监控业务流程方面,首先用户会在监控端选择要监控的对象,之后监控端会将该对象请求信息传送给网页服务器,网页服务器会判断需要的监控信息来源,如果需要从数据库服务器中读取,则会直接读取数据库服务器MengoDB中的相关数据。如果需要从节点中读取,则会给节点发送命令,节点在接到命令后会对相关的监控信息进行读取,之后传送给网页服务器,网页服务器在对传送过来的数据进行整合后发送给监控端。在报警业务流程方面,云平台服务器集群中的Cluster节点与消息队列服务器会将报警信息传送给网页服务器,之后网页服务器在将数据进行处理后推送给手机监控端进行报警。在数据持久化业务流程方面,云平台服务器集群中Cluster中的每个节点会周期性的将监控到的信息传送给消息队列服务器,之后,消息队列服务器会将整理后的数据插入到数据库中进行持久化。与此同时,消息队列服务器会更新内部的NodeTable(节点列表),并对其进行监控,如果发现问题会及时将错误信息以报警的方式发送给监控服务器,监控服务器之后将报警信息推送给手机。
请参阅图2,图2是云平台服务器集群的守护进程收集信息的原理图。云平台服务器集群包括数据收集单元、控制单元、数据封装单元、系统参数XML(System Parameter XML)配置单元以及监听单元。
数据收集单元(Data Collection Unit)包括三个模块:/proc解析模块(/proc Analysis Module)、用户自定义收集模块(User Defined CollectorModule)和第三方插件收集模块(Third-part Collector Module)。/proc解析模块是系统的默认加载模块,负责对操作系统的/proc文件系统进行解析,从而提取出有用的监控数据。用户自定义收集模块(User Defined CollectorModule)通过开放API来支持用户自定义监控模式,用户可以自定义参数收集方法以及类型。第三方插件收集模块用来支持用户配置与使用第三方插件收集工具或协议,例如SNMP以及CPU风扇转速与温度收集插件等。
控制单元包括三个模块沉睡功能模块(Sleeping Function Module)、进程控制模块(Process Control Module)和用户自定义控制模块(User DefineControl Module)。沉睡功能模块是为了确保该守护进程轻量级运行,因此一些功能模块并不运行,处于“沉睡”状态,等待信号接收模块接收命令将其激活。这些功能包括一些不常用的功能,包括守护进程停止发送监控信息、守护进程发送信息频率改变等。进程控制模块根据功能服务器集群的指令改变某一进程的运行状态或杀死该进程,其意义在于协助集群诊断模块与报警模块来提前对进程进行锁定,等待用户的处理指令,使节点运行更加安全。用户自定义控制模块与用户自定义数据收集模块功能类似,用户自定义控制模块是为了方便用户进程二次开发或者使用第三方控制软件,通过开放API方便用户使用。
数据封装单元(Data Packaging Unit)主要完成监控数据的转换与封装,方便发送模块进程数据传送,包括三个模块:默认封装模块(DefaultPackaging Module)、其他封装模块(Other Packaging Module)和用户自定义封装模块(User Defined Packaging Module)。默认封装模块用于在用户没有其他设置时,系统将会采用默认封装模块,该模块采用JSON(Java ScriptObject Notation,一种轻量级的数据交换格式)数据封装格式进行封装。其他封装模块(Other Packaging Module)用于预存其他数据封装模块,满足不同监控用户的需求。用户自定义封装模块(User Defined Packaging Module)用于预留用户自定义数据封装模块,用户可通过系统提供的开放式API来自定义数据封装策略。
监听单元(Listening Module)主要包括信息接收模块与数据发送模块。信息接收模块主要负责监听从数据队列服务器发送过来的指令,并将其传入相应的模块。数据发送模块主要负责将收集打包好的数据按照指定频率不间断传送给数据队列服务器。如果监听单元接到停止发送指令,则信息接收模块与数据发送模块将停止工作。
系统参数XML配置单元主要负责系统基本参数的配置,供其他模块使用。系统参数XML配置单元与监控服务器使用相同的XML,这样可以保证监控数据从内容、格式和频率上的一致性。
请参阅图3,图3为监控服务器的结构示意图。监控服务器包括:消息队列服务器(Message Queue Service)、中心服务器(Center Service)、网络服务器(Web Service)以及数据库服务器(NoSQL Database Service)。四个模块公共完成了监控服务器的模块的数据接收、分析、监控以及可视化等功能。这四个模块可以单独放置在四个不同的服务器之上,从而组成监控服务集群,也可以根据机房情况与机器性能而任意组合,从而使系统有更大的伸缩性。四个模块之间因为要互相频繁通信,因此四个模块最好能够处于同一局域网内部,从而保证通信质量与速度。
消息队列服务器(Message Queue Service)负责接收各个节点发送过来的数据,并按照中心服务器的需求来进程数据的递送。消息队列服务器使用rabbitMQ来进行数据的接收、存储与递送,这样能够保证数据的大规模接收与防止数据丢失。消息队列服务器的核心是一个存储队列,该队列负责将各个节点发送过来的数据进程存储,之后根据中心服务器(Center Service)的需求进行数据弹出与发送。在每个Node上运行的发送模块使用rabbitMQ的开发包,这样可不必考虑数据具体的发送方式,完全按照rabbitMQ的数据发送模式来进行。而在每个中心服务器上,也运行了使用rabbitMQ开发包中的接收程序,用来运行消费者(Consumer),从而进程数据接收。通过这种结构设计出来的消息队列服务器,能够进程大规模集群的数据接收,从而保证了系统弄个能够进行大规模集群的监控。而基于rabbitMQ的数据存储、发送与接收,保证了数据的完整性和通信的高效性。
中心服务器(Center Service)是本监控系统最为核心的装置,也是本系统通信最频繁,最复杂的模块,因此,中心服务器的设计将会关系到整个系统的稳定性。中心服务器包括:
数据持久化模块(Data Persistent Module):负责将解包的数据存入数据库服务器(Database Service),该模块在整个系统运行阶段不间断运行,只要数据收集模块收集到数据,则进行数据持久化;
报警模块:负责不间断检查节点列表与监控数据流,如果有触发报警的条件,则通过数据交换模块(Data Switch Module)将报警信息发送到网页服务器中;
节点列表更新模块:负责收集节点信息,并将其更新到节点列表之中;
节点列表分析模块:负责不间断的分析节点列表状态,对于新加入的节点,退出的节点信息通过报警模块发送到网页服务器中。
在该架构图中的数据持久化模块、报警模块和节点列表分析及更新模块并存,没有先后次序,对应到程序中就是一个进程的三个线程,这样可以保证其中任意一个功能模块失效不会影响另外功能模块的执行。
数据库服务器(Database Service)是运行NoSQL数据库服务的模块,该模块中当前运行MongoDB数据库服务器。由于该数据库服务器在每一时刻都要进行大规模的数据分析、查询、插入等操作,因此将所有的操作都集中在一起势必会造成服务器的压力,所以本服务器充分利用MongoDB的复制功能,可以用复制来应对故障切换、数据集成,还可以用来做读扩展、热备份或作为离线处理的数据源。数据库服务器的架构中包括一个主节点和多个从节点,从节点能够与主节点的数据进程同步,并分担不同的任务,例如集群分析,集群信息查询等。主节点专门负责数据的插入与更新。这样可以大大降低多个任务对单个数据库节点的压力。其中,主节点与从节点可以运行在同一个服务器上,也可以分散在不同的服务器上。
网页服务器(Web Service)负责为用户监控提供可视化服务,并支持数据查询等其他较为复杂的功能。网页服务器同时为基于WEB的监控页面与基于Android客户端来提供服务。虽然为不同的客户端提供服务,但是其实现都是相同的,使用Java来完成其业务逻辑,因此,两者的服务可以放在一起,也可以使用相同的类与连接词等。该服务器最重要的结构是包含一个数据池,该数据池(Data pool)在WEB容器启动时即创建,该数据池用于存储整个集群中所有节点监控信息的最新值,而且处于不断的更新之中,而监控系统只需从该池中调去特定的数据即可进行监控。
请参阅图4,为本发明实施例的开放式云计算大规模集群监控方法的流程图。本发明实施例的开放式云计算大规模集群监控方法包括:
步骤100:用户根据自身需求选择需要动态监控层次与监控对象,监控层次可以为物理机或者虚拟机,也可以是两者同时监控;
步骤200:根据用户选择的监控层次与动态监控对象,系统自动生成监控信息图;
在步骤200中,监控信息图为心跳图,横坐标是为时间,纵坐标为监控到的数据大小用户可在监控的过程中随意调整监控时间间隔,系统会根据用户的调整来改变心跳图的呈现方式。
在步骤200中,如果用户选择对当前集群状况诊断时,转入步骤202,如果用户在Web页面中打开集群监控页面,转入步骤205;
步骤202:系统对存储在消息队列服务器中的节点列表进行分析,从而提取出当前集群中是否有节点退出或者新增节点,形成诊断信息A1,并转入步骤203;
步骤203:采用NoSQL数据库MongoDB进行数据持久化,系统提取近一分钟的持久化数据,并对网络IO、内存、CPU、磁盘等信息进行分析,从而提取出集群的运行状况,形成诊断信息A2,并转入步骤204;
步骤204:形成最终诊断信息A1+A2,并将该信息推送至网页服务器。等待下一次的诊断命令;
步骤205:如果有用户在Web页面中打开集群监控页面,Web服务器会每隔10秒钟向消息队列服务器的集群监控模块发送监控命令,集群监控模块收到该命令后,会对自身的节点列表进行分析,从而分析出当前集群中节点的变动情况,形成监控信息A3,转入步骤206;
步骤206:消息队列服务器将监控信息A3发送到Web服务器中,等待下一次的监控请求。
步骤300:在监控的过程中将鼠标移动至图表上来查看监控信息的具体数字。
本发明实施例的开放式云计算大规模集群监控系统及方法通过开放式集群节点守护进程模块收集用户指定或自定义的节点信息,对集群中运行的物理机与虚拟机进行动态实时监控,另外对集群的运行状况与运行中出现的问题进行实时监控,为集群管理员提供更加实时、可靠与详细的监控服务;另外,本发明实施例的开放式云计算大规模集群监控系统及方法统一将节点监控信息进行上报,将监控信息进行统一存储,避免在每一个节点上都存储整个集群的监控信息,防止节点大量的数据冗余。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种开放式云计算大规模集群监控系统,包括监控端,所述监控端用于供用户选择要监控的对象,其特征在于,还包括:
功能服务器集群:用于接收监控端选择需要动态监控层次与监控对象,将监控指令下发;
云平台服务器集群:用于接收功能服务器集群的监控指令,将监控到的节点信息传送给功能服务器集群。
2.根据权利要求1所述的开放式云计算大规模集群监控系统,其特征在于,所述功能服务器集群包括消息队列服务器、中心服务器、网页服务器以及数据库服务器,所述消息队列服务器负责接收各个节点发送过来的数据,并按照中心服务器的需求进行进程产生数据的递送;所述中心服务器用于将接收的数据进行数据持久化,并检查节点列表与监控数据流;所述网页服务器用于为用户监控提供可视化服务,并支持数据查询功能;所述数据库服务器用于进行大规模的数据分析、查询、插入操作。
3.根据权利要求2所述的开放式云计算大规模集群监控系统,其特征在于,所述中心服务器包括:
数据持久化模块:负责将解包的数据进行持久化,并存入数据库服务器;
报警模块:负责检查节点列表与监控数据流,如果有触发报警的条件,则将报警信息发送到网页服务器;
节点列表更新模块:负责收集节点信息,并将其更新到节点列表之中;
节点列表分析模块:负责不间断的分析节点列表状态,对于新加入的节点,退出的节点信息通过报警模块发送到网页服务器。
4.根据权利要求2所述的开放式云计算大规模集群监控系统,其特征在于,所述数据库服务器的数据库采用MongoDB,包括主节点和多个从节点,所述从节点与主节点进程同步。
5.根据权利要求2所述的开放式云计算大规模集群监控系统,其特征在于,所述网页服务器包括数据池,所述数据池用于存储整个集群中所有节点监控信息的最新值。
6.根据权利要求1所述的开放式云计算大规模集群监控系统,其特征在于,所述云平台服务器集群包括虚拟机集群和物理机集群,所述虚拟机集群和物理机集群包括至少一个虚拟机和物理机,所述虚拟机与对应的物理机进行通讯。
7.根据权利要求1或2所述的开放式云计算大规模集群监控系统,其特征在于,所述云平台服务器集群包括数据收集单元、控制单元、数据封装单元、监听单元和系统参数XML配置单元;所述数据收集单元对系统进行解析,提取出有用的监控数据;所述控制单元根据功能服务器集群的指令对进程进行控制、守护或开发;所述数据封装单元用于完成监控数据的转换与封装,方便发送模块进程数据传送,所述监听单元负责监听从数据队列服务器发送过来的指令,并将其传入相应的模块;所述系统参数XML配置单元主要负责系统基本参数的配置。
8.根据权利要求7所述的开放式云计算大规模集群监控系统,其特征在于,所述数据收集单元包括三个模块:/proc解析模块、用户自定义收集模块和第三方插件收集模块,所述/proc解析模块负责对操作系统的/proc文件系统进行解析,提取出有用的监控数据,所述用户自定义收集模块通过开放API来支持用户自定义监控模式,所述第三方插件收集模块用来支持用户配置与使用第三方插件收集工具或协议。
9.根据权利要求7所述的开放式云计算大规模集群监控系统,其特征在于,所述控制单元包括沉睡功能模块、进程控制模块和用户自定义控制模块,所述沉睡功能模块用于确保该守护进程轻量级运行,所述进程控制模块用于根据功能服务器集群的指令改变某一进程的运行状态或杀死该进程,所述用户自定义控制模块用于方便用户进程二次开发或者使用第三方控制软件。
10.一种开放式云计算大规模集群监控方法,包括:
步骤a:根据自身需求选择需要动态监控层次与监控对象;
步骤b:根据用户选择的监控层次与动态监控对象,系统生成监控信息图;
步骤c:将监控信息发送到监控端供用户进行查看;
其中,所述选择的监控对象为当前集群状况诊断,系统对存储在消息队列服务器中的节点列表进行分析,提取出当前集群中是否有节点退出或者新增节点,形成诊断信息A1;采用数据库服务器NoSQL数据库MongoDB进行数据持久化,提取持久化数据,并对网络IO、内存、CPU、磁盘信息进行分析,提取出集群的运行状况,形成诊断信息A2;形成最终诊断信息A1+A2,并将诊断信息推送至网页服务器。
11.根据权利要求10所述的开放式云计算大规模集群监控方法,其特征在于,所述选择的监控对象为集群监控,所述网页服务器间隔一段时间向消息队列服务器的集群监控模块发送监控命令,集群监控模块收到该命令后,对自身的节点列表进行分析,分析出当前集群中节点的变动情况,形成监控信息A3,所述消息队列服务器将监控信息A3发送到网页服务器。
CN201210558843.4A 2012-12-20 2012-12-20 一种开放式云计算大规模集群监控系统及方法 Active CN103024060B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210558843.4A CN103024060B (zh) 2012-12-20 2012-12-20 一种开放式云计算大规模集群监控系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210558843.4A CN103024060B (zh) 2012-12-20 2012-12-20 一种开放式云计算大规模集群监控系统及方法

Publications (2)

Publication Number Publication Date
CN103024060A CN103024060A (zh) 2013-04-03
CN103024060B true CN103024060B (zh) 2015-05-13

Family

ID=47972184

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210558843.4A Active CN103024060B (zh) 2012-12-20 2012-12-20 一种开放式云计算大规模集群监控系统及方法

Country Status (1)

Country Link
CN (1) CN103024060B (zh)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103414748B (zh) * 2013-07-12 2016-12-28 广东电子工业研究院有限公司 一种云平台监控架构及其监控实现方法
CN104348874B (zh) * 2013-08-06 2019-04-05 中国电信股份有限公司 云平台组件之间消息传输的方法与装置
CN103414592A (zh) * 2013-08-21 2013-11-27 南京信核数据科技有限公司 一种网络存储监控管理方法
CN103475696A (zh) * 2013-08-23 2013-12-25 汉柏科技有限公司 云计算集群服务器状态监控系统和方法
CN103812699A (zh) * 2014-02-17 2014-05-21 无锡华云数据技术服务有限公司 基于云计算的监控管理系统
CN105337787A (zh) * 2014-07-29 2016-02-17 北京奇虎科技有限公司 一种多服务器监控方法、装置和系统
CN104158881B (zh) * 2014-08-20 2018-01-19 哈尔滨工程大学 一种支持用户自定制的第三方云安全监控系统及方法
CN104184819B (zh) * 2014-08-29 2017-12-05 城云科技(中国)有限公司 多层级负载均衡云资源监控方法
CN104268057B (zh) * 2014-09-24 2017-09-26 河海大学 一种Android平台下的模块化系统的监控系统及方法
CN104363276B (zh) * 2014-11-07 2017-07-11 哈尔滨工程大学 基于分域的第三方云监控方法
CN104410614B (zh) * 2014-11-19 2018-12-14 北京奇虎科技有限公司 数据传输、显示方法、装置及系统
CN104579761B (zh) * 2014-12-24 2018-03-23 西安工程大学 一种基于云计算的nosql集群自动配置系统及自动配置方法
CN105871957B (zh) * 2015-01-21 2019-02-05 深圳市腾讯计算机系统有限公司 监控框架设计方法和监控服务器、代理单元、中控服务器
CN104915285B (zh) * 2015-06-30 2018-08-14 北京奇虎科技有限公司 一种容器进程监控方法、装置及系统
CN106470113A (zh) * 2015-08-19 2017-03-01 中兴通讯股份有限公司 一种网管系统及数据管理方法
CN105245373B (zh) * 2015-10-12 2017-08-04 天津市普迅电力信息技术有限公司 一种容器云平台系统的搭建及运行方法
CN105245536B (zh) * 2015-10-26 2018-07-03 中国互联网络信息中心 一种基于安全评价的云数据中心资源分配方法
CN105550015A (zh) * 2015-12-08 2016-05-04 国云科技股份有限公司 一种监控Linux虚拟机内部进程的方法
CN105550013A (zh) * 2015-12-08 2016-05-04 国云科技股份有限公司 一种监控Windows虚拟机内部进程的方法
CN105843671B (zh) * 2016-03-22 2018-11-16 西安电子科技大学 基于云平台的虚拟机资源安全监控及风险预处理系统
CN107222320A (zh) * 2016-03-22 2017-09-29 中兴通讯股份有限公司 云服务器集群建立高可用连接的方法和装置
CN106059801A (zh) * 2016-05-24 2016-10-26 北京哈工大计算机网络与信息安全技术研究中心 基于云计算平台网络的虚拟机可信证据收集方法和装置
CN107645423A (zh) * 2016-07-21 2018-01-30 中国科学院计算机网络信息中心 一种监控数据的展示系统及其方法
CN106301895A (zh) * 2016-08-03 2017-01-04 浪潮(北京)电子信息产业有限公司 一种获取集群监控数据的容灾方法及装置
CN106302484A (zh) * 2016-08-22 2017-01-04 浪潮电子信息产业股份有限公司 一种策略集中管理的方法
CN106534338B (zh) * 2016-12-05 2019-05-21 东北大学 一种云机器人实现方法
CN107682222A (zh) * 2017-09-25 2018-02-09 郑州云海信息技术有限公司 一种信息监控方法、装置及系统
CN107908526A (zh) * 2017-10-26 2018-04-13 北京人大金仓信息技术股份有限公司 基于Web的集中式大规模集群监控预警系统
CN108259269A (zh) * 2017-12-30 2018-07-06 上海陆家嘴国际金融资产交易市场股份有限公司 网络设备的监控方法和系统
CN108334295B (zh) * 2018-01-24 2019-06-25 广州国交润万交通信息有限公司 一种监控pc与拼接大屏操作与显示同步及分离方法
CN108566314A (zh) * 2018-03-06 2018-09-21 平安科技(深圳)有限公司 电子装置、集群环境下状态信息的获取方法及存储介质
CN108933826A (zh) * 2018-06-29 2018-12-04 河南聚合科技有限公司 一种基于群控模式的仿生机器可自主移动侦察云平台
KR101987664B1 (ko) * 2018-07-19 2019-06-11 나무기술 주식회사 클라우드 플랫폼에서 복수의 클러스터 및 어플리케이션을 모니터링하는 방법
CN109194752A (zh) * 2018-09-11 2019-01-11 网御安全技术(深圳)有限公司 一种集群监控方法及系统
CN109688008A (zh) * 2018-12-27 2019-04-26 安徽长泰信息安全服务有限公司 一种用于数据库服务器的运维管理系统
CN109901969B (zh) * 2019-02-01 2022-10-14 广东安可云科技有限公司 一种集中监控管理平台的设计方法及装置
CN110266800A (zh) * 2019-06-24 2019-09-20 合肥盈川信息技术有限公司 一种智慧文旅大数据监管平台
CN110377483B (zh) * 2019-06-28 2022-07-22 浪潮电子信息产业股份有限公司 服务器监控系统及方法
CN110750421B (zh) * 2019-10-10 2023-07-25 珠海港联科技有限公司 一种基于订阅模式的软件系统任务监控与预警处理方法
CN112039726A (zh) * 2020-08-25 2020-12-04 新浪网技术(中国)有限公司 一种内容分发网络cdn设备的数据监控方法及系统
CN112129343A (zh) * 2020-09-11 2020-12-25 武汉天宝莱信息技术有限公司 一种基于云平台的服务器集群监测系统及方法
CN111930780B (zh) 2020-10-12 2020-12-18 上海冰鉴信息科技有限公司 数据查询方法及系统
CN112286762A (zh) * 2020-10-30 2021-01-29 深圳壹账通智能科技有限公司 基于云环境的系统信息分析方法、装置、电子设备及介质
CN112527469B (zh) * 2020-12-29 2024-03-01 浙江工业大学 一种云计算服务器的容错组合方法
CN113094107B (zh) * 2021-03-18 2023-12-22 深圳市塞防科技有限公司 数据保护方法、装置、设备及计算机存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101567816A (zh) * 2009-05-27 2009-10-28 北京中企开源信息技术有限公司 一种监控服务器及监控方法
CN102104628A (zh) * 2010-12-29 2011-06-22 北京新媒传信科技有限公司 一种服务器集群系统及其管理方法
CN102571499A (zh) * 2012-02-14 2012-07-11 广州亦云信息技术有限公司 一种云端数据库服务器集群的监控方法
CN102647452A (zh) * 2012-03-20 2012-08-22 广东电子工业研究院有限公司 基于大规模云计算平台的自适应资源监控系统及其方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101567816A (zh) * 2009-05-27 2009-10-28 北京中企开源信息技术有限公司 一种监控服务器及监控方法
CN102104628A (zh) * 2010-12-29 2011-06-22 北京新媒传信科技有限公司 一种服务器集群系统及其管理方法
CN102571499A (zh) * 2012-02-14 2012-07-11 广州亦云信息技术有限公司 一种云端数据库服务器集群的监控方法
CN102647452A (zh) * 2012-03-20 2012-08-22 广东电子工业研究院有限公司 基于大规模云计算平台的自适应资源监控系统及其方法

Also Published As

Publication number Publication date
CN103024060A (zh) 2013-04-03

Similar Documents

Publication Publication Date Title
CN103024060B (zh) 一种开放式云计算大规模集群监控系统及方法
CN110908658B (zh) 一种“微服务+微应用”系统、数据处理方法及装置
CN101902473B (zh) 基于网格gis的数据同步更新实现方法
CN102868736B (zh) 一种云计算监控框架设计及实现方法及云计算处理设备
WO2023246347A1 (zh) 数字孪生处理方法及数字孪生系统
CN112162821B (zh) 容器集群资源监视方法、装置及系统
CN104486445A (zh) 一种基于云平台的分布式可扩展资源监控系统及方法
CN106302618A (zh) 远程控制方法、远程服务器、管理设备和终端
CN100481783C (zh) 网格服务容器的控制系统
CN111885439B (zh) 一种光网络综合管理和值勤管理系统
CN103414579A (zh) 一种适用于云计算的跨平台监控系统及其监控方法
US9104488B2 (en) Support server for redirecting task results to a wake-up server
CN113778615B (zh) 一种快速稳定的网络靶场虚拟机构建系统
TW201814609A (zh) 一種資訊推送的方法和系統及用戶端和伺服器
JP2023506239A (ja) ハイブリッドエネルギー管理における自律的モニタリング及びリカバリのためのシステム及び方法
CN104216963A (zh) 一种基于HBase的海量网管数据采集和存储方法
EP4315780A1 (en) Dynamic processing distribution for utility communication networks
CN114615268B (zh) 基于Kubernetes集群的服务网络、监控节点、容器节点及设备
WO2013037234A1 (zh) 参数接收方法及系统
CN106534259B (zh) 基于Docker的Web数据采集方法、Web服务器及Web数据采集系统
CN102904739A (zh) 一种实现事件转发的方法及通用信息模型cim服务器
CN116471177A (zh) 时间敏感网络动态配置管理系统、方法及介质
CN109120443A (zh) 一种网络附加存储nas设备的管理方法和装置
CN114756301A (zh) 日志处理方法、装置和系统
CN109450686B (zh) 一种基于普适网络的网络资源管理系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant