CN116232965A - 集群主机监控系统、方法及存储介质 - Google Patents

集群主机监控系统、方法及存储介质 Download PDF

Info

Publication number
CN116232965A
CN116232965A CN202211666448.8A CN202211666448A CN116232965A CN 116232965 A CN116232965 A CN 116232965A CN 202211666448 A CN202211666448 A CN 202211666448A CN 116232965 A CN116232965 A CN 116232965A
Authority
CN
China
Prior art keywords
monitoring
information
cluster
modules
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211666448.8A
Other languages
English (en)
Inventor
蔺昊天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Unicom Digital Technology Co Ltd
Unicom Cloud Data Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Unicom Digital Technology Co Ltd
Unicom Cloud Data Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd, Unicom Digital Technology Co Ltd, Unicom Cloud Data Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN202211666448.8A priority Critical patent/CN116232965A/zh
Publication of CN116232965A publication Critical patent/CN116232965A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/12Network monitoring probes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Abstract

本申请提供一种集群主机监控系统、方法及存储介质,涉及通信领域,能够解决监控系统的可用性较低的问题。该系统包括:主机探针模块、至少两个集群监控模块、至少两个监控汇总模块和代理转发模块,主机探针模块分别与至少两个集群监控模块连接,至少两个集群监控模块分别与至少两个监控汇总模块连接,至少两个监控汇总模块分别与代理转发模块连接。本申请实施例应用于集群主机监控系统。

Description

集群主机监控系统、方法及存储介质
技术领域
本申请涉及通信领域,尤其涉及一种集群主机监控系统、方法及存储介质。
背景技术
目前,用户可以通过云平台技术,基于多区域多机房主机构成的庞大集群,并在上面部署各类服务和应用。现有技术中对于集群主机监控,大多仅实现了对平台高可用性的监控,针对监控系统自身高可用性的建设较少,大多采用主备切换的监控系统。
然而,上述主备切换的监控系统,大多在主监控系统存在故障时去切换备用监控系统,导致在主备监控系统进行切换时,会存在监控数据的中断以及丢失,如此,监控系统的可用性较低。
发明内容
本申请提供一种集群主机监控系统、方法及存储介质,能够解决监控系统的可用性较低的问题。
为达到上述目的,本申请采用如下技术方案:
第一方面,本申请提供一种集群主机监控系统,该系统包括:主机探针模块、至少两个集群监控模块、至少两个监控汇总模块和代理转发模块,主机探针模块分别与至少两个集群监控模块连接,至少两个集群监控模块分别与至少两个监控汇总模块连接,至少两个监控汇总模块分别与代理转发模块连接;其中,主机探针模块用于获取第一信息,第一信息包括以下至少一项:集群主机中每个主机的工作状态,集群主机中每个主机所部署服务的工作状态;每个集群监控模块用于获取第二信息,第二信息包括第一信息和至少两个集群监控模块中的其他集群监控模块的工作状态信息;每个监控汇总模块用于获取第三信息,第三信息包括每个集群监控模块的第二信息和至少两个监控汇总模块中的其他监控汇总模块的工作状态信息;代理转发模块用于获取第三信息,并根据第三信息,对特定源地址的访问请求进行代理转发,确定特定源地址的访问请求对应的监控数据的传输通路。
基于上述技术方案,本申请实施例提供的集群主机监控系统,可以通过多条由集群监控模块、监控汇总模块构成的传输通路到达代理转发模块,并由代理转发模块对主机监控数据进行转发。在使用中,若其中一条传输通路出现故障,其他传输通路依旧可以完成对主机监控数据的转发,主机监控数据并不会丢失以及中断,从而提高集群主机监控系统的可用性。
在第一方面的第一种可能的实现方式中,主机探针模块包括第一端口,每个集群监控模块包括第二端口,每个监控汇总模块包括第三端口;第一端口分别与至少两个集群监控模块连接,第二端口分别与至少两个监控汇总模块连接,第三端口与代理转发模块连接;其中,第一端口用于将第一信息分别发送至至少两个集群监控模块,第二端口用于将第二信息分别发送至至少两个监控汇总模块,第三端口用于将第三信息发送至代理转发模块。
在第一方面的第二种可能的实现方式中,至少两个集群监控模块部署在最小维度单位的集群主机中的至少两台主机上。
在第一方面的第三种可能的实现方式中,每个集群监控模块包括集群监控服务,集群监控服务包括以下至少一项:主机监控服务,主机监控服务用于根据主机探针模块,周期性地采集目标集群主机的第一信息,目标集群主机为集群主机中的每个集群监控模块所属的集群主机;第一监控服务,第一监控服务用于监控主机监控服务的工作状态,并采集主机监控服务的工作状态信息;第二端口服务,第二端口服务用于将第二信息发送至至少两个监控汇总模块;第二监控服务,第二监控服务用于监控第二端口的工作状态,并采集第二端口的工作状态信息;第三监控服务,第三监控服务用于监控其他集群监控模块的工作状态,并生成第二信息;同步配置服务,同步配置服务用于保障每个集群监控模块的集群监控服务的配置相同。
在第一方面的第四种可能的实现方式中,至少两个监控汇总模块部署在不同层级的集群主机中,且每个层级中包括至少两个监控汇总模块。
在第一方面的第五种可能的实现方式中,每个监控汇总模块包括监控汇总服务,监控汇总服务包括以下至少一项:第四监控服务,第四监控服务用于通过第二端口服务,周期性地采集第二信息,并生成第四信息,第四信息包括本层级的第二信息和下一层级的第二信息;第三端口服务,第三端口服务用于将第三信息发送至代理转发模块;第五监控服务,第五监视服务用于监视第二端口的工作状态,并采集第三端口的工作状态信息;第六监控服务,第六监控服务用于监视同一层级中的其他监控汇总模块的工作状态,并生成第三信息,第三信息中包括第四信息;同步配置服务,同步配置服务用于保障每个监控汇总模块的监控汇总服务的配置相同。
在第一方面的第六种可能的实现方式中,代理转发模块包括代理转发服务,代理转发服务包括以下至少一项:第七监控服务,第七监控服务用于获取最高层监控汇总模块发送的第三信息;高可用算法,高可用算法用于根据第三信息,确定至少一个当前可用监控汇总模块,并生成目标规则,目标规则用于将特定源地址的访问请求分配到一个固定当前可用监控汇总模块上,至少一个当前可用监控汇总模块中的每个当前可用监控汇总模块的分配概率相同;第四端口服务,第四端口服务用于根据高可用算法,将特定源地址的访问请求代理至一个固定当前可用监控汇总模块上。
第二方面,本申请提供一种集群主机监控方法,该方法包括:获取目标信息;根据目标信息,从至少一条传输路径中,确定监控数据的传输通路;其中,目标信息包括:第一信息、第二信息和第三信息,第一信息包括以下至少一项:集群主机中每个主机的工作状态,集群主机中每个主机所部署服务的工作状态;第二信息包括以下至少一项:第一信息和至少两个集群监控模块的工作状态信息;第三信息包括以下至少一项:每个集群监控模块对应的第二信息和至少两个监控汇总模块的工作状态信息。
在第二方面的第一种可能的实现方式中,根据目标信息,从至少一条传输路径中,确定监控数据的传输通路,包括:根据目标信息和高可用算法,从至少一条传输路径中,确定监控数据的传输通路。
第三方面,本申请提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当指令在终端上运行时,使得终端执行如第二方面和第二方面的任一种可能的实现方式中描述的集群主机监控方法。
第四方面,本申请实施例提供一种包含指令的计算机程序产品,当计算机程序产品在集群主机监控系统上运行时,使得集群主机监控系统执行如第二方面和第二方面的任一种可能的实现方式中所描述的集群主机监控方法。
第五方面,本申请实施例提供一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行计算机程序或指令,以实现如第二方面和第二方面的任一种可能的实现方式中所描述的集群主机监控方法。
具体的,本申请实施例中提供的芯片还包括存储器,用于存储计算机程序或指令。
附图说明
图1为本申请实施例提供的一种集群主机监控系统的结构图之一;
图2为本申请实施例提供的一种集群主机监控系统的结构图之二;
图3为本申请实施例提供的一种集群主机监控方法的流程图;
图4为本申请实施例提供的一种芯片的结构示意图。上述
具体实施方式
下面结合附图对本申请实施例提供的集群主机监控系统、方法及存储介质进行详细地描述。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
本申请的说明书以及附图中的术语“第一”和“第二”等是用于区别不同的对象,或者用于区别对同一对象的不同处理,而不是用于描述对象的特定顺序。
此外,本申请的描述中所提到的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括其他没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
在本申请的描述中,除非另有说明,“多个”的含义是指两个或两个以上。
目前,云平台技术广泛应用于各行业领域,而云平台从架构上来看,是多区域多机房主机构成的庞大集群,并在上面部署各类服务和应用。对于管理者和客户来说,监控云平台环境里的主机和应用状态是非常重要的工作内容。而且,云平台的另一大关注点是高可用问题,即某个主机、应用、服务遇到故障时,能够保证业务及时切换到备用角色,持续不中断。例如采用主备切换调度方法,即主备监控共享外部存储,主监控故障后切至备用监控,然而,上述方法中,存在以下问题:
(1)现有的监控系统多为非高可用架构,即监控服务单实例运行,如果监控服务或所在主机故障,则监控失效。
(2)现有的高可用监控系统方案,多为单实例模式,依赖主备切换、底座调度或网络存储,不能保证瞬间切换,数据采集和上报可能会中断、缺失。
(3)云平台多具有多级区域架构,多层级树状监控网络缺乏高可用方案。
为了解决现有技术中,监控数据采集和上报可能会中断、缺失的问题,本申请提供了一种集群主机监控系统,该系统包括主机探针模块、至少两个集群监控模块、至少两个监控汇总模块和代理转发模块,该主机探针模块分别与至少两个集群监控模块连接,至少两个集群监控模块分别与至少两个监控汇总模块连接,至少两个监控汇总模块与代理转发模块连接。本方案中,可以通过多条由集群监控模块、监控汇总模块构成的传输通路到达代理转发模块,并由代理转发模块对主机监控数据进行转发。在使用中,集群主机监控系统可以监控每条传输路径的工作状态,若其中一条传输通路出现故障,其他传输通路依旧可以完成对主机监控数据的转发,主机监控数据并不会丢失以及中断,从而提高集群主机监控系统的可用性。
如图1所示,为本申请实施例提供的集群主机监控系统的实例图,该系统10包括:主机探针模块11、至少两个集群监控模块12、至少两个监控汇总模块13和代理转发模块14,主机探针模块11分别与至少两个集群监控模块12连接,至少两个集群监控模块12分别与至少两个监控汇总模块13连接,至少两个监控汇总模块13分别与代理转发模块14连接。
本申请实施例中,上述主机探针模块用于获取第一信息,第一信息包括以下至少一项:集群主机中每个主机的工作状态,集群主机中每个主机所部署服务的工作状态;每个集群监控模块用于获取第二信息,第二信息包括第一信息和至少两个集群监控模块中的其他集群监控模块的工作状态信息;每个监控汇总模块用于获取第三信息,第三信息包括每个集群监控模块的第二信息和至少两个监控汇总模块中的其他监控汇总模块的工作状态信息;代理转发模块用于获取第三信息,并根据第三信息,对特定源地址的访问请求进行代理转发,确定特定源地址的访问请求对应的监控数据的传输通路。
需要说明的是,本申请实施例中的集群主机监控系统为纵向结构。
可选地,本申请实施例中,上述主机探针模块可以为一个或多个。
示例性地,在主机探针模块为一个的情况下,集群中的每个主机均通过一个公共的HTTP接口连接至主机探针模块。
示例性地,在主机探针模块为多个的情况下,集群中的每个主机中均包括主机探针模块。
示例性地,上述每个集群监控模块用于获取至少两个集群监控模块中的其他集群监控模块的工作状态信息,即本申请提供的每个集群监控模块可以互相监控,从而集群主机监控系统可以获取每个集群监控模块的工作状态信息。
示例性地,上述每个监控汇总模块用于获取至少两个监控汇总模块中的其他监控汇总模块的工作状态信息,即本申请提供的每个监控汇总模块可以互相监控,从而集群主机监控系统可以获取每个监控汇总模块的工作状态信息。
可选地,本申请实施例中,如图2所示,主机探针模块11包括第一端口110,每个集群监控模块12包括第二端口120,每个监控汇总模块13包括第三端口130;第一端口110分别与至少两个集群监控模块12连接,第二端口120分别与至少两个监控汇总模块13连接,第三端口130与代理转发模块14连接。
本申请实施例中,第一端口用于将第一信息分别发送至至少两个集群监控模块,第二端口用于将第二信息分别发送至至少两个监控汇总模块,第三端口用于将第三信息发送至代理转发模块。
需要说明的是,图1中的至少两个集群监控模块以两个集群监控模块为例,至少两个监控汇总模块以两个监控汇总模块为例。
示例性地,本申请实施例中,上述第一端口、第二端口、第三端口均可以为HTTP端口。
可选地,本申请实施例中,上述至少两个集群监控模块部署在最小维度单位的集群主机中的至少两台主机上。
需要说明的是,上述维度单位是指机房、数据中心、市域、全域等维度单位,其中,最小维度单位为机房。
可选地,本申请实施例中,上述至少两个集群监控模块中的每个集群监控模块包括集群监控服务,集群监控服务包括以下至少一项:
主机监控服务,主机监控服务用于根据主机探针模块,周期性地采集目标集群主机的第一信息,目标集群主机为集群主机中的每个集群监控模块所属的集群主机。
第一监控服务,第一监控服务用于监控主机监控服务的工作状态,并采集主机监控服务的工作状态信息。
示例性地,上述工作状态信息可以为0和1;其中,0代表工作状态正常,1代表工作状态异常。
第二端口服务,第二端口服务用于将第二信息发送至至少两个监控汇总模块。
第二监控服务,第二监控服务用于监控第二端口的工作状态,并采集第二端口的工作状态信息。
第三监控服务,第三监控服务用于监控其他集群监控模块的工作状态,并生成第二信息。
同步配置服务,同步配置服务用于保障每个集群监控模块的集群监控服务的配置相同。
可选地,本申请实施例中,上述至少两个监控汇总模块部署在不同层级的集群主机中,且每个层级中包括至少两个监控汇总模块。
可选地,本申请实施例中,上述至少两个监控汇总模块中的每个监控汇总模块包括监控汇总服务,监控汇总服务包括以下至少一项:
第四监控服务,第四监控服务用于通过第二端口服务,周期性地采集第二信息,并生成第四信息,第四信息包括本层级的第二信息和下一层级的第二信息。
第三端口服务,第三端口服务用于将第三信息发送至代理转发模块。
第五监控服务,第五监视服务用于监视第二端口的工作状态,并采集第三端口的工作状态信息。
第六监控服务,第六监控服务用于监视同一层级中的其他监控汇总模块的工作状态,并生成第三信息,第三信息中包括第四信息。
同步配置服务,同步配置服务用于保障每个监控汇总模块的监控汇总服务的配置相同。
可选地,本申请实施例中,上述代理转发模块包括代理转发服务,所述代理转发服务包括以下至少一项:
第七监控服务,第七监控服务用于获取最高层监控汇总模块发送的第三信息。
高可用算法,高可用算法用于根据第三信息,确定至少一个当前可用监控汇总模块,并生成目标规则,目标规则用于将特定源地址的访问请求分配到一个固定当前可用监控汇总模块上,至少一个当前可用监控汇总模块中的每个当前可用监控汇总模块的分配概率相同。
第四端口服务,第四端口服务用于根据高可用算法,将特定源地址的5访问请求代理至一个固定当前可用监控汇总模块上。
需要说明的是,上述代理转发模块位于云平台中,并且基于云平台管理。
本申请提供一种集群主机监控系统,该集群主机监控系统包括主机探针模块、至少两个集群监控模块、至少两个监控汇总模块和代理转发模块,0主机探针模块分别与至少两个集群监控模块连接,至少两个集群监控模块分别与至少两个监控汇总模块连接,至少两个监控汇总模块分别与代理转发模块连接。本方案中,可以通过多条由集群监控模块、监控汇总模块构成的传输通路到达代理转发模块,并由代理转发模块对主机监控数据进行
转发。在使用中,若其中一条传输通路出现故障,其他传输通路依旧可以5完成对主机监控数据的转发,主机监控数据并不会丢失以及中断,从而提高集群主机监控系统的可用性。
如图3所示,为本申请实施例提供的集群主机监控方法的流程图,该方法包括以下步骤S101和步骤S102:
S101、集群主机监控系统获取目标信息。
0本申请实施例中,上述目标信息包括:第一信息、第二信息和第三信息,第一信息包括以下至少一项:集群主机中每个主机的工作状态,集群主机中每个主机所部署服务的工作状态;第二信息包括以下至少一项:第一信息和至少两个集群监控模块的工作状态信息;第三信息包括以下至少
一项:每个集群监控模块对应的第二信息和至少两个监控汇总模块的工作5状态信息。
本申请实施例中,集群主机监控系统具体可以通过主机探针模块的第一端口获取第一信息,通过集群监控模块的第二端口获取第二信息,通过监控汇总模块的第三端口获取第三信息。
S102、集群主机监控系统根据目标信息,从至少一条传输路径中,确0定监控数据的传输通路。
需要说明的是,上述至少一条传输路径中的每条传输路径为主机探针模块、集群监控模块、监控汇总模块、代理转发模块之间的传输路径。
示例性地,上述监控数据可以为特定源地址请求的监控数据。
本申请实施例提供一种集群主机监控方法,集群主机监控系统可以获取目标信息,从而根据该目标信息,从至少一条传输路径中,确定监控数据的传输通路。本方案中,由于该目标信息中包含每条传输路径的工作状态信息和传输的数据信息,从而集群主机监控系统可以根据该目标信息确定出至少一条数据通路,进而根据该至少一条数据通路进行监控数据的传输,在使用中,若其中一条传输通路出现故障,其他传输通路依旧可以完成对主机监控数据的转发,主机监控数据并不会丢失以及中断,从而提高集群主机监控系统的可用性。
可选地,本申请实施例中,上述步骤S102具体可以通过下述过程实现。
集群主机监控系统根据目标信息和高可用算法,从至少一条传输路径中,确定监控数据的传输通路。
本申请实施例中,集群主机监控系统在得到目标信息之后,可以根据代理转发模块中的高可用算法,确定目标规则,该目标规则用于将特定源地址的访问请求分配到一个固定当前可用监控汇总模块上(即一个传输通路),并通过代理转发模块中的第四端口服务,将特定源地址的访问请求代理至一个固定当前可用监控汇总模块上。
本申请实施例中,集群主机监控系统通过目标信息和高可用算法共同确定监控数据的传输通路,避免了当前传输通路存在故障导致监控数据易丢失的问题,如此,提升了集群主机监控系统确定监控数据的传输通路的灵活性和准确性。
图4是本申请实施例提供的芯片170的结构示意图。芯片170包括一个或两个以上(包括两个)处理器1710和通信接口1730。
可选的,该芯片170还包括存储器1740,存储器1740可以包括只读存储器和随机存取存储器,并向处理器1710提供操作指令和数据。存储器1740的一部分还可以包括非易失性随机存取存储器(non-volatilerandom accessmemory,NVRAM)。
在一些实施方式中,存储器1740存储了如下的元素,执行模块或者数据结构,或者他们的子集,或者他们的扩展集。
在本申请实施例中,通过调用存储器1740存储的操作指令(该操作指令可存储在操作系统中),执行相应的操作。
其中,上述处理器1710可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,单元和电路。该处理器可以是中央处理器,通用处理器,数字信号处理器,专用集成电路,现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,单元和电路。所述处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
存储器1740可以包括易失性存储器,例如随机存取存储器;该存储器也可以包括非易失性存储器,例如只读存储器,快闪存储器,硬盘或固态硬盘;该存储器还可以包括上述种类的存储器的组合。
总线1720可以是扩展工业标准结构(ExtendedIndustryStandard Architecture,EISA)总线等。总线1720可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条线表示,但并不表示仅有一根总线或一种类型的总线。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例提供一种包含指令的计算机程序产品,当该计算机程序产品在计算机上运行时,使得该计算机执行上述方法实施例中的集群主机监控方法。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有指令,当该指令在计算机上运行时,使得该计算机执行上述方法实施例所示的方法流程中的集群主机监控方法。
其中,计算机可读存储介质,例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RandomAccess Memory,RAM)、只读存储器(Read-OnlyMemory,ROM)、可擦式可编程只读存储器(ErasableProgrammableReadOnlyMemory,EPROM)、寄存器、硬盘、光纤、便携式紧凑磁盘只读存储器(CompactDiscRead-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合、或者本领域熟知的任何其它形式的计算机可读存储介质。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于特定用途集成电路(ApplicationSpecific IntegratedCircuit,ASIC)中。在本申请实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
本发明的实施例提供一种包含指令的计算机程序产品,当指令在计算机上运行时,使得计算机执行如图1至图4中所述的集群主机监控方法。
由于本发明的实施例中的集群主机监控系统、方法、及计算机可读存储介质、计算机程序产品可以应用于上述方法,因此,其所能获得的技术效果也可参考上述方法实施例,本发明实施例在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
以上,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种集群主机监控系统,其特征在于,所述系统包括:主机探针模块、至少两个集群监控模块、至少两个监控汇总模块和代理转发模块,所述主机探针模块分别与所述至少两个集群监控模块连接,所述至少两个集群监控模块分别与所述至少两个监控汇总模块连接,所述至少两个监控汇总模块分别与所述代理转发模块连接;
其中,所述主机探针模块用于获取第一信息,所述第一信息包括以下至少一项:所述集群主机中每个主机的工作状态,所述集群主机中每个主机所部署服务的工作状态;每个集群监控模块用于获取第二信息,所述第二信息包括所述第一信息和所述至少两个集群监控模块中的其他集群监控模块的工作状态信息;每个监控汇总模块用于获取第三信息,所述第三信息包括每个集群监控模块的第二信息和所述至少两个监控汇总模块中的其他监控汇总模块的工作状态信息;所述代理转发模块用于获取第三信息,并根据所述第三信息,对特定源地址的访问请求进行代理转发,确定所述特定源地址的访问请求对应的监控数据的传输通路。
2.根据权利要求1所述的系统,其特征在于,所述主机探针模块包括第一端口,每个集群监控模块包括第二端口,每个监控汇总模块包括第三端口;所述第一端口分别与所述至少两个集群监控模块连接,所述第二端口分别与所述至少两个监控汇总模块连接,所述第三端口与所述代理转发模块连接;
其中,所述第一端口用于将所述第一信息分别发送至所述至少两个集群监控模块,所述第二端口用于将所述第二信息分别发送至至少两个监控汇总模块,所述第三端口用于将所述第三信息发送至所述代理转发模块。
3.根据权利要求1所述的系统,其特征在于,所述至少两个集群监控模块部署在最小维度单位的集群主机中的至少两台主机上。
4.根据权利要求3所述的系统,其特征在于,每个集群监控模块包括集群监控服务,所述集群监控服务包括以下至少一项:
主机监控服务,所述主机监控服务用于根据所述主机探针模块,周期性地采集目标集群主机的所述第一信息,所述目标集群主机为所述集群主机中的每个集群监控模块所属的集群主机;
第一监控服务,所述第一监控服务用于监控所述主机监控服务的工作状态,并采集所述主机监控服务的工作状态信息;
第二端口服务,所述第二端口服务用于将所述第二信息发送至所述至少两个监控汇总模块;
第二监控服务,所述第二监控服务用于监控第二端口的工作状态,并采集所述第二端口的工作状态信息;
第三监控服务,所述第三监控服务用于监控其他集群监控模块的工作状态,并生成所述第二信息;
同步配置服务,所述同步配置服务用于保障每个集群监控模块的所述集群监控服务的配置相同。
5.根据权利要求1所述的系统,其特征在于,所述至少两个监控汇总模块部署在不同层级的集群主机中,且每个层级中包括至少两个监控汇总模块。
6.根据权利要求5所述的系统,其特征在于,每个监控汇总模块包括监控汇总服务,所述监控汇总服务包括以下至少一项:
第四监控服务,所述第四监控服务用于通过第二端口服务,周期性地采集第二信息,并生成第四信息,所述第四信息包括本层级的第二信息和下一层级的第二信息;
第三端口服务,所述第三端口服务用于将所述第三信息发送至所述代理转发模块;
第五监控服务,所述第五监控服务用于监视第二端口的工作状态,并采集第三端口的工作状态信息;
第六监控服务,所述第六监控服务用于监视同一层级中的其他监控汇总模块的工作状态,并生成所述第三信息,所述第三信息中包括所述第四信息;
同步配置服务,所述同步配置服务用于保障每个监控汇总模块的所述监控汇总服务的配置相同。
7.根据权利要求1所述的系统,其特征在于,所述代理转发模块包括代理转发服务,所述代理转发服务包括以下至少一项:
第七监控服务,所述第七监控服务用于获取最高层监控汇总模块发送的所述第三信息;
高可用算法,所述高可用算法用于根据所述第三信息,确定至少一个当前可用监控汇总模块,并生成目标规则,所述目标规则用于将特定源地址的访问请求分配到一个固定当前可用监控汇总模块上,所述至少一个当前可用监控汇总模块中的每个当前可用监控汇总模块的分配概率相同;
第四端口服务,所述第四端口服务用于根据所述高可用算法,将所述特定源地址的访问请求代理至一个固定当前可用监控汇总模块上。
8.一种集群主机监控方法,其特征在于,所述方法包括:
获取目标信息;
根据所述目标信息,从至少一条传输路径中,确定监控数据的传输通路;
其中,所述目标信息包括:第一信息、第二信息和第三信息,所述第一信息包括以下至少一项:集群主机中每个主机的工作状态,所述集群主机中每个主机所部署服务的工作状态;所述第二信息包括以下至少一项:所述第一信息和至少两个集群监控模块的工作状态信息;所述第三信息包括以下至少一项:每个集群监控模块对应的第二信息和至少两个监控汇总模块的工作状态信息。
9.根据权利要求8所述的方法,其特征在于,所述根据所述目标信息,从至少一条传输路径中,确定监控数据的传输通路,包括:
根据所述目标信息和高可用算法,从所述至少一条传输路径中,确定所述监控数据的传输通路。
10.一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,其特征在于,当计算机执行该指令时,该计算机执行上述权利要求8-9任一项中所述的集群主机监控方法。
CN202211666448.8A 2022-12-23 2022-12-23 集群主机监控系统、方法及存储介质 Pending CN116232965A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211666448.8A CN116232965A (zh) 2022-12-23 2022-12-23 集群主机监控系统、方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211666448.8A CN116232965A (zh) 2022-12-23 2022-12-23 集群主机监控系统、方法及存储介质

Publications (1)

Publication Number Publication Date
CN116232965A true CN116232965A (zh) 2023-06-06

Family

ID=86583351

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211666448.8A Pending CN116232965A (zh) 2022-12-23 2022-12-23 集群主机监控系统、方法及存储介质

Country Status (1)

Country Link
CN (1) CN116232965A (zh)

Similar Documents

Publication Publication Date Title
CN106534328B (zh) 节点连接方法及分布式计算系统
US9703608B2 (en) Variable configurations for workload distribution across multiple sites
US10282136B1 (en) Storage system and control method thereof
US9201747B2 (en) Real time database system
KR20160106187A (ko) 분산형 스토리지 시스템에서 데이터 재구성의 우선순위화
CN109802986B (zh) 设备管理方法、系统、装置及服务器
US9823948B2 (en) Efficient resource utilization in data centers
CN108924272A (zh) 一种端口资源分配方法及装置
CN102437933A (zh) 一种服务器故障容错系统及方法
CN112256433B (zh) 基于Kafka集群的分区迁移方法和装置
CN110535964B (zh) 基于Paas连接器实现的数据处理方法及装置
US20140082258A1 (en) Multi-server aggregated flash storage appliance
CN112492011A (zh) 分布式存储系统故障切换方法、系统、终端及存储介质
CN112491592A (zh) 一种存储资源分组方法、系统、终端及存储介质
CN116232965A (zh) 集群主机监控系统、方法及存储介质
US20180032119A1 (en) Redundant power extender
CN109347743A (zh) 一种专线通信方法、计算机可读存储介质和终端设备
CN101567804A (zh) 一种实现系统异常保护的方法、设备和系统
CN102662702B (zh) 设备管理系统、装置、基板管理装置及方法
CN115729693A (zh) 数据处理方法、装置、计算机设备及计算机可读存储介质
EP1296482A2 (en) A system and method for managing one or more domains
US20100205398A1 (en) Transmission device and swichover processing method
US11190394B2 (en) Soft-failure protection for multicast communications
US20180225201A1 (en) Preserving volatile memory across a computer system disruption
CN114579338A (zh) 双机分布式仲裁系统及其仲裁方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination