CN112437145A - 一种服务器集群管理方法、装置及相关组件 - Google Patents

一种服务器集群管理方法、装置及相关组件 Download PDF

Info

Publication number
CN112437145A
CN112437145A CN202011293576.3A CN202011293576A CN112437145A CN 112437145 A CN112437145 A CN 112437145A CN 202011293576 A CN202011293576 A CN 202011293576A CN 112437145 A CN112437145 A CN 112437145A
Authority
CN
China
Prior art keywords
server
monitored
monitoring
monitoring server
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011293576.3A
Other languages
English (en)
Inventor
孙伟源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Inspur Data Technology Co Ltd
Original Assignee
Beijing Inspur Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Inspur Data Technology Co Ltd filed Critical Beijing Inspur Data Technology Co Ltd
Priority to CN202011293576.3A priority Critical patent/CN112437145A/zh
Publication of CN112437145A publication Critical patent/CN112437145A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/04Network management architectures or arrangements
    • H04L41/046Network management architectures or arrangements comprising network management agents or mobile agents therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/1008Server selection for load balancing based on parameters of servers, e.g. available memory or workload
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer And Data Communications (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种服务器集群管理方法,包括:确定监测服务器;根据负载均衡策略,为集群中的各个被监测服务器分配对应的监测服务器,其中,被监测服务器中配置有Agent服务;通过Agent服务将获取到的被监测服务器的性能指标数据发送至其对应的监测服务器;利用监测服务器根据性能指标数据管理被监测服务器。本申请能够避免轮询所造成的网络阻塞和性能下降,有效提升了服务器集群的稳定性,同时可以保证各个监测服务器负载均衡,进一步提高管理性能。本申请还公开了一种服务器集群管理装置、电子设备及计算机可读存储介质,具有以上有益效果。

Description

一种服务器集群管理方法、装置及相关组件
技术领域
本申请涉及服务器领域,特别涉及一种服务器集群管理方法、装置及相关组件。
背景技术
随着云技术的不断发展、成熟,云计算数据中心也在不断地变化、发展、壮大。如今,云数据中心已经普遍实现了以千为统计单位的服务器,其不断规模化发展也使它不再仅仅是服务器的托管、维护场所,更是一个集大规模数据运算和海量数据存储为一体的高可靠、高性能计算机的集中场所。这一切都促使云计算数据中心具备较强异构性、数据庞大等特点。而对于如此数量的服务器,在复杂的IT环境下,任何的服务器单点故障,如网络中断、服务器宕机、数据库性能下降、防火墙失效、应用停止等,都会导致集群系统部分或全部中断。
在目前的集群管理中,大多采用SNMP协议对网络设备进行监管。SNMP协议即简单网络管理协议,提供统一的接口,实现了不同种类和厂商的网络设备之间的统一管理。SNMP使用嵌入到网络设施中的代理软件来收集设备统计数据,代理不断地收集统计数据并记录到MIB中,网络管理人员通过向代理的MIB发出查询信号可以得到这些信息。虽然MIB计数器将统计数据的总和记录下来了,但它无法对日常统计数据进行历史分析。为了能全面地查看一天或者更久的性能数据和变化率,管理人员必须不断轮询SNMP代理,例如一天中的每分钟都要轮询一次,显然,在中、大型集群中,SNMP协议建立在轮询上的管理存在着两个弱点,一是轮询会产生巨大的网络管理通信量,导致网络拥挤情况的发生,二是网络控制台难应付收集数据的负担。
因此,如何提供一种解决上述技术问题的方案是本领域技术人员目前需要解决的问题。
发明内容
本申请的目的是提供一种服务器集群管理方法、装置、电子设备及计算机可读存储介质,能够避免轮询所造成的网络阻塞和性能下降,有效提升了服务器集群的稳定性,同时可以保证各个监测服务器负载均衡,进一步提高管理性能。
为解决上述技术问题,本申请提供了一种服务器集群管理方法,包括:
确定监测服务器;
根据负载均衡策略,为集群中的各个被监测服务器分配对应的所述监测服务器,其中,所述被监测服务器中配置有Agent服务;
通过所述Agent服务将获取到的所述被监测服务器的性能指标数据发送至其对应的所述监测服务器;
利用所述监测服务器根据所述性能指标数据管理所述被监测服务器。
优选的,所述确定监测服务器的过程具体包括:
在所述集群内的所有服务器中确定监测服务器;
和/或,
在所述集群外的服务器中确定所述监测服务器。
优选的,所述监测服务器的数量为多个;
该服务器集群管理方法还包括:
在所有所述监测服务器中确定主监测服务器或从监测服务器。
优选的,该服务器集群管理方法还包括:
通过处于正常状态的所述主监测服务器或所述从监测服务器向所述集群发送广播信息,以识别所述集群中上线或下线的服务器。
优选的,所述利用所述监测服务器根据所述性能指标数据管理所述被监测服务器的过程包括:
通过所述监测服务器执行以下操作:
对所述性能指标数据进行处理;
根据所述处理后的性能指标数据管理所述被监测服务器;
其中,所述处理包括数据过滤处理和/或单位换算处理和/或格式转换处理和/或汇聚计算。
优选的,所述利用所述监测服务器根据所述性能指标数据管理所述被监测服务器的过程还包括:
通过所述监测服务器执行以下操作:
根据所述性能指标数据判断所述被监测服务器是否异常;
若是,执行与所述被监测服务器对应的告警操作。
优选的,所述根据负载均衡策略,为集群中的各个被监测服务器分配对应的所述监测服务器的过程包括:
利用FNV1_32_HASH构造Hash算法;
利用红黑树结构构造Hash环;
获取所述监测服务器映射出的多个虚拟节点,将所有所述虚拟节点加入所述Hash环中;
通过所述Hash环为集群中的各个被监测服务器分配对应的所述监测服务器。
为解决上述技术问题,本申请还提供了一种服务器集群管理装置,包括:
确定模块,用于确定监测服务器;
分配模块,用于根据负载均衡策略,为集群中的各个被监测服务器分配对应的所述监测服务器,其中,所述被监测服务器中配置有Agent服务;
上传模块,用于通过所述Agent服务将获取到的所述被监测服务器的性能指标数据发送至其对应的所述监测服务器;
管理模块,用于利用所述监测服务器根据所述性能指标数据管理所述被监测服务器。
为解决上述技术问题,本申请还提供了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上文任意一项所述的服务器集群管理方法的步骤。
为解决上述技术问题,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上文任意一项所述的服务器集群管理方法的步骤。
本申请提供了一种服务器集群管理方法,首先在集群的被监测服务器中配置Agent服务,由Agent服务完成被监测服务器的性能指标数据地获取和上报,以便监测服务器根据接收到的性能指标数据对被监测服务器进行管理,相较于现有技术,监测服务器不需要主动去获取被监测服务器的性能指标数据,从而避免轮询所造成的网络阻塞和性能下降,有效提升了服务器集群的稳定性。此外,按照负载均衡策略将被监测服务器分配给对应的监测服务器节点上,保证各个监测服务器负载均衡,进一步提高管理性能。本申请还提供了一种服务器集群管理装置、电子设备及计算机可读存储介质,具有和上述服务器集群管理方法相同的有益效果。
附图说明
为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请所提供的一种服务器集群管理方法的步骤流程图;
图2为本申请所提供的一种服务器集群管理系统的结构示意图;
图3为本申请所提供的一种Hash环示意图;
图4为本申请所提供的一种服务器集群管理装置的结构示意图。
具体实施方式
本申请的核心是提供一种服务器集群管理方法、装置、电子设备及计算机可读存储介质,能够避免轮询所造成的网络阻塞和性能下降,有效提升了服务器集群的稳定性,同时可以保证各个监测服务器负载均衡,进一步提高管理性能。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参照图1,图1为本申请所提供的一种服务器集群管理方法的步骤流程图,该服务器集群管理方法包括:
S101:确定监测服务器;
具体的,本实施例首先确定监测服务器,监测服务器用于管理集群中的被监测服务器,监测服务器可以从服务器集群内选择,也可以从服务器集群外选择。监测服务器的个数可以为一个也可以为多个,当监测服务器个数为多个时,每个监测服务器可以监测一个被监测服务器,也可以监测多个被监测服务器,根据实际工程需要确定即可,本实施例在此不做具体的限定。
S102:根据负载均衡策略,为集群中的各个被监测服务器分配对应的监测服务器,其中,被监测服务器中配置有Agent服务;
S103:通过Agent服务将获取到的被监测服务器的性能指标数据发送至其对应的监测服务器;
具体的,考虑到有多个监测服务器同时工作,按照负载均衡策略将被监测服务器分配到不同的监测服务器节点上,保证各个监测服务器负载均衡,提高管理性能。
具体的,在服务器集群中的被监测服务器上安装Agent服务,Agent服务以预设频率周期采集该被监测服务器上的性能指标数据,并将采集到的性能指标数据上报给监测服务器,以避免监测服务器主动轮询查询造成的网络阻塞和性能下降。其中,性能指标数据包括CPU利用率、内存利用率、硬盘利用率、进程及网络使用率等。
可以理解的是,由于Agent服务需要长期驻留被监测服务器内存,需要考虑程序的资源占用和执行效率,本申请采用C语言实现Agent服务,支持第三方监测采集插件,易于监测服务程序扩展。
其中,Agent服务以预设上报周期向监测服务器上报被监测服务器的性能指标数据,预设上报周期和预设频率周期都可根据实际工况设置,支持秒级精度性能监控,提高可靠性。
作为一种优选的实施例,监测服务器的数量为多个;
该服务器集群管理方法还包括:
在所有监测服务器中确定主监测服务器或从监测服务器。
具体的,当监测服务器的个数为多个时,从多个监测服务器中选择一台作为主监测服务器,再选择一台作为从监测服务器,从监测服务器为主监测服务器故障时的备份监测服务器,以实现高可用性。可以理解的是,当主从两台监测服务器均为正常状态时,主监测服务器作为默认服务器,对服务器集群中对应的被监测服务器进行监控、管理。主监测服务器和从监测服务器之间互相发送心跳信号,以使二者可以互相知道对方的工作状态,当从监测服务器超过预设时间未接收主监测服务器发送的心跳信号时,判定主监测服务器为异常状态,此时由从监测服务器对服务器集群中对应的被监测服务器进行监控、管理。
S104:利用监测服务器根据性能指标数据管理被监测服务器。
具体的,监测服务器根据其对应的被监测服务器中的Agent服务上传的性能指标数据对被监测服务器进行管理。
具体的,请参照图2,图2为本申请实施例所提供的一种服务器集群管理系统的结构示意图,监测服务器中部署有数据接收器、数据分析器及业务处理器,相应的,利用监测服务器根据性能指标数据管理被监测服务器的过程包括:
利用监测服务器中的数据接收器接收Agent服务上报的性能指标数据,并根据业务需要对接收到的性能指标数据进行处理,处理包括数据过滤处理,过滤掉不符合标准的性能指标数据,以减低干扰数据对监测服务器执行管理步骤的影响,处理还包括单位换算处理,将性能指标数据转化为标准单位,便于后续分析,处理还包括格式转换处理,将性能指标数据转换为标准格式,便于后续分析。可以理解的是,数据接收器必须适应服务器集群规模的快速增长,因此需要考虑数据接收器在短时间内的并发处理能力,Netty是一个基于Java NIO的异步通信框架,具有异步非阻塞、基于事件驱动、高性能、高可靠性和高可定制性,同时支持自定义协议栈的框架,因此,作为一种优选的实施例,可以通过Netty实现数据接收器,基于TCP协议构建性能监控私有协议,与Agent服务进行数据通信。
进一步的,通过监测服务器中的数据分析器接收数据接收器传输过来的经过处理后的性能指标数据,可以通过数据分析器对性能指标数据进行二次处理,包括汇聚计算,这里的汇聚计算可以指平均值计算,即对预设时间段内获取到的同一性能指标对应的数据求平均值,一方面降低干扰数据的影响,另一方面,可以将每一时间段对应的平均值存入数据库,实现对集群运行性能指标历史回溯的同时,减少数据存储量,当然汇聚计算可以根据实际工程需要选择,本申请在此不做具体的限定。数据分析器还可以根据预设的告警规则判断接收到的性能指标数据是否达到告警条件,若是,则根据告警规则向外发出告警信号,告警规则可分级设置,根据不同的告警等级,生成不同的告警信号,以便工作人员采取对应的措施。作为一种优选的实施例,可以利用Java多线程技术实现数据分析器,并将处理后的性能指标数据存储influxdb数据库。
具体的,利用监测服务器中的业务处理器实现业务处理、日志记录、异常处理等功能,该业务处理器对外提供性能指标数据的查询、邮件告警、性能报表等借口,实现与管理员的交互,是与第三方系统集成的门面。
可见,本实施例中首先在集群的被监测服务器中配置Agent服务,由Agent服务完成被监测服务器的性能指标数据地获取和上报,以便监测服务器根据接收到的性能指标数据对被监测服务器进行管理,相较于现有技术,监测服务器不需要主动去获取被监测服务器的性能指标数据,从而避免轮询所造成的网络阻塞和性能下降,有效提升了服务器集群的稳定性。此外,按照负载均衡策略将被监测服务器分配给对应的监测服务器节点上,保证各个监测服务器负载均衡,进一步提高管理性能。
在上述实施例的基础上:
作为一种优选的实施例,该服务器集群管理方法还包括:
通过处于正常状态的主监测服务器或从监测服务器向集群发送广播信息,以识别集群中上线或下线的服务器。
具体的,参照上文所述,本实施例中可通过主监测服务器或从监测服务器对集群中的被监测服务器进行管理,可以理解是,当二者均为正常状态,默认主监测服务器具有管理权,当主监测服务器异常,且从监测服务器处于正常状态,从监测服务器具有管理权,通过具有管理权的主监测服务器或从监测服务器向集群发送广播信息,根据集群返回的信息,动态识别集群中是否有新上线或新下线的服务器,维护集群中服务器状态,便于后续管理。
作为一种优选的实施例,根据负载均衡策略,为集群中的各个被监测服务器分配对应的监测服务器的过程包括:
利用FNV1_32_HASH构造Hash算法;
利用红黑树结构构造Hash环;
获取监测服务器映射出的多个虚拟节点,将所有虚拟节点加入Hash环中;
通过Hash环为集群中的各个被监测服务器分配对应的监测服务器。
具体的,集群中各服务器上线时,首先会产生唯一标识符比如资源ID,本实施例根据负载均衡策略Hash(id)分配资源到监测节点,利用改进的一致性Hash算法实现负载均衡,首先使用FNV1_32_HASH构造Hash算法,然后使用红黑树结构构造Hash环,将所有的监测服务器节点加入Hash环中,考虑到如果监测节点数量较少,会造成分布在Hash环上的位置不均匀,发生严重的数据倾斜,如果某监测服务器节点下线,它原本负责的任务将全部交由顺时针方向的下一个监测服务器节点,可能造成滚雪球似的崩溃,因此,本实施例引入了虚拟节点,由一个实际检测服务器节点映射出多个虚拟节点,将虚拟节点加入到Hash环中,这样Hash环上的空间分割会变得均匀,参照图3所示,当一个实际检测服务器节点失效退出后,它原来所承载的压力也会均匀地分散到其它节点上去,从而实现了负载均衡。
综上所述,采用本申请的方案避免了使用SNMP造成的控制台压力,支持大型集群管理;能够根据实际需要调节指标监控频率,支持秒级精度性能监控,功能强大;通过分布式管理架构,能够根据集群规模大小,水平扩展,灵活部署;过Master-Slave模式实现性能监控高可用,保障监控服务的稳定性;通过业务处理器提供各种服务接口,支持第三方系统集成,方便管理员查询交互,极大降低了数据中心服务器集群的管理运维难度,有效提升了服务器集群稳定性。
请参照图4,图4为本申请所提供的一种服务器集群管理装置的结构示意图,该服务器集群管理装置包括:
确定模块1,用于确定监测服务器;
分配模块2,用于根据负载均衡策略,为集群中的各个被监测服务器分配对应的监测服务器,其中,被监测服务器中配置有Agent服务;
上传模块3,用于通过Agent服务将获取到的被监测服务器的性能指标数据发送至其对应的监测服务器;
管理模块4,用于利用监测服务器根据性能指标数据管理被监测服务器。
可见,本实施例中首先在集群的被监测服务器中配置Agent服务,由Agent服务完成被监测服务器的性能指标数据地获取和上报,以便监测服务器根据接收到的性能指标数据对被监测服务器进行管理,相较于现有技术,监测服务器不需要主动去获取被监测服务器的性能指标数据,从而避免轮询所造成的网络阻塞和性能下降,有效提升了服务器集群的稳定性。此外,按照负载均衡策略将被监测服务器分配给对应的监测服务器节点上,保证各个监测服务器负载均衡,进一步提高管理性能。
作为一种优选的实施例,确定模块1具体用于:
在集群内的所有服务器中确定监测服务器;
和/或,
在集群外的服务器中确定监测服务器。
作为一种优选的实施例,监测服务器的数量为多个;
该服务器集群管理装置还包括:
主从配置模块,用于在所有监测服务器中确定主监测服务器或从监测服务器。
作为一种优选的实施例,该服务器集群管理装置还包括:
识别模块,用于通过处于正常状态的主监测服务器或从监测服务器向集群发送广播信息,以识别集群中上线或下线的服务器。
作为一种优选的实施例,管理模块4包括:
数据处理单元,用于通过监测服务器执行以下操作:
对性能指标数据进行处理;
根据处理后的性能指标数据管理被监测服务器;
其中,处理包括数据过滤处理和/或单位换算处理和/或格式转换处理和/或汇聚计算。
作为一种优选的实施例,管理模块4还包括:
告警单元,用于通过监测服务器执行以下操作:
根据性能指标数据判断被监测服务器是否异常;
若是,执行与被监测服务器对应的告警操作。
作为一种优选的实施例,根据负载均衡策略,为集群中的各个被监测服务器分配对应的监测服务器的过程包括:
利用FNV1_32_HASH构造Hash算法;
利用红黑树结构构造Hash环;
获取监测服务器映射出的多个虚拟节点,将所有虚拟节点加入Hash环中;
通过Hash环为集群中的各个被监测服务器分配对应的监测服务器。
另一方面,本申请还提供了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如上文任意一项的服务器集群管理方法的步骤。
对于本申请所提供的一种电子设备的介绍请参照上述实施例,本申请在此不再赘述。
本申请所提供的一种电子设备具有和上述服务器集群管理方法相同的有益效果。
另一方面,本申请还提供了一种计算机可读存储介质,,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上文任意一项的服务器集群管理方法的步骤。
对于本申请所提供的一种计算机可读存储介质的介绍请参照上述实施例,本申请在此不再赘述。
本申请所提供的一种计算机可读存储介质具有和上述服务器集群管理方法相同的有益效果。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其他实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种服务器集群管理方法,其特征在于,包括:
确定监测服务器;
根据负载均衡策略,为集群中的各个被监测服务器分配对应的所述监测服务器,其中,所述被监测服务器中配置有Agent服务;
通过所述Agent服务将获取到的所述被监测服务器的性能指标数据发送至其对应的所述监测服务器;
利用所述监测服务器根据所述性能指标数据管理所述被监测服务器。
2.根据权利要求1所述的服务器集群管理方法,其特征在于,所述确定监测服务器的过程具体包括:
在所述集群内的所有服务器中确定监测服务器;
和/或,
在所述集群外的服务器中确定所述监测服务器。
3.根据权利要求1所述的服务器集群管理方法,其特征在于,所述监测服务器的数量为多个;
该服务器集群管理方法还包括:
在所有所述监测服务器中确定主监测服务器或从监测服务器。
4.根据权利要求3所述的服务器集群管理方法,其特征在于,该服务器集群管理方法还包括:
通过处于正常状态的所述主监测服务器或所述从监测服务器向所述集群发送广播信息,以识别所述集群中上线或下线的服务器。
5.根据权利要求1所述的服务器集群管理方法,其特征在于,所述利用所述监测服务器根据所述性能指标数据管理所述被监测服务器的过程包括:
通过所述监测服务器执行以下操作:
对所述性能指标数据进行处理;
根据所述处理后的性能指标数据管理所述被监测服务器;
其中,所述处理包括数据过滤处理和/或单位换算处理和/或格式转换处理和/或汇聚计算。
6.根据权利要求5所述的服务器集群管理方法,其特征在于,所述利用所述监测服务器根据所述性能指标数据管理所述被监测服务器的过程还包括:
通过所述监测服务器执行以下操作:
根据所述性能指标数据判断所述被监测服务器是否异常;
若是,执行与所述被监测服务器对应的告警操作。
7.根据权利要求1-6任意一项所述的服务器集群管理方法,其特征在于,所述根据负载均衡策略,为集群中的各个被监测服务器分配对应的所述监测服务器的过程包括:
利用FNV1_32_HASH构造Hash算法;
利用红黑树结构构造Hash环;
获取所述监测服务器映射出的多个虚拟节点,将所有所述虚拟节点加入所述Hash环中;
通过所述Hash环为集群中的各个被监测服务器分配对应的所述监测服务器。
8.一种服务器集群管理装置,其特征在于,包括:
确定模块,用于确定监测服务器;
分配模块,用于根据负载均衡策略,为集群中的各个被监测服务器分配对应的所述监测服务器,其中,所述被监测服务器中配置有Agent服务;
上传模块,用于通过所述Agent服务将获取到的所述被监测服务器的性能指标数据发送至其对应的所述监测服务器;
管理模块,用于利用所述监测服务器根据所述性能指标数据管理所述被监测服务器。
9.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1-7任意一项所述的服务器集群管理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7任意一项所述的服务器集群管理方法的步骤。
CN202011293576.3A 2020-11-18 2020-11-18 一种服务器集群管理方法、装置及相关组件 Pending CN112437145A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011293576.3A CN112437145A (zh) 2020-11-18 2020-11-18 一种服务器集群管理方法、装置及相关组件

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011293576.3A CN112437145A (zh) 2020-11-18 2020-11-18 一种服务器集群管理方法、装置及相关组件

Publications (1)

Publication Number Publication Date
CN112437145A true CN112437145A (zh) 2021-03-02

Family

ID=74693293

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011293576.3A Pending CN112437145A (zh) 2020-11-18 2020-11-18 一种服务器集群管理方法、装置及相关组件

Country Status (1)

Country Link
CN (1) CN112437145A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112965879A (zh) * 2021-03-17 2021-06-15 北京奇艺世纪科技有限公司 数据处理方法、装置、电子设备及可读存储介质
CN115065511A (zh) * 2022-05-30 2022-09-16 济南浪潮数据技术有限公司 一种处理集群异常事件的方法及系统
CN116932332A (zh) * 2023-08-08 2023-10-24 中科驭数(北京)科技有限公司 Dpu运行状态监控方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408111A (zh) * 2014-11-24 2015-03-11 浙江宇视科技有限公司 一种删除重复数据的方法及装置
CN106657287A (zh) * 2016-11-30 2017-05-10 广州市千钧网络科技有限公司 一种数据访问方法及系统
CN107145393A (zh) * 2017-04-27 2017-09-08 努比亚技术有限公司 一种负载调整方法、设备及计算机可读存储介质
CN107197035A (zh) * 2017-06-21 2017-09-22 中国民航大学 一种基于一致性哈希算法的亲和性动态负载均衡方法
CN107943668A (zh) * 2017-12-15 2018-04-20 江苏神威云数据科技有限公司 计算机服务器集群日志监控方法及监控平台

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408111A (zh) * 2014-11-24 2015-03-11 浙江宇视科技有限公司 一种删除重复数据的方法及装置
CN106657287A (zh) * 2016-11-30 2017-05-10 广州市千钧网络科技有限公司 一种数据访问方法及系统
CN107145393A (zh) * 2017-04-27 2017-09-08 努比亚技术有限公司 一种负载调整方法、设备及计算机可读存储介质
CN107197035A (zh) * 2017-06-21 2017-09-22 中国民航大学 一种基于一致性哈希算法的亲和性动态负载均衡方法
CN107943668A (zh) * 2017-12-15 2018-04-20 江苏神威云数据科技有限公司 计算机服务器集群日志监控方法及监控平台

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112965879A (zh) * 2021-03-17 2021-06-15 北京奇艺世纪科技有限公司 数据处理方法、装置、电子设备及可读存储介质
CN115065511A (zh) * 2022-05-30 2022-09-16 济南浪潮数据技术有限公司 一种处理集群异常事件的方法及系统
CN116932332A (zh) * 2023-08-08 2023-10-24 中科驭数(北京)科技有限公司 Dpu运行状态监控方法及装置
CN116932332B (zh) * 2023-08-08 2024-04-19 中科驭数(北京)科技有限公司 Dpu运行状态监控方法及装置

Similar Documents

Publication Publication Date Title
CN112437145A (zh) 一种服务器集群管理方法、装置及相关组件
US5796633A (en) Method and system for performance monitoring in computer networks
EP1966712B1 (en) Load balancing mechanism using resource availability profiles
US10097433B2 (en) Dynamic configuration of entity polling using network topology and entity status
US5696701A (en) Method and system for monitoring the performance of computers in computer networks using modular extensions
US20050005271A1 (en) Methods, systems and computer program products for early warning of potential service level agreement violations
CN102195825B (zh) 一种客户端与服务器完整交互的监控系统及其监控方法
CN111200526B (zh) 网络设备的监控系统及方法
CN103716173A (zh) 一种存储监控系统及监控告警发布的方法
CN109271243B (zh) 一种集群任务管理系统
WO2018010176A1 (zh) 获取故障信息的方法及设备
CN113452607A (zh) 分布式链路采集的方法、装置、计算设备和存储介质
CN113742066A (zh) 一种用于服务器集群的负载均衡系统和方法
CN111339466A (zh) 接口管理方法、装置、电子设备及可读存储介质
EP1622310B1 (en) Administration method and system for network management systems
CN104796283A (zh) 一种监控报警的方法
CN117041107B (zh) 带宽质量监控方法、带宽质量监控系统和数据中心
CN111092754B (zh) 实时接入服务系统及其实现方法
CN109510730A (zh) 分布式系统及其监控方法、装置、电子设备及存储介质
CN109951313B (zh) 一种Hadoop云平台的监控装置及方法
CN110798660A (zh) 基于云联邦音视频融合平台的一体化运维系统
CN111669294B (zh) 监控系统配置方法、装置、监控系统和存储介质
CN104796294A (zh) 一种云加速网络监控系统及方法
CN113765717A (zh) 一种基于涉密专用计算平台的运维管理系统
CN114124662A (zh) 一种基于跨网环境下的资源智能化运维系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210302

RJ01 Rejection of invention patent application after publication