CN106656533A - 一种集群系统的负荷处理监控方法及装置 - Google Patents

一种集群系统的负荷处理监控方法及装置 Download PDF

Info

Publication number
CN106656533A
CN106656533A CN201510716451.XA CN201510716451A CN106656533A CN 106656533 A CN106656533 A CN 106656533A CN 201510716451 A CN201510716451 A CN 201510716451A CN 106656533 A CN106656533 A CN 106656533A
Authority
CN
China
Prior art keywords
primary server
load
server
primary
weighted value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510716451.XA
Other languages
English (en)
Other versions
CN106656533B (zh
Inventor
贺治国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Datang Mobile Communications Equipment Co Ltd
Original Assignee
Datang Mobile Communications Equipment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Datang Mobile Communications Equipment Co Ltd filed Critical Datang Mobile Communications Equipment Co Ltd
Priority to CN201510716451.XA priority Critical patent/CN106656533B/zh
Publication of CN106656533A publication Critical patent/CN106656533A/zh
Application granted granted Critical
Publication of CN106656533B publication Critical patent/CN106656533B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Computer And Data Communications (AREA)
  • Debugging And Monitoring (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明公开了一种集群系统的负荷处理监控方法及装置,用以实时准确地监控集群中服务器的负载状况,从而提高集群系统性能。本发明提供的一种集群系统的负荷处理监控方法,包括:获取集群系统中的多个主用服务器的负载信息;根据所述多个主用服务器的负载信息,判断是否需要对所述多个主用服务器进行负荷处理。

Description

一种集群系统的负荷处理监控方法及装置
技术领域
本发明涉及通信技术领域,尤其涉及一种集群系统的负荷处理监控方法及装置。
背景技术
网元适配(Network Element Adapter,NEA)系统属于网元适配层,位于网元设备与网管系统的中间位置,起到一个中介的作用,它负责上级网管系统与网元设备之间的网络协议转换工作。由此可见,NEA系统在整个网管体系中起着重要的作用,如果NEA系统一旦出现故障将会造成整个网管系统的瘫痪和网元设备处于脱管状态的风险,这样就会给网元设备运营企业带来无可估量的经济损失。为提高NEA系统运行的可靠性,我们将两台或多台NEA服务器组成一个高可用(High Availability,HA)集群,这样当一台主用服务器出现极端故障时,通过将主用服务器上的资源全部切换到备用服务器上,使得备用服务器可以接替主用服务器进行工作。
在传统的HA集群系统中,一般只简单检测服务器的“可用”与“不可用”两种极端状态。也就是,只检测服务器是否出现故障,包括硬件故障和软件进程是否存在两种情况。在硬件检测方面,主要通过简单网络管理协议(SimpleNetwork Management Protocol,SNMP)监控NEA服务器各类硬件资源的运行状态,主要的监控对象包括网络适配器的工作状态、CPU、物理内存以及服务器电源的告警信息等,如果这些硬件资源任意一项出现严重故障,则认为NEA服务器已经处于故障态;在软件检测方面,仅仅局限在进程是否存在的层面上,它采用“Socket端口探测”机制探测进程,如果端口不可达则认为NEA服务器已经处于故障态。
显然,仅对上述极端故障状态进行监控,无法对NEA系统起到全面的保护作用,只是片面的保护。在实际的运行过程中发现,发生极端故障的情况并不是很多,大多数的故障是NEA进程超负载后停止对外提供服务,比如内存溢出、系统间调用响应慢的问题等。而传统的HA集群系统对这些故障的监测是无能为力的,当然也就不会自动进行主备服务器的切换,但事实是NEA系统已无法使用,从而导致了上级网管系统对网元设备的脱管。
综上所述,现有技术中对集群系统的监控,仅是对服务器的极端故障进行监控,并没有考虑到系统中服务器的负载状况对系统的影响,无法最大限度地降低系统的故障率,降低了系统的性能。
发明内容
本发明实施例提供了一种集群系统的负荷处理监控方法及装置,用以实时准确地监控集群中服务器的负载状况,提高集群系统的性能。
本发明实施例提供的一种集群系统的负荷处理监控方法,包括:
获取集群系统中的多个主用服务器的负载信息;
根据所述多个主用服务器的负载信息,判断是否需要对所述多个主用服务器进行负荷处理。
本发明实施例,通过获取集群系统中的多个主用服务器的负载信息,并根据所述多个主用服务器的负载信息,判断是否需要对所述多个主用服务器进行负荷处理。从而,可以实时准确地对集群中多个服务器的负载状况进行监控,以便根据需要对服务器的负荷进行及时处理,最大限度地降低了系统的故障率,有效提升了集群系统的性能。
较佳地,根据所述多个主用服务器的负载信息,判断是否需要对所述多个主用服务器进行负荷处理,具体包括:
针对每一所述主用服务器:
根据该主用服务器的负载信息,计算该主用服务器的负载权重值;
根据该主用服务器的负载权重值,判断是否需要对该主用服务器进行负荷处理。
较佳地,所述根据该主用服务器的负载信息,计算该主用服务器的负载权重值,具体包括:
根据该主用服务器的负载信息,计算该主用服务器的综合负载值;
将该主用服务器的综合负载值与预设的多个阈值范围进行对照,得出每一主用服务器对应的负载权重值,其中,每一阈值范围对应一个负载权重值。
较佳地,所述该主用服务器的负载信息,具体包括:该主用服务器运行的每一进程对应的CPU占用率、内存占用率和响应时间。
较佳地,所述根据该主用服务器的负载信息,计算该主用服务器的综合负载值,具体包括:
根据该主用服务器运行的每一进程对应的CPU占用率计算该主用服务器的总CPU占用率;根据该主用服务器运行的每一进程对应的内存占用率,计算该主用服务器的总内存占用率;根据该主用服务器运行的每一进程对应的响应时间,计算该主用服务器的综合响应时间;
将该主用服务器的总CPU占用率乘以预设的第一微调系数,得到第一乘积项;将所述该主用服务器的总内存占用率乘以预设的第二微调系数,得到第二乘积项;将所述该主用服务器的综合响应时间乘以预设的第三微调系数,得到第三乘积项;其中,所述第一微调系数、第二微调系数、第三微调系数的和为1;
将所述第一乘积项、第二乘积项和第三乘积项求和,得到该主用服务器的综合负载值。
较佳地,根据该主用服务器的负载权重值,判断是否需要对该主用服务器进行负荷处理,具体包括:
当该主用服务器的负载权重值W小于3时,确定需要对该主用服务器进行负荷处理,其中W为0、1、2中的任意一个。
较佳地,上述集群系统的负荷处理监控方法还包括:
当确定需要对所述主用服务器进行负荷处理时,采用如下方式进行处理:
将该主用服务器的3-W个资源组分配给备用服务器;其中,所述资源组包括该主用服务器运行的一个进程和该进程对应的一个浮动IP。
本发明实施例,只要主用服务器的负载权重值W小于3,就对该主用服务器的负荷进行处理,不仅可以保证该主用服务器在发生极端故障(即W=0)时可以将该主用服务器的资源全部切换到备用服务器,还可以在该主用服务器的负载较重(即W=1或W=2)时,分配一部分该主用服务器的资源给备用服务器,从而,有效提高了系统中备用服务器的利用率,同时也使得系统中主用服务器时刻处于较佳的工作状态,最大限度地降低了系统的故障率,提升了系统的性能。较佳地,所述将该主用服务器的3-W个资源组分配给备用服务器之后,该方法还包括:
当最新统计的该主用服务器的负载权重值在上一次统计得到的负载权重值的基础上增加n时,将所述备用服务器中对应该主用服务器的资源组分配n个给该主用服务器,其中n小于或等于3,且负载权重值增加后的该主用服务器的总负载权重值不大于3。
本发明实施例提供的一种集群系统的负荷处理监控装置,包括:
获取单元,用于获取集群系统中的多个主用服务器的负载信息;
判断单元,用于根据所述多个主用服务器的负载信息,判断是否需要对所述多个主用服务器进行负荷处理。
从而,可以实时准确地对集群中多个服务器的负载状况进行监控,以便根据需要对服务器的负荷进行及时处理,最大限度地降低了系统的故障率,有效提升了集群系统的性能。
较佳地,所述判断单元具体用于:
针对每一所述主用服务器:
根据该主用服务器的负载信息,计算该主用服务器的负载权重值;
根据该主用服务器的负载权重值,判断是否需要对该主用服务器进行负荷处理。
较佳地,所述判断单元根据该主用服务器的负载信息,计算该主用服务器的负载权重值时,具体用于:
根据该主用服务器的负载信息,计算该主用服务器的综合负载值;
将该主用服务器的综合负载值与预设的多个阈值范围进行对照,得出每一主用服务器对应的负载权重值,其中,每一阈值范围对应一个负载权重值。
较佳地,所述该主用服务器的负载信息,具体包括:该主用服务器运行的每一进程对应的CPU占用率、内存占用率和响应时间。
较佳地,所述判断单元根据该主用服务器的负载信息,计算该主用服务器的综合负载值时,具体用于:
根据该主用服务器运行的每一进程对应的CPU占用率计算该主用服务器的总CPU占用率;根据该主用服务器运行的每一进程对应的内存占用率,计算该主用服务器的总内存占用率;根据该主用服务器运行的每一进程对应的响应时间,计算该主用服务器的综合响应时间;
将该主用服务器的总CPU占用率乘以预设的第一微调系数,得到第一乘积项;将所述该主用服务器的总内存占用率乘以预设的第二微调系数,得到第二乘积项;将所述该主用服务器的综合响应时间乘以预设的第三微调系数,得到第三乘积项;其中,所述第一微调系数、第二微调系数、第三微调系数的和为1;
将所述第一乘积项、第二乘积项和第三乘积项求和,得到该主用服务器的综合负载值。
较佳地,所述判断单元根据该主用服务器的负载权重值,判断是否需要对该主用服务器进行负荷处理时,具体用于:
当该主用服务器的负载权重值W小于3时,确定需要对该主用服务器进行负荷处理,其中W为0、1、2中的任意一个。
较佳地,本发明实施例提供的集群系统的负荷处理监控装置还包括处理单元,用于当判断单元确定需要对该主用服务器进行负荷处理后,将该主用服务器的3-W个资源组分配给备用服务器;其中,所述资源组包括该主用服务器运行的一个进程和该进程对应的一个浮动IP。
本发明实施例提供的集群系统的负荷处理监控装置,只要主用服务器的负载权重值W小于3,就对该主用服务器的负荷进行处理,不仅可以保证该主用服务器在发生极端故障(即W=0)时可以将该主用服务器的资源全部切换到备用服务器,还可以在该主用服务器的负载较重(即W=1或W=2)时,分配一部分该主用服务器的资源给备用服务器,从而,有效提高了系统中备用服务器的利用率,同时也使得系统中主用服务器时刻处于较佳的工作状态。
较佳地,所述处理单元将该主用服务器的3-W个资源组分配给备用服务器之后,还用于:
当最新统计的该主用服务器的负载权重值在上一次统计得到的负载权重值的基础上增加n时,将所述备用服务器中对应该主用服务器的资源组分配n个给该主用服务器,其中n小于或等于3,且负载权重值增加后的该主用服务器的总负载权重值不大于3。
附图说明
图1为本发明实施例提供的一种集群系统的架构图;
图2为本发明实施例提供的健康度检测模块的结构示意图;
图3为本发明实施例提供的一种集群系统的负荷处理监控方法的流程示意图;
图4为本发明实施例提供的一种集群系统的负荷处理监控装置的结构示意图。
具体实施方式
本发明实施例提供了一种集群系统的负荷处理监控方法及装置,用以实时准确地监控集群中服务器的负载状况,提升集群系统的性能。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图对本发明进行进一步详细说明。
图1所示为本发明实施例提供的一种集群系统的架构图。在该集群系统中,主要包括“系统管理”、“集群管理”、“心跳管理”和“切换管理”四大子系统模块。其中系统管理子系统的主要职责是初始化系统参数,并启动集群系统的所有监听服务,它是其他子系统的基石;心跳管理子系统通过心跳交互探测节点硬件故障,同时负责软件资源的负载交互,然后分别向主备节点的切换系统上报负载权重,它是沟通枢纽;切换管理子系统根据负载均衡器的分析结果,在主备机间执行资源组的切换动作,它是切换操作车间;集群管理子系统的主要职责是创建逻辑集群和服务器硬件故障监测,硬件故障监测主要通过SNMP协议监控NEA服务器各类硬件资源的运行状态,主要监控内容包括网络适配器、CPU、物理内存以及电源等对象的告警信息等,逻辑集群中包括主备节点名称、心跳IP对和多个受控资源组(比如1个NEA进程和绑定的浮动IP构成一个资源组),而资源组内NEA进程资源由“数据服务代理(Agent)”模块负责启停并监控其健康度(即NEA进程的负载状况),健康度是触发切换管理模块进行动态负载调整的重要依据。
下面重点介绍上述Agent模块中的健康度检测模块,其中健康度检测模块的结构图如图2所示。
从图中我们可以看出,健康度检测模块主要包括数据采集子模块和数据分析子模块两大模块。图中所示的NEA实例1、NEA实例2和NEA实例3分别为单个NEA服务器运行的3个进程。
数据采集模块周期性地获取服务器的负载信息,也就是周期性地获取该服务器运行的每一实例对应的负载信息。其中,服务器的每一实例对应的CPU占用率以及内存占用率是通过调用JAVA管理扩展(Java ManagementExtensions,JMX)协议从每一实例中获取的。响应时间是通过调用远程管理接口(Remote Management Interface,RMI)协议获取的。
数据采集模块将上述获取的负载信息发送给数据分析子模块,进而由数据分析子模块根据该负载信息计算该服务器的综合负载值,并根据综合负载值计算出最终的负载权重值。计算所得的负载权重值保存在健康度检测模块的本地文件中。
集群系统整体的负荷处理方法如下:通过上述集群系统中集群管理子系统中的健康度检测模块实时获取系统中的服务器的负载信息,并根据每一服务器的负载信息,计算出每一服务器对应的负载权重值,进而将每一服务器对应的负载权重值上报给心跳管理子系统,由心跳管理子系统将所获取的每一服务器对应的负载权重值上报给切换管理子系统,最终由切换管理子系统根据所获取的数据,执行主备服务器间的负载资源的分配处理。同时,集群管理子系统中的硬件检测装置也实时检测系统服务器的硬件故障,并将检测结果上报给切换管理子系统。从而,本发明实施例,在实现单点失效切换(FAILOVER)基本功能的基础上重点关注对NEA进程运行状态快速、准确、全面的监控并评估其综合健康度,实现主备服务器之间动态分配资源负载,最大限度地降低了系统的故障率,有效提升了集群系统的性能。
参见图3,本发明实施例提供的一种集群系统的负荷处理监控方法,包括:
S101、获取集群系统中的多个主用服务器的负载信息;
S102、根据所述多个主用服务器的负载信息,判断是否需要对所述多个主用服务器进行负荷处理。
较佳地,根据所述多个主用服务器的负载信息,判断是否需要对所述多个主用服务器进行负荷处理,具体包括:
针对每一所述主用服务器:
根据该主用服务器的负载信息,计算该主用服务器的负载权重值;
根据该主用服务器的负载权重值,判断是否需要对该主用服务器进行负荷处理。
较佳地,所述根据该主用服务器的负载信息,计算该主用服务器的负载权重值,具体包括:
根据该主用服务器的负载信息,计算该主用服务器的综合负载值;
将该主用服务器的综合负载值与预设的多个阈值范围进行对照,得出每一主用服务器对应的负载权重值,其中,每一阈值范围对应一个负载权重值。
较佳地,所述该主用服务器的负载信息,具体包括:该主用服务器运行的每一进程对应的CPU占用率、内存占用率和响应时间。
较佳地,上述根据该主用服务器的负载信息,计算该主用服务器的综合负载值,具体包括:
根据该主用服务器运行的每一进程对应的CPU占用率计算该主用服务器的总CPU占用率;根据该主用服务器运行的每一进程对应的内存占用率,计算该主用服务器的总内存占用率;根据该主用服务器运行的每一进程对应的响应时间,计算该主用服务器的综合响应时间;
将该主用服务器的总CPU占用率乘以预设的第一微调系数,得到第一乘积项;将所述该主用服务器的总内存占用率乘以预设的第二微调系数,得到第二乘积项;将所述该主用服务器的综合响应时间乘以预设的第三微调系数,得到第三乘积项;其中,所述第一微调系数、第二微调系数、第三微调系数的和为1;
将所述第一乘积项、第二乘积项和第三乘积项求和,得到该主用服务器的综合负载值。
下面以一个服务器为例,给出计算该服务器负载权重值的详细过程。
首先,根据所获取的该服务器运行的每一进程对应的CPU占用率、内存占用率和响应时间,分别计算该服务器总的CPU占用率、总的内存占用率及综合响应时间。
计算该服务器总的CPU占用率的方法,如下式[1]所示:
其中,Cpu(总)表示该服务器总的CPU占用率,cup(i)表示该服务器运行的单个进程的CPU占用率,m表示该服务器运行的进程的最大数量,对于NEA服务器来说,单个服务器运行的进程的最大数量m等于3。
计算该服务器总的内存(Memory)占用率的方法,如下式[2]所示:
其中,Mem(总)表示该服务器总的内存占用率,mem(i)表示该服务器运行的单个进程的内存占用率。
计算该服务器综合响应时间(Response Time)的方法,如下式[3]所示:
Res(综)=Max{Res(1),Res(2)...Res(m)} [3]
其中,Res(综)表示该服务器的综合响应时间,Res(1)、Res(2)分别表示该服务器运行的第一个进程对应的RMI服务的响应时间、第二个进程对应的RMI服务的响应时间,Res(m)表示该服务器运行的第m个进程对应的RMI服务的响应时间。
从上述表达式[3]中,我们可以看出,计算服务器综合响应时间的方法也就是从该服务器运行的多个进程中选出一个响应速度最慢的进程对应的RMI服务的响应时间。这是由于,上级网管一般通过RMI协议访问NEA实例进程,进而转化为SNMP协议指令下发给网元,所以RMI服务的响应速度对整个进程的影响性较大。因此,对于NEA实例的RMI服务的综合响应时间我们采用最大的响应时间来衡量,也就是以最坏情况预测。
其次,根据上述计算所得的该服务器的总的CPU占用率、总的内存占用率及综合响应时间,计算该服务器的综合负载值。综合负载值的计算方法如下式[4]所示:
Load(综)=R1*Cpu(总)+R2*Mem(总)+R3*Res(综) [4]
其中,Load(综)表示该服务器的综合负载值;Ri表示上述三种负载(Cpu(总)、Mem(总)、Res(综))在综合负载中的微调系数,系数大小代表其重要性。例如,在NEA系统中内存和响应时间较为重要,系数分配情况可以为:R1=0.2,R2=0.5,R3=0.3,当然,也可以根据需要自行调整。针对不同的系统,微调系数的设置也有所不同。需要注意的是,当集群管理子系统中的“硬件监测装置”监测到严重的硬件故障,此时设置Load(综)=1,代表硬件服务器已严重超载,无法正常运行。
最后,将计算所得的该服务器的综合负载值Load(综)与预设的多个阈值范围进行对照,得出每一主用服务器对应的负载权重值。负载权重值与综合负载值阈值范围对照表如表1所示。
表1 负载权重值与综合负载值阈值范围对照表
综合负载 权重值
0.9=<Load(综)<=1 W=0
0.8=<Load(综)<0.9 W=1
0.5=<Load(综)<0.8 W=2
0=<Load(综)<0.5 W=3
其中,设定综合负载阈值L(阈)=0.9,该阈值为服务器超载运行的临界值,当Load(综)小于L(阈),并且与L(阈)的差值越大,表明服务器的健康度越高,反之,则表明服务器的健康度越低。
较佳地,根据该主用服务器的负载权重值,判断是否需要对该主用服务器进行负荷处理,具体包括:
当该主用服务器的负载权重值W小于3时,确定需要对该主用服务器进行负荷处理,其中W为0、1、2中的任意一个。
本发明实施中,规定负载权重值的集合范围为{W=0,W=1,W=2,W=3},当W=3时,则默认主用服务器上运行全部的进程。
较佳地,上述集群系统的负荷处理监控方法还包括:
当确定需要对所述主用服务器进行负荷处理时,采用如下方式进行处理:
将该主用服务器的3-W个资源组分配给备用服务器;其中,所述资源组包括该主用服务器运行的一个进程和该进程对应的一个浮动IP。
主用服务器的负载权重值与资源分配策略的对应关系如表2所示。
表2 资源分配策略与负载权重值对照表
较佳地,上述将该主用服务器的3-W个资源组分配给备用服务器之后,该方法还包括:
当最新统计的该主用服务器的负载权重值在上一次统计得到的负载权重值的基础上增加n时,将所述备用服务器中对应该主用服务器的资源组分配n个给该主用服务器,其中n小于或等于3,且负载权重值增加后的该主用服务器的总负载权重值不大于3。
也就是说,集群系统中每一主用服务器的负载权重值是周期性地计算的,不同时刻统计所得的主用服务器的负载权重值可能不同,这样,针对每一主用服务器,就需要根据当前时刻最新统计得出的该主用服务器的负载权重值来采取相应的资源分配策略。若最新统计的该主用服务器的负载权重值与上一次统计得到的负载权重值相比有所增加,例如,上一时刻统计得到的该主用服务器的负载权重值为1,在上一时刻,采取的资源分配策略为将该服务器的两个资源组分配给了备用服务器,该主用服务器保留了一个资源组;在当前时刻,统计得到的该主用服务器的负载权重值为3(表明当前时刻该主用服务器的负载极优,服务器可以承载3个资源组),与上一时刻相比,该服务器的负载权重值增加2。因此,将备用服务器中对应该主用服务器的2个资源组重新分配给该主用服务器,这样,资源组重新分配之后,主用服务器仍然处于较佳的工作状态,同时也可以减轻备用服务器的负载。
下面介绍与上述集群系统的负荷处理监控方法对应的集群系统的负荷处理监控装置。
参见图4,本发明实施例提供的一种集群系统的负荷处理监控装置,包括:
获取单元11,用于获取集群系统中的多个主用服务器的负载信息;
判断单元12,用于根据所述多个主用服务器的负载信息,判断是否需要对所述多个主用服务器进行负荷处理。
从而,可以实时准确地对集群中多个服务器的负载状况进行监控,以便根据需要对服务器的负荷进行及时处理,最大限度地降低了系统的故障率,有效提升了集群系统的性能。
较佳地,所述判断单元12具体用于:
针对每一所述主用服务器:
根据该主用服务器的负载信息,计算该主用服务器的负载权重值;
根据该主用服务器的负载权重值,判断是否需要对该主用服务器进行负荷处理。
较佳地,所述判断单元12根据该主用服务器的负载信息,计算该主用服务器的负载权重值时,具体用于:
根据该主用服务器的负载信息,计算该主用服务器的综合负载值;
将该主用服务器的综合负载值与预设的多个阈值范围进行对照,得出每一主用服务器对应的负载权重值,其中,每一阈值范围对应一个负载权重值。
较佳地,所述该主用服务器的负载信息,具体包括:该主用服务器运行的每一进程对应的CPU占用率、内存占用率和响应时间。
较佳地,上述判断单元12根据该主用服务器的负载信息,计算该主用服务器的综合负载值时,具体用于:
根据该主用服务器运行的每一进程对应的CPU占用率计算该主用服务器的总CPU占用率;根据该主用服务器运行的每一进程对应的内存占用率,计算该主用服务器的总内存占用率;根据该主用服务器运行的每一进程对应的响应时间,计算该主用服务器的综合响应时间;
将该主用服务器的总CPU占用率乘以预设的第一微调系数,得到第一乘积项;将所述该主用服务器的总内存占用率乘以预设的第二微调系数,得到第二乘积项;将所述该主用服务器的综合响应时间乘以预设的第三微调系数,得到第三乘积项;其中,所述第一微调系数、第二微调系数、第三微调系数的和为1;
将所述第一乘积项、第二乘积项和第三乘积项求和,得到该主用服务器的综合负载值。
较佳地,所述判断单元12根据该主用服务器的负载权重值,判断是否需要对该主用服务器进行负荷处理时,具体用于:
当该主用服务器的负载权重值W小于3时,确定需要对该主用服务器进行负荷处理,其中W为0、1、2中的任意一个。
较佳地,本发明实施例提供的集群系统的负荷处理监控装置还包括处理单元13,用于当判断单元确定需要对该主用服务器进行负荷处理后,将该主用服务器的3-W个资源组分配给备用服务器;其中,所述资源组包括该主用服务器运行的一个进程和该进程对应的一个浮动IP。
本发明实施例提供的集群系统的负荷处理监控装置,只要主用服务器的负载权重值W小于3,就对该主用服务器的负荷进行处理,不仅可以保证该主用服务器在发生极端故障时可以将该主用服务器的资源全部切换到备用服务器,还可以在该主用服务器的负载较重时,分配一部分该主用服务器的资源给备用服务器,从而,有效提高了系统中备用服务器的利用率,同时也使得系统中主用服务器时刻处于较佳的工作状态。
较佳地,所述处理单元13将该主用服务器的3-W个资源组分配给备用服务器之后,还用于:
当最新统计的该主用服务器的负载权重值在上一次统计得到的负载权重值的基础上增加n时,将所述备用服务器中对应该主用服务器的资源组分配n个给该主用服务器,其中n小于或等于3,且负载权重值增加后的该主用服务器的总负载权重值不大于3。
本发明实施例中,可以通过具体的硬件处理器(hardware processor)来实现上述相关功能模块。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (16)

1.一种集群系统的负荷处理监控方法,其特征在于,该方法包括:
获取集群系统中的多个主用服务器的负载信息;
根据所述多个主用服务器的负载信息,判断是否需要对所述多个主用服务器进行负荷处理。
2.根据权利要求1所述的方法,其特征在于,根据所述多个主用服务器的负载信息,判断是否需要对所述多个主用服务器进行负荷处理,具体包括:
针对每一所述主用服务器:
根据该主用服务器的负载信息,计算该主用服务器的负载权重值;
根据该主用服务器的负载权重值,判断是否需要对该主用服务器进行负荷处理。
3.根据权利要求2所述的方法,其特征在于,所述根据该主用服务器的负载信息,计算该主用服务器的负载权重值,具体包括:
根据该主用服务器的负载信息,计算该主用服务器的综合负载值;
将该主用服务器的综合负载值与预设的多个阈值范围进行对照,得出每一主用服务器对应的负载权重值,其中,每一阈值范围对应一个负载权重值。
4.根据权利要求3所述的方法,其特征在于,所述该主用服务器的负载信息,具体包括:该主用服务器运行的每一进程对应的CPU占用率、内存占用率和响应时间。
5.根据权利要求4所述的方法,其特征在于,所述根据该主用服务器的负载信息,计算该主用服务器的综合负载值,具体包括:
根据该主用服务器运行的每一进程对应的CPU占用率计算该主用服务器的总CPU占用率;根据该主用服务器运行的每一进程对应的内存占用率,计算该主用服务器的总内存占用率;根据该主用服务器运行的每一进程对应的响应时间,计算该主用服务器的综合响应时间;
将该主用服务器的总CPU占用率乘以预设的第一微调系数,得到第一乘积项;将所述该主用服务器的总内存占用率乘以预设的第二微调系数,得到第二乘积项;将所述该主用服务器的综合响应时间乘以预设的第三微调系数,得到第三乘积项;其中,所述第一微调系数、第二微调系数、第三微调系数的和为1;
将所述第一乘积项、第二乘积项和第三乘积项求和,得到该主用服务器的综合负载值。
6.根据权利要求2-5任一权项所述的方法,其特征在于,根据该主用服务器的负载权重值,判断是否需要对该主用服务器进行负荷处理,具体包括:
当该主用服务器的负载权重值W小于3时,确定需要对该主用服务器进行负荷处理,其中W为0、1、2中的任意一个。
7.根据权利要求6所述的方法,其特征在于,该方法还包括:
当确定需要对所述主用服务器进行负荷处理时,采用如下方式进行处理:
将该主用服务器的3-W个资源组分配给备用服务器;其中,所述资源组包括该主用服务器运行的一个进程和该进程对应的一个浮动IP。
8.根据权利要求7所述的方法,其特征在于,所述将该主用服务器的3-W个资源组分配给备用服务器之后,该方法还包括:
当最新统计的该主用服务器的负载权重值在上一次统计得到的负载权重值的基础上增加n时,将所述备用服务器中对应该主用服务器的资源组分配n个给该主用服务器,其中n小于或等于3,且负载权重值增加后的该主用服务器的总负载权重值不大于3。
9.一种集群系统的负荷处理监控装置,其特征在于,该装置包括:
获取单元,用于获取集群系统中的多个主用服务器的负载信息;
判断单元,用于根据所述多个主用服务器的负载信息,判断是否需要对所述多个主用服务器进行负荷处理。
10.根据权利要求9所述的装置,其特征在于,所述判断单元具体用于:
针对每一所述主用服务器:
根据该主用服务器的负载信息,计算该主用服务器的负载权重值;
根据该主用服务器的负载权重值,判断是否需要对该主用服务器进行负荷处理。
11.根据权利要求10所述的装置,其特征在于,所述判断单元根据该主用服务器的负载信息,计算该主用服务器的负载权重值时,具体用于:
根据该主用服务器的负载信息,计算该主用服务器的综合负载值;
将该主用服务器的综合负载值与预设的多个阈值范围进行对照,得出每一主用服务器对应的负载权重值,其中,每一阈值范围对应一个负载权重值。
12.根据权利要求11所述的装置,其特征在于,所述该主用服务器的负载信息,具体包括:该主用服务器运行的每一进程对应的CPU占用率、内存占用率和响应时间。
13.根据权利要求12所述的装置,其特征在于,所述判断单元根据该主用服务器的负载信息,计算该主用服务器的综合负载值时,具体用于:
根据该主用服务器运行的每一进程对应的CPU占用率计算该主用服务器的总CPU占用率;根据该主用服务器运行的每一进程对应的内存占用率,计算该主用服务器的总内存占用率;根据该主用服务器运行的每一进程对应的响应时间,计算该主用服务器的综合响应时间;
将该主用服务器的总CPU占用率乘以预设的第一微调系数,得到第一乘积项;将所述该主用服务器的总内存占用率乘以预设的第二微调系数,得到第二乘积项;将所述该主用服务器的综合响应时间乘以预设的第三微调系数,得到第三乘积项;其中,所述第一微调系数、第二微调系数、第三微调系数的和为1;
将所述第一乘积项、第二乘积项和第三乘积项求和,得到该主用服务器的综合负载值。
14.根据权利要求10-13任一权项所述的装置,其特征在于,所述判断单元根据该主用服务器的负载权重值,判断是否需要对该主用服务器进行负荷处理时,具体用于:
当该主用服务器的负载权重值W小于3时,确定需要对该主用服务器进行负荷处理,其中W为0、1、2中的任意一个。
15.根据权利要求14所述的装置,其特征在于,所述装置还包括处理单元,用于当判断单元确定需要对该主用服务器进行负荷处理后,将该主用服务器的3-W个资源组分配给备用服务器;其中,所述资源组包括该主用服务器运行的一个进程和该进程对应的一个浮动IP。
16.根据权利要求15所述的装置,其特征在于,所述处理单元将该主用服务器的3-W个资源组分配给备用服务器之后,还用于:
当最新统计的该主用服务器的负载权重值在上一次统计得到的负载权重值的基础上增加n时,将所述备用服务器中对应该主用服务器的资源组分配n个给该主用服务器,其中n小于或等于3,且负载权重值增加后的该主用服务器的总负载权重值不大于3。
CN201510716451.XA 2015-10-29 2015-10-29 一种集群系统的负荷处理监控方法及装置 Active CN106656533B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510716451.XA CN106656533B (zh) 2015-10-29 2015-10-29 一种集群系统的负荷处理监控方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510716451.XA CN106656533B (zh) 2015-10-29 2015-10-29 一种集群系统的负荷处理监控方法及装置

Publications (2)

Publication Number Publication Date
CN106656533A true CN106656533A (zh) 2017-05-10
CN106656533B CN106656533B (zh) 2019-11-19

Family

ID=58830793

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510716451.XA Active CN106656533B (zh) 2015-10-29 2015-10-29 一种集群系统的负荷处理监控方法及装置

Country Status (1)

Country Link
CN (1) CN106656533B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109857518A (zh) * 2019-01-08 2019-06-07 平安科技(深圳)有限公司 一种网络资源的分配方法及设备
CN110020061A (zh) * 2018-08-21 2019-07-16 广州市城市规划勘测设计研究院 一种智慧城市时空信息云平台服务引擎
CN110198359A (zh) * 2019-07-08 2019-09-03 紫光云技术有限公司 一种负载均衡方法及装置
CN110855465A (zh) * 2018-08-21 2020-02-28 华为技术有限公司 报文处理方法及装置
CN110995868A (zh) * 2019-12-20 2020-04-10 紫光云(南京)数字技术有限公司 一种负载均衡方法及其装置
CN111131367A (zh) * 2018-11-01 2020-05-08 大唐移动通信设备有限公司 一种分布式接入服务处理方法及装置
CN111625355A (zh) * 2020-05-21 2020-09-04 慧众行知科技(北京)有限公司 一种服务器上的服务均衡控制方法及系统
CN113192228A (zh) * 2021-04-30 2021-07-30 中国工商银行股份有限公司 集群自动化巡检方法及装置
CN113296840A (zh) * 2020-02-20 2021-08-24 银联数据服务有限公司 一种集群运维方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030179716A1 (en) * 2002-03-22 2003-09-25 Liu Kevin H. Virtual IP topology reconfiguration migration
US20060200811A1 (en) * 2005-03-07 2006-09-07 Cheng Stephen M Method of generating optimised stack code
CN101345770A (zh) * 2008-08-22 2009-01-14 杭州华三通信技术有限公司 负载均衡实现方法、存储控制设备和存储系统
CN102637138A (zh) * 2012-03-20 2012-08-15 浪潮电子信息产业股份有限公司 一种计算调度虚拟机的方法
CN202634482U (zh) * 2012-03-08 2012-12-26 西安跃腾电子科技有限责任公司 一种高校云计算公共信息服务平台核心架构和系统应用

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030179716A1 (en) * 2002-03-22 2003-09-25 Liu Kevin H. Virtual IP topology reconfiguration migration
US20060200811A1 (en) * 2005-03-07 2006-09-07 Cheng Stephen M Method of generating optimised stack code
CN101345770A (zh) * 2008-08-22 2009-01-14 杭州华三通信技术有限公司 负载均衡实现方法、存储控制设备和存储系统
CN202634482U (zh) * 2012-03-08 2012-12-26 西安跃腾电子科技有限责任公司 一种高校云计算公共信息服务平台核心架构和系统应用
CN102637138A (zh) * 2012-03-20 2012-08-15 浪潮电子信息产业股份有限公司 一种计算调度虚拟机的方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020061A (zh) * 2018-08-21 2019-07-16 广州市城市规划勘测设计研究院 一种智慧城市时空信息云平台服务引擎
CN110855465A (zh) * 2018-08-21 2020-02-28 华为技术有限公司 报文处理方法及装置
CN111131367A (zh) * 2018-11-01 2020-05-08 大唐移动通信设备有限公司 一种分布式接入服务处理方法及装置
CN111131367B (zh) * 2018-11-01 2021-03-16 大唐移动通信设备有限公司 一种分布式接入服务处理方法及装置
CN109857518A (zh) * 2019-01-08 2019-06-07 平安科技(深圳)有限公司 一种网络资源的分配方法及设备
CN110198359A (zh) * 2019-07-08 2019-09-03 紫光云技术有限公司 一种负载均衡方法及装置
CN110995868A (zh) * 2019-12-20 2020-04-10 紫光云(南京)数字技术有限公司 一种负载均衡方法及其装置
CN113296840A (zh) * 2020-02-20 2021-08-24 银联数据服务有限公司 一种集群运维方法及装置
CN111625355A (zh) * 2020-05-21 2020-09-04 慧众行知科技(北京)有限公司 一种服务器上的服务均衡控制方法及系统
CN113192228A (zh) * 2021-04-30 2021-07-30 中国工商银行股份有限公司 集群自动化巡检方法及装置
CN113192228B (zh) * 2021-04-30 2023-04-07 中国工商银行股份有限公司 集群自动化巡检方法及装置

Also Published As

Publication number Publication date
CN106656533B (zh) 2019-11-19

Similar Documents

Publication Publication Date Title
CN106656533A (zh) 一种集群系统的负荷处理监控方法及装置
US8656406B2 (en) Load balancer and load balancing system
CN109586952B (zh) 服务器扩容方法、装置
CN108696428B (zh) 基于隧道技术的路由探测方法、路由节点和中心服务器
US20050154576A1 (en) Policy simulator for analyzing autonomic system management policy of a computer system
US7349340B2 (en) System and method of monitoring e-service Quality of Service at a transaction level
CN102693177B (zh) 虚拟机故障诊断方法、处理方法及其装置和系统
CN108712464A (zh) 一种面向集群微服务高可用的实现方法
EP3264723B1 (en) Method, related apparatus and system for processing service request
TW201403480A (zh) 用於應用服務自動遷移之方法及裝置
CN106993037A (zh) 一种基于分布式系统的负载均衡服务器实现高可用性的方法
CN104836819A (zh) 动态负载均衡的方法、系统及监控调度设备
CN108737573A (zh) 一种分布式存储集群及其服务响应控制方法、装置和设备
CN104270322A (zh) 面向物联网设备接入处理平台的自适应负载均衡调度机制
CN102984184A (zh) 一种分布式系统的服务负载均衡方法及装置
CN110874314B (zh) 压测方法、装置、设备和介质
CN108737543B (zh) 一种分布式物联网中间件及工作方法
US20210173699A1 (en) Decentralized resource scheduling
CN110515782A (zh) 服务器的测试方法、测试装置及测试系统
CN110865871A (zh) 基于资源合理化应用的虚拟化集群资源调度方法
CN113542027B (zh) 一种基于分布式服务架构的流量隔离方法、装置和系统
CN112291326B (zh) 负载均衡方法、负载均衡装置、存储介质与电子设备
CN109992471A (zh) 一种内存监控的方法及装置
CN103944927A (zh) 服务器伸缩处理方法和装置
Zhu et al. Load balancing algorithm for web server based on weighted minimal connections

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant