CN105872061A - 一种服务器集群管理方法、装置及系统 - Google Patents

一种服务器集群管理方法、装置及系统 Download PDF

Info

Publication number
CN105872061A
CN105872061A CN201610202789.8A CN201610202789A CN105872061A CN 105872061 A CN105872061 A CN 105872061A CN 201610202789 A CN201610202789 A CN 201610202789A CN 105872061 A CN105872061 A CN 105872061A
Authority
CN
China
Prior art keywords
server
monitoring
project
target
score value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610202789.8A
Other languages
English (en)
Other versions
CN105872061B (zh
Inventor
梁吉林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201610202789.8A priority Critical patent/CN105872061B/zh
Publication of CN105872061A publication Critical patent/CN105872061A/zh
Application granted granted Critical
Publication of CN105872061B publication Critical patent/CN105872061B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种服务器集群管理方法、装置及系统,其中,方法包括:设置至少一个监控项目的标准阈值范围及业务系数;接收至少两台服务器分别发送的监控信息,其中,监控信息包括当前服务器的每一个监控项目分别对应的监控参数;确定每一台服务器分别对应的至少一个目标监控项目,其中,当前服务器的每一个目标监控项目对应的监控参数在对应的标准阈值范围之内;根据每一台服务器分别对应的至少一个目标监控项目分别对应的业务系数,计算每一台服务器分别对应的目标业务分值;根据每一台服务器分别对应的目标业务分值的大小将至少一个数据处理任务分配给所述至少两台服务器。通过本发明的技术方案,可提高服务器集群的数据处理能力。

Description

一种服务器集群管理方法、装置及系统
技术领域
本发明涉及信息通信技术领域,特别涉及一种服务器集群管理方法、装置及系统。
背景技术
随着数据中心的数据处理需求不断提高,通常需要将多台服务器相互连接以作为一个服务器集群,服务器集群内的多台服务器并行完成相同的数据处理业务;相应的,为了确保服务器集群的良好运行,对集群内的每一个服务器进行相应的管理就显得极为重要。
目前,主要通过在每一个服务器节点上安装相应的监控客户端以及设置服务器节点的每一个监控项目的监控阈值,利用监控客户端监控当前服务器节点的多个项目,比如:CU利用率、IO平均值、内存利用率及存储空间利用率、风扇转速等,监控客户端将当前服务器节点下对应每一个监控项目的监控信息发送到监控服务器,以使得工作人员根据监控服务器获取的监控信息对相应的服务器进行管理。
但是,在上述技术方案中,对服务器集群的管理仅限于对集群下各服务器节点的监控,并不能合理控制每一个服务器的工作负载情况,部分服务器的工作负载较高时,可能导致服务器宕机,降低服务器集群的数据处理能力。
发明内容
本发明实施例提供了一种服务器集群管理方法、装置及系统,可提高服务器集群的数据处理能力。
第一方面,本发明提供了一种服务器集群管理方法,应用于服务器集群管理装置中,包括:
S0:预先设置至少一个监控项目的标准阈值范围,以及,设置每一个监控项目分别对应的业务系数;
S1:接收服务器集群中至少两台服务器分别发送的监控信息,其中,所述监控信息包括当前服务器的每一个监控项目分别对应的监控参数;
S2:确定每一台服务器分别对应的至少一个目标监控项目,其中,当前服务器的每一个目标监控项目对应的监控参数在对应的标准阈值范围之内;
S3:根据每一台服务器分别对应的至少一个目标监控项目分别对应的业务系数,计算每一台服务器分别对应的目标业务分值;
S4:根据每一台服务器分别对应的目标业务分值的大小将至少一个数据处理任务分配给所述至少两台服务器。
进一步的,所述根据每一台服务器分别对应的目标业务分值的大小将至少一个数据处理任务分配给所述至少两台服务器,包括:
通过如下公式计算每一台服务器分别对应的目标业务分值:
ai=(m1+…mn);
其中,ai表征当前服务器的目标业务分值、(m1+…mn)表征当前服务器内每一个目标监控项目分别对应的业务系数的和;
通过如下公式计算每一台服务器分别对应的评分值:
A=ai/(a1+……+an);
其中,A表征当前服务器的评分值、(a1+……an)表征全部服务器对应的目标业务分值的和;
通过如下公式计算每一台服务器分别需要被分配的数据处理任务的数量:
B=C*A;
其中,B表征当前服务器需要被分配的数据处理任务的数量、C表征待分配的数据处理任务的总量;
分别向每一台服务器分配对应数量B的数据处理任务。
进一步的,
所述预先设置至少一个监控项目的标准阈值范围,进一步包括:将至少一个监控项目设置为固定检测项目;
当存在至少一台第一目标服务器的至少一个固定检测项目对应的监控参数不在对应的标准阈值范围之内时,在所述接收至少两台服务器分别发送的监控信息之后,在确定每一台服务器分别对应的至少一个目标监控项目之前,还包括:
隔离每一台所述第一目标服务器,使得每一台第一目标服务器不再接收数据处理任务;
所述确定每一台服务器分别对应的至少一个目标监控项目,包括:
确定每一台第二目标服务器分别对应的至少一个目标监控项目,其中,每一台第二目标服务器的至少一个固定检测项目分别对应的监控参数在对应的标准阈值范围之内,当前第二目标服务器的每一个目标监控项目对应的监控参数在对应的标准阈值范围之内。
进一步的,
所述至少一个监控项目包括如下项目中的一个或多个:处理器利用率、内存利用率、输入输出IO吞吐速率、处理器温度、风扇速率;
所述至少一个标准检测项目包括如下项目中的一个或多个:风扇速率、内存利用率。
进一步的,还包括:
当存在至少一个目标服务器的至少一个监控项目对应的监控参数不在对应的标准阈值范围之内时,生成对应的告警信息。
第二方面,本发明提供了一种服务器集群管理装置,包括:
设置单元,用于预先设置至少一个监控项目的标准阈值范围,以及,设置每一个监控项目分别对应的业务系数;
获取单元,用于接收服务器集群中至少两台服务器分别发送的监控信息,其中,所述监控信息包括当前服务器的每一个监控项目分别对应的监控参数;
确定单元,用于确定每一台服务器分别对应的至少一个目标监控项目,其中,当前服务器的每一个目标监控项目对应的监控参数在对应的标准阈值范围之内;
计算单元,用于根据每一台服务器分别对应的至少一个目标监控项目分别对应的业务系数,计算每一台服务器分别对应的目标业务分值;
处理单元,用于根据每一台服务器分别对应的目标业务分值的大小将至少一个数据处理任务分配给所述至少两台服务器。
进一步的,所述处理单元,包括:
计算子单元,用于通过如下公式计算每一台服务器分别对应的目标业务分值:
ai=(m1+…mn);
其中,ai表征当前服务器的目标业务分值、(m1+…mn)表征当前服务器内每一个目标监控项目分别对应的业务系数的和;
用于通过如下公式计算每一台服务器分别对应的评分值:
A=ai/(a1+……+an);
其中,A表征当前服务器的评分值、(a1+……an)表征全部服务器对应的目标业务分值的和;
以及,用于通过如下公式计算每一台服务器分别需要被分配的数据处理任务的数量:
B=C*A;
其中,B表征当前服务器需要被分配的数据处理任务的数量、C表征待分配的数据处理任务的总量;
处理子单元,用于分别向每一台服务器分配对应数量B的数据处理任务。
进一步的,
所述设置单元,进一步用于将至少一个监控项目设置为固定检测项目;
所述处理单元,进一步用于当存在至少一台第一目标服务器的至少一个固定检测项目对应的监控参数不在对应的标准阈值范围之内时,隔离每一台所述第一目标服务器,使得每一台第一目标服务器不再接收数据处理任务;
所述确定单元,用于确定每一台第二目标服务器分别对应的至少一个目标监控项目,其中,每一台第二目标服务器的至少一个固定检测项目分别对应的监控参数在对应的标准阈值范围之内,当前第二目标服务器的每一个目标监控项目对应的监控参数在对应的标准阈值范围之内。
进一步的,
所述处理单元,进一步用于当存在至少一个目标服务器的至少一个监控项目对应的监控参数不在对应的标准阈值范围之内时,生成对应的告警信息。
第三方面,本发明提供了一种服务器集群管理系统,包括:
如上述第二方面中任一所述的服务器集群管理装置和至少两台服务器,其中,
所述服务器包括:
监控装置,用于监控当前服务器以获取监控信息,并将所述监控信息发送给所述服务器集群管理装置,其中,所述监控信息包括当前服务器的每一个监控项目分别对应的监控参数。
本发明实施例提供了一种集群管理方法、装置及系统,通过在集群管理装置中预先设置至少一个监控项目的标准阈值范围以及每一个监控项目分别对应的业务系数,进而根据每一台服务器中符合标准阈值范围的全部目标监控项目对应业务系数计算当前服务器对应的业务分值,每一台服务器分别对应的业务分值的高低可反应出当前服务器工作负载的高低,相应的,即可根据业务分值的高低将一定数量的数据处理任务分别分配给多台服务器;可见,通过本发明的技术方案,根据不同服务器的工作负载高低合理的向多台服务器分别分配一定数量的数据处理任务,避免服务器工作负载过高而导致服务器宕机,可提高服务器集群的数据处理能力。
说明书附图
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种服务器集群管理方法的流程图;
图2是本发明一实施例提供的一种服务器集群管理装置的结构图;
图3是本发明一实施例提供的一种服务器集群管理系统的结构图;
图4是本发明一实施例提供的另一种服务器集群管理方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种服务器集群管理方法,应用于服务器集群管理装置中,该方法可以包括以下步骤:
S0:预先设置至少一个监控项目的标准阈值范围,以及,设置每一个监控项目分别对应的业务系数;
S1:接收服务器集群中至少两台服务器分别发送的监控信息,其中,所述监控信息包括当前服务器的每一个监控项目分别对应的监控参数;
S2:确定每一台服务器分别对应的至少一个目标监控项目,其中,当前服务器的每一个目标监控项目对应的监控参数在对应的标准阈值范围之内;
S3:根据每一台服务器分别对应的至少一个目标监控项目分别对应的业务系数,计算每一台服务器分别对应的目标业务分值;
S4:根据每一台服务器分别对应的目标业务分值的大小将至少一个数据处理任务分配给所述至少两台服务器。
本发明一实施例中,通过在集群管理装置中预先设置至少一个监控项目的标准阈值范围以及每一个监控项目分别对应的业务系数,进而根据每一台服务器中符合标准阈值范围的全部目标监控项目对应业务系数计算当前服务器对应的业务分值,每一台服务器分别对应的业务分值的高低可反应出当前服务器工作负载的高低,相应的,即可根据业务分值的高低将一定数量的数据处理任务分别分配给多台服务器;可见,通过本发明的技术方案,根据不同服务器的工作负载高低合理的向多台服务器分别分配一定数量的数据处理任务,避免服务器工作负载过高而导致服务器宕机,可提高服务器集群的数据处理能力。
本发明一实施例中,监控项目包括但不限如下监控项目中的一种或多种:处理器利用率、内存利用率、输入输出IO吞吐速率、处理器温度、风扇速率。
需要说明的是,监控项目、每一个监控项目分别对应的标准阈值范围及每一个监控项目分别对应的业务系数,可结合实际业务需求合理设置。
举例来说,监控项目包括处理器利用率时,可设置处理器利用率的标准阈值范围为0至90%,相应的,还可以根据该监控项目在服务器工作过程中相对的重要程度设置其业务系数,重要程度较高的监控项目可相应设置较高的业务系数。
进一步的,本发明一个优选实施例中,可通过如下几个步骤实现根据每一台服务器分别对应的目标业务分值的大小将至少一个数据处理任务分配给所述至少两台服务器:
A1:通过如下公式(1)计算每一台服务器分别对应的目标业务分值:
ai=(m1+…mn); (1)
其中,ai表征当前服务器的目标业务分值、(m1+…mn)表征当前服务器内每一个目标监控项目分别对应的业务系数的和;
A2:通过如下公式(2)计算每一台服务器分别对应的评分值:
A=ai/(a1+……+an); (2)
其中,A表征当前服务器的评分值、(a1+……an)表征全部服务器对应的目标业务分值的和;
A3:通过如下公式(3)计算每一台服务器分别需要被分配的数据处理任务的数量:
B=C*A; (3)
其中,B表征当前服务器需要被分配的数据处理任务的数量、C表征待分配的数据处理任务的总量;
A4:分别向每一台服务器分配对应数量B的数据处理任务。
进一步的,为了避免服务器在后续的工作过程中,因部分监控项目的非正常状态影响服务器本身的硬件性能,本发明一个优选实施例中,所述预先设置至少一个监控项目的标准阈值范围,进一步包括:将至少一个监控项目设置为固定检测项目;
当存在至少一台第一目标服务器的至少一个固定检测项目对应的监控参数不在对应的标准阈值范围之内时,在所述接收至少两台服务器分别发送的监控信息之后,在确定每一台服务器分别对应的至少一个目标监控项目之前,还包括:
隔离每一台所述第一目标服务器,使得每一台第一目标服务器不再接收数据处理任务;
所述确定每一台服务器分别对应的至少一个目标监控项目,包括:
确定每一台第二目标服务器分别对应的至少一个目标监控项目,其中,每一台第二目标服务器的至少一个固定检测项目分别对应的监控参数在对应的标准阈值范围之内,当前第二目标服务器的每一个目标监控项目对应的监控参数在对应的标准阈值范围之内。
举例来说,当一台服务器的风扇转速过低(比如,小于500转/min)时,如果对应的服务器继续工作,服务器内部的处理器、硬盘及电源等各组建的温度迅速上升,温度过高(比如,高于95度)时可能直接导致处理器、硬盘及电源等服务器内部硬件自身发生损坏;因此,通过设置固定检测项目的形式,服务器的任一个固定检测项目对应的监控参数不在对应的阈值范围之内时,隔离服务器,使得被隔离的服务器不再继续接收数据处理任务,以便工作人员对被隔离的服务器进行相应的维护。
具体地,本发明一个优选实施例中,所述至少一个标准检测项目但不限于如下监控项目中的一种或多种,风扇速率、内存利用率。
需要说明的是,监控项目和标准检测项目包括但不限于本发明上述实施例中所述的几个项目,比如,监控项目和目标检测项目还可以包括:硬盘存储介质是否发生损坏等。
进一步的,为了方便工作人员对服务器的各个监控项目进行定向维护,本发明一个优选实施例中,还包括:
当存在至少一个目标服务器的至少一个监控项目对应的监控参数不在对应的标准阈值范围之内时,生成对应的告警信息。
本发明一实施例中,工作人员可根据生成的告警信息对每一个目标服务器下监控参数不在对应的标准阈值范围之内的监控项目进行定向维护;举例来说,当处理器温度的阈值范围是0到90度时,如果某一目标服务器内处理器的实际温度为95度,则生成对应的告警信息,以使得工作人员根据告警信息对该服务器内的处理器进行定向维护。
如图2所示,本发明实施例提供了一种服务器集群管理装置20,包括:
设置单元201,用于预先设置至少一个监控项目的标准阈值范围,以及,设置每一个监控项目分别对应的业务系数;
获取单元202,用于接收服务器集群中至少两台服务器分别发送的监控信息,其中,所述监控信息包括当前服务器的每一个监控项目分别对应的监控参数;
确定单元203,用于确定每一台服务器分别对应的至少一个目标监控项目,其中,当前服务器的每一个目标监控项目对应的监控参数在对应的标准阈值范围之内;
计算单元204,用于根据每一台服务器分别对应的至少一个目标监控项目分别对应的业务系数,计算每一台服务器分别对应的目标业务分值;
处理单元205,用于根据每一台服务器分别对应的目标业务分值的大小将至少一个数据处理任务分配给所述至少两台服务器。
具体地,本发明一个优选实施例中,所述处理单元205,包括:
计算子单元(附图中未示出),用于通过如下公式(1)计算每一台服务器分别对应的目标业务分值:
ai=(m1+…mn); (1)
其中,ai表征当前服务器的目标业务分值、(m1+…mn)表征当前服务器内每一个目标监控项目分别对应的业务系数的和;
用于通过如下公式(2)计算每一台服务器分别对应的评分值:
A=ai/(a1+……+an); (2)
其中,A表征当前服务器的评分值、(a1+……an)表征全部服务器对应的目标业务分值的和;
以及,用于通过如下公式(3)计算每一台服务器分别需要被分配的数据处理任务的数量:
B=C*A; (3)
其中,B表征当前服务器需要被分配的数据处理任务的数量、C表征待分配的数据处理任务的总量;
处理子单元(附图中未示出),用于分别向每一台服务器分配对应数量B的数据处理任务。
进一步的,为了避免服务器在后续的工作过程中,因部分监控项目的非正常状态影响服务器本身的硬件性能,本发明一个优选实施例中,所述设置单元201,进一步用于将至少一个监控项目设置为固定检测项目;
所述处理单元205,进一步用于当存在至少一台第一目标服务器的至少一个固定检测项目对应的监控参数不在对应的标准阈值范围之内时,隔离每一台所述第一目标服务器,使得每一台第一目标服务器不再接收数据处理任务;
所述确定单元203,用于确定每一台第二目标服务器分别对应的至少一个目标监控项目,其中,每一台第二目标服务器的至少一个固定检测项目分别对应的监控参数在对应的标准阈值范围之内,当前第二目标服务器的每一个目标监控项目对应的监控参数在对应的标准阈值范围之内。
进一步的,为了方便工作人员对服务器的各个监控项目进行定向维护,本发明一个优选实施例中,所述处理单元205,进一步用于当存在至少一个目标服务器的至少一个监控项目对应的监控参数不在对应的标准阈值范围之内时,生成对应的告警信息。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
如图3所示,本发明实施例提供了一种服务器集群管理系统,包括:
如上述实施例中任一所述的服务器集群管理装置20和至少两台服务器301,其中,
所述服务器301包括:
监控装置3011,用于监控当前服务器301以获取监控信息,并将所述监控信息发送给所述服务器集群管理装置20,其中,所述监控信息包括当前服务器301的每一个监控项目分别对应的监控参数。
本发明一实施例中,通过在服务器集群下的每一个服务器中配置对应的监控装置,以实时采集当前服务器内各个监控项目的监控参数,并将采集到的每一个监控项目的监控参数发送到服务器集群管理装置,以使得服务器集群管理装置根据每一台服务器的多个监控项目分别对应的监控参数管理服务器集群下的每一台服务器。
如图4所示,本发明一实施例提供了另一种服务器集群管理方法,结合本发明上述实施例中所述的服务器集群管理装置及系统,可以包括如下步骤:
步骤401,在服务器集群管理装置内设置至少一个监控项目的标准阈值范围,设置每一个监控项目分别对应的业务系数,以及,将至少一个监控项目设置为固定检测项目。
本发明实施例中,监控项目包括但不限如下监控项目中的一种或多种:处理器利用率、内存利用率、风扇速率。
需要说明的是,监控项目、每一个监控项目分别对应的标准阈值范围及每一个监控项目分别对应的业务系数,可结合实际业务需求合理设置,具体地,可以根据该监控项目在服务器工作过程中相对的重要程度设置其业务系数,重要程度较高的监控项目可相应设置较高的业务系数。
本发明实施例中,可分别设置如下监控项目的标准阈值范围和业务系数:
处理器利用率:标准阈值范围为0到90%、业务系数为0.5;
内存利用率:标准阈值范围为0到90%、业务系数为0.8;
风扇速率:不小于2000转/min、业务系数为1。
这里,将风扇速率设置为固定检测项目。
步骤402,在服务器集群内的每一台服务器下分别安装对应的监控装置,利用该监控装置实时采集当前服务器内每一个监控项目分别对应的监控参数。
本发明实施例下述各步骤中,以服务器集群中包括服务器A和服务器B和服务器C为例。
步骤403,服务器集群管理装置接收服务器集群中每一台服务器分别发送的监控信息。
本发明一实施例中,以服务器A、B、C分别对应的监控信息如下为例:
服务器A发送的监控信息:处理器利用率对应的监控参数为50%、内存利用率对应的监控参数为50%、风扇转速对应的监控参数为2500转/min;
服务器B发送的监控信息:处理器利用率对应的监控参数为50%、内存利用率对应的监控参数为50、风扇转速对应的监控参数为500转/min;
服务器C发送的监控信息:处理器利用率对应的监控参数为50%、内存利用率对应的监控参数为91%、风扇转速对应的监控参数为2500转/min;
步骤404,服务器集群管理装置判断每一台服务器中是否存在至少一个监控项目对应的监控参数不在对应的标准阈值范围之内,如果是,则执行步骤405,否则,结束当前业务流程。
步骤405,服务器集群管理装置生成对应的告警信息。
本发明一实施例中,服务器B的固定检测项目风扇转速对应的监控参数为500转/min,不在对应的标准阈值范围内,服务器C的监控项目内存利用率对应的监控参数为91%,不在对应的标准阈值范围内,分别生成对应的告警信息,使得工作人员可根据对应的告警信息针对服务器B的风扇和服务器C的内存进行定向维护。
步骤406,服务器集群管理装置判断是否存在至少一台第一目标服务器的至少一个固定检测项目对应的监控参数不在对应的阈值范围内,如果是,则执行步骤407,否则,执行步骤408。
步骤407,服务器集群管理装置隔离每一台第一目标服务器,使得每一台第一目标服务器不再接收数据处理任务。
举例来说,服务器B的固定检测项目风扇转速对应的监控参数为500转/min,即服务器B为第一目标服务器,隔离服务器B,使得服务器B不在接收数据处理任务,可避免服务器B的风扇转速过低,在后续的工作过程中引起服务器整体散热性能下降,导致服务器A在后续工作过程中,处理器温度、硬盘温度及电源温度等过高,导致处理器、硬盘及电源发生硬件损坏。
步骤408,服务器集群管理装置确定每一台第二目标服务器分别对应的至少一个目标监控项目。
这里,每一台第二目标服务器的至少一个固定检测项目分别对应的监控参数在对应的标准阈值范围之内,当前第二目标服务器的每一个目标监控项目对应的监控参数在对应的标准阈值范围之内。
通过本发明实施例上述各步骤可见,第二目标服务器包括服务器A和服务器C,其中,服务器A对应的目标监控项目包括:处理器利用率、内存利用率和风扇转速;服务器C对应的目标监控项目包括:处理器利用率和风扇转速。
步骤509,服务器集群管理装置计算每一台第二目标服务器分别对应的评分值。
本发明实施例中,通过如下公式(1)计算每一台服务器分别对应的目标业务分值:
ai=(m1+…mn); (1)
其中,ai表征当前服务器的目标业务分值、(m1+…mn)表征当前服务器内每一个目标监控项目分别对应的业务分值的和;
通过如下公式(2)计算每一台服务器分别对应的评分值:
A=ai/(a1+……+an); (2)
其中,A表征当前服务器的评分值、(a1+……an)表征全部服务器对应的目标业务分值的和。
具体地,可通过上述两个公式分别计算出服务器A和服务器C分别对应的评分值为:0.6和0.4。
本发明一实施例中,无论是目标业务分值的大小还是评分值的大小,均可用于衡量对应的服务器的工作负载高低。
步骤410,服务器集群管理装置计算每一台服务器分别需要被分配的数据处理任务的数量。
本发明一实施例中,可通过如下公式(3)计算服务器A和服务器C分别需要被分配的数据处理任务的数量:
B=C*A; (3)
需要说明的是,这里分别对服务器A和服务器C分配相应数量的数据处理任务时,基于待分配的数据处理任务的总量计算,举例来说,待分配的数据处理任务的总量为10个,基于上述公式可得出向服务器A和C分别分配的数据处理任务的数量为4个和6个。
步骤411,服务器集群管理装置分别向每一台服务器分配对应数量B的数据处理任务。
本发明实施例中,通过对每一台服务器的多个监控项目的实时工作状态进行监控以获取每一个监控项目分别对应的监控参数,根据监控参数分析出每一台服务器的工作负载高低,根据工作负载高低合理的向多台服务器分别分配一定数量的数据处理任务,避免服务器因被分配的数据处理任务过多导致工作负载过高,进而导致服务器宕机等情况发生,可提高服务器集群的数据处理能力。
本发明各个实施例至少具有如下有益效果:
1、通过在集群管理装置中预先设置至少一个监控项目的标准阈值范围以及每一个监控项目分别对应的业务系数,进而根据每一台服务器中符合标准阈值范围的全部目标监控项目对应业务系数计算当前服务器对应的业务分值,每一台服务器分别对应的业务分值的高低可反应出当前服务器工作负载的高低,相应的,即可根据业务分值的高低将一定数量的数据处理任务分别分配给多台服务器;可见,通过本发明的技术方案,根据不同服务器的工作负载高低合理的向多台服务器分别分配一定数量的数据处理任务,避免服务器工作负载过高而导致服务器宕机,可提高服务器集群的数据处理能力。
2、通过将至少一个监控项目设置为固定检测项目,针对每一台服务器,当风扇转速等固定检测项目对应的监控参数不符合对应阈值范围时,隔离对应的服务器,避免服务器在后续的工作过程中直接影响服务器本身的硬件性能,甚至损坏服务器内部的处理器、电源等组件。
3、针对每一台服务器,当监控项目对应的监控参数不符合预先设置的标准阈值范围时,生成对应的告警信息,方便工作人员根据生成的告警信息对相应的服务器进行定向维护。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种服务器集群管理方法,其特征在于,应用于服务器集群管理装置中,包括:
预先设置至少一个监控项目的标准阈值范围,以及,设置每一个监控项目分别对应的业务系数;
接收服务器集群中至少两台服务器分别发送的监控信息,其中,所述监控信息包括当前服务器的每一个监控项目分别对应的监控参数;
确定每一台服务器分别对应的至少一个目标监控项目,其中,当前服务器的每一个目标监控项目对应的监控参数在对应的标准阈值范围之内;
根据每一台服务器分别对应的至少一个目标监控项目分别对应的业务系数,计算每一台服务器分别对应的目标业务分值;
根据每一台服务器分别对应的目标业务分值的大小将至少一个数据处理任务分配给所述至少两台服务器。
2.根据权利要求1所述的服务器集群管理方法,其特征在于,所述根据每一台服务器分别对应的目标业务分值的大小将至少一个数据处理任务分配给所述至少两台服务器,包括:
通过如下公式计算每一台服务器分别对应的目标业务分值:
ai=(m1+…mn);
其中,ai表征当前服务器的目标业务分值、(m1+…mn)表征当前服务器内每一个目标监控项目分别对应的业务系数的和;
通过如下公式计算每一台服务器分别对应的评分值:
A=ai/(a1+……+an);
其中,A表征当前服务器的评分值、(a1+……an)表征全部服务器对应的目标业务分值的和;
通过如下公式计算每一台服务器分别需要被分配的数据处理任务的数量:
B=C*A;
其中,B表征当前服务器需要被分配的数据处理任务的数量、C表征待分配的数据处理任务的总量;
分别向每一台服务器分配对应数量B的数据处理任务。
3.根据权利要求1所述的服务器集群管理方法,其特征在于,
所述预先设置至少一个监控项目的标准阈值范围,进一步包括:将至少一个监控项目设置为固定检测项目;
当存在至少一台第一目标服务器的至少一个固定检测项目对应的监控参数不在对应的标准阈值范围之内时,在所述接收至少两台服务器分别发送的监控信息之后,在确定每一台服务器分别对应的至少一个目标监控项目之前,还包括:
隔离每一台所述第一目标服务器,使得每一台第一目标服务器不再接收数据处理任务;
所述确定每一台服务器分别对应的至少一个目标监控项目,包括:
确定每一台第二目标服务器分别对应的至少一个目标监控项目,其中,每一台第二目标服务器的至少一个固定检测项目分别对应的监控参数在对应的标准阈值范围之内,当前第二目标服务器的每一个目标监控项目对应的监控参数在对应的标准阈值范围之内。
4.根据权利要求3所述的服务器集群管理方法,其特征在于,
所述至少一个监控项目包括如下项目中的一个或多个:处理器利用率、内存利用率、输入输出IO吞吐速率、处理器温度、风扇速率;
所述至少一个标准检测项目包括如下项目中的一个或多个:风扇速率、内存利用率。
5.根据权利要求1至5中任一所述的服务器集群管理方法,其特征在于,还包括:
当存在至少一个目标服务器的至少一个监控项目对应的监控参数不在对应的标准阈值范围之内时,生成对应的告警信息。
6.一种服务器集群管理装置,其特征在于,包括:
设置单元,用于预先设置至少一个监控项目的标准阈值范围,以及,设置每一个监控项目分别对应的业务系数;
获取单元,用于接收服务器集群中至少两台服务器分别发送的监控信息,其中,所述监控信息包括当前服务器的每一个监控项目分别对应的监控参数;
确定单元,用于确定每一台服务器分别对应的至少一个目标监控项目,其中,当前服务器的每一个目标监控项目对应的监控参数在对应的标准阈值范围之内;
计算单元,用于根据每一台服务器分别对应的至少一个目标监控项目分别对应的业务系数,计算每一台服务器分别对应的目标业务分值;
处理单元,用于根据每一台服务器分别对应的目标业务分值的大小将至少一个数据处理任务分配给所述至少两台服务器。
7.根据权利要求6所述的服务器集群管理装置,其特征在于,所述处理单元,包括:
计算子单元,用于通过如下公式计算每一台服务器分别对应的目标业务分值:
ai=(m1+…mn);
其中,ai表征当前服务器的目标业务分值、(m1+…mn)表征当前服务器内每一个目标监控项目分别对应的业务系数的和;
用于通过如下公式计算每一台服务器分别对应的评分值:
A=ai/(a1+……+an);
其中,A表征当前服务器的评分值、(a1+……an)表征全部服务器对应的目标业务分值的和;
以及,用于通过如下公式计算每一台服务器分别需要被分配的数据处理任务的数量:
B=C*A;
其中,B表征当前服务器需要被分配的数据处理任务的数量、C表征待分配的数据处理任务的总量;
处理子单元,用于分别向每一台服务器分配对应数量B的数据处理任务。
8.根据权利要求6所述的服务器集群管理装置,其特征在于,
所述设置单元,进一步用于将至少一个监控项目设置为固定检测项目;
所述处理单元,进一步用于当存在至少一台第一目标服务器的至少一个固定检测项目对应的监控参数不在对应的标准阈值范围之内时,隔离每一台所述第一目标服务器,使得每一台第一目标服务器不再接收数据处理任务;
所述确定单元,用于确定每一台第二目标服务器分别对应的至少一个目标监控项目,其中,每一台第二目标服务器的至少一个固定检测项目分别对应的监控参数在对应的标准阈值范围之内,当前第二目标服务器的每一个目标监控项目对应的监控参数在对应的标准阈值范围之内。
9.根据权利要求6至8中任一所述的服务器集群管理装置,其特征在于,
所述处理单元,进一步用于当存在至少一个目标服务器的至少一个监控项目对应的监控参数不在对应的标准阈值范围之内时,生成对应的告警信息。
10.一种服务器集群管理系统,其特征在于,包括:
如上述权利要求6至9中任一所述的服务器集群管理装置和至少两台服务器,其中,
所述服务器包括:
监控装置,用于监控当前服务器以获取监控信息,并将所述监控信息发送给所述服务器集群管理装置,其中,所述监控信息包括当前服务器的每一个监控项目分别对应的监控参数。
CN201610202789.8A 2016-04-01 2016-04-01 一种服务器集群管理方法、装置及系统 Active CN105872061B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610202789.8A CN105872061B (zh) 2016-04-01 2016-04-01 一种服务器集群管理方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610202789.8A CN105872061B (zh) 2016-04-01 2016-04-01 一种服务器集群管理方法、装置及系统

Publications (2)

Publication Number Publication Date
CN105872061A true CN105872061A (zh) 2016-08-17
CN105872061B CN105872061B (zh) 2018-10-09

Family

ID=56627838

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610202789.8A Active CN105872061B (zh) 2016-04-01 2016-04-01 一种服务器集群管理方法、装置及系统

Country Status (1)

Country Link
CN (1) CN105872061B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106559272A (zh) * 2016-12-08 2017-04-05 浪潮通信信息系统有限公司 一种机房管理方法及装置
CN107257305A (zh) * 2017-08-02 2017-10-17 郑州云海信息技术有限公司 一种多节点系统的监控方法和装置
CN107733702A (zh) * 2017-09-29 2018-02-23 郑州云海信息技术有限公司 集群系统中管理主机运行状态的方法和装置
CN107844398A (zh) * 2017-09-28 2018-03-27 郑州云海信息技术有限公司 一种服务器监控方法及装置
WO2020098414A1 (zh) * 2018-11-13 2020-05-22 Oppo广东移动通信有限公司 终端数据处理方法、装置及终端
CN112948201A (zh) * 2019-12-10 2021-06-11 北京神州泰岳软件股份有限公司 一种自动化运维方法和系统
CN115031680A (zh) * 2022-06-08 2022-09-09 淮阴师范学院 基于互联网的长输油气管道数据监测分析系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008073553A2 (en) * 2006-12-12 2008-06-19 Lsi Corporation Using storage load information to balance clustered virtual machines
CN101938504A (zh) * 2009-06-30 2011-01-05 深圳市融创天下科技发展有限公司 集群服务器智能调度的方法及系统
CN103019853A (zh) * 2012-11-19 2013-04-03 北京亿赞普网络技术有限公司 一种作业任务的调度方法和装置
CN104202254A (zh) * 2014-08-14 2014-12-10 江苏省邮电规划设计院有限责任公司 一种基于云计算平台服务器智能负载均衡方法
CN104917836A (zh) * 2015-06-10 2015-09-16 北京奇虎科技有限公司 基于集群监控分析计算设备可用性的方法及装置
CN105159815A (zh) * 2015-09-02 2015-12-16 浪潮(北京)电子信息产业有限公司 高性能计算集群系统故障预测方法和装置
CN105260253A (zh) * 2015-09-06 2016-01-20 浪潮集团有限公司 一种服务器故障测算方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008073553A2 (en) * 2006-12-12 2008-06-19 Lsi Corporation Using storage load information to balance clustered virtual machines
CN101938504A (zh) * 2009-06-30 2011-01-05 深圳市融创天下科技发展有限公司 集群服务器智能调度的方法及系统
CN103019853A (zh) * 2012-11-19 2013-04-03 北京亿赞普网络技术有限公司 一种作业任务的调度方法和装置
CN104202254A (zh) * 2014-08-14 2014-12-10 江苏省邮电规划设计院有限责任公司 一种基于云计算平台服务器智能负载均衡方法
CN104917836A (zh) * 2015-06-10 2015-09-16 北京奇虎科技有限公司 基于集群监控分析计算设备可用性的方法及装置
CN105159815A (zh) * 2015-09-02 2015-12-16 浪潮(北京)电子信息产业有限公司 高性能计算集群系统故障预测方法和装置
CN105260253A (zh) * 2015-09-06 2016-01-20 浪潮集团有限公司 一种服务器故障测算方法和装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106559272A (zh) * 2016-12-08 2017-04-05 浪潮通信信息系统有限公司 一种机房管理方法及装置
CN107257305A (zh) * 2017-08-02 2017-10-17 郑州云海信息技术有限公司 一种多节点系统的监控方法和装置
CN107257305B (zh) * 2017-08-02 2020-05-15 苏州浪潮智能科技有限公司 一种多节点系统的监控方法和装置
CN107844398A (zh) * 2017-09-28 2018-03-27 郑州云海信息技术有限公司 一种服务器监控方法及装置
CN107733702A (zh) * 2017-09-29 2018-02-23 郑州云海信息技术有限公司 集群系统中管理主机运行状态的方法和装置
WO2020098414A1 (zh) * 2018-11-13 2020-05-22 Oppo广东移动通信有限公司 终端数据处理方法、装置及终端
CN112948201A (zh) * 2019-12-10 2021-06-11 北京神州泰岳软件股份有限公司 一种自动化运维方法和系统
CN112948201B (zh) * 2019-12-10 2024-05-14 北京神州泰岳软件股份有限公司 一种自动化运维方法和系统
CN115031680A (zh) * 2022-06-08 2022-09-09 淮阴师范学院 基于互联网的长输油气管道数据监测分析系统

Also Published As

Publication number Publication date
CN105872061B (zh) 2018-10-09

Similar Documents

Publication Publication Date Title
CN105872061A (zh) 一种服务器集群管理方法、装置及系统
CN102694868B (zh) 一种集群系统实现及任务动态分配方法
CN103164279B (zh) 云计算资源分配方法和系统
CN106886485B (zh) 系统容量分析预测方法及装置
US20140229949A1 (en) Balancing virtual machine loads
CN104468282B (zh) 集群监控处理系统及方法
CN104965861A (zh) 一种数据访问监控装置
US10528378B2 (en) System and method for load estimation of virtual machines in a cloud environment and serving node
CN104462121A (zh) 数据处理方法、装置及系统
CN110162445A (zh) 基于主机日志及性能指标的主机健康评价方法及装置
CN104360924A (zh) 一种在云数据中心环境下对虚拟机进行监控等级划分的方法
CN113010576A (zh) 云计算系统容量评估的方法、装置、设备和存储介质
CN109324679A (zh) 一种服务器能耗控制方法及装置
CN112633542A (zh) 系统性能指标预测方法、装置、服务器及存储介质
CN103399791A (zh) 一种基于云计算的虚拟机迁移方法和装置
CN112700131A (zh) 基于人工智能的ab测试方法、装置、计算机设备及介质
CN106951360B (zh) 数据统计完整度计算方法和系统
US11003431B2 (en) Generating predictive metrics for virtualized deployments
CN115883330B (zh) 告警事件处理方法、系统、设备及存储介质
CN117435335A (zh) 算力调度方法、装置、计算机设备和存储介质
CN107277143A (zh) 一种资源匹配管理方法及装置
US20140165058A1 (en) System resource management method for virtual system
CN102930046B (zh) 数据处理方法、计算节点及系统
CN112783637B (zh) 一种资源调控方法和装置
CN104883273A (zh) 虚拟化服务管理平台中业务影响模型的处理方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant