CN108055321A - 基于国产化平台的高可靠集群构建方法 - Google Patents

基于国产化平台的高可靠集群构建方法 Download PDF

Info

Publication number
CN108055321A
CN108055321A CN201711308590.4A CN201711308590A CN108055321A CN 108055321 A CN108055321 A CN 108055321A CN 201711308590 A CN201711308590 A CN 201711308590A CN 108055321 A CN108055321 A CN 108055321A
Authority
CN
China
Prior art keywords
node
mrow
heartbeat
msub
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711308590.4A
Other languages
English (en)
Other versions
CN108055321B (zh
Inventor
张民强
杨凌
刘海天
付建苏
王会龙
刘飞
邱德明
王符合
王梓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 28 Research Institute
Original Assignee
CETC 28 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 28 Research Institute filed Critical CETC 28 Research Institute
Priority to CN201711308590.4A priority Critical patent/CN108055321B/zh
Publication of CN108055321A publication Critical patent/CN108055321A/zh
Application granted granted Critical
Publication of CN108055321B publication Critical patent/CN108055321B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1044Group management mechanisms 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/12Avoiding congestion; Recovering from congestion
    • H04L47/125Avoiding congestion; Recovering from congestion by balancing the load, e.g. traffic engineering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/29Flow control; Congestion control using a combination of thresholds
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/70Admission control; Resource allocation
    • H04L47/80Actions related to the user profile or the type of traffic
    • H04L47/805QOS or priority aware
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/1008Server selection for load balancing based on parameters of servers, e.g. available memory or workload
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1036Load balancing of requests to servers for services different from user content provisioning, e.g. load balancing across domain name servers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Multi Processors (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于国产化平台的高可靠集群构建方法,包括双层心跳检测,所述双层心跳检测包括如下步骤:将所有集群节点按照物理位置将其划分为不同区域,将网络通信代价小且网络状况稳定的节点划分为同一区域;每个区域选出一个节点作为主控节点,其它节点均为普通节点;在各主控节点之间进行域间心跳检测,各主控节点收集其所在区域内的所有普通节点的状态信息并通过心跳包发送给其它所有域的主控节点;进行域内心跳检测,域内的所有节点组成一个逻辑心跳环,由主控节点组建域内的心跳包并沿着环依次向下转发,检测环内节点的状态,具有较低的预测误差以及较短的检测时间。

Description

基于国产化平台的高可靠集群构建方法
技术领域
本发明涉及指挥自动化技术,尤其是一种基于国产化平台的高可靠集群构建方法。
背景技术
集群就是将一组计算机通过网络连接在一起,并与相关软件相结合,对外提供透明的服务。高可靠集群系统中,系统的容错与任务分配机制至关重要。容错机制所涉及的主要技术是故障检测和故障恢复,其中故障检测是故障恢复的前提。任务分配方法往往能大大提高系统资源的利用率,而负载均衡分配方法则能够根据系统各节点的负载情况,动态地进行任务分配,能够很好地提高系统整体资源利用率。
在目前的高可靠集群系统研究中,主要存在以下三个问题:
(1)高可靠集群软件大多运行在X86平台上,在国产化自主可控计算机平台上运行的较少;
(2)随着集群系统规模的增大,心跳数据包的数量也随之增多,网络延时会变得不确定,此时若采用固定的心跳包超时阈值的方法,可能会加大误判的可能性;
(3)在任务的负载均衡分配方法中,由于没有考虑不同任务与不同节点的相关性,导致最终处理结果并不满足用户实际需求。
发明内容
发明目的:针对上述现有技术存在的缺陷,本发明旨在提供一种基于国产化平台的高可靠集群构建方法。
技术方案:一种基于国产化平台的高可靠集群构建方法,包括双层心跳检测,所述双层心跳检测包括如下步骤:将所有集群节点按照物理位置将其划分为不同区域,将网络通信代价小且网络状况稳定的节点划分为同一区域;
每个区域选出一个节点作为主控节点,其它节点均为普通节点;
在各主控节点之间进行域间心跳检测,各主控节点收集其所在区域内的所有普通节点的状态信息并通过心跳包发送给其它所有域的主控节点;
进行域内心跳检测,域内的所有节点组成一个逻辑心跳环,由主控节点组建域内的心跳包并沿着环依次向下转发,检测环内节点的状态。
进一步的,还包括负载均衡调度,所述负载均衡调度包括如下步骤:将集群系统中的节点按照处理任务类型侧重点划分为不同的资源组;在负载均衡器分配任务时,根据任务与资源组的相关度以及资源组的综合负载情况,进行资源组间调度,将任务分配给负载小、相关度高的资源组处理,再由该资源组根据组内各节点的负载情况,进行资源组内调度,将任务分配给具体的节点执行。
进一步的,所述域间心跳检测具体包括:
设置心跳包的超时时间:
其中,Xt为预测心跳包的到达间隔,{At}为心跳包的实际到达时间序列,Tθ为固定超时阈值;
若对应节点的心跳包在设置的超时时间内到达,则记录本次心跳包的实际到达时间并更新对应节点的时间表,然后根据最新的时间表预测对应节点下一个心跳包的到达时间;若对应节点的心跳包在预测的时间内未到达,则向对应节点发送健康询问包。
进一步的,所述域内心跳检测具体包括:
域内节点集合为{N1,N2,...,Nm},m为环内节点个数,将所有节点组成一个心跳环,节点Nk和Nk+1为逻辑上的邻居节点,且Nk为Nk+1的前邻居节点,Nk+1为Nk的后邻居节点;节点Nk从前邻居节点Nk-1接收HBt随之转发给后邻居节点Nk+1,同时回复给前邻居节点Nk-1一个HBr以告知自己的状态,每个节点维护一个计时器,当节点Nk将HBt转发给后邻居节点Nk+1时开始计时,若该节点在阈值时间内没有收到后邻居节点Nk+1的回复HBr,则认为后邻居节点Nk+1失效,此时该节点重置计时器并创建一个新的HBt发给后邻居节点Nk+1的后邻居节点Nk+2,若节点Nk在阈值时间内收到节点的HBr,则不再采取动作,由节点Nk+2继续转发HBt;否则认为节点Nk+2也失效,再向节点Nk+3发送HBt,循环本步骤直到收到HBr;其中HBt为令牌心跳包,HBr为响应心跳包。
进一步的,所述资源组间调度具体包括:
设(L(rk1)L(rk2)...L(rkn))表示资源组rk内各节点的综合负载,n为资源组rk内的节点个数,选取负载评价指标,计算节点rkj的综合负载评价函数L(rkj),则资源组rk的综合负载Lk为:
当用户提交任务后,首先通过优先级调度器根据任务与各资源组的相关度以及各资源组的综合负载信息,计算任务分配给各资源组的优先度,并将该任务分配给优先度最高的资源组,资源组的优先度为:
P(t,rk)=f(t,rk)/Lk
其中,f(t,rk)表示任务t与资源组rk的相关度;当某类资源组的负载超过预设的阈值时,该类资源组将不被考虑,不参与之后的分配。
进一步的,所述负载评价指标包括CPU利用率、内存利用率、网络带宽占用率及磁盘利用率,所述计算节点rkj的综合负载评价函数L(rkj)具体为:用Rcpu(rkj)、Rmem(rkj)、Rnet(rkj)、Rdisk(rkj)分别表示资源组rk内第j个节点的CPU利用率、内存利用率、网络带宽占用率及磁盘利用率,则节点rkj的综合负载评价函数为:
L(rkj)=w1Rcpu(rkj)+w2Rmem(rkj)+w3Rnet(rkj)+w4Rdisk(rkj)
其中,w1+w2+w3+w4=1。
进一步的,所述资源组内调度具体包括:
将节点资源按照其负载值划分为n个等级,每个级别间的负载差值为:
则第i级节点的负载范围为:
L(i)∈[Δl(i-1)+min{L(rkj)},Δl*i+min{L(rkj)}]
当有任务分配给资源组rk时,根据任务的负荷值将其分配给等级相匹配的节点,若对应的级别内存在多个节点资源,则将该任务分配给该级别中负载最低的节点;若对应的级别内不存在节点,则向高一级别里寻找节点资源,直到找到满足条件的节点。
进一步的,所述n=5。
进一步的,采用飞腾平台和银河麒麟操作系统。
有益效果:(1)支持在国产化自主可控计算机平台上编译运行;(2)心跳检测具有较低的预测误差以及较短的检测时间;(3)资源组间调度能够结合任务与资源的相关度以及资源的负载信息,来确定任务的分配情况。
附图说明
图1是本发明集群双层心跳检测模型;
图2是本发明主控节点心跳检测模型;
图3是本发明主控节点心跳检测流程图;
图4是本发明域内心跳环检测流程图;
图5是本发明资源组间优先级调度流程图;
图6是本发明资源组内调度流程图。
具体实施方式
下面通过一个最佳实施例并结合附图对本技术方案进行详细说明。
本专利发明通过在国产化自主可控的计算机平台上构建高可靠集群,来解决信息处理系统的高可靠性。后台服务器端通过构建信息处理、数据库以及传输服务三大集群服务,提升后台服务可靠性。
在高可靠集群的应用环境中,由于各节点所处物理区域不同,各节点间的网络通信代价差距可能较大。同一个小集群内的节点或者同一机架上的物理节点之间的网络通信代价小,而不同小集群或不同物理区域的节点之间的通信代价高且不稳定。针对此种情况,设计了一种集群双层心跳检测,该模型如图1所示。
首先将所有集群节点按照物理位置将其划分为不同区域,将网络通信代价小且网络状况稳定的节点划分为同一区域。每个区域选出一个节点作为主控节点,其它节点均为普通节点。域间的心跳检测在各主控节点之间进行,即各主控节点收集其所在区域内的所有普通节点的状态信息并通过心跳包发送给其它所有域的主控节点;域内的所有节点组成一个逻辑心跳环,由主控节点组建域内的心跳包并沿着环依次向下转发,以此来检测环内节点的状态。
域间心跳检测具体为:域间心跳检测在各主控节点间进行。各主控节点发送的心跳包包含了其所在域内所有节点的状态信息,这样各主控节点就能获取所有节点的状态信息。采用自回归与移动平均模型相结合的方法可以预测出心跳包的到达间隔Xt。设心跳包的实际到达时间序列为{At},预测到达时间序列为{Bt},且{Y1...Yt-m}记录了最近m次心跳包的实际到达时间间隔,其模型如图2所示,图中被监控节点的心跳数据包发送时间间隔为δ。
预测心跳包到达时间计算公式如(1)所示。
Bt=At-1+Xt (1)
每个主控节点都会维护一个时间表,该表记录其它所有主控节点的最近m次心跳包的实际到达时间与预测到达时间。由于预测心跳包的到达时间需要前m次记录,故前m次心跳包的超时时间采用固定超时阈值Tθ来设置。之后每收到一个心跳包就更新时间表,使得时间表中的数据总是最新的m次记录。因此,预测结果能够体现出当前的网络状态。为了减少因预测心跳包到达时间小于实际心跳包到达时间而带来的误判,使用公式(2)来设置心跳包的超时时间。
将公式(1)带入公式(2)可以得到超时时间的表达式,如式(3)所示。
若对应节点的心跳包在设置的超时时间内到达,则记录本次心跳包的实际到达时间并更新对应节点的时间表,然后根据最新的时间表预测对应节点下一个心跳包的到达时间;若对应节点的心跳包在预测的时间内未到达,此时就向对应节点发送健康询问包,以“拉”回其状态信息。域间心跳检测流程如图3所示。
域内心跳检测具体为:域内所有节点在心跳检测中的地位相同。由于区域是根据物理位置对节点进行的划分,故处于相同区域的节点间的网络相对是可靠的。因此采用消息复杂度低的心跳环机制来设计域内心跳检测。
假设域内节点集合为{N1,N2,...,Nm},m为环内节点个数。将所有节点组成一个心跳环,节点Nk和Nk+1为逻辑上的邻居节点,且Nk为Nk+1的前邻居节点,Nk+1为Nk的后邻居节点。环内每个节点都维护着整个环的拓扑结构。环内有两种心跳包:HBt和HBr,HBt为令牌心跳包,HBr为响应心跳包。节点Nk从前邻居节点Nk-1接收HBt随之转发给后邻居节点Nk+1,同时回复给前邻居节点Nk-1一个HBr以告知自己的状态。由此可知,HBt就像一个令牌一样在环内循环转发,同一时间只有一个节点持有。每个节点维护一个计时器,当节点Nk将HBt转发给后邻居节点Nk+1时开始计时,若该节点在阈值时间内没有收到后邻居节点Nk+1的回复HBr,则认为后邻居节点Nk+1失效。此时该节点重置计时器并创建一个新的HBt发给后邻居节点Nk+1的后邻居节点Nk+2。若节点Nk在阈值时间内收到节点的回复心跳包HBr,则不再采取动作,由节点Nk+2继续转发令牌心跳包HBt;否则认为节点Nk+2也失效,再向节点Nk+3发送HBt,如此类推,直到收到回复心跳包HBr。域内心跳环检测方法流程如图4所示。
高可靠集群系统中,不同的节点具有完全相同的服务,但处理任务的侧重点可能不同。据此,将集群系统中的节点按照处理任务类型侧重点不同划分为不同的资源组。在负载均衡器分配任务时,综合考虑任务与资源组的相关度以及资源组的综合负载情况,将任务分配给负载小、相关度高的资源组处理,再由该资源组根据组内各节点的负载情况,将任务分配给某个具体的节点执行,即为本申请的负载均衡调度。
资源组间调度具体为:资源组间调度中使用的负载信息主要包括两类:资源组综合负载和节点综合负载。资源组综合负载是指该资源组内各节点综合负载的一个均值,节点综合负载是指根据节点各负载评价指标的值计算一个节点的综合负载。假设(L(rk1)L(rk2)...L(rkn))表示资源组rk内各节点的综合负载,n为资源组rk内的节点个数,则资源组rk的综合负载Lk计算公式如式(4)所示:
节点的综合负载计算,需要明确各个负载指标。负载指标是资源组间调度的一个关键因素,直接影响到方法的效果。根据系统的实际应用情况,选取CPU利用率、内存利用率、网络带宽占用率及磁盘利用率作为负载评价指标。采用线性加权方法描述节点的综合负载,用Rcpu(rkj)、Rmem(rkj)、Rnet(rkj)、Rdisk(rkj)分别表示资源组rk内第j个节点的CPU利用率、内存利用率、网络带宽占用率及磁盘利用率,则节点rkj的综合负载评价函数为:
L(rkj)=w1Rcpu(rkj)+w2Rmem(rkj)+w3Rnet(rkj)+w4Rdisk(rkj) (5)
其中,w1+w2+w3+w4=1。
当用户提交任务后,首先通过优先级调度器根据任务与各资源组的相关度以及各资源组的综合负载信息,计算任务分配给各资源组的优先度,并将该任务分配给某个资源组。该步骤充分考虑任务与资源组的相关度,且当某类资源组的负载超过预设的阈值时,该类资源组将不被考虑,不参与之后的分配。资源组的优先度计算公式为:
P(t,rk)=f(t,rk)/Lk (6)
其中,f(t,rk)表示任务t与资源组rk的相关度。
资源组间优先级调度流程如图5所示。
资源组内调度具体为:任务通过优先级调度器分配到某资源组之后,则由该类资源组的负载均衡调度器将任务分配给其中一个节点。该步骤只考虑各节点的负载情况和任务的负荷值来进行调度,而不考虑任务与资源组的相关度。任务的负荷值由用户提交任务时给定,用以权衡任务运行时的复杂度。该值为1到5的整数,值越小表示负荷越低。
首先将节点资源按照其负载值划分为5个等级,每个级别间的负载差值的计算公式如式(7)所示。
则第i级节点的负载范围如式(8)所示。
L(i)∈[Δl(i-1)+min{L(rkj)},Δl*i+min{L(rkj)}] (8)
当有任务分配给资源组rk时,根据任务的负荷值将其分配给等级相匹配的节点。若对应的级别内存在多个节点资源,则将该任务分配给该级别中负载最低的节点;若对应的级别内不存在节点,则向高一级别里寻找节点资源,直到找到满足条件的节点。资源组内调度流程如图6所示。
以上仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (9)

1.一种基于国产化平台的高可靠集群构建方法,其特征在于,包括双层心跳检测,所述双层心跳检测包括如下步骤:将所有集群节点按照物理位置将其划分为不同区域,将网络通信代价小且网络状况稳定的节点划分为同一区域;
每个区域选出一个节点作为主控节点,其它节点均为普通节点;
在各主控节点之间进行域间心跳检测,各主控节点收集其所在区域内的所有普通节点的状态信息并通过心跳包发送给其它所有域的主控节点;
进行域内心跳检测,域内的所有节点组成一个逻辑心跳环,由主控节点组建域内的心跳包并沿着环依次向下转发,检测环内节点的状态。
2.根据权利要求1所述的基于国产化平台的高可靠集群构建方法,其特征在于,还包括负载均衡调度,所述负载均衡调度包括如下步骤:将集群系统中的节点按照处理任务类型侧重点划分为不同的资源组;在负载均衡器分配任务时,根据任务与资源组的相关度以及资源组的综合负载情况,进行资源组间调度,将任务分配给负载小、相关度高的资源组处理,再由该资源组根据组内各节点的负载情况,进行资源组内调度,将任务分配给具体的节点执行。
3.根据权利要求1所述的基于国产化平台的高可靠集群构建方法,其特征在于,所述域间心跳检测具体包括:
设置心跳包的超时时间:
<mrow> <msub> <mi>T</mi> <mrow> <mi>t</mi> <mi>i</mi> <mi>m</mi> <mi>e</mi> <mi>o</mi> <mi>u</mi> <mi>t</mi> </mrow> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>T</mi> <mi>&amp;theta;</mi> </msub> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>t</mi> <mo>&amp;le;</mo> <mi>m</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>A</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>+</mo> <msub> <mi>X</mi> <mi>t</mi> </msub> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>t</mi> <mo>&gt;</mo> <mi>m</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>
其中,Xt为预测心跳包的到达间隔,{At}为心跳包的实际到达时间序列,Tθ为固定超时阈值;
若对应节点的心跳包在设置的超时时间内到达,则记录本次心跳包的实际到达时间并更新对应节点的时间表,然后根据最新的时间表预测对应节点下一个心跳包的到达时间;若对应节点的心跳包在预测的时间内未到达,则向对应节点发送健康询问包。
4.根据权利要求1所述的基于国产化平台的高可靠集群构建方法,其特征在于,所述域内心跳检测具体包括:
域内节点集合为{N1,N2,...,Nm},m为环内节点个数,将所有节点组成一个心跳环,节点Nk和Nk+1为逻辑上的邻居节点,且Nk为Nk+1的前邻居节点,Nk+1为Nk的后邻居节点;节点Nk从前邻居节点Nk-1接收HBt随之转发给后邻居节点Nk+1,同时回复给前邻居节点Nk-1一个HBr以告知自己的状态,每个节点维护一个计时器,当节点Nk将HBt转发给后邻居节点Nk+1时开始计时,若该节点在阈值时间内没有收到后邻居节点Nk+1的回复HBr,则认为后邻居节点Nk+1失效,此时该节点重置计时器并创建一个新的HBt发给后邻居节点Nk+1的后邻居节点Nk+2,若节点Nk在阈值时间内收到节点的HBr,则不再采取动作,由节点Nk+2继续转发HBt;否则认为节点Nk+2也失效,再向节点Nk+3发送HBt,循环本步骤直到收到HBr;其中HBt为令牌心跳包,HBr为响应心跳包。
5.根据权利要求2所述的基于国产化平台的高可靠集群构建方法,其特征在于,所述资源组间调度具体包括:
设(L(rk1)L(rk2)...L(rkn))表示资源组rk内各节点的综合负载,n为资源组rk内的节点个数,选取负载评价指标,计算节点rkj的综合负载评价函数L(rkj),则资源组rk的综合负载Lk为:
<mrow> <msub> <mi>L</mi> <mi>k</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mi>L</mi> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow>
当用户提交任务后,首先通过优先级调度器根据任务与各资源组的相关度以及各资源组的综合负载信息,计算任务分配给各资源组的优先度,并将该任务分配给优先度最高的资源组,资源组的优先度为:
P(t,rk)=f(t,rk)/Lk
其中,f(t,rk)表示任务t与资源组rk的相关度;当某类资源组的负载超过预设的阈值时,该类资源组将不被考虑,不参与之后的分配。
6.根据权利要求5所述的基于国产化平台的高可靠集群构建方法,其特征在于,所述负载评价指标包括CPU利用率、内存利用率、网络带宽占用率及磁盘利用率,所述计算节点rkj的综合负载评价函数L(rkj)具体为:用Rcpu(rkj)、Rmem(rkj)、Rnet(rkj)、Rdisk(rkj)分别表示资源组rk内第j个节点的CPU利用率、内存利用率、网络带宽占用率及磁盘利用率,则节点rkj的综合负载评价函数为:
L(rkj)=w1Rcpu(rkj)+w2Rmem(rkj)+w3Rnet(rkj)+w4Rdisk(rkj)
其中,w1+w2+w3+w4=1。
7.根据权利要求2所述的基于国产化平台的高可靠集群构建方法,其特征在于,所述资源组内调度具体包括:
将节点资源按照其负载值划分为n个等级,每个级别间的负载差值为:
<mrow> <mi>&amp;Delta;</mi> <mi>l</mi> <mo>=</mo> <mfrac> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mo>{</mo> <mi>L</mi> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>}</mo> <mo>-</mo> <mi>min</mi> <mo>{</mo> <mi>L</mi> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>}</mo> </mrow> <mi>n</mi> </mfrac> </mrow>
则第i级节点的负载范围为:
L(i)∈[Δl(i-1)+min{L(rkj)},Δl*i+min{L(rkj)}]
当有任务分配给资源组rk时,根据任务的负荷值将其分配给等级相匹配的节点,若对应的级别内存在多个节点资源,则将该任务分配给该级别中负载最低的节点;若对应的级别内不存在节点,则向高一级别里寻找节点资源,直到找到满足条件的节点。
8.根据权利要求7所述的基于国产化平台的高可靠集群构建方法,其特征在于,所述n=5。
9.根据权利要求1所述的基于国产化平台的高可靠集群构建方法,其特征在于,采用飞腾平台和银河麒麟操作系统。
CN201711308590.4A 2017-12-11 2017-12-11 基于国产化平台的高可靠集群构建方法 Active CN108055321B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711308590.4A CN108055321B (zh) 2017-12-11 2017-12-11 基于国产化平台的高可靠集群构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711308590.4A CN108055321B (zh) 2017-12-11 2017-12-11 基于国产化平台的高可靠集群构建方法

Publications (2)

Publication Number Publication Date
CN108055321A true CN108055321A (zh) 2018-05-18
CN108055321B CN108055321B (zh) 2021-06-11

Family

ID=62123617

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711308590.4A Active CN108055321B (zh) 2017-12-11 2017-12-11 基于国产化平台的高可靠集群构建方法

Country Status (1)

Country Link
CN (1) CN108055321B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114500340A (zh) * 2021-12-23 2022-05-13 天翼云科技有限公司 一种智能调度分布式路径计算方法及系统
WO2022170791A1 (zh) * 2021-02-09 2022-08-18 珠海格力电器股份有限公司 一种状态上报方法、装置、设备和计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1512729A (zh) * 2002-12-31 2004-07-14 联想(北京)有限公司 网络设备自适应负载均衡的方法
CN1585399A (zh) * 2004-05-25 2005-02-23 华中科技大学 一种集群服务器的负载均衡方法
CN101072133A (zh) * 2007-05-23 2007-11-14 华中科技大学 一种基于对等网络的高性能计算系统
CN102355413A (zh) * 2011-08-26 2012-02-15 北京邮电大学 一种大规模实时统一消息空间的方法及其系统
CN105516343A (zh) * 2015-12-31 2016-04-20 中国电子科技集团公司第五十四研究所 一种网络动态自组织的文件共享系统及实现方法
US9632828B1 (en) * 2012-09-24 2017-04-25 Amazon Technologies, Inc. Computing and tracking client staleness using transaction responses
CN107145384A (zh) * 2017-04-17 2017-09-08 广州孩教圈信息科技股份有限公司 任务分配方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1512729A (zh) * 2002-12-31 2004-07-14 联想(北京)有限公司 网络设备自适应负载均衡的方法
CN1585399A (zh) * 2004-05-25 2005-02-23 华中科技大学 一种集群服务器的负载均衡方法
CN101072133A (zh) * 2007-05-23 2007-11-14 华中科技大学 一种基于对等网络的高性能计算系统
CN102355413A (zh) * 2011-08-26 2012-02-15 北京邮电大学 一种大规模实时统一消息空间的方法及其系统
US9632828B1 (en) * 2012-09-24 2017-04-25 Amazon Technologies, Inc. Computing and tracking client staleness using transaction responses
CN105516343A (zh) * 2015-12-31 2016-04-20 中国电子科技集团公司第五十四研究所 一种网络动态自组织的文件共享系统及实现方法
CN107145384A (zh) * 2017-04-17 2017-09-08 广州孩教圈信息科技股份有限公司 任务分配方法和系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022170791A1 (zh) * 2021-02-09 2022-08-18 珠海格力电器股份有限公司 一种状态上报方法、装置、设备和计算机可读存储介质
CN114500340A (zh) * 2021-12-23 2022-05-13 天翼云科技有限公司 一种智能调度分布式路径计算方法及系统
CN114500340B (zh) * 2021-12-23 2023-08-04 天翼云科技有限公司 一种智能调度分布式路径计算方法及系统

Also Published As

Publication number Publication date
CN108055321B (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
US10924535B2 (en) Resource load balancing control method and cluster scheduler
JP5729466B2 (ja) 仮想マシン管理装置、仮想マシン管理方法、及び、プログラム
CN103729248B (zh) 一种基于缓存感知的确定待迁移任务的方法和装置
Moschakis et al. A meta-heuristic optimization approach to the scheduling of bag-of-tasks applications on heterogeneous clouds with multi-level arrivals and critical jobs
Peixoto et al. Hierarchical scheduling mechanisms in multi-level fog computing
CN108965014A (zh) QoS感知的服务链备份方法及系统
CN109949160A (zh) 一种区块链的分片方法及装置
CN103457752A (zh) 一种虚拟网络映射方法
CN107426003A (zh) 一种故障检测方法及装置
CN108683692A (zh) 一种业务请求处理方法及装置
CN103490938A (zh) 一种基于分层的云服务组合失效的恢复系统和方法
Saxena et al. A high availability management model based on VM significance ranking and resource estimation for cloud applications
CN109728981A (zh) 一种云平台故障监测方法及装置
CN101753359B (zh) 动态组件分布的方法和系统
CN106959895A (zh) 快速释放线程的资源调度方法和系统
CN106020977A (zh) 用于监控系统的分布式任务调度方法及装置
CN110322161A (zh) 航班生效批次的生效调整方法及装置
CN108055321A (zh) 基于国产化平台的高可靠集群构建方法
CN105635285B (zh) 一种基于状态感知的vm迁移调度方法
Tang et al. A survey on scheduling techniques in computing and network convergence
WO2021115082A1 (zh) 作业调度方法以及作业调度装置
CN110958192B (zh) 一种基于虚拟交换机的虚拟数据中心资源分配系统及方法
JP7367627B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN113190342A (zh) 用于云-边协同网络的多应用细粒度卸载的方法与系统架构
CN105138391B (zh) 面向广域分布云系统公平的多任务虚拟机分配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant