CN116893900A - 集群计算压力负载均衡方法、系统、设备及ic设计平台 - Google Patents
集群计算压力负载均衡方法、系统、设备及ic设计平台 Download PDFInfo
- Publication number
- CN116893900A CN116893900A CN202310893240.8A CN202310893240A CN116893900A CN 116893900 A CN116893900 A CN 116893900A CN 202310893240 A CN202310893240 A CN 202310893240A CN 116893900 A CN116893900 A CN 116893900A
- Authority
- CN
- China
- Prior art keywords
- storage server
- load
- shunted
- load balancing
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000013461 design Methods 0.000 title claims abstract description 26
- 238000012216 screening Methods 0.000 claims abstract description 28
- 238000012544 monitoring process Methods 0.000 claims description 17
- 238000012546 transfer Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 9
- 230000001174 ascending effect Effects 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 abstract description 3
- 238000012545 processing Methods 0.000 description 15
- 238000009825 accumulation Methods 0.000 description 8
- 230000007704 transition Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 238000007726 management method Methods 0.000 description 3
- 238000013468 resource allocation Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 241001522296 Erithacus rubecula Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5083—Techniques for rebalancing the load in a distributed system
- G06F9/5088—Techniques for rebalancing the load in a distributed system involving task migration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
- G06F9/505—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5072—Grid computing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/50—Indexing scheme relating to G06F9/50
- G06F2209/505—Clust
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/50—Indexing scheme relating to G06F9/50
- G06F2209/508—Monitor
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Multi Processors (AREA)
Abstract
本发明提供了一种集群计算压力负载均衡方法、系统、设备及IC设计平台,所述方法包括:按照预设周期获取各个存储服务器的压力状态数据;根据各个存储服务器的压力状态数据,计算得到综合负载;根据各个存储服务器的压力状态数据和综合负载,得到待分流存储服务器,并判断是否满足预设本地负载均衡条件,以及在判定满足预设本地负载均衡条件时,得到接收分流存储服务器;从待分流存储服务器上筛选得到待分流客户端,并将待分流客户端转移至所述接收分流存储服务器。本发明不仅能自动监控分析集群中存储服务器的压力状态,减少人工调优成本,而且能对集群资源进行高效可靠的自动化负载均衡,提高存储资源利用率,还能通过云端冗余提高集群可靠性。
Description
技术领域
本发明涉集群负载均衡技术领域,特别是涉及一种集群计算压力负载均衡方法、系统、计算机设备及IC设计平台。
背景技术
IC设计平台是IC芯片设计研发过程中必不可少的计算存储服务器集群,其应用性能的优劣直接会影响IC芯片设计研发的进度和成果。随着IC(Integrated Circuit Chip)设计规模的不断扩大,IC设计平台集群面临的性能压力也越来越大:(1)芯片设计中需要进行大量的仿真、验证和布局布线等计算任务,均需要大量的计算资源来完成,设计规模的扩大,必然带来计算任务规模的增加,势必给集群带来巨大的计算压力;(2)芯片设计过程中需要处理的数据非常多,且这些数据需要在不同节点之间频繁地传输和共享,若集群中某个节点的网络带宽或者存储容量有限,就会导致整个集群的性能下降;(3)集群中存在不同类型的计算节点,各个节点的处理能力和存储容量不尽相同,资源分配难度较高,若资源分配不合理,就会导致负载不均衡,进而拉低整个集群的服务性能。
因此,亟需提供一种高效且可靠的自动化集群计算压力负载均衡方法,以有效提升IC设计平台的集群服务性能。
发明内容
本发明的目的是提供一种集群计算压力负载均衡方法,通过定期自动监控分析各个存储服务器的压力状态计算综合负载,并基于综合负载,对集群存储进行本地结合云端冗余的负载均衡,解决现有IC设计平台前后端对于存储使用负载不均的应用缺陷,自动监控分析集群中存储服务器的压力状态,减少人工调优成本的同时,对集群资源进行高效可靠的自动化负载均衡,提高存储资源利用率,并通过云端冗余提高集群可靠性,进而为IC设计平台的集群服务性能提供可靠保障。
为了实现上述目的,有必要针对上述技术问题,提供一种集群计算压力负载均衡方法、系统、计算机设备及IC设计平台。
第一方面,本发明实施例提供了一种集群计算压力负载均衡方法,所述方法包括以下步骤:
按照预设周期获取各个存储服务器的压力状态数据;
根据各个存储服务器的压力状态数据,计算得到对应的综合负载;
根据各个存储服务器的压力状态数据和综合负载,得到待分流存储服务器,并判断是否满足预设本地负载均衡条件,以及在判定满足所述预设本地负载均衡条件时,得到接收分流存储服务器;
从所述待分流存储服务器上筛选得到待分流客户端,并将所述待分流客户端转移至所述接收分流存储服务器。
进一步地,所述压力状态数据包括磁盘利用率、I/O延迟时间、网络带宽利用率、CPU使用率和内存使用率。
进一步地,所述按照预设周期获取各个存储服务器的压力状态数据的步骤包括:
根据所述预设周期,启动定时任务执行预设自动化程序,远程登录各个存储服务器,并采集对应的压力状态数据;所述预设自动化程序包括远程登录存储服务器指令和采集各个压力状态数据的自动化指令。
进一步地,所述根据各个存储服务器的压力状态数据,计算得到对应的综合负载的步骤包括:
将各个压力状态数据进行归一化处理,得到归一化负载指标;
将各个所述归一化负载指标按照对应的预设权重进行加权求和,得到所述综合负载。
进一步地,所述根据各个存储服务器的压力状态数据和综合负载,得到待分流存储服务器,并判断是否满足预设本地负载均衡条件的步骤包括:
将各个存储服务器的综合负载按照升序排列,得到最高综合负载和最低综合负载;
当所述最高综合负载对应的存储服务器的压力状态数据满足预设分流监测条件时,将所述最高综合负载对应的存储服务器作为所述待分流存储服务器;
根据各个存储服务器的压力状态数据和预设分流监测条件,判断是否存在无需分流的存储服务器,若不存在,则判定不满足预设本地负载均衡条件,反之,则根据所述最高综合负载和所述最低综合负载,进一步判断是否满足预设本地负载均衡条件。
进一步地,所述根据所述最高综合负载和所述最低综合负载,进一步判断是否满足预设本地负载均衡条件的步骤包括:
将所述最高综合负载和所述最低综合负载作和,得到转移累积负载;
判断所述转移累积负载是否小于预设转移累积阈值,若是,则判定满足预设本地负载均衡条件,反之,则判定不满足预设本地负载均衡条件。
进一步地,所述在判定满足所述预设本地负载均衡条件时,得到接收分流存储服务器的步骤包括:
将所述最低综合负载对应的存储服务器作为所述接收分流存储服务器。
进一步地,所述从所述待分流存储服务器上筛选得到待分流客户端的步骤包括:
获取与所述待分流存储服务器连接的各个客户端的计算流量;
将各个客户端按照对应的计算流量按照预设规则进行分组或排序,并筛选得到所述待分流客户端。
进一步地,所述方法,还包括:
当判定不满足所述预设本地负载均衡条件时,将从所述待分流存储服务器上筛选得到的待分流客户端转移至预先部署的云端应急计算集群。
第二方面,本发明实施例提供了一种集群计算压力负载均衡系统,所述系统包括:
状态监测模块,用于按照预设周期获取各个存储服务器的压力状态数据;
负载计算模块,用于根据各个存储服务器的压力状态数据,计算得到对应的综合负载;
本地均衡判断模块,用于根据各个存储服务器的压力状态数据和综合负载,得到待分流存储服务器,并判断是否满足预设本地负载均衡条件,以及在判定满足所述预设本地负载均衡条件时,得到接收分流存储服务器;
流量均衡模块,用于从所述待分流存储服务器上筛选得到待分流客户端,并将所述待分流客户端转移至所述接收分流存储服务器。
进一步地,所述系统,还包括:
应急均衡模块,用于当判定不满足所述预设本地负载均衡条件时,将从所述待分流存储服务器上筛选得到的待分流客户端转移至预先部署的云端应急计算集群。
第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
第四方面,本发明实施例还提供一种IC设计平台,包括若干个集群部署的存储服务器,所述存储服务器之间的计算压力负载均衡采用上述方法的步骤。
上述本申请提供了一种集群计算压力负载均衡方法、系统、设备及IC设计平台,通过所述方法,实现了根据按照预设周期获取的各个存储服务器的压力状态数据,计算得到对应的综合负载后,根据各个存储服务器的压力状态数据和综合负载,得到待分流存储服务器,并判断是否满足预设本地负载均衡条件,以及在判定满足预设本地负载均衡条件时,得到接收分流存储服务器,并将从待分流存储服务器上筛选得到的待分流客户端转移至接收分流存储服务器的技术方案。与现有技术相比,该集群计算压力负载均衡方法,能自动监控分析集群中存储服务器的压力状态,减少人工调优成本,而且能对集群资源进行高效可靠的自动化负载均衡,提高存储资源利用率,还能通过云端冗余提高集群可靠性。
附图说明
图1是本发明实施例中集群计算压力负载均衡的框架示意图;
图2是本发明实施例中集群计算压力负载均衡方法的流程示意图;
图3是图2中步骤S13中确定待分流存储服务器和判断是否满足本地负载均衡条件的流程示意图;
图4是本发明实施例中集群计算压力负载均衡方法的另一流程示意图;
图5是本发明实施例中集群计算压力负载均衡系统的结构示意图;
图6是本发明实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案和有益效果更加清楚明白,下面结合附图及实施例,对本发明作进一步详细说明,显然,以下所描述的实施例是本发明实施例的一部分,仅用于说明本发明,但不用来限制本发明的范围。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的集群计算压力负载均衡方法是针对现有IC设计平台应用中所面临的性能压力,以及前后端对于存储资源使用负载不均,进而导致降低整个集群的服务性能的情况而优选设计的基于图1所示的框架流程对集群中各个存储服务器节点进行合理资源分配的计算压力负载均衡方法,通过定期自动监控分析集群中每个存储服务器的压力状态数据,对每个存储服务器基于获取的压力状态数据进行综合负载分析确定待分流存储服务器,并基于集群内所有存储服务器的综合负载,根据预设的本地负载均衡条件,进一步判断集群内部是否存在能够接收待流存储服务器的转移流量的低负载存储服务器,以及在判定满足本地负载均衡条件时,执行自动化配置本地负载均衡的流程,在判定不满足时,启动云端应急计算集群均衡本地负载,实现对集群资源进行高效且可靠的本地结合云端冗余的自动化负载均衡后,还通过邮件及时通知管理员的方案,有效减少人工调优成本的同时,提高存储资源利用率和集群可靠性,为IC设计平台的集群服务性能提供可靠保障。下述实施例将对本发明的集群计算压力负载均衡方法进行详细说明。
在一个实施例中,如图2所示,提供了一种集群计算压力负载均衡方法,包括以下步骤:
S11、按照预设周期获取各个存储服务器的压力状态数据;其中,预设周期可理解为是周期性采集各个存储服务器的压力状态数据,以周期性对集群资源分配和负载均衡处理的时间频次,根据实际需求设置,比如,10分钟一次等;对应采集的压力状态数据,可理解为是能够体现各个存储服务器的资源占用情况的运行数据,原则上可根据实际情况选取,为了保证简单高效的对各个存储服务器的压力状态进行精准分析,本实施例优选地选取最具有代表性几种指标数据进行监控分析,包括磁盘利用率、I/O延迟时间、网络带宽利用率、CPU使用率和内存使用率;
在实际应用中,压力状态数据可以采用编写循环函数执行、动态触发执行、定时触发式执行等任一方式获取,但为了便于低成本、灵活且高效地采集压力状态数据,以及减少人工调优成本,本实施例优选地采用执行定时任务的方式周期性获取集群中各个存储服务器的压力状态数据;具体的,所述按照预设周期获取各个存储服务器的压力状态数据的步骤包括:
根据所述预设周期,启动定时任务执行预设自动化程序,远程登录各个存储服务器,并采集对应的压力状态数据;所述预设自动化程序可理解为是集成了远程登录存储服务器指令以及登录后获取各个压力状态数据的自动化指令的脚本程序,包括远程登录存储服务器指令和采集各个压力状态数据的自动化指令;其中,远程登录存储服务器指令可以是通过SSH(Secure Shell)执行远程登录的指令,或通过RSH(Remote Shell)执行远程登录的指令;采集各个压力状态数据的自动化指令可理解为是分布式通用并行集群文件系统命令,分别为:通过mmlsdisk指令获取磁盘利用率;通过mmlsqos指令获取I/O延迟时间;通过nload、bmon、bwm-ng、cbm、speedometer或netload等指令获取网络带宽利用率;通过mpstat指令获取CPU使用率;通过free-m指令获取内存使用率;
S12、根据各个存储服务器的压力状态数据,计算得到对应的综合负载;其中,综合负载计算的是每个存储服务器的负载量,即,某个存储服务器的综合负载可理解为是对该存储服务器的各个压力状态数据进行综合分析得到的,可用于评估该存储服务器负载情况的指标;
具体的,所述根据各个存储服务器的压力状态数据,计算得到对应的综合负载的步骤包括:
将各个压力状态数据进行归一化处理,得到归一化负载指标;
将各个所述归一化负载指标按照对应的预设权重进行加权求和,得到所述综合负载;
在实际应用中,上述综合负载的具体计算方法可理解为:先将各个存储服务器节点的压力状态数据(负载指标)进行归一化处理,使得不同压力状态数据之间的权重相等(无量纲差异性);然后,对各个存储服务器节点对应的归一化负载指标进行加权求和,得到集群的综合负载;其中,各个归一化负载指标的预设权重可以根据实际需求选取设置,此处不作具体限制,如,可以根据存储服务器节点的处理能力设置CPU使用率的权重较高,也可以根据存储服务器节点的存储能力设置磁盘使用率的权重较高;根据最终计算得到的综合负载值,可以初步判断集群中各个存储服务器的负载情况,例如,如果综合负载值接近1,则表示该存储服务器节点的负载较重;如果综合负载值接近0,则表示该存储服务器节点的负载较轻。
本实施例考虑到上述各个压力状态数据具有不同的量纲,直接用于分析构建综合负载指标,势必会导致综合负载计算结果失准,直接影响后续基于综合负载进行负载均衡的可靠性和合理性的问题,优选地在使用压力状态数据构建综合负载指标之前,先对各个压力状态数据进行归一化处理以消除不同量纲的影响;同时,考虑到不同的压力状态数据代表存储服务器不同资源的负载情况,对整个服务器负载的代表性不同,若直接累加计算综合负载就难以体现不同压力状态数据指标的影响差异性,进而降低综合负载的可靠性和实用性的问题,优选地在对各个压力状态数据进行融合的基础上,通过引入不同权重的方式体现各个压力状态数据指标对负载影响的差异性,为了得到合理可靠的综合负载,以及后续基于综合负载进行高效且精准的资源分配与负载均衡提供了有效保障。
S13、根据各个存储服务器的压力状态数据和综合负载,得到待分流存储服务器,并判断是否满足预设本地负载均衡条件,以及在判定满足所述预设本地负载均衡条件时,得到接收分流存储服务器;其中,待分流存储服务器可理解为是根据某个周期获取的集群内所有存储服务器的压力状态数据和综合负载确定的当前亟需进行分流处理的存储服务器;接收分流存储服务器可理解为是在当前集群满足本地负载均衡条件后,确定的能够接收需要从待分流存储服务器上转移的客户端流量的另一存储服务器;对应的,本地负载均衡条件可理解为是,当前集群内各个压力状态数据均未到达对应指标阈值的存储服务器,且将待分流存储服务器上的客户端流量转移至接收分流存储服务器不会导致接收分流存储服务器负载超标;
原则上,在确定待分流存储服务器后就可以直接按照既定的某种分流原则将该待分流存储服务器上的客户端流量进行转移,但考虑到直接将当前集群中高负载的客户端流量接入当前集群中低负载的存储服务器,极易出现接收分流的存储服务器因接入转移的客户端流量而超负载,需要在下一均衡周期对其进行分流的无效分流循环情况,本实施例优选地,在对待分流存储服务器进行客户端分流前,先根据当前周期得到的集群内所有存储服务器的负载状态对分流后的情况进行预判,以确定是否能够在本地选择合适的接收分流存储服务器实现有效的均衡处理(是否满足预设本地负载均衡条件),避免陷入无效均衡循环处理,造成不必要的资源浪费和性能开销;具体的,如图3所示,所述根据各个存储服务器的压力状态数据和综合负载,得到待分流存储服务器,并判断是否满足预设本地负载均衡条件的步骤包括:
S131、将各个存储服务器的综合负载按照升序排列,得到最高综合负载和最低综合负载;
S132、当所述最高综合负载对应的存储服务器的压力状态数据满足预设分流监测条件时,将所述最高综合负载对应的存储服务器作为所述待分流存储服务器;
其中,预设分流监测条件可理解为存在任一压力状态数据达到对应的指标阈值,其仅为待分流存储服务器确定的初步条件,并不是唯一条件;需要说明的是,各个压力状态数据都有对应的指标阈值,其各个指令阈值均可根据实际集群应用需求进行选取确定,比如,可以通过配置模板自定义各个指令阈值的数值分别为:磁盘利用率的指标阈值为70%;磁盘读写速率的指标阈值为速率峰值;I/O延迟时间的指标阈值为预设延迟;网络带宽利用率的指标阈值为70%;即,对于每个存储服务器而言,上述任一压力状态数据达到对应的指标阈值,就认为该存储服务器需要准备分流;当然在实际应用中,基于上述预设分流监测条件可确定需要分流的存储服务器不止一个,原则上实现集群内部所有存储服务器的负载均衡是最优选择,但考虑到若同时将所有达到预测分流监测条件的存储服务器作为待分流存储服务器进行分流处理,不仅会增加均衡负载的复杂性,降低处理效率,而且基于各个存储服务器的流量是实时动态变化的,若仅基于历史时刻的数据对整个集群负载均衡进行处理,必然会存在很多无效的均衡处理,进而降低集群服务的可靠性的情况,本实施例优选的按期定时对集群内最高负载的存储服务器进行分流,既可保证不会因单个存储服务器的负载异常而拉低整个集群的服务性能,又可避免同时对多个存储服务器进行分流的应用风险和成本开销;
S133、根据各个存储服务器的压力状态数据和预设分流监测条件,判断是否存在无需分流的存储服务器,若不存在,则判定不满足预设本地负载均衡条件,反之,则根据所述最高综合负载和所述最低综合负载,进一步判断是否满足预设本地负载均衡条件;
其中,判断是否存在无需分流的存储服务器可理解为采用上述确定待分流存储服务器的方式,检查当前集群内是否存在可接收转移流量的候选存储服务器,若待分流存储服务器之外的其他存储服务器均需要分流,那么在本地集群内是不可能实现负载均衡处理的,即使将待分流存储服务器上的少量流量转移至其他的任一存储服务器均可存在导致其运行异常的风险发生,为避免无效的均衡处理,本实施例针对此种情况就直接判断为无需进行本地负载均衡操作。
考虑到某种应用场景下,即使存在当前无需分流处理的存储服务器,但不可排除该存储服务器也可能即将到达负载超限的边缘,或需要接收待分流存储服务器转移的流量过大,接收后会直接达到负载上限等无效均衡处理的风险,为了进一步保证动态负载均衡的有效性,本实施例优选地,根据当前周期内各个存储服务器的综合负载的最高值和最低值,再次评估转移后接收服务器是否存在超限风险;具体的,所述根据所述最高综合负载和所述最低综合负载,进一步判断是否满足预设本地负载均衡条件的步骤包括:
将所述最高综合负载和所述最低综合负载作和,得到转移累积负载;其中,转移累加负载可理解为是将最高综合负载对应存储服务器上的流量全部转移至最低综合负载对应存储服务器上时,最低综合负载对应存储服务器可能承载的最大负载量;
判断所述转移累积负载是否小于预设转移累积阈值,若是,则判定满足预设本地负载均衡条件,反之,则判定不满足预设本地负载均衡条件;其中,预设转移累积阈值可根据实际应用需求选取设置,比如,将预设转移累积阈值设为0.7等,此处不作具体限定;
为了便于对本实施中根据最高综合负载和最低综合负载,判断是否满足预设本地负载均衡条件过程的理解,下面以某个均衡周期为例进行详细说明:
假设目前集群中有A、B、C和D四个存储服务器,某个均衡周期通过对四个存储服务器对应的综合负载进行升序排列,得到由高到低的排序为B、D、C、A;经过判断分析将B确定为需要进行负载均衡的待分流存储服务器(最高综合负载),若最高综合负载(B的综合负载)与最低综合负载(A的综合负载)之和(转移累积负载)小于预设转移累积阈值时,认为满足本地负载均衡条件(B负载+A负载<预设转移累积阈值),则开始本地负载均衡处理;若最高综合负载(B的综合负载)与最低综合负载(A的综合负载)之和(转移累积负载)大于或等于预设转移累积阈值时,认为不满足本地负载均衡条件,则不执行本地负载均衡处理;需要说明的是,上述存储服务器的综合负载排序仅为示例性说明,由于每个存储服务器接入的流量是实时变化的,每个预设周期(均衡周期)采集的各个存储服务器的压力状态数据也是动态变化的,得到的基于负载排序结果也不确定,需要根据当前周期的综合负载排序结果进行对当前集群是否满足本地负载均衡条件重新进行判断,具体每个预设周期进行的方法均可参考上述步骤实现。
通过上述步骤确定当前均衡周期可以执行本地负载均衡处理后,就可以通过相应的筛选原则确定与待分流存储服务器对应的接收分流存储服务器;为了保证动态负载均衡的简单高效和可靠合理,本实施例优选地,直接将用于评估是否满足预设本地负载均衡条件中的最低综合负载对应的存储服务器作为接收分流存储服务器;具体的,所述在判定满足所述预设本地负载均衡条件时,得到接收分流存储服务器的步骤包括:
将所述最低综合负载对应的存储服务器作为所述接收分流存储服务器。
本实施例通过优选的待分流存储服务器确定方法、本地负载均衡条件评估方法以及接收分流存储服务器确定方法,可有效保证待分流存储服务器和接收分流存储服务器选取的合理性的同时,还能保证证负载均衡处理的简单高效与可靠合理,有效避免无效均衡处理所造成的资源浪费和性能开销,进而为集群的正常高效运行提供可靠保障。
S14、从所述待分流存储服务器上筛选得到待分流客户端,并将所述待分流客户端转移至所述接收分流存储服务器;其中,待分流客户端可理解为是按照预设分流原则从待分流存储服务器上选取的流量转移客户端;原则上可以直接将待分流存储服务器上全部客户端分流,或随机筛选部分客户端分流,或按照客户端编号轮循分流等,为了保证待分流客户端选取的合理性,以及实际分流的有效性,本实施例优选地,将待分流存储服务器上的所有客户端的接入流量排序进行有序分流;具体的,所述从所述待分流存储服务器上筛选得到待分流客户端的步骤包括:
获取与所述待分流存储服务器连接的各个客户端的计算流量;其中,各个客户端的计算流量获取过程如下:通过集群管理工具获取待分流存储服务器上接入的各个客户端的IP信息,比如,通过clustershell工具的命令:clush-g xxx‘ipa’获取,xxx可理解为待分流存储服务器的名称;再根据iftop-i<interface>得到各个客户端IP对应的网络接口实时流量信息;
将各个客户端按照对应的计算流量按照预设规则进行分组或排序,并筛选得到所述待分流客户端;其中,预设分组可理解为按照流量范围将待分流存储服务器上的所有客户端进行分组,比如按获取的计算流量值分为高、中、低三组等,在根据分组筛选待分流客户端时,可以直接从高流量组选取一定数目的客户端,也可以按照高、中、低三组同等数目/不同比例选取一定数目的客户端等;同时,排序筛选可理解为直接将各个客户端按计算流量排序,按一定比例选取流量较高客户端,或按一定比例选取流量较低客户端的客户端等;需要说明的是,上述基于分组或排序筛选得到待分流客户端的方法仅为示例性描述,具体应用中可根据实际情况设置筛选方式。
通过上述方式确定待分流存储服务器上的待分流客户端后,就可以通过自动化程序(比如,SSH/RSH等)远程登录至需要平衡流量的客户端(待分流客户端)IP,自动配置客户端挂载至接收分流存储服务器,以分流待分流存储服务器的IO,进而减轻待分流存储服务器的计算压力,并在完成负载均衡后再以执行自动化程序的方式通过邮件形式通知相应的客户端管理员;
本实施例通过定期自动监控分析各个存储服务器的压力状态计算综合负载,基于综合负载确定合理的待分流存储服务器以及接收分流存储服务器,再结合对待分流存储服务器上客户端流量的监控分析筛选有效的待分流客户端进行流量转移的方式,实现对本地集群内存储服务器间资源的动态负载均衡,不仅能减少集群维护的人工调优成本,而且能实现对集群资源进行简单高效且可靠合理的自动化负载均衡,提高存储资源利用率,进而有效降低集群运行的性能压力,为集群的持续可靠性服务提供有力的技术支持。
此外,考虑到实际IC设计平台在面临大规模芯片研发设计任务时,可能会存在本地集群中存在负载较高需要分流的存储服务器,但本地集群内部不能实现动态负载均衡(即不满足预设本地负载均衡条件)的应用场景中,为了满足IC设计平台集群服务的更多应用场景(如,本地集群负载全部达到极限),本实施例优选地,设计了部署云端应急计算集群与本地集群联动配合,实现存储服务器间的动态负载均衡,以进一步提高IC设计平台集群服务的可靠性;具体的,如图4所示,所述方法,还包括:
S15、当判定不满足所述预设本地负载均衡条件时,将从所述待分流存储服务器上筛选得到的待分流客户端转移至预先部署的云端应急计算集群;其中,将分流客户端转移至云端应用计算集群的具体方法与前述客户端流量转移至本地存储服务器的实现方式类似,在本地集群存储不满足负载均衡的条件时,通过外部自动化脚本先调用clustershell集群管理工具获取待分流客户端IP,再执行自动化程序通过SSH/RSH等远程登录至需要待分流客户端IP,配置客户端挂载至云端服务器,以分流负载较高的存储IO,以此减轻本地集群存储的压力,并在完成云端客户转移后自动化程序会通过邮件通知相应的客户端管理员;需要说明的是,云端仿真和云端编译使得多个用户可以共享云端服务器上的计算资源,避免了多个本地计算机同时处理大量计算任务的情况,将计算任务分配到云端服务器上,可以避免本地计算机的资源占用过多,从而减轻本地资源压力,提升IC设计平台集群的服务性能。
本申请实施例根据按照预设周期获取的各个存储服务器的压力状态数据,计算得到对应的综合负载后,根据各个存储服务器的压力状态数据和综合负载得到待分流存储服务器,并在判定满足预设本地负载均衡条件时确定本地的接收分流存储服务器,将从待分流存储服务器上筛选得到的待分流客户端转移至接收分流存储服务器,以及在判定不满足预设本地负载均衡条件时,将从待分流存储服务器上筛选得到的待分流客户端转移至云端应急计算集群进行仿真、云端编译的技术方案,实现了定期自动监控分析集群中存储服务器的压力状态,减少人工调优成本的同时,不仅能对集群资源进行简单高效且可靠有效的自动化负载均衡,提高存储资源利用率,而且通过云端冗余联动,有效应对本地集群负载全部达到极限的大规模计算场景,避免本地计算资源占用过多,减轻本地集群资源压力,提升IC设计平台集群的可靠性和服务性能,进而为IC芯片设计研发的进度和成果提供有效保障。
需要说明的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。
在一个实施例中,如图5所示,提供了一种集群计算压力负载均衡系统,所述系统包括:
状态监测模块1,用于按照预设周期获取各个存储服务器的压力状态数据;
负载计算模块2,用于根据各个存储服务器的压力状态数据,计算得到对应的综合负载;
本地均衡判断模块3,用于根据各个存储服务器的压力状态数据和综合负载,得到待分流存储服务器,并判断是否满足预设本地负载均衡条件,以及在判定满足所述预设本地负载均衡条件时,得到接收分流存储服务器;
流量均衡模块4,用于从所述待分流存储服务器上筛选得到待分流客户端,并将所述待分流客户端转移至所述接收分流存储服务器。
在一个实施例中,所述系统,还包括:
应急均衡模块,用于当判定不满足所述预设本地负载均衡条件时,将从所述待分流存储服务器上筛选得到的待分流客户端转移至预先部署的云端应急计算集群。
关于一种集群计算压力负载均衡系统的具体限定可以参见上文中对于一种集群计算压力负载均衡方法的限定,对应的技术效果也可等同得到,在此不再赘述。上述一种集群计算压力负载均衡系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
图6示出一个实施例中计算机设备的内部结构图,该计算机设备具体可以是终端或服务器。如图6所示,该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示器、摄像头和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种集群计算压力负载均衡方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域普通技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述方法的步骤。
在一个实施例中,提供了一种IC设计平台,包括若干个集群部署的存储服务器,其特征在于,所述存储服务器之间的计算压力负载均衡采用上述方法的步骤。
综上,本发明实施例提供的一种集群计算压力负载均衡方法、系统、设备及IC设计平台,其集群计算压力负载均衡方法实现了根据按照预设周期获取的各个存储服务器的压力状态数据,计算得到对应的综合负载后,根据各个存储服务器的压力状态数据和综合负载得到待分流存储服务器,并在判定满足预设本地负载均衡条件时确定本地的接收分流存储服务器,将从待分流存储服务器上筛选得到的待分流客户端转移至接收分流存储服务器,以及在判定不满足预设本地负载均衡条件时,将从待分流存储服务器上筛选得到的待分流客户端转移至云端应急计算集群进行仿真、云端编译的技术方案,该方法定期自动监控分析集群中存储服务器的压力状态,减少人工调优成本的同时,不仅能对集群资源进行简单高效且可靠有效的自动化负载均衡,提高存储资源利用率,而且通过云端冗余联动,有效应对本地集群负载全部达到极限的大规模计算场景,避免本地计算资源占用过多,减轻本地集群资源压力,提升IC设计平台集群的可靠性和服务性能,进而为IC芯片设计研发的进度和成果提供有效保障。
本说明书中的各个实施例均采用递进的方式描述,各个实施例直接相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。需要说明的是,上述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种优选实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本申请的保护范围。因此,本申请专利的保护范围应以所述权利要求的保护范围为准。
Claims (13)
1.一种集群计算压力负载均衡方法,其特征在于,所述方法包括以下步骤:
按照预设周期获取各个存储服务器的压力状态数据;
根据各个存储服务器的压力状态数据,计算得到对应的综合负载;
根据各个存储服务器的压力状态数据和综合负载,得到待分流存储服务器,并判断是否满足预设本地负载均衡条件,以及在判定满足所述预设本地负载均衡条件时,得到接收分流存储服务器;
从所述待分流存储服务器上筛选得到待分流客户端,并将所述待分流客户端转移至所述接收分流存储服务器。
2.如权利要求1所述的集群计算压力负载均衡方法,其特征在于,所述压力状态数据包括磁盘利用率、I/O延迟时间、网络带宽利用率、CPU使用率和内存使用率。
3.如权利要求2所述的集群计算压力负载均衡方法,其特征在于,所述按照预设周期获取各个存储服务器的压力状态数据的步骤包括:
根据所述预设周期,启动定时任务执行预设自动化程序,远程登录各个存储服务器,并采集对应的压力状态数据;所述预设自动化程序包括远程登录存储服务器指令和采集各个压力状态数据的自动化指令。
4.如权利要求2所述的集群计算压力负载均衡方法,其特征在于,所述根据各个存储服务器的压力状态数据,计算得到对应的综合负载的步骤包括:
将各个压力状态数据进行归一化处理,得到归一化负载指标;
将各个所述归一化负载指标按照对应的预设权重进行加权求和,得到所述综合负载。
5.如权利要求1所述的集群计算压力负载均衡方法,其特征在于,所述根据各个存储服务器的压力状态数据和综合负载,得到待分流存储服务器,并判断是否满足预设本地负载均衡条件的步骤包括:
将各个存储服务器的综合负载按照升序排列,得到最高综合负载和最低综合负载;
当所述最高综合负载对应的存储服务器的压力状态数据满足预设分流监测条件时,将所述最高综合负载对应的存储服务器作为所述待分流存储服务器;
根据各个存储服务器的压力状态数据和预设分流监测条件,判断是否存在无需分流的存储服务器,若不存在,则判定不满足预设本地负载均衡条件,反之,则根据所述最高综合负载和所述最低综合负载,进一步判断是否满足预设本地负载均衡条件。
6.如权利要求4所述的集群计算压力负载均衡方法,其特征在于,所述根据所述最高综合负载和所述最低综合负载,进一步判断是否满足预设本地负载均衡条件的步骤包括:
将所述最高综合负载和所述最低综合负载作和,得到转移累积负载;
判断所述转移累积负载是否小于预设转移累积阈值,若是,则判定满足预设本地负载均衡条件,反之,则判定不满足预设本地负载均衡条件。
7.如权利要求4所述的集群计算压力负载均衡方法,其特征在于,所述在判定满足所述预设本地负载均衡条件时,得到接收分流存储服务器的步骤包括:
将所述最低综合负载对应的存储服务器作为所述接收分流存储服务器。
8.如权利要求1所述的集群计算压力负载均衡方法,其特征在于,所述从所述待分流存储服务器上筛选得到待分流客户端的步骤包括:
获取与所述待分流存储服务器连接的各个客户端的计算流量;
将各个客户端按照对应的计算流量按照预设规则进行分组或排序,并筛选得到所述待分流客户端。
9.如权利要求1所述的集群计算压力负载均衡方法,其特征在于,所述方法,还包括:
当判定不满足所述预设本地负载均衡条件时,将从所述待分流存储服务器上筛选得到的待分流客户端转移至预先部署的云端应急计算集群。
10.一种集群计算压力负载均衡系统,其特征在于,所述系统包括:
状态监测模块,用于按照预设周期获取各个存储服务器的压力状态数据;
负载计算模块,用于根据各个存储服务器的压力状态数据,计算得到对应的综合负载;
本地均衡判断模块,用于根据各个存储服务器的压力状态数据和综合负载,得到待分流存储服务器,并判断是否满足预设本地负载均衡条件,以及在判定满足所述预设本地负载均衡条件时,得到接收分流存储服务器;
流量均衡模块,用于从所述待分流存储服务器上筛选得到待分流客户端,并将所述待分流客户端转移至所述接收分流存储服务器。
11.如权利要求9所述的集群计算压力负载均衡系统,其特征在于,所述系统,还包括:
应急均衡模块,用于当判定不满足所述预设本地负载均衡条件时,将从所述待分流存储服务器上筛选得到的待分流客户端转移至预先部署的云端应急计算集群。
12.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一所述方法的步骤。
13.一种IC设计平台,包括若干个集群部署的存储服务器,其特征在于,所述存储服务器之间的计算压力负载均衡采用如权利要求1至8中任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310893240.8A CN116893900A (zh) | 2023-07-19 | 2023-07-19 | 集群计算压力负载均衡方法、系统、设备及ic设计平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310893240.8A CN116893900A (zh) | 2023-07-19 | 2023-07-19 | 集群计算压力负载均衡方法、系统、设备及ic设计平台 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116893900A true CN116893900A (zh) | 2023-10-17 |
Family
ID=88309721
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310893240.8A Pending CN116893900A (zh) | 2023-07-19 | 2023-07-19 | 集群计算压力负载均衡方法、系统、设备及ic设计平台 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116893900A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117149099A (zh) * | 2023-10-31 | 2023-12-01 | 江苏华鲲振宇智能科技有限责任公司 | 一种计算存储分体式服务器系统及控制方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103036994A (zh) * | 2012-12-18 | 2013-04-10 | 曙光信息产业(北京)有限公司 | 实现负载均衡的云存储系统 |
CN107948293A (zh) * | 2017-11-29 | 2018-04-20 | 重庆邮电大学 | 一种基于MongoDB负载均衡优化系统及方法 |
CN110798517A (zh) * | 2019-10-22 | 2020-02-14 | 雅马哈发动机(厦门)信息系统有限公司 | 去中心化集群负载均衡方法、系统、移动终端及存储介质 |
CN113110933A (zh) * | 2021-03-11 | 2021-07-13 | 浙江工业大学 | 一种具有Nginx负载均衡技术的系统 |
-
2023
- 2023-07-19 CN CN202310893240.8A patent/CN116893900A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103036994A (zh) * | 2012-12-18 | 2013-04-10 | 曙光信息产业(北京)有限公司 | 实现负载均衡的云存储系统 |
CN107948293A (zh) * | 2017-11-29 | 2018-04-20 | 重庆邮电大学 | 一种基于MongoDB负载均衡优化系统及方法 |
CN110798517A (zh) * | 2019-10-22 | 2020-02-14 | 雅马哈发动机(厦门)信息系统有限公司 | 去中心化集群负载均衡方法、系统、移动终端及存储介质 |
CN113110933A (zh) * | 2021-03-11 | 2021-07-13 | 浙江工业大学 | 一种具有Nginx负载均衡技术的系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117149099A (zh) * | 2023-10-31 | 2023-12-01 | 江苏华鲲振宇智能科技有限责任公司 | 一种计算存储分体式服务器系统及控制方法 |
CN117149099B (zh) * | 2023-10-31 | 2024-03-12 | 江苏华鲲振宇智能科技有限责任公司 | 一种计算存储分体式服务器系统及控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109918198B (zh) | 一种基于用户特征预测的仿真云平台负载调度系统及方法 | |
JP5218390B2 (ja) | 自律制御サーバ、仮想サーバの制御方法及びプログラム | |
US7882216B2 (en) | Process and methodology for generic analysis of metrics related to resource utilization and performance | |
US8782322B2 (en) | Ranking of target server partitions for virtual server mobility operations | |
US8484348B2 (en) | Method and apparatus for facilitating fulfillment of web-service requests on a communication network | |
US7685251B2 (en) | Method and apparatus for management of virtualized process collections | |
US10103956B2 (en) | Virtual machine processor and memory resource coordinator | |
US7493249B2 (en) | Method and system for dynamic performance modeling of computer application services | |
CN105528330A (zh) | 负载均衡的方法、装置、丛集和众核处理器 | |
CN102667724A (zh) | 利用加速器的、目标指向的工作负载性能管理 | |
CN107220108B (zh) | 一种实现云数据中心负载均衡的方法和系统 | |
US7600229B1 (en) | Methods and apparatus for load balancing processing of management information | |
CN116893900A (zh) | 集群计算压力负载均衡方法、系统、设备及ic设计平台 | |
CN112261120B (zh) | 一种配电物联网云边协同任务卸载方法及装置 | |
CN114816721B (zh) | 一种基于边缘计算的多任务优化调度方法及系统 | |
US20120259588A1 (en) | Method and apparatus for collecting performance data, and system for managing performance data | |
EP1649377B1 (en) | Method and system for monitoring a computer system for dynamic reconfiguration | |
CN113553160A (zh) | 用于人工智能物联网的边缘计算节点任务调度方法及系统 | |
CN114666335B (zh) | 一种基于数据分发服务dds的分布式系统负载均衡装置 | |
CN113553138A (zh) | 一种云资源调度的方法及装置 | |
US10235062B1 (en) | Selection of computer resources to perform file operations in a power-efficient manner | |
GB2613125A (en) | Storage level load balancing | |
CN117573373A (zh) | 一种基于云计算的cpu虚拟化调度方法及系统 | |
CN109308243B (zh) | 数据处理方法、装置、计算机设备和介质 | |
Garg et al. | Optimal virtual machine scheduling in virtualized cloud environment using VIKOR method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |