CN117950858A - 一种集群动态均衡扩展的方法和系统 - Google Patents

一种集群动态均衡扩展的方法和系统 Download PDF

Info

Publication number
CN117950858A
CN117950858A CN202410015605.1A CN202410015605A CN117950858A CN 117950858 A CN117950858 A CN 117950858A CN 202410015605 A CN202410015605 A CN 202410015605A CN 117950858 A CN117950858 A CN 117950858A
Authority
CN
China
Prior art keywords
module
data
equalization
cluster
decision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410015605.1A
Other languages
English (en)
Inventor
李文峰
蒿章龙
林学博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Birui Data Technology Co ltd
Original Assignee
Beijing Birui Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Birui Data Technology Co ltd filed Critical Beijing Birui Data Technology Co ltd
Priority to CN202410015605.1A priority Critical patent/CN117950858A/zh
Publication of CN117950858A publication Critical patent/CN117950858A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/1008Server selection for load balancing based on parameters of servers, e.g. available memory or workload
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/505Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • G06F9/5088Techniques for rebalancing the load in a distributed system involving task migration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/085Retrieval of network configuration; Tracking network configuration history
    • H04L41/0859Retrieval of network configuration; Tracking network configuration history by keeping history of different configuration generations or by rolling back to previous configuration versions
    • H04L41/0863Retrieval of network configuration; Tracking network configuration history by keeping history of different configuration generations or by rolling back to previous configuration versions by rolling back to previous configuration versions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及数据集群性能技术领域,公开了一种集群动态均衡扩展的方法和系统,包括监测系统状态,监测集群中各个节点的状态、定义均衡策略,用于制定满足需求的均衡策略、决策机制建立,判断是否需要进行均衡操作、迁移策略决策,选择合适的迁移策略、通信消耗分析、实时监控调整、错误反馈,本发明中,通过建立的决策计算模型,能够对运行过程中的CPU使用率、内存利用率、网络带宽使用率数据进行读取,并根据设定的阈值数据与实际检测得到的当前数据进行比对,通过二者之间的差值符号正负判定当前运行状态是否需要进行集群动态均衡扩展,因此使其整体判定计算量较低,面对大量数据流时的响应速度较快。

Description

一种集群动态均衡扩展的方法和系统
技术领域
本发明涉及数据集群性能优化领域,尤其涉及一种集群动态均衡扩展的方法和系统。
背景技术
集群动态均衡是一种优化计算集群性能的重要方法,它可以确保在集群中的各个节点上分配工作负载,以实现更好的资源利用和更快的任务完成时间。
在现有技术中,随着大数据和云计算的快速发展,数据量和计算量呈爆炸式增长,传统的计算集群面临着前所未有的挑战。而集群动态均衡技术的出现,正是为了解决这一难题。
但在实际使用过程中,然而现有的集群动态均衡方法在处理大规模数据和高复杂度任务时仍面临许多挑战,包括在运行大批量数据时节点间负载不均、并行通信开销较大和数据均衡计算容错能力较差的问题,鉴于此,我们提出一种集群动态均衡扩展的方法和系统。
发明内容
为了弥补以上不足,本发明提供了一种集群动态均衡扩展的方法和系统,旨在改善了现有技术中集群动态均衡方法在处理大批量的数据时,由于其均衡计算过程较为繁琐,从而影响实际处理效率的问题。
为了实现上述目的,本发明采用了如下技术方案:包括以下步骤:
S1:监测系统状态
实时监测集群中各个节点的资源利用率、负载和性能指标;
S2:定义均衡策略
制定一个均衡策略,该策略应考虑节点的当前负载、资源利用率和性能;
S3:决策机制建立
设计一个智能决策机制,根据监测到的系统状态,判断是否需要进行均衡操作;
S4:迁移策略决策
当决定进行节点间工作负载迁移时,选择合适的迁移策略;
S5:通信消耗分析
在实施均衡策略时,对不同节点间的通信开销数据进行分析并建立对应的反馈日志;
S6:实时监控调整
采用实时调整机制,以便在集群状态发生变化时能够迅速做出反应;
S7:错误反馈
引入容错机制,确保在均衡操作中发生错误或中断时,系统能够回滚到稳定状态或采取其他应对措施。
作为上述技术方案的进一步描述:
所述S1中监测系统状态用于实时监测集群中各个节点的资源利用率、负载和性能指标,包括以下步骤:
S101:占用数据监测
收集各个节点的CPU使用率、内存占用率、磁盘I/O、网络带宽资源利用率数据;
S102:负载状态监测
收集各个节点的系统负载数据,包括当前活跃进程数、I/O等待队列长度;
S103:性能检测
收集各个节点的性能指标数据,包括响应时间、吞吐量;
S104:汇总分析
将收集到的数据汇总并进行分析,以便为后续的均衡操作提供依据。
作为上述技术方案的进一步描述:
所述S2中定义均衡策略用于考虑节点的当前负载、资源利用率和性能,包括以下步骤:
S201:阈值设定
根据实际需求设定各个资源利用率的阈值,包括CPU使用率超过80%、内存占用率超过70%;
S202:权重计算
根据当前负载、资源利用率和性能指标的重要程度,为其分配不同的权重;
S203:策略制定
根据阈值和权重,制定出均衡策略,包括当CPU使用率超过80%且系统负载较高时,需要进行均衡操作。
作为上述技术方案的进一步描述:
所述S3中用于建立智能决策机制,根据监测到的系统状态,判断是否需要进行均衡操作,包括以下步骤:
S301:状态判断
根据S101中实时监测到的系统状态数据,判断当前集群处于均衡、高负荷以及异常状态;
S302:决策模型训练
使用机器学习算法训练一个决策模型,输入为系统状态数据,并根据输出的结果判定是否需要进行均衡操作;
S303:模型更新
在实际运行中不断收集数据,并更新决策模型,提高其准确性和稳定性。
作为上述技术方案的进一步描述:
所述S3中建立的决策模型算法如下:
输入:CPU使用率X1,内存使用率Y1,网络带宽使用率Z1
输出:是否触发负载均衡(True或False)
过程:
1)初始化CPU使用率阈值为X%或默认值;
2)初始化内存使用率阈值为Y%或默认值;
3)初始化网络带宽使用率阈值为Z%或默认值;
4)如果CPU使用率大于CPU使用率阈值X1≥X,则返回True并结束;
5)否则,如果内存使用率大于内存使用率阈值Y1≥Y,则返回True并结束;
6)否则,如果网络带宽使用率大于网络带宽使用率阈值Z1≥Z,则返回True并结束;
7)如果以上条件都不满足,则返回False并结束;
其中X、Y、Z数值支持由人工根据当前设备状态以及数据流量进行自定义设置,在未进行自定义数据设定时,X、Y、Z的数值分别为默认值80、70、70。
作为上述技术方案的进一步描述:
所述S4迁移策略决策用于当决定进行节点间工作负载迁移时,选择合适的迁移策略,包括以下步骤:
S401:算法选择
根据实际情况选择合适的负载均衡算法,包括轮询、随机、最少连接;
S402:迁移策略制定
根据选定的负载均衡算法和集群中节点的资源占用情况,制定出相应的迁移策略;
S403:任务调度
根据迁移策略,将任务调度到合适的节点上,实现负载均衡。
作为上述技术方案的进一步描述:
所述S5中在实施均衡策略时,对不同节点间的通信开销数据进行分析并建立对应的反馈日志,包括以下步骤:
S501:通信数据采集
通过监测系统状态收集各个节点间的通信开销数据;
S502:数据分析
对采集到的通信开销数据进行处理和分析,包括计算平均延迟、丢包率指标;
S503:日志建立
根据分析和处理结果,建立对应的反馈日志,为后续的均衡操作提供参考。
作为上述技术方案的进一步描述:
所述S7中引入容错机制,确保在均衡操作中发生错误或中断时,系统能够回滚到稳定状态或采取其他应对措施,包括以下步骤:
S701:错误检测
通过监控机制实时监测均衡操作中是否存在错误或中断;
S702:回滚操作
在检测到错误或中断时,系统自动回滚到稳定状态;
S703:应急处理
在回滚操作无法解决问题时,采取其他应急处理措施,如重新启动相关服务。
为了实现上述目的,本发明采用了如下技术方案,所述集群动态均衡扩展的系统包括以下模块:
监测模块,用于检测集群中各个节点的状态和性能指标,所述监测模块包括I/O监测模块、宽带监测模块以及硬件监测模块;
决策模块,用于根据监测到的系统状态,制定均衡决策,所述决策模块包括决策库模块、算法运算模块以及决策匹配模块;
均衡执行模块,用于根据决策模块的决策状态,对具体的工作负载进行迁移或资源重新分配,所述均衡执行模块包括负载分配模块、负载迁移模块以及负载平衡模块;
通信模块,用于在均衡执行过程中,节点之间需要进行通信以协调工作负载的迁移,所述通信模块包括信号过滤模块、信号分配模块以及数据汇总模块;
日志反馈模块,记录均衡操作的日志,以便进行故障排查、性能分析和系统优化,所述日志反馈模块包括日志生成模块、数据储存模块以及性能分析模块;
异常监控模块,用于引入容错机制,以处理在均衡操作中可能发生的错误或中断,并对系统中的各项异常状态进行检测,所述异常监控模块包括异常监测模块、异常分析模块以及异常分配模块。
作为上述技术方案的进一步描述:
所述信号过滤模块用于对传输过程中的信号进行过滤,并保障信号传输的稳定性以及精确性,所述信号过滤过程中所使用的过滤算法如下:
[y[n]=w_0\cdotx[n]+w_1\cdotx[n-1]+\ldots+w_{M-1}\cdotx[n-(M-1)]];
其中,(w_i)是滤波器的权重,M是滤波器的阶数;
[e[n]=d[n]-y[n]];
其中,(d[n])是期望输出,(e[n])是误差;
[w_i[n+1]=w_i[n]+\mu\cdote[n]\cdotx[n-i]];
其中,(\mu)是学习速率,控制权重的更新步长;
所述信号分配模块用于根据均衡执行模块中的均衡计算决策为各个节点之间进行信号数据的迁移并保障节点之间的有效通讯,所述数据汇总模块用于对多组不同节点运行计算后的数据进行合并汇总传输,并将合并后的数据传输至后端计算程序中。
相对于现有技术,本发明具备如下有益效果:
1、本发明中,通过建立的决策计算模型,能够对运行过程中的CPU使用率、内存利用率、网络带宽使用率数据进行读取,并根据设定的阈值数据与实际检测得到的当前数据进行比对,通过二者之间的差值符号正负判定当前运行状态是否需要进行集群动态均衡扩展,因此使其整体判定计算量较低,面对大量数据流时的响应速度较快。
2、本发明中,通过内部设置的负载均衡算法数据库,能够根据当前系统中包括CPU使用率、内存利用率、网络带宽使用率数据中任意一项超过阈值的部分,通过系统匹配方式为其规划分配不同的负载均衡算法,并根据分配的负载均衡算法对集群动态系统进行负载均衡扩展,从而保障系统在面对大量数据时能够保持顺畅运行。
3、本发明中,通过建立的信号过滤算法,能够对传输过程中的异常信号以及失真信号进行过滤,并根据期望输出的权重以及误差数据对过滤算法进行自适应更行,从而使得数据在不断切换节点的过程不易出现误差,信号精度较高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明整体方法流程图;
图2为本发明S1方法流程图;
图3为本发明S2方法流程图;
图4为本发明S3方法流程图;
图5为本发明S4方法流程图;
图6为本发明S5方法流程图;
图7为本发明S7方法流程图;
图8为本集群动态均衡扩展的系统程序框图;
图9为本发明监测模块程序框图;
图10为本发明决策模块程序框图;
图11为本发明均衡执行模块程序框图;
图12为本发明通信模块程序框图;
图13为本发明日志反馈模块程序框图;
图14为本发明异常监控模块程序框图。
具体实施方式
下面将结合本发明说明书中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
请参阅图1-图7,本发明提供一种实施例:一种集群动态均衡扩展的方法,包括以下步骤:
S1:监测系统状态
实时监测集群中各个节点的资源利用率、负载和性能指标;
S2:定义均衡策略
制定一个均衡策略,该策略应考虑节点的当前负载、资源利用率和性能;
S3:决策机制建立
设计一个智能决策机制,根据监测到的系统状态,判断是否需要进行均衡操作;
S4:迁移策略决策
当决定进行节点间工作负载迁移时,选择合适的迁移策略;
S5:通信消耗分析
在实施均衡策略时,对不同节点间的通信开销数据进行分析并建立对应的反馈日志;
S6:实时监控调整
采用实时调整机制,以便在集群状态发生变化时能够迅速做出反应;
S7:错误反馈
引入容错机制,确保在均衡操作中发生错误或中断时,系统能够回滚到稳定状态或采取其他应对措施。
具体而言,所述S1中监测系统状态用于实时监测集群中各个节点的资源利用率、负载和性能指标,包括以下步骤:
S101:占用数据监测
收集各个节点的CPU使用率、内存占用率、磁盘I/O、网络带宽资源利用率数据;
S102:负载状态监测
收集各个节点的系统负载数据,包括当前活跃进程数、I/O等待队列长度;
S103:性能检测
收集各个节点的性能指标数据,包括响应时间、吞吐量;
S104:汇总分析
将收集到的数据汇总并进行分析,以便为后续的均衡操作提供依据。
所述S2中定义均衡策略用于考虑节点的当前负载、资源利用率和性能,包括以下步骤:
S201:阈值设定
根据实际需求设定各个资源利用率的阈值,包括CPU使用率超过80%、内存占用率超过70%;
S202:权重计算
根据当前负载、资源利用率和性能指标的重要程度,为其分配不同的权重;
S203:策略制定
根据阈值和权重,制定出均衡策略,包括当CPU使用率超过80%且系统负载较高时,需要进行均衡操作。
所述S3中用于建立智能决策机制,根据监测到的系统状态,判断是否需要进行均衡操作,包括以下步骤:
S301:状态判断
根据S101中实时监测到的系统状态数据,判断当前集群处于均衡、高负荷以及异常状态;
S302:决策模型训练
使用机器学习算法训练一个决策模型,输入为系统状态数据,并根据输出的结果判定是否需要进行均衡操作;
S303:模型更新
在实际运行中不断收集数据,并更新决策模型,提高其准确性和稳定性。
所述S3中建立的决策模型算法如下:
输入:CPU使用率X1,内存使用率Y1,网络带宽使用率Z1
输出:是否触发负载均衡(True或False)
过程:
1)初始化CPU使用率阈值为X%或默认值;
2)初始化内存使用率阈值为Y%或默认值;
3)初始化网络带宽使用率阈值为Z%或默认值;
4)如果CPU使用率大于CPU使用率阈值X1≥X,则返回True并结束;
5)否则,如果内存使用率大于内存使用率阈值Y1≥Y,则返回True并结束;
6)否则,如果网络带宽使用率大于网络带宽使用率阈值Z1≥Z,则返回True并结束;
7)如果以上条件都不满足,则返回False并结束;
其中X、Y、Z数值支持由人工根据当前设备状态以及数据流量进行自定义设置,在未进行自定义数据设定时,X、Y、Z的数值分别为默认值80、70、70。
所述S4迁移策略决策用于当决定进行节点间工作负载迁移时,选择合适的迁移策略,包括以下步骤:
S401:算法选择
根据实际情况选择合适的负载均衡算法,包括轮询、随机、最少连接;
S402:迁移策略制定
根据选定的负载均衡算法和集群中节点的资源占用情况,制定出相应的迁移策略;
S403:任务调度
根据迁移策略,将任务调度到合适的节点上,实现负载均衡。
所述S5中在实施均衡策略时,对不同节点间的通信开销数据进行分析并建立对应的反馈日志,包括以下步骤:
S501:通信数据采集
通过监测系统状态收集各个节点间的通信开销数据;
S502:数据分析
对采集到的通信开销数据进行处理和分析,包括计算平均延迟、丢包率指标;
S503:日志建立
根据分析和处理结果,建立对应的反馈日志,为后续的均衡操作提供参考。
所述S7中引入容错机制,确保在均衡操作中发生错误或中断时,系统能够回滚到稳定状态或采取其他应对措施,包括以下步骤:
S701:错误检测
通过监控机制实时监测均衡操作中是否存在错误或中断;
S702:回滚操作
在检测到错误或中断时,系统自动回滚到稳定状态;
S703:应急处理
在回滚操作无法解决问题时,采取其他应急处理措施,如重新启动相关服务。
请参阅图8-图13,本发明提供一种实施例:一种集群动态均衡扩展的系统,所述集群动态均衡扩展的系统包括以下模块:
监测模块,用于检测集群中各个节点的状态和性能指标,所述监测模块包括I/O监测模块、宽带监测模块以及硬件监测模块;
其中I/O监测模块用于针对磁盘I/O和网络带宽资源利用率进行实时监测;宽带监测模块用于监测当前网络带宽的占用情况;硬件监测模块用于监测当前设备内部各组硬件设备的运行状态。
决策模块,用于根据监测到的系统状态,制定均衡决策,所述决策模块包括决策库模块、算法运算模块以及决策匹配模块;
其中决策库模块用于存储不同情况下相应的决策结果;算法运算模块用于对监测到的数据进行处理,计算相应的决策值;决策匹配模块用于将计算出的决策值与决策库中的值进行匹配,选择最合适的均衡策略。
均衡执行模块,用于根据决策模块的决策状态,对具体的工作负载进行迁移或资源重新分配,所述均衡执行模块包括负载分配模块、负载迁移模块以及负载平衡模块;
其中负载分配模块用于针对决策模块中做出的决策状态,指定对应的负载分配方案,并将建立的分配方案信息传输至负载迁移模块中,对于需要迁移的工作负载,负载迁移模块将负责执行迁移任务,对于需要重新分配资源的节点,负载平衡模块将负责调整资源分配,确保集群整体性能的稳定和高效。
通信模块,用于在均衡执行过程中,节点之间需要进行通信以协调工作负载的迁移,所述通信模块包括信号过滤模块、信号分配模块以及数据汇总模块;
日志反馈模块,记录均衡操作的日志,以便进行故障排查、性能分析和系统优化,所述日志反馈模块包括日志生成模块、数据储存模块以及性能分析模块;
其中日志生成模块用于针对本系统中的各项执行指令,生成对应的执行日志和反馈日志,并通过生成的日志信息帮助管理员和开发人员了解系统运行状态、发现潜在问题并迅速定位故障原因,同时该日志生成模块通常采用事件驱动的方式进行工作,即当系统中的某个事件发生时,模块会自动记录该事件的相关信息,并将其写入日志文件中。这些信息包括事件的包括触发时间、触发条件、执行结果信息,以便于后续的分析和排查;
其中数据储存模块可以对存储的日志信息进行包括分类、索引和压缩处理,以便于后续的数据分析和查询,性能分析模块可以对日志信息进行分析,通过数据挖掘和机器学习等技术,对系统性能进行优化和改进。
异常监控模块,用于引入容错机制,以处理在均衡操作中可能发生的错误或中断,并对系统中的各项异常状态进行检测,所述异常监控模块包括异常监测模块、异常分析模块以及异常分配模块。
其中异常监测模块负责实时监测系统中的异常状态,包括硬件故障、软件错误、网络中断;一旦监测到异常,异常分析模块将对异常进行分析,识别异常的原因和影响范围。根据分析结果,异常分配模块将采取相应的处理措施,包括重启服务、回滚操作或重新分配资源,以确保系统能够快速恢复稳定状态。
具体而言,所述信号过滤模块用于对传输过程中的信号进行过滤,并保障信号传输的稳定性以及精确性,所述信号过滤过程中所使用的过滤算法如下:
[y[n]=w_0\cdotx[n]+w_1\cdotx[n-1]+\ldots+w_{M-1}\cdotx[n-(M-1)]];
其中,(w_i)是滤波器的权重,M是滤波器的阶数;
[e[n]=d[n]-y[n]];
其中,(d[n])是期望输出,(e[n])是误差;
[w_i[n+1]=w_i[n]+\mu\cdote[n]\cdotx[n-i]];
其中,(\mu)是学习速率,控制权重的更新步长;
所述信号分配模块用于根据均衡执行模块中的均衡计算决策为各个节点之间进行信号数据的迁移并保障节点之间的有效通讯,所述数据汇总模块用于对多组不同节点运行计算后的数据进行合并汇总传输,并将合并后的数据传输至后端计算程序中。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种集群动态均衡扩展的方法,其特征在于:包括以下步骤:
S1:监测系统状态
实时监测集群中各个节点的资源利用率、负载和性能指标;
S2:定义均衡策略
制定一个均衡策略,该策略应考虑节点的当前负载、资源利用率和性能;
S3:决策机制建立
设计一个智能决策机制,根据监测到的系统状态,判断是否需要进行均衡操作;
S4:迁移策略决策
当决定进行节点间工作负载迁移时,选择合适的迁移策略;
S5:通信消耗分析
在实施均衡策略时,对不同节点间的通信开销数据进行分析并建立对应的反馈日志;
S6:实时监控调整
采用实时调整机制,以便在集群状态发生变化时能够迅速做出反应;
S7:错误反馈
引入容错机制,确保在均衡操作中发生错误或中断时,系统能够回滚到稳定状态或采取其他应对措施。
2.根据权利要求1所述的一种集群动态均衡扩展的方法,其特征在于:所述S1中监测系统状态用于实时监测集群中各个节点的资源利用率、负载和性能指标,包括以下步骤:
S101:占用数据监测
收集各个节点的CPU使用率、内存占用率、磁盘I/O、网络带宽资源利用率数据;
S102:负载状态监测
收集各个节点的系统负载数据,包括当前活跃进程数、I/O等待队列长度;
S103:性能检测
收集各个节点的性能指标数据,包括响应时间、吞吐量;
S104:汇总分析
将收集到的数据汇总并进行分析,以便为后续的均衡操作提供依据。
3.根据权利要求1所述的一种集群动态均衡扩展的方法,其特征在于:所述S2中定义均衡策略用于考虑节点的当前负载、资源利用率和性能,包括以下步骤:
S201:阈值设定
根据实际需求设定各个资源利用率的阈值,包括CPU使用率超过80%、内存占用率超过70%;
S202:权重计算
根据当前负载、资源利用率和性能指标的重要程度,为其分配不同的权重;
S203:策略制定
根据阈值和权重,制定出均衡策略,包括当CPU使用率超过80%且系统负载较高时,需要进行均衡操作。
4.根据权利要求1所述的一种集群动态均衡扩展的方法,其特征在于:所述S3中用于建立智能决策机制,根据监测到的系统状态,判断是否需要进行均衡操作,包括以下步骤:
S301:状态判断
根据S101中实时监测到的系统状态数据,判断当前集群处于均衡、高负荷以及异常状态;
S302:决策模型训练
使用机器学习算法训练一个决策模型,输入为系统状态数据,并根据输出的结果判定是否需要进行均衡操作;
S303:模型更新
在实际运行中不断收集数据,并更新决策模型,提高其准确性和稳定性。
5.根据权利要求1所述的一种集群动态均衡扩展的方法,其特征在于:所述S3中建立的决策模型算法如下:
输入:CPU使用率X1,内存使用率Y1,网络带宽使用率Z1
输出:是否触发负载均衡(True或False);
过程:
1)初始化CPU使用率阈值为X%或默认值;
2)初始化内存使用率阈值为Y%或默认值;
3)初始化网络带宽使用率阈值为Z%或默认值;
4)如果CPU使用率大于CPU使用率阈值X1≥X,则返回True并结束;
5)否则,如果内存使用率大于内存使用率阈值Y1≥Y,则返回True并结束;
6)否则,如果网络带宽使用率大于网络带宽使用率阈值Z1≥Z,则返回True并结束;
7)如果以上条件都不满足,则返回False并结束;
其中X、Y、Z数值支持由人工根据当前设备状态以及数据流量进行自定义设置,在未进行自定义数据设定时,X、Y、Z的数值分别为默认值80、70、70。
6.根据权利要求1所述的一种集群动态均衡扩展的方法,其特征在于:所述S4迁移策略决策用于当决定进行节点间工作负载迁移时,选择合适的迁移策略,包括以下步骤:
S401:算法选择
根据实际情况选择合适的负载均衡算法,包括轮询、随机、最少连接;
S402:迁移策略制定
根据选定的负载均衡算法和集群中节点的资源占用情况,制定出相应的迁移策略;
S403:任务调度
根据迁移策略,将任务调度到合适的节点上,实现负载均衡。
7.根据权利要求1所述的一种集群动态均衡扩展的方法,其特征在于:所述S5中在实施均衡策略时,对不同节点间的通信开销数据进行分析并建立对应的反馈日志,包括以下步骤:
S501:通信数据采集
通过监测系统状态收集各个节点间的通信开销数据;
S502:数据分析
对采集到的通信开销数据进行处理和分析,包括计算平均延迟、丢包率指标;
S503:日志建立
根据分析和处理结果,建立对应的反馈日志,为后续的均衡操作提供参考。
8.根据权利要求1所述的一种集群动态均衡扩展的方法,其特征在于:所述S7中引入容错机制,确保在均衡操作中发生错误或中断时,系统能够回滚到稳定状态或采取其他应对措施,包括以下步骤:
S701:错误检测
通过监控机制实时监测均衡操作中是否存在错误或中断;
S702:回滚操作
在检测到错误或中断时,系统自动回滚到稳定状态;
S703:应急处理
在回滚操作无法解决问题时,采取其他应急处理措施,如重新启动相关服务。
9.一种集群动态均衡扩展的系统,其特征在于:所述集群动态均衡扩展的系统包括以下模块:
监测模块,用于检测集群中各个节点的状态和性能指标,所述监测模块包括I/O监测模块、宽带监测模块以及硬件监测模块;
决策模块,用于根据监测到的系统状态,制定均衡决策,所述决策模块包括决策库模块、算法运算模块以及决策匹配模块;
均衡执行模块,用于根据决策模块的决策状态,对具体的工作负载进行迁移或资源重新分配,所述均衡执行模块包括负载分配模块、负载迁移模块以及负载平衡模块;
通信模块,用于在均衡执行过程中,节点之间需要进行通信以协调工作负载的迁移,所述通信模块包括信号过滤模块、信号分配模块以及数据汇总模块;
日志反馈模块,记录均衡操作的日志,以便进行故障排查、性能分析和系统优化,所述日志反馈模块包括日志生成模块、数据储存模块以及性能分析模块;
异常监控模块,用于引入容错机制,以处理在均衡操作中可能发生的错误或中断,并对系统中的各项异常状态进行检测,所述异常监控模块包括异常监测模块、异常分析模块以及异常分配模块。
10.根据权利要求9所述的一种集群动态均衡扩展的系统,其特征在于:所述信号过滤模块用于对传输过程中的信号进行过滤,并保障信号传输的稳定性以及精确性,所述信号过滤过程中所使用的过滤算法如下:
[y[n]=w_0\cdotx[n]+w_1\cdotx[n-1]+\ldots+w_{M-1}\cdotx[n-(M-1)]];其中,(w_i)是滤波器的权重,M是滤波器的阶数;
[e[n]=d[n]-y[n]];
其中,(d[n])是期望输出,(e[n])是误差;
[w_i[n+1]=w_i[n]+\mu\cdote[n]\cdotx[n-i]];
其中,(\mu)是学习速率,控制权重的更新步长;
所述信号分配模块用于根据均衡执行模块中的均衡计算决策为各个节点之间进行信号数据的迁移并保障节点之间的有效通讯,所述数据汇总模块用于对多组不同节点运行计算后的数据进行合并汇总传输,并将合并后的数据传输至后端计算程序中。
CN202410015605.1A 2024-01-05 2024-01-05 一种集群动态均衡扩展的方法和系统 Pending CN117950858A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410015605.1A CN117950858A (zh) 2024-01-05 2024-01-05 一种集群动态均衡扩展的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410015605.1A CN117950858A (zh) 2024-01-05 2024-01-05 一种集群动态均衡扩展的方法和系统

Publications (1)

Publication Number Publication Date
CN117950858A true CN117950858A (zh) 2024-04-30

Family

ID=90797253

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410015605.1A Pending CN117950858A (zh) 2024-01-05 2024-01-05 一种集群动态均衡扩展的方法和系统

Country Status (1)

Country Link
CN (1) CN117950858A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118377810A (zh) * 2024-06-26 2024-07-23 济南浪潮数据技术有限公司 一种数据集归并方法、设备、介质、程序产品及检索系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118377810A (zh) * 2024-06-26 2024-07-23 济南浪潮数据技术有限公司 一种数据集归并方法、设备、介质、程序产品及检索系统

Similar Documents

Publication Publication Date Title
Werstein et al. Load balancing in a cluster computer
US20200387311A1 (en) Disk detection method and apparatus
US8463971B2 (en) Approach for distributing interrupts from high-interrupt load devices
US7581052B1 (en) Approach for distributing multiple interrupts among multiple processors
EP1652028B1 (en) Method for clustering processors and assigning service points in a system
CN117950858A (zh) 一种集群动态均衡扩展的方法和系统
US20070043970A1 (en) Approach for managing interrupt load distribution
EP3306476B1 (en) Method and apparatus for hot cpu removal and hot cpu adding during operation
CN110740054B (zh) 一种基于强化学习的数据中心虚拟化网络故障诊断方法
CN101662495A (zh) 备份方法、主服务器、备份服务器以及备份系统
WO2023231398A1 (zh) 分布式处理系统的监控方法及装置
CN109885456A (zh) 一种基于系统日志聚类的多类型故障事件预测方法及装置
US20230078739A1 (en) Faas distributed computing method and apparatus
US20210294497A1 (en) Storage system and method for analyzing storage system
Tuli et al. Carol: Confidence-aware resilience model for edge federations
CN117632444A (zh) 一种计算机集群的npu容错调度系统
CN116233137B (zh) 一种基于集群的负载分担和备份方法及装置
CN106686082B (zh) 存储资源调整方法及管理节点
CN112838962B (zh) 一种大数据集群的性能瓶颈检测方法及装置
KR102201651B1 (ko) 태스크 지역성과 다운스트림 상태를 고려한 확률 기반의 데이터 스트림 파티셔닝 방법 및 이를 기록한 기록매체
CN110187989B (zh) 雾环境下基于Markov Chain的容错策略选择方法
Leelipushpam et al. Fault tree analysis based virtual machine migration for fault-tolerant cloud data center
CN115460217B (zh) 一种基于强化学习的云服务高可用决策方法
CN117555829B (zh) 一种实现usb设备网络共享的usb重定向系统及方法
CN117112180B (zh) 一种基于任务的集群自动化控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination