CN117950858A

CN117950858A - 一种集群动态均衡扩展的方法和系统

Info

Publication number: CN117950858A
Application number: CN202410015605.1A
Authority: CN
Inventors: 李文峰; 蒿章龙; 林学博
Original assignee: Beijing Birui Data Technology Co ltd
Current assignee: Beijing Birui Data Technology Co ltd
Priority date: 2024-01-05
Filing date: 2024-01-05
Publication date: 2024-04-30

Abstract

本发明涉及数据集群性能技术领域，公开了一种集群动态均衡扩展的方法和系统，包括监测系统状态，监测集群中各个节点的状态、定义均衡策略，用于制定满足需求的均衡策略、决策机制建立，判断是否需要进行均衡操作、迁移策略决策，选择合适的迁移策略、通信消耗分析、实时监控调整、错误反馈，本发明中，通过建立的决策计算模型，能够对运行过程中的CPU使用率、内存利用率、网络带宽使用率数据进行读取，并根据设定的阈值数据与实际检测得到的当前数据进行比对，通过二者之间的差值符号正负判定当前运行状态是否需要进行集群动态均衡扩展，因此使其整体判定计算量较低，面对大量数据流时的响应速度较快。

Description

一种集群动态均衡扩展的方法和系统

技术领域

本发明涉及数据集群性能优化领域，尤其涉及一种集群动态均衡扩展的方法和系统。

背景技术

集群动态均衡是一种优化计算集群性能的重要方法，它可以确保在集群中的各个节点上分配工作负载，以实现更好的资源利用和更快的任务完成时间。

在现有技术中，随着大数据和云计算的快速发展，数据量和计算量呈爆炸式增长，传统的计算集群面临着前所未有的挑战。而集群动态均衡技术的出现，正是为了解决这一难题。

但在实际使用过程中，然而现有的集群动态均衡方法在处理大规模数据和高复杂度任务时仍面临许多挑战，包括在运行大批量数据时节点间负载不均、并行通信开销较大和数据均衡计算容错能力较差的问题，鉴于此，我们提出一种集群动态均衡扩展的方法和系统。

发明内容

为了弥补以上不足，本发明提供了一种集群动态均衡扩展的方法和系统，旨在改善了现有技术中集群动态均衡方法在处理大批量的数据时，由于其均衡计算过程较为繁琐，从而影响实际处理效率的问题。

为了实现上述目的，本发明采用了如下技术方案：包括以下步骤：

S1：监测系统状态

实时监测集群中各个节点的资源利用率、负载和性能指标；

S2：定义均衡策略

制定一个均衡策略，该策略应考虑节点的当前负载、资源利用率和性能；

S3：决策机制建立

设计一个智能决策机制，根据监测到的系统状态，判断是否需要进行均衡操作；

S4：迁移策略决策

当决定进行节点间工作负载迁移时，选择合适的迁移策略；

S5：通信消耗分析

在实施均衡策略时，对不同节点间的通信开销数据进行分析并建立对应的反馈日志；

S6：实时监控调整

采用实时调整机制，以便在集群状态发生变化时能够迅速做出反应；

S7：错误反馈

引入容错机制，确保在均衡操作中发生错误或中断时，系统能够回滚到稳定状态或采取其他应对措施。

作为上述技术方案的进一步描述：

所述S1中监测系统状态用于实时监测集群中各个节点的资源利用率、负载和性能指标，包括以下步骤：

S101：占用数据监测

收集各个节点的CPU使用率、内存占用率、磁盘I/O、网络带宽资源利用率数据；

S102：负载状态监测

收集各个节点的系统负载数据，包括当前活跃进程数、I/O等待队列长度；

S103：性能检测

收集各个节点的性能指标数据，包括响应时间、吞吐量；

S104：汇总分析

将收集到的数据汇总并进行分析，以便为后续的均衡操作提供依据。

作为上述技术方案的进一步描述：

所述S2中定义均衡策略用于考虑节点的当前负载、资源利用率和性能，包括以下步骤：

S201：阈值设定

根据实际需求设定各个资源利用率的阈值，包括CPU使用率超过80％、内存占用率超过70％；

S202：权重计算

根据当前负载、资源利用率和性能指标的重要程度，为其分配不同的权重；

S203：策略制定

根据阈值和权重，制定出均衡策略，包括当CPU使用率超过80％且系统负载较高时，需要进行均衡操作。

作为上述技术方案的进一步描述：

所述S3中用于建立智能决策机制，根据监测到的系统状态，判断是否需要进行均衡操作，包括以下步骤：

S301：状态判断

根据S101中实时监测到的系统状态数据，判断当前集群处于均衡、高负荷以及异常状态；

S302：决策模型训练

使用机器学习算法训练一个决策模型，输入为系统状态数据，并根据输出的结果判定是否需要进行均衡操作；

S303：模型更新

在实际运行中不断收集数据，并更新决策模型，提高其准确性和稳定性。

作为上述技术方案的进一步描述：

所述S3中建立的决策模型算法如下：

输入：CPU使用率X₁，内存使用率Y₁，网络带宽使用率Z₁

输出：是否触发负载均衡(True或False)

过程：

1)初始化CPU使用率阈值为X％或默认值；

2)初始化内存使用率阈值为Y％或默认值；

3)初始化网络带宽使用率阈值为Z％或默认值；

4)如果CPU使用率大于CPU使用率阈值X1≥X，则返回True并结束；

5)否则，如果内存使用率大于内存使用率阈值Y1≥Y，则返回True并结束；

6)否则，如果网络带宽使用率大于网络带宽使用率阈值Z1≥Z，则返回True并结束；

7)如果以上条件都不满足，则返回False并结束；

其中X、Y、Z数值支持由人工根据当前设备状态以及数据流量进行自定义设置，在未进行自定义数据设定时，X、Y、Z的数值分别为默认值80、70、70。

作为上述技术方案的进一步描述：

所述S4迁移策略决策用于当决定进行节点间工作负载迁移时，选择合适的迁移策略，包括以下步骤：

S401：算法选择

根据实际情况选择合适的负载均衡算法，包括轮询、随机、最少连接；

S402：迁移策略制定

根据选定的负载均衡算法和集群中节点的资源占用情况，制定出相应的迁移策略；

S403：任务调度

根据迁移策略，将任务调度到合适的节点上，实现负载均衡。

作为上述技术方案的进一步描述：

所述S5中在实施均衡策略时，对不同节点间的通信开销数据进行分析并建立对应的反馈日志，包括以下步骤：

S501：通信数据采集

通过监测系统状态收集各个节点间的通信开销数据；

S502：数据分析

对采集到的通信开销数据进行处理和分析，包括计算平均延迟、丢包率指标；

S503：日志建立

根据分析和处理结果，建立对应的反馈日志，为后续的均衡操作提供参考。

作为上述技术方案的进一步描述：

所述S7中引入容错机制，确保在均衡操作中发生错误或中断时，系统能够回滚到稳定状态或采取其他应对措施，包括以下步骤：

S701：错误检测

通过监控机制实时监测均衡操作中是否存在错误或中断；

S702：回滚操作

在检测到错误或中断时，系统自动回滚到稳定状态；

S703：应急处理

在回滚操作无法解决问题时，采取其他应急处理措施，如重新启动相关服务。

为了实现上述目的，本发明采用了如下技术方案，所述集群动态均衡扩展的系统包括以下模块：

监测模块，用于检测集群中各个节点的状态和性能指标，所述监测模块包括I/O监测模块、宽带监测模块以及硬件监测模块；

决策模块，用于根据监测到的系统状态，制定均衡决策，所述决策模块包括决策库模块、算法运算模块以及决策匹配模块；

均衡执行模块，用于根据决策模块的决策状态，对具体的工作负载进行迁移或资源重新分配，所述均衡执行模块包括负载分配模块、负载迁移模块以及负载平衡模块；

通信模块，用于在均衡执行过程中，节点之间需要进行通信以协调工作负载的迁移，所述通信模块包括信号过滤模块、信号分配模块以及数据汇总模块；

日志反馈模块，记录均衡操作的日志，以便进行故障排查、性能分析和系统优化，所述日志反馈模块包括日志生成模块、数据储存模块以及性能分析模块；

异常监控模块，用于引入容错机制，以处理在均衡操作中可能发生的错误或中断，并对系统中的各项异常状态进行检测，所述异常监控模块包括异常监测模块、异常分析模块以及异常分配模块。

作为上述技术方案的进一步描述：

所述信号过滤模块用于对传输过程中的信号进行过滤，并保障信号传输的稳定性以及精确性，所述信号过滤过程中所使用的过滤算法如下：

[y[n]＝w_0\cdotx[n]+w_1\cdotx[n-1]+\ldots+w_{M-1}\cdotx[n-(M-1)]]；

其中，(w_i)是滤波器的权重，M是滤波器的阶数；

[e[n]＝d[n]-y[n]]；

其中，(d[n])是期望输出，(e[n])是误差；

[w_i[n+1]＝w_i[n]+\mu\cdote[n]\cdotx[n-i]]；

其中，(\mu)是学习速率，控制权重的更新步长；

所述信号分配模块用于根据均衡执行模块中的均衡计算决策为各个节点之间进行信号数据的迁移并保障节点之间的有效通讯，所述数据汇总模块用于对多组不同节点运行计算后的数据进行合并汇总传输，并将合并后的数据传输至后端计算程序中。

相对于现有技术，本发明具备如下有益效果：

1、本发明中，通过建立的决策计算模型，能够对运行过程中的CPU使用率、内存利用率、网络带宽使用率数据进行读取，并根据设定的阈值数据与实际检测得到的当前数据进行比对，通过二者之间的差值符号正负判定当前运行状态是否需要进行集群动态均衡扩展，因此使其整体判定计算量较低，面对大量数据流时的响应速度较快。

2、本发明中，通过内部设置的负载均衡算法数据库，能够根据当前系统中包括CPU使用率、内存利用率、网络带宽使用率数据中任意一项超过阈值的部分，通过系统匹配方式为其规划分配不同的负载均衡算法，并根据分配的负载均衡算法对集群动态系统进行负载均衡扩展，从而保障系统在面对大量数据时能够保持顺畅运行。

3、本发明中，通过建立的信号过滤算法，能够对传输过程中的异常信号以及失真信号进行过滤，并根据期望输出的权重以及误差数据对过滤算法进行自适应更行，从而使得数据在不断切换节点的过程不易出现误差，信号精度较高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明整体方法流程图；

图2为本发明S1方法流程图；

图3为本发明S2方法流程图；

图4为本发明S3方法流程图；

图5为本发明S4方法流程图；

图6为本发明S5方法流程图；

图7为本发明S7方法流程图；

图8为本集群动态均衡扩展的系统程序框图；

图9为本发明监测模块程序框图；

图10为本发明决策模块程序框图；

图11为本发明均衡执行模块程序框图；

图12为本发明通信模块程序框图；

图13为本发明日志反馈模块程序框图；

图14为本发明异常监控模块程序框图。

具体实施方式

下面将结合本发明说明书中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

请参阅图1-图7，本发明提供一种实施例：一种集群动态均衡扩展的方法，包括以下步骤：

S1：监测系统状态

实时监测集群中各个节点的资源利用率、负载和性能指标；

S2：定义均衡策略

S3：决策机制建立

S4：迁移策略决策

当决定进行节点间工作负载迁移时，选择合适的迁移策略；

S5：通信消耗分析

S6：实时监控调整

S7：错误反馈

具体而言，所述S1中监测系统状态用于实时监测集群中各个节点的资源利用率、负载和性能指标，包括以下步骤：

S101：占用数据监测

S102：负载状态监测

S103：性能检测

收集各个节点的性能指标数据，包括响应时间、吞吐量；

S104：汇总分析

S201：阈值设定

S202：权重计算

S203：策略制定

S301：状态判断

S302：决策模型训练

S303：模型更新

所述S3中建立的决策模型算法如下：

输入：CPU使用率X₁，内存使用率Y₁，网络带宽使用率Z₁

输出：是否触发负载均衡(True或False)

过程：

1)初始化CPU使用率阈值为X％或默认值；

2)初始化内存使用率阈值为Y％或默认值；

3)初始化网络带宽使用率阈值为Z％或默认值；

4)如果CPU使用率大于CPU使用率阈值X1≥X，则返回True并结束；

7)如果以上条件都不满足，则返回False并结束；

S401：算法选择

S402：迁移策略制定

S403：任务调度

S501：通信数据采集

通过监测系统状态收集各个节点间的通信开销数据；

S502：数据分析

S503：日志建立

S701：错误检测

通过监控机制实时监测均衡操作中是否存在错误或中断；

S702：回滚操作

在检测到错误或中断时，系统自动回滚到稳定状态；

S703：应急处理

请参阅图8-图13，本发明提供一种实施例：一种集群动态均衡扩展的系统，所述集群动态均衡扩展的系统包括以下模块：

其中I/O监测模块用于针对磁盘I/O和网络带宽资源利用率进行实时监测；宽带监测模块用于监测当前网络带宽的占用情况；硬件监测模块用于监测当前设备内部各组硬件设备的运行状态。

其中决策库模块用于存储不同情况下相应的决策结果；算法运算模块用于对监测到的数据进行处理，计算相应的决策值；决策匹配模块用于将计算出的决策值与决策库中的值进行匹配，选择最合适的均衡策略。

其中负载分配模块用于针对决策模块中做出的决策状态，指定对应的负载分配方案，并将建立的分配方案信息传输至负载迁移模块中，对于需要迁移的工作负载，负载迁移模块将负责执行迁移任务，对于需要重新分配资源的节点，负载平衡模块将负责调整资源分配，确保集群整体性能的稳定和高效。

其中日志生成模块用于针对本系统中的各项执行指令，生成对应的执行日志和反馈日志，并通过生成的日志信息帮助管理员和开发人员了解系统运行状态、发现潜在问题并迅速定位故障原因，同时该日志生成模块通常采用事件驱动的方式进行工作，即当系统中的某个事件发生时，模块会自动记录该事件的相关信息，并将其写入日志文件中。这些信息包括事件的包括触发时间、触发条件、执行结果信息，以便于后续的分析和排查；

其中数据储存模块可以对存储的日志信息进行包括分类、索引和压缩处理，以便于后续的数据分析和查询，性能分析模块可以对日志信息进行分析，通过数据挖掘和机器学习等技术，对系统性能进行优化和改进。

其中异常监测模块负责实时监测系统中的异常状态，包括硬件故障、软件错误、网络中断；一旦监测到异常，异常分析模块将对异常进行分析，识别异常的原因和影响范围。根据分析结果，异常分配模块将采取相应的处理措施，包括重启服务、回滚操作或重新分配资源，以确保系统能够快速恢复稳定状态。

具体而言，所述信号过滤模块用于对传输过程中的信号进行过滤，并保障信号传输的稳定性以及精确性，所述信号过滤过程中所使用的过滤算法如下：

[y[n]＝w_0\cdotx[n]+w_1\cdotx[n-1]+\ldots+w_{M-1}\cdotx[n-(M-1)]]；

其中，(w_i)是滤波器的权重，M是滤波器的阶数；

[e[n]＝d[n]-y[n]]；

其中，(d[n])是期望输出，(e[n])是误差；

[w_i[n+1]＝w_i[n]+\mu\cdote[n]\cdotx[n-i]]；

其中，(\mu)是学习速率，控制权重的更新步长；

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种集群动态均衡扩展的方法，其特征在于：包括以下步骤：

S1：监测系统状态

实时监测集群中各个节点的资源利用率、负载和性能指标；

S2：定义均衡策略

S3：决策机制建立

S4：迁移策略决策

当决定进行节点间工作负载迁移时，选择合适的迁移策略；

S5：通信消耗分析

S6：实时监控调整

S7：错误反馈

2.根据权利要求1所述的一种集群动态均衡扩展的方法，其特征在于：所述S1中监测系统状态用于实时监测集群中各个节点的资源利用率、负载和性能指标，包括以下步骤：

S101：占用数据监测

S102：负载状态监测

S103：性能检测

收集各个节点的性能指标数据，包括响应时间、吞吐量；

S104：汇总分析

3.根据权利要求1所述的一种集群动态均衡扩展的方法，其特征在于：所述S2中定义均衡策略用于考虑节点的当前负载、资源利用率和性能，包括以下步骤：

S201：阈值设定

S202：权重计算

S203：策略制定

4.根据权利要求1所述的一种集群动态均衡扩展的方法，其特征在于：所述S3中用于建立智能决策机制，根据监测到的系统状态，判断是否需要进行均衡操作，包括以下步骤：

S301：状态判断

S302：决策模型训练

S303：模型更新

5.根据权利要求1所述的一种集群动态均衡扩展的方法，其特征在于：所述S3中建立的决策模型算法如下：

输入：CPU使用率X₁，内存使用率Y₁，网络带宽使用率Z₁；

输出：是否触发负载均衡(True或False)；

过程：

1)初始化CPU使用率阈值为X％或默认值；

2)初始化内存使用率阈值为Y％或默认值；

3)初始化网络带宽使用率阈值为Z％或默认值；

4)如果CPU使用率大于CPU使用率阈值X1≥X，则返回True并结束；

7)如果以上条件都不满足，则返回False并结束；

6.根据权利要求1所述的一种集群动态均衡扩展的方法，其特征在于：所述S4迁移策略决策用于当决定进行节点间工作负载迁移时，选择合适的迁移策略，包括以下步骤：

S401：算法选择

S402：迁移策略制定

S403：任务调度

7.根据权利要求1所述的一种集群动态均衡扩展的方法，其特征在于：所述S5中在实施均衡策略时，对不同节点间的通信开销数据进行分析并建立对应的反馈日志，包括以下步骤：

S501：通信数据采集

通过监测系统状态收集各个节点间的通信开销数据；

S502：数据分析

S503：日志建立

8.根据权利要求1所述的一种集群动态均衡扩展的方法，其特征在于：所述S7中引入容错机制，确保在均衡操作中发生错误或中断时，系统能够回滚到稳定状态或采取其他应对措施，包括以下步骤：

S701：错误检测

通过监控机制实时监测均衡操作中是否存在错误或中断；

S702：回滚操作

在检测到错误或中断时，系统自动回滚到稳定状态；

S703：应急处理

9.一种集群动态均衡扩展的系统，其特征在于：所述集群动态均衡扩展的系统包括以下模块：

10.根据权利要求9所述的一种集群动态均衡扩展的系统，其特征在于：所述信号过滤模块用于对传输过程中的信号进行过滤，并保障信号传输的稳定性以及精确性，所述信号过滤过程中所使用的过滤算法如下：

[y[n]＝w_0\cdotx[n]+w_1\cdotx[n-1]+\ldots+w_{M-1}\cdotx[n-(M-1)]]；其中，(w_i)是滤波器的权重，M是滤波器的阶数；

[e[n]＝d[n]-y[n]]；

其中，(d[n])是期望输出，(e[n])是误差；

[w_i[n+1]＝w_i[n]+\mu\cdote[n]\cdotx[n-i]]；

其中，(\mu)是学习速率，控制权重的更新步长；