CN117176730A - 一种面向计算节点的负载均衡方法及装置 - Google Patents
一种面向计算节点的负载均衡方法及装置 Download PDFInfo
- Publication number
- CN117176730A CN117176730A CN202311026576.0A CN202311026576A CN117176730A CN 117176730 A CN117176730 A CN 117176730A CN 202311026576 A CN202311026576 A CN 202311026576A CN 117176730 A CN117176730 A CN 117176730A
- Authority
- CN
- China
- Prior art keywords
- data
- prediction model
- training
- node
- load balancing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000012549 training Methods 0.000 claims abstract description 117
- 238000012795 verification Methods 0.000 claims abstract description 30
- 238000012545 processing Methods 0.000 claims abstract description 19
- 238000000638 solvent extraction Methods 0.000 claims abstract description 19
- 238000010276 construction Methods 0.000 claims abstract description 10
- 238000004458 analytical method Methods 0.000 claims abstract description 7
- 238000000605 extraction Methods 0.000 claims description 32
- 238000004891 communication Methods 0.000 claims description 7
- 230000015654 memory Effects 0.000 description 7
- 239000013598 vector Substances 0.000 description 6
- 230000006399 behavior Effects 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 230000001360 synchronised effect Effects 0.000 description 5
- 230000002776 aggregation Effects 0.000 description 4
- 238000004220 aggregation Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002779 inactivation Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000306 component Substances 0.000 description 1
- 239000008358 core component Substances 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000002023 wood Substances 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及分布式训练技术领域,特别是指一种面向计算节点的负载均衡方法及装置。一种面向计算节点的负载均衡方法包括:通过性能分析工具进行数据采集,获得节点性能数据;基于改进的MMoE模型进行模型构建,获得待训练多目标联合预测模型;将节点性能数据进行动态分区,进行数据处理,获得训练数据;使用训练数据,对待训练多目标联合预测模型进行训练,获得训练后多目标联合预测模型;将训练后多目标联合预测模型,通过弹性松弛方案进行验证,验证结果为通过验证时,获得多目标联合预测模型;输入待均衡节点性能数据,通过多目标联合预测模型进行负载均衡。本发明是一种针对计算节点的处理效率高、鲁棒性强的负载均衡方法。
Description
技术领域
本发明涉及分布式训练技术领域,特别是指一种面向计算节点的负载均衡方法及装置。
背景技术
随着深度学习和大数据技术的发展,分布式训练已成为提高计算效率的重要途径。然而在分布式训练环境中,异构计算节点的性能差异和无关任务的干扰等问题可能会导致系统的负载不均,引发“落伍现象”,具体表现为部分节点处理速度较慢,从而降低整个系统的训练效率。
为应对大规模计算需求,现有的加速训练方法主要有两种:向单个机器添加更多资源和向系统添加更多节点。但单节点的集中式训练存在诸多困难,尤其是单节点的计算能力已经无法满足数据训练时长和精度的要求。因此,为缩短训练时间并提高模型性能,算法设计人员使用向系统增加节点以构建分布式系统的方式,提高训练效率。
在近几年的研究中,研究人员大多开始构建分布式环境,通过节点计算和通信的并行化提升资源利用率。分布式训练中计算节点出现的负载不均衡问题已经成为制约模型训练的效率和性能提高的重要因素。
在现有技术中,缺乏一种针对计算节点的处理效率高、鲁棒性强的负载均衡方法。
发明内容
本发明实施例提供了一种面向计算节点的负载均衡方法及装置。所述技术方案如下:
一方面,提供了一种面向计算节点的负载均衡方法,该方法由电子设备实现,该方法包括:
通过性能分析工具进行数据采集,获得节点性能数据;
基于改进的MMoE模型进行模型构建,获得待训练多目标联合预测模型;
将所述节点性能数据进行动态分区,获得动态调整数据;
将所述动态调整数据进行数据处理,获得训练数据;
使用所述训练数据,对所述待训练多目标联合预测模型进行训练,获得训练后多目标联合预测模型;
将所述训练后多目标联合预测模型,通过弹性松弛方案进行验证,验证结果为通过验证时,获得多目标联合预测模型;
输入待均衡节点性能数据,通过所述多目标联合预测模型进行负载均衡。
其中,所述节点性能数据包括计算节点当前训练轮次的子数据集大小、当前训练轮次的训练总时长、节点迭代轮次的训练时长和节点在当前同步窗口下的迭代轮次次数。
其中,所述待训练多目标联合预测模型包括输入层、特征提取层和私有任务顶层。
其中,所述输入层用于将待训练多目标联合预测模型的输入数据分为时序数据以及截面数据;
所述时序数据是输入数据中节点的训练行为信息;
所述截面数据是输入数据中节点在当前迭代周期的训练信息。
其中,所述特征提取层包括特有底层模块以及共有底层模块;
所述特有底层模块包括LSTM特征提取网络以及MLP特征提取网络;所述LSTM特征提取网络的输入数据为时序数据;所述MLP特征提取网络的输入数据为截面数据;
所述共有底层模块用于提取与子任务相关的通用特征。
其中,所述私有任务顶层用于将待训练多目标联合预测模型中MMoE层的输出转换为特定子任务的预测结果;
所述私有任务顶层由子任务的专用网络构成,子任务和专用网络的对应关系具备唯一性;
所述专用网络用于拟合子任务对应的预测结果。
可选地,所述将所述节点性能数据进行动态分区,获得动态调整数据,包括:
将所述节点性能数据进行样本量动态调整,获得样本量调整数据;
将所述样本量调整数据进行数据集分区,获得动态调整数据。
可选地,所述将所述训练后多目标联合预测模型,通过弹性松弛方案进行验证之后,所述方法还包括:
当验证结果为未通过验证时,继续采集节点性能数据,对所述待训练多目标联合预测模型进行迭代训练。
其中,所述弹性松弛方案用于验证多目标联合预测模型的负载均衡性能;
所述弹性松弛方案通过调整同步门限,对负载节点的通信步调进行控制。
另一方面,提供了一种面向计算节点的负载均衡装置,该装置应用于一种面向计算节点的负载均衡方法,该装置包括:
数据获取模块,用于通过性能分析工具进行数据采集,获得节点性能数据;
模型构建模块,用于基于改进的MMoE模型进行模型构建,获得待训练多目标联合预测模型;
数据动态调整模块,用于将所述节点性能数据进行动态分区,获得动态调整数据;
数据处理模块,用于将所述动态调整数据进行数据处理,获得训练数据;
模型训练模块,用于使用所述训练数据,对所述待训练多目标联合预测模型进行训练,获得训练后多目标联合预测模型;
模型验证模块,用于将所述训练后多目标联合预测模型,通过弹性松弛方案进行验证,验证结果为通过验证时,获得多目标联合预测模型;
负载均衡模块,用于输入待均衡节点性能数据,通过所述多目标联合预测模型进行负载均衡。
其中,所述节点性能数据包括计算节点当前训练轮次的子数据集大小、当前训练轮次的训练总时长、节点迭代轮次的训练时长和节点在当前同步窗口下的迭代轮次次数。
其中,所述待训练多目标联合预测模型包括输入层、特征提取层和私有任务顶层。
其中,所述输入层用于将待训练多目标联合预测模型的输入数据分为时序数据以及截面数据;
所述时序数据是输入数据中节点的训练行为信息;
所述截面数据是输入数据中节点在当前迭代周期的训练信息。
其中,所述特征提取层包括特有底层模块以及共有底层模块;
所述特有底层模块包括LSTM特征提取网络以及MLP特征提取网络;所述LSTM特征提取网络的输入数据为时序数据;所述MLP特征提取网络的输入数据为截面数据;
所述共有底层模块用于提取与子任务相关的通用特征。
其中,所述私有任务顶层用于将待训练多目标联合预测模型中MMoE层的输出转换为特定子任务的预测结果;
所述私有任务顶层由子任务的专用网络构成,子任务和专用网络的对应关系具备唯一性;
所述专用网络用于拟合子任务对应的预测结果。
可选地,所述数据动态调整模块,进一步用于:
将所述节点性能数据进行样本量动态调整,获得样本量调整数据;
将所述样本量调整数据进行数据集分区,获得动态调整数据。
可选地,所述模型验证模块,还用于:
当验证结果为未通过验证时,继续采集节点性能数据,对所述待训练多目标联合预测模型进行迭代训练。
其中,所述弹性松弛方案用于验证多目标联合预测模型的负载均衡性能;
所述弹性松弛方案通过调整同步门限,对负载节点的通信步调进行控制。
另一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述一种面向计算节点的负载均衡方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述一种面向计算节点的负载均衡方法。
本发明实施例提供的技术方案带来的有益效果至少包括:
本发明提出一种面向计算节点的负载均衡方法,从聚合方案和节点计算负载两个角度实现对分布式训练的优化;通过提出的多目标联合预测模型,设计均衡节点负载的针对同步门限和数据量的联合预测策略。通过弹性松弛同步方案可以有效地应对节点性能差异较大的集群环境带来的落伍问题,并且该策略具有很好的鲁棒性,并可以优化分布式训练的训练效率。本发明是一种针对计算节点的处理效率高、鲁棒性强的负载均衡方法。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种面向计算节点的负载均衡方法流程图;
图2是本发明实施例提供的一种面向计算节点的负载均衡装置框图;
图3是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明实施例提供了一种面向计算节点的负载均衡方法,该方法可以由电子设备实现,该电子设备可以是终端或服务器。如图1所示的一种面向计算节点的负载均衡方法流程图,该方法的处理流程可以包括如下的步骤:
S1、通过性能分析工具进行数据采集,获得节点性能数据。
其中,节点性能数据包括计算节点当前训练轮次的子数据集大小、当前训练轮次的训练总时长、节点迭代轮次的训练时长和节点在当前同步窗口下的迭代轮次次数。
一种可行的实施方式中,本发明中节点性能的依据是定义的节点性能因子P。该定义基于假设短期内节点的性能是较为稳定。在这个假设下,计算节点i在第j轮训练周期时的性能可以通过该轮训练周期中所拥有的子数据集大小和本轮训练时长/>来估计,其中||·||表示值大小,如下公式(1)所示:
为了节省计算性能,性能因子P只在每轮训练周期后重新计算。为了保持分布式训练的负载均衡,每个节点持有子数据集数据量应当依据P动态调整。
S2、基于改进的MMoE模型进行模型构建,获得待训练多目标联合预测模型。
其中,待训练多目标联合预测模型包括输入层、特征提取层和私有任务顶层。
一种可行的实施方式中,本发明要解决的技术问题是提供一种面向计算节点的负载均衡方法,能够实现有效地对分布式训练进行优化。基于此,本发明针对计算节点训练时的负载均衡问题,引入面向同步门限和数据量的联合预测策略和多目标联合预测模型,设计一种面向计算节点的负载均衡方法。
其中,输入层用于将待训练多目标联合预测模型的输入数据分为时序数据以及截面数据;
时序数据是输入数据中节点的训练行为信息;
截面数据是输入数据中节点在当前迭代周期的训练信息。
一种可行的实施方式中,在输入层中使用采集到的节点性能数据作为模型的输入,将预处理后得到的数据传递到共享特征提取底层。由于输入数据分为时序数据和截面数据。其中时序数据是历史训练过程中节点的行为信息,截面数据包括当前迭代周期中节点的训练信息。
其中,特征提取层包括特有底层模块以及共有底层模块;
特有底层模块包括LSTM特征提取网络以及MLP特征提取网络;LSTM特征提取网络的输入数据为时序数据;MLP特征提取网络的输入数据为截面数据;
共有底层模块用于提取与子任务相关的通用特征。
一种可行的实施方式中,本发明中任务的特征信息是在特征提取层完成的。但考虑负迁移很容易在任务相关性较弱时发生,造成了不可忽视的任务-样本依赖问题。为了减弱负迁移影响,考虑显式分离特有底层模块和共有底层模块,两个模块并行训练。
特有底层模块包含两个任务特有的特征提取网络。特征提取网络的输入考虑任务的差异性,将时序数据作为长短期记忆网络(Long Short-Term MemoryNetwork,LSTM)的输入,而多层感知机(Multi-Layer Perceptron,MLP)的输入是截面数据。
数据分区子任务使用2层神经元数目分别为16和8的LSTM网络。为了捕获时序数据的时间关系,在层间使用ReLu激活函数。此外,在各层间还引入了具有0.3随机失活率的DropOut层来强制部分神经元在训练中随机失活。
延迟同步子任务使用输入维度为2,输出维度为1的双隐藏层MLP网络。由于同步门限的预测是回归问题,因此采用MES损失函数来度量预测值和实际值间的差异。
共有底层模块则关注任务间的相关性,提取输入数据中与所有任务相关的通用特征,使用多任务学习模型模型(Multi gate Mixture of Experts,MMoE)对子任务执行多任务学习。
MMoE层作为融合预测架构的核心组件,由一组专家网络和门控网络构成。其核心任务是学习子任务的通用底层表示。本发明采用交叉验证进行超参数设置,使用4个32神经元的专家网络用于学习输入通用特征和2个预测子任务的相关性。输出将依据门控网络的权重分配,传递给任务私有底层。
其中,私有任务顶层用于将待训练多目标联合预测模型中MMoE层的输出转换为特定子任务的预测结果;
私有任务顶层由子任务的专用网络构成,子任务和专用网络的对应关系具备唯一性;
专用网络用于拟合子任务对应的预测结果。
一种可行的实施方式中,私有任务顶层位于MMoE层后,用于将MMoE层的输出转换为特定子任务的预测结果。
私有任务顶层由子任务的专用网络构成,每个任务拥有一个专用网络。专用网络是根据子任务特有的需求进行设计,用于拟合子任务对应的预测。其输入包含特有底层模块提取出的子任务特有的向量映射,和共有底层模块提取出的共享底层表示两部分。
专用网络均由全连接层和Sigmoid激活函数组成,实现对任务通用向量映射和特有映射拼接而成的特征向量进行降维处理,并最终得到预测结果。
S3、将节点性能数据进行动态分区,获得动态调整数据。
可选地,将节点性能数据进行动态分区,获得动态调整数据,包括:
将节点性能数据进行样本量动态调整,获得样本量调整数据;
将样本量调整数据进行数据集分区,获得动态调整数据。
一种可行的实施方式中,当数据集较大时,对于每个训练周期,数据集很难一次读入内存。因此,数据集D需要以一定的样本量B分批读入。则在讨论节点所持有的子数据集数据量时,应从样本量的角度入手。整个数据量的动态调整过程可以分为两个阶段,即样本量动态调整和数据集分区。
由公式(2)定义为第j+1轮训练周期中节点i持有的样本量/>占样本量B的比例。
且假如在下一轮训练周期中,持有样本量的节点完成训练的时长为T,则/>应满足数学表达式如下式(3)、(4):
将式(4)代入式(3)并进行重新排列后可得持有样本量进行训练的时长T估值如下式(5)所示:
则节点i持有的样本量在总样本中的占比/>可表示为数学表达式如下式(6)所示:
样本量动态调整算法将数据集的占比近似等于样本量的占比,因此,可以通过动态调整样本量来间接对节点的数据集进行划分。样本置应表现为一个整数。
但通过比率计算得到的数值有可能是个浮点数。因此,需要在尽可能少的引入误差的情况下将转换为整数。则舍入后的/>应在尽量满足样本总量之和保持不变的情况下最小化其误差,其满足的数学关系如下式(7)、(8):
使用舍入法对非整数的进行处理。先对/>向下取整得到/>处理后的样本量存在误差,误差的数学表达式如下式(9)所示:
为了减小舍入法对训练的影响,将误差k反馈到算法中,将k个处理后的样本量进行向上取整。但为了满足公式(8)保证舍入的方差最小,在向上取整前应先对原始样本值进行排序。这里排序的对象是样本值的小数部分/>选择排序后的前k个/>进行向上取整。
由于此时B′j+1的加和值应近似等于原始总样本量B,则归一化后的结果可以近似视为子数据集调整后的比例。数据集可基于B′j+1进行划分。得到的返回值是由两个列表Lj+1和Uj+1组成的向量[Lj+1,Uj+1]。则节点i的子数据集边界计算公式可表示为:
S4、将动态调整数据进行数据处理,获得训练数据。
一种可行的实施方式中,本发明中优化任务模型的输入是节点的实时性能数据。这些数据为优化任务提供了自适应性的基础。其中,优化任务主要关注的性能数据是计算节点的迭代周期时长IterTime,即参数服务节点端接收到的从节点端发来的连续两次推送请求之间的时间间隔。
同步门限thG定义为从一个固定阈值范围内动态选取的最优值thG∈[thG,L,thG,U],而每次选取的全局同步门限会和下限阈值之间产生迭代次数差E=thG-thG,L。因此模型的输出即可以定义为在当前迭代中的最佳迭代容差E。延迟同步子任务确定在超过用户指定的落伍阈值下限thG,L时,当前同步窗口中节点在其迭代结束后应继续运行多少次迭代。
在不同的训练场景中随机模拟各个计算节点的迭代时间间隔,并根据这些迭代时间间隔生成相应的TS值。然后将这些TS值输入同步控制器,计算出相应的E作为目标输出。从而得到了包含领先节点的迭代周期IterTime和迭代容差E的数据集。
为了生成用于训练预测模型的数据集,集合运行数据分区算法得到每个计算节点在历次训练中的实际表现。收集节点在每次训练过程中的子数据集数据量训练时长/>和样本量/>
S5、使用训练数据,对待训练多目标联合预测模型进行训练,获得训练后多目标联合预测模型。
一种可行的实施方式中,通过特征工程构建一个历史训练数据集。假设有N个节点,则每轮训练周期可以创建一个3×N维向量序列由N个节点在每次训练周期的DataSize、EpochTime和BatchSize构成。其中在第一轮训练周期时,由于训练数据没有历史依据来动态分区,因此DataSize的第一组样本应由均分后训练数据组成,即/>
由于动态分区任务是依据前轮节点子数据集数据量等信息预测下一轮分配给子数据集大小NextDataSize,因此NextDataSize可如图由DataSize整体提前一次训练周期得到。基于公式(11),可以得到每轮训练周期对应的四维向量序列NextDataSize。
NextDataSetj,i=DataSetj+1,i (11)
选定特征数据集为DataSize、EpochTime和BatchSize,标签数据集为。LSTM模型的输入需要为时序数据,则需要构造具有时间序列的特征数据集。T个时间步长的数据,则每个时间步长包含三个特征:EpochTime、历史被分配的子数据集数据量DataSize和历史被分配的样本量BatchSize。因此,输入层的规模为(B,T,3),其中B表示总样本量。根据得到的训练数据,对待训练多目标联合预测模型训练,获得训练后多目标联合预测模型。
S6、将训练后多目标联合预测模型,通过弹性松弛方案进行验证,验证结果为通过验证时,获得多目标联合预测模型。
可选地,将训练后多目标联合预测模型,通过弹性松弛方案进行验证之后,方法还包括:
当验证结果为未通过验证时,继续采集节点性能数据,对待训练多目标联合预测模型进行迭代训练。
一种可行的实施方式中,获得多目标联合预测模型后,采用弹性松弛方案进行验证,如果均衡负载的性能不能满足预期要求,则重新收集节点性能数据进行迭代训练。
其中,弹性松弛方案用于验证多目标联合预测模型的负载均衡性能;
弹性松弛方案通过调整同步门限,对负载节点的通信步调进行控制。
一种可行的实施方式中,弹性松弛同步方案的核心思想是允许计算节点在一定程度上超前于落伍节点进行迭代。同时为这种超前性赋予自适应特性,即通过对各计算节点持有数据量和同步条件的自适应调节手段,实现最小化领先节点的等待时间,提高整体训练效率。
弹性松弛同步方案为提高节点资源利用率,首先会在每轮训练周期开始前执行数据分区子任务对划分给计算节点的子数据集进行适应性调整。
而针对参数聚合环节中节点集群表现出的落伍现象,模型会执行延迟同步子任务自适应调整同步门限来控制计算节点的通信步调。这种调整是基于前一轮训练结果预测得出。
S7、输入待均衡节点性能数据,通过多目标联合预测模型进行负载均衡。
一种可行的实施方式中,本发明可以实现多个优化目标之间的信息共享。同时弹性松弛方案可以提供预测能力,可以有效地依据历史训练数据来预测下一轮训练数据,为优化训练过程提供更多信息。
将优化目标对应的子任务网络共同放在多目标联合预测模型中进行多任务学习时,当某个任务的训练数据质量较差或存在噪声时,多目标联合预测模型可以通过其他任务信息来降低这些不良影响,从而提高模型在各个任务上的性能。且这种多任务学习也可以帮助模型学到更多共享知识,提高对新数据的适应能力。
本发明提出一种面向计算节点的负载均衡方法,从聚合方案和节点计算负载两个角度实现对分布式训练的优化;通过提出的多目标联合预测模型,设计均衡节点负载的针对同步门限和数据量的联合预测策略。通过弹性松弛同步方案可以有效地应对节点性能差异较大的集群环境带来的落伍问题,并且该策略具有很好的鲁棒性,并可以优化分布式训练的训练效率。本发明是一种针对计算节点的处理效率高、鲁棒性强的负载均衡方法。
图2是根据一示例性实施例示出的一种面向计算节点的负载均衡装置框图。参照图2,该装置包括:
数据获取模块210,用于通过性能分析工具进行数据采集,获得节点性能数据;
模型构建模块220,用于基于改进的MMoE模型进行模型构建,获得待训练多目标联合预测模型;
数据动态调整模块230,用于将节点性能数据进行动态分区,获得动态调整数据;
数据处理模块240,用于将动态调整数据进行数据处理,获得训练数据;
模型训练模块250,用于使用训练数据,对待训练多目标联合预测模型进行训练,获得训练后多目标联合预测模型;
模型验证模块260,用于将训练后多目标联合预测模型,通过弹性松弛方案进行验证,验证结果为通过验证时,获得多目标联合预测模型;
负载均衡模块270,用于输入待均衡节点性能数据,通过多目标联合预测模型进行负载均衡。
其中,节点性能数据包括计算节点当前训练轮次的子数据集大小、当前训练轮次的训练总时长、节点迭代轮次的训练时长和节点在当前同步窗口下的迭代轮次次数。
其中,待训练多目标联合预测模型包括输入层、特征提取层和私有任务顶层。
其中,输入层用于将待训练多目标联合预测模型的输入数据分为时序数据以及截面数据;
时序数据是输入数据中节点的训练行为信息;
截面数据是输入数据中节点在当前迭代周期的训练信息。
其中,特征提取层包括特有底层模块以及共有底层模块;
特有底层模块包括LSTM特征提取网络以及MLP特征提取网络;LSTM特征提取网络的输入数据为时序数据;MLP特征提取网络的输入数据为截面数据;
共有底层模块用于提取与子任务相关的通用特征。
其中,私有任务顶层用于将待训练多目标联合预测模型中MMoE层的输出转换为特定子任务的预测结果;
私有任务顶层由子任务的专用网络构成,子任务和专用网络的对应关系具备唯一性;
专用网络用于拟合子任务对应的预测结果。
可选地,数据动态调整模块230,进一步用于:
将节点性能数据进行样本量动态调整,获得样本量调整数据;
将样本量调整数据进行数据集分区,获得动态调整数据。
可选地,模型验证模块260,还用于:
当验证结果为未通过验证时,继续采集节点性能数据,对待训练多目标联合预测模型进行迭代训练。
其中,弹性松弛方案用于验证多目标联合预测模型的负载均衡性能;
弹性松弛方案通过调整同步门限,对负载节点的通信步调进行控制。
本发明提出一种面向计算节点的负载均衡方法,从聚合方案和节点计算负载两个角度实现对分布式训练的优化;通过提出的多目标联合预测模型,设计均衡节点负载的针对同步门限和数据量的联合预测策略。通过弹性松弛同步方案可以有效地应对节点性能差异较大的集群环境带来的落伍问题,并且该策略具有很好的鲁棒性,并可以优化分布式训练的训练效率。本发明是一种针对计算节点的处理效率高、鲁棒性强的负载均衡方法。
图3是本发明实施例提供的一种电子设备300的结构示意图,该电子设备300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)301和一个或一个以上的存储器302,其中,所述存储器302中存储有至少一条指令,所述至少一条指令由所述处理器301加载并执行以实现上述一种面向计算节点的负载均衡方法的步骤。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述一种面向计算节点的负载均衡方法。例如,所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种面向计算节点的负载均衡方法,其特征在于,所述方法包括:
通过性能分析工具进行数据采集,获得节点性能数据;
基于改进的MMoE模型进行模型构建,获得待训练多目标联合预测模型;
将所述节点性能数据进行动态分区,获得动态调整数据;
将所述动态调整数据进行数据处理,获得训练数据;
使用所述训练数据,对所述待训练多目标联合预测模型进行训练,获得训练后多目标联合预测模型;
将所述训练后多目标联合预测模型,通过弹性松弛方案进行验证,验证结果为通过验证时,获得多目标联合预测模型;
输入待均衡节点性能数据,通过所述多目标联合预测模型进行负载均衡。
2.根据权利要求1所述的一种面向计算节点的负载均衡方法,其特征在于,所述节点性能数据包括计算节点当前训练轮次的子数据集大小、当前训练轮次的训练总时长、节点迭代轮次的训练时长和节点在当前同步窗口下的迭代轮次次数。
3.根据权利要求1所述的一种面向计算节点的负载均衡方法,其特征在于,所述待训练多目标联合预测模型包括输入层、特征提取层和私有任务顶层。
4.根据权利要求3所述的一种面向计算节点的负载均衡方法,其特征在于,所述输入层用于将待训练多目标联合预测模型的输入数据分为时序数据以及截面数据;
所述时序数据是输入数据中节点的训练行为信息;
所述截面数据是输入数据中节点在当前迭代周期的训练信息。
5.根据权利要求3所述的一种面向计算节点的负载均衡方法,其特征在于,所述特征提取层包括特有底层模块以及共有底层模块;
所述特有底层模块包括LSTM特征提取网络以及MLP特征提取网络;所述LSTM特征提取网络的输入数据为时序数据;所述MLP特征提取网络的输入数据为截面数据;
所述共有底层模块用于提取与子任务相关的通用特征。
6.根据权利要求3所述的一种面向计算节点的负载均衡方法,其特征在于,所述私有任务顶层用于将待训练多目标联合预测模型中MMoE层的输出转换为特定子任务的预测结果;
所述私有任务顶层由子任务的专用网络构成,子任务和专用网络的对应关系具备唯一性;
所述专用网络用于拟合子任务对应的预测结果。
7.根据权利要求1所述的一种面向计算节点的负载均衡方法,其特征在于,所述将所述节点性能数据进行动态分区,获得动态调整数据,包括:
将所述节点性能数据进行样本量动态调整,获得样本量调整数据;
将所述样本量调整数据进行数据集分区,获得动态调整数据。
8.根据权利要求1所述的一种面向计算节点的负载均衡方法,其特征在于,所述将所述训练后多目标联合预测模型,通过弹性松弛方案进行验证之后,所述方法还包括:
当验证结果为未通过验证时,继续采集节点性能数据,对所述待训练多目标联合预测模型进行迭代训练。
9.根据权利要求1所述的一种面向计算节点的负载均衡方法,其特征在于,所述弹性松弛方案用于验证多目标联合预测模型的负载均衡性能;
所述弹性松弛方案通过调整同步门限,对负载节点的通信步调进行控制。
10.一种面向计算节点的负载均衡装置,其特征在于,所述装置包括:
数据获取模块,用于通过性能分析工具进行数据采集,获得节点性能数据;
模型构建模块,用于基于改进的MMoE模型进行模型构建,获得待训练多目标联合预测模型;
数据动态调整模块,用于将所述节点性能数据进行动态分区,获得动态调整数据;
数据处理模块,用于将所述动态调整数据进行数据处理,获得训练数据;
模型训练模块,用于使用所述训练数据,对所述待训练多目标联合预测模型进行训练,获得训练后多目标联合预测模型;
模型验证模块,用于将所述训练后多目标联合预测模型,通过弹性松弛方案进行验证,验证结果为通过验证时,获得多目标联合预测模型;
负载均衡模块,用于输入待均衡节点性能数据,通过所述多目标联合预测模型进行负载均衡。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311026576.0A CN117176730A (zh) | 2023-08-15 | 2023-08-15 | 一种面向计算节点的负载均衡方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311026576.0A CN117176730A (zh) | 2023-08-15 | 2023-08-15 | 一种面向计算节点的负载均衡方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117176730A true CN117176730A (zh) | 2023-12-05 |
Family
ID=88929026
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311026576.0A Pending CN117176730A (zh) | 2023-08-15 | 2023-08-15 | 一种面向计算节点的负载均衡方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117176730A (zh) |
-
2023
- 2023-08-15 CN CN202311026576.0A patent/CN117176730A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107888669B (zh) | 一种基于深度学习神经网络的大规模资源调度系统及方法 | |
CN110737529B (zh) | 一种面向短时多变大数据作业集群调度自适应性配置方法 | |
CN114756383B (zh) | 一种分布式计算方法、系统、设备及存储介质 | |
CN111274036B (zh) | 一种基于速度预测的深度学习任务的调度方法 | |
CN111079921A (zh) | 一种基于异构分布式系统的高效神经网络训练调度方法 | |
CN110348571A (zh) | 一种神经网络模型训练方法、装置、芯片和系统 | |
CN115186821B (zh) | 面向芯粒的神经网络推理开销估计方法及装置、电子设备 | |
Shirvani et al. | A novel hybrid heuristic-based list scheduling algorithm in heterogeneous cloud computing environment for makespan optimization | |
US20130268941A1 (en) | Determining an allocation of resources to assign to jobs of a program | |
CN109445386B (zh) | 一种基于onba的云制造任务最短生产时间调度方法 | |
CN113822173A (zh) | 基于节点归并和路径预测的行人属性识别训练加速方法 | |
CN117909044A (zh) | 面向异构计算资源的深度强化学习协同调度方法及装置 | |
CN118193209A (zh) | 一种基于阶段性策略梯度的预测式云平台资源调度方法 | |
CN114936708A (zh) | 基于边云协同任务卸载的故障诊断优化方法及电子设备 | |
Pérez et al. | Parallel/distributed implementation of cellular training for generative adversarial neural networks | |
CN110262896A (zh) | 一种面向Spark系统的数据处理加速方法 | |
CN117176730A (zh) | 一种面向计算节点的负载均衡方法及装置 | |
CN116996941A (zh) | 基于配网云边端协同的算力卸载方法、装置及系统 | |
CN106844024A (zh) | 一种自学习运行时间预测模型的gpu/cpu调度方法及系统 | |
Beaumont et al. | MadPipe: Memory aware dynamic programming algorithm for pipelined model parallelism | |
CN112948087A (zh) | 一种基于拓扑排序的任务调度方法及系统 | |
Li et al. | An efficient multicore based parallel computing approach for TSP problems | |
TWI776212B (zh) | 用於積體電路加速器之系統、方法及電腦儲存媒體 | |
CN111274030B (zh) | 一种面向应用特征的高效多处理器片上系统设计空间开采方法 | |
Zou et al. | Scalable Heterogeneous Scheduling Based Model Parallelism for Real-Time Inference of Large-Scale Deep Neural Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |