CN114528094A - 基于lstm和遗传算法的分布式系统资源优化分配方法 - Google Patents

基于lstm和遗传算法的分布式系统资源优化分配方法 Download PDF

Info

Publication number
CN114528094A
CN114528094A CN202210041802.1A CN202210041802A CN114528094A CN 114528094 A CN114528094 A CN 114528094A CN 202210041802 A CN202210041802 A CN 202210041802A CN 114528094 A CN114528094 A CN 114528094A
Authority
CN
China
Prior art keywords
job
genetic algorithm
lstm
value
optimal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210041802.1A
Other languages
English (en)
Inventor
胡亚红
潘恩宇
毛家发
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202210041802.1A priority Critical patent/CN114528094A/zh
Publication of CN114528094A publication Critical patent/CN114528094A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/086Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于LSTM时间预测模型和遗传算法的资源分配方法,包括:1)进行基于LSTM网络的作业执行时间预测模型的训练;2)使用遗传算法为批作业中每个作业分配合理的资源量;把遗传算法的适应度函数改为基于LSTM的时间预测模型,通过遗传算法的选择,交叉,变异,迭代出适合每个作业的资源量大小;3)使用基于遗传算法的资源分配算法针对不同作业给予不同的资源量;当Spark分布式计算框架收到作业时,将根据不同的作业能使用的集群资源量进行计算,得到作业最短的处理时间。将需要处理的批作业信息提交后,本发明能够给出各作业的优化资源分配方案,从而达到批作业运行时间最短的优化目标。

Description

基于LSTM和遗传算法的分布式系统资源优化分配方法
技术领域
本发明涉及神经网络、任务调度和优化算法领域,通过神经网络设计了一个时间预测模型,通过时间预测模型和优化算法相结合,运用到资源分配中,使得用户作业能分配到合适的资源量,来达到用户作业执行时间最短的优化目标。
背景技术
在分布式计算环境中,分配给作业的资源量决定了作业的执行速度。研究表明,分配过多的资源给作业不但不能缩短作业的运行时间,反而会增加作业运行节点间的通信开销,导致作业的执行时间变长。因此非常有必要研究分布式系统的资源分配方法,为每个作业分配最合适的资源量。
发明内容
本发明要克服现有技术的上述缺点,提供一种基于LSTM和遗传算法的分布式系统资源优化分配方法。
本发明通过LSTM时间预测模型,结合遗传算法来对用户作业进行资源分配。来解决了以往默认调度环境下没有针对用户作业分配资源量大小的缺点。
本发明基于LSTM和遗传算法的分布式系统资源优化分配方法,包括以下步骤:
1)进行基于LSTM网络的作业执行时间预测模型的训练。LSTM网络的输入为作业的信息,输出信息为作业的运行时间。
2)使用遗传算法为批作业中每个作业分配合理的资源量。把遗传算法的适应度函数改为基于LSTM的时间预测模型,通过遗传算法的选择,交叉,变异,迭代出适合每个作业的资源量大小。
3)使用基于遗传算法的资源分配算法针对不同作业给予不同的资源量。当Spark分布式计算框架收到作业时,将根据不同的作业能使用的集群资源量来进行计算,以得到作业最短的处理时间。
进一步,步骤1)具体包括:
1.1)在集群运行过程中,对用户作业的运行时间影响因素进行分析,最终确定了五个用户作业执行时间的影响因子:作业类型、作业的数据量、作业使用的CPU核数、作业使用的内存大小和作业使用的节点数;
1.2)在真实分布式集群中运行不同的作业(描述作业的参数为作业类型、数据量、作业使用的CPU核数、内存大小和节点数),收集作业运行时间,作为时间预测模型的训练和测试数据;
1.3)基于LSTM的时间预测模型的输入分别是作业类型、作业数据量、作业使用的为作业类型、作业的数据量、作业使用的CPU核数、内存大小和节点数,模型输出为作业的运行时间;
模型所采用的损失函数为均方差(Mean Square Error,MSE),计算方法如下:
Figure BDA0003470569420000021
其中,yi表示作业的真实运行时间,
Figure BDA0003470569420000022
表示作业的预测执行时间,m是作业样本数量;
1.4)进行模型超参数的选择;对于学习率的取值,采用分步实验的方法;首先,针对经典的学习率取值进行实验,用迭代过程中对应的损失值来确定最佳学习率的量级;随后,调整此量级中学习率的数值,进一步进行试验,最终得到最佳的学习率;对于迭代次数,使用不同的迭代次数进行实验,取对应的损失值最小的数据作为最优迭代次数;选取不同的网络层数进行模型运行,取对应的损失值最小的数据作为最优网络层数;选取不同的Dropout率进行模型运行,取对应的损失值最小的数据作为最优Dropout率;
隐藏层节点个数使用下面的经验公式和实验确定;
Figure BDA0003470569420000023
其中nh,ni,no分别代表是神经网络的隐含层节点数、输入层节点数和输出层的节点数。确定隐藏层节点个数的优化搜索算法包括下面几步:
(a)确定隐含层节点数的初始取值区间;
(b)取值区间缩小;
(c)取值区间拓展;
(d)确定最优隐藏层节点数。
进一步,步骤2)具体包括:
2.1)进行染色体编码设计;染色体用以描述集群需要处理的用户作业信息,采用二进制编码;染色体中,每个作业占据相同的位数,分别表示作业类型、作业的数据量、作业使用的CPU核数、内存大小和节点数;
2.2)根据需要处理的批作业生成初始种群;按照染色体的产生规则生成个体;因为每个作业的类型和数据量是固定的,因而染色体中所对应的编码取值是确定的,其它各位的编码则为随机生成的0或1;如果此个体不符合应用背景,如内存为0,或者CPU核数为0,则进行舍弃;
2.3)使用基于LSTM的时间预测模型作为遗传算法的适应度函数;
2.4)选择操作是根据适应度函数选择出性能优秀的个体进入下一步的迭代。本文中选择的是轮盘赌选择策略,这是最基本的选择策略之一,种群中的个体被选中的概率与个体相应的适应度函数的值成正比;将种群中所有个体的适应度值进行累加然后归一化,对随机数落在的区域对应的个体进行选取本文中即找出能够使得批作业执行时间较短的资源分配方案;
2.5)交叉操作按照一定的概率随机选择两个父代个体的部分结构加以替换重组而生成新个体,是获得优良新个体的重要方法。本文的交叉操作是在保持每一个作业的数据和类型不变的前提下,对染色体的其余部分进行随机交换,交叉是遗传算法中产生新个体的主要方法,所以交叉概率一般取值是比较大的;但是一旦取值过大,也会破坏种群中的良好状态,对进化产生不利的影响;若取值过小的话,会导致产生新个体的速度太慢,本发明中选取了合适的交叉概率使用;
2.6)变异是以很小的变异概率随机地改变种群中个体的某些基因的值。根据资源分配的特点,本文中的变异操作规定对染色体中对作业的数据和类型两部分内容以外的编码进行随机变异,对于变异概率:若变异概率取值较大的话,虽然可以产生比较多的新个体,但也可能导致破坏一些好的个体,使得遗传算法的性能接近随机搜索算法的性能;若变异概率取值太小的话,会使得变异;
2.7)对步骤2.4)、2.5)和2.6)进行迭代,在迭代一定次数后得到各作业的最优资源分配方案。
进一步,步骤3)具体包括:
3.1)在真实分布式集群中运行不同作业类型,作业数据量大小,对应不同节点数,内存大小,CPU核数得出作业的运行时间,得到一定的数据量之后构建基于LSTM的时间预测模型;;
3.2)使用步骤2)中的遗传算法为批作业中的每个作业找到适合的资源分配方案;
3.3)在Spark集群中为每个作业分配指定的资源分配方案,进行作业的执行。
进一步,步骤1)所述的LSTM网络的输入为作业的信息,包括作业类型和数据量、需要的内存、CPU核数,以及节点数。
本发明主要包括两部分,即基于LSTM的时间预测方法和基于遗传算法的资源分配方法。对于时间预测模型,首先基于作业的历史运行数据对LSTM时间预测模型进行训练,找到最合适的超参数。时间预测方法能够根据作业的特性和其使用的资源量预测出作业运行时间。基于遗传算法的资源分配方法中,将作业运行时间作为遗传算法的适应度函数。染色体表示作业的信息,即作业类型和数据量、需要的内存、CPU核数,以及节点数,采用二进制编码进行染色体的编码。将需要处理的批作业信息提交后,本发明能够给出各作业的优化资源分配方案,从而达到批作业运行时间最短的优化目标。
本发明的优点是:考虑节点间数据传输的消耗,尽可能使用少的节点完成作业;同时针对不同作业的特点,找到作业最合适的资源量分配方案,得到最优执行时间。
附图说明
图1是本发明流程图。
图2是本发明的时间预测模型。
图3时间预测模型学习率为0.1时的均方差。
图4时间预测模型学习率为0.01时的均方差。
图5时间预测模型不同迭代次数的均方差。
图6是本发明的遗传算法。
图7是本发明的遗传算法编码方式。
具体实施方式
下面结合附图进一步说明本发明。
本实施例提出一种针对1G的WordCount作业的基于LSTM和遗传算法的分布式系统资源优化分配方法,包括以下步骤:
1)使用真实集群对不同类型不同数据量大小的任务进行运算,得到相应任务的执行时间。建立基于LSTM网络的时间预测模型,把历史数据放入到模型当中进行训练,同时对LSTM网络参数进行优化,得到适合此历史数据的时间预测模型;
2)设计基于集群资源分配的遗传算法,通过对作业编码,种群初始化,把适应度函数用时间预测模型来代替,再经过选择,交叉,变异,通过遗传算法的迭代优化对其进行合理资源量的分配,来得到批作业的最短处理时间。
3)对Spark默认的调度方法进行修改。在用户提交作业后,使用遗传算法来对任务作业使用的资源量进行分配,让每个作业得到合适的集群资源分配,使得作业执行时间变短。
步骤1)提出了基于LSTM循环神经网络的用户作业时间预测模型,具体包括:
1.1)在集群运行过程中,对用户作业的运行时间影响因素进行分析,最终确定了五个用户作业执行时间的影响因子:作业类型、作业的数据量、作业使用的CPU核数、作业使用的内存大小和作业使用的节点数。
1.2)在真实分布式集群中运行不同的作业(描述作业的参数为作业类型、数据量、作业使用的CPU核数、内存大小和节点数),收集作业运行时间,作为时间预测模型的训练和测试数据。
1.3)如图2模型的输入x1,x2,x3,x4,x5分别是作业类型、作业数据量、作业使用的CPU核数、作业使用的内存大小和作业使用的节点数量。y是模型的输出。
此模型所采用的损失函数为均方差(Mean Square Error,MSE),计算方法如下:
Figure BDA0003470569420000051
其中,yi表示作业的真实运行时间,
Figure BDA0003470569420000052
表示作业的预测执行时间,m是作业样本数量。
1.4)进行模型超参数选择。在模型建立的过程中,超参数的选取对模型的预测结果好坏起到了非常至关重要的影响。所有在确定最后的训练模型时,需要进行实验的对比来确定模型。本专利对超参数的选择也提出了方法。对于学习率和迭代次数,本专利采用分步实验的方法。首先,针对经典的学习率取值进行实验,用迭代过程中对应的损失值来确定最佳学习率的量级。随后,调整此量级中学习率的数值,进一步进行试验,如图3,4,最终得到最佳的学习率0.02。通过图5确定网络迭代次数为300次。对于网络层数来说,增加网络层数会提高模型的测试精度,但对于LSTM来说,一味地增加网络层数会导致模型过于复杂,因此通过测试选择最合适的模型层数为2层。对于隐藏层数和Dropout率来说,神经网络中的隐藏层能够帮助网络模型学习数据之间隐藏的关联。隐藏层节点个数过少,会导致模型无法充分发掘各个参数之间的隐性关系,导致预测效果差;若隐藏层节点过多,则容易发生过拟合现象,同时使得网络变得过于复杂,增加训练网络的时间。给出了确定隐藏层节点个数的经验公式:
Figure BDA0003470569420000053
其中nh,ni,no分别代表是神经网络的隐含层节点数、输入层节点数和输出层的节点数。确定隐藏层节点个数的优化搜索算法包括下面几步:
(a)确定隐含层节点数的初始取值区间。由公式(2)可知,初始取值区间为[a,b]。本文中ni=5,no=1因此计算得到a=3,b=16。因此隐含层节点数的初始取值区间为[3,16]。
(b)取值区间缩小。通过黄金分割比例公式计算第一个试验点x1=0.618×(b-a)+a=0.618×13+3=11和第二个试验点x2=0.382×(b-a)+a=0.382×13+3=8。通过实验得到,隐藏层节点数为11对应的网络损失误差小于隐藏层为8的对应值,所以将区间缩小为[8,16]。
(c)取值区间拓展。使用黄金分割法计算拓展值c,使得16=0.618*(c-a)+a,则c=24。因此拓展区间为[16,24]。
(d)确定最优隐藏层节点数。结合(b)(c)的结果,确定隐藏层节点的取值区间为[8,24]。在此取值区间进行实验,得到各节点数所对应的MSE、MAE和MAPE,如表1所示。可以看到,当隐藏层节点数为24时,网络性能最佳,因此隐藏层节点数取为24。
设置Dropout率是为了有效降低过拟合现象的发生概率,起到正则化的作用。本发明针对选择了合适的Dropout率。通过对比实验确定DropOut取值为0.1。
步骤2)采用了遗传算法对不同用户作业进行任务资源量分配,具体包括:
2.1)进行染色体编码设计。如图7染色体用以描述集群需要处理的用户作业信息,采用二进制编码。染色体中,每个作业占据相同的位数,分别表示作业类型、作业的数据量、作业使用的CPU核数、内存大小和节点数。
2.2)根据需要处理的批作业生成初始种群。按照染色体的产生规则生成个体。因为每个作业的类型和数据量是固定的,因而染色体中所对应的编码取值是确定的,其它各位的编码则为随机生成的0或1。如果此个体不符合应用背景,如内存为0,或者CPU核数为0,则进行舍弃。
2.3)使用基于LSTM的时间预测模型作为遗传算法的适应度函数。
2.4)选择操作是根据适应度函数选择出性能优秀的个体进入下一步的迭代。本文中选择的是轮盘赌选择策略,这是最基本的选择策略之一,种群中的个体被选中的概率与个体相应的适应度函数的值成正比。将种群中所有个体的适应度值进行累加然后归一化,对随机数落在的区域对应的个体进行选取本文中即找出能够使得批作业执行时间较短的资源分配方案;
2.5)交叉操作按照一定的概率随机选择两个父代个体的部分结构加以替换重组而生成新个体,是获得优良新个体的重要方法。本文的交叉操作是在保持每一个作业的数据和类型不变的前提下,对染色体的其余部分进行随机交换,交叉是遗传算法中产生新个体的主要方法,所以交叉概率一般取值是比较大的。但是一旦取值过大,也会破坏种群中的良好状态,对进化产生不利的影响;若取值过小的话,会导致产生新个体的速度太慢,本发明中选取了合适的交叉概率使用;
2.6)变异是以很小的变异概率随机地改变种群中个体的某些基因的值。根据资源分配的特点,本文中的变异操作规定对染色体中对作业的数据和类型两部分内容以外的编码进行随机变异,对于变异概率:若变异概率取值较大的话,虽然可以产生比较多的新个体,但也可能导致破坏一些好的个体,使得遗传算法的性能接近随机搜索算法的性能;若变异概率取值太小的话,会使得变异;
2.7)对步骤2.4)、2.5)和2.6)进行迭代,在迭代一定次数后得到各作业的最优资源分配方案。
步骤3)通过Spark大数据分布式框架来验证算法系统的有效性,具体包括:
3.1)在真实集群中搭建5个节点分别是在Master拥有2个CPU内核,5G内存,80G磁盘;Slave1拥有2个CPU内核,5G内存,40G磁盘,拥有2个CPU内核,5G内存,80G磁盘;Slave3拥有1个CPU内核,5G内存,40G磁盘;Slave4拥有1个CPU内核,5G内存,40G磁盘;真实分布式集群中运行基于BigDataBench生成作业不同数据量的WordCount和Sort,然后进行实验针对不同节点数,内存大小,CPU核数得出作业的运行时间,得到一定的数据量之后基于步骤1)构建相应的时间预测模型。
3.2)将时间预测模型当作步骤2)的遗传算法中的适应度函数,通过遗传算法的迭代得出每个作业适合的作业资源量。
3.3)当集群收到作业提交时,先把作业类型和作业数据量提交到遗传算法中运行,结合集群资源量得出最优的资源分配策略,再向Spark集群提交相应的作业资源量,如针对1G的WordCount作业,通过本发明的方法可以得出分配Master节点的1个CPU内核和3G内存,Slave1节点的1个CPU内核和3G内存,Slave2节点的1个CPU内核和3G内存,同时运行时间减少了9.89%。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (5)

1.基于LSTM和遗传算法的分布式系统资源优化分配方法,其特征在于,包括以下步骤:
1)进行基于LSTM网络的作业执行时间预测模型的训练;LSTM网络的输入为作业的信息(包括作业类型和数据量、需要的内存、CPU核数,以及节点数),输出信息为作业的运行时间;
2)使用遗传算法为批作业中每个作业分配合理的资源量;把遗传算法的适应度函数改为基于LSTM的时间预测模型,通过遗传算法的选择,交叉,变异,迭代出适合每个作业的资源量大小;
3)使用基于遗传算法的资源分配算法针对不同作业给予不同的资源量;当Spark分布式计算框架收到作业时,将根据不同的作业能使用的集群资源量进行计算,以得到作业最短的处理时间。
2.根据权利要求1所述的基于LSTM和遗传算法的分布式系统资源优化分配方法,特征在于:步骤1)具体包括:
1.1)在集群运行过程中,对用户作业的运行时间影响因素进行分析,最终确定了五个用户作业执行时间的影响因子:作业类型、作业的数据量、作业使用的CPU核数、作业使用的内存大小和作业使用的节点数;
1.2)在真实分布式集群中运行不同的作业(描述作业的参数为作业类型、数据量、作业使用的CPU核数、内存大小和节点数),收集作业运行时间,作为时间预测模型的训练和测试数据;
1.3)基于LSTM的时间预测模型的输入分别是作业类型、作业数据量、作业使用的为作业类型、作业的数据量、作业使用的CPU核数、内存大小和节点数,模型输出为作业的运行时间;
模型所采用的损失函数为均方差(Mean Square Error,MSE),计算方法如下:
Figure FDA0003470569410000011
其中,yi表示作业的真实运行时间,
Figure FDA0003470569410000012
表示作业的预测执行时间,m是作业样本数量;
1.4)进行模型超参数的选择;对于学习率的取值,采用分步实验的方法;首先,针对经典的学习率取值进行实验,用迭代过程中对应的损失值来确定最佳学习率的量级;随后,调整此量级中学习率的数值,进一步进行试验,最终得到最佳的学习率;对于迭代次数,使用不同的迭代次数进行实验,取对应的损失值最小的数据作为最优迭代次数;选取不同的网络层数进行模型运行,取对应的损失值最小的数据作为最优网络层数;选取不同的Dropout率进行模型运行,取对应的损失值最小的数据作为最优Dropout率;
隐藏层节点个数使用下面的经验公式和实验确定;
Figure FDA0003470569410000021
其中nh,ni,no分别代表是神经网络的隐含层节点数、输入层节点数和输出层的节点数。确定隐藏层节点个数的优化搜索算法包括下面几步:
(a)确定隐含层节点数的初始取值区间;
(b)取值区间缩小;
(c)取值区间拓展;
(d)确定最优隐藏层节点数。
3.根据权利要求1所述的基于LSTM和遗传算法的分布式系统资源优化分配方法,特征在于:步骤2)具体包括:
2.1)进行染色体编码设计;染色体用以描述集群需要处理的用户作业信息,采用二进制编码;染色体中,每个作业占据相同的位数,分别表示作业类型、作业的数据量、作业使用的CPU核数、内存大小和节点数;
2.2)根据需要处理的批作业生成初始种群;按照染色体的产生规则生成个体;因为每个作业的类型和数据量是固定的,因而染色体中所对应的编码取值是确定的,其它各位的编码则为随机生成的0或1;如果此个体不符合应用背景,如内存为0,或者CPU核数为0,则进行舍弃;
2.3)使用基于LSTM的时间预测模型作为遗传算法的适应度函数;
2.4)选择操作是根据适应度函数选择出性能优秀的个体进入下一步的迭代;本文中选择的是轮盘赌选择策略,这是最基本的选择策略之一,种群中的个体被选中的概率与个体相应的适应度函数的值成正比;将种群中所有个体的适应度值进行累加然后归一化,对随机数落在的区域对应的个体进行选取本文中即找出能够使得批作业执行时间较短的资源分配方案;
2.5)交叉操作按照一定的概率随机选择两个父代个体的部分结构加以替换重组而生成新个体,是获得优良新个体的重要方法;本文的交叉操作是在保持每一个作业的数据和类型不变的前提下,对染色体的其余部分进行随机交换,交叉是遗传算法中产生新个体的主要方法,所以交叉概率一般取值是比较大的;但是一旦取值过大,也会破坏种群中的良好状态,对进化产生不利的影响;若取值过小的话,会导致产生新个体的速度太慢,本发明中选取了合适的交叉概率使用;
2.6)变异是以很小的变异概率随机地改变种群中个体的某些基因的值;根据资源分配的特点,本文中的变异操作规定对染色体中对作业的数据和类型两部分内容以外的编码进行随机变异,对于变异概率:若变异概率取值较大的话,虽然可以产生比较多的新个体,但也可能导致破坏一些好的个体,使得遗传算法的性能接近随机搜索算法的性能;若变异概率取值太小的话,会使得变异;
2.7)对步骤2.4)、2.5)和2.6)进行迭代,在迭代一定次数后得到各作业的最优资源分配方案。
4.根据权利要求1所述的基于LSTM和遗传算法的分布式系统资源优化分配方法,特征在于:步骤3)具体包括:
3.1)在真实分布式集群中运行不同作业类型,作业数据量大小,对应不同节点数,内存大小,CPU核数得出作业的运行时间,得到一定的数据量之后构建基于LSTM的时间预测模型;;
3.2)使用步骤2)中的遗传算法为批作业中的每个作业找到适合的资源分配方案;
3.3)在Spark集群中为每个作业分配指定的资源分配方案,进行作业的执行。
5.如权利要求1所述的基于LSTM和遗传算法的分布式系统资源优化分配方法,其特征在于,其特征在于:步骤1)所述的LSTM网络的输入为作业的信息,包括作业类型和数据量、需要的内存、CPU核数,以及节点数。
CN202210041802.1A 2022-01-14 2022-01-14 基于lstm和遗传算法的分布式系统资源优化分配方法 Pending CN114528094A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210041802.1A CN114528094A (zh) 2022-01-14 2022-01-14 基于lstm和遗传算法的分布式系统资源优化分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210041802.1A CN114528094A (zh) 2022-01-14 2022-01-14 基于lstm和遗传算法的分布式系统资源优化分配方法

Publications (1)

Publication Number Publication Date
CN114528094A true CN114528094A (zh) 2022-05-24

Family

ID=81621580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210041802.1A Pending CN114528094A (zh) 2022-01-14 2022-01-14 基于lstm和遗传算法的分布式系统资源优化分配方法

Country Status (1)

Country Link
CN (1) CN114528094A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117277314A (zh) * 2023-11-21 2023-12-22 深圳航天科创泛在电气有限公司 风电功率预测方法、装置、电子设备及可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117277314A (zh) * 2023-11-21 2023-12-22 深圳航天科创泛在电气有限公司 风电功率预测方法、装置、电子设备及可读存储介质
CN117277314B (zh) * 2023-11-21 2024-03-08 深圳航天科创泛在电气有限公司 风电功率预测方法、装置、电子设备及可读存储介质

Similar Documents

Publication Publication Date Title
He et al. Damage detection by an adaptive real-parameter simulated annealing genetic algorithm
CN110390345B (zh) 一种基于云平台的大数据集群自适应资源调度方法
CN109840154B (zh) 一种移动云环境下基于任务依赖的计算迁移方法
CN107506865B (zh) 一种基于lssvm优化的负荷预测方法及系统
CN111861013B (zh) 一种电力负荷预测方法及装置
CN114186749B (zh) 基于强化学习及遗传算法的柔性车间调度方法及模型
CN108052387B (zh) 一种移动云计算中的资源分配预测方法及系统
CN109445386B (zh) 一种基于onba的云制造任务最短生产时间调度方法
CN112036651A (zh) 基于量子免疫优化bp神经网络算法的电价预测方法
CN113391894A (zh) 一种基于rbp神经网络的最优超任务网优化方法
CN114880806A (zh) 基于粒子群优化的新能源汽车销量预测模型参数优化方法
CN114528094A (zh) 基于lstm和遗传算法的分布式系统资源优化分配方法
CN115481727A (zh) 一种基于进化计算的意图识别神经网络生成与优化方法
CN108108554B (zh) 一种多材料车身装配顺序规划优化方法
CN114004153A (zh) 一种基于多源数据融合的侵彻深度预测方法
CN117093885A (zh) 融合分层聚类和粒子群的联邦学习多目标优化方法
CN113285832B (zh) 基于nsga-ii的电力多模态网络资源优化分配方法
CN113128771B (zh) 一种并行差分进化算法的昂贵函数寻优方法及其装置
CN115421885A (zh) 一种分布式多目标云任务的调度方法、装置及云服务系统
CN114625886A (zh) 基于知识图谱小样本关系学习模型的实体查询方法及系统
CN114546609A (zh) 一种面向异构集群的dnn推理任务批调度方法
CN116502286B (zh) 一种基于边缘计算的标准信息的服务方法及其系统
CN113269350B (zh) 基于灰色gm(1,1)模型的变压器故障预测方法
CN117726149B (zh) 一种基于人工智能的智能制造资源配置方法和系统
CN112764906B (zh) 一种基于用户作业类型及节点性能偏向性的集群资源调度方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination