CN110149237A - 一种Hadoop平台计算节点负载预测方法 - Google Patents
一种Hadoop平台计算节点负载预测方法 Download PDFInfo
- Publication number
- CN110149237A CN110149237A CN201910510953.5A CN201910510953A CN110149237A CN 110149237 A CN110149237 A CN 110149237A CN 201910510953 A CN201910510953 A CN 201910510953A CN 110149237 A CN110149237 A CN 110149237A
- Authority
- CN
- China
- Prior art keywords
- load
- sequence
- value
- formula
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/147—Network analysis or design for predicting network behaviour
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Complex Calculations (AREA)
Abstract
本发明提出一种Hadoop平台计算节点负载预测方法,包括:基于滑动窗口二次检测算法的数据预处理方法;基于ARIMA算法的节点负载线性预测方法;基于RNN算法的节点负载非线性残差预测方法;将ARIMA算法与RNN算法预测出来的结果进行线性相加作为最终的预测结果;本发明通过对各个结算节点历史数据的分析,可以提取有价值的信息,进而合理预测下一时间段内的计算节点的负载,精确预测计算节点的负载可以为资源管理器合理地给AppMaster分配资源提供依据,进而缓解高负载节点的压力,提升低负载节点的计算资源利用率,提高Hadoop集群的可靠性和性能。本发明通过ARIMA和RNN模型组合,更加精确的对负载进行预测。
Description
技术领域
本发明涉及分布式、大数据、云计算领域,具体涉及一种Hadoop平台计算节点负载预测方法。
背景技术
Hadoop平台中,随着用户提交任务量的变化,各个计算节点的负载随之变化,计算节点在不同时间段下的负载有着显著的差别。通过对各个结算节点历史数据的分析,可以提取有价值的信息,进而合理预测下一时间段内的计算节点的负载,精确预测计算节点的负载可以为资源管理器合理地给AppMaster分配资源提供依据,进而缓解高负载节点的压力,提升低负载节点的计算资源利用率,提高Hadoop集群的可靠性和性能。负载信息可以看作时间序列,时间序列由线性特征和非线性特征两部分组成,线性特征可由传统的ARIMA模型提取,而非线性特性难以提取,故传统的预测模型难以精确拟合时间序列。
发明内容
基于以上技术不足,本发明提出了一种全新的计算节点负载预测方法,利用ARIMA模型拟合时间序列的线性特征,再利用RNN循环神经网络对非线性特征的残差部分进行二次拟合,将ARIMA与RNN神经网络所预测出来的结果线性相加作为最终的预测结果,实现了Hadoop平台下更加精确的计算节点负载预测。具体包括基于滑动窗口二次检测算法的数据预处理部分、基于ARIMA算法的计算节点负载线性预测部分、基于RNN算法计算节点负载非线性预测部分。基于滑动窗口二次检测算法的数据预处理部分对计算节点的负载数据进行预处理,减少异常波动值对负载预测模型建立的影响。基于滑动窗口的异常点检测算法利用定长的滑动窗口将计算节点负载所形成的时间序列分段为多个负载区间,通过提取各个负载区间的特征进行一次判断再通过负载区间的关联性来进行二次判断,进而对负载异常点进行处理。基于ARIMA算法的计算节点负载线性预测采用自回归积分滑动平均模型(ARIMA)预测计算节点负载序列的线性部分。基于RNN算法计算节点负载非线性预测部分通过RNN模型对ARIMA无法提取的残差进一步建模,提取计算节点的负载序列非线性部分。最后将线性部分和非线性部分结果相加作为最终的计算节点负载预测结果,以提高最终的计算节点负载预测的精确度。
一种Hadoop平台计算节点负载预测方法,具体步骤如下:
步骤1:基于滑动窗口二次检测算法的数据预处理方法,具体包括:
步骤1.1:加载原始负载数据,选取定长滑动窗口,将负载时间序列分段为M个负载区间。
步骤1.2:提取各个负载区间的特征,一次判断异常区间,具体包括:
步骤1.2.1:计算负载均值,负载方差,并根据公式(1),公式(2)计算负载区间上界和下界。
其中,j为第j个负载区间,为负载均值,σj为负载方差,为负载区间上界,为负载区间下界,Z为服从N(0,1)分布的随机变量,α为置信水平。
步骤1.2.2:根据公式(3)计算滑动窗口内的置信区间的距离半径,作为负载区间特征。
其中,rj为置信区间内距离半径,即负载区间特征。
步骤1.2.3:判断负载区间的距离半径rj和阈值r的大小。
步骤1.2.3.1:当rj>r时,则负载信息序列在第j个负载区间可能存在异常点。跳转到步骤1.3。
步骤1.2.3.2:当rj≤r时,则负载信息序列在第j个负载区间正常。跳转到步骤1.3。
步骤1.3:提取各个负载区间之间的关联度,二次判断异常区间,具体如下:
步骤1.3.1:用公式(4)计算两个相邻滑负载区间的关联度。
其中,Ωj为相邻负载区间的关联度。
步骤1.3.2:比较相邻滑动负载区间的关联性Ωj和临界值Ω的大小。
步骤1.3.2.1:当Ωj>Ω时,则判定第j个负载区间异常,删除异常负载区间的负载数据。
步骤1.3.2.2:当Ωj≤Ω时,则判定第j个负载区间正常,将负载区间数据用于模型建立。
步骤2:基于ARIMA(差分自回归平均移动模型)算法的节点负载线性预测方法,具体包括:
步骤2.1:对计算节点负载序列的负载值进行白噪声检验,判断计算节点负载序列的负载值之间是否有关联。包括纯随机性检验和方差齐性检验。采用Q统计量进行纯随机特性检验,采用怀特法进行方差齐性检验。其中,白噪声定义为:在随机性检验和方差齐性检验中接收原假设时为白噪声;
步骤2.1.1:进行纯随机性检验,原假设为计算节点负载序列的负载值之间相独立,并计算检验统计量Q统计量。
步骤2.1.1.1:当检验统计量在置信区间内,接受原假设。序列为纯随机性序列,跳转步骤2.1.3.1。
步骤2.1.1.2:检验统计量不在置信区间内,拒绝原假设。序列不是纯随机性序列,跳转步骤2.1.3.2。
步骤2.1.2:进行方差齐性检验,原假设为序列为同方差,计算统计量的值。
步骤2.1.2.1:当检验统计量在置信区间内,接受原假设。序列满足方差齐性,跳转步骤2.1.3.1。
步骤2.1.2.2:检验统计量不在置信区间内,拒绝原假设。序列不满足方差齐性,跳转步骤2.1.3.2。
步骤2.1.3:判断是否为白噪声。
步骤2.1.3.1:若是白噪声,没有有效信息可提取,删除该计算节点负载区间数据。
步骤2.1.3.2:若不是白噪声,将该计算节点负载区间数据用于模型建立。
步骤2.2:采用ADF法进行计算节点负载序列的平稳性检验。
步骤2.2.1:若负载序列平稳,用负载序列进行ARMA(自回归移动平均模型)建模。跳转到步骤2.3。
步骤2.2.2:若负载序列不平稳,根据公式(5)、(6)通过差分法对负载序列处理,直至负载序列平稳。
Δyt=yt-yt-1=(1-L)yt (5)
Δdyt=(1-L)dyt (6)
其中,yt为负载序列,Δyt为一阶差分,d为差分阶数,L为算子。
步骤2.3:采用自相关函数(ACF)、偏自相关函数(PACF)来判别ARMA(p,q)模型的p阶数和q阶数,具体包括:
步骤2.3.1:根据公式(7)计算自相关函数(ACF)描述的时间序列观测值与其过去的观测值之间的线性相关性。
其中,ρk为时间序列观测值与其过去的观测值之间的线性相关性,xi为负载序列第i个观测值,为总体均值,i为计数变量,h为当前观测值与过去观测值间隔个数,n为时间序列个数。
步骤2.3.2:根据公式(8)和公式(9)计算偏自相关函数(PACF)描述的在给定中间观测值的条件下时间序列观测值与其过去的观测值之间的线性相关性。
其中,为给定中间观测值的条件下时间序列观测值与其过去的观测值之间的线性相关性,Xt为t时刻负载序列观测值,为t时刻负载序列均值。
步骤2.3.3:p由显著不为0的偏自相关系数的数目决定,序列的偏自相关函数表现为拖尾性,偏自相关系数的值都在置信区间以内,初步判断ARMA模型的阶数p。
步骤2.3.4:q由显著不为0的自相关系数的数目决定,序列的自相关函数表现为截尾性,自相关系数的值都在置信区间内,初步判断ARMA模型的阶数q。
步骤2.3.5:利用计算节点负载数据和估计的负载方差,通过最小信息准则AIC进行定阶,根据公式(10)确定p,q的值。
AIC(p,q)=n ln σ1 2+2(p+q+1) (10)
其中,σ1估计的负载方差。
步骤2.4:采用最小二乘法法对负载序列平稳化后的ARMA模型中的参数进行估计。
步骤2.4.1:根据公式(11)、(12)计算误差平方和。
其中,α是待估计参数,e是不相关的零均值误差。
其中,Q(α)为误差平方和。
步骤2.4.2:根据公式(13)计算参数α的估计值即为ARIMA算法预测出来的结果。
步骤3:基于RNN算法的节点负载非线性残差预测方法,具体包括:
步骤3.1:构建RNN网络模型,中间两层隐层。设置输入负载信息,输出为ARIMA模型与真实值之间的偏差。
步骤3.2:采用BPTT算法训练网络各层间的权重与偏差,具体包括:
步骤3.2.1:根据公式(14)计算神经网络t时刻负载偏差的输出Ot。
其中,Ot为t时刻RNN神经网络的负载偏差输出,x代表输入的负载信息,St-1代表隐藏层t-1时刻的输出,W代表时间轴上的权值矩阵,U代表输入层的权值矩阵,V代表输出层的权值,代表输出层的激活函数,代表隐藏层的激活函数;
步骤3.2.2:根据公式(15)和公式(16)计算t时刻损失函数Lt和总损失函数。
Lt=(Ot-Yt)2 (15)
其中,Lt为t时刻的损失函数,Yt为t时刻真实负载偏差,L为总损失函数。
步骤3.2.3:根据公式(17)和公式(18)更新W,U,使得损失函数L最小。
步骤3.3:保存RNN网络权重,确定最终模型,预测节点负载残差,节点负载残差即为RNN算法预测出来的结果。
步骤4:将ARIMA算法与RNN算法预测出来的结果进行线性相加作为最终的预测结果。
有益技术效果:
通过对各个结算节点历史数据的分析,可以提取有价值的信息,进而合理预测下一时间段内的计算节点的负载,精确预测计算节点的负载可以为资源管理器合理地给AppMaster分配资源提供依据,进而缓解高负载节点的压力,提升低负载节点的计算资源利用率,提高Hadoop集群的可靠性和性能。本发明所述的Hadoop平台计算节点负载预测方法,通过ARIMA和RNN模型组合,更加精确的对负载进行预测。
附图说明
图1为本发明实施例的一种Hadoop平台计算节点负载预测方法总流程图;
图2为本发明实施例的异常负载区间二次判定过程图;
图3为本发明实施例的ARMA阶数判别图;
图4本发明实施例的RNN循环神经网络模型图;
图5为本发明实施例的No.1计算节点负载预测图。
具体实施方式
下面结合附图和具体实施实例对发明做进一步说明,本发明为一种Hadoop平台计算节点负载预测方法,具体包括基于滑动窗口二次检测算法的数据预处理部分、基于ARIMA算法的计算节点负载线性预测部分、基于RNN算法计算节点负载非线性预测部分。基于滑动窗口二次检测算法的数据预处理部分减少异常波动值对负载预测模型建立的影响;基于ARIMA算法的计算节点负载线性预测部分,由ARIMA模型进行时间序列的线性部分预测;基于RNN算法计算节点负载非线性预测部分,由RNN则进行时间序列非线性部分的残差预测。最后将线性结果和非线性结果进行相加,作为最后的计算节点负载预测结果。
本系统实施节点配置参数:CPU核数为8核,CPU主频2.2GHz,内存类型DDR3-1333ECC,内存容量8GB,硬盘类型为15000转SAS硬盘,硬盘容量300GB,带宽1000Mbps。
一种Hadoop平台计算节点负载预测方法,如图1所示,具体步骤如下:
步骤1:基于滑动窗口二次检测算法的数据预处理方法,如图2所示,具体包括:
步骤1.1:加载原始负载数据,选取定长L滑动窗口,将负载时间序列分段为M个负载区间。
步骤1.2:提取各个负载区间的特征,一次判断异常区间,具体包括:
步骤1.2.1:计算负载均值,负载方差,并根据公式(1),公式(2)计算负载区间上界和下界。
其中,j为第j个负载区间,为负载均值,σj为负载方差,为负载区间上界,为负载区间下界,Z为服从N(0,1)分布的随机变量,α为置信水平,取值为0.05。
步骤1.2.2:根据公式(3)计算滑动窗口内的置信区间的距离半径,作为负载区间特征。
其中,rj为置信区间内距离半径,即负载区间特征。
步骤1.2.3:判断负载区间的距离半径rj和阈值r的大小。
步骤1.2.3.1:当rj>r时,则负载信息序列在第j个负载区间可能存在异常点。跳转到步骤1.3。
步骤1.2.3.2:当rj≤r时,则负载信息序列在第j个负载区间正常。跳转到步骤1.3。
步骤1.3:提取各个负载区间之间的关联度,二次判断异常区间,具体如下:
步骤1.3.1:用公式(4)计算两个相邻滑负载区间的关联度。
其中,Ωj为相邻负载区间的关联度。
步骤1.3.2:比较相邻滑动负载区间的关联性Ωj和临界值Ω的大小。
步骤1.3.2.1:当Ωj>Ω时,则判定第j个负载区间异常,删除异常负载区间的负载数据。
步骤1.3.2.2:当Ωj≤Ω时,则判定第j个负载区间正常,将负载区间数据用于模型建立。
步骤2:基于ARIMA(差分自回归平均移动模型)算法的节点负载线性预测方法,如图3所示,具体包括:
步骤2.1:对计算节点负载序列的负载值进行白噪声检验,判断计算节点负载序列的负载值之间是否有关联。包括纯随机性检验和方差齐性检验。采用Q统计量进行纯随机特性检验,采用怀特法进行方差齐性检验。其中,白噪声定义为:在随机性检验和方差齐性检验中接收原假设时为白噪声。
步骤2.1.1:进行纯随机性检验,原假设为计算节点负载序列的负载值之间相独立,并计算检验统计量Q统计量。
步骤2.1.1.1:当检验统计量在置信区间内,接受原假设。序列为纯随机性序列,跳转步骤2.1.3.1。
步骤2.1.1.2:检验统计量不在置信区间内,拒绝原假设。序列不是纯随机性序列,跳转步骤2.1.3.2。
步骤2.1.2:进行方差齐性检验,原假设为序列为同方差,计算统计量的值。
步骤2.1.2.1:当检验统计量在置信区间内,接受原假设。序列满足方差齐性,跳转步骤2.1.3.1。
步骤2.1.2.2:检验统计量不在置信区间内,拒绝原假设。序列不满足方差齐性,跳转步骤2.1.3.2。
步骤2.1.3:判断是否为白噪声。
步骤2.1.3.1:若是白噪声,没有有效信息可提取,删除该计算节点负载区间数据。
步骤2.1.3.2:若不是白噪声,将该计算节点负载区间数据用于模型建立。
步骤2.2:采用ADF法进行计算节点负载序列的平稳性检验。
步骤2.2.1:若负载序列平稳,用负载序列进行ARMA(自回归移动平均模型)建模。跳转到步骤2.3。
步骤2.2.2:若负载序列不平稳,根据公式(5)、(6)通过差分法对负载序列处理,直至负载序列平稳。
Δyt=yt-yt-1=(1-L)yt (5)
Δdyt=(1-L)dyt (6)
其中,yt为负载序列,Δyt为一阶差分,d为差分阶数,L为算子。
步骤2.3:采用自相关函数(ACF)、偏自相关函数(PACF)来判别ARMA(p,q)模型的p阶数和q阶数,具体包括:
步骤2.3.1:根据公式(7)计算自相关函数(ACF)描述的时间序列观测值与其过去的观测值之间的线性相关性。
其中,ρk为时间序列观测值与其过去的观测值之间的线性相关性,xi为负载序列第i个观测值,为总体均值,i为计数变量,h为当前观测值与过去观测值间隔个数,n为时间序列个数。
步骤2.3.2:根据公式(8)和公式(9)计算偏自相关函数(PACF)描述的在给定中间观测值的条件下时间序列观测值与其过去的观测值之间的线性相关性。
其中,为给定中间观测值的条件下时间序列观测值与其过去的观测值之间的线性相关性,Xt为t时刻负载序列观测值,为t时刻负载序列均值。
步骤2.3.3:p由显著不为0的偏自相关系数的数目决定,序列的偏自相关函数表现为拖尾性,偏自相关系数的值都在置信区间以内,初步判断ARMA模型的阶数p。其中偏自相关系数在n步之后的判定:故置信区间为
步骤2.3.4:q由显著不为0的自相关系数的数目决定,序列的自相关函数表现为截尾性,自相关系数的值都在置信区间内,初步判断ARMA模型的阶数q。自相关函数ρk在k步截尾后的判定:置信区间为
步骤2.3.5:利用计算节点负载数据和估计的负载方差,通过最小信息准则AIC进行定阶,根据公式(10)确定p,q的值。
AIC(p,q)=n ln σ1 2+2(p+q+1) (10)
其中,σ1估计的负载方差。
步骤2.4:采用最小二乘法法对负载序列平稳化后的ARMA模型中的参数进行估计。
步骤2.4.1:根据公式(11)、(12)计算误差平方和。
其中,α是待估计参数,e是不相关的零均值误差。
其中,Q(α)为误差平方和。
步骤2.4.2:根据公式(13)计算参数α的估计值即为ARIMA算法预测出来的结果。
步骤3:基于RNN算法的节点负载非线性残差预测方法,如图4所示,具体包括:
步骤3.1:构建RNN网络模型,中间两层隐层。设置输入负载信息,输出为ARIMA模型与真实值之间的偏差。
步骤3.2:采用BPTT算法训练网络各层间的权重与偏差,具体包括:
步骤3.2.1:根据公式(14)计算神经网络t时刻负载偏差的输出Ot。
其中,Ot为t时刻RNN神经网络的负载偏差输出,x代表输入的负载信息,St-1代表隐藏层t-1时刻的输出,W代表时间轴上的权值矩阵,U代表输入层的权值矩阵,V代表输出层的权值,代表输出层的激活函数,代表隐藏层的激活函数;
步骤3.2.2:根据公式(15)和公式(16)计算t时刻损失函数Lt和总损失函数。
Lt=(Ot-Yt)2 (15)
其中,Lt为t时刻的损失函数,Yt为t时刻真实负载偏差,L为总损失函数。
步骤3.2.3:根据公式(17)和公式(18)更新W,U,使得损失函数L最小。
步骤3.3:保存RNN网络权重,保存最终模型,预测节点负载残差,节点负载残差即为RNN算法预测出来的结果。
步骤4:将ARIMA算法与RNN算法预测出来的结果进行线性相加作为最终的预测结果。
实验结果:
本发明所述的方法与ARIMA和RNN神经网络算法进行对比,预测负载结果如图5所示,并且在不同指标如MSE、RMSE、MAE进行了比较,结果显示本发明所述的方法在MSE,RMSE,MAE三个指标上均低于单一的RNN模型和ARIMA模型,结果如表1所示。
表1台计算节点负载预测误差结果
Claims (3)
1.一种Hadoop平台计算节点负载预测方法,其特征在于,具体步骤如下:
步骤1:基于滑动窗口二次检测算法的数据预处理方法,具体包括:
步骤1.1:加载原始负载数据,选取定长滑动窗口,将负载时间序列分段为M个负载区间;
步骤1.2:提取各个负载区间的特征,一次判断异常区间,具体包括:
步骤1.2.1:计算负载均值,负载方差,并根据公式(1),公式(2)计算负载区间上界和下界;
其中,j为第j个负载区间,为负载均值,σj为负载方差,为负载区间上界,为负载区间下界,Z为服从N(0,1)分布的随机变量,α为置信水平;
步骤1.2.2:根据公式(3)计算滑动窗口内的置信区间的距离半径,作为负载区间特征;
其中,rj为置信区间内距离半径,即负载区间特征;
步骤1.2.3:判断负载区间的距离半径rj和阈值r的大小;
步骤1.2.3.1:当rj>r时,则负载信息序列在第j个负载区间可能存在异常点,跳转到步骤1.3;
步骤1.2.3.2:当rj≤r时,则负载信息序列在第j个负载区间正常,跳转到步骤1.3;
步骤1.3:提取各个负载区间之间的关联度,二次判断异常区间,具体如下:
步骤1.3.1:用公式(4)计算两个相邻滑负载区间的关联度:
其中,Ωj为相邻负载区间的关联度;
步骤1.3.2:比较相邻滑动负载区间的关联性Ωj和临界值Ω的大小;
步骤1.3.2.1:当Ωj>Ω时,则判定第j个负载区间异常,删除异常负载区间的负载数据;
步骤1.3.2.2:当Ωj≤Ω时,则判定第j个负载区间正常,将负载区间数据用于模型建立;
步骤2:基于ARIMA算法的节点负载线性预测方法,得到ARIMA算法预测出来的结果;
步骤3:基于RNN算法的节点负载非线性残差预测方法,得到RNN算法预测出来的结果;
步骤4:将ARIMA算法与RNN算法预测出来的结果进行线性相加作为最终的预测结果。
2.根据权利要求1所述Hadoop平台计算节点负载预测方法,其特征在于,所述步骤2,基于ARIMA算法的节点负载线性预测方法,具体包括:
步骤2.1:对计算节点负载序列的负载值进行白噪声检验,判断计算节点负载序列的负载值之间是否有关联:包括纯随机性检验和方差齐性检验;采用Q统计量进行纯随机特性检验,采用怀特法进行方差齐性检验;其中,白噪声定义为:在随机性检验和方差齐性检验中接收原假设时为白噪声;
步骤2.1.1:进行纯随机性检验,原假设为计算节点负载序列的负载值之间相独立,并计算检验统计量Q统计量;
步骤2.1.1.1:当检验统计量在置信区间内,接受原假设,序列为纯随机性序列,跳转步骤2.1.3.1;
步骤2.1.1.2:检验统计量不在置信区间内,拒绝原假设,序列不是纯随机性序列,跳转步骤2.1.3.2;
步骤2.1.2:进行方差齐性检验,原假设为序列为同方差,计算统计量的值;
步骤2.1.2.1:当检验统计量在置信区间内,接受原假设,序列满足方差齐性,跳转步骤2.1.3.1;
步骤2.1.2.2:检验统计量不在置信区间内,拒绝原假设,序列不满足方差齐性,跳转步骤2.1.3.2:
步骤2.1.3:判断是否为白噪声;
步骤2.1.3.1:若是白噪声,没有有效信息可提取,删除该计算节点负载区间数据;
步骤2.1.3.2:若不是白噪声,将该计算节点负载区间数据用于模型建立;
步骤2.2:采用ADF法进行计算节点负载序列的平稳性检验;
步骤2.2.1:若负载序列平稳,用负载序列进行ARMA(自回归移动平均模型)建模,跳转到步骤2.3;
步骤2.2.2:若负载序列不平稳,根据公式(5)、(6)通过差分法对负载序列处理,直至负载序列平稳:
Δyt=yt-yt-1=(1-L)yt (5)
Δdyt=(1-L)dyt (6)
其中,yt为负载序列,Δyt为一阶差分,d为差分阶数,L为算子;
步骤2.3:采用自相关函数、偏自相关函数来判别ARMA(p,q)模型的p阶数和q阶数,具体包括:
步骤2.3.1:根据公式(7)计算自相关函数描述的时间序列观测值与其过去的观测值之间的线性相关性:
其中,ρk为时间序列观测值与其过去的观测值之间的线性相关性,xi为负载序列第i个观测值,为总体均值,i为计数变量,h为当前观测值与过去观测值间隔个数,n为时间序列个数;
步骤2.3.2:根据公式(8)和公式(9)计算偏自相关函数描述的在给定中间观测值的条件下时间序列观测值与其过去的观测值之间的线性相关性:
其中,为给定中间观测值的条件下时间序列观测值与其过去的观测值之间的线性相关性,Xt为t时刻负载序列观测值,为t时刻负载序列均值;
步骤2.3.3:p由显著不为0的偏自相关系数的数目决定,序列的偏自相关函数表现为拖尾性,偏自相关系数的值都在置信区间以内,初步判断ARMA模型的阶数p;
步骤2.3.4:q由显著不为0的自相关系数的数目决定,序列的自相关函数表现为截尾性,自相关系数的值都在置信区间内,初步判断ARMA模型的阶数q;
步骤2.3.5:利用计算节点负载数据和估计的负载方差,通过最小信息准则AIC进行定阶,根据公式(10)确定p,q的值:
AIC(p,q)=n lnσ1 2+2(p+q+1) (10)
其中,σ1估计的负载方差;
步骤2.4:采用最小二乘法法对负载序列平稳化后的ARMA模型中的参数进行估计;
步骤2.4.1:根据公式(11)、(12)计算误差平方和:
其中,α是待估计参数,e是不相关的零均值误差;
其中,Q(α)为误差平方和;
步骤2.4.2:根据公式(13)计算参数α的估计值
其中,估计值即为ARIMA算法预测出来的结果。
3.根据权利要求1所述Hadoop平台计算节点负载预测方法,其特征在于,所述步骤3,基于RNN算法的节点负载非线性残差预测方法,具体步骤如下:
步骤3.1:构建RNN网络模型,中间两层隐层,设置输入负载信息,输出为ARIMA模型与真实值之间的偏差;
步骤3.2:采用BPTT算法训练网络各层间的权重与偏差,具体包括:
步骤3.2.1:根据公式(14)计算神经网络t时刻负载偏差的输出Ot:
其中,Ot为t时刻RNN神经网络的负载偏差输出,x代表输入的负载信息,St-1代表隐藏层t-1时刻的输出,W代表时间轴上的权值矩阵,U代表输入层的权值矩阵,V代表输出层的权值,代表输出层的激活函数,代表隐藏层的激活函数;
步骤3.2.2:根据公式(15)和公式(16)计算t时刻损失函数Lt和总损失函数;
Lt=(Ot-Yt)2 (15)
其中,Lt为t时刻的损失函数,Yt为t时刻真实负载偏差,L为总损失函数;
步骤3.2.3:根据公式(17)和公式(18)更新W,U,使得损失函数L最小:
步骤3.3:保存RNN网络权重,确定最终模型,预测节点负载残差,节点负载残差即为RNN算法预测出来的结果。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910510953.5A CN110149237B (zh) | 2019-06-13 | 2019-06-13 | 一种Hadoop平台计算节点负载预测方法 |
PCT/CN2019/091270 WO2020248228A1 (zh) | 2019-06-13 | 2019-06-14 | 一种Hadoop平台计算节点负载预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910510953.5A CN110149237B (zh) | 2019-06-13 | 2019-06-13 | 一种Hadoop平台计算节点负载预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110149237A true CN110149237A (zh) | 2019-08-20 |
CN110149237B CN110149237B (zh) | 2021-06-22 |
Family
ID=67591236
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910510953.5A Active CN110149237B (zh) | 2019-06-13 | 2019-06-13 | 一种Hadoop平台计算节点负载预测方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110149237B (zh) |
WO (1) | WO2020248228A1 (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110798365A (zh) * | 2020-01-06 | 2020-02-14 | 支付宝(杭州)信息技术有限公司 | 基于神经网络的流量预测方法及装置 |
CN110795246A (zh) * | 2019-10-25 | 2020-02-14 | 新华三大数据技术有限公司 | 资源利用率的预测方法及装置 |
CN111984381A (zh) * | 2020-07-10 | 2020-11-24 | 西安理工大学 | 一种基于历史数据预测的Kubernetes资源调度优化方法 |
CN112561119A (zh) * | 2020-10-29 | 2021-03-26 | 西安理工大学 | 一种使用arima-rnn组合模型的云服务器资源性能预测方法 |
CN112685246A (zh) * | 2020-12-23 | 2021-04-20 | 联想(北京)有限公司 | 一种时序数据的处理方法及装置 |
CN113626282A (zh) * | 2021-07-16 | 2021-11-09 | 济南浪潮数据技术有限公司 | 云计算物理节点负载监控方法、装置、终端及存储介质 |
CN113890716A (zh) * | 2021-10-26 | 2022-01-04 | 中国联合网络通信集团有限公司 | 一种识别pRRU的方法、装置及存储介质 |
CN114221877A (zh) * | 2021-12-14 | 2022-03-22 | 中国联合网络通信集团有限公司 | 负载预测方法、装置、设备和计算机可读介质 |
CN116010857A (zh) * | 2023-03-24 | 2023-04-25 | 山东联合能源管道输送有限公司 | 一种用于港口原油的智慧管控系统 |
WO2023097518A1 (en) * | 2021-11-30 | 2023-06-08 | Siemens Aktiengesellschaft | Interface display method and apparatus of industrial software |
CN116909754A (zh) * | 2023-09-13 | 2023-10-20 | 人工智能与数字经济广东省实验室(广州) | 基于组合模型的移动终端cpu短期负载预测方法及相关设备 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112698925B (zh) * | 2021-03-24 | 2021-06-08 | 江苏红网技术股份有限公司 | 一种服务器集群的容器混合运行处理方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105703954A (zh) * | 2016-03-17 | 2016-06-22 | 福州大学 | 一种基于arima模型的网络数据流预测方法 |
CN108197011A (zh) * | 2018-01-29 | 2018-06-22 | 上海洞识信息科技有限公司 | 一种基于人工智能大数据平台的单指标预测和预警方法 |
WO2019001722A1 (en) * | 2017-06-29 | 2019-01-03 | Huawei Technologies Co., Ltd. | SYSTEMS AND METHOD FOR PREDICTING FLOWS IN A NETWORK |
CN109787855A (zh) * | 2018-12-17 | 2019-05-21 | 深圳先进技术研究院 | 基于马尔可夫链和时间序列模型的服务器负载预测方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101651568B (zh) * | 2009-07-01 | 2011-12-07 | 青岛农业大学 | 一种网络流量预测和异常检测方法 |
US20150347940A1 (en) * | 2014-05-27 | 2015-12-03 | Universita Degli Studi Di Modena E Reggio Emilia | Selection of optimum service providers under uncertainty |
CN104270281B (zh) * | 2014-09-03 | 2017-09-19 | 河海大学 | 一种Web Service QoS组合预测方法 |
CN106533750B (zh) * | 2016-10-28 | 2019-05-21 | 东北大学 | 一种云环境下非平稳型应用用户并发量的预测系统及方法 |
-
2019
- 2019-06-13 CN CN201910510953.5A patent/CN110149237B/zh active Active
- 2019-06-14 WO PCT/CN2019/091270 patent/WO2020248228A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105703954A (zh) * | 2016-03-17 | 2016-06-22 | 福州大学 | 一种基于arima模型的网络数据流预测方法 |
WO2019001722A1 (en) * | 2017-06-29 | 2019-01-03 | Huawei Technologies Co., Ltd. | SYSTEMS AND METHOD FOR PREDICTING FLOWS IN A NETWORK |
CN108197011A (zh) * | 2018-01-29 | 2018-06-22 | 上海洞识信息科技有限公司 | 一种基于人工智能大数据平台的单指标预测和预警方法 |
CN109787855A (zh) * | 2018-12-17 | 2019-05-21 | 深圳先进技术研究院 | 基于马尔可夫链和时间序列模型的服务器负载预测方法及系统 |
Non-Patent Citations (1)
Title |
---|
马健钦: "面向应用性能管理系统的运行负载预测", 《计算机测量与控制》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110795246A (zh) * | 2019-10-25 | 2020-02-14 | 新华三大数据技术有限公司 | 资源利用率的预测方法及装置 |
CN110798365A (zh) * | 2020-01-06 | 2020-02-14 | 支付宝(杭州)信息技术有限公司 | 基于神经网络的流量预测方法及装置 |
CN111984381A (zh) * | 2020-07-10 | 2020-11-24 | 西安理工大学 | 一种基于历史数据预测的Kubernetes资源调度优化方法 |
CN112561119A (zh) * | 2020-10-29 | 2021-03-26 | 西安理工大学 | 一种使用arima-rnn组合模型的云服务器资源性能预测方法 |
CN112561119B (zh) * | 2020-10-29 | 2023-05-30 | 西安理工大学 | 一种使用arima-rnn组合模型的云服务器资源性能预测方法 |
CN112685246B (zh) * | 2020-12-23 | 2023-04-28 | 联想(北京)有限公司 | 一种时序数据的处理方法及装置 |
CN112685246A (zh) * | 2020-12-23 | 2021-04-20 | 联想(北京)有限公司 | 一种时序数据的处理方法及装置 |
CN113626282A (zh) * | 2021-07-16 | 2021-11-09 | 济南浪潮数据技术有限公司 | 云计算物理节点负载监控方法、装置、终端及存储介质 |
CN113626282B (zh) * | 2021-07-16 | 2023-12-22 | 济南浪潮数据技术有限公司 | 云计算物理节点负载监控方法、装置、终端及存储介质 |
CN113890716A (zh) * | 2021-10-26 | 2022-01-04 | 中国联合网络通信集团有限公司 | 一种识别pRRU的方法、装置及存储介质 |
WO2023097518A1 (en) * | 2021-11-30 | 2023-06-08 | Siemens Aktiengesellschaft | Interface display method and apparatus of industrial software |
CN114221877A (zh) * | 2021-12-14 | 2022-03-22 | 中国联合网络通信集团有限公司 | 负载预测方法、装置、设备和计算机可读介质 |
CN116010857A (zh) * | 2023-03-24 | 2023-04-25 | 山东联合能源管道输送有限公司 | 一种用于港口原油的智慧管控系统 |
CN116909754A (zh) * | 2023-09-13 | 2023-10-20 | 人工智能与数字经济广东省实验室(广州) | 基于组合模型的移动终端cpu短期负载预测方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2020248228A1 (zh) | 2020-12-17 |
CN110149237B (zh) | 2021-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110149237A (zh) | 一种Hadoop平台计算节点负载预测方法 | |
CN113657465B (zh) | 预训练模型的生成方法、装置、电子设备和存储介质 | |
CN110378699A (zh) | 一种交易反欺诈方法、装置及系统 | |
CN105354198B (zh) | 一种数据处理方法及装置 | |
CN104182474A (zh) | 一种预流失用户的识别方法 | |
CN111294812B (zh) | 一种资源扩容规划的方法及系统 | |
WO2014141344A1 (ja) | データ予測装置 | |
CN109299228A (zh) | 计算机执行的文本风险预测方法及装置 | |
Azzouz et al. | Steady state IBEA assisted by MLP neural networks for expensive multi-objective optimization problems | |
CN106100922B (zh) | 列车通信网络的网络流量的预测方法和装置 | |
Crawford et al. | A hyperheuristic approach for dynamic enumeration strategy selection in constraint satisfaction | |
CN108989092A (zh) | 一种无线网络预测方法、电子设备及存储介质 | |
WO2017071369A1 (zh) | 一种预测用户离网的方法和设备 | |
CN108416368A (zh) | 样本特征重要性的确定方法及装置,电子设备 | |
CN112101692B (zh) | 移动互联网质差用户的识别方法及装置 | |
Hansun et al. | Brown’s Weighted Exponential Moving Average Implementation in Forex Forecasting | |
CN111385601B (zh) | 一种视频审核的方法、系统及设备 | |
Lv et al. | A traffic interval prediction method based on ARIMA | |
CN113298318A (zh) | 一种新型的配电变压器重过载预测方法 | |
CN116316699A (zh) | 一种大电网频率安全态势预测方法、装置及存储介质 | |
CN115618079A (zh) | 会话推荐方法、装置、电子设备及存储介质 | |
Aji et al. | Landmark classification service using convolutional neural network and kubernetes | |
CN113590325A (zh) | 酒店分销商接口限流方法、装置、计算机设备及存储介质 | |
CN112529303A (zh) | 基于模糊决策的风险预测方法、装置、设备和存储介质 | |
CN102158357B (zh) | 水平分解的单类闭合分叉汇集排队网络性能的分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20211231 Address after: 110015 No. 18-2, baita'er South Street, Hunnan District, Shenyang City, Liaoning Province Patentee after: Shenyang Linlong Technology Co.,Ltd. Address before: 110819 No. 3 lane, Heping Road, Heping District, Shenyang, Liaoning 11 Patentee before: Northeastern University |
|
TR01 | Transfer of patent right |