CN116302515A - 一种基于双通道的云服务负载预测方法及系统 - Google Patents

一种基于双通道的云服务负载预测方法及系统 Download PDF

Info

Publication number
CN116302515A
CN116302515A CN202310189763.4A CN202310189763A CN116302515A CN 116302515 A CN116302515 A CN 116302515A CN 202310189763 A CN202310189763 A CN 202310189763A CN 116302515 A CN116302515 A CN 116302515A
Authority
CN
China
Prior art keywords
load data
historical load
server cluster
data
cloud server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310189763.4A
Other languages
English (en)
Inventor
丁吕繁
彭舰
黄飞虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202310189763.4A priority Critical patent/CN116302515A/zh
Publication of CN116302515A publication Critical patent/CN116302515A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/505Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本说明书实施例提供一种基于双通道的云服务负载预测方法及系统,属于云服务领域,其中,所述方法包括获取云服务器集群的历史负载数据;对云服务器集群的历史负载数据进行预处理,生成预处理后的历史负载数据;数据拟合通道去除预处理后的历史负载数据中的噪声信息,获取去噪后的历史负载数据,并基于去噪后的历史负载数据,确定云服务器集群的负载变化趋势,输出第一输出向量;差值通道确定云服务器集群的历史负载数据及去噪后的历史负载数据之间的差值,输出第二输出向量;基于第一输出向量和第二输出向量,预测云服务器集群的未来负载数据,具有通过双通道实现不同的功能,以提升预测性能的优点。

Description

一种基于双通道的云服务负载预测方法及系统
技术领域
本说明书涉及云服务领域,特别涉及一种基于双通道的云服务负载预测方法及系统。
背景技术
随着互联网愈发普及,越来越多的人开始每天使用互联网,无数的互联网公司相继成立,也有大量的物联网设备接入网络,这些变化在方便了人们日常生活的同时,也带来了一些问题,包括海量数据的存储和计算问题。云计算服务的发展很好地解决了这些问题,云计算可以按照客户的需求提供相应的计算资源、内存资源、存储资源和网络资源等。典型的云服务提供商大部分都自建了大规模的服务器集群来向用户出租服务器资源,这种服务为云服务公司带来了巨额的利润。云计算服务需要遵守服务提供商和用户之间签订的服务级别协议(SLAs),服务提供商需要保证用户的需求在截止时间终了之前得到满足。
然而,工作负载的剧烈波动容易导致资源的不充分利用,并且使得服务级别协议遭到违反。例如,有时用户的请求会集中同时到来,使得服务资源紧张,导致约定的服务质量难以得到保证,而有时用户没有什么任务提交,则会导致服务器资源的空闲而造成浪费。
为了保证服务级别协议不会被违反,同时提高集群的资源利用率,云服务提供商一般会进行资源的动态分配,根据用户提交任务所需的资源量多少进行按需分配,这要求云服务提供商保留大量的预留资源以供资源紧张时使用。服务器集群一般采取主动的资源分配方法来达到资源的最优分配,这要求服务器集群必须要对未来的服务器负载情况有一个准确的预测。在服务器集群中,经常会使用一些主机负载监视器工具来对主机的历史负载数据进行记录,以便根据从前的主机负载轨迹来对未来的负载情况进行预测,提前预测未来主机的负载情况,有利于对任务进行高效的调度、提升服务器集群的整体资源利用率,从而提升服务水平,增加云服务提供商的利润。
但是服务器的历史负载数据具有极大的波动性,且包含大量的非线性特征,使用传统的统计学方法难以对未来的负载情况进行准确的预测,因为现有的负载预测方法通常是线性方法,包括自回归模型(Auto Regression model)、移动平均模型(Moving Averagemodel)、差分整合移动平均自回归模型(Auto Regressive Integrated Moving Averagemodel)和支持向量机(Support Vector Machine)等非深度学习方法,该类方法难以捕捉非线性的负载特征,导致其预测的负载的精度较差。
因此,需要提供一种基于双通道的云服务负载预测方法及系统,用于提高预测的负载的精度。
发明内容
本说明书实施例之一提供一种基于双通道的云服务负载预测方法,所述方法包括:获取云服务器集群的历史负载数据;对所述云服务器集群的历史负载数据进行预处理,生成预处理后的历史负载数据;数据拟合通道去除所述预处理后的历史负载数据中的噪声信息,获取去噪后的历史负载数据,并基于所述去噪后的历史负载数据,确定所述云服务器集群的负载变化趋势,输出第一输出向量;差值通道确定所述云服务器集群的历史负载数据及所述去噪后的历史负载数据之间的差值,输出第二输出向量;基于所述第一输出向量和所述第二输出向量,预测所述云服务器集群的未来负载数据。
在一些实施例中,所述对所述云服务器集群的历史负载数据进行预处理,生成预处理后的历史负载数据,包括:对所述云服务器集群的历史负载数据进行归一化处理,生成归一化后的历史负载数据。
在一些实施例中,所述数据拟合通道包括SG滤波器,用于去除所述预处理后的历史负载数据中的噪声信息。
在一些实施例中,所述数据拟合通道包括两层双向长短期记忆网络,所述两层双向长短期记忆网络用于基于所述去噪后的历史负载数据,确定所述云服务器集群的负载变化趋势。
在一些实施例中,所述数据拟合通道包括层级归一化单元,用于对所述两层双向长短期记忆网络的输出进行归一化,输出第一输出向量。
在一些实施例中,所述差值通道包括卷积神经网络单元及双向长短期记忆网络单元,所述卷积神经网络单元用于确定所述云服务器集群的历史负载数据及所述去噪后的历史负载数据的第一预测差值,所述双向长短期记忆网络单元用于确定所述云服务器集群的历史负载数据及所述去噪后的历史负载数据的第二预测差值;所述差值通道确定所述云服务器集群的历史负载数据及所述去噪后的历史负载数据的差值,输出第二输出向量,包括:基于所述第一预测差值和第二预测差值确定所述云服务器集群的历史负载数据及所述去噪后的历史负载数据之间的差值。
在一些实施例中,所述基于所述第一预测差值和第二预测差值确定所述云服务器集群的历史负载数据及所述去噪后的历史负载数据之间的差值,包括:对所述第一预测差值和所述第二预测差值进行归一化,基于归一化后的第一预测差值和第二预测差值,确定所述云服务器集群的历史负载数据及所述去噪后的历史负载数据之间的差值。
在一些实施例中,所述基于所述第一输出向量和所述第二输出向量,预测所述云服务器集群的未来负载数据,包括:对所述第一输出向量和所述第二输出向量进行拼接,获取拼接后的向量;全连接层基于所述拼接后的向量及非线性激活函数,预测所述云服务器集群的未来负载数据。
在一些实施例中,所述非线性激活函数为Swish函数。
本说明书实施例之一提供一种基于双通道的云服务负载预测方法,所述系统包括:数据获取模块,用于获取云服务器集群的历史负载数据;预处理模块,用于对所述云服务器集群的历史负载数据进行预处理,生成预处理后的历史负载数据;数据拟合通道,用于去除所述预处理后的历史负载数据中的噪声信息,获取去噪后的历史负载数据,并基于所述去噪后的历史负载数据,确定所述云服务器集群的负载变化趋势,输出第一输出向量;差值通道,用于确定所述云服务器集群的历史负载数据及所述预处理后的历史负载数据的差值,输出第二输出向量;负载预测模块,用于基于所述第一输出向量和所述第二输出向量,预测所述云服务器集群的未来负载数据。
附图说明
本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
图1是根据本说明书一些实施例所示的示例性基于双通道的云服务负载预测系统的模块图;
图2是根据本说明书一些实施例所示的示例性基于双通道的云服务负载预测方法的流程图;
图3是根据本说明书一些实施例所示的示例性双通道混合模型的结构示意图;
图4是根据本说明书一些实施例所示的阿里巴巴的服务器集群的CPU利用率数据的示意图;
图5是根据本说明书一些实施例所示的谷歌服务器集群的CPU利用率数据的示意图。
具体实施方式
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
应当理解,本文使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
图1是根据本说明书一些实施例所示的示例性基于双通道的云服务负载预测系统的模块图。如图1所示,基于双通道的云服务负载预测系统可以包括数据获取模块、预处理模块、数据拟合通道、差值通道及负载预测模块。
数据获取模块可以用于获取云服务器集群的历史负载数据。
预处理模块可以用于对云服务器集群的历史负载数据进行预处理,生成预处理后的历史负载数据。
在一些实施例中,预处理模块还可以用于对云服务器集群的历史负载数据进行归一化处理,生成归一化后的历史负载数据。
数据拟合通道可以用于去除预处理后的历史负载数据中的噪声信息,获取去噪后的历史负载数据,并基于去噪后的历史负载数据,确定云服务器集群的负载变化趋势,输出第一输出向量。
在一些实施例中,数据拟合通道可以包括SG滤波器,用于去除预处理后的历史负载数据中的噪声信息。
在一些实施例中,数据拟合通道可以包括两层双向长短期记忆网络,两层双向长短期记忆网络用于基于去噪后的历史负载数据,确定云服务器集群的负载变化趋势。
在一些实施例中,数据拟合通道可以包括层级归一化单元,用于对两层双向长短期记忆网络的输出进行归一化,输出第一输出向量。
差值通道可以用于确定云服务器集群的历史负载数据及预处理后的历史负载数据的差值,输出第二输出向量。
在一些实施例中,差值通道可以包括卷积神经网络单元及双向长短期记忆网络单元,卷积神经网络单元用于确定云服务器集群的历史负载数据及去噪后的历史负载数据的第一预测差值,双向长短期记忆网络单元用于确定云服务器集群的历史负载数据及去噪后的历史负载数据的第二预测差值。差值通道可以基于第一预测差值和第二预测差值确定云服务器集群的历史负载数据及去噪后的历史负载数据之间的差值。
在一些实施例中,差值通道可以对第一预测差值和第二预测差值进行归一化,基于归一化后的第一预测差值和第二预测差值,确定云服务器集群的历史负载数据及去噪后的历史负载数据之间的差值。
负载预测模块可以用于基于第一输出向量和第二输出向量,预测云服务器集群的未来负载数据。
在一些实施例中,负载预测模块还可以用于对第一输出向量和第二输出向量进行拼接,获取拼接后的向量;全连接层基于拼接后的向量及非线性激活函数,预测云服务器集群的未来负载数据。
图2是根据本说明书一些实施例所示的示例性基于双通道的云服务负载预测方法的流程图。在一些实施例中,基于双通道的云服务负载预测方法可以由基于双通道的云服务负载预测系统执行。如图2所示,基于双通道的云服务负载预测方法可以包括以下步骤。
步骤210,获取云服务器集群的历史负载数据。在一些实施例中,步骤210可以由数据获取模块执行。
例如,数据获取模块可以通过大量的主机负载监视器获取云服务器集群的主机的历史负载数据。历史负载数据可以包括云服务器集群的主机在多个历史时间点的负载信息。
步骤220,对云服务器集群的历史负载数据进行预处理,生成预处理后的历史负载数据。在一些实施例中,步骤220可以由预处理模块执行。
在一些实施例中,预处理模块可以对云服务器集群的历史负载数据进行归一化处理,生成归一化后的历史负载数据。例如,预处理模块可以使用Min-Max Scaler工具对云服务器集群的历史负载数据进行归一化处理,将云服务器集群的主机在多个历史时间点的负载信息归一化到0-1的范围内。
步骤230,数据拟合通道去除预处理后的历史负载数据中的噪声信息,获取去噪后的历史负载数据,并基于去噪后的历史负载数据,确定云服务器集群的负载变化趋势,输出第一输出向量。
一般来说,通过主机负载监视器获得的负载信息都会存在大量的噪声,这些噪声会严重影响机器学习模型对真实负载情况的预测,进行平滑处理可以使负载信息更加连贯,方便预测。在众多数据平滑方式中,SG(Savitzky Golay)滤波方法可以在实现滑动平均的同时,尽可能保留历史负载数据的变化信息。因此,数据拟合通道可以包括SG滤波器,SG滤波器基于SG滤波算法去除预处理后的历史负载数据中的噪声信息,生成去噪后的历史负载数据。
SG滤波算法是一种时域内基于最小二乘原理的多项式平滑算法,在平滑时使用的权重是由对高阶多项式进行最小二乘拟合得到的。当需要对当前负载值x0进行平滑滤波时,会使用负载值序列,其中,负载值序列包括以该当前负载值x0为中心的,前后一共2m+1个负载值,其形式如下:
X={x-m,…,x0,…,xm}
使用k-1阶多项式对每个时刻的负载值进行拟合,即使用以下公式对历史负载数据进行拟合,其中k-1为所使用的多项式阶数,ai为多项式中第i项所使用的参数,xt为t时刻的负载值。
Figure BDA0004105007630000061
其中,xt i为xt的i次方,在对前后一共2m+1个原始负载值进行计算之后会得到2m+1个yt值,调整所有ai的值,使得yt与历史负载数据的均方误差最小化,便得到上式对历史负载数据的拟合,即可以得到最优的参数a,其最小化目标函数为:
Figure BDA0004105007630000062
其中,ε是优化目标,xt是t时刻的负载值,yt是多项式在t时刻的拟合值。最后,使用最优参数a和负载值序列X进行加权求和,便可得到t=0时刻的负载值在SG滤波之后的平滑值。
在一些实施例中,数据拟合通道可以包括两层双向长短期记忆网络,两层双向长短期记忆网络用于基于去噪后的历史负载数据,对云服务器集群的负载的整体变化趋势进行拟合,确定云服务器集群的负载变化趋势。由于经过平滑处理的数据通常在短时间内不会有剧烈的波动,因此考虑采用两层双向长短期记忆网络对负载的整体趋势进行捕捉。
在处理时间序列数据时,较为常用的方式是采用循环神经网络(RNN),和卷积神经网络不同,理论上,RNN可以处理无限长度的序列数据,而卷积神经网络只能处理和训练集使用长度相同的输入。循环神经网络拥有一个隐藏层,每个时间步读取一个输入,进行一次输出,更新隐藏层参数,再将该隐藏层传递给下一个时间步的循环神经单元。长短期记忆单元LSTM结构的出现是为了解决传统的循环神经网络在使用超长时间序列数据训练时出现的梯度爆炸和梯度消失问题,多个实验显示,LSTM在处理长序列数据时可以得到比传统RNN更好的效果。
LSTM网络创新性地采用了细胞状态来保持信息的稳定,使用遗忘门、输入门、输出门三个门控系统来解决长期依赖问题。其中,遗忘门读取上一个时间步的隐藏状态ht-1和该时间步的输入xt,使用sigmoid函数输出一个0到1的数值作为门控信号,以此来决定上一个细胞状态ct-1有什么信息需要被遗忘。输入门和输出门的门控信号生成原理与遗忘门类似,只不过输入门的门控信号作用于
Figure BDA0004105007630000071
即ht-1与xt的拼接向量经过tanh激活后的值,经过输入门的数据会被添加到细胞状态中,以此来对细胞状态进行更新,得到该时刻的细胞状态Ct。而输出门的门控信号作用对象为更新后的细胞状态Ct,输出作为该时间步的隐藏状态ht。更新后的细胞状态Ct和隐藏状态ht都将被传递给下一个时间步。
各个门控单元的计算细节如下公式所示:
ft=σ(Wf×[ht-1,xt]+bf);
it=σ(Wi×[ht-1,xt]+bi);
ot=σ(Wo×[ht-1,xt]+bo);
其中,ft表示遗忘门的输出,Wf是遗忘门的优化参数,ht-1是t-1时刻的隐藏状态,xt是t时刻的输出,bf是遗忘门的偏置值。it表示输入门的输出,Wi是输入门的优化参数,bi是输入门的偏置值。ot表示输出门的输出,Wo是输出门的优化参数,bo是输出门的偏置值。
细胞状态的更新由遗忘门和输入门来完成,其计算过程如下:
Figure BDA0004105007630000081
其中,Ct是t时刻的细胞状态,ft是遗忘门的输出,Ct-1是t-1时刻的细胞状态,it是输出门的输出,
Figure BDA0004105007630000082
是ht-1与xt的拼接向量经过tanh激活后的值。
隐藏状态的更新由输出门来完成,其计算过程如下:
ht=ot×tanh(Ct);
双向LSTM作为LSTM的一个变体,包括了前后两个方向的LSTM网络,不仅可以捕捉序列中从前向后的特征,还可以捕捉从后往前的特征,具有更强大的表达能力。
在一些实施例中,数据拟合通道可以包括层级归一化单元(第一层级归一化单元),用于对两层双向长短期记忆网络的输出进行归一化,输出第一输出向量。
步骤240,差值通道确定云服务器集群的历史负载数据及去噪后的历史负载数据之间的差值,输出第二输出向量。
由于该差值可能会具有相对较大的变化幅度和变化频率,因此差值通道同时使用了卷积神经网络和双向长短期记忆网络对该差值进行有效捕捉。
虽然使用SG滤波器可以使得历史负载数据更加易于训练,并且提升模型预测效果,但是使用滤波器的过程中不可避免地会造成信息细节的损失,而这些损失是不可逆的,将难以从滤波后的数据中恢复。因此经过SG滤波器的平滑数据和历史负载数据都将作为输入传递给差值通道,该差值通道的功能是预测平滑数据与历史负载数据之间的差值,即负载整体趋势和精确负载值之间的差值。由于该差值可能会具有相对较大的变化幅度和变化频率,因此,差值通道同时使用了卷积神经网络和双向长短期记忆网络对该差值进行有效捕捉。
可以理解的,差值通道的使用,将有效弥补SG滤波器的平滑过程对历史负载数据造成的不可逆损失,数据拟合通道和差值通道的组合使用,可以有效提高模型对复杂负载数据的预测能力。
在一些实施例中,差值通道可以包括卷积神经网络单元及双向长短期记忆网络单元,卷积神经网络单元用于确定云服务器集群的历史负载数据及去噪后的历史负载数据的第一预测差值,双向长短期记忆网络单元用于确定云服务器集群的历史负载数据及去噪后的历史负载数据的第二预测差值。
在一些实施例中,差值通道可以基于第一预测差值和第二预测差值确定云服务器集群的历史负载数据及去噪后的历史负载数据之间的差值。例如,差值通道可以对第一预测差值和第二预测差值进行归一化,基于归一化后的第一预测差值和第二预测差值,确定云服务器集群的历史负载数据及去噪后的历史负载数据之间的差值。仅作为示例的,差值通道可以将卷积神经网络单元输出的第一预测差值和双向长短期记忆网络单元输出的第二预测差值拉伸为一维张量,然后进行拼接,作为云服务器集群的历史负载数据及去噪后的历史负载数据之间的差值。
可以理解的,为了加速模型的训练和推理过程,每个通道的内部都添加了层级归一化单元,与批量归一化相比,层级归一化方法更适合于时间序列数据的处理,避免数值差距过大和梯度消失等问题,从而加速模型的收敛速度。
图3是根据本说明书一些实施例所示的示例性双通道混合模型的结构示意图,如图3所示,在一些实施例中,双通道混合模型(HSG_ConvBiLSTM)可以包括数据拟合通道和差值通道。
在一些实施例中,可以先固定差值通道的参数,仅训练数据拟合通道(也可称为SG通道)的参数,SG通道训练完毕,再固定SG通道的参数,对差值通道的参数进行训练,以此来弥补SG通道丢失的细节信息,提升双通道混合模型(HSG_ConvBiLSTM)的预测精度。
步骤250,基于第一输出向量和第二输出向量,预测云服务器集群的未来负载数据。在一些实施例中,步骤250可以由负载预测模块执行。
在一些实施例中,负载预测模块可以对第一输出向量和第二输出向量进行拼接,获取拼接后的向量;全连接层基于拼接后的向量及非线性激活函数,预测云服务器集群的未来负载数据。
在使用激活函数的时候,由于类似于ReLU和Sigmoid的激活函数只会给出正值或零值,这会对模型的预测效果造成不利影响,并且,ReLU激活函数的使用可能会造成神经元死亡问题,即数据流在前向传播阶段经过该激活函数之后变为0,使得在反向传播的过程中,连接该激活函数的神经元无法得到有效地训练。双通道混合模型采用了一种光滑且非单调的激活函数,即Swish函数作为全连接层的激活函数,其结构如以下所示:
f(x)=x*sigmoid(βx);
其中,β可以作为常数,也可以作为可训练参数。
如图3所示,在一些实施例中,双通道混合模型可以包括该全连接层。
在深度学习模型中,如何确定合适的超参数一直是一个具有挑战性的问题,在双通道混合模型中,卷积神经网络的卷积核大小、卷积核数量,双向长短期记忆网络的输出向量长度以及其它多个超参数的值都需要在训练时得到确定。基于简单性和高效性的考虑,可以采用Random Search策略在给定的搜索空间内对最优的超参数值进行有效搜索。
为了验证双通道混合模型的有效性,使用两个真实服务器集群的负载数据集进行实验对比,两个真实服务器集群的负载数据集包括由阿里巴巴提供的alibaba-cluster-trace-v2018数据集和谷歌给出的google-cluster-trace2011轨迹数据集。阿里数据集的规模较小,包含了4000台机器在八天内的资源使用情况。而谷歌数据集的规模较大,记录了大约12500台机器在29天内的负载情况,包含大约700k的作业和40million的任务。使用这两个数据集可以很好地验证模型在不同规模负载数据上的性能表现。
阿里巴巴数据集的数据采集于其名下一款产品的服务器集群,具有包括在线服务和批处理服务两种类型的任务,数据集总共收集了4000台机器在八天内的负载情况,共有六个表格,其中主要使用machine_usage.csv表格,该表格记录了八天内所有机器的CPU利用率、内存利用率、带宽利用率等数据。阿里巴巴的服务器集群的CPU利用率数据如图4所示。
谷歌服务器集群是一个通过高带宽网络进行连接的计算机集群,单元是一组计算机,它们受到同一个集群管理系统的控制。该谷歌数据集记录了大约12500台机器在2011年5月中29天的负载情况,包含了大约700k的作业和40million的任务,大量研究使用谷歌数据集进行实验。其中使用到的数据为task resource usage table,其中拥有二十个字段,包括start time of measurement period、job ID、machine ID、mean CPU usage rate、canonical memory usage等字段。谷歌服务器集群的CPU利用率数据如图5所示。
在进行数据预处理时,将原始CPU利用率分别按时间间隔5分钟和10分钟进行划分,取前60%的数据作为训练集,中间20%的数据作为验证集,后20%的数据作为测试集。部分研究成果采用了多种资源的利用率信息来对负载进行预测,本说明书记载的基于双通道的云服务负载预测方法也可以在细微修改之后接收多种资源利用率作为输入。为了加快双通道混合模型的训练过程,将输入数据进行了预处理,将其归一化到0~1之间。将一个窗口大小的CPU利用率作为输出送入双通道混合模型,输出为预测的未来六个时间点的服务器CPU利用率。
在进行双通道混合模型训练的过程中,为了保证两个通道能够实现其预先设想的功能,即数据拟合通道拥有预测负载整体趋势的能力,并且差值通道具备预测整体趋势与精确负载之间差值的能力,需要对两个通道进行预训练。在预训练的过程中,使用经过SG滤波器平滑处理的负载数据作为数据拟合通道的输入,其预训练标签为同样经过SG滤波器平滑处理的未来若干时间步的负载数据。而对于差值通道,其输入为原始负载数据和经过SG滤波器平滑处理的负载信息,所使用的预训练标签为原始精确负载与平滑数据之间的差值。在经过充分的预训练过程后,将两个通道的参数同时迁移到最终的双通道混合模型上,进行最后一步的模型整体训练。
本说明书所提出的双通道混合模型与所有的对比模型均采用Keras和scikit-learn框架进行搭建,并且都使用NVIDIAGeForce RTX 3090 GPU图形显示卡进行训练和测试。
在实验过程中,双通道混合模型的部分参数值如表1所示。
表1
参数名称 数值 参数含义
X 25 模型输入向量的长度
Y 6 模型输出向量的长度
optimizer Adam 模型优化器类型
batch_size 32 模型使用的批处理数据大小
epoch_num 400 模型训练阶段的迭代次数
SG_window_size 11 SG滤波器的窗口大小
SG_rank 2 SG滤波器使用的阶
为了验证所提出的双通道混合模型的有效性,使用了多个指标进行评价,包括RMSE均方根误差和MAPE平均绝对百分比误差。其中,对于预测模型而言,RMSE、MAPE的值越小,说明模型的预测效果越好。RMSE均方根误差通常用于回归模型的效果验证,计算过程是将预测值与真实值的差平方后求和,再对结果进行开方,可以直观地表现预测结果与真实值之间的差距大小。
为了验证本说明书记载的双通道混合模型的有效性,即验证对两个通道的功能进行细分可以提高模型的性能,利用长短期记忆单元LSTM、门控循环单元GRU、双向长短期记忆单元BiLSTM和卷积神经网络Conv1D结构分别实现了多个单通道模型,与本说明书提出的双通道混合模型进行对比。其中,单通道模型为仅拥有单一类型输入的模型,包括LSTM、GRU、BiLSTM、Conv1D四个单通道模型,其仅使用原始数据作为模型输入,以及SG_LSTM、SG_GRU、SG_BiLSTM、SG_Conv1D四个模型,这四个模型都仅使用经过SG滤波器平滑处理的负载数据作为模型输入。使用RMSE和MAPE两个指标来对结构有效性进行验证,实验结果如表2所示。
表2
Figure BDA0004105007630000121
两个数据集的实验效果都显示,在单通道的模型对比中,使用了SG滤波器的模型效果明显好于使用原始数据的模型,使用SG滤波器的单通道模型与使用原始数据的单通道模型相比,拥有更低的RMSE和MAPE,无论是在5分钟的时间间隔上还是在10分钟的时间间隔上。这是因为SG滤波器可以有效地消除原始数据中的噪声和极值点,使得模型可以更加容易地捕捉到原始数据中的规律和特征,这说明了使用SG滤波器对数据进行平滑处理有利于提高模型的准确度。在所有对比模型中,双通道混合模型在阿里巴巴和谷歌两个数据集的所有时间间隔上都获得了最低的RMSE和MAPE,这些结果显示了所提出的模型有着比其它所有单通道模型更好的预测效果,说明了对模块功能的有效拆分可以提高模型的预测能力。
同时,将所提出的双通道混合模型与传统的统计学模型ARIMA和近年提出的多个模型进行对比,包括LSTM-ED模型和LSRU模型。其中,ARIMA模型是一种在统计学领域常见的时间序列预测模型,其结合了自回归模型和滑动平均模型的特点,有较好的预测能力。LSTM-ED模型将LSTM单元应用于编码器解码器结构,使用一个LSTM单元作为编码器,再使用一个LSTM单元作为解码器,编码器依次读取时间序列输入,将其编码成固定长度的向量,解码器读取这个固定长度的向量,进行解码获得最后的预测结果。而LSRU模型是一种综合使用了一维卷积、LSTM和GRU单元的混合模型,仅仅将多个单元进行了简单堆叠。
从实验结果可以看出,与其它三个对比模型相比,双通道混合模型整体上具有最低的RMSE和MAPE值,在阿里巴巴数据集的5分钟时间间隔和10分钟时间间隔上分别达到了RMSE(2.955,4.248)、MAPE(0.033,0.078),在谷歌数据集的5分钟时间间隔和10分钟时间间隔上分别达到了RMSE(0.00081,0,00085)、MAPE(0.01710,0.01988)。传统的ARIMA算法相对而言获得了最差的性能表现,从实验结果可以看出,双通道混合模型在RMSE和MAPE两个指标上具有优于其它三个模型的效果。双通道混合模型可以获得超过LSTM-ED和LSRU两个模型的预测精度,这主要是因为该模型不是各个模块的简单堆叠,而是将不同通道的功能进行了有效拆分,具体来说,就是数据拟合通道仅仅用于预测负载变化的整体趋势,而差值模块仅仅用于预测变化趋势与精确负载值之间的差值,其中任何通道的细微失误都不会对另一个通道有破坏性的影响,使得最后的预测结果更加稳定,实现了通道间的高效协同,从而实现了超越其它模型的预测效果。
不论是预测短期的负载情况,还是长期的负载情况,双通道混合模型都可以得到比另外三个对比模型更低的RMSE值,这意味着本模型在短期预测和长期预测上都有着更好的预测性能。尽管在第六个预测的时间步,双通道混合模型的RMSE值有一定的上升,但是依然小于另外三个模型,效果仍好于对比模型,但是RMSE的上升意味着该模型在预测长期负载的时候依然可能丢失了部分特征信息。在大多数情况下,ARIMA模型依然表现出了最差的预测能力,这主要是因为其难以有效地捕捉高动态负载数据中的非线性特征。双通道混合模型可以获得最低的RMSE,这主要是因为双通道混合模型使用了SG滤波器和原始数据的混合结构,同时应用了一维卷积神经网络和双向LSTM网络,一维卷积神经网络可以对前后时间步的负载数据进行卷积,提取数据之间的协同特征,双向LSTM网络可以捕捉负载数据中双向的特征依赖,在准确预测负载整体变化趋势的同时对单个时间点的负载预测情况进行微调,从而更加精确地预测未来几个时间步的CPU利用率情况。
双通道混合模型的预测结果非常接近真实的负载情况。基于两个不同规模数据集上的实验结果,可以认为,双通道混合模型可以同时在小规模数据集和大规模数据集上获得更低的RMSE和MAPE,实现更好的预测准确度。
在一些实施例中,基于双通道的云服务负载预测方法及系统至少具备以下有益效果:
1、将不同通道的功能进行了有效的拆分,更加清晰的功能拆分可以使得各个模块专注于自己的功能,同时减少对其它模块的干扰,两个通道的组合也使得模型对复杂特征的提取能力更加强大,进而有效地提升模型预测精度;
2、卷积神经网络和双向长短期记忆单元的组合使用使得模型可以从负载数据中捕获更多有效的高维特征,双向LSTM网络不仅可以学习到之前时间步的负载信息,还可以学习到之后时间步的负载信息,这使得双向LSTM网络可以捕捉两个方向的特征,相比于原始的LSTM可以捕获更加复杂的非线性特征,有更好的预测性能。而一维卷积神经网络模块对前后数据的信息进行了卷积,用来捕捉前后时间步负载之间的非线性关系,提取前后时间步之间的协同信号和高维度特征,以此来补充原始数据的不足,使用卷积神经网络提取的高维度特征可以帮助模型有效地拟合负载数据的波动变化,和双向LSTM模块相组合,使得模型捕捉负载信息中非线性特征的能力更加强大,使得对于负载差值的预测更加准确;
3、将SG滤波器引入LSTM模型,显著提高了模型的抗噪声能力。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,除非权利要求中明确说明,本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本说明书披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims (10)

1.一种基于双通道的云服务负载预测方法,其特征在于,包括:
获取云服务器集群的历史负载数据;
对所述云服务器集群的历史负载数据进行预处理,生成预处理后的历史负载数据;
数据拟合通道去除所述预处理后的历史负载数据中的噪声信息,获取去噪后的历史负载数据,并基于所述去噪后的历史负载数据,确定所述云服务器集群的负载变化趋势,输出第一输出向量;
差值通道确定所述云服务器集群的历史负载数据及所述去噪后的历史负载数据之间的差值,输出第二输出向量;
基于所述第一输出向量和所述第二输出向量,预测所述云服务器集群的未来负载数据。
2.根据权利要求1所述的基于双通道的云服务负载预测方法,其特征在于,所述对所述云服务器集群的历史负载数据进行预处理,生成预处理后的历史负载数据,包括:
对所述云服务器集群的历史负载数据进行归一化处理,生成归一化后的历史负载数据。
3.根据权利要求1所述的基于双通道的云服务负载预测方法,其特征在于,所述数据拟合通道包括SG滤波器,用于去除所述预处理后的历史负载数据中的噪声信息。
4.根据权利要求3所述的基于双通道的云服务负载预测方法,其特征在于,所述数据拟合通道包括两层双向长短期记忆网络,所述两层双向长短期记忆网络用于基于所述去噪后的历史负载数据,确定所述云服务器集群的负载变化趋势。
5.根据权利要求4所述的基于双通道的云服务负载预测方法,其特征在于,所述数据拟合通道包括层级归一化单元,用于对所述两层双向长短期记忆网络的输出进行归一化,输出第一输出向量。
6.根据权利要求1-5任意一项所述的基于双通道的云服务负载预测方法,其特征在于,所述差值通道包括卷积神经网络单元及双向长短期记忆网络单元,所述卷积神经网络单元用于确定所述云服务器集群的历史负载数据及所述去噪后的历史负载数据的第一预测差值,所述双向长短期记忆网络单元用于确定所述云服务器集群的历史负载数据及所述去噪后的历史负载数据的第二预测差值;
所述差值通道确定所述云服务器集群的历史负载数据及所述去噪后的历史负载数据的差值,输出第二输出向量,包括:
基于所述第一预测差值和第二预测差值确定所述云服务器集群的历史负载数据及所述去噪后的历史负载数据之间的差值。
7.根据权利要求6所述的基于双通道的云服务负载预测方法,其特征在于,所述基于所述第一预测差值和第二预测差值确定所述云服务器集群的历史负载数据及所述去噪后的历史负载数据之间的差值,包括:
对所述第一预测差值和所述第二预测差值进行归一化,基于归一化后的第一预测差值和第二预测差值,确定所述云服务器集群的历史负载数据及所述去噪后的历史负载数据之间的差值。
8.根据权利要求3所述的基于双通道的云服务负载预测方法,其特征在于,所述基于所述第一输出向量和所述第二输出向量,预测所述云服务器集群的未来负载数据,包括:
对所述第一输出向量和所述第二输出向量进行拼接,获取拼接后的向量;
全连接层基于所述拼接后的向量及非线性激活函数,预测所述云服务器集群的未来负载数据。
9.根据权利要求8所述的基于双通道的云服务负载预测方法,其特征在于,所述非线性激活函数为Swish函数。
10.一种基于双通道的云服务负载预测系统,其特征在于,包括:
数据获取模块,用于获取云服务器集群的历史负载数据;
预处理模块,用于对所述云服务器集群的历史负载数据进行预处理,生成预处理后的历史负载数据;
数据拟合通道,用于去除所述预处理后的历史负载数据中的噪声信息,获取去噪后的历史负载数据,并基于所述去噪后的历史负载数据,确定所述云服务器集群的负载变化趋势,输出第一输出向量;
差值通道,用于确定所述云服务器集群的历史负载数据及所述预处理后的历史负载数据的差值,输出第二输出向量;
负载预测模块,用于基于所述第一输出向量和所述第二输出向量,预测所述云服务器集群的未来负载数据。
CN202310189763.4A 2023-03-02 2023-03-02 一种基于双通道的云服务负载预测方法及系统 Pending CN116302515A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310189763.4A CN116302515A (zh) 2023-03-02 2023-03-02 一种基于双通道的云服务负载预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310189763.4A CN116302515A (zh) 2023-03-02 2023-03-02 一种基于双通道的云服务负载预测方法及系统

Publications (1)

Publication Number Publication Date
CN116302515A true CN116302515A (zh) 2023-06-23

Family

ID=86777253

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310189763.4A Pending CN116302515A (zh) 2023-03-02 2023-03-02 一种基于双通道的云服务负载预测方法及系统

Country Status (1)

Country Link
CN (1) CN116302515A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116980941A (zh) * 2023-09-22 2023-10-31 南京邮电大学 低轨卫星物联网终端参数配置方法、装置及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116980941A (zh) * 2023-09-22 2023-10-31 南京邮电大学 低轨卫星物联网终端参数配置方法、装置及设备
CN116980941B (zh) * 2023-09-22 2023-12-22 南京邮电大学 低轨卫星物联网终端参数配置方法、装置及设备

Similar Documents

Publication Publication Date Title
Huang et al. Learning to prune filters in convolutional neural networks
US20180285780A1 (en) Updating attribute data structures to indicate trends in attribute data provided to automated modelling systems
Patel et al. A hybrid CNN-LSTM model for predicting server load in cloud computing
CN110969251A (zh) 基于无标签数据的神经网络模型量化方法及装置
CN107730040A (zh) 基于rbm的电力信息系统日志信息综合特征提取方法和装置
US20210232906A1 (en) System and method for automatically generating neural networks for anomaly detection in log data from distributed systems
CN113822776B (zh) 课程推荐方法、装置、设备及存储介质
Yujun et al. Research on a hybrid prediction model for stock price based on long short-term memory and variational mode decomposition
CN116302515A (zh) 一种基于双通道的云服务负载预测方法及系统
CN113379168B (zh) 一种时间序列的预测处理方法、装置及设备
CN112433927A (zh) 基于时间序列聚类和lstm的云服务器老化预测方法
CN114546797A (zh) 基于时序分解的云虚拟机老化预测方法
Shang et al. Machine remaining life prediction based on multi-layer self-attention and temporal convolution network
CN115309575A (zh) 基于图卷积神经网络的微服务故障诊断方法、装置及设备
CN111461353A (zh) 一种模型训练的方法和系统
Chen et al. Multi-scale split dual calibration network with periodic information for interpretable fault diagnosis of rotating machinery
Bi et al. Accurate Prediction of Workloads and Resources with Multi-head Attention and Hybrid LSTM for Cloud Data Centers
CN115249081A (zh) 一种对象类型的预测方法、装置、计算机设备和存储介质
CN111105127B (zh) 一种基于数据驱动的模块化产品设计评价方法
CN110740063B (zh) 基于信号分解和周期特性的网络流量特征指标预测方法
CN111209105A (zh) 扩容处理方法、装置、设备及可读存储介质
Chen et al. Acceleration of neural network model execution on embedded systems
CN114186358A (zh) 基于文本特征和卷积神经网络的轴承寿命预测方法及装置
Rio et al. WaveNet based architectures for denoising periodic discontinuous signals and application to friction signals
CN113821401A (zh) 基于wt-ga-gru模型的云服务器故障诊断方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination