CN114721898A - 基于boosting算法的边缘云服务器利用率预测方法、预测装置及存储介质 - Google Patents

基于boosting算法的边缘云服务器利用率预测方法、预测装置及存储介质 Download PDF

Info

Publication number
CN114721898A
CN114721898A CN202210259762.8A CN202210259762A CN114721898A CN 114721898 A CN114721898 A CN 114721898A CN 202210259762 A CN202210259762 A CN 202210259762A CN 114721898 A CN114721898 A CN 114721898A
Authority
CN
China
Prior art keywords
data
server
utilization rate
bandwidth utilization
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210259762.8A
Other languages
English (en)
Inventor
李星星
黄少远
王晓飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pplabs Network Technology Shanghai Co ltd
Original Assignee
Pplabs Network Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pplabs Network Technology Shanghai Co ltd filed Critical Pplabs Network Technology Shanghai Co ltd
Priority to CN202210259762.8A priority Critical patent/CN114721898A/zh
Publication of CN114721898A publication Critical patent/CN114721898A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于boosting算法的边缘云服务器利用率预测方法、预测装置及存储介质,其中方法包括:S1基于boosting算法模型,获取被预测带宽利用率数据;S2建立最近数据专注机制,包括:计算各服务器实际带宽利用率数据与被预测带宽利用率数据之间的时间差;为每条服务器实际带宽利用率数据生成一个介于时间差最小值与最大值之间的随机数后;保留时间差小于该随机数的带宽利用率数据,生成服务器专注特征数据;S3基于所述服务器专注特征数据进一步训练boosting算法模型生成R‑Aboosting算法模型,以输出各服务器预测带宽利用率数据,籍此有效筛选Boosting模型输入侧的数据规模,以提高模型训练速度及预测准确率。

Description

基于boosting算法的边缘云服务器利用率预测方法、预测装 置及存储介质
技术领域
本发明涉及人工智能应用领域,尤其涉及基于boosting算法的边缘云服务器利用率预测方法、预测装置及存储介质。
背景技术
随着边缘计算网络架构的发展,边缘云服务的潜力得到进一步发掘,面向于服务基础设备供应商、内容提供商(CP)以及网络用户的边缘云平台展现出巨大的商业价值。边缘云服务平台的优势在于: 1、对下可以整合各类异构的边缘服务器资源,最大化硬件价值;2、对上可以为各类内容提供商提供灵活部署的边缘网络服务;3、可以利用边缘计算的优势,为最上层用户提供低时延、高可靠的边缘服务。
虽然边缘云服务平台具有以上种种优势,但其面临大量异构设备的统一管理、任务实例在服务器的精确部署、用户需求和服务器之间的高效实时调度等重要问题;其中,边缘云服务器的带宽利用率属性,是平台在服务器进行任务部署时要参考的主要特征。
在实际生产中,服务器的带宽利用率与下游资源提供商、平台以及上游内容提供客户的利益都有着较强的正相关关系,即服务器的综合带宽利用率越高,三方的收益都会呈现相应的增长。除此之外,较高的服务器带宽利用率说明任务与对应服务器适配良好,这保证了服务器的硬件资源不被浪费,也保证了该服务器被服务的用户的良好用户体验。
因此如何在服务器正确部署任务,以保证服务器的带宽利用率最大化,是边缘云服务平台进行任务部署的核心策略,而这策略的制定离不开对异构服务器在不同任务、不同时间节点下的带宽利用率的精确估计。
以往通常这些预估工作大多依靠人为分析和决策解决,然而随着人工智能的发展,机器学习方法在学术界和产业界都得到了广泛应用,发明人开始尝试通过训练机器学习模型的方式,来对边缘云服务器利用率进行预测,如发明人曾经试验以:聚类回归(Clustering) 算法、逻辑回归(Logistic Regression, LR)算法、多层感知机(MultilayerPerceptron, MLP) 、XGBoosting算法等,来对边缘云服务器利用率进行预测的方案,但结果并不理想。
因此发明人认为现有此类算法预测准确率还有待提高,为此发明人期望能通过本案进一步提升预测准确率。
发明内容
为此本发明的主要目的在于提供一种基于Boosting算法的边缘云服务器利用率预测方法、预测装置及存储介质,以在Boosting算法基础上融入最近数据注意力筛选机制(Recent Attention),从而有效筛选Boosting模型输入侧的数据规模,以提高模型训练速度及预测准确率。
为了实现上述目的,根据本发明的一个方面,提供了一种基于boosting算法的边缘云服务器利用率预测方法,步骤包括:S1基于boosting算法模型,获取被预测带宽利用率数据;S2建立最近数据专注机制,包括:计算各服务器实际带宽利用率数据与被预测带宽利用率数据之间的时间差;为每条服务器实际带宽利用率数据生成一个介于时间差最小值与最大值之间的随机数后;保留时间差小于该随机数的带宽利用率数据,生成服务器专注特征数据;S3基于所述服务器专注特征数据进一步训练boosting算法模型生成R-Aboosting算法模型,以输出各服务器预测带宽利用率数据。
在可能的优选实施方式中,其中步骤S3中所述R-Aboosting算法模型生成步骤包括:S31定义boosting基模型为基于回归决策树的基预测模型;S32调整目标函数和决策树的复杂度,以通过近似算法分裂决策树节点生成单个的回归决策树基模型;S33基于服务器专注特征数据采用残差学习来训练和集成所有单个的回归决策树基模型,以生成R-Aboosting算法模型。
在可能的优选实施方式中,还包括:步骤S34,设定服务器利用率以天为尺度,将服务器专注特征数据以天划分,限制R-Aboosting算法模型训练中只提供对目前积累数据最新日期下一天的预测结果。
在可能的优选实施方式中,还包括:步骤S44,设定服务器利用率以自然周为尺度,将服务器专注特征数据进行自然周划分,步骤包括:采用窗口跳动取数据的方法,将后组周数据紧邻前组周数据但无交叉,在数据划分后对一组周数据依据服务器ID进行服务器特征和带宽利用率的取平均作为一条新的周服务器专注特征数据,以供R-Aboosting算法模型训练,并输出对目前积累数据最新日期下一天开始的一个自然周下的平均带宽利用率。
在可能的优选实施方式中,其中步骤S32中通过近似算法分裂决策树节点,并且每次分裂前重新提出候选切分点,以此生成单个的回归决策树基模型。
在可能的优选实施方式中,其中步骤S32中目标函数和决策树的复杂度的步骤包括:
建立损失损失函数
Figure DEST_PATH_IMAGE001
Figure 726920DEST_PATH_IMAGE002
其中
Figure DEST_PATH_IMAGE003
为预测带宽利用率,
Figure 765677DEST_PATH_IMAGE004
为实际带宽利用率,N为服务器数量;
在损失函数的基础上添加正则项,以组成目标函数:
Figure DEST_PATH_IMAGE005
其中,
Figure 842217DEST_PATH_IMAGE006
是将全部t棵决策树的复杂度
Figure DEST_PATH_IMAGE007
进行求和,添加到目标函数中作为正则项,防止模型过拟合,通过泰勒公式展开,以将目标函数型变为如下公式:
Figure 363329DEST_PATH_IMAGE008
其中g为损失函数的一阶导,h为损失函数的二阶导。
在可能的优选实施方式中,该目标函数的正则项由生成的所有决策树的叶子节点数量T,和所有节点权重所组成的向量
Figure DEST_PATH_IMAGE009
Figure 550727DEST_PATH_IMAGE010
范式共同决定,其公式为:
Figure DEST_PATH_IMAGE011
为了实现上述目的,根据本发明的二个方面,还提供了一种基于boosting算法的边缘云服务器利用率预测方法,步骤包括:S1获取各服务器特征包括:服务器性能特征、对应部署任务类别、被预测所在时间特征,将边缘云服务器带宽利用率预测建模为一个回归任务;S2清洗服务器历史数据集后,按比例进行缩放,使数据落入一个预设特定区间,并且转化为一个无量纲的纯数值,以供boosting算法学习,并输出被预测带宽利用率数据;S3建立最近数据专注机制,包括:计算各服务器实际带宽利用率数据与被预测带宽利用率数据之间的时间差;为每条服务器实际带宽利用率数据生成一个介于时间差最小值与最大值之间的随机数后;保留时间差小于该随机数的带宽利用率数据,生成服务器专注特征数据;S4基于所述服务器专注特征数据进一步训练boosting算法模型生成R-Aboosting算法模型,以输出各服务器预测带宽利用率数据。
在可能的优选实施方式中,步骤S4中所述R-Aboosting算法模型生成步骤包括:S41定义boosting基模型为基于回归决策树的基预测模型;S42调整目标函数和决策树的复杂度,以通过近似算法分裂决策树节点生成单个的回归决策树基模型;S43基于服务器专注特征数据采用残差学习来训练和集成所有单个的回归决策树基模型,以生成R-Aboosting算法模型。
在可能的优选实施方式中,还包括:步骤S44,设定服务器利用率以天为尺度,将服务器专注特征数据以天划分,限制R-Aboosting算法模型训练中只提供对目前积累数据最新日期下一天的预测结果。
在可能的优选实施方式中,还包括:步骤S44,设定服务器利用率以自然周为尺度,将服务器专注特征数据进行自然周划分,步骤包括:采用窗口跳动取数据的方法,将后组周数据紧邻前组周数据但无交叉,在数据划分后对一组周数据依据服务器ID进行服务器特征和带宽利用率的取平均作为一条新的周服务器专注特征数据,以供R-Aboosting算法模型训练,并输出对目前积累数据最新日期下一天开始的一个自然周下的平均带宽利用率。
在可能的优选实施方式中,步骤S42中通过近似算法分裂决策树节点,并且每次分裂前重新提出候选切分点,以此生成单个的回归决策树基模型。
在可能的优选实施方式中,步骤S42中目标函数和决策树的复杂度的步骤包括:
建立损失损失函数
Figure 644323DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE013
其中
Figure 891765DEST_PATH_IMAGE014
为预测带宽利用率,
Figure DEST_PATH_IMAGE015
为实际带宽利用率,N为服务器数量;
在损失函数的基础上添加正则项,以组成目标函数:
Figure 900172DEST_PATH_IMAGE016
其中,
Figure 484737DEST_PATH_IMAGE006
是将全部t棵决策树的复杂度
Figure 62585DEST_PATH_IMAGE007
进行求和,添加到目标函数中作为正则项,防止模型过拟合,通过泰勒公式展开,以将目标函数型变为如下公式:
Figure 74403DEST_PATH_IMAGE008
其中g为损失函数的一阶导,h为损失函数的二阶导。
在可能的优选实施方式中,目标函数的正则项由生成的所有决策树的叶子节点数量T,和所有节点权重所组成的向量
Figure 773369DEST_PATH_IMAGE009
Figure 161625DEST_PATH_IMAGE010
范式共同决定,其公式为:
Figure 262436DEST_PATH_IMAGE011
为了实现上述目的,根据本发明的三个方面,还提供了一种边缘云服务器利用率预测装置,其包括:数据处理单元,数据采集单元,存储单元及数据输出单元,其中所述数据采集单元搜集各边缘云服务器中包括服务器专注特征数据在内的日志数据,并向数据处理单元发送,所述存储单元内存有如上述任一所述的基于boosting算法的边缘云服务器利用率预测方法的步骤执行程序,所述数据处理单元调取存储单元的执行程序对日志数据进行处理,以经数据输出单元输出各服务器预测带宽利用率数据结果。
为了实现上述目的,根据本发明的四个方面,还提供了一种计算机可读存储介质,其上存储有计算机程序,其中该计算机程序被计算机处理器执行时,实现如上述任一项所述基于boosting算法的边缘云服务器利用率预测方法的步骤。
本发明提供的该基于Boosting算法的边缘云服务器利用率预测方法、预测装置及存储介质,通过建立最近数据专注机制,籍此可有效筛选Boosting模型输入侧的数据规模,从而可提高模型训练速度,并提高预测准确率,其他有益效果将在后文进一步阐述。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明第一实施例的服务器带宽周期变化示意图;
图2是本发明第一实施例的isp特征的one-hot编码示意图;
图3是本发明第一实施例的服务器带宽变化示意图示意图;
图4是本发明第一实施例的最近数据专注(Recent-Attention, R-A)机制示意图;
图5是本发明第一实施例中添加数据专注机制后的效果提升数据图;
图6是本发明第一实施例的决策树的结构示意图;
图7是本发明第一实施例的决策树的结构示意图;
图8是本发明第一实施例的R-A Boosting算法在长时间预测下的误差表现数据图;
图9是本发明第一实施例的R-A Boosting算法单天模型预测和训练逻辑示意图;
图10是本发明第一实施例的R-A Boosting算法自然周模型预测和训练逻辑示意图。
具体实施方式
为了使本领域的技术人员能够更好的理解本发明的技术方案,下面将结合实施例来对本发明的具体技术方案进行清楚、完整地描述,以助于本领域的技术人员进一步理解本发明。显然,本案所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思及相互不冲突的前提下,本申请中的实施例及实施例中的特征可以相互组合。基于本发明中的实施例,在本领域普通技术人员没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的揭露及保护范围。
此外本发明的说明书和权利要求书及附图中的术语“第一”、“第二”、“S1”、“S2”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里描述的那些以外的顺序实施。同时本发明中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。除非另有明确的规定和限定,术语“设置”、“布设”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况,结合现有技术来理解上述术语在本案中的具体含义。
Boosting是一种可将弱学习器提升为强学习器的算法。本发明构思上通过对边缘云服务器进行建模,同时分析边缘云服务器的服务器性能特征、时空特征、任务类别特征与带宽利用率指标间的影响关系。之后对基于Boosting算法的机器学习模型进行特征捕获,以实现对边缘云系统下异构服务器的带宽利用率变化进行不同时间尺度的预测。
因此本发明最终达到的效果是给出,基于任意服务器的服务器性能特征(如包括带宽,CPU,内存等)、服务器上计划运行的任务类别特征以及预测所在时间特征,由模型输出该服务器在该状态下的预测带宽利用率。
为此首先需要对将边缘云服务器带宽利用率预测建模为一个回归任务。如将边缘云服务器
Figure DEST_PATH_IMAGE017
的自身硬件特征设为
Figure 851680DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE019
,其中
Figure 67636DEST_PATH_IMAGE020
为服务器的特征数量,根据后续的特征相关性和重要性分析来确定。除此之外,我们用
Figure DEST_PATH_IMAGE021
表示服务器
Figure 400528DEST_PATH_IMAGE017
上所部署的任务类别,
Figure 480480DEST_PATH_IMAGE022
为全部存在的任务数。
由于相同服务器在部署不同任务后会展现完全不同的带宽利用率表现,本发明将任务类别编码进服务器的特征中。
最后,本发明也将服务器被预测所在时间
Figure 771784DEST_PATH_IMAGE023
(粒度到天)作为模型所考虑的特征,除了dt这一时间特征,考虑到服务器带宽利用率的周期性,如图1所示,相同的日期、星期、月份下的服务器存在着周期性的带宽利用率变化。
因此本案将时间特征
Figure 445342DEST_PATH_IMAGE024
进一步拆分为预测日期所在的星期(
Figure DEST_PATH_IMAGE025
)、月中所在星期(
Figure 909821DEST_PATH_IMAGE026
)、年中所在月(mon)种属性作为预测服务器的时间特征。
经过上述定义,一台边缘云服务器在某个日期下,部署某个任务所能达到带宽利用率为
Figure DEST_PATH_IMAGE027
,设预测模型为
Figure 424372DEST_PATH_IMAGE028
,则问题可形式化定义为:
Figure 214474DEST_PATH_IMAGE029
其中
Figure 375328DEST_PATH_IMAGE030
为服务器数量,而本案目标是最小化预测服务器带宽利用率
Figure 377919DEST_PATH_IMAGE031
与真实带宽利用率
Figure 307829DEST_PATH_IMAGE027
之间的差异。
具体来说,在问题中,本发明采用的误差或称损失函数为平均绝对误差(MeanAbsolute Error,MAE),其定义为:
Figure 268832DEST_PATH_IMAGE032
由此,基于该回归预测任务的一般步骤以及针对边缘云服务的复杂异构特性,本专利提出了以下步骤建立和训练预测模型、验证效果,具体如下:
一、 数据收集和预处理
本发明利用边缘云服务平台所积累的的真实大规历史模数据集,采用均值代替法对连续型特征数据进行填充,步骤包括:清洗缺失值、清洗格式内容、清洗逻辑错误。
除此之外,优选采用箱线图法删除数据中的离群点,箱线图法依据数据(某项特征)的上下四分位数判断某条记录中的特征值是否异常。
如:箱线图法首先计算某特征数值的
Figure 149938DEST_PATH_IMAGE033
Figure 221799DEST_PATH_IMAGE034
。其中
Figure 271794DEST_PATH_IMAGE035
为四分之一分位数,
Figure 810223DEST_PATH_IMAGE036
为四分之三分位数,
Figure 70303DEST_PATH_IMAGE037
为二者差值。当
Figure 555642DEST_PATH_IMAGE038
或者
Figure 788041DEST_PATH_IMAGE039
时则判断该值为异常值,该条记录为离群点被删除。经过测试优选选择只删除极端异常值,为此本实施例下优选将
Figure 992976DEST_PATH_IMAGE040
设置为5,但本领域技术人员可以根据实际情况进行调整。
对数据进行清洗和异常值删除后,由于各字段数据量级跨度大,有数据单位限制,因此需对数据进行标准化,将数据按比例进行缩放,使数据落入一个非常小的特定区间,并且转化为一个无量纲的纯数值,这样可对不同单位的指标进行加权。
如本实施例中优选采用min-max标准化,对服务器的连续特征
Figure 740352DEST_PATH_IMAGE041
进行变换,得到无量纲新特征序列
Figure 763803DEST_PATH_IMAGE042
,其中
Figure 647445DEST_PATH_IMAGE044
二、 离散特征编码
在可选的实施方式中,为方便工作人员的理解,离散特征的值通常为字符串格式,或者提前设置好的编码(如bz为B公司业务,zjtd为Z公司业务),这类特征无法被模型直接学习,因此需要进行对离散特征进行预先处理。
本发明示例使用one-hot编码的方法对任务、服务器所在地、带宽类型、运营商类型等离散特征进行编码,one-hot编码使用 N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。
举例来说如图2所示,所有服务器的isp类型主要有电信、移动、联通三种,则对任意服务器的isp进行one-hot编码则得到以下形式:首先将isp这一特征分裂成isp_电信、isp_移动、isp_联通三种,若服务器的isp类型为电信,则对应的编码为100。
三、 为Boosting算法建立Recent-Attention数据专注机制
根据对历史数据的观察和验证,发明人发现,越靠近被预测日期的服务器带宽利用率变化数据对被预测服务器的未来带宽利用率的预测贡献越大。这是因为,边缘云服务器的业务实跑带宽是在最近日期一定的业务带宽基础上进行变化的,尤其边缘云服务器近期出现切任务或网络状况波动等情况时,过早历史数据记录的特征和带宽利用率情况会成为脏数据给模型带来误差。
如图3所示,边缘云服务器在12月7日经过了系统调整,带宽跑量增加且稳定在1.4GB这一量级,但以往的大量数据该显示该服务器的利用带宽不超过1G,如果将全量的数据输入给模型学习会使得模型倾向于预测该服务器的带宽利用率偏低,但真实情况下该服务器在该业务下的利用率已经能够达到原有的1.4倍。
为此如图4所示,为增加模型对规服务器近期数据的拟合能力,本案示例了为Boosting算法设计了一种最近数据专注(Recent-Attention, R-A)机制。该机制的主要步骤如下:
1、首先计算每条服务器带宽利用率数据与被预测数据之间时间差;
2、为每条带宽利用率数据生成一个介于时间差最小值与最大值之间的随机数;
3、以该随机数作为该条数据的保留阈值,若该条数据的时间差大于该阈值,则删除该数据,否则保留该条数据
如图5所示,最终在添加了数据专注(Recent-Attention, R-A)机制后的R-Aboosting算法模型,其预测误差有了明显降低,其中单天预测的MAE降低0.028(28.87%),预测准确率上升了6.1%;对于自然周预测,MAE降低了0.065(42.76%),预测准确率上升了13%。
四、 定义Boosting基模型
Boosting算法工作原理上是将一系列能力较弱的基预测模型组合,得到强预测模型,以提升模型的泛化能力,因此在本发明中优选基于回归决策树(regression decisiontree)建立基预测模型,以期通过众多决策树的共同决策,确定服务器带宽利用率的预测值。
其中该决策树如图6所示,是由根节点(包含样本的全集)、内部节点(对应特征属性测试)、叶节点(代表决策的结果)所组成的预测器,如果叶节点的目标变量采用连续值(通常是实数),则决策树称为回归树。
在boosting算法中,优选通过定义以下两个部分来定义一颗回归决策树基模性:
1. 叶子结点的权重向量
Figure 793256DEST_PATH_IMAGE045
2. 实例(样本)到叶子结点的映射关系q;
Figure 637715DEST_PATH_IMAGE046
其中
Figure 589491DEST_PATH_IMAGE047
是长度为T的一维向量,代表树q各叶子结点的权重,作用是将输入映射到某个叶子结点。在生成足够多的基决策树模型后,通过采用Bootstrap方法对训练样本进行有放回的随机抽样,重复
Figure 967120DEST_PATH_IMAGE048
次后将获得的
Figure 346149DEST_PATH_IMAGE048
个训练样本共同形成训练数据集
Figure 677904DEST_PATH_IMAGE049
的训练数据子集
Figure 433371DEST_PATH_IMAGE050
,每个训练数据子集训练一棵决策树,作为决策树根节点的样本。
五、 设计目标函数和树的复杂度
目标函数和树复杂度是进行决策树节点分裂时的需要参考的关键属性,本发明用平均绝对误差Mean Absolute Error表示预测带宽利用率
Figure DEST_PATH_IMAGE051
与实际带宽利用率
Figure 698130DEST_PATH_IMAGE052
之间的区别:
Figure DEST_PATH_IMAGE053
除此之外,我们在损失函数的基础上添加正则项,以组成目标函数:
Figure 654585DEST_PATH_IMAGE054
其中,
Figure DEST_PATH_IMAGE055
是将全部t棵决策树的复杂度
Figure 506259DEST_PATH_IMAGE056
进行求和,添加到目标函数中作为正则项,防止模型过拟合,通过泰勒公式展开,以将目标函数型变为如下公式:
Figure 675204DEST_PATH_IMAGE057
其中g为损失函数的一阶导,h为损失函数的二阶导。
除了损失函数,本实施例中所定义的boosting基模型决策树的复杂度
Figure 387945DEST_PATH_IMAGE007
可由叶子数
Figure 249721DEST_PATH_IMAGE058
组成,叶子节点越少模型越简单,此外叶子节点也不应该含有过高的权重
Figure 680703DEST_PATH_IMAGE059
(类比 LR的每个变量的权重),所以目标函数的正则项由生成的所有决策树的叶子节点数量,和所有节点权重所组成的向量的
Figure 653338DEST_PATH_IMAGE060
范式共同决定,其公式为:
Figure 220586DEST_PATH_IMAGE061
六、 通过近似算法分裂决策树节点:
传统的决策树节点分裂算法一般采用贪心算法,即在每个节点处遍历所有特征,为每个特征遍历所有样本找到最佳的分裂点作为分裂位置,在该节点上分裂出左右两个新的节点。
每个节点的分裂收益通过分裂前后目标函数的差计算如:
Figure 751799DEST_PATH_IMAGE062
其中
Figure 342180DEST_PATH_IMAGE063
为左叶子结点所包含样本的一阶偏导数累加之和,是一个常量,
Figure 977561DEST_PATH_IMAGE064
为左叶子结点所包含样本的而阶偏导数累加之和,同样为常量。
但当数据量太大时贪心算法无法读入内存进行计算,为此本案采用近似算法,该算法首先根据特征分布的分位数提出候选划分点,然后将连续型特征映射到由这些候选点划分的桶中,然后聚合统计信息找到所有区间的最佳分裂点。为提高精度本案优选选择在每次分列前将重新提出候选切分点(local策略),虽然增加了计算步骤,但更加接近贪心算法所能达到的效果。结合近似算法与local策略,算法描述如下:
Figure 540260DEST_PATH_IMAGE066
第一个for循环:对特征k根据该特征分布的分位数找到切割垫的候选集合
Figure 602894DEST_PATH_IMAGE067
。这样做的目的是提出部分的切分点不用遍历所有的切分点。其中获取某个特征k的候选切割点的方式叫proposal(策略),在本模型中优选采取local即每次划分都选择候选点的策略。
第二个for循环:将每个特征的取值映射到由该特征对应的候选点集划分的分桶区间,即
Figure 883834DEST_PATH_IMAGE069
。对每个桶区间内的样本统计值G,H并进行累加,最后在这些累计的统计量上寻找最佳分裂点。这样做的目的是获取每个特征的候选分割点的G,H值。
七、 基于残差学习集成单个回归决策树
参考GBDT梯度提升决策树,如图7所示,本发明采用残差学习来训练和集成所有单个的回归决策树基模型。残差学习的步骤如下:
1.使用全部样本训练第一颗决策树,得到预测结果后计算每个样本与标签之间的差值作为该样本新的标签值。
2.用上述过程生成的新样本重新训练决策树二。
3.重复此过程直到模型整体的目标函数小于某个值或达到最大决策树数。
八、 生成R-A Boosting算法模型
在上述训练流程完成后,模型的最终输出结果即为k个基模型组成的一个加法模型,其最终输出结果为:
Figure 322906DEST_PATH_IMAGE070
九、 双时间尺度的训练和预测
一般来说,边缘云服务器的利用率日志一般是以天为时间尺度,即每条数据代表某台服务器单天的特征和带宽情况,若模型的预测和训练逻辑建立在这一尺度的数据日志上,则模型提供的是未来某一天的带宽利用率预测,这一结果可实现故障机器发现,以及特殊日期下的切任务推荐(如比赛冲量),但由于模型只输出单天的服务器利用率情况,对于新服务器上任务、故障机器,低利用率机器切任务等考虑更长时间下的利用率变化情况的业务实用性不高。
如图8所示,经过实验验证,发明人发现模型对未来日期的训练误差会随着日期的延长而增大,当误差(MAE)提升至0.10以上时模型的预测准确率将不足80%,同时前七天的平均预测误差(MAE)达到了0.189,达不到实际产业的要求。
这一现象的主要原因同样来自于边缘服务器带宽变化的自相关性,随着被预测日期的延长,其与模型学习到的最近数据日期差距也会增加,模型对该日期下的带宽利用率预测难度也会提高,这一点在许多的发明和研究中都得到了验证。
为解决这一问题,本发明提出了单天预测和自然周预测模型两种不同的预测和训练逻辑。
具体来说,为保证单天预测的准确率,本发明将单天预测的时间限制在未来一天,即模型只提供对目前积累数据最新日期下一天的预测结果,其训练逻辑保持不变,如图9所示,对单天的数据日志进行学习和拟合。
除此之外,如图10所示,本发明还设计了针对服务器在一个自然周(7天)的平均带宽利用率预测模型,其预测逻辑为预测服务器从未来一天开始的一个自然周下的平均带宽利用率。
为训练自然周预测模型,首先需对数据进行自然周划分和平均整合,划分方法采用窗口跳动取数据的方法,即第后组数据紧邻前组数据但无交叉,例如:1号到7号这7天所有的数据作为前组,那么滑动窗口的第后组数据是2号到8号,数据之间有交叉,但发明人尝试过发现效果不好,所以优选采用跳动窗口法,后组数据取得是8号到15号,籍此实现与前组数据之间无交叉,由此通过数据时间对数据进行按组抽取。
在数据划分后对一组周数据依据服务器ID进行服务器特征和带宽利用率的取平均作为一条新的周服务器专注特征数据,以供R-Aboosting算法模型训练,并输出对目前积累数据最新日期下一天开始的一个自然周下的平均带宽利用率
其中需要说明的是,该服务器特征中的该任务特征一周内若没有改变,优选保留,若中间有更改,可合并为两条数据,每条对应一个任务,而时间特征优选取该自然周的第一天的日期,如:20220304-20220310的数据合并后的数据条目时间特征为20220304,以其作为合并后数据的时间特征以方便之后推荐。
经过实验验证,所提出的自然周训练逻辑得到的模型预测误差为0.087,准确率为84%,而7天连续的单天预测平均误差为0.189,准确率为67%,说明自然周的预测和训练逻辑能有效提升模型对长期预测的效果,更高的预测准确率使得本发明能更好的支持边缘云服务平台的各项业务。
本发明基于上述方法示例,还提供了一种边缘云服务器利用率预测装置,其包括:数据处理单元,数据采集单元,存储单元及数据输出单元,所述数据采集单元搜集各边缘云服务器中包括服务器专注特征数据在内的日志数据,并向数据处理单元发送,所述存储单元内存有如上述任一所述的基于boosting算法的边缘云服务器利用率预测方法的步骤执行程序,所述数据处理单元调取存储单元的执行程序对日志数据进行处理,以经数据输出单元输出各服务器预测带宽利用率数据结果
本发明基于上述方法示例,还提供了一种计算机可读存储介质,其上存储有计算机程序,其中所述计算机程序被计算机处理器执行时,实现如上述任一项所述基于boosting算法的边缘云服务器利用率预测方法的步骤,以获取服务器预测带宽利用率数据。
试验例
为了验证本实施例对服务器带宽利用率预测的预测精确度,本案根据一般回归任务的评价指标,使用平均绝对误差(Mean Absolute Error, MAE)指标和平均误差比(MeanError Rate, MER)来评估模型的模型的带宽利用率预测能力,其计算方式如下:
Figure 235717DEST_PATH_IMAGE071
Figure 734831DEST_PATH_IMAGE072
为验证本发明的优势效果,本案对比了多种预测方法,包括:
1.聚类回归(Clustering)
2.逻辑回归(Logistic Regression, LR)算法
3.多层感知机(Multilayer Perceptron, MLP)
4. XGBoosting算法。
Figure 237488DEST_PATH_IMAGE073
表1 实验结果对比
如表1所示,实验结果表明,R-A Boosting算法与现有模型方法相比,在单天预测及自然周预测的MAE和MER指标上取得了最低的预测误差,说明本案R-A Boosting算法模型具有更高的预测准确率。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
本领域技术人员可以理解,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
此外实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得单片机、芯片或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
此外,本发明实施例的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明实施例的思想,其同样应当视为本发明实施例所公开的内容。

Claims (10)

1.基于boosting算法的边缘云服务器利用率预测方法,步骤包括:
S1基于boosting算法模型,获取被预测带宽利用率数据;
S2建立最近数据专注机制,包括:计算各服务器实际带宽利用率数据与被预测带宽利用率数据之间的时间差;为每条服务器实际带宽利用率数据生成一个介于时间差最小值与最大值之间的随机数后;保留时间差小于该随机数的带宽利用率数据,生成服务器专注特征数据;
S3基于所述服务器专注特征数据进一步训练boosting算法模型生成R-Aboosting算法模型,以输出各服务器预测带宽利用率数据。
2.基于boosting算法的边缘云服务器利用率预测方法,步骤包括:
S1获取各服务器特征包括:服务器性能特征、对应部署任务类别、被预测所在时间特征,将边缘云服务器带宽利用率预测建模为一个回归任务;
S2清洗服务器历史数据集后,按比例进行缩放,使数据落入一个预设特定区间,并且转化为一个无量纲的纯数值,以供boosting算法学习,并输出被预测带宽利用率数据;
S3建立最近数据专注机制,包括:计算各服务器实际带宽利用率数据与被预测带宽利用率数据之间的时间差;为每条服务器实际带宽利用率数据生成一个介于时间差最小值与最大值之间的随机数后;保留时间差小于该随机数的带宽利用率数据,生成服务器专注特征数据;
S4基于所述服务器专注特征数据进一步训练boosting算法模型生成R-Aboosting算法模型,以输出各服务器预测带宽利用率数据。
3.根据权利要求2所述的基于boosting算法的边缘云服务器利用率预测方法,其中步骤S4中所述R-Aboosting算法模型生成步骤包括:
S41定义boosting基模型为基于回归决策树的基预测模型;
S42调整目标函数和决策树的复杂度,以通过近似算法分裂决策树节点生成单个的回归决策树基模型;
S43基于服务器专注特征数据采用残差学习来训练和集成所有单个的回归决策树基模型,以生成R-Aboosting算法模型。
4.根据权利要求3所述的基于boosting算法的边缘云服务器利用率预测方法,其中还包括:
步骤S44,设定服务器利用率以天为尺度,将服务器专注特征数据以天划分,限制R-Aboosting算法模型训练中只提供对目前积累数据最新日期下一天的预测结果。
5.根据权利要求3所述的基于boosting算法的边缘云服务器利用率预测方法,其中还包括:
步骤S44,设定服务器利用率以自然周为尺度,将服务器专注特征数据进行自然周划分,步骤包括:采用窗口跳动取数据的方法,将后组周数据紧邻前组周数据但无交叉,在数据划分后对一组周数据依据服务器ID进行服务器特征和带宽利用率的取平均作为一条新的周服务器专注特征数据,以供R-Aboosting算法模型训练,并输出对目前积累数据最新日期下一天开始的一个自然周下的平均带宽利用率。
6.根据权利要求3所述的基于boosting算法的边缘云服务器利用率预测方法,其中步骤S42中通过近似算法分裂决策树节点,并且每次分裂前重新提出候选切分点,以此生成单个的回归决策树基模型。
7.根据权利要求3所述的基于boosting算法的边缘云服务器利用率预测方法,其中步骤S42中目标函数和决策树的复杂度的步骤包括:
建立损失损失函数
Figure DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE004
其中
Figure DEST_PATH_IMAGE006
为预测带宽利用率,
Figure DEST_PATH_IMAGE008
为实际带宽利用率,N为服务器数量;
在损失函数的基础上添加正则项,以组成目标函数:
Figure DEST_PATH_IMAGE010
其中,
Figure DEST_PATH_IMAGE012
是将全部t棵决策树的复杂度
Figure DEST_PATH_IMAGE014
进行求和,添加到目标函数中作为正则项,防止模型过拟合,通过泰勒公式展开,以将目标函数型变为如下公式:
Figure DEST_PATH_IMAGE016
其中g为损失函数的一阶导,h为损失函数的二阶导。
8.根据权利要求7所述的基于boosting算法的边缘云服务器利用率预测方法,其中目标函数的正则项由生成的所有决策树的叶子节点数量T,和所有节点权重所组成的向量
Figure DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE020
范式共同决定,其公式为:
Figure DEST_PATH_IMAGE022
9.一种边缘云服务器利用率预测装置,其包括:数据处理单元,数据采集单元,存储单元及数据输出单元,其中所述数据采集单元搜集各边缘云服务器中包括服务器专注特征数据在内的日志数据,并向数据处理单元发送,所述存储单元内存有如权利要求1至8任一所述的基于boosting算法的边缘云服务器利用率预测方法的步骤执行程序,所述数据处理单元调取存储单元的执行程序对日志数据进行处理,以经数据输出单元输出各服务器预测带宽利用率数据结果。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被计算机处理器执行时,实现如权利要求1至8中任一项所述基于boosting算法的边缘云服务器利用率预测方法的步骤。
CN202210259762.8A 2022-03-16 2022-03-16 基于boosting算法的边缘云服务器利用率预测方法、预测装置及存储介质 Pending CN114721898A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210259762.8A CN114721898A (zh) 2022-03-16 2022-03-16 基于boosting算法的边缘云服务器利用率预测方法、预测装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210259762.8A CN114721898A (zh) 2022-03-16 2022-03-16 基于boosting算法的边缘云服务器利用率预测方法、预测装置及存储介质

Publications (1)

Publication Number Publication Date
CN114721898A true CN114721898A (zh) 2022-07-08

Family

ID=82236713

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210259762.8A Pending CN114721898A (zh) 2022-03-16 2022-03-16 基于boosting算法的边缘云服务器利用率预测方法、预测装置及存储介质

Country Status (1)

Country Link
CN (1) CN114721898A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115796350A (zh) * 2022-11-23 2023-03-14 长江大学 一种海域内少井区烃源岩总有机碳含量预测方法及系统
CN116016262A (zh) * 2022-12-28 2023-04-25 天翼云科技有限公司 一种基于并查集实时检测调用链连贯性的方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115796350A (zh) * 2022-11-23 2023-03-14 长江大学 一种海域内少井区烃源岩总有机碳含量预测方法及系统
CN116016262A (zh) * 2022-12-28 2023-04-25 天翼云科技有限公司 一种基于并查集实时检测调用链连贯性的方法和装置
CN116016262B (zh) * 2022-12-28 2024-05-24 天翼云科技有限公司 一种基于并查集实时检测调用链连贯性的方法和装置

Similar Documents

Publication Publication Date Title
Mehtab et al. Stock price prediction using CNN and LSTM-based deep learning models
CN111367961A (zh) 基于图卷积神经网络的时序数据事件预测方法、系统及其应用
CN107766929B (zh) 模型分析方法及装置
CN106326585B (zh) 基于贝叶斯网络推理的预测分析方法以及装置
CN110928993A (zh) 基于深度循环神经网络的用户位置预测方法及系统
CN108764273A (zh) 一种数据处理的方法、装置、终端设备及存储介质
CN114721898A (zh) 基于boosting算法的边缘云服务器利用率预测方法、预测装置及存储介质
CN111369299B (zh) 识别的方法、装置、设备及计算机可读存储介质
CN107480141B (zh) 一种基于文本和开发者活跃度的软件缺陷辅助分派方法
CN109815631A (zh) 一种游戏数据的处理方法和装置
CN112541839B (zh) 基于神经微分方程的水库入库流量预测方法
CN105718490A (zh) 一种用于更新分类模型的方法及装置
CN108510280A (zh) 一种基于移动设备行为数据的金融欺诈行为预测方法
CN110969290A (zh) 一种基于深度学习的径流概率预测方法及系统
CN114297036B (zh) 数据处理方法、装置、电子设备及可读存储介质
Sen et al. Stock price prediction using deep learning models
WO2019172848A1 (en) Method and apparatus for predicting occurrence of an event to facilitate asset maintenance
CN108491982A (zh) 一种基于回声状态网络的短期负荷预测方法及系统
KR102330423B1 (ko) 이미지 인식 딥러닝 알고리즘을 이용한 온라인 부도 예측 시스템
CN116976529B (zh) 基于供需预测动态校正的跨流域调水方法和系统
CN113762595A (zh) 通行时间预测模型训练方法、通行时间预测方法及设备
CN111178585A (zh) 基于多算法模型融合的故障接报量预测方法
CN110633859A (zh) 一种两阶段分解集成的水文序列预测方法
CN115221396A (zh) 基于人工智能的信息推荐方法、装置及电子设备
CN117175588A (zh) 基于时空相关性的用电负荷预测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination