CN110309955B - 一种云环境应用系统非停机升级时的负载预测方法及装置 - Google Patents

一种云环境应用系统非停机升级时的负载预测方法及装置 Download PDF

Info

Publication number
CN110309955B
CN110309955B CN201910511227.5A CN201910511227A CN110309955B CN 110309955 B CN110309955 B CN 110309955B CN 201910511227 A CN201910511227 A CN 201910511227A CN 110309955 B CN110309955 B CN 110309955B
Authority
CN
China
Prior art keywords
load
attribute
sample
data set
sample data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910511227.5A
Other languages
English (en)
Other versions
CN110309955A (zh
Inventor
钱琳
庞恒茂
俞俊
朱广新
张根周
赵永柱
王琳
梅竹
陈海洋
许明杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NARI Group Corp
Nari Technology Co Ltd
State Grid Shaanxi Electric Power Co Ltd
Original Assignee
NARI Group Corp
Nari Technology Co Ltd
State Grid Shaanxi Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NARI Group Corp, Nari Technology Co Ltd, State Grid Shaanxi Electric Power Co Ltd filed Critical NARI Group Corp
Priority to CN201910511227.5A priority Critical patent/CN110309955B/zh
Publication of CN110309955A publication Critical patent/CN110309955A/zh
Application granted granted Critical
Publication of CN110309955B publication Critical patent/CN110309955B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/505Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种云环境应用系统非停机升级时的负载预测方法及装置,该方法包括:按时间序列获取云环境应用系统下非停机升级时功能模块负载样本数据集,并进行预处理;对预处理后的负载样本数据集采用三角形隶属函数进行模糊化处理,并用均值等分区间离散化,生成负载离散样本数据集;将负载离散样本数据集交叉生成训练集Str和测试集Ste,利用所述训练集Str构建决策树模型进行升级时负载高低的预测,并进行迭代训练;采用测试集Ste对训练后的决策树模型进行剪枝并进行负载预测。本发明用于解决现有静态负载预测方法负载预测精度不高的问题,实验结果表明,本发明给出的基于决策树预测模型可以很好的预测出在指定日期的负载高低,错误率在3%以内。

Description

一种云环境应用系统非停机升级时的负载预测方法及装置
技术领域
本发明涉及大数据处理技术领域,具体涉及一种云环境应用系统非停机升级时的负载预测方法及装置。
背景技术
云计算系统平台已经成为当前主流的系统架构之一,大量的企业开始大规模运用云计算平台部署自己的应用。但是大量的问题也随之而来,系统不停机自适应升级的高风险问题就是其中之一。在升级云计算平台应用时,并不是同时升级所有功能模块,而是优先升级低负载功能模块,在人工监管下升级高负载功能模块。在构建不停机自适应升级系统时,系统只能通过各种功能感知方法,如时间感知、资源感知和网络感知等感知方法来分析当前各功能模块的负载高低,因此功能模块升级时间较长。
目前,有些学者已经对负载预测进行研究,传统负载预测常用自回归滑动平均模型、差分自回归滑动平均模型、差分自回归求和滑动平均模型(FARIMA)、模式匹配预测法和经验预测模型等,但上述静态计算模型已经无法保障混沌非线性的云计算应用功能负载在短期内预测的精确度了。
发明内容
发明目的:为了克服现有技术的不足,本发明提供一种云环境应用系统非停机升级时的负载预测方法,该方法可以解决负载预测精确度低的问题。
技术方案:本发明所述的云环境应用系统非停机升级时的负载预测方法,该方法包括:
获取待测样本并进行预处理,所述待测样本为云环境应用系统下非停机升级时功能模块负载样本;
输入到决策树模型进行负载预测,所述决策树模型构建方式为:
对预处理后的负载样本数据集S采用三角形隶属函数进行模糊化处理,并用均值等分区间离散化,生成负载离散样本数据集Sdis,所述负载离散样本数据集S为按时间序列获取的云环境应用系统下非停机升级时功能模块负载样本的数据集合;
将所述负载离散样本数据集Sdis交叉生成训练集Str和测试集Ste,利用所述训练集Str训练构建的所述决策树模型进行升级时负载高低的预测。
进一步地,包括:
所述决策树模型构建方式还包括:采用测试集Ste对训练后的决策树模型剪枝后进行负载预测。
进一步地,包括:
所述负载样本数据集S表示为:S={s1,s2,...,si,...,sp},其中,p为数据集中数据的总量,1≤i≤p,si≡{xi,yi},xi为第i条数据样本对应的属性集合,yi为第i条数据样本对应的分类且y∈{0,1},0表示低负载,1表示高负载;
每条数据样本对应的属性集合表示为:x≡(xenergy,xnetflow,xrequest,xload),其中,xenergy为机器能耗属性对应的属性值,xnetflow为网络流量属性对应的属性值,xrequest为客户请求量属性对应的属性值,xload为所有功能实时负载对应的属性元组,表示为:xload=(x1-load,x2-load,...,xn-load),其中,n为功能模块的数量。
进一步地,包括:
所述对所述负载样本数据集采用三角形隶属函数进行模糊化处理,公式表示为:
Figure BDA0002093563150000021
其中,x为负载样本数据集S中某个属性的属性值,a,b,c为确定三角形隶属函数的曲线形状的参数,a,b,c的值由所述属性的属性值全部取值范围对应的区间等分法确定。
进一步地,包括:
所述用均值等分区间离散化,生成负载离散样本数据集Sdis,包括:
(21)计算第k个属性模糊化后的值在负载样本数据集上的均值:
Figure BDA0002093563150000022
其中,1≤k≤4;
(22)求取区间的支点:
Figure BDA0002093563150000031
(23)第k个属性的离散化公式为:
Figure BDA0002093563150000032
(24)计算所有对应属性的离散化负载样本数据sdis-i≡{xdis-i,yi},xdis-i为第i条数据样本对应的属性集合,进而生成负载离散样本数据集Sdis
进一步地,包括:
所述利用所述训练集Str构建决策树模型进行升级时负载高低的预测,包括:
输入:训练集Str,候选属性集合A,预设模型迭代次数;
S1创建节点Node;
S2若Str中所有实例都是同一类别yi,那么Node标记为yi类叶节点,构建决策树模型T为只包含Node的单节点树,返回决策树模型T;
S3如果A为空,那么将Node标记为叶节点,并返回T;
S4对于A中每个属性,都是用属性增益率公式infoGainRation(Str,A)计算最高增益比的分裂属性,并从这个属性进行分裂;
S5根据分裂属性的每一个值,对Node中的样本进行划分,若某个划分的结果非空,则创建子节点Nodei,并标记为样本中数量最多的类别,返回T;
输出:决策模型T。
一种云环境应用系统非停机升级时的负载预测装置,包括:
数据采集模块,用于获取云环境应用系统下非停机升级时功能模块负载样本;
预处理模块,用于对所述获取的负载样本进行预处理;
预测模块,用于将预处理后的样本输入到决策树模型进行负载预测,所述决策树模型构建方式包括:
对预处理后的负载样本数据集S采用三角形隶属函数进行模糊化处理,并用均值等分区间离散化,生成负载离散样本数据集Sdis,所述负载离散样本数据集S为按时间序列获取的云环境应用系统下非停机升级时功能模块负载样本的数据集合;
将所述负载离散样本数据集Sdis交叉生成训练集Str和测试集Ste,利用所述训练集Str构建决策树模型进行升级时负载高低的预测。
进一步地,包括:
所述决策树模型构建方式还包括:采用测试集Ste对训练后的决策树模型剪枝后并进行负载预测。
进一步地,包括:
所述数据采集模块,包括:
负载样本数据集表示单元,用于表示负载样本数据集,S={s1,s2,...,si,...,sp},其中,p为数据集中数据的总量,1≤i≤p,si≡{xi,yi},xi为第i条数据样本对应的属性集合,yi为第i条数据样本对应的分类且y∈{0,1},0表示低负载,1表示高负载;
属性集合表示单元,用于表示每条数据样本对应的属性集合,x≡(xenergy,xnetflow,xrequest,xload),其中,xenergy为机器能耗属性对应的属性值,xnetflow为网络流量属性对应的属性值,xrequest为客户请求量属性对应的属性值,xload为所有功能实时负载对应的属性元组,表示为:xload=(x1-load,x2-load,...,xn-load),其中,n为功能模块的数量。
进一步地,包括:
所述预测模块中,采用均值等分区间离散化,生成负载离散样本数据集Sdis,包括:
计算第k个属性模糊化后的值在负载样本数据集上的均值:
Figure BDA0002093563150000041
其中,1≤k≤4;
求取区间的支点:
Figure BDA0002093563150000042
第k个属性的离散化公式为:
Figure BDA0002093563150000051
计算所有对应属性的离散化负载样本数据sdis-i≡{xdis-i,yi},xdis-i为第i条数据样本对应的属性集合,进而生成负载离散样本数据集Sdis
有益效果:(1)本发明主要用于解决现有静态负载预测方法负载预测精度不高的问题,实验结果表明,本发明给出的基于决策树预测模型可以很好的预测出在指定日期的负载高低,错误率在3%以内;(2)本发明首先对采集的样本数据采用三角形隶属函数进行模糊化处理,再用均值等分区间离散化,离散数据的精度和准确性更高;(3)本发明对构建后的模型采用测试集进行剪枝操作,更加提高了模型的准确度。
附图说明
图1为本发明实施例所述的云环境应用系统非停机升级时的负载预测方法流程图;
图2为本发明实施例所述的决策树模型的一种构建方法流程图;
图3为本发明实施例所述的决策树模型的另一种构建方法流程图;
图4为本发明实施例所述的基于决策树的模型训练算法流程图;
图5为本发明实施例所述的环境应用系统非停机升级时的负载预测装置结构示意图;
图6为本发明实施例所述的电子设备结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,并不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图1所示,本发明所述的云环境应用系统非停机升级时的负载预测方法,该方法包括:
S10获取待测样本并进行预处理,所述待测样本为云环境应用系统下非停机升级时功能模块负载样本。
对测试样本的预处理主要是对样本格式进行调整;残缺可补充的进行数据补充;样本中有多余数据的进行删除。
S11将预处理后的待测样本输入到决策树模型进行负载预测,参阅图2所示,所述决策树模型构建方式为:
S110对预处理后的负载样本数据集S采用三角形隶属函数进行模糊化处理;
所述负载离散样本数据集S为按时间序列获取的云环境应用系统下非停机升级时功能模块负载样本的数据集合。时间序列是指采集指定时间段的数据。
预处理包括:数据清洗,将数据残缺,错误的样本删除。
预处理后的负载样本数据集S表示为:S={s1,s2,...,si,...,sp},其中,p为数据集中数据的总量,1≤i≤p,si≡{xi,yi},xi为第i条数据样本对应的属性集合,yi为第i条数据样本对应的分类且y∈{0,1},0表示低负载,1表示高负载,低负载指负载低于70%,高负载为负载高于等于70%。
每条数据样本对应的属性集合表示为:x≡(xenergy,xnetflow,xrequest,xload),其中,xenergy为第一个属性:机器能耗,对应的属性值,xnetflow为第二个属性:网络流量,对应的属性值,xrequest为第三个属性:客户请求量,对应的属性值,xload为第四个属性:所有功能实时负载的元组,表示为:xload=(x1-load,x2-load,...,xn-load),其中,n为功能模块的数量。
样本属性的合理选取对决策树预测准确性至关重要,即x元组中每个分量在现实环境中对应的量。机器能耗、网络流量、客户请求量、各个功能的实时负载都可以部分观测出功能负载高低。
决策树在训练时,比较适合处理离散数据。显然根据以上样本的定义,所有属性的值均为连续值,因此就需要用合理的方法对数据进行离散化。本发明使用了三角形隶属函数进行模糊化处理,再用均值等分区间离散化,从实验结果看可以得到比较好的效果。
对所述负载样本数据集采用三角形隶属函数进行模糊化处理,公式表示为:
Figure BDA0002093563150000061
其中,x为负载样本数据集S中某个属性的属性值,a,b,c为确定三角形隶属函数的曲线形状的参数,a,b,c的值由所述属性的属性值全部取值范围对应的区间等分法确定,即将某个样本属性的属性值全部的取值范围假设为[0,m],则a,b,c将取值范围等分为4个区间{[0,a],(a,b],(b,c],(c,m]}。
S111用均值等分区间离散化,生成负载离散样本数据集Sdis
使用均值等分区间离散化法,可以很容易的将模糊化后的连续值转化为离散值。对于决策树算法来说,属性的离散值种类在3-5之间可以获得比较好的预测效果,因此本文取离散值种类为4。本实施例中,用均值等分区间离散化,生成负载离散样本数据集Sdis,包括:
S1110计算第k个属性模糊化后的值在负载样本数据集上的均值:
Figure BDA0002093563150000071
其中,1≤k≤4,也即分别计算机器能耗属性,网络流量属性,客户请求量和所有功能实时负载的元组对应的离散样本数据集上的均值。
S1111求取区间的支点:
Figure BDA0002093563150000072
S1112第k个属性的离散化公式为:
Figure BDA0002093563150000073
S1113计算所有对应属性的离散化负载样本数据sdis-i≡{xdis-i,yi},xdis-i为第i条数据样本对应的属性集合,进而生成负载离散样本数据集Sdis
S112将所述负载离散样本数据集Sdis交叉生成训练集Str和测试集Ste,利用所述训练集Str构建决策树模型进行升级时负载高低的预测,参阅图4所示,算法流程包括:
输入:训练集Str,候选属性集合A;
S1创建节点Node;
S2若Str中所有实例都是同一类别yi,那么Node标记为yi类叶节点,构建决策树模型T为只包含Node的单节点树,返回决策树模型T;
S3如果A为空,那么将Node标记为叶节点,并返回T;
S4对于A中每个属性,都是用属性增益率公式infoGainRation(Str,A)计算最高增益比的分裂属性,并从这个属性进行分裂;
S5根据分裂属性的每一个值,对Node中的样本进行划分,若某个划分的结果非空,则创建子节点Nodei,并标记为样本中数量最多的类别,返回T;
输出:决策模型T。
其中,属性增益率可通过以下步骤得到:
定义当前样本集合D中第w类样本所占比例为pw(w=1,2,...,|Y|),则D的信息熵定义为:
Figure BDA0002093563150000081
假定离散属性a有V个可能的取值{a1,a2,...,aV},那么显然用a划分就会产生V个子节点,第v个子节点样本集合为Dv,因为每个节点的样本数不同,所以给个权重|Dv|/|D|。即样本数量越多,影响越大,那么属性增益为:
Figure BDA0002093563150000082
属性增益率为:
Figure BDA0002093563150000083
其中,
Figure BDA0002093563150000084
参阅图3所示,在本发明的一个优选实施例中,决策树模型的构建方式还包括:S113采用测试集Ste对训练后的决策树模型进行剪枝并进行负载预测。
最终目标是将通过训练集Str得到的决策树经过Ste剪枝后的准确率最高:
Figure BDA0002093563150000085
其中,DT为决策树。
基于负载预测方法相似的构思,参阅图5所示,本发明一种云环境应用系统非停机升级时的负载预测装置,包括:
一种云环境应用系统非停机升级时的负载预测装置,包括:
数据采集模块21,用于获取云环境应用系统下非停机升级时功能模块负载样本;
预处理模块22,用于对所述获取的负载样本进行预处理;
预测模块23,用于将预处理后的样本输入到决策树模型进行负载预测,所述决策树模型构建方式包括:
对预处理后的负载样本数据集S采用三角形隶属函数进行模糊化处理,并用均值等分区间离散化,生成负载离散样本数据集Sdis,所述负载离散样本数据集S为按时间序列获取的云环境应用系统下非停机升级时功能模块负载样本的数据集合;
将所述负载离散样本数据集Sdis交叉生成训练集Str和测试集Ste,利用所述训练集Str构建决策树模型进行升级时负载高低的预测。
在本发明的一个优选实施例中,所述决策树模型构建方式还包括:采用测试集Ste对训练后的决策树模型剪枝后并进行负载预测。
进一步地,包括:
所述数据采集模块,包括:
负载样本数据集表示单元,用于表示负载样本数据集,S={s1,s2,...,si,...,sp},其中,p为数据集中数据的总量,1≤i≤p,si≡{xi,yi},xi为第i条数据样本对应的属性集合,yi为第i条数据样本对应的分类且y∈{0,1},0表示低负载,1表示高负载;
属性集合表示单元,用于表示每条数据样本对应的属性集合,x≡(xenergy,xnetflow,xrequest,xload),其中,xenergy为机器能耗属性对应的属性值,xnetflow为网络流量属性对应的属性值,xrequest为客户请求量属性对应的属性值,xload为所有功能实时负载对应的属性元组,表示为:xload=(x1-load,x2-load,…,xn-load),其中,n为功能模块的数量。
进一步地,包括:
所述预测模块中,采用均值等分区间离散化,生成负载离散样本数据集Sdis,包括:
计算第k个属性模糊化后的值在负载样本数据集上的均值:
Figure BDA0002093563150000091
其中,1≤k≤4;
求取区间的支点:
Figure BDA0002093563150000101
第k个属性的离散化公式为:
Figure BDA0002093563150000102
计算所有对应属性的离散化负载样本数据sdis-i≡{xdis-i,yi},xdis-i为第i条数据样本对应的属性集合,进而生成负载离散样本数据集Sdis
进一步地,包括:
利用所述训练集Str构建决策树模型进行升级时负载高低的预测,算法流程包括:
输入单元,用于输入训练集Str,候选属性集合A;
训练单元:S1创建节点Node;
S2若Str中所有实例都是同一类别yi,那么Node标记为yi类叶节点,构建决策树模型T为只包含Node的单节点树,返回决策树模型T;
S3如果A为空,那么将Node标记为叶节点,并返回T;
S4对于A中每个属性,都是用属性增益率公式infoGainRation(Str,A)计算最高增益比的分裂属性,并从这个属性进行分裂;
S5根据分裂属性的每一个值,对Node中的样本进行划分,若某个划分的结果非空,则创建子节点Nodei,并标记为样本中数量最多的类别,返回T;
输出单元,用于输出决策模型T。
参阅图6所示,本发明实施例中,一种电子设备结构示意图。
本发明实施例提供了一种电子设备,该电子设备可以包括处理器310(CenterProcessing Unit,CPU)、存储器320、输入设备330和输出设备340等,输入设备330可以包括键盘、鼠标、触摸屏等,输出设备340可以包括显示设备,如液晶显示器(Liquid CrystalDisplay,LCD)、阴极射线管(Cathode Ray Tube,CRT)等。
存储器320可以包括只读存储器(ROM)和随机存取存储器(RAM),并向处理器310提供存储器320中存储的程序指令和数据。在本发明实施例中,存储器320可以用于存储上述云环境应用系统非停机升级时的负载预测方法的程序。
处理器310通过调用存储器320存储的程序指令,处理器310用于按照获得的程序指令执行上述任一种云环境应用系统非停机升级时的负载预测方法的步骤。
基于上述实施例,本发明实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意方法实施例中的云环境应用系统非停机升级时的负载预测方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (2)

1.一种云环境应用系统非停机升级时的负载预测方法,其特征在于,该方法包括:
获取待测样本并进行预处理,所述待测样本为云环境应用系统下非停机升级时功能模块负载样本;
输入到决策树模型进行负载预测,所述决策树模型构建方式为:
对预处理后的负载样本数据集S采用三角形隶属函数进行模糊化处理,并用均值等分区间离散化,生成负载离散样本数据集Sdis,所述负载离散样本数据集S为按时间序列获取的云环境应用系统下非停机升级时功能模块负载样本的数据集合;
将所述负载离散样本数据集Sdis交叉生成训练集Str和测试集Ste,利用所述训练集Str训练构建的所述决策树模型进行升级时负载高低的预测;
所述决策树模型构建方式还包括:采用测试集Ste对训练后的决策树模型剪枝后进行负载预测;
所述负载样本数据集S表示为:S={s1,s2,...,si,...,sp},其中,p为数据集中数据的总量,1≤i≤p,si≡{xi,yi},xi为第i条数据样本对应的属性集合,yi为第i条数据样本对应的分类且y∈{0,1},0表示低负载,1表示高负载;
每条数据样本对应的属性集合表示为:x≡(xenergy,xnetflow,xrequest,xload),其中,xenergy为机器能耗属性对应的属性值,xnetflow为网络流量属性对应的属性值,xrequest为客户请求量属性对应的属性值,xload为所有功能实时负载对应的属性元组,表示为:xload=(x1-load,x2-load,...,xn-load),其中,n为功能模块的数量;
对所述负载样本数据集采用三角形隶属函数进行模糊化处理,公式表示为:
Figure FDA0003663091030000011
其中,x为负载样本数据集S中某个属性的属性值,a,b,c为确定三角形隶属函数的曲线形状的参数,a,b,c的值由所述属性的属性值全部取值范围对应的区间等分法确定;
所述用均值等分区间离散化,生成负载离散样本数据集Sdis,包括:
(21)计算第k个属性模糊化后的值在负载样本数据集上的均值:
Figure FDA0003663091030000021
其中,1≤k≤4;
(22)求取区间的支点:
Figure FDA0003663091030000022
(23)第k个属性的离散化公式为:
Figure FDA0003663091030000023
(24)计算所有对应属性的离散化负载样本数据sdis-i≡{xdis-i,yi},xdis-i为第i条数据样本对应的属性集合,进而生成负载离散样本数据集Sdis
所述利用所述训练集Str训练构建决策树模型进行升级时负载高低的预测,包括:
输入:训练集Str,候选属性集合A,预设模型迭代次数;
S1创建节点Node;
S2若Str中所有实例都是同一类别yi,那么Node标记为yi类叶节点,构建决策树模型T为只包含Node的单节点树,返回决策树模型T;
S3如果A为空,那么将Node标记为叶节点,并返回T;
S4对于A中每个属性,都是用属性增益率公式infoGainRation(Str,A)计算最高增益比的分裂属性,并从这个属性进行分裂;
S5根据分裂属性的每一个值,对Node中的样本进行划分,若某个划分的结果非空,则创建子节点Nodei,并标记为样本中数量最多的类别,返回T;
输出:决策模型T。
2.一种云环境应用系统非停机升级时的负载预测装置,其特征在于,包括:
数据采集模块,用于获取云环境应用系统下非停机升级时功能模块负载样本;
预处理模块,用于对所述获取的负载样本进行预处理;
预测模块,用于将预处理后的样本输入到决策树模型进行负载预测,所述决策树模型构建方式包括:
对预处理后的负载样本数据集S采用三角形隶属函数进行模糊化处理,并用均值等分区间离散化,生成负载离散样本数据集Sdis,所述负载离散样本数据集S为按时间序列获取的云环境应用系统下非停机升级时功能模块负载样本的数据集合;
将所述负载离散样本数据集Sdis交叉生成训练集Str和测试集Ste,利用所述训练集Str构建决策树模型进行升级时负载高低的预测;
所述决策树模型构建方式还包括:采用测试集Ste对训练后的决策树模型剪枝后并进行负载预测;
所述数据采集模块,包括:
负载样本数据集表示单元,用于表示负载样本数据集,S={s1,s2,...,si,...,sp},其中,p为数据集中数据的总量,1≤i≤p,si≡{xi,yi},xi为第i条数据样本对应的属性集合,yi为第i条数据样本对应的分类且y∈{0,1},0表示低负载,1表示高负载;
属性集合表示单元,用于表示每条数据样本对应的属性集合,x≡(xenergy,xnetflow,xrequest,xload),其中,xenergy为机器能耗属性对应的属性值,xnetflow为网络流量属性对应的属性值,xrequest为客户请求量属性对应的属性值,xload为所有功能实时负载对应的属性元组,表示为:xload=(x1-load,x2-load,...,xn-load),其中,n为功能模块的数量;
所述预测模块中,采用均值等分区间离散化,生成负载离散样本数据集Sdis,包括:
计算第k个属性模糊化后的值在负载样本数据集上的均值:
Figure FDA0003663091030000031
其中,1≤k≤4;
求取区间的支点:
Figure FDA0003663091030000032
第k个属性的离散化公式为:
Figure FDA0003663091030000033
计算所有对应属性的离散化负载样本数据sdis-i≡{xdis-i,yi},xdis-i为第i条数据样本对应的属性集合,进而生成负载离散样本数据集Sdis
CN201910511227.5A 2019-06-13 2019-06-13 一种云环境应用系统非停机升级时的负载预测方法及装置 Active CN110309955B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910511227.5A CN110309955B (zh) 2019-06-13 2019-06-13 一种云环境应用系统非停机升级时的负载预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910511227.5A CN110309955B (zh) 2019-06-13 2019-06-13 一种云环境应用系统非停机升级时的负载预测方法及装置

Publications (2)

Publication Number Publication Date
CN110309955A CN110309955A (zh) 2019-10-08
CN110309955B true CN110309955B (zh) 2022-07-15

Family

ID=68075875

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910511227.5A Active CN110309955B (zh) 2019-06-13 2019-06-13 一种云环境应用系统非停机升级时的负载预测方法及装置

Country Status (1)

Country Link
CN (1) CN110309955B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111242195B (zh) * 2020-01-06 2023-06-20 蚂蚁胜信(上海)信息技术有限公司 模型、保险风控模型训练方法、装置及电子设备
CN111737001A (zh) * 2020-06-24 2020-10-02 国网电力科学研究院有限公司 一种计算系统负载均衡方法、装置及存储介质
CN113377399A (zh) * 2021-06-11 2021-09-10 中国工商银行股份有限公司 不停机系统演练验证方法及装置
CN114648152B (zh) * 2022-01-28 2024-02-02 江苏鼋博群智能技术有限公司 基于状态约束和时频特征的建筑能耗预测方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108022001A (zh) * 2017-09-20 2018-05-11 河海大学 基于pca和分位数回归森林的短期负荷概率密度预测方法
CN109145948A (zh) * 2018-07-18 2019-01-04 宁波沙塔信息技术有限公司 一种基于集成学习的注塑机堵料异常检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108022001A (zh) * 2017-09-20 2018-05-11 河海大学 基于pca和分位数回归森林的短期负荷概率密度预测方法
CN109145948A (zh) * 2018-07-18 2019-01-04 宁波沙塔信息技术有限公司 一种基于集成学习的注塑机堵料异常检测方法

Also Published As

Publication number Publication date
CN110309955A (zh) 2019-10-08

Similar Documents

Publication Publication Date Title
CN110309955B (zh) 一种云环境应用系统非停机升级时的负载预测方法及装置
CN104408518B (zh) 基于粒子群优化算法的神经网络学习优化方法
Song et al. Active learning with confidence-based answers for crowdsourcing labeling tasks
Örkcü et al. Estimating the parameters of 3-p Weibull distribution using particle swarm optimization: A comprehensive experimental comparison
Lin et al. Machine learning templates for QCD factorization in the search for physics beyond the standard model
CN108763713B (zh) 一种数学模型计算方法及系统
CN111127246A (zh) 一种输电线路工程造价的智能预测方法
CN103886047A (zh) 面向流式数据的分布式在线推荐方法
CN110096630A (zh) 一类基于聚类分析的大数据处理方法
CN110647995A (zh) 规则训练方法、装置、设备及存储介质
CN111428882A (zh) 一种处理方法及计算机设备
CN112885415A (zh) 基于分子表面点云的雌激素活性快速筛查方法
Ramya et al. Environment change prediction to adapt climate-smart agriculture using big data analytics
CN111242347B (zh) 基于历史权重更新的桥梁管养辅助决策系统
CN112508363B (zh) 基于深度学习的电力信息系统状态分析方法及装置
CN116680969A (zh) 一种pso-bp算法的充填体评估参数预测方法及装置
CN103294828A (zh) 数据挖掘模型维度的验证方法和验证装置
CN107463528A (zh) 基于ks检验的高斯混合模型分裂与合并算法
CN108920810A (zh) 基于大数据架构的电力仿真方法
Luo Progress indication for machine learning model building: A feasibility demonstration
CN113111588B (zh) 一种燃气轮机nox排放浓度预测方法及装置
Jalali et al. A new clustering approach based on graph partitioning for navigation patterns mining
CN113886360A (zh) 数据表分区方法、装置、计算机可读介质及电子设备
CN106934064A (zh) 基于elm的网络信息热点预测系统和方法
CN108256028B (zh) 一种云计算环境中用于近似查询的多维动态采样方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant