CN103279392B - 一种云计算环境下虚拟机上运行的负载分类方法 - Google Patents

一种云计算环境下虚拟机上运行的负载分类方法 Download PDF

Info

Publication number
CN103279392B
CN103279392B CN201310236085.9A CN201310236085A CN103279392B CN 103279392 B CN103279392 B CN 103279392B CN 201310236085 A CN201310236085 A CN 201310236085A CN 103279392 B CN103279392 B CN 103279392B
Authority
CN
China
Prior art keywords
load
data
intensive
training set
virtual machine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310236085.9A
Other languages
English (en)
Other versions
CN103279392A (zh
Inventor
尹建伟
赵新奎
李莹
邓水光
吴健
吴朝晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201310236085.9A priority Critical patent/CN103279392B/zh
Publication of CN103279392A publication Critical patent/CN103279392A/zh
Application granted granted Critical
Publication of CN103279392B publication Critical patent/CN103279392B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种云计算环境下虚拟机上运行的负载分类方法,首先获取5分钟的负载运行时监控参数并对监控的参数进行归一化处理,通过TSRSVM方法将监控的负载分为四类:CPU密集型、内存密集型、I/O密集型和网络密集型,对运行着已经分类到四种密集型的操作系统提供对应的定制化优化策略,并通过性能对比器监控系统运行状态,如果系统的性能有所提升则证明分类策略正确,反之则错误。通过上述方法负载分类准确度高,系统性能损失小。

Description

一种云计算环境下虚拟机上运行的负载分类方法
技术领域
本发明涉及云计算环境下虚拟机上运行的负载分类方法。
背景技术
随着以虚拟化技术为代表的云计算技术的飞速发展,越来越多的企业开始使用云计算系统来提升系统运行效率和管理效率。云计算平台对虚拟机屏蔽了底层的硬件细节,不同类型的虚拟机可以同时运行在云系统里面的物理服务器上面,同时,云计算还具有虚拟机供应动态收缩,服务器资源高效整合等特点,都使得云计算的成为研究的热点。云计算环境下,资源是按需获取的,传统的虚拟机操作系统实现了对所有类型的应用程序的全局适应性,从而导致特定类型的硬件资源在使用的过程中,操作系统的调度成为瓶颈。
云计算数据中心运行的负载一般不会随着时间变化而不断改变,可以看做一段时间内是特征稳定的。根据不同应用程序的资源消耗特征和瓶颈资源类型,负载可以分为五类:CPU密集型、内存密集型、I/O密集型、网络密集型和混合型。其中CPU密集型负载主要消耗CPU计算能力并使得CPU成为性能瓶颈,内存密集型主要消耗系统内存,I/O密集型负载的运行瓶颈主要是磁盘I/O读写能力,网络密集型负载主要消耗网络传输资源,混合型则是指各种资源消耗并没有明显的差异,没有明显的组件会成为系统性能瓶颈。针对前四类负载的资源消耗类型和瓶颈组件,可以对应的定制化的操作系统优化策略,提升整体系统性能。
如何将负载准确地分类到五种类型中是通过定制化操作系统优化系统性能的关键。首先,传统的决策树分类、贝叶斯分类、神经网络算法、KNN等多种机器学习分类算法对训练集与测试集的数据维度敏感,在监控数据维度达到21维的时候,计算消耗的时间很长,消耗的资源量也很大,不满足系统的要求。SVM(SupportVectorMachine)分类方法对维度不敏感,但是在本环境下分类的准确率欠佳,而且对训练集的要求过于严格。
发明内容
本发明目的是提供一种轻量级的负载分类方法来高效、准确的将负载分类的方法。
为了实现上述目的,本发明采用以下技术方案:
一种云计算环境下虚拟机上运行的负载分类方法,其特征在于,包括以下步骤:
(1)通过数据收集器获取监控数据;
(2)利用数据预处理器将获取的监控数据归一化到[0,1]之间;
(3)将经过数据预处理器处理后监控数据传给TSRSVM(TrainingSetsRefreshSVM)分类器,由TSRSVM分类器进行分类,共分为四种类型:CPU密集型,内存密集型,I/O密集型和网络密集型,并形成监控数据向量,监控数据向量的最后一维为监控数据所属的类型;
(4)优化决策器根据TSRSVM分类器得到的监控数据向量进行统计对比,决定是否进行优化,如果是,则进行步骤(5),如果否,则跳过步骤(5),直接进行步骤(6);
(5)虚拟机操作系统定制化优化器对分类到CPU密集型,内存密集型,I/O密集型和网络密集型的负载所属的虚拟机进行定制化优化;
(6)采用性能对比器对比操作系统前后性能差异,重新定义SVM的训练集,并使用新定义的训练集训练SVM,为后续得到的测试集测试。
进一步,步骤(1)中监控数据包括CPU利用率、内存利用率、I/O利用率、网络传输量等21维数据。
监控数据向量是由<监控数据、类型>组成的22维向量。
优选的,步骤(1)中监控数据以利用率方式。
进一步,步骤(2)中归一化的具体算法如下:定义up为归一化的上界,low为归一化的下界,Vi为收集到的监控数据第i维数据组成的数组,max为Vi数组中的最大值,min为Vi数组中的最小值,对Vi归一化后得到的数组为VNi,则VNi=(Vi-min)(up-low)/(max-min)+low。
进一步,步骤(3)中TSRSVM分类器根据训练集的数据间关联关系来测试监控数据,最初的训练集由表2中涵盖四种密集型的代表性负载运行时的数据产生,训练集会随着新的应用场景中的使用而不断更新。
进一步,步骤(4)中优化决策器根据五分钟内所有检测数据的分类结果来决策是否进行定制化优化,如果五分钟内的所有监控数据向量的最后一维数据属于四种密集型中的一类的概率大于85%,则认为负载属于该类型,如果最后一维数据属于四种密集型中的任意一类的概率都小于85%,则将负载划分为混合型。
进一步,步骤(6)中,性能对比器负责判定系统性能经过定制化优化后是否已经有所提升,如果已经提升则分类结果正确,否则,分类错误;如果分类正确,则重新定义SVM的训练集,具体方法如下:将分类正确的所有参数向量与原有的训练集的所有支持向量一起取并集,得到的结果作为新的训练集;如果分类错误,新的训练集则为原有训练集的支持向量。
本发明与现有技术相比,具有如下有益效果:
(1)负载分类准确度高:本方法结合了前一个时间段已经正确分类的监控数据与其类型之间的关联关系,同时排除了错误分类的影响,所以其负载分类准确率高于传统的SVM和KNN算法。
(2)系统性能损失小:本方法取分类正确时间段内的所有参数向量与原有训练集的支持向量而不是所有的训练集向量组合形成新的训练集,避免了训练集过大,运算损耗过大的情况,最大限度的避免性能损失。
进一步的,监控数据以资源利用率的形式表示,屏蔽了不同配置的虚拟机资源绝对值的差异,使得该表示方法可以在不同配置的环境下使用。
进一步的,将所有训练集和测试集的数据统一归一化到[0,1]范围内,使得训练集和测试集的数据范围相同,确保不会因为数据值差异过大而导致影响作用不均衡,分类的准确度得以提升。
进一步的,TRSSVM将所有5分钟内的监控数据向量全都作为本方法的训练集加入,有效的避免了过拟合现象,可以更准确地将负载分类到对应的类型并进行定制化优化。
进一步的,将分类正确的所有参数向量与原有的训练集的所有支持向量一起取并集,得到的结果作为新的训练集。如果分类错误,新的训练集则为原有训练集的支持向量。这样既可以避免只添加正确分类的参数向量进新的训练集产生的过拟合行为,同时,取原有训练集的支持向量而不是所有的参数向量可以在保证准确性的同时避免训练集过大造成的训练过程消耗资源量过多。
附图说明
图1是实施例1中负载分类方法的流程图。
具体实施方式
下面结合实施例和附图来对发明进行详细描述。
实施例1
本发明是在云计算环境下虚拟机上运行的负载分类的方法,方法设计了图1的流程结构,主要包括:
数据收集器:监控系统运行时状态,用于21维的监控数据的参数收集。
数据预处理器:完成获取的监控数据的预处理,即将获取的监控数据归一化到[0,1]之间,确保不会因为数据数值差异过大而导致影响作用不均衡。
TSRSVM分类器:将预处理后的监控数据通过TSRSVM分类器分类,每一个监控数据向量都会分类到CPU密集型、内存密集型、I/O密集型和网络密集型中的一类。
优化决策器:将TSRSVM分类器分类后的监控数据向量进行统计,并根据统计结果判断此时间段内附在所属的类型。
定制化优化器:对已经分类后的负载的操作系统采用相应的定制化优化策略。
性能对比器:对比操作系统前后性能差异。
具体负载分类方法主要分为以下流程:
(1)通过数据收集器获取监控数据,此数据收集器为针对系统定制的数据收集器,可收集21维数据并存在数据库中。
其中监控数据的每个维度的具体含义见表1.
表1监控数据的详细信息表
(2)数据预处理器将收集到的监控数据进行归一化处理,具体算法如下:定义up为归一化的上界,low为归一化的下界,Vi为收集到的监控数据第i维数据组成的数组,max为Vi数组中的最大值,min为Vi数组中的最小值,对Vi归一化后得到的数组为VNi,则VNi=(Vi-min)(up-low)/(max-min)+low。
(3)将预处理器处理后的监控数据传给TSRSVM分类器,TSRSVM分类器根据训练集训练的数据间关联关系来测试监控数据。最初的训练集是由表2中的16个涵盖四种密集型的代表性负载运行时数据产生,随着在新的应用场景中的使用,训练集会不断地更新,更新的方法如(8)和(9)所述。
表2训练集收集的代表性的四类典型应用
(4)优化决策器根据TSRSVM分类器得到的参数向量通过统计对比,如果5分钟内的所有参数向量的最后一维数据属于四种密集型中一类的概率大于85%,那么认为负载属于该类型,同时转到第五步;如果最后一维数据属于四种密集型中任一类的概率都小于85%,则将负载划分到混合型,同时转到(6)。
(5)虚拟机操作系统的定制化优化器对已经分类到CPU密集型、内存密集型、I/O密集型和网络密集型的负载所属的虚拟机进行定制化优化,优化策略根据负载所属的类型不同具有不同的策略。
(6)如果负载属于混合型则不进行操作系统系统性能优化,直接跳转到(7)。
(7)性能对比器对比操作系统性能优化前后性能差异,如果系统性能提升则说明分类结果正确、优化策略有效,如果优化前后无差异或者是性能有损失则说明分类结果错误。如果系统性能获得提升则转(8),否则转(9)。
(8)将正确分类的所有监控参数向量与原训练集的支持向量一起组成新的训练集并对新的TSRSVM进行训练。
(9)仅使用原训练集的支持向量形成新的训练集并对新的TSRSVM进行训练。
最后应说明的是,以上实施例仅用以说明而非限制本发明的技术方案,尽管参照上述实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,依然可以对本发明进行修改或者等同替换,而不脱离本发明的精神和范围的任何修改或者局部替换,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种云计算环境下虚拟机上运行的负载分类方法,其特征在于,包括以下步骤:
(1)通过数据收集器获取监控数据;
(2)利用数据预处理器将获取的监控数据归一化到[0,1]之间;
(3)将经过数据预处理器处理后监控数据传给TrainingSetsRefreshSVM分类器,由TrainingSetsRefreshSVM分类器进行分类,共分为四种类型:CPU密集型、内存密集型、I/O密集型和网络密集型,并形成监控数据向量,监控数据向量的最后一维为监控数据所属的类型;
(4)优化决策器根据TrainingSetsRefreshSVM分类器得到的监控数据向量进行统计对比,决定是否进行优化,如果是,则进行步骤(5),如果否,则跳过步骤(5),直接进行步骤(6);
(5)虚拟机操作系统定制化优化器对分类到CPU密集型,内存密集型,I/O密集型和网络密集型的负载所属的虚拟机进行定制化优化;
(6)采用性能对比器对比操作系统前后性能差异,重新定义SVM的训练集,并使用新定义的训练集训练SVM,为后续得到的测试集测试;
其中步骤(4)中优化决策器根据五分钟内所有检测数据的分类结果来决策是否进行定制化优化,如果五分钟内的所有监控数据向量的最后一维数据属于四种密集型中的一类的概率大于85%,则认为负载属于该类型,如果最后一维数据属于四种密集型中的任意一类的概率都小于85%,则将负载划分为混合型。
2.根据权利要求1所述的云计算环境下虚拟机上运行的负载分类方法,其特征在于:步骤(1)中监控数据包括CPU利用率、内存利用率、I/O利用率、网络传输量。
3.根据权利要求1所述的云计算环境下虚拟机上运行的负载分类方法,其特征在于:步骤(1)中监控数据以利用率方式表示。
4.根据权利要求1所述的云计算环境下虚拟机上运行的负载分类方法,其特征在于:步骤(2)中归一化的具体算法如下:定义up为归一化的上界,low为归一化的下界,Vi为收集到的监控数据第i维数据组成的数组,max为Vi数组中的最大值,min为Vi数组中的最小值,对Vi归一化后得到的数组为VNi,则VNi=(Vi-min)(up-low)/(max-min)+low。
5.根据权利要求1所述的云计算环境下虚拟机上运行的负载分类方法,其特征在于:步骤(3)中TrainingSetsRefreshSVM分类器根据训练集的数据间关联关系来测试监控数据,最初的训练集由涵盖四种密集型的代表性负载运行时的数据产生,训练集会随着新的应用场景中的使用而不断更新。
6.根据权利要求1所述的云计算环境下虚拟机上运行的负载分类方法,其特征在于:步骤(6)中,性能对比器负责判定系统性能经过定制化优化后是否已经有所提升,如果已经提升则分类结果正确,否则,分类错误;如果分类正确,则重新定义SVM的训练集,具体方法如下:将分类正确的所有参数向量与原有的训练集的所有支持向量一起取并集,得到的结果作为新的训练集;如果分类错误,新的训练集则为原有训练集的支持向量。
CN201310236085.9A 2013-06-14 2013-06-14 一种云计算环境下虚拟机上运行的负载分类方法 Active CN103279392B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310236085.9A CN103279392B (zh) 2013-06-14 2013-06-14 一种云计算环境下虚拟机上运行的负载分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310236085.9A CN103279392B (zh) 2013-06-14 2013-06-14 一种云计算环境下虚拟机上运行的负载分类方法

Publications (2)

Publication Number Publication Date
CN103279392A CN103279392A (zh) 2013-09-04
CN103279392B true CN103279392B (zh) 2016-06-29

Family

ID=49061925

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310236085.9A Active CN103279392B (zh) 2013-06-14 2013-06-14 一种云计算环境下虚拟机上运行的负载分类方法

Country Status (1)

Country Link
CN (1) CN103279392B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104461856B (zh) * 2013-09-22 2018-04-20 阿里巴巴集团控股有限公司 基于云计算平台的性能测试方法、装置及系统
WO2015077958A1 (zh) * 2013-11-28 2015-06-04 华为技术有限公司 一种业务流量控制方法、装置和系统
CN104182343B (zh) * 2014-08-22 2017-02-08 工业和信息化部电子第五研究所 操作系统的性能测试方法及装置
CN104765804B (zh) * 2015-03-31 2019-07-30 浙江大学 一种根据特征选择负载的方法和系统
CN104834479A (zh) * 2015-04-24 2015-08-12 清华大学 面向云平台的自动优化存储系统配置的方法及系统
CN105630573B (zh) * 2015-10-20 2018-12-07 浙江大学 一种非侵入式的虚拟机集群发现方法
CN106888237B (zh) * 2015-12-15 2020-01-07 中国移动通信集团公司 一种数据调度方法及系统
CN106201691A (zh) * 2016-07-11 2016-12-07 浪潮(北京)电子信息产业有限公司 一种网络io密集型任务的调度方法及装置
CN106406976A (zh) * 2016-07-21 2017-02-15 柏科数据技术(深圳)股份有限公司 云计算环境下io密集型应用识别方法及装置
CN106775921A (zh) * 2016-11-14 2017-05-31 中国石油化工股份有限公司 基于应用负载感知的虚拟cpu调度方法
CN110928636A (zh) * 2018-09-19 2020-03-27 阿里巴巴集团控股有限公司 虚拟机热迁移方法、装置和设备
CN112231095B (zh) * 2020-09-02 2023-03-28 北京航空航天大学 基于机器学习的面向资源管理的云任务细粒度分类方法
CN112486767B (zh) * 2020-11-25 2022-10-18 中移(杭州)信息技术有限公司 云资源的智能监控方法、系统、服务器以及存储介质
CN115576586B (zh) * 2022-11-15 2023-04-07 四川蜀天信息技术有限公司 一种智能运营与维护服务器的服务端程序的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096461A (zh) * 2011-01-13 2011-06-15 浙江大学 基于虚拟机迁移和负载感知整合的云数据中心节能方法
CN103150215A (zh) * 2013-02-04 2013-06-12 浙江大学 虚拟环境下细粒度的cpu资源使用预测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001117887A (ja) * 1999-10-14 2001-04-27 Nec Corp 分散型アプリケーションサーバシステム,サービス方法および記録媒体
JP5412926B2 (ja) * 2009-04-02 2014-02-12 日本電気株式会社 仮想マシン管理システム,仮想マシン配置設定方法及びそのプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096461A (zh) * 2011-01-13 2011-06-15 浙江大学 基于虚拟机迁移和负载感知整合的云数据中心节能方法
CN103150215A (zh) * 2013-02-04 2013-06-12 浙江大学 虚拟环境下细粒度的cpu资源使用预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
改进的在线支持向量机训练算法;潘以桢 等;《计算机工程》;20091130;第35卷(第22期);第212页摘要,第1节"概述",第212-213页第2节"基于支持向量机的环境预测" *

Also Published As

Publication number Publication date
CN103279392A (zh) 2013-09-04

Similar Documents

Publication Publication Date Title
CN103279392B (zh) 一种云计算环境下虚拟机上运行的负载分类方法
CN109933306B (zh) 一种基于作业类型识别的自适应混合云计算框架生成方法
CN105989408B (zh) 用于将神经网络映射到神经突触基板上的系统和方法
CN109271015B (zh) 一种降低大规模分布式机器学习系统能耗的方法
CN110389820B (zh) 一种基于v-TGRU模型进行资源预测的私有云任务调度方法
DE112016004801T5 (de) Arbeitslastzuweisung für computerressourcen
CN107506865B (zh) 一种基于lssvm优化的负荷预测方法及系统
CN102707995B (zh) 基于云计算环境的业务调度的方法及装置
CN110533112A (zh) 车联网大数据跨域分析融合方法
US20210042578A1 (en) Feature engineering orchestration method and apparatus
CN106339351A (zh) 一种sgd算法优化系统及方法
CN105607952B (zh) 一种虚拟化资源的调度方法及装置
CN112799817A (zh) 一种微服务资源调度系统和方法
CN117472587B (zh) 一种ai智算中心的资源调度系统
Liu et al. Fine-grained flow classification using deep learning for software defined data center networks
CN108270805A (zh) 用于数据处理的资源分配方法及装置
CN116126488A (zh) 一种服务器无感知计算自适应资源调度方法、系统及计算机设备
CN113010296B (zh) 基于形式化模型的任务解析与资源分配方法及系统
CN112398917A (zh) 面向多站融合架构的实时任务调度方法和装置
Abro et al. Artificial intelligence enabled effective fault prediction techniques in cloud computing environment for improving resource optimization
CN115438190B (zh) 一种配电网故障辅助决策知识抽取方法及系统
CN111210539A (zh) 一种动力蓄电池数据分析系统
Du et al. OctopusKing: A TCT-aware task scheduling on spark platform
CN110427217B (zh) 基于内容的发布订阅系统匹配算法轻量级并行方法和系统
CN111046321A (zh) 光伏电站运维策略优化方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20130904

Assignee: Hundsun Technologies Inc.

Assignor: Zhejiang University

Contract record no.: 2018330000035

Denomination of invention: Method for classifying operated load in virtual machine under cloud computing environment

Granted publication date: 20160629

License type: Common License

Record date: 20180417

EE01 Entry into force of recordation of patent licensing contract