CN110348122A - 基于特征选择的季节型非平稳并发量能耗分析方法 - Google Patents
基于特征选择的季节型非平稳并发量能耗分析方法 Download PDFInfo
- Publication number
- CN110348122A CN110348122A CN201910624856.9A CN201910624856A CN110348122A CN 110348122 A CN110348122 A CN 110348122A CN 201910624856 A CN201910624856 A CN 201910624856A CN 110348122 A CN110348122 A CN 110348122A
- Authority
- CN
- China
- Prior art keywords
- data
- energy consumption
- tuple
- feature
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000005265 energy consumption Methods 0.000 title claims abstract description 86
- 238000004458 analytical method Methods 0.000 title claims abstract description 36
- 230000001932 seasonal effect Effects 0.000 title claims abstract description 14
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 22
- 239000000284 extract Substances 0.000 claims abstract description 7
- 238000000611 regression analysis Methods 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 24
- HUTDUHSNJYTCAR-UHFFFAOYSA-N ancymidol Chemical compound C1=CC(OC)=CC=C1C(O)(C=1C=NC=NC=1)C1CC1 HUTDUHSNJYTCAR-UHFFFAOYSA-N 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 8
- 238000005259 measurement Methods 0.000 claims description 7
- 230000001419 dependent effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000000605 extraction Methods 0.000 abstract 2
- 230000002596 correlated effect Effects 0.000 abstract 1
- 230000000875 corresponding effect Effects 0.000 abstract 1
- 238000012545 processing Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000012417 linear regression Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Evolutionary Computation (AREA)
- Geometry (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Complex Calculations (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于特征选择的季节型非平稳并发量能耗分析方法,涉及云计算技术领域。该方法针对Web应用特性建立能耗模型。首先,基于负载检测工具提取出相关多维特征,并使用工具测出对应能耗数据;然后,对提取的数据进行预处理,提高数据质量与建模效率;然后,采用效率高的过滤型特征选择算法与性能好的装箱式特征选择算法进行相关特征的选择;最后,对筛选完的多维特征以及能耗数据进行回归分析,建立能耗模型。本发明方法同时考虑多种对云服务中心整体能耗有贡献的资源,提取多种数据特征,并对提取的数据进行预处理,提高了数据质量与建模效率,也使能耗模型更加精确。
Description
技术领域
本发明涉及云计算技术领域,尤其涉及一种基于特征选择的季节型非平稳并发量能耗分析方法。
背景技术
云计算使用户通过互联网按需自助服务,可以自动扩展和按照需求使用付费模式提供大量的共享计算资源,虽然云计算提供了许多好处,但是云服务中心的高能耗是一个严重的问题。云服务中心的高能耗近年来受到了广泛关注,主要包括三方面的原因:对性能产生重大影响;对环境造成不利的影响;过高的运营成本。因此,合理降低能耗的产生已经成为全社会亟待解决的问题,精确的能耗分析系统必不可少。现有的方法主要将重点放在CPU能耗上,而忽略了其它各方面的能源消耗,例如内存、磁盘等。若要制定相对精确的能耗分析方法,需要同时考虑很多对云服务中心整体能耗有贡献的资源。此外,现有的方法在能耗分析时并没有考虑应用特性,不同的应用特性对资源的需求有所不同,只考虑单一组件,这样得出的能耗数据是不太准确,参考价值不高的。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种基于特征选择的季节型非平稳并发量能耗分析方法,针对Web应用特性建立能耗模型,实现对Web应用服务的能耗进行分析计算,为合理降低能耗,提高云服务中心的性能提供依据。
为解决上述技术问题,本发明所采取的技术方案是:基于特征选择的季节型非平稳并发量能耗分析方法,包括以下步骤:
步骤1、提取Web应用服务的各指标数据并进行数据预处理;
步骤1.1、在数据提取的过程中,使用负载测试工具提取Web应用服务的特征参数,标记为{x1,x2,...xn},每一行代表一个元组,并提取能耗数据为y;所述特征参数包括处理器时间、已使用的内存大小、页面错误/秒、磁盘时间、磁盘字节数/秒、字节总数/秒和当前带宽;
步骤1.2、在数据预处理的过程中,使用KNN方法进行缺失值数据的填充,并使用Min-Max Scaling进行数据的区间缩放;
KNN算法对缺失值数据进行填充时,首先计算并记录包含某维缺失数据值的数据元组的目标数据与所有不含任何缺失数据值的数据元组的完全数据元组的欧几里得距离,然后在所有完全数据元组中选择与目标数据的欧几里得距离最小的前K个数据元组作为目标数据的最近邻,最后对前K个近邻项数据相应位置的加权平均作为目标数据的记录缺失值的估计值;
步骤1.2.1、初始化数据,将提取出的特征参数构建整个数据矩阵(X1,X2,...,Xn);
步骤1.2.2:将整个数据矩阵分离构建完全数据矩阵(X1,X2,...,Xn)与目标数据矩阵(X1″,X2″,...,Xn″);所述完全数据为不含任何缺失数据值的数据,所述目标数据为包含某维缺失数据值的数据;
步骤1.2.3:计算目标数据矩阵中每一个元组与完全数据矩阵中所有数据元组的欧几里得距离,如下公式所示:
其中,di为x″i与x′j之间的欧几里得距离,x″i表示目标数据矩阵中第i个元组,i=1,2,…,n,x′j表示完全数据矩阵中第j个元组,j=1,2,…,n,;
步骤1.2.4:针对每一个目标数据元组选择出欧几里得距离最小的前K个数据元组作为目标数据元组的K最近邻;
步骤1.2.5:计算出目标数据元组的前K个最近邻权值,如下公式所示:
其中,wi表示第i个目标数据元组的前K个最近邻权值;
步骤1.2.6:计算目标数据矩阵中每个元组的缺失数据值,并在整个数据元组中的相应位置进行填补,如下公式所示:
其中,Xi表示第i个最近邻前K个完全数据元组相应位置的值,xi表示第i个原始数据元组的值;
步骤1.2.7:使用Min-Max Scaling方法,对缺失值填充完成的数据进行区间缩放,即将数据的取值区间转换到[0,1]范围内,归一化公式如下所示:
其中,X表示缺失值填充完成的数据,Min表示并发量数据中的最小值,Max表示并发量数据中的最大值,Y表示处理完的数据;
步骤2、采用过滤型特征选择算法与装箱式特征选择算法相结合的方式,对预处理后的多维数据进行与能耗相关的特征选择;
将提取出的各维数据定义为X=[x1,x2,...,xn],xi=[xi1,xi2,...,xim],并将监测出的能耗数据定义为Y,Y=[y1,y2,...,ym],同时初始化线性相关系数α与特征排序集R=[],使用KNN算法对X与Y进行数据预处理,分别计算xi在Pearson度量下的相关性分数Sip以及在随机森林的相关性度量下的相关性分数Sir,得到各个特征的分数S=α·Sip+(1-α)·Sir,并进行排名,得到筛选后的特征集合x′=[x1,x2,...,xn′],然后使用装箱式特征选择算法对X′进行特征排序,最后,训练一个线性支持向量机,将筛选出的特征作为输入,计算特征权重wi′,i′=1,2,…,n′,得到特征集合X′中特征的排名分数:ci′=(wi′)2;
步骤3、根据步骤2得到的与能耗相关的特征集合X′建立基于回归分析的能耗分析模型,得到Web应用服务的实际能耗;
采用幂回归、指数回归与多项式回归三种建模方法分别建立最终的能耗分析模型;
采用幂回归建模方法建立的最终能耗分析模型为:
幂回归公式如下所示:
其中,y是Web应用服务的实际能耗,b0,b1,b2,...,bn′是回归系数,ε表示随机误差;
所述采用指数回归建模方法建立的最终能耗分析模型为:
指数回归公式如下所示:
其中,y是Web应用服务的实际能耗,β0,β1,β2,...,βn′是回归系数,ε表示随机误差;
所述采用多项式回归建模方法建立的最终能耗分析模型为:
多项式回归公式如下所示:
y=β0+β1x1+β2x2+...+βn′xn′+ε (7)
其中,y是Web应用服务的实际能耗,β0,β1,β2,...,βn′是回归系数,ε表示随机误差。
采用上述技术方案所产生的有益效果在于:本发明提供的基于特征选择的季节型非平稳并发量能耗分析方法,建立了基于特征选择与回归分析的云服务中心能耗模型,与现有模型只考虑单一组件的方式不同,本发明方法提出的能耗建模方法建立在Web应用特性的基础上,涉及了存储器、处理单元与磁盘等的能量消耗,主要提取的参数包括Processor Time,Memory Used,Page Fault/Sec,Disk Time,Disk Bytes/Sec等特征。将提取的特征作为改进特征选择算法的输入数据,选择出合理有效的特征,在缩减数据维度的基础上提高了数据质量,提升了特征选择的效率;最后,将选择出来的有效特征进行回归分析建模,得到最终的能耗模型,使模型泛化能力较强从而减少过拟合,使建立的能耗模型所得到的数据更接近于真实值。
附图说明
图1为本发明实施例提供的基于特征选择的季节型非平稳并发量能耗分析方法的流程图;
图2为本发明实施例提供的两种特征选择方法下的能耗回归模型对比图;
图3为本发明实施例提供的五种能耗模型对比图;
图4为本发明实施例提供的五种模型相对误差对比图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本实施例以某虚拟的飞机订票系统为例,使用本发明的基于特征选择的季节型非平稳并发量能耗分析方法对Web应用服务的实际能耗进行分析。
基于特征选择的季节型非平稳并发量能耗分析方法,如图1所示,包括以下步骤:
步骤1、提取Web应用服务的各指标数据并进行数据预处理;
步骤1.1、在数据提取的过程中,使用负载测试工具提取Web应用服务的特征参数,标记为{x1,x2,...xn},每一行代表一个元组,并提取能耗(Energy Consumption)数据为y;所述特征参数包括处理器时间(Processor Time)、已使用的内存大小(Memory Used)、页面错误/秒(Page Fault/Sec)、磁盘时间(Disk Time)、磁盘字节数/秒(DiskBytes/Sec)、字节总数/秒(Bytes Total/Sec)和当前带宽(Current Bandwidth);
步骤1.2、在数据预处理的过程中,使用KNN方法进行缺失值数据的填充,并使用Min-Max Scaling进行数据的区间缩放;
KNN算法对缺失值数据进行填充时,首先计算并记录包含某维缺失数据值的数据元组的目标数据与所有不含任何缺失数据值的数据元组的完全数据元组的欧几里得距离,然后在所有完全数据元组中选择与目标数据的欧几里得距离最小的前K个数据元组作为目标数据的最近邻,最后对前K个近邻项数据相应位置的加权平均作为目标数据的记录缺失值的估计值;
步骤1.2.1、初始化数据,将提取出的特征参数构建整个数据矩阵(X1,X2,...,Xn);
步骤1.2.2:将整个数据矩阵分离构建完全数据矩阵(X1,X2,...,Xn)与目标数据矩阵(X1″,X2″,...,Xn″);所述完全数据为不含任何缺失数据值的数据,所述目标数据为包含某维缺失数据值的数据;
步骤1.2.3:计算目标数据矩阵中每一个元组与完全数据矩阵中所有数据元组的欧几里得距离,如下公式所示:
其中,di为x″i与x′j之间的欧几里得距离,x″i表示目标数据矩阵中第i个元组,i=1,2,…,n,x′j表示完全数据矩阵中第j个元组,j=1,2,…,n,;
步骤1.2.4:针对每一个目标数据元组选择出欧几里得距离最小的前K个数据元组作为目标数据元组的K最近邻;
步骤1.2.5:计算出目标数据元组的前K个最近邻权值,如下公式所示:
其中,wi表示第i个目标数据元组的前K个最近邻权值;
步骤1.2.6:计算目标数据矩阵中每个元组的缺失数据值,并在整个数据元组中的相应位置进行填补,如下公式所示:
其中,Xi表示第i个最近邻前K个完全数据元组相应位置的值,xi表示第i个原始数据元组的值;
步骤1.2.7:使用Min-Max Scaling方法,对缺失值填充完成的数据进行区间缩放,即将数据的取值区间转换到[0,1]范围内,归一化公式如下所示:
其中,X表示缺失值填充完成的数据,Min表示并发量数据中的最小值,Max表示并发量数据中的最大值,Y表示处理完的数据;
步骤2、采用过滤型特征选择算法与装箱式特征选择算法相结合的方式,对预处理后的多维数据进行与能耗相关的特征选择;
将提取出的各维数据定义为X=[x1,x2,...,xn],xi=[xi1,xi2,...,xim],并将监测出的能耗数据定义为Y,Y=[y1,y2,...,ym],同时初始化线性相关系数α与特征排序集R=[],使用KNN算法对X与Y进行数据预处理,分别计算xi在Pearson度量下的相关性分数Sip以及在随机森林的相关性度量下的相关性分数Sir,得到各个特征的分数S=α·Sip+(1-α)·Sir,并进行排名,得到筛选后的特征集合X′=[x1,x2,...,xn′],然后使用装箱式特征选择算法对X′进行特征排序,最后,训练一个线性支持向量机,将筛选出的特征作为输入,计算特征权重wi′,i′=1,2,…,n′,得到特征集合X′中特征的排名分数:ci′=(wi′)2;
步骤3、根据步骤2得到的与能耗相关的特征集合X′建立基于回归分析的能耗分析模型,得到Web应用服务的实际能耗;
采用幂回归、指数回归与多项式回归三种建模方法分别建立最终的能耗分析模型;
(1)基于幂回归的能耗分析建模
幂回归公式如下所示:
其中,y是Web应用服务的实际能耗,b0,b1,b2,...,bn′是回归系数,ε表示随机误差;
(2)基于指数回归的能耗分析建模
指数回归公式如下所示:
其中,y是Web应用服务的实际能耗,β0,β1,β2,...,βn′是回归系数,ε表示随机误差;
(3)基于多项式回归的能耗分析建模
多项式回归公式如下所示:
y=β0+β1x1+β2x2+...+βn′xn′+ε (7)
其中,y是Web应用服务的实际能耗,β0,β1,β2,...,βn′是回归系数,ε表示随机误差。
本实施例中,测试环境建立在虚拟环境中的飞机订票系统以及提供web服务的负载测试工具HP LoadRounner之上。在HP LoadRunner上搭建完成测试环境之后,即可运行负载测试场景。在测试运行的过程中,通过LoadRunner的一套集成监控器实时了解web应用程序的各指标数据。另外,可以通过Controller的联机图查看并提取监控器收集的各项指标数据。运行完场景之后,通过HP LoadRunner Analysis对场景运行中生成的性能数据进行分析,也可以使用它把性能相关的数据进行总结,得到详细的报告和图例表格。环境搭建完成之后,针对web应用服务,基于虚拟环境中的飞机订票系统对HP LoadRunner进行加压,并在Controller中提取对应数据,同时,得到能耗相关数据。表1显示了web应用服务下部分参数的数据值。由表1可知,对于事务Web应用,当“CPU利用率,,,,Processor Time”=6.89%,“已使用的内存大小Memory Used”=4.29%,“处理器每秒钟处理的错误页Page Fault/Sec”=28192.04,“磁盘系统的吞吐率Disk Time”=2.86,“磁盘忙于读写活动所用时间的百分比Disk Bytes/Sec”=689229.22,“服务器发送和接收数据的速率Bytes Total/Sec”=64.13,“当前带宽Current Bandwidth”=9.22×1018时,“能耗Energy Compution”=107.00,以此类推。
本实施例中,各个特征得分排名如表2所示,由表可知,前三个特征(即处理器时间,使用的内存和页面错误/秒)显着贡献,而磁盘时间和磁盘字节数/秒贡献很少,“字节总数/秒”和“当前带宽“基本没有任何贡献。这是因为web应用服务需要大量的处理能力。
因此,我们选择非零特征(即处理器时间,使用内存,页面错误次数,磁盘字节数/秒,和磁盘时间)来构建能耗模型。并使用y,x1,x2,x3,x4,x5,x6分别表示EnergyConsumption,Processor Time,Disk Bytes/Sec,Disk Time,Page Fault/Sec,MemoryUsed以及Bytes Total/Sec。如表3所示。
表1 Web应用下各指标数据表
表2各个特征得分排名
参数 | 得分 |
Processor Time | 61.3 |
Memory Used | 17.5 |
Page Fault/Sec | 14.2 |
Disk Time | 4.6 |
Disk Bytes/Sec | 2.1 |
Bytes Total/Sec | 0.3 |
Current Bandwidth | 0 |
表3各个指标参数代表
参数 | 代表 |
y | Energy Consumption |
x<sub>1</sub> | Processor Time |
x<sub>2</sub> | Disk Bytes/Sec |
x<sub>3</sub> | Disk Time |
x<sub>4</sub> | Page Fault/Sec |
x<sub>5</sub> | Memory Used |
x<sub>6</sub> | Bytes Total/Sec |
根据建立的能耗模型,将各个参数代入分别得到幂回归、指数回归与多项式回归模型。其中,基于幂回归的回归模型为:
y=e8.920533·x1 0.198811·x2 -0.008926·x3 -0.028378·x4 -0.016527·x5 -2.920025·x6 -0.014455
基于指数回归的回归模型为:
基于多项式的回归模型为:
y=-334.1569-0.115852x1 2-6.70×10-5x2+16.867x3-0.000406x4+102.1x5-0.0797x6
为了评估能耗模型的准确性,定义如下度量:
其中,Pp表示能耗模型的预测值,Pt是能耗的真实值,Pe表示能耗的相对误差,Pt所表示的数据值是通过Power Bay-SSM工具测量的。将三种能耗回归模型与线性模型、立方模型进行对比分析,其中,线性模型以及立方模型在能耗建模方面更侧重于CPU所产生的贡献。
本实施例首先验证本发明提出的特征选择算法的有效性。图2为通过两种特征选择算法,建立的能耗模型数据对比结果,一种特征选择算法为本发明提出的改进过滤型与装箱式特征选择算法,另一种为LVW算法。如图2所示,通过改进过滤型与装箱式特征选择算法选择特征之后建立的模型数据明显比较接近于能耗真实数据。
图3与图4分别显示了web应用服务使用幂回归、指数回归、多项式回归、线性回归以及立方回归模型下的能耗和相对误差。由图3分析可知,三种建模方法(幂回归、指数回归与多项式回归)的性能明显优于线性回归以及立方回归模型。原因主要包括两个,其中一个是web应用服务的特点决定的。web应用服务本身在执行任务时频繁访问内存和网络,因此,若只考虑CPU或者内存因素不足以构建能耗模型。而本发明选择的特征不只包括CPU和内存因素,还考虑了磁盘以及网络接口卡等因素。另外一个原因是幂回归、指数回归与多项式回归利用改进过滤型与装箱式特征选择提高了基于特征的能耗模型的精度。图4为提取的50次能耗数据相对误差的对比,通过相对误差也可以得出三种建模方法(幂回归、指数回归与多项式回归)的性能相对来说较优的结论。
通过对比结果的分析可知,针对Web应用场景处理季节型非平稳并发量时,通过本发明提出来的改进过滤型与装箱式特征选择算法进行特征选择后,建立的能耗模型所得到的数据更接近于真实值。在此基础上,通过五种回归分析模型的对比发现,幂回归、指数回归以及多项式回归在web应用中生成的能耗模型,比线性回归以及立方回归的准确性要高。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。
Claims (3)
1.一种基于特征选择的季节型非平稳并发量能耗分析方法,其特征在于:包括以下步骤:
步骤1、提取Web应用服务的各指标数据并进行数据预处理;
步骤1.1、在数据提取的过程中,使用负载测试工具提取Web应用服务的特征参数,标记为{x1,x2,...xn},每一行代表一个元组,并提取能耗数据为y;所述特征参数包括处理器时间、已使用的内存大小、页面错误/秒、磁盘时间、磁盘字节数/秒、字节总数/秒和当前带宽;
步骤1.2、在数据预处理的过程中,使用KNN方法进行缺失值数据的填充,并使用Min-Max Scaling进行数据的区间缩放;
KNN算法对缺失值数据进行填充时,首先计算并记录包含某维缺失数据值的数据元组的目标数据与所有不含任何缺失数据值的数据元组的完全数据元组的欧几里得距离,然后在所有完全数据元组中选择与目标数据的欧几里得距离最小的前K个数据元组作为目标数据的最近邻,最后对前K个近邻项数据相应位置的加权平均作为目标数据的记录缺失值的估计值;
步骤2、采用过滤型特征选择算法与装箱式特征选择算法相结合的方式,对预处理后的多维数据进行与能耗相关的特征选择;
将提取出的各维数据定义为X=[x1,x2,...,xn],xi=[xi1,xi2,...,xim],并将监测出的能耗数据定义为Y,Y=[y1,y2,...,ym],同时初始化线性相关系数α与特征排序集R=[],使用KNN算法对X与Y进行数据预处理,分别计算xi在Pearson度量下的相关性分数Sip以及在随机森林的相关性度量下的相关性分数Sir,得到各个特征的分数S=α·Sip+(1-α)·Sir,并进行排名,得到筛选后的特征集合X′=[x1,x2,...,xn′],然后使用装箱式特征选择算法对X′进行特征排序,最后,训练一个线性支持向量机,将筛选出的特征作为输入,计算特征权重wi′,i′=1,2,…,n′,得到特征集合X′中特征的排名分数:ci′=(wi′)2;
步骤3、根据步骤2得到的与能耗相关的特征集合X′建立基于回归分析的能耗分析模型,得到Web应用服务的实际能耗;
采用幂回归、指数回归与多项式回归三种建模方法分别建立最终的能耗分析模型。
2.根据权利要求1所述的基于特征选择的季节型非平稳并发量能耗分析方法,其特征在于:所述步骤1.2的具体方法为:
步骤1.2.1、初始化数据,将提取出的特征参数构建整个数据矩阵(X1,X2,...,Xn);
步骤1.2.2:将整个数据矩阵分离构建完全数据矩阵(X1′,X2′,...,Xn′)与目标数据矩阵(X1″,X2″,...,Xn″);所述完全数据为不含任何缺失数据值的数据,所述目标数据为包含某维缺失数据值的数据;
步骤1.2.3:计算目标数据矩阵中每一个元组与完全数据矩阵中所有数据元组的欧几里得距离,如下公式所示:
其中,di为x″i与x′j之间的欧几里得距离,x″i表示目标数据矩阵中第i个元组,i=1,2,…,n,x′j表示完全数据矩阵中第j个元组,j=1,2,…,n,;
步骤1.2.4:针对每一个目标数据元组选择出欧几里得距离最小的前K个数据元组作为目标数据元组的K最近邻;
步骤1.2.5:计算出目标数据元组的前K个最近邻权值,如下公式所示:
其中,wi表示第i个目标数据元组的前K个最近邻权值;
步骤1.2.6:计算目标数据矩阵中每个元组的缺失数据值,并在整个数据元组中的相应位置进行填补,如下公式所示:
其中,Xi表示第i个最近邻前K个完全数据元组相应位置的值,xi表示第i个原始数据元组的值;
步骤1.2.7:使用Min-Max Scaling方法,对缺失值填充完成的数据进行区间缩放,即将数据的取值区间转换到[0,1]范围内,归一化公式如下所示:
其中,X表示缺失值填充完成的数据,Min表示并发量数据中的最小值,Max表示并发量数据中的最大值,Y表示处理完的数据。
3.根据权利要求1所述的基于特征选择的季节型非平稳并发量能耗分析方法,其特征在于:步骤3所述采用幂回归建模方法建立的最终能耗分析模型为:
幂回归公式如下所示:
其中,y是Web应用服务的实际能耗,b0,b1,b2,...,bn′是回归系数,ε表示随机误差;
所述采用指数回归建模方法建立的最终能耗分析模型为:
指数回归公式如下所示:
其中,y是Web应用服务的实际能耗,β0,β1,β2,...,βn′是回归系数,ε表示随机误差;
所述采用多项式回归建模方法建立的最终能耗分析模型为:
多项式回归公式如下所示:
y=β0+β1x1+β2x2+...+βn′xn′+ε (7)
其中,y是Web应用服务的实际能耗,β0,β1,β2,...,βn′是回归系数,ε表示随机误差。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910624856.9A CN110348122B (zh) | 2019-07-11 | 2019-07-11 | 基于特征选择的季节型非平稳并发量能耗分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910624856.9A CN110348122B (zh) | 2019-07-11 | 2019-07-11 | 基于特征选择的季节型非平稳并发量能耗分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110348122A true CN110348122A (zh) | 2019-10-18 |
CN110348122B CN110348122B (zh) | 2023-01-17 |
Family
ID=68175923
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910624856.9A Active CN110348122B (zh) | 2019-07-11 | 2019-07-11 | 基于特征选择的季节型非平稳并发量能耗分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110348122B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017067141A1 (zh) * | 2015-10-19 | 2017-04-27 | 南京华苏科技有限公司 | 基于众包模式的移动Apps对无线网路资源利用的分析方法 |
CN107193876A (zh) * | 2017-04-21 | 2017-09-22 | 美林数据技术股份有限公司 | 一种基于最近邻knn算法的缺失数据填补方法 |
CN109543203A (zh) * | 2017-09-22 | 2019-03-29 | 山东建筑大学 | 一种基于随机森林的建筑冷热负荷预测方法 |
-
2019
- 2019-07-11 CN CN201910624856.9A patent/CN110348122B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017067141A1 (zh) * | 2015-10-19 | 2017-04-27 | 南京华苏科技有限公司 | 基于众包模式的移动Apps对无线网路资源利用的分析方法 |
CN107193876A (zh) * | 2017-04-21 | 2017-09-22 | 美林数据技术股份有限公司 | 一种基于最近邻knn算法的缺失数据填补方法 |
CN109543203A (zh) * | 2017-09-22 | 2019-03-29 | 山东建筑大学 | 一种基于随机森林的建筑冷热负荷预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110348122B (zh) | 2023-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7921069B2 (en) | Granular data for behavioral targeting using predictive models | |
CN105022761B (zh) | 群组查找方法和装置 | |
CN108052528A (zh) | 一种存储设备时序分类预警方法 | |
US9760907B2 (en) | Granular data for behavioral targeting | |
WO2020237729A1 (zh) | 一种基于模式转移的虚拟机混合备用动态可靠性评估方法 | |
WO2019134274A1 (zh) | 兴趣探索方法、存储介质、电子设备及系统 | |
CN108427720A (zh) | 系统日志分类方法 | |
CN104239351A (zh) | 一种用户行为的机器学习模型的训练方法及装置 | |
EP2389624A1 (en) | Sampling analysis of search queries | |
CN104516808A (zh) | 数据预处理装置及方法 | |
Yang et al. | Prototype-based image search reranking | |
CN108121601B (zh) | 一种基于权重的应用资源调度装置及方法 | |
JP5518856B2 (ja) | 改良された画像認識用の支援装置 | |
CN110943974B (zh) | 一种DDoS异常检测方法及云平台主机 | |
CN111461815B (zh) | 订单识别模型生成方法、识别方法、系统、设备和介质 | |
CN117556369A (zh) | 一种动态生成的残差图卷积神经网络的窃电检测方法及系统 | |
CN110348122A (zh) | 基于特征选择的季节型非平稳并发量能耗分析方法 | |
CN116962419A (zh) | 服务器分配策略的生成方法及装置、电子设备及存储介质 | |
CN110555092A (zh) | 舆情处理方法、装置及计算机可读存储介质 | |
CN110210572A (zh) | 图像分类方法、装置、存储介质及设备 | |
Ferreira et al. | Intelligent Industrial IoT system for detection of short-circuit failure in windings of wind turbines | |
CN112463378A (zh) | 一种服务器资产扫描方法、系统、电子设备及存储介质 | |
Shi et al. | Convolution-LSTM-based mechanical hard disk failure prediction by sensoring SMART indicators | |
JPH11250094A (ja) | 2相データクラスタ方法および装置と2相データクラスタプログラムを記録した記録媒体 | |
CN111475319A (zh) | 一种基于机器学习的硬盘筛选方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20191018 Assignee: Shenyang Zhizhi Technology Co.,Ltd. Assignor: Northeastern University Contract record no.: X2023210000209 Denomination of invention: Energy consumption analysis method for seasonal non-stationary concurrency based on feature selection Granted publication date: 20230117 License type: Common License Record date: 20231127 |
|
EE01 | Entry into force of recordation of patent licensing contract |