CN104765804B - 一种根据特征选择负载的方法和系统 - Google Patents

一种根据特征选择负载的方法和系统 Download PDF

Info

Publication number
CN104765804B
CN104765804B CN201510147870.6A CN201510147870A CN104765804B CN 104765804 B CN104765804 B CN 104765804B CN 201510147870 A CN201510147870 A CN 201510147870A CN 104765804 B CN104765804 B CN 104765804B
Authority
CN
China
Prior art keywords
feature
representative element
association relationship
processed
representative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510147870.6A
Other languages
English (en)
Other versions
CN104765804A (zh
Inventor
尹建伟
林鹏翔
赵新奎
李莹
邓水光
吴健
吴朝晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201510147870.6A priority Critical patent/CN104765804B/zh
Publication of CN104765804A publication Critical patent/CN104765804A/zh
Application granted granted Critical
Publication of CN104765804B publication Critical patent/CN104765804B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用于算法领域,提供了一种根据特征选择负载的方法和系统,所述方法包括:对待处理特征数据进行预处理;通过特征聚类算法对所述待处理特征数据进行分类,并获取各类的代表元;根据互信息值和所述代表元,选择高准确度的特征对应的负载。本发明实施例,对待处理特征数据进行预处理,通过特征聚类算法对待处理特征数据进行分类,获取各类的代表元,根据互信息值和代表元,选择高准确度的特征对应的负载,提供了一种高效率的负载选择方法和系统,提高了负载选择的效率。

Description

一种根据特征选择负载的方法和系统
【技术领域】
本发明属于算法领域,尤其涉及一种根据特征选择负载的方法和系统。
【背景技术】
无论是传统的物理机或者云计算中的虚拟集群,对于系统的优化都非常重要。为了适应不同的应用要求,对系统的优化会采取不同的优化方法。在这种情况下,首先需要对物理机或者虚拟机进行负载分类,根据其属于CPU密集型,内存密集型,IO密集型和网络密集型等分别采取不同的优化方法,以提高效率。
负载分类方法是系统优化的前提,其效率的好坏直接影响着系统优化的效率。在负载分类过程中,准确度与效率是一个相互制约的因素,通常提高准确度的同时意味着效率的下降。
在负载分类过程中,一般情况下,增加特征的维度可以提高分类的准确度,但会降低分类的效率。但盲目地增加特征的维度并不能提高准确度,因为有相关关系的特征维度会相互影响并降低分类准确率。所以在特征选择中,需要选择与分类相关度高的特征,避免特征的盲目增加。
【发明内容】
鉴于此,本发明提供一种根据特征选择负载的方法和系统,以解决现有技术的负载选择效率低的技术问题。
本发明实施例是这样实现的,一种根据特征选择负载的方法,所述方法包括以下步骤:
对待处理特征数据进行预处理;
通过特征聚类算法对所述待处理特征数据进行分类,并获取各类的代表元;具体为:
计算所述特征之间的皮尔森相关系数PCC;
根据所述PCC衡量特征之间的关联性,并根据所述关联性进行聚类;
从各类别中选择一个特征作为所述类别的代表元;
根据互信息值和所述代表元,选择高准确度的特征对应的负载;
所述根据互信息值和所述代表元,选择高准确度的特征对应的负载的步骤,包括:
根据公式计算所述代表元的互信息值,其中,p(x)和p(y)为边缘概率,p(x,y)为x与y的联合概率;
根据所述互信息值对所述代表元进行排序;
根据所述排序选择高准确度的特征对应的负载。
作为优选,所述对待处理特征数据进行预处理的步骤,包括:
通过粒度选择将所述待处理特征数据组成数据矩阵;
通过公式对所述数据矩阵进行正规化处理,其中,
MVmin为MV的最小值,MVmax为MV的最大值。
本发明还提供了一种根据特征选择负载的系统,其特征在于,所述系统包括:
预处理单元,用于对待处理特征数据进行预处理;
代表元获取单元,用于通过特征聚类算法对所述预处理单元处理的待处理特征数据进行分类,并获取各类的代表元;所述代表元获取单元,包括:
PPC计算子单元,用于计算所述特征之间的PCC;
聚类子单元,用于根据所述PPC计算子单元计算的PCC衡量特征之间的关联性,并根据所述关联性进行聚类;
代表元获取子单元,用于从所述聚类子单元计算的各类别中选择一个特征作为所述类别的代表元;
负载选择单元,用于根据互信息值和所述代表元获取单元获取的代表元,选择高准确度的特征对应的负载;
所述负载选择单元,包括:
互信息值计算子单元,用于根据公式计算所述代表元的互信息值,其中,p(x)和p(y)为边缘概率,p(x,y)为x与y的联合概率;
排序子单元,用于根据所述互信息值计算子单元计算的互信息值对所述代表元进行排序;
负载选择子单元,用于根据所述排序子单元计算的排序选择高准确度的特征对应的负载。
作为优选,所述预处理单元,包括:
数据矩阵组成子单元,用于通过粒度选择将所述待处理特征数据组成数据矩阵;
正规化处理子单元,用于通过公式对所述数据矩阵组成子单元组成的数据矩阵进行正规化处理,其中,MVmin为MV的最小值,MVmax为MV的最大值。
本发明实施例,对待处理特征数据进行预处理,通过特征聚类算法对待处理特征数据进行分类,获取各类的代表元,根据互信息值和代表元,选择高准确度的特征对应的负载,提供了一种高效率的负载选择方法和系统,提高了负载选择的效率。
【附图说明】
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供根据特征选择负载方法的流程图;
图2是本发明实施例提供的根据特征选择负载系统的结构图。
【具体实施方式】
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一
如图1所示为本发明实施例提供根据特征选择负载方法的流程图,所述方法包括以下步骤:
步骤S101,对待处理特征数据进行预处理。
在本发明实施例中,对待处理的特征数据进行预处理,通过该预处理,可以获取该特征数据的有效数据,该特征数据为负载在运行时表现出的特征,该特征包括但不限于:CPU密集型、内存密集型、IO密集型和网络密集型。所述对待处理特征数据进行预处理的步骤,包括:
1、通过粒度选择将所述待处理特征数据组成数据矩阵。
在本发明实施例中,对待处理特征数据进行粒度选择,即:取一段时间内的特征数据,将不同时间的数据按行排列、同一时间的不同指标数据按列排列,并将上述按行列排列的数据组成数据矩阵。
通过公式对所述数据矩阵进行正规化处理。
在本发明实施例中,在组成数据矩阵之后,通过公式对该数据矩阵进行正规化处理,通过正规化处理,可以保留矩阵的相对大小及趋势,并去除数据绝对大小的影响,其中,MVmin为MV的最小值,MVmax为MV的最大值,计算后SVi的范围为[-1,1]。
步骤S102,通过特征聚类算法对所述待处理特征数据进行分类,并获取各类的代表元。
在本发明实施例中,通过特征聚类算法对经过预处理的待处理特征数据进行分类,其中,通过PCC(Pearson production-moment Correlation Coefficient,简称:皮尔森相关系数):计算特征之间的相关性,进而进行分类。所述通过特征聚类算法对所述待处理特征数据进行分类,并获取各类的代表元的步骤,具体为:
1、计算所述特征之间的PCC。
在本发明实施例中,计算所得的P(x,y),即x特征与y特征之间的PCC的范围为[-1,1],P(x,y)值越大,则X与Y的关联性越强。
2、根据所述PCC衡量特征之间的关联性,并根据所述关联性进行聚类。
在本发明实施例中,开始计算时,特征类别表为空。每次选取两个特征X和Y,计算PCC(x,y),如果0PCC(x,y)1,那么就考虑将X和Y合并为一个类,合并过程中需要考虑以下四种情况:
a、X在类别表中,Y不在类别表中,则将Y加入到X的类别表中;
b、Y在类别表中,X不在类别表中,则将X加入到Y的类别表中;
c、X和Y均在类别表中,将X和Y代表的所属类别合并;
d、X和Y均不在类别表中,将X和Y放入类别表中的新类别。
3、从各类别中选择一个特征作为所述类别的代表元。
在本发明实施例中,经过特征聚类算法后,类别表中记录了那些类别属于同一类别,在同一类别的特征中任意选取一个作为该类别的代表元。对于不在类别表中的特征以其本身作为自己的代表元。
步骤S103,根据互信息值和所述代表元,选择高准确度的特征对应的负载。
在本发明实施例中,通过互信息值和代表元,根据特征选择算法选择高准确度的特征对应的负载。所述根据互信息值和所述代表元,选择高准确度的特征对应的负载的步骤,包括:
1、根据公式计算所述代表元的互信息值。
在本发明实施例中,为了获取每一个特征对于结果的影响程度,通过互信息值来衡量该影响程度,其中互信息值根据以下公式计算:
其中,p(x)和p(y)为边缘概率,p(x,y)为x与y的联合概率。
2、根据所述互信息值对所述代表元进行排序。
3、根据所述排序选择高准确度的特征对应的负载。
在本发明实施例中,根据排序每次向特征集合中添加一个特征,用三分之二的数据进行SVM训练,其余三分之一作为检测准确度。计算完所有特征集的准确度后,将准确度最高的特征集输出,作为特征选择的结果。
本发明实施例,对待处理特征数据进行预处理,通过特征聚类算法对待处理特征数据进行分类,获取各类的代表元,根据互信息值和代表元,选择高准确度的特征对应的负载,提供了一种高效率的负载选择方法,提高了负载选择的效率。
实施例二
如图2所示为本发明实施例提供的根据特征选择负载系统的结构图,为了便于说明,仅示出与本发明实施例相关的部分,包括:
预处理单元201,用于对待处理特征数据进行预处理。
在本发明实施例中,对待处理的特征数据进行预处理,通过该预处理,可以获取该特征数据的有效数据,该特征数据为负载在运行时表现出的特征,该特征包括但不限于:CPU密集型、内存密集型、IO密集型和网络密集型。所述预处理单元201包括:
数据矩阵组成子单元2011,用于通过粒度选择将所述待处理特征数据组成数据矩阵。
在本发明实施例中,对待处理特征数据进行粒度选择,即:取一段时间内的特征数据,将不同时间的数据按行排列、同一时间的不同指标数据按列排列,并将上述按行列排列的数据组成数据矩阵。
正规化处理子单元2012,用于通过公式对所述数据矩阵组成子单元2011组成的数据矩阵进行正规化处理。
在本发明实施例中,在组成数据矩阵之后,通过公式对该数据矩阵进行正规化处理,通过正规化处理,可以保留矩阵的相对大小及趋势,并去除数据绝对大小的影响,其中,MVmin为MV的最小值,MVmax为MV的最大值,计算后SVi的范围为[-1,1]。
代表元获取单元202,用于通过特征聚类算法对所述预处理单元201处理的待处理特征数据进行分类,并获取各类的代表元。
在本发明实施例中,通过特征聚类算法对经过预处理的待处理特征数据进行分类,其中,通过PCC(Pearson production-moment Correlation Coefficient,简称:皮尔森相关系数):
计算特征之间的相关行,进而进行分类。所述代表元获取单元202,包括:
PPC计算子单元2021,用于计算所述特征之间的PCC。
在本发明实施例中,计算所得的P(x,y),即x特征与y特征之间的PCC的范围为[-1,1],P(x,y)值越大,则X与Y的关联性越强。
聚类子单元2022,用于根据所述PPC计算子单元2021计算的PCC衡量特征之间的关联性,并根据所述关联性进行聚类。
在本发明实施例中,开始计算时,特征类别表为空。每次选取两个特征X和Y,计算PCC(x,y),如果0﹤PCC(x,y)﹤1,那么就考虑将X和Y合并为一个类,合并过程中需要考虑以下四种情况:
a、X在类别表中,Y不在类别表中,则将Y加入到X的类别表中;
b、Y在类别表中,X不在类别表中,则将X加入到Y的类别表中;
c、X和Y均在类别表中,将X和Y代表的所属类别合并;
d、X和Y均不在类别表中,将X和Y放入类别表中的新类别。
代表元获取子单元2023,用于从所述聚类子单元2022计算的各类别中选择一个特征作为所述类别的代表元。
在本发明实施例中,经过特征聚类算法后,类别表中记录了那些类别属于同一类别,在同一类别的特征中任意选取一个作为该类别的代表元。对于不在类别表中的特征以其本身作为自己的代表元。
负载选择单元203,用于根据互信息值和所述代表元获取单元202获取的代表元,选择高准确度的特征对应的负载。
在本发明实施例中,通过互信息值和代表元,根据特征选择算法选择高准确度的特征对应的负载。所述负载选择单元203,包括:
互信息值计算子单元2031,用于根据公式
计算所述代表元的互信息值。
在本发明实施例中,为了获取每一个特征对于结果的影响程度,通过互信息值来衡量该影响程度,其中互信息值根据以下公式计算:
其中,p(x)和p(y)为边缘概率,p(x,y)为x与y的联合概率。
排序子单元2032,用于根据所述互信息值计算子单元2031计算的互信息值对所述代表元进行排序。
负载选择子单元2033,用于根据所述排序子单元2032计算的排序选择高准确度的特征对应的负载。
在本发明实施例中,根据排序每次向特征集合中添加一个特征,用三分之二的数据进行SVM训练,其余三分之一作为检测准确度。计算完所有特征集的准确度后,将准确度最高的特征集输出,作为特征选择的结果。
本发明实施例,对待处理特征数据进行预处理,通过特征聚类算法对待处理特征数据进行分类,获取各类的代表元,根据互信息值和代表元,选择高准确度的特征对应的负载,提供了一种高效率的负载选择系统,提高了负载选择的效率。
本领域普通技术人员可以理解为上述实施例二所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
本领域普通技术人员还可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以在存储于一计算机可读取存储介质中,所述的存储介质,包括ROM/RAM、磁盘、光盘等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种根据特征选择负载的方法,其特征在于,所述方法包括以下步骤:
对待处理特征数据进行预处理;
通过特征聚类算法对所述待处理特征数据进行分类,并获取各类的代表元;具体为:
计算所述特征之间的皮尔森相关系数PCC;
根据所述PCC衡量特征之间的关联性,并根据所述关联性进行聚类;
从各类别中选择一个特征作为所述类别的代表元;
根据互信息值和所述代表元,选择高准确度的特征对应的负载;
所述根据互信息值和所述代表元,选择高准确度的特征对应的负载的步骤,包括:
根据公式计算所述代表元的互信息值,其中,p(x)和p(y)为边缘概率,p(x,y)为x与y的联合概率;
根据所述互信息值对所述代表元进行排序;
根据所述排序选择高准确度的特征对应的负载。
2.如权利要求1所述的方法,其特征在于,所述对待处理特征数据进行预处理的步骤,包括:
通过粒度选择将所述待处理特征数据组成数据矩阵;
通过公式对所述数据矩阵进行正规化处理,其中,MVmin为MV的最小值,MVmax为MV的最大值。
3.一种根据特征选择负载的系统,其特征在于,所述系统包括:
预处理单元,用于对待处理特征数据进行预处理;
代表元获取单元,用于通过特征聚类算法对所述预处理单元处理的待处理特征数据进行分类,并获取各类的代表元;所述代表元获取单元,包括:
PPC计算子单元,用于计算所述特征之间的PCC;
聚类子单元,用于根据所述PPC计算子单元计算的PCC衡量特征之间的关联性,并根据所述关联性进行聚类;
代表元获取子单元,用于从所述聚类子单元计算的各类别中选择一个特征作为所述类别的代表元;
负载选择单元,用于根据互信息值和所述代表元获取单元获取的代表元,选择高准确度的特征对应的负载;
所述负载选择单元,包括:
互信息值计算子单元,用于根据公式计算所述代表元的互信息值,其中,p(x)和p(y)为边缘概率,p(x,y)为x与y的联合概率;
排序子单元,用于根据所述互信息值计算子单元计算的互信息值对所述代表元进行排序;
负载选择子单元,用于根据所述排序子单元计算的排序选择高准确度的特征对应的负载。
4.如权利要求3所述的系统,其特征在于,所述预处理单元,包括:
数据矩阵组成子单元,用于通过粒度选择将所述待处理特征数据组成数据矩阵;
正规化处理子单元,用于通过公式对所述数据矩阵组成子单元组成的数据矩阵进行正规化处理,其中,MVmin为MV的最小值,MVmax为MV的最大值。
CN201510147870.6A 2015-03-31 2015-03-31 一种根据特征选择负载的方法和系统 Active CN104765804B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510147870.6A CN104765804B (zh) 2015-03-31 2015-03-31 一种根据特征选择负载的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510147870.6A CN104765804B (zh) 2015-03-31 2015-03-31 一种根据特征选择负载的方法和系统

Publications (2)

Publication Number Publication Date
CN104765804A CN104765804A (zh) 2015-07-08
CN104765804B true CN104765804B (zh) 2019-07-30

Family

ID=53647634

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510147870.6A Active CN104765804B (zh) 2015-03-31 2015-03-31 一种根据特征选择负载的方法和系统

Country Status (1)

Country Link
CN (1) CN104765804B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105630573B (zh) * 2015-10-20 2018-12-07 浙江大学 一种非侵入式的虚拟机集群发现方法
CN107241440B (zh) * 2017-07-28 2020-12-22 曙光信息产业(北京)有限公司 一种确定集群的节能策略的方法
CN110119300A (zh) * 2018-02-06 2019-08-13 北京京东尚科信息技术有限公司 虚拟单元集群的负载均衡方法和装置
CN113075994B (zh) * 2021-04-26 2023-05-30 华南理工大学 面向x86和arm混合云计算的节能调度系统、方法和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279392A (zh) * 2013-06-14 2013-09-04 浙江大学 一种云计算环境下虚拟机上运行的负载分类方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279392A (zh) * 2013-06-14 2013-09-04 浙江大学 一种云计算环境下虚拟机上运行的负载分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
wordload classification model for specializing virtual machine oprating system;尹建伟等;《2013 IEEE sixth international conference oncloud computing》;20131231;全文
基于互信息最大化和特征聚类的特征选择;张成彬等;《现代计算机》;20090830;正文第31页-第33页
基于类信息的文本聚类中特征选择算法;严莉莉等;《计算机工程与应用》;20070421;全文

Also Published As

Publication number Publication date
CN104765804A (zh) 2015-07-08

Similar Documents

Publication Publication Date Title
CN104765804B (zh) 一种根据特征选择负载的方法和系统
Gu et al. Correlated multi-label feature selection
CN105825081B (zh) 一种基因表达数据分类方法及分类系统
CN102346829A (zh) 基于集成分类的病毒检测方法
Wang et al. Multi-feature metric learning with knowledge transfer among semantics and social tagging
CN111062425B (zh) 基于c-k-smote算法的不平衡数据集处理方法
US11403550B2 (en) Classifier
CN105183813A (zh) 基于互信息的用于文档分类的并行特征选择方法
CN104484600B (zh) 一种基于改进密度聚类的入侵检测方法及装置
CN110007959A (zh) 用于深度神经网络的硬件实现的层次化尾数位长度选择
Chandak et al. An analysis of “A feature reduced intrusion detection system using ANN classifier” by Akashdeep et al. expert systems with applications (2017)
Melendez-Melendez et al. An improved algorithm for partial clustering
CN108364030B (zh) 一种基于三层动态粒子群算法的多分类器模型构建方法
CN105279520B (zh) 基于分类能力结构向量互补的最优特征子集选取方法
CN111723206B (zh) 文本分类方法、装置、计算机设备和存储介质
CN103324959B (zh) 播种质量检测方法和装置
CN108763283A (zh) 一种不平衡数据集过采样方法
CN106844743B (zh) 维吾尔语文本的情感分类方法及装置
Qi et al. An improved image segmentation algorithm based on the maximum class variance method
Yu et al. Copula Gaussian graphical models with hidden variables
CN107562948A (zh) 一种基于距离的无参数多维数据聚类方法
CN116453209A (zh) 模型训练方法、行为分类方法、电子设备及存储介质
CN108021935B (zh) 一种基于大数据技术的维度约简方法及装置
CN102254040A (zh) 一种基于支撑向量机的Web划分方法
CN109325511A (zh) 一种改进特征选择的算法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant