CN104765804B

CN104765804B - 一种根据特征选择负载的方法和系统

Info

Publication number: CN104765804B
Application number: CN201510147870.6A
Authority: CN
Inventors: 尹建伟; 林鹏翔; 赵新奎; 李莹; 邓水光; 吴健; 吴朝晖
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2015-03-31
Filing date: 2015-03-31
Publication date: 2019-07-30
Anticipated expiration: 2035-03-31
Also published as: CN104765804A

Abstract

本发明适用于算法领域，提供了一种根据特征选择负载的方法和系统，所述方法包括：对待处理特征数据进行预处理；通过特征聚类算法对所述待处理特征数据进行分类，并获取各类的代表元；根据互信息值和所述代表元，选择高准确度的特征对应的负载。本发明实施例，对待处理特征数据进行预处理，通过特征聚类算法对待处理特征数据进行分类，获取各类的代表元，根据互信息值和代表元，选择高准确度的特征对应的负载，提供了一种高效率的负载选择方法和系统，提高了负载选择的效率。

Description

一种根据特征选择负载的方法和系统

【技术领域】

本发明属于算法领域，尤其涉及一种根据特征选择负载的方法和系统。

【背景技术】

无论是传统的物理机或者云计算中的虚拟集群，对于系统的优化都非常重要。为了适应不同的应用要求，对系统的优化会采取不同的优化方法。在这种情况下，首先需要对物理机或者虚拟机进行负载分类，根据其属于CPU密集型，内存密集型，IO密集型和网络密集型等分别采取不同的优化方法，以提高效率。

负载分类方法是系统优化的前提，其效率的好坏直接影响着系统优化的效率。在负载分类过程中，准确度与效率是一个相互制约的因素，通常提高准确度的同时意味着效率的下降。

在负载分类过程中，一般情况下，增加特征的维度可以提高分类的准确度，但会降低分类的效率。但盲目地增加特征的维度并不能提高准确度，因为有相关关系的特征维度会相互影响并降低分类准确率。所以在特征选择中，需要选择与分类相关度高的特征，避免特征的盲目增加。

【发明内容】

鉴于此，本发明提供一种根据特征选择负载的方法和系统，以解决现有技术的负载选择效率低的技术问题。

本发明实施例是这样实现的，一种根据特征选择负载的方法，所述方法包括以下步骤：

对待处理特征数据进行预处理；

通过特征聚类算法对所述待处理特征数据进行分类，并获取各类的代表元；具体为：

计算所述特征之间的皮尔森相关系数PCC；

根据所述PCC衡量特征之间的关联性，并根据所述关联性进行聚类；

从各类别中选择一个特征作为所述类别的代表元；

根据互信息值和所述代表元，选择高准确度的特征对应的负载；

所述根据互信息值和所述代表元，选择高准确度的特征对应的负载的步骤，包括：

根据公式计算所述代表元的互信息值，其中，p(x)和p(y)为边缘概率，p(x，y)为x与y的联合概率；

根据所述互信息值对所述代表元进行排序；

根据所述排序选择高准确度的特征对应的负载。

作为优选，所述对待处理特征数据进行预处理的步骤，包括：

通过粒度选择将所述待处理特征数据组成数据矩阵；

通过公式对所述数据矩阵进行正规化处理，其中，

MVmin为MV的最小值，MVmax为MV的最大值。

本发明还提供了一种根据特征选择负载的系统，其特征在于，所述系统包括：

预处理单元，用于对待处理特征数据进行预处理；

代表元获取单元，用于通过特征聚类算法对所述预处理单元处理的待处理特征数据进行分类，并获取各类的代表元；所述代表元获取单元，包括：

PPC计算子单元，用于计算所述特征之间的PCC；

聚类子单元，用于根据所述PPC计算子单元计算的PCC衡量特征之间的关联性，并根据所述关联性进行聚类；

代表元获取子单元，用于从所述聚类子单元计算的各类别中选择一个特征作为所述类别的代表元；

负载选择单元，用于根据互信息值和所述代表元获取单元获取的代表元，选择高准确度的特征对应的负载；

所述负载选择单元，包括：

互信息值计算子单元，用于根据公式计算所述代表元的互信息值，其中，p(x)和p(y)为边缘概率，p(x，y)为x与y的联合概率；

排序子单元，用于根据所述互信息值计算子单元计算的互信息值对所述代表元进行排序；

负载选择子单元，用于根据所述排序子单元计算的排序选择高准确度的特征对应的负载。

作为优选，所述预处理单元，包括：

数据矩阵组成子单元，用于通过粒度选择将所述待处理特征数据组成数据矩阵；

正规化处理子单元，用于通过公式对所述数据矩阵组成子单元组成的数据矩阵进行正规化处理，其中，MVmin为MV的最小值，MVmax为MV的最大值。

本发明实施例，对待处理特征数据进行预处理，通过特征聚类算法对待处理特征数据进行分类，获取各类的代表元，根据互信息值和代表元，选择高准确度的特征对应的负载，提供了一种高效率的负载选择方法和系统，提高了负载选择的效率。

【附图说明】

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供根据特征选择负载方法的流程图；

图2是本发明实施例提供的根据特征选择负载系统的结构图。

【具体实施方式】

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一

如图1所示为本发明实施例提供根据特征选择负载方法的流程图，所述方法包括以下步骤：

步骤S101，对待处理特征数据进行预处理。

在本发明实施例中，对待处理的特征数据进行预处理，通过该预处理，可以获取该特征数据的有效数据，该特征数据为负载在运行时表现出的特征，该特征包括但不限于：CPU密集型、内存密集型、IO密集型和网络密集型。所述对待处理特征数据进行预处理的步骤，包括：

1、通过粒度选择将所述待处理特征数据组成数据矩阵。

在本发明实施例中，对待处理特征数据进行粒度选择，即：取一段时间内的特征数据，将不同时间的数据按行排列、同一时间的不同指标数据按列排列，并将上述按行列排列的数据组成数据矩阵。

通过公式对所述数据矩阵进行正规化处理。

在本发明实施例中，在组成数据矩阵之后，通过公式对该数据矩阵进行正规化处理，通过正规化处理，可以保留矩阵的相对大小及趋势，并去除数据绝对大小的影响，其中，MVmin为MV的最小值，MVmax为MV的最大值，计算后SVi的范围为[-1,1]。

步骤S102，通过特征聚类算法对所述待处理特征数据进行分类，并获取各类的代表元。

在本发明实施例中，通过特征聚类算法对经过预处理的待处理特征数据进行分类，其中，通过PCC(Pearson production-moment Correlation Coefficient，简称：皮尔森相关系数)：计算特征之间的相关性，进而进行分类。所述通过特征聚类算法对所述待处理特征数据进行分类，并获取各类的代表元的步骤，具体为：

1、计算所述特征之间的PCC。

在本发明实施例中，计算所得的P(x，y)，即x特征与y特征之间的PCC的范围为[-1,1]，P(x，y)值越大，则X与Y的关联性越强。

2、根据所述PCC衡量特征之间的关联性，并根据所述关联性进行聚类。

在本发明实施例中，开始计算时，特征类别表为空。每次选取两个特征X和Y，计算PCC(x，y)，如果0PCC(x，y)1，那么就考虑将X和Y合并为一个类，合并过程中需要考虑以下四种情况：

a、X在类别表中，Y不在类别表中，则将Y加入到X的类别表中；

b、Y在类别表中，X不在类别表中，则将X加入到Y的类别表中；

c、X和Y均在类别表中，将X和Y代表的所属类别合并；

d、X和Y均不在类别表中，将X和Y放入类别表中的新类别。

3、从各类别中选择一个特征作为所述类别的代表元。

在本发明实施例中，经过特征聚类算法后，类别表中记录了那些类别属于同一类别，在同一类别的特征中任意选取一个作为该类别的代表元。对于不在类别表中的特征以其本身作为自己的代表元。

步骤S103，根据互信息值和所述代表元，选择高准确度的特征对应的负载。

在本发明实施例中，通过互信息值和代表元，根据特征选择算法选择高准确度的特征对应的负载。所述根据互信息值和所述代表元，选择高准确度的特征对应的负载的步骤，包括：

1、根据公式计算所述代表元的互信息值。

在本发明实施例中，为了获取每一个特征对于结果的影响程度，通过互信息值来衡量该影响程度，其中互信息值根据以下公式计算：

其中，p(x)和p(y)为边缘概率，p(x，y)为x与y的联合概率。

2、根据所述互信息值对所述代表元进行排序。

3、根据所述排序选择高准确度的特征对应的负载。

在本发明实施例中，根据排序每次向特征集合中添加一个特征，用三分之二的数据进行SVM训练，其余三分之一作为检测准确度。计算完所有特征集的准确度后，将准确度最高的特征集输出，作为特征选择的结果。

本发明实施例，对待处理特征数据进行预处理，通过特征聚类算法对待处理特征数据进行分类，获取各类的代表元，根据互信息值和代表元，选择高准确度的特征对应的负载，提供了一种高效率的负载选择方法，提高了负载选择的效率。

实施例二

如图2所示为本发明实施例提供的根据特征选择负载系统的结构图，为了便于说明，仅示出与本发明实施例相关的部分，包括：

预处理单元201，用于对待处理特征数据进行预处理。

在本发明实施例中，对待处理的特征数据进行预处理，通过该预处理，可以获取该特征数据的有效数据，该特征数据为负载在运行时表现出的特征，该特征包括但不限于：CPU密集型、内存密集型、IO密集型和网络密集型。所述预处理单元201包括：

数据矩阵组成子单元2011，用于通过粒度选择将所述待处理特征数据组成数据矩阵。

正规化处理子单元2012，用于通过公式对所述数据矩阵组成子单元2011组成的数据矩阵进行正规化处理。

代表元获取单元202，用于通过特征聚类算法对所述预处理单元201处理的待处理特征数据进行分类，并获取各类的代表元。

在本发明实施例中，通过特征聚类算法对经过预处理的待处理特征数据进行分类，其中，通过PCC(Pearson production-moment Correlation Coefficient，简称：皮尔森相关系数)：

计算特征之间的相关行，进而进行分类。所述代表元获取单元202，包括：

PPC计算子单元2021，用于计算所述特征之间的PCC。

聚类子单元2022，用于根据所述PPC计算子单元2021计算的PCC衡量特征之间的关联性，并根据所述关联性进行聚类。

在本发明实施例中，开始计算时，特征类别表为空。每次选取两个特征X和Y，计算PCC(x，y)，如果0﹤PCC(x，y)﹤1，那么就考虑将X和Y合并为一个类，合并过程中需要考虑以下四种情况：

c、X和Y均在类别表中，将X和Y代表的所属类别合并；

d、X和Y均不在类别表中，将X和Y放入类别表中的新类别。

代表元获取子单元2023，用于从所述聚类子单元2022计算的各类别中选择一个特征作为所述类别的代表元。

负载选择单元203，用于根据互信息值和所述代表元获取单元202获取的代表元，选择高准确度的特征对应的负载。

在本发明实施例中，通过互信息值和代表元，根据特征选择算法选择高准确度的特征对应的负载。所述负载选择单元203，包括：

互信息值计算子单元2031，用于根据公式

计算所述代表元的互信息值。

其中，p(x)和p(y)为边缘概率，p(x，y)为x与y的联合概率。

排序子单元2032，用于根据所述互信息值计算子单元2031计算的互信息值对所述代表元进行排序。

负载选择子单元2033，用于根据所述排序子单元2032计算的排序选择高准确度的特征对应的负载。

本发明实施例，对待处理特征数据进行预处理，通过特征聚类算法对待处理特征数据进行分类，获取各类的代表元，根据互信息值和代表元，选择高准确度的特征对应的负载，提供了一种高效率的负载选择系统，提高了负载选择的效率。

本领域普通技术人员可以理解为上述实施例二所包括的各个单元只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

本领域普通技术人员还可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以在存储于一计算机可读取存储介质中，所述的存储介质，包括ROM/RAM、磁盘、光盘等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种根据特征选择负载的方法，其特征在于，所述方法包括以下步骤：

对待处理特征数据进行预处理；

计算所述特征之间的皮尔森相关系数PCC；

从各类别中选择一个特征作为所述类别的代表元；

根据所述互信息值对所述代表元进行排序；

根据所述排序选择高准确度的特征对应的负载。

2.如权利要求1所述的方法，其特征在于，所述对待处理特征数据进行预处理的步骤，包括：

通过粒度选择将所述待处理特征数据组成数据矩阵；

通过公式对所述数据矩阵进行正规化处理，其中，MVmin为MV的最小值，MVmax为MV的最大值。

3.一种根据特征选择负载的系统，其特征在于，所述系统包括：

预处理单元，用于对待处理特征数据进行预处理；

PPC计算子单元，用于计算所述特征之间的PCC；

所述负载选择单元，包括：

4.如权利要求3所述的系统，其特征在于，所述预处理单元，包括：