CN113298111A

CN113298111A - 一种处理高维数据的特征选择方法

Info

Publication number: CN113298111A
Application number: CN202110319562.2A
Authority: CN
Inventors: 窦军; 魏国亮; 宋燕
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2021-03-25
Filing date: 2021-03-25
Publication date: 2021-08-24

Abstract

本发明公开了一种处理高维数据的特征选择方法，包括以下步骤：S1、从包含多个类别的数据集中随机选择一个样本；S2、选择与步骤S1中所选样本距离最近的k个同类样本；S3、分别从不同类别中选择k个与S1中样本距离最近的样本；S4、计算步骤S1中的样本到步骤S2中同类样本之间的欧式距离以及步骤S1中的样本到步骤S3中同类样本之间的欧式距离；S5、计算每个类别的聚类中心的值；S6、计算将步骤S1中的所有样本与其他类别的聚类中心的欧式距离之和；S7、通过迭代m个样本，重复上述步骤。根据本发明，解决高维数据特征选择的问题，增强了每个样本与不同类别之间的关系，使得每个特征的权重计算变得更加合理。

Description

一种处理高维数据的特征选择方法

技术领域

本发明涉及数据处理的技术领域，特别涉及一种处理高维数据的特征选择方法。

背景技术

在大数据时代，大量的样本和特征数会极大地增加计算量，此外，在高维空间中分析数据时不仅会带来维数灾难和增加学习难度，甚至还会降低分类精度以及降低数据的可解释性。

当高维空间中存在大量冗余和不相关的特征时，数据便会变得稀疏，从而需要大量的样本来训练模型，而这又大大增加了数据处理的难度。例如，当我们想研究一个胰腺癌患者术后五年生存率的预测时，诸如肤色、身高、宗教信仰等不相关特征不仅会增加学习难度，甚至还会降低预测精度。

相似的实现方案：

1)随机选择一个样本，记作R_i；

2)选择距样本R_i最近的k个同类样本，记作H_j；

3)在每个与样本R_i不同的类别中分别选择与样本R_i最近的k个样本，记作M_j(C)，其中C表示与R_i不同的类；

4)利用下列公式求得每个特征的权重大小：

其中A表示特征，m表示迭代次数，k表示最近邻个数，P(C)表示除R_i所在类以外每个类别样本数占总样本的比例，1-P(class(R_i))表示除R_i所在类以外其他类样本总数占总样本数的比例。对于上述算法，我们可以发现一些明显的缺陷，例如上述算法不能很好的解释样本与每个类别的关系，这不利于每个特征权重的合理计算；此外，上述算法仅计算了每个特征的权重大小，没有阐明如何合理的利用这些权重来选择特征子集。

发明内容

针对现有技术中存在的不足之处，本发明的目的是提供一种处理高维数据的特征选择方法，解决高维数据特征选择的问题，增强了每个样本与不同类别之间的关系，使得每个特征的权重计算变得更加合理。为了实现根据本发明的上述目的和其他优点，提供了一种处理高维数据的特征选择方法，包括以下步骤：

S1、从包含多个类别的数据集中随机选择一个样本；

S2、选择与步骤S1中所选样本距离最近的k个同类样本；

S3、分别从不同类别中选择k个与S1中样本距离最近的样本；

S4、计算步骤S1中的样本到步骤S2中同类样本之间的欧式距离以及步骤S1中的样本到步骤S3中同类样本之间的欧式距离；

S5、计算每个类别的聚类中心的值；

S6、计算将步骤S1中的所有样本与其他类别的聚类中心的欧式距离之和；

S7、通过迭代m个样本，重复上述步骤。

优选的，所述步骤S1中从数据集中随机选择一个样本，记作R_i，所述步骤S2中在R_i的同类别样本中利用欧式距离选择距样本R_i最近的k个同类样本，记作H_j。

优选的，所述步骤S3利用欧式距离分别计算样本R_i到不同的类别最近的k个样本，记作M_j(C)，其中C表示与R_i不同的类。

优选的，所述步骤S4中计算每个类别的聚类中心，将每个类的所有样本的各个特征值的平均值作为聚类中心的值。

优选的，所述步骤S5计算R_i所在的类里的所有样本分别与其他类别的聚类中心的欧氏距离，再分别将这些距离进行累加，记作D_c。

优选的，所述步骤S6中并利用下列公式求得每个特征的权重大小：

其中f_i表示特征，m表示迭代次数，k表示最近邻个数，P(C)表示除R_i所在类以外每个类别样本数占总样本的比例，1-P(class(R_i))表示除R_i所在类以外其他类样本总数占总样本数的比例，D_c表示R_i所在的类里的所有样本与其他类别的聚类中心的欧氏距离的总和。

本发明与现有技术相比，其有益效果是：适用于多类别数据的特征选择；

突出了不同类别的聚类中心与每个样本关系，改进后的技术可以充分表达每个样本与各类别的关系以及特征子集的合理选取。

附图说明

图1为根据本发明的处理高维数据的特征选择方法的样本与各聚类中心的距离计算图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，一种处理高维数据的特征选择方法，包括以下步骤：

S1、从包含多个类别的数据集中随机选择一个样本；

S2、选择与步骤S1中所选样本距离最近的k个同类样本；

S3、分别从不同类别中选择k个与S1中样本距离最近的样本；

S5、计算每个类别的聚类中心的值；

S6、计算步骤S1中的所有样本与其他类别的聚类中心的欧式距离之和；

S7、通过迭代m个样本，重复上述步骤。

进一步的，所述步骤S1中从数据集中随机选择一个样本，记作R_i，所述步骤S2中在R_i的同类别样本中利用欧式距离选择距样本R_i最近的k个同类样本，记作H_j。

进一步的，所述步骤S3利用欧式距离分别计算样本R_i到不同的类别最近的k个样本，记作M_j(C)，其中C表示与R_i不同的类。

进一步的，所述步骤S4中计算每个类别的聚类中心，将每个类的所有样本的各个特征值的平均值作为聚类中心的值。

进一步的，所述步骤S5计算R_i所在的类里的所有样本分别与其他类别的聚类中心的欧氏距离，再分别将这些距离进行累加，记作D_c。

进一步的，所述步骤S6中并利用下列公式求得每个特征的权重大小：

为了在满足特征需求的同时减少冗余数据的影响，我们采用以下阈值进行特征选择：

其中n为f_i的特征属性总数，t为特征选择要求的阈值，n^*为需要选择的特征的最小数目。在本文中，如果某个特征的权重值小于0，我们认为该特征是冗余的，直接删除。也就是说，每个被选中的特征的权重都大于0。

表1改进后算法分类精度比较

目前，该方法已在一个法律数据集和七个UCI公共数据集上进行了实验，其分类精度与原技术相比有着明显的提升。表1展示了算法改进前后分类精度的对比，其中数据集在特征选择前进行了过采样以达到平衡。

该方法的D_c表示R_i所在的类里的所有样本与其他类别的聚类中心的欧氏距离的总和。若将D_c表示成R_i所在的类的聚类中心与其他类别的聚类中心的欧氏距离，或将D_c表示成R_i所在的类里的所有样本与其他类别的所有样本的欧氏距离的总和意义一样，区别仅在于计算量的不同。

这里说明的设备数量和处理规模是用来简化本发明的说明的，对本发明的应用、修改和变化对本领域的技术人员来说是显而易见的。

尽管本发明的实施方案已公开如上，但其并不仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.一种处理高维数据的特征选择方法，其特征在于，包括以下步骤：

S1、从包含多个类别的数据集中随机选择一个样本；

S2、选择与步骤S1中所选样本距离最近的k个同类样本；

S3、分别从不同类别中选择k个与S1中样本距离最近的样本；

S5、计算每个类别的聚类中心的值；

S7、通过迭代m个样本，重复上述步骤。

2.如权利要求1所述的一种处理高维数据的特征选择方法，其特征在于，所述步骤S1中从数据集中随机选择一个样本，记作R_i，所述步骤S2中在R_i的同类别样本中利用欧式距离选择距样本R_i最近的k个同类样本，记作H_j。

3.如权利要求1所述的一种处理高维数据的特征选择方法，其特征在于，所述步骤S3利用欧式距离分别计算样本R_i到不同的类别最近的k个样本，记作M_j(C)，其中C表示与R_i不同的类。

4.如权利要求1所述的一种处理高维数据的特征选择方法，其特征在于，所述步骤S5中计算每个类别的聚类中心，将每个类的所有样本的各个特征值的平均值作为聚类中心的值。

5.如权利要求1所述的一种处理高维数据的特征选择方法，其特征在于，所述步骤S6计算R_i所在的类里的所有样本分别与其他类别的聚类中心的欧氏距离，再分别将这些距离进行累加，记作D_c。

6.如权利要求1所述的一种处理高维数据的特征选择方法，其特征在于，所述步骤S6中并利用下列公式求得每个特征的权重大小：