CN113298111A - 一种处理高维数据的特征选择方法 - Google Patents

一种处理高维数据的特征选择方法 Download PDF

Info

Publication number
CN113298111A
CN113298111A CN202110319562.2A CN202110319562A CN113298111A CN 113298111 A CN113298111 A CN 113298111A CN 202110319562 A CN202110319562 A CN 202110319562A CN 113298111 A CN113298111 A CN 113298111A
Authority
CN
China
Prior art keywords
samples
sample
class
dimensional data
feature selection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110319562.2A
Other languages
English (en)
Inventor
窦军
魏国亮
宋燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN202110319562.2A priority Critical patent/CN113298111A/zh
Publication of CN113298111A publication Critical patent/CN113298111A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种处理高维数据的特征选择方法,包括以下步骤:S1、从包含多个类别的数据集中随机选择一个样本;S2、选择与步骤S1中所选样本距离最近的k个同类样本;S3、分别从不同类别中选择k个与S1中样本距离最近的样本;S4、计算步骤S1中的样本到步骤S2中同类样本之间的欧式距离以及步骤S1中的样本到步骤S3中同类样本之间的欧式距离;S5、计算每个类别的聚类中心的值;S6、计算将步骤S1中的所有样本与其他类别的聚类中心的欧式距离之和;S7、通过迭代m个样本,重复上述步骤。根据本发明,解决高维数据特征选择的问题,增强了每个样本与不同类别之间的关系,使得每个特征的权重计算变得更加合理。

Description

一种处理高维数据的特征选择方法
技术领域
本发明涉及数据处理的技术领域,特别涉及一种处理高维数据的特征选择方法。
背景技术
在大数据时代,大量的样本和特征数会极大地增加计算量,此外,在高维空间中分析数据时不仅会带来维数灾难和增加学习难度,甚至还会降低分类精度以及降低数据的可解释性。
当高维空间中存在大量冗余和不相关的特征时,数据便会变得稀疏,从而需要大量的样本来训练模型,而这又大大增加了数据处理的难度。例如,当我们想研究一个胰腺癌患者术后五年生存率的预测时,诸如肤色、身高、宗教信仰等不相关特征不仅会增加学习难度,甚至还会降低预测精度。
相似的实现方案:
1)随机选择一个样本,记作Ri
2)选择距样本Ri最近的k个同类样本,记作Hj
3)在每个与样本Ri不同的类别中分别选择与样本Ri最近的k个样本,记作Mj(C),其中C表示与Ri不同的类;
4)利用下列公式求得每个特征的权重大小:
Figure RE-GDA0003160287480000011
其中A表示特征,m表示迭代次数,k表示最近邻个数,P(C)表示除Ri所在类以外每个类别样本数占总样本的比例,1-P(class(Ri))表示除Ri所在类以外其他类样本总数占总样本数的比例。对于上述算法,我们可以发现一些明显的缺陷,例如上述算法不能很好的解释样本与每个类别的关系,这不利于每个特征权重的合理计算;此外,上述算法仅计算了每个特征的权重大小,没有阐明如何合理的利用这些权重来选择特征子集。
发明内容
针对现有技术中存在的不足之处,本发明的目的是提供一种处理高维数据的特征选择方法,解决高维数据特征选择的问题,增强了每个样本与不同类别之间的关系,使得每个特征的权重计算变得更加合理。为了实现根据本发明的上述目的和其他优点,提供了一种处理高维数据的特征选择方法,包括以下步骤:
S1、从包含多个类别的数据集中随机选择一个样本;
S2、选择与步骤S1中所选样本距离最近的k个同类样本;
S3、分别从不同类别中选择k个与S1中样本距离最近的样本;
S4、计算步骤S1中的样本到步骤S2中同类样本之间的欧式距离以及步骤S1中的样本到步骤S3中同类样本之间的欧式距离;
S5、计算每个类别的聚类中心的值;
S6、计算将步骤S1中的所有样本与其他类别的聚类中心的欧式距离之和;
S7、通过迭代m个样本,重复上述步骤。
优选的,所述步骤S1中从数据集中随机选择一个样本,记作Ri,所述步骤S2中在Ri的同类别样本中利用欧式距离选择距样本Ri最近的k个同类样本,记作Hj
优选的,所述步骤S3利用欧式距离分别计算样本Ri到不同的类别最近的k个样本,记作Mj(C),其中C表示与Ri不同的类。
优选的,所述步骤S4中计算每个类别的聚类中心,将每个类的所有样本的各个特征值的平均值作为聚类中心的值。
优选的,所述步骤S5计算Ri所在的类里的所有样本分别与其他类别的聚类中心的欧氏距离,再分别将这些距离进行累加,记作Dc
优选的,所述步骤S6中并利用下列公式求得每个特征的权重大小:
Figure RE-GDA0003160287480000031
其中fi表示特征,m表示迭代次数,k表示最近邻个数,P(C)表示除Ri所在类以外每个类别样本数占总样本的比例,1-P(class(Ri))表示除Ri所在类以外其他类样本总数占总样本数的比例,Dc表示Ri所在的类里的所有样本与其他类别的聚类中心的欧氏距离的总和。
本发明与现有技术相比,其有益效果是:适用于多类别数据的特征选择;
突出了不同类别的聚类中心与每个样本关系,改进后的技术可以充分表达每个样本与各类别的关系以及特征子集的合理选取。
附图说明
图1为根据本发明的处理高维数据的特征选择方法的样本与各聚类中心的距离计算图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1,一种处理高维数据的特征选择方法,包括以下步骤:
S1、从包含多个类别的数据集中随机选择一个样本;
S2、选择与步骤S1中所选样本距离最近的k个同类样本;
S3、分别从不同类别中选择k个与S1中样本距离最近的样本;
S4、计算步骤S1中的样本到步骤S2中同类样本之间的欧式距离以及步骤S1中的样本到步骤S3中同类样本之间的欧式距离;
S5、计算每个类别的聚类中心的值;
S6、计算步骤S1中的所有样本与其他类别的聚类中心的欧式距离之和;
S7、通过迭代m个样本,重复上述步骤。
进一步的,所述步骤S1中从数据集中随机选择一个样本,记作Ri,所述步骤S2中在Ri的同类别样本中利用欧式距离选择距样本Ri最近的k个同类样本,记作Hj
进一步的,所述步骤S3利用欧式距离分别计算样本Ri到不同的类别最近的k个样本,记作Mj(C),其中C表示与Ri不同的类。
进一步的,所述步骤S4中计算每个类别的聚类中心,将每个类的所有样本的各个特征值的平均值作为聚类中心的值。
进一步的,所述步骤S5计算Ri所在的类里的所有样本分别与其他类别的聚类中心的欧氏距离,再分别将这些距离进行累加,记作Dc
进一步的,所述步骤S6中并利用下列公式求得每个特征的权重大小:
Figure RE-GDA0003160287480000051
其中fi表示特征,m表示迭代次数,k表示最近邻个数,P(C)表示除Ri所在类以外每个类别样本数占总样本的比例,1-P(class(Ri))表示除Ri所在类以外其他类样本总数占总样本数的比例,Dc表示Ri所在的类里的所有样本与其他类别的聚类中心的欧氏距离的总和。
为了在满足特征需求的同时减少冗余数据的影响,我们采用以下阈值进行特征选择:
Figure RE-GDA0003160287480000052
其中n为fi的特征属性总数,t为特征选择要求的阈值,n*为需要选择的特征的最小数目。在本文中,如果某个特征的权重值小于0,我们认为该特征是冗余的,直接删除。也就是说,每个被选中的特征的权重都大于0。
表1改进后算法分类精度比较
Figure RE-GDA0003160287480000061
目前,该方法已在一个法律数据集和七个UCI公共数据集上进行了实验,其分类精度与原技术相比有着明显的提升。表1展示了算法改进前后分类精度的对比,其中数据集在特征选择前进行了过采样以达到平衡。
该方法的Dc表示Ri所在的类里的所有样本与其他类别的聚类中心的欧氏距离的总和。若将Dc表示成Ri所在的类的聚类中心与其他类别的聚类中心的欧氏距离,或将Dc表示成Ri所在的类里的所有样本与其他类别的所有样本的欧氏距离的总和意义一样,区别仅在于计算量的不同。
这里说明的设备数量和处理规模是用来简化本发明的说明的,对本发明的应用、修改和变化对本领域的技术人员来说是显而易见的。
尽管本发明的实施方案已公开如上,但其并不仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

Claims (6)

1.一种处理高维数据的特征选择方法,其特征在于,包括以下步骤:
S1、从包含多个类别的数据集中随机选择一个样本;
S2、选择与步骤S1中所选样本距离最近的k个同类样本;
S3、分别从不同类别中选择k个与S1中样本距离最近的样本;
S4、计算步骤S1中的样本到步骤S2中同类样本之间的欧式距离以及步骤S1中的样本到步骤S3中同类样本之间的欧式距离;
S5、计算每个类别的聚类中心的值;
S6、计算将步骤S1中的所有样本与其他类别的聚类中心的欧式距离之和;
S7、通过迭代m个样本,重复上述步骤。
2.如权利要求1所述的一种处理高维数据的特征选择方法,其特征在于,所述步骤S1中从数据集中随机选择一个样本,记作Ri,所述步骤S2中在Ri的同类别样本中利用欧式距离选择距样本Ri最近的k个同类样本,记作Hj
3.如权利要求1所述的一种处理高维数据的特征选择方法,其特征在于,所述步骤S3利用欧式距离分别计算样本Ri到不同的类别最近的k个样本,记作Mj(C),其中C表示与Ri不同的类。
4.如权利要求1所述的一种处理高维数据的特征选择方法,其特征在于,所述步骤S5中计算每个类别的聚类中心,将每个类的所有样本的各个特征值的平均值作为聚类中心的值。
5.如权利要求1所述的一种处理高维数据的特征选择方法,其特征在于,所述步骤S6计算Ri所在的类里的所有样本分别与其他类别的聚类中心的欧氏距离,再分别将这些距离进行累加,记作Dc
6.如权利要求1所述的一种处理高维数据的特征选择方法,其特征在于,所述步骤S6中并利用下列公式求得每个特征的权重大小:
Figure RE-FDA0003160287470000021
其中fi表示特征,m表示迭代次数,k表示最近邻个数,P(C)表示除Ri所在类以外每个类别样本数占总样本的比例,1-P(class(Ri))表示除Ri所在类以外其他类样本总数占总样本数的比例,Dc表示Ri所在的类里的所有样本与其他类别的聚类中心的欧氏距离的总和。
CN202110319562.2A 2021-03-25 2021-03-25 一种处理高维数据的特征选择方法 Pending CN113298111A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110319562.2A CN113298111A (zh) 2021-03-25 2021-03-25 一种处理高维数据的特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110319562.2A CN113298111A (zh) 2021-03-25 2021-03-25 一种处理高维数据的特征选择方法

Publications (1)

Publication Number Publication Date
CN113298111A true CN113298111A (zh) 2021-08-24

Family

ID=77319185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110319562.2A Pending CN113298111A (zh) 2021-03-25 2021-03-25 一种处理高维数据的特征选择方法

Country Status (1)

Country Link
CN (1) CN113298111A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113837276A (zh) * 2021-09-24 2021-12-24 中国电子科技集团公司信息科学研究院 一种基于电磁和红外的特征选择方法及目标识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113837276A (zh) * 2021-09-24 2021-12-24 中国电子科技集团公司信息科学研究院 一种基于电磁和红外的特征选择方法及目标识别方法

Similar Documents

Publication Publication Date Title
CN110674865B (zh) 面向软件缺陷类分布不平衡的规则学习分类器集成方法
CN107070867B (zh) 基于多层局部敏感哈希表的网络流量异常快速检测方法
Jiang et al. A hybrid feature selection algorithm: Combination of symmetrical uncertainty and genetic algorithms
Lamba et al. Feature Selection of Micro-array expression data (FSM)-A Review
CN111611293B (zh) 一种基于特征加权与MapReduce的离群数据挖掘方法
CN112950445A (zh) 图像隐写分析中基于补偿的检测特征选择方法
CN113298111A (zh) 一种处理高维数据的特征选择方法
CN115617867A (zh) 时间序列的预测方法、电子设备和存储介质
CN114186518A (zh) 一种集成电路良率估算方法及存储器
CN117407732A (zh) 一种基于对抗神经网络的非常规储层气井产量预测方法
CN113657594A (zh) 一种软滤波器剪枝的方法、装置以及系统
CN116861964A (zh) 一种基于双判别器生成式对抗网络的异常数据检测方法
Bhuyan et al. Sub-feature selection based classification
CN115545111A (zh) 一种基于聚类自适应混合采样的网络入侵检测方法及系统
CN113392908A (zh) 基于边界密度的不平衡数据过采样算法
CN112906751A (zh) 一种非监督学习识别异常值的方法
CN112308151A (zh) 基于加权的旋转森林高光谱图像分类方法
CN111488903A (zh) 基于特征权重的决策树特征选择方法
CN115017125B (zh) 改进knn方法的数据处理方法和装置
CN117611931B (zh) 一种基于深度自表示局部块学习的数据分类方法及系统
CN112580606B (zh) 基于聚类分组的大规模人体行为识别方法
Okamoto et al. Evolutionary Acquisition of CNN Architecture by Thermodynamical Genetic Algorithm
CN115409130B (zh) 一种更新分类标签的优化方法及系统
Kong et al. Research on Classification Label Denoising Algorithm Based on Granular Ball
Guo et al. A comparison between the wrapper and hybrid methods for feature selection on biology Omics datasets

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210824

RJ01 Rejection of invention patent application after publication