CN113298111A - 一种处理高维数据的特征选择方法 - Google Patents
一种处理高维数据的特征选择方法 Download PDFInfo
- Publication number
- CN113298111A CN113298111A CN202110319562.2A CN202110319562A CN113298111A CN 113298111 A CN113298111 A CN 113298111A CN 202110319562 A CN202110319562 A CN 202110319562A CN 113298111 A CN113298111 A CN 113298111A
- Authority
- CN
- China
- Prior art keywords
- samples
- sample
- class
- dimensional data
- feature selection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010187 selection method Methods 0.000 title claims abstract description 12
- 238000000034 method Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 abstract description 6
- 230000007547 defect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 206010061902 Pancreatic neoplasm Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 208000015486 malignant pancreatic neoplasm Diseases 0.000 description 1
- 201000002528 pancreatic cancer Diseases 0.000 description 1
- 208000008443 pancreatic carcinoma Diseases 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种处理高维数据的特征选择方法,包括以下步骤:S1、从包含多个类别的数据集中随机选择一个样本;S2、选择与步骤S1中所选样本距离最近的k个同类样本;S3、分别从不同类别中选择k个与S1中样本距离最近的样本;S4、计算步骤S1中的样本到步骤S2中同类样本之间的欧式距离以及步骤S1中的样本到步骤S3中同类样本之间的欧式距离;S5、计算每个类别的聚类中心的值;S6、计算将步骤S1中的所有样本与其他类别的聚类中心的欧式距离之和;S7、通过迭代m个样本,重复上述步骤。根据本发明,解决高维数据特征选择的问题,增强了每个样本与不同类别之间的关系,使得每个特征的权重计算变得更加合理。
Description
技术领域
本发明涉及数据处理的技术领域,特别涉及一种处理高维数据的特征选择方法。
背景技术
在大数据时代,大量的样本和特征数会极大地增加计算量,此外,在高维空间中分析数据时不仅会带来维数灾难和增加学习难度,甚至还会降低分类精度以及降低数据的可解释性。
当高维空间中存在大量冗余和不相关的特征时,数据便会变得稀疏,从而需要大量的样本来训练模型,而这又大大增加了数据处理的难度。例如,当我们想研究一个胰腺癌患者术后五年生存率的预测时,诸如肤色、身高、宗教信仰等不相关特征不仅会增加学习难度,甚至还会降低预测精度。
相似的实现方案:
1)随机选择一个样本,记作Ri;
2)选择距样本Ri最近的k个同类样本,记作Hj;
3)在每个与样本Ri不同的类别中分别选择与样本Ri最近的k个样本,记作Mj(C),其中C表示与Ri不同的类;
4)利用下列公式求得每个特征的权重大小:
其中A表示特征,m表示迭代次数,k表示最近邻个数,P(C)表示除Ri所在类以外每个类别样本数占总样本的比例,1-P(class(Ri))表示除Ri所在类以外其他类样本总数占总样本数的比例。对于上述算法,我们可以发现一些明显的缺陷,例如上述算法不能很好的解释样本与每个类别的关系,这不利于每个特征权重的合理计算;此外,上述算法仅计算了每个特征的权重大小,没有阐明如何合理的利用这些权重来选择特征子集。
发明内容
针对现有技术中存在的不足之处,本发明的目的是提供一种处理高维数据的特征选择方法,解决高维数据特征选择的问题,增强了每个样本与不同类别之间的关系,使得每个特征的权重计算变得更加合理。为了实现根据本发明的上述目的和其他优点,提供了一种处理高维数据的特征选择方法,包括以下步骤:
S1、从包含多个类别的数据集中随机选择一个样本;
S2、选择与步骤S1中所选样本距离最近的k个同类样本;
S3、分别从不同类别中选择k个与S1中样本距离最近的样本;
S4、计算步骤S1中的样本到步骤S2中同类样本之间的欧式距离以及步骤S1中的样本到步骤S3中同类样本之间的欧式距离;
S5、计算每个类别的聚类中心的值;
S6、计算将步骤S1中的所有样本与其他类别的聚类中心的欧式距离之和;
S7、通过迭代m个样本,重复上述步骤。
优选的,所述步骤S1中从数据集中随机选择一个样本,记作Ri,所述步骤S2中在Ri的同类别样本中利用欧式距离选择距样本Ri最近的k个同类样本,记作Hj。
优选的,所述步骤S3利用欧式距离分别计算样本Ri到不同的类别最近的k个样本,记作Mj(C),其中C表示与Ri不同的类。
优选的,所述步骤S4中计算每个类别的聚类中心,将每个类的所有样本的各个特征值的平均值作为聚类中心的值。
优选的,所述步骤S5计算Ri所在的类里的所有样本分别与其他类别的聚类中心的欧氏距离,再分别将这些距离进行累加,记作Dc。
优选的,所述步骤S6中并利用下列公式求得每个特征的权重大小:
其中fi表示特征,m表示迭代次数,k表示最近邻个数,P(C)表示除Ri所在类以外每个类别样本数占总样本的比例,1-P(class(Ri))表示除Ri所在类以外其他类样本总数占总样本数的比例,Dc表示Ri所在的类里的所有样本与其他类别的聚类中心的欧氏距离的总和。
本发明与现有技术相比,其有益效果是:适用于多类别数据的特征选择;
突出了不同类别的聚类中心与每个样本关系,改进后的技术可以充分表达每个样本与各类别的关系以及特征子集的合理选取。
附图说明
图1为根据本发明的处理高维数据的特征选择方法的样本与各聚类中心的距离计算图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1,一种处理高维数据的特征选择方法,包括以下步骤:
S1、从包含多个类别的数据集中随机选择一个样本;
S2、选择与步骤S1中所选样本距离最近的k个同类样本;
S3、分别从不同类别中选择k个与S1中样本距离最近的样本;
S4、计算步骤S1中的样本到步骤S2中同类样本之间的欧式距离以及步骤S1中的样本到步骤S3中同类样本之间的欧式距离;
S5、计算每个类别的聚类中心的值;
S6、计算步骤S1中的所有样本与其他类别的聚类中心的欧式距离之和;
S7、通过迭代m个样本,重复上述步骤。
进一步的,所述步骤S1中从数据集中随机选择一个样本,记作Ri,所述步骤S2中在Ri的同类别样本中利用欧式距离选择距样本Ri最近的k个同类样本,记作Hj。
进一步的,所述步骤S3利用欧式距离分别计算样本Ri到不同的类别最近的k个样本,记作Mj(C),其中C表示与Ri不同的类。
进一步的,所述步骤S4中计算每个类别的聚类中心,将每个类的所有样本的各个特征值的平均值作为聚类中心的值。
进一步的,所述步骤S5计算Ri所在的类里的所有样本分别与其他类别的聚类中心的欧氏距离,再分别将这些距离进行累加,记作Dc。
进一步的,所述步骤S6中并利用下列公式求得每个特征的权重大小:
其中fi表示特征,m表示迭代次数,k表示最近邻个数,P(C)表示除Ri所在类以外每个类别样本数占总样本的比例,1-P(class(Ri))表示除Ri所在类以外其他类样本总数占总样本数的比例,Dc表示Ri所在的类里的所有样本与其他类别的聚类中心的欧氏距离的总和。
为了在满足特征需求的同时减少冗余数据的影响,我们采用以下阈值进行特征选择:
其中n为fi的特征属性总数,t为特征选择要求的阈值,n*为需要选择的特征的最小数目。在本文中,如果某个特征的权重值小于0,我们认为该特征是冗余的,直接删除。也就是说,每个被选中的特征的权重都大于0。
表1改进后算法分类精度比较
目前,该方法已在一个法律数据集和七个UCI公共数据集上进行了实验,其分类精度与原技术相比有着明显的提升。表1展示了算法改进前后分类精度的对比,其中数据集在特征选择前进行了过采样以达到平衡。
该方法的Dc表示Ri所在的类里的所有样本与其他类别的聚类中心的欧氏距离的总和。若将Dc表示成Ri所在的类的聚类中心与其他类别的聚类中心的欧氏距离,或将Dc表示成Ri所在的类里的所有样本与其他类别的所有样本的欧氏距离的总和意义一样,区别仅在于计算量的不同。
这里说明的设备数量和处理规模是用来简化本发明的说明的,对本发明的应用、修改和变化对本领域的技术人员来说是显而易见的。
尽管本发明的实施方案已公开如上,但其并不仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。
Claims (6)
1.一种处理高维数据的特征选择方法,其特征在于,包括以下步骤:
S1、从包含多个类别的数据集中随机选择一个样本;
S2、选择与步骤S1中所选样本距离最近的k个同类样本;
S3、分别从不同类别中选择k个与S1中样本距离最近的样本;
S4、计算步骤S1中的样本到步骤S2中同类样本之间的欧式距离以及步骤S1中的样本到步骤S3中同类样本之间的欧式距离;
S5、计算每个类别的聚类中心的值;
S6、计算将步骤S1中的所有样本与其他类别的聚类中心的欧式距离之和;
S7、通过迭代m个样本,重复上述步骤。
2.如权利要求1所述的一种处理高维数据的特征选择方法,其特征在于,所述步骤S1中从数据集中随机选择一个样本,记作Ri,所述步骤S2中在Ri的同类别样本中利用欧式距离选择距样本Ri最近的k个同类样本,记作Hj。
3.如权利要求1所述的一种处理高维数据的特征选择方法,其特征在于,所述步骤S3利用欧式距离分别计算样本Ri到不同的类别最近的k个样本,记作Mj(C),其中C表示与Ri不同的类。
4.如权利要求1所述的一种处理高维数据的特征选择方法,其特征在于,所述步骤S5中计算每个类别的聚类中心,将每个类的所有样本的各个特征值的平均值作为聚类中心的值。
5.如权利要求1所述的一种处理高维数据的特征选择方法,其特征在于,所述步骤S6计算Ri所在的类里的所有样本分别与其他类别的聚类中心的欧氏距离,再分别将这些距离进行累加,记作Dc。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110319562.2A CN113298111A (zh) | 2021-03-25 | 2021-03-25 | 一种处理高维数据的特征选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110319562.2A CN113298111A (zh) | 2021-03-25 | 2021-03-25 | 一种处理高维数据的特征选择方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113298111A true CN113298111A (zh) | 2021-08-24 |
Family
ID=77319185
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110319562.2A Pending CN113298111A (zh) | 2021-03-25 | 2021-03-25 | 一种处理高维数据的特征选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113298111A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113837276A (zh) * | 2021-09-24 | 2021-12-24 | 中国电子科技集团公司信息科学研究院 | 一种基于电磁和红外的特征选择方法及目标识别方法 |
-
2021
- 2021-03-25 CN CN202110319562.2A patent/CN113298111A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113837276A (zh) * | 2021-09-24 | 2021-12-24 | 中国电子科技集团公司信息科学研究院 | 一种基于电磁和红外的特征选择方法及目标识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110674865B (zh) | 面向软件缺陷类分布不平衡的规则学习分类器集成方法 | |
CN107070867B (zh) | 基于多层局部敏感哈希表的网络流量异常快速检测方法 | |
Jiang et al. | A hybrid feature selection algorithm: Combination of symmetrical uncertainty and genetic algorithms | |
Lamba et al. | Feature Selection of Micro-array expression data (FSM)-A Review | |
CN111611293B (zh) | 一种基于特征加权与MapReduce的离群数据挖掘方法 | |
CN112950445A (zh) | 图像隐写分析中基于补偿的检测特征选择方法 | |
CN113298111A (zh) | 一种处理高维数据的特征选择方法 | |
CN115617867A (zh) | 时间序列的预测方法、电子设备和存储介质 | |
CN114186518A (zh) | 一种集成电路良率估算方法及存储器 | |
CN117407732A (zh) | 一种基于对抗神经网络的非常规储层气井产量预测方法 | |
CN113657594A (zh) | 一种软滤波器剪枝的方法、装置以及系统 | |
CN116861964A (zh) | 一种基于双判别器生成式对抗网络的异常数据检测方法 | |
Bhuyan et al. | Sub-feature selection based classification | |
CN115545111A (zh) | 一种基于聚类自适应混合采样的网络入侵检测方法及系统 | |
CN113392908A (zh) | 基于边界密度的不平衡数据过采样算法 | |
CN112906751A (zh) | 一种非监督学习识别异常值的方法 | |
CN112308151A (zh) | 基于加权的旋转森林高光谱图像分类方法 | |
CN111488903A (zh) | 基于特征权重的决策树特征选择方法 | |
CN115017125B (zh) | 改进knn方法的数据处理方法和装置 | |
CN117611931B (zh) | 一种基于深度自表示局部块学习的数据分类方法及系统 | |
CN112580606B (zh) | 基于聚类分组的大规模人体行为识别方法 | |
Okamoto et al. | Evolutionary Acquisition of CNN Architecture by Thermodynamical Genetic Algorithm | |
CN115409130B (zh) | 一种更新分类标签的优化方法及系统 | |
Kong et al. | Research on Classification Label Denoising Algorithm Based on Granular Ball | |
Guo et al. | A comparison between the wrapper and hybrid methods for feature selection on biology Omics datasets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210824 |
|
RJ01 | Rejection of invention patent application after publication |