CN112070171A - 一种基于实例选择和特征选择的优化数据集的方法 - Google Patents

一种基于实例选择和特征选择的优化数据集的方法 Download PDF

Info

Publication number
CN112070171A
CN112070171A CN202010953102.0A CN202010953102A CN112070171A CN 112070171 A CN112070171 A CN 112070171A CN 202010953102 A CN202010953102 A CN 202010953102A CN 112070171 A CN112070171 A CN 112070171A
Authority
CN
China
Prior art keywords
data set
instance
selection
weight
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010953102.0A
Other languages
English (en)
Inventor
董明刚
林唐林
敬超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Technology
Original Assignee
Guilin University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Technology filed Critical Guilin University of Technology
Priority to CN202010953102.0A priority Critical patent/CN112070171A/zh
Publication of CN112070171A publication Critical patent/CN112070171A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种基于实例选择和特征选择的优化数据集的方法。该方法先用基于Jaccard索引的Relief‑F算法筛选出数据集中高质量的实例集,然后对筛选后的实例集运用Relief‑F算法再对数据集的特征进行筛选。实验结果证明我们提出的数据集预处理方法与传统的数据集预处理方法和最新的数据集预处理方法相比,该方法不仅可以有效地降低数据集中冗余的实例和特征,而且提高了数据集分类的精确度。

Description

一种基于实例选择和特征选择的优化数据集的方法
技术领域
本发明涉及优化数据集领域。具体涉及一种基于实例选择和特征选择的优化数据集的方法,更是基于Jaccard索引和Relief-F特征选择的优化数据集的方法。
背景技术
实例选择大致可以分为三个方向,一种基于filter方法,一种基于wrapper方法,另外一种是两种方法结合。但是这些实例选择算法在实例选择上仍然存在一定的局限性。
首先,在当下的数据环境下,这些数据约简的方法受到数据集规模和计算复杂度增加的影响,无法在合理的时间内提供高质量的约简子集。其次,不同的学习算法需要不同的实例选择器来适应它们的学习和搜索,许多的实例选择算法只是针对一种问题提出的解决方案,只有在该类问题中能最好的性能,在其它的问题中效率可能就会很低,缺乏普适性。当下实例选择中存在的问题是删除了数据集中的实例但对数据集中属性并没有进行冗余删除操作,导致数据集中仍然存在不相关或弱相关的数据。
同样,另一类精简数据集方法能减少数据维度,这类方法的关键技术有特征提取和特征选择。特征提取的方法主要是通过属性和属性之间的关系降维,例如不同的属性之间组合得到新的属性,通过这样的方法改变原数据集的空间特征。特征选择的方法是从大数据集中筛选出对后续操作有重要的意义的属性,这些属性构成特征子集。
特征选择使用某种评价准则从原始特征空间中选择特征子集,是一种数据预处理方式。迄今为止,学者们从特征子集能否识别目标、是否降低预测精度、能否改变原始数据类分布等多个角度对特征选择进行了定义。总结来说,我们得到的特征子集要尽可能小,能够识别目标,并解决问题,不能降低分类器或回归模型的预测精度甚至在一定程度上可以提高预测精度,并且不改变原始数据集的类分布。
理想的特征选择算法要实现去除无关或者弱相关的属性,保留非冗余和强相关的属性。但是现有的特征选择算法中要么存在删除的冗余属性过多,导致丢失大量有用信息(如FCBF);要么仅能删除小部分无关属性,导致结果不精确。因此,亟需方法上的创新。
发明内容
针对实例选择不会优化数据属性,特征选择不能优化数据实例这两个问题,本发明提供基于Jaccard索引和Relief-F算法优化数据集。该方法能够有效的对数据集的实例和特征优化,去除弱相关和不相关数据,实现对大数据的清洗。从而得到一个不改变原始数据集的类分布的数据集,在一定程度上提高模型的预测精度值。
本发明的思路:该方法首先用Jaccard索引的Relief-F算法计算出数据集中每个实例的实例权重,然后再从带有实例权重的数据集中筛选出高质量实例子集。再用Relief-F算法对实例子集中的每个特征计算其特征权重,然后筛选特征权重的较大的特征,然后组成特征子集。
具体步骤为:
第一步导入数据集,判断数据集中实例和特征是否是向量如X=(x1,x2,…,xn),Y=(y1,y2,…,yn),并且所有的值都大于0或者等于0,他们的Jaccard索引是
Figure BDA0002677680650000021
如果数据集中的值大于1,对数据集中的值归一化处理;如果X=(x1,x2,…,xn),Y=(y1,y2,…,yn)是两个字符集合,他们的Jaccard索引是
Figure BDA0002677680650000022
某些数据集有缺失值,X=(x1,x2,…,xn)和Y=(y1,y2,…,yn)的值未知,则
Figure BDA0002677680650000023
选择对应的Jaccard索引计算实例的同类近邻和异类近邻分别放入Hit集合和Miss集合中。然后对公式
Figure BDA0002677680650000024
Figure BDA0002677680650000025
计算每个实例的权重。对每个类中的实例按权重大小排序。每个类中都有对应的实例集合,计算每个类的pc,计算方法是根据类下的实例个数比上数据实例总量。根据每个类的pc按比例选择排序靠前的实例组成实例数据集D。
第二步对D中每个属性初始化一个权重W=0.5.从D中随机选择一个样本R,从同类中找到R的k最近邻样本H,对每个类C≠Class(R)中找到R的k异类近邻样本M;用
Figure BDA0002677680650000026
Figure BDA0002677680650000031
计算每个属性的特征权重。
第三步把第二步计算出的特征权值与预定义的阈值比较,大于阈值的特征表示对样本的区分能力就越强,留下大于阈值的属性并组成特征子集。
本发明所述的基于实例选择和特征选择的一种优化数据集的方法,其中实例选择能够找出与其相似的数据,实例的权重越大,数据信息越相似,则对结果的影响越大。特征选择则找出数据集中特征权重较大的属性。实例选择和特征选择把数据集从“横向”和“纵向”对数据集筛选,并组成新的数据集,提高数据分类的精准度。
附图说明
图1是本发明实施例的具体步骤流程图;
图2是实例R的同类近邻和异类近邻;
图3是本发明在UAC数据集上的效果图;
图4是本发明的特征筛选的效果图。
具体实施方式
本实施案例采用Keel平台(htt://sc2s.ugr.es/keel/datasets.php)上公布的数据集,数据预处理方法采用Jaccard和Relief-F技术。一共有10个数据集,分类器的训练通过SVM训练分类器。
第1步导入数据集,判断数据集中实例和特征是否是向量,如X=(x1,x2,…,xn),Y=(y1,y2,…,yn),并且所有的值都大于0或者等于0,他们的Jaccard索引是
Figure BDA0002677680650000032
如果数据集中的值大于1,对数据集中的值归一化处理;
Figure BDA0002677680650000033
其中i代表数据块中样本实例个数其取值范围是[1,n],j代表样本的属性个数其取值范围是[1,m],将数据块样本化成一个n行m列的值域范围为[0,1]的矩阵。
如果X=(x1,x2,…,xn),Y=(y1,y2,…,yn)是两个字符集合,他们的Jaccard索引是
Figure BDA0002677680650000034
某些数据集有缺失值,X=(x1,x2,…,xn)和Y=(y1,y2,…,yn)的值未知,则
Figure BDA0002677680650000035
第2步通过Jaccard索引,从类yt中找到实例xt的B个近邻实例(数据集中不同实例有不同的类别标签,t代表某个类别,B是常数),添加到Jaccard索引的Hit集合中;对于每个类c≠y,在类c中找到与xt最近邻的B个实例,并将其添加到Jaccard索引的Miss集合中;
用公式
Figure BDA0002677680650000041
计算每个实例的权重。函数δ是计算实例到Miss集合和Hit集合中实例的距离,用的是欧氏距离
Figure BDA0002677680650000042
第3步对每个类中的实例按权重大小排序。每个类中都有对应的实例集合,计算每个类的pc,计算方法是根据类下的实例个数比上数据实例总量。根据每个类的pc按比例选择排序靠前的实例组成实例数据集D。
第4步对D中每个属性初始化一个权重W(A)=0.5,A=1,2,,p(数据集属性个数),阈值δ=0.3,Class(Ri)表示实例Ri的类标签,diff(A,R1,R2)表示实例R1和实例R2在特征A上的差,diff(A,R1,R2)中Mj(C)表示类C中第j个最近邻样本。
Figure BDA0002677680650000043
。从D中随机选择一个样本R,从同类中找到R的k最近邻样本H,对每个类C≠Class(R)中找到R的k异类近邻样本M;用
Figure BDA0002677680650000044
计算每个属性的特征权重。
第5步对数据集的特征权重与特征阈值想比较,筛选出大于阈值的特征子集并组成新的数据集
第6步将第5步处理好的数据集导入svm分类器中,对数据分类。
第3步把第2步计算出的特征权值与预定义的阈值比较,大于阈值的特征表示对样本的区分能力就越强,留下大于阈值的属性并组成特征子集。

Claims (1)

1.一种基于实例选择和特征选择的优化数据集的方法,其特征在于,包括以下步骤:
(1)对数据集用Jaccard索引计算每个实例权重,形成实例权重数据集M1
(2)取数据集M1中每个实例对比实例权重阈值,筛选符合要求的实例,最终形成实例子集M2
(3)取实例子集M2用Relief-F算法计算每个特征权重,形成特征权重数据集M3
(4)取数据集M3中的每个特征权重,与特征权重阈值比较,选取符合要求的特征,组成最终样本数据集。
CN202010953102.0A 2020-09-11 2020-09-11 一种基于实例选择和特征选择的优化数据集的方法 Pending CN112070171A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010953102.0A CN112070171A (zh) 2020-09-11 2020-09-11 一种基于实例选择和特征选择的优化数据集的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010953102.0A CN112070171A (zh) 2020-09-11 2020-09-11 一种基于实例选择和特征选择的优化数据集的方法

Publications (1)

Publication Number Publication Date
CN112070171A true CN112070171A (zh) 2020-12-11

Family

ID=73696190

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010953102.0A Pending CN112070171A (zh) 2020-09-11 2020-09-11 一种基于实例选择和特征选择的优化数据集的方法

Country Status (1)

Country Link
CN (1) CN112070171A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116052885A (zh) * 2023-02-07 2023-05-02 齐鲁工业大学(山东省科学院) 基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统、方法、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116052885A (zh) * 2023-02-07 2023-05-02 齐鲁工业大学(山东省科学院) 基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统、方法、设备及介质
CN116052885B (zh) * 2023-02-07 2024-03-08 齐鲁工业大学(山东省科学院) 基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统、方法、设备及介质

Similar Documents

Publication Publication Date Title
Aravind et al. Disease classification in maize crop using bag of features and multiclass support vector machine
CN106126581B (zh) 基于深度学习的手绘草图图像检索方法
CN110717534B (zh) 一种基于网络监督的目标分类和定位方法
EP3709184A1 (en) Sample set processing method and apparatus, and sample querying method and apparatus
Kannan et al. Image clustering and retrieval using image mining techniques
CN107292097B (zh) 基于特征组的中医主症选择方法
CN107392919B (zh) 基于自适应遗传算法的灰度阈值获取方法、图像分割方法
CN110322445B (zh) 基于最大化预测和标签间相关性损失函数的语义分割方法
CN110751027B (zh) 一种基于深度多示例学习的行人重识别方法
CN112036476A (zh) 基于二分类业务的数据特征选择方法、装置及计算机设备
CN110188864B (zh) 基于分布表示和分布度量的小样本学习方法
CN107423771B (zh) 一种两时相遥感图像变化检测方法
CN114359632A (zh) 一种基于改进PointNet++神经网络的点云目标分类方法
CN114595352A (zh) 一种图像识别方法、装置、电子设备及可读存储介质
CN112070171A (zh) 一种基于实例选择和特征选择的优化数据集的方法
CN104239551B (zh) 基于多特征vp树索引的遥感图像检索方法及装置
KR101085066B1 (ko) 대용량 다속성 데이터집합에서 의미 있는 지식 탐사를 위한 연관 분류 방법
JP4302799B2 (ja) 文書検索装置、方法および記録媒体
Toghraee Calculation of mean data on gini relationship by data mining method
Gorisse et al. Scalable active learning strategy for object category retrieval
Zhang et al. Optimizing metrics combining low-level visual descriptors for image annotation and retrieval
CN110334776A (zh) 一种基于区域双三次插值技术的图像分类识别方法
CN110766087A (zh) 一种基于离差最大化法改进k-means的提高数据聚类质量的方法
CN113379823B (zh) 基于构造等边平衡三角形smote算法的少数类样本生成方法
Jiang et al. A study of the Naive Bayes classification based on the Laplacian matrix

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20201211