CN112070171A

CN112070171A - 一种基于实例选择和特征选择的优化数据集的方法

Info

Publication number: CN112070171A
Application number: CN202010953102.0A
Authority: CN
Inventors: 董明刚; 林唐林; 敬超
Original assignee: Guilin University of Technology
Current assignee: Guilin University of Technology
Priority date: 2020-09-11
Filing date: 2020-09-11
Publication date: 2020-12-11

Abstract

本发明公开了一种基于实例选择和特征选择的优化数据集的方法。该方法先用基于Jaccard索引的Relief‑F算法筛选出数据集中高质量的实例集，然后对筛选后的实例集运用Relief‑F算法再对数据集的特征进行筛选。实验结果证明我们提出的数据集预处理方法与传统的数据集预处理方法和最新的数据集预处理方法相比，该方法不仅可以有效地降低数据集中冗余的实例和特征，而且提高了数据集分类的精确度。

Description

一种基于实例选择和特征选择的优化数据集的方法

技术领域

本发明涉及优化数据集领域。具体涉及一种基于实例选择和特征选择的优化数据集的方法，更是基于Jaccard索引和Relief-F特征选择的优化数据集的方法。

背景技术

实例选择大致可以分为三个方向，一种基于filter方法，一种基于wrapper方法，另外一种是两种方法结合。但是这些实例选择算法在实例选择上仍然存在一定的局限性。

首先，在当下的数据环境下，这些数据约简的方法受到数据集规模和计算复杂度增加的影响，无法在合理的时间内提供高质量的约简子集。其次，不同的学习算法需要不同的实例选择器来适应它们的学习和搜索，许多的实例选择算法只是针对一种问题提出的解决方案，只有在该类问题中能最好的性能，在其它的问题中效率可能就会很低，缺乏普适性。当下实例选择中存在的问题是删除了数据集中的实例但对数据集中属性并没有进行冗余删除操作，导致数据集中仍然存在不相关或弱相关的数据。

同样，另一类精简数据集方法能减少数据维度，这类方法的关键技术有特征提取和特征选择。特征提取的方法主要是通过属性和属性之间的关系降维，例如不同的属性之间组合得到新的属性，通过这样的方法改变原数据集的空间特征。特征选择的方法是从大数据集中筛选出对后续操作有重要的意义的属性，这些属性构成特征子集。

特征选择使用某种评价准则从原始特征空间中选择特征子集，是一种数据预处理方式。迄今为止，学者们从特征子集能否识别目标、是否降低预测精度、能否改变原始数据类分布等多个角度对特征选择进行了定义。总结来说，我们得到的特征子集要尽可能小，能够识别目标，并解决问题，不能降低分类器或回归模型的预测精度甚至在一定程度上可以提高预测精度，并且不改变原始数据集的类分布。

理想的特征选择算法要实现去除无关或者弱相关的属性，保留非冗余和强相关的属性。但是现有的特征选择算法中要么存在删除的冗余属性过多，导致丢失大量有用信息(如FCBF)；要么仅能删除小部分无关属性，导致结果不精确。因此，亟需方法上的创新。

发明内容

针对实例选择不会优化数据属性，特征选择不能优化数据实例这两个问题，本发明提供基于Jaccard索引和Relief-F算法优化数据集。该方法能够有效的对数据集的实例和特征优化，去除弱相关和不相关数据，实现对大数据的清洗。从而得到一个不改变原始数据集的类分布的数据集，在一定程度上提高模型的预测精度值。

本发明的思路：该方法首先用Jaccard索引的Relief-F算法计算出数据集中每个实例的实例权重，然后再从带有实例权重的数据集中筛选出高质量实例子集。再用Relief-F算法对实例子集中的每个特征计算其特征权重，然后筛选特征权重的较大的特征，然后组成特征子集。

具体步骤为：

第一步导入数据集，判断数据集中实例和特征是否是向量如X＝(x₁,x₂,…,x_n)，Y＝(y₁,y₂,…,y_n)，并且所有的值都大于0或者等于0，他们的Jaccard索引是

如果数据集中的值大于1，对数据集中的值归一化处理；如果X＝(x₁,x₂,…,x_n)，Y＝(y₁,y₂,…,y_n)是两个字符集合，他们的Jaccard索引是

某些数据集有缺失值，X＝(x₁,x₂,…,x_n)和Y＝(y₁,y₂,…,y_n)的值未知，则

选择对应的Jaccard索引计算实例的同类近邻和异类近邻分别放入Hit集合和Miss集合中。然后对公式

计算每个实例的权重。对每个类中的实例按权重大小排序。每个类中都有对应的实例集合，计算每个类的p_c，计算方法是根据类下的实例个数比上数据实例总量。根据每个类的p_c按比例选择排序靠前的实例组成实例数据集D。

第二步对D中每个属性初始化一个权重W＝0.5.从D中随机选择一个样本R，从同类中找到R的k最近邻样本H，对每个类C≠Class(R)中找到R的k异类近邻样本M；用

计算每个属性的特征权重。

第三步把第二步计算出的特征权值与预定义的阈值比较，大于阈值的特征表示对样本的区分能力就越强，留下大于阈值的属性并组成特征子集。

本发明所述的基于实例选择和特征选择的一种优化数据集的方法，其中实例选择能够找出与其相似的数据，实例的权重越大，数据信息越相似，则对结果的影响越大。特征选择则找出数据集中特征权重较大的属性。实例选择和特征选择把数据集从“横向”和“纵向”对数据集筛选，并组成新的数据集，提高数据分类的精准度。

附图说明

图1是本发明实施例的具体步骤流程图；

图2是实例R的同类近邻和异类近邻；

图3是本发明在UAC数据集上的效果图；

图4是本发明的特征筛选的效果图。

具体实施方式

本实施案例采用Keel平台(htt://sc2s.ugr.es/keel/datasets.php)上公布的数据集，数据预处理方法采用Jaccard和Relief-F技术。一共有10个数据集，分类器的训练通过SVM训练分类器。

第1步导入数据集，判断数据集中实例和特征是否是向量,如X＝(x₁,x₂,…,x_n)，Y＝(y₁,y₂,…,y_n)，并且所有的值都大于0或者等于0，他们的Jaccard索引是

如果数据集中的值大于1，对数据集中的值归一化处理；

其中i代表数据块中样本实例个数其取值范围是[1，n]，j代表样本的属性个数其取值范围是[1,m]，将数据块样本化成一个n行m列的值域范围为[0，1]的矩阵。

如果X＝(x₁,x₂,…,x_n)，Y＝(y₁,y₂,…,y_n)是两个字符集合，他们的Jaccard索引是

第2步通过Jaccard索引，从类y_t中找到实例x_t的B个近邻实例(数据集中不同实例有不同的类别标签，t代表某个类别，B是常数)，添加到Jaccard索引的Hit集合中；对于每个类c≠y，在类c中找到与x_t最近邻的B个实例，并将其添加到Jaccard索引的Miss集合中；

用公式

计算每个实例的权重。函数δ是计算实例到Miss集合和Hit集合中实例的距离，用的是欧氏距离

第3步对每个类中的实例按权重大小排序。每个类中都有对应的实例集合，计算每个类的p_c，计算方法是根据类下的实例个数比上数据实例总量。根据每个类的p_c按比例选择排序靠前的实例组成实例数据集D。

第4步对D中每个属性初始化一个权重W(A)＝0.5，A＝1,2,_…,p(数据集属性个数)，阈值δ＝0.3，Class(R_i)表示实例Ri的类标签，diff(A,R₁,R₂)表示实例R₁和实例R₂在特征A上的差，diff(A,R₁,R₂)中M_j(C)表示类C中第j个最近邻样本。

。从D中随机选择一个样本R，从同类中找到R的k最近邻样本H，对每个类C≠Class(R)中找到R的k异类近邻样本M；用

计算每个属性的特征权重。

第5步对数据集的特征权重与特征阈值想比较，筛选出大于阈值的特征子集并组成新的数据集

第6步将第5步处理好的数据集导入svm分类器中，对数据分类。

第3步把第2步计算出的特征权值与预定义的阈值比较，大于阈值的特征表示对样本的区分能力就越强，留下大于阈值的属性并组成特征子集。

Claims

1.一种基于实例选择和特征选择的优化数据集的方法，其特征在于，包括以下步骤：

(1)对数据集用Jaccard索引计算每个实例权重,形成实例权重数据集M₁；

(2)取数据集M₁中每个实例对比实例权重阈值，筛选符合要求的实例，最终形成实例子集M₂；

(3)取实例子集M₂用Relief-F算法计算每个特征权重，形成特征权重数据集M₃；

(4)取数据集M₃中的每个特征权重，与特征权重阈值比较，选取符合要求的特征，组成最终样本数据集。