CN107436862A

CN107436862A - 一种基于基尼指数的区间值模糊粗糙集属性选择方法

Info

Publication number: CN107436862A
Application number: CN201710495126.4A
Authority: CN
Inventors: 代建华; 郑国杰
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2017-06-26
Filing date: 2017-06-26
Publication date: 2017-12-05

Abstract

本发明提供一种基于基尼指数的区间值模糊粗糙集属性选择方法，包括如下步骤：步骤一，选取区间值决策系统IVDS＝(U,C∪D)，其中U是论域，C是条件属性集，D是决策属性集，给出相似率α和停止条件ε；步骤二，利用RBD相似度构建步骤一中论域U中每个对象的相似度矩阵；利用相似率α，获得论域U中每个对象u_i相对于其他对象u_j的α‑相似类；步骤三，计算条件属性集C中所有属性的基尼指数fullG＝Gini(U,D,C)fullG＝Gini(U,D,C)等步骤；该方法将基尼指数引入粗糙集，定义了属性重要度公式，提出了区间值的属性选择算法。

Description

一种基于基尼指数的区间值模糊粗糙集属性选择方法

技术领域

本发明涉及属性选择方法，具体是指一种基于基尼指数的区间值模糊粗糙集属性选择方法。

背景技术

现实中由于数据采集的结果往往伴随着噪声数据，这使得不确定数学工具显得尤为重要。粗糙集理论与其他处理不确定和不精确问题理论相比，无需提供问题所需处理的数据集合之外的任何先验知识。由于粗糙集处理不确定数据的优越性，目前已经在分类、聚类等多个领域得到广泛应用，其中，属性选择是最为重要的应用之一。属性选择可以从大量的属性中消除冗余、无关的属性，从而提高数据质量、加速数据处理速度和改善分类器的泛化能力。

经典的粗糙集理论，只可以处理符号型数据。D.Dubios和H.Prad在1992年提出了模糊粗糙集，模糊粗糙集将模糊集和离散集结合，用模糊集和隶属度来描述一个对象和集合间的关系，可以直接处理数值属性。相比离散化，模糊化能较好的保留数值属性的信息。然而，现实生活中存在很多区间值数据，现有的方法对于区间值数据的研究还很少。

信息熵和基尼指数是机器学习和模式分类中常用的选择属性的有效方法。信息熵和基尼指数都是度量数据的不确定度，值越大，数据的不确定度也越大。在粗糙集中，大多使用熵作为特征的重要性度量指标。本发明从基尼指数的角度，提出了区间值粗糙集中基尼指数的定义和属性重要度公式。

发明内容

本发明的目的是为了处理区间值决策系统的属性选择，而提出一种新的基于基尼指数的区间值属性选择方法。该方法将基尼指数引入粗糙集，定义了属性重要度公式，提出了区间值的属性选择算法。

为了解决现有技术中存在技术问题，本发明采用如下技术方案：

一种基于基尼指数的区间值模糊粗糙集属性选择方法，包括如下步骤：

步骤一，选取区间值决策系统IVDS＝(U,C∪D)，其中U是论域，C是条件属性集，D是决策属性集，给出相似率α和停止条件ε；

步骤二，利用RBD相似度构建步骤一中论域U中每个对象的相似度矩阵；利用相似率α，获得论域U中每个对象u_i相对于其他对象u_j的α-相似类；，；

步骤三，计算条件属性集C中所有属性的基尼指数fullG＝Gini(U,D,C)fullG＝Gini(U,D,C)；

步骤四，设已选择属性集为B，未选择的属性集为E，初始值设为E＝C；

步骤五,对步骤四中未选择的属性集E中的每一个属性a∈E计算其属性重要度SGF(a,B,D)；并获得选择属性重要度最大(即基尼指数最小)的属性a*＝argmaxSGF(a,B,D)；

步骤六，将步骤五中获得a^*加入已选属性B中，得到新的已选属性B＝B∪{a*}，并从未选择的属性集中删除E＝E-{a*}；重新计算新的已选属性集B的基尼指数curG＝Gini(U,D,B)；

步骤七，判断条件属性C中所有属性的基尼指数减去步骤六中已选属性B的基尼指数差绝对值是否小于阈值，即|fullG-curG|＜ε；如果满足条件，算法终止，输出当前选择属性集B；否则返回步骤五。

所述步骤二中RBD相似度通过以下公式(1)获得：

假设U＝{u₁,u₂,...,u_n}为区间值全集，其中对象对所述步骤二中通过公式(2)，获得论域U中每个对象u_i相对于其他对象u_j的α-相似类；

假设IVDS＝(U,C∪D)是区间值决策系统，给定的相似率α∈[0,1]，和任意属性子集代表u_i和u_j在任意属性子集A第k个属性上的相似度。

所述步骤三中所有属性的基尼指数fullG＝Gini(U,D,C)按照如下步骤获得：

步骤一，假设IVDS＝(U,C∪D)，通过公式(3)生成条件属性A的基尼指数为

其中

步骤二，通过公式(4)生成决策属性D的基尼指数为

其中，公式(4)中K是决策属性D的类别总个数，

步骤三，在属性A的条件下，通过公式(5)生成决策属性D的基尼指数为

其中D_i是D中属于第i类的样本子集；

步骤四，在属性集C的条件下，通过公式(6)(7)生成决策属性D的基尼指数为

其中，Q_j为中属于第j类的样本子集。

所述步骤五中属性重要度SGF(a,B,D)通过公式(8)生成，

SGF(a,B,D)＝Gini(U,D,B)-Gini(U,D,B∪{a}) 公式(8)

有益效果

第一，本发明提出的基于基尼指数的区间值模糊粗糙集属性选择方法使用基尼指数作为属性选择的标准，计算简单，更加灵活。

第二，本发明通过RBD相似度将区间值转化为相似度矩阵，并使用基于基尼指数的属性重要度评价指标选择重要属性，有效的实现了区间值决策系统的属性约简，去除了冗余属性，降低了噪声干扰。

第三，本发明对于符号值属性和连续值属性同样适用。

附图说明

图1是本发明的方法流程图；

图2是本发明的实施流程图。

具体实施方式

下面结合附图对本发明作出详细说明。

如图1所示，一种基于基尼指数的区间值模糊粗糙集属性选择方法，包括如下步骤：

步骤一101，选取区间值决策系统IVDS＝(U,C∪D)，其中U是论域，C是条件属性集，D是决策属性集，给出相似率α和停止条件ε；

步骤二102，在区间值模糊粗糙集下，利用RBD相似度构建步骤一中论域U中每个对象的相似度矩阵；

所述的RBD相似度通过以下公式获得：

假设U＝{u₁,u₂,...,u_n}为区间值全集，其中对象

RBD相似度满足如下性质：

①0≤v_ij≤1；

②v_ij＝1当且仅当u_i＝u_j

③v_ij＝v_ji。

另外，利用相似率α，获得论域U中每个对象u_i相对于其他对象u_j的α-相似类；

所述的u_i∈U的α-相似类通过以下公式获得：

α-相似类满足如下性质：

②如果则有

步骤三103，分别计算条件属性集C中所有属性的基尼指数fullG＝Gini(U,D,C)；

所述的基尼指数通过以下计算获得：

假设IVDS＝(U,C∪D)，则条件属性A的基尼指数为

其中

决策属性D的基尼指数为

其中，K是决策属性D的类别总个数，

在属性A的条件下，决策属性D的基尼指数定义为

其中D_i是D中属于第i类的样本子集。

在属性集C的条件下，决策属性D的基尼指数定义为

其中，Q_j为中属于第j类的样本子集；

步骤四104，选择属性集为B，未选择的属性集为E，初始值设为E＝C；

步骤五105,对步骤四中未选择的属性集为E计算其属性重要度SGF(a,B,D)；并获得选择属性重要度最大的属性a*＝argmaxSGF(a,B,D)；即，对于未选择的属性集E中的每一属性a∈E，通过公式(8)计算其属性重要度SGF(a,B,D)；选择属性重要度最大的属性(也就是基尼指数最小的属性)a*＝argmaxSGF(a,B,D)。

SGF(a,B,D)＝Gini(U,D,B)-Gini(U,D,B∪{a}) 公式(8)

步骤六106，将步骤五中获得a^*加入已选属性B中，得到新的已选属性B＝B∪{a*}，并从未选择的属性集中删除E＝E-{a*}；按照公式(6)(7)重新计算新的已选属性集B的基尼指数curG＝Gini(U,D,B)

步骤七(107，108)，判断步骤三中所有属性的基尼指数减去已选属性B的基尼指数差绝对值是否小于阈值，即|fullG-curG|＜ε；如果满足条件，输出选择属性集B；否则返回步骤五。

实施流程见图2，具体是：

步骤一201，将数据转化为粗糙集中使用的决策表格式；

步骤二202，计算决策表中各个属性的RBD模糊相似矩阵；

步骤三203，通过本发明提出的的基于基尼指数的区间值决策系统属性选择方法得到属性选择结果；

步骤四204，输出结果。

实验例1：

通过将本发明方法在实际数据集fish上的运行，显示其有效性。运行的结果如表1和表2所示：消除无关、冗余的属性，从而提高数据质量和改善分类器的泛化能力。其中，数据集来源于公开的UCI数据仓库(http://archive.ics.uci.edu/ml)；属性选择后的数据集为原始数据集去除未在属性选择中的属性；分类准确率为十者交叉验证的平均值，采用的分类器为KNN(k＝5),J48,Random Forest。

表1属性选择后的属性个数与原始属性个数

表2属性分类正确率

threshold	KNN	J48	Random Forest
				full features	41.67	37.50	44.44
0.5	50.00	50.00	55.56
				0.6	41.67	37.50	44.44
0.7	58.33	58.33	61.11
				0.8	50.00	58.33	58.33

上述实施例并非是对于本发明的限制，本发明并非仅限于上述实施例，只要符合本发明要求，均属于本发明的保护范围。

上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护范围的情况下，还可以做出很多变形，这些均属于本发明的保护之列。

Claims

1.一种基于基尼指数的区间值模糊粗糙集属性选择方法，其特征在于，包括如下步骤：

步骤二，利用RBD相似度构建步骤一中论域U中每个对象的相似度矩阵；利用相似率α，获得论域U中每个对象u_i相对于其他对象u_j的α-相似类；

步骤三，计算条件属性集C中所有属性的基尼指数fullG＝Gini(U,D,C)；

步骤四，选择属性集为B，未选择的属性集为E，初始值设为E＝C；

步骤五,对步骤四中未选择的属性集E中的每一个属性a∈E计算其属性重要度SGF(a,B,D)；并获得选择属性重要度最大的属性a*＝argmaxSGF(a,B,D)；

步骤七，判断条件属性C中所有属性的基尼指数减去步骤六中已选属性B的基尼指数差的绝对值是否小于阈值，即|fullG-curG|＜ε；如果满足条件，输出当前选择属性集B；否则返回步骤五。

2.根据权利要求1所述的一种基于基尼指数的区间值模糊粗糙集属性选择方法，其特征在于，所述步骤二中RBD相似度通过以下公式(1)获得：

假设U＝{u₁,u₂,...,u_n}为区间值全集，其中对象

RBD相似度满足如下性质：

①0≤v_ij≤1；

②v_ij＝1当且仅当u_i＝u_j

③v_ij＝v_ji。

3.根据权利要求1所述的一种基于基尼指数的区间值模糊粗糙集属性选择方法，其特征在于，对所述步骤二中论域U按照公式(2)进行计算，获得论域U中每个对象u_i相对于其他对象u_j的α-相似类；

α-相似类满足如下性质：

①

②如果则有

4.根据权利要求1所述的一种基于基尼指数的区间值模糊粗糙集属性选择方法，其特征在于，所述步骤三中所有属性的基尼指数fullG＝Gini(U,D,C)按照如下步骤获得：

其中

步骤二，通过公式(4)生成决策属性D的基尼指数为

其中，公式(4)中K是决策属性D的类别总个数，

其中D_i是D中属于第i类的样本子集；

其中，Q_j为中属于第j类的样本子集。

5.根据权利要求1所述的一种基于基尼指数的区间值模糊粗糙集属性选择方法，其特征在于，所述步骤五中属性重要度SGF(a,B,D)通过公式(8)生成，

SGF(a,B,D)＝Gini(U,D,B)-Gini(U,D,B∪{a}) 公式(8)

其中，Q_j为中属于第j类的样本子集。