CN107436862A - 一种基于基尼指数的区间值模糊粗糙集属性选择方法 - Google Patents
一种基于基尼指数的区间值模糊粗糙集属性选择方法 Download PDFInfo
- Publication number
- CN107436862A CN107436862A CN201710495126.4A CN201710495126A CN107436862A CN 107436862 A CN107436862 A CN 107436862A CN 201710495126 A CN201710495126 A CN 201710495126A CN 107436862 A CN107436862 A CN 107436862A
- Authority
- CN
- China
- Prior art keywords
- attribute
- gini
- similarity
- index
- decision
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 13
- 239000011159 matrix material Substances 0.000 claims abstract description 6
- 238000010187 selection method Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 abstract description 3
- 101100329782 Streptomyces cyaneus curG gene Proteins 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 241000251468 Actinopterygii Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Algebra (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于基尼指数的区间值模糊粗糙集属性选择方法,包括如下步骤:步骤一,选取区间值决策系统IVDS=(U,C∪D),其中U是论域,C是条件属性集,D是决策属性集,给出相似率α和停止条件ε;步骤二,利用RBD相似度构建步骤一中论域U中每个对象的相似度矩阵;利用相似率α,获得论域U中每个对象ui相对于其他对象uj的α‑相似类;步骤三,计算条件属性集C中所有属性的基尼指数fullG=Gini(U,D,C)fullG=Gini(U,D,C)等步骤;该方法将基尼指数引入粗糙集,定义了属性重要度公式,提出了区间值的属性选择算法。
Description
技术领域
本发明涉及属性选择方法,具体是指一种基于基尼指数的区间值模糊粗糙集属性选择方法。
背景技术
现实中由于数据采集的结果往往伴随着噪声数据,这使得不确定数学工具显得尤为重要。粗糙集理论与其他处理不确定和不精确问题理论相比,无需提供问题所需处理的数据集合之外的任何先验知识。由于粗糙集处理不确定数据的优越性,目前已经在分类、聚类等多个领域得到广泛应用,其中,属性选择是最为重要的应用之一。属性选择可以从大量的属性中消除冗余、无关的属性,从而提高数据质量、加速数据处理速度和改善分类器的泛化能力。
经典的粗糙集理论,只可以处理符号型数据。D.Dubios和H.Prad在1992年提出了模糊粗糙集,模糊粗糙集将模糊集和离散集结合,用模糊集和隶属度来描述一个对象和集合间的关系,可以直接处理数值属性。相比离散化,模糊化能较好的保留数值属性的信息。然而,现实生活中存在很多区间值数据,现有的方法对于区间值数据的研究还很少。
信息熵和基尼指数是机器学习和模式分类中常用的选择属性的有效方法。信息熵和基尼指数都是度量数据的不确定度,值越大,数据的不确定度也越大。在粗糙集中,大多使用熵作为特征的重要性度量指标。本发明从基尼指数的角度,提出了区间值粗糙集中基尼指数的定义和属性重要度公式。
发明内容
本发明的目的是为了处理区间值决策系统的属性选择,而提出一种新的基于基尼指数的区间值属性选择方法。该方法将基尼指数引入粗糙集,定义了属性重要度公式,提出了区间值的属性选择算法。
为了解决现有技术中存在技术问题,本发明采用如下技术方案:
一种基于基尼指数的区间值模糊粗糙集属性选择方法,包括如下步骤:
步骤一,选取区间值决策系统IVDS=(U,C∪D),其中U是论域,C是条件属性集,D是决策属性集,给出相似率α和停止条件ε;
步骤二,利用RBD相似度构建步骤一中论域U中每个对象的相似度矩阵;利用相似率α,获得论域U中每个对象ui相对于其他对象uj的α-相似类;,;
步骤三,计算条件属性集C中所有属性的基尼指数fullG=Gini(U,D,C)fullG=Gini(U,D,C);
步骤四,设已选择属性集为B,未选择的属性集为E,初始值设为E=C;
步骤五,对步骤四中未选择的属性集E中的每一个属性a∈E计算其属性重要度SGF(a,B,D);并获得选择属性重要度最大(即基尼指数最小)的属性a*=argmaxSGF(a,B,D);
步骤六,将步骤五中获得a*加入已选属性B中,得到新的已选属性B=B∪{a*},并从未选择的属性集中删除E=E-{a*};重新计算新的已选属性集B的基尼指数curG=Gini(U,D,B);
步骤七,判断条件属性C中所有属性的基尼指数减去步骤六中已选属性B的基尼指数差绝对值是否小于阈值,即|fullG-curG|<ε;如果满足条件,算法终止,输出当前选择属性集B;否则返回步骤五。
所述步骤二中RBD相似度通过以下公式(1)获得:
假设U={u1,u2,...,un}为区间值全集,其中对象 对所述步骤二中通过公式(2),获得论域U中每个对象ui相对于其他对象uj的α-相似类;
假设IVDS=(U,C∪D)是区间值决策系统,给定的相似率α∈[0,1],和任意属性子集代表ui和uj在任意属性子集A第k个属性上的相似度。
所述步骤三中所有属性的基尼指数fullG=Gini(U,D,C)按照如下步骤获得:
步骤一,假设IVDS=(U,C∪D),通过公式(3)生成条件属性A的基尼指数为
其中
步骤二,通过公式(4)生成决策属性D的基尼指数为
其中,公式(4)中K是决策属性D的类别总个数,
步骤三,在属性A的条件下,通过公式(5)生成决策属性D的基尼指数为
其中Di是D中属于第i类的样本子集;
步骤四,在属性集C的条件下,通过公式(6)(7)生成决策属性D的基尼指数为
其中,Qj为中属于第j类的样本子集。
所述步骤五中属性重要度SGF(a,B,D)通过公式(8)生成,
SGF(a,B,D)=Gini(U,D,B)-Gini(U,D,B∪{a}) 公式(8)
有益效果
第一,本发明提出的基于基尼指数的区间值模糊粗糙集属性选择方法使用基尼指数作为属性选择的标准,计算简单,更加灵活。
第二,本发明通过RBD相似度将区间值转化为相似度矩阵,并使用基于基尼指数的属性重要度评价指标选择重要属性,有效的实现了区间值决策系统的属性约简,去除了冗余属性,降低了噪声干扰。
第三,本发明对于符号值属性和连续值属性同样适用。
附图说明
图1是本发明的方法流程图;
图2是本发明的实施流程图。
具体实施方式
下面结合附图对本发明作出详细说明。
如图1所示,一种基于基尼指数的区间值模糊粗糙集属性选择方法,包括如下步骤:
步骤一101,选取区间值决策系统IVDS=(U,C∪D),其中U是论域,C是条件属性集,D是决策属性集,给出相似率α和停止条件ε;
步骤二102,在区间值模糊粗糙集下,利用RBD相似度构建步骤一中论域U中每个对象的相似度矩阵;
所述的RBD相似度通过以下公式获得:
假设U={u1,u2,...,un}为区间值全集,其中对象
RBD相似度满足如下性质:
①0≤vij≤1;
②vij=1当且仅当ui=uj
③vij=vji。
另外,利用相似率α,获得论域U中每个对象ui相对于其他对象uj的α-相似类;
所述的ui∈U的α-相似类通过以下公式获得:
假设IVDS=(U,C∪D)是区间值决策系统,给定的相似率α∈[0,1],和任意属性子集代表ui和uj在任意属性子集A第k个属性上的相似度。
α-相似类满足如下性质:
②如果则有
步骤三103,分别计算条件属性集C中所有属性的基尼指数fullG=Gini(U,D,C);
所述的基尼指数通过以下计算获得:
假设IVDS=(U,C∪D),则条件属性A的基尼指数为
其中
决策属性D的基尼指数为
其中,K是决策属性D的类别总个数,
在属性A的条件下,决策属性D的基尼指数定义为
其中Di是D中属于第i类的样本子集。
在属性集C的条件下,决策属性D的基尼指数定义为
其中,Qj为中属于第j类的样本子集;
步骤四104,选择属性集为B,未选择的属性集为E,初始值设为E=C;
步骤五105,对步骤四中未选择的属性集为E计算其属性重要度SGF(a,B,D);并获得选择属性重要度最大的属性a*=argmaxSGF(a,B,D);即,对于未选择的属性集E中的每一属性a∈E,通过公式(8)计算其属性重要度SGF(a,B,D);选择属性重要度最大的属性(也就是基尼指数最小的属性)a*=argmaxSGF(a,B,D)。
SGF(a,B,D)=Gini(U,D,B)-Gini(U,D,B∪{a}) 公式(8)
步骤六106,将步骤五中获得a*加入已选属性B中,得到新的已选属性B=B∪{a*},并从未选择的属性集中删除E=E-{a*};按照公式(6)(7)重新计算新的已选属性集B的基尼指数curG=Gini(U,D,B)
步骤七(107,108),判断步骤三中所有属性的基尼指数减去已选属性B的基尼指数差绝对值是否小于阈值,即|fullG-curG|<ε;如果满足条件,输出选择属性集B;否则返回步骤五。
实施流程见图2,具体是:
步骤一201,将数据转化为粗糙集中使用的决策表格式;
步骤二202,计算决策表中各个属性的RBD模糊相似矩阵;
步骤三203,通过本发明提出的的基于基尼指数的区间值决策系统属性选择方法得到属性选择结果;
步骤四204,输出结果。
实验例1:
通过将本发明方法在实际数据集fish上的运行,显示其有效性。运行的结果如表1和表2所示:消除无关、冗余的属性,从而提高数据质量和改善分类器的泛化能力。其中,数据集来源于公开的UCI数据仓库(http://archive.ics.uci.edu/ml);属性选择后的数据集为原始数据集去除未在属性选择中的属性;分类准确率为十者交叉验证的平均值,采用的分类器为KNN(k=5),J48,Random Forest。
表1属性选择后的属性个数与原始属性个数
表2属性分类正确率
threshold | KNN | J48 | Random Forest |
full features | 41.67 | 37.50 | 44.44 |
0.5 | 50.00 | 50.00 | 55.56 |
0.6 | 41.67 | 37.50 | 44.44 |
0.7 | 58.33 | 58.33 | 61.11 |
0.8 | 50.00 | 58.33 | 58.33 |
上述实施例并非是对于本发明的限制,本发明并非仅限于上述实施例,只要符合本发明要求,均属于本发明的保护范围。
上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护范围的情况下,还可以做出很多变形,这些均属于本发明的保护之列。
Claims (5)
1.一种基于基尼指数的区间值模糊粗糙集属性选择方法,其特征在于,包括如下步骤:
步骤一,选取区间值决策系统IVDS=(U,C∪D),其中U是论域,C是条件属性集,D是决策属性集,给出相似率α和停止条件ε;
步骤二,利用RBD相似度构建步骤一中论域U中每个对象的相似度矩阵;利用相似率α,获得论域U中每个对象ui相对于其他对象uj的α-相似类;
步骤三,计算条件属性集C中所有属性的基尼指数fullG=Gini(U,D,C);
步骤四,选择属性集为B,未选择的属性集为E,初始值设为E=C;
步骤五,对步骤四中未选择的属性集E中的每一个属性a∈E计算其属性重要度SGF(a,B,D);并获得选择属性重要度最大的属性a*=argmaxSGF(a,B,D);
步骤六,将步骤五中获得a*加入已选属性B中,得到新的已选属性B=B∪{a*},并从未选择的属性集中删除E=E-{a*};重新计算新的已选属性集B的基尼指数curG=Gini(U,D,B);
步骤七,判断条件属性C中所有属性的基尼指数减去步骤六中已选属性B的基尼指数差的绝对值是否小于阈值,即|fullG-curG|<ε;如果满足条件,输出当前选择属性集B;否则返回步骤五。
2.根据权利要求1所述的一种基于基尼指数的区间值模糊粗糙集属性选择方法,其特征在于,所述步骤二中RBD相似度通过以下公式(1)获得:
假设U={u1,u2,...,un}为区间值全集,其中对象
RBD相似度满足如下性质:
①0≤vij≤1;
②vij=1当且仅当ui=uj
③vij=vji。
3.根据权利要求1所述的一种基于基尼指数的区间值模糊粗糙集属性选择方法,其特征在于,对所述步骤二中论域U按照公式(2)进行计算,获得论域U中每个对象ui相对于其他对象uj的α-相似类;
假设IVDS=(U,C∪D)是区间值决策系统,给定的相似率α∈[0,1],和任意属性子集 代表ui和uj在任意属性子集A第k个属性上的相似度。
α-相似类满足如下性质:
①
②如果则有
4.根据权利要求1所述的一种基于基尼指数的区间值模糊粗糙集属性选择方法,其特征在于,所述步骤三中所有属性的基尼指数fullG=Gini(U,D,C)按照如下步骤获得:
步骤一,假设IVDS=(U,C∪D),通过公式(3)生成条件属性A的基尼指数为
其中
步骤二,通过公式(4)生成决策属性D的基尼指数为
其中,公式(4)中K是决策属性D的类别总个数,
步骤三,在属性A的条件下,通过公式(5)生成决策属性D的基尼指数为
其中Di是D中属于第i类的样本子集;
步骤四,在属性集C的条件下,通过公式(6)(7)生成决策属性D的基尼指数为
其中,Qj为中属于第j类的样本子集。
5.根据权利要求1所述的一种基于基尼指数的区间值模糊粗糙集属性选择方法,其特征在于,所述步骤五中属性重要度SGF(a,B,D)通过公式(8)生成,
SGF(a,B,D)=Gini(U,D,B)-Gini(U,D,B∪{a}) 公式(8)
其中,Qj为中属于第j类的样本子集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710495126.4A CN107436862A (zh) | 2017-06-26 | 2017-06-26 | 一种基于基尼指数的区间值模糊粗糙集属性选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710495126.4A CN107436862A (zh) | 2017-06-26 | 2017-06-26 | 一种基于基尼指数的区间值模糊粗糙集属性选择方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107436862A true CN107436862A (zh) | 2017-12-05 |
Family
ID=60458646
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710495126.4A Pending CN107436862A (zh) | 2017-06-26 | 2017-06-26 | 一种基于基尼指数的区间值模糊粗糙集属性选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107436862A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111199154A (zh) * | 2019-12-20 | 2020-05-26 | 重庆邮电大学 | 基于容错粗糙集的多义词词表示方法、系统及介质 |
-
2017
- 2017-06-26 CN CN201710495126.4A patent/CN107436862A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111199154A (zh) * | 2019-12-20 | 2020-05-26 | 重庆邮电大学 | 基于容错粗糙集的多义词词表示方法、系统及介质 |
CN111199154B (zh) * | 2019-12-20 | 2022-12-27 | 重庆邮电大学 | 基于容错粗糙集的多义词词表示方法、系统及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107391772B (zh) | 一种基于朴素贝叶斯的文本分类方法 | |
CN111061700A (zh) | 基于相似性学习的就医迁移方案推荐方法及系统 | |
CN103336771B (zh) | 基于滑动窗口的数据相似检测方法 | |
CN101004761A (zh) | 大规模文本逐次二分的层次聚类方法 | |
Tao et al. | Efficient top-k simrank-based similarity join | |
CN107832467A (zh) | 一种基于改进的Single‑pass聚类算法的微博话题检测方法 | |
CN111339247A (zh) | 一种微博子话题用户评论情感倾向性分析方法 | |
CN110633734B (zh) | 一种基于图论相关理论进行异常检测的方法 | |
CN104008187A (zh) | 一种基于最小编辑距离的半结构化文本匹配方法 | |
CN110097096A (zh) | 一种基于tf-idf矩阵和胶囊网络的文本分类方法 | |
CN115713270A (zh) | 一种同行互评异常评分检测及修正方法和装置 | |
KR101666740B1 (ko) | 빅 데이터 환경에서 의미론적 분석에 기반한 데이터마이닝을 위한 연관 규칙 생성 방법 | |
Xie et al. | GMDH-based outlier detection model in classification problems | |
CN110866087B (zh) | 一种基于主题模型的面向实体的文本情感分析方法 | |
CN114093445B (zh) | 一种基于偏多标记学习的患者筛选标记方法 | |
CN108596205B (zh) | 基于地域相关因子与稀疏表示的微博转发行为预测方法 | |
CN113343118B (zh) | 混合新媒体下的热点事件发现方法 | |
CN107436862A (zh) | 一种基于基尼指数的区间值模糊粗糙集属性选择方法 | |
Várkonyi-Kóczy et al. | Active problem workspace reduction with a fast fuzzy classifier for real-time applications | |
CN106484782A (zh) | 一种基于多核哈希学习的大规模医学图像检索方法 | |
Li et al. | An improved slope one algorithm for collaborative filtering | |
Parsafard et al. | Text classification based on discriminative-semantic features and variance of fuzzy similarity | |
CN109800384B (zh) | 一种基于粗糙集信息决策表的基本概率赋值计算方法 | |
Huang et al. | A parameterless feature ranking algorithm based on MI | |
CN112270185A (zh) | 一种基于主题模型的文本表示方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171205 |
|
RJ01 | Rejection of invention patent application after publication |