CN113052268A - 区间集数据类型下基于不确定性度量的属性约简算法 - Google Patents

区间集数据类型下基于不确定性度量的属性约简算法 Download PDF

Info

Publication number
CN113052268A
CN113052268A CN202110471932.4A CN202110471932A CN113052268A CN 113052268 A CN113052268 A CN 113052268A CN 202110471932 A CN202110471932 A CN 202110471932A CN 113052268 A CN113052268 A CN 113052268A
Authority
CN
China
Prior art keywords
attribute
interval set
interval
reduction
attributes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110471932.4A
Other languages
English (en)
Inventor
唐振民
张倚萌
贾修一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202110471932.4A priority Critical patent/CN113052268A/zh
Publication of CN113052268A publication Critical patent/CN113052268A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种区间集数据类型下基于不确定性度量的属性约简算法,包括以下步骤:(1)输入区间集数据,建立区间集型数据表下的粗糙集模型;(2)在区间集数据表的粗糙集模型下建立不确定性度量准则;(3)通过不确定性度量准则,计算全体条件属性的不确定性、区间集数据表的核属性和每个条件属性的属性重要度;(4)依次选择属性重要度最大的属性与核属性作为约简候选属性;(5)从约简候选属性中删除部分添加的冗余属性即可得到约简后的属性结合。本发明算法首次应用在区间集型数据表中,利用条件信息熵等准则构建一种不确定性度量作为度量指标的约简方法,约简后的数据比原本的数据有更低的维度,降低了数据量,提升了分类精度。

Description

区间集数据类型下基于不确定性度量的属性约简算法
技术领域
本发明涉及数据处理,特别涉及一种区间集数据类型下基于不确定性度量的属性约简算法。
背景技术
粗糙集理论作为一种处理不确定和模糊信息的有效数学工具,已经成功地被应用到数据分析、数据挖掘、知识获取和聚类分析等众多研究领域。在经典的粗糙集模型中,数据是以信息系统的形式存在的。一般情况下,信息系统中每个对象在属性集合上的值都是唯一的、完备的。然而在实际获取数据的过程中,由于获取方式的不同或不当导致数据缺失、数据错误以及数据本身并不完整等,很难直接得到完备的信息系统,因此普通的单值型信息系统不再适合表示这种类型的数据。为了更有效地表示这一类数据,本文采用区间集作为对象的属性值,构造了区间集信息系统。相对于单值型的表示方式,这种模糊的表示方式能更完整、更有效地保存原有的信息。
随着科技的进步和发展,人们获取的数据不仅对象的个数庞大,而且描述对象的属性个数也在不停地增加。这些大规模的数据严重影响了数据的处理效率,消耗了更多的时间和空间。这就要求我们对庞大的数据进行降维处理。通常情况下,降维的方法可以分为属性约简和特征抽取。属性约简的本质就是找到一组最小的属性集合来保持原有属性全集的某种性质不变。属性约简能够提高数据处理的效率,对数据挖掘起到积极的作用。通过属性约简,能够有效地降低问题的复杂度,提高分类学习算法的预测精度和可解释性。与特征抽取相比,属性约简方法不改变属性值本身,仅利用一定的评价函数从原本全集属性空间获取一组最佳的属性子集,从而降低属性空间的维数。
属性约简从提出到现在已经有了近三十年的发展,目前国内外学者对数据表的属性约简算法有了诸多的研究和改进。例如,Pawlak最早提出了在普通数据表下基于正域不变的属性约简算法。该算法采用粗糙集理论中的正域的大小作为约简的评价标准,旨在对约简前后的数据表的分类能力保持一致。该方法简单,计算复杂度较低,但很难提高约简后数据表的分类正确率,约简的长度不稳定。(Pawlak Z.Rough sets[J].InternationalJournal of Computer and Information Sciences,1982,11(5):341–356.)
考虑到数据表中属性值的缺失,普通的属性约简方法不能应用在不完备数据表中。Dai等人将条件决策熵扩展到不完备数据表中,并根据三种不同的策略设计了三种属性约简算法。该算法为我们提供了解决不完备数据表属性约简问题的思路,为不同类型的数据表的约简问题奠定了基础。(Jianhua Dai,Wentao Wang,Haowei Tian,et al.Attributeselection based on a new conditional entropy for incomplete decision systems[J].Knowledge Based Systems,2013,39:207–213.)
在处理不完备数据表时,通常对缺失的属性进行补全处理。然而,在补全属性值的过程中,使用单一的数值来表示某一不确定的信息往往会造成对象精度的缺失。因此,使用区间值或区间集的形式表示缺失的属性值更合适。Dai等人分析了区间值数据表的不确定性,给出了一种基于条件信息熵的属性约简算法。该算法能够很好的对区间值型的数据进行特征抽取,有效地降低原有数据的维度。但其算法不能用来处理区间集型的数据。(Jianhua Dai,Wentao Wang,Qing Xu,et al.Uncertainty measurement for interval-valued decision systems based on extended conditional entropy[J].Knowledge-Based Systems,2012,27:443–450.)
目前,大部分的属性约简算法的研究都是针对单值数据表和区间值数据表,然而,并没有人研究区间集数据表的属性约简算法,究其原因主要在于区间集型数据的属性值并不是单值的,而是一个区间集,以往的各种经典粗糙集模型或者拓展粗糙集模型不能直接地用在区间集数据表中,如何有效地定义对象之间的不可分辨关系和不确定性度量成为构造属性约简算法的基础。
发明内容
发明目的:本发明提供一种能够度量区间集数据类型的不确定性度量及基于该度量的属性约简算法。
技术方案:区间集数据类型下基于不确定性度量的属性约简算法,包括以下步骤:
(1)输入区间集数据,建立区间集型数据表下的粗糙集模型;
(2)在区间集数据表的粗糙集模型下建立不确定性度量准则;
(3)通过不确定性度量准则,计算全体条件属性的不确定性、区间集数据表的核属性和每个条件属性的属性重要度;
(4)依次选择属性重要度最大的属性与核属性作为约简候选属性;
(5)从约简候选属性中删除部分添加的冗余属性即可得到约简后的属性集合。
进一步的,步骤(1)中,所述建立区间集型数据表下的粗糙集模型,根据粗糙集理论,区间集数据表可以一个四元组组成
Figure BDA0003045700890000031
其中U是一个非空有限的对象集,
Figure BDA0003045700890000032
表示非空有限的条件属性集,D表示决策属性,即类标,
Figure BDA0003045700890000033
Figure BDA0003045700890000034
是条件属性a所有可能取值(每个值都是一个区间集),f是一个映射函数满足f:U→2ν
对于任意一个对象x∈U的任意一个条件属性
Figure BDA0003045700890000035
其属性值
Figure BDA0003045700890000036
Figure BDA0003045700890000037
是一个区间集,且满足
Figure BDA0003045700890000038
也就是说,对象x在条件属性a下的属性值一定包含
Figure BDA0003045700890000039
而可能包含
Figure BDA00030457008900000310
每个对象在每个属性上的值都是一个区间集。
进一步的,步骤(2)中,所述建立不确定性度量准则需要评价区间集数据中任意两个对象的不可分辨关系。在此之前,需要给出任意两个区间集的相似性。
定义1.设两个区间集
Figure BDA00030457008900000311
Figure BDA00030457008900000312
则区间集
Figure BDA00030457008900000313
与区间集
Figure BDA00030457008900000314
的相似度为:
公式一:
Figure BDA00030457008900000315
根据公式一可以得到任意两个对象在一个条件属性上相似度。
定义2.设xu和xl为区间集数据表的任意两个对象,区间集
Figure BDA00030457008900000316
Figure BDA00030457008900000317
分别是对象xu和xl在属性
Figure BDA00030457008900000318
上的值,则对象xu和xl关于属性i的相似度为:
公式二:
Figure BDA00030457008900000319
根据公式二可以得到区间集数据表中对象的二元相似关系。
定义3.设区间集数据表
Figure BDA00030457008900000320
对于
Figure BDA00030457008900000321
和一个阈值δ∈[0,1],则关于属性a的δ-区间相似关系定义如下:
公式三:
Figure BDA00030457008900000322
定义4.设一个区间集数据表
Figure BDA00030457008900000323
和任意一条件属性子集
Figure BDA00030457008900000324
则关于属性子集P的δ-区间相似关系为:
公式四:
Figure BDA00030457008900000325
根据公式三和公式四可以得到区间集数据表中每个对象的相似类。
定义5.设一个区间集数据表
Figure BDA0003045700890000041
和一个条件属性子集
Figure BDA0003045700890000042
Figure BDA0003045700890000043
则对象x∈U关于属性子集P的δ-区间相似类为:
公式五:
Figure BDA0003045700890000044
其中,δ为判别对象在每个属性上的相似程度的阈值。所述δ取值为0.3-0.5,δ取值越高,则表示对象在每个属性上的差异容忍度越小,每个对象相似类的大小越小;δ取值越低,则表示对象在每个属性上的差异容忍度越大,每个对象相似类的大小越大。
根据公式五可以得到区间集数据表的下、上近似集合,分别用以表示确定属于决策类的对象的集合和可能属于决策类的对象的集合。在粗糙集理论中,通常使用下近似集合和上近似集合的比来表示确定的程度。
定义6.给定一个区间集数据表
Figure BDA0003045700890000045
设任意一个条件属性子集
Figure BDA0003045700890000046
对象子集
Figure BDA0003045700890000047
和阈值δ∈[0,1],则对象子集X关于条件属性子集B的下、上近似集定义如下:
公式六:
Figure BDA0003045700890000048
公式七:
Figure BDA0003045700890000049
定义7.给定一个区间集数据表
Figure BDA00030457008900000410
设U/D={d1,d2,…,dm}为决策类,对于
Figure BDA00030457008900000411
决策类U/D关于条件属性子集B的δ-区间近似粗糙度定义为:
公式八:
Figure BDA00030457008900000412
区间近似粗糙度能够度量由上近似集带来的不确定性,而由粒度划分的不确定性需要条件信息熵来解决。
定义8.设一个区间集数据表
Figure BDA00030457008900000413
δ∈[0,1]。
Figure BDA00030457008900000414
Figure BDA00030457008900000415
是由B生成的粒度结构,δ-条件信息熵定义如下:
公式九:
Figure BDA00030457008900000416
其中,dj∈U/D。
根据公式八和九可以得到区间集数据表的不确定性度量
定义9.设一个区间集数据表
Figure BDA0003045700890000051
δ∈[0,1]。δ-区间决策条件熵定义如下:
公式十:
Figure BDA0003045700890000052
其中,
Figure BDA0003045700890000053
为δ-近似粗糙度,Hδ(D|B)为δ-条件信息熵。
用此不确定性度量既能够解决由上近似集合产生的不确定性,又能够解决由粒度划分产生的不确定性。同时该度量关于属性集合的大小单调,因此可以用来简化属性约简的过程,降低约简的时间复杂度。
进一步的,步骤(3)中,所述计算区间集数据表中约简所需的核属性和每个条件属性的属性重要度。
定义10.给定一个区间集数据表
Figure BDA0003045700890000054
对于任意δ∈[0,1],区间集决策熵约简的核定义为:
公式十一:
Figure BDA0003045700890000055
定义11.给定一个区间集数据表
Figure BDA0003045700890000056
δ∈[0,1],
Figure BDA0003045700890000057
对于任意
Figure BDA0003045700890000058
a在R中的属性重要度为:
公式十二:SIG(a,R)=IDHδ(D|R)-IDHδ(D|R-{a})
进一步的,步骤(4)中,所述依次选择属性重要度最大的属性与核属性作为约简候选属性,对原有的属性进行添加操作。当候选属性的不确定性值与全体属性的不确定性值相等时,则终止添加属性。
进一步的,步骤(5)中,所述从约简候选属性中删除部分添加的冗余属性即可得到约简后的属性结合,对候选属性进行删除操作,依次删除任意一个属性,若删除后不确定性值不变,则该属性为冗余的;否则该属性为约简属性。
有益效果:与现有技术相比,本发明具有以下显著效果:本发明定义了区间集数据表上对象的不可分辨关系,提出了一种不确定性度量,能同时度量由上近似集和粒度划分产生的不确定性。基于该不确定性度量,本发明提出的约简算法的约简结果能够减少属性个数的同时有效地提升分类精度。
附图说明
图1为本发明算法的流程示意图;
图2为相似率θ对约简长度的影响结果图;
图3为相似率θ对约简结果在KNN分类器下的影响结果图;
图4为相似率θ对约简结果在PNN分类器下的影响结果图。
具体实施方式
下面结合实施例对本发明做详细说明。
如图1所示,区间集数据类型下基于不确定性度量的属性约简算法,包括以下步骤:
(1)输入区间集数据,建立区间集型数据表下的粗糙集模型。
在粗糙集理论中,一个区间集数据表可以表示为四元组
Figure BDA0003045700890000061
Figure BDA0003045700890000062
其中U是一个非空有限的对象集,即论域;
Figure BDA0003045700890000063
表示非空有限的条件属性集,且属性值都是区间集;D表示决策属性且
Figure BDA0003045700890000064
即类标,
Figure BDA0003045700890000065
Figure BDA0003045700890000066
是条件属性a所有可能取值(每个值都是一个区间集),f是一个映射函数满足f:U→2v
在区间集数据表中,对象的属性值都是区间集,其不可分辨关系不能通过简单的比较属性值得大小来确定,而是需要比较区间集的包含程度。给定两个区间集
Figure BDA0003045700890000067
Figure BDA0003045700890000068
则区间集
Figure BDA0003045700890000069
与区间集
Figure BDA00030457008900000610
的相似度为:
公式一:
Figure BDA00030457008900000611
其中,
Figure BDA00030457008900000612
越大表示两个区间集越相似,
Figure BDA00030457008900000613
越小则表示两个区间集越不相似。
根据公式一可以确定任意两个对象在一个属性子集上的相似关系。给定
Figure BDA00030457008900000614
Figure BDA00030457008900000615
可以得到任意两个对象在属性子集P的δ-区间相似关系为:
公式二:
Figure BDA00030457008900000616
根据公式二的相似关系可以将论域划分为若干相似类。给定
Figure BDA00030457008900000617
可以得到:
公式三:
Figure BDA00030457008900000618
相似类是由区间集数据表中相似的对象组成的一簇,是粗糙集理论中表示信息的最小单位。
定义1.给定一个区间集数据表
Figure BDA00030457008900000619
设任意一个条件属性子集
Figure BDA00030457008900000620
对象子集
Figure BDA00030457008900000621
和阈值δ∈[0,1],则对象子集X关于条件属性子集B的下、上近似集定义如下:
公式四:
Figure BDA0003045700890000071
公式五:
Figure BDA0003045700890000072
从定义1可以看出,在粗糙集理论中,一个未知的目标集合可以用一个下近似集合和一个上近似集合来表示。其中,下近似集合表示确定属于目标集合的相似类的集合,上近似集合表示可能属于目标集合的相似类的集合。
(2)在区间集数据表的粗糙集模型下建立不确定性度量准则;
在粗糙集理论中,当下近似集与上近似集不相等时,不能用当前的相似类来准确的描述目标集合,此时区间集数据表的不确定性是由上近似集合产生的。根据公式四和公式五可以用如下定义所示的区间近似粗糙度来描述该不确定性。
定义2.给定一个区间集数据表
Figure BDA0003045700890000073
设U/D={d1,d2,…,dm}为决策类,对于
Figure BDA0003045700890000074
决策类U/D关于条件属性子集B的δ-区间近似粗糙度定义为:
公式六:
Figure BDA0003045700890000075
根据公式六可以看出,下、上近似集合的比值表示确定属于目标集合占可能属于目标集合的百分比,能够有效地反应由上近似集合带来的不确定性。然而,当属性集合发生变化时,相似类的大小也会发生变化,描述目标集合的精确程度也会发生变化。这就需要使用条件信息熵来解决由粒度变化而产生的不确定性。
定义3.设一个区间集数据表
Figure BDA0003045700890000076
δ∈[0,1]。
Figure BDA0003045700890000077
Figure BDA0003045700890000078
是由B生成的粒度结构,δ-条件信息熵定义如下:
公式七:
Figure BDA0003045700890000079
根据公式七可以得出,当粒度变小时,δ-条件信息熵会随着条件属性子集的增加(或随着阈值的减小)而减小,反之依然;也就是说,当条件属性子集增加时,需要的特征信息增加,区间集决策信息表中的粒度会减小,分类更准确,从而导致不确定性会减小,因此熵值变小。特别的所有的对象都分类正确时,即
Figure BDA00030457008900000710
都有
Figure BDA00030457008900000711
使得
Figure BDA00030457008900000712
当前的区间集决策信息表是确定度,熵值为0;反之,当所有的分类都是错误的,且满足
Figure BDA00030457008900000713
Figure BDA00030457008900000714
|dj|=1,此时的区间集决策信息表的不确定性达到最大,熵值为log|U|。
根据公式六和公式七,可以得出新的不确定性度量。
定义4.设一个区间集数据表
Figure BDA0003045700890000081
δ∈[0,1]。δ-区间决策条件熵定义如下:
定义八:
Figure BDA0003045700890000082
其中,
Figure BDA0003045700890000083
为δ-近似粗糙度,Hδ(D|B)为δ-条件信息熵。
(3)通过不确定性度量准则,计算全体条件属性的不确定性、区间集数据表的核属性和每个条件属性的属性重要度;
在属性约简的过程中,计算核属性和属性的重要度是一个不可或缺的步骤。核属性是所有约简属性的集合,是不可或缺的属性的集合。核属性的计算能够减少算法的搜索空间,属性重要度的计算能够更有效地选择出冗余的属性。
定义5.给定一个区间集数据表
Figure BDA0003045700890000084
对于任意δ∈[0,1],区间集决策熵约简的核定义为:
公式九:
Figure BDA0003045700890000085
定义6.给定一个区间集数据表
Figure BDA0003045700890000086
δ∈[0,1],
Figure BDA0003045700890000087
对于任意
Figure BDA0003045700890000088
a在R中的属性重要度为:
公式十:SIG(a,R)=IDHδ(d|R)-IDHδ(d|R-{a})
(4)依次选择属性重要度最大的属性与核属性作为约简候选属性;
属性约简是粗糙集理论中的一个重要内容,它是保持当前决策表中某种性质的最小独立属性子集。这个性质可以根据用户自己的偏好或者要求的数据结果来灵活地定义。本发明将使用区间决策熵来定义区间集决策表的属性约简。
定义7.设一个区间集数据表
Figure BDA0003045700890000089
δ∈[0,1]。条件属性子集P是
Figure BDA00030457008900000810
的一个区间决策熵约简当且仅当满足下面两个条件:
IDHδ(D|B)=IDHδ(D|C)
对于
Figure BDA00030457008900000811
都有IDHδ(D|Q)≠IDHδ(D|C)
在定义7中,条件1称为充要条件,条件2称为必要条件。充要条件保证了在条件属性子集B下保持着条件属性全集C下决策表的不确定性,必要条件保证了B的任意属性子集都不能保持C下决策表的不确定性,即该约简是最小条件属性子集。由于公式(8)保证了区间决策熵关于粒度划分的变化单调,所以必要条件中不需要对条件属性集合B的所有子集进行检查,而只需要对所有a∈B检查一遍子集B-{a},即对于
Figure BDA0003045700890000091
都有IDHδ(D|B-{a})≠IDHδ(D|C)。这就大大的减少了计算的复杂性,这也是区间决策熵度量可以用来进行属性约简的合理性之一。
根据公式十可以得到每个属性的重要度,将属性重要度从大到小排列,依次添加到核属性中。若在当前属性集合下,不确定性值与区间集数据表的初始不确定性值相等时,则停止添加属性;否则直到添加完所有的属性为止。
(5)从约简候选属性中删除部分添加的冗余属性即可得到约简后的属性集合。
在添加属性的过程中,存在添加冗余属性的可能。因此需要对候选属性进行检测。对于任意一个属性a,当IDHδ(D|R′-{a})≠IDHδ(D|C)时,则该属性a是冗余的,需要删除该属性,其中R′时候选属性;反之,则说明该属性是约简属性,不可删除,直到遍历所有的属性。
根据上述步骤,算法1构建了一种区间集数据类型下基于不确定性度量的属性约简算法。
Figure BDA0003045700890000092
Figure BDA0003045700890000101
为了验证上述方法中所提出的区间决策熵约简的有效性,本发明选取了UCI数据集上的10个数据进行试验。相关数据的详细信息由表1所示,其中,|U|为论域中对象的个数,|C|为条件属性的个数,|Vd|为决策类的个数。在UCI数据中,数据的属性值都是单值型,在实验之前需要将其转化为区间集决策表。本次实验主要分为两个部分:第一部分为基于区间决策熵的属性约简的结果与原始数据在约简长度和分类正确率上的对比实验,以及基于三个不同的二元相似关系得到的约简结果的对比实验;第二部分为相似率对约简结果的影响实验。
表1UCI数据集
编号 数据集 |U| |C| |V<sub>d</sub>|
1 Credit 690 15 2
2 Breast Cancer 286 9 2
3 Lymphography 148 18 4
4 Unbalance 856 32 2
5 Ecoli 336 7 8
6 Chess 3196 36 2
7 Tic-tac-toe 958 9 2
8 Heart Disease 294 13 2
9 Primary tumor 339 17 21
10 Audiology 226 69 24
第一部分:约简结果的对比实验。
实验采用了10倍交叉验证的方法,即将实验数据中的对象平均分成10份,分别为U1,U2,…,U10。当第一次运行时,使用U1∪U2∪U3…∪U9作为训练集求的约简结果,U10作为测试集用来测试分类器的分类正确率;第二次使用U1∪U2∪U3…∪U10作为训练集求的约简结果,U9作为测试集用来测试分类器的分类正确率;以此类推,第十次使用U2∪U3∪U4…∪U10作为训练集求的约简结果,U1作为测试集用来测试分类器的分类正确率。本次实验采用KNN分类器和PNN分类器对区间集数据表表进行分类正确率的计算。实验中,我们设置相似率阈值θ=0.4,KNN分类器中参数k=5,PNN分类器的高斯函数中参数σ=0.1。
实验结果由表2所示。表中分别显示的是原始数据约简之前和约简之后属性的长度(Length),在KNN分类器下的分类正确率(KNN Acc)和在PNN分类器下的分类正确率(PNNAcc)。对于表中约简后的属性的长度,以及约简前后的分类正确率都采用记录平均值和标准差的方法。一方面考虑了约简的平均性能,另一方面考虑了约简结果的稳定性。
表2基于不确定性度量的约简结果的比较
Figure BDA0003045700890000111
由表2的约简结果可以看出,约简后的属性长度在不同的数据集上都有所减少,在Lymphography、Unbalance和Audiology等三个数据集上,属性长度的约简率达到了28%、36%和20%,大大地减少了属性的个数。不仅如此,约简后的数据在KNN分类器和PNN分类器的分类正确率与原始数据的相比,都有一定程度的提高。其中,约简后的数据在KNN分类器上的分类正确率比所有的原始数据的分类正确率都高,而约简后的数据在PNN分类器上的分类正确率也比9个原始数据的分类正确率高。由此可见,使用本发明的算法得到在约简后的分类正确率比约简之前的分类正确率都要高,这表明了约简的有效性。
第二部分:参数对约简结果的影响。
实验为测试相似率θ对约简结果的影响。在实验的过程中,设置相似率的范围为θ∈[0.2,0.7],且依次增加0.1。
实验结果分别由图2、图3和图4所示。由图2所示,随着相似率θ的增加,约简的长度在各个数据集上的变化并不明显,只有在Unbalance数据集上,约简的长度有下降的趋势。而约简后的结果在大部分数据集上的分类正确率的变化是比较明显的。由图3-4所示,在KNN和PNN分类器上,数据集Brest cancer,和Lymphography的分类正确率随着相似率的增加变化是最大的。导致该结果的原因在于KNN和PNN分类器中,重定义的距离与相似率θ有关。任意两个对象在同样的属性下,相似率θ不同,这两个对象的距离是不同的。因此,分类正确率是会发生改变的。
由此可见,本发明的算法能够很好的处理区间集数据表的约简问题,约简后的属性个数减少,而分类正确率却比原始数据更高,验证了算法的有效性。

Claims (6)

1.一种区间集数据类型下基于不确定性度量的属性约简算法,其特征在于:包括以下步骤:
(1)输入区间集数据,建立区间集型数据表下的粗糙集模型;
(2)在区间集数据表的粗糙集模型下建立不确定性度量准则;
(3)通过不确定性度量准则,计算全体条件属性的不确定性、区间集数据表的核属性和每个条件属性的属性重要度;
(4)依次选择属性重要度最大的属性与核属性作为约简候选属性;
(5)从约简候选属性中删除部分添加的冗余属性即可得到约简后的属性集合。
2.根据权利要求1所述的区间集数据类型下基于不确定性度量的属性约简算法,其特征在于:步骤(1)中,所述建立区间集型数据表下的粗糙集模型的具体步骤为:
a.对于输入的区间型数据,采用一个区间集数据表
Figure FDA0003045700880000011
来表示,其中U为一个非空有限的对象集,
Figure FDA0003045700880000012
为非空有限的条件属性集,D为决策属性,
Figure FDA0003045700880000013
Figure FDA0003045700880000014
是条件属性a所有可能取值(每个值都是一个区间集),f是一个映射函数满足
Figure FDA0003045700880000015
b.通过比较对象在每个属性上的相似程度,将论域U划分为若干个相似类,每个相似类中对象在全体属性集
Figure FDA0003045700880000016
上是不可分辨的;计算区间近似粗糙度如下:
Figure FDA0003045700880000017
其中,B δdi为下近似集,
Figure FDA0003045700880000018
为上近似集,δ为对象的相似率阈值。
3.根据权利要求1所述的区间集数据类型下基于不确定性度量的属性约简算法,其特征在于:步骤(2)中,所述建立不确定性度量准则,其公式如下:
Figure FDA0003045700880000019
其中,
Figure FDA00030457008800000110
为区间近似粗糙度,Hδ(D|B)为条件信息熵;
在区间集数据表中,条件信息熵Hδ(D|B)有下面公式表示:
Figure FDA00030457008800000111
其中,
Figure FDA00030457008800000112
为数据表的相似类,dj为决策属性的决策类。
4.根据权利要求1所述的区间集数据类型下基于不确定性度量的属性约简算法,其特征在于:步骤(3)中,所述计算区间集数据表的核属性,其公式如下:
Figure FDA0003045700880000021
核属性将作为约简的候选属性,对其余的属性计算属性重要程度,其公式如下:
SIG(a,R)=IDHδ(D|R)-IDHδ(D|R-{a})
5.根据权利要求1所述的区间集数据类型下基于不确定性度量的属性约简算法,其特征在于:步骤(4)中,所述依次选择属性重要度最大的属性与核属性作为约简候选属性,若对于每个非核属性a,满足如下公式:
IDHδ(d|R)≠IDHδ(d|C)
则将该属性添加到核属性中,否则不添加该属性。
6.根据权利要求1所述的区间集数据类型下基于不确定性度量的属性约简算法,其特征在于:步骤(5)中,所述从约简候选属性中删除部分添加的冗余属性,若删除其中一个属性时满足如下公式:
IDHδ(d|R-{a})=IDHδ(d|C)
则该属性为冗余属性,并删除属性,否则继续选择下一属性。
CN202110471932.4A 2021-04-29 2021-04-29 区间集数据类型下基于不确定性度量的属性约简算法 Withdrawn CN113052268A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110471932.4A CN113052268A (zh) 2021-04-29 2021-04-29 区间集数据类型下基于不确定性度量的属性约简算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110471932.4A CN113052268A (zh) 2021-04-29 2021-04-29 区间集数据类型下基于不确定性度量的属性约简算法

Publications (1)

Publication Number Publication Date
CN113052268A true CN113052268A (zh) 2021-06-29

Family

ID=76517794

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110471932.4A Withdrawn CN113052268A (zh) 2021-04-29 2021-04-29 区间集数据类型下基于不确定性度量的属性约简算法

Country Status (1)

Country Link
CN (1) CN113052268A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113919763A (zh) * 2021-12-13 2022-01-11 国网江西省电力有限公司电力科学研究院 一种基于模糊评判矩阵的电网灾害分析方法及装置
CN114023063A (zh) * 2021-11-02 2022-02-08 大连理工大学 一种基于认知网络的智能交通系统协同决策方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114023063A (zh) * 2021-11-02 2022-02-08 大连理工大学 一种基于认知网络的智能交通系统协同决策方法
CN113919763A (zh) * 2021-12-13 2022-01-11 国网江西省电力有限公司电力科学研究院 一种基于模糊评判矩阵的电网灾害分析方法及装置

Similar Documents

Publication Publication Date Title
CN108846259B (zh) 一种基于聚类和随机森林算法的基因分类方法及系统
CN110222745B (zh) 一种基于相似性学习及其增强的细胞类型鉴定方法
US6532305B1 (en) Machine learning method
Cowell Conditions under which conditional independence and scoring methods lead to identical selection of Bayesian network models
Antunes et al. Knee/elbow estimation based on first derivative threshold
CN106250442A (zh) 一种网络安全数据的特征选择方法及系统
Iorio et al. Parsimonious time series clustering using p-splines
CN113052268A (zh) 区间集数据类型下基于不确定性度量的属性约简算法
Li et al. Linear time complexity time series classification with bag-of-pattern-features
CN113344019A (zh) 一种决策值选取初始聚类中心改进的K-means算法
CN107247873A (zh) 一种差异甲基化位点识别方法
US20230029947A1 (en) Medical disease feature selection method based on improved salp swarm algorithm
CN107992722A (zh) 基于对称不确定性和信息交互增益的特征选择方法
Dai et al. Feature selection via max-independent ratio and min-redundant ratio based on adaptive weighted kernel density estimation
CN112967755A (zh) 一种面向单细胞rna测序数据的细胞类型识别方法
Gooljar et al. Performance evaluation and comparison of a new regression algorithm
CN117892209A (zh) 一种基于支持向量机和进化计算的过采样方法
CN111488903A (zh) 基于特征权重的决策树特征选择方法
CN117056761A (zh) 一种基于x-dbscan算法的客户细分方法
Peignier et al. Data-driven gene regulatory networks inference based on classification algorithms
Wang et al. Fuzzy C-means clustering algorithm for automatically determining the number of clusters
CN113269217A (zh) 基于Fisher准则的雷达目标分类方法
CN112906751A (zh) 一种非监督学习识别异常值的方法
Kuzudisli et al. Effect of recursive cluster elimination with different clustering algorithms applied to gene expression data
CN113205124A (zh) 一种基于密度峰值的高维真实场景下的聚类方法、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210629

WW01 Invention patent application withdrawn after publication