CN1300730C - 应用定向搜索的后向粗糙集属性约简方法 - Google Patents
应用定向搜索的后向粗糙集属性约简方法 Download PDFInfo
- Publication number
- CN1300730C CN1300730C CNB2004100671515A CN200410067151A CN1300730C CN 1300730 C CN1300730 C CN 1300730C CN B2004100671515 A CNB2004100671515 A CN B2004100671515A CN 200410067151 A CN200410067151 A CN 200410067151A CN 1300730 C CN1300730 C CN 1300730C
- Authority
- CN
- China
- Prior art keywords
- attribute
- memory block
- initial
- collections
- directed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种应用定向搜索的后向粗糙集属性约简方法,利用属性子集的互信息和冗余协同系数作为粗糙集属性约简的度量,从经过排序的初始属性集出发,从初始属性集的孩子子集中选取若干个冗余协同系数最小的等价属性子集,存储在定向存储区;然后再从这些等价属性子集出发,从它们的孩子子集中选取若干个冗余协同系数最小的等价属性子集作进一步搜索,以此类推,直到不能够找到等价属性子集为止,最后存储在定向存储区的属性子集就是属性约简结果。本发明方法实现灵活简单,针对性强,通用性强,具有多项式时间复杂度,可应用于所有粗糙集属性约简领域。
Description
技术领域
本发明涉及一种粗糙集属性约简方法,尤其涉及一种以互信息作约简度量,采用了定向(Beam)搜索技术的后向粗糙集属性约简方法,为粗糙集知识获取提供了良好途径,属于信息处理领域。
背景技术
随着信息技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。因此,研究能够从大量信息中形成概括(归纳)的方法就显得越来越重要,但是高级的智能数据分析技术还远没有成熟。
粗糙集理论是由Z.Pawlak提出的一种研究不确定、不完整知识和数据归纳、表达的理论方法,已被广泛应用于数据挖掘,机器学习,人工智能以及故障诊断等领域,成为近年的科学研究热点。粗糙集理论通过属性约简和值约简来得到分类规则,进而处理分类问题。属性约简是粗糙集理论分类规则获取过程中的一个基本操作,它是指在保持初始属性集的分类能力的前提下删除不相关和冗余的属性。在属性约简的基础上,再作进一步的值约简,得到简化的分类规则。
最小属性约简(也称最优)是得到一个最小的属性子集,使得它的分类能力与初始属性集相同。粗糙集属性约简的目标就是最小属性约简,它已经被证明是非线性多项式困难(NP-hard)的。目前属性约简的方法可以归结为两大类:
(1)完全搜索方法,完全搜索方法是指评价每一种可能的属性子集,来得到最小的属性约简结果。最直观的完全搜索方法就是穷举组合搜索,即评价每一种属性组合。这种方法是最耗时间的一种办法,如前向穷举组合搜索方法。当搜索评价度量具有单调性性质时,可以采用分支界限方法来作完全搜索。采用互信息作为属性约简度量时,可以采用分支界限方法,如自动分支界限方法(ABB)和分支界限方法(B&B),它们都以初始属性集的互信息作为属性约简的界。区别在于前者是宽度优先搜索方法,后者采用深度优先搜索方法。只有完全搜索方法可以保证实现最小属性约简,但是它的时间复杂度为指数形式,当属性集过大时(通常是>20),完全搜索方法由于运行时间过长就变得不适用。
(2)启发式搜索方法,启发式搜索根据某个方向来确定搜索过程,最常见的是最好最先方法(Best First)。通常的启发式属性约简方法是逐个考察每个属性看是否能被删除,很显然这种方法根据属性被考察的先后顺序而不同。再有就是基于互信息的Best First启发式属性约简方法,它从核出发,以最大化互信息作为搜索方向进行属性约简。启发式方法的缺点在于它是单方向的,即只有一个搜索前进的方向。运算时间相对于完全搜索方法被大大减少,但往往产生一个很差的属性约简结果。
发明内容
本发明的目的在于克服现有粗糙集属性约简方法的不足,提供一种新的粗糙集属性约简方法,实现高质量的属性约简和运算的快速性,满足分类学习的实际需要。
为了实现这样的目的,本发明利用属性子集的互信息和冗余协同系数(redundancy-synergy coefficient,RSC,
A={fi|i=1,..,a})作为粗糙集属性约简的度量,从经过排序的初始属性集F出发,从初始属性集的孩子子集(所谓孩子是指删除掉一个属性得到的属性子集)中选取M个冗余协同系数最小的等价属性子集(所谓等价属性子集是指互信息相等),存储在定向存储区;然后,再从这M个等价属性子集出发,从它们的孩子子集中选取M个冗余协同系数最小的等价属性子集存储到定向存储区作进一步搜索;以此类推,直到没有等价属性子集能够被找到为止,由此最后存储在定向存储区的属性子集就是属性约简结果。
本发明方法的具体步骤如下:
1、初始化:将初始属性集F中的每个属性按照互信息从小到大重新排列,互信息小的属性排在前面,互信息大的属性排在后面,并且将经过排序后的初始属性集F存入定向存储区(Beam)中。
2、定向搜索:清空暂态存储区(Queue);对于定向存储区中的初始属性集,根据冗余协同系数特性可以通过依次从前往后删除一个属性来找到它的M个冗余协同系数最小的孩子等价属性子集,也就是前M个孩子等价属性子集,记作属性子集存入暂态存储区,其中,冗余协同系数
A={fi|i=1,..,a},A表示属性子集,fi表示属性,I(A;P)表示A与分类属性P的互信息,I(fi;P)表示fi与分类属性P的互信息;如果孩子等价属性子集个数小于M个,则取全部孩子等价属性子集存入暂态存储区。
3、定向搜索停止条件判别:如果暂态存储区包含属性子集,则清空定向存储区;从暂态存储区中找出冗余协同系数最小的M个属性子集,存入定向存储区,如果暂态存储区中的属性子集小于M个,则取暂态存储区中的全部属性子集存入定向存储区,然后对于定向存储区中的每个属性子集,按步骤2对初始属性集处理的同样方法继续进行定向搜索。如果暂态存储区不包含属性子集,则输出定向存储区中的所有属性子集,由此得到属性约简结果。
本发明的方法可以通过灵活调节M值来保证运算的快速性和属性约简结果的质量。M的取值可以根据初始属性集的大小设定一个初始值,并可随运算时间长短进行调整,运算时间过长,则减少M的取值,反之则增大M的取值,直到取得满意的属性约简结果。初始属性集越大,M取初始值越小。由于可以扩大搜索范围,因而可以得到更多更优的属性约简结果,但同时保证运算的快速性。本发明是一个启发式属性约简方法,与一般的最优最先方法不同的是,它可以看作是最优最先方法的扩展,或者,最优最先方法是它的一个特例。
本发明利用属性子集的互信息和属性之间的信息冗余性度量——冗余协同系数作为属性约简度量,作一个后向搜索的属性约简。方法实现灵活简单,针对性强,通用性强,具有多项式时间复杂度,可应用于所有粗糙集属性约简领域。
附图说明
图1为本发明方法中的定向搜索示意图。
具体实施方式
为了更好的理解本发明的技术方案,以下结合附图和实施例作进一步描述。
(1)初始化:
将初始属性集F中的每个属性按照互信息I(fi;P)从小到大重新排列,并且将经过排序后的初始属性集F存入定向存储区(Beam)中。互信息从小到大排列就是为了方便找到定向存储区中属性子集的前M个冗余协同系数最小的孩子等价属性子集,这样可以压缩定向搜索空间,减少搜索时间。
注意冗余协同系数从信息量商的角度来描述属性子集的冗余程度和组合协同能力。A(A={fi|fi∈A,i=1,...,a})F,RSC(A)称为属性子集A的冗余协同系数,其计算如式(1),
冗余协同系数是一个相对信息度量的概念。冗余协同系数的取值范围为(0,∞)。冗余协同系数越小,属性的组合能力越弱,说明属性之间包含类信息的冗余越大,越多的属性能被删除而保持互信息不减少。它具有以下两个性质:
(1)如果I(A;P)=I(B;P),且AB,则RSC(A)≥RSC(B)。
(2)对于属性子集AF,A={f1,f2,...,fa},如果I(f1;P)<I(f2;P)<...<I(fa;P),且I(A-{fi|i=1,2,...,a};P)=I(A;P),则RSC(A-{f1})<RSC(A-{f2})<...<RSC(A-{fa})<RSC(A)。
在本发明中首先将初始属性集F中的属性按照互信息从小到大排列。根据冗余协同系数性质(2),运用这个排列只需要通过从前往后依次删除一个属性来找到每个父属性子集的前M个孩子等价属性子集,而不需考虑这个父属性子集所有的孩子属性子集。因为对于定向存储区Beam中的每个节点(即属性子集),前M个孩子等价属性子集的冗余协同系数最小,这大大节省了运算时间。所以初始化过程中将初始属性集F中的属性按照互信息从小到大排列。
(2)定向搜索:
最优最先搜索通常是一个评价度量最优节点作为下一步搜索的起点,而定向搜索则选取M个评价度量好的节点作为下一步搜索的起点。定向搜索可以是一个“树有限宽度搜索”方法,其树搜索宽度设为M,称为定向宽度。定向搜索过程如图1所示,图中黑色节点表示用于作进一步搜索的节点,白色节点为搜索过程中被舍弃掉的节点,定向宽度M为2。每一层中有两个最好的满足优化条件的树节点作为下一步搜索的出发点,来做进一步搜索,直到满足搜索停止条件,最后结果为节点1和2。如果只能够找到K(K<M)个冗余协同系数最小的等价属性子集,则取这K个属性子集作进一步搜索。
冗余协同系数是属性集的一个属性协同表达类属性的冗余性和协同能力的度量,冗余协同系数越小,冗余度越大,越可能有多的冗余属性能被删除,也即更可能找到一个更小的F的等价属性子集,因此,可以将冗余协同系数作为属性子集选择度量,结合定向搜索方法,进行后向删除属性约简。
(3)定向搜索停止条件判别:
当暂态存储区中为空,说明没有找到等价属性子集时,因此上一次找到的存储在定向存储区中的等价属性子集被认为是找到的最小的等价属性子集,因此定向搜索停止,得到属性约简结果。如果有,说明可以作进一步的定向搜索,从暂态存储区中找出冗余协同系数最小的M个属性子集,存入定向存储区,如果暂态存储区中的属性子集小于M个,则取暂态存储区中的全部属性子集存入定向存储区,继续第(2)步的搜索。
本发明属性约简方法的运行时间与两个因素有关系:(1)属性子集互信息的计算;(2)搜索空间,即被评价的属性子集的个数。一个属性子集评价的时间取决于属性子集对样本集(样本集包含p个属性,m个样本)的划分,采用散列法来进行划分,属性子集评价的时间复杂度为O(m)。设r为约简结果子集大小,本发明方法被评价的属性子集个数不大于0.5*M*(p-r)*(p-1+r)+p+1,所以,本发明的时间复杂度为O(mMp2)。实际上,因为通过属性排序和孩子属性子集产生框架减少了多余的属性子集评价,因此本发明的搜索空间远小于0.5*M*(p-r)*(p-1+r)+p+1。当M=1时,本发明的时间复杂度为O(mp)。
实验选取5个UCI标准数据集:Corral、Monk1、Parity5+2、Vote、Mushroom。首先选用ABB方法作属性约简,结果和运算时间如表1所示。对于Mushroom数据集,运算时间超过2小时,认为ABB方法是不适合的,用“-”表示。本发明方法的属性约简结果分别如表2所示,M分别取1、p和2p。从表中可以看出它们几乎能够得到最有属性约简子集,但时间相对ABB方法却大大下降。对于Mushroom数据集,本发明方法也得到了良好的属性约简结果,而ABB方法由于是一个完全搜索方法却不能够。
表1数据集信息与ABB方法属性约简结果
数据集 | 样本数 | 初始属性集大小 | u | ABB | |
AS | t(ms) | ||||
CorralMonk1Parity5+2VoteMushroom | 12843210244358124 | 66101622 | 22222 | {f1-f4}{f1,f2,f5}{f1-f5}(1){f1,f3-f5,f7}(2){f2-f6}(3){f3-f7}(4){f1-f4,f9,f11,f13,f15,f16}- | 3196502697- |
u为类别数,AS为属性约简子集,t为运算时间。
表2本发明方法属性约简结果
数据集 | 本发明(M=2p) | 本发明(M=p) | 本发明(M=1) | |||
AS | t(ms) | AS | t(ms) | AS | t(ms) | |
CorralMonklParity5+2VoteMushroom | {f1-f4}{f1,f2,f5}{f3-f7 (1){f1,f3-f5,f7}(2){f2-f6}(3){f1-f5}(4){f1-f4,f9,f11,f13,f15,f16}{f5,f20,f21,f12}(1){f4,f5,f12,f22}(2) | 213403985659219 | {f1-f4}{f1,f2,f5}{f3-f7}(1){f1,f3-f5,f7}(2){f2-f6}(3){f1-f4,f9,f11,f13,f15,f16}15 | 213397765369640 | {f1-f4}{f1,f2,f5}{f1-f5}{f1-f4,f9,f11,f13,f15,f16}{f5,f8,f12,f19,f20} | 2449422389 |
Claims (1)
1、一种应用定向搜索的后向粗糙集属性约简方法,其特征在于包括如下步骤:
1)初始化:将初始属性集中的每个属性按照互信息从小到大重新排列,互信息小的属性排在前面,互信息大的属性排在后面,并且将经过排序后的初始属性集存入定向存储区中;
2)定向搜索:清空暂态存储区;对于定向存储区中的初始属性集,根据冗余协同系数特性,通过依次从前往后删除一个属性来找到它的M个冗余协同系数最小的孩子等价属性子集,也就是前M个孩子等价属性子集,记作属性子集存入暂态存储区,其中,冗余协同系数
A={fi|i=1,..,a},A表示属性子集,fi表示属性,I(A;P)表示A与分类属性P的互信息,I(fi;P)表示fi与分类属性P的互信息;如果孩子等价属性子集个数小于M个,则取全部孩子等价属性子集存入暂态存储区;其中M的取值根据初始属性集的大小设定一个初始值,并随运算时间长短进行调整,初始属性集越大,M的初始值就取得越小,运算时间长则减少M的取值,反之则增大M的取值;
3)定向搜索停止条件判别:如果暂态存储区包含属性子集,则清空定向存储区,从暂态存储区中找出冗余协同系数最小的M个属性子集,存入定向存储区,如果暂态存储区中的属性子集小于M个,则取暂态存储区中的全部属性子集存入定向存储区,然后对于定向存储区中的每个属性子集,按步骤2)对初始属性集处理的同样方法继续进行定向搜索;如果暂态存储区不包含属性子集,则输出定向存储区中的所有属性子集,由此得到属性约简结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2004100671515A CN1300730C (zh) | 2004-10-14 | 2004-10-14 | 应用定向搜索的后向粗糙集属性约简方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2004100671515A CN1300730C (zh) | 2004-10-14 | 2004-10-14 | 应用定向搜索的后向粗糙集属性约简方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1588363A CN1588363A (zh) | 2005-03-02 |
CN1300730C true CN1300730C (zh) | 2007-02-14 |
Family
ID=34604132
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2004100671515A Expired - Fee Related CN1300730C (zh) | 2004-10-14 | 2004-10-14 | 应用定向搜索的后向粗糙集属性约简方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1300730C (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9399624B2 (en) | 2012-10-30 | 2016-07-26 | Shanghai Jingxin Biomedical Co., Ltd. | Process for preparing (1S)-1-phenyl-3,4-dihydro-2(1H)-isoquinoline-carboxylate |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103336790B (zh) * | 2013-06-06 | 2015-02-25 | 湖州师范学院 | 基于Hadoop的邻域粗糙集快速属性约简方法 |
CN112435742B (zh) * | 2020-10-22 | 2023-10-20 | 北京工业大学 | 一种用于对fMRI脑功能连接数据进行特征约简的邻域粗糙集方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6438540B2 (en) * | 1998-08-14 | 2002-08-20 | Vignette Corporation | Automatic query and transformative process |
-
2004
- 2004-10-14 CN CNB2004100671515A patent/CN1300730C/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6438540B2 (en) * | 1998-08-14 | 2002-08-20 | Vignette Corporation | Automatic query and transformative process |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9399624B2 (en) | 2012-10-30 | 2016-07-26 | Shanghai Jingxin Biomedical Co., Ltd. | Process for preparing (1S)-1-phenyl-3,4-dihydro-2(1H)-isoquinoline-carboxylate |
Also Published As
Publication number | Publication date |
---|---|
CN1588363A (zh) | 2005-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0660134A2 (en) | Efficient multi-target tracking method | |
WO2017005192A1 (en) | Mechanisms for merging index structures in molap while preserving query consistency | |
Calders et al. | Mining rank-correlated sets of numerical attributes | |
US20080046455A1 (en) | Query feedback-based configuration of database statistics | |
Wen et al. | An optimal algorithm for MoJo distance | |
CN1636168A (zh) | 用于数据压缩的群集 | |
CN111444294A (zh) | 一种轨迹补全方法、装置及电子设备 | |
Chen et al. | Approximating median absolute deviation with bounded error | |
CN104778480A (zh) | 一种基于局部密度和测地距离的分层谱聚类方法 | |
CN109766919B (zh) | 级联目标检测系统中的渐变式分类损失计算方法及系统 | |
CN1300730C (zh) | 应用定向搜索的后向粗糙集属性约简方法 | |
US6317735B1 (en) | Method and apparatus for determining rule in database | |
Ho et al. | An adaptive information-theoretic approach for identifying temporal correlations in big data sets | |
CN113257357B (zh) | 蛋白质残基接触图预测方法 | |
Chatzigeorgakidis et al. | Local pair and bundle discovery over co-evolving time series | |
Wang et al. | Stull: Unbiased online sampling for visual exploration of large spatiotemporal data | |
CN116109616A (zh) | 基于YOLOv5的路面裂缝检测及小面元拟合检测方法 | |
Matson et al. | Site relationships at Quebrada Tarapaca, Chile: a comparison of clustering and scaling techniques | |
CN113742929B (zh) | 一种针对格点气象实况的数据质量评价方法 | |
CN109828996A (zh) | 一种不完备数据集快速属性约简方法 | |
CN114297582A (zh) | 基于多探针局部敏感哈希负二项式回归模型的离散计数数据的建模方法 | |
Tao et al. | Performance analysis of R*-trees with arbitrary node extents | |
CN116705180B (zh) | 基于多维数据分析的n2o催化分解监测方法及系统 | |
Alizade Nikoo et al. | Correlation Joins over Time Series Data Streams Utilizing Complementary Dimension Reduction and Transformation | |
Arge et al. | Simple and semi-dynamic structures for cache-oblivious planar orthogonal range searching |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20070214 Termination date: 20091116 |