CN1300730C

CN1300730C - 应用定向搜索的后向粗糙集属性约简方法

Info

Publication number: CN1300730C
Application number: CNB2004100671515A
Authority: CN
Inventors: 杨胜; 施鹏飞
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2004-10-14
Filing date: 2004-10-14
Publication date: 2007-02-14
Anticipated expiration: 2024-10-14
Also published as: CN1588363A

Abstract

一种应用定向搜索的后向粗糙集属性约简方法，利用属性子集的互信息和冗余协同系数作为粗糙集属性约简的度量，从经过排序的初始属性集出发，从初始属性集的孩子子集中选取若干个冗余协同系数最小的等价属性子集，存储在定向存储区；然后再从这些等价属性子集出发，从它们的孩子子集中选取若干个冗余协同系数最小的等价属性子集作进一步搜索，以此类推，直到不能够找到等价属性子集为止，最后存储在定向存储区的属性子集就是属性约简结果。本发明方法实现灵活简单，针对性强，通用性强，具有多项式时间复杂度，可应用于所有粗糙集属性约简领域。

Description

应用定向搜索的后向粗糙集属性约简方法

技术领域

本发明涉及一种粗糙集属性约简方法，尤其涉及一种以互信息作约简度量，采用了定向(Beam)搜索技术的后向粗糙集属性约简方法，为粗糙集知识获取提供了良好途径，属于信息处理领域。

背景技术

随着信息技术的迅速发展以及数据库管理系统的广泛应用，人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息，人们希望能够对其进行更高层次的分析，以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能，但无法发现数据中存在的关系和规则，无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段，导致了“数据爆炸但知识贫乏”的现象。因此，研究能够从大量信息中形成概括(归纳)的方法就显得越来越重要，但是高级的智能数据分析技术还远没有成熟。

粗糙集理论是由Z.Pawlak提出的一种研究不确定、不完整知识和数据归纳、表达的理论方法，已被广泛应用于数据挖掘，机器学习，人工智能以及故障诊断等领域，成为近年的科学研究热点。粗糙集理论通过属性约简和值约简来得到分类规则，进而处理分类问题。属性约简是粗糙集理论分类规则获取过程中的一个基本操作，它是指在保持初始属性集的分类能力的前提下删除不相关和冗余的属性。在属性约简的基础上，再作进一步的值约简，得到简化的分类规则。

最小属性约简(也称最优)是得到一个最小的属性子集，使得它的分类能力与初始属性集相同。粗糙集属性约简的目标就是最小属性约简，它已经被证明是非线性多项式困难(NP-hard)的。目前属性约简的方法可以归结为两大类：

(1)完全搜索方法，完全搜索方法是指评价每一种可能的属性子集，来得到最小的属性约简结果。最直观的完全搜索方法就是穷举组合搜索，即评价每一种属性组合。这种方法是最耗时间的一种办法，如前向穷举组合搜索方法。当搜索评价度量具有单调性性质时，可以采用分支界限方法来作完全搜索。采用互信息作为属性约简度量时，可以采用分支界限方法，如自动分支界限方法(ABB)和分支界限方法(B&B)，它们都以初始属性集的互信息作为属性约简的界。区别在于前者是宽度优先搜索方法，后者采用深度优先搜索方法。只有完全搜索方法可以保证实现最小属性约简，但是它的时间复杂度为指数形式，当属性集过大时(通常是＞20)，完全搜索方法由于运行时间过长就变得不适用。

(2)启发式搜索方法，启发式搜索根据某个方向来确定搜索过程，最常见的是最好最先方法(Best First)。通常的启发式属性约简方法是逐个考察每个属性看是否能被删除，很显然这种方法根据属性被考察的先后顺序而不同。再有就是基于互信息的Best First启发式属性约简方法，它从核出发，以最大化互信息作为搜索方向进行属性约简。启发式方法的缺点在于它是单方向的，即只有一个搜索前进的方向。运算时间相对于完全搜索方法被大大减少，但往往产生一个很差的属性约简结果。

发明内容

本发明的目的在于克服现有粗糙集属性约简方法的不足，提供一种新的粗糙集属性约简方法，实现高质量的属性约简和运算的快速性，满足分类学习的实际需要。

为了实现这样的目的，本发明利用属性子集的互信息和冗余协同系数(redundancy-synergy coefficient，RSC，

RSC (A) = \frac{I (A; P)}{Σ_{i = 1}^{a} I (f_{i}; P)},

A＝{f_i|i＝1，..，a})作为粗糙集属性约简的度量，从经过排序的初始属性集F出发，从初始属性集的孩子子集(所谓孩子是指删除掉一个属性得到的属性子集)中选取M个冗余协同系数最小的等价属性子集(所谓等价属性子集是指互信息相等)，存储在定向存储区；然后，再从这M个等价属性子集出发，从它们的孩子子集中选取M个冗余协同系数最小的等价属性子集存储到定向存储区作进一步搜索；以此类推，直到没有等价属性子集能够被找到为止，由此最后存储在定向存储区的属性子集就是属性约简结果。

本发明方法的具体步骤如下：

1、初始化：将初始属性集F中的每个属性按照互信息从小到大重新排列，互信息小的属性排在前面，互信息大的属性排在后面，并且将经过排序后的初始属性集F存入定向存储区(Beam)中。

2、定向搜索：清空暂态存储区(Queue)；对于定向存储区中的初始属性集，根据冗余协同系数特性可以通过依次从前往后删除一个属性来找到它的M个冗余协同系数最小的孩子等价属性子集，也就是前M个孩子等价属性子集，记作属性子集存入暂态存储区，其中，冗余协同系数

RSC (A) = \frac{I (A; P)}{Σ_{i = 1}^{a} I (f_{i}; P)},

A＝{f_i|i＝1，..，a}，A表示属性子集，f_i表示属性，I(A；P)表示A与分类属性P的互信息，I(f_i；P)表示f_i与分类属性P的互信息；如果孩子等价属性子集个数小于M个，则取全部孩子等价属性子集存入暂态存储区。

3、定向搜索停止条件判别：如果暂态存储区包含属性子集，则清空定向存储区；从暂态存储区中找出冗余协同系数最小的M个属性子集，存入定向存储区，如果暂态存储区中的属性子集小于M个，则取暂态存储区中的全部属性子集存入定向存储区，然后对于定向存储区中的每个属性子集，按步骤2对初始属性集处理的同样方法继续进行定向搜索。如果暂态存储区不包含属性子集，则输出定向存储区中的所有属性子集，由此得到属性约简结果。

本发明的方法可以通过灵活调节M值来保证运算的快速性和属性约简结果的质量。M的取值可以根据初始属性集的大小设定一个初始值，并可随运算时间长短进行调整，运算时间过长，则减少M的取值，反之则增大M的取值，直到取得满意的属性约简结果。初始属性集越大，M取初始值越小。由于可以扩大搜索范围，因而可以得到更多更优的属性约简结果，但同时保证运算的快速性。本发明是一个启发式属性约简方法，与一般的最优最先方法不同的是，它可以看作是最优最先方法的扩展，或者，最优最先方法是它的一个特例。

本发明利用属性子集的互信息和属性之间的信息冗余性度量——冗余协同系数作为属性约简度量，作一个后向搜索的属性约简。方法实现灵活简单，针对性强，通用性强，具有多项式时间复杂度，可应用于所有粗糙集属性约简领域。

附图说明

图1为本发明方法中的定向搜索示意图。

具体实施方式

为了更好的理解本发明的技术方案，以下结合附图和实施例作进一步描述。

(1)初始化：

将初始属性集F中的每个属性按照互信息I(f_i；P)从小到大重新排列，并且将经过排序后的初始属性集F存入定向存储区(Beam)中。互信息从小到大排列就是为了方便找到定向存储区中属性子集的前M个冗余协同系数最小的孩子等价属性子集，这样可以压缩定向搜索空间，减少搜索时间。

注意冗余协同系数从信息量商的角度来描述属性子集的冗余程度和组合协同能力。A(A＝{f_i|f_i∈A，i＝1，...，a})F，RSC(A)称为属性子集A的冗余协同系数，其计算如式(1)，

RSC (A) = \frac{I (A; P)}{Σ_{i = 1}^{a} I (f_{i}; P)} - - - (1)

冗余协同系数是一个相对信息度量的概念。冗余协同系数的取值范围为(0，∞)。冗余协同系数越小，属性的组合能力越弱，说明属性之间包含类信息的冗余越大，越多的属性能被删除而保持互信息不减少。它具有以下两个性质：

(1)如果I(A；P)＝I(B；P)，且AB，则RSC(A)≥RSC(B)。

(2)对于属性子集AF，A＝{f₁，f₂，...，f_a}，如果I(f₁；P)＜I(f₂；P)＜...＜I(f_a；P)，且I(A-{f_i|i＝1，2，...，a}；P)＝I(A；P)，则RSC(A-{f₁})＜RSC(A-{f₂})＜...＜RSC(A-{f_a})＜RSC(A)。

在本发明中首先将初始属性集F中的属性按照互信息从小到大排列。根据冗余协同系数性质(2)，运用这个排列只需要通过从前往后依次删除一个属性来找到每个父属性子集的前M个孩子等价属性子集，而不需考虑这个父属性子集所有的孩子属性子集。因为对于定向存储区Beam中的每个节点(即属性子集)，前M个孩子等价属性子集的冗余协同系数最小，这大大节省了运算时间。所以初始化过程中将初始属性集F中的属性按照互信息从小到大排列。

(2)定向搜索：

最优最先搜索通常是一个评价度量最优节点作为下一步搜索的起点，而定向搜索则选取M个评价度量好的节点作为下一步搜索的起点。定向搜索可以是一个“树有限宽度搜索”方法，其树搜索宽度设为M，称为定向宽度。定向搜索过程如图1所示，图中黑色节点表示用于作进一步搜索的节点，白色节点为搜索过程中被舍弃掉的节点，定向宽度M为2。每一层中有两个最好的满足优化条件的树节点作为下一步搜索的出发点，来做进一步搜索，直到满足搜索停止条件，最后结果为节点1和2。如果只能够找到K(K＜M)个冗余协同系数最小的等价属性子集，则取这K个属性子集作进一步搜索。

冗余协同系数是属性集的一个属性协同表达类属性的冗余性和协同能力的度量，冗余协同系数越小，冗余度越大，越可能有多的冗余属性能被删除，也即更可能找到一个更小的F的等价属性子集，因此，可以将冗余协同系数作为属性子集选择度量，结合定向搜索方法，进行后向删除属性约简。

(3)定向搜索停止条件判别：

当暂态存储区中为空，说明没有找到等价属性子集时，因此上一次找到的存储在定向存储区中的等价属性子集被认为是找到的最小的等价属性子集，因此定向搜索停止，得到属性约简结果。如果有，说明可以作进一步的定向搜索，从暂态存储区中找出冗余协同系数最小的M个属性子集，存入定向存储区，如果暂态存储区中的属性子集小于M个，则取暂态存储区中的全部属性子集存入定向存储区，继续第(2)步的搜索。

本发明属性约简方法的运行时间与两个因素有关系：(1)属性子集互信息的计算；(2)搜索空间，即被评价的属性子集的个数。一个属性子集评价的时间取决于属性子集对样本集(样本集包含p个属性，m个样本)的划分，采用散列法来进行划分，属性子集评价的时间复杂度为O(m)。设r为约简结果子集大小，本发明方法被评价的属性子集个数不大于0.5*M*(p-r)*(p-1+r)+p+1，所以，本发明的时间复杂度为O(mMp²)。实际上，因为通过属性排序和孩子属性子集产生框架减少了多余的属性子集评价，因此本发明的搜索空间远小于0.5*M*(p-r)*(p-1+r)+p+1。当M＝1时，本发明的时间复杂度为O(mp)。

实验选取5个UCI标准数据集：Corral、Monk1、Parity5+2、Vote、Mushroom。首先选用ABB方法作属性约简，结果和运算时间如表1所示。对于Mushroom数据集，运算时间超过2小时，认为ABB方法是不适合的，用“-”表示。本发明方法的属性约简结果分别如表2所示，M分别取1、p和2p。从表中可以看出它们几乎能够得到最有属性约简子集，但时间相对ABB方法却大大下降。对于Mushroom数据集，本发明方法也得到了良好的属性约简结果，而ABB方法由于是一个完全搜索方法却不能够。

表1数据集信息与ABB方法属性约简结果

数据集	样本数	初始属性集大小	u	ABB
				ABB		AS	t(ms)
				CorralMonk1Parity5+2VoteMushroom	12843210244358124	AS	t(ms)	66101622	22222	{f₁-f₄}{f₁，f₂，f₅}{f₁-f₅}⁽¹⁾{f₁，f₃-f₅，f₇}⁽²⁾{f₂-f₆}⁽³⁾{f₃-f₇}⁽⁴⁾{f₁-f₄，f₉，f₁₁，f₁₃，f₁₅，f₁₆}-	3196502697-

u为类别数，AS为属性约简子集，t为运算时间。

表2本发明方法属性约简结果

数据集	本发明(M＝2p)		本发明(M＝p)		本发明(M＝1)
	本发明(M＝2p)		本发明(M＝p)		本发明(M＝1)		AS	t(ms)	AS	t(ms)	AS	t(ms)
	CorralMonklParity5+2VoteMushroom	{f₁-f₄}{f₁，f₂，f₅}{f₃-f₇ ⁽¹⁾{f₁，f₃-f₅，f₇}⁽²⁾{f₂-f₆}⁽³⁾{f₁-f₅}⁽⁴⁾{f₁-f₄，f₉，f₁₁，f₁₃，f₁₅，f₁₆}{f₅，f₂₀，f₂₁，f₁₂}⁽¹⁾{f₄，f₅，f₁₂，f₂₂}⁽²⁾	213403985659219	{f₁-f₄}{f₁，f₂，f₅}{f₃-f₇}⁽¹⁾{f₁，f₃-f₅，f₇}⁽²⁾{f₂-f₆}⁽³⁾{f₁-f₄，f₉，f₁₁，f₁₃，f₁₅，f₁₆}15	213397765369640	{f₁-f₄}{f₁，f₂，f₅}{f₁-f₅}{f₁-f₄，f₉，f₁₁，f₁₃，f₁₅，f₁₆}{f₅，f₈，f₁₂，f₁₉，f₂₀}	AS	t(ms)	AS	t(ms)	AS	t(ms)	2449422389

Claims

1、一种应用定向搜索的后向粗糙集属性约简方法，其特征在于包括如下步骤：

1)初始化：将初始属性集中的每个属性按照互信息从小到大重新排列，互信息小的属性排在前面，互信息大的属性排在后面，并且将经过排序后的初始属性集存入定向存储区中；

2)定向搜索：清空暂态存储区；对于定向存储区中的初始属性集，根据冗余协同系数特性，通过依次从前往后删除一个属性来找到它的M个冗余协同系数最小的孩子等价属性子集，也就是前M个孩子等价属性子集，记作属性子集存入暂态存储区，其中，冗余协同系数

RSC (A) = \frac{I (A; P)}{Σ_{I = 1}^{a} i (f_{i}; P)},

A＝{f_i|i＝1，..，a}，A表示属性子集，f_i表示属性，I(A；P)表示A与分类属性P的互信息，I(f_i；P)表示f_i与分类属性P的互信息；如果孩子等价属性子集个数小于M个，则取全部孩子等价属性子集存入暂态存储区；其中M的取值根据初始属性集的大小设定一个初始值，并随运算时间长短进行调整，初始属性集越大，M的初始值就取得越小，运算时间长则减少M的取值，反之则增大M的取值；

3)定向搜索停止条件判别：如果暂态存储区包含属性子集，则清空定向存储区，从暂态存储区中找出冗余协同系数最小的M个属性子集，存入定向存储区，如果暂态存储区中的属性子集小于M个，则取暂态存储区中的全部属性子集存入定向存储区，然后对于定向存储区中的每个属性子集，按步骤2)对初始属性集处理的同样方法继续进行定向搜索；如果暂态存储区不包含属性子集，则输出定向存储区中的所有属性子集，由此得到属性约简结果。