CN109828996A

CN109828996A - 一种不完备数据集快速属性约简方法

Info

Publication number: CN109828996A
Application number: CN201811574927.0A
Authority: CN
Inventors: 闫涛; 韩崇昭
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2018-12-21
Filing date: 2018-12-21
Publication date: 2019-05-31
Also published as: CN113345588A

Abstract

本发明公开了一种不完备数据集快速属性约简方法，本发明采用了IFSPA算法和IFSPA‑IVPR算法，使本方法针对不完备数据集在保持其原有特征属性分辨能力的情况下，能够更高效的完成属性约简。本方法在时间复杂度、稳定性等方面均优于现有算法。同时使用该方法处理大规模数据集时的改进效果也十分明显。

Description

一种不完备数据集快速属性约简方法

技术领域

本发明涉及数据挖掘技术领域，具体涉及一种不完备数据集快速属性约简方法。

背景技术

特征选择，或者我们称之为属性约简的数据处理方法是模式识别、数据挖掘以及机器学习等领域的一个共同的重要研究课题。近些年来，数据集中的元素的数量与维度都有了明显的增长。例如，数量达到上百甚至上千的条件属性存储于许多现实应用中的数据库当中。众所周知，与识别或者分类任务无关的很多条件属性会明显降低相关算法的性能。换而言之，存储和处理所有的条件属性，包括相关的重要的以及不相关的不重要的属性会带来巨大的空间存储成本与计算时间成本。为了解决这一问题，一些学者提出的方案是删除那些不影响识别或者分类精度的条件属性。因此，删除部分条件属性不仅是容许的，对于相关降低计算时间复杂度而言甚至是十分必要的。

在众多的属性约简方法中，主要有两种相关的策略，即包装与过滤。前者使用一个学习算法对条件属性子集进行评价和选择，后者则根据一些重要性度量，如信息增益、一致性、距离、依赖性等量测量对条件属性进行选择。这些量测量可以分成两个主要类别，即基于距离的度量与基于一致性的度量。粗糙集理论中的属性约简方法为基于一致性的属性约简方法提供了系统的理论框架，其目的并非是要将类的可分性最大化，而是试图保证所选择的条件属性子集与原始的条件属性全集具有相同的可分辨能力。

总的来说，我们通常会碰到两类数据，即数值型数据和符号型数据。其中，对数值型数据而言，有两种方法。一种是使用模糊粗糙集理论，另一种则是对数值型的条件属性值进行离散化处理。为了处理混合型的条件属性值，相关学者也提出过很多方法。在经典粗糙集理论中，属性约简算法将所有的属性值作为符号型数据予以考虑。在对原始数据进行过数据预处理过之后，我们可以使用经典粗糙集理论选择出条件属性中最适合于识别或者分类任务的子集。

基于粗糙集理论的属性约简开始于一个数据表，我们也称之为信息系统。它包含了关于我们感兴趣的对象的所有数据，这些数据由一个有限的条件属性集来描述。根据其是否存在缺失数据或者空数据，信息系统可以分为完备信息系统和不完备信息系统。一般来说，我们提到不完备信息系统，也就意味着该系统中间存在缺失数据或者空数据。对一个不完备信息系统而言，如果条件属性与决策属性彼此之间相互区分，则我们称之为不完备决策系统或者不完备决策表。对不完备数据进行属性约简通常开始于不完备决策表。

在近二十年里，关于粗糙集理论出现了很多新的属性约简方法。其中，具有代表性的就是Skowron提出的旨在获取一个数据集的所有属性约简的可分辨矩阵方法。然而，该方法在处理大规模数据时会产生巨大的时间消耗。为了使属性约简变的更为高效，众多学者根据粗糙集理论提出了各种不同的启发式属性约简算法。这些算法各自都保留了给定信息系统的某种具体性质。为了完成不完备决策表的属性约简任务，Kryszkiewicz将Skowron提出的可分辨矩阵方法扩展为与其相似的广义可分辨矩阵方法，以获取不完备决策表的全部属性约简。Yang和Shu针对不完备决策表提出了一种应用正区域属性约简思想的启发式属性约简算法，该算法能够保证目标决策表的正区域在属性约简处理过后维持不变。Yan等人定义了一种新的信息熵以度量不完备信息系统的不确定性，并通过应用对应的条件信息熵减少冗余的条件属性。正如通过引入Shannon的信息熵来寻找经典粗糙集模型中的属性约简一样，该方法通过引入条件信息熵的扩展可以计算得出不完备决策表的相关属性约简。

但是，上述所有方法都不同程度存在处理速度慢，无法应对处理大规模不完备数据时所产生的巨大时间消耗等问题。

发明内容

本发明的目的在于克服上述不足，提供一种不完备数据集快速属性约简方法，针对不完备数据集在保持其原有特征属性分辨能力的情况下，能够更高效的完成属性约简。

为了达到上述目的，一种不完备数据集快速属性约简方法，基于正近似集的方法包括以下步骤：

步骤一，输入不完备决策表S＝(U,C∪D)，U为全空间，C为条件属性全集，D为决策属性；

步骤二，将red初始化为空集即其中，red为已选择的条件属性集合；

步骤三，计算Sig^inner(a_k,C,D,U)，其中k≤|C|，a_k为第k个条件属性，Sig^inner()为条件属性全集C中所含的第k个条件属性a_k的属性重要性；

步骤四，将a_k加入到red之中，其中Sig^inner(a_k,C,D,U)＞0；

步骤五，使i←1，R₁＝red，P₁＝{R₁}，U₁←U；

步骤六，判断和是否成立，为目标对象子集U₁的评价函数；

若都成立，则循环寻找并添加red之外的部分所含具有最大属性重要性的条件属性至red中，直至满足

若有一条不成立，则转至步骤七；

步骤七，R_i←R_i∪{a₀}，P_i←{R₁,R₂,...,R_i}；

步骤八，返回条件属性约简结果red并结束。

步骤六的具体方法如下：

第一步，计算正近似集中的正区域

第二步，

第三步，i←i+1；

第四步，red←red∪{a₀}，其中，Sig^outer(a₀,red,D,U_i)＝max{Sig^outer(a_k,red,D,U_i)}，a_k∈C-red；

第五步，判断和是否成立：

若都成立，则转至第一步；否则，跳出循环结束步骤六，进行步骤七。

步骤一中，不完备决策表的快速容许类获取算法的复杂度为其中，表示条件属性a_k之下具有缺失属性值*的所有对象的数量，而则表示条件属性a_k之下具有非缺失属性值，即属性值不为*的所有对象的数量。

一种不完备数据集快速属性约简方法，基于变精度正近似集的方法包括以下步骤：

步骤一：输入不完备决策表S＝(U,C∪D)以及阈值β≤0.5；

步骤二：将red初始化为空集即其中，red为已选择的条件属性集合；

步骤三：计算其中k≤|C|；

步骤四：将a_k加入到red之中，其中

步骤五：i←1，R₁＝red，P₁＝{R₁}，U₁←U；

步骤六：判断和是否成立：

若有一条不成立，则转至步骤七；

步骤七：R_i←R_i∪{a₀}，P_i←{R₁,R₂,...,R_i}；

步骤八：返回条件属性约简结果red并结束。

步骤六的具体方法如下：

第一步，计算正近似集中的正区域

第二步，计算

第三步，使i←i+1；

第四步，使red←red∪{a₀}，其中，a_k∈C-red；

第五步，判断和是否成立：

若都成立，则转至第一步继续循环；否则，跳出循环结束步骤六，进入步骤七。

与现有技术相比，本发明使用QAATC算法来估计其时间复杂度，并分别在不完备粗糙集模型和变精度不完备粗糙集模型下进行计算，使本方法针对不完备数据集和变精度不完备粗糙集在保持其原有特征属性分辨能力的情况下，能够更高效的完成属性约简。本方法在时间复杂度、稳定性等方面均优于现有算法，同时使用该方法处理大规模数据集时的改进效果也十分明显，提高了计算效率，并且具有更低的平均计算时间及标准差，即具有更好的鲁棒性。

附图说明

图1为本发明中IFSPA算法流程图；

图2为本发明中IFSPA-IVPR算法流程图；

图3为仿真实验数据集的统计结果；其中，(a)为样本个数与数据集的统计图；(b)为条件属性个数与数据集的统计图；(c)为缺失属性值个数与数据集的统计图；(d)为决策类个数与数据集的统计图；(e)为不完全率与数据集的统计图；

图4为IPR和IFSPA-IPR算法的计算时间与数据规模的关系图；其中，(a)为采用Audiology-standardized数据集时；(b)为采用Soybean-large数据集时；(c)为采用Dermatology数据集时；(d)为采用Breast-cancer-wisconsin数据集时；

图5为ILCE和IFSPA-ILCE算法的计算时间与数据规模的关系图；其中，(a)为采用Audiology-standardized数据集时；(b)为采用Soybean-large数据集时；(c)为采用Dermatology数据集时；(d)为采用Breast-cancer-wisconsin数据集时；

图6为IVPR和IFSPA-IVPR算法的计算时间与数据规模的关系图；其中，(a)为β＝0时；(b)为β＝0.1时；(c)为β＝0.2时；

图7为IVPR和IFSPA-IVPR算法的计算时间与数据规模的关系图；其中，(a)为β＝0时；(b)为β＝0.1时；(c)为β＝0.2时；

图8为IVPR和IFSPA-IVPR算法的计算时间与数据规模的关系图；其中，(a)为β＝0时；(b)为β＝0.1时；(c)为β＝0.2时；

图9为IVPR和IFSPA-IVPR算法的计算时间与数据规模的关系图；其中，(a)为β＝0时；(b)为β＝0.1时；(c)为β＝0.2时。

具体实施方式

下面结合附图对本发明做进一步说明。

给定一个不完备决策表IDT＝(U,C∪D)，得到所有对象关于条件属性全集C的分类U/SIM(C)＝{S_C(u₁),S_C(u₂),...,S_C(u_U)}，以及全空间U关于决策属性D的划分U/D＝{X₁,X₂,...,X_r}。实际上，把决策属性的划分U/D表示成全空间U上每个对象所对应的容许类的形式，亦即U/SIM(D)＝{S_D(u₁),S_D(u₂),...,S_D(u_U)}。为了保证其一般性，令其中则U/D与U/SIM(D)相互之间的关系表示如下。

根据这个关系，通过如下形式来等价的重新定义一个不完备决策表的正区域。

根据以上的表述，接下来重点关注两种类型的条件属性重要性。

现有技术中提出了一种启发式条件属性约简算法，称为正区域属性约简方法，即Positive-region Reduction,PR。这种方法能够保证在属性约简过程中，目标决策属性所对应的正区域保持不变。运用正区域属性约简方法的思想，现有技术提出了另一种称为IPR的针对不完备决策表的启发式条件属性约简算法。该算法也可以保证目标决策属性所对应的正区域不变。在该算法中，条件属性的重要性定义如下。

定义1，令IDT＝(U,C∪D)为一个不完备决策表，且有条件属性子集对子集B中所含的条件属性a的重要性定义如下。

式中，γ_B(D)＝|POS_B(D)|/|U|。

定义2，令IDT＝(U,C∪D)为一个不完备决策表，且有条件属性子集对子集B之外的部分所含的条件属性a的重要性定义如下。

定义一种信息熵，通过该信息熵对不完备信息系统中的不确定性进行度量并且同时运用信息熵删减冗余的条件属性。这种属性约简算法记为ILCE，算法中的条件信息熵被定义如下。

式中，S_C(u_i)∈U/SIM(C)，S_D(u_i)∈U/SIM(D)。下面依次列举其他各种重要性的定义。

定义3，令IDT＝(U,C∪D)为一个不完备决策表，且有条件属性子集对子集B中所含的条件属性a的重要性定义如下。

定义4，令IDT＝(U,C∪D)为一个不完备决策表，且有条件属性子集对子集B之外的部分所含的条件属性a的重要性定义如下。

在不完备变精度粗糙集模型中，使用对应的重要性来设计一个能够使目标决策属性所对应的β正区域保持不变的算法，从而寻找所需要的条件属性约简结果。

定义5，令IDT＝(U,C∪D)为一个不完备决策表，且有条件属性子集对子集B中所含的条件属性a的重要性定义如下。

式中，

定义6，令IDT＝(U,C∪D)为一个不完备决策表，且有条件属性子集对子集B之外的部分所含的条件属性a的重要性定义如下。

在一个基于粗糙集理论的属性约简算法中，需要计算不完备决策表中由条件属性生成的容许类。这一处理过程很大程度影响着属性约简算法的整体计算时间。为了设计出一种有效的条件属性约简算法，首先给出一种应用于不完备决策表的快速容许类获取算法。这种算法主要基于基数排序算法的思想，其时间复杂度为其中表示条件属性a_k之下具有缺失属性值*的所有对象的数量，而则表示条件属性a_k之下具有非缺失属性值，即属性值不为*的所有对象的数量。众所周知，粗糙集理论的一个主要应用就是针对符号型数据的知识发现，这其中每种条件属性所对应的属性值个数都非常小，以至于可以将其看做是一个常数。因此，该算法的时间复杂度并没有受到的影响。此外，每个条件属性之下具有缺失属性值*的对象数量通常也比较少。在最差的情况下，一个条件属性之下的所有属性值全部缺失，即在该属性上含有缺失属性值*的对象数量达到了最大值|U|，这意味着该条件属性无法提供任何有用的分类信息。所以，可以把属性约简算法的时间复杂度进一步降低至如下程度。

因此，该算法在处理大规模不完备数据并计算其容许类时能够显示出其优越性，即大规模不完备数据的维数比起对象的数量对计算时间长度的影响更小一些。在此，并不讨论该算法的具体流程及其工作原理。

根据上述讨论，得到了一种基于正近似集的改进前向搜索算法以及一种获取容许类的快速算法。在这一算法框架之下，可以将评价函数或者结束条件表示为EF^U(B,D)＝EF^U(C,D)。例如，当采用条件熵方法时，对应的评价函数即为EN^U(B,D)＝EN^U(C,D)。这也就是说，当EF^U(B,D)＝EF^U(C,D)满足时，B即为一个条件属性约简结果。

参见图1，本发明采用IFSPA算法，包括以下步骤：

步骤三，计算Sig^inner(a_k,C,D,U)，其中k≤|C|，a_k为第k个条件属性，Sig^inner()为条件属性全集C中所含的第k个条件属性a_k(关于决策属性D和全空间U)的属性重要性；

步骤四，将a_k加入到red之中，其中Sig^inner(a_k,C,D,U)＞0；

步骤五，使i←1，R₁＝red，P₁＝{R₁}，U₁←U；

步骤六，判断和是否成立，为目标对象子集U₁的评价函数；

若有一条不成立，则转至步骤七；

步骤七，R_i←R_i∪{a₀}，P_i←{R₁,R₂,...,R_i}；

步骤八，返回条件属性约简结果red并结束。

步骤六的具体方法如下：

第一步，计算正近似集中的正区域

第二步，

第三步，i←i+1；

第五步，判断和是否成立：

参见图2，本发明采用IFSPA-IVPR算法，包括以下步骤：

步骤一：输入不完备决策表S＝(U,C∪D)以及阈值β≤0.5；

步骤三：计算其中k≤|C|；

步骤四：将a_k加入到red之中，其中

步骤五：i←1，R₁＝red，P₁＝{R₁}，U₁←U；

步骤六：判断和是否成立：

若有一条不成立，则转至步骤七；

步骤七：R_i←R_i∪{a₀}，P_i←{R₁,R₂,...,R_i}；

步骤八：返回条件属性约简结果red并结束。

步骤六的具体方法如下：

第一步，计算正近似集中的正区域

第二步，计算

第三步，使i←i+1；

第四步，使red←red∪{a₀}，其中，a_k∈C-red；

第五步，判断和是否成立：

表1 IFSPA算法与经典算法的时间复杂度比较

表2仿真实验数据集基本信息

表3 IPR算法与IFSPA-IPR算法的计算时间与稳定性比较

表4 ILCE算法与IFSPA-ILCE算法的计算时间与稳定性比较

表5 IVPR算法与IFSPA-IVPR算法的计算时间与稳定性比较

表5(续)

本发明使用四组UCI数据库中的真实数据，即表2所示的四组带缺失数据的不完备数据集来验证所提出方法所带来的算法时间复杂度的降低。为了方便计算与比较，使用QAATC算法来估计其时间复杂度。在整个实验过程中，分别在不完备粗糙集模型和变精度不完备粗糙集模型条件下比较原有方法和新方法的时间复杂度，具体如图4至图11所示。其中在图4至图9中，x轴表示所使用的不完备数据子集的大小，即让每个不完备数据集中的20个等分的数据片段从1到20依次增加，而y轴则表示算法所需的计算时间。在图6至图11中，为了保证仿真实验的精确性并同时表现出改进算法所带来的计算性能的提升，将阈值β分别设定为β＝0,0.1,0.2。此外，还通过十折交叉验证方法对所选条件属性子集的相关稳定性进行评价，如表3至表5所示。仿真实验结果表明本发明所提出的新方法能够明显降低现有不完备属性约简算法的时间复杂度，提高其计算效率。同时该方法与现有其他算法相比在保持算法稳定性相同的基础上具有更低的平均计算时间及标准差，即具有更好的鲁棒性。

在现代社会中，随着网络与传感器等信息技术的飞速发展，人们从各个领域获取的信息和数据急剧膨胀。由于信息数据本身所限以及人的参与，使得信息数据中所包含的不确定性显著增加，也使得信息与数据的关系变得错综复杂。通过使用本方法，可以让我们更加快速高效的对海量模糊的、不完整的、不精确的信息和数据进行有效处理，并提取其中所蕴涵的有用知识，为智能决策提供良好的依据。

Claims

1.一种不完备数据集快速属性约简方法，其特征在于，基于正近似集的方法包括以下步骤：

步骤四，将a_k加入到red之中，其中Sig^inner(a_k,C,D,U)＞0；

步骤五，使i←1，R₁＝red，P₁＝{R₁}，U₁←U；

步骤六，判断和是否成立，为目标对象子集U₁的评价函数；

若有一条不成立，则转至步骤七；

步骤七，R_i←R_i∪{a₀}，P_i←{R₁,R₂,...,R_i}；

步骤八，返回条件属性约简结果red并结束。

2.根据权利要求1所述的一种不完备数据集快速属性约简方法，其特征在于，步骤六的具体方法如下：

第一步，计算正近似集中的正区域

第二步，

第三步，i←i+1；

第五步，判断和是否成立：

3.根据权利要求1所述的一种不完备数据集快速属性约简方法，其特征在于，步骤一中，不完备决策表的快速容许类获取算法的复杂度为其中，表示条件属性a_k之下具有缺失属性值*的所有对象的数量，而则表示条件属性a_k之下具有非缺失属性值，即属性值不为*的所有对象的数量。

4.一种不完备数据集快速属性约简方法，其特征在于，基于变精度正近似集的方法包括以下步骤：

步骤一：输入不完备决策表S＝(U,C∪D)以及阈值β≤0.5；

步骤三：计算其中k≤|C|；

步骤四：将a_k加入到red之中，其中

步骤五：i←1，R₁＝red，P₁＝{R₁}，U₁←U；

步骤六：判断和是否成立：

若有一条不成立，则转至步骤七；

步骤七：R_i←R_i∪{a₀}，P_i←{R₁,R₂,..,R_i}；

步骤八：返回条件属性约简结果red并结束。

5.根据权利要求4所述的一种不完备数据集快速属性约简方法，其特征在于，步骤六的具体方法如下：

第一步，计算正近似集中的正区域

第二步，计算

第三步，使i←i+1；

第四步，使red←red∪{a₀}，其中，a_k∈C-red；

第五步，判断和是否成立：

6.根据权利要求4所述的一种不完备数据集快速属性约简方法，其特征在于，步骤一中，不完备决策表的快速容许类获取算法的复杂度为其中，表示条件属性a_k之下具有缺失属性值*的所有对象的数量，而则表示条件属性a_k之下具有非缺失属性值，即属性值不为*的所有对象的数量。