CN112765429A

CN112765429A - 一种面向部分标记异质数据的粗糙集属性约简方法

Info

Publication number: CN112765429A
Application number: CN202110086066.7A
Authority: CN
Inventors: 冀俊忠; 张子腾; 杨翠翠
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2021-05-07

Abstract

一种面向部分标记异质数据的粗糙集属性约简方法涉及数据挖掘。本发明的目的是解决现有粗糙集属性约简方法无法同时直接处理异质数据和部分标记数据的问题，提出了一种面向部分标记异质数据的粗糙集属性约简方法。首先,引入了HEOM距离来度量异质数据的不可分辨关系,从而导出了一种面向异质数据的等价类粒子的划分方法；其次,构造了一种反映不可分辨关系的等价类粒子的结构信息,不依赖数据标签就可以衡量部分标记数据中属性的分类判别能力；最后,发展了能够在部分标记数据上进行属性评价的广义依赖度,实现了一种面向部分标记异质数据的粗糙集属性约简方法。

Description

一种面向部分标记异质数据的粗糙集属性约简方法

技术领域

本发明涉及数据挖掘，属性约简领域，具体是一种利用HEOM距离和邻域粒子结构对部分标记异质数据进行属性约简的方法。

背景技术

在当今大数据时代的背景下,数据的快速产生和增长产生了很多问题。一方面，获取数据的样本相对容易，但对数据样本进行分类标记需要耗费大量的人力物力，甚至根本无法获得准确的样本标签，因此产生了很多只有一部分数据具有对应标签的数据集，称为部分标记数据。另一方面，数据结构的日益复杂，导致数据的类型不再是离散或连续的单一类型，更可能是连续型和离散型混合的异质数据。这些问题的存在，致使现实应用中的数据或是异质数据,或是部分标记数据,甚至是部分标记的异质数据，极大地增加了数据处理的难度。

属性约简又称特征归约,主要研究如何从数据中去除冗余和不相关的属性,得到分类能力不变的属性子集，以提高学习算法的性能。经典粗糙集(Rough Set)理论是波兰数学家Z.Pawlak在20世纪80年代提出的一种处理不精确、不一致、不完备知识的数学工具，属性约简是其最重要的研究内容之一。它能够在未提供任何先验信息的情况下获得数据的核心知识，实现属性约简。目前已经广泛应用于机器学习、数据挖掘和模式识别等领域。

经典粗糙集通常利用属性子集所表示的等价关系对数据进行等价类粒子的划分，然后依据决策属性对属性子集的依赖度来选择分类判别能力强的属性子集。这种粗糙集约简方法只适合于处理离散数据。为了能够直接处理连续数据，胡清华等人用邻域关系取代了经典粗糙集理论中的等价关系，提出了邻域粗糙集。

在邻域粗糙集中，一个信息系统IS可以表示为(U,A),其中U是非空有限集,是由所有样本数据构成的论域；A也是一个非空有限集,其中的元素称为属性,对应样本数据中的特征.特别的,如果A＝C∪D,

则称信息系统(U,C∪D)为决策系统,记为DS,其中C中的属性称为条件属性,D称为决策属性.决策属性对应于样本数据的类别标签.

定义1：给定论域U和属性集C,

对于U上的任意对象x,其在属性集B上的邻域定义为

δ_B(x)＝{y|y∈U,Δ(x,y)≤δ}

其中,δ≥0,称为邻域半径,决定了邻域的大小；Δ代表距离函数,用来计算论域空间内两个对象之间的距离,目前常用的距离函数有曼哈顿距离和欧式距离等.

定义2：给定IS＝(U,A),

δ∈[0,1]，关于B的X的下近似集与上近似集分别定义为

下近似集是由那些整个邻域都属于X元素组成的,可以推断出这些元素肯定属于X；上近似集是由那些邻域与X相交的元素组成的,这些元素可能属于X，也可能不属于X.

定义3：给定DS＝(U,C∪D),

决策属性D将U划分为N个子集X₁，X₂，...X_N，决策属性D关于条件属性集B的下近似集与上近似集定义为

正域表示为

决策属性D对条件属性B的依赖度定义为

其中|·|表示集合的势.显然,

正域的大小反应了U中各类在给定属性空间中的分离程度.正域越大,表明当前属性空间下各类的分离程度越大.因此,正域的大小常被用做评价属性分类能力的指标.正域越大,属性依赖度越大，属性集的分类能力越强；正域越小,属性依赖度越小，属性集的分类能力越弱.

定理1：给定DS＝(U,C∪D)，当满足下列条件时，称B是C的一个约简.

(1)

(2)

一个约简具有同原始属性集相同的分类能力，同时是一个最小子集。显然，对属性集C所有可能的子集进行计算，一定可以得到满足定理1的约简。但已有研究表明，子集的个数与属性集的大小呈指数关系,求属性集的最小约简是NP-难问题。根据定理1的单调性，可以采用贪心算法，每次迭代贪心地选择属性依赖度最大的属性，直到求得近似最优解。

经过多年的发展,虽然经典粗糙集和邻域粗糙集的属性约简能力已经得到了广泛的证实和认可,但是它们仍然存在着很大的局限性,原因在于它们只能直接处理单一类型的数据,不能处理离散数据和连续数据并存的异质数据,而且只适合完全标记数据,对部分标记数据无能为力。因此,如何扩展粗糙集的理论使之能够在异质数据、部分标记数据以及部分标记的异质数据上实现有效的属性约简具有重要的现实意义。

目前关于异质数据和部分标记数据的粗糙集属性约简已有了一些新的探索。在处理异质数据方面,目前粗糙集理论通常有两种约简思路:1)将异质数据中的连续数据进行离散化,然后使用经典粗糙集进行处理；

2)忽略异质数据中离散数据的离散性质,直接利用邻域粗糙集进行处理.可以这样处理的原因是:邻域粗糙集本质上是通过距离的相近性来划分等价类粒子,而离散数据可以按照同样的方法计算距离。不过这两种做法存在一定的不足,前者离散化会带来信息损失,影响属性约简的效果；后者忽略数据的性质,对异质数据中的离散数据和连续数据使用同样的距离计算方法,也会影响属性约简的结果.而且这些方法拥有一个共同的缺陷:不能在处理异质数据的同时处理部分标记数据。

在处理部分标记数据方面,目前粗糙集理论的约简思路也可划分为两类:(1)采用特定的方法为无标记数据生成伪标签,将部分标记数据变为完全标记数据后，再进行属性约简。例如，张维等人首先为无标记数据赋予与有标记数据不同的伪标签，然后利用邻域粗糙集进行协同训练来得到分类判别能力强的属性子集。Liu等人先使用标签传播算法生成无标签数据的伪标签了，再针对离散型数据进行属性约简。(2)从分析部分标记数据本身入手，发现能够在部分标记数据上进行属性评价和筛选的方法。例如，Dai等人提出了不依赖于数据标签的差别对的概念，然后以此为基础发展了两个能够在部分标记离散数据上进行属性评价和约简的方法。Liu等人针对有标记数据和无标记数据分别使用近似质量和邻域关系来对属性子集进行评价，以实现在部分标记连续型数据上的属性约简任务。总之，这两类方法都为部分标记数据的属性约简问题提供了有效的解决思路，但是都只能处理离散型或者连续型的同质数据，不能处理异质数据。

发明内容

本发明的目的是解决现有粗糙集属性约简方法无法同时直接处理异质数据和部分标记数据的问题，提出了一种面向部分标记异质数据的粗糙集属性约简方法。首先,引入了HEOM距离来度量异质数据的不可分辨关系,从而导出了一种面向异质数据的等价类粒子的划分方法；其次,构造了一种反映不可分辨关系的等价类粒子的结构信息,不依赖数据标签就可以衡量部分标记数据中属性的分类判别能力；最后,发展了能够在部分标记数据上进行属性评价的广义依赖度,实现了一种面向部分标记异质数据的粗糙集属性约简方法。

具体来说，主要步骤包括：

(1)建立异质粗糙集模型。为了更有效地衡量异质数据中样本之间的不可分辨关系,本文引入了如下HEOM距离度量，

其中，m代表数据属性的个数，i代表样本数据m个条件属性中的第i个，w_i代表第i个属性的权重，取值为1/m.d_i(x_i,y_i)表示样本x与y在第i个属性上的距离，当第i个属性取值为离散型数据时，

当第i个属性取值为连续型数据时，

d_i(x_i,y_i)＝|x_i-y_i|

从上面的定义可以看出，不管是离散型数据还是连续型数据，HEOM距离都能直接处理。在HEOM距离下,不同样本在不同类型数据的任意属性下的距离都在区间[0,1]内，具有一致性。而且，HEOM距离还为每个属性设置了权重,易于引入领域知识。

在确定距离度量后，可引出异质粗糙集不可分辨关系，建立异质粗糙集。

定义4异质邻域:给定决策系统(U,C,d),C为异质属性集合,

对于

δ>0,x关于属性子集B的异质邻域定义为:

其中，δ是邻域半径，本发明中将δ设置为0.2。在HEOM距离度量下,

内的样本关于属性子集B是不可分辨的,是x在HEOM距离意义下关于属性子集B的等价类。这里需要特别指出地是,由于使用了HEOM距离度量,

成为了一种泛化的邻域结构,能够直接面向离散数据、连续数据和异质数据,不需要额外的数据转换和处理.在异质邻域下,关于不同属性子集的等价类具有单调性,即

(2)计算等价类粒子结构。本发明定义了如下一种等价类粒子结构信息来衡量属性子集的分类判别能力。

定义5粒子结构信息:给定部分标记决策系统(U^l∪U^u,C,d),对

等价类粒子的结构信息定义为:

其中,U^l和U^u分别表示有标记和无标记的样本集合。根据上面定义,对于两个有包含关系的属性子集而言,含有较多元素的属性子集的分类判别能力更强,这与人们的直观认识也是一致的。但对于两个没有包含关系的属性子集来说,它们的分类判别能力却没有上述的关系。

(3)计算广义属性依赖度。对于粗糙集属性约简而言,属性子集评价至关重要。为了能够在部分标记异质数据上更好地进行属性约简，本发明将反映等价类粒子的分类判别能力的粒子结构信息和依赖度进行融合,提出一种广义依赖度来评价属性子集的分类判别能力。

定义6广义依赖度:给定决策系统(U^l∪U^u,C,d)，U^l和U^u分别是有标记和无标记数据集,C是异质条件属性集合,

决策属性d对属性子集B的广义依赖度定义为:

其中,0≤λ≤1是一个平衡因子,调节评价分类判别能力的两种方法间的权重，本发明中将λ设置为0.5。广义依赖度由于融合了依赖数据标记的和不依赖于数据标记的属性子集评价方法，因此可以适应于部分标记数据。

(4)属性约简。

定理2广义依赖度约简定理:给定决策系统(U^l∪U^u,C,d)，U^l和U^u分别是有标记和无标记数据集,C是异质条件属性集合,B是C的一个约简当前仅当B满足下面条件:

(1)

(2)

定义7广义重要度:给定决策系统(U^l∪U^u,C,d)，U^l和U^u分别是有标记和无标记数据集,C是异质条件属性集合,

a相对于属性子集B的广义重要度定义为:

根据广义重要度可以使用贪心算法选择满足约简定理的属性。

本发明提出了一种面向部分标记异质数据的粗糙集属性约简方法(RS-PlH)。首先,引入了HEOM距离来度量异质数据的不可分辨关系,从而导出了一种面向异质数据的等价类粒子的划分方法；其次,定义了一种反映不可分辨关系的等价类粒子的结构信息,它不依赖数据标签，就可以衡量部分标记数据中属性子集的分类判别能力；最后,在前两点的基础上,融合等价类粒子的结构信息和依赖度的概念构造了一种新的属性评价方法,实现了一种面向部分标记异质数据的粗糙集属性约简方法。

附图说明

图1为约简算法流程图

具体实施方式

一种面向部分标记异质数据的粗糙集属性约简方法，主要包括如下步骤：首先，在数据预处理阶段，对连续型数据进行标准化，将数据取值取值映射到[0,1]区间，并且去除数据中的有缺失值的数据；然后，设置算法的参数，如邻域半径，平衡因子等；之后，在属性约简阶段，通过广义重要度评估每个属性的重要度，并迭代地选取广义重要度最大的属性加入约简集，直到最大的广义重要度不能满足大于零的条件，这时算法停止，得到的约简集即为最终的约简结果。

具体地，下面将结合附图和具体实例对本发明进行详细说明。包括如下步骤：

(1)数据预处理与超参数设置。首先对数据进行处理，对连续数据进行标准化并去取其中存在缺失值的样本。本实例使用的数据如表1所示。d列表示样本标签，其中‘*’表示无标签；其余的C1-C4代表4个样本属性值，其中C1,C3的取值为离散型，C2,C4的取值为连续型。

表1异质数据集

(2)计算每个属性的广义重要度，并选取最大的属性。算法初始阶段设置约简集

空集的广义重要度定义为零。

a.计算广义重要度首先要建立异质数据粗糙集，生成数据样本间的等价类。对表1中的数据，本发明使用HEOM距离度量样本之间的不可分辨关系。特别的，对有标记数据和无标记数据需要分别处理。使用C1属性计算得到的有标记数据和无标记数据中各样本间距离如表2和表3所示。

表2有标记数据间的HEOM距离

表3无标记数据间的HEOM距离

	9	10	11	12
					9	0	0	1	1
10	0	0	1	1
					11	1	1	0	0
12	1	1	0	0

按照邻域半径为0.2的阈值可以划分邻域，邻域内的样本都是不可分辨的，也可称其为等价类，结果为：

样本1的邻域为

样本2的邻域为

样本3的邻域为

样本4的邻域为

样本5的邻域为

样本6的邻域为

样本7的邻域为

样本8的邻域为

样本9的邻域为

样本10的邻域为

样本11的邻域为

样本12的邻域为

根据定义2，在有标记数据中计算正域和属性依赖度。只有样本1，2，3邻域内的样本属于同一类别，因此，样本1，2，3属于正域，

因此，属性C₁的依赖度

b.之后，为了充分利用无标记数据，本发明中定义了邻域等价类的粒子结构，该结构信息可以充分挖掘有标记数据和无标记数据中的粒子结构信息。根据定义5，可以计算属性C₁的粒子结构为：

c.然后，计算广义属性依赖度。设置的超参数平衡因子为0.5。

d.根据上述计算，可以得到在第一次迭代中C₁的广义属性重要度为：

e.同理可以计算得到剩余属性的广义重要度如下：

选择广义重要度最大的属性,

满足条件，因此将C₃加入约简集，red＝{C₃}。

(3)循环进行步骤(2)，直到不满足判断条件，所得约简集即为最终的异质数据约简结果。