CN102609470B

CN102609470B - 一种基于区间平均值的模糊粗糙单调数据挖掘方法

Info

Publication number: CN102609470B
Application number: CN201210014925.2A
Authority: CN
Inventors: 梁瑾
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2012-01-16
Filing date: 2012-01-16
Publication date: 2014-05-07
Anticipated expiration: 2032-01-16
Also published as: CN102609470A

Abstract

本发明参照模糊粗糙集的理论，提出基于区间平均值的模糊粗糙单调数据挖掘方法，通过对决策属性与条件属性重新排列后，然后对重新排列后的集合进行区间划分，并通过每个区间的平均值进行单调判断，然后求出条件属性的隶属函数值，并根据区间的循环划分求出适合的划分数，进而得出干扰因素的作用范围，然后设定过滤规则，对不适合的数据进行过滤，从而获得约简的数据集和最优的数据。

Description

一种基于区间平均值的模糊粗糙单调数据挖掘方法

技术领域

本发明所涉及数据挖掘的技术领域，特别是设计一种基于区间平均值的模糊粗糙单调数据挖掘方法。

背景技术

粗糙集理论是用来处理不确定和不完整数据信息的数学工具，而模糊集也可以描述信息和知识的不确定性，由于两者有很强的互补性，因此可以把它们结合起来对信息进行不确定性处理。在决策表中，粗糙集挖掘，条件属性和决策属性之间的依赖关系，约简属性，找出哪些条件属性对决策属性比较重要，主要的理论基础是等价关系，由于等价关系的局限性，许多人提出了不同的约简关系，T.Y.Lin等人提出了领域和相容关系，S.Greco等人提出了优势关系，D.Dubois等人提出了模糊等价关系等。事实上条件属性和决策属性之间往往还存在量的单调依赖关系。例如在生化反应中，条件成分和成品之间在一定范围内有单调递增或者递减依赖关系，一般情况下越多的成品需要越多的条件成分，而是否凡是包含成品成分的条件成分都与成品之间有这样的单调递增关系。显然不是，有些条件成分虽然包含成品中的成分，但它们并不参与生成成品，当然在某些情况下可以通过确定的生化反应方程较精确的计算出来，但大多数情况下，生化反应处于一个复杂的环境中，受到很多物理、化学和生物等不确定因素的影响，可以采用模糊粗糙的方法，先计算出条件成分与成品之间的单调递增或者递减关系，从而精简掉冗余的条件成分，然后再进行相应的分析，也就是挖掘出哪些条件属性的增加或减少会影响到决策属性的量的变化，并且挖掘出哪些量影响程度大，得出主要控制哪些条件属性的量会影响决策属性量增加或者减少，从而达到控制目的。

1997年和1998年C.J.Wu,Te-Shun Chou分别介绍和讨论了模糊单调函数及在逻辑控制中的应用，某些文献讨论了Mamdani-Assilians模型和T-S推断方法中与模糊单调相关的理论，近年来许多人讨论了决策表属性约简的不少算法等，在决策表中，假设决策属性量的增加与减少依赖于某些条件属性量的增加与减少，那么需要挖掘出对决策属性量的变化产生重要影响的条件属性，称这样的决策属性和条件属性之间有重要的单调依赖关系，而这种单调依赖关系在决策表中并非一定严格单调，也就是说在相邻两点的条件属性值单调性并不一定能一一映射到决策属性相应两点的单调性，因为实际数据中存在各种干扰因素和误差，但是现有技术中还没有能有效的挖掘出对决策属性变化产生重要影响的条件属性，并可以通过控制这些条件属性去影响决策属性。

现有的技术模型主要是围绕着等价关系进行一些拓展和改变，因此在采用这些技术模型进行知识约简和数据挖掘时都存在一些问题，具体归纳如下：（1）面对众多的输入与输出属性和复杂庞大的数据，如何在属性数据之间构建等价关系及其现有的一些拓展关系是比较难的问题；（2）复杂数据构成的决策表一般都是不一致的决策表，而现有属性约简算法一般是建立在一致的决策表上；（3）复杂环境的数据一般都是连续性的数据，而现有的属性约简算法一般都要对连续性的数据离散化处理，而对于不规则的复杂、多变和大量的数据，这是一个难题；（4）对于现有的启发式知识约简方法，多数以核属性作为出发点，每步把相对重要的最大属性优先加入要求约简结果中，而因为（1）所提的问题，所以核属性不容易求出，相对重要性在的复杂环境中也比较难获取，因为在众多的属性中，属性的重要性不容易观察出来，而且输入和输出数据很复杂，很难通过人为统计而得出属性的相对重要性或者通过现有的分析方法得到；（5）由于复杂环境中的数据基本都是不完备的，而这对现有的属性约简方法来说一个难题；（6）现有的属性约简算法一般针对有限的数据值集，不适用大量不规则的数据值集，而在复杂环境中所测出的数据往往是大量不规则的数据集。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于区间平均值的模糊粗糙单调数据挖掘方法。

为了实现上述发明目的，采用的技术方案如下：

一种基于区间平均值的模糊粗糙单调数据挖掘方法，包括：

对决策属性集合D和条件属性集合C_i分别根据决策属性值按行进行排序后，获得第二决策属性集合D′和第二条件属性集合C′_i的步骤；

第二决策属性集合D′划分为2≤p<n个区间，并计算出相邻区间的距离和各个区间的中心点，以及根据决策属性与条件属性之间的映射关系对第二条件属性集合C′_i划分区间的步骤，并计算出第二条件属性集合C′_i相邻区间的距离和各个区间的中心点，其中p为区间数，n为决策表的对象数；

从p到2循环计算出第二条件属性集合C′_i在每个p值下各个区间的平均值，判断各个区间平均值依区间划分是否为升序关系，若是则通过区间的平均值求出求这次划分条件属性的隶属函数值，否则将该p值划分下条件属性的隶属函数值置零的步骤；

求出最大的隶属函数值以及其对应的p值的步骤；

根据所述隶属函数的最大值计算出干扰因素的稳定作用范围的步骤；

根据干扰因素的作用范围设定过滤规则，求约简的数据和最优数据的步骤。

其中,决策表根据决策属性值的递增顺序按行进行排序。

或者,在所述决策属性值前加上负号，然后决策表根据添加负号后的决策属性值的递增顺序按行进行排序。

优选地,所述划分区间的方法为：等距离设定决策属性集的p个区间的中心点，把

作为相邻区间中心点的距离，第一个区间的中心点设为

记为ct₁，第i个区间中心点记为ct_i，那么第i+1区间中心点ct_i+1=ct_i+dis，得p个区间中心点的集合{ct₁,ct₂,...,ct_p}把与中心点集合中任一中心的距离小于等于dis/2的决策属性值归为相应的区间，其中y_n′∈D′、y₁′∈D′。

优选地,所述循环计算的内容为：

（1）求区间的平均值，并判断区间平均值是否依区间划分是升序关系，如果是，那么进入下一步；否则，这次划分的隶属函数值赋0，进入p的下次循环；

（2）求出第二条件属性集合C′_i每次划分所有相邻区间的隶属函数值，从这些相邻区间的隶属函数值中找出最小值作为每次划分的隶属函数值；

（3）判断循环是否结束，若是就结束循环，否则进入下一次循环。

优选地,通过以下公式获取条件属性各个区间的隶属函数值：

其中，avg(Γ_h)表示区间Γ_h的平均值，num(avg(Γ_h)≥Γ_r))表示Γ_r中小于等于Γ_h的平均值的元素的个数，|Γ_r|表示Γ_r中元素的个数，β为可选参数，0.5<β≤1，可以根据具体情况进行选择从而得到决策规则。

优选地,计算出所述干扰因素的稳定作用范围的方法为：根据从p到2的循环计算中得出的隶属函数值，在所述的隶属函数值不为0，且当模糊递增隶属函数的值在p=k→2的过程中，后面的值大于等于前面的值，并且当p=2或p=3时，所述隶属函数值最大时，记录k的值并根据k的值求出所述干扰因素的稳定作用范围。

优选地,所述干扰因素的稳定作用范围为：

优选地,所述过滤规则具体为：

当p值越小时，设定的隶属函数过滤值则越大与p值呈反比；当p值越大时，设定的隶属函数过滤值则越小与p值呈反比；所述过滤值至少大于0.5,用于把不符合设定要求的条件属性过滤掉，达到属性约简和数据挖掘的目的。

与现有技术相比，本发明的优点在于：

可以针对复杂的具有输入输出特征的系统或者环境，根据输入和输出所采集的数据，能迅速找出对关键输出有重要影响的主要输入，达到约简输入属性或者达到挖掘主要输入的目的，并可以把握各个输入对输出的影响程度，从而可以为如何控制输入达到控制输出提供决策的参考。

附图说明

图1为本发明数据递增情况下的流程图；

图2为本发明数据递减情况下的流程图。

具体实施方式

下面结合附图对本发明做进一步的说明。

如图1-2所示，本发明提供一种基于区间平均值的模糊粗糙单调数据挖掘方法，包括：

由于决策属性和条件属性之间是一一映射的关系，必然存在映射f:D→C_i，其中对任意的k∈{1,2,...,n},y_k∈D,x_ik∈C_i，有f(y_k)=x_ik，也必然存在逆映射

使得f^-1(x_ik)=y_k。同样存在映射使得g(e_k)={y_k,x_1k,x_2k,..,x_mk}，同理有逆映射g^-1(y_k,x_1k,x_2k,...,x_mk)=e_k，对某个条件属性C_i∈C={C₁,C₂,...,C_m}，存在映射

使得g_i(e_k)={y_k,x_ik}，同样有逆映射

g_{i}^{- 1} (y_{k}, x_{ik}) = e_{k} .

将第二决策属性集合D′划分为2≤p<n个区间，并计算出相邻区间的距离和各个区间的中心点，得到区间集合Ω={Ω₁、Ω₂、…Ω_p}，并根据映射关系对第二条件属性集合C′_i划分区间，得到区间集合Γ={Γ₁、Γ₂、…Γ_p}，其中p为区间数，n为决策表的对象数；

从p到2循环计算出第二条件属性集合C′_i在每个p值下各个区间的平均值，判断区间平均值是否依区间划分是升序关系，若是则通过区间的平均值求出求这次划分条件属性的隶属函数值，否则将该p值划分下条件属性的隶属函数值置零的步骤；

所划分的每个区间平均值，平均值就是该区间所有数值的平均值，依区间划分是升序关系：比如：区间1的平均值为a₁,区间2的平均值是a₂,…,区间n的平均值为a_n，那么a₁,a₂,…,a_n是否是升序关系。

其中上述，通过求区间的平均值，并判断区间平均值是否依区间划分是升序关系，如果是，则判断决策属性和条件属性之间存在模糊粗糙单调关系并记录模糊单调依赖隶属函数值，否则判断决策属性和条件属性之间不存在模糊粗糙单调关系，模糊单调依赖隶属函数值赋零。

其中所述模糊粗糙单调关系具体为：

量a与量b模糊单调的特征内涵是：当量a在某范围内出现增长或者减少的趋势时，量b在某范围内也会出现增长或者减少的趋势。下面给出模糊粗糙单调的更具体化的文字描述定义：当输入值在某个区间范围的值相对另一个区间范围的值出现递增关系，或者说一个区间范围的值大部分大于另一个区间范围的值时，由于干扰因素的存在，输出值也出现在对应区间范围的值大部分大于对应的另一个区间范围的值，称这样的递增关系为区间的模糊递增关系；同样，当输入值在一个区间范围的值大部分大于另一个区间范围的值时，而输出值出现在对应区间范围的值大部分小于对应的另一个区间范围的值，则称这样的递减关系为区间的模糊递减关系。只要符合模糊单调特征内涵的数学模型都可以是模糊单调的数学模型。

求出最大的隶属函数值以及其对应的p值的步骤；

所述决策表的重新排列可以为：决策表根据决策属性值的递增顺序按行进行排序。或在所述决策属性值前加上负号，然后决策表根据添加负号后的决策属性值的递增顺序按行进行排序。

进一步优选地，所述对区间的划分采用的方法为：等距离设定决策属性集的p个区间的中心点，把

作为相邻区间中心点的距离，第一个区间的中心点设为

记为ct₁，第i个区间中心点记为ct_i，那么第i+1区间中心点ct_i+1=ct_i+dis，得p个区间中心点的集合{ct₁,ct₂,...,ct_p}把与中心点集合中任一中心的距离小于等于dis/2的决策属性值归为相应的区间，其中y_n′∈D′、y₁′∈D′，，设y′_l∈D′，如果|y′_l-ct_i-1|>dis/2，且|y′_l-ct_i|≤dis/2，那么把y′_l归为区间Ω_i，这种划分方法，简称为Ψ划分，D′经过Ψ划分后，得Ω₁,Ω₂,...,Ω_p，其中Ω₁∪Ω₂∪...∪Ω_p=D′,

对任意的1≤r<h≤p，有sup(Ω_r)≤inf(Ω_h)sup为上确界，inf为下确界，通过映射f，可得C′_i的区间划分Γ₁,Γ₂,...,Γ_p，简称为Z划分。

求出Γ₁,Γ₂,...,Γ_p区间之间模糊递增依赖隶属函数的最小数值，作为条件属性C′_i相对决策属性D′依区间划分Ψ的递增程度，或说C′_i依区间划分Z的递增程度。如果最小数值为0，那么认为C′_i相对D′依区间划分Ψ没有递增，或说C′_i依区间划分Z没有递增。

上述的判断用于考察条件属性与决策属性的模糊单调程度，从而可以通过后面设定的过滤规则把模糊单调程度弱的条件属性过滤掉，达到约简的目的。

上述步骤中需要循环计算的内容为：

优选地，通过以下公式获取条件属性各个区间的隶属函数的值：

其中，avg(Γ_h)表示区间Γ_h的平均值，num(avg(Γ_h)3Γ_r))表示Γ_r中小于等于Γ_h的平均值的元素的个数，|Γ_r|表示Γ_r中元素的个数，β为可选参数，0.5<β≤1，可以根据具体情况进行选择从而得到决策规则。

因此μ_avg(Γ_h,Γ_r)=0或β<μ_avg(Γ_h,Γ_r)≤1。当μ_avg(Γ_h,Γ_r)=0时，认为区间Γ_h相对区间Γ_r没有发生模糊递增的情况，否则称Γ_h相对区间_Γr依程度μ_avg(Γ_h,Γ_r)模糊递增

优选地，计算出所述干扰因素的稳定作用范围的方法为：根据从p到2的循环计算中得出的隶属函数值，在所述的隶属函数值不为0，且当模糊递增隶属函数的值在p=k→2的过程中，后面的值大于等于前面的值，并且当p=2或p=3时，所述隶属函数值最大时，记录k的值并根据k的值求出所述干扰因素的稳定作用范围。

进一步地，所述干扰因素的稳定作用范围为：

进一步地，所述过滤规则具体为：

具体实施例：

首先说明下UCI的污水处理数据，该数据集是来自城市污水厂每日的传感器测试的结果，总共有527组样本数据，每组数据包含38个属性，有些数据是缺失的和不完备的数据。其中29个主要属性的信息如下：

（1）Q-E(input flow to plant)：输入到工厂的流量；

（2）ZN-E(input Zinc to plant)：输入到工厂的锌；

（3）PH-E(input pH to plant)：输入到工厂的pH；

（4）DBO-E(input Biological demand of oxygen to plant)：输入到工厂的生物需氧量；

（5）DQO-E(input chemical demand of oxygen to plant)：输入到工厂的化学需氧量；

（6）SS-E(input suspended solids to plant)：输入到工厂的悬浮固体；

（7）SSV-E(input volatile supended solids to plant)：输入到工厂的挥发性固体；

（8）SED-E(input sediments to plant)：输入到工厂的沉淀物；

（9）COND-E(input conductivity to plant)：输入到工厂的传导性；

（10）PH-P(input pH to primary settler)：输入到初沉池的pH；

（11）DBO-P(input Biological demand of oxygen to primary settler)：输入到初沉池的生物需氧量；

（12）SS-P(input suspended solids to primary settler)：输入到初沉池的悬浮固体；

（13）SSV-P(input volatile supended solids to primary settler)：输入到初沉池的挥发性固体；

（14）SED-P(input sediments to primary settler)：输入到初沉池的沉淀物；

（15）COND-P(input conductivity to primary settler)：输入到初沉池的传导性；

（16）PH-D(input pH to secondary settler)：输入到二沉池的pH；

（17）DBO-D(input Biological demand of oxygen to secondary settler)：输入到二沉池的生物需氧量；

（18）DQO-D(input chemical demand of oxygen to secondary settler)：输入到二沉池的化学需氧量；

（19）SS-D(input suspended solids to secondary settler)：输入到二沉池的悬浮固体；

（20）SSV-D(input volatile supended solids to secondary settler)：输入到二沉池的挥发性固体；

（21）SED-D(input sediments to secondary settler)：输入到二沉池的沉淀物；

（22）COND-D(input conductivity to secondary settler)：输入到二沉池的传导性；

（23）PH-S(output pH)：输出的pH值；

（24）DBO-S(output Biological demand of oxygen)：输出的生物需氧量；

（25）DQO-S(output chemical demand of oxygen)：输出的化学需氧量；

（26）SS-S(output suspended solids)：输出的悬浮固体；

（27）SSV-S(output volatile supended solids)：输出的挥发性固体；

（28）SED-S(output sediments)：输出的沉淀物；

（29）COND-S(output conductivity)：输出的传导性；

前22个属性为对象的输入数据属性，将它们作为决策表的条件属性，第23至29个属性为对象的输出数据属性，把它们作为输出的决策属性。对于基于区间平均值的数据挖掘算法，设定如下：设μ_max为最大的模糊递增隶属函数值，p_max为取得最大模糊递增隶属函数值时的p值，Ω_r为干扰因素对该隶属函数作用的稳定范围，p→2过程中模糊单调递增隶属函数值开始稳定递增的p值记为K′，在下列的表中，p₂表示p等于2时，p_i表示p等于i时，p_i所对应的列的数值表示p等于i时的模糊递增隶属函数值；现只给出第（23）、（24）和（25）个输出属性与其他22个输入属性的模糊单调递增依赖关系的实验结果，如下所示：

（一）第23个决策属性PH-S与其他22个条件输入属性的模糊单调递增依赖关系：

针对基于区间平均值的模糊单调数据挖掘算法，在这个实验中，设置决策过滤规则如下：设μ_max的β值为0.6，把一些属性过滤后得到表4.2.2:

表4.2.2 PH-S基于区间平均值的模糊单调递增依赖关系表

从表4.2.2中可以得到与决策属性PH-S有模糊单调关系的属性约简集合，记为AvgR23={PH-E,SS-E,SED-E,COND-E,PH-P,DBO-P,SS-P,SED-P,COND-P,PH-D,SED-D,COND-D}，与集合MinR23相比，可以发现

MinR 23 &Subset;

AvgR 23 .

（二）第24个决策属性DBO-S与其他22个条件输入属性的模糊单调递增依赖关系：

由于该决策属性的最大样本数据值是其他数据值的3倍以上，为保证数据分布的相对均匀性，把该数据作为噪声数据过滤掉，剩下245个样本数据。

针对基于区间平均值的模糊单调数据挖掘方法，在这个实验中，设置决策过滤规则如下：

如果当p取2或者3时模糊递增隶属函数的值不为零，而当p取其他值时模糊递增隶属函数的值都为零，那么设μ_max的β值为0.6，否则设μ_max的β值为0.55，把一些属性过滤后得到表4.2.5:

表4.2.5 DBO-S基于区间平均值的模糊单调递增依赖关系表

从表4.2.5中可以得到与决策属性DBO-S有模糊单调关系的属性约简集合，记为AvgR24={ZN-E,DBO-E,DQO-E,SS-E,COND-E,DBO-P,SS-P,SED-P,COND-P,DBO-D,DQO-D,SS-D,SED-D,COND-D}，与集合MinR24相比，可以发现

MinR 24 &Subset; AvgR 24 .

（三）第25个决策属性DQO-S与其他22个条件输入属性的模糊单调递增依赖关系：

由于该决策属性有三个样本数据值远远大于其他的数据值，为保证数据分布的相对均匀性，把这三个样本数据作为噪声数据过滤掉，剩下243个样本数据。针对基于区间平均值的模糊单调隶属函数，在这个实验中设计决策过滤规则如下：if p≤5且模糊隶属函数都不为零then设μ_max的β值为0.50;

if p≤4且模糊隶属函数都不为零then设μ_max的β值为0.55;

if p≤3且模糊隶属函数都不为零then设μ_max的β值为0.60;

如果当p取2或者3两者之一时模糊递增隶属函数的值不为零，而当p取其他值时模糊递增隶属函数的值都为零，那么设μ_max的β值为0.62。把一些属性过滤后得到表4.2.8:

表4.2.8 DQO-S基于区间平均值的模糊单调递增依赖关系表

从表4.2.8中可以得到与决策属性DQO-S有模糊单调关系的属性约简集合，记为AvgR25={ZN-E,DBO-E,DQO-E,SS-E,SSV-E,SED-E,PH-P,DBO-P,SS-P,SED-P,COND-P,DBO-D,DQO-D,SED-D}，与集合MinR25相比，可以发现

MinR 25 &Subset; AvgR 25 .

Claims

1.一种基于区间平均值的模糊粗糙单调数据挖掘方法，其特征在于，包括：

求出最大的隶属函数值以及其对应的p值的步骤；

根据干扰因素的作用范围设定过滤规则，求约简的数据和最优数据的步骤；

所述划分区间的方法为：等距离设定决策属性集的p个区间的中心点，把

作为相邻区间中心点的距离，第一个区间的中心点设为

记为ct₁，第i个区间中心点记为ct_i，那么第i+1区间中心点ct_i+1=ct_i+dis，得p个区间中心点的集合{ct₁,ct₂,...,ct_p}把与中心点集合中任一中心的距离小于等于dis/2的决策属性值归为相应的区间，其中y_n′∈D′、y₁′∈D′；

所述循环计算的内容为：

（3）判断循环是否结束，若是就结束循环，否则进入下一次循环；

通过以下公式获取条件属性各个区间的隶属函数值：

其中，Γ₁,Γ₂,...,Γ_p表示C′_i的区间划分，avg(Γ_h)表示区间Γ_h的平均值，num(avg(Γ_h)≥Γ_r))表示Γ_r中小于等于Γ_h的平均值的元素的个数，|Γ_r|表示Γ_r中元素的个数，β为可选参数，0.5<β≤1，可以根据具体情况进行选择从而得到决策规则，Γ_h表示区间集合Γ的第h个区间，Γ_r表示区间集合Γ的第r个区间。

2.根据权利要求1所述的基于区间平均值的模糊粗糙单调数据挖掘方法，其特征在于，决策表根据决策属性值的递增顺序按行进行排序。

3.根据权利要求1所述的基于区间平均值的模糊粗糙单调数据挖掘方法，其特征在于，在所述决策属性值前加上负号，然后决策表根据添加负号后的决策属性值的递增顺序按行进行排序。

4.根据权利要求1所述的基于区间平均值的模糊粗糙单调数据挖掘方法，其特征在于，计算出所述干扰因素的稳定作用范围的方法为：根据从p到2的循环计算中得出的隶属函数值，在所述的隶属函数值不为0，且当模糊递增隶属函数的值在p=k→2的过程中，后面的值大于等于前面的值，并且当p=2或p=3时，所述隶属函数值最大时，记录k的值并根据k的值求出所述干扰因素的稳定作用范围。

5.根据权利要求4所述的基于区间平均值的模糊粗糙单调数据挖掘方法，其特征在于，所述干扰因素的稳定作用范围为：

6.根据权利要求5所述的基于区间平均值的模糊粗糙单调数据挖掘方法，其特征在于，所述过滤规则具体为：