CN102609470B - 一种基于区间平均值的模糊粗糙单调数据挖掘方法 - Google Patents

一种基于区间平均值的模糊粗糙单调数据挖掘方法 Download PDF

Info

Publication number
CN102609470B
CN102609470B CN201210014925.2A CN201210014925A CN102609470B CN 102609470 B CN102609470 B CN 102609470B CN 201210014925 A CN201210014925 A CN 201210014925A CN 102609470 B CN102609470 B CN 102609470B
Authority
CN
China
Prior art keywords
value
interval
attribute
decision
fuzzy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210014925.2A
Other languages
English (en)
Other versions
CN102609470A (zh
Inventor
梁瑾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Normal University
Original Assignee
South China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Normal University filed Critical South China Normal University
Priority to CN201210014925.2A priority Critical patent/CN102609470B/zh
Publication of CN102609470A publication Critical patent/CN102609470A/zh
Application granted granted Critical
Publication of CN102609470B publication Critical patent/CN102609470B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明参照模糊粗糙集的理论,提出基于区间平均值的模糊粗糙单调数据挖掘方法,通过对决策属性与条件属性重新排列后,然后对重新排列后的集合进行区间划分,并通过每个区间的平均值进行单调判断,然后求出条件属性的隶属函数值,并根据区间的循环划分求出适合的划分数,进而得出干扰因素的作用范围,然后设定过滤规则,对不适合的数据进行过滤,从而获得约简的数据集和最优的数据。

Description

一种基于区间平均值的模糊粗糙单调数据挖掘方法
技术领域
本发明所涉及数据挖掘的技术领域,特别是设计一种基于区间平均值的模糊粗糙单调数据挖掘方法。
背景技术
粗糙集理论是用来处理不确定和不完整数据信息的数学工具,而模糊集也可以描述信息和知识的不确定性,由于两者有很强的互补性,因此可以把它们结合起来对信息进行不确定性处理。在决策表中,粗糙集挖掘,条件属性和决策属性之间的依赖关系,约简属性,找出哪些条件属性对决策属性比较重要,主要的理论基础是等价关系,由于等价关系的局限性,许多人提出了不同的约简关系,T.Y.Lin等人提出了领域和相容关系,S.Greco等人提出了优势关系,D.Dubois等人提出了模糊等价关系等。事实上条件属性和决策属性之间往往还存在量的单调依赖关系。例如在生化反应中,条件成分和成品之间在一定范围内有单调递增或者递减依赖关系,一般情况下越多的成品需要越多的条件成分,而是否凡是包含成品成分的条件成分都与成品之间有这样的单调递增关系。显然不是,有些条件成分虽然包含成品中的成分,但它们并不参与生成成品,当然在某些情况下可以通过确定的生化反应方程较精确的计算出来,但大多数情况下,生化反应处于一个复杂的环境中,受到很多物理、化学和生物等不确定因素的影响,可以采用模糊粗糙的方法,先计算出条件成分与成品之间的单调递增或者递减关系,从而精简掉冗余的条件成分,然后再进行相应的分析,也就是挖掘出哪些条件属性的增加或减少会影响到决策属性的量的变化,并且挖掘出哪些量影响程度大,得出主要控制哪些条件属性的量会影响决策属性量增加或者减少,从而达到控制目的。
1997年和1998年C.J.Wu,Te-Shun Chou分别介绍和讨论了模糊单调函数及在逻辑控制中的应用,某些文献讨论了Mamdani-Assilians模型和T-S推断方法中与模糊单调相关的理论,近年来许多人讨论了决策表属性约简的不少算法等,在决策表中,假设决策属性量的增加与减少依赖于某些条件属性量的增加与减少,那么需要挖掘出对决策属性量的变化产生重要影响的条件属性,称这样的决策属性和条件属性之间有重要的单调依赖关系,而这种单调依赖关系在决策表中并非一定严格单调,也就是说在相邻两点的条件属性值单调性并不一定能一一映射到决策属性相应两点的单调性,因为实际数据中存在各种干扰因素和误差,但是现有技术中还没有能有效的挖掘出对决策属性变化产生重要影响的条件属性,并可以通过控制这些条件属性去影响决策属性。
现有的技术模型主要是围绕着等价关系进行一些拓展和改变,因此在采用这些技术模型进行知识约简和数据挖掘时都存在一些问题,具体归纳如下:(1)面对众多的输入与输出属性和复杂庞大的数据,如何在属性数据之间构建等价关系及其现有的一些拓展关系是比较难的问题;(2)复杂数据构成的决策表一般都是不一致的决策表,而现有属性约简算法一般是建立在一致的决策表上;(3)复杂环境的数据一般都是连续性的数据,而现有的属性约简算法一般都要对连续性的数据离散化处理,而对于不规则的复杂、多变和大量的数据,这是一个难题;(4)对于现有的启发式知识约简方法,多数以核属性作为出发点,每步把相对重要的最大属性优先加入要求约简结果中,而因为(1)所提的问题,所以核属性不容易求出,相对重要性在的复杂环境中也比较难获取,因为在众多的属性中,属性的重要性不容易观察出来,而且输入和输出数据很复杂,很难通过人为统计而得出属性的相对重要性或者通过现有的分析方法得到;(5)由于复杂环境中的数据基本都是不完备的,而这对现有的属性约简方法来说一个难题;(6)现有的属性约简算法一般针对有限的数据值集,不适用大量不规则的数据值集,而在复杂环境中所测出的数据往往是大量不规则的数据集。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于区间平均值的模糊粗糙单调数据挖掘方法。
为了实现上述发明目的,采用的技术方案如下:
一种基于区间平均值的模糊粗糙单调数据挖掘方法,包括:
对决策属性集合D和条件属性集合Ci分别根据决策属性值按行进行排序后,获得第二决策属性集合D′和第二条件属性集合C′i的步骤;
第二决策属性集合D′划分为2≤p<n个区间,并计算出相邻区间的距离和各个区间的中心点,以及根据决策属性与条件属性之间的映射关系对第二条件属性集合C′i划分区间的步骤,并计算出第二条件属性集合C′i相邻区间的距离和各个区间的中心点,其中p为区间数,n为决策表的对象数;
从p到2循环计算出第二条件属性集合C′i在每个p值下各个区间的平均值,判断各个区间平均值依区间划分是否为升序关系,若是则通过区间的平均值求出求这次划分条件属性的隶属函数值,否则将该p值划分下条件属性的隶属函数值置零的步骤;
求出最大的隶属函数值以及其对应的p值的步骤;
根据所述隶属函数的最大值计算出干扰因素的稳定作用范围的步骤;
根据干扰因素的作用范围设定过滤规则,求约简的数据和最优数据的步骤。
其中,决策表根据决策属性值的递增顺序按行进行排序。
或者,在所述决策属性值前加上负号,然后决策表根据添加负号后的决策属性值的递增顺序按行进行排序。
优选地,所述划分区间的方法为:等距离设定决策属性集的p个区间的中心点,把
Figure GDA0000454271020000031
作为相邻区间中心点的距离,第一个区间的中心点设为
Figure GDA0000454271020000032
记为ct1,第i个区间中心点记为cti,那么第i+1区间中心点cti+1=cti+dis,得p个区间中心点的集合{ct1,ct2,...,ctp}把与中心点集合中任一中心的距离小于等于dis/2的决策属性值归为相应的区间,其中yn′∈D′、y1′∈D′。
优选地,所述循环计算的内容为:
(1)求区间的平均值,并判断区间平均值是否依区间划分是升序关系,如果是,那么进入下一步;否则,这次划分的隶属函数值赋0,进入p的下次循环;
(2)求出第二条件属性集合C′i每次划分所有相邻区间的隶属函数值,从这些相邻区间的隶属函数值中找出最小值作为每次划分的隶属函数值;
(3)判断循环是否结束,若是就结束循环,否则进入下一次循环。
优选地,通过以下公式获取条件属性各个区间的隶属函数值:
其中,avg(Γh)表示区间Γh的平均值,num(avg(Γh)≥Γr))表示Γr中小于等于Γh的平均值的元素的个数,|Γr|表示Γr中元素的个数,β为可选参数,0.5<β≤1,可以根据具体情况进行选择从而得到决策规则。
优选地,计算出所述干扰因素的稳定作用范围的方法为:根据从p到2的循环计算中得出的隶属函数值,在所述的隶属函数值不为0,且当模糊递增隶属函数的值在p=k→2的过程中,后面的值大于等于前面的值,并且当p=2或p=3时,所述隶属函数值最大时,记录k的值并根据k的值求出所述干扰因素的稳定作用范围。
优选地,所述干扰因素的稳定作用范围为:
Figure GDA0000454271020000042
优选地,所述过滤规则具体为:
当p值越小时,设定的隶属函数过滤值则越大与p值呈反比;当p值越大时,设定的隶属函数过滤值则越小与p值呈反比;所述过滤值至少大于0.5,用于把不符合设定要求的条件属性过滤掉,达到属性约简和数据挖掘的目的。
与现有技术相比,本发明的优点在于:
可以针对复杂的具有输入输出特征的系统或者环境,根据输入和输出所采集的数据,能迅速找出对关键输出有重要影响的主要输入,达到约简输入属性或者达到挖掘主要输入的目的,并可以把握各个输入对输出的影响程度,从而可以为如何控制输入达到控制输出提供决策的参考。
附图说明
图1为本发明数据递增情况下的流程图;
图2为本发明数据递减情况下的流程图。
具体实施方式
下面结合附图对本发明做进一步的说明。
如图1-2所示,本发明提供一种基于区间平均值的模糊粗糙单调数据挖掘方法,包括:
对决策属性集合D和条件属性集合Ci分别根据决策属性值按行进行排序后,获得第二决策属性集合D′和第二条件属性集合C′i的步骤;
由于决策属性和条件属性之间是一一映射的关系,必然存在映射f:D→Ci,其中对任意的k∈{1,2,...,n},yk∈D,xik∈Ci,有f(yk)=xik,也必然存在逆映射
Figure GDA0000454271020000051
使得f-1(xik)=yk。同样存在映射使得g(ek)={yk,x1k,x2k,..,xmk},同理有逆映射g-1(yk,x1k,x2k,...,xmk)=ek,对某个条件属性Ci∈C={C1,C2,...,Cm},存在映射
Figure GDA0000454271020000053
使得gi(ek)={yk,xik},同样有逆映射 g i - 1 ( y k , x ik ) = e k .
将第二决策属性集合D′划分为2≤p<n个区间,并计算出相邻区间的距离和各个区间的中心点,得到区间集合Ω={Ω1、Ω2、…Ωp},并根据映射关系对第二条件属性集合C′i划分区间,得到区间集合Γ={Γ1、Γ2、…Γp},其中p为区间数,n为决策表的对象数;
从p到2循环计算出第二条件属性集合C′i在每个p值下各个区间的平均值,判断区间平均值是否依区间划分是升序关系,若是则通过区间的平均值求出求这次划分条件属性的隶属函数值,否则将该p值划分下条件属性的隶属函数值置零的步骤;
所划分的每个区间平均值,平均值就是该区间所有数值的平均值,依区间划分是升序关系:比如:区间1的平均值为a1,区间2的平均值是a2,…,区间n的平均值为an,那么a1,a2,…,an是否是升序关系。
其中上述,通过求区间的平均值,并判断区间平均值是否依区间划分是升序关系,如果是,则判断决策属性和条件属性之间存在模糊粗糙单调关系并记录模糊单调依赖隶属函数值,否则判断决策属性和条件属性之间不存在模糊粗糙单调关系,模糊单调依赖隶属函数值赋零。
其中所述模糊粗糙单调关系具体为:
量a与量b模糊单调的特征内涵是:当量a在某范围内出现增长或者减少的趋势时,量b在某范围内也会出现增长或者减少的趋势。下面给出模糊粗糙单调的更具体化的文字描述定义:当输入值在某个区间范围的值相对另一个区间范围的值出现递增关系,或者说一个区间范围的值大部分大于另一个区间范围的值时,由于干扰因素的存在,输出值也出现在对应区间范围的值大部分大于对应的另一个区间范围的值,称这样的递增关系为区间的模糊递增关系;同样,当输入值在一个区间范围的值大部分大于另一个区间范围的值时,而输出值出现在对应区间范围的值大部分小于对应的另一个区间范围的值,则称这样的递减关系为区间的模糊递减关系。只要符合模糊单调特征内涵的数学模型都可以是模糊单调的数学模型。
求出最大的隶属函数值以及其对应的p值的步骤;
根据所述隶属函数的最大值计算出干扰因素的稳定作用范围的步骤;
根据干扰因素的作用范围设定过滤规则,求约简的数据和最优数据的步骤。
所述决策表的重新排列可以为:决策表根据决策属性值的递增顺序按行进行排序。或在所述决策属性值前加上负号,然后决策表根据添加负号后的决策属性值的递增顺序按行进行排序。
进一步优选地,所述对区间的划分采用的方法为:等距离设定决策属性集的p个区间的中心点,把
Figure GDA0000454271020000061
作为相邻区间中心点的距离,第一个区间的中心点设为
Figure GDA0000454271020000062
记为ct1,第i个区间中心点记为cti,那么第i+1区间中心点cti+1=cti+dis,得p个区间中心点的集合{ct1,ct2,...,ctp}把与中心点集合中任一中心的距离小于等于dis/2的决策属性值归为相应的区间,其中yn′∈D′、y1′∈D′,,设y′l∈D′,如果|y′l-cti-1|>dis/2,且|y′l-cti|≤dis/2,那么把y′l归为区间Ωi,这种划分方法,简称为Ψ划分,D′经过Ψ划分后,得Ω12,...,Ωp,其中Ω1∪Ω2∪...∪Ωp=D′,
Figure GDA0000454271020000072
对任意的1≤r<h≤p,有sup(Ωr)≤inf(Ωh)sup为上确界,inf为下确界,通过映射f,可得C′i的区间划分Γ12,...,Γp,简称为Z划分。
求出Γ12,...,Γp区间之间模糊递增依赖隶属函数的最小数值,作为条件属性C′i相对决策属性D′依区间划分Ψ的递增程度,或说C′i依区间划分Z的递增程度。如果最小数值为0,那么认为C′i相对D′依区间划分Ψ没有递增,或说C′i依区间划分Z没有递增。
上述的判断用于考察条件属性与决策属性的模糊单调程度,从而可以通过后面设定的过滤规则把模糊单调程度弱的条件属性过滤掉,达到约简的目的。
上述步骤中需要循环计算的内容为:
(1)求区间的平均值,并判断区间平均值是否依区间划分是升序关系,如果是,那么进入下一步;否则,这次划分的隶属函数值赋0,进入p的下次循环;
(2)求出第二条件属性集合C′i每次划分所有相邻区间的隶属函数值,从这些相邻区间的隶属函数值中找出最小值作为每次划分的隶属函数值;
(3)判断循环是否结束,若是就结束循环,否则进入下一次循环。
优选地,通过以下公式获取条件属性各个区间的隶属函数的值:
Figure GDA0000454271020000071
其中,avg(Γh)表示区间Γh的平均值,num(avg(Γh)3Γr))表示Γr中小于等于Γh的平均值的元素的个数,|Γr|表示Γr中元素的个数,β为可选参数,0.5<β≤1,可以根据具体情况进行选择从而得到决策规则。
因此μavghr)=0或β<μavghr)≤1。当μavghr)=0时,认为区间Γh相对区间Γr没有发生模糊递增的情况,否则称Γh相对区间Γr依程度μavghr)模糊递增
优选地,计算出所述干扰因素的稳定作用范围的方法为:根据从p到2的循环计算中得出的隶属函数值,在所述的隶属函数值不为0,且当模糊递增隶属函数的值在p=k→2的过程中,后面的值大于等于前面的值,并且当p=2或p=3时,所述隶属函数值最大时,记录k的值并根据k的值求出所述干扰因素的稳定作用范围。
进一步地,所述干扰因素的稳定作用范围为:
Figure GDA0000454271020000081
进一步地,所述过滤规则具体为:
当p值越小时,设定的隶属函数过滤值则越大与p值呈反比;当p值越大时,设定的隶属函数过滤值则越小与p值呈反比;所述过滤值至少大于0.5,用于把不符合设定要求的条件属性过滤掉,达到属性约简和数据挖掘的目的。
具体实施例:
首先说明下UCI的污水处理数据,该数据集是来自城市污水厂每日的传感器测试的结果,总共有527组样本数据,每组数据包含38个属性,有些数据是缺失的和不完备的数据。其中29个主要属性的信息如下:
(1)Q-E(input flow to plant):输入到工厂的流量;
(2)ZN-E(input Zinc to plant):输入到工厂的锌;
(3)PH-E(input pH to plant):输入到工厂的pH;
(4)DBO-E(input Biological demand of oxygen to plant):输入到工厂的生物需氧量;
(5)DQO-E(input chemical demand of oxygen to plant):输入到工厂的化学需氧量;
(6)SS-E(input suspended solids to plant):输入到工厂的悬浮固体;
(7)SSV-E(input volatile supended solids to plant):输入到工厂的挥发性固体;
(8)SED-E(input sediments to plant):输入到工厂的沉淀物;
(9)COND-E(input conductivity to plant):输入到工厂的传导性;
(10)PH-P(input pH to primary settler):输入到初沉池的pH;
(11)DBO-P(input Biological demand of oxygen to primary settler):输入到初沉池的生物需氧量;
(12)SS-P(input suspended solids to primary settler):输入到初沉池的悬浮固体;
(13)SSV-P(input volatile supended solids to primary settler):输入到初沉池的挥发性固体;
(14)SED-P(input sediments to primary settler):输入到初沉池的沉淀物;
(15)COND-P(input conductivity to primary settler):输入到初沉池的传导性;
(16)PH-D(input pH to secondary settler):输入到二沉池的pH;
(17)DBO-D(input Biological demand of oxygen to secondary settler):输入到二沉池的生物需氧量;
(18)DQO-D(input chemical demand of oxygen to secondary settler):输入到二沉池的化学需氧量;
(19)SS-D(input suspended solids to secondary settler):输入到二沉池的悬浮固体;
(20)SSV-D(input volatile supended solids to secondary settler):输入到二沉池的挥发性固体;
(21)SED-D(input sediments to secondary settler):输入到二沉池的沉淀物;
(22)COND-D(input conductivity to secondary settler):输入到二沉池的传导性;
(23)PH-S(output pH):输出的pH值;
(24)DBO-S(output Biological demand of oxygen):输出的生物需氧量;
(25)DQO-S(output chemical demand of oxygen):输出的化学需氧量;
(26)SS-S(output suspended solids):输出的悬浮固体;
(27)SSV-S(output volatile supended solids):输出的挥发性固体;
(28)SED-S(output sediments):输出的沉淀物;
(29)COND-S(output conductivity):输出的传导性;
前22个属性为对象的输入数据属性,将它们作为决策表的条件属性,第23至29个属性为对象的输出数据属性,把它们作为输出的决策属性。对于基于区间平均值的数据挖掘算法,设定如下:设μmax为最大的模糊递增隶属函数值,pmax为取得最大模糊递增隶属函数值时的p值,Ωr为干扰因素对该隶属函数作用的稳定范围,p→2过程中模糊单调递增隶属函数值开始稳定递增的p值记为K′,在下列的表中,p2表示p等于2时,pi表示p等于i时,pi所对应的列的数值表示p等于i时的模糊递增隶属函数值;现只给出第(23)、(24)和(25)个输出属性与其他22个输入属性的模糊单调递增依赖关系的实验结果,如下所示:
(一)第23个决策属性PH-S与其他22个条件输入属性的模糊单调递增依赖关系:
针对基于区间平均值的模糊单调数据挖掘算法,在这个实验中,设置决策过滤规则如下:设μmax的β值为0.6,把一些属性过滤后得到表4.2.2:
表4.2.2  PH-S基于区间平均值的模糊单调递增依赖关系表
Figure GDA0000454271020000101
Figure GDA0000454271020000111
从表4.2.2中可以得到与决策属性PH-S有模糊单调关系的属性约简集合,记为AvgR23={PH-E,SS-E,SED-E,COND-E,PH-P,DBO-P,SS-P,SED-P,COND-P,PH-D,SED-D,COND-D},与集合MinR23相比,可以发现 MinR 23 &Subset; AvgR 23 .
(二)第24个决策属性DBO-S与其他22个条件输入属性的模糊单调递增依赖关系:
由于该决策属性的最大样本数据值是其他数据值的3倍以上,为保证数据分布的相对均匀性,把该数据作为噪声数据过滤掉,剩下245个样本数据。
针对基于区间平均值的模糊单调数据挖掘方法,在这个实验中,设置决策过滤规则如下:
如果当p取2或者3时模糊递增隶属函数的值不为零,而当p取其他值时模糊递增隶属函数的值都为零,那么设μmax的β值为0.6,否则设μmax的β值为0.55,把一些属性过滤后得到表4.2.5:
表4.2.5  DBO-S基于区间平均值的模糊单调递增依赖关系表
Figure GDA0000454271020000112
Figure GDA0000454271020000121
从表4.2.5中可以得到与决策属性DBO-S有模糊单调关系的属性约简集合,记为AvgR24={ZN-E,DBO-E,DQO-E,SS-E,COND-E,DBO-P,SS-P,SED-P,COND-P,DBO-D,DQO-D,SS-D,SED-D,COND-D},与集合MinR24相比,可以发现 MinR 24 &Subset; AvgR 24 .
(三)第25个决策属性DQO-S与其他22个条件输入属性的模糊单调递增依赖关系:
由于该决策属性有三个样本数据值远远大于其他的数据值,为保证数据分布的相对均匀性,把这三个样本数据作为噪声数据过滤掉,剩下243个样本数据。针对基于区间平均值的模糊单调隶属函数,在这个实验中设计决策过滤规则如下:if p≤5且模糊隶属函数都不为零then设μmax的β值为0.50;
if p≤4且模糊隶属函数都不为零then设μmax的β值为0.55;
if p≤3且模糊隶属函数都不为零then设μmax的β值为0.60;
如果当p取2或者3两者之一时模糊递增隶属函数的值不为零,而当p取其他值时模糊递增隶属函数的值都为零,那么设μmax的β值为0.62。把一些属性过滤后得到表4.2.8:
表4.2.8  DQO-S基于区间平均值的模糊单调递增依赖关系表
Figure GDA0000454271020000131
Figure GDA0000454271020000141
从表4.2.8中可以得到与决策属性DQO-S有模糊单调关系的属性约简集合,记为AvgR25={ZN-E,DBO-E,DQO-E,SS-E,SSV-E,SED-E,PH-P,DBO-P,SS-P,SED-P,COND-P,DBO-D,DQO-D,SED-D},与集合MinR25相比,可以发现 MinR 25 &Subset; AvgR 25 .

Claims (6)

1.一种基于区间平均值的模糊粗糙单调数据挖掘方法,其特征在于,包括: 
对决策属性集合D和条件属性集合Ci分别根据决策属性值按行进行排序后,获得第二决策属性集合D′和第二条件属性集合C′i的步骤; 
第二决策属性集合D′划分为2≤p<n个区间,并计算出相邻区间的距离和各个区间的中心点,以及根据决策属性与条件属性之间的映射关系对第二条件属性集合C′i划分区间的步骤,并计算出第二条件属性集合C′i相邻区间的距离和各个区间的中心点,其中p为区间数,n为决策表的对象数; 
从p到2循环计算出第二条件属性集合C′i在每个p值下各个区间的平均值,判断各个区间平均值依区间划分是否为升序关系,若是则通过区间的平均值求出求这次划分条件属性的隶属函数值,否则将该p值划分下条件属性的隶属函数值置零的步骤; 
求出最大的隶属函数值以及其对应的p值的步骤; 
根据所述隶属函数的最大值计算出干扰因素的稳定作用范围的步骤; 
根据干扰因素的作用范围设定过滤规则,求约简的数据和最优数据的步骤; 
所述划分区间的方法为:等距离设定决策属性集的p个区间的中心点,把 
Figure FDA0000454271010000011
作为相邻区间中心点的距离,第一个区间的中心点设为
Figure FDA0000454271010000012
记为ct1,第i个区间中心点记为cti,那么第i+1区间中心点cti+1=cti+dis,得p个区间中心点的集合{ct1,ct2,...,ctp}把与中心点集合中任一中心的距离小于等于dis/2的决策属性值归为相应的区间,其中yn′∈D′、y1′∈D′; 
所述循环计算的内容为: 
(1)求区间的平均值,并判断区间平均值是否依区间划分是升序关系,如果是,那么进入下一步;否则,这次划分的隶属函数值赋0,进入p的下次循环; 
(2)求出第二条件属性集合C′i每次划分所有相邻区间的隶属函数值,从这 些相邻区间的隶属函数值中找出最小值作为每次划分的隶属函数值; 
(3)判断循环是否结束,若是就结束循环,否则进入下一次循环; 
通过以下公式获取条件属性各个区间的隶属函数值: 
Figure FDA0000454271010000021
其中,Γ12,...,Γp表示C′i的区间划分,avg(Γh)表示区间Γh的平均值,num(avg(Γh)≥Γr))表示Γr中小于等于Γh的平均值的元素的个数,|Γr|表示Γr中元素的个数,β为可选参数,0.5<β≤1,可以根据具体情况进行选择从而得到决策规则,Γh表示区间集合Γ的第h个区间,Γr表示区间集合Γ的第r个区间。 
2.根据权利要求1所述的基于区间平均值的模糊粗糙单调数据挖掘方法,其特征在于,决策表根据决策属性值的递增顺序按行进行排序。 
3.根据权利要求1所述的基于区间平均值的模糊粗糙单调数据挖掘方法,其特征在于,在所述决策属性值前加上负号,然后决策表根据添加负号后的决策属性值的递增顺序按行进行排序。 
4.根据权利要求1所述的基于区间平均值的模糊粗糙单调数据挖掘方法,其特征在于,计算出所述干扰因素的稳定作用范围的方法为:根据从p到2的循环计算中得出的隶属函数值,在所述的隶属函数值不为0,且当模糊递增隶属函数的值在p=k→2的过程中,后面的值大于等于前面的值,并且当p=2或p=3时,所述隶属函数值最大时,记录k的值并根据k的值求出所述干扰因素的稳定作用范围。 
5.根据权利要求4所述的基于区间平均值的模糊粗糙单调数据挖掘方法,其特征在于,所述干扰因素的稳定作用范围为:
Figure FDA0000454271010000022
6.根据权利要求5所述的基于区间平均值的模糊粗糙单调数据挖掘方法,其特征在于,所述过滤规则具体为: 
当p值越小时,设定的隶属函数过滤值则越大与p值呈反比;当p值越大时, 设定的隶属函数过滤值则越小与p值呈反比;所述过滤值至少大于0.5,用于把不符合设定要求的条件属性过滤掉,达到属性约简和数据挖掘的目的。 
CN201210014925.2A 2012-01-16 2012-01-16 一种基于区间平均值的模糊粗糙单调数据挖掘方法 Expired - Fee Related CN102609470B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210014925.2A CN102609470B (zh) 2012-01-16 2012-01-16 一种基于区间平均值的模糊粗糙单调数据挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210014925.2A CN102609470B (zh) 2012-01-16 2012-01-16 一种基于区间平均值的模糊粗糙单调数据挖掘方法

Publications (2)

Publication Number Publication Date
CN102609470A CN102609470A (zh) 2012-07-25
CN102609470B true CN102609470B (zh) 2014-05-07

Family

ID=46526842

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210014925.2A Expired - Fee Related CN102609470B (zh) 2012-01-16 2012-01-16 一种基于区间平均值的模糊粗糙单调数据挖掘方法

Country Status (1)

Country Link
CN (1) CN102609470B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677854A (zh) * 2016-01-04 2016-06-15 安徽大学 基于粗糙集的学生单科成绩决策分析方法及分析器
CN111625030A (zh) * 2020-05-19 2020-09-04 北京工业职业技术学院 一种温室环境控制方法、装置、设备、系统及存储介质
CN112129425B (zh) * 2020-09-04 2022-04-08 三峡大学 基于单调邻域均值的大坝混凝土浇筑光纤测温数据重采样方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6904420B2 (en) * 2001-05-17 2005-06-07 Honeywell International Inc. Neuro/fuzzy hybrid approach to clustering data
CN102096672A (zh) * 2009-12-09 2011-06-15 西安邮电学院 一种基于模糊粗糙模型的分类规则提取方法
CN102117336A (zh) * 2011-03-25 2011-07-06 华南师范大学 一种基于决策表的模糊粗糙单调依赖数据挖掘方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9330127B2 (en) * 2007-01-04 2016-05-03 Health Care Productivity, Inc. Methods and systems for automatic selection of classification and regression trees

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6904420B2 (en) * 2001-05-17 2005-06-07 Honeywell International Inc. Neuro/fuzzy hybrid approach to clustering data
CN102096672A (zh) * 2009-12-09 2011-06-15 西安邮电学院 一种基于模糊粗糙模型的分类规则提取方法
CN102117336A (zh) * 2011-03-25 2011-07-06 华南师范大学 一种基于决策表的模糊粗糙单调依赖数据挖掘方法

Also Published As

Publication number Publication date
CN102609470A (zh) 2012-07-25

Similar Documents

Publication Publication Date Title
Jaffard The multifractal nature of Lévy processes.
Böcker et al. Cluster editing
Ramík et al. Inconsistency of pair-wise comparison matrix with fuzzy elements based on geometric mean
CN102117336B (zh) 一种基于决策表的模糊粗糙单调依赖数据挖掘方法
The et al. Using assignment examples to infer category limits for the ELECTRE TRI method
Feng et al. Soft discernibility matrix and its applications in decision making
Karimi et al. Structural equation modeling in psychology: the history, development and current challenges
Han et al. Convergence of time-stepping schemes for passive and extended linear complementarity systems
CN102609470B (zh) 一种基于区间平均值的模糊粗糙单调数据挖掘方法
Cheng et al. Unraveling the presence of multiple plagioclase populations and identification of representative two-dimensional sections using a statistical and numerical approach
Khuman et al. A commentary on some of the intrinsic differences between grey systems and fuzzy systems
Durmus et al. Asymptotic bias of inexact Markov Chain Monte Carlo methods in high dimension
CN103049669B (zh) 基于多元周期平稳时序分析及灰色理论的水华预测及因素分析方法
CN102567536A (zh) 一种基于数据统计学的关键绩效指标分析方法
Ludwig A theory of sustainable harvesting
CN102609469B (zh) 一种基于包含度的模糊粗糙单调数据挖掘方法
Ullrich Optimal cubature in Besov spaces with dominating mixed smoothness on the unit square
CN108470214A (zh) 一种基于区间优化算法的有界误差参数估计方法
Mohaghegh et al. Performance drivers in restimulation of gas-storage wells
Ghani et al. Comparison methods of multiple linear regressions in fish landing
Ochoa et al. Wastewater stabilisation ponds system: global sensitivity analysis on network design
Djehiche et al. The principal-agent problem with time inconsistent utility functions
Wang et al. Combinatorial properties of Farey graphs
Denisov et al. Limit theorems for multifractal products of geometric stationary processes
Abdulkareem et al. Comparison between two new censored regression models extended from Burr-XII system with application

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140507

Termination date: 20220116

CF01 Termination of patent right due to non-payment of annual fee