CN102609469B - 一种基于包含度的模糊粗糙单调数据挖掘方法 - Google Patents

一种基于包含度的模糊粗糙单调数据挖掘方法 Download PDF

Info

Publication number
CN102609469B
CN102609469B CN201210014555.2A CN201210014555A CN102609469B CN 102609469 B CN102609469 B CN 102609469B CN 201210014555 A CN201210014555 A CN 201210014555A CN 102609469 B CN102609469 B CN 102609469B
Authority
CN
China
Prior art keywords
value
attribute
fuzzy
interval
decision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210014555.2A
Other languages
English (en)
Other versions
CN102609469A (zh
Inventor
梁瑾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Jin Ling Mdt Infotech Ltd
Original Assignee
South China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Normal University filed Critical South China Normal University
Priority to CN201210014555.2A priority Critical patent/CN102609469B/zh
Publication of CN102609469A publication Critical patent/CN102609469A/zh
Application granted granted Critical
Publication of CN102609469B publication Critical patent/CN102609469B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明参照模糊粗糙集的理论,提出基于包含度的模糊粗糙单调数据挖掘方法,通过对决策属性和条件属性按值重新排列后,然后对重新排列后的集合进行区间划分,然后根据各个区间的隶属函数和各个区间的包含度,设定判定规则,对决策属性和条件属性之间的关系进行判断,从而建立模糊包含单调依赖关系模型;通过关系模型挖掘决策属性和条件属性之间的初步关系,设定决策过虑规则,求出条件属性约简的数据集和最优数据,现有的属性约简算法一般针对有限的数据值集,本发明可以针对海量的不规则数据,而且数据量越大,越能体现算法的优越性。

Description

一种基于包含度的模糊粗糙单调数据挖掘方法
技术领域
本发明所涉及数据挖掘的技术领域,特别是涉及一种基于包含度的模糊粗糙单调数据挖掘方法。
背景技术
对于包含度的概念及基础:
在这里用C(U)表示U中经典集合的全体,而F(U)表示U中模糊集合的全体。
Figure GDA0000454254850000014
,若对任意A,B∈F0(U)有数ID(B/A)对应,且满足:
(1)0≤ID(B/A)≤1,
(2)
Figure GDA0000454254850000019
,B∈F0(U), A ⊆ B ⇒ ID ( B / A ) = 1
(3)对于
Figure GDA0000454254850000011
B,H∈F0(U), A ⊆ B ⊆ H ⇒ ID ( A / H ) ≤ ID ( A / B )
则称ID为F0(U)上的包含度(inclusion degree)。称ID为F0(U)上的强包含度,若ID满足(1),(2)(3)和以下的(4):
(4)对于
Figure GDA0000454254850000012
B,H∈F0(U), A ⊆ B ⇒ ID ( A / C ) ≤ ID ( A / B )
称ID为F0(U)上的弱包含度,若ID满足(1),(3)和以下(2)′
(2)
Figure GDA0000454254850000013
B∈F0(U)∩C(U),
Figure GDA0000454254850000018
粗糙集理论是用来处理不确定和不完整数据信息的数学工具,而模糊集也可以描述信息和知识的不确定性,由于两者有很强的互补性,因此可以把它们结合起来对信息进行不确定性处理。在决策表中,粗糙集挖掘,条件属性和决策属性之间的依赖关系,约简属性,找出哪些条件属性对决策属性比较重要,主要的理论基础是等价关系,由于等价关系的局限性,许多人提出了不同的约简关系,T.Y.Lin等人提出了领域和相容关系,S.Greco等人提出了优势关系,D.Dubois等人提出了模糊等价关系等。事实上条件属性和决策属性之间往往还存在量的单调依赖关系。例如在生化反应中,条件成分和成品之间在一定范围内有单调递增或者递减依赖关系,一般情况下越多的成品需要越多的条件成分,而是否凡是包含成品成分的条件成分都与成品之间有这样的单调递增关系。显然不是,有些条件成分虽然包含成品中的成分,但它们并不参与生成成品,当然在某些情况下可以通过确定的生化反应方程较精确的计算出来,但大多数情况下,生化反应处于一个复杂的环境中,受到很多物理、化学和生物等不确定因素的影响,可以采用模糊粗糙的方法,先计算出条件成分与成品之间的单调递增或者递减关系,从而精简掉冗余的条件成分,然后再进行相应的分析,也就是挖掘出哪些条件属性的增加或减少会影响到决策属性的量的变化,并且挖掘出哪些量影响程度大,得出主要控制哪些条件属性的量会影响决策属性量增加或者减少,从而达到控制目的。
1997年和1998年C.J.Wu,Te-Shun Chou分别介绍和讨论了模糊单调函数及在逻辑控制中的应用,某些文献讨论了Mamdani-Assilians模型和T-S推断方法中与模糊单调相关的理论,近年来许多人讨论了决策表属性约简的不少算法等,在决策表中,假设决策属性量的增加与减少依赖于某些条件属性量的增加与减少,那么需要挖掘出对决策属性量的变化产生重要影响的条件属性,称这样的决策属性和条件属性之间有重要的单调依赖关系,而这种单调依赖关系在决策表中并非一定严格单调,也就是说在相邻两点的条件属性值单调性并不一定能一一映射到决策属性相应两点的单调性,因为实际数据中存在各种干扰因素和误差,但是现有技术中还没有能有效的挖掘出对决策属性变化产生重要影响的条件属性,并可以通过控制这些条件属性去影响决策属性。
现有的技术模型主要是围绕着等价关系进行一些拓展和改变,因此在采用这些技术模型进行知识约简和数据挖掘时都存在一些问题,具体归纳如下:(1)面对众多的输入与输出属性和复杂庞大的数据,如何在属性数据之间构建等价关系及其现有的一些拓展关系是比较难的问题;(2)复杂数据构成的决策表一般都是不一致的决策表,而现有属性约简算法一般是建立在一致的决策表上;(3)复杂环境的数据一般都是连续性的数据,而现有的属性约简算法一般都要对连续性的数据离散化处理,而对于不规则的复杂、多变和大量的数据,这是一个难题;(4)对于现有的启发式知识约简方法,多数以核属性作为出发点,每步把相对重要的最大属性优先加入要求约简结果中,而因为(1)所提的问题,所以核属性不容易求出,相对重要性在的复杂环境中也比较难获取,因为在众多的属性中,属性的重要性不容易观察出来,而且输入和输出数据很复杂,很难通过人为统计而得出属性的相对重要性或者通过现有的分析方法得到;(5)由于复杂环境中的数据基本都是不完备的,而这对现有的属性约简方法来说一个难题;(6)现有的属性约简算法一般针对有限的数据值集,不适用大量不规则的数据值集,而在复杂环境中所测出的数据往往是大量不规则的数据集。
发明内容
本发明的目的在于克服现有技术的不足,提出了一种基于包含度的模糊粗糙单调数据挖掘方法。
为了实现上述发明目的,采用的技术方案如下:
一种基于包含度的模糊粗糙单调依赖数据挖掘方法,包括:
(1)决策属性D的数据值的集合重新排序,形成有序集合D′;条件属性Ci的数据值的集合重新排序,形成有序集合Ci′;
(2)对象集合U根据D′,得到对象重新排列的有序集合UD,对象集合U根据Ci′,得到对象重新排列的有序集合Ui
(3)根据UD和Ui中对象的决策属性值与条件属性值之间的关系,以及UD和Ui之间按划分所得的包含度,设定判定规则,对决策属性和条件属性之间的关系进行判断,从而建立模糊包含单调依赖关系模型;
所述模糊包含单调依赖关系具体为:
U经过某种区间划分后,任意两个区间U′和U″包含于U,并且
Figure GDA0000454254850000031
当U′中对象的决策属性的值大部分大于等于U″中对象的决策属性的值时,相应的U′中对象的条件属性的值也大部分大于等于U″中对象的条件属性的值,称为决策属性和条件属性依该区间划分模糊包含单调递增依赖,相反,当U′中对象的决策属性的值大部分大于等于U″中对象的决策属性的值时,相应的U′中对象的条件属性的值也大部分小于等于U″中对象的条件属性的值,称为决策属性和条件属性依该区间划分模糊包含单调递减依赖。
基于以下所提出的模糊单调关系模型,具体为:对于任意两个集合A和B,其中A={x1,x2,...,xn},B={y1,y2,...,yn},n是待定未知数,存在A和B一一映射f,使得
Figure GDA0000454254850000043
对A中的元素值按从小到大排序得到新集合A′={x1′,x2′,...,xn′},通过映射f可以得到新的集合B′={y1′,y2′,...,yn′},如果B′存在划分ω,使得B′=B1′∪B2′∪...∪Bl′,其中2≤l≤n,对任意的i,j,其中1≤i<j≤l,设表达式
num { y k &prime; | num { y p &prime; | y k &prime; &GreaterEqual; y p &prime; , &ForAll; y p &prime; &Element; B i &prime; } / | B i &prime; | > 0.5 , &ForAll; y k &prime; &Element; B j &prime; } / | B j &prime; | > 0.5
用于表示大部分Bj′中元素值都大于等于大部分Bi′中的元素值,如果该表达式成立,那么称集合B和集合A在映射f下依区间划分是模糊单调依赖递增关系。
同样道理,设表达式
num { y p &prime; | num { y k &prime; | y p &prime; &GreaterEqual; y k &prime; , &ForAll; y k &prime; &Element; B j &prime; } / | B j &prime; | > 0.5 , &ForAll; y p &prime; &Element; B i &prime; } / | B i &prime; | > 0.5
表示大部分Bj′中元素值都小于等于大部分Bi′中的元素值,如果该表达式成立,那么称集合B和集合A在映射f下依区间划分划分是模糊单调依赖递减关系
所述判断规则如下:
对UD和Ui进行区间划分,并对根据划分出来的对应区间的隶属函数的值进行判断,若小于0.5则重新对UD和Ui进行区间划分,若大于0.5,则求出UD和Ui划分的区间中最后一个区间的元素个数与这次划分设定的元素个数k的比值l;
当隶属函数值大于0.5时,若l值小于0.5,或者当l值大于0.5时,最后一个区间隶属函数的值不为零,则判定决策属性D和条件属性Ci是模糊包含单调依赖关系;
(4)根据决策属性D和条件属性Ci是模糊包含单调依赖关系,建立决策属性和条件属性的模糊包含单调依赖关系模型,挖掘出与决策属性D有模糊包含单调依赖关系的条件属性形成数据挖掘的初步集合;
(5)设定决策过滤规则,求出约简的数据集和最优数据。
优选地,所述决策属性D数据值的集合和条件属性Ci数据值的集合均按从小到大的顺序重新排序,形成有序集合D′和Ci′。
优选地,所述决策属性D数据值的集合的升序和条件属性Ci数据值的集合的降序进行重新排序,形成有序集合D′和Ci′。
根据对象集合和决策属性、条件属性之间的映射关系,通过该映射关系的逆映射根据重新排列的有序集合D′和Ci′获得有序集合UD和Ui
由于决策属性和条件属性之间是一一映射的关系,必然存在映射,其中对任意的k∈{1,2,...,n},yk∈D,xik∈Ci,有f(yk)=xik,也必然存在逆映射
Figure GDA0000454254850000056
,使得f-1(xik)=yk,同理有
Figure GDA0000454254850000057
,使得g(ek)={yk,x1k,x2k,..,xmk},同理有逆映射g-1(yk,x1k,x2k,...,xmk)=ek,对某个条件属性Ci∈C={C1,C2,...,Cm},存在映射
Figure GDA0000454254850000058
,使得gi(ek)={yk,xik},同样有逆映射
Figure GDA0000454254850000059
,获得UD和Ui
优选地,对象集合U根据D′,得到对象重新排列的有序集合UD具体为:
根据
Figure GDA00004542548500000510
,使得g(ek)={yk,x1k,x2k,..,xmk},同理有逆映射g-1(yk,x1k,x2k,...,xmk)=ek,对某个条件属性Ci∈C={C1,C2,...,Cm},存在映射,使得gi(ek)={yk,xik},同样有逆映射
Figure GDA00004542548500000512
,获得UD
对象集合U根据C′,得到对象重新排列的有序集合Ui具体为:根据
Figure GDA00004542548500000513
,使得g(ek)={yk,x1k,x2k,..,xmk},同理有逆映射g-1(yk,x1k,x2k,...,xmk)=ek,对某个条件属性Ci∈C={C1,C2,...,Cm},存在映射
Figure GDA00004542548500000514
,使得gi(ek)={yk,xik},同样有逆映射
Figure GDA00004542548500000515
,获得Ui
优选地,所述步骤(3)中,根据元素个数从1至循环依序划分UD和Ui的区间,每次循环UD和Ui分别被划分为
Figure GDA0000454254850000053
个区间,其中n为U中的对象个数;根据UD和Ui均划分为的
Figure GDA0000454254850000054
个区间中条件属性和决策属性之间隶属函数
Figure GDA0000454254850000061
的值是否大于0.5(或者说前面p-1个区间的隶属函数值是否都大于0.5),如果是就求出第p个区间元素个数与元素个数k的比值l,并求出第p个区间隶属函数μ(UDp,Uip)的值和记录k的值,否则对记录k值的变量清零,并进入下一次循环;
求出当隶属函数的值大于0.5时最小的k值记为Rk,Rk不为零,l值小于0.5,或者当l值大于0.5时,隶属函数μ(UDp,Uip)的值不为零,则判定决策属性D和条件属性Ci是模糊包含单调依赖递增关系;
优选地,UD和Ui之间按划分所得的包含度具体为:根据UD和Ui被划分出来的区间,获取U的两个与UD和Ui对应的等价类,Xi对应于UD、Yj对应于Ui中的各个等价类;
根据对象U的包含度,设定UD和Ui之间按划分所得的包含度具体为:μ(Xi,Yj)=|Yj∩Xi|/|Xi|=ID(Yj/Xi),
Figure GDA0000454254850000068
|Xi|表示集合Xi的基数,即元素个数,当
Figure GDA0000454254850000063
时,ID(Yj/Xi)=1。
优选地,所述UD和Ui经过划分后,通过将划分后的区间内部元素的偏序关系去掉并保持不同区间元素之间的偏序关系,获得有U/D={UD1,...,UDp}和U/Ci={Ui1,...,Uip}是U的两个等价类,Xi对应于UD、Yj对应于Ui中的各个等价类。
优选地,决策属性D和条件属性Ci的模糊包含单调依赖隶属函数为:
Figure GDA0000454254850000064
Figure GDA0000454254850000065
表示j从1取值到p时μ(UDj,Uij)的最小值,按元素个数
Figure GDA0000454254850000066
依序划分UD和Ui的区间,那么UD和Ui分别被划分为
Figure GDA0000454254850000067
个区间,经划分后设UD=UD1∪...∪UDp,其中UDj={eD(k*(j-1)+1),...,eD(k*j)},1≤j<p,UDp={eD(k*p+1),...,eDn},同理设Ui=Ui1∪...∪Uip,其中
Uij={ei(k*(j-1)+1),...,ei(k*j)},1≤j<p,Uip={ei(kp+1),...,ein}。
优选地,所述步骤(4)和(5)之间还包括:设置过滤规则,所述过滤规则具体为:当和最大的隶属函数值μmax≤0.55时,把相应的条件属性过滤掉,根据越小且隶属函数值越小,则模糊包含单调依赖关系越弱的规则,根据具体情况,设置相应的决策过滤规则,再过滤掉相应的条件属性。
与现有技术相比,本发明具有以下优点:
(1)本发明是基于新提出的模糊包含单调依赖关系,根据输入与输出之间是否存在这种模糊包含单调依赖关系进行属性约简,而其他的约简算法是基于等价关系及其现有的一些拓展关系,首先受到是否能构建以往的这些等价关系、相容关系、优势关系等关系的一些限制。
(2)模糊包含单调依赖关系比等价关系、相容关系、优势关系等更加普遍和容易构建。
(3)复杂数据构成的决策表一般都是不一致的决策表,而现有属性约简算法一般是建立在一致的决策表上,该技术方法可以直接用于不一致的决策表。
(4)搜索所有的约简被证明是个NP完全问题,因此一般采用启发式信息去搜索最优或次优约简,而现有启发式约简算法多以核属性为出发点,利用属性的相对重要性作为启发式信息,采用自底向上逐步增加属性的策略,即以核属性为基础,每步将相对重要性最大的属性优先加入要求的约简结果中,直到某满足某一条件为止,而这些算法存在几个问题,第一,如何求出它们的相对重要性;第二,也存在一致性的问题。而模糊粗糙单调的数据挖掘算法不存在这些问题,时间复杂度最多是O(n3),而基本包含度的模糊粗糙单调数据挖掘算法的时间复杂度为O(n2)。
(5)对于连续的数据,现有的一些约简算法常常需要离散化处理后才能使用,而离散化处理后会带来数据失真等问题,而这几种算法不需要对数据进行离散化处理,可以直接使用原数据。
(6)现有的属性约简算法一般针对有限的数据值集,本发明可以针对海量的不规则数据,而且数据量越大,越能体现算法的优越性。
(7)现有的属性约简算法一般受数据的不完备性影响很大,本发明基本不受数据的不完备性影响,主要数据有一定数量并有一定的分布范围,就可以得到效果。
附图说明
图1为本发明数据递增情况下的流程图;
图2为本发明数据递减情况下的流程图。
具体实施方式
下面结合附图对本发明做进一步的说明。
本发明的实施过程如图1-2所示,具体包括步骤:
一种基于包含度的模糊粗糙单调数据挖掘方法,包括:
(1)决策属性D重新排序,形成有序集合D′;条件属性C重新排序,形成有序集合C′;
(2)对象集合U根据D′,得到对象重新排列的有序集合UD,对象集合U根据C′,得到对象重新排列的有序集合Ui
(3)根据UD和Ui中对象的决策属性与条件属性值之间的关系,设定判定规则,对决策属性和条件属性之间的关系进行判断,从而建立模糊包含单调依赖关系模型;
所述模糊包含单调依赖关系具体为:
U经过某种区间划分后,任意两个区间U′和U″包含于U,并且
Figure GDA0000454254850000081
当U′中对象的决策属性的值大部分大于等于U″中对象的决策属性的值时,相应的U′中对象的条件属性的值也大部分大于等于U″中对象的条件属性的值,称为决策属性和条件属性依该区间划分模糊包含单调递增依赖,相反,当U′中对象的决策属性的值大部分大于等于U″中对象的决策属性的值时,相应的U′中对象的条件属性的值也大部分小于等于U″中对象的条件属性的值,称为决策属性和条件属性依该区间划分模糊包含单调递减依赖。
基于以下所提出的模糊单调关系模型:对于任意两个集合A和B,其中A={x1,x2,...,xn},B={y1,y2,...,yn},n是待定未知数,存在A和B一一映射f,使得
Figure GDA0000454254850000093
对A中的元素值按从小到大排序得到新集合A′={x1′,x2′,...,xn′},通过映射f可以得到新的集合B′={y1′,y2′,...,yn′},如果B′存在划分ω,使得B′=B1′∪B2′∪...∪Bl′,其中2≤l≤n,对任意的i,j,其中1≤i<j≤l,设表达式
num { y k &prime; | num { y p &prime; | y k &prime; &GreaterEqual; y p &prime; , &ForAll; y p &prime; &Element; B i &prime; } / | B i &prime; | > 0.5 , &ForAll; y k &prime; &Element; B j &prime; } / | B j &prime; | > 0.5
表示大部分Bj′中元素值都大于等于大部分Bi′中的元素值,如果该表达式成立,那么称集合B和集合A在映射f下依区间划分是模糊单调依赖递增关系补充:同样道理,设表达式
num { y p &prime; | num { y k &prime; | y p &prime; &GreaterEqual; y k &prime; , &ForAll; y k &prime; &Element; B j &prime; } / | B j &prime; | > 0.5 , &ForAll; y p &prime; &Element; B i &prime; } / | B i &prime; | > 0.5
表示大部分Bj′中元素值都小于等于大部分Bi′中的元素值,如果该表达式成立,那么称集合B和集合A在映射f下依区间划分是模糊单调依赖递减关系。
所述判断规则如下:
对UD和Ui进行区间划分,并对根据划分出来的相对应区间的隶属函数的值进行判断,若小于0.5则重新对UD和Ui进行区间划分,若大于0.5,则求出UD和Ui划分的区间中最后一个区间的元素个数与这次划分设定的元素个数k的比值l;
当隶属函数值大于0.5时,若l值小于0.5,或者当l值大于0.5时,隶属函数的值不为零,则判定决策属性D和条件属性C是模糊包含单调依赖关系;
(4)根据决策属性D和条件属性C是模糊包含单调依赖关系,建立决策属性和条件属性的模糊包含单调依赖关系模型,挖掘出与决策属性D有模糊包含单调依赖关系的条件属性形成数据挖掘的初步集合;
(5)设置决策过滤规则,求出约简的数据集和最优数据。
优选地,所述决策属性D数据值和条件属性C数据值均按从小到大的顺序重新排序,形成有序集合D′和C′,则为求数据递增的情况。
优选地,所述决策属性D数据值的升序和条件属性C数据值的降序进行重新排序,形成有序集合D′和C′,则为求数据递减的情况。
根据对象集合和决策属性、条件属性之间的映射关系,通过该映射关系的逆映射根据重新排列的有序集合D′和C′获得有序集合UD和Ui
由于决策属性和条件属性之间是一一映射的关系,必然存在映射其中对任意的k∈{1,2,...,n},yk∈D,xik∈Ci,有f(yk)=xik,也必然存在逆映射
Figure GDA00004542548500001010
使得f-1(xik)=yk,同理有
Figure GDA00004542548500001011
使得g(ek)={yk,x1k,x2k,..,xmk},同理有逆映射g-1(yk,x1k,x2k,...,xmk)=ek,对某个条件属性Ci∈C={C1,C2,...,Cm},存在映射
Figure GDA00004542548500001012
使得gi(ek)={yk,xik},同样有逆映射,获得UD和Ui
优选地,对象集合U根据D′,得到对象重新排列的有序集合UD具体为:
根据
Figure GDA00004542548500001013
,使得g(ek)={yk,x1k,x2k,..,xmk},同理有逆映射g-1(yk,x1k,x2k,...,xmk)=ek,对某个条件属性Ci∈C={C1,C2,...,Cm},存在映射
Figure GDA00004542548500001014
使得gi(ek)={yk,xik},同样有逆映射
Figure GDA0000454254850000102
根据所述逆映射获得UD
对象集合U根据C′,得到对象重新排列的有序集合Ui具体为:根据使得g(ek)={yk,x1k,x2k,..,xmk},同理有逆映射g-1(yk,x1k,x2k,...,xmk)=ek,对某个条件属性Ci∈C={C1,C2,...,Cm},存在映射
Figure GDA0000454254850000107
使得gi(ek)={yk,xik},同样有逆映射
Figure GDA0000454254850000103
根据所述逆映射获得Ui
优选地,所述步骤(3)中,根据元素个数
Figure GDA0000454254850000104
从1至
Figure GDA0000454254850000105
循环依序划分UD和Ui的区间,每次循环UD和Ui分别被划分为个区间,其中n为U中的对象个数;根据UD和Ui均划分为的
Figure GDA0000454254850000106
个区间中条件属性和决策属性之间隶属函数
Figure GDA0000454254850000111
的值是否大于0.5(或者说前面p-1个区间的隶属函数值是否都大于0.5),如果是就求出第p个区间元素个数与元素个数k的比值l,并求出第p个区间隶属函数μ(UDp,Uip)的值和记录k的值,否则对记录k值的变量清零,并进入下一次循环;
求出当隶属函数的值大于0.5时最小的k值记为Rk,Rk不为零,l值小于0.5,或者当l值大于0.5时,μ(UDp,Uip)的值不为零,则判定决策属性D和条件属性Ci是模糊包含单调依赖递增关系;
优选地,根据UD和Ui被划分出来的区间,获取U的两个与UD和Ui对应的等价类,Xi对应于UD、Yj对应于Ui中的各个等价类;
根据对象U的包含度,设定UD和Ui之间按划分所得的包含度具体为:μ(Xi,Yj)=|Yj∩Xi|/|Xi|=ID(Yj/Xi),
Figure GDA0000454254850000117
,|Xi|表示集合Xi的基数,即元素个数,当
Figure GDA0000454254850000113
时,ID(Yj/Xi)=1。优选地,所述UD和Ui经过划分后,通过将划分后的区间内部元素的偏序关系去掉并保持不同区间元素之间的偏序关系,获得有U/D={UD1,...,UDp}和U/Ci={Ui1,...,Uip}是U的两个等价类,Xi对应于UD、Yj对应于Ui中的各个等价类。
优选地,决策属性D和条件属性Ci的模糊包含单调依赖隶属函数为:
Figure GDA0000454254850000114
表示j从1取值到p时μ(UDj,Uij)的最小值,按元素个数
Figure GDA0000454254850000116
依序划分UD和Ui的区间,那么UD和Ui分别被划分为
Figure GDA0000454254850000118
个区间,经划分后设UD=UD1∪...∪UDp,其中UDj={eD(k*(j-1)+1),...,eD(k*j)},1≤j<p,UDp={eD(k*p+1),...,eDn},同理设Ui=Ui1∪...∪Uip,其中
Uij={ei(k*(j-1)+1),...,ei(k*j)},1≤j<p,Uip={ei(kp+1),...,ein}。
优选地,步骤(5)中所述过滤规则具体为:当和最大的隶属函数值μmax≤0.55时,把相应的条件属性过滤掉,根据
Figure GDA0000454254850000122
越小且隶属函数值越小,则模糊包含单调依赖关系越弱的规则,根据具体情况,设置相应的决策过滤规则,再过滤掉相应的条件属性。
如果决策属性D和条件属性Ci确实是模糊包含单调依赖关系,当区间元素个数k较少时,区间个数p相对可能较多时,区间范围相对较小,受干扰作用相对较大,模糊包含单调依赖隶属函数值相对较小,当区间元素个数k较多时,区间个数p相对可能较少时,区间范围相对较大,受干扰作用相对较小,模糊包含单调依赖隶属函数值相对较大,因此如果k在1和
Figure GDA0000454254850000123
范围内取某个值时出现模糊包含单调依赖隶属函数值大于0.5,并且随着k取值的增大,模糊包含单调依赖隶属函数都大于0.5,那么判定决策属性D和条件属性Ci确实是模糊包含单调关系,当k取值接近
Figure GDA0000454254850000124
时,才出现模糊包含单调依赖隶属函数值大于0.5,那么认为决策属性D和条件属性Ci模糊包含单调依赖关系较弱,容易受干扰,相反如果k取值远离
Figure GDA0000454254850000125
时,就出现模糊包含单调依赖隶属函数值大于0.5,那么认为决策属性D和条件属性Ci模糊包含单调依赖关系较强,抗干扰性强。另外模糊包含单调依赖隶属函数值越大表明决策属性D和条件属性Ci模糊包含单调依赖关系越强,反之越弱。由于第p个区间是个余数区间,区间元素个数范围从1到k,并不是固定的k,因此仅作为参考,主要考察1至p-1个区间模糊包含单调依赖隶属函数值,同时考察区间元素个数。
如下为具体实施例
采用UCI的污水处理数据进行仿真实验,也是采用Matlab7.0作为仿真软件。同样是过滤掉不完整的数据,提取出完备数据,得到246*38的完备数据信息表,k从1至123循环考察该决策属性与各个条件属性的模糊包含单调依赖递增关系,其中用Rk表示算法中Rk变量值,表示k从该值开始到123模糊包含单调依赖隶属函数值都大于0.5,μRk表示k取Rk值时的模糊包含单调依赖隶属函数值,μmax表示最大的模糊包含单调依赖隶属函数值,kμmax表示取得最大的模糊包含单调依赖隶属函数值的k值,lRk表示上面算法中当k取Rk值时的l值,也即是当k取Rk值时第p个区间元素个数与k的比值,μpRk表示当k取Rk值时第p个区间的模糊决策函数值。可以通过实验分析挖掘出决策属性与哪些条件属性有较强的模糊包含单调依赖递增关系,与哪些条件属性模糊包含单调依赖递增关系较弱。主要考察表中Rk参数与μmax参数,其他参数作为辅助参考,当某条件属性的Rk值越小并且μmax值越大时表明该条件属性与决策属性有越强的模糊包含单调依赖递增关系,反之则越弱。同样考察23至29个输出属性与1至22个条件属性的模糊包含单调依赖关系,然后根据前面的分析设定决策过滤规则进行数据挖掘,也即是属性约简。经运算该数据挖掘算法实验结果如下:
(1)第23个输出决策属性PH-S与其他22个输入条件属性的模糊包含单调依赖关系:
把模糊包含单调依赖递增隶属函数值为零的条件属性过滤掉,得到表4-1:
表4-1PH-S基于包含度的模糊包含单调递增依赖关系表
Figure GDA0000454254850000131
Figure GDA0000454254850000141
仿真过程中,表4-1中条件属性与决策属性的模糊包含单调依赖递增隶属函数值基本上随着k值逐渐接近123而逐渐增大,仿真结果与前面的分析一致,最大模糊包含单调依赖递增隶属函数值基本是在k值取123或者接近123时出现。根据前面的分析,设定决策过滤规则为:①如果Rk≤110,那么μmax≥0.52;②如果Rk≥120,那么μmax≥0.6。经过滤可得属性约简集合InR23={PH-E,PH-P,PH-D},与前面两个算法的属性约简结果比较,可以发现
Figure GDA0000454254850000143
其中PH-D与PH-S的模糊包含单调依赖递增关系明显最强。
(2)第24个输出决策属性DBO-S与其他22个输入条件属性的模糊包含单调依赖关系:
把模糊包含单调依赖递增隶属函数值为零的条件属性过滤掉,得到表4-2:
表4-2DBO-S基于包含度的模糊包含单调递增依赖关系表
Figure GDA0000454254850000142
Figure GDA0000454254850000151
仿真过程中,表4-2中条件属性与决策属性的模糊包含单调依赖递增隶属函数值基本上随着k值逐渐接近123而逐渐增大,仿真结果与前面的分析一致,最大模糊包含单调依赖递增隶属函数值基本是在k值取123或者接近123时出现。根据前面的分析,设计决策过滤规则为:①如果Rk≤110,那么μmax≥0.52;②如果110≤Rk≤115,那么μmax≥0.54;③如果115≤Rk≤120,那么μmax≥0.56;④如果Rk≥120,那么μmax≥0.6。经过滤可得属性约简集合InR24={DBO-E,DQO-E,SS-E,DBO-P,SS-P,SED-P,DBO-D,DQO-D,SS-D,SED-D},与前面两个算法的属性约简结果比较,与前面两个算法的属性约简结果比较,可以发现MinR24-InR24={COND-E,COND-P},InR24-MinR24={SS-P},所以InR24和MinR24大部分的约简属性相同,且有
Figure GDA0000454254850000153
从表中可以看出{DBO-E,DQO-E,DBO-D,DQO-D}与DBO-S属性有最强的模糊包含单调依赖关系。
(3)第25个输出决策属性DQO-S与其他22个输入条件属性的模糊包含单调依赖关系:
把模糊包含单调依赖递增隶属函数值为零的条件属性过滤掉,得到表4-3:
表4-3DQO-S基于包含度的模糊包含单调递增依赖关系表
仿真过程中,表4-3中条件属性与决策属性的模糊包含单调依赖递增隶属函数值基本上随着k值逐渐接近123而逐渐增大,仿真结果与前面的分析一致,最大模糊包含单调依赖递增隶属函数值基本是在k值取123或者接近123时出现。根据前面的分析,设计决策过滤规则为:①如果Rk≤111,那么μmax≥0.54;②如果111≤Rk≤119,那么μmax≥0.58;③如果Rk≥120,那么μmax≥0.6。经过滤可得属性约简集合InR25={ZN-E,DBO-E,DQO-E,SSV-E,DBO-P,SED-P,DBO-D,DQO-D,SSV-D},同样与MinR25相比,绝大部分的元素相同,且有
Figure GDA0000454254850000162
可以明显看出{DQO-E,DQO-D}与DQO-S有最强的模糊包含单调递增依赖关系。

Claims (5)

1.一种基于包含度的模糊粗糙单调数据挖掘方法,其特征在于,包括:
(1)决策属性D的数据值的集合重新排序,形成有序集合D′;条件属性Ci的数据值的集合重新排序,形成有序集合Ci′;
(2)对象集合U根据D′,得到对象重新排列的有序集合UD,对象集合U根据Ci′,得到对象重新排列的有序集合Ui
(3)根据UD和Ui中对象的决策属性值与条件属性值之间的关系,以及UD和Ui之间按划分所得的包含度,设定判定规则,对决策属性和条件属性之间的关系进行判断,从而建立模糊包含单调依赖关系模型;
所述判断规则如下:
对UD和Ui进行区间划分,并对根据划分出来的对应区间的隶属函数值进行判断,若小于0.5则重新对UD和Ui进行区间划分,若大于0.5,则求出UD和Ui划分的区间中最后一个区间的元素个数与这次划分设定的元素个数k的比值l;
当隶属函数值大于0.5时,若l值小于0.5,或者当l值大于0.5时,最后一个区间隶属函数值不为零,则判定决策属性D和条件属性Ci是模糊包含单调依赖关系;
(4)根据决策属性D和条件属性Ci是模糊包含单调依赖关系,建立决策属性和条件属性的模糊包含单调依赖关系模型,挖掘出与决策属性D有模糊包含单调依赖关系的条件属性形成数据挖掘的初步集合;
(5)设定决策过滤规则,求出条件属性约简的数据集和最优数据;
所述步骤(3)中,根据元素个数从1至
Figure FDA0000454254840000011
循环依序划分UD和Ui的区间,每次循环UD和Ui分别被划分为
Figure FDA0000454254840000012
个区间,其中n为U中的对象个数;根据UD和Ui均划分为的个区间中,前面p-1个区间的条件属性和决策属性之间隶属函数的值是否都大于0.5进行判断,如果是就求出第p个区间元素个数与元素个数k的比值l,并求出第P个区间隶属函数的值和记录k的值,否则对记录k值的变量清零,并进入下一次循环;
求出当隶属函数的值大于0.5时最小的k值记为Rk,Rk不为零,l值小于0.5,或者当l值大于0.5时,第P个区间隶属函数的值不为零,则判定决策属性D和条件属性Ci是模糊包含单调依赖关系;
UD和Ui之间按划分所得的包含度具体为:根据UD和Ui被划分出来的区间,获取U的两个与UD和Ui对应的等价类,Xi对应于UD、Yj对应于Ui中的各个等价类;
根据对象U的包含度,设定UD和Ui之间按划分所得的包含度为:μ(Xi,Yj)=|Yj∩Xi|/|Xi|=ID(Yj/Xi),Yj,Xi∈F(U),|Xi|表示集合Xi的基数,即元素个数,当
Figure FDA0000454254840000021
ID(Yj/Xi)=1;
上述U是对象的集合,F(U)表示对象集合U中模糊集合的全体,ID是F0(U)上的包含度, F 0 ( U ) &SubsetEqual; F ( U )
所述UD和Ui经过划分后,通过将划分后的区间内部元素的偏序关系去掉并保持不同区间元素之间的偏序关系,获得有U/D={UD1,...,UDp}和U/Ci={Ui1,...,Uip}是U的两个等价类,Xi对应于UD、Yj对应于Ui中的各个等价类;
决策属性D和条件属性Ci之间的隶属函数为:
Figure FDA0000454254840000022
Figure FDA0000454254840000023
表示j从1取值到p时μ(UDj,Uij)的最小值,按元素个数
Figure FDA0000454254840000024
依序划分UD和Ui的区间,那么UD和Ui分别被划分为
Figure FDA0000454254840000026
个区间,经划分后设UD=UD1∪...∪UDp,其中UDj={eD(k*(j-1)+1),...,eD(k*j)},1≤j<p,UDp={eD(k*p+1),...,eDn},同理设Ui=Ui1∪...∪Uip,其中:
Uij={ei(k*(j-1)+1),...,ei(k*j)},1≤j<p,Uip={ei(kp+1),...,ein};
eD(k*(j-1)+1)表示UD集合的第k*(j-1)+1个对象,同样eD(k*j)表示UD集合的第k*j个对象,eD(k*p+1)表示UD集合的第k*p+1个对象,eDn表示UD集合的第n个对象;同理,ei(k*(j-1)+1)表示Ui集合的第k*(j-1)+1个对象,ei(k*j)表示Ui集合的第k*j个对象,ei(kp+1)表示Ui集合的第k*p+1个对象,ein表示Ui集合的第n个对象。
2.根据权利要求1所述的基于包含度的模糊粗糙单调数据挖掘方法,其特征在于,所述决策属性D的数据值和条件属性Ci的数据值均按从小到大的顺序重新排序,形成有序集合D′和Ci′。
3.根据权利要求1所述的基于包含度的模糊粗糙单调数据挖掘方法,其特征在于,所述决策属性D的升序和条件属性Ci的降序进行重新排序,形成有序集合D′和Ci′。
4.根据权利要求2或3所述的基于包含度的模糊粗糙单调数据挖掘方法,其特征在于,对象集合U根据D′,得到对象重新排列的有序集合UD具体为:
根据对象集合和决策属性、条件属性之间的映射关系,通过该映射关系的逆映射根据重新排列的有序集合D′和Ci′获得有序集合UD和Ui
5.根据权利要求2或3所述的基于包含度的模糊粗糙单调数据挖掘方法,其特征在于,步骤(5)中所述过滤规则具体为:当
Figure FDA0000454254840000031
和最大的隶属函数值μmax≤0.55时,把相应的条件属性过滤掉,根据
Figure FDA0000454254840000032
越小且隶属函数值越小,则模糊包含单调依赖关系越弱的规则,根据具体情况,设置相应的决策过滤规则,再过滤掉相应的条件属性。
CN201210014555.2A 2012-01-16 2012-01-16 一种基于包含度的模糊粗糙单调数据挖掘方法 Expired - Fee Related CN102609469B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210014555.2A CN102609469B (zh) 2012-01-16 2012-01-16 一种基于包含度的模糊粗糙单调数据挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210014555.2A CN102609469B (zh) 2012-01-16 2012-01-16 一种基于包含度的模糊粗糙单调数据挖掘方法

Publications (2)

Publication Number Publication Date
CN102609469A CN102609469A (zh) 2012-07-25
CN102609469B true CN102609469B (zh) 2014-05-07

Family

ID=46526841

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210014555.2A Expired - Fee Related CN102609469B (zh) 2012-01-16 2012-01-16 一种基于包含度的模糊粗糙单调数据挖掘方法

Country Status (1)

Country Link
CN (1) CN102609469B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699622A (zh) * 2013-12-19 2014-04-02 浙江工商大学 一种融合粗糙集与粒计算的分布异构海量城市安全数据流的在线数据挖掘方法
CN105306438B (zh) * 2015-09-17 2018-04-24 杭州安恒信息技术股份有限公司 基于模糊粗糙集的网络安全态势评估方法
CN111856954B (zh) * 2020-07-20 2022-08-02 桂林电子科技大学 基于粗糙集理论与规则相结合的智能家居数据补全方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6904420B2 (en) * 2001-05-17 2005-06-07 Honeywell International Inc. Neuro/fuzzy hybrid approach to clustering data
CN102096672A (zh) * 2009-12-09 2011-06-15 西安邮电学院 一种基于模糊粗糙模型的分类规则提取方法
CN102117336A (zh) * 2011-03-25 2011-07-06 华南师范大学 一种基于决策表的模糊粗糙单调依赖数据挖掘方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9330127B2 (en) * 2007-01-04 2016-05-03 Health Care Productivity, Inc. Methods and systems for automatic selection of classification and regression trees

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6904420B2 (en) * 2001-05-17 2005-06-07 Honeywell International Inc. Neuro/fuzzy hybrid approach to clustering data
CN102096672A (zh) * 2009-12-09 2011-06-15 西安邮电学院 一种基于模糊粗糙模型的分类规则提取方法
CN102117336A (zh) * 2011-03-25 2011-07-06 华南师范大学 一种基于决策表的模糊粗糙单调依赖数据挖掘方法

Also Published As

Publication number Publication date
CN102609469A (zh) 2012-07-25

Similar Documents

Publication Publication Date Title
Agram et al. A maximum principle for infinite horizon delay equations
Cesmelioglu et al. Time-dependent coupling of Navier–Stokes and Darcy flows∗
Pechstein et al. Analysis of FETI methods for multiscale PDEs
Mustapha et al. Uniform convergence for a discontinuous Galerkin, time-stepping method applied to a fractional diffusion equation
Servadei Infinitely many solutions for fractional Laplace equations with subcritical nonlinearity
CN102609469B (zh) 一种基于包含度的模糊粗糙单调数据挖掘方法
Pitman et al. The convex minorant of a Lévy process
CN102117336B (zh) 一种基于决策表的模糊粗糙单调依赖数据挖掘方法
CN106646615A (zh) 一种面波频散曲线的数据处理方法及装置
CN106294715A (zh) 一种基于属性约简的关联规则挖掘方法及装置
DE112013007435T5 (de) Pseudophasen-Fördersimulation: Ein signalverarbeitender Ansatz, um Quasi-Mehrphasenströmungsförderung über aufeinanderfolgende analoge stufenfunktionsförmige, von relativerPermeabilität gesteuerte Modelle in Lagerstättenströmungssimulationen zu bestimmen
CN105069080A (zh) 一种文献检索方法及系统
CN106528755A (zh) 热点话题的生成方法及装置
CN105335368A (zh) 一种产品聚类方法及装置
Deka A Weak Galerkin Finite Element Method for Elliptic Interface Problems with Polynomial Reduction.
Durmus et al. Asymptotic bias of inexact Markov Chain Monte Carlo methods in high dimension
Boros et al. Laminates meet Burkholder functions
Mordukhovich et al. Neumann boundary control of hyperbolic equations with pointwise state constraints
CN102609470B (zh) 一种基于区间平均值的模糊粗糙单调数据挖掘方法
Assani et al. Pointwise characteristic factors for the multiterm return times theorem
CN110894788B (zh) 基于油藏产量预测数据的油藏开发方式确定方法及装置
Elfverson et al. Uncertainty quantification for approximate p-quantiles for physical models with stochastic inputs
Ben Belgacem et al. Dirichlet boundary control for a parabolic equation with a final observation I: A space–time mixed formulation and penalization
Wendland A high-order approximation method for semilinear parabolic equations on spheres
Rouot et al. On inverse optimal control via polynomial optimization

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: LIANG JIN

Free format text: FORMER OWNER: SOUTH CHINA NORMAL UNIVERSITY

Effective date: 20140707

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20140707

Address after: 510631 Guangdong city of Guangzhou province Tianhe District South China Normal University College of educational information technology

Patentee after: Liang Jin

Address before: 510631 Zhongshan West Road, Guangdong, Guangzhou, No. 55, No.

Patentee before: South China Normal University

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20151014

Address after: 510620, room 240, 101 Tianhe East Road, Guangdong, Guangzhou, Tianhe District

Patentee after: Guangzhou Jin Ling Mdt InfoTech Ltd.

Address before: 510631 Guangdong city of Guangzhou province Tianhe District South China Normal University College of educational information technology

Patentee before: Liang Jin

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140507

Termination date: 20220116

CF01 Termination of patent right due to non-payment of annual fee