CN1138206C - 一种基于双库协同机制的kdd*方法及系统 - Google Patents

一种基于双库协同机制的kdd*方法及系统 Download PDF

Info

Publication number
CN1138206C
CN1138206C CNB011450800A CN01145080A CN1138206C CN 1138206 C CN1138206 C CN 1138206C CN B011450800 A CNB011450800 A CN B011450800A CN 01145080 A CN01145080 A CN 01145080A CN 1138206 C CN1138206 C CN 1138206C
Authority
CN
China
Prior art keywords
data
rule
knowledge
knowledge base
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB011450800A
Other languages
English (en)
Other versions
CN1428696A (zh
Inventor
杨炳儒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CNB011450800A priority Critical patent/CN1138206C/zh
Publication of CN1428696A publication Critical patent/CN1428696A/zh
Application granted granted Critical
Publication of CN1138206C publication Critical patent/CN1138206C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

该发明公开了一种基于双库协同机制的KDD*系统。该系统是在KDD技术的基础上融入双库协同机制,即构建数据库与基础知识库的内在联系“通道”,用基础知识库去制约与驱动KDD的挖掘过程,并在KDD的挖掘过程中对知识库进行实时维护;从而改变KDD固有的运行机制,在结构与功能上形成了相对于KDD而言的一个开放的、优化的扩体-KDD*。双库协同机制的引入,使得KDD在功能上得到了进一步的完善和提高,并诱发出若干新的结构模型和发掘、评价方法,对知识发现系统的主流发展起着重要的推动作用。

Description

一种基于双库协同机制的KDD*方法及系统
技术领域
本发明涉及一种KDD系统,具体的讲是一种基于双库协同机制的KDD*方法及系统。
发明背景
KDD的描述性定义(Knowledge Discovery in Database,即数据库中的知识发现)是从大量数据中提取出可信的、新颖的、有效的并能被人理解的模式的高级处理过程。通过这一过程,感兴趣的知识或高层信息可以从数据库相关数据集中抽取出来并从不同角度进行研究。有人也将KDD称为数据挖掘(或数据发掘、数据开采等),KDD一般在人工智能和机器学习领域使用较多,在工程应用领域多称之为数据挖掘(data mining),一般可以不加区分地使用两者。
从上述KDD定义看出KDD是一个多步骤的处理过程,主要包括了以下一些处理步骤,如图1所示。
1)数据选择:根据用户的要求从数据库中提取与KDD相关的数据,KDD将主要从这些数据中进行知识提取,在此过程中,会利用一些数据库操作对数据进行处理,形成真实数据库。
2)数据预处理:主要是对步骤1产生的数据进行再加工,检查数据的完整性及数据的一致性,对其中的噪音数据进行处理,对丢失的数据可以利用统计方法进行填补。形成挖掘数据库。
3)确定KDD的目标:根据用户的要求,确定KDD是发现何种类型的知识,因为对KDD的不同要求会在具体的知识发现过程中采用不同的知识发现方法。
4)确定知识发现方法:根据步骤3所确定的任务,选择合适的知识发现方法,这包括选取合适的模型和参数,并使得知识发现方法与整个KDD的评判标准相一致。
5)聚焦:即从挖掘数据库里进行数据的选择。指导数据聚焦的方式是通过人机交互由用户输入感兴趣的知识,来指导数据的挖掘方向。
6)产生假设规则:运用选定的知识发现方法,从数据中提取出用户所需要的知识,这些知识可以用一种特定的方式表示或使用一些常用的表示方式,如产生式规则等等。
7)知识评价:这一过程主要用于对所获得的规则进行价值评定以决定所得的规则是否存入基础知识库。主要是通过人机交互界面评价和系统自动评价。
从上面的介绍可以看出,数据挖掘只是KDD中的一个步骤,它主要是利用某些特定的知识发现方法,在一定的运算效率的限制内,从数据中发现出有价值的知识。上述KDD全过程的几个步骤可以进一步归纳为三大部分,即数据挖掘预处理(数据挖掘前的准备工作),数据挖掘,数据挖掘后处理(数据挖掘后的处理工作)。
KDD虽然是一个很新的领域,但在短暂的时间里已获得了许多的研究成果,已经并将继续与犹如机器学习、模式识别、数据库、数理统计、人工智能、专家系统、知识获取、数据可视化以及高性能计算等领域的交叉研究相联系,统一的目标是从大数据库的原始粗糙的数据中提取出高级别的知识。对特定的研究领域,特定的KDD技术将会涉及到各种不同的领域,开拓特定的研究方法的应用。
尽管KDD的研究已取得了一些成就,但KDD的挖掘过程仍有其固有的矛盾和难题,表现在:
1)采掘的对象:更大型的数据库、更高的维数和属性之间更复杂的关系。数据挖掘要处理的数据量通常是十分巨大的。成百上千的表,上百万条记录,数据库容量达到若干GB(109)字节,甚至TB(1012)字节。更多的属性意味着高维的搜索空间,从而导致组合爆炸。属性值之间的关系变得更加复杂,比如表现为层次结构。这些因素使得搜索知识代价极高。因此,系统地、定向地搜索成为逻辑的必然。
2)形式的输入数据:目前数据挖掘工具能处理的数据形式有限。一般可以处理数值型的结构化数据,但大多不能对文本、图形、数学公式、图象或WWW资源等这些半结构、无结构的数据形式进行挖掘操作。另外的挑战是数据本身存在缺损或噪声,特别是在商业数据库中。
3)用户参与和领域知识:有效的决策过程往往需要多次交互和多次反复。目前的数据挖掘系统或工具很少能真正做到让用户参与到挖掘过程中。用户的背景知识和指导作用可以加快采掘的进程,并且保证发现的知识的有效性。将相关领域的知识融入数据采掘系统中是一个重要但没有很好解决的问题。因此,用“推拉式”把知识呈现给用户,用来提高知识发现的效率和实用性也成为逻辑的必然。
4)维护和更新:新的数据积累可能导致以前发现的知识失效,这些知识需要动态维护和及时更新。目前研究采用增量更新的方法来维护已有的知识,比如D.W.Cheung等提出了维护关联规则的增量算法。
5)知识的局限、与其他系统的集成:目前的数据采掘系统尚不能支持多种平台。一些产品是基于PC的,一些是面向大型主机系统的,还有一些是面向客户服务器环境的。有的系统对于数据库中包含的域或记录是有限的,例如要求数据文件为特定的大小,或者转化为特定的数据库管理系统(DBMS)识别的格式。但是,数据重定义的费用可能是十分昂贵的。另外的挑战是数据采掘系统和其它决策知识系统的有机集成,特别是和一些用户已经熟悉的系统结合在一起,这对于系统充分发挥作用是非常重要的。
数据挖掘的这些局限性,在很大程度上是来源于对知识发现系统自身体系结构缺乏研究与认识。若将KDD局限于一个封闭的模式中,不可避免的会带来一系列的问题;所以基于双库协同机制的KDD*新系统正是为了更好地解决以上各类问题而提出的。
另外,目前绝大部分KDD的算法没有将KDD作为认知的复杂系统对其内在的规律性加以研究,且都没有考虑知识库,挖掘出来的许多假设规则与知识库中的已有知识是重复的和冗余的,甚至是不相容的,并且仅靠人机交互形成聚焦,而没有体现系统自身的认知自主性,因此对KDD定义中要求的新颖性和有效性就无法体现出来。
发明内容
针对背景技术中的缺点,本发明提供一种基于双库协同机制的KDD*方法及系统。
技术方案1:一种基于双库协同机制的KDD*方法及系统,包括中央处理器、存储器组成的数字计算机,所述数字计算机的存储器存储有真实数据库和基础知识库,其特征在于:所述的基础知识库根据各个具体的论域划分为若干个相关的知识子库,所述的知识子库以属性为基础,用语言场和语言值结构表示其中的知识;所述的数字计算机还包括下述装置:
数据预处理装置:对真实数据库中的数据进行再加工,形成挖掘数据库,并与所述的基础知识库在基于属性建库的构造下建立对应关系;
聚焦装置:通过人机交互输入的内容来指导数据挖掘的方向;
定向挖掘装置:启发型协调器对基础知识库进行搜索以发现知识短缺,并以此定向地从挖掘数据库里进行数据的选择;
求取假设规则装置:通过选定的知识挖掘算法,从挖掘数据库中提取用户所需要的知识,并用特定的模式表达所提取的知识;
评价装置:对所述的求取假设规则装置获取的规则进行价值评定,将被接受的规则存入衍生知识库;并且所述规则价值评定采用基于自认知逻辑的因果关联规则的自动评价,所述的自动评价包括:取原因A和结果S的数据,构成一个序偶的集合P={<tw,sw>},这里:w=1,2....N,tw为原因状态空间中的数据,即因样本值,sw为与原因数据相对应的结果状态空间中的数据,即果样本值,N为集合中样本的个数,SUP为规则的支持强度,CR为规则的关联强度,SUP1为每次求得的规则支持强度,其初值为0;且:
1)、取原因的样本值tw,这里:w=1,2....N,它属于一般的样本空间,得到因状(变)态输入向量atw;
2)、确定因状(变)态输入向量atw所属因状态类型如Ak,这里:k=1,2,3,4,5即由式(2)计算atw与各因状态标准向量Ai的测度dH,取最小者为atw归属的因状态类型,随机抽取一样本集,可以看作序偶的集合P={<tw,sw>};
3)、以规则 作为局部大前提,以因状态输入向量at所属的因状态标准向量Ak为小前提,可以在评价知识库中通过自组织的方式找到与其相匹配的唯一的知识矩阵Mijk,根据自动推理模式(3)得到结果的状态向量Sw1;
4)、聚类:计算Sw1所属的果状态标准向量β,可通过求它与各果状态标准向量的测度满足下式:取最小者而获得聚类; d H ( S w 1 , S j ) = &Sigma; i = 1 10 | &mu; S w ( i ) - &mu; S j ( i ) | 其中,μSw1(i)与μSj(i)分别为其各自对应的坐标;
5)、对于序偶集P={<tw,sw>},取相应的结果的样本值sw,用模糊聚类的方法可得到它所属区间中的果状态标准向量γ,如果β=γ,则SUP1=SUP1+1,否则SUP1=SUP1;
6)、重复上述过程N次,得到SUP;设
        SUP=SUP1/N取规则的因果关联强度CR与之比较:
    若:SUP>CR则规则被接受;
        SUP≤CR则规则被拒绝。
所述的存储器为若干大容量存储器组成的超大容量存储系统。
所述的数字计算机为若干台计算机组成的数字计算机系统。
所述的数据预处理装置还包括:
数据检查模块:对数据的完整性、一致性进行检查;
噪音数据处理模块:对噪音数据进行处理;
数据填补模块:对丢失的数据以统计方式进行填补;
从而实现所述的对真实数据库中的数据进行再加工。
所述的数据预处理装置还包括:所述的在基于属性建库的构造下建立对应关系是指,所述的对应关系为知识子库的知识结点与数据子库数据子类结构的层间建立的一一对应关系。
所述的定向挖掘装置中,所述的启发型协调器包括:
第一装置(构件):搜索规则强度大于某一阈值的语言变量,形成结点集;
第二装置(构件):对结点集中的节点进行组合,形成元组集合;
第三装置(构件):搜索基础知识库,并从元组中除去已在基础知识库中存在的元组;
第四装置(构件):对剩余元组按关联强度排序,定出定向搜索的优先级;
第五装置(构件):按优先级顺序逐一扫描各元组,聚焦到数据库中相应入口定向发掘。
所述的评价装置还包括:具有人机交互界面的可视化装置;该可视化装置可提供各类图形和分析资料;所述的规则价值评定是利用该可视化装置所提供的各类图形和分析资料通过人机交互界面由用户评价。
技术方案二:一种基于双库协同机制的KDD*方法及系统,包括中央处理器、存储器组成的数字计算机,所述数字计算机的存储器存储有真实数据库和基础知识库,其特征在于:所述的基础知识库根据各个具体的论域划分为若干个相关的知识子库,所述的知识子库以属性为基础,用语言场和语言值结构表示其中的知识;所述的数字计算机还包括下述装置:
数据预处理装置:对真实数据库中的数据进行再加工,形成挖掘数据库,并与所述的基础知识库在基于属性建库的构造下建立对应关系;
聚焦装置:由通过人机交互输入的内容来指导数据挖掘的方向;
求取假设规则装置:通过选定的知识挖掘法,从挖掘数据库中提取用户所需要的知识,并用特定的模式表达所提取的知识;
实时维护装置:维护型协调器对基础知识库进行定向搜索,以判断所述求取假设规则装置中所获得的每一假设规则与基础知识库中原有知识是否重复、冗余或矛盾,并根据判断结果作相应处理;
评价装置:对所述的实时维护装置处理后,对被选取的规则进行价值评定,将被接受的规则存入衍生知识库;在所述的评价装置中,所述的规则价值评定采用基于自认知逻辑的因果关联规则的自动评价,即:根据规则的关联强度及设定的阈值,由所述数字计算机自动实现;所述的自动评价包括:取原因A和结果S的数据,构成一个序偶的集合P={<tw,sw>},这里w=1,2....N,tw为原因状态空间中的数据,即因样本值,sw为与原因数据相对应的结果状态空间中的数据,即果样本值,N为集合中样本的个数,SUP为规则的支持强度,CR为规则的关联强度,SUP1为每次求得的规则支持强度,其初值为0;且:
1)、取原因的样本值tw,这里:w=1,2....N,它属于一般的样本空间,得到因状态输入向量atw;
2)、确定因状态输入向量atw所属因状态类型如Ak,这里k=1,2,3,4,5,即由式(2)计算atw与各因状态标准向量Ai的测度dH,取最小者为atw归属的因状态类型,随机抽取一样本集,可以看作序偶的集合P={<tw,sw>};
3)、以规则
Figure C0114508000201
作为局部大前提,以因状态输入向量at所属的因状态标准向量Ak为小前提,可以在评价知识库中通过自组织的方式找到与其相匹配的唯一的知识矩阵Mijk,根据自动推理模式(3)得到结果的状态向量Sw1;
4)、聚类:计算Sw1所属的果状态标准向量β,可通过求它与各果状态标准向量的测度如下式:取最小者而获得聚类; d H ( S w 1 , S j ) = &Sigma; i = 1 10 | &mu; S w ( i ) - &mu; S j ( i ) | 其中,μSw1(i)与μSj(i)分别为其各自对应的坐标;
5)、对于序偶集P={<tw,sw>},取相应的结果的样本值sw,用模糊聚类的方法可得到它所属区间中的果状态标准向量γ,如果β=γ,则SUP1=SUP1+1,否则SUP1=SUP1;
6)、重复上述过程N次,得到SUP;设:
        SUP=SUP1/N取规则的因果关联强度CR与之比较:
    若:SUP>CR则规则被接受;
        SUP≤CR则规则被拒绝。
所述的存储器为若干大容量存储器组成的超大容量存储系统。
所述的数字计算机为若干台计算机组成的数字计算机系统。
所述的数据预处理装置还包括:
数据检查模块:对数据的完整性、一致性进行检查;
噪音数据处理模块:对噪音数据进行处理;
数据填补模块:对丢失的数据以统计方式进行填补;
从而实现所述的数据进行再加工。
所述的数据预处理装置还包括:所述的对应关系为知识子库的知识结点与数据子库数据子类结构的层间建立的一一对应关系。
所述的实时维护装置中,所述的维护型协调器包括:
第一装置(构件):读取一条规则;
第二装置(构件):在知识库中查找该条规则,如果规则强度大于给定值,则转到第三装置(构件)执行;否则转到第四装置(构件)执行;
第三装置(构件):判断规则是否重复、冗余或者矛盾,如果存在其中之一,则转到第四装置(构件)执行;否则将第该条规则存入知识库,然后转到第四装置(构件)执行;
第四装置(构件):判断是否已读取所有规则,如果已读取所有规则,则结束本进程;否则读取下一条规则,并转到第二装置(构件)执行。
所述的评价装置还包括:具有人机交互界面的可视化装置(构件);该可视化装置(构件)可提供各类图形和分析资料;所述的规则价值评定是利用该可视化装置所提供的各类图形和分析资料通过人机交互界面由用户评价。
技术方案三:一种基于双库协同机制的KDD*方法及系统,包括中央处理器、存储器组成的数字计算机,所述数字计算机的存储器存储有真实数据库和基础知识库,其特征在于:所述的基础知识库根据各个具体的论域划分为若干个相关的知识子库,所述的知识子库以属性为基础,用语言场和语言值结构表示其中的知识;所述的数字计算机还包括下述装置:
数据预处理装置:对真实数据库中的数据进行再加工,形成挖掘数据库,并与所述的基础知识库在基于属性建库的构造下建立对应关系;
聚焦装置:由通过人机交互输入的内容来指导数据挖掘的方向;
定向挖掘装置:启发型协调器对基础知识库进行搜索以发现知识短缺,并以此定向地从挖掘数据库里进行数据的选择;
求取假设规则装置:通过选定的知识挖掘算法,从挖掘数据库中提取用户所需要的知识,并用特定的模式表达所提取的知识;
实时维护装置:维护型协调器对基础知识库进行定向搜索,以判断求取假设规则装置所获得的每一假设规则与基础知识库中原有知识是否重复、冗余或矛盾,并根据判断结果作相应处理;
评价装置:对实时维护装置处理后,对被选取的规则进行价值评定,将被接受的规则存入衍生知识库;在所述的评价装置装置中,所述的规则价值评定采用自动评价,即:根据规则的关联强度及设定的阈值,由所述数字计算机自动实现;所述的自动评价包括:取原因A和结果S的数据,构成一个序偶的集合P={<tw,sw>},这里w=1,2....N,tw为原因状态空间中的数据,即因样本值,sw为与原因数据相对应的结果状态空间中的数据,即果样本值,N为集合中样本的个数,SUP为规则的支持强度,CR为规则的关联强度,SUP1为每次求得的规则支持强度,其初值为0;且:
1)、取原因的样本值tw,这里w=1,2....N,它属于一般的样本空间,得到因状态输入向量atw;
2)、确定因状态输入向量atw所属因状态类型如Ak,这里k=1,2,3,4,5,即由式(2)计算atw与各因状态标准向量Ai的测度dH,取最小者为atw归属的因状态类型,随机抽取一样本集,可以看作序偶的集合P={<tw,sw>};
3)、以规则
Figure C0114508000221
作为局部大前提,以因状态输入向量at所属的因状态标准向量Ak为小前提,可以在评价知识库中通过自组织的方式找到与其相匹配的唯一的知识矩阵Mijk,根据自动推理模式(3)得到结果的状态向量Sw1;
4)、聚类:计算Sw1所属的果状态标准向量β,可通过求它与各果状态标准向量的测度如下式:取最小者而获得聚类; d H ( S w 1 , S j ) = &Sigma; i = 1 10 | &mu; S w ( i ) - &mu; S j ( i ) | 其中,μSw1(i)与μSj(i)分别为其各自对应的坐标;
5)、对于序偶集P={<tw,sw>},取相应的结果的样本值sw,用模糊聚类的方法可得到它所属区间中的果状态标准向量γ,如果β=γ,则SUP1=SUP1+1,否则SUP1=SUP1;
6)、重复上述过程N次,得到SUP;设:
        SUP=SUP1/N取规则的因果关联强度CR与之比较:
    若:SUP>CR则规则被接受;
        SUP≤CR则规则被拒绝。
所述的存储器为若干大容量存储器组成的超大容量存储系统。
所述的数字计算机为若干台计算机组成的数字计算机系统。
所述的数据预处理装置还包括:
数据检查模块:对数据的完整性、一致性进行检查;
噪音数据处理模块:对噪音数据进行处理;
数据填补模块:对丢失的数据以统计方式进行填补;
从而实现所述的数据进行再加工。
在所述的数据预处理装置中,所述的对应关系为知识子库的知识结点与数据子库数据子类结构的层间建立的一一对应关系。
所述的定向挖掘装置中,所述的启发型协调器包括:
第一装置(构件):搜索规则强度大于某一阈值的语言变量,形成结点集;
第二装置(构件):对结点集中的结点进行组合,形成元组集合;
第三装置(构件):搜索基础知识库,从元组中除去已在基础知识库中存在的元组;
第四装置(构件):对剩余元组按关联强度排序,定出定向搜索的优先级;
第五装置(构件):按优先级顺序逐一扫描各元组,聚焦到数据库中相应入口定向发掘。
在所述的实时维护装置中,所述的维护型协调器包括:
第六装置(构件):读取一条规则;
第七装置(构件):在知识库中查找该条规则,如果规则强度大于给定值,则转到第八装置(构件)执行;否则转到第九装置(构件)执行;
第八装置(构件):判断规则是否重复、冗余或者矛盾,如果存在其中之一,则转到第九装置(构件)执行;否则将第该条规则存入知识库,然后转到第九装置(构件)执行;
第九装置(构件):判断是否已读取所有规则,如果已读取所有规则,则结束本进程;否则读取下一条规则,并转到第七装置(构件)执行。
所述的评价装置还包括:具有人机交互界面的可视化装置(构件);该可视化装置(构件)可提供各类图形和分析资料;所述的规则价值评定是利用该可视化装置(构件)所提供的各类图形和分析资料通过人机交互界面由用户评价。
本发明还提供了一种基于双库协同机制的KDD*方法及系统,包括:中央处理器、存储器组成的数字计算机,所述数字计算机的存储器存储有真实数据库和基础知识库,其特征在于:所述的基础知识库根据各个具体的论域划分为若干个相关的知识子库,所述的知识子库以属性为基础,用语言场和语言值结构表示其中的知识;所述的数字计算机还包括下述步骤:
步骤一、数据预处理:对真实数据库中的数据进行再加工,形成挖掘数据库,并与所述的基础知识库在基于属性建库的构造下建立对应关系;
步骤二、聚焦:通过人机交互输入的内容来指导数据挖掘的方向;
步骤三、定向挖掘:启发型协调器对基础知识库进行搜索以发现知识短缺,并以此定向地从挖掘数据库里进行数据的选择;
步骤四、求取假设规则:通过选定的知识挖掘算法,从挖掘数据库中提取用户所需要的知识,并用特定的模式表达所提取的知识;
步骤五、评价:对所述的步骤四获取的规则进行价值评定,将被接受的规则存入衍生知识库;并且所述规则价值评定采用基于自认知逻辑的因果关联规则的自动评价,所述的自动评价包括:取原因A和结果S的数据,构成一个序偶的集合P={<tw,sw>},这里:w=1,2....N,tw为原因状态空间中的数据,即因样本值,sw为与原因数据相对应的结果状态空间中的数据,即果样本值,N为集合中样本的个数,SUP为规则的支持强度,CR为规则的关联强度,SUP1为每次求得的规则支持强度,其初值为0;且:
1)、取原因的样本值tw,这里:w=1,2....N,它属于一般的样本空间,得到因状(变)态输入向量atw;
2)、确定因状(变)态输入向量atw所属因状态类型如Ak,这里:k=1,2,3,4,5即由式(2)计算atw与各因状态标准向量Ai的测度dH,取最小者为atw归属的因状态类型,随机抽取一样本集,可以看作序偶的集合P={<tw,sw>};
3)、以规则
Figure C0114508000241
作为局部大前提,以因状态输入向量at所属的因状态标准向量Ak为小前提,可以在评价知识库中通过自组织的方式找到与其相匹配的唯一的知识矩阵Mijk,根据自动推理模式(3)得到结果的状态向量Sw1;
4)、聚类:计算Sw1所属的果状态标准向量β,可通过求它与各果状态标准向量的测度满足下式:取最小者而获得聚类; d H ( S w 1 , S j ) = &Sigma; i = 1 10 | &mu; S w ( i ) - &mu; S j ( i ) | 其中,μSw1(i)与μSj(i)分别为其各自对应的坐标;
5)、对于序偶集P={<tw,sw>},取相应的结果的样本值sw,用模糊聚类的方法可得到它所属区间中的果状态标准向量γ,如果β=γ,则SUP1=SUP1+1,否则SUP1=SUP1;
6)、重复上述过程N次,得到SUP;设
        SUP=SUP1/N取规则的因果关联强度CR与之比较:
    若:SUP>CR则规则被接受;
        SUP≤CR则规则被拒绝。
本发明所述的方法还包括下述具体步骤:
1)、数据预处理:主要是用户选择真实数据库,对真实数据库中的连续属性进行离散化,形成由若干个数据表组成的挖掘数据库;
2)、对基础知识库进行搜索以发现“知识短缺”,产生知识短缺集;
3)、对知识短缺集中的规则计算其规则强度,并根据阈值对规则进行取舍,然后依据规则强度排序;
4)、对挖掘数据库进行定向挖掘,形成假设规则;
5)、对符合条件的规则应用维护型协调器进行处理;
6)、对经维护型协调器处理后通过的规则进行评价;若评价通过,则入库;若评价没有通过,则删除该规则。
KDD*方法及系统所提出的双库(数据库和知识库)协同机制,从根本上解决了KDD存在的不足;同时,双库协同机制的引入使得KDD在功能上得到了进一步的完善,这主要表现在以下两个方面:1.在数据挖掘方面,双库协同机制使得知识库能够动态的参与数据库的挖掘过程,用户的先验知识及知识库中的固有知识通过此机制可以产生“定向挖掘”,以提高认知自主性和避免海量搜索的产生;2.在知识库的维护方面,通过双库协同机制可在数据挖掘过程中实时地修改和维护知识库中的内容,包括重复与冗余性检验、矛盾处理等。
本发明的意义在于:1)除根据用户需求与人为的兴趣去挖掘知识外,提出了根据基础知识库中的“知识短缺”自动地启发定向挖掘知识的途径,即提高“认知自主性”,较有效地克服领域用户的自身局限;2)大大减少了在假设规则发掘后的“评价量”;3)根据双库“结构对应”的机理,可大大缩小搜索空间,提高挖掘效率;4)较有效地解决新旧知识合成后,知识库的冗余性与一致性等问题,确保对知识库的实时维护;5)总体上讲,将KDD视为一个开放系统,在KDD进程与基础知识库的广泛联系中,改进与优化了KDD的结构、过程与运行机制。
本发明将两个协调器嵌入到KDD中去,从而在根本上改变了KDD固有的运行机制,在结构与功能上形成了相对于KDD而言的一个开放的、优化的扩体,并且在此基础上还可诱导出知识发现的新结构模型。
附图说明
图1为现有技术的KDD系统的流程框图;
图2本发明的知识表示示意图;
图3A为本发明的技术方案1的流程框图;
图3B为本发明的技术方案2的流程框图;
图3C为本发明的技术方案3的流程框图;
图4为本发明的总体结构模型;
图5为本发明的知识子库与数据子库的对应结构图;
图6为本发明的启发型协调器流程图;
图7为本发明的维护型协调器流程图;
图8为本发明的基于双库协同机制的挖掘关联规则新方法流程图;
图9为本发明的KDD进程的流程图;
图10为QAR_SQL方法的运行结果;
图11为运行Famer方法产生的意外规则;
图12为本发明的基于双库协同机制的挖掘关联规则新方法应用于蘑菇数据库所产生的规则。
具体实施方式1、KDD*的理论基础:
根据图2所列关系,给出如下相关定义:1.1知识表示方法—语言场与语言值结构:定义1:C=<D,I,N,≤N>,若满足下列条件:
(1)D为基础变量论域R上交叉闭区间的集合,D+为其对应开集;
(2)N≠Φ为语言值的有限集;
(3)≤N为N上的全序关系;
(4)I:N→D为标准值映射,满足保序性,即:n1,n2∈N(n1≠n2∧n1
   ≤Nn2→I(n1)≤I(n2)),(≤为偏序关系)
则称C为语言场。
定义2:对于语言场C=<D,I,N,≤N>,称F=<D,W,K>为C的语言值
结构,如果:
(1)C满足定义1;
(2)K为自然数;
(3)W:N→Rk满足:
n1,n2∈N(n1≤Nn2→W(n1)≤dicW(n2)>,
n1,n2∈N(n1≠n2→W(n1)≠W(n2)).
其中,≤dic为[0,1]k上的字典序,即(a1,....,ak)≤dic(b1,....,bk)当且仅当存在h,使得当0≤j<h时aj=bj,ah≤bh。1.2挖掘库与知识库之间泛同伦关系的建立:1)知识结点:
定义3:在相关于论域X的知识子库中,称按如下形成表达的知识为不确定性规则型知识:
      (1)P(X)Q(X)
      
Figure C0114508000271
      
Figure C0114508000272
       其中P(X),Pi(x),Q(X),Qj(X)分别为“属性词”(或“状态词”)+程度词”的形式。
定义4:在定义3中,P(X)与Pi(x)称为知识始结点,Q(X)与Qj(X)称为知识终结点,并分别称为知识素结点 分别称为知识合结点;两者统称为知识结点。
显然,各个知识结点标示的属性即构成语言场,如:温度场,压力场等;而各状态或变态的程度即构成语言值结构,如:温度场中的温度很高、高、中、低、很低等。
定理1:在相关于论域X(含若干语言场)的知识子库中,全体知识结点的集合记作E(有限集),其幂集记作ρ(E);则<E,ρ(E)>构成一个极大化拓扑空间。2)数据子类结构:
定义5:对于论域X,在相应于知识子库的数据子库中,与每个知识素结点相应的结构S=<U,N,I,W>称为数据子类结构。其中,U≠Φ,U={u1,u2,...},(ui是数据集,由下述的I形成),它是在特定的语言场与语言值结构下,表征相应于知识素结点“属性词”或“状态词”的数据集的类(称为数据子类);N≠Φ为语言值的有限集,它是刻划相应于知识素结点“程度词”的语言值的集合;
I:N→U,它是按语言值将数据集的类U进行划分的映射。在数据连续分布时,通常划分为若干交叉区间(即:
W:N→[0,1]K(k为正整数)满 &ForAll; i , j ( u i &cap; u j &NotEqual; &Phi; ) 10 ) ; 足:
n1,n2∈N(n1≤Nn2→W(n1)≤dicW(n2)),
n1,n2∈N(n1≠n2→W(n1)≠W(n2)).
其中≤N为N上全序关系,≤dic为[0,1]K上的字典序,W(n)(n∈N)为语言值的标准向量(即样本取自语言值对应区间中点及其邻域时所对应的向量)。
定义6:在数据子类结构S=<U,N,I,W>中,称满足下列条件的三元组<ui,ni,ri>为S的层:
(1)ui∈U,ui(i=1,2,3,...,v)为初步划定的第i个区间段内样本数据集;
(2)ni∈N,ni(i=1,2,3,...,v)为依样本数据集所落区间归属的语言值;
(3)ri(i=1,2,3,...,v)的确定:(i)ui中样本数据落于非交叉区间时,ri取为标准向量;此时,ri∈W(n)。(ii)ui中样本数据落入交叉区间内时,用插值公式求得:
Figure C0114508000282
(ui °为第i个区间标准样本数据,li为第i个区间长度,Ai为第i个区间标准向量,A邻为依ui落点所定的相邻区间标准向量)。
再根据ri *与ri、ri+1的测度,或ri *与ri、ri-1的测度,决定取ri或ri+1或ri-1,并将此部分数据保留在第i层或移至第i+1层或移至第i-1层。显然,数据子类与数据子类结构构成一一对应。
定理2:对于论域X,在相应于知识子库的数据子库中,全体数据子类(结构)的集合记作F(有限集),其幂集记作ρ(F),则<F,ρ(F)>构成一个极大化拓扑空间。3)“知识结点”与“数据子类(结构)”的关系:
定义7:设X与Y是任意的拓扑空间,称连续映射
F:X×[0,1]n→Y为X到Y的映射的泛同伦。(通常意义下同伦概念的扩展)。
定义8:设f,g为从拓扑空间X到Y的连续映射,若存在泛同伦F(x,t)=ft(x),使得对于任意点x∈X均有f(x)=F(x,(0,...,0)),g(x)=F(x,(1,...,1)),则称g泛同伦于f,并称F为连续映射f与映射g的泛同伦,记作f~g。
定义9:从拓扑空间X到拓扑空间Y的连续映射f称为泛同伦等价,若存在从拓扑空间Y到拓扑空间X的连续映射g,使得合成映射g°f和f°g分别是从X和Y到自身的、泛同伦于对应空间的恒等映射IX和IY的映射,分别记作g°f~IX,f°g~IY;映射g也是泛同伦等价,且称为等价f的逆等价。
定义10:设给定两个拓扑空间,若至少存在一个空间到另一个空间的一个泛同伦等价的映射,则称这两个空间为同一泛同伦型的空间。
定理3(结构对应定理):对于论域X,在相应的知识子库与数据子库中,关于知识结点的拓扑空间<E,ξ>与关于数据子类(结构)的拓扑空间<F,ζ>是同一泛同伦型的空间。
由上述分析可知:在把一个空间换成同一个泛同伦型的空间时,泛同伦类集合的结构并无改变,所以在泛同伦理论里,可以把同一泛同伦型的空间看做是相同的。故定理3给出了知识子库中“知识结点”与相应数据子库中“数据子类结构”中的层之间的一一对应关系,如图5所示。2、双库协同机制的实现:2.1图3A表示了本发明的第一种方案,主要步骤包括:
1)、数据预处理:对真实数据库中的数据进行再加工,形成挖掘数据库,并与所述的基础知识库在基于属性建库的构造下建立对应关系;
2)、聚焦:由通过人机交互输入的内容来指导数据挖掘的方向;
3)、定向挖掘:启发型协调器对基础知识库进行搜索以发现知识短缺,并以此定向地从挖掘数据库里进行数据的选择;
4)、求取假设规则:通过选定的知识挖掘算法,从挖掘数据库中提取用户所需要的知识,并用特定的模式表达所提取的知识;
5)、评价:对步骤4)获取的规则进行价值评定,将被接受的规则存入衍生知识库。
图3B表示了本发明的第二种方案,主要步骤包括:
1)、数据预处理:对真实数据库中的数据进行再加工,形成挖掘数据库,并与所述的基础知识库在基于属性建库的构造下建立对应关系;
2)、聚焦:由通过人机交互输入的内容来指导数据挖掘的方向;
3)、求取假设规则:通过选定的知识挖掘算法,从挖掘数据库中提取用户所需要的知识,并用特定的模式表达所提取的知识。
4)、实时维护:维护型协调器对基础知识库进行定向搜索,以判断步骤3)所获得的每一假设规则与基础知识库中原有知识是否重复、冗余或矛盾,并根据判断结果作相应处理;
5)、评价:对步骤4)处理后并被选取的规则进行价值评定,将被接受的规则存入衍生知识库。。
图3C表示了本发明的第三种方案,主要步骤包括:
1)、数据预处理:对真实数据库中的数据进行再加工,形成挖掘数据库,并与所述的基础知识库在基于属性建库的构造下建立对应关系;
2)、聚焦:由通过人机交互输入的内容来指导数据挖掘的方向;
3)、定向挖掘:启发型协调器对基础知识库进行搜索以发现知识短缺,并以此定向地从挖掘数据库里进行数据的选择;
4)、求取假设规则:通过选定的知识挖掘算法,从挖掘数据库中提取用户所需要的知识,并用特定的模式表达所提取的知识。
5)、实时维护:维护型协调器对基础知识库进行定向搜索,以判断步骤4)所获得的每一假设规则与基础知识库中原有知识是否重复、冗余或矛盾,并根据判断结果作相应处理;
6)、评价:对步骤5)处理后并被选取的规则进行价值评定,将被接受的规则存入衍生知识库。
图3B所对应的技术方案1没有实时维护步骤,图3A对应的技术方案2没有定向挖掘步骤,而图3C所对应的技术方案3同时包括定向挖掘和实时维护两个步骤,因此,本实施例主要对图3C所对应的技术方案进行详述,其余两种方案的实现基理相同。
图4更进一步地表示出了本发明的结构。根据所述的理论基础及结构对应定理,在本发明中,知识库中的知识素结点与数据库中的层相对应,也就是和该素结点相应的属性程度词相对应,为此经过预处理把真实数据库分成n个表(table),即table1,table2,...,tablen,n为属性程度词的个数,而tablek中的k对应了每个属性程度词的ID号。每个表的字段只有一个,用来存放真实数据库中的数据的ID号,该ID所对应的数据处于属性程度词k所描述的状态。挖掘数据库就是由这n个Table组成,这样就无需搜索整个数据库,对于每条短缺的知识只需扫描知识结点所对应几个表。这对于大型数据库就显得尤为重要,这些小的表可以放入内存进行运算,而整个数据库就无法进行(即Apriori方法就会受到影响)。
知识子库以属性为基础,其特点是便于形成知识结点与数据子类的对应关系,从而为定向数据挖掘奠定基础。逻辑结构:在相应的论域内,以属性为基础将规则库类化为若干规则子库,每一规则子库与挖掘数据库相对应。2.2双库协同机制主要由启发型协调器和维护型协调器来实现。
启发型协调器的功能是通过搜索知识库中“知识结点”的不关联态,以发现“知识短缺”,产生“创见意象”,从而启发与激活真实数据库中相应的“数据类”,以产生“定向挖掘进程”,即完成了计算机自动聚焦。
维护型协调器的功能是当从真实数据库的大量数据中经聚焦而生成规则(知识)后,使KDD进程产生“中断”,而去搜索知识库中对应位置有无此生成规则的重复、冗余、矛盾、从属、循环等。若有,则取消该生成规则或相应处理后返回KDD的“始端”;若无,则继续KDD进程,即知识评价。2.3 KDD*的软件实现主要包括启发型协调器、KDD进程和维护型协调器的功能实现。
启发型协调器主要通过计算有向超图的可达矩阵来实现发现“知识短缺”,进而用规则强度阈值进行剪枝并形成聚焦;KDD过程主要通过可信度阈值来实现(以挖掘关联规则为例);而维护型协调器则用SQL语言或计算有向超图的可达矩阵来判断知识的重复、茅盾、冗余、循环和从属,并进行相应的处理。
几个相关的概念
规则的支持度和可信度:与通常的关联规则中定义的相同。
定义1感兴趣度Interest:是指用户对数据库中各个语言变量或语言值的感兴趣程度,也就是指用户对知识库中各个知识素结点的感兴趣程度。在预处理时,首先由用户给定每个语言值的感兴趣度,即对应知识素结点的感兴趣度,表示为Interest(ek),值域为[0,1],该值越大,说明用户对该知识素结点越感兴趣。对于知识合结点F=e1∧e2∧...∧em,定义为对各个知识素结点感兴趣度的平均值,即: Interest ( F ) = &Sigma; i = 1 m Interest ( e i ) / m 如果定义规则长度为规则含有知识素结点的个数,记作Len(ri),则对于一条规则ri=F→h,它的感兴趣度为 Interest ( r i ) = [ &Sigma; i = 1 m Interest ( e i ) + Interest ( h ) ] / Len ( r i )
其中,Len(ri)m+1。规则的感兴趣度是对出现在规则中的知识素结点的个数和感兴趣度的一种综合度量。一般地,一规则中包含的感兴趣度大的知识素结点越多,感兴趣度小的知识素结点越少,认为用户对该规则越感兴趣。
定义2规则强度Intensity:包含对规则的客观(objective)的支持程度和对规则的主观(subjective)的感兴趣程度两个方面。对规则的客观的支持程度就称为支持度,对规则的主观的感兴趣程度称为感兴趣度(见定义6)。对于规则ri=F→h,其规则强度Intensity(ri)=(Interest(ri)+sup(ri))/2。
本实施例对规则强度的定义是从实用角度出发,为便于度量而做出的一种规定性,不失其本质特征。
以往的挖掘方法,如Apriori算法,仅仅根据客观度量来挖掘规则,难于获得用户真正感兴趣的规则,需要大量的人工对感兴趣的规则进行筛选。而规则强度同时考虑客观和主观两个方面,根据上述的定义,以规则强度为指标来启发挖掘规则,则两者可以比较好的相互协调:一方面,即使支持度比较小,只要用户对该短缺的知识非常感兴趣,则规则强度就不会太小,从而该假设规则还是会被聚焦,进而激发挖掘进程;另一方面,如果用户对一短缺的知识不是很感兴趣,只有该短缺知识具有很高的支持度时才可能被聚焦,进而激发挖掘进程。另外,在规则强度的定义中,我们也用到了支持度这一概念,但此时,支持度阈值相对于Apriori算法来说就可以设定得比较低,即对短缺的知识进行剪枝时很谨慎。
通过以上对KDD*总体结构模型图及理论基础的介绍,我们可以看出双库协同机制的技术实现是要构造维护(R)型协调器与启发(S)型协调器。维护型协调器的主要功能是:当从真实数据库的大量数据中经聚焦而生成假设规则(知识)后,使KDD进程产生“中断”,而去搜索知识库中对应位置有无此生成规则的重复、冗余与矛盾(定向搜索进程)。若有,则取消该生成规则或相应处理后返回KDD的“始端”;若无,则继续KDD进程,即评价与结果入库。启发型协调器的主要功能是:在以属性为基础的知识库建库原则下,通过搜索知识库中“知识结点”的不关联态,以发现“知识短缺”,产生“创见意象”,从而启发与激活真实数据库中相应的“数据类”,以产生“定向挖掘进程”。
在本发明中关键在于采用双库协同机制:即采用维护型协调器、启发型协调器,分别对所获得的假设规则进行处理以实现知识库的实时维护,并利用规则强度激发数据聚焦进行数据挖掘。
由上可见:实现双库协同机制最关键的问题即是实现“定向搜索进程”(减小搜索空间)和“定向挖掘进程”(减少挖掘空间);而实现该功能的必要条件是:构建知识库中“知识结点”与真实数据库中“数据子类(结构)”的对应关系。
启发型协调器:
启发型协调器的主要目的是为系统的聚焦提供另一个途径。在经典KDD进程中,系统的聚焦通常是由用户提供感兴趣方向,KDD沿此方向进行挖掘。但如果仅沿此方向进行,大量数据中的潜在的,也许会对用户有用的信息往往会被用户忽略。启发型协调器可帮助KDD尽可能多的搜索到对用户有用的信息,以弥补用户自身的局限性,提高机器的认知自主性。
如图6所示的启发型协调器的步骤:
调用启发型协调器时,程序转到步骤101,搜索规则强度大于某一阈值的语言变量,形成结点集;步骤102对节点集中的结点进行组合,形成元组集合;步骤103搜索基础知识库,从元组中除去已在基础知识库中存在的元组;步骤104对剩余元组按关联强度排序,定出定向搜索的优先级;步骤105按优先级顺序逐一扫描各元组,聚焦到数据库中相应入口定向发掘;步骤106转到KDD进程。
维护型协调器:
传统的知识发现系统,对KDD过程产生的假设直接进行评价,被接受的知识归并到知识库时,由知识库管理系统负责对知识库的一致性、冗余性进行检查,对矛盾和冗余的知识进行处理,形成新的知识库。此方式的缺点是:形成许多无意义的假设评价和由于问题的大量积累而加重一致性、冗余性检查的负担。
由于维护型协调器对KDD过程的介入,可以实时地、尽早地将重复、矛盾、冗余的知识淘汰掉,从而作到只对那些有可能成为新知识的假设进行评价,最大限度地减少了评价工作量。如图7所示步骤:
调用维护型协调器时,程序转到步骤201,初始化规则计数指针并使其指向第一条规则;步骤202判断知识库是否结束,如果该判断是肯定的,则执行步骤203,以关闭知识库并结束该次调用,如果是否定的,则执行步骤204;步骤204在知识库中查找第I条规则,然后执行步骤205;步骤205判断规则强度是否大于0.5,如果判断是否定的,则执行步骤206,将I加1并转到步骤202,如果判断是肯定的,则执行步骤207;步骤207判断产生的规则是否与知识库中的规则重复,如果判断是肯定的,则执行步骤208,将I加1并转到步骤202,如果判断是否定的,则执行步骤209;步骤209判断产生的规则是否与知识库中的规则存在冗余,如果判断是肯定的,则执行步骤210,将I加1并转到步骤202,如果判断是否定的,则执行步骤211;步骤211判断产生的规则是否与知识库中的规则矛盾,如果判断是肯定的,则执行步骤212,将I加1并转到步骤202,如果判断是否定的,则执行步骤213;步骤213将第I条规则存入知识库中,然后执行步骤214,将I加1并转到步骤202。
3.基于双库协同机制的挖掘关联规则新方法——Maradbcm方法:
目前国际上KDD的研究主要是以知识发现的任务描述、知识评价与知识表示为主线,以有效的知识发现算法为中心,而很少将KDD作为认知的复杂系统对其内在的规律性加以研究。现在的绝大部分KDD的算法都没有考虑知识库,挖掘出来的许多假设规则与知识库中的已有知识是重复的和冗余的,甚至是不相容的,因此对KDD定义中所要求的新颖性就无法体现出来。而且对于产生的规则没有进行后续处理,即没有考虑这些规则之间或与基础知识库之间的重复、冗余、矛盾等的处理。
基于双库协同机制的关联规则挖掘新方法,简称Mara-dbcm方法(miningassociation rules algorithms based on double-bases cooperating mechanism)能有效地解决上述提到的问题。
基于双库协同机制的关联规则挖掘方法在具体技术上主要是利用了数据挖掘中的经典的离散化方法、及KDD*系统中基于双库协同机制的启发型协调器和维护型协调器等进行关联规则的挖掘。
设规则强度阈值为MinIntensity,支持度阈值为MinSup,可信度阈值为MinCon,充分性因子阈值为minLS,m为support(pi)>minSup的知识素结点pi的个数,n为可达矩阵中知识合结点个数加上m,知识素结点pi所对应的属性为attr(pi)。
1)数据预处理:主要是用户选择真实数据库,对真实数据库中的连续属性进行离散化,形成挖掘数据库(n个表,table1,table2,...,tablen);
2)发现“知识短缺”:用有向超图H来表示知识库中的知识,并给出了有向超图的邻接矩阵A(H)表示,在此基础上提出了一种计算有向超图的可达矩阵P(H)新算法,可达矩阵P(H)中的0元素就是短缺的知识;
3)产生K2:设短缺知识集用K来表示,用Km表示规则长度为m的短缺知识集,即Km={r|Len(r)=m}。因为K中的元素非常多,我们将利用上面介绍的规则强度Intensity(ri)对K2进行剪枝,对Intensity(ri)>minIntensity(ri)的规则ri进行聚焦。即对于短缺知识ri:ep→eq(ri∈K2),必须满足:支持度sup(ep),sup(eq)>MinSup,而Intensity(ri)中的sup(ri)=min(sup(ep),sup(eq));
4)m=2;
5)对Km产生假设规则:对Km中的短缺知识ri:e1∧e2∧...∧ep→eq(ri∈Km),进行定向挖掘,即对数据表table1,table2,...,tablep,tableq进行挖掘,计算Con(ri)和Intensity(ri),如果Con(ri)>MinCon并且Intensity(ri)>MinIntensity(ri),则转6);否则,删除该规则;
6)对规则ri应用维护型协调器进行处理,搜索基础知识库中对应位置有无此生成规则的重复、冗余、矛盾、从属、循环等。若有,则取消该生成规则或相应处理;转8);若无,则转7);
7)对规则ri进行评价,若评价通过,则入库,并对有向超图对应可达矩阵进行进行计算,对Km,进行调整;若评价没有通过,则删除该规则;
8)Km是否结束,若结束,转9);若没结束,则转5)进行下一条规则的处理;
9)m=m+1,若Km=φ,转10);否则,转5);
10)显示新产生的规则;
11)结束。
图8给出了程序流程图:
步骤302对真实数据库进行预处理,形成挖掘数据库;步骤303将计数指针置为1;步骤304从挖掘数据库产生所有大于最小支持度的数据的集合,即大项集Li;步骤305从知识库中产生候选集Ci+1;步骤306判断候选集是否为空,如果判断是肯定的,则转到步骤314,否则执行步骤307;步骤307计算规则强度intensity(cm);步骤308判断规则强度是否小于规则强度阈值MinIntensity,如果判断是肯定的,则执行步骤309以删除cm,如果判断是否定的,则执行步骤310;步骤310产生知识短缺集Ki+1;步骤311判断知识短缺集Ki+1是否为空,如果判断是肯定的,则转到步骤314,否则执行步骤312;步骤312调用KDD进程进行数据的挖掘;步骤313使计数指针加1后转到步骤305;步骤314显示产生的新规则;步骤315则结束本次运行。
参考图9所示的KDD进程的程序流程图:
步骤401对挖掘数据库进行定向发掘;步骤402计算规则的支持度、可信度和充分性因子值;步骤403将步骤402所求得的值与各自对应的阈值进行比较,如果支持度大于支持度阈值并且可信度大于可信度阈值并且充分性因子值大于充分性因子阈值,则执行步骤404,否则执行步骤405;步骤404调用中断型协调器对所得规则进行处理;步骤405则结束本进程程序。
实例运行比较:
蘑菇数据库:
为了具有比较性,该算法利用供测试用的经典网络数据库所提供的蘑菇数据库(mushroom database)进行实验。该算法是所采用的编程语言为Delphi5.0,数据库系统是微软的SQL-Server7.0,采用了Client-Server结构。
因为蘑菇数据库所对应的知识子库中没有领域专家的知识,首先将运行挖多值关联规则的QAR_SQL算法和挖掘意外关联规则的Famer算法,把挖掘出来的规则作为基础知识库中知识,我们只对蘑菇是否有毒感兴趣,因此规则的后件均为是否有毒这一属性(即包括’edible’‘可以食用’和’poisonous’‘有毒’)。首先运行QAR_SQL算法,设置支持度阈值minSup=0.4,可信度阈值minCon=0.6,充分性因子阈值minLS=1.2,结果将产生19条规则,如下图10所示。
运行Famer算法,设置支持度阈值minSup=0.14,可信度阈值minCon=0.8,充分性因子阈值minLS=1.2,另外产生10条与上述常规规则相对应的意外规则,如下图11中的20至29条规则。
以上述的29条规则作为基础知识库,运行启发型协调器,设置支持度阈值minSup=0.14,可信度阈值minCon=0.6,规则强度阈值minIntensity=0.45。另外产生45条规则,如下图12所示(仅显示了其中的12条规则)。
该实例验证表明,Maradbcm方法是有效的,能够在QAR_SQL方法和Famer方法基础上另外发现一些新的关联规则。4、知识评价方法-------基于自认知逻辑的因果关联规则的自动评价方法4.1原理1:(一致性原理)在客观世界中,在不确定性推理机制与大量样本统计下,因果关联规则在推理上的表征和在统计上的表征是一致的。
原理2:(适用性原理)认证推理模式可适用于与因果关联规则相关的推理中。即:HE E H
其中H为被检验的假设,可以视为经挖掘后需要评价的因果关联规则R。E为从H可以推出的一些断言,可以视为经检验得到的检验结果。在评价过程中,所进行的检验是根据不确定因果归纳推理,检验因果数据是否满足一致性原理,即如果数据的状变态等于由数据经推理所得的结果,则表明它满足一致性原理,否则不满足一致性原理。4.2根据正相关标准:
E认证H,当且仅当Pr(H/E)>Pr(H)
其中,Pr(H)为验前置信度,Pr(H/E)为验后置信度。这就是说,E认证H当且仅当H相对于E的验后置信度大于其验前置信度。4.3对于评价方法的依据作如下分析:
将所发现的因果关联规则记为 对规则进行评价就是判定是否接受此规则,因此它属于认证逻辑的范畴。定义10:对因果关联规则
Figure C0114508000373
Ai与Sj两者同时出现的概率与两者析取出现的概率之比即Pr(Ai∧Sj)/Pr(Ai∨Sj),称为因果关联强度,记作CR。(即相当于Pr(H),可作为验前置信度)
注:因果关联强度表明的不仅仅表明的是规则关联程度,更主要的是表明前件和后件的因果关系,它强调是两者因果关联程度。与一般意义上的可信度和支持度以及更普遍意义上的置信度是有明显区别的。定义11:将Pr(E2)/(Pr(E1)+Pr(E2))称为支持强度,记作SUP。(即相当于Pr(H/E),可作为验后置信度)
注:事实上,在评价过程中,所做的检验即为检验规则是否满足原理1中的一致性原理。这样E即为所得的检验结果,这样数据便分成两部分:满足一致性原理的部分(记为E1)和不满足一致性原理的部分(记为E2)。其中满足的部分代表了因果关联规则成立的程度,即是对规则的一种建立在推理机制上的支持程度,这与通常所说的只是单纯地建立在统计结果上的支持度是不同的4.4根据原理2和有关定义可得下面的结论:
对于因果关联规则 若SUP>CR,则此因果关联规则得到认证,若SUP≤CR,则此因果关联规则被否证。4.5利用LS充分性因子对关联规则进行评价:
主观Bayes方法中,每条规则的表示形式是
                  IF E THEN(LS,LN)H(P(H))
其中:P(H)是H的先验概率;LS∈[0,+∞)称为充分性因子,它反映了证据E为真对结论H的影响程度;LN∈[0,+∞)称为必要性因子,它反映了﹁E对H的影响程度,即E对H为真的必要性程度。
LS与P(H/E)的关系如下式表示: P ( H / E ) = LS &times; P ( H ) 1 + ( LS - 1 ) &times; P ( H ) - - - ( 4 - 2 ) 其中P(H/E)是条件概率,P(H)是H的先验概率,由此可以推出LS: LS = P ( H / E ) &times; ( 1 - P ( H ) ) P ( H ) &times; ( 1 - P ( H / E ) ) - - - ( 4 - 3 ) LS值通常由领域专家给出,但在关联规则的挖掘方法可以计算。从上式(4-3)中可以看出LS的意义:
(1)当LS=1时,由式(1)可得P(H/E)=P(H),这表明E与H无关;
(2)当LS>1时,由式(1)可得P(H/E)>P(H),这表明由于E所对应的证据存在,增大了H为真的可能性,而且LS越大,P(H/E)就越大,即E对H为真的支持越强。当LS→∞时,P(H/E)→1,表明由于E的存在,将导致H为真,由此可见,E的存在对H为真是充分的,故称LS为充分性因子;
(3)当LS<1时,由式(1)可得P(H/E)<P(H),这表明由于证据E的存在,将导致H为真的可能性下降;
(4)当LS=0,由式(1)可得P(H/E)=0,这表明由于证据E的存在,将使H为假。4.6基于自认知逻辑的因果关联规则的自动评价方法:
其自动评价方法如下:(评价规则
Figure C0114508000384
):
取原因A和结果S的数据,构成一个序偶的集合P={<tw,sw>}(w=1,2....N),tw为原因状(变)态空间中的数据(即因样本值),sw为与原因数据相对应的结果状(变)态空间中的数据(即果样本值)。N为集合中样本的个数。设SUP1=0。
STEP1:取原因的样本值tw(w=1,2....N),它属于一般的样本空间,根据式(1)可得到因状(变)态输入向量atw。
STEP2:确定因状(变)态输入向量atw所属因状(变)态类型如Ak(k=1,2,3,4,5)即由式(2)计算atw与各因状(变)态标准向量Ai的测度dH,取最小者为atw归属的因状(变)态类型。随机抽取一样本集,可以看作序偶的集合P={<tw,sw>}。
STEP3:以规则
Figure C0114508000391
作为局部大前提,以因状(变)态输入向量at所属的因状(变)态标准向量Ak为小前提,可以在评价知识库中通过自组织的方式找到与其相匹配的唯一的知识矩阵Mijk,根据自动推理模式(3)得到结果的状(变)态向量Sw1。
STEP4:聚类。计算Sw1所属的果状(变)态标准向量β,可通过求它与各果状(变)态标准向量的测度(如下式)取最小者而获得聚类。其中,μSw1(i)与μSj(i)分别为其各自对应的坐标。
STEP5:对于序偶集P={<tw,sw>},取相应的结果的样本值sw,用模糊聚类的方法可得到它所属区间中的果状(变)态标准向量γ,如果β=γ,则SUP1=SUP1+1,否则SUP1=SUP1。
STEP6:重复上述过程N次,得到SUP。设
           SUP=SUP1/N
取规则的因果关联强度CR与之比较。
         若SUP>CR则规则被接受;
           SUP≤CR则规则被拒绝。
本发明最佳的实施方式已阐明,本领域的普通技术人员在不脱离其精神的基础上所作出的各种改变皆应包含于本发明的保护范围之中。

Claims (24)

1、一种基于双库协同机制的KDD*系统,包括中央处理器、存储器组成的数字计算机,所述数字计算机的存储器存储有真实数据库和基础知识库,其特征在于:所述的基础知识库根据各个具体的论域划分为若干个相关的知识子库,所述的知识子库以属性为基础,用语言场和语言值结构表示其中的知识;所述的数字计算机还包括下述装置:
数据预处理装置:对真实数据库中的数据进行再加工,形成挖掘数据库,并与所述的基础知识库在基于属性建库的构造下建立对应关系;
聚焦装置:通过人机交互输入的内容来指导数据挖掘的方向;
定向挖掘装置:启发型协调器对基础知识库进行搜索以发现知识短缺,并以此定向地从掘挖数据库里进行数据的选择;
求取假设规则装置:通过选定的知识挖掘算法,从挖掘数据库中提取用户所需要的知识,并用特定的模式表达所提取的知识;
评价装置:对所述的求取假设规则装置获取的规则进行价值评定,将被接受的规则存入衍生知识库;并且所述规则价值评定采用基于自认知逻辑的因果关联规则的自动评价,所述的自动评价包括:取原因A和结果S的数据,构成一个序偶的集合P={<tw,sw>},这里:w=1,2....N,tw为原因状态空间中的数据,即因样本值,sw为与原因数据相对应的结果状态空间中的数据,即果样本值,N为集合中样本的个数,SUP为规则的支持强度,CR为规则的关联强度,SUP1为每次求得的规则支持强度,其初值为0;且包括以下模块:
第一模块、取原因的样本值tw,这里:w=1,2....N,它属于一般的样本空间,得到因状态输入向量atw;
第二模块、确定因状态输入向量atw所属因状态类型如Ak,这里:k=1,2,3,4,5即由式(2)计算atw与各因状态标准向量Ai的测度dH,取最小者为a tw归属的因状态类型,随机抽取一样本集,可以看作序偶的集合P={<tw,sw>};
第三模块、以规则
Figure C0114508000031
作为局部大前提,以因状态输入向量at所属的因状态标准向量Ak为小前提,可以在评价知识库中通过自组织的方式找到与其相匹配的唯一的知识矩阵Mijk,根据自动推理模式(3)得到结果的状态向量Sw1;
第四模块、聚类:计算Sw1所属的果状态标准向量β,可通过求它与各结果状态标准向量的测度取最小者而获得聚类;且满足下式: d H ( S w 1 , S j ) = &Sigma; i = 1 10 | &mu; S w ( i ) - &mu; S j ( i ) | 其中,μSw1(i)与μSj(i)分别为其各自对应的坐标;
第五模块、对于序偶集P={<tw,sw>},取相应的结果的样本值sw,用模糊聚类的方法可得到它所属区间中的果状态标准向量γ,如果β=γ,则SUP1=SUP1+1,否则SUP1=SUP1;
第六模块、重复上述各模块过程N次,得到SUP;设
        SUP=SUP1/N取规则的因果关联强度CR与之比较:
    若:SUP>CR则规则被接受;
        SUP≤CR则规则被拒绝。
2、根据权利要求1所述的系统,其特征在于所述的存储器为若干大容量存储器组成的超大容量存储系统。
3、根据权利要求1所述的系统,其特征在于所述的数字计算机为若干台计算机组成的数字计算机系统。
4、根据权利要求1所述的系统,其特征在于,所述的数据预处理装置还包括:
数据检查模块:对数据的完整性、一致性进行检查;
噪音数据处理模块:对噪音数据进行处理;
数据填补模块:对丢失的数据以统计方式进行填补;
从而实现所述的对真实数据库中的数据进行再加工。
5、根据权利要求1所述的系统,其特征在于,所述的数据预处理装置还包括:所述的在基于属性建库的构造下建立对应关系是指,所述的对应关系为知识子库的知识结点与数据子库数据子类结构的层间建立的一一对应关系。
6、根据权利要求1所述的系统,其特征在于在所述的定向挖掘装置中,所述的启发型协调器包括:
第一装置:搜索规则强度大于某一阈值的语言变量,形成结点集;
第二装置:对节点集中的结点进行组合,形成元组集合;
第三装置:搜索基础知识库,并从元组中除去已在基础知识库中存在的元组;
第四装置:对剩余元组按关联强度排序,定出定向搜索的优先级;
第五装置:按优先级顺序逐一扫描各元组,聚焦到数据库中相应入口定向挖掘。
7、根据权利要求1所述的系统,其特征在于,所述的评价装置还包括:具有人机交互界面的可视化装置;该可视化装置可提供各类图形和分析资料;所述的规则价值评定是利用该可视化装置所提供的各类图形和分析资料通过人机交互界面由用户评价。
8、一种基于双库协同机制的KDD*系统,包括中央处理器、存储器组成的数字计算机,所述数字计算机的存储器存储有真实数据库和基础知识库,其特征在于:所述的基础知识库根据各个具体的论域划分为若干个相关的知识子库,所述的知识子库以属性为基础,用语言场和语言值结构表示其中的知识;所述的数字计算机还包括下述装置:
数据预处理装置:对真实数据库中的数据进行再加工,形成挖掘数据库,并与所述的基础知识库在基于属性建库的构造下建立对应关系;
聚焦装置:由通过人机交互输入的内容来指导数据挖掘的方向;
求取假设规则装置:通过选定的知识挖掘算法,从挖掘数据库中提取用户所需要的知识,并用特定的模式表达所提取的知识;
实时维护装置:维护型协调器对基础知识库进行定向搜索,以判断所述求取假设规则装置中所获得的每一假设规则与基础知识库中原有知识是否重复、冗余或矛盾,并根据判断结果作相应处理;
评价装置:对所述的实时维护装置处理后并被选取的规则进行价值评定,将被接受的规则存入衍生知识库;在所述的评价装置中,所述的规则价值评定采用基于自认知逻辑的因果关联规则的自动评价,即:根据规则的关联强度及设定的阈值,由所述数字计算机自动实现;所述的自动评价包括:取原因A和结果S的数据,构成一个序偶的集合P={<tw,sw>},这里w=1,2....N,tw为原因状态空间中的数据,即因样本值,sw为与原因数据相对应的结果状态空间中的数据,即果样本值,N为集合中样本的个数,SUP为规则的支持强度,CR为规则的关联强度,SUP1为每次求得的规则支持强度,其初值为0;且包括以下模块:
第一模块、取原因的样本值tw,这里:w=1,2....N,它属于一般的样本空间,得到因状态输入向量atw;
第二模块、确定因状态输入向量atw所属因状态类型如Ak,这里:k=1,2,3,4,5即由式(2)计算atw与各因状态标准向量Ai的测度dH,取最小者为atw归属的因状态类型,随机抽取一样本集,可以看作序偶的集合P={<tw,sw>};
第三模块、以规则 作为局部大前提,以因状态输入向量at所属的因状态标准向量Ak为小前提,可以在评价知识库中通过自组织的方式找到与其相匹配的唯一的知识矩阵Mijk,根据自动推理模式(3)得到结果的状态向量Sw1;
第四模块、聚类:计算Sw1所属的果状态标准向量β,可通过求它与各结果状态标准向量的测度取最小者而获得聚类;且满足下式: d H ( S w 1 , S j ) = &Sigma; i = 1 10 | &mu; S w ( i ) - &mu; S j ( i ) | 其中,μSw1(i)与μSj(i)分别为其各自对应的坐标;
第五模块、对于序偶集P={<tw,sw>},取相应的结果的样本值sw,用模糊聚类的方法可得到它所属区间中的果状态标准向量γ,如果β=γ,则SUP1=SUP1+1,否则SUP1=SUP1;
第六模块、重复上述各模块过程N次,得到SUP;设
        SUP=SUP1/N取规则的因果关联强度CR与之比较:
    若:SUP>CR则规则被接受;
        SUP≤CR则规则被拒绝。
9、根据权利要求8所述的系统,其特征在于所述的存储器为若干大容量存储器组成的超大容量存储系统。
10、根据权利要求8所述的系统,其特征在于所述的数字计算机为若干台计算机组成的数字计算机系统。
11、根据权利要求8所述的系统,其特征在于,所述的数据预处理装置还包括:
数据检查模块:对数据的完整性、一致性进行检查;
噪音数据处理模块:对噪音数据进行处理;
数据填补模块:对丢失的数据以统计方式进行填补;
从而实现所述的数据进行再加工。
12、根据权利要求8所述的系统,其特征在于,所述的数据预处理装置还包括:所述的对应关系为知识子库的知识结点与数据子库数据子类结构的层间建立的一一对应关系。
13、根据权利要求8所述的系统,其特征在于,在所述的实时维护装置中,所述的维护型协调器包括:
第一装置:读取一条规则;
第二装置:在知识库中查找该条规则,如果规则强度大于给定值,则转到第三装置执行;否则转到第四装置执行;
第三装置:判断规则是否重复、冗余或者矛盾,如果存在其中之一,则转到第四装置执行;否则将第该条规则存入知识库,然后转到第四装置执行;
第四装置:判断是否已读取所有规则,如果已读取所有规则,则结束本进程;否则读取下一条规则,并转到第二装置执行。
14、根据权利要求8所述的系统,其特征在于,所述的评价装置还包括:具有人机交互界面的可视化装置;该可视化装置可提供各类图形和分析资料;所述的规则价值评定是利用该可视化装置所提供的各类图形和分析资料通过人机交互界面由用户评价。
15、一种基于双库协同机制的KDD*系统,包括中央处理器、存储器组成的数字计算机,所述数字计算机的存储器存储有真实数据库和基础知识库,其特征在于:所述的基础知识库根据各个具体的论域划分为若干个相关的知识子库,所述的知识子库以属性为基础,用语言场和语言值结构表示其中的知识;所述的数字计算机还包括下述装置:
数据预处理装置:对真实数据库中的数据进行再加工,形成挖掘数据库,并与所述的基础知识库在基于属性建库的构造下建立对应关系;
聚焦装置:由通过人机交互输入的内容来指导数据挖掘的方向;
定向挖掘装置:启发型协调器对基础知识库进行搜索以发现知识短缺,并以此定向地从发掘数据库里进行数据的选择;
求取假设规则装置:通过选定的知识发掘算法,从挖掘数据库中提取用户所需要的知识,并用特定的模式表达所提取的知识;
实时维护装置:维护型协调器对基础知识库进行定向搜索,以判断求取假设规则装置所获得的每一假设规则与基础知识库中原有知识是否重复、冗余或矛盾,并根据判断结果作相应处理;
评价装置:对实时维护装置处理后并被选取的规则进行价值评定,将被接受的规则存入衍生知识库;在所述的评价装置中,所述的规则价值评定采用自动评价,即:根据规则的关联强度及设定的阈值,由所述数字计算机自动实现;所述的自动评价包括:取原因A和结果S的数据,构成一个序偶的集合P={<tw,sw>},这里w=1,2....N,tw为原因状态空间中的数据,即因样本值,sw为与原因数据相对应的结果状态空间中的数据,即果样本值,N为集合中样本的个数,SUP为规则的支持强度,CR为规则的关联强度,SUP1为每次求得的规则支持强度,其初值为0;且包括以下模块:
第一模块、取原因的样本值tw,这里:w=1,2....N,它属于一般的样本空间,得到因状态输入向量atw;
第二模块、确定因状态输入向量atw所属因状态类型如Ak,这里:k=1,2,3,4,5即由式(2)计算atw与各因状态标准向量Ai的测度dH,取最小者为atw归属的因状态类型,随机抽取一样本集,可以看作序偶的集合P={<tw,sw>};
第三模块、以规则
Figure C0114508000091
作为局部大前提,以因状态输入向量at所属的因状态标准向量Ak为小前提,可以在评价知识库中通过自组织的方式找到与其相匹配的唯一的知识矩阵Mijk,根据自动推理模式(3)得到结果的状态向量Sw1;
第四模块、聚类:计算Sw1所属的果状态标准向量β,可通过求它与各结果状态标准向量的测度取最小者而获得聚类;且满足下式: d H ( S w 1 , S j ) = &Sigma; i = 1 10 | &mu; S w ( i ) - &mu; S j ( i ) | 其中,μSw1(i)与μSj(i)分别为其各自对应的坐标;
第五模块、对于序偶集P={<tw,sw>},取相应的结果的样本值sw,用模糊聚类的方法可得到它所属区间中的果状态标准向量γ,如果β=γ,则SUP1=SUP1+1,否则SUP1=SUP1;
第六模块、重复上述各模块过程N次,得到SUP;设
        SUP=SUP1/N取规则的因果关联强度CR与之比较:
    若:SUP>CR则规则被接受;
        SUP≤CR则规则被拒绝。
16、根据权利要求15所述的系统,其特征在于所述的存储器为若干大容量存储器组成的超大容量存储系统。
17、根据权利要求15所述的系统,其特征在于所述的数字计算机为若干台计算机组成的数字计算机系统。
18、根据权利要求15所述的系统,其特征在于,所述的数据预处理装置还包括:
数据检查模块:对数据的完整性、一致性进行检查;
噪音数据处理模块:对噪音数据进行处理;
数据填补模块:对丢失的数据以统计方式进行填补;
从而实现所述的数据进行再加工。
19、根据权利要求15所述的系统,其特征在于,在所述的数据预处理装置中,所述的对应关系为知识子库的知识结点与数据子库数据子类结构的层间建立的一一对应关系。
20、根据权利要求15所述的系统,其特征在于,在所述的定向挖掘装置中,所述的启发型协调器包括:
第一装置:搜索规则强度大于某一阈值的语言变量,形成结点集;
第二装置:对点结集中的点结进行组合,形成元组集合;
第三装置:搜索基础知识库,从元组中除去已在基础知识库中存在的元组;
第四装置:对剩余元组按关联强度排序,定出定向搜索的优先级;
第五装置:按优先级顺序逐一扫描各元组,聚焦到数据库中相应入口定向发掘。
21、根据权利要求15所述的系统,其特征在于,在所述的实时维护装置中,所述的维护型协调器包括:
第六装置:读取一条规则;
第七装置:在知识库中查找该条规则,如果规则强度大于给定值,则转到第八装置执行;否则转到第九装置执行;
第八装置:判断规则是否重复、冗余或者矛盾,如果存在其中之一,则转到第九装置执行;否则将第该条规则存入知识库,然后转到第九装置执行;
第九装置:判断是否已读取所有规则,如果已读取所有规则,则结束本进程;否则读取下一条规则,并转到第七装置执行。
22、根据权利要求15所述的系统,其特征在于,所述的评价装置还包括:具有人机交互界面的可视化装置;该可视化装置可提供各类图形和分析资料;所述的规则价值评定是利用该可视化装置所提供的各类图形和分析资料通过人机交互界面由用户评价。
23、一种基于双库协同机制的KDD*方法,包括:中央处理器、存储器组成的数字计算机,所述数字计算机的存储器存储有真实数据库和基础知识库,其特征在于:所述的基础知识库根据各个具体的论域划分为若干个相关的知识子库,所述的知识子库以属性为基础,用语言场和语言值结构表示其中的知识;所述的数字计算机还执行下述步骤:
步骤一、数据预处理:对真实数据库中的数据进行再加工,形成挖掘数据库,并与所述的基础知识库在基于属性建库的构造下建立对应关系;
步骤二、聚焦:通过人机交互输入的内容来指导数据挖掘的方向;
步骤三、定向挖掘:启发型协调器对基础知识库进行搜索以发现知识短缺,并以此定向地从挖掘数据库里进行数据的选择;
步骤四、求取假设规则:通过选定的知识挖掘算法,从挖掘数据库中提取用户所需要的知识,并用特定的模式表达所提取的知识;
步骤五、实时维护:维护型协调器对基础知识库进行定向搜索,以判断求取假设规则后所获得的每一假设规则与基础知识库中原有知识是否重复、冗余或矛盾,并根据判断结果作相应处理;
步骤六、评价:对所述的步骤五处理的规则进行价值评定,将被接受的规则存入衍生知识库;并且所述规则价值评定采用基于自认知逻辑的因果关联规则的自动评价,所述的自动评价包括:取原因A和结果S的数据,构成一个序偶的集合P={<tw,sw>},这里:w=1,2....N,tw为原因状态空间中的数据,即因样本值,sw为与原因数据相对应的结果状态空间中的数据,即果样本值,N为集合中样本的个数,SUP为规则的支持强度,CR为规则的关联强度,SUP1为每次求得的规则支持强度,其初值为0;且:
1)、取原因的样本值tw,这里:w=1,2....N,它属于一般的样本空间,得到因状态输入向量atw;
2)、确定因状态输入向量atw所属因状态类型如Ak,这里:k=1,2,3,4,5即由式(2)计算atw与各因状态标准向量Ai的测度dH,取最小者为atw归属的因状态类型,随机抽取一样本集,可以看作序偶的集合P={<tw,sw>};
3)、以规则
Figure C0114508000131
作为局部大前提,以因状态输入向量at所属的因状态标准向量Ak为小前提,可以在评价知识库中通过自组织的方式找到与其相匹配的唯一的知识矩阵Mijk,根据自动推理模式(3)得到结果的状态向量Sw1;
4)、聚类:计算Sw1所属的果状态标准向量β,可通过求它与各果状态标准向量的测度满足下式:取最小者而获得聚类; d H ( S w 1 , S j ) = &Sigma; i = 1 10 | &mu; S w ( i ) - &mu; S j ( i ) | 其中,μSw1(i)与μSj(i)分别为其各自对应的坐标;
5)、对于序偶集P={<tw,sw>},取相应的结果的样本值sw,用模糊聚类的方法可得到它所属区间中的果状态标准向量γ,如果β=γ,则SUP1=SUP1+1,否则SUP1=SUP1;
6)、重复上述过程N次,得到SUP;设
        SUP=SUP1/N取规则的因果关联强度CR与之比较:
    若:SUP>CR则规则被接受;
        SUP≤CR则规则被拒绝。
24、根据权利要求23所述的方法,其特征在于包括下述具体步骤:
1)、数据预处理:主要是用户选择真实数据库,对真实数据库中的连续属性进行离散化,形成由若干个数据表组成的挖掘数据库;
2)、对基础知识库进行搜索以发现“知识短缺”,产生知识短缺集;
3)、对知识短缺集中的规则计算其规则强度,并根据阈值对规则进行取舍,然后依据规则强度排序;
4)、对挖掘数据库进行定向挖掘,形成假设规则;
5)、对符合条件的规则应用维护型协调器进行处理;
6)、对经维护型协调器处理后通过的规则进行评价;若评价通过,则入库;若评价没有通过,则删除该规则。
CNB011450800A 2001-12-29 2001-12-29 一种基于双库协同机制的kdd*方法及系统 Expired - Fee Related CN1138206C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB011450800A CN1138206C (zh) 2001-12-29 2001-12-29 一种基于双库协同机制的kdd*方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB011450800A CN1138206C (zh) 2001-12-29 2001-12-29 一种基于双库协同机制的kdd*方法及系统

Publications (2)

Publication Number Publication Date
CN1428696A CN1428696A (zh) 2003-07-09
CN1138206C true CN1138206C (zh) 2004-02-11

Family

ID=4678002

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB011450800A Expired - Fee Related CN1138206C (zh) 2001-12-29 2001-12-29 一种基于双库协同机制的kdd*方法及系统

Country Status (1)

Country Link
CN (1) CN1138206C (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100388281C (zh) * 2004-10-29 2008-05-14 富士通株式会社 规则发现方法和规则发现装置

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050033369A1 (en) * 2003-08-08 2005-02-10 Badelt Steven W. Data Feedback loop for medical therapy adjustment
CN101093559B (zh) * 2007-06-12 2010-06-23 北京科技大学 一种基于知识发现的专家系统构造方法
CN102651028B (zh) * 2012-04-09 2013-10-30 云南大学 基于d-s证据理论的不确定性数据世系查询处理方法
CN103870879B (zh) * 2014-04-09 2016-08-17 中国电子科技集团公司第二十八研究所 基于不可区分关系的计算机辅助决策系统知识选择方法
CN109857798B (zh) * 2019-01-28 2023-05-12 江苏大地物流有限责任公司 用于物流数据的双库协作数据挖掘系统及处理方法
CN110874376A (zh) * 2019-11-20 2020-03-10 北京明略软件系统有限公司 一种基于双库联动的知识挖掘方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100388281C (zh) * 2004-10-29 2008-05-14 富士通株式会社 规则发现方法和规则发现装置

Also Published As

Publication number Publication date
CN1428696A (zh) 2003-07-09

Similar Documents

Publication Publication Date Title
CN1145901C (zh) 一种基于信息挖掘的智能决策支持构造方法
CN1145900C (zh) 一种Web挖掘系统的构造方法
CN1552032A (zh) 数据库
CN1174587C (zh) 最长匹配地址查询的方法和装置
CN1670729A (zh) 使用隐含谓词的改善的查询优化器
CN1740934A (zh) 生产管理系统
CN1310173C (zh) 表格式数据显示方法、插入方法、删除方法和更新方法
CN1331449A (zh) 用于将粘着法构成的文本或文档分段成词的字符串划分或区分的方法及相关系统
CN1728140A (zh) 信息检索系统中基于短语的索引编制
CN1578955A (zh) 关联规则数据挖掘所用的采样方法
CN1728143A (zh) 基于短语产生文献说明
CN1728142A (zh) 信息检索系统中的短语识别
CN1281191A (zh) 信息检索方法和信息检索装置
CN1728141A (zh) 信息检索系统中基于短语的搜索
CN1849608A (zh) 由边界表示数据生成体数据的方法及其程序
CN1151573A (zh) 声音识别方法,信息形成方法,声音识别装置和记录介质
CN100336056C (zh) 基于成熟工艺文档的工艺术语提取、规律分析和重用方法
CN1151465C (zh) 利用候选表进行分类的模式识别设备及其方法
CN1138206C (zh) 一种基于双库协同机制的kdd*方法及系统
CN1786966A (zh) 信息处理
CN1855103A (zh) 特定元素、字符串向量生成及相似性计算的装置、方法
CN1801183A (zh) 信息处理装置和方法以及程序
CN101048765A (zh) 机密信息处理设备
CN1722138A (zh) 结构化文档管理设备、搜索设备、存储和搜索方法及程序
CN101034409A (zh) 基于数据驱动和决策树分析的人体运动的检索方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: BEIJING UNIV. OF SCIENCE AND TECHNOLOGY

Free format text: FORMER OWNER: YANG BINGRU

Effective date: 20091106

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20091106

Address after: University of Science and Technology Beijing, No. 30, Xueyuan Road, Beijing, Haidian District

Patentee after: University of Science and Technology Beijing

Address before: Institute of knowledge engineering, School of information engineering, University of Science and Technology Beijing, Beijing

Patentee before: Yang Bingru

C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20040211

Termination date: 20111229