CN100561512C - 一种基于双基融合机制的kdk*系统 - Google Patents

一种基于双基融合机制的kdk*系统 Download PDF

Info

Publication number
CN100561512C
CN100561512C CNB2005100869662A CN200510086966A CN100561512C CN 100561512 C CN100561512 C CN 100561512C CN B2005100869662 A CNB2005100869662 A CN B2005100869662A CN 200510086966 A CN200510086966 A CN 200510086966A CN 100561512 C CN100561512 C CN 100561512C
Authority
CN
China
Prior art keywords
knowledge
rule
kdk
knowledge base
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2005100869662A
Other languages
English (en)
Other versions
CN1760897A (zh
Inventor
杨炳儒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CNB2005100869662A priority Critical patent/CN100561512C/zh
Publication of CN1760897A publication Critical patent/CN1760897A/zh
Application granted granted Critical
Publication of CN100561512C publication Critical patent/CN100561512C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于双基融合机制的KDK*系统,属于知识库中的知识发现技术领域。包括中央处理器、存储器组成的数字计算机,所述数字计算机的存储器存储有基础数据库和合成知识库,。所述的合成知识库在相应的论域内,以属性为基础将规则库类化为若干规则子库,每一规则子库表征了一类属性。本发明的优点在于:KDK*的结构突破了KDK的原有封闭式结构,将数据库与知识库、KDD与KDK有机地融合起来,极大的减少了人工的参与,提高了系统的认知自主性。在技术实现层面上,均具有创新价值,并且能够产生良好的社会效益和经济效益。

Description

一种基于双基融合机制的KDK*系统
技术领域
本发明属于知识库中的知识发现技术领域,特别是提供了一种基于双基融合机制的KDK*系统,具体的讲是一类新型知识发现系统的构造方法。
背景技术
基于知识库的知识发现(Knowledge Discovery in Knowledge-base,KDK)是指从知识库中发现新的知识,或者对已有知识进行提炼、修正使之更精确、更完备、更简洁。KDK是知识发现领域一个新的具有挑战性的研究方向。
知识发现作为知识工程和机器学习领域的重要分枝,从其产生至今的十余年间,研究的主流是基于数据库的知识发现(KDD)。而基于知识库的知识发现,即如何从已有的海量知识库中进一步产生新的深层次的知识并扩充到知识库中(KDK),在国内外基本上无人涉足。
KDK是一项综合技术,涉及数据库技术、数据挖掘、计算机语言学、逻辑学、信息学等多个领域。给定一个大型知识库,利用归纳、解释、演绎、类比等方法从中产生新的假设,这些假设在经过事实检验与评价后,形成新的知识并添加到知识库中。它的成功将直接作用于知识获取和大型知识库的建设,并且对于发现大型和通常意义下的知识库可以产生怎样的机器学习程序是很有用的。
以下给出KDK界定性的描述:(1)KDK的目的是为了在真实的大型知识库中发现新的知识,这种发现过程是非平凡的,意即这种发现过程的核心将是归纳,而演绎将作为辅助手段,它有可能是不保真的;(2)KDK能够发现深层次的知识。具体而言就是在已有属性与关系的基础上进一步发现其上的关系,从逻辑角度上说就是发现谓词间的关系或函词间的关系;(3)由于知识本身所可能具有的一些属性,如不确定性、非单调性、不完全性等,KDK过程的进行也将是一个复杂的多方法多途径的过程。它与知识库的组织、用户对最终寻求的知识类型都紧密相关,采用的推理手段可能涉及很多不同的逻辑领域;(4)KDK发现的知识应该是新颖的、有效的、潜在有用的、用户可理解的。
从以上界定性的描述可以看出:KDK究其本质应是一种机器学习过程,其目的是获取知识,学习源是知识库中的事实、规则、模式等,学习手段是用归纳结合演绎的方法,其最终结果将既能够发现事实上的知识,也能发现规则上的知识。因此,在具体的实现中,应该采用两条发掘线路,其一是利用归纳方法发掘事实或规则之上的规则;另一条线路是通过高阶推理的方法,从规则库中发现规则,即属性与关系之上的关系。
从知识库中发现知识不象从数据库中发现知识那样简单。知识库中的知识发现(KDK)与数据库中的知识发现(KDD)的不同之处主要表现在:(1)发现的基础不同:KDK针对的对象是知识库,一个真实的知识库一般包含事实库和规则库,它们的结构与数据库有着明显的区别;(2)采用的手段不同:知识库中不仅包含着数据,而且包含着显性的关系,如何针对关系得出更高层次的知识,须采用与数据挖掘不同的方法。总括而论,演绎逻辑系统(包括经典的和非标准的)已在计算机科学技术中占有重要的地位。机器学习、归纳学习与不确定性推理至今仍主要是以演绎逻辑系统作为工具的。由于计算机本身是演绎化的产物,而发现的核心是归纳;因此,唯一要做的是归纳的演绎化或演绎的归纳化。
当前国内外对知识库的研究仅停留在消除知识库的矛盾、冗余、推理链循环以及完备性检测等方面,而基于知识库中事实和规则之上的知识发现(KDK)尚没有系统的研究成果。
发明内容
本发明的目的在于提供一种基于双基融合机制的KDK*系统,克服了知识发现主流发展中的问题;本发明提出了一类基于双基融合机制的完备型KDK*新系统的构造方法。
一种基于双基融合机制的KDK*系统,包括中央处理器、存储器组成的数字计算机,所述数字计算机的存储器存储有基础数据库和合成知识库,其特征在于:所述的合成知识库在相应的论域内,以属性为基础将规则库类化为若干规则子库,每一规则子库表征了一类属性。所述的数字计算机执行下述步骤:
1)知识库建构:以属性为基础,形成由规则库和事实库组成的合成知识库,并建立与所述基础数据库间的对应关系;
2)知识库中知识发现过程:根据一般知识库中知识发现算法发现的新的初始假设;
3)假设的数据库验证:R型协调器验证被发现的新的初始假设在数据库中的合理性;
4)假设的数据库中知识发现过程验证:S型协调器将发现的新的初始假设送入KDD*过程中进行定向挖掘,用KDD*的挖掘结果先行评估,若此条规则在KDD*过程中也可被发现,则认为该规则有效的几率较大;反之,则认为此知识缺乏数据支持;
5)假设的知识库验证:T型协调器对已被KDD*过程确认的假设,产生一个定向搜索进程,搜索知识库中对应位置是否有此生成规则的重复、冗余和矛盾;若有重复,则取消该生成规则而返回KDD的“始端”;若无,则继续KDD进程。对于矛盾的处理,采用约束规则的条件与根据其可信度或关联强度来裁决等方法;
6)规则产生:根据通过T型协调器评估结果,产生假设规则;
7)专家评价与存储:对步骤6)产生的规则进行专家评价,通过的规则存入扩展知识库。
本发明所述的存储器为大容量存储器,也可为2~10个大容量存储器组成的超大容量存储系统。
本发明所述的数字计算机为2~10台计算机组成的数字计算机系统。
本发明之步骤1)所述的对应关系为合成知识库的规则子库与基础数据库的数据子类间的对应关系。
本发明之步骤3)所述的R型协调器包括以下步骤:
1)根据知识库中的所有知识素结点到数据库中找到其对应的数据子类结构,形成素结点的数据子类表;
2)对上述的数据子类表进行处理,使得表中仅包含属性的域的定义;
3)根据需要验证的知识合结点对上述的数据子类表进行交、并运算,得出结果表;
4)读出结果表中对各属性的域的定义,进行匹配运算,相符者通过验证,反之删去。
本发明之步骤4)所述的S型协调器包括以下步骤:
1)由KDK过程发现的新规则已通过R型协调器的验证,规则形式为:始知识结点→终知识结点。将始知识结点与终知识结点分别化为析取范式的结构;
2)将此析取范式继续转化,将析取范式中的每一个合取式转化为知识库中的基本单元,即状态描述的形式;
3)算出始结点与终结点的正则测度函数值;
4)算出本条规则的正则确证度函数值;
5)若本规则的正则确证度函数值低于给定阈值,则抛弃本条新知识,给出提示;
6)若本条知识的正则确证度函数高于给定阈值,定向搜索数据库,计算数据库中对本规则的支持度和可信度。若支持度和可信度低于给定阈值,抛弃本条规则,给出提示;
7)规则通过验证,送入评价函数中进行评价。
本发明之步骤5)所述的T型协调器包括以下步骤:
1)对于通过了S型协调器评价的假设,检验是否可信度大于阈值:若结果为假,退出;
2)检验假设是否重复:若结果为真,退出;
3)检验假设是否冗余:若结果为真,退出;
4)检验假设是否矛盾:若结果为真,退出;
5)存储假设入合成知识库中。
本发明首次提出了一类基于双基融合机制的完备型KDK*新系统;对基于知识库的知识发现内在机理中双基融合机制的研究,不仅对知识发现算法具有重要的意义,而且对知识发现的主流发展也起到了重要的推动作用,表现如下:
(1)双基融合机制是对知识发现系统内在机理的一种研究,其本质在于数据库与知识库的一种协调,这种协调不是简单的叠加,而是挖掘出两者的内在联系,从本质上寻求切入点。这符合世界的自然规律和人对事物的认识规律,我们可将数据库理解为人类认识的源泉,而知识库相应的应该体现人类的认识结果。将数据库和知识库及其基于两者的知识发现过程统一在一个系统中,使它们能够相辅相成,是一种机器智能的较高境界。
(2)加入了双基融合机制的KDK主要的优越性体现在对于假设规则的自主性评价过程中。在以往的算法中,对于假设规则的评价过程很难进行,评估函数的采用一般是使用固定的很少变化的函数,这样评估之后还需要人类专家的大量参与,以人为的方式来评定规则的可用性。而双基融合机制的使用大大减少了人的参与量,在专家的评估前假设规则已经过了数据库的评估和KDD*过程的评估,将部分意义不充分的规则删除。
(3)由双基融合机制与KDK*新结构模型派生出基于知识库中事实与规则的KDK*归纳算法。经实验表明:与基于事实和规则的KDK算法相比,基于卡尔纳普和柯恩归纳逻辑的KDK*挖掘算法的有效性与可扩展性更高。
本发明的优点在于:KDK*的结构突破了KDK的原有封闭式结构,将数据库与知识库、KDD与KDK有机地融合起来,极大的减少了人工的参与,提高了系统的认知自主性。在技术实现层面上,均具有创新价值,并且能够产生良好的社会效益和经济效益。
附图说明
图1本发明基于卡尔纳普归纳逻辑的KDK算法流程图。
图2为表2所对应的广义概念格哈斯图。
图3为KDK*系统总体结构模型(R-S-T)
图4为KDK*系统的过程模型
图5为维护协调算法流程图
具体实施方式
1、基于事实的KDK建模与挖掘算法
1.1基于属性的知识库建库
在KDK系统中,选用了基于属性的知识表示方法,其最终形式为产生式规则,这主要是基于以下几点考虑:
(1)下一步的工作中,将把KDK的结果与数据库和KDD过程相连接,这就要求必须为知识库和数据库的协调留下接口。而基于属性的建库方式使得知识库与数据库在结构上相似,便于协调。
(2)基于属性的建库方式可以有效的借用数据库的现有功能,便于存储大容量的知识,解决目前知识库容量小的问题。
(3)基于属性的知识库建库在以前也有人研究,并有实例证明基于这种方式的推理也是可行和有效的。
(4)产生式规则的知识表示方法具有模块化、清晰、便于理解等优点,尤其重要的是它提供的是一种粗框架的表示,可以在产生式内部结合基于属性的具体表示方法。
定义1:在相关于论域X的知识库中,我们称“一个属性词+一个属性程度词”这样形式表示的知识结点为知识素结点。
例如“温度高”是一个知识素节点,它由属性词“温度”和属性程度词“高”组成。
定义2:相应于论域X的知识结点,是指如下形式的合式公式:
θ0a1θ1a2…θm-1amθm
其中,ai为某一知识素结点;θi∈J,i=0,1,…,m。这里J是由符号“∧”,“∨”,“(”和“)”等4个符号(不包含否定连接词)及其任意组合,以及NOP(空)而形成的集合;但θ1在其中取值要使该公式有意义;只有θ0和θm可以取空。显然,知识素结点是知识结点的一种特殊形式。
定义3:用以完全描述给定知识库的某给定个体域的一切可能状态的语句集称为一个状态描述。
定理1:知识库中的任一知识结点都能写成若干个状态描述的析取式。(证明略)
有了以上定义基础后,建立该系统知识库的归纳模型。
1.2基于卡尔纳普归纳逻辑的KDK建模
在我们的研究中,选择了卡尔纳普归纳逻辑作为理论基础,该理论基础将主要作用于知识库的语义构造和KDK的假设评价中。
(1)基本概念
定义4:m是关于某状态描述的正则测度函数,当且仅当m满足以下条件:
①对于知识库中的每一个状态描述,m为正实数;
②知识库中所有的状态描述的m值之和为1。
定理2:设m是知识库中某一状态描述的正则测度函数,则每一个状态描述的m∈[0,1]。(证明略)
定义5:m是知识库中关于某状态描述的正则测度函数,扩展m为知识库中关于知识结点的正则测度函数:
①对于任何在知识库中不成立的知识结点j,m(j)=0;
②对于任何在知识库中非不成立的知识结点j,m(j)是知识结点中所有状态描述的m值之和: m ( j ) = Σ i n m i .
定义6:在给定的知识库中,若m是正则测度函数,c为知识库中知识结点的二元函数,且c(h,e)=m(h.e)/m(e),则称c为知识库中的正则确证函数。
即正则确证度表示了知识结点h和e共同成立的可能世界的个数与e成立的可能世界的个数的比值,它代表了知识结点间的逻辑关系。根据卡尔纳普的逻辑体系,尽管h和e本身是涉及到事实经验的,但只要有了适当的确证度理论,就可以抛弃事实根据,只凭语义和语形分析得出确证度。
(2)KDK过程模型的构建
定义7:KDK过程模型为一个四元组M=<W,R,M,c>,其中:
①W为知识结点集,也可理解为可能世界集;
②R:W→W,可理解为认知通达关系;
M = &xi; &eta; 为知识结点的正则测度函数;(其中ξ:关于特定状态描述的正则测度函数;η:全部状态描述的正则测度函数)
④c为R上的正则确证函数。
说明:以上模型是针对KDK的归纳过程而建,KDK的目的是针对已知的两个知识结点,通过知识库的归纳得出两个或更多知识结点之间的关系,即上述模型中的R(认知通达关系)。在这个模型中,定义了知识结点的正则测度函数和R上的正则确证函数,对关系R进行了量化的表示;根据这一量化值,就可知对于归纳结果的可信任程度。
(3)基于卡尔纳普归纳逻辑的KDK过程模型的几点说明:
卡尔纳普归纳逻辑虽然是一种很庞大、理论较完备的归纳逻辑,但它在逻辑界中引发的争议也较多。普遍认为,卡尔纳普归纳逻辑有其先天缺陷和不可克服的问题。而KDK的系统中采用了卡尔纳普归纳逻辑作为建模的基础,这主要是基于以下几点考虑:
①KDK系统的知识库采用了基于属性的知识表示方法,而基于卡尔纳普的知识评价方法也是基于属性的;因此,在形式上类似。
②现代逻辑界已普遍认为卡尔纳普逻辑因为暗示了归纳问题的一种先验主义的解决方式,因此是一种证明的逻辑,而不是一种发现的逻辑。而通过前面的分析已知道在KDK过程中,要借鉴卡尔纳普归纳逻辑的主要原因是用于假设规则的评价;因此,是一种较适当的方法。
③卡尔纳普归纳逻辑作为一种严密的数理逻辑有它的缺陷,主要原因在于它在处理无限世界中问题时,它不能给出所有的状态描述。而应用于计算机实现时,因为计算机处理的只能是有穷世界,卡尔纳普的障碍不会影响KDK系统的实现。
④卡尔纳普在处理正则测度函数时使用了平权的方法,这也是逻辑界争论的焦点,因为他不能给与平权制一个合理的解释。在KDK实现时,因为处理的是有穷世界,可以给不同的状态描述以不同的权重。这个权重可以用主客观相结合的方法给定,即首先由多专家参与共同给出加权均值,再通过扫描数据库用统计方法计算出权重,最后将两者结合。结合的方法可采用αA1+(1-α)A2的公式,此公式中A1表示主观因子,A2表示客观性因子,α为主观性权值。这样就可以极大地减少个人的主观因素的影响。
1.3利用KDK模型从事实库中发现规则
基于卡尔纳普归纳逻辑的KDK算法流程如图1所示。
2、基于规则的KDK建模与挖掘算法
2.1归纳假设的产生
(1)广义概念格的定义与基本性质
定义8:若有形式背景K=(U,D,R,S),其中U是规则集合,D是规则特征属性的集合,R是U与D之间的一个二元关系,即 R &SubsetEqual; U &times; D , S是规则支持度、可信度、综合指标的集合。则在此形式背景下,存在偏序集合与之相对应,并且这个偏序集合展成唯一的格结构。
这里,规则集合U可仅以规则序列号的集合来表示。规则特征属性集合D就是知识素结点的集合。R是此规则所具有的特征属性,或说是该规则的条件和决策属性的包含。
定义9:当且仅当三元组(X,Y,S)满足性质:
X=g(Y), g ( Y ) = { x &Element; U | &ForAll; y &SubsetEqual; D , xRy } ,
Y=f(X), f ( X ) = { y &Element; D | &ForAll; x &SubsetEqual; R , xRy }
时,称三元组(X,Y,S)关于R是完备的,且有f(Φ)=D,g(Φ)=U。
定义10:由定义8和定义9所诱导的格L称为广义概念格。
定理3:所有广义概念格中的结点都是最大扩展序偶。
(证明略)
定理4:这种最大扩展是偏序集中的一种闭包。对于偏序集(U,=)中的闭包,有h:U→U,性质如下:
Figure C20051008696600104
x = y &DoubleRightArrow; h ( x ) = h ( y ) ;
Figure C20051008696600106
h(x)=x;
Figure C20051008696600107
h(h(x))=h(x).
h(x)称为x的h闭包。若x=h(x),则称x是h近似。
(证明略)
定理5:在广义概念格结点C1(X1,Y1,S1)和C2(X2,Y2,S2),若 Y 1 < Y 2 &DoubleLeftRightArrow; X 2 &Subset; X 1 , 则有 C 1 < C 2 &DoubleLeftRightArrow; X 2 &Subset; X 1 .
(证明略)
(2)产生式规则的数据库表示
若有产生式规则知识(包括领域知识或者KDD挖掘结果知识):
可以认为是一个五员组(序号,条件,结果,支持度,可信度),
其中Xn、Ym为语言变量,表示若有条件X1,X2,...,Xn发生,则有决策属性Y1∧Y2∧...∧Ym成立。规则支持度为sup,可信度为conf。
其表示形式如表1所示。
表1产生式规则知识
Figure C20051008696600111
(3)产生式规则的广义概念格表示
由广义概念格定义,可构造匹配的形式背景(U,D,R,S),如表2所示:U={1,2,…}为规则序号,D={a1,a2,a3,a4,a5,b1,b2,…}为知识素结点的集合,R为每条规则的条件知识素结点和决策知识素节,S为此条规则的支持度。可以此形式背景得到相应的广义概念格。如图2为其所对应的广义概念格的哈斯图。
表2产生式规则知识的形式背景
Figure C20051008696600112
(4)广义概念格结构产生式规则的批量式生成
在基于广义概念格的生成算法中(算法从略),建立边(结点间联系)过程和通常的算法区别不大,但增加了支持度信息,并实时得到可信度信息;只有满足规则支持度和可信度要求的结点才会被加入格中。为加快后续规则知识的发现过程,增加队列FirstA,记录知识素结点的首次出现。
此外,还提出广义概念格的快速增量式更新算法(算法从略),其思路是对索引树结点进行分类,从而设计出一种基于树的快速增量式广义概念格(产生式规则)的生成算法。
2.2基于科恩归纳逻辑的归纳假设评价体系
由2.1给出的方法和归纳学习的方法从本质上来说都是一种归纳。而归纳是一个不保真的过程,因此对此归纳假设的评价是非常必要的。
(1)归纳假设概率的确定
归纳假设的评价系统基于以下6条规则:
规则1:若假设与事实相符合,则它是正确的。
规则2:若假设没有反例,则它是正确的。
规则3:假设的正确性程度由其所有的相关变量的变化范围内无反例区域的大小决定。
在下面的内容里,我们试图直接确定归纳假设概率Pi值。
定义11:相关变量v是假设H的相关变量,如果v的变化可能改变H的值。
定义12:一个相关变量是以某一属性(有限个)不同值为定义域的变量。这些值就称为它的变素。其中有且仅有一个是默认变素。
定义13:特征检验函数Vari(H(x)),为标记归纳假设H(x)经受检验状况的函数。
Vari(H(x))=1表示H(x)通过某一检验。Vari(H(x))=-1表示H(x)未能通过某一检验。Vari(H(x))=0表示不能判断H(x)能否通过某一检验。
规则4:
Figure C20051008696600121
若H(x)通过由增加一个相关变量构成的检验ti+1,则它的Pi值加1。这条规则是确定Pi的主要规则,称为主规则,其余规则称为从规则。
规则5:
Figure C20051008696600122
若H(x)通过ti,但无法判断它是否通过ti+1,则有□iH(x)。
规则6:
Figure C20051008696600123
若H(x)通过ti,但无法通过检验ti+1,则有□iH(x)。
H(x)是否能经受住某一次的检验,无法作出直接的回答,此时系统将从已知条件和H(x)出发,进行演绎推理,确定Vari(H(x))的值。特别的当演绎结果为□iH(x)时,还要进行□iH(x)的演绎。
在归纳评价时,按相关变量及其检验序列,采用演绎和归纳交替的办法,首先给出归纳假设作为从目标,从目标出发构造演绎的与/或树。若演绎成功即书页匹配成功,则返回成功的可信度;若演绎不成功而又可选取主规则,则开始进行归纳,根据归纳结果返回相应的Pi值,并将此值赋给相应的与/或树,然后利用返回的Pi值;通过计算将结果返回给根目标,从而得出目标成立的Pi值。最后若无规则可用,则采用直接提问的方式使评价进行下去。
定义14:相关域函项r是一个从假设集到相关变量的有穷序列集的映射。r[H]=(v1,v2,…,vn)指已知H的全部相关变量为v1,v2,…,vn
定义15:归纳度函项m是一个从相关变量的有穷序列集到U={-1,0,1}n的映射。
若设归纳假设有全称条件形式r[H]=(v1,v2,…,vn),并有dom(vi)=(vi1,vi2,…,vin),i=1,…,n。其中vik是vi的默认变素。对H的检验由一系列实验ti组成,每个测试实际上是对H的一个与相关域有关的蕴涵进行的,因此必须借助于某个域有关的判别准则来决定测试结果对H是支持、否定还是中立,并以此形成证据。记m的第i个分量为mi[H]。
则r函项与m函项在H上的值刻划了假设H经过检验所获得的归纳评价。对给定的问题域,通过比较两个假设的r函项与m函项的值就可以比较它们可靠性的优劣。特别对任一假设H若 &ForAll; i : m i [ H ] = 1 , 则此归纳假设是完全可靠的。
(2)归纳假设的评价算法
①给出归纳假设H;
②确定可能证伪的所有可能的因子即相关变量,记为相关变量集合V;
③确定相关域函项r;
④确定归纳度函项m;
⑤检验控制所有N个变量,使其所有可能的组合逐个出现;
⑥计算归纳概率的Pi
将此算法应用于基于广义概念格所发现的假设归纳规则,在给定最小归纳概率阈值后,经验证得到的规则数目减少一半,而正确率大大提高了。从而验证了基于规则的KDK模型构建与基于科恩归纳逻辑(做了改进)的归纳假设评价算法的有效性。
3、双基融合机制
对于双基融合机制的研究主要是研究知识发现系统中知识信息的传输、存储、转换、再生的潜在规律,各子系统间的内在联系以及知识发现过程中各参与要素间的相互关系。
所谓双基融合机制,是指构建基础数据库与知识库的内在联系的“通道”,从而用数据库与KDD去制约与驱动KDK的挖掘过程,改变KDK固有的运行机制,在结构与功能上形成相对于KDK而言的一个开放的优化的扩体。具体而论:
(1)KDK过程要依赖于数据库。即在KDK过程中发现出的假设规则随时送入数据库中,以数据库中的数据来验证形成假设规则的可能性;
(2)KDK的发现过程要依赖于KDD的挖掘过程。即在KDK中发现出的新知识(特别是难于决断的知识)要随时送入KDD过程中进行验证,看KDK中发现的规则在KDD过程中是否能被发现。这一过程本质上是确定KDK中发现的新规则在现实中是否有意义;
(3)KDK依赖于固有知识库。即KDK过程中发现的新知识要实时的带入固有知识库,以验证新知识与固有知识是否重复、冗余和矛盾。
从以上揭示的三点内涵中我们可以看出:双基融合机制的本质是基于数据库的知识发现与基于知识库的知识发现的一种协同,这种协同在于挖掘两者之间的内在联系,从本质上寻找切入点。这符合世界的自然规律和人对事物的认识规律。我们可将数据库理解为人类认识的源泉,而知识库相应的体现人类的认识结果。将基于数据库的知识发现和基于知识库的知识发现统一在一个系统中,使他们能够相辅相成,将机器智能升华到较高的境界。
要实现上述的三点内涵,必须揭示并构建挖掘知识库(KB)与挖掘数据库(DB)之间的内在联系以及KDD与KDK两者作为知识发现过程之间的内在联系。
3.1同伦理论基础
定义16:设X和Y是任意的拓扑空间,所谓从空间X到空间Y的映射的同伦是指在空间Y中取值的函数F(x,t),它的两个变量是空间X的点x和满足条件0≤t≤1的实数t,而且这函数对于两个变量来说都是连续的。换句话说,F是从空间X和实数段I=[0,1]的拓扑乘积X*I到空间Y的连续映射。同伦F产生从空间X到空间Y的一族连续映射
ft(x)=F(x,t),
这组映射连续的依赖与参数t,常常也把这样一族映射称为同伦。
定义17;如果在空间X的一个子空间X0上,同伦F不依赖于t,即如果对于任何点x∈X0和任何t∈I都有:
F(x,t)=F(x,0),
则已知同伦叫做相对于子空间X0的(或者在子空间X0上互同的)。不是相对的同伦也叫做自由同伦,它可以看作相对于空的子空间的同伦。
定义18:我们说从空间X到空间Y的连续映射g同伦于连续映射f,写成
Figure C20051008696600141
如果存在这样的同伦F(x,t)=ft(x),使得
f0=f,f1=g,
即如果对于任何点x∈X,
f(x)=F(x,0);
g(x)=F(x,1)。
同伦F叫做连接映射f与映射g的同伦。如果它在子空间X0上是互同的,则映射g叫做相对于子空间X0而同伦于映射f,写成:
相对同伦的必要条件是映射f和g在子空间X0上重合。
定义19:从空间X到空间Y的连续映射f叫做同伦等价,假如存在着从空间Y到空间X的这样的连续映射g,使得合成映射gf和fg分别是从空间X和空间Y到自身的、同伦于相应空间的互同映射IX和IY的映射:
Figure C20051008696600144
映射g也叫同伦等价,而且叫做等价f的逆等价。
定义20:两个空间叫做同一同伦型的空间,假如至少存在从一个空间到另一个空间的一个同伦等价的映射。
Figure C20051008696600151
是从空间X1到空间Y1的映射的任意同伦类,f1是从空间X2到空间X1的同伦等价的映射,g1是从空间Y1到空间Y2的同伦等价的映射。容易看出,对于类
Figure C20051008696600152
的任何映射f,从空间X2到空间Y2的所有下列形状的映射
g1ff1
属于从空间X2到空间Y2的映射的同一个同伦类
Figure C20051008696600153
不难断定,这样做出的映射
Figure C20051008696600154
是从空间X1到空间Y1的同伦映射类的集合到空间X2到空间Y2的同伦映射类的集合的一一映射。因此,在把一个空间换成另一个同一同伦型的空间时,同伦类集合的结构并未改变。所以在同伦理论中可以把同一同伦型的空间看作相同的。
3.2知识库和数据库的内在联系
(I)关于知识结点
定理6:在相关论域X的知识子库中,所有知识结点的集合为E(有限集),其幂集是ρ(E),那么<E,ρ(E)>是一个拓扑空间。(证明略。)
定理7:在以属性为基础构建的知识库中,所有的知识结点都可以表示为知识素结点的递归形式,即:θ0a1θ1a2…θm-1amθm=(ar→ai)(ar和其它元素可以是知识素结点的递归)。(证明略。)
由以上定理可知,知识库中的任一知识结点都可转换为知识素结点的递归表示。因此,在这个意义上,知识结点的属性可以缩减成知识素节点的属性。
(II)关于数据子类结构
定义21:对于论域X,在与知识子库对应的数据子库中,与每一知识素节点对应当四元结构S=<U,N,I,W>称为数据子类结构。其中,
Figure C20051008696600155
U={u1,u2,…}(ui是I型数据集合)是描述知识素节点“属性词”或“状态词”的数据集合类(称为数据子类);
Figure C20051008696600156
是语言值的有限集合。它描述与“程度词”或知识素结点所对应的语言值;
I:N→U,是数据类U按语言值划分的映射。当数据是连续值时,通常划分为及各交错的区间(即:
Figure C20051008696600157
);
W:N→[0,1]k(k是正整数)满足:
&ForAll; n 1 . n 2 &Element; N ( n 1 &le; N n 2 &RightArrow; W ( n 1 ) &le; dic W ( n 2 ) )
&ForAll; n 1 , n 2 &Element; N ( n 1 &NotEqual; n 2 &RightArrow; W ( n 1 ) &NotEqual; W ( n 2 ) )
其中,≤N是N上的全序,≤dic是[0,1]k上的字典序,W(n)(n∈N)是语言值的标准向量,即采样(样本)是与语言值区间中点或临接点对应的向量。
定义22:在数据子类结构S=<U,N,I,W>中,三元组<ui,ni,ri>是S的层:
ui∈U,ui(i=1,2,3,…,v)是第i个区间的采样数据集;
ni∈N,ni(i=1,2,3,…,v)是采样数据集区间属性的语言值;
ri(i=1,2,3,…,v)由下式确定:
①当ui中的采样数据不处于交错区间时,ri是标准向量,那么ri∈W(n);
②当ui中的采样数据处于交错区间时,根据插值公式,我们有:
r i * = A i ( 1 - | u i - u i o | l i ) + A next &CenterDot; | u i - u i o | l i (ui o是第i个区间的标准采样数据,li是第i个区间的长度,Ai是第i个区间的标准向量,Anext是ui的邻接区间的标准向量)根据ri *和ri,ri+1的测度,或者ri *和ri,ri-1的测度来决定选择ri还是ri+1还是ri-1。显然,数据子类和数据子类结构之间存在着一一对应关系。
(III)知识结点与数据子类结构的泛同伦对应关系
定义23:设X与Y是任意的拓扑空间,称连续映射
F:X×[0,1]n→Y
为X到Y的映射的泛同伦。(通常意义下同伦概念的扩展)。
定义24:设f,g为从拓扑空间X到拓扑空间Y的连续映射,若存在泛同伦F(x,t)=ft(x),使得对于任意点x∈X均有f(x)=F(x(0,…,0)),g(x)=F(x,(1,…,1))则称g泛同伦于f,并称F为连续映射f与连续映射g的泛同伦,记作f~g。
定义25:从拓扑空间X到拓扑空间Y的连续映射f称为泛同伦等价,若存在从拓扑空间Y到拓扑空间X的连续映射g,使得合成映射gоf和fоg分别是从X和Y到自身的、泛同伦于对应空间的恒等映射IX和IY的映射,分别记作gоf□IX,fоg□IY;映射g也是泛同伦等价,且称为等价f的逆等价。
定义26:设给定两个拓扑空间,若至少存在一个空间到另一个空间的一个泛同伦等价的映射,则称这两个空间为同一泛同伦型的空间。
定理8(结构对应定理):对于论域X,在相应的知识子库与数据子库中,关于知识结点的拓扑空间<E,Ж>与关于数据子类(结构)的拓扑空间<F,Ч>是同一泛同伦型的空间。
(IV)实现
以上讨论中,我们将知识结点归结为知识素结点,相应的数据子类结构也是与知识素结点对应的数据子类加以讨论,由归约原理得到了通常意义下的数据子库与规则子库的空间结构为同一泛同伦型的空间。但我们知道,现实中的知识结点构造可能是多样的,相应的数据子类形式也可能是复杂的。如何建立这样形式下的关系呢?从现实实现的角度即是如何真正实现现实中的知识结点与数据子类间的对应关系呢?这也可以通过我们论证的结构对应定理及相关的泛同伦结论得到。
首先我们在知识库中建立知识素结点与知识合结点之间的关系。由前述讨论可知:由知识素结点上升为知识合结点的手段无非是通过析取或合取两种方式:(1)若以析取的形式相结合。我们可以定义一个映射,自变量为一系列知识素结点,因变量为某知识合结点,显见该映射是一个连续的映射。我们很容易将其定义为在知识子库中的一个泛同伦结构。根据上述的结构对应定理,我们知道数据子类库与知识子库具有泛同伦对应。因此,在数据子类库中相应定义的数据子类的关系运算交的泛同伦结构与知识子库中定义的这种结构是同构的。(2)若以合取的方式相结合。我们可以得出合取条件下的同构关系。有了这种同构关系,我们知道由知识素结点上升为知识合结点的映射和由相应的数据子类上升为与知识素结点对应的数据子类结构的过程构成的映射,它们的泛同伦结构是同构的。对一个库所做的处理可以直接对应到另一个库的相应处理。
算法描述:
step1:根据知识库中的所有知识素结点到数据库中找到其对应的数据子类结构,形成素结点的数据子类表;
step2:对这样的数据子类表进行处理,使得表中仅包含属性的域的定义;
step3:根据需要验证的知识合结点对这样的数据子类表进行交、并运算,得出结果表;
step4:由上述理论保证,这样得出的数据子类表与知识合结点形成一一对应关系,读出本表对各种属性的域的定义,进行匹配运算,相符者通过验证,反之删去。
3.3KDK与KDD的内在联系
KDK与KDD是两个不同的知识发现过程,它们在实现中将采用不同的理论依据和技术实现方法。这就为我们提出了几个问题,如:通过KDK寻找到的新知识为什么可以带入KDD过程中寻求验证,其理论依据是什么?另外,在验证过程中两个过程如何协调,在技术实现上要解决的问题是什么?等。解决这些问题的途径将依赖于我们对两个过程间的协同关系的寻找。
(1)KDK的过程模型
见定义7。
(2)KDD的过程模型
定义27:设数据子类X和数据子类Y在数据库中对应的采样元组集分别为R(X)和R(Y)。若这两个元组集间存在关系 R ( X ) &SubsetEqual; R ( Y ) , 则称这两个数据子类间存在可达关系;否则称这两个数据子类间存在不可达关系。
定义28:数据子类的支持度sup定义为此数据子类结构中含有的元组个数与整个数据库中包含的元组个数的比值。很显然,该比值满足以下条件:
①对于数据库中的每一个数据子类,支持度是一个正实数;
②数据库中所有不相交的数据子类的支持度之值的和为1。
定义29:若sup是数据子类的支持度,则数据库中可达关系的可信度rel(挖掘可信度)定义为一个二元函数,即rel(a,b)=sup(a,b)/sup(b)。其中sup(a,b)表示数据子类a和b同时出现的支持度。
定义30:定义KDD过程模型为一个四元组N=<S,F,sup,rel>:
①S为数据子类集;
②F为数据子类集上的可达关系,可理解为数据子类集上的挖掘途径;
③sup为数据子类的支持度;
④rel为F上的挖掘可信度。
其中
Figure C20051008696600181
(
Figure C20051008696600182
:特定数据子类结构的采样元组数;ψ:整个数据库的元组数);rel如定义29所示。
(3)KDK过程模型与KDD过程模型的协同对应关系
定理9(逻辑等价定理):设KDK的过程模型为M=<W,R,M,c>,KDD的过程模型为N=<S,F,sup,rel>。在依数据子类结构构建数据库,依知识结点网络构建知识库的条件下,M与N各要素间建立了一一对应关系;即M与N逻辑等价。其中,W:知识结点集,R:认知通达关系,M:正则测度函数,c:正则确信度函数;S:数据子类集,F:可达关系,sup:数据子类的支持度,rel:F上的挖掘可信度。
证明:
①W与S的一一对应关系(见前节)。
②R与F的一一对应关系
知识库中R是知识结点间的认知通达关系,即知识结点间可由归纳推理相连接的关系。数据库中F是数据子类间的可达关系,即数据库中的挖掘途径。在具体阐明这两种关系之间的对应前,我们先提出以下原理并给予说明。
一致性原理:在可能世界中,知识库中知识的演变进化与数据库中数据的变迁是一致的。
在由数据子类集S构造的数据库中,设α,β∈S,且αFβ。即α,β对应的数据库元素集α*与β*间存在包含关系,不妨设定为 &alpha; * &SubsetEqual; &beta; * . 由①,α*与β*分别对应知识结点αr,αs而αr至αs的推理关系记作αr→αs。显见, &alpha; * &SubsetEqual; &beta; * 对应着αr→αs(即αr至αs的认知通达关系)记作αrs;反之亦然,αrs对应着αFβ。
我们知道,现实世界中的数据库一般都是处在不断的动态变化中,一旦数据库发生变化,相应的数据子类中包含的元组就发生变化,其间的包含关系也就发生变化。根据上述原理,将意味着知识库中知识结点间认知通达关系产生变化和更新,因此知识结点间的认知通达关系的变化依赖于数据库中的数据结点间可达关系的变化;反之亦然。
由上述得出,无论是在相对静态的数据库和知识库中,还是在不断变化的数据库和知识库中,数据子类的可达关系和知识结点的认知通达关系间都存在着一一对应关系。这种对应关系我们可以总结为:由数据子类的可达关系我们可以得出知识库中的某规则,而这条规则的实质是与数据子类相对应的知识结点间的某种认知通达关系;由知识结点间的认知通达关系我们可以认定数据库中有相应的数据子类,而这些数据子类间必定存在着某种可达关系。
③M与sup的一一对应关系
根据定义15,知识结点的正则测度函数m是由知识库中状态描述的正则测度函数算出的。对于状态描述的正则测度函数值,可考虑两种设定方式:一是采取卡尔纳普原来的方法,对任意的状态描述采用无差别原则。这样简单易用,缺点在于无差别原则本身不能体现出状态描述本身的差异性,在逻辑上缺乏严密性。二是可以考虑给不同的状态描述不同权重的方法,由多专家共同给出,或通过数据库扫描给出概率值作为正则测度函数。这样算出的正则测度函数具有一定的客观性,体现出了不同状态描述间的差异,避免了卡尔纳普逻辑的困难,但在实用上有一定的时空复杂性。
根据定义4,一个知识库中某给定个体域的所有状态描述的正则测度函数值的总和为1。一个知识结点的正则测度函数值是其中包含的所有状态描述的正则测度函数值的和。假设我们把整个数据库看作一个数据子类,那么这个数据子类在相应的知识库中所对应的知识结点中将包含所有的状态描述,则这个知识结点的正则测度函数值应该为1。而在现实情况下,我们拥有的数据库一般都不是完全数据库,而且我们要挖掘的数据子类一般也不是整个数据库,因此知识结点的正则测度函数值一般在0到1之间。这一点与数据库中的支持度相同。因此,正则测度函数与支持度的定义域和值域是一致的。
再根据M与sup的定义,确定的数据子类结构的采样元组数
Figure C20051008696600191
与本数据子类结构是一一对应的,而由结构对应定理得知数据子类结构与知识库中的某一特定的知识结点是一一对应的,因此,
Figure C20051008696600192
与知识库中特定的知识结点是一一对应的,也就与特定状态描述的正则测度函数ξ是一一对应的。另一方面,整个数据库的元组数ψ与知识库中的全部状态描述的个数是一一对应的,即与全部状态描述的正则测度函数η是一一对应的。由于M和sup的计算公式中的分子和分母都具有一一对应的关系,因此,M和sup是一一对应的。
④c与rel的一一对应关系
正则确证函数c与挖掘可信度rel分别由定义4.32与定义4.31给出,用类似于③的证明,可得c与rel是一一对应的。
综上①-④M与N逻辑等价得证。
通过以上论证,我们有以下结论:
1).KDK与KDD本质上是一致的。在理想世界中,通过数据库的知识发现与通过知识库的知识发现所得的结论是一致的。因此,将KDK所得结果带入KDD中进行验证是合乎自然规律和人类认识过程的。
2).现实世界中,由于认识和搜集数据能力的限制,数据库与知识库往往具有不一致性。因此,将KDK与KDD过程相结合有助于形成一个更加完备的知识发现系统。
3).由于KDK与KDD本质上的一致性,使得两个过程是完全协同的过程。因此,在实现中不会出现冲突和矛盾等现象,即两个过程基本可以实现直接叠加。
4).之所以只对两个过程进行定性的协同分析而不作定量映射分析,也正是因为现实世界中数据库与知识库通常所具有的不一致性。
3.4双基融合机制的实现
双基融合机制的核心是基于知识库的知识发现与基于数据库的知识发现的有机结合。这一结合的理论基础是要寻找知识库与数据库的相互对应关系,其技术实现之三是通过三个协调器来具体完成。
R型协调器:在KDK过程中主要是通过综合归纳来发现新知识。知识库的组成包括两大部分:事实和规则;KDK试图从现有的这些知识中推理出可被人理解的,具有一定的可信程度的新知识,这种新知识的发现过程是非平凡的,现有的一些评估方法很难评价通过归纳产生的新知识。我们假设目标规则的形式如下:P(x,y)∧R(y,z)→Q(x,y),已知p,q,求r。通过KDK的归纳,寻找出了所有有可能的R值,本协调器所做的工作是检验假设中所有谓词变量的定义域的相符情况,即由归纳得出的R中的y是否与已有的P中的y定义相符,而R中的z是否与Q中的z定义相符。在数据库中定义了所有字段的域范围,将P、Q、R的自变量和因变量值分别带入检验,只有相符的才形成假设。
S型协调器:KDK发现的规则在进行评价前,我们先将其中不易判明可靠性的规则送入KDD*过程中进行定向挖掘,用KDD*的挖掘结果先行评估,若此条规则在KDD*过程中也可被发现,则认为该规则有效的几率较大;反之,则认为此知识缺乏数据支持。
T型协调器:在规则已被KDD*过程确认后,我们将产生一个定向搜索进程,搜索知识库中对应位置是否有此生成规则的重复、冗余和矛盾。这样可以实时地处理重复、冗余和矛盾的知识,做到只对那些最有可能成为新知识的假设进行评价,从而最大限度的减少评价量。
根据前述KDK过程模型与KDD过程模型的逻辑等价定理,由R型协调器、S型协调器和T型协调器可以实现定向搜索和挖掘,具有良好的灵活性和时空复杂度。
4、KDK*的结构模型和过程模型
总的来说,
Figure C20051008696600201
基于双基融合机制的知识发现系统KDK*的总体结构模型和过程模型分别如图3、图4所示。
1、用于进行知识发现的知识库来源于合成知识库,合成知识库包括两方面的知识:一是基础知识库,即专家的领域知识,二是从KDD*过程中发掘出来的知识。两部分知识通过冗容性处理后形成了合成知识库。
2、对于合成知识库实施如前节中所述的KDK算法,对于KDK算法,我们将做的改进是研究KDK的内在机理,在此基础上判断是否可加入适当的评估参量;算法完成后,形成了初步假设。
3、在初步假设形成和规则形成之间,我们加入了一个R型协调器,此协调器的功能是验证假设在数据库中的合理性,具体说明见下文;然后,我们加入了S型协调器,此协调器的功能是验证假设在现实中的合理性,下文也有详细说明;规则入库前,还需经过T型协调器,此协调器主要验证新知识与已有知识的相容性等,类似于KDD*中的维护型协调器。经过这三个协调器的作用后,我们进行规则评估。评估过程主要是人机对话,领域专家直接参与,评价该条规则是否具有实际价值。
可以看出:融入了双基融合机制的KDK*的主要优越性体现在对于假设规则的自主性评价过程中。在以往的算法中,对于假设规则的评价过程很难进行,评估函数的采用一般是使用固定的很少变化的函数;这样评估之后还需要领域专家的大量参与,以人为的方式来评定规则的可用性。而双基融合机制的使用大大减少了人的参与量,在专家的评估前假设规则已经过了数据库的评估和KDD*过程的评估,将部分意义不充分的规则删除。
KDK*的结构突破了KDK的原有封闭式结构,将数据库与知识库、KDD与KDK有机地融合起来,极大的减少了人工的参与,提高了系统的认知自主性。
1.知识库的构建
(1)知识库构建的原则:以属性为基础,其特点是便于形成知识结点与数据子类的对应关系,从而为定向数据挖掘奠定基础。
(2)逻辑结构:在相应的论域内,以属性为基础将规则库类化为若干规则子库,每一规则子库与挖掘数据库相对应。
知识库分为规则库和事实库,在以属性为原则的建库基础上,可将这两个库存储在同一张表格中。在相应的论域内,以属性为基础将规则库类化为若干规则子库。每一规则子库表征了一类属性。规则子库只是一个逻辑上的概念,即在实现中我们不以数据库显式地存储各个规则子库,而是利用SQL语句编制与各个规则子库相对应的“存储过程”(即stored procedure),当需要某规则子库中的规则时,相应的“存储过程”可以生成一个临时表,此表就是所需的规则子库。规则子库与数据子类的对应关系在上文中已有详细说明,这样构造出规则子库后,对应关系在实现上就有了具体方法。
举例说明:如,规则子库结构如下表4:
表4规则子库结构表
  子库ID   N<sub>A</sub>   AP1   APn   N<sub>B</sub>   BP1   BPm
  1   10   2   0   5   2008   0
  2   15   198   0   8   108   0
  …   …   …   …   …   …   …
对于规则子库1:
NA=10表明:此子库中的规则的前提部分最多含有10个条件;对于具体一条规则既可以有多个条件,也可以只有一个条件;
AP1=2表明:前提的第一个条件的语言变量ID为2,对应的外部名称为:压力;
APn=0表明:不含第n个条件,对子库1:AP11、AP12、…、APn均为0;
B=5表明:此类规则中结论部分最多含有5个断言;
BP1=2008表明:结论部分的第一个断言的语言变量为:转速变化;
BPm=0表明:结论部分不含第m个断言,对子库1:BP6、BP7、…、BPm均为0;
即规则子库1中为:压力等语言变量的不同状(变)态蕴涵转速变化等语言变量的不同状(变)态的规则总和。
以上建库方式是针对普遍情况而言的。由”结构对应定理”将数据库与规则库的对应明确体现到了数据子类结构的层与知识素结点的对应中,因此,规则子库可以体现为知识素结点。
而最终的规则库结构如下表5:
表5规则库结构表
  规则ID   子库ID   w<sub>1</sub>   AV1   w<sub>n</sub>   AVn   BV1   BVm   CF
  1   1   0.6   1   0   0   4   0   0.9
  2   1   0.3   3   0.5   6   1   0   0.7
  3   1   0   0   0.4   2   2   4   1
  4   2   0.1   10   0   0   12   1   0.6
  5   4   0.1   1   0.6   3   5   0   0.5
  …   …   …   …   …   …   …   …   …
以规则1为例说明:其属于规则子库1,即由压力等的不同状(变)态,蕴涵转速变化等的不同状(变)态的规则集合。
条件1对应的语言变量ID(AP1)为2,代表“压力”;
语言值ID(AV1)为1,不妨假设其代表的语言值可形象地描述为“较高”;
断言1对应的语言变量ID(BP1)为4,代表“转速变化”;
语言值ID(BV1)为4,不妨假设其表达的语言值可形象地描述为“非常明显”;
则规则可形象地描述为:
IF压力较高(权:0.6)AND…THEN转速变化非常明显AND…可信度0.9
(3)物理结构:
①总知识库的结构。总知识库存储各个知识子库的信息,包括:知识子库ID、知识子库名称、知识子库语言变量个数、规则数量、对应的数据字典、对应的挖掘数据库名称等。
②知识子库的结构。
方案一:是从知识库所管理对象及要实现的功能分析,最直观的想法是建立一个反映知识结点间关系的二维数组。它的第一维是组成规则的全部知识始结点;第二维是组成规则的全部知识终结点;二维数组的每一个元素包含相应规则的信息,如关联规则可以包括支持度(SUP)、可信度(CF)、充分性因子(LS)等。
这样的物理结构使得规则对应于一个固定的数组位置,每当挖掘出或增加一个新的知识时,就可确定其在数组中的位置,从而对相应位置规则的参数进行修正。显然,如果建立这样一个知识库,完成知识库的一致性校验及两个协调器的知识支持是十分方便的。
但这样的物理结构也存在一定的问题:首先,这将是一个庞大的数组,是全体属性程度词(语言变量值)的组合问题,有可能造成组合爆炸。其次,由于其中的很多规则暂时是不能通过基础知识或由挖掘产生的知识分解产生的,因此在某种程度上可以将此矩阵看成一个极稀疏矩阵,以数组的形式存储将浪费极大的空间。再次,把一些参数如支持度、可信度、充分型因子等放在数据表的一个字段中,就很难操作(包括对其中一项的查询,统计等),失去了关系数据库的一些优点,因此从以上几方面考虑,此方案不十分可行。
方案二:我们考虑到相应于规则子库的挖掘数据库的属性是相对稳定的,那么可以用这些属性也作为规则子库的属性,具体结构如下表3所示:
表6规则子库结构
  汉字字段名   字段名   类型   长度   约束
  规则ID   ID   Int   Key
  条件个数   CondNum   Int
  结果个数   ResuNum   Int
  所有前件语言变量名   C<语言变量名>   Char   20   参照对应语言值表的值
  所有后件语言变量名   R<语言变量名>   Char   20   参照对应语言值表的值
  可信度   Confidence   Float
  支持度   Support   Float
  充分性因子   LS   Float
  最后修改时间   UpdateTime   DateTime
在此给出的是简约规则表的初始表,因此没有规则前、后件的记录位置,因为规则表的属性是动态确定的,这也是本系统的特色之处。每增加一个语言变量,就自动增加一个前件属性,字段名为(C+语言变量名)和一个后件属性,字段名为(R+语言变量ID),由于这两个字段主要存储每个简约规则的对应语言变量的语言值ID,所以应与语言值ID的类型相同。每删除一个语言变量,就首先自动删除所有相关规则,然后删除该语言变量所对应的字段。
2.三个协调算法
R型协调算法
我们知道数据子类结构的层与知识素结点间有一一对应关系。在具体实现R型协调器时,首先应在知识库的结构上明确体现这种协调对应关系,然后在这样结构的知识库上实现R型协调器。
依据前述方式构建知识库和知识子库,就为R型协调器的具体实现创造了条件。这样,实现R型协调器时先依据数据子库划分整个数据库,在预处理时就可以形成与知识素结点集对应的数据子库,这样形成的数据子库存储容量不大;而且在以后的搜索中可以避免整个数据库的全局搜索,直接定向到对应的数据子库中去,大大缩减搜索空间。在实现中我们选取了现有的KDK算法做一个简单模拟,因为此算法涉及到的知识结点结构都较简单,因此具体步骤如下:
step1:根据知识库中的所有知识素结点到数据库中找到其对应的数据子类结构,形成素结点的数据子类表;
step2:对这样的数据子类表进行处理,使得表中仅包含属性的域的定义;
step3:根据需要验证的知识合结点对这样的数据子类表进行交、并运算,得出结果表;
step4:由上述理论保证,这样得出的数据子类表与知识合结点形成一一对应关系,读出本表中对各属性的域的定义,进行匹配运算,相符者通过验证,反之删去。
以下给出针对已有KDK算法的R型协调器算法流程:(设数据子类表已存在)
step1:
 KDK产生三元组为{<Xi,Yi,Zi>}={<{xj1,….xjk},∩1≤t≤kP(xjt),∩1≤t≤kQ(xjt)>}
If( Y i &SubsetEqual; Z i )or(|Xi|>7),then open对应数据库
Locate(Y),Locate(Z)       //此处Y,Z表示知识素结点,Locate表示一
                      种定向的数据子库和知识子库的对应,所以知识库
                      中的素结点与数据子类结构中的域名有对应关系,
                      定向到数据库中的某数据子类结构。
//以下是对数据库内部的操作
if defindtype(Yi)=defindtype(Zi)
   then if upon(Yi)[upon(Zi)and under(Yi)μunder(Zi)
       then pass this rule,step 2:
else cancel this rule.
step1’:if ( &cap; 1 &le; t &le; k Q ( x jt ) &Not; null ) or(不属于上述任何一种情况)
    then if寻找到连接谓词R
        then open相应数据库
           locate(三个谓词中的每一个参量名)   //因为连接谓词R是通过
                                       归纳得出,其参数与P、Q中的参
                                       数名可能有不同。重点要定位三个
                                       谓词中的y、z参数。
           //以下是对数据库内的操作
        if(defindtype(Yi)=defindtype(P(x)))and(defindtype
          (Zi)=defindtype(Q(x)))
          then if upon(Yi)[upon(Zi)and under(Yi)μunder(Zi)
                then pass this rule,step 2;
                  else cancel this rule.
step 2(常识性约束):open常识性数据库
                  locate(X),locate(Y),locate(Z),
                  if程序出口为step 1
                    then if fieldbind(Y)=fieldbind(Z)
                       then pass this rule
                       else cancel this rule
                  else if程序出口为step 1’
                  then if各参数的域约束条件相当
                       then pass this rule
                       else cancel this rule
因为本算法涉及到的知识结点结构都比较简单,基本都属于知识素结点,因此在上述算法中,我们没有强调素结点合成合结点后再进行域匹配。对于知识结点构成比较复杂的情况,就必须使用对应算法;建立了这种对应之后,对于库不用进行全局搜索,因此时空复杂性将大大降低。
S型协调算法
在前面的论述中,我们已经建立了KDK与KDD过程的协同对应关系。在解决R型协调器的问题时,我们构造了知识库与数据库的对应关系,这一对应关系表现为KDD与KDK两个过程间的第一要素的对应,这为KDD与KDK的协调奠定了实现基础。因为我们知道,数据库和知识库分别是KDD和KDK的基础,建立了这两者的对应关系可以直接的体现在程序的入口设计中。而在本部分的协同模型中,最关键的是建立了KDD和KDK的第二要素的对应。通过第二要素对应的建立,我们知道KDD和KDK反映的是本质上相同的一个过程,前者试图通过量的处理表现客观规律,而后者试图通过质的处理表现客观规律。因此,这就为我们将KDK的结论送入KDD中验证提供了理论依据。另外,通过本部分的建模过程,我们建立了KDK的一般过程模型,更有利于我们将KDK进行普遍化和通用化。下面我们描述一下此过程的实施过程:
(1).由KDK过程发现的新规则已通过R型协调器的验证,规则形式为:始知识结点→终知识结点。将始知识结点与终知识结点分别化为析取范式的结构;
(2).将此析取范式继续转化,将析取范式中的每一个合取式转化为知识库中的基本单元,即状态描述的形式;
(3).算出始结点与终结点的正则测度函数值;
(4).算出本条规则的正则确证度函数值;
(5).若本规则的正则确证度函数值低于给定阈值,则抛弃本条新知识,给出提示;
(6).若本条知识的正则确证度函数高于给定阈值,定向搜索数据库,计算数据库中对本规则的支持度和可信度。若支持度和可信度低于给定阈值,抛弃本条规则,给出提示;
(7).规则通过验证,送入评价函数中进行评价。
由以上步骤我们看出,整个过程的核心所在是知识相对于数据库的定向,这实际上也是KDD过程的一种自主性聚焦方式。定向挖掘的理论基础在上文中已有论述,而具体的技术实现类似于R型协调器的定向方式,在此不再赘述。我们已经知道,本系统知识库的建库是基于属性的建库。在状态描述的正则测度函数的设定上,为简便起见,我们选择了卡尔纳普的无差别原则进行一个近似;待以后理论与技术进一步成熟后,将选用给定权重的方式。阈值的给定由专家给出,系统为专家提供界面可以在系统的不断动态运行中进行阈值调整。
算法描述:
step1:分离始知识结点和终知识结点,并分别将其转化为析取范式。
    Read rule 1 to a,if anull do    //a为以空格分开的字符串
    Push a into temp inn1
    If a=τ,then read the next character string and push into tempinn2
    Repeat
    对于inn1,调用析取范式转化算法
    对于inn2,调用析取范式转化算法
    将结果析取范式分别覆盖原有inn1和inn2
step 2:read inn1 to b,while b
Figure C20051008696600271
null do     //b为以空格分开的字符串
     push b into inn3
     begin
       if b=-,then do
         begin
            若知识库中共有m个属性,而inn3中涉及n个属性
            则:将少的m-n个属性的所有属性值以析取的形式写入
          end
         调用析取范式生成算法生成新的析取范式
         将新的析取范式覆盖原有的inn1
       end
       对于inn2,重复上述步骤。
Step 3:计算始知识结点和终知识结点的正则测度函数
     Read inn1 to c,I=0,while cnull do    //c为以空格分开的字符串
    Begin
      If c=-,then I++
    End
    对于inn2,重复上述步骤。
Step4:计算正则确证度函数
     令inn3=始知识结点.终知识结点
     调用析取范式生成算法,将新生成的析取范式覆盖原有的inn3
     计算inn3的正则测度函数
     令j=正则测度函数(inn3)/正则测度函数(inn4)
     j为所求值
step5:if j<给定阈值
    then cancel this rule(实际意义为此条规则在知识库中可信度太小)
step6:if j>给定阈值
    then送入KDD*过程,聚焦到给定的始结点和终结点的相应属性。
    将KDD*过程算出的支持度赋予m,可信度赋予n
    if m<给定阈值
      then cancel this rule
    else if n<给定阈值
        then cancel this rule
    else pass this rule
step7:送入评价函数进行评价
T型协调算法
在规则已被KDD*过程确认后,我们将产生一个定向搜索进程,搜索知识库中对应位置是否有此生成规则的重复、冗余和矛盾。这样可以实时地将重复、矛盾知识淘汰掉,做到只对那些最有可能成为新知识的假设进行评价,从而最大限度的减少评价量。该协调器称之为T型协调器(维护型协调器)。其主要功能是,当从真实数据库的大量数据中经聚焦而生成感兴趣的与具有一定可信度的规则(知识)后,使KDD进程产生“中断”,而去搜索知识库中对应位置有无此生成规则的重复、矛盾。若有重复,则取消该生成规则而返回KDD的“始端”;若无,则继续KDD进程。对于矛盾的处理,采用约束规则的条件与根据其可信度或关联强度来裁决等方法。
维护型协调器是通过维护协调算法来实现的,其算法流程如图5所示。
由于维护型协调器对KDD过程的介入,可以在对于重复性、一致性、冗余性、从属性、循环性等给予准确定义的基础上,利用超图等理论工具,实时地、尽早地将重复、矛盾、冗余的知识淘汰掉,从而做到只对那些有可能成为新知识的假设进行评价,最大限度地减少了评价工作量。在实际的实现专家系统中,最终成为新知识的假设占原假设的比例是很小的(发现新知识是困难的),大量假设会是重复和冗余的,因此维护型协调器的引入将提高KDD的效率。
本发明最佳的实施方式已阐明,本领域的普通技术人员在不脱离其精神的基础上所作出的各种改变皆应包含于本发明的保护范围之中。

Claims (4)

1、一种基于双基融合机制的KDK*系统,包括中央处理器、存储器组成的数字计算机,所述数字计算机的存储器存储有基础数据库和合成知识库,其特征在于:所述的合成知识库在相应的论域内,以属性为基础将规则库类化为若干规则子库,每一规则子库表征了一类属性;所述的数字计算机执行下述步骤:
a、知识库建构:以属性为基础,形成由规则库和事实库组成的合成知识库,并建立合成知识库的规则子库与所述基础数据库的数据子类间的对应关系;
b、合成知识库中知识发现过程:根据一般知识库中知识发现算法发现新的初始假设规则;
c、假设的数据库验证:R型协调器验证被发现的新的初始假设规则在数据库中的合理性,
所述R型协调器包括以下步骤:
根据合成知识库中的所有知识素结点到数据库中找到其对应的数据子类结构,形成知识素结点的数据子类表;对上述的数据子类表进行处理,使得表中仅包含属性的域的定义;根据需要验证的知识合结点对上述的数据子类表进行交、并运算,得出结果表;读出结果表中对各属性的域的定义,进行匹配运算,相符者通过验证,反之删去;
d、假设的数据库中知识发现过程验证:S型协调器将通过步骤c验证的假设规则送入KDD*过程中进行定向挖掘,用KDD*的挖掘结果先行评估,若该规则在KDD*过程中也可被发现,则认为该规则有效的几率较大;反之,则认为该规则缺乏数据支持;
所述S型协调器包括以下步骤:
由KDK过程发现的新规则已通过R型协调器的验证,所述规则形式为:始知识结点→终知识结点;将始知识结点与终知识结点分别化为析取范式的结构;将此析取范式继续转化,将析取范式中的每一个合取式转化为合成知识库中的基本单元,即状态描述的形式;算出始知识结点与终知识结点的正则测度函数值;算出所述规则的正则确证度函数值;若所述规则的正则确证度函数值低于给定阈值,则抛弃所述规则,给出提示;若所述规则的正则确证度函数值高于给定阈值,定向搜索数据库,计算数据库中对所述规则的支持度和可信度;若支持度和可信度低于给定阈值,抛弃所述规则,给出提示;所述规则通过验证,送入评价函数中进行评价;
e、假设的知识库验证:T型协调器对已被KDD*过程确认的假设规则,产生一个定向搜索进程,搜索合成知识库中对应位置是否有该规则的重复、冗余和矛盾;若有重复,则取消该规则而返回KDD的“始端”;若无,则继续KDD进程;对于矛盾的处理,采用约束规则的条件与根据其可信度或关联强度来裁决的方法;
所述的T型协调器包括以下步骤:
对于通过了S型协调器评价的假设,检验是否可信度大于阈值:若结果为假,退出;检验假设是否重复:若结果为真,退出;检验假设是否冗余:若结果为真,退出;检验假设是否矛盾:若结果为真,退出;存储假设入合成知识库中;
f、规则产生:根据通过T型协调器评估结果,产生假设规则;
g、专家评价与存储:对步骤f产生的规则进行专家评价,通过的规则存入扩展知识库。
2、根据权利要求1所述的KDK*系统,其特征在于:所述的存储器为2~10台大容量存储器组成的超大容量存储系统。
3、根据权利要求1所述的KDK*系统,其特征在于:所述的数字计算机为2~10台计算机组成的数字计算机系统。
4、根据权利要求1所述的KDK*系统,其特征在于:所述的专家评价是利用可视化工具提供的各类图形和分析资料通过人机交互界面由专家评价。
CNB2005100869662A 2005-11-23 2005-11-23 一种基于双基融合机制的kdk*系统 Expired - Fee Related CN100561512C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2005100869662A CN100561512C (zh) 2005-11-23 2005-11-23 一种基于双基融合机制的kdk*系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2005100869662A CN100561512C (zh) 2005-11-23 2005-11-23 一种基于双基融合机制的kdk*系统

Publications (2)

Publication Number Publication Date
CN1760897A CN1760897A (zh) 2006-04-19
CN100561512C true CN100561512C (zh) 2009-11-18

Family

ID=36706960

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100869662A Expired - Fee Related CN100561512C (zh) 2005-11-23 2005-11-23 一种基于双基融合机制的kdk*系统

Country Status (1)

Country Link
CN (1) CN100561512C (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101093559B (zh) * 2007-06-12 2010-06-23 北京科技大学 一种基于知识发现的专家系统构造方法
CN110874376A (zh) * 2019-11-20 2020-03-10 北京明略软件系统有限公司 一种基于双库联动的知识挖掘方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
基于知识库的知识发现(KDK)的结构模型与挖掘算法研究. 杨炳儒,申江涛,陈泓婕.中国工程科学,第5卷第6期. 2003
基于知识库的知识发现(KDK)的结构模型与挖掘算法研究. 杨炳儒,申江涛,陈泓婕.中国工程科学,第5卷第6期. 2003 *
知识发现系统内在机理. 杨炳儒,周颖.北京科技大学学报,第24卷第2期. 2002
知识发现系统内在机理. 杨炳儒,周颖.北京科技大学学报,第24卷第2期. 2002 *

Also Published As

Publication number Publication date
CN1760897A (zh) 2006-04-19

Similar Documents

Publication Publication Date Title
CN101093559B (zh) 一种基于知识发现的专家系统构造方法
Tang et al. Framework for artificial intelligence analysis in large-scale power grids based on digital simulation
US20230196076A1 (en) Method for optimally selecting flood-control operation scheme based on temporal convolutional network
JP2021099765A (ja) Aiによるデータガバナンスの最適化方法
CN105893483A (zh) 大数据挖掘过程模型总体框架的构造方法
Li et al. Improved Bayesian network-based risk model and its application in disaster risk assessment
CN110851566A (zh) 一种改进的可微分网络结构搜索的方法
Xu et al. Short-term traffic flow prediction model of wavelet neural network based on mind evolutionary algorithm
Ye et al. An environmental pollution management method based on extended belief rule base and data envelopment analysis under interval uncertainty
CN100561512C (zh) 一种基于双基融合机制的kdk*系统
Cai et al. Extenics and innovation methods
CN100561510C (zh) 一种融入r型与s型协调器的kdk系统
CN100561511C (zh) 一种融入r型协调器的kdk系统
Geng et al. An improved algorithm of nearness degree of incidence based on grey neural network
CN117194918A (zh) 基于自注意力回声状态网络的气温预测方法及系统
CN117010373A (zh) 一种电力设备资产管理数据所属类别和组的推荐方法
CN116561264A (zh) 一种基于知识图谱的智能问答系统的构建方法
Xu Deep mining method for high-dimensional big data based on association rule
Lu et al. Assessment of urban water supply system based on query optimization strategy
Eisenstadt et al. Autocompletion of Floor Plans for the Early Design Phase in Architecture: Foundations, Existing Methods, and Research Outlook
Hang et al. Research on scientific data mining algorithms based on WOA-BP neural networks
Ballout et al. Predicting the score of atomic candidate owl class axioms
Jia et al. Research on big data fusion method of smart grid in the environment of Internet of Things
CN117934209B (zh) 一种基于知识图谱的区域电力系统碳排放大数据分析方法
Jing et al. New knowledge network evaluation method for design rationale management

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C53 Correction of patent for invention or patent application
CB03 Change of inventor or designer information

Inventor after: Yang Bingru

Inventor after: Xie Yonghong

Inventor after: Song Wei

Inventor after: Zhang Dezheng

Inventor after: AZIGULI.WULAMU

Inventor before: Yang Bingru

COR Change of bibliographic data

Free format text: CORRECT: INVENTOR; FROM: YANG BINGRU TO: YANG BINGRU XIE YONGHONG SONG WEI ZHANG DEZHENG WULAMU AZIGULI

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20091118

Termination date: 20141123

EXPY Termination of patent right or utility model