一种Web挖掘系统的构造方法
技术领域
本发明涉及Web挖掘技术,特别涉及基于内在机理的知识发现理论(KDTIM)与特征子空间模型(DFSSM)的Web挖掘系统,具体的讲是一种Web挖掘系统的构造方法。
背景技术
Web挖掘是一项综合技术,涉及数据库管理、数据挖掘、计算机语言学、信息学等多个领域。不同的研究者从自身的领域出发,对Web挖掘的含义有着不同的理解,项目开发也各有其侧重点。例如,有些计算机语言学家认为,Web文档为自然语言理解提供了丰富的语料,可以从中自动地学习词语的意义,以进行词义辨析或确定词语所属的概念。从更为一般的角度出发,对Web挖掘作如下的定义:
Web挖掘是指从大量Web文档的集合C中发现隐含的模式P。如果将C看作输入,将P看作输出的话,那么Web挖掘的过程就是从输入到输出的一个映射ξ:C→P。
Web挖掘从数据挖掘的角度发展而来,因此其定义与我们熟知的数据挖掘定义相类似。但是,Web挖掘与传统的数据挖掘相比有很多独特之处。首先,Web挖掘的对象是大量、异质、分布的Web文档。其次,Web在逻辑上是一个由文档节点和超链接构成的图,因此Web挖掘所得到的模式可能是关于Web内容的,也可能是关于Web结构的。此外,由于Web文档本身是半结构化或无结构的,且缺乏机器可理解的语义,而数据挖掘的对象局限于数据库中的结构化数据,并利用关系表格等存储结构来发现知识,因此有些数据挖掘技术并不适用于Web挖掘,即使可用也需要建立在对Web文档进行预处理的基础上。这样,开发新的Web挖掘技术,以及对Web文档进行预处理以得到关于文档的特征表示,便成为Web挖掘研究的重点。
从上述Web挖掘的定义看出Web挖掘的处理过程与KDD近似,是一个多步骤的处理过程,主要包括了以下一些处理步骤,如图1所示:
1)数据选择:根据用户的要求从Web文本、日志及Web结构数据源中提取与Web挖掘相关的数据,Web挖掘将主要从这些数据中进行知识提取,在此过程中,会利用一些数据库操作对数据进行处理,形成文本、日志及结构数据库。
2)数据预处理:主要是对步骤1产生的数据进行再加工,检查数据的完整性及数据的一致性,对其中的噪音数据进行处理,对丢失的数据可以利用统计方法进行填补,形成挖掘数据库。
3)确定Web挖掘的目标:根据用户的要求,确定Web挖掘是发现何种类型的知识,因为对Web挖掘的不同要求会在具体的知识发现过程中采用不同的知识发现算法。
4)确定知识发现算法:根据步骤3所确定的任务,选择合适的知识发现算法,这包括选取合适的模型和参数,并使得知识发现算法与整个Web挖掘系统的评判标准相一致。
5)聚焦:即从挖掘数据库里进行Web数据源的选择。指导数据聚焦的方式是通过人机交互由专家输入感兴趣的知识,来指导Web数据的挖掘方向。
6)产生假设规则:运用选定的Web挖掘知识发现算法,从Web数据源中提取出用户所需要的知识,这些知识可以用一种特定的方式表示或使用一些常用的表示方式,如产生式规则等等。
7)知识评价:这一过程主要用于对所获得的规则进行价值评定以决定所得的规则是否存入基础知识库。主要是通过人机交互界面由专家依靠经验来评价。
从上面的介绍可以看出,Web挖掘是复杂类型知识发现系统中的一个重要步骤,它主要是利用某些特定的知识发现算法,在一定的运算效率的限制内,从Web数据源中发现出有价值的知识。上述Web挖掘系统全过程的几个步骤可以进一步归纳为三大部分,即Web数据挖掘预处理(Web挖掘前的准备工作),Web挖掘过程,Web挖掘后处理(Web挖掘后的处理工作)。
目前,Web挖掘就是对文档的内容、可利用资源的使用以及资源之间的关系进行分析,以发现有效的、新颖的、有潜在价值的、并且最终可理解的模式和规则。
在逻辑上,我们可以把Web看成是位于物理网络之上的一个有向图G=(P,E),其中节点集合P对应于Web上的所有文档,而有向边集E则对应于节点之间的超链,对于节点集作进一步的划分:N={N1,Nn1}。所有的非叶子节点Nn1是HTML文档,其中除了包含文本以外,还包含了标记以指定文档的属性和内部结构,或者嵌入了超链以表示文档间的结构关系。叶子节点N1可以是HTML文档,也可以是其它格式的文档,例如PostScript等文本文件,以及图形,音频和视频等多媒体文件。
Web上信息的多样性决定了Web挖掘任务的多样性。按照处理对象的不同,我们可以将Web挖掘分为三大类:Web内容挖掘(Web Content Mining)、Web访问信息挖掘(Web Usage Mining)和Web结构挖掘(Web StructureMining)。
当前研究主要是针对以上三种Web挖掘技术展开的,即Web内容挖掘(WebContent Mining)、Web访问信息挖掘(Web Usage Mining)和Web结构挖掘(Web Structure Mining)。其分类方式如图2所示:
1)Web Content Mining(Web内容挖掘)就是从Web页面内容或其描述中进行挖掘,进而抽取知识的过程。其中内容的挖掘从挖掘对象上来分又可以分为两类:其一,对于文本文档的挖掘(包括text,HTML等格式)和多媒体文档(包括Image,audio,video等媒体类型)的挖掘。Web文本挖掘系统可以对Web上大量文档集合的内容进行关联分析、总结、分类、聚类,以及利用Web文档进行趋势预测等。Web内容挖掘有两种策略:直接挖掘文档的内容,或在其它工具搜索的基础上进行改进。采用第一种策略的有针对Web的查询语言Web Log,WebOQL等,利用启发式规则来寻找个人主页信息的Ahoy,等等。采用第二种策略的方法主要是对搜索引擎的查询结果进行进一步的处理,得到更为精确和有用的信息。属于该类的有WebSQL,及对搜索引擎的返回结果进行聚类的技术等等。
2)Web Usage Mining(Web访问信息挖掘)就是对用户访问Web时在服务器留下的访问记录进行挖掘,即对用户访问Web站点的存取方式进行挖掘,以发现用户访问站点的浏览模式,页面的访问频率等信息;挖掘的对象是在服务器上的包括Server Log Data等日志。挖掘的方式是:路径分析;关联规则和序列模式的发现;聚类和分类。其挖掘得到的模式可以用来指导站点管理员改进Web站点的设计或提供可以带来经济效益的信息。
3)Web Structure Mining(Web结构挖掘)就是从WWW的组织结构和链接关系中推导知识。由于文档之间的互连,WWW能够提供除文档内容之外的有用信息。利用这些信息,可以对页面进行排序,发现重要的页面。这方面的工作的代表有PageRank和CLEVER。此外,在多层次Web数据仓库(MLDB)中也利用了页面的链接结构。
当前对于Web挖掘主流技术的研究已取得了一定的成果,对算法的研究不局限于以往的一些传统算法,而涉及到了粗糙集、遗传算法等一些相关领域。这不仅为Web挖掘系统的整体体系结构研究提供了基础,而且在客观上也要求为Web挖掘系统提供一个理论上的体系框架,将各种相关领域的研究统一起来。基于此,北京科学大学信息工程学院的杨炳儒教授(发明人)于1997年从知识发现、认知科学与智能系统交叉结合的角度,首次提出并构造了基于内在机理研究的知识发现理论KDTIM(Knowledge Discovery TheoryBased On Inner Mechanism)(原创性理论),从而开辟了知识发现系统内在机理研究的新方向(新分支)。KDTIM所蕴含的三个机制(双库协同机制、双基融合机制及信息扩张机制)、诱导的新结构模型、派生的新技术方法与引发的新型实用智能系统及在知识发现过程中若干规律的新发现与新见解,揭示了知识发现作为认知系统与认知过程的潜在本质、规律与复杂性;并对知识发现主流发展起着重要的驱动作用,对相关学科与技术起着带动性作用(学术价值)。在现有的Web挖掘技术的基础上融入知识发现内在机理研究(KDTIM)之一:双库协同机制,即构建数据库(文本库、日志库与结构信息库)与基础知识库的内在联系“通道”,从而用基础知识库去制约与驱动Web挖掘系统的整个挖掘流程,改变Web挖掘系统固有的运行机制,在结构与功能上形成了相对于Web挖掘系统而言的一个开放的、优化的扩体;从而形成了基础——机理——模型——算法——软件——应用的研究体系。
尽管Web挖掘系统的研究已取得了一些成就,但Web挖掘的发现过程仍有其固有的矛盾和难题,表现在:
1)采掘的对象:更大型的数据库、更高的维数和属性之间更复杂的关系。Web挖掘要处理的数据量通常是十分巨大的。例如容量达到GB(109)或者TB(1012)数量级的海量网页信息,网站日志信息等等。更多的属性意味着高维的搜索空间,从而导致组合爆炸。属性值之间的关系变得更加复杂,比如表现为层次结构。这些因素使得搜索知识代价极高。因此,系统地、定向地搜索成为逻辑的必然。
2)多种形式的输入数据:目前Web挖掘系统将针对文本、图形、数学公式、图象或WWW资源等这些半结构、无结构的数据形式进行挖掘操作。同时对于多媒体数据、空间数据及时序数据的挖掘处理尚在发展完善中。另外的挑战是数据本身存在缺损或噪声,特别是在商业数据库中。
3)用户参与和领域知识:有效的决策过程往往需要多次交互和多次反复。目前的Web挖掘系统或工具很少能真正做到让用户参与到挖掘过程中。用户的背景知识和指导作用可以加快采掘的进程,并且保证发现的知识的有效性。将相关领域的知识融入Web挖掘系统中是一个重要但没有很好解决的问题。因此,用“推拉式”把知识呈现给用户,用来提高知识发现的效率和实用性也成为逻辑的必然。
4)知识的维护和更新:新的数据积累可能导致以前发现的知识失效,这些知识需要动态维护和及时更新。目前研究采用增量更新的方法来维护已有的知识,比如D.W.Cheung等提出了维护关联规则的增量算法。
5)知识的局限、与其他系统的集成:目前的Web挖掘系统尚不能支持多种平台。一些产品是基于PC的,一些是面向大型主机系统的,还有一些是面向客户服务器环境的。有的系统对于数据库中包含的域或记录是有限的,例如要求数据文件为特定的大小,或者转化为特定的数据库管理系统(DBMS)识别的格式。但是,数据重定义的费用可能是十分昂贵的。另外的挑战是Web挖掘系统和其它决策知识系统的有机集成,特别是和一些用户已经熟悉的系统结合在一起,这对于系统充分发挥作用是非常重要的。
Web挖掘的这些局限性,在很大程度上是来源于对复杂类型数据知识发现系统自身体系结构缺乏研究与认识。若将Web挖掘局限于一个封闭的模式中,不可避免的会带来一系列的问题;而若把复杂类型数据知识发现及其相关的一些过程作为一个宏观的整体来考虑,会在一定程度上解决以上问题。
另外,目前绝大部分Web挖掘系统的算法没有将Web挖掘系统作为认知的复杂系统对其内在的规律性加以研究,且都没有考虑知识库,挖掘出来的许多假设规则与知识库中的已有知识是重复的和冗余的,甚至是不相容的,并且仅靠人机交互形成聚焦,而没有体现系统自身的认知自主性,因此对Web挖掘系统定义中要求的新颖性和有效性就无法体现出来。
发明内容
本发明的目的在于,提供一种Web挖掘系统的构造方法,其是基于内在机理的知识发现理论(KDTIM)研究的Web挖掘新系统WebMS*,其可以从根本上解决上述问题。在Web挖掘方面:其使得知识库能够动态的参与数据库的发掘过程,用户的先验知识及知识库中的固有知识可以产生“定向发掘”,以提高认知自主性和避免海量搜索的产生;在知识库的维护方面:其可在数据发掘过程中实时地修改和维护知识库中的内容,包括重复与冗余性检验、矛盾处理等。
本发明的技术方案为:
一种Web挖掘系统的构造方法,采用包含有中央处理器和存储器的数字计算机作为Web挖掘终端,且将所述的数字计算机与网络联接;
所述的存储器存储有真实数据库和基础知识库,以及启发型协调器和维护型协调器;所述的中央处理器对所述的存储器进行控制并执行如下步骤:
步骤1、进行特征抽取及特征变换,即:对Web上采集到的挖掘目标样本进行特征预处理,然后采用特征子空间模型,将特征抽取、特征变换及特征子集的选择整合为一体,用模式来表示Web内容挖掘中间表示形式;
步骤2、执行Web内容挖掘过程,即:对于所述的Web内容挖掘中间表示形式采用向量空间的距离测度分类算法进行分类挖掘处理,并结合聚类和关联挖掘算法得到隐式表达的模式集;
步骤3、模型质量评价,即:对所述的模式集进行评价,将符合标准的知识及模式呈现给用户;其中使用的客观评价指标是指查全率和查准率;
步骤4、信息呈现及信息导航,即:将反馈的结果用可视化的方式进行显示,同时对用户提供信息导航,实现浏览和获取信息;
步骤5、基于双库协同机制的聚焦和定向挖掘,即:采用模式表征挖掘对象,并通过所述的启发型协调器搜索所述的基础知识库中知识结点的不关联态,发现知识短缺、系统自身产生新的聚焦方式,启发与激活所述的真实数据库中相应的数据类,产生定向挖掘进程;
对于所述的向量空间的距离测度分类算法生成的假设规则,采用所述的维护型协调器使Web挖掘进程产生中断,对所述的基础知识库中对应位置进行搜索并判断有无所述的生成的假设规则的重复、冗余与矛盾;若有则取消该生成的假设规则,返回Web挖掘的起点;若无则继续所述的挖掘进程,将评价与结果存入所述的基础知识库。
所述的Web内容挖掘包括:Web文本挖掘、Web访问信息挖掘、Web结构挖掘;
且所述的双库协同机制是指:在所述的真实数据库上按照数据子类结构形式构成挖掘数据库,在所述的基础知识库上按照基于属性建库原则构成挖掘知识库,在所述的挖掘数据库与挖掘知识库之间根据泛同伦理论建立知识结点与数据子类结构层间的一一对应关系;
所述的聚焦包括:根据用户需求确定聚焦,并通过启发协调算法依所述的挖掘知识库中知识短缺而形成的系统自身提供的聚焦方向,形成在所述的挖掘数据库中的定向挖掘;
所述的中断是指:先不对假设规则进行评价,而是通过维护协调算法到所述挖掘知识库中进行定向搜索,以发现产生的假设规则与所述的基础知识库中原有知识是否重复、冗余和矛盾,并作处理。
所述的启发型协调器和维护型协调器的实现,需满足如下条件:
根据各个具体的论域将所述的基础知识库划分为多个相关的知识子库;同时在真实数据库中,也相应地抽取与各个具体论域相关的数据子库;建立所述知识子库中知识结点与所述数据子库中数据子类的层之间的一一对应关系,以缩小搜索空间,使协调具有定向性;
其中,还需满足泛同伦理论的条件和下列的结构对应条件,即:对于论域X,在相应的知识子库与数据子库中,关于知识结点的拓扑空间<E,F>与关于数据子类的拓扑空间<F,D>是同一泛同伦型的空间。
所述的启发型协调器是通过启发协调算法来实现的;所述的启发协调算法包括:通过寻求知识短缺,系统自身产生新的聚焦方式,并使系统产生自动聚焦;所述的启发协调算法的具体步骤为:
搜索自关联强度大于某一阈值的语言变量,形成结点集S1;
对结点集S1中的结点进行组合,形成元组集合;
搜索所述的挖掘知识库,从所述的元组集合中除去已在所述的挖掘知识库中存在的元组;
对剩余元组按关联强度排序,定出定向搜索的优先级;
按优先级顺序逐一扫描各元组,聚焦到所述的挖掘数据库中相应入口定向挖掘;
进入KDD进程。
所述的维护型协调器是通过维护协调算法来实现的;所述的维护协调算法的具体步骤为:
设i=1;
判断所述的挖掘知识库是否结束;
如果所述的挖掘知识库结束,则关闭所述的挖掘知识库;
如果所述的挖掘知识库未结束,则查找第i条规则;
判断不等式Conf>0.5是否成立,如果不成立则i=i+1并返回,如果成立则进一步判断:规则重复否,
如果规则重复,则i=i+1并返回,如果规则不重复,则进一步判断:规则冗余否,
如果规则冗余,则i=i+1并返回,如果规则不冗余,则进一步判断:规则矛盾否,
如果规则矛盾,则i=i+1并返回,如果规则不矛盾,则将第i条规则存入基础知识库,然后i=i+1并返回。
本发明所述的方法还包括:知识表示方式;所述的知识表示方式是指:语言场与语言值结构表示方式、模式表示方式;
所述的语言场与语言值结构表示方式需满足如下条件:
(1)在语言变量相应的基础变量论域中,各个被划分的交叉区间的中点连同ε-邻域内的点,称为标准样本,其取值邻域称为标准值;其余诸点均称为非标准样本,其取值称为非标准值;它们分别构成标准样本空间与非标准样本空间,并统称为一般样本空间;
(2)C=<D,I,N,≤N>,若满足下列条件:
a)D为R上交叉闭区间的集合,R为实数集;
b)N≠Φ为语言值的有限集;
c)≤N为N上的全序关系;
d)I:N→D为标准值映射,满足保序性,则称C为语言场;
(3)对于语言场C=<D,I,N,≤N>,称F=<D,W,K>为C的语言值结构,这里:
a)C为语言场;
b)K为自然数;
c)W:N→Rk满足:
n1,n2∈N(n1≤N n2→W(n1)≤dicW(n2)),
n1,n2∈N(n1≠n2→W(n1)≠W(n2));
其中,≤dic为[0,1]k上的字典序,即(a1,....,ak)≤dic(b1,...,bk)当且仅当存在h,使得当0≤j<h时aj=bj,ah≤bh;
(4)设C1,C2为两个语言场,称C1是C2的扩张,若存在1-1映射f:D1→D2,g:N1→N2,
a)f单调;
b)(n1∈N1)(f(I1(n1))=I2(g(n1)));
其中,Ci=<D1,I1,N1,≤N1>,C2=<D2,I2,N2,≤N2>;
(5)设C=<D,I,N,≤N>的语言值结构为F1=<C1,W1,Kl>,F2=<C2,W2,K2>,若存在1-1映射h:
满足:
a)h在字典序下严格单调;
b)(n∈N)(h(W1(n))=W2(n));
c)
(n,n′∈N)(dis1(W1(n),W1(n′))=εdis2(W2(n),W2(n′)))
其中dis1:
dis2:
则称F1与F2为(dis1,dis2)一同构;
扩张条件:设C1,C2为两个语言场,C1是C2的扩张的充要条件是C1与C2是同型语言场,即|N1|=|N2|;
同构条件:设F为C的语言值结构,则F与F的双倍扩展在加权海明距离(Hamming)下同构;
将模糊(Fuzzy)语言变量与所述的语言场C=<D,I,N,≤N>相结合,得到模糊语言场;
所述的模式表示方式是知识发现过程中的一种知识表征方式,其是具体和抽象的客观对象的量化描述,也是知识发现过程中的基本运算单元;模式参与知识的发现过程并表征所获得的知识。
本发明所述的方法还包括:知识评价方式;
所述的知识评价方式是指:基于自认知逻辑的因果关联规则的自动评价方式,其中包括:
(1a)一致性:在客观世界中,在不确定性推理机制与海量样本统计下,因果关联规则在推理上的表征和在统计上的表征是一致的;
(1b)适用性:认证推理模式可适用于与因果关联规则相关的推理中;即: HE
其中H为被检验的假设,可以视为经挖掘后需要评价的因果关联规则R;E为从H可以推出的一些断言,可以视为经检验得到的检验结果;在评价过程中,所进行的检验是根据不确定因果归纳推理,检验因果数据是否满足一致性原理,即如果数据的状变态等于由数据经推理所得的结果,则表明它满足一致性原理,否则不满足一致性原理;
(2)根据正相关标准:
E认证H,当且仅当Pr(H/E)>Pr(H)
其中,Pr(H)为验前置信度,Pr(H/E)为验后置信度;即:E认证H当且仅当H相对于E的验后置信度大于其验前置信度;
(3)对于评价方法的依据有:
将所发现的因果关联规则记为R(Ai Sj),对规则进行评价就是判定是否接受此规则,因此它属于认证逻辑的范畴;
对因果关联规则R(A
i S
j),A
i与S
j两者同时出现的概率与两者析取出现的概率之比即Pr(A
i∧S
j)/Pr(A
i∨S
j),称为因果关联强度,记作CR;即:相当于Pr(H),可作为验前置信度;
将Pr(E2)/(Pr(E1)+Pr(E2))称为支持强度,记作SUP;即相当于Pr(H/E),可作为验后置信度;
(4)对于因果关联规则R(A
i S
j),若SUP>CR,则此因果关联规则得到认证,若SUP≤CR,则此因果关联规则被否证;
取原因A和结果S的数据,构成一个序偶的集合P={<tw,sw>}(w=1,2....N),tw为原因状态空间中的数据,即:因样本值,sw为与原因数据相对应的结果状态空间中的数据,即:果样本值;N为集合中样本的个数,设SUP1=0;其具体步骤包括:
步骤一、取原因的样本值tw,w=1,2....N;它属于一般样本空间,并可得到因状态输入向量atw;
步骤二、确定因状态输入向量atw所属因状态类型为Ak,k=1,2,3,4,5;即计算atw与各因状态标准向量Ai的测度dH,取最小者为atw归属的因状态类型;随机抽取一样本集,可以看作序偶的集合P={<tw,sw>};
步骤三、以规则Ai Sj作为大前提,以因状态输入向量at所属的因状态标准向量Ak为小前提,可以在基础知识库中通过自组织的方式找到与其相匹配的唯一的知识矩阵Mijk,并得到结果的状态向量Sw1;
步骤四、聚类;计算Sw1所属的果状态标准向量β,通过下式:
求它与各果状态标准向量的测度,取最小者而获得聚类;其中,μSw1 (i)与μSj (i)分别为其各自对应的坐标;
步骤五、对于序偶集P={<tw,sw>},取相应的结果的样本值sw,用模糊聚类的方法可得到它所属区间中的果状态标准向量γ,如果β=γ,则SUP1=SUP1+1,否则SUP1=SUP1;
步骤六、重复上述过程N次,得到SUP;设:SUP=SUP1/N;
取规则的因果关联强度CR与SUP比较;若SUP>CR则规则被接受;SUP≤CR则规则被拒绝。
本发明所述的方法还包括:Web挖掘算法;所述的Web挖掘算法是指:TCDFSSM算法、最大向前路径算法和挖掘频繁遍历路径算法;其中:
所述的TCDFSSM算法为:TCDFSSM文本分类算法是基于距离测度函数的分类算法,其在希尔伯特模型表示空间中,考察两个模式之间的相似程度,并完成分类过程;
所述的最大向前路径算法为:遍历路径就是在用户会话中请求页面所组成的序列;由于用户会话中既包含请求页面又包含路径补充时添加的页面,所以挖掘频繁遍历路径时,首先在每个用户会话中找出所有的最大向前路径,然后确定其中的公共子路径;MFP是在用户会话中的第一页到回退的前一页组成的路径;这样,挖掘频繁遍历路径问题转化为在所有用户会话的MFP中发现频繁出现的连续子序列问题;
所述的挖掘频繁遍历路径算法为:频繁遍历路径是最大向前路径中满足一定支持度的连续页面序列;包含频繁遍历路径的用户会话的数目叫支持度;定义频繁遍历路径的长度为其包含的页面数;频繁遍历路径的评判指标就是支持度,也就是访问此路径的用户回话数目。
本发明所述的方法可嵌入到应用领域的数据库或芯片装置中。
本发明所述的方法可应用于基于信息挖掘的智能决策支持系统IDSSIM,以及基于气象数据的信息挖掘新系统MDIMA;以适合在农业、远程教育、气象、智能决策领域中的应用。
本发明的效果在于:1)除根据用户需求与人为的兴趣去发掘知识外,提出了根据基础知识库中的“知识短缺”自动地启发定向发掘知识的途径,即提高“认知自主性”(这将是今后相当一阶段内保持的研究基调),较有效地克服领域专家的自身局限;2)大大减少了在假设规则发掘后的“评价量”;3)根据前述的“结构对应”的机理,可大大缩小搜索空间,提高发掘效率;4)较有效地解决新旧知识合成后,知识库的冗余性与一致性问题;5)总体上讲,将Web挖掘视为一个开放系统,在Web挖掘进程与基础知识库的广泛联系中,改进与优化了Web挖掘的结构、过程与运行机制。
附图说明
图1为Web挖掘处理过程框图;
图2为Web挖掘的分类框图;
图3为WebMS*系统的总体结构框图;
图4为语言场与语言值结构示意图;
图5为结构对应图;
图6为启发协调算法流程图;
图7为维护协调算法流程图;
图8为基于信息挖掘的智能决策支持系统总体结构图;
具体实施方式
下面结合附图说明本发明的具体实施方式:
一、本发明所述的一种Web挖掘系统的构造方法(即:WebMS*新系统的的构造方法)理论基础及技术实现:
1.本发明WebMS*新系统基于的结构模型------DFSSM
上述目的的实现,必须是在新的理论基础研究成果上,形成基础理论——技术开发——工程应用的整套研究体系。该发明的部分理论成果已发表于国内外核心期刊上的一系列论文中。该系统中所提出的WebMS*新系统的总体结构模型即复杂类型数据挖掘总体结构模型DFSSM(发现特征子空间模型)如图3所示。
2.WebMS*新系统基于的理论内核-------双库协同机制
2.1语言场与语言值结构:
定义1:C=<D,I,N,≤N>,若满足下列条件:
(1)D为R上交叉闭区间的集合,D+为其对应开集;
(2)N≠Φ为语言值的有限集;
(3)≤N为N上的全序关系;
(4)I:N→D为标准值映射,满足保序性,即:n1,n2∈N(n1≠n2∧n1≤N n2→I(n1)≤I(n2)),(≤为偏序关系)
则称C为语言场。
定义2:对于语言场C=<D,I,N,≤N>,称F=<D,W,K>为C的语言值结构,如果:
(1)C满足定义1;
(2)K为自然数;
(3)W:N→Rk满足:
n1,n2∈N(n1≤N n2→W(n1)≤dicW(n2)),
n1,n2∈N(n1≠n2→W(n1)≠W(n2))。
其中,≤dic为[0,1]k上的字典序,即(a1,....,ak)≤dic(b1,....,bk)当且仅当存在h,使得当0≤j<h时aj=bj,ah≤bh。
2.2双库间泛同伦与结构对应关系的建立:
1)关于“知识结点”的讨论:
定义3:在相关于论域X的知识子库中,称按如下形成表达的知识为不确定性规则型知识:
(1)P(X)Q(X)
其中P(X),Pi(x),Q(X),Qj(X)分别为“属性词”(或“状态词”)+程度词”的形式。
定义4:在定义3中,P(X)与Pi(x)称为知识始结点,Q(X)与Qj(X)称为知识终结点,并分别称为知识素结点;
分别称为知识合结点;两者统称为知识结点。
显然,各个知识结点标示的属性即构成语言场,如:温度场,压力场等;而各状态或变态的程度即构成语言值结构,如:温度场中的温度很高、高、中、低、很低等。
定理1:在相关于论域X(含若干语言场)的知识子库中,全体知识结点的集合记作E(有限集),其幂集记作ρ(E);则<E,ρ(E)>构成一个极大化拓扑空间。(证明略)。
2)关于“数据子类(结构)”的讨论:
定义5:对于论域X,在相应于知识子库的数据子库中,与每个知识素结点相应的结构S=<U,N,I,W>称为数据子类结构。其中,U≠Φ,U={u1,u2,...},(ui是数据集,由下述的I形成),它是在特定的语言场与语言值结构下,表征相应于知识素结点“属性词”或“状态词”的数据集的类(称为数据子类);N≠Φ为语言值的有限集,它是刻划相应于知识素结点“程度词”的语言值的集合;
I:N→U,它是按语言值将数据集的类U进行划分的映射。在数据连续分布时,通常划分为若干交叉区间(即:i,j(ui⌒uj≠Φ));
W:N→[0,1]K(k为正整数)满足:
n1,n2∈N(n1≤N n2→W(n1)≤dicW(n2)),
n1,n2∈N(n1≠n2→W(n1)≠W(n2))。
其中≤N为N上全序关系,≤dic为[0,1]K上的字典序,W(n)(n∈N)为语言值的标准向量(即样本取自语言值对应区间中点及其邻域时所对应的向量)。
定义6:在数据子类结构S=<U,N,I,W>中,称满足下列条件的三元组<ui,ni,ri>为S的层:
(1)ui∈U,ui(i=1,2,3,...,v)为初步划定的第i个区间段内样本数据集;
(2)ni∈N,ni(i=1,2,3,...,v)为依样本数据集所落区间归属的语言值;
(3)ri(i=1,2,3,...,v)的确定:
(i)ui中样本数据落于非交叉区间时,ri取为标准向量;此时,ri∈W(n)。
(ii)ui中样本数据落入交叉区间内时,用插值公式求得:
ui°(为第i个区间标准样本数据,1i为第i个区间长度,Ai为第i个区间标准向量,A邻为依ui落点所定的相邻区间标准向量)。
再根据ri *与ri、ri+1的测度,或ri *与ri、ri-1的测度,决定取ri或ri+1或ri-1,并将此部分数据保留在第i层或移至第i+1层或移至第i-1层。
显然,数据子类与数据子类结构构成一一对应。
定理2:对于论域X,在相应于知识子库的数据子库中,全体数据子类(结构)的集合记作F(有限集),其幂集记作ρ(F),则<F,ρ(F)>构成一个极大化拓扑空间。
3)关于“知识结点”与“数据子类(结构)”关系的讨论:
定义7:设X与Y是任意的拓扑空间,称连续映射
F:X×[0,1]n→Y
为X到Y的映射的泛同伦。(通常意义下同伦概念的扩展)。
定义8:设f,g为从拓扑空间X到Y的连续映射,若存在泛同伦F(x,t)=ft(x),使得对于任意点x∈X均有f(x)=F(x,(0,...,0)),g(x)=F(x,(1,...,1)),则称g泛同伦于f,并称F为连续映射f与映射g的泛同伦,记作f~g。
定义9:从拓扑空间X到拓扑空间Y的连续映射f称为泛同伦等价,若存在从拓扑空间Y到拓扑空间X的连续映射g,使得合成映射gof和fog分别是从X和Y到自身的、泛同伦于对应空间的恒等映射IX和IY的映射,分别记作gof~IX,fog~IY;映射g也是泛同伦等价,且称为等价f的逆等价。
定义10:设给定两个拓扑空间,若至少存在一个空间到另一个空间的一个泛同伦等价的映射,则称这两个空间为同一泛同伦型的空间。
定理3(结构对应定理):对于论域X,在相应的知识子库与数据子库中,关于知识结点的拓扑空间<E,ρ(E)>与关于数据子类(结构)的拓扑空间<F,ρ(E)>是同一泛同伦型的空间。(证明略)。
由上分析可知:在把一个空间换成同一个泛同伦型的空间时,泛同伦类集合的结构并无改变,所以在同伦理论里,可以把同一泛同伦型的空间看做是相同的。故定理3给出了知识子库中“知识结点”与相应数据子库中“数据子类结构”中的层之间的一一对应关系,可用下列对应图(图5)示之:
基于上述理论,发明者设计开发了两个协调器,并将其嵌入到Web挖掘系统中去。从而在根本上改变了Web挖掘系统固有的运行机制,在结构与功能上形成了相对于Web挖掘系统而言的一个开放的、优化的扩体。
2.3双库协同机制的核心算法及技术实现:
通过以上对WebMS*新系统总体结构模型图及理论基础的介绍,我们可以看出双库协同机制的技术实现是要构造R(维护)型协调器与S(启发)型协调器。R型协调器的主要功能是:当从文本、日志及结构数据库的大量数据中经聚焦而生成假设规则(知识)后,使Web挖掘进程产生“中断”,而去搜索知识库中对应位置有无此生成规则的重复、冗余与矛盾(定向搜索进程)。若有,则取消该生成规则或相应处理后返回Web挖掘的“始端”;若无,则继续Web挖掘进程,即评价与结果入库。S型协调器的主要功能是:在以属性为基础的知识库建库原则下,通过搜索知识库中“知识结点”的不关联态,以发现“知识短缺”,产生“创见意象”,从而启发与激活真实数据库中相应的“数据类”,以产生“定向发掘进程”。
由上可见:实现双库协同机制最关键的问题即是实现“定向搜索进程”(减小搜索空间)和“定向发掘进程”(减少发掘空间);而实现该功能的必要条件是:构建知识库中“知识结点”与文本、日志及结构数据库中“数据子类(结构)”的对应关系。本发明是以文本、日志及结构数据库与大型知识库中一类基于语言变量的不确定性规则型知识为典型进行研究开发。
2.3.1启发协调算法:
启发型协调器的主要目的是为系统的聚焦提供另一个途径。在经典Web挖掘进程中,系统的聚焦通常是由用户提供感兴趣方向,Web挖掘沿此方向进行挖掘。但如果仅沿此方向进行,大量数据中的潜在的,也许会对用户有用的信息往往会被用户忽略。为帮助Web挖掘尽可能多的搜索到对用户有用的信息,以弥补用户或领域专家自身的局限性,提高机器的认知自主性,我们构造了启发型协调器。
启发型协调器是通过启发协调算法来实现的,算法的奠基是我们以上讨论的泛同伦理论;算法的流程图如下图6给出。本协调器的算法实现已于1998年底通过运行测试,采用的数据来源是:世界某地区社会调查结果的部分数据资料,真实数据库内的属性包括调查对象的工作状况、婚姻状况、初婚年龄、子女年龄、教育年限、年收入状况、自我感觉等17个因素。采用的开发平台是:VC++5.0,数据库是Oracle8.0;在国家自然科学基金重点项目“基于数据库和知识库的知识发现及其农业应用系统的研究”(69835001)中实现并运行测试了该算法,所采用的数据来源是:用于测试挖掘算法的经典网络数据库中的蘑菇数据库(mushroom database);采用的开发平台是:Delphi 5.0,数据库是:SQL Server 7.0。
2002年在教育部重点科技攻关项目“现代远程教育网中的关键技术——信息挖掘及智能门户搜索工具的研究”(教技司[2000]175)中进一步的完善并运行测试了该算法,同时于2002年12月13日通过了中国软件评测中心的正式测评;并计划将该算法融合到复杂类型数据的挖掘系统中。所使用的平台是:兰州大学远程教育平台及北京龙腾创想公司的远程教育平台;采用的开发平台是:Delphi 6.0,数据库是:SQL Server 2000。
2.3.2维护协调算法:
传统的知识发现系统,对Web挖掘过程产生的假设直接进行评价,被接受的知识归并到知识库时,由知识库管理系统负责对知识库的一致性、冗余性进行检查,对矛盾和冗余的知识进行处理,形成新的知识库。此方式的缺点是:形成许多无意义的假设评价和由于问题的大量积累而加重一致性、冗余性检查的负担。
由于维护型协调器对Web挖掘过程的介入,可以实时地、尽早地将重复、矛盾、冗余的知识淘汰掉,从而作到只对那些有可能成为新知识的假设进行评价,最大限度地减少了评价工作量。在实际的专家系统中,最终成为新知识的假设占原假设的比例是很小的(发现新知识是困难的),大量假设会是重复和冗余的,因此维护型协调器的引入将提高KDD的效率。该协调器是通过维护协调算法来实现的,图7将给出算法的流程图。此程序也已于1998年底通过运行测试,并且至近仍在不断的完善和改进之中。2002年在教育部重点科技攻关项目“现代远程教育网中的关键技术——信息挖掘及智能门户搜索工具的研究”(教技司[2000]175)中完善并运行测试了该算法,同时于2002年12月13日通过了中国软件评测中心的正式测评;并计划将该算法融合到复杂类型数据的挖掘系统中。所使用的平台是:兰州大学远程教育平台及北京龙腾创想公司的远程教育平台;采用的开发平台是:Delphi 6.0,数据库是:SQL Server 2000。
3.WebMS*新系统内涵的技术方法------基于自认知逻辑的因果关联规则的自动评价方法:
其自动评价算法如下:(评价规则Ai Sj):
取原因A和结果S的数据,构成一个序偶的集合P={<tw,sw>}(w=1,2....N),tw为原因状(变)态空间中的数据(即因样本值),sw为与原因数据相对应的结果状(变)态空间中的数据(即果样本值)。N为集合中样本的个数。设SUP1=0。
步骤1:取原因的样本值tw(w=1,2....N),它属于一般的样本空间,根据式(1)可得到因状(变)态输入向量atw。
步骤2:确定因状(变)态输入向量atw所属因状(变)态类型如Ak(k=1,2,3,4,5)即由式(2)计算atw与各因状(变)态标准向量Ai的测度dH,取最小者为atw归属的因状(变)态类型。随机抽取一样本集,可以看作序偶的集合P={<tw,sw>}。
步骤3:以规则Ai Sj作为局部大前提,以因状(变)态输入向量at所属的因状(变)态标准向量Ak为小前提,可以在评价知识库中通过自组织的方式找到与其相匹配的唯一的知识矩阵Mijk,根据自动推理模式(3)得到结果的状(变)态向量Sw1。
步骤4:聚类。计算Sw1所属的果状(变)态标准向量β,可通过求它与
各果状(变)态标准向量的测度(如下式)取最小者而获得聚类。
其中,μSw1 (i)与μSj (i)分别为其各自对应的坐标。
步骤5:对于序偶集P={<tw,sw>},取相应的结果的样本值sw,用模糊聚类的方法可得到它所属区间中的果状(变)态标准向量γ,如果β=γ,则SUP1=SUP1+1,否则SUP1=SUP1。
步骤6:重复上述过程N次,得到SUP。设
SUP=SUP1/N
取规则的因果关联强度CR与之比较。
若SUP>CR则规则被接受;SUP≤CR则规则被拒绝。
4.由WebMS*诱导的新型实用智能系统
4.1 IDSSIM(基于信息挖掘的智能决策支持系统):
如图8所示。
4.2 MDIM(基于气象数据的信息挖掘新系统):
天气系统是一个复杂大系统,其影响因素多,时空状态变化大;气象数据中蕴含着复杂非线性动力学机制,各个因素之间的关系十分复杂,并具有纷杂多变的时空特征。因而,难以建立各要素之间的关系。采用新的技术方法进行相关研究具有重要意义,也是应用发展及实际需求的驱动。我们试图采用复杂类型数据挖掘技术来解决此问题。
国内外利用知识发现来进行气象预报等应用研究的文献报道极少,所采用的方法主要包括:神经网络、分类和聚类。其缺点是:无法处理大数据量;使用数据类型简单;没有考虑已有领域知识;没有考虑系统的复杂性。
我们从知识发现、复杂大系统、认知科学等多学科交叉的角度,研究了气象数据的结构和特点,构建了一个全新的、多层递阶的、智能化气象数据知识发现系统的体系结构,该系统的核心部分是DFSSM结构模型(即WebMS*总体结构模型);同时紧密结合应用背景,提出与实现了一种全新的复杂数据类型的知识信息处理的新机制。
我们在WebMS*结构模型下,采用了小波分析与语言场相结合的知识表示方法;提出因果关联规则、相似模式、混沌模式等信息挖掘新算法;特别是针对气象数据提出一种新的将小波分析和混沌理论相结合进行类别知识的挖掘方法;并通过智能化接口引擎链接到集成算法库,通过人机交互进行实时控制。这种信息挖掘的思想与方法适用于动态的时空数据库的挖掘,具有普适性。该系统从非结构化数据信息挖掘的角度构建了一个实用的、可扩展的、易操作的气象科学研究的应用系统。在气象数据处理与提高天气预报准确率的研究方面起到了其它方法与技术不可替代的作用。同时系统的框架和实现技术可适用于多媒体等非结构化数据的知识发现,有着非常广阔地应用领域和产品化前景。
四.基于KDIM与DFSSM的Web挖掘新系统WebMS*的特征:
通过以上对于WebMS*新系统的理论基础、技术实现及总体结构模型的介绍,我们可以得出该系统区别于Web挖掘系统的特征如下:
1)WebMS*有机地沟通与融合了WebMS*新发现的知识与基础知识库中固有的知识,使它们成为一个有机的整体;即实现了“用户的先验知识与先前发现的知识可以耦合到发现过程中”。
2)在知识发现过程中,WebMS*对于冗余性的、重复性的、不相容的信息作出了实时处理,有效地减少了由于过程积累而造成的问题的复杂性,同时为新旧知识的融合与合成提供了先决条件;实现了“知识与数据库同步进化”。
3)WebMS*运用发现特征子空间模型FDSSM,改变与优化了知识发现的过程与运行机制;实现了“多源头”聚焦与减少评价量。
4)从认知科学的角度看,WebMS*强化并提供了知识发现的智能化程度,提高了认知自主性(这将是今后相当长的一阶段内保持的研究基调),较有效地克服领域专家的自身局限性,实现了“采用领域知识辅助初始发现的聚焦”。
5)作为WebMS*的核心技术—双库协同机制的研究,揭示了在一定的建库原则下,知识子库与数据子类结构之间的对应关系,为实现“限制性的搜索”而减小搜索空间、提高发掘效率提供了有效的技术方法。
6)对Web挖掘主流发展-------构造高效可扩展的挖掘算法、知识表示与评价方法等,产生重要影响。
7)进一步拓展了实用智能系统的新结构模型(IDSSIM、MDIM等),主要针对复杂对象信息挖掘(Web挖掘)的算法、结构、机理、体系与应用产生重要影响。
本发明首次提出了基于知识发现内在机理(KDIM)与特征子空间模型(DFSSM)的Web挖掘新系统WebMS*;对WebMS*内在机理中双库协同机制的研究,不仅对关联规则、分类规则、序贯模式挖掘算法具有重要的意义,而且对Web挖掘的主流发展也起到了重要的推动作用,表现如下:
1)阐明了作为Web挖掘过程中的两个重要要素,知识库和数据库之间的关系,大大缩减了Web挖掘的搜索空间,使传统的Web挖掘算法的实现效率得以提高。
2)产生了一种知识库的实时维护机制,随着新知识的随时入库,知识库的重复、冗余、矛盾、从属、循环检查随时进行。
3)充分体现了Web挖掘系统的认知自主性,提高了自动化程度。
4)通过这种机制的研究,可以优化和改进原有的知识发现算法。(不仅是关联规则、分类聚类、序贯模式的挖掘算法)。
5)在哲学方面带来了新的思考,反过来也可以指导Web挖掘领域的研究。
该发明不论是在理论层面上,还是在技术实现层面上,均具有极大的创新价值,并且能够产生良好的社会和经济效益。
以上具体实施方式仅用于说明本发明,而非用于限定本发明。
参考文献:
知识工程与知识发现,冶金工业出版社,2000年12月
S.S.Anand,D.A.Bell,J.G.Hughs,EDM:A General Framework for Data Mining Basedon Evidence Theory,Data & Knowledge Eng.,18,189-223(1996).
G.Piatetsky-shapiro,C.J.Matheus,Knowledge Discovery Work-bench forExploring Business Databases,International Journal of Intelligent Systems,7,675-686(1992).
J.P.Yoon,L.Kerschberg,A Framework for Knowledge Discovery and Evolution inDatabases IEEE Trans,on Knowledge and Data Eng.,5,973-979(1993).
Bingru Yang,KD(D&K)and Double-Bases Cooperating Mechanism,Journal ofSystem Engineering and Electronics,Vol.10,No.1,1999.
Bingru Yang,Double-Base Cooperating Mechanism in KDD,InternetionalSymposium on Computer,149-152(1998).
基于复杂类型数据的发现特征子空间模型DFSSM的研究,中国工程科学,Vol.4,No.10,2002年。
Web用户访问模式挖掘新结构框架研究,小型微型计算机,No.11,2003年。
基于Web挖掘的智能门户搜索引擎的研究,计算机工程与应用,Vo.38,No.3,2002年。