CN100378727C - 基于知识内在涵义的知识信息检索方法及其系统 - Google Patents

基于知识内在涵义的知识信息检索方法及其系统 Download PDF

Info

Publication number
CN100378727C
CN100378727C CNB2004100537889A CN200410053788A CN100378727C CN 100378727 C CN100378727 C CN 100378727C CN B2004100537889 A CNB2004100537889 A CN B2004100537889A CN 200410053788 A CN200410053788 A CN 200410053788A CN 100378727 C CN100378727 C CN 100378727C
Authority
CN
China
Prior art keywords
knowledge
information
kernel
knowledge information
carried out
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2004100537889A
Other languages
English (en)
Other versions
CN1670727A (zh
Inventor
吴晓红
蒋志萍
祝传忠
王俊平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CNB2004100537889A priority Critical patent/CN100378727C/zh
Publication of CN1670727A publication Critical patent/CN1670727A/zh
Application granted granted Critical
Publication of CN100378727C publication Critical patent/CN100378727C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了在知识信息数据库中信息检索方法及其系统,旨在提供一种把知识信息数据库的建立与拥有多样化和个体化强大功能的知识体系联系起来的,以知识内在涵义为基础的信息检索方法及其系统。该方法包括:对基本知识要素系统进行引用;过滤科学符号表达式中非本质的文字符号信息;产生被检索知识信息的内核;进行内核距离计算,判断不同知识信息的相似性和相关性,活性化知识信息系统。该系统包括基本知识要素系统、知识信息内核与活性化知识信息系统。本发明的检索方法及其系统,能使知识信息更具有个体性的能力,在看似毫无联系的知识信息中找到相似规律使得人们可以更加精确地学习和掌握这些规律所具有的本质。

Description

基于知识内在涵义的知识信息检索方法及其系统
技术领域
本发明涉及在知识信息数据库中信息检索方法及其系统。更具体地说,本发明涉及一种把知识信息数据库的建立与拥有多样化和个体化强大功能的知识体系联系起来的,以知识内在涵义为基础的信息检索方法及其系统。
背景技术
随着信息数字化的快速发展,信息大都以数字化的形式储存于计算机中,并以各种应用软件对大量的数据信息进行处理,以用来提高人们的生活水平和发展生产力。
数据库的广泛应用在满足人们各方面需求上面是十分成功的,但是,在不以文字表达为基础的知识信息的管理和运用(如存档和搜索)这一领域中的应用仍然非常不成熟。
例如:在许多科学领域(比如数学),同种观点或知识的涵义可以有多种不同的文字表达形式。再以数学作为例子,以下两个表达式代表相同的内在涵义(二维空间上的圆):
(x-a)2+(y-b)2=r2
(x-x0)2+(y-y0)2=k2
虽然这两个方程式在形式上仍然相当相似,但是本发明可以做非常简单的变形就可以使它们变得在表达形式上非常不同从而使软件程序很难发现它们的相似之处。
以往的技术系统对知识内容相似性的判断没有智能去理解同种内涵可以有多种表现形式。事实上,这种技术系统是通过对文字表现上有相似之处的以文字表现为基础进行内在涵义是否相似的尺度。所以以往的技术系统不能够辨别“文字表达上不同”但是的知识信息内涵意义相似的知识的相似性。这种技术系统本发明称之为内容不敏感系统。
这种以往的技术系统存在的另一个普遍问题就是它们把知识信息以大块的形式储存。因此,这种技术系统只能给出几种固定形式知识展现。例如,虽然一本书拥有巨大的信息量,但是其具体信息载体却以连续不变不可变的方式存在。如果一读者只想知道这本书是否是他或她真正需要的,他或她一般必须阅读书的主要部分(甚或读完整本书)。而此时才发现书对他或她毫无用处为时已晚。一本编辑良好的书(特别是教科书)一般都包含一个完整的索引,内容目录表,每一章都有摘要,脚注等等。所有这些编辑内容都使读者获得有用的信息变的更容易。但不管该书的编辑经过如何的深思熟虑,编辑地如何富有技巧性和专业化,在印刷时就已经决定了书的内容只有一种展示方式。这往往与读者使用该书的出发点和目的无法适应。
以往的技术系统的另一个缺点是知识信息的外在(或者说表现)形式对个人对知识的使用很不敏感。造成这种现象的原因主要是在于知识信息的创建过程和方法将信息变得死板而很难是知识内容个体化。
随着计算机技术的发展,这种传统的信息具体化逐渐被使用按严格的设计规划而创建的数据库系统所取代。然而在现代的系统中此类设计的存储单位仍然很大很粗糙,使得在此类存储单位之间的重要联系尚难以得到发现。
例如:在以往的知识数据库技术系统(包括数字形式)中,一个定理的论证通常以单个个体形式储存起来。对于一个定理的论证通常需要丰富的技巧,概念,方法,模型,实例以及适用于解决其他问题的技巧,但此类信息仍然用自身属性(元数据)的形式直接记录在该证明中。使用这些元数据的方法的缺点是显而易见的。首先,元数据与信息个体本身相联系。尽管元数据的内涵意义完全相同,由于人的操作或程序的偏差,这些相同点就会可能包含非本质性的变异或出现遗漏,从而使得判断分析这些元数据的相似性耗费巨大且颇有难度。当对这些元数据进行修改时,如果相同的元数据有多个拷贝,  就只有其中一个副本被改动,而这就会与理想的元数据使用形式相去甚远。由于每一个知识信息的元数据都分别记录,  而这些元数据都会有细微的偏差,利用计算机程序来找出知识信息的相似性是极其困难的。
以往的技术系统没有建立一个判断不同信息个体之间相同之处的理论,因而使用了很多的随便设计的对知识信息的分析方法。
所以,本发明所需要的是知识库的设计和计算机处理过程,这种设计和处理过程通过运用了一系列众所周知的基本知识信息要素(比如概念,实例,技巧,模型等)以及建立在相关衡量尺度的正确原理基础上的内容敏感识别程序(与内容不敏感相对立),把储存于此类数据库中的所有知识信息单位与基本知识信息要素联系起来。通过从表面上不同的(但实际内容上相同或相似)知识信息单位中建立此类相关联系,本发明就可以克服元数据方法的缺点并创建出自动程序来确定关键的信息相似性
发明内容
本发明的首要目的在于克服现有技术中的不足,提供一种基于知识内在涵义的知识信息检索方法,包括以下步骤:
a、对基本知识要素系统进行引用;
b、对被检索知识信息进行文字性和非文字性内容的分类,过滤科学符号表达式中非本质的文字符号信息;
c、以字符串为基础对被检索知识信息进行相似对比和编译,并根据同构和同态判断准则将相似对比和编译的结果与基本知识要素系统进行对比,产生被检索知识信息的内核;
d、对所获得的内核与其它内核进行内核距离计算,判断不同知识信息的相似性和相关性,对所要输入知识库的被检索知识信息内容从传统的单一板块形式存在的知识信息进行活性化,使之成为活性化知识信息系统。
本发明所述对基本知识要素系统进行引用,是通过以下步骤实现的:
a、按设计特性对基本知识要素系统进行分类的对应参照;
b、对非文字性的科学符号表达方式进行特征分析与记录;
c、利用特征对混合的科学知识内容进行分析并将文字性的知识描述和非文字性的科学符号表达方式区分。
本发明所述过滤科学符号表达式中非本质的文字符号信息,是通过以下步骤实现的:
a、设立多个有不同编译规则细节的编译种类;
b、对科学符号表达式进行编译,以此决定科学符号表达式中的非本质文字符号内容的去留;
c、生成编译结果,并在知识库中予以记录。
本发明所述对科学符号表达式进行编译,是通过K-映射,利用字符串和字符串的拼接运算来实现的,其中满足以下条件为K-映射:
令O表示所有组合符号的集合,E表示所有使用组合符号O中的符号所生成的的表达式的集合,D表示编译细节的集合,R表示在拼接运算#下闭合的所有所有对象的集合。则映射k为:{O U E}D → R,表示笛卡儿乘积;
给出任意d∈D任意两个独特运算符p,q∈O,k(p,d)与k(q,d)不同;
给出任意d∈D和表达式e∈E如果存在其他两个表达式u∈E和v∈E并且运算符号o∈O,  且e=o(u,v),那么k(e,d)=k(o,d)#k(u,d)#k(v,d)。
本发明所述进行内核距离计算,判断不同知识信息的相似性和相关性,是通过以下步骤实现的:
a、设定两个知识信息内核的α-距离参数;
b、提供内核权函数的可扩展性接口;
c、计算两内核之间的α-距离。
本发明所述两个知识信息内核的α-距离参数为:
| K x - K y | = ( | K x | + | K y | - 2 · | K x ∩ K y | | K x | + | K y | ) · ( 1 - | K x ∩ K y | 2 · | K x | - | K x ∩ K y | 2 · | K y | )
其中,x和y是两个知识信息,Kx和Ky是两个知识信息x和y各自的内核。,实数α>0,Kx⌒Ky表示这两个内核的共同部分所组成的内核。
本发明所述对所要输入知识库的被检索知识信息内容从传统的单一板块形式存在的知识信息进行活性化,还包括:
a、利用可设定的内核相似阈值建立相似的内核集合;
b、对本知识信息内核以及相似内核集合进行分类;
c、记录本知识内核以及与本内核相似的其他内核的α-距离数据。
本发明所述的检索方法还进一步包括:
a、利用使用者提供的α-距离与紧致性的对应关系,把所有内核按α-距离进行紧致性分类,为相似核类;
b、对相似核类进行规律命名;
c、对所有同一相似核类中的内核的外形加以该规律的注释;
d、利用使用信息对相关性的使用率达到可设定阈值的规律进行归纳分类。
本发明所述的检索方法还进一步包括为知识信息创立多个具有个性化展示能力的流程,该流程包括以下几个步骤:
a、建立知识的使用信息,这个使用信息包括使用者的使用目的、使用环境、使用结果;
b、建立多种根据使用信息而确定的知识的单一侧面展示模式;
c、对单一侧面的展示模式进行多种组合以实现对多种综合知识的使用要求;
d、为使用者按需求提供由前述流程建立的适应其要求的个性化知识展示。
本发明的另一个目的在于克服现有技术中的不足,提供一种基于知识内在涵义的知识信息检索系统,包括包括依次相连的基本知识要素系统、知识信息内核与活性化知识信息系统;所述基本知识要素系统、知识信息内核与活性化知识信息系统相互之间的作用关系为:
对基本知识要素系统进行引用,并对被检索知识信息进行文字性和非文字性内容的分类,过滤科学符号表达式中非本质的文字符号信息;
以字符串为基础对被检索知识信息进行相似对比和编译,并根据同构和同态判断准则将相似对比和编译的结果与基本知识要素系统进行对比,产生被检索知识信息内核;
对所获得的知识信息内核与其它知识信息内核进行内核距离计算,判断不同知识信息的相似性和相关性,对所要输入知识库的被检索知识信息内容从传统的单一板块形式存在的知识信息进行活性化,使之成为活性化知识信息系统。
与现有技术相比,本发明的有益效果是:
本发明中的基于知识内在涵义的知识信息检索方法及其系统,能使知识信息更具有个体性的能力,从而简化并改进对知识的学习和掌握。对知识数据库设计中引进基本知识信息要素与利用普通词汇来进行本发明的日常信息交流具有同样的功效。在看似毫无联系的知识信息中找到相似规律使得人们可以更加精确地学习和掌握这些规律所具有的本质,更加广泛的运用这些规律,并且最后帮助人们更有效率地掌握知识。
附图说明
图1为本发明具体实施例1的表达式特征训练流程图;
图2为具体实施例1的科学知识混合表述内容文字与表达式分离流程图;
图3为具体实施例1的K-映射生成流程图;
图4为具体实施例1的活性化知识信息X和Y之间的紧致关系示意图;
图5为具体实施例1的活性化知识信息X和Y之间的非紧致关系示意图;
图6为具体实施例1的知识内核距离算法流程图;
图7为具体实施例1的知识信息内核生成流程图;
图8为具体实施例1的知识内涵检索法流程图;
图9为具体实施例1的K-映射检索法流程图;
图10为具体实施例1的内核检索法流程图;
图11为具体实施例1的知识信息活性化流程图;
图12为具体实施例1的规律内核集生成流程图;
图13为具体实施例1的不同类型基本知识要素系统多层次展示图;
图14为具体实施例1的多层次个性化展示流程图;
图15为具体实施例1的活性化后知识信息的单侧展示图;
图16为具体实施例1的活性化后知识信息的全视展示图。
具体实施方式
参考附图,结合具体实施例1下面将对本发明进行详细描述。
具体实施例1中基于知识内在涵义的知识信息检索方法包括以下步骤:
a、对基本知识要素系统进行引用;
b、对被检索知识信息进行文字性和非文字性内容的分类,过滤科学符号表达式中非本质的文字符号信息;
c、以字符串为基础对被检索知识信息进行相似对比和编译,并根据同构和同态判断准则将相似对比和编译的结果与基本知识要素系统进行对比,产生被检索知识信息的内核;
d、对所获得的内核与其它内核进行内核距离计算,判断不同知识信息的相似性和相关性,对所要输入知识库的被检索知识信息内容从传统的单一板块形式存在的知识信息进行活性化,使之成为活性化知识信息系统。
本发明还提供了一种基于知识内在涵义的知识信息检索系统,包括基本知识要素系统、知识信息内核与活性化知识信息系统。
以下结合具体实施例1对本发明检索方法和系统涉及到的发明点进行描述:
一、知识信息对基本知识要素系统的引用(reference)
对任何一个特定的知识领域,都有一部分最基本的知识要素。这些要素,就如同本发明人的语言中的基本词汇。几乎所有其他的知识信息,都将使用这些要素来进行描述。
本发明的一个重要设计就是把一个特定领域的知识信息库和这样一个基本知识要素系统结合起来。本发明还提供了一个特例实现,把传统方式的知识信心内容用软件进行处理以从中提炼出该知识信息内容对基本知识要素的引用。具体特例实现举例如下。
1.对基本知识要素系统按具体知识系统的特性(比如使用对象的知识水平)进行个性化对应映照(mapping)。这个对应映照可以使得基本知识要素系统适合于使用者的使用环境、使用背景,等等。
2.使用者和设计者对软件进行非文字性的科学知识表达方式的表现特征的识别训练。比如在数学表达式的特征和物理表达式的特征就会有不同。这些特征可以特殊符号的出现与组合来判断,这样的特殊符号的组合被称为是表达式的特征(signature)。
3.利用表达式的特征(signature)对科学知识混合表述内容(文字型和非文字型)进行分离,分离出表达式内容将被本发明的其它技术进行分析处理。
表达式的特征(signature)有多种可能的设计。最重要的部分是:表达式的起始标志(token)、表达式的常用特殊字符(比如运算符)、有固定意义的常用词(如log,sin,cos,exp)。在这些符号中有一类符号具有特别的意义:表达式的组合符号。一个符号被称作为表达式的组合符号如果它能让数个表达式组合成为一个新的(往往是更复杂的表达式)。比如数学表达式中的运算符号就是这样的组合符号。
简单的表达式特征训练流程图及科学知识混合表述内容文字与表达式分离流程图如图1、图2所示。
二、分级表达式编译法
本发明为非文字性的科学知识表达方式(比如数学公式,化学反应式,等等,以下本发明称其为表达式)建立了一套编译方法的设计框架并给出了一个特例实现。
这个对表达式的编译至少具有以下几个基本功能:
可以对编译细节(detail)进行控制。比如,编译可以把加法和减法区别对待也可以把他们看做同一类运算。
可以容易地判断一个表达式是另一个表达式的子表达式。比如,sin(x)·cos(x)是sin2(x)-32·sin(x)·cos(x)+cos2(x)=0的一个子表达式。这个编译方法可以很简单地判断这一点。
可以对非本质性的内容变异进行过滤。比如sin(α+β)·cos(α+β)并不是sin2(x)-32·sin(x)·cos(x)+cos2(x)=0的从简单意义上讲的子公式。但前者是后者的广义上的子公式。这样内容变异并不是本质性的。该编译法可以对此类变异作出控制使得起编译结果很容易判断这一类非本质性的内容变异。
传统的知识信息内容对等判断的算法所无法判断的有非本质性的内容变异知识信息,可以通过本发明的编译方法很容易地判断出它们的相似性。
本质上讲,这个编译法是一种对表达式的表达法的标准化(canonicalization),本发明称该编译法为“分级表达式编译法”。
分级表达式编译法的关键设计内容如下:
(A)K-映射
令O表示所有组合符号的集合,E表示所有使用组合符号0中的符号所生成的表达式的集合,D表示编译细节的集合(比如D={“全貌”,“运算结果”,“省略最低优先级(加,减,数)的运算”,“排列变量字母”}),R表示在拼接运算#下闭合的所有所有对象(不论是数字,号码还是列)的集合。则映射k为:{OUE}D→R(表示笛卡儿乘积),满足以下条件的就被称之为K-映射:
A.1给出任意d∈D任意两个独特运算符p,q∈O,k(p,d)与k(q,d)不同。
A.2给出任意d∈D和表达式e∈E,如果存在其他两个表达式u∈E和v∈E并且运算符号o∈O,  且e=o(u,v),那么k(e,d)=k(o,d)#k(u,d)#k(v,d)。
虽然本定义仅对二进制运算给出定义,但本发明可以很容易的对此进行推广,并运用于n进制的运算中。
下面举例说明K-映射的一中实现。
K-映射概念可以通过利用把字符串R和字符串的拼接运算#来实现。尽管还存在其它关于K-映射的算法,但是本发明将举例来说明字符串的方法实现,本发明称之为KStr映射,因为它最方便人阅读。
表1表明了常用于数学中的部分运算符以及这些运算符的映射:
表1
  运算符   映射结果   运算符   映射结果
  函数   @   Log   log
等号 = Sin sin
  加号   +   Cos   cos
  减号   -   乘幂   ^
  次方   ◇
以下表达式为例:
xlog(y)+sin2(x)-32·sin(x)·cos(x)+cos2(x)=0
(x+5)log(y+2)
基于前面的表述,从上面的表达式中可以得出KStr的映射为:
^x@logy+@^sin2x-◇32◇@sinx@cosx+@^cos2x=0
^x+5@logy+2
在“省略最低优先级(加,减,数)的页级(leaf)运算”中,在以上的表达式中本发明可以得出以下关于KStr的映射:
^*@log*+@^sin2*-◇*◇@sin*@cos*+@^cos2*=*
^*@log*
其中*表示“被忽略的表达式”。
本实施例中,xlog(y)+sin2(x)-32·sin(x)·cos(x)+cos2(x)=0不包含(x+5)log(y+2)。在“全貌”中就可以十分清楚的看到这一点,因为后者中的KStr并不是前者的KStr的子串。然而,在“省略最低优先级(加,减,数)的页运算”细节下,(x+5)log(y+2)的KStr变成“^*@log*”,这就很清楚的表明表达式(x+5)log(y+2)的KStr是表达式xlog(y)+sin2(x)-32·sin(x)·cos(x)+cos2(x)=0的KStr“^*@log*+@^sin2*-◇*◇@sin*@cos*+@^cos2*=*”的子串。
这两个KStr’s说明了什么呢?
“^*@log*”
“^*@log*+@^sin2*-◇*◇@sin*@cos*+@^cos2*=*”
这意味着如果忽略了加法和减法及叶级的运算,表达式(x+5)log(y+2)就与表达式xlog(y)+sin2(x)-32·sin(x)·cos(x)+cos2(x)=0中的一部分具有相似性。那就是两个表达式都包含这样一个运算操作组合,该项操作的鲜明特征是“幂为log值的乘幂”。
假设一个学生检索关于xlog(y)的一些基本实例,但如果他输入具体的数据,也许他就不能找到他所需要的信息。例如,一个并不十分普遍认识的的性质就是xlog(y)=ylog(x)。如果他输入的内容中包含alog(b)或(x+5)log(y+2),如果他在检索中包括了所有具体的数字,那么他将无法找到与这等同的信息。但如果省略掉这些具体的数据,那么在搜索结果中会包含基本的信息xlog(y)=ylog(x).
(B)表达式的同构与同态
本发明把alog(b)和xlog(y)称为同构表达式(根据一对一映射a→x和b→y,它们是等同的);把alog(b)和(x+5)log(y+2)称为同态表达式(通过对具体细节的忽略,它们是同构的)。
在对知识的科学表达方式的注释中,这些注释本身是并不具有单一性。换句话说,具有相同内容的信息可能有多种同构的表达方式,甚或许多同态的表达方式。
通过K-映射,本发明可以获得同构或同态的注释方法的单一性编译。利用这样的单一性编译,本发明就很容易发现用注释不相同但是同构或同态的科学知识的相似或等同性,从而可以使用计算机程序自动地把看起来不同的知识信息进行相似或等同比较。
该发明的一个非常重要的发明点就是对同构和同态的知识信息的判断。K-映射把表达式转换成一种易于比较相等的数字结构,并且把表达式的非本质性变形(表达式的同态)转换成为对不同编译细节下的同构问题,使得难以判断的同态表达式变成为易于判断的同构编译结果。
同构和同态判断准则的创建分两类。一类是其逻辑在开发系统时已经确立的;另一类是在系统开发后出现特殊表达式的同构同态情形后建立的(也就是可扩展性)。
对第一类,本发明利用特定知识领域内比较常见的同构与同态表达式的基本变形设计而成。以下列举几种这样的判断准则(编译法):
A、对由可交换的组合符组合而成的复合表达式的编译。如果M,N是两个表达式,θ是可组合M和N的组合符。那么MθN也是一个合法的表达式。如果MθN和NθM等价,那么本发明说θ是可交换的组合符。
对可交换的组合符,本发明可以利用M和N的一种固定的HASHING值把M和N产生一个固定的排位次序以便完全克服他们在组合过程中位置的随机性。
B、对特有表达式的同构变异性,本发明可以固定一个标准表达方式。比如对所有的指数和对数都使用2作为底数;对所有角度本发明都用弧度制;等等。
图3为本实施例的K-映射生成流程图。
三、知识信息内核相似判断外形相似的算法
知识信息到基本知识要素的参照引用(REFERENCE)全体被称为该知识信息的内核。
本发明的一个基本假定是:在有优良的基本知识要素系统的条件下,知识信息的内核相似是知识信息本身(相对于内核来说就是它们的外形)相似的充分条件。
众多的流程能成为内核信息来源,这些内核信息来源的特征是能提供某个知识信息对基本知识信息的参照引用的信息。比如,  在对文字型知识信息进行处理时,某些字符串可能是某个概念的专有名词。那么这个处理文字型知识信息的流程就可以对这个知识信息的内核提供该概念的内核信息。再比如,在处理表达式的分级编译法时,流程可能会发现某个特殊函数,那么这分级表达式编译法流程就可以对该知识信息内核提供该特殊函数的内核信息。这些流程都是内核信息来源,本发明把它们称为内核信息源。
在对一个知识信息进行处理时,这些内核信息来源所提供的内核信息为内核的生成。
本发明建立一套内核相似性的判断准则,这套准则是建立在下列的内核的α-距离的基础上的:
α-距离的定义
对一个内核K,本发明用|K|来表示该内核的加权势。加权势的计算可根据不同基本知识要素在对知识的描述中的重要性来定。比如,一个知识元出现x=y跟一个知识元出现∮σf(t)dt这样的基本知识要素,对判断该知识元跟其它知识元的相似性的重要性很不一样。在这种情况下,可以赋予∮σf(t)dt比x=y更大的加权势。
假设x和y是两个知识元,Kx和Ky是它们各自的内核。本发明用Kx ⌒ Ky表示这两个内核的共同部分所组成的内核。那么本发明用|Kx-Ky|来表示这两个知识元之间的距离,距离越近的的两个知识元越相似。
本发明引进如下一类距离函数来描述两个知识元的距离:
| K x - K y | = ( | K x | + | K y | - 2 · | K x ∩ K y | | K x | + | K y | ) · ( 1 - | K x ∩ K y | 2 · | K x | - | K x ∩ K y | 2 · | K y | )
以上范例的距离定义的核心部分是:
(1)它的第一部分 | K x | + | K y | - 2 · | K x ∩ K y | | K x | + | K y | 描述了两个内核不相同部分所占的比重。如果两个知识元不相交,那么这个部分的值为1。
(2)它的第二部分 1 - | K x ∩ K y | 2 · | K x | - | K x ∩ K y | 2 · | K y | 描述了两个相交部分在每个知识元内所占的比重的平均。
必须注意到, 1 - | K x ∩ K y | 2 · | K x | - | K x ∩ K y | 2 · | K y | ( | K x | - | K x ∩ K y | | K x | + | K y | - | K x ∩ K y | · | K y | 2 ) 的化简。它是这两个知识元各自不相同部分的比重的算术平均。其它的平均算法(比如几何平均)也可以用于距离的计算。
很显然,|Kx-Ky|是两种比重的成积。尽管在很多情况下,这样的成积可以用来做距离的衡量,但是更合理的是它的平方根。为此,本发明给出跟一般的α-距离的设想。对于上述距离,它相应的α-距离可以定义如下:
对实数α>0,x与y间的α-距离为|Kx-Ky|α=(|Kx-Ky|)α
如果本发明取 α = 1 2 , 那么α-距离就是上述比重的几何平均值了。
对两个知识信息的内核,如果它们完全相同,那么本发明就称这两个知识信息是有紧致关系的(意思是说它有完全紧密的关系)。图4为本实施例的活性化知识信息X和Y之间的紧致关系示意图。
如果两个知识信息内容上有本质性偏差,那么它们的内核应该不完全相同,这样的两个知识信息被称为具有非紧致性关系。显然地,本发明所关心的是这个偏差的程度是否使得它们基本上没有实质性的关系。对这个“关系程度”进行定量描述,是本发明引进α-距离的最根本原因。图5为本实施例的活性化知识信息X和Y之间的非紧致关系示意图,描述了非紧致性关系。本发明把α-距离=1的两个知识信息称作为不相关的。
α-距离体现了下列关于运用了内核来判断不同的知识信息所具有的相似性和相关性的基本特点:
1、如果x和y有相同的内核,那么。α-距离等于0;
2、如果x和y有不相交的内核,那么α-距离等于1;
3、当两个内核的交集与每个内核的大小的比为固定值时,α-距离随着内核的增大而减小,反之亦然。
当α和k的值出现变化时,本发明可以建立不同的模型来度量知识信息间的相似性,这些不同的模型具有相同的特性但α-距离的增长方式不同。
例如:当α=1时,在内核中享有50%的元素表示为|Kx|≈|Ky|≈2·|Kx⌒Ky|,所以 | K x - K y | 1 ≈ 1 | K x | . 由于它含有双曲线增长方式,所以对某些知识领域,它或许并不是最佳的测量长度的方法。通过增加或减少a值,
| K x - K y | α ≈ 1 | K x | α ,
在一特定领域内就可以有更多的模型来模拟内核距离在该领域的特性。
另外一个推广α-距离的方法是让内核|Kx|的测量法给具有灵活性,它不仅仅必须是内核的势而可以各中内核的权函数。虽然对于人脑来说这种计算方法是难以实现的,但对于计算机软件的程序来说是十分简单易行的,也使得内核的设计者们更好地运用不同的方法来决定FKIE对知识信息的相关性的影响进行控制。例如,某一类知识信息而言,可能存在着这样一个定理,任何知识信息对该定理的运用就明确表明了该知识信息对某种基本知识的高度的相关性。如果那样的话,这个定理对内核的影响权有十分重要的作用。这样的情形显然存在。比如一个物理知识信息对牛顿第二定律的引用,就可以基本肯定这个知识信息与牛顿力学的相关性。
另一个α-距离的拓广还可以通过把上述方法运用在分类内核上。所有计算内核上α-距离的设计方法和所用的工具对分类内核的有效性都是完全一致的。利用内核的相似性确定知识信息的相似性一个基本的设计原则是:相对于完全等同的知识信息的判断,本发明更重视对相似的知识信息的判断。
图6为本实施例的知识内核距离算法流程图,概要地描述了内核相似到外形相似的实现逻辑。
四、知识内涵检索法
这个检索法分以下几个大逻辑步骤:
对知识内容进行文字型与表达式的分离,这个分离是必要的。本发明特有的K-映射与内核检索法都需要把表达式的检索与文字型信息的检索分离开来。
对文字型内容的常规检索,该流程不是本发明的独创,因此不再详细介绍其具体流程。
对被检索内容的表达式使用分级表达式编译法做出K-映射编译,并对知识库中的知识信息进行K-映射为基础的对比检索。
建立被检索内容的内核,并对知识库中的知识信息进行内核距离为基础的检索。收集使用信息。
图7、图8、图9、图10分别本实施例的知识信息内核生成流程图、知识内涵检索法流程图、K-映射检索法流程图和内核检索法流程图,一系列流程图建立了这个检索法的具体实现的一个特例。
五、知识信息的活性化
对所要输入知识库的知识信息内容从传统的单一板块形式存在的知识信息进行活性化。此方法与流程包括以下几个步骤:
用本实施例所述的知识内涵检索法对知识信息进行与基本知识要素的使用对比分析并产生该知识信息的内核信息。
首先,传统的知识存在形式都是单一板块的。也就是说,它们只是该知识信息的一种固定的表现形式(展示)。对这样的信息的活性化的第一步就是找到它所引用的基本知识要素,也就是对内核的建立。
本发明找到一知识信息对另一知识信息(在这里,这另外一些知识信息是基本知识要素系统内的元素)的引用的办法就是通过对知识信息的内核与另外一些知识信息的内核的距离的计算而得到的。这个步骤的第一步是求得该知识信息的内核-其基本逻辑就是第四项内描述的知识信息内核生成流程。
活性化的第二个步骤就是运用本实施例中“知识信息内核相似判断外形相似的算法”这一部分内容所述的方法,对所获得的知识信息的内核与知识库内(除去基本知识要素之外)的现有有关知识信息的内核进行内核α-距离计算。这个计算确定该知识信息与其它已有知识信息的关系。利用可设定的内核相似阈值建立相似内核集合。
活性化的下一步骤就是对所获得的内核及相似内核集合按进行分类。并把这样的得到的信息记录。
活性化的最后一步是让活性化后的各个活性化信息(比如该知识与基本知识要素之间的关联关系,相似知识信息)在被使用者的使用过程中的重要性进行使用信息收集。把使用准确性达到一定的阈值(可设定)的活性化信息收集成为“可泛用型活性化知识”,这些知识信息是准确无误、对所有的使用者都有价值的。
图11为本实施例的知识信息活性化流程图。
六、知识信息规律的生成法
发现类似知识信息中的规律,是非常困难的一个问题。运用本实施例中所述的知识内涵检索法,本发明可以建立表达方式不一样的知识信息间的相似性。用同一方法,本发明可以发现知识所蕴涵的内在内容中的规律。这个流程包括以下几个步骤:
通过对知识信息的内核α-距离的定义,本发明给出了知识信息间的紧致性与非紧致性。本发明把两个其内核的α-距离为0的知识信息称作为它们具有紧致性关系。把其内核的α-距离大于0的知识信息称作为它们具有非紧致性关系。
在所有知识信息的内核中,如果有那么一个集合:K={k1,k2,...,kn}满足对所有ki,kj∈K都有|ki-kj|<β(其中0<β<1是一个常数),那么本发明就说这个内核集合K描述了一个规律。本发明称这样的内核集合为规律内核集。
在软件系统发现了这样的规律以后,在本发明中通过专家人员的总结,给规律命名,就可以形成一套规律系统。在以后的知识信息被活性化后,本发明可以对其内核做规律的自动对比和归类。
如果一个知识信息的内核是一个规律内核集的元素,本发明就称该知识信息具有这个规律。把这样的规律信息注释于知识信息上,就可以按次规律对该知识信息进行有效的使用。
不同的使用信息可以确定不同的阈值β,本发明得到的就是跟使用信息有关的规律(比如可泛用型规律、特有使用者群体规律,等等)。
图12为本实施例的规律内核集生成流程图,对上述设计作出进一步的描述。
七、单一知识的多层次个性化展示
利用本发明以上所描述的对知识信息的独特的活性化,本发明可以很简单地实现对单一知识信息创立多个可具有个性化展示能力展示(VIEW)。
首先,本发明的知识信息在被活性化后,产生了内核。内核又可以分类(分类内核),内核的分类是对知识信息的不同侧面的一种归纳描述。于是,本发明的知识信息就出现了按内核分类而出现的多个(单)侧面的展示。本发明把这样的描述一个知识信息的单侧面的展示称作为“单侧展示”。图13为本实施例的不同类型基本知识要素系统多层次展示图。图15描述了活性化以后的知识信息的这个功能。在这个例子里面,关于知识点的展示主要是对调和级数的发散性作出解释,关于概念的展示则主要说明了该知识信息中所用的概念,而关于技巧的展示则着重于介绍在该知识信息中所运用的技巧。例如,当使用者在查找一些关于看似收敛级数而实际上可能是发散级数的例子时,实例部分就可能是使用者真正所需要的。
相对于知识信息的单侧展示,本发明也可以很容易地实现知识信息的复合展示。所谓知识信息的复合展示,就是指对一个知识信息的数个不同类分类内核的复合而形成的展示。最特殊的符合展示就是把所有分类内核都复合的展示,这样的展示被称作全视展示。图16中示意图解释了上面的例子在全视展示下的内容。
由此可见,本发明对知识信息的活性化使本发明为实现对不同的使用环境,使用对象,使用目的等对知识信息有不同侧面要求的信息展示提供了可能。在本发明的活性化知识信息的基础上,实现上述要求的唯一新信息就是使用者的使用要求与分类内核的组合的对应关系的建立。图14中本实施例的多层次个性化展示流程图说明了这个过程。该流程图的简单性从一个角度上说明了本发明对知识活性化的意义。
最后,还需要注意的是,以上列举的仅是本发明的具体实施例。显然,本发明不限于以上实施例,还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。

Claims (10)

1.一种基于知识内在涵义的知识信息检索方法,其特征在于,包括以下步骤:
a、对基本知识要素系统进行引用;
b、对被检索知识信息进行文字性和非文字性内容的分类,过滤科学符号表达式中非本质的文字符号信息;
c、以字符串为基础对被检索知识信息进行相似对比和编译,并根据同构和同态判断准则将相似对比和编译的结果与基本知识要素系统进行对比,产生被检索知识信息的内核;
d、对所获得的内核与其它内核进行内核距离计算,判断不同知识信息的相似性和相关性,对所要输入知识库的被检索知识信息内容从传统的单一板块形式存在的知识信息进行活性化,使之成为活性化知识信息系统。
2.如权利要求1所述的检索方法,其特征在于,所述对基本知识要素系统进行引用,是通过以下步骤实现的:
a、按设计特性对基本知识要素系统进行分类的对应参照;
b、对非文字性的科学符号表达方式进行特征分析与记录;
c、利用特征对混合的科学知识内容进行分析并将文字性的知识描述和非文字性的科学符号表达方式区分。
3.如权利要求1所述的检索方法,其特征在于,所述过滤科学符号表达式中非本质的文字符号信息,是通过以下步骤实现的:
a、设立多个有不同编译规则细节的编译种类;
b、对科学符号表达式进行编译,以此决定科学符号表达式中的非本质文字符号内容的去留;
c、生成编译结果,并在知识库中予以记录。
4.如权利要求3所述的检索方法,其特征在于,所述对科学符号表达式进行编译,是通过K-映射,利用字符串和字符串的拼接运算来实现的,其中满足以下条件为K-映射:
令O表示所有组合符号的集合,E表示所有使用组合符号O中的符号所生成的表达式的集合,D表示编译细节的集合,R表示在拼接运算#下闭合的所有对象的集合,则映射k为:{O U E}D→R,表示笛卡儿乘积;
给出任意d∈D任意两个独特运算符p,q∈O,k,(p,d)与k(p,d)不同;
给出任意d∈D和表达式e∈E,如果存在其他两个表达式u∈E和v∈E并且运算符号o∈O,且e=o(u,v),那么k(e,d)=k(o,d)#k(u,d)#k(v,d)。
5.如权利要求1所述的检索方法,其特征在于,所述进行内核距离计算,判断不同知识信息的相似性和相关性,是通过以下步骤实现的:
a、设定两个知识信息内核的α-距离参数;
b、提供内核权函数的可扩展性接口;
c、计算两内核之间的α-距离。
6.如权利要求5所述的检索方法,其特征在于,所述两个知识信息内核的α-距离参数为:
| K x - K y | = ( | K x | + | K y | - 2 · | K x ∩ K y | | K x | + | K y | ) · ( 1 - | K x ∩ K y | 2 · | K x | - | K x ∩ K y | 2 · | K y | )
其中,x和y是两个知识信息,Kx和Ky是两个知识信息x和y各自的内核,实数α>0,Kx∩Ky表示这两个内核的共同部分所组成的内核。
7.如权利要求1所述的检索方法,其特征在于,所述对所要输入知识库的被检索知识信息内容从传统的单一板块形式存在的知识信息进行活性化,包括:
a、利用可设定的内核相似阈值建立相似的内核集合;
b、对本知识信息内核以及相似内核集合进行分类;
c、记录本知识内核以及与本内核相似的其他内核的α-距离数据。
8.如权利要求4所述的检索方法,其特征在于,还进一步包括:
a、利用使用者提供的α-距离与紧致性的对应关系,把所有内核按α-距离进行紧致性分类,为相似核类;
b、对相似核类进行规律命名;
c、对所有同一相似核类中的内核的外形加以该规律的注释;
d、利用使用信息对相关性的使用率达到可设定阈值的规律进行归纳分类。
9.如权利要求1所述的检素方法,其特征在于,还进一步包括为知识信息创立多个具有个性化展示能力的流程,该流程包括以下几个步骤:
a、建立知识的使用信息,这个使用信息包括使用者的使用目的、使用环境、使用结果;
b、建立多种根据使用信息而确定的知识的单一侧面展示模式;
c、对单一侧面的展示模式进行多种组合以实现对多种综合知识的使用要求;
d、为使用者按需求提供由前述流程建立的适应其要求的个性化知识展示。
10.一种基于知识内在涵义的知识信息检索系统,其特征在于,包括依次相连的基本知识要素系统、知识信息内核与活性化知识信息系统;所述基本知识要素系统、知识信息内核与活性化知识信息系统相互之间的作用关系为:
对基本知识要素系统进行引用,并对被检索知识信息进行文字性和非文字性内容的分类,过滤科学符号表达式中非本质的文字符号信息;
以字符串为基础对被检索知识信息进行相似对比和编译,并根据同构和同态判断准则将相似对比和编译的结果与基本知识要素系统进行对比,产生被检索知识信息内核;
对所获得的知识信息内核与其它知识信息内核进行内核距离计算,判断不同知识信息的相似性和相关性,对所要输入知识库的被检索知识信息内容从传统的单一板块形式存在的知识信息进行活性化,使之成为活性化知识信息系统。
CNB2004100537889A 2004-08-12 2004-08-12 基于知识内在涵义的知识信息检索方法及其系统 Expired - Fee Related CN100378727C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2004100537889A CN100378727C (zh) 2004-08-12 2004-08-12 基于知识内在涵义的知识信息检索方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2004100537889A CN100378727C (zh) 2004-08-12 2004-08-12 基于知识内在涵义的知识信息检索方法及其系统

Publications (2)

Publication Number Publication Date
CN1670727A CN1670727A (zh) 2005-09-21
CN100378727C true CN100378727C (zh) 2008-04-02

Family

ID=35041994

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2004100537889A Expired - Fee Related CN100378727C (zh) 2004-08-12 2004-08-12 基于知识内在涵义的知识信息检索方法及其系统

Country Status (1)

Country Link
CN (1) CN100378727C (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866557B (zh) * 2015-05-18 2018-03-20 江南大学 一种基于建构学习理论的个性化即时学习支持系统与方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5594897A (en) * 1993-09-01 1997-01-14 Gwg Associates Method for retrieving high relevance, high quality objects from an overall source
CN1435781A (zh) * 2003-02-24 2003-08-13 杨炳儒 一种基于信息挖掘的智能决策支持构造方法
CN1435780A (zh) * 2003-03-04 2003-08-13 杨炳儒 一种Web挖掘系统的构造方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5594897A (en) * 1993-09-01 1997-01-14 Gwg Associates Method for retrieving high relevance, high quality objects from an overall source
CN1435781A (zh) * 2003-02-24 2003-08-13 杨炳儒 一种基于信息挖掘的智能决策支持构造方法
CN1435780A (zh) * 2003-03-04 2003-08-13 杨炳儒 一种Web挖掘系统的构造方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种基于知识的检索方法研究. 汪自强,余以胜.情报杂志,第1期. 2004 *

Also Published As

Publication number Publication date
CN1670727A (zh) 2005-09-21

Similar Documents

Publication Publication Date Title
Yu et al. Typesql: Knowledge-based type-aware neural text-to-sql generation
Schwartz et al. A comparison of several approximate algorithms for finding multiple (N-best) sentence hypotheses
US20050177358A1 (en) Multilingual database interaction system and method
McDonough et al. Named entity recognition goes to old regime France: geographic text analysis for early modern French corpora
US20160140187A1 (en) System and method for answering natural language question
Avasthi et al. Techniques, applications, and issues in mining large-scale text databases
Hossny et al. Feature selection methods for event detection in Twitter: a text mining approach
CN105760462A (zh) 基于关联数据查询的人机交互方法及装置
Kacprzak et al. Making sense of numerical data-semantic labelling of web tables
Wu et al. SQL-like interpretable interactive video search
Sun A natural language interface for querying graph databases
CN116629258B (zh) 基于复杂信息项数据的司法文书的结构化分析方法及系统
Golub et al. Knowledge organisation for digital humanities: An introduction
WO2016067396A1 (ja) 文の並び替え方法および計算機
CN115210705A (zh) 具有无效值或等效值的关系表的向量嵌入模型
Ritze Web-scale web table to knowledge base matching
CN112380848A (zh) 文本生成方法、装置、设备及存储介质
Dannélls et al. Evaluation and refinement of an enhanced OCR process for mass digitisation.
CN100378727C (zh) 基于知识内在涵义的知识信息检索方法及其系统
Varga et al. Integrating dbpedia and sentiwordnet for a tourism recommender system
Efremova et al. A hybrid disambiguation measure for inaccurate cultural heritage data
Bulfamante Generative enterprise search with extensible knowledge base using AI
Zurini Stylometry metrics selection for creating a model for evaluating the writing style of authors according to their cultural orientation
Ma et al. API prober–a tool for analyzing web API features and clustering web APIs
Kunanets et al. Enhanced LSA Method with Ukraine Language Support.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20080402

Termination date: 20120812