CN1877566B - 基于现有本体产生新概念的系统和方法 - Google Patents
基于现有本体产生新概念的系统和方法 Download PDFInfo
- Publication number
- CN1877566B CN1877566B CN2005100778076A CN200510077807A CN1877566B CN 1877566 B CN1877566 B CN 1877566B CN 2005100778076 A CN2005100778076 A CN 2005100778076A CN 200510077807 A CN200510077807 A CN 200510077807A CN 1877566 B CN1877566 B CN 1877566B
- Authority
- CN
- China
- Prior art keywords
- term
- new ideas
- description
- existing body
- core
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
提供基于现有本体自动产生新概念的系统及其方法。所述系统基于自然语言格式表达的新概念描述在现有本体中建立新概念,包括:正规化部件,用于接收并分析新概念描述,以将其转换成正规化概念描述并输出,其中所述正规化概念描述包括一个或多个具有核心术语的描述部分,所述描述部分只能含有在所述现有本体中能辨识的术语,而所述核心术语包括中心词、零个或多个特性;以及新概念产生部件,用于基于正规化后的新概念描述,识别每一个正规化概念描述部分中的核心术语,并将所识别到的核心术语、相关特征以及核心术语间的关系提取出来,以便用户根据现有本体建立新概念。因此,本体可以轻而易举地被管理、扩充或重用,同时又能保持本体的小尺寸和低复杂性。
Description
技术领域
本发明总的来说涉及一种用于对以自然语言表示的描述进行处理的系统及其方法。具体地说,本发明涉及一种基于以自然语言格式表达的新概念描述、在现有本体中建立新概念的系统及其方法。
背景技术
本体(Ontology)是涉及某些感兴趣的领域的共享理解(sharedunderstanding)的术语,其时常被考虑成一组类别(概念)、关系、功能、公理和实例。通过提供一个清楚而且正式的描述,本体可以大大地协助用户以及应用(application)来理解公知领域知识。其被看作是知识管理方面的支柱。
在过去十年内,已建立了相当数量的本体,其大多数是由关于某些确定领域的通用概念所组成的。然而,在实际应用中,具体应用环节时常需要更加详细的概念。这些详细概念是针对某一确定应用的、更具体的概念,我们称其为新概念,其描述是以自然语言格式表示的确定概念的特性的描述,可以利用现有的本体的概念来表示。通常地说,创建这些详细概念可以仅仅借助于手工进行。要创建这些新概念的人们不得不仔细检查整个本体,标识本体中的新概念和现有概念之间的关系,这整个过程是一种高强度的劳动,并且容易出现差错。总之,有效地建立这些新概念是一件具有挑战性的工作。
发明内容
因此,本发明的目标是提供一种基于现有本体自动产生新的概念的系统及其方法。该系统对本体中的组成部分的重复使用率有极大的提高。该系统不仅提高了建立新概念的效率,而且还明显有利于与本体有关的应用。
为了实现本发明的上述和其他目的,提供一种基于以自然语言格式表达的新概念描述、在现有本体中建立新概念的系统,包括:正规化部件,用于接收并分析新概念描述,以将其转换成正规化概念描述并输出,其中所述正规化概念描述包括一个或多个具有核心术语的描述部分,所述描述部分只能含有在所述现有本体中能辨识的术语,而所述核心术语包括中心词、零个或多个特性;以及新概念产生部件,用于基于正规化后的新概念描述,识别每一个正规化概念描述部分中的核心术语,并将所识别到的核心术语、相关特征以及核心术语间的关系提取出来,以便用户根据现有本体建立新概念。
为了实现本发明的上述和其他目的,提供一种基于以自然语言格式表达的新概念描述、在现有本体中建立新概念的方法,包括步骤:鉴别所接收到的新概念描述是否具有正规化的格式,如果所接收到新概念的描述不具有正规化的格式,则将非正规化格式的新概念描述转换成正规化的描述,其中所述正规化概念描述包括一个或多个具有核心术语的描述部分,所述描述部分只能含有在所述现有本体中能辨识的术语,而所述核心术语包括中心词、零个或多个特性;识别每一个正规化概念描述部分中的核心术语,并提取所识别出的核心术语、相关特征以及核心术语间的关系,由此根据现有本体产生新概念的表达式。
为了实现本发明上述和其他目的,提供一种计算机产品,用于在其上以计算机可读形式存储计算机程序代码,以使得计算机系统执行所述计算机程序代码来实现步骤:鉴别所接收到的新概念描述是否具有正规化的格式,如果所接收到新概念的描述不具有正规化的格式,则将非正规化格式的新概念描述转换成正规化的描述,其中所述正规化概念描述包括一个或多个具有核心术语的描述部分,所述描述部分只能含有在所述现有本体中能辨识的术语,而所述核心术语包括中心词、零个或多个特性;以及识别每一个正规化概念描述部分中的核心术语,并提取所识别出的核心术语、相关特征以及核心术语间的关系,由此根据现有本体产生新概念的表达式。
本发明基于以自然语言格式表达的新概念描述,在现有本体的基础上,动态地产生新概念。通过本发明的上述方法和系统,将可以轻而易举地管理某领域的本体,同时又能保持本体的小尺寸和低复杂性。
附图说明
本领域熟练技术人员通过参考附图可以更好地理解本发明,并且可以明白本发明的众多目的、特征和优点,在附图中,采用的相同标记表示相似或相同的部件,其中:
图1是示出根据本发明的一个实施例的、基于新概念的描述自动或部分自动地建立新概念的系统的方框图;
图2是示出根据本发明的一个实施例的、自动或部分自动地建立新概念的方法的流程图;
图3是详细地示出根据本发明的一个实施例的、基于新概念的描述自动或部分自动地建立新概念的系统的方框图;
图4是示出根据本发明的一个实施例的、图3所示的正规化器的方框图;
图5是示出根据本发明的一个实施例的、图3所示的新概念表达式产生器的结构的框图;
图6是示出将非正规化概念描述转换成正规化概念描述的流程图;
图7是示出根据本发明的一个实施例的、产生新概念的算法的流程图;
图8示出了以有向图表示的某领域的本体的一个实例;以及
图9示出了以有向图表示的某领域的本体的另一个实例。
具体实施方式
以下对本发明的实施例进行详细说明。应该注意,以下描述不应当用来限制本发明。相反,根据本发明的发明构思,本领域普通技术人员可以进行适当改变,这些改变可以落入紧随说明书的权利要求书所限定的发明范围之内。
图1是示出根据本发明的一个实施例的、基于新概念的描述自动或部分自动地建立新概念的系统的方框图。参照图1,自动或部分自动地建立新概念的系统包括正规化部件110和新概念产生部件120。
正规化部件110用于接收并分析以自然语言格式表达的新概念描述,以将其转换成正规化概念描述并输出。所述正规化概念描述包括一个或多个具有中心词、零个或多个特性的描述部分,其中所述描述部分只能是可以在现有本体中辨识的术语。在存在多个描述部分的情况下,各描述部分之间的关系可以是AND/OR/NOT这样的逻辑关系。
应该注意,所述特性(或称为属性)是中心词所代表的个体之间的二元/多元关系,也就是说,属性把两个个体连接在一起。例如,属性″兄弟″可能会把张三和张四这两个个体连接起来,而属性″身高″会把张三和″180公分″连接起来;属性可以有反向属性,例如父亲的反向属性是儿子;属性也可以被限制为只能拥有一个值,即所谓的函数属性;属性还可以是具有传递性或是对称的。在不同的场合,属性也被称作槽(Slot)、角色(Role)、关系(Relation)或者特性(Attribute)等等。
新概念产生部件120用于基于正规化后的新概念描述,根据现有本体为新概念产生表达式。根据所产生的表达式,用户可以利用自然语言格式的新概念描述创建所述新概念。
这里,所述新概念是针对某一确定应用的、更具体的概念,所谓新概念描述是以自然语言格式表示的确定概念的特性的描述,而所述现有本体是目前已经针对很多领域建立的本体,相应领域的基本概念以及这些基本概念的特性已经包含在这些本体中。自然语言描述的一个例子是“自然人身份的贷款者资料”。
图2是示出根据本发明的一个实施例的、自动或部分自动地建立新概念的方法的流程图。参照图2,在步骤S210,正规化部件110鉴别所接收到的、以自然语言格式表达的新概念描述是否具有正规化的格式。如果在步骤S210鉴别出所述新概念描述具有正规化的格式,则处理转移到步骤S220,在其中,由新概念产生部件120根据现有本体为新概念产生表达式。
在步骤S220中产生新概念的形式化表达式的方式有以下几种:通过在现有本体的基本概念的范围上施加约束来创建新概念;以及将施加/没有施加约束的现有本体的基本概念执行交/并/补操作创建新概念。后一种创建新概念的方式可以表示为施加/没有施加约束的现有本体的基本概念的“AND”、“OR”和“NOT”逻辑操作。
如果在步骤210中鉴别出所接收到新概念的描述不具有正规化的格式,则处理转移到步骤S230,在其中,正规化部件110将非正规化格式的新概念描述转换成正规化的描述,并提取每个描述部分中的核心术语、相关特征以及核心术语间的关系。所谓核心术语包括中心词、零个或多个特性。正规化就是将非正规化概念描述分段为一个或多个具有中心词、零个或多个特性的描述部分,并且保存各个描述部分之间的关系,所述关系可以是AND/OR/NOT这样的逻辑关系。这里,如上所述,一个正规化的描述包括一个或多个描述部分,其中子短语(即,所述描述部分)只能是可以在现有本体中辨识的术语。
接下来,处理转移到如上所述的步骤S220,以利用正规化后的新概念描述和相应的核心术语,基于现有本体创建新概念。
接下来,处理还可以执行步骤S240来确认所产生的新概念,并根据确认结果,利用新概念产生部件120对未通过确认的、所产生的新概念进行修改,其中这种修改是本领域技术人员可以根据现有本体来进行的。然后,结束该处理。
值得注意的是,在这里所描述的所有操作步骤不是都必须出现在每一个实际的实施例中。例如,在提取出核心术语、相关特征以及核心术语间的关系以后,用户可以跳过自动概念产生操作步骤S220,而直接创建新概念。应该注意,根据正规化之后的结果,本领域的普通技术人员应该可以直接写出新概念所对应的表达式。例如,如果正规化后得到:”男人并且年龄>30”这样的结果,那么用户自己直接写出:
“<owl:Class>
<owl:unionOf rdf:parseType=“Collection”/>
...”
形式的表达式。
图3是详细地示出根据本发明的一个实施例的、基于新概念的描述自动或部分自动地建立新概念的系统的方框图。参考附图3,根据该实施例的、建立新概念的系统包括正规化描述鉴别器310、描述正规化器320、核心术语识别器330、新概念表达式产生器340以及新概念确认器350。
所述正规化描述鉴别器310用于接收关于新概念的描述,鉴别所述新概念描述是否为正规化概念描述,并直接输出被鉴别为正规化概念描述。
所述描述正规化器320与正规化描述鉴别器310相连,用于分析被正规化描述鉴别器310鉴别为非正规化概念描述,并将所述非正规化概念描述转换成正规化概念描述,然后输出已转换的正规化概念描述。这里,如上所述,所述新概念描述是以自然语言的格式出现的。此外,所述正规化概念描述包括一个或多个描述部分,各个描述部分之间的关系可以是AND/OR/NOT这样的逻辑关系,并且一般来说,每个描述部分中应该有中心词、零个或多个特性。
图4是示出根据本发明的一个实施例的、图3所示的描述正规化器320的方框图。参照图4,图3所示的所述描述正规化器320包括概念描述分段器410、概念识别器420和概念替换器430。概念描述分段器410用于将所接收到的非正规化概念描述分成一个或多个描述部分,其中各个描述部分之间的关系可以是AND/OR/NOT这样的逻辑关系。一般来说,每个描述部分中应该有中心词、零个或多个特性。与所述概念描述分段器410的概念识别器420用于对于所分段出的每个描述部分,识别出其中的、诸如类别和特性之类的核心术语。与所述概念识别器420相连的概念替换器430用于如果所识别出来的核心术语(名称)不具有正规化的形式,则以其在本体中的相应的正规化的形式替换,其中,所述替换是基于所在领域的同义词集和句子相似算法来执行的。这样,通过所述描述正规化器320的处理,原来非正规化概念描述可以转换成正规化概念描述。
值得注意的是,所述概念识别器420与将在下文中描述的所述核心术语识别器330具有相同的结构和功能。
图5示出了根据本发明的一个实施例的新概念表达式产生器340的结构的框图。参考图5,所述新概念表达式产生器340包括最短路径产生器510、语言表达式产生器520和组合表达式产生器530。
以下假定新概念描述中的描述部分为Part1,...,Partn(n>=1),每个描述部分的核心术语H1,...,Hn,每个描述部分Parti中的术语和特性分别为Ci1,...,Cim(m>=0)和Proi1,...,Proiw(w>=0),这里,m=0意味着没有任何其他术语,而w=0意味着在相应描述部分中没有任何特性。
在上述假定下,所述新概念表达式产生器340中的最短路径产生器510对每一个Cij(1<=j<=m),找出从Hi到Cij的最短路径Pathij,该路径应该满足下列要求:
a)如果w>0,则包含某个Proit(1<=t<=w),
b)不包含任何循环,
c)对于该路径中的任何节点Ni,如果Ni为类别,则跟随着边Ej,如果Ej为特性,则目标必须是类别或实例,而如果Ej为父类包容关系(例如,”人”就是”男人”的父类(supper class),”人”和”男人”之间的关系就是“父类包容关系”,类似的关系对比如:(动物,脊椎动物)、(学生,高中生)、(公司,IT公司)等等),则目标必须是类别。
所述语言表达式产生器520接收所述最短路径产生器510的输出,并且利用所述最短路径产生器产生的Pathij,以一定的语言产生相应的表达式Eij。这种语言诸如为OWL(web ontology language,万维网本体语言)或描述逻辑(Description logic)。本方法并不限于上述两种语言。
然后,组合表达式产生器530接收所述语言表达式产生器520所产生的每个Parti中的所有表达式Eij,并基于Cij之间的关系(AND/OR/NOT)(默认设置为AND),将每个Parti中的所有表达式Eij(j的取值范围为1到m)与对应关系组合到一个组合表达式CEi。
具体地说,组合表达式产生器530在产生组合表达式CEi时,首先判断所述描述部分的数量是否大于1。如果判定为所述描述部分的数量大于1,则基于Parti之间的关系(AND/OR/NOT)(默认设置为AND),组合表达式CEi(1<i<=n)并产生最终的概念表达式。否则,如果组合表达式产生器530判定为所述描述部分的数量等于1,则将CEi作为最终的概念表达式。
图6示出了将非正规化概念描述转换成正规化概念描述的流程图。参照图6,在正规化非正规化概念描述的过程中,在步骤S610,利用所述描述正规化器320的所述概念描述分段器410,将非正规化概念描述分段为一个或多个具有中心词、零个或多个特性的描述部分,并且保存各个描述部分之间的关系,所述关系可以是AND/OR/NOT这样的逻辑关系。
在步骤S620,利用所述描述正规化器320中的所述概念识别器420,对于每个描述部分,识别出包含在其中的、诸如类别和特性之类的核心术语。
接下来,在步骤S630,判断所识别出来的核心术语是否具有正规化的形式。如果在步骤S630中鉴别出来的概念中不具有正规化形式的概念,则处理转到步骤S640,在其中基于本体所在领域的同义词集和句子相似算法,以所述核心术语在本体中的相应的正规化的形式替换对应的所述核心术语,然后结束该处理过程。
如果在步骤S630中所鉴别出来的概念都具有正规化的形式,则处理直接结束。
以下以一个例子说明上述处理过程。考虑描述:“自然人和法人拥有的文件(documents which are held by natural person and legal person)”,该描述只包含一个描述部分。关于包含“文件”、“自然人”概念的本体和包含“文件←→材料”同义词对的对应同义词集,其正规化格式是“[自然人AND法人拥有的文件(documents which are held by natural person AND legal person])”。
而对于描述:“信用贷款或抵押贷款(credit loan or mortgage loan)”,其可以被分成两个的描述部分:“信用贷款(credit loan)”和“抵押贷款(mortgageloan)”,它们之间的关系是“OR”。该描述的正规化格式是“[信用贷款]OR[抵押贷款]”。
再回到附图3,通过正规化描述鉴别器310和描述正规化器320输出的新概念描述具有正规化的形式。所述正规化后的新概念描述被输入到核心术语识别器330。核心术语识别器330识别每一个正规化概念描述部分中的核心术语,并将所识别到的核心术语、相关特征以及核心术语间的关系提取出来。核心术语识别器330识别核心术语的方式有两种,其中的一种方式是使用在自然语言处理区域中的核心术语识别方法。例如,对于上述描述:“自然人和法人拥有的材料(documents which are held by natural person and legalperson)”,借助于现有算法(参见EP 1217533:Method and computer systemfor part-of-speech tagging of incomplete sentences.Inventor(s):TARBOURIECH NELLY(FR);POIRIER HERVE(FR);并参见Williams,Geoffrey.(2002)Corpus-driven lexicography and the specialized dictionary:headword extraction for the parasitic plant research dictionary′,in Anna Braaschand Claus Povlsen(eds.)Proceedings of the Tenth EURALEX InternationalCongress,EURALEX 2002,Copenhagen:Center for Sprogteknologi,II,859-864),可以发现这个短语中的“文件”是一个核心术语。这意味着“文件”就是这个描述中的核心术语。
另一种方式是基于现有本体来分析描述中存在的概念。所述本体可以被看成有向图G,在该有向图G中,节点表示术语,而有向边表示术语之间的关系。给定n个术语,令ci表示第i个术语,令d(ci,cj)表示有向图G中的第i个术语ci和第j个术语cj之间的距离,而令s(nodei)表示第i个术语ci可以到达的、在有向图G中的相关术语的总数。对于存在于描述中的每一个术语ci,可以通过以下两个因素来确定其在所属的描述部分中的重要性:
1)s(ci):术语ci可以到达的、在该描述部分中的术语的总数。越重要的术语可以到达越多的术语;
术语ci的重要性被记为Di,可以通过如下公式来计算:
该描述中的核心术语ck是具有最大重要性的值,其中k可以由以下公式确定:
(1≤k≤n)∧(Dk=Max(Di|j=1,n))
核心术语识别器330利用这个公式,可以找出所述核心术语。
例如,对于概念描述部分“[自然人AND法人拥有的文件(documentswhich are held by natural person AND legal person)]”,可以计算出D文件=1,D自然人=0,D法人=0。显然,D文件是其中的最大值,所以术语“文件”为该描述中的核心术语。
再参照图3,在核心术语识别器330提取出正规化描述中的核心术语、相关特征以及核心术语间的关系之后,新概念表达式产生器340可以自动产生新概念。
图7是示出根据本发明的一个实施例的、图3所示的新概念表达式产生器340用来产生新概念的算法的流程图。通过对核心术语识别器330所识别出的核心术语进行特性的限制和/或对它们执行并、补和交操作,新概念表达式产生器340产生新概念表达式。
新概念表达式产生器340产生新概念的算法描述如下:
如上所述,若给定新概念描述中的描述部分为Part1,...,Partn(n>=1),每个描述部分的核心术语H1,...,Hn,每个描述部分Parti中的术语和特性分别为Ci1,...,Cim(m>=0)和Proi1,...,Proiw(w>=0),(这里,m=0意味着没有任何其他术语,而w=0意味着在相应描述部分中没有任何特性)。
在步骤S710,新概念表达式产生器340首先对每一个Cij(1<=j<=m),找出从Hi到Cij的最短路径Pathij,该路径应该满足下列要求:
a)如果w>0,则包含某个Proit(1<=t<=w),
b)不包含任何循环,
c)对于该路径中的任何节点Ni,如果Ni为类别,则跟随着边Ej,如果Ej为特性,则目标必须是类别或实例,而如果Ej为父类包容关系,则目标必须是类别;
然后利用Pathij,以一定的语言产生相应的表达式Eij,这样的语言诸如为OWL或描述逻辑。
然后,处理将基于Cij之间的关系(AND/OR/NOT)(默认设置为AND),将每个Parti中的所有表达式Eij(j的取值范围为1到m)与对应关系组合到一个组合表达式:CEi。具体地说,处理将转移到步骤S720,在其中,判断所述描述部分的数量是否大于1。
如果在步骤S720中判定所述描述部分的数量大于1,则处理转移到步骤S730,在该步骤中,新概念表达式产生器340基于Parti之间的关系(AND/OR/NOT)(默认设置为AND),组合表达式CEi(1<i<=n)并产生最终的概念表达式。然而,结束处理。
而如果在步骤S720中判定所述描述部分的数量等于1,则新概念表达式产生器340将CEi作为最终的概念表达式,然后结束处理。
通常地说,万维网本体语言(OWL)可以全部支持这些类型的表达式。例如,“自然人或法人扮演的借用者的文件”可以由OWL表示为:
<owl:Class>
<rdfs:subClassOf rdf:about=”#Document”/>
<rdfs:subClassOf>
<owl:unionOf rdf:parseType=”Collection”/>
<owl:Restriction>
<owl:onProperty rdf:resource=”#Playedby”/>
<owl:allValuesFrom rdf:resource=”NaturalPerson”/>
</owl:Restriction>
<owl:Restriction>
<owl:onProperty rdf:resource=”#Playedby”/>
<owl:allValuesFrom rdf:resource=”LegalPerson”/>
</owl:Restriction>
</owl:unionOf>
</rfds:subClassOf>
</owl:Class>
所述描述“信用贷款或抵押贷款”可以由OWL表示为:
<owl:Class>
<owl:unionOf rdf:parseType=”Collection”/>
<owl:class rdf:about=”#CreditLoan”>
<owl:class rdf:about=”#MortgageLoan”>
</owl:unionOf>
</owl:Class>
再参照图3,接下来,由新概念表达式产生器340所产生的新概念将由新概念确认器350确认是否确实是所要的新概念,并且在必要时可以修改所产生的新概念。最后,用户基于新概念确认器350输出获得新的类别。显然,这里所获得的类别是以新类别的形式化表达的。
以下将提供特定应用场景来说明如何应用本发明的方法。这个特定应用场景的主要构思是根据关于某一确定应用的用户描述,自动选择现有的实例。
例1:现有类别与特性限制的联合:
图8给出了以有向图表示的某领域的本体的一个实例。参考图8,在这个特定应用场景中,自动选择现有实例的主要步骤是:
1)由用户描述实例的限制
例如,如果用户要获得所有现有喜欢酒的男人和喜欢茶的女人,他可以给定类似于“喜欢酒的男人和喜欢茶的女人(male who likes wine and femalewho likes tea)”这样的描述;
2)正规化正规化之后,该描述将成为“[喜欢酒的男人]AND[喜欢茶的女人]([man who likes wine]AND [woman who likes tea])”;
3)识别核心术语
对于上述例子,对于[喜欢酒的男人]([man who likes wine])来说,核心术语为“男人(man)”,而对于[喜欢茶的女人]([woman who likes tea])来说,核心术语为“女人(woman)”;
4)产生新类别
该发明的系统利用正规化了的描述及其核心术语,按照如下方式产生新类别:
<owl:Class>
<owl:unionOf rdf:parseType=”Collection”/>
<owl:Class>
<rdfs:subClassOf rdf:about=”#man”/>
<rdfs:subClassOf>
<owl:Restriction>
<owl:onProperty rdf:resource=”#like”/>
<owl:allValuesFrom rdf:resource=”#wine”/>
</owl:Restriction>
</rdfs:subClassOf>
</owl:Class>
<owl:Class>
<rdfs:subClassOf rdf:about=”#woman”/>
<rdfs:subClassOf>
<owl:Restriction>
<owl:onProperty rdf:resource=”#like”/>
<owl:allValuesFrom rdf:resource=”#tea”/>
</owl:Restriction>
</rdfs:subClassOf>
</owl:Class>
</owl:unionOf>
</owl:Class>
这里,以OWL格式表示新类别。接下来,用户需要检查该表达式并确认该新类别是否确实为其所要的新类别的;以及
5)获得实例
本发明的系统利用该新类别,可以检查现有实例并选择符合该新类别的定义的那些实例。选择结果是符合描述“喜欢酒的男人和喜欢茶的女人”的那些人。
例2:特性限制
图9出了以有向图表示的某领域的本体的另一个实例。参考图9,在这个特定应用场景下,自动选择现有实例的主要步骤是:
1)由用户描述实例的限制
例如,如果用户要获得所有现有由自然人扮演他们的借用者、他们的目的是买小汽车或房产的贷款,用户可以给定类似于“其借用者是自然人并且其目的是买小汽车或房产的贷款(loan that its borrower is a natural person and itspurpose is to buy car orhouse)”这样的描述;
2)正规化正规化之后,该描述将成为“[其借用者是自然人并且其目的是买汽车或房产的贷款]([loan that its borrower is a natural person and itspurpose is to by automobile or house])”;
3)识别核心术语
对于上述例子,核心术语为“贷款(loan)”;
4)产生新类别
该发明的系统利用正规化了的描述及其核心术语,按照如下方式产生新类别:
<owl:Class>
<rdfs:subClassOf rdf:about=”#Loan”/>
<rdfs:subClassOf>
<owl:Restriction>
<owl:onProperty rdf:resource=”#borrower”/>
<owl:allValuesFrom rdf:resource=”#NaturalPerson”/>
</owl:Restriction>
</rdfs:subClassOf>
<rdfs:subClassOf>
<owl:Restriction>
<owl:onProperty rdf:resource=”#purpose”/>
<owl:allValuesFrom>
<owl:Class>
<owl:unionOf rdf:parseType=”Collection”/>
<owl:class rdf:about=”#Automobile”>
<owl:class rdf:about=”#House”>
</owl:unionOf>
</owl:Class>
<owl:allValuesFrom>
</owl:Restriction>
</rdfs:subClassOf>
</owl:Class>
这里,以OWL格式表示新类别。接下来,用户需要检查该表达式并确认该新类别是否确实为其所要的新类别的;以及
5)获得实例
本发明的系统利用该新类别,可以检查现有实例并选择符合该新类别的定义的那些实例。选择结果是符合描述“其借用者是自然人并且其目的是买小汽车或房产的贷款”的那些。
利用现有方法,用户必须构造一组复杂的查询语句来获得需要的实例,而利用本发明的方法,用户可以仅仅通过提供需要的实例的自然语言的描述,就获得需要的实例。因此,本发明提供了一种轻松和自动的方式来供用户查询数据用。
虽然上面主要以硬件结构或方法步骤来描述了本发明的优选实施例,但根据本发明的系统操作方法也可以实施为计算机程序软件。例如,按照本发明的示范实施例的方法可以体现成一种计算机程序产品,它可以使得计算机执行所示范的一种或多种方法。所述计算机程序产品可以包括计算机可读的介质,其上包含计算机程序逻辑或代码,用于使得所述系统能够按照一种或多种示范方法运行。
所述计算机可读存储介质可以是被安装在计算机主体中的内置介质或者被布置使得它可以从计算机主体拆卸的可移动介质。所述内置介质的示例包括但不限于可重写的非易失性存储器,诸如RAM、ROM、快闪存储器和硬盘。可移动介质的示例可以包括但不限于:光存储媒体,诸如CD-ROM和DVD;磁光存储媒体,诸如MO;磁存储媒体,诸如软盘(商标)、盒带和可移动硬盘;具有内置的可重写的非易失性存储器的媒体,诸如存储卡;具有内置的ROM的媒体,诸如ROM盒。
根据本发明的方法的程序也可以被提供为外部提供的传播信号和/或在载波中包括的计算机数据信号的形式。体现为示范方法的一个或多个指令或功能的所述计算机数据信号可以被承载在用于通过执行示范方法的指令或功能的实体来发送和/或接收的载波上。而且,这样的程序当被记录在计算机可读存储媒体上时可以容易地被存储和分发。
本发明的上述说明本质上仅仅是示范性的,不脱离本发明的要旨的改变都应该包含在本发明的范围内。这样的改变不被看作与本发明的精神和范围的脱离。
Claims (24)
1.一种基于以自然语言格式表达的新概念描述、在现有本体中建立新概念的系统,包括:
正规化部件,用于接收并分析所述新概念描述,以将其转换成正规化概念描述并输出,其中所述正规化概念描述包括一个或多个具有核心术语的描述部分,所述描述部分只能含有在所述现有本体中能辨识的术语,而所述核心术语包括中心词、零个或多个特性;以及
核心术语识别器,用于接收所述正规化后的新概念描述,识别每一个正规化概念描述部分中的核心术语,并将所识别到的核心术语、相关特征以及核心术语间的关系提取出来;
新概念表达式产生器,用于根据现有本体产生新概念的表达式。
2.根据权利要求1所述的在现有本体中建立新概念的系统,其中,在具有多个描述部分的情况下,各个描述部分之间的关系是AND/OR/NOT之一。
3.根据权利要求2所述的在现有本体中建立新概念的系统,其中,所述正规化部件包括:
正规化描述鉴别器,用于鉴别所接收到的新概念描述是否为正规化概念描述,并且直接输出被鉴别为正规化概念描述的新概念描述;以及
与所述正规化描述鉴别器相连的描述正规化器,用于分析被所述正规化描述鉴别器鉴别为非正规化概念描述的描述,将所述非正规化概念描述转换成正规化概念描述,并且输出已转换的正规化概念描述。
4.根据权利要求3所述的在现有本体中建立新概念的系统,其中,所述描述正规化器包括:
概念描述分段器,用于将所接收到的非正规化概念描述分成所述描述部分;
与所述概念描述分段器相连的概念识别器,用于对于所分段出的每个描述部分,识别出其中的核心术语;以及
与所述概念识别器相连的概念替换器,用于如果所识别出来的核心术语不具有正规化形式,则以其在本体中的相应的正规化形式替换,其中,所述替换是基于所在领域的同义词集和句子相似算法来执行的。
5.根据权利要求1-4之一所述的在现有本体中建立新概念的系统,其中,所述核心术语识别器使用在自然语言处理区域中的核心术语识别方法来识别每一个正规化概念描述部分中的核心术语。
6.根据权利要求1-4之一所述的在现有本体中建立新概念的系统,其中,将现有本体看成有向图G,其节点表示术语,而有向边表示术语之间的关系,在给定n个术语的情况下,令ci表示第i个术语,d (ci,cj)表示有向图G中的第i个术语ci和第j个术语cj之间的距离,s(nodei)表示第i个术语ci可以到达的、在有向图G中的相关术语的总数,s(ci)表示术语ci可到达的、在该描述部分中的术语的总数,而表示术语ci与该概念描述中的所有其它术语之间的距离之和,所述核心术语识别器以如下公式计算ci的重要性Di:
并由此取得该描述中的核心术语ck,其中k由下式确定:
(1≤k≤n)∧(Dk=Max(Di|i=1,n))。
7.根据权利要求5所述的在现有本体中建立新概念的系统,其中所述新概念表达式产生器对所述核心术语识别器所识别出的核心术语进行特性的限制和/或对它们执行并、补和交操作,以产生新概念表达式。
8.根据权利要求7所述的在现有本体中建立新概念的系统,其中,所述新概念表达式产生器包括:
最短路径产生器,若新概念描述中的描述部分为Part1,...,Partn,每个描述部分的核心术语H1,...,Hn,每个描述部分Parti中的术语和特性分别为Ci1,...,Cim和Proi1,...,Proiw,这里n>=1,m>=0,w>=0,并且m=0意味着没有任何其他术语,而w=0意味着在相应描述部分中没有任何特性,则所述最短路径产生器用于对每一个Cij,1<=j<=m,找出从Hi到Cij的最短路径Pathij,该路径应该满足下列要求:
a)如果w>0,则包含某个Proit,这里1<=t<=w,
b)不包含任何循环,
对于该路径中的任何节点Ni,如果Ni为类别,则跟随着边Ej,如果Ej为特性,则目标必须是类别或实例,而如果Ej为父类包容关系,则目标必须是类别;
语言表达式产生器,用于利用所述最短路径产生器产生的Pathij,以预定语言产生相应的表达式Eij;以及
组合表达式产生器,用于基于Cij之间的关系AND/OR/NOT,将所述语言表达式产生器产生的每个Parti中的所有表达式Eij与对应关系组合到一个组合表达式CEi,这里j的取值范围为1到m。
9.根据权利要求8所述的在现有本体中建立新概念的系统,其中,所述语言为OWL语言。
10.根据权利要求8所述的在现有本体中建立新概念的系统,其中,所述语言为描述逻辑。
11.根据权利要求8所述的在现有本体中建立新概念的系统,其中,所述组合表达式产生器判断所述描述部分的数量是否大于1,并在所述描述部分的数量大于1时,基于Parti之间的关系组合表达式CEi并产生最终的概念表达式,而当所述描述部分的数量等于1时,将CEi作为最终的概念表达式。
12.根据权利要求1-4之一所述的在现有本体中建立新概念的系统,还包括新概念确认器,用于确认所产生的新概念是否确实是所要的,并在新概念不是所要求的概念的情况下,修改所产生的新概念。
13.一种基于以自然语言格式表达的新概念描述、在现有本体中建立新概念的方法,包括步骤:
鉴别所接收到的新概念描述是否具有正规化的格式,如果所接收到新概念的描述不具有正规化的格式,则将非正规化格式的新概念描述转换成正规化的描述,其中所述正规化概念描述包括一个或多个具有核心术语的描述部分,所述描述部分只能含有在所述现有本体中能辨识的术语,而所述核心术语包括中心词、零个或多个特性;以及
识别每一个正规化概念描述部分中的核心术语,并提取所识别出的核心术语、相关特征以及核心术语间的关系,由此根据现有本体产生新概念的表达式。
14.根据权利要求13所述的在现有本体中建立新概念的方法,其中,在具有多个描述部分的情况下,各个描述部分之间的关系是AND/OR/NOT之一。
15.根据权利要求14所述的在现有本体中建立新概念的方法,其中,所述将非正规化格式的新概念描述转换成正规化的描述包括步骤:
将非正规化概念描述分段为所述描述部分;
对于每个描述部分,识别包含在该描述部分中的核心术语;
判断所识别出来的核心术语是否具有正规化的形式;以及
如果鉴别出来的核心术语中不具有正规化形式的概念,则基于本体所在领域的同义词集和句子相似算法,以所述核心术语在本体中的相应的正规化的形式替换对应的所述核心术语。
16.根据权利要求13-15之一所述的在现有本体中建立新概念的方法,其中,所述识别每一个正规化概念描述部分中的核心术语使用的是在自然语言处理区域中的核心术语识别方法。
17.根据权利要求13-15之一所述的在现有本体中建立新概念的方法,其中,若将所述本体被看成有向图G,其节点表示术语,有向边表示术语之间的关系,并对给定的n个术语,令ci表示第i个术语,令d(ci,cj)表示有向图G中的第i个术语ci和第j个术语cj之间的距离,而令s(nodei)表示第i个术语ci可到达的、在有向图G中的相关术语的总数,则所述识别每一个正规化概念描述部分中的核心术语包括步骤:
利用所计算出的术语ci可到达的、在该描述部分中的术语的总数s(ci)和术语ci与该概念描述中的所有其它术语之间的距离之和计算术语ci的重要性Di:
利用术语ci的重要性Di识别该描述中的核心术语ck,其中k由下列公式确定:
(1≤k≤n)∧(Dk=Max(Di|i=1,n))。
18.根据权利要求13-15之一所述的在现有本体中建立新概念的方法,其中,所述产生新概念的表达式包括:通过在现有本体的基本概念的范围上施加约和/或对现有本体的基本概念执行交/并/补操作创建新概念表达式。
19.根据权利要求18所述的在现有本体中建立新概念的方法,其中,若给定新概念描述中的描述部分为Part1,...,Partn,每个描述部分的核心术语H1,...,Hn,每个描述部分Parti中的术语和特性分别为Ci1,...,Cim和Proi1,...,Proiw,这里,n>=1,m>=0,w>=0,并且m=0意味着没有任何其他术语,而w=0意味着在相应描述部分中没有任何特性,则所述创建新概念表达式包括:
1)对每一个Cij,1<=j<=m,找出从Hi到Cij的最短路径Pathij,该路径应该满足下列要求:
a)如果w>0,则包含某个Proit,这里1<=t<=w,
b)不包含任何循环,
c)对于该路径中的任何节点Ni,如果Ni为类别,则跟随着边Ej,如果Ej为特性,则目标必须是类别或实例,而如果Ej为父类包容关系关系,则目标必须是类别;
2)利用从Hi到Cij的最短路径Pathij,以预定语言产生相应的表达式Eij;以及
3)基于Cij之间的关系AND/OR/NOT,将每个Parti中的所有表达式Eij与对应关系组合到一个组合表达式CEi,这里j的取值范围为1到m。
20.根据权利要求19所述的在现有本体中建立新概念的方法,其中,所述语言为OWL语言。
21.根据权利要求19所述的在现有本体中建立新概念的方法,其中,所述语言为描述逻辑。
22.根据权利要求19所述的在现有本体中建立新概念的方法,其中,所述步骤3)包括步骤:
判断所述描述部分的数量是否大于1;
如果所述描述部分的数量大于1,则基于Parti之间的关系AND/OR/NOT,组合表达式CEi并产生最终的概念表达式,而如果所述描述部分的数量等于1,则将CEi作为最终的概念表达式。
23.根据权利要求13-15之一所述的在现有本体中建立新概念的方法,还包括步骤:
确认所产生的新概念,并根据确认结果对未通过确认的、所产生的新概念进行修改。
24.根据权利要求13-15所述的在现有本体中建立新概念的方法,还包括步骤:
利用正规化后的新概念的形式化表达式和相应的核心术语,基于现有本体创建新概念。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2005100778076A CN1877566B (zh) | 2005-06-09 | 2005-06-09 | 基于现有本体产生新概念的系统和方法 |
US11/447,546 US7685088B2 (en) | 2005-06-09 | 2006-06-05 | System and method for generating new concepts based on existing ontologies |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2005100778076A CN1877566B (zh) | 2005-06-09 | 2005-06-09 | 基于现有本体产生新概念的系统和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1877566A CN1877566A (zh) | 2006-12-13 |
CN1877566B true CN1877566B (zh) | 2010-06-16 |
Family
ID=37510003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2005100778076A Active CN1877566B (zh) | 2005-06-09 | 2005-06-09 | 基于现有本体产生新概念的系统和方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7685088B2 (zh) |
CN (1) | CN1877566B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5175511B2 (ja) * | 2007-09-13 | 2013-04-03 | 株式会社東芝 | オントロジー構築支援装置 |
US20100299288A1 (en) * | 2009-05-19 | 2010-11-25 | Jochen Gruber | Rule-based vocabulary assignment of terms to concepts |
US8332441B2 (en) * | 2010-03-16 | 2012-12-11 | Red Hat, Inc. | Mechanism for unioning file systems using fall-through directory entries |
US8566363B2 (en) | 2011-02-25 | 2013-10-22 | Empire Technology Development Llc | Ontology expansion |
US9201969B2 (en) * | 2013-01-31 | 2015-12-01 | Lexisnexis, A Division Of Reed Elsevier Inc. | Systems and methods for identifying documents based on citation history |
US20140278362A1 (en) * | 2013-03-15 | 2014-09-18 | International Business Machines Corporation | Entity Recognition in Natural Language Processing Systems |
US9501569B2 (en) | 2013-04-23 | 2016-11-22 | Microsoft Technology Licensing, Llc | Automatic taxonomy construction from keywords |
US10628743B1 (en) | 2019-01-24 | 2020-04-21 | Andrew R. Kalukin | Automated ontology system |
US11048877B2 (en) * | 2019-03-06 | 2021-06-29 | International Business Machines Corporation | System and method for generating ontologies using natural language utterances |
CN112115272A (zh) * | 2020-07-30 | 2020-12-22 | 中国民用航空上海航空器适航审定中心 | 适航审查本体知识库 |
CN114969355A (zh) * | 2022-04-29 | 2022-08-30 | 水利部交通运输部国家能源局南京水利科学研究院 | 一种溃坝应急预案本体模型构建方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6654731B1 (en) * | 1999-03-01 | 2003-11-25 | Oracle Corporation | Automated integration of terminological information into a knowledge base |
CN1466046A (zh) * | 2002-07-01 | 2004-01-07 | 财团法人资讯工业策进会 | 以本体论为基础的知识图形系统及方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5511037A (en) * | 1993-10-22 | 1996-04-23 | Baker Hughes Incorporated | Comprehensive method of processing measurement while drilling data from one or more sensors |
US20040083199A1 (en) * | 2002-08-07 | 2004-04-29 | Govindugari Diwakar R. | Method and architecture for data transformation, normalization, profiling, cleansing and validation |
US8561069B2 (en) * | 2002-12-19 | 2013-10-15 | Fujitsu Limited | Task computing |
-
2005
- 2005-06-09 CN CN2005100778076A patent/CN1877566B/zh active Active
-
2006
- 2006-06-05 US US11/447,546 patent/US7685088B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6654731B1 (en) * | 1999-03-01 | 2003-11-25 | Oracle Corporation | Automated integration of terminological information into a knowledge base |
CN1466046A (zh) * | 2002-07-01 | 2004-01-07 | 财团法人资讯工业策进会 | 以本体论为基础的知识图形系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
US20080301083A1 (en) | 2008-12-04 |
US7685088B2 (en) | 2010-03-23 |
CN1877566A (zh) | 2006-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1877566B (zh) | 基于现有本体产生新概念的系统和方法 | |
Jung | Semantic vector learning for natural language understanding | |
CN106776936B (zh) | 智能交互方法和系统 | |
Rabelo et al. | COLIEE 2020: methods for legal document retrieval and entailment | |
CN112434535B (zh) | 基于多模型的要素抽取方法、装置、设备及存储介质 | |
Sleeman et al. | Topic modeling for RDF graphs | |
CN110750635A (zh) | 一种基于联合深度学习模型的法条推荐方法 | |
CN108153729A (zh) | 一种面向金融领域的知识抽取方法 | |
CN114817576A (zh) | 模型训练及专利知识图谱补全方法、装置及存储介质 | |
Bakhtiari et al. | A latent Beta-Liouville allocation model | |
Kovvuri et al. | Pirc net: Using proposal indexing, relationships and context for phrase grounding | |
Castano et al. | Enforcing legal information extraction through context-aware techniques: The ASKE approach | |
US11915157B2 (en) | Computerized method of training a computer executed model for recognizing numerical quantities | |
Thuy et al. | Leveraging foreign language labeled data for aspect-based opinion mining | |
Luong et al. | Domain identification for intention posts on online social media | |
Kim et al. | Accelerating road sign ground truth construction with knowledge graph and machine learning | |
Joshi et al. | Patent Classification with Intelligent Keyword Extraction | |
KR102406961B1 (ko) | 자가 지도학습을 통한 데이터 특성 학습 방법 및 가짜 정보 판별 방법 | |
Ghosh | End-to-End discourse parsing with cascaded structured prediction | |
CN115098629A (zh) | 文件处理方法、装置、服务器及可读存储介质 | |
Christy et al. | A hybrid model for topic modeling using latent dirichlet allocation and feature selection method | |
CN113849639A (zh) | 一种城市级数据仓库主题模型类别的构建方法及系统 | |
Ebadati et al. | A hybrid clustering technique to improve big data accessibility based on machine learning approaches | |
Loukas et al. | DICoE@ FinSim-3: Financial hypernym detection using augmented terms and distance-based features | |
Mishra et al. | Re-Thinking Text Clustering for Images with Text |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |