CN101145152A - 在特定上下文内自动精细化本体的系统和方法 - Google Patents

在特定上下文内自动精细化本体的系统和方法 Download PDF

Info

Publication number
CN101145152A
CN101145152A CNA2006101537067A CN200610153706A CN101145152A CN 101145152 A CN101145152 A CN 101145152A CN A2006101537067 A CNA2006101537067 A CN A2006101537067A CN 200610153706 A CN200610153706 A CN 200610153706A CN 101145152 A CN101145152 A CN 101145152A
Authority
CN
China
Prior art keywords
relation
attribute
outline
clashes
meticulous
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006101537067A
Other languages
English (en)
Other versions
CN101145152B (zh
Inventor
王晨
马力
潘越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CN2006101537067A priority Critical patent/CN101145152B/zh
Priority to US11/853,852 priority patent/US7925637B2/en
Publication of CN101145152A publication Critical patent/CN101145152A/zh
Application granted granted Critical
Publication of CN101145152B publication Critical patent/CN101145152B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种用于在特定上下文内自动精细化本体的系统和方法,其中该系统包括:富上下文提取器,用于发现存在于原始本体大纲和应用数据之间的语义关系冲突;以及本体大纲和映射精细化器,用于根据由所述富上下文提取器发现的所述语义关系冲突来精细化所述原始本体大纲,并且在精细化后的本体大纲和所述应用数据的数据大纲之间创建新的映射。根据本发明,由于基于应用数据内的上下文而自动精细化本体大纲,因此用户可以节省大量手工精细化工作。

Description

在特定上下文内自动精细化本体的系统和方法
技术领域
本发明涉及语义技术领域,特别涉及基于各种应用数据内的上下文的本体精细化。
背景技术
随着信息技术的快速发展,信息集成不可避免地已经成为重要任务之一。此外,异构数据源上“松耦合”的信息集成由于大大降低了部署成本以及能够更加快速地响应变化的商业需求而使企业获益。为了支持信息系统的互操作性和集成,显式地使数据附有语义已经成为一种共识。本体(Ontology)作为用于描述领域的术语的分级结构化集合,目前被认为是最通用的向数据附加语义的方案。实际上,万维网联盟(W3C)最近推荐了资源描述框架(RDF)作为核心数据模型,并且推荐了网络本体语言(OWL)作为语义网中的本体表示语言。
诸如资源描述框架大纲(RDFS)是一种由领域专家归纳的共享领域知识。一般而言,它可以广泛地应用到特定应用领域内的各种数据中,或者可以由其填充。例如,图1示出了证券业中的简单本体示例。该图的上部表示语义网中的本体大纲或RDFS,其描述在领域内使用的术语以及它们之间的分级结构(或分类)。下部表征数据填充本体大纲的一般示例。
然而,并不能保证领域专家所归纳的本体大纲可以完全满足特定领域内的各种应用需求。假定一个应用场景需要查询交易股票的时间以及这些交易所涉及的金额,则将接触到与上面一般示例不同的数据。图2示出了证券业领域内在共享本体大纲和应用数据之间发生的冲突。在姓名为“DavidJohnson”的持股者“ID1”和名称为“IBM”的上市公司“ID2”之间存在3个独立的股票交易。虽然这3个交易中的每一个确实都代表由“ID1”拥有的一种“持股”关系,但是它们不能用完备的上下文填充本体大纲。这一特性是本体所固有的,这是因为它仅允许在本体大纲中定义的类包含其属性。因此,不能用各种数据实例填充属性本身。
为了消除现有本体大纲和应用数据之间的冲突,例如,图2中在“ID1”和“ID2”之间发生的场景,直观地将考虑仅仅三种方式。
第一种方式是完全忽略本体大纲,并且完全依赖数据大纲。已经存在一些数据集成工具用来从关系数据库、可扩展标记语言(XML)等的数据大纲提取RDFS。通过它们,我们完全可以从数据库提取本体大纲,这可能与领域内的公知本体大纲相差很大。对于该方法,已经发现了很多限制。例如,数据大纲必须组织得非常好,从而适于应用需求,以防提取冗余和错误的类和属性。然而,在大多数情况下,该要求太严厉而不能得到满足。此外,那些公知的本体大纲已经经历了领域内的严格训练和锤炼。即使它们不能完全覆盖特定应用中的所有需求,但是仍然应当继续使用和扩展而非取代它们。
第二种方式是忽略包含在数据内的、诸如交易时间和金额的详细信息。它与现有的本体大纲是兼容的。我们可能只是构建本体大纲中的“持股”属性与实际系统中从存储持股者信息的表到记录上市公司的表的连接操作的表达式之间的映射。将不会额外花功夫来消除冲突。然而,一些特定应用需求,例如,查询股票交易时间,将不能被现有的本体大纲支持。
与前两种方式不同,第三种方式是通过用详细信息增强语义来重建或精细化本体大纲。通过以包含在应用数据中的特性丰富化本体大纲,上述一些已存的应用需求,例如,查询股票交易时间,可能继续在基于本体的应用环境中得到满足。
图3示出了通过将“持股”属性变换成“交易”类的精细化本体大纲示例,其中“交易”类可以包含诸如交易时间和金额的属性。在本例中,数据内的语义内容毫无丢失地填充精细化本体大纲。按照上述的本体内在特性,“ID1”和“ID2”之间的每个交易关系被引用为新的“交易”类而非旧本体大纲中的“持股”属性的实例。从“持股者”指向到“上市公司”的属性“持股”被变换成一种间接关系,其中类用来定义在语义上包含在关系数据内的属性。通过这种方式,在此可能进行不被第二种方式支持的查询。
图3所示的基于上下文的本体大纲精细化方法已经公认为最直观和常用的方式来消除这样的冲突,即被定义为两个类之间的关系的属性太笼统而不能生动地表征它所包含的各种语义。遗憾的是,大部分的精细化工作是手工进行的。在这种情形下,精细化的本体大纲是否适于应用由用户所掌握的知识和经验所决定。这对于实现目标无疑是代价高的。
除了设计时的巨大成本之外,在运行时动态监视不一致性更加困难。随着数据的演变,即使数据大纲是稳定的或者具有很少修改,数据内容也将有可能引起本体大纲的变化。例如,公司的所有首席执行官(CEO)最初在任何两个任期内都不同,因此在应用中,用户可以仅简单地定义一个担任属性去描述CEO和公司之间的关系。然而,自从某时以后,过去担当公司CEO的人又回来继续担当CEO。该场景不会损害数据大纲,但是损害以前定义的本体大纲。它必须完全依赖于在运行时自动精细化本体的工具。
为了节省成本,期盼开发一种智能代理来完成该工作。即使自动精细化的本体大纲不是用户期望采用的最终本体大纲,这也没有关系,因为大部分特性已被发现。用户可以仅仅通过对自动精细化的本体大纲进行较小的修改来设计他们所期望的本体大纲。本发明所要解决的就是基于隐藏在数据内的上下文而自动地精细化本体大纲。
发明内容
本发明解决了本技术领域内关于手工本体精细化的缺点,并且提供了一种新颖且非显而易见的、用于基于各种应用数据内的上下文而自动精细化本体的方法和系统。
根据本发明,可以自动发现比应用数据被映射到的本体大纲更丰富的上下文,并且将其进一步应用于本体本身,以增强其对应用的适合性。更丰富的上下文(以下也被称作“富上下文”)主要是指隐藏在数据内的关系类,而该关系类在以前的本体大纲中被标记为其它类的属性。在通过将属性“升级”成新的关系类来丰富化本体之后,它可以支持涉及新类的各种应用需求。
根据本发明的一方面,提供了一种用于在特定上下文内自动精细化本体的系统,其包括:富上下文提取器,用于发现存在于原始本体大纲和应用数据之间的语义关系冲突;以及本体大纲和映射精细化器,用于根据由所述富上下文提取器发现的所述语义关系冲突来精细化所述原始本体大纲,并且在精细化后的本体大纲和所述应用数据的数据大纲之间创建新的映射。
在本发明的一个实施例中,所述富上下文提取器通过在所述原始本体大纲内提取与所述应用数据内的语义关系发生冲突的关系属性,发现存在于所述原始本体大纲和所述应用数据之间的冲突,并且所述本体大纲和映射精细化器通过将由所述富上下文提取器提取的所述发生冲突的关系属性变换成新的关系类来精细化所述原始本体大纲。
在本发明的另一实施例中,所述本体大纲和映射精细化器在将所述发生冲突的关系属性变换成所述新的关系类之后,还用路径表达式表现所述原始本体大纲内受到影响的子属性关系,其中所述路径表达式通过组合所述发生冲突的关系属性所桥接的类与所述新关系类之间的关系属性而得到。
根据本发明的另一方面,提供了一种用于在特定上下文内自动精细化本体的方法,其包括以下步骤:a)发现存在于原始本体大纲和应用数据之间的语义关系冲突;以及b)根据所发现的所述语义关系冲突来精细化所述原始本体大纲,并且在精细化后的本体大纲和所述应用数据的数据大纲之间创建新的映射。
在本发明的一个实施例中,通过在所述原始本体大纲内提取与所述应用数据内的语义关系发生冲突的关系属性,发现存在于所述原始本体大纲和所述应用数据之间的冲突,并且通过将所提取的所述发生冲突的关系属性变换成新的关系类来精细化所述原始本体大纲。
在本发明的另一实施例中,在将所述发生冲突的关系属性变换成所述新的关系类之后,还用路径表达式表现所述原始本体大纲内受到影响的子属性关系,其中所述路径表达式通过组合所述发生冲突的关系属性所桥接的类与所述新关系类之间的关系属性而得到。
根据本发明,由于基于应用数据内的上下文而自动精细化本体大纲,因此用户可以节省大量手工精细化工作。
另外,根据本发明,由于用路径表达式表现本体大纲内受到影响的子属性关系,因此改进了表示本体大纲内父属性和子属性之间的继承关系的能力。
附图说明
通过结合附图对本发明的优选实施例进行详细描述,本发明的上述和其它目的、特性、优点将会变得更加清楚,其中:
图1示出了由证券业的专家预定义的本体的示例。
图2示出了在预定义的本体和数据之间存在的冲突的示例。
图3示出了根据现有技术的、用于消除冲突的方案的示例。
图4示出了应用于本发明的系统的框图。
图5示出了应用干本发明的方法的示例性流程图。
图6示出了与关系数据相映射的本体的初始处理之后的示例图。
图7示出了将冲突属性变换成关系类的处理之后的示例图。
图8示出了重建RDFS中的“subpropertyof(子属性关系)”关系的处理之后的示例图。
具体实施方式
本发明涉及一种用于在上下文内自动精细化本体的系统和方法。根据本发明,将逐一地检查本体大纲内两个类之间的属性。一旦发现与数据内的语义关系不一致,则将收集它们,并且进一步发现它们依赖于数据内的哪些属性字段。在将所有这些冲突属性变换成新类并且引用数据内的其所依赖的字段作为这些类的属性之后,可以继续重新组织“subpropertyof”,其中用路径表达式代替作为属性的宾语。这样,生成精细化的本体大纲,并且还将新类中的这些属性映射到对应的数据大纲中。
下面参考附图来详细描述根据本发明的本体自动精细化系统和方法。需要注意的是,为了便于说明起见,在下文中选择了RDF模型用于本体表示,并且选择了关系数据库中的关系表用于数据存储。但是,本领域的技术人员应当清楚,本体表示模型和数据存储格式不限于此。例如,本体表示模型还可以是OWL模型等,并且数据存储格式还可以是XML等。
图4示出了根据本发明的系统100的框图。如图4所示,根据本发明的系统100为用虚线包围的矩形部分,并且两个椭圆部分分别是本系统100的输入和输出。通过最近的数据集成工具,可以用相同领域内的现有数据填充本体大纲,其中本体大纲例如为RDFS格式,而现有数据例如存储在关系数据库中。一般方式是构建RDFS和数据大纲之间的映射图。通过本系统100,将用来自应用数据的更丰富上下文精细化RDFS,并且还将生成精细化RDFS和原始数据大纲之间的新映射图。
本系统100主要包括两个功能模块,即富上下文提取器110和RDFS和映射精细化器120。富上下文提取器110用于发现在RDFS中的关系属性和数据内的实际依赖关系之间存在的、已经在背景技术部分中说明的类型的语义关系冲突。这种冲突体现了不能仅仅从RDFS表达中精确地说明隐藏在实际数据内的语义或规则。RDFS和映射精细化器120用于根据前面提取的结果来更新RDFS,并且在RDFS和数据大纲之间创建新的映射。
具体地说,富上下文提取器110用于找出RDFS中指向到其它类的那些属性,其不能完全描述应用数据内的语义。换句话说,当属性具有全都相同的多个值时,本体不能生动地区分它们。在这种情形下,除非可以忽略这种语义,否则必须重新组织RDFS来支持此功能性。通过富上下文提取器110,收集了RDFS中的属性和对应的数据大纲。
RDFS和映射精细化器120主要用来通过将所发现的属性变换成具有从对应数据大纲提取的新属性的新类来重新组织RDFS。此外,RDFS和映射精细化器120最后还构建精细化RDFS和原始数据大纲之间的新映射。
下面根据图5所示的示例性流程图详细说明了本发明的本体自动精细化方法。显然地,根据本发明的本体自动精细化方法不局限于图5所示的示例性方法,并且根据此处的教导,本领域的技术人员可以针对具体情况设计出不同的实现方式。
参照图5,本示例性方法对应于图4的系统100,其中步骤S210-S270对应于富上下文提取器110的过程,而步骤S310-S350对应于RDFS和映射精细化器120的过程。
富上下文提取器110的过程递归地尝试检查在其中存在属性的两个类之间发生的实例关系。这样,首先要做的是在步骤S210,构建候选列表L,其中每个项目是桥接两个类的属性,并且可以容易地从RDFS中检索得到。在RDF模型中,将数据有序地存储为三元组的集合,其中每个三元组为“(主语,属性,宾语)”。当“主语”和“宾语”是一种类或者具有类标签时,将把“属性”添加到列表L中作为候选属性。在扫描了整个RDFS表之后,可以收集所有可能的候选属性。
接下来,在步骤S220,富上下文提取器110的过程进入循环。只有当列表L为空时,该过程才将结束。结束条件表示已经检查了所有可能候选属性。假定从列表L的剩余部分中选择了候选属性P以便检查,则需要在步骤S230从映射表中找出对应的列(即,属性字段)信息,其中映射表记录在RDFS中描述的术语和数据大纲之间的每个映射关系。对应列信息意味着属性P本身和P所桥接的两个类的列信息。通过扫描映射表,可以方便地发现对应列。
为了快速检查在当前循环内是否发生上述冲突,需要在步骤S240创建临时表T,其包括前面发现的对应列。另外,通过一系列连接和投影操作,不同表中的原始数据将填入到表T。特别地,还可以对与P所桥接的两个类内的标识属性相关的列组建立索引。其优点是加速检查冲突的工作。
在数据在表T中准备就绪之后,该过程将继续在步骤S250按照代表P所桥接的两个类的列对它们进行分组,并且对每组的记录进行计数。然后,在步骤S260,判断是否存在至少一个其记录计数超过一的组。只有当存在至少一个其记录计数超过一的组时,才能证实发生了冲突。如果在当前循环中没有检查到冲突,则该过程将把属性P移出列表L,并且返回到步骤S220进入下一循环。否则,它必须在步骤S270将属性P标记为将在RDFS中应用的关系类。另外,还将把与属性P相对应的信息存储到表中。同时,还将更新列表R,其表示要被发现的关系类的集合。最后,该过程将把属性P移出列表L,并且返回到步骤S220进入下一循环。
通过富上下文提取器110的递归过程,可以发现在各个属性P及其对应数据之间发生的所有冲突。从而,需要进一步将这些发现体现到本体大纲中。图5中的RDFS和映射精细化器120的过程起到这样的作用。
首先,精细化器120的过程在步骤S310扫描在第一过程中发现的列表R,并且记录在RDFS中精细化所需的所有属性,并且检查在其中是否剩有项目I。只有当列表R不为空时,才将递归性地采取下列步骤来用关系类更新RDFS。这里,R中的每个项目I表示在RDFS中发现的属性,并且还与数据大纲中的一组列相链接。
这些列出现在起到在原始RDFS中属性I所桥接的两个类之间连接的作用的那些表中。它们将是要应用在新关系类中的属性的候选集合。很直观的是,将所有属性都包含到类中。然而,如果存在太多列,则还可以选择它们中的一些作为属性。在这样的情形下,作为表中的键的列是必选的,而其它列是可选的。在步骤S320,在将映射到所选列的那些属性包含到新关系类中之后,可以用RDFS中的新关系类替换属性I。注意,还应当新建分别桥接新类与P在原始RDFS中所桥接的两个旧类的两个属性。然后,在步骤S330,用RDFS中的新关系类更新原始RDFS。整个循环将不结束,直至如上处理了在原始RDFS中发现的所有属性。
在从属性到关系类的这一系列变换之后,该过程将继续在步骤S340更新属性和变换类之间的“subpropertyof”。由于RDFS中的部分属性已被变换成类,因此其上的“subpropertyof”关系将会受到影响。为了保证RDFS上下文中的完整性,必须应用新方法来解决这一问题。这里,我们依赖于路径表达式的思想来表现关系。在两个场景中将发生RDFS中的“subpropertyof”。一个场景是传统地在两个属性之间发生。另一个场景是在属性和路径表达式之间发生。简单地,路径表达式包括两个属性。一个属性来自所变换的属性所依赖的类,并且另一个属性来自新关系类。通过组合这两个属性,可以在RDFS中按照传统由被变换的属性链接的两个类之间建立间接关系。按照该间接关系,该过程将允许将“subpropertyof”的表现从属性变成路径表达式。例如,最初是“(主语子属性宾语)”。“主语”和“宾语”都引用两个类中的属性。假定“宾语”属性已被变换成类,则应当将其表示为“宾语等于路径”的路径表达式。这两个属性的复合将是诸如“节点1是属性A”和“节点2是属性B”的路径。另外,必须标记路径内的包含,例如“路径具有节点1”和“路径具有节点2”。
通过对所有“subpropertyof”关系的更新,该过程将完成RDFS精细化的过程,并且继续在步骤S350重建RDFS术语和数据大纲中的列之间的新映射。该部分主要用于在新类中为在上述处理中生成的属性创建新映射。从列自动地提取属性。其映射实际上已经记录在列表R中。因此,可以仅仅拷贝R中的对应项目,作为精细化RDFS的映射信息。
通过富上下文提取器110以及RDFS和映射精细化器120这两个主要部分,该过程可以生成正如图5的左下部示出的精细化本体。
为了便于说明该处理,作为示例,我们将提供下面场景。图3描述了在RDFS和真实数据之间发生的冲突将被消除的示例图。借用这一情况,我们将描述对RDFS的变换和精细化处理。
图6示出了本发明的过程在本例中的输入。为了清楚起见,数据已被存储在表中,并且还包括了其实体关系(ER)模型。通过数据集成工具进行了数据和本体大纲(或RDFS)之间的映射。首先,该过程将通过扫描“交易”表来找出在RDFS中的“持股”关系与数据之间发生的冲突。这里,该过程将记录对应的信息,以便对冲突进行进一步的处理。
在递归发现了这种冲突之后,该过程将逐一地解决它们。它将为每个冲突属性创建新关系类。如图7所示,已经构建了“交易”类,并且该类还包含两个新属性“年”和“月”,这两个属性都是从“交易”表中的数据列提取的。此外,创建了关系“做”和“与”,以桥接最初由“持股”属性链接的两个类“人”和“公司”。在此注意,上述冲突已被消除。“交易”表中的每个记录可以是RDFS中的“交易”类的实例。
由于将新类注入到RDFS中,因此RDFS中的原始上下文将可能没有意义。例如,“持股”属性是“人”和“公司”之间的一种“控制”关系。在将属性变换成“交易”类时,因为新类“交易”的每个新属性不能在语义上独立地代替“持股”属性,所以原始上下文将会丢失。因此,必须在下一步解决图7所示的新冲突。
为了避免RDFS中的语义的丢失,我们将路径表达式的新格式采用到RDF模型中。例如,如图8所示,原始属性“持股”可以用从“董事”类的新属性“做”经由新属性“与”到“上市公司”类的路径代替。将属性“做”和“与”分别映射到“交易”表内的列“PID”和“CID”中。借用基于“PID”和“CID”列的、表“人”、“交易”和“公司”之间的连接表达式,可以描述“董事”和“上市公司”类之间的“持股”内部关系。这里,操作符Θ表示图8中的“做”和“与”属性的路径表达式。
最后,基于精细化的本体,将构建这些新属性与数据大纲中的列的映射。图3示出了作为输出的本体的最终逻辑型式。
本领域的技术人员知道,本发明的本体自动精细化系统和方法可以通过仅软件、仅硬件和/或软件与硬件相结合的方式来实现,因此,其实现方式不对本发明的技术范围构成限制。
另外,本发明的方法不限于按照说明书中所描述的时间顺序来执行,也可以按照其它的时间顺序,或并行或独立地执行,因此,本发明中描述的方法的执行顺序不对本发明的技术范围构成限制。
尽管以上参照具体实施例对本发明进行了详细的描述,但是本领域的技术人员知道,在不脱离本发明的精神和范围的情况下,可以对本发明的实施例做出各种修改、替换和变更。

Claims (14)

1.一种用于在特定上下文内自动精细化本体的系统,包括:
富上下文提取器,用于发现存在于原始本体大纲和应用数据之间的语义关系冲突;以及
本体大纲和映射精细化器,用于根据由所述富上下文提取器发现的所述语义关系冲突来精细化所述原始本体大纲,并且在精细化后的本体大纲和所述应用数据的数据大纲之间创建新的映射。
2.如权利要求1所述的系统,其中
所述富上下文提取器通过在所述原始本体大纲内提取与所述应用数据内的语义关系发生冲突的关系属性,发现存在于所述原始本体大纲和所述应用数据之间的冲突,以及
所述本体大纲和映射精细化器通过将由所述富上下文提取器提取的所述发生冲突的关系属性变换成新的关系类来精细化所述原始本体大纲。
3.如权利要求2所述的系统,其中
除了提取所述发生冲突的关系属性之外,所述富上下文提取器还提取与所述发生冲突的关系属性相对应的数据大纲,以及
所述本体大纲和映射精细化器在将所述发生冲突的关系属性变换成所述新的关系类之后,还引用与所述发生冲突的关系属性相对应的数据大纲作为所述新关系类的属性。
4.如权利要求2所述的系统,其中所述本体大纲和映射精细化器在将所述发生冲突的关系属性变换成所述新的关系类之后,还用路径表达式表现所述原始本体大纲内受到影响的子属性关系,其中所述路径表达式通过组合所述发生冲突的关系属性所桥接的类与所述新关系类之间的关系属性而得到。
5.如权利要求3所述的系统,其中所述本体大纲和映射精细化器通过将所述新关系类的所述属性映射到所述与所述发生冲突的关系属性相对应的数据大纲中,在所述精细化后的本体大纲和所述应用数据的数据大纲之间创建新的映射。
6.如权利要求1所述的系统,其中所述本体的表示模型为资源描述框架模型或网络本体语言模型。
7.如权利要求1所述的系统,其中所述应用数据的存储格式是关系数据库中的关系表或可扩展标记语言。
8.一种用于在特定上下文内自动精细化本体的方法,包括以下步骤:
a)发现存在于原始本体大纲和应用数据之间的语义关系冲突;以及
b)根据所发现的所述语义关系冲突来精细化所述原始本体大纲,并且在精细化后的本体大纲和所述应用数据的数据大纲之间创建新的映射。
9.如权利要求8所述的方法,其中
在步骤a)中,通过在所述原始本体大纲内提取与所述应用数据内的语义关系发生冲突的关系属性,发现存在于所述原始本体大纲和所述应用数据之间的冲突,以及
在步骤b)中,通过将所提取的所述发生冲突的关系属性变换成新的关系类来精细化所述原始本体大纲。
10.如权利要求9所述的方法,其中
在步骤a)中,除了提取所述发生冲突的关系属性之外,还提取与所述发生冲突的关系属性相对应的数据大纲,以及
在步骤b)中,在将所述发生冲突的关系属性变换成所述新的关系类之后,还引用与所述发生冲突的关系属性相对应的数据大纲作为所述新关系类的属性。
11.如权利要求9所述的方法,其中
在步骤b)中,在将所述发生冲突的关系属性变换成所述新的关系类之后,还用路径表达式表现所述原始本体大纲内受到影响的子属性关系,其中所述路径表达式通过组合所述发生冲突的关系属性所桥接的类与所述新关系类之间的关系属性而得到。
12.如权利要求10所述的方法,其中
在步骤b)中,通过将所述新关系类的所述属性映射到所述与所述发生冲突的关系属性相对应的数据大纲中,在所述精细化后的本体大纲和所述应用数据的数据大纲之间创建新的映射。
13.如权利要求8所述的方法,其中所述本体的表示模型为资源描述框架模型或网络本体语言模型。
14.如权利要求8所述的方法,其中所述应用数据的存储格式是关系数据库中的关系表或可扩展标记语言。
CN2006101537067A 2006-09-14 2006-09-14 在特定上下文内自动精细化本体的系统和方法 Active CN101145152B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2006101537067A CN101145152B (zh) 2006-09-14 2006-09-14 在特定上下文内自动精细化本体的系统和方法
US11/853,852 US7925637B2 (en) 2006-09-14 2007-09-12 System and method for automatically refining ontology within specific context

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2006101537067A CN101145152B (zh) 2006-09-14 2006-09-14 在特定上下文内自动精细化本体的系统和方法

Publications (2)

Publication Number Publication Date
CN101145152A true CN101145152A (zh) 2008-03-19
CN101145152B CN101145152B (zh) 2010-08-11

Family

ID=39189865

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006101537067A Active CN101145152B (zh) 2006-09-14 2006-09-14 在特定上下文内自动精细化本体的系统和方法

Country Status (2)

Country Link
US (1) US7925637B2 (zh)
CN (1) CN101145152B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014173108A1 (zh) * 2013-04-25 2014-10-30 华为技术有限公司 一种数据分类的方法及装置
CN109063114A (zh) * 2018-07-27 2018-12-21 华南理工大学广州学院 能源云平台的异构数据集成方法、装置、终端及存储介质

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110047056A1 (en) * 2008-10-11 2011-02-24 Stephen Overman Continuous measurement and independent verification of the quality of data and processes used to value structured derivative information products
EP2246810A1 (en) * 2009-04-30 2010-11-03 Collibra NV/SA Method for ontology evolution
US8204865B2 (en) * 2009-08-26 2012-06-19 Oracle International Corporation Logical conflict detection
US9069848B2 (en) * 2009-09-29 2015-06-30 International Business Machines Corporation Automatic taxonomy enrichment
US9037615B2 (en) 2010-05-14 2015-05-19 International Business Machines Corporation Querying and integrating structured and unstructured data
US8355905B2 (en) * 2010-05-14 2013-01-15 International Business Machines Corporation Mapping of relationship entities between ontologies
US9330115B2 (en) * 2010-08-06 2016-05-03 International Business Machines Corporation Automatically reviewing information mappings across different information models
US8719770B2 (en) * 2010-09-09 2014-05-06 International Business Machines Corporation Verifying programming artifacts generated from ontology artifacts or models
KR101083313B1 (ko) * 2011-06-03 2011-11-15 한국과학기술정보연구원 온톨로지 스키마 기반 인스턴스 경로 탐색 방법 및 장치
US9547693B1 (en) 2011-06-23 2017-01-17 Palantir Technologies Inc. Periodic database search manager for multiple data sources
US9104720B2 (en) * 2012-06-28 2015-08-11 International Business Machines Corporation Generation of technical description of report from functional description of report
US9798768B2 (en) 2012-09-10 2017-10-24 Palantir Technologies, Inc. Search around visual queries
US9953075B1 (en) * 2012-12-27 2018-04-24 EMC IP Holding Company LLC Data classification system for hybrid clouds
US9116975B2 (en) 2013-10-18 2015-08-25 Palantir Technologies Inc. Systems and user interfaces for dynamic and interactive simultaneous querying of multiple data stores
US9582495B2 (en) * 2014-06-17 2017-02-28 Business Objects Software Ltd. Domain knowledge driven semantic extraction system
US9535974B1 (en) 2014-06-30 2017-01-03 Palantir Technologies Inc. Systems and methods for identifying key phrase clusters within documents
US9619557B2 (en) 2014-06-30 2017-04-11 Palantir Technologies, Inc. Systems and methods for key phrase characterization of documents
US10552994B2 (en) 2014-12-22 2020-02-04 Palantir Technologies Inc. Systems and interactive user interfaces for dynamic retrieval, analysis, and triage of data items
US9348920B1 (en) 2014-12-22 2016-05-24 Palantir Technologies Inc. Concept indexing among database of documents using machine learning techniques
US9817563B1 (en) 2014-12-29 2017-11-14 Palantir Technologies Inc. System and method of generating data points from one or more data stores of data items for chart creation and manipulation
US9348880B1 (en) * 2015-04-01 2016-05-24 Palantir Technologies, Inc. Federated search of multiple sources with conflict resolution
US9881066B1 (en) 2016-08-31 2018-01-30 Palantir Technologies, Inc. Systems, methods, user interfaces and algorithms for performing database analysis and search of information involving structured and/or semi-structured data
US10152306B2 (en) 2016-11-07 2018-12-11 Palantir Technologies Inc. Framework for developing and deploying applications
US10318630B1 (en) 2016-11-21 2019-06-11 Palantir Technologies Inc. Analysis of large bodies of textual data
US10628428B1 (en) 2016-12-12 2020-04-21 Palantir Technologies Inc. Stack trace search
US10599663B1 (en) 2016-12-14 2020-03-24 Palantir Technologies Inc. Protected search
US10311074B1 (en) 2016-12-15 2019-06-04 Palantir Technologies Inc. Identification and compiling of information relating to an entity
US10621159B2 (en) 2016-12-20 2020-04-14 Palantir Technologies Inc. Multi-platform alerting system
US10289711B2 (en) 2017-01-04 2019-05-14 Palantir Technologies Inc. Integrated data analysis
US10216811B1 (en) 2017-01-05 2019-02-26 Palantir Technologies Inc. Collaborating using different object models
US10437807B1 (en) 2017-07-06 2019-10-08 Palantir Technologies Inc. Selecting backing stores based on data request
US10783162B1 (en) 2017-12-07 2020-09-22 Palantir Technologies Inc. Workflow assistant
US11475082B1 (en) 2017-12-15 2022-10-18 Palantir Technologies Inc. Systems and methods for context-based keyword searching
US11416477B2 (en) * 2018-11-14 2022-08-16 Thoughtspot, Inc. Systems and methods for database analysis
US11474987B1 (en) 2018-11-15 2022-10-18 Palantir Technologies Inc. Image analysis interface
US11934441B2 (en) 2020-04-29 2024-03-19 International Business Machines Corporation Generative ontology learning and natural language processing with predictive language models

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5694523A (en) 1995-05-31 1997-12-02 Oracle Corporation Content processing system for discourse
JP2682520B2 (ja) 1995-09-28 1997-11-26 日本電気株式会社 エッジ検出回路
US6564263B1 (en) 1998-12-04 2003-05-13 International Business Machines Corporation Multimedia content description framework
US6851115B1 (en) 1999-01-05 2005-02-01 Sri International Software-based architecture for communication and cooperation among distributed electronic agents
US6789252B1 (en) 1999-04-15 2004-09-07 Miles D. Burke Building business objects and business software applications using dynamic object definitions of ingrediential objects
US6751634B1 (en) * 1999-08-26 2004-06-15 Microsoft Corporation Method and system for detecting object inconsistency in a loosely consistent replicated directory service
US6405162B1 (en) 1999-09-23 2002-06-11 Xerox Corporation Type-based selection of rules for semantically disambiguating words
US6651059B1 (en) * 1999-11-15 2003-11-18 International Business Machines Corporation System and method for the automatic recognition of relevant terms by mining link annotations
US6640231B1 (en) 2000-10-06 2003-10-28 Ontology Works, Inc. Ontology for database design and application development
US6850944B1 (en) 2000-11-20 2005-02-01 The University Of Alabama System, method, and computer program product for managing access to and navigation through large-scale information spaces
US7877421B2 (en) * 2001-05-25 2011-01-25 International Business Machines Corporation Method and system for mapping enterprise data assets to a semantic information model
US7099885B2 (en) * 2001-05-25 2006-08-29 Unicorn Solutions Method and system for collaborative ontology modeling
US6732090B2 (en) * 2001-08-13 2004-05-04 Xerox Corporation Meta-document management system with user definable personalities
US6873994B2 (en) * 2001-08-31 2005-03-29 I2 Technologies Us, Inc. Conflict detection and resolution in association with data allocation
US20040054690A1 (en) * 2002-03-08 2004-03-18 Hillerbrand Eric T. Modeling and using computer resources over a heterogeneous distributed network using semantic ontologies
US20040083199A1 (en) * 2002-08-07 2004-04-29 Govindugari Diwakar R. Method and architecture for data transformation, normalization, profiling, cleansing and validation
US20040117346A1 (en) * 2002-09-20 2004-06-17 Kilian Stoffel Computer-based method and apparatus for repurposing an ontology
US7533134B2 (en) * 2004-04-01 2009-05-12 Microsoft Corporation Systems and methods for the propagation of conflict resolution to enforce item convergence (i.e., data convergence)
US7254589B2 (en) * 2004-05-21 2007-08-07 International Business Machines Corporation Apparatus and method for managing and inferencing contextural relationships accessed by the context engine to answer queries received from the application program interface, wherein ontology manager is operationally coupled with a working memory
US7383260B2 (en) * 2004-08-03 2008-06-03 International Business Machines Corporation Method and apparatus for ontology-based classification of media content
US7328209B2 (en) * 2004-08-11 2008-02-05 Oracle International Corporation System for ontology-based semantic matching in a relational database system
KR100727032B1 (ko) * 2005-11-08 2007-06-12 한국전자통신연구원 상황 인식 시스템에서 상황 지식의 공유와 재사용을 위한상황 지식 모델링 방법
US20070198448A1 (en) * 2006-02-21 2007-08-23 International Business Machines Corporation Scalable ontology reasoning
US7904401B2 (en) * 2006-02-21 2011-03-08 International Business Machines Corporation Scaleable ontology reasoning to explain inferences made by a tableau reasoner
US7769727B2 (en) * 2006-05-31 2010-08-03 Microsoft Corporation Resolving update-delete conflicts

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014173108A1 (zh) * 2013-04-25 2014-10-30 华为技术有限公司 一种数据分类的方法及装置
CN109063114A (zh) * 2018-07-27 2018-12-21 华南理工大学广州学院 能源云平台的异构数据集成方法、装置、终端及存储介质
CN109063114B (zh) * 2018-07-27 2020-11-24 华南理工大学广州学院 能源云平台的异构数据集成方法、装置、终端及存储介质

Also Published As

Publication number Publication date
CN101145152B (zh) 2010-08-11
US20080071731A1 (en) 2008-03-20
US7925637B2 (en) 2011-04-12

Similar Documents

Publication Publication Date Title
CN101145152B (zh) 在特定上下文内自动精细化本体的系统和方法
CN103294475B (zh) 基于图形化业务场景和领域模板的业务自动生成系统和方法
CN107341262B (zh) 数据库中对象类型列的序列化、反序列化方法及装置
Sadiq et al. Data flow and validation in workflow modelling
Castañeda et al. The use of ontologies in requirements engineering
CN110750649A (zh) 知识图谱构建及智能应答方法、装置、设备及存储介质
CN104063314B (zh) 一种测试数据自动生成装置及方法
US20040243595A1 (en) Database management system
Lundvall National innovation systems and globalization
Maedche et al. Managing multiple ontologies and ontology evolution in ontologging
CN101601012A (zh) 具有场景支持的面向生成器图形的编程框架
CN101674290A (zh) 基于语义web服务关系网络的自动服务组合系统
CN102122280A (zh) 一种智能提取内容对象的方法及系统
CN100517222C (zh) 支持转换引擎与映射规则相分离的模型转换装置及其方法
CN103425740A (zh) 一种面向物联网的基于语义聚类的物资信息检索方法
CN103902677A (zh) 一种跨平台的数据库访问方法
CN110263021A (zh) 一种基于个性化标签体系的主题库生成方法
US8290950B2 (en) Identifying locale-specific data based on a total ordering of supported locales
CN107729561A (zh) 基于数据库表结构反向生成对数据库表操作的方法
CN116301760B (zh) 用于软件开发的应用设计系统
CN104765763B (zh) 一种基于概念格的异构空间信息服务分类的语义匹配方法
CN104834742A (zh) 一种基于sca的etl架构管理方法
CN101719162A (zh) 基于片段模式匹配的多版本开放式地理信息服务访问方法及系统
Leung et al. An ontology-based collaborative interorganizational knowledge management network
CN110347878A (zh) 一种规则引擎驱动的数据融合方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant