CN106663101A - 本体映射方法和设备 - Google Patents
本体映射方法和设备 Download PDFInfo
- Publication number
- CN106663101A CN106663101A CN201580029320.2A CN201580029320A CN106663101A CN 106663101 A CN106663101 A CN 106663101A CN 201580029320 A CN201580029320 A CN 201580029320A CN 106663101 A CN106663101 A CN 106663101A
- Authority
- CN
- China
- Prior art keywords
- item
- data
- body item
- processing device
- electronic processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/328—Management therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种使用本体生成映射的设备,所述设备包括至少一个电子处理装置,所述至少一个电子处理装置:确定具有相应本体项的本体;根据所述本体中的至少一个确定一组本体项;针对所述一组本体项中的至少一些确定所述本体中的本体项之间的对准,所述对准至少部分地根据所述本体项的本体项含义进行确定;以及根据所述对准生成映射。
Description
发明背景
本发明涉及使用本体生成映射的方法和设备。
现有技术的描述
本说明书中对任何现有公开(或由其获得的信息)或对任何已知内容的参考不是且不应认为是承认或认可或任何形式地建议现有公开(或从其获得的信息)或已知内容形成本说明书涉及的致力领域的公知常识的一部分。
存在描述科学、工程和商业领域的方方面面的数千种公共和私人本体。本发明描述了一组过程,所述过程允许在不考虑数据结构或缺少结构的情况下将这些高级本体中的知识和元数据应用于任何数据的管理。
知识和数据的迅速增长超出了传统信息管理机制进行管理或甚至是进行描述的能力。诸如本体等语义网技术和诸如OWL(网络本体语言)和RDF(资源描述框架)等新语言促成诸如健康、医药或工程等链接概念的描述以从前不可能达到的详细程度以及以人类和机器均可理解的形式进行描述。这些本体通常由主题专家(本体专家)团队创建,并且通常是公众可用的。
目前,对定义链接概念的本体的操纵主要限于学者和专业本体专家。这些本体可能包含数千种链接概念。即使删除一种概念、公理或数据性质都可能使得许多关系无效。人工确定效果是冗长且乏味的过程。
该项目所满足的业务需求是使得具有很少或不具有本体论专业知识的人能够以简单可理解的方式访问本体的所有详细内容。另外,该人将能够使用简化的查询构造机制选择和检查通过本体进行描述的数据。它将能够向仍然在执行的原始本体中存在的所有约束和推理的数据添加记录。最终,其将能够生成和部署代码和屏幕作为适合于负责人办公室人员使用的独立应用。
特定业务或研究需要可能要求来自多个本体的概念,所述多个本体可能来自不同学科。在这种情况下,可能要求两个本体中的概念之间的对准。这些对准的本体之后可能被删减,以给出针对业务或组织的特定需要的目标本体。
本发明不但提供所要求的对准和删减方法,而且还提供用以利用针对业务环境的同义词和同形同音异义词来执行概念和宽泛初级索引的语义匹配的技术工具。
利用该工具箱,用户可以:访问不同数据源,将其映射至语境特定本体,对不同本体进行对准,并且随后删减对准的本体以包含仅相关的信息。然后,其可以将数据提取成其所选择的格式,经由生成的能够理解所讨论的本体的公理和推理的生成的应用对数据进行访问,并且依赖目标数据库利用程序代码实现数据。
例如,医生可以从多个实践管理系统、医院和卫生系统以及诊断和成像系统访问患者记录,无需担心所访问的各种记录格式。医学研究员可以将所述数据结合到诸如基因分析、药物开发和测试等的实验室研究数据中。
交通工程师可以将信号数据结合到气压数据、CCTV资讯、微博和事件日历中。电信公司可以接受99%的新呼叫数据记录结构,而无需针对制造商范围中的每一模型为制造商创建的每一新电话特征编写特定代码。
最后,在业务领域中,通过使用适当地调整的本体来描述业务问题并且随后生成代码以执行所描述的业务规则,市场上推出新IT软件的时间被大大缩短。这些业务规则可以访问大数据和传统数据的所有方面。
US-7,464,099提供一种从文件和数据库传递内容的方法。在这种情况下,文件包括内容实例,每一内容实例与相应领域相关联,并且每一领域具有相应类型。所述传递通过以下方式实现:确定每一领域的类型,并且随后根据相关领域的确定的领域类型在存储器中存储每一内容实例。然后可以根据确定的领域类型将每一内容实例传递至数据库。提供一种用于基于数据库内的内容创建XML文件的类似程序。
发明概要
在第一方面中,本发明提供一种使用本体生成映射的设备,所述设备包括至少一个电子处理装置,所述电子处理装置:
确定具有相应本体项的本体;
根据所述本体中的至少一个确定一组本体项;
针对所述一组本体项中的至少一些确定本体中的本体项之间的对准,所述对准至少部分地根据本体项的本体项含义进行确定;以及
根据所述对准生成映射。
优选地,所述映射可以是以下中的至少一个:
合并本体;以及
对准索引。
优选地,本体可以包括:
推定本体;以及
正式本体。
优选地,电子处理装置可以生成映射,以将推定本体映射至正式本体。
优选地,在将内容从具有包括多个源数据字段的源数据结构的数据源存储器传递内容至具有包括多个目标数据字段的目标数据结构的目标数据存储传递内容的过程中使用映射,其中本体与源数据结构和目标数据结构相关联,并且其中所述电子处理装置使用所述映射在源数据字段与目标数据字段之间传递内容。
优选地,本体可以包括与源数据结构相关联的源本体和与目标数据结构相关联的目标本体。
优选地,源本体和目标本体可以是推定本体,并且所述源本体和所述目标本体被映射至一个或多个正式本体。
优选地,所述电子处理装置可以通过以下方式确定本体:
生成推定本体;以及
选择多个现有本体中的一个。
优选地,所述电子处理装置可以使用以下中的至少一个选择本体:
与数据结构相关联的元数据;以及
数据结构的数据字段。
优选地,电子处理装置可以通过以下方式选择多个现有本体中的一个:
将数据字段与多个现有本体的本体项进行比较;以及
根据所述比较的结果选择所述多个现有本体中的一个。
优选地,电子处理装置可以通过以下方式从数据库模式生成推定本体:
识别所述模式中的表格;
创建对应于每一表格的本体项;
识别至少一个材料单表格;以及
创建对应于所述材料单表格中的每一条目的本体项。
优选地,电子处理装置可以通过以下方式从数据库模式生成推定本体:
显示对应于所述材料单表格中的每一条目的本体项的指示;以及
响应于用户输入命令将本体项添加至推定本体。
优选地,电子处理装置可以使用由数据库模式定义的表格结构生成本体项之间的关系。
优选地,推定本体可以包括:
对应于本体项的类别;
所述类别中的至少一些的数据性质;以及
定义类别之间的关系的对象性质。
优选地,电子处理装置:
可以确定至少一个本体的索引,所述索引包括至少一个本体的本体项的指示;并且
使用所述索引来确定:
所述一组本体项;以及
本体项之间的对准。
优选地,对于每一本体项,所述索引可以包括对以下的指示:
本体项含义;以及
本体项类型。
优选地,电子处理装置可以通过以下方式生成每一本体项的索引:
识别本体项名称;
识别本体项类型;
使用语义匹配过程识别每一本体项的本体含义;以及
创建包括本体项名称、本体项类型和本体项含义的指示的索引条目。
优选地,电子处理装置生成多个本体的单个索引,并且其中所述索引条目包括与本体项相关联的本体的指示。
优选地,电子处理装置可以:
显示本体中的一个或多个本体项的指示;
响应于用户输入命令来识别至少一个本体项;以及
显示以下中的至少一个的详细信息:
至少一个识别的本体项;以及
与至少一个识别的本体项相关联的数据性质。
优选地,电子处理装置可以使用索引确定一个或多个本体项的指示。
优选地,电子处理装置可以:
响应于用户输入命令来确定用户选择的本体项和对应用户选择的数据性质;以及
根据用户选择的本体项和对应用户选择的数据性质生成可执行代码,当在计算机系统上执行所述可执行代码时引起所述计算机系统显示用于允许用户与存储在具有数据结构的数据存储中的内容交互的用户界面,所述内容存储在对应于用户选择的本体项的数据字段中。
优选地,可执行代码可以引起计算机系统生成查询,以用于与存储在与源本体或目标本体相一致的源数据结构或目标数据结构中的数据交互。
优选地,可执行代码可以引起计算机系统根据数据性质和用户选择的本体的本体项之间的关系中的至少一个生成查询。
优选地,可执行代码可以引起计算机系统:
显示一个或多个本体项的指示;
响应于用户输入命令来确定至少一个本体项的选择;以及
查询存储在与选择的本体项相关联的数据字段中的数据。
优选地,电子处理装置可以:
将本体项与多个潜在的本体项含义进行比较;以及
根据所述比较的结果选择所述潜在本体项含义中的一个作为本体项含义。
优选地,所述电子处理装置可以通过以下方式确定本体项含义:
生成每一比较的结果的匹配分数;以及
根据匹配分数确定本体项含义。
优选地,电子处理装置可以确定潜在的本体项含义是否是以下中的至少一个:
同义词;
反义词;
部分词;
超类;以及
小类。
优选地,电子处理装置可以在索引中存储本体项含义的指示,所述指示包括以下中的至少一个:
指示定义的含义的标识符;以及
同等含义的列表。
优选地,所述电子处理装置可以通过以下方式确定本体项之间的对准:
比较多个本体项的本体项含义;
生成每一比较的结果的匹配分数;以及
根据匹配分数确定对准。
优选地,电子处理装置可以基于以下中的至少一个进一步确定所述对准:
本体项之间的关系;以及
本体项的数据性质。
优选地,电子处理装置可以:
确定源本体中的源本体项之间的关系;
确定目标本体中的目标本体项之间的关系;
将所述关系进行比较;以及
根据所述比较的结果确定对准。
优选地,电子处理装置可以确定来自源本体的一个或多个源本体项与来自目标本体的一个或多个目标本体项之间的对准。
优选地,电子处理装置可以通过以下方式确定所述一组本体项:
确定选择的本体项;以及
至少部分地根据选择的本体项和选择的本体项之间的关系确定所述一组本体项。
优选地,所述电子处理装置可以通过以下方式确定相关的本体项:
对于每一选择的本体项,识别多个不同类型的关系中的每一个的定义的关系路径长度内的本体项;以及
将所述识别的本体项添加至所述一组本体项。
优选地,电子处理装置可重复地添加识别的本体项,直至所有选择的本体项均被关系相连。
优选地,电子处理装置可以为不同类型的关系使用不同关系路径长度。
优选地,电子处理装置可以根据用户输入命令确定关系路径长度。
优选地,设备可以包括:
索引器模块,所述索引器模块生成指示本体中的本体项的索引;
浏览器模块,所述浏览器模块允许浏览本体中的本体项并且生成体现本体的至少一部分的代码,从而允许用户与存储在与所述本体相一致的数据结构中的数据交互;
对准器模块,所述对准器模块确定不同本体的本体项之间的对准;
删减器模块,所述删减器模块至少部分地使用本体项之间的关系确定至少一个本体内的一组本体项;以及
语义匹配器模块,所述语义匹配器模块识别本体项含义。
在第二方面中,本发明提供一种用于使用本体生成映射的方法,所述方法包括在至少一个电子处理装置中:
确定具有相应本体项的本体;
根据所述本体中的至少一个确定一组本体项;
针对所述一组本体项中的至少一些,确定本体中的本体项之间的对准,所述对准至少部分地根据本体项的本体项含义进行确定;以及
根据所述对准生成映射。
附图简述
现在将参考附图描述本发明的实例,其中:
图1A是使用本体生成映射的方法的实例的流程图;
图1B是基于一个示例性本体结构的不同映射的实例的示意图;
图2是分布式计算机架构的实例的示意图;
图3是基站处理系统的实例的示意图;
图4是计算机系统的实例的示意图;
图5是用于生成在源数据结构与目标数据结构之间传递内容的映射的方法的实例的流程图;
图6是生成推定本体的方法的实例的流程图;
图7是确定索引的方法的实例的流程图;
图8是浏览本体的方法的实例的流程图;
图9是删减本体的方法的实例的流程图;
图10是对准本体的方法的第二实例的流程图;
图11是语义匹配方法的实例的流程图;
图12A和图12B是示例性本体的示意图;
图13是用于与本体交互的模块的示意图;
图14A是图13的ETL(提取转换加载)模块的软件栈的实例的示意图;
图14B是用于实现图13的ETL模块的架构的示意图;
图15是图13的浏览器模块的功能性的实例的示意图;
图16是图13的索引器模块的功能性的实例的示意图;
图17A是图13的删减器模块的功能性的实例的示意图;
图17B至图17D是删减过程的实例的示意图;
图18A是图13的语义匹配器模块的功能性的第一实例的示意图;
图18B是图13的语义匹配器模块的功能性的第二实例的示意图;
图18C是表格之间的关系的实例的示意图;
图18D是图13的语义匹配器模块的功能性的第三实例的示意图;
图19A是“事物数据库”的实例的示意图;
图19B是用于统一不同源的架构的实例的示意图;
图19C是图13的对准器模块的功能性的实例的示意图;以及
图19D和图19E是合并本体的实例的示意图。
优选实施方案的详述
现在将参考图1A描述使用本体生成映射的方法的实例。
出于该实例的目的,假设至少部分地使用如下面将更详细地描述的电子处理装置执行过程,所述电子处理装置诸如计算机系统的微处理器。
对于至少一些实例,还假设将内容作为一个或多个内容实例存储在数据存储的内容字段中,所述数据存储充当内容知识库,诸如数据库或文件。因此,内容字段可以是数据库的数据库字段,其中内容实例对应于数据库记录,包括跨一个或多个数据库字段存储的值。或者,内容字段可以是定义在文件、诸如XML文件内的字段,所述文件可用于传输数据,例如当将从数据库提取数据和/或将把数据传递至数据库时,如根据下面的描述将变得明白。作为另一替代方案,内容字段可以是定义在诸如RDF三元组存储器等文件内的字段,所述文件可用于传输数据,例如当将从数据库提取数据和/或将把数据传递至数据库时,如根据下面的描述也将变得明白。假设根据数据结构对内容进行存储,所述数据结构诸如数据库模式、XML文档定义、本体或模式等。
出于在整个以下描述中进行说明的目的,术语“源”被用于指代诸如数据提取自的数据库或文件的数据存储,而术语“目标”用于指代诸如数据被存储进去的数据库或文件的数据存储。这些术语仅用于说明的目的,例如用于区分可能的源和目标,并且并非意在进行限制。
术语“内容实例”指代提取自源和/或传递至目标的独立的一段内容,并且也并非意在进行限制。例如,术语内容实例可以指代具有存储在多个不同数据库字段中的值的数据库记录,或者一组相关数据库记录,或者可以指代存储在单个字段内的单个值。
术语“本体”代表知识,如领域内的一组概念,所述知识使用共享词汇表来表示类型、性质和这些概念的相互关系。本体通常包括多个组件,诸如个体、类别、对象、属性等,并且术语“本体项”一般用于指代这些组件并且任选地指代这些概念中的特定一些。
术语“含义”意在指代特定本体项、内容字段名称等的语义解释。因此,术语“含义”涵盖本体项或内容字段的字面含义,例如以解释诸如同形同音异义词、同义词、部分词等的问题,如下面将更详细地描述。
在该实例中,在步骤100中,电子处理装置确定具有相应本体项的本体。该过程可以任何合适的方式执行,并且可以包括使得电子处理装置选择存储在例如一个或多个本体数据库中的多个现有本体中的一个或多个,或者可以通过生成推定本体来实现。在一个实例中,所选择的本体对应于与源数据结构相关联的源本体和与目标数据结构相关联的目标本体,但是这并不是至关重要的。
本体的选择可以在源数据结构或目标数据结构的基础上实现,并且可以包括将数据结构内的字段与本体项进行比较,直到找到合适匹配为止。该过程可能还涉及多个本体、并且因此有关该内容的特定主题字段、与内容有关的行业等的本体的检查领域和选择领域。对本体的选择可以是自动化的,例如通过提供电子处理装置,所述电子处理装置具有相关内容的主题字段的指示;本体的选择可以是手动的,例如通过使得所述电子处理装置显示可用本体的详细信息来允许用户选择这些本体;或者本体的选择利用手动过程和自动化过程的组合。
或者,这可涉及从源数据结构或目标数据结构生成‘推定的’本体,例如使用元数据、数据库模式等。该过程可涉及从关系型参照完整性约束得出一些本体公理,但是大多数公理将需要手动添加或忽略。然后可以将该推定本体与现有丰富本体进行对准以添加元数据。
在步骤110中,电子处理装置从本体中的至少一个确定一组本体项。所述一组本体项通常是相应本体的子组,并且代表一组相关的本体项。该组通常包括例如对应于相关本体项的选择的本体项。因此,例如,当在映射源和目标数据结构中使用时,所述一组本体项可以包括对应于将被映射至目标数据字段或源数据字段的源数据字段或目标数据字段的选择的本体项,例如以允许提取其中的内容并将所述内容传递至目标数据存储。该组通常进一步包括维护选择的本体项之间的关系所需要的本体项。
对该组进行确定的方式将根据优选实现方式而变化,并且可以包括选择多个先前确定的组中的一个,例如依据将提取的内容。然而,或者,这将涉及通过识别选择的本体项生成该组,并且随后逐步地检查相关的本体项,直至找到连接选择的本体项中的每一个的路径。该过程有时被称作删减,因为它实际上涉及将本体删减成相较整个本体来说更容易管理的减少数量的本体项,但是所述减少数量的本体项仍然维持本体的结构和公理。
在步骤120中,电子处理装置针对所述一组本体项中的至少一些确定本体项之间的对准,其中所述对准至少部分地根据本体项的本体项含义进行确定。因此,电子处理装置检查至少一个本体中的本体项的含义,并且尝试识别其它本体中的同等本体项。因此,在最简单的层面上,这可以包括识别具有相同含义的源本体项和目标本体项,但是更为常见的是将检查源本体项之间的关系以及目标本体项之间的关系,以识别源本体项和目标本体项是否也具有与其它源本体项和目标本体项类似的关系。
应注意,对准不必是一对一的映射,并且一个本体中的单个本体项可以与其它本体中的多个本体项对准。例如,源本体可以将个体的姓名定义成单个概念,而目标本体可以将名和姓定义成分开的概念,在后一种情况下,在将内容从源本体传递至目标本体时将需要对内容进行合并。
在步骤130中,电子处理装置操作以根据所述对准生成映射。所述映射可以代表本体自身之间的映射,和/或基于目标本体项与源本体项之间的对准,可以代表相应源数据结构和目标数据结构中的源数据字段与目标数据字段之间的映射。因此,例如,电子处理装置可以确定源数据字段、对应源本体项,并且随后使用所述对准确定对准的目标本体项,并且因此确定目标数据字段。然后通常将映射存储为映射文件、索引、表格、合并本体等的形式,从而允许随后在传递数据的过程中进行使用。
因此,以上过程允许将两个本体对准,这继而被用于创建映射。该映射可被用于将不同本体中的本体项等同,从而允许这继而被用于使用相应本体将源数据字段映射至目标数据字段。该映射可用于在源与目标之间传递内容,其中本体的使用有助于当即使在具有不同数据结构的数据存储之间传递内容时确保维持所述内容的结构。本体的使用还可以有助于确保维持被传递的内容的完整性,或者确保随着内容传递来将所述内容改进,例如以确保内容呈所需要的范式,并且甚至视需要提供规范化。因此,使用本体允许随着内容被从源数据存储传递至目标数据存储施加额外关系约束,以使得即使源数据存储中的数据未以第三范式存储,也可以在传递过程中将其转换成第三范式。
当该过程被用于在源数据结构与目标数据结构之间创建映射时,源本体和目标本体可以是先前定义的本体,诸如像盖伦本体等官方创建本体(一般称作正式本体),或者可以是基于数据结构本身生成的推定本体。这允许建立多个不同映射关系,如现在将参考图1B进行描述。
在该实例中,示出具有相应源数据结构和目标数据结构S、T的源数据存储和目标数据存储。每一数据存储可以具有对应推定本体150、160,其中对应正式本体151、161也存在。这允许建立多个不同映射。
例如,可在推定本体150、160之间直接创建映射,从而允许直接在源数据结构与目标数据结构S、T之间传递内容。
另外地和/或替代地,可以使用上述技术在推定本体150、160与对应正式本体151、161之间创建映射。该过程允许基于源数据结构或目标数据结构S、T创建推定本体150、160,并且随后大致上自动地映射至正式本体151、161以据此为推定本体150、160中的本体项提供含义、定义和潜在的关系。将存储在相应数据结构中的数据规范化的过程中也可以适用该过程。
在本体151、161相同的情况下,将推定本体150、160映射至正式本体151、161允许内容在源数据结构和目标数据结构S、T之间传递。或者,也可以对正式本体进行对准,以允许它们之间的映射,从而再次允许源数据结构与目标数据结构S、T之间的数据传递。
因此,应了解,上述技术可用于在本体之间创建映射,其中这些继而用于直接在源数据结构与目标数据结构之间建立映射。这方便不同源与目标之间的内容传递,并且允许根据正式数据结构执行该过程,从而确保以规范化形式提供内容。因此,这不仅允许不同数据结构之间的内容传递,而且还可用于克服与以非规范化形式存储的数据相关联的问题。
现在将描述多个另外特征。就这一点而言,电子处理装置通常被适配以执行多个不同功能来方便上述过程,所述过程包括:生成本体的索引;允许用户浏览本体并与本体交互;对准本体、删减本体和解释本体项的含义,如现在将进一步描述。
如上面所提及,映射可以具有任何形式。当映射介于本体之间时,这可以是合并本体形式,或者呈对准索引的形式,如下面将更加详细地描述。
所涉及的本体可以包括推定本体和/或正式本体,取决于优选的实现方式。在一个特定实例中,电子处理装置生成映射,以将推定本体映射至正式本体。
如也提及到的,映射可以在将内容从具有包括多个源数据字段的源数据结构的数据源存储器传递至具有包括多个目标数据字段的目标数据结构的目标数据存储传递内容的过程中使用,其中本体与源数据结构和目标数据结构相关联,并且其中所述电子处理装置使用所述映射在源数据字段与目标数据字段之间传递内容。因此,本体可以包括与源数据结构相关联的源本体和与目标数据结构相关联的目标本体,其中所述源本体和目标本体是映射至一个或多个正式本体的推定本体。
因此,在上述过程中,电子处理装置可以通过生成推定本体或选择多个现有推定本体或正式本体中的一个来确定本体。
电子处理装置通常使用与源数据结构或目标数据结构相关联的元数据或者源数据结构或目标数据结构的源数据字段和目标数据字段确定源本体或目标本体。该过程可以包括生成推定本体,或者例如从存储在诸如本体数据库的存储器中的本体选择多个现有本体中的一个。在该后一种情况下,电子处理装置可以将数据结构数据字段与多个现有本体的本体项进行比较,并且根据比较结果选择多个现有本体中的一个。
或者,当例如从数据库模式生成本体时,电子处理装置通常识别所述模式中的表格,创建对应于每一表格的本体项,识别至少一个材料单表格,以及创建对应于材料单表格中的每一条目的本体项。因此,该过程操作以检查任何非规范化数据库表格的内容,并且扩展该表格的内容以识别额外的本体项。作为该过程的一部分,电子处理装置可以显示对应于材料单表格中的每一条目的本体项的指示,并且响应于用户输入命令将本体项添加至推定本体。这允许用户视需要来重写本体项的创建。
当生成推定本体时,电子处理装置可以使用由数据库模式定义的表格结构进一步生成本体项之间的关系。该过程允许电子处理装置生成推定本体,包括对应于本体项的类别,所述类别中的至少一些的数据性质和定义类别之间的关系的对象性质。
在一个实例中,电子处理装置确定至少一个本体的索引,所述索引包括至少一个本体的本体项的指示,并且使用所述索引来确定所述一组本体项和本体项之间的对准。虽然索引的使用并不是至关重要的,但是与使用整个本体相比,这大大地降低了需要处理的数据量,从而使得浏览、分组(删减)和对准过程可更好地易管理。
索引可以是任何适当形式,但是对于每一本体项,通常包括本体项名称、本体项含义的指示和本体项类型。索引还可包括额外信息,诸如相应本体中的本体项的地址,所述地址可以采用URI(统一资源标识符)等的形式。
电子处理装置通过以下方式为每一本体项生成索引:识别本体项名称;识别本体项类型;使用语义匹配过程识别每一本体项的本体含义;以及创建索引条目,所述索引条目包括本体项名称、本体项类型和本体项含义的指示。
在一个实例中,电子处理装置生成多个本体的单个索引,并且其中索引条目包括与本体项相关联的本体的指示,但是这并不是至关重要的,并替代地,可以针对加索引的每一本体使用单独索引。
电子处理装置通常被进一步适配以显示本体中的一个或多个本体项的指示,响应于用户输入命令来识别至少一个本体项,以及显示至少一个识别的本体项和与所述至少一个识别的本体项相关联的数据性质中的至少一个的详细信息。因此,这允许用户浏览本体,并且查看其中所定义的本体项的详细信息。这可用于允许用户评估是否已使用了正确本体,理解本体范围,探索不同本体项之间的关系,并且评估源数据结构或目标数据结构与本体的关联。
电子处理装置通常使用本体索引确定一个或多个本体项的指示。因此,应了解,索引提供一种使电子处理装置显示本体项的列表并接着探索与选择的本体项相关联的数据性质的快速机制,。
电子处理装置通常被适配以响应于用户输入命令来确定用户选择的本体项和对应用户选择的数据性质。这不仅可以用于显示选择的本体项和数据性质的详细信息,而且还允许电子处理装置生成可执行代码。可执行代码基于用户选择的本体项和数据性质,并且当在计算机系统上执行时引起计算机系统显示用户界面,所述用户界面用于允许用户与存储在具有对应于用户选择的本体项的数据结构的数据存储中的内容交互。因此,这提供一种用于允许电子处理装置自动地生成可用于显示界面的代码的机制,所述界面允许用户与内容交互并且随后从相应源数据结构和/或目标数据结构导出内容或者导入内容至相应源数据结构和/或目标数据结构。
因此,应了解,这允许用户浏览本体内的本体项,并且随后选择对应于数据结构中的数据字段的本体项。这反过来允许生成代码,所述代码可以充当允许用户与存储在数据结构内的内容交互的接口。
在一个实例中,可执行代码引起计算机系统生成查询,所述查询用于与存储在与源本体或目标本体相一致的源数据结构或目标数据结构中的数据交互,例如像通过使用SPARQL(SPARQL协议和RDF查询语言)查询和检索内容。这提供一种用于快速地部署计算机软件的机制,所述计算机软件可以充当至数据库的接口。另外,由于这是基于本体生成,所以它可将定义在本体内的关系并入代码的结构中,并且因此产生查询。因此,这允许计算机系统根据数据性质或用户选择的本体项之间的关系生成查询。
为实现该目的,计算机系统通常显示例如来自源本体或目标本体的一个或多个本体项的指示,响应于用户输入命令来确定至少一个本体项的选择,以及查询存储在对应数据字段中的数据。
为了确定关于本体项的含义,以及比较不同本体项的含义的类似性,通常对电子处理装置进行适配以执行语义匹配。这通常涉及将本体项与例如存储在参考数据库(诸如概念匹配数据库)中的多个潜在本体项含义进行比较,以及根据比较结果选择潜在本体项含义中的一个作为本体项含义。
为实现该目的,电子处理装置通过以下方式确定本体项含义:生成每一比较的结果的匹配分数,以及根据匹配分数确定本体项含义。在确定匹配分数的过程中,电子处理装置确定潜在本体项含义是否是考虑中的本体项的同义词、反义词、部分词、超类和小类中的至少一个。
在已创建了本体项含义后,通常将该含义的指示存储作为索引的一部分,所述指示包括指示定义的含义的标识符和同等含义列表中的至少一个。因此,可将单个唯一标识符分配给多个不同本体内的每一唯一概念,从而允许共同含义由跨不同本体的共同标识符加以识别。所述标识符可以是唯一字母数字代码、词元、根词等,取决于优选的实现方式。这使得识别同等且因此对准的本体项的过程容易得多。
类似地,电子处理装置通常通过以下方式确定本体项之间的对准:对多个本体项的本体项含义进行比较,生成每一比较的结果的匹配分数,以及根据匹配分数确定对准。更常见地,电子处理装置还将基于本体项或本体项的数据性质之间的关系确定对准。因此,这不仅将项的绝对含义纳入考虑,而且还将本体的相对结构纳入考虑,以确定对准是否存在。因此,电子处理装置可以确定源本体项之间的关系,确定目标本体项之间的关系,将所述关系进行比较,并且根据比较结果确定源本体项与目标本体项之间的对准。
电子处理装置通常确定来自源本体的一个或多个源本体项和来自目标本体的一个或多个目标本体项之间的对准,因此这允许涵盖一对一、多对一和一对多的关系。
如上面所提及,电子处理装置可以例如通过删减本体来确定一组本体项,以使得可以删除不相关或未用于当前应用的本体项,并且仅保留与当前情况相关的那些本体项。在一个实例中,这通过以下方式实现:确定选择的本体项,并且接着至少部分地根据所述选择的本体项和本体项之间的关系确定所述一组本体项。
因此,对于每一选择的本体项,电子处理装置识别有关多个不同类型的关系的每一个的定义的关系路径长度内的本体项,并且将识别的本体项添加至所述一组源本体项。该过程可反复执行,以使得电子处理装置重复添加识别的本体项,直到达到所需端点为止,诸如当所有选择的本体项被关系连接起来时。这随后建立一组相关的本体项,这组相关的本体项允许保留本体内的关系,并在诸如对准本体、创建映射等其它过程中使用。
作为以上过程的一部分,可以检查多个不同关系,以尝试在所有选择的本体项之间建立路径,其中电子处理装置任选地为不同类型的关系使用不同关系路径长度。因此,例如,一些类型的关系将被视为是较为重要的,并且因此当识别关系本体项时通常会被给定较长的路径长度。在一个实例中,路径长度可以由用户定义,从而允许在对组的创建进行控制的过程中使用人工干预。
在一个实例中,为了允许执行上述过程,可以使用多个不同工具来帮助生成映射和管理本体。在一个实例中,提供工具作为形成本体的集成包的软件套件和数据管理工具的一部分。在一个实例中,工具包括:索引器模块,所述索引器模块生成指示本体中的本体项的索引;浏览器模块,所述浏览器模块允许浏览本体中的本体项并且生成体现本体的至少一部分的代码,从而允许用户与存储在与所述本体相一致的数据结构中的数据交互;对准器模块,所述对准器模块确定不同本体的本体项之间的对准;删减器模块,所述删减器模块至少部分地使用本体项之间的关系确定至少一个本体内的一组本体项;以及语义匹配器模块,所述语义匹配器模块识别本体项含义。然而,对相应模块的使用并不是至关重要的,并且可以使用其它布置。
在一个实例中,可以至少部分地使用处理系统(诸如合适地编程的计算机系统)来执行过程。这可以在独立计算机上执行,其中微处理器执行应用软件,从而允许执行上述方法。或者,过程可以由作为分布式架构的一部分操作的一个或多个处理系统来执行,现在将参考图2描述的系统的实例。
在该实例中,两个基站201经由通信网络(诸如互联网202和/或多个局域网(LAN)204)耦接至多个计算机系统203。应了解,网络202、204的配置仅用于举例的目的,并且在实践中,基站201、计算机系统203可以经由任何适当机制进行通信,诸如经由有线或无线连接,包括但不限于移动网络、诸如802.11网络的专用网络、互联网、LAN、WAN等;以及经由直接或点到点连接,诸如蓝牙等。
在一个实例中,每一基站201包括耦接至数据库211的处理系统210。对基站201进行适配以用于管理本体,例如执行删减或对准,并且用于生成映射,例如用于在源数据存储与目标数据存储之间传递内容。可以对计算机系统203进行适配以与基站201通信,从而允许对过程(诸如映射生成)进行控制,但是这并不是至关重要的,并且可以利用基站201直接控制所述过程。
虽然每一基站201被示出为单个实体,但是应了解,基站201可以跨多个地理分开的位置分布,例如通过使用被提供作为基于云计算的环境的一部分的处理系统210和/或数据库211。就这一点而言,可以提供多个基站201,所述多个基站201中的每一个与相应数据存储或本体相关联,尽管数据存储可选地可以与计算机系统203相关联。
然而,上述布置并不是至关重要的,并且可以使用其它合适配置。例如,过程可以在独立计算机系统上执行。
合适处理系统210的实例在图3中示出。在该实例中,处理系统210包括利用如图所示的总线304进行互连的至少一个微处理器300、存储器301、诸如键盘和/或显示器等输入/输出装置302以及外部接口303。在该实例中,可利用外部接口303来将处理系统210连接至外围装置,诸如通信网络202、204、数据库211、其它存储装置等。虽然示出了单个外部接口303,但是这仅用于举例的目的,并且在实践中,可以提供使用各种方法的多个接口(例如,以太网接口、串行接口、USB、无线接口等)。
在使用中,微处理器300实施呈存储在存储器301中的应用软件的形式的指令,以允许执行索引生成、映射和从数据库211传递内容/传递内容至数据库211,以及与计算机系统203通信。应用软件可以包括一个或多个软件模块,并且可以在诸如操作系统环境等合适的实施环境中实施。
因此,应了解,处理系统210可以由任何合适的处理系统形成,所述合适的处理系统诸如合适地编程的计算机系统、PC、实施DBMS的数据库服务器、web服务器、网络服务器等。在一个特定实例中,处理系统210是标准处理系统,诸如基于32位或64位英特尔架构的处理系统,所述处理系统实施存储在非易失性(例如,硬盘)存储装置上的软件应用,但是这并不是至关重要的。然而,还将理解,处理系统可以是任何电子处理装置,诸如任选地与诸如FPGA(现场可编程门阵列)等实现逻辑相关联的微处理器、微芯片处理器、逻辑门配置、固件,或者是任何其它电子装置、系统或布置。
如图4中所示,在一个实例中,计算机系统203包括利用如图所示的总线404进行互连的至少一个微处理器400、存储器401、诸如键盘和/或显示器的输入/输出装置402以及外部接口403。在该实例中,可利用外部接口403将计算机系统203连接至外围装置,诸如通信网络202、204、数据库211、其它存储装置等。虽然示出了单个外部接口403,但是这仅用于举例目的,并且在实践中,可提供使用各种方法的多个接口(例如,以太网接口、串行接口、USB、无线接口等)。
在使用中,微处理器400实施呈存储在存储器401中的应用软件形式的指令,以允许与基站201的通信,例如以允许操作员提供控制输入。
因此,应了解,计算机系统203可以由任何合适的处理系统形成,诸如合适地编程的PC、互联网终端、笔记本电脑、手提式PC、智能电话、PDA、web服务器等。因此,在一个实例中,处理系统100是标准处理系统,诸如基于32位或64位英特尔架构的处理系统,所述处理系统实施存储在非易失性(例如,硬盘)存储装置上的软件应用,但是这并不是至关重要的。然而,还将理解,计算机系统203可以是任何电子处理装置,诸如任选地与诸如FPGA(现场可编程门阵列)等实现逻辑相关联的微处理器、微芯片处理器、逻辑门配置、固件,或者是任何其它电子装置、系统或布置。
现在将更详细地描述用以生成映射、允许浏览本体、对本体加索引以及与本体交互的系统操作的实例,所述与本体交互包括对本体进行对准和删减。
出于这些实例的目的,假设基站201的处理系统210托管用于执行过程的应用软件,其中由处理系统210执行的操作由处理器300根据以下执行:作为应用软件存储在存储器301中的指令和/或利用I/O装置302从用户接收的输入命令,或者从计算机系统203接收的命令。就这一点而言,出于以下实例的目的,处理系统210实施具有多个模块的应用软件,所述多个模块包括索引器模块、浏览器模块、对准器模块、删减器模块、语义匹配器模块和ETL模块。然而,对相应模块的使用并不是至关重要的,并且可以使用其它布置。
还将假设用户利用呈现在输入/输出装置302或计算机系统203上的GUI等与由处理系统210实施的应用软件交互。由计算机系统203执行的操作由处理器400根据以下执行:作为应用软件存储在存储器401中的指令和/或利用I/O装置402从用户接收的输入命令。基站201通常是利用可用的特定网络基础设施与计算机系统203通信的服务器,并且可以例如呈企业服务器的形式,所述企业服务器与用于一个或多个计算机系统203的用户的数据库211交互。
然而,应了解,上述配置仅用于举例的目的,而非意在进行限制,因此在实践中可以使用任何数据库管理系统。还应了解,计算机系统203与基站201之间的功能性划分可以根据特定实现方式而变化。
现在将参考图5描述用于确定映射以及使用所述映射将内容从源传递至目标的过程的概述。出于该实例的目的,将假设处理系统210实现用于提供不同功能性的多个不同模块。
在该实例中,在步骤500中,处理系统210使用源数据结构和目标数据结构识别源本体和目标本体。这可以任何方式实现,但是通常涉及基于源数据存储和目标数据存储的源数据结构和目标数据结构创建推定本体。例如,不同源数据字段和目标数据字段的名称可等同于本体项,其中本体项之间的关系根据源数据结构和目标数据结构中的关系进行识别。将参考图6更详细地描述生成推定本体的过程的特定实例。
在步骤510中,索引器模块确定源本体和目标本体的索引。索引通常呈列表的形式,所述列表包括:指示每一本体项的条目,相关联的本体项类型(若这是已知的),以及任选地本体项含义。就这一点而言,本体项含义通常在步骤520中由语义匹配器模块进行确定,所述模块将本体项与概念匹配数据库进行比较,并且使用比较结果识别索引中的每一本体项的含义。
在步骤530中,将浏览器模块用于浏览本体以及用于选择源本体项或目标本体项。这允许用户选择那些相关的本体项,这些相关的本体项通常对应于将从源数据存储提取的或将导入目标数据存储中的内容。
然后,可在步骤540中使用选择的本体项以允许浏览器模块生成代码,所述代码用于与存储在与相应数据结构相一致的数据存储中的内容交互。确切地说,这可以包括用于允许计算机系统生成用户界面的代码,用户可以使用所述用户界面来检查数据结构的数据字段,选择将被提取/导入的内容,并且接着生成用以执行提取/导入的必要查询,如下面将更详细地描述。
或者,在步骤550中,删减器模块使用选择的本体项来删减源本体和/或目标本体。确切地说,这允许用户仅选择相关的本体的那些部分,其中处理系统210随后选择维持选择的本体项之间的关系所需要的额外本体项,如下面将更详细地描述。
在已对本体中的一个或多个进行删减后,在步骤560中,处理系统210使用对准器模块来对准源本体和目标本体。这识别出源本体项中的一个或多个与目标本体项中的一个或多个之间的相关性,从而允许在步骤570中确定源数据结构与目标数据结构之间的映射,所述映射继而可以与由浏览器模块生成的代码一起使用,以将内容从源数据存储传递至目标数据存储。
现在将参考图6描述用于从数据结构(诸如数据库模式等)生成推定本体的过程的实例。
虽然该实例是针对生成关系数据库的推定本体,但是应了解,可以将类似概念应用于其它数据结构,并且该实例仅用于说明的目的,而非意在进行限制。
在该实例中,在步骤600中,处理系统210确定数据库中的每一表格,这通常是通过从定义数据库模式的元数据提取该信息进行。在步骤610中,处理系统210定义对应于数据库中的每一表格的类别。就这一点而言,项类别指代对应于本体内的概念的特定本体项,如下面将更详细地描述。
在步骤620中,处理系统210识别具有BOM(材料单)结构或类型结构的任何数据库表格。就这一点而言,BOM表格具有两个“一对多”关系,并且用于列出构成项目、对象或物体的所有部分。类型结构具有一个“多对一”关系,并且仅具有一个用于限制相关表格中的值的范围的相关属性或列。所述表格通常用于对数据进行不规范化处理,并且因此可以含有许多概念或类别,每一概念或类别代表相应的本体项。因此,在步骤630中,处理系统扩展每一类型表格和每一BOM表格,以定义对应于表格中的每一唯一条目的另外类别。
在步骤640中,处理系统210任选地显示来自类型表格或BOM表格内的每一识别类别,从而允许用户在步骤650中确认是否应保留该类别。如果指示不应保存该类型类别或BOM类别,则在步骤660中将其删除。
在已选择了相关BOM类别后,处理系统210基于数据库模式定义关系和属性(也称作数据对象和数据性质)。因此,表格结构可用于识别所述识别类别之间的关系,而表格中的数据字段用于识别类别的属性。在步骤680中,关系和属性被继而用于定义本体中的对象性质和数据性质,从而允许例如在本体数据库中生成并保存推定本体。
因此,这允许仅根据对数据存储(诸如数据库)、结构化文件等的数据结构的分析以大致上自动化的方式创建推定本体。在这之后,当需要定义推定本体内的不同类别的含义时,可以将推定本体与正式本体进行对准,如下面将更详细地描述。
现在将参考图7描述用于生成索引的过程的实例。
在该实例中,在步骤700中,索引器模块确定相关的本体。可以基于用户输入命令进行确定,所述用户输入命令例如利用浏览器模块提供或者可以接收自要求索引的另一模块。例如,已经生成推定本体的ETL模块可能需要对所述本体加索引以及向索引器模块提供所述本体的指示,或者删减器模块可以要求允许在本体上执行删减的索引。
在步骤705中,索引器模块将所述本体与通常存储在索引数据库中的一个或多个现有索引进行比较,并且确定索引是否已经存在。这可以通过以下方式实现:比较与本体相关联的元数据,诸如具有与索引相关联的对应信息的本体名称和/或地址;或者通过将一个或多个本体项与现有索引中的本体项进行比较。
在步骤710中,如果确定索引存在,那么在步骤715中提供索引,例如通过将索引提供给要求所述索引的模块。否则,必须生成索引,在该情况下,在步骤720中索引器模块选择下一本体项,并且随后在步骤725中创建包括本体项名称、本体项类型和本体项地址的指示的索引条目,所述本体项地址通常指示URI(统一资源标识符)等。在步骤730中,索引器模块从语义匹配器模块获得本体项的语义含义,如下面将更详细地描述,并将该语义含义添加至索引条目。
在步骤735中,索引器模块确定是否已经完成所有的本体项,并且如果未完成,则过程回到步骤720,从而允许对下一本体项进行选择。否则,在步骤740中,对索引进行存储并且任选地提供至另一模块。
现在将参考图8描述用于浏览本体的过程的实例。
在该实例中,在步骤800中,浏览器模块使用本体项索引生成有关选择的本体的本体项列表。因此,作为该过程的一部分,浏览器模块可以例如基于选择的本体的身份从索引器模块要求本体索引。然后可以利用适当的GUI(图形用户界面)向用户显示本体项列表。
在步骤805中,用户对一个或多个相关本体项加标签,之后在步骤810中选择下一本体项进行查看,从而在步骤815中允许浏览器模块显示本体项屏幕,所述本体项屏幕包括有关选择的本体项的数据性质。就这一点而言,数据性质对应于被定义成本体的一部分的本体项的属性。
在步骤820中,浏览器模块确定用户是否已经选择搜索选项,在该情况下,在步骤825中,用户在数据性质的数据字段中输入搜索项。在步骤830中,浏览器模块随后生成并执行与相应本体项数据性质相关联的数据查询,返回结果并且向用户显示结果。因此,该过程允许用户检查将与对应源数据存储或目标数据存储中的相应数据性质相关联的内容,从而允许用户弄清本体项和相关联的数据性质是否相关。
在已经执行搜索后,或者如果未执行任何搜索,则在步骤835中,用户对相关的一个或多个数据性质加标签。因此,该过程允许用户检查本体项和相关联的数据性质,并且随后通过对其加标签来选择本体项和相关联的数据性质。
在步骤840中,对本体项进行检查,以确定是否已经选择了与用户相关的所有本体项和数据性质。如果未选择,则过程返回至步骤810,从而允许检查更多的本体项。
否则,在步骤845中,浏览器模块选择加标签的本体项和相关联的数据性质,从而允许在其它过程中对这些进行使用,诸如在步骤850中执行删减或者在步骤855中生成应用。就这一点而言,应用生成涉及使用脚本等来生成可执行代码,当在计算机系统上执行所述代码时允许所述计算机系统显示用户界面,所述用户界面用于与对应于选择的本体项或数据性质的源或目标中的字段中的内容交互,如下面将更详细地描述。
因此,上述过程可用于允许用户浏览本体项和相关联的数据性质,以识别这些中的哪些与其希望从源导出的或希望导入到目标中的内容相关。
现在将参考图9描述用于删减本体的过程的实例。
在该实例中,在步骤900中,选择的本体项被添加作为用于删减过程的种子。在这之后,执行迭代过程以重复地探索与种子本体项相关的本体项,直到识别出对种子本体项进行互连的路径为止。为了实现该目的,在步骤905中,显示不同类型的关系和相关联的默认路径长度。就这一点而言,本体项可以通过诸如父、子、兄弟等不同类型的关系相关联。因为某些类型的关系可以比其它关系更重要,所以不同关系类型可以具有不同长度。另外,可以改变针对每一关系类型探索的路径长度,从而确保将经由更重要的关系连接至种子本体项的更大数量的本体项被包括在内。因此,在步骤910中,用户可以调整不同关系的路径长度,从而允许用户对删减过程进行调整,例如以控制删减的程度和/或方向。
在步骤915中,通过识别由具有特定路径长度的关系相关联的那些本体项来确定与选择的本体项相关的本体项。在步骤920中,删减器模块确定选择的种子项是否链接。换句话说,存在将种子本体项链接的一系列互连本体项,并且若是这样,则在步骤925中,删减过程可以用来定义删减的本体的识别的选择的本体项和相关的本体项结束,所述选择的本体项和相关的本体项可以被存储为删减的本体或删减的索引。
否则,在步骤930中,确定迭代是否完成,并且如果未完成,则将相关的本体项添加至选择的本体项,并且过程回到步骤915从而允许识别另外相关的本体项。因此,与种子本体项相关的本体项的数量逐步增加,直到种子本体项被关系路径连接起来。
因此,重复上述过程,直到本体被成功地删减,此时种子本体项利用相关的本体项的路径互连,或者直到预定数量的迭代完成且未识别到任何路径,在这种情况下,在步骤940中停止所述过程。在该后一种情况下,这通常指示本体项来自不同本体,在这种情况下删减过程连同对准过程一起执行,从而允许删减过程跨越多个本体,如下面将更详细地描述。或者,这指示本体项无法容易地链接。
现在将参考图10描述用于对准源本体和目标本体的过程的实例。
在该实例中,在步骤1000中,使用索引选择源本体项和/或目标本体项。这可以涉及使得用户使用浏览器模块选择本体项,或者更典型地选择对应于源本体和目标本体的包含相关源本体项和/或目标本体项的删减的版本的两个删减的本体。在步骤1005中,使用匹配程序模块确定数对源本体项和目标本体项的不同组合的匹配分数。在步骤1010中,这些分数被用于仅基于源本体和目标本体的含义的类似程度来定义初步对准。
在步骤1015中,对准器模块检查源本体项和目标本体项的关系(对象性质)和属性(数据性质),以确定初步对准是否正确。因此,例如这将检查初步对准的源本体项和目标本体项是否具有类似数量的属性,以及检查这些项是否具有与其它源本体项或目标本体项类似的关系。这可以用于识别不准确的匹配,例如在项的每一个中,名和姓可以初步与姓名匹配,其中对关系的检查被用于证明这应该是多对一的关系。
在步骤1020中,这可以用于改善对准,从而允许在步骤1025中对这些进行存储以代表源本体与目标本体之间的对准。这可以呈合并本体的形式,或者可选地呈对准索引的形式。
现在将参考图11描述语义匹配过程的实例。
在该实例中,在步骤1100中,语义匹配模块接收本体项进行匹配。这可以基于利用浏览器模块的用户选择,但是更常见地通过从索引器模块或对准器模块接收项。在步骤1105中,选择下一对组合,通过将单个本体项与匹配数据库中的多个相应项进行比较,或者通过选择下一对接收的源本体项和目标本体项。
在步骤1110中,语义匹配器模块使用概念匹配数据库计算语义相似性。可使用多个方式中的任何一个确定分数,但是通常涉及应用预定的公式,所述公式基于含义是否以任何方式相关联,诸如是否是反义词、同义词等来计算分数。在一个特定实例中,这涉及例如使用诸如WordNet等词典将本体项与定义进行匹配。就这一点而言,WordNet是大型英文词汇数据库。名词、动词、形容词和副词被归纳到认知性同义词集(synset)中,每一集合表示不同概念并且在以下文献中加以描述:Fellbaum,Christiane(2005).WordNet andwordnets.;Brown、Keith等人(编著)的Encyclopedia of Language and Linguistics,第二版,Oxford:Elsevier,第665-670页。
在已经识别出定义后,以RDF三元组的方式对此进行表达,随后将所述RDF三元组存储在数据库中。然后可以对两个不同含义的RDF三元组进行查询,以确定三元组之间的相似性,所述相似性被用于确定指示两个本体项的含义的相似性的相似性分数。
在此之后,在步骤1115中,语义匹配器模块确定项是否通过小类和超类布置相关联。然后在步骤1120中,将该信息与相似性分数结合,以计算匹配分数。在步骤1125中,确定所有项对是否完成,并且如果未完成,则过程回到步骤1105,从而允许选择下一对源本体和目标本体以及计算匹配分数。在已经检查了数据库中的所有潜在本体项对和匹配概念后,在步骤1130中,语义匹配器模块可以选择最佳匹配,并且随后提供对此的指示。
因此,应了解,上述过程允许用户与本体交互,选择相关的本体项以及使用此来生成用于与存储在诸如数据库或XML文件等数据存储中的与相应本体相一致的内容交互的软件。用户可以进一步调查本体,并且随后使用删减器模块对所述本体进行删减,从而允许确定允许用户与内容交互的最小本体。然后可以将删减的本体与另一删减的本体对准,以使得所述删减的本体可以被用于定义之间的映射,所述映射可以继而被用于在具有源数据结构和目标数据结构的数据存储之间传递数据。
现在将描述更具体的实例。出于该实例的目的,本体被定义如下:
■一组相关概念,也称为类别或对象,其中的一些使用也成为‘继承’关系的子类/超类关系彼此相关联。实例为显示继承的‘组织’、‘公司’、‘社团’以及不显示继承的‘地块’、‘性别’、‘人’。
■一组对象性质,其提供相关类别的额外机制。例如‘位于...处/中/’‘具有性别’。这些关系允许对概念、关系和性质进行推断。
■与每一类别相关联的一组数据性质。例如,类别‘人’具有姓名、称谓、出生日期和性别的数据性质。
■一组公理,其提供前述性质中的任何一个之间的公式化关系。例如,“如果一个人的头衔是‘夫人’,则其性别必定是女性”,或者“如果两个对象具有相同的唯一标识符,则其是同一个对象”。这些公理允许对概念、关系和性质进行进一步推断。
本体可以诸如RDFS、XML、DAML、OIL、N3和OWL的多个语言进行描述。这些语言可以具有不同方言,诸如OWL-Lite或OWL-DL。从功能性角度而言,它们不同之处在于它们管理和描述复杂关系和公理的能力。
本体可以包含几十万种概念。用户可以对这些概念的子集感兴趣。该子集可以来自:
■单个本体;
■多个重叠本体;或者
■多个不同本体。
目标本体中的一些概念无法预定义,并且可以不存在于源本体的任何一个中。在这种情况下,用户可以需要手动添加缺失概念。所需要的子集可以具有开始概念和结束概念二者或其中的任何一个。
出于说明的目的,图12A和图12B中示出两个极简单的示例性本体。应了解,这些被利用来说明加索引、删减、语义匹配和对准过程,而非意在进行限制。
在这些实例中,存在两种类型的关系,即,那些分级连接的关系和那些非分级连接的关系。在这些实例中,分级连接的类别由实线椭圆形表示,所述实线椭圆形由从超类指向子类的实线分级连接。每一子类继承其超类的所有性质。示出为虚线椭圆形的非分级连接的类别的集合由命名为对象性质的线连接至任何类别,命名为对象性质的线在此处示出为虚线。每一类别具有一组数据性质,这组数据性质中的一些在表1中示出以用于说明。
表1
应了解,本体示出类似的概念,但是存在一些差异:
■一些概念具有不同名称。我们是否能够说‘团体’等同于‘客户’,‘人’等同于‘个人’、‘成员’等同于‘会员’且‘职业’等同于‘工作经历’?
-在除‘职业’以外的每一种情况下,类别各自具有相同数据性质,因此我们可以假设它们是近乎相同的。在数学上,相同性(C1i,C2i)~1.0,其中C1i是来自第一本体的概念,并且C2i是来自第二本体的概念。
■一些概念具有不同数据性质。在‘职业’和‘工作经历’的情况下,其具有一些相同的数据性质和一个‘汇报对象’,所述‘汇报对象’仅适用于‘工作经历’。实际上,‘工作经历’违背了第四范式,因为其对于‘开始日期’和‘结束日期’是否指代‘职务’或是‘汇报对象’数据属性模糊不清。
■一些概念具有不同对象性质。‘工作经历’具有两个与‘人’一起的对象性质,而‘职业’仅具有一个。在本体1中,‘股份’将‘公司’与‘个人’相关联,而在本体2中,其将‘公司’与‘客户’相关联。
■一些概念不存在于一个本体中。‘上市公司’存在于本体2中,但是不存在于本体1中。
出于这些实例的目的,系统执行图13中示出的功能性,其中这些功能性由相应模块实现。就这一点而言,模块包括:
■ETL(提取转换加载)模块1300。它提取、转换并加载结构化数据源内的内容。这包括两个子组件,包括:
-处理器1301,所述处理器利用特定本体或在不存在本体的情况下利用推定本体提取源数据,处理器创建所述推定本体以描述数据。处理器可以部署在云计算中,或者部署在与数据相同的机器上,或者部署在可以利用信息传送、ODBC、https、SOAP或任何等效协议访问数据的机器上。可部署多个处理器副本,以便从多个源获得数据。
-协调器1302,所述协调器从各种处理器收集数据并且将源本体映射至目标本体。查询使用目标本体写成,并且被转换成等效源本体查询,从而允许使用目标本体返回数据。
■本体浏览器模块1310,所述浏览器模块包括浏览器程序1311、编辑器程序1312和生成器程序1313。它生成屏幕和相关联的软件以及对其进行管理的数据,这允许用户浏览和编辑本体和由本体描述的数据。这些屏幕分两个阶段出现。第一阶段是在生成过程期间。在该阶段中,动态地创建屏幕并显示额外信息,以允许用户选择将生成哪些特征。在第二阶段中,对屏幕进行硬编码,并且仅显示指定用于生成的信息。
■本体索引器模块1320。索引器模块在一个或多个本体上创建所有类别名称、数据性质名称和对象性质名称的一组链接的索引。另外,索引包括语义等同的项(例如,同义词和同形同音异义词),所述语义等同的项来自源本体、以及语义等同功能。
■本体删减器模块1330。删减器模块取用本体并且允许用户指定其希望保留哪些类别、数据性质、对象性质和公理。使用这些保留的删减器模块检查来查看本体中定义的关系型和公理型完整性得到维持。
■本体对准器模块1340。对准器模块取用两个或两个以上本体,并且使用多个技术来将各种本体中的概念彼此对准,或者与指定的目标本体对准。所述技术利用由索引器模块创建的索引,以找出语义类似的概念。使用语义匹配器模块对每一数据性质和概念进行比较。它基于本体结构和数据性质完善匹配。
■语义匹配器模块1350。匹配程序模块将两个项或两个项列表进行比较,以确定其在例如医药或工程等具体上下文内是否具有数学上定义的语义等效性程度;或者在另一给定的单个项的情况下,匹配器模块将基于具体上下文提供同义词、同形同音异义词等的列表。
通常而言,本体不具有除实例以外的任何数据实例,然而可以两种方式中的一种将本体匹配至现有数据。
■本体由现有数据构建而成。例如,可以通过被定义成本体类别的关系型实体(表格)、被定义成本体对象性质的关系型关系和被定义成本体数据性质的相关的属性(列)将关系数据库自动地转换成‘推定的’本体。一些本体公理可以从关系型参照完整性约束得出,但是大多数公理将需要手动添加或忽略。然后可以将该推定本体与现有的丰富本体进行对准以添加元数据。
■将本体与数据匹配。存在多个用于执行该操作的工具(例如,S匹配)。
在不考虑数据格式的情况下,可以使用适合于源数据结构和元数据(如果存在)的方法从源数据自动地生成推定本体。可以使用本体编辑器程序手动地更新该推定本体,或者使用原来生成的推定本体。在任何一种情况下,随后使用具有主语区域本体(由ETL模块处理器调用)和具有目标本体(由ETL模块协调器调用)的对准器模块对推定本体进行对准。
可以使用删减器模块对目标本体进行删减,以确保其仅包含所需的概念以及确保所述所需的概念的完整性所需要的那些概念、公理、性质、推理和出处详细信息。
所有这些工具利用由语义匹配器模块提供的服务,以检查两个语义概念是否匹配,并且使用索引器模块以寻找各种源本体和目标本体之后的匹配概念和概念性结构。
现在将更详细地描述相应模块的实例。
ETL模块
ELT模块执行所有ELT工具所常见的数据提取、转换和加载的功能,无需使用元数据知识库。它通过使用与源数据相关联的元数据来确定数据结构并接着将该元数据映射至本体来执行该操作。它还将含义分配至数据,并且因此能够在映射和转换数据的过程中实现高水平自动化。
消除对元数据知识库的需要意味着过程的灵活性不受维护知识库需要的人为干预约束。可自动地适应新数据格式和技术。
在高水平下,执行两个主要过程。用于执行这些过程的代码也称为处理器和协调器。可以部署处理器的众多副本以在任何定义的位置处读取数据。处理器可以与数据共同定位在相同的装置上,或者处理器可以定位在云计算中并且使用远程访问协议访问数据。处理器从源提取元数据,并且从该元数据创建推定本体。然后执行一些基础数据转换,并且将数据和本体传递至协调器。
协调器从各种处理器接收输入并且对准其本体。然后从对准的源本体将映射应用至用户定义的目标本体。用户现在可以看到来自各种源本体的所有数据。可以通过以下方式提取数据:指定针对目标本体的特定查询,或者使用本体浏览器模块创建查询,如下面将更详细地描述。
图14A中示出示例性ETL模块软件堆叠,其包括实现该结果所需要的各种软件组件;而图14B示出示例性部署,其中多个处理器利用网络布置耦接至单个协调器。
处理器负责从不同数据源读取数据,将数据表现为RDF,以及创建推定本体以描述数据。高级功能如下所示:
■通过添加元数据和映射文件登记不同数据源。
■将非结构化数据转换成RDF。
■将RDF加载到三元组存储器中。
■将映射文件转换成推定本体。
■阐述每一源的SPAQRL端点。
协调器负责读取目标本体和映射文件,以及对请求和响应的转换进行协调。高级功能如下所示:
■登记目标本体。
■读取映射文件并对其加索引。
■将SPARQL查询从目标转换成映射的源词汇。
■将响应从源转换成目标词汇。
■存储转换规则。
■阐述目标的SPARQL端点。
本体浏览器模块
本体浏览器模块操作以自动地创建一组屏幕,从而允许用户浏览本体,查询由本体定义的数据以及将实例数据添加至由本体定义的数据。然后可以独立于本体和创建工具将如此生成的屏幕作为完整的独立应用。
就这一点而言,目前使用本体来定义链接的概念以及访问数据主要限于学者和专业本体专家。原因在于不存用于允许用户浏览本体并且随后用于引导用户与存储在结构化的数据存储中的数据交互的简单机制。因此,通过提供使得具有很少或不具有本体论专业知识的人能够以简单可理解的方式访问本体的所有详细内容的工具,这允许用户使用简化查询构造机制来选择和检查由本体描述的数据。它将能够向仍然在执行的原始本体中存在的所有约束和推理的数据添加记录。最终,它将能够部署生成的屏幕作为适合于负责人办公室人员使用的独立应用。
当检查数据时,用户可以多个格式将其显示出来。相关数据可以被存储为例如RDF三元组。这些可以被显示成关系型表格、电子表格、名称-值对或任何用户定义的格式。
本体浏览器模块可以存在于两个主要形式中,作为独立工具或其次作为现有本体工具的插件(诸如Protégé)。在任何一种形式中,它都可以生成特定于选择的本体的应用。
可对生成的应用进行使用,无需本体作为用于访问、更新、删除和添加记录的全功能代码集,其中执行定义在原始本体之后的所有数据规则。
因此,本体浏览器模块提供可以在计算机程序中实现的一组过程,所述计算机程序生成屏幕和相关联的软件以及对其进行管理的数据,这允许用户浏览和编辑本体和由本体描述的数据。这些屏幕分两个阶段出现。第一阶段是在生成过程期间。在该阶段中,动态地创建屏幕并显示额外信息,以允许用户选择将生成哪些特征。在第二阶段中,对屏幕进行硬编码,并且仅显示指定用于生成的信息。
下面的表2中陈列屏幕的简述。
表2
这些屏幕未以通用格式生成,以使得单个屏幕用于每一类型的屏幕。屏幕布局由本体内容动态确定。
通用类屏幕并不方便用户使用,并且无法进行定制。因此,过程允许用户生成一组完整的屏幕,所述屏幕的外观和感觉可以使用诸如层叠样式表、模板、标记和用户提供的参数进行参数化预确定。
浏览器模块的布置的实例在图15中示出。
就这一点而言,浏览器模块1310从协调器1302获取目标本体1501或用户定义的任何本体。浏览器模块1310显示一组屏幕1502,这组屏幕1502允许用户浏览本体以及指定将本体的哪些组件生成到独立应用中。
浏览器模块1302生成独立应用1503,所述独立应用1503包括一组计算机屏幕1504以使用目标本体中指定的结构和规则管理数据。所述应用可以多个模式生成,诸如仅本体或数据浏览器模块,或者作为全功能数据添加、更新和删除应用。在这种情况下,用户现在具有完整的应用1503来管理由本体描述的数据。
使用OWL或RDF文件的本体具有足够的信息来生成网页并且创建对应数据库1505来存储信息。RDF或者OWL文件可以已由本体专家基于其详细业务知识来创建。
因此,浏览器模块1310创建应用1503供终端用户查询或输入事务数据。OWL或RDFS文件与应用定制文件、数据库连接详细信息和创建应用所需要的任何其它元数据一起输入浏览器模块1310。
浏览器模块1310可以例如使用HTML5、JSP、JSF或任何类似技术创建网页。浏览器模块1310为本体浏览器模块1310中的每一类别创建网页,并且与该类别相关联的每一性质被创建作为页面内的字段。应用1503在生成的网页与数据库1505之间建立联系。它执行过程以将数据从网页存留至数据库1505,以从数据库1505提取数据,查询数据库1505中的数据以及在网页上显示数据。浏览器模块1310随后创建数据库脚本,所述脚本用于创建和加载用户提供的元数据中所指定类型的数据库。这可以是关系数据库(RDBMS)、三元组存储器、NOSQL、NewSQL、图形数据库或任何其它认可的数据库。
现在将更详细地描述浏览器模块的操作。就这一点而言,为了浏览本体,用户必须能够找到本体项:
■概念;
■数据性质;
■对象性质;以及
■推理。
这要求了两种机制,即:
■用于从本体为以上本体项加索引的方法,以便通过名称搜索任何所述本体项,如下面相关于索引器模块所描述;以及
■用于在已经选择特定性质后显示所有相关数据和对象性质的方法。
为了实现该目的,用户首先选择将在表2中描述的‘登录屏幕’中浏览的本体。可以从文件或网址选择该本体。在已经选择本体后,使用本体的索引生成类别列表。该列表显示每一类别的名称和描述。对于较大的列表,提供列表搜索功能,从而允许用户通过类别名称或者类别描述的一部分进行搜索。还可以对数据性质进行搜索。在任何一种情况下,搜索将返回包含该数据性质的类别列表。
用户随后选择相关类别,这使‘类别屏幕’得以显示,包括呈窗口或标记的小屏幕形式的四个组件,如下所示:
■数据性质组件。每一数据性质的名称以字段旁边具有描述框的列表格式显示。点击字段旁边的信息图标将显示所有字段属性和与该字段相关的任何公理。任选地(可点击),也可以示出父类/超类或一个或多个相关类别
■父类/超类组件。这显示所显示的类别的父类/超类的名称和描述,具有至所述类别的可点击链接。点击该链接将引起浏览器模块显示屏幕,所述屏幕显示当前类别的父类。
■子类/小类组件。这显示所显示的类别的子类的名称和描述,具有利用小类关系的可点击链接。点击这些链接中的一个将引起浏览器模块显示当前类别的子类/一个或多个小类。
■对象性质组件。这显示所选择的类别的相关类别,每一相关类别具有使用对象性质的可点击链接。点击这些链接中的一个将引起浏览器模块显示与当前类别有关的类别。
通过选择类别屏幕上的‘搜索’选项,发出查询以返回该类别的所有数据实例。这显示成列表,其中一行针对类别的每一实例。通过点击特定的行,该行被显示成类似于本体类别屏幕的格式化屏幕。在一个实例中,可以通过实施对结果进行过滤的查询来限制返回的数据。现在将更详细地描述此种查询的构造和使用。
就这一点而言,通过以下方式实现对返回给用户的数据的过滤:从用户获取用户对将返回的数据的呈过滤器形式的精确要求,并且随后基于该过滤器生成查询。通过将值或表达输入到类别屏幕上的数据性质字段中来构建所述过滤器。例如,使用上述样本本体以找出John Doe拥有多少股份,将需要以下步骤:
■从类别列表屏幕选择‘个人’类别。
■在数据性质字段中,将‘John’输入到名中,并且将‘Doe’输入到姓中。
■从‘个人’类别屏幕的对象性质窗口选择‘股份’类别。
■选择搜索选项。
通过选择股份类别屏幕上的‘搜索’选项,发出查询以返回有关该类别但是仅由John Doe所拥有的所有数据性质。过滤器已经被生成的应用1503转换成SPARQL或功能上等效的查询,所述查询可针对存储在数据库1505中的数据实施。
为了允许浏览器模块1310生成应用1503,执行以下过程:
■任选地对有关将生成的应用的元数据进行配置,包括以下项目,诸如:
-公司名称、标志等。
-将生成的应用的名称。
-将创建的数据库的名称和类型。
-数据库的位置。
-有关将生成的应用的命名和编码规范和标准。这包括样式表、模板、脚本语言和其它显示规范。
-将与类别和操作相关联的图标。
-技术支持的地点和联系方式。
-错误和日志信息的冗长性。
■在‘登录屏幕’上选择从哪一个本体进行生成,引起浏览器模块1310显示‘类别列表’屏幕。
■在类别列表屏幕上,对将生成的每一类别加‘g’。
■选择将生成的每一类别,使浏览器模块1310显示‘类别显示’屏幕。
■在类别显示屏幕上,最初对所有字段加标签‘g’。检查将生成的每一数据性质字段,每一超类/小类链接和每一对象性质链接,如果不需要则删除标签。
■默认情况下,所有字段均可搜索(即,可以添加至过滤器)。将‘ns’标签添加至数据性质字段将意味着字段在生成的应用中将不可搜索。
■超类/小类链接字段和对象性质链接字段中的每一个上存在额外的字段标签位置。通过在这些字段中设置“l”标签,其将从链接的类别生成数据字段到生成的屏幕中。这些字段将显示成非可更新字段。
■如果将显示来自链接的类别的任何字段,则选择该链接的类别并且对适当字段加标签‘l’。
■返回“类别显示”屏幕,并且从将不会被执行的每一公理描述删除标签。删除公理之前的字段很重要,因为否则生成的应用中可能会存在完整性缺失。
■重复步骤3至步骤9,直到已经选择用于生成的所有所需的类别为止。
■返回“类别列表”屏幕,并选择‘生成应用’选项。
■所述应用将由浏览器模块1310生成,并且被保存到应用元数据中指定的位置中(步骤1)。将创建数据库数据库建立和加载脚本。运行这些脚本以将所述应用准备就绪。
因此,上述浏览器模块1310允许用户浏览本体以及与本体交互,并且随后通过选择特定类别和数据性质生成应用1503,所述应用1503可以用于与存储在数据存储1505中的与所述选择的类别和数据性质相一致的数据交互。
本体索引器模块
索引器模块自动地为一个或多个本体的收集过程中使用的项创建一组索引,以帮助用户浏览本体并加速对由本体定义的数据的查询。这些索引被其它模块用来帮助进行对本体的对准、删减和浏览。
索引器模块通过创建所有类别名称、数据性质名称以及对象性质名称和关系的一组链接的索引来为一个或多个本体加索引。索引包括来自源本体,以及来自语义等同功能的语义等同项。
现在将参考图16描述索引程序的功能性的实例。
在该实例中,索引器模块1320利用一组屏幕1602从协调器1302接收本体1601或由用户或处理器1301定义的任何本体,并且创建所有类别名称、数据性质名称和对象性质名称的索引1603。应了解,屏幕可以由如前面所描述的浏览器模块1310生成。
随着每一本体项被加索引,使用概念匹配数据库1604从语义匹配器模块1350获得的同义词也被加索引。对于对象性质,由所述对象性质链接的概念在索引中交叉引用。
基于以上示例性本体的概念-数据性质-对象性质(CDO)索引的实例在表3中示出。应注意,这是用于说明目的的显示形式的索引,但是在实践中,所述索引可以存储在更复杂的索引结构中,如下面将更详细地描述。
表3
即使不包括同义词,这仍然是极为有用的索引。例如,可潜在地对两个本体中具有相同名称的每一个概念进行对准。对准器模块将采用每一所述对,并且首先比较其对象性质且随后比较其数据性质。
例如,概念‘股份’作为概念出现在两个本体Ont 1.7和Ont 2.10中。在该情况下,它似乎是类似的(S1.7,2.10=1.0,因为名称相同),并且从索引器模块的角度来看这是足够的。
另外分析可由下面更详细地描述的对准器模块执行。通过检查对象性质,将发现对象性质是不同,如下面的表4中所示。虽然其数量和对象性质名称匹配,但是鉴于S1.7,2.10=0.8571,相关概念后的一个是不同的。通过检查数据性质,我们发现鉴于S1.7,2.10=1.0,它具有相同数据性质。
源信息全部可以在索引程序创建的索引中获得,对准器模块在源信息上执行先前计算。
表4
使用语义匹配器模块对其它概念的进一步分析将示出“个人”是“客户”的小类,因此给出S1.7,2.10=0.8->0.95。本体2是比本体1更通用的模型。该相似性范围足以在两个本体中的“股份”之间建立锚点。Si,j的计算由对准器模块执行。
概念之间的关系在表5中呈显示内容形式示出的概念到概念(C2C)表格中提取,该表格示出概念C1与概念C2如何相关联。
表5
对象关系 | C1 | C2 |
雇用 | Ont 1.4 | Ont 1.6 |
雇用 | Ont 2.4 | Ont 2.9 |
具有 | Ont 1.3 | Ont 1.5 |
具有 | Ont 2.3 | Ont 2.8 |
持有 | Ont 1.1 | Ont 1.5 |
持有 | Ont 2.1 | Ont 2.8 |
是 | Ont 1.1 | Ont 1.0 |
是 | Ont 1.2 | Ont 1.0 |
是 | Ont 1.3 | Ont 1.2 |
是 | Ont 1.4 | Ont 1.2 |
是 | Ont 2.1 | Ont 2.0 |
是 | Ont 2.2 | Ont 2.0 |
是 | Ont 2.3 | Ont 2.2 |
是 | Ont 2.4 | Ont 2.2 |
是 | Ont 2.5 | Ont 2.4 |
是 | Ont 2.6 | Ont 2.4 |
是 | Ont 2.7 | Ont 2.1 |
是 | Ont 2.7 | Ont 2.2 |
拥有 | Ont 1.1 | Ont 1.7 |
拥有 | Ont 2.0 | Ont 2.10 |
汇报对象 | Ont 2.9 | Ont 2.1 |
股东 | Ont 1.4 | Ont 1.7 |
股东 | Ont 2.4 | Ont 2.10 |
工作地点 | Ont 1.1 | Ont 1.6 |
工作地点 | Ont 2.1 | Ont 2.9 |
索引是以对应于将以上表格整理成不同顺序的多种格式构建。对准器模块可以通过执行针对所述索引的SQL查询来执行其许多任务。
现在将更详细地描述索引结构的实例。就这一点而言,使用语义匹配器模块,确定每一同义词集的根词或词元。语义匹配器模块要求对语境进行设置以便获得最佳结果。一般而言,当跨多个本体构建索引时,每一本体的语境是已知的、狭窄的,并与其它相关本体相关。
索引的最终集合以多步骤过程创建,所述多步骤过程概括如下:
■从被加索引的本体提取所有概念、对象性质和数据性质。
■使用表3和表5中描述的格式将这些值加载到临时表格(CDO和C2C)中。针对被加索引的每一本体将这些表格创建或再建成空表格。
■将本体加载到语义匹配器模块中。这将使用本体中所包含的任何定义检查每一个词的语义,并且将其与已经加载到语义匹配器模块中的或者可以从诸如WordNet等公共词典中获得的那些定义进行比较。语境由本体提供(例如,医学/外科或地理位置)。
■语义匹配器模块定义概念Id,该概念Id是对应于每一个同义词系列的词元或根词的唯一编号。
■然后使用匹配上面所描述的临时表格中具有概念Id的项的项加载同义词表格。
■将由语义匹配器模块识别的有关被加索引的本体中的每一项的所有同义词也加载到同义词表格中。
■然后通过代入有关CDO表格中的每一项的适当概念Id创建最终CDO索引。
■然后通过代入有关C2C表格中的每一项的适当概念Id创建最终C2C索引。
■删除临时(显示版本)索引。
■然后通过重复所有先前步骤加载将被加索引的下一本体。
■当已经对所有相关本体加索引时,如果在加载过程期间已识别出任何新的同义词,针对语义匹配器模块执行同义词表格的最终遍操作。
■将索引加载到适当数据库结构中并对其性能进行调谐。通常来说,这将涉及跨本体索引表格创建多个数据库索引。
将了解,不存在使用工具或使用索引的直接用户交互。相反,索引器模块提供由其它模块、工具或组件使用的服务。
该索引可以提供的服务中的一些包括增强的能力以:
■从一系列本体选择最佳本体;
■对准或合并多个本体;
■操纵本体;
■提取同义词;
■执行语义匹配。
本体删减器模块
删减器模块被设计用于允许用户采用大型本体或一系列对准的本体,并将其删减成适合于用户的需要的相关类别,不会因为大意地删除包含与其相关本体项相关的数据或公理的组件而出现完整性缺失。
例如,当构建和利用诸如解剖学基础模型(FMA)等大型参考本体时出现问题。就这一点而言,FMA非常大型并且非常详细,尽管其性质也非常宽泛(例如,非应用特定)。它还严格遵循适当的建模原理。这些标准共同使得FMA支持许多可能应用。然而,其也会被呈递得较为麻烦(即,过于大型或详细或条理化)以由任何特定应用使用。
因此,FMA的潜在用户具有以下基本形式的要求:“我们确实喜欢FMA,但是它太大或者说是太过详细,不符合我们的需要,我们真的只需要基于整个FMA的子集的那些”。划分依据随不同应用而变化,但是实例包括:
■基于区域,即大脑或腹部。
■基于系统,即心血管系统或骨骼系统。
■基于粒度,即仅在X射线中可见的项目或者仅细胞和亚细胞组分。
虽然所需的本体派生物大体上基于诸如上面所描述的那些子集提取,但是随后常常对其进一步操纵以更好地适应应用需要(即,添加类别、删除类别、删除性质、添加性质等)。
可以三种方式中的一个处理此类请求:
■针对每一新请求编写程序代码,这不是通用解决方案。
■创建对本体的视图,这需要用于定义所需的应用知识库(KB)的语言(未必总是适当本体)以及可以从定义和源本体生成应用KB的引擎。这具有添加和删除性质的问题。
■删减本体,以提供良好建模的子集本体。
因此,存在对删减的本体(诸如相关性、性能、可管理性和可测试性等)的许多需要,并且这些要求通过工具来满足,所述工具使得具有很少或不具有本体论专业知识的人能够安全地删减不需要的概念。另外,人应能够使用简化查询构造机制选择和检查通过本体进行描述的数据。它将能够在执行其删除之前研究从本体删除组件的影响,并且随后将删减的本体另存为新的本体。
例如,SNOMED-CT是在临床文件中使用的医学项的大型医学本体。它由30万+概念组成,所述概念之间具有约140万种关系。所述概念被划分成19个职能领域。研究人员可以只对这些领域中的一个感兴趣,例如心理健康领域。删除其它18个领域将会打破医学健康项与药学项之间的许多关系。明显地,研究人员可能希望保留这些项目。使用现有的工具手动执行该项工作将要求好多个月工作,并且将易出错。
举另外一例来说,用户可能希望从几个现有的源本体的组件创建新的本体,并且之后自行添加。组合的本体将包含许多将需要删除的不相关概念。例如,包裹投递公司将运输本体与地理定位本体结合,以创建允许对投递路线进行确定和优化的本体。通过结合这些本体并且添加公理(诸如在机场开始和结束其旅程的飞机、港口的船舶和车站的火车等),将能够构建重写其业务模型中的每一个概念的信息库。然而,每一源本体中的许多内容将是不需要的。
可以使用删减的本体定义代替对整个本体的视图。该视图可以用于诸如访问控制、范围管理等多个目的。
为实现该目的,删减器模块连同浏览器模块一起操作,以执行以下表6中陈述的功能。
表6
删减器模块与浏览器模块交互,以允许用户指定其希望保留选择的本体的哪些类别、数据性质、对象性质和公理。使用这些保留的内容,删减器模块检查本体中定义的关系型和公理型完整性得到维持。
在另一版本中,用户可以指定单个本体内必须保留在删减的本体中的两个重要概念。本发明随后对类别之间的所有概念性关系进行映射,从而对分析指定的概念所需要的所有类别加标签。然后从源本体包括额外的类别、对象性质和公理,以确保删减的本体的完整性。
在另一版本中,用户可以指定来自不同本体的必须保留在删减的本体中的两个重要概念。删减器模块随后尝试对类别之间的所有概念性关系进行映射,从而对分析指定的概念所需要的所有类别加标签。如果未识别到连接路径,那么软件将识别可能无法创建连接两个起始概念的删减的本体。将要求用户:
■放弃尝试,或者
■重新定义其目标并重新开始,或者
■通过手动添加额外的类别或者添加来自另一本体的类别来扩大范围,并重新开始。
如果成功,那么用户现在具有完整本体,所述完整本体的大小较之组合的源本体被大大减小。
删减器模块的布置的实例在图17A中示出。
在该实例中,删减器模块1330打开定义在OWL和RDFS文件中的本体1701,用户随后利用如在下面的表7中定义的一组屏幕1702与删减器模块1330交互,从而产生删减的本体1703。应了解,屏幕可以由如前面所描述的浏览器模块1310生成。
表7
当删减单个本体时,这是工具辅助的手动过程,如现在将参考图17B进行描述。
在该实例中,用户选择其所需要的概念,并且工具识别并添加完备性和完整性所需要的组件。用户选择一个类别作为源本体中的起始种子点S0,并将其加标签为K0表示保留。
计算机进行识别,并且将标记为‘K0’的类别的所有父类、来自被加标签为K0的类别和推理的所有类别和推理加标签为‘K1’。这些被加标签的变量称为S1-壳。用户检查计算机加标签的项目,并且对其重新加标签为K1表示保留,M1表示或许,以及D1表示丢弃。加载加标签的Mi和Ki组件的所有公理。然后重复该过程,逐次对i增值,直到用户已经对有关适当本体的所有组件加标签。
然后将推理器应用至所得本地,以识别潜在错误并添加推断值。如此添加的任何概念、推理或公理被加标签为Kn,并且加标签的组件被导出作为删减的本体。
对于多个重叠本体,过程如在图17C中示出。
在该实例中,用户选择一个类别作为一个本体中的起始种子点S0,并且选择另一类别作为同一本体或另一本体中的结束种子点E0,并且将其二者加标签为K表示使用‘K0s’或‘K0e’保留。
计算机进行识别,并且将标记为‘K0x’的类别的所有父类以及来自被加标签为‘Knx’其中n=1的类别和推理的所有小类和推理加标签为‘K1s’或‘K1e’。这些被加标签的变量称为S1-壳和E1-壳。S壳和E壳中的变量由下面更详细地描述的语义匹配器模块进行比较。匹配程序模块返回每一壳中的变量之间的匹配质量的数值。如果满足预确定的匹配质量,则已经确定两个壳之间的路径。这应当仅在壳重叠的情况下发生。如果起始点和结束点在相同本体中,则匹配质量必定是1.0或确切。
在任何阶段,可以对加标签的数据类别的数据性质进行删减。这通过以下方式执行:选择类别并且将数据字段(数据性质)标记成‘D’表示丢弃。基于被丢弃的字段的存在的任何推理将被忽略。
重复这些步骤,逐次将n增加1,直到预确定数量的变量具有适当匹配质量或者达到预定义壳深度。匹配变量的壳路径被加标签为‘Pjx’。如果达到预定义壳深度而未建立任何路径,则过程已经失败并且本体被视为是不同的。过程停止。在该点处,能够增加预定义壳深度,并且能够手动地改变被视为是不在从K到表示丢弃的D的范围内的任何概念的标签。可以重新开始过程。
在这些已经被建立后,可以填充S0与E0之间的路径Pj,并且可以依据这些路径定义骨架删减的本体。加标签的Pj路径要素的所有父类和推断的父类也被加标签成属于路径Pj。所有公理被加载用于加标签的Pj路径组件,因此创建扩展的本体。
将推理器应用至扩展的本体,以识别潜在错误并添加推断值。如此添加的任何概念、推理或公理被加标签,并且被导出作为删减的本体的一部分。
对于不同本体,过程如在图17D中示出。就这一点而言,不同本体可能由于以下两个可能原因而出现:
■用户在尝试对本体进行对准或者从两个本体中的概念提取子集本体之前并未意识到它们是不同的。这是前一部分的可能失败结果;或者
■用户知道它们是不同的,并且提供概念和性质以允许其结合。
在任何一种情况下,用户必须提供信息以允许所述本体结合。这实际上是该过程的起始点。
用户选择一个类别作为一个本体中的起始种子点S0,并且选择另一类别作为另一本体中的结束种子点E0,并且将其二者加标签为K表示使用‘K0s’或‘K0e’保留。除此之外,其定义连接所述本体的一组用户定义的路径,如由线1710示出。
这些路径具有起始点‘U0Si’和结束点‘U0Ei’,其中‘i’是被定义的路径编号。这些路径形成一组连续的相关概念,从一个本体中的类别开始并且以另一本体中的类别结束。
然后将上面描述的有关重叠本体的过程应用至每一概念对S0和‘U0Si’,以及E0和‘U0Ei’,以在起始点/结束点与用户定义的概念‘i’之间建立路径Psi和Pei。在这些已经被建立后,可以填充S0与E0之间的路径Pi,并且可以依据这些路径定义骨架删减的本体。有关加标签的Pi路径要素的所有父类和推断的父类也被加标签成属于路径Pi。加载加标签的Pi路径组件的所有公理。这被称为扩展的本体。
将推理器应用至扩展的本体,以识别潜在错误并添加推断值。如此添加的任何概念、推理或公理被包括在删减的本体1711中,所述删减的本体1711现在可以导出。
当用户选择一个概念作为用于删减的起始点时,有必要确定应包括在内的额外概念。存在多个基于对象性质和数据性质的算法,所述算法被应用以进行这种确定。就这一点而言,对象性质具有以下属性:
■它们命名两个概念之间的关系。
■所述关系具有方向。这被定义成从‘域’概念到‘范围’概念。在关系数据库术语中,域的主键码变成范围中的外键码。
■任选地,关系具有类型,包括:
-功能性
-反向功能性
-过渡性
-对称性
-不对称性
-反射性
-不反射性
而且,超类/小类关系等同于对象性质的特殊情况。小类‘继承’其超类的所有数据性质和所有对象性质。
使用如上所述样本本体,如果用于删减的起始点是‘社团’,那么其将有必要包括社团的所有超类,即删减的本体中的组织和团体。类别成员将不会被包括在内作为该关系的方向和类型,除非其自动包括。基于同样的原因,组织和团体的小类将不会被自动地包括在内,且社团的任何小类也不会被包括在内(如果有)。
然而,如果成员已经被包括在内,那么对象性质‘具有’和‘持有’的方向和类型将确保社团和个人和其所有超类被自动地包括在内。
任何概念中的数据性质‘类型’提出警告,因为其意味着未建模概念的存在,所述未建模概念即社团中的‘社团类型’、成员中的‘成员类型’等。例如,‘社团类型’概念可以包含诸如帆船、象棋、体操等所有有效值的列表。“社团_类型”概念的社团范围将具有被称作‘具有类型’的对象性质。该概念将被自动地包括在删减的本体中。
可跨所有概念或逐概念修饰所有自动包括和排除。用户指定每一类型的对象性质的‘包括’、‘排除’或‘请求’。
包括特定概念的决定由专门的语义推理器使用特别是作为至推理引擎的输入的对象性质的本体规则做出。最初使用一阶谓词逻辑以获得明确的包括和排除。如在‘类型’数据性质的实例中的更多推理必须使用前向推理和反向推理链进行确定。为了获得最佳结果,可以将Novamente的概率逻辑网技术应用至每一局部问题区域。
现在将更详细地描述删减器模块的操作的实例。在该实例中,为了删减本体,有必要识别包括在本体中的概念、数据性质、对象性质和推理。在一个实例中,这通过以下方式实现:使用索引器模块来对本体项目加索引,并且随后使用浏览器模块来显示本体项以如先前所描述进行选择。
确切地说,用户选择将在浏览器模块‘登录屏幕’中进行删减的本体。就这一点而言,可以从诸如文件、网址等的任何源选择本体。在已经选择本体后,使用本体的索引生成类别列表。该列表显示每一类别的名称和描述。对于较大的列表,提供列表搜索功能,从而允许用户通过类别名称或者类别描述的一部分进行搜索。还可以对数据性质进行搜索。在任何一种情况下,搜索将返回包含该数据性质的类别列表。用户随后选择一个类别作为起始点并将其加标签为S0。
任选地,用户然后选择结束点E0。如果用户未选择结束点,那么其将需要如上所述手动地控制删减操作。用户还可以返回登录屏幕并为结束点选择另一本体,或者如果用户知道所选择的本体是不同的,则可以添加一组桥接概念和关系。如果用户未指定桥接概念,那么过程将以如上所述的重叠本体过程为基础进行,否则其将根据不同本体过程进行。
为了控制删减过程,可以设置多个元数据参数,包括:
■用于存储删减的本体的位置。
■用于检查的壳深度。
■用于接受相同性的匹配质量。
■每一壳完成后是否暂停过程以允许手动编辑。
■最大运行时间。
■错误和日志信息的冗长性。
现在将更详细地描述手动删减过程的实例。
在该实例中,用户仅指定用于起始删减过程的起始点。用户可以使用两种方式中的一个执行手动删减,所述两种方式可以随时可交换地使用。
■用户可以从通常由浏览器模块1310显示的类别列表屏幕将待保留的类别加标签为‘K’。用户可以随时选择‘验证’选项,所述选项将自动地对任何相关类别和公理加标签,并且在类别列表中显示加标签的类别。另外,用户可以选择‘视图’选项,该选项将传递加标签的类别至绘图程序,以直观地示出选择的类别和关系。绘图程序可以是诸如OntoGraf等公众可获得的绘图包。
■或者,用户可以通过点击由浏览器模块1310显示的类别列表屏幕中的类别来打开类别显示屏幕中的起始类别。然后,用户可以对其希望保留的所有数据性质、以及任何小类/超类以及对象性质窗口中指定的任何类别加标签。可以通过点击至显示的任何相关类别的链接反复地执行该过程。用户可以随时返回类别列表屏幕,以验证或查看其进程。
在用户已经完成对删减的本体所需要的类别加标签后,其返回至类别列表屏幕并选择“生成本体”选项。这引起删减的本体在应用元数据中指定的位置处生成。可以保存标签以允许容易对删减过程进行重新编辑。
现在将更详细地描述删减重叠本体的实例。
在该实例中,用户仅指定运行删减过程的起始点和结束点。所述过程如所描述在如上所述的多个重叠本体中进行。
假设应用元数据参数已经被设置成在壳之间暂停,过程将随着每一壳完成而停止。在该点处,用户可以验证或查看自动加标签的项目,并且可以删除其认为不相关的任何标签。视图功能将显示两个部分本体,直到建立连接起始点和结束点的路径为止。通过选择“恢复”选项,程序将基于下一壳的确定开始。
在已识别出一个路径之后,过程可以随时停止。然而,或者,可以在起始点与结束点之间的确定多个不同可能路径。
在处理条件的指定的结束点已经满足后,过程停止并且向用户返回状态信息,所述状态信息将包括以下中的一个:
■达到指定的最大壳深度。未发现路径。本体可以是不同的。(失败)
■达到指定的最大壳深度。发现‘n’个路径。要求‘m’个路径。(部分成功)
■发现指定数量的路径。(完全成功)
用户可以决定通过以下方式对过程进行扩展:改变应用元数据中的完成标准并且选择恢复选项。如果用户对结果满意,则他们将选择“生成本体”选项。这引起删减的本体在应用元数据中指定的位置处生成。可以保存标签以允许容易对删减过程进行重新编辑。
如果用户决定本体实际上是不同的,那么他们将进行如下所述的操作。
在该实例中,用户指定运行删减过程的起始点和结束点以及一组相关桥接概念。用户可能已经保存来自前一尝试的标签,以删减及合并所述本体。
通过选择开始删减选项,过程将按照如上面所描述的不同本体过程中所描述的那样开始。假设应用元数据参数已经被设置成在壳之间暂停,过程将随着每一壳完成而停止。
在该点处,用户可以验证或查看自动加标签的项目,并且可以删除其认为不相关的任何标签。在建立将起始点和结束点连接至用户定义的桥接点中的一个之前,视图功能将显示许多部分本体,一个针对每一用户定义的点并且一个针对起始点和结束点。
通过选择恢复选项,过程将基于下一壳的确定开始。在源本体中的一个路径和目标本体中的一个路径可以利用桥接类别进行连接之后,过程可以随时停止。然而,或者,可以在起始点与结束点之间确定尽可能多的路径。
在已经满足处理条件的指定的结束点后,过程停止并且向用户返回状态信息,所述状态信息将包括以下中的一个。
■达到指定的最大壳深度。未发现路径。本体可以是不同的。(失败)
■达到指定的最大壳深度。发现‘n’个路径。要求‘m’个路径。(部分成功。)
■发现指定数量的路径。(完全成功)
用户可以决定通过以下方式对过程进行扩展:改变应用元数据中的完成标准并且选择恢复选项。
如果用户决定本体实际上仍然是不同的,那么他们将需要在检查其桥接概念上花一定的努力。他们可能需要执行手动加标签,以确定路径符合。
如果用户对结果满足,则它们可以选择生成本体选项,这引起删减的本体在应用元数据中指定的位置处生成。可以保存标签以允许容易对删减过程进行重新编辑。
语义匹配器模块
语义匹配器模块允许对数学值进行应用,以使得当在特定语境内进行考虑时两个概念是类似的。有关该过程的名称是‘语义匹配’,并且当尝试对准两个本体中的概念时其特别重要。例如,业务语境中的字词‘公司’和‘组织’不具有完全相同的含义。所有的公司都是组织,但并不所有组织都是公司。实际上,类别公司是类别组织的子集。例如“这个组织是上市公司,而那个组织是高尔夫球社团”。
在社会语境中,公司与组织不相关,但是可以与一组同伴相关。例如“John Doe总是与坏人为伍”。社团和公司都是组织,因此存在一定的相似性。上市公司和未上市公司也类似,并且分享共同的父类。它们在概念上是否与社团和公司接近?公众未上市公司(大于50个股东)和民营未上市公司(小于51个股东)概念上是否接近?其是否比上市公司和未上市公司更为接近?
为了给出用于度量两个概念可以多相似的数学依据,我们引入‘相同性’概念。存在多个公式性量度。例如,Levenstein距离(Levenshtein,1966)计数匹配两个字符串所需要的插入和删除;Needleman-Wunsch(Needleman,1970)距离在编辑操作上分配不同成本;Smith-Waterman(Smith,1981)另外使用至成本的字母映射;以及Monge-Elkan(Monge,1996)根据字词之间的子字符串间隙使用变化的成本。此外,我们使用:Jaro-Winkler相似性,其计数两个字符串之间的常见字符,即使所述常见字符被“短”距离错放;Q-Gram(Sutinen,1995),其计数两个字符串之间共用的三连词的数量;以及子字符串距离,其搜索最大的常见子字符串。然而,这些都尚未被证明是特别有效的。
另一常见技术是将概念布置在单个层次树中,其中‘事物’概念作为根。大多数相同性公式是那些被测量的类别和其常见父类之间的概念的数量和至最底层的距离的函数。
然而,鉴于至底层的距离可能会根据建立本体的本体专家以及本体是否已经被使用本体的人删减而显著不同这一事实,至底层的距离通常是不相关的。
通常来说,相同性由概念之间的边缘数量进行测量。其它可能性基于数据性质的数量存在。例如,社团和公司可能各自具有“5”个数据性质,余量(balance)保留在组织定义中;而公众上市公司和公众未上市公司可能各自仅具有一个属性,余量保留在公司定义中。因此,公众未上市公司与公众上市公司比公司与社团更类似(“2”个属性而不是“10”个属性,或者换句话说,存在较少差异,并且差异等同于距离)。
‘距离’的概念被视为是重要的。两个概念相距多远?存在基于被测量的那些类别与其常见父类之间的概念数量的公式。如果距离是“1”,那么很明显一个概念是另一概念的超类。然而,如果距离是“2”,那么它们是同胞或孙辈。这并不是特别有用的事实。
距离与相同性之间存在某些关系。明显地,如果距离是“0”,那么相同性是“1.0”,换句话说,概念是相同的,因此在实行中,该实例中仅存在一个概念。
好的语义匹配器模块应能够使用任何适当公式计算相同性和匹配的距离。
假定存在描述科学、工程和商业领域的方方面面的数千种公共和私人本体。为了对准两个本体,有必要确定两个本体中的概念之间是否存在语义匹配。
目前,对定义链接概念的本体论的操纵限于学者和专业本体专家。概念的定义和名称根据语境可以有巨大的改变。为了对本体中以及跨本体的项进行比较,我们需要具有用于对项进行语义检查的一些机制。两个概念是否真的是同一事物的同义词,或者其是否以某种其它方式相关联。例如,组织和公司具有某些共同属性,因此存在一定程度的相同性。所有公司都是组织,但并非所有组织都是公司(归类)。
在另一实例中,手指存在暗示手的存在。虽然它们并不相同,但是它们之间存在关系,并且一个存在暗示另一个的存在,因为一个是另一个的一部分(部分词)。
给定任何两个概念,我们想知道它们有多相似;即,相同性0->1,其中1.0暗示它们是相同的,一个是否是另一个的小类或超类(-1,0,1),以及一个是否是另一个的一部分(-1,0,1)。
语义匹配器模块包括概念数据库、概念的含义以及概念之间的关系。它具有用于从本体加载概念的工具,用于手动地编辑概念之间的关系和其定义,以及用于以数学定义的方式对概念进行分析。然后可以在诸如对准本体等各种情况下使用概念和其关系的这些数学定义性质,用作词典以及用作语义概念匹配程序模块。
语义匹配器模块概念找出特定语境(例如,医学、业务)中的同义词、归类(类层次)和部分词(部分)。首先通过解析本体并且获得类别、其注释、类别结构和任何‘部分’对象性质进行加载。然后在诸如WordNet或Watson等内容中使用类别名称,以确定含义和可能的同义词。含义被与任何符号一样解析成三元组。然后,匹配程序模块寻找确定同义性的三元组中的数学一致性。
语义匹配器模块是独立过程,该独立过程评估通常来自两个本体的两个概念列表或者评估单个概念,从而将此与参考项进行匹配以确定概念的含义。
在第一种情况中,匹配程序模块将使第一列表中的每一项目与第二列表中的每一项目组成一队。然后对每一对i、j进行分析,以确定以下项目:
■语义相似性Sij。
-如果项是同义词,则相似性为Sij=1.0。
-如果是反义词,则Sij=-1.
-如果不存在关系,则Sij=0。
■归类关系Subij。
-如果Ci是Cj的小类,则Subij=-1。
-如果Ci是Cj的超类,则Subij=1。
-否则Subij=0。
■部分词关系Merij。
-如果Ci是Cj的一部分,则Merij=-1。
-如果Cj是Ci的一部分,则Merij=1
-否则Merij=0。
在第二种情况中,匹配程序模块采用单个概念和语境定义,并且产生有关该概念在该语境中的同义词、小类和超类以及部分词的列表。如果未提供语境,则跨所有语境执行评估。
下面一些实例基于医学本体和人力资源本体已定义至SemMatch这一假定情况:
■SemMat(团体,客户,业务)=(1.0,0,0)
■SemMat(团体,个人,业务)=(0.25,1,0)
■SemMat(个人,客户,业务)=(0.25,-1,0)
■SemMat(汽车,发动机,汽车行业)=(0.1,0,1)
■SemMat(汽车,车轮,汽车行业)=(0.1,0,1)
■SemMat(患者,人,医学)=(0.25,-1,0)
■SemMat(患者,人,人力资源)=(0,0,0)
■SemMat(患者,人,)=(0.25,-1,0)
■SemMat(人,,医学)=定义:单一的人类:
-同义词:个人、人体
-超类:实体、角色
-小类:患者、从业者、执行者
-部分词:-1,无
+1,器官、四肢
■SemMat(人,,)=语境:医学
-定义:单一的人类
-同义词:个人、人体
-超类:实体、角色
-小类:患者、从业者、执行者
-部分词:-1,无
+1,器官、四肢
■SemMat(人,,)=语境:人力资源
-定义:单一的人类
-同义词:个人
-超类:实体、团体、参与者
-小类:雇员
-部分词:-1,家庭
+1,无
现在将参考图18A和图18B更详细地描述两个不同使用方法。
语义匹配器模块1350使用概念匹配数据库1604来执行其评估。在图18A的实例中,语义匹配器模块1350接收诸如本体项A、B和X、Y等两个概念列表1801、1802并且随后对其进行比较,以生成有关每一可能本体项对的相同性分数1803。
在图18B的实例中,接收单个概念,诸如单个本体项1804,并且语义匹配器模块1350将其与概念匹配数据库1604进行比较并且返回同义词列表1805。
使用索引器模块1320构建概念匹配数据库(CMD)1604。在可对其进行使用之前,必须加载数据库,通常而言将通过基于相关的语境解析本体来加载数据库。用户可以随时更新数据库以添加新的语境。
CMD 1604包含如表8中定义的多个表格,其中表格之间的关系在18C中示出。
表8
现在将参考图18D详细描述加载机制。
首先,确定将加载的本体1801的整体语境,并且将所述语境输入到ID是1的语境表中。例如,如果加载医学本体,则所述语境将被识别为“医学”。
该种类中的本体的实例和有关每一本体的语境名称如下所示:
■不良事件报告本体AERO
■非洲传统医学本体ATMO
■艾伦脑图谱(ABA)成年老鼠脑本体ABA-AMB
■阿尔茨海默病本体ADO
■氨基酸本体AMINO-ACID
■两栖动物大体解剖学本体AAO
■两栖动物分类本体ATO
■解剖病理学词汇PATHLEX
■解剖实体本体AEO
这些本体中的每一个具有源,所述源将被加载到源表格中,因此允许也加载“源2语境”表格。
接着,从以下本体中的每一个提取以下信息并且进行解析:
■类别
■对象性质
■注释
■标签
因为所有字词来自一个本体,所以语境_ID是已知的。每一类别变成字词表格中的字词。注释被加载作为字词表格中的含义。创建临时表格,所述表格将字词_ID 2语境_ID与均设置为空的词元(根含义)和概念相关联,并且针对每一类别和概念_ID被设置为空将类别2对象-性质2类别与字词_ID相关联。
在此之后,然后将提取的类别和其注释加载到字词表格中。每一类别变成字词。每一字词被分配唯一的字词_ID,并且类别注释变成字词表格中的含义。因为所有字词来自一个本体,所以如先前所描述语境_ID是已知的。
创建临时表格,所述表格将字词_ID2语境_ID与均被设置为空的词元和概念相关联,并且针对每一类别和概念_ID被设置为空将类别2对象-性质2类别与字词_ID相关联。
对于每一语境,第一步骤是将每一字词与从标准词典(诸如WordNet 1802)获得的含义和同义词进行匹配。然后将任何不匹配的字词与来自其它语境的字词进行匹配以识别同义词。现在更加详细地描述这些步骤。
字词表格中的每一字词被传递至WordNet 1802以获得含义,并且可能地获得有关基于该字词的同义词或词干的群组的根词或词元。在词法上将WordNet含义与从注释得到的含义进行比较。
这通过将含义转换成RDF三元组并且对三元组进行评估完成。下面更加详细地描述该过程。
如果含义匹配,则使用新的字词_ID将Wordnet字词和含义加载到字词表格中。新的字词_ID被分配至字词_ID_C,并且原始字词_ID被分配至字词_ID_P,然后将二者加载到字词2字词中。
加载字词_ID2语境_ID表格,其中字词_ID被分配至Wordnet词元作为字词_ID且相同的语境_ID作为相关的字词_ID,所述相关的字词_ID被加载成字词_ID_P。字词_ID2语境_ID表格仅具有两列词元和概念。因此,为词元分配新的字词_ID_C,并且从字词_ID_P分配概念。
最后,为类别2对象-性质2类别加载来自Wordnet 1802的字词_ID信息。
然后,将定义有词元的所有字词加载到概念表格中。现在可以使用已知的概念_ID和词元更新字词_ID2语境_ID,并且将其用于加载概念_字词_语境表格,从而导致CWC_ID被分配至命名的语境中使用的每一概念和字词。CWC_ID可用于识别类别2对象-性质2类别中的字词,并且一起填充CWC2CWC表格和关系_类型表格。
字词表格的第二遍操作检查无相关词元的每一个字词的含义,做法是依照句法将含义与其它语境中的字词的含义进行比较。进行匹配的第一含义的字词_ID被选择作为词元。然后有关Wordnet识别的词元的过程继续。
第三遍操作简单地识别作为词元的每一字词,每一字词与词元不相关。这三个遍操作完成时,每一个字词将已经在概念表格1809中的每一可能语境中识别出。
在此之后,计算相同性值。如果完整本体是已知的,那么可以通过匹配正被比较的概念的属性(数据性质)执行相同性的计算。属性列表将必然地包括概念的超类的属性。
在当前实例中,通过分析两个字词的含义计算相同性。英文含义被转换成主谓宾(spo)形式的rdf三元组。这使用RDF转换器的自然处理语言(NLP)完成。(Arndt&Auer,2014)(Augenstein等人,2013)。
例如,社团具有含义“一种类型的组织,其具有成员而不是股东,并存在以满足其成员的某些职业需要”,所述含义可被转换成如下面的表9中所示:
表9
主语 | 谓语 | 宾语 |
社团 | 是 | 组织 |
社团 | 具有 | 成员 |
成员 | 具有 | 需要 |
需要 | 是 | 职业性的 |
社团 | 满足 | 需要 |
组织是一种概念,所述概念如下定义;“组织是个人群体,其具有成为群体的商定理由”,所述概念可转换成如下面的表10中所示。
表10
主语 | 谓语 | 宾语 |
组织 | 是 | 个人群体 |
组织 | 具有 | 个人 |
个人 | 具有 | 成为群体的商定理由 |
将组织定义插入到社团定义中,获得表11中示出的定义。
表11
然而,我们无法推断成员是个人。对此的分析可用于确定:
■社团的成员是个人。如果具有更准确地定义为成员的对象性质的会员概念是个人而不是具有会员身份的个人,则可以做出此推断。
■成为群体的商定理由是满足职业需要。
将相同的过程应用至如上所述的示例性本体中的半官方机构,我们将从含义获得半官方机构是“创建人是政府的用以满足指定的政府需要的组织”,得到表12中示出的三元组。
表12
主语 | 谓语 | 宾语 |
半官方机构 | 是 | 组织 |
组织 | 是 | 个人群体 |
组织 | 具有 | 个人 |
半官方组织 | 的创建人是 | 政府 |
政府 | 具有 | 需要 |
半官方机构 | 满足 | 需要 |
个人 | 具有 | 成为群体的商定理由 |
可将此用于基于如表13中示出的常见的谓语和宾语构建比较表。
表13
这允许基于以下因素使用有关相同性的公式。
■有关社团和半官方机构的概念的三元组的数量分别由N1和N2表示,其中N1=9和N2=7
■两个概念社团与半官方机构之间的共同谓语(SP)的数量是5,即SP=5
■两个概念社团与半官方机构之间的共同谓语宾语(SPO)对的数量是4,即SPO=4
例如:
■相同性=SPO/SP=4/5=0.8或者
■相同性=(SP+SPO)/(N1+N2)=9/16=0.5625
所使用的实际公式是不相关的。重要的事实是我们可以获得公式,所述公式提供对相同性的测量。
应了解,在整个该过程中,用户可以使用通常由浏览器模块显示的屏幕1808与语义匹配器模块交互。
对准器模块
对本体对准的需要起于对整合异构数据库的需要,所述异构数据库独立地开发并且因此各自具有其自身的数据词汇。在涉及提供其自身的本体的许多作用因素的语义网语境中,本体匹配已占据帮助异构源交互操作的关键位置。本体对准工具发现“语义上等同的”数据类别,例如“卡车”和“货车”。类别未必逻辑相同。
本体对准的结果是一组陈述,这组陈述代表不同本体的实体之间的一致性。可以专用语言‘表达性和声明性本体对准语言’(EDOAL)(David等人,2013)或其它语言(ZIMMERMANN等人,2006)对此进行表达。
第一要求是确定本体中被对准的概念之间是否存在语义匹配,这可以使用如上所述的语义匹配器模块进行确定。例如,业务语境中的字词‘公司’和‘组织’不具有完全相同的含义。所有的公司都是组织,但并不是所有的组织都是公司。实际上,类别公司是类别组织的子集。例如:“这个组织是上市公司,而那个组织是高尔夫球社团”。在社会语境中,公司与组织不相关,但是可能与一组同伴相关。例如“John Doe总是与坏人为伍”。
社团和公司都是组织,因此存在一定的相似性。上市公司和未上市公司也类似,并且分享共同的父类,即公司。它们在概念上是否与社团和公司接近?公众未上市公司(大于50个股东)和民营未上市公司(小于51个股东)概念上是否接近?其是否比上市公司和未上市公司更接近?
为了给出用于度量两个概念可以有多相似的数学依据,我们引入‘相同性’概念。存在用于相同性的多个公式性量度。最常见的技术是在单个层次树中布置概念,其中‘事物’概念作为根。大多数公式是那些被测量的类别和其常见父类之间的概念的数量和至最底层的距离的函数。
然而,鉴于至底层的距离可能会根据建立本体的本体专家以及本体是否已经被使用本体的人所删减而显著不同这一事实,至底层的距离很可能是不相关的。
通常来说,相同性由概念之间的边缘数量进行测量。其它可能性基于数据性质的数量存在。例如,社团和公司可能各自具有5个数据性质,余量保留在组织的定义中;而公众上市公司和公众未上市公司可能各自仅具有一个属性,余量保留在公司定义中。因此,私营上市公司与公众上市公司比公司与社团更类似(2个属性而不是10个属性,或者换句话说,存在较少的差异,并且差异等同于距离)。
推定本体(PO)是由结构化源创建的本体,所述结构化源通常是关系数据库、xml文件或电子数据表。此种对准可能具有一些非常复杂的映射,其中推定本体中的数据实例映射至完整本体中的类别。这是对准的特殊情况。
现在将参考示出“事物数据库”的图19A描述简单的实例,其是完全去规范化数据结构的实例,因为其可能包含元数据(且因此结构)以及四个表格内的数据。
例如,如果事物类型表格包含‘类别’的事物类型,则物表格中的每一个相关列将包含类别的名称。类别之间的关系将定义在‘事物到事物’表格中,其中‘事物类型到事物类型’指定关系的类型。
在本体项中,任何类型表格都可产生一组类别。考虑到包含一组车辆的详细信息的表格。车辆类型表格可能已经被用于确保仅包括有效的车辆类型。例如,汽车、货车、拖拉机,而不是婴儿车、自行车、船舶。从本体学来说,然后可以具有有关车辆类型表格中指定的每一车辆类型的单独类别。该概念可能是广义的,但并非始终是适当的。它可能引起每一个人员表被划分成男性类别和女性类别!因此,程序应识别数据中包含的隐藏类别可能会被暴露的每一种情况,并且将其呈现给用户进行验证。
在一些情况下,类型表格可能包含许多类型的类型。例如,概念、数据性质和数据性质的性质,诸如车辆、货车、汽车、发动机类型、重量、千克。这可以被示出为:
■汽车具有发动机类型:柴油
■汽车具有重量:2000
■重量具有测量单位:千克
■汽车是车辆的小类
现在将描述事物数据库的实例,假定如表14至表17中所示对数据库进行填充。
表14
表15
表16
表 | 事物类型 |
ID | 名称 |
A | 有机结构 |
B | 业务组件 |
表17
基于关系型模式的推定本体将仅示出四个类别,所述四个类别具有与表格名称相关的名称。然而,基于数据的本体将示出八个类别,所述八个类别基于‘事物’表格和‘事物类型’表格中的名称以及其它两个表格中识别的所有对象性质,如图19B中所示。在该实例中,“业务组件”和“有机结构”项从事物类型表格(表16)获得,而剩余项从事物表格(表14)获得。
这是问题的实例,其中一个本体中的类别匹配另一本体中的数据实例。为了清楚起见,这识别成‘推定映射问题’(PMP)。它可能在对准期间当推定本体具有以下各项时显现:具有名称匹配‘主键码’或‘外键码’的数据性质;或具有相同外键码的多个实例的类别,如在‘父类’和‘子类’(BOM)中;或具有相关联的类型类别的类别。这些实例潜在地伪装隐藏在数据实例中的类别层次!
常见对准技术是将来自每一本体的概念布置到两个层次树中,每一层次树具有作为根的‘事物’概念。然后引入‘距离’的数学概念,以给出用于确定对准的某种数学机构。大多数距离公式是那些被测量的类别和其常见父类之间的概念的数量和至最底层的距离的函数。
然而,鉴于至底层的距离可能会根据建立本体的本体专家以及本体是否已经被使用本体的人所删减而显著不同这一事实,以及是否存在充当伞形概念的‘顶层’本体,至底层的距离很可能是不相关的。
本体对准器模块寻找多个本体中的常见概念,并且将所述概念从一个本体映射至另一本体,因此允许将两个本体看成一个本体。使用所述对准也可能将两个本体合并,尽管由于存在语义不匹配传播的可能性,这是危险的过程且通常并不推荐。
一般而言,没有本体是完美的。例如,此处使用的样本本体中存在许多建模错误。明显的是,‘股份’应由‘客户’而不是由‘个人’所有,并且‘工作经历’应由‘客户’而不是‘公司’进行‘雇用’。这两个实例示出关系从限制较多的关系移动为限制较小的关系。虽然在这些情况下将是可能的,但是其对于将社团的会员从‘个人’变为‘客户’将是无效的。
因为会员与个人之间的关系是‘持有’,所以类别‘会员’也被糟糕地命名。如果类别已经被命名为‘成员’,那么关系将是‘是A’。这应该会允许成员继承个人的性质。除非对象性质‘具有’被完全定义,否则其在推断中的使用受到限制。
这些错误被引入至样本,以说明对准的复杂性中的一些。
现在将参考图19C更加详细地描述对准器模块的操作。
就这一点而言,在使用中,OWL文件和RDFS文件中定义的本体1901、1902使用对准器模块1340打开,其中用户然后使用如下面所定义的一组屏幕与本体交互,最终产生由一系列对准1905连接的本体1903、1904和可能的合并的对准的本体1906。
过程由多个小过程组成,包括:
■初始化
■低水平类别匹配-识别最小映射
■推定的映射问题识别
■对象性质分析
■数据性质分析
■多类别映射
■PMP分辨率
■同胞分析
■最小映射分辨率
因为对准可以许多步骤进行识别,所以存在重新计算一对特定概念的对准的可能性。通过维持对准映射克服该问题。该映射每当识别出对准时得到更新,并且在考虑评估新的对准对之前由程序对映射进行咨询,以防止重复工作。可以向用户显示对准映射,从而允许用户遵循对准过程,查询及重写任何潜在对准,并且指导程序重新执行任何过程。
现在更加详细地描述这些步骤。可以为每一步骤i分配加权系数Wi,其中结果被结合以提供整体对准分数。这些加权系数在某些步骤中应用。虽然给出了可能的权重积累公式,但是存在可以使用的许多可能的加权计划。在该领域中,可以将机器学习或统计分析以及推断用于确定合适的加权公式。
在初始化过程期间,从索引器模块获得索引1603。在此之后,将本体1901、1902加载到语义匹配器模块1340中。当尚未预加载对准表时,则W0=0.0。
在以下实例中,Wi=i用于对技术进行说明。否则,权重Wi由用户或机器学习或经验确定的启发式机制进行分配。一般而言,对于任何步骤i,累积地确定的匹配值MVi A通过以下方式确定:
MVi A=MVi-1 A/Wi+(Wi-1)*MVi/Wi
其中,MVi是步骤i中计算的原始匹配值。
另一更加传统的加权计划将是:
MV=∑MVi *Wi/∑Wi
其中,MV是加权匹配值,且MVi是步骤i中的匹配值。
可以在每一步骤中或者仅在程序结束时执行该过程,这取决于优选实现方式。
接着,在本体中的项的语义含义的基础上执行类别匹配。该过程使用语义匹配器模块检查每一潜在对准对,以基于类别名称找出潜在匹配。如果找到对准,则从该对准横穿继承链(对象性质=‘...的小类’),从而使用语义匹配器模块检查有关另一对准的类别名称。
这可能仅需要小数量的匹配,尽管能够找到所有匹配类别。如果被匹配的本体使用相同基本本体,则完全1-1匹配是可能的。例如:
■不良事件报告本体AERO
■非洲传统医学本体ATMO
二者均基于标准盖伦本体,因此将预期1-1匹配。
有关每一对的MV基于由语义匹配器模块提供的分数,并且出于该实例的目的设置W1=1.0。
从第一本体的底层开始,从第二本体的底层类别开始检查每一类别。当使用语义匹配器模块找到的有关概念对的相同性超出有关对准的阈值匹配值(MVAT)时,出现匹配。如果找到可接受的匹配,则其被称为潜在对准,并且详细信息被记录在对准映射中。
对准映射记录两个概念,分配对准Id、最小映射Id、与对准相关联的任何标签、分配的任何PMP Id、任何强化Id和最后处理步骤Id。与对准Id有关的单独表格存储有关每一步骤的匹配值。如果需要,可以手动地重写这些值。
可以使用任何已知的对准预加载对准映射。使用用户标签‘用户发起’对这些加标签,并且必须设置匹配值,通常设置为1.00,尽管下限值是可能的。‘用户发起’和MV=1.00的组合将防止该对准的进一步处理。
过程继续至下一类别,该下一类别通过对象性质与第一本体中的当前类别相关联。首先处理当前类别的超类。程序在处理其它对象性质之前处理继承对象性质。在对任何小类进行检查之前处理当前类别的超类。一经发现使用MV<MVAT的对准,过程立即停止。
每当识别出潜在对准,将其分配至最小映射集,并给定最小映射Id mm_ID。如果识别出等级上相关的类别,则将其添加至相同的mm_ID。该步骤结束时,我们将定义具有多个最小映射,所述多个最小映射潜在地满足最小映射的标准。在每一后续步骤中对该累积的匹配值进行改善。
始终执行对潜在PMP的识别。PMP分辨率仅当配置文件中要求时执行。如果未要求,则潜在PMP的识别记录在活动日志中,所述活动日志随着对准被执行作为信息报文并且被添加至累积的统计报告而创建。
在一些实例中,可能不需要解析PMP,因为两个本体可能是推定本体并且可能需要保留BOM结构。
如果要求PMP分辨率,则执行PMP加标签。检查数据性质名称,看看是否存在以下关键词,诸如:
■对象性质名称,包含:
-类型
-关系
-类别
-概念
-…
■数据性质名称,包含:
-标识符
-ID
-键码
-父类
-子类
-主键码
-外键码
-…
包含这些关键词的数据性质的存在不一定暗示PMP。肯定需要应用更多的算法。被映射至标准的任何结构。
■必须识别ERA图中的‘类型’表。用户必须选择类型表中的每一行。
■必须识别‘材料单’结构,并且潜在地扩展到适当类别结构中。
在该阶段中,针对每一组同等BOM表格,每一PMP中涉及的类别被加标签为‘PMP’,并且被给到PMP集合标识符PMP01、PMP02、…。稍后将对其进行解析,如下面将更详细地描述。随着每一PMP类别被识别,可以将详细信息呈现给用户,该用户可以决定实例并非是PMP。
该步骤未计算MV,因此MV2 A=MV1 A=0.5。
在此之后,对与来自前一步骤的每一对准对相关联的对象性质和其相关类别进行分析。该步骤有时被称作‘结构性分析’。这将识别:
■如果所有相关类别和对象性质的名称匹配,那么将该对加标签为“锚点”。MV=1.0。将相关的类别添加至最小映射(如果最小映射中还没有),并重复步骤2有关该最小映射中的相关类别的数据性质分析
■如果名称与相关超类匹配,而不与小类中的任何一个匹配,那么将该对加标签为“可能同胞”。MV=0.3。将超类添加至最小映射。前往下面的多类别映射。
■如果名称与相关超类匹配,但是仅与小类中的一些匹配,那么将该对加标签为“相关子集”。
■MV计算如下:
-为每一匹配小类分配2.0的权重,并且为每一其它匹配的相关类别分配1.0的权重。
-将这些权重求和为匹配NM的数字。
-为每一小类分配1.0的权重,并且为每一其它相关类别分配0.5的权重。
-将跨两个超类的这些权重求和为总数NA。
-匹配值MV3=NM/NA。
■如果不相关的类别匹配,则MV3=0.001。
■将超类添加至最小映射。前往下面的多类别映射。
对于每一对,如下计算累积的加权匹配值:
MV3 A=MV2 A/W3+(W3-1)*MV3/W3
假定W3=3
MV2 A=0.5来自前一实例
MV3=1.0来自对象性质匹配
那么MV3 A=0.5/3+2/3*1.0=0.83333
在此之后,执行数据性质分析,以分析匹配类别的数据性质(属性)是否类似。有关每一对类别的分析:
■使用不存在准确名称匹配的SemMat对有关每一类别的数据性质进行比较。
■基于数据性质分配“匹配值”(MV)。
■使用匹配类型为对准对加标签。选择最小映射中的下一对并重复以上过程。如果最小映射内不存在更多的对准,则移动到下一最小映射。
更详细地,如果A={a1,a2,a3,…ai}是第一概念的一组数据性质,并且B={b1,b2,b3,…bj}是第二概念的一组数据性质,则存在以下可能性:
■类别中的所有数据性质匹配。加标签为“准确匹配”,即
匹配值=1.000。
■来自一个本体的数据性质的子集匹配其它本体中的所有数据性质。加标签为“子集”。
即或者
MVi=(N(A∩B)/N(B))0.5,其中N(A)是A中的数据性质的数量,假定N(A)<N(B)
■来自一个本体的数据性质的子集匹配另一本体中的数据性质的子集。加标签为“部分匹配”
即
MVi=N(A∩B)/N(B),其中N(A)是A中的数据性质的数量,假定
N(A)<N(B)
■无数据性质匹配。MV=0.1,加标签为“仅名称”
即
如果MV小于预确定的阈值,(确认值=0.1),则丢弃来自最小映射的匹配对,并且使用下一匹配对继续进行。重复该过程,直到所有最小映射已被分析为止,在该点处对匹配值进行计算:
MV4 A=MV3 A/W4+(W4-1)*MVi/W4
假定W4=4
MV3 A=0.833333
MV4=1.0来自数据性质匹配
那么MV4 A=0.8333/4+3/4*1.0=0.9583
多类别映射当一个本体中的类别已经被划分成另一本体中的多个小类别时发生。在所述情况下,我们将预期该对已经被加标签为“可能同胞”或者“多类别映射”和“子集”。
通常通过分析有关每一本体中的类别和小类中的潜在相关类别的数据性质的数量来检测多类别映射。如果不具有小类的本体类别具有大约等于另一本体中的类别的数据性质数量以及具有最多数据性质的小类的数据性质,则很可能的是,第二本体中的类别的小类已经被去规范化到第一本体中的类别中。
存在以下可能的情形。
■一个本体中的单个类别中的数据性质映射至另一本体中的类别和一个或多个小类中的数据性质。
■类别和小类中的数据性质匹配另一本体中的类别和一些小类中的数据性质。
在第一种情况下,通过考虑第一本体类别的数据性质与由第二本体中的类别+小类别组成的每一对的数据性质的匹配来执行数据性质计数。
例如,本体1中的公司不具有子类,并且本体2中具有2个子类。如果分析具有公司+上市公司(2)的公司(1)的数据性质,则示出数据性质的数量匹配,但并不是所有的含义匹配。
分析具有公司+未上市公司(B)的公司(A)的数据性质,示出数据性质的数量和含义匹配。这可以被加标签为‘不同的规范化’,并且被分配匹配值MV=1.0。
因为上市公司和未上市公司为同胞,所以可以推断上市公司是本体2中的加强,因此其可以被加标签为‘加强’,并且匹配值通过以下方式计算:用匹配的数据性质的数量的两倍除以数据性质的总数量。
MVi=2*N(A∩B)/(N(A)+N(B))
其中N()是用以产生概念A、B和A∩B中的数据性质的数量的函数。
该方法可以推广至两个类别具有不同数量的子类的的情形。该情形可以被加标签为‘加强可能’,并且为所涉及的每一类别给出单个加强ID。
多类别映射的另一情况是当类别已经被以不同方式规范化时。例如,车辆类别可以被划分成小类,例如(运动型多用途车、轿车、轿跑、敞篷车),或者其可以按照制造商被划分成小类(雪铁龙、标致、菲亚特、罗孚)。因此,两个车辆本体可以以不同方式解析数据性质。然而,两个本体中的车辆的属性将是相同的。
在通常情况下,如果一组数据性质被分配至来自两个本体的一组小类,并且每一本体中的小类是不同的,但是定义这些类别的这组数据性质是相同的或非常类似的,则定义的小类之间存在多对多映射。该情形也被加标签为‘加强可能’,并且为所涉及的每一类别给出单个加强ID。
该步骤未计算MV,因此MV5 A=MV4 A=0.9583。
PMP分辨率涉及通过识别存储在表格中的去规范化类别识别推定本体中的额外类别,并且引起本体的重大加强,所述加强来自所述本体。
对每一PMP集合标识符进行分析,以确定其至如上所述的类型结构或BOM结构的映射。这些一般映射至图19A中示出的ERA图的一些布置,如通过仅映射该图中具有匹配结构性关系的对象性质进行确定。来自数据性质实例的提取的类别的实例在表14至表17中示出。
在确定映射后,生成在BOM结构中捕获的去规范化本体是相对简单的事物。然后可以通过基于如前面所描述的类别的语义含义返回低等级类别匹配的步骤对该生成的本体组件进行对准。在该步骤中,从BOM分析生成的类别将添加至适当的最小映射。
该步骤中未计算MV,因为其引起返回至低等级类别匹配的步骤以及对新识别的类别的MV值的重新计算。
在此之后,执行加强分析,其中对在多类别映射过程中识别的每一加强_ID进行分析,以确定来自两个本体的小类集合是否匹配或包含同胞。例如,本体1类别组织可能具有小类社团和公司。本体2包含半官方机构、社团和公司。半官方机构是本体2中的同胞,但是未在本体1中出现。与其说半官方机构不与任何东西对准,还不如将其识别成是对本体1的加强。
在可以应用加强之前,将有必要确定是否已经通过分析社团和公司的数据性质来将半官方机构非规范化到其它小类中的一个中。
假定类别满足将被添加作为同胞的标准,应可以确保在该阶段中包含类别和小类的最小映射是相同的。
该步骤中未计算新的MV。每一同胞保留其当前MV。可以通过分配为1.0的当前MV至被识别为同胞的组件而将该MV小倍数地升高。
在所有类别被解析且加强完成后,任何重大重构应已经发生,并且因此可以对最小映射进行解析。如果将加强添加到前一部分中,则发生进一步重构。这些事实将引起改进的最小映射。
使用MV7<MVAT的对准,阈值将被拒绝。MVAT是有关对准的匹配阈值。
下一步骤是应用冗余识别模式,以使得在每一最小映射内,冗余性、不相交性和归类性得到确定。这将已经主要由前面的步骤执行。
在已经充分处理最小映射后,将所述最小映射与其类别一起记录成一组RDF三元组。
最后,必须通过查询上面生成的RDF三元组将最小映射组装成单个映射。这将是发现具有可接受的阈值的对准的所有类别的图。可能存在未对准的项目。
使用累积的匹配公式,最终匹配值MV8=0.9375。
使用线性匹配公式,MV=(1*.5+2*1+3*1)/(1+2+3)=5.5/6=0.9167。
示例性对准索引在表18中示出,该表示出有关上面所描述的示例性本体的对准映射。已经通过对准对和步骤编号对结果排顺序,以强调各种算法的效果。实际上,它将按照#顺序(第1列)执行。
表18
然后可以执行合并过程,以产生合并本体1906,尽管这是任选的并且将取决于优选的实现方式。如果用户决定合并本体,那么需要做出多个决定,包括:
■确定合并本体是否应为本体1合并到本体2中,或本体2合并到本体1中,或者是否应该为合并本体给定新的URI。这些情况在图19D和图19E中概略地示出。
■选择MVMT作为合并的匹配阈值。一般而言,MVMT将低于MVAT,因为可能包括实际上不对准的相关类别。
■如果将不会对类别进行合并,那么将要求做出以下决定:是否应将类别中的二者、两个都不或者仅一个包括在合并本体中。这可以被指定为规则,或者指定为‘请求’,在这种情况下合并过程将暂停,以允许用户决定操作。
■是否应该将未发现对准的类别添加至合并本体?例如,如果本体1由类别A、B组成,并且本体2由类别B、C组成,其中B是一组对准的类别,那么合并本体应该是A、B、C或者A、B或者B、C或者仅B?
在已经确定合并的参数后,那么合并两个本体的类别、数据性质和对象性质是简单的事物。
任何数据性质实例将保留其原始URI,除非另有规定。因此,如果对准的类别具有每一本体中的实例数据,那么单个合并的类别将保留来自两个本体的实例。
一般而言,与对准器模块的用户交互将用于控制对准过程的目的。
第一步骤是加载配置文件,所述配置文件指定将在对准和合并过程中使用的参数。存在可以进行设置的多个元数据参数。这些包括:
■将对准的本体的URI。
■用于存储对准映射的位置。
■用于存储合并本体的位置。
■有关对准的匹配阈值MVAT。
■有关合并的匹配阈值MVMT。
■用于在低等级类别匹配期间接受相同性的匹配质量。
■任选地使用已知对准预加载对准表。
■将在每一分析步骤应用的权重。这些可以通过机器学习算法进行确定。
■在合并过程中是否暂停过程以允许有关合并的用户输入
■最大运行时间。
■错误和日志信息的冗长性。
■等等。
用户然后运行或安排过程。如果指定对用户输入的暂停,那么用户根据要求提供输入,并且利用通常由浏览器模块显示的屏幕进行提供。
当过程完成时,用户检查:
■产生的报告,该报告给出对以下的统计:
-每一本体中输入类别的数量;
-对准的类别的数量;
-识别的PMP的数量;
-扩展的PMP的数量;
-从PMP扩展的类别的数量;
-从PMP扩展的数据性质实例的数量;
-最大和最小匹配值;
-合并的类别的数量;
-合并本体中的类别数量;
-合并本体中的数据实例的数量;
-等等;
■评估错误、警告和信息报文的运行时日志。
基于该信息,用户决定接受对准或合并,或者改变配置参数中的一些并重新安排过程。
因此,上述过程允许用户与本体交互,以执行包括浏览、删减和对准本体的多种任务。这些过程可能使用多种模块,并且允许执行操作,诸如确定包括推定本体和正式本体的本体之间的映射,这可能被继而用于映射源数据结构和目标数据结构,以用于促进源数据存储与目标数据存储之间的内容传递。
在本说明书和随后的权利要求书的全文中,除非上下文另外要求,措词“包括”以及诸如“包含”等的变化形式应理解为暗示包括所述整数或整数组或步骤,但不排除任何其它的整数或整数组。
本领域技术人员应了解,众多变化和修改将变得明显。对本领域技术人员将变得明显的所有所述变化和修改应被视为在先前所描述的广义地出现的本发明的精神和范围内。
Claims (39)
1.一种用于使用本体生成映射的设备,所述设备包括至少一个电子处理装置,所述至少一个电子处理装置:
确定具有相应本体项的本体;
根据所述本体中的至少一个确定一组本体项;
针对所述一组本体项中的至少一些确定所述本体中的本体项之间的对准,所述对准至少部分地根据所述本体项的本体项含义进行确定;以及
根据所述对准生成映射。
2.根据权利要求1所述的设备,其中所述映射是以下中的至少一个:
合并本体;以及
对准索引。
3.根据权利要求1所述的设备,其中所述本体包括:
推定本体;以及
正式本体。
4.根据权利要求3所述的设备,其中所述电子处理装置生成映射,以将推定本体映射至正式本体。
5.根据权利要求1所述的设备,其中所述映射在将内容从具有包括多个源数据字段的源数据结构的数据源存储器传递至具有包括多个目标数据字段的目标数据结构的目标数据存储的过程中使用,其中所述本体与所述源数据结构和所述目标数据结构相关联,并且其中所述电子处理装置使用所述映射在所述源数据字段与所述目标数据字段之间传递内容。
6.根据权利要求5所述的设备,其中所述本体包括与所述源数据结构相关联的源本体和与所述目标数据结构相关联的目标本体。
7.根据权利要求6所述的设备,其中所述源本体和所述目标本体是推定本体,并且所述源本体和所述目标本体被映射至一个或多个正式本体。
8.根据权利要求1所述的设备,其中所述电子处理装置通过以下方式确定本体:
生成推定本体;以及
选择多个现有本体中的一个。
9.根据权利要求8所述的设备,其中所述电子处理装置使用以下中的至少一个选择本体:
与数据结构相关联的元数据;以及
数据结构的数据字段。
10.根据权利要求9所述的设备,其中所述电子处理装置通过以下方式选择多个现有本体中的一个:
将数据字段与多个现有本体的本体项进行比较;以及
根据所述比较的结果来选择所述多个现有本体中的一个。
11.根据权利要求8所述的设备,其中所述电子处理装置通过以下方式从数据库模式生成推定本体:
识别所述模式中的表格;
创建对应于每一表格的本体项;
识别至少一个材料单表格;以及
创建对应于所述材料单表格中的每一条目的本体项。
12.根据权利要求11所述的设备,其中所述电子处理装置通过以下方式从数据库模式生成推定本体:
显示对应于所述材料单表格中的每一条目的所述本体项的指示;以及
响应于用户输入命令将所述本体项添加至所述推定本体。
13.根据权利要求11所述的设备,其中所述电子处理装置使用由所述数据库模式定义的表格结构生成本体项之间的关系。
14.根据权利要求8所述的设备,其中所述推定本体包括:
对应于本体项的类别;
所述类别中的至少一些的数据性质;以及
定义类别之间的关系的对象性质。
15.根据权利要求1所述的设备,其中所述电子处理装置:
确定至少一个本体的索引,所述索引包括所述至少一个本体的所述本体项的指示;并且
使用所述索引确定:
所述一组本体项;以及
本体项之间的对准。
16.根据权利要求15所述的设备,其中对于每一本体项,所述索引包括对以下的指示:
本体项含义;以及
本体项类型。
17.根据权利要求15所述的设备,其中所述电子处理装置通过以下方式为每一本体项生成索引:
识别本体项名称;
识别本体项类型;
使用语义匹配过程识别每一本体项的本体含义;以及
创建包括所述本体项名称、所述本体项类型和所述本体项含义的指示的索引条目。
18.根据权利要求15所述的设备,其中所述电子处理装置生成多个本体的单个索引,并且其中所述索引条目包括与所述本体项相关联的所述本体的指示。
19.根据权利要求1所述的设备,其中所述电子处理装置:
显示本体中的一个或多个本体项的指示;
响应于用户输入命令来识别至少一个本体项;以及
显示以下中的至少一个的详细信息:
至少一个识别的本体项;以及
与所述至少一个识别的本体项相关联的数据性质。
20.根据权利要求19所述的设备,其中所述电子处理装置使用索引确定所述一个或多个本体项的所述指示。
21.根据权利要求19所述的设备,其中所述电子处理装置:
响应于用户输入命令来确定用户选择的本体项和对应用户选择的数据性质;以及
根据所述用户选择的本体项和对应用户选择的数据性质生成可执行代码,当在计算机系统上执行所述可执行代码时引起所述计算机系统显示用于允许用户与存储在具有数据结构的数据存储中的内容交互的用户界面,所述内容存储在对应于所述用户选择的本体项的数据字段中。
22.根据权利要求21所述的设备,其中所述可执行代码引起所述计算机系统生成查询来与存储在与源本体或目标本体相一致的源数据结构或目标数据结构中的数据交互。
23.根据权利要求21所述的设备,其中所述可执行代码引起所述计算机系统根据数据性质和所述用户选择的本体的本体项之间的关系中的至少一个生成查询。
24.根据权利要求21所述的设备,其中所述可执行代码引起所述计算机系统:
显示一个或多个本体项的指示;
响应于用户输入命令来确定至少一个本体项的选择;以及
查询存储在与所述选择的本体项相关联的数据字段中的数据。
25.根据权利要求1所述的设备,其中所述电子处理装置:
将本体项与多个潜在本体项含义进行比较;以及
根据所述比较的结果来选择所述潜在本体项含义中的一个作为所述本体项含义。
26.根据权利要求25所述的设备,其中所述电子处理装置通过以下方式确定本体项含义:
生成每一比较的所述结果的匹配分数;以及
根据匹配分数确定本体项含义。
27.根据权利要求25所述的设备,其中所述电子处理装置确定潜在本体项含义是否是以下中的至少一个:
同义词;
反义词;
部分词;
超类;以及
小类。
28.根据权利要求25所述的设备,其中所述电子处理装置在索引中存储所述本体项含义的指示,所述指示包括以下中的至少一个:
指示定义含义的标识符;以及
同等含义列表。
29.根据权利要求1所述的设备,其中所述电子处理装置通过以下方式确定本体项之间的对准:
将多个本体项的本体项含义进行比较;
生成每一比较的结果的匹配分数;以及
根据匹配分数确定对准。
30.根据权利要求29所述的设备,其中所述电子处理装置基于以下中的至少一个进一步确定所述对准:
本体项之间的关系;以及
所述本体项的数据性质。
31.根据权利要求29所述的设备,其中所述电子处理装置:
确定源本体中的源本体项之间的关系;
确定目标本体中的所述目标本体项之间的关系;
将所述关系进行比较;以及
根据所述比较的结果来确定所述对准。
32.根据权利要求29所述的设备,其中所述电子处理装置确定来自源本体的一个或多个源本体项与来自目标本体的一个或多个目标本体项之间的对准。
33.根据权利要求1所述的设备,其中所述电子处理装置通过以下方式确定所述一组本体项:
确定选择的本体项;以及
至少部分地根据所述选择的本体项和所述选择的本体项之间的关系确定所述一组本体项。
34.根据权利要求33所述的设备,其中所述电子处理装置通过以下方式确定相关的本体项:
对于每一选择的本体项,识别多个不同类型关系中的每一个的定义关系路径长度内的本体项;以及
将所述识别的本体项添加至所述一组本体项。
35.根据权利要求34所述的设备,其中所述电子处理装置重复地添加识别的本体项,直至所有所述选择的本体项均被关系连接。
36.根据权利要求33所述的设备,其中所述电子处理装置为不同类型关系使用不同关系路径长度。
37.根据权利要求36所述的设备,其中所述电子处理装置根据用户输入命令确定关系路径长度。
38.根据权利要求1所述的设备,其中所述设备包括:
索引器模块,所述索引器模块生成指示本体中的本体项的索引;
浏览器模块,所述浏览器模块允许浏览本体中的本体项并且生成体现所述本体的至少一部分的代码,从而允许用户与存储在与所述本体相一致的数据结构中的数据交互;
对准器模块,所述对准器模块确定不同本体的本体项之间的对准;
删减器模块,所述删减器模块至少部分地使用所述本体项之间的关系确定至少一个本体内的一组本体项;以及
语义匹配器模块,所述语义匹配器模块识别本体项含义。
39.一种用于使用本体生成映射的方法,所述方法包括在至少一个电子处理装置中:
确定具有相应本体项的本体;
根据所述本体中的至少一个确定一组本体项;
针对所述一组本体项中的至少一些,确定所述本体中的本体项之间的对准,所述对准至少部分地根据所述本体项的本体项含义进行确定;以及
根据所述对准生成映射。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201461974180P | 2014-04-02 | 2014-04-02 | |
US61/974,180 | 2014-04-02 | ||
PCT/AU2015/000195 WO2015149114A1 (en) | 2014-04-02 | 2015-04-02 | Ontology mapping method and apparatus |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106663101A true CN106663101A (zh) | 2017-05-10 |
Family
ID=54239127
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580029320.2A Pending CN106663101A (zh) | 2014-04-02 | 2015-04-02 | 本体映射方法和设备 |
Country Status (10)
Country | Link |
---|---|
US (2) | US11921769B2 (zh) |
EP (1) | EP3127020A1 (zh) |
JP (1) | JP2017513134A (zh) |
KR (1) | KR20170021227A (zh) |
CN (1) | CN106663101A (zh) |
AU (1) | AU2015240418A1 (zh) |
CA (1) | CA2952549A1 (zh) |
IL (1) | IL248022A0 (zh) |
SG (1) | SG11201607828RA (zh) |
WO (1) | WO2015149114A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107978341A (zh) * | 2017-12-22 | 2018-05-01 | 南京昂特医信数据技术有限公司 | 一种基于语境的医学语义框架下的异构数据适配方法及其系统 |
WO2019001445A1 (zh) * | 2017-06-30 | 2019-01-03 | 华为技术有限公司 | 一种管理本体的方法以及m2m平台 |
CN109246660A (zh) * | 2017-06-30 | 2019-01-18 | 华为技术有限公司 | 一种管理本体的方法以及m2m平台 |
CN109447267A (zh) * | 2018-10-16 | 2019-03-08 | 东北石油大学 | 融合数据元标准的叙词本体构建方法 |
CN110059194A (zh) * | 2019-03-01 | 2019-07-26 | 中国科学院信息工程研究所 | 一种融合表示学习和分治策略的大规模本体合并方法 |
Families Citing this family (54)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9720899B1 (en) | 2011-01-07 | 2017-08-01 | Narrative Science, Inc. | Automatic generation of narratives from data using communication goals and narrative analytics |
US11238090B1 (en) | 2015-11-02 | 2022-02-01 | Narrative Science Inc. | Applied artificial intelligence technology for using narrative analytics to automatically generate narratives from visualization data |
US11288328B2 (en) | 2014-10-22 | 2022-03-29 | Narrative Science Inc. | Interactive and conversational data exploration |
US11341338B1 (en) | 2016-08-31 | 2022-05-24 | Narrative Science Inc. | Applied artificial intelligence technology for interactively using narrative analytics to focus and control visualizations of data |
US11922344B2 (en) | 2014-10-22 | 2024-03-05 | Narrative Science Llc | Automatic generation of narratives from data using communication goals and narrative analytics |
US10152556B1 (en) * | 2015-04-16 | 2018-12-11 | Jpmorgan Chase Bank, N.A. | Semantic modeling platform |
EP3163513A1 (en) * | 2015-10-26 | 2017-05-03 | Agfa Healthcare | Method of automated notation 3 (n3) query rule creation |
US11170038B1 (en) | 2015-11-02 | 2021-11-09 | Narrative Science Inc. | Applied artificial intelligence technology for using narrative analytics to automatically generate narratives from multiple visualizations |
US11222184B1 (en) | 2015-11-02 | 2022-01-11 | Narrative Science Inc. | Applied artificial intelligence technology for using narrative analytics to automatically generate narratives from bar charts |
US11232268B1 (en) | 2015-11-02 | 2022-01-25 | Narrative Science Inc. | Applied artificial intelligence technology for using narrative analytics to automatically generate narratives from line charts |
WO2017091120A1 (en) * | 2015-11-25 | 2017-06-01 | MiNDiGO AB | A system and a method for ontology based browsing |
US10545955B2 (en) * | 2016-01-15 | 2020-01-28 | Seven Bridges Genomics Inc. | Methods and systems for generating, by a visual query builder, a query of a genomic data store |
US11238115B1 (en) | 2016-07-11 | 2022-02-01 | Wells Fargo Bank, N.A. | Semantic and context search using knowledge graphs |
US10878000B2 (en) * | 2016-07-29 | 2020-12-29 | Hewlett Packard Enterprise Development Lp | Extracting graph topology from distributed databases |
JP7106077B2 (ja) * | 2016-09-22 | 2022-07-26 | エヌフェレンス,インコーポレイテッド | 意味的情報の可視化およびライフサイエンスエンティティ間の顕著な関連を示す時間的信号の推測のためのシステム、方法、およびコンピュータ可読媒体 |
US10067965B2 (en) | 2016-09-26 | 2018-09-04 | Twiggle Ltd. | Hierarchic model and natural language analyzer |
US20180089316A1 (en) * | 2016-09-26 | 2018-03-29 | Twiggle Ltd. | Seamless integration of modules for search enhancement |
US11100469B2 (en) * | 2016-10-25 | 2021-08-24 | International Business Machines Corporation | Cross-domain collaborative data log |
US9946777B1 (en) * | 2016-12-19 | 2018-04-17 | Palantir Technologies Inc. | Systems and methods for facilitating data transformation |
US11238084B1 (en) * | 2016-12-30 | 2022-02-01 | Wells Fargo Bank, N.A. | Semantic translation of data sets |
US10678834B2 (en) * | 2017-02-02 | 2020-06-09 | GM Global Technology Operations LLC | Methodology for generating a consistent semantic model by filtering and fusing multi-source ontologies |
US11568148B1 (en) | 2017-02-17 | 2023-01-31 | Narrative Science Inc. | Applied artificial intelligence technology for narrative generation based on explanation communication goals |
US11954445B2 (en) | 2017-02-17 | 2024-04-09 | Narrative Science Llc | Applied artificial intelligence technology for narrative generation based on explanation communication goals |
US10943069B1 (en) | 2017-02-17 | 2021-03-09 | Narrative Science Inc. | Applied artificial intelligence technology for narrative generation based on a conditional outcome framework |
US11068661B1 (en) | 2017-02-17 | 2021-07-20 | Narrative Science Inc. | Applied artificial intelligence technology for narrative generation based on smart attributes |
KR102159220B1 (ko) * | 2017-05-11 | 2020-09-23 | 경희대학교 산학협력단 | 효과적인 대화 관리를 위한 의료 시스템에서의 의도-컨텍스트 융합 방법 |
US20180357381A1 (en) * | 2017-06-09 | 2018-12-13 | Intelligent Medical Objects, Inc. | Method and System for Generating Persistent Local Instances of Ontological Mappings |
US11488029B2 (en) * | 2017-09-15 | 2022-11-01 | International Business Machines Corporation | Cognitive process code generation |
US10846644B2 (en) | 2017-09-15 | 2020-11-24 | International Business Machines Corporation | Cognitive process learning |
US10628777B2 (en) | 2017-09-15 | 2020-04-21 | International Business Machines Corporation | Cognitive process enactment |
US11853930B2 (en) * | 2017-12-15 | 2023-12-26 | Accenture Global Solutions Limited | Dynamic lead generation |
US11042708B1 (en) * | 2018-01-02 | 2021-06-22 | Narrative Science Inc. | Context saliency-based deictic parser for natural language generation |
US10963649B1 (en) | 2018-01-17 | 2021-03-30 | Narrative Science Inc. | Applied artificial intelligence technology for narrative generation using an invocable analysis service and configuration-driven analytics |
US11030408B1 (en) | 2018-02-19 | 2021-06-08 | Narrative Science Inc. | Applied artificial intelligence technology for conversational inferencing using named entity reduction |
CN108710677B (zh) * | 2018-05-18 | 2021-08-17 | 中国兵器工业新技术推广研究所 | 通过NoSQL数据库实现BOM数据多组织多视图的解决方法 |
CA3105156C (en) * | 2018-06-27 | 2023-08-01 | Luz Erez | Data structures for storing and manipulating longitudinal data and corresponding novel computer engines and methods of use thereof |
US11232270B1 (en) | 2018-06-28 | 2022-01-25 | Narrative Science Inc. | Applied artificial intelligence technology for using natural language processing to train a natural language generation system with respect to numeric style features |
US11074230B2 (en) | 2018-09-04 | 2021-07-27 | International Business Machines Corporation | Data matching accuracy based on context features |
JP7059917B2 (ja) * | 2018-12-18 | 2022-04-26 | 日本電信電話株式会社 | オントロジー作成装置、方法およびプログラム |
US11935636B2 (en) | 2019-04-26 | 2024-03-19 | Merative Us L.P. | Dynamic medical summary |
WO2020234963A1 (ja) * | 2019-05-20 | 2020-11-26 | 三菱電機株式会社 | オントロジー生成システム、オントロジー生成方法およびオントロジー生成プログラム |
US10909160B2 (en) * | 2019-05-29 | 2021-02-02 | TADA Cognitive Solutions, LLC | Digital duplicate |
US11487902B2 (en) | 2019-06-21 | 2022-11-01 | nference, inc. | Systems and methods for computing with private healthcare data |
WO2020257783A1 (en) | 2019-06-21 | 2020-12-24 | nference, inc. | Systems and methods for computing with private healthcare data |
US11269907B1 (en) * | 2019-11-15 | 2022-03-08 | Palantir Technologies Inc. | Object-centric data analysis system and graphical user interface |
CN110688433B (zh) * | 2019-12-10 | 2020-04-21 | 银联数据服务有限公司 | 一种基于路径的特征生成方法及装置 |
US11734333B2 (en) * | 2019-12-17 | 2023-08-22 | Shanghai United Imaging Intelligence Co., Ltd. | Systems and methods for managing medical data using relationship building |
US11580326B2 (en) | 2019-12-30 | 2023-02-14 | Nec Corporation | Ontology matching based on weak supervision |
JP7352501B2 (ja) * | 2020-03-17 | 2023-09-28 | 株式会社東芝 | 情報処理装置、情報処理方法、およびプログラム |
US11816434B2 (en) * | 2020-08-27 | 2023-11-14 | Entigenlogic Llc | Utilizing inflection to select a meaning of a word of a phrase |
US11455588B2 (en) | 2020-09-04 | 2022-09-27 | TADA Cognitive Solutions, LLC | Data validation and master network techniques |
US20220374459A1 (en) * | 2021-05-17 | 2022-11-24 | Salesforce.Com, Inc. | Systems and methods for hierarchical retrieval of semantic-based passages in deep learning |
US20230033904A1 (en) * | 2021-07-28 | 2023-02-02 | Illumex Technologies, Ltd. | System and method for generating business ontologies and glossaries from metadata |
US11714956B1 (en) | 2022-01-27 | 2023-08-01 | Rakuten Mobile, Inc. | Ontology-based semantic rendering |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7200563B1 (en) | 1999-08-20 | 2007-04-03 | Acl International Inc. | Ontology-driven information system |
US7493253B1 (en) | 2002-07-12 | 2009-02-17 | Language And Computing, Inc. | Conceptual world representation natural language understanding system and method |
JP2006011739A (ja) * | 2004-06-24 | 2006-01-12 | Internatl Business Mach Corp <Ibm> | オントロジを利用する装置、コンピュータシステムおよびデータ処理方法 |
US7328209B2 (en) * | 2004-08-11 | 2008-02-05 | Oracle International Corporation | System for ontology-based semantic matching in a relational database system |
US8640087B2 (en) * | 2006-03-17 | 2014-01-28 | The Mitre Corporation | Semantic system for integrating software components |
US7558791B2 (en) * | 2006-07-31 | 2009-07-07 | Informed Control Inc | System and method for ontology-based translation between directory schemas |
US20100185700A1 (en) * | 2007-09-17 | 2010-07-22 | Yan Bodain | Method and system for aligning ontologies using annotation exchange |
US20100281061A1 (en) * | 2009-04-30 | 2010-11-04 | International Business Machines Corporation | Semantic Data Validation of Disjoint Data |
US8332434B2 (en) * | 2009-09-30 | 2012-12-11 | Business Objects Software Limited | Method and system for finding appropriate semantic web ontology terms from words |
US9396283B2 (en) * | 2010-10-22 | 2016-07-19 | Daniel Paul Miranker | System for accessing a relational database using semantic queries |
EP2469421A1 (en) | 2010-12-23 | 2012-06-27 | British Telecommunications Public Limited Company | Method and apparatus for processing electronic data |
US8620931B2 (en) * | 2011-06-24 | 2013-12-31 | Siemens Aktiengesellschaft | Method of composing an ontology alignment |
US8856181B2 (en) * | 2011-07-08 | 2014-10-07 | First Retail, Inc. | Semantic matching |
US20130018827A1 (en) * | 2011-07-15 | 2013-01-17 | International Business Machines Corporation | System and method for automated labeling of text documents using ontologies |
EP2755148A1 (en) * | 2013-01-15 | 2014-07-16 | Fujitsu Limited | Data storage system, and program and method for execution in a data storage system |
-
2015
- 2015-04-02 EP EP15774345.1A patent/EP3127020A1/en not_active Withdrawn
- 2015-04-02 CN CN201580029320.2A patent/CN106663101A/zh active Pending
- 2015-04-02 US US15/301,357 patent/US11921769B2/en active Active
- 2015-04-02 WO PCT/AU2015/000195 patent/WO2015149114A1/en active Application Filing
- 2015-04-02 KR KR1020167030643A patent/KR20170021227A/ko unknown
- 2015-04-02 AU AU2015240418A patent/AU2015240418A1/en not_active Abandoned
- 2015-04-02 CA CA2952549A patent/CA2952549A1/en not_active Abandoned
- 2015-04-02 SG SG11201607828RA patent/SG11201607828RA/en unknown
- 2015-04-02 JP JP2016559652A patent/JP2017513134A/ja active Pending
-
2016
- 2016-09-25 IL IL248022A patent/IL248022A0/en unknown
-
2023
- 2023-12-22 US US18/394,830 patent/US20240152542A1/en active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019001445A1 (zh) * | 2017-06-30 | 2019-01-03 | 华为技术有限公司 | 一种管理本体的方法以及m2m平台 |
CN109246660A (zh) * | 2017-06-30 | 2019-01-18 | 华为技术有限公司 | 一种管理本体的方法以及m2m平台 |
CN109246660B (zh) * | 2017-06-30 | 2020-05-08 | 华为技术有限公司 | 一种管理本体的方法以及m2m平台 |
US11875117B2 (en) | 2017-06-30 | 2024-01-16 | Huawei Cloud Computing Technologies Co., Ltd. | Ontology management method and M2M platform |
CN107978341A (zh) * | 2017-12-22 | 2018-05-01 | 南京昂特医信数据技术有限公司 | 一种基于语境的医学语义框架下的异构数据适配方法及其系统 |
CN109447267A (zh) * | 2018-10-16 | 2019-03-08 | 东北石油大学 | 融合数据元标准的叙词本体构建方法 |
CN109447267B (zh) * | 2018-10-16 | 2021-04-06 | 东北石油大学 | 融合数据元标准的叙词本体构建方法 |
CN110059194A (zh) * | 2019-03-01 | 2019-07-26 | 中国科学院信息工程研究所 | 一种融合表示学习和分治策略的大规模本体合并方法 |
Also Published As
Publication number | Publication date |
---|---|
US20240152542A1 (en) | 2024-05-09 |
AU2015240418A1 (en) | 2016-11-17 |
CA2952549A1 (en) | 2015-10-08 |
US20170185674A1 (en) | 2017-06-29 |
WO2015149114A1 (en) | 2015-10-08 |
EP3127020A1 (en) | 2017-02-08 |
KR20170021227A (ko) | 2017-02-27 |
US11921769B2 (en) | 2024-03-05 |
IL248022A0 (en) | 2016-11-30 |
SG11201607828RA (en) | 2016-10-28 |
JP2017513134A (ja) | 2017-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240152542A1 (en) | Ontology mapping method and apparatus | |
Boella et al. | Eunomos, a legal document and knowledge management system for the web to provide relevant, reliable and up-to-date information on the law | |
US11625424B2 (en) | Ontology aligner method, semantic matching method and apparatus | |
US11899705B2 (en) | Putative ontology generating method and apparatus | |
Kalfoglou et al. | Ontology mapping: the state of the art | |
JP2022526242A (ja) | テキストドキュメントのアノテーションのための方法、装置、およびシステム | |
Visser et al. | Enabling technologies for interoperability | |
US20170083547A1 (en) | Putative ontology generating method and apparatus | |
US20130103705A1 (en) | Schema mapping and data transformation on the basis of a conceptual model | |
US20170061001A1 (en) | Ontology browser and grouping method and apparatus | |
Lacasta et al. | Terminological ontologies: design, management and practical applications | |
Moner et al. | Archetype-based semantic integration and standardization of clinical data | |
Bettahar et al. | Towards a Semantic Interoperability in an e‑Government Application | |
Maldonado et al. | Framework for clinical data standardization based on archetypes | |
Guedea-Noriega et al. | Integroly: Automatic knowledge graph population from social big data in the political marketing domain | |
Kwakye | A Practical Approach to Merging Multidimensional Data Models | |
Roa-Martínez et al. | Digital Image Representation Model Enriched with Semantic Web Technologies: Visual and Non-Visual Information | |
Leshcheva et al. | Towards a method of ontology population from heterogeneous sources of structured data | |
Litvin et al. | A dialogue system based on ontology automatically built through a natural language text analysis | |
Sampson | A comprehensive framework for ontology alignment quality | |
Rouces | A Frame-Based Approach for Integrating Heterogeneous Knowledge Sources | |
Abdelhamid Abdelnaby | Provenance in Open Data Entity-Centric Aggregation | |
Wei et al. | on soLVinG soMe HeteroGeneous ProBLeMs oF HeaLtHCare inForMation sHarinG and interoPeraBiLity usinG ontoLoGy CoMPutinG | |
Johnson | Semantic Blumenbach | |
Gonzalez | A Frame-Based Approach for Integrating Heterogeneous Knowledge Sources |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170510 |