CN102929898B - 结构化数据库的语义查询引擎 - Google Patents

结构化数据库的语义查询引擎 Download PDF

Info

Publication number
CN102929898B
CN102929898B CN201110238260.9A CN201110238260A CN102929898B CN 102929898 B CN102929898 B CN 102929898B CN 201110238260 A CN201110238260 A CN 201110238260A CN 102929898 B CN102929898 B CN 102929898B
Authority
CN
China
Prior art keywords
data
model
entity
semantic query
storehouse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110238260.9A
Other languages
English (en)
Other versions
CN102929898A (zh
Inventor
徐鹏
陈正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Priority to CN201110238260.9A priority Critical patent/CN102929898B/zh
Publication of CN102929898A publication Critical patent/CN102929898A/zh
Application granted granted Critical
Publication of CN102929898B publication Critical patent/CN102929898B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明揭示了一种结构化数据库的语义查询引擎。该语义查询引擎从一个或多个不同的数据来源获得未加工的数据,利用数据加工装置依据应用程序的要求对未加工的数据进行加工。加工后的数据被保存在数据存放库中,在数据存放库中,经加工的数据被以一种或多种模型保存以形成数据实体。基于本体(ontology)创建的共享全局数据模型提供本体实体。本体实体与数据实体之间进行映射。数据存放库中的经加工的数据的模型、共享全局数据模型、以及数据存放库中的数据实体与共享全局数据模型中的本体实体之间的映射关系都由元数据进行描述。

Description

结构化数据库的语义查询引擎
技术领域
本发明涉及搜索技术,更具体地说,涉及一种能够在结构化的数据库中进行模糊搜索的技术。
背景技术
Web或者其他的数据种子(data feeds)是目前最大的数据来源。在Web上使用的数据通常是非结构化或者半结构化的。非结构化或者半结构化的数据有利于数据呈现,也有利于人的阅读和理解的,但是不利于数据的搜索和处理。非结构化或者半结构化的数据的组织方式更加接近人类的思考方式,通过“语义”进行关联,因此对于人类来说,阅读和理解都十分方便。但是对于计算机这样的机器来说,以“语义”关联的数据就变得难以处理。计算机处理数据的方式是按照严格的数据格式和数据结构,对于“语义”计算机不能理解。
结构化的数据更加适合进行数据搜索和数据处理。结构化的数据的一个例子是结构化数据库,例如SQL数据库或者Oracle数据库,这些数据库以严格的数据格式保存数据,这样,在计算机进行搜索时,只需要按照固定的数据格式进行搜索,就能够得到良好的搜索结果。
但是在网络上,即使是结构化的数据也会遇到很多的处理方面的困难。由于各个结构化数据库各自使用的数据格式不同,使得在整个网络上进行搜索时,依旧不能找到统一的数据格式,使得搜索效果大打折扣。如果要实现在整个网络上的高效搜索,必须对每一种结构化数据库的数据结构进行深入的研究,统一其中的数据格式,这显然是一件十分耗时、又难以实现的工作。
近年来,语义网络(Semantic Web)的出现提供一个一种解决上述问题的出路。语义网络利用了本体(Ontology)的概念,本体可以理解为是一个形式化定义语词关系的规范化文件。本体具备分类体系与推理原则, 借助于本体,能够在各种异构数据(包括各种按照不同数据结构的结构化数据、半结构化数据或者非结构化数据)的实体和类之间建立合理的关联和推理,使得这些异构数据被本体集合在一起并重新加以解释,从而提高数据的集成度和关联程度。
发明内容
本发明旨在提出一种利用本体(ontology)实现的对结构化数据进行语义查询的技术。
根据本发明的一实施例,提出一种结构化数据库的语义查询引擎。该语义查询引擎从数据来源获得未加工的数据,利用数据加工装置依据应用程序的要求对未加工的数据进行加工。加工后的数据被保存在数据存放库中,在数据存放库中,经加工的数据被以一种或多种模型保存以形成数据实体。基于本体(ontology)创建的共享全局数据模型提供本体实体。本体实体与数据实体之间进行映射。数据存放库中的经加工的数据的模型、共享全局数据模型、以及数据存放库中的数据实体与共享全局数据模型中的本体实体之间的映射关系都由元数据进行描述。
根据本发明的一实施例,提出一种结构化数据库的语义查询引擎。该语义查询引擎从信息系统获得未加工的数据。利用数据提取及包装装置从信息系统中提取未加工的数据并依据应用程序的要求对该未加工的数据进行包装。经包装的数据被保存在数据存放库中,在数据存放库中,经包装的数据一种或多种模型保存以形成数据实体。基于本体(ontology)创建的共享全局数据模型提供本体实体。数据模型映射装置将分布在数据存放库中的数据实体映射到共享全局数据模型中的本体实体。数据存放库中经包装的数据的模型、共享全局数据模型中的本体实体和数据实体与本体实体之间的映射由元数据描述。根据由元数据的描述,使用动态封装引擎将语义查询转换成数据存放库指定的查询并进行搜索,获得搜索结果。由本体聚合及分类装置依据本体实体实现搜索结果的聚合及分类。经聚合和分类后的搜索结果由数据交互及视图装置通过用户界面以特征的形式呈现。
根据一个实施例,提出一种结构化数据库的语义查询引擎,包括如下 的层次结构:信息系统层、数据处理层、数据模型及映射层、数据管理层、视图层和交互层。信息系统层保存未加工的数据。数据处理层提取未加工的数据并对该未加工的数据进行包装并对包装后的数据进行导入操作。数据模型及映射层导入包装后的数据,以一种或多种模型保存经包装的数据,形成数据实体,基于本体(ontology)创建本体实体并将数据实体映射到本体实体。数据管理层接收语义查询,根据经包装的数据的模型、共享全局数据模型以及映射,将语义查询转换成数据存放库指定的查询并进行搜索,获得搜索结果,依据本体实体实现搜索结果的聚合及分类。视图层提供不同的数据视图,交互层提供与用户的交互。
附图说明
本发明的上述的以及其他的特征、性质和优势将通过下面结合附图和实施例的描述而变得更加明显,在附图中,相同的附图标记始终表示相同的特征,其中:
图1揭示了根据本发明的一实施例的结构化数据库的语义查询引擎的结构图。
图2揭示了根据本发明的一实施例的结构化数据库的语义查询引擎的结构图。
图3揭示了根据本发明的一实施例的结构化数据库的语义查询引擎的结构图。
具体实施方式
首先参考图1所示,揭示了根据本发明的一实施例的结构化数据库的语义查询引擎100。该语义查询引擎100包括:数据来源102、数据加工装置104、数据存放库106、共享全局数据模型108和元数据110。
数据来源102提供未加工的数据。未加工的数据来源于Web网页或者是其他的数据种子(data feeds),可以是具有不同的数据结构的结构化数据库中的数据,也可以是Web网页中的半结构化数据或者非结构化数据。
数据加工装置104从数据来源102获取未加工的数据,依据应用程序的要求进行加工。为了便于进行数据存储和数据管理,需要对各种具有不同数据结构的数据进行一定的处理,数据加工装置104就是执行这种处理。
数据存放库106从数据加工装置104获取经加工的数据,以一种或多种模型将经加工的数据保存在数据存放库106中形成数据实体。经过加工后的数据被保存在数据存放库106中,上述的一种或多种模型反映了数据实体之间的某种关联。这种关联与本体实体相关。具有不同的数据结构的数据依旧保持其原有的格式被保存在数据存放库106中。
共享全局数据模型108是基于本体(ontology)创建,共享全局数据模型108包括本体实体。本体实体与数据实体建立映射关系,一个本体实体可以映射到位于不同的数据存放库106中的数个数据实体,这些数据实体可以具有不同的数据结构。通过本体实体的映射,原先分布在不同的数据存放库中的、具有不同的数据结构但又存在关联的数据实体被关联起来,映射到同一个本体实体。于是,通过对本体实体的搜索,就能够找到所有相关的数据实体。
元数据110描述了数据存放库106中的经加工的数据的模型、共享全局数据模型108、以及数据存放库106中的数据实体与共享全局数据模型108中的本体实体之间的映射关系。在本发明中,元数据被用于描述各种模型以及映射关系。
继续参考图1所示的实施例,该结构化数据库的语义查询引擎100还包括下述的部件:动态封装引擎112、聚合装置114和视图装置116。
动态封装引擎112接收语义查询,依靠元数据对数据存放库和共享全局数据模型的描述,将语义查询转换成数据存放库指定的查询并进行搜索,获得搜索结果。动态封装引擎112从用户处接收语义查询,该语义查询时按照符合人类习惯的方式描述,动态封装引擎112按照该语义查询找到对应的本体实体,在根据该本体实体的映射找到相关的分布在数据存放库中的数据实体。根据本体实体与数据实体的映射关系,语义查询被转换成了各个不同的数据存放库对相关字段的查询,于是,实现了由语义查询至数据存放库指定的查询的转换。然后就可以利用各数据存放库指定的查询在 结构化的数据库中进行高效的搜索。
聚合装置114依据共享全局数据模型中本体实体的描述,对搜索结果进行聚合。动态封装引擎112进行由语义查询至数据存放库指定的查询的转换后,各个数据存放库搜索到各自的搜索结果,这些搜索结果的数据格式也是不同的。聚合装置114根据本体实体和数据实体的映射关系,以本体实体为基础对这些搜索结果进行聚合。使得搜索结果的呈现方式更加符合人类的习惯,具备有本体实体所对应的“语义”特点。
视图装置116根据应用程序的要求,将搜索结果的数据模型化为不同的视图。
本发明所称的语义查询引擎,主要的目的是为了为分布在不同的实体数据库中的数据建立全局的和均一的逻辑视图(view),以进行有效的数据服务。本发明借助于网络本体语言(Web Ontology Language,OWL),以本体的概念来关联数据。基于本体的模型对于组织和导航分布于不同的实体数据存储器中的数据是十分有用的,能够提高搜索的精度。由于本体概念的提出,本发明能够使用基于特征的关联搜索,而不是传统的基于关键词的搜索来搜索数据源,基于特征的关联搜索更加符合人类的思维习惯,而本体的使用解决了人类思维方式与计算机执行命令方式之间的隔阂,本体很好地利用映射的方式将基于特征的关联搜索转换成了结构化的数据搜索,促进了人与计算机的有效交流。
在本发明中,涉及三类主要的组成部分:数据(data)、视图(view)和进程(process)。
数据主要包括:
未加工数据(raw data):未加工数据来自于Web网页的数据,未经处理,提供与研究相关的原始信息。
经加工的数据(cooked data):从Web网页提取的信息,并且由应用程序的特定设计进行模型化。
元数据:描述了数据存放库中的经加工的数据的模型、共享全局数据模型、以及数据存放库中的数据实体与共享全局数据模型中的本体实体模型之间的映射关系。
视图的概念来源于传统的数据库,引入视图的概念可以获取分布在一个或多个数据存放库中的数据子集。对于视图的定义是基于应用程序的任务。
在本发明中,视图可被用于下述的目的:
·帮助用户进行快速个性化的数据分析;
·提供无缝的方式从多个数据表中、或者表组的事件中结合数据。
进程是对于数据的操作。进程覆盖了来自处理数据的操作、管理配置信息、在线查询和数据分析。
在本发明中,不同的数据存放库具有不同的数据结构,这些数据存放库通常是命令式数据存储器,比如基于SQL的数据存储器。这些数据存放库的模型(schema)由元数据描述。在一个实施例中,利用XML来描述结构化数据存储器的模型如下:
表模型(Table schema),包括表中的栏(column)的组成和栏的属性;
表之间的对外键(foreign key)关联。
用于虚拟大表创建(virtual big-table creation)和表透明查询(tabletransparent query)的实现。
本发明的一个关键方面是建立数据与本体之间的映射。本发明使用XML规范来描述数据存放库(比如源存储器)中的数据与本体之间的映射例如(数据栏与本体属性之间的映射)。在映射被建立之后,可以利用该映射实现基于本体的查询(语义查询)。同时,数据存放库(比如源存储器)中的数据保持在结构化的表模型中。与传统的语义网络系统(semantic web system)相比,本发明中这些保存在数据存放库中的数据不需要被强制转换成RDF或者其他的语义网络格式(semantic web format),而可以保留原有的格式。
参考图2所示,揭示了根据本发明的一实施例的结构化数据库的语义查询引擎200的一种实现。该结构化数据库的语义查询引擎200包括:信息系统202、数据提取及包装装置204、数据存放库206、共享全局数据模型208、数据模型映射装置210、动态封装引擎212、本体聚合及分 类装置214和数据交互及视图装置216。
信息系统210保存未加工的数据(raw data)。未加工的数据包括来自Web网页或者其他数据种子(data feeds)的数据,比如保存在各个结构化数据库中的数据。
数据提取及包装装置204从信息系统210中提取未加工的数据,对该未加工的数据进行包装,包装是依据应用程序的要求。
数据存放库206,以一种或多种模型保存经包装的数据,形成数据实体,数据存放库206中经包装的数据的模型由元数据描述。数据存放库(date warehouse)206包含经处理的研究信息(经包装的数据),该研究信息是进行动态封装应用程序的基础。数据存放库206包含数据源本身和访问该数据数需要的连接信息。数据存放库206中保存经包装的数据的模型包括:
定义命令式数据库中的表的组成;
定义表中栏的组成;
定义栏的属性,包括数据类型、是否可为空以及主键;
定义表之间的对外关联。
共享全局数据模型208,该共享全局数据模型208是基于本体(ontology)创建,共享全局数据模型208包括本体实体,共享全局数据模型208由元数据描述。
数据模型映射装置210将分布在数据存放库206中的数据实体映射到共享全局数据模型208中的本体实体,映射由元数据描述。
元数据以及元数据描述是本发明中的一个重要的方面。除了以符合应用程序服务要求的浅数据结构(shallow data structure)组织经加工或者包装的数据外,元数据还展现了数据存放库的模型并且描述了数据存放库中的数据实体与共享全局数据模型中定义的本体实体之间的映射。
在一个实施例中,通过元数据描述的数据模型定义包括:
命令式服务器,例如基于SQL的服务器中的表的组成;
表中栏的组成;
栏的属性,包括数据类型、是否可为空(nullable)以及主键(primary key);
表之间的对外关联。
元数据的描述与上述的数据存放库中数据的模型相对应。
动态封装引擎212根据由元数据描述的数据存放库中经包装的数据的模型、共享全局数据模型以及数据与本体之间的映射,将语义查询转换成数据存放库指定的查询并进行搜索,获得搜索结果。动态封装引擎212动态封装应用程序中的数据集成的最大挑战来自于所研究的数据源的语义异构(semantic heterogeneity)。本发明的动态封装引擎212利用网络本体语言(Web Ontology Language,OWL)指定的本体来解决这个问题。
下面是OWL的一个实例
·owl:class:
·ID
·Label
·Sub class Of
·Disjoint With
·owl:DatatypeProperty
·ID
·Value range
·Domain(s)
·Equivalent With
·owl:ObjectProperty
·Type
·Domain
·Range
·Equivalent With
·Inverse Of
·Sub Property Of
在使用传统的规则编程方案时,封装规则被硬编码(hard coded)到应用程序中。这是的这些规则的开发难度很高,并且进行修改的代价也很 高。动态封装引擎212的动态封装允许对个别的信息消费者的封装信息服务进行自动的在线配置和组装。所创建的封装包(package)被处理为无缝转换,并且仅仅要求来自消费者的一个请求,隐藏了数据集成的复杂过程。动态封装引擎212依靠对数据存放库和共享全局数据模型的模型描述,来将语义查询转换成数据存放库指定的查询,由此集成的进程自动完成并且不需要人工集成的介入。
本体聚合及分类装置214依据本体实体实现搜索结果的聚合及分类。大部分人认为“聚合的结果”是所希望看到的。与传统的搜索引擎提供的平面列表(plain list)相比。本发明对结果进行分组,成为感兴趣的分类。在本发明中,聚合是根据本体实体进行,对传统的聚合算法进行平衡,获得结果项目的聚合体。本发明中的聚合与分类基于本体描述,能够清楚地对每一个聚合体的概念进行总结,
数据交互及视图装置216通过用户界面以特征的形式呈现经聚合和分类后的搜索结果。数据交互及视图装置216实现的是数据的管理与呈现。
在本发明的结构化数据库的语义查询引擎200中,并不创建统一的数据世界(unified data world)。每一个各自的数据源将保持其现有的数据格式,这些数据格式对于每一个私有的应用程序要求来说是最合适的。在OWL中提供模型描述来描述数据类和它们之间的关联。这些数据类和关联被映射到整体本体上(universal ontology),这些映射被用作建立数据源之间的关联的条目,用于搜索和分析。
参考图3所示,图3揭示了结构化数据库的语义查询引擎的层次结构,该结构化数据库的语义查询引擎300可以分为如下的层次:信息系统层302、数据处理层304、数据模型及映射层306、数据管理层308、视图层310和交互层312。
信息系统层302保存未加工的数据。比如,信息系统层302保存来自Web网页的数据作为未加工的数据。在图3所示的实施例中,系统信息层302包括了来自NSF网页320、维基百科(Wikipedia)322、谷歌知识(Google Scholar)324、实时知识搜索(Live ScholarSearch)326的数据。在图3所示的层次结构中,信息系统层302作为第0层(Level 0)。
数据处理层304从信息系统层302中提取未加工的数据,对该未加工的数据进行包装并对包装后的数据进行导入操作。在图3所示的层次结构中,数据处理层304作为第1层(Level 1)。数据处理层304包括数据提取及包装装置340和数据导入装置342。数据提取及包装装置340从信息系统层提取未加工的数据,对该未加工的数据进行包装,数据提取及包装装置340进行的包装是依据应用程序的要求。数据导入装置342对包装后的数据进行导入操作。参考图3,来自第0层的数据首先由数据提取及包装装置340进行提取和包装,之后提供给数据导入装置342。由数据导入装置342提供给下一层次中的部件。
数据模型及映射层306从数据处理层304导入包装后的数据,以一种或多种模型保存经包装的数据,形成数据实体;基于本体(ontology)创建的本体实体;数据模型及映射层将数据实体映射到本体实体,所述映射由元数据描述。在图3所示的层次结构中,数据模型及映射层306作为第2层(Level 2)。数据模型及映射层306包括数据存放库360、数据模型描述元数据362、共享全局数据模型364和本体映射描述元数据366。数据存放库(datawarehouse)360以一种或多种模型保存经包装的数据以形成数据实体。此处的数据存放库306的实现方式与前述的数据存放库206相对应,具体的描述不再赘述。数据模型描述元数据362描述数据存放库中经包装的数据的模型。数据模型描述元数据362用于描述数据存放库中的数据模型,与上面的描述相对应,由数据模型描述元数据362描述的数据模型定义可以包括:
命令式服务器,例如基于SQL的服务器中的表的组成;
表中栏的组成;
栏的属性,包括数据类型、是否可为空(nullable)以及主键(primary key);
表之间的对外关联。
共享全局数据模型364是基于本体(ontology)创建,共享全局数据模型364包括本体实体,共享全局数据模型364同样由元数据描述。本体映射描述元数据366描述了分布在数据存放库360中的数据实体与共享全 局数据模型364中的本体实体之间的映射。如同在图2所介绍的实施例中提到的,元数据还展现了数据存放库的模型并且描述了数据存放库中的数据实体与共享全局数据模型中定义的本体实体之间的映射。本体映射描述元数据366即描述了这种映射关系。如图3所示,数据存放库360从第1层接收数据。共享全局数据模型364与本体映射描述元数据366关联。
数据管理层308接收语义查询,根据由元数据描述的数据存放库中经包装的数据的模型、共享全局数据模型以及映射,将语义查询转换成数据存放库指定的查询并进行搜索,获得搜索结果,依据本体实体实现搜索结果的聚合及分类。在图3所示的层次结构中,数据管理层308作为第3层(Level 3)。数据管理层308包括了动态封装引擎380、本体聚合及分类装置382和数据存放库管理器384。动态封装引擎380根据由元数据描述的数据存放库中经包装的数据的模型、共享全局数据模型以及映射,将语义查询转换成数据存放库指定的查询并进行搜索,获得搜索结果。动态封装引擎380与图2所示的实施例中的动态封装引擎212对应,同样由OWL语言实现,具体的实现此处不再赘述。本体聚合及分类装置382依据本体实体实现搜索结果的聚合及分类。本体聚合及分类装置382与图2所示的实施例中的本体聚合及分类装置214对应,具体的实现此处不再赘述。数据存放库管理器(data warehousemanager)384向共享全局数据模型进行数据存放库的注册并控制对数据存放库的访问。数据存放库管理器384用于管理共享全局数据模型,向注册共享全局数据模型数据存放库并且提供对于每一个数据存放库中元数据描述的访问。数据存放库管理器384的接口由数据存放库管理器提供给数据处理组件,用于将查询从本体转换成数据存放库指定的格式。参考图3所示,动态封装引擎380和本体聚合及分类装置382都从第2层的数据存放库360得到数据。动态封装引擎380还接收来自第2层的数据模型描述元数据362的数据和同为第3层的数据存放库管理器384的数据。
视图层310提供不同的数据视图。在图3所示的层次结构中,视图层310为第4层(Level 4)。在图3中,视图层310包括如下的视图:研发中心化视图330、基础中心化视图332、奖励中心化视图334和公布中心 化视图336,还可以包括其他的视图338。需要说明的是,此处示出的视图层310的结构仅仅是作为一种示例,根据本发明的思想,可以根据需求提供各种视图。视图的基本规则是将数据分为不同的应用程序任务并别模型化为不同的视图,以用户界面以特征的形式呈现经聚合和分类后的搜索结果。
交互层312提供与用户的交互。在图3所示的层次结构中,交互层312为第5层(Level 5)。交互层312包括数据呈现装置350、查询请求及响应装置352、分析及定制装置354和本体导航装置356。数据呈现装置350依据本体呈现数据,即以人类所熟悉的方式反馈经过“聚类”处理后的数据。查询请求及响应装置352接收查询请求并响应以搜索结果,查询请求及响应装置352接收语义查询,并以基于特征的关联方式反馈搜索的结果。分析及定制装置354依据应用程序的要求对搜索结果分析及定制,该分析和定制是依据本体进行的。本体导航装置356对共享全局数据模型中的本体进行导航。
本发明借助于网络本体语言(Web Ontology Language,OWL),以本体的概念来关联数据。借助于本体,本发明能够使用基于特征的关联搜索,而不是传统的基于关键词的搜索来搜索数据源,提高搜索的有效性和精确度。
上述实施例是提供给熟悉本领域内的人员来实现或使用本发明的,熟悉本领域的人员可对上述实施例做出种种修改或变化而不脱离本发明的发明思想,因而本发明的保护范围并不被上述实施例所限,而应该是符合权利要求书提到的创新性特征的最大范围。

Claims (14)

1.一种结构化数据库的语义查询引擎装置,其特征在于,包括:
数据来源装置,数据来源装置提供未加工的数据;
数据加工装置,从数据来源获取未加工的数据,依据应用程序的要求进行加工;
数据存放库,从数据加工装置获取经加工的数据,以一种或多种模型将经加工的数据保存在数据存放库中形成数据实体;
共享全局数据模型,该共享全局数据模型是基于本体(ontology)创建,共享全局数据模型包括本体实体;
动态封装引擎装置,接收语义查询,依靠元数据对数据存放库和共享全局数据模型的描述,将语义查询转换成数据存放库指定的查询并进行搜索,获得搜索结果;
其中数据存放库中的经加工的数据的模型、共享全局数据模型、以及数据存放库中的数据实体与共享全局数据模型中的本体实体之间的映射关系由元数据来描述。
2.如权利要求1所述的结构化数据库的语义查询引擎装置,其特征在于,还包括:
聚合装置,依据共享全局数据模型中本体实体的描述,对搜索结果进行聚合。
3.如权利要求1所述的结构化数据库的语义查询引擎装置,其特征在于,还包括:
视图装置,根据应用程序的要求,将搜索结果的数据模型化为不同的视图。
4.一种结构化数据库的语义查询引擎装置,其特征在于,包括:
信息系统,保存未加工的数据;
数据提取及包装装置,从所述信息系统中提取未加工的数据,对该未加工的数据进行包装,所述包装是依据应用程序的要求;
数据存放库,以一种或多种模型保存经包装的数据,形成数据实体,数据存放库中经包装的数据的模型由元数据描述;
共享全局数据模型,该共享全局数据模型是基于本体(ontology)创建,共享全局数据模型包括本体实体,共享全局数据模型由元数据描述;
数据模型映射装置,将分布在数据存放库中的数据实体映射到共享全局数据模型中的本体实体,所述映射由元数据描述;
动态封装引擎装置,根据由元数据描述的数据存放库中经包装的数据的模型、共享全局数据模型以及所述映射,将语义查询转换成数据存放库指定的查询并进行搜索,获得搜索结果;
本体聚合及分类装置,依据本体实体实现搜索结果的聚合及分类;
数据交互及视图装置,通过用户界面以特征的形式呈现经聚合和分类后的搜索结果。
5.如权利要求4所述的结构化数据库的语义查询引擎装置,其特征在于,
所述未加工的数据包括来自Web网页的数据。
6.如权利要求4所述的结构化数据库的语义查询引擎装置,其特征在于,数据存放库中保存经包装的数据的模型包括:
定义命令式数据库中的表的组成;
定义表中栏的组成;
定义栏的属性,包括数据类型、是否可为空以及主键;
定义表之间的对外关联。
7.如权利要求4所述的结构化数据库的语义查询引擎装置,其特征在于,
所述动态封装引擎装置使用网络本体语言OWL(Web Ontology Language)。
8.一种结构化数据库的语义查询引擎装置,其特征在于,包括:
信息系统层模块,信息系统层模块保存未加工的数据;
数据处理层模块,数据处理层模块从所述信息系统层中提取未加工的数据,对该未加工的数据进行包装并对包装后的数据进行导入操作;
数据模型及映射层模块,从数据处理层模块导入包装后的数据,以一种或多种模型保存经包装的数据,形成数据实体;基于本体(ontology)创建的本体实体;数据模型及映射层模块将数据实体映射到本体实体,所述映射由元数据描述;
数据管理层模块,接收语义查询,根据由元数据描述的数据存放库中经包装的数据的模型、共享全局数据模型以及所述映射,将语义查询转换成数据存放库指定的查询并进行搜索,获得搜索结果,依据本体实体实现搜索结果的聚合及分类;
视图层模块,提供不同的数据视图;
交互层模块,提供与用户的交互。
9.如权利要求8所述的结构化数据库的语义查询引擎装置,其特征在于,
所述信息系统层模块保存来自数据种子或者Web网页的数据作为未加工的数据。
10.如权利要求8所述的结构化数据库的语义查询引擎装置,其特征在于,所述数据处理层模块包括:
数据提取及包装装置,从所述信息系统层模块提取未加工的数据,对该未加工的数据进行包装,所述包装是依据应用程序的要求;
数据导入装置,对包装后的数据进行导入操作。
11.如权利要求8所述的结构化数据库的语义查询引擎装置,其特征在于,所述数据模型及映射层模块包括:
数据存放库,以一种或多种模型保存经包装的数据,形成数据实体;
数据模型描述元数据,描述数据存放库中经包装的数据的模型;
共享全局数据模型,该共享全局数据模型是基于本体(ontology)创建,共享全局数据模型包括本体实体,共享全局数据模型由元数据描述;
本体映射描述元数据,描述分布在数据存放库中的数据实体与共享全局数据模型中的本体实体之间的映射。
12.如权利要求11所述的结构化数据库的语义查询引擎装置,其特征在于,所述数据管理层模块包括:
动态封装引擎,根据由元数据描述的数据存放库中经包装的数据的模型、共享全局数据模型以及所述映射,将语义查询转换成数据存放库指定的查询并进行搜索,获得搜索结果;
本体聚合及分类装置,依据本体实体实现搜索结果的聚合及分类;
数据存放库管理器,向共享全局数据模型进行数据存放库的注册并控制对数据存放库的访问。
13.如权利要求8所述的结构化数据库的语义查询引擎装置,其特征在于,所述视图层模块包括:
研发中心化视图;
基础中心化视图;
奖励中心化视图;
公布中心化视图。
14.如权利要求8所述的结构化数据库的语义查询引擎装置,所述交互层模块包括:
数据呈现装置,依据本体呈现数据;
查询请求及响应装置,接收查询请求并响应以搜索结果;
分析及定制装置,依据应用程序的要求对搜索结果分析及定制;本体导航装置,对共享全局数据模型中的本体进行导航。
CN201110238260.9A 2011-08-12 2011-08-12 结构化数据库的语义查询引擎 Active CN102929898B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110238260.9A CN102929898B (zh) 2011-08-12 2011-08-12 结构化数据库的语义查询引擎

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110238260.9A CN102929898B (zh) 2011-08-12 2011-08-12 结构化数据库的语义查询引擎

Publications (2)

Publication Number Publication Date
CN102929898A CN102929898A (zh) 2013-02-13
CN102929898B true CN102929898B (zh) 2017-08-15

Family

ID=47644697

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110238260.9A Active CN102929898B (zh) 2011-08-12 2011-08-12 结构化数据库的语义查询引擎

Country Status (1)

Country Link
CN (1) CN102929898B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699649B (zh) * 2013-12-26 2018-05-25 成都市卓睿科技有限公司 处理界面元素与数据映射的系统及其实现方法
CN103927360A (zh) * 2014-04-18 2014-07-16 北京大学 基于图模型的软件项目语义信息表示及检索方法
CN104462501A (zh) * 2014-12-19 2015-03-25 北京奇虎科技有限公司 基于结构化数据的知识图谱构建方法和装置
EP3447639A1 (de) 2017-08-22 2019-02-27 Siemens Aktiengesellschaft Vorrichtung und verfahren zur kopplung einer maschine mit einer mehrzahl von applikationen
CN110019969B (zh) * 2017-12-05 2021-06-29 北京京东尚科信息技术有限公司 处理半结构化数据的方法和系统
CN108520139B (zh) * 2018-03-30 2021-06-15 北京理工大学 一种多维度工装设计知识组件构建方法
CN117093207B (zh) * 2023-10-17 2024-02-02 恩核(北京)信息技术有限公司 多业务数据模型的实体处理方法、装置及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1761962A (zh) * 2003-03-21 2006-04-19 国际商业机器公司 将非结构化数据实时聚集为结构化数据以便关系数据库引擎进行sql处理
CN101216851A (zh) * 2008-01-11 2008-07-09 孟小峰 一种本体数据(Ontology)管理系统和方法
CN101639776A (zh) * 2009-09-07 2010-02-03 陈小青 一种数据库访问和集成方法及其系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1761962A (zh) * 2003-03-21 2006-04-19 国际商业机器公司 将非结构化数据实时聚集为结构化数据以便关系数据库引擎进行sql处理
CN101216851A (zh) * 2008-01-11 2008-07-09 孟小峰 一种本体数据(Ontology)管理系统和方法
CN101639776A (zh) * 2009-09-07 2010-02-03 陈小青 一种数据库访问和集成方法及其系统

Also Published As

Publication number Publication date
CN102929898A (zh) 2013-02-13

Similar Documents

Publication Publication Date Title
CN102929898B (zh) 结构化数据库的语义查询引擎
US9501539B2 (en) Ontology harmonization and mediation systems and methods
CN106570081A (zh) 基于语义网的大规模离线数据分析框架
CN101595476B (zh) 用于客户定义信息架构的系统、方法和计算机程序
US8566347B1 (en) Method and apparatus for storing ontologies in a relational database
JP2014132507A (ja) ユーザ駆動によるセマンティックネットワークの動的生成およびメディア統合のための方法、システム、ならびにコンピュータプログラム
CN102402507B (zh) 一种soa多消息机制的异构数据集成系统和方法
CN102270232A (zh) 一种存储优化的语义数据查询系统
Goasdoué et al. Growing triples on trees: an XML-RDF hybrid model for annotated documents
Novikov et al. Querying big data
Sattler et al. Concept-based querying in mediator systems
Dou et al. OntoGrate: Towards automatic integration for relational databases and the semantic web through an ontology-based framework
Michel et al. Translation of Heterogeneous Databases into RDF, and Application to the Construction of a SKOS Taxonomical Reference
Sundara et al. Visualizing large-scale RDF data using Subsets, Summaries, and Sampling in Oracle
CN115237937A (zh) 一种基于星际文件系统的分布式协同查询处理系统
An et al. Automatic generation of ontology from the deep web
Liu et al. Tree pattern matching in heterogeneous fuzzy XML databases
Kanimozhi et al. Incorporating ontology and SPARQL for semantic image annotation
Lee et al. An intelligent query processing for distributed ontologies
Salas et al. Stdtrip: Promoting the reuse of standard vocabularies in open government data
Atzeni et al. Data modeling across the evolution of database technology
Jiang et al. An automatic method of data warehouses multi-dimension modeling for distributed information systems
Yétongnon et al. A web-centric semantic mediation approach for spatial information systems
Rivero et al. A reference architecture for building semantic-web mediators
Chen et al. User-oriented intelligent service of e-catalog based on semantic web

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1180057

Country of ref document: HK

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150803

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150803

Address after: Washington State

Applicant after: Micro soft technique license Co., Ltd

Address before: Washington State

Applicant before: Microsoft Corp.

GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1180057

Country of ref document: HK