CN101393565A

CN101393565A - 基于本体的面向虚拟博物馆的搜索方法

Info

Publication number: CN101393565A
Application number: CNA2008102262183A
Authority: CN
Inventors: 沈旭昆; 齐越; 王嘉惠
Original assignee: Beihang University
Current assignee: Beihang University; Beijing University of Aeronautics and Astronautics
Priority date: 2008-11-07
Filing date: 2008-11-07
Publication date: 2009-03-25

Abstract

一种基于本体的面向虚拟博物馆的搜索方法，利用本体描述语言OWL的丰富表达能力与Dublin Core元数据系统相结合，给出了一种丰富的描述博物馆藏品内容及藏品间关系的方法，并在此基础上在博物馆管理员的参与下重新组织搜索流程，将元数据关键字与本体库的对应条目相结合最终提高搜索结果的查全率和查准率。同时借助于本体库强大的语义表述能力，使搜索结果间有了丰富的联系，用户可更加方便的在搜索结果中找到感兴趣的内容。

Description

基于本体的面向虚拟博物馆的搜索方法

技术领域

本发明属于计算机虚拟博物馆领域，具体地说是一种利用本体来描述博物馆的藏品和藏品间的语义属性，从而改善、丰富搜索结果的方法。

背景技术

当前的虚拟博物馆有很多元数据标准，每种标准都有不同的侧重点。例如CHIN(Humanities Data Dictionary)是被设计用来描述和管理对象集合的；Dublin Core主要用来采集资源；Object ID则主要被用来识别博物馆藏品。其中Dublin Core的应用范围较为广泛，但这种标准的强项在于描述单个藏品，对于多个藏品之间的关系以及藏品和藏品之间的语义关系没有支持。

本体(Ontology)的概念起源于哲学领域，即“对世界上客观存在物的系统地描述”。在人工智能界，最早给出本体定义的是Neches等人，他们将本体定义为“给出构成相关领域词汇的基本术语和关系，以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”。在计算机界最著名并被引用得最为广泛的定义是由Gruber提出的：本体是概念模型的明确的规范说明。本体的实质是把本体当作是领域(特定领域，或更广的范围)内部的不同主体(人、机器、软件系统等)之间进行交流(对话、互操作、共享等)的一种语义基础，即由本体提供一种明确定义的共识。本体的目标是获取、描述和表示相关领域的知识，提供对该领域知识的共同理解，确定该领域内共同认可的词汇，并从不同层次的形式化模式上给出这些词汇和词汇间相互关系的明确定义。

Web本体语言OWL是一种定义和实例化“Web本体”的语言。OWL本体的一个优点是会有能够对其做推理的工具。这些工具提供了不特定于某个主题领域的通用支持，而如果要构建一个能对一个特定的工业界标准XML Schema做推理的系统，它往往是特定于一个领域的。构建一个可靠的和有用的推理系统不是一项简单的工作。而创建一个本体则更为容易处理。人们的期望就是很多团体会着手本体创建。他们会得益于基于OWL语言的形式属性的第三方工具，这些工具提供了多种多样的能力，而这些能力是大部分组织难以复制的。

当前的搜索引擎根据他们所基于的技术原理，可以把它们分为4大主要类型：基于Robot的搜索引擎、目录(directory，也叫catalog)搜索、Meta搜索引擎和全文搜索引擎。

基于Robot的搜索引擎其特点是利用一个称为Robot(也叫做spider、web crawler或webwanderer)的程序自动访问Web站点，提取站点上的网页，并根据网页中的链接进一步提取其它网页，或转移到其它站点上。Robot搜集的网页被加入到搜索引擎的数据库中，供用户查询使用。Internet上最早出现的搜索引擎就是利用Robot来建立数据库，“搜索引擎”这个词的原义也只是指这种狭义上的基于Robot的搜索引擎。基于Robot的搜索引擎由3个主要部分构成：Robot、Index和搜索软件。Robot从一个事先制定好的URLs列表出发，这个列表中的URLs通常是从以往访问记录中提取出来的，特别是一些热门站点和“What’s New”网页，从Usenet等地方检索得到的URLs也常被用作起始URLs，此外，很多搜索引擎还接受用户提交的URLs。这些URLs也会被安排在列表中供Robot访问。Robot访问了一个网页后，会对它进行分析，提取出新的URLs，将之加入到访问列表中，如此递归地访问Web。基于Robot的搜索引擎一般要定期访问大多数以前搜集的网页，刷新Index，以反映出网页的更新情况，去除一些死链接，网页的部分内容和变化情况将会反映到用户查询的结果中，这是基于Robot的搜索引擎的一个重要特征。当前比较流行的搜索引擎中，Google属于此类型。

基于目录的搜索引擎：目录与基于Robot的搜索引擎所不同的是，目录的数据库是依靠专职编辑或志愿人员建立起来的，这些编辑人员在访问了某个Web站点后撰写一段对该站点的描述，并根据站点的内容和性质将其归为一个预先分好的类别，把站点的URL和描述放在这个类别中，当用户查询某个关键词时，搜索软件只在这些描述中进行搜索。很多目录也接受用户提交的网站和描述，当目录的编辑人员认可该网站及描述后，就会将之添加到合适的类别中。目录的用户界面基本上都是分级结构，首页提供了最基本的几个大类的入口，用户可以逐级向下访问，直至找到自己感兴趣的类别，另外用户也可以利用目录提供的搜索功能直接查找一个关键词。不过，由于目录只在保存的对站点的描述中进行搜索，因此站点本身的动态变化不会反映到搜索结果中来，这也是目录与基于Robot的搜索引擎之间的一大区别。目前Yahoo搜索引擎属于此类。

Meta搜索引擎：Meta搜索引擎也叫做Multiple Search Engine，它的特点是本身并没有存放网页信息的数据库。当用户查询一个关键词时，它把用户的查询请求转换成其它搜索引擎能够接受的命令格式，并行的访问数个搜索引擎来查询这个关键词，并把这些搜索引擎返回的结果经过处理后再返回给用户。严格意义上来讲，Meta搜索引擎只能算是一种用户代理，而不是真正的搜索引擎。多数Meta搜索引擎在处理其它搜索引擎的返回结果时，只提取出每个搜索引擎的结果中前面10-50条，并将这些条目合并在一起返回给用户，因此最后结果的数量可能会远少于直接在一个搜索引擎上进行查找所得到的数量，这就是为什么很多Internet用户都喜欢使用Meta搜索引擎来查找信息的原因。

基于关键词搜索是把用户的查询请求和Web页面、文档中的每一个词进行比较，只要发现某个网页中含有这个关键字符，就将该网页作为查询结果返回给用户。因此，目前信息检索的查全率(Recall，也称召回率，即被找到的信息/全部所需要的信息)和准确率(Precision，即有用的信息/全部查询结果)难以令人满意。究其主要原因，是因为对计算机而言，关键词几乎没有任何语义，计算机不理解Web页面中词语表达的语义及其相互关系，因此检索的性能还是难以得到本质的提高。

发明内容

本发明的技术解决问题：克服上述方法缺点，提供一种能够提高虚拟博物馆搜索的查全率和查准率的基于本体的面向虚拟博物馆的搜索方法。

本发明的技术解决方案：本发明采用原博物馆描述体系Dublin Core和本体描述语言OWL结合的方式描述和管理博物馆藏品。系统的流程可分为两步：第一步是资源与处理阶段。博物馆的管理员通过订制的本体编辑器编辑相应藏品及藏品间的属性关系，建立本体库。之后通过本体的推理机产生更加全面丰富的属性关系集合。最终得到相关本体字典。同时利用开元搜索引擎Lucene对元数据描述建立倒排索引，提高查找速度。第二步是资源获取阶段。在搜索时，将关键字查找到的条目在本体库中二次查找，将其中匹配的类、实体和属性返回，并连带返回相关结果的各属性，丰富用户体验。

本发明与现有技术相比的优点在于：以前的基于关键字的匹配搜索先对博物馆的藏品的元数据描述建立倒排索引(以Lucene为例)。搜索时，解析搜索字符串，将子字符串与倒排索引中的关键字相匹配，返回相应条目。这种方法的问题是关键字匹配有时不能返回用户真正关心的条目。例如在虚拟奥运博物馆中，当用户搜索关键字“夏季奥运会”时不能得到历届奥运会这些与关键字紧密相关的条目，原因是这些藏品的元数据描述里没有这个关键字。而这些信息在语义上来讲是与关键字“奥运会”联系最为紧密的信息。本发明通过管理员将相关信息加入本体库，可有效的校正搜索结果，提高了搜索的查全率。

附图说明

图1为本发明整体工作框架流程；

图2为结合Dublin Core和本体描述语言OWL的本体编辑器；

图3为本发明的推理机的工作；其中：图3a为声明关系集，图3b为推导关系集，图3c为直接关系集；

图4为本发明的搜索中的数据流；

图5为本发明的带有相关属性信息的搜索结果。

具体实施方式

本发明的主要流程图如图1所示，具体步骤如下：

(1)资源预处理

博物馆中的原有元数据以Dublin Core架构存储在关系数据库(RMDB)中，在资源预处理阶段需要做两方面的工作：

a、构造本体关系

管理员可通过本系统提供的针对Dublin Core元数据集定制的本体编辑器将藏品加入本体库并编辑其属性。通过Dublin Core元数据集中的Handle值可以唯一标识博物馆中一个藏品，此唯一标示符可用来在本体库中标识唯一实例。虚拟博物馆的本体编辑器如图4所示分为如下模块：类别编辑模块(添加类、编辑类、浏览类)、属性编辑模块(添加属性、浏览属性)和实例编辑模块(添加实例、浏览实例)。此编辑器有一定程度的批处理能力。各模块具体功能如下：

类别编辑模块

添加类：此功能模块主要向本体库中添加类别，添加类别时需指定类别的名字，选择类别的父类、等价类(类别的内容完全一样)和不相交类(类别的内容不存在相交的部分)。

编辑类：此功能模块包括向类别添加实例(实例即虚拟博物馆中的藏品，从现有博物馆组织目录中选取)，定义单个实例的属性值，选择藏品添加至属性的值域并设为选定的藏品的属性值。

浏览类：此功能模块包括浏览本体库中的类，并对列出的类提供进一步的操作选择，包括编辑、删除、添加兄弟类和添加子类。此功能模块还提供对类的搜索功能。

属性编辑模块

添加属性：此功能模块主要向本体库中添加属性，添加属性是需指定属性名，选择属性的父属性、定义域、值域、等价属性(属性的各个特征除名称外完全一样)和倒转属性(属性从语义的角度上表达了相反的意思，定义域和值域恰好相反)。

浏览属性：此功能模块可以浏览本体库中的属性，包括属性的名称、父属性、定义域、值域、等加属性和倒转属性，并提供删除属性的操作。

实例编辑模块

添加实例：由于添加实例是必须指定实例要添加到的类，所以此功能模块术语类编辑模块中编辑类的一部分实现。

浏览实例：该功能模块提供选择类别并选择类别中实例的功能，并浏览实例的各个属性值，提供浏览属性值的链接。

管理员只需要编辑最基本的内容，本体推理机会帮助根据这些基本内容扩展出潜在的关系，最终得到包含完全属性集的本体库。本体推理机的工作原理如图3所示。子图1为声明关系集。管理员声明四个类A，B，C，D和实例x。并声明如下关系：C是A的子类，D是B和C的子类，x是B和D的实例。推理机可根据上面声明的类和关系推到出第2个子图表示的完全推导关系集。这个集合包括了所有的声明的和隐含的类间关系和属性x的所属关系。子图3是直接关系集。里面的关系是能够推导出推导关系集的最小声明关系集。类Thing是本体中的一个特殊的类，他是本体中所有类的默认父类，类似与Java中的Object类。这个过程得到了相关本体字典。

B、建立索引

为提高查找速度，对藏品的元数据集建立倒排索引。采用开源引擎Lucene进行索引的建立工作。Lucene使用各种解析器对各种不同类型的文档进行解析。比如对于HTML文档，HTML解析器会做一些预处理的工作，比如过滤文档中的HTML标签等等。HTML解析器的输出的是文本内容，接着Lucene的分词器(Analyzer)从文本内容中提取出索引项以及相关信息，比如索引项的出现频率。接着Lucene的分词器把这些信息写到索引文件中。

索引的Dublin Core元数据如下：

author:dc.contributor.^*

author:dc.creator.^*

title:dc.title.^*

keyword:dc.subject.^*

abstract:dc.description.abstract

abstract:dc.description.^*

author:dc.description.statementofresponsibility

series:dc.relation.ispartofseries

abstract:dc.description.tableofcontents

mime:dc.format.mimetype

sponsor:dc.description.sponsorship

identifier:dc.identifier.^*

language:dc.language.iso

(2)资源获取

借助于资源与处理阶段产生的两个结果：相关本体字典和索引，在资源获取时可以的到更精确、更广泛、更丰富的结果。资源获取阶段的过程如图2所示。搜索时，先通过原有的搜索机制得到相关的含有该关键字的藏品索引，并以此索引在本体库中得到相关的信息。对于在本体库中没有相关记录的信息则按保留返回。这样不会漏掉任何原有的返回结果。同时，以此关键字搜索本体库中的类、属性和实例。对于匹配的类，将类中的实例加入搜索结果中。对于匹配的属性，将对应的属性值加入搜索结果中。对于匹配的实例，将匹配的实例加入搜索结果中。将这些实例加上本体库中不包含的被匹配的藏品作为结果返回给用户。在返回藏品结果的同时将本体库中的个体间属性信息一并返回，可有效改善用户体验，帮助找到感兴趣的内容。如图5所示。在虚拟奥运博物馆中搜索关键字“奥运会”时，除了返回的藏品“第一届奥运会”之外，还有与之相关的属性信息：识趣，举办城市，概况，奖牌，开幕式，海报，场馆，用户可方便的浏览相关信息。

Claims

1、基于本体的面向虚拟博物馆的搜索方法，其特征在于步骤如下：

第一步，资源与处理阶段：

博物馆的管理员通过订制的本体编辑器编辑相应藏品及藏品间的属性关系，建立本体库，之后通过本体的推理机产生属性关系集合，最终得到相关本体字典，同时利用Lucene对元数据描述建立倒排索引，提高查找速度；

第二步，资源获取阶段：

在搜索时，将关键字查找到的条目在本体库中二次查找，将其中匹配的类、实体和属性返回，并连带返回相关结果的各属性，丰富用户体验。