CN100442292C

CN100442292C - 一种语义网信息的索引与获取方法

Info

Publication number: CN100442292C
Application number: CNB2007100517431A
Authority: CN
Inventors: 金海�; 武浩; 袁平鹏; 宁小敏; 余一娇
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2007-03-22
Filing date: 2007-03-22
Publication date: 2008-12-10
Anticipated expiration: 2027-03-22
Also published as: CN101030217A

Abstract

本发明公开了一种语义网信息的索引与获取方法，首先建立用于索引语义网实体和文档的倒排表，继而分别往两个倒排表中添加具体内容；其次，依据请求类型不同，分别检索对应的倒排表，获取中间结果集；对需要排序的中间结果集进行排序，再对需要更新操作的实例进行更新。本发明将语义信息同传统的关键字检索相结合，提供新的排序方法，能显著提高语义网环境下信息检索能力。本发明方法具有良好的通用性和可移植性，可被广泛地集成到当前的信息管理系统中。

Description

一种语义网信息的索引与获取方法

技术领域

本发明属于计算机技术领域的信息存储和检索技术，具体涉及一种语义网信息的索引与获取方法，该方法对应用产生的语义数据进行有效地存储，同时提供获取手段。

背景技术

语义网的目标是让网络上的信息变成机器可以理解的形式，使万维网变得智能化和自动化。围绕这一目标，诞生了许多新技术，如本体语言RDF/OWL等。这些新技术为应用信息管理带了新方法。本体能有效地解决信息异构问题，明确地说明领域概念，并对应用数据进行语义封装。应用本身又具有很强的领域特性，本体技术恰可在其中发挥作用。随着越来越多的应用开始支持语义网技术，应用领域内的语义数据开始不断的积累。如何管理这些语义数据，并如何有效地检索需要的信息成为每个领域应用者关注的问题。

构建语义数据库系统是解决这个问题的重要方法之一，语义数据库系统通常构筑在传统的数据存储设施之上，如关系数据库之上。通过将语义数据转换存储在关系数据库的表结构之中，再通过关系查询语言进行查询。由于其索引措施是基于B+树等索引，而树结构索引不适合多关键字匹配，因此，当在这样的索引数据上进行多关键字匹配查询或者检索时，效率非常低下。倒排表专门为多关键字匹配设计，在进行多关键字匹配查询或者检索时效率很高。鉴于此，考虑运用倒排表结构来进行语义数据的索引和存储也不失为一个有效方法。

大量的应用数据产生并贮存之后，必然需要有效的获取方法。采用传统的数据库查询方法可进行精确的检索，但需要构建复杂的查询语句，而且返回的查询结果是无序的。对于普通用户而言，更期望使用类似于搜索引擎一样的便捷检索方式，而这是存储设施目前所不能提供的。如果能对应用存储设施提供检索支持，尤其利用其中的语义信息部分，提供排序能力，那么用户将从中受益。

发明内容

本方法目的是提供一种语义网信息的索引与获取方法，该方法能够实现应用文档的数据有效存储与检索。

本发明提供的一种语义网信息的索引与获取方法，其步骤为：首先按照步骤(1)建立信息索引，当接收到检索请求时，按照步骤(2)-(9)获取信息；

步骤(1)建立用于索引语义网实体和文档的倒排表，其中，实体倒排表包括以下字段：URI、路径、路径长度、类型、元数据、排序值；文档倒排表包括以下字段：URI、URL、内容、排序值；然后分别解析并添加语义网实体和文档内容到实体和文档的倒排表中；

步骤(2)接受检索请求，依据请求类型不同，分别检索对应的语义实体倒排表或者是文档倒排表；

步骤(3)获取检索到的结果并生成中间结果集；

步骤(4)判断是否对中间结果集进行排序，如果需要排序，执行步骤(5)；否则，跳转步骤(6)；

步骤(5)获取文档实体“在文档倒排表中的排序值”，获取其同查询的内容相似度，并求加权和，然后据此对中间结果集排序；

步骤(6)将中间结果集作为最终结果返回；

步骤(7)判断是否需要更新操作，如果不需要更新，跳转步骤(2)；否则进入步骤(8)；

步骤(8)对所有的实体的“在实体倒排表中的排序值”进行重新计算，替代原有的“在实体倒排表中的排序值”；

步骤(9)重复步骤(2)-(8)，直至服务终止。

针对领域应用提出的这些需求，本发明结合信息检索技术和语义网技术，提出了一种面向应用的解决方案，用于领域应用文档(包括语义数据和文本)的索引、存储与检索。具体而言，本发明具有以下特点：

(1)通过倒排表方法将语义信息索引并存储起来，实现了文档元数据同文本内容的一站式索引存储。其好处是在进行字段内关键字匹配时可获得高效率，并且保持较小的磁盘开销。另外，由于索引类型相同，语义数据与纯文本数据不再需要各自存储，可通过Lucene程序接口直接将索引建在磁盘上。

(2)通过对特定领域上下文信息进行分析，继而计算出语义实体在领域内的重要性，并结合关键字检索方法对返回结果排序。该方法考虑了文档的重要性，同时兼顾了其同查询的相关性，因此可提供较好的检索准确度。

(3)该方法独立于具体的应用领域，因而具有良好的通用性和可移植性。可以被广泛地集成到当前的信息管理系统中，如科技文献管理、电子邮件管理、在线社区文档管理等。

附图说明

图1为本发明语义网信息索引与获取方法流程示意图。

图2为更新例程流程示意图。

图3为文献领域的RDF实例图示。

图4为文献领域模式图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步说明。

本发明采用倒排表来索引语义网实体和文档内容，并通过计算一个语义网实体在领域本体内的影响力来决定其重要性，并依据其重要性对检索结果进行排序。本发明包括两个主要部分，即首先建立用于索引语义网实体和文档的倒排表，继而分别往两个倒排表中添加具体内容；其次，基于建立的倒排表进行信息获取。下面就具体步骤作详细说明：

步骤(1)：建立用于索引语义网实体和文档的倒排表。其中，实体倒排表①包括以下字段：URI(统一资源标示符)、路径、路径长度、类型、元数据、排序值；文档倒排表②包括以下字段：URI、URL(统一资源定位)、内容、排序值。其中“排序值”字段保存URI标示的实体在领域内的排名值。

文档(URI，路径，路径长度，类型，元数据，排序值)①

文档(URI，URL，内容，排序值) ②

上述倒排表通过Lucene应用程序接口实现，其结构中，一个字段是文档的一个区段。每个字段有两个部分，一个名字和值域。对于领域本体而言，它首先被表示成图，然后映射到倒排表结构。其中，每个概念实例对应一个文档对象，由URI进行标示。其属性值和关系值则被存储在元数据字段。属性通常视为标注的角色，其值是文字类型，被作为长度为1的路径。关系则蕴涵在两个概念之间，有可能不是直连的，而是通过一个路径的形式再相连。对于这种关系，其路径也作为一个字段来使用。为了进行应用文档检索，把文档纯文本内容也进行索引，用如②所示的倒排表形式。“URI”可视作文档对象的标示符，“URL”指出其物理位置，具体为磁盘上的路径。“内容”字段用来索引纯文本内容，“排序值”字段保存文档在领域内的排名值。

步骤(2)：分别解析并添加语义网实体和文档内容到实体和文档的倒排表中；

(2.1)读取语义信息文件并解析生成数据图。读取一个语义信息文件，通常是一个RDF文件。通过RDF应用程序接口(如Jena)解析该文件，并将之表达成数据图存贮在内存中。

(2.2)解析并添加数据图到倒排表中。由一个解析器负责处理在内存中暂存的数据图，并提取其中的实例。对于每个实例，建立一个文档对象与之对应，同时将实例的属性值以及关系值添加到文档对象中相应的字段内。

一般情况下，设定路径长度3-4可以满足80％以上的查询需要。对于较深的路径查询，可以通过组合多次短路径查询来完成。对于一些特殊的RDF内置关系，如rdf:Bag，rdf:Seq和rdf:Alt，经过一个变换处理直接地把它们当作长度为1的路径。下面结合具体的实例(图3)来阐明一些关键操作过程。论文一和论文二是概念(Concept)“文献”的实例。作者一和作者二结点是概念“人”的实例。会议一、杂志一则分别是概念“会议”和“杂志”的对应实例。这些概念都有一些用于注释的属性，如全名、机构、出版社、论文题目等。为了要将该实例图编入索引中，所有的关系和属性被映射到文档对象的路径字段，其中所有的属性和直接关系被作为长度1的路径。

文档(URI，路径，路径长度，类型，元数据，排序值)
文档(URI，路径，路径长度，类型，元数据，排序值)	文档(命名空间#作者一，全名，1，人，张三，，)
文档(命名空间#论文二，、发表在+杂志名，2，文献，，，)	文档(命名空间#作者一，全名，1，人，张三，，)

上述结构能够满足目前语义数据查询中三元组匹配(？主语，？谓词，？宾语)的需要。其中，？x表示x是将被检索的变量。“主语”的值域是在URI之内，谓词则可以直接用路径名字指定。举例来说(？论文，#标题，“研究”)，和(#张三，#全名，？邮箱)。该结构也可以满足组合的复杂查询，如((？作者，#全名，“张三”)或(？作者，#机构，“xx学校”))，((？论文一，#标题，“方法”)与(？论文一，#引用，？论文二))。也可满足连接查询，如(？论文，“#作者：#全名”，“张三”)，它将会返回所有的包含作者全名“张三”的文献。

(2.3)解析并索引应用文档纯文本；利用Lucene的文本解析工具和写索引器将文本内容添加到文档索引中。

步骤(3)：接受检索请求，依据请求类型不同，分别检索对应的语义实体倒排表或者是文档倒排表；

通常，一个请求R＝{Q；F}由两个部分组成，Q代表查询，由n≥1个检索项s₁，…，s_i，…，s_n构成，其中s_i采用t_i:k_i的格式，t_i说明检索的属性，k_i是属性t_i内容包含的关键字。F为检索类型标志，如果F设为1，则为数据实例检索，否则为文档检索。该步骤即通过解析标志F继而判断请求类型。如果数据实例检索，则通过在语义信息倒排表(形式为①)中进行检索，并返回相应的语义实体。如果是文档检索，则通过在文档内容倒排表(形式为②)中进行检索，将内容中包含检索关键字的文档返回。

步骤(4)：获取检索到的结果并生成中间结果集；

步骤(5)：判断是否对中间结果集进行排序。如果需要排序，执行步骤6；否则，跳转步骤7。

步骤(6)：获取文档实体“在文档倒排表中的排序值”，获取其同查询的内容相似度，并求加权和，然后据此对中间结果集排序；

为了在进行文档检索时能获得较好的相关度，查询和文档之间的相关性被定义为文档在领域中的重要性(排序值)和查询与文档的内容相似度(TF*IDF)的加权平均。假设sim(q，d)是查询与文档之间的内容相似度，I(d)是文档d在领域内的排序规格化值，则用来衡量文档同查询的相关性新度量，可用一个加权策略R(q，d)＝w×sim(q，d)+(1-w)×I(d)来表示，其中w是权重调节因子，可以根据不同应用领域的要求灵活地调整。最终文档实体依据R(q，d)的值高低进行降序排列。可通过Lucene系统内置的TF*IDF(向量空间模型中的词频率-逆向文档频率)的计算接口获取文档同查询的相关度。TF即关键词在文档中的出现频率，IDF＝N/DF，N为文档集中总的文档数，DF即关键词的文档频率。文档实体的“排序值”则可从倒排表中直接获取。

步骤(7)：将中间结果集作为最终结果返回；

步骤(8)：判断是否需要更新操作。如果不需要更新，跳转步骤(3)；否则顺序执行；

如果知识库有新内容加入，并且加入的数量达到一定规模，通常超过原来文献数量的5％，将会对实体原来的重要性值产生足够的大影响，需要调用更新例程重新计算领域内实体的重要性。通过离线迭代运算，用实体的排序新值替换其原值。

步骤(9)：对所有的实体的“在实体倒排表中的排序值”进行重新计算，替代原有的“在实体倒排表中的排序值”；

该过程的核心思想是计算一个被检索的实体在领域中的重要性。对于一个特定领域来说，领域本体提供了资源之间的上下文语义，这些上下文描述影响资源排序的各个方面，因此可借助这些上下文信息来计算领域本体中概念实例的重要性值。为了解释方便，把本体模式同其实例区分开来。模式图的节点代表领域内的核心概念(也可用面向对象中的类来理解)，其具体实例或者实体(也可用面向对象中的对象来理解)，更新例程计算通过在本体模式图上添加边以及权重注释，来表达重要性如何在本体模式之间进行传递，而这些添加的信息将被用来计算领域本体中概念实例的排序值(即重要性值)。如图4(a)是示例领域本体的一部分，图4(b)则是加上权重传递注释之后的领域本体。图中每条边划分为对应的两个边，分别表达前向和后向的权重传递关系。最终本体中每个实体的排序值则通过α_n＝λ·A·α_n-1+(1-λ)·e计算得到。该方法中运用随机冲浪模型，并包括数据集中所有节点。α为迭代向量，初始元素值全置为1.0，其最终结果将作为排名值使用。数据图中任意资源之间的随机跳变量用一个向量e来建模。A是一邻接矩阵，连接领域本体的所有可用实例。λ表示衰减指数，可以在0.75～0.85之间取值。这些实例之间链接的权重相对应于权重传递注释本体中指定的值，而该值是由相同类型链接的数据整除的。当初始化一个特定领域内的权重传递注释本体时，邻接矩阵A元素值依据下面规则进行初始化：如果相应数据图中实体之间没有链接，则其值为0；否则，该值由在权重传递图中指定的边权重决定，并由该实体同类型出链接的数目整除。例如，将图3中的六个实例选取出来，构建邻接矩阵来表达他们之间的关联，邻接矩阵初始化以图4(b)所描述的连接类型及其权重为依据。

图2列举一种更新例程，下面作进一步详细的说明：

(9.1)读取领域模式配置文件，得到相应的权重传播模式图。

(9.2)从知识库中提取领域本体的所有实例。

(9.3)将这些实例依照领域权重传播模式构建成数据图。数据图中任意资源之间的随机跳变量用一个向量e来建模。将这些实例依照领域权重传播模式构建成数据图，邻接矩阵A用于表示所有实例的连接状态。

(9.4)初始化邻接矩阵A。其元素值按下面规则进行初始化：如果相应数据图中实体之间没有链接，则其值为0；否则，该值由在权重传递图中指定的边权重决定，并由该实体同类型出链接的数目整除。

(9.5)利用迭代公式α_n＝λ·A·α_n-1+(1-λ)·e进行运算，n为邻接矩阵A中实例的个数。

(9.6)计算α最近两次的迭代结果之间的向量距离，如果该值小于某个阈值，则视作计算收敛，迭代终止；然后将所得实体的排序值存入知识库中，即添加到索引中。

步骤(10)：重复步骤(3)-(9)，直至服务终止。

上述排序方法在应用中获得很好的效果，在搜索的准确度和相关性方面比传统的纯关键字搜索有很大的提高。

Claims

1、一种语义网信息的索引与获取方法，首先按照步骤(1)建立信息索引，当接收到检索请求时，按照步骤(2)-(9)获取信息；

步骤(3)获取检索到的结果并生成中间结果集；

步骤(6)将中间结果集作为最终结果返回；

步骤(9)重复步骤(2)-(8)，直至服务终止。

2、根据权利要求1所述的方法，其特征在于：步骤(1)按照下述过程分别解析并添加语义网实体和文档内容到实体和文档的倒排表中：

(a1)读取语义信息文件并解析生成数据图；

(a2)解析并添加数据图到倒排表中；

(a3)解析并索引应用文档纯文本，并将文本内容添加到文档索引中。

3、根据权利要求1或2所述的方法，其特征在于：步骤(8)按照下述过程进行更新：

(b1)读取领域配置文件，得到相应的权重传播模式图；

(b2)从知识库中提取领域本体的所有实例；

(b3)将这些实例依照领域权重传播模式构建成数据图，邻接矩阵A用于表示所有实例的连接状态；

(b4)初始化邻接矩阵A，其元素值按下面规则进行初始化：如果相应数据图中实体之间没有链接，则其值为0；否则，该值由在权重传递图中指定的边权重决定，并由该实体同类型出链接的数目整除；

(b5)利用迭代公式α_n＝λ·A·α_n-1+(1-λ)·e进行运算，其中，α为迭代向量，λ为衰减指数，e为数据图中任意资源之间的随机跳变量，n为邻接矩阵A中实例的个数；

(b6)计算迭代向量α最近两次的迭代结果之间的向量距离，如果该值小于某个阈值，则视作计算收敛，迭代终止；然后将所得实体的排序值存入知识库中。