CN102479239B

CN102479239B - 预存储rdf三元数据的方法和装置

Info

Publication number: CN102479239B
Application number: CN201010577037.2A
Authority: CN
Inventors: 徐林昊; 孙行智; 武硕; 王庆法; 潘越
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2010-11-29
Filing date: 2010-11-29
Publication date: 2016-03-09
Anticipated expiration: 2030-11-29
Also published as: US20140040283A1; US20170060876A1; US9495423B2; US10831767B2; CN102479239A; US20120136875A1

Abstract

提供了预存储RDF三元数据的方法和装置。所述方法包括：获取对RDF三元组的查询请求，其中包括至少一个三元模式；对于每个三元模式，确定其对应的基本模式，并将每个三元模式相对于对应的基本模式进行加权；基于加权的基本模式，统计每个基本模式的出现频率；至少根据所述出现频率，选择至少一个基本模式；以及将所选择的至少一个基本模式所对应的RDF三元组预存储到缓存区。还提供了与之相应的装置。通过上述方法和装置，可以确定访问频率较高的RDF三元组，将这部分三元组预存储到易于访问的缓存区中，由此提高查询效率。

Description

预存储RDF三元数据的方法和装置

技术领域

本发明涉及RDF三元数据的存储和管理，更具体而言，涉及用于加速RDF三元数据的查询和读取的方法和装置。

背景技术

RDF(ResourceDescriptionFramework，资源描述框架)是万维网联盟(W3C)提出的一组标记语言的技术标准，以便更为丰富地描述和表达Web资源的内容与结构。具体地，RDF可专门用于表达关于Web资源的元数据，比如Web页面的标题、作者和修改时间，Web文档的版权和许可信息，某个被共享资源的可用计划表等。然而，将“Web资源”这一概念一般化后，RDF可用于表达关于任何可在Web上被标识的事物的信息。随着基于语义的网络描述的发展，RDF数据越来越多地应用在各种网络相关应用中，对RDF数据的管理也变得愈加重要。

与一般的关系数据不同，RDF数据可表达为三元组的形式，该三元组包括<主体，谓词，客体>。也就说，RDF通过这样的三元组描述各个元素之间的关系。在将这样的RDF三元组存储在诸如数据库的存储系统的情况下，通常通过W3C推荐的SPARQL语言进行数据查询。

图1示出现有的RDF数据存储和查询系统的结构。该系统100包括数据库101，数据加载器102，数据存取模块103和查询引擎104。数据库101用于存储RDF三元数据。具体地，在数据库101中，包括IRI表和三元组表。IRI表用于存储内部ID或索引与数据中的IRI串之间的对应关系，而三元组表用上述内部ID的表示形式来存储三元组数据。可以理解，这样的存储方式有利于数据的压缩存储，从而节省存储空间。在从外部输入新的RDF数据时，数据加载器102接收数据输入，并对输入的RDF数据进行解析，将其转化为内部数据模型。对于该内部数据模型中的每个IRI串，数据存取模块103为其分配一个唯一的内部ID，并将该ID与该串之间的对应关系插入或存储到上述IRI表中。之后，对于数据模型中的每个RDF三元组，数据存取模块103将其内部ID的表示形式插入或存储到上述三元组表中。对于如此存储的RDF三元数据，在想要进行数据查询时，查询引擎104接收用户的SPARQL查询请求，并将SPARQL查询请求转译为对应的标准化SQL(结构化查询语言)语句。数据存取模块103根据SQL语句从数据库101中提取所查询的三元组，并将结果返回给查询引擎104。

下面结合具体例子说明在上述系统100中执行的RDF数据存储和查询的过程。在一个例子中，在数据库101中存储关于学校课程设置的信息，这些信息均以RDF三元组形式存储。假定，用户想要知道选修Jack所教授的课程的学生名单，那么可以在查询引擎104中将SPARQL查询设置为：

SELECT？name

WHERE{

？student：hasName？name.(1)

？student：takeCourse？course.(2)

？course：toughtBy？person.(3)

？person：hasName“Jack”.(4)

}

在上述SPARQL查询中，请求返回所有name值，其中WHERE{}中的语句为name需要满足的关系。具体地，该查询中包含了4行三元组形式的查询语句(1)-(4)，每个这样的语句称为一个三元模式(triplepattern)。可以理解，此处为了便于描述而对这些语句进行了编号，在实际查询中不存在这样的编号。与RDF数据相对应地，每个三元模式也表示为<主体，谓词，客体>的形式，但是可以在三元组的至少一个元素前添加问号，将其设定为变量，以表示对该元素进行查询。例如，三元模式(4)表示希望查询在三元组中的谓词为hasName，客体为Jack的情况下，对应的变量person，即确定名字叫Jack的person。继而，通过三元模式(3)，可以搜索谓词为toughtBy，客体为以上确定的person的情况下，对应的主体course，也就是确定person所教授的课程course。在三元模式(2)中，搜索选修course的所有student，最后，在三元模式(1)中，确定上述student的名字name。于是，通过以上的三元模式(1)-(4)，以person，course，student为中间变量，就可以确定最终想要查询的name的值。

通过逐一执行上述三元模式，图1中的数据存取模块103从数据库101中依次提取出期望的查询结果，并返回给查询引擎104。在一个例子中，返回的RDF三元组可以为如下的形式：

主体	谓词	客体
			course	toughtBy	person
student	takeCourse	course
			person	hasName	“Jack”
student	hasName	“Rose”

通过以上的三元组，可以获知上述查询的结果，即，选修Jack所教授的课程的学生名字为Rose。

在以上查询过程中，数据存取模块103需要根据每一个三元模式的查询不断地从数据库101中搜索并提取数据。然而，由于数据库101需要存储数量巨大的数据，因此，数据库通常采用大容量存储介质来实现，例如大容量的硬盘。如此，不断地从硬盘搜索并提取数据使得IO成本非常高，进而影响查询的效率和系统的性能。

为了提高查询效率，在数据库系统中采用的一种方式是，将一部分数据预先存储到易于读取的缓存区中，例如计算系统的内存或高速缓冲存储器中，如此使得处理系统在查询或访问这部分数据时，可以直接从缓存区中读取，从而节省了IO成本。然而，由于缓存区的大小通常非常有限，因此，将哪些数据预先存入缓存区能够最大程度优化查询效率是尚在研究之中的问题。对于一般的关系数据，现有技术中提出了若干方法来预提取部分数据。然而，由于RDF数据特殊的数据格式，现有技术的方法不能适用于RDF数据的查询优化。因此，需要一种方法和装置，能够选择性地将一部分RDF数据预存储到缓存区中，从而加速和优化RDF数据的查询。

发明内容

考虑到以上提出的问题和目标，提出本发明，以提高RDF数据查询的效率。

根据本发明第一方面，提供一种从RDF三元组数据存储系统预存储RDF三元组的方法，其中每一个RDF三元组包括主体、谓词和客体，所述方法包括：获取对RDF三元组的查询请求，所述查询请求包括至少一个三元模式；将所述至少一个三元模式转化为基本模式的加权；基于基本模式的加权，统计所述基本模式的出现频率；以及在所述基本模式的出现频率满足一定条件时将所述基本模式所对应的RDF三元组预存储到缓存区。

根据本发明第二方面，提供一种从RDF三元组数据存储系统中预存储RDF三元组的装置，其中每一个RDF三元组包括主体、谓词和客体，所述装置包括：查询获取单元，配置为获取对RDF三元组的查询请求，所述查询请求包括至少一个三元模式；模式分析单元，配置为将所述至少一个三元模式转化为基本模式的加权；频率统计单元，配置为基于基本模式的加权，统计所述基本模式的出现频率；以及数据预存储单元，配置为在所述基本模式的出现频率满足一定条件时将所述基本模式所对应的RDF三元组预存储到缓存区。

通过本发明实施例的方法和装置，可以确定出现频率较高的查询模式，由此确定访问频率较高的RDF三元组，进而将这部分三元组预存储到易于访问的缓存区中。由此，在后续查询中，可以直接从缓存区中读取经常访问的RDF数据，节省IO成本，提高查询效率。

附图说明

图1示出现有的RDF数据存储和查询系统的结构；

图2示出根据本发明一个实施例的方法流程图；

图3A示例性示出RDF数据库中存储的一部分三元组数据；

图3B示出对图3A的数据的部分统计结果；

图4示出根据本发明一个实施例的包含预存储装置的RDF数据存储和查询系统；以及

图5示出根据本发明一个实施例的预存储装置的结构框图。

具体实施方式

以下结合附图描述本发明的具体实施例。但是应该理解，以下对具体实施例的描述仅仅是为了解释本发明的执行示例，而不对本发明的范围进行任何限定。

图2示出根据本发明一个实施例的方法流程图，该方法用于将RDF数据存储系统中存储的一部分RDF三元组预存储到缓存区。具体地，该方法包括步骤201，获取对RDF三元组的查询请求，所述查询请求包括至少一个三元模式；步骤202，对于所获取的至少一个三元模式中的每个三元模式，确定其对应的基本模式，并相对于所述对应的基本模式进行加权；步骤203，基于加权的基本模式，统计每个基本模式的出现频率；步骤204，至少根据所述出现频率，选择至少一个基本模式；步骤205，将所选择的至少一个基本模式所对应的RDF三元组预存储到缓存区。通过执行上述步骤，本发明的实施例可以确定查询和存取最为频繁的RDF三元组，并将这样的三元组数据预存储到缓存区中，从而提高查询效率。

下面参照具体例子描述图2所示的方法的各个步骤。

在步骤201中，获取对RDF数据的查询请求。在一个例子中，实时地从查询引擎获取这样的查询请求。在另一实例中，从系统的查询日志中读取查询请求的记录。可选地，可以一次获取多个查询请求，即查询的集合。典型地，对RDF数据进行搜索和查询的请求是SPARQL查询，每个这样的查询请求包括至少一个三元模式，例如背景技术中所示例的三元模式(1)-(4)。

接着，在步骤202中，对于获取的三元模式进行分析和转换。首先，对于每个三元模式，确定其对应的基本模式(elementarypattern)。基本模式的定义主要根据RDF三元组数据存储系统中的数据特点以及对数据进行查询的查询请求的特点。在一种实施方式中，基本模式被定义为仅有谓词为常量的三元模式，也就是，形式为<？主体，谓词，？客体>的三元模式。以下用s表示主体，p表示谓词，o表示客体，前缀“？”表示查询变量，前缀“：”表示常量，则基本模式的形式为<？s:p？o>。然而可以理解，也可以将基本模式定义为其他形式，例如仅有主体为常量的三元模式<:s？p？o>、仅有客体为常量的三元模式<？s？p:o>、主体和谓词均为常量的三元模式<:s:p？o>等。以下结合基本模式形式为<？s:p？o>的实施方式进行具体描述。本领域技术人员可以理解，本发明实施例同样适用于其他基本模式的定义。

将基本模式定义为<？s:p？o>，并依据谓词来对三元模式和三元数据进行分类的优势在于，在RDF数据库中，所存储的RDF三元组中不同的谓词的数目要远远小于RDF三元组本身的数目。例如，在维基百科的RDF数据集中，三元组的数目约有13690万之多，而涉及的谓词仅有927个。并且，在所有可能的三元模式中，谓词为常量的三元模式<？s:p:o>，<？s:p？o>以及＜:s:p？o>是最为常用的三元模式，而对谓词进行查询的三元模式<？s？p:o>，<:s？p:o>以及<:s？p？o>较少使用，更不必考虑查询全部元素的<？s？p？o>。在现有的SPARQL语言的标准测试集中包含的三元模式绝大多数都是上述最为常用的谓词为常量的三元模式。

对于上述较为常用的三元模式<？s:p:o>，<？s:p？o>以及<:s:p？o>，可以看到，<？s:p？o>本身就是基本模式，而<？s:p:o>和<:s:p？o>仅对主体或客体进行查询，其查询结果必然是相同谓词的基本模式<？s:p？o>的查询结果的子集。由此，可以将SPARQL查询中包含的每个三元模式都对应到基本模式。相应地，确定一个三元模式所对应的基本模式的步骤也就是确定与该三元模式的谓词相同的基本模式。

在示例出的三元模式(1)-(4)中，三元模式(1)-(3)都是谓词为常量，而对主体和客体进行查询的三元模式，都是基本模式。三元模式(4)中除了谓词“hasName”为常量之外，客体“Jack”也为常量，因此，不是基本模式。按照上述方式，可以确定其对应的基本模式就是谓词相同的基本模式<？s:hasName？o>。

在确定了每个三元模式对应的基本模式之后，将该三元模式相对于对应的基本模式进行出现次数的加权，转化为加权的基本模式。这是因为，基本模式仅仅限定了谓词，其查询结果包含所有谓词为指定谓词的三元组，或称为指定谓词的全集。因此，基本模式的查询会导致对指定谓词的全集的访问和提取。而在非基本模式的三元模式中，还限定了主体或客体，其查询结果是指定谓词的全集的一部分。也就是说，非基本模式的三元模式仅仅访问基本模式所访问的数据的一部分。那么，为了考虑各三元模式对三元组数据访问频率的贡献，就需要将非基本模式相对于基本模式在出现次数的意义上打一定的折扣，也就是，进行加权。

在一个具体例子中，简单地规定，非基本模式相对于基本模式的权重为0.5。如此，三元模式(1)-(4)可以转化为：

<？s:hasName？o>(1’)

<？s:takeCourse？o>(2’)

<？s:toughtBy？o>(3’)

<？s:hasName？o>＊0.5(4’)

在一些实施方式中，参考RDF数据库中的统计信息来对各三元模式进行加权。

具体地，在一个例子中，对于三元模式<？s:p:o>，定义Num(p，o)为RDF数据库中，谓词为p，客体为o的不同三元组的数目，定义FACT(p)为所有谓词为p的不同三元组的数目，即不同<s，o>对的数目。在此基础上，定义三元模式<？s:p:o>的权重w(p，o)为：

w(p，o)＝Num(p，o)/FACT(p)

相应地，对于三元模式<:s:p？o>，定义Num(s，p)为RDF数据库中，谓词为p，主体为s的不同三元组的数目，定义三元模式<s:p？o>的权重w(s，p)为

w(s，p)＝Num(s，p)/FACT(p)

对于三元模式<？s:p？o>，由于其本身就是基本模式，因此将其权重设定为1。由此，对SPARQL查询中包含的三种三元模式都设定了权重。

在其他实施例中，还可以考虑RDF数据库的更多统计信息。在一个示例中，定义RDF数据库中三元组数据的Domain统计和Range统计，其中Domain统计用于计算主体的数目，Range统计用于计算客体数目。

具体地，定义函数DOM(p)，表示在RDF数据库中谓词为p(客体为任意值)的不同主体s的数目；定义DOM(o)，表示数据库中客体为o(谓词为任意值)的不同主体s的数目。

定义函数RNG(s)，表示在RDF数据库中主体为s(谓词为任意值)的不同客体o的数目；定义RNG(p)，表示数据库中谓词为p(主体为任意值)的不同客体o的数目。

此外，使用以上示例中定义的FACT(p)，其表示所有谓词为p的不同三元组的数目，即不同<s，o>对的数目。

基于上面以上统计，可以将三元模式<？s:p:o>的权重w(p，o)定义为：

w (p, o) = \frac{MIN (DOM (p), DOM (o))}{FACT (p)} - - - (i)

对于三元模式<:s:p？o>，可以将其权重w(s，p)定义为

w (s, p) = \frac{MIN (RNG (s), RNG (p))}{FACT (p)} - - - (ii)

类似地，对于基本模式<？s:p？o>，将其权重设定为1。

下面结合一具体例子描述根据上述实施例对三元模式进行加权和转化的过程。图3A示例性示出RDF数据库中存储的一部分三元组数据，图3B示出对图3A的数据的部分统计结果。在图3A的三元组中，以谓词type为例，可以看到，谓词为type的不同主体的数目为10个，即DOM(type)＝10，谓词为type的不同客体的数目为6个，即RNG(type)＝6，谓词为type的三元组的数目为11个，即FACT(type)＝11。类似地对其他谓词和其他函数进行分析，可以得到图3B所示的统计结果。这些统计结果可以预先存储在数据库的特定区域中，定时进行更新，或在数据库接收新的数据存储时进行更新，以作为辅助存储信息备用于可能的后续使用。

假定对于图3A的数据，设定了第一条SPARQL查询：

SELECT？publication

WHERE

{？publicationtypeArticle(11)

？publicationauthor？researcher(12)

？researcherworkAt？university(13)

？universitynameNUS}(14)

其中，三元模式(12)和(13)为基本模式，权重为1；三元模式(11)对应的基本模式为<？stype？o>，三元模式(14)对应的基本模式为<？sname？o>。将图3B所示的统计结果带入公式(i)和(ii)，可以得到，三元模式(11)和(14)的权重分别为1/11和1/8，因此，可以将第一条查询转化为：

<？stype？o>＊1/11(11’)

<？sauthor？o>(12’)

<？sworkAt？o>(13’)

<？sname？o>＊1/8(14’)

类似地，假定第二条SPARQL查询为：

SELECT？publication

WHERE

{？researchersupervise？student(21)

？researchername“OoiBengChin”(22)

？publicationauthor？student}(23)

根据以上过程，可以将第二条查询转化为：

<？ssupervise？o>(21’)

<？sname？o>＊1/8(22’)

<？sauthor？o>(23’)

尽管以上示例了若干具体的统计和加权的方法，但是显然，本领域技术人员在阅读本说明书的教导之后，能够对以上的方法进行修改，或采用其他具体方法。应该理解，各种对三元模式进行加权的方法，只要能够从一定方面、在一定程度上反映出三元模式对数据库中三元组的访问频率的影响，都可以用于本发明的实施例。

此外，上述实施例都是结合<？s:p？o>形式的基本模式进行描述的。对于其他形式的基本模式，可以根据需要采取相应的加权方法，将三元模式转化为加权的基本模式，从而反映三元模式对数据访问频率的影响。

在对查询请求中的三元模式进行加权和转化之后，在图2的步骤203，基于加权的基本模式，统计每个基本模式的出现频率。

例如，对于上述第一条查询和第二条查询，逐一考虑其中涉及的经过加权的基本模式(11’)-(14’)和(21’)-(23’)，通过将相同的基本模式的权重因子累加，可以获得各个基本模式的出现频率。具体地，<？stype？o>频率为1/11，<？sauthor？o>频率为2，<？sworkAt？o>频率为1，<？sname？o>频率为1/4，<？ssupervise？o>频率为1。

在一个实施例中，对于多个查询，首先统计查询的出现频率，然后基于查询的出现频率统计查询中涉及的基本模式的出现频率。例如，在一个具体例子中，获取了一个查询集合Q，该集合Q包含多个不同的查询，即Q＝{q₁，q₂，...，q_m}。假定某一查询q_i的出现频率为f(q_i)。对于每次出现的查询q_i，如上所述地确定其对应的某个基本模式p和相应的权重那么，查询q_i所涉及的基本模式p的出现频率可以表示为对于以上的集合Q，基本模式p的出现频率f(p)可以表示为：这里Q’表示所有涉及基本模式p的查询的集合。

由此，可以确定各个基本模式的出现频率。

基于以上统计的出现频率，在步骤204中，选择至少一个基本模式，并且在步骤205中，将所述至少一个基本模式所对应的RDF三元组预存储到缓存区。一般来说，上述所选择的基本模式是出现频率较高的基本模式。由于这些基本模式在查询请求中出现的频率较高，因此认为，其对应的RDF三元组在RDF数据库中被访问的频率也较高，将这些三元组预存储到缓存区中将会有利于查询速度的提高。

在一个例子中，将获得的每个基本模式的出现频率进行排序，简单地选择其中出现频率最高的若干基本模式。将所选择的基本模式所对应的RDF三元组预存储到缓存区中。

在一些实施例中，还综合考虑缓存区的大小限制以及缓存区的利用率。也就是说，希望选择出现频率较高的基本模式所对应的三元组，使得这些三元组的总的大小不超过缓存区的大小，同时使得缓存区的缓存收益最大化。缓存收益最大化可以体现为，缓存区中存储的三元组尽可能多，这些三元组被访问的频率尽可能高，等等。

这一目标可以一般化为数学上受约束的优化问题。令缓存区的大小为M，基本模式p_i所对应的RDF数据库中三元组的大小为size(p_i)，a_i为基本模式p_i的选择因子，也就是，a_i等于0或1，那么对于n个基本模式，需要满足的约束为：

Σ_{i = 1}^{n} a_{i} \times size (p_{i}) \leq M - - - (iii)

同时，将收益函数定义为由此，上述问题可以表示为，如何确定a_i的值，使得在满足约束(iii)的情况下，同时使得收益函数B最大化。

解决以上优化问题的一种常用的方法是，首先将基本模式按照出现频率从高到低的顺序排列成一个队列。对于队列中出现频率最高的一个基本模式，假定其选择因子为1，判断约束(iii)是否满足。如果满足，则将该选择因子设定为1，也就是选择该基本模式，并继续判断队列中下一基本模式。如果对于队列中某一特定基本模式，约束(iii)不能得到满足，则跳过该特定基本模式，也就是将其选择因子设为0，继续判断队列中下一基本模式，直到检查完整个队列。

对于上述受约束的优化问题，现有技术中已经提出了多种方案来获得优化的解，此处不再进行详细描述。可以理解，本领域技术人员能够根据需要采用适当的方案来选择基本模式，使得缓存区的缓存受益得到优化。

如上所述，通过确定SPARQL查询中涉及的各个基本模式的出现频率，并依据基本模式的出现频率而将一部分基本模式对应的三元组预存储到缓存区中，使得RDF数据库中频繁存取的数据得到预先提取。进而，在进行后续的数据查询时，有极大的概率直接从缓存区中读取数据，节省了IO成本，从而提高了RDF三元组数据查询的效率。

基于同一发明构思，本发明的实施例还提供了预存储RDF三元数据的装置。有利地，希望该装置最大程度地基于如图1所示的现有的RDF数据存储和查询系统，尽量少地改动现有系统的架构。因此，本发明的实施例提出，在现有的RDF数据存储和查询系统中添加一个预存储装置，用于分析和选择访问频率较高的三元组，并将其预存储到缓存区中。

具体地，图4示出根据本发明一个实施例的包含预存储装置的RDF数据存储和查询系统。与图1的系统相比较，图4的系统附加地包含了预存储装置500，该预存储装置500与数据库101通信，以将频繁查询的三元组预存储到缓存区1011中。可选地，预存储装置500还与数据加载器102和/或查询引擎104连接，以获取与数据的存储和查询相关的信息。

图5示出根据本发明一个实施例的预存储装置的结构框图。如图所示，预存储装置500包括查询获取单元501，配置为获取对RDF三元组的查询请求，所述查询请求包括至少一个三元模式；模式分析单元502，配置为对于所获取的至少一个三元模式中的每一个，确定其对应的基本模式，并相对于所述对应的基本模式进行加权；频率统计单元503，配置为基于加权的基本模式，统计每个基本模式的出现频率；数据预存储单元505，配置为至少根据所述出现频率，选择至少一个基本模式，并且为将所选择的至少一个基本模式所对应的RDF三元组预存储到缓存区。

具体地，查询获取单元501获取对RDF数据的查询请求。在一个例子中，查询获取单元501连接到查询引擎104，以实时地从中获取查询请求。在另一实例中，查询获取单元501从系统的日志中读取查询记录。可选地，可以一次获取多个查询请求，即查询的集合。对于针对RDF数据的SPARQL查询，每个查询包含至少一个三元模式。查询获取单元501将获取的查询以及其中的三元模式发送给模式分析单元502。

模式分析单元502中对于接收的三元模式进行分析和转换。首先，对于每个三元模式，模式分析单元502确定其对应的基本模式，也就是，确定与该三元模式的谓词相同的基本模式<？s:p？o>。

在确定了每个三元模式对应的基本模式之后，模式分析单元502将三元模式相对于对应的基本模式进行出现次数的加权，转化为加权的基本模式。

在一个例子中，模式分析单元502简单地将非基本模式相对于基本模式的权重设定为固定值，例如0.5。而在某些实施方式中，模式分析单元502还连接到数据库101和/或数据加载器102，以参考RDF数据库中的统计信息来对各三元模式进行加权。

具体地，在一个例子中，模式分析单元502根据公式w(p，o)＝Num(p，o)/FACT(p)计算三元模式<？s:p:o>的权重，根据公式w(s，p)＝Num(s，p)/FACT(p)计算三元模式<:s:p？o>的权重，其中Num(p，o)表示RDF数据库中，谓词为p，客体为o的不同三元组的数目；Num(s，p)为RDF数据库中，谓词为p，主体为s的不同三元组的数目；FACT(p)表示所有谓词为p的不同三元组的数目。对于基本模式<？s:p？o>，模式分析单元502将其权重设定为1。

在其他实施例中，模式分析单元502还考虑RDF数据库的更多统计信息。在一个示例中，模式分析单元502考虑RDF数据库中三元组数据的Domain统计和Range统计。具体地，模式分析单元502基于以下的公式(i)计算三元模式<？s:p:o>的权重w(p，o)，基于公式(ii)计算三元模式<:s:p？o>的权重：

w (p, o) = \frac{MIN (DOM (p), DOM (o))}{FACT (p)} - - - (i)

w (s, p) = \frac{MIN (RNG (s), RNG (p))}{FACT (p)} - - - (ii)

其中函数DOM(p)表示在RDF数据库中谓词为p(客体为任意值)的不同主体s的数目；DOM(o)表示数据库中客体为o(谓词为任意值)的不同主体s的数目；函数RNG(s)表示在RDF数据库中主体为s(谓词为任意值)的不同客体o的数目；RNG(p)表示数据库中谓词为p(主体为任意值)的不同客体o的数目。函数FACT(p)的定义与上一示例相同。类似地，对于基本模式<？s:p？o>，将其权重设定为1。

尽管以上示例了模式分析单元502可以采用的若干具体的统计和加权的方法，但是显然，本领域技术人员能够选择性地采用其他具体方法，使得权重从一定方面、在一定程度上反映出三元模式对数据库中三元组的访问频率的影响。

在通过模式分析单元502对查询请求中的三元模式进行加权和转化之后，频率统计单元503基于加权的基本模式，统计每个基本模式的出现频率。

在一个示例中，频率统计单元503逐一考虑每个查询中涉及的经过加权的基本模式，通过将相同的基本模式的权重因子累加，获得各个基本模式的出现频率。

在一个实施例中，在查询获取单元501获取多个查询时，首先统计查询的出现频率。由此，频率统计单元503可以基于查询的出现频率统计查询中涉及的基本模式的出现频率。

之后，频率统计单元503将统计得到的各个基本模式的出现频率传送给数据预存储单元505。数据预存储单元505基于获取的出现频率，选择至少一个基本模式，并将所选择的至少一个基本模式所对应的RDF三元组预存储到缓存区。

在一个例子中，数据预存储单元505将获得的每个基本模式的出现频率进行排序，简单地选择其中出现频率最高的若干基本模式。之后，数据预存储单元505将所选择的基本模式所对应的RDF三元组预存储到缓存区中。

在一些实施例中，数据预存储单元505还综合考虑缓存区的大小限制以及缓存区的利用率。也就是说，数据预存储单元505对基本模式进行选择，使得将要预存储的三元组的总的大小不超过缓存区的大小，同时优化缓存区的缓存收益。缓存收益的优化可以体现为，缓存区中存储的三元组尽可能多，这些三元组被访问的频率尽可能高，等等。

为了实现以上的优化目标，在一个实施例中，数据预存储单元505首先将基本模式按照出现频率从高到低的顺序排列成一个队列。对于队列中出现频率最高的一个基本模式，判断在选择该基本模式的情况下，缓存区大小的约束能否得到满足。如果满足，确定选择该基本模式，并继续判断队列中下一基本模式。如果对于队列中某一特定基本模式，缓存区大小的约束不能得到满足，则跳过该基本模式，继续判断队列中下一基本模式，直到检查完整个队列。

对于上述受约束的优化问题，现有技术中已经提出了多种方案来获得优化的解。数据预存储单元505可以采用其他适当的方案来选择基本模式，使得缓存区的缓存受益得到优化。

由此，预存储装置500能够确定SPARQL查询中涉及的各个基本模式的出现频率，并依据基本模式的出现频率而将一部分基本模式对应的三元组预存储到缓存区101中，使得RDF数据库中频繁存取的数据得到预先提取，从而提高后续的查询效率。更为具体的描述和示例与上述对预存储方法的描述一致，在此不再赘述。

本领域技术人员可以理解，上述预存储RDF三元数据的方法和装置可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本实施例的装置及其单元可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合实现。用于执行本发明的操作的软件和程序代码，可以用一种或多种程序设计语言的组合来编写，包括但不限于，面向对象的程序设计语言，诸如Java，Smalltalk，C++之类，以及常规的过程式程序设计语言，诸如C程序设计语言或类似的程序设计语言。程序代码可以本地地或远程地在计算机上执行，以完成设定的操作。

虽然以上结合具体实施例，对本发明的预存储RDF三元数据的方法和装置进行了详细描述，但本发明并不限于此。本领域普通技术人员能够在说明书教导之下对本发明进行多种变换、替换和修改而不偏离本发明的精神和范围。应该理解，所有这样的变化、替换、修改仍然落入本发明的保护范围之内。本发明的保护范围由所附权利要求来限定。

Claims

1.一种处理RDF三元组的方法，所述方法包括：

获取对RDF三元组的查询请求，所述查询请求包括至少一个三元模式，其中所述三元模式表示为<主体，谓词，客体>的形式，并且其中至少一个元素为变量；

将所述至少一个三元模式的出现次数转化为基本模式的出现次数的加权，其中所述基本模式也表示为<主体，谓词，客体>的形式，并且对所述三元模式的查询结果是对所述基本模式的查询结果的子集；

基于基本模式的出现次数的加权，统计所述基本模式的出现频率；以及

在所述基本模式的出现频率满足预先设定的条件时将所述基本模式所对应的RDF三元组预存储到缓存区。

2.根据权利要求1的方法，其中获取对RDF三元组的查询请求包括，从查询日志中读取查询请求的记录。

3.根据权利要求1的方法，其中所述基本模式具有<？s：p？o>的形式。

4.根据权利要求1的方法，其中将所述至少一个三元模式的出现次数转化为基本模式的出现次数的加权包括，将预先选定的三元模式相对于基本模式的权重设定为常量。

5.根据权利要求1的方法，其中将所述至少一个三元模式的出现次数转化为基本模式的出现次数的加权包括，参考RDF三元组数据存储系统中的统计信息来确定所述至少一个三元模式相对于基本模式的权重。

6.根据权利要求5的方法，其中将所述至少一个三元模式的出现次数转化为基本模式的出现次数的加权包括，

将<？s：p：o>形式的三元模式相对于<？s：p？o>形式的基本模式的权重w(p，o)设定为：w(p，o)＝Num(p，o)/FACT(p)，

将<：s：p？o>形式的三元模式相对于<？s：p？o>形式的基本模式的权重w(s，p)设定为：w(s，p)＝Num(s，p)/FACT(p)，

其中Num(p，o)表示所述RDF三元组数据存储系统中谓词为p，客体为o的不同三元组的数目，Num(s，p)表示其中谓词为p，主体为s的不同三元组的数目，FACT(p)表示其中谓词为p的不同三元组的数目。

7.根据权利要求5的方法，其中将所述至少一个三元模式的出现次数转化为基本模式的出现次数的加权包括，

将<？s：p：o>形式的三元模式相对于<？s：p？o>形式的基本模式的权重w(p，o)设定为：

w (p, o) = \frac{M I N (D O M (p), D O M (o))}{F A C T (p)}

将<：s：p？o>形式的三元模式相对于<？s：p？o>形式的基本模式的权重w(s，p)设定为：

w (s, p) = \frac{M I N (R N G (s), R N G (p))}{F A C T (p)}

其中DOM(p)表示在所述RDF三元组数据存储系统中谓词为p的不同主体的数目；DOM(o)表示其中客体为o的不同主体的数目；RNG(s)表示其中主体为s的不同客体的数目；RNG(p)表示其中谓词为p的不同客体的数目；以及FACT(p)表示其中谓词为p的不同三元组的数目。

8.根据权利要求1-7中任意一项的方法，其中统计所述基本模式的出现频率包括，将相同的基本模式的权重累加作为所述基本模式的出现频率。

9.根据权利要求1-7中任意一项的方法，其中统计所述基本模式的出现频率包括，基于所述查询请求的出现频率统计所述查询请求中包括三元模式所对应的基本模式的出现频率。

10.一种处理RDF三元组的装置，所述装置包括：

查询获取单元，配置为获取对RDF三元组的查询请求，所述查询请求包括至少一个三元模式，其中所述三元模式表示为<主体，谓词，客体>的形式，并且其中至少一个元素为变量；

模式分析单元，配置为将所述至少一个三元模式的出现次数转化为基本模式的出现次数的加权，其中所述基本模式也表示为<主体，谓词，客体>的形式，并且对所述三元模式的查询结果是对所述基本模式的查询结果的子集；

频率统计单元，配置为基于基本模式的出现次数的加权，统计所述基本模式的出现频率；以及

数据预存储单元，配置为在所述基本模式的出现频率满足预先设定的条件时将所述基本模式所对应的RDF三元组预存储到缓存区。

11.根据权利要求10的装置，其中所述查询获取单元配置为从查询日志中读取查询请求的记录。

12.根据权利要求10的装置，其中所述基本模式具有<？s：p？o>的形式。

13.根据权利要求10的装置，其中所述模式分析单元配置为，将预先选定的三元模式相对于基本模式的权重设定为常量。

14.根据权利要求10的装置，其中所述模式分析单元配置为，参考RDF三元组数据存储系统中的统计信息来对确定所述至少一个三元模式相对于基本模式的权重。

15.根据权利要求14的装置，其中所述模式分析单元配置为，

16.根据权利要求14的装置，其中所述模式分析单元配置为，

w (p, o) = \frac{M I N (D O M (p), D O M (o))}{F A C T (p)}

w (s, p) = \frac{M I N (R N G (s), R N G (p))}{F A C T (p)}

17.根据权利要求10-16中任意一项的装置，其中所述频率统计单元配置为，将相同的基本模式的权重累加作为所述基本模式的出现频率。

18.根据权利要求10-16中任意一项的装置，其中所述频率统计单元配置为，基于所述查询请求的出现频率统计所述查询请求中包括的三元模式所对应的基本模式的出现频率。