CN110909111A

CN110909111A - 基于知识图谱rdf数据特征的分布式存储与索引方法

Info

Publication number: CN110909111A
Application number: CN201910982253.6A
Authority: CN
Inventors: 王鑫; 徐炜淇
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-10-16
Filing date: 2019-10-16
Publication date: 2020-03-24
Anticipated expiration: 2039-10-16
Also published as: CN110909111B

Abstract

本发明涉及分布式图存储领域，为解决单机存储的容量小、维护代价高、执行效率低等问题，提升多种类型查询的执行效率。本发明，基于知识图谱RDF数据特征的分布式存储与索引方法，步骤如下：对于存储数据进行处理，统计数据信息以及挖掘数据集中的关联信息；通过步骤1)中的数据信息，在三元组类之间构建有效实体聚集索引；基于统计信息对每个实体类进行本体划分处理，增加实体类所包含谓语聚合度，建立谓语指向索引；对数据集进行连接操作，保存连接特指类，以提高出现频率极高的星型查询效率；基于前述步骤将数据集划分级别，保证数据按照定义级别降序存放；对于输入查询，引入查询优化。本发明主要应用于分布式图存储场合。

Description

基于知识图谱RDF数据特征的分布式存储与索引方法

技术领域

本发明涉及分布式图存储领域，具体来说，涉及面向大规模RDF知识图谱的存储领域。

背景技术

RDF(Resource Description Framework)，资源描述框架，一种用于描述Web资源的标记语言，也可以说是语义Web中表示和交换机器可理解信息的标准数据模型。RDF用主语、谓词、宾语的三元组来描述一个数据的元数据，即为(s,p,o)，其中s是主语subject，p是谓语predicate，o是宾语object。RDF数据因为有简单、开放性和扩展性等特点，被诸多领域所使用，并随着网络的流行，使得RDF数据规模的不断增加，关于RDF数据高效的存储和查询已成为现在研究的热点。RDF图为RDF数据最直观的表现形式。

知识图谱是人工智能中的重要的一部分，同时也是符号主义发展的最新成果。它的本质上是基于图的语义网络，表示实体和实体之间的关系。为了更好的管理知识图谱，语义Web领域推出存储RDF数据库的三元组库。

目前已有的涉及分布式存储与索引的方案包括如下：

Julian Dolby等人提出了一种名为DB2RDF的存储模式。首先采用图着色技术对数据进行处理，将处理后的数据存储到所定义的DHP(Direct Primary Hash，主哈希)表以及对应的RPH(Reverse Primary Hash，反转主哈希)表。在DPH表中数据未溢出的情况下，每行存放一个主语Subject对应的所有信息，即谓语1、宾语1，...，谓语n、宾语n。针对存在同一谓语对应多宾语的情况，引入了DS(Direct Secondary Hash，二级哈希)表，以及相对应的RS(Reverse Second Hash，反转二级哈希)表。此存储模式在提高了行维度和列维度的灵活性的同时，添加了SPARQL查询优化的操作，优化了查询的性能。

Alexander

等人定义了一种名为ExtVP的存储思想。将RDF数据垂直划分到VP(垂直划分)表，针对数据集中存在的S-S(Subject-Subject，主语-主语)连接，S-O(Subject-Object，主语-宾语)连接以及O-S(Object-Subject，宾语-主语)连接，将连接结果存放到ExtVP(扩展垂直划分)表中。引入SF(selectivity factor，选择因子)的定义，在查询时采取连接、重排序的操作，使得SF值最优(最小)。此方案对数据库容量有一定的要求。

Thomas Neumann等人提出Characteristic Set的一种思想，是针对星型查询的高精度的基数预估方法，提高存在关系的三元组之间的关联度。引入特征集SC(Characteristic Set，特征集)的概念，对于低频出现的特征集做分解或合并的操作。有效地解决连接问题，对查询计划产生积极的影响。

Adina Crainiceanu等人编写了名为Apache Rya的RDF数据管理系统，底层数据库为基于Bigtable的Key-Value(键值对)设计的列存储数据库Apache Accumulo，该系统的存储方案为将数据分别存放至SPO(Subject Predicate Object，主语谓语宾语)表，POS(Predicate Object Subject，谓语宾语主语)表，OSP(Object Subject Predicate，宾语主语谓语)表，有效使用Apache Accumulo中Row ID(键)，使用了范围扫描、语义统计、并行连接、时间限制的方法，增加数据检索的速度，提高系统的数据处理能力。

其它的存储方案，有适应于Web服务器的RDF关联数据的分布式存储方案LD-Store；有针对原生XML数据库的存储方案XN-Store；有基于内存的存储技术，支持存储和查询RDF、RDFS的通用架构Sesame；基于文件系统的存储技术，有为RDF语句提供了可伸缩的、事务安全的存储基础设施，并用于分析表达性查询的Kowari和SystemⅡ。另外比较典型的存储方案是六重索引，其策略为经典地“用空间的代价换取时间的缩短”，将三元组全排序，6种方式对应于6张存储表，此方案以RDF-3X为代表，优点是减缓了单张表自连接的问题，提高了部分知识图谱查询的效率。但是需要花费6倍的存储空间开销、索引维护等代价。

根据调研，单机版数据存储在稳定性、可靠性、技术支持等方面有很大的优势，而且认知度高，易学习。但是随着数据程指数级增长，分布式数据数据的优势便体现出来：首先，分布式数据存储扩展性高，突破了单机存储容量的限制，增大了存储规模。其次，分布式数据存储易于管理和控制，降低了系统维护的代价；分布式数据存储，有利于增加线性执行，从而提升了数据操作的效率。

目前相关分布式的存储与索引方案大多为单方面地通过巨大地存储开销提升综合效率，或只是针对提升某一特定查询类型设计，没有提升全部查询类型的查询效率。在此我们提出了一种在空间消耗适中的基础上，不仅适用于星型查询，也同样适用于链式查询，同时对雪花型和复杂型查询均有一定加速效果的基于知识图谱RDF数据特征的分布式存储与索引方案。

发明内容

为克服现有技术的不足，本发明旨在解决单机存储的容量小、维护代价高、执行效率低等问题，充分发挥分布式存储容量大、易维护、可增加线性执行提升机器性能等优势，在保证存储开销适中的情况下，通过数据挖掘、索引构建等策略，提升多种类型查询的执行效率。为此，本发明采取的技术方案是，基于知识图谱RDF数据特征的分布式存储与索引方法，步骤如下：

1)对于存储数据进行处理，统计数据信息以及挖掘数据集中的关联信息；

2)通过步骤1)中的数据信息，在三元组类之间构建有效实体聚集索引；

3)基于统计信息对每个实体类进行本体划分处理，增加实体类所包含谓语聚合度，建立谓语指向索引；

4)对数据集进行连接操作，保存连接特指类，以提高出现频率极高的星型查询效率；

5)基于前述步骤将数据集划分级别，保证数据按照定义级别降序存放；

6)对于输入查询，引入查询优化。

上述的步骤1)中，得到RDF三元组的有穷集合RDF图G，用|G|表示G中RDF三元组的个数；遍历数据集得到实体类C(Sn)，挖掘实体类之间存在的连接关系，统计实体类中所包含的谓语Pn。其中Sn为第n个三元组的主语，Pn为其谓语，On为宾语，|Sn|是包含主语Sn三元组的数量；Sub(G)表示G中主语的集合，Pred(G)表示G中谓语的集合，Obj(G)表示G中宾语的集合，C(Sn)表示主语S所属的主语类。

上述步骤2)使用步骤1)中提取信息，在减小索引开销的基础上，通过

2.1统计实体连接信息生成数据集关系有向图；

2.2基于数据集关系有向图构建一条最长路径R；

2.3基于边的权重和指向，向路径R中添加有向边和点；

2.4重复步骤2.3，直至没有剩余边或点；

2.5以完整路径R为基准构建实体聚集索引；

构建一条覆盖全部连接信息的索引，即使得包含不同实体类的三元组之间保持最优的连接关系。

上述步骤3)中本体划分是对实体类中的谓语进行操作处理，在步骤1)中使实体类程有序状态的基础上，对实体类内部谓语进行操作，划分谓语为谓语特指类C(P_Sn)和谓语公共类C(P_S)，谓语特指类C(P_Sn)即仅修饰以Sn为主语的实体的谓语集合，谓语公共类C(P_S)即同时可修饰不同主语类实体的谓语，为了体现实体类及其内部数据的有序状态，引入级别的定义L[Pn]，提取步骤1)中的谓语建立谓语索引，指向所包含此谓语的实体类，步骤2)和3)确保数据集整体呈现有序状态。

上述步骤4)是针对查询出现频极高的星型查询所设计，对数据集进行S-S连接操作，去除连接公共类JOIN(P_S)，仅保留连接特指类JOIN(P_Sn)，同时使用级别的定义。

上述步骤5)是对步骤1)至4)做的整合，将数据集处理、分类、赋级后呈其有序状态后，存入数据库。

上述步骤6)是在基于步骤5)使数据集呈有序状态的基础上，使用统计信息，对输入的查询做优化处理，通过索引缩短遍历范围，增加查询指向性，并使查询执行与数据集有序存放的状态相适应，达到提高查询效率的目的。

本发明的特点及有益效果是：

本发明对分布式存储索引和RDF知识图谱管理进行了研究，报告了目前流行的RDF知识图谱的分布式存储与索引现状，提出了一种基于知识图谱RDF数据特征的分布式存储与索引方案。通过隐式关系挖掘构建索引、本体划分、连接分类处理和查询优化等方法统计并挖掘数据之间的关系，加强数据的关联度，以此为基础建立索引结构，缩短数据检索的范围，同时在数据库内部使得存储数据合理存放，从而提高RDF数据管理系统的综合性能的目的。在分布式系统上，以合成数据LUBM数据、合成数据集WatDiv数据、真实数据集DBpedia数据为测试数据集进行试验验证，证明此方案的真实可行性，能够加快数据查询进程。

附图说明：

图1是本发明大规模RDF知识图谱的分布式存储与索引基本方案的系统架构图。

图2是基本方案的整体流程图。

图3是本发明中实体类聚集索引构建的流程图。

图4是本发明中本体划分处理的流程图。

图5是本发明中分类连接处理的流程图。

图6是本发明中查询优化的流程图。

图7是本发明中测试实验所用的数据集。

图8是本发明中在合成数据集LUBM上进行对比实验的不同查询所得的时间对比图。

图9是本发明中在合成数据集WatDiv上进行对比实验的不同查询所得的时间对比图。

图10是本发明中在真实数据集DBpedia上进行对比实验的不同查询所得的时间对比图。

具体实施方式

本发明采用的基本技术方案是：

7)对于存储数据进行处理，统计数据信息以及挖掘数据集中的关联信息；

8)通过步骤1)中的数据信息，在三元组类之间构建有效实体聚集索引；

9)基于统计信息对每个实体类进行本体划分处理，增加实体类所包含谓语聚合度，建立谓语指向索引；

10)对数据集进行S-S连接操作，保存连接特指类，以提高出现频率极高的星型查询效率；

11)基于前述步骤将数据集划分级别，保证数据按照定义级别降序存放；

12)对于输入查询，引入查询优化，以对应上述步骤；

上述的步骤1)中，得到RDF三元组的有穷集合RDF图G，用|G|表示G中RDF三元组的个数；遍历数据集得到实体类C(Sn)，挖掘实体类之间存在的连接关系，统计实体类中所包含的谓语Pn。其中Sn为第n个三元组的主语，Pn为其谓语，On为宾语，|Sn|是包含主语Sn三元组的数量；Sub(G)表示G中主语的集合，Pred(G)表示G中谓语的集合，Obj(G)表示G中宾语的集合，C(Sn)表示主语S所属的主语类，如以“User1”“User2”为主语的三元组属于实体类C(User)。

2.1统计实体连接信息生成数据集关系有向图

2.2基于数据集关系有向图构建一条最长路径R

2.3基于边的权重和指向，向路径R中添加有向边和点

2.4重复步骤2.3，直至没有剩余边或点

2.5以完整路径R为基准构建实体聚集索引

构建一条覆盖全部连接信息的索引，即使得包含不同实体类的三元组之间保持最优的连接关系。步骤2)有利于提升链式查询的效率。

上述步骤3)中本体划分是对实体类中的谓语进行操作处理，在步骤1)中使实体类程有序状态的基础上，对实体类内部谓语进行操作，划分谓语为谓语特指类C(P_Sn)和谓语公共类C(P_S)。谓语特指类C(P_Sn)即仅修饰以Sn为主语的实体的谓语集合，谓语公共类C(P_S)即同时可修饰不同主语类实体的谓语。为了体现实体类及其内部数据的有序状态，引入级别的定义L[Pn]。提取步骤1)中的谓语建立谓语索引，指向所包含此谓语的实体类。步骤2)和3)确保数据集整体呈现有序状态。

下面结合附图对本发明作进一步详细说明。

本发明基于知识图谱RDF数据特征的分布式存储与索引方案的整体流程分为两步：(1)数据存储与索引构建；(2)查询优化。方案架构如图1所示，方案流程图如图2所示，查询优化的基本流程如图6所示。

参照图3，为遍历数据集、挖掘实体类之间的连接关系构建实体索引的算法。设U为HTTPURI的集合，L为字面值的集合.RDF三元组是形如

<s,p,o>∈U×U×U∪L

的三元组，其中s称为主语，p称为谓语，o称为宾语，主语、谓语和宾语统称为RDF项。RDF图G是RDF三元组的有穷集合.用|G|表示G中RDF三元组的个数.Sn为第n个三元组的主语，Pn为其谓语，On为宾语，|Sn|是包含主语Sn三元组的数量；Sub(G)表示G中主语的集合，Pred(G)表示G中谓语的集合，Obj(G)表示G中宾语的集合。C(Sn)表示主语Sn所属的实体类，如以“User1”“User2”为主语的三元组同属于实体类C(User)。

算法1.基于挖掘连接关系构建实体索引.

input：RDF三元组数据集.

output：实体类索引Index_Entity.

参见图4，本发明中基本方案中，本体划分需引进定义C(P_Sn)为实体用C(Sn)所代指的谓语特指类，它表示修饰主语Sn的谓语集合，C(P_S)表示公共类谓语；L[Pn]表示谓语Pn的级别，以此类推。

算法具体步骤如下：

算法2.本体划分处理.

input：有序RDF三元组RDF_S.

output：本体划分后的RDF三元组数据集New_RDF.

参见图5，图5为连接分类处理的流程图，在此引进定义Tn∈G为G中第n条三元组；JOIN(P_Sn)为实体类C(P_Sn)谓语连接组合特指类，它表示修饰Sn的谓语的连接组合；Pij_J(Sn)是连接组合特指类中的谓语为Pi和Pj且两者共同修饰实体C(P_Sn)的一种组合；|JOIN(S)|为公共类数量；L[JOIN(P_S)]表示公共类级别，以此类推。

图5所对应算法如算法3所示。

算法3.连接分类处理.

input：RDF三元组数据集.

output：连接分类预处理后的RDF三元组数据集JOIN_RDF.

以上为数据存储和索引部分。为进一步提升以不同三元组部分为查询关键词的多泪查询，我们将在数据库中建立SPO表和POS表(OSP表因为实际使用率太低所以无需建立)，表中的存放次序分别为主语S，谓语P，宾语O和谓语P，宾语O，主语S。SPO表对应？S？P ？O，S P？O，S ？P O类的查询，存储以及查询关键字以主语S为主，查询进行时根据主语S类推到谓语P，宾语O。POS表对应？S P ？O，？S P O类的查询，存储以及查询关键字以谓语P为主，根据谓语P类推到宾语O，主语S。将处理后的数据集分别存放至两表中。

上述图6为查询优化流程图，与上述图2构成本发明的总体方案。设SPARQL_line(n)表示SPARQL查询中第n条查询语句，Pij_line(Sn)表示谓语为Pi和Pj的且目标主语为Sn优化连接组合后的查询语句；L[n]表示第n条查询的查询级别；SC(n)表示n条查询所属的查询类别，L[SC(l)]表示查询类别的级别；O_line(n)表示第n条查询中存在的宾语实体；|P_line(n)|表示第n条查询出现的谓语P对应三元组的数量，以此类推。

算法4.查询优化算法.

input：SPARQL_line(n)

output：最优执行顺序new_SPARQL_line(n)

在算法4中索引匹配对应的算法为算法5。

算法5.索引匹配.

input：查询语句SPARQLs

output：基于索引匹配后的检索范围

对于查询优化，首先提取查询中出现的关键词，将此指向谓语索引，得到所包含的实体类。再通过实体类索引得所属数据库分段，以此作为检索范围。随后，基于预定义的级别确定查询的执行顺序。查询优化的目的是为了与数据处理相对应，匹配数据库中数据呈有序存放的状态，确保顺序遍历且缩小遍历范围的基础上得到查询结果。

对于本发明实验所用的数据集和查询，如图7所示。本发明在分布式系统下，基于合成数据集LUBM，自定义生成的合成数据集WatDiv以及真实数据集DBpedia测试。

下面简要介绍图7、图8、图9和图10中的实验环境。本实验平台使用的是腾讯云集群，包括8个节点，每个节点安装的是四核处理器，64位的CentOS 7.3 Linux操作系统，其内存大小为16G。节点间通信使用1000Mbps以太网。实验平台所用集群的所有节点均使用Hadoop 2.7.3，Spark 2.1.0。实验实现的系统为Apache Rya，版本号为2.0，与Rya相对应的配置：Apache Accumulo 1.9.2，Zookeeper 3.4.12。

参见图8，本发明在LUBM数据集LUBM10，LUBM100进行了查询处理实验。查询测试的标准为LUBM标准查询集。

参见图9，本发明在不同规模的合成数据集WatDiv10，WatDiv100上进行了查询实验。查询测试标准为WatDiv标准查询集。

参见图10，本发明在真实数据集DBpdedia上进行了查询实验。其中，查询1-3为链式查询，查询4-6为星型查询，查询7-8为雪花型查询，查询9-10为复杂型查询。

Claims

1.一种基于知识图谱RDF数据特征的分布式存储与索引方法，其特征是，步骤如下：

6)对于输入查询，引入查询优化。

2.如权利要求1所述的基于知识图谱RDF数据特征的分布式存储与索引方法，其特征是，上述的步骤1)中，得到RDF三元组的有穷集合RDF图G，用|G|表示G中RDF三元组的个数；遍历数据集得到实体类C(Sn)，挖掘实体类之间存在的连接关系，统计实体类中所包含的谓语Pn。其中Sn为第n个三元组的主语，Pn为其谓语，On为宾语，|Sn|是包含主语Sn三元组的数量；Sub(G)表示G中主语的集合，Pred(G)表示G中谓语的集合，Obj(G)表示G中宾语的集合，C(Sn)表示主语S所属的主语类。

3.如权利要求1所述的基于知识图谱RDF数据特征的分布式存储与索引方法，其特征是，上述步骤2)使用步骤1)中提取信息，在减小索引开销的基础上，通过

2.1统计实体连接信息生成数据集关系有向图；

2.2基于数据集关系有向图构建一条最长路径R；

2.3基于边的权重和指向，向路径R中添加有向边和点；

2.4重复步骤2.3，直至没有剩余边或点；

2.5以完整路径R为基准构建实体聚集索引；

4.如权利要求1所述的基于知识图谱RDF数据特征的分布式存储与索引方法，其特征是，上述步骤3)中本体划分是对实体类中的谓语进行操作处理，在步骤1)中使实体类程有序状态的基础上，对实体类内部谓语进行操作，划分谓语为谓语特指类C(P_Sn)和谓语公共类C(P_S)，谓语特指类C(P_Sn)即仅修饰以Sn为主语的实体的谓语集合，谓语公共类C(P_S)即同时可修饰不同主语类实体的谓语，为了体现实体类及其内部数据的有序状态，引入级别的定义L[Pn]，提取步骤1)中的谓语建立谓语索引，指向所包含此谓语的实体类，步骤2)和3)确保数据集整体呈现有序状态。

5.如权利要求1所述的基于知识图谱RDF数据特征的分布式存储与索引方法，其特征是，上述步骤4)是针对查询出现频极高的星型查询所设计，对数据集进行S-S连接操作，去除连接公共类JOIN(P_S)，仅保留连接特指类JOIN(P_Sn)，同时使用级别的定义。

6.如权利要求1所述的基于知识图谱RDF数据特征的分布式存储与索引方法，其特征是，上述步骤5)是对步骤1)至4)做的整合，将数据集处理、分类、赋级后呈其有序状态后，存入数据库。

7.如权利要求1所述的基于知识图谱RDF数据特征的分布式存储与索引方法，其特征是，上述步骤6)是在基于步骤5)使数据集呈有序状态的基础上，使用统计信息，对输入的查询做优化处理，通过索引缩短遍历范围，增加查询指向性，并使查询执行与数据集有序存放的状态相适应，达到提高查询效率的目的。