CN104298598A

CN104298598A - 分布式环境下rdfs本体的调试方法

Info

Publication number: CN104298598A
Application number: CN201410544602.3A
Authority: CN
Inventors: 吴刚; 王国仁; 刘洪伟; 王永选; 张舒; 李慧琴; 李梁; 林克青; 江泽源; 李洋; 刘嘉; 马云飞; 王显宇; 马海龙; 孔娜
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2014-10-01
Filing date: 2014-10-01
Publication date: 2015-01-21
Anticipated expiration: 2034-10-01
Also published as: CN104298598B

Abstract

本发明公开了一种分布式环境下RDFS本体的调试方法，本发明首先运用字典编码技术对RDFS本体数据进行压缩处理，降低了数据的存储空间，同时加快了本体推理及调试的速度；之后实现了基于并行分布式计算框架Spark的RDFS本体推理算法，并将推理后的本体调试信息压缩后，存储在HBase分布式数据库中，为本体调试阶段的调试信息查询做准备；本发明实现了基于Spark框架的分布式增量存储更新算法；为了能在分布式环境下求取蕴含辩解，本发明对以往的方法进行了改进，并实现了两种蕴含辩解求取方法。

Description

分布式环境下RDFS本体的调试方法

技术领域

本发明涉及一种调试方法，具体涉及一种分布式环境下RDFS本体的调试方法。

背景技术

欧盟启动了旨在解决当前语义网上现有推理系统可伸缩性问题的Larkc(The Large Knowledge Collide)项目，参与该项目的荷兰阿姆斯特丹自由大学开发了WebPIE(Web-scale Parallel Inference Engine)系统，该系统是一个基于Hadoop框架的分布式RDFS/OWL推理引擎，采用前向推理方式预先计算推理结果，能够支持包含1千亿三元组本体上的推理。推理的计算基于RDFS和OWL推理规则，按照MapReduce编程模型设计并实现。WebPIE的开发人员最近还进一步研究了针对OWL语义采用后向推理方式的MapReduce分布式处理技术，提出了QueryPIE系统。

WebPIE等系统基于成熟的开源MapReduce框架——Hadoop，因此此类推理引擎，普遍能够处理包含十亿数量级以上三元组的大规模RDFS本体上的推理，系统具有良好的可拓展性。但研究表明，本体推理算法中涉及大量迭代型运算，MapReduce框架对数据的处理方式决定了它无法高效的执行迭代运算，从而决定了WebPIE推理效率低的特点。

发明内容

为了提高本体调试的效率，，本发明提供了一种分布式环境下RDFS本体的调试方法，采用Spark框架，与MapReduce框架中各任务之间不能复用数据不同，Spark将操作后的中间数据存放在内存中，下一个操作可以直接从内存中输入，省去了MapReduce任务间大量的磁盘I/O操作，这样大大提高了迭代运算的效率。

为实现上述目的，本发明采取的技术方案为：

分布式环境下RDFS本体的调试方法，包括如下步骤：

S1、将RDFS本体描述语言的语义规则应用到原始的RDFS本体数据(三元组集合)上，进行本体的推理和调试信息的收集，将推理过程中产生的三元组及其调试信息保存在HBase数据库中；

S2、应用字典编码技术对RDFS本体数据进行压缩；

S3、针对本体频繁更新的情况，设计调试信息存储更新算法；

S4、根据步骤S1存储在HBase中的调试信息，进行分布式RDFS本体调试，得出求取蕴含辩解的方法。

所述步骤S1是基于分布式并行计算框架Spark进行前向推理实现的。

所述步骤S4中的求取蕴含辩解的方法包括两种方法，其中一种是直接对HBase数据库进行查询，获取调试信息，求取蕴含辩解的方法；另一种是基于本体调试可以转换为图上的回溯操作的考虑，将本体数据及调试信息存储为Hama框架中的图数据结构，从而进行图回溯得到蕴含辩解的方法。

所述步骤S2中应用字典编码的具体步骤为：

S21、读取存储在HDFS文件系统中的RDFS本体数据集合(基本组成单位是三元组)，通过SparkContext的newAPIHadoopFile函数将其转换为RDD(弹性分布式数据集)对象；

S22、将步骤S21创建的RDD1对象的mapPartitionsWithIndex函数对数据进行进一步的处理

S23、调用RDD2的groupByKey函数；

S24、调用RDD3的mapPartitionsWithIndex函数；

S25、调用RDD4的groupByKey函数。

所述步骤S4中分布式RDFS本体调试的方法，包括如下步骤：

S41、从HBase中读取三元组及调试信息，将其转换为图中节点；(节点ID为三元组，值为调试信息，通过继承VertexInputReader类实现)

S42、通过回溯依赖图获取调试信息，用以更新辩解集合，直到辩解集合中只包含原始三元组时，算法结束。

所述步骤S42包括setup函数，图计算的初始化阶段；compute函数，顶点计算的主函数，对于每一个顶点，每一个超步都将重新执行此函数，函数中包括图节点间的消息传递，消息处理等操作。

本发明首先运用字典编码技术对RDFS本体数据进行压缩处理，降低了数据的存储空间同时，加快了本体推理及调试的速度；之后实现了基于并行分布式计算框架Spark的RDFS本体推理方法，并将推理后的本体调试信息压缩后，存储在HBase分布式数据库中，为本体调试阶段的调试信息查询做准备；本发明实现了基于Spark框架的分布式增量存储更新方法；为了能在分布式环境下求取蕴含辩解，本发明对以往的方法进行了改进，并实现了两种蕴含辩解求取方法：一种是直接对HBase数据库进行查询，获取调试信息，求取蕴含辩解的方法；而另一种基于本体调试可以转换为图上的回溯操作的考虑，将本体数据及调试信息存储为Hama框架中的图数据结构，从而进行图回溯得到蕴含辩解的方法。

附图说明

图1为本发明一种分布式环境下RDFS本体的调试方法中本体的推理流程图。

具体实施方式

为了使本发明的目的及优点更加清楚明白，以下结合实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例提供了一种分布式环境下RDFS本体的调试方法，包括如下步骤：

S1、将RDFS本体描述语言的语义规则应用到原始的RDFS本体数据(三元组集合)上，进行本体的推理和调试信息的收集，将推理过程中产生的三元组及其调试信息保存在HBase数据库中；如图1所示，本体的推理流程如下：第一步：执行规则5和7，规则表如表1所示，

表1简化后的RDFS规则集合

首先：flatMap函数每次从RDD中读取一条三元组数据。如果这条三元组的谓语是rdfs：subPropertyOf且宾语存在于rdfs：subPropertyOf模式集合中，那么执行规则5并输出一条键值对，其中键(key)为三元组的主语和表明应被规则5处理的标识，值为三元组的宾语。否则，三元组为普通三元组，在flatMap函数中要检查此三元组的谓语是否在rdfs：subPropertyOf模式结合中，在则执行规则7并输出一条键值对，其中键为三元组的主语、宾语和表明应被规则7处理的标识，值为三元组的谓语；

其次：调用groupByKey函数，使具有相同键值的数据聚合在一起，便于后续处理。

最后：调用flatMap函数，在flatMap函数中首先检查标识符，决定该由哪条规则处理，然后对规则5和7分别进行处理。之后进行如下操作：先遍历value参数中的第二个值，对于每一个值循环计算出它们的父属性，之后去掉原始集合中存在的值1，形成父属性集合。再次遍历value参数中的第二个值，每一个值再遍历父属性集合，经过两层遍历后，输出SPO和RSPO(其中S代表三元组的主语，P代表谓语，O代表宾语，R代表所应用的规则的标识符)。

第二步：执行规则2、3

此步执行规则2(S DOMAIN X，U S Y＝＞U rdf：type X)和规则3(P RANGEO，S P V＝＞V rdf：type O)。与上一步相似，首先：flatMap函数每次从RDD中读取一条三元组数据。如果这条三元组的谓语存在于DOMAIN或者RANGE模式集合中，那么执行规则2或者3。与上一步中用key中标识把规则分为两部分输出不同，这一步统一输出。这样做的目的是防止这两条规则得出相同的结论。为了方便理解，举例说明，假如有如下四条三元组T1、T2、T3、T4：

T1)<A，P，B>

T2)<C，P1，A>

T3)<P，DOMAIN，Thing>

T4)<P1，RANGE，Thing>

第三步：执行规则8、9、11、12、13

第三步执行下面5条RDFS规则：8(S rdf：type rdfs：subClassOf＝＞S rdfs：subClassOf rdfs：Resource)、规则9(C rdfs：subClassOf C1，V rdf：type C＝＞V rdf：type C1)、规则11(C1 rdfs：subClassOf C2，C2 rdfs：subClassOfC3＝＞C1 rdfs：subClassOf C3)、规则12(S rdf：typerdfs：ContainerMembershipProperty＝＞S rdfs：subPropertyOf rdfs：

在上面三元组上分别应用规则2和3都会得出<A，rdf：type，Thing>的结论。为了避免重复结论的得出，采用统一输出的方式。三元组的谓语存在于

DOMAIN模式集合中，输出元组中的key由主语和宾语组成。

三元组的谓语存在于RANGE模式集合中，输出元组中的key由宾语和主语组成。如此输出，在下一次的flatMap函数中将一起执行这两条规则，从而避免重复结论。由于在下一个flatMap函数中需要根据具体的推理规则对SPO和RSPO进行初始化，所以第一个flatMap的输出的value值应该包含规则的标识符。推理出的三元组集合与原始集合合并，并更新模式集合。member)、规则13(S rdf：type rdfs：Datatype＝＞S rdfs：subClassOf rdfs：Literal)。与上一步相似，首先调用flatMap函数对符合规则条件的三元组进行分发，再调用groupBy函数将符合同一规则的三元组聚合在一起，最后再次调用flatMap函数输出处理后的结果。

第四步：数据处理及存储

在上述的推理过程中可能产生本来就存在于原始数据中的蕴含(三元组)，在这种情况下，本体调试查询时只返回原始数据中的三元组即可。也就意味着，蕴含的辩解集合应该只包含自身三元组，应对辩解集合中的其他辩解信息进行清除。举例说明，假如本体数据由以下三条三元组(事实)组成：

T1)<A，rdfs：subClassOf，B>

T2)<B，rdfs：subClassOf，C>

T3)<A，rdfs：subClassOf，C>

蕴含<A，rdfs：subClassOf，C>的辩解集合包括<A，rdfs：subClassOf，C>(自身三三元组)和{<A，rdfs：subClassOf，B>，<B，rdfs：subClassOf，C>}。蕴含<A，rdfs：subClassOf，C>本就是原始本体中的三元组，把它作为其它三元组的推理结果对本体调试没有任何意义，所以应对这种情况进行处理。处理的方式就是在存储此三元组时删除其他辩解，表现在HBase表中就是key(键)为原始三元组(SPO)，值为空RSPO2，上例中把蕴含<A，rdfs：subClassOf，C>作为Hbae中Table的键，相应的值中不包含除空RSPO以外的其它RSPO。这样处理后，当用户查询时，判断值是否为空RSPO，是则直接返回原始三元组。

输入数据是triple的集合，triple由SPO和RSPO组成，在RDD(弹性分布式数据集)中SPO将作为key(键)，RSPO作为value(值)。首先调用RDD的groupByKey函数，将具有相同SPO的triple聚合在一起。再调用foreachPartition函数对聚集的triple集合进行处理。此处之所以使用foreachPartition函数，而不使用foreach函数，是因为后续处理中将有大量的HBase表插入的操作，使用foreachPartition函数是对数据块为单位进行处理的，所以能进行数据库的批量插入，进而提高插入的速度。foreachPartition函数中输入数据values格式是Iterator[(SPO，Seq[RSPO])]，第5行对values进行遍历，第6行判断RSPO集合中是否包含空RSPO，如果包含则向HBase表中插入key为SPO，value为空RSPO的一条数据。如果不包含则向HBase表中插入key为SPO，value为值的RSPO集合的一条数据。

S2、应用字典编码技术对RDFS本体数据进行压缩；所述步骤S2中应用字典编码的具体步骤为：

S23、调用RDD2的groupByKey函数；

S24、调用RDD3的mapPartitionsWithIndex函数；

S25、调用RDD4的groupByKey函数

当RDF本体数据中加入新的公理时，本体的调试信息随之也会增加。重新对更新后的本体进行完整的调试信息收集和存储的开销无疑是巨大的。因为原始公理与新增公理产生的调试信息之间没有必然联系，新增调试信息追加到之前调试信息之上即可，所以重新进行完整收集是没有必要的。

为了不重新计算原本的调试信息，为触发规则增加了一个新的条件：规则中的前置条件中的公理至少有一个存在于新增公理集合中。添加新的条件后，新产生的调试信息就不会与原来的调试信息重复，推理的数据量也明显减少。

方法中执行以下三步：

1)将新增数据加载到集合δ中，作为Spark共享变量存储在每个计算节点上。

2)执行RDFS推理算法。在执行RDFS推理算法的过程中，新增一个规则被触发的条件：规则的前置条件中的事实至少有一个存在于δ集合中。

3)把新得到的蕴含及调试信息保存在HBase表中，以便查询。

第二步中新增的规则触发条件能大大减少满足推理条件的三元组数量，减少执行groupByKey函数时的网络传输数据量，显著提高本体推理的执行速度。

举例说明，假如本体数据中只含有如下两条三元组：

T1)<A，rdfs：subClassOf，B>

T2)<B，rdfs：subClassOf，C>

进过推理后得到三元组

T3)<A，rdfs：subClassOf，C>

新加入两条三元组

T4)<D，rdfs：subClassOf，E>

T5)<B，rdfs：subClassOf，F>

后执行更新算法，其中1和2两条三元组依然满足规则11(C1rdfs：subClassOf C2，C2 rdfs：subClassOf C3＝＞C1 rdfs：subClassOf C3)的前置条件，但是1，2两条三元组都不是新加入的三元组，也就不满足第二步中新增的规则触发条件，所以规则11不被三元组1和2触发执行。1和5两条三元组也满足规则11的前置条件并且其中三元组5存在于新增三元组的集合中，所以1，5能触发规则11，触发后推理出三元组<A，rdfs：subClassOf，F>。

当从RDFS本体数据J中删除公理集合δ时，应该同时删除失效的蕴含及其调试信息。所谓失效的蕴含及调试信息就是在本体数据集合J/δ中无法推理得到的信息。为了实现失效信息的删除，这里设计了一个算法。算法中假设删除的事实三元组集合δ数据量不大，可以被集群中的每个节点装载并处理。

算法的执行流程如下：

1)将集合δ设置为Spark的共享变量，存储在每个计算节点上，每个数据块作为一个处理单元，遍历数据块中的三元组数据，并对其进行处理；

2)遍历时，如果三元组是事实(本体数据)跳转到第3步，否则跳转到第4步；

3)如果三元组存在于集合δ中，不输出任何值，否则输出此三元组；

4)三元组为蕴含(由其它三元组推理而来，蕴含中包含调试信息集合)，遍历蕴含的调试信息集合。遍历过程中，如果调试信息中有一个及以上三元组存在于集合δ中，则从调试信息集合中删除此条调试信息，遍历结束后，如果调试信息集合为空，则将蕴含三元组添加到集合β中，否则输出更新后的蕴含及调试信息集合；

5)遍历结束后判断集合β是否为空，为空则程序结束，否则将刀赋值给δ，重新从第一步开始执行。

S4、根据步骤S1存储在HBase中的调试信息，进行分布式RDFS本体调试，得出求取蕴含辩解的方法；所述步骤S4中分布式RDFS本体调试的方法，包括如下步骤：

算法中将两个连续的超步看做迭代中的一步：在偶数超步中，主节点接收其它节点发送给它的调试信息，用其更新辩解集合，之后向辩解集合中的所有节点发送信息请求，其余节点不作操作；在奇数步中，主节点除调用voteToHalt函数，投票请求迭代结束以外不作任何处理，其余节点如果接收到主节点发送的信息请求，则判断其值是否为空，若不为空，则将值发送给主节点，若为空，则调用voteToHalt函数，投票请求迭代结束。若奇数步中所有节点都调用了voteToHalt函数，则迭代结束，输出三元组的辩解集合。

所述步骤S1是基于在分布式并行计算框架Spark下进行前向推理实现的。

其中，基于HBase表查询的本体调试算法为：

01：初始化辩解集合J和临时辩解集合Q为空集，之后向J中加入辩解{a}并设置J改变标志flag＝true；

02：判断集合J是否改变，若改变则执行while循环内程序，否则辩解集合求取结束，J即为三元组a的辩解集合；

03-06：由于集合J是三元组集合的集合，所以进行两次for循环对其进行遍历：

07：InEdges(a_j)函数根据键a_j查询HBase数据库表，获得三元组a_j的RSPO集合。如果RSPO集合为空，则a_j为原始三元组，则遍历下一个三元组；不为空则继续执行；

08：执行到这一步说明可以用其它三元组集合代替辩解集合中的三元组a_j，则J将会改变，所以设置J改变标志flag＝true；

09-11：将RSPO集合赋值给ε并且更新集合Q和J_i；

12：集合ε中有n(n＝ε.length)个RSPO就有n个三元组集合代替三元组a_j，相应辩解集合Q中就会增加n个辩解，所以此行复制n个J_i，更新后加入到Q中；

13-17：将复制的n个J_i更新后加入到集合Q中；

18-19：将临时集合变量Q赋值给J并且置空。

综上所述，本发明首先运用字典编码技术对RDFS本体数据进行压缩处理，降低了数据的存储空间同时，加快了本体推理及调试的速度；之后实现了基于并行分布式计算框架Spark的RDFS本体推理方法，并将推理后的本体调试信息压缩后，存储在HBase分布式数据库中，为本体调试阶段的调试信息查询做准备；本发明实现了基于Spark框架的分布式增量存储更新方法；为了能在分布式环境下求取蕴含辩解，本发明对以往的方法进行了改进，并实现了两种蕴含辩解求取方法：一种是直接对HBase数据库进行查询，获取调试信息，求取蕴含辩解的方法；而另一种基于本体调试可以转换为图上的回溯操作的考虑，将本体数据及调试信息存储为Hana框架中的图数据结构，从而进行图回溯得到蕴含辩解的方法。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.分布式环境下RDFS本体的调试方法，其特征在于，包括如下步骤：

S1、将RDFS本体描述语言的语义规则应用到原始的RDFS本体数据上，进行本体的推理和调试信息的收集，将推理过程中产生的三元组及其调试信息保存在HBase数据库中；

S2、应用字典编码技术对RDFS本体数据进行压缩；

2.根据权利要求1所述的分布式环境下RDFS本体的调试方法，其特征在于，所述步骤S1是基于在分布式并行计算框架Spark下进行前向推理实现的。

3.根据权利要求1所述的分布式环境下RDFS本体的调试方法，其特征在于，所述步骤S4中的求取蕴含辩解的方法包括两种方法，其中一种是直接对HBase数据库进行查询，获取调试信息，求取蕴含辩解的方法；另一种是基于本体调试可以转换为图上的回溯操作的考虑，将本体数据及调试信息存储为Hama框架中的图数据结构，从而进行图回溯得到蕴含辩解的方法。

4.根据权利要求1所述的分布式环境下RDFS本体的调试方法，其特征在于，所述步骤S2中应用字典编码的具体步骤为：

S23、调用RDD2的groupByKey函数；

S24、调用RDD3的mapPartitionsWithIndex函数；

S25、调用RDD4的groupByKey函数。

5.根据权利要求1所述的分布式环境下RDFS本体的调试方法，其特征在于，所述步骤S4中分布式RDFS本体调试的方法，包括如下步骤：

S41、从HBase中读取三元组及调试信息，将其转换为图中节点；

6.根据权利要求5所述的分布式环境下RDFS本体的调试方法，其特征在于，所述步骤S42包括setup函数，图计算的初始化阶段；compute函数，顶点计算的主函数，对于每一个顶点，每一个超步都将重新执行此函数，函数中包括图节点间的消息传递，消息处理等操作。