CN106599162A

CN106599162A - 一种关联数据知识图谱概览提取方法

Info

Publication number: CN106599162A
Application number: CN201611122597.2A
Authority: CN
Inventors: 姜赢; 杨静; 高巾; 朱玲萱
Original assignee: Beijing Normal University Zhuhai
Current assignee: Beijing Normal University Zhuhai
Priority date: 2016-12-08
Filing date: 2016-12-08
Publication date: 2017-04-26

Abstract

本发明提供一种关联数据知识图谱概览提取方法，该方法首先通过SPARQL查询关联数据所包含的领域知识关系，然后针对每一个知识关系构建知识图谱概览三元组并形成知识图谱概览G1，再提取每个知识分类的知识图谱概览三元组并形成知识图谱概览G2，最终合并两者成为完整的关联数据知识图谱概览G；该方法以知识关系为切入点的、完全使用SPARQL查询的实现方法，该方法提取速度快而稳定，提取结果的查全率高，且不需要网络爬虫或额外的索引工作。

Description

一种关联数据知识图谱概览提取方法

技术领域

本发明涉及关联数据索引领域，更具体地，涉及一种关联数据知识图谱概览提取方法。

背景技术

关联数据(Linked Data)最早是在2007年5月，由Chris Bizer and RichardCyganiak向W3C SWEO提交的一个项目申请Linked Open Data Project中提出来的。关联数据提出的目的是构建一张计算机能理解的语义数据网络，而不仅仅是人能读懂的文档网络，以便于在此之上构建更智能的应用。Linked Open Data Project的宗旨在于号召人们将现有数据发布成关联，并将不同数据源互联起来。关联数据主要通过RDF格式(ResourceDescription Framework)来表示。RDF将一个资源描述成一组三元组(主语，谓语，宾语)。SPARQL是W3C推荐标准，提供了对Web上或RDF存储(RDF Store)中的RDF图内容进行查询和处理的语言和协议。每个关联数据都提供SPARQL查询终端(SPARQL Endpoint)，它是一种HTTP绑定协议，用于通过HTTP进行SPARQL查询，并返回相应数据。虽然关联数据可以通过SPARQL查询终端进行查询，但是对于某个特定领域的关联数据，用户在提交查询请求前必须事先知道此关联数据的内部数据结构(也就是关联数据知识图谱概览)，包括有哪些：知识分类(Class)、知识关系(Object Property)、知识属性(Datatype Property)。在此基础之上，用户才能写出SPARQL语句进行查询。就如同查询数据库之前，首先要了解数据库的表结构Schema才行。因此，如何快速有效提取关联数据知识图谱概览是亟待解决的问题。

现有技术中的方案包括：用网络爬虫爬关联数据并进行索引，从而抽取关联数据知识图谱概览；用SPARQL查询并以知识分类为切入点进行关联数据知识图谱概览提取；前者的缺陷在于：需要通过网络爬虫获取、扫描关联数据的全部数据，需要做额外的数据索引，如果关联数据不让爬，则无法处理；后者的缺陷在于：没有明确定义定义rdf:type、rdfs:Class和owl:Class，是关联数据常有的现象，因此以知识分类为切入往往有关联数据知识图谱概览抽取部分遗漏情况出现。

发明内容

本发明提供一种提取速度快而稳定，提取结果的查全率高的关联数据知识图谱概览提取方法。

为了达到上述技术效果，本发明的技术方案如下：

一种关联数据知识图谱概览提取方法，包括以下步骤：

S1：查询关联数据所包含的知识关系集合P；

S2：过滤掉集合P中rdf,rdfs和owl为命名空间的与领域知识无关的知识关系，得到集合P’；

S3：构建集合P’中每一个知识关系p识谱图概览G1；

S4：查询描述知识分类之间直接关系的知识图谱三元组，并纳入到知识图谱概览G2中；

S5：将G1与G2合并到G，G就是最终的知识图谱概览。

进一步地，所述步骤S2的过程如下：

S21：对于知识关系集合P中的每一个知识关系p，提取它的命名空间n；

S22：如果命名空间n是rdf,rdfs或owl，则将p纳入到待过滤的知识关系集合

S23：将集合中的每个元素从P中删除，得到集合P’。

进一步地，所述步骤S3的过程如下：

以主体和客体为切入点，构建知识关系p的知识图谱概览G1：

S311：查询以知识关系p为谓语的三元组的主体s和客体o，分别查询主体s和客体o的知识分类集合C1和C2；

S312：如果C1和C2都不为空，则对于每一个(c1,c2)组合，其中c1∈C1，c2∈C2，构建以c1为主体、p为谓语和c2为客体的知识图谱概览三元组，并纳入到知识图谱概览G1中。

另一种可选的方式中，所述步骤S3的过程如下：

以谓语为切入点，构建知识关系p的知识图谱概览G1：

S321：查询以知识关系p为主语、以rdfs:domain为谓语的三元组客体c1；

S322：查询以知识关系p为主语、以rdfs:range为谓语的三元组的客体c2；

S323：如果c1和c2都能查询到，则构建以c1为主体、p为谓语和c2为客体的知识图谱概览三元组，并纳入到知识图谱概览G1中。

进一步地，所述步骤S4的过程如下：

S41：查询以rdfs:subClassOf为谓语的三元组，如果此三元组的主体和客体都不是匿名节点，则将这个三元组纳入到知识图谱概览G2中；

S42：查询以owl:equivalentClass为谓语的三元组，如果此三元组的主体和客体都不是匿名节点，则将这个三元组纳入到知识图谱概览G2中；

S43：查询以owl:complementOf为谓语的三元组，如果此三元组的主体和客体都不是匿名节点，则将这个三元组纳入到知识图谱概览G2中；

S44：查询以owl:disjointWith为谓语的三元组，如果此三元组的主体和客体都不是匿名节点，则将这个三元组纳入到知识图谱概览G2中。

进一步地，所述步骤S5的过程如下：

S51：去掉知识图谱概览G1中重复的知识图谱概览三元组，形成知识图谱概览G1’；

S52：去掉知识图谱概览G2中重复的知识图谱概览三元组，形成知识图谱概览G2’；

S53：将G1’和G2’合并成知识图谱概览G’；

S54：去掉知识图谱概览G’中重复的知识图谱概览三元组，最终形成知识图谱概览G。

与现有技术相比，本发明技术方案的有益效果是：

本发明方法首先通过SPARQL查询关联数据所包含的领域知识关系，然后针对每一个知识关系构建知识图谱概览三元组并形成知识图谱概览G1，再提取每个知识分类的知识图谱概览三元组并形成知识图谱概览G2，最终合并两者成为完整的关联数据知识图谱概览G；该方法以知识关系为切入点的、完全使用SPARQL查询的实现方法，该方法提取速度快而稳定，提取结果的查全率高，且不需要网络爬虫或额外的索引工作。

附图说明

图1为本发明方法的流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，一种关联数据知识图谱概览提取方法，包括以下步骤：

S1：查询关联数据所包含的知识关系集合P；

S2：过滤掉集合P中rdf,rdfs和owl为命名空间的与领域知识无关的知识关系，得到集合P’，其中，rdf、rdfs和owl都是XML命名空间简写；

本实施例中，rdf命名空间：http://www.w3.org/1999/02/22-rdf-syntax-ns#，

rdfs命名空间：http://www.w3.org/2000/01/rdf-schema#，

owl命名空间：http://www.w3.org/2002/07/owl#；

S3：构建集合P’中每一个知识关系p识谱图概览G1；

S5：将G1与G2合并到G，G就是最终的知识图谱概览。

步骤S2的过程如下：

S22：如果命名空间n是rdf,rdfs或owl，则将p纳入到待过滤的知识关系集合其中n＝http://www.w3.org/1999/02/22-rdf-syntax-ns#，或者n＝http://www.w3.org/2000/01/rdf-schema#，或者n＝http://www.w3.org/2002/07/owl#；

S23：将集合中的每个元素从P中删除，得到集合P’。

步骤S3的过程如下：

以主体和客体为切入点，构建知识关系p的知识图谱概览G1：

步骤S3的另一种方式的过程如下：

以谓语为切入点，构建知识关系p的知识图谱概览G1：

S321：查询以知识关系p为主语、以rdfs:domain为谓语的三元组客体c1，其中rdfs:domain完整URI为：http://www.w3.org/2000/01/rdf-schema#domain；

S322：查询以知识关系p为主语、以rdfs:range为谓语的三元组的客体c2，其中rdfs:range完整URI为：http://www.w3.org/2000/01/rdf-schema#range；

步骤S4的过程如下：

S41：查询以rdfs:subClassOf为谓语的三元组，如果此三元组的主体和客体都不是匿名节点，则将这个三元组纳入到知识图谱概览G2中，其中rdfs:subClassOf完整URI为：http://www.w3.org/2000/01/rdf-schema#subClassOf；

S42：查询以owl:equivalentClass为谓语的三元组，如果此三元组的主体和客体都不是匿名节点，则将这个三元组纳入到知识图谱概览G2中，其中owl:equivalentClass完整URI为：http://www.w3.org/2002/07/owl#equivalentClass；

S43：查询以owl:complementOf为谓语的三元组，如果此三元组的主体和客体都不是匿名节点，则将这个三元组纳入到知识图谱概览G2中，其中owl:complementOf完整URI为：http://www.w3.org/2002/07/owl#complementOf；

S44：查询以owl:disjointWith为谓语的三元组，如果此三元组的主体和客体都不是匿名节点，则将这个三元组纳入到知识图谱概览G2中，其中owl:disjointWith完整URI为：http://www.w3.org/2002/07/owl#disjointWith。

步骤S5的过程如下：

S53：将G1’和G2’合并成知识图谱概览G’；

本方法对于海量的关联数据，提取时间较快，提取时间稳定，具有可行性；完全使用SPARQL查询实现，简便易行。不需要获取、扫描关联数据的全部数据，不需要做额外的数据索引；以知识关系为切入点，而不是以知识分类为切入点，避免了未能明确定义rdf:type、rdfs:Class和owl:Class的遗漏情况，本方法的查全率比以知识分类为切入点要高。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种关联数据知识图谱概览提取方法，其特征在于，包括以下步骤：

S1：查询关联数据所包含的知识关系集合P；

S3：构建集合P’中每一个知识关系p识谱图概览G1；

S5：将G1与G2合并到G，G就是最终的知识图谱概览。

2.根据权利要求1所述的关联数据知识图谱概览提取方法，其特征在于，所述步骤S2的过程如下：

S23：将中的每个元素从P中删除，得到集合P’。

3.根据权利要求2所述的关联数据知识图谱概览提取方法，其特征在于，所述步骤S3的过程如下：

以主体和客体为切入点，构建知识关系p的知识图谱概览G1：

4.根据权利要求2所述的关联数据知识图谱概览提取方法，其特征在于，所述步骤S3的过程如下：

以谓语为切入点，构建知识关系p的知识图谱概览G1：

S322：查询以知识关系p为主语、以rdfs:range为谓语的三元组客体c2；

5.根据权利要求3-4任一项所述的关联数据知识图谱概览提取方法，其特征在于，所述步骤S4的过程如下：

6.根据权利要求5所述的关联数据知识图谱概览提取方法，其特征在于，所述步骤S5的过程如下：

S53：将G1’和G2’合并成知识图谱概览G’；