CN106599162A - 一种关联数据知识图谱概览提取方法 - Google Patents
一种关联数据知识图谱概览提取方法 Download PDFInfo
- Publication number
- CN106599162A CN106599162A CN201611122597.2A CN201611122597A CN106599162A CN 106599162 A CN106599162 A CN 106599162A CN 201611122597 A CN201611122597 A CN 201611122597A CN 106599162 A CN106599162 A CN 106599162A
- Authority
- CN
- China
- Prior art keywords
- general view
- knowledge
- knowledge mapping
- tlv triple
- mapping general
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000013507 mapping Methods 0.000 claims description 86
- 230000035515 penetration Effects 0.000 claims description 11
- 238000000605 extraction Methods 0.000 abstract description 8
- 230000007547 defect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种关联数据知识图谱概览提取方法,该方法首先通过SPARQL查询关联数据所包含的领域知识关系,然后针对每一个知识关系构建知识图谱概览三元组并形成知识图谱概览G1,再提取每个知识分类的知识图谱概览三元组并形成知识图谱概览G2,最终合并两者成为完整的关联数据知识图谱概览G;该方法以知识关系为切入点的、完全使用SPARQL查询的实现方法,该方法提取速度快而稳定,提取结果的查全率高,且不需要网络爬虫或额外的索引工作。
Description
技术领域
本发明涉及关联数据索引领域,更具体地,涉及一种关联数据知识图谱概览提取方法。
背景技术
关联数据(Linked Data)最早是在2007年5月,由Chris Bizer and RichardCyganiak向W3C SWEO提交的一个项目申请Linked Open Data Project中提出来的。关联数据提出的目的是构建一张计算机能理解的语义数据网络,而不仅仅是人能读懂的文档网络,以便于在此之上构建更智能的应用。Linked Open Data Project的宗旨在于号召人们将现有数据发布成关联,并将不同数据源互联起来。关联数据主要通过RDF格式(ResourceDescription Framework)来表示。RDF将一个资源描述成一组三元组(主语,谓语,宾语)。SPARQL是W3C推荐标准,提供了对Web上或RDF存储(RDF Store)中的RDF图内容进行查询和处理的语言和协议。每个关联数据都提供SPARQL查询终端(SPARQL Endpoint),它是一种HTTP绑定协议,用于通过HTTP进行SPARQL查询,并返回相应数据。虽然关联数据可以通过SPARQL查询终端进行查询,但是对于某个特定领域的关联数据,用户在提交查询请求前必须事先知道此关联数据的内部数据结构(也就是关联数据知识图谱概览),包括有哪些:知识分类(Class)、知识关系(Object Property)、知识属性(Datatype Property)。在此基础之上,用户才能写出SPARQL语句进行查询。就如同查询数据库之前,首先要了解数据库的表结构Schema才行。因此,如何快速有效提取关联数据知识图谱概览是亟待解决的问题。
现有技术中的方案包括:用网络爬虫爬关联数据并进行索引,从而抽取关联数据知识图谱概览;用SPARQL查询并以知识分类为切入点进行关联数据知识图谱概览提取;前者的缺陷在于:需要通过网络爬虫获取、扫描关联数据的全部数据,需要做额外的数据索引,如果关联数据不让爬,则无法处理;后者的缺陷在于:没有明确定义定义rdf:type、rdfs:Class和owl:Class,是关联数据常有的现象,因此以知识分类为切入往往有关联数据知识图谱概览抽取部分遗漏情况出现。
发明内容
本发明提供一种提取速度快而稳定,提取结果的查全率高的关联数据知识图谱概览提取方法。
为了达到上述技术效果,本发明的技术方案如下:
一种关联数据知识图谱概览提取方法,包括以下步骤:
S1:查询关联数据所包含的知识关系集合P;
S2:过滤掉集合P中rdf,rdfs和owl为命名空间的与领域知识无关的知识关系,得到集合P’;
S3:构建集合P’中每一个知识关系p识谱图概览G1;
S4:查询描述知识分类之间直接关系的知识图谱三元组,并纳入到知识图谱概览G2中;
S5:将G1与G2合并到G,G就是最终的知识图谱概览。
进一步地,所述步骤S2的过程如下:
S21:对于知识关系集合P中的每一个知识关系p,提取它的命名空间n;
S22:如果命名空间n是rdf,rdfs或owl,则将p纳入到待过滤的知识关系集合
S23:将集合中的每个元素从P中删除,得到集合P’。
进一步地,所述步骤S3的过程如下:
以主体和客体为切入点,构建知识关系p的知识图谱概览G1:
S311:查询以知识关系p为谓语的三元组的主体s和客体o,分别查询主体s和客体o的知识分类集合C1和C2;
S312:如果C1和C2都不为空,则对于每一个(c1,c2)组合,其中c1∈C1,c2∈C2,构建以c1为主体、p为谓语和c2为客体的知识图谱概览三元组,并纳入到知识图谱概览G1中。
另一种可选的方式中,所述步骤S3的过程如下:
以谓语为切入点,构建知识关系p的知识图谱概览G1:
S321:查询以知识关系p为主语、以rdfs:domain为谓语的三元组客体c1;
S322:查询以知识关系p为主语、以rdfs:range为谓语的三元组的客体c2;
S323:如果c1和c2都能查询到,则构建以c1为主体、p为谓语和c2为客体的知识图谱概览三元组,并纳入到知识图谱概览G1中。
进一步地,所述步骤S4的过程如下:
S41:查询以rdfs:subClassOf为谓语的三元组,如果此三元组的主体和客体都不是匿名节点,则将这个三元组纳入到知识图谱概览G2中;
S42:查询以owl:equivalentClass为谓语的三元组,如果此三元组的主体和客体都不是匿名节点,则将这个三元组纳入到知识图谱概览G2中;
S43:查询以owl:complementOf为谓语的三元组,如果此三元组的主体和客体都不是匿名节点,则将这个三元组纳入到知识图谱概览G2中;
S44:查询以owl:disjointWith为谓语的三元组,如果此三元组的主体和客体都不是匿名节点,则将这个三元组纳入到知识图谱概览G2中。
进一步地,所述步骤S5的过程如下:
S51:去掉知识图谱概览G1中重复的知识图谱概览三元组,形成知识图谱概览G1’;
S52:去掉知识图谱概览G2中重复的知识图谱概览三元组,形成知识图谱概览G2’;
S53:将G1’和G2’合并成知识图谱概览G’;
S54:去掉知识图谱概览G’中重复的知识图谱概览三元组,最终形成知识图谱概览G。
与现有技术相比,本发明技术方案的有益效果是:
本发明方法首先通过SPARQL查询关联数据所包含的领域知识关系,然后针对每一个知识关系构建知识图谱概览三元组并形成知识图谱概览G1,再提取每个知识分类的知识图谱概览三元组并形成知识图谱概览G2,最终合并两者成为完整的关联数据知识图谱概览G;该方法以知识关系为切入点的、完全使用SPARQL查询的实现方法,该方法提取速度快而稳定,提取结果的查全率高,且不需要网络爬虫或额外的索引工作。
附图说明
图1为本发明方法的流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种关联数据知识图谱概览提取方法,包括以下步骤:
S1:查询关联数据所包含的知识关系集合P;
S2:过滤掉集合P中rdf,rdfs和owl为命名空间的与领域知识无关的知识关系,得到集合P’,其中,rdf、rdfs和owl都是XML命名空间简写;
本实施例中,rdf命名空间:http://www.w3.org/1999/02/22-rdf-syntax-ns#,
rdfs命名空间:http://www.w3.org/2000/01/rdf-schema#,
owl命名空间:http://www.w3.org/2002/07/owl#;
S3:构建集合P’中每一个知识关系p识谱图概览G1;
S4:查询描述知识分类之间直接关系的知识图谱三元组,并纳入到知识图谱概览G2中;
S5:将G1与G2合并到G,G就是最终的知识图谱概览。
步骤S2的过程如下:
S21:对于知识关系集合P中的每一个知识关系p,提取它的命名空间n;
S22:如果命名空间n是rdf,rdfs或owl,则将p纳入到待过滤的知识关系集合其中n=http://www.w3.org/1999/02/22-rdf-syntax-ns#,或者n=http://www.w3.org/2000/01/rdf-schema#,或者n=http://www.w3.org/2002/07/owl#;
S23:将集合中的每个元素从P中删除,得到集合P’。
步骤S3的过程如下:
以主体和客体为切入点,构建知识关系p的知识图谱概览G1:
S311:查询以知识关系p为谓语的三元组的主体s和客体o,分别查询主体s和客体o的知识分类集合C1和C2;
S312:如果C1和C2都不为空,则对于每一个(c1,c2)组合,其中c1∈C1,c2∈C2,构建以c1为主体、p为谓语和c2为客体的知识图谱概览三元组,并纳入到知识图谱概览G1中。
步骤S3的另一种方式的过程如下:
以谓语为切入点,构建知识关系p的知识图谱概览G1:
S321:查询以知识关系p为主语、以rdfs:domain为谓语的三元组客体c1,其中rdfs:domain完整URI为:http://www.w3.org/2000/01/rdf-schema#domain;
S322:查询以知识关系p为主语、以rdfs:range为谓语的三元组的客体c2,其中rdfs:range完整URI为:http://www.w3.org/2000/01/rdf-schema#range;
S323:如果c1和c2都能查询到,则构建以c1为主体、p为谓语和c2为客体的知识图谱概览三元组,并纳入到知识图谱概览G1中。
步骤S4的过程如下:
S41:查询以rdfs:subClassOf为谓语的三元组,如果此三元组的主体和客体都不是匿名节点,则将这个三元组纳入到知识图谱概览G2中,其中rdfs:subClassOf完整URI为:http://www.w3.org/2000/01/rdf-schema#subClassOf;
S42:查询以owl:equivalentClass为谓语的三元组,如果此三元组的主体和客体都不是匿名节点,则将这个三元组纳入到知识图谱概览G2中,其中owl:equivalentClass完整URI为:http://www.w3.org/2002/07/owl#equivalentClass;
S43:查询以owl:complementOf为谓语的三元组,如果此三元组的主体和客体都不是匿名节点,则将这个三元组纳入到知识图谱概览G2中,其中owl:complementOf完整URI为:http://www.w3.org/2002/07/owl#complementOf;
S44:查询以owl:disjointWith为谓语的三元组,如果此三元组的主体和客体都不是匿名节点,则将这个三元组纳入到知识图谱概览G2中,其中owl:disjointWith完整URI为:http://www.w3.org/2002/07/owl#disjointWith。
步骤S5的过程如下:
S51:去掉知识图谱概览G1中重复的知识图谱概览三元组,形成知识图谱概览G1’;
S52:去掉知识图谱概览G2中重复的知识图谱概览三元组,形成知识图谱概览G2’;
S53:将G1’和G2’合并成知识图谱概览G’;
S54:去掉知识图谱概览G’中重复的知识图谱概览三元组,最终形成知识图谱概览G。
本方法对于海量的关联数据,提取时间较快,提取时间稳定,具有可行性;完全使用SPARQL查询实现,简便易行。不需要获取、扫描关联数据的全部数据,不需要做额外的数据索引;以知识关系为切入点,而不是以知识分类为切入点,避免了未能明确定义rdf:type、rdfs:Class和owl:Class的遗漏情况,本方法的查全率比以知识分类为切入点要高。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (6)
1.一种关联数据知识图谱概览提取方法,其特征在于,包括以下步骤:
S1:查询关联数据所包含的知识关系集合P;
S2:过滤掉集合P中rdf,rdfs和owl为命名空间的与领域知识无关的知识关系,得到集合P’;
S3:构建集合P’中每一个知识关系p识谱图概览G1;
S4:查询描述知识分类之间直接关系的知识图谱三元组,并纳入到知识图谱概览G2中;
S5:将G1与G2合并到G,G就是最终的知识图谱概览。
2.根据权利要求1所述的关联数据知识图谱概览提取方法,其特征在于,所述步骤S2的过程如下:
S21:对于知识关系集合P中的每一个知识关系p,提取它的命名空间n;
S22:如果命名空间n是rdf,rdfs或owl,则将p纳入到待过滤的知识关系集合
S23:将中的每个元素从P中删除,得到集合P’。
3.根据权利要求2所述的关联数据知识图谱概览提取方法,其特征在于,所述步骤S3的过程如下:
以主体和客体为切入点,构建知识关系p的知识图谱概览G1:
S311:查询以知识关系p为谓语的三元组的主体s和客体o,分别查询主体s和客体o的知识分类集合C1和C2;
S312:如果C1和C2都不为空,则对于每一个(c1,c2)组合,其中c1∈C1,c2∈C2,构建以c1为主体、p为谓语和c2为客体的知识图谱概览三元组,并纳入到知识图谱概览G1中。
4.根据权利要求2所述的关联数据知识图谱概览提取方法,其特征在于,所述步骤S3的过程如下:
以谓语为切入点,构建知识关系p的知识图谱概览G1:
S321:查询以知识关系p为主语、以rdfs:domain为谓语的三元组客体c1;
S322:查询以知识关系p为主语、以rdfs:range为谓语的三元组客体c2;
S323:如果c1和c2都能查询到,则构建以c1为主体、p为谓语和c2为客体的知识图谱概览三元组,并纳入到知识图谱概览G1中。
5.根据权利要求3-4任一项所述的关联数据知识图谱概览提取方法,其特征在于,所述步骤S4的过程如下:
S41:查询以rdfs:subClassOf为谓语的三元组,如果此三元组的主体和客体都不是匿名节点,则将这个三元组纳入到知识图谱概览G2中;
S42:查询以owl:equivalentClass为谓语的三元组,如果此三元组的主体和客体都不是匿名节点,则将这个三元组纳入到知识图谱概览G2中;
S43:查询以owl:complementOf为谓语的三元组,如果此三元组的主体和客体都不是匿名节点,则将这个三元组纳入到知识图谱概览G2中;
S44:查询以owl:disjointWith为谓语的三元组,如果此三元组的主体和客体都不是匿名节点,则将这个三元组纳入到知识图谱概览G2中。
6.根据权利要求5所述的关联数据知识图谱概览提取方法,其特征在于,所述步骤S5的过程如下:
S51:去掉知识图谱概览G1中重复的知识图谱概览三元组,形成知识图谱概览G1’;
S52:去掉知识图谱概览G2中重复的知识图谱概览三元组,形成知识图谱概览G2’;
S53:将G1’和G2’合并成知识图谱概览G’;
S54:去掉知识图谱概览G’中重复的知识图谱概览三元组,最终形成知识图谱概览G。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611122597.2A CN106599162A (zh) | 2016-12-08 | 2016-12-08 | 一种关联数据知识图谱概览提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611122597.2A CN106599162A (zh) | 2016-12-08 | 2016-12-08 | 一种关联数据知识图谱概览提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106599162A true CN106599162A (zh) | 2017-04-26 |
Family
ID=58597843
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611122597.2A Pending CN106599162A (zh) | 2016-12-08 | 2016-12-08 | 一种关联数据知识图谱概览提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106599162A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110083756A (zh) * | 2018-01-26 | 2019-08-02 | 国际商业机器公司 | 识别知识图数据结构中的冗余节点 |
-
2016
- 2016-12-08 CN CN201611122597.2A patent/CN106599162A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110083756A (zh) * | 2018-01-26 | 2019-08-02 | 国际商业机器公司 | 识别知识图数据结构中的冗余节点 |
CN110083756B (zh) * | 2018-01-26 | 2023-11-17 | 勤达睿公司 | 识别知识图数据结构中的冗余节点 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20170242934A1 (en) | Methods for integrating semantic search, query, and analysis and devices thereof | |
CN107391677B (zh) | 携带实体关系属性的中文通用知识图谱的生成方法及装置 | |
US8037008B2 (en) | DBMS-based knowledge extension and inference service method recorded on computer-readable medium | |
DE102013003055A1 (de) | Verfahren und Vorrichtung zum Durchführen von Suchen in natürlicher Sprache | |
CN102129479B (zh) | 一种基于概率潜在语义分析模型的万维网服务发现方法 | |
CN104850601B (zh) | 基于图数据库的警务实时分析应用平台及其构建方法 | |
CN103186633B (zh) | 一种结构化信息抽取方法、搜索方法和装置 | |
CN104866593A (zh) | 一种基于知识图谱的数据库搜索方法 | |
CN110704411A (zh) | 适用于艺术领域的知识图谱搭建方法及装置、电子设备 | |
CN105718585B (zh) | 文档与标签词语义关联方法及其装置 | |
CN102426591A (zh) | 一种操作用于内容输入的语料库的方法和设备 | |
JP6088091B1 (ja) | 更新装置、更新方法、及び更新プログラム | |
CN102651002A (zh) | 一种网页信息抽取方法及其系统 | |
US20110219017A1 (en) | System and methods for citation database construction and for allowing quick understanding of scientific papers | |
CN110970112B (zh) | 一种面向营养健康的知识图谱构建方法和系统 | |
CN102214227B (zh) | 基于互联网层次结构存储的自动舆情监控方法 | |
CN103778238A (zh) | 一种从维基百科半结构化数据自动构建分类树的方法 | |
CN106227762A (zh) | 一种基于用户协助的垂直搜索方法和系统 | |
CN103257975A (zh) | 一种搜索方法、装置及系统 | |
CN102156749A (zh) | 一种地图网站的自动搜索判别方法、系统及其分布式服务器系统 | |
Braun et al. | Automatic relation extraction for building smart city ecosystems using dependency parsing | |
CN106599162A (zh) | 一种关联数据知识图谱概览提取方法 | |
CN103020189B (zh) | 数据处理装置和数据处理方法 | |
Do et al. | Toward a Framework for Statistical Data Integration. | |
Yang et al. | An automatic semantic extraction algorithm for XML document |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170426 |