CN103116625A - 一种基于Hadoop的海量RDF数据分布式查询处理方法 - Google Patents

一种基于Hadoop的海量RDF数据分布式查询处理方法 Download PDF

Info

Publication number
CN103116625A
CN103116625A CN2013100376621A CN201310037662A CN103116625A CN 103116625 A CN103116625 A CN 103116625A CN 2013100376621 A CN2013100376621 A CN 2013100376621A CN 201310037662 A CN201310037662 A CN 201310037662A CN 103116625 A CN103116625 A CN 103116625A
Authority
CN
China
Prior art keywords
data
rdf
hadoop
tree
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013100376621A
Other languages
English (en)
Inventor
张小洪
杨丹
李珩
谢娟
成正斌
洪明坚
葛永新
杨梦宁
徐玲
胡海波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN2013100376621A priority Critical patent/CN103116625A/zh
Publication of CN103116625A publication Critical patent/CN103116625A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于Hadoop平台的海量RDF数据分布式查询处理方法,属于计算机领域。所述方法主要包括以下步骤,步骤a:将RDF数据上传至HDFS中,通过Hadoop平台的MapReduce框架读取数据并存储在分布式数据库HBase中;步骤b:对用户提交的SPARQL查询语句段进行预处理,对语句进行解析并提取出其中的前缀声明、结果变量、图模式子句;c:还原图模式子句中的前缀字符,将还原后的图模式子句转化为树模型;d:分解树模型,以自底向上、自左向右的方式遍历树节点并生成匹配各节点的查询计划,将最终的查询计划发送到Hadoop平台;e:通过MapReduce框架从HBase中读取数据,按照查询计划执行分布式查询,最后按结果变量返回查询结果。

Description

一种基于Hadoop的海量RDF数据分布式查询处理方法
技术领域
本发明属于计算机技术领域,具体涉及一种基于Hadoop的海量RDF数据集的分布式查询处理方法。
背景技术
目前语义网(Semantic Web)发展迅速以及资源描述框架(Resource DescriptionFramework,RDF)运用广泛,运用RDF描述的数据呈指数级增长,如何高性能、易扩展地存储和查询海量RDF成为亟需解决的问题。传统语义网工具如Jena、Sesame、RDF3X等采用单机环境集中式处理方式,利用关系数据库作为存储系统,面对海量的RDF数据其存储能力及查询效率受到严重限制。
云计算利用分布式技术,提供了一套高性能、易扩展的分布式存储和计算系统,已成为工业界和学术界公认的海量数据存储与计算的最优解决方案。其中Hadoop因其成本低廉、扩容性强、效率高、可扩展性强、可靠性高等优点,迅速成为各行各业进行海量数据存储和分析的首选平台,其提供的HBase数据库以其独特的面向列、分布式、高容错性等特点已成为Hadoop平台下进行海量数据处理的主要存储系统。因此将Hadoop平台及HBase数据库运用到海量RDF数据的存储和查询中具有重要意义。
发明内容
本发明的目的在于利用Hadoop平台来解决海量RDF数据查询效率低的问题,提出一种基于MapReduce的海量RDF数据分布式查询处理方法,用于今后支持海量RDF数据的查询,并且可扩展地应对SPARQL语句的修订。其特征在于,具体包括如下步骤:
步骤a:将RDF数据上传至HDFS中,通过Hadoop平台的MapReduce框架读取数据将其并行存储在HBase当中;
步骤b:对用户提交的SPARQL查询语句段进行预处理,对语句进行解析并提取出其中的前缀声明、结果变量、图模式子句;
步骤c:还原图模式子句中的前缀字符,将还原后的图模式子句转化为树模型,以树的结构来表示查询语句的完整图模式。其树中的叶子节点代表SPARQL语句中的三元组模式,其值为三元组模式的编号;非叶子节点表示对三元组模式执行的操作,其值为UNION、OPTIONAL和AND,分别代表SPARQL语句中的union、optional以及连接操作;
步骤d:分解树模型,以自底向上、自左向右的方式遍历树节点并生成匹配各节点的执行计划,将执行计划发送到Hadoop平台;
步骤e:通过MapReduce框架从HBase中读取数据,按执行计划执行分布式查询,最后按结果变量返回查询结果。
相对于现有技术,本发明具有如下有益效果:
1、本发明将RDF数据存储在分布式数据库HBase中,提出了一种RDF基于HBase的三表存储模式,该模式不需要额外建立索引便可尽可能地提高查询效率,为海量RDF数据的存储提供了一个可行方案,缓解了传统集中式存储RDF数据面临的压力。
2、本发明提出了一种利用Hadoop平台来对RDF数据进行分布式查询的方法,利用MapReduce在查询过程中对数据进行BGP连接操作,大大提高了查询效率。
附图说明
图1:方法整体流程的说明图
图2:本发明提出的一种RDF数据基于HBase的三表存储结构图。
图3:MapReduce执行BGP连接流程图。
具体实施方式
下面结合附图和实施例对本发明的技术做进一步的说明。应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读本发明之后,本领域技术人员对发明的各种等价形式的修改均落于本申请所得权利要求所限定的范围。按照如下步骤对RDF数据进行分布式查询处理:
步骤a:将RDF数据上传至HDFS中,通过Hadoop平台的MapReduce框架读取数据将其并行存储在HBase当中,具体步骤如下:
a1:将RDF数据上传至HDFS中,并均衡地分布到集群中的各个数据节点中;
a2:利用MapReduce框架从HDFS中读取数据并将其并行存储入HBase中,在HBase中用三张表A_SP_O,A_PO_S,A_OS_P来存储;其中表A_SP_O中,将RDF三元组的主体、谓词组合作为row key存储,客体作为column name存储;表A_PO_S中,将RDF三元组的谓词、客体组合作为row key存储,主体作为columnname存储;表A_OS_P中,将RDF三元组的客体、主体组合作为rowkey存储,谓词作为column name存储;其存储表结构依次为如图2所示。
步骤b:对用户提交的SPARQL查询语句段进行预处理,对语句进行解析并提取出其中的前缀声明、结果变量、图模式子句,具体步骤如下:
b1:利用语义网框架Jena的ARQ工具对SPARQL查询语句进行解析验证;
b2:分离SPARQL语句中的前缀声明、结果变量、图模式子句。
步骤c:还原图模式子句中的前缀字符,将还原后的图模式子句转化为树模型,以树的结构来表示查询语句的完整图模式:具体步骤如下:
c1:依次将步骤b1中提取的前缀声明替代图模式子句中的前缀字符串;
c2:对图模式子句中的三元组模式进行编号;
c3:从图模式子句由外到里依次取出操作符union、optional、成对的{}以及三元组模式,按原结构构造图模式子句的树结构模型QueryTree,其中叶子节点代表三元组模式,其值为三元组模式的编号;非叶子节点表示对三元组模式执行的操作,其值为UNION、OPTIONAL和AND,分别代表SPARQL语句中的union、optional以及连接操作。
步骤d:分解树模型,以自底向上、自左向右的方式遍历树节点并生成匹配各节点的执行计划,将执行计划发送到Hadoop平台,具体步骤如下:
d1:首先从树模型QueryTree倒数第二层以自底向上、自左向右的方式遍历整棵树,依次取出节点;
d2:根据节点的子节点创建三元组模式集合TP(tp1…tpn)以及变量集合V(v1,v2…vn),变量集合包括变量名、变量连接三元组模式编号及其在三元组模式中的位置;
d3:判断节点类型,如果节点的值为AND,则执行步骤d4;如果节点的值为OPTIONAL,则创建MapReduce job信息用于对TP(tp1…tpn)中三元组模式结果集执行左连接操作;如果节点的值为UNION,则创建普通job信息对TP(tp1…tpn)中三元组模式结果集执行并集操作;
d4:根据三元组模式集合TP(tp1…tpn),创建MapReduce job信息用以对集合中三元组模式结果集按连接变量执行连接操作,其中连接变量顺序的选择遵循1)连接越多三元组模式的变量优先处理;2)对于连接有相同数量三元组模式的变量,则选择连接有最多主体绑定三元组模式的变量优先处理;3)在选择消除某个变量时,若变量集合中存在与该变量非冲突的变量(与该变量不同在一个三元组模式中)则在同一个MapReduce job中消除;具体步骤如下:
d41:初始化一个空Job集合,计算V(v1,v2…vn)中各变量vi的选择度,并按选择度
降序排列;
d42:如果TP不为空,则执行步骤d43,d44,d45,d46,d47;否则执行步骤d48;
d43:如果V不为空且V中还存在连接变量,则执行步骤d44;否则执行步骤d45;
d44:创建一个MapReduce job信息,如果V不为空,依次取出变量vi,如果vi是连接变量且为非冲突变量(与job中存在的变量互为非冲突变量),将其加入job中,并从V中删除,将vi连接的TP2(tp1..tpn)加入job中,并从TP中删除,根据TP2重写为新的tp并加入TP中;
d45:创建一个MapReduce job信息,将V中变量、TP元素加入job中用于执行笛卡尔积;
d46:将job加入Job集合中;
d47:迭代执行步骤d42,d43,d44,d45,d46;
d48:重写AND节点并返回Job;
d5:将生成的一系列job信息作为执行计划发送到Hadoop平台。
步骤e:通过MapReduce框架从HBase中读取数据,按查询计划执行分布式查询,最后按结果变量返回查询结果;查询执行计划包括BGP连接操作、左连接操作、求并集操作,其中并集操作简单地将数据合并,BGP连接操作利用MapReduce框架特有的Map/Reduce模型将数据拆分后再进行连接,左连接操作是一种更简单的BGP连接操作,因此查询计划执行的核心是BGP连接操作;如图2为BGP连接执行流程图,具体步骤如下:
e21:Mapper任务读取HBase中数据,利用HBase过滤器首先对数据进行过滤;
e22:在Mapper任务中进一步对数据进行过滤,并重新组织数据,按key-value形式输出;
e23:在Mapper->Reducer阶段,对数据进行排序、浓缩,将Mapper输出数据按key值进行排序并浓缩;
e24:在Reducer任务中,将具有相同key的value按key执行连接操作,完成BGP连接。
BGP连接操作中,对于一个简单基本图模式:?x p1?y1,?xp2?y2,假设有<s1,p1,o1><s1,p2,o2>两个RDF三元组数据,通过Mapper任务读取,在Mapper任务中过滤,组装形成<x_s1,y1_o1|tp1>、<x_s1,y2_o2|tp2>,经过排序、浓缩形成<x_s1,<y1_o1|tp1,y2_o2|tp2>>,在reducer任务中对具有相同key的value进行连接,形成s1,o1,o2,由此完成BGP连接。
实施例:
本实施例中采用的RDF数据集为SP2Bench提供的标准数据集以及标准SPARQL查询语句。SP2Bench是一个针对SPARQL查询语句的开源的公共测试平台。它提供了一个RDF标准数据集产生器和多个复杂SPARQL标准语句。SP2Bench提供的标准数据集产生器可以产生任意大小的数据集,其产生数据以N3格式文件存储。SP2Bench平台提供的SPARQL语句更全面,其包含多种操作符如Optional、Union。
采用2台master节点、8台slave节点构建Hadoop平台,两台master节点分别作为namenode/jobtracker节点,配置为2核Intel Pentium4CPU,2GB内存,80GB硬盘;8台slave节点,作为datanode/tasktracker节点,配置为2核Intel Pentium4CPU,1.5GB内存,80GB硬盘。将当前流行的语义网框架Jena、Sesame与本发明提出的基于Hadoop的处理方案进行对比,对基于Hadoop的处理方案进行性能评估。其中Jena、Sesame运行环境为3.16GHz四核处理器、内存6GB、硬盘4TB。
表1
Figure BDA00002800110800041
分别选用大小为600,800,1000,1200(MB)的数据集以及Q2查询语句。基于Hadoop的处理方案与Jena-InMemory(Jena基于内存处理)、Jena-SDB(Jena基于MySQL处理)、SesameMainMemory(Sesame基于内存处理)的执行效率如表1所示。从表1可知,当数据量较小时,基于Hadoop的处理方式与Jena、Sesame的内存处理不相上下,随着数据量的增加,基于Hadoop的处理方式效率显著增加,且远远优越于基于MySQL的处理方式。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种基于Hadoop的海量RDF数据分布式查询处理方法,利用MapReduce框架对存储于分布式数据库HBase中的RDF数据进行SPARQL查询,所述方法包括:
步骤a:将RDF数据上传至HDFS中,通过Hadoop平台的MapReduce框架读取数据将其并行存储在HBase中;
步骤b:对用户提交的SPARQL查询语句段进行预处理,对语句进行解析并提取出其中的前缀声明、结果变量、图模式子句;
步骤c:还原图模式子句中的前缀字符,将还原后的图模式子句转化为树模型,以树的结构来表示查询语句的完整图模式;
步骤d:分解树模型,以自底向上、自左向右的方式遍历树节点并生成匹配各节点的查询计划,并将查询计划发送到Hadoop平台;
步骤e:通过MapReduce框架从HBase中读取数据,按照查询计划执行分布式查询,最后按结果变量返回查询结果。
2.如权利要求1所述的基于Hadoop的海量RDF数据分布式查询处理方法,其特征在于,所述步骤a中:
利用MapReduce框架将RDF数据存储入HBase中,其中以三张表来存储RDF数据,分别为:将RDF三元组的主体、谓词组合作为rowkey存储,客体作为column name存储;将RDF三元组的谓词、客体组合作为rowkey存储,主体作为columnname存储;将RDF三元组的客体、主体组合作为row key存储,谓词作为column name存储。
3.如权利要求1所述的基于Hadoop的海量RDF数据分布式查询处理方法,其特征在于,所述步骤c包括:
步骤c1:对图模式子句中的三元组模式进行编号;
步骤c2:利用提取出的前缀声明替代图模式子句中的前缀字符;
步骤c3:将图模式子句转化为树结构模型。
4.如权利要求1所述的基于Hadoop的海量RDF数据分布式查询处理方法,其特征在于,所述步骤d包括:
步骤d1:首先从树模型结构倒数第二层以自底向上、自左向右的方式遍历整棵树,依次取出各节点;
步骤d2:根据节点的子节点创建三元组模式集合以及变量集合,变量集合包括变量名、变量连接三元组模式编号及其在三元组模式中的位置;
步骤d3:按照节点类型创建匹配该节点的一系列job信息,并重写该节点;
步骤d4:将生成的一系列job信息作为查询执行计划发送到Hadoop平台。
5.如权利要求1所述的基于Hadoop的海量RDF数据分布式查询处理方法,其特征在于,所述步骤e包括:
步骤e1:通过MapReduce框架读取HBase中数据;
步骤e2:按执行计划执行BGP连接操作、左连接操作以及合并操作,最终完成分布式查询;
步骤e3:按照结果变量提取最终结果,返回查询结果。
6.如权利要求5所述的基于Hadoop的海量RDF数据分布式查询处理方法,其特征在于,所述步骤e2中查询执行计划中MapReduce job执行BGP连接操作包括:
步骤e21:Mapper任务读取HBase中数据,利用HBase过滤器首先对数据进行过滤。
步骤e22:在Mapper任务中进一步对数据进行过滤,并重新组织数据,按key-value形式输出。
步骤e23:在Mapper->Reducer阶段,对数据进行排序、浓缩,将Mapper输出数据按key值进行排序并浓缩。
步骤e24:在Reducer任务中,将具有相同key的value按key执行连接操作,完成BGP连接。
CN2013100376621A 2013-01-31 2013-01-31 一种基于Hadoop的海量RDF数据分布式查询处理方法 Pending CN103116625A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013100376621A CN103116625A (zh) 2013-01-31 2013-01-31 一种基于Hadoop的海量RDF数据分布式查询处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013100376621A CN103116625A (zh) 2013-01-31 2013-01-31 一种基于Hadoop的海量RDF数据分布式查询处理方法

Publications (1)

Publication Number Publication Date
CN103116625A true CN103116625A (zh) 2013-05-22

Family

ID=48414998

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013100376621A Pending CN103116625A (zh) 2013-01-31 2013-01-31 一种基于Hadoop的海量RDF数据分布式查询处理方法

Country Status (1)

Country Link
CN (1) CN103116625A (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279521A (zh) * 2013-05-28 2013-09-04 重庆大学 一种基于Hadoop的视频大数据分布式解码方法
CN103646051A (zh) * 2013-11-27 2014-03-19 武汉邮电科学研究院 一种基于列存储的大数据并行处理系统及方法
CN104317896A (zh) * 2014-10-24 2015-01-28 浪潮软件股份有限公司 一种基于海量数据进行分布式比对碰撞方法
CN104346340A (zh) * 2013-07-24 2015-02-11 日电(中国)有限公司 一种存储资源描述框架数据的方法和装置
CN104462609A (zh) * 2015-01-06 2015-03-25 福州大学 结合星型图编码的rdf数据存储与查询方法
CN104615703A (zh) * 2015-01-30 2015-05-13 福州大学 一种结合Rete算法的RDF数据分布式并行推理方法
CN104778235A (zh) * 2015-04-02 2015-07-15 浪潮集团有限公司 一种基于MapReduce云计算模型的树遍历搜索方法
CN104809168A (zh) * 2015-04-06 2015-07-29 华中科技大学 超大规模rdf图数据的划分与并行分布处理方法
CN104850640A (zh) * 2015-05-26 2015-08-19 华北电力大学(保定) 一种基于HBase的电网设备状态监测数据存储和查询方法及系统
CN104951570A (zh) * 2015-07-27 2015-09-30 广州九尾信息科技有限公司 基于数据挖掘及lbs的兼职智能推荐系统
CN103778251B (zh) * 2014-02-19 2016-09-07 天津大学 面向大规模rdf图数据的sparql并行查询方法
CN106156238A (zh) * 2015-04-27 2016-11-23 科大讯飞股份有限公司 本体信息查询方法及系统
CN106295403A (zh) * 2016-10-11 2017-01-04 北京集奥聚合科技有限公司 一种基于hbase的数据安全处理方法及系统
CN106649708A (zh) * 2013-08-29 2017-05-10 华为技术有限公司 存储数据的方法和装置
CN106933844A (zh) * 2015-12-30 2017-07-07 中国科学院深圳先进技术研究院 面向大规模rdf数据的可达性查询索引的构建方法
CN104133858B (zh) * 2014-07-15 2017-08-01 武汉邮电科学研究院 基于列存储的智能双引擎分析系统及方法
CN109063191A (zh) * 2018-08-29 2018-12-21 上海交通大学 在rdf数据集上进行optional查询的方法及存储介质
US10303694B2 (en) 2014-06-27 2019-05-28 International Business Machines Corporation System and method for generating random linked data according to an RDF dataset profile
CN110032676A (zh) * 2019-03-15 2019-07-19 中南大学 一种基于谓词关联的sparql查询优化方法及系统
CN111352961A (zh) * 2020-03-16 2020-06-30 华南师范大学 分布式rdf流数据处理方法、系统、装置及介质
WO2023124729A1 (zh) * 2021-12-31 2023-07-06 北京大学 查询数据的方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693310A (zh) * 2012-05-28 2012-09-26 无锡成电科大科技发展有限公司 一种基于关系数据库的资源描述框架查询方法和系统
CN102799622A (zh) * 2012-06-19 2012-11-28 北京大学 基于MapReduce扩展框架的分布式SQL查询方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693310A (zh) * 2012-05-28 2012-09-26 无锡成电科大科技发展有限公司 一种基于关系数据库的资源描述框架查询方法和系统
CN102799622A (zh) * 2012-06-19 2012-11-28 北京大学 基于MapReduce扩展框架的分布式SQL查询方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ALEXANDER SCHATZLE ET AL.: "Cascading Map-Side Joins over HBase for Scalable Join Processing", 《JOINT WORKSHOP ON SCALABLE AND HIGH-PERFORMANCE SEMANTIC WEB SYSTEMS, COLLOCATED WITH THE 11TH INTERNATIONAL SEMANTIC WEB CONFERENCE》 *
JIANLING SUN ET AL.: "Scalable RDF Store Based on HBase and MapReduce", 《2010 3RD INTERNATIONAL CONFERENCE ON ADVANCED COMPUTER THEORY AND ENGINEERING(ICACTE)》 *

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279521A (zh) * 2013-05-28 2013-09-04 重庆大学 一种基于Hadoop的视频大数据分布式解码方法
CN104346340B (zh) * 2013-07-24 2018-10-16 日电(中国)有限公司 一种存储资源描述框架数据的方法和装置
CN104346340A (zh) * 2013-07-24 2015-02-11 日电(中国)有限公司 一种存储资源描述框架数据的方法和装置
CN106649708A (zh) * 2013-08-29 2017-05-10 华为技术有限公司 存储数据的方法和装置
CN103646051A (zh) * 2013-11-27 2014-03-19 武汉邮电科学研究院 一种基于列存储的大数据并行处理系统及方法
CN103646051B (zh) * 2013-11-27 2017-02-08 武汉邮电科学研究院 一种基于列存储的大数据并行处理系统及方法
CN103778251B (zh) * 2014-02-19 2016-09-07 天津大学 面向大规模rdf图数据的sparql并行查询方法
US10311071B2 (en) 2014-06-27 2019-06-04 International Business Machines Corporation System and method for generating random linked data according to an RDF dataset profile
US10303694B2 (en) 2014-06-27 2019-05-28 International Business Machines Corporation System and method for generating random linked data according to an RDF dataset profile
CN104133858B (zh) * 2014-07-15 2017-08-01 武汉邮电科学研究院 基于列存储的智能双引擎分析系统及方法
CN104317896A (zh) * 2014-10-24 2015-01-28 浪潮软件股份有限公司 一种基于海量数据进行分布式比对碰撞方法
CN104462609A (zh) * 2015-01-06 2015-03-25 福州大学 结合星型图编码的rdf数据存储与查询方法
CN104462609B (zh) * 2015-01-06 2017-09-15 福州大学 结合星型图编码的rdf数据存储与查询方法
CN104615703B (zh) * 2015-01-30 2017-12-08 福州大学 一种结合Rete算法的RDF数据分布式并行推理方法
CN104615703A (zh) * 2015-01-30 2015-05-13 福州大学 一种结合Rete算法的RDF数据分布式并行推理方法
CN104778235A (zh) * 2015-04-02 2015-07-15 浪潮集团有限公司 一种基于MapReduce云计算模型的树遍历搜索方法
CN104809168A (zh) * 2015-04-06 2015-07-29 华中科技大学 超大规模rdf图数据的划分与并行分布处理方法
CN104809168B (zh) * 2015-04-06 2017-12-29 华中科技大学 超大规模rdf图数据的划分与并行分布处理方法
CN106156238A (zh) * 2015-04-27 2016-11-23 科大讯飞股份有限公司 本体信息查询方法及系统
CN104850640A (zh) * 2015-05-26 2015-08-19 华北电力大学(保定) 一种基于HBase的电网设备状态监测数据存储和查询方法及系统
CN104951570A (zh) * 2015-07-27 2015-09-30 广州九尾信息科技有限公司 基于数据挖掘及lbs的兼职智能推荐系统
CN106933844A (zh) * 2015-12-30 2017-07-07 中国科学院深圳先进技术研究院 面向大规模rdf数据的可达性查询索引的构建方法
CN106933844B (zh) * 2015-12-30 2020-06-05 中国科学院深圳先进技术研究院 面向大规模rdf数据的可达性查询索引的构建方法
CN106295403A (zh) * 2016-10-11 2017-01-04 北京集奥聚合科技有限公司 一种基于hbase的数据安全处理方法及系统
CN109063191A (zh) * 2018-08-29 2018-12-21 上海交通大学 在rdf数据集上进行optional查询的方法及存储介质
CN109063191B (zh) * 2018-08-29 2021-07-06 上海交通大学 在rdf数据集上进行optional查询的方法及存储介质
CN110032676A (zh) * 2019-03-15 2019-07-19 中南大学 一种基于谓词关联的sparql查询优化方法及系统
CN110032676B (zh) * 2019-03-15 2022-08-05 中南大学 一种基于谓词关联的sparql查询优化方法及系统
CN111352961A (zh) * 2020-03-16 2020-06-30 华南师范大学 分布式rdf流数据处理方法、系统、装置及介质
CN111352961B (zh) * 2020-03-16 2023-03-28 华南师范大学 分布式rdf流数据处理方法、系统、装置及介质
WO2023124729A1 (zh) * 2021-12-31 2023-07-06 北京大学 查询数据的方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN103116625A (zh) 一种基于Hadoop的海量RDF数据分布式查询处理方法
CN107092656B (zh) 一种树状结构数据处理方法及系统
CN107016071B (zh) 一种利用简单路径特征优化树状结构数据的方法及系统
CN103177094B (zh) 一种物联网数据清洗方法
CN102915365A (zh) 基于Hadoop的分布式搜索引擎构建方法
CN102693310A (zh) 一种基于关系数据库的资源描述框架查询方法和系统
CN110909111B (zh) 基于知识图谱rdf数据特征的分布式存储与索引方法
CN103646032A (zh) 一种基于本体和受限自然语言处理的数据库查询方法
CN107491476B (zh) 一种适用于多种大数据管理系统的数据模型转换及查询分析方法
CN103678550A (zh) 一种基于动态索引结构的海量数据实时查询方法
CN102819569A (zh) 一种分布交互式仿真系统中的数据匹配方法
CN107066551A (zh) 一种树状数据的行式和列式存储方法及系统
Izsó et al. IncQuery-D: incremental graph search in the cloud.
CN103092992A (zh) 基于Key/Value型NoSQL数据库的矢量数据先序四叉树编码和索引方法
CN106445913A (zh) 基于MapReduce的语义推理方法及系统
Yimin et al. PFIMD: a parallel MapReduce-based algorithm for frequent itemset mining
CN113220820B (zh) 基于图的高效sparql查询应答方法、装置和设备
CN114372174A (zh) 一种xml文档分布式查询方法及系统
CN103186674A (zh) 一种基于XML的Web数据快速查询方法
CN102708285A (zh) 基于复杂网络模型并行化PageRank算法的核心药物挖掘方法
CN116383247A (zh) 一种大规模图数据高效查询方法
Ravindra et al. Efficient processing of RDF graph pattern matching on MapReduce platforms
CN106933844A (zh) 面向大规模rdf数据的可达性查询索引的构建方法
KR101515304B1 (ko) 하둡 기반의 리듀스-사이드 조인 처리 시스템의 리듀스-사이드 조인 질의 처리 방법
RU2605387C2 (ru) Способ и система для хранения данных графов

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130522