CN103617276A - 一种分布式层次化的rdf数据的存储方法 - Google Patents

一种分布式层次化的rdf数据的存储方法 Download PDF

Info

Publication number
CN103617276A
CN103617276A CN201310658588.5A CN201310658588A CN103617276A CN 103617276 A CN103617276 A CN 103617276A CN 201310658588 A CN201310658588 A CN 201310658588A CN 103617276 A CN103617276 A CN 103617276A
Authority
CN
China
Prior art keywords
data
rdf data
rdf
distributed
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310658588.5A
Other languages
English (en)
Inventor
黄宜华
顾荣
胡伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201310658588.5A priority Critical patent/CN103617276A/zh
Publication of CN103617276A publication Critical patent/CN103617276A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/217Database tuning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种分布式层次化的RDF数据的存储方法,包括以下步骤:对所有RDF数据进行索引;采用两个存储层以存储索引后的RDF数据,从底层到上层依次为:持久化存储层和分布式内存存储层;所有RDF数据首先存储到持久化存储层,然后,将常用的RDF数据存储到分布式内存存储层;将所有存储在持久化存储层的RDF数据自动保持多个备份;当检测到分布式内存存储层的节点发生数据失效时,在下次查询到该节点中的RDF数据时,从持久化存储层去获取相应的数据。本发明解决了现有的分布式存储方法计算延时大、性能低、应对动态变化的能力不足的问题。

Description

一种分布式层次化的RDF数据的存储方法
技术领域
本发明涉及通信技术领域,尤其涉及一种分布式层次化的RDF(Resource Description Framework,资源描述框架)数据的存储方法。
背景技术
语义网(Semantic Web)是万维网的一个重要发展方向,为万维网上的知识表示、推理、交换和复用提供了基础。由于任何机构和个人都允许自由发布语义网数据,尤其是现有商用搜索引擎倡导网站显式地提供语义数据、社交网络开始使用语义数据,这都使得语义网的数据量爆炸性增长。目前,以DBpedia和Bio2RDF为例的语义网数据已经达到了数以十亿计的规模。这些海量语义网数据一方面促进了语义网内容和知识的繁荣,同时也对现有语义网数据管理系统的性能提出了挑战。
语义网数据是采用RDF模型来表示的。RDF是一种数据模型,它是一个W3C推荐标准,用于Web上的数据交换。RDF定义了一个简单的有向图模型来表示资源以及资源间的联系,每个联系表示为一个RDF三元组,包括主语、谓语和宾语三个部分。一个RDF三元组声明了该三元组中的主语和宾语存在的谓语联系是成立的。RDF可以很灵活地对任何资源进行定义或声明。为了能够方便地对RDF数据进行查询和管理,W3C推荐了一种RDF查询的语言SPARQL(Simple Protocol and RDF Query Language),它的语法格式和SQL很类似。绝大部分的SPARQL查询语句的形式都是由一系列三元组模式(triple pattern)组成,其中每个三元组模式在格式上和一个RDF三元组类似,只是其中的主语、谓语或宾语可能是变量。另外,SPARQL也可以通过连接(join)、交/并、选择、投影等操作来构造更加复杂的查询。
传统的RDF数据管理软件,如Sesame、3store等,均在单机上运行。随着RDF数据量的不断增长,单台计算机存在规模上限,已经难以有效地存储和管理海量RDF数据。因此近些年来,人们开始通过将大规模RDF数据集划分存储到分布式系统中的多个机器上进行管理和查询操作。这些分布式的RDF数据管理系统可以宽泛地划分为两类:一类是将RDF数据集看成由多条三元组记录组成,构建针对这些三元组记录的分布式存储系统,这类系统一般都是直接建立在现在广为使用的大数据的基础处理引擎Apache Hadoop、HBase、Pig等之上,例如Jena-HBase、SHARD和PigSPARQL等。这类方法存在的一个严重的问题就是性能较低,其原因是它们将查询转换为一系列MapReduce任务执行,而MapReduce的设计定位侧重处理高延时的离线处理分析等应用;另外一种方法将RDF数据集看成一张图,采用图划分的优化技术来提高查询时模式匹配的效率,这类方法被称为基于图划分的方法。在实际应用中基于图划分的方法有一个重要缺陷,当有新的批量数据或机器加入到系统中,为了重新使整个系统负载均衡,整个新的RDF图需要重新划分。该过程非常耗时甚至需要中止对外提供的查询服务。当图很大时,对均匀地划分图将越来越难实现。从这个意义上看,基于图划分的方法并不具备动态性,对于现实中流式或增量式输入RDF数据的应用场景不适用。
发明内容
发明目的:针对上述现有技术存在的问题和不足,本发明的目的是提供一种分布式层次化的RDF数据的存储方法,解决了现有的分布式存储方法计算延时大、性能低、应对动态变化的能力不足的问题。
技术方案:为实现上述发明目的,本发明采用的技术方案为一种分布式层次化的RDF数据的存储方法,包括以下步骤:
(1)对所有RDF数据进行索引;
(2)采用两个存储层以存储索引后的RDF数据,从底层到上层依次为:持久化存储层和分布式内存存储层;所有RDF数据首先存储到持久化存储层,然后,将常用的RDF数据存储到分布式内存存储层;
(3)将所有存储在持久化存储层的RDF数据自动保持多个备份;当检测到分布式内存存储层的节点发生数据失效时,在下次查询到该节点中的RDF数据时,从持久化存储层去获取相应的数据,然后根据一致性哈希算法将获取到的数据加载到分布式内存存储层的其他节点以供后面快速查询。
进一步地,采用冷热数据混合索引的方法对所有RDF数据进行索引。更进一步的,采用基于哈希的索引方法索引冷热数据,支持快速查询并节省RDF数据存储空间,哈希索引后的RDF数据可以支持快速的查询定位,避免查询时进行全表扫描;同时,索引后RDF数据量大幅压缩,有利于存放在内存数据库中进行快速查询。更进一步的,为了解决哈希索引后的碰撞问题,采用基于MD5哈希和闭散列的方法存储发生碰撞的RDF数据。
进一步地,所述步骤(2)中,将“主语谓语*”和“*谓语宾语”这两种查询模式的RDF数据存储到分布式内存存储层,其中*为一个通配符,表示相应的部分可取任意值。
进一步地,所述步骤(2)中,当分布式内存存储层的容量不足时,用新的RDF数据替换过时的RDF数据。
进一步地,所述步骤(3)中,为了解决RDF数据的存储的可靠性以及容错问题,分布式内存存储层的节点上运行守护进程,用于监控本节点的状态,并将该状态注册到全局监管服务中;一旦有节点发生数据失效,全局监管服务感知到,当下次需要到该节点查询数据时,跳向持久化存储层进行查询,并将使用到的相关数据重新载入到分布式内存存储层的其他节点中,以供后面快速查询。
进一步地,还包括步骤(4):提供位于最上层的RDF数据存储和查询接口层,用于导入数据和向用户提供查询服务。更进一步的,所述步骤(4)中,RDF数据存储和查询接口包括SPARQL引擎模块、数据库选择模块和数据库连接模块;所述SPARQL引擎模块用于解析用户提交的查询请求并生成相应的查询计划,所述数据库选择模块用于决定是将查询请求发送到持久化存储层还是直接在分布式内存存储层上完成,所述数据库连接模块用于管理和保持常用的数据库连接,同时还负责监管关于数据库状态的信息。
有益效果:本发明能够高效地对大规模RDF数据进行存储:第一,设计一个分布式层次化存储架构来高效地存储大规模RDF数据。所有的RDF数据都通过一个基于硬盘的分布式数据存储引擎进行持久化存储。为解决RDF数据的查询缺乏本地化的特点,提高对磁盘的随机访问性能,本发明在持久化存储层之上还设计了一个分布式内存存储层来存储那些经常被查询的RDF数据及其索引;第二,通过对百万条真实用户的查询日志和很多基准测试中查询实例的分析,本发明在上述层次化存储架构的基础之上,设计了一个冷热数据混合索引机制,以更好地利用系统架构并提高性能;第三,为了提升系统应对动态变化的能力,本发明对存储在分布式内存中的RDF数据采用一致性哈希算法来对进行划分。当系统需要增加或删减存储资源时,无需对原有RDF数据全部重新划分即可在线完成调整,整个调整过程中对外服务无需中止;第四,由于在现实应用中,分布式系统中独立的节点可能会发生故障。为保障在节点发生故障时整个分布式系统的高可用性,本发明还设计了一套容错机制。
附图说明
图1为本发明的方法总体示意图;
图2为本发明中节点状态监测示意图(变化的节点指新增或故障节点);
图3为本发明中节点数据划分示意图(变化的节点指新增或故障节点);
图4为本发明中RDF三元组的混合索引机制和数据存放策略示意图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明采用两个存储层以存储数据,从底层到上层依次为:持久化存储层和分布式内存存储层;还包括位于最上层的RDF数据存储和查询接口层;将常用的RDF数据存储到分布式内存存储层,将不常用的RDF数据存储到持久化存储层;当分布式内存存储层的容量不足时,用最新查询的RDF数据替换过时的RDF数据;RDF数据存储和查询接口层用于导入数据和向用户提供查询服务。进一步地,本发明还提供了一种节点的容错和动态扩展机制。
将一个RDF三元组(记为“主语谓语宾语”)导入存储中的流程包括以下步骤:
(1)将该三元组按照key=“主语谓语”,value=“宾语”格式添加到位于分布式内存存储层的“主语谓语”RDF数据表中;
(2)将该三元组按照key=“谓语宾语”,value=“主语”格式添加到位于分布式内存存储层的“谓语宾语”RDF数据表中;
(3)将该三元组按照key=“主语谓语宾语”的格式添加到位于持久化存储层的“主语谓语宾语”RDF数据表中;
(4)将该三元组按照key=“谓语宾语主语”的格式添加到位于持久化存储层的“谓语宾语主语”RDF数据表中;
(5)将该三元组按照key=“宾语主语谓语”的格式添加到位于持久化存储层的“宾语主语谓语”RDF数据表中。
进一步地,所述RDF数据存储和查询接口层包括SPARQL(Simple Protocol and RDF Query Language)引擎模块、数据库选择模块和数据库连接模块;所述SPARQL引擎模块用于解析用户提交的查询请求并生成相应的查询计划,所述数据库选择模块用于决定是将查询请求发送到持久化存储层还是直接在分布式内存存储层上完成,所述数据库连接模块用于管理和保持常用的数据库连接,同时还负责监管关于数据库状态的信息。对于一个给定的RDF查询模式请求,其处理流程包括以下步骤:
(1)如果该查询模式是“主语谓语*” (*表示一个通配符,表示相应的部分可以取任意值)或“主语谓语宾语”,则以“主语谓语”为key直接到位于分布式内存存储层的“主语谓语”表中查询,如果查询结果不为空则返回结果,查询结束。如果不为空,则按步骤(3)中的查询方式进行。
(2)如果该查询模式是“谓语宾语*”,则以“谓语宾语”为key直接到位于分布式内存存储层的“谓语宾语”表中查询,如果查询结果不为空则返回结果,查询结束。如果不为空,则按步骤(4)中的查询方式进行。
(3)如果该查询模式是“主语*”或“主语宾语*”,则以“主语*”为key到位于持久化存储层的“主语谓语宾语”表中进行通配查询,将查询的结果返回,同时将结果以对应的格式插入到分布式存储层的“主语谓语”和“谓语宾语”RDF数据表中。
(4)如果该查询模式是“谓语*”,则以“谓语*”为key到位于持久化存储层的“谓语宾语主语”表中进行通配查询,将查询的结果返回,同时将结果以对应的格式插入到分布式存储层的“主语谓语”和“谓语宾语”RDF数据表中。
(5)如果该查询模式是“宾语*”,则以“宾语*”为key到位于持久化存储层的“宾语主语谓语”表中进行通配查询,将查询的结果返回,同时将结果以对应的格式插入到分布式存储层的“主语谓语”和“谓语宾语”RDF数据表中。
(6)如果该查询模式是“*”,则对位于持久化存储层“主语谓语宾语”表的全表扫描,并将结果返回。
本发明中容错机制的工作流程是:所述分布式内存存储层的节点上运行守护进程,用于监控本节点内存数据库的状态,并将该状态注册到全局监管服务中;一旦有节点内存数据库发生故障,全局监管服务感知到,当下次需要到该节点查询内存数据库时,跳向持久化存储层进行查询,并将使用到的相关RDF数据重新载入到其他节点的内存数据库中。
如图1所示,本发明所涉及到的分布式层次化的RDF数据的存储方法的实施方式为:构建一个包括主要包括3个层面的系统,其中持久化存储层在最底层,并通过多个副本的方式对该层的数据进行容错。持久化存储层是基于磁盘的,有很大的数据容量,但是对随机存储效率不高,因此本发明还采用多个Key-Value类型的内存数据库(一个Key-Value类型的内存数据库对应一个节点)构建了一个分布式内存存储层。存储在分布式内存存储层的数据具有很快的访问速度,但是数据总体的容量不大。为此,本发明设计了一套混合式的RDF数据存储机制,将常用的RDF数据存到分布式内存存储层的内存数据库中,而不常用的RDF数据存储到持久化存储层中。随着查询的进行,将新的常用的RDF数据导入到分布式内存存储层中,当分布式内存存储层容量不够的时候,会启动LRU(Least Recently Used,近期最少使用)替换机制,优先清除很久没被使用过的内存中的RDF数据。最后,本发明还在最上层构建了一个RDF数据存储和查询接口层,这一层主要负责数据的导入和向终端用户(简称“用户”)提供查询服务。它由3个子模块构成,第一个子模块是SPARQL引擎模块。用户提交的查询请求的解析和优化的查询计划将在这里生成;第二个子模块是数据库选择模块,主要是用于决定是将查询请求发送到持久化存储层还是直接在分布式内存存储层上完成;第三个子模块是数据库连接模块,主要工作是管理和保持一些经常使用的数据库连接,同时还负责监管一些关于数据库状态的信息。通过第三个子模块,可以在实际查询的时候避免或减少连接数据的额外开销,同时还能在系统运行过程中及时发现数据故障,以做容错处理。
本发明中针对分布式的RDF数据库提出的容错和支持动态变化的实施方式为:针对中间层分布式内存存储的容错和可扩展问题设计了一系列方法,如图2和图3所示。分布式内存存储是由多个Key-Value类型的内存数据库(一个Key-Value类型的内存数据库对应一个节点)构建而成的。本发明首先在这些节点上运行一个守护进程负责监控本节点内存数据库的状态,然后观测到的状态注册到全局监管服务中。对于一个给定Key的数据,其所在的Key-Value类型的内存数据库地址是通过一致性哈希算法决定的。接着,一旦有Key-Value类型的内存数据库对应的节点发生故障时,全局监管服务会及时感知到,当有查询通过Key算出需要到该节点查询内存数据库时,程序自动跳向底层持久化存储层进行查询,并将使用到的相关RDF数据重新载入到其他节点的内存数据库中。同理,本发明也是通过类似的机制实现节点的动态扩展技术,当有新的节点添加到分布式内存存储层之后,该新的节点将会注册到全局监管服务上。通过一致性哈希算法,新加入的节点会分担掉集群中其他Key-Value类型的内存数据库中的一些数据,从而达到负载均衡的目的。
SPARQL查询通常都是由一组RDF三元组查询模式(简称“三元组模式”)匹配组成的。在RDF三元组数据库中,为了能够提高这些模式匹配的速度,通常会建立这些模式的索引。和现有的方法不同,本发明所提出的建立索引的方式是从信息检索角度,而不是数据的角度。为了提供更快的查询速度,本发明还采用了一种混合式的索引技术。其实施方式为:首先,为了分析这些三元组查询模式的分布情况,本发明基于含有两千万查询记录的真实的DBpedia查询日志以及一些广为使用的LUBM、SP2Bench等基准测试实例上做了统计。接着,根据统计结果发现,“主语谓语*”、“*谓语宾语”和“*谓语*”(*表示一个通配符,表示相应的部分可以取任意值)这三种模式经常被用到,其占了所有三元组模式匹配查询条数的90%以上,而“*谓语*”通常又可以扩展成“主语谓语*”、“*谓语宾语”。最后,基于这个分析结果,为了更好地利用本发明提出的层次化存储架构,本发明提出了一个混合式的存储模式(如图4所示):将“主语谓语*”、“*谓语宾语”这两种查询模式的RDF数据存放到分布式内存存储层中,而将通用查询模式的RDF数据存储到持久化存储层。
本发明基于已有的一些开源软件实现了一个原型系统。其中持久化数据存储采用HBase、全局监管服务采用ZooKeeper,这两个软件不属于本发明的内容。通过使用国际工具评测中的LUBM基准测试(http://swat.cse.lehigh.edu/projects/lubm/)对本发明实现的原型系统和现有方法进行测试,评测中使用查询耗时作为度量指标。通过与Jena-Hbase、SHARD这2个现有方法的对比,本发明实现的原型系统在绝大多数测试例子上的查询效率一致优于现有方法(参见表1),证明了本发明的分布式层次化的RDF数据的存储方法的有效性。
表1:本发明与现有两种方法的在LUBM-10数据集查询性能对比(单位:毫秒)
Figure 573040DEST_PATH_IMAGE001

Claims (9)

1.一种分布式层次化的RDF数据的存储方法,包括以下步骤:
(1)对所有RDF数据进行索引;
(2)采用两个存储层以存储索引后的RDF数据,从底层到上层依次为:持久化存储层和分布式内存存储层;所有RDF数据首先存储到持久化存储层,然后,将常用的RDF数据存储到分布式内存存储层;
(3)将所有存储在持久化存储层的RDF数据自动保持多个备份;当检测到分布式内存存储层的节点发生数据失效后,在下次查询到该节点中的RDF数据时,从持久化存储层去获取相应的数据,然后根据一致性哈希算法将获取到的数据加载到分布式内存存储层的其他节点以供后面快速查询。
2.根据权利要求1所述一种分布式层次化的RDF数据的存储方法,其特征在于:采用冷热数据混合索引的方法对所有RDF数据进行索引。
3.根据权利要求1所述一种分布式层次化的RDF数据的存储方法,其特征在于:采用基于哈希的索引方法对所有RDF数据进行索引。
4.根据权利要求3所述一种分布式层次化的RDF数据的存储方法,其特征在于:所述步骤(1)中,采用基于标准MD5哈希和闭散列的方法存储发生碰撞的RDF数据。
5.根据权利要求1所述一种分布式层次化的RDF数据的存储方法,其特征在于:所述步骤(2)中,将“主语谓语*”和“*谓语宾语”这两种查询模式的RDF数据存储到分布式内存存储层,其中*为一个通配符,表示相应的部分可取任意值。
6.根据权利要求1所述一种分布式层次化的RDF数据的存储方法,其特征在于:所述步骤(2)中,当分布式内存存储层的容量不足时,用新的RDF数据替换过时的RDF数据。
7.根据权利要求1所述一种分布式层次化的RDF数据的存储方法,其特征在于:所述步骤(3)中,分布式内存存储层的节点上运行守护进程,用于监控本节点的状态,并将该状态注册到全局监管服务中;一旦有节点发生数据失效,全局监管服务感知到,当下次需要到该节点查询数据时,跳向持久化存储层进行查询,并将使用到的相关数据重新载入到分布式内存存储层的其他节点中,以供后面快速查询。
8.根据权利要求1所述一种分布式层次化的RDF数据的存储方法,其特征在于:还包括步骤(4):提供位于最上层的RDF数据存储和查询接口层,用于导入数据和向用户提供查询服务。
9.根据权利要求8所述一种分布式层次化的RDF数据的存储方法,其特征在于:所述步骤(4)中,RDF数据存储和查询接口包括SPARQL引擎模块、数据库选择模块和数据库连接模块;所述SPARQL引擎模块用于解析用户提交的查询请求并生成相应的查询计划,所述数据库选择模块用于决定是将查询请求发送到持久化存储层还是直接在分布式内存存储层上完成,所述数据库连接模块用于管理和保持常用的数据库连接,同时还负责监管关于数据库状态的信息。
CN201310658588.5A 2013-12-09 2013-12-09 一种分布式层次化的rdf数据的存储方法 Pending CN103617276A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310658588.5A CN103617276A (zh) 2013-12-09 2013-12-09 一种分布式层次化的rdf数据的存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310658588.5A CN103617276A (zh) 2013-12-09 2013-12-09 一种分布式层次化的rdf数据的存储方法

Publications (1)

Publication Number Publication Date
CN103617276A true CN103617276A (zh) 2014-03-05

Family

ID=50167979

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310658588.5A Pending CN103617276A (zh) 2013-12-09 2013-12-09 一种分布式层次化的rdf数据的存储方法

Country Status (1)

Country Link
CN (1) CN103617276A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050243A (zh) * 2014-05-28 2014-09-17 黄斌 一种将搜索与社交相结合的网络搜索方法及其系统
CN104462609A (zh) * 2015-01-06 2015-03-25 福州大学 结合星型图编码的rdf数据存储与查询方法
CN105005603A (zh) * 2015-07-03 2015-10-28 北京市空越技术有限公司 基于可伸缩性设计的教育平台数据缓存方法及系统
CN106294556A (zh) * 2016-07-26 2017-01-04 江苏神州信源系统工程有限公司 一种使用Apache Drill集中搜索大数据库的方法
CN108038199A (zh) * 2017-12-12 2018-05-15 清华大学 一种层次结构的传感器时序数据存储方法和系统
CN108776579A (zh) * 2018-06-19 2018-11-09 郑州云海信息技术有限公司 一种分布式存储集群扩容方法、装置、设备及存储介质
CN109933279A (zh) * 2017-12-19 2019-06-25 中国科学院声学研究所 一种支持混合存储系统的内容过滤方法
CN110046158A (zh) * 2017-12-29 2019-07-23 达索系统美国公司 不利用字典管理的通用唯一资源
CN110110034A (zh) * 2019-05-10 2019-08-09 天津大学深圳研究院 一种基于图的rdf数据管理方法、装置及存储介质
CN113191498A (zh) * 2021-04-30 2021-07-30 重庆交通大学 一种基于规则的Spark分布式弹性语义流推理方法
CN113886652A (zh) * 2021-10-09 2022-01-04 北京欧拉认知智能科技有限公司 一种内存优先的多模图数据存储与计算方法及系统

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050243B (zh) * 2014-05-28 2019-05-28 北京立新盈企大数据技术股份有限公司 一种将搜索与社交相结合的网络搜索方法及其系统
CN104050243A (zh) * 2014-05-28 2014-09-17 黄斌 一种将搜索与社交相结合的网络搜索方法及其系统
CN104462609A (zh) * 2015-01-06 2015-03-25 福州大学 结合星型图编码的rdf数据存储与查询方法
CN104462609B (zh) * 2015-01-06 2017-09-15 福州大学 结合星型图编码的rdf数据存储与查询方法
CN105005603A (zh) * 2015-07-03 2015-10-28 北京市空越技术有限公司 基于可伸缩性设计的教育平台数据缓存方法及系统
CN106294556A (zh) * 2016-07-26 2017-01-04 江苏神州信源系统工程有限公司 一种使用Apache Drill集中搜索大数据库的方法
CN108038199A (zh) * 2017-12-12 2018-05-15 清华大学 一种层次结构的传感器时序数据存储方法和系统
CN109933279A (zh) * 2017-12-19 2019-06-25 中国科学院声学研究所 一种支持混合存储系统的内容过滤方法
CN109933279B (zh) * 2017-12-19 2021-01-22 中国科学院声学研究所 一种支持混合存储系统的内容过滤方法
CN110046158A (zh) * 2017-12-29 2019-07-23 达索系统美国公司 不利用字典管理的通用唯一资源
CN110046158B (zh) * 2017-12-29 2024-05-31 达索系统美国公司 不利用字典管理的通用唯一资源
CN108776579A (zh) * 2018-06-19 2018-11-09 郑州云海信息技术有限公司 一种分布式存储集群扩容方法、装置、设备及存储介质
CN108776579B (zh) * 2018-06-19 2021-10-15 郑州云海信息技术有限公司 一种分布式存储集群扩容方法、装置、设备及存储介质
CN110110034A (zh) * 2019-05-10 2019-08-09 天津大学深圳研究院 一种基于图的rdf数据管理方法、装置及存储介质
CN113191498A (zh) * 2021-04-30 2021-07-30 重庆交通大学 一种基于规则的Spark分布式弹性语义流推理方法
CN113191498B (zh) * 2021-04-30 2022-08-05 重庆交通大学 一种基于规则的Spark分布式弹性语义流推理方法
CN113886652A (zh) * 2021-10-09 2022-01-04 北京欧拉认知智能科技有限公司 一种内存优先的多模图数据存储与计算方法及系统
CN113886652B (zh) * 2021-10-09 2022-06-17 北京欧拉认知智能科技有限公司 一种内存优先的多模图数据存储与计算方法及系统

Similar Documents

Publication Publication Date Title
CN103617276A (zh) 一种分布式层次化的rdf数据的存储方法
US9489443B1 (en) Scheduling of splits and moves of database partitions
US9460185B2 (en) Storage device selection for database partition replicas
CN102567495B (zh) 一种海量信息存储系统及实现方法
US20060206621A1 (en) Movement of data in a distributed database system to a storage location closest to a center of activity for the data
CN109933631A (zh) 基于Infiniband网络的分布式并行数据库系统及数据处理方法
CN105608228B (zh) 一种高效的分布式的rdf数据存储方法
CN105975345B (zh) 一种基于分布式内存的视频帧数据动态均衡存储管理方法
CN116541427B (zh) 数据查询方法、装置、设备及存储介质
CN106156319A (zh) 可伸缩的分布式的资源描述框架数据存储方法及装置
Fang et al. Integrating workload balancing and fault tolerance in distributed stream processing system
Vilaça et al. A correlation-aware data placement strategy for key-value stores
Sawyer et al. Understanding query performance in Accumulo
Qi Digital forensics and NoSQL databases
CN117056303B (zh) 适用于军事行动大数据的数据存储方法及装置
Lai et al. A scalable multi-attribute hybrid overlay for range queries on the cloud
CN107908713A (zh) 一种基于Redis集群的分布式动态杜鹃过滤系统及其过滤方法
Gu et al. Optimization of service addition in multilevel index model for edge computing
Khatibi et al. A dynamic data dissemination mechanism for Cassandra NoSQL data store
CN104391931A (zh) 一种云计算中海量数据高效索引方法
CN115114289A (zh) 一种数据查询方法、装置及电子设备
He et al. SLC-index: A scalable skip list-based index for cloud data processing
Vilaça et al. On the expressiveness and trade-offs of large scale tuple stores
Dai et al. GraphTrek: asynchronous graph traversal for property graph-based metadata management
Liu et al. Design and optimization for distributed indexing scheme in switch-centric cloud storage system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140305