CN104216988A - 分布式大数据的ssd磁盘和hdd磁盘混合存储方法 - Google Patents

分布式大数据的ssd磁盘和hdd磁盘混合存储方法 Download PDF

Info

Publication number
CN104216988A
CN104216988A CN201410448162.1A CN201410448162A CN104216988A CN 104216988 A CN104216988 A CN 104216988A CN 201410448162 A CN201410448162 A CN 201410448162A CN 104216988 A CN104216988 A CN 104216988A
Authority
CN
China
Prior art keywords
data
disk
hdd
file
ssd
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410448162.1A
Other languages
English (en)
Inventor
冯志杰
冯志勇
王鑫
饶国政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201410448162.1A priority Critical patent/CN104216988A/zh
Publication of CN104216988A publication Critical patent/CN104216988A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种分布式大数据的SSD磁盘和HDD磁盘混合存储方法,包括以下步骤:步骤(1)针对集群系统中各节点的分布式大数据,构建JS-model存储模型,该存储模型包括一个Journal文件和多个segment文件;其中,Journal文件用于数据缓冲,对数据进行快速读写操作;segment文件用于数据持久化稳定存储,支持数据追加读和数据随机访问;步骤(2)基于JS-model存储模型构建SSD磁盘和HDD磁盘混合分布式存储模型HDStore;步骤(3)利用HDStore管理journal文件和segment文件,优化数据读写;步骤(4)下载并生成Lubm数据集,对该数据集进行预处理,为数据装载入Bigdata系统,测试装载时间和查询时间。本发明有效并且高效的管理语义大数据的混合分布式存储方案,从而促进了大规模数据存储管理的进步与发展。

Description

分布式大数据的SSD磁盘和HDD磁盘混合存储方法
技术领域
本发明涉及数据存储技术领域,具体来说,涉及语义大数据的混合分布式快速存储。
背景技术
随着现代Web技术的普及与发展,信息的快速增长使得人类进入了大数据时代,这对传统的数据管理方式提出了巨大挑战,以此同时,大数据技术逐渐兴起。大数据技术由各种技术共同构成,例如并行计算、分布式文件系统、分布式数据库、可扩展存储系统等等。其中,关键技术之一是如何有效并且高效的存储管理大数据。为了解决上述问题,数据在存储管理上,有以下几种选择,例如根据数据重要性进行分类,对数据处理过程进行合理安排,或者利用分布式存储技术来提高数据的读写速率等。
当前计算机硬件发展迅速,然后HDD却是个例外。经过研究发现,HDD磁盘的物理结构限制了I/O速率。由于磁盘的传输速度并没有改变,根据木桶效应,这永远是整个计算机性能提升的一个瓶颈。机械硬盘的基本工作方式如下,当数据需要读写时,HDD将会得到指令,之后一系列动作发生,例如磁盘转动,磁头移动等。由于机械运动,这将消耗几毫秒时间。避免磁盘结构的机械设计,采用新结构是提高磁盘读写性能的基本方式。如今,SSD作为一种利用集成电路组件作为内存的数据持久化存储设备。相比于HDD来说,SSD具有显著的读写性能优势。SSD是由固态电子存储芯片阵列构成,它在接口规范和定义、功能以及使用方式上与HDD完全一样。然后相比于HDD来说,SSD拥有更多的优势,例如I/O速度更快、防震、低功耗、低噪音、轻量级等等。同时,SSD也有许多不足之处,SSD的容量有限,使用寿命短,价格高。
传统的高性能数据库系统主要基于HDD,不能够高效的处理大数据,其性能瓶颈主要集中在I/O速率。针对以上问题,考虑到HDD和SSD各自特性,综合利用两种设备来构建混合存储将有效提高大数据存储管理性能,这是一种大数据存储技术上新的方案。这对分布式大数据存储管理性能具有重要影响,也有助于语义网相关大数据应用的推进。
发明内容
为了克服上述现有技术,本发明提出了一种分布式大数据的SSD磁盘和HDD磁盘混合存储方法,综合利用HDD磁盘和SSD磁盘,通过JS-model模型来实现基于SSD/HDD的混合存储方案,在分布式环境下解决大数据存储管理问题,最终达到大数据管理的有效性,高效性,为大数据的存储以及公开发布做准备。
本发明的技术方案如下:
本发明提出了一种分布式大数据的SSD磁盘和HDD磁盘混合存储方法,具有中心频率和带宽值可调的滤波电路,该方法包括以下步骤:
步骤1、针对集群系统中各节点的分布式大数据,构建JS-model存储模型,该存储模型包括一个Journal文件和多个segment文件;其中,Journal文件用于数据缓冲,对数据进行快速读写操作;segment文件用于数据持久化稳定存储,支持数据追加读和数据随机访问;
步骤2、基于JS-model存储模型构建SSD磁盘和HDD磁盘混合分布式存储模型HDStore;
步骤3、利用HDStore管理journal文件和segment文件,优化数据读写;即:把数据读写频繁的journal文件放置在较小容量的SSD上,把数据随机访问的segment文件放置在较大容量的HDD上;
步骤4、下载并生成Lubm数据集,对该数据集进行预处理,为数据装载入Bigdata系统,测试装载时间和查询时间。
所述Journal文件为数据项i的有限集合,作为集群中每一个节点上的数据项i,由原始数据记录r和时间戳t共同构成。
所述segment文件由Journal文件构建,构建流程具体包括以下步骤:
在初始状态下,集群中的每个节点仅有一个journal文件;随着journal文件中数据项的增加,journal文件容量达到上限,这样通过从journal文件中转移数据到segment文件中,构建出一个新的segment文件。
所述HDStore数据存储模型的体系结构,从下层向上层包括:用于机器与机器之间通讯的集群管理层、为单个节点的存储介质基于小容量的SSD磁盘和大容量的HDD磁盘、用来管理磁盘设备的Linux操作系统;通过不同的服务对数据进行存储管理的Bigdata数据库;用于支持多种大数据语义的应用层。
所述SSD磁盘和HDD磁盘混合分布式存储模型HDStore在分布式环境下,还包括以下三种配置:
HDStore中journal文件和segment文件同时放置在HDD磁盘中;
HDStore中journal文件和segment文件同时放置在SSD磁盘中;
HDStore中journal文件放置在SSD磁盘中,segment文件放置在HDD磁盘中。
与现有技术相比,本发明针对的是大规模数据的分布式混合存储,最终提供一种基于JS-model的HDStore混合分布式模型,来有效并且高效的管理语义大数据的混合分布式存储方案,从而促进了大规模数据存储管理的进步与发展,有助于基于大数据的相关应用的成熟。
附图说明
图1是本发明中基于JS-model存储模型,在不同节点设备上的数据操作示意图;
图2是HDStore存储模型的体系结构图;
图3是HDStroe存储模型中DataServer服务中的文件系统操作示意图;
图4是基于HDStroe存储模型的大数据分布式混合存储集群配置图;
图5是本发明的整体流程示意图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明,但本发明的实施范围并不局限于此。
本发明采用的具体实施方式包括以下流程:
步骤1,研究现有的大数据存储主要基于HDD,JS-model不同于传统数据存储方式,存储数据持久化到文件中,文件包括一个journal文件和多个segment文件;针对大规模数据,构建JS-model存储模型:二元组、数据记录、数据项、时间戳、JS集合的基本概念、journal文件、segment文件,以及在其上的build、move、split、merge四种数据文件操作;
步骤2,基于JS-model构建一种新的SSD/HDD混出分布式存储方案,即HDStore;
步骤3,在不同磁盘上,利用HDStore来管理journal和segment文件,优化数据读写;
步骤4,编写HDStore组件完善其功能,从而对不同journal和segment文件进行管理;
步骤5,为Bigdata系统添加静态HDStore组件服务,从而对bigdata系统的数据装载性能进行优化,把数据持久化存储的journal和segment文件进行分离,以及部分数据在SSD上的查询性能的优化;
步骤6,下载并生成Lubm数据集,对该数据集进行简单的预处理(例如数据标准格式检验,大数据文件切分等),为数据装载入Bigdata系统做准备;
步骤7,设计并实现分布式环境下,HDStore方案中journal文件和segment文件同时放置在HDD磁盘中,对于不同大小Lbum数据集装载入Bigdata系统,测试装载时间和查询时间。
步骤8,设计并实现分布式环境下,HDStore方案中journal文件和segment文件同时放置在SSD中,对于不同大小Lbum数据集装载入Bigdata系统,测试装载时间和查询时间。
步骤9,设计并实现分布式环境下,HDStore方案中journal文件放置在SSD中,segment文件放置在HDD磁盘中,对于不同大小Lbum数据集装载入Bigdata系统,测试装载时间和查询时间。
上述的步骤1中,研究并抽象出大数据存储模型,该模型基于数据持久化到journal文件和segment文件中。其中,journal文件作为数据写缓冲,存放半结构化可读可写数据,有且仅有一个,segment文件按照一定的索引方式持久化存储数据,根据数据大小动态生成segment文件个数。
本发明的步骤1具体过程如下:
假设数据项i、数据索引I、二元组r和t,其中r是数据记录,t是时间戳;
Journal文件J是数据项i的有限集合,在集群中的一个节点上,原始数据记录和时间戳,共同构成数据项,多个数据项存放在journal文件中。数据项是数据的基本单元,追加到journal文件中。如公式(1)所示:
J={ii=<r,t>},|J|≤N,其中N是正整数.(1)
Segment文件S是数据项I的无限集合,segment文件S使用B-tree结构组织数据索引,B-tree的叶子节点由数据项I构成。值得注意的是,数据项在journal文件中是无序的,在segment文件中是有序B-tree。如公式(2)所示:
S={I|I=<R,T>}.  (2)
JS集合是一个journal文件和多个segment文件的并,其中journal文件有且仅有一个,一个journal作为缓冲对应多个segment文件,segment文件个数依赖于数据项个数。如公式(3)所示:
JS=J∪S1∪,…,∪Sn       (3)
以上定义了JS-model,它是一种文件集合。为了描述数据存储模型,还需要在journal和segment文件上定义几种操作:build操作是从一个journal文件开始创建一个segment文件;split操作是从一个segment文件分裂成多个segment文件;move操作是把一个segment文件从集群中一个机器节点移动到另外一个节点;merge操作是把多个segment文件合并为一个紧凑的单独segment文件。
本发明的步骤2基于JS-model设计出新的数据存储方案,即HDStore。其中,journal文件有且仅有一个,主要用作数据缓冲,对数据进行快速读写操作;segment文件有多个,对数据进行持久化稳定存储,主要支持数据追加读和数据随机访问。我们把journal文件和segment文件根据功能不同进行分离,在步骤4)中把数据读写频繁的journal文件放置在较小容量的SSD上,把数据随机访问的segment文件放置在较大容量的HDD上,保证数据加载存入的高效性和数据持久化存储的有效性。
本发明的步骤4和步骤5,在已有的开源系统Bigdata上,编写实现HDStore大数据分布式混合存储组件,优化Bigdata的数据装载于查询性能。步骤7对装入数据进行预处理,步骤7、8、9,针对不同磁盘的配置,分别应用JS-model存储模型,在单独的HDD使用JS-model,在单独的SSD使用JS-moedel,把journal文件放置在SSD上和把segment文件放置在HDD上,三种不同方案下,得到HDStore同时运用HDD和SSD时,在分布式大数据存储管理上的高性价比。
如图1所示,基于JS-model存储模型,在集群中不同节点之间,需要进行以下数据操作:
1、build操作。build操作是从一个journal文件开始,创建一个新的segment文件。在初始状态下,集群中的每个节点仅有一个journal文件,没有segment文件。随着journal文件中数据项的增加,journal文件容量达到上限,这样通过从journal文件中转移数据到segment文件中,一个新的segment文件也就构建。
2、split操作。split操作是把一个旧的segment文件依据集群中节点个数切分成多个segment文件。为了适应磁盘空间容量有限性,文件系统会限定文件大小,随着segment文件中数据索引项的增加,segment文件达到其容量限制,这样,它会被自动切分为多个segment文件,为下一步数据存储做准备。
3、move操作。move操作是把一个segment文件从集群中的一个节点移动到另外一个节点上。为了适应分布式系统中的负载均衡,segment文件需要从存储数据较多的节点移动到存储数据较少的节点,但是journal文件是本地的,不会被移动。
4、merge操作。merge操作是把多个segment文件合并成一个新的紧凑的segment文件。随着数据加载过程的进行,会存在大量的小数据segment文件,考虑到数据的紧凑性和空间的利用率,merge操作相当重要。
如图2所示,HDStore数据存储模型的体系结构,从下向上主要包括五层,即:用于机器与机器之间通讯的集群管理层、单个节点的存储介质基于小容量的SSD和大容量的HDD、用来管理磁盘设备的Linux操作系统;通过不同的服务对数据进行存储管理的Bigdata数据库;上层的用于支持多种大数据语义的应用层。
如图3所示,HDStroe存储模型在节点上运行不同服务来对数据进行管理。DataServer服务负责构建数据索引,同时使用文件系统对数据进行持久化存储。集群中的每个节点上,会配置较小容量的SSD和较大容量的HDD,其中SSD用来对数据进行快速缓冲,HDD用来对大规模数据进行持久化存储。
在HDStroe存储模型中,DataServer服务把源数据构建成多种不同的索引,以便在journal文件和segment文件中存放数据记录,一个journal文件对应多个segment文件。Journal文件被用作数据缓冲,它可以写一次读多次,其中所有的历史记录状态都可被访问。Journal文件使用数据记录r和时间戳t来维护数据引用,仅用作数据加载和临时存储。但是,journal文件又不同于内存中的缓存,journal文件在磁盘上对数据进行文件持久化存储。数据项i在journal文件中无序存放,逻辑追加到journal文件中。Journal文件支持溢出概念,当它达到了阈值范围,溢出被触犯,一个segment文件将被激活。在溢出过程中,journal文件中的数据项i移动到segment文件当中,segment文件中的数据项R被修改。在一个DataServer上一个journal文件对应一个索引文件。
segment文件对数据进行持久化存储,它依赖于B-tree来提供从keys到value的持久化映射。基于数据记录R的标示符,B-tree被用于对象存储。每个DataServer上的journal文件对应零个或者多个segment文件,不同节点上的DataServer共享同一个metadata。
开始时,每个节点有且仅有一个journal文件,没有segment文件。基于HDStroe存储模式,在集群中随机选取一个节点,开始数据加载过程。随着数据加载过程的进行,一旦被选的journal文件达到最大容量式,build操作开始进行。当segment文件达到最大容量,旧的segment文件会自动切分成多个小的segment文件,第一次切分的segment文件个数依据集群中节点个数,之后会一直切分为两个segment文件。下一步,每个segment文件会移动到集群中每个节点上,这样每个节点上各自都拥有一个segment文件。然后,数据加载在集群中并行执行。
之后,随着数据加载,一旦segment文件达到最大容量,它将自动一分为二。如果segment小文件个数较多,merge操作会周期性发生。为了均衡集群中不同节点的性能,segment文件可以在集群中不同节点之间move。
以上步骤的具体算法实现如下:
如图4所示,为HDStroe存储模型的大数据分布式混合存储集群配置。在Bigdata分布式集群系统中,一共设置有四台服务器,它们共同管理整个集群系统。其中的一台服务器上执行针对集群系统的多个服务,其中:Manager服务将作为逻辑主机开启其它服务;Jini服务执行服务发现;Zookeeper服务注册暂时节点;Metadata服务用来管理大规模索引的生命周期;除此之外,DataServer服务在每个节点上运行。

Claims (5)

1.一种分布式大数据的SSD磁盘和HDD磁盘混合存储方法,其特征在于,该方法包括以下步骤:
步骤(1)、针对集群系统中各节点的分布式大数据,构建JS-model存储模型,该存储模型包括一个Journal文件和多个segment文件;其中,Journal文件用于数据缓冲,对数据进行快速读写操作;segment文件用于数据持久化稳定存储,支持数据追加读和数据随机访问;
步骤(2)、基于JS-model存储模型构建SSD磁盘和HDD磁盘混合分布式存储模型HDStore;
步骤(3)、利用HDStore管理journal文件和segment文件,优化数据读写;即:把数据读写频繁的journal文件放置在较小容量的SSD上,把数据随机访问的segment文件放置在较大容量的HDD上;
步骤(4)、下载并生成Lubm数据集,对该数据集进行预处理,为数据装载入Bigdata系统,测试装载时间和查询时间。
2.如权利要求1所述的分布式大数据的SSD磁盘和HDD磁盘混合存储方法,其特征在于,所述Journal文件为数据项i的有限集合,作为集群中每一个节点上的数据项i,由原始数据记录r和时间戳t共同构成。
3.如权利要求1所述的分布式大数据的SSD磁盘和HDD磁盘混合存储方法,其特征在于,所述segment文件由Journal文件构建,构建流程具体包括以下步骤:
在初始状态下,集群中的每个节点仅有一个journal文件;随着journal文件中数据项的增加,journal文件容量达到上限,这样通过从journal文件中转移数据到segment文件中,构建出一个新的segment文件。
4.如权利要求1所述的分布式大数据的SSD磁盘和HDD磁盘混合存储方法,其特征于,所述HDStore数据存储模型的体系结构,从下层向上层包括:用于机器与机器之间通讯的集群管理层、为单个节点的存储介质基于小容量的SSD磁盘和大容量的HDD磁盘、用来管理磁盘设备的Linux操作系统;通过不同的服务对数据进行存储管理的Bigdata数据库;用于支持多种大数据语义的应用层。
5.如权利要求1所述的分布式大数据的SSD磁盘和HDD磁盘混合存储方法,其特征于,所述SSD磁盘和HDD磁盘混合分布式存储模型HDStore在分布式环境下,还包括以下三种配置:
HDStore中journal文件和segment文件同时放置在HDD磁盘中;
HDStore中journal文件和segment文件同时放置在SSD磁盘中;
HDStore中journal文件放置在SSD磁盘中,segment文件放置在HDD磁盘中。
CN201410448162.1A 2014-09-04 2014-09-04 分布式大数据的ssd磁盘和hdd磁盘混合存储方法 Pending CN104216988A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410448162.1A CN104216988A (zh) 2014-09-04 2014-09-04 分布式大数据的ssd磁盘和hdd磁盘混合存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410448162.1A CN104216988A (zh) 2014-09-04 2014-09-04 分布式大数据的ssd磁盘和hdd磁盘混合存储方法

Publications (1)

Publication Number Publication Date
CN104216988A true CN104216988A (zh) 2014-12-17

Family

ID=52098478

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410448162.1A Pending CN104216988A (zh) 2014-09-04 2014-09-04 分布式大数据的ssd磁盘和hdd磁盘混合存储方法

Country Status (1)

Country Link
CN (1) CN104216988A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107179883A (zh) * 2017-05-19 2017-09-19 深圳大学 一种基于SSD和HDD的混合存储系统的Spark架构优化方法
CN107193495A (zh) * 2017-05-19 2017-09-22 深圳大学 一种分布式计算系统及其数据处理方法
CN107193494A (zh) * 2017-05-19 2017-09-22 深圳大学 一种基于ssd和hdd混合存储系统的rdd持久化方法
CN110209350A (zh) * 2019-05-10 2019-09-06 华中科技大学 一种混合存储架构hpc系统中应用i/o请求的动态调度方法
CN110825317A (zh) * 2018-08-14 2020-02-21 爱思开海力士有限公司 用于分布式存储输入数据的存储器系统和数据处理系统
CN110851443A (zh) * 2019-10-28 2020-02-28 网联清算有限公司 数据库的存储管理方法、装置、存储介质及电子设备
CN111210879A (zh) * 2020-01-06 2020-05-29 中国海洋大学 一种用于超大规模药物数据的分级存储优化方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020083264A1 (en) * 2000-12-26 2002-06-27 Coulson Richard L. Hybrid mass storage system and method
CN101854388A (zh) * 2010-05-17 2010-10-06 浪潮(北京)电子信息产业有限公司 一种集群存储中并行访问大量小文件的方法及系统
CN102364474A (zh) * 2011-11-17 2012-02-29 中国科学院计算技术研究所 用于机群文件系统的元数据存储系统和管理方法
CN103188161A (zh) * 2011-12-30 2013-07-03 中国移动通信集团公司 分布式数据加载调度方法与系统
US20130218892A1 (en) * 2009-12-22 2013-08-22 International Business Machines Corporation Hybrid storage subsystem with mixed placement of file contents

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020083264A1 (en) * 2000-12-26 2002-06-27 Coulson Richard L. Hybrid mass storage system and method
US20130218892A1 (en) * 2009-12-22 2013-08-22 International Business Machines Corporation Hybrid storage subsystem with mixed placement of file contents
CN101854388A (zh) * 2010-05-17 2010-10-06 浪潮(北京)电子信息产业有限公司 一种集群存储中并行访问大量小文件的方法及系统
CN102364474A (zh) * 2011-11-17 2012-02-29 中国科学院计算技术研究所 用于机群文件系统的元数据存储系统和管理方法
CN103188161A (zh) * 2011-12-30 2013-07-03 中国移动通信集团公司 分布式数据加载调度方法与系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
冯志杰等: "《HDStore: An SSD/HDD Hybrid Distributed Storage Scheme for Large-Scale Data 》", 《WEB AGE INFORMATION MANAGEMENT》 *
姜龙翔等: "一种大规模RDF语义数据的分布式存储方案", 《计算机应用与软件》 *
杨濮源等: "一种时间敏感的SSD和HDD高效混合存储模型", 《计算机学报》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107179883A (zh) * 2017-05-19 2017-09-19 深圳大学 一种基于SSD和HDD的混合存储系统的Spark架构优化方法
CN107193495A (zh) * 2017-05-19 2017-09-22 深圳大学 一种分布式计算系统及其数据处理方法
CN107193494A (zh) * 2017-05-19 2017-09-22 深圳大学 一种基于ssd和hdd混合存储系统的rdd持久化方法
CN107193494B (zh) * 2017-05-19 2020-05-12 深圳大学 一种基于ssd和hdd混合存储系统的rdd持久化方法
CN107179883B (zh) * 2017-05-19 2020-07-17 深圳大学 一种基于SSD和HDD的混合存储系统的Spark架构优化方法
CN110825317A (zh) * 2018-08-14 2020-02-21 爱思开海力士有限公司 用于分布式存储输入数据的存储器系统和数据处理系统
US11586382B2 (en) 2018-08-14 2023-02-21 SK Hynix Inc. Memory system and data processing system for distributedly storing input data
CN110825317B (zh) * 2018-08-14 2023-08-08 爱思开海力士有限公司 用于分布式存储输入数据的存储器系统和数据处理系统
CN110209350A (zh) * 2019-05-10 2019-09-06 华中科技大学 一种混合存储架构hpc系统中应用i/o请求的动态调度方法
CN110209350B (zh) * 2019-05-10 2020-07-10 华中科技大学 一种混合存储架构hpc系统中应用i/o请求的动态调度方法
CN110851443A (zh) * 2019-10-28 2020-02-28 网联清算有限公司 数据库的存储管理方法、装置、存储介质及电子设备
CN111210879A (zh) * 2020-01-06 2020-05-29 中国海洋大学 一种用于超大规模药物数据的分级存储优化方法

Similar Documents

Publication Publication Date Title
CN104216988A (zh) 分布式大数据的ssd磁盘和hdd磁盘混合存储方法
US10162598B2 (en) Flash optimized columnar data layout and data access algorithms for big data query engines
US11741053B2 (en) Data management system, method, terminal and medium based on hybrid storage
Ji et al. Big data processing in cloud computing environments
Liao et al. Multi-dimensional index on hadoop distributed file system
US9311252B2 (en) Hierarchical storage for LSM-based NoSQL stores
CN111427847B (zh) 面向用户自定义元数据的索引与查询方法和系统
CN109521959A (zh) 一种基于ssd-smr磁盘混合键值存储系统数据组织方法
US9342247B2 (en) Leveraging a hybrid infrastructure for dynamic memory allocation and persistent file storage
US20150242311A1 (en) Hybrid dram-ssd memory system for a distributed database node
CN104899297A (zh) 具有存储感知的混合索引结构
CN106570113B (zh) 一种海量矢量切片数据云存储方法及系统
CN104054071A (zh) 访问存储设备的方法和存储设备
CN106066890A (zh) 一种分布式高性能数据库一体机系统
CN103559229A (zh) 基于MapFile的小文件管理服务SFMS系统及其使用方法
CN102915340A (zh) 一种扩展的基于b+树对象文件系统
CN111159176A (zh) 一种海量流数据的存储和读取的方法和系统
Xu et al. Enhancing HDFS with a full-text search system for massive small files
WO2022121274A1 (zh) 一种存储系统中元数据管理方法、装置及存储系统
Zhao et al. Toward efficient and flexible metadata indexing of big data systems
CN107273443B (zh) 一种基于大数据模型元数据的混合索引方法
Cai et al. The Embedded IoT Time Series Database for Hybrid Solid‐State Storage System
Feng et al. HDStore: An SSD/HDD hybrid distributed storage scheme for large-scale data
Ton That et al. PLI^++: efficient clustering of cloud databases
Han et al. A novel spatio-temporal data storage and index method for ARM-based hadoop server

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20141217