CN104216988A - 分布式大数据的ssd磁盘和hdd磁盘混合存储方法 - Google Patents
分布式大数据的ssd磁盘和hdd磁盘混合存储方法 Download PDFInfo
- Publication number
- CN104216988A CN104216988A CN201410448162.1A CN201410448162A CN104216988A CN 104216988 A CN104216988 A CN 104216988A CN 201410448162 A CN201410448162 A CN 201410448162A CN 104216988 A CN104216988 A CN 104216988A
- Authority
- CN
- China
- Prior art keywords
- data
- disk
- hdd
- file
- ssd
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/172—Caching, prefetching or hoarding of files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种分布式大数据的SSD磁盘和HDD磁盘混合存储方法,包括以下步骤:步骤(1)针对集群系统中各节点的分布式大数据,构建JS-model存储模型,该存储模型包括一个Journal文件和多个segment文件;其中,Journal文件用于数据缓冲,对数据进行快速读写操作;segment文件用于数据持久化稳定存储,支持数据追加读和数据随机访问;步骤(2)基于JS-model存储模型构建SSD磁盘和HDD磁盘混合分布式存储模型HDStore;步骤(3)利用HDStore管理journal文件和segment文件,优化数据读写;步骤(4)下载并生成Lubm数据集,对该数据集进行预处理,为数据装载入Bigdata系统,测试装载时间和查询时间。本发明有效并且高效的管理语义大数据的混合分布式存储方案,从而促进了大规模数据存储管理的进步与发展。
Description
技术领域
本发明涉及数据存储技术领域,具体来说,涉及语义大数据的混合分布式快速存储。
背景技术
随着现代Web技术的普及与发展,信息的快速增长使得人类进入了大数据时代,这对传统的数据管理方式提出了巨大挑战,以此同时,大数据技术逐渐兴起。大数据技术由各种技术共同构成,例如并行计算、分布式文件系统、分布式数据库、可扩展存储系统等等。其中,关键技术之一是如何有效并且高效的存储管理大数据。为了解决上述问题,数据在存储管理上,有以下几种选择,例如根据数据重要性进行分类,对数据处理过程进行合理安排,或者利用分布式存储技术来提高数据的读写速率等。
当前计算机硬件发展迅速,然后HDD却是个例外。经过研究发现,HDD磁盘的物理结构限制了I/O速率。由于磁盘的传输速度并没有改变,根据木桶效应,这永远是整个计算机性能提升的一个瓶颈。机械硬盘的基本工作方式如下,当数据需要读写时,HDD将会得到指令,之后一系列动作发生,例如磁盘转动,磁头移动等。由于机械运动,这将消耗几毫秒时间。避免磁盘结构的机械设计,采用新结构是提高磁盘读写性能的基本方式。如今,SSD作为一种利用集成电路组件作为内存的数据持久化存储设备。相比于HDD来说,SSD具有显著的读写性能优势。SSD是由固态电子存储芯片阵列构成,它在接口规范和定义、功能以及使用方式上与HDD完全一样。然后相比于HDD来说,SSD拥有更多的优势,例如I/O速度更快、防震、低功耗、低噪音、轻量级等等。同时,SSD也有许多不足之处,SSD的容量有限,使用寿命短,价格高。
传统的高性能数据库系统主要基于HDD,不能够高效的处理大数据,其性能瓶颈主要集中在I/O速率。针对以上问题,考虑到HDD和SSD各自特性,综合利用两种设备来构建混合存储将有效提高大数据存储管理性能,这是一种大数据存储技术上新的方案。这对分布式大数据存储管理性能具有重要影响,也有助于语义网相关大数据应用的推进。
发明内容
为了克服上述现有技术,本发明提出了一种分布式大数据的SSD磁盘和HDD磁盘混合存储方法,综合利用HDD磁盘和SSD磁盘,通过JS-model模型来实现基于SSD/HDD的混合存储方案,在分布式环境下解决大数据存储管理问题,最终达到大数据管理的有效性,高效性,为大数据的存储以及公开发布做准备。
本发明的技术方案如下:
本发明提出了一种分布式大数据的SSD磁盘和HDD磁盘混合存储方法,具有中心频率和带宽值可调的滤波电路,该方法包括以下步骤:
步骤1、针对集群系统中各节点的分布式大数据,构建JS-model存储模型,该存储模型包括一个Journal文件和多个segment文件;其中,Journal文件用于数据缓冲,对数据进行快速读写操作;segment文件用于数据持久化稳定存储,支持数据追加读和数据随机访问;
步骤2、基于JS-model存储模型构建SSD磁盘和HDD磁盘混合分布式存储模型HDStore;
步骤3、利用HDStore管理journal文件和segment文件,优化数据读写;即:把数据读写频繁的journal文件放置在较小容量的SSD上,把数据随机访问的segment文件放置在较大容量的HDD上;
步骤4、下载并生成Lubm数据集,对该数据集进行预处理,为数据装载入Bigdata系统,测试装载时间和查询时间。
所述Journal文件为数据项i的有限集合,作为集群中每一个节点上的数据项i,由原始数据记录r和时间戳t共同构成。
所述segment文件由Journal文件构建,构建流程具体包括以下步骤:
在初始状态下,集群中的每个节点仅有一个journal文件;随着journal文件中数据项的增加,journal文件容量达到上限,这样通过从journal文件中转移数据到segment文件中,构建出一个新的segment文件。
所述HDStore数据存储模型的体系结构,从下层向上层包括:用于机器与机器之间通讯的集群管理层、为单个节点的存储介质基于小容量的SSD磁盘和大容量的HDD磁盘、用来管理磁盘设备的Linux操作系统;通过不同的服务对数据进行存储管理的Bigdata数据库;用于支持多种大数据语义的应用层。
所述SSD磁盘和HDD磁盘混合分布式存储模型HDStore在分布式环境下,还包括以下三种配置:
HDStore中journal文件和segment文件同时放置在HDD磁盘中;
HDStore中journal文件和segment文件同时放置在SSD磁盘中;
HDStore中journal文件放置在SSD磁盘中,segment文件放置在HDD磁盘中。
与现有技术相比,本发明针对的是大规模数据的分布式混合存储,最终提供一种基于JS-model的HDStore混合分布式模型,来有效并且高效的管理语义大数据的混合分布式存储方案,从而促进了大规模数据存储管理的进步与发展,有助于基于大数据的相关应用的成熟。
附图说明
图1是本发明中基于JS-model存储模型,在不同节点设备上的数据操作示意图;
图2是HDStore存储模型的体系结构图;
图3是HDStroe存储模型中DataServer服务中的文件系统操作示意图;
图4是基于HDStroe存储模型的大数据分布式混合存储集群配置图;
图5是本发明的整体流程示意图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明,但本发明的实施范围并不局限于此。
本发明采用的具体实施方式包括以下流程:
步骤1,研究现有的大数据存储主要基于HDD,JS-model不同于传统数据存储方式,存储数据持久化到文件中,文件包括一个journal文件和多个segment文件;针对大规模数据,构建JS-model存储模型:二元组、数据记录、数据项、时间戳、JS集合的基本概念、journal文件、segment文件,以及在其上的build、move、split、merge四种数据文件操作;
步骤2,基于JS-model构建一种新的SSD/HDD混出分布式存储方案,即HDStore;
步骤3,在不同磁盘上,利用HDStore来管理journal和segment文件,优化数据读写;
步骤4,编写HDStore组件完善其功能,从而对不同journal和segment文件进行管理;
步骤5,为Bigdata系统添加静态HDStore组件服务,从而对bigdata系统的数据装载性能进行优化,把数据持久化存储的journal和segment文件进行分离,以及部分数据在SSD上的查询性能的优化;
步骤6,下载并生成Lubm数据集,对该数据集进行简单的预处理(例如数据标准格式检验,大数据文件切分等),为数据装载入Bigdata系统做准备;
步骤7,设计并实现分布式环境下,HDStore方案中journal文件和segment文件同时放置在HDD磁盘中,对于不同大小Lbum数据集装载入Bigdata系统,测试装载时间和查询时间。
步骤8,设计并实现分布式环境下,HDStore方案中journal文件和segment文件同时放置在SSD中,对于不同大小Lbum数据集装载入Bigdata系统,测试装载时间和查询时间。
步骤9,设计并实现分布式环境下,HDStore方案中journal文件放置在SSD中,segment文件放置在HDD磁盘中,对于不同大小Lbum数据集装载入Bigdata系统,测试装载时间和查询时间。
上述的步骤1中,研究并抽象出大数据存储模型,该模型基于数据持久化到journal文件和segment文件中。其中,journal文件作为数据写缓冲,存放半结构化可读可写数据,有且仅有一个,segment文件按照一定的索引方式持久化存储数据,根据数据大小动态生成segment文件个数。
本发明的步骤1具体过程如下:
假设数据项i、数据索引I、二元组r和t,其中r是数据记录,t是时间戳;
Journal文件J是数据项i的有限集合,在集群中的一个节点上,原始数据记录和时间戳,共同构成数据项,多个数据项存放在journal文件中。数据项是数据的基本单元,追加到journal文件中。如公式(1)所示:
J={ii=<r,t>},|J|≤N,其中N是正整数.(1)
Segment文件S是数据项I的无限集合,segment文件S使用B-tree结构组织数据索引,B-tree的叶子节点由数据项I构成。值得注意的是,数据项在journal文件中是无序的,在segment文件中是有序B-tree。如公式(2)所示:
S={I|I=<R,T>}. (2)
JS集合是一个journal文件和多个segment文件的并,其中journal文件有且仅有一个,一个journal作为缓冲对应多个segment文件,segment文件个数依赖于数据项个数。如公式(3)所示:
JS=J∪S1∪,…,∪Sn (3)
以上定义了JS-model,它是一种文件集合。为了描述数据存储模型,还需要在journal和segment文件上定义几种操作:build操作是从一个journal文件开始创建一个segment文件;split操作是从一个segment文件分裂成多个segment文件;move操作是把一个segment文件从集群中一个机器节点移动到另外一个节点;merge操作是把多个segment文件合并为一个紧凑的单独segment文件。
本发明的步骤2基于JS-model设计出新的数据存储方案,即HDStore。其中,journal文件有且仅有一个,主要用作数据缓冲,对数据进行快速读写操作;segment文件有多个,对数据进行持久化稳定存储,主要支持数据追加读和数据随机访问。我们把journal文件和segment文件根据功能不同进行分离,在步骤4)中把数据读写频繁的journal文件放置在较小容量的SSD上,把数据随机访问的segment文件放置在较大容量的HDD上,保证数据加载存入的高效性和数据持久化存储的有效性。
本发明的步骤4和步骤5,在已有的开源系统Bigdata上,编写实现HDStore大数据分布式混合存储组件,优化Bigdata的数据装载于查询性能。步骤7对装入数据进行预处理,步骤7、8、9,针对不同磁盘的配置,分别应用JS-model存储模型,在单独的HDD使用JS-model,在单独的SSD使用JS-moedel,把journal文件放置在SSD上和把segment文件放置在HDD上,三种不同方案下,得到HDStore同时运用HDD和SSD时,在分布式大数据存储管理上的高性价比。
如图1所示,基于JS-model存储模型,在集群中不同节点之间,需要进行以下数据操作:
1、build操作。build操作是从一个journal文件开始,创建一个新的segment文件。在初始状态下,集群中的每个节点仅有一个journal文件,没有segment文件。随着journal文件中数据项的增加,journal文件容量达到上限,这样通过从journal文件中转移数据到segment文件中,一个新的segment文件也就构建。
2、split操作。split操作是把一个旧的segment文件依据集群中节点个数切分成多个segment文件。为了适应磁盘空间容量有限性,文件系统会限定文件大小,随着segment文件中数据索引项的增加,segment文件达到其容量限制,这样,它会被自动切分为多个segment文件,为下一步数据存储做准备。
3、move操作。move操作是把一个segment文件从集群中的一个节点移动到另外一个节点上。为了适应分布式系统中的负载均衡,segment文件需要从存储数据较多的节点移动到存储数据较少的节点,但是journal文件是本地的,不会被移动。
4、merge操作。merge操作是把多个segment文件合并成一个新的紧凑的segment文件。随着数据加载过程的进行,会存在大量的小数据segment文件,考虑到数据的紧凑性和空间的利用率,merge操作相当重要。
如图2所示,HDStore数据存储模型的体系结构,从下向上主要包括五层,即:用于机器与机器之间通讯的集群管理层、单个节点的存储介质基于小容量的SSD和大容量的HDD、用来管理磁盘设备的Linux操作系统;通过不同的服务对数据进行存储管理的Bigdata数据库;上层的用于支持多种大数据语义的应用层。
如图3所示,HDStroe存储模型在节点上运行不同服务来对数据进行管理。DataServer服务负责构建数据索引,同时使用文件系统对数据进行持久化存储。集群中的每个节点上,会配置较小容量的SSD和较大容量的HDD,其中SSD用来对数据进行快速缓冲,HDD用来对大规模数据进行持久化存储。
在HDStroe存储模型中,DataServer服务把源数据构建成多种不同的索引,以便在journal文件和segment文件中存放数据记录,一个journal文件对应多个segment文件。Journal文件被用作数据缓冲,它可以写一次读多次,其中所有的历史记录状态都可被访问。Journal文件使用数据记录r和时间戳t来维护数据引用,仅用作数据加载和临时存储。但是,journal文件又不同于内存中的缓存,journal文件在磁盘上对数据进行文件持久化存储。数据项i在journal文件中无序存放,逻辑追加到journal文件中。Journal文件支持溢出概念,当它达到了阈值范围,溢出被触犯,一个segment文件将被激活。在溢出过程中,journal文件中的数据项i移动到segment文件当中,segment文件中的数据项R被修改。在一个DataServer上一个journal文件对应一个索引文件。
segment文件对数据进行持久化存储,它依赖于B-tree来提供从keys到value的持久化映射。基于数据记录R的标示符,B-tree被用于对象存储。每个DataServer上的journal文件对应零个或者多个segment文件,不同节点上的DataServer共享同一个metadata。
开始时,每个节点有且仅有一个journal文件,没有segment文件。基于HDStroe存储模式,在集群中随机选取一个节点,开始数据加载过程。随着数据加载过程的进行,一旦被选的journal文件达到最大容量式,build操作开始进行。当segment文件达到最大容量,旧的segment文件会自动切分成多个小的segment文件,第一次切分的segment文件个数依据集群中节点个数,之后会一直切分为两个segment文件。下一步,每个segment文件会移动到集群中每个节点上,这样每个节点上各自都拥有一个segment文件。然后,数据加载在集群中并行执行。
之后,随着数据加载,一旦segment文件达到最大容量,它将自动一分为二。如果segment小文件个数较多,merge操作会周期性发生。为了均衡集群中不同节点的性能,segment文件可以在集群中不同节点之间move。
以上步骤的具体算法实现如下:
如图4所示,为HDStroe存储模型的大数据分布式混合存储集群配置。在Bigdata分布式集群系统中,一共设置有四台服务器,它们共同管理整个集群系统。其中的一台服务器上执行针对集群系统的多个服务,其中:Manager服务将作为逻辑主机开启其它服务;Jini服务执行服务发现;Zookeeper服务注册暂时节点;Metadata服务用来管理大规模索引的生命周期;除此之外,DataServer服务在每个节点上运行。
Claims (5)
1.一种分布式大数据的SSD磁盘和HDD磁盘混合存储方法,其特征在于,该方法包括以下步骤:
步骤(1)、针对集群系统中各节点的分布式大数据,构建JS-model存储模型,该存储模型包括一个Journal文件和多个segment文件;其中,Journal文件用于数据缓冲,对数据进行快速读写操作;segment文件用于数据持久化稳定存储,支持数据追加读和数据随机访问;
步骤(2)、基于JS-model存储模型构建SSD磁盘和HDD磁盘混合分布式存储模型HDStore;
步骤(3)、利用HDStore管理journal文件和segment文件,优化数据读写;即:把数据读写频繁的journal文件放置在较小容量的SSD上,把数据随机访问的segment文件放置在较大容量的HDD上;
步骤(4)、下载并生成Lubm数据集,对该数据集进行预处理,为数据装载入Bigdata系统,测试装载时间和查询时间。
2.如权利要求1所述的分布式大数据的SSD磁盘和HDD磁盘混合存储方法,其特征在于,所述Journal文件为数据项i的有限集合,作为集群中每一个节点上的数据项i,由原始数据记录r和时间戳t共同构成。
3.如权利要求1所述的分布式大数据的SSD磁盘和HDD磁盘混合存储方法,其特征在于,所述segment文件由Journal文件构建,构建流程具体包括以下步骤:
在初始状态下,集群中的每个节点仅有一个journal文件;随着journal文件中数据项的增加,journal文件容量达到上限,这样通过从journal文件中转移数据到segment文件中,构建出一个新的segment文件。
4.如权利要求1所述的分布式大数据的SSD磁盘和HDD磁盘混合存储方法,其特征于,所述HDStore数据存储模型的体系结构,从下层向上层包括:用于机器与机器之间通讯的集群管理层、为单个节点的存储介质基于小容量的SSD磁盘和大容量的HDD磁盘、用来管理磁盘设备的Linux操作系统;通过不同的服务对数据进行存储管理的Bigdata数据库;用于支持多种大数据语义的应用层。
5.如权利要求1所述的分布式大数据的SSD磁盘和HDD磁盘混合存储方法,其特征于,所述SSD磁盘和HDD磁盘混合分布式存储模型HDStore在分布式环境下,还包括以下三种配置:
HDStore中journal文件和segment文件同时放置在HDD磁盘中;
HDStore中journal文件和segment文件同时放置在SSD磁盘中;
HDStore中journal文件放置在SSD磁盘中,segment文件放置在HDD磁盘中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410448162.1A CN104216988A (zh) | 2014-09-04 | 2014-09-04 | 分布式大数据的ssd磁盘和hdd磁盘混合存储方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410448162.1A CN104216988A (zh) | 2014-09-04 | 2014-09-04 | 分布式大数据的ssd磁盘和hdd磁盘混合存储方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104216988A true CN104216988A (zh) | 2014-12-17 |
Family
ID=52098478
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410448162.1A Pending CN104216988A (zh) | 2014-09-04 | 2014-09-04 | 分布式大数据的ssd磁盘和hdd磁盘混合存储方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104216988A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107179883A (zh) * | 2017-05-19 | 2017-09-19 | 深圳大学 | 一种基于SSD和HDD的混合存储系统的Spark架构优化方法 |
CN107193495A (zh) * | 2017-05-19 | 2017-09-22 | 深圳大学 | 一种分布式计算系统及其数据处理方法 |
CN107193494A (zh) * | 2017-05-19 | 2017-09-22 | 深圳大学 | 一种基于ssd和hdd混合存储系统的rdd持久化方法 |
CN110209350A (zh) * | 2019-05-10 | 2019-09-06 | 华中科技大学 | 一种混合存储架构hpc系统中应用i/o请求的动态调度方法 |
CN110825317A (zh) * | 2018-08-14 | 2020-02-21 | 爱思开海力士有限公司 | 用于分布式存储输入数据的存储器系统和数据处理系统 |
CN110851443A (zh) * | 2019-10-28 | 2020-02-28 | 网联清算有限公司 | 数据库的存储管理方法、装置、存储介质及电子设备 |
CN111210879A (zh) * | 2020-01-06 | 2020-05-29 | 中国海洋大学 | 一种用于超大规模药物数据的分级存储优化方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020083264A1 (en) * | 2000-12-26 | 2002-06-27 | Coulson Richard L. | Hybrid mass storage system and method |
CN101854388A (zh) * | 2010-05-17 | 2010-10-06 | 浪潮(北京)电子信息产业有限公司 | 一种集群存储中并行访问大量小文件的方法及系统 |
CN102364474A (zh) * | 2011-11-17 | 2012-02-29 | 中国科学院计算技术研究所 | 用于机群文件系统的元数据存储系统和管理方法 |
CN103188161A (zh) * | 2011-12-30 | 2013-07-03 | 中国移动通信集团公司 | 分布式数据加载调度方法与系统 |
US20130218892A1 (en) * | 2009-12-22 | 2013-08-22 | International Business Machines Corporation | Hybrid storage subsystem with mixed placement of file contents |
-
2014
- 2014-09-04 CN CN201410448162.1A patent/CN104216988A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020083264A1 (en) * | 2000-12-26 | 2002-06-27 | Coulson Richard L. | Hybrid mass storage system and method |
US20130218892A1 (en) * | 2009-12-22 | 2013-08-22 | International Business Machines Corporation | Hybrid storage subsystem with mixed placement of file contents |
CN101854388A (zh) * | 2010-05-17 | 2010-10-06 | 浪潮(北京)电子信息产业有限公司 | 一种集群存储中并行访问大量小文件的方法及系统 |
CN102364474A (zh) * | 2011-11-17 | 2012-02-29 | 中国科学院计算技术研究所 | 用于机群文件系统的元数据存储系统和管理方法 |
CN103188161A (zh) * | 2011-12-30 | 2013-07-03 | 中国移动通信集团公司 | 分布式数据加载调度方法与系统 |
Non-Patent Citations (3)
Title |
---|
冯志杰等: "《HDStore: An SSD/HDD Hybrid Distributed Storage Scheme for Large-Scale Data 》", 《WEB AGE INFORMATION MANAGEMENT》 * |
姜龙翔等: "一种大规模RDF语义数据的分布式存储方案", 《计算机应用与软件》 * |
杨濮源等: "一种时间敏感的SSD和HDD高效混合存储模型", 《计算机学报》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107179883A (zh) * | 2017-05-19 | 2017-09-19 | 深圳大学 | 一种基于SSD和HDD的混合存储系统的Spark架构优化方法 |
CN107193495A (zh) * | 2017-05-19 | 2017-09-22 | 深圳大学 | 一种分布式计算系统及其数据处理方法 |
CN107193494A (zh) * | 2017-05-19 | 2017-09-22 | 深圳大学 | 一种基于ssd和hdd混合存储系统的rdd持久化方法 |
CN107193494B (zh) * | 2017-05-19 | 2020-05-12 | 深圳大学 | 一种基于ssd和hdd混合存储系统的rdd持久化方法 |
CN107179883B (zh) * | 2017-05-19 | 2020-07-17 | 深圳大学 | 一种基于SSD和HDD的混合存储系统的Spark架构优化方法 |
CN110825317A (zh) * | 2018-08-14 | 2020-02-21 | 爱思开海力士有限公司 | 用于分布式存储输入数据的存储器系统和数据处理系统 |
US11586382B2 (en) | 2018-08-14 | 2023-02-21 | SK Hynix Inc. | Memory system and data processing system for distributedly storing input data |
CN110825317B (zh) * | 2018-08-14 | 2023-08-08 | 爱思开海力士有限公司 | 用于分布式存储输入数据的存储器系统和数据处理系统 |
CN110209350A (zh) * | 2019-05-10 | 2019-09-06 | 华中科技大学 | 一种混合存储架构hpc系统中应用i/o请求的动态调度方法 |
CN110209350B (zh) * | 2019-05-10 | 2020-07-10 | 华中科技大学 | 一种混合存储架构hpc系统中应用i/o请求的动态调度方法 |
CN110851443A (zh) * | 2019-10-28 | 2020-02-28 | 网联清算有限公司 | 数据库的存储管理方法、装置、存储介质及电子设备 |
CN111210879A (zh) * | 2020-01-06 | 2020-05-29 | 中国海洋大学 | 一种用于超大规模药物数据的分级存储优化方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104216988A (zh) | 分布式大数据的ssd磁盘和hdd磁盘混合存储方法 | |
US10162598B2 (en) | Flash optimized columnar data layout and data access algorithms for big data query engines | |
US11741053B2 (en) | Data management system, method, terminal and medium based on hybrid storage | |
Ji et al. | Big data processing in cloud computing environments | |
Liao et al. | Multi-dimensional index on hadoop distributed file system | |
US9311252B2 (en) | Hierarchical storage for LSM-based NoSQL stores | |
CN111427847B (zh) | 面向用户自定义元数据的索引与查询方法和系统 | |
CN109521959A (zh) | 一种基于ssd-smr磁盘混合键值存储系统数据组织方法 | |
US9342247B2 (en) | Leveraging a hybrid infrastructure for dynamic memory allocation and persistent file storage | |
US20150242311A1 (en) | Hybrid dram-ssd memory system for a distributed database node | |
CN104899297A (zh) | 具有存储感知的混合索引结构 | |
CN106570113B (zh) | 一种海量矢量切片数据云存储方法及系统 | |
CN104054071A (zh) | 访问存储设备的方法和存储设备 | |
CN106066890A (zh) | 一种分布式高性能数据库一体机系统 | |
CN103559229A (zh) | 基于MapFile的小文件管理服务SFMS系统及其使用方法 | |
CN102915340A (zh) | 一种扩展的基于b+树对象文件系统 | |
CN111159176A (zh) | 一种海量流数据的存储和读取的方法和系统 | |
Xu et al. | Enhancing HDFS with a full-text search system for massive small files | |
WO2022121274A1 (zh) | 一种存储系统中元数据管理方法、装置及存储系统 | |
Zhao et al. | Toward efficient and flexible metadata indexing of big data systems | |
CN107273443B (zh) | 一种基于大数据模型元数据的混合索引方法 | |
Cai et al. | The Embedded IoT Time Series Database for Hybrid Solid‐State Storage System | |
Feng et al. | HDStore: An SSD/HDD hybrid distributed storage scheme for large-scale data | |
Ton That et al. | PLI^++: efficient clustering of cloud databases | |
Han et al. | A novel spatio-temporal data storage and index method for ARM-based hadoop server |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20141217 |