CN104035880A - 一种多种存储介质并存下的多路数据分配方法 - Google Patents

一种多种存储介质并存下的多路数据分配方法 Download PDF

Info

Publication number
CN104035880A
CN104035880A CN201410252644.XA CN201410252644A CN104035880A CN 104035880 A CN104035880 A CN 104035880A CN 201410252644 A CN201410252644 A CN 201410252644A CN 104035880 A CN104035880 A CN 104035880A
Authority
CN
China
Prior art keywords
storage
data
module
priority
storage medium
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410252644.XA
Other languages
English (en)
Inventor
孙知信
王文君
宫婧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201410252644.XA priority Critical patent/CN104035880A/zh
Publication of CN104035880A publication Critical patent/CN104035880A/zh
Pending legal-status Critical Current

Links

Abstract

一种多种存储介质并存下的多路数据分配方法,在存储系统中设有数据特征提取及分流模块和记录各存储节点剩余资源量的存储资源监控模块,并根据存储系统中存储介质种类n设立对应的n路数据分布策略。存储资源监控模块将存储资源剩余量等信息反馈给数据特征提取及分流模块,数据特征提取及分流模块中数据提取出的特征、数据特性及热度挖掘模块以及存储资源监控模块反馈的信息共同决定数据分流到哪一路。多种存储介质并存下的多路数据分配方法既能根据存储介质的不同特性合理分配数据,还能继续将数据较为均匀的分配到个存储节点中,且即使未来出现更多的新型存储介质,具有很好的扩展性。

Description

一种多种存储介质并存下的多路数据分配方法
技术领域:
本发明涉及存储系统领域,具体涉及到多种存储介质并存下的具体数据分布领域。
背景技术
近年来,大数据已经成为学术界和工业界普遍关注的一个热点问题。与大数据技术同步发展的是新型存储技术。鉴于磁盘在面临大数据带来的挑战时已显得力不从心,市场上对于新型存储器件的需求越来越强烈,国际上从2000年以来在闪存、相变存储器等新型存储器件的制造和产业化方面取得了重要突破,并已开始逐步在各类应用领域(如嵌入式系统、企业计算等)中使用。其中闪存和PCM发展最为迅速,目前已经达到了实用化的水平。
一系列新型存储介质的引入使得大数据存储架构有了多种选择。但是,由于新型存储介质在价格、寿命等方面与传统的磁盘相比不具优势,因此目前主流的观点是在大数据存储系统中同时使用新型存储介质以及传统存储介质,由此产生了多种存储介质并存的大数据存储架构。
新型存储介质的加入给大数据存储带来了机遇的同时也带来了挑战,特别是底层存储介质发生的变化直接影响上层存储系统中的很多方法和算法,其中之一便是数据分布方法。
数据分布方法是大数据存储系统中的关键技术之一,主要解决存储数据对象到存储资源对象的映射问题。数据分布方法决定了系统数据组织管理的效率,直接影响到存储系统的可扩展性,数据可靠性,存储系统的负载均衡等问题。
因此,在这种多种存储介质并存的存储体系下,如何根据数据的不同特性(例如访问的冷热属性、操作的特性等)以及不同存储介质的特性(读写速度、时延等)合理地分配数据存储位置,既保证存储系统的可扩展性,数据可靠性,存储系统的负载均衡等,同时充分发挥各新型存储介质的优势是需要考虑的重要问题。
在存储系统设计中,早期出现的数据分布策略有三种基本方法:区间划分法、轮循分配法和散列函数分配法。这三种方法中,前两种方法实现相对简单,易于实现;但数据单元的分配容易造成存储负载失衡的情况,影响系统的资源利用率,导致系统的总体性能的下降。第三种方法,由于利用散列函数计算获得的键值为伪随机数,所以存储对象在地址空间上的分布是均匀的,因此,该方法更加容易实现存储资源单元之间的负载均衡。但是,这种方法对散列函数的数学特性有一定要求,并且存在哈希冲突的问题。
之后随着应用需求的变化和发展,存储系统的规模不断扩大,数据分布策略也有了新的发展。存储分布策略设计开始更加注重系统的可扩展性、支持底层存储节点的动态变化、提供快捷的数据查询机制等问题。具体有:线性哈希、可扩展哈希算法、分布式动态哈希算法、一致性哈希算法等。以较流行的一致性哈希算法为例,其原理分为两步,如图1所示:首先,对存储节点的哈希值进行计算,其将存储空间抽象为一个环,将存储节点配置到环上。环上所有的节点都有一个值。其次,对数据进行哈希计算,按顺时针方向将其映射到离其最近的节点上去。
但以上这些数据分布策略虽优缺点各有不同,但大多还是针对磁盘和内存的数据分布,统一的考虑存储节点,都还没有考虑如何在多种存储介质并存下的具体的数据分布方法。
发明内容
发明目的:现今一系列新型存储介质已经逐渐应用到大数据存储系统的搭建之中并形成多种存储介质并存的大数据存储架构,但现有的大数据存储中的数据分配方法还主要针对单一的存储介质或并不区分不同的存储介质,这样的数据分配方法能够实现一定程度上的负载均衡、可扩展性等,但却不能充分运用各种新型存储介质的优势,结合数据的特性以及不同存储介质的特性合理地分配数据存储位置,提高系统资源利用率。
技术方案:一种多种存储介质并存下的多路数据分配方法,其特征在于,在存储系统中设有数据特征提取及分流模块和记录各存储节点剩余资源量的存储资源监控模块,并根据存储系统中存储介质种类n设立对应的n路数据分布策略。
优选方案为存储资源监控模块将存储资源剩余量等信息反馈给数据特征提取及分流模块,数据特征提取及分流模块中数据提取出的特征、数据特性及热度挖掘模块以及存储资源监控模块反馈的信息共同决定数据分流到哪一路。
优选方案为存储系统中的数据特征提取及分流模块中设立数据特性及热度挖掘模块。
优选方案为数据特征提取及分流模块中分流的方法,其特征为优先级-资源量存储资格表和三输入:待存储数据类型特征、数据特性及热度挖掘模块挖掘出的优先级信息、存储资源监控模块反馈的空闲存储资源信息。
有益效果:
1.本专利提出的一种多种存储介质并存下的多路数据分配方法,其特征为数据根据存储介质的不同特性和各存储介质的剩余资源进行分流,对分流的数据再进行各路的数据分配。该发明针对现在多种新型存储介质进入并形成混合存储体系,既能根据存储介质的不同特性合理分配数据,还能继续将数据较为均匀的分配到个存储节点中,且即使未来出现更多的新型存储介质,具有很好的扩展性。
2.数据特征提取及分流模块中分流的方法,其特征为优先级-资源量存储资格表和三输入:待存储数据类型特征、数据特性及热度挖掘模块挖掘出的优先级信息、存储资源监控模块反馈的空闲存储资源信息。该分流方法综合考量各存储介质与不同数据类型的适合程度,同时兼顾各存储介质的空闲资源比例,使得不同存储介质间的负载保持均衡。
附图说明
图1一致性哈希示意图
图2一种多种介质并存下的多路数据分配方法示意图
具体实施方式
本发明提出一种多种介质并存下的多路数据分配方法,如图2,该方法主体可分为数据特征提取及分流模块和记录各存储节点剩余资源量的存储资源监控模块,其中数据特征提取及分流模块中还设立数据特性及热度挖掘模块。根据存储系统中存储介质种类n设立对应的n路数据分布策略,值得说明的是,此处每路分别对应一种存储介质,需设立的对应的n路数据分布策略可选取各种现有的数据分布策略,充分利用前人智慧而无需重新开发新的分布策略,并且这n路数据分布策略可以根据存储介质特性或实际需求进行选取,每路数据分布策略可相同也可不同,给予用户选择的自由,然后为这n种存储介质及对应数据分布策略从1到n编号。
当数据需要存储时,数据先进行类型特征提取,提取出的特征与数据特性及热度挖掘模块、存储资源监控模块反馈的信息共同决定了数据分流到那一路。随后根据数据的分流号对应的数据分布策略将数据及其分流号一同分配存放到存储节点中,并更新存储资源监控模块中的信息。
其中,数据特性及热度挖掘模块中所要挖掘的数据特性由存储资源池中的存储介质种类和特性决定。以存储资源包括磁盘和闪存为例,闪存与磁盘介质相比无机械延迟,随机读的延迟很低;读写不对称,通常闪存上的随机读速度较快,但随机写速度较慢;异地更新,对闪存的写操作需要先执行块擦除操作显著降低系统性能。如此可根据I/O特性和数据的冷热程度来进行存储分配,将读倾向负载的数据或者热点数据存放在闪存上,而写倾向负载或冷数据等则存放在磁盘上,这样数据特性及热度挖掘模块就需挖掘不同数据类型的I/O特性和数据的冷热程度。这种何种存储介质更适合存储何种数据的相关研究已有很多,在此就不一一赘述。这样,数据特性及热度挖掘模块根据存储资源中存储介质种类和特性挖掘对应的数据相关特征,维护出一张不同介质所最适合存储的数据类型的优先级表,并附各类型数据在整体存储资源中大致所占比列(某类型数据及其更高优先级数据的比例之和及为该数据类型的优先级比例)。而数据进行的类型特征提取,也是与数据特性及热度挖掘模块中挖掘的数据类型征一致的。
在分流操作中,有三输入,分别为待存储数据类型特征、数据特性及热度挖掘模块挖掘出的不同存储介质所最适合存储的数据类型的优先级表及各类型数据在整体存储资源中大致所占比列,存储资源监控模块反馈的空闲存储资源信息。前两者上文已做解释,而存储资源监控模块反馈的空闲存储资源信息包括每种存储介质其剩余存储资源(%),以及各存储介质剩余存储资源量的比例。用户预设优先级-资源量存储资格表,表中定义存储介质剩余存储资源及各存储介质剩余存储资源量比例与优先级比例的对应关系。本发明以存储资源包括磁盘和闪存为例给出参考定义:
优先级比例 资源剩余量 剩余资源比例(本资源/其他)
0%~10% 3% >0
10%~20% 10% 1/10
20%~50% 30% 3/10
该定义用户可根据实际存储资源量和对负载均衡的需求度进行调整。
具体分流步骤如下:
Step1:根据数据特征类型查询优先级表,得到其在各存储介质中的优先级比例。
Step2:选择其最高的优先级比例。
Step3:在优先级-资源量存储资格表中查看该优先级比例对应需要的资源剩余量和剩余存储资源量的比例,比较实际值是否大于等于表中定义的值。
Step4:若均达到优先级-资源量存储资格表中的值,则分流到该存储介质对应的那一路。若达不到,则选取次高的优先级比例,重复Step3.
Step5:若遍历每种存储介质均不能达到优先级-资源量存储资格表的标准,则选取现剩余存储资源量的比例中最高的那种存储介质,分流到那一路中。

Claims (5)

1.一种多种存储介质并存下的多路数据分配方法,其特征在于,在存储系统中设有数据特征提取及分流模块和记录各存储节点剩余资源量的存储资源监控模块,并根据存储系统中存储介质种类n设立对应的n路数据分布策略。
2.根据权利要求1所述的多种存储介质并存下的多路数据分配方法,其特征在于,存储资源监控模块将存储资源剩余量等信息反馈给数据特征提取及分流模块,数据特征提取及分流模块中数据提取出的特征、数据特性及热度挖掘模块以及存储资源监控模块反馈的信息共同决定数据分流到哪一路。
3.根据权利要求1或2所述的多种存储介质并存下的多路数据分配方法,其特征在于,存储系统中的数据特征提取及分流模块中设立数据特性及热度挖掘模块。
4.根据权利要求1或2所述的多种存储介质并存下的多路数据分配方法,其特征在于,数据特征提取及分流模块中分流的方法,其特征为优先级-资源量存储资格表和三输入:待存储数据类型特征、数据特性及热度挖掘模块挖掘出的优先级信息、存储资源监控模块反馈的空闲存储资源信息。
5.根据权利要求1至4任一所述的多种存储介质并存下的多路数据分配方法,其特征在于,具体分流步骤如下:
Step1:根据数据特征类型查询优先级表,得到其在各存储介质中的优先级比例;
Step2:选择其最高的优先级比例;
Step3:在优先级-资源量存储资格表中查看该优先级比例对应需要的资源剩余量和剩余存储资源量的比例,比较实际值是否大于等于表中定义的值;
Step4:若均达到优先级-资源量存储资格表中的值,则分流到该存储介质对应的那一路。若达不到,则选取次高的优先级比例,重复Step3;
Step5:若遍历每种存储介质均不能达到优先级-资源量存储资格表的标准,则选取现剩余存储资源量的比例中最高的那种存储介质,分流到那一路中。
CN201410252644.XA 2014-06-09 2014-06-09 一种多种存储介质并存下的多路数据分配方法 Pending CN104035880A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410252644.XA CN104035880A (zh) 2014-06-09 2014-06-09 一种多种存储介质并存下的多路数据分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410252644.XA CN104035880A (zh) 2014-06-09 2014-06-09 一种多种存储介质并存下的多路数据分配方法

Publications (1)

Publication Number Publication Date
CN104035880A true CN104035880A (zh) 2014-09-10

Family

ID=51466652

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410252644.XA Pending CN104035880A (zh) 2014-06-09 2014-06-09 一种多种存储介质并存下的多路数据分配方法

Country Status (1)

Country Link
CN (1) CN104035880A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106557470A (zh) * 2015-09-24 2017-04-05 腾讯科技(北京)有限公司 数据提取方法和装置
CN108388406A (zh) * 2018-01-10 2018-08-10 链家网(北京)科技有限公司 数据处理方法及装置
CN108881415A (zh) * 2018-05-31 2018-11-23 广州亿程交通信息集团有限公司 分布式实时大数据分析系统
CN111083232A (zh) * 2019-12-27 2020-04-28 南京邮电大学 一种基于改进一致性哈希的服务器端负载均衡方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7631023B1 (en) * 2004-11-24 2009-12-08 Symantec Operating Corporation Performance-adjusted data allocation in a multi-device file system
CN102388358A (zh) * 2011-09-30 2012-03-21 华为技术有限公司 在混合存储环境下配置存储设备的方法和系统
CN102929787A (zh) * 2011-09-12 2013-02-13 微软公司 用于存储装置组的分配策略

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7631023B1 (en) * 2004-11-24 2009-12-08 Symantec Operating Corporation Performance-adjusted data allocation in a multi-device file system
CN102929787A (zh) * 2011-09-12 2013-02-13 微软公司 用于存储装置组的分配策略
CN102388358A (zh) * 2011-09-30 2012-03-21 华为技术有限公司 在混合存储环境下配置存储设备的方法和系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106557470A (zh) * 2015-09-24 2017-04-05 腾讯科技(北京)有限公司 数据提取方法和装置
CN108388406A (zh) * 2018-01-10 2018-08-10 链家网(北京)科技有限公司 数据处理方法及装置
CN108388406B (zh) * 2018-01-10 2021-07-02 链家网(北京)科技有限公司 数据处理方法及装置
CN108881415A (zh) * 2018-05-31 2018-11-23 广州亿程交通信息集团有限公司 分布式实时大数据分析系统
CN108881415B (zh) * 2018-05-31 2020-11-17 广州亿程交通信息集团有限公司 分布式实时大数据分析系统
CN111083232A (zh) * 2019-12-27 2020-04-28 南京邮电大学 一种基于改进一致性哈希的服务器端负载均衡方法
CN111083232B (zh) * 2019-12-27 2022-06-28 南京邮电大学 一种基于改进一致性哈希的服务器端负载均衡方法

Similar Documents

Publication Publication Date Title
CN104035880A (zh) 一种多种存储介质并存下的多路数据分配方法
CN101840308B (zh) 一种分级存储系统及其逻辑卷管理方法
CN102156738B (zh) 数据块处理方法、数据块存储设备及系统
CN102097122B (zh) 一种多通道共享数据缓存区的NAND flash控制器电路
US7398489B2 (en) Advanced standard cell power connection
CN105242881A (zh) 分布式存储系统及其数据读写方法
CN102081576A (zh) 一种闪存的磨损平衡方法
CN102929787A (zh) 用于存储装置组的分配策略
CN104462240A (zh) 云存储中实现分级存储管理的方法和系统
CN106527995B (zh) 一种i/o均衡的数据扩容迁移方法
CN105389376B (zh) 基于连续块的无碎片化多媒体数据存储方法及系统
CN101419573A (zh) 一种存储管理的方法、系统和存储设备
CN103793332B (zh) 基于内存的数据存储方法、装置、处理器和电子设备
CN101976181A (zh) 一种存储资源的管理方法及管理装置
CN104699424A (zh) 一种基于页面热度的异构内存管理方法
CN103176750B (zh) 基于交错时间分区的移动互联网数据存储系统及其方法
CN110413224A (zh) 数据存储方法、装置及存储器
CN103905517A (zh) 一种数据存储方法及设备
CN109669622A (zh) 一种文件管理方法、文件管理装置、电子设备及存储介质
CN104246723A (zh) 片内共享缓存的管理方法及装置
CN102609358B (zh) 聚集静态数据的方法及其固态硬盘
CN102981971A (zh) 一种快速响应的相变存储器损耗均衡方法
CN101344861A (zh) 一种智能卡内存管理方法
CN102520242A (zh) 一种电能表负荷曲线的记录方法
CN102184080B (zh) 一种基于固化条带的raid系统扩容后的数据读写方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140910