CN104714753A - 一种数据访问存储方法及装置 - Google Patents

一种数据访问存储方法及装置 Download PDF

Info

Publication number
CN104714753A
CN104714753A CN201310681928.6A CN201310681928A CN104714753A CN 104714753 A CN104714753 A CN 104714753A CN 201310681928 A CN201310681928 A CN 201310681928A CN 104714753 A CN104714753 A CN 104714753A
Authority
CN
China
Prior art keywords
access
data
relation
summit
request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201310681928.6A
Other languages
English (en)
Inventor
王志坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201310681928.6A priority Critical patent/CN104714753A/zh
Priority to PCT/CN2014/080432 priority patent/WO2015085747A1/zh
Publication of CN104714753A publication Critical patent/CN104714753A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0625Power saving in storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/0647Migration mechanisms
    • G06F3/0649Lifecycle management
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Memory System Of A Hierarchy Structure (AREA)

Abstract

本发明提供了一种数据访问存储方法及装置。所述方法包括步骤:获得数据读写访问请求;根据所述数据读写访问请求,构造数据访问关系图;根据所述数据访问关系图,获得数据移动策略;根据所述数据移动策略对存储介质上的数据进行移动。本发明上述方案解决了现有存储系统节能技术中存在的节能效果不佳、对I/O访问性能影响大的问题,通过将经常访问且关联度较高的数据按顺序存到缓存磁盘中,利用了活动磁盘中数据的时间局部性和空间局部性,增加了非活动磁盘关闭的次数和时间,在提高磁盘访问性能的同时,进一步减少了能量的消耗。

Description

一种数据访问存储方法及装置
技术领域
本发明涉及计算机及信息通信技术领域,特别涉及一种数据访问存储方法及装置。
背景技术
绿色节能是当前数据中心发展的趋势,在一个数据中心内,服务器依然还是最大的电能消耗和冷却问题的主要设备,存储系统紧随其后,研究表明,存储系统电能消耗一般占整个数据中心电能消耗的27%左右,其中磁盘是存储系统中主要的耗能设备,典型的磁盘阵列独立磁盘冗余阵列(Redundant Array ofIndependent Disks,RAID)系统中,磁盘阵列卡能耗可占到80%左右。一个存储设备从投入使用到最终淘汰,整个使用过程中所消耗的能源很可能会超过其本身的购买价格。磁盘阵列在闲置时仍然会使用超过峰值功率80%的能耗,因此在构建大规模磁盘存储系统时,需要将节能问题考虑进来。
能耗问题的研究最初是为了延长便携式设备中电池的使用时间,一般采用动态电源管理(Dynamic Power Management,DPM)节能方法,其首先监控系统中磁盘的空闲时间,当能耗管理算法预测到将磁盘转换至低能耗状态时可以节能时,就将磁盘转换至低能耗状态,以便节约能耗。但在磁盘有相应新的请求前必须重新加速到全速旋转模式,这一加速过程会带来显著的能量消耗和时间开销。为了弥补这个开销,磁盘处于停顿模式所节省的能耗应该大于重新启动硬盘带来的能耗开销,这是有在后续请求达到时间间隔足够长时才行。
然而与便携式设备不同,在企业级数据中心环境中进行节能存在如下一些挑战:(1)在服务器存储环境中,由于I/O(输入/输出)访问比较密集,磁盘空闲时间较短,采用DPM节能方法来关闭磁盘带来的节能效果十分有限;(2)为了追求最大的数据并行度和可靠性,数据中心部署的多为并行磁盘系统,如RAID方式,这意味着大部分磁盘都在被访问,所有设备始终都在工作,并没有闲置的设备,从而无法进行空闲状态切换;(3)当关闭磁盘进行节能时,还会对存储系统的性能和可靠性带来较大影响,这与企业级存储系统的高性能、高可靠的目标相悖。
在大规模企业级磁盘存储系统中,采用热点数据布局的方式来节约能耗是一种比较有效的方法,如空闲磁盘的大规模阵列(Massive Array of Idle Disks,MAID)存储系统等。这些方法将系统中的磁盘划分为活动和非活动两类,通过对系统中数据访问热度的统计,将经常访问的数据缓存或迁移到少部分活动磁盘中,从而将大量不经常访问的磁盘转换到低能耗状态,进而达到节能的目标。
现有的基于数据访问热度的节能方法主要从数据访问的时间局部性特点出发,将热点数据存放在活动磁盘中,以减少非活动磁盘的启动次数和处于活动状态的时间。表面上看,这些方法的节能效果与数据命中精度直接相关,但磁盘的机械特性决定了节能与提高性能方法不同,不命中数据的访问行为也会对存储系统节能效果带来很大影响。如果缓存磁盘缺失分布较为均匀时,会导致大多数非活动磁盘空闲时间过短,而无法切换到节能状态。而且,非活动磁盘处于关闭状态时,一旦请求数据不在缓存磁盘中时,就需要将关闭磁盘启动到活动状态,然后才能进行相应的数据服务,这个过程会带来较大的时间延迟和能量消耗。因此,非活动磁盘频繁地停止和启动也会降低其使用寿命。
发明内容
本发明要解决的技术问题是提供一种数据访问存储方法及装置,用以克服现有存储系统节能技术中存在的节能效果不佳、对I/O(输入/输出)访问性能影响大的问题。
为了解决上述技术问题,本发明实施例提供一种数据访问存储方法,包括步骤:
获得数据读写访问请求;
根据所述数据读写访问请求,构造数据访问关系图;
根据所述数据访问关系图,获得数据移动策略;
根据所述数据移动策略对存储介质上的数据进行移动。
进一步地,所述获得数据读写访问请求的步骤具体为:
在块设备驱动层截获上层应用下发的数据读写访问请求。
进一步地,所述根据所述数据读写访问请求,构造数据访问关系图的步骤包括:
将每个数据读写访问请求,依据其请求数据的起始逻辑区块地址和数据大小进行分块,并与预设的分块粒度相对应,每个分块粒度在关系图中表示一个顶点;
根据所述顶点,构造顶点之间的有向边生成访问关系图。
进一步地,所述根据所述顶点,构造顶点之间的有向边生成访问关系图的步骤具体为:
对于在同一预设时间段内出现的数据请求序列,将对应的数据请求的分块粒度之间连接一条有向边,从先出现的节点指向后出现的节点。
进一步地,所述根据所述数据读写访问请求,构造数据访问关系图的步骤还包括:获得每个顶点所对应数据块的访问热度。
进一步地,所述获得每个顶点所对应数据块的访问热度的步骤具体为:
根据每个数据块的访问频率、访问时间来计算访问热度,并作为数据块在访问关系图中对应顶点的权重。
进一步地,根据公式: P new = ∂ * P old + Σ i = 1 k F ( t c - t i ) 计算访问热度;
其中,Pold是上次统计的热度值,是衰减因子,tc是当前时间,ti是当前时间片中每次数据读写访问请求的时间,F(x)为一个递减函数。
进一步地,所述根据所述数据读写访问请求,构造数据访问关系图的步骤还包括:
使用邻接表结构来存储所述访问关系图。
进一步地,所述根据所述数据访问关系图,获得数据移动策略的步骤包括:
对所述数据访问关系图进行裁剪;
对裁剪后的访问关系图进行排序;
按照排序结果,根据数据块的访问热度和访问关联信息,得出数据移动策略。
进一步地,所述对所述数据访问关系图进行裁剪的步骤具体为:
使用边的支持度和置信度来对关联图中的边进行裁剪,形成若干小的子图,其中,所述边的支持度为边的权重,所述边的置信度为Sup(Vi,Vj)/Sup(Vi),其中Sup(Vi)是顶点Vi出现的频率。
进一步地,所述对裁剪后的访问关系图进行排序的步骤具体为:
在各个访问子图中,选取权重最大的顶点作为起始节点,并标记顶点,将所述标记的顶点加入排序链L中;
按照顶点关联程度来依次选取访问关系图中边的权重较大的其它顶点加入排序链L中。
本发明实施例还提供一种数据访问存储装置,包括:
请求获取模块,用于获得数据读写访问请求;
关系图构造模块,用于根据所述数据读写访问请求,构造数据访问关系图;
分析模块,用于根据所述数据访问关系图,获得数据移动策略;
执行模块,用于根据所述数据移动策略对存储介质上的数据进行移动。
进一步地,所述关系图构造模块包括:
构造单元,用于对每个数据读写访问请求,依据其请求数据的起始逻辑区块地址和数据大小进行分块,并与预设的分块粒度相对应,每个分块粒度在关系图中表示一个顶点,并根据所述顶点,构造顶点之间的有向边生成访问关系图。
进一步地,所述关系图构造模块还包括:
计算单元,用于计算获得每个顶点所对应数据块的访问热度。
进一步地,所述分析模块具体包括:
裁剪单元,用于对所述数据访问关系图进行裁剪;
排序单元,用于对裁剪后的访问关系图进行排序;
计划制定单元,用于按照排序结果,根据数据块的访问热度和访问关联信息,得出数据移动策略。
本发明的上述技术方案的有益效果如下:
上述方案中,通过将经常访问且关联度较高的数据按顺序存放到缓存磁盘中,利用了活动磁盘中数据的时间局部性和空间局部性,增加了非活动磁盘关闭的次数和时间,并且在缓存磁盘中将关联数据依次存放,有效地减少了磁头臂移动带来的能量消耗和寻道等待延时,在提高磁盘访问性能的同时,进一步减少了能量的消耗。
附图说明
图1为本发明实施例的方法总体流程图;
图2为本发明实施例所述方法的一具体实现流程图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的存储系统节能技术中存在的节能效果不佳、对I/O(输入/输出)访问性能影响大的问题,提供一种数据访问存储方法及装置。
如图1所示,本发明实施例提供一种数据访问存储方法,包括:
步骤10,获得数据读写访问请求;
步骤20,根据所述数据读写访问请求,构造数据访问关系图;
步骤30,根据所述数据访问关系图,获得数据移动策略;
步骤40,根据所述数据移动策略对存储介质上的数据进行移动。
本发明上述实施例使用磁盘作为整个系统的缓存,具有以下优点:(1)磁盘价格便宜、存储空间大,可以在非活动磁盘启动后,按照数据关联度,传输更多的数据到缓存磁盘中,从而增加数据连续命中的时间和次数,延长其它磁盘关闭的机会;(2)与易失内存不同,磁盘作为数据缓存可以防止意外掉电带来的数据丢失,具有较高的数据可靠性。
本发明上述实施例通过对访问请求进行收集,形成访问关系图,再对所述访问关系图进行分析制定出数据移动策略,按照所述数据移动策略对磁盘上的数据进行移动,有顺序的存入缓存磁盘中,可缩短磁盘中磁头臂移动的距离,在缩短I/O请求响应时间的同时减少了能量的消耗。
本发明的另一实施例中,所述步骤10具体为:在块设备驱动层截获上层应用下发的数据读写访问请求。
应当说明的是,所述数据读写访问请求可以为数据读访问请求,也可以为数据写访问请求,也可以为数据读和写同时进行的访问请求。
本发明上述实施例,通过跟踪、记录上层应用发送的I/O请求,并在块设备驱动层截获上层应用下发的I/O请求,为后续的生成数据访问关系图奠定基础。
本发明的又一实施例中,所述步骤20包括:
将每个数据读写访问请求,依据其请求数据的起始逻辑区块地址和数据大小进行分块,并与预设的分块粒度相对应,每个分块粒度在关系图中表示一个顶点;
根据所述顶点,构造顶点之间的有向边生成访问关系图。
考虑到在服务器环境下,上层多个应用的并发访问,导致存储系统收到的请求之间相互交叉,从而使得有关联的请求之间并不总是相连存放,因此采用有向访问关系图的方法来揭示I/O请求(这里所述I/O请求对于存储系统来说便是数据读写请求)之间的访问关系。对于访问关系图,使用邻接表(Adjacency List)结构来存储,具体定义为:
由于每个I/O请求起始LBA(Logical Block Address,逻辑块地址)和大小不同,为了便于处理,定义了一个分块粒度Chunk值,将每个I/O请求依据其请求起始LBA和请求大小进行分块,并对齐到Chunk边界上,每个Chunk在关系图中表示为一个顶点。采用观测窗口来协助构造访问关系图,即在一个观测窗口中出现的请求之间具有一定的关系,其对应的Chunk顶点之间便连接一条有向边,从先出现的节点指向后出现的顶点。
因为存储系统中I/O访问请求的突发性,这里采用时间窗口(Time Window)作为观察窗口,时间窗口维护了一个N秒之内的请求序列,在该时间窗口内出现的请求之间都认为是有关联的。时间窗口的大小对访问关系的提取有较大的影响,若时间窗口值设置的过小,会丢失许多有关联的I/O信息,而该值设置过大则又会引入无关的关联信息。
在构造访问关系图时,除了构造访问关系图中顶点之间的“有向边”,还需计算每个顶点所对应数据块的访问热度,以便在数据缓存时综合考虑数据块的访问热度和访问关联信息。因此本发明的又一实施例中,所述步骤20还包括:获得每个顶点所对应数据块的访问热度。
这里采用数据块流行度(Popularity)计算方法,根据每个数据块的访问频率、访问时间等特征,来计算其热度值,并作为块在关系图中对应顶点的权重,具体公式为: P new = ∂ * P old + Σ i = 1 k F ( t c - t i ) , 其中Pold是上次统计的热度值,是衰减因子,这里选tc是当前时间,ti是当前时间片中每次数据读写访问请求的时间,F(x)为一个递减函数,这里取F(x)=(1/2)x
构造访问关系图的具体算法如下:
输入:Chunk请求Vi;输出:访问关系图G(V,E);
If V i ∉ Vthen
将顶点Vi添加到V中;
设置顶点初始权重p_Vi
else
更新顶点权重p_Vi
end if
for观察窗口中的每个Vido
构造边eij并加入到E中;
设置边的初始权重w_eij
else
更新边的权重w_eij
end if
end for
更新观察窗口中的最旧的项;
return G
对以上构造方法作具体说明,对于观测窗口中出现的每一个请求,如果其在访问关系图中没有出现过,则首先在访问关系图中增加一个新的顶点,并设置该顶点的初始权重。如果该请求在访问关系图中已存在,则只需要更新该顶点在访问关系图中的权重;然后依次与观测窗口中之前的顶点之间建立边,两个请求所对应的点之间没有边,则新建一个并赋值为1,如果这两者之间有边,则只需增加该边的权重即可;重复以上过程,直到所有I/O请求都处理完毕,就建立一个完整的访问关系图。
通过以上方法便构建出在预设时间窗口内的基于I/O访问请求的访问关系图,对于以上构建的访问关系图,其中必然包含了大量的无访问关联的边,如果不对其进行相应处理,一方面图结构会占用大量的内存空间,并降低运行效率,另一方面会降低预测的精度,因此本发明的又一实施例中,所述步骤30具体为:
步骤31,对所述数据访问关系图进行裁剪;
步骤32,对裁剪后的访问关系图进行排序;
步骤33,按照排序结果,根据数据块的访问热度和访问关联信息,得出数据移动策略。
上述方案,为了减少关联图的处理开销并提高预测精度,在构建好访问关系图后,使用支持度和置信度两个概念来对关联图中的边进行裁剪,并形成若干小的子图,具体为:e(vi,vj)表示从顶点vi到vj的一条边,则e(vi,vj)的支持度定义为边e(vi,vj)的权重,而e(vi,vj)的置信度计算方法是Sup(Vi,Vj)/Sup(Vi),其中Sup(Vi)是顶点Vi出现的频率。
将所述支持度与置信度分别设置一支持度阈值和置信度阈值,所有小于支持度阈值或置信度阈值的边,都从访问关系图中删去,这样得到的子图就是各个有访问关联的请求聚集。
从以上处理过程来看,支持度阈值和置信度阈值对结果影响较大,当这两个值选取较小时,会引入过多的无关边,从而降低关联度的精度;而当这两个阈值设定较大时,又会丢失一些有内在联系的边,使得提取出的访问关联较少,不利于进行优化,在具体实施时要权衡两个阈值,以得出较为合理的访问关联请求聚集。
在将访问关系图裁剪形成各子图后,需要根据边的权重对图中各项顶点进行排序,以决定顶点所对应数据块在缓存磁盘上的布局,这个过程涉及到访问关联图中各顶点的遍历。在访问子图中,首先选取访问热度最高的请求,即权重最大的顶点作为起始节点,然后按关联程度来依次选取访问关系图中边的权重较大的其它顶点。对图的遍历一般采取深度优先(Depth First Search,DFS)或宽度优先(Breadth First Search,BFS)方式,考虑到边的权重,采用一种全局均衡的遍历方法,其通过边权重的迭代,来全局计算各顶点的权重,并按此进行排序。具体实现为:
输入:访问关系图G(V,E);输出:请求聚集链L
取消V中所有节点的标记;
选择权重值最大的顶点vs作为起始节点;
标记顶点vs
将顶点vs加入到链L中;
for每一个未标记的相邻顶点vn do
将vn加入到链L;
标记vn
end for
返回聚集链L;
进一步地描述为:在各个访问子图中,首先选取访问热度最高的请求,即权重最大的顶点作为起始节点,标记顶点,将所述标记的顶点加入排序链L中,然后按照关联程度来依次选取访问关系图中边的权重较大的其它顶点分别将其加入排序链L中。此算法的时间复杂度为O(n+mlog2m),其中n是顶点数,而m是图中边的条数,O(n)是找到最大权重顶点的时间,而O(mlog2m)则是对其他边进行排序的时间,此算法有效降低了时间复杂度。
在对子图中的各顶点进行排序后,当需要进行数据移动时,根据指定的数据移动策略,将排序好的有关联的数据一次性复制到活动缓存磁盘上,并按顺序组织存放。以数据访问之间的关联进行聚集,可以使得缓存磁盘获得更多的连续访问机会,从而延长了非活动磁盘处于关闭状态的时间;而按顺序将数据在缓存磁盘中进行组织,可以缩短磁盘中磁头臂移动的距离,在缩短I/O请求响应的同时减少了能量的消耗。
如图2所示,在块设备驱动层获得上层应用下发的I/O访问请求(即对访问负载进行跟踪、记录);接着便是对访问模式进行提取,包括:对访问热度的统计以及构造访问关系图;然后便是对访问关系图的分析,包括:对访问关系图进行裁剪,以及对裁剪后的子图进行排序;接下来便是根据排序后的访问子图生成数据缓存策略,最后根据所制定的数据缓存策略进行实际的数据移动。
本发明提出的存储节能方法适合于DAS(开放系统的直连式存储)、NAS(网络接入服务器)和SAN(存储区域网络)等各种网络存储系统结构中,并且其既可以用于由多磁盘构成的单个存储系统内部,也可以是由多个存储单元组成的大规模存储系统,数据在不同单元之间按照数据访问热度和关联进行重分布,以达到节能的目标。
本发明上述方案,通过将经常访问且关联度较高的数据按顺序存到到缓存磁盘中,利用了活动磁盘中数据的时间局部性和空间局部性,增加了非活动磁盘关闭的次数和时间,并且在缓存磁盘中将关联数据依次存放,有效地减少了磁头臂移动带来的能量消耗和寻道等待延时,在提高磁盘访问性能的同时,进一步减少了能量的消耗,达到了节能的效果。
本发明实施例还提供一种数据访问存储装置,包括:
请求获取模块,用于获得数据读写访问请求;
关系图构造模块,用于根据所述数据读写访问请求,构造数据访问关系图;
分析模块,用于根据所述数据访问关系图,获得数据移动策略;
执行模块,用于根据所述数据移动策略对存储介质上的数据进行移动。
本发明上述实施例通过对请求模块获取的访问请求进行访问关系图构造,再根据构造的访问关系图由分析模块进行一系列的分析,获得数据移动策略,最后在需要进行数据移动时,由执行模块对数据进行移动,将数据有序的存放在活动缓存磁盘上,此种数据存放方式,使得缓存磁盘能够获得更多的连续访问机会,从而延长了非活动磁盘处于关闭状态的时间;有序的存放缓存磁盘中的数据,可以缩短磁盘中磁头臂的移动距离,进而缩短了I/O请求响应时间,减少了能量的消耗。
本发明的又一实施例中,所述关系图构造模块包括:
构造单元,用于对每个数据读写访问请求,依据其请求数据的起始逻辑区块地址和数据大小进行分块,并与预设的分块粒度相对应,每个分块粒度在关系图中表示一个顶点,并根据所述顶点,构造顶点之间的有向边生成访问关系图。
本发明又一实施例中,所述关系图构造模块还包括:
计算单元,用于计算获得每个顶点所对应数据块的访问热度。
本发明的又一实施例中,所述分析模块具体包括:
裁剪单元,用于对所述数据访问关系图进行裁剪;
排序单元,用于对裁剪后的访问关系图进行排序;
计划制定单元,用于按照排序结果根据数据的访问关联和热度,制定出数据移动计划。
需要说明的是,该装置实施例是与上述方法相对应的装置,上述方法的所有实现方式均适用于该装置实施例中,也能达到与上述方法相同的技术效果。
以上所述的是本发明的优选实施方式,应当指出对于本技术领域的普通人员来说,在不脱离本发明所述原理前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (15)

1.一种数据访问存储方法,其特征在于,包括步骤:
获得数据读写访问请求;
根据所述数据读写访问请求,构造数据访问关系图;
根据所述数据访问关系图,获得数据移动策略;
根据所述数据移动策略对存储介质上的数据进行移动。
2.根据权利要求1所述的数据访问存储方法,其特征在于,所述获得数据读写访问请求的步骤具体为:
在块设备驱动层截获上层应用下发的数据读写访问请求。
3.根据权利要求1所述的数据访问存储方法,其特征在于,所述根据所述数据读写访问请求,构造数据访问关系图的步骤包括:
将每个数据读写访问请求,依据其请求数据的起始逻辑区块地址和数据大小进行分块,并与预设的分块粒度相对应,每个分块粒度在关系图中表示一个顶点;
根据所述顶点,构造顶点之间的有向边生成访问关系图。
4.根据权利要求3所述的数据访问存储方法,其特征在于,所述根据所述顶点,构造顶点之间的有向边生成访问关系图的步骤具体为:
对于在同一预设时间段内出现的数据请求序列,将对应的数据请求的分块粒度之间连接一条有向边,从先出现的节点指向后出现的节点。
5.根据权利要求3所述的数据访问存储方法,其特征在于,所述根据所述数据读写访问请求,构造数据访问关系图的步骤还包括:
获得每个顶点所对应数据块的访问热度。
6.根据权利要求5所述的数据访问存储方法,其特征在于,所述获得每个顶点所对应数据块的访问热度的步骤具体为:
根据每个数据块的访问频率、访问时间来计算访问热度,并作为数据块在访问关系图中对应顶点的权重。
7.根据权利要求6所述的数据访问存储方法,其特征在于,根据公式: P new = ∂ * P old + Σ i = 1 k F ( t c - t i ) 计算访问热度;
其中,Pold是上次统计的热度值,是衰减因子,tc是当前时间,ti是当前时间片中每次数据读写访问请求的时间,F(x)为一个递减函数。
8.根据权利要求7所述的数据访问存储方法,其特征在于,所述根据所述数据读写访问请求,构造数据访问关系图的步骤还包括:
使用邻接表结构来存储所述访问关系图。
9.根据权利要求8所述的数据访问存储方法,其特征在于,所述根据所述数据访问关系图,获得数据移动策略的步骤包括:
对所述数据访问关系图进行裁剪;
对裁剪后的访问关系图进行排序;
按照排序结果,根据数据块的访问热度和访问关联信息,得出数据移动策略。
10.根据权利要求9所述的数据访问存储方法,其特征在于,所述对所述数据访问关系图进行裁剪的步骤具体为:
使用边的支持度和置信度来对关联图中的边进行裁剪,形成若干小的子图,其中,所述边的支持度为边的权重,所述边的置信度为Sup(Vi,Vj)/Sup(Vi),其中Sup(Vi)是顶点Vi出现的频率。
11.根据权利要求10所述的数据访问存储方法,其特征在于,所述对裁剪后的访问关系图进行排序的步骤具体为:
在各个访问子图中,选取权重最大的顶点作为起始节点,并标记顶点,将所述标记的顶点加入排序链L中;
按照顶点关联程度来依次选取访问关系图中边的权重较大的其它顶点加入排序链L中。
12.一种数据访问存储装置,其特征在于,包括:
请求获取模块,用于获得数据读写访问请求;
关系图构造模块,用于根据所述数据读写访问请求,构造数据访问关系图;
分析模块,用于根据所述数据访问关系图,获得数据移动策略;
执行模块,用于根据所述数据移动策略对存储介质上的数据进行移动。
13.根据权利要求12所述的数据访问存储装置,其特征在于,所述关系图构造模块包括:
构造单元,用于对每个数据读写访问请求,依据其请求数据的起始逻辑区块地址和数据大小进行分块,并与预设的分块粒度相对应,每个分块粒度在关系图中表示一个顶点,并根据所述顶点,构造顶点之间的有向边生成访问关系图。
14.根据权利要求13所述的数据访问存储装置,其特征在于,所述关系图构造模块还包括:
计算单元,用于计算获得每个顶点所对应数据块的访问热度。
15.根据权利要求14所述的数据访问存储装置,其特征在于,所述分析模块具体包括:
裁剪单元,用于对所述数据访问关系图进行裁剪;
排序单元,用于对裁剪后的访问关系图进行排序;
计划制定单元,用于按照排序结果,根据数据块的访问热度和访问关联信息,得出数据移动策略。
CN201310681928.6A 2013-12-12 2013-12-12 一种数据访问存储方法及装置 Withdrawn CN104714753A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201310681928.6A CN104714753A (zh) 2013-12-12 2013-12-12 一种数据访问存储方法及装置
PCT/CN2014/080432 WO2015085747A1 (zh) 2013-12-12 2014-06-20 一种数据访问存储方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310681928.6A CN104714753A (zh) 2013-12-12 2013-12-12 一种数据访问存储方法及装置

Publications (1)

Publication Number Publication Date
CN104714753A true CN104714753A (zh) 2015-06-17

Family

ID=53370579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310681928.6A Withdrawn CN104714753A (zh) 2013-12-12 2013-12-12 一种数据访问存储方法及装置

Country Status (2)

Country Link
CN (1) CN104714753A (zh)
WO (1) WO2015085747A1 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105743975A (zh) * 2016-01-28 2016-07-06 深圳先进技术研究院 基于数据访问分布的缓存放置方法及系统
CN106709068A (zh) * 2017-01-22 2017-05-24 郑州云海信息技术有限公司 一种热点数据识别方法及其装置
WO2017101818A1 (zh) * 2015-12-16 2017-06-22 广州神马移动信息科技有限公司 搜索结果显示方法、装置及搜索系统
CN106898368A (zh) * 2017-02-15 2017-06-27 北京蓝杞数据科技有限公司天津分公司 光盘库开关控制装置、方法、设备及光盘式数据中心
CN107291635A (zh) * 2017-06-16 2017-10-24 郑州云海信息技术有限公司 一种缓存替换方法和装置
CN107450862A (zh) * 2017-08-18 2017-12-08 郑州云海信息技术有限公司 一种固态硬盘读操作的仲裁方法
CN108170254A (zh) * 2017-12-30 2018-06-15 广东技术师范学院 一种基于零星请求的策略调度方法
CN110324366A (zh) * 2018-03-28 2019-10-11 阿里巴巴集团控股有限公司 数据处理方法、装置及系统
US11494430B2 (en) 2019-04-18 2022-11-08 Asmedia Technology Inc. Data storage apparatus and data prediction method thereof

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110297699B (zh) * 2018-03-23 2021-09-14 华为技术有限公司 调度方法、调度器、存储介质及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1617100A (zh) * 2003-08-20 2005-05-18 微软公司 确定连续介质优先级的存储调度程序
US20080082752A1 (en) * 2006-09-29 2008-04-03 Ram Chary Method and apparatus for saving power for a computing system by providing instant-on resuming from a hibernation state
CN102831087A (zh) * 2012-07-27 2012-12-19 国家超级计算深圳中心(深圳云计算中心) 基于混合存储器的数据读写处理方法和装置
CN103412794A (zh) * 2013-08-08 2013-11-27 南京邮电大学 一种面向流计算的动态调度分配方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1617100A (zh) * 2003-08-20 2005-05-18 微软公司 确定连续介质优先级的存储调度程序
US20080082752A1 (en) * 2006-09-29 2008-04-03 Ram Chary Method and apparatus for saving power for a computing system by providing instant-on resuming from a hibernation state
CN102831087A (zh) * 2012-07-27 2012-12-19 国家超级计算深圳中心(深圳云计算中心) 基于混合存储器的数据读写处理方法和装置
CN103412794A (zh) * 2013-08-08 2013-11-27 南京邮电大学 一种面向流计算的动态调度分配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宋丽娜等: "基于海量数据存储系统多级存储介质的热点数据区分方法", 《计算机研究与发展》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017101818A1 (zh) * 2015-12-16 2017-06-22 广州神马移动信息科技有限公司 搜索结果显示方法、装置及搜索系统
CN105743975A (zh) * 2016-01-28 2016-07-06 深圳先进技术研究院 基于数据访问分布的缓存放置方法及系统
CN105743975B (zh) * 2016-01-28 2019-03-05 深圳先进技术研究院 基于数据访问分布的缓存放置方法及系统
CN106709068A (zh) * 2017-01-22 2017-05-24 郑州云海信息技术有限公司 一种热点数据识别方法及其装置
CN106709068B (zh) * 2017-01-22 2020-11-20 苏州浪潮智能科技有限公司 一种热点数据识别方法及其装置
CN106898368A (zh) * 2017-02-15 2017-06-27 北京蓝杞数据科技有限公司天津分公司 光盘库开关控制装置、方法、设备及光盘式数据中心
CN107291635A (zh) * 2017-06-16 2017-10-24 郑州云海信息技术有限公司 一种缓存替换方法和装置
CN107450862A (zh) * 2017-08-18 2017-12-08 郑州云海信息技术有限公司 一种固态硬盘读操作的仲裁方法
CN108170254A (zh) * 2017-12-30 2018-06-15 广东技术师范学院 一种基于零星请求的策略调度方法
CN110324366A (zh) * 2018-03-28 2019-10-11 阿里巴巴集团控股有限公司 数据处理方法、装置及系统
CN110324366B (zh) * 2018-03-28 2022-07-29 阿里巴巴集团控股有限公司 数据处理方法、装置及系统
US11494430B2 (en) 2019-04-18 2022-11-08 Asmedia Technology Inc. Data storage apparatus and data prediction method thereof

Also Published As

Publication number Publication date
WO2015085747A1 (zh) 2015-06-18

Similar Documents

Publication Publication Date Title
CN104714753A (zh) 一种数据访问存储方法及装置
CN102222085B (zh) 一种基于相似性与局部性结合的重复数据删除方法
Kim et al. Fast, energy efficient scan inside flash memory SSDs
CN102662868B (zh) 用于处理器的动态组相联高速缓存装置及其访问方法
CN104516471B (zh) 一种管理存储器系统的电源的方法和装置
CN106528454B (zh) 一种基于闪存的内存系统缓存方法
CN103019958A (zh) 使用数据属性来管理固态存储器里的数据的方法
CN104699424A (zh) 一种基于页面热度的异构内存管理方法
CN102637147A (zh) 利用固态硬盘作为计算机写缓存的存储系统以及相应的管理调度方法
CN104536904A (zh) 一种数据管理的方法、设备与系统
CN103605483A (zh) 一种分级存储系统中块级数据特征处理方法
CN102999428A (zh) 一种瓦记录磁盘的四级编址方法
CN106354805A (zh) 一种分布式存储系统NoSQL搜索缓存的优化方法和系统
CN106775453B (zh) 一种混合存储阵列的构建方法
Wu et al. APP-LRU: A new page replacement method for PCM/DRAM-based hybrid memory systems
CN109710184A (zh) 瓦记录磁盘感知的分层式混合存储方法及系统
CN103631729A (zh) 一种基于块级的分级存储方法及系统
CN106598501A (zh) 用于存储自动分层的数据迁移设备及方法
Arora et al. An intelligent energy efficient storage system for cloud based big data applications
CN202795333U (zh) 服务器中磁盘冗余阵列高速读写控制电路结构
CN103605482A (zh) 一种硬盘内数据高性能存储方法
Jiang et al. A cost-aware buffer management policy for flash-based storage devices
CN105988720A (zh) 数据存储装置和方法
Fevgas et al. A study of R-Tree performance in hybrid flash/3DXPoint storage
CN104571959A (zh) 数据处理方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20150617

WW01 Invention patent application withdrawn after publication