CN104657286A

CN104657286A - 一种分级存储方法及装置

Info

Publication number: CN104657286A
Application number: CN201310586012.2A
Authority: CN
Inventors: 周扬
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2013-11-19
Filing date: 2013-11-19
Publication date: 2015-05-27
Anticipated expiration: 2033-11-19
Also published as: WO2014183514A1; EP3073383A1; EP3073383A4; CN104657286B; RU2651216C2; RU2016124001A

Abstract

本发明公开了一种分级存储方法及装置。其中，该方法包括：基于数据动态分级策略，决定不同条件下触发数据的迁移；基于文件关联规则挖掘技术，将文件相互关联；其中，相互关联的文件用于自动预取；基于迁移速率控制机制，最大化数据的迁移速度。通过本发明，基于数据动态分级策略，决定不同条件下触发数据的迁移；基于文件关联规则挖掘技术，将文件相互关联；其中，相互关联的文件用于自动预取；基于迁移速率控制机制，最大化数据的迁移速度。解决了相关技术中分级管理方法无法在在线存储和近线存储之间灵活迁移数据的问题，从而能够更加灵活的控制回迁的触发，能够灵活配置分级管理策略，在在线存储和近线存储之间灵活的迁移数据。

Description

一种分级存储方法及装置

技术领域

本发明涉及计算机存储系统领域，特别是涉及一种分级存储方法及装置。

背景技术

分级存储管理指的是在物理上，存储设备依据价格、性能或其他属性被区分为多种不同的类别，而数据依据其访问活动或者其他特性，动态的在不同类别的存储设备间迁移的存储系统。与传统的存储系统相比，分级存储系统将具有不同性能、容量、价格的设备整合在一起，提供高性能、大容量、低价格的存储环境。

在一般的分级存储系统中，包括三个层级：在线存储，近线存储和离线存储。其中在线存储使用的是高性能的磁盘，如SSD和FC盘。在线存储存放少量的具有较高价值和访问频率的数据，相比而言，这些存储设备性能好，存取速度快，访问在线存储中的数据，能够满足应用对高性能的要求。近线存储存放不太活跃的数据，由于SATA盘具有较大的容量、较低的价格和较低的性能，适于应用于近线存储中。而上层应用对近线存储中的访问较少，所以对系统整体性能的影响并不大。离线存储设备一般使用的是磁带或磁带库，其主要目的是用于存储在线存储和近线存储中数据的备份或归档的数据。离线存储数据的读取往往需要比较长的时间，而且也几乎不会对离线存储数据进行访问。

现有的分级存储系统主要是针对备份应用（将冷数据从在线存储迁移到近线或者离线存储上）或者缓存应用（将近线存储上变热的数据迁移到在线存储以提高性能），较少有二者兼顾的设计。这些设计存在的问题在于，系统在数据分级之后，数据的回迁会产生性能较低的问题。例如，对于一些访问频率不高的冷数据，可能在分级时被从在线存储迁移到近线或者离线存储上，该数据被再次访问时，现有系统一般有两种解决方法：1）提前通过预取提前对该数据进行了回迁，这种方法预测的时间一般较短，且可能存在不准确的问题；2）触发该数据的回迁，这样的回迁可能是没有必要的，因为这些数据可能只是一次性访问，回迁的代价较大。

针对相关技术中分级管理方法无法在在线存储和近线存储之间灵活迁移数据的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中分级管理方法无法在在线存储和近线存储之间灵活迁移数据的问题，本发明提供了一种分级存储方法及装置，用以解决上述技术问题。

根据本发明的一个方面，本发明提供了一种分级存储方法，其中，该方法包括：基于数据动态分级策略，决定不同条件下触发数据的迁移；基于文件关联规则挖掘技术，将文件相互关联；其中，相互关联的文件用于自动预取；基于迁移速率控制机制，最大化数据的迁移速度。

优选地，基于数据动态分级策略，决定不同条件下触发数据的迁移包括：基于数据动态分级策略，进行数据分级操作；其中，上述数据分级操作包括文件升级操作和文件降级操作；基于数据分级操作，决定不同条件下触发数据的迁移。

优选地，基于数据动态分级策略，进行文件升级操作包括：根据文件升级后单位时间内被访问的数据量，衡量文件升级的收益效率；根据上述文件升级的收益效率和文件升级的成本，确定数据升级的单位成本收益效率；根据上述数据升级的单位成本收益效率，判断文件的升级效用值是否高于升级阈值；如果是，则对文件执行升级操作。

优选地，基于数据动态分级策略，进行文件降级操作包括：根据数据访问情况，在（内存块）LRU队列中维护快速存储设备上的所有文件；一个降级线程每隔指定时间在上述LRU队列中取出最冷的文件，作为降级对象；对上述降级对象执行文件降级操作。

优选地，基于文件关联规则挖掘技术，领取相互关联的文件包括：采用挖掘算法BIDE，挖掘频繁序列；将频繁序列转换为关联规则，并确定强关联规则；判断上述强关联规则是否为冗余规则；如果是，则将该强关联规则剔除；如果否，则将该强关联规则用于文件预取。

优选地，基于迁移速率控制机制，最大化数据的迁移速度包括：依据数据管理客户端中，前端应用的负载，确定文件是否进行迁移；如果前端负载低于第一指定阈值，则进行数据迁移；如果前端负载高于第二指定阈值，则对数据迁移进行限制。

根据本发明的另一方面，本发明还提供了一种分级存储装置，其中，该装置包括：分级模块，用于基于数据动态分级策略，决定不同条件下触发数据的迁移；关联模块，用于基于文件关联规则挖掘技术，将文件相互关联；其中，相互关联的文件用于自动预取；速率控制模块，用于基于迁移速率控制机制，最大化数据的迁移速度。

优选地，上述分级模块包括：升级单元，用于基于数据动态分级策略，进行文件升级操作；降级单元，用于基于数据动态分级策略，进行文件降级操作。

优选地，上述升级单元包括：第一收益效率计算子单元，用于根据文件升级后单位时间内被访问的数据量，衡量文件升级的收益效率；第二收益效率计算子单元，用于根据上述文件升级的收益效率和文件升级的成本，确定数据升级的单位成本收益效率；升级操作子单元，用于根据上述数据升级的单位成本收益效率，判断文件的升级效用值是否高于升级阈值；如果是，则对文件执行升级操作。

优选地，上述降级单元包括：文件维护子单元，用于根据数据访问情况，在内存块LRU队列中维护快速存储设备上的所有文件；降级对象确定子单元，用于使一个降级线程每隔指定时间在上述LRU队列中取出最冷的文件，作为降级对象；降级操作子单元，用于对上述降级对象执行文件降级操作。

优选地，上述关联模块包括：频繁序列挖掘单元，用于采用挖掘算法BIDE，挖掘频繁序列；强关联规则确定单元，用于将频繁序列转换为关联规则，并确定强关联规则；冗余规则判断单元，用于判断上述强关联规则是否为冗余规则；如果是，则将该强关联规则剔除；如果否，则将该强关联规则用于文件预取。

优选地，上述速率控制模块包括：迁移单元，用于依据数据管理客户端中，前端应用的负载，确定文件是否进行迁移；迁移处理单元，用于在前端负载低于第一指定阈值时，进行数据迁移；在前端负载高于第二指定阈值时，对数据迁移进行限制。

通过本发明，基于数据动态分级策略，决定不同条件下触发数据的迁移；基于文件关联规则挖掘技术，将文件相互关联；其中，相互关联的文件用于自动预取；基于迁移速率控制机制，最大化数据的迁移速度。解决了相关技术中分级管理方法无法在在线存储和近线存储之间灵活迁移数据的问题，从而能够更加灵活的控制回迁的触发，能够灵活配置分级管理策略，在在线存储和近线存储之间灵活的迁移数据。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

图1是根据本发明实施例的分级存储方法的流程图；

图2是根据本发明实施例的系统硬件体系结构示意图；

图3是根据本发明实施例的速率控制的操作示意图；

图4是根据本发明实施例的分级存储装置的结构框图。

具体实施方式

为了解决现有技术分级管理方法无法在在线存储和近线存储之间灵活迁移数据的问题，本发明提供了一种分级存储方法及装置，以下结合附图以及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不限定本发明。

本实施例提供了一种分级存储方法，图1是根据本发明实施例的分级存储方法的流程图，如图1所示，该方法包括以下步骤（步骤S102-步骤S106）：

步骤S102，基于数据动态分级策略，决定不同条件下触发数据的迁移。具体地，基于数据动态分级策略，进行数据分级操作；其中，数据分级操作包括文件升级操作和文件降级操作；基于数据分级操作，决定不同条件下触发数据的迁移。

基于数据动态分级策略，进行文件升级操作包括：根据文件升级后单位时间内被访问的数据量，衡量文件升级的收益效率；根据文件升级的收益效率和文件升级的成本，确定数据升级的单位成本收益效率；根据数据升级的单位成本收益效率，判断文件的升级效用值是否高于升级阈值；如果是，则对文件执行升级操作。

基于数据动态分级策略，进行文件降级操作包括：根据数据访问情况，在内存块LRU队列中维护快速存储设备上的所有文件；一个降级线程每隔指定时间在LRU队列中取出最冷的文件，作为降级对象；对降级对象执行文件降级操作。

步骤S104，基于文件关联规则挖掘技术，将文件相互关联；其中，相互关联的文件用于自动预取。

具体地，采用挖掘算法BIDE，挖掘频繁序列；将频繁序列转换为关联规则，并确定强关联规则；判断强关联规则是否为冗余规则；如果是，则将该强关联规则剔除；如果否，则将该强关联规则用于文件预取。

步骤S106，基于迁移速率控制机制，最大化数据的迁移速度。

具体地，依据数据管理客户端中，前端应用的负载，确定文件是否进行迁移；如果前端负载低于第一指定阈值，则进行数据迁移；如果前端负载高于第二指定阈值，则对数据迁移进行限制。

通过本实施例，基于数据动态分级策略，决定不同条件下触发数据的迁移；基于文件关联规则挖掘技术，将文件相互关联；其中，相互关联的文件用于自动预取；基于迁移速率控制机制，最大化数据的迁移速度。解决了相关技术中分级管理方法无法在在线存储和近线存储之间灵活迁移数据的问题，从而能够更加灵活的控制回迁的触发，能够灵活配置分级管理策略，在在线存储和近线存储之间灵活的迁移数据。

本实施例提供的分级存储方法，也可以称为数据自动迁移方法FlexMig（备注：数据自动迁移方法的名称），FlexMig主要由3部分组成：

1）数据动态分级策略，决定不同条件下的触发数据的迁移。

2）文件关联规则挖掘技术，相互关联的文件用于自动预取。

3）迁移过程中的速率控制，在前台I/O性能影响和数据迁移完成期限之间寻找合理的权衡。

下面分别对这3部分内容进行详细介绍。

（一）数据迁移方法FlexMig

FlexMig的数据动态分级策略中的数据分级评价包括文件升级评价和文件降级评价2部分。

FlexMig根据数据升级的单位成本收益效率来决定是否对文件执行升级操作。文件升级的收益效率用文件升级后单位时间内被访问的数据量来衡量。令AS和AF分别表示文件升级后的文件访问大小和文件访问频率，则文件升级后的性能收益效率为AS×AF。文件升级的成本可以使用文件大小FS来衡量。由此，数据升级的单位成本收益效率（即效用值）计算为util＝(AS×AF)/FS。如果一个文件的升级效用值高于升级阈值，则升级该文件。

在给出升级决策时，只有文件大小FS是确定的。FlexMig统计文件历次访问大小的平均值，作为未来访问大小AS的估计值；AF的取值为统计文件历次访问平均值。AS和AF可能会引入平滑因子进行拟合出更合理的取值。

FlexMig降级算法的基本思想是，根据访问情况在LRU队列中维护快速存储设备上的所有文件，一个降级线程每隔一定时间从LRU队列中取出最冷的文件作为降级对象，该降级间隔时间长短与快速存储设备的空间空闲率有关。

FlexMig的数据升级算法兼顾了文件访问历史和文件大小两个指标，既使得文件迁移所需代价相对较小，也保证迁移后得到的文件I/O性能收益较高。降级间隔的确定方式保证了快速存储设备始终有足够的空闲空间。当存储在慢速存储设备上的文件被访问时，计算升级迁移的效用值；当存储在快速设备上的文件被访问时，更新对应LRU队列状态。数据动态分级算法无需定期扫描所有文件以进行文件价值评价，故增加的计算开销不大。

（二）关联文件挖掘技术

为了有效实现文件预取，FlexMig使用数据挖掘技术来有效识别系统中的文件关联性。它把一个文件映射成一个项，把一个访问序列映射成序列数据库中的一个序列。一个频繁子序列表示相关文件经常一起被访问。

一个文件能以各种方式访问，除了打开关闭，还可能以进程形式执行。FlexMig通过记录这些系统调用来构建一个长的访问trace。FlexMig采用简单切割的方法把长trace切成许多短序列。FlexMig把问题转化为挖掘频繁闭合序列问题，采用挖掘算法BIDE，并作了一定程度的改进。

BIDE算法本质是以深度优先的方式，一边构建频繁子树，一边检查闭合性，一边进行剪枝。BIDE算法实现的两个关键任务是：1）闭合性检查；2）搜索空间剪枝。BIDE算法采用了双向扩展模式：向前扩展用于增长前缀模式和前缀模式的闭合性检查；向后扩展用于前缀模式的闭合性检查和搜索空间剪枝。对于当前序列，BIDE向前扫描每个映射序列，找到局部频繁项。对于每个局部频繁项，检查是否可以剪枝。如果不能剪枝则向前扩展当前序列。

在FlexMig实现中，运用逻辑短路原理，对BIDE作了3点优化：

1）闭合性检查时，因为向前扩展检查是容易完成的，故先做向前检查，若“没有向前扩展项”这一命题为假，则无需进行向后检查；2）在每次进行闭合性检查时，都已经有在半最大段组中搜索不到向后扩展项这一结论，如果该前缀序列的第一实例的最后一项和最后实例的最后一项位置相同，则不必检查最大段就可断定没有向后扩展项；3）众多最大段组中只要得到一个最大段组中各序列交集非空即可断定向后扩展项存在。

为了把频繁序列转换成关联规则，FlexMig由每个序列生成一些规则。FlexMig规定一个规则右边的项数为1，因为这对于文件预取是足够的。为了限制规则数目，FlexMig约束一个规则左边的项数不超过2。

FlexMig还用可信度参数来衡量规则的可依赖程度。一条规则的可信度可以通过如下公式计算：conf(a→b)＝sup(ab)/sup(a)，这里，sup(a)和sup(a)分别表示序列和序列的支持度。当用一条关联规则来预测未来访问时，规则的可信度表示预测的精度。FlexMig使用最小可信度阈值过滤低质量的关联规则，剩下的规则称为强关联规则。

把这些强关联规则直接用于文件预取，存在严重的冗余现象，从而加重了维护和查找的成本。把前件长度为L的规则称为“L-规则”。对于一条2-规则xy→z，FlexMig通过检查是否存在同时满足如下条件的1-规则a→b来判断它是否为冗余规则：1）b＝z，即有着相同后件；2）a＝x或者a＝y，即1-规则的前件与2-规则的前件中某项相同。FlexMig一旦检测到冗余规则，就将其从规则集合中删除。剩下非冗余的强关联规则可以直接用于文件预取。预取与升级文件相关联的文件可以降低对这些文件的访问延迟。然而，一个普遍担心的是数据预取是否会影响正常数据升级的性能。FlexMig采取两种方法来避免文件预取的性能影响。对于关联的小文件组，在低级设备上集中存放，并采取升级捎带的方式进行预取。对于稍大的关联文件，采取下面介绍的速率控制机制来保证在前台负载较轻时执行数据预取。

（三）迁移速率控制

图2是根据本发明实施例的系统硬件体系结构示意图，如图2所示，数据管理客户端、数据管理服务器、数据管理后端服务器、系统管理员通过内部网络（Intranet）相连接，数据管理后端服务器分别用于在线存储、近线存储和离线存储。本系统依据制定的策略，执行不同的管理操作，如数据迁移，数据备份，数据压缩等。其中数据迁移和数据备份需要访问主存储池中的文件，并将数据通过网络存储到低级存储池中。由于数据管理操作是在线执行的，所以数据的迁移和前端应用将共用申请竞争数据管理客户端中的I/O和网络资源。本系统提供一种速率控制机制，在不影响前端应用的性能的基础上，最大化数据的迁移速度。

由于存储系统中I/O访问负载的不确定性，本系统使用逻辑上开/关两种状态来调整数据迁移速度。文件迁移进行与否，是依据数据管理客户端中前端应用的负载来确定的。如果前端负载相对较低，则进行数据迁移，如果负载过高，则对文件迁移进行限制。

本系统监控着数据管理客户端中的I/O队列长度。如图3所示的根据本发明实施例的速率控制的操作示意图，当其中I/O队列长度比设置的阈值T要高时，则判定前端负载较高。一般来说，I/O响应时间随着I/O队列的长度增长而增加。本系统通过公式计算得到数据迁移应该等待的时间长度W，W的计算公式如下所示：

W＝E×(L-T)；其中E是一个常数，L是I/O队列长度，T是设置的阈值。E和T的值是依据经验值得到的。

对应于上述实施例介绍的分级存储方法，本实施例提供了一种分级存储装置，该装置用以实现上述实施例。图4是根据本发明实施例的分级存储装置的结构框图，如图4所示，该装置包括：分级模块10、关联模块20和速率控制模块30。下面对该结构进行详细介绍。

分级模块10，用于基于数据动态分级策略，决定不同条件下触发数据的迁移。

上述升级单元包括：第一收益效率计算子单元，用于根据文件升级后单位时间内被访问的数据量，衡量文件升级的收益效率；第二收益效率计算子单元，用于根据所述文件升级的收益效率和文件升级的成本，确定数据升级的单位成本收益效率；升级操作子单元，用于根据所述数据升级的单位成本收益效率，判断文件的升级效用值是否高于升级阈值；如果是，则对文件执行升级操作。

上述降级单元包括：文件维护子单元，用于根据数据访问情况，在内存块LRU队列中维护快速存储设备上的所有文件；降级对象确定子单元，用于使一个降级线程每隔指定时间在所述LRU队列中取出最冷的文件，作为降级对象；降级操作子单元，用于对所述降级对象执行文件降级操作。

关联模块20，用于基于文件关联规则挖掘技术，将文件相互关联；其中，相互关联的文件用于自动预取。

优选地，上述关联模块20包括：频繁序列挖掘单元，用于采用挖掘算法BIDE，挖掘频繁序列；强关联规则确定单元，用于将频繁序列转换为关联规则，并确定强关联规则；冗余规则判断单元，用于判断所述强关联规则是否为冗余规则；如果是，则将该强关联规则剔除；如果否，则将该强关联规则用于文件预取。

速率控制模块30，用于基于迁移速率控制机制，最大化数据的迁移速度。

优选地，上述速率控制模块30包括：迁移单元，用于依据数据管理客户端中，前端应用的负载，确定文件是否进行迁移；迁移处理单元，用于在前端负载低于第一指定阈值时，进行数据迁移；在前端负载高于第二指定阈值时，对数据迁移进行限制。

通过本实施例，分级模块10基于数据动态分级策略，决定不同条件下触发数据的迁移；关联模块20基于文件关联规则挖掘技术，将文件相互关联；其中，相互关联的文件用于自动预取；速率控制模块30基于迁移速率控制机制，最大化数据的迁移速度。解决了相关技术中分级管理方法无法在在线存储和近线存储之间灵活迁移数据的问题，从而能够更加灵活的控制回迁的触发，能够灵活配置分级管理策略，在在线存储和近线存储之间灵活的迁移数据。

从以上的描述中可以看出，通过本发明的技术方案，能够更加灵活的控制回迁的触发，能够灵活配置分级管理策略，在在线存储和近线存储之间灵活的迁移数据。

尽管为示例目的，已经公开了本发明的优选实施例，本领域的技术人员将意识到各种改进、增加和取代也是可能的，因此，本发明的范围应当不限于上述实施例。

Claims

1.一种分级存储方法，其特征在于，所述方法包括：

基于数据动态分级策略，决定不同条件下触发数据的迁移；

基于文件关联规则挖掘技术，将文件相互关联；其中，相互关联的文件用于自动预取；

基于迁移速率控制机制，最大化数据的迁移速度。

2.如权利要求1所述的方法，其特征在于，基于数据动态分级策略，决定不同条件下触发数据的迁移包括：

基于数据动态分级策略，进行数据分级操作；其中，所述数据分级操作包括文件升级操作和文件降级操作；

基于数据分级操作，决定不同条件下触发数据的迁移。

3.如权利要求2所述的方法，其特征在于，基于数据动态分级策略，进行文件升级操作包括：

根据文件升级后单位时间内被访问的数据量，衡量文件升级的收益效率；

根据所述文件升级的收益效率和文件升级的成本，确定数据升级的单位成本收益效率；

根据所述数据升级的单位成本收益效率，判断文件的升级效用值是否高于升级阈值；如果是，则对文件执行升级操作。

4.如权利要求2所述的方法，其特征在于，基于数据动态分级策略，进行文件降级操作包括：

根据数据访问情况，在内存块LRU队列中维护快速存储设备上的所有文件；

一个降级线程每隔指定时间在所述LRU队列中取出最冷的文件，作为降级对象；

对所述降级对象执行文件降级操作。

5.如权利要求1所述的方法，其特征在于，基于文件关联规则挖掘技术，领取相互关联的文件包括：

采用挖掘算法BIDE，挖掘频繁序列；

将频繁序列转换为关联规则，并确定强关联规则；

判断所述强关联规则是否为冗余规则；如果是，则将该强关联规则剔除；如果否，则将该强关联规则用于文件预取。

6.如权利要求1所述的方法，其特征在于，基于迁移速率控制机制，最大化数据的迁移速度包括：

依据数据管理客户端中，前端应用的负载，确定文件是否进行迁移；

如果前端负载低于第一指定阈值，则进行数据迁移；

如果前端负载高于第二指定阈值，则对数据迁移进行限制。

7.一种分级存储装置，其特征在于，所述装置包括：

分级模块，用于基于数据动态分级策略，决定不同条件下触发数据的迁移；

关联模块，用于基于文件关联规则挖掘技术，将文件相互关联；其中，相互关联的文件用于自动预取；

速率控制模块，用于基于迁移速率控制机制，最大化数据的迁移速度。

8.如权利要求7所述的装置，其特征在于，所述分级模块包括：

升级单元，用于基于数据动态分级策略，进行文件升级操作；

降级单元，用于基于数据动态分级策略，进行文件降级操作。

9.如权利要求8所述的装置，其特征在于，所述升级单元包括：

第一收益效率计算子单元，用于根据文件升级后单位时间内被访问的数据量，衡量文件升级的收益效率；

第二收益效率计算子单元，用于根据所述文件升级的收益效率和文件升级的成本，确定数据升级的单位成本收益效率；

升级操作子单元，用于根据所述数据升级的单位成本收益效率，判断文件的升级效用值是否高于升级阈值；如果是，则对文件执行升级操作。

10.如权利要求8所述的装置，其特征在于，所述降级单元包括：

文件维护子单元，用于根据数据访问情况，在内存块LRU队列中维护快速存储设备上的所有文件；

降级对象确定子单元，用于使一个降级线程每隔指定时间在所述LRU队列中取出最冷的文件，作为降级对象；

降级操作子单元，用于对所述降级对象执行文件降级操作。

11.如权利要求7所述的装置，其特征在于，所述关联模块包括：

频繁序列挖掘单元，用于采用挖掘算法BIDE，挖掘频繁序列；

强关联规则确定单元，用于将频繁序列转换为关联规则，并确定强关联规则；

冗余规则判断单元，用于判断所述强关联规则是否为冗余规则；如果是，则将该强关联规则剔除；如果否，则将该强关联规则用于文件预取。

12.如权利要求7所述的装置，其特征在于，所述速率控制模块包括：

迁移单元，用于依据数据管理客户端中，前端应用的负载，确定文件是否进行迁移；

迁移处理单元，用于在前端负载低于第一指定阈值时，进行数据迁移；在前端负载高于第二指定阈值时，对数据迁移进行限制。