CN114253917A

CN114253917A - 基于文件访问特性的分布式自适应存储方法及系统

Info

Publication number: CN114253917A
Application number: CN202111478562.3A
Authority: CN
Inventors: 宋�莹; 张强
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2021-12-06
Filing date: 2021-12-06
Publication date: 2022-03-29

Abstract

本发明提出了一种基于文件访问特性的分布式自适应存储方法和系统，目的在于针对现有的分布式存储系统中存在的大小不同的冷热文件进行副本与纠删码的自适应混合存储策略，以此来提高集群的存储效率与性能。本发明的优点在于针对分布式系统中的不同类型文件的访问特性，通过文件的占据数据块的大小以及用户对文件的访问频率计算出的文件热度，使文件拥有较适合的存储方式。并且我们在每个周期都会依据文件的热度变化以及系统的整体存储效率来对文件进行自适应存储策略更改。最终以达到提高系统的性能，提高系统的整体存储效率。

Description

基于文件访问特性的分布式自适应存储方法及系统

技术领域

本发明涉及分布式计算领域以及分布式存储中数据存储策略技术领域，并特别涉及一种基于文件访问特性的分布式自适应存储方法及系统。

背景技术

随着大数据分布式文件系统的广泛使用以及日益增加的流行趋势，分布式存储系统的存储开销以及存储效率和数据可用性、持久性等问题也成为人们日益关注的问题。传统的三副本存储策略造成过大的存储开销，从而浪费存储资源。纠删码被认为是副本策略的最佳替代方案。

但是单一使用纠删码的数据存储，又会造成分布式系统访问性能的下降。因为纠删码相比于副本复制策略来说，不论是跨机架之间带宽的消耗，还是CPU/IO等资源的使用率，都要比副本存储的资源消耗高。所以副本与纠删码进行混合存储目前看来是分布式系统在存储与计算两方面综合考量较优的解决方法。

如果只是统一的采取简单的副本与纠删码的混合，而不考虑文件的访问特性，就会造成资源的浪费。分布式系统中存储着许多文件，有大文件也有小文件，大多数的文件都是大文件，其中大文件可能被划分为多个数据块，而小文件可能仅被划分为一到两个数据块。并且在分布式系统中文件的“热度”也不尽相同，不同文件的访问频率会有很大的差异，而对文件的访问频率进行统计之后，也就出现了热文件与冷文件之分。

例如以DECPA为代表的主要考虑文件大小的副本与RS混合存储，会出现以下技术问题：1)访问热度高的文件采用了RS纠删码的存储策略，从而造成用户频繁的访问文件，但是纠删码存储不足以支撑如此高频率的访问。2)访问热度低的文件采用了副本复制的存储策略，从而造成存储空间的严重浪费，使得系统的整体存储开销过高。

发明内容

具体来说本申请一种基于文件访问特性的分布式自适应存储方法，其中包括：

步骤1、获取分布式存储系统中各文件在预设周期内的平均访问频率，并根据该平均访问频率计算各文件的热度；

步骤2、根据当前周期内各文件的热度，将所有文件划分为热数据和冷数据，进一步根据每个热数据所占数据块数量，将所有该热数据划分为小热数据和大热数据，并根据每个冷数据所占数据块数量，将所有该冷数据划分为小冷数据和大冷数据；

步骤3、对该小热数据采用副本复制策略进行存储，对该大热数据采用LRC(6，2，2)编码方式进行存储，对该小冷数据采用RS(3，2)编码方式进行存储，对该大冷数据采用RS(6，3)来进行存储。

所述的基于文件访问特性的分布式自适应存储方法，其中包括：

步骤4、多次执行该步骤1，以周期性的统计各文件的热度，使用最新一个周期中的热数据，与上一周期的热数据进行文件比较，得到该最新一个周期新产生的新热文件，以及该上一周期中由热转冷的新冷文件；

步骤5、将新热文件的存储策略更改为LRC(6，2，2)编码或副本复制方式存储，将新冷文件的存储策略更改为RS(6，3)编码或RS(3，2)编码方式存储。

所述的基于文件访问特性的分布式自适应存储方法，其中该步骤4包括：判断当前该分布式存储系统的存储开销是否低于阈值，若是，则执行该步骤5，否则将当前最新一个周期中热数据热度排名末尾的文件转换为冷数据后，执行该步骤5。

所述的基于文件访问特性的分布式自适应存储方法，其中该步骤1包括：

将预设周期分为多个时间段，设其中一个时间段为当次热度统计时刻，在该当次热度统计时刻之前的另一个时间段为上次热度统计时刻，该预设周期中越靠近该当次热度统计时刻的文件访问权重数值越高，越靠近该上次热度统计时刻的文件访问权重数值越低；各文件的热度H通过下式计算得到：

H＝(1-β)I+βf_avg(0＜β＜1)

f_avg为该平均访问频率，I为该权重数值，β为平衡因子。

本发明还提出了一种基于文件访问特性的分布式自适应存储系统，其中包括：

热度计算模块，用于获取分布式存储系统中各文件在预设周期内的平均访问频率，并根据该平均访问频率计算各文件的热度；

文件分类模块，用于根据当前周期内各文件的热度，将所有文件划分为热数据和冷数据，进一步根据每个热数据所占数据块数量，将所有该热数据划分为小热数据和大热数据，并根据每个冷数据所占数据块数量，将所有该冷数据划分为小冷数据和大冷数据；

文件存储模块，用于对该小热数据采用副本复制策略进行存储，对该大热数据采用LRC(6，2，2)编码方式进行存储，对该小冷数据采用RS(3，2)编码方式进行存储，对该大冷数据采用RS(6，3)来进行存储。

所述的基于文件访问特性的分布式自适应存储系统，其中包括：

比较模块，用于多次调用该模块1，以周期性的统计各文件的热度，使用最新一个周期中的热数据，与上一周期的热数据进行文件比较，得到该最新一个周期新产生的新热文件，以及该上一周期中由热转冷的新冷文件；

存储策略更改模块，用于将新热文件的存储策略更改为LRC(6，2，2)编码或副本复制方式存储，将新冷文件的存储策略更改为RS(6，3)编码或RS(3，2)编码方式存储。

所述的基于文件访问特性的分布式自适应存储方法，其中该比较模块包括：判断当前该分布式存储系统的存储开销是否低于阈值，若是，则执行该存储策略更改模块，否则将当前最新一个周期中热数据热度排名末尾的文件转换为冷数据后，执行该存储策略更改模块。

所述的基于文件访问特性的分布式自适应存储系统，其中该热度计算模块包括：

H＝(1-β)I+βf_avg(0＜β＜1)

f_avg为该平均访问频率，I为该权重数值，β为平衡因子。

本发明还提出了一种存储介质，用于存储执行所述的任意一种基于文件访问特性的分布式自适应存储方法的程序。

本发明还提出了一种客户端，用于所述的任意一种基于文件访问特性的分布式自适应存储系统。

由以上方案可知，本发明的优点在于：

本发明目的在于针对现有的分布式存储系统中存在的大小不同的冷热文件进行副本与纠删码的自适应混合存储策略，以此来提高集群的存储效率与性能。本发明的优点在于针对分布式系统中的不同类型文件的访问特性，通过文件的占据数据块的大小以及用户对文件的访问频率计算出的文件热度，使文件拥有较适合的存储方式。并且我们在每个周期都会依据文件的热度变化以及系统的整体存储效率来对文件进行自适应存储策略更改。最终以达到提高系统的性能，提高系统的整体存储效率。

附图说明

图1为基于文件热度与大小的复制和纠删码自适应存储策略的流程图；

图2为本发明的针对不同类似数据的存储策略图。

具体实施方式

具体来说，本发明包括以下步骤：

A.计算文件的热度：

A1.计算各文件的平均访问频率f_avg:

设定两次热度统计之间的时间间隔为周期T，周期内的访问次数为N，周期内的平均访问频率为f_avg，

A2.计算各文件的时间访问倾斜率I：

再将每一个周期T分为{t₁,t₂,...t_n}n个时间段，设其中t₀为当次热度统计时刻，t_i为上次热度统计时刻，访问权重λ＝1/i，t_i时段的访问频率为f_ti。也就是越靠近当次热度统计时刻的访问权重占比越高，越靠近上次热度统计的时刻的访问权重占比越低，设定访问倾斜率为I，公式如下：

A3.计算各文件的热度H：

对于文件的平均访问频率f_avg赋予平衡因子β(0＜β＜1)，则文件的时间访问倾斜率I的平衡因子为(1-β)，设定文件的热度为H，公式如下：

H＝(1-β)I+βf_avg(0＜β＜1)

B.依据文件的热度与大小采取不同的存储方式：

B1.文件的四种分类:

对文件采取不同类型的存储策略的分类标准是热度与大小。我们依据文件的热度将文件分为热文件与冷文件。我们依据文件的大小将文件分为大文件与小文件。

B1-1.文件的热度分类方式

在日常生活中，有许多现象都是符合齐夫分布的定律，包括像单词的出现频率，网页的访问频率等等，在大规模的分布式存储系统中，也符合着这样的规律，往往用户对集群80％的数据访问集中在20％的数据上。所以在我们的设计中，利用我们上面提到的热度计算公式计算出一个周期T内文件的热度H，然后统计热度排名前20％的数据定义为热数据，剩余的80％数据定义为冷数据。

B1-2.文件的大小分类方式

对于文件的大小分类，我们是建立在文件的热度基础之上的分类。

对于热文件来说，小于2个数据块(Hadoop 3.0中一个数据块的默认大小为128MB)的文件，我们采用较为简单的副本复制策略，因为在数据块数量较小时，不会产生过大的存储空间占用，但是却能极大提高文件的并行读写能力，降低文件的读延迟，这正符合热文件需要频繁读写的特性；大于2个数据块的文件，我们采用LRC(6，2，2)编码方式进行存储。因为在纠删码中，LRC纠删码有着优秀的处理频繁的数据访问的能力。并且我们通过对分布式存储系统的调研，95％以上的数据丢失都是发生在单个数据块上，LRC纠删码在处理小于2个数据块的数据丢失时，可以直接调用局部校验块进行快速的数据恢复，而不需要调用全局校验块，这极大的提升了数据的恢复速度，减少了数据的重构时间。热文件往往都是频繁的被访问，如果数据丢失时，数据的重构效率够快，那么也能提高系统的性能。

对于冷文件，小于3个数据块的文件我们采用RS(3，2)来进行存储。如果文件的大小小于3个数据块，在进行RS(3，2)编码时只需要使用一个条带来进行编码，如果大于3个数据块的话，则需要使用多个条带来进行存储，就会造成空白块的存储浪费，这对于小文件来说浪费的存储空间是相对较高的。如果文件的大小大于3个数据块我们采用RS(6，3)来进行存储。这样较大的文件即使出现空白块的存储开销，也是可以接受的范围。

B1-3.热度与大小的四种分类组合

像B1-1和B1-2提及的那样，我们对文件按照热度与大小分类之后，拥有以下四种组合：

HOT--BIG

HOT--SMALL

COLD--BIG

COLD--SMALL

B2.文件的四种存储策略:

如图2所示，在拥有了以上的文件四种分类组合后，我们根据每一类文件采取不同的存储策略。

C.周期性的统计文件的热度，预估系统的整体存储开销：

C1.统计文件热度变化：

C1-1在经过一个周期的用户访问之后，访问的分布大致符合齐夫定律，但是用户对每个文件的访问频率与时间段都会有明显的不同，有些文件也许在这个周期的最初会有较多的访问，而在中后期访问频率与访问次数逐步下降，而有的文件的访问频率与访问次数则可能一直保持较“热”的情况。我们会先按照A3里提到的热度H计算公式来计算最新一个周期的热度。

C1-2然后统计出最新一个周期i中热度前20％的文件，放入到集合G(i)＝{F₁,F₂,...F_n}中，与上一周期的集合G(i-1)＝{F₁,F₂,...F_m}进行文件匹配。在集合G(i)中出现而没有在集合G(i-1)中出现的文件，放入到集合H＝{F₁,F₂,...F_i}中，这些文件也就是在最新一个周期中统计到的新的热文件。在集合G(i-1)中出现而没有在G(i)中出现的文件，放入到集合C＝{F₁,F₂,...F_j}中，这些文件也就是在最新一个周期中统计到的由热转冷，新的冷文件。

C1-3由于新文件往往会被较频繁访问，所以我们对于新文件都按热文件先进行存储。这样我们在热度统计时只需要记录在这个周期新文件是否在集合G(i)中，如果不在则添加到集合C中。

C2.预估系统的整体存储开销

C2-1经过调研，一般不同类型的纠删码进行混合存储时，系统较优的存储开销在1.5x-1.7x之间。由于我们的系统有少部分热数据使用了副本进行存储，选择了提高并行访问效率以及降低读延迟等来提高系统的性能，理论上存储开销会比纠删码混合存储的系统高。但是由于我们对于不同的特点的文件有着较适合的处理，所以预估系统的存储开销并不是很高。(因为实际场景中的分布式存储系统存储的大多数为大文件，所以在我们的预估计算中，将大文件的数量模拟为文件总体数量的80％)

C2-2以下是几种存储方式的存储效率：

C2-3设系统整体的存储开销为E，计算公式如下：

E＝HOT*0.2+COLD*0.8

＝3*0.2*0.2+1.66*0.2*0.8+1.66*0.8*0.2+1.5*0.8*0.8

＝1.61

D.基于热度变化以及系统存储开销更改文件存储策略

D1.判定是否需要调整部分文件存储策略

D.1-1由于系统的系统存储开销为1.61，在较为理想的存储效率之间。但是实际中系统的存储开销要根据用户的存储文件的大小来决定，如果用户存储了较多的小型文件时，系统的存储开销也会因此有所提高。例如小文件与大文件的比例为1：1时，系统的预估开销就为1.73。超过了我们设定的较优存储效率。(系统的存储开销如果大于1.7x，属于极少的情况，因为分布式存储系统中几乎很难出现小文件与大文件的比例为1：1，多数为大文件)

D.1-2我们设计在C1-2得到最新周期的G(i)集合时，会优先对系统的存储开销进行计算，如果存储开销小于1.7x，那么就不需要进行额外的操作，直接按照D2中的方式对热度发生变化的文件进行存储策略的更改。

D.1-3如果系统的存储开销在极小概率的情况下大于1.7x，则将G(i)集合中热度H最小的文件从集合中删除，以此来满足系统的存储空间设定。然后对系统存储开销进行判定，直至满足较优的系统存储效率，之后按照D2中的方式对热度发生变化的文件进行存储策略的更改。

D2.更改文件存储策略

在进行了热度集合G(i)的获取以及存储开销的判定后：

我们将H集合中，也就是新的热文件依照文件的大小更改为新的存储策略LRC(6，2，2)或副本复制。

我们将C集合中，也就是新的冷文件依照文件的大小更改为新的存储策略RS(6，3)或RS(3，2)。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

下面结合附图1，进一步描述本发明步骤，如图1本发明的步骤主要包括：A.计算文件的热度；B.文件类型分类；C.计算文件热度变化与存储开销D.调整文件存储策略。

具体来说，本发明包括下列步骤：

A.计算文件的热度：

A1.计算各文件的平均访问频率f_avg:

A2.计算各文件的时间访问倾斜率I：

A3.计算各文件的热度H：

H＝(1-β)I+βf_avg(0＜β＜1)

B.文件类型分类：

B1.文件的四种分类:

我们对文件采取不同类型的存储方式的分类标准是热度与大小。我们依据文件的热度将文件分为热文件与冷文件。我们依据文件的大小将文件分为大文件与小文件。

B2.文件的四种存储策略:

在拥有了以上的文件四种分类组合后，我们对文件的存储策略分类有以下四种：

HOT--BIG采用LRC(6，2，2)，即每6个数据块生成2个本地校验块，

2个全局校验快；

HOT--SMALL采用副本复制；

COLD--BIG采用RS(6，3)，即每6个数据块生成3个奇偶校验块；

COLD--SMALL采用RS(3，2)，即每3个数据块生成2个奇偶校验块。

C.周期性的统计文件的热度，预估系统的整体存储开销：

C1.统计文件热度变化：

C1-1在经过一个周期的用户访问之后，访问的分布大致会符合齐夫定律，但是用户对每个文件的访问频率与时间段都会有明显的不同，有些文件也许在这个周期的最初会有较多的访问，而在中后期访问频率与访问次数逐步下降，而有的文件的访问频率与访问次数则可能一直保持较“热”的情况。我们会先按照A3里提到的热度H计算公式来计算最新一个周期的热度。

C1-2然后统计出最新一个周期中热度前20％的文件，放入到集合G(i)＝{F₁,F₂,...F_n}中，与上一周期的集合G(i-1)＝{F₁,F₂,...F_m}进行文件匹配。在集合G(i)中出现而没有在集合G(i-1)中出现的文件，放入到集合H＝{F₁,F₂,...F_i}中，这些文件也就是在最新一个周期中统计到的新的热文件。在集合G(i-1)中出现而没有在G(i)中出现的文件，放入到集合C＝{F₁,F₂,...F_j}中，这些文件也就是在最新一个周期中统计到的由热转冷，新的冷文件。

C2.预估系统的整体存储开销

设系统整体的存储开销为E，计算公式如下：

E＝HOT*0.2+COLD*0.8

＝3*0.2*0.2+1.66*0.2*0.8+1.66*0.8*0.2+1.5*0.8*0.8

＝1.61

公式中3代表了副本复制的存储开销；1.66为LRC(6，2，2)的存储开销。两种存储分别占据了20％与80％的文件。并且HOT文件在整个系统中占有20％。

公式中的1.66代表RS(3，2)的存储开销；1.5为RS(6，3)的存储开销。两种存储分别占据了20％与80％的文件。并且COLD文件在整个系统中占有80％。

D.基于热度变化以及系统存储开销更改文件存储策略；

D1.判定是否需要调整部分文件存储策略；

D.1-1我们设计在C1-2得到最新周期的G(i)集合时，会优先对系统的存储开销进行计算，如果存储开销小于1.7x，那么就不需要进行额外的操作，直接按照D2中的方式对热度发生变化的文件进行存储策略的更改。

D.1-2如果系统的存储开销在极小概率的情况下大于1.7x，则将G(i)集合中热度H最小的文件从集合中删除，将删除的数据设定为冷数据。以此来满足系统的存储空间设定。然后对系统存储开销进行判定，直至满足较优的系统存储效率，之后按照D2中的方式对热度发生变化的文件进行存储策略的更改。

D2.更改文件存储策略；

在进行了热度集合G(i)的获取以及存储开销的判定后：

本发明的优点在于针对分布式系统中的不同类型文件的访问特性，通过文件的占据数据块的大小以及用户对文件的访问频率计算出的文件热度，使文件拥有较适合的存储方式。并且我们在每个周期都会依据文件的热度变化以及系统的整体存储效率来对文件进行自适应存储策略更改。最终以达到提高系统的性能，提高系统的整体存储效率。

以下为与上述方法实施例对应的系统实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

H＝(1-β)I+βf_avg(0＜β＜1)

f_avg为该平均访问频率，I为该权重数值，β为平衡因子。

Claims

1.一种基于文件访问特性的分布式自适应存储方法，其特征在于，包括：

2.如权利要求1所述的基于文件访问特性的分布式自适应存储方法，其特征在于，包括：

3.如权利要求1所述的基于文件访问特性的分布式自适应存储方法，其特征在于，该步骤4包括：判断当前该分布式存储系统的存储开销是否低于阈值，若是，则执行该步骤5，否则将当前最新一个周期中热数据热度排名末尾的文件转换为冷数据后，执行该步骤5。

4.如权利要求1所述的基于文件访问特性的分布式自适应存储方法，其特征在于，该步骤1包括：

H＝(1-β)I+βf_avg(0＜β＜1)

f_avg为该平均访问频率，I为该权重数值，β为平衡因子。

5.一种基于文件访问特性的分布式自适应存储系统，其特征在于，包括：

6.如权利要求5所述的基于文件访问特性的分布式自适应存储系统，其特征在于，包括：

7.如权利要求5所述的基于文件访问特性的分布式自适应存储方法，其特征在于，该比较模块包括：判断当前该分布式存储系统的存储开销是否低于阈值，若是，则执行该存储策略更改模块，否则将当前最新一个周期中热数据热度排名末尾的文件转换为冷数据后，执行该存储策略更改模块。

8.如权利要求5所述的基于文件访问特性的分布式自适应存储系统，其特征在于，该热度计算模块包括：

H＝(1-β)I+βf_avg(0＜β＜1)

f_avg为该平均访问频率，I为该权重数值，β为平衡因子。

9.一种存储介质，用于存储执行权利要求1到4所述的任意一种基于文件访问特性的分布式自适应存储方法的程序。

10.一种客户端，用于如权利要求6至8所述的任意一种基于文件访问特性的分布式自适应存储系统。