CN101419600A

CN101419600A - 基于面向对象文件系统的数据副本映射方法及装置

Info

Publication number: CN101419600A
Application number: CNA2007101761796A
Authority: CN
Inventors: 李必刚; 鄢述荣; 王锴; 谭斌
Original assignee: SHENZHEN YABEI ELECTRONIC TECHNOLOGY Co Ltd
Current assignee: SHENZHEN YABEI ELECTRONIC TECHNOLOGY Co Ltd
Priority date: 2007-10-22
Filing date: 2007-10-22
Publication date: 2009-04-29

Abstract

本发明公开了一种基于面向对象文件系统的数据副本映射方法及装置，能够支持数据副本技术，达到快速映射的目的，方法简单有效。本发明实施例提供的基于面向对象文件系统的数据副本映射方法，包括：将面向对象文件系统中对象唯一的对象标识映射到第一数据空间；对各存储节点配置唯一的存储节点标识并进行分组，将存储节点标识映射到第二数据空间；确定所述对象的数据副本在各分组的目的存储节点，所述目的存储节点在第二数据空间中的映射值与所述对象在第一数据空间中的映射值差值最小。本发明实施例提供的基于面向对象文件系统的数据副本映射装置包括：对象映射模块、数据副本映射控制模块、存储节点分组映射模块。

Description

基于面向对象文件系统的数据副本映射方法及装置

技术领域

本发明涉及数据存储技术领域，尤其涉及一种基于面向对象文件系统的数据副本映射技术。

背景技术

随着网络技术的不断进步，网络数据量日益膨胀，海量数据存储已成为网络发展迫切需要解决的问题之一。网络存储系统提供网络信息系统的信息存取服务和信息共享服务，其超大数据容量、超高数据传输速率和超高系统可用性已成为网络存储的典型特征，而面向对象文件系统已成为网络存储系统的发展趋势。面向对象存储是指数据的存储以对象为单位，一个对象实际上是文件数据和一组属性的组合，该组属性可以定义基于文件的独立磁盘冗余阵列(Redundant Array of Independent Disks，RAID)参数、数据分布和服务质量等。文件数据与属性的组合使得面向对象存储能够基于单个文件决定其数据分布以及服务质量，有效地提高可扩展性与易管理性。面向对象文件系统正是基于这种存储机制实现的集群文件系统。面向对象文件系统由四种实体组成，分别是计算节点(Computer Node，CN)、元数据服务器(Metadata Server，MS)、对象存储设备(Object Storage Device，OSD)及网络设备。计算节点提供了用户访问面向对象文件系统的接口；元数据服务器管理系统中的文件、目录以及每个文件的分布视图；对象存储设备用来提供对象数据的管理和存储；网络设备负责将计算节点、元数据服务器和对象存储设备进行互联。

近年来一些数据存储方案倾向于采用大量存储容量较小且相对廉价的存储节点来构建大规模存储系统，因此在实际PB级存储系统中存储节点的个数普遍成千上万。随着存储节点数量的增加，存储系统中的数据丢失率将会大大增加。假设单个存储节点的平均失效时间为10年，则具有上万存储节点的大规模存储系统的平均失效时间仅为10小时左右。在这种情况下，必须采取切实可行的高可靠性数据存储保障技术。由于存储节点资源价格的日益降低，大规模存储系统中的存储节点资源显得相对丰富，数据副本技术就成为保障数据存储可靠性的流行技术，这就要求数据映射方法必须有效支持数据副本技术；并且随着存储系统规模的增大，存储节点增加和失效也会变得较为频繁，失效包括存储节点退出、损坏等情况，使得存储系统的可靠性维护变得越来越困难。

发明内容

本发明提供一种基于面向对象文件系统的数据副本映射方法及装置，能够支持数据副本技术，达到快速映射的目的，方法简单有效。

本发明实施例提供的基于面向对象文件系统的数据副本映射方法，包括：

将面向对象文件系统中对象唯一的对象标识映射到第一数据空间；

对各存储节点配置唯一的存储节点标识并进行分组，将存储节点标识映射到第二数据空间；

确定所述对象的数据副本在各分组的目的存储节点，所述目的存储节点在第二数据空间中的映射值与所述对象在第一数据空间中的映射值差值最小。

本发明实施例提供的基于面向对象文件系统的数据副本映射装置，包括：

对象映射模块：用于将面向对象文件系统中对象唯一的对象标识映射到第一数据空间；

存储节点分组映射模块：用于对各存储节点配置唯一的存储节点标识并进行分组，将存储节点标识映射到第二数据空间；

数据副本映射控制模块：用于确定所述对象的数据副本在各分组的目的存储节点，所述目的存储节点在第二数据空间中的映射值与所述对象在第一数据空间中的映射值差值最小。

本发明实施例提供的基于面向对象文件系统的数据副本映射方法及装置将一个具有唯一对象标识的对象映射到多个存储节点上，使得该对象具有多个数据副本，在其中一个存储节点失效的时候，可以从其它存储节点上获得该对象的数据，从而有效的解决了大规模存储系统的可靠性问题，方法简单，映射快速。

附图说明

图1为本发明实施例中数据定位方法示意图；

图2为本发明实施例中引入最小分散距离减小随机误差示意图；

图3为本发明实施例中基于面向对象文件系统的数据副本映射方法流程图；

图4为本发明实施例中基于面向对象文件系统的数据副本映射装置框图；

图5为本发明实施例中系统包含对象个数对映射结果的影响对比示意图；

图6为本发明实施例中系统包含存储节点个数对映射结果的影响对比示意图；

图7为本发明实施例中增删存储节点时迁移数据量与理论下限偏差对比示意图；

图8为本发明实施例中参数取值对映射结果的影响对比示意图。

具体实施方式

本发明实施例在大规模存储系统中，基于面向对象文件系统的数据存储及副本对象存储提供了一种数据副本映射方法及装置，能够达到快速映射的目的，方法简单有效，同时在存储节点失效或者增加的时候，能够动态平衡各个存储节点的数据量，达到数据存储平衡的目的，便于维护存储系统的可靠性。该方法的时间开销和空间开销较小，能够进行动态调整。

在面向对象文件系统中，需要将对象标识(Object Identifier)映射到存储节点上，每个对象的对象标识都是一个二进制数，在存储系统中是唯一的，存储节点的规模决定整个存储系统的规模，本发明实施例中存储节点即为OSD。将一个具有唯一对象标识的对象映射到多个OSD上，使得该对象具有多个数据副本，在其中一个OSD失效的时候，可以从其它OSD上获得该对象的数据，从而有效的解决了大规模存储系统的可靠性问题，对于给定对象的唯一对象标识，可以根据系统所维护的映射信息，计算出该对象的k个数据副本所在的k个存储节点，因此本发明实施例包括对象与数据副本的映射方法；从映射结果来看，各存储节点所分配到的数据量与其服务能力成正比，从而达到数据分布平衡的目的，当有存储节点失效或加入存储系统时，存储节点视图将发生改变，与此同时原来均衡的数据布局也将被打破，于是必须进行数据迁移以保障数据副本映射方法持续有效和数据布局始终均衡，因此本发明实施例还包括数据迁移方法以适应动态变化的存储节点视图。

本发明实施例首先提供了基于面向对象文件系统的数据副本映射实现机制，包括以下几个方面：

a1、定义对象集合，该集合中每个元素用唯一的对象标识来表示，对象即存储元素；

a2、定义存储节点集合，为每个存储节点定义唯一的存储节点标识，该集合中每个元素用唯一的存储节点标识来表示；

a3、定义分组关系集合，该集合中每个元素表示一种确定的存储节点分组方式；

a4、将存储节点标识均匀映射到第一数据空间上，例如空间大小为64比特数据空间，可以称为大圆空间；

a5、定义对象的对象标识哈希均匀映射算法，将对象标识均匀映射到第二数据存储空间上，例如空间大小为48比特数据空间，可以称为小圆空间；

a6、小圆空间和大圆空间采用同心圆的方式进行对应，则针对小圆空间值可以得到对应的大圆空间值；

a7、针对某一个对象的对象标识，可以得到该标识对应的小圆空间值，然后映射到大圆空间上；

a8、根据映射的大圆空间值，在大圆空间上按照顺时针方向查找不同组的k个存储节点，其中k是对象在存储系统中的副本数；

a9、k个存储节点即为该对象所存储的目标存储节点；

a10、当存储节点失效或者增加时，同样按照顺时针策略进行对象数据的迁移。

在大规模存储环境下，针对需要频繁变化的存储节点视图提供面向对象文件系统的数据副本映射方法，并且在依然维持存储节点之间数据平衡的前提下，数据迁移量最小。本发明提出的对象映射方法，基于一致性哈希算法，只需维护少量信息即可计算出对象的映射信息，是一种无中心的数据映射方法。本发明实施例支持数据副本，能够在异构存储节点环境中达到映射负载平衡，并且在存储节点失效、加入或退出时，数据迁移量接近理论下限。实验数据表明，本发明实施例对于大规模对象数据环境效果良好。

下面，对本发明实施例提供的基于面向对象文件系统的数据副本映射方法进行详细介绍，首先说明本发明实施例提供的对象映射方法中涉及集合的具体定义，参见表1所示。

表1

集合名称	集合描述
集合名称	集合描述	对象集合OB	所有对象组成的集合，每个元素用对象标识来表示
存储节点集合O	O＝{OSDi\|1≤i≤N}，其中OSDi是存储节点标识，N是系统中包含的OSD总数	对象集合OB	所有对象组成的集合，每个元素用对象标识来表示
存储节点集合O	O＝{OSDi\|1≤i≤N}，其中OSDi是存储节点标识，N是系统中包含的OSD总数	分组关系集合G	多级同组关系的各种组合结果组成分组关系集合G

对象映射方法可以定义为函数map(OID，k，rule)，其定义域为OB×N×G；值域为O的幂集2^O。其中OID为对象标识，k为数据副本阶数，rule为给定的分组关系。输出结果为O的子集OR，其中的元素两两满足关系rule，且‖OR‖＝k，其中‖‖表示内积。

进一步可以定义以下集合和函数，如表2所示：

表2

下面给出对象映射方法的实现程序描述：

map(OID，k，rule)

{

，count＝0，step＝0

While(count<k){

a)Step++

b)Otmp＝Locate(Lookup(step，H(OID)))

c)若Otmp与Or中所有元素满足关系rule{

count++

Oresult＝Oresult∪{Otmp}

}

Return Oresult

}

对该方法进行简单描述，如图1所示，假设两个对象标识相邻的对象0x123456789A和0x123456789B经过对象散列函数H(OID)的作用分散到样本空间Ω上。考察对象0x123456789B，在圆周C上沿顺时针方向遇到了单节点定位种子集合S_c、S_a和S_d中的元素，由于OSD_c与OSD_a属同一个分组，所以该对象的映射结果为存储节点OSD_c和OSD_d。映射的主要开销在于定位到与H(OID)顺时针前向最近S中的元素，查找该元素的后续k个属于不同分组的元素则相对耗时很少。

下面介绍数据分布均衡原理。定位种子集合S中的点都是在Ω上随机选取得到，在理想的随机函数作用下，可以认为在S中的点在Ω上均匀分布。因此对于某个特定对象Ob，设其在圆周C上映射为点c，有P(Lookup(1，c)∈Si)＝‖Si‖/‖S‖，如公式[1]所示：

\frac{P (Ob &Element; {OSD}_{i})}{P (Ob &Element; {OSD}_{j})} = \frac{| | S_{i} | |}{| | S_{j} | |} = \frac{ω_{i}}{ω_{j}} - - - [1]

当对象个数和存储节点规模都很庞大时，依据大数定理，映射结果将更接近理论值。因此可以认为该数据映射方法在大规模存储系统中，使各OSD所分配的对象个数与该OSD的权重成正比。

由于S中的点都是在Ω上随机生成，因此有可能会出现极端情况。设s_a、s_b是S中的元素，分属OSD_a和OSD_b，且在圆周C上顺时针相邻。显然，若s_a和s_b间距过小，则满足Lookup(1，c)＝s_b的节点个数也较少，从这一局部角度来看，会出现OSD_a分配的对象个数较多而OSD_b分配的对象个数较少的情况。为了避免这一情况，使S中的点在Ω上分散尽量均匀，引入最小分散距离机制。具体做法是，选取合适的最小距离d，在生成S中的元素时，首先在区间[1，M/d]上随机选取元素s’，然后将d×s’作为S中的元素，于是S中的元素最小间距为d，在一定程度上分布更为平均，如图2所示。选取数值时应综合考虑μ和d的关系，满足μ∑ω_i<<M/d。当d取值较大时，可以只记录s’，从而记录S所需的存储空间减少log₂d/log₂M。

针对系统中存储节点的增加和删除操作，本发明提供完备的动态调整策略。设系统中存储节点发生变化前总权重为W_old，发生变化后总权重为W_new，对象个数为n，则需要迁移的对象个数的理论下限为公式[2]所示：

{migration}_{theory} = \frac{| W_{new} - W_{old} |}{\max (W_{new}, W_{old})} \times n - - - [2]

在本发明实施例提供的数据副本映射方法下，增删存储节点的处理机制非常简便易行。当系统中增加新节点OSD_new时，确定其权重ω_new，生成它对应的单节点定位种子集合S_new，其中元素个数为μω_new。在进行数据迁移时，考察某一特定对象，副本阶数为k，设其在圆周C上所对应的点c顺时针前向符合分组规则的k个点为{s₁，s₂，...，s_k}，保存有该对象数据副本的存储节点集合为{OSD₁，OSD₂，...，OSD_k}。若S_new中存在位于区间[s₁，s_k]上的点，则该对象的第k个数据副本需要由节点OSD_k迁移至OSD_new。若OSD_new中不存在位于[s_l，s_k]上的点，则该对象无需进行数据迁移。在这一机制作用下，当加入新节点时，数据迁移的目的节点只可能是新加入的节点OSD_new，在旧节点之间互相没有数据流动。调整完毕后，各对象节点含有的数据对象个数与其权重成正比，达到数据分布均衡，而且数据迁移量为理论最小。

对于节点失效和主动移除节点的情况处理方法类似。设OSD_f发生失效，它包含的某一对象所对应的点c在圆周C上顺时针前向的k个符合分组规则的点为{s₁，s₂，...，s_k}，其中s_f∈S_f。进行数据修复时，从集合{s₁，s₂，...，s_k}/{s_f}所确定的节点中随机选取一个节点作为数据复制源节点，数据复制目的节点为从c出发，顺时针前向第k+1个符合映射规则的点所确定的节点。由S中的节点生成规则可知，数据复制的目的节点和源节点都可能有很多个，从而避免了数据修复时出现热点节点。本方法对于一些系统采用的直到加入新替代节点后才进行数据修复的机制也同样适用。由于新节点一般会具有较高的性能，因此新节点对应的单节点定位种子集合也会具有较多的元素，最终将导致新节点在数据复制时会获得更多的对象。

基于以上分析，本发明实施例提供了一种基于面向对象文件系统的数据副本映射方法，如图3所示，包括：

S301、将面向对象文件系统中对象唯一的对象标识映射到第一数据空间；

S302、对各存储节点配置唯一的存储节点标识并进行分组，将存储节点标识映射到第二数据空间；

S303、确定对象的数据副本在各分组的目的存储节点，目的存储节点在第二数据空间中的映射值与该对象在第一数据空间中的映射值差值最小。

本发明实施例提供了一种基于面向对象文件系统的数据副本映射装置，如图4所示，包括：

对象映射模块401：用于将面向对象文件系统中对象唯一的对象标识映射到第一数据空间；

存储节点分组映射模块402：用于对各存储节点配置唯一的存储节点标识并进行分组，将存储节点标识映射到第二数据空间；

数据副本映射控制模块403：用于确定对象的数据副本在各分组的目的存储节点，目的存储节点在第二数据空间中的映射值与该对象在第一数据空间中的映射值差值最小。

该装置还可包括数据动态调整模块：用于当增加存储节点时，确定该新增存储节点的权重，根据权重确定新增存储节点映射到第二数据空间的映射值；根据对象的对象标识确定对应目的存储节点在第二数据空间内的映射值范围；当判断出新增存储节点在第二数据空间的映射值位于所述映射值范围时，将该对象的最后一个数据副本迁移至新增存储节点。

数据动态调整模块还用于当存储节点失效时，确定该失效存储节点所存储的数据副本对应的对象；确定对象的其它任一目的存储节点为数据复制源节点，在失效存储节点所在分组中重新确定对象的目的存储节点，并确定为数据复制目的节点；在数据复制源节点与数据复制目的节点之间对对象的数据副本进行迁移。

对本发明实施例提供的数据副本映射方法进行了数据测试。测试时取M＝2⁴⁰，存储节点权重ω的取值范围为1～32，系统中的存储节点随机分配权重。随机生成N个对象将其映射在存储节点上。对OSD_i统计其分配到的对象个数n_i，如公式[3]所示：

η_{i} = \frac{n_{i} / Σ n_{i}}{ω_{i} / Σ ω_{i}} - - - [3]

其中η_i为负载均衡参数，理想情况下所有η_i均为1，但实现过程会带来一定的随机误差。通过计算所有|η_i-1|的平均值η_avg和统计η_i值落在[0.9，1.1]之上的存储节点个数百分比p来度量负载均衡程度。η_avg越接近0，p越接近1，说明本发明实施例提供的副本数据映射方法作用下各存储节点负载越平衡。取μ＝8，d＝2²⁰。考察系统的可扩展性，固定存储节点个数为1024个，当系统中对象总数N由10⁵增长至10⁷负载情况如图5所示。固定对象总数为10⁷，μ和d取值不变，存储节点个数为512和1024时映射结果如图6所示。

从图5、图6可见，随着系统中对象个数增多，系统的负载越来越均衡，说明本发明对大规模存储系统效果良好。本方法在存储节点个数较少时依然保持着较好的映射结果，可见本方法对于不同存储节点规模的系统适应性良好。此外，随着数据副本个数的增长，映射结果表现得越为平衡。这表明本发明实施例非常适合多副本存储系统。

针对数据迁移的情况，取μ＝32，d＝2²⁰，固定对象总数为10⁷，存储节点初始值为1024，每步增加128个存储节点。统计每次存储节点数量改变引起的实际对象迁移个数migration_real，通过[2]式计算数据迁移理论最小值migration_theory，通过计算|1-migration_real/migration_theory|来衡量映射方法的有效性。随后开始从系统中删除存储节点，每步删除128个存储节点，同样统计|1-migration_real/migration_theory|。请参见图7，测试结果表明，实际数据迁移量与理论下限Δω/W相比偏差不超过1％。

在本发明实施例中，考察参数改变对映射结果的影响，取副本阶数k＝5，ω取值范围为1～16，1024个存储节点，10⁷个数据对象，取不同的μ值和d值，度量对应的p值。测试结果如图8所示。可以看出，增大μ值和d值对于减小随机误差都具有良好的作用。特别的，在M＝2⁴⁰，d＝2²⁰，当μ值取到32时，分配对象个数与理论值偏差小于10％的节点个数达到100％；μ值取到64时，分配对象个数与理论值偏差小于5％的节点个数也达到100％。

在本方法作用下，新增存储节点时，数据迁移量等于新节点分配到的数据量；存储节点退出时，数据迁移量等于退出存储节点所含的数据量。于是对象映射得越为均衡，则数据迁移量将越接近理论下限。因此增大μ值和d值也可以使数据迁移量更接近理论下限。

根据以上测试结果，在记录定位种子集合S时，可取μ＝32，M/d＝2⁴⁰，节点权重取值范围为1到64之间。这样对于数千节点的存储系统，维护定位信息仅为十几兆字节，完全可以置于服务器内存中。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1、一种基于面向对象文件系统的数据副本映射方法，其特征在于，包括：

2、如权利要求1所述的方法，其特征在于，所述第一数据空间和第二数据空间中映射值按升序排列，并首尾相接组成圆周空间。

3、如权利要求2所述的方法，其特征在于，所述目的存储节点在第二数据空间中的映射值与所述对象在第一数据空间中的映射值在所述圆周空间上按顺时针方向距离最近。

4、如权利要求1所述的方法，其特征在于，所述将存储节点标识映射到第二数据空间，包括：

确定存储节点的权重；

根据所述权重将所述存储节点标识映射到第二数据空间。

5、如权利要求4所述的方法，其特征在于，还包括：

当增加存储节点时，确定该新增存储节点的权重，根据所述权重确定所述新增存储节点映射到第二数据空间的映射值；

根据对象的对象标识确定对应目的存储节点在第二数据空间内的映射值范围；

当判断出所述新增存储节点在第二数据空间的映射值位于所述映射值范围时，将所述对象的最后一个数据副本迁移至所述新增存储节点。

6、如权利要求5所述的方法，其特征在于，还包括：

当存储节点失效时，确定该失效存储节点所存储的数据副本对应的对象；

确定所述对象的其它任一目的存储节点为数据复制源节点，在所述失效存储节点所在分组中重新确定所述对象的目的存储节点，并确定为数据复制目的节点；

在所述数据复制源节点与所述数据复制目的节点之间对所述对象的数据副本进行迁移。

7、如权利要求4、5或6所述的方法，其特征在于，所述存储节点标识映射到第二数据空间时，相邻映射值之间满足设定的最小分散距离。

8、一种基于面向对象文件系统的数据副本映射装置，其特征在于，包括：

9、如权利要求8所述的装置，其特征在于，还包括：

数据动态调整模块：用于当增加存储节点时，确定该新增存储节点的权重，根据权重确定新增存储节点映射到第二数据空间的映射值；根据对象的对象标识确定对应目的存储节点在第二数据空间内的映射值范围；当判断出新增存储节点在第二数据空间的映射值位于所述映射值范围时，将所述对象的最后一个数据副本迁移至所述新增存储节点。

10、如权利要求9所述的装置，其特征在于，所述数据动态调整模块还当存储节点失效时，确定该失效存储节点所存储的数据副本对应的对象；确定对象的其它任一目的存储节点为数据复制源节点，在失效存储节点所在分组中重新确定所述对象的目的存储节点，并确定为数据复制目的节点；在数据复制源节点与所述数据复制目的节点之间对对象的数据副本进行迁移。