CN105893542B

CN105893542B - 一种云存储系统中的冷数据文件重分布方法及系统

Info

Publication number: CN105893542B
Application number: CN201610197281.3A
Authority: CN
Inventors: 冯丹; 刘进军; 华宇; 彭斌; 左鹏飞; 孙园园; 操顺德; 阳玲
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2016-03-31
Filing date: 2016-03-31
Publication date: 2019-04-12
Anticipated expiration: 2036-03-31
Also published as: CN105893542A

Abstract

本发明公开了一种云存储系统中的冷数据文件重分布方法及系统，在系统各个应用服务器上收集云存储系统中用户文件的应用信息，即溯源信息；根据溯源信息得到文件之间的溯源关系；通过文件之间的溯源关系表征文件之间更加紧密而精确的相关性；利用溯源关系建立溯源图；当云存储系统接收到需要重新进行分布的文件，通过这些文件的唯一标识符在溯源图中查询其所在的溯源组，根据溯源组中文件的存储分布状态确定文件被重分布到哪些数据服务器中；并根据重分布的情况更新元数据和溯源图；本发明充分地利用溯源图中同溯源组文件的精确相关性的特点，提高云存储系统中的冷数据的访问效率，并减少了云存储系统的运行开销。

Description

一种云存储系统中的冷数据文件重分布方法及系统

技术领域

本发明属于计算机数据云存储技术领域，更具体地，涉及一种云存储系统中的冷数据文件重分布方法及系统。

背景技术

随着云存储服务的快速发展，越来越多的云存储服务平台不仅能够提供上传数据的存储，还能够提供数据的在线处理，譬如视频或文档的在线创建与编辑。随着各种终端设备的广泛应用，用户为增加数据的一致性和可靠性，将各种数据上传到云存储系统中，并进行在线处理；然而，这些数据中的绝大部分在经过一段时间后变成冷数据。有研究表明，这些冷数据在一些备份系统、社交媒体的后台存储系统中占到90％以上。大量的冷数据不能被丢弃，又占用了很大的存储空间。云服务供应商为了保证存储的有效性，将这些数据尽量的存放在较便宜、性能较差的存储介质上，然而在某些场景中，这些数据即使在冷数据状态下也必须保证一定的读写性能。因此，需要将一些相关性强的数据存放在一起，一方面加快用户读取的速度，另一方面减少云存储服务供应商的运营开销。

现有技术中对于冷数据的相关性处理，主要在于挖掘文件元数据之间的相似性，存在以下问题：

(1)某些系统利用文件的访问局部性设置文件的相关性，文件的访问局部性对于单个用户的访问序列具有很强的相关性，但在云存储平台，多个用户并行的文件操作会减少文件的访问局部性。因此，单独的基于文件的访问局部性来对文件进行分布的划分方式很难提高云存储系统的效率；

(2)某些系统利用文件相关的元数据的多维属性，如创建者、创建时间、修改时间等静态属性反映的相关性来度量文件的相关性，但这种相似性的挖掘方法不适合云存储中冷数据，也仅仅只能反映元数据的某些静态特征所表现相关性，随着应用的变化，这种相关性会发生变化，不能有效的表现文件真正的内在联系。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种云存储系统中的冷数据文件重分布方法及系统，其目的在于利用溯源信息对文件进行聚集，提高冷数据存储系统的吞吐率，并降低存储器能耗。

为实现上述目的，按照本发明的一个方面，提供了一种云存储系统中的冷数据文件重分布方法，具体如下：

(1)通过云存储系统中用户文件的历史应用信息，获取初始溯源信息；根据初始溯源信息，获取用户文件之间的相关性信息；

该相关性信息表征用户文件之间的溯源关系，体现了用户文件之间的相关性；

(2)根据上述相关性信息形成溯源图；该溯源图为无向图，溯源图中的节点代表文件，边代表文件相关性；

其中，文件是指云存储系统内的用户文件，文件相关性是指云存储系统内的用户文件之间的溯源关系；

(3)当接收到数据重分布请求，根据溯源图进行查询，获得数据所在溯源组的其它文件的存储分布信息；根据该分布信息确定迁移的目的数据服务器。

优选地，上述云存储系统中基于溯源关系的冷数据文件重分布方法，其步骤(1)具体如下：

(1-1)在云存储的应用服务器集群的每台服务器上添加溯源信息收集模块；

(1-2)设置溯源信息收集模块收集溯源信息的范围，对系统文件和应用层配置文件(如各种动态链接库文件)的信息进行过滤，获取本系统存储的用户文件的应用信息，即溯源信息；

(1-3)对所述溯源信息进行预处理，以去除其中的错误信息以及重复信息，并获取用户文件之间的相关性信息；

(1-4)判断所述存储系统的元数据服务器上的缓冲区是否有足够的空闲空间保存所述相关性信息，若是，则直接存储所述相关性信息；若否，则进入步骤(2)。

优选地，上述云存储系统中基于溯源关系的冷数据文件重分布方法，其步骤(2)具体如下：

(2-1)判断溯源图是否为空，若是，则先建立空溯源图，将该溯源图设置为无向图，再将相关性信息添加进溯源图；若否，则直接将相关性信息添加到溯源图；

(2-2)根据文件相关项中包含的URI(统一资源标识符，Uniform ResourceIdentifier)，判断URI对应的两个文件是否包含在溯源图中，若否，则进入步骤(2-3)，若是，则进入步骤(2-4)；

(2-3)在溯源图中添加代表文件的节点以及代表文件相互关系的边；

(2-4)判定溯源图是否只包含一个文件，若是，则在溯源图中添加代表不包含在溯源图中的文件的节点以及代表文件相互关系的边；若否，表明URI对应的两个文件均包含在溯源图中，则删除这条文件相关项。

优选地，上述云存储系统中基于溯源关系的冷数据文件重分布方法，其步骤(3)具体如下：

(3-1)当存储系统的元数据服务器接收到数据重分布请求，获取拟迁移的数据所包含的文件的URI集合；

(3-2)判断拟迁移文件的URI集合是否为空，若否，则从该URI集合中选取一个文件的URI，进入步骤(3-3)；若是，则结束本次数据迁移操作，返回提示信息；

(3-3)根据被选取的URI在溯源图中进行查询，获得该文件所在溯源组的其它成员的存储分布信息；根据溯源组的节点存储的分布信息选择迁移的目标数据服务器；进行被选取文件的数据迁移操作。

优选地，上述云存储系统中基于溯源关系的冷数据文件重分布方法，其步骤(3)中，确定迁移的目标服务器的方法，具体如下：

(a)当数据所在溯源组内部分节点已被迁移到下一层数据服务器集群，则将拟迁移的数据迁移到相同的数据服务器，并更新该溯源组信息；

(b)当数据所在溯源组内所有节点均未被迁移到下一层数据服务器集群，则在下一层数据服务器集群中选择负载较轻的服务器作为迁移的目的数据服务器，并进行数据迁移，并更新该溯源组信息；其中，负载包括服务器空间负载、访问负载。

优选地，上述云存储系统中基于溯源关系的冷数据文件重分布方法，其步骤(a)具体如下:

(a-1)获取溯源组内文件被迁移到的目标服务器的网络地址；

(a-2)与目标服务器建立联系，将拟迁移的文件从原存储位置迁移动到目标服务器；

(a-3)更新被迁移文件所在的溯源组信息以及代表该文件的节点的信息。

优选地，上述云存储系统中基于溯源关系的冷数据文件重分布方法，其步骤(b)具体如下：

(b-1)根据下一层数据服务器集群的负载量，选择负载较轻的服务器作为目标数据服务器；

(b-2)获取组内文件被迁移到的目标数据服务器的网络地址；

(b-3)更新被迁移文件所在的溯源组信息以及代表该文件的节点的信息。

为实现本发明目的，按照本发明的另一个方面，提供了一种云存储系统中的冷数据文件重分布系统，包括溯源信息收集模块、溯源图存储和维护模块、溯源图查询模块、元数据管理模块、元数据索引与存储模块、数据迁移控制模块、数据迁移执行模块以及数据存储与管理模块；

其中，溯源信息收集模块用于收集云系统存储里用户文件的历史应用信息，获取初始溯源信息，根据初始溯源信息获得用户文件之间的溯源关系；溯源关系信息保存到存储系统的元数据服务器的非易失存储介质上的缓冲区中；

溯源图存储和维护模块用于根据溯源关系生成溯源图，并完成对溯源图中节点和边的添加、删除以及更新；

溯源图是一张关系表，该表保存文件_URI、溯源组_ID、文件_LOCATION、文件_FREQUENCY；其中，文件_URI是指文件的全球资源定位符，用来唯一标识各个文件；溯源组_ID是指本台元数据服务器为该溯源组唯一指定的序列号；文件_LOCATION是指该文件存储的具体路径，包括设备号、文件路径以及文件名；文件_FREQUENCY是统计的该文件的访问频率；

溯源图查询模块用于根据文件ID查找到文件所在溯源组的文件分布情况，即同溯源组中各文件的文件_LOCATION信息；

元数据管理模块用于对云存储系统中所有用户文件的元数据进行访问、添加、更新以及删除操作；

元数据索引与存储模块用于对云存储系统中所有的元数据信息进行索引与存储，以满足用户的元数据访问与查询的请求；

数据迁移控制模块用于根据溯源组内文件的分布情况，确定文件迁移的目标服务器，并根据数据迁移模块的反馈实时更新元数据与溯源图；

数据迁移执行模块用于根据数据迁移请求，将数据迁移到目标服务器，并在数据迁移过程进行流程控制和参数更新；

数据存储与管理模块用于存储数据，并进行数据的添加、删除以及更新。

优选的，上述云存储系统中基于溯源关系的冷数据文件重分布系统，其溯源信息收集模块具体包括文件应用监听模块、溯源信息处理模块、溯源信息分析模块以及文件相关性信息缓冲模块；

其中，文件应用监听模块用于监听用户或系统管理员对云存储系统中各个文件在应用服务器中的操作，获取初始溯源信息；

溯源信息处理模块用于对初始溯源信息进行过滤，包括对溯源信息进行去重、纠错和规整；

溯源信息分析模块用于对初始溯源信息进行分析，获取用户文件的相关性信息；其中，每一条文件关系项中包含能够唯一标识两个用户文件的文件1_URI、文件2_URI；

文件相关性信息缓冲模块设置在元数据服务器的非易失性存储介质上，用于保存文件的相关性信息。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明提供的云存储系统中的冷数据文件重分布方法及系统，基于溯源关系，采用溯源关系表征用户文件之间的相关性，同一个溯源组里的文件在文件访问的特征上具有相似性；这种相似性与访问的时间局部性体现的相似性比较而言，与实际情况的匹配度更高；当把属于同一个溯源组的文件存储在同一个数据节点时，对这些文件的连续访问不用等待数据节点的重新启动，达到提高冷数据访问效率的目的；

(2)本发明提供的云存储系统中的冷数据文件重分布方法及系统，把具有相关性的文件聚集在一起，对这些文件的访问不需要涉及到其它的数据节点；由此在保证用户访问性能的基础上，减少数据节点的启动次数，后者减少并行运行的数据节点的数目，进一步减少了云存储供应商的运营开销，由此提高了云存储系统中的冷数据存储的节能效率。

附图说明

图1为本发明实施例中的数据重分布的整体流程图；

图2为本发明实施例中收集溯源信息步骤的细化流程图；

图3为本发明实施例中的冷数据文件重分布系统的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供的基于溯源关系的云存储系统中的冷数据文件重分布方法及系统，在各个应用服务器上收集云存储系统中用户文件的应用信息，即溯源信息；通过分析溯源信息获得文件之间的溯源关系；文件之间的溯源关系体现了文件之间紧密而精确的相关性；利用溯源关系建立文件的溯源图；当云存储系统接收到文件的重新分布请求时，通过文件的唯一标识符在溯源图中查询其所在的溯源组，根据溯源组中文件的存储分布状态来决定这些文件被重分布到哪些数据服务器中；然后根据重分布的情况来更新相关的元数据和溯源图。该方法及系统充分地利用溯源图中同溯源组文件的精确相关性的特点，提高冷数据的访问效率，并减少云存储系统的运行开销。

图1所示，为实施例提供的云存储系统中的冷数据文件重分布方法的流程图，具体如下：

(1)在系统各个应用服务器上收集云存储系统中用户文件的应用信息，即溯源信息；根据溯源信息分析获取文件之间的溯源关系；根据溯源关系建立文件的溯源图；并对这张溯源图进行维护；

(3)当云存储系统接收数据重分布请求，通过文件的唯一标识符在溯源图中查询期所在的溯源组，根据溯源组中文件的存储分布状态确定文件被重分布到哪些数据服务器中；

若该数据所在的溯源组中的部分数据已经被重分布，则将该数据迁移到组内部分数据所在的数据服务器；否则，就在数据服务器中选择负载较轻的服务器进行迁移，然后根据重分布的情况更新相关的元数据和溯源图。

图2所示是实施例中步骤(1)的细化流程图，具体如下：

(1-1)在云存储系统中的每一台应用服务器上安装溯源收集工具模块；设置溯源收集工具收集对象的范围以及应用信息的范围，前一项规定只收集用户文件的信息，后一项规定只收集可提取文件相关性的信息；

(1-2)监听用户对文件在云存储系统中的所有编辑操作；

(1-3)将在收集到的溯源信息进行过滤和去重；

(1-4)分析溯源信息得到文件关系项；其中，每条文件关系项包含能够唯一标识两个用户文件的文件：1_URI、2_URI；

(1-5)将上述文件关系项发送到对应的元数据服务器。

图3所示，是实施例提供的云存储系统中的冷数据文件重分布系统的模块示意图；包括溯源信息收集模块、溯源图存储和维护模块、溯源图查询模块、元数据管理模块、元数据索引与存储模块、数据迁移控制模块、数据存储与管理模块以及数据迁移执行模块；

溯源图保存文件_URI、溯源组_ID、文件_LOCATION、文件_FREQUENCY；

其中，文件_URI是指文件的全球资源定位符，用来唯一标识各个文件；溯源组_ID是指本台元数据服务器为该溯源组唯一指定的序列号；文件_LOCATION是指该文件存储的具体路径，包括设备号、文件路径以及文件名；文件_FREQUENCY是统计的该文件的访问频率；

元数据索引与存储模块用于对云存储系统中所有的元数据信息进行索引与存储；

为验证本发明提供的云存储系统中的冷数据文件重分布方法及系统，在实际应用环境下配置本实施例提供的冷数据文件重分布系统，并进行相关查询操作来验证其效果。

实施例中，进行系统测试的硬件与软件系统参数如表1所示：

表1测试系统参数列表

测试系统的配置过程如下：

(1)将测试的trace文件分发到每个节点；

(2)各节点运行元数据索引结构的建立模块和关系图生成模块；在本测试中，25个节点分成3个分组，3个分组中的节点数目分别为3，2，20；第一个分组模拟用户对文件的应用，运行溯源信息收集模块；第二个分组用于存储用户文件的元数据，运行溯源图存储和维护模块、溯源图查询模块、元数据管理模块、元数据索引与存储模块、数据迁移控制模块；第三分组存储数据，运行数据存储与管理模块以及数据迁移执行模块；限制每次可并行运行的数据点的个数。

测试所获得的结果及数据分析如表2及表3所示；其中，表2为本实施例提供的系统及方法与现有技术基于访问的时间局部性的重分布方法的平均时间开销对比列表；表3为本实施例提供的系统及方法与只区分数据冷热的重分布方法的平均时间开销对比列表。

表2测试结果及对比列表1

表3测试结果及对比列表2

通过本实施例提供的系统及方法的单条访问时间开销的平均值，与基于访问的时间局部性的重分布方法的单条访问时间开销平均对比分析，以及与只区分数据冷热的重分布方法的平均时间开销对比分析，分析结果表明本实施例提供的方法及系统，其单条访问的时间比上述两种方法的单条访问时间都短，从加速比这项数据可以很直观地看出，本实施例所提供的冷数据文件重分布方法及系统，在单条数据访问速度上具有绝对优势；本发明与现有的两种技术相比，在根据溯源关系对冷数据进行重分布之后，冷数据存储系统能够减少用户访问冷数据文件的等待时间，并相应地减少云存储服务供应商的运营开销。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种云存储系统中的冷数据文件重分布方法，其特征在于，具体如下：

(1)通过云存储系统中用户文件的历史应用信息，获取初始溯源信息；根据所述初始溯源信息，获取用户文件之间的相关性信息；

所述步骤(1)具体如下：

(1-2)设置溯源信息收集模块收集溯源信息的范围，对系统文件以及应用层配置文件的信息进行过滤，获取本系统存储的用户文件的应用信息；

(1-4)判断云存储系统的元数据服务器上的缓冲区是否有足够的空闲空间保存所述相关性信息，若是，则直接存储所述相关性信息；若否，则进入步骤(2)；

(2)根据所述相关性信息形成溯源图；所述溯源图为无向图，溯源图中的节点代表文件，边代表文件相关性；

(3)当接收到数据重分布请求，根据所述溯源图进行查询，获得数据所在溯源组的其它文件的存储分布信息；根据所述存储分布信息确定迁移的目标服务器。

2.如权利要求1所述的冷数据文件重分布方法，其特征在于，所述步骤(2)具体如下：

(2-1)判断溯源图是否为空，若是，则先建立空溯源图，再将所述相关性信息添加到所述溯源图；若否，则直接将所述相关性信息添加到溯源图；

(2-2)根据文件相关项中包含的URI，判断URI对应的两个文件是否包含在溯源图中，若否，则进入步骤(2-3)，若是，则进入步骤(2-4)；

(2-4)判定溯源图是否只包含一个文件，若是，则在溯源图中添加代表不包含在溯源图中的文件的节点以及代表文件相互关系的边；若否，则删除这条文件相关项。

3.如权利要求1所述的冷数据文件重分布方法，其特征在于，所述步骤(3)具体如下：

(3-1)当接收到数据重分布请求，获取拟迁移的数据所包含的文件的URI集合；

(3-3)根据被选取的URI在溯源图中进行查询，获得该文件所在溯源组的其它成员的存储分布信息；根据溯源组的节点存储的分布信息选择迁移的目标数据服务器；进行数据迁移操作。

4.如权利要求1所述的冷数据文件重分布方法，其特征在于，所述步骤(3)中，确定迁移的目标服务器的方法，具体如下：

(b)当数据所在溯源组内所有节点均未被迁移到下一层数据服务器集群，则在下一层数据服务器集群中选择负载轻的服务器作为迁移的目的数据服务器，并更新该溯源组信息。

5.如权利要求4所述的冷数据文件重分布方法，其特征在于，所述步骤(a)具体如下：

(a-1)获取溯源组内文件被迁移到的目标服务器的网络地址；

6.如权利要求4所述的冷数据文件重分布方法，其特征在于，所述步骤(b)具体如下：

(b-1)根据下一层数据服务器集群的负载量，选择负载轻的服务器作为目标服务器；

(b-2)获取组内文件被迁移到的目标数据服务器的网络地址；

7.一种云存储系统中的冷数据文件重分布系统，其特征在于，包括溯源信息收集模块、溯源图存储和维护模块、溯源图查询模块、元数据管理模块、元数据索引与存储模块、数据迁移控制模块、数据迁移执行模块以及数据存储与管理模块；

所述溯源信息收集模块用于收集用户文件的历史应用信息，根据所述历史应用信息获取初始溯源信息，并根据初始溯源信息获得用户文件之间的溯源关系；

所述溯源图存储和维护模块用于根据溯源关系生成溯源图，并完成对溯源图中节点和边的添加、删除以及更新的操作；

所述溯源图查询模块用于根据文件URI查找到文件所在溯源组的文件分布情况；

所述元数据管理模块用于对云存储系统中所有用户文件的元数据进行访问、添加、更新以及删除操作；

所述元数据索引与存储模块用于对云存储系统中所有的元数据信息进行索引与存储；

所述数据迁移控制模块用于根据溯源组内文件的分布情况，确定文件迁移的目标服务器，并根据数据迁移模块的反馈实时更新元数据与溯源图；

所述数据迁移执行模块用于根据数据迁移请求，将数据迁移到目标服务器，并在数据迁移过程进行流程控制和参数更新；

所述数据存储与管理模块用于存储数据，并进行数据的添加、删除以及更新。

8.如权利要求7所述的冷数据文件重分布系统，其特征在于，所述溯源信息收集模块包括文件应用监听模块、溯源信息处理模块、溯源信息分析模块以及文件相关性信息缓冲模块；

所述文件应用监听模块用于监听用户或系统管理员对云存储系统中各个文件在应用服务器中的操作，获取初始溯源信息；

所述溯源信息处理模块用于对所述初始溯源信息进行过滤，包括对溯源信息进行去重、纠错和规整；

所述溯源信息分析模块用于对所述初始溯源信息进行分析，获取用户文件的相关性信息；

所述文件相关性信息缓冲模块设置在元数据服务器的非易失性存储介质上，用于保存所述的相关性信息。