CN107302561A

CN107302561A - 一种云存储系统中热点数据副本放置方法

Info

Publication number: CN107302561A
Application number: CN201710367002.8A
Authority: CN
Inventors: 付雄; 郝鸣; 郝一鸣; 邓松; 王俊昌; 程春玲
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2017-05-23
Filing date: 2017-05-23
Publication date: 2017-10-27
Anticipated expiration: 2037-05-23
Also published as: CN107302561B

Abstract

本发明涉及一种云存储系统中热点数据副本放置方法，通过文件的读写次数进行分类，再选择热度较高且合适的文件增加副本数量以达到平衡存储节点负载，一定程度上减少系统内部通信成本，提高云存储系统整体性能的目的；其原理是根据周期内对文件的访问情况做记录，对根据记录筛选得到的适合的热点文件增加额外的临时副本；本发明所设计方法可以在尽可能避免额外开销的条件下，有效控制部分文件热度急剧上升带来的消耗。

Description

一种云存储系统中热点数据副本放置方法

技术领域

本发明涉及一种云存储系统中热点数据副本放置方法，属于云存储副本技术领域。

背景技术

现如今计算机技术和互联网技术已经渗透人们生产生活的方方面面。同时，信息化数字化程度不断深化的生活又带来了高速膨胀的数据量。云计算的概念是通过互联网有偿提供、索取虚拟化的计算机资源，云计算技术的不断成熟使得对大量数据的处理和保存降低了成本。

云存储让用户可以把庞大的数据保存在云端，通过网络进行读写或是分享等操作。云存储服务提供者通过软件使用并管理着大量不同位置、不同类型的物理存储设备，虚拟成一个存储系统对用户提供基于网络的数据存储服务，云存储服务在互联网中已经被广泛使用。在云存储系统中，为了提高系统整体的读写性能和可靠性，需要对同一个文件在不同的物理位置复制副本，而放置副本的策略会影响系统的性能。由于实际应用场景的千变万化，几乎没有什么策略能在任何情况下都表现完美。对于那些提供云存储服务有倾向性或针对性的提供者，根据具体情况和需求，选择对应最合适的策略才能取得最好的效果。

发明内容

本发明所要解决的技术问题是提供一种采用全新策略，能够提高云存储系统访问性能，并在一定程度上降低通信成本的云存储系统中热点数据副本放置方法。

本发明为了解决上述技术问题采用以下技术方案：本发明设计了一种云存储系统中热点数据副本放置方法，周期执行如下步骤，针对热点数据实现副本放置；

步骤A.分别针对云存储系统中的各个原始文件，统计预设时长内原始文件所对应的读请求次数Pr和写请求次数Pw，并判断是否存在满足Pr>Pw，且Pr与Pw之间差值大于预设阈值的原始文件，是则针对该各个原始文件构建待处理文件集合Fr，同时获得待处理文件集合Fr中各个原始文件在预设时长内、所对应的访问次数P，然后进入步骤B；否则方法结束；

步骤B.判断云存储系统中各个节点分别对应的副本空间是否均已满，是则方法结束，否则进入步骤C；

步骤C.选择待处理文件集合Fr中最大访问次数所对应的原始文件作为当前处理文件，根据当前处理文件在本周期执行操作中所对应预设时长内的访问次数P，以及当前处理文件在上一周期执行操作中所对应预设时长内的访问次数P'，判断P与P'的比值K是否大于1，是则进入步骤E；否则进入步骤D；

步骤D.将当前处理文件所对应的各个副本文件剪切至可删除副本集合Rd中，同时将当前处理文件由待处理文件集合Fr中删除，然后返回步骤C；

步骤E.获得当前处理文件所对应新增副本文件的数量，并判断新增副本文件的数量是否大于0，是进入步骤F；否则方法结束；

步骤F.针对云存储系统中不包含当前处理文件所对应副本文件的各个节点，构建待处理节点集合V_off，并计算获得待处理节点集合V_off中各个节点的负载，然后进入步骤G；

步骤G.选择待处理节点集合中最小负载所对应的节点作为当前处理节点，判断当前处理节点所对应的副本空间是否足够存储单个当前处理文件的副本，是则进入步骤I；否则进入步骤H；

步骤H.判断当前处理节点所存储的副本文件中，是否存在位于可删除副本集合Rd中的副本文件，是则分别针对该各个副本文件，获得副本文件访问次数与副本文件大小之间的比值，并针对当前处理节点所存储的副本文件，按比值由小至大的顺序，依次删除副本文件，直至当前处理节点所对应的副本空间足够存储单个当前处理文件的副本为止，停止删除操作，然后进入步骤I；否则将当前处理节点由待处理节点集合V_off中删除，并返回步骤G；

步骤I.在当前处理节点的副本空间中新增当前处理文件所对应的一个副本文件，并将当前处理节点由待处理节点集合V_off中删除，同时，针对当前处理文件所对应新增副本文件的数量进行减1更新，然后判断当前处理文件所对应新增副本文件的数量是否大于0，是则返回步骤G；否则将当前处理文件由待处理文件集合Fr中删除，并返回步骤C。

作为本发明的一种优选技术方案：所述步骤E中，根据当前处理文件所对应已有副本文件的数量与(K-1)的乘积，获得当前处理文件所对应新增副本文件的数量。

作为本发明的一种优选技术方案：所述步骤F中，针对待处理节点集合V_off中的各个节点，根据节点所对应的输入输出负载，以及所对应的磁盘存储空间负载，计算获得待处理节点集合V_off中各个节点的负载。

作为本发明的一种优选技术方案：所述步骤F中，针对待处理节点集合V_off中的各个节点，根据节点所对应的输入输出负载IO，以及所对应的磁盘存储空间负载SPACE，按如下公式：

LOAD＝W₁*IO+W₂*SPACE

计算获得待处理节点集合V_off中各个节点的负载LOAD，其中，W₁表示预设节点输入输出负载权值，W₂表示预设节点磁盘存储空间负载权值。

本发明所述一种云存储系统中热点数据副本放置方法采用以上技术方案与现有技术相比，具有以下技术效果：本发明设计的云存储系统中热点数据副本放置方法，相比主流的副本放置策略，主要优势在于：通过文件的读写次数进行分类，再选择热度较高且合适的文件增加副本数量以达到提高云存储系统的访问性能，一定程度上减少系统内部通信成本的目的。该策略作为一种动态的副本放置策略也具备一定的适应能力，同时也可以在一定范围内提高存储节点的存储空间利用率。

附图说明

图1是本发明所设计云存储系统中热点数据副本放置方法的示意图。

具体实施方式

下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。

云存储系统中，为了提高系统整体的读写性能和可靠性，需要对同一个文件在不同的物理位置复制副本。副本的放置策略决定将哪些数据的副本复制到哪些具体的存储节点上。如果云存储系统中的数据都是文件，有些文件对一致性有较高的要求，增加副本数量会带来额外的同步工作，但也有很多文件在相当长的时间内都不会被反复修改，比如多媒体文件、压缩文件等等，对这类文件增加副本数量并不会带来过多额外的通信成本。另一方面，一些热点数据会在短时间内受到大量的访问，适当地增加这些数据的副本数量，可以减少原来副本所在节点的输出负担和部分链路的通信成本。

Hadoop分布式文件系统即HDFS，是在云存储技术广泛得到应用的文件系统，它对所有数据复制两份，一共三份副本，副本位置在一定范围内是随机决定的。HDFS的副本放置策略可以保证足够的可靠性，但在许多特定的场景下还存在更加合适的策略。

如图1所示，本发明设计了一种云存储系统中热点数据副本放置方法，周期执行如下步骤，针对热点数据实现副本放置；

步骤A.分别针对云存储系统中的各个原始文件，统计预设时长内原始文件所对应的读请求次数Pr和写请求次数Pw，并判断是否存在满足Pr>Pw，且Pr与Pw之间差值大于预设阈值的原始文件，是则针对该各个原始文件构建待处理文件集合Fr，同时获得待处理文件集合Fr中各个原始文件在预设时长内、所对应的访问次数P，然后进入步骤B；否则方法结束。

步骤B.判断云存储系统中各个节点分别对应的副本空间是否均已满，是则方法结束，否则进入步骤C。

步骤C.选择待处理文件集合Fr中最大访问次数所对应的原始文件作为当前处理文件，根据当前处理文件在本周期执行操作中所对应预设时长内的访问次数P，以及当前处理文件在上一周期执行操作中所对应预设时长内的访问次数P'，判断P与P'的比值K是否大于1，是则进入步骤E；否则进入步骤D。

步骤D.将当前处理文件所对应的各个副本文件剪切至可删除副本集合Rd中，同时将当前处理文件由待处理文件集合Fr中删除，然后返回步骤C。

步骤E.根据当前处理文件所对应已有副本文件的数量与(K-1)的乘积，获得当前处理文件所对应新增副本文件的数量，并判断新增副本文件的数量是否大于0，是进入步骤F；否则方法结束。

步骤F.针对云存储系统中不包含当前处理文件所对应副本文件的各个节点，构建待处理节点集合V_off，并针对待处理节点集合V_off中的各个节点，根据节点所对应的输入输出负载IO，以及所对应的磁盘存储空间负载SPACE，按如下公式：

LOAD＝W₁*IO+W₂*SPACE

计算获得待处理节点集合V_off中各个节点的负载LOAD，然后进入步骤G；其中，W₁表示预设节点输入输出负载权值，W₂表示预设节点磁盘存储空间负载权值。

步骤G.选择待处理节点集合中最小负载所对应的节点作为当前处理节点，判断当前处理节点所对应的副本空间是否足够存储单个当前处理文件的副本，是则进入步骤I；否则进入步骤H。

步骤H.判断当前处理节点所存储的副本文件中，是否存在位于可删除副本集合Rd中的副本文件，是则分别针对该各个副本文件，获得副本文件访问次数与副本文件大小之间的比值，并针对当前处理节点所存储的副本文件，按比值由小至大的顺序，依次删除副本文件，直至当前处理节点所对应的副本空间足够存储单个当前处理文件的副本为止，停止删除操作，然后进入步骤I；否则将当前处理节点由待处理节点集合V_off中删除，并返回步骤G。

在面向个体用户的云存储服务系统中，用户向系统提交访问文件的请求，云存储系统查找保存所需副本的节点的地址，用户再通过网络访问相应节点的文件。如果某些文件的热度骤然上升，很可能会出现相同的数据在链路中反复地传输，或是节点反复提供同一个文件，这会导致资源和性能的浪费。使用本发明所设计的云存储系统中热点数据副本放置方法，可以在一定程度上控制相同数据反复传输带来的浪费，设计方法是以小部分存储空间为代价，增加部分文件的冗余度以换取一定性能，增加冗余可能带来同步操作引起的性能消耗，而本发明中根据文件的读写访问特征分类文件，可以很大程度避开这些文件，最终达到有效控制文件热度骤升对云存储系统带来的性能冲击的目的。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种云存储系统中热点数据副本放置方法，其特征在于，周期执行如下步骤，针对热点数据实现副本放置；

2.根据权利要求1所述一种云存储系统中热点数据副本放置方法，其特征在于：所述步骤E中，根据当前处理文件所对应已有副本文件的数量与(K-1)的乘积，获得当前处理文件所对应新增副本文件的数量。

3.根据权利要求1所述一种云存储系统中热点数据副本放置方法，其特征在于：所述步骤F中，针对待处理节点集合V_off中的各个节点，根据节点所对应的输入输出负载，以及所对应的磁盘存储空间负载，计算获得待处理节点集合V_off中各个节点的负载。

4.根据权利要求3所述一种云存储系统中热点数据副本放置方法，其特征在于：所述步骤F中，针对待处理节点集合V_off中的各个节点，根据节点所对应的输入输出负载IO，以及所对应的磁盘存储空间负载SPACE，按如下公式：

LOAD＝W₁*IO+W₂*SPACE