CN104391759A - 一种纠删码存储中负载感知的数据归档方法 - Google Patents

一种纠删码存储中负载感知的数据归档方法 Download PDF

Info

Publication number
CN104391759A
CN104391759A CN201410631962.7A CN201410631962A CN104391759A CN 104391759 A CN104391759 A CN 104391759A CN 201410631962 A CN201410631962 A CN 201410631962A CN 104391759 A CN104391759 A CN 104391759A
Authority
CN
China
Prior art keywords
node
data
data block
band
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410631962.7A
Other languages
English (en)
Other versions
CN104391759B (zh
Inventor
黄建忠
曹强
谢长生
代尔卫
罗海兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201410631962.7A priority Critical patent/CN104391759B/zh
Publication of CN104391759A publication Critical patent/CN104391759A/zh
Application granted granted Critical
Publication of CN104391759B publication Critical patent/CN104391759B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种纠删码存储中负载感知的数据归档方法,包括步骤:获取纠删码存储集群中生产集群的每个节点的负载权重值,并将负载权重值存储在数组中,并根据节点负载权重值来确定不同条带在生产集群中的归档节点集合。对第i个条带,初始化其归档节点集合为空,从第i个条带的数据分布集合中选择负载权重值最高的节点,并判断该节点的负载权重值是否大于该节点的数据块个数,如果为是,则将该节点对应的数据块填充在该条带的归档节点集合中,并更新所涉及节点的负载权重值;如果为否,则选择该条带数据分布集合中负载权值第二高的节点。本发明解决了现有方法中编码节点不考虑节点权值,仅从固定节点获取条带上所有数据块而导致的性能瓶颈问题。

Description

一种纠删码存储中负载感知的数据归档方法
技术领域
本发明属于计算机存储技术领域,更具体地,涉及一种纠删码存储中负载感知的数据归档方法。
背景技术
分布式存储集群利用本身不可靠的单节点提供的冗余数据保证数据的可靠性。在GFS,HDFS和amazon S3等分布式存储环境下采用三副本的冗余方式,在三副本的情况下可以很好地获得数据可靠性以及负载均衡特性。在大规模集群中,三副本带来的缺陷是存储效率低,进而存储成本过高。对于数据一次写多次读集群环境,纠删码数据归档,可以有效的提高存储效率。大规模集群环境下,由于不同方式的I/O服务请求导致集群中节点的异构。在归档过程中归档速度过慢的节点是影响归档性能的重要因素。
传统上是使用基于Reed-Solomon(简称RS)编码的归档方法,即RS(N,K)码归档方法,如果满足HDFS机架感知的三副本数据需要归档,该集中式归档过程包括以下六步:(I)集群管理节点向归档管理节点提交数据归档请求;(II)归档管理节点向数据生产集群提交一个条带上K个数据块的请求;(III)生产集群依据归档管理节点数据请求,从K个数据块的三副本中随机选取一个副本发送给归档管理节点;(Ⅳ)归档管理节点由接收的K个数据块编码生成N个块的归档条带,发送给归档集群;(Ⅴ)重复步骤(Ⅱ)(Ⅲ)(Ⅳ)直到编码生成所有归档数据;(Ⅵ)删除生产集群中旧有的三个副本的数据。如图1所示,为传统的HDFS集群的集中式归档过程,该过程是对于一个条带上的K个数据块{D1,D2,D3,...Dk},随机选取三副本中的一个副本,将该副本数据发送给归档管理节点,归档节点对这K个数据块进行RS编码计算,得到r(r=N-K)个校验分块{P1,P2,…,Pr},归档管理节点将K个数据块以及r个校验块发送给归档集群,重复之前的步骤完成不同条带上的数据归档。如图2所示是传统的集中式归档流程图。
在上述的传统集中式归档过程中,如果生产集群中各个节点的负载相近,并且归档管理节点的网络带宽以及性能远远高于生产集群中节点,则生产集群中负载过大的节点和归档管理节点不会成为归档过程中的性能拼颈。但是,当生产集群中的各个节点负载相差很大,归档管理节点带宽以及性能与生产集群节点相近时,传统的集中式归档会存在如下两方面问题:
一方面,在归档管理节点在生产集群中拉取数据时,得到K个数据块的时间,取决于K个数据块中最晚到达的数据块的时间,当生产集群中某一个提供数据的节点负载过重,发送数据块给编码节点的时间过长,编码节点一直在等待数据,该节点就会成为单条带归档过程中的性能瓶颈。
另一方面,归档管理节点是整个归档过程的“中心节点”,完成所有条带的归档请求,所有的数据块都是经过归档管理节点,由生产集群到归档集群。对于单条带的归档过程,归档管理节点需要等待K个数据块到达才能进行编码操作,归档管理节点接收数据过程是影响单条带归档的主要因素;对于整个归档过程,所有条带的数据归档都是由归档管理节点完成,这样在归档节点带宽与性能与生产集群中节点相近时,归档管理节点会成为整个归档过程的性能瓶颈。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种纠删码存储中负载感知的数据归档方法,其目的在于,解决现有集中式归档方法中存在的编码节点一直在等待数据从而成为单条带归档过程中的性能瓶颈、以及所有归档编码任务均有归档管理节点完成所形成的该管理节点成为整个归档过程的性能瓶颈的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种纠删码存储中负载感知的数据归档方法,包括如下步骤:
(1)获取纠删码存储集群中生产集群的每个节点的负载权重值,并将负载权重值存储在数组中;
(2)设置计数器i=1;
(3)对第i个条带,初始化其归档节点集合为空;
(4)从纠删码存储集群中的管理节点读取数据分布位图,以获取不同条带在生产集群中的数据分布集合;
(5)从纠删码存储集群的第i个条带的数据分布集合中选择负载权重值最高的节点,并判断该节点的负载权重值是否大于该节点的数据块个数,如果大于则进入步骤(6),否则进入步骤(9);
(6)将该节点对应的数据块填充在该条带的归档节点集合中,将该数据块的三个副本均从该条带的数据分布集合中删除,并将该节点对应的负载权重值减去该节点添加至归档节点集合中的数据块数量。
(7)重复上述步骤(5)和步骤(6),直到第i个条带的数据分布集合变为全空为止;
(8)设置计数器i=i+1,并返回步骤(3);
(9)计时器启动,根据上述步骤(2)至步骤(8)得到的条带的归档节点集合对该条带中的数据块进行分布式编码,以得到校验块,并将该校验快发送到归档集群;
(10)在T2时间点观察生产集群中的每个节点,并判断其数据块的编码是否完成,如果完成则根据步骤(1)计算该节点的负载权重值,否则根据该节点的数据块已经被编码的数量减去未完成编码的数据块数量作为该节点的负载权重值;
(11)重复步骤(2)至步骤(10),直到每个节点的数据块均被编码完成为止。
优选地,步骤(1)具体为,首先,计算生产集群中节点j的过去T1时间内的AJPPTj值,其次,计算生产集群中节点j的ARJPj值,再计算T2时间内节点j的负载权重值Wj:Wj=T2*(AJPPTj-ARJPj)/BS,其中BS为数据块大小,最后,将所有生产节点的负载权重值存入数组中。
优选地,步骤(9)具体包括以下子步骤:
(9-1)对于每一个条带的归档节点集合ANS,依据每个节点的数据块个数由多到少进行排序;
(9-2)依据由多到少的排序结果,由数据块少的节点发送数据至数据块多的节点,当某个节点的数据块个数累计>=(N-K)个时,该节点作为编码节点进行流水线式编码,以生成校验块,其中K表示原始分块的个数,N表示编码生成的编码分块的个数;
(9-3)判断条带中所有数据编码是否完成,若是,则将校验块发送到编码集群,否则返回步骤(9-2)。
按照本发明的另一方面,提供了一种纠删码存储中负载感知的数据归档系统,其特征在于,包括:
第一模块,用于获取纠删码存储集群中生产集群的每个节点的负载权重值,并将负载权重值存储在数组中;
第二模块,用于设置计数器i=1;
第三模块,用于对第i个条带,初始化其归档节点集合为空;
第四模块,用于从纠删码存储集群中的管理节点读取数据分布位图,以获取不同条带在生产集群中的数据分布集合;
第五模块,用于从纠删码存储集群的第i个条带的数据分布集合中选择负载权重值最高的节点,并判断该节点的负载权重值是否大于该节点的数据块个数,如果大于则进入第六模块,否则进入第九模块;
第六模块,用于将该节点对应的数据块填充在该条带的归档节点集合中,将该数据块的三个副本均从该条带的数据分布集合中删除,并将该节点对应的负载权重值减去该节点添加至归档节点集合中的数据块数量;
第七模块,用于重复上述第五模块和第六模块,直到第i个条带的数据分布集合变为全空为止;
第八模块,用于设置计数器i=i+1,并返回第三模块;
第九模块,用于计时器启动,根据上述第二模块至第八模块得到的条带的归档节点集合对该条带中的数据块进行分布式编码,以得到校验块,并将该校验快发送到归档集群;
第十模块,用于在T2时间点观察生产集群中的每个节点,并判断其数据块的编码是否完成,如果完成则根据第一模块计算该节点的负载权重值,否则根据该节点的数据块已经被编码的数量减去未完成编码的数据块数量作为该节点的负载权重值;
第十一模块,用于重复第二模块至第十模块,直到每个节点的数据块均被编码完成为止。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)由于本发明采用了步骤(2)中结合节点负载分配权重值和步骤(5)中在负载权重值高的节点上选取归档数据块,可以实现在负载轻、性能好的节点上选取跟多的数据块的效果,因此解决了现有集中式归档方法中存在的编码节点一直在等待数据从而成为单条带归档过程中的性能瓶颈的问题;
(2)由于本发明中采用了步骤(9)中的分布式编码,一个条带的编码由多个节点完成并且每个条带的最终的编码节点不再是固定的某一个节点,解决了所有归档编码任务均有归档管理节点完成所形成的该管理节点成为整个归档过程的性能瓶颈的技术问题;
(3)本发明归档过程结合集群异构,提高了纠删码存储集群的归档效率,进而提高了集群的工作效率。
附图说明
图1是现有技术中集群集中式归档、读取数据块分布示意图;
图2是现有技术中纠删码存储集群集中式归档流程图;
图3是本发明纠删码存储中负载感知的数据归档方法的流程图;
图4是数据块分布图;
图5是本发明中一个实例的数据条带归档数据流。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
以下首先就本发明的相关术语进行解释和说明:
节点数据块以及条带:在归档的编码过程中,读取数据的单元就是数据块。在存储集群中,一个条带就是由多个数据块组成的整体,可以独立地恢复出失效数据的信息集合。
生产集群:本发明中是指在归档过程中提供归档数据的同时仍然需要给整个集群提供数据服务的节点总称。
归档集群:归档完成后存储完整数据条带的集群,可以由生产集群本身的空闲空间替代,本发明中为一种抽象的概念。
负载权重值:本发明中以W表示,其表达的意思是在过去的一段时间内生产集群节点负载和性能情况,负载权重值W包括的因素有CPU处理能力、网络带宽、I/O能力等特性。在本发明中负载权重值反映的是:在一段时间内,所有节点在网络IO处理能力与网络IO负载的差值。负载权重值越大表示节点当前性能越好。
分布式编码:依据编码特性,由多个节点共同完成同一条带数据块的编码操作,并得到校验块。具体地,可依据部分数据块得到编码的中间结果,再利用剩余的数据块以及中间结果得到最终的编码结果。
流水线式编码:一种特殊的分布式编码方式,由多个节点按固定次序排列,其中任一节点生成中间校验块,并发送给下一节点,直至生成最终的校验块。这样,这些参与编码的节点会按流水线方式完成中间校验块的传输和编码操作。
编码节点:一个条带的数据归档过程中,实施了编码计算操作的节点。
本发明提供了一种纠删码存储中负载感知的数据归档方法,本实例采用的是RS(N,K)编码方式。其中,K表示原始分块的个数,N表示编码生成的编码分块的个数,N个编码分块中任意K个都可以解码出K个原始分块。本发明不局限于RS码,它适用于编码过程可以分步进行的纠删码。
如图4所示,假定纠删码存储集群的生产集群上共有18个节点,6个节点放置在同一机架上,数据块按三副本方式分布,并满足机架感知的放置策略。集群管理节点负责归档有关的操作,当归档操作被触发时,向生产集群中18个节点(生产节点编号为N1~N18)发出数据块读取请求,再进行数据块编码计算,最后完成归档过程。
如图3所示,本发明提供了一种纠删码存储中负载感知的数据归档方法,具体包括如下步骤:
(1)获取纠删码存储集群中生产集群的每个节点的负载权重值,并将负载权重值存储在数组中;具体而言,首先,计算生产集群中节点j的过去T1时间内的AJPPTj值(AJPPT是Average Job length Per Processing Time的简写,其表示单位处理时间内任务长度的平均值),其中T1的大小取决于任务处理时间,任务处理时间越大,则T1越大。其次,计算生产集群中节点j的ARJPj值(ARJP是Average Request Job length Per second的简写,其表示节点j每秒所接收的任务数),再计算T2时间内节点j的负载权重值Wj,其中,Wj=T2*(AJPPTj-ARJPj)/BS,T2受数据块大小和节点带宽影响,本发明中,T2设为5秒,BS为数据块大小(Block Size),BS设为64MB。最后,将所有生产节点的负载权重值存入数组中。
(2)设置计数器i=1;
(3)对第i个条带(条带数据为D1~D6),初始化其归档节点集合(Archival Node Set,简称ANS)为空,即,ANS={};
(4)从纠删码存储集群中的管理节点读取数据分布位图,以获取不同条带在生产集群中的数据分布集合(Data Distribute Set,简称DDS);例如,如图4所示,第一个条带的数据分布集合DDS为:
{N1(D2,D5),N2(D1,D2,D3),N3(D3,D6),N4(D4,D5,D6),N5(D1),N6(D4),N7(D4),N8(D5),N9(D6),N10(空),N11(空),N12(空),N13(D1,D2,D3),N14(空),N15(空),N16(空),N17(空),N18(空)}。其中N表示生产节点,D表示数据块,N1(D2,D5)表示节点N1上存有数据块D2和D5
(5)从纠删码存储集群的第i个条带的数据分布集合中选择负载权重值最高的节点,并判断该节点的负载权重值是否大于该节点的数据块个数,如果大于则进入步骤(6),否则进入步骤(9);
(6)将该节点对应的数据块填充在该条带的归档节点集合中,将该数据块的三个副本均从该条带的数据分布集合中删除,并将该节点对应的负载权重值减去该节点添加至归档节点集合中的数据块数量。例如,如果发现第13个节点N13的负载权重值最大,则将N13(D1,D2,D3)填充在第i个条带的归档节点集合中从而ANS={N13(D1,D2,D3)},并从该条带的DDS中删除D1,D2,D3的三个副本,从而第一个条带的DDS为:{N1(D5),N2(空),N3(D6),N4(D4,D5,D6),N5(空),N6(D4),N7(D4),N8(D5),N9(D6),N10(空),N11(空),N12(空),N13(空),N14(空),N15(空),N16(空),N17(空),N18(空)},最后,将第13个节点对应的负载权重值减去添加至归档节点集合中的数据块数量3;
(7)重复上述步骤(5)和步骤(6),直到第i个条带的数据分布集合变为全空为止;
(8)设置计数器i=i+1,并返回步骤(3);
(9)计时器启动,根据上述步骤(2)至步骤(8)得到的条带的归档节点集合对该条带中的数据块进行分布式编码,以得到校验块,并将该校验快发送到归档集群;本步骤具体包括以下子步骤:
(9-1)对于每一个条带的归档节点集合ANS,依据每个节点的数据块个数由多到少进行排序;
(9-2)依据由多到少的排序结果,由数据块少的节点发送数据至数据块多的节点,当某个节点的数据块个数累计>=(N-K)个时,该节点作为编码节点进行流水线式编码,即对于一个数据块大小为64MB的条带,归档的过程中以1MB为数据的发送和编码单元,发送分布式编码后的结果给下一个节点,其中K表示原始分块的个数,N表示编码生成的编码分块的个数,以生成校验块,其中K表示原始分块的个数,N表示编码生成的编码分块的个数;
(9-3)判断条带中所有数据编码是否完成,若是,则将校验块发送到编码集群,否则返回步骤(9-2)。
(10)在T2时间点观察生产集群中的每个节点,并判断其数据块的编码是否完成,如果完成则根据步骤(1)计算该节点的负载权重值,否则根据该节点的数据块已经被编码的数量减去未完成编码的数据块数量作为该节点的负载权重值;
(11)重复步骤(2)至步骤(10),直到每个节点的数据块均被编码完成为止。
实例
本发明方法纠删码存储中负载感知的归档方法是应用在三副本存储集群中,下面以参数配置“生产节点数=18,K=6,N=9”为例,具体描述上述归档过程,主要包括以下步骤:
(1)根据生产集群上节点在过去的T1时间段内,网络IO处理能力与网络IO负载的差值,初始化生产节点的负载权重值,假定各节点负载权重值为<0,0,0,5,2,2,0,0,0,4,2,0,6,0,0,0,0,0>。
(2)设置计数器i=1;
(3)对第i个条带,初始化其归档节点集合ANS={};
(4)从纠删码存储集群中的管理节点读取数据分布位图,获取第一个条带的数据分布集合DDS为:{N1(D2,D5),N2(D1,D2,D3),N3(D3,D6),N4(D4,D5,D6),N5(D1),N6(D4),N7(D4),N8(D5),N9(D6),N10(空),N11(空),N12(空),N13(D1,D2,D3),N14(空),N15(空),N16(空),N17(空),N18(空)}
(5)从纠删码存储集群的第i个条带的数据分布集合中选择负载权重值最高的节点,并判断该节点的负载权重值是否大于该节点的数据块个数,N13节点负载权重值最大为5,大于N13(D1,D2,D3)节点上数据块个数3,进入步骤(6)。
(6)将节点N3上的数据块D1,D2,D3填充在该条带的归档节点集合中ANS={N13(D1,D2,D3)},将数据块D1,D2,D3的三个副本均从该条带的数据分布集合中删除,该条带DDS变为:{N1(D5),N2(空),N3(D6),N4(D4,D5,D6),N5(空),N6(D4),N7(D4),N8(D5),N9(D6),N10(空),N11(空),N12(空),N13(空),N14(空),N15(空),N16(空),N17(空),N18(空)}。并将该节点对应的负载权重值5减去该节点添加至归档节点集合中的数据块数量3,各节点负载权重值变为:
<0,0,0,2,2,2,0,0,0,4,2,0,3,0,0,0,0,0>
(7)重复上述步骤(5)和步骤(6),第二个添加到归档节点集合的节点为N4,添加至归档节点集合ANS={N13(D1,D2,D3),N4(D4,D5,D6)},将数据块D4,D5,D6的三个副本均从该条带的数据分布集合中删除,该条带DDS变为:{N1(空),N2(空),N3(空),N4(空),N5(空),N6(D4),N7(D4),N8(D5),N9(D6),N10(空),N11(空),N12(空),N13(空),N14(空),N15(空),N16(空),N17(空),N18(空)}。并将该节点N4对应的负载权重值4减去该节点添加至归档节点集合中的数据块数量3,各节点负载权重值变为:<0,0,0,2,2,2,0,0,0,4,2,0,3,0,0,0,0,0>。;
此时第1个条带的数据分布集合全变为空,进入步骤(8);
(8)设置计数器i=i+1,对于第2个条带,依据数据分布位图得到数据分布集合DDS为:{N1(空),N2(D7),N3(D8,D9,D10,D11,D12),N4(D7,D10),N5(D8,D11),N6(D9,D12),N7(D7,D8,D9),N8(D10,D11,D12),N9(空),N10(空),N11(空),N12(空),N13(空),N14(空),N15(D7),N16(D8,D9),N17(D10,D11,D12),N18(空)}。
重复步骤(3)~步骤(7),得到归档节点集合为:
ANS={N4(D7,D10),N5(D8,D11),N6(D9,D12)}
各节点负载权重值变为:
<0,0,0,0,0,0,0,0,0,4,2,0,3,0,0,0,0,0>;
设置计数器i=i+1,对于第3个条带,依据数据分布位图得到数据分布集合DDS为:{N1(空),N2(空),N3(空),N4(空),N5(空),N6(空),N7(D13),N8(D14),N9(D15),N10(D13,D16,D17,D18),N11(D14,D15),N12(D16,D17,D18),N13(空),N14(D13,D14),N15(D15,D16),N16(D17,D18),N17(空),N18(空)}。
重复步骤(3)~步骤(7),得到归档节点集合为:
ANS={N10(D13,D16,D17,D18),N11(D14,D15)}
各节点负载权重值变为:
<0,0,0,0,0,0,0,0,0,0,0,0,3,0,0,0,0,0>;
设置计数器i=i+1,对于第4个条带,显然负载权重值小于归档数据块,进入步骤(9);
(9)计时器启动,根据上述步骤(2)至步骤(8)得到的条带的归档节点集合对该条带中的数据块进行分布式编码,以得到校验块,并将该校验快发送到归档集群;
本步骤具体包括以下子步骤:
当K=6时,可能的数据块分割情况有十一种组合情况,分别是
[6,0,0,0,0,0]、
[5,1,0,0,0,0]、
[4,2,0,0,0,0]、
[4,1,1,0,0,0]、
[3,3,0,0,0,0]、
[3,2,1,0,0,0]、
[3,1,1,1,0,0]、
[2,2,2,0,0,0]、
[2,2,1,1,0,0]、
[2,1,1,1,1,0]、
[1,1,1,1,1,1]。
第一列上数值6表示某一节点上存在某一条带上的6个不同数据块
对于每一种布局进行分析:
[6]:直接选择该节点做为编码节点
[1,5]、[2,4],[1,1,4]、[1,2,3]、[1,1,1,3]:选择最后一个节点为编码节点,直接接收其余节点数据块数据块。
[3,3]:第一个节点进行编码,发送给第二个节点再次编码得到最终校验块。
[2,2,2]、[1,1,2,2]、[1,1,1,1,2]:将倒数第二个节点作为编码中间节点,即将除最后两个节点之外的数据均集中在倒数第二个节点上,将其编码得到中间结果P1’,P2’,P3’传送给最终编码节点。这样仍然可以保证每个节点的接收数据块以及发送数据块<=3。此方式相对与直接在最后一个节点上采用集中编码有一个劣势在于网络中会增加一个数据块的流量,但是保证了单条带归档负载均衡。
[1,1,1,1,1,1]:在三副本的情况下,存有单条带多个数据块的节点性能过差时才会选择这样的归档链。同样是选择倒数第二个节点为编码中间节点得到P1’,P2’,P3’,发送给最终的编码的节点,这样相对于直接在最终编码节点上采用集中编码时的接收数据块/发送数据块的5/3,增加了网络中的两个数据块的流量来达到负载均衡。
如图5所示,以第1个条带举例,本发明通过将传统的集中式归档的归档管理节点的编码功能由生产集群中的节点代替。选择节点N2,N4采用流水线(即每次发送的数据不是完整的64MB的数据块,而是一个个1MB的子块)的方式生成校验块P1,P2,P3发送给归档集群。具体过程为,N2节点读取数据块D1,D2,D3,编码生成三个1MB的校验块{P1’,P2’,P3’}发送给N4节点,N4节点读取数据块D4,D5,D6,结合校验块{P1’,P2’,P3’}编码生成最终校验{P1,P2,P3}发送给归档集群,对于这个条带上的64MB数据,{N2,N4,归档集群}三者形成归档流水线直到完成的校验均发送给归档集群。对于数据块D1~D6的发送过程,采用相同的负载权重值方式,选择节点N7,N8,N9,N13将原始数据块发送给归档集群,增加单条带归档并行性,加快归档速度。第2个条带和第3三个条带采用同第1个条带的步骤完成归档。
(10)在T2时间点观察生产集群中的每个节点,并判断其数据块的编码是否完成,如果完成则根据步骤(1)计算该节点的负载权重值,否则根据该节点的数据块已经被编码的数量减去未完成编码的数据块数量作为该节点的负载权重值;
(11)重复步骤(2)至步骤(10),直到每个节点的数据块均被编码完成为止。
当集群产生归档请求时,两种方式的归档过程如下:
传统的集群归档如图1所示,归档管理节点随机读取条带D1~D6三副本中的一个副本,编码生成3个校验块,归档节点将数据块D1~D6发送给归档集群的同时将校验块{P1,P2,P3}发送给归档集群。每个条带上数据块的选择都是随机的,无法同时考虑节点负载以及数据分布。
本发明方法的操作为:
第一步:分配节点权重值
第二步:结合权重值与数据块的分布得到归档数据块布局
第三步:结合不同归档数据块布局选择对应方式的流水线式编码。
第四步:重复第一步至三步完成所有数据的归档。
总而言之,本发明的方法具有以下优化效果:
1、归档选择数据块时结合代表节点负载特性的负载权重值以及三副本数据分布特征,在负载轻,数据块多的节点上进行归档。避免了负载过重的节点拖慢归档过程,以及过多的节点之间数据块的传输。
2、生产集群中的不同节点做为编码节点代替归档管理节点的编码过程,增加的归档过程的并行度,消除了归档管理节点性能瓶颈的隐患。
3、单条带归档过程的优化,采用流水线分步编码的方式加速编码过程,减少编码节点等待数据块的时间,通过优化单条带的归档,提高了归档的整体效率。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种纠删码存储中负载感知的数据归档方法,其特征在于,包括如下步骤:
(1)获取纠删码存储集群中生产集群的每个节点的负载权重值,并将负载权重值存储在数组中;
(2)设置计数器i=1;
(3)对第i个条带,初始化其归档节点集合为空;
(4)从纠删码存储集群中的管理节点读取数据分布位图,以获取不同条带在生产集群中的数据分布集合;
(5)从纠删码存储集群的第i个条带的数据分布集合中选择负载权重值最高的节点,并判断该节点的负载权重值是否大于该节点的数据块个数,如果大于则进入步骤(6),否则进入步骤(9);
(6)将该节点对应的数据块填充在该条带的归档节点集合中,将该数据块的三个副本均从该条带的数据分布集合中删除,并将该节点对应的负载权重值减去该节点添加至归档节点集合中的数据块数量。
(7)重复上述步骤(5)和步骤(6),直到第i个条带的数据分布集合变为全空为止;
(8)设置计数器i=i+1,并返回步骤(3);
(9)计时器启动,根据上述步骤(2)至步骤(8)得到的条带的归档节点集合对该条带中的数据块进行分布式编码,以得到校验块,并将该校验快发送到归档集群;
(10)在T2时间点观察生产集群中的每个节点,并判断其数据块的编码是否完成,如果完成则根据步骤(1)计算该节点的负载权重值,否则根据该节点的数据块已经被编码的数量减去未完成编码的数据块数量作为该节点的负载权重值;
(11)重复步骤(2)至步骤(10),直到每个节点的数据块均被编码完成为止。
2.根据权利要求1所述的数据归档方法,其特征在于,步骤(1)具体为,首先,计算生产集群中节点j的过去T1时间内的AJPPTj值,其次,计算生产集群中节点j的ARJPj值,再计算T2时间内节点j的负载权重值Wj:Wj=T2*(AJPPTj-ARJPj)/BS,其中BS为数据块大小,最后,将所有生产节点的负载权重值存入数组中。
3.根据权利要求1所述的数据归档方法,其特征在于,步骤(9)具体包括以下子步骤:
(9-1)对于每一个条带的归档节点集合ANS,依据每个节点的数据块个数由多到少进行排序;
(9-2)依据由多到少的排序结果,由数据块少的节点发送数据至数据块多的节点,当某个节点的数据块个数累计>=(N-K)个时,该节点作为编码节点进行流水线式编码,以生成校验块,其中K表示原始分块的个数,N表示编码生成的编码分块的个数;
(9-3)判断条带中所有数据编码是否完成,若是,则将校验块发送到编码集群,否则返回步骤(9-2)。
4.一种纠删码存储中负载感知的数据归档系统,其特征在于,包括:
第一模块,用于获取纠删码存储集群中生产集群的每个节点的负载权重值,并将负载权重值存储在数组中;
第二模块,用于设置计数器i=1;
第三模块,用于对第i个条带,初始化其归档节点集合为空;
第四模块,用于从纠删码存储集群中的管理节点读取数据分布位图,以获取不同条带在生产集群中的数据分布集合;
第五模块,用于从纠删码存储集群的第i个条带的数据分布集合中选择负载权重值最高的节点,并判断该节点的负载权重值是否大于该节点的数据块个数,如果大于则进入第六模块,否则进入第九模块;
第六模块,用于将该节点对应的数据块填充在该条带的归档节点集合中,将该数据块的三个副本均从该条带的数据分布集合中删除,并将该节点对应的负载权重值减去该节点添加至归档节点集合中的数据块数量;
第七模块,用于重复上述第五模块和第六模块,直到第i个条带的数据分布集合变为全空为止;
第八模块,用于设置计数器i=i+1,并返回第三模块;
第九模块,用于计时器启动,根据上述第二模块至第八模块得到的条带的归档节点集合对该条带中的数据块进行分布式编码,以得到校验块,并将该校验快发送到归档集群;
第十模块,用于在T2时间点观察生产集群中的每个节点,并判断其数据块的编码是否完成,如果完成则根据第一模块计算该节点的负载权重值,否则根据该节点的数据块已经被编码的数量减去未完成编码的数据块数量作为该节点的负载权重值;
第十一模块,用于重复第二模块至第十模块,直到每个节点的数据块均被编码完成为止。
CN201410631962.7A 2014-11-11 2014-11-11 一种纠删码存储中负载感知的数据归档方法 Active CN104391759B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410631962.7A CN104391759B (zh) 2014-11-11 2014-11-11 一种纠删码存储中负载感知的数据归档方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410631962.7A CN104391759B (zh) 2014-11-11 2014-11-11 一种纠删码存储中负载感知的数据归档方法

Publications (2)

Publication Number Publication Date
CN104391759A true CN104391759A (zh) 2015-03-04
CN104391759B CN104391759B (zh) 2017-06-13

Family

ID=52609667

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410631962.7A Active CN104391759B (zh) 2014-11-11 2014-11-11 一种纠删码存储中负载感知的数据归档方法

Country Status (1)

Country Link
CN (1) CN104391759B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126334A (zh) * 2015-05-04 2016-11-16 斯特拉托斯卡莱有限公司 概率性重复数据删除感知的工作负载迁移
CN106844060A (zh) * 2017-03-10 2017-06-13 华中科技大学 一种基于任务负载感知的纠删码归档方法及系统
CN106951340A (zh) * 2017-03-14 2017-07-14 华中科技大学 一种基于局部性优先的rs纠删码数据布局方法及系统
CN107544862A (zh) * 2016-06-29 2018-01-05 中兴通讯股份有限公司 一种基于纠删码的存储数据重构方法和装置、存储节点
CN108197484A (zh) * 2018-01-23 2018-06-22 中南民族大学 一种分布式存储环境下实现节点数据安全的方法
CN108304264A (zh) * 2018-01-22 2018-07-20 华中科技大学 一种基于spark流式计算的纠删码归档方法
CN110839001A (zh) * 2018-08-15 2020-02-25 中国移动通信集团重庆有限公司 批量文件的处理装置、方法、设备和介质
CN111444036A (zh) * 2020-03-19 2020-07-24 华中科技大学 数据关联性感知的纠删码内存替换方法、设备及内存系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103645861A (zh) * 2013-12-03 2014-03-19 华中科技大学 一种纠删码集群中失效节点的重构方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103645861A (zh) * 2013-12-03 2014-03-19 华中科技大学 一种纠删码集群中失效节点的重构方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FREDRICK ROMANUSLSHENGOMA: "HDFS+:Erasure Coding Based Hadoop Distributed File System", 《INTERNATIONAL JOURNAL OF SCIENTIFIC & TECHNOLOGY RESEARCH》 *
LPAMIES-JUAREZ,A DATTA,F OGGIER: "RapidRAID:Pipelined erasure codes for fast data archival in distributed storage system", 《INFOCOM IEEE》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126334A (zh) * 2015-05-04 2016-11-16 斯特拉托斯卡莱有限公司 概率性重复数据删除感知的工作负载迁移
CN107544862A (zh) * 2016-06-29 2018-01-05 中兴通讯股份有限公司 一种基于纠删码的存储数据重构方法和装置、存储节点
CN106844060A (zh) * 2017-03-10 2017-06-13 华中科技大学 一种基于任务负载感知的纠删码归档方法及系统
CN106844060B (zh) * 2017-03-10 2020-01-03 华中科技大学 一种基于任务负载感知的纠删码归档方法及系统
CN106951340B (zh) * 2017-03-14 2019-07-09 华中科技大学 一种基于局部性优先的rs纠删码数据布局方法及系统
CN106951340A (zh) * 2017-03-14 2017-07-14 华中科技大学 一种基于局部性优先的rs纠删码数据布局方法及系统
CN108304264A (zh) * 2018-01-22 2018-07-20 华中科技大学 一种基于spark流式计算的纠删码归档方法
CN108304264B (zh) * 2018-01-22 2022-02-15 华中科技大学 一种基于spark流式计算的纠删码归档方法
CN108197484A (zh) * 2018-01-23 2018-06-22 中南民族大学 一种分布式存储环境下实现节点数据安全的方法
CN108197484B (zh) * 2018-01-23 2020-03-10 中南民族大学 一种分布式存储环境下实现节点数据安全的方法
CN110839001A (zh) * 2018-08-15 2020-02-25 中国移动通信集团重庆有限公司 批量文件的处理装置、方法、设备和介质
CN111444036A (zh) * 2020-03-19 2020-07-24 华中科技大学 数据关联性感知的纠删码内存替换方法、设备及内存系统
CN111444036B (zh) * 2020-03-19 2021-04-20 华中科技大学 数据关联性感知的纠删码内存替换方法、设备及内存系统

Also Published As

Publication number Publication date
CN104391759B (zh) 2017-06-13

Similar Documents

Publication Publication Date Title
CN104391759A (zh) 一种纠删码存储中负载感知的数据归档方法
CN104052576B (zh) 一种云存储下基于纠错码的数据恢复方法
CN103152395A (zh) 一种分布式文件系统的存储方法及装置
WO2019024780A1 (zh) 区块链轻量化处理方法、区块链节点及存储介质
CN108073656A (zh) 一种数据同步方法及相关设备
CN107526645A (zh) 一种通信优化方法及系统
CN105187533A (zh) 一种数据传输的方法及装置
CN109194444A (zh) 一种基于网络拓扑的平衡二叉树修复方法
CN107977167B (zh) 一种基于纠删码的分布式存储系统的退化读优化方法
CN109889440B (zh) 一种基于最大生成树的纠删码失效节点重构路径选择方法
CN106951340B (zh) 一种基于局部性优先的rs纠删码数据布局方法及系统
CN109799948A (zh) 一种数据存储方法及装置
WO2022174537A1 (zh) 一种条带数据存储结构及其构建、修复和更新方法
CN103885829A (zh) 一种基于统计的虚拟机跨数据中心动态迁移优化方法
CN104937564A (zh) 组表格的数据冲洗
US20240037119A1 (en) A method and device for storing data in a distributed database
CN104052495B (zh) 减少硬件缓冲器的低密度奇偶检查码阶层式译码架构
Jin et al. Cost-effective data placement in edge storage systems with erasure code
CN105119949A (zh) 基于多级切片差异分布统计的数据同步方法及系统
CN109933589B (zh) 用于数据汇总的基于ElasticSearch聚合运算结果的数据结构转换方法
CN109828723A (zh) 一种分布式存储系统及其精确数据修复方法及装置
CN103942116B (zh) 一种对数据进行容错处理的方法及数据处理系统
CN109062724A (zh) 一种纠删码转换方法及终端
CN105007286A (zh) 解码方法和装置及云存储方法和系统
CN104572687A (zh) 微博传播的关键用户识别方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant