CN111245719B - 基于蚁群优化的纠删编码存储系统数据更新方法 - Google Patents

基于蚁群优化的纠删编码存储系统数据更新方法 Download PDF

Info

Publication number
CN111245719B
CN111245719B CN202010001061.5A CN202010001061A CN111245719B CN 111245719 B CN111245719 B CN 111245719B CN 202010001061 A CN202010001061 A CN 202010001061A CN 111245719 B CN111245719 B CN 111245719B
Authority
CN
China
Prior art keywords
node
data
delay
path
increment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010001061.5A
Other languages
English (en)
Other versions
CN111245719A (zh
Inventor
胡玉鹏
李乾
黄靖
旷文鑫
叶振宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202010001061.5A priority Critical patent/CN111245719B/zh
Publication of CN111245719A publication Critical patent/CN111245719A/zh
Application granted granted Critical
Publication of CN111245719B publication Critical patent/CN111245719B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/12Shortest path evaluation
    • H04L45/124Shortest path evaluation using a combination of metrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/14Routing performance; Theoretical aspects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1095Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/12Shortest path evaluation
    • H04L45/121Shortest path evaluation by minimising delays

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于蚁群优化的纠删编码存储系统数据更新方法,提出集合式更新模式,以及这种模式中随机选择集合节点和选取最优集合节点两种集合节点的选择方式,并将这种更新模式分为数据增量的收集和校验增量的分发两个阶段,最后结合蚁群算法的特点,从距离,带宽,延时三个影响纠删码更新的网络因素出发,设计一种多目标蚁群优化路由算法来处理两个阶段的数据传输问题。本发明为数据增量的收集以及校验增量的分发找到最佳路由,从而降低数据在网络中的延时,提高纠删码的更新效率。

Description

基于蚁群优化的纠删编码存储系统数据更新方法
技术领域
本发明涉及分布式存储系统,特别是一种基于蚁群优化的纠删编码存储系统数据更新方法。
背景技术
由于高可用性和空间效率,纠删码已成为在分布式存储系统中提供数据持久性的事实标准。纠删码将大的数据对象划分成小的数据块,然后将其编码为多个数据块以及校验块,并将其部署在不同群集的节点上。
对持久性和存储效率的需求使纠删码成为一个新的有吸引力的设计点。关于众所周知的纠删码RS(n,k),一个大小为D字节的文件被分为k个大小相等的数据块di(1≤i≤k),每个大小D/k字节。然后,这些数据块被编码成一组(也称为条带)k数据块和(n-k)校验块,这些块分布在n个不同的存储节点(D1...Dk;P1...Pn-k)中,属于不同的集群,以此来最大限度地提高系统的可靠性。每个校验块pj(1≤j≤(n-k))可以是根据式:
Figure GDA0002447596850000011
来计算,其中
Figure GDA0002447596850000012
表示di到的pj系数。基于这种线性编码,n个块中任何不多于k个块出现故障就可以重建整个原始文件。
数据更新在分布式存储系统中很常见。许多企业的服务器和网络文件系统,更新请求主导了写入工作负载(通常超过90%)。在典型的(n,k)MDS纠删码存储系统中,一个数据块的更新请求涉及(n-k)个校验块的更新。根据更新过程中是否传输整个数据块,更新可以分为两类:基于RAID的更新和基于增量的更新。基于RAID的更新方案需要在数据节点和校验节点之间传输整个数据块,也就是说,为了完成对数据节点的更新,数据节点需要收集所有数据块,然后重新计算所有的校验快,并将其传到相应的校验节点。相比之下,基于增量的更新方案可以节省更多的I/O和网络带宽,因为数据节点上的更新可以通过将增量(数据块要修改的部分)通过广播的方式传输到每一个校验节点。但是,频繁的数据更新会导致巨大的I/O和带宽开销。尤其是在使用纠删码的健/值存储系统中,对健/值数据进行密集的小型更新会导致昂贵的I/O操作和网络流量。
提高纠删码的更新效率具有重要意义。因此,最近投入了大量精力来优化更新性能,同时减少I/O和网络延迟。现有的更新方案,如Azure和CodFS,采用追加式更新或替换式更新和混合更新。在大规模分布式存储系统中执行纠删码更新的琐碎操作可能导致性能显著下降。数据更新涉及到对多个校验节点的更新,不可避免地会导致相当大的I/O和带宽开销。
第一个挑战是当有多个数据节点需要更新时,这些节点之间的协作将导致大量的网络流量和编码操作。增量和编码计算操作可以在所有数据节点上高效地执行,以实现并行更新。然而,如何以最小网络流量将这些Δpj传递到相应的校验节点是一个关键问题。
第二个挑战是如何为异构大型网络存储系统中的每一个传输找到一个最佳路径,涉及到不平等的I/O吞吐量、跨节点的链路带宽和其他QoS限制。从根本上说,这是一个多目标的路由发现优化问题,充分利用网络资源,提高数据更新效率。
发明内容
本发明所要解决的技术问题是,针对现有技术不足,提供一种基于蚁群优化的纠删编码存储系统数据更新方法,为数据增量的收集以及校验增量的分发找到最佳路由,从而降低数据在网络中的延时,提高纠删码的更新效率。
为解决上述技术问题,本发明所采用的技术方案是:一种基于蚁群优化的纠删编码存储系统数据更新方法,包括以下步骤:
1)将所有的蚂蚁分为m轮发放,每一轮的数量蚂蚁为k只;
2)将当前轮蚂蚁当前所处的位置赋值为i,判断是否收敛的布尔型变量设为converge,并初始化为false;;初始化每条路径上的信息素τ;
3)计算当前节点i到目的节点d的距离D(i,d);i∈V;V表示网络节点的集合;
4)对于每一轮中的每一只蚂蚁,若节点i到邻居节点j的链路带宽B(i,j)>Breq且节点j没有被访问过,即
Figure GDA0002447596850000021
不为空,则选择概率最大的节点j作为下一个要访问的节点,如果j不是目的节点,则返回步骤2);
Figure GDA0002447596850000022
为与节点i相邻的且未访问过的节点的集合;B(i,j)表示节点i到节点j之间的带宽;Breq表示路由中需要满足的最小带宽;
5)当本轮所有的蚂蚁爬行结束后,记录每一轮中每一只蚂蚁的爬行路径,如果这只蚂蚁的终点是目的节点,则记录这只蚂蚁从源节点到目的节点的路径和时间,时间即为延时,如果这只蚂蚁的终点不是目的节点,则将蚂蚁在这条路径上的延时记为无穷大,更新每条路径上的信息素;
6)判断蚂蚁的爬行路径是否收敛,如果收敛则停止循环,输出该爬行路径,即最佳路径,以及最佳路径的延时;若不收敛,则返回步骤2)。(刚开始的路径不同,随着蚂蚁数量的增加,由于信息素和启发式因子的作用,越来越多的蚂蚁会沿着某一条路径爬行,这个路径就是收敛路径,也是最佳路径,这个路径的延时也是最小的,例如,本发明中收敛的判断条件是当有连续200只蚂蚁爬行的路径一样时就可判断路径是收敛的)
步骤3)中,利用下式选择使概率
Figure GDA0002447596850000031
最大的节点j作为下一个要访问的节点:
Figure GDA0002447596850000032
其中,η(i,j)=(1/D(j,d))β*(1/(Wi+We))λ,j∈Φ(i);η(i,j)即ηij;θ为启发式因子的权重,
Figure GDA0002447596850000033
是指时间t时从节点i到节点j的的全局启发式因子,
Figure GDA0002447596850000034
是指时间t时从节点i到节点s的的全局启发式因子;τij(t+1)=(1-ρ)τij(t)+Δτij
Figure GDA0002447596850000035
k为轮回的次数,m为每次轮回蚂蚁的只数,α为信息素τ重要程度的参数;β为跳数重要程度的参数;λ为延时重要程度的参数;Wi表示处理延时和传输延时的和所占的权重;We表示传播延时所占的权重;D(j,d)表示节点j到目的节点d的距离;Δτij表示从节点i到节点j上的信息素增量;τij(t)是指t时刻蚂蚁在爬行之前路径(i,j)的信息素含量;τij(t+1)指t+1时刻蚂蚁爬行完之后路径(i,j)上信息素的含量;τis(t)是指t时刻蚂蚁在爬行之前路径(i,s)的信息素含量;
Figure GDA0002447596850000036
表示在一轮当中,路径(i,j)上第k只蚂蚁信息素的增量。
步骤6)中,判断路径是否收敛的条件为:当有连续M只蚂蚁爬行的路径一样时,就判断该路径是收敛的。
本发明还提供了一种集合节点更新方法,其包括以下步骤:
1)对于每一个需要更新的数据节点Di,利用上述方法计算其它每个需要更新的数据节点到此数据节点Di的延时,即数据增量的收集阶段的延时,利用权利要求1所述方法计算此数据节点Di到每一个校验节点的延时,即校验快增量的分发阶段的延时;
2)将数据节点Di的数据增量的收集阶段的延时和校验快增量的分发阶段的延时进行累加求和,记为sum(i);
3)从最小的sum(i)中选择延时最小的节点D(i)作为集合节点。
与现有技术相比,本发明所具有的有益效果为:本发明利用纠删码存储系统中的存储节点性能不同的特点,设计一种基于蚁群算法的多目标优化路由算法,可以充分利用网络中的资源,为数据增量的收集以及校验增量的分发找到最佳路由,从而降低数据在网络中的延时,提高纠删码的更新效率。
附图说明
图1为集中式更新模式;
图2集中式更新的两个阶段。图2(a)集中式更新的第一阶段,图2(b)集中式更新的第二阶段;
图3.基于MACOU算法的多目标更新树实例研究;图3(a)显示了多目标更新树;图3(b)描绘了路径path(V1,V7)的搜索步骤;
图4.不同RN下的延时对比;
图5.两种典型的数据中心网络拓扑;图5(a)和图5(b)分别为胖树和DCell中心网络拓扑的更新方案;
图6.不同大小的数据增量下的延时;
图7.r的数量改变,k的数量不变;
图8.k的数量改变,r的数量不变;
图9.不同网路规模下的延时;
图10不同网路规模下的延时;
图11.不同规模的胖树的延时;
图12.不同规模的Dcell结构下的延时;
图13.收敛性比较:不同网络拓扑下随着蚂蚁数量增加的更新。图13(a)随机网络拓扑收敛图;图13(b)胖树网络拓扑收敛图;图13(c)Dcell网络拓扑收敛图;图13(d)网络中的节点个数为200时,3种网络拓扑图收敛情况的比较。
具体实施方式
为了描述方便,本发明把基于纠删码数据更新模式的蚁群优化,简称为ACOUS,把基于多目标蚁群优化路由算法,简称为MACOU。
本发明设计的基于纠删码数据更新模式的蚁群优化分为以下几个步骤:第一步说明现有的纠删码更新的两种模式:分布式模式和集中式模式以及多数据更新路由问题,从而得出结论:和分布式更新模式相比,集中式更新模式节约资源,网络开销较小;第二步围绕第一步的介绍的集中式更新模式,提出了ACOUS算法设计,为了更清楚的说明问题又利用一个例子来描述构造多目标更新树的构造过程;第三步对集合模式中集合节点的选择效率进行分析。第四个步针对我们提出的基于蚁群优化的纠删编码存储系统数据更新方案进行实验并分析。
第一步:多个节点更新的路由问题分析
这一步介绍了多个数据节点更新下的数据路由问题以及异构纠删码存储系统的相应QoS指标。
路由的QoS度量
针对下面的典型QoS指标,提高大规模纠删码存储系统的多个数据节点更新的效率。
距离:节点s到节点d之间的距离D(s,d)可以通过这两个节点之间的跳数来衡量,这个因素通常用来构建数据传输的最小生成树较短的网络距离表示数据传输的跳数较少,传输延迟较少。
带宽:带宽是衡量网络中链路容量的指标。通常,数据传输的瓶颈由传输路径上的最小带宽确定。由于难以获得实时可用带宽,我们利用平均带宽B(e)作为链路e的链路带宽。如公式(6)所示,B(s,d)表示路径p(s,d)上的最小平均带宽。
B(s,d)=min{B(e),e∈path(s,d)} (1)
延迟:延迟是本发明采用的衡量更新效率的关键指标。延迟越小表示传输效率越高。如公式(7)所示,路径path(s,d)上的总延迟delay(s,d)是处理延迟dproc,传输延迟dtrans和其上的传播延迟dprop之和。这里省略了排队延迟,因为这超出了我们的讨论范围。
delay(s,d)=∑e∈path(s,d)(dprop+dproc+dtrans) (2)
接下来我们将围绕这几个指标设计多目标优化路由算法来提高纠删码的更新效率。
首先我们详细介绍了纠删码的两种更新模式:分布式更新模式和集中式更新模式。然后结合着两种方式的特点从中选择一种相对较好的更新方式。
纠删码存储系统多数据更新的两种模式
当有多个数据节点需要更新时,有两种潜在的更新模式:分布式和集中式。分布式模式用于更新的每个数据节点分别向每个校验节点发送Δdi。集中式更新模式的更新过程分为两步:
第一步:所有更新的数据节点Di发送Δdi到集合节点RN;
第二步:集合节点计算Δpj,然后将Δpj发送到对应的校验节点Pj
表1显示了如果u(1≤u≤k)数据块需要更新,两种更新模式产生的数据传输和读写量。从表一可以看出,分布式模式和集合模式的I/O开销与计算方式几乎相等。分布式模式下的数据传输开销随着u的增加而迅速超过了集合模式中的数据传输开销,因此我们采用集中式更新模式来完成多节点更新。
表1两种更新模式产生的数据传输和读写量
Figure GDA0002447596850000061
第二步:设计基于蚁群优化的多数据节点更新方案
基于上面列出的QoS指标,这一步我们将详细说明ACOUS的更新方案的设计。我们首先介绍两阶段集中式数据更新过程,然后介绍多目标优化更新路由算法。此外,还讨论了集合节点选择机制。
集中式更新分为两步:
ACOUS的主要思想是采用两阶段集中式更新方案,以通过多目标更新树对RS(k+r,k)执行有效的数据增量收集和校验增量分布。
第一步:数据增量收集。图2(a)描述了集合式更新中以数据节点D2的作为集合节点更新的第一步。如果有u(u≤k)个数据节点需要更新,则每个数据节点直接用新的数据块d′i(1≤i≤k)覆盖原始数据块di,同时计算数据增量Δdi,并将数据增量Δdi通过下一节介绍的MACOUS传递到集合节点D2。通过这种方式,第一阶段完成数据增量收集产生的数据传输量为u-1,本地读取次数为u,本地写入次数为u。
第二步:校验块增量的分发。图2(b)描述了集合式更新的第二步。RN基于第一步收到的Δdi,通过公式
Figure GDA0002447596850000071
计算得到每个校验节点的增量,并通过MACOU算法构造多目标更新树来分发给相应的校验节点。然后,每个校验节点将其原始校验块pj通过公式p′j=Δpj+pj进行更新。通过这种方式,第二步产生的数据传输量为r,本地读取次数为r,本地写入次数为r。
多目标蚁群优化更新路由算法
算法1:多目标蚁群优化更新路由算法
输入:1.网络拓扑图G(V,E)
2.每个节点的权重Wi(i∈v)和每个边的权重We(e∈E)
3.每条边带宽B(i,j)和最小带宽Breq约束;
4.源节点s和目标节点d.
注:将处理延时和传输延时的和作为每个节点的权重,将传播延时作为每条链路的权重
输出:满足最小带宽约束下延时最小的路径path(s,d)
第一步:初始化参数,需要初始化地参数有信息素τ重要程度的参数α,跳数重要程度的参数β,延时重要程度的参数λ,轮回的次数k,每次轮回蚂蚁的只数m,将蚂蚁当前所处的位置赋值为i,判断是否收敛的布尔型变量converge,并初始化为false;初始化每条路径上的信息素τ
第二步:计算当前节点到目的节点的距离D(i,d),(i∈V)
第三步:对于每一轮中的每一只蚂蚁,如当前位置不是终点位置并且还有路径可走(节点i到邻居节点j的链路带宽B(i,j)>B且节点j没有被访问过)即
Figure GDA0002447596850000073
不为空,则根据公式3选择概率最大的节点j作为下一个要访问的节点。
概率计算公式为:
Figure GDA0002447596850000072
公式3中的全局启发式因子η(i,j):
η(i,j)=(1/D(j,d))β*(1/(Wi+We))λ,j∈Φ(i) (4),
公式3中的信息素变化情况为:
τij(t+1)=(1-ρ)τij(t)+Δτij
Figure GDA0002447596850000081
第四步:记录每一轮中每一只蚂蚁的爬行路径,并更新每条路径上的信息素。
第五步:判断蚂蚁的路径是否收敛,如果收敛则停止循环。
Figure GDA0002447596850000082
表2算法1中涉及的符号
Figure GDA0002447596850000083
Figure GDA0002447596850000091
算法1详细叙述了我们提出的MACOU算法,其目的是搜索从节点s到节点d的在带宽约束下的最小延时的路径。表2显示了算法1中涉及的符号。节点s和节点d之间的最佳更新路径的问题可以定义如下:
argmin{delay(s,d)},s.t.B(e)≥Breq,e∈path(s,d) (8)
图3说明了MACOU算法的效率。图3(a)显示了多目标更新树,其中V1是集合节点,其他节点是校验节点。节点的权重是延时的总和,边的权重是带宽的大小。假设最小传送带宽要求是Breq=50M bps,我们需要找到一个具有最小延时的更新树,其每个边e应满足B(e)≥50Mpbs。图3(a)中的粗体和所有节点的边构造了多目标更新树。图3(b)描绘了路径path(V1,V7)的搜索步骤。让蚂蚁从V1开始,在初始信息素的相同情况下,由于B(V1,V2)小于50Mbps,下一跳是V3。类似地,蚂蚁然后从V3开始,距离D(V2,V7)是2,距离D(V4,V7)和距离D(V5,V7)是1.同时,V5的延时大于V4。所以,蚂蚁选择V4作为下一跳。最后,V4可以直接到达V7。由于MACOU的正反馈机制,选择路径:V1→V3→V4→V7的蚂蚁数量越多,该路径上的信息素就越多。因此,经过多次迭代后,从V1到V7的路径最终收敛到V1→V3→V4→V7,满足最小更新延时和带宽约束。
类似地,我们可以找到V1到其它校验节点最佳更新路径,并由此构造出图3(a)中的更新树。值得注意的是,ACOUS第一阶段的数据增量收集也可以通过MACOU以与分发相同的方式构建。
第三步:选择集合节点
通常,关于多个QoS度量,最优节点选择是NP-hard问题。ACOUS以随机或延时最小的方式简化集合节点的选择。由于集合节点完成数据增量收集和校验块增量分发的特点,所以RN的选择也是一个重要的问题。其中,随机选择的集合节点称为RNN,选择延时最优的集合节点称为ORN。RRN是从数据节点中随机选择一个节点作为RN进行更新。尽管RRN可能不是最佳的,但与ORN相比,其选择过程更有效。相反,如算法2所示,基于算法1,ORN是当有u个节点时更新时,从中选择延时最小的节点作为RN,选择ORN的问题可以定义为:
argmin,i∈V{sumdelay[i]},其中sumdely[i]给出如下:
Figure GDA0002447596850000101
算法2:ORN选择过程
输入:1.网络拓扑G(V,E);
2.每个节点的权重Wi(i∈V)和每条边的权重We(e∈E)
3.每条边上的带宽B(i,j)
4.需要更新的数据节点的集合D和校验节点的集合P
输出:ORN
第一步:对于每一个需要更新的数据节点Di,利用MACOU算法计算每一个需要更新的数据节点到数据节点Di的延时
第二步:利用MACOU算法计算数据节点D(i)到每一个校验节点的延时。
第三步:将数据节点到每一个需要更新的数据节点和所有校验节点的延时和进行累加求和,记为sum(i)。
第四步:从最小的sum(i)中选择延时最小的节点D(i)作为集合节点
如图4所示,我们进行了一项实验来验证ORN和RRN的更新延时对比。在选择计算的成本可以忽略不计的情况下随着更新节点数量的增加,ORN变得比RRN更有效。考虑到可用计算资源的有限性,最好对大规模存储系统采用ORN。
第六节提供了对两种RN的更多评估。
第四步:实验评估
我们在存储集群上开发原型并实现我们MACOU算法,我们在大规模网络拓扑(≥200个节点)上进行仿真。OPNET是众所周知的基于组件的网络模拟器,我们利用OPNET进行了大量实验,并以此来评估我们的在异构分布式存储网络系统中的更新方案。除了对大型的随机网络拓扑进行实验外,如图5所示,我们也评估了其他两种典型数据中心网络拓扑的更新方案,即胖树和DCell,两者都具有高网络容量和强大的连接性。我们将属于同一条带的数据节点和校验节点随机部署在不同的集群中。同时,还在相同条件下实现DijkstraOSPF路由算法。以下介绍了实验中用到的关键参数。
Figure GDA0002447596850000102
Figure GDA0002447596850000111
第一步:对不同的数据传输量产生的延时进行实验并评估
首先,我们在不同大小的数据增量Δd下比较不同的更新方案。从图6中我们可以看出,随着数据增量的大小的增加更新延时也增加。采用ORN和MACOU的方案不仅优于其他两种方案,而且与传统的Dijkstra OSPF路由算法相比,降低了大约26%的延时。同时,采用ORN和MACOU的方案比采用RRN和MACOU的方案延时降低了18%左右的,因为ORN中的节点选择操作的延时通常是微秒并且与数据传输的延时相比变得可忽略。
图7显示了当k=9时更新延时随着校验节点的数量的增加而增加。图8显示了当r=5时更新延时随着需要更新的数据节点的数量的增加而增加。总之,需要更新的节点的数量越多,在更新期间,需要传输的数据包也越多。当网络规模增加或者传输的数据包的数量增加时,我们的方案的优势变得更加明显。总的来说,与基于Dijkstra OSFP路由的更新算法相比,采用ORN和MACOU的方案减少了30%的延迟。
第二步:对不同规模下的存储系统的更新延时进行实验并评估
图9描述了在不同规模的存储系统下,当需要更新的数据节点和校验节点分别占总节点数量的5%时的更新延时。用于更新的节点随机部署在网络中并定期启动更新过程。随着系统规模的增加,与采用ORN和MACOU的方案相比,Dijkstra更新算法的延迟增加得更快。图10显示了当只有5个数据节点和5个校验节点进行更新时的延时。我们发现,采用ORN和MACOU的方案的更新延时优于传统的更新算法,因为随着系统的扩展,数据传输经过的跳数将增加。当节点数超过250时,我们的方案在寻找路由方面的优势更加明显,相同条件下在更新延时减少了28%到30%。
第三步:对不同网络拓扑下的更新延时进行实验并评估
为了进一步研究我们提出的方案的适应性,我们在两个典型的数据中心网络拓扑(即胖树和dcell)下进行了大量的实验,如图5所示。图11和图12给出了各种数据中心拓扑结构下更新延迟的实验结果。从图11和图12可以看出,与以前的实验类似,我们的方案也能够实现几乎相同的延时节省,这表明我们提出的方案具有良好的适应性。
第四步:对蚁群算法的收敛性进行实验并评估
定期更新信息素使蚁群算法能够快速收敛。图13评估了我们的方案的收敛性,当我们设置α=1,β=1,λ=1.6,ρ=0.4时。如图13所示,更新延迟随着蚂蚁数量的增加而迅速减少,然后达到最佳蚂蚁数量的下限,这意味着搜索的收敛。例如,图13(a)中300个节点的存储网络的最佳蚂蚁数约为500。图13(a),图13(b)和图13(c)表明,较大规模的网络拓扑通常会导致较慢的收敛。例如,当pod的数量分别为6和8时,最佳蚂蚁数量接近250和500,而当pod数量为10时,需要大约1000个蚂蚁才能完成更新路径搜索。图13(d)比较了由200个节点组成的三种网络拓扑下的更新方案的收敛速度。我们可以看到,在DCell拓扑结构中,由于其高效的全局连接性,我们的方案在蚂蚁数量达到230左右时实现了最快的收敛速度。相反,由于随机边缘的复杂性和冗余性,随机网络拓扑收敛速度最慢。

Claims (4)

1.一种基于蚁群优化的纠删编码存储系统数据更新方法,其特征在于,包括以下步骤:
数据增量收集阶段,如果有u个数据节点需要更新,则每个数据节点直接用新的数据块d′i覆盖原始数据块di,同时计算数据增量Δdi,并将数据增量Δdi通过MACOUS算法传递到集合节点D2;通过这种方式,第一阶段完成数据增量收集产生的数据传输量为u-1,本地读取次数为u,本地写入次数为u;u≤k;1≤i≤k;
校验块增量的分发阶段,基于收到的Δdi,通过公式
Figure FDA0003354137790000011
Figure FDA0003354137790000012
计算得到每个校验节点的增量,并通过MACOUS算法构造多目标更新树来分发给相应的校验节点;1≤j≤r;r为数据传输量;
Figure FDA0003354137790000013
表示di到的pj系数;每个校验节点将其原始校验块pj通过公式p′j=Δpj+pj进行更新;
所述集合节点的选择过程包括:
1)对于每一个需要更新的数据节点Di,计算其它每个需要更新的数据节点到此数据节点Di的延时,即数据增量收集阶段的延时,计算此数据节点Di到每一个校验节点的延时,即校验块增量的分发阶段的延时;
2)将数据节点Di的数据增量的收集阶段的延时和校验块增量的分发阶段的延时进行累加求和,记为sum(i);
3)从最小的sum(i)中选择延时最小的节点D(i)作为集合节点;
其中,所述MACOUS算法的具体实现过程包括:
A.将所有的蚂蚁分为m轮发放,每一轮的数量蚂蚁为k只;
B.将当前轮蚂蚁当前所处的位置赋值为i,判断是否收敛的布尔型变量设为converge,并初始化为false;初始化每条路径上的信息素τ;
C.计算当前节点i到目的节点d的距离D(i,d);i∈V;V表示网络节点的集合;
D.对于每一轮中的每一只蚂蚁,若节点i到邻居节点j的链路带宽B(i,j)>Breq且节点j没有被访问过,即
Figure FDA0003354137790000026
不为空,则选择概率最大的节点j作为下一个要访问的节点,如果j不是目的节点,则返回步骤B;
Figure FDA0003354137790000027
为与节点i相邻的且未访问过的节点的集合;B(i,j)表示节点i到节点j之间的带宽;Breq表示路由中需要满足的最小带宽;
E.当本轮所有的蚂蚁爬行结束后,记录每一轮中每一只蚂蚁的爬行路径,如果这只蚂蚁的终点是目的节点,则记录这只蚂蚁从源节点到目的节点的路径和时间,时间即为延时,如果这只蚂蚁的终点不是目的节点,则将蚂蚁在这条路径上的延时记为无穷大,更新每条路径上的信息素;
F.判断蚂蚁的爬行路径是否收敛,如果收敛则停止循环,输出该爬行路径,即最佳路径,以及最佳路径的延时;若不收敛,则返回步骤B。
2.根据权利要求1所述的基于蚁群优化的纠删编码存储系统数据更新方法,其特征在于,步骤C中,利用下式选择使概率
Figure FDA0003354137790000021
最大的节点j作为下一个要访问的节点:
Figure FDA0003354137790000022
其中,η(i,j)=(1/D(j,d))β*(1/(Wi+We))λ,j∈Φ(i);η(i,j)即ηij;θ为启发式因子的权重,
Figure FDA0003354137790000023
是指时间t时从节点i到节点j的全局启发式因子,
Figure FDA0003354137790000024
是指时间t时从节点i到节点s的全局启发式因子;τij(t+1)=(1-ρ)τij(t)+Δτij
Figure FDA0003354137790000025
k为轮回的次数,m为每次轮回蚂蚁的只数,α为信息素τ重要程度的参数;β为跳数重要程度的参数;λ为延时重要程度的参数;Wi表示处理延时和传输延时的和所占的权重;We表示传播延时所占的权重;D(j,d)表示节点j到目的节点d的距离;Δτij表示从节点i到节点j上的信息素增量;τij(t)是指t时刻蚂蚁在爬行之前路径(i,j)的信息素含量;τij(t+1)指t+1时刻蚂蚁爬行完之后路径(i,j)上信息素的含量;τis(t)是指t时刻蚂蚁在爬行之前路径(i,s)的信息素含量;
Figure FDA0003354137790000031
表示在一轮当中,路径(i,j)上第k只蚂蚁信息素的增量。
3.根据权利要求1所述的基于蚁群优化的纠删编码存储系统数据更新方法,其特征在于,步骤F中,判断路径是否收敛的条件为:当有连续M只蚂蚁爬行的路径一样时,就判断该路径是收敛的。
4.根据权利要求3所述的基于蚁群优化的纠删编码存储系统数据更新方法,其特征在于,M=200。
CN202010001061.5A 2020-01-02 2020-01-02 基于蚁群优化的纠删编码存储系统数据更新方法 Active CN111245719B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010001061.5A CN111245719B (zh) 2020-01-02 2020-01-02 基于蚁群优化的纠删编码存储系统数据更新方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010001061.5A CN111245719B (zh) 2020-01-02 2020-01-02 基于蚁群优化的纠删编码存储系统数据更新方法

Publications (2)

Publication Number Publication Date
CN111245719A CN111245719A (zh) 2020-06-05
CN111245719B true CN111245719B (zh) 2021-12-31

Family

ID=70874302

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010001061.5A Active CN111245719B (zh) 2020-01-02 2020-01-02 基于蚁群优化的纠删编码存储系统数据更新方法

Country Status (1)

Country Link
CN (1) CN111245719B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101667972A (zh) * 2009-10-19 2010-03-10 国网信息通信有限公司 电力通信网络业务路由方法及设备
CN102681793A (zh) * 2012-04-16 2012-09-19 华中科技大学 一种基于纠删码集群存储系统的局部式数据更新方法
CN103701702A (zh) * 2013-12-12 2014-04-02 杭州百富电子技术有限公司 一种电力载波通信中的动态路由算法
CN105450741A (zh) * 2015-11-16 2016-03-30 苏州大学 分布式存储系统中供应服务器选择和修复数据传输方法
CN105791117A (zh) * 2016-03-21 2016-07-20 广东科学技术职业学院 一种基于蚁群算法快速求解QoSR的方法
CN108418623A (zh) * 2018-03-21 2018-08-17 大连大学 一种基于改进蚁群算法的卫星QoS路由算法
CN108566430A (zh) * 2018-04-19 2018-09-21 西安电子科技大学 一种数据分配方法
KR20180136845A (ko) * 2017-06-15 2018-12-26 수원대학교산학협력단 보안감시 네트워크에서 aco를 활용한 패킷 전송 방법, 보안감시 네트워크의 패킷 전송장치, 그리고 aco를 활용한 icn 보안감시 시스템
CN110515541A (zh) * 2019-07-29 2019-11-29 西安交通大学 分布式存储中纠删码非对齐数据更新方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102647356B (zh) * 2012-04-13 2014-12-31 广西师范大学 一种基于候选集合策略的类蚁群算法的载波集中器中继路由抄表方法
US10152379B1 (en) * 2016-12-27 2018-12-11 EMC IP Holding Company LLP Efficient garbage collection for distributed storage with forward error correction
CN110532126B (zh) * 2019-07-26 2020-10-27 西安交通大学 纠删码存储系统数据快速恢复方法、装置及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101667972A (zh) * 2009-10-19 2010-03-10 国网信息通信有限公司 电力通信网络业务路由方法及设备
CN102681793A (zh) * 2012-04-16 2012-09-19 华中科技大学 一种基于纠删码集群存储系统的局部式数据更新方法
CN103701702A (zh) * 2013-12-12 2014-04-02 杭州百富电子技术有限公司 一种电力载波通信中的动态路由算法
CN105450741A (zh) * 2015-11-16 2016-03-30 苏州大学 分布式存储系统中供应服务器选择和修复数据传输方法
CN105791117A (zh) * 2016-03-21 2016-07-20 广东科学技术职业学院 一种基于蚁群算法快速求解QoSR的方法
KR20180136845A (ko) * 2017-06-15 2018-12-26 수원대학교산학협력단 보안감시 네트워크에서 aco를 활용한 패킷 전송 방법, 보안감시 네트워크의 패킷 전송장치, 그리고 aco를 활용한 icn 보안감시 시스템
CN108418623A (zh) * 2018-03-21 2018-08-17 大连大学 一种基于改进蚁群算法的卫星QoS路由算法
CN108566430A (zh) * 2018-04-19 2018-09-21 西安电子科技大学 一种数据分配方法
CN110515541A (zh) * 2019-07-29 2019-11-29 西安交通大学 分布式存储中纠删码非对齐数据更新方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Adaptive Quality-of-Service-Based Routing for Vehicular Ad Hoc Networks With Ant Colony Optimization;Guangyu Li等;《IEEE》;20170430;全文 *
TA-update: An adaptive update scheme with tree-structured transmission in erasure-coded storage systems;Y. Wang等;《IEEE》;20180801;全文 *

Also Published As

Publication number Publication date
CN111245719A (zh) 2020-06-05

Similar Documents

Publication Publication Date Title
JP2505064B2 (ja) 経路選択方法
CN112738820A (zh) 一种服务功能链的动态部署方法、装置及计算机设备
Lin Distributed algorithms for fully personalized pagerank on large graphs
CN103399902A (zh) 一种并行环境下的有向图可达性链表生成及查询方法
CN108366089B (zh) 一种基于内容流行度和节点重要度的ccn缓存方法
CN111835634A (zh) 基于业务分配的动态多径路由方法
CN103052114B (zh) 数据缓存放置系统及数据缓存的方法
CN117135059B (zh) 一种网络拓扑结构、构造方法、路由算法、设备及介质
CN111245719B (zh) 基于蚁群优化的纠删编码存储系统数据更新方法
Gong et al. Optimal node selection for data regeneration in heterogeneous distributed storage systems
Tang et al. Content-Aware Routing based on Cached Content Prediction in Satellite Networks
CN114567634A (zh) 面向后e级图计算的方法、系统、存储介质及电子设备
CN109726479A (zh) 一种三维片上网络垂直通道的部署方法
CN114244713A (zh) 一种电力5g网络切片的资源备份方法及装置
CN112073983A (zh) 基于流量预测的无线数据中心网络拓扑优化方法及系统
Mpitziopoulos et al. Deriving efficient mobile agent routes in wireless sensor networks with NOID algorithm
CN115134928B (zh) 频段路由优化的无线Mesh网络拥塞控制方法
CN110808911A (zh) 基于蚁群信息素的组网通信路由方法
CN116366572A (zh) 一种面向spn小颗粒的集中式时隙分配方法和装置
Wu et al. MobileRE: A replicas prioritized hybrid fault tolerance strategy for mobile distributed system
CN114785692A (zh) 一种虚拟电厂聚合调控通信网络流量均衡方法及装置
KR102110335B1 (ko) 네트워크 온 칩 및 그의 데이터 압축 방법 및 장치
CN111369052B (zh) 简化路网ksp优化算法
CN114237985A (zh) 修复纠删码存储系统中失效存储块的方法及相关设备
Wu et al. SPread: Exploiting fractal social community for efficient multi-copy routing in VDTNs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant