CN111796973A - 一种面向数据中心存储故障的数据恢复调优方法 - Google Patents

一种面向数据中心存储故障的数据恢复调优方法 Download PDF

Info

Publication number
CN111796973A
CN111796973A CN202010623169.8A CN202010623169A CN111796973A CN 111796973 A CN111796973 A CN 111796973A CN 202010623169 A CN202010623169 A CN 202010623169A CN 111796973 A CN111796973 A CN 111796973A
Authority
CN
China
Prior art keywords
data
replication
priority
queue
recovery
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010623169.8A
Other languages
English (en)
Inventor
李鑫
李慧杰
胡峰
陈兵
秦小麟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202010623169.8A priority Critical patent/CN111796973A/zh
Publication of CN111796973A publication Critical patent/CN111796973A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1469Backup restoration techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开的面向数据中心存储故障的数据恢复调优方法,包括步骤:(1)系统环境配置分析,分析系统配置条件下集群的节点拓扑及可用带宽,根据分析结果使用最优化策略调整复制因子;(2)复制因子调优策略,在不影响集群批处理作业的基础上,实现数据副本的高效恢复。本发明旨在最小化集群中的数据副本丢失后的恢复时间,为批处理任务的执行效率提供保障。

Description

一种面向数据中心存储故障的数据恢复调优方法
技术领域
本发明属于数据中心技术领域,具体涉及一种面向数据中心存储故障的数据恢复的调优方法。
背景技术
副本机制是分布式文件系统的核心技术。在数据中心研究领域,针对大数据分析这一问题,一种常规的方法是采用基于MapReduce架构的Hadoop系统。Hadoop系统底层使用HDFS作为其文件存储系统,HDFS是可容错的,并且可以提供对大数据集的高吞吐量访问。MapReduce进行数据分析时将处理逻辑放置到数据附近,但当数据副本或数据节点失效后,其性能并不令人满意,这主要表现在数据恢复任务将与MapReduce作业竞争带宽资源,从而导致MapReduce作业执行时间过长。
因此,针对默认数据副本恢复策略的不足,基于MapReduce作业高效执行的需求,研究者提出一类纠删码技术,通过纠删码算法将原始的数据进行编码得到校验,并将数据和校验一并存储起来,以达到容错的目的。然而,该方法在进行数据副本恢复时,会造成较高的带宽压力,影响MapReduce作业的执行效率,且对系统的IOPS和延迟影响较大。
因保证数据副本的可用性,牺牲MapReduce作业的执行效率显然是不合适的,而Hadoop系统默认的数据副本管理机制也没有充分考虑数据恢复与MapReduce作业的关系,提高数据恢复的效率;此外,大部分研究仍未能将MapReduce作业与数据恢复相结合,未充分利用集群中的可用带宽资源。
发明内容
本发明公开的面向数据中心存储故障的数据恢复调优方法,为解决上述技术问题,满足数据副本高可用性的客观需求,本发明提出一种面向数据中心存储故障的数据恢复调优方法,该策略在保证MapReduce作业执行效率的同时,能最小化数据副本的恢复时间。
本发明公开的面向数据中心存储故障的数据恢复调优方法,包括如下步骤:
步骤1、依据系统参数,依托Hadoop将系统所要完成的任务分为J组复制任务流
Figure BDA0002563771700000021
其中,
Figure BDA0002563771700000022
取上限值,di表示第i组复制任务流中的复制任务数据量,系统参数至少包括数据中心的数据节点的数量N、系统的可用带宽M、数据块的容量K和待恢复的数据块数量R;
步骤2、获取复制因子G,
Figure BDA0002563771700000023
其中
Figure BDA0002563771700000024
取下限值,根据系统参数初步判断复制因子的最优范围;
步骤3、执行复制因子G的调优策略,包括:
(3-1)定义v表示迭代次数,初始化v=1;将各数据节点按网络距离升序排列,形成待选择目标数据节点队列Q;
(3-2)针对数据副本,将复制任务分为n个优先级,组成优先级队列r;
(3-3)从高优先级复制任务中选择容量I的复制任务,I满足:SUMI≥AVG,
SUMI表示待复制任务队列I中所有复制任务的数据容量;
将I中的复制任务流从优先级队列中删除;
(3-4)将I的复制任务根据网络距离择优放置在目标数据节点,目标数据节点与失效节点的距离最优;
将优先级队列中的其他任务根据网络距离重新排序。
本发明公开的面向数据中心存储故障的数据恢复调优方法的一种改进,步骤1中系统参数还包括心跳周期W,获取单位心跳间隔内恢复数据的上限C,满足C≤max{(N*G*K),(N*M)}。
本发明公开的面向数据中心存储故障的数据恢复调优方法的一种改进,步骤1中系统参数还包括获取数据恢复时间T,满足
Figure BDA0002563771700000031
本发明公开的面向数据中心存储故障的数据恢复调优方法的一种改进,步骤(3-2)中,将复制任务分为五个优先级,组成优先级队列r:
优先级1:保存需要立刻进行复制的数据块;这个数据块只有一个副本或者没有活跃的副本,仅有的一个副本所在的DataNode处在正在退役状态
优先级2:保存副本数量极低的数据块,当实际的副本数量与期望副本的比例小于1∶3时,将副本数量极低的数据块加入这个队列;
优先级3:保存副本数量低于期望值的数据块,要求该数据块的副本数不满足优先级2队列中的比例;
优先级4:数据块的副本数量满足要求,但是副本分布性不足,易丢失数据;
优先级5:保存已经损坏的数据块,该数据块对应的所有副本为损坏的。
本发明公开的面向数据中心存储故障的数据恢复调优方法的一种改进,步骤3还包括(3-5):统计正常运行的MapReduce作业执行时间y;统计存在节点失效时MapReduce作业的执行时间x;比较x与y,以判断MapRedcue作业的执行效率,判断条件为:y*99%≥x,若不满足,则令G=G-1,返回步骤(3-2)。
本发明公开的面向数据中心存储故障的数据恢复调优方法的一种改进,步骤3还包括(3-6):统计当前节点对应日志中数据副本总的恢复时间p,则当前所有v轮迭代中恢复时间最短值h,
Figure BDA0002563771700000032
其执行前提为比较x与y时满足y*99%≥x。进一步地,继续判断此次MapReduce作业执行时间x是否满足:y*99%≥x,若满足,则另令G=G-1,同时满足G>=2,返回步骤(3-6)。
本发明公开的面向数据中心存储故障的数据恢复调优方法的一种改进,步骤(3-1)中数据节点排序时:
将各数据节点按网络距离升序排列,形成待选择目标数据节点队列Q,初始情况下,Q具有N个待复制数据副本;以数据节点间的线缆的段数代表节点之间的网络距离。
本发明公开的面向数据中心存储故障的数据恢复调优方法的一种改进,步骤(3-5)中,节点的选择方法为:进行v轮迭代,每轮迭代选出一组复制任务流和一个目标物理节点,并将选出的复制任务流复制在选中的目标节点上。
本发明公开的面向数据中心存储故障的数据恢复调优方法的一种改进,步骤(3-5)中,每轮迭代包括步骤:
分别选出待复制优先级队列r和目标数据节点队列Q的队首元素,并将待复制优先级队列r的高优先级复制任务部署在目标数据节点队列Q队首的物理机上;
从最佳复制因子值范围的上限开始,逐次统计数据副本总的恢复时间,在满足y*99%≥x的范围内,统计每次数据恢复的时间和其复制因子。
更具体地将,本发明的面向数据中心存储故障的数据恢复调优方法,包括步骤:
(1)获取系统参数,包括:数据中心的数据节点的数量N、心跳周期W、系统的可用带宽M、复制因子G、数据块的容量K和待恢复的数据块数量R。集群理论单位心跳间隔内恢复数据的上限C由系统参数可知,C≤max{(N*G*K),(N*M)};数据恢复时间T范围由系统参数可知,
Figure BDA0002563771700000041
Hadoop通过复制保证失效后的数据副本达到系统要求,将系统所要完成的任务分为J组复制任务流,
Figure BDA0002563771700000042
其中,
Figure BDA0002563771700000043
取上限值,表示第i组复制任务流中的复制任务数量;
(2)复制因子
Figure BDA0002563771700000044
根据系统参数配置初步判断复制因子的最优范围;
(3)执行复制因子的调优策略,包括步骤:
(3-1)定义v表示迭代次数,初始化v=1;将各数据节点按网络距离升序排列,形成待选择目标数据节点队列Q;
(3-2)根据数据副本的缺失程度,将复制任务分为五个优先级,组成优先级队列r:
优先级1:保存需要立刻进行复制的数据块。这个数据块只有一个副本者个数据块没有活跃副本,仅有的一个副本所在的DataNode处在正在退役状态。
优先级1:保存副本数量极低的数据块,当实际的副本数量与期望副本的比例小于1∶3时加入这个队列。
优先级2:保存副本数量低于期望值的数据块,但是该数据块的副本数没有达到优先级1队列中的比例。
优先级3:数据块的副本数量是足够的,但是副本分布不是很好,如果一个机架或者交换机宕机很有可能造成数据块丢失。
优先级4:保存已经损坏的数据块,该数据块对应的所有副本都损坏了。这里将损坏的数据块放入这个队列中进行之后的复制,对没有损坏的数据块赋予更高的优先级。
(3-3)从高优先级复制任务中选择容量I的复制任务,I满足:,
SUMI表示待部署队列I中所有复制任务的数据容量;将I中的复制任务流从优先级队列中删除;
(3-4)将I的复制任务根据网络距离择优放置在目标数据节点,目标数据节点与失效节点的距离最优。将优先级队列中的其他任务根据网络距离重新排序。
(3-5)保证MapRedcue作业的执行效率,统计正常运行的MapReduce作业执行时间y。将该作业导入Hadoop集群,从集群中移除随机数据节点。统计存在节点失效时MapReduce作业的执行时间x。判断是否满足:y*99%≥x,若不满足,则令G=G-1,返回步骤(3-2);若满足,执行步骤(3-6);
(3-6)统计名称节点日志中数据副本总的恢复时间p,当前所有v轮迭代中恢复时间最短值h,
Figure BDA0002563771700000063
继续判断此次MapReduce作业执行时间x是否满足:y*99%≥x,若满足,则另令G=G-1,返回步骤(3-6)。
进一步的,步骤(1)中系统环境配置分析的方法为:
判断复制因子G、数据块的容量K、系统的可用带宽M和数据中心的数据节点数量N是否满足:
Figure BDA0002563771700000061
式中,
Figure BDA0002563771700000062
表示取下界;若判断结果为满足,则执行步骤(3)。
步骤(3-1)中数据节点选择方法为:
将各数据节点按网络距离升序排列,形成待选择目标数据节点队列Q,初始情况下,Q具有N个待复制数据副本;数据节点间的线缆的段数来代表节点之间的网络距离;
进一步的,步骤(3-5)中数据节点选择方法为:
进行v轮迭代,每轮迭代选出一组复制任务流和一个目标物理节点,并将选出的复制任务流复制在选中的目标节点上;每轮迭代包括步骤:
分别选出待复制优先级队列r和目标数据节点队列Q的队首元素,并将待复制任务队列R的高优先级复制任务部署在目标数据节点队列Q队首的数据节点上;
从最佳复制因子值范围的上限开始,逐次统计数据副本总的恢复时间,在满足y*99%≥x的范围内,统计每次数据恢复的时间和其复制因子。
有益效果:与现有技术相比,本发明以数据副本为对象,提出了一种副本复制因子的调优策略,在绝大部分情况都可以实现最佳复制因子,从而缩短任务执行的时间,保障MapReduce作业执行的执行效率。此外,提高恢复任务的执行效率,可以减少数据中心内的通信开销,有效降低数据中心能耗。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明申请方案的一种实施例的流程原理图;
图2为图1实施例复制任务优先级队列示意图;
图3为图1实施例中满足复制条件的复制任务的示意图;
图4为图1实施例中满足复制因子选择范围的示意图。
具体实施方式
以下将结合各实施方式对本发明进行详细描述。但该等实施方式并不限制本发明,本领域的普通技术人员根据该等实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。
在本发明申请的方案中:
步骤1、获取至少包括数据中心的数据节点的数量N、系统的可用带宽M、数据块的容量K和待恢复的数据块数量R在内的系统参数,主要用于评估资源如算力、容量等与任务的匹配,在此基础上依托Hadoop将系统所要完成的任务分为J组复制任务流
Figure BDA0002563771700000071
其中,
Figure BDA0002563771700000072
取上限值,di表示第i组复制任务流中的复制任务数据量,从而获取了需要处理的任务队列;
步骤2、获取复制因子G,
Figure BDA0002563771700000073
其中
Figure BDA0002563771700000074
取下限值,根据系统参数初步判断复制因子的最优范围,这里需要考虑资源与任务量以及单个任务量等多重因素,以满足优化执行的要求;
步骤3、在前述基础上,执行复制因子G的调优策略,包括:
(3-1)定义v表示迭代次数,初始化v=1;将各数据节点按网络距离升序排列,形成待选择目标数据节点队列Q;优选的,可以以数据节点间的线缆的段数代表节点之间的网络距离,每一段线缆即可以指一段完整不存在断续的线缆;也可以指同一局域网或者同一地点内的线缆等。
(3-2)针对待恢复的数据块数量R,可以根据数据副本的缺失程度、分布状态、活跃状态、数据块的数据量、副本数量等参数进行优先级的判定,将复制任务分为n个优先级,组成优先级队列r;
(3-3)从高优先级复制任务中选择容量I的复制任务,I满足:SUM1≥AVG,
SUMI表示待复制任务队列I中所有复制任务的数据容量;
将I中的复制任务流从优先级队列中删除;
(3-4)将I的复制任务根据网络距离择优放置在目标数据节点,目标数据节点与失效节点的距离最优;
将优先级队列中的其他任务根据网络距离重新排序。
在上述方案中,为了进一步地判定复制因子G以满足对复制因子G最优范围的预判,步骤1中系统参数还包括心跳周期W,可知单位心跳间隔内恢复数据的上限C,满足C≤max{(N*G*K),(N*M)}。
在上述方案中,为了衡量过程效率等因素,还可以预设步骤1中系统参数还包括获取数据恢复时间T,满足
Figure BDA0002563771700000081
在上述方案中,考虑到前述因素,在步骤(3-2)中,可以将复制任务分为五个优先级,组成优先级队列r:
优先级1:保存需要立刻进行复制的数据块;这个数据块只有一个副本或者没有活跃的副本,仅有的一个副本所在的DataNode处在正在退役状态
优先级2:保存副本数量极低的数据块,当实际的副本数量与期望副本的比例小于1∶3时,将副本数量极低的数据块加入这个队列;
优先级3:保存副本数量低于期望值的数据块,要求该数据块的副本数不满足优先级2队列中的比例;
优先级4:数据块的副本数量满足要求,但是副本分布性不足,易丢失数据;
优先级5:保存已经损坏的数据块,该数据块对应的所有副本为损坏的。通过该优先级序列,将待恢复的数据块进行优先级排列,从而获得满足要求的按照优先级排列的数据队列。
在上述方案的执行过程中,步骤3还可以包括(3-5):统计正常运行的MapReduce作业执行时间y,y可以为比如统计获得正常反馈的执行时间,也可以为依据任务的预设值;统计存在节点失效时MapReduce作业的执行时间x;比较x与y,以判断MapRedcue作业的执行效率,判断条件为:y*99%≥x,若不满足,则令G=G-1,返回步骤(3-2)。优选的,统计过程中,节点的选择方法为:进行v轮迭代,每轮迭代选出一组复制任务流和一个目标物理节点,并将选出的复制任务流复制在选中的目标节点上。更进一步地,每轮迭代可以包括如下步骤:
分别选出待复制优先级队列r和目标数据节点队列Q的队首元素,并将待复制优先级队列r的高优先级复制任务部署在目标数据节点队列Q队首的物理机上;
从最佳复制因子值范围的上限开始,逐次统计数据副本总的恢复时间,在满足y*99%≥x的范围内,统计每次数据恢复的时间和其复制因子。
在上述方案的执行过程中,步骤3还可以包括(3-6):统计当前节点对应日志中数据副本总的恢复时间p,则当前所有v轮迭代中恢复时间最短值h,
Figure BDA0002563771700000091
其执行前提为比较x与y时满足y*99%≥x。继续判断此次MapReduce作业执行时间x是否满足:y*99%≥x,若满足,则另令G=G-1,同时满足G>=2,则返回步骤(3-6)。
如图1-4所示展示了本发明方案一个实施例:
本发明主要包括三个策略模块,如图1所示。首先,根据系统的参数配置,进行系统环境配置分析,分析计算最佳复制因子的范围。设置复制因子的上限,并随机移除数据节点后,执行复制因子的调优策略。
集群理论单位心跳间隔内恢复数据的上限C由系统参数可知,C≤max{(N*G*K),(N*M)}
初始情况下,我们可以知道如下系统参数:
N:数据中心的数据节点的数量。
W:心跳周期。Hadoop系统中,名称节点周期性收集数据节点汇报的节点信息,以保证数据副本的可用和容错。
M:系统的可用带宽。
K:数据块的数量,在Hadoop系统中,数据往往以块的形式存在。
R:待恢复的数据块数量。数据节点故障后,该节点上所存储的数据块需要在其他数据节点复制已达到高可用的要求。
C:集群理论单位心跳间隔内恢复数据的上限。在集群中没有MapReduce作业执行时,系统的可用带宽均用来执行数据恢复任务。
G:复制因子。每个心跳周期内名称节点最大要求单个数据节点恢复数据块副本的数量。
N、M、K、G、C满足:C≤max{(N*G*K),(N*M)}。
判断复制因子G、数据块的容量K、系统的可用带宽M和数据中心的数据节点数量N是否满足:
Figure BDA0002563771700000101
式中,
Figure BDA0002563771700000102
表示取下界;若判断结果为满足,则执行复制因子调优策略。
复制因子调优策略:
(1)获取系统参数,包括:数据中心的数据节点的数量N、心跳周期W、系统的可用带宽M、复制因子G、数据块的容量K和待恢复的数据块数量R。集群理论单位心跳间隔内恢复数据的上限C由系统参数可知,C≤max{(N*G*K),(N*M)};数据恢复时间T范围由系统参数可知,
Figure BDA0002563771700000103
Hadoop通过复制保证失效后的数据副本达到系统要求,将系统所要完成的任务分为J组复制任务流,
Figure BDA0002563771700000104
其中,表示第i组复制任务流中的复制任务数量;
(2)复制因子
Figure BDA0002563771700000105
根据系统参数配置初步判断复制因子的最优范围;
(3)执行复制因子的调优策略,包括步骤:
(3-1)定义v表示迭代次数,初始化v=1;将各数据节点按网络距离升序排列,形成待选择目标数据节点队列Q;
(3-2)根据数据副本的缺失程度,将复制任务分为五个优先级,组成优先级队列r:
优先级1:保存需要立刻进行复制的数据块。这个数据块只有一个副本者个数据块没有活跃副本,仅有的一个副本所在的DataNode处在正在退役状态。
优先级1:保存副本数量极低的数据块,当实际的副本数量与期望副本的比例小于1∶3时加入这个队列。
优先级2:保存副本数量低于期望值的数据块,但是该数据块的副本数没有达到优先级1队列中的比例。
优先级3:数据块的副本数量是足够的,但是副本分布不是很好,如果一个机架或者交换机宕机很有可能造成数据块丢失。
优先级4:保存已经损坏的数据块,该数据块对应的所有副本都损坏了。这里将损坏的数据块放入这个队列中进行之后的复制,对没有损坏的数据块赋予更高的优先级。
(3-3)从高优先级复制任务中选择容量I的复制任务,I满足:,
SUMI表示待部署队列I中所有复制任务的数据容量;将I中的复制任务流从优先级队列中删除;
(3-4)将I的复制任务根据网络距离择优放置在目标数据节点,目标数据节点与失效节点的距离最优。将优先级队列中的其他任务根据网络距离重新排序。
(3-5)保证MapRedcue作业的执行效率,统计正常运行的MapReduce作业执行时间y。将该作业导入Hadoop集群,从集群中移除随机数据节点。统计存在节点失效时MapReduce作业的执行时间x。判断是否满足:y*99%≥x,若不满足,则令G=G-1,返回步骤(3-2);若满足,执行步骤(3-6);
(3-6)统计名称节点日志中数据副本总的恢复时间p,当前所有v轮迭代中恢复时间最短值h,
Figure BDA0002563771700000121
继续判断此次MapReduce作业执行时间x是否满足:y*99%≥x,若满足,则另令G=G-1,返回步骤(3-6)。
根据系统环境配置分析,本实施例方法首先需要对等式进行判断心跳周期最大可恢复数据量:C≤max{(N*G*K),(N*M)};本发明中恒满足:
Figure BDA0002563771700000122
HDFS默认复制因子为2,因此,在上述最佳复制因子的取值范围,执行复制因子的调优策略。在真实环境下,该复制因子的调优策略是可靠且适用的。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。
此外,应当理解,虽然本说明书按照实施例加以描述,但并非每个实施例仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (9)

1.一种面向数据中心存储故障的数据恢复调优方法,其特征在于,包括如下步骤:
步骤1、依据系统参数,依托Hadoop将系统所要完成的任务分为J组复制任务流
Figure FDA0002563771690000011
其中,
Figure FDA0002563771690000012
取上限值,di表示第i组复制任务流中的复制任务数据量,所述系统参数至少包括数据中心的数据节点的数量N、系统的可用带宽M、数据块的容量K和待恢复的数据块数量R;
步骤2、获取复制因子G,
Figure FDA0002563771690000013
其中
Figure FDA0002563771690000014
取下限值,根据系统参数初步判断复制因子的最优范围;
步骤3、执行复制因子G的调优策略,包括:
(3-1)定义v表示迭代次数,初始化v=1;将各数据节点按网络距离升序排列,形成待选择目标数据节点队列Q;
(3-2)针对数据副本,将复制任务分为n个优先级,组成优先级队列r;
(3-3)从高优先级复制任务中选择容量I的复制任务,I满足:
SUMI≥AVG,
SUMI表示待复制任务队列I中所有复制任务的数据容量;
将I中的复制任务流从优先级队列中删除;
(3-4)将I的复制任务根据网络距离择优放置在目标数据节点,目标数据节点与失效节点的距离最优;
将优先级队列中的其他任务根据网络距离重新排序。
2.根据权利要求1所述的面向数据中心存储故障的数据恢复调优方法,其特征在于,步骤1中所述系统参数还包括心跳周期W,获取单位心跳间隔内恢复数据的上限C,满足C≤max{(N*G*K),(N*M)}。
3.根据权利要求1所述的面向数据中心存储故障的数据恢复调优方法,其特征在于,步骤1中系统参数还包括获取数据恢复时间T,满足
Figure FDA0002563771690000021
4.根据权利要求1所述的面向数据中心存储故障的数据恢复调优方法,其特征在于,所述步骤(3-2)中,将复制任务分为五个优先级,组成优先级队列r:
优先级1:保存需要立刻进行复制的数据块;这个数据块只有一个副本或者没有活跃的副本,仅有的一个副本所在的DataNode处在正在退役状态
优先级2:保存副本数量极低的数据块,当实际的副本数量与期望副本的比例小于1∶3时,将副本数量极低的数据块加入这个队列;
优先级3:保存副本数量低于期望值的数据块,要求该数据块的副本数不满足优先级2队列中的比例;
优先级4:数据块的副本数量满足要求,但是副本分布性不足;
优先级5:保存已经损坏的数据块,该数据块对应的所有副本为损坏的。
5.根据权利要求1所述的面向数据中心存储故障的数据恢复调优方法,其特征在于,所述步骤3还包括(3-5):统计正常运行的MapReduce作业执行时间y;统计存在节点失效时MapReduce作业的执行时间x;比较x与y,以判断MapRedcue作业的执行效率,判断条件为:y*99%≥x,若不满足,则令G=G-1,返回步骤(3-2)。
6.根据权利要求5所述的面向数据中心存储故障的数据恢复调优方法,其特征在于,所述步骤3还包括(3-6):统计当前节点对应日志中数据副本总的恢复时间p,则当前所有v轮迭代中恢复时间最短值h,
Figure FDA0002563771690000022
其执行前提为比较x与y时满足y*99%≥x。
7.根据权利要求1所述的面向数据中心存储故障的数据恢复调优方法,其特征在于,所述步骤(3-1)中数据节点排序时:
将各数据节点按网络距离升序排列,形成待选择目标数据节点队列Q,初始情况下,Q具有N个待复制数据副本;以数据节点间的线缆的段数代表节点之间的网络距离。
8.根据权利要求5所述的面向数据中心存储故障的数据恢复调优方法,其特征在于,所述步骤(3-5)中,节点的选择方法为:进行v轮迭代,每轮迭代选出一组复制任务流和一个目标物理节点,并将选出的复制任务流复制在选中的目标节点上。
9.根据权利要求8所述的面向数据中心存储故障的数据恢复调优方法,其特征在于,所述步骤(3-5)中,每轮迭代包括步骤:
分别选出待复制优先级队列r和目标数据节点队列Q的队首元素,并将待复制优先级队列r的高优先级复制任务部署在目标数据节点队列Q队首的物理机上;
从最佳复制因子值范围的上限开始,逐次统计数据副本总的恢复时间,在满足y*99%≥x的范围内,统计每次数据恢复的时间和其复制因子。
CN202010623169.8A 2020-06-30 2020-06-30 一种面向数据中心存储故障的数据恢复调优方法 Pending CN111796973A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010623169.8A CN111796973A (zh) 2020-06-30 2020-06-30 一种面向数据中心存储故障的数据恢复调优方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010623169.8A CN111796973A (zh) 2020-06-30 2020-06-30 一种面向数据中心存储故障的数据恢复调优方法

Publications (1)

Publication Number Publication Date
CN111796973A true CN111796973A (zh) 2020-10-20

Family

ID=72810060

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010623169.8A Pending CN111796973A (zh) 2020-06-30 2020-06-30 一种面向数据中心存储故障的数据恢复调优方法

Country Status (1)

Country Link
CN (1) CN111796973A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104699567A (zh) * 2013-10-21 2015-06-10 国际商业机器公司 用于在分布式数据存储系统中恢复数据对象的方法和系统
US20160335166A1 (en) * 2015-05-14 2016-11-17 Cisco Technology, Inc. Smart storage recovery in a distributed storage system
CN106254161A (zh) * 2016-09-28 2016-12-21 上海爱数信息技术股份有限公司 基于hdfs的节点失效的快速检测与恢复方法及系统
CN106708432A (zh) * 2016-12-03 2017-05-24 浙江大学 一种基于密度平衡的近邻迁移分区方法
CN111290710A (zh) * 2020-01-20 2020-06-16 北京信息科技大学 一种基于动态调整复制因子的云副本存储方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104699567A (zh) * 2013-10-21 2015-06-10 国际商业机器公司 用于在分布式数据存储系统中恢复数据对象的方法和系统
US20160335166A1 (en) * 2015-05-14 2016-11-17 Cisco Technology, Inc. Smart storage recovery in a distributed storage system
CN106254161A (zh) * 2016-09-28 2016-12-21 上海爱数信息技术股份有限公司 基于hdfs的节点失效的快速检测与恢复方法及系统
CN106708432A (zh) * 2016-12-03 2017-05-24 浙江大学 一种基于密度平衡的近邻迁移分区方法
CN111290710A (zh) * 2020-01-20 2020-06-16 北京信息科技大学 一种基于动态调整复制因子的云副本存储方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MOHAMMAD A. HAQUE等: "On Reliability Management of Energy-Aware Real-Time Systems Through Task Replication", 《IEEE TRANSACTIONS ON PARALLEL AND DISTRIBUTED SYSTEMS》 *
黑继伟: "基于分布式并行文件系统HDFS的副本管理模型", 《中国优秀硕士学位论文全文数据库》 *

Similar Documents

Publication Publication Date Title
CN110190987B (zh) 基于备份收益与重映射的虚拟网络功能可靠性部署方法
CN103595805A (zh) 一种基于分布式集群的数据放置方法
CN101692227B (zh) 大规模高可靠的归档存储系统构建方法
CN103929454A (zh) 一种云计算平台中负载均衡存储的方法和系统
CN110018997B (zh) 一种基于hdfs的海量小文件存储优化方法
CN113655969B (zh) 一种基于流式分布式存储系统的数据均衡存储方法
CN105867998A (zh) 一种虚拟机集群部署算法
CN111741069B (zh) 基于sdn和nfv分层式数据中心资源优化方法和系统
CN109344009A (zh) 基于分级检查点的移动云系统容错方法
CN111796973A (zh) 一种面向数据中心存储故障的数据恢复调优方法
CN102799474A (zh) 一种基于可靠性驱动的云资源容错调度方法
CN115865912B (zh) 网络边缘在线服务功能链部署方法、系统和设备
CN116954905A (zh) 一种面向Flink大数据的任务编排与迁移方法
CN114116696B (zh) 云存储系统中考虑节点选择机制的故障节点数据重构方法
CN116431281A (zh) 一种基于鲸鱼优化算法的虚拟机迁移方法
CN115858250A (zh) 数据恢复方法、装置、存储介质及电子装置
CN102135980A (zh) 一种处理实时事务的方法及装置
CN116302481A (zh) 基于稀疏知识图谱链接预测的资源分配方法及系统
CN112052087B (zh) 动态资源调整与迁移的深度学习训练系统及方法
CN114090220B (zh) 一种分级cpu和内存资源调度方法
CN108717352B (zh) 一种提高计算机运算速度的并发筛选插入排序方法
CN115756945A (zh) 一种面向纠删码存储集群的懒惰预测修复方法
CN118227375A (zh) 一种基于机器学习的电力系统数据备份管理方法及系统
CN114564335A (zh) 基于条带合并的局部可修复码冗余度转换方法及存储介质
CN114064281A (zh) 一种基于BFD-VNS算法的低成本Spark执行器放置方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination