CN111475329B - 一种大数据应用平台下降低预测式纠删码修复的方法及装置 - Google Patents

一种大数据应用平台下降低预测式纠删码修复的方法及装置 Download PDF

Info

Publication number
CN111475329B
CN111475329B CN202010115247.3A CN202010115247A CN111475329B CN 111475329 B CN111475329 B CN 111475329B CN 202010115247 A CN202010115247 A CN 202010115247A CN 111475329 B CN111475329 B CN 111475329B
Authority
CN
China
Prior art keywords
data
disk
actual
blocks
faults
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010115247.3A
Other languages
English (en)
Other versions
CN111475329A (zh
Inventor
唐聃
张航
高燕
岳希
何磊
舒卫军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gansu Coal Trading Center Co.,Ltd.
Original Assignee
Chengdu University of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu University of Information Technology filed Critical Chengdu University of Information Technology
Priority to CN202010115247.3A priority Critical patent/CN111475329B/zh
Publication of CN111475329A publication Critical patent/CN111475329A/zh
Application granted granted Critical
Publication of CN111475329B publication Critical patent/CN111475329B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1008Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices
    • G06F11/1064Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices in cache or content addressable memories
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

本发明公开了一种大数据应用平台下降低预测式纠删码修复的方法及装置,其方法包括:利用磁盘预测模型分析出纠删码中即将出现故障的磁盘节点中的数据块和磁盘个数S,并将所述即将出现故障的磁盘节点划分到同一数据小组中;根据所述即将出现故障的磁盘个数S,通过为每个数据小组生成S个局部冗余块,同时更新全局冗余块的个数,生成预测式纠删码;在对所述预测式纠删码进行恢复时,确定实际出现故障的实际磁盘节点中的数据块和实际磁盘个数,并根据所述实际出现故障的实际磁盘个数和利用磁盘预测模型分析出的预测磁盘个数进行预测式纠删码修复。

Description

一种大数据应用平台下降低预测式纠删码修复的方法及装置
技术领域
本发明涉及计算机存储技术领域,特别涉及一种大数据应用平台下降低预测式纠删码修复的方法及装置。
背景技术
磁盘是当前分布式存储系统中最主要的故障来源,磁盘故障占所有故障的 78%。在1996年的时候,康博等公司提出了一套磁盘状态检测与预警系统的规范 SMART。SMART通过对磁盘硬件内的检测指令对硬盘的各个部件如马达、磁头、盘片等进行监控,并与所预设的安全值进行比较,一旦监控的值超出预设值,则发出警报。目前,有不少的研究工作在SMART数据集上建立各种预测模型,来提高故障预测的准确率。纠删码技术是通过算法将数据进行编码得到冗余数据,并将原始数据和冗余数据一起存储在分布式存储系统中。当分布式存储系统中某个节点失效数据丢失时,可以通过剩余节点的数据来恢复数原始数据,从而来达到容错的目的。目前,纠删码技术主要针对的是系统出错后,实现数据恢复,属于被动容错方式。随着大数据应用平台所使用的分布式存储系统的规模逐渐扩大,被动容错会增加系统的大量成本。
发明内容
为解决上述问题,本发明提供了一种大数据应用平台下降低预测式纠删码修复的方法及装置。
根据本发明实施例提供的一种大数据应用平台下降低预测式纠删码修复的方法,包括:
利用磁盘预测模型分析出纠删码中即将出现故障的磁盘节点中的数据块和磁盘个数S,并将所述即将出现故障的磁盘节点划分到同一数据小组中;
根据所述即将出现故障的磁盘个数S,通过为每个数据小组生成S个局部冗余块,同时更新全局冗余块的个数,生成预测式纠删码;
在对所述预测式纠删码进行恢复时,确定实际出现故障的实际磁盘节点中的数据块和实际磁盘个数,并根据所述实际出现故障的实际磁盘个数和利用磁盘预测模型分析出的预测磁盘个数进行预测式纠删码修复;
其中,所述S为正整数。
优选地,所述根据所述实际出现故障的实际磁盘个数和利用磁盘预测模型分析出的预测磁盘个数进行预测式纠删码修复包括:
当所述实际磁盘个数小于或等于所述预测磁盘个数时,则判断所述实际出现故障的一个或多个实际磁盘节点是否在同一数据小组中;
当判断实际出现故障的一个或多个实际磁盘节点在同一数据小组中,则读取所述数据小组中未出现故障的磁盘节点中的数据块和局部冗余块;
根据所述数据小组中未出现故障的磁盘节点中的数据块和局部冗余块,恢复所述出现故障的一个或多个实际磁盘节点。
优选地,所述根据所述实际出现故障的实际磁盘个数和利用磁盘预测模型分析出的预测磁盘个数进行预测式纠删码修复包括:
当所述实际磁盘个数小于或等于所述预测磁盘个数时,则判断所述实际出现故障的一个或多个实际磁盘节点是否在同一数据小组中;
当判断实际出现故障的一个或多个实际磁盘节点不在同一数据小组中,则读取所述每个数据小组中未出现故障的磁盘节点中的数据块和局部冗余块;
根据所述每个数据小组中未出现故障的磁盘节点中的数据块和局部冗余块,恢复出所述每个数据小组中出现故障的一个或多个实际磁盘节点。
优选地,所述根据所述实际出现故障的实际磁盘个数和利用磁盘预测模型分析出的预测磁盘个数进行预测式纠删码修复包括:
当所述实际磁盘个数大于所述预测磁盘个数时,则读取所有数据小组中未出现故障的磁盘节点中的数据块和全局冗余块;
根据所述所有数据小组中未出现故障的磁盘节点中的数据块和全局冗余块,恢复出所述出现故障的多个实际磁盘节点。
优选地,在生成预测式纠删码之后,还包括为每个数据小组生成的局部冗余块进行更新的操作步骤,其包括:
在生成预测式纠删码后,利用磁盘预测模型分析出纠删码中即将出现故障的磁盘节点中的磁盘个数N;
从数据条带的所有数据小组中选取与所述出现故障的磁盘节点就近的且未出现故障磁盘节点的一个数据小组作为基组,并将所述即将出现故障的一个或多个磁盘节点划分到所述基组中;
根据所述即将出现故障的磁盘个数N,通过为每个数据小组更新N个局部冗余块,同时更新全局冗余块的个数;
其中,所述N为正整数。
根据本发明实施例提供的一种大数据应用平台下降低预测式纠删码修复的装置,包括:
分析及划分模块,用于利用磁盘预测模型分析出纠删码中即将出现故障的磁盘节点中的数据块和磁盘个数S,并将所述即将出现故障的磁盘节点划分到同一数据小组中;
生成模块,用于根据所述即将出现故障的磁盘个数S,通过为每个数据小组生成S个局部冗余块,同时更新全局冗余块的个数,生成预测式纠删码;
恢复模块,用于在对所述预测式纠删码进行恢复时,确定实际出现故障的实际磁盘节点中的数据块和实际磁盘个数,并根据所述实际出现故障的实际磁盘个数和利用磁盘预测模型分析出的预测磁盘个数进行预测式纠删码修复;
其中,所述S为正整数。
优选地,所述恢复模块包括:
第一恢复单元,用于当所述实际磁盘个数小于或等于所述预测磁盘个数时,则判断所述实际出现故障的一个或多个实际磁盘节点是否在同一数据小组中,当判断实际出现故障的一个或多个实际磁盘节点在同一数据小组中,则读取所述数据小组中未出现故障的磁盘节点中的数据块和局部冗余块,以及根据所述数据小组中未出现故障的磁盘节点中的数据块和局部冗余块,恢复所述出现故障的一个或多个实际磁盘节点。
优选地,所述恢复模块包括:
第二恢复单元,用于当所述实际磁盘个数小于或等于所述预测磁盘个数时,则判断所述实际出现故障的一个或多个实际磁盘节点是否在同一数据小组中,当判断实际出现故障的一个或多个实际磁盘节点不在同一数据小组中,则读取所述每个数据小组中未出现故障的磁盘节点中的数据块和局部冗余块,以及根据所述每个数据小组中未出现故障的磁盘节点中的数据块和局部冗余块,恢复出所述每个数据小组中出现故障的一个或多个实际磁盘节点。
优选地,所述恢复模块包括:
第三恢复单元,用于当所述实际磁盘个数大于所述预测磁盘个数时,则读取所有数据小组中未出现故障的磁盘节点中的数据块和全局冗余块,以及根据所述所有数据小组中未出现故障的磁盘节点中的数据块和全局冗余块,恢复出所述出现故障的多个实际磁盘节点。
优选地,在生成预测式纠删码之后,还包括为每个数据小组生成的局部冗余块进行更新的操作步骤,其包括:
在生成预测式纠删码后,利用磁盘预测模型分析出纠删码中即将出现故障的磁盘节点中的磁盘个数N;
从数据条带的所有数据小组中选取与所述出现故障的磁盘节点就近的且未出现故障磁盘节点的一个数据小组作为基组,并将所述即将出现故障的一个或多个磁盘节点划分到所述基组中;
根据所述即将出现故障的磁盘个数N,通过为每个数据小组更新N个局部冗余块,同时更新全局冗余块的个数;
其中,所述N为正整数。
根据本发明实施例提供的方案,将磁盘的故障预测技术运用到纠删码技术上,根据预测的磁盘故障个数,来动态的调整局部修复码的生成冗余块个数,通过此方法可以在消耗相同存储空间的情况下,快速的修复丢失的数据,同时可以大幅的减少大数据应用平台的修复成本。此外可预测纠删码编码简单,计算复杂度低,可以很好的提高大数据应用平台的存储效率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于理解本发明,并不构成对本发明的不当限定。
在附图中:
图1是现有技术提供的局部纠删码编码示意图;
图2是本发明实施例提供的一种大数据应用平台下降低预测式纠删码修复的方法流程图;
图3是本发明实施例提供的一种大数据应用平台下降低预测式纠删码修复的装置示意图;
图4是本发明实施例提供的预测式纠删码编码示意图;
图5是本发明实施例提供的预测式纠删码更新冗余块的示意图;
图6是本发明实施例提供的预测式纠删码解码一的示意图;
图7是本发明实施例提供的预测式纠删码解码二的示意图;
图8是本发明实施例提供的预测式纠删码解码三的示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行详细说明,应当理解,以下所说明的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
图2是本发明实施例提供的一种大数据应用平台下降低预测式纠删码修复的方法流程图,如图2所示,包括:
利用磁盘预测模型分析出纠删码中即将出现故障的磁盘节点中的数据块和磁盘个数S,并将所述即将出现故障的磁盘节点划分到同一数据小组中;
根据所述即将出现故障的磁盘个数S,通过为每个数据小组生成S个局部冗余块,同时更新全局冗余块的个数,生成预测式纠删码;
在对所述预测式纠删码进行恢复时,确定实际出现故障的实际磁盘节点中的数据块和实际磁盘个数,并根据所述实际出现故障的实际磁盘个数和利用磁盘预测模型分析出的预测磁盘个数进行预测式纠删码修复;
其中,所述S为正整数。
优选地,所述根据所述实际出现故障的实际磁盘个数和利用磁盘预测模型分析出的预测磁盘个数进行预测式纠删码修复包括:当所述实际磁盘个数小于或等于所述预测磁盘个数时,则判断所述实际出现故障的一个或多个实际磁盘节点是否在同一数据小组中;当判断实际出现故障的一个或多个实际磁盘节点在同一数据小组中,则读取所述数据小组中未出现故障的磁盘节点中的数据块和局部冗余块;根据所述数据小组中未出现故障的磁盘节点中的数据块和局部冗余块,恢复所述出现故障的一个或多个实际磁盘节点。
优选地,所述根据所述实际出现故障的实际磁盘个数和利用磁盘预测模型分析出的预测磁盘个数进行预测式纠删码修复包括:当所述实际磁盘个数小于或等于所述预测磁盘个数时,则判断所述实际出现故障的一个或多个实际磁盘节点是否在同一数据小组中;当判断实际出现故障的一个或多个实际磁盘节点不在同一数据小组中,则读取所述每个数据小组中未出现故障的磁盘节点中的数据块和局部冗余块;根据所述每个数据小组中未出现故障的磁盘节点中的数据块和局部冗余块,恢复出所述每个数据小组中出现故障的一个或多个实际磁盘节点。
优选地,所述根据所述实际出现故障的实际磁盘个数和利用磁盘预测模型分析出的预测磁盘个数进行预测式纠删码修复包括:当所述实际磁盘个数大于所述预测磁盘个数时,则读取所有数据小组中未出现故障的磁盘节点中的数据块和全局冗余块;根据所述所有数据小组中未出现故障的磁盘节点中的数据块和全局冗余块,恢复出所述出现故障的多个实际磁盘节点。
优选地,在生成预测式纠删码之后,还包括为每个数据小组生成的局部冗余块进行更新的操作步骤,其包括:在生成预测式纠删码后,利用磁盘预测模型分析出纠删码中即将出现故障的磁盘节点中的数据块和磁盘个数N;从数据条带的所有数据小组中选取与所述出现故障的磁盘节点就近的且未出现故障磁盘节点的一个数据小组作为基组,并将所述即将出现故障的一个或多个磁盘节点划分到所述基组中;根据所述即将出现故障的磁盘个数N,通过为每个数据小组更新N 个局部冗余块,同时更新全局冗余块的个数;其中,所述N为正整数。
图3是本发明实施例提供的一种大数据应用平台下降低预测式纠删码修复的装置示意图,如图3所示,包括:分析及划分模块,用于利用磁盘预测模型分析出纠删码中即将出现故障的磁盘节点中的数据块和磁盘个数S,并将所述即将出现故障的磁盘节点划分到同一数据小组中;生成模块,用于根据所述即将出现故障的磁盘个数S,通过为每个数据小组生成S个局部冗余块,同时更新全局冗余块的个数,生成预测式纠删码;恢复模块,用于在对所述预测式纠删码进行恢复时,确定实际出现故障的实际磁盘节点中的数据块和实际磁盘个数,并根据所述实际出现故障的实际磁盘个数和利用磁盘预测模型分析出的预测磁盘个数进行预测式纠删码修复;其中,所述S为正整数。
优选地,所述恢复模块包括:第一恢复单元,用于当所述实际磁盘个数小于或等于所述预测磁盘个数时,则判断所述实际出现故障的一个或多个实际磁盘节点是否在同一数据小组中,当判断实际出现故障的一个或多个实际磁盘节点在同一数据小组中,则读取所述数据小组中未出现故障的磁盘节点中的数据块和局部冗余块,以及根据所述数据小组中未出现故障的磁盘节点中的数据块和局部冗余块,恢复所述出现故障的一个或多个实际磁盘节点。
优选地,所述恢复模块包括:第二恢复单元,用于当所述实际磁盘个数小于或等于所述预测磁盘个数时,则判断所述实际出现故障的一个或多个实际磁盘节点是否在同一数据小组中,当判断实际出现故障的一个或多个实际磁盘节点不在同一数据小组中,则读取所述每个数据小组中未出现故障的磁盘节点中的数据块和局部冗余块,以及根据所述每个数据小组中未出现故障的磁盘节点中的数据块和局部冗余块,恢复出所述每个数据小组中出现故障的一个或多个实际磁盘节点。
优选地,所述恢复模块包括:第三恢复单元,用于当所述实际磁盘个数大于所述预测磁盘个数时,则读取所有数据小组中未出现故障的磁盘节点中的数据块和全局冗余块,以及根据所述所有数据小组中未出现故障的磁盘节点中的数据块和全局冗余块,恢复出所述出现故障的多个实际磁盘节点。
优选地,在生成预测式纠删码之后,还包括为每个数据小组生成的局部冗余块进行更新的操作步骤,其包括:在生成预测式纠删码后,利用磁盘预测模型分析出纠删码中即将出现故障的磁盘节点中的磁盘个数N;从数据条带的所有数据小组中选取与所述出现故障的磁盘节点就近的且未出现故障磁盘节点的一个数据小组作为基组,并将所述即将出现故障的一个或多个磁盘节点划分到所述基组中;根据所述即将出现故障的磁盘个数N,通过为每个数据小组更新N个局部冗余块,同时更新全局冗余块的个数;其中,所述N为正整数。
一、一个数据编码方法。目前支持向量积的磁盘故障的预测性能达到33,2%,马尔科夫模型的预测性能可以达到52%,决策树模型的预测性能可以达到93%,人工神经网络模型的预测性能可以达到95%。选取人工神经网络作为磁盘预测技术的模型。收集分布式存储系统各节点的SMART信息作为数据集,以人工神经网络模型分析即将出故障的磁盘个数,记为S。预测式纠删码以RS码的编码结构为基础进行改进。首先按照RS的编码结构生成m个全局冗余块,同时将条带分成L个组,记为Li,i=1,2,…,n,每个小组包含j个数据块。将预测出的即将出现故障的磁盘划分到同一小组,同时为每个小组生成S个局部冗余块。S个局部冗余块生成规则和全局冗余块计算方式一样,只不过将其它数据块置0。m个全局冗余块根据局部冗余块个数相应的减少,其保留个数为m0=m-S。
二、一个数据解码方法。预测式纠删码的解码分为三个不同的解码过程。
步骤1、当实际磁盘故障个数小于或者等于预测的磁盘故障个数,且故障盘都在同一个小组内时。读取该小组内前j个未失效的块数据,记为C,按照公式 D=G-1×C(其中G-1为剩余编码矩阵的逆矩阵)恢复出失效的数据。
步骤2、当实际磁盘故障个数小于或者等于预测的磁盘故障个数,且故障盘不在同一个小组内时。分别读取包含磁盘故障组内前j个未失效的块数据组成数据集,记为A={Li,i=1,2,…,n},n≤s。按照数据块存放位置顺序对应的小组顺序,依次读取A集合中的数据集按照公式D=G-1×C(其中G-1为剩余编码矩阵的逆矩阵)恢复出失效的数据。
步骤3、当实际磁盘故障个数大于预测的磁盘故障个数时,采用全局解码形式。读取每个小组内的冗余块计算出全局冗余块。当全局冗余块个数达到m个时,全局冗余块组合完毕。假设一个条带内的数据块个数为k个,按照条带顺序读取条带内未失效的数据块和全局冗余块,组合成块个数为k个的数据集合。数据集合按照D=G-1×C,恢复出原始数据
三、一个冗余块更新方法。基于预测式纠删码的编码策略,会需要对大量的局部冗余块进行更新,将耗费大量的传输成本。因此设计一种冗余块更新方法来降低其更新带来的开销。当局部修复码编码完成后,运行人工神经网络模型来预测磁盘故障个数后,需要更新局部冗余块。首先利用就近原则,将故障磁盘所在的其中一个小组作为基组,其中基组的选定方式为所在组距离其它故障磁盘小组原理上移动距离最短。将所有故障磁盘移动到到基组,基组多余的数据块移动到相应的磁盘故障组。
实施例一
图1为局部纠删码的编码结构。其中D1,D2,…D8为8个数据块,R1,R2,R3为按照RS码冗余块生成方式生成的全局冗余块。将条带分成两组,其中 D1,D2,D3,D4为一组,D5,D6,D7,D8为一组。分别为两组生成局部冗余块L1,L2.
图4为预测式纠删码的结构图。假设根据人工神经网络模型预测出分布式存储系统中即将出现故障的磁盘个数为S=2,且D1,D2为即将故障的磁盘节点。根据s=2的个数为每个小组生成相应的局部冗余块个数。L1,L2为第一个小组生成的局部冗余块。L3,L4为第二组冗余块生成的局部冗余块。根据数据编码方式中的介绍,全局冗余块根据S的个数相应的减少,因S=2.,则全局冗余块保留个数为m0=m-S=1个,图中R1为保留的全局冗余块。
假设根据人工神经网络模型预测出分布式存储系统中即将出现故障的磁盘个数为S=3,且D1,D2,D5为即将故障的磁盘节点。根据s=3的个数为每个小组生成相应的局部冗余块个数。L1,L2,L3为第一个小组生成的局部冗余块。L4,L5,L6为第二组冗余块生成的局部冗余块。根据数据编码方式中的介绍,全局冗余块根据S的个数相应的减少,因S=2,则全局冗余块保留个数为m0=m-S=0个,不生成全局冗余块。
实施例二
图5为本发明提供的冗余块更新方法示意图。如图5所示,详细情况如下:
假设人工神经网络模型预测出分布式存储系统中即将出现故障的磁盘个数为S=2,且为D1,D4。图中条带分为四个小组,每个小组生成了2个局部冗余块。根据冗余块更新方法中提到的就近原则,选取第3个小组为基组,将D1,D4移动到第三小组。将D7,D8分别移动到第1个小组和第2个小组,根据移动后的小组情况,重新编码计算出局部冗余块。这样保证数据传输过程中时间较少,不会占用大量的带宽时间。
实施例三
图6为本发明提供的解码步骤1示意图。详细情况如下:
假设根据磁盘预测技术,预测出的磁盘故障为2个,则每个小组生成2个局部冗余块。根据解码过程1的步骤,图6中出错磁盘1个,小于预测的磁盘故障个数,且故障盘都在同一个小组内。读取数据块D2,D3,D4和局部冗余块L1恢复故障磁盘中的数据块D1
实施例四
图7为本发明提供的解码步骤2示意图。详细情况如下:
假设根据磁盘预测技术,预测出的磁盘故障为2个,则每个小组生成2个局部冗余块。根据解码过程2的步骤,图7中出错磁盘2个,等于预测的磁盘故障个数,且故障盘不在同一个小组内。读取数据块D2,D3,D4和局部冗余块L1,数据块D5,D7,D8和局部冗余块L3组成数据集A。按照编码小组的顺序,读取数据集中的数据依次恢复故障磁盘中的数据块D1和D6
实施例五
图8为本发明提供的解码步骤3示意图。详细情况如下:
假设根据磁盘预测技术,预测出的磁盘故障为2个,则每个小组生成2个局部冗余块。根据解码过程3的步骤,图8中出错磁盘3个,大于预测的磁盘故障个数。读取数据块D4,D5,D6,D7,D8和全局冗余块R1,来恢复故障磁盘中的数据块D1,D2和D3
综上所述,通过人工神经网络模型将磁盘的故障预技术运用到纠删码当中,提出一种可预测式纠删码。可以根据大数据应用平台所使用服务器中的磁盘的故障个数来生成局部冗余块个数,减少了存储开销,同时提出的冗余块更新方法可以保证较少的时间把故障磁盘移动到同一小组,使得在小组内解码就可以恢复出原始数据,大幅度的减少大数据应用平台在数据丢失恢复时的修复开销。
根据本发明实施例提供的方案,该纠删码是将磁盘的故障预测技术运用到自身领域,通过对大数据应用平台所使用服务器中的磁盘进行故障预测,把预测出的故障盘个数作为动态划分参数,根据参数来动态的对纠删码的编码结构进行调整,对纠删码条带进行分组,使得组内的局部冗余块个数等于动态划分参数。能将磁盘的故障预测技术融入到纠删码中实现主动容错,可以降低大量的系统成本,增加系统的可靠性。
尽管上文对本发明进行了详细说明,但是本发明不限于此,本技术领域技术人员可以根据本发明的原理进行各种修改。因此,凡按照本发明原理所作的修改,都应当理解为落入本发明的保护范围。

Claims (8)

1.一种大数据应用平台下降低预测式纠删码修复的方法,其特征在于,包括:
利用磁盘预测模型分析出纠删码中即将出现故障的磁盘节点中的数据块和磁盘个数S,并将所述即将出现故障的磁盘节点划分到同一数据小组中;
根据所述即将出现故障的磁盘个数S,通过为每个数据小组生成S个局部冗余块,同时更新全局冗余块的个数,生成预测式纠删码;
在对所述预测式纠删码进行恢复时,确定实际出现故障的实际磁盘节点中的数据块和实际磁盘个数,当所述实际磁盘个数小于或等于所述预测磁盘个数时,则判断所述实际出现故障的一个或多个实际磁盘节点是否在同一数据小组中;
当判断实际出现故障的一个或多个实际磁盘节点不在同一数据小组中,则读取所述每个数据小组中未出现故障的磁盘节点中的数据块和局部冗余块,并根据所述每个数据小组中未出现故障的磁盘节点中的数据块和局部冗余块,恢复出所述每个数据小组中出现故障的一个或多个实际磁盘节点;
其中,所述S为正整数。
2.根据权利要求1所述的方法,其特征在于,所述根据所述实际出现故障的实际磁盘个数和利用磁盘预测模型分析出的预测磁盘个数进行预测式纠删码修复包括:
当所述实际磁盘个数小于或等于所述预测磁盘个数时,则判断所述实际出现故障的一个或多个实际磁盘节点是否在同一数据小组中;
当判断实际出现故障的一个或多个实际磁盘节点在同一数据小组中,则读取所述数据小组中未出现故障的磁盘节点中的数据块和局部冗余块;
根据所述数据小组中未出现故障的磁盘节点中的数据块和局部冗余块,恢复所述出现故障的一个或多个实际磁盘节点。
3.根据权利要求1所述的方法,其特征在于,所述根据所述实际出现故障的实际磁盘个数和利用磁盘预测模型分析出的预测磁盘个数进行预测式纠删码修复包括:
当所述实际磁盘个数大于所述预测磁盘个数时,则读取所有数据小组中未出现故障的磁盘节点中的数据块和全局冗余块;
根据所述所有数据小组中未出现故障的磁盘节点中的数据块和全局冗余块,恢复出所述出现故障的多个实际磁盘节点。
4.根据权利要求1-3任一所述的方法,其特征在于,在生成预测式纠删码之后,还包括为每个数据小组生成的局部冗余块进行更新的操作步骤,其包括:
在生成预测式纠删码后,利用磁盘预测模型分析出纠删码中即将出现故障的磁盘节点中的磁盘个数N;
从数据条带的所有数据小组中选取与所述出现故障的磁盘节点就近的且未出现故障磁盘节点的一个数据小组作为基组,并将所述即将出现故障的一个或多个磁盘节点划分到所述基组中;
根据所述即将出现故障的磁盘个数N,通过为每个数据小组更新N个局部冗余块,同时更新全局冗余块的个数;
其中,所述N为正整数。
5.一种大数据应用平台下降低预测式纠删码修复的装置,其特征在于,包括:
分析及划分模块,用于利用磁盘预测模型分析出纠删码中即将出现故障的磁盘节点中的数据块和磁盘个数S,并将所述即将出现故障的磁盘节点划分到同一数据小组中;
生成模块,用于根据所述即将出现故障的磁盘个数S,通过为每个数据小组生成S个局部冗余块,同时更新全局冗余块的个数,生成预测式纠删码;
恢复模块,用于在对所述预测式纠删码进行恢复时,确定实际出现故障的实际磁盘节点中的数据块和实际磁盘个数,当所述实际磁盘个数小于或等于所述预测磁盘个数时,则判断所述实际出现故障的一个或多个实际磁盘节点是否在同一数据小组中,当判断实际出现故障的一个或多个实际磁盘节点不在同一数据小组中,则读取所述每个数据小组中未出现故障的磁盘节点中的数据块和局部冗余块,以及根据所述每个数据小组中未出现故障的磁盘节点中的数据块和局部冗余块,恢复出所述每个数据小组中出现故障的一个或多个实际磁盘节点;
其中,所述S为正整数。
6.根据权利要求5所述的装置,其特征在于,所述恢复模块包括:
第一恢复单元,用于当所述实际磁盘个数小于或等于所述预测磁盘个数时,则判断所述实际出现故障的一个或多个实际磁盘节点是否在同一数据小组中,当判断实际出现故障的一个或多个实际磁盘节点在同一数据小组中,则读取所述数据小组中未出现故障的磁盘节点中的数据块和局部冗余块,以及根据所述数据小组中未出现故障的磁盘节点中的数据块和局部冗余块,恢复所述出现故障的一个或多个实际磁盘节点。
7.根据权利要求5所述的装置,其特征在于,所述恢复模块包括:
第三恢复单元,用于当所述实际磁盘个数大于所述预测磁盘个数时,则读取所有数据小组中未出现故障的磁盘节点中的数据块和全局冗余块,以及根据所述所有数据小组中未出现故障的磁盘节点中的数据块和全局冗余块,恢复出所述出现故障的多个实际磁盘节点。
8.根据权利要求5-7任一所述的装置,其特征在于,在生成预测式纠删码之后,还包括为每个数据小组生成的局部冗余块进行更新的操作步骤,其包括:
在生成预测式纠删码后,利用磁盘预测模型分析出纠删码中即将出现故障的磁盘节点中的磁盘个数N;
从数据条带的所有数据小组中选取与所述出现故障的磁盘节点就近的且未出现故障磁盘节点的一个数据小组作为基组,并将所述即将出现故障的一个或多个磁盘节点划分到所述基组中;
根据所述即将出现故障的磁盘个数N,通过为每个数据小组更新N个局部冗余块,同时更新全局冗余块的个数;
其中,所述N为正整数。
CN202010115247.3A 2020-02-25 2020-02-25 一种大数据应用平台下降低预测式纠删码修复的方法及装置 Active CN111475329B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010115247.3A CN111475329B (zh) 2020-02-25 2020-02-25 一种大数据应用平台下降低预测式纠删码修复的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010115247.3A CN111475329B (zh) 2020-02-25 2020-02-25 一种大数据应用平台下降低预测式纠删码修复的方法及装置

Publications (2)

Publication Number Publication Date
CN111475329A CN111475329A (zh) 2020-07-31
CN111475329B true CN111475329B (zh) 2023-07-18

Family

ID=71747051

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010115247.3A Active CN111475329B (zh) 2020-02-25 2020-02-25 一种大数据应用平台下降低预测式纠删码修复的方法及装置

Country Status (1)

Country Link
CN (1) CN111475329B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112835743B (zh) * 2021-01-25 2023-12-19 中央财经大学 分布式账本数据存储优化方法、装置、电子设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107544862A (zh) * 2016-06-29 2018-01-05 中兴通讯股份有限公司 一种基于纠删码的存储数据重构方法和装置、存储节点
CN108228382A (zh) * 2018-01-11 2018-06-29 成都信息工程大学 一种针对evenodd码单盘故障的数据恢复方法
CN109658975A (zh) * 2018-11-02 2019-04-19 北京大学 一种面向纠删码的主动数据修复方法及系统
US10454498B1 (en) * 2018-10-18 2019-10-22 Pure Storage, Inc. Fully pipelined hardware engine design for fast and efficient inline lossless data compression

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107544862A (zh) * 2016-06-29 2018-01-05 中兴通讯股份有限公司 一种基于纠删码的存储数据重构方法和装置、存储节点
CN108228382A (zh) * 2018-01-11 2018-06-29 成都信息工程大学 一种针对evenodd码单盘故障的数据恢复方法
US10454498B1 (en) * 2018-10-18 2019-10-22 Pure Storage, Inc. Fully pipelined hardware engine design for fast and efficient inline lossless data compression
CN109658975A (zh) * 2018-11-02 2019-04-19 北京大学 一种面向纠删码的主动数据修复方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Research on Multi-fault-tolerant MDS Array Erasure code;Wei yan等;《 Journal of Physics》;20191231;第1237卷(第2期);1-10 *
基于多斜率码链的阵列纠删码;唐聃等;《计算机应用》;20170410;第37卷(第4期);936-940 *
基于局部重构码的RS编码算法研究;李硕等;《有线电视技术》;20151015(第10期);49-51 *
面向强一致性的分布式对象存储的I/O并行性优化;史骁等;《高技术通讯》;20200215(第02期);109-119 *

Also Published As

Publication number Publication date
CN111475329A (zh) 2020-07-31

Similar Documents

Publication Publication Date Title
US9280416B1 (en) Selection of erasure code parameters for no data repair
US10725884B2 (en) Object storage system for an unreliable storage medium
CN108540520B (zh) 基于部分重复码的局部性修复编码及节点故障修复方法
US9582363B2 (en) Failure domain based storage system data stripe layout
US8433849B2 (en) Hierarchical, distributed object storage system
US7925927B2 (en) Simulator for determining data loss in a fault tolerant system
US7640452B2 (en) Method for reconstructing data in case of two disk drives of RAID failure and system therefor
CN110442535B (zh) 提高分布式固态盘键值缓存系统可靠性的方法及系统
KR102592121B1 (ko) 분산 저장 시스템에서 엑스에프 소거 코드를 구현하기 위한 장치 및 방법
JPH09305328A (ja) ディスクアレイ装置
Wang et al. MDR codes: A new class of RAID-6 codes with optimal rebuilding and encoding
CN101960429B (zh) 视频媒体数据存储系统以及相关方法
US20120198195A1 (en) Data storage system and method
CN112000512B (zh) 一种数据修复方法及相关装置
CN111475329B (zh) 一种大数据应用平台下降低预测式纠删码修复的方法及装置
CN112835738A (zh) 一种条带数据存储结构及其构建、修复和更新方法
CN111459710A (zh) 感知热度与风险的纠删码内存恢复方法、设备及内存系统
US20030163757A1 (en) RAID subsystem and data input/output and recovery method in disk error mode
Arslan et al. A data-assisted reliability model for carrier-assisted cold data storage systems
US8443264B2 (en) Disk array apparatus, a disk array apparatus control method and a program for a disk array apparatus
Arslan Durability and availability of erasure-coded storage systems with concurrent maintenance
CN113157715A (zh) 纠删码数据中心机架协同更新方法
CN112463435A (zh) 一种基于数据块访问频度的局部修复方法
CN112860476A (zh) 一种基于视频分层存储的近似纠删码编码方法及装置
Prousalis et al. QuCirDET: A design and simulation tool for quantum circuits

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Tang Dan

Inventor after: Zhang Hang

Inventor after: Gao Yan

Inventor after: Yue Xi

Inventor after: He Lei

Inventor after: Shu Weijun

Inventor before: Gao Yan

Inventor before: Zhang Hang

Inventor before: Tang Dan

Inventor before: Yue Xi

Inventor before: He Lei

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240307

Address after: 230000 B-1015, wo Yuan Garden, 81 Ganquan Road, Shushan District, Hefei, Anhui.

Patentee after: HEFEI MINGLONG ELECTRONIC TECHNOLOGY Co.,Ltd.

Country or region after: Zhong Guo

Address before: No.24, Section 1, Xuefu Road, Southwest Airport Economic Development Zone, Chengdu, Sichuan 610000

Patentee before: CHENGDU University OF INFORMATION TECHNOLOGY

Country or region before: Zhong Guo

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240320

Address after: 730000, No. 388 Yantan Road, Chengguan District, Lanzhou City, Gansu Province

Patentee after: Gansu Coal Trading Center Co.,Ltd.

Country or region after: Zhong Guo

Address before: 230000 B-1015, wo Yuan Garden, 81 Ganquan Road, Shushan District, Hefei, Anhui.

Patentee before: HEFEI MINGLONG ELECTRONIC TECHNOLOGY Co.,Ltd.

Country or region before: Zhong Guo

TR01 Transfer of patent right