CN108121620A - 分布式文件系统的修复方法及系统和服务器 - Google Patents

分布式文件系统的修复方法及系统和服务器 Download PDF

Info

Publication number
CN108121620A
CN108121620A CN201711416751.1A CN201711416751A CN108121620A CN 108121620 A CN108121620 A CN 108121620A CN 201711416751 A CN201711416751 A CN 201711416751A CN 108121620 A CN108121620 A CN 108121620A
Authority
CN
China
Prior art keywords
hard disk
configuration file
distributed file
file system
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711416751.1A
Other languages
English (en)
Inventor
刘晶晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201711416751.1A priority Critical patent/CN108121620A/zh
Publication of CN108121620A publication Critical patent/CN108121620A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/142Reconfiguring to eliminate the error
    • G06F11/1423Reconfiguring to eliminate the error by reconfiguration of paths

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种分布式文件系统的修复方法,该方法包括:在硬盘出现异常的情况下,获取分布式文件系统的配置文件;在配置文件中删除硬盘与挂载有硬盘的目录的映射关系;以及在配置文件中添加硬盘的备用硬盘与目录的映射关系。本公开还提供了一种分布式文件系统的修复系统、一种服务器、一种计算机程序以及一种非易失性存储介质。

Description

分布式文件系统的修复方法及系统和服务器
技术领域
本公开涉及一种分布式文件系统的修复方法及系统和服务器。
背景技术
目前以Hadoop分布式文件系统(Hadoop Distributed File System,简称为HDFS)作为存储媒介的平台,长时间进行读写操作后,经常会出现硬盘坏掉的情况。当某块硬盘坏掉之后,整个HDFS就会处于异常状态。针对HDFS异常,现有的解决方案是发现硬盘坏掉后,手动修改HDFS的配置文件,以屏蔽对该硬盘的读写操作。
然而,在实现本公开构思的过程中,发明人发现现有技术至少存在以下缺陷:HDFS修复需要人工参与,容易出错。
针对上述问题,目前相关技术中尚未给出有效的解决方案。
发明内容
本公开的一个方面提供了一种分布式文件系统的修复方法,包括:在硬盘出现异常的情况下,获取上述分布式文件系统的配置文件;在上述配置文件中删除上述硬盘与挂载有上述硬盘的目录的映射关系;以及在上述配置文件中添加上述硬盘的备用硬盘与上述目录的映射关系。
可选地,上述方法还包括在上述硬盘出现异常的情况下,控制服务器上的数据节点停止运行,其中,上述服务器使用上述硬盘作为上述数据节点的物理存储器,上述数据节点用于作为上述分布式文件系统的一个存储块。
可选地,上述方法还包括:获取上述数据节点的任意一个副本;以及将上述副本中的存储内容复制到上述备用硬盘中。
可选地,上述方法还包括:检测上述硬盘是否出现异常;以及在检测到上述硬盘出现异常的情况下,获取上述分布式文件系统的配置文件并修改上述配置文件中的相关配置。
可选地,上述方法还包括:在检测到上述硬盘出现异常的情况下,生成对应的告警信息和/或提醒信息;以及将上述告警信息和/或上述提醒信息上传给管理服务器,以触发上述管理服务器获取上述分布式文件系统的配置文件并修改上述配置文件中的相关配置。
本公开的另一个方面提供了一种分布式文件系统的修复系统,包括:第一获取模块,用于在硬盘出现异常的情况下,获取上述分布式文件系统的配置文件;删除模块,用于在上述配置文件中删除上述硬盘与挂载有上述硬盘的目录的映射关系;以及添加模块,用于在上述配置文件中添加上述硬盘的备用硬盘与上述目录的映射关系。
可选地,上述系统还包括:控制模块,用于在上述硬盘出现异常的情况下,控制服务器上的数据节点停止运行,其中,上述服务器使用上述硬盘作为上述数据节点的物理存储器,上述数据节点用于作为上述分布式文件系统的一个存储块。
可选地,上述系统还包括:第二获取模块,用于获取上述数据节点的任意一个副本;以及复制模块,用于将上述副本中的存储内容复制到上述备用硬盘中。
可选地,上述系统还包括:检测模块,用于检测上述硬盘是否出现异常;以及第三获取模块,用于在检测到上述硬盘出现异常的情况下,获取上述分布式文件系统的配置文件并修改上述配置文件中的相关配置;和/或上述系统还包括:生成模块,用于在检测到上述硬盘出现异常的情况下,生成对应的告警信息和/或提醒信息;以及上传模块,用于将上述告警信息和/或上述提醒信息上传给管理服务器,以触发上述管理服务器获取上述分布式文件系统的配置文件并修改上述配置文件中的相关配置。
本公开的另一方面提供了一种服务器,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如上任一项所述的分布式文件系统的修复方法。
本公开的另一方面提供了一种非易失性存储介质,存储有计算机可执行指令,上述指令在被执行时用于实现如上所述的方法。
本公开的另一方面提供了一种计算机程序,上述计算机程序包括计算机可执行指令,上述指令在被执行时用于实现如上所述的方法。
附图说明
为了更完整地理解本公开及其优势,现在将参考结合附图的以下描述,其中:
图1示意性示出了根据本公开实施例的分布式文件系统的修复方法及系统的应用场景;
图2示意性示出了根据本公开实施例的分布式文件系统的修复方法的流程图;
图3A示意性示出了根据本公开另一实施例的分布式文件系统的修复方法的流程图;
图3B示意性示出了根据本公开另一实施例的分布式文件系统的修复方法的流程图;
图3C示意性示出了根据本公开另一实施例的分布式文件系统的修复方法的流程图;
图3D示意性示出了根据本公开实施例的获取分布式文件系统的配置文件并修改配置文件中的相关配置的流程图;
图4示意性示出了根据本公开实施例的分布式文件系统的修复系统的框图;
图5A示意性示出了根据本公开另一实施例的分布式文件系统的修复系统的框图;
图5B示意性示出了根据本公开另一实施例的分布式文件系统的修复系统的框图;以及
图6示意性示出了根据本公开实施例的服务器的框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。本领域技术人员还应理解,实质上任意表示两个或更多可选项目的转折连词和/或短语,无论是在说明书、权利要求书还是附图中,都应被理解为给出了包括这些项目之一、这些项目任一方、或两个项目的可能性。例如,短语“A或B”应当被理解为包括“A”或“B”、或“A和B”的可能性。
附图中示出了一些方框图和/或流程图。应理解,方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。
因此,本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外,本公开的技术可以采取存储有指令的计算机可读介质上的计算机程序产品的形式,该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。在本公开的上下文中,计算机可读介质可以是能够包含、存储、传送、传播或传输指令的任意介质。例如,计算机可读介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。计算机可读介质的具体示例包括:磁存储装置,如磁带或硬盘(HDD);光存储装置,如光盘(CD-ROM);存储器,如随机存取存储器(RAM)或闪存;和/或有线/无线通信链路。
本公开的实施例提供了一种分布式文件系统的修复方法以及能够应用该方法的分布式文件系统的修复系统。该方法包括在硬盘出现异常的情况下,获取分布式文件系统的配置文件;在配置文件中删除硬盘与挂载有硬盘的目录的映射关系;以及在配置文件中添加硬盘的备用硬盘与目录的映射关系。
图1示意性示出了根据本公开实施例的分布式文件系统的修复方法及系统的应用场景。需要注意的是,图1所示仅为可以应用本公开实施例的场景的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
目前以HDFS作为存储媒介的平台,长时间进行读写操作后,经常会出现硬盘坏掉的情况。当某块硬盘坏掉之后,整个HDFS就会处于异常状态。如图1所示,整个HDFS系统将由数百或数千个存储着文件数据片断的服务器组成,每个服务器作为一个存储块,充当数据节点(DataNode)。实际上它里面有非常巨大的组成部分,每一个组成部分都很可能出现故障,这就意味着HDFS里的总是有一些部件是失效的。
针对HDFS异常,现有的解决方案是发现硬盘坏掉后,手动修改HDFS的配置文件,以屏蔽对该硬盘的读写操作。
然而,在实现本公开构思的过程中,发明人发现现有技术至少存在以下缺陷:HDFS修复需要人工参与,容易出错。
针对如图1所示的应用场景,本公开实施例提供的HDFS修复方案是:在每个DataNode上至少设置两块硬盘,以设置两块硬盘(分为主硬盘和副硬盘)为例,正常情况下主硬盘工作,副硬盘是一块冗余硬盘,并不工作,只有在主硬盘故障的情况下,才停止主硬盘,并启用副硬盘。可见,在本方案中副硬盘是作为主硬盘的备用硬盘使用的。
此外,本公开还设置了监控机制,用于监控各DataNode是否出现硬盘故障,并在监控到硬盘出现故障时启动HDFS流程对HDFS进行修复。
图2示意性示出了根据本公开实施例的分布式文件系统的修复方法的流程图。
如图2所示,该方法包括操作S201~S203,其中:
在操作S201,在硬盘出现异常的情况下,获取分布式文件系统的配置文件;
在操作S202,在配置文件中删除硬盘与挂载有硬盘的目录的映射关系;以及
在操作S203,在配置文件中添加硬盘的备用硬盘与目录的映射关系。
由于HDFS的配置文件中一般会配置HDFS架构中各DataNode的硬盘与挂载有该硬盘的目录的映射关系,因此,在硬盘出现异常的情况下,比如硬盘故障时,系统可以自动修改配置文件中记录的硬盘与目录的映射关系,将故障硬盘与其对应的目录之间的映射关系删除,同时添加该故障硬盘的备用硬盘和与故障硬盘具有映射关系的目录之间的映射关系,这样,备用硬盘就可以代替故障硬盘挂载在对应的目录下,实现相关的HDFS功能。
具体地,可以通过硬盘监控机制监控各DataNode上的硬盘,在发现HDFS架构中任一硬盘出现异常时,都可以启动HDFS流程,即获取分布式文件系统的配置文件;并在配置文件中删除硬盘与挂载有硬盘的目录的映射关系;同时在配置文件中添加硬盘的备用硬盘与目录的映射关系,从而实现自动修复HDFS的目的,HDFS自动修复后,启动对应的DataNode,以保证HDFS处于可用状态。
与现有技术中HDFS修复需要人工参与即手动去修改HDFS的配置文件来屏蔽对故障硬盘的读写操作,容易出错相比,通过本公开实施例,在硬盘出现异常时,可以自动修复HDFS,无需人工参与,出错率可以显著降低。
需要说明的是,在本公开实施例中,备用硬盘在正常情况下是不挂载在任何目录上的,只有主硬盘故障时才会将备用硬盘挂载在原本挂载主硬盘的目录上,同时使主硬盘不再挂载在该目录上。
下面参考图3A~图3D,结合具体实施例对图2所示的方法做进一步说明。
图3A示意性示出了根据本公开另一实施例的分布式文件系统的修复方法的流程图。
作为一种可选的实施例,如图3A所示,上述方法还包括:
在操作S204,在硬盘出现异常的情况下,控制服务器上的数据节点停止运行,其中,服务器使用硬盘作为数据节点的物理存储器,数据节点用于作为分布式文件系统的一个存储块。
在HDFS架构中,对于任一DataNode而言,只要它处于运行状态,DataNode就可能将来自客户端的数据请求分配给该DataNode处理,基于此,如果硬盘故障的DataNode不被停止运行,而NameNode又恰巧将来自客户端的数据请求分配给了该硬盘故障的DataNode,则该数据请求就会响应失败。
此外,由于DataNode一般存在多个副本,在某个DataNode的物理存储器(即硬盘)故障后,停止该DataNode,这样如果有用户访问该DataNode中的相关文件,NameNode就会向用户返回该DataNode的任意副本的相关路径,以保证HDFS可以正常使用。
图3B示意性示出了根据本公开另一实施例的分布式文件系统的修复方法的流程图。
作为一种可选的实施例,如图3B所示,上述方法还包括:
在操作S205,获取数据节点的任意一个副本;以及
在操作S206,将副本中的存储内容复制到备用硬盘中。
由于被备用硬盘替代的硬盘中一般会存储一些甚至很多数据,在这种情况下,如果仅仅如前述实施例那样在硬盘出现异常的情况下,获取分布式文件系统的配置文件;在配置文件中删除硬盘与挂载有硬盘的目录的映射关系;以及在配置文件中添加硬盘的备用硬盘与目录的映射关系,则备用硬盘极有可能无法完全代替原硬盘工作,比如,用户访问该备用硬盘时无法对原硬盘中的历史数据进行读、删除和修改等操作。
因此,通过本公开实施方式,在备用硬盘替换掉原硬盘后,HDFS会自动触发数据移动,保证数据重新写入备用硬盘中,从而可以保证备用硬盘能够完全代替该异常硬盘正常工作。
图3C示意性示出了根据本公开另一实施例的分布式文件系统的修复方法的流程图。
作为一种可选的实施例,如图3C所示,上述方法还包括:
在操作S207,检测硬盘是否出现异常;以及
在操作S208,在检测到硬盘出现异常的情况下,获取分布式文件系统的配置文件并修改配置文件中的相关配置。
具体地,通过监控软件实时监控硬盘的状态,发现HDFS中任一DataNode上的硬盘出现错误后,自动修复HDFS的配置文件,保证HDFS处于可用状态。
由于从硬盘出现问题到HDFS使用出现问题,中间一般会存在时间差,因而在监控到硬盘出现异常后就触发HDFS的修复流程,与现有技术只能在使用HDFS时才可能发现硬盘已经出现异常相比,本公开实施例可以保证在第一时间发现硬盘异常并及时修复HDFS,避免大数据业务出现相关错误。
图3D示意性示出了根据本公开实施例的获取分布式文件系统的配置文件并修改配置文件中的相关配置的流程图。
作为一种可选的实施例,如图3D所示,上述方法还包括:
在操作S209,在检测到硬盘出现异常的情况下,生成对应的告警信息和/或提醒信息;以及
在操作S210,将告警信息和/或提醒信息上传给管理服务器,以触发管理服务器获取分布式文件系统的配置文件并修改配置文件中的相关配置。
通过本公开实施例,通过专门的管理服务器统一对HDFS中的各DataNode进行修复,可以便于统一管理。
图4示意性示出了根据本公开实施例的分布式文件系统的修复系统的框图。
如图4所示,该分布式文件系统的修复系统400包括:第一获取模块410、删除模块420和添加模块430。该分布式文件系统的修复系统400可以执行上面参考图2,图3A~图3D描述的方法,以实现分布式文件系统的修复。
第一获取模块410,用于在硬盘出现异常的情况下,获取分布式文件系统的配置文件。
删除模块420,用于在配置文件中删除硬盘与挂载有硬盘的目录的映射关系。
添加模块430,用于在配置文件中添加硬盘的备用硬盘与目录的映射关系。
通过本公开实施例,在硬盘出现异常时,可以自动修复HDFS,无需人工参与,出错率可以显著降低。
作为一种可选的实施例,如图5A所示,上述系统还包括:控制模块440,用于在硬盘出现异常的情况下,控制服务器上的数据节点停止运行,其中,服务器使用硬盘作为数据节点的物理存储器,数据节点用于作为分布式文件系统的一个存储块。
由于DataNode一般存在多个副本,在某个DataNode的物理存储器(即硬盘)故障后,停止该DataNode,这样如果有用户访问该DataNode中的相关文件,NameNode就会向用户返回该DataNode的任意副本的相关路径,以保证HDFS可以正常使用。
作为一种可选的实施例,如图5B所示,上述系统还包括:第二获取模块450,用于获取数据节点的任意一个副本;以及复制模块460,用于将副本中的存储内容复制到备用硬盘中。
通过本公开实施方式,在备用硬盘替换掉原硬盘后,HDFS会自动触发数据移动,保证数据重新写入备用硬盘中,从而可以保证备用硬盘能够完全代替该异常硬盘正常工作。
作为一种可选的实施例,上述系统还包括:检测模块,用于检测硬盘是否出现异常;以及第三获取模块,用于在检测到硬盘出现异常的情况下,获取分布式文件系统的配置文件并修改配置文件中的相关配置;和/或系统还包括:生成模块,用于在检测到硬盘出现异常的情况下,生成对应的告警信息和/或提醒信息;以及上传模块,用于将告警信息和/或提醒信息上传给管理服务器,以触发管理服务器获取分布式文件系统的配置文件并修改配置文件中的相关配置。
由于从硬盘出现问题到HDFS使用出现问题,中间一般会存在时间差,因而在监控到硬盘出现异常后就触发HDFS的修复流程,与现有技术只能在使用HDFS时才可能发现硬盘已经出现异常相比,本公开实施例可以保证在第一时间发现硬盘异常并及时修复HDFS,避免大数据业务出现相关错误。
并且,通过本公开实施例,通过专门的管理服务器统一对HDFS中的各DataNode进行修复,可以便于统一管理。
可以理解的是,第一获取模块410、删除模块420和添加模块430可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本发明的实施例,第一获取模块410、删除模块420和添加模块430中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以以对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式的适当组合来实现。或者,第一获取模块410、删除模块420和添加模块430中的至少一个可以至少被部分地实现为计算机程序模块,当该程序被计算机运行时,可以执行相应模块的功能。
本公开的另一方面提供了一种服务器,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如上任一实施例中所述的分布式文件系统的修复方法。
需要说明的是,该服务器属于分布式文件系统集群服务器中的任一服务器,用于对分布式文件系统HDFS进行修复。
图6示意性示出了根据本公开实施例的服务器的框图。
如图6所示,服务器600包括处理器610(一个或者多个)、计算机可读存储介质620(又称为存储器)。该服务器600可以执行上面参考图2,图3A~图3D描述的方法,以实现分布式文件系统的修复。
具体地,处理器610例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器610还可以包括用于缓存用途的板载存储器。处理器610可以是用于执行参考图2,图3A~图3D描述的根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
计算机可读存储介质620,例如可以是能够包含、存储、传送、传播或传输指令的任意介质。例如,可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。可读存储介质的具体示例包括:磁存储装置,如磁带或硬盘(HDD);光存储装置,如光盘(CD-ROM);存储器,如随机存取存储器(RAM)或闪存;和/或有线/无线通信链路。
计算机可读存储介质620可以包括计算机程序621,该计算机程序621可以包括代码/计算机可执行指令,其在由处理器610执行时使得处理器610执行例如上面结合图2,图3A~图3D所描述的方法流程及其任何变形。
计算机程序621可被配置为具有例如包括计算机程序模块的计算机程序代码。例如,在示例实施例中,计算机程序621中的代码可以包括一个或多个程序模块,例如包括621A、模块621B、……。应当注意,模块的划分方式和个数并不是固定的,本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合,当这些程序模块组合被处理器610执行时,使得处理器610可以执行例如上面结合图2,图3A~图3D所描述的方法流程及其任何变形。
根据本公开的实施例,处理器610可以与第一获取模块410、删除模块420和添加模块430进行交互,来执行上面结合图2,图3A~图3D所描述的方法流程及其任何变形。
根据本发明的实施例,第一获取模块410、删除模块420和添加模块430中的至少一个可以实现为参考图6描述的计算机程序模块,其在被处理器610执行时,可以实现上面描述的相应操作。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
尽管已经参照本公开的特定示例性实施例示出并描述了本公开,但是本领域技术人员应该理解,在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下,可以对本公开进行形式和细节上的多种改变。因此,本公开的范围不应该限于上述实施例,而是应该不仅由所附权利要求来进行确定,还由所附权利要求的等同物来进行限定。

Claims (10)

1.一种分布式文件系统的修复方法,包括:
在硬盘出现异常的情况下,获取所述分布式文件系统的配置文件;
在所述配置文件中删除所述硬盘与挂载有所述硬盘的目录的映射关系;以及
在所述配置文件中添加所述硬盘的备用硬盘与所述目录的映射关系。
2.根据权利要求1所述的方法,其中,所述方法还包括:
在所述硬盘出现异常的情况下,控制服务器上的数据节点停止运行,其中,所述服务器使用所述硬盘作为所述数据节点的物理存储器,所述数据节点用于作为所述分布式文件系统的一个存储块。
3.根据权利要求2所述的方法,其中,所述方法还包括:
获取所述数据节点的任意一个副本;以及
将所述副本中的存储内容复制到所述备用硬盘中。
4.根据权利要求1至3中任一项所述的方法,其中,所述方法还包括:
检测所述硬盘是否出现异常;以及
在检测到所述硬盘出现异常的情况下,获取所述分布式文件系统的配置文件并修改所述配置文件中的相关配置。
5.根据权利要求4所述的方法,其中,所述方法还包括:
在检测到所述硬盘出现异常的情况下,生成对应的告警信息和/或提醒信息;以及
将所述告警信息和/或所述提醒信息上传给管理服务器,以触发所述管理服务器获取所述分布式文件系统的配置文件并修改所述配置文件中的相关配置。
6.一种分布式文件系统的修复系统,包括:
第一获取模块,用于在硬盘出现异常的情况下,获取所述分布式文件系统的配置文件;
删除模块,用于在所述配置文件中删除所述硬盘与挂载有所述硬盘的目录的映射关系;以及
添加模块,用于在所述配置文件中添加所述硬盘的备用硬盘与所述目录的映射关系。
7.根据权利要求6所述的系统,其中,所述系统还包括:
控制模块,用于在所述硬盘出现异常的情况下,控制服务器上的数据节点停止运行,其中,所述服务器使用所述硬盘作为所述数据节点的物理存储器,所述数据节点用于作为所述分布式文件系统的一个存储块。
8.根据权利要求7所述的系统,其中,所述系统还包括:
第二获取模块,用于获取所述数据节点的任意一个副本;以及
复制模块,用于将所述副本中的存储内容复制到所述备用硬盘中。
9.根据权利要求6至8中任一项所述的系统,其中:
所述系统还包括:
检测模块,用于检测所述硬盘是否出现异常;以及
第三获取模块,用于在检测到所述硬盘出现异常的情况下,获取所述分布式文件系统的配置文件并修改所述配置文件中的相关配置;
和/或
所述系统还包括:
生成模块,用于在检测到所述硬盘出现异常的情况下,生成对应的告警信息和/或提醒信息;以及
上传模块,用于将所述告警信息和/或所述提醒信息上传给管理服务器,以触发所述管理服务器获取所述分布式文件系统的配置文件并修改所述配置文件中的相关配置。
10.一种服务器,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至5中任一项所述的分布式文件系统的修复方法。
CN201711416751.1A 2017-12-22 2017-12-22 分布式文件系统的修复方法及系统和服务器 Pending CN108121620A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711416751.1A CN108121620A (zh) 2017-12-22 2017-12-22 分布式文件系统的修复方法及系统和服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711416751.1A CN108121620A (zh) 2017-12-22 2017-12-22 分布式文件系统的修复方法及系统和服务器

Publications (1)

Publication Number Publication Date
CN108121620A true CN108121620A (zh) 2018-06-05

Family

ID=62231600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711416751.1A Pending CN108121620A (zh) 2017-12-22 2017-12-22 分布式文件系统的修复方法及系统和服务器

Country Status (1)

Country Link
CN (1) CN108121620A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052128A (zh) * 2019-06-06 2020-12-08 北京字节跳动网络技术有限公司 容灾方法、装置和电子设备
CN112328173A (zh) * 2020-10-27 2021-02-05 中国建设银行股份有限公司 一种分布式存储系统磁盘故障修复方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731915A (zh) * 2015-03-24 2015-06-24 上海爱数软件有限公司 一种分布式存储系统中磁盘设备映射方法
CN105095030A (zh) * 2014-05-22 2015-11-25 中兴通讯股份有限公司 基于Hadoop的硬盘损坏处理方法及装置
CN105242998A (zh) * 2015-09-01 2016-01-13 福建新大陆软件工程有限公司 一种基于hdfs的磁盘故障检测方法及系统
US9336102B2 (en) * 2014-04-21 2016-05-10 Dell Products L.P. Systems and methods for preventing input/output performance decrease after disk failure in a distributed file system
CN106201834A (zh) * 2016-07-06 2016-12-07 乐视控股(北京)有限公司 一种磁盘损坏的处理方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9336102B2 (en) * 2014-04-21 2016-05-10 Dell Products L.P. Systems and methods for preventing input/output performance decrease after disk failure in a distributed file system
CN105095030A (zh) * 2014-05-22 2015-11-25 中兴通讯股份有限公司 基于Hadoop的硬盘损坏处理方法及装置
CN104731915A (zh) * 2015-03-24 2015-06-24 上海爱数软件有限公司 一种分布式存储系统中磁盘设备映射方法
CN105242998A (zh) * 2015-09-01 2016-01-13 福建新大陆软件工程有限公司 一种基于hdfs的磁盘故障检测方法及系统
CN106201834A (zh) * 2016-07-06 2016-12-07 乐视控股(北京)有限公司 一种磁盘损坏的处理方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052128A (zh) * 2019-06-06 2020-12-08 北京字节跳动网络技术有限公司 容灾方法、装置和电子设备
CN112328173A (zh) * 2020-10-27 2021-02-05 中国建设银行股份有限公司 一种分布式存储系统磁盘故障修复方法及装置

Similar Documents

Publication Publication Date Title
CN107026760B (zh) 一种故障修复方法及监控节点
US9910654B1 (en) Extensible software release management automation service
CN104252485B (zh) 一种数据库管理平台
CN107317695B (zh) 用于调试联网故障的方法、系统和装置
CN108694014A (zh) 用来进行内存空间保留及管理的方法与装置
US9712418B2 (en) Automated network control
CN106062646A (zh) 控制装置
CN102857371B (zh) 一种面向集群系统的动态配置管理方法
US9632919B2 (en) Request change tracker
CN106462206B (zh) 用于监控具有不同冗余度等级的ups组的配置的系统和方法
US10180871B2 (en) Storage failure processing in a shared storage architecture
US8984332B2 (en) Active/passive database management across clusters
US9392084B2 (en) Recovery of a network infrastructure to facilitate business continuity
US11221837B2 (en) Creating and deploying packages to devices in a fleet based on operations derived from a machine learning model
US20140215279A1 (en) Scalable structured data store operations
US9886336B2 (en) Automatic filing of a task for application crashes
CN108121620A (zh) 分布式文件系统的修复方法及系统和服务器
CN105843871B (zh) 分布式应用文件的控制与管理系统
CN112162761A (zh) 自动化部署项目至公有云容器化平台的方法、系统及设备
CN107329806A (zh) 一种开发环境构建方法及装置
CN107197002A (zh) 云计算系统及云数据处理方法
CN109271270A (zh) 存储系统中底层硬件的故障排除方法、系统及相关装置
US9672142B2 (en) Replacement of suspect or marginally defective computing system components during fulfillment test of build-to-order test phase
CN107704333A (zh) San存储系统的故障保存方法、装置及可读存储介质
US20160259707A1 (en) Targeted multi-tiered software stack serviceability

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180605