CN109298979A - 硬盘故障处理方法及装置 - Google Patents

硬盘故障处理方法及装置 Download PDF

Info

Publication number
CN109298979A
CN109298979A CN201810941392.XA CN201810941392A CN109298979A CN 109298979 A CN109298979 A CN 109298979A CN 201810941392 A CN201810941392 A CN 201810941392A CN 109298979 A CN109298979 A CN 109298979A
Authority
CN
China
Prior art keywords
hard disk
failure
hard
access
storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810941392.XA
Other languages
English (en)
Other versions
CN109298979B (zh
Inventor
刘浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Technologies Co Ltd Chengdu Branch
Original Assignee
New H3C Technologies Co Ltd Chengdu Branch
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New H3C Technologies Co Ltd Chengdu Branch filed Critical New H3C Technologies Co Ltd Chengdu Branch
Priority to CN201810941392.XA priority Critical patent/CN109298979B/zh
Publication of CN109298979A publication Critical patent/CN109298979A/zh
Application granted granted Critical
Publication of CN109298979B publication Critical patent/CN109298979B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/18Error detection or correction of the data by redundancy in hardware using passive fault-masking of the redundant circuits
    • G06F11/181Eliminating the failing redundant component

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及存储技术领域,提供一种硬盘故障处理方法及装置,所述方法包括:当硬盘执行存储系统下发的访问请求失败时,接收硬盘响应的访问失败的地址信息并将访问失败的地址信息加入至硬盘坏道地址表;对硬盘的检测点进行故障检测;当故障检测的结果表征硬盘不可继续使用时,将硬盘移出存储集群。本发明在存储集群中的硬盘访问出错时,通过将访问失败的地址进行隔离,并对硬盘的检测点进行检测,当检测结果表征硬盘不可继续使用时,将该硬盘移出存储集群,降低了存储集群的坏盘率,从而降低了硬盘故障对整个存储集群性能的影响。

Description

硬盘故障处理方法及装置
技术领域
本发明涉及存储技术领域,具体而言,涉及一种硬盘故障处理方法及装置。
背景技术
在大规模存储集群中,硬盘的数量是巨大的。在数量众多的硬盘里,出现硬盘坏道的概率是很大的。一块硬盘如果出现一个硬盘坏道就被看作坏盘,将其从集群中踢出,这样的解决方案虽然可以有效的避免再次访问存在坏道的硬盘,但直接踢出有坏道的硬盘的做法是不合理的,会导致存储集群的坏盘率很高,且将硬盘从存储集群中踢出后会触发整块硬盘存储的数据的恢复,从而影响整个存储集群的性能。
发明内容
本发明实施例的目的在于提供一种硬盘故障处理方法及装置,在存储集群中的硬盘访问出错时,通过将访问失败的地址进行隔离,并对硬盘的检测点进行检测,当检测结果表征硬盘不可继续使用时,将该硬盘移出存储集群,降低了存储集群的坏盘率,从而降低了硬盘故障对整个存储集群性能的影响。
为了实现上述目的,本发明实施例采用的技术方案如下:
第一方面,本发明实施例提供了一种硬盘故障处理方法,应用于存储系统,存储系统运行于包括多个硬盘的存储集群,硬盘预先存储硬盘坏道地址表并预先设置检测点,所述方法包括:当硬盘执行存储系统下发的访问请求失败时,接收硬盘响应的访问失败的地址信息并将访问失败的地址信息加入至硬盘坏道地址表;对硬盘的检测点进行故障检测;当故障检测的结果表征硬盘不可继续使用时,将硬盘移出存储集群。
第二方面,本发明实施例还提供了一种硬盘故障处理装置,所述装置包括接收模块、检测模块和移出模块。其中,接收模块用于当硬盘执行存储系统下发的访问请求失败时,接收硬盘响应的访问失败的地址信息并将访问失败的地址信息加入至硬盘坏道地址表;检测模块用于对硬盘的检测点进行故障检测;移出模块用于当故障检测的结果表征硬盘不可继续使用时,将硬盘移出存储集群。
相对现有技术,本发明实施例提供的一种硬盘故障处理方法及装置,首先,存储系统向硬盘下发访问请求,硬盘响应该访问请求,并向存储系统返回访问失败的地址信息;然后,硬盘接收该访问失败的地址信息,并将该访问失败的地址信息加入至硬盘坏道地址表;最后,当访问请求访问失败时,存储系统对所述硬盘的检测点进行故障检测,当所述故障检测的结果表征该硬盘不可继续使用时,将该硬盘移出存储集群。与现有技术相比,本发明实施例在存储集群中的硬盘访问出错时,通过将访问失败的地址进行隔离,并对硬盘的检测点进行检测,将检测结果表征硬盘不可继续使用时,将该硬盘移出存储集群,降低了存储集群的坏盘率,从而降低了硬盘故障对整个存储集群性能的影响。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例提供的运行存储系统的设备的方框示意图。
图2示出了本发明实施例提供的硬盘故障处理方法流程图。
图3为图2示出的步骤S103的子步骤流程图。
图4示出了本发明实施例提供的硬盘故障处理装置的方框示意图。
图标:100-运行存储系统的设备;101-存储器;102-通信接口;103-处理器;104-总线;200-硬盘故障处理装置;201-接收模块;202-检测模块;203-移出模块;204-第一恢复模块;205-第二恢复模块;206-保持模块。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
请参照图1,图1示出了本发明实施例提供的运行存储系统的设备100的方框示意图。运行存储系统的设备100可以是,但不限于,主机、虚拟机、实体服务器、实体服务器上的虚拟机等能提供与所述服务器或者虚拟机有相同功能的实体或者虚拟的服务端。运行存储系统的设备100的操作系统可以是,但不限于,Windows系统、Linux系统等。所述运行存储系统的设备100包括存储器101、通信接口102、处理器103和总线104,所述存储器101、通信接口102和处理器103通过总线104连接,处理器103用于执行存储器101中存储的可执行模块,例如计算机程序。
其中,存储器101可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口102(可以是有线或者无线)实现该运行存储系统的设备100与至少一个其他运行存储系统的设备100、以及外部存储设备之间的通信连接。
总线104可以是ISA总线、PCI总线或EISA总线等。图1中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器101用于存储程序,例如图4所示的硬盘故障处理装置200。该硬盘故障处理装置200包括至少一个可以软件或固件(firmware)的形式存储于所述存储器101中或固化在所述运行存储系统的设备100的操作系统(operating system,OS)中的软件功能模块。所述处理器103在接收到执行指令后,执行所述程序以实现本发明上述实施例揭示的硬盘故障处理方法。
第一实施例
请参照图2,图2示出了本发明实施例提供的硬盘故障处理方法流程图。处理方法包括以下步骤:
步骤S101,当硬盘执行存储系统下发的访问请求失败时,接收硬盘响应的访问失败的地址信息并将访问失败的地址信息加入至硬盘坏道地址表。
在本发明实施例中,用户通过客户端将访问文件的访问请求发送至存储系统,存储系统将该访问文件的访问请求通过计算转化成访问硬盘的访问请求并下发至硬盘,其中,访问硬盘的访问请求可以是对硬盘上存储的数据的读数据请求或者将数据写入硬盘的写数据请求,访问失败的地址信息可以表征硬盘在响应访问请求时无法对访问失败的地址信息对应的存储区域进行读写操作。当访问硬盘上的数据失败时,硬盘向存储系统返回错误码和访问失败的地址信息,其中,错误码可以表征访问失败对应的错误类型,例如是写操作超时,还是写操作失败,或者是读操作失败等。失败的地址信息可以是硬盘的LBA(Logical Block Address,逻辑区块地址)地址信息。
在本发明实施例中,硬盘预先存储硬盘坏道地址表,硬盘坏道地址表在创建时是空的,即里面没有存储访问失败的地址信息,在硬盘使用过程中,当访问硬盘上的数据访问失败后,则将访问失败的地址信息更新至硬盘坏道表中,例如,当前硬盘坏道表中是空的,此时收到一个访问硬盘数据的访问请求,硬盘向存储系统返回访问地址0x123456时访问失败的地址信息,则存储系统将此访问地址0x123456加入至硬盘坏道地址表。
步骤S102,对硬盘的检测点进行故障检测。
在本发明实施例中,硬盘预先设置多个检测点,每个检测点对应硬盘上的一个LBA地址,为了不影响用户数据,检测点的LBA地址对应的存储区域专门用来进行故障检测的,不存储用户数据,对硬盘的检测点进行故障检测时,首先对硬盘上的每一个检测点对应的存储区域写数据,然后读出所写的数据并进行校验,若检验通过证明读取到的数据和写入的数据是一致的,证明访问检测点成功,当访问任意一个检测点出错时,判定故障检测的结果表征该硬盘不可继续使用,因为,如果继续使用该硬盘,则该硬盘访问失败的概率极高。
请参照图3,对硬盘的检测点进行故障检测的步骤还包括以下子步骤:
子步骤S1021,访问硬盘的多个检测点。
在本发明实施例中,检测点可以认为是对硬盘的地址进行的抽样,检测点的个数越多,对检测点进行故障检测的结果也越能准确地反映硬盘是否可继续使用,同时,检测点越多,则硬盘上用户可以用的空间越少,而且故障检测所需的时间也越长,所以检测点的多少需要考虑检测点对硬盘可使用空间的影响及对故障检测时间的影响,一般来说,为了保证对检测点进行故障检测的结果的可参考性,硬盘容量越大,该硬盘上设置的检测点的个数也越多,用户可以根据实际场景的需求对检测点的个数或者位置进行不同的配置。在本发明实施例中,用户可以在配置文件中指定检测点的个数,存储系统根据检测点的个数及硬盘容量确定检测点的位置,即将硬盘容量除以检测点的个数得到两个检测点位置之间的间隔,例如,配置文件中指定的检测点的个数为5,硬盘的容量为100GB,则检测点的位置分别为硬盘上0GB、20GB、40GB、60GB、80GB对应的LBA地址。对检测点进行故障检测指对抽样的地址进行访问,即读写与抽样的地址对应的存储区域,若读出的数据和之前写入的数据一致,则认为读写正常,即访问成功。
子步骤S1022,当访问任意一个检测点出错时,则判定故障检测的结果表征硬盘不可继续使用。
在本发明实施例中,由于检测点是对硬盘的地址进行的抽样,所以,当访问任意一个检测点出错时,可以认为如果继续使用该硬盘,访问该硬盘失败的概率较高,因而判定故障检测的结果表征硬盘不可继续使用,当硬盘的所有检测点均访问成功时,认为如果继续使用该硬盘,访问该硬盘失败的概率较低,因而判定故障检测的结果表征硬盘可继续使用。
步骤S103,当故障检测的结果表征硬盘不可继续使用时,将硬盘移出存储集群。
在本发明实施例中,当访问任意一个检测点出错时,判定故障检测的结果表征硬盘不可继续使用,也就是说,如果继续使用该硬盘,访问该硬盘失败的概率极高,此时,为了及时避免后续频繁访问该硬盘失败对存储系统的影响,应该将硬盘移出存储集群。
在本发明实施例中,将不可继续使用的硬盘移出存储集群后,为了便于继续访问被移出硬盘上的数据,需要将被移出硬盘上的数据恢复出来,存放到存储集群中的其他硬盘上,因此本发明实施例还包括步骤S104。
步骤S104,按照预设规则从存储集群中确定出备用硬盘,并将移出存储集群的硬盘上的数据恢复至备用硬盘。
在本发明实施例中,存储集群中的每个硬盘均预留备用空间,在将不可继续使用的硬盘移出存储集群后,为了提高移出存储集群的硬盘上的数据的恢复效率及数据的可靠性,可以按照预设规则从存储集群中确定出多个备用硬盘,将该硬盘上的数据恢复至多个备用硬盘的备用空间,其中,预设规则可以是硬盘坏道地址表中访问失败的地址信息的数量,也可以是硬盘的已使用容量,还可以是硬盘性能参数等,例如,可以根据硬盘备用空间的容量,从存储集群中选出硬盘坏道地址表中访问失败的地址信息的数量最少的硬盘作为备用硬盘、且所有备用硬盘的备用空间总大小大于或等于移出存储集群的硬盘的容量。
在本发明实施例中,为了可以继续对与访问失败的地址信息对应的存储区域存储的数据进行访问,需要将与访问失败的地址信息对应的存储区域存储的数据恢复出来,因此,本发明实施例还包括步骤S105。
步骤S105,将访问失败的地址信息对应的存储区域所属的存储对象的数据恢复至硬盘的备用空间。
在本发明实施例中,数据恢复是以存储对象为单位进行的,例如,访问失败的地址信息为LBA地址为0x00000006B,与该LBA地址对应的存储区域所述的存储对象为存储对象A,存储对象的大小为64KB,则需要恢复的数据为存储对象A的64KB的数据。
在本发明实施例中,为了保证访问失败的地址不会再次被分配出去继续使用,造成访问该地址时再次访问失败,因此,在本发明实施例还包括步骤S106。
步骤S106,保持硬盘坏道地址表中的访问失败的地址不被释放。
在本发明实施例中,存储系统不会将访问失败的地址释放,不释放的地址无法被分配出去,由此保证访问失败的地址不会被再次使用。
在本发明实施例中,在存储集群中的硬盘访问出错时,通过不释放访问失败的地址实现访问失败的地址的隔离,并对硬盘的检测点进行检测,当检测结果表征硬盘不可继续使用时,将该硬盘移出存储集群,与现有技术相比,具有以下有益效果:
第一,通过不释放访问失败的地址实现访问失败的地址的隔离,防止访问失败的地址被再次分配出去继续使用,减少了硬盘出现坏道时对整个存储集群性能的影响。
第二,当硬盘的访问请求访问失败时,对硬盘的检测点进行故障检测,以便于提前发现后续访问失败概率高的硬盘并将其移出存储集群,一方面避免后续频繁访问该硬盘失败对存储系统的影响,另一方面实现硬盘的防患于未然,提高了存储系统的可靠性。
第三,当硬盘的访问请求访问失败时,对硬盘的检测点进行故障检测,当故障检测结果表征硬盘可继续使用时,仍然将该硬盘保留在存储集群中继续使用,有效降低存储集群中硬盘的故障率,降低存储集群的物料成本及人力维护成本。
第四,用户可以根据实际场景的需要预先对硬盘的检测点进行配置,使得对硬盘的检测点的故障检测与实际硬盘的状况更接近,从而使得对于硬盘故障的预判更准确。
第二实施例
请参照图4,图4示出了本发明实施例提供的硬盘故障处理装置200的方框示意图。硬盘故障处理装置200应用于运行存储系统的设备100,其包括接收模块201;检测模块202;移出模块203;第一恢复模块204;第二恢复模块205;保持模块206。
接收模块201,用于当硬盘执行存储系统下发的访问请求失败时,接收硬盘响应的访问失败的地址信息并将访问失败的地址信息加入至硬盘坏道地址表。
在本发明实施例中,接收模块201用于执行步骤S101。
检测模块202,用于对硬盘的检测点进行故障检测。
在本发明实施例中,检测模块202用于执行步骤S102及其子步骤S1021-S1022。
移出模块203,用于当故障检测的结果表征硬盘不可继续使用时,将硬盘移出存储集群。
在本发明实施例中,移出模块203用于执行步骤S103。
第一恢复模块204,用于按照预设规则从存储集群中确定出备用硬盘,并将移出存储集群的硬盘上的数据恢复至备用硬盘。
在本发明实施例中,第一恢复模块204用于执行步骤S104。
第二恢复模块205,用于将访问失败的地址信息对应的存储区域所属的存储对象的数据恢复至硬盘的备用空间。
在本发明实施例中,第二恢复模块205用于执行步骤S105。
保持模块206,用于保持硬盘坏道地址表中的访问失败的地址不被释放。
在本发明实施例中,保持模块206用于执行步骤S106。
综上所述,本发明实施例提供的一种硬盘故障处理方法及装置,所述应用于存储系统,存储系统运行于包括硬盘的存储集群,硬盘预先存储硬盘坏道地址表并预先设置检测点,所述方法包括:当硬盘执行存储系统下发的访问请求失败时,接收硬盘响应的访问失败的地址信息并将访问失败的地址信息加入至硬盘坏道地址表;对硬盘的检测点进行故障检测;当故障检测的结果表征硬盘不可继续使用时,将硬盘移出存储集群。与现有技术相比,本发明实施例在存储集群中的硬盘访问出错时,通过将访问失败的地址进行隔离,并对硬盘的检测点进行检测,将检测结果表征硬盘不可继续使用时,将该硬盘移出存储集群,降低了存储集群的坏盘率,从而降低了硬盘故障对整个存储集群性能的影响。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

Claims (10)

1.一种硬盘故障处理方法,应用于存储系统,所述存储系统运行于包括多个硬盘的存储集群,其特征在于,所述硬盘预先存储硬盘坏道地址表并预先设置检测点,所述方法包括:
当硬盘执行所述存储系统下发的访问请求失败时,接收硬盘响应的访问失败的地址信息,并将所述访问失败的地址信息加入至所述硬盘坏道地址表;
对所述硬盘的检测点进行故障检测;
当所述故障检测的结果表征所述硬盘不可继续使用时,将所述硬盘移出所述存储集群。
2.如权利要求1所述的硬盘故障处理方法,其特征在于,所述检测点为多个,所述对所述硬盘的检测点进行故障检测的步骤包括:
访问所述硬盘的多个检测点;
当访问任意一个检测点出错时,则判定所述故障检测的结果表征所述硬盘不可继续使用。
3.如权利要求1所述的硬盘故障处理方法,其特征在于,所述将所述硬盘移出所述存储集群的步骤之后,还包括:
按照预设规则从存储集群中确定出备用硬盘,并将所述移出所述存储集群的硬盘上的数据恢复至所述备用硬盘。
4.如权利要求1所述的硬盘故障处理方法,其特征在于,所述硬盘预留备用空间,所述将所述访问失败的地址信息加入至所述硬盘坏道地址表的步骤之后,还包括:
将所述访问失败的地址信息对应的存储区域所属的存储对象的数据恢复至所述硬盘的备用空间。
5.如权利要求1所述的硬盘故障处理方法,其特征在于,所述方法还包括:
保持所述硬盘坏道地址表中的访问失败的地址不被释放。
6.一种硬盘故障处理装置,应用于存储系统,所述存储系统运行于包括多个硬盘的存储集群,其特征在于,所述硬盘预先存储硬盘坏道地址表并预先设置检测点,所述装置包括:
接收模块,用于当硬盘执行所述存储系统下发的访问请求失败时,接收硬盘响应的访问失败的地址信息并将所述访问失败的地址信息加入至所述硬盘坏道地址表;
检测模块,用于对所述硬盘的检测点进行故障检测;
移出模块,用于当所述故障检测的结果表征所述硬盘不可继续使用时,将所述硬盘移出所述存储集群。
7.如权利要求6所述的硬盘故障处理装置,其特征在于,所述检测点为多个,所述检测模块具体用于:
访问所述硬盘的多个检测点;
当访问任意一个检测点出错时,则判定所述故障检测的结果表征所述硬盘不可继续使用。
8.如权利要求6所述的硬盘故障处理装置,其特征在于,所述装置还包括:
第一恢复模块,用于按照预设规则从存储集群中确定出备用硬盘,并将所述移出所述存储集群的硬盘上的数据恢复至所述备用硬盘。
9.如权利要求6所述的硬盘故障处理装置,其特征在于,所述装置还包括:
第二恢复模块,用于将所述访问失败的地址信息对应的存储区域所属的存储对象的数据恢复至所述硬盘的备用空间。
10.如权利要求6所述的硬盘故障处理装置,其特征在于,所述装置还包括:
保持模块,保持所述硬盘坏道地址表中的访问失败的地址不被释放。
CN201810941392.XA 2018-08-17 2018-08-17 硬盘故障处理方法及装置 Active CN109298979B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810941392.XA CN109298979B (zh) 2018-08-17 2018-08-17 硬盘故障处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810941392.XA CN109298979B (zh) 2018-08-17 2018-08-17 硬盘故障处理方法及装置

Publications (2)

Publication Number Publication Date
CN109298979A true CN109298979A (zh) 2019-02-01
CN109298979B CN109298979B (zh) 2022-08-12

Family

ID=65165243

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810941392.XA Active CN109298979B (zh) 2018-08-17 2018-08-17 硬盘故障处理方法及装置

Country Status (1)

Country Link
CN (1) CN109298979B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209550A (zh) * 2019-05-24 2019-09-06 新华三技术有限公司成都分公司 存储介质的故障处理方法、装置、电子设备及存储介质
CN112162909A (zh) * 2020-09-30 2021-01-01 新华三大数据技术有限公司 一种硬盘故障处理方法、装置、设备及机器可读存储介质
WO2021088367A1 (zh) * 2019-11-04 2021-05-14 华为技术有限公司 数据恢复方法及相关设备

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006065481A (ja) * 2004-08-25 2006-03-09 Aruze Corp 情報処理装置
CN1896963A (zh) * 2005-07-11 2007-01-17 英业达股份有限公司 硬盘装置损坏监测方法及系统
CN102495777A (zh) * 2011-12-13 2012-06-13 百度在线网络技术(北京)有限公司 硬盘故障处理方法及处理装置
CN103019885A (zh) * 2012-11-26 2013-04-03 大唐移动通信设备有限公司 基于嵌入式Linux的硬盘坏道监测方法及系统
CN103729276A (zh) * 2014-01-28 2014-04-16 深圳市迪菲特科技股份有限公司 一种扫描磁盘阵列的方法
CN104216665A (zh) * 2014-09-01 2014-12-17 上海新储集成电路有限公司 多层单元固态硬盘的存储管理方法
CN104484251A (zh) * 2014-12-11 2015-04-01 华为技术有限公司 一种硬盘故障的处理方法及装置
CN104599718A (zh) * 2014-12-16 2015-05-06 华为技术有限公司 一种硬盘的处理方法及装置
CN105159807A (zh) * 2015-09-06 2015-12-16 浪潮(北京)电子信息产业有限公司 一种检测潜在扇区错误的方法
CN105279057A (zh) * 2015-11-10 2016-01-27 浪潮(北京)电子信息产业有限公司 一种磁盘坏道检测方法与系统
CN105573872A (zh) * 2014-10-09 2016-05-11 腾讯科技(深圳)有限公司 数据存储系统的硬盘维护方法和装置
CN107807862A (zh) * 2017-09-29 2018-03-16 曙光信息产业(北京)有限公司 检测硬盘故障点的方法、装置及服务器

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006065481A (ja) * 2004-08-25 2006-03-09 Aruze Corp 情報処理装置
CN1896963A (zh) * 2005-07-11 2007-01-17 英业达股份有限公司 硬盘装置损坏监测方法及系统
CN102495777A (zh) * 2011-12-13 2012-06-13 百度在线网络技术(北京)有限公司 硬盘故障处理方法及处理装置
CN103019885A (zh) * 2012-11-26 2013-04-03 大唐移动通信设备有限公司 基于嵌入式Linux的硬盘坏道监测方法及系统
CN103729276A (zh) * 2014-01-28 2014-04-16 深圳市迪菲特科技股份有限公司 一种扫描磁盘阵列的方法
CN104216665A (zh) * 2014-09-01 2014-12-17 上海新储集成电路有限公司 多层单元固态硬盘的存储管理方法
CN105573872A (zh) * 2014-10-09 2016-05-11 腾讯科技(深圳)有限公司 数据存储系统的硬盘维护方法和装置
CN104484251A (zh) * 2014-12-11 2015-04-01 华为技术有限公司 一种硬盘故障的处理方法及装置
CN104599718A (zh) * 2014-12-16 2015-05-06 华为技术有限公司 一种硬盘的处理方法及装置
CN105159807A (zh) * 2015-09-06 2015-12-16 浪潮(北京)电子信息产业有限公司 一种检测潜在扇区错误的方法
CN105279057A (zh) * 2015-11-10 2016-01-27 浪潮(北京)电子信息产业有限公司 一种磁盘坏道检测方法与系统
CN107807862A (zh) * 2017-09-29 2018-03-16 曙光信息产业(北京)有限公司 检测硬盘故障点的方法、装置及服务器

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209550A (zh) * 2019-05-24 2019-09-06 新华三技术有限公司成都分公司 存储介质的故障处理方法、装置、电子设备及存储介质
WO2021088367A1 (zh) * 2019-11-04 2021-05-14 华为技术有限公司 数据恢复方法及相关设备
CN112162909A (zh) * 2020-09-30 2021-01-01 新华三大数据技术有限公司 一种硬盘故障处理方法、装置、设备及机器可读存储介质

Also Published As

Publication number Publication date
CN109298979B (zh) 2022-08-12

Similar Documents

Publication Publication Date Title
US11341003B2 (en) Availability of a storage system
US9189309B1 (en) System and method for predicting single-disk failures
US9772894B2 (en) Systems, methods, and machine-readable media to perform state data collection
US9229796B1 (en) System and method for determining disk failure indicator to predict future disk failures
US9141457B1 (en) System and method for predicting multiple-disk failures
US7743284B1 (en) Method and apparatus for reporting storage device and storage system data
JP4837445B2 (ja) 記憶システム並びに管理装置及び方法
US8250401B2 (en) Storage device realignment
JP4988214B2 (ja) 記憶装置における喪失した書き込みの検出および回復
CN109298979A (zh) 硬盘故障处理方法及装置
US6405329B1 (en) Method and apparatus for HDD time stamp benchmark and installation identification
GB2400935A (en) Configuring memory in a RAID controller
CN103763383A (zh) 一体化云存储系统及其存储方法
US9244784B2 (en) Recovery of storage device in a redundant array of independent disk (raid) or raid-like array
US9529674B2 (en) Storage device management of unrecoverable logical block addresses for RAID data regeneration
US20230229328A1 (en) Systems, Methods, and Computer Readable Media Providing Arbitrary Sizing of Data Extents
US20110016287A1 (en) Method for implementing on demand configuration changes
US11137918B1 (en) Administration of control information in a storage system
US10642508B2 (en) Method to limit impact of partial media failure of disk drive and detect/report the loss of data for objects due to partial failure of media
CN106980468A (zh) 触发raid阵列重建的方法及装置
US8843781B1 (en) Managing drive error information in data storage systems
CN104484135A (zh) 一种快速数据读取方法及装置
CN104205097A (zh) 一种去重方法装置与系统
CN103399783A (zh) 虚拟机的镜像文件的存储方法和装置
CN109857519A (zh) 虚拟磁盘的处理方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant