CN112162909A

CN112162909A - 一种硬盘故障处理方法、装置、设备及机器可读存储介质

Info

Publication number: CN112162909A
Application number: CN202011065203.0A
Authority: CN
Inventors: 陈虹州
Original assignee: New H3C Big Data Technologies Co Ltd
Current assignee: New H3C Big Data Technologies Co Ltd
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2021-01-01

Abstract

本公开提供一种硬盘故障处理方法、装置、设备及机器可读存储介质，该方法包括：接收硬盘错误报告；根据硬盘错误报告，在监视器中将对应的硬盘标记为下线状态，并关闭对应的OSD进程；判断硬盘错误报告对应的硬盘是否为坏盘，若是，则删除对应的OSD进程并发送告警信息。通过本公开的技术方案，在接收到硬盘错误报告后，标记硬盘的状态为下线，并关闭对应的OSD进程，判断对应的硬盘是否为坏盘，若是则删除对应的OSD进程，从而避免坏盘在出现故障后反复重启对应的OSD进程造成震荡，提高了业务的可靠性。

Description

一种硬盘故障处理方法、装置、设备及机器可读存储介质

技术领域

本公开涉及通信技术领域，尤其是涉及一种硬盘故障处理方法、装置、设备及机器可读存储介质。

背景技术

Ceph是现在广泛应用的一种分布式存储系统。以分布式集群的组织方式，整合相同或者不同的服务器存储资源，最终实现软件定义存储，提供可扩展，高性能，高可靠的分布式统一存储服务。面对如今云计算，社交媒体等行业的快速发展，数据量也在爆发式地增长。相关企业在IT建设中面临着不小的挑战，既要考虑数据存储的可靠性，又要考虑存储集群的读写性能，还要考虑存储集群资源的利用率等等。Ceph架构的存储系统则可以很好地解决这些企业IT建设中所遇到的数据存储问题。

Ceph分布式存储系统提供制定基于存储池的存储策略，由副本策略和纠删码策略来提供数据可靠性。在副本或者纠删码机制中，数据的副本或者分片分布在集群的各个节点的OSD设备上

Ceph分布式存储集群设计了一种叫做Crush的算法用作数据到存储资源的映射流程中去。通过Crush算法，可以计算得到PG与对应的OSD之间的映射关系。Crush算法可以较为均衡的完成该映射关系，从而保证了存储资源得到均匀有效的利用。

OSD(Object Storage Device，对象存储设备)是Ceph主要的组件之一，它的主要功能是存储数据、复制数据、平衡数据、恢复数据等，与其它OSD间进行心跳检查等，并将一些变化情况上报给Ceph Monitor(Ceph监控器)。一般情况下一块硬盘对应一个OSD，由OSD来对硬盘存储进行管理。

当前分布式系统底层的存储引擎采用的是BlueStore，当硬盘出现故障时，内核会返回EIO错误码至Ceph BlueStore，Store统一做ASSERT处理，ASSERT会导致OSD进程Down掉，操作系统有脚本会对OSD进程做拉起处理，这样就会出现OSD进程反复Down Up震荡，可能导致主机业务中断。因此，针对坏道和坏盘故障场景，需要做增强的可靠性处理，尽可能减少业务中断。

发明内容

有鉴于此，本公开提供一种硬盘故障处理方法、装置及电子设备、机器可读存储介质，以改善上述硬盘故障处理可靠性不足的问题。

具体地技术方案如下：

本公开提供了一种硬盘故障处理方法，应用于存储设备，所述方法包括：接收硬盘错误报告；根据硬盘错误报告，在监视器中将对应的硬盘标记为下线状态，并关闭对应的OSD进程；判断硬盘错误报告对应的硬盘是否为坏盘，若是，则删除对应的OSD进程并发送告警信息。

作为一种技术方案，所述判断硬盘错误报告对应的硬盘是否为坏盘，包括：若否，则重启关闭的OSD进程。

作为一种技术方案，所述根据硬盘错误报告，在监视器中将对应的硬盘标记为下线状态，包括：生成对应的坏盘检测文件；所述判断硬盘错误报告对应的硬盘是否为坏盘，包括：根据坏盘检测文件，执行坏盘检测流程，若执行未通过则判定为坏盘，若执行通过则判定为好盘。

作为一种技术方案，若存在对应的坏盘检测文件，则拒绝重启对应的关闭的OSD进程；所述根据坏盘检测文件，执行坏盘检测流程，若执行未通过则判定为坏盘，若执行通过则判定为好盘，包括：若执行通过则判定为好盘并删除对应的坏盘检测文件。

本公开同时提供了一种硬盘故障处理装置，应用于存储设备，所述装置包括：接收模块，用于接收硬盘错误报告；接收模块，用于根据硬盘错误报告，在监视器中将对应的硬盘标记为下线状态，并关闭对应的OSD进程；处理模块，用于判断硬盘错误报告对应的硬盘是否为坏盘，若是，则删除对应的OSD进程并发送告警信息。

本公开同时提供了一种电子设备，包括处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，处理器执行所述机器可执行指令以实现前述的硬盘故障处理方法。

本公开同时提供了一种机器可读存储介质，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现前述的硬盘故障处理方法。

本公开提供的上述技术方案至少带来了以下有益效果：

在接收到硬盘错误报告后，标记硬盘的状态为下线，并关闭对应的OSD进程，判断对应的硬盘是否为坏盘，若是则删除对应的OSD进程，从而避免坏盘在出现故障后反复重启对应的OSD进程造成震荡，提高了业务的可靠性。

附图说明

为了更加清楚地说明本公开实施方式或者现有技术中的技术方案，下面将对本公开实施方式或者现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开中记载的一些实施方式，对于本领域普通技术人员来讲，还可以根据本公开实施方式的这些附图获得其他的附图。

图1是本公开一种实施方式中的硬盘故障处理方法的流程图；

图2是本公开一种实施方式中的硬盘故障处理装置的结构图；

图3是本公开一种实施方式中的电子设备的硬件结构图。

具体实施方式

在本公开实施方式使用的术语仅仅是出于描述特定实施方式的目的，而非限制本公开。本公开和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其它含义。还应当理解，本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开实施方式可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，此外，所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本公开提供一种硬盘故障处理方法、装置及电子设备、机器可读存储介质，以改善上述硬盘故障处理可靠性不足的问题。

具体地技术方案如后述。

具体地，如图1，包括以下步骤：

步骤S11，接收硬盘错误报告；

步骤S12，根据硬盘错误报告，在监视器中将对应的硬盘标记为下线状态，并关闭对应的OSD进程；

步骤S13，判断硬盘错误报告对应的硬盘是否为坏盘，若是，则删除对应的OSD进程并发送告警信息。

当硬盘出现不可修复的硬件错误时，IO会返回Check Condition+Hardware Error错误，此时可以判定硬盘处于不可用状态。Ceph层看到的EIO错误码EREMOTEIO与硬盘的Hardware Error并不是唯一对应的，还包含了一些软件异常，因此需要在EREMOTEIO基础上做进一步判断，在判断为非软件错误，的确是硬件故障如坏道等，则判断硬盘为坏盘。

当收到底层返回的EREMOTEIO错误码时，OSD进程会被标下线down并且生成坏盘检测文件。坏盘检测会在生成坏盘检测文件之后自动执行。坏盘检测主要分停转硬盘，起转硬盘，测试unit ready，随机读等四个环节。坏盘检测总共有三次重试机会，每一个小环节失败都会消耗一次重试次数，并且从头开始检测，只有所有环节均检测成功才判定为好盘，否则为坏盘。

OSD进程主动向OSD Monitor标记下线down之前，生成一个坏盘检测文件，在坏盘检测期间，读取到该文件的存在，则不允许OSD进程被脚本自动启动。

如果坏盘检测脚本检测为好盘，则删除坏盘检测文件，如果为坏盘则向OSDMonitor发送告警和out osd的命令。命令中携带告警的基本信息，如槽位号、业务网ip、osdid等。

本公开同时提供了一种硬盘故障处理装置，应用于存储设备，如图2，所述装置包括：接收模块21，用于接收硬盘错误报告；接收模块22，用于根据硬盘错误报告，在监视器中将对应的硬盘标记为下线状态，并关闭对应的OSD进程；处理模块23，用于判断硬盘错误报告对应的硬盘是否为坏盘，若是，则删除对应的OSD进程并发送告警信息。

装置实施方式与方法实施方式相同或相似，在此不再赘述。

在一种实施方式中，本公开提供了一种电子设备，包括处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，处理器执行所述机器可执行指令以实现前述的硬盘故障处理方法，从硬件层面而言，硬件架构示意图可以参见图3所示。

在一种实施方式中，本公开提供了一种机器可读存储介质，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现前述的硬盘故障处理方法。

这里，机器可读存储介质可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质可以是：RAM(RadomAccess Memory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。

上述实施方式阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本公开时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本公开的实施方式可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施方式、完全软件实施方式、或结合软件和硬件方面的实施方式的形式。而且，本公开实施方式可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施方式的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可以由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

而且，这些计算机程序指令也可以存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或者多个流程和/或方框图一个方框或者多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上，使得在计算机或者其它可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域技术人员应明白，本公开的实施方式可提供为方法、系统或计算机程序产品。因此，本公开可以采用完全硬件实施方式、完全软件实施方式、或者结合软件和硬件方面的实施方式的形式。而且，本公开可以采用在一个或者多个其中包含有计算机可用程序代码的计算机可用存储介质(可以包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本公开的实施方式而已，并不用于限制本公开。对于本领域技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本公开的权利要求范围之内。

Claims

1.一种硬盘故障处理方法，其特征在于，应用于存储设备，所述方法包括：

接收硬盘错误报告；

根据硬盘错误报告，在监视器中将对应的硬盘标记为下线状态，并关闭对应的OSD进程；

判断硬盘错误报告对应的硬盘是否为坏盘，若是，则删除对应的OSD进程并发送告警信息。

2.根据权利要求1所述的方法，其特征在于，所述判断硬盘错误报告对应的硬盘是否为坏盘，包括：

若否，则重启关闭的OSD进程。

3.根据权利要求1所述的方法，其特征在于，

所述根据硬盘错误报告，在监视器中将对应的硬盘标记为下线状态，包括：

生成对应的坏盘检测文件；

所述判断硬盘错误报告对应的硬盘是否为坏盘，包括：

根据坏盘检测文件，执行坏盘检测流程，若执行未通过则判定为坏盘，若执行通过则判定为好盘。

4.根据权利要求3所述的方法，其特征在于，

若存在对应的坏盘检测文件，则拒绝重启对应的关闭的OSD进程；

所述根据坏盘检测文件，执行坏盘检测流程，若执行未通过则判定为坏盘，若执行通过则判定为好盘，包括：

若执行通过则判定为好盘并删除对应的坏盘检测文件。

5.一种硬盘故障处理装置，其特征在于，应用于存储设备，所述装置包括：

接收模块，用于接收硬盘错误报告；

接收模块，用于根据硬盘错误报告，在监视器中将对应的硬盘标记为下线状态，并关闭对应的OSD进程；

处理模块，用于判断硬盘错误报告对应的硬盘是否为坏盘，若是，则删除对应的OSD进程并发送告警信息。

6.根据权利要求5所述的装置，其特征在于，所述判断硬盘错误报告对应的硬盘是否为坏盘，包括：

若否，则重启关闭的OSD进程。

7.根据权利要求5所述的装置，其特征在于，

生成对应的坏盘检测文件；

所述判断硬盘错误报告对应的硬盘是否为坏盘，包括：

8.根据权利要求7所述的装置，其特征在于，

若执行通过则判定为好盘并删除对应的坏盘检测文件。

9.一种电子设备，其特征在于，包括：处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令，以实现权利要求1-4任一所述的方法。

10.一种机器可读存储介质，其特征在于，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现权利要求1-4任一所述的方法。