CN109213617A

CN109213617A - 一种osd故障原因的确定方法、系统及相关组件

Info

Publication number: CN109213617A
Application number: CN201811115263.1A
Authority: CN
Inventors: 贺计文
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Zhengzhou Yunhai Information Technology Co Ltd
Priority date: 2018-09-25
Filing date: 2018-09-25
Publication date: 2019-01-15

Abstract

本申请公开了一种osd故障原因的确定方法，所述确定方法包括检测每一存储节点的运行状态信息，并根据所述运行状态信息判断是否存在osd故障；若是，则通过目标数据查找所述osd故障对应的osd故障原因；其中，所述目标数据包括osd日志、磁盘smartctl信息和系统日志中的任一项或任几项的组合。本方法能够快速确定osd故障原因，提高osd故障检测的效率。本申请还公开了一种osd故障原因的确定系统、一种计算机可读存储介质及一种电子设备，具有以上有益效果。

Description

一种osd故障原因的确定方法、系统及相关组件

技术领域

本发明涉及数据存储技术领域，特别涉及一种osd故障原因的确定方法、系统、一种计算机可读存储介质及一种电子设备。

背景技术

随着大数据、云计算、高性能应用大量兴起，需要使用稳定可靠的分布式存储系统作为后盾。确保分布式存储系统的稳定运行是保证上层应用的基础，分布式存储系统经常出现OSD(Object Storage Daemon，用于存储对象的守护进程)down的问题，导致osd down的原因有很多，比如osd程序bug、机房断电导致的xfs文件系统问题、磁盘故障问题等。

但是，现有技术中尚不存在自动化的确定osd故障原因的技术方案，目前只能依靠具有丰富经验的技术人员进行人工检查，效率低下，无法快速确定osd故障原因。

因此，如何快速确定osd故障原因，提高osd故障检测的效率是本领域技术人员目前需要解决的技术问题。

发明内容

本申请的目的是提供一种osd故障原因的确定方法、系统、一种计算机可读存储介质及一种电子设备，能够快速确定osd故障原因，提高osd故障检测的效率。

为解决上述技术问题，本申请提供一种osd故障原因的确定方法，该确定方法包括：

检测每一存储节点的运行状态信息，并根据所述运行状态信息判断是否存在osd故障；

若是，则通过目标数据查找所述osd故障对应的osd故障原因；其中，所述目标数据包括osd日志、磁盘smartctl信息和系统日志中的任一项或任几项的组合。

可选的，通过目标数据查找所述osd故障对应的osd故障原因包括：

扫描故障osd日志，并判断所述故障osd日志中是否存在EIO错误；

若存在，则判定所述osd故障原因为osd自身bug；

若不存在，则提取所述osd故障对应的磁盘smartctl信息，并判断smartctl信息中的重映射扇区数、当前待映射扇区数和脱机无法校正的扇区数是否均等于0；

若不均等于0，则判定所述osd故障原因为磁盘故障；

若均等于0，则分析系统日志；当所述系统日志中存在Medium error或Hardwareerror则判定所述osd故障原因为所述磁盘故障；当所述系统日志中存在xfs error则判定所述osd故障原因为文件系统损坏。

可选的，当所述osd故障原因为文件系统损坏时，还包括：

对所述osd故障进行修复，以便重新启动对应的osd进程。

可选的，还包括：

上报所述osd故障原因至管理界面。

可选的，还包括：

利用配置于所述管理界面的短信猫和/或邮箱软件发送所述osd故障原因。

本申请还提供了一种osd故障原因的确定系统，该系统包括：

故障检测模块，用于检测每一存储节点的运行状态信息，并根据所述运行状态信息判断是否存在osd故障；其中，所述目标数据包括osd日志、磁盘smartctl信息和系统日志中的任一项或任几项的组合。

原因确定模块，用于当存在所述osd故障时，则通过目标数据查找所述osd故障对应的osd故障原因；

可选的，所述原因确定模块包括：

第一判断单元，用于扫描故障osd日志，并判断所述故障osd日志中是否存在EIO错误；若存在，则判定所述osd故障原因为osd自身bug；若不存在，则启动第二判断单元对应的工作流程；

第二判断单元，用于提取所述osd故障对应的磁盘smartctl信息，并判断smartctl信息中的重映射扇区数、当前待映射扇区数和脱机无法校正的扇区数是否均等于0；若不均等于0，则判定所述osd故障原因为磁盘故障；若均等于0，则启动第三判断单元对应的工作流程；

第三判断单元，用于分析系统日志，当所述系统日志中存在Medium error或Hardware error则判定所述osd故障原因为所述磁盘故障；当所述系统日志中存在xfserror则判定所述osd故障原因为文件系统损坏。

可选的，还包括：

修复模块，用于对所述osd故障进行修复，以便重新启动对应的osd进程。

本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序执行时实现上述osd故障原因的确定方法执行的步骤。

本申请还提供了一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时实现上述osd故障原因的确定方法执行的步骤。

本发明提供了一种osd故障原因的确定方法，包括检测每一存储节点的运行状态信息，并根据所述运行状态信息判断是否存在osd故障；若是，则通过目标数据查找所述osd故障对应的osd故障原因；其中，所述目标数据包括osd日志、磁盘smartctl信息和系统日志中的任一项或任几项的组合。

本申请在检测到存在osd故障后，通过分析osd日志和/或磁盘smartctl信息和/或系统日志，最终确定造成osd故障的原因，osd日志、磁盘smartctl信息和系统日志都是分布式存储系统中内部的信息，可以实现分布式存储系统自动对上述信息进行分析，无需人工干预。因此，本申请能够快速确定osd故障原因，提高osd故障检测的效率。本申请同时还提供了一种osd故障原因的确定系统、一种计算机可读存储介质和一种电子设备，具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例所提供的一种osd故障原因的确定方法的流程图；

图2为本申请实施例所提供的一种查找osd故障原因的方法的流程图；

图3为本申请实施例所提供的一种osd故障原因的确定系统的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面请参见图1，图1为本申请实施例所提供的一种osd故障原因的确定方法的流程图。

具体步骤可以包括：

S101：检测每一存储节点的运行状态信息，并根据所述运行状态信息判断是否存在osd故障；若是，则进入S102；若否，则结束流程。

其中，osd(即Object Storage Daemon)，用于存储对象的守护进程，一般一块盘对应一个osd进程。本步骤可以按照预设时间对系统内(如分布式存储系统)的所有存储节点进行检测得到每一存储节点的运行状态信息，通过分析运行状态信息来判断某一处的存储节点是否存在osd故障。osd故障是指osd进程无法正常运行的情况，导致osd故障的情况有很多比如osd程序bug、机房断电导致的xfs文件系统问题、磁盘故障问题等。需要说明的是，如何根据运行状态信息确定是否存在osd故障是现有技术中已经非常成熟的技术，此处不进行具体的描述。在出现osd故障之后还可以将osd故障对应的磁盘点亮。

S102：通过目标数据查找所述osd故障对应的osd故障原因；其中，所述目标数据包括osd日志、磁盘smartctl信息和系统日志中的任一项或任几项的组合。

当检测到存在osd故障后，为了尽快恢复故障，需要将发生osd故障的原因上报到管理界面，以便相关人员根据故障原因采取对应的解决措施。具体的，本实施例通过查找osd日志、磁盘smartctl信息和系统日志中的任一项或任几项的组合来确定osd故障原因。此处并不限定从osd日志、磁盘smartctl信息和系统日志中查找故障原因的具体顺序，作为一种优选的实施方式，可以按照osd日志、磁盘smartctl信息和系统日志的顺序进行osd故障原因的查找，一旦找到osd故障原因则可以停止查找故障原因的操作。例如，先根据osd日志没有找到osd故障原因，再根据磁盘smartctl信息找到了osd故障原因，此时无需在执行根据系统日志查找故障原因的操作。上述提到的smartctl是一种磁盘自我分析检测技术，早在90年代末就基本得到了普及，每一块硬盘(包括IDE、SCSI)在运行的时候，都会将自身的若干参数记录下来。这些参数包括型号、容量、温度、密度、扇区、寻道时间、传输、误码率等。硬盘运行了几千小时后，很多内在的物理参数都会发生变化，某一参数超过报警阈值，则说明硬盘接近损坏，此时硬盘依然在工作，如果用户不理睬这个报警继续使用，那么硬盘将变得非常不可靠，随时可能故障。磁盘smartctl信息就是磁盘自我分析检测得到的信息。

本实施例在检测到存在osd故障后，通过分析osd日志和/或磁盘smartctl信息和/或系统日志，最终确定造成osd故障的原因，osd日志、磁盘smartctl信息和系统日志都是分布式存储系统中内部的信息，可以实现分布式存储系统自动对上述信息进行分析，无需人工干预。因此，本实施例能够快速确定osd故障原因，提高osd故障检测的效率。

下面请参见图2，图2为本申请实施例所提供的一种查找osd故障原因的方法的流程图，本实施例是对图1对应的实施例中S102的进一步描述，可以将本申请实施例与图1对应的实施例进行结合得到更优选的实施方式。

具体步骤可以包括：

S201：扫描故障osd日志，并判断所述故障osd日志中是否存在EIO错误；若存在，则进入S202；若不存在，则进入S203；

其中，EIO错误是指error of input output error，具体为linux error的-5，表示存在I/O错误。当出现EIO错误时，说明osd自身程序出现故障属于osd自身bug。

S202：判定所述osd故障原因为osd自身bug；

S203：提取所述osd故障对应的磁盘smartctl信息，并判断smartctl信息中的重映射扇区数、当前待映射扇区数和脱机无法校正的扇区数是否均等于0；若不均等于0，则进入S204；若均等于0，则进入S205；

在没有根据osd日志找到osd故障原因的前提下，可以通过磁盘smartctl信息来查找osd故障原因。本步骤中提取osd故障对应的磁盘smartctl信息的意义具体为：查找osd故障对应的存储节点的节点ID，提取该节点ID对应的磁盘smartctl信息。具体的，此处的判断条件为只要重映射扇区数、当前待映射扇区数和脱机无法校正的扇区数有一个为0，就代表磁盘有问题了。Reallocated_Sector_Ct：重映射扇区数，坏扇区映射到新扇区的数目。Current_Pending_Sector，当前待映射扇区计数，这个参数的数据表示了“不稳定的”扇区数，即等待被映射的扇区(也称“被挂起的扇区”)数量。Offline Uncorrectable：脱机无法校正的扇区计数，Sector Count这个参数的数据累计了读写扇区时发生的无法校正的错误总数。当重映射扇区数、当前待映射扇区数和脱机无法校正的扇区数不均等于0时，则说明时磁盘故障导致的osd故障。

S204：判定所述osd故障原因为磁盘故障；

S205：分析系统日志；当所述系统日志中存在Medium error(介质故障)或Hardware error(硬件故障)则判定所述osd故障原因为所述磁盘故障；当所述系统日志中存在xfs error则判定所述osd故障原因为文件系统损坏。

在没有根据磁盘smartctl信息找到osd故障原因的前提下，可以通过分析系统日志判断是否存在Medium error或Hardware error，若是则说明osd故障原因为文件系统损坏。

作为一种优选的实施方式，当所述osd故障原因为文件系统损坏时，可以对所述osd故障进行修复，以便重新启动对应的osd进程。

作为一种优选的实施方式，在确定osd故障原因之后还包括：上报所述osd故障原因至管理界面，并利用配置于所述管理界面的短信猫和/或邮箱软件发送所述osd故障原因。

下面通过在实际应用中的实施例说明上述实施例描述的流程。

步骤1：存储节点每半小时扫描故障osd，如有故障osd则进入下一步；

步骤2：扫描故障osd日志，判断是否出现EIO(error of input output error)，如没有则为osd bug，分析结束上报管理界面，如有进入下一步；

步骤3：提取磁盘的smartctl信息，判断5Reallocated_Sector_Ct，197Current_Pending_Sector及198Offline_Uncorrectable是否大于0，如果等于0进入下一步，如果大于0则为磁盘故障，分析结束上报管理界面；

步骤4：分析系统日志/var/log/messages，如出现Medium error或Hardwareerror则为磁盘故障，上报管理界面；如未出现，进入下一步；

步骤5：分析系统日志/var/log/messages，如出现xfs error，则为文件系统损坏。Xfs系统损坏，使用xfs_repair进行修复，如修复成功则启动osd，否则上报管理界面。

步骤6：在管理界面提取配置好短信猫及邮件，出现osd故障时上报都管理界面，管理界面负责把信息通过短信及邮件的方式通知到运维人员，以便运维人员及时处理。

本实施例给出了一种osd故障自动检测的方法，并给出系统的实现，从多个维度对osd故障进行检测及分析，据此给出故障原因，并把分析信息及时上报到管理界面，同时点亮故障osd所对应的盘符，为运维人员采取措施提供了必要的信息，有效的降低了运维成本。

请参见图3，图3为本申请实施例所提供的一种osd故障原因的确定系统的结构示意图；

该系统可以包括：

故障检测模块100，用于检测每一存储节点的运行状态信息，并根据所述运行状态信息判断是否存在osd故障；其中，所述目标数据包括osd日志、磁盘smartctl信息和系统日志中的任一项或任几项的组合。

原因确定模块200，用于当存在所述osd故障时，则通过目标数据查找所述osd故障对应的osd故障原因；

进一步的，所述原因确定模块包括：

进一步的，还包括：

上报模块，用于上报所述osd故障原因至管理界面。

进一步的，还包括：

通知模块，用于利用配置于所述管理界面的短信猫和/或邮箱软件发送所述osd故障原因。

由于系统部分的实施例与方法部分的实施例相互对应，因此系统部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

本申请还提供了一种计算机可读存储介质，其上存有计算机程序，该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请还提供了一种电子设备，可以包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时，可以实现上述实施例所提供的步骤。当然所述电子设备还可以包括各种网络接口，电源等组件。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种osd故障原因的确定方法，其特征在于，包括：

2.根据权利要求1所述确定方法，其特征在于，通过目标数据查找所述osd故障对应的osd故障原因包括：

若存在，则判定所述osd故障原因为osd自身bug；

若不均等于0，则判定所述osd故障原因为磁盘故障；

若均等于0，则分析系统日志；当所述系统日志中存在Medium error或Hardware error则判定所述osd故障原因为所述磁盘故障；当所述系统日志中存在xfs error则判定所述osd故障原因为文件系统损坏。

3.根据权利要求1所述确定方法，其特征在于，当所述osd故障原因为文件系统损坏时，还包括：

对所述osd故障进行修复，以便重新启动对应的osd进程。

4.根据权利要求1所述确定方法，其特征在于，还包括：

上报所述osd故障原因至管理界面。

5.根据权利要求4所述确定方法，其特征在于，还包括：

6.一种osd故障原因的确定系统，其特征在于，包括：

故障检测模块，用于检测每一存储节点的运行状态信息，并根据所述运行状态信息判断是否存在osd故障；

原因确定模块，用于当存在所述osd故障时，则通过目标数据查找所述osd故障对应的osd故障原因；其中，所述目标数据包括osd日志、磁盘smartctl信息和系统日志中的任一项或任几项的组合。

7.根据权利要求6所述确定系统，其特征在于，所述原因确定模块包括：

第三判断单元，用于分析系统日志，当所述系统日志中存在Medium error或Hardwareerror则判定所述osd故障原因为所述磁盘故障；当所述系统日志中存在xfs error则判定所述osd故障原因为文件系统损坏。

8.根据权利要求6所述确定系统，其特征在于，还包括：

9.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至5任一项所述osd故障原因的确定方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述osd故障原因的确定方法的步骤。