CN117312081A

CN117312081A - 分布式存储系统的故障检测方法、装置、设备及介质

Info

Publication number: CN117312081A
Application number: CN202311251731.9A
Authority: CN
Inventors: 杜兆月; 侯斌
Original assignee: Inspur Jinan data Technology Co ltd
Current assignee: Inspur Jinan data Technology Co ltd
Priority date: 2023-09-26
Filing date: 2023-09-26
Publication date: 2023-12-29

Abstract

本发明涉及分布式存储技术领域，公开了一种分布式存储系统的故障检测方法、装置、设备及介质，该方法包括：接收来自于存储节点的第一信息，第一信息为存储节点执行数据操作请求时服务模块的服务状态发生变化的指示信息；根据第一信息从存储节点获取服务模块的当前数据结构信息；对比当前数据结构信息和上一数据结构信息；在满足第一条件的情况下，确定存储节点故障，第一条件包括当前数据结构信息和上一数据结构信息不同，且上一数据结构信息对应的服务状态为正常状态，或者，当前数据结构信息和上一数据结构信息相同，且上一数据结构信息对应的服务状态为异常状态。本发明能够在保证分布式存储系统性能的同时，及时发现分布式存储系统的故障。

Description

分布式存储系统的故障检测方法、装置、设备及介质

技术领域

本发明涉及分布式存储技术领域，具体涉及一种分布式存储系统的故障检测方法、装置、设备及介质。

背景技术

分布式存储是一种将数据分散存储到多个存储服务器上的数据存储方式。与传统的集中式存储相比，分布式存储系统具有高性能、可扩展和成本低等优点，被广泛应用于云计算、物联网、大数据等应用场景。其中，通过分布式存储系统的故障检测功能及时发现存储节点的故障并告警，能够保证系统的稳定性和可靠性。

目前，主要通过监控节点轮询各个存储节点，根据各个存储节点内服务模块的数据结构，检测各个存储节点是否故障。但是在这种检测方式下，若轮询频率不够高可能导致故障不能及时被检测到，而轮询频率过高会占用大量的硬件资源，从而影响分布式存储系统的性能。因此，目前亟需一种故障检测方法，能够在保证分布式存储系统性能的同时，及时发现分布式存储系统的故障。

发明内容

有鉴于此，本发明提供了一种分布式存储系统的故障检测方法、装置、设备及介质，以解决保证系统性能导致的不能及时发现分布式系统故障的问题。

第一方面，本发明提供了一种分布式存储系统的故障检测方法，所述分布式存储系统包括存储节点和监控管理节点，所述方法应用于所述监控管理节点，所述方法包括：接收来自于所述存储节点的第一信息，所述第一信息为所述存储节点执行数据操作请求时服务模块的服务状态发生变化的指示信息；根据所述第一信息从所述存储节点获取所述服务模块的当前数据结构信息，所述当前数据结构信息为当前时刻所述服务模块的数据结构信息；对比所述当前数据结构信息和上一数据结构信息，所述上一数据结构信息为上一时刻所述服务模块的数据结构信息；在满足第一条件的情况下，确定所述存储节点故障，所述第一条件包括所述当前数据结构信息和所述上一数据结构信息不同，且所述上一数据结构信息对应的服务状态为正常状态，或者，所述当前数据结构信息和所述上一数据结构信息相同，且所述上一数据结构信息对应的服务状态为异常状态。

本实施例提供的分布式存储系统的故障检测方法，监控管理节点在接收到来自于存储节点的第一信息之后，根据第一信息从存储节点获取服务模块的当前数据结构信息。然后对比当前数据结构信息和上一数据结构信息，确定存储节点是否异常。本实施例在存储节点的服务模块的服务状态发生变化时，才触发监控管理节点的检测机制，确定该存储节点是否故障。相比于传统的轮询方式，能够减少消息数量，降低检测存储节点是否故障时对系统资源的占用率，在保证系统性能的同时，及时确定存储节点是否故障。另外，本实施例所提出的故障检测方法是独立存在于监控管理节点的，相比于传统的基于监视器确定存储节点是否故障，本实例在监视器故障的情况下，也能够确定存储节点是否故障。同样的，即使监控管理节点发生故障，对集群的正常业务也不会产生影响，提升了分布式存储系统的可靠性和容错性。

在一种可选的实施方式中，在所述根据所述第一信息从存储节点获取所述服务模块的当前数据结构信息之后，所述方法还包括：根据所述服务模块确定并调用目标检查函数，所述目标检查函数为多个检查函数中与所述服务模块对应的检查函数；所述对比所述当前数据结构信息和上一数据结构信息，包括：通过所述目标检查函数对比所述当前数据结构信息和所述上一数据结构信息。

本实施例中，通过目标检查函数与服务模块的当前数据结构信息进行对比，能够准确高效的确定当前数据结构信息和上一数据结构信息是否相同。

在一种可选的实施方式中，所述监控管理节点还包括守护进程模块和检测告警模块，所述检测告警模块包括预先配置的所述多个检查函数；所述根据所述服务模块确定并调用目标检查函数，包括：在所述根据所述第一信息从所述存储节点获取所述服务模块的当前数据结构信息之后，控制所述守护进程模块向所述检测告警模块发送调用请求，所述调用请求为调用所述检测告警模块的请求，以使所述检测告警模块处于活动状态；在所述检测告警模块处于活动状态之后，控制所述检测告警模块获取所述当前数据结构信息；控制所述检测告警模块确定所述当前数据结构信息对应的所述服务模块；控制所述检测告警模块根据所述服务模块和预设对应关系，确定所述目标检测函数，所述检测告警模块配置所述预设对应关系，所述预设对应关系为所述多个检查函数与多个服务模块之间的对应关系；控制所述检测告警模块调用所述目标检查函数。

在一种可选的实施方式中，在所述根据所述第一信息从所述存储节点获取所述服务模块的当前数据结构信息之后，所述方法还包括：根据所述当前数据结构信息更新存储的所述服务模块的所述上一数据结构信息。

本实施例中，通过当前数据结构信息更新存储的服务模块的上一数据结构信息，使监控管理节点方便获取上一数据结构信息。

在一种可选的实施方式中，所述方法还包括：在满足第二条件的情况下，确定所述存储节点正常，所述第二条件包括所述当前数据结构信息和所述上一数据结构信息不同，且所述上一数据结构信息对应的服务状态为异常状态，或者，所述当前数据结构信息和所述上一数据结构信息相同，且所述上一数据结构信息对应的服务状态为正常状态。

在一种可选的实施方式中，在接收来自于所述存储节点的第一信息之前，所述方法还包括：初始化存储的所述服务模块的数据结构信息和所述数据结构信息对应的服务状态，所述服务状态包括对象存储设备状态、监视器状态、元数据状态、对象存储设备的健康状态和放置组状态中的至少一种。

第二方面，本发明提供了一种分布式存储系统的故障检测方法，所述分布式存储系统包括存储节点和监控管理节点，所述方法应用于所述存储节点，所述方法包括：接收来自于客户端的数据操作请求；在执行所述数据操作请求的过程中，若服务模块的服务状态发生变化，则向所述监控管理节点发送第一信息，所述第一信息为所述服务模块的服务状态发生变化的指示信息，所述监控管理节点用于在接收所述第一信息之后，根据所述服务模块的当前数据结构信息确定所述存储节点是否故障。

第三方面，本发明提供了一种分布式存储系统的故障告警方法，所述分布式存储系统包括存储节点和监控管理节点，所述方法应用于所述监控管理节点，所述方法包括：上述第一方面或其对应的任一实施方式的方法；在确定所述存储节点故障的情况下，向客户端发送告警信息，所述告警信息用于提示所述客户端所述存储节点故障。

在本实施例中，监控管理节点在判定存储节点故障的情况下，向客户端发送告警信息，能够在存储节点故障的情况下，及时通知工作人员，使工作人员及时处理和修复存储节点。

在一种可选的实施方式中，所述方法还包括：在所述当前数据结构信息和所述上一数据结构信息不同，且所述上一数据结构信息对应的状态为异常状态的情况下，向所述客户端发送消除告警信息，所述消除告警信息用于提示所述客户端所述存储节点恢复正常。

在本实施例中，在服务模块的服务状态从异常状态变为正常状态之后，向客户端发送消除告警信息，能够及时提醒工作人员存储节点恢复正常。

第四方面，本发明提供了一种分布式存储系统的故障检测装置，所述装置包括：第二接收模块，用于接收来自于存储节点的第一信息，所述第一信息为所述存储节点执行数据操作请求时服务模块的服务状态发生变化的指示信息；获取模块，用于根据所述第一信息从所述存储节点获取所述服务模块的当前数据结构信息，所述当前数据结构信息为当前时刻所述服务模块的数据结构信息；对比模块，用于对比所述当前数据结构信息和上一数据结构信息，所述上一数据结构信息为上一时刻所述服务模块的数据结构信息；处理模块，用于在满足第一条件的情况下，确定所述存储节点故障，所述第一条件包括所述当前数据结构信息和所述上一数据结构信息不同，且所述上一数据结构信息对应的服务状态为正常状态，或者，所述当前数据结构信息和所述上一数据结构信息相同，且所述上一数据结构信息对应的服务状态为异常状态。

在一种可选的实施方式中，所述处理模块还包括：第一处理单元，用于根据所述服务模块确定并调用目标检查函数，所述目标检查函数为多个检查函数中与所述服务模块对应的检查函数；所述对比模块还包括：第一对比单元，用于通过所述目标检查函数对比所述当前数据结构信息和所述上一数据结构信息。

在一种可选的实施方式中，所述监控管理节点还包括守护进程模块和检测告警模块，所述第一处理单元，包括：第一控制子单元，用于在所述根据所述第一信息从所述存储节点获取所述服务模块的当前数据结构信息之后，控制所述守护进程模块向所述检测告警模块发送调用请求，所述调用请求为调用所述检测告警模块的请求，以使所述检测告警模块处于活动状态；第二控制子单元，用于在所述检测告警模块处于活动状态之后，控制所述检测告警模块获取所述当前数据结构信息；第三控制子单元，用于控制所述检测告警模块确定所述当前数据结构信息对应的所述服务模块；第四控制子单元，用于控制所述检测告警模块根据所述服务模块和预设对应关系，确定所述目标检测函数，所述检测告警模块配置所述预设对应关系，所述预设对应关系为所述多个检查函数与多个服务模块之间的对应关系；第五控制子单元，用于控制所述检测告警模块调用所述目标检查函数。

在一种可选的实施方式中，所述处理模块还包括：第二处理单元，用于根据所述当前数据结构信息更新存储的所述服务模块的数据结构信息。

在一种可选的实施方式中，所述处理模块还包括：第三处理单元，用于在满足第二条件的情况下，确定所述存储节点正常，所述第二条件包括所述当前数据结构信息和所述上一数据结构信息不同，且所述上一数据结构信息对应的服务状态为异常状态，或者，所述当前数据结构信息和所述上一数据结构信息相同，且所述上一数据结构信息对应的服务状态为正常状态。

在一种可选的实施方式中，所述处理模块还包括：第四处理单元，用于初始化存储的所述服务模块的数据结构信息和所述数据结构信息对应的服务状态，所述服务状态包括对象存储设备状态、监视器状态、元数据状态、对象存储设备的健康状态和放置组状态中的至少一种。

第五方面，本发明实施例提供了一种分布式存储系统的故障检测装置，所述装置包括：第一接收模块，用于接收来自于客户端的数据操作请求；第一发送模块，用于在执行所述数据操作请求的过程中，若服务模块的服务状态发生变化，则向监控管理节点发送第一信息，所述第一信息为所述服务模块的服务状态发生变化的指示信息，所述监控管理节点用于在接收所述第一信息之后，根据所述服务模块的当前数据结构信息确定存储节点是否故障。

第六方面，本发明实施例提供了一种分布式存储系统的故障告警装置，所述装置包括：上述第四方面或其对应的任一实施方式的故障检测装置；第二发送模块，用于在确定所述存储节点故障的情况下，向客户端发送告警信息，所述告警信息用于提示所述客户端所述存储节点故障。

在一种可选的实施方式中，所述处理模块还包括第五处理单元，用于在所述当前数据结构信息和所述上一数据结构信息不同，且所述上一数据结构信息对应的状态为异常状态的情况下，向所述客户端发送消除告警信息，所述消除告警信息用于提示所述客户端所述存储节点恢复正常。

第七方面，本发明实施例还提供一种分布式存储系统，所述系统包括存储节点和监控管理节点，所述存储节点包括第一接收模块和第一发送模块，所述监控管理节点包括第二接收模块、获取模块、对比模块和处理模块，或者所述监控管理节点还包括第二发送模块；所述第一接收模块，用于接收来自于客户端的数据操作请求；所述第一发送模块，用于在执行所述数据操作请求的过程中，若服务模块的服务状态发生变化，则向所述监控管理节点发送第一信息，所述第一信息为所述服务模块的服务状态发生变化的指示信息；所述第二接收模块，用于接收来自于所述存储节点的所述第一信息；所述获取模块，用于根据所述第一信息从所述存储节点获取所述服务模块的当前数据结构信息，所述当前数据结构信息为当前时刻所述服务模块的数据结构信息；所述对比模块，用于对比所述当前数据结构信息和上一数据结构信息，所述上一数据结构信息为上一时刻所述服务模块的数据结构信息；所述处理模块，用于在满足第一条件的情况下，确定所述存储节点故障，所述第一条件包括所述当前数据结构信息和所述上一数据结构信息不同，且所述上一数据结构信息对应的服务状态为正常状态，或者，所述当前数据结构信息和所述上一数据结构信息相同，且所述上一数据结构信息对应的服务状态为异常状态；所述第二发送模块，用于在确定所述存储节点故障的情况下，向客户端发送告警信息，所述告警信息用于提示所述客户端所述存储节点故障。

在一种可选的实施方式中，所述监控管理节点包括守护进程模块和检测告警模块；在所述获取模块用于根据所述第一信息从所述存储节点获取所述服务模块的当前数据结构信息之后，所述守护进程模块，用于向所述检测告警模块发送调用请求，所述调用请求为调用所述检测告警模块的请求，以使所述检测告警模块处于活动状态；所述检测告警模块，用于接收来自于所述守护进程模块的所述调用请求；所述检测告警模块，还用于获取所述当前数据结构信息；所述检测告警模块，还用于确定所述当前数据结构信息对应的所述服务模块；所述检测告警模块，还用于根据所述服务模块和预设对应关系，确定所述目标检查函数以及调用所述目标检查函数，所述目标检查函数为多个检查函数中与所述服务模块对应的检查函数，所述检测告警模块包括所述多个检查函数，所述检测告警模块配置所述预设对应关系，所述预设对应关系为所述多个检查函数与多个服务模块之间的对应关系；所述对比模块用于对比所述当前数据结构信息和上一数据结构信息，包括：所述对比模块，用于通过所述目标检查函数对比所述当前数据结构信息和所述上一数据结构信息。

第八方面，本发明提供了一种计算机设备，包括：存储器和处理器，存储器和处理器之间互相通信连接，存储器中存储有计算机指令，处理器通过执行计算机指令，从而执行上述第一方面或其对应的任一实施方式的方法，或者执行上述第二方面或其对应的任一实施方式的方法，或者执行上述第三方面或其对应的任一实施方式的方法。

第九方面，本发明提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机指令，计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的方法，或者执行上述第二方面或其对应的任一实施方式的方法，或者执行上述第三方面或其对应的任一实施方式的方法。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例适用的分布式存储系统的架构示意图；

图2是根据本发明实施例的一种分布式存储系统的故障检测方法的流程示意图；

图3是根据本发明实施例的另一种分布式存储系统的故障检测方法的流程示意图；

图4是根据本发明实施例的一种分布式存储系统的故障告警方法的流程示意图；

图5是根据本发明实施例的一种分布式存储系统的故障检测装置的结构框图；

图6是根据本发明实施例的一种分布式存储系统的故障告警装置的结构框图；

图7是根据本发明实施例的另一种分布式存储系统的故障检测装置的结构框图；

图8是根据本发明实施例的一种分布式存储系统的结构框图；

图9是本发明实施例的计算机设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的分布式存储系统的故障检测方法，可以应用于分布式存储系统，例如ceph分布式存储系统。

为了方便理解本发明的技术方案，首先对本发明提供的分布式存储系统的故障检测方法和告警方法适用的分布式存储系统的架构进行简要说明。

如图1所示，分布式存储系统100包括多个存储节点(例如，如图1所示的存储节点110、存储节点120、存储节点130)和监控管理(Manager，MGR)节点210。节点可以为物理主机、服务器等设备。

示例性的，多个存储节点中的存储节点上运行对象存储设备(Object-basedStorage Device，OSD)守护进程(Daemon)、监视器(Monitor，MON)守护进程、元数据(MetaData Server，MDS)守护进程等服务模块中的至少一种。

具体地，OSD守护进程用于处理数据操作请求(例如读写请求)和监控自身或者其他OSD守护进程的健康(Health)状态并发送给MON守护进程。OSD守护进程在放置组PG(Placement Group)当中，一个PG包括多个OSD，PG也用于放置对象(Object)。其中，对象是分布式存储系统中数据保存的最小单元，分布在各个PG中，一个PG中保存着大量对象。MON守护进程用于监控集群(分布式存储系统的简称)的全局服务状态(例如，OSD Map、MONMap、PG Map等的服务状态)。示例性的，OSD Map包括分布式存储系统中所有OSD的配置信息、服务状态(例如，OSD的加入或者退出)以及数据的映射关系。MDS守护进程是Ceph文件系统服务(File System，FS)的元数据管理进程，主要是负责文件系统的元数据管理。MGR节点210主要作用是分担和扩展MON守护进程的部分功能，减轻MON守护进程的负担，以更好地管理集群。

下面基于分布式存储系统对分布式存储系统的故障检测方法和告警方法进行说明。

根据本发明实施例，提供了一种分布式存储系统的故障检测方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在本实施例中提供了一种分布式存储系统的故障检测方法，可用于上述的分布式存储系统，图2是根据本发明实施例的一种分布式存储系统的故障检测方法的流程示意图，如图2所示，该方法包括如下步骤：

步骤S201，存储节点接收来自于客户端的数据操作请求。

其中，存储节点可以为图1所示的多个存储节点中的任意一个存储节点，例如，存储节点可以为存储节点110、存储节点120或者存储节点130。客户端可以为计算机、电脑或者手机等设备。

示例性的，数据操作请求可以为从OSD读取数据或者文件的请求、向OSD写入数据或者文件的请求或者其他请求。

步骤S202，存储节点向监控管理节点发送第一信息。相应地，监控管理节点接收来自于存储节点的第一信息。

其中，监控管理节点可以为图1所示的MGR节点210。第一信息为存储节点执行数据操作请求时服务模块的服务状态发生变化的指示信息。示例性的，服务状态包括OSD状态、MON状态、MDS状态、Health状态和PG状态中的至少一种。例如，OSD状态包括离线(down)状态和在线(up)状态，MDS状态包括MDS服务成功和MDS服务失败，Health状态包括正常(ok)和错误(error)等。比如，在OSD处于在线状态，MDS服务成功，Health状态处于正常时，对应的服务模块的服务状态为正常状态。

具体地，存储节点接收到数据操作请求之后，根据数据操作请求执行相应操作(例如读写操作)，在这一过程中，若OSD、MON或者MDS等服务模块的服务状态发生变化，则向监控管理节点发送第一信息。

步骤S203，监控管理节点根据第一信息从存储节点获取服务模块的当前数据结构信息。

具体地，当服务模块的服务状态变化(例如OSD状态从up状态转化为down状态)时，服务模块对应的数据结构的键值也会相应发生改变。基于此，可以利用服务模块对应的数据结构信息确定相应的存储节点是否故障(异常)。

其中，当前数据结果信息为当前时刻服务模块的数据结构信息，即监控管理节点在接收到第一信息之后获取的相应服务模块的数据结构信息。

步骤S204，监控管理节点对比当前数据结果信息和上一数据结构信息。

其中，上一数据结构信息为上一时刻服务模块的数据结构信息，即监控管理节点在接收到第一信息之前存储的相应服务模块的数据结构信息。具体地，上一数据结构信息可以为上一次服务模块的服务状态发生变化之后，服务模块的数据结构信息，当前数据结构信息可以为当前次服务模块的服务状态发生变化之后，服务模块的数据结构信息。示例性的，监控管理节点可以将上一数据结构信息存储在本地。

步骤S205，监控管理节点在满足第一条件的情况下，确定存储节点故障。

其中，第一条件包括当前数据结构信息和上一数据结构信息不同，且上一数据结构信息对应的服务状态为正常状态；或者，第一条件包括当前数据结构信息和上一数据结构信息相同，且上一数据结构信息对应的服务状态为异常状态。

本实施例提供的分布式存储系统的故障检测方法，监控管理节点在接收到来自于存储节点的第一信息之后，根据第一信息从存储节点获取服务模块的当前数据结构信息。然后对比当前数据结构信息和上一数据结构信息，确定存储节点是否故障。本实施例在存储节点的服务模块的服务状态发生变化时，才触发监控管理节点的检测机制，确定该存储节点是否故障。相比于传统的轮询方式，能够减少消息数量，降低检测存储节点是否故障时对系统资源的占用率，在保证系统性能的同时，及时确定存储节点是否故障。另外，本实施例所提出的故障检测方法是独立存在于监控管理节点的，相比于传统的基于MON确定存储节点是否故障，本实例在MON故障的情况下，也能够确定存储节点是否故障。同样的，即使监控管理节点发生故障，对集群的正常业务也不会产生影响，提升了分布式存储系统的可靠性和容错性。

进一步地，在图2所示的实施方式中，在满足第二条件的情况下，确定存储节点正常。具体地，第二条件包括当前数据结构信息和上一数据结构信息不同，且上一数据结构信息对应的服务状态为异常状态；或者，第二条件包括当前数据结构信息和上一数据结构信息相同，且上一数据结构信息对应的服务状态为正常状态。

具体地，数据结构信息中通过不同的键值对应两种不同的服务状态(正常或者异常)。例如，当数据结构信息中的键值为1比特的1时，对应的服务状态为正常状态；当数据结构信息中的键值为1比特的0时，对应的服务状态为异常状态。此时，若当前数据结构信息和上一数据结构信息不同，且上一数据结构信息的键值为1比特的1(即上一数据结构信息对应的服务状态为正常状态)，则确定存储节点故障。若当前数据结构信息和上一数据结构信息相同，且上一数据结构信息的键值为1比特的0(即上一数据结构信息对应的服务状态为异常状态)，则确定存储节点故障。若当前数据结构信息和上一数据结构信息不同，且上一数据结构信息的键值为1比特的0时(即上一数据结构信息对应的服务状态为异常状态)，则确定存储节点正常。若当前数据结构信息和上一数据结构信息相同，且上一数据结构信息的键值为1比特的1时(即上一数据结构信息对应的服务状态为正常状态)，则确定存储节点正常。

在本实施例中提供了一种分布式存储系统的故障检测方法，可用于上述的分布式存储系统。图3是根据本发明实施例的另一种分布式存储系统的故障检测方法的流程示意图，如图3所示，该方法包括如下步骤：

步骤S301，存储节点接收来自于客户端的数据操作请求。

详细请参见图2所示实施例的步骤S201，在此不再赘述。

步骤S302，存储节点向监控管理节点发送第一信息。相应地，监控管理节点接收来自于存储节点的第一信息。

详细请参见图2所示实施例的步骤S202，在此不再赘述。

步骤S303，监控管理节点根据第一信息从存储节点获取服务模块的当前数据结构信息。

详细请参见图2所示实施例的步骤S203，在此不再赘述。

步骤S304，监控管理节点根据服务模块确定并调用目标检查函数。

其中，监控管理节点包括守护进程模块和检测告警模块。检测告警模块包括预先配置的多个检查(notify)函数和预设对应关系。预设对应关系为多个检测函数和多个服务模块之间的对应关系。即，不同的服务模块对应不同的检查函数。目标检查函数为多个检查函数中与服务模块对应的检查函数。

具体地，在步骤S303之后，控制守护进程模块向检测告警模块发送调用请求，其中，调用请求为调用检测告警模块的请求，以使检测告警模块处于活动状态。检测告警模块接收到调用请求之后处于活动状态，控制检测告警模块获取当前数据结构信息，并控制检测告警模块确定当前数据结构信息对应的服务模块。示例性的，可以基于第一信息确定当前数据结果信息对应的服务模块。

在确定当前数据结果信息对应的服务模块之后，控制检测告警模块根据服务模块和预设对应关系确定目标检测函数，并控制检测告警模块调用目标检查函数。

示例性的，监控管理节点包括检查函数31和检查函数32，存储节点包括服务模块111和服务模块112。预设对应关系可以为检查函数31和服务模块111对应，检查函数32和服务模块112对应。此时，在当前数据结构信息对应的服务模块为存储节点的服务模块111时(即存储节点的服务模块112的服务状态发生变化时)，目标检查函数为检查函数31；当存储节点的服务模块112的服务状态发生变化时，目标检查函数为检查函数32。

步骤S305，监控管理节点通过目标检查函数对比当前数据结构信息和上一数据结构信息。

具体地，监控管理节点在获取当前数据结构信息之后，可以通过目标检查函数分析对比当前数据结构信息和上一数据结构是否相同。

步骤S306，监控管理节点在满足第一条件的情况下，确定存储节点故障。

详细请参见图2所示实施例的步骤S205，在此不再赘述。

步骤S307，监控管理节点根据当前数据结构信息更新存储的服务模块的上一数据结构信息。

具体地，监控管理节点存储服务模块的上一数据结构信息，并在获取服务模块的当前数据结构信息之后，采用当前数据结构信息覆盖上一数据结构信息。

在一些可选的实施方式中，监控管理节点在接收来自于存储节点的第一信息之前，监控管理节点初始化存储的服务模块的数据结构信息和数据结构信息对应的服务状态。具体地，监控管理节点在接收第一信息之前，首先从存储节点的MON获取当前时刻下服务模块的数据结构信息和该数据结构信息对应的服务状态，并存储服务模块的数据结构信息和对应的服务状态。

本实施例中，通过当前数据结构信息更新存储的服务模块的上一数据结构信息，使监控管理节点方便获取上一数据结构信息，通过目标检查函数与服务模块的当前数据结构信息进行对比，能够准确高效的确定当前数据结构信息和上一数据结构信息是否相同。

在本实施例中提供了一种分布式存储系统的故障告警方法，可用于上述的分布式存储系统，图4是根据本发明实施例的分布式存储系统的故障告警方法的流程示意图，如图4所示，该方法包括如下步骤：

步骤S401，存储节点接收来自于客户端的数据操作请求。

详细请参见图2所示实施例的步骤S201，在此不再赘述。

步骤S402，存储节点向监控管理节点发送第一信息。相应地，监控管理节点接收来自于存储节点的第一信息。

详细请参见图2所示实施例的步骤S202，在此不再赘述。

步骤S403，监控管理节点根据第一信息从存储节点获取服务模块的当前数据结构信息。

详细请参见图2所示实施例的步骤S203，在此不再赘述。

步骤S404，监控管理节点对比所述当前数据结构信息和上一数据结构信息。

详细请参见图2所示实施例的步骤S204，在此不再赘述。

步骤S405，监控管理节点在满足第一条件的情况下，确定存储节点故障。

详细请参见图2所示实施例的步骤S205，在此不再赘述。

步骤S406，监控管理节点在确定存储节点故障的情况下，向客户端发送告警信息。

其中，告警信息用于提示客户端存储节点故障。

示例性的，监控管理节点可以通过兔子消息队列(Rabbit Message Queue，RabbitMQ)方式向客户端发送告警信息。

在一些可选的实施方式中，在对比上一数据结构信息和当前数据结构信息之后，如果当前数据结构信息和上一数据结构信息不同，且上一数据结构信息对应的状态为异常状态，则向客户端发送消除告警信息。其中，消除告警信息用于提示客户段存储节点恢复正常。在本实施例中，在服务模块的服务状态从异常状态变为正常状态之后，向客户端发送消除告警信息，能够及时提醒工作人员存储节点恢复正常。

在本实施例中还提供了一种分布式存储系统的故障检测装置和故障告警装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本实施例提供一种分布式存储系统的故障检测装置，如图5所示，该装置包括：

第二接收模块501，用于接收来自于存储节点的第一信息，第一信息为存储节点执行数据操作请求时服务模块的服务状态发生变化的指示信息；

获取模块502，用于根据第一信息从存储节点获取服务模块的当前数据结构信息，当前数据结构信息为当前时刻服务模块的数据结构信息；

对比模块503，用于对比当前数据结构信息和上一数据结构信息，上一数据结构信息为上一时刻服务模块的数据结构信息；

处理模块504，用于在满足第一条件的情况下，确定存储节点故障，第一条件包括当前数据结构信息和上一数据结构信息不同，且上一数据结构信息对应的服务状态为正常状态，或者，当前数据结构信息和上一数据结构信息相同，且上一数据结构信息对应的服务状态为异常状态。

在一些可选的实施方式中，处理模块504还包括：

第一处理单元，用于根据服务模块确定并调用目标检查函数，目标检查函数为多个检查函数中与服务模块对应的检查函数；

对比模块503还包括：

第一对比单元，用于通过目标检查函数对比当前数据结构信息和上一数据结构信息。

在一些可选的实施方式中，监控管理节点还包括守护进程模块和检测告警模块，检测告警模块包括预先配置的多个检查函数；第一处理单元，包括：

第一控制子单元，用于在根据第一信息从存储节点获取服务模块的当前数据结构信息之后，控制守护进程模块向检测告警模块发送调用请求，调用请求为调用检测告警模块的请求，以使检测告警模块处于活动状态；

第二控制子单元，用于在检测告警模块处于活动状态之后，控制检测告警模块获取当前数据结构信息；

第三控制子单元，用于控制检测告警模块确定当前数据结构信息对应的服务模块；

第四控制子单元，用于控制检测告警模块根据服务模块和预设对应关系，确定目标检测函数，检测告警模块配置预设对应关系，预设对应关系为多个检查函数与多个服务模块之间的对应关系；

第五控制子单元，用于控制检测告警模块调用目标检查函数。

在一些可选的实施方式中，处理模块504还包括：

第二处理单元，用于根据当前数据结构信息更新存储的服务模块的上一数据结构信息。

在一些可选的实施方式中，处理模块504还包括：

第三处理单元，用于在满足第二条件的情况下，确定存储节点正常，第二条件包括当前数据结构信息和上一数据结构信息不同，且上一数据结构信息对应的服务状态为异常状态，或者，当前数据结构信息和上一数据结构信息相同，且上一数据结构信息对应的服务状态为正常状态。

在一些可选的实施方式中，处理模块504还包括：

第四处理单元，用于初始化存储的服务模块的数据结构信息和数据结构信息对应的服务状态。服务状态包括对象存储设备状态、监视器状态、元数据状态、对象存储设备的健康状态和放置组状态中的至少一种。

示例性的，上述实施例中的监控管理节点可以包括图5所示的故障检测装置。或者，上述实施例中的监控管理节点为图5所示的故障检测装置。

本实施例提供一种分布式存储系统的故障告警装置，如图6所示，该装置包括：

上述图5所示实施例或其对应的任一实施方式的分布式存储系统的故障检测装置；

第二发送模块605，用于在确定存储节点故障的情况下，向客户端发送告警信息，告警信息用于提示客户端所述存储节点故障。

在一些可选的实施方式中，第二发送模块605包括：

第一发送单元，用于在当前数据结构信息和上一数据结构信息不同，且上一数据结构信息对应的状态为异常状态的情况下，向客户端发送消除告警信息，消除告警信息用于提示客户端存储节点恢复正常。

示例性的，上述实施例中的监控管理节点可以包括图6所示实施例的故障告警装置。或者，上述实施例中的监控管理节点为图6所示实施例的故障告警装置。

本实施例提供一种分布式存储系统的故障检测装置，如图7所示，该装置包括：

第一接收模块701，用于接收来自于客户端的数据操作请求；

第一发送模块702，用于在执行数据操作请求的过程中，若服务模块的服务状态发生变化，则向监控管理节点发送第一信息，第一信息为服务模块的服务状态发生变化的指示信息，监控管理节点用于在接收所述第一信息之后，根据服务模块的当前数据结构信息确定存储节点是否故障。

示例性的，上述实施例中的存储节点可以包括图7所示实施例的故障检测装置。或者，上述实施例中的存储节点可以为图7所示实施例的故障检测装置。

上述各个模块和单元的更进一步的功能描述与上述对应实施例相同，在此不再赘述。

本实施例中的分布式存储系统的故障检测装置和告警装置是以功能单元的形式来呈现，这里的单元是指专用集成电路(Application Specific Integrated Circuit，ASIC)，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。

本实施例还提供了一种分布式存储系统，如图8所示，该分布式存储系统800包括存储节点810和监控管理节点820。存储节点810可以为图1所示实施例中的存储节点110、存储节点120或者存储节点130。监控管理节点820可以为图1所示实施例中的监控管理节点210。

其中，存储节点810包括第一接收模块701和第一发送模块702。监控管理节点820包括第二接收模块501、获取模块502、对比模块503和处理模块504。

在一些可选的实施方式中，监控管理节点820还包括第二发送模块605。

在一些可选的实施方式中，监控管理节点820还包括守护进程模块821和检测告警模块822，检测告警模块822包括预先配置的多个检查函数。具体地，守护进程模块821用于向检测告警模块822发送调用请求，调用请求为调用检测告警模块822的请求，使检测告警模块822处于活动状态。检测告警模块822用于接收来自于守护进程模块821的调用请求。检测告警模块822还用于获取当前数据结构信息，确定当前数据结构信息对应的服务模块，以及根据服务模块和预设对应关系确定目标检查函数，以及调用目标检查函数。目标检查函数为多个检查函数中与服务模块对应的检查函数，预设对应关系为多个检查函数与多个服务模块之间的对应关系。

下面以本实施例的分布式存储系统800为例，对本发明提供的分布式存储系统的故障检测方法和告警方法进行说明。

示例性的，首先监控管理节点820从存储节点810获取服务模块的数据结构信息，并初始化本地存储的服务模块的数据结构信息(即上一数据结构信息)。其次，在存储节点810通过第一接收模块701接收来自于客户端的数据操作请求之后，如果存储节点810在执行数据操作请求的过程中，服务模块的服务状态发生变化，存储节点810通过第一发送模块702向监控管理节点820发送第一信息，提示监控管理节点820存储节点810的服务模块的服务状态发生变化。

监控管理节点820通过第二接收模块501接收到第一信息之后，通过获取模块502从存储节点810获取服务模块的当前数据结构信息。之后，通过守护进程模块821向检测告警模块822发送调用请求，调用检测告警模块822获取当前数据结构信息和确定当前数据结构信息对应的服务模块，并根据服务模块确定和调用目标检查函数。然后，对比模块503通过目标检查函数对比当前数据结构信息和上一数据结构信息，并通过处理模块504确定存储节点810是否故障。如果确定存储节点810故障，则通过第二发送模块605向客户端发送告警信息，提示工作人员存储节点810故障。

本发明实施例还提供一种计算机设备，具有上述图5或者图7所示的分布式存储系统的故障检测装置，或者具有上述图6所示的分布式存储系统的故障告警装置。

请参阅图9，图9是本发明可选实施例提供的一种计算机设备的结构示意图，如图9所示，该计算机设备包括：一个或多个处理器910、存储器920，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相通信连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在计算机设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在一些可选的实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个计算机设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器910为例。

处理器910可以是中央处理器，网络处理器或其组合。其中，处理器10还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路，可编程逻辑器件或其组合。上述可编程逻辑器件可以是复杂可编程逻辑器件，现场可编程逻辑门阵列，通用阵列逻辑或其任意组合。

其中，所述存储器920存储有可由至少一个处理器910执行的指令，以使所述至少一个处理器910执行实现上述实施例示出的方法。

存储器920可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器920可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些可选的实施方式中，存储器920可选包括相对于处理器910远程设置的存储器，这些远程存储器可以通过网络连接至该计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

存储器920可以包括易失性存储器，例如，随机存取存储器；存储器也可以包括非易失性存储器，例如，快闪存储器，硬盘或固态硬盘；存储器920还可以包括上述种类的存储器的组合。

该计算机设备还包括通信接口930，用于该计算机设备与其他设备或通信网络通信。

本发明实施例还提供了一种计算机可读存储介质，上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可记录在存储介质，或者被实现通过网络下载的原始存储在远程存储介质或非暂时机器可读存储介质中并将被存储在本地存储介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件的存储介质上的这样的软件处理。其中，存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等；进一步地，存储介质还可以包括上述种类的存储器的组合。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件，当软件或计算机代码被计算机、处理器或硬件访问且执行时，实现上述实施例示出的方法。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种分布式存储系统的故障检测方法，其特征在于，所述分布式存储系统包括存储节点和监控管理节点，所述方法应用于所述监控管理节点，所述方法包括：

接收来自于所述存储节点的第一信息，所述第一信息为所述存储节点执行数据操作请求时服务模块的服务状态发生变化的指示信息；

根据所述第一信息从所述存储节点获取所述服务模块的当前数据结构信息，所述当前数据结构信息为当前时刻所述服务模块的数据结构信息；

对比所述当前数据结构信息和上一数据结构信息，所述上一数据结构信息为上一时刻所述服务模块的数据结构信息；

在满足第一条件的情况下，确定所述存储节点故障，所述第一条件包括所述当前数据结构信息和所述上一数据结构信息不同，且所述上一数据结构信息对应的服务状态为正常状态，或者，所述当前数据结构信息和所述上一数据结构信息相同，且所述上一数据结构信息对应的服务状态为异常状态。

2.根据权利要求1所述的方法，其特征在于，在所述根据所述第一信息从所述存储节点获取所述服务模块的当前数据结构信息之后，所述方法还包括：

根据所述服务模块确定并调用目标检查函数，所述目标检查函数为多个检查函数中与所述服务模块对应的检查函数；

所述对比所述当前数据结构信息和上一数据结构信息，包括：

通过所述目标检查函数对比所述当前数据结构信息和所述上一数据结构信息。

3.根据权利要求2所述的方法，其特征在于，所述监控管理节点还包括守护进程模块和检测告警模块，所述检测告警模块包括预先配置的所述多个检查函数；

所述根据所述服务模块确定并调用目标检查函数，包括：

在所述根据所述第一信息从所述存储节点获取所述服务模块的当前数据结构信息之后，控制所述守护进程模块向所述检测告警模块发送调用请求，所述调用请求为调用所述检测告警模块的请求，以使所述检测告警模块处于活动状态；

在所述检测告警模块处于活动状态之后，控制所述检测告警模块获取所述当前数据结构信息；

控制所述检测告警模块确定所述当前数据结构信息对应的所述服务模块；

控制所述检测告警模块根据所述服务模块和预设对应关系，确定所述目标检测函数，所述检测告警模块配置所述预设对应关系，所述预设对应关系为所述多个检查函数与多个服务模块之间的对应关系；

控制所述检测告警模块调用所述目标检查函数。

4.根据权利要求1所述的方法，其特征在于，在所述根据所述第一信息从所述存储节点获取所述服务模块的当前数据结构信息之后，所述方法还包括：

根据所述当前数据结构信息更新存储的所述服务模块的所述上一数据结构信息。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述方法还包括：

在满足第二条件的情况下，确定所述存储节点正常，所述第二条件包括所述当前数据结构信息和所述上一数据结构信息不同，且所述上一数据结构信息对应的服务状态为异常状态，或者，所述当前数据结构信息和所述上一数据结构信息相同，且所述上一数据结构信息对应的服务状态为正常状态。

6.根据权利要求1至4中任一项所述的方法，其特征在于，在接收来自于所述存储节点的第一信息之前，所述方法还包括：

初始化存储的所述服务模块的数据结构信息和所述数据结构信息对应的服务状态，所述服务状态包括对象存储设备状态、监视器状态、元数据状态、对象存储设备的健康状态和放置组状态中的至少一种。

7.一种分布式存储系统的故障检测方法，其特征在于，所述分布式存储系统包括存储节点和监控管理节点，所述方法应用于所述存储节点，所述方法包括：

接收来自于客户端的数据操作请求；

在执行所述数据操作请求的过程中，若服务模块的服务状态发生变化，则向所述监控管理节点发送第一信息，所述第一信息为所述服务模块的服务状态发生变化的指示信息，所述监控管理节点用于在接收所述第一信息之后，根据所述服务模块的当前数据结构信息确定所述存储节点是否故障。

8.一种分布式存储系统的故障检测装置，其特征在于，所述装置包括：

第二接收模块，用于接收来自于存储节点的第一信息，所述第一信息为所述存储节点执行数据操作请求时服务模块的服务状态发生变化的指示信息；

获取模块，用于根据所述第一信息从所述存储节点获取所述服务模块的当前数据结构信息，所述当前数据结构信息为当前时刻所述服务模块的数据结构信息；

对比模块，用于对比所述当前数据结构信息和上一数据结构信息，所述上一数据结构信息为上一时刻所述服务模块的数据结构信息；

处理模块，用于在满足第一条件的情况下，确定所述存储节点故障，所述第一条件包括所述当前数据结构信息和所述上一数据结构信息不同，且所述上一数据结构信息对应的服务状态为正常状态，或者，所述当前数据结构信息和所述上一数据结构信息相同，且所述上一数据结构信息对应的服务状态为异常状态。

9.一种计算机设备，其特征在于，包括：

存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求1至6中任一项所述的方法，或者执行权利要求7所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机指令，所述计算机指令用于使计算机执行权利要求1至6中任一项所述的方法，或者执行权利要求7所述的方法。