CN109086185B

CN109086185B - 一种存储集群的故障检测方法、装置、设备及存储介质

Info

Publication number: CN109086185B
Application number: CN201810796601.6A
Authority: CN
Inventors: 李娟�; 李强; 袁鹏飞
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Zhengzhou Yunhai Information Technology Co Ltd
Priority date: 2018-07-19
Filing date: 2018-07-19
Publication date: 2022-04-22
Anticipated expiration: 2038-07-19
Also published as: CN109086185A

Abstract

本申请公开了一种存储集群的故障检测方法，在目标存储集群中存在信息传输时，通过获取各运行节点对应的运行数据；并利用各运行数据并依据预设的逻辑整理出工作流；其中，运行节点包括存储节点、中间件和管理软件；然后根据工作流分析目标存储集群的故障情况，可见本发明通过将各运行数据按照预设的逻辑整理出工作流，通过查看工作流的情况分析目标存储集群的故障情况，不仅增加了检测的节点类型，而且能够通过工作流对各节点之间的关联进行检测，使得检测结果更加全面。本申请还公开了一种存储集群的故障检测装置、设备及计算机可读存储介质，均具有上述有益效果。

Description

一种存储集群的故障检测方法、装置、设备及存储介质

技术领域

本发明涉及故障检测领域，特别涉及一种存储集群的故障检测方法、装置、设备及计算机可读存储介质。

背景技术

随着信息技术的不断发展，存储集群中的节点如存储节点和管理软件的数量逐渐增多，存储集群的组成情况也越来越复杂。为了提高存储集群运行过程的可靠性，需要对存储集群进行故障检测。

现有技术对存储集群的故障检测方法主要是通过在各个存储节点上设置监控软件，通过根据各监控软件获取到的各对应的存储节点的运行状况判断存储节点是否存在故障。但是在实际的存储集群环境中，不只是存储节点会出现故障，其他的节点如中间件、管理系统等也会出现故障导致信息传输受阻，并且信息在各节点之间的传输过程会受到节点之间关联的影响，因此现有技术中只对存储节点进行检测故障的方式使得检测结果比较片面。

因此，如何提供一种能够对存储集群进行更全面的故障检测的方法是本领域技术人员目前需要解决的技术问题。

发明内容

有鉴于此，本发明的目的在于提供一种存储集群的故障检测方法，能够对存储集群进行更全面的故障检测；本发明的另一目的是提供一种存储集群的故障检测装置、设备及计算机可读存储介质，均具有上述有益效果。

为解决上述技术问题，本发明提供一种存储集群的故障检测方法，包括：

在目标存储集群中存在信息传输时，获取各运行节点对应的运行数据；其中，所述运行节点包括存储节点、中间件和管理系统；

利用各所述运行数据并依据预设的逻辑整理出工作流；

根据所述工作流分析所述目标存储集群的故障情况。

优选地，所述获取各运行节点对应的运行数据具体为：

通过在各所述运行节点上分别部署代理器agent以获取对应的运行数据。

优选地，所述通过在各所述运行节点上分别部署代理器agent以获取对应的运行数据具体为：

各所述代理器agent按照预设的时间周期获取各所述运行节点对应的运行数据。

优选地，所述运行数据具体包括所述信息的发送方信息和接收方信息；

对应的，所述利用各所述运行数据并依据预设的逻辑整理出工作流具体为：

利用所述发送方信息和所述接收方信息并依据节点序列整理出工作流。

优选地，所述运行数据具体包括所述信息的接收时间和发送时间；

利用所述接收时间和所述发送时间并依据时间序列整理出工作流。

优选地，在所述根据所述工作流分析所述目标集群的故障情况之后进一步包括：

将所述工作流进行存储。

优选地，在所述将所述工作流进行存储之后进一步包括：

在检测出存在所述故障情况时，发出提示信息。

为解决上述技术问题，本发明还提供一种存储集群的故障检测装置，包括：

获取模块，用于在目标存储集群中存在信息传输时，获取各运行节点对应的运行数据；其中，所述运行节点包括存储节点、中间件和管理系统；

处理模块，用于利用各所述运行数据并依据预设的逻辑整理出工作流；

分析模块，用于根据所述工作流分析所述目标存储集群的故障情况。

为解决上述技术问题，本发明还提供一种存储集群的故障检测设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述任一种存储集群的故障检测方法的步骤。

为解决上述技术问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种存储集群的故障检测方法的步骤。

本发明提供的一种存储集群的故障检测方法，在目标存储集群中存在信息传输时，通过获取各运行节点对应的运行数据；并利用各运行数据并依据预设的逻辑整理出工作流；其中，运行节点包括存储节点、中间件和管理软件；然后根据工作流分析目标存储集群的故障情况，可见本发明通过将各运行数据按照预设的逻辑整理出工作流，通过查看工作流的情况分析目标存储集群的故障情况，不仅增加了检测的节点类型，而且能够通过工作流对各节点之间的关联进行检测，使得检测结果更加全面。

为解决上述技术问题，本发明还提供了一种存储集群的故障检测装置、设备及计算机可读存储介质，均具有上述有益效果。

附图说明

为了更清楚地说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种存储集群的故障检测方法的流程图；

图2为本发明实施例提供的一种存储集群的结构示意图；

图3为本发明实施例提供的另一种存储集群的故障监测方法的流程图；

图4为本发明实施例提供的一种存储集群的故障检测装置的结构图；

图5为本发明实施例提供的一种存储集群的故障检测设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例的核心是提供一种存储集群的故障检测方法，能够对存储集群进行更全面的故障检测；本发明的另一核心是提供一种存储集群的故障检测装置、设备及计算机可读存储介质，均具有上述有益效果。

为了使本领域技术人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。

图1为本发明实施例提供的一种存储集群的故障检测方法的流程图；图2为本发明实施例提供的一种存储集群的结构示意图。如图所示，该方法包括：

S10：在目标存储集群中存在信息传输时，获取各运行节点对应的运行数据；

其中，运行节点包括存储节点、中间件和管理系统。

在本实施例中，在目标存储集群中存在信息传输时，获取目标存储集群中各运行节点分别对应的运行数据。需要说明的是，运行节点指的是在目标存储集群中存在信息传输时，参与当前的信息传输的节点。可以理解的是，在信息传输过程中，参与传输的节点即运行节点不仅包括存储节点，还包括中间件和管理系统。具体的，存储节点指的是存储器或终端或存储服务器；中间件(middleware)是一种包括有独立的系统软件或服务程序的组件，处于管理系统与存储节点之间，便于不同的存储节点之间进行信息交互；管理系统是包含有管理和控制信息传输的计算机程序的组件。

需要说明的是，运行数据一般包括节点状态、节点温度等表示节点的组件状态的信息，还包括根据预设的逻辑设置的需要采集的数据内容。可以理解的是，根据预设的逻辑的不同，对应需要获取的运行数据也会有所不同。

S20：利用各运行数据并依据预设的逻辑整理出工作流。

具体的，在获取到目标存储集群中各运行节点分别对应的运行数据之后，根据预设的逻辑对获取到的运行数据进行整理得到工作流。可以先将获取到的运行数据汇总，然后在汇总的运行数据中依据预设的逻辑提取对应的逻辑信息，并将逻辑信息按照逻辑顺序进行排列，以组成相互关联的逻辑线，最后将剩余的运行数据与逻辑线上对应的各逻辑信息，从而得到工作流。上述是列举了一种整理得出工作流的具体实施方式，在其他的实施方式中，还可以利用其他的方法，本实施例对此不作具体的限定。

S30：根据工作流分析目标存储集群的故障情况。

在整理得出工作流后，对工作流进行分析，以得出目标存储集群的故障情况。具体可以是通过判断工作流的完整性和时效性等因素判断运行节点及节点之间的故障情况，从而得出目标存储集群的故障情况。可以理解的是，为了能够对目标存储集群中其他节点进行检测，可以增加不同的信息传输的进程，通过利用不同的信息传输的进程获取不同的运行节点的运行数据，从而得出不同的工作流，从而完成对目标存储集群中的各节点进行故障检测。

本发明实施例提供的一种存储集群的故障检测方法，在目标存储集群中存在信息传输时，通过获取各运行节点对应的运行数据；并利用各运行数据并依据预设的逻辑整理出工作流；其中，运行节点包括存储节点、中间件和管理软件；然后根据工作流分析目标存储集群的故障情况，可见本发明通过将各运行数据按照预设的逻辑整理出工作流，通过查看工作流的情况分析目标存储集群的故障情况，不仅增加了检测的节点类型，而且能够通过工作流对各节点之间的关联进行检测，使得检测结果更加全面。

在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，获取各运行节点对应的运行数据具体为：

通过在各运行节点上分别部署代理器agent以获取对应的运行数据。

需要说明的是，代理器agent指的是能够进行信息查询并返回结果的软件，部署的代理器agent能够抓取各运行节点的运行数据，也就是说，预先在各运行节点上分别部署代理器agent，通过各运行节点对应的代理器agent获取对应的运行数据。另外，由于代理器agent的运行机制与各运行节点的运行机制互不干扰，因此代理器agent能够避免对运行节点的干扰。可以理解的是，由于各代理器agent是对应部署于不同的运行节点上，由于运行节点的类型不同，因此需要根据运行节点的不同类型设置对应的代理器agent类型。可见，通过在各运行节点上分别部署代理器agent以获取对应的运行数据，使得在获取运行数据的过程中不会影响运行节点传输信息的进程，降低在进行故障检测过程中对目标存储集群的干扰。

作为优选的实施方式，通过在各运行节点上分别部署代理器agent以获取对应的运行数据具体为：

各代理器agent按照预设的时间周期获取各运行节点对应的运行数据。

也就是说，通过预先设置时间周期，代理器agent根据预先设置的时间周期获取各运行节点的运行数据。需要说明的是，该时间周期一般小于信息传输时经过该代理器agent对应的运行节点的时间。另外可以理解的是，不同的数据信息传输过程，对应设置的时间周期也可能不同，本实施例对此不做具体的限定。

在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，运行数据具体包括信息的发送方信息和接收方信息；

对应的，利用各运行数据并依据预设的逻辑整理出工作流具体为：

利用发送方信息和接收方信息并依据节点序列整理出工作流。

具体的，在获取运行节点的节点状态、节点温度等数据信息的基础上，还将获取该信息传输过程中的发送方信息和接收方信息，以便于利用传输的信息的发送方信息和接收方信息作为节点序列的逻辑信息，根据节点序列整理出工作流。一方面可以根据获取到的节点状态、节点温度等信息判断运行节点的故障情况，另外，也可以根据工作流判断运行节点及运行节点之间的故障情况。例如，假设某一信息传输过程为运行节点A1将信息传输给运行节点A2，再由运行节点A2将信息传输给运行节点A3，因此在根据该工作流分析目标存储集群的故障情况时，根据信息传输到的运行节点分析得出信息是在哪一个运行节点出现的故障，从而定位出存在故障的运行节点。

可见，本实施例提供的存储集群的故障检测方法，可以通过工作流定位出出现故障的运行节点，提高检测故障情况的效率。

另外，运行数据具体包括信息的接收时间和发送时间；

利用接收时间和发送时间并依据时间序列整理出工作流。

可以理解的是，由于信息传输过程中的时间具有依次连贯性，因此可以根据信息的接收时间和信息的发送时间整理出工作流，从而可以根据信息传输的总时间或者信息在运行节点的传输过程中所耗费的时间判断是否存在故障情况。

作为优选的实施方式，可以既获取信息传输的发送方信息和接收方信息；又获取各运行节点对传输的信息的接收时间和发送时间，根据节点序列和时间序列整理出工作流。需要说明的是，在判断出存在故障情况时，还可以根据工作流中快速定位出现故障的运行节点。由于本实施例中综合考虑到节点序列和时间序列，因此得出的工作流将更加全面，因此检测故障情况更加完善。

图3为本发明实施例提供的另一种存储集群的故障监测方法的流程图，本实施例对技术方案作了进一步的说明和优化，具体的，在根据工作流分析目标集群的故障情况之后进一步包括：

S40：将工作流进行存储。

在具体实施中，不仅可以通过直接查看存储的工作流进行分析，还可以利用存储的工作流作为其他分析的数据基础，以便于对工作流进行进一步的分析。

需要说明的是，本实施例对具体的存储方式不做限定，可以是通过RAM、FIFO或数据库的形式进行存储，也可以是通过内存条、硬盘、TF卡等形式进行存储。

可以理解的是，由于不同的数据传输所使用的运行节点是不同的，因此对应得到的工作流是不同的。在本实施例中，通过将工作流进行存储，可以便于技术人员根据查看该工作流判断信息传输的过程，具体包括信息传输过程用到的运行节点或各运行节点在信息传输过程中所消耗的时间，通过比较判断得出信息传输时哪些运行节点是必需的，各运行节点在信息传输时消耗的时间是否在合理范围内或者需要提高哪些运行节点的性能，还可以通过工作流掌握存储节点的资源使用情况，从而提高信息传输的效率。也就是说，通过查看存储的工作流判断是否存在异常的数据传输路线，从而可以进一步对数据传输过程做出改进，从而使得信息传输过程更加高效。

在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，在检测出存在故障情况时，发出提示信息。

需要说明的是，为了使技术人员及时地了解到当前的数据存储集群中存在故障情况，在通过工作流判断出存在故障时，则发出提示信息对技术人员进行提示。

具体的，提示信息可以是通过蜂鸣器或者指示灯发出声音或光信息进行提示，也可以是通过设置语音提示器发出语音信息进行提示，还可以是通过信息窗口的形式进行提示。更具体的，还可以通过语音提示器播放具体的故障情况或者通过信息窗口的图文内容显示具体的故障情况。作为优选的实施方式，还可以根据运行数据分析得出具体的故障原因，甚至还可以是根据故障原因显示对应的故障处理建议，本实施例对提示信息的具体类型不做限定。

可见，通过在检测出存在故障情况时发出提示信息，有利于技术人员及时知晓当前存储运行节点故障，以便于能及时根据故障检测情况对故障进行处理，提高数据存储集群的可靠性。

上文对于本发明提供的一种存储集群的故障检测方法的实施例进行了详细的描述，本发明还提供了一种与该方法对应的存储集群的故障检测装置、设备及计算机可读存储介质，由于装置、设备及计算机可读存储介质部分的实施例与方法部分的实施例相互照应，因此装置、设备及计算机可读存储介质部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

图4为本发明实施例提供的一种存储集群的故障检测装置的结构图，包括：

获取模块41，用于在目标存储集群中存在信息传输时，获取各运行节点对应的运行数据；其中，运行节点包括存储节点、中间件和管理系统；

处理模块42，用于利用各运行数据并依据预设的逻辑整理出工作流；

分析模块43，用于根据工作流分析目标存储集群的故障情况。

本发明实施例提供的存储集群的故障检测装置，通过获取模块在目标存储集群中存在信息传输时，通过获取各运行节点对应的运行数据；处理模块利用各运行数据并依据预设的逻辑整理出工作流；其中，运行节点包括存储节点、中间件和管理软件；然后分析模块根据工作流分析目标存储集群的故障情况，可见本发明通过将各运行数据按照预设的逻辑整理出工作流，通过查看工作流的情况分析目标存储集群的故障情况，不仅增加了检测的节点类型，而且能够通过工作流对各节点之间的关联进行检测，使得检测结果更加全面。

图5为本发明实施例提供的一种存储集群的故障检测设备的结构图，包括：

存储器51，用于存储计算机程序；

处理器52，用于执行计算机程序时实现如上述存储集群的故障检测方法的步骤。

本发明实施例提供的存储集群的故障检测设备，具有上述存储集群的故障检测方法的有益效果。

为解决上述技术问题，本发明还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述存储集群的故障检测方法的步骤。

本发明实施例提供的计算机可读存储介质，具有上述存储集群的故障检测方法的有益效果。

以上对本发明所提供的一种存储集群的故障检测方法、装置、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

Claims

1.一种存储集群的故障检测方法，其特征在于，包括：

在目标存储集群中存在信息传输时，获取各运行节点对应的运行数据；其中，所述运行节点包括存储节点、中间件和管理系统；所述获取各运行节点对应的运行数据具体为：

通过在各所述运行节点上分别部署代理器agent以获取对应的运行数据；

利用各所述运行数据并依据预设的逻辑整理出工作流；

根据所述工作流分析所述目标存储集群的故障情况；

其中，通过判断工作流的完整性和时效性判断运行节点及节点之间的故障情况。

2.根据权利要求1所述的方法，其特征在于，所述通过在各所述运行节点上分别部署代理器agent以获取对应的运行数据具体为：

3.根据权利要求1所述的方法，其特征在于，所述运行数据具体包括所述信息的发送方信息和接收方信息；

4.根据权利要求1所述的方法，其特征在于，所述运行数据具体包括所述信息的接收时间和发送时间；

5.根据权利要求1至4任一项所述的方法，其特征在于，在所述根据所述工作流分析所述目标存储集群的故障情况之后进一步包括：

将所述工作流进行存储。

6.根据权利要求5所述的方法，其特征在于，在所述将所述工作流进行存储之后进一步包括：

在检测出存在所述故障情况时，发出提示信息。

7.一种存储集群的故障检测装置，其特征在于，包括：

获取模块，用于在目标存储集群中存在信息传输时，获取各运行节点对应的运行数据；其中，所述运行节点包括存储节点、中间件和管理系统；所述获取各运行节点对应的运行数据具体为：

分析模块，用于根据所述工作流分析所述目标存储集群的故障情况；

8.一种存储集群的故障检测设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至6任一项所述的存储集群的故障检测方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的存储集群的故障检测方法的步骤。