CN111459738B

CN111459738B - 基于fail-slow模型的并行存储系统故障诊断方法及系统

Info

Publication number: CN111459738B
Application number: CN202010236792.8A
Authority: CN
Inventors: 董勇; 王睿伯; 张伟; 周恩强; 谢旻; 迟万庆; 张文喆; 陈娟; 李佳鑫; 邬会军
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2023-06-30
Anticipated expiration: 2040-03-30
Also published as: CN111459738A

Abstract

本发明公开了一种基于fail‑slow模型的并行存储系统故障诊断方法及系统，本发明方法包括获取并行存储系统中存储服务器的广义请求平均处理时间、超时请求比以及存储设备平均带宽，然后综合生成存储服务器状态指标slow_index并确定并行存储系统中的故障存储服务器。本发明利用并行存储系统工作特点，综合请求处理时间、超时请求比、负载带宽的特征因素，通过综合生成存储服务器状态指标slow_index确定并行存储系统中的故障存储服务器，能够尽快发现系统中没有正常工作的存储服务器，为系统管理员及时处理相关故障提供支撑，提高系统的可用性和运行效率。

Description

基于fail-slow模型的并行存储系统故障诊断方法及系统

技术领域

本发明涉及并行存储系统管理技术，具体涉及一种基于fail-slow模型的并行存储系统故障诊断方法及系统。

背景技术

并行存储系统是高性能计算机的重要组成部分，为并行应用提供数据的保存、访问服务。存储系统的稳定、高效运行，对整个高性能计算机有着重要的作用。高性能计算机的计算能力、系统规模不断扩大，并行存储系统的组成也越来越复杂，其基本组件的数量不断增加，在稳定的系统故障率条件下，并行存储系统组件出现故障，进而引发功能、性能异常的可能性也会增加。尽快发现各类故障，并进行处理，有利于提高并行存储系统的可用性，保障高性能计算机提供稳定的计算能力输出。

一般而言，从物理构成看，如图1所示，并行存储系统主要由存储服务器、存储网络构成，高性能计算机的计算节点通过存储网络对访问存储服务器。从逻辑构成看，并行存储系统中的存储服务器可以分为元数据服务器和文件数据服务器，并行存储系统的服务端软件运行在元数据服务器和文件数据服务器上，分别为客户端提供元数据和文件数据访问功能。计算节点、登录节点上运行并行文件系统的客户端软件。计算机节点、登录节点的客户端软件通过存储网络，将元数据和文件数据访问请求，分别发送给元数据服务器和文件数据服务器。

并行存储系统中，元数据服务器、数据服务器、客户端之间的交互关系如图2所示。当计算节点将并行文件系统的客户端启动后，计算节点通过存储网络上挂载了一个共享目录，该目录名由系统管理员指定。这样，所有的计算节点在该目录下看到了相同的数据空间，具有同样的文件视图。类似的，系统的登录节点在挂载了共享目录后，也和计算节点在该目录下具有相同的文件视图。当用户需要访问并行存储系统的数据时，并行文件系统客户端首先向元数据服务器发送元数据请求，创建或打开文件，并获取文件数据所在的数据服务器；其次，并行文件系统客户端直接和数据服务器通信，将数据写入数据服务器，或者从数据服务器读出；最后，当数据访问完成后，并行文件系统客户端关闭文件，向元数据服务器发送文件关闭请求，并更新元数据服务器中该文件的元数据信息，例如文件大小，访问时间等。

计算节点和存储服务器之间的数据通信，采用远程过程调用(Remote ProcedureCall，RPC)方式。客户端将需要完成的请求或者操作，封装在RPC请求内，通过存储网络向存储服务器发送。存储服务器收到RPC请求后，对报文进行解析，获取相关的操作码、操作参数等信息，并执行相应的操作。存储服务器在完成相应的操作后，将操作结果，如操作返回值、读取数据等，重新封装在RPC内，并发送给客户端。

从数据流向的角度看，整个并行存储系统的运行，就是RPC在不同节点之间的处理过程。每个RPC的类型不同，操作参数不同，所携带的数据量也不同。计算节点的文件操作延迟，取决于RPC在节点之间处理的延迟。计算节点的数据访问带宽，则由RPC在计算节点、存储服务器之间的流动速率，以及所携带数据量来决定。

传统的并行存储系统故障诊断方法，基于fail-stop模型，其基本原理为：一旦系统的某个部件出现故障(fail)，则该部件所涉及到的服务会停止(stop)，整个存储系统，以及上层的并行文件系统也将不能正常提供数据访问服务，进而影响高性能计算机的可用性。

除了fail-stop模型，在并行存储系统的实际使用过程中还存在另外一种情况：某个部件出现故障(fail)并不会导致相关服务的停止，该服务可以继续运行，但是其运行效率受到影响，具体表现为应用程序所获得的数据访问性能下降(slow)。这种情况称为fail-slow模型。

相比于fail-stop模型的故障，fail-slow模型的故障更难以发现，难以诊断。在fail-stop模型下，一旦存储系统出现故障，并行应用的数据访问过程报错，程序退出，系统用户可以在第一时间发觉异常。而在fail-slow模型下，尽管系统中存在故障，但是相关数据访问服务仍在运行，并行应用也在一直运行，主要区别在于应用程序的运行时间出现异常。在这种情况下，往往要问题出现很久以后，用户发现运行时间异常，向系统管理员报告，再行反向查找。经由各种措施后，从现象反推故障，才能找到原因所在。但是，这种方式效率低，开销大，影响系统的使用。

发明内容

本发明要解决的技术问题：针对现有技术的上述问题，提供一种基于fail-slow模型的并行存储系统故障诊断方法及系统，本发明利用并行存储系统工作特点，综合请求处理时间、超时请求比、负载带宽的特征因素，通过综合生成存储服务器状态指标slow_index确定并行存储系统中的故障存储服务器，能够尽快发现系统中没有正常工作的存储服务器，为系统管理员及时处理相关故障提供支撑，提高系统的可用性和运行效率。

为了解决上述技术问题，本发明采用的技术方案为：

一种基于fail-slow模型的并行存储系统故障诊断方法，实施步骤包括：

1)获取并行存储系统中存储服务器的广义请求平均处理时间T_Avg，超时请求比R_timeout以及存储设备平均带宽

2)将存储服务器的广义请求平均处理时间T_Avg，超时请求比R_timeout以及存储设备平均带宽

综合生成存储服务器状态指标slow_index；

3)根据存储服务器状态指标slow_index确定并行存储系统中的故障存储服务器。

可选地，步骤1)中广义请求平均处理时间T_Avg的计算函数表达式为：

上式中，Size₀～Size₁₀分别表示RPC请求规整化处理后的所能携带的数据大小，N_size表示在指定的一个时间段内针对某类携带数据大小为Size的RPC请求的数量，T_size为该类大小为Size的RPC请求的平均处理时间。

可选地，步骤1)中超时请求比R_timeout的计算函数表达式为：

上式中，N_req表示在指定的一个运行时间周期内存储服务器共处理的RPC请求数量，N_timeout表示前述运行时间周期内存储服务器共处理的N_req个RPC请求中出现超时的数量。

可选地，步骤1)中的存储设备平均带宽

具体是指指定的一个时间段内存储服务器所使用的存储设备的平均带宽。

可选地，步骤2)中存储服务器状态指标slow_index的计算函数表达式为：

上式中，T_Avg表示广义请求平均处理时间，R_timeout表示超时请求比，

表示存储设备平均带宽。

可选地，步骤3)的详细步骤包括：

3.1)定期根据各个存储服务器在本周期内的存储服务器状态指标slow_index对各个存储服务器由高到低进行排序，并计算本周期内所有存储服务器状态指标slow_index的平均值；

3.2)根据排序在前m位内、存储服务器状态指标slow_index的值超过平均值达到预设比例两个条件筛选出故障候选存储服务器集合；

3.3)针对故障候选存储服务器集合中的每一个存储服务器，如果该存储服务器连续出现在往前的n个周期的故障候选存储服务器集合中，则判定该存储服务器处于fail-slow状态。

此外，本发明还提供一种基于fail-slow模型的并行存储系统故障诊断系统，包括：

状态获取程序单元，用于获取并行存储系统中存储服务器的广义请求平均处理时间T_Avg，超时请求比R_timeout以及存储设备平均带宽

状态综合程序单元，用于将存储服务器的广义请求平均处理时间T_Avg，超时请求比R_timeout以及存储设备平均带宽

综合生成存储服务器状态指标slow_index；

状态判断程序单元，用于根据存储服务器状态指标slow_index确定并行存储系统中的故障存储服务器。

此外，本发明还提供一种基于fail-slow模型的并行存储系统故障诊断系统，包括计算机设备，该计算机设备被编程或配置以独立或配合执行所述基于fail-slow模型的并行存储系统故障诊断方法的步骤，或者该计算机设备的存储器上存储有被编程或配置以独立或配合执行所述基于fail-slow模型的并行存储系统故障诊断方法的计算机程序。

此外，本发明还提供一种计算机可读存储介质，计算机可读存储介质上存储有被编程或配置以独立或配合执行所述基于fail-slow模型的并行存储系统故障诊断方法的计算机程序。

此外，本发明还提供一种基于fail-slow模型的并行存储系统故障诊断系统，包括监控管理服务器以及监控管理网络，所述监控管理网络包括分别位于并行存储系统的存储服务器上的系统监控守护进程monitor_daemon，所述监控管理服务器上运行有监控诊断服务守护进程service_daemon，所述系统监控守护进程monitor_daemon被编程或配置以执行所述基于fail-slow模型的并行存储系统故障诊断方法的步骤1)和步骤2)并将结果输出给监控诊断服务守护进程service_daemon；所述监控诊断服务守护进程service_daemon被编程或配置以执行所述基于fail-slow模型的并行存储系统故障诊断方法的步骤3)。

和现有技术相比，本发明具有下述优点：本发明利用并行存储系统工作特点，综合请求处理时间、超时请求比、负载带宽的特征因素，通过综合生成存储服务器状态指标slow_index确定并行存储系统中的故障存储服务器，能够尽快发现系统中没有正常工作的存储服务器，为系统管理员及时处理相关故障提供支撑，提高系统的可用性和运行效率。

附图说明

图1为现有的并行存储系统的体系结构示意图。

图2为现有的并行存储系统的交互原理示意图。

图3为本发明实施例方法的基本流程示意图。

图4为本发明实施例系统的结构组成示意图。

图5为本发明实施例中系统监控守护进程的工作流程示意图。

具体实施方式

如图3所示，本实施例基于fail-slow模型的并行存储系统故障诊断方法的实施步骤包括：

综合生成存储服务器状态指标slow_index；

一个运行状态良好的并行存储系统中，每个RPC的处理均按照正常逻辑运行，在存储服务器负载正常的条件下，每个请求都能在合理的时间内完成，不出现RPC处理超时的情况。一旦某个存储服务器的某个部件出现故障，例如内存错、网络接口错等，除了造成该服务器死机、网络不通等异常，引发服务停止以外，还有可能导致该存储服务器在提供服务方面受到严重影响，相关的RPC处理远离正常状态，出现请求处理时间边长、请求超时比例增加等异常现象，也就是前文中描述的slow。基于此分析，本发明综合考虑上述几个因素通过归一处理，对存储服务器提出衡量工作状态的存储服务器状态指标，称为slow_index。通过对存储服务器的存储服务器状态指标slow_index的综合评估，判断一台存储服务器是否处于fail-slow状态，并将相关的判断结果向系统管理员反馈，以便于系统管理员及时处理。

广义请求平均处理时间T_Avg主要衡量存储服务器对RPC请求处理的时间。之所以称为广义请求平均处理时间，主要是指该指标并没有严格遵守请求处理时间的定义，而是使用了一个综合考虑各类不同请求处理时间的整体的计算方法。在存储服务器中，为了提高RPC的处理效率，将每个RPC所能携带的数据进行了规整化处理，其大小从1KB、2KB、4KB，一直到1MB，并提前分配好若干注册过的缓冲区。如果一个RPC所需要携带的数据量不属于上面几个值，则在给该RPC分配内存区域时，选择最近的且能满足需求的内存区域大小。例如，如果一个RPC需要携带的数据为3KB，则将为该RPC分配一个4KB的缓冲区。如果一个RPC所需要携带的数据超过了1MB，则将该数据以1MB为单位进行切分。基于上述原则，一个RPC所能携带的数据大小分别定义为Size₀，Size₁，Size₂，…，Size₁₀。在并行文件系统运行过程中，根据系统服务的运行情况，记录每类请求的数量，以及该类请求的平均处理时间。例如，系统统计数据大小为1KB的RPC的数量，以及相对应的请求处理时间。这样，我们可以得到在一个时间段内，针对某类携带数据大小为Size的请求，其请求数量为N_size，该类请求的平均处理时间为T_size。

本实施例步骤1)中广义请求平均处理时间T_Avg的计算函数表达式为：

超时请求比R_timeout主要用于描述在一个时间段内，超时请求数量占总处理请求数量的比例。本实施例步骤1)中超时请求比R_timeout的计算函数表达式为：

每个存储服务器都配置了若干存储介质，这些存储介质为数据访问提供了存储空间，以及数据读写能力。此类存储介质可以是独立磁盘，也可以是通过RAID卡连接的多个磁盘统一构造一个存储空间，亦或是通过光纤磁盘阵列，访问其中的一个或者多个存储卷。无论采用上述何种方式，存储服务器都可以通过操作系统访问接口，获取一个时间段内，该存储服务器所使用的存储设备的平均带宽，表示为

本实施例步骤1)中的存储设备平均带宽/>

获得上述三个因子的数值后，本实施例步骤2)中存储服务器状态指标slow_index的计算函数表达式为：

表示存储设备平均带宽。在获得存储服务器状态指标slow_index后，就可以根据整个并行存储系统中各个存储服务器的存储服务器状态指标slow_index来确定哪些存储服务器处于fail-slow状态。本实施例中，步骤3)的详细步骤包括：

3.2)根据排序在前m位内、存储服务器状态指标slow_index的值超过平均值达到预设比例两个条件筛选出故障候选存储服务器集合；作为一种具体的实施方式举例，本实施例中此处的条件具体为：(1)存储服务器状态指标slow_index的值排名在前3以内；(2)存储服务器状态指标slow_index的值超过平均值100％；

3.3)针对故障候选存储服务器集合中的每一个存储服务器，如果该存储服务器连续出现在往前的n个周期的故障候选存储服务器集合中，则判定该存储服务器处于fail-slow状态。作为一种具体的实施方式举例，本实施例中此处的n取值为2，即连续3个周期都出现在故障候选存储服务器集合中，则判定该存储服务器处于fail-slow状态。

此外，本实施例还提供一种基于fail-slow模型的并行存储系统故障诊断系统，包括：

综合生成存储服务器状态指标slow_index；

此外，本实施例还提供一种基于fail-slow模型的并行存储系统故障诊断系统，包括计算机设备，该计算机设备被编程或配置以独立或配合执行前述基于fail-slow模型的并行存储系统故障诊断方法的步骤，或者该计算机设备的存储器上存储有被编程或配置以独立或配合执行前述基于fail-slow模型的并行存储系统故障诊断方法的计算机程序。

此外，本实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有被编程或配置以独立或配合执行前述基于fail-slow模型的并行存储系统故障诊断方法的计算机程序。

此外，本实施例还提供一种基于fail-slow模型的并行存储系统故障诊断系统，包括监控管理服务器以及监控管理网络，监控管理网络包括分别位于并行存储系统的存储服务器上的系统监控守护进程monitor_daemon，监控管理服务器上运行有监控诊断服务守护进程service_daemon，系统监控守护进程monitor_daemon被编程或配置以执行前述基于fail-slow模型的并行存储系统故障诊断方法的步骤1)和步骤2)并将结果输出给监控诊断服务守护进程service_daemon；监控诊断服务守护进程service_daemon被编程或配置以执行前述基于fail-slow模型的并行存储系统故障诊断方法的步骤3)。该系统依托于现有的并行存储系统的监控管理系统实现。监控管理系统由监控管理服务器和监控管理网络组成。同时，存储服务器也接入监控管理网络，并将节点状态信息发送给监控管理服务器。图4给出了整个基于fail-slow模型的并行存储系统故障诊断系统的逻辑组成结构。

本实施例中，系统监控守护进程monitor_daemon运行在存储服务器上，其工作流程如图5所示，用于执行前述基于fail-slow模型的并行存储系统故障诊断方法的步骤1)和步骤2)得到所在存储服务器上的存储服务器状态指标slow_index，并发送给位于监控管理服务器上的监控诊断服务守护进程service_daemon。

本实施例中，系统监控守护进程monitor_daemon计算存储服务器状态指标slow_index时间间隔T_interval采用如下方式确定：

T_interval＝2×T_rpc

上式中，T_rpc为并行文件系统rpc请求处理的超时值，该值由并行文件系统定义，初始值为100秒。系统管理员可以根据系统规模、存储网络类型的不同，进行设定和修改。

监控诊断服务守护进程service_daemon运行在监控管理服务器上，主要功能是收集由每个存储服务器上系统监控守护进程monitor_daemon发送的存储服务器状态指标slow_index，并对所有存储服务器的数据进行处理，依据步骤3)的判定方法为系统管理员提出预警。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于fail-slow模型的并行存储系统故障诊断方法，其特征在于实施步骤包括：

其中广义请求平均处理时间T_Avg的计算函数表达式为：

上式中，size₀～size₁₀分别表示RPC请求规整化处理后的所能携带的数据大小，N_size表示在指定的一个时间段内针对某类携带数据大小为size的RPC请求的数量，T_size为该类大小为size的RPC请求的平均处理时间；

综合生成存储服务器状态指标slow_index；其中存储服务器状态指标slow_index的计算函数表达式为：

表示存储设备平均带宽；

2.根据权利要求1所述的基于fail-slow模型的并行存储系统故障诊断方法，其特征在于，步骤1)中超时请求比R_timeout的计算函数表达式为：

3.根据权利要求1所述的基于fail-slow模型的并行存储系统故障诊断方法，其特征在于，步骤1)中的存储设备平均带宽

4.根据权利要求1所述的基于fail-slow模型的并行存储系统故障诊断方法，其特征在于，步骤3)的详细步骤包括：

5.一种基于fail-slow模型的并行存储系统故障诊断系统，其特征在于包括：

其中广义请求平均处理时间T_Avg的计算函数表达式为：

表示存储设备平均带宽；

6.一种基于fail-slow模型的并行存储系统故障诊断系统，包括计算机设备，其特征在于，该计算机设备被编程或配置以独立或配合执行权利要求1～4中任意一项所述基于fail-slow模型的并行存储系统故障诊断方法的步骤，或者该计算机设备的存储器上存储有被编程或配置以独立或配合执行权利要求1～4中任意一项所述基于fail-slow模型的并行存储系统故障诊断方法的计算机程序。

7.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有被编程或配置以独立或配合执行权利要求1～4中任意一项所述基于fail-slow模型的并行存储系统故障诊断方法的计算机程序。

8.一种基于fail-slow模型的并行存储系统故障诊断系统，其特征在于，包括监控管理服务器以及监控管理网络，所述监控管理网络包括分别位于并行存储系统的存储服务器上的系统监控守护进程monitor_daemon，所述监控管理服务器上运行有监控诊断服务守护进程service_daemon，所述系统监控守护进程monitor_daemon被编程或配置以执行权利要求1～4中任意一项所述基于fail-slow模型的并行存储系统故障诊断方法的步骤1)和步骤2)并将结果输出给监控诊断服务守护进程service_daemon；所述监控诊断服务守护进程service_daemon被编程或配置以执行权利要求1～4中任意一项所述基于fail-slow模型的并行存储系统故障诊断方法的步骤3)。