CN111459738B - 基于fail-slow模型的并行存储系统故障诊断方法及系统 - Google Patents

基于fail-slow模型的并行存储系统故障诊断方法及系统 Download PDF

Info

Publication number
CN111459738B
CN111459738B CN202010236792.8A CN202010236792A CN111459738B CN 111459738 B CN111459738 B CN 111459738B CN 202010236792 A CN202010236792 A CN 202010236792A CN 111459738 B CN111459738 B CN 111459738B
Authority
CN
China
Prior art keywords
storage
slow
storage server
fail
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010236792.8A
Other languages
English (en)
Other versions
CN111459738A (zh
Inventor
董勇
王睿伯
张伟
周恩强
谢旻
迟万庆
张文喆
陈娟
李佳鑫
邬会军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202010236792.8A priority Critical patent/CN111459738B/zh
Publication of CN111459738A publication Critical patent/CN111459738A/zh
Application granted granted Critical
Publication of CN111459738B publication Critical patent/CN111459738B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3037Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a memory, e.g. virtual memory, cache
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种基于fail‑slow模型的并行存储系统故障诊断方法及系统,本发明方法包括获取并行存储系统中存储服务器的广义请求平均处理时间、超时请求比以及存储设备平均带宽,然后综合生成存储服务器状态指标slow_index并确定并行存储系统中的故障存储服务器。本发明利用并行存储系统工作特点,综合请求处理时间、超时请求比、负载带宽的特征因素,通过综合生成存储服务器状态指标slow_index确定并行存储系统中的故障存储服务器,能够尽快发现系统中没有正常工作的存储服务器,为系统管理员及时处理相关故障提供支撑,提高系统的可用性和运行效率。

Description

基于fail-slow模型的并行存储系统故障诊断方法及系统
技术领域
本发明涉及并行存储系统管理技术,具体涉及一种基于fail-slow模型的并行存储系统故障诊断方法及系统。
背景技术
并行存储系统是高性能计算机的重要组成部分,为并行应用提供数据的保存、访问服务。存储系统的稳定、高效运行,对整个高性能计算机有着重要的作用。高性能计算机的计算能力、系统规模不断扩大,并行存储系统的组成也越来越复杂,其基本组件的数量不断增加,在稳定的系统故障率条件下,并行存储系统组件出现故障,进而引发功能、性能异常的可能性也会增加。尽快发现各类故障,并进行处理,有利于提高并行存储系统的可用性,保障高性能计算机提供稳定的计算能力输出。
一般而言,从物理构成看,如图1所示,并行存储系统主要由存储服务器、存储网络构成,高性能计算机的计算节点通过存储网络对访问存储服务器。从逻辑构成看,并行存储系统中的存储服务器可以分为元数据服务器和文件数据服务器,并行存储系统的服务端软件运行在元数据服务器和文件数据服务器上,分别为客户端提供元数据和文件数据访问功能。计算节点、登录节点上运行并行文件系统的客户端软件。计算机节点、登录节点的客户端软件通过存储网络,将元数据和文件数据访问请求,分别发送给元数据服务器和文件数据服务器。
并行存储系统中,元数据服务器、数据服务器、客户端之间的交互关系如图2所示。当计算节点将并行文件系统的客户端启动后,计算节点通过存储网络上挂载了一个共享目录,该目录名由系统管理员指定。这样,所有的计算节点在该目录下看到了相同的数据空间,具有同样的文件视图。类似的,系统的登录节点在挂载了共享目录后,也和计算节点在该目录下具有相同的文件视图。当用户需要访问并行存储系统的数据时,并行文件系统客户端首先向元数据服务器发送元数据请求,创建或打开文件,并获取文件数据所在的数据服务器;其次,并行文件系统客户端直接和数据服务器通信,将数据写入数据服务器,或者从数据服务器读出;最后,当数据访问完成后,并行文件系统客户端关闭文件,向元数据服务器发送文件关闭请求,并更新元数据服务器中该文件的元数据信息,例如文件大小,访问时间等。
计算节点和存储服务器之间的数据通信,采用远程过程调用(Remote ProcedureCall,RPC)方式。客户端将需要完成的请求或者操作,封装在RPC请求内,通过存储网络向存储服务器发送。存储服务器收到RPC请求后,对报文进行解析,获取相关的操作码、操作参数等信息,并执行相应的操作。存储服务器在完成相应的操作后,将操作结果,如操作返回值、读取数据等,重新封装在RPC内,并发送给客户端。
从数据流向的角度看,整个并行存储系统的运行,就是RPC在不同节点之间的处理过程。每个RPC的类型不同,操作参数不同,所携带的数据量也不同。计算节点的文件操作延迟,取决于RPC在节点之间处理的延迟。计算节点的数据访问带宽,则由RPC在计算节点、存储服务器之间的流动速率,以及所携带数据量来决定。
传统的并行存储系统故障诊断方法,基于fail-stop模型,其基本原理为:一旦系统的某个部件出现故障(fail),则该部件所涉及到的服务会停止(stop),整个存储系统,以及上层的并行文件系统也将不能正常提供数据访问服务,进而影响高性能计算机的可用性。
除了fail-stop模型,在并行存储系统的实际使用过程中还存在另外一种情况:某个部件出现故障(fail)并不会导致相关服务的停止,该服务可以继续运行,但是其运行效率受到影响,具体表现为应用程序所获得的数据访问性能下降(slow)。这种情况称为fail-slow模型。
相比于fail-stop模型的故障,fail-slow模型的故障更难以发现,难以诊断。在fail-stop模型下,一旦存储系统出现故障,并行应用的数据访问过程报错,程序退出,系统用户可以在第一时间发觉异常。而在fail-slow模型下,尽管系统中存在故障,但是相关数据访问服务仍在运行,并行应用也在一直运行,主要区别在于应用程序的运行时间出现异常。在这种情况下,往往要问题出现很久以后,用户发现运行时间异常,向系统管理员报告,再行反向查找。经由各种措施后,从现象反推故障,才能找到原因所在。但是,这种方式效率低,开销大,影响系统的使用。
发明内容
本发明要解决的技术问题:针对现有技术的上述问题,提供一种基于fail-slow模型的并行存储系统故障诊断方法及系统,本发明利用并行存储系统工作特点,综合请求处理时间、超时请求比、负载带宽的特征因素,通过综合生成存储服务器状态指标slow_index确定并行存储系统中的故障存储服务器,能够尽快发现系统中没有正常工作的存储服务器,为系统管理员及时处理相关故障提供支撑,提高系统的可用性和运行效率。
为了解决上述技术问题,本发明采用的技术方案为:
一种基于fail-slow模型的并行存储系统故障诊断方法,实施步骤包括:
1)获取并行存储系统中存储服务器的广义请求平均处理时间TAvg,超时请求比Rtimeout以及存储设备平均带宽
Figure BDA0002431270010000021
2)将存储服务器的广义请求平均处理时间TAvg,超时请求比Rtimeout以及存储设备平均带宽
Figure BDA0002431270010000022
综合生成存储服务器状态指标slow_index;
3)根据存储服务器状态指标slow_index确定并行存储系统中的故障存储服务器。
可选地,步骤1)中广义请求平均处理时间TAvg的计算函数表达式为:
Figure BDA0002431270010000031
上式中,Size0~Size10分别表示RPC请求规整化处理后的所能携带的数据大小,Nsize表示在指定的一个时间段内针对某类携带数据大小为Size的RPC请求的数量,Tsize为该类大小为Size的RPC请求的平均处理时间。
可选地,步骤1)中超时请求比Rtimeout的计算函数表达式为:
Figure BDA0002431270010000032
上式中,Nreq表示在指定的一个运行时间周期内存储服务器共处理的RPC请求数量,Ntimeout表示前述运行时间周期内存储服务器共处理的Nreq个RPC请求中出现超时的数量。
可选地,步骤1)中的存储设备平均带宽
Figure BDA0002431270010000037
具体是指指定的一个时间段内存储服务器所使用的存储设备的平均带宽。
可选地,步骤2)中存储服务器状态指标slow_index的计算函数表达式为:
Figure BDA0002431270010000033
上式中,TAvg表示广义请求平均处理时间,Rtimeout表示超时请求比,
Figure BDA0002431270010000034
表示存储设备平均带宽。
可选地,步骤3)的详细步骤包括:
3.1)定期根据各个存储服务器在本周期内的存储服务器状态指标slow_index对各个存储服务器由高到低进行排序,并计算本周期内所有存储服务器状态指标slow_index的平均值;
3.2)根据排序在前m位内、存储服务器状态指标slow_index的值超过平均值达到预设比例两个条件筛选出故障候选存储服务器集合;
3.3)针对故障候选存储服务器集合中的每一个存储服务器,如果该存储服务器连续出现在往前的n个周期的故障候选存储服务器集合中,则判定该存储服务器处于fail-slow状态。
此外,本发明还提供一种基于fail-slow模型的并行存储系统故障诊断系统,包括:
状态获取程序单元,用于获取并行存储系统中存储服务器的广义请求平均处理时间TAvg,超时请求比Rtimeout以及存储设备平均带宽
Figure BDA0002431270010000035
状态综合程序单元,用于将存储服务器的广义请求平均处理时间TAvg,超时请求比Rtimeout以及存储设备平均带宽
Figure BDA0002431270010000036
综合生成存储服务器状态指标slow_index;
状态判断程序单元,用于根据存储服务器状态指标slow_index确定并行存储系统中的故障存储服务器。
此外,本发明还提供一种基于fail-slow模型的并行存储系统故障诊断系统,包括计算机设备,该计算机设备被编程或配置以独立或配合执行所述基于fail-slow模型的并行存储系统故障诊断方法的步骤,或者该计算机设备的存储器上存储有被编程或配置以独立或配合执行所述基于fail-slow模型的并行存储系统故障诊断方法的计算机程序。
此外,本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储有被编程或配置以独立或配合执行所述基于fail-slow模型的并行存储系统故障诊断方法的计算机程序。
此外,本发明还提供一种基于fail-slow模型的并行存储系统故障诊断系统,包括监控管理服务器以及监控管理网络,所述监控管理网络包括分别位于并行存储系统的存储服务器上的系统监控守护进程monitor_daemon,所述监控管理服务器上运行有监控诊断服务守护进程service_daemon,所述系统监控守护进程monitor_daemon被编程或配置以执行所述基于fail-slow模型的并行存储系统故障诊断方法的步骤1)和步骤2)并将结果输出给监控诊断服务守护进程service_daemon;所述监控诊断服务守护进程service_daemon被编程或配置以执行所述基于fail-slow模型的并行存储系统故障诊断方法的步骤3)。
和现有技术相比,本发明具有下述优点:本发明利用并行存储系统工作特点,综合请求处理时间、超时请求比、负载带宽的特征因素,通过综合生成存储服务器状态指标slow_index确定并行存储系统中的故障存储服务器,能够尽快发现系统中没有正常工作的存储服务器,为系统管理员及时处理相关故障提供支撑,提高系统的可用性和运行效率。
附图说明
图1为现有的并行存储系统的体系结构示意图。
图2为现有的并行存储系统的交互原理示意图。
图3为本发明实施例方法的基本流程示意图。
图4为本发明实施例系统的结构组成示意图。
图5为本发明实施例中系统监控守护进程的工作流程示意图。
具体实施方式
如图3所示,本实施例基于fail-slow模型的并行存储系统故障诊断方法的实施步骤包括:
1)获取并行存储系统中存储服务器的广义请求平均处理时间TAvg,超时请求比Rtimeout以及存储设备平均带宽
Figure BDA0002431270010000041
2)将存储服务器的广义请求平均处理时间TAvg,超时请求比Rtimeout以及存储设备平均带宽
Figure BDA0002431270010000042
综合生成存储服务器状态指标slow_index;
3)根据存储服务器状态指标slow_index确定并行存储系统中的故障存储服务器。
一个运行状态良好的并行存储系统中,每个RPC的处理均按照正常逻辑运行,在存储服务器负载正常的条件下,每个请求都能在合理的时间内完成,不出现RPC处理超时的情况。一旦某个存储服务器的某个部件出现故障,例如内存错、网络接口错等,除了造成该服务器死机、网络不通等异常,引发服务停止以外,还有可能导致该存储服务器在提供服务方面受到严重影响,相关的RPC处理远离正常状态,出现请求处理时间边长、请求超时比例增加等异常现象,也就是前文中描述的slow。基于此分析,本发明综合考虑上述几个因素通过归一处理,对存储服务器提出衡量工作状态的存储服务器状态指标,称为slow_index。通过对存储服务器的存储服务器状态指标slow_index的综合评估,判断一台存储服务器是否处于fail-slow状态,并将相关的判断结果向系统管理员反馈,以便于系统管理员及时处理。
广义请求平均处理时间TAvg主要衡量存储服务器对RPC请求处理的时间。之所以称为广义请求平均处理时间,主要是指该指标并没有严格遵守请求处理时间的定义,而是使用了一个综合考虑各类不同请求处理时间的整体的计算方法。在存储服务器中,为了提高RPC的处理效率,将每个RPC所能携带的数据进行了规整化处理,其大小从1KB、2KB、4KB,一直到1MB,并提前分配好若干注册过的缓冲区。如果一个RPC所需要携带的数据量不属于上面几个值,则在给该RPC分配内存区域时,选择最近的且能满足需求的内存区域大小。例如,如果一个RPC需要携带的数据为3KB,则将为该RPC分配一个4KB的缓冲区。如果一个RPC所需要携带的数据超过了1MB,则将该数据以1MB为单位进行切分。基于上述原则,一个RPC所能携带的数据大小分别定义为Size0,Size1,Size2,…,Size10。在并行文件系统运行过程中,根据系统服务的运行情况,记录每类请求的数量,以及该类请求的平均处理时间。例如,系统统计数据大小为1KB的RPC的数量,以及相对应的请求处理时间。这样,我们可以得到在一个时间段内,针对某类携带数据大小为Size的请求,其请求数量为Nsize,该类请求的平均处理时间为Tsize
本实施例步骤1)中广义请求平均处理时间TAvg的计算函数表达式为:
Figure BDA0002431270010000051
上式中,Size0~Size10分别表示RPC请求规整化处理后的所能携带的数据大小,Nsize表示在指定的一个时间段内针对某类携带数据大小为Size的RPC请求的数量,Tsize为该类大小为Size的RPC请求的平均处理时间。
超时请求比Rtimeout主要用于描述在一个时间段内,超时请求数量占总处理请求数量的比例。本实施例步骤1)中超时请求比Rtimeout的计算函数表达式为:
Figure BDA0002431270010000052
上式中,Nreq表示在指定的一个运行时间周期内存储服务器共处理的RPC请求数量,Ntimeout表示前述运行时间周期内存储服务器共处理的Nreq个RPC请求中出现超时的数量。
每个存储服务器都配置了若干存储介质,这些存储介质为数据访问提供了存储空间,以及数据读写能力。此类存储介质可以是独立磁盘,也可以是通过RAID卡连接的多个磁盘统一构造一个存储空间,亦或是通过光纤磁盘阵列,访问其中的一个或者多个存储卷。无论采用上述何种方式,存储服务器都可以通过操作系统访问接口,获取一个时间段内,该存储服务器所使用的存储设备的平均带宽,表示为
Figure BDA0002431270010000061
本实施例步骤1)中的存储设备平均带宽/>
Figure BDA0002431270010000062
具体是指指定的一个时间段内存储服务器所使用的存储设备的平均带宽。
获得上述三个因子的数值后,本实施例步骤2)中存储服务器状态指标slow_index的计算函数表达式为:
Figure BDA0002431270010000063
上式中,TAvg表示广义请求平均处理时间,Rtimeout表示超时请求比,
Figure BDA0002431270010000064
表示存储设备平均带宽。在获得存储服务器状态指标slow_index后,就可以根据整个并行存储系统中各个存储服务器的存储服务器状态指标slow_index来确定哪些存储服务器处于fail-slow状态。本实施例中,步骤3)的详细步骤包括:
3.1)定期根据各个存储服务器在本周期内的存储服务器状态指标slow_index对各个存储服务器由高到低进行排序,并计算本周期内所有存储服务器状态指标slow_index的平均值;
3.2)根据排序在前m位内、存储服务器状态指标slow_index的值超过平均值达到预设比例两个条件筛选出故障候选存储服务器集合;作为一种具体的实施方式举例,本实施例中此处的条件具体为:(1)存储服务器状态指标slow_index的值排名在前3以内;(2)存储服务器状态指标slow_index的值超过平均值100%;
3.3)针对故障候选存储服务器集合中的每一个存储服务器,如果该存储服务器连续出现在往前的n个周期的故障候选存储服务器集合中,则判定该存储服务器处于fail-slow状态。作为一种具体的实施方式举例,本实施例中此处的n取值为2,即连续3个周期都出现在故障候选存储服务器集合中,则判定该存储服务器处于fail-slow状态。
此外,本实施例还提供一种基于fail-slow模型的并行存储系统故障诊断系统,包括:
状态获取程序单元,用于获取并行存储系统中存储服务器的广义请求平均处理时间TAvg,超时请求比Rtimeout以及存储设备平均带宽
Figure BDA0002431270010000065
状态综合程序单元,用于将存储服务器的广义请求平均处理时间TAvg,超时请求比Rtimeout以及存储设备平均带宽
Figure BDA0002431270010000071
综合生成存储服务器状态指标slow_index;
状态判断程序单元,用于根据存储服务器状态指标slow_index确定并行存储系统中的故障存储服务器。
此外,本实施例还提供一种基于fail-slow模型的并行存储系统故障诊断系统,包括计算机设备,该计算机设备被编程或配置以独立或配合执行前述基于fail-slow模型的并行存储系统故障诊断方法的步骤,或者该计算机设备的存储器上存储有被编程或配置以独立或配合执行前述基于fail-slow模型的并行存储系统故障诊断方法的计算机程序。
此外,本实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有被编程或配置以独立或配合执行前述基于fail-slow模型的并行存储系统故障诊断方法的计算机程序。
此外,本实施例还提供一种基于fail-slow模型的并行存储系统故障诊断系统,包括监控管理服务器以及监控管理网络,监控管理网络包括分别位于并行存储系统的存储服务器上的系统监控守护进程monitor_daemon,监控管理服务器上运行有监控诊断服务守护进程service_daemon,系统监控守护进程monitor_daemon被编程或配置以执行前述基于fail-slow模型的并行存储系统故障诊断方法的步骤1)和步骤2)并将结果输出给监控诊断服务守护进程service_daemon;监控诊断服务守护进程service_daemon被编程或配置以执行前述基于fail-slow模型的并行存储系统故障诊断方法的步骤3)。该系统依托于现有的并行存储系统的监控管理系统实现。监控管理系统由监控管理服务器和监控管理网络组成。同时,存储服务器也接入监控管理网络,并将节点状态信息发送给监控管理服务器。图4给出了整个基于fail-slow模型的并行存储系统故障诊断系统的逻辑组成结构。
本实施例中,系统监控守护进程monitor_daemon运行在存储服务器上,其工作流程如图5所示,用于执行前述基于fail-slow模型的并行存储系统故障诊断方法的步骤1)和步骤2)得到所在存储服务器上的存储服务器状态指标slow_index,并发送给位于监控管理服务器上的监控诊断服务守护进程service_daemon。
本实施例中,系统监控守护进程monitor_daemon计算存储服务器状态指标slow_index时间间隔Tinterval采用如下方式确定:
Tinterval=2×Trpc
上式中,Trpc为并行文件系统rpc请求处理的超时值,该值由并行文件系统定义,初始值为100秒。系统管理员可以根据系统规模、存储网络类型的不同,进行设定和修改。
监控诊断服务守护进程service_daemon运行在监控管理服务器上,主要功能是收集由每个存储服务器上系统监控守护进程monitor_daemon发送的存储服务器状态指标slow_index,并对所有存储服务器的数据进行处理,依据步骤3)的判定方法为系统管理员提出预警。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种基于fail-slow模型的并行存储系统故障诊断方法,其特征在于实施步骤包括:
1)获取并行存储系统中存储服务器的广义请求平均处理时间TAvg,超时请求比Rtimeout以及存储设备平均带宽
Figure QLYQS_1
其中广义请求平均处理时间TAvg的计算函数表达式为:
Figure QLYQS_2
上式中,size0~size10分别表示RPC请求规整化处理后的所能携带的数据大小,Nsize表示在指定的一个时间段内针对某类携带数据大小为size的RPC请求的数量,Tsize为该类大小为size的RPC请求的平均处理时间;
2)将存储服务器的广义请求平均处理时间TAvg,超时请求比Rtimeout以及存储设备平均带宽
Figure QLYQS_3
综合生成存储服务器状态指标slow_index;其中存储服务器状态指标slow_index的计算函数表达式为:
Figure QLYQS_4
上式中,TAvg表示广义请求平均处理时间,Rtimeout表示超时请求比,
Figure QLYQS_5
表示存储设备平均带宽;
3)根据存储服务器状态指标slow_index确定并行存储系统中的故障存储服务器。
2.根据权利要求1所述的基于fail-slow模型的并行存储系统故障诊断方法,其特征在于,步骤1)中超时请求比Rtimeout的计算函数表达式为:
Figure QLYQS_6
上式中,Nreq表示在指定的一个运行时间周期内存储服务器共处理的RPC请求数量,Ntimeout表示前述运行时间周期内存储服务器共处理的Nreq个RPC请求中出现超时的数量。
3.根据权利要求1所述的基于fail-slow模型的并行存储系统故障诊断方法,其特征在于,步骤1)中的存储设备平均带宽
Figure QLYQS_7
具体是指指定的一个时间段内存储服务器所使用的存储设备的平均带宽。
4.根据权利要求1所述的基于fail-slow模型的并行存储系统故障诊断方法,其特征在于,步骤3)的详细步骤包括:
3.1)定期根据各个存储服务器在本周期内的存储服务器状态指标slow_index对各个存储服务器由高到低进行排序,并计算本周期内所有存储服务器状态指标slow_index的平均值;
3.2)根据排序在前m位内、存储服务器状态指标slow_index的值超过平均值达到预设比例两个条件筛选出故障候选存储服务器集合;
3.3)针对故障候选存储服务器集合中的每一个存储服务器,如果该存储服务器连续出现在往前的n个周期的故障候选存储服务器集合中,则判定该存储服务器处于fail-slow状态。
5.一种基于fail-slow模型的并行存储系统故障诊断系统,其特征在于包括:
状态获取程序单元,用于获取并行存储系统中存储服务器的广义请求平均处理时间TAvg,超时请求比Rtimeout以及存储设备平均带宽
Figure QLYQS_8
其中广义请求平均处理时间TAvg的计算函数表达式为:
Figure QLYQS_9
上式中,size0~size10分别表示RPC请求规整化处理后的所能携带的数据大小,Nsize表示在指定的一个时间段内针对某类携带数据大小为size的RPC请求的数量,Tsize为该类大小为size的RPC请求的平均处理时间;
状态综合程序单元,用于将存储服务器的广义请求平均处理时间TAvg,超时请求比Rtimeout以及存储设备平均带宽
Figure QLYQS_10
综合生成存储服务器状态指标slow_index;其中存储服务器状态指标slow_index的计算函数表达式为:
Figure QLYQS_11
上式中,TAvg表示广义请求平均处理时间,Rtimeout表示超时请求比,
Figure QLYQS_12
表示存储设备平均带宽;
状态判断程序单元,用于根据存储服务器状态指标slow_index确定并行存储系统中的故障存储服务器。
6.一种基于fail-slow模型的并行存储系统故障诊断系统,包括计算机设备,其特征在于,该计算机设备被编程或配置以独立或配合执行权利要求1~4中任意一项所述基于fail-slow模型的并行存储系统故障诊断方法的步骤,或者该计算机设备的存储器上存储有被编程或配置以独立或配合执行权利要求1~4中任意一项所述基于fail-slow模型的并行存储系统故障诊断方法的计算机程序。
7.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有被编程或配置以独立或配合执行权利要求1~4中任意一项所述基于fail-slow模型的并行存储系统故障诊断方法的计算机程序。
8.一种基于fail-slow模型的并行存储系统故障诊断系统,其特征在于,包括监控管理服务器以及监控管理网络,所述监控管理网络包括分别位于并行存储系统的存储服务器上的系统监控守护进程monitor_daemon,所述监控管理服务器上运行有监控诊断服务守护进程service_daemon,所述系统监控守护进程monitor_daemon被编程或配置以执行权利要求1~4中任意一项所述基于fail-slow模型的并行存储系统故障诊断方法的步骤1)和步骤2)并将结果输出给监控诊断服务守护进程service_daemon;所述监控诊断服务守护进程service_daemon被编程或配置以执行权利要求1~4中任意一项所述基于fail-slow模型的并行存储系统故障诊断方法的步骤3)。
CN202010236792.8A 2020-03-30 2020-03-30 基于fail-slow模型的并行存储系统故障诊断方法及系统 Active CN111459738B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010236792.8A CN111459738B (zh) 2020-03-30 2020-03-30 基于fail-slow模型的并行存储系统故障诊断方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010236792.8A CN111459738B (zh) 2020-03-30 2020-03-30 基于fail-slow模型的并行存储系统故障诊断方法及系统

Publications (2)

Publication Number Publication Date
CN111459738A CN111459738A (zh) 2020-07-28
CN111459738B true CN111459738B (zh) 2023-06-30

Family

ID=71679270

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010236792.8A Active CN111459738B (zh) 2020-03-30 2020-03-30 基于fail-slow模型的并行存储系统故障诊断方法及系统

Country Status (1)

Country Link
CN (1) CN111459738B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105718355A (zh) * 2016-01-21 2016-06-29 中国人民解放军国防科学技术大学 基于在线学习的超级计算机结点故障主动容错方法
CN106407083A (zh) * 2016-10-26 2017-02-15 华为技术有限公司 故障检测方法及装置
CN109714209A (zh) * 2018-12-29 2019-05-03 中国科学院计算技术研究所 一种网站访问故障的诊断方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8868855B2 (en) * 2011-02-28 2014-10-21 Hewlett-Packard Development Company, L.P. Request management system and method for dynamically managing prioritized requests

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105718355A (zh) * 2016-01-21 2016-06-29 中国人民解放军国防科学技术大学 基于在线学习的超级计算机结点故障主动容错方法
CN106407083A (zh) * 2016-10-26 2017-02-15 华为技术有限公司 故障检测方法及装置
CN109714209A (zh) * 2018-12-29 2019-05-03 中国科学院计算技术研究所 一种网站访问故障的诊断方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张文喆.《面向并行程序调试的确定性执行和优化技术研究》.《硕士优秀论文全文库》.2014,全文. *
王睿伯.《Aware conflict detection of non-uniform memory access system and prevention for transactional memory》.《Journal of Central South University》.2012,全文. *

Also Published As

Publication number Publication date
CN111459738A (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
CN112035404B (zh) 医疗数据监控与预警方法、装置、设备及存储介质
US8782322B2 (en) Ranking of target server partitions for virtual server mobility operations
US7401248B2 (en) Method for deciding server in occurrence of fault
EP3352433B1 (en) Node connection method and distributed computing system
US20120266026A1 (en) Detecting and diagnosing misbehaving applications in virtualized computing systems
US8904144B1 (en) Methods and systems for determining at risk index for storage capacity
US20090235267A1 (en) Consolidated display of resource performance trends
US9336489B2 (en) Techniques for handling modeling errors during planning
US8452901B1 (en) Ordered kernel queue for multipathing events
US10067704B2 (en) Method for optimizing storage configuration for future demand and system thereof
WO2011059837A1 (en) Allocating storage memory based on future use estimates
JP6190468B2 (ja) 管理システム、プラン生成方法、およびプラン生成プログラム
US9792231B1 (en) Computer system for managing I/O metric information by identifying one or more outliers and comparing set of aggregated I/O metrics
US9600523B2 (en) Efficient data collection mechanism in middleware runtime environment
US20170054592A1 (en) Allocation of cloud computing resources
CN111124830B (zh) 一种微服务的监控方法及装置
CN116414661B (zh) 分布式存储的固态硬盘处理方法和装置
US10579506B2 (en) Real-time analytics of machine generated instrumentation data
CN111459738B (zh) 基于fail-slow模型的并行存储系统故障诊断方法及系统
US8938479B1 (en) Systems and methods for dynamically selecting a logical location for an index
CN110909023B (zh) 一种查询计划的获取方法、数据查询方法及装置
CN115509853A (zh) 一种集群数据异常检测方法及电子设备
CN115729907A (zh) 为数据库实例的监控指标分类的方法和装置、为数据库实例分类的方法和装置
CN113419852A (zh) 微服务的请求响应方法、装置、设备及存储介质
Yan et al. Analysis of energy consumption of deduplication in storage systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant