CN112732525A - 分布式存储系统的故障检测方法及装置 - Google Patents

分布式存储系统的故障检测方法及装置 Download PDF

Info

Publication number
CN112732525A
CN112732525A CN202011640481.4A CN202011640481A CN112732525A CN 112732525 A CN112732525 A CN 112732525A CN 202011640481 A CN202011640481 A CN 202011640481A CN 112732525 A CN112732525 A CN 112732525A
Authority
CN
China
Prior art keywords
tolerance
storage system
service quality
distributed storage
line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011640481.4A
Other languages
English (en)
Inventor
姜旭
陈望斌
郑彩平
常杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202011640481.4A priority Critical patent/CN112732525A/zh
Publication of CN112732525A publication Critical patent/CN112732525A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供了一种分布式存储系统的故障检测方法及装置,可用于金融领域或其他领域,该方法包括:获取目标分布式存储系统的服务质量指标数据;根据预获取的服务质量指标上容忍线、下容忍线和所述服务质量指标数据,得到服务质量指标容忍率;根据所述服务质量指标容忍率,确定所述目标分布式存储系统的故障率。本申请能够实现分布式存储系统的定量故障检测,能够提高故障检测的准确性和及时性,进而能够保证存储系统高效且稳定的运行。

Description

分布式存储系统的故障检测方法及装置
技术领域
本申请涉及分布式技术领域,也涉及金融领域或其他技术领域,具体涉及一种分布式存储系统的故障检测方法及装置。
背景技术
为了保证分布式环境下存储系统稳定且高效运行,需要及时准确反映其健康状态。在分布式存储环境下,业务类别繁多并且系统结构复杂,为了保证业务处理过程中对存储系统的高效利用,除了需要保证存储系统稳定性外,还需要及时感知存储系统故障。
随着云计算的高速发展,存储系统规模迅速扩大,传统检测手段的弊端也逐渐暴露出来。常规存储系统故障检测是通过不同存储节点间的心跳和租约等,对系统进行周期性检测;这种故障检测方式存在如下问题:
仅对存储系统的故障程度定性分析,无法实现定量的比较,即仅通过硬件状态是否正常以及多节点间心跳是否有响应进行检测,并无更为细致化的检测,因而无法对系统故障程度进行整体评估;无法提前准确判断存储系统的故障程度,因而难以发现硬件潜在故障风险,一旦发生故障将影响存储系统稳定、高效运行,另外,网络的短暂抖动会增加检测误判的可能。
发明内容
针对现有技术中的问题,本申请提出了一种分布式存储系统的故障检测方法及装置,能够实现分布式存储系统的定量故障检测,能够提高故障检测的准确性和及时性,进而能够保证存储系统高效且稳定的运行。
为了解决上述技术问题,本申请提供以下技术方案:
第一方面,本申请提供一种分布式存储系统的故障检测方法,包括:
获取目标分布式存储系统的服务质量指标数据;
根据预获取的服务质量指标上容忍线、下容忍线和所述服务质量指标数据,得到服务质量指标容忍率;
根据所述服务质量指标容忍率,确定所述目标分布式存储系统的故障率。
进一步地,所述服务质量指标数据包括:资源消耗指标数据和性能指标数据。
进一步地,所述根据预获取的服务质量指标上容忍线、下容忍线和所述服务质量指标数据,得到服务质量指标容忍率,包括:
根据所述服务质量指标上容忍线和下容忍线,生成服务质量指标容忍中线;
根据所述服务质量指标上容忍线、下容忍线、容忍中线和服务质量指标数据,得到服务质量指标容忍率。
进一步地,所述的分布式存储系统的故障检测方法,还包括:
根据所述资源消耗指标数据及其对应的预获取的资源消耗指标上容忍线和资源消耗指标下容忍线,得到该资源消耗指标数据的资源消耗指标容忍率;
根据所述性能指标数据及其对应的预获取的性能指标上容忍线和性能指标下容忍线,得到该性能指标数据的性能指标容忍率;
对所述资源消耗指标容忍率和性能指标容忍率进行加权平均,得到所述目标分布式存储系统的故障率;
将所述目标分布式存储系统的故障率实时输出展示。
进一步地,在所述根据预获取的服务质量指标上容忍线、下容忍线和所述服务质量指标数据,得到服务质量指标容忍率之前,还包括:
获取预设时间段内的多个历史服务质量指标数据;
根据所有所述历史服务质量指标数据和动态基线算法,生成服务质量指标上基线和下基线;
根据预设的容忍度和所述服务质量指标上基线,生成服务质量指标上容忍线;
根据预设的容忍度和所述服务质量指标下基线,生成服务质量指标下容忍线。
进一步地,所述根据所述服务质量指标容忍率,确定所述目标分布式存储系统的故障率,还包括:
若所述目标分布式存储系统的故障率超过故障率阈值,则确定该目标分布式存储系统存在故障风险;
根据所述服务质量指标数据,确定所述目标分布式存储系统中存在故障风险的硬件。
第二方面,本申请提供一种分布式存储系统的故障检测装置,包括:
获取模块,用于获取目标分布式存储系统的服务质量指标数据;
容忍率确定模块,用于根据预获取的服务质量指标上容忍线、下容忍线和所述服务质量指标数据,得到服务质量指标容忍率;
故障检测模块,用于根据所述服务质量指标容忍率,确定所述目标分布式存储系统的故障率。
进一步地,所述服务质量指标数据包括:资源消耗指标数据和性能指标数据。
第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的分布式存储系统的故障检测方法。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现所述的分布式存储系统的故障检测方法。
由上述技术方案可知,本申请提供一种分布式存储系统的故障检测方法及装置。其中,该方法包括:获取目标分布式存储系统在预设时间段内的服务质量指标数据;根据动态基线算法、服务质量指标数据和实际服务质量指标曲线,得到服务质量指标容忍率;根据所述服务质量指标容忍率,确定所述目标分布式存储系统的故障率,能够实现分布式存储系统的定量故障检测,能够提高故障检测的准确性和及时性,进而能够保证存储系统高效且稳定的运行;能够避免网络的短暂抖动增加检测误判的可能,能够实现对存储系统故障程度进行整体评估,能够及时确定硬件潜在故障风险。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例中分布式存储系统的故障检测方法的流程示意图;
图2是本申请另一实施例中分布式存储系统的故障检测方法的流程示意图;
图3是本申请又一实施例中分布式存储系统的故障检测方法的流程示意图;
图4是本申请应用实例中分布式存储系统的故障检测方法的逻辑示意图;
图5是本申请实施例中服务质量指标上容忍线、下容忍线、上基线和下基线的关系示意图;
图6是本申请实施例中服务质量指标上容忍线、下容忍线、容忍中线和实际资源消耗曲线的关系示意图;
图7是本申请实施例中分布式存储系统的故障检测装置的结构示意图;
图8为本申请实施例的电子设备9600的系统构成示意框图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了解决上述常规存储系统故障检测中存在的问题,本申请实施例依赖于分布式存储系统自身的特性,实现高效且准确的故障检测,检测结果可以用于指导生产,结合生产环境应用场景,对存储系统潜在故障硬件设备进行及时的更换。存储系统服务质量指标通常包含两部分内容:一方面包含有系统资源使用情况,如硬件资源CPU、内存、磁盘和网络等使用情况;另一方面包含有系统获取上层应用的服务,如性能指标IOPS、带宽、时延等。本申请可以从服务质量的角度来确定在线存储系统的故障程度,从多个维度评估一个在线分布式存储系统的故障程度,如,性能指标容忍率和资源消耗容忍率两个维度,容忍率表示指标异常可能性。本申请还能够实现业务动态调度,以使存储系统处于故障率更低的状态,即通过定量的存储系统故障程度,结合当前存储系统承载业务实际情况,指导生产及时更换硬件。
基于此,为了实现分布式存储系统的定量故障检测,提高故障检测的准确性和及时性,进而保证存储系统高效且稳定的运行,本申请实施例提供一种分布式存储系统的故障检测装置,该装置可以是一服务器或客户端设备,所述客户端设备可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备和智能穿戴设备等。其中,所述智能穿戴设备可以包括智能眼镜、智能手表和智能手环等。
在实际应用中,进行故障检测的部分可以在如上述内容所述的服务器侧执行,也可以所有的操作都在所述客户端设备中完成。具体可以根据所述客户端设备的处理能力,以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成,所述客户端设备还可以包括处理器。
上述的客户端设备可以具有通信模块(即通信单元),可以与远程的服务器进行通信连接,实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器,其他的实施场景中也可以包括中间平台的服务器,例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备,也可以包括多个服务器组成的服务器集群,或者分布式装置的服务器结构。
所述服务器与所述客户端设备之间可以使用任何合适的网络协议进行通信,包括在本申请提交日尚未开发出的网络协议。所述网络协议例如可以包括TCP/IP协议、UDP/IP协议、HTTP协议、HTTPS协议等。当然,所述网络协议例如还可以包括在上述协议之上使用的RPC协议(Remote Procedure Call Protocol,远程过程调用协议)、REST协议(Representational State Transfer,表述性状态转移协议)等。
需要说明的是,本申请公开的分布式存储系统的故障检测方法及装置可用于金融技术领域,也可用于除金融技术领域之外的任意领域,本申请公开的分布式存储系统的故障检测方法及装置的应用领域不做限定。
具体通过下述各个实施例进行说明。
为了实现分布式存储系统的定量故障检测,提高故障检测的准确性和及时性,进而保证存储系统高效且稳定的运行,本实施例提供一种执行主体是故障检测装置的故障检测方法,该故障检测装置包括但不限于服务器,如图1所示,该方法具体包含有如下内容:
步骤101:获取目标分布式存储系统的服务质量指标数据。
其中,所述服务质量指标数据包括:资源消耗指标数据和性能指标数据;所述服务质量指标数据可以包括:分布式存储系统的CPU资源、磁盘IO资源、内存资源和网络带宽等资源消耗指标数据,以及IOPS、带宽和时延等性能指标数据。
具体地,可以应用操作系统自带的iostat、free和dstat等命令定期收集生产环境中存储系统的CPU资源、磁盘IO资源、内存资源、网络带宽资源等,以资源总量的百分比表示;应用分布式存储系统自带命令查看性能指标数据(如Ceph分布式存储系统,可使用ceph-s命令查看)。
可以理解的是,若所述服务质量指标数据为当前的服务质量指标数据,则最终可以得到目标分布式存储系统当前的故障率;若所述服务质量指标数据为一个时间段内不同时间点的服务质量指标数据,则可以确定目标分布式存储系统在该时间段内不同时间点的故障率。
步骤102:根据预获取的服务质量上容忍线、下容忍线和所述服务质量指标数据,得到服务质量指标容忍率。
步骤103:根据所述服务质量指标容忍率,确定所述目标分布式存储系统的故障率。
由上述描述可知,本实施例提供的分布式存储系统的故障检测方法,可以基于系统存储的资源消耗指标数据和性能指标数据等服务质量指标数据,指导生产及时更换硬件来调整硬件资源亚健康运行状态,从而保障分布式环境下存储系统稳定且高效地运行。
为了进一步提高获取服务质量指标容忍率的可靠性,进而应用可靠的服务质量指标容忍率提高故障检测的准确性,参见图2,在本申请一个实施例中,步骤102包括:
步骤201:根据所述服务质量指标上容忍线和下容忍线,生成服务质量指标容忍中线。
具体地,如图6所示,同一时间点,服务质量指标容忍中线到服务质量指标上容忍线和下容忍线的距离相等,预设时间范围内的服务质量指标数据拟合成实际资源消耗曲线;在图5和图6中,纵坐标表示服务质量指标数据,各种服务质量指标数据可以包括:资源消耗指标数据和性能指标数据,资源消耗指标数据可以相当于资源利用率,横坐标表示时间。
步骤202:根据所述服务质量指标上容忍线、下容忍线、容忍中线和服务质量指标数据,得到服务质量指标容忍率。
具体地,可以根据下列公式得到服务质量指标容忍率:
Figure BDA0002879927340000061
其中,上容忍值、下容忍值和容忍中值分别为服务质量指标上容忍线、下容忍线和容忍中线中与所述服务质量指标数据对应的时间点相同的值。
为了提高获取故障率的可靠性,同时实现故障检测结果的实时可视化展示,在本申请一个实施例中,所述分布式存储系统的故障检测方法还包括:
步骤301:根据所述资源消耗指标数据及其对应的预获取的资源消耗指标上容忍线和资源消耗指标下容忍线,得到该资源消耗指标数据的资源消耗指标容忍率。
步骤302:根据所述性能指标数据及其对应的预获取的性能指标上容忍线和性能指标下容忍线,得到该性能指标数据的性能指标容忍率。
可以理解的是,生成性能指标上容忍线、性能指标下容忍线的过程均可以相当于本申请中生成服务质量指标上容忍线和下容忍线的过程。
步骤303:对所述资源消耗指标容忍率和性能指标容忍率进行加权平均,得到所述目标分布式存储系统的故障率。
其中,所述资源消耗指标容忍率和性能指标容忍率对应的时间点相同。
步骤304:将所述目标分布式存储系统的故障率实时输出展示。
具体地,性能指标容忍率和资源消耗指标容忍率各自的权重可根据实际需要进行设置,作为优选,可以设置资源消耗指标数据对应的容忍率的权重大于性能指标数据对应的容忍率的权重;可以通过加权平均的方式得到目标分布式存储系统的故障率。该故障率位于0到1之间,越接近1,表示目标分布式存储系统故障率越高;越接近0,表示目标分布式存储系统故障率越低。存储系统故障率指标可以作为系统状态的一个标识,实时展示,定期更新,当该值较高时,提示对存储系统采取必要的干预手段。
为了进一步提高生成服务质量指标上容忍线和生成服务质量指标下容忍线的可靠性,参见图3,在本申请一个实施例中,在步骤201之前,还包括:
步骤401:获取预设时间段内的多个历史服务质量指标数据。
具体地,所述预设时间段可以根据实际需要进行设定,本申请对此不作限制。
步骤402:根据所有所述历史服务质量指标数据和动态基线算法,生成服务质量指标上基线和下基线。
具体地,可以根据所述动态基线算法对历史服务质量指标数据进行拟合得到服务质量指标上基线和服务质量指标下基线;所述动态基线算法可以是基于历史统计数据,设定指标在不同时段的合理变化区域的方法,其体现了指标在不同时段的规律性变化的趋势,也可称为“趋势算法”;即可以应用动态基线算法和历史服务指标数据,预测当前的服务质量指标数据的预测值。
步骤403:根据预设的容忍度和所述服务质量指标上基线,生成服务质量指标上容忍线。
具体地,所述预设的容忍度可根据实际需要进行设置,本申请对此不作限制;作为优选,可以设置容忍度为25%。
步骤404:根据预设的容忍度和所述服务质量指标下基线,生成服务质量指标下容忍线。
如图5所示,所述服务质量指标上基线与下基线之间的纵坐标范围可以表示资源利用率的正常范围;服务质量指标上容忍线和上基线之间的纵坐标范围,以及服务质量指标下容忍线和下基线之间的纵坐标范围均可以表示资源利用率的容忍范围,资源利用率可以相当于上述服务质量指标数据。
为了提前准确判断存储系统的故障程度,因而及时确定硬件潜在故障风险,在本申请一个实施例中,步骤103还包括:
步骤501:若所述目标分布式存储系统的故障率超过故障率阈值,则确定该目标分布式存储系统存在故障风险。
步骤502:根据所述服务质量指标数据,确定所述目标分布式存储系统中存在故障风险的硬件。
举例来说,在计算密集型业务中,服务质量指标数据中的CPU使用率突然降低,性能数据也出现骤降的情况,考虑可能CPU硬件出现故障,及时通知生产进行CPU更换;在IO密集型业务中,磁盘使用率频繁出现忽高忽低的现象,性能数据也大幅度波动,考虑可能磁盘亚健康,应及时通知生产进行磁盘替换。
为了进一步说明本方案,本申请提供一种分布式存储系统的故障检测方法的应用实例,如图4所示,在本应用实例中,该故障检测方法包含有:将性能指标数据从生产环境存储系统输出至存储故障检测评估系统,得到性能指标容忍线;将硬件资源消耗数据即上述资源消耗指标数据从生产环境存储系统中输出至存储故障检测评估系统,得到资源消耗容忍线;根据资源消耗容忍线得到资源消耗容忍率;根据性能指标容忍线得到性能指标容忍率;根据资源消耗容忍率和性能指标容忍率得到存储系统故障率;应用存储系统故障率指导生产,及时更换设备硬件,生产环境存储系统实现的功能可以相当于上述目标分布式存储系统实现的功能,存储故障检测评估系统实现的功能可以相当于上述故障检测装置实现的功能;该故障检测方法具体描述如下:
1)收集生产环境中存储系统的资源消耗指标数据以及性能指标数据。
使用操作系统自带的iostat、free和dstat等命令定期收集生产环境中存储系统的CPU资源、磁盘IO资源、内存资源、网络带宽资源等消耗情况,以资源总量的百分比表示;使用分布式存储系统自带命令查看性能指标数据(如Ceph分布式存储系统,可以应用ceph-s命令查看)。
2)使用动态基线管理算法计算出资源消耗和性能指标容忍线。
根据动态基线管理算法拟合出资源消耗和性能指标的上下基线,设置容忍度为25%,从而计算出相应的上下容忍线和容忍中线,容忍中线到上下容忍线的距离相等。
3)基于容忍中线与实际资源消耗曲线的差值,计算出资源消耗指标的容忍率;基于容忍中线与性能指标曲线的差值,计算出性能指标的容忍率。
根据资源实际消耗与容忍中线的差值(中线偏差),计算资源消耗的容忍率,具体公式为
Figure BDA0002879927340000091
其中
Figure BDA0002879927340000092
s0为资源消耗的实际值,s1,s2,s3分别为资源消耗的上容忍线、下容忍线、容忍中线,并根据存储系统的消耗特征赋予不同资源容忍率相应权重计算资源整体容忍率指标;根据实际性能指标与容忍中线的差值(中线偏差),计算性能指标的容忍率,具体公式为
Figure BDA0002879927340000093
其中
Figure BDA0002879927340000094
p0为实际性能指标数据,p1,p2,p3分别为性能指标的上容忍线、下容忍线、容忍中线。
4)基于资源消耗和性能指标的容忍率计算出存储系统故障率。
根据实际情况赋予资源消耗和性能指标的容忍率相应的权重(推荐资源消耗容忍率使用相对较高的权重),通过加权平均的方式统计出存储系统的故障率。该故障率位于0到1之间,越接近1,表示该存储系统故障率越高;越接近0,表示该存储系统故障率越低。存储系统故障率指标可以作为系统状态的一个标识,实时展示,定期更新,当该值较高时,提示运维人员对存储系统采取必要的干预。
5)优化应用对存储系统资源的动态调度
根据检测出的存储系统故障程度,结合存储系统资源使用情况及性能指标数据,指导生产及时开展硬件更换方案。存储系统故障率偏高时,根据应用类型检查各资源消耗和性能波动情况。如计算密集型业务,CPU使用率突然降低,性能数据也出现骤降的情况,考虑可能CPU硬件出现故障,及时通知生产进行CPU更换;IO密集型业务,磁盘使用率频繁出现忽高忽低的现象,性能数据也大幅度波动,考虑可能磁盘亚健康,应及时通知生产进行磁盘替换。
由上述描述可知,本应用实例提供的分布式存储系统的故障检测方法,应用资源消耗容忍率和性能指标的容忍率作为存储系统的故障率指标,基于系统存储的资源消耗、性能指标等服务质量指标,指导生产及时更换硬件来调整硬件资源亚健康运行状态,从而能够保障分布式环境下存储系统稳定、高效运行。
从软件层面来说,为了实现分布式存储系统的定量故障检测,提高故障检测的准确性和及时性,进而保证存储系统高效且稳定的运行,本申请提供一种用于实现所述分布式存储系统的故障检测方法中全部或部分内容的分布式存储系统的故障检测装置的实施例,参见图7,所述分布式存储系统的故障检测装置具体包含有如下内容:
获取模块10,用于获取目标分布式存储系统在预设时间段内的服务质量指标数据。
容忍率确定模块20,用于根据动态基线算法、服务质量指标数据和实际服务质量指标曲线,得到服务质量指标容忍率。
故障检测模块30,用于根据所述服务质量指标容忍率,确定所述目标分布式存储系统的故障率。
本说明书提供的分布式存储系统的故障检测装置的实施例具体可以用于执行上述分布式存储系统的故障检测方法的实施例的处理流程,其功能在此不再赘述,可以参照上述分布式存储系统的故障检测方法实施例的详细描述。
由上述描述可知,本申请提供的分布式存储系统的故障检测方法及装置,能够实现分布式存储系统的定量故障检测,能够提高故障检测的准确性和及时性,进而能够保证存储系统高效且稳定的运行;能够避免网络的短暂抖动增加检测误判的可能,能够实现对存储系统故障程度进行整体评估,能够及时确定硬件潜在故障风险。
从硬件层面来说,为了实现分布式存储系统的定量故障检测,提高故障检测的准确性和及时性,进而能够保证存储系统高效且稳定的运行,本申请提供一种用于实现所述分布式存储系统的故障检测方法中的全部或部分内容的电子设备的实施例所述电子设备具体包含有如下内容:
处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述通信接口用于实现所述分布式存储系统的故障检测装置以及用户终端等相关设备之间的信息传输;该电子设备可以是台式计算机、平板电脑及移动终端等,本实施例不限于此。在本实施例中,该电子设备可以参照实施例用于实现所述分布式存储系统的故障检测方法的实施例及用于实现所述分布式存储系统的故障检测装置的实施例进行实施,其内容被合并于此,重复之处不再赘述。
图8为本申请实施例的电子设备9600的系统构成的示意框图。如图8所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图8是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
在本申请一个或多个实施例中,故障检测功能可以被集成到中央处理器9100中。其中,中央处理器9100可以被配置为进行如下控制:
步骤101:获取目标分布式存储系统的服务质量指标数据。
步骤102:根据预获取的服务质量上容忍线、下容忍线和所述服务质量指标数据,得到服务质量指标容忍率。
步骤103:根据所述服务质量指标容忍率,确定所述目标分布式存储系统的故障率。
从上述描述可知,本申请的实施例提供的电子设备,能够实现分布式存储系统的定量故障检测,提高故障检测的准确性和及时性,进而能够保证存储系统高效且稳定的运行。
在另一个实施方式中,分布式存储系统的故障检测装置可以与中央处理器9100分开配置,例如可以将分布式存储系统的故障检测装置配置为与中央处理器9100连接的芯片,通过中央处理器的控制来实现故障检测功能。
如图8所示,该电子设备9600还可以包括:通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图8中所示的所有部件;此外,电子设备9600还可以包括图8中没有示出的部件,可以参考现有技术。
如图8所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。
其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。
输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器9140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。
存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本机上录音,且使得可以通过扬声器9131来播放本机上存储的声音。
上述描述可知,本申请的实施例提供的电子设备,能够实现分布式存储系统的定量故障检测,提高故障检测的准确性和及时性,进而能够保证存储系统高效且稳定的运行。
本申请的实施例还提供能够实现上述实施例中的分布式存储系统的故障检测方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的分布式存储系统的故障检测方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
步骤101:获取目标分布式存储系统的服务质量指标数据。
步骤102:根据预获取的服务质量上容忍线、下容忍线和所述服务质量指标数据,得到服务质量指标容忍率。
步骤103:根据所述服务质量指标容忍率,确定所述目标分布式存储系统的故障率。
从上述描述可知,本申请实施例提供的计算机可读存储介质,能够实现分布式存储系统的定量故障检测,提高故障检测的准确性和及时性,进而能够保证存储系统高效且稳定的运行。
本申请中上述方法的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。相关之处参见方法实施例的部分说明即可。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本申请中应用了具体实施例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种分布式存储系统的故障检测方法,其特征在于,包括:
获取目标分布式存储系统的服务质量指标数据;
根据预获取的服务质量指标上容忍线、下容忍线和所述服务质量指标数据,得到服务质量指标容忍率;
根据所述服务质量指标容忍率,确定所述目标分布式存储系统的故障率。
2.根据权利要求1所述的分布式存储系统的故障检测方法,其特征在于,所述服务质量指标数据包括:资源消耗指标数据和性能指标数据。
3.根据权利要求1所述的分布式存储系统的故障检测方法,其特征在于,所述根据预获取的服务质量指标上容忍线、下容忍线和所述服务质量指标数据,得到服务质量指标容忍率,包括:
根据所述服务质量指标上容忍线和下容忍线,生成服务质量指标容忍中线;
根据所述服务质量指标上容忍线、下容忍线、容忍中线和服务质量指标数据,得到服务质量指标容忍率。
4.根据权利要求2所述的分布式存储系统的故障检测方法,其特征在于,还包括:
根据所述资源消耗指标数据及其对应的预获取的资源消耗指标上容忍线和资源消耗指标下容忍线,得到该资源消耗指标数据的资源消耗指标容忍率;
根据所述性能指标数据及其对应的预获取的性能指标上容忍线和性能指标下容忍线,得到该性能指标数据的性能指标容忍率;
对所述资源消耗指标容忍率和性能指标容忍率进行加权平均,得到所述目标分布式存储系统的故障率;
将所述目标分布式存储系统的故障率实时输出展示。
5.根据权利要求1所述的分布式存储系统的故障检测方法,其特征在于,在所述根据预获取的服务质量指标上容忍线、下容忍线和所述服务质量指标数据,得到服务质量指标容忍率之前,还包括:
获取预设时间段内的多个历史服务质量指标数据;
根据所有所述历史服务质量指标数据和动态基线算法,生成服务质量指标上基线和下基线;
根据预设的容忍度和所述服务质量指标上基线,生成服务质量指标上容忍线;
根据预设的容忍度和所述服务质量指标下基线,生成服务质量指标下容忍线。
6.根据权利要求1所述的分布式存储系统的故障检测方法,其特征在于,所述根据所述服务质量指标容忍率,确定所述目标分布式存储系统的故障率,还包括:
若所述目标分布式存储系统的故障率超过故障率阈值,则确定该目标分布式存储系统存在故障风险;
根据所述服务质量指标数据,确定所述目标分布式存储系统中存在故障风险的硬件。
7.一种分布式存储系统的故障检测装置,其特征在于,包括:
获取模块,用于获取目标分布式存储系统的服务质量指标数据;
容忍率确定模块,用于根据预获取的服务质量指标上容忍线、下容忍线和所述服务质量指标数据,得到服务质量指标容忍率;
故障检测模块,用于根据所述服务质量指标容忍率,确定所述目标分布式存储系统的故障率。
8.根据权利要求7所述的分布式存储系统的故障检测装置,其特征在于,所述服务质量指标数据包括:资源消耗指标数据和性能指标数据。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至6任一项所述的分布式存储系统的故障检测方法。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述指令被执行时实现权利要求1至6任一项所述的分布式存储系统的故障检测方法。
CN202011640481.4A 2020-12-31 2020-12-31 分布式存储系统的故障检测方法及装置 Pending CN112732525A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011640481.4A CN112732525A (zh) 2020-12-31 2020-12-31 分布式存储系统的故障检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011640481.4A CN112732525A (zh) 2020-12-31 2020-12-31 分布式存储系统的故障检测方法及装置

Publications (1)

Publication Number Publication Date
CN112732525A true CN112732525A (zh) 2021-04-30

Family

ID=75608966

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011640481.4A Pending CN112732525A (zh) 2020-12-31 2020-12-31 分布式存储系统的故障检测方法及装置

Country Status (1)

Country Link
CN (1) CN112732525A (zh)

Similar Documents

Publication Publication Date Title
US9043317B2 (en) System and method for event-driven prioritization
CN112346936A (zh) 应用故障根因定位方法及系统
CN113163002B (zh) 一种服务器切换方法、装置及存储介质
CN107704387B (zh) 用于系统预警的方法、装置、电子设备及计算机可读介质
CN111740860A (zh) 日志数据传输链路监控方法及装置
CN110166271B (zh) 一种检测网络节点异常的方法和装置
US11635985B2 (en) Using degree of completeness of real-time data to maximize product revenue
US11677639B2 (en) Connection management between applications and service resources
CN114500339B (zh) 一种节点带宽监测方法、装置、电子设备及存储介质
CN113055479A (zh) 分布式服务集群负载自适应处理方法、装置及系统
CN113117326A (zh) 一种帧率控制方法和装置
US9501321B1 (en) Weighted service requests throttling
CN113190516A (zh) 数据同步监控方法及装置
CN111835578B (zh) 信息传输管理方法、信息传输管理装置及可读存储介质
CN110311933A (zh) 一种均衡业务流量的方法、装置、设备及存储介质
CN112732525A (zh) 分布式存储系统的故障检测方法及装置
CN112152879A (zh) 网络质量确定方法、装置、电子设备和可读存储介质
Eom et al. An adaptive remote display scheme to deliver mobile cloud services
CN114663239A (zh) 一种异常交易预警方法及装置
CN115187364A (zh) 银行分布式场景下保证金风险监控的方法及装置
JP2013011987A (ja) 異常状態検知装置及び異常状態検知方法
CN113535020A (zh) 用于生成应用图标的方法、装置、设备、介质和产品
CN113378082A (zh) 一种信息推荐方法、装置、电子设备以及存储介质
CN112766698B (zh) 应用业务压力确定方法及装置
CN115292081B (zh) 信息发送方法、装置、电子设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination