CN108683542A - 一种分布式存储系统的故障自诊断方法、系统及装置 - Google Patents

一种分布式存储系统的故障自诊断方法、系统及装置 Download PDF

Info

Publication number
CN108683542A
CN108683542A CN201810495685.XA CN201810495685A CN108683542A CN 108683542 A CN108683542 A CN 108683542A CN 201810495685 A CN201810495685 A CN 201810495685A CN 108683542 A CN108683542 A CN 108683542A
Authority
CN
China
Prior art keywords
message
sides
time
equipment
distributed memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810495685.XA
Other languages
English (en)
Inventor
丁瑞锋
窦本君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201810495685.XA priority Critical patent/CN108683542A/zh
Publication of CN108683542A publication Critical patent/CN108683542A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1095Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种分布式存储系统的故障自诊断方法、系统及装置,包括:根据分布式存储系统中各设备之间、同一设备中各模块之间传送的消息,实时自动统计传送消息的双方对应的表征系统性能的性能信息;将性能信息与预设性能指标进行自动对应比较,确定超出预设性能指标的性能信息所对应的故障设备双方或故障模块双方,以供系统管理人员参考并进行故障排除。可见,本申请可以自动确定故障设备双方或故障模块双方,比较省时省力,而且,本申请为系统管理人员提供有效地故障参考信息,从而降低了系统管理人员的专业性要求。

Description

一种分布式存储系统的故障自诊断方法、系统及装置
技术领域
本发明涉及计算机存储领域,特别是涉及一种分布式存储系统的故障自诊断方法、系统及装置。
背景技术
目前,分布式存储系统由于其高可靠性及高安全性,广泛应用于计算机存储领域。已知,分布式存储系统采用可扩展的系统结构,将数据分散存储在多台独立的设备上,提高了系统的可靠性、可用性及存取效率。但是,分布式存储系统比较庞大,如果在运行过程中出现故障,不易诊断出故障的设备。现有技术中,通常由开发人员对整个系统进行一步一步排查,从而诊断出故障的设备,或者进一步诊断出故障设备中具体出故障的模块,但是,该人工诊断方法费时费力,且所需的开发人员专业性较强。
因此,如何提高一种解决上述技术问题的方案是本领域的技术人员目前需要解决的问题。
发明内容
本发明的目的是提供一种分布式存储系统的故障自诊断方法、系统及装置,可以自动确定故障设备双方或故障模块双方,比较省时省力,而且,本申请为系统管理人员提供有效地故障参考信息,从而降低了系统管理人员的专业性要求。
为解决上述技术问题,本发明提供了一种分布式存储系统的故障自诊断方法,包括:
根据分布式存储系统中各设备之间、同一设备中各模块之间传送的消息,实时自动统计传送所述消息的双方对应的表征系统性能的性能信息;
将所述性能信息与预设性能指标进行自动对应比较,确定超出所述预设性能指标的性能信息所对应的故障设备双方或故障模块双方,以供系统管理人员参考并进行故障排除。
优选地,该故障自诊断方法还包括:
显示所述故障设备双方或所述故障模块双方的位置,以提醒所述系统管理人员及时进行故障排除。
优选地,所述性能信息包括消息传送时间及消息丢包率。
优选地,所述将所述性能信息与预设性能指标进行自动对应比较,确定超出所述预设性能指标的性能信息所对应的故障设备双方或故障模块双方的过程具体为:
将所述消息传送时间与预设时间进行自动比较,当所述消息传送时间大于所述预设时间时,确定该消息传送时间所对应的故障设备双方或故障模块双方;
将所述消息丢包率与预设丢包率进行自动比较,当所述消息丢包率大于所述预设丢包率时,确定该消息丢包率所对应的故障设备双方或故障模块双方。
优选地,所述实时自动统计传送所述消息的双方对应的表征系统性能的性能信息的过程具体为:
自动记录消息发送端发送消息的发送时间;
自动获取消息接收端接收该消息的接收时间,将所述接收时间与所述发送时间作差得到该消息的消息传送时间;
若在预设接收时间内未检测到所述消息接收端接收到该消息,确定该消息丢失,以自动求取当前的消息丢包率。
优选地,该故障自诊断方法还包括:
根据所述消息传送时间,实时自动计算所述消息发送端与所述消息接收端之间传送消息所耗费的当前最大时间、当前最小时间、当前平均时间及当前总时间,以供所述系统管理人员参考。
优选地,该故障自诊断方法还包括:
自动存储所述性能信息及所述消息的类型、所属模块及设备、发送方、接收方至各所述设备的本地磁盘;
基于分布式数据库管理工具实时同步各所述本地磁盘的存储内容,以便于所述系统管理人员根据所述存储内容进行故障排除。
优选地,该故障自诊断方法还包括:
在确定所述故障设备双方或所述故障模块双方后自动生成告警信息,并基于所述分布式存储系统所在的操作系统的邮件管理组件,将所述告警信息打包并自动发送至所述系统管理人员的邮箱。
为解决上述技术问题,本发明还提供了一种分布式存储系统的故障自诊断系统,包括:
实时统计单元,用于根据分布式存储系统中各设备之间、同一设备中各模块之间传送的消息,实时自动统计传送所述消息的双方对应的表征系统性能的性能信息;
故障确定单元,用于将所述性能信息与预设性能指标进行自动对应比较,确定超出所述预设性能指标的性能信息所对应的故障设备双方或故障模块双方,以供系统管理人员参考并进行故障排除。
为解决上述技术问题,本发明还提供了一种分布式存储系统的故障自诊断装置,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述任一种分布式存储系统的故障自诊断方法的步骤。
本发明提供的一种分布式存储系统的故障自诊断方法,包括:根据分布式存储系统中各设备之间、同一设备中各模块之间传送的消息,实时自动统计传送消息的双方对应的表征系统性能的性能信息;将性能信息与预设性能指标进行自动对应比较,确定超出预设性能指标的性能信息所对应的故障设备双方或故障模块双方,以供系统管理人员参考并进行故障排除。
与现有技术中的人工诊断方法相比,本申请考虑到消息是分布式存储系统各设备之间及同一设备中各模块之间通信的信息载体,消息的传送快慢等信息可以表征系统的当前状态及性能,所以本申请根据各设备之间、同一设备中各模块之间传送的消息,实时自动统计传送消息的双方对应的表征系统性能的性能信息,将性能信息与所设置的性能指标进行自动对应比较,确定超出性能指标的性能信息所对应的故障设备双方或故障模块双方,从而供系统管理人员参考并进行故障排除。可见,本申请可以自动确定故障设备双方或故障模块双方,比较省时省力,而且,本申请为系统管理人员提供有效地故障参考信息,从而降低了系统管理人员的专业性要求。
本发明还提供了一种分布式存储系统的故障自诊断系统及装置,与上述故障自诊断方法具有相同的有益效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种分布式存储系统的故障自诊断方法的流程图;
图2为本发明提供的一种分布式存储系统的故障自诊断系统的结构示意图。
具体实施方式
本发明的核心是提供一种分布式存储系统的故障自诊断方法、系统及装置,可以自动确定故障设备双方或故障模块双方,比较省时省力,而且,本申请为系统管理人员提供有效地故障参考信息,从而降低了系统管理人员的专业性要求。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参照图1,图1为本发明提供的一种分布式存储系统的故障自诊断方法的流程图。
该故障自诊断方法包括:
步骤S1:根据分布式存储系统中各设备之间、同一设备中各模块之间传送的消息,实时自动统计传送消息的双方对应的表征系统性能的性能信息;
需要说明的是,本申请中的预设是提前设置好的,只需要设置一次,除非根据实际情况需要修改,否则不需要重新设置。
具体地,分布式存储系统采用可扩展的系统结构,即包含多台独立的设备。分布式存储系统将数据分散存储在多台独立的设备上,并利用位置服务器定位存储信息,从而满足大规模存储应用的需要,提高了系统的可靠性、可用性及存取效率。其中,多台独立的设备之间通过传送消息来交互数据,处理业务;各设备内部均包含多个模块,各模块之间也通过传送消息来交互数据,处理业务。
可见,消息是分布式存储系统中各设备之间、同一设备中各模块之间通信的信息载体,消息传送的状态、快慢等消息传送信息影响传送消息的双方(消息发送端和消息接收端)的状态及性能。其中,两个设备之间传送消息,传送消息的双方称为设备双方;同一设备中两个模块之间传送消息,传送消息的双方称为模块双方。
所以,本申请根据分布式存储系统中各设备之间传送的消息,实时自动统计设备双方对应的表征系统性能的性能信息,即设备双方对应的消息传送信息;与此同时,本申请还根据同一设备中各模块之间传送的消息,实时自动统计模块双方对应的消息传送信息,为后期判定设备性能打下基础。
步骤S2:将性能信息与预设性能指标进行自动对应比较,确定超出预设性能指标的性能信息所对应的故障设备双方或故障模块双方,以供系统管理人员参考并进行故障排除。
具体地,为了判定消息传送过程中是否出现问题,本申请提前设置性能信息对应的正常的性能指标,然后将性能信息与所设的性能指标进行自动对应比较,当性能信息不大于与之对应的性能指标时,说明性能信息保持在正常的性能指标范围内,即传送消息时未出现问题;反之,当性能信息大于与之对应的性能指标时,说明传送消息时出现问题,从而可以确定出现问题的消息对应的故障设备双方或故障模块双方,以供系统管理人员参考并进行故障排除。可见,本申请可以自动确定故障设备双方或故障模块双方,比较省时省力,而且,本申请为系统管理人员提供有效地故障参考信息,从而降低了系统管理人员的专业性要求。
本发明提供的一种分布式存储系统的故障自诊断方法,包括:根据分布式存储系统中各设备之间、同一设备中各模块之间传送的消息,实时自动统计传送消息的双方对应的表征系统性能的性能信息;将性能信息与预设性能指标进行自动对应比较,确定超出预设性能指标的性能信息所对应的故障设备双方或故障模块双方,以供系统管理人员参考并进行故障排除。
与现有技术中的人工诊断方法相比,本申请考虑到消息是分布式存储系统各设备之间及同一设备中各模块之间通信的信息载体,消息的传送快慢等信息可以表征系统的当前状态及性能,所以本申请根据各设备之间、同一设备中各模块之间传送的消息,实时自动统计传送消息的双方对应的表征系统性能的性能信息,将性能信息与所设置的性能指标进行自动对应比较,确定超出性能指标的性能信息所对应的故障设备双方或故障模块双方,从而供系统管理人员参考并进行故障排除。可见,本申请可以自动确定故障设备双方或故障模块双方,比较省时省力,而且,本申请为系统管理人员提供有效地故障参考信息,从而降低了系统管理人员的专业性要求。
在上述实施例的基础上:
作为一种优选地实施例,该故障自诊断方法还包括:
显示故障设备双方或故障模块双方的位置,以提醒系统管理人员及时进行故障排除。
进一步地,本申请还可以根据确定的故障设备双方或故障模块双方,显示故障双方的位置,从而提醒系统管理人员系统出现故障,有助于系统管理人员按照故障双方的位置及时进行故障排除。比如,本申请可以提前对设备及设备内部的模块进行不重复编号,用于区分各设备及同一设备的各模块,而本申请可以根据出现问题的消息确定故障双方,从而通过显示故障双方的编号告知系统管理人员故障双方的位置。
作为一种优选地实施例,性能信息包括消息传送时间及消息丢包率。
具体地,本申请中的性能信息可以包括消息传送时间及消息丢包率,其中,消息传送时间是指从消息发送端发出消息到消息接收端接收该消息所经过的时间;消息丢包率=双方传送的消息丢失数量÷双方传送的消息总数量×100%。至于性能信息的具体内容,本申请在此不做特别的限定,根据实际情况而定。
作为一种优选地实施例,将性能信息与预设性能指标进行自动对应比较,确定超出预设性能指标的性能信息所对应的故障设备双方或故障模块双方的过程具体为:
将消息传送时间与预设时间进行自动比较,当消息传送时间大于预设时间时,确定该消息传送时间所对应的故障设备双方或故障模块双方;
将消息丢包率与预设丢包率进行自动比较,当消息丢包率大于预设丢包率时,确定该消息丢包率所对应的故障设备双方或故障模块双方。
具体地,当性能信息包括消息传送时间及消息丢包率时,本申请判定消息传送过程中是否出现问题的具体过程包括:将消息传送时间与所设时间进行自动比较,当消息传送时间不大于所设时间时,说明消息传送速度正常,即传送消息时未出现问题;反之,当消息传送时间大于所设时间时,说明消息传送速度过慢,即传送消息时出现问题,从而可以确定出现问题的消息对应的故障设备双方或故障模块双方。
与此同时,将消息丢包率与所设丢包率进行自动比较,当消息丢包率不大于所设丢包率时,说明当前的消息丢包率不足以影响设备双方通信或模块双方通信;反之,当消息丢包率大于所设丢包率时,说明当前的消息丢包率已影响到设备双方通信或模块双方通信,从而确定此时所对应的故障设备双方或故障模块双方。
作为一种优选地实施例,实时自动统计传送消息的双方对应的表征系统性能的性能信息的过程具体为:
自动记录消息发送端发送消息的发送时间;
自动获取消息接收端接收该消息的接收时间,将接收时间与发送时间作差得到该消息的消息传送时间;
若在预设接收时间内未检测到消息接收端接收到该消息,确定该消息丢失,以自动求取当前的消息丢包率。
具体地,本申请实时自动统计消息传送时间的具体过程包括:首先,自动记录消息发送端发送消息的发送时间;然后,自动获取消息接收端接收该消息的接收时间,将二者作差得到该消息的消息传送时间。或者,在消息发送端发送的消息的结尾数据部分添加一个时间戳,即将发送时间添加到消息内部;消息接收端接收到该消息时,获取当前的接收时间,并与消息中存储的发送时间作差,得到该消息的消息传送时间,从而供本申请判定设备性能。
本申请实时自动统计消息丢包率的具体过程包括:从消息发送端发送消息时开始计时,当计时时间到达所设接收时间时,若本申请仍未检测到消息接收端接收到该消息,则确定该消息丢失,从而根据当前的消息丢包率=双方传送的当前消息丢失数量÷双方传送的当前消息总数量×100%,自动求取当前的消息丢包率。
作为一种优选地实施例,该故障自诊断方法还包括:
根据消息传送时间,实时自动计算消息发送端与消息接收端之间传送消息所耗费的当前最大时间、当前最小时间、当前平均时间及当前总时间,以供系统管理人员参考。
进一步地,本申请实时自动比较消息发送端与消息接收端之间所有的消息传送时间,从中确定最大的消息传送时间,作为双方传送消息所耗费的当前最大时间;从中确定最小的消息传送时间,作为双方传送消息所耗费的当前最小时间。此外,本申请还可以自动计算所有的消息传送时间之和,得到双方传送消息所耗费的当前总时间,并利用当前总时间除以双方传送的当前消息总数量得到双方传送消息所耗费的当前平均时间。这里的各时间同样可以体现双方的性能,本申请也可以针对各时间对应设置性能指标,进而判断消息发送端与消息接收端的性能是否达标,有助于系统管理人员参考以维护系统。
作为一种优选地实施例,该故障自诊断方法还包括:
自动存储性能信息及消息的类型、所属模块及设备、发送方、接收方至各设备的本地磁盘;
基于分布式数据库管理工具实时同步各本地磁盘的存储内容,以便于系统管理人员根据存储内容进行故障排除。
进一步地,本申请还可以将传送消息的双方对应的性能信息及消息的类型、消息所属的模块及设备(消息的地址)、消息的发送方、消息的接收方自动存储至各设备的本地磁盘,并基于分布式数据库管理工具实时同步各本地磁盘的存储内容,保证各设备的本地磁盘存储的内容相同,使系统管理人员根据任一设备的存储内容,更精确判定各设备的工作状态及性能,从而判定系统问题及系统性能瓶颈点。
作为一种优选地实施例,该故障自诊断方法还包括:
在确定故障设备双方或故障模块双方后自动生成告警信息,并基于分布式存储系统所在的操作系统的邮件管理组件,将告警信息打包并自动发送至系统管理人员的邮箱。
进一步地,本申请在确定故障设备双方或故障模块双方后,自动生成包含故障分析报告的告警信息,并基于分布式存储系统所在的操作系统的邮件管理组件,将告警信息打包并自动发送至系统管理人员的邮箱,从而及时通知系统管理人员系统出现故障,系统管理人员便可以依据故障分析报告快速定位故障位置进而进行故障排除,提高了系统的可靠性。
具体地,操作系统利用自带的邮件管理组件发送邮件的命令为:
mail-s“this is a title”-r“myname@zihou.me”-a“/var/report/20180514.txt”guanliyuan@163.com,其中,guanliyuan@163.com是系统管理人员的邮箱。
请参照图2,图2为本发明提供的一种分布式存储系统的故障自诊断系统的结构示意图。
该故障自诊断系统包括:
实时统计单元1,用于根据分布式存储系统中各设备之间、同一设备中各模块之间传送的消息,实时自动统计传送消息的双方对应的表征系统性能的性能信息;
故障确定单元2,用于将性能信息与预设性能指标进行自动对应比较,确定超出预设性能指标的性能信息所对应的故障设备双方或故障模块双方,以供系统管理人员参考并进行故障排除。
本申请提供的故障自诊断系统的介绍请参考上述故障自诊断方法实施例,本申请在此不再赘述。
本发明还提供了一种分布式存储系统的故障自诊断装置,包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现上述任一种分布式存储系统的故障自诊断方法的步骤。
本申请提供的故障自诊断装置的介绍请参考上述故障自诊断方法实施例,本申请在此不再赘述。
还需要说明的是,在本说明书中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种分布式存储系统的故障自诊断方法,其特征在于,包括:
根据分布式存储系统中各设备之间、同一设备中各模块之间传送的消息,实时自动统计传送所述消息的双方对应的表征系统性能的性能信息;
将所述性能信息与预设性能指标进行自动对应比较,确定超出所述预设性能指标的性能信息所对应的故障设备双方或故障模块双方,以供系统管理人员参考并进行故障排除。
2.如权利要求1所述的分布式存储系统的故障自诊断方法,其特征在于,该故障自诊断方法还包括:
显示所述故障设备双方或所述故障模块双方的位置,以提醒所述系统管理人员及时进行故障排除。
3.如权利要求1所述的分布式存储系统的故障自诊断方法,其特征在于,所述性能信息包括消息传送时间及消息丢包率。
4.如权利要求3所述的分布式存储系统的故障自诊断方法,其特征在于,所述将所述性能信息与预设性能指标进行自动对应比较,确定超出所述预设性能指标的性能信息所对应的故障设备双方或故障模块双方的过程具体为:
将所述消息传送时间与预设时间进行自动比较,当所述消息传送时间大于所述预设时间时,确定该消息传送时间所对应的故障设备双方或故障模块双方;
将所述消息丢包率与预设丢包率进行自动比较,当所述消息丢包率大于所述预设丢包率时,确定该消息丢包率所对应的故障设备双方或故障模块双方。
5.如权利要求3所述的分布式存储系统的故障自诊断方法,其特征在于,所述实时自动统计传送所述消息的双方对应的表征系统性能的性能信息的过程具体为:
自动记录消息发送端发送消息的发送时间;
自动获取消息接收端接收该消息的接收时间,将所述接收时间与所述发送时间作差得到该消息的消息传送时间;
若在预设接收时间内未检测到所述消息接收端接收到该消息,确定该消息丢失,以自动求取当前的消息丢包率。
6.如权利要求5所述的分布式存储系统的故障自诊断方法,其特征在于,该故障自诊断方法还包括:
根据所述消息传送时间,实时自动计算所述消息发送端与所述消息接收端之间传送消息所耗费的当前最大时间、当前最小时间、当前平均时间及当前总时间,以供所述系统管理人员参考。
7.如权利要求1所述的分布式存储系统的故障自诊断方法,其特征在于,该故障自诊断方法还包括:
自动存储所述性能信息及所述消息的类型、所属模块及设备、发送方、接收方至各所述设备的本地磁盘;
基于分布式数据库管理工具实时同步各所述本地磁盘的存储内容,以便于所述系统管理人员根据所述存储内容进行故障排除。
8.如权利要求1-7任一项所述的分布式存储系统的故障自诊断方法,其特征在于,该故障自诊断方法还包括:
在确定所述故障设备双方或所述故障模块双方后自动生成告警信息,并基于所述分布式存储系统所在的操作系统的邮件管理组件,将所述告警信息打包并自动发送至所述系统管理人员的邮箱。
9.一种分布式存储系统的故障自诊断系统,其特征在于,包括:
实时统计单元,用于根据分布式存储系统中各设备之间、同一设备中各模块之间传送的消息,实时自动统计传送所述消息的双方对应的表征系统性能的性能信息;
故障确定单元,用于将所述性能信息与预设性能指标进行自动对应比较,确定超出所述预设性能指标的性能信息所对应的故障设备双方或故障模块双方,以供系统管理人员参考并进行故障排除。
10.一种分布式存储系统的故障自诊断装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1-8任一项所述的分布式存储系统的故障自诊断方法的步骤。
CN201810495685.XA 2018-05-22 2018-05-22 一种分布式存储系统的故障自诊断方法、系统及装置 Pending CN108683542A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810495685.XA CN108683542A (zh) 2018-05-22 2018-05-22 一种分布式存储系统的故障自诊断方法、系统及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810495685.XA CN108683542A (zh) 2018-05-22 2018-05-22 一种分布式存储系统的故障自诊断方法、系统及装置

Publications (1)

Publication Number Publication Date
CN108683542A true CN108683542A (zh) 2018-10-19

Family

ID=63807554

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810495685.XA Pending CN108683542A (zh) 2018-05-22 2018-05-22 一种分布式存储系统的故障自诊断方法、系统及装置

Country Status (1)

Country Link
CN (1) CN108683542A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109870924A (zh) * 2019-01-18 2019-06-11 昆明理工大学 一种应用多层稳态目标计算的模型预测控制的分布式系统控制方法
CN110224885A (zh) * 2019-05-31 2019-09-10 东软集团股份有限公司 设备监控的告警方法、装置、存储介质及电子设备
CN110602339A (zh) * 2019-08-29 2019-12-20 深圳震有科技股份有限公司 一种基于语音网关的故障检测方法、系统及存储介质
CN112860517A (zh) * 2021-02-10 2021-05-28 中国工商银行股份有限公司 一种基于分布式应用的性能诊断方法、装置及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101222366A (zh) * 2008-01-25 2008-07-16 中兴通讯股份有限公司 通信设备故障定位装置及方法
CN102594600A (zh) * 2012-02-21 2012-07-18 中兴通讯股份有限公司 一种确定双向转发检测会话故障位置的方法及系统
CN104219107A (zh) * 2014-08-26 2014-12-17 华为技术有限公司 一种通信故障的检测方法、装置及系统
CN106817264A (zh) * 2015-11-27 2017-06-09 华为软件技术有限公司 一种链路故障检测的方法、装置和系统
CN107733672A (zh) * 2016-08-12 2018-02-23 南京中兴软件有限责任公司 故障处理方法、装置及控制器
US20180095827A1 (en) * 2015-01-30 2018-04-05 International Business Machines Corporation Read-source requests to support bundled writes in a distributed storage system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101222366A (zh) * 2008-01-25 2008-07-16 中兴通讯股份有限公司 通信设备故障定位装置及方法
CN102594600A (zh) * 2012-02-21 2012-07-18 中兴通讯股份有限公司 一种确定双向转发检测会话故障位置的方法及系统
CN104219107A (zh) * 2014-08-26 2014-12-17 华为技术有限公司 一种通信故障的检测方法、装置及系统
US20180095827A1 (en) * 2015-01-30 2018-04-05 International Business Machines Corporation Read-source requests to support bundled writes in a distributed storage system
CN106817264A (zh) * 2015-11-27 2017-06-09 华为软件技术有限公司 一种链路故障检测的方法、装置和系统
CN107733672A (zh) * 2016-08-12 2018-02-23 南京中兴软件有限责任公司 故障处理方法、装置及控制器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
俞赟: "大规模存储智能网管系统设计与实现", 《中国优秀硕士学位论文全文数据库·信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109870924A (zh) * 2019-01-18 2019-06-11 昆明理工大学 一种应用多层稳态目标计算的模型预测控制的分布式系统控制方法
CN110224885A (zh) * 2019-05-31 2019-09-10 东软集团股份有限公司 设备监控的告警方法、装置、存储介质及电子设备
CN110224885B (zh) * 2019-05-31 2021-09-17 东软集团股份有限公司 设备监控的告警方法、装置、存储介质及电子设备
CN110602339A (zh) * 2019-08-29 2019-12-20 深圳震有科技股份有限公司 一种基于语音网关的故障检测方法、系统及存储介质
CN112860517A (zh) * 2021-02-10 2021-05-28 中国工商银行股份有限公司 一种基于分布式应用的性能诊断方法、装置及设备

Similar Documents

Publication Publication Date Title
CN108683542A (zh) 一种分布式存储系统的故障自诊断方法、系统及装置
CN103019866B (zh) 基于消息队列的分布式方法和系统
CN102111310B (zh) Cdn设备状态监控方法
US7036049B2 (en) System and method for collecting statistics for a communication network
CN105187249B (zh) 一种故障恢复方法及装置
US7114098B2 (en) Power supply critical state monitoring system
CN104731912A (zh) 一种消息中间件mq的消息传输方法和装置
CA2356633A1 (en) Coordinating persistent status information with multiple file servers
GB2418799A (en) Managing network slowdown by identifying a hop along a path which exceeds a hop limit within the path.
CN104980293B (zh) 一种oam报文快速发送和检测处理的方法及装置
CN108989135A (zh) 网络设备故障检测方法及装置
CN101895446A (zh) 广播风暴的检测方法与装置
EP3316520B1 (en) Bfd method and apparatus
EP3957129B1 (en) Power outage detection and reporting
US20080181134A1 (en) System and method for monitoring large-scale distribution networks by data sampling
CN103684818A (zh) 检测网络通道故障的方法及装置
CN107294767A (zh) 一种直播网络传输故障监测方法及系统
CN102495786B (zh) 服务器系统
US8862939B2 (en) Network system and management server
MXPA04006830A (es) Deteccion remota de estados de suministro de energia.
CN108429656A (zh) 一种监控物理机网卡连接状态的方法
CN108965010A (zh) 一种网络链路流控异常监控方法、系统及主机总线适配器
CN108932182A (zh) 一种消息总线性能测试方法及系统
CN105490837B (zh) 一种网络监控处理方法以及装置
KR102365495B1 (ko) 원격 검침 네트워크 관리 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181019

RJ01 Rejection of invention patent application after publication