CN108683542A

CN108683542A - 一种分布式存储系统的故障自诊断方法、系统及装置

Info

Publication number: CN108683542A
Application number: CN201810495685.XA
Authority: CN
Inventors: 丁瑞锋; 窦本君
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Zhengzhou Yunhai Information Technology Co Ltd
Priority date: 2018-05-22
Filing date: 2018-05-22
Publication date: 2018-10-19

Abstract

本发明公开了一种分布式存储系统的故障自诊断方法、系统及装置，包括：根据分布式存储系统中各设备之间、同一设备中各模块之间传送的消息，实时自动统计传送消息的双方对应的表征系统性能的性能信息；将性能信息与预设性能指标进行自动对应比较，确定超出预设性能指标的性能信息所对应的故障设备双方或故障模块双方，以供系统管理人员参考并进行故障排除。可见，本申请可以自动确定故障设备双方或故障模块双方，比较省时省力，而且，本申请为系统管理人员提供有效地故障参考信息，从而降低了系统管理人员的专业性要求。

Description

一种分布式存储系统的故障自诊断方法、系统及装置

技术领域

本发明涉及计算机存储领域，特别是涉及一种分布式存储系统的故障自诊断方法、系统及装置。

背景技术

目前，分布式存储系统由于其高可靠性及高安全性，广泛应用于计算机存储领域。已知，分布式存储系统采用可扩展的系统结构，将数据分散存储在多台独立的设备上，提高了系统的可靠性、可用性及存取效率。但是，分布式存储系统比较庞大，如果在运行过程中出现故障，不易诊断出故障的设备。现有技术中，通常由开发人员对整个系统进行一步一步排查，从而诊断出故障的设备，或者进一步诊断出故障设备中具体出故障的模块，但是，该人工诊断方法费时费力，且所需的开发人员专业性较强。

因此，如何提高一种解决上述技术问题的方案是本领域的技术人员目前需要解决的问题。

发明内容

本发明的目的是提供一种分布式存储系统的故障自诊断方法、系统及装置，可以自动确定故障设备双方或故障模块双方，比较省时省力，而且，本申请为系统管理人员提供有效地故障参考信息，从而降低了系统管理人员的专业性要求。

为解决上述技术问题，本发明提供了一种分布式存储系统的故障自诊断方法，包括：

根据分布式存储系统中各设备之间、同一设备中各模块之间传送的消息，实时自动统计传送所述消息的双方对应的表征系统性能的性能信息；

将所述性能信息与预设性能指标进行自动对应比较，确定超出所述预设性能指标的性能信息所对应的故障设备双方或故障模块双方，以供系统管理人员参考并进行故障排除。

优选地，该故障自诊断方法还包括：

显示所述故障设备双方或所述故障模块双方的位置，以提醒所述系统管理人员及时进行故障排除。

优选地，所述性能信息包括消息传送时间及消息丢包率。

优选地，所述将所述性能信息与预设性能指标进行自动对应比较，确定超出所述预设性能指标的性能信息所对应的故障设备双方或故障模块双方的过程具体为：

将所述消息传送时间与预设时间进行自动比较，当所述消息传送时间大于所述预设时间时，确定该消息传送时间所对应的故障设备双方或故障模块双方；

将所述消息丢包率与预设丢包率进行自动比较，当所述消息丢包率大于所述预设丢包率时，确定该消息丢包率所对应的故障设备双方或故障模块双方。

优选地，所述实时自动统计传送所述消息的双方对应的表征系统性能的性能信息的过程具体为：

自动记录消息发送端发送消息的发送时间；

自动获取消息接收端接收该消息的接收时间，将所述接收时间与所述发送时间作差得到该消息的消息传送时间；

若在预设接收时间内未检测到所述消息接收端接收到该消息，确定该消息丢失，以自动求取当前的消息丢包率。

优选地，该故障自诊断方法还包括：

根据所述消息传送时间，实时自动计算所述消息发送端与所述消息接收端之间传送消息所耗费的当前最大时间、当前最小时间、当前平均时间及当前总时间，以供所述系统管理人员参考。

优选地，该故障自诊断方法还包括：

自动存储所述性能信息及所述消息的类型、所属模块及设备、发送方、接收方至各所述设备的本地磁盘；

基于分布式数据库管理工具实时同步各所述本地磁盘的存储内容，以便于所述系统管理人员根据所述存储内容进行故障排除。

优选地，该故障自诊断方法还包括：

在确定所述故障设备双方或所述故障模块双方后自动生成告警信息，并基于所述分布式存储系统所在的操作系统的邮件管理组件，将所述告警信息打包并自动发送至所述系统管理人员的邮箱。

为解决上述技术问题，本发明还提供了一种分布式存储系统的故障自诊断系统，包括：

实时统计单元，用于根据分布式存储系统中各设备之间、同一设备中各模块之间传送的消息，实时自动统计传送所述消息的双方对应的表征系统性能的性能信息；

故障确定单元，用于将所述性能信息与预设性能指标进行自动对应比较，确定超出所述预设性能指标的性能信息所对应的故障设备双方或故障模块双方，以供系统管理人员参考并进行故障排除。

为解决上述技术问题，本发明还提供了一种分布式存储系统的故障自诊断装置，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述任一种分布式存储系统的故障自诊断方法的步骤。

本发明提供的一种分布式存储系统的故障自诊断方法，包括：根据分布式存储系统中各设备之间、同一设备中各模块之间传送的消息，实时自动统计传送消息的双方对应的表征系统性能的性能信息；将性能信息与预设性能指标进行自动对应比较，确定超出预设性能指标的性能信息所对应的故障设备双方或故障模块双方，以供系统管理人员参考并进行故障排除。

与现有技术中的人工诊断方法相比，本申请考虑到消息是分布式存储系统各设备之间及同一设备中各模块之间通信的信息载体，消息的传送快慢等信息可以表征系统的当前状态及性能，所以本申请根据各设备之间、同一设备中各模块之间传送的消息，实时自动统计传送消息的双方对应的表征系统性能的性能信息，将性能信息与所设置的性能指标进行自动对应比较，确定超出性能指标的性能信息所对应的故障设备双方或故障模块双方，从而供系统管理人员参考并进行故障排除。可见，本申请可以自动确定故障设备双方或故障模块双方，比较省时省力，而且，本申请为系统管理人员提供有效地故障参考信息，从而降低了系统管理人员的专业性要求。

本发明还提供了一种分布式存储系统的故障自诊断系统及装置，与上述故障自诊断方法具有相同的有益效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对现有技术和实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种分布式存储系统的故障自诊断方法的流程图；

图2为本发明提供的一种分布式存储系统的故障自诊断系统的结构示意图。

具体实施方式

本发明的核心是提供一种分布式存储系统的故障自诊断方法、系统及装置，可以自动确定故障设备双方或故障模块双方，比较省时省力，而且，本申请为系统管理人员提供有效地故障参考信息，从而降低了系统管理人员的专业性要求。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参照图1，图1为本发明提供的一种分布式存储系统的故障自诊断方法的流程图。

该故障自诊断方法包括：

步骤S1：根据分布式存储系统中各设备之间、同一设备中各模块之间传送的消息，实时自动统计传送消息的双方对应的表征系统性能的性能信息；

需要说明的是，本申请中的预设是提前设置好的，只需要设置一次，除非根据实际情况需要修改，否则不需要重新设置。

具体地，分布式存储系统采用可扩展的系统结构，即包含多台独立的设备。分布式存储系统将数据分散存储在多台独立的设备上，并利用位置服务器定位存储信息，从而满足大规模存储应用的需要，提高了系统的可靠性、可用性及存取效率。其中，多台独立的设备之间通过传送消息来交互数据，处理业务；各设备内部均包含多个模块，各模块之间也通过传送消息来交互数据，处理业务。

可见，消息是分布式存储系统中各设备之间、同一设备中各模块之间通信的信息载体，消息传送的状态、快慢等消息传送信息影响传送消息的双方(消息发送端和消息接收端)的状态及性能。其中，两个设备之间传送消息，传送消息的双方称为设备双方；同一设备中两个模块之间传送消息，传送消息的双方称为模块双方。

所以，本申请根据分布式存储系统中各设备之间传送的消息，实时自动统计设备双方对应的表征系统性能的性能信息，即设备双方对应的消息传送信息；与此同时，本申请还根据同一设备中各模块之间传送的消息，实时自动统计模块双方对应的消息传送信息，为后期判定设备性能打下基础。

步骤S2：将性能信息与预设性能指标进行自动对应比较，确定超出预设性能指标的性能信息所对应的故障设备双方或故障模块双方，以供系统管理人员参考并进行故障排除。

具体地，为了判定消息传送过程中是否出现问题，本申请提前设置性能信息对应的正常的性能指标，然后将性能信息与所设的性能指标进行自动对应比较，当性能信息不大于与之对应的性能指标时，说明性能信息保持在正常的性能指标范围内，即传送消息时未出现问题；反之，当性能信息大于与之对应的性能指标时，说明传送消息时出现问题，从而可以确定出现问题的消息对应的故障设备双方或故障模块双方，以供系统管理人员参考并进行故障排除。可见，本申请可以自动确定故障设备双方或故障模块双方，比较省时省力，而且，本申请为系统管理人员提供有效地故障参考信息，从而降低了系统管理人员的专业性要求。

在上述实施例的基础上：

作为一种优选地实施例，该故障自诊断方法还包括：

显示故障设备双方或故障模块双方的位置，以提醒系统管理人员及时进行故障排除。

进一步地，本申请还可以根据确定的故障设备双方或故障模块双方，显示故障双方的位置，从而提醒系统管理人员系统出现故障，有助于系统管理人员按照故障双方的位置及时进行故障排除。比如，本申请可以提前对设备及设备内部的模块进行不重复编号，用于区分各设备及同一设备的各模块，而本申请可以根据出现问题的消息确定故障双方，从而通过显示故障双方的编号告知系统管理人员故障双方的位置。

作为一种优选地实施例，性能信息包括消息传送时间及消息丢包率。

具体地，本申请中的性能信息可以包括消息传送时间及消息丢包率，其中，消息传送时间是指从消息发送端发出消息到消息接收端接收该消息所经过的时间；消息丢包率＝双方传送的消息丢失数量÷双方传送的消息总数量×100％。至于性能信息的具体内容，本申请在此不做特别的限定，根据实际情况而定。

作为一种优选地实施例，将性能信息与预设性能指标进行自动对应比较，确定超出预设性能指标的性能信息所对应的故障设备双方或故障模块双方的过程具体为：

将消息传送时间与预设时间进行自动比较，当消息传送时间大于预设时间时，确定该消息传送时间所对应的故障设备双方或故障模块双方；

将消息丢包率与预设丢包率进行自动比较，当消息丢包率大于预设丢包率时，确定该消息丢包率所对应的故障设备双方或故障模块双方。

具体地，当性能信息包括消息传送时间及消息丢包率时，本申请判定消息传送过程中是否出现问题的具体过程包括：将消息传送时间与所设时间进行自动比较，当消息传送时间不大于所设时间时，说明消息传送速度正常，即传送消息时未出现问题；反之，当消息传送时间大于所设时间时，说明消息传送速度过慢，即传送消息时出现问题，从而可以确定出现问题的消息对应的故障设备双方或故障模块双方。

与此同时，将消息丢包率与所设丢包率进行自动比较，当消息丢包率不大于所设丢包率时，说明当前的消息丢包率不足以影响设备双方通信或模块双方通信；反之，当消息丢包率大于所设丢包率时，说明当前的消息丢包率已影响到设备双方通信或模块双方通信，从而确定此时所对应的故障设备双方或故障模块双方。

作为一种优选地实施例，实时自动统计传送消息的双方对应的表征系统性能的性能信息的过程具体为：

自动记录消息发送端发送消息的发送时间；

自动获取消息接收端接收该消息的接收时间，将接收时间与发送时间作差得到该消息的消息传送时间；

若在预设接收时间内未检测到消息接收端接收到该消息，确定该消息丢失，以自动求取当前的消息丢包率。

具体地，本申请实时自动统计消息传送时间的具体过程包括：首先，自动记录消息发送端发送消息的发送时间；然后，自动获取消息接收端接收该消息的接收时间，将二者作差得到该消息的消息传送时间。或者，在消息发送端发送的消息的结尾数据部分添加一个时间戳，即将发送时间添加到消息内部；消息接收端接收到该消息时，获取当前的接收时间，并与消息中存储的发送时间作差，得到该消息的消息传送时间，从而供本申请判定设备性能。

本申请实时自动统计消息丢包率的具体过程包括：从消息发送端发送消息时开始计时，当计时时间到达所设接收时间时，若本申请仍未检测到消息接收端接收到该消息，则确定该消息丢失，从而根据当前的消息丢包率＝双方传送的当前消息丢失数量÷双方传送的当前消息总数量×100％，自动求取当前的消息丢包率。

作为一种优选地实施例，该故障自诊断方法还包括：

根据消息传送时间，实时自动计算消息发送端与消息接收端之间传送消息所耗费的当前最大时间、当前最小时间、当前平均时间及当前总时间，以供系统管理人员参考。

进一步地，本申请实时自动比较消息发送端与消息接收端之间所有的消息传送时间，从中确定最大的消息传送时间，作为双方传送消息所耗费的当前最大时间；从中确定最小的消息传送时间，作为双方传送消息所耗费的当前最小时间。此外，本申请还可以自动计算所有的消息传送时间之和，得到双方传送消息所耗费的当前总时间，并利用当前总时间除以双方传送的当前消息总数量得到双方传送消息所耗费的当前平均时间。这里的各时间同样可以体现双方的性能，本申请也可以针对各时间对应设置性能指标，进而判断消息发送端与消息接收端的性能是否达标，有助于系统管理人员参考以维护系统。

作为一种优选地实施例，该故障自诊断方法还包括：

自动存储性能信息及消息的类型、所属模块及设备、发送方、接收方至各设备的本地磁盘；

基于分布式数据库管理工具实时同步各本地磁盘的存储内容，以便于系统管理人员根据存储内容进行故障排除。

进一步地，本申请还可以将传送消息的双方对应的性能信息及消息的类型、消息所属的模块及设备(消息的地址)、消息的发送方、消息的接收方自动存储至各设备的本地磁盘，并基于分布式数据库管理工具实时同步各本地磁盘的存储内容，保证各设备的本地磁盘存储的内容相同，使系统管理人员根据任一设备的存储内容，更精确判定各设备的工作状态及性能，从而判定系统问题及系统性能瓶颈点。

作为一种优选地实施例，该故障自诊断方法还包括：

在确定故障设备双方或故障模块双方后自动生成告警信息，并基于分布式存储系统所在的操作系统的邮件管理组件，将告警信息打包并自动发送至系统管理人员的邮箱。

进一步地，本申请在确定故障设备双方或故障模块双方后，自动生成包含故障分析报告的告警信息，并基于分布式存储系统所在的操作系统的邮件管理组件，将告警信息打包并自动发送至系统管理人员的邮箱，从而及时通知系统管理人员系统出现故障，系统管理人员便可以依据故障分析报告快速定位故障位置进而进行故障排除，提高了系统的可靠性。

具体地，操作系统利用自带的邮件管理组件发送邮件的命令为：

mail-s“this is a title”-r“myname@zihou.me”-a“/var/report/20180514.txt”guanliyuan@163.com，其中，guanliyuan@163.com是系统管理人员的邮箱。

请参照图2，图2为本发明提供的一种分布式存储系统的故障自诊断系统的结构示意图。

该故障自诊断系统包括：

实时统计单元1，用于根据分布式存储系统中各设备之间、同一设备中各模块之间传送的消息，实时自动统计传送消息的双方对应的表征系统性能的性能信息；

故障确定单元2，用于将性能信息与预设性能指标进行自动对应比较，确定超出预设性能指标的性能信息所对应的故障设备双方或故障模块双方，以供系统管理人员参考并进行故障排除。

本申请提供的故障自诊断系统的介绍请参考上述故障自诊断方法实施例，本申请在此不再赘述。

本发明还提供了一种分布式存储系统的故障自诊断装置，包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序时实现上述任一种分布式存储系统的故障自诊断方法的步骤。

本申请提供的故障自诊断装置的介绍请参考上述故障自诊断方法实施例，本申请在此不再赘述。

还需要说明的是，在本说明书中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种分布式存储系统的故障自诊断方法，其特征在于，包括：

2.如权利要求1所述的分布式存储系统的故障自诊断方法，其特征在于，该故障自诊断方法还包括：

3.如权利要求1所述的分布式存储系统的故障自诊断方法，其特征在于，所述性能信息包括消息传送时间及消息丢包率。

4.如权利要求3所述的分布式存储系统的故障自诊断方法，其特征在于，所述将所述性能信息与预设性能指标进行自动对应比较，确定超出所述预设性能指标的性能信息所对应的故障设备双方或故障模块双方的过程具体为：

5.如权利要求3所述的分布式存储系统的故障自诊断方法，其特征在于，所述实时自动统计传送所述消息的双方对应的表征系统性能的性能信息的过程具体为：

自动记录消息发送端发送消息的发送时间；

6.如权利要求5所述的分布式存储系统的故障自诊断方法，其特征在于，该故障自诊断方法还包括：

7.如权利要求1所述的分布式存储系统的故障自诊断方法，其特征在于，该故障自诊断方法还包括：

8.如权利要求1-7任一项所述的分布式存储系统的故障自诊断方法，其特征在于，该故障自诊断方法还包括：

9.一种分布式存储系统的故障自诊断系统，其特征在于，包括：

10.一种分布式存储系统的故障自诊断装置，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1-8任一项所述的分布式存储系统的故障自诊断方法的步骤。