CN115499294A

CN115499294A - 一种分布式存储环境网络亚健康检测及故障自动处理方法

Info

Publication number: CN115499294A
Application number: CN202211156937.9A
Authority: CN
Inventors: 马名; 康亮; 童飞文; 王怡清
Original assignee: SHANGHAI DRAGONNET TECHNOLOGY CO LTD
Current assignee: SHANGHAI DRAGONNET TECHNOLOGY CO LTD
Priority date: 2022-09-21
Filing date: 2022-09-21
Publication date: 2022-12-20

Abstract

本发明涉及一种分布式存储环境网络亚健康检测及故障自动处理方法，用于对分布式存储系统进行网络亚健康检测及故障处理，所述分布式存储系统包括存储集群和中央管理集群，所述存储集群包含有多个存储节点，包括以下步骤：通过集群视图感知获取存储集群的网络配置状态；循环获取各存储节点上报的节点状态检测结果，该节点状态检测结果为各存储节点基于主动探测机制获取，包括除自身存储节点外其他存储节点的网络状态信息；基于在设定时间内的所述节点状态检测结果，判定是否存在发生网络亚健康的存储节点，若是，则基于所述网络配置状态执行对应节点的网络修复或隔离处理。与现有技术相比，本发明具有减少运维成本，降低运维复杂度等优点。

Description

一种分布式存储环境网络亚健康检测及故障自动处理方法

技术领域

本发明涉及一种分布式存储环境中的网络健康检测技术，尤其是涉及一种分布式存储环境网络亚健康检测及故障自动处理方法。

背景技术

在分布式存储环境下，参与整个数据读写逻辑的物理或软件模块包括：服务器、交换机、普通网线、普通网卡模块，光纤线、光纤模块，操作系统等。其中网络相关模块在整个存储系统中担负起数据交换的桥梁。当网络模块发生故障时，轻则影响存储系统响应，重则引起级联反应，导致影响整个存储系统无法对外提供服务。

网络亚健康在上述网络异常情况中，属于客观存在，但模棱两可的境地，即虽可继续工作，但可能会严重影响业务。常见的网络亚健康包括丢包、延迟、拥塞等。当发生上述亚健康状态后，由于网络并未处于完全不可工作状态，而是在一种低效模式下勉强运行，导致部分存储节点成为瓶颈，影响整个存储系统的响应时效。因此在高质量的分布式存储系统中，网络亚健康的检测和故障处理，是提升存储产品稳定性的必不可少的一环。

当前常见的网络亚健康检测机制分为2种方式：1.检查网卡本身或交换机对外反馈的统计数值，如丢包率、包重传率等监控指标，通过统计结果判定网卡或链路是否有异常，2.通过搭建在分布式存储系统上实际业务自带的统计数值，如请求响应时间、错误请求次数等监控指标，间接判定网卡或链路是否有异常。上述方法存在以下缺点：

1.依赖网卡硬件或交换机硬件自带的监控指标，存在不同厂商有不同定义的问题，导致分布式存储软件需要适配多家厂商的硬件和固件，开发成本高，通用型差。

2.依赖实际业务自带的监控指标，会导致实际业务消耗更多的资源用于做网络亚健康等监控，且并非所有上层业务都自带监控功能，对于分布式存储系统，无法做到普遍适配效果。

3.无论依赖网卡硬件或交换机还是依赖实际业务自带的监控，都存在滞后型，即只有当网络亚健康已经发生，网卡硬件、交换机、实际业务已经感知到异常发生时才会被定义为发生网络亚健康，此时已经实际影响到了上层应用，无法做到提前感知。

当前常见的网络亚健康故障处理机制为：当监控发现发生网络亚健康事件后，需要人工切换服务器冗余网卡，切换后再观察后续监控指标判定是否恢复，从而做出响应。该操作存在以下缺点：

1.当发生网络亚健康后，人工响应需要时间。

2.在分布式存储集群下，存储节点数量少则数十台，多则数百台，将导致人工操作时间长、操作步骤多，会导致操作时间长，甚至潜在误操作，引起二次故障发生。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种分布式存储环境网络亚健康检测及故障自动处理方法，在分布式存储环境下，通过集群视图感知整个集群的网络状态，从而更精准的确定故障节点，并更快速的做出故障处理，缩短存储集群故障时间，减少运维成本，降低运维复杂度。

本发明的目的可以通过以下技术方案来实现：

一种分布式存储环境网络亚健康检测及故障自动处理方法，用于对分布式存储系统进行网络亚健康检测及故障处理，所述分布式存储系统包括存储集群和中央管理集群，所述存储集群包含有多个存储节点，所述方法包括以下步骤：

通过集群视图感知获取存储集群的网络配置状态；

循环获取各存储节点上报的节点状态检测结果，该节点状态检测结果为各存储节点基于主动探测机制获取，包括除自身存储节点外其他存储节点的网络状态信息；

基于在设定时间内的所述节点状态检测结果，判定是否存在发生网络亚健康的存储节点，若是，则基于所述网络配置状态执行对应节点的网络修复或隔离处理。

进一步地，所述网络配置状态从各存储节点接收获得，各存储节点通过以下步骤生成所述网络配置状态：

获取当前存储节点配置的服务IP地址，获取该IP地址所对应的网卡名称，判断该网卡是否为逻辑网卡，若是，则获取该逻辑网卡实际对应的多张物理网卡名称，并获取该逻辑网卡和对应的物理网卡的配置属性和状态，记录当前逻辑网卡实际使用的主网卡名称，生成所述网络配置状态，若否，则直接记录物理网卡名称，生成所述网络配置状态。

进一步地，所述存储节点基于主动探测机制获取节点状态检测结果具体为：

各存储节点定时获取当前存储集群中所有的存储节点列表；

各存储节点定时以自己当前使用IO网络为源地址，向其他存储节点发起网络探测请求，根据其他存储节点的请求响应情况生成所述节点状态检测结果。

进一步地，所述发起网络探测请求具体为：

在指定时间内，尽可能多地尝试发送ICMP数据包到其他存储节点，统计该指定时间内收到的响应数据包数量和每个响应数据包发送和接收时间，最终得出单位时间内当前存储节点到其他所有存储节点的丢包率和延迟，作为所述节点状态检测结果。

进一步地，同一时间，每个存储节点向其他存储节点并行发送所述ICMP数据包。

进一步地，若在设定时间内，某一存储节点到其他存储节点的丢包率和延迟均超过设定阈值，且持续指定时间段，则判定该存储节点发生网络亚健康。

进一步地，所述网络修复具体为：切换逻辑网卡所述对应的物理网卡。

进一步地，所述隔离处理具体为：关闭存储节点的处理IO逻辑存储服务或关闭电源下电。

进一步地，对于关闭存储节点的处理IO逻辑存储服务的存储节点，持续获取该存储节点的网络状态信息，判断该存储节点的网络亚健康状态是否消失，若是，则恢复该存储节点的处理IO逻辑存储服务。

本发明还提供一种计算机可读存储介质，包括供电子设备的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行如所述分布式存储环境网络亚健康检测及故障自动处理方法的指令。

与现有技术相比，本发明在分布式场景下通过对多节点网络状态实时进行全局统计和分析，从而在分布式存储无论是否有业务运行、业务负载是否高的场景下，都可提前发现网络亚健康，并能自动处理异常节点网络故障，并在处理异常后若未能消除网络亚健康时，通过隔离异常节点，保证整个分布式存储集群的可用性和性能指标，具有以下有益效果：

(1)本发明可独立于分布式系统软件本身运行，可适配通用分布式存储系统，存储系统无需二次开发或对接。

(2)本发明不需要上层业务自带的任何监控逻辑，上层业务无需二次开发或对接。

(3)本发明以集群视图检查和分析整个网络状态，可更准确定位故障节点。

(4)本发明为自动探测提前感知，不需要业务实际运行、或业务未在满负荷下运行，可提前发现网络亚健康问题。

(5)本发明在探测到网络亚健康后，可通过切换逻辑网卡或隔离物理节点的方式，多个维度尝试自动修复分布式存储集群。

(6)本发明全程无需人工介入，减小响应时间，减少运维成本，降低运维复杂度。

附图说明

图1为本发明分布式存储系统的结构示意图；

图2为本发明的执行过程分解示意图；

图3为本发明网络亚健康检测及故障处理的过程示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本实施例提供一种分布式存储环境网络亚健康检测及故障自动处理方法，用于对分布式存储系统进行网络亚健康检测及故障处理，所述分布式存储系统包括存储集群和中央管理集群，所述存储集群包含有多个存储节点，所述方法包括以下步骤：通过集群视图感知获取存储集群的网络配置状态；循环获取各存储节点上报的节点状态检测结果，该节点状态检测结果为各存储节点基于主动探测机制获取，包括除自身存储节点外其他存储节点的网络状态信息；基于在设定时间内的所述节点状态检测结果，判定是否存在发生网络亚健康的存储节点，若是，则基于所述网络配置状态执行对应节点的网络修复或隔离处理。由于是循环获取各存储节点上报的节点状态检测结果，所以可以根据后续各个存储节点上报的探测结果，判定网络亚健康是否恢复。

上述方法应用的一种分布式存储系统如图1所示，包括存储集群、中央管理集群和业务集群，存储集群包含有多个存储节点，各存储节点通过多个交换机与中央管理集群连接，业务集群包括多个块存储访问客户端。各存储节点具有处理IO逻辑存储服务、配置存储节点服务和监控存储节点服务，各存储节点对应有逻辑网卡或物理网卡，所述逻辑网卡为多张物理网卡组成。

如图3所示，上述方法统计最近指定时间段内的丢包和延迟，判断是否超过设定阈值，若是，则判断存在处于网络亚健康状态的存储节点，先执行网卡切换操作，若网络亚健康消除，则流程结束，若否，则判断是否需要关闭节点，若是，则关闭服务器电源下电，若否，则关闭处理IO逻辑存储服务。

上述方法中，首先通过集群视图感知获取存储集群的网络配置状态，包括感知存储集群中存储节点的网络配置，识别网卡绑定类型以及各个子卡状态，具体地：

201)识别存储节点配置的IP地址；

202)通过IP地址反查出其所对应的网卡名称；

203)判断网卡是否为逻辑网卡，即是否为多个物理网卡绑定获得；

204)获取逻辑网卡对应的物理网卡列表；

205)获取当前状态下逻辑网卡实际对应的物理网卡。

上述步骤可由存储节点的监控存储节点服务实现。

上述方法中，存储集群内各个存储节点实现主动探测机制的过程如图2所示，以一个存储节点为例，具体步骤包括：

如过程1所示，存储节点1向中央管理集群获取其他存储节点列表，设存储集群内存在n个存储节点。

如过程2.1、2.2和2.3所示，存储节点1向定时以自己当前使用IO网络为源地址，向其他n-1个存储节点发起网络探测请求，根据其他存储节点的请求响应情况生成节点状态检测结果。其中2.1、2.2、2.3为同时发起，保证其他节点为同一时间探测。

如过程3所示，存储节点1将上一步中获取到的节点状态检测结果上报给中央管理集群，此时存储节点1完成一个周期的监控结果上报逻辑，待下一个周期重复执行上述过程1、2、3。

如过程4所示，中央管理集群收集并分析各个存储节点上报的网络健康状态，统计和分析发生网络亚健康的存储节点，若在设定时间内，某一存储节点到其他存储节点的丢包率和延迟均超过设定阈值，且持续指定时间段，则判定该存储节点发生网络亚健康。

假设存储节点1存在网络亚健康，则中央管理集群自动发起网络亚健康节点的网络修复或隔离网络亚健康节点，若选择网络修复，则中央管理集群发送切换网卡请求到存储节点1，存储节点切换完成后，此时逻辑网卡由如过程0的初始状态(此时逻辑网卡指向网卡1)更换为按过程5指向网卡2。若切换后网络亚健康异常消除，则故障解除，流程结束，若切换后网络亚健康异常未消除，则发起剔除存储节点操作，如过程6所示。剔除存储节点操作可以根据需要隔离节点，具体包括：关闭存储节点的处理IO逻辑存储服务或关闭电源下电。

对于关闭存储节点的处理IO逻辑存储服务的存储节点，持续获取该存储节点的网络状态信息，判断该存储节点的网络亚健康状态是否消失，即丢包率、延迟恢复到阈值之下，若是，则恢复该存储节点的处理IO逻辑存储服务。

中央管理集群根据后续各个存储节点上报的探测结果，判定网络亚健康是否恢复。

上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种分布式存储环境网络亚健康检测及故障自动处理方法，其特征在于，用于对分布式存储系统进行网络亚健康检测及故障处理，所述分布式存储系统包括存储集群和中央管理集群，所述存储集群包含有多个存储节点，所述方法包括以下步骤：

通过集群视图感知获取存储集群的网络配置状态；

2.根据权利要求1所述的分布式存储环境网络亚健康检测及故障自动处理方法，其特征在于，所述网络配置状态从各存储节点接收获得，各存储节点通过以下步骤生成所述网络配置状态：

3.根据权利要求1所述的分布式存储环境网络亚健康检测及故障自动处理方法，其特征在于，所述存储节点基于主动探测机制获取节点状态检测结果具体为：

各存储节点定时获取当前存储集群中所有的存储节点列表；

4.根据权利要求3所述的分布式存储环境网络亚健康检测及故障自动处理方法，其特征在于，所述发起网络探测请求具体为：

5.根据权利要求4所述的分布式存储环境网络亚健康检测及故障自动处理方法，其特征在于，同一时间，每个存储节点向其他存储节点并行发送所述ICMP数据包。

6.根据权利要求1所述的分布式存储环境网络亚健康检测及故障自动处理方法，其特征在于，若在设定时间内，某一存储节点到其他存储节点的丢包率和延迟均超过设定阈值，且持续指定时间段，则判定该存储节点发生网络亚健康。

7.根据权利要求2所述的分布式存储环境网络亚健康检测及故障自动处理方法，其特征在于，所述网络修复具体为：切换逻辑网卡所述对应的物理网卡。

8.根据权利要求2所述的分布式存储环境网络亚健康检测及故障自动处理方法，其特征在于，所述隔离处理具体为：关闭存储节点的处理IO逻辑存储服务或关闭电源下电。

9.根据权利要求8所述的分布式存储环境网络亚健康检测及故障自动处理方法，其特征在于，对于关闭存储节点的处理IO逻辑存储服务的存储节点，持续获取该存储节点的网络状态信息，判断该存储节点的网络亚健康状态是否消失，若是，则恢复该存储节点的处理IO逻辑存储服务。

10.一种计算机可读存储介质，其特征在于，包括供电子设备的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行如权利要求1-9任一所述分布式存储环境网络亚健康检测及故障自动处理方法的指令。