CN115348157A - 分布式存储集群的故障定位方法、装置、设备及存储介质 - Google Patents

分布式存储集群的故障定位方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115348157A
CN115348157A CN202110536958.2A CN202110536958A CN115348157A CN 115348157 A CN115348157 A CN 115348157A CN 202110536958 A CN202110536958 A CN 202110536958A CN 115348157 A CN115348157 A CN 115348157A
Authority
CN
China
Prior art keywords
time delay
average time
storage cluster
distributed storage
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110536958.2A
Other languages
English (en)
Other versions
CN115348157B (zh
Inventor
戴伟
郭岳
吴天东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Zhejiang Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Zhejiang Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Zhejiang Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202110536958.2A priority Critical patent/CN115348157B/zh
Publication of CN115348157A publication Critical patent/CN115348157A/zh
Application granted granted Critical
Publication of CN115348157B publication Critical patent/CN115348157B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0852Delays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
    • Y04S10/52Outage or fault management, e.g. fault detection or location

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了分布式存储集群的故障定位方法、装置、设备及存储介质,所述方法包括:获取分布式存储集群的节点信息和组网信息,并根据所述节点信息和组网信息生成网络拓扑;采集所述网络拓扑中各节点之间的时延数据;根据所述时延数据确定平均时延,并将所述平均时延与时延阈值进行比较;在所述平均时延超过所述时延阈值时,进行预警,并获取预设定位策略;根据所述预设定位策略对所述分布式存储集群中的故障硬件进行定位检测,从而根据当前分布式存储集群的实际环境信息进行及时预警,并采用预设定位策略进行定位检测,相较于现有技术,能根据实际网络环境更及时的进行故障定位。

Description

分布式存储集群的故障定位方法、装置、设备及存储介质
技术领域
本发明涉及故障检测技术领域,尤其涉及一种分布式存储集群的故障定位方法、装置、设备及存储介质。
背景技术
现有技术中,集群故障发现与定位的常用方法包括:(1)影响业务后人工排查,依靠时延数据和运维经验大致定位故障节点,再进行切换或隔离;(2)利用日志关键字匹配,即通过监控主机或交换机日志,匹配诸如up以及down等关键字来发现问题,根据日志可对有问题的节点进行切换或隔离。上述方法存在的问题包括:排查手段单一低效,故障处理耗时长;监控手段不完善,提前预警能力不足等。
发明内容
本发明的主要目的在于提出一种分布式存储集群的故障定位方法、装置、设备及存储介质,旨在解决分布式集群中硬件故障定位不及时的技术问题。
为实现上述目的,本发明提供一种分布式存储集群的故障定位方法,所述分布式存储集群的故障定位方法包括以下步骤:
获取分布式存储集群的节点信息和组网信息,并根据所述节点信息和组网信息确定网络拓扑;
采集所述网络拓扑中各主机节点之间的时延数据;
根据所述时延数据确定平均时延,并将所述平均时延与时延阈值进行比较;
在所述平均时延超过所述时延阈值时,进行预警,并获取预设定位策略;
根据所述预设定位策略对所述分布式存储集群中的故障硬件进行定位检测。
可选地,所述预设定位策略包括多轮循环定位策略;
所述根据所述预设定位策略对所述分布式存储集群中的故障硬件进行定位检测,包括:
根据所述多轮循环定位策略对所述分布式存储集群中的主机节点进行遍历,将遍历到的节点作为服务器端节点,将所述网络拓扑中剩余的其他主机节点作为客户端节点;
获取各客户端节点与所述服务器端节点之间的平均时延;
在遍历结束时,根据所述各客户端节点与所述服务器端节点之间的平均时延构建平均时延集合;
确定所述平均时延集合中平均时延差异最大的目标平均时延;
将所述目标平均时延对应的分布式集群中的主机节点定位为故障硬件。
可选地,所述在遍历结束时,根据获取的平均时延构建平均时延集合之后,还包括:
在所述平均时延集合中未存在平均时延差异大的平均时延时,将所述分布式存储集群中的主机节点进行分组,得到若干组分布式集群,其中,若干组分布式集群中包括跨交换机的分布式集群;
根据所述多轮循环定位策略获取各组分布式集群的平均时延;
将所述各组分布式集群的平均时延与平均时延阈值进行比较;
将大于平均时延阈值的各组分布式集群对应的交换机级联口定位为故障硬件。
可选地,所述将所述各组分布式集群的平均时延与平均时延阈值进行比较之后,还包括:
在所述各组分布式集群的平均时延中未存在大于平均时延阈值时,判断所述平均时延集合中的平均时延是否均大于平均时延阈值;
在所述平均时延集合中的平均时延均大于平均时延阈值时,将所述各组分布式集群的平均时延与平均时延阈值进行比较;
将大于平均时延阈值的各组分布式集群对应的交换机定位为故障硬件。
可选地,所述在所述平均时延超过所述时延阈值时,进行预警,并获取预设定位策略,包括:
在所述平均时延超过所述时延阈值时,统计超过所述时延阈值的平均时延的数量;
在所述超过所述时延阈值的平均时延的数量超过数量阈值时,启动定位检测程序;
根据所述定位检测程序获取预设定位策略。
可选地,所述采集所述网络拓扑中各节点之间的时延数据,包括:
根据所述网络拓扑从分布式集群中选取服务器主机端,将分布式集群中的其他主机作为客户测试端;
通过所述客户测试端向所述服务器主机端进行网络连通测试,以使所述服务器主机端监听网络连通测试请求;
根据所述服务器主机端监听的网络连通测试请求记录时延数据集合;
选取所述时延数据集合中的最大时延数据作为时延数据。
可选地,所述根据所述预设定位策略对所述分布式存储集群中的故障硬件进行定位检测之后,还包括:
获取故障硬件的位置信息;
根据所述位置信息对所述故障硬件进行切换或隔离。
此外,为实现上述目的,本发明还提出一种分布式存储集群的故障定位装置,所述分布式存储集群的故障定位装置包括:
获取模块,用于获取分布式存储集群的节点信息和组网信息,并根据所述节点信息和组网信息确定网络拓扑;
采集模块,用于采集所述网络拓扑中各节点之间的时延数据;
比较模块,用于根据所述时延数据确定平均时延,并将所述平均时延与时延阈值进行比较;
所述获取模块,还用于在所述平均时延超过所述时延阈值时,进行预警,并获取预设定位策略;
定位模块,用于根据所述预设定位策略对所述分布式存储集群中的故障硬件进行定位检测。
此外,为实现上述目的,本发明还提出一种分布式存储集群的故障定位设备,所述分布式存储集群的故障定位设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的分布式存储集群的故障定位程序,所述分布式存储集群的故障定位程序配置为实现如上文所述的分布式存储集群的故障定位方法。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有分布式存储集群的故障定位程序,所述分布式存储集群的故障定位程序被处理器执行时实现如上文所述的分布式存储集群的故障定位方法。
本发明提出的分布式存储集群的故障定位方法,通过获取分布式存储集群的节点信息和组网信息,并根据所述节点信息和组网信息生成网络拓扑;采集所述网络拓扑中各节点之间的时延数据;根据所述时延数据确定平均时延,并将所述平均时延与时延阈值进行比较;在所述平均时延超过所述时延阈值时,进行预警,并获取预设定位策略;根据所述预设定位策略对所述分布式存储集群中的故障硬件进行定位检测,从而根据当前分布式存储集群的实际环境信息进行及时预警,并采用预设定位策略进行定位检测,相较于现有技术,能根据实际网络环境更及时的进行故障定位。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的分布式存储集群的故障定位方法设备结构示意图;
图2为本发明分布式存储集群的故障定位方法第一实施例的流程示意图;
图3为本发明分布式存储集群的故障定位方法一实施例的数据获取示意图;
图4为本发明分布式存储集群的故障定位方法一实施例的预警流程示意图;
图5为本发明分布式存储集群的故障定位方法第二实施例的流程示意图;
图6为本发明分布式存储集群的故障定位方法一实施例的循环定位示意图;
图7为本发明分布式存储集群的故障定位方法一实施例的集群拓扑分组示意图;
图8为本发明分布式存储集群的故障定位装置第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图。
如图1所示,该设备可以包括:处理器1001,例如CPU,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如按键,可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的分布式存储集群的故障定位方法设备结构并不构成对分布式存储集群的故障定位方法设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及分布式存储集群的故障定位方法程序。
在图1所示的分布式存储集群的故障定位方法设备中,网络接口1004主要用于连接服务器,与服务器进行数据通信;用户接口1003主要用于连接用户终端,与终端进行数据通信;本发明分布式存储集群的故障定位方法设备通过处理器1001调用存储器1005中存储的分布式存储集群的故障定位方法程序,并执行本发明实施例提供的分布式存储集群的故障定位方法。
基于上述硬件结构,提出本发明分布式存储集群的故障定位方法实施例。
参照图2,图2为本发明分布式存储集群的故障定位方法第一实施例的流程示意图。
在第一实施例中,所述分布式存储集群的故障定位方法包括以下步骤:
步骤S10,获取分布式存储集群的节点信息和组网信息,并根据所述节点信息和组网信息确定的网络拓扑信息。
需要说明的是,本实施例的执行主体可为分布式存储集群的故障定位装置,分布式存储集群的故障定位装置设有分布式存储集群的故障定位方法程序,还可为其他可实现相同或相似功能的设备,本实施例对此不作限制,在本实施例中,以服务器为例进行说明,服务器设在网关侧,可获取当前实际运行的系统环境信息,在服务器上设有分布式存储集群的故障定位应用程序,可根据分布式存储集群的故障定位应用程序进行分布式存储集群的故障定位。
在本实施例中,主要应用于于IB(InfiniBand)组网分布式存储集群,IB是一个用于高性能计算的计算机网络通信标准,具备高带宽以及低时延特点,通过采用点到点的交换结构解决了共享总线的瓶颈问题,通常用于对带宽和时延有较高要求的核心业务场景。IB技术的典型高性能集群通常应用于分布式存储集群,分布式存储集群IB组网拓扑示意图,通常由两台IB交换机组成,通过IB线进行级联,集群节点通常为了实现高可用采用主备模式部署,连接到两台IB交换机上。
IB具有高带宽以及低时延的特性,同时对IB硬件的质量和稳定性要求极高,一旦IB硬件如IB网卡、IB线缆以及IB交换机背板等出现任何异常,便无法继续维持组网环境运行的高吞吐以及低时延特点。但目前IB交换机及操作系统本身并不能将所有的IB问题完全及时的检测出来,在初期IB硬件可靠性出现降低时,期间尚未触发任何硬件告警,而实际高性能的IB网络链路可能已处于降级状态,但尚未达到触发硬件告警的临界点,即未触发硬件告警,集群虽然在IB硬件层面具备高可用,但在实际运维过程中存在未发生主备切换,但已对上层时延极为敏感的业务造成了潜在的性能影响。随后经过一段时间,由于硬件状态继续恶化,交换机和操作系统上开始出现诸如端口up和down的告警,并发生主备网考高可用切换,维护人员通过日志监控才发现问题,此时通常已对上层业务造成了较长时间影响。
而本实施例应用于硬件可用性受损后到触发主备切换前这段时期的故障场景,引入了针对IB组网的分布式存储集群网络硬件无异常告警情况下的自动故障预发现和定位装置,通过ib_write_lat命令测试轮询测试集群节点之间的网络时延,并获取所有平均时延和正常时延进行对比判断网络硬件是否存在问题,实现在尚未触发任何硬件告警和准备切换情况下提前发现集群中的IB硬件故障隐患;在发现故障后,通过自动对比不同节点相互之间的时延数据差异,逐一对可能故障范围进行排查,快速定位故障硬件的具体位置,实现预先对故障硬件进行隔离,从而弥补了现有监控手段不能预先发现故障的不足,同时避免了故障发生后人工长时间的检测对比,有效缩短了故障处理时长,极大降低了业务影响。
本实施例提供一种分布式存储集群的故障定位系统,分布式存储集群的故障定位系统包括环境模块、采集模块、发现模块以及定位模块四部分组成,其中,环境模块,通过调用CMDB接口快速获取分布式存储集群所有节点信息和IB组网信息,为后续采集模块提供网络拓扑数据,此外,环境模块模块还保存包括时延阈值以及平均时延阈值等参数数据,用于后续分析定位,采集模块,用于根据环境模块提供的网络拓扑,实时采集IB组网分布式存储集群节点之间的时延数据,为后续发现模块以及定位模块提供基础分析数据,发现模块,用于依据IB硬件故障会导致网络时延异常的特征,通过将采集模块的时延数据进行平均,并多次与时延阈值进行分析对比,在连续多次超过阈值时,产生故障预警,定位模块,用于在发现模块确认硬件有故障后,即触发定位模块工作流程,通过环境模块获取分布式存储集群网络拓扑,对集群中的各个节点主机轮询进行时延获取网络中其他各个节点主机发出的时延数据,逐一对可能故障范围进行排查,最终定位IB硬件故障位置的信息。
在本实施例中,通过环境模块获取分布式存储集群的节点信息和组网信息,并根据所述节点信息和组网信息确定网络拓扑性信息,即通过接口连接CMDB配置库,获取IB组网分布式存储集群内的所有节点信息,同时通过调用SSH远程登录节点主机执行IB命令iblinkinfo,获取集群实际组网信息,进行环境核对,从而根据节点信息和组网信息确定网络拓扑信息。
步骤S20,采集所述网络拓扑信息中各节点之间的时延数据。
在本实施例中,通过采集模块采集所述网络拓扑中各节点之间的时延数据,具体为:利用IB专用的命令ib_write_lat进行分布式存储集群节点之间的时延探测,该命令每次调用时间较短,可以设置不同传送字节大小,并多次进行时延探测。结合IB分布式存储集群网络拓扑信息,能够快速获取整个集群中各个节点IB网络相互之间的各类时延数据,还通过持续跟踪时延数据的变化对集群IB网络状态进行实时监控,为后续发现模块以及定位模块提供关键基础数据,如图3所示的数据获取示意图。
步骤S30,根据所述时延数据确定平均时延,并将所述平均时延与时延阈值进行比较。
在本实施例中,主要通过发现模块进行时延的比较,通过利用分布式存储集群节点之间IB网络时延数据的变化判断集群的IB网络硬件是否存在问题,进而确认是否触发定位模块的处理。
在具体实现中,在获得IB网络中各个节点中最新的最大时延,通过移动平均值方法,获取当前平均时延Tf,
Figure BDA0003066196380000081
其中,N表示节点的数量,TK表示节点中最新的最大时延,取得最新N次最大时延的移动平均值Tf,如果Tf<Tmax,任意节点间时延移动平均值没有超过在环境模块的设置的最大时延阈值Tmax,则继续等待下次采样数据。
步骤S40,在所述平均时延超过所述时延阈值时,进行预警,并获取预设定位策略。
如果Tf>Tmax,任意两个节点间时延移动平均值超过了环境模块的时延阈值Tmax,为避免偶发的长时延干扰移动平均值,故对此前取移动平均值的N个时延数值进行分析,具体为:在所述平均时延超过所述时延阈值时,统计超过所述时延阈值的平均时延的数量,在所述超过所述时延阈值的平均时延的数量超过数量阈值时,启动定位检测程序,根据所述定位检测程序获取预设定位策略,其中,数量阈值可为采集的N次最大时延数量的50%,还可为其他参数,本实施例对此不做限制,在本实施例中,以50%为例进行说明,例如,如果N个平均时延中数值超过阈值的个数超过50%,则表明分布式存储集群网络硬件出现异常,导致节点之间时延常态超过阈值,故进行告警,从而提高预警的准确性,并触发后续定位模块,否则继续采样,更新移动平均时延,具体如图4所示的预警流程示意图,采集节点实时时延数据,根据时延数据判断Tf>Tmax,则判断超过阈值节点是否过半,如果过半,则触发定位。
步骤S50,根据所述预设定位策略对所述分布式存储集群中的故障硬件进行定位检测。
在本实施例中,预设定位策略包括存储集群主机节点故障定位策略、IB交换机级联口故障定位策略以及IB交换机故障定位策略,还可包括其他类型的定位策略,存储集群主机节点故障定位策略、IB交换机级联口故障定位策略以及IB交换机故障定位策略可进行单独使用,还可进行结合使用,本实施例对此不做限制。
在具体实现中,当发现模块发现判断分布式存储集群节点之间IB网络时延存在异常时,则表明当前分布式存集群网络硬件存在故障隐患,而根据集群网络拓扑可以确定故障隐患范围如下:存储集群主机节点故障、IB交换机级联口故障以及IB交换机故障,因此需要分别对上述范围进行排除定位,此时定位模块开始启动循环定位法,在集群各个节点轮流发起IB网络时延测试,根据不同节点的时延差异对比分析进行异常故障点逐一排除定位,从而实现网络故障硬件的及时定位,在获取故障硬件之后,获取故障硬件的位置信息,根据所述位置信息对所述故障硬件进行切换或隔离,从而实现对IB组网的及时监控。
在本实施例中,通过获取分布式存储集群的节点信息和组网信息信息,并根据所述节点信息和组网信息确定网络拓扑;采集所述网络拓扑中各节点之间的时延数据;根据所述时延数据确定平均时延,并将所述平均时延与时延阈值进行比较;在所述平均时延超过所述时延阈值时,进行预警,并获取预设定位策略;根据所述预设定位策略对所述分布式存储集群中的故障硬件进行定位检测,从而根据当前分布式存储集群的实际环境信息采用预设定位策略进行定位检测,相较于现有技术,能根据实际网络环境更及时的进行故障定位。
在一实施例中,如图5所示,基于第一实施例提出本发明分布式存储集群的故障定位方法第二实施例,所述预设定位策略包括多轮循环定位策略,所述步骤S50,包括:
步骤S501,根据所述多轮循环定位策略对所述分布式存储集群中的主机节点进行遍历,将遍历到的节点作为服务器端节点,将所述网络拓扑中剩余的其他主机节点作为客户端节点。
在具体实现中,启动多轮循环定位,即存储集群主机节点故障策略:分布式存储集群中有n个节点,每个节点到服务端的时延为Tk,每轮所有节点平均时延为Tgn,它们的关系为
Figure BDA0003066196380000101
在第一轮将主机1设置为服务器端,将集群其他节点设置为客户端,获取第一轮平均时延Tg1;第二轮将主机2设置为服务器端,将集群其他节点设置为客户端,获取第二轮平均时延Tg2,依次把集群中剩余其他节点逐一进行测试,分别获得获Tg3、Tg4...Tgn,用于后续分析定位IB网络故障状况,测试流程如图6所示的循环定位示意图。
步骤S502,获取各客户端节点与所述服务器端节点之间的平均时延。即得到每轮的Tgn
步骤S503,在遍历结束时,根据所述各客户端节点与所述服务器端节点之间的平均时延构建平均时延集合。
依次把集群中剩余其他节点逐一进行测试,分别获得获Tg3、Tg4...Tgn,即构建平均时延集合(Tg1,...,Tgi-1,Tgi+1,...Tgn)。
步骤S504,确定所述平均时延集合中平均时延差异最大的目标平均时延。
在本实施例中,如果Tgi﹥max(Tg1,...,Tgi-1,Tgi+1,...Tgn),表明集群第i个节点和剩余所有节点之间时延普遍比较大,读取网络拓扑,则IB硬件故障出现在第i个节点上,需要针对该节点采取隔离或更换措施;反之进行下一步IB交换机间级联口故障的确认或排除。
步骤S505,将所述目标平均时延对应的分布式集群中的主机节点定位为故障硬件。
在一实施例中,所述步骤S503之后,还包括:
在所述平均时延集合中未存在平均时延差异大的平均时延时,将所述分布式存储集群中的主机节点进行分组,得到若干组分布式集群,其中,若干组分布式集群中包括跨交换机的分布式集群;根据所述多轮循环定位策略获取各组分布式集群的平均时延;将所述各组分布式集群的平均时延与平均时延阈值进行比较;将大于平均时延阈值的各组分布式集群对应的交换机级联口定位为故障硬件。
在具体实现中,在未出现节点故障时,则进行交换机间级联口故障确认或排除,即IB交换机级联口故障策略,具体为,通过读取集群所在节点的拓扑情况,按照拓扑,将分布式存储集群主机平均分为3大组分别为G1、G2和G3,如图7所示的集群拓扑分组示意图,其中G1组主机为
Figure BDA0003066196380000102
对应连接到IB1交换机;G2组主机为
Figure BDA0003066196380000111
对应连接到IB2交换机;G3主机为
Figure BDA0003066196380000112
对应连接跨两台交换机。根据分组分别在组内启动循环定位法,分别获取每个组的平均时延数据TG1、TG2、TG3,若满足TG1≈Tavg,其中,Tavg表示平均时延阈值TG1≈Tavg,而TG3>Tavg,则可定位为IB交换机级联口存在故障,反之故障不在IB交换机级联口,需要进行下一步IB交换机故障的确认或排除。
在一实施例中,所述将所述各组分布式集群的平均时延与平均时延阈值进行比较之后,还包括:
在所述各组分布式集群的平均时延中未存在大于平均时延阈值时,判断所述平均时延集合中的平均时延是否均大于平均时延阈值;在所述平均时延集合中的平均时延均大于平均时延阈值时,将所述各组分布式集群的平均时延与平均时延阈值进行比较;将大于平均时延阈值的各组分布式集群对应的交换机定位为故障硬件。
在具体实现中,在未出现IB交换机级联口故障时,则进行IB交换机故障确认或排除,即IB交换机故障策略,具体为:根据循环定位法获取每轮平均时延数据(Tg1,...,Tgi-1,Tgi+1,...Tgn)>Tavg,当每轮的平均时延都大于正常平均时延阈值时Tavg,则可定位分布式存储集群全部IB交换机存在异常;若TG1>TG2且TG2>Tavg,则可定位分布式存储集群IB1交换机存在故障,若TG2>TG1且TG1>Tavg则可定位IB2交换机存在故障。
在一实施例中,所述步骤S20,包括:
根据所述网络拓扑从分布式集群中选取服务器主机端,将分布式集群中的其他主机作为客户测试端;通过所述客户测试端向所述服务器主机端进行网络连通测试,以使所述服务器主机端监听网络连通测试请求;根据所述服务器主机端监听的网络连通测试请求记录时延数据集合;选取所述时延数据集合中的最大时延数据作为时延数据。
在本实施例中,根据环境模块获取的整个分布式存储集群的IB拓扑信息,通过随机函数随机从目标IB组网集群所有主机中选出服务器主机,然后在服务器主机上启动ib_write_lat的18515端口监听,在剩余其他客户测试端主机上定时通过ib_write_lat命令进行到服务器端的网络连通测试,从而获取客户端到服务器端的时延数据,并获取时延数据中的最大时延取值,作为对比网络健康状态,即选取所述时延数据集合中的最大时延数据作为时延数据,从而提高检测的准确性。
在本实施例中,根据存储集群主机节点故障策略、IB交换机级联口故障策略以及IB交换机故障策略对异常故障点逐一排除定位,从而实现故障硬件的精确定位。
本发明进一步提供一种分布式存储集群的故障定位装置。
参照图8,图8为本发明分布式存储集群的故障定位装置第一实施例的功能模块示意图。
本发明分布式存储集群的故障定位装置第一实施例中,该分布式存储集群的故障定位装置包括:
获取模块10,用于获取分布式存储集群的节点信息和组网信息,并根据所述节点信息和组网信息确定网络拓扑;
采集模块20,用于采集所述网络拓扑中各节点之间的时延数据;
比较模块30,用于根据所述时延数据确定平均时延,并将所述平均时延与时延阈值进行比较;
所述获取模块10,还用于在所述平均时延超过所述时延阈值时,进行预警,并获取预设定位策略;
定位模块40,用于根据所述预设定位策略对所述分布式存储集群中的故障硬件进行定位检测。
在本实施例中,通过获取分布式存储集群的节点信息和组网信息信息,并根据所述节点信息和组网信息确定网络拓扑;采集所述网络拓扑中各节点之间的时延数据;根据所述时延数据确定平均时延,并将所述平均时延与时延阈值进行比较;在所述平均时延超过所述时延阈值时,进行预警,并获取预设定位策略;根据所述预设定位策略对所述分布式存储集群中的故障硬件进行定位检测,从而根据当前分布式存储集群的实际环境信息采用预设定位策略进行定位检测,相较于现有技术,能根据实际网络环境更及时的进行故障定位。
在一实施例中,所述预设定位策略包括多轮循环定位策略;
定位模块40,还用于根据所述多轮循环定位策略对所述分布式存储集群中的主机节点进行遍历,将遍历到的节点作为服务器端节点,将所述网络拓扑中剩余的其他主机节点作为客户端节点;
获取各客户端节点与所述服务器端节点之间的平均时延;
在遍历结束时,根据所述各客户端节点与所述服务器端节点之间的平均时延构建平均时延集合;
确定所述平均时延集合中平均时延差异最大的目标平均时延;
将所述目标平均时延对应的分布式集群中的主机节点定位为故障硬件。
在一实施例中,定位模块40,还用于在所述平均时延集合中未存在平均时延差异大的平均时延时,将所述分布式存储集群中的主机节点进行分组,得到若干组分布式集群,其中,若干组分布式集群中包括跨交换机的分布式集群;
根据所述多轮循环定位策略获取各组分布式集群的平均时延;
将所述各组分布式集群的平均时延与平均时延阈值进行比较;
将大于平均时延阈值的各组分布式集群对应的交换机级联口定位为故障硬件。
在一实施例中,定位模块40,还用于在所述各组分布式集群的平均时延中未存在大于平均时延阈值时,判断所述平均时延集合中的平均时延是否均大于平均时延阈值;
在所述平均时延集合中的平均时延均大于平均时延阈值时,将所述各组分布式集群的平均时延与平均时延阈值进行比较;
将大于平均时延阈值的各组分布式集群对应的交换机定位为故障硬件。
在一实施例中,所述获取模块10,还用于在所述平均时延超过所述时延阈值时,统计超过所述时延阈值的平均时延的数量;
在所述超过所述时延阈值的平均时延的数量超过数量阈值时,启动定位检测程序;
根据所述定位检测程序获取预设定位策略。
在一实施例中,所述采集模块20,还用于根据所述网络拓扑从分布式集群中选取服务器主机端,将分布式集群中的其他主机作为客户测试端;
通过所述客户测试端向所述服务器主机端进行网络连通测试,以使所述服务器主机端监听网络连通测试请求;
根据所述服务器主机端监听的网络连通测试请求记录时延数据集合;
选取所述时延数据集合中的最大时延数据作为时延数据。
在一实施例中,定位模块40,还用于获取故障硬件的位置信息;
根据所述位置信息对所述故障硬件进行切换或隔离。
此外,为实现上述目的,本发明还提出一种分布式存储集群的故障定位设备,所述分布式存储集群的故障定位设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的分布式存储集群的故障定位程序,所述分布式存储集群的故障定位程序配置为实现如上文所述的分布式存储集群的故障定位方法。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有分布式存储集群的故障定位程序,所述分布式存储集群的故障定位程序被处理器执行时实现如上文所述的分布式存储集群的故障定位方法。
由于本存储介质采用了上述所有实施例的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再一一赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个计算机可读存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台智能终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种分布式存储集群的故障定位方法,其特征在于,所述分布式存储集群的故障定位方法包括:
获取分布式存储集群的节点信息和组网信息,并根据所述节点信息和组网信息确定网络拓扑;
采集所述网络拓扑中各主机节点之间的时延数据;
根据所述时延数据确定平均时延,并将所述平均时延与时延阈值进行比较;
在所述平均时延超过所述时延阈值时,进行预警,并获取预设定位策略;
根据所述预设定位策略对所述分布式存储集群中的故障硬件进行定位检测。
2.如权利要求1所述的分布式存储集群的故障定位方法,其特征在于,所述预设定位策略包括多轮循环定位策略;
所述根据所述预设定位策略对所述分布式存储集群中的故障硬件进行定位检测,包括:
根据所述多轮循环定位策略对所述分布式存储集群中的主机节点进行遍历,将遍历到的节点作为服务器端节点,将所述网络拓扑中剩余的其他主机节点作为客户端节点;
获取各客户端节点与所述服务器端节点之间的平均时延;
在遍历结束时,根据所述各客户端节点与所述服务器端节点之间的平均时延构建平均时延集合;
确定所述平均时延集合中平均时延差异最大的目标平均时延;
将所述目标平均时延对应的分布式集群中的主机节点定位为故障硬件。
3.如权利要求2所述的分布式存储集群的故障定位方法,其特征在于,所述在遍历结束时,根据获取的平均时延构建平均时延集合之后,还包括:
在所述平均时延集合中未存在平均时延差异大的平均时延时,将所述分布式存储集群中的主机节点进行分组,得到若干组分布式集群,其中,若干组分布式集群中包括跨交换机的分布式集群;
根据所述多轮循环定位策略获取各组分布式集群的平均时延;
将所述各组分布式集群的平均时延与平均时延阈值进行比较;
将大于平均时延阈值的各组分布式集群对应的交换机级联口定位为故障硬件。
4.如权利要求3所述的分布式存储集群的故障定位方法,其特征在于,所述将所述各组分布式集群的平均时延与平均时延阈值进行比较之后,还包括:
在所述各组分布式集群的平均时延中未存在大于平均时延阈值时,判断所述平均时延集合中的平均时延是否均大于平均时延阈值;
在所述平均时延集合中的平均时延均大于平均时延阈值时,将所述各组分布式集群的平均时延与平均时延阈值进行比较;
将大于平均时延阈值的各组分布式集群对应的交换机定位为故障硬件。
5.如权利要求1至4中任一项所述的分布式存储集群的故障定位方法,其特征在于,所述在所述平均时延超过所述时延阈值时,进行预警,并获取预设定位策略,包括:
在所述平均时延超过所述时延阈值时,统计超过所述时延阈值的平均时延的数量;
在所述超过所述时延阈值的平均时延的数量超过数量阈值时,启动定位检测程序;
根据所述定位检测程序获取预设定位策略。
6.如权利要求1至4中任一项所述的分布式存储集群的故障定位方法,其特征在于,所述采集所述网络拓扑中各节点之间的时延数据,包括:
根据所述网络拓扑从分布式集群中选取服务器主机端,将分布式集群中的其他主机作为客户测试端;
通过所述客户测试端向所述服务器主机端进行网络连通测试,以使所述服务器主机端监听网络连通测试请求;
根据所述服务器主机端监听的网络连通测试请求记录时延数据集合;
选取所述时延数据集合中的最大时延数据作为时延数据。
7.如权利要求1至4中任一项所述的分布式存储集群的故障定位方法,其特征在于,所述根据所述预设定位策略对所述分布式存储集群中的故障硬件进行定位检测之后,还包括:
获取故障硬件的位置信息;
根据所述位置信息对所述故障硬件进行切换或隔离。
8.一种分布式存储集群的故障定位装置,其特征在于,所述分布式存储集群的故障定位装置包括:
获取模块,用于获取分布式存储集群的节点信息和组网信息,并根据所述节点信息和组网信息确定网络拓扑;
采集模块,用于采集所述网络拓扑中各节点之间的时延数据;
比较模块,用于根据所述时延数据确定平均时延,并将所述平均时延与时延阈值进行比较;
所述获取模块,还用于在所述平均时延超过所述时延阈值时,进行预警,并获取预设定位策略;
定位模块,用于根据所述预设定位策略对所述分布式存储集群中的故障硬件进行定位检测。
9.一种分布式存储集群的故障定位设备,其特征在于,所述分布式存储集群的故障定位设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的分布式存储集群的故障定位程序,所述分布式存储集群的故障定位程序配置为实现如权利要求1至7中任一项所述的分布式存储集群的故障定位方法。
10.一种存储介质,其特征在于,所述存储介质上存储有分布式存储集群的故障定位程序,所述分布式存储集群的故障定位程序被处理器执行时实现如权利要求1至7中任一项所述的分布式存储集群的故障定位方法。
CN202110536958.2A 2021-05-14 2021-05-14 分布式存储集群的故障定位方法、装置、设备及存储介质 Active CN115348157B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110536958.2A CN115348157B (zh) 2021-05-14 2021-05-14 分布式存储集群的故障定位方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110536958.2A CN115348157B (zh) 2021-05-14 2021-05-14 分布式存储集群的故障定位方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN115348157A true CN115348157A (zh) 2022-11-15
CN115348157B CN115348157B (zh) 2023-09-05

Family

ID=83947093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110536958.2A Active CN115348157B (zh) 2021-05-14 2021-05-14 分布式存储集群的故障定位方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115348157B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103546305A (zh) * 2012-07-13 2014-01-29 中兴通讯股份有限公司 网络质量信息的统计方法及系统
US20160110240A1 (en) * 2014-10-17 2016-04-21 Netapp Inc. Forensics collection for failed storage controllers
CN106130816A (zh) * 2016-06-24 2016-11-16 腾讯科技(深圳)有限公司 一种内容分发网络监控方法、监控服务器及系统
CN106293944A (zh) * 2016-08-11 2017-01-04 上海交通大学 虚拟化多核环境下基于非一致性i/o访问系统和优化方法
CN106354590A (zh) * 2015-07-17 2017-01-25 中兴通讯股份有限公司 磁盘检测方法和装置
CN108768794A (zh) * 2018-07-27 2018-11-06 郑州云海信息技术有限公司 一种网络集群的流量检测方法、装置、设备及介质
CN109684140A (zh) * 2018-12-11 2019-04-26 广东浪潮大数据研究有限公司 一种慢盘检测方法、装置、设备及计算机可读存储介质
CN110120973A (zh) * 2019-04-28 2019-08-13 华为技术有限公司 一种请求控制方法、相关设备及计算机存储介质
CN110268380A (zh) * 2017-01-06 2019-09-20 甲骨文国际公司 跨云数据存储库的文件系统层次结构镜像
CN110740065A (zh) * 2019-10-29 2020-01-31 中国联合网络通信集团有限公司 劣化故障点的识别方法、装置及系统
CN111104239A (zh) * 2019-11-21 2020-05-05 北京浪潮数据技术有限公司 一种分布式存储集群的硬盘故障处理方法、系统及装置
CN111869163A (zh) * 2018-03-19 2020-10-30 华为技术有限公司 一种故障检测的方法、装置及系统
CN112269694A (zh) * 2020-10-23 2021-01-26 北京浪潮数据技术有限公司 一种管理节点确定方法、装置、电子设备及可读存储介质
CN112600735A (zh) * 2020-12-14 2021-04-02 北京信而泰科技股份有限公司 网络时延测试方法、装置及系统

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103546305A (zh) * 2012-07-13 2014-01-29 中兴通讯股份有限公司 网络质量信息的统计方法及系统
US20160110240A1 (en) * 2014-10-17 2016-04-21 Netapp Inc. Forensics collection for failed storage controllers
CN106354590A (zh) * 2015-07-17 2017-01-25 中兴通讯股份有限公司 磁盘检测方法和装置
CN106130816A (zh) * 2016-06-24 2016-11-16 腾讯科技(深圳)有限公司 一种内容分发网络监控方法、监控服务器及系统
CN106293944A (zh) * 2016-08-11 2017-01-04 上海交通大学 虚拟化多核环境下基于非一致性i/o访问系统和优化方法
CN110268379A (zh) * 2017-01-06 2019-09-20 甲骨文国际公司 文件系统数据层次结构的云迁移
CN110268380A (zh) * 2017-01-06 2019-09-20 甲骨文国际公司 跨云数据存储库的文件系统层次结构镜像
CN111869163A (zh) * 2018-03-19 2020-10-30 华为技术有限公司 一种故障检测的方法、装置及系统
CN108768794A (zh) * 2018-07-27 2018-11-06 郑州云海信息技术有限公司 一种网络集群的流量检测方法、装置、设备及介质
CN109684140A (zh) * 2018-12-11 2019-04-26 广东浪潮大数据研究有限公司 一种慢盘检测方法、装置、设备及计算机可读存储介质
CN110120973A (zh) * 2019-04-28 2019-08-13 华为技术有限公司 一种请求控制方法、相关设备及计算机存储介质
CN110740065A (zh) * 2019-10-29 2020-01-31 中国联合网络通信集团有限公司 劣化故障点的识别方法、装置及系统
CN111104239A (zh) * 2019-11-21 2020-05-05 北京浪潮数据技术有限公司 一种分布式存储集群的硬盘故障处理方法、系统及装置
CN112269694A (zh) * 2020-10-23 2021-01-26 北京浪潮数据技术有限公司 一种管理节点确定方法、装置、电子设备及可读存储介质
CN112600735A (zh) * 2020-12-14 2021-04-02 北京信而泰科技股份有限公司 网络时延测试方法、装置及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
陈凌剑: "数据中心网络中节能路由算法及无死锁路由算法的研究", 《中国优秀硕士论文电子期刊网》 *
陈凌剑;王勇;俸皓;: "基于网络延时的CEPH存储性能优化方法", 微电子学与计算机, no. 06 *

Also Published As

Publication number Publication date
CN115348157B (zh) 2023-09-05

Similar Documents

Publication Publication Date Title
US7165192B1 (en) Fault isolation in large networks
US7991867B2 (en) Server checking using health probe chaining
US7653769B2 (en) Management of devices connected to infiniband ports
US20140089492A1 (en) Data collection and control by network devices in communication networks
CN113973042A (zh) 用于网络问题的根本原因分析的方法和系统
CN113438110B (zh) 一种集群性能的评价方法、装置、设备及存储介质
WO2015023286A1 (en) Reactive diagnostics in storage area networks
CN100377534C (zh) 一种网络蠕虫检测系统及方法
CN114915561B (zh) 网络拓扑图生成方法和装置
US7676623B2 (en) Management of proprietary devices connected to infiniband ports
Liu et al. Hostping: Diagnosing intra-host network bottlenecks in {RDMA} servers
CN115348157A (zh) 分布式存储集群的故障定位方法、装置、设备及存储介质
US12063140B2 (en) Methods, systems, and computer readable media for test system agent deployment in a smartswitch computing environment
CN114363150B (zh) 服务器集群的网卡连通性监控方法及装置
CN115022163B (zh) 日志收集方法、装置、计算机设备及存储介质
CN116340045A (zh) 数据库异常处理方法、装置、设备和计算机可读存储介质
CN110896368A (zh) 网络质量监控方法及装置
CN114124727B (zh) 一种网管通信压力测试方法及系统
KR100500836B1 (ko) 매트로 이더넷망의 장애처리 장치 및 그 방법
JP2004336658A (ja) ネットワーク監視方法およびネットワーク監視装置
CN110138657B (zh) 交换机间的聚合链路切换方法、装置、设备及存储介质
CN111385162B (zh) 网络探测方法、装置、计算机设备和存储介质
CN110581786A (zh) Ncsi网络连通稳定性的测试方法、装置、系统及介质
CN115811464B (zh) 基于多维整合数据的网络故障智能分析方法、装置和控制系统
KR102371060B1 (ko) 네트워크 트래픽 입출량 분석을 통한 네트워크 토폴로지 탐색 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant