CN117640341A - 节点探测方法及装置 - Google Patents

节点探测方法及装置 Download PDF

Info

Publication number
CN117640341A
CN117640341A CN202311594170.2A CN202311594170A CN117640341A CN 117640341 A CN117640341 A CN 117640341A CN 202311594170 A CN202311594170 A CN 202311594170A CN 117640341 A CN117640341 A CN 117640341A
Authority
CN
China
Prior art keywords
node
storage node
storage
target
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311594170.2A
Other languages
English (en)
Inventor
柳灿
李巍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202311594170.2A priority Critical patent/CN117640341A/zh
Publication of CN117640341A publication Critical patent/CN117640341A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供了一种节点探测方法及装置,包括:获得目标存储节点的第一节点信息;基于第一节点信息,确定目标系统中与目标存储节点通信的至少一个网络设备;获得网络设备的节点连接信息,节点连接信息用于记录与网络设备连接的存储节点的节点基础信息;对与网络设备连接的各个存储节点进行探测;其中,被探测的存储节点与目标存储节点属于同一存储集群或不同的存储集群;上报已探测的存储节点的探测结果。应用本发明提供的方法,可以对同一存储集群内的各个存储节点进行探测,也可以对其他存储集群的存储节点进行探测,进一步扩大探测范围,同时,还可以确保获得的存储节点的探测结果的准确性。

Description

节点探测方法及装置
技术领域
本发明涉及计算机技术领域,特别是涉及一种节点探测方法及装置。
背景技术
分布式块存储是一种扩展性的存储架构,其能够实现跨设备数据分发,能够多个服务器共享负载的存储架构,为计算服务器提供存储服务,在物理机与虚拟机应用中可作为一种长期存储设备来使用。一个分布式块存储系统包含存储节点、管控节点,以及分布在计算服务器上的块存储客户端等。
现有的分布式块存储故障探测机制是同一存储集群内的管控节点每隔一定时间会定时探测存储节点是否存活,存储节点发现故障也会主动上报管控节点。但目前的探测方式仅从存储集群内部去探测故障,探测链路不够完善,对于较为隐秘的存储节点很难进行检测。
发明内容
有鉴于此,本发明提供一种节点探测方法,通过该方法,不仅局限于对同一个集群内的存储节点进行检测,可以通过其他的网络设备对其他及群内的存储节点进行检测,进一步扩大检测范围。
本发明还提供了一种节点探测装置,用以保证上述方法在实际中的实现及应用。
一种节点探测方法,包括:
获得目标存储节点的第一节点信息;
基于所述第一节点信息,确定目标系统中与所述目标存储节点通信的至少一个网络设备;
获得所述网络设备的节点连接信息,所述节点连接信息用于记录与所述网络设备连接的存储节点的节点基础信息;
对与所述网络设备连接的各个存储节点进行探测;其中,被探测的存储节点与所述目标存储节点属于同一存储集群或不同的存储集群;
上报已探测的存储节点的探测结果。
上述的方法,可选的,与所述目标存储节点通信的网络设备至少包括服务器、交换机和管控节点。
上述的方法,可选的,所述对与所述网络设备连接的各个存储节点进行探测,包括:
确定待探测的存储节点与所述目标存储节点是否属于同一节点集群;
如果所述待探测的存储节点与所述目标存储节点属于同一节点集群,控制所述目标存储节点直接对所述待探测的存储节点进行探测;
如果所述待探测的存储节点与所述目标存储节点不属于同一节点集群,控制所述目标存储节点通过所述网络设备对所述待探测的存储节点进行探测。
上述的方法,可选的,所述对与所述网络设备连接的各个存储节点进行探测,上报已探测的存储节点的探测结果,包括:
控制所述网络设备对与所述网络设备连接的所有存储节点进行探测,并控制所述网络设备通过所述目标存储节点上报已探测的存储节点的探测结果。
上述的方法,可选的,还包括:
对于所述目标系统中的每个存储节点,分析所述存储节点在预设周期内的至少一个探测结果;
如果任一存储节点的所有探测结果表征该存储节点发生故障,输出所述存储节点对应的故障消息。
上述的方法,可选的,所述分析所述存储节点在预设周期内的至少一个探测结果,包括:
将所述存储节点在所述预设周期内的所有探测结果聚合,获得聚合结果,所述聚合结果用于记录所述存储节点在所述预设周期内发生故障的故障类型以及每种故障类型对应的故障次数;
如果所述聚合结果中所记录的故障类型表示为空集,确定所述存储节点未发生故障;
如果所述聚合结果中所记录的故障类型表示为非空集,确定所述存储节点发生故障。
上述的方法,可选的,所述输出所述存储节点对应的故障消息,包括:
确定故障次数最多的目标故障类型;
输出所述目标故障类型对应的故障消息。
上述的方法,可选的,还包括:
将所述聚合结果保存至预先设置的探测日志。
上述的方法,可选的,还包括:
获得故障的存储节点的第二节点信息;
基于所述第二节点信息,确定与所述故障的存储节点相关的通信链路;
在所述通信链路中剔除所述故障的存储节点。
一种节点探测装置,包括:
第一获取单元,用于获得目标存储节点的第一节点信息;
确定单元,用于基于所述第一节点信息,确定目标系统中与所述目标存储节点通信的至少一个网络设备;
第二获取单元,用于获得所述网络设备的节点连接信息,所述节点连接信息用于记录与所述网络设备连接的存储节点的节点基础信息;
探测单元,用于对与所述网络设备连接的各个存储节点进行探测;其中,被探测的存储节点与所述目标存储节点属于同一存储集群或不同的存储集群;
上报单元,用于上报已探测的存储节点的探测结果。
一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行上述的节点探测方法。
一种电子设备,包括存储器,以及一个或者一个以上的指令,其中一个或者一个以上指令存储于存储器中,且经配置以由一个或者一个以上处理器执行上述的节点探测方法。
与现有技术相比,本发明包括以下优点:
本发明提供了一种节点探测方法,包括:获得目标存储节点的第一节点信息;基于所述第一节点信息,确定目标系统中与所述目标存储节点通信的至少一个网络设备;获得所述网络设备的节点连接信息,所述节点连接信息用于记录与所述网络设备连接的存储节点的节点基础信息;对与所述网络设备连接的各个存储节点进行探测;其中,被探测的存储节点与所述目标存储节点属于同一存储集群或不同的存储集群;上报已探测的存储节点的探测结果。应用本发明提供的方法,可以对同一存储集群内的各个存储节点进行探测,也可以对其他存储集群的存储节点进行探测,进一步扩大探测范围,同时,还可以确保获得的存储节点的探测结果的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种节点探测方法的方法流程图;
图2为本发明实施例提供的一种节点探测方法的一种示意图;
图3为本发明实施例提供的一种节点探测方法的又一方法流程图;
图4为本发明实施例提供的一种节点探测方法的又一种示意图;
图5为本发明实施例提供的一种节点探测方法的再一方法流程图;
图6为本发明实施例提供的一种节点探测方法的再一种示意图;
图7为本发明实施例提供的一种节点探测装置的装置结构图;
图8为本发明实施例提供的一种电子设备结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明可用于众多通用或专用的计算装置环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。
本发明实施例提供了一种节点探测方法,该方法可以应用在多种系统平台,其执行主体可以为计算机终端或各种移动设备的处理器,所述方法的方法流程图如图1所示,具体包括:
S101:获得目标存储节点的第一节点信息。
S102:基于第一节点信息,确定目标系统中与目标存储节点通信的至少一个网络设备。
需要说明的是,与目标存储节点通信的及网络设备至少包括服务器、交换机和管控节点。服务器内设置有客户端,存储节点可以通过客户端访问服务器。当存储节点需要连接网络时,由交换机为存储节点提供网络服务。管控节点为管理目标存储节点所属的存储集群的上游设备。
S103:获得网络设备的节点连接信息。
其中,节点连接信息用于记录网络设备连接的存储节点的节点基础信息。节点基础信息至少包括与该网络设备连接的存储节点的节点号码。
S104:对与网络设备连接的各个存储节点进行探测。
其中,被探测的存储节点与目标存储节点属于同一存储集群或不同的存储集群。
需要说明的是,可以控制目标存储节点通过网络设备对于该网络设备的存储节点进行探测,也可以直接控制网络设备对与其连接的存储节点进行探测。
如图2所示,各个存储节点分别连接不同的服务器,通过每个服务器的客户端对与其连接的存储节点进行探测。同时,每个存储节点还分别与不同的交换机连接,通过交换机可以对其他的存储集群的存储节点进行探测。
还需要说明的是,如果目标存储节点与任意其他的存储节点都连接同一个服务器和交换机,则可以分别通过服务器和交换机同时对该存储节点进行探测,获得两者探测结果。
S105:上报已探测的存储节点的探测结果。
本发明实施例中,上报已探测的存储节点的探测结果是向目标存储节点所属的存储集群的上游设备(管控节点)发送被探测的存储节点的探测结果。该探测结果用于表征存储节点的工作状态为正常状态或故障状态。
本发明实施例提供的方法中,获取目标存储节点的第一节点信息,该第一节点信息记录与目标存储节点的网络设备的设备号以及目标存储节点的节点号码、地址等信息。通过第一节点信息,获得与目标存储节点进行通信连接的网络设备,并通过该网络设备探测与该网络设备连接的其他存储节点,从而获得除目标存储节点所属的存储集群中各个存储节点的探测结果之外,获得其他存储集群中存储节点的探测结果。应用本发明实施例提供的方法,可以进一步扩大对系统中的存储节点的探测范围,避免存在部分隐秘的存储节点被遗漏。
本发明实施例提供的方法中,如图3所示,所述对与所述网络设备连接的各个存储节点进行探测的一种实施方式如下:
S301:确定待探测的存储节点与目标存储节点是否属于同一节点集群。
其中,如果所述待探测的存储节点与所述目标存储节点属于同一节点集群,执行S302;如果所述待探测的存储节点与所述目标存储节点不属于同一节点集群,执行S303。
S302:控制目标存储节点直接对待探测的存储节点进行探测。
需要说明的是,参考图4,目标存储节点可以直接对其他存储节点进行探测之外,还可以对其本身进行自我探测,同时还可以探测与其属于同一个存储集群中的各个存储节点。在获得存储节点的探测结果后将相关数据上报给管控节点。
S303:控制目标存储节点通过网络设备对待探测的存储节点进行探测。
可以理解的是,通过控制目标存储节点向网络设备发送对应的信号,是的网络设备根据信号对待探测的存储节点进行探测,并在探测结束后将探测结果回馈给目标存储节点。
可选的,如果网络设备为管控节点,管控节点可以不用将探测结果再返回至目标存储节点。
再进一步地,处理器可以不用控制目标存储节点向网络设备发送信号对存储节点进行探测,可以直接控制网络设备对于该网络设备连接的所有存储节点进行探测(其中包括目标存储节点),网络设备在获得探测结果后可以直接将相关数据发送给目标存储节点或上报至管控节点。
本发明实施例提供的方法中,在确定与网络设备连接的各个存储节点后,可以由目光存储节点直接探测,或者由目标存储节点通过网络设备间接进行探测,还可以由网络设备直接进行探测。其中具体的探测方式可以结合存储节点的节点状态以及网络设备的运行状态选择合适的探测方式,以提高对存储节点的探测效率。
本发明实施例提供的方法中,在获得存储节点的探测结果之后,执行如图5所示的实施过程:
S501:对于目标系统中的每个存储节点,分析存储节点在预设周期内的至少一个探测结果。
S502:如果任一存储节点的所有探测结果表征该存储节点发生故障,输出存储节点对应的故障消息。
具体的,所述分析所述存储节点在预设周期内的至少一个探测结果,包括:将存储节点在预设周期内的所有探测结果聚合,获得聚合结果,聚合结果用于记录存储节点在预设周期内发生故障的故障类型以及每种故障类型对应的故障次数;如果聚合结果中所记录的故障类型表示为空集,确定存储节点未发生故障;如果聚合结果中所记录的故障类型表示为非空集,确定存储节点发生故障。其中,该聚合结果可以保存在探测日志中。故障类型可以是IO hang故障等。聚合结果为空集,表征没有故障记录。
进一步地,如果存储节点发生过故障,输出故障消息的具体方式为:确定故障次数最多的目标故障类型;输出目标故障类型对应的故障消息。
再进一步地,在存储节点发生故障之后,可以将该存储节点剔除。具体方式为:获得故障的存储节点的第二节点信息;基于第二节点信息,确定与故障的存储节点相关的通信链路;在通信链路中剔除故障的存储节点。
基于上述实施例提供的方法中,对系统中的存储节点进行探测的实施方式包括以下内容:
(1)单个存储集群内所有存储节点之间每隔一段时间(毫秒级)互相探测,统计周期(秒级)内的探测数据,根据制定的探测数据标准(例如周期内一定比例的探测数据异常),向管控节点上报对应存储节点的故障情况。
(2)计算服务器上分布有提供块存储访问能力的客户端,存储节点会连接交换机,由交换机为其提供网络服务,因此让存储节点每隔一段时间(秒级)去探测与之相连的交换机,统计周期(分钟级)内的探测数据,根据制定的探测数据标准(例如周期内一定比例的探测数据异常),向管控节点上报故障情况;同时让与某台存储节点有交互的所有计算服务器每隔一段时间(秒级)去探测该存储节点,根据制定的探测数据标准(例如周期内一定比例的探测数据异常),上报探测结果。
本发明根据建立的探测机制发现故障节点后,还提供了联动剔除方法,增加一个剔除接口(聚合统计决策服务),可以及时对故障节点进行隔离并根据相关信息分析后迅速完成联动剔除操作。由图6可知聚合统计决策信息来源于各链路上报的探测结果、读写服务异常告警等。探测结果可根据本发明所建立的探测机制获取,读写服务异常告警信息可扫描存储服务器以及分布在计算服务器上的块存储客户端的读写错误日志,检测存储节点故障。流程如下:扫描读写error日志(探测日志),通过特定组件上报,处理模块聚合数据并暂存聚合结果,聚合过程主要是统计存储节点的读错误与写错误次数;当发生IO hang时,告警模块发出hang告警,此时触发故障定位流程,需要扫描暂存的聚合结果,分析出具体的故障原因;随后定位故障原因,分析出是哪个存储节点故障,定位并剔除具体的故障节点。根据各链路上报的探测结果、读写服务异常告警等相关信息,分析后完成故障节点的剔除。
本发明实施例提供的方法,建立多链路探测机制,及时发现故障节点,对故障节点进行隔离并根据相关信息分析后完成联动剔除操作。一个能够为大规模计算服务器提供存储服务的分布式块存储系统包含存储节点和管控节点,以及分布在计算服务器上的块存储客户端。
上述各个实施例的具体实施过程及其衍生方式,均在本发明的保护范围之内。
与图1所述的方法相对应,本发明实施例还提供了一种节点探测装置,用于对图1中方法的具体实现,本发明实施例提供的节点探测装置可以应用计算机终端或各种移动设备中,其结构示意图如图7所示,具体包括:
第一获取单元701,用于获得目标存储节点的第一节点信息;
确定单元702,用于基于所述第一节点信息,确定目标系统中与所述目标存储节点通信的至少一个网络设备;
第二获取单元703,用于获得所述网络设备的节点连接信息,所述节点连接信息用于记录与所述网络设备连接的存储节点的节点基础信息;
探测单元704,用于对与所述网络设备连接的各个存储节点进行探测;其中,被探测的存储节点与所述目标存储节点属于同一存储集群或不同的存储集群;
上报单元705,用于上报已探测的存储节点的探测结果。
本发明实施例提供的装置中,与所述目标存储节点通信的网络设备至少包括服务器、交换机和管控节点。
本发明实施例提供的装置中,所述探测单元704对与所述网络设备连接的各个存储节点进行探测,具体用于:
确定待探测的存储节点与所述目标存储节点是否属于同一节点集群;
如果所述待探测的存储节点与所述目标存储节点属于同一节点集群,控制所述目标存储节点直接对所述待探测的存储节点进行探测;
如果所述待探测的存储节点与所述目标存储节点不属于同一节点集群,控制所述目标存储节点通过所述网络设备对所述待探测的存储节点进行探测。
本发明实施例提供的装置中,所述探测单元704对与所述网络设备连接的各个存储节点进行探测,上报已探测的存储节点的探测结果,具体用于:
控制所述网络设备对与所述网络设备连接的所有存储节点进行探测,并控制所述网络设备通过所述目标存储节点上报已探测的存储节点的探测结果。
本发明实施例提供的装置中,还包括:
分析子单元,用于分析所述目标系统中的存储节点在预设周期内的至少一个探测结果;如果任一存储节点的所有探测结果表征该存储节点发生故障,输出所述存储节点对应的故障消息。
本发明实施例提供的装置中,所述分析子单元分析所述存储节点的至少一个探测结果,具体用于:
将所述存储节点在所述预设周期内的所有探测结果聚合,获得聚合结果,所述聚合结果用于记录所述存储节点在所述预设周期内发生故障的故障类型以及每种故障类型对应的故障次数;
如果所述聚合结果中所记录的故障类型表示为空集,确定所述存储节点未发生故障;
如果所述聚合结果中所记录的故障类型表示为非空集,确定所述存储节点发生故障。
本发明实施例提供的装置中,所述分析子单元输出所述存储节点对应的故障消息,包括:
确定故障次数最多的目标故障类型;
输出所述目标故障类型对应的故障消息。
本发明实施例提供的装置中,还包括:
保存子单元,用于将所述聚合结果保存至预先设置的探测日志。
本发明实施例提供的装置中,还包括:
剔除单元,用于获得故障的存储节点的第二节点信息;基于所述第二节点信息,确定与所述故障的存储节点相关的通信链路;在所述通信链路中剔除所述故障节点。
以上本发明实施例公开的节点探测装置中各个单元及子单元的具体工作过程,可参见本发明上述实施例公开的节点探测方法中的对应内容,这里不再进行赘述。
本发明实施例还提供了一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行上述节点探测方法。
本发明实施例还提供了一种电子设备,其结构示意图如图8所示,具体包括存储器801,以及一个或者一个以上的指令802,其中一个或者一个以上指令802存储于存储器801中,且经配置以由一个或者一个以上处理器803执行所述一个或者一个以上指令802进行以下操作:
获得目标存储节点的第一节点信息;
基于所述第一节点信息,确定目标系统中与所述目标存储节点通信的至少一个网络设备;
获得所述网络设备的节点连接信息,所述节点连接信息用于记录与所述网络设备连接的存储节点的节点基础信息;
对与所述网络设备连接的各个存储节点进行探测;其中,被探测的存储节点与所述目标存储节点属于同一存储集群或不同的存储集群;
上报已探测的存储节点的探测结果。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现。
为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种节点探测方法,其特征在于,包括:
获得目标存储节点的第一节点信息;
基于所述第一节点信息,确定目标系统中与所述目标存储节点通信的至少一个网络设备;
获得所述网络设备的节点连接信息,所述节点连接信息用于记录与所述网络设备连接的存储节点的节点基础信息;
对与所述网络设备连接的各个存储节点进行探测;其中,被探测的存储节点与所述目标存储节点属于同一存储集群或不同的存储集群;
上报已探测的存储节点的探测结果。
2.根据权利要求1所述的方法,其特征在于,与所述目标存储节点通信的网络设备至少包括服务器、交换机和管控节点。
3.根据权利要求1或2所述的方法,其特征在于,所述对与所述网络设备连接的各个存储节点进行探测,包括:
确定待探测的存储节点与所述目标存储节点是否属于同一节点集群;
如果所述待探测的存储节点与所述目标存储节点属于同一节点集群,控制所述目标存储节点直接对所述待探测的存储节点进行探测;
如果所述待探测的存储节点与所述目标存储节点不属于同一节点集群,控制所述目标存储节点通过所述网络设备对所述待探测的存储节点进行探测。
4.根据权利要求1或2所述的方法,其特征在于,所述对与所述网络设备连接的各个存储节点进行探测,上报已探测的存储节点的探测结果,包括:
控制所述网络设备对与所述网络设备连接的所有存储节点进行探测,并控制所述网络设备通过所述目标存储节点上报已探测的存储节点的探测结果。
5.根据权利要求1所述的方法,其特征在于,还包括:
对于所述目标系统中的每个存储节点,分析所述存储节点在预设周期内的至少一个探测结果;
如果任一存储节点的所有探测结果表征该存储节点发生故障,输出所述存储节点对应的故障消息。
6.根据权利要求5所述的方法,其特征在于,所述分析所述存储节点在预设周期内的至少一个探测结果,包括:
将所述存储节点在所述预设周期内的所有探测结果聚合,获得聚合结果,所述聚合结果用于记录所述存储节点在所述预设周期内发生故障的故障类型以及每种故障类型对应的故障次数;
如果所述聚合结果中所记录的故障类型表示为空集,确定所述存储节点未发生故障;
如果所述聚合结果中所记录的故障类型表示为非空集,确定所述存储节点发生故障。
7.根据权利要求6所述的方法,其特征在于,所述输出所述存储节点对应的故障消息,包括:
确定故障次数最多的目标故障类型;
输出所述目标故障类型对应的故障消息。
8.根据权利要求5~7任意一项所述的方法,其特征在于,还包括:
将所述聚合结果保存至预先设置的探测日志。
9.根据权利要求5~7任意一项所述的方法,其特征在于,还包括:
获得故障的存储节点的第二节点信息;
基于所述第二节点信息,确定与所述故障的存储节点相关的通信链路;
在所述通信链路中剔除所述故障的存储节点。
10.一种节点探测装置,其特征在于,包括:
第一获取单元,用于获得目标存储节点的第一节点信息;
确定单元,用于基于所述第一节点信息,确定目标系统中与所述目标存储节点通信的至少一个网络设备;
第二获取单元,用于获得所述网络设备的节点连接信息,所述节点连接信息用于记录与所述网络设备连接的存储节点的节点基础信息;
探测单元,用于对与所述网络设备连接的各个存储节点进行探测;其中,被探测的存储节点与所述目标存储节点属于同一存储集群或不同的存储集群;
上报单元,用于上报已探测的存储节点的探测结果。
CN202311594170.2A 2023-11-27 2023-11-27 节点探测方法及装置 Pending CN117640341A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311594170.2A CN117640341A (zh) 2023-11-27 2023-11-27 节点探测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311594170.2A CN117640341A (zh) 2023-11-27 2023-11-27 节点探测方法及装置

Publications (1)

Publication Number Publication Date
CN117640341A true CN117640341A (zh) 2024-03-01

Family

ID=90022824

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311594170.2A Pending CN117640341A (zh) 2023-11-27 2023-11-27 节点探测方法及装置

Country Status (1)

Country Link
CN (1) CN117640341A (zh)

Similar Documents

Publication Publication Date Title
US11005730B2 (en) System, method, and apparatus for high throughput ingestion for streaming telemetry data for network performance management
Oliner et al. What supercomputers say: A study of five system logs
Zheng et al. Co-analysis of RAS log and job log on Blue Gene/P
CN113836044B (zh) 一种软件故障采集和分析的方法及系统
CN107870832B (zh) 基于多维度健康诊断方法的多路径存储设备
US10177984B2 (en) Isolation of problems in a virtual environment
US10931533B2 (en) System for network incident management
JP2001249856A (ja) ストレージ・エリア・ネットワーク(san)内でのエラー処理方法及びデータ処理システム
JP2021141582A (ja) 障害回復方法および障害回復装置、ならびに記憶媒体
CN112737800B (zh) 服务节点故障定位方法、调用链生成方法及服务器
CN107769943A (zh) 一种主备集群切换的方法和设备
CN109165138A (zh) 一种监控设备故障的方法和装置
CN110266544B (zh) 一种云平台微服务化服务失败的原因定位的装置及方法
WO2006117833A1 (ja) 監視シミュレーション装置,方法およびそのプログラム
CN114363151A (zh) 故障检测方法和装置、电子设备和存储介质
CN114154035A (zh) 一种动环监控的数据处理系统
US20170199800A1 (en) System and method for comprehensive performance and availability tracking using passive monitoring and intelligent synthetic transaction generation in a transaction processing system
CN114118991A (zh) 第三方系统监控系统、方法、装置、设备及存储介质
JP5780553B2 (ja) 障害監視装置及び障害監視方法
JP2009252006A (ja) コンピュータシステムにおけるログ管理システム、ログ管理方法
CN117640341A (zh) 节点探测方法及装置
US7475076B1 (en) Method and apparatus for providing remote alert reporting for managed resources
CN112291302B (zh) 物联网设备行为数据分析方法与处理系统
KR100500836B1 (ko) 매트로 이더넷망의 장애처리 장치 및 그 방법
CN113409876A (zh) 一种故障硬盘的定位方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination