CN114024834A - 故障定位方法、装置、电子设备及可读存储介质 - Google Patents
故障定位方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN114024834A CN114024834A CN202111226362.9A CN202111226362A CN114024834A CN 114024834 A CN114024834 A CN 114024834A CN 202111226362 A CN202111226362 A CN 202111226362A CN 114024834 A CN114024834 A CN 114024834A
- Authority
- CN
- China
- Prior art keywords
- iscsi
- connection state
- server
- target
- fault
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 239000003999 initiator Substances 0.000 claims abstract description 27
- 238000012544 monitoring process Methods 0.000 claims abstract description 23
- 238000004891 communication Methods 0.000 claims abstract description 11
- 230000002159 abnormal effect Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 8
- 230000000007 visual effect Effects 0.000 claims description 3
- 230000004807 localization Effects 0.000 claims 2
- 238000012545 processing Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0677—Localisation of faults
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/10—Active monitoring, e.g. heartbeat, ping or trace-route
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1095—Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/14—Session management
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Cardiology (AREA)
- General Health & Medical Sciences (AREA)
- Debugging And Monitoring (AREA)
- Hardware Redundancy (AREA)
Abstract
本申请公开了一种故障定位方法、装置、电子设备及可读存储介质,方法应用于基于iSCSI协议且采用CS模式的分布式存储集群系统的资源监控平台,分布式存储集群系统的各主机作为iSCSI客户端,各存储节点作为iSCSI服务端,iSCSI客户端的启动器和iSCSI服务端的目标器通过TCP连接通信。该方法包括:获取每个iSCSI服务端发送的连接状态信息;连接状态信息为当前iSCSI服务端与其目标器相连的各iSCSI客户端的TCP连接状态。通过分析连接状态信息确定是否存在故障设备;若存在故障设备,则定位故障设备,从而可高效、精准定位分布式存储集群中的故障主机客户端,有利于提升整个分布式存储集群的可靠性和稳定性。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种故障定位方法、装置、电子设备及可读存储介质。
背景技术
传统的网络存储系统采用集中存储服务器存放所有数据的方式,存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足大规模存储应用的需要,分布式存储技术应用而生。分布式存储系统将数据分散存储在多台独立的设备上,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,提高了存储系统的可靠性、可用性和存取效率,还易于扩展。在分布式存储中存在基于iSCSI(Internet Small Computer SystemInterface,互联网小型计算机系统接口)协议开发的访问CS(Client/Server,客户端/服务器)模式的应用程序。其中,iSCSI客户端运行应用程序open-iscsi,iSCSI服务端应用为tgt(target,目标器)。对于分布式存储集群来说,分布式存储集群系统的各存储节点作为iSCSI服务端,分布式存储集群系统的主机为iSCSI客户端,iSCSI服务端与iSCSI客户端之间的对应关系为多对多,一个iSCSI客户端可以与多个iSCSI服务端相连,一个iSCSI服务端也可与多个iSCSI客户端相连。iSCSI客户端的启动器(initiator)对象与iSCSI服务端中的目标器(target)对象通过TCP/IP(Transmission Control Protocol/Internet Protocol,传输控制协议/网际协议)进行连接通信。
可以理解的是,iSCSI客户端可以与多个iSCSI服务端进行连接通信,当分布式存储集群系统检测到存在故障主机设备时,只能通过人工去定位故障主机可断所在。分布式存储集群中通常有数量庞大的主机客户端时,随着存储集群主机客户端规模越来越大,很难通过人工确认是哪台主机出现问题,故障定位效率低下,导致存储集群稳定性和可靠性不高。
鉴于此,如何高效、精准定位分布式存储集群中的故障主机客户端,以提高整个分布式存储集群的可靠性和稳定性,是所属领域技术人员需要解决的技术问题。
发明内容
本申请提供了一种故障定位方法、装置、电子设备及可读存储介质,可高效、精准定位分布式存储集群中的故障主机客户端,有利于提升整个分布式存储集群的可靠性和稳定性。
为解决上述技术问题,本发明实施例提供以下技术方案:
本发明实施例一方面提供了一种故障定位方法,应用于基于iSCSI协议且采用CS模式的分布式存储集群系统的资源监控平台,所述分布式存储集群系统的各主机作为iSCSI客户端,各存储节点作为iSCSI服务端,所述iSCSI客户端的启动器和所述iSCSI服务端的目标器通过TCP连接通信;包括:
获取每个iSCSI服务端发送的连接状态信息;所述连接状态信息为当前iSCSI服务端与其目标器相连的各iSCSI客户端之间的TCP连接状态;
通过分析所述连接状态信息确定是否存在故障设备;
若存在所述故障设备,则定位所述故障设备。
可选的,所述获取每个iSCSI服务端发送的连接状态信息之后,还包括:
获取每个iSCSI客户端的唯一标识信息和各iSCSI服务端的地址信息;
基于各iSCSI客户端的唯一标识信息、每个iSCSI客户端对应相连的iSCSI服务端的地址信息以及TCP连接状态生成状态信息表。
可选的,所述通过分析所述连接状态信息确定是否存在故障设备,包括:
按照预设故障检测频率,判断所述状态信息表中是否存在与所有iSCSI服务端的TCP连接状态均为异常状态的目标iSCSI客户端;
若是,则确定所述目标iSCSI客户端为故障设备。
可选的,所述获取每个iSCSI服务端发送的连接状态信息之后,还包括:
当检测到存在停止iSCSI服务的目标iSCSI服务端,维持与所述目标iSCSI服务端之间的心跳;
当检测到所述目标iSCSI服务端的目标器异常,删除所述目标iSCSI服务端对应的连接状态信息。
可选的,目标iSCSI服务端异常退出,各iSCSI客户端断开与所述目标iSCSI服务端相连的所有TCP连接,以使所述目标iSCSI服务端恢复正常,所述获取每个iSCSI服务端发送的连接状态信息之后,还包括:
当接收到所述目标iSCSI服务端的状态信息获取请求,反馈所述目标iSCSI服务端对应的连接状态信息;
若检测到第一iSCSI客户端的启动器与所述目标iSCSI服务端的目标器不再连接,从所述连接状态信息中删除所述第一iSCSI客户端与所述目标iSCSI服务端的连接状态数据。
可选的,所述通过分析所述连接状态信息确定是否存在故障设备之后,还包括:
预先设置iSCSI客户端与iSCSI服务端的TCP连接状态为正常连接状态、超时连接状态或正常退出连接状态;
若存在所述故障设备,则生成故障告警信息;所述故障设备的故障原因为其TCP连接状态为所述超时连接状态;
当检测到所述故障设备的TCP连接状态由所述超时连接状态变化为所述正常连接状态,则撤回所述故障告警信息。
可选的,所述定位所述故障设备之后,还包括:
将携带有故障设备的IP地址的故障告警信息显示在用户可视化页面中。
本发明实施例另一方面提供了一种故障定位装置,应用于基于iSCSI协议且采用CS模式的分布式存储集群系统的资源监控平台,所述分布式存储集群系统的各主机作为iSCSI客户端,各存储节点作为iSCSI服务端,所述iSCSI客户端的启动器和所述iSCSI服务端的目标器通过TCP连接通信;包括:
信息获取模块,用于获取每个iSCSI服务端发送的连接状态信息;所述连接状态信息为当前iSCSI服务端与其目标器相连的各iSCSI客户端之间的TCP连接状态;
故障检测模块,用于通过分析所述连接状态信息确定是否存在故障设备;
故障定位模块,用于若存在所述故障设备,则定位所述故障设备。
本发明实施例还提供了一种电子设备,包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如前任一项所述故障定位方法的步骤。
本发明实施例最后还提供了一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前任一项所述故障定位方法的步骤。
本申请提供的技术方案的优点在于,通过iSCSI服务监控iSCSI客户端发出的TCP连接并将其上报给分布式存储集群系统的资源监控平台,资源监控平台通过分析iSCSI服务端与iSCSI客户端之间的TCP连接状态的变化来识别是否存在有故障的iSCSI客户端,能够及时上报异常的iSCSI客户端,从而可高效、精准定位分布式存储集群中的故障主机客户端,帮助技术人员定位故障发生的大概位置,进而让客户能够及时介入处理,降低分布式存储集群系统的主机故障维护难度,有利于提升整个分布式存储集群的可靠性和稳定性。
此外,本发明实施例还针对故障定位方法提供了相应的实现装置、电子设备及可读存储介质,进一步使得所述方法更具有实用性,所述装置、电子设备及可读存储介质具有相应的优点。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
为了更清楚的说明本发明实施例或相关技术的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种故障定位方法的流程示意图;
图2为本发明实施例提供的一个示例性应用场景中的分布式存储集群系统的拓扑结构示意图;
图3为本发明实施例提供的另一种故障定位方法的流程示意图;
图4为本发明实施例提供的故障定位装置的一种具体实施方式结构图;
图5为本发明实施例提供的电子设备的一种具体实施方式结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
在介绍了本发明实施例的技术方案后,下面详细的说明本申请的各种非限制性实施方式。
首先参见图1,图1为本发明实施例提供的一种故障定位方法的流程示意图,本实施例应用于基于iSCSI协议且采用CS模式的分布式存储集群系统如ceph存储集群的资源监控平台,也即本实施例的执行主语为资源监控平台,资源监控平台例如可为作为通用目的地资源监视系统的MON,可预先将MON服务部署在分布式存储集群系统。通过MON能够监控几乎所有的已知服务,像http服务、telnet服务、邮件服务等等,甚至能够监视文件的变化,除此之外,MON提供强大的告警机制,也就是在监视到具体的服务失效或者生效时,MON服务支持异步事件的通信机制。本实施例的分布式存储集群系统的各主机可作为iSCSI客户端,各存储节点可作为iSCSI服务端,iSCSI客户端的启动器和iSCSI服务端的目标器通过TCP连接通信。如图2所示,Host代表主机客户端,其中运行iSCSI客户端应用程序open-iscsi,tgtd代表分布式存储集群系统中的存储节点,其中运行着iSCSI服务端应用tgt,MON表示ceph分布式存储中的mon服务。iSCSI客户端中的initiator对象与iSCSI服务端中的target对象通过TCP连接进行消息的传递,initiator与target是多对多的关系。本发明实施例可包括以下内容:
S101:获取每个iSCSI服务端发送的连接状态信息。
在本实施例中,iSCSI服务端可通过心跳机制诸如nop心跳方法监控iSCSI客户端应用进程的状态,如果iSCSI客户端initiator与iSCSI服务端的target之间的TCP连接出现异常,则断开TCP连接。资源监控平台如MON也可通过心跳监控iSCSI服务是否正常,资源监控平台的监控功能多对1的关系,即一个资源监控平台可监控多个iSCSI服务。iSCSI服务端通过nop心跳机制监控initiator与target之间的TCP连接,将监控的TCP连接信息上报给资源监控平台,并删除异常的TCP连接,相应的,资源管理平台所获取的连接状态信息即为当前iSCSI服务端与其目标器相连的各iSCSI客户端之间的TCP连接状态;也就是说,资源管理平台中存储每个iSCSI服务端上报的其所监控的iSCSI客户端的TCP连接状态。
S102:通过分析连接状态信息确定是否存在故障设备。
资源管理平台在获取每个iSCSI客户端的TCP连接状态之后,通过分析各iSCSI客户端的TCP连接状态便可判断该iSCSI客户端是否处于正常工作状态,也即是否发生故障。
S103:若存在故障设备,则定位故障设备。
可以理解的是,资源管理平台记录连接状态信息时必然会记录相应的iSCSI客户端信息,如IP地址,在S102判断存在处于非正常工作状态的iSCSI客户端之后,基于该iSCSI客户端的信息便可定位故障的主机设备。
在本发明实施例提供的技术方案中,通过iSCSI服务监控iSCSI客户端发出的TCP连接并将其上报给分布式存储集群系统的资源监控平台,资源监控平台通过分析iSCSI服务端与iSCSI客户端之间的TCP连接状态的变化来识别是否存在有故障的iSCSI客户端,能够及时上报异常的iSCSI客户端,从而可高效、精准定位分布式存储集群中的故障主机客户端,帮助技术人员定位故障发生的大概位置,进而让客户能够及时介入处理,降低分布式存储集群系统的主机故障维护难度,有利于提升整个分布式存储集群的可靠性和稳定性。
需要说明的是,本申请中各步骤间没有严格的先后执行顺序,只要符合逻辑上的顺序,则这些步骤可以同时执行,也可按照某种预设顺序执行,图1只是一种示意方式,并不代表只能是这样的执行顺序。
为了便于维护连接状态信息,提高iSCSI服务端监控iSCSI客户端的效率,iSCSI服务端可将TCP连接状态分为3个状态NORMAL、TIMEOUT和LOGOUT,其中NORMAL表示正常的TCP连接,TIMEOUT表示nop心跳超时的异常TCP连接,LOGOUT表示正常退出的TCP连接。iSCSI服务端可以客户端IP和target的IQN(iSCSI Qualified Name,iSCSI合格名称)为单位建立TCP连接状态链表,并以initiator对象为单位将该iSCSI客户端的TCP连接整理为一个状态表,并存储在iSCSI服务端内存中,如表1所示。
表1iSCSI服务端的状态表
HOST_IP_IQN | STATE |
100.7.44.102_IQN | NORMAL |
100.7.44.109_IQN | TIMEOUT |
100.7.44.110_IQN | LOGOUT |
其中,HOST_IP_IQN由iSCSI客户端主机IP和initiator的IQN组合而成,具有唯一性,目前在每个iSCSI客户端只有一个initiator对象。STATE由同一个initiator发出的TCP连接聚合而成的状态:NORMAL表示initiator到iSCSI服务的至少有1个TCP连接是正常的,TIMEOUT表示initiator到iSCSI服务的所有TCP连接全部nop心跳异常,LOGOUT表示initiator到iSCSI服务的所有TCP连接都正常退出。iSCSI服务端可开启一个线程,定时检测TCP连接状态链表,若链表中的TCP连接状态发生变化,则更新表1中的状态,并实时上报资源管理平台MON。
为了更好的维护平台的连接信息,在通过iSCSI服务利用nop心跳监控iSCSI客户端发出的TCP连接,然后以iSCSI客户端的IP为单位将所有TCP连接整理为3种不同的状态上报分布式存储集群系统的资源管理管理平台之后,可将状态信息整理为状态信息表,以便定时根据状态的变化进行异常告警与消除工作,如图3所示,可包括:
获取每个iSCSI客户端的唯一标识信息和各iSCSI服务端的地址信息;在本实施例中,唯一标识信息可为表2或表1中的HOST_IP_IQN,也即由iSCSI客户端主机IP和initiator的IQN组合生成唯一标识信息。基于各iSCSI客户端的唯一标识信息、每个iSCSI客户端对应相连的iSCSI服务端的地址信息以及TCP连接状态生成状态信息表,并将状态信息表以表的形式存储至本地,状态信息表可如表2所示:
表2资源管理平台中的状态信息表
在表2中,HOST_IP_IQN由iSCSI客户端IP和initiator的IQN组合而成,具有唯一性,TGT_IP表示iSCSI服务端的IP,STATE由iSCSI服务端上报的状态生成。表2中斜体状态LOGOUT表示在MON服务状态表中会被删除的状态。
在基于上述信息状态表和TCP连接状态的基础上,通过分析连接状态信息确定是否存在故障设备的过程可为:按照预设故障检测频率,判断状态信息表中是否存在与所有iSCSI服务端的TCP连接状态均为异常状态的目标iSCSI客户端;若是,则确定目标iSCSI客户端为故障设备。预设故障频率可根据实际应用场景进行灵活确定,这均不影响本申请的实现。
不可避免的,在分布式存储集群系统中,iSCSI服务端会停止服务或者是异常退出,为了解决这些异常状态,基于上述实施例,本实施例还针对iSCSI服务端停止服务和iSCSI服务端异常退出这两种异常现象提供了相应的实施例,可包括下述内容:
当检测到存在停止iSCSI服务的目标iSCSI服务端,维持与目标iSCSI服务端之间的心跳;当检测到目标iSCSI服务端的目标器异常,删除目标iSCSI服务端对应的连接状态信息。
在本实施例中,若iSCSI服务端停止服务,资源管理平台如MON服务与iSCSI服务端之间维持心跳,当MON检测到tgt异常时,MON定时删除TGT_IP对应记录。
当目标iSCSI服务端异常退出,各iSCSI客户端断开与目标iSCSI服务端相连的所有TCP连接,以使目标iSCSI服务端恢复正常。当接收到目标iSCSI服务端的状态信息获取请求,反馈目标iSCSI服务端对应的连接状态信息;若检测到第一iSCSI客户端的启动器与目标iSCSI服务端的目标器不再连接,从连接状态信息中删除第一iSCSI客户端与目标iSCSI服务端的连接状态数据。
在本实施例中,iSCSI服务端异常退出时,iSCSI客户端断开与iSCSI服务端之间的所有TCP连接,然后iSCSI服务端恢复正常。iSCSI服务端从MON服务,获取该iSCSI服务端IP对应的状态信息,并存储在iSCSI服务端,如果iSCSI客户端的initiator对象不再连接该iSCSI服务端的target对象,iSCSI服务端将其维护的状态表删除,MON也会iSCSI服务IP对应的状态信息清除。
可以理解的是,故障设备可能会由于某些原因自己修复故障,修复好的设备便不为故障设备,为了进一步提升故障监控的精准性,基于上述实施例,还可包括:
预先设置iSCSI客户端与iSCSI服务端的TCP连接状态为正常连接状态、超时连接状态或正常退出连接状态;
若存在故障设备,则生成故障告警信息;故障设备的故障原因为其TCP连接状态为超时连接状态;
当检测到故障设备的TCP连接状态由超时连接状态变化为正常连接状态,则撤回故障告警信息。
为了进一步提升用户使用体验,提升分布式存储集群的稳定性,还可将携带有故障设备的IP地址的故障告警信息显示在用户可视化页面中。
在本实施例中,用户可视化页面可为分布式存储集群系统的管理软件界面,在该界面上可显示异常的主机。举例来说,MON服务定时扫描表2中的状态,如果某个HOST_IP_IQN对应的状态都是TIMEOUT,则上报告警信息给管理软件服务,管理软件服务将告警显示到浏览器中;如果某个HOST_IP_IQN对应的状态从TIMEOUT变为NORMAL,且上报过异常告警,则消除告警。
本发明实施例还针对故障定位方法提供了相应的装置,进一步使得方法更具有实用性。其中,装置可从功能模块的角度和硬件的角度分别说明。下面对本发明实施例提供的故障定位装置进行介绍,下文描述的故障定位装置与上文描述的故障定位方法可相互对应参照。
基于功能模块的角度,参见图4,图4为本发明实施例提供的故障定位装置在一种具体实施方式下的结构图,该装置应用于基于iSCSI协议且采用CS模式的分布式存储集群系统的资源监控平台,分布式存储集群系统的各主机作为iSCSI客户端,各存储节点作为iSCSI服务端,iSCSI客户端的启动器和iSCSI服务端的目标器通过TCP连接通信;该装置可包括:
信息获取模块401,用于获取每个iSCSI服务端发送的连接状态信息;连接状态信息为当前iSCSI服务端与其目标器相连的各iSCSI客户端之间的TCP连接状态。
故障检测模块402,用于通过分析连接状态信息确定是否存在故障设备。
故障定位模块403,用于若存在故障设备,则定位故障设备。
可选的,在本实施例的一些实施方式中,上述装置还可以表构建模块,用于获取每个iSCSI客户端的唯一标识信息和各iSCSI服务端的地址信息;基于各iSCSI客户端的唯一标识信息、每个iSCSI客户端对应相连的iSCSI服务端的地址信息以及TCP连接状态生成状态信息表。
作为本实施例的一种可选的实施方式,上述故障检测模块402为按照预设故障检测频率,判断状态信息表中是否存在与所有iSCSI服务端的TCP连接状态均为异常状态的目标iSCSI客户端。
作为本实施例的另外一种可选的实施方式,上述装置还可包括异常处理模块,用于当检测到存在停止iSCSI服务的目标iSCSI服务端,维持与目标iSCSI服务端之间的心跳;当检测到目标iSCSI服务端的目标器异常,删除目标iSCSI服务端对应的连接状态信息。
作为本实施例的其他一些可选的实施方式,上述异常处理模块还用于:目标iSCSI服务端异常退出,各iSCSI客户端断开与目标iSCSI服务端相连的所有TCP连接,以使目标iSCSI服务端恢复正常;当接收到目标iSCSI服务端的状态信息获取请求,反馈目标iSCSI服务端对应的连接状态信息;若检测到第一iSCSI客户端的启动器与目标iSCSI服务端的目标器不再连接,从连接状态信息中删除第一iSCSI客户端与目标iSCSI服务端的连接状态数据。
可选的,在本实施例的另一些实施方式中,上述装置例如还可包括告警模块,该告警模块可用于:预先设置iSCSI客户端与iSCSI服务端的TCP连接状态为正常连接状态、超时连接状态或正常退出连接状态;若存在故障设备,则生成故障告警信息;故障设备的故障原因为其TCP连接状态为超时连接状态;当检测到故障设备的TCP连接状态由超时连接状态变化为正常连接状态,则撤回故障告警信息。
作为上述实施例的一种可选的实施方式,上述装置例如还可包括告警信息显示模块,用于将携带有故障设备的IP地址的故障告警信息显示在用户可视化页面中。
本发明实施例故障定位装置的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例可高效、精准定位分布式存储集群中的故障主机客户端,有利于提升整个分布式存储集群的可靠性和稳定性。
上文中提到的故障定位装置是从功能模块的角度描述,进一步的,本申请还提供一种电子设备,是从硬件角度描述。图5为本申请实施例提供的电子设备在一种实施方式下的结构示意图。如图5所示,该电子设备包括存储器50,用于存储计算机程序;处理器51,用于执行计算机程序时实现如上述任一实施例提到的故障定位方法的步骤。
其中,处理器51可以包括一个或多个处理核心,比如4核心处理器、8核心处理器,处理器51还可为控制器、微控制器、微处理器或其他数据处理芯片等。处理器51可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable GateArray,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器51也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central Processing Unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器51可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器51还可以包括AI(ArtificialIntelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器50可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器50还可包括高速随机存取存储器以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。存储器50在一些实施例中可以是电子设备的内部存储单元,例如服务器的硬盘。存储器50在另一些实施例中也可以是电子设备的外部存储设备,例如服务器上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器50还可以既包括电子设备的内部存储单元也包括外部存储设备。存储器50不仅可以用于存储安装于电子设备的应用软件及各类数据,例如:执行漏洞处理方法的程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。本实施例中,存储器50至少用于存储以下计算机程序501,其中,该计算机程序被处理器51加载并执行之后,能够实现前述任一实施例公开的故障定位方法的相关步骤。另外,存储器50所存储的资源还可以包括操作系统502和数据503等,存储方式可以是短暂存储或者永久存储。其中,操作系统502可以包括Windows、Unix、Linux等。数据503可以包括但不限于故障定位结果对应的数据等。
在一些实施例中,上述电子设备还可包括有显示屏52、输入输出接口53、通信接口54或者称为网络接口、电源55以及通信总线56。其中,显示屏52、输入输出接口53比如键盘(Keyboard)属于用户接口,可选的用户接口还可以包括标准的有线接口、无线接口等。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。通信接口54可选的可以包括有线接口和/或无线接口,如WI-FI接口、蓝牙接口等,通常用于在电子设备与其他电子设备之间建立通信连接。通信总线56可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extendedindustry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
本领域技术人员可以理解,图5中示出的结构并不构成对该电子设备的限定,可以包括比图示更多或更少的组件,例如还可包括实现各类功能的传感器57。
本发明实施例所述电子设备的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例可高效、精准定位分布式存储集群中的故障主机客户端,有利于提升整个分布式存储集群的可靠性和稳定性。
可以理解的是,如果上述实施例中的故障定位方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电可擦除可编程ROM、寄存器、硬盘、多媒体卡、卡型存储器(例如SD或DX存储器等)、磁性存储器、可移动磁盘、CD-ROM、磁碟或者光盘等各种可以存储程序代码的介质。
基于此,本发明实施例还提供了一种可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时如上任意一实施例所述故障定位方法的步骤。
本发明实施例所述可读存储介质的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的硬件包括装置及电子设备而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
以上对本申请所提供的一种故障定位方法、装置、电子设备及可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
Claims (10)
1.一种故障定位方法,其特征在于,应用于基于iSCSI协议且采用CS模式的分布式存储集群系统的资源监控平台,所述分布式存储集群系统的各主机作为iSCSI客户端,各存储节点作为iSCSI服务端,所述iSCSI客户端的启动器和所述iSCSI服务端的目标器通过TCP连接通信;包括:
获取每个iSCSI服务端发送的连接状态信息;所述连接状态信息为当前iSCSI服务端与其目标器相连的各iSCSI客户端的TCP连接状态;
通过分析所述连接状态信息确定是否存在故障设备;
若存在所述故障设备,则定位所述故障设备。
2.根据权利要求1所述的故障定位方法,其特征在于,所述获取每个iSCSI服务端发送的连接状态信息之后,还包括:
获取每个iSCSI客户端的唯一标识信息和各iSCSI服务端的地址信息;
基于各iSCSI客户端的唯一标识信息、每个iSCSI客户端对应相连的iSCSI服务端的地址信息以及TCP连接状态生成状态信息表。
3.根据权利要求2所述的故障定位方法,其特征在于,所述通过分析所述连接状态信息确定是否存在故障设备,包括:
按照预设故障检测频率,判断所述状态信息表中是否存在与所有iSCSI服务端的TCP连接状态均为异常状态的目标iSCSI客户端;
若是,则确定所述目标iSCSI客户端为故障设备。
4.根据权利要求1所述的故障定位方法,其特征在于,所述获取每个iSCSI服务端发送的连接状态信息之后,还包括:
当检测到存在停止iSCSI服务的目标iSCSI服务端,维持与所述目标iSCSI服务端之间的心跳;
当检测到所述目标iSCSI服务端的目标器异常,删除所述目标iSCSI服务端对应的连接状态信息。
5.根据权利要求1所述的故障定位方法,其特征在于,目标iSCSI服务端异常退出,各iSCSI客户端断开与所述目标iSCSI服务端相连的所有TCP连接,以使所述目标iSCSI服务端恢复正常,所述获取每个iSCSI服务端发送的连接状态信息之后,还包括:
当接收到所述目标iSCSI服务端的状态信息获取请求,反馈所述目标iSCSI服务端对应的连接状态信息;
若检测到第一iSCSI客户端的启动器与所述目标iSCSI服务端的目标器不再连接,从所述连接状态信息中删除所述第一iSCSI客户端与所述目标iSCSI服务端的连接状态数据。
6.根据权利要求1至5任意一项所述的故障定位方法,其特征在于,所述通过分析所述连接状态信息确定是否存在故障设备之后,还包括:
预先设置iSCSI客户端与iSCSI服务端的TCP连接状态为正常连接状态、超时连接状态或正常退出连接状态;
若存在所述故障设备,则生成故障告警信息;所述故障设备的故障原因为其TCP连接状态为所述超时连接状态;
当检测到所述故障设备的TCP连接状态由所述超时连接状态变化为所述正常连接状态,则撤回所述故障告警信息。
7.根据权利要求6所述的故障定位方法,其特征在于,所述定位所述故障设备之后,还包括:
将携带有故障设备的IP地址的故障告警信息显示在用户可视化页面中。
8.一种故障定位装置,其特征在于,应用于基于iSCSI协议且采用CS模式的分布式存储集群系统的资源监控平台,所述分布式存储集群系统的各主机作为iSCSI客户端,各存储节点作为iSCSI服务端,所述iSCSI客户端的启动器和所述iSCSI服务端的目标器通过TCP连接通信;包括:
信息获取模块,用于获取每个iSCSI服务端发送的连接状态信息;所述连接状态信息为当前iSCSI服务端与其目标器相连的各iSCSI客户端的TCP连接状态;
故障检测模块,用于通过分析所述连接状态信息确定是否存在故障设备;
故障定位模块,用于若存在所述故障设备,则定位所述故障设备。
9.一种电子设备,其特征在于,包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至7任一项所述故障定位方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述故障定位方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111226362.9A CN114024834A (zh) | 2021-10-21 | 2021-10-21 | 故障定位方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111226362.9A CN114024834A (zh) | 2021-10-21 | 2021-10-21 | 故障定位方法、装置、电子设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114024834A true CN114024834A (zh) | 2022-02-08 |
Family
ID=80057061
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111226362.9A Pending CN114024834A (zh) | 2021-10-21 | 2021-10-21 | 故障定位方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114024834A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115190044A (zh) * | 2022-06-28 | 2022-10-14 | 平安银行股份有限公司 | 设备连接状态检查方法、装置、设备和存储介质 |
CN115277547A (zh) * | 2022-07-29 | 2022-11-01 | 济南浪潮数据技术有限公司 | 一种路径调整方法、装置、设备及介质 |
CN115865734A (zh) * | 2022-12-02 | 2023-03-28 | 上海浦东发展银行股份有限公司 | 一种故障检测方法、数据生成方法、装置、设备及介质 |
CN116708528A (zh) * | 2023-08-02 | 2023-09-05 | 成都卓拙科技有限公司 | 节点间tcp长连接的监控方法及装置 |
CN117806857A (zh) * | 2023-07-28 | 2024-04-02 | 苏州浪潮智能科技有限公司 | 故障定位信息生成方法、装置、电子设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101951327A (zh) * | 2010-07-02 | 2011-01-19 | 中兴通讯股份有限公司 | 一种iSCSI网络系统以及检测网络故障的方法 |
CN107360045A (zh) * | 2017-08-31 | 2017-11-17 | 郑州云海信息技术有限公司 | 一种存储集群系统的监控方法及装置 |
CN108959024A (zh) * | 2018-06-26 | 2018-12-07 | 郑州云海信息技术有限公司 | 一种集群监控方法和装置 |
CN109787816A (zh) * | 2018-12-28 | 2019-05-21 | 北京奇安信科技有限公司 | 业务故障定位方法、装置、设备及介质 |
CN110932894A (zh) * | 2019-11-22 | 2020-03-27 | 北京金山云网络技术有限公司 | 云存储系统的网络故障定位方法、装置及电子设备 |
CN112306380A (zh) * | 2019-08-01 | 2021-02-02 | 中移(苏州)软件技术有限公司 | 一种存储管理方法、装置以及计算机存储介质 |
CN113489784A (zh) * | 2021-07-05 | 2021-10-08 | 深圳市杉岩数据技术有限公司 | 分布式存储的非对称逻辑单元访问多路径实现方法及系统 |
-
2021
- 2021-10-21 CN CN202111226362.9A patent/CN114024834A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101951327A (zh) * | 2010-07-02 | 2011-01-19 | 中兴通讯股份有限公司 | 一种iSCSI网络系统以及检测网络故障的方法 |
CN107360045A (zh) * | 2017-08-31 | 2017-11-17 | 郑州云海信息技术有限公司 | 一种存储集群系统的监控方法及装置 |
CN108959024A (zh) * | 2018-06-26 | 2018-12-07 | 郑州云海信息技术有限公司 | 一种集群监控方法和装置 |
CN109787816A (zh) * | 2018-12-28 | 2019-05-21 | 北京奇安信科技有限公司 | 业务故障定位方法、装置、设备及介质 |
CN112306380A (zh) * | 2019-08-01 | 2021-02-02 | 中移(苏州)软件技术有限公司 | 一种存储管理方法、装置以及计算机存储介质 |
CN110932894A (zh) * | 2019-11-22 | 2020-03-27 | 北京金山云网络技术有限公司 | 云存储系统的网络故障定位方法、装置及电子设备 |
CN113489784A (zh) * | 2021-07-05 | 2021-10-08 | 深圳市杉岩数据技术有限公司 | 分布式存储的非对称逻辑单元访问多路径实现方法及系统 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115190044A (zh) * | 2022-06-28 | 2022-10-14 | 平安银行股份有限公司 | 设备连接状态检查方法、装置、设备和存储介质 |
CN115190044B (zh) * | 2022-06-28 | 2023-08-08 | 平安银行股份有限公司 | 设备连接状态检查方法、装置、设备和存储介质 |
CN115277547A (zh) * | 2022-07-29 | 2022-11-01 | 济南浪潮数据技术有限公司 | 一种路径调整方法、装置、设备及介质 |
CN115865734A (zh) * | 2022-12-02 | 2023-03-28 | 上海浦东发展银行股份有限公司 | 一种故障检测方法、数据生成方法、装置、设备及介质 |
CN115865734B (zh) * | 2022-12-02 | 2024-06-07 | 上海浦东发展银行股份有限公司 | 一种故障检测方法、数据生成方法、装置、设备及介质 |
CN117806857A (zh) * | 2023-07-28 | 2024-04-02 | 苏州浪潮智能科技有限公司 | 故障定位信息生成方法、装置、电子设备及存储介质 |
CN117806857B (zh) * | 2023-07-28 | 2024-05-14 | 苏州浪潮智能科技有限公司 | 故障定位信息生成方法、装置、电子设备及存储介质 |
CN116708528A (zh) * | 2023-08-02 | 2023-09-05 | 成都卓拙科技有限公司 | 节点间tcp长连接的监控方法及装置 |
CN116708528B (zh) * | 2023-08-02 | 2023-10-03 | 成都卓拙科技有限公司 | 节点间tcp长连接的监控方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114024834A (zh) | 故障定位方法、装置、电子设备及可读存储介质 | |
CN102937930B (zh) | 应用程序监控系统及方法 | |
US8200800B2 (en) | Remotely administering a server | |
CN113127299A (zh) | 服务器运维方法、装置、系统及计算机可读存储介质 | |
CN105162632A (zh) | 一种服务器集群故障自动处理系统 | |
CN112380089A (zh) | 一种数据中心监控预警方法及系统 | |
CN117608825A (zh) | 基于多云管理平台的资源管理方法和相关设备 | |
CN106776243A (zh) | 一种针对监控软件的监控方法及装置 | |
CN112651367A (zh) | 一种多维度航显屏智能监控的方法 | |
CN106385343B (zh) | 一种分布式系统下监控客户端的方法及装置、分布式系统 | |
CN112463501A (zh) | 一种异常掉电的故障快速定位方法、设备及存储介质 | |
CN111082998A (zh) | 一种运维监控校园汇聚层的架构系统 | |
CN112202613B (zh) | 光缆故障处理方法、装置、设备及计算机可读存储介质 | |
CN113032218B (zh) | 一种服务器故障检测方法、系统及计算机可读存储介质 | |
CN104461847B (zh) | 数据处理程序检测方法及装置 | |
CN103731315A (zh) | 一种服务器故障检测方法 | |
CN109728957B (zh) | 一种交互式运维的方法及装置 | |
CN112114993A (zh) | 一种应用系统的配置信息处理方法及装置 | |
CN115190046B (zh) | 一种服务器集群的检测方法、检测装置及计算设备 | |
CN115190045A (zh) | 快递柜系统服务的监控方法、装置、电子设备及存储介质 | |
CN114218001A (zh) | 故障修复方法、装置、电子设备及可读存储介质 | |
CN105550094B (zh) | 一种高可用系统状态自动监控方法 | |
CN112631866A (zh) | 服务器硬件状态监控方法、装置、电子设备及介质 | |
CN111274089B (zh) | 一种基于旁路技术的服务器异常行为感知系统 | |
CN115934453A (zh) | 一种故障排查方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |