CN117573405A - 多路径异常处理方法、装置、计算机设备及存储介质 - Google Patents

多路径异常处理方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN117573405A
CN117573405A CN202311549290.0A CN202311549290A CN117573405A CN 117573405 A CN117573405 A CN 117573405A CN 202311549290 A CN202311549290 A CN 202311549290A CN 117573405 A CN117573405 A CN 117573405A
Authority
CN
China
Prior art keywords
path
host
detection result
multipath
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311549290.0A
Other languages
English (en)
Inventor
路小敏
滕以金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Jinan data Technology Co ltd
Original Assignee
Inspur Jinan data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Jinan data Technology Co ltd filed Critical Inspur Jinan data Technology Co ltd
Priority to CN202311549290.0A priority Critical patent/CN117573405A/zh
Publication of CN117573405A publication Critical patent/CN117573405A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及计算机技术领域,公开了一种多路径异常处理方法、装置、计算机设备及存储介质。多路径异常处理方法包括:获取主机对应的多路径的路径检测周期;在所述主机运行过程中,基于所述路径检测周期,对主机对应的多路径进行检测,得到目标检测结果;对于所述目标检测结果中存在故障的路径进行路径修复,得到修复结果;若所述修复结果表征路径修复失败,生成告警信息和/或事件信息;将所述告警信息和/或所述事件信息推送至目标对象。根据本发明实施例的方案,能够提高业务处理的可靠性。

Description

多路径异常处理方法、装置、计算机设备及存储介质
技术领域
本发明涉及计算机技术领域,具体涉及多路径异常处理方法、装置、计算机设备及存储介质。
背景技术
OpenStack是一个基础设施及服务(IaaS)的云计算平台,通过将整个数据中心里的资源池化来提供计算、网络、存储等基础服务。
相关技术中,OpenStack对接集中式存储采用的是配置多路径方式,然而,部署完成后路径可能会出现异常,或者在业务使用过程中也可能会出现多路径异常的情况,对此,客户并不会感知到路径异常,因而,异常路径会被忽视而未被处理,导致业务处理的可靠性下降。
发明内容
有鉴于此,本发明提供了一种多路径异常处理方法、装置、计算机设备及存储介质,能够提高业务处理的可靠性。
第一方面,本发明提供了一种多路径异常处理方法,所述方法包括:
获取主机对应的多路径的路径检测周期;
在所述主机运行过程中,基于所述路径检测周期,对主机对应的多路径进行检测,得到目标检测结果;
对于所述目标检测结果中存在故障的路径进行路径修复,得到修复结果;
若所述修复结果表征路径修复失败,生成告警信息和/或事件信息;
将所述告警信息和/或所述事件信息推送至目标对象。
本发明实施例提供的多路径异常处理方法,通过获取主机对应的多路径的路径检测周期,能够在所述主机运行过程中,基于所述路径检测周期,对主机对应的多路径进行检测,得到目标检测结果,对于所述目标检测结果中存在故障的路径进行路径修复,得到修复结果,能够及时地对故障的路径进行修复,减少了业务中断或者业务数据丢失;若所述修复结果表征路径修复失败,生成告警信息和/或事件信息,将所述告警信息和/或所述事件信息推送至目标对象,以此保证异常路径修复成功,从而提高业务处理的可靠性。
在一些可选的实施方式中,所述对主机对应的多路径进行检测,得到目标检测结果,包括:
对所述主机与存储设备之间的路径进行检测,得到第一检测结果;
若所述第一检测结果表征所述主机与存储设备之间的路径断开,将所述第一检测结果作为所述目标检测结果。
本发明实施例提供的多路径异常处理方法,通过对主机与存储设备之间的路径进行检测,得到第一检测结果,若第一检测结果表征主机与存储设备之间的路径断开,将第一检测结果作为目标检测结果,以便于后续步骤中基于目标检测结果对主机与存储设备之间的断开的路径进行修复。
在一些可选的实施方式中,所述对主机对应的多路径进行检测,得到目标检测结果,还包括:
若所述第一检测结果表征所述主机与存储设备之间的路径正常,对所述主机与所述存储设备对应的磁盘之间的路径进行路径聚合的检测,得到第二检测结果;
若所述第二检测结果表征所述主机与所述存储设备对应的磁盘之间的路径聚合正常,对所述主机与所述存储设备对应的磁盘之间的多路径中的子路径进行检测,得到第三检测结果;
若所述第三检测结果表征所述主机与所述存储设备对应的磁盘之间的多路径中的子路径中断,将所述第三检测结果作为所述目标检测结果;
所述对于所述目标检测结果中存在故障的路径进行路径修复,得到修复结果,包括:
若所述目标检测结果表征所述主机与所述存储设备对应的磁盘之间的多路径中的子路径中断,对所述中断的子路径进行修复,得到修复结果;
所述若所述修复结果表征路径修复失败,生成告警信息,包括:
若所述修复结果表征所述中断的子路径修复失败,确定所述主机对应的使用所述中断的子路径的目标云主机,以得到所述目标云主机的云主机信息和所述主机的主机信息;
根据所述目标云主机和所述主机信息,生成告警信息。
本发明实施例提供的多路径异常处理方法,能够避免出现当前存在云主机使用子路径,且该子路径异常时候云主机对应的业务任务中断的情况,保障云主机在部分路径异常时候仍然可以正常使用,提高了业务处理的可靠性。
在一些可选的实施方式中,所述对主机对应的多路径进行检测,得到目标检测结果,还包括:
若所述第二检测结果表征所述主机与所述存储设备对应的磁盘之间的路径聚合异常,将所述第二检测结果作为所述目标检测结果。
在一些可选的实施方式中,所述对主机对应的多路径进行检测,得到目标检测结果,包括:
获取所述主机对应的云主机的路径信息;
基于所述路径信息,对所述主机对应的云主机的使用路径进行检测,得到目标检测结果。
在一些可选的实施方式中,所述基于所述路径检测周期,对主机对应的多路径进行检测,得到目标检测结果,包括:
若所述目标检测结果表征路径检测正常,且路径连续检测正常的次数大于或者等于第一预设次数,延长所述路径检测周期,基于所述延长后的路径检测周期,对主机对应的多路径进行检测,得到目标检测结果;
或者,
若所述修复结果表征路径修复成功,保持所述路径检测周期不变,基于所述路径检测周期,对主机对应的多路径进行检测,得到目标检测结果;
或者,
若所述修复结果表征路径修复失败,缩短所述路径检测周期,基于所述缩短后的路径检测周期,对主机对应的多路径进行检测,得到目标检测结果。
本发明实施例提供的多路径异常处理方法,基于修复结果能够对路径检测周期进行动态调整,以保障既不错失故障异常以及故障的正常修复,又能节省系统开销,解决了相关技术中的持续巡检而导致系统开销大的问题。
在一些可选的实施方式中,所述告警信息包括第一级别告警信息、第二级别告警信息和第三级别告警信息,所述事件信息包括第一级别事件信息、第二级别事件信息和第三级别事件信息,缩短后的路径检测周期的计算方式如下:
其中,T1为缩短后的路径检测周期,n1为第一级别事件信息的个数,n2为第二级别事件信息的个数,n3为第三级别事件信息的个数,a1为第一级别告警信息的个数,a2为第二级别告警信息的个数,a3为第三级别告警信息的个数,t为路径检测周期。
在一些可选的实施方式中,延长后的所述路径检测周期,包括:
T2=1.1n-3t(n>3)
其中,T2为延长后的路径检测周期,n为路径连续检测正常的次数,t为路径检测周期。
第二方面,本发明提供了一种多路径异常处理装置,包括:
获取模块,用于获取主机对应的多路径的路径检测周期;
检测模块,用于在所述主机运行过程中,基于所述路径检测周期,对主机对应的多路径进行检测,得到目标检测结果;
修复模块,用于对于所述目标检测结果中存在故障的路径进行路径修复,得到修复结果;
信息生成模块,用于若所述修复结果表征路径修复失败,生成告警信息和/或事件信息;
推送模块,用于将所述告警信息和/或所述事件信息推送至目标对象。
在一些可选的实施方式中,检测模块具体包括:
第一检测子模块,用于对所述主机与存储设备之间的路径进行检测,得到第一检测结果;
第二目标检测结果确定子模块,用于若所述第一检测结果表征所述主机与存储设备之间的路径断开,将所述第一检测结果作为所述目标检测结果。
在一些可选的实施方式中,检测模块具体还包括:
第二检测子模块,用于若所述第一检测结果表征所述主机与存储设备之间的路径正常,对所述主机与所述存储设备对应的磁盘之间的路径进行路径聚合的检测,得到第二检测结果;
第三检测子模块,用于若所述第二检测结果表征所述主机与所述存储设备对应的磁盘之间的路径聚合正常,对所述主机与所述存储设备对应的磁盘之间的多路径中的子路径进行检测,得到第三检测结果;
第二目标检测结果确定子模块,用于若所述第三检测结果表征所述主机与所述存储设备对应的磁盘之间的多路径中的子路径中断,将所述第三检测结果作为所述目标检测结果;
所述修复模块具体包括:
修复子模块,用于若所述目标检测结果表征所述主机与所述存储设备对应的磁盘之间的多路径中的子路径中断,对所述中断的子路径进行修复,得到修复结果;
信息生成模块具体包括:
目标云主机确定子模块,用于若所述修复结果表征所述中断的子路径修复失败,确定所述主机对应的使用所述中断的子路径的目标云主机,以得到所述目标云主机的云主机信息和所述主机的主机信息;
信息生成子模块,用于根据所述目标云主机和所述主机信息,生成告警信息。
在一些可选的实施方式中,修复模块具体还包括:
第三目标检测结果确定子模块,用于若所述第二检测结果表征所述主机与所述存储设备对应的磁盘之间的路径聚合异常,将所述第二检测结果作为所述目标检测结果。
在一些可选的实施方式中,修复模块具体包括:
获取子模块,用于获取所述主机对应的云主机的路径信息;
第四检测子模块,用于基于所述路径信息,对所述主机对应的云主机的使用路径进行检测,得到目标检测结果。
在一些可选的实施方式中,检测模块具体包括:
第四目标检测结果确定子模块,用于若所述目标检测结果表征路径检测正常,且路径连续检测正常的次数大于或者等于第一预设次数,延长所述路径检测周期,基于所述延长后的路径检测周期,对主机对应的多路径进行检测,得到目标检测结果;或者,若所述修复结果表征路径修复成功,保持所述路径检测周期不变,基于所述路径检测周期,对主机对应的多路径进行检测,得到目标检测结果;或者,若所述修复结果表征路径修复失败,缩短所述路径检测周期,基于所述缩短后的路径检测周期,对主机对应的多路径进行检测,得到目标检测结果。
在一些可选的实施方式中,所述告警信息包括第一级别告警信息、第二级别告警信息和第三级别告警信息,所述事件信息包括第一级别事件信息、第二级别事件信息和第三级别事件信息,缩短后的路径检测周期的计算方式如下:
其中,T1为缩短后的路径检测周期,n1为第一级别事件信息的个数,n2为第二级别事件信息的个数,n3为第三级别事件信息的个数,a1为第一级别告警信息的个数,a2为第二级别告警信息的个数,a3为第三级别告警信息的个数,t为路径检测周期。
在一些可选的实施方式中,延长后的所述路径检测周期,包括:
T2=1.1n-3t(n>3)
其中,T2为延长后的路径检测周期,n为路径连续检测正常的次数,t为路径检测周期。
第三方面,本发明提供了一种计算机设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第一方面或其对应的任一实施方式的多路径异常处理方法。
第四方面,本发明提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的多路径异常处理方法。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种可选的多路径异常处理系统的示意图;
图2是根据本发明实施例的一种多路径异常处理方法的流程图;
图3是本申请实施例提供的一种故障路径对应的告警信息的示意图;
图4是根据本发明实施例的另一种多路径异常处理方法的流程图;
图5是根据本发明实施例的又一种多路径异常处理方法的流程图;
图6是本申请实施例提供的一种多路径异常处理装置的示意图;
图7是本发明实施例提供的一种可选的计算机设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1,图1为本申请实施例提供的一种可选的多路径异常处理系统的示意图,该多路径异常处理系统包括主机101和路径检测装置102,主机101与路径检测装置102通信连接。
示例性地,路径检测装置102可以获取主机101对应的多路径的路径检测周期,在主机101运行过程中,基于路径检测周期,对主机101对应的多路径进行检测,得到目标检测结果,对于目标检测结果中存在故障的路径进行路径修复,得到修复结果,若修复结果表征路径修复失败,生成告警信息和/或事件信息,将告警信息和/或事件信息推送至目标对象,以此保证异常路径修复成功,从而提高业务处理的可靠性。
主机101可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。另外,主机101还可以是区块链网络中的一个节点服务器。
值得注意的是,OpenStack是一个基础设施及服务(IaaS)的云计算平台,通过将整个数据中心里的资源池化来提供计算、网络、存储等基础服务。存储多路径技术是指在主机和存储阵列端使用多条路径连接,使主机到阵列的可见路径大于一条,其间可以跨过多个交换机,避免单点故障,提供更高的可用性和性能优势。一般存储多路径,主要有两方面作用即路径冗余和负载均衡。其中,路径冗余用于提高路径可靠性,防止单路径故障造成的I/O读写失败而影响主机业务应用的问题;而负载均衡则用于提高客户端主机I/O下发量,使其不受单路径的路径带宽限制。
OpenStack对接存储使用多路径技术是当前比较成熟的方法,当前存储故障的情况包含比较多,且状况不一,路径异常方面的检测及故障处理还没有很好的方法,一旦存储异常可能会影响客户业务的正常使用,造成巨大的损失。
OpenStack对接集中式存储采用配置多路径方式,在部署完OpenStack及存储对接、多路径配置时配置多路径连接条数,会将此记录到云主机的绑定表中;部署完成后在计算节点multipathd容器内执行命令multipath-ll命令,检查路径的正常。在业务使用过程中没有实时的监测及处理多路径的变化及异常,随着业务长期使用,受软硬件的影响,可能会存在残留或异常数据影响存储的持续使用。当前云主机使用聚合路径和存储交互,当子路径存在异常时候可以切换其它正常子路径使用。
综上,目前OpenStack对接集中式存储采用配置多路径方式的方案存在以下问题:第一,当主机和存储有路径断开、主机上存在多路径中断、主机上磁盘路径聚合异常时候因为可能暂时不影响使用,客户也无感知而被忽视没有处理,导致影响后面的使用;第二,主机和存储路径正常,但是云主机存储路径异常即云主机实际有的路径和应该有的路径不一样这种异常情况也没有识别及处理机制;第三,不同存储厂家的存储路径wwid标准可能不一样,导致OpenStack程序无法识别出来多路径,就用子路径;当多路径聚合异常或者聚合慢,导致虚拟机使用的是子路径,然后断开的路径是虚拟机使用的路径会导致云主机不能使用。当前缺少对云主机使用路径情况的检测和处理;第四,持续进行巡检对系统的消耗较大。
基于此,本发明实施例提供了一种多路径异常处理方法、装置、计算机设备及存储介质,能够提高业务处理的可靠性。
根据本发明实施例,提供了一种多路径异常处理方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中提供了一种多路径异常处理方法,可用于上述的路径检测装置。图2是根据本发明实施例的多路径异常处理方法的流程图,如图2所示,该流程包括如下步骤:
步骤S201,获取主机对应的多路径的路径检测周期。
其中,路径检测周期用于表征对主机对应的多路径进行周期性检测的时间间隔。该路径检测周期可以是预先设置的,也可以是系统默认的,可以根据情况设置,在此不作具体限制。
主机对应的多路径包括主机和存储设备之间的路径、主机对应的云主机和存储设备之间的多路径、主机和存储设备对应的磁盘之间的路径、主机对应的云主机和存储设备对应的磁盘之间的多路径,等等,在此不再一一列举。其中,主机对应的云主机的数量可以为若干个,比如,1个、2个、4个或者更多。
步骤S202,在主机运行过程中,基于路径检测周期,对主机对应的多路径进行检测,得到目标检测结果。
具体地,在主机运行过程中,根据路径检测周期对主机和存储设备之间的路径、主机对应的云主机和存储设备之间的多路径等主机对应的多路径进行周期性检测。
步骤S203,对于目标检测结果中存在故障的路径进行路径修复,得到修复结果。
目标检测结果用于指示存在故障的路径,因此,在确定目标检测结果后,即可根据目标检测结果对存在故障的路径进行路径修复。在路径修复完成后,还要对该修复完成的路径进行检测,得到修复结果,其中,该修复结果用于表征修复完成的路径是否修复成功。
步骤S204,若修复结果表征路径修复失败,生成告警信息和/或事件信息。
不同的故障路径对应的告警信息等级或者事件信息等级不一样,比如,如图3所示,若是故障路径为主机与存储设备之间的断开的路径,且该故障路径大于该断开的路径对应的总路径的一半,生成第二级别告警信息或第二级别事件信息;或者,若是故障路径为主机与存储设备之间的断开的路径,且该故障路径小于该断开的路径对应的总路径的一半,生成第三级别告警信息或第三级别事件信息;或者,若是云主机使用路径为子路径,则将该子路径作为故障路径,此时,生成第二级别事件信息;或者,若是故障路径为主机与存储设备之间的断开的路径,且该故障路径等于该断开的路径对应的总路径的全部(即主机与存储设备之间的路径全部故障),生成第一级别告警信息和第一级别事件信息。其中,第一级别事件信息为紧急事件信息,第一级别告警信息为紧急告警信息,第二级别事件信息为严重事件信息,第二级别告警信息为严重告警信息,第三级别告警信息为中度告警信息,第三级别事件信息为中度事件信息。
另外,每个路径检测周期均记录告警信息和事件信息的数量和级别,以便于后续调整路径检测周期,并根据调整后的路径检测周期进行路径检测,路径检测周期的调整方式具体参照图4所示的实施例,在此不再赘述。
步骤S205,将告警信息和/或事件信息推送至目标对象。
具体地,可以设置告警信息的告警任务周期,然后根据该告警任务周期将告警信息周期性地推送至目标对象,避免短时间内发送过多冗余信息,影响用户体验。另外,不同级别的紧急告警处理的响应及时效性不同,级别越高的告警信息影响越大,告警任务周期越短,告警任务周期可以根据实际情况设置。
另外,在告警信息等待告警任务周期的同时,会先实时生成一条事件信息,实时推送事件信息至目标对象,比如,紧急告警在等待告警任务周期的同时,会先实时生成一条紧急事件,并将紧急事件及时发送至目标对象,以便于目标对象及时处理故障路径,进而能够提高业务处理的可靠性,其中,告警任务周期即告警信息被推送至目标对象的时间周期。
或者,在预设时间内累计告警信息的数量,若在预设时间内告警信息的数量大于或者等于预设告警数量,对告警信息进行筛除,即在有多个相同告警信息时,选择其中一个告警信息推送至目标对象,这不仅可以避免短时间内发送过多冗余信息,同时还减少了系统开销。
本发明实施例提供的多路径异常处理方法,通过获取主机对应的多路径的路径检测周期,能够在主机运行过程中,基于路径检测周期,对主机对应的多路径进行检测,得到目标检测结果,对于目标检测结果中存在故障的路径进行路径修复,得到修复结果,能够及时地对故障的路径进行修复,减少了业务中断或者业务数据丢失;若修复结果表征路径修复失败,生成告警信息和/或事件信息,将告警信息和/或事件信息推送至目标对象,以此保证异常路径修复成功,从而提高业务处理的可靠性。
在本实施例中提供了一种多路径异常处理方法,可用于上述的路径检测装置。图4是根据本发明实施例的多路径异常处理方法的流程图,如图4所示,该流程包括如下步骤:
步骤S401,获取主机对应的多路径的路径检测周期。
详细请参见图2所示实施例的步骤S201,在此不再赘述。
步骤S402,在主机运行过程中,基于路径检测周期,对主机对应的多路径进行检测,得到目标检测结果;
具体地,上述步骤S402具体包括:
步骤S4021,若目标检测结果表征路径检测正常,且路径连续检测正常的次数大于或者等于第一预设次数,延长路径检测周期,基于延长后的路径检测周期,对主机对应的多路径进行检测,得到目标检测结果。
其中,第一预设次数可以是3次、4次或者更多次数,在此不再一一列举。比如,当第一预设次数为3次时,若路径连续检测正常的次数大于或者等于3次,即连续3次检测都没有故障路径时,可以根据连续检测正常的次数延长路径检测周期,如此,既能够保障不错失故障异常,又能节省系统资源。
具体地,延长后的路径检测周期,包括:
T2=1.1n-3t(n>3)
其中,T2为延长后的路径检测周期,n为路径连续检测正常的次数,t为路径检测周期。
在一些可选的实施方式中,若修复结果表征路径修复成功,保持路径检测周期不变,基于路径检测周期,对主机对应的多路径进行检测,得到目标检测结果。
修复结果表征路径修复成功,说明当前的路径检测周期能够保证不错失故障异常,而且还能够保证路径的正常修复。其中,基于路径检测周期,对主机对应的多路径进行检测,即根据最近一次的路径检测周期,对主机对应的多路径进行检测。
在一些可选的实施方式中,若修复结果表征路径修复失败,缩短路径检测周期,基于缩短后的路径检测周期,对主机对应的多路径进行检测,得到目标检测结果。
若修复结果表征路径修复失败,表明当前的路径检测周期能够保证不错失故障异常,却无法保证路径的正常修复,可见,该路径故障严重,进一步反映出该路径故障时间较长,因此,需要缩短路径检测周期,以此保证后续在检测到故障路径后,能够及时对故障路径进行修复,从而保证故障路径的正常修复。
具体地,告警信息包括第一级别告警信息、第二级别告警信息和第三级别告警信息,事件信息包括第一级别事件信息、第二级别事件信息和第三级别事件信息,缩短后的路径检测周期的计算方式如下:
其中,T1为缩短后的路径检测周期,n1为第一级别事件信息的个数,n2为第二级别事件信息的个数,n3为第三级别事件信息的个数,a1为第一级别告警信息的个数,a2为第二级别告警信息的个数,a3为第三级别告警信息的个数,t为路径检测周期。
在本申请实施例中,基于修复结果能够对路径检测周期进行动态调整,以保障既不错失故障异常以及故障的正常修复,又能节省系统开销,解决了相关技术中的持续巡检而导致系统消耗大的问题。
步骤S403,对于目标检测结果中存在故障的路径进行路径修复,得到修复结果。
具体地,上述步骤S403具体包括:
步骤S4031,对主机与存储设备之间的路径进行检测,得到第一检测结果。
步骤S4032,若第一检测结果表征主机与存储设备之间的路径断开,将第一检测结果作为目标检测结果。
在本申请实施例中,通过对主机与存储设备之间的路径进行检测,得到第一检测结果,若第一检测结果表征主机与存储设备之间的路径断开,将第一检测结果作为目标检测结果,以便于后续步骤中基于目标检测结果对主机与存储设备之间的断开的路径进行修复。
在一些可选的实施方式中,对主机对应的多路径进行检测,得到目标检测结果,具体可以是获取主机对应的云主机的路径信息,基于路径信息,对主机对应的云主机的使用路径进行检测,得到目标检测结果。
其中,云主机的路径信息用于表征云主机的路径使用情况,可以通过扫描主机上云主机的路径使用情况,以获取主机对应的云主机的路径信息。
步骤S404,若修复结果表征路径修复失败,生成告警信息和/或事件信息。详细请参见图2所示实施例的步骤S204,在此不再赘述。
步骤S405,将告警信息和/或事件信息推送至目标对象。
详细请参见图2所示实施例的步骤S205,在此不再赘述。
在一些可选的实施方式中,若第一检测结果表征主机与存储设备之间的路径正常,对主机与存储设备对应的磁盘之间的路径进行路径聚合的检测,得到第二检测结果。
其中,存储设备对应的磁盘可以有若干个,因此,对主机与存储设备对应的磁盘之间的路径进行路径聚合的检测,即对主机与存储设备对应的各个磁盘之间的路径进行路径聚合的检测。另外,路径聚合的检测即检测主机与存储设备对应的磁盘之间的路径是否为聚合路径,也即检测主机与存储设备对应的磁盘之间的路径是否为单路径。比如,若是主机与存储设备对应的磁盘之间的路径为聚合路径,即主机与存储设备对应的磁盘之间的路径不为单路径。
进一步地,若第二检测结果表征主机与存储设备对应的磁盘之间的路径聚合正常,对主机与存储设备对应的磁盘之间的多路径中的子路径进行检测,得到第三检测结果。
其中,路径聚合正常即主机与存储设备对应的磁盘之间的路径非单路径。
在一些可选的实施方式中,若第二检测结果表征主机与存储设备对应的磁盘之间的路径聚合异常,将第二检测结果作为目标检测结果。
反之,若第二检测结果表征主机与存储设备对应的磁盘之间的路径聚合异常,说明主机与存储设备对应的磁盘之间的路径为单路径,此时,将第二检测结果作为目标检测结果。然后根据目标检测结果对主机与存储设备对应的磁盘之间的单路径进行修复,即将主机与存储设备对应的磁盘之间的单路径修复成多路径。
在对主机与存储设备对应的磁盘之间的单路径修复完成后,再次对主机与存储设备对应的磁盘之间的路径进行检测,得到修复结果。
在一些可选的实施方式中,若第三检测结果表征主机与存储设备对应的磁盘之间的多路径中的子路径中断,将第三检测结果作为目标检测结果。
进一步地,若目标检测结果表征主机与存储设备对应的磁盘之间的多路径中的子路径中断,对中断的子路径进行修复,得到修复结果。
进一步地,若修复结果表征中断的子路径修复失败,确定主机对应的使用中断的子路径的目标云主机,以得到目标云主机的云主机信息和主机的主机信息,然后根据目标云主机和主机信息,生成告警信息。
其中,云主机信息包括云主机的名称、云主机的ID、对应的磁盘以及云主机对应的多路径信息,云主机对应的多路径信息即云主机与存储设备之间的路径信息以及云主机与存储设备对应的磁盘之间的路径信息。
主机信息包括主机名称、主机的ID、主机的路径信息、主机与存储设备的对接方式、主机与存储设备之间的路径的条数、主机与存储设备当前连接的数量、主机对应的多路径的路径状态。
另外,确定主机对应的使用中断子路径的目标云主机,以得到目标云主机的云主机信息和主机的主机信息,即在确定主机对应的使用中断子路径的目标云主机之后,可以确定该目标云主机的云主机信息,再基于该目标云主机确定对应的主机,即可得到目标云主机对应的主机的主机信息。
可见,本申请实施例能够避免出现当前存在云主机使用子路径,且该子路径异常时候云主机对应的业务任务中断的情况,保障云主机在部分路径异常时候仍然可以正常使用,提高了业务处理的可靠性。
为了清楚地说明多路径异常处理的过程,下面以具体的示例进行描述。
在一些可选的实施方式中,多路径异常处理系统包括标签配置模块、告警模块、处理模块、调度模块、事件管理模块、通知模块和故障修复模块。
标签配置模块用于存放标签配置信息,标签配置信息包含不同类型路径的故障严重程度对应的告警信息和事件信息、路径检测周期等。另外,由于主机与存储设备之间的路径断开以及主机与存储设备对应的磁盘之间的路径聚合异常可能会影响云主机的使用,因此,标签配置模块还用于在出现主机与存储设备之间的路径断开以及主机与存储设备对应的磁盘之间的路径聚合异常的情况时,会将对应的事件信息上报;标签配置模块还用于将云主机使用路径为子路径对应的事件信息设置为严重事件;标签配置模块还用于主机多路径中断异常时,设置定时任务对主机多路径中断异常进行告警。
告警模块用于在处理模块检测云主机与磁盘之间的路径、主机和存储设备之间的路径连接情况、主机与磁盘之间的路径聚合情况、主机多路径的路径情况,根据检测情况判断路径是否处于异常,并将路径异常的信息发送给相应的服务器去处理,同时调用故障修复模块对应的修复脚本主动对异常的路径进行修复,且修复失败之后,触发相应的告警任务产生告警。
处理模块用于在主机对应的多路径存在故障时,进行故障类型的判断以及告警信息的级别和事件信息级别的判断。具体地,如图5所示,在主机运行过程中,基于路径检测周期,对主机对应的多路径进行故障检测,即基于路径检测周期,批量检测主机集群内所有主机对应的多路径,并将检测到的多路径的信息导入指定文件中。首先,对主机与存储设备之间的路径进行检测,确定主机与存储设备之间的路径是否断开,若主机与存储设备之间的路径断开,调用故障修复模块中的修复脚本主动对断开路径进行修复,在修复完成后,再次对修复后的路径进行检测,得到修复结果,根据修复结果判断该修复后的路径是否修复成功,若是,即修复成功,则对路径检测周期进行调整,根据调整后的路径检测周期继续进行路径检测;若否,即修复失败,则根据修复结果生成存储设备路径断开事件,同时根据存储设备路径断开的严重程度,对该事件进行定级,比如,当断开的存储设备路径大于存储设备路径断开总路径的一半时,将该存储设备路径断开事件定为严重事件,当断开的存储设备路径小于存储设备路径断开总路径的一半时,将该存储设备路径断开事件定为中度事件,然后调用通知模块上报该事件,即将告警信息和/或事件信息推送至目标对象(即运维人员),以便于目标对象基于该事件对故障路径进行运维检查处理,并同步检查未能自动修复的原因,将对该故障路径进行修复的脚本更新至故障修复脚本数据库。
若主机与存储设备之间的路径正常,对主机与存储设备对应的磁盘之间的路径进行路径聚合异常的检测,确定主机与磁盘之间的路径是否聚合异常,若主机与存储设备对应的磁盘之间的路径聚合异常(即主机与存储设备对应的磁盘之间的路径为单路径),则调用故障修复模块中的修复脚本主动对该聚合异常的路径进行修复,在修复完成后,再次对修复后的路径进行检测,得到修复结果,根据修复结果判断该修复后的路径是否修复成功,若是,即修复成功,则对路径检测周期进行调整,根据调整后的路径检测周期继续进行路径检测;若否,即修复失败,则根据修复结果生成主机磁盘路径聚合异常事件,然后调用通知模块上报该事件,以便于运维人员基于该事件对故障路径进行运维检查处理,并同步检查未能自动修复的原因,将对该故障路径进行修复的脚本更新至故障修复脚本数据库。
若主机与存储设备对应的磁盘之间的路径聚合正常,对主机与存储设备对应的磁盘之间的多路径中的子路径进行路径中断异常的检测,确定主机与磁盘之间的多路径中的子路径是否中断,比如,主机与存储设备对应的磁盘之间的多路径中的子路径是否断开,若主机与存储设备对应的磁盘之间的多路径中的子路径中断,则调用故障修复模块中的修复脚本主动对该中断的子路径进行修复,在修复完成后,再次对修复后的路径进行检测,得到修复结果,根据修复结果判断该修复后的路径是否修复成功,若是,即修复成功,则对路径检测周期进行调整,根据调整后的路径检测周期继续进行路径检测;若否,即修复失败,则根据修复结果生成主机磁盘多路径中断异常事件,然后调用通知模块上报该事件,以便于运维人员基于该事件对故障路径进行运维检查处理,并同步检查未能自动修复的原因,将对该故障路径进行修复的脚本更新至故障修复脚本数据库。
若修复结果表征中断的子路径修复失败,确定主机中是否有使用中断子路径的目标云主机,以得到目标云主机的云主机信息和主机的主机信息,根据目标云主机和主机信息,生成告警信息,其中,该告警信息包括主机多路径链路异常告警信息和云主机存储多路径异常告警信息,然后调用通知模块上报该告警信息,以便于运维人员基于该事件对故障路径进行运维检查处理,并同步检查未能自动修复的原因,将对该故障路径进行修复的脚本更新至故障修复脚本数据库。
接着,获取主机对应的云主机的路径信息,即扫描主机上云主机的路径使用情况,然后将路径信息与主机上的多路径的信息进行匹配。具体地,确定云主机是否使用聚合路径,若否,且路径信息表征云主机使用的是子路径,检测子路径对应的聚合路径,若主机上的多路径的信息表征该子路径存在聚合路径,更换云主机的路径为聚合路径;若该子路径不存在聚合路径,调用故障修复模块中的修复脚本主动对该中断的子路径进行修复,在修复完成后,再次对修复后的路径进行检测,得到修复结果,根据修复结果判断该修复后的路径是否修复成功,若是,即修复成功,则对路径检测周期进行调整;若否,即修复失败,则根据修复结果生成云主机路径异常事件,并调用通知模块上报该事件,云主机路径异常事件包含云主机信息、云主机的云磁盘信息、存储设备路径信息、云主机所在的主机节点信息等。
调度模块用于对云主机及云磁盘整个生命周期进行调度。
事件管理模块用于对判断分析后影响范围较广、级别高的告警信息等的告警任务周期,主动推送事件信息和告警信息,其中,异常数据可以实时上报,运维人员可以及时处理下发修复异常指令,也可等待定时自动修复。当修复完成后事件标记为已处理。
通知模块用于可以设置通知联系人,当产生告警信息或者事件信息时,可以及时通知运维人员进行处理。
故障修复模块用于注入各种故障修复脚本,当产生对应的故障时候,调用相关脚本进行修复。修复成功后不调用通知模块进行告警信息或者事件信息上报,或者推送修复成功事件且恢复告警;修复失败,则调用通知模块将告警信息或者事件信息推送给运维人员进行脚本调整或者手动修复,并根据故障的紧急度进行事件信息上报或者告警。需要说明的是,对于OpenStack的各种存储多路径异常需要增加处理修复的方法都可以放置在故障修复脚本数据库。修复方案和异常信息可以通过ID进行匹配。
综上,本申请实施例能够通过OpenStack平台节点级守护进程监控,通过监控故障路径和丢失路径、捕获故障路径以及自动恢复故障路径,提高存储可靠性,而且在故障路径无法恢复的情况下,能够根据故障路径的影响程度及时上报告警信息或者事件信息给运维人员。可见,相对于相关技术中遇到问题逐一排查以及提供解决手册或修复脚本至用户自行修复故障的方式,本申请实施例能够解决存储多路径异常时候没有恢复检查方案而导致降低存储可靠性,甚至可能导致整个存储链路故障的问题,进而能够保障云主机的正常使用,避免出现服务停止以及业务中断的现象,从而减少了业务数据丢失。此外,还能够根据修复结果动态调整路径检测周期,以减少因为周期性检测而带来的系统消耗,同时,通过自动运维的方式大大节约了运维成本,减少路径异常而产生的影响,提高了用户体验感。
参照图6,本申请的一个实施例还提供了一种多路径异常处理装置,包括:
获取模块601,用于获取主机对应的多路径的路径检测周期;
检测模块602,用于在主机运行过程中,基于路径检测周期,对主机对应的多路径进行检测,得到目标检测结果;
修复模块603,用于对于目标检测结果中存在故障的路径进行路径修复,得到修复结果;
信息生成模块604,用于若修复结果表征路径修复失败,生成告警信息和/或事件信息;
推送模块605,用于将告警信息和/或事件信息推送至目标对象。
在一些可选的实施方式中,检测模块602具体包括:
第一检测子模块,用于对主机与存储设备之间的路径进行检测,得到第一检测结果;
第二目标检测结果确定子模块,用于若第一检测结果表征主机与存储设备之间的路径断开,将第一检测结果作为目标检测结果。
在一些可选的实施方式中,检测模块602具体还包括:
第二检测子模块,用于若第一检测结果表征主机与存储设备之间的路径正常,对主机与存储设备对应的磁盘之间的路径进行路径聚合的检测,得到第二检测结果;
第三检测子模块,用于若第二检测结果表征主机与存储设备对应的磁盘之间的路径聚合正常,对主机与存储设备对应的磁盘之间的多路径中的子路径进行检测,得到第三检测结果;
第二目标检测结果确定子模块,用于若第三检测结果表征主机与存储设备对应的磁盘之间的多路径中的子路径中断,将第三检测结果作为目标检测结果;
修复模块603具体包括:
修复子模块,用于若目标检测结果表征主机与存储设备对应的磁盘之间的多路径中的子路径中断,对中断的子路径进行修复,得到修复结果;
信息生成模块604具体包括:
目标云主机确定子模块,用于若修复结果表征中断的子路径修复失败,确定主机对应的使用中断子路径的目标云主机,以得到目标云主机的云主机信息和主机的主机信息;
信息生成子模块,用于根据目标云主机和主机信息,生成告警信息。
在一些可选的实施方式中,修复模块603具体还包括:
第三目标检测结果确定子模块,用于若第二检测结果表征主机与存储设备对应的磁盘之间的路径聚合异常,将第二检测结果作为目标检测结果。
在一些可选的实施方式中,修复模块603具体包括:
获取子模块,用于获取主机对应的云主机的路径信息;
第四检测子模块,用于基于路径信息,对主机对应的云主机的使用路径进行检测,得到目标检测结果。
在一些可选的实施方式中,检测模块602具体包括:
第四目标检测结果确定子模块,用于若目标检测结果表征路径检测正常,且路径连续检测正常的次数大于或者等于第一预设次数,延长路径检测周期,基于延长后的路径检测周期,对主机对应的多路径进行检测,得到目标检测结果;或者,若修复结果表征路径修复成功,保持路径检测周期不变,基于路径检测周期,对主机对应的多路径进行检测,得到目标检测结果;或者,若修复结果表征路径修复失败,缩短路径检测周期,基于缩短后的路径检测周期,对主机对应的多路径进行检测,得到目标检测结果。
在一些可选的实施方式中,告警信息包括第一级别告警信息、第二级别告警信息和第三级别告警信息,事件信息包括第一级别事件信息、第二级别事件信息和第三级别事件信息,缩短后的路径检测周期的计算方式如下:
其中,T1为缩短后的路径检测周期,n1为第一级别事件信息的个数,n2为第二级别事件信息的个数,n3为第三级别事件信息的个数,a1为第一级别告警信息的个数,a2为第二级别告警信息的个数,a3为第三级别告警信息的个数,t为路径检测周期。
在一些可选的实施方式中,延长后的路径检测周期,包括:
T2=1.1n-3t(n>3)
其中,T2为延长后的路径检测周期,n为路径连续检测正常的次数,t为路径检测周期。
本实施例中的多路径异常处理装置是以功能模块的形式来呈现,这里的模块是指专用集成电路(Application Specific Integrated Circuit,简称ASIC),执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
上述各个模块和单元的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
本发明实施例还提供一种计算机设备,具有上述图6所示的多路径异常处理装置。
请参阅图7,图7是本发明可选实施例提供的一种计算机设备的结构示意图,如图7所示,该计算机设备包括:一个或多个处理器10、存储器20,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相通信连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在计算机设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在一些可选的实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个计算机设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图7中以一个处理器10为例。
处理器10可以是中央处理器,网络处理器或其组合。其中,处理器10还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路,可编程逻辑器件或其组合。上述可编程逻辑器件可以是复杂可编程逻辑器件,现场可编程逻辑门阵列,通用阵列逻辑或其任意组合。
其中,存储器20存储有可由至少一个处理器10执行的指令,以使至少一个处理器10执行实现上述实施例示出的方法。
存储器20可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据一种小程序落地页的展现的计算机设备的使用所创建的数据等。此外,存储器20可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些可选的实施方式中,存储器20可选包括相对于处理器10远程设置的存储器,这些远程存储器可以通过网络连接至该计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
存储器20可以包括易失性存储器,例如,随机存取存储器;存储器也可以包括非易失性存储器,例如,快闪存储器,硬盘或固态硬盘;存储器20还可以包括上述种类的存储器的组合。
该计算机设备还包括通信接口30,用于该计算机设备与其他设备或通信网络通信。
本发明实施例还提供了一种计算机可读存储介质,上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可记录在存储介质,或者被实现通过网络下载的原始存储在远程存储介质或非暂时机器可读存储介质中并将被存储在本地存储介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件的存储介质上的这样的软件处理。其中,存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等;进一步地,存储介质还可以包括上述种类的存储器的组合。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件,当软件或计算机代码被计算机、处理器或硬件访问且执行时,实现上述实施例示出的方法。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (11)

1.一种多路径异常处理方法,其特征在于,所述方法包括:
获取主机对应的多路径的路径检测周期;
在所述主机运行过程中,基于所述路径检测周期,对主机对应的多路径进行检测,得到目标检测结果;
对于所述目标检测结果中存在故障的路径进行路径修复,得到修复结果;
若所述修复结果表征路径修复失败,生成告警信息和/或事件信息;
将所述告警信息和/或所述事件信息推送至目标对象。
2.根据权利要求1所述的方法,其特征在于,所述对主机对应的多路径进行检测,得到目标检测结果,包括:
对所述主机与存储设备之间的路径进行检测,得到第一检测结果;
若所述第一检测结果表征所述主机与存储设备之间的路径断开,将所述第一检测结果作为所述目标检测结果。
3.根据权利要求2所述的方法,其特征在于,所述对主机对应的多路径进行检测,得到目标检测结果,还包括:
若所述第一检测结果表征所述主机与存储设备之间的路径正常,对所述主机与所述存储设备对应的磁盘之间的路径进行路径聚合的检测,得到第二检测结果;
若所述第二检测结果表征所述主机与所述存储设备对应的磁盘之间的路径聚合正常,对所述主机与所述存储设备对应的磁盘之间的多路径中的子路径进行检测,得到第三检测结果;
若所述第三检测结果表征所述主机与所述存储设备对应的磁盘之间的多路径中的子路径中断,将所述第三检测结果作为所述目标检测结果;
所述对于所述目标检测结果中存在故障的路径进行路径修复,得到修复结果,包括:
若所述目标检测结果表征所述主机与所述存储设备对应的磁盘之间的多路径中的子路径中断,对所述中断的子路径进行修复,得到修复结果;
所述若所述修复结果表征路径修复失败,生成告警信息,包括:
若所述修复结果表征所述中断的子路径修复失败,确定所述主机对应的使用所述中断的子路径的目标云主机,以得到所述目标云主机的云主机信息和所述主机的主机信息;
根据所述目标云主机和所述主机信息,生成告警信息。
4.根据权利要求3所述的方法,其特征在于,所述对主机对应的多路径进行检测,得到目标检测结果,还包括:
若所述第二检测结果表征所述主机与所述存储设备对应的磁盘之间的路径聚合异常,将所述第二检测结果作为所述目标检测结果。
5.根据权利要求1所述的方法,其特征在于,所述对主机对应的多路径进行检测,得到目标检测结果,包括:
获取所述主机对应的云主机的路径信息;
基于所述路径信息,对所述主机对应的云主机的使用路径进行检测,得到目标检测结果。
6.根据权利要求1所述的方法,其特征在于,所述基于所述路径检测周期,对主机对应的多路径进行检测,得到目标检测结果,包括:
若所述目标检测结果表征路径检测正常,且路径连续检测正常的次数大于或者等于第一预设次数,延长所述路径检测周期,基于所述延长后的路径检测周期,对主机对应的多路径进行检测,得到目标检测结果;
或者,
若所述修复结果表征路径修复成功,保持所述路径检测周期不变,基于所述路径检测周期,对主机对应的多路径进行检测,得到目标检测结果;
或者,
若所述修复结果表征路径修复失败,缩短所述路径检测周期,基于所述缩短后的路径检测周期,对主机对应的多路径进行检测,得到目标检测结果。
7.根据权利要求6所述的方法,其特征在于,所述告警信息包括第一级别告警信息、第二级别告警信息和第三级别告警信息,所述事件信息包括第一级别事件信息、第二级别事件信息和第三级别事件信息,缩短后的路径检测周期的计算方式如下:
其中,T1为缩短后的路径检测周期,n1为第一级别事件信息的个数,n2为第二级别事件信息的个数,n3为第三级别事件信息的个数,a1为第一级别告警信息的个数,a2为第二级别告警信息的个数,a3为第三级别告警信息的个数,t为路径检测周期。
8.根据权利要求6所述的方法,其特征在于,延长后的所述路径检测周期,包括:
T2=1.1n-3t(n>3)
其中,T2为延长后的路径检测周期,n为路径连续检测正常的次数,t为路径检测周期。
9.一种多路径异常处理装置,其特征在于,包括:
获取模块,用于获取主机对应的多路径的路径检测周期;
检测模块,用于在所述主机运行过程中,基于所述路径检测周期,对主机对应的多路径进行检测,得到目标检测结果;
修复模块,用于对于所述目标检测结果中存在故障的路径进行路径修复,得到修复结果;
信息生成模块,用于若所述修复结果表征路径修复失败,生成告警信息和/或事件信息;
推送模块,用于将所述告警信息和/或所述事件信息推送至目标对象。
10.一种计算机设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1至8中任一项所述的多路径异常处理方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行权利要求1至8中任一项所述的多路径异常处理方法。
CN202311549290.0A 2023-11-17 2023-11-17 多路径异常处理方法、装置、计算机设备及存储介质 Pending CN117573405A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311549290.0A CN117573405A (zh) 2023-11-17 2023-11-17 多路径异常处理方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311549290.0A CN117573405A (zh) 2023-11-17 2023-11-17 多路径异常处理方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN117573405A true CN117573405A (zh) 2024-02-20

Family

ID=89860087

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311549290.0A Pending CN117573405A (zh) 2023-11-17 2023-11-17 多路径异常处理方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN117573405A (zh)

Similar Documents

Publication Publication Date Title
CN110716842B (zh) 集群故障检测方法和装置
CN106789306B (zh) 通信设备软件故障检测收集恢复方法和系统
US9734015B2 (en) Pre-boot self-healing and adaptive fault isolation
CN111796959B (zh) 宿主机容器自愈方法、装置及系统
CN103761180A (zh) 一种集群存储中磁盘故障的预防及检测方法
CN108199901B (zh) 硬件报修方法、系统、设备、硬件管理服务器与存储介质
CN105607973B (zh) 一种虚拟机系统中设备故障处理的方法、装置及系统
CN109120522B (zh) 一种多路径状态监测方法及装置
CN112380089A (zh) 一种数据中心监控预警方法及系统
US7278048B2 (en) Method, system and computer program product for improving system reliability
US7664980B2 (en) Method and system for automatic attempted recovery of equipment from transient faults
CN115705261A (zh) 内存故障的修复方法、cpu、os、bios及服务器
CN113254245A (zh) 一种存储集群的故障检测方法和系统
CN117573405A (zh) 多路径异常处理方法、装置、计算机设备及存储介质
CN114095394B (zh) 网络节点故障检测方法、装置、电子设备及存储介质
CN115712521A (zh) 一种集群节点故障处理方法、系统及介质
CN111444032A (zh) 一种计算机系统故障修复方法、系统及设备
CN112131077A (zh) 故障节点的定位方法和定位装置、以及数据库集群系统
CN115484267B (zh) 多集群部署处理方法、装置、电子设备和存储介质
US8533331B1 (en) Method and apparatus for preventing concurrency violation among resources
CN116506327B (zh) 物理节点监测方法、装置、计算机设备及存储介质
CN108400894B (zh) 一种服务器集群网络故障定位方法及系统
CN113688017B (zh) 多节点BeeGFS文件系统自动化异常测试方法及装置
CN117312081A (zh) 分布式存储系统的故障检测方法、装置、设备及介质
CN113918406A (zh) 一种基于日志监控生产集群节点故障的方法及系统、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination