CN114661506A - 故障隔离方法和故障隔离装置 - Google Patents

故障隔离方法和故障隔离装置 Download PDF

Info

Publication number
CN114661506A
CN114661506A CN202210205428.4A CN202210205428A CN114661506A CN 114661506 A CN114661506 A CN 114661506A CN 202210205428 A CN202210205428 A CN 202210205428A CN 114661506 A CN114661506 A CN 114661506A
Authority
CN
China
Prior art keywords
disk
host
channel
score
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210205428.4A
Other languages
English (en)
Inventor
王海华
何宏烨
侯丽敏
罗艳彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202210205428.4A priority Critical patent/CN114661506A/zh
Publication of CN114661506A publication Critical patent/CN114661506A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0796Safety measures, i.e. ensuring safe condition in the event of error, e.g. for controlling element

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供了一种故障隔离方法和故障隔离装置,涉及主机技术领域。该方法包括:获取主机和磁盘之间的运行日志和第一通道状态码,第一通道状态码用于表示主机和磁盘之间的通道的运行状态;根据运行日志中报警信息发生的频率、第一通道状态码对应的故障等级评分以及第一通道状态码关联的权重系数,确定通道的故障得分,报警信息用于表示通道存在异常;当故障得分大于或等于预设分值时,停止主机和磁盘之间的访问进程。该方法可以提高判断主机和磁盘间的链路访问状态不佳的准确率,并自动隔离主机和磁盘间的访问,有利于保障主机系统平稳运行。

Description

故障隔离方法和故障隔离装置
技术领域
本申请涉及主机技术领域,尤其涉及一种故障隔离方法和故障隔离装置。
背景技术
主机系统是一类单台可支持多个(例如8个)处理器的高端服务器系统,是包括大型硬件平台和操作系统的一体化系统,具有强大的事务处理能力和极高的可用性,具有秒级高并发、海量数据实时处理、急速响应时间等鲜明的特点,在大型银行互联网技术(internet technology,IT)架构中扮演着核心角色,是核心业务的运行系统。
若主机系统的硬件平台发生故障,会对系统的平稳运行造成影响。主机系统硬件平台可以包括主机和磁盘,主机可以通过主机和磁盘之间的通道将数据保存至磁盘,并可以通过通道读取磁盘中的数据。若主机和磁盘间的通道发生链路抖动,会导致主机和磁盘间的链路访问状态不佳,影响业务的正常运行。
因此,亟需一种故障隔离方法,以保障主机系统平稳运行。
发明内容
本申请提供了一种故障隔离方法和故障隔离装置,提高判断主机和磁盘间的链路访问状态不佳的准确率,并自动隔离主机和磁盘间的访问,有利于保障主机系统平稳运行。
第一方面,本申请提供了一种故障隔离方法,该方法包括:获取主机和磁盘之间的运行日志和第一通道状态码,第一通道状态码用于表示主机和磁盘之间的通道的运行状态;根据运行日志中报警信息发生的频率、第一通道状态码对应的故障等级评分以及第一通道状态码关联的权重系数,确定通道的故障得分,报警信息用于表示通道存在异常;当故障得分大于或等于预设分值时,停止主机和磁盘之间的访问进程。
本申请提供的故障隔离方法,获取运行日志中的报警信息和第一通道状态码,根据报警信息发生的频率、第一通道状态码对应的故障等级评分以及第一通道状态码关联的权重系数,得到通道的故障得分,从频率和通道状态码两个维度计算故障得分,可以提高故障判断的准确率,然后通过预设分值与故障得分的比较,确定通道故障,进而隔离主机和磁盘间的访问,有利于保障主机系统平稳运行。
结合第一方面,在第一方面的某些实现方式中,上述磁盘为一级磁盘时,预设分值为第一预设分值,磁盘为二级磁盘时,预设分值为第二预设分值,第一预设分值与第二预设分值不相等,一级磁盘用于表示与主机直接相连的磁盘,二级磁盘用于表示与主机间接相连的磁盘。
本申请提供的故障隔离方法,不同类型的磁盘可以对应不同的预设分值,可以更加准确地对不同通道进行故障检测,适用范围更广。
结合第一方面,在第一方面的某些实现方式中,上述方法还包括:获取磁盘关联的通道类型标识,通道类型标识用于指示磁盘为一级磁盘或者二级磁盘;其中,当故障得分大于或等于预设分值时,停止主机和磁盘之间的访问进程,包括:若通道类型标识用于指示磁盘为一级磁盘,则当故障得分大于或等于第一预设分值时,停止主机和磁盘之间的访问进程;或者,若通道类型标识用于指示磁盘为二级磁盘,则当故障得分大于或等于第二预设分值时,停止主机和磁盘之间的访问进程。
本申请提供的故障隔离方法,可以通过磁盘关联的通道类型标识确定磁盘的类型,并根据不同类型的磁盘使用其对应的预设分值进行比较,以更加灵活的判断通道是否存在故障,可以适用更广的应用范围。
结合第一方面,在第一方面的某些实现方式中,上述当故障得分大于或等于预设分值时,停止主机和磁盘之间的访问进程,包括:当故障得分大于或等于预设分值时,重新获取主机和磁盘之间的通道状态码,得到第二通道状态码;当第二通道状态码等于第一通道状态码时,停止主机和磁盘之间的访问进程。
本申请提供的故障隔离方法,在停止主机和磁盘之间的访问进程之前,再次确定主机和磁盘之间的通道的运行状态,在通道运行状态未发生改变的情况下,停止主机和磁盘之间的访问进程,可以确保隔离操作的准确性和必要性。
结合第一方面,在第一方面的某些实现方式中,上述方法还包括:检测主机和磁盘之间的访问进程是否处于停止状态;若主机和磁盘之间的访问进程处于停止状态,输出提示信息,提示信息用于指示通道已被隔离。
本申请提供的故障隔离方法,可以对主机和磁盘之间的访问进程进行复查,以确保隔离完成,有利于保障系统的正常运行,同时,还可以输出提示信息,有利于使用户了解到通道已被隔离,有利于提高用户体验。
结合第一方面,在第一方面的某些实现方式中,上述方法还包括第一通道状态码包括以下至少一项:在线状态、下线状态、不稳定状态、不存在状态或者管理状态。
第二方面,本申请提供了一种故障隔离装置,该装置包括获取模块和处理模块。获取模块用于:获取主机和磁盘之间的运行日志和第一通道状态码,第一通道状态码用于表示主机和磁盘之间的通道的运行状态;处理模块用于:根据运行日志中报警信息发生的频率、第一通道状态码对应的故障等级评分以及第一通道状态码关联的权重系数,确定通道的故障得分,报警信息用于表示通道存在异常;以及,当故障得分大于或等于预设分值时,停止主机和磁盘之间的访问进程。
结合第二方面,在第二方面的某些实现方式中,上述磁盘为一级磁盘时,预设分值为第一预设分值,磁盘为二级磁盘时,预设分值为第二预设分值,第一预设分值与第二预设分值不相等,一级磁盘用于表示与主机直接相连的磁盘,二级磁盘用于表示与主机间接相连的磁盘。
结合第二方面,在第二方面的某些实现方式中,上述获取模块还用于:获取磁盘关联的通道类型标识,通道类型标识用于指示磁盘为一级磁盘或者二级磁盘;处理模块还用于:若通道类型标识用于指示磁盘为一级磁盘,则当故障得分大于或等于第一预设分值时,停止主机和磁盘之间的访问进程;或者,若通道类型标识用于指示磁盘为二级磁盘,则当故障得分大于或等于第二预设分值时,停止主机和磁盘之间的访问进程。
结合第二方面,在第二方面的某些实现方式中,上述处理模块还用于:当故障得分大于或等于预设分值时,重新获取主机和磁盘之间的通道状态码,得到第二通道状态码;当第二通道状态码等于第一通道状态码时,停止主机和磁盘之间的访问进程。
结合第二方面,在第二方面的某些实现方式中,上述处理模块还用于:检测主机和磁盘之间的访问进程是否处于停止状态;若主机和磁盘之间的访问进程处于停止状态,输出提示信息,提示信息用于指示通道已被隔离。
结合第二方面,在第二方面的某些实现方式中,上述第一通道状态码包括以下至少一项:在线状态、下线状态、不稳定状态、不存在状态或者管理状态。
第三方面,本申请提供了一种故障隔离装置,包括处理器和存储器。该处理器用于读取存储器中存储的指令,以执行上述第一方面中任一种可能实现方式中的方法。
可选地,处理器为一个或多个,存储器为一个或多个。
可选地,存储器可以与处理器集成在一起,或者存储器与处理器分离设置。
在具体实现过程中,存储器可以为非瞬时性(non-transitory)存储器,例如只读存储器(read only memory,ROM),其可以与处理器集成在同一块芯片上,也可以分别设置在不同的芯片上,本申请对存储器的类型以及存储器与处理器的设置方式不做限定。
上述第三方面中的故障隔离装置可以是一个芯片,该处理器可以通过硬件来实现也可以通过软件来实现,当通过硬件实现时,该处理器可以是逻辑电路、集成电路等;当通过软件来实现时,该处理器可以是一个通用处理器,通过读取存储器中存储的软件代码来实现,该存储器可以集成在处理器中,可以位于该处理器之外,独立存在。
第四方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质有计算机程序(也可以称为代码,或指令)当其在计算机上运行时,使得计算机执行上述第一方面中任一种可能实现方式中的方法。
第五方面,本申请提供了一种计算机程序产品,计算机程序产品包括:计算机程序(也可以称为代码,或指令),当计算机程序被运行时,使得计算机执行上述第一方面中任一种可能实现方式中的方法。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为一种主机和磁盘之间进行数据传输的示意图;
图2为本申请实施例提供的一种故障隔离方法的示意性流程图;
图3为本申请实施例提供的另一种故障隔离方法的示意性流程图;
图4为本申请实施例提供的一种故障隔离装置的示意性框图;
图5为本申请实施例提供的另一种故障隔离装置的示意性框图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
下面将结合附图,对本申请中的技术方案进行描述。需要说明的是,本申请提供的故障隔离方法和故障隔离装置可用于主机技术领域,也可用于主机技术领域以外的任意领域。本申请提供的故障隔离方法和故障隔离装置对应用领域不作限定。
为了便于理解本申请实施例,首先对国际商业机器公司(internationalbusiness machines corporation,IBM)生产的主机(可以简称为IBM主机)进行介绍。
IBM主机包括Z/OS操作系统,该操作系统中的一个重要组件是系统自动化(systemautomation,SA),SA具有信息监控、自动提交命令以及定时提交主机作业等功能。
IBM主机还包括数据库功能,以Tivoli公司开发的Tivoli决策支持(Tivolidecision support,TDS)产品为基础进行数据统计,可以将信息源数据和算法加工数据均集中存储到主机系统监控项目的数据仓库中,并使用WebSphere应用服务器(applicationserver)来展示统计报表。
主机系统在大型银行互联网技术(internet technology,IT)架构中扮演着核心角色,是核心业务的运行系统。若主机系统发生故障,会对系统的平稳运行造成影响。
系统负载、系统软件以及系统硬件等因素都会影响系统运行状态。其中,系统硬件可以包括主机和磁盘,若主机和磁盘间的通道发生链路抖动,或导致主机和磁盘间的链路访问状态不佳,影响业务的正常运行。
其中,磁盘是主机主要的存储介质,可以存储大量的二进制数据,并且断电后也能保持数据不丢失。目前常用的磁盘是硬磁盘(hard disk),可以简称为硬盘。
示例性地,图1示出了一种主机和磁盘之间进行数据传输的示意图。如图1所示,主机101可以与磁盘102以及磁盘103进行数据传输,其中,磁盘的数量仅仅为一个示例,本申请实施例对此不作限定。
主机101的接口可以为磁盘102与主机101之间、磁盘103与主机101之间的数据传输提供通道,实现磁盘与主机之间高速度数据传输。应理解,主机101可以包括两个接口,分别为接口1和接口2,接口1可以用于为磁盘102与主机101之间的数据传输提供通道1,接口2可以用于为磁盘103与主机101之间的数据传输提供通道2。
具体地,主机101可以通过主机101和磁盘102之间的通道1将数据保存至磁盘102,并可以通过该通道1读取磁盘102中的数据。在这种情况下,若主机101与磁盘102之间的通道发生链路抖动,会导致主机101与磁盘102之间的链路访问状态不佳,影响业务的正常运行。
针对主机和磁盘间的通道发生故障影响主机系统运行的问题,本申请实施例提供一种故障隔离方法和故障隔离装置,提高判断主机和磁盘间的链路访问状态不佳的准确率,并自动隔离主机和磁盘间的访问,有利于保障主机系统平稳运行。
在介绍本申请实施例提供的故障隔离方法和故障隔离装置之前,先做出以下几点说明。
第一,在下文示出的实施例中第一、第二以及各种数字编号仅为描述方便进行的区分,并不用来限制本申请实施例的范围。例如,区分不同的通道状态码、区分不同的预设分值等。
第二,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a、b和c中的至少一项(个),可以表示:a,或b,或c,或a和b,或a和c,或b和c,或a、b和c,其中a,b,c可以是单个,也可以是多个。
图2为本申请实施例提供的一种故障隔离方法200的示意性流程图,该方法200可以由故障隔离设备,例如上述图1所示的主机101,但本申请实施例对此不作限定。
如图2所示,该方法200可以包括如下步骤:
S201、获取主机和磁盘之间的运行日志和第一通道状态码,第一通道状态码用于表示主机和磁盘之间的通道的运行状态。
主机和磁盘之间的运行日志可以理解为主机和磁盘之间进行数据传输过程中产生的信息,该信息可以包括运行信息和报警信息。其中,运行信息用于表示主机和磁盘之间的数据传输稳定运行,报警信息用于表示主机和磁盘之间的通道异常,造成数据传输发生波动。
第一通道状态码用于表示主机和磁盘之间的通道的运行状态。其中,第一通道状态码也可以称为第一通道状态信息,本申请实施例对此不做限定。
可选地,第一通道状态码可以包括以下至少一项:在线状态、下线状态、不稳定状态、不存在状态或者管理状态。
其中,在线状态用于表示通道正常运行,下线状态用于表示通道停止运行,不稳定状态用于表示通道时而正常运行,时而停止运行,不存在状态用于表示通道不存在,管理状态用于表示通道被干预或者被介入,例如,通道被运维人员介入。
第一通道状态码可以用文字表示,也可以用数字表示,还可以用符号或者字母表示,或者,可以用文字、数字、符号以及字母中的至少两项组合表示,本申请实施例对此不作限定。
示例性地,第一通道状态码可以用符号表示,例如,“+”用于表示在线(online)状态,“-”用于表示下线(offline)状态,“@”用于表示不稳定状态,“.”用于表示不存在状态,“*”用于表示管理状态。
故障隔离设备可以实时获取主机和磁盘之间的运行日志和第一通道状态码,以保证信息的实时性,且可以防止信息的不遗漏。
可选地,故障隔离设备获取运行日志和第一通道状态码后,可以根据预设的格式存储于文本文件中,以作为后续进行故障判断的数据来源,还可以将该文本文件导入专门的性能容量数据库,以用于后续故障统计、事件回溯等需求。其中,文本文件仅仅是一种可能的存储方式,本申请实施例对此不作限定。预设的格式可以为运行日志、第一通道状态码的存储格式或者第一通道状态码、运行日志的存储格式,本申请实施例对此不作限定。
S202、根据运行日志中报警信息发生的频率、第一通道状态码对应的故障等级评分以及第一通道状态码关联的权重系数,确定通道的故障得分,报警信息用于表示通道存在异常。
报警信息可以包括信息头、报警信息产生的时间、通道号等信息。其中,信息头可以用于区分运行日志中的报警信息和运行信息。信息头也可以称为信息标识,本申请实施例对此不作限定。
示例性地,故障隔离设备可以通过IOS050I或者IOS051I获取运行日志中的报警信息。其中,IOS050I或者IOS051I可以通过信息头从运行日志中获取报警信息。
报警信息发生的频率的单位可以是次数每秒,但本申请实施例并不限于此。
第一通道状态码对应的故障等级评分可以理解为故障隔离设备根据第一通道状态码,确定故障等级评分。
具体地,故障隔离设备可以包括多个通道状态码和多个故障等级评分的对应关系,该多个通道状态码包括第一通道状态码,故障隔离设备可以根据第一通道状态码和对应关系,确定故障等级评分。其中,故障等级评分可以是具体的分值,也可以是一个分值范围,本申请实施例对此不作限定。
若故障等级评分是具体的分值,可以使后续计算故障得分简单,更加高效,提高故障检测的效率。
若故障等级评分是分值范围,可以使后续计算故障得分灵活,适用范围广泛,通用性更强。
示例性地,多个通道状态码包括在线状态、下线状态、不稳定状态、不存在状态以及管理状态。多个故障等级评分包括在线状态对应的故障等级评分0、下线状态对应的故障等级评分100、不稳定状态对应的故障等级评分(0,50]、不存在状态对应的故障等级评分0以及管理状态对应的故障等级评分(50,100)。
在该情况下,故障隔离设备可以根据不稳定的程度,确定具体的故障等级评分。例如,故障隔离设备检测到通道时而正常运行,时而停止运行,但停止运行的时长比正常运行的时长长,可以根据相差的时长衡量不稳定的程度以确定具体的故障等级评分。
示例性地,通道正常运行的时间为t1,通道停止运行的时长为t2,故障等级评分的具体分值可以为T=(t2-t1)/t1*(50-0)。
故障隔离设备还可以通道被介入的时长确定管理状态对应的具体的故障等级评分。例如,管理状态对应的具体的故障等级评分与通道被介入的时长成反比,即通道被介入的时长越长,管理状态对应的具体的故障等级评分越低。
不同通道状态码关联的权重系数之和为1,不同通道状态码间的权重系数的分布可以是均匀分布的,也可以是非均匀分布的,本申请实施例对此不作限定。
不同通道状态码间的权重系数的分布是均匀分布的。例如,多个通道状态码包括在线状态、下线状态、不稳定状态、不存在状态以及管理状态,在线状态、下线状态、不稳定状态、不存在状态以及管理状态关联的权重系数可以均为1/5。
在该情况下,每个通道状态码关联的权重系数均相同,方案简单,便于计算。
不同通道状态码间的权重系数的分布是非均匀分布的。例如,多个通道状态码包括在线状态、下线状态、不稳定状态、不存在状态以及管理状态,在线状态关联的权重系数为0,下线状态关联的权重系数为1/2,不稳定状态关联的权重系数为1/8,不存在状态关联的权重系数为0,管理状态关联的权重系数可以为3/8。
在该情况下,不同通道状态码关联的权重系数不同,可以基于不同的侧重预设不同的权重系数,更加灵活。
故障隔离通道可以根据运行日志中报警信息发生的频率、第一通道状态码对应的故障等级评分以及第一通道状态码关联的权重系数,确定通道的故障得分。
示例性地,报警信息发生的频率可以为f,第一通道状态码对应的故障等级评分可以为T,第一通道状态码关联的权重系数可以为L,则通道的故障得分可以为f+T*L。
S203、当故障得分大于或等于预设分值时,停止主机和磁盘之间的访问进程。
预设分值可以为整数,例如,80或者70。
当故障得分大于或等于预设分值时,故障隔离装置可以停止主机和磁盘之间的访问进程,即阻断主机和磁盘之间的数据传输。
可选地,为了保证故障得分和预设分值在同一个范围内进行比较,可以对故障得分进行归一化,使其可以与预设分值进行比较。
本申请实施例提供的故障隔离方法,获取运行日志中的报警信息和第一通道状态码,根据报警信息发生的频率、第一通道状态码对应的故障等级评分以及第一通道状态码关联的权重系数,得到通道的故障得分,从频率和通道状态码两个维度计算故障得分,可以提高故障判断的准确率,然后通过预设分值与故障得分的比较,确定通道故障,进而隔离主机和磁盘间的访问,有利于保障主机系统平稳运行。
需要说明的是,上述方法200是以主机和一个磁盘进行数据传输的角度进行描述的,当主机与多个磁盘进行数据传输时,可以复用上述方法200,得到存在故障的通道,进而停止主机使用故障的通道与磁盘进行数据传输。
作为一个可选的实施例,磁盘为一级磁盘时,预设分值为第一预设分值,磁盘为二级磁盘时,预设分值为第二预设分值,第一预设分值与第二预设分值不相等,一级磁盘用于表示与主机直接相连的磁盘,二级磁盘用于表示与主机间接相连的磁盘。
一级磁盘用于表示与主机直接相连的磁盘,即主机与磁盘之间可以直接进行数据传输,无需其他设备中转。二级磁盘用于表示与主机间接相连的磁盘,即主机与磁盘之间不可以直接进行数据传输,需要其他设备(例如以及以及磁盘)中转。
一级磁盘与主机直接相连,对系统运行的影响较直接,二级磁盘与主机间接相连,对系统运行的影响相比一级磁盘的影响较弱,故第一预设分值可以大于第二预设分值。例如,第一预设分值可以为80分,第二预设分值可以为70分。
不同类型的磁盘可以对应不同的预设分值,可以更加准确地对不同通道进行故障检测,适用范围更广。
作为一个可选的实施例,上述方法200还可以包括:获取磁盘关联的通道类型标识,通道类型标识用于指示磁盘为一级磁盘或者二级磁盘;其中,S203、当故障得分大于或等于预设分值时,停止主机和磁盘之间的访问进程,包括:若通道类型标识用于指示磁盘为一级磁盘,则当故障得分大于或等于第一预设分值时,停止主机和磁盘之间的访问进程;或者,若通道类型标识用于指示磁盘为二级磁盘,则当故障得分大于或等于第二预设分值时,停止主机和磁盘之间的访问进程。
通道类型标识用于指示磁盘为一级磁盘或者二级磁盘,其中,通道类型标识也可以称为磁盘标识,本申请实施例对此不作限定。
故障隔离设备可以通过磁盘关联的通道类型标识,判断磁盘为一级磁盘或者二级磁盘。
当磁盘为一级磁盘时,当故障得分大于或等于第一预设分值时,故障隔离设备停止主机和磁盘之间的访问进程。当磁盘为二级磁盘时,当故障得分大于或等于第一预设分值时,故障隔离设备停止主机和磁盘之间的访问进程。
本申请实施例提供的故障隔离方法,可以通过磁盘关联的通道类型标识确定磁盘的类型,并根据不同类型的磁盘使用其对应的预设分值进行比较,以更加灵活的判断通道是否存在故障,可以适用更广的应用范围。
作为一个可选的实施例,上述S203、当故障得分大于或等于预设分值时,停止主机和磁盘之间的访问进程,包括:当故障得分大于或等于预设分值时,重新获取主机和磁盘之间的通道状态码,得到第二通道状态码;当第二通道状态码等于第一通道状态码时,停止主机和磁盘之间的访问进程。
当故障得分大于或等于预设分值时,故障隔离设备重新获取主机和磁盘之间的通道状态码,得到第二通道状态码,以确认主机和磁盘之间的通道的运行状态。若第二通道状态码等于第一通道状态码,则说明主机和磁盘之间的通道的运行状态未发生变化,仍处于故障状态,则停止主机和磁盘之间的访问进程。
若第二通道状态码不等于第一通道状态码,则说明主机和磁盘之间的通道的运行状态发生了变化,需要重新计算故障得分,以便于后续进行正确的处理。
示例性地,若第二通道状态码为在线状态,可以说明主机和磁盘之间的通道正常运行,即发生了从故障状态到在线状态的变化,发生了自恢复的现象,此时,需要重新计算故障得分,以确定是否需要停止主机和磁盘之间的访问进程。
本申请实施例提供的故障隔离方法,在停止主机和磁盘之间的访问进程之前,再次确定主机和磁盘之间的通道的运行状态,在通道运行状态未发生改变的情况下,停止主机和磁盘之间的访问进程,可以确保隔离操作的准确性和必要性。
作为一个可选的实施例,上述方法200还可以包括:检测主机和磁盘之间的访问进程是否处于停止状态;若主机和磁盘之间的访问进程处于停止状态,输出提示信息,提示信息用于指示通道已被隔离。
故障隔离设备在停止主机和磁盘之间的访问进程之后,还可以检测主机和磁盘之间的访问进程是否处于停止状态,即进行复查,确保隔离完成。若主机和磁盘之间的访问进程处于停止状态,则故障隔离设备可以输出提示信息,该提示信息用于指示通道已被隔离。
本申请实施例提供的故障隔离方法,可以对主机和磁盘之间的访问进程进行复查,以确保隔离完成,有利于保障系统的正常运行,同时,还可以输出提示信息,有利于使用户了解到通道已被隔离,有利于提高用户体验。
可选地,上述故障隔离设备输出提示信息有多种可能的实现方式。
在一种可能的实现方式中,故障隔离设备在设备界面显示提示信息。
提示信息通过界面显示,可以使用户更加直观的了解到通道已被隔离。
在另一种可能的实现方式中,故障隔离设备可以通过邮件或者短信的方式向管理人员所关联的设备发送提示信息,以告知管理人员通道已被隔离。
提示信息通过邮件或者短信通知,可以使系统部门和设备部门等相关的管理人员均可以了解到通道已被隔离,有利于后续对故障通道的维护。
基于上述涉及的实施例,本申请还提出一种故障隔离方法300,该方法300与上述方法200是一种具体的实现方式。
图3示出了故障隔离方法300的示意性流程图。如图3所示,该方法300可以包括如下步骤:
S301、获取报警信息。
故障隔离设备可以获取运行日志,在运行日志中获取报警信息。
S302、判断是否为磁盘通道的报警信息。
磁盘通道即主机和磁盘之间进行数据传输的通道,故障隔离设备判断报警信息是否是磁盘通道产生的报警信息。
若报警信息为磁盘通道产生的报警信息,则故障隔离设备可以执行S303;若报警信息不是磁盘通道产生的报警信息,则故障隔离设备将会停止执行方法300。
S303、若报警信息为磁盘通道产生的报警信息,获取通道状态码。
若磁盘通道存在一个,则故障隔离设备可以实时获取该一个磁盘通道关联的通道状态码。若磁盘通道存在多个,则故障隔离设备可以分别实时获取该多个磁盘通道关联的通道状态码。
通道状态码可以包括以下至少一项:在线状态、下线状态、不稳定状态、不存在状态或者管理状态。
S304、将报警信息和通道状态码周期性地保存至统计表。
示例性地,故障隔离设备实时获取报警信息和通道状态码后,可以将获取的信息按日保存至统计表。
S305、根据报警信息的频率、通道状态码对应的故障等级评分以及通道状态码的权重系数,确定故障得分。
该步骤具体可以参考上述方法200中的S202,此处不再赘述。
S306、判断磁盘是否为一级磁盘。
故障隔离设备可以通过磁盘关联的通道类型标识,确定磁盘是否为一级磁盘。若磁盘为一级磁盘,故障隔离设备可以执行S307。若磁盘不为一级磁盘,故障隔离设备可以执行S308。
S307、若磁盘为一级磁盘,判断故障得分是否大于或等于第一预设分值。
一级磁盘和第一预设分值是对应的,故障隔离设备可以将故障得分与第一预设分值进行比较,若故障得分大于或等于第一预设分值,则执行S309;若故障得分小于第一预设分值,则执行S303,即重新获取通道状态再次计算故障得分。
S308、若磁盘为二级磁盘,判断故障得分是否大于或等于第二预设分值。
二级磁盘和第二预设分值是对应的,故障隔离设备可以将故障得分与第二预设分值进行比较,若故障得分大于或等于第二预设分值,则执行S309;若故障得分小于第一预设分值,则执行S303,即重新获取通道状态再次计算故障得分。
S309、停止主机和磁盘之间的访问进程。
当故障得分大于或等于第一预设分值,或者,故障得分大于或等于第二预设分值时,故障隔离设备停止主机和磁盘之间的访问进程,即隔离主机和磁盘之间的数据传输。
S310、检测主机和磁盘之间的访问进程是否处于停止状态。
故障隔离设备在停止主机和磁盘之间的访问进程之后,可以检测访问进程是否处于停止状态以确保隔离完成。
若访问进程均处于停止状态,则故障隔离设备可以执行S311。若访问进程存在未处于停止状态的进行,则故障隔离设备可以执行S309,即继续停止主机和磁盘之间的访问进程
S311、输出提示信息。
若访问进程均处于停止状态,则故障隔离设备可以输出提示信息以用于表示故障已被隔离。
本申请实施例提供的故障隔离方法,获取报警信息和通道状态码,根据报警信息发生的频率、通道状态码对应的故障等级评分以及通道状态码关联的权重系数,得到通道的故障得分,从频率和通道状态码两个维度计算故障得分,可以提高故障判断的准确率,同时,不同类型的磁盘可以对应不同的预设分值,可以更加准确地对不同通道进行故障检测,适用范围更广,通过预设分值与故障得分的比较,确定通道故障,进而隔离主机和磁盘间的访问,有利于保障主机系统平稳运行,另外,还可以对主机和磁盘之间的访问进程进行复查,以确保隔离完成,有利于保障系统的正常运行,且可以输出提示信息,有利于使用户了解到通道已被隔离,有利于提高用户体验。
上文中结合图1至图3,详细描述了本申请实施例提供的故障隔离方法,下面将结合图4和图5,详细描述本申请实施例提供的故障隔离装置。
图4示出了本申请实施例提供的一种故障隔离装置400。该故障隔离装置400包括:获取模块410和处理模块420。获取模块410用于:获取主机和磁盘之间的运行日志和第一通道状态码,第一通道状态码用于表示主机和磁盘之间的通道的运行状态;处理模块420用于:根据运行日志中报警信息发生的频率、第一通道状态码对应的故障等级评分以及第一通道状态码关联的权重系数,确定通道的故障得分,报警信息用于表示通道存在异常;以及,当故障得分大于或等于预设分值时,停止主机和磁盘之间的访问进程。
可选地,上述磁盘为一级磁盘时,预设分值为第一预设分值,磁盘为二级磁盘时,预设分值为第二预设分值,第一预设分值与第二预设分值不相等,一级磁盘用于表示与主机直接相连的磁盘,二级磁盘用于表示与主机间接相连的磁盘。
可选地,上述获取模块410还用于:获取磁盘关联的通道类型标识,通道类型标识用于指示磁盘为一级磁盘或者二级磁盘;处理模块420还用于:若通道类型标识用于指示磁盘为一级磁盘,则当故障得分大于或等于第一预设分值时,停止主机和磁盘之间的访问进程;或者,若通道类型标识用于指示磁盘为二级磁盘,则当故障得分大于或等于第二预设分值时,停止主机和磁盘之间的访问进程。
可选地,上述处理模块420还用于:当故障得分大于或等于预设分值时,重新获取主机和磁盘之间的通道状态码,得到第二通道状态码;当第二通道状态码等于第一通道状态码时,停止主机和磁盘之间的访问进程。
可选地,上述处理模块420还用于:检测主机和磁盘之间的访问进程是否处于停止状态;若主机和磁盘之间的访问进程处于停止状态,输出提示信息,提示信息用于指示通道已被隔离。
可选地,上述第一通道状态码包括以下至少一项:在线状态、下线状态、不稳定状态、不存在状态或者管理状态。
应理解,这里的装置400以功能模块的形式体现。这里的术语“模块”可以指应用特有集成电路(application specific integrated circuit,ASIC)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。在一个可选例子中,本领域技术人员可以理解,该装置400可以具体为上述实施例中的故障隔离设备,或者,上述实施例中故障隔离设备的功能可以集成在该装置400中,该装置400可以用于执行上述方法实施例中与故障隔离设备对应的各个流程和/或步骤,为避免重复,在此不再赘述。
上述装置400具有实现上述方法200中故障隔离设备执行的相应步骤的功能;上述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。例如,上述获取模块可以为通信接口,例如收发接口。
图5示出了本申请实施例提供的一种故障隔离装置500。该故障隔离装置500包括:处理器510、通信接口520和存储器530。其中,处理器510、通信接口520和存储器530通过内部连接通路互相通信,该存储器530用于存储指令,该处理器510用于执行该存储器530存储的指令,以控制该通信接口发送信号和/或接收信号。
应理解,该装置500可以用于执行上述方法实施例中与故障隔离设备对应的各个步骤和/或流程。可选地,该存储器530可以包括只读存储器和随机存取存储器,并向处理器510提供指令和数据。存储器530的一部分还可以包括非易失性随机存取存储器。例如,存储器530还可以存储设备类型的信息。该处理器510可以用于执行存储器530中存储的指令,并且当该处理器510执行存储器530中存储的指令时,该处理器510用于执行上述与该故障隔离设备对应的方法实施例的各个步骤和/或流程。
应理解,在本申请实施例中,上述装置500的处理器510可以是中央处理单元(central processing unit,CPU),该处理器510还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器执行存储器中的指令,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本申请提供一种可读计算机存储介质,该可读计算机存储介质用于存储计算机程序,该计算机程序用于实现上述实施例中故障隔离设备对应的方法。
本申请提供了一种计算机程序产品,该计算机程序产品包括计算机程序(也可以称为代码,或指令),当该计算机程序在计算机上运行时,该计算机可以执行上述实施例中故障隔离设备对应的方法。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (15)

1.一种故障隔离方法,其特征在于,包括:
获取主机和磁盘之间的运行日志和第一通道状态码,所述第一通道状态码用于表示所述主机和所述磁盘之间的通道的运行状态;
根据所述运行日志中报警信息发生的频率、所述第一通道状态码对应的故障等级评分以及所述第一通道状态码关联的权重系数,确定所述通道的故障得分,所述报警信息用于表示所述通道存在异常;
当所述故障得分大于或等于预设分值时,停止所述主机和所述磁盘之间的访问进程。
2.根据权利要求1所述的方法,其特征在于,所述磁盘为一级磁盘时,所述预设分值为第一预设分值,所述磁盘为二级磁盘时,所述预设分值为第二预设分值,所述第一预设分值与所述第二预设分值不相等,所述一级磁盘用于表示与所述主机直接相连的磁盘,所述二级磁盘用于表示与所述主机间接相连的磁盘。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取所述磁盘关联的通道类型标识,所述通道类型标识用于指示所述磁盘为所述一级磁盘或者所述二级磁盘;
其中,当所述故障得分大于或等于预设分值时,停止所述主机和所述磁盘之间的访问进程,包括:
若所述通道类型标识用于指示所述磁盘为所述一级磁盘,则当所述故障得分大于或等于所述第一预设分值时,停止所述主机和所述磁盘之间的访问进程;或者,
若所述通道类型标识用于指示所述磁盘为所述二级磁盘,则当所述故障得分大于或等于所述第二预设分值时,停止所述主机和所述磁盘之间的访问进程。
4.根据权利要求1所述的方法,其特征在于,所述当所述故障得分大于或等于预设分值时,停止所述主机和所述磁盘之间的访问进程,包括:
当所述故障得分大于或等于所述预设分值时,重新获取所述主机和所述磁盘之间的通道状态码,得到第二通道状态码;
当所述第二通道状态码等于所述第一通道状态码时,停止所述主机和所述磁盘之间的访问进程。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
检测所述主机和所述磁盘之间的访问进程是否处于停止状态;
若所述主机和所述磁盘之间的访问进程处于停止状态,输出提示信息,所述提示信息用于指示所述通道已被隔离。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述第一通道状态码包括以下至少一项:
在线状态、下线状态、不稳定状态、不存在状态或者管理状态。
7.一种故障隔离装置,其特征在于,包括:
获取模块,用于获取主机和磁盘之间的运行日志和第一通道状态码,所述第一通道状态码用于表示所述主机和所述磁盘之间的通道的运行状态;
处理模块,用于根据所述运行日志中报警信息发生的频率、所述第一通道状态码对应的故障等级评分以及所述第一通道状态码关联的权重系数,确定所述通道的故障得分,所述报警信息用于表示所述通道存在异常;以及,
当所述故障得分大于或等于预设分值时,停止所述主机和所述磁盘之间的访问进程。
8.根据权利要求7所述的装置,其特征在于,所述磁盘为一级磁盘时,所述预设分值为第一预设分值,所述磁盘为二级磁盘时,所述预设分值为第二预设分值,所述第一预设分值与所述第二预设分值不相等,所述一级磁盘用于表示与所述主机直接相连的磁盘,所述二级磁盘用于表示与所述主机间接相连的磁盘。
9.根据权利要求8所述的装置,其特征在于,所述获取模块还用于:
获取所述磁盘关联的通道类型标识,所述通道类型标识用于指示所述磁盘为所述一级磁盘或者所述二级磁盘;
所述处理模块还用于:
若所述通道类型标识用于指示所述磁盘为所述一级磁盘,则当所述故障得分大于或等于所述第一预设分值时,停止所述主机和所述磁盘之间的访问进程;或者,
若所述通道类型标识用于指示所述磁盘为所述二级磁盘,则当所述故障得分大于或等于所述第二预设分值时,停止所述主机和所述磁盘之间的访问进程。
10.根据权利要求7所述的装置,其特征在于,所述处理模块还用于:
当所述故障得分大于或等于所述预设分值时,重新获取所述主机和所述磁盘之间的通道状态码,得到第二通道状态码;
当所述第二通道状态码等于所述第一通道状态码时,停止所述主机和所述磁盘之间的访问进程。
11.根据权利要求7所述的装置,其特征在于,所述处理模块还用于:
检测所述主机和所述磁盘之间的访问进程是否处于停止状态;
若所述主机和所述磁盘之间的访问进程处于停止状态,输出提示信息,所述提示信息用于指示所述通道已被隔离。
12.根据权利要求7至11中任一项所述的装置,其特征在于,所述第一通道状态码包括以下至少一项:
在线状态、下线状态、不稳定状态、不存在状态或者管理状态。
13.一种故障隔离装置,其特征在于,包括:处理器,所述处理器与存储器耦合,所述存储器用于存储计算机程序,当所述处理器调用所述计算机程序时,使得所述装置执行权利要求1至6中任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序包括用于实现如权利要求1至6中任一项所述的方法的指令。
15.一种计算机程序产品,所述计算机程序产品中包括计算机程序代码,其特征在于,当所述计算机程序代码在计算机上运行时,使得计算机实现如权利要求1至6中任一项所述的方法。
CN202210205428.4A 2022-03-02 2022-03-02 故障隔离方法和故障隔离装置 Pending CN114661506A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210205428.4A CN114661506A (zh) 2022-03-02 2022-03-02 故障隔离方法和故障隔离装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210205428.4A CN114661506A (zh) 2022-03-02 2022-03-02 故障隔离方法和故障隔离装置

Publications (1)

Publication Number Publication Date
CN114661506A true CN114661506A (zh) 2022-06-24

Family

ID=82028029

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210205428.4A Pending CN114661506A (zh) 2022-03-02 2022-03-02 故障隔离方法和故障隔离装置

Country Status (1)

Country Link
CN (1) CN114661506A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115576724A (zh) * 2022-09-19 2023-01-06 成都飞机工业(集团)有限责任公司 Piu子系统的故障隔离方法、装置、设备、介质及产品

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115576724A (zh) * 2022-09-19 2023-01-06 成都飞机工业(集团)有限责任公司 Piu子系统的故障隔离方法、装置、设备、介质及产品
CN115576724B (zh) * 2022-09-19 2024-04-12 成都飞机工业(集团)有限责任公司 Piu子系统的故障隔离方法、装置、设备、介质及产品

Similar Documents

Publication Publication Date Title
CN112162878B (zh) 数据库故障发现方法、装置、电子设备及存储介质
CN108989135B (zh) 网络设备故障检测方法及装置
CN110213068A (zh) 一种消息中间件的监控方法及相关设备
CN111708650B (zh) 一种业务应用系统高可用性分析方法及系统
US10185614B2 (en) Generic alarm correlation by means of normalized alarm codes
CN114357495B (zh) 基于区块链的预言机链下聚合方法、装置、设备和介质
CN116502166B (zh) 一种对目标设备故障预测的方法、装置、设备和介质
CN110275992A (zh) 应急处理方法、装置、服务器及计算机可读存储介质
CN114661506A (zh) 故障隔离方法和故障隔离装置
CN113485862B (zh) 业务故障的管理方法、装置、电子设备及存储介质
US11165665B2 (en) Apparatus and method to improve precision of identifying a range of effects of a failure in a system providing a multilayer structure of services
CN113608908B (zh) 服务器故障处理方法、系统、设备及可读存储介质
CN110874311A (zh) 数据库检测方法、装置、计算机设备和存储介质
US10547529B2 (en) Availability counting apparatus and method
CN111506455B (zh) 服务发布结果的查验方法及装置
CN115883340A (zh) 一种基于hplc和hrf双模通信故障处理方法和设备
CN111835566A (zh) 一种系统故障管理方法、装置及系统
CN111143325B (zh) 一种数据采集的监测方法、监测装置及可读存储介质
CN111581062A (zh) 服务的故障处理方法及服务器
CN112965791A (zh) 定时任务检测方法、装置、设备及存储介质
CN110768904A (zh) 电力通信网的业务通信检测方法、装置、终端及存储介质
CN116501585A (zh) 日志处理方法、电子设备及日志处理系统
CN114647574A (zh) 问题定位方法、装置及存储介质
CN116361093A (zh) 硬件设备的故障预测方法、故障预测装置、电子设备
CN115499295A (zh) 服务器故障上报方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination