CN105893190A - 多路径io错误的诊断处理方法及系统 - Google Patents

多路径io错误的诊断处理方法及系统 Download PDF

Info

Publication number
CN105893190A
CN105893190A CN201610487958.7A CN201610487958A CN105893190A CN 105893190 A CN105893190 A CN 105893190A CN 201610487958 A CN201610487958 A CN 201610487958A CN 105893190 A CN105893190 A CN 105893190A
Authority
CN
China
Prior art keywords
event
multipath
frequency
error
event type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610487958.7A
Other languages
English (en)
Inventor
宗栋瑞
郭美思
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201610487958.7A priority Critical patent/CN105893190A/zh
Publication of CN105893190A publication Critical patent/CN105893190A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2089Redundant storage control functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • G06F11/2221Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test input/output devices or peripheral units

Abstract

本发明公开了一种多路径IO错误的诊断处理方法及系统,包括:统计多路径IO事件源中每种错误事件的事件类型的发生次数;检测在第一预定时长内是否存在发生次数大于N的事件类型;若存在,则将所述发生次数大于N的事件类型所对应的错误事件,标记为多路径IO故障格式事件;其中,N为正整数;判断所述多路径IO故障格式事件的事件类型是否为多路径IO链路失败;若是,则生成与所述多路径IO故障格式事件相对应的提示信息;可见,当检测到linux多路径IO发生错误时,根据诊断的多路径IO错误事件进行分类并处理,例如当检测到错误事件为多路径IO链路失败时,则发出警告信息,以提示用户,防止用户使用不可靠链路。

Description

多路径IO错误的诊断处理方法及系统
技术领域
本发明涉及错误诊断技术领域,更具体地说,涉及一种多路径IO错误的诊断处理方法及系统。
背景技术
随着网络时代的发展,人们的生活方式发生了改变。人们可以通过网络查找资料、学习资料,存储资料。人们的交流与沟通,工作方式也变得更加便捷。通过计算机存储重要数据已经成为了一种习惯。多路径IO是一项为存储设备使用多个数据路径提供支持的功能。多路径功能通过从服务器或群集到存储子系统提供多个路径(路径故障转移)提高了可用性。通过多条路径访问同一个块设备,可以有效提高存储系统的可靠性。如果多路径IO链路发生了错误,则会影响链路的可靠性及可用性。
因此,如何对多路径IO错误进行处理,避免多路径IO链路发生了错误是本领域技术人员需要解决的问题。
发明内容
本发明的目的在于提供一种多路径IO错误的诊断处理方法及系统,以实现对多路径IO错误进行处理,避免多路径IO链路发生了错误。
为实现上述目的,本发明实施例提供了如下技术方案:
一种多路径IO错误的诊断处理方法,包括:
统计多路径IO事件源中每种错误事件的事件类型的发生次数;
检测在第一预定时长内是否存在发生次数大于N的事件类型;
若存在,则将所述发生次数大于N的事件类型所对应的错误事件,标记为多路径IO故障格式事件;其中,N为正整数;
判断所述多路径IO故障格式事件的事件类型是否为多路径IO链路失败;
若是,则生成与所述多路径IO故障格式事件相对应的提示信息。
其中,生成与所述多路径IO故障格式事件相对应的提示信息之后,还包括:
生成与所述多路径IO故障格式事件相对应的日志文件。
其中,所述统计多路径IO事件源中每种错误事件的事件类型的发生次数,包括:
触发计时器开始计时;
依次分析多路径IO事件源中的错误事件的事件类型,并将每种事件类型的错误事件的发生次数记录到对应的计数器。
其中,所述检测在第一预定时长内是否存在发生次数大于N的事件类型;若存在,则将所述发生次数大于N的事件类型所对应的错误事件,标记为多路径IO故障格式事件,包括:
实时检测所述计时器的计时时长是否为第一预定时长;
若是,则将所述计数器中发生次数大于N次的事件类型对应的错误事件标记为多路径IO故障格式事件。
其中,当所述计时器的计时时长为第一预定时长,且间隔第二预定时长后,重新触发所述计时器清零并开始计时,重新触发所述计数器清零并开始计数。
其中,检测在第一预定时长内是否存在发生次数大于N的事件类型,包括:
检测在72小时内是否存在发生次数大于3的事件类型。
一种多路径IO错误的诊断处理系统,包括:
统计模块,用于统计多路径IO事件源中每种错误事件的事件类型的发生次数;
检测模块,用于检测在第一预定时长内是否存在发生次数大于N的事件类型;若存在,则触发标记模块;
所述标记模块,用于将所述发生次数大于N的事件类型所对应的错误事件,标记为多路径IO故障格式事件;其中,N为正整数;
判断模块,用于判断所述多路径IO故障格式事件的事件类型是否为多路径IO链路失败;若是,则触发提示信息生成模块;
所述提示信息生成模块,用于生成与所述多路径IO故障格式事件相对应的提示信息。
其中,还包括:
日志文件生成模块,用于生成与所述多路径IO故障格式事件相对应的日志文件。
其中,所述统计模块包括:
计时模块,用于触发计时器开始计时;
计数模块,用于统计每种事件类型的发生次数,并记录到对应的计数器。
其中,所述检测模块具体用于检测在72小时内是否存在发生次数大于3的事件类型。
通过以上方案可知,本发明实施例提供的一种多路径IO错误的诊断处理方法,包括:统计多路径IO事件源中每种错误事件的事件类型的发生次数;检测在第一预定时长内是否存在发生次数大于N的事件类型;若存在,则将所述发生次数大于N的事件类型所对应的错误事件,标记为多路径IO故障格式事件;其中,N为正整数;判断所述多路径IO故障格式事件的事件类型是否为多路径IO链路失败;若是,则生成与所述多路径IO故障格式事件相对应的提示信息;可见,在本实施例中,当检测到linux多路径IO发生错误时,根据诊断的多路径IO错误事件进行分类并处理,例如当检测到错误事件为多路径IO链路失败时,则发出警告信息,以提示用户,防止用户使用不可靠链路;本发明还公开了一种多路径IO错误的诊断处理系统,同样能实现上述技术效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例公开的一种多路径IO错误的诊断处理方法流程示意图;
图2为本发明实施例公开的一种多路径IO错误的诊断处理系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种多路径IO错误的诊断处理方法及系统,以实现对多路径IO错误进行处理,避免多路径IO链路发生了错误。
参见图1,本发明实施例提供的一种多路径IO错误的诊断处理方法,包括:
S101、统计多路径IO事件源中每种错误事件的事件类型的发生次数;
其中,统计多路径IO事件源中每种错误事件的事件类型的发生次数包括:
触发计时器开始计时;
依次分析多路径IO事件源中的错误事件的事件类型,并将每种事件类型的错误事件的发生次数记录到对应的计数器。
具体的,在本实施例中统计每种事件类型的发生次数的同时需要计时;这里的统计每种事件类型的发生次数为:记录同一种类型的发生次数,例如:若依次分析出多路径IO事件源中的错误事件的事件类型为:
A,A,A,B,B,C,C,C,C,F;则每个事件类型的发生次数为:A的发生次数为3,B的发生次数为2,C的发生次数为4,F的发生次数为1。
S102、检测在第一预定时长内是否存在发生次数大于N的事件类型;若存在,则执行S103、将所述发生次数大于N的事件类型所对应的错误事件,标记为多路径IO故障格式事件;其中,N为正整数;
其中,S102和S103可以理解为:
实时检测所述计时器的计时时长是否为第一预定时长;
若是,则将所述计数器中发生次数大于N次的事件类型对应的错误事件标记为多路径IO故障格式事件。
具体的,在本实施例中,根据多路径IO事件源中的错误事件进行诊断,诊断原则是根据规则进行分析,规则是指在一定时间T内,同一类事件发生N次,则说明会产生故障,并将发生次数大于N次的事件类型对应的错误事件标记为多路径IO故障格式事件。
其中,检测在第一预定时长内是否存在发生次数大于N的事件类型,包括:检测在72小时内是否存在发生次数大于3的事件类型。
具体的,上述的诊断原则可以根据用户的经验值进行设定,例如设定诊断原则为:engine serd.io.mpio{N=3,T=72小时};即在72小时某类事件的发生次数为3。
例如在上文所记载的例子中,A的发生次数为3,B的发生次数为2,C的发生次数为4,F的发生次数为1,以上即为72小时内不同事件类型的发生次数;若设定N为3,可见,则只有事件类型为C的错误事件的发生次数大于3,则么将事件类型为C的错误事件标记为多路径IO故障格式事件。
其中,当所述计时器的计时时长为第一预定时长,且间隔第二预定时长后,重新触发所述计时器清零并开始计时,重新触发所述计数器清零并开始计数。
可以理解的是,在本实施例中,检测第一预定时长为T后,可以停止第二预定时长之后,再进行检测,这里的第二预定时长可以自行设置;例如:若想时间间隔小,则设置第二预定时长为15s,若想时间间隔长,则可以设置预定时长为1小时。
S104、判断所述多路径IO故障格式事件的事件类型是否为多路径IO链路失败;若是,则执行S105、生成与所述多路径IO故障格式事件相对应的提示信息。
具体的,在本实施例中对多路径IO事件进行诊断后,根据多路径IO故障格式事件的故障类型,调用相应的处理接口;例如如用户告警,提示用户信息等。
其中,生成与所述多路径IO故障格式事件相对应的提示信息之后,还包括:
生成与所述多路径IO故障格式事件相对应的日志文件。
具体的,为例清楚的了解多路径IO出现的故障的具体信息,生成与多路径IO故障格式事件所对应的日志文件;日志文件中至少包括了事件类型,事件发生次数、事件发生时间,事件如何处理等详细信息。
下面对本发明实施例提供的诊断处理系统进行介绍,下文描述的诊断处理系统与上文描述的诊断处理方法可以相互参照。
参见图2,本发明实施例提供的一种多路径IO错误的诊断处理系统,包括:
统计模块100,用于统计多路径IO事件源中每种错误事件的事件类型的发生次数;
检测模块200,用于检测在第一预定时长内是否存在发生次数大于N的事件类型;若存在,则触发标记模块300;
所述标记模块300,用于将所述发生次数大于N的事件类型所对应的错误事件,标记为多路径IO故障格式事件;其中,N为正整数;
判断模块400,用于判断所述多路径IO故障格式事件的事件类型是否为多路径IO链路失败;若是,则触发提示信息生成模块;
所述提示信息生成模块500,用于生成与所述多路径IO故障格式事件相对应的提示信息。
基于上述技术方案,本方案还包括:
日志文件生成模块,用于生成与所述多路径IO故障格式事件相对应的日志文件。
基于上述技术方案,所述统计模块包括:
计时模块,用于触发计时器开始计时;
计数模块,用于统计每种事件类型的发生次数,并记录到对应的计数器。
其中,所述检测模块具体用于检测在72小时内是否存在发生次数大于3的事件类型。
本发明实施例提供的一种多路径IO错误的诊断处理方法,包括:统计多路径IO事件源中每种错误事件的事件类型的发生次数;检测在第一预定时长内是否存在发生次数大于N的事件类型;若存在,则将所述发生次数大于N的事件类型所对应的错误事件,标记为多路径IO故障格式事件;其中,N为正整数;判断所述多路径IO故障格式事件的事件类型是否为多路径IO链路失败;若是,则生成与所述多路径IO故障格式事件相对应的提示信息;可见,在本实施例中,当检测到linux多路径IO发生错误时,根据诊断的多路径IO错误事件进行分类并处理,例如当检测到错误事件为多路径IO链路失败时,则发出警告信息,以提示用户,防止用户使用不可靠链路;本发明还公开了一种多路径IO错误的诊断处理系统,同样能实现上述技术效果。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种多路径IO错误的诊断处理方法,其特征在于,包括:
统计多路径IO事件源中每种错误事件的事件类型的发生次数;
检测在第一预定时长内是否存在发生次数大于N的事件类型;
若存在,则将所述发生次数大于N的事件类型所对应的错误事件,标记为多路径IO故障格式事件;其中,N为正整数;
判断所述多路径IO故障格式事件的事件类型是否为多路径IO链路失败;
若是,则生成与所述多路径IO故障格式事件相对应的提示信息。
2.根据权利要求1所述的诊断处理方法,其特征在于,生成与所述多路径IO故障格式事件相对应的提示信息之后,还包括:
生成与所述多路径IO故障格式事件相对应的日志文件。
3.根据权利要求2所述的诊断处理方法,其特征在于,所述统计多路径IO事件源中每种错误事件的事件类型的发生次数,包括:
触发计时器开始计时;
依次分析多路径IO事件源中的错误事件的事件类型,并将每种事件类型的错误事件的发生次数记录到对应的计数器。
4.根据权利要求3所述的诊断处理方法,其特征在于,所述检测在第一预定时长内是否存在发生次数大于N的事件类型;若存在,则将所述发生次数大于N的事件类型所对应的错误事件,标记为多路径IO故障格式事件,包括:
实时检测所述计时器的计时时长是否为第一预定时长;
若是,则将所述计数器中发生次数大于N次的事件类型对应的错误事件标记为多路径IO故障格式事件。
5.根据权利要求4所述的诊断处理方法,其特征在于,
当所述计时器的计时时长为第一预定时长,且间隔第二预定时长后,重新触发所述计时器清零并开始计时,重新触发所述计数器清零并开始计数。
6.根据权利要求5所述的诊断处理方法,其特征在于,检测在第一预定时长内是否存在发生次数大于N的事件类型,包括:
检测在72小时内是否存在发生次数大于3的事件类型。
7.一种多路径IO错误的诊断处理系统,其特征在于,包括:
统计模块,用于统计多路径IO事件源中每种错误事件的事件类型的发生次数;
检测模块,用于检测在第一预定时长内是否存在发生次数大于N的事件类型;若存在,则触发标记模块;
所述标记模块,用于将所述发生次数大于N的事件类型所对应的错误事件,标记为多路径IO故障格式事件;其中,N为正整数;
判断模块,用于判断所述多路径IO故障格式事件的事件类型是否为多路径IO链路失败;若是,则触发提示信息生成模块;
所述提示信息生成模块,用于生成与所述多路径IO故障格式事件相对应的提示信息。
8.根据权利要求7所述的诊断处理系统,其特征在于,还包括:
日志文件生成模块,用于生成与所述多路径IO故障格式事件相对应的日志文件。
9.根据权利要求8所述的诊断处理系统,其特征在于,所述统计模块包括:
计时模块,用于触发计时器开始计时;
计数模块,用于统计每种事件类型的发生次数,并记录到对应的计数器。
10.根据权利要求9所述的诊断处理系统,其特征在于,所述检测模块具体用于检测在72小时内是否存在发生次数大于3的事件类型。
CN201610487958.7A 2016-06-28 2016-06-28 多路径io错误的诊断处理方法及系统 Pending CN105893190A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610487958.7A CN105893190A (zh) 2016-06-28 2016-06-28 多路径io错误的诊断处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610487958.7A CN105893190A (zh) 2016-06-28 2016-06-28 多路径io错误的诊断处理方法及系统

Publications (1)

Publication Number Publication Date
CN105893190A true CN105893190A (zh) 2016-08-24

Family

ID=56718428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610487958.7A Pending CN105893190A (zh) 2016-06-28 2016-06-28 多路径io错误的诊断处理方法及系统

Country Status (1)

Country Link
CN (1) CN105893190A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106788922A (zh) * 2016-12-30 2017-05-31 郑州云海信息技术有限公司 一种多路径io调整方法和装置
CN108984120A (zh) * 2018-06-29 2018-12-11 郑州云海信息技术有限公司 存储设备路径错误的处理方法以及相关装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6326802A (ja) * 1986-07-18 1988-02-04 Nec Corp 大容量記憶装置媒体の管理方式
JPH01307080A (ja) * 1988-06-03 1989-12-12 Nec Corp 集合型記憶装置における記憶媒体管理方式
JPH02224035A (ja) * 1989-02-27 1990-09-06 Nec Corp 入出力エラー通知方式
CN103001998A (zh) * 2011-12-19 2013-03-27 深圳市安云信息科技有限公司 一种fc-san存储系统及提高光纤通道稳定性的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6326802A (ja) * 1986-07-18 1988-02-04 Nec Corp 大容量記憶装置媒体の管理方式
JPH01307080A (ja) * 1988-06-03 1989-12-12 Nec Corp 集合型記憶装置における記憶媒体管理方式
JPH02224035A (ja) * 1989-02-27 1990-09-06 Nec Corp 入出力エラー通知方式
CN103001998A (zh) * 2011-12-19 2013-03-27 深圳市安云信息科技有限公司 一种fc-san存储系统及提高光纤通道稳定性的方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106788922A (zh) * 2016-12-30 2017-05-31 郑州云海信息技术有限公司 一种多路径io调整方法和装置
CN108984120A (zh) * 2018-06-29 2018-12-11 郑州云海信息技术有限公司 存储设备路径错误的处理方法以及相关装置
CN108984120B (zh) * 2018-06-29 2021-11-09 郑州云海信息技术有限公司 存储设备路径错误的处理方法以及相关装置

Similar Documents

Publication Publication Date Title
CN105659215B (zh) 一种故障处理方法、相关装置及计算机
CN104113386B (zh) 一种监控以太网时钟同步的方法及装置
CN103401698B (zh) 用于服务器集群运算中对服务器状况报警的监控系统
CN104796273A (zh) 一种网络故障根源诊断的方法和装置
US8042004B2 (en) Diagnosing communications between computer systems
CN102231161A (zh) 数据库同步验证及监控方法
JP2004086792A (ja) 障害情報収集プログラムおよび障害情報収集装置
CN103019866A (zh) 基于消息队列的分布式方法和系统
US20070061628A1 (en) System and method for examining remote systems and gathering debug data in real time
CN103166778A (zh) 一种故障自动化智能处理方法及其装置
CN102957550A (zh) 基于日志检测的告警方法及系统
CN108197008A (zh) 一种日志收集方法、系统、装置及计算机可读存储介质
CN102567185A (zh) 一种应用服务器的监控方法
CN109710501A (zh) 一种服务器数据传输稳定性的检测方法和系统
CN106201753B (zh) 一种基于linux中PCIE错误的处理方法及系统
CN102609350A (zh) 一种服务器内存故障报警方法
CN105743699A (zh) 一种虚拟化环境的故障预警方法及系统
CN111130951B (zh) 设备状态检测方法、装置及存储介质
CN103607346B (zh) 可信路由器中ospf协议的异常和攻击检测方法
CN105893190A (zh) 多路径io错误的诊断处理方法及系统
CN103870349B (zh) 用于数据处理系统的配置管理装置及方法
CN110489260A (zh) 故障识别方法、装置及bmc
CN102281103A (zh) 基于模糊集合解算的光网络多故障恢复方法
WO2016086638A1 (zh) 一种实现链路检测的方法、装置及计算机存储介质
CN108449212B (zh) 基于事件关联的mas消息传递方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160824

RJ01 Rejection of invention patent application after publication