CN107291591A - 一种存储故障修复方法及装置 - Google Patents

一种存储故障修复方法及装置 Download PDF

Info

Publication number
CN107291591A
CN107291591A CN201710447518.3A CN201710447518A CN107291591A CN 107291591 A CN107291591 A CN 107291591A CN 201710447518 A CN201710447518 A CN 201710447518A CN 107291591 A CN107291591 A CN 107291591A
Authority
CN
China
Prior art keywords
failure
service mode
information
repairing
storage system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710447518.3A
Other languages
English (en)
Inventor
张建刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201710447518.3A priority Critical patent/CN107291591A/zh
Publication of CN107291591A publication Critical patent/CN107291591A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based

Landscapes

  • Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种存储故障修复方法及装置,该方法的步骤包括:接收由故障所产生的故障上报信息,并启动维护模式;根据故障上报信息确定故障所在的IO组,并设定维护模式的作用范围为IO组;在维护模式中修复故障,并阻止接收由于修复故障而引发的关联故障上报信息。本发明所提供的方法中,存储系统在接收故障上报信息并修复对应的故障时,阻止接收由于修复当前故障而引发的新故障的上报信息。大大降低了存储系统的资源开销,提高了存储系统的工作性能。另外,存储系统只是将故障所在的IO组作为修复的范围,减少了不必要的资源开销,提高了存储系统的工作性能。此外,存储故障修复装置同样具有上述效果。

Description

一种存储故障修复方法及装置
技术领域
本发明涉及系统维护领域,特别是涉及一种存储故障修复方法及装置。
背景技术
在处于大数据时代的当下,存储系统作为数据存储及数据处理的基础被广泛使用于各个领域。而对于存储系统的故障维护是对存储系统能够正常工作的有力保障。
当前技术下,对存储系统的存储故障进行修复时,往往需要涉及到对于现场可更换单元(FRU)的卸载或更换等修复操作,而FRU通常会与其它组件之间存在依赖关系。因此在对FRU进行修复操作时,经常会出现FRU所依赖的其它组件发生故障并进行故障上报的情况。当所修复的FRU依赖的其它组件数量较多时,存储系统需要开启多个修复行为的任务以处理众多的故障上报。但是在FRU修复结束后,其所依赖的其它组件的故障往往可以自动修复而并不需要存储系统开启多个修复行为的任务以进行处理,存储系统开启多个修复行为的任务会大大减少其自身内部的可用资源,进而会影响对数据的处理速度等性能。另一方面,对存储故障进行FRU修复时,存储系统会将自身整体都作为修复的范围。这样做存储系统自身会被占用额外的资源以接收和处理与FRU依赖性并不大的组件的故障上报,进而影响自身的工作性能。
由此可见,提供一种存储故障修复方法以降低在修复存储故障时存储系统被占用的资源量,进而提高存储系统的工作性能,是本领域技术人员亟待解决的问题。
发明内容
本发明的目的是提供一种存储故障修复方法及装置,减少了存储系统由于修复所引发的任务数量,并且防止了存储系统对于故障的并发修复。
为解决上述技术问题,本发明提供一种存储故障修复方法,包括:
接收由故障所产生的故障上报信息,并启动维护模式;
根据故障上报信息确定故障所在的IO组,并设定维护模式的作用范围为IO组;
在维护模式中修复故障,并阻止接收由于修复故障而引发的关联故障上报信息。
优选的,该方法进一步包括:
判断在规定时间内故障的修复是否完成,如果是,则退出维护模式;如果否,则终止修复并退出维护模式。
优选的,当在维护模式中修复故障时,该方法进一步包括:
阻止客户端上报新故障上报信息。
优选的,阻止客户端上报新故障上报信息具体为:
通过同步锁机制阻止客户端上报新故障上报信息。
优选的,当判断在规定时间内故障的修复是否完成的结果为是时,在退出维护模式后,该方法进一步包括:
统计当前仍存在的未修复故障的数量,并记录未修复故障的故障上报信息。
优选的,故障上报信息具体为故障的事件标示及配置文件。
此外,本发明还提供一种存储故障修复装置,包括:
启动维护模块,用于接收由故障所产生的故障上报信息,并启动维护模式;
范围设定模块,用于根据故障上报信息确定故障所在的IO组,并设定维护模式的作用范围为IO组;
同步修复模块,用于在维护模式中修复故障,并阻止接收由于修复故障而引发的关联故障上报信息。
优选的,还包括:
判断模块,用于判断在规定时间内故障的修复是否完成;
如果是,则触发退出模块,否则,触发终止模块,
退出模块,用于退出维护模式;
终止模块,用于终止修复并退出维护模式。
优选的,进一步包括:
阻止上报模块,用于当维护模式中修复故障时,阻止客户端上报新故障上报信息。
本发明所提供的存储故障修复方法,存储系统在接收故障上报信息并修复对应的故障时,阻止接收由于修复当前故障而引发的新故障的上报信息。这样做避免了存储系统需要开启多个修复行为的任务以处理众多的故障上报的情况,进而大大降低了存储系统的资源开销,提高了存储系统的工作性能。另一方面,存储系统只是将故障所在的IO组作为修复的范围,保证了每个IO组之间的独立性并且只对某一个IO组中的组件进行修复处理,也能保证不会占用额外的资源去监听或处理与所修复故障关系不大的组件的故障上报,进而减少了不必要的资源开销,同时提高了存储系统的工作性能。此外,本发明还提供一种存储故障修复装置,有益效果如上所述。
附图说明
为了更清楚地说明本发明实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种存储故障修复方法的流程图;
图2为本发明实施例提供的另一种存储故障修复方法的流程图;
图3为本发明实施例提供的另一种存储故障修复方法的流程图;
图4为本发明实施例提供的一种存储故障修复装置结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本发明保护范围。
本发明的核心是提供一种存储故障修复方法,减少了存储系统不必要的资源开销,进而提高了存储系统的工作性能。此外,本发明的核心还提供一种存储故障修复装置。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。
实施例一
图1为本发明实施例提供的一种存储故障修复方法的流程图。请参考图1,存储故障修复方法的具体步骤包括:
步骤S10:接收由故障所产生的故障上报信息,并启动维护模式。
在本步骤中,启动维护模式的目的在于为存储故障的修复提供一个单独的处理模式,以便能够与其他的模式分开展现或管理,也更能体现出进行存储故障修复时的独立性,且后续的故障修复步骤均在此模式中进行。
作为一种优选的实施方式,故障上报信息具体为故障的事件标示及配置文件。
可以理解的是,故障的事件标示及配置文件可以明确反映出故障的具体情况信息。另外,在其他实施例中,故障上报信息还可以包含故障的其它信息,本实施例不再赘述。
步骤S11:根据故障上报信息确定故障所在的IO组,并设定维护模式的作用范围为IO组。
在本步骤中,需要预先将存储系统中的设备按照关联性程度进行分组,即本发明提到的IO组。IO组中的输入输出设备之间都是关联性强的,所谓关联性强,可以理解为,在某一个IO组中包括一百个输入输出设备的情况下,当其中一个输入输出设备出现故障或被更换时,其余的九十九个设备也会因此出现故障,当然这只是一种理想的情况,而在实际情况下的IO组中,某一个输入输出设备发生故障会影响到组内多数的其它输入输出设备。而对于IO组的划分与界定是根据本领域人员的经验或是输入输出设备的实际关联情况而定的。
在具体实施中,当产生故障上报信息时,可以根据该信息中包含的内容,例如故障的事件标示及配置文件,就可以确定故障所在的IO组。确定故障所在的IO组的目的是只对故障所在的IO组进行故障修复操作,由于每个IO组之间的关联性并不大,所以只针对故障所在的IO组进行处理也不会对其它IO组造成影响,进而也可以降低在修复存储故障时存储系统被占用的资源量。
步骤S12:在维护模式中修复故障,并阻止接收由于修复故障而引发的关联故障上报信息。
由于在同一个IO组中的输入输出设备关联性强,当其中一个输入输出设备出现故障或被修复时,会导致其他输入输出设备的关联故障的发生。如果存储系统同时修复多个故障,则需要开启多个修复行为的任务以处理众多的关联故障上报信息,而会占用大量的系统资源,进而导致存储系统的工作性能降低。可以理解的是,在对存储系统的故障进行修复时,应尽可能不影响存储系统的正常工作。由于关联故障往往会在故障修复完成后自动恢复,所以存储系统可以阻止接收由于修复故障而引发的关联故障上报信息,只占用少部分资源处理主要的故障,把更多的资源用于支持存储系统展现更好的工作性能,这样做能够减少存储系统不必要的资源开销,提高存储系统的工作性能。
本实施例提供的存储故障修复方法,存储系统在接收故障上报信息并修复对应的故障时,阻止接收由于修复当前故障而引发的新故障的上报信息。这样做避免了存储系统需要开启多个修复行为的任务以处理众多的故障上报的情况,进而大大降低了存储系统的资源开销,提高了存储系统的工作性能。另一方面,存储系统只是将故障所在的IO组作为修复的范围,保证了每个IO组之间的独立性并且只对某一个IO组中的组件进行修复处理,也能保证不会占用额外的资源去监听或处理与所修复故障关系不大的组件的故障上报,进而减少了不必要的资源开销,同时提高了存储系统的工作性能。
实施例二
图2为本发明实施例提供的另一种存储故障修复方法的流程图。图2中步骤S10-S12与图1相同,在此不再赘述。
如图2所示,作为一种优选的实施方式,当在所述维护模式中修复所述故障时,进一步包括:
步骤S20:阻止客户端上报新故障上报信息。
本步骤中阻止客户端上报新故障上报信息的目的在于,避免了存储系统需要开启多个修复行为的任务以处理众多的故障上报的情况,进而大大降低了存储系统的资源开销,提高了存储系统的工作性能。
需要说明的是,步骤S12与步骤S20的执行顺序可以不固定,当然也可以同时进行,这里只是把每个步骤中所执行的内容作出展示,并不对执行顺序进行限定。
其中,作为一种优选的实施方式,阻止客户端上报新故障上报信息具体为:
通过同步锁机制阻止客户端上报新故障上报信息。
由于在同步锁机制下,当有事件正在进行时能够阻止其他事件的同步进行,所以适用于在存储系统进行修复故障时阻止客户端上报新故障。
实施例三
图3为本发明实施例提供的另一种存储故障修复方法的流程图。图3中步骤S10-S12与图1相同,在此不再赘述。
如图3所示,作为一种优选的实施方式,还包括:
步骤S30:判断在规定时间内故障的修复是否完成,如果是,则执行步骤S31;如果否,则执行步骤S32。
步骤S31:退出维护模式。
步骤S32:终止修复并退出维护模式。
在步骤S30-S32中,存储系统判断规定时间内故障是否修复完成的目的在于,确保存储系统的故障是可以被修复的。如果在规定时间内存储系统完成修复,便可以退出维护模式。但是如果修复故障所用的时间超过了规定时间,则故障很有可能无法通过当前的维护模式进行修复。可以理解的是,存储系统继续分配资源对故障进行修复无法达到最终的目的,并且浪费了自身资源,增加了没有必要的开销。所以采用终止修复并退出维护模式的方法,可以释放被占用但没有起到作用的资源,能够进一步降低存储系统的资源开销,进而提高存储系统的工作性能。对于规定时间的设定可以根据最复杂的修复事件从开始到结束所需时间而定,或是根据本领域技术人员的经验而定,在此不做限定。
如图3所示,作为一种优选的实施方式,当判断在规定时间内故障的修复是否完成的结果为是时,在退出维护模式后,即步骤S31后,还包括:
步骤S33:统计当前仍存在的未修复故障的数量,并记录未修复故障的故障上报信息。
可以理解的是,在对故障修复完成后可能会因为兼容性等种种原因导致由于故障或故障修复所引起的关联故障无法自动恢复。统计当前仍存在的未修复故障的数量,并记录未修复故障的故障上报信息目的在于能够有针对性的继续处理无法自动恢复的关联故障。
实施例四
在上文中对于存储故障修复方法的实施例进行了详细的描述,本发明还提供一种与该方法对应的存储故障修复装置,由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
图4为本发明实施例提供的一种存储故障修复装置结构图。本发明实施例提供的一种存储故障修复装置,具体包括:
启动维护模块10,用于接收由故障所产生的故障上报信息,并启动维护模式。
范围设定模块11,用于根据故障上报信息确定故障所在的IO组,并设定维护模式的作用范围为IO组。
同步修复模块12,用于在维护模式中修复故障,并阻止接收由于修复故障而引发的关联故障上报信息。
本发明所提供的一种存储故障修复装置,存储系统在接收故障上报信息并修复对应的故障时,阻止接收由于修复当前故障而引发的新故障的上报信息。这样做避免了存储系统需要开启多个修复行为的任务以处理众多的故障上报的情况,进而大大降低了存储系统的资源开销,提高了存储系统的工作性能。另一方面,存储系统只是将故障所在的IO组作为修复的范围,保证了每个IO组之间的独立性并且只对某一个IO组中的组件进行修复处理,也能保证不会占用额外的资源去监听或处理与所修复故障关系不大的组件的故障上报,进而减少了不必要的资源开销,同时提高了存储系统的工作性能。
在实施例三的基础上,该装置还包括:
判断模块,用于判断在规定时间内故障的修复是否完成,如果是,则触发退出模块;否则,触发终止模块。
退出模块,用于退出维护模式。
终止模块,用于终止修复并退出维护模式。
在实施例三的基础上,该装置还包括:
阻止上报模块,用于当维护模式中修复故障时,阻止客户端上报新故障上报信息。
以上对本发明所提供的一种存储故障修复方法及装置进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (9)

1.一种存储故障修复方法,其特征在于,包括:
接收由故障所产生的故障上报信息,并启动维护模式;
根据所述故障上报信息确定所述故障所在的IO组,并设定所述维护模式的作用范围为所述IO组;
在所述维护模式中修复所述故障,并阻止接收由于修复所述故障而引发的关联故障上报信息。
2.根据权利要求1所述的方法,其特征在于,该方法进一步包括:
判断在规定时间内所述故障的修复是否完成,如果是,则退出所述维护模式;如果否,则终止所述修复并退出所述维护模式。
3.根据权利要求1所述的方法,其特征在于,当在所述维护模式中修复所述故障时,该方法进一步包括:
阻止客户端上报新故障上报信息。
4.根据权利要求3所述的方法,其特征在于,阻止客户端上报新故障上报信息具体为:
通过同步锁机制阻止所述客户端上报所述新故障上报信息。
5.根据权利要求1或2所述的方法,其特征在于,当所述判断在规定时间内所述故障的修复是否完成的结果为是时,在所述退出所述维护模式后,该方法进一步包括:
统计当前仍存在的未修复故障的数量,并记录所述未修复故障的故障上报信息。
6.根据权利要求1所述的方法,其特征在于,所述故障上报信息具体为所述故障的事件标示及配置文件。
7.一种存储故障修复装置,其特征在于,包括:
启动维护模块,用于接收由故障所产生的故障上报信息,并启动维护模式;
范围设定模块,用于根据所述故障上报信息确定所述故障所在的IO组,并设定所述维护模式的作用范围为所述IO组;
同步修复模块,用于在所述维护模式中修复所述故障,并阻止接收由于修复所述故障而引发的关联故障上报信息。
8.根据权利要求7所述的装置,其特征在于,还包括:
判断模块,用于判断在规定时间内所述故障的修复是否完成;
如果是,则触发退出模块,否则,触发终止模块,
所述退出模块,用于退出所述维护模式;
所述终止模块,用于终止所述修复并退出所述维护模式。
9.根据权利要求7或8所述的装置,其特征在于,进一步包括:
阻止上报模块,用于当所述维护模式中修复所述故障时,阻止客户端上报新故障上报信息。
CN201710447518.3A 2017-06-14 2017-06-14 一种存储故障修复方法及装置 Pending CN107291591A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710447518.3A CN107291591A (zh) 2017-06-14 2017-06-14 一种存储故障修复方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710447518.3A CN107291591A (zh) 2017-06-14 2017-06-14 一种存储故障修复方法及装置

Publications (1)

Publication Number Publication Date
CN107291591A true CN107291591A (zh) 2017-10-24

Family

ID=60096281

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710447518.3A Pending CN107291591A (zh) 2017-06-14 2017-06-14 一种存储故障修复方法及装置

Country Status (1)

Country Link
CN (1) CN107291591A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024007765A1 (zh) * 2022-07-08 2024-01-11 超聚变数字技术有限公司 一种确定内存故障的修复资源粒度的方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102368222A (zh) * 2011-10-25 2012-03-07 曙光信息产业(北京)有限公司 一种多副本存储系统在线修复的方法
CN105119765A (zh) * 2015-09-30 2015-12-02 浪潮(北京)电子信息产业有限公司 一种智能处理故障体系架构
CN105653411A (zh) * 2015-12-28 2016-06-08 哈尔滨工业大学 支持局部永久故障恢复的多核处理器芯片可重构系统
CN106339297A (zh) * 2016-09-14 2017-01-18 郑州云海信息技术有限公司 一种存储系统故障实时告警的方法及系统
US20170024273A1 (en) * 2015-07-23 2017-01-26 Samsung Electronics Co., Ltd. Repair information providing device in an integrated circuit

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102368222A (zh) * 2011-10-25 2012-03-07 曙光信息产业(北京)有限公司 一种多副本存储系统在线修复的方法
US20170024273A1 (en) * 2015-07-23 2017-01-26 Samsung Electronics Co., Ltd. Repair information providing device in an integrated circuit
CN105119765A (zh) * 2015-09-30 2015-12-02 浪潮(北京)电子信息产业有限公司 一种智能处理故障体系架构
CN105653411A (zh) * 2015-12-28 2016-06-08 哈尔滨工业大学 支持局部永久故障恢复的多核处理器芯片可重构系统
CN106339297A (zh) * 2016-09-14 2017-01-18 郑州云海信息技术有限公司 一种存储系统故障实时告警的方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024007765A1 (zh) * 2022-07-08 2024-01-11 超聚变数字技术有限公司 一种确定内存故障的修复资源粒度的方法及装置

Similar Documents

Publication Publication Date Title
CN106407030A (zh) 一种存储集群系统故障处理方法及系统
CN104301136A (zh) 故障信息上报及处理的方法及设备
CN101404568A (zh) 双网卡热备冗余方法
CN1143506C (zh) 更换在数字交换设备上的失灵部件组的方法和装置
CN107562883A (zh) 一种数据同步的方法及系统
EP2617158A1 (en) Method for improved handling of incidents in a network monitoring system
CN104038373A (zh) 信息预警与自修复系统及方法
CN106385339A (zh) 企业网络的访问性能的监控方法和监控系统
CN107147214A (zh) 一种适用于智能变电站的二次安措监视系统
CN106339297A (zh) 一种存储系统故障实时告警的方法及系统
CN103139033A (zh) 单主通信控制总线主设备冗余切换方法
CN107147529A (zh) 一种数据容灾系统及方法
CN101296466B (zh) 一种对基站产生告警的屏蔽方法
CN107291591A (zh) 一种存储故障修复方法及装置
CN104104542A (zh) 一种基于rs485的实时智能排障方法
CN103067101A (zh) 通信终端测试监控方法和装置
CN107729184B (zh) 一种系统组件服务自愈方法
CN112446619B (zh) 配电网抢修处理方法和装置
CN115065589A (zh) 数据流量采集灾备处理方法、装置、设备、系统及介质
Kaâniche et al. Software reliability analysis of three successive generations of a switching system
CN106598799A (zh) 一种故障注入模拟系统及故障管理系统
CN107689877A (zh) 一种参数调整方法及装置
CN111093221B (zh) 基于集中式网络的无线网络监测系统
CN111245638A (zh) 一种工控防火墙的故障修复方法、装置、存储介质及终端
Chen et al. Big data system testing method based on chaos engineering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171024

RJ01 Rejection of invention patent application after publication