CN102981920A - 一种磁盘阵列主动故障处理系统设计方法 - Google Patents

一种磁盘阵列主动故障处理系统设计方法 Download PDF

Info

Publication number
CN102981920A
CN102981920A CN2012104399897A CN201210439989A CN102981920A CN 102981920 A CN102981920 A CN 102981920A CN 2012104399897 A CN2012104399897 A CN 2012104399897A CN 201210439989 A CN201210439989 A CN 201210439989A CN 102981920 A CN102981920 A CN 102981920A
Authority
CN
China
Prior art keywords
fault
initiatively
module
fault processing
processing system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012104399897A
Other languages
English (en)
Inventor
陈宗勇
唐远琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN2012104399897A priority Critical patent/CN102981920A/zh
Publication of CN102981920A publication Critical patent/CN102981920A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Hardware Redundancy (AREA)

Abstract

本发明提供一种磁盘阵列主动故障处理系统设计方法,包括主系统和主动故障处理系统,主动故障处理系统包括故障检测模块、过程接管模块和故障处理模块,主动故障处理系统根据主系统磁盘阵列的组成和命令执行过程,监控命令的执行过程并主动检测发生的故障,当检测到故障发生时,主动故障处理系统能够主动进行处理,主动故障处理系统的存在能够显著提高磁盘阵列系统的可靠性,并降低了开发的难度。

Description

一种磁盘阵列主动故障处理系统设计方法
技术领域
本发明涉及磁盘阵列故障处理领域,具体涉及一种磁盘阵列主动故障处理系统。 
背景技术
存储系统的可靠性是对存储系统最基本的要求。磁盘阵列是组建大型存储系统的关键基础设备,磁盘阵列的可靠性对于所构建的大型存储系统至关重要。磁盘阵列控制器承担着存储介质管理,缓存管理及接收并执行主机命令的功能,是磁盘阵列的核心部件。控制器的可靠性决定磁盘阵列的可靠性,而故障是影响其可靠性的重要因素,控制器故障处理系统是保证磁盘阵列可靠性的核心模块。因此,设计优秀的阵列控制器的故障处理系统是保证存储系统可靠性的重要手段。为了提高该磁盘阵列的可靠性,本文设计了一种磁盘阵列主动故障处理系统。 
发明内容
本发明的目的是提供一种磁盘阵列主动故障处理系统设计方法。 
本发明的目的是按以下方式实现的,包括主系统和主动故障处理系统,主动故障处理系统包括故障检测模块、过程接管模块和故障处理模块,主动故障处理系统根据主系统磁盘阵列的组成和命令执行过程,监控命令的执行过程并主动检测发生的故障,当检测到故障发生时,主动故障处理系统能够主动进行处理,主动故障处理系统的存在能够显著提高磁盘阵列系统的可靠性,并降低了开发的难度; 
主动故障处理系统与主系统之间相对独立运行,主系统命令执行的每一个阶段都主动到主动故障处理系统中进行注册,主动故障处理系统保存注册的命令执行信息,并采集资源分配及释放状况、命令元数据的健康状况等信息,井将这些信息统一提供给故障检测模块;
故障检测模块是故障检测的专门系统,它负责管理故障模型、检测系统故障;
故障处理步骤如下:
故障检测模块检测到故障发生后将启动过程接管模块和故障处理模块,其中,过程接管模块负责接管与故障相关联的所有资源,并主动将其锁定,全面接管相关命令的执行权限,控制命令的执行和资源的管理,故障处理模块接管由过程接管模块移交过来的故障和相关资源后,实时处理相关的故障,处理方法的选择由故障的类型决定,由于故障处理模块完全独立于主作业系统,因此,当系统检测到主系统停机的较重大的故障时,故障处理模块能够实时恢复主系统的运行。
本发明的有益效果是:该系统根据磁盘阵列的组成模块和命令执行过程,主动获得并监控命令的执行过程和故障发生的情况。当故障发生时,主动故障处理系统能够主动的进行处理。主动故障处理系统能够显著提高磁盘阵列系统的可靠性,并降低了开发的难度。 
附图说明
图1是读命令处理流程图; 
图2是写命令处理流程图;
图3是传统通常故障处理流程图;
图4是主动故障处理流程图。
具体实施方式
参照说明书附图对本发明的方法作以下详细地说明。 
磁盘阵列控制器系统运行时,最主要的任务是处理由上行主机发起的I/O(输入输出命令)。其中I/O命令可以分为3类:第1类是读命令,如图1所示,包括READ命令、NQURY命令,REFORTLUNS命令等,该类命令的特征是磁盘阵列需要向上行主机返回数据;第2类是写命令,如图2所示,包括WRITE命令等,该类命令的特征是上行主机需要向磁盘阵列发送数据;第3类命令是无数据命令,该类命令的特征是上行主机与磁盘阵列之间不发生数据交换。 
这3类命令故障处理的方式不同,通常的故障处理方式是当系统发现故障时,则跳转到相应的故障处理程序分支中去,如图3所示。这种方法主要的缺点有以下几点: 
(1)故障处理程序是针对特定故障的,如READ故障。因此在各个故障点上的故障处理程序是不同的,这样增加了开发难度;
(2)故障处理是被动的。故障检测和启动故障处理程序是由主系统来完成的;
(3)故障处理模块与主系统紧密藕合,当出现系统无法检测的故障时,例如主程序死锁等,故障处理程序同时失效。
主动故障处理系统的结构原理如图4所示。它与上行主机的主系统之间相对独立运行,主系统命令执行的每一个阶段都主动到故障处理系统中进行注册,故障处理系统保存注册的命令执行信息,并采集资源分配及释放状况、命令元数据的健康状况等信息,井将这些信息统一提供给故障检测模块。 
故障检测模块是故障检测的专门系统,它负责管理故障模型、检测系统故障。 
故障检测模块检测到故障发生后将启动过程接管和故障处理模块。其中,过程接管模块负责接管与故障相关联的所有资源,并主动将其锁定,全面接管相关命令的执行权限,控制命令的执行和资源的管理。 
故障处理模块接管由过程接管模块移交过来的故障和相关资源后,能够处理相关的故障。处理方法的选择由故障的类型决定。由于故障处理模块完全独立于主作业系统,因此,当系统检测到主系统停机等较重大的故障时,故障处理模块能够在一定限度上恢复主系统的运行。 
除说明书所述的技术特征外,均为本专业技术人员的已知技术。 

Claims (1)

1. 一种磁盘阵列主动故障处理系统设计方法, 其特征在于,包括主系统和主动故障处理系统,主动故障处理系统包括故障检测模块、过程接管模块和故障处理模块,主动故障处理系统根据主系统磁盘阵列的组成和命令执行过程,监控命令的执行过程并主动检测发生的故障,当检测到故障发生时,主动故障处理系统能够主动进行处理,主动故障处理系统的存在能够显著提高磁盘阵列系统的可靠性,并降低了开发的难度;
主动故障处理系统与主系统之间相对独立运行,主系统命令执行的每一个阶段都主动到主动故障处理系统中进行注册,主动故障处理系统保存注册的命令执行信息,并采集资源分配及释放状况、命令元数据的健康状况等信息,井将这些信息统一提供给故障检测模块;
故障检测模块是故障检测的专门系统,它负责管理故障模型、检测系统故障;
故障处理步骤如下:
故障检测模块检测到故障发生后将启动过程接管模块和故障处理模块,其中,过程接管模块负责接管与故障相关联的所有资源,并主动将其锁定,全面接管相关命令的执行权限,控制命令的执行和资源的管理,故障处理模块接管由过程接管模块移交过来的故障和相关资源后,实时处理相关的故障,处理方法的选择由故障的类型决定,由于故障处理模块完全独立于主作业系统,因此,当系统检测到主系统停机的较重大的故障时,故障处理模块能够实时恢复主系统的运行。
CN2012104399897A 2012-11-07 2012-11-07 一种磁盘阵列主动故障处理系统设计方法 Pending CN102981920A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012104399897A CN102981920A (zh) 2012-11-07 2012-11-07 一种磁盘阵列主动故障处理系统设计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012104399897A CN102981920A (zh) 2012-11-07 2012-11-07 一种磁盘阵列主动故障处理系统设计方法

Publications (1)

Publication Number Publication Date
CN102981920A true CN102981920A (zh) 2013-03-20

Family

ID=47855976

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012104399897A Pending CN102981920A (zh) 2012-11-07 2012-11-07 一种磁盘阵列主动故障处理系统设计方法

Country Status (1)

Country Link
CN (1) CN102981920A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030131289A1 (en) * 2002-01-08 2003-07-10 Nec Corporation Method for detecting failure when installing input-output controller
CN201465093U (zh) * 2009-05-26 2010-05-12 北京同步科技有限公司 一种带有保护装置的磁盘阵列系统
CN101887386A (zh) * 2010-06-02 2010-11-17 深圳市迪菲特科技股份有限公司 一种磁盘阵列控制器故障处理方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030131289A1 (en) * 2002-01-08 2003-07-10 Nec Corporation Method for detecting failure when installing input-output controller
CN201465093U (zh) * 2009-05-26 2010-05-12 北京同步科技有限公司 一种带有保护装置的磁盘阵列系统
CN101887386A (zh) * 2010-06-02 2010-11-17 深圳市迪菲特科技股份有限公司 一种磁盘阵列控制器故障处理方法及系统

Similar Documents

Publication Publication Date Title
CN102301339B (zh) 用于控制固态盘(ssd)设备的装置和方法
CN100555240C (zh) 用于诊断应用程序的方法和系统
CN110569149B (zh) 基于故障探测触发Oracle容灾自动应急切换的方法
CN102317910B (zh) 虚拟化数据备份方法、虚拟化数据重组方法、装置及系统
CN101976217B (zh) 网络处理器异常检测方法及系统
CN101093462B (zh) 数据库应用集群压力测试自动化方法
CN107463459A (zh) 系统异常内存数据的保存方法、装置、系统及终端设备
US9208039B2 (en) System and method for detecting server removal from a cluster to enable fast failover of storage
CN103823708B (zh) 虚拟机读写请求处理的方法和装置
CN102722431A (zh) 进程监控方法及装置
CN103827832A (zh) 用于在事务中间件机器环境中持久化事务记录的系统与方法
CN103425585A (zh) 一种osgi集成测试方法
US20150121144A1 (en) Synchronized debug information generation
CN104572781A (zh) 一种交易日志产生方法和装置
CN105302768A (zh) 一种从cpu异常处理方法及装置
CN102736594A (zh) 一种智能配电终端统一平台模块化设计方法
US9104575B2 (en) Reduced-impact error recovery in multi-core storage-system components
CN102662787A (zh) 一种保护系统盘raid的方法
CN102929761B (zh) 一种应对崩溃性错误的系统及方法
CN104484289A (zh) 一种基于扇区的嵌入式系统写保护的装置以及方法
JP2013171542A (ja) 性能分析装置、性能分析方法及び性能分析プログラム
EP2312443A2 (en) Information processing apparatus, method of controlling information processing apparatus and control program
CN102981920A (zh) 一种磁盘阵列主动故障处理系统设计方法
CN109271096A (zh) Nvme存储扩展系统
CN102650933A (zh) 一种用于数字化变电站网络通信记录装置的存储系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130320