JP2011215664A - Fault symptom diagnosis method for hard disk device - Google Patents

Fault symptom diagnosis method for hard disk device Download PDF

Info

Publication number
JP2011215664A
JP2011215664A JP2010080113A JP2010080113A JP2011215664A JP 2011215664 A JP2011215664 A JP 2011215664A JP 2010080113 A JP2010080113 A JP 2010080113A JP 2010080113 A JP2010080113 A JP 2010080113A JP 2011215664 A JP2011215664 A JP 2011215664A
Authority
JP
Japan
Prior art keywords
hard disk
disk device
failure
software mirroring
predictive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010080113A
Other languages
Japanese (ja)
Inventor
Sadahiro Goto
貞弘 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2010080113A priority Critical patent/JP2011215664A/en
Publication of JP2011215664A publication Critical patent/JP2011215664A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To execute a fault symptom diagnosis of a hard disk device to avoid an influence on a computer system.SOLUTION: In regard hard disk devices triplicated by software mirroring, fault symptom diagnosis is executed by excluding one hard disk device from software mirroring by means of a program for canceling software mirroring. Even on fault occurrence in a hard disk device performing an online job during execution of the fault symptom diagnosis, two hard disk devices maintain the retention of data redundancy by software mirroring. Accordingly, early fault detection in the hard disk device is made without affecting the computer system, and then the computer system availability is enhanced. The execution frequency of the fault symptom diagnosis is determined according to the length of operating time stored in the internal statistic information of the hard disk device.

Description

ソフトウェアミラーリングで多重化したハードディスク装置に対する障害診断方式に関する。   The present invention relates to a failure diagnosis method for hard disk drives multiplexed by software mirroring.

長期間連続稼働するコンピュータシステムにおいてハードディスク装置の障害が原因でオンライン業務の停止につながる事態を回避するためにディスクミラーリングによりデータの冗長性を保持する技術が用いられている。ディスクミラーリングには専用ハードウェアによるハードウェアミラーリングとオペレーティングシステム上で専用のソフトウェアを用いたソフトウェアミラーリングがある。ソフトウェアミラーリングの利点は、特別なハードウェアを使用せず、専用のソフトウェアにより2台のハードディスク装置をミラーリングする方法により、ハードウェアミラーリングに比べ低コストで実現できることである。   In a computer system that operates continuously for a long period of time, a technique for maintaining data redundancy by disk mirroring is used in order to avoid a situation in which an online operation is stopped due to a failure of a hard disk device. Disk mirroring includes hardware mirroring using dedicated hardware and software mirroring using dedicated software on the operating system. The advantage of software mirroring is that it can be realized at a lower cost than hardware mirroring by a method of mirroring two hard disk devices using dedicated software without using special hardware.

ハードディスク装置においてはユーザーのオンライン業務に影響を与えることなく障害の予兆を早期に検出し、障害の予兆を持つハードディスク装置を、業務稼働中に交換を行うなどの方法により、コンピュータシステムを長期間連続稼働することが求められている。   In hard disk devices, computer systems can be continued for a long period of time by detecting signs of failure at an early stage without affecting users' online operations, and replacing hard disk devices with signs of failure during business operations. It is required to operate.

ソフトウェアミラーリングで構成されたハードディスクディスク装置の障害の監視・復旧を行う例として特願2004−76561号公報に開示されている。この公報に開示されたものは、2台のハードディスク装置を用いたソフトウェアミラーリングの同期状態の監視を行い、同期不正の原因となった障害ディスクに対してディスクフォーマットを実施し、ソフトウェアミラーリングに再同期させるという障害監視・復旧システムを提供している。   Japanese Patent Application No. 2004-76561 discloses an example of monitoring and restoring a failure of a hard disk device configured by software mirroring. The one disclosed in this publication monitors the synchronization status of software mirroring using two hard disk devices, performs disk formatting on the failed disk that caused the synchronization failure, and resynchronizes with software mirroring. A fault monitoring and recovery system is provided.

また、オンライン業務中のハードディスク装置の診断を行う例としては特開2000−029638号公報に開示されている。この公報に開示されたものは、2台のハードディスク装置をミラーリングし、オンライン業務中に片方のハードディスク装置の全データ領域の読み取りによるアクセス障害の診断を行うミラーディスクの診断方式を提供している。   An example of diagnosing a hard disk device during online work is disclosed in Japanese Patent Laid-Open No. 2000-029638. What is disclosed in this publication provides a mirror disk diagnosis method in which two hard disk devices are mirrored and an access failure is diagnosed by reading all data areas of one of the hard disk devices during an online operation.

特願2004−76561号公報Japanese Patent Application No. 2004-76561 特開2000−029638号公報JP 2000-029638 A

従来の技術では2台のハードディスク装置によるミラーリング構成において、片方のハードディスク装置に対して、読み取り不可となる障害の有無を診断するプログラムを実行する方式や、2台のハードディスク装置からなるソフトウェアミラーリングにおいて同期不正が発生したハードディスク装置に対しメディアフォーマットを実行し、再度ソフトウェアミラーリングの再構築を行う方式などにより、ハードディスク装置の障害の早期検出、対策を行い障害率の低下を図っている。   In the conventional technology, in a mirroring configuration with two hard disk devices, a method of executing a program for diagnosing the presence or absence of an unreadable failure with respect to one hard disk device or software mirroring with two hard disk devices is synchronized. The failure rate of the hard disk drive is reduced by early detection and countermeasures for hard disk drive failure, such as by performing media formatting on the hard disk drive where the fraud occurred and rebuilding software mirroring again.

一方、近年のハードディスク装置は製造技術が高まり品質が均質化されているため同時期に製造されたハードディスク装置は同時期に障害が発生する可能性が高い傾向にある。従来の技術では片方のハードディスク装置に対して障害検出、対策を実施している間に、他方のハードディスク装置に対して障害が発生した場合にデータの冗長性を保持できなくなる。この場合、データの損失やシステムダウンにつながる。   On the other hand, since recent hard disk devices have advanced manufacturing technology and the quality is uniform, hard disk devices manufactured at the same time tend to have a high possibility of failure at the same time. In the conventional technology, when a failure occurs in one hard disk device and a failure occurs in the other hard disk device, data redundancy cannot be maintained. In this case, it leads to data loss and system down.

本発明では、ソフトウェアミラーリングで多重化したハードディスク装置においてハードディスク装置の障害予兆診断実行時、および、対策時にオンライン業務を行っているハードディスク装置に障害が発生した場合に、コンピュータシステムへの影響がないようにデータの冗長性を保持した状態でハードディスク装置の健全性を診断し、障害の早期検出ができる方式を提供する。   In the present invention, there is no influence on the computer system when a failure occurs in a hard disk device that performs online operations during hard disk drive failure diagnosis and countermeasures in a hard disk device multiplexed by software mirroring. In addition, a method for diagnosing the soundness of a hard disk device while maintaining data redundancy and detecting a failure at an early stage is provided.

ソフトウェアミラーリングの構築/解除を実行するプログラムにより2台のハードディスク装置からなる二重化したソフトウェアミラーリング構成に1台のハードディスク装置を追加し、3台のハードディスク装置からなる三重化のソフトウェアミラーリングを構築する。ハードディスク装置の障害予兆診断を実施する時にはオペレーティングシステム上のソフトウェアミラーリングを解除するプログラムにより3台のハードディスク装置のうち任意の1台のハードディスク装置をソフトウェアミラーリングから切り離し、2台のハードディスク装置から構成されるソフトウェアミラーリングを構築する。この時ユーザーのオンライン業務はソフトウェアミラーリングされたハードディスク装置2台で行われる。ソフトウェアミラーリングを解除したハードディスク装置は未使用状態となる。この時、オペレーティングシステム上のハードディスク装置診断プログラムにより、ハードディスク装置のデータの未使用領域を含む全データ領域をブロック単位毎に読み取り/書き込みを行うことにより、データのブロック単位毎のアクセス障害の有無を検出することで、障害予兆診断の実施が可能となる。   One hard disk device is added to a duplicated software mirroring configuration composed of two hard disk devices by a program for executing construction / cancellation of software mirroring, and triple software mirroring composed of three hard disk devices is constructed. When performing a predictive failure diagnosis of a hard disk device, one of the three hard disk devices is separated from the software mirroring by a program for canceling the software mirroring on the operating system, and is composed of two hard disk devices Build software mirroring. At this time, the user's online work is performed by two hard disk devices mirrored by software. The hard disk device for which software mirroring has been canceled becomes unused. At this time, the hard disk device diagnosis program on the operating system reads / writes the entire data area including the unused area of the hard disk device data for each block unit, thereby checking whether there is an access failure for each block unit of the data. By detecting it, it becomes possible to carry out failure predictive diagnosis.

ハードディスク装置診断プログラム実行時にハードディスク装置の交換が必要となる障害が検知された場合は、障害情報がオペレーティングシステム上に表示されハードディスク装置は交換用のハードディスク装置と交換する。交換後に再度制御プログラムCを実行して障害予兆診断を実施する。ハードディスク装置診断プログラム実行時にデータのブロック単位毎のアクセス障害が検知されず正常にハードディスク装置診断プログラムが終了した場合は、ハードディスク装置はオペレーティングシステム上のソフトウェアミラーリングを構築/解除するプログラムにより2台のハードディスク装置からなる二重化のソフトウェアミラーリングを再構築し、障害予兆診断のために追加した1台のハードディスク装置を解除する。   If a failure requiring replacement of the hard disk device is detected during execution of the hard disk device diagnostic program, failure information is displayed on the operating system, and the hard disk device is replaced with a replacement hard disk device. After the replacement, the control program C is executed again to perform failure sign diagnosis. If an access failure for each block of data is not detected when the hard disk device diagnostic program is executed and the hard disk device diagnostic program is terminated normally, the hard disk device uses two programs to build / cancel software mirroring on the operating system. Redundant software mirroring consisting of devices is reconstructed, and one hard disk device added for predictive failure diagnosis is released.

ハードディスク装置診断プログラムの実行は、ソフトウェアミラーリングを構成している全ハードディスク装置、および、診断用に準備する全ハードディスク装置に対して逐次的に実施する。また障害予兆診断の実施頻度は、各ハードディスク装置の稼働時間の長さや、アクセス障害の発生回数などにより決定する。   The execution of the hard disk device diagnosis program is sequentially performed on all hard disk devices constituting software mirroring and on all hard disk devices prepared for diagnosis. Further, the frequency of execution of failure predictive diagnosis is determined by the length of operation time of each hard disk device, the number of occurrences of access failures, and the like.

ソフトウェアミラーリングで多重化したハードディスク装置を有するコンピュータシステムにおいて、当該ハードディスク装置の全データ領域をブロック単位毎の読み取り/書き込みによる障害予兆診断をソフトウェアミラーリングによるデータの冗長性を保持した状態で行うことができるため、障害予兆診断中にオンライン業務を行っているハードディスク装置に障害が発生した場合でも、オンライン業務に影響を与えずに当該ハードディスク装置の障害予兆診断を行うことができる。   In a computer system having hard disk devices multiplexed by software mirroring, it is possible to perform predictive failure diagnosis by reading / writing the entire data area of the hard disk device for each block while maintaining data redundancy by software mirroring. Therefore, even when a failure occurs in a hard disk device that performs online operations during failure sign diagnosis, failure prediction diagnosis of the hard disk device can be performed without affecting online operations.

また、ソフトウェアミラーリングを構成しているハードディスク装置全てに対し稼働時間の長さに応じた障害予兆診断を逐次的に行うことでハードディスク装置の健全性の向上を図り、コンピュータシステムの可用性を高める効果が得られる。   In addition, it is possible to improve the soundness of the hard disk device and to increase the availability of the computer system by sequentially performing failure predictive diagnosis according to the length of operation time for all hard disk devices that constitute software mirroring. can get.

本発明のハードディスク装置の障害予兆診断方式の実施形態を示す図である。It is a figure which shows embodiment of the failure sign diagnostic system of the hard-disk apparatus of this invention. ハードディスク装置診断プログラムを説明する図である。It is a figure explaining a hard disk apparatus diagnostic program. ハードディスク装置診断プログラムのフローチャートを示す図である。It is a figure which shows the flowchart of a hard disk apparatus diagnostic program. 実施例における障害予兆診断方式を示す図である。It is a figure which shows the failure sign diagnostic system in an Example. 三重化したミラーリングシステムにおけるハードディスク装置の構成を説明する図である。It is a figure explaining the structure of the hard-disk apparatus in a triple mirroring system. ハードディスク装置1,2,3の障害予兆診断の実施頻度を示す図である。It is a figure which shows the implementation frequency of the failure sign diagnosis of the hard disk devices 1, 2, and 3. ハードディスク装置1を交換後の障害予兆診断の実施頻度を示す図である。It is a figure which shows the implementation frequency of the failure sign diagnosis after replacement | exchange of the hard disk drive.

図1を参照して本発明の実施形態について説明する。   An embodiment of the present invention will be described with reference to FIG.

ソフトウェアミラーリングの構築/解除を実行するプログラムAにより、ハードディスク装置1、2により構成された二重化したソフトウェアミラーリング4にハードディスク装置3を追加し、三重化したソフトウェアミラーリング6を構築する。オペレーティングシステム5上には、対象となるハードディスク装置にソフトウェアミラーリングの構築/解除を実行するプログラムA、ハードディスク装置の全データの領域を読み取り/書き込みによる障害予兆診断を実行するハードディスク装置診断プログラムB、これらA,Bのプログラムをソフトウェアミラーリングで構成しているハードディスク装置1台ごとに対して実行し、ハードディスク装置の稼働時間により障害予兆診断の実施頻度を変更する制御プログラムCをおく。これらのプログラムは全てオペレーティングシステム上からコマンドを発行して行う。   By the program A that executes software mirroring construction / cancellation, the hard disk device 3 is added to the duplicated software mirroring 4 constituted by the hard disk devices 1 and 2, and the tripled software mirroring 6 is constructed. On the operating system 5, a program A for executing software mirroring construction / cancellation on the target hard disk device, a hard disk device diagnosis program B for executing failure predictive diagnosis by reading / writing all data areas of the hard disk device, etc. A control program C for executing the programs A and B for each hard disk device configured by software mirroring and changing the execution frequency of failure sign diagnosis according to the operation time of the hard disk device is provided. All of these programs are executed by issuing commands from the operating system.

オペレーティングシステム5上からコマンドを発行し制御プログラムCを実行すると、まずミラー構築/解除プログラムAのミラー解除プログラムが実行される。三重化したソフトウェアミラーリングのハードディスク装置1をソフトウェアミラーリングから解除しハードディスク装置2、3から構成される二重化のソフトウェアミラーリング7と未使用状態のハードディスク装置1が構成される。その後ソフトウェアミラーリングを解除したハードディスク装置1に対しオペレーティングシステム5上のハードディスク装置診断プログラムBが実行される。ハードディスク装置1はソフトウェアミラーリングを解除したことで未使用状態となっており、オンライン業務に影響を与えることなくハードディスク装置の使用領域と未使用領域の全データ領域に対しブロック単位毎の読み取り/書き込みによる障害予兆診断が実施可能となる。   When a command is issued from the operating system 5 and the control program C is executed, the mirror cancellation program of the mirror construction / cancellation program A is first executed. The triple software mirroring hard disk device 1 is released from the software mirroring, and the double software mirroring 7 including the hard disk devices 2 and 3 and the unused hard disk device 1 are configured. Thereafter, the hard disk device diagnosis program B on the operating system 5 is executed on the hard disk device 1 whose software mirroring has been canceled. The hard disk device 1 is in an unused state by canceling the software mirroring, and reading / writing for each block unit with respect to the used area and the unused data area of the hard disk device without affecting the online operation. Predictive failure diagnosis can be performed.

ハードディスク装置診断プログラムBの終了時点でハードディスク装置1の障害情報が検知されなかった場合は、ハードディスク装置2,3から構成される二重化のソフトウェアミラーリング7に対してミラー構築/解除プログラムAのプログラムが実行され、ハードディスク装置1を追加した三重化したソフトウェアミラーリング6を構築する。ハードディスク装置1,2,3の三重化したソフトウェアミラーリングの構築後にミラー構築/解除プログラムAのプログラムが実行され解除してハードディスク装置1、2からなる二重化のソフトウェアミラーリング4が再構築される。   If failure information of the hard disk device 1 is not detected at the end of the hard disk device diagnostic program B, the mirror construction / cancellation program A is executed for the duplicate software mirroring 7 composed of the hard disk devices 2 and 3. Then, a triple software mirroring 6 to which the hard disk device 1 is added is constructed. After the hard disk devices 1, 2 and 3 are constructed in triplicate software mirroring, the mirror construction / cancellation program A program is executed and canceled to reconstruct the duplicate software mirroring 4 comprising the hard disk devices 1 and 2.

制御プログラムCは、上述のミラー構築/解除プログラムAとハードディスク装置診断プログラムBを用いて、コンピュータシステムにおけるn組の二重化したソフトウェアミラーリングを構成しているハードディスク装置に対して逐次的に障害予兆診断を実施する。制御プログラムCは、コマンドを順次実行することにより代用することができる。   The control program C uses the above-described mirror construction / cancellation program A and hard disk device diagnosis program B to sequentially perform predictive failure diagnosis on the hard disk devices constituting n sets of duplicate software mirroring in the computer system. carry out. The control program C can be substituted by sequentially executing commands.

図2を参照してハードディスク装置診断プログラムについて説明する。
オペレーティングシステム5上からハードディスク装置診断プログラムBを実行するコマンドが発行されるとソフトウェアミラーリングから解除されたハードディスク装置1のデータ領域の先頭から最後までの全データ領域に対して特定のブロック単位(64KB)ごとにデータのよみこみ読み取り/書き込みによる障害予兆診断が実施される。障害予兆診断を実施すると、実行中にブロック単位ごとの読み取り/書き込みによる「実行時間」、「実行結果(障害発生の有無)」を確認しオペレーティングシステム5上に表示される。障害予兆診断の途中で障害が発生しても全データ領域のブロック単位毎に読み取り/書き込みが終了するまで障害予兆診断は実施される。障害が発生した場合は全データ領域の障害予兆診断の終了後にハードディスク装置1におけるブロック単位での「障害の詳細情報」がオペレーティングシステム5上に表示される。
The hard disk device diagnosis program will be described with reference to FIG.
When a command for executing the hard disk device diagnosis program B is issued from the operating system 5, a specific block unit (64 KB) is assigned to all data regions from the beginning to the end of the data region of the hard disk device 1 released from the software mirroring. A failure predictive diagnosis is performed by reading / writing data every time. When the failure predictor diagnosis is performed, the “execution time” and “execution result (whether or not a failure has occurred)” by reading / writing for each block unit are confirmed and displayed on the operating system 5 during execution. Even if a failure occurs during failure sign diagnosis, the failure sign diagnosis is carried out until reading / writing is completed for each block in the entire data area. When a failure occurs, “detailed information of failure” in block units in the hard disk device 1 is displayed on the operating system 5 after the failure sign diagnosis of all data areas is completed.

また、上述の障害情報だけではなくハードディスク装置1の内部リトライ処理で復旧した障害に対してはハードディスク装置の内部統計情報にある障害情報をハードディスク装置診断プログラムBにより検出し「障害の詳細情報」がオペレーティングシステム5上に表示される。ハードディスク装置内部のリトライ処理で復旧し、ハードディスク装置1の内部統計情報にも残されない障害に対しても「実行時間」の異常値(遅延)をハードディスク装置診断プログラムBにより検出し、「実行時間」が許容範囲内であるかの判定を行い障害と判断した場合は「障害の詳細情報」としてオペレーティングシステム5上に表示される。   In addition to the failure information described above, the failure information in the internal statistical information of the hard disk device is detected by the hard disk device diagnosis program B for the failure recovered by the internal retry process of the hard disk device 1, and the “detailed information of failure” is displayed. It is displayed on the operating system 5. Recovered by a retry process inside the hard disk device, and detects an abnormal value (delay) of “execution time” by the hard disk device diagnosis program B even for a failure that is not left in the internal statistical information of the hard disk device 1. Is determined to be within the allowable range, and when it is determined that there is a failure, it is displayed on the operating system 5 as “detailed information on the failure”.

図3を参照してハードディスク装置診断プログラムのフローについて説明する。
ハードディスク診断プラグラムの実行により、ブロック単位(64KB)でのデータの読み取り/書き込みによりハードディスク装置に障害情報が検知された場合は(101)、まずディスク内部のリトライ処理で復旧がした障害であるかを判断する(102)。検知された障害がリトライ処理により復旧しなかった障害の場合は障害情報を収集し、検知した「障害の詳細情報」がオペレーティングシステム上に表示される(110)。リトライ処理により復旧した障害の場合はディスク内部の統計情報内に障害情報があるかを判断する。(103)ディスク内部の統計情報に障害情報があった場合は障害情報を収集して(108)「障害の詳細情報」がオペレーティングシステム上に表示される(110)。ディスク内部の統計情報に障害情報がない場合はブロック単位での読み取り/書き込みの実行時間に異常値(遅延)がないかを判断する(104)。異常値の検出回数が許容範囲を超えた場合(105)は「障害の詳細情報」がオペレーティングシステム上に表示される(110)。
The flow of the hard disk device diagnosis program will be described with reference to FIG.
When failure information is detected in the hard disk device by reading / writing data in block units (64 KB) by executing the hard disk diagnostic program (101), it is first determined whether the failure has been recovered by retry processing inside the disk. Judgment is made (102). If the detected failure is not recovered by the retry process, the failure information is collected and the detected “detailed information of failure” is displayed on the operating system (110). In the case of a failure recovered by retry processing, it is determined whether there is failure information in the statistical information inside the disk. (103) If there is failure information in the statistical information inside the disk, the failure information is collected (108) and “detailed information on failure” is displayed on the operating system (110). If there is no failure information in the statistical information inside the disk, it is determined whether there is an abnormal value (delay) in the read / write execution time in block units (104). When the number of abnormal value detections exceeds the allowable range (105), "detailed information on failure" is displayed on the operating system (110).

上述の障害予兆診断作業をハードディスク装置の全データ領域に対してブロック単位ごとに実行することでハードディスク装置の健全性を診断することができる。   The soundness of the hard disk device can be diagnosed by executing the above-described failure sign diagnosis work on the entire data area of the hard disk device for each block.

図4を参照して実施例における障害予兆診断方式について説明する。
オペレーティングシステム5上から制御プログラムCを実行するコマンドが発行されると、ミラー構築/解除プログラムAのミラー構築プログラムが実行されコンピュータシステムにおいてハードディスク装置1、2により構成された二重化したソフトウェアミラーリング4にハードディスク装置3が追加されて3台のハードディスク装置からなる三重化したソフトウェアミラーリング6が構築される。
ミラー構築プログラムの正常終了を制御プログラムCが確認すると三重化のソフトウェアミラーリングに対しミラー構築/解除プログラムAのミラー解除プログラムが実行され、三重化したソフトウェアミラーリング6のハードディスク装置1に対してミラー構築/解除プログラムAのミラー解除プログラムが実行される。ハードディスク装置1がソフトウェアミラーリングから解除され三重化のソフトウェアミラーリング6に構築されていたハードディスク装置1,2,3は、ハードディスク装置2,3からなる二重化のソフトウェアミラーリング7と解除されたハードディスク装置1との構成になる。
With reference to FIG. 4, the failure sign diagnosis method in the embodiment will be described.
When a command for executing the control program C is issued from the operating system 5, the mirror construction program of the mirror construction / cancellation program A is executed, and the hard disk is connected to the duplicated software mirroring 4 constituted by the hard disk devices 1 and 2 in the computer system. The device 3 is added to form a triple software mirroring 6 including three hard disk devices.
When the control program C confirms the normal completion of the mirror construction program, the mirror construction program of the mirror construction / cancellation program A is executed for the triple software mirroring, and the mirror construction / cancellation of the hard disk device 1 of the triple software mirroring 6 is executed. The mirror cancellation program of the cancellation program A is executed. The hard disk devices 1, 2, and 3, which are constructed in the triple software mirroring 6 after the hard disk device 1 is released from the software mirroring, are the double software mirroring 7 composed of the hard disk devices 2 and 3 and the released hard disk device 1 It becomes a composition.

ミラー解除プログラムの正常終了を制御プログラムCが確認するとハードディスク装置診断プログラムBがソフトウェアミラーリングを解除され未使用となったハードディスク装置1に対し実行される。この時、二重化のソフトウェアミラーリング構成4がハードディスク装置2,3により保持されている為、ハードディスク装置1にハードディスク装置診断プログラムBを実行している間にハードディスク装置2,3のどちらかに障害が発生した場合にもオンライン業務に影響を与えることはない。ハードディスク装置診断プログラムBの正常終了を制御プログラムCが確認すると、ミラー構築/解除プログラムAが実行されハードディスク装置1,2からなる二重化のソフトウェアミラーリング4を再構築し、ハードディスク装置3をソフトウェアミラーリングから解除する。   When the control program C confirms the normal end of the mirror cancellation program, the hard disk device diagnosis program B is executed on the hard disk device 1 that has been released from software mirroring and has not been used. At this time, since the redundant software mirroring configuration 4 is held by the hard disk devices 2 and 3, a failure occurs in either of the hard disk devices 2 or 3 while the hard disk device diagnostic program B is executed on the hard disk device 1. This will not affect your online business. When the control program C confirms the normal termination of the hard disk device diagnostic program B, the mirror construction / cancellation program A is executed to reconstruct the duplex software mirroring 4 comprising the hard disk devices 1 and 2 and release the hard disk device 3 from the software mirroring. To do.

ミラー構築/解除プログラムAの実行時に障害が発生した場合や、ハードディスク装置診断プログラムB実行時にオペレーティングシステム上に障害情報が表示された場合は障害となったハードディスク装置を交換し、再度制御プログラムCを実行し、ミラー構築/解除プログラムAにより三重化のソフトウェアミラーリング6を構成して障害予兆診断を開始する。ハードディスク装置1の障害予兆診断が正常に終了した場合はハードディスク装置2の障害予兆診断が開始される。ハードディスク装置1に対してハードディスク装置診断プログラムBによる障害予兆診断を実施しているときにはハードディスク装置2,3がソフトウェアミラーリング7を構成し、ハードディスク装置2に対してハードディスク装置診断プログラムBによる障害予兆診断を実施しているときにはハードディスク装置1,3がソフトウェアミラーリング8を構成する。   If a failure occurs during execution of the mirror construction / cancellation program A, or if failure information is displayed on the operating system when the hard disk device diagnostic program B is executed, the failed hard disk device is replaced, and the control program C is executed again. Execute, configure the triple software mirroring 6 by the mirror construction / cancellation program A, and start failure predictive diagnosis. When the failure sign diagnosis of the hard disk device 1 is normally completed, the failure sign diagnosis of the hard disk device 2 is started. The hard disk devices 2 and 3 constitute the software mirroring 7 when the hard disk device 1 is performing the failure sign diagnosis by the hard disk device diagnosis program B, and the hard disk device 2 is subjected to the failure sign diagnosis by the hard disk device diagnosis program B. When implemented, the hard disk devices 1 and 3 constitute the software mirroring 8.

上述のように、ソフトウェアミラーリングを構成しているハードディスク装置に対する障害予兆診断の実施時は常に二重化のソフトウェアミラーリングによりデータの冗長性が保持されている状態で逐次的に実施する。   As described above, when predictive failure diagnosis is performed on a hard disk device that constitutes software mirroring, it is sequentially performed in a state where data redundancy is maintained by redundant software mirroring.

また障害予兆診断の実施頻度はハードディスク装置ごとの稼働時間の長さにより障害発生率が高くなる時期に応じて決定する。   Further, the frequency of the failure predictive diagnosis is determined according to the time when the failure occurrence rate becomes high depending on the length of operation time of each hard disk device.

図5を参照して三重化したソフトウェアミラーリングの構築におけるハードディスク装置の構成を説明する。二重化のソフトウェアミラーリングから三重化したソフトウェアミラーリングを構築する際に、追加するハードディスク装置を個別にもうけることなくコンピュータシステムにおけるn組の二重化したソフトウェアミラーリング構成(201〜203)を1台のハードディスク装置(205)を用いて順次三重化のソフトウェアミラーリングに構築することでより少ないハードディスク装置での障害予兆診断を実施する。   With reference to FIG. 5, the configuration of the hard disk device in the construction of triple software mirroring will be described. When constructing triple software mirroring from double software mirroring, n sets of double software mirroring configurations (201 to 203) in a computer system can be configured as one hard disk device (205) without separately adding additional hard disk devices. ) Is used for sequential software mirroring to implement failure predictive diagnosis with fewer hard disk devices.

ソフトウェアミラーリングを構成していない単体のハードディスク装置(204)に対しても複数のハードディスク装置(205)を追加して三重化のソフトウェアミラーリングを構築しハードディスク装置の障害予兆診断方式を実施する。
追加するハードディスク装置に障害が発生した場合にそなえ、三重化のソフトウェアミラーリングを構成する為の追加するハードディスク装置は複数台(m台)
を用いて、三重化のソフトウェアミラーリングを構成する際に選択して使用する。
A plurality of hard disk drives (205) are added to a single hard disk drive (204) that does not constitute software mirroring to construct triple software mirroring, and a failure predictive diagnosis method for the hard disk drive is implemented.
In case of a failure in the hard disk drive to be added, multiple hard disk drives to be added to configure triple software mirroring (m)
To select and use when configuring triple software mirroring.

図6、図7を参照してハードディスク装置の障害予兆診断の実施頻度について説明する。   With reference to FIGS. 6 and 7, the frequency of execution of the failure sign diagnosis of the hard disk device will be described.

ハードディスク装置の障害発生率の傾向としては、稼働時間の経過により障害率は高くなる。また近年のハードディスク装置は製造技術が高まり品質が均質化されてきているため同時期に製造されたハードディスク装置は同時期に障害が発生する可能性が高くなる傾向にある。   As a tendency of the failure occurrence rate of the hard disk device, the failure rate becomes higher as the operation time elapses. Further, since hard disk devices in recent years have been improved in manufacturing technology and have been made uniform in quality, hard disk devices manufactured in the same period tend to be more likely to fail in the same period.

例えば図6では同時期にハードディスク装置1,2,3の稼働を開始したためハードディスク装置の稼働時間に対する障害率曲線障害率曲線(301)は重なっている。稼働を開始して(302)までの期間は稼働時間が短く障害率が低いためハードディスク装置1,2,3の障害予兆診断の実施頻度を少ない頻度で実施する。(302)以降の期間はハードディスク装置1,2,3の稼働時間が長くなり障害率が高くなるため障害率曲線(301)の上昇に伴ってハードディスク装置1,2,3の障害予兆診断の実施頻度を多くする。   For example, in FIG. 6, since the operation of the hard disk devices 1, 2, and 3 is started at the same time, the failure rate curve failure rate curve (301) with respect to the operation time of the hard disk device overlaps. Since the operation time is short and the failure rate is low during the period from the start of operation to (302), the failure predictive diagnosis of the hard disk devices 1, 2, and 3 is performed less frequently. During the period after (302), since the operating time of the hard disk devices 1, 2 and 3 becomes longer and the failure rate becomes higher, the failure predictor diagnosis of the hard disk devices 1, 2 and 3 is performed as the failure rate curve (301) rises. Increase the frequency.

図7では図6に示したハードディスク装置1の障害を検知して交換した後のハードディスク装置1の障害率曲線(304)とハードディスク装置1と同時期に稼働を開始し障害が検知されずに稼働を続けているハードディスク装置2,3の障害率曲線を示す(303)。時点で障害が検知されて交換したハードディスク装置1は(302)から稼働を開始したため(305)までの期間は稼働時間が短く障害率が低いためハードディスク装置1の障害予兆診断の実施頻度を少ない頻度で実施する。障害が検知されずに稼働を続けているハードディスク装置2,3は稼働時間が長く障害率が高いままであるため障害予兆診断の実施頻度を多い頻度で実施する。   In FIG. 7, the failure rate curve (304) of the hard disk device 1 after detecting and replacing the failure of the hard disk device 1 shown in FIG. 6 and the hard disk device 1 start operating at the same time and operate without detecting the failure. The failure rate curves of the hard disk devices 2 and 3 that continue the operation are shown (303). Since the hard disk device 1 that has been detected and replaced at the time has started operation from (302), the operation time is short and the failure rate is low during the period from (302) to low frequency, so the frequency of the failure predictive diagnosis of the hard disk device 1 is low. To implement. Since the hard disk devices 2 and 3 that continue to operate without detecting a failure have a long operation time and a high failure rate, the failure predictive diagnosis is frequently performed.

制御プログラムCは上述の傾向を考慮して三重化したソフトウェアミラーリングを構成するハードディスク装置1,2,3に対する障害予兆診断の実施頻度をハードディスク装置の稼働時間の長さに応じて決定する。ハードディスク装置の稼働時間は各ハードディスク装置の内部統計情報の稼働時間を検出して用いる。また、障害予兆診断の実施頻度については、ハードディスク装置のアクセス障害の発生頻度などにより、決定する方法もある。   The control program C determines the frequency of execution of failure predictive diagnosis for the hard disk devices 1, 2, and 3 constituting the triple software mirroring in consideration of the above-mentioned tendency according to the operating time of the hard disk device. The operating time of the hard disk device is used by detecting the operating time of the internal statistical information of each hard disk device. Further, there is a method of determining the frequency of performing the failure sign diagnosis based on the frequency of occurrence of an access failure of the hard disk device.

1〜3 ハードディスク装置
4 三重化で構成されたソフトウェアミラーリング
5 オペレーティングシステム
6〜8 二重化で構成されたソフトウェアミラーリング
A ソフトウェアミラーリングの構築/解除プログラム
B ハードディスク装置診断プログラム
C 制御プログラム
101〜110 ハードディスク装置診断プログラムのフローチャートのステップを示す
201〜203 2台ハードディスク装置からなる二重化したソフトウェアミラーリング構成を示す。
301〜303 ハードディスク装置の稼働時間に対する障害率曲線を示す。
304〜305 ハードディスク装置の稼働時間の期間を示す。
1 to 3 Hard disk device 4 Software mirroring configured by triple operation 5 Operating system 6 to 8 Software mirroring configured by duplex A Software mirroring construction / cancellation program B Hard disk device diagnosis program C Control program 101 to 110 Hard disk device diagnosis program 2 shows a duplicated software mirroring configuration composed of two hard disk devices.
301 to 303 show failure rate curves with respect to the operating time of the hard disk device.
304 to 305 Indicates the operating time period of the hard disk device.

Claims (5)

オペレーティングシステム上に、ソフトウェアミラーリングの構築/解除を実行するプログラムと、ソフトウェアミラーリングを解除したことで未使用状態となったハードディスク装置の全データ領域への読み取り/書き込みによる障害予兆診断を実行するプログラムと、これらのプログラムを制御するプログラムを有し、オンライン業務中のソフトウェアミラーリングにより構成されたハードディスク装置1台に対する障害予兆診断を、2台のハードディスク装置からなるソフトウェアミラーリングにより常にデータの冗長性を保持した状態で実施することを特徴とするハードディスク装置の障害予兆診断方式。   A program for executing software mirroring construction / cancellation on the operating system, and a program for executing predictive failure diagnosis by reading / writing data in all data areas of the hard disk device that has become unused due to the cancellation of software mirroring. , Has a program to control these programs, and predictive failure diagnosis for one hard disk device configured by software mirroring during online work, always kept data redundancy by software mirroring consisting of two hard disk devices A failure sign diagnosis method for a hard disk device, which is performed in a state. 上記請求項1のハードディスク装置の障害予兆診断方式を、ソフトウェアミラーリングで構成している全てのハードディスク装置、および、追加用の全ハードディスク装置に対して逐次的に実行するプログラムによりハードディスク装置の健全性を保ちコンピュータシステムの可用性を高めることを特徴とするハードディスク装置の障害予兆診断方式。   According to the hard disk device failure predictive diagnosis method of claim 1, the soundness of the hard disk device is improved by a program that is sequentially executed for all hard disk devices configured by software mirroring and all additional hard disk devices. A predictive failure diagnosis method for hard disk devices characterized by maintaining computer system availability. 通常時に二重化のソフトウェアミラーリングで構成しているn組のソフトウェアミラーリング構成に対し、上記請求項1のハードディスク装置の障害予兆診断方式を実施するための三重化のソフトウェアミラーリングを構築する際に、追加するハードディスク装置を個別にもうけることなく、複数のハードディスク装置の内、1台を選択して順次三重化のソフトウェアミラーリングを構築することでより少ないハードディスク装置での障害予兆診断を実施することを特徴とするハードディスク装置の障害予兆診断方式。   When the triple software mirroring for implementing the failure predictive diagnosis method of the hard disk device according to claim 1 is constructed with respect to the n sets of software mirroring configurations normally configured by the double software mirroring, it is added. It is characterized by performing failure predictive diagnosis with fewer hard disk devices by selecting one of the plurality of hard disk devices and constructing a triple software mirroring sequentially without having to separately prepare the hard disk devices. A predictive failure diagnosis method for hard disk drives. 上記請求項1のハードディスク装置の障害予兆診断方式を、ソフトウェアミラーリングを構成していないハードディスク装置に対して、複数のハードディスク装置を追加することにより可能とし、逐次的に実行するプログラムによりハードディスク装置の健全性を保ちコンピュータシステムの可用性を高めることを特徴とするハードディスク装置の障害予兆診断方式。   The hard disk drive failure diagnosis method according to claim 1 is enabled by adding a plurality of hard disk drives to a hard disk drive that does not constitute software mirroring. A predictive failure diagnosis method for hard disk drives, characterized by maintaining high availability and increasing the availability of computer systems. 上記請求項1のハードディスク装置の障害予兆診断方式のソフトウェアミラーリングで構成しているハードディスク装置に対する障害予兆診断の実施頻度を、当該ハードディスク装置の内部統計情報の稼働時間の長さに応じて決定して実施することを特徴とするハードディスク装置の障害予兆診断方式。   The execution frequency of failure predictive diagnosis for a hard disk device configured by software mirroring of the hard disk device failure predictive diagnosis method according to claim 1 is determined according to the length of operating time of internal statistical information of the hard disk device. A predictive failure diagnosis method for a hard disk drive, characterized by being implemented.
JP2010080113A 2010-03-31 2010-03-31 Fault symptom diagnosis method for hard disk device Pending JP2011215664A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010080113A JP2011215664A (en) 2010-03-31 2010-03-31 Fault symptom diagnosis method for hard disk device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010080113A JP2011215664A (en) 2010-03-31 2010-03-31 Fault symptom diagnosis method for hard disk device

Publications (1)

Publication Number Publication Date
JP2011215664A true JP2011215664A (en) 2011-10-27

Family

ID=44945354

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010080113A Pending JP2011215664A (en) 2010-03-31 2010-03-31 Fault symptom diagnosis method for hard disk device

Country Status (1)

Country Link
JP (1) JP2011215664A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111611117A (en) * 2020-05-22 2020-09-01 浪潮电子信息产业股份有限公司 Hard disk fault prediction method, device, equipment and computer readable storage medium

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111611117A (en) * 2020-05-22 2020-09-01 浪潮电子信息产业股份有限公司 Hard disk fault prediction method, device, equipment and computer readable storage medium
CN111611117B (en) * 2020-05-22 2022-06-10 浪潮电子信息产业股份有限公司 Hard disk fault prediction method, device, equipment and computer readable storage medium

Similar Documents

Publication Publication Date Title
JP5887757B2 (en) Storage system, storage control device, and storage control method
CN100353328C (en) Apparatus, method and program for the control of storage
US7640452B2 (en) Method for reconstructing data in case of two disk drives of RAID failure and system therefor
CN104094236B (en) The system and method for preventing loss of data
US20050262385A1 (en) Low cost raid with seamless disk failure recovery
US20140215262A1 (en) Rebuilding a storage array
CN100368976C (en) Disk array apparatus and backup method of data
US7836268B2 (en) Method, apparatus, and system for controlling data storage
CN101488077A (en) Redundancy magnetic disk control server system
JP4807172B2 (en) Disk array device, patrol diagnosis method, and patrol diagnosis control program
JP4635941B2 (en) Disk array subsystem
JP2019036163A (en) Storage control device and control program
JP2005267056A (en) Software mirroring disk failure monitoring and recovery system, its failure monitoring and recovery method, and program
US9251016B2 (en) Storage system, storage control method, and storage control program
JP5849491B2 (en) Disk control device, disk device abnormality detection method, and program
WO2024103977A1 (en) Metadata configuration method and apparatus, and nonvolatile readable storage medium
JP4117684B2 (en) Fault-tolerant / duplex computer system and its control method
US7457990B2 (en) Information processing apparatus and information processing recovery method
JP2011215664A (en) Fault symptom diagnosis method for hard disk device
CN103116474B (en) A kind of raid card method for designing for data recovery and selfreparing
JP2008084168A (en) Information processor and data restoration method
JP5734107B2 (en) Process failure determination and recovery device, process failure determination and recovery method, process failure determination and recovery program, and recording medium
JP2006285807A (en) Test method and device for storage device
JP2010286887A (en) Disk array device, processing method, and program therefor
JP4294568B2 (en) Disk array device and control method thereof