JP2021170261A - Storage control device and control program - Google Patents
Storage control device and control program Download PDFInfo
- Publication number
- JP2021170261A JP2021170261A JP2020073527A JP2020073527A JP2021170261A JP 2021170261 A JP2021170261 A JP 2021170261A JP 2020073527 A JP2020073527 A JP 2020073527A JP 2020073527 A JP2020073527 A JP 2020073527A JP 2021170261 A JP2021170261 A JP 2021170261A
- Authority
- JP
- Japan
- Prior art keywords
- connection
- module
- failure
- iom
- processing unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 claims abstract description 50
- 238000012360 testing method Methods 0.000 claims abstract description 40
- 230000002159 abnormal effect Effects 0.000 claims description 5
- 238000012423 maintenance Methods 0.000 abstract description 30
- 230000003449 preventive effect Effects 0.000 abstract description 28
- 238000000034 method Methods 0.000 description 18
- 230000005856 abnormality Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 238000012546 transfer Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 4
- 230000002950 deficient Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 101150017205 EXPA12 gene Proteins 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Landscapes
- Hardware Redundancy (AREA)
Abstract
Description
本発明は、ストレージ制御装置及び制御プログラムに関する。 The present invention relates to a storage control device and a control program.
近年のエンタープライズ系のRedundant Arrays of Independent Disks(RAID)コントローラにおいては、RAIDコントローラとディスクとの間のデータ転送通信路が冗長化されることがある。これにより、片方のデータ転送通信路で故障が発生しても、残りのデータ転送通信路での運用継続が可能になる。 In recent enterprise Redundant Arrays of Independent Disks (RAID) controllers, the data transfer communication path between the RAID controller and the disk may be redundant. As a result, even if a failure occurs in one of the data transfer communication paths, the operation can be continued in the remaining data transfer communication path.
しかしながら、データ転送通信路が冗長化された装置においても、データ転送通信路の二重故障時には運用が停止されることがある。 However, even in a device in which the data transfer communication path is made redundant, the operation may be stopped in the event of a double failure of the data transfer communication path.
図1は、RAIDシステム600における予防保守を例示する図である。
FIG. 1 is a diagram illustrating preventive maintenance in the
予防保守とは、装置内の保守交換可能な部品であって、運用の継続は可能であるものの軽微の故障状態に陥った部品について、予防的に交換を行なうことである。予防保守の処理としては、例えば、故障部品の切り離しと、故障部品の交換とがある。 Preventive maintenance is the preventive replacement of parts that can be maintained and replaced in the device and that can be operated but have fallen into a minor failure state. Preventive maintenance processes include, for example, disconnection of defective parts and replacement of defective parts.
RAIDシステム600は、複数(図示する例では2つ)のController Module(CM)6(CM#0,#1と称されてもよい。)及び複数(図示する例では3つ)のDisk Enclosure(DE)7(DE#01〜#03と称されてもよい。)を備える。
The
DE7は、複数のディスク71及び2つのInput Output Module(IOM)72(IOM#0,#1と称されてよい。)を備える。なお、図1においては、簡単のため、各DE7において、1つのディスク71に限って示されている。
The DE7 includes a plurality of
CM6は、Central Processing Unit(CPU)61及びExpander(EXP)62を備える。CPU61は、Input Output Controller(IOC)601として機能する。
The CM6 includes a Central Processing Unit (CPU) 61 and an Expander (EXP) 62. The
ここで、冗長化されたバックエンドパス構成において、DE7の片方のIOM72の予防保守開始後に誤って正常部品を保守切り離しすると、DE7の両パスが閉塞となり、DE7内の全てのディスク71にアクセスできなくなる。
Here, in a redundant back-end path configuration, if a normal component is mistakenly maintained and disconnected after the preventive maintenance of one IOM72 of the DE7 is started, both paths of the DE7 are blocked and all the
このような現象が起きる場合としては、一点故障の場合と二点故障の場合とが想定される。一点故障は、保守員の単純な作業ミスによって発生することが想定される。また、二点故障は、両パスに異常が包含され、一点は運用不可能で且つ被疑箇所の特定不可能な故障であり、もう一点は軽微で継続運用可能で且つ被疑箇所の特定可能な故障であることが想定される。 When such a phenomenon occurs, it is assumed that there is a one-point failure and a two-point failure. It is assumed that a single point failure is caused by a simple work mistake of a maintenance person. In addition, a two-point failure includes an abnormality in both paths, one point is a failure that cannot be operated and the suspected part cannot be identified, and the other point is a minor failure that can be continuously operated and the suspected part can be identified. Is assumed to be.
図1には、二点故障の場合が示されている。DE#02のIOM#0は、故障部品−1であり、予防保守対象のリカバリ可能な故障モード(別言すれば、軽微な異常)である。また、DE#02のIOM#1は、故障部品−2であり、サイレント故障のリカバリ不可能な故障モード(別言すれば、重度な異常)である。
FIG. 1 shows the case of a two-point failure.
以下、図1を用いて、誤って正常部品を保守切り離しした結果、全経路が閉塞する様子を説明する。 Hereinafter, with reference to FIG. 1, a state in which all routes are blocked as a result of accidentally maintaining and disconnecting a normal component will be described.
まず、符号A1に示すように、DE#02のIOM#1で、検出できない異常であるサイレント故障が発生する。次に、符号A2に示すように、DE#02のIOM#0で、リカバリ可能な故障が発生し、予防保守が実施される。これにより、符号A3に示すように、各DE7のIOM#0側の経路が使用できなくなる。一方、符号A4に示すように、各DE7のIOM#1側の経路でディスク71に対するアクセスが開始される。そして、符号A5に示すように、DE#02のIOM#1におけるサイレント故障による異常が顕在化し、両パスが閉塞する。
First, as shown by reference numeral A1, a silent failure, which is an abnormality that cannot be detected, occurs in
リカバリ不可能な故障モードであるIOM72が交換される場合には、リカバリ可能な故障モードであるIOM72側の経路を用いて引き続きの運用が可能である。しかしながら、図1に示したように、リカバリ可能な故障モードであるIOM72の予防保守が実施されると、両パスが使用不可能になる。 When the IOM72, which is an unrecoverable failure mode, is replaced, it is possible to continue the operation by using the route on the IOM72 side, which is a recoverable failure mode. However, as shown in FIG. 1, when preventive maintenance of IOM72, which is a recoverable failure mode, is performed, both paths become unusable.
また、データ転送を伴うパトロール等では、ホストInput Output(IO)性能の低下を引き起こすため、データ転送ありのパトロールを恒常的に実施できない場合がある。 In addition, patrols with data transfer may not be able to perform patrols with data transfer constantly because the host Input Output (IO) performance deteriorates.
1つの側面では、冗長的なパス構成を有するストレージシステムにおいて、効率的な予防保守を実施できるようにすることを目的とする。 One aspect is aimed at enabling efficient preventive maintenance in a storage system with a redundant path configuration.
1つの側面では、ストレージ制御装置は、プライマリパスとセカンダリパスとによって複数の記憶装置群がカスケード接続されたストレージ制御装置であって、前記プライマリパスにおける第1のモジュールでリカバリ可能な障害が発生した場合に、前記第1のモジュールとの接続を擬似的に切断する切断処理部と、前記セカンダリパスにおける第2のモジュールとの接続を有効にしてアクセス試験を実施する接続処理部と、前記接続処理部による前記アクセス試験の結果に応じて、前記障害の原因を特定する特定部と、を備える。 On one side, the storage controller is a storage controller in which a plurality of storage devices are cascaded by a primary path and a secondary path, and a recoverable failure has occurred in the first module in the primary path. In this case, a disconnection processing unit that pseudo-disconnects the connection with the first module, a connection processing unit that enables an access test by enabling the connection with the second module in the secondary path, and the connection processing. A specific unit for identifying the cause of the failure is provided according to the result of the access test by the unit.
1つの側面では、冗長的なパス構成を有するストレージシステムにおいて、効率的な予防保守を実施できる。 On one side, efficient preventive maintenance can be performed in a storage system with a redundant path configuration.
以下、図面を参照して一実施の形態を説明する。ただし、以下に示す実施形態はあくまでも例示に過ぎず、実施形態で明示しない種々の変形例や技術の適用を排除する意図はない。すなわち、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。 Hereinafter, one embodiment will be described with reference to the drawings. However, the embodiments shown below are merely examples, and there is no intention of excluding the application of various modifications and techniques not specified in the embodiments. That is, the present embodiment can be variously modified and implemented within a range that does not deviate from the purpose.
また、各図は、図中に示す構成要素のみを備えるという趣旨ではなく、他の機能等を含むことができる。 Further, each figure does not mean that it includes only the components shown in the figure, but may include other functions and the like.
以下、図中において、同一の各符号は同様の部分を示しているので、その説明は省略する。 Hereinafter, since the same reference numerals indicate the same parts in the drawings, the description thereof will be omitted.
〔A〕実施形態の一例
〔A−1〕システム構成例
図2は、実施形態の一例におけるRAIDシステム100のハードウェア構成例を模式的に示すブロック図である。
[A] Example of Embodiment [A-1] System Configuration Example FIG. 2 is a block diagram schematically showing a hardware configuration example of the
RAIDシステム100は、ストレージシステムの一例であり、複数(図示する例では2つ)のCM1(CM#0,#1と称されてもよい。)及び複数(図示する例では3つ)のDE2(DE#01〜#03と称されてもよい。)を備える。
The
各DE2は、プライマリパスとセカンダリパスとによって、CM#0,#1にカスケード接続されている。プライマリパスは、CM#0を、DE#01,#02,#03の順に接続する。また、セカンダリパスは、CM#1を、DE#03,#02,#01の順に接続する。
Each DE2 is cascade-connected to
DE2は、記憶装置群の一例であり、複数のディスク21及び2つのIOM22(IOM#0,#1と称されてよい。)を備える。なお、図2においては、簡単のため、各DE2において、1つのディスク21に限って示されている。
DE2 is an example of a storage device group, and includes a plurality of
ディスク21は、記憶装置の一例であり、CM1からの命令に応じて種々の情報を記憶する。IOM22は、モジュールの一例であり、CM1又は他のDE2との間の通信を中継する。
The
CM1は、ストレージ制御装置の一例であり、CPU11及びEXP12を備える。
CM1 is an example of a storage control device, and includes a
EXP12は、各DE2又は他系のCM1との間の通信を中継する。 EXP12 relays communication with each DE2 or CM1 of another system.
図3は、図2に示したCM1のソフトウェア構成例を模式的に示すブロック図である。 FIG. 3 is a block diagram schematically showing a software configuration example of CM1 shown in FIG.
CPU11は、図2に示したようにIOC101として機能すると共に、図3に示すように切断処理部111,接続処理部112及び特定部113として機能する。
The
IOC101は、各DE2又は他系のCM1との間の通信を制御する。 The IOC101 controls communication with each DE2 or another CM1 system.
切断処理部111は、プライマリパスにおけるIOM22でリカバリ可能な障害が発生した場合に、プライマリパスにおけるIOM22との接続を擬似的に切断する。切断処理部111は、プライマリパスのカスケード接続において、複数のDE2のうち末端に接続されているDE2のIOM22から順次接続を擬似的に切断してよい。
The
接続処理部112は、セカンダリパスにおけIOM22との接続を有効にしてアクセス試験を実施する。接続処理部112は、切断処理部111によって接続を擬似的に切断されたDE2のセカンダリパス側のIOM22について、順次接続を有効にしてアクセス試験を実施してよい。また、接続処理部112は、特定部113によってセカンダリパスのIOM22が障害の原因として特定された場合に、プライマリパスのIOM22との接続を再度有効にしてよい。
The
特定部113は、接続処理部112によるアクセス試験の結果に応じて、障害の原因を特定する。例えば、特定部113は、セカンダリパスのIOM22に対するアクセス試験の結果が正常である場合に、プライマリパスのIOM22を障害の原因として特定する。一方、特定部113は、セカンダリパスのIOM22に対するアクセス試験の結果が異常である場合に、セカンダリパスのIOM22を障害の原因として特定する。
The
CM1全体の動作を制御するための装置は、CPU11に限定されず、例えば、MPUやDSP,ASIC,PLD,FPGAのいずれか1つであってもよい。また、CM1全体の動作を制御するための装置は、CPU,MPU,DSP,ASIC,PLD及びFPGAのうちの2種類以上の組み合わせであってもよい。なお、MPUはMicro Processing Unitの略称であり、DSPはDigital Signal Processorの略称であり、ASICはApplication Specific Integrated Circuitの略称である。また、PLDはProgrammable Logic Deviceの略称であり、FPGAはField Programmable Gate Arrayの略称である。
The device for controlling the operation of the entire CM1 is not limited to the
図4は、図2に示したRAIDシステム100における予防保守対象部品の検出処理を説明する図である。
FIG. 4 is a diagram for explaining the detection process of the preventive maintenance target component in the
符号B1に示すように、DE#02のIOM#0がリカバリ可能なエラーが発生した故障部品として検出される。これにより、符号B2に示すようにDE#01のIOM#0を経由したディスク21に対するアクセスは可能なものの、符号B3及びB4に示すようにDE#02のIOM#0を経由したディスク21に対するアクセスには障害が発生する。また、符号B5に示すように、DE#03のIOM#0を経由したディスク21へのアクセスにも障害が発生する。
As shown by reference numeral B1,
図5は、図4に示した予防保守対象部品の検出結果に応じた被疑箇所管理情報を示すテーブルである。 FIG. 5 is a table showing suspected location management information according to the detection result of the preventive maintenance target component shown in FIG.
被疑箇所管理情報には、被疑箇所と加点値と重度故障フラグとが対応づけられている。 The suspected location management information is associated with the suspected location, a point addition value, and a severe failure flag.
図5に示す例では、DE#01のIOM#0,#1とDE#02のIOM#1とDE#03のIOM#1とにおいては、エラーが発生していないため、初期値として加点値が“0”に設定されると共に重度故障フラグが“Off”に設定される。一方、DE#02のIOM#0とDE#03のIOM#0とにおいては、リカバリ可能なエラーによりアクセスに障害が発生しているため、加点値が“10”に設定されると共に重度故障フラグが初期値としての“off”に設定される。
In the example shown in FIG. 5, since no error has occurred in
図6は、図2に示したRAIDシステム100における予防保守対象部品の切り離し処理を説明する図である。
FIG. 6 is a diagram illustrating a process of separating parts subject to preventive maintenance in the
符号C1に示すように、DE#02のIOM#0は、予防保守の対象に設定される。また、符号C2に示すように、DE#03のIOM#0は、擬似的に使えない状態に設定される。そして、符号C3に示すように、DE#03のIOM#1を経由したディスク21へのアクセスを発生させる。
As shown by reference numeral C1,
ここで、擬似的に使えない状態への設定としては、例えば、IOM22の電源オフやSerial Attached Small computer system interface(SAS)接続の切断は行なわず、CM1のファームウェア内のドライバ層でパスを一時的に使えない状態にすることである。例えば、SASドライバ層での対象EXPアクセス応答が、SASSTS=28(Port Unavailable)に設定される。 Here, as a setting to the state where it cannot be used in a pseudo manner, for example, the power of the IOM22 is not turned off or the Serial Attached Small computer system interface (SAS) connection is not disconnected, and the path is temporarily passed in the driver layer in the firmware of CM1. It is to make it unusable. For example, the target EXP access response in the SAS driver layer is set to SASSTS = 28 (Port Unavailable).
図7は、図2に示したRAIDシステム100における冗長パスに対するアクセス試験処理の第1の例を説明する図である。
FIG. 7 is a diagram illustrating a first example of access test processing for a redundant path in the
符号D1に示すように、DE#02のIOM#0は、図6の符号C2に示したDE#03のIOM#0と同様に、擬似的に使えない状態に設定される。そして、DE#03のIOM#1及びDE#02のIOM#1を経由したアクセスが実施される。符号D2及びD3に示すようにDE#03のIOM#1及びDE#02のIOM#1では異常が検出されないため、符号D4及びD5に示すようにDE#03のディスク21及びDE#02のディスク21へのアクセスが発生する。これにより、符号D6に示すように、DE#02のIOM#0は、障害の原因である可能性が最も高い部品であるとして、第一被疑箇所に設定される。
As shown by reference numeral D1,
これにより、セカンダリパス側の通信を保持したまま、作業員はプライマリパス側で被疑箇所として特定されたIOM22の予防保守を実施できる。 As a result, the worker can perform preventive maintenance of the IOM22 identified as the suspected part on the primary path side while maintaining the communication on the secondary path side.
図8は、図2に示したRAIDシステム100における冗長パスに対するアクセス試験処理の第2の例を説明する図である。
FIG. 8 is a diagram illustrating a second example of access test processing for a redundant path in the
符号E1に示すように、DE#02のIOM#0は、図6の符号C2に示したDE#03のIOM#0と同様に、擬似的に使えない状態に設定される。そして、DE#03のIOM#1及びDE#02のIOM#1を経由したアクセスが実施される。符号E2に示すようにDE#03のIOM#1では異常が検出されないため、符号E4に示すようにDE#03のディスク21へのアクセスが発生する。一方、符号E3に示すようにDE#02のIOM#1では異常が検出されため、符号E5に示すようにDE#02のディスク21へのアクセス障害が発生する。これにより、符号E6に示すように、DE#02のIOM#1は、障害の原因である可能性が最も高い部品であるとして、第一被疑箇所に設定される。また、符号E7に示すように、DE#02のIOM#0は、障害の原因である可能性が二番目に高い部品であるとして、第二被疑箇所に設定される。
As shown by reference numeral E1,
ここで、プライマリパス側の第二被疑箇所として特定されたIOM2の予防保守を実施すると、プライマリパス側及びセカンダリパス側の両方が閉塞してしまう。このため、第二被疑箇所として特定されたリカバリ可能なエラーを有するIOM22は、CM1に再度接続されてよい。
Here, if preventive maintenance of IOM2 specified as the second suspected place on the primary path side is carried out, both the primary path side and the secondary path side will be blocked. Therefore, the
図9は、図8に示した冗長パスに対するアクセス試験結果に応じた被疑箇所管理情報を示すテーブルである。 FIG. 9 is a table showing suspected location management information according to the access test results for the redundant path shown in FIG.
図9に示す被疑箇所管理情報では、図5に示した被疑箇所管理情報と比較して、図8の符号E6で第一被疑箇所に設定されたDE#02のIOM#1における加点値が“100”に設定されている。そして、加点値が閾値を超えると、重度故障フラグが“On”に設定される。
In the suspected location management information shown in FIG. 9, the added point value in
〔A−2〕動作例
図2に示したRAIDシステム100における予防保守処理を、図10に示すフローチャート(ステップS1〜S9)を用いて説明する。
[A-2] Operation Example The preventive maintenance process in the
予防保守が開始されると、切断処理部111は、SASカスケードの末端のIOM22を擬似的に使えない状態とする(ステップS1)。
When the preventive maintenance is started, the cutting
接続処理部112は、逆パス(別言すれば、セカンダリパス)へのアクセスを接続し、逆パスで異常が発生しているかを判定する(ステップS2)。
The
逆パスで異常が発生していない場合には(ステップS2のNOルート参照)、接続処理部112は、予防保守の対象となった被疑IOM22が属するDE2まで逆パスの接続試験を実施したかを判定する(ステップS3)。
If no abnormality has occurred in the reverse path (see the NO route in step S2), the
被疑IOM22が属するDE2まで逆パスの接続試験を実施していない場合には(ステップS3のNOルート参照)、切断処理部111は、SASカスケードにおいて一つ分IOC101に近いIOM22を擬似的に使えない状態とする(ステップS4)。そして、処理はステップS2へ戻る。
If the reverse path connection test has not been performed up to DE2 to which the suspected IOM22 belongs (see the NO route in step S3), the
一方、被疑IOM22が属するDE2まで逆パスの接続試験を実施した場合には(ステップS3のYESルート参照)、特定部113は、元パス(別言すれば、プライマリパス)において異常が発生したIOM22を第一被疑箇所として指示する(ステップS5)。そして、予防保守処理は終了する。
On the other hand, when the reverse path connection test is performed up to DE2 to which the suspected IOM22 belongs (see the YES route in step S3), the
ステップS2において、逆パスで異常が発生している場合には(ステップS2のYESルート参照)、接続処理部112は、被疑箇所管理情報においてエラー箇所をマッピングする(ステップS6)。
If an error occurs in the reverse path in step S2 (see the YES route in step S2), the
接続処理部112は、擬似的に使えない状態としたIOM22を復旧させる(ステップS7)。
The
特定部113は、エラー箇所としてマッピングされたIOM22を第一被疑個所として指示する(ステップS8)。
The
特定部113は、元パスにおいて異常が発生したIOM22を第二被疑箇所として指示する(ステップS9)。そして、予防保守処理は終了する。
The
〔A−3〕効果
上述した実施形態の一例におけるストレージ制御装置及び制御プログラムによれば、例えば、以下の作用効果を奏することができる。
[A-3] Effect According to the storage control device and the control program in the above-described example of the embodiment, for example, the following effects can be achieved.
切断処理部111は、プライマリパスにおけるIOM22でリカバリ可能な障害が発生した場合に、プライマリパスにおけるIOM22との接続を擬似的に切断する。接続処理部112は、セカンダリパスにおけIOM22との接続を有効にしてアクセス試験を実施する。特定部113は、接続処理部112によるアクセス試験の結果に応じて、障害の原因を特定する。
The
これにより、冗長的なパス構成を有するRAIDシステム100において、効率的な予防保守を実施できる。そして、作業員による誤った被疑箇所の保守切り離しに起因するDE2の全パス閉塞を防ぎ、上位ホストによるRAIDアクセスを継続しながら保守を行なうことができる。
As a result, efficient preventive maintenance can be performed in the
特定部113は、セカンダリパスのIOM22に対するアクセス試験の結果が正常である場合に、プライマリパスのIOM22を障害の原因として特定する。一方、特定部113は、セカンダリパスのIOM22に対するアクセス試験の結果が異常である場合に、セカンダリパスのIOM22を障害の原因として特定する。これにより、障害の原因箇所を容易に特定することができる。
The
接続処理部112は、特定部113によってセカンダリパスのIOM22が障害の原因として特定された場合に、プライマリパスのIOM22との接続を再度有効にする。これにより、DE2の全パス閉塞を防止することができる。
The
切断処理部111は、プライマリパスのカスケード接続において、複数のDE2のうち末端に接続されているDE2のIOM22から順次接続を擬似的に切断する。接続処理部112は、切断処理部111によって接続を擬似的に切断されたDE2のセカンダリパス側のIOM22について、順次接続を有効にしてアクセス試験を実施する。これにより、障害の原因の特定を効率的に実施できる。
The
〔B〕その他
開示の技術は上述した実施形態に限定されるものではなく、本実施形態の趣旨を逸脱しない範囲で種々変形して実施することができる。本実施形態の各構成及び各処理は、必要に応じて取捨選択することができ、あるいは適宜組み合わせてもよい。
[B] Other disclosed techniques are not limited to the above-described embodiments, and can be variously modified and implemented without departing from the spirit of the present embodiment. Each configuration and each process of the present embodiment can be selected as necessary, or may be combined as appropriate.
〔C〕付記
以上の実施形態に関し、更に以下の付記を開示する。
[C] Additional Notes The following additional notes will be further disclosed with respect to the above embodiments.
(付記1)
プライマリパスとセカンダリパスとによって複数の記憶装置群がカスケード接続されたストレージ制御装置であって、
前記プライマリパスにおける第1のモジュールでリカバリ可能な障害が発生した場合に、前記第1のモジュールとの接続を擬似的に切断する切断処理部と、
前記セカンダリパスにおける第2のモジュールとの接続を有効にしてアクセス試験を実施する接続処理部と、
前記接続処理部による前記アクセス試験の結果に応じて、前記障害の原因を特定する特定部と、
を備える、ストレージ制御装置。
(Appendix 1)
A storage control device in which multiple storage devices are cascaded by a primary path and a secondary path.
A disconnection processing unit that pseudo-disconnects the connection with the first module when a recoverable failure occurs in the first module in the primary path.
A connection processing unit that enables an access test by enabling the connection with the second module in the secondary path, and
A specific unit that identifies the cause of the failure according to the result of the access test by the connection processing unit, and
A storage control device.
(付記2)
前記特定部は、前記第2のモジュールに対する前記アクセス試験の結果が正常である場合に、前記第1のモジュールを前記障害の原因として特定する、
付記1に記載のストレージ制御装置。
(Appendix 2)
The identification unit identifies the first module as the cause of the failure when the result of the access test for the second module is normal.
The storage control device according to
(付記3)
前記特定部は、前記第2のモジュールに対する前記アクセス試験の結果が異常である場合に、前記第2のモジュールを前記障害の原因として特定する、
付記1又は2に記載のストレージ制御装置。
(Appendix 3)
The identification unit identifies the second module as the cause of the failure when the result of the access test for the second module is abnormal.
The storage control device according to
(付記4)
前記接続処理部は、前記特定部によって前記第2のモジュールが前記障害の原因として特定された場合に、前記第1のモジュールとの接続を再度有効にする、
付記3に記載のストレージ制御装置。
(Appendix 4)
The connection processing unit re-enables the connection with the first module when the second module is identified as the cause of the failure by the identification unit.
The storage control device according to
(付記5)
前記切断処理部は、前記プライマリパスの前記カスケード接続において、前記複数の記憶装置群のうち末端に接続されている記憶装置群のモジュールから順次接続を擬似的に切断し、
前記接続処理部は、前記切断処理部によって接続を擬似的に切断された前記記憶装置群の前記セカンダリパス側のモジュールについて、順次接続を有効にして前記アクセス試験を実施する、
付記1〜4のいずれか1項に記載のストレージ制御装置。
(Appendix 5)
In the cascade connection of the primary path, the disconnection processing unit pseudo-disconnects the connection from the module of the storage device group connected to the end of the plurality of storage device groups in a pseudo manner.
The connection processing unit performs the access test by enabling sequential connection of the modules on the secondary path side of the storage device group in which the connection is pseudo-disconnected by the disconnection processing unit.
The storage control device according to any one of
(付記6)
プライマリパスとセカンダリパスとによって複数の記憶装置群がカスケード接続されたコンピュータに、
前記プライマリパスにおける第1のモジュールでリカバリ可能な障害が発生した場合に、前記第1のモジュールとの接続を擬似的に切断し、
前記セカンダリパスにおける第2のモジュールとの接続を有効にしてアクセス試験を実施し、
前記アクセス試験の結果に応じて、前記障害の原因を特定する、
処理を実行させる、制御プログラム。
(Appendix 6)
A computer in which multiple storage devices are cascaded by a primary path and a secondary path,
When a recoverable failure occurs in the first module in the primary path, the connection with the first module is pseudo-disconnected.
The access test was performed by enabling the connection with the second module in the secondary path.
Identify the cause of the failure according to the results of the access test.
A control program that executes processing.
(付記7)
前記第2のモジュールに対する前記アクセス試験の結果が正常である場合に、前記第1のモジュールを前記障害の原因として特定する、
処理を前記コンピュータに実行させる、付記6に記載の制御プログラム。
(Appendix 7)
When the result of the access test for the second module is normal, the first module is identified as the cause of the failure.
The control program according to
(付記8)
前記第2のモジュールに対する前記アクセス試験の結果が異常である場合に、前記第2のモジュールを前記障害の原因として特定する、
処理を前記コンピュータに実行させる、付記6又は7に記載の制御プログラム。
(Appendix 8)
When the result of the access test for the second module is abnormal, the second module is identified as the cause of the failure.
The control program according to
(付記9)
前記第2のモジュールが前記障害の原因として特定された場合に、前記第1のモジュールとの接続を再度有効にする、
処理を前記コンピュータに実行させる、付記8に記載の制御プログラム。
(Appendix 9)
If the second module is identified as the cause of the failure, re-enable the connection with the first module.
The control program according to Appendix 8, which causes the computer to execute the process.
(付記10)
前記プライマリパスの前記カスケード接続において、前記複数の記憶装置群のうち末端に接続されている記憶装置群のモジュールから順次接続を擬似的に切断し、
接続を擬似的に切断された前記記憶装置群の前記セカンダリパス側のモジュールについて、順次接続を有効にして前記アクセス試験を実施する、
処理を前記コンピュータに実行させる、付記6〜9のいずれか1項に記載の制御プログラム。
(Appendix 10)
In the cascade connection of the primary path, the connection is pseudo-disconnected from the modules of the storage device group connected to the end of the plurality of storage device groups.
The access test is performed on the modules on the secondary path side of the storage device group in which the connection is pseudo-disconnected, with the sequential connection enabled.
The control program according to any one of
100,600:RAIDシステム
1,6 :CM
11,61 :CPU
101,601:IOC
111 :切断処理部
112 :接続処理部
113 :特定部
12,62 :EXP
2,7 :DE
21,71 :ディスク
22,72 :IOM
100,600:
11,61: CPU
101,601: IOC
111: Cutting processing unit 112: Connection processing unit 113:
2, 7: DE
21,71:
Claims (6)
前記プライマリパスにおける第1のモジュールでリカバリ可能な障害が発生した場合に、前記第1のモジュールとの接続を擬似的に切断する切断処理部と、
前記セカンダリパスにおける第2のモジュールとの接続を有効にしてアクセス試験を実施する接続処理部と、
前記接続処理部による前記アクセス試験の結果に応じて、前記障害の原因を特定する特定部と、
を備える、ストレージ制御装置。 A storage control device in which multiple storage devices are cascaded by a primary path and a secondary path.
A disconnection processing unit that pseudo-disconnects the connection with the first module when a recoverable failure occurs in the first module in the primary path.
A connection processing unit that enables an access test by enabling the connection with the second module in the secondary path, and
A specific unit that identifies the cause of the failure according to the result of the access test by the connection processing unit, and
A storage control device.
請求項1に記載のストレージ制御装置。 The identification unit identifies the first module as the cause of the failure when the result of the access test for the second module is normal.
The storage control device according to claim 1.
請求項1又は2に記載のストレージ制御装置。 The identification unit identifies the second module as the cause of the failure when the result of the access test for the second module is abnormal.
The storage control device according to claim 1 or 2.
請求項3に記載のストレージ制御装置。 The connection processing unit re-enables the connection with the first module when the second module is identified as the cause of the failure by the identification unit.
The storage control device according to claim 3.
前記接続処理部は、前記切断処理部によって接続を擬似的に切断された前記記憶装置群の前記セカンダリパス側のモジュールについて、順次接続を有効にして前記アクセス試験を実施する、
請求項1〜4のいずれか1項に記載のストレージ制御装置。 In the cascade connection of the primary path, the disconnection processing unit pseudo-disconnects the connection from the module of the storage device group connected to the end of the plurality of storage device groups in a pseudo manner.
The connection processing unit performs the access test by enabling sequential connection of the modules on the secondary path side of the storage device group in which the connection is pseudo-disconnected by the disconnection processing unit.
The storage control device according to any one of claims 1 to 4.
前記プライマリパスにおける第1のモジュールでリカバリ可能な障害が発生した場合に、前記第1のモジュールとの接続を擬似的に切断し、
前記セカンダリパスにおける第2のモジュールとの接続を有効にしてアクセス試験を実施し、
前記アクセス試験の結果に応じて、前記障害の原因を特定する、
処理を実行させる、制御プログラム。 A computer in which multiple storage devices are cascaded by a primary path and a secondary path,
When a recoverable failure occurs in the first module in the primary path, the connection with the first module is pseudo-disconnected.
The access test was performed by enabling the connection with the second module in the secondary path.
Identify the cause of the failure according to the results of the access test.
A control program that executes processing.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020073527A JP2021170261A (en) | 2020-04-16 | 2020-04-16 | Storage control device and control program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020073527A JP2021170261A (en) | 2020-04-16 | 2020-04-16 | Storage control device and control program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021170261A true JP2021170261A (en) | 2021-10-28 |
Family
ID=78150099
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020073527A Pending JP2021170261A (en) | 2020-04-16 | 2020-04-16 | Storage control device and control program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021170261A (en) |
-
2020
- 2020-04-16 JP JP2020073527A patent/JP2021170261A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4330547B2 (en) | Information processing system control method, information processing system, information processing system control program, and redundant configuration control device | |
WO2018221136A1 (en) | Abnormality determination device, abnormality determination method, and abnormality determination program | |
US20070226537A1 (en) | Isolating a drive from disk array for diagnostic operations | |
US7007191B2 (en) | Method and apparatus for identifying one or more devices having faults in a communication loop | |
JP2013161235A (en) | Storage device, method for controlling storage device and control program for storage device | |
US20080109584A1 (en) | Method and apparatus for verifying fault tolerant configuration | |
JP6455302B2 (en) | Bus communication system | |
JP4635941B2 (en) | Disk array subsystem | |
JP5391994B2 (en) | Storage system, control device, and diagnostic method | |
US20070234107A1 (en) | Dynamic storage data protection | |
US20140229772A1 (en) | Partial redundancy for i/o modules or channels in distributed control systems | |
JP5977431B2 (en) | Disk array system and connection method | |
JP5605672B2 (en) | Voltage monitoring system and voltage monitoring method | |
JP4500346B2 (en) | Storage system | |
JP2021170261A (en) | Storage control device and control program | |
EP2876542A1 (en) | Storage control device, program, and control method | |
KR101847556B1 (en) | SAS Data converting system having a plurality of RAID controllers | |
US11561852B2 (en) | BMC, server system, device stability determination method, and non-transitory computer-readable recording medium | |
JP2012014531A (en) | Storage device, controller of storage device and control method for storage device | |
JP2009514064A (en) | Semiconductor circuit configuration apparatus and configuration method | |
JP2016038656A (en) | Connection monitoring device, connection monitoring program and connection monitoring method | |
JP3015537B2 (en) | Redundant computer system | |
JP6930153B2 (en) | Path switching device, path switching method and path switching program, and computer system | |
JP3015538B2 (en) | Redundant computer system | |
JPH07134636A (en) | Disk array device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230112 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231102 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231107 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20240430 |