JP2009064067A - 電源障害の発生を把握するストレージシステム - Google Patents

電源障害の発生を把握するストレージシステム Download PDF

Info

Publication number
JP2009064067A
JP2009064067A JP2007228816A JP2007228816A JP2009064067A JP 2009064067 A JP2009064067 A JP 2009064067A JP 2007228816 A JP2007228816 A JP 2007228816A JP 2007228816 A JP2007228816 A JP 2007228816A JP 2009064067 A JP2009064067 A JP 2009064067A
Authority
JP
Japan
Prior art keywords
controller
switch
failure
command
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007228816A
Other languages
English (en)
Other versions
JP4982304B2 (ja
Inventor
Hiroshi Suzuki
弘志 鈴木
Tsutomu Koga
努 小賀
Tetsuya Inoue
哲也 井上
Tomokazu Yokoyama
智一 横山
Kenji Jin
賢司 神
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2007228816A priority Critical patent/JP4982304B2/ja
Priority to US12/068,205 priority patent/US7809983B2/en
Publication of JP2009064067A publication Critical patent/JP2009064067A/ja
Priority to US12/869,260 priority patent/US8037362B2/en
Priority to US13/227,639 priority patent/US8312325B2/en
Application granted granted Critical
Publication of JP4982304B2 publication Critical patent/JP4982304B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/36Monitoring, i.e. supervising the progress of recording or reproducing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1443Transmit or communication errors
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/002Programmed access in sequence to a plurality of record carriers or indexed parts, e.g. tracks, thereof, e.g. for editing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2002Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
    • G06F11/2007Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media
    • G06F11/201Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media between storage system components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2015Redundant power supplies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2089Redundant storage control functionality
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/20Disc-shaped record carriers
    • G11B2220/25Disc-shaped record carriers characterised in that the disc is based on a specific recording technology
    • G11B2220/2508Magnetic discs
    • G11B2220/2516Hard disks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Power Sources (AREA)

Abstract

【課題】各ドライブI/F回路について電源異常検出回路及び電源異常報告用ケーブルが無くても、ドライブI/F回路についての電源障害が発生したことをコントローラ部で把握できるようにする。
【解決手段】コントローラ部と記憶装置との間に一以上のスイッチを介在させる。或る記憶装置へのコマンド送信に失敗した場合、コントローラ部からその記憶装置が接続されているスイッチまでの経路において上流側から下流側にかけてコマンドを送信し、k+1番目(kは0以上の整数)のスイッチに接続されている一つ上流側のk番目のスイッチ又はコントローラ部におけるどのポートからもコマンド送信に失敗した場合に、k+1番目のスイッチに給電している電源に障害が発生したと判断する。
【選択図】図2

Description

本発明は、ストレージシステムで発生した電源障害の把握に関する。
ストレージシステムにおける電源障害の把握に関する技術として、例えば、特許文献1に開示の技術が知られている。特許文献1の技術によれば、HDD(ハードディスクドライブ)の電源に障害が発生したことをHDDの電源監視部が検出し、その電源監視部が、ストレージシステム内の制御部に、障害を報告する。
特開2006−126972号公報
例えば、ストレージシステムの構成として、コントローラを備えたユニット(以下、便宜上、「基本筐体」と言う)に、複数のメディアドライブを搭載した一以上のユニット(以下、便宜上、「増設筐体」と言う)をケーブル或いはバックボード等の部品を介して直列に接続する構成、言い換えれば、基本筐体と一以上の増設筐体を多段に接続した構成を採用することがある。この種の構成によれば、増設筐体の数を変更することで、ストレージシステムの記憶容量を変更することが可能である。
この種のストレージシステムとして、例えば、図1に例示する構成のストレージシステムがある。
例えば、基本筐体10に、n台の増設筐体3−1乃至3−nが接続される(nは1以上の整数(図示の例ではnは2以上の整数))。
基本筐体10には、二重化されたコントローラ(以下、「CTL」と略記)1A及び1Bが備えられる。CTL1A及び1Bは、ドライブI/F制御回路2A及び2Bを備えている。ドライブI/F制御回路2A及び2Bは、ドライブI/F回路6A−1乃至6A−n及び6B−1乃至6B−nを制御する。例えば、ドライブI/F制御回路2A及び2Bは、ターゲットのメディアドライブ(例えば8−1−0)が接続されているドライブI/F回路(例えば6A−1)を制御することで、そのメディアドライブにアクセスする。
増設筐体3−nには、二重化されたAC/DC電源(以下、単に「電源」と言う)4A−n及び4B−nと、二重化されたドライブ制御基板5A−n及び5B−nと、m+1台のメディアドライブ8−n−0乃至8−n−m(mは0以上の整数(図示の例ではmは1以上の整数))とが備えられる。ドライブ制御基板5A−n及び5B−nは、メディアドライブ8−n−0乃至8−n−mに対するインタフェース回路であるドライブI/F回路6A−n及び6B−nを備えている。両方のドライブI/F回路6A−n及び6B−nに、メディアドライブ8−n−0乃至8−n−mがそれぞれ接続されている。電源4A−n及び4B−nは、AC電源(商用電源)7A−n及び7B−nから供給される交流電力を直流電力に変換してドライブI/F回路6A−n及び6B−nやメディアドライブ8−n−0乃至8−n−mに供給する。
基本筐体10におけるドライブI/F制御回路2A(及び2B)と増設筐体3−1乃至3−nにおけるドライブI/F6A−1乃至6A−n(及び6B−1乃至6B−n)が、ファイバチャネルケーブル11A−1乃至11A−n(及び11B−1乃至11B−n)で直列に接続されている。これにより、ファイバチャネル信号線11A(及び11B)が形成される(具体的には、例えば、ドライブI/F6A−1乃至6A−n(及び6B−1乃至6B−n)やファイバチャネルケーブル11A−1乃至11A−n(及び11B−1乃至11B−n)を含んだFC−AL(Fibre Channel-Arbitrated Loop)が構成される)。
この種のストレージシステムでは、増設筐体3−1乃至3−nにおける電源4A−1乃至4A−n及び4B−1乃至4B−nに障害が発生した場合には、その障害を検出して報告を出力することが望まれる。
それを実現する方法として、以下の方法が考えられる。
すなわち、図1に示すように、増設筐体3−1乃至3−nにおいて、ドライブ制御基板5A−1乃至5A−n及び5B−1乃至5B−nに、電源線15−1乃至15−nの電圧を監視する電源異常検出回路9A−1乃至9A−n及び9B−1乃至9B−nが備えられる。例えば増設筐体3−nでは、電源異常検出回路9A−n及び9B−nには、電源4A−n及び4B−nから給電される。電源異常検出回路9A−1乃至9A−n及び9B−1乃至9B−nとドライブI/F制御回路2A及び2Bとの間が、電源障害を表す信号が流れるケーブル(以下、電源異常報告用ケーブル)13A−1乃至13A−n及び13B−1乃至13B−nで接続される。例えば、増設筐体3−nでは、電源4A−n及び4B−nの両方が障害となった場合、電源異常検出回路9A−n及び9B−nが、電源4A−n及び4B−nの異常(電源線15−nにおける電圧の低下)を検出し、電源異常を表す信号を、電源異常報告用ケーブル13A−n及び13B−nを介して、ドライブI/F制御回路2A及び2Bに送信するようになっている。ドライブI/F制御回路2A及び2Bの両方が、電源異常検出回路9A−n及び9B−nの両方から電源異常を表す信号を受信した場合に、電源障害、つまり、電源異常検出回路9A−n及び9B−nがの両方に障害が発生したことが把握される。
しかし、この構成によれば、例えば以下の課題がある。
(1)各ドライブI/F回路について、電源異常報告用ケーブルが必要である。そのため、ストレージシステム内で配線しづらくなるおそれがある。また、ドライブI/F回路の段数が多い程、コントローラから末端までのドライブI/F回路までの距離が長く、電源異常報告用ケーブルの数が多いため、電源障害の報告を受信するために高性能の回路がコントローラに必要になるおそれがある。
(2)各ドライブI/F回路について、電源異常検出回路が必要である。電源異常検出回路が備えられている分、消費電力が大きい。
(3)前述したように、各ドライブI/F回路について、電源異常報告用ケーブルや電源異常検出回路が必要となる。このため、その分、部品点数が多くなるので、保守(例えば点検)の対象が多くなる。
従って、本発明の目的は、各ドライブI/F回路について電源異常検出回路及び電源異常報告用ケーブルが無くても、ドライブI/F回路についての電源障害が発生したことをコントローラ部で把握できるようにすることにある。
本発明の他の目的は、後述の説明から明らかになるであろう。
コントローラ部と記憶装置との間に一以上のスイッチを介在させる。或る記憶装置へのコマンド送信に失敗した場合、コントローラ部からその記憶装置が接続されているスイッチまでの経路において上流側(コントローラ部に近い方の側)から下流側にかけてコマンドを送信し、k+1番目(kは0以上の整数)のスイッチに接続されている一つ上流側のk番目のスイッチ又はコントローラ部におけるどのポートからもコマンド送信に失敗した場合に、k+1番目のスイッチに給電している電源に障害が発生したと判断する。
実施形態1では、ストレージシステムが、一以上のスイッチと、コントローラ部と、二以上の記憶装置と、一以上のスイッチに給電する一以上の電源とを備える。コントローラ部が、一以上のスイッチの少なくとも一つのスイッチが有する二以上のポートに二以上のリンクでそれぞれ接続される二以上のポートを備えている。二以上の記憶装置は、一以上のスイッチの複数のポートのうちの二以上のポートに接続される。コントローラ部が、二以上の記憶装置から選択された記憶装置へのコマンド送信に失敗した場合、コントローラ部から上記選択された記憶装置が接続されているスイッチまでの経路において上流側から下流側にかけてコマンドを送信し、k+1番目(kは0以上の整数)のスイッチに接続されている一つ上流側のk番目のスイッチ又はコントローラ部におけるどのポートからもコマンド送信に失敗した場合に、k+1番目のスイッチに給電している電源に障害が発生したと判断する。
実施形態2では、実施形態1において、コントローラ部が、第一のサブコントローラを有する第一のコントローラと、第二のサブコントローラを有する第二のコントローラとを有する。一以上のスイッチは、第一のサブコントローラにカスケード状に接続されたn個(nは1以上の整数、n≧k+1)の第一のスイッチと、第二のサブコントローラにカスケード状に接続されたn個の第二のスイッチとを含む。各電源が、一組以上の第一及び第二のスイッチに給電する。第一のサブコントローラから前記選択された記憶装置が接続されている第一のスイッチまでの第一の経路において、k+1番目のスイッチに接続されている一つ上流側のk番目の第一のスイッチ又は第一のサブコントローラからどのポートを使用してもコマンドの送信に失敗する場合に、第二のコントローラが、第二のサブコントローラから上記選択された記憶装置が接続されている第二のスイッチまでの第二の経路において、k+1番目の第二のスイッチにk番目の第二のスイッチ又は第二のサブコントローラからコマンドを送信する。k番目の第二のスイッチ又は第二のサブコントローラにおけるどのポートからもコマンド送信に失敗した場合に(例えば、リンクを確保できない、或いは、リンクを確保してコマンド送信しても一定時間内に応答が返って来ない場合に)、第一又は第二のコントローラが、k+1番目の第一及び第二のスイッチに給電している電源に障害が発生したと判断し、k番目の第二のスイッチ又は第二のサブコントローラにおけるいずれかのポートからコマンド送信に成功した場合に(例えば、リンクを確保してコマンド送信してから一定時間内に応答が返って来た場合に)、第一の経路におけるk+1番目のリンクに関する障害が発生したと判断する。
実施形態3では、実施形態2において、第一のコントローラが、k番目の第二のスイッチ又は第二のサブコントローラにおけるどのポートからもコマンド送信に失敗した後、k+1番目又はそれより後段の第一のスイッチへ向けてコマンドを送信し、そのコマンドの送信に成功した場合、k+1番目の第一及び第二のスイッチに給電している電源に一時的に障害が発生したと判断する。
実施形態4では、実施形態3において、第一のコントローラが、k+1番目又はそれより後段の第一のスイッチへ向けてのコマンド送信に成功した場合に、第一のサブコントローラの初期化を実行する。
実施形態5では、実施形態2乃至4のうちの少なくとも一つにおいて、第一のコントローラが、k番目の第二のスイッチ又は第二のサブコントローラにおけるどのポートからもコマンド送信に失敗した後、k+1番目又はそれより後段の第一のスイッチへ向けてコマンドを送信する。そのコマンドの送信に失敗した場合、第二のコントローラが、k+1番目又はそれより後段の第二のスイッチへ向けてコマンドを送信する。そのコマンドの送信に失敗した場合、第一又は第二のコントローラが、k+1番目の第一及び第二のスイッチに給電している電源に障害が発生したと判断する。
実施形態6では、実施形態5において、k+1番目又はそれより後段の第二のスイッチへ向けてのコマンドの送信に成功した場合、第一又は第二のコントローラが、k+1番目のリンクに関する障害が発生したと判断する。
実施形態7では、実施形態2乃至6のうちの少なくとも一つにおいて、一以上のスイッチは、更に、第一のサブコントローラにカスケード状に接続されたn個の第三のスイッチと、第二のサブコントローラにカスケード状に接続されたn個の第四のスイッチとを含む。複数の電源は、一組以上の第一及び第二のスイッチに給電する第一の電源と、一組以上の第三及び第四のスイッチに給電する第二の電源とを含む。第一のサブコントローラから上位機選択された記憶装置が接続されている第三のスイッチまでの第三の経路において、k+1番目のスイッチに接続されている一つ上流側のk番目の第三のスイッチ又は第一のサブコントローラにおけるどのポートからもコマンドの送信に失敗する場合に、第二のコントローラが、第二のサブコントローラから上記選択された記憶装置が接続されている第四のスイッチまでの第四の経路において、k+1番目の第四のスイッチにk番目の第四のスイッチ又は第二のサブコントローラからコマンドを送信する。k番目の第四のスイッチ又は第二のサブコントローラにおけるどのポートからもコマンド送信に失敗した場合に、第一又は第二のコントローラが、k+1番目の第三及び第四のスイッチに給電している第二の電源に障害が発生したと判断し、k番目の第三のスイッチ又は第二のサブコントローラにおけるいずれかのポートからコマンド送信に成功した場合に、前記第三の経路におけるk+1番目のリンクに関する障害が発生したと判断する。
実施形態8では、実施形態2乃至7のうちの少なくとも一つにおいて、ストレージシステムが、第一及び第二のコントローラに共有される共有メモリを更に備える。第一及び第二のコントローラが第一及び第二のプロセッサを備え、第一及び第二のプロセッサが、第一のサブコントローラと第二のサブコントローラの両方に接続されている。第一及び第二のプロセッサのうちの電源に障害が発生したと判断した方が、電源障害の発生を表す電源障害情報を共有メモリに書込む。第一のプロセッサが、上記選択された記憶装置へのコマンド送信に失敗した場合、共有メモリに電源障害情報が記憶されていれば、第一のサブコントローラから上記選択された記憶装置が接続されているスイッチまでの経路において上流側から下流側にかけてコマンドを送信することを行わない。
実施形態9では、実施形態2乃至8のうちの少なくとも一つにおいて、サブコントローラは、SAS(Serial Attached SCSI)コントローラであり、ポートは、phyであり、スイッチは、SASエクスパンダである。
実施形態10では、実施形態9において、第一のSASコントローラと第一のSASエクスパンダ同士、第一のSASエクスパンダ同士、第二のSASコントローラと第二のSASエクスパンダ同士、及び、第二のSASエクスパンダ同士は、1本のナロウリンク、2本のナロウリンクの集合である2ワイドポート、4本のナロウリンクの集合である4ワイドポートで接続されている。
実施形態11では、実施形態1において、コントローラ部が、k番目のスイッチ又はコントローラ部におけるいずれかのポートからのコマンド送信に成功した場合に、k+1番目のリンクに関する障害が発生したと判断する。
実施形態12では、実施形態1及び11のうちの少なくとも一つにおいて、二以上の記憶装置の或る記憶装置に障害が発生しても他の記憶装置にコントローラ部からアクセス可能なインタフェースでコントローラ部と各記憶装置とがスイッチを介して通信可能に接続される。
実施形態13では、実施形態2乃至10のうちの少なくとも一つにおいて、ストレージシステムが、基本ユニットと、増設又は減設が可能な増設ユニットとで構成される。基本ユニットが、第一及び第二のコントローラを有する。各増設ユニットが、一組以上の第一及び第二のエクスパンダと、一組以上の第一及び第二のエクスパンダに給電する一以上の電源と、第一及び第二のエクスパンダの両方に接続された二以上の記憶装置とを備える。
上述した実施形態1乃至13のうちの二以上の実施形態を組み合わせても良い。
電源異常検出回路と電源異常報告用ケーブルを不要とするストレージシステムが構築される。具体的には、例えば、それぞれが2つのポートを有する二以上の記憶装置に対して、スイッチ(例えばSASインタフェース回路(具体例としてSASエクスパンダ))を有する記憶装置制御基板(例えばドライブ制御基板)を2枚接続する。これらに、スイッチや記憶装置に給電するための電源(例えば多重化された電源で構成されている一組の電源)を接続する。このような要素を増設或いは減設の単位となる増設ユニットに備える。コントローラ部を有する基本ユニットに、増設ユニットを1段又は多段に接続する。ストレージシステムに、信号経路が複数本構築され、各信号経路を利用して、コントローラ部が、信号経路の障害なのか電源障害なのかを判定する。また、コントローラ部においてスイッチが接続されている回路(例えば後述のSASコントローラ)の回復が可能な場合には、自動回復を行う。
これにより、増設ユニットについて配線が容易となる。また、増設ユニットにおける消費電力を減らすことができる。更に、増設ユニットにおける部品点数が減るため、保守の対象が減る。
以下、図面を参照して、本発明の幾つかの実施形態を詳細に説明する。
<第一の実施形態>。
図2は、本発明の第一の実施形態に係るストレージシステムの構成例を示す。
ストレージシステム100は、基本筐体101と、n台の増設筐体103−1乃至103−nとで構成される(nは1以上の整数(図2の例ではnは2以上の整数))。基本筐体101に対して、n台の増設筐体103−1乃至103−nが直列に接続される。
基本筐体101には、二重化されたコントローラ(以下、CTL)112A及び112Bが備えられる。CTL112A(及び112B)は、例えば、RAID制御部118A(及び118B)と、SAS(Serial Attached SCSI)コントローラ111A(及び111B)とを備える。
RAID制御部118A及び118Bは、例えば、コンピュータプログラムを実行するマイクロプロセッサ(以下、MP)114A及び114Bや、そのコンピュータプログラムなどを記憶するメモリ122A及び122Bを含んだモジュールであり、コマンドの処理を実行する。具体的には、例えば、RAID制御部118A及び118Bにおけるメモリ122A及び122Bには、どの二以上のメディアドライブによってどんなRAIDレベルのRAIDグループが構成されていてそのRAIDグループにはどんなIDを有する論理ボリュームが形成されているかを表す情報(以下、RAID構成情報)が記憶されている。MP114A(及び114B)は、外部装置(ストレージシステム1001の外部に存在する装置、例えば、ホスト計算機、或いは他のストレージシステム)からI/Oコマンド(以下、ボリュームI/Oコマンド)を受信し、それに応答して、RAID構成情報を基に、そのボリュームI/Oコマンドから特定される論理ボリュームに対応した二以上のメディアドライブを特定し、特定した二以上のメディアドライブにそれぞれ対応した二以上のI/Oコマンド(以下、ドライブI/Oコマンド)を生成する。MP114A(及び114B)は、SASコントローラ111A(及び111B)と通信可能に接続されており、各ドライブI/Oコマンドを、SASコントローラ111A(及び111B)に指示することで、そのドライブI/Oコマンドのターゲットとするメディアドライブに送信させる。また、MP114A(及び114B)は、他方のRAID制御部118B(及び118A)に接続されており、他方のRAID制御部118B(及び118A)に、メディアドライブに対してドライブI/Oコマンドを発行することを指示することができる。
メモリ122A(及び122B)には、制御プログラム116A(及び116B)が記憶される(図では、「プログラム」を「PG」と略記している)。以下、コンピュータプログラムが主語になる場合は、実際にはそのコンピュータプログラムを実行するCPUによって処理が行われるものとする。
SASコントローラ111A(及び111B)は、例えば、ハードウェア回路(例えばICチップ)である。SASコントローラ111A(及び111B)は、RAID制御部118A及び118Bからの指示に応答して、RAID制御部118A及び118BからのドライブI/Oコマンドを、そのドライブI/Oコマンドで指定されているディスクドライブ111に送信する。SASコントローラ111A(及び111B)は、複数のphyを備える。phyとは、物理的なポートである。
各増設筐体について、増設筐体103−nを例に採り説明する。増設筐体103−nには、二重化されたAC/DC電源(以下、単に「電源」と言う)104A−n及び104B−nと、二重化されたドライブ制御基板105A−n及び105B−nと、m+1台のメディアドライブ107−n−0乃至107−n−m(mは0以上の整数(図示の例ではmは1以上の整数))とが備えられる。ドライブ制御基板105A−n及び105B−nは、エクスパンダ106A−n及び106B−nを備えている。
AC/DC電源104A−n及び104B−nは、AC電源(商用電源)181A−n及び181B−nに接続されており、AC電源181A−n及び181B−nから供給される交流を所定の電圧値及び電流値を有する直流に変換し、電源線151−nに出力する。電源線151−nは、例えばエクスパンダ106A−n及び106B−nやメディアドライブ107−n−0乃至107−n−mに接続されている。そのため、電源104A−n及び104B−nから電源線151−nを経由してエクスパンダ106A−n及び106B−nやメディアドライブ107−n−0乃至107−n−mに給電される。
ドライブ制御基板105A−n及び105B−nは、メディアドライブ107−n−0乃至107−n−mを制御する回路基板であり、例えば、エクスパンダ106A−n及び106B−nを有する。
エクスパンダ106A−n及び106B−nは、SASインタフェース回路、言い換えれば、スイッチデバイスである。エクスパンダ106A−n及び106B−nは、複数のphyを有する。複数のphyには、直近且つ上流のエクスパンダのphyに接続される第一のphyと、直近且つ下流のエクスパンダのphyに接続される第二のphyと、メディアドライブ107−n−0乃至107−n−mに接続される第三のphyとがある。以下、それらのphyを、phyに割り当てる番号で区別することにする(例えば、phy番号が00であるphyを「phy#00」と記載する)。具体的には、第一のphyは、phy番号が0始まりとし(例えばphy#00乃至#03)、第二のphyは、phy#が1始まりとし(例えばphy#10乃至#13)、第三のphyは、phy#が2始まりとする(例えばphy#20乃至#2m)。このため、SASコントローラ111A及び111Bにおいて、直近且つ下流のエクスパンダ106A−1及び106B−1のphy#00乃至#03にそれぞれ接続されるphyの番号も、1始まりとなっている(例えばphy#10乃至#13)。
本実施形態では、SASコントローラ111A及び111Bにおけるphy#10乃至#13と、エクスパンダ106A−1及び106B−1におけるphy#10乃至#13とが、4ワイドリンク153A−1及び153B−1で接続されている。同様に、上流側のエクスパンダにおけるphy#10乃至#13と下流側のエクスパンダにおけるphy#00乃至#03とが、4ワイドリンクで接続されている。これにより、SASコントローラ111Aに接続される第一のSAS信号経路(カスケード状に接続されたエクスパンダ106A−1乃至106A−nと4ワイドリンク153A−1乃至153A−nで旺盛された経路)と、SASコントローラ111Bに接続される第二のSAS信号経路(カスケード状に接続されたエクスパンダ106B−1乃至106B−nと4ワイドリンク153B−1乃至153B−nで構成された経路)とが構築される。なお、4ワイドリンクは、4ワイドポート(4つのphyの集合)間を結ぶ4本のナロウリンクの集合である。1本のナロウリンクは、1つのphyと1つのphyとを結ぶ物理リンクである。
両方のエクスパンダ106A−n及び106B−nのphy#20乃至#2mに、メディアドライブ107−n−0乃至107−n−mがそれぞれ接続されている。メディアドライブ107−n−0乃至107−n−mは、それぞれ、記憶装置であり、ハードディスク、DVD(Digital Versatile Disk)、フラッシュメモリ等の種々の記憶メディアのドライブである。メディアドライブ107−n−0乃至107−n−mは、それぞれ、SATA(Serial
Attached SCSI)或いはSASのインタフェースを搭載したドライブである。すなわち、メディアドライブ107−n−0乃至107−n−mは、それぞれ、二つのポートを有しており、二つのポートのうちの一方のポートが一方のエクスパンダ106A−nのphy#20乃至#2mに接続され、他方のポートが他方のエクスパンダ106B−nのphy#20乃至#2mに接続される。なお、もし、メディアドライブが、1つのポートしか有していない場合には、そのメディアドライブに、一方の側に1つのポート有し他方の側に2つのポートを有したドングル(インタフェース変換器)の一方の側のポートが接続されることで、二つのポートを有したメディアドライブとされる。
前述したMP114A(及び114B)は、電源障害やその他の障害の発生を把握した場合、SVP(Service Processor)105に、把握した障害が何であるかや障害発生部位がどこであるかに関する情報(以下、障害報告情報)を送信する。SVP105は、例えば、記憶資源、マイクロプロセッサ及び表示装置を有する装置(例えば計算機)である。SVP105におけるマイクロプロセッサは、受信した障害報告情報を記憶資源(例えばメモリ及び/又はメディアドライブ)に蓄積し、その障害報告情報を基に、障害発生部位やどんな障害が発生したかを表示装置に表示する。また、SVP105におけるマイクロプロセッサは、障害報告情報を基に、障害発生部位を表す情報やどんな障害であるかを表すエラーコードを含んだ情報(以下、便宜上、Service
Informationを略して「SIM」と言う)を、保守センタ装置131に送信する。保守センタ装置131は、複数のストレージシステムに対応する複数のSVPからSIMを収集する装置(例えばサーバマシン)である。保守センタ装置131は、収集されたSIMを基に、どこでどんな障害が発生したかを表す情報を出力する(例えば、表示する、或いは、LAN(Local
Area Network)経由で所定の端末に送信する(この場合、その端末が、その情報を表示する))。
以上が、本実施形態に係るストレージシステム1001の構成についての説明である。
RAID制御部118A(118B)におけるメモリ122A(122B)、SASコントローラ111A(111B)における図示しないメモリ、エクスパンダ105A−1乃至105A−n(105B−1乃至105B−n)における図示しないメモリに、ルーティングテーブルが記憶される。ルーティングテーブルには、そのテーブルを有するデバイス(RAID制御部、SASコントローラ又はエクスパンダ、以下、「対象デバイス」と言う)より下流側に存在する各デバイスと、対象デバイスのphyに直接接続されている(一本のナロウリンクで接続されている)各デバイスとについて、行き先を表す情報要素(行き先情報要素)が記録される。より上流のデバイスに記憶されるルーティングテーブルほど、通常、より多くの行き先情報要素が記録される。なぜなら、より上位のデバイスほど、下位に存在するデバイスの数がより多くなるためである。そのような理由から、RAID制御部118A(及び118B)及びSASコントローラ111A(及び111B)が保持するルーティングテーブルに、一番多くの数の行き先情報要素(すなわち、下位に存在する全てのデバイス(エクスパンダやメディアドライブ)の行き先情報要素)が記録されることになる。行き先情報要素は、例えば、デバイス(例えばエクスパンダ)のSAS規格に従うアドレス(SASアドレス)とphyの番号とで構成することができる。制御プログラム116Aは、例えば、所望のエクスパンダにおけるphyを指定したディスカバリコマンドを送信することで、そのphyに接続されているデバイスの行き先情報を取得することができる。
MP114Aで実行される制御プログラム116Aは、SASコントローラ111Aにおける4つのphy#10乃至#13のうちの選択したphyから、ターゲットSASアドレス(例えばドライブI/OコマンドのターゲットとするSASアドレス)を指定した接続コマンドを送信すると、上流側から下流側にかけて、順次に、ナロウリンクが確保されていく。ターゲットSASアドレスまでのナロウリンクが確保されると、第一のSAS信号経路において、接続が確立される。制御プログラム116Aが、接続が確立した場合に、上記選択したphyから、所望のコマンドとして、例えば、ドライブI/Oコマンドを送信する。これにより、ドライブI/Oコマンドに従うデータが、確保された各ナロウリンクを経由して、ターゲットのメディアドライブに書き込まれる、或いは、確保された各ナロウリンクを経由して、ターゲットのメディアドライブから読み出される。
この一連の流れにおいて、SAS信号経路に関する障害(以下、SAS経路障害)が発生することがある。SAS経路障害として、例えば、ドライブアクセス障害とリンク障害がある。ドライブアクセス障害とは、ドライブI/Oコマンドを発行してから所定の時間が経っても応答が返って来ない、或いは、書込まれた或いは読み出されたデータが壊れている(例えばベリファイ処理によって検出されるデータ不一致)等である。リンク障害とは、接続が確立できない障害である。このようなSAS経路障害が生じる原因としては、例えば、ナロウリンクが壊れた、ナロウリンクが接続されたphyが壊れた、エクスパンダ自身が壊れた等が考えられる。
以上のように、SAS経路障害が発生すると、SASコントローラ111Aから第一のSAS信号経路を介して所望のターゲット(例えばエクスパンダ或いはメディアドライブ)にアクセスすることができない。
しかし、このようにアクセスすることができなくなる原因として、SAS経路障害以外に、電源障害が考えられる。例えば、電源104A−n及び電源104B−nの一方から給電されなくなっても、他方の電源から給電が継続されるため、エクスパンダ106A−n及び107B−nやメディアドライブ107−n−0乃至107−n−mは稼動することができるが、電源障害が発生すると(すなわち、停電などにより電源104A−n及び電源104B−nの両方からの給電がストップしてしまうと)、エクスパンダ106A−n及び106B−nやメディアドライブ107−n−0乃至107−n−mの稼働が停止してしまう。それらにとっての電源がオフとなるためである(なお、電源104A−n及び/又は104B−nが壊れた場合、交換により、回復可能である)。
本実施形態では、SASの特性に着目して考案された以下の障害チェック処理を行うことで、SAS経路障害が検出された原因が、本当にSAS経路障害の発生によるものなのか、或いは、電源障害の発生によるものなのかを区別することができる。障害チェック処理は、第一及び第二のSAS信号経路のいずれかでSAS経路障害が検出されたことを契機に開始される。以下、図3を参照して、SAS経路障害が検出されたことを契機に開始された障害チェック処理を説明する(図では、ステップが“S”と略記されている)。なお、以下の説明では、増設筐体103−pにおけるエクスパンダ106A−pに接続されているメディアドライブをターゲットとしたコマンドを送信した場合にSAS経路障害が検出されたとする(pはn以下の整数)。また、以下の説明では、4ワイドリンクやエクスパンダ(及び/又はそれに接続されているメディアドライブ)における段位を表す番号をk(kは1以上の整数)とする。kは、最上流に位置するSASコントローラ111A及び111Bの段位0とした場合にSASコントローラ111A及び111Bから何段目にあるかを表す(言い換えれば、SASコントローラ111A及び111Bからの位置を表す)。例えば、k=1は、第一のSAS信号経路に関して言えば、SASコントローラ111Aと直近の(つまり1番目の)エクスパンダ116A−1とを結ぶ4ワイドリンク153A−1や、その1番目のエクスパンダ116A−1(又はメディアドライブ107−1−0乃至107−1−mのいずれか)を表し、k=nは、最下流の4ワイドリンク153A−nや、SASコントローラ111Aから最も離れた(言い換えればカスケードの末端にある)n番目のエクスパンダ116A−n(又はメディアドライブ107−n−0乃至107−n−mのいずれか)を表す。
ステップ102において、制御プログラム116Aは、SASコントローラ111Aにおける4つのphy#10乃至#13のうちの一つ(例えばphy#10)を選択し、選択したphy(例えばphy#10)から、k=1であるターゲット(直近のエクスパンダ106A−1又はそのエクスパンダ106A−1に接続されているいずれかのメディアドライブ)を指定したコマンドを送信する。そのコマンドの送信に成功し、そのコマンド送信ではSAS経路障害が検出されなかった場合(ステップ102でNO)、制御プログラム116Aは、ステップ114を実行し、一方、再びSAS経路障害が検出された場合、コマンド送信元のphyを切替えて、コマンドを再送する(つまり、SASコントローラ111Aにおける別のphyを選択し、選択したphyから、k=1であるターゲットを指定したコマンドを再送する)。以上の処理を、制御プログラム116Aは、選択したいずれかのphyでSAS経路障害が検出されなくなるまで繰り返す。もし、いずれのphyからコマンドを再送してもSAS経路障害が検出された場合、言い換えれば、4つのphy#10乃至#13の全てについてSAS経路障害が検出された場合には(ステップ102でYES)、ステップ103に進む。
ステップ103において、制御プログラム116Aは、制御プログラム116Bに、第二のSAS信号経路において、ステップ102と同様の処理を実行させる。すなわち、制御プログラム116Bが、SASコントローラ111Bにおける4つのphy#10乃至#13から一つのphyを選択し、選択したphyから、k=1であるターゲット(直近のエクスパンダ106A−1又はそのエクスパンダ106A−1に接続されているいずれかのメディアドライブ)を指定したコマンドを送信する。SAS経路障害が検出されなければ(ステップ103でNO)、ステップ114を実行し、SAS経路障害が検出されたならば、制御プログラム116Bは、別のphyを選択し、その別のphyから、k=1を指定したコマンドを再送する。以上の処理を、制御プログラム116Bは、選択したいずれかのphyでSAS経路障害が検出されなくなるまで繰り返す。もし、いずれのphyからコマンドを再送してもSAS経路障害が検出された場合、言い換えれば、4つのphy#10乃至#13の全てについてSAS経路障害が検出された場合には(ステップ103でYES)、ステップ104に進む(その際、制御プログラム116Bは、処理の結果を、制御プログラム116Aに通知することができる)。
ステップ104において、制御プログラム116A(又は制御プログラム116B)が、増設筐体103−1で電源障害が生じたと判断する。なぜなら、k=1である4ワイドリンク153A−1及び153B−1のいずれも使用不能であり、その原因として、増設筐体103−1における電源104A−1及び104B−1の両方からエクスパンダ106A−1及び106B−1の両方に給電されなくなったことが考えられるためである。
しかし、電源障害であったとしても、ステップ104の時点では、その電源障害が、短時間で回復可能なタイプの電源障害(例えば、短時間の停電により発生した短時間での電源障害、以下、一時電源障害)なのか、或いは、一時電源障害よりも回復までに長い時間を要するタイプの電源障害(例えば、障害発生部位の交換が必要な電源障害、或いは、長時間の停電により発生した長時間続く電源障害、以下、通常電源障害)なのかがわからない。そこで、下記の処理流れにより、どちらの電源障害であるかが判断される。
すなわち、ステップ105において、制御プログラム116Aが、SASコントローラ111Aにおける4つのphy#10乃至#13のうちのいずれかのphyから、k=1であるターゲットを指定したコマンドを再送する。
ステップ105での再送に成功したならば(ステップ106でYES)、制御プログラム116Aは、増設筐体103−1で一時電源障害が発生したと判断し(ステップ107)、SASコントローラ111Aを自動で回復させる(ステップ108)。具体的には、SASコントローラ111Aに初期化処理を実行させる。初期化処理では、例えば、SASコントローラ111Aが、下流に存在する全てのエクスパンダの全てのphyについて、ディスカバリコマンドを送信することで、下流に存在する各デバイスの行き先情報要素を収集し、ルーティングテーブルを構築する。制御プログラム116Aは、増設筐体103−1で一時電源障害が発生したことを表す障害報告情報をメモリ122Aに書込み、直ちに又は任意のタイミングで(例えば定期的或いは不定期的に)、メモリ122Aに記録されている障害報告情報をSVP105に送信しても良い。
ステップ105での再送に失敗したならば(ステップ106でNO)、制御プログラム116Aは、制御プログラム116Bに、SASコントローラ111Bにおける4つのphy#10乃至#13のうちのいずれかのphyから、k=1であるターゲットを指定したコマンドを再送させる(ステップ109)。
ステップ109での再送に成功したならば(ステップ110でYES)、制御プログラム116Aは、k=1の4ワイドリンク153A−1についてのSAS経路障害が発生したと判断する(ステップ111)。なぜなら、他方の4ワイドリンク153B−1を使用すればk=1のターゲットにコマンドを送ることができるので、この障害チェック処理が開始された契機であるSAS経路障害の検出の原因が、電源障害の発生ではないためである。
ステップ109での再送に失敗したならば(ステップ110でNO)、制御プログラム116Aは、増設筐体103−1で通常電源障害が発生したと判断し、そのことを表す障害報告情報をメモリ122Aに書込み、直ちに又は任意のタイミングで、その障害報告情報をSVP105に送信する(ステップ112)。通常電源障害が発生したと判断する理由は、ステップ104で判断された電源障害が、ステップ105やステップ109での再試行を行った時点までに回復されていないタイプの電源障害であるからである。
ステップ112の後、制御プログラム116Aは、増設筐体103−1での通常電源障害からの回復を待ち(ステップ113)、ステップ102に戻る。
以上のステップ102乃至ステップ113と略同様の処理が、第一のSAS信号経路におけるSAS経路障害であるか或いは増設筐体での電源障害であるかが特定されるまで、順次、下流の増設筐体103−kについて行われる。なお、障害チェック処理では、kはp−1以下の整数とされる。なぜなら、pは、SAS経路障害が検出された原因となったコマンド送信におけるコマンドのターゲットの位置に関する値であるためである。
ステップ114において、制御プログラム116Aは、増設筐体103−k(初回はk=1)のエクスパンダ106A−kにおける4つのphy#10乃至#13のうちの一つのphyから、k=k+1(ここでは2)であるターゲットを指定したコマンドを経由させる。SAS経路障害が検出されない場合(ステップ114でNO)、k=p−1でなければ(ステップ128でNO)、kを1インクリメントし(ステップ117)、インクリメント後のkについて、ステップ114が実行される。k=p−1となっても、SAS経路障害が検出されない場合、障害から回復済みであると考えられる(例えば、ステップ113或いは127で電源障害から回復済みであると考えられる)。
ステップ114において、SAS経路障害が検出されたならば、制御プログラム116Aは、エクスパンダ106A−kにおける4つのphy#10乃至#13のうちの別のphyから、k=k+1を指定したコマンドを再送する。以上の処理を、制御プログラム116Aは、いずれかのphyでSAS経路障害が検出されなくなるまで繰り返す。もし、いずれのphyからコマンドを再送してもSAS経路障害が検出された場合、言い換えれば、4つのphy#10乃至#13の全てについてSAS経路障害が検出された場合には(ステップ114でYES)、ステップ115に進む。
ステップ115において、制御プログラム116Aは、制御プログラム116Bに、第二のSAS信号経路において、ステップ114と同様の処理を実行させる。制御プログラム116Bが、エクスパンダ106B−kにおける4つのphy#10乃至#13のうちのいずれかのphyで、SAS経路障害を検出しなかった場合(ステップ115でNO)、k=p−1であれば(ステップ116でYES)、4ワイドリンク153A−p(つまり、k=k+1=p)についてのSAS経路障害が発生したと判断する(ステップ118)。なぜなら、他方の4ワイドリンク153B−pを使用すればk=pのターゲットにコマンドを送ることができるので、この障害チェック処理が開始された契機であるSAS経路障害の検出の原因が、増設筐体103−pでの電源障害の発生ではないためである。
ステップ115のNOの後、k=p−1でなければ(ステップ116でNO)、kを1インクリメントし(ステップ117)、インクリメント後のkについて、ステップ114が実行される。
ステップ115において、エクスパンダ106B−kにおける4つのphy#10乃至#13の全てでSAS経路障害を検出した場合(ステップ115でYES)、ステップ105乃至ステップ113とそれぞれ同様のステップ119乃至ステップ127が実行される。
すなわち、ステップ119において、制御プログラム116Aが、エクスパンダ106A−kにおける4つのphy#10乃至#13のうちのいずれかのphyから、k=k+1であるターゲットを指定したコマンドを再送する。
ステップ119での再送に成功したならば(ステップ120でYES)、制御プログラム116Aは、増設筐体103−(k+1)で一時電源障害が発生したと判断し(ステップ121)、SASコントローラ111Aを自動で回復させる(ステップ122)。
ステップ119での再送に失敗したならば(ステップ120でNO)、制御プログラム116Aは、制御プログラム116Bに、エクスパンダ106B−kにおける4つのphy#10乃至#13のうちのいずれかのphyから、k=k+1であるターゲットを指定したコマンドを再送させる(ステップ123)。
ステップ123での再送に成功したならば(ステップ124でYES)、制御プログラム116Aは、4ワイドリンク153A−kについてのSAS経路障害が発生したと判断する(ステップ125)。
ステップ123での再送に失敗したならば(ステップ124でNO)、制御プログラム116Aは、増設筐体103−(k+1)で通常電源障害が発生したと判断し、そのことを表す障害報告情報をメモリ122Aに書込み、直ちに又は任意のタイミングで、その障害報告情報をSVP105に送信する(ステップ126)。
ステップ126の後、制御プログラム116Aは、増設筐体103−(k+1)での通常電源障害からの回復を待ち(ステップ127)、ステップ102に戻る。
以上の障害チェック処理において、通常電源障害と判断された場合、通常電源障害が生じたことを表す障害報告情報が、制御プログラム116Aによって、SVP105に送信される。例えば、ステップ112では、図4Aに示すように、制御プログラム116が、増設筐体103−1で通常電源障害が生じたことを表す障害報告情報をSVP105に送信する。SVP105は、その障害報告情報を、SVP105内の図示しない記憶資源に蓄積し、その障害報告情報を基に、障害報告画面1051を表示する。障害報告画面1051では、増設筐体103−1内の電源104A−1及び104B−1をオブジェクトがそれぞれ強調表示される(例えば、そのオブジェクト内の色が点滅する)。
また、図4Bに示すように、SVP105が、その障害報告情報を基に、通常電源障害を表すエラーコードと増設筐体103−1を表す情報とを含んだSIMを、保守センタ装置131に送信する。保守センタ装置131は、そのSIMを基に、増設筐体103−1で通常電源障害が発生したかを表す情報を表示する。
上述した第一の実施形態によれば、電源異常報告用ケーブルが不要となる(言い換えれば、障害報告情報の送信経路を、メディアドライブとコントローラ112Aとの間でやり取りされるデータの転送経路と兼用することができる)。このため、増設筐体内での配線が容易になることが期待できる。また、電源異常報告用ケーブルを介して電源障害の通知を受けるための特別な回路も不要となる。
また、上述した第一の実施形態によれば、電源異常検出回路も不要となる。このため、その分の消費電力を削減することができる。
また、前述したように、電源異常報告用ケーブル及び電源異常検出回路も不要になるので、その分、部品点数が減り、故に、保守(例えば点検)の対象が減る。そのため、部品の交換の発生頻度や、配線ミスの発生頻度を軽減することが期待できる。
以上、上述した第一の実施形態によれば、電源異常検出回路と電源異常報告用ケーブルの両方を不要にすることができるが、この実施形態を、複数の増設筐体に跨ったFC−ALにメディアドライブを接続する構成のストレージシステム(以下、便宜上、FC−ALストレージシステム)に、単純に適用することは困難である。なぜなら、FC−ALでは、FC−AL上の或る箇所(例えばメディアドライブ)で障害が発生すると、そのFC−ALに接続されている全てのメディアドライブ(複数の増設筐体におけるメディアドライブ)にはそのFC−ALを経由してアクセスすることができなくなってしまうためである。つまり、FC−ALストレージシステムから電源異常検出回路や電源異常報告用ケーブルを除去すると、メディアドライブにアクセス不能になった原因を区別することができない(その原因が、増設筐体における電源障害なのかFC−AL上での障害の発生なのかを特定することができない)。
そこで、この第一の実施形態では、FC−ALに代えて、SASの規格に基づいてカスケード状に接続されたエクスパンダにメディアドライブを接続する構成のストレージシステム1001が採用される。SASの規格によれば、エクスパンダ同士を接続する或るphyで障害が発生しても、エクスパンダ同士を接続する別のphyを経由すれば、所望のメディアドライブにアクセスすることが可能である。つまり、エクスパンダ同士を接続する或るphyや、エクスパンダに接続されているメディアドライブに障害が発生しても、FC−ALと違って、カスケード状に接続されている全てのメディアドライブにアクセスすることが不能になるわけではない。
そして、この第一の実施形態では、このSASの特性を利用した上記障害チェック処理を行うことで、SAS経路障害の検出の原因を区別することができる(その原因が、電源障害なのか単なるSAS経路障害(例えばエクスパンダの故障)なのかを特定することができる)。これ故、上述したように電源異常検出回路や電源異常報告用ケーブルを不要にしても、電源障害の発生を把握することができる。
<第二の実施形態>。
以下、本発明の第二の実施形態を説明する。その際、第一の実施形態との相違点を主に説明し、第一の実施形態との共通点については説明を省略或いは簡略する(この点は、以下の第三の実施形態以降についても同様である)。
図5は、本発明の第二の実施形態に係るストレージシステムの構成例を示す。図5では、図2に示した要素と実質的に同じ要素には同じ番号を付している(この点は、以下の第三の実施形態以降についても同様である)。
このストレージシステム1002によれば、SASコントローラ111A(及び111B)とエクスパンダ106A−1(及び106B−1)とを互いに結ぶワイドリンク、及び、エクスパンダ同士を結ぶワイドリンクは、2ワイドリンクである。2ワイドリンクは、2ワイドポート(2つのphyの集合)間を結ぶ2本のナロウリンクの集合である。
図6は、本発明の第二の実施形態で行われる障害チェック処理の流れを示す。
第二の実施形態では、4ワイドリンクに代えて2ワイドリンクが採用されているため、図3におけるステップ102、103、114及び115に代えて、ステップ202、203、214及び215が行われる。すなわち、4つのphy#10乃至#13に代えて、2つのphy#10及び#11の全てでSAS経路障害が検出されたか否かが判断される。
<第三の実施形態>。
図7は、本発明の第三の実施形態に係るストレージシステムの構成例を示す。
このストレージシステム1003によれば、SASコントローラ111A(及び111B)とエクスパンダ106A−1(及び106B−1)を互いに結ぶリンク、及び、エクスパンダ同士を結ぶリンクは、それぞれ、4ワイドリンクに代えて1本のナロウリンクである。
図8は、本発明の第三の実施形態で行われる障害チェック処理の流れを示す。
第三の実施形態では、4ワイドリンクに代えてナロウリンクが採用されているため、図3におけるステップ102、103、114及び115に代えて、ステップ302、303、314及び315が行われる。すなわち、4つのphy#10乃至#13に代えて、1つのphy#10でSAS経路障害が検出されたか否かが判断される。
<第四の実施形態>。
図9及び10は、本発明の第四の実施形態に係るストレージシステムの構成例を示す。すなわち、図9は、第四の実施形態に係るストレージシステムの構成例の一部を示し、図10は、第四の実施形態に係るストレージシステムの構成例の残りの一部を示す。
ストレージシステム1004では、増設筐体103−1乃至103−nのそれぞれに、図9と図10において点線枠で示すように、第一の実施形態に示した構成が冗長化されている。具体的には、例えば、増設筐体103−nについて言えば、エクスパンダ106A−n及び106B−nに加えてエクスパンダ106C−n及び106D−nが備えられ、電源104A−n及び104B−nに加えて電源104C−n及び104D−nが備えられる。エクスパンダ106C−n及び106D−nには、電源104C−n及び104D−nから給電されている。一方の点線枠における一以上のメディアドライブと、他方の点線枠における一以上のメディアドライブとによって、RAIDグループが構成される。
第一のSAS信号経路及び第二のSAS信号経路がそれぞれ冗長化されている。具体的には、SASコントローラ111Aには、8つのphy#10乃至#17が備えられ、そのうちの一つの4ワイドポート(4つのphy#10乃至#13の集合)に、第一のSAS信号経路が接続され、そのうちの別の一つの4ワイドポート(4つのphy#14乃至#17の集合)に、第三のSAS信号経路が接続される。同様に、SASコントローラ111Bには、8つのphy#10乃至#17が備えられ、そのうちの一つの4ワイドポート(4つのphy#10乃至#13の集合)に、第二のSAS信号経路が接続され、そのうちの別の一つの4ワイドポート(4つのphy#14乃至#17の集合)に、第四のSAS信号経路が接続される。第三のSAS信号経路は、4ワイドリンク153C−1乃至153C−nやエクスパンダ106C−1乃至106C−nで構成され、第四のSAS信号経路は、4ワイドリンク153D−1乃至153D−nやエクスパンダ106D−1乃至106D−nで構成されている。
この第三の実施形態では、制御プログラム116Aは、第一のSAS信号経路についてSAS経路障害を検出した場合には、図3のステップ102以降を実行し、第三のSAS信号経路についてSAS経路信号を検出した場合には、図11のステップ502以降を実行する。図11のステップ502乃至528は、図3のステップ102乃至ステップ128にそれぞれ対応する。相違点は、図3が、第一及び第二のSAS信号経路についての処理の流れを示しているのに対し、図11が、第三及び第四のSAS信号経路についての処理の流れを示している点である。また、本実施形態では、電源104A(例えば104A−n)及び104B(例えば104A−n)の両方の障害による電源障害(以下、第一の電源障害)であるか、電源104C(例えば104C−n)及び104D(例えば104D−n)の両方の障害による電源障害(以下、第二の電源障害)であるかを区別することができる。具体的には、例えば、制御プログラム116Aは、第一及び第二のSAS信号経路に関して増設筐体103−nでの通常電源障害を把握した場合には、電源104A−n及び104B−nの両方の障害による第一の通常電源障害であることを障害報告情報に含め、一方、第三及び第四のSAS信号経路に関して増設筐体103−nでの通常電源障害を把握した場合には、電源104C−n及び104D−nの両方の障害による第二の通常電源障害であることを障害報告情報に含める。
<第五の実施形態>。
図12は、本発明の第五の実施形態に係るストレージシステムの構成例を示す。
このストレージシステム1005によれば、また、コントローラ112A(及び112B)では、MP114A(及び114B)とSASコントローラ111A(及び111B)との間に、スイッチデバイス81A(及び81B)が介在する。第一のスイッチデバイス81Aは、第二のMP114Bに接続され、第二のスイッチデバイス81Bは、第一のMP114Aに接続される。このため、例えば、第一のMP114Aは、第一のスイッチデバイス81Aを介して第一のSASコントローラ111Aに命令を発行することも、第二のスイッチデバイス81Bを介して第二のSASコントローラ111Bに命令を発行することもできる。
基本筐体101´に、二つのコントローラ112A及び112Bに共有される共有メモリ83が備えられる。制御プログラム116A及び116Bのうちの一方が、障害チェック処理において、通常電源障害の発生を把握した場合、どの段位kに対応した増設筐体103−kで通常電源障害が発生したかを表す電源障害情報85を共有メモリ83に記録する。制御プログラム116A及び116Bのうちの他方が、SAS経路障害を検出した場合、障害チェック処理を開始する前に、共有メモリ83に電源障害情報85が記録されているかどうかを調べ、記録されていれば、障害チェック処理を行うことなく、電源障害情報85が表す段位kに対応した増設筐体103−kでの通常電源障害からの回復を待つ。
図13は、本発明の第五の実施形態でSAS経路障害が検出された場合に行われる処理の流れを示す。
制御プログラム116Aは、SAS経路障害が検出された場合、共有メモリ83に電源障害情報85が記録されているかどうかを調べ(ステップ640)、記録されていると判断した場合には(ステップ640でYES)、ステップ641を実行し(電源障害情報85が表す段位kに対応した増設筐体103−kでの通常電源障害からの回復を待ち)、記録されていないと判断した場合に、ステップ102以降の処理を行う。
また、ステップ103、109、115及び123では、制御プログラム116Bではなく制御プログラム116Aが、第二のスイッチ81Bを介してSASコントローラ111Bからコマンドを発行する。
また、制御プログラム116Aは、ステップ107及び121の後(例えば次に)、電源障害情報85をクリア(例えば消去)する(ステップ600及び620)。
更に、制御プログラム116Aは、ステップ112及び126の後(例えば次に)、増設筐体103−k(ステップ112ではk=1、ステップ126ではk=n)で通常電源障害が発生したことを表す電源障害情報85を書き込む(ステップ610及び630)。
以上、本発明の幾つかの実施形態を説明したが、これらは本発明の説明のための例示であって、本発明の範囲をこれらの実施形態にのみ限定する趣旨ではない。本発明は、他の種々の形態でも実施することが可能である。
例えば、Kワイドリンク(Kは2以上の整数)について、Kが4と2の場合について説明したが、Kは、他の整数であっても良い。
また、例えば、上述した実施形態では、一つの増設筐体に複数の段位に対応した複数のエクスパンダが備えられても良い(具体的には、例えば、増設筐体103−1に、エクスパンダ106A−1及び106B−1に加えて、エクスパンダ106A−2及び106B−2が備えられても良い)。この場合、増設筐体では、一組の電源104A及び104Bが一組のエクスパンダ106A及び106Bに給電しても良いし複数組のエクスパンダ106A及び106Bに給電しても良い。更に、この場合、メモリ122A及び122Bが、どこの増設筐体に備えられているどの電源からどのエクスパンダに給電されているかを表す情報(以下、給電管理情報)を記憶し、制御プログラム116A及び116Bが、例えば、k番目のエクスパンダの全てのphy#10乃至#13からk+1番目のエクスパンダにコマンド送信することに失敗した場合には、k+1番目のエクスパンダに給電している電源がどの組でその組の電源がどの増設筐体に備えられているかを、給電管理情報を参照することにより特定し、どの増設筐体のどの組の電源に障害が生じたかを表す障害報告情報を送信しても良い。
また、例えば、エクスパンダは、どのphyから下流のエクスパンダにコマンドを送信するかを、上流側から送られてきたコマンドから特定される、そのコマンドが経由してきたphyのID(例えば、World Wide Name(WWN))を基に制御しても良い。
また、例えば、上記各実施形態において、SASコントローラ111AだけでなくSASコントローラ111Bの自動回復が行われても良い。そのための方法としては、例えば、SASコントローラ111A及び/又は111Bが、定期的に、自身のphyからディスカバリコマンドの送信(失敗したならばそれのリトライ)を定期的に実行し、成功した場合に、そのphy配下単位で、回復することができる。
図1は、FC−ALを利用して基本筐体及び一以上の増設筐体が直列に接続されたストレージシステムの構成例を示す。 図2は、本発明の第一の実施形態に係るストレージシステムの構成例を示す。 図3は、本発明の第一の実施形態で行われる障害チェック処理の流れを示す。 図4Aは、コントローラからSVPへの障害報告情報の送信とその障害報告情報を基にSVPによって表示される画面の一例を示す。図4Bは、SVPから保守センタ装置への情報の送信とその情報を基に保守センタ装置によって出力される情報の一例を示す。 図5は、本発明の第二の実施形態に係るストレージシステムの構成例を示す。 図6は、本発明の第二の実施形態で行われる障害チェック処理の流れを示す。 図7は、本発明の第三の実施形態に係るストレージシステムの構成例を示す。 図8は、本発明の第三の実施形態で行われる障害チェック処理の流れを示す。 図9は、本発明の第四の実施形態に係るストレージシステムの構成例の一部を示す。 図10は、そのストレージシステムの構成例の残りの一部を示す。 図11は、本発明の第四の実施形態で第三のSAS信号経路でSAS経路障害が検出された場合に行われる障害チェック処理の流れを示す。 図12は、本発明の第五の実施形態に係るストレージシステムの構成例を示す。 図13は、本発明の第五の実施形態でSAS経路障害が検出された場合に行われる処理の流れを示す。
符号の説明
1001…ストレージシステム 101…基本ユニット 103−n…増設ユニット 104A−n,104B−n…AC/DC電源 107A−n,107B−n…エクスパンダ 111A,111B…SASコントローラ 114A,114B…マイクロプロセッサ(MP) 116A,116B…制御プログラム

Claims (14)

  1. 複数のポートを備えた一以上のスイッチと、
    前記一以上のスイッチの少なくとも一つのスイッチが有する二以上のポートに二以上のリンクでそれぞれ接続される二以上のポートを備えたコントローラ部と、
    前記一以上のスイッチに接続された二以上の記憶装置と、
    前記一以上のスイッチに給電する一以上の電源と
    を備え、
    前記コントローラ部が、前記二以上の記憶装置から選択された記憶装置へのコマンド送信に失敗した場合、前記コントローラ部から前記選択された記憶装置が接続されているスイッチまでの経路において上流側から下流側にかけてコマンドを送信し、k+1番目(kは0以上の整数)のスイッチに接続されている一つ上流側のk番目のスイッチ又はコントローラ部におけるどのポートからもコマンド送信に失敗した場合に、k+1番目のスイッチに給電している電源に障害が発生したと判断する、
    ストレージシステム。
  2. 前記コントローラ部が、第一のサブコントローラを有する第一のコントローラと、第二のサブコントローラを有する第二のコントローラとを有し、
    前記一以上のスイッチは、前記第一のサブコントローラにカスケード状に接続されたn個(nは1以上の整数、n≧k+1)の第一のスイッチと、前記第二のサブコントローラにカスケード状に接続されたn個の第二のスイッチとを含み、
    各電源が、一組以上の第一及び第二のスイッチに給電し、
    前記第一のサブコントローラから前記選択された記憶装置が接続されている第一のスイッチまでの第一の経路において、k+1番目のスイッチに接続されている一つ上流側のk番目の第一のスイッチ又は第一のサブコントローラからどのポートを使用してもコマンドの送信に失敗する場合に、前記第二のコントローラが、前記第二のサブコントローラから前記選択された記憶装置が接続されている第二のスイッチまでの第二の経路において、k+1番目の第二のスイッチにk番目の第二のスイッチ又は第二のサブコントローラからコマンドを送信し、k番目の第二のスイッチ又は第二のサブコントローラにおけるどのポートからもコマンド送信に失敗した場合に、前記第一又は第二のコントローラが、k+1番目の第一及び第二のスイッチに給電している電源に障害が発生したと判断し、k番目の第二のスイッチ又は第二のサブコントローラにおけるいずれかのポートからコマンド送信に成功した場合に、前記第一の経路におけるk+1番目のリンクに関する障害が発生したと判断する、
    請求項1記載のストレージシステム。
  3. 前記第一のコントローラが、k番目の第二のスイッチ又は第二のサブコントローラにおけるどのポートからもコマンド送信に失敗した後、前記k+1番目又はそれより後段の第一のスイッチへ向けてコマンドを送信し、そのコマンドの送信に成功した場合、前記k+1番目の第一及び第二のスイッチに給電している電源に一時的に障害が発生したと判断する、
    請求項2記載のストレージシステム。
  4. 前記第一のコントローラが、前記k+1番目又はそれより後段の第一のスイッチへ向けてのコマンド送信に成功した場合に、前記第一のサブコントローラの初期化を実行する、
    請求項3記載のストレージシステム。
  5. 前記第一のコントローラが、k番目の第二のスイッチ又は第二のサブコントローラにおけるどのポートからもコマンド送信に失敗した後、前記k+1番目又はそれより後段の第一のスイッチへ向けてコマンドを送信し、そのコマンドの送信に失敗した場合、前記第二のコントローラが、前記k+1番目又はそれより後段の第二のスイッチへ向けてコマンドを送信し、そのコマンドの送信に失敗した場合、前記第一又は第二のコントローラが、前記k+1番目の第一及び第二のスイッチに給電している電源に障害が発生したと判断する、
    請求項2記載のストレージシステム。
  6. 前記k+1番目又はそれより後段の第二のスイッチへ向けてのコマンドの送信に成功した場合、前記第一又は第二のコントローラが、k+1番目のリンクに関する障害が発生したと判断する、
    請求項5記載のストレージシステム。
  7. 前記一以上のスイッチは、更に、前記第一のサブコントローラにカスケード状に接続されたn個の第三のスイッチと、前記第二のサブコントローラにカスケード状に接続されたn個の第四のスイッチとを含み、
    複数の電源は、一組以上の第一及び第二のスイッチに給電する第一の電源と、一組以上の第三及び第四のスイッチに給電する第二の電源とを含み、
    前記第一のサブコントローラから前記選択された記憶装置が接続されている第三のスイッチまでの第三の経路において、k+1番目のスイッチに接続されている一つ上流側のk番目の第三のスイッチ又は第一のサブコントローラにおけるどのポートからもコマンドの送信に失敗する場合に、前記第二のコントローラが、前記第二のサブコントローラから前記選択された記憶装置が接続されている第四のスイッチまでの第四の経路において、k+1番目の第四のスイッチにk番目の第四のスイッチ又は第二のサブコントローラからコマンドを送信し、k番目の第四のスイッチ又は第二のサブコントローラにおけるどのポートからもコマンド送信に失敗した場合に、前記第一又は第二のコントローラが、k+1番目の第三及び第四のスイッチに給電している第二の電源に障害が発生したと判断し、k番目の第三のスイッチ又は第二のサブコントローラにおけるいずれかのポートからコマンド送信に成功した場合に、前記第三の経路におけるk+1番目のリンクに関する障害が発生したと判断する、
    請求項2記載のストレージシステム。
  8. 前記第一及び第二のコントローラに共有される共有メモリを更に備え、
    前記第一及び第二のコントローラが第一及び第二のプロセッサを備え、前記第一及び第二のプロセッサが、前記第一のサブコントローラと前記第二のサブコントローラの両方に接続されており、
    前記第一及び第二のプロセッサのうちの電源に障害が発生したと判断した方が、電源障害の発生を表す電源障害情報を前記共有メモリに書込み、
    前記第一のプロセッサが、前記選択された記憶装置へのコマンド送信に失敗した場合、前記共有メモリに前記電源障害情報が記憶されていれば、前記第一のサブコントローラから前記選択された記憶装置が接続されているスイッチまでの経路において上流側から下流側にかけてコマンドを送信することを行わない、
    請求項2記載のストレージシステム。
  9. 前記サブコントローラは、SAS(Serial Attached SCSI)コントローラであり、
    前記ポートは、phyであり、
    前記スイッチは、SASエクスパンダである、
    請求項2記載のストレージシステム。
  10. 前記第一のSASコントローラと前記第一のSASエクスパンダ同士、前記第一のSASエクスパンダ同士、前記第二のSASコントローラと前記第二のSASエクスパンダ同士、及び、前記第二のSASエクスパンダ同士は、1本のナロウリンク、2本のナロウリンクの集合である2ワイドポート、4本のナロウリンクの集合である4ワイドポートで接続されている、
    請求項9記載のストレージシステム。
  11. 前記コントローラ部が、k番目のスイッチ又はコントローラ部におけるいずれかのポートからのコマンド送信に成功した場合に、k+1番目のリンクに関する障害が発生したと判断する、
    請求項1記載のストレージシステム。
  12. 前記二以上の記憶装置の或る記憶装置に障害が発生しても他の記憶装置に前記コントローラ部からアクセス可能なインタフェースで前記コントローラ部と各記憶装置とが前記スイッチを介して通信可能に接続される、
    請求項1記載のストレージシステム。
  13. 基本ユニットと、増設又は減設が可能な増設ユニットとで構成され、
    前記基本ユニットが、前記第一及び第二のコントローラを有し、
    各増設ユニットが、一組以上の第一及び第二のエクスパンダと、前記一組以上の第一及び第二のエクスパンダに給電する一以上の電源と、第一及び第二のエクスパンダの両方に接続された二以上の記憶装置とを備える、
    請求項2記載のストレージシステム。
  14. 複数のポートを備えた一以上のスイッチと、
    前記一以上のスイッチの少なくとも一つのスイッチが有する二以上のポートに二以上のリンクでそれぞれ接続される二以上のポートを備えたコントローラ部と、
    前記一以上のスイッチに接続された二以上の記憶装置と、
    前記一以上のスイッチに給電する一以上の電源と
    を備えたストレージシステムにおける前記一以上の電源についての障害が発生したことを把握する方法であって、
    前記二以上の記憶装置から選択された記憶装置へのコマンド送信に失敗した場合に、前記コントローラ部から前記選択された記憶装置が接続されているスイッチまでの経路において上流側から下流側にかけてコマンドを送信し、
    k+1番目(kは0以上の整数)のスイッチに接続されている一つ上流側のk番目のスイッチ又はコントローラ部におけるどのポートからもコマンド送信に失敗した場合に、k+1番目のスイッチに給電している電源に障害が発生したと判断する、
    方法。
JP2007228816A 2007-09-04 2007-09-04 電源障害の発生を把握するストレージシステム Expired - Fee Related JP4982304B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2007228816A JP4982304B2 (ja) 2007-09-04 2007-09-04 電源障害の発生を把握するストレージシステム
US12/068,205 US7809983B2 (en) 2007-09-04 2008-02-04 Storage system that finds occurrence of power source failure
US12/869,260 US8037362B2 (en) 2007-09-04 2010-08-26 Storage system that finds occurrence of power source failure
US13/227,639 US8312325B2 (en) 2007-09-04 2011-09-08 Storage system that finds occurrence of power source failure

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007228816A JP4982304B2 (ja) 2007-09-04 2007-09-04 電源障害の発生を把握するストレージシステム

Publications (2)

Publication Number Publication Date
JP2009064067A true JP2009064067A (ja) 2009-03-26
JP4982304B2 JP4982304B2 (ja) 2012-07-25

Family

ID=40409386

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007228816A Expired - Fee Related JP4982304B2 (ja) 2007-09-04 2007-09-04 電源障害の発生を把握するストレージシステム

Country Status (2)

Country Link
US (3) US7809983B2 (ja)
JP (1) JP4982304B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011150415A (ja) * 2010-01-19 2011-08-04 Fujitsu Ltd ストレージ装置および同装置の増設方法
JP2013515981A (ja) * 2010-05-12 2013-05-09 株式会社日立製作所 ストレージ装置、及びストレージ装置の制御方法
JP2013516666A (ja) * 2010-06-02 2013-05-13 株式会社日立製作所 バックエンドでの通信の規格がsasであるストレージシステム
JP2013246713A (ja) * 2012-05-28 2013-12-09 Fujitsu Ltd 中継装置、接続管理方法、及び情報通信システム

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7818597B2 (en) * 2007-03-26 2010-10-19 International Business Machines Corporation Computer system fault detection
JP4833164B2 (ja) * 2007-07-24 2011-12-07 株式会社日立製作所 ストレージサブシステム及び電源システム
US7836335B2 (en) * 2008-04-11 2010-11-16 International Business Machines Corporation Cost-reduced redundant service processor configuration
JP4473325B2 (ja) * 2008-05-23 2010-06-02 富士通株式会社 管理装置、ストレージシステム、記憶装置管理方法
JP4551947B2 (ja) * 2008-05-23 2010-09-29 株式会社日立製作所 ストレージシステムを構成する電子機器を管理する装置
JP4620152B2 (ja) * 2008-12-15 2011-01-26 富士通株式会社 ストレージシステム、ストレージ管理装置、ストレージ管理方法
US8020043B2 (en) * 2009-03-06 2011-09-13 Cisco Technology, Inc. Field failure data collection
JP5391994B2 (ja) * 2009-10-19 2014-01-15 富士通株式会社 ストレージシステム,制御装置および診断方法
WO2011121666A1 (ja) * 2010-03-31 2011-10-06 富士通株式会社 マルチクラスタシステム
WO2011158294A1 (en) * 2010-06-17 2011-12-22 Hitachi, Ltd. Storage apparatus and method of detecting power failure in storage apparatus
US8677181B2 (en) * 2010-12-13 2014-03-18 Hitachi, Ltd. Storage apparatus and method of detecting power failure in storage apparatus
US8560878B2 (en) * 2011-03-23 2013-10-15 Hitachi, Ltd. System and method for failure detection by a storage expander preceding an expander experiencing a failure
US8667337B2 (en) * 2011-04-12 2014-03-04 Hitachi, Ltd. Storage apparatus and method of controlling the same
US8745448B2 (en) 2012-06-06 2014-06-03 Hitachi, Ltd. Storage system, storage control apparatus and method for failure recovery
US9116859B2 (en) * 2012-07-17 2015-08-25 Hitachi, Ltd. Disk array system having a plurality of chassis and path connection method
US8924751B2 (en) 2012-07-31 2014-12-30 Hewlett-Packard Development Company, L.P. SAS power management
KR102117841B1 (ko) * 2012-10-30 2020-06-02 삼성전자주식회사 전자장치 및 그 제어방법
JP2015027049A (ja) * 2013-07-29 2015-02-05 株式会社リコー 電子機器、制御方法、プログラムおよびシステム
US10594784B2 (en) * 2013-11-11 2020-03-17 Microsoft Technology Licensing, Llc Geo-distributed disaster recovery for interactive cloud applications
KR102179506B1 (ko) 2013-12-23 2020-11-17 삼성전자 주식회사 전자장치 및 그 제어방법
US10582634B2 (en) * 2016-06-20 2020-03-03 International Business Machines Corporation Cabling a set of enclosures

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04125716A (ja) * 1990-09-17 1992-04-27 Fujitsu Ltd 電源断診断システム
JP2001027972A (ja) * 1999-07-15 2001-01-30 Hitachi Ltd ディスク制御装置
JP2001339853A (ja) * 2000-05-25 2001-12-07 Hitachi Ltd ディスクアレイ装置の電源供給方式
JP2002247607A (ja) * 2001-02-15 2002-08-30 Eiji Miyasoi ケ−ブルテレビ伝送路監視システム
JP2005301638A (ja) * 2004-04-12 2005-10-27 Hitachi Ltd ディスクアレイ装置及びディスクアレイ装置のリザーブ解除制御方法
JP2006048578A (ja) * 2004-08-09 2006-02-16 Hitachi Ltd 計算機システム、計算機及びそのプログラム。
JP2006072636A (ja) * 2004-09-01 2006-03-16 Hitachi Ltd ディスクアレイ装置
JP2006185344A (ja) * 2004-12-28 2006-07-13 Nec System Technologies Ltd ループ障害検出装置及び方法
JP2006285519A (ja) * 2005-03-31 2006-10-19 Hitachi Global Storage Technologies Netherlands Bv データ転送システムの障害診断方法、データ転送システム及びデータ記憶装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4325817B2 (ja) * 1999-04-05 2009-09-02 株式会社日立製作所 ディスクアレイ装置
US6754171B1 (en) * 2000-05-18 2004-06-22 Enterasys Networks, Inc. Method and system for distributed clock failure protection in a packet switched network
US20020152320A1 (en) * 2001-02-14 2002-10-17 Lau Pui Lun System and method for rapidly switching between redundant networks
US7321981B1 (en) * 2001-02-28 2008-01-22 Cisco Technology, Inc. Multi-port line card redundancy technique for an intermediate network node
US6882766B1 (en) * 2001-06-06 2005-04-19 Calient Networks, Inc. Optical switch fabric with redundancy
EP1361516A3 (en) * 2002-04-30 2011-05-18 Hitachi, Ltd. Method and system for backing up power supply of disk array device
JP2004038290A (ja) * 2002-06-28 2004-02-05 Toshiba Corp 情報処理システムおよび同システムで用いられるディスク制御方法
JP2005222379A (ja) * 2004-02-06 2005-08-18 Hitachi Ltd ディスクアレイ装置およびその障害回避制御方法
JP2005339216A (ja) * 2004-05-27 2005-12-08 Hitachi Ltd 記憶制御システム
JP2006072717A (ja) * 2004-09-02 2006-03-16 Hitachi Ltd ディスクサブシステム
JP4568576B2 (ja) 2004-10-26 2010-10-27 株式会社デンソーアイティーラボラトリ データ共有システム及び通信端末並びにデータ共有方法
US9495263B2 (en) * 2004-12-21 2016-11-15 Infortrend Technology, Inc. Redundant SAS storage virtualization subsystem and system using the same, and method therefor
JP2006235673A (ja) * 2005-02-22 2006-09-07 Hitachi Ltd ディスクアレイ装置
US7738366B2 (en) * 2005-09-13 2010-06-15 Lsi Corporation Methods and structure for detecting SAS link errors with minimal impact on SAS initiator and link bandwidth
JP2007088949A (ja) * 2005-09-22 2007-04-05 Fujitsu Ltd 情報処理装置、通信負荷分散方法および通信負荷分散プログラム
US7673185B2 (en) * 2006-06-08 2010-03-02 Dot Hill Systems Corporation Adaptive SAS PHY configuration
EP2487794A3 (en) * 2006-08-22 2013-02-13 Mosaid Technologies Incorporated Modular command structure for memory and memory system
JP2009015584A (ja) * 2007-07-04 2009-01-22 Hitachi Ltd 記憶制御装置及び筐体単位の電源制御方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04125716A (ja) * 1990-09-17 1992-04-27 Fujitsu Ltd 電源断診断システム
JP2001027972A (ja) * 1999-07-15 2001-01-30 Hitachi Ltd ディスク制御装置
JP2001339853A (ja) * 2000-05-25 2001-12-07 Hitachi Ltd ディスクアレイ装置の電源供給方式
JP2002247607A (ja) * 2001-02-15 2002-08-30 Eiji Miyasoi ケ−ブルテレビ伝送路監視システム
JP2005301638A (ja) * 2004-04-12 2005-10-27 Hitachi Ltd ディスクアレイ装置及びディスクアレイ装置のリザーブ解除制御方法
JP2006048578A (ja) * 2004-08-09 2006-02-16 Hitachi Ltd 計算機システム、計算機及びそのプログラム。
JP2006072636A (ja) * 2004-09-01 2006-03-16 Hitachi Ltd ディスクアレイ装置
JP2006185344A (ja) * 2004-12-28 2006-07-13 Nec System Technologies Ltd ループ障害検出装置及び方法
JP2006285519A (ja) * 2005-03-31 2006-10-19 Hitachi Global Storage Technologies Netherlands Bv データ転送システムの障害診断方法、データ転送システム及びデータ記憶装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011150415A (ja) * 2010-01-19 2011-08-04 Fujitsu Ltd ストレージ装置および同装置の増設方法
JP2013515981A (ja) * 2010-05-12 2013-05-09 株式会社日立製作所 ストレージ装置、及びストレージ装置の制御方法
JP2013516666A (ja) * 2010-06-02 2013-05-13 株式会社日立製作所 バックエンドでの通信の規格がsasであるストレージシステム
JP2013246713A (ja) * 2012-05-28 2013-12-09 Fujitsu Ltd 中継装置、接続管理方法、及び情報通信システム

Also Published As

Publication number Publication date
US8037362B2 (en) 2011-10-11
US7809983B2 (en) 2010-10-05
JP4982304B2 (ja) 2012-07-25
US20100325484A1 (en) 2010-12-23
US20090063901A1 (en) 2009-03-05
US20110320886A1 (en) 2011-12-29
US8312325B2 (en) 2012-11-13

Similar Documents

Publication Publication Date Title
JP4982304B2 (ja) 電源障害の発生を把握するストレージシステム
US7356638B2 (en) Using out-of-band signaling to provide communication between storage controllers in a computer storage system
JP4786312B2 (ja) 記憶制御装置及び記憶制御装置のエラー情報管理方法
US20080244098A1 (en) Storage system
US20070174517A1 (en) Managing management controller communications
US7568119B2 (en) Storage control device and storage control device path switching method
JP2005222379A (ja) ディスクアレイ装置およびその障害回避制御方法
JP2005339216A (ja) 記憶制御システム
US8099634B2 (en) Autonomic component service state management for a multiple function component
US8095820B2 (en) Storage system and control methods for the same
JP2006072717A (ja) ディスクサブシステム
JP2008090354A (ja) 電源障害監視方法及びその装置
JP2006285519A (ja) データ転送システムの障害診断方法、データ転送システム及びデータ記憶装置
JP2010205216A (ja) バス変換装置、情報処理装置、制御方法
JP2006277646A (ja) 障害解析システム及び方法並びにプログラム
JP2002136000A (ja) 無停電電源システム
US9838285B2 (en) Connection monitoring device and connection monitoring method
US8639967B2 (en) Controlling apparatus, method for controlling apparatus and information processing apparatus
US9246848B2 (en) Relay apparatus, storage system, and method of controlling relay apparatus
US7486083B2 (en) Managing system stability
TW201643740A (zh) 用來管理一儲存系統之方法與裝置
CN117951069A (zh) 一种服务器系统、通信方法和服务器
JP6017383B2 (ja) 通信装置及び通信装置の制御方法
JP2008148339A (ja) 記憶装置
JP2020160919A (ja) カード、システム、カードによる制御方法、システムによる制御方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110506

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110607

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110729

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120327

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120423

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150427

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4982304

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees