JP5022062B2 - プールi/oデバイス動作確認方法、及び計算機システム - Google Patents

プールi/oデバイス動作確認方法、及び計算機システム Download PDF

Info

Publication number
JP5022062B2
JP5022062B2 JP2007051974A JP2007051974A JP5022062B2 JP 5022062 B2 JP5022062 B2 JP 5022062B2 JP 2007051974 A JP2007051974 A JP 2007051974A JP 2007051974 A JP2007051974 A JP 2007051974A JP 5022062 B2 JP5022062 B2 JP 5022062B2
Authority
JP
Japan
Prior art keywords
pool
operation check
unit
status information
path switching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007051974A
Other languages
English (en)
Other versions
JP2008217265A (ja
Inventor
裕之 大崎
太 羽賀
良史 高本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2007051974A priority Critical patent/JP5022062B2/ja
Priority to US12/023,059 priority patent/US8321608B2/en
Publication of JP2008217265A publication Critical patent/JP2008217265A/ja
Application granted granted Critical
Publication of JP5022062B2 publication Critical patent/JP5022062B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2094Redundant storage or storage space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2097Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements maintaining the standby controller/processing unit updated

Description

本発明は、プールI/Oデバイス動作確認方法、及び計算機システムに関し、特に、例えば、I/Oデバイス接続切替を制御可能な計算機システムにおける障害管理に関するものである。
基幹業務を処理するような計算機システムでは、365日24時間稼動し続けサービスを提供することが必要である。このような計算機システムでは、システムを構成するデバイスの障害発生のためシステムが停止した場合でも、できる限り短時間で障害箇所の交換と再設定を経て再稼動する必要がある。しかし、人手によるデバイスの交換と再設定を伴う復旧処理方式には長時間を要し、またヒューマンエラーによる更なる遅延発生の可能性がある。そのため、障害が予想されるデバイスに対して予備のデバイス、つまりプールデバイスを用意し、あらかじめ計算機システムに導入しておき、稼働中のデバイスの障害発生時に自動処理によって障害箇所をプールデバイスに切替える手法が主に採用されている。
計算機システムに接続されたプールデバイスは通常未稼働であり、既存の動作確認プログラムが適用できない。このような状況でプールデバイスが計算機システムから取り外されることなく長時間放置された場合、その正常動作は保障されないことになる。また、現用デバイスの障害時にプールデバイスに切替えたとしてもそのプールデバイスに障害が発生していた場合には、計算機システムの自動プールデバイス切替処理が失敗し、再稼動に長時間を要する。このような不都合を防ぐためには、システム再稼動時間短縮のため、稼働中のデバイスに影響を与えずプールデバイスを動作確認する必要がある。なお、システムの全体もしくは一部を停止させてシステムに接続されたデバイス全体を動作確認することも考えられるが、これは提供するサービスを停止することになるため避けるべきである。
例えば、特許文献1には、I/Oデバイスにおける障害を事前に検知する方法として、ホットプラグ対応I/Oデバイスを計算機システムに新規に追加接続した際に信頼性試験を施す手法が挙げられている。
また、特許文献2には、稼働中の計算機システムに接続されたプールデバイスを動作確認する方式として、既に計算機システムに接続されており起動していないCELL(プロセッサ+主記憶が実装されるボード)を対象に通常のBIOS起動の仕組みを使って定期的に動作確認する手法が挙げられている。
特開2004−326809号公報 特開2006−268521号公報
しかし、何れの文献に開示された方法によっても、計算機システムに接続されているプールI/Oデバイスに障害が発生した場合、その障害が放置されるという課題は解決されないままである。
つまり、特許文献1に示されたシステムでは、プールI/Oデバイスは新規追加時にのみ動作確認かなされるだけで、接続したままのプールI/Oデバイスに対して信頼性試験を行うことはない。このため、既に接続されたプールI/Oデバイスに障害が発生してもそれが発見できずに放置されてしまう。
また、特許文献2に示された手法では、自己起動が可能なプールCELL(プロセッサ+メモリ)の定期的な動作確認のみが示されており、プロセッサとメモリを搭載しないため自己起動できないプールI/Oデバイスとは処理の対象が異なる。よって、特許文献2の手法をプールI/Oデバイスの動作確認の手法として採用することはできず、同様に、プールI/Oデバイスに障害が発生しても発見できず放置されてしまう。
本発明はこのような状況に鑑みてなされたものであり、複数のI/Oデバイスを接続し、その中にプールI/Oデバイスを含むような計算機システムにおいて、障害発生時に使用するプールI/Oデバイスに対して定期的に動作確認をする方法を提供するものである。
上記課題を解決するために、本発明では、周期的にプールI/Oデバイスの動作確認を実行するように計算機システムを制御している。
即ち、本発明によるプールI/Oデバイス動作確認方法は、1つ以上のプロセッサを搭載する汎用モジュールと、前記汎用モジュールの入出力を外部デバイスに経由する実際に動作中の1つ以上の現用I/Oデバイスと、この現用I/Oデバイスの予備として設けられた、待機中の1つ以上のプールI/Oデバイスと、汎用モジュールと現用及びプールI/Oデバイスとを接続するI/Oパスをスイッチングするための1つ以上のI/Oパス切替部と、を備える計算機システムにおいて実現されるものであり、計算システム内又は外に設けられたプールI/Oデバイス動作確認部が、周期的にプールI/Oデバイスの動作を確認することを特徴とする。
より具体的には、プールI/Oデバイス動作確認部が、プールI/Oデバイスステータス情報格納部(計算機システム内又は外に設けられている)から、プールI/Oデバイスを識別するためのプールI/OデバイスIDと、プールI/Oデバイスの種類と、動作確認結果を示すステータス値と、最新の動作確認時刻を表す更新時刻とを含むプールI/Oデバイスステータス情報を取得し、プールI/Oデバイスを起動して動作確認し、この動作確認後プールI/Oデバイスの動作を停止し、動作確認によって得られた動作確認結果を用いてプールI/Oデバイスステータス情報を更新する。
また、動作確認する際には、プールI/Oデバイス動作確認部が、I/Oパス切替部構成情報格納部から、プールI/Oデバイスに接続するためのパスをI/Oパス切替部の内部接続関係を含めて規定するI/Oパス切替部構成情報を取得し、このI/Oパス切替部構成情報に基づいて、I/Oパス切替部を制御し、動作確認対象のプールI/Oデバイスとの接続を実行し、プールI/Oデバイスの動作確認後に、接続状態を解除する。ただし、このようなI/Oパス切替部構成情報を動作確認の度に取得しなくても、プールI/Oデバイス動作確認部が使用されていないI/Oパス切替部のパスを検知してプールI/Oデバイスとの接続を実現し、動作確認後にその接続を解除するようにしても良い。
また、動作確認に際して、プールI/Oデバイス動作確認部が、テストプログラム情報格納部から、プールI/Oデバイスステータス情報に含まれるプールI/Oデバイスの種類に応じて使用すべき動作確認プログラムを特定する情報であるテストプログラム情報を取得し、取得したテストプログラム情報に対応したテストプログラムを実行して、プールI/Oデバイスの動作確認を実行する。
さらに、具体的には、プールI/Oデバイス動作確認部が、ステータス情報管理パラメータ格納部から、プールI/Oデバイスステータス情報の管理処理で使用するパラメータであって、更新周期時間を含むステータス情報管理パラメータを取得し、取得したステータス情報管理パラメータに基づいて、更新周期時間が経過したプールI/Oデバイスに対して動作確認処理を実行するようにしてもよい。なお、ステータス情報管理パラメータは、さらにスリープ時間をパラメータとして含み、プールI/Oデバイス動作確認部は、更新周期時間が経過したプールI/Oデバイスが存在しない場合には、スリープ時間経過後にプールI/Oデバイス動作確認処理を再開するようにしてもよい。また、プールI/Oデバイス動作確認部が、前記計算機システムに接続された外部端末からの入力指示によって、ステータス情報管理パラメータを変更できるようにしてもよい。
さらなる本発明の特徴は、以下本発明を実施するための最良の形態および添付図面によって明らかになるものである。
本発明によれば、複数のI/Oデバイスを接続し、その中にプールI/Oデバイスを含むような計算機システムにおいて、現用I/Oデバイスの障害発生時に使用するプールI/Oデバイスに対して定期的に動作確認をすることができる。よって、稼働中の現用I/Oデバイスに障害が発生しても、自動処理によって障害箇所を正常に動作可能なプールI/Oデバイスに確実に切替えることができる。
以下、添付図面を参照して本発明の実施形態について説明する。ただし、本実施形態は本発明を実現するための一例に過ぎず、本発明を限定するものではないことに注意すべきである。また、各図において共通の構成については同一の参照番号が付されている。
<計算機システムの構成>
図1は、本発明の実施形態による計算機システムの全体概略構成を示す図である。図1において、計算機システム100(例えば、ブレードサーバ等が該当する)は、汎用モジュール110と、1つ以上のI/Oデバイス120aおよび120bと、1つ以上のI/Oパス切替部130と、1つ以上のプールI/Oデバイス動作確認モジュール140と、記憶デバイス150とを備えている。
ここで、汎用モジュール110は、1つ以上のプロセッサ111aと1つ以上のメモリ112aを搭載し、I/Oパス切替部130を経由してI/Oデバイス120aおよび120bと接続することができるようになっている。I/Oデバイス120 aおよび120bは、汎用モジュール110とネットワーク装置やストレージ装置などの外部デバイスを接続するための入出力機器(インターフェース)であり、全てのI/Oデバイス120 aおよび120bは、I/Oパス切替部130に接続される。
I/Oパス切替部130は、汎用モジュール110及びプールI/Oデバイス動作確認モジュール140と、I/Oデバイス120a及び120bとの相互接続を実現するものである。例えば、1つ以上の汎用モジュール110は、I/Oパス切替部130のモジュール接続ポート131aに接続される。また、プールI/Oデバイス動作確認モジュール140は、I/Oパス切替部130のモジュール接続ポート131bに接続される。さらに、1つ以上のI/Oデバイス120 aおよび120bは、それぞれI/Oデバイス接続ポート132aおよび132bに接続される。そして、I/Oパス切替部130は、モジュール接続ポート131aおよび131bとI/Oデバイス接続ポート132aおよび132bとの間のパスをスイッチングすることで、任意の汎用モジュール110およびプールI/Oデバイス動作確認モジュール140と任意のI/Oデバイス120aおよび120bとを相互接続することができるようになっている。
プールI/Oデバイス動作確認モジュール140は、1つ以上のプロセッサ111bと1つ以上のメモリ112bを搭載し、プールI/Oデバイス動作確認モジュール140には、I/Oパス切替部130、記憶デバイス150およびプールI/Oデバイス動作確認システム管理端末160が接続されている。そして、プールI/Oデバイス動作確認モジュール140は、I/Oパス切替部に制御信号を送信することができる。例えば、プールI/Oデバイスの確認動作を実行する場合、I/Oパス切替部130は、プールI/Oデバイス動作確認モジュール140からの命令(制御信号)に応答して、プールI/Oデバイス動作確認モジュール140とプールI/Oデバイス120bとの接続を実現する(動作の詳細については後述)。
なお、プールI/Oデバイス動作確認モジュール140を専用ハードウェアとして用意せず、汎用モジュール110と同型のものを用いても良い。
また、図1では、I/Oパス切替部130とプールI/Oデバイス動作確認モジュール140は一つのみ示しているが、単一障害箇所となるのを防ぐため、もしくは高バンド幅実現のため多重化(それぞれ複数設けるように)してもよい。
さらに、図1では、I/Oパス切替部130とプールI/Oデバイス動作確認モジュール140、もしくはI/Oパス切替部130とI/Oデバイス120aおよび120bとの間のパスが多重化されていても構わない(複数のパスを設けるようにしてもよい)。
例えば、I/Oパス切替部130とプールI/Oデバイス動作確認モジュール140との間のパスについては、プールI/Oデバイス動作確認モジュール140が複数のプールI/Oデバイス120bに同時に接続するために、複数のパスがあってもよい。
もしくは、I/Oパス切替部130とプールI/Oデバイス動作確認モジュール140との間の複数のパスを用途で分類し、I/Oパス切替部に制御信号を送信するためのパスと、I/Oデバイスに接続するためのパスの2種類に分けても構わない。
記憶デバイス150は、プールI/Oデバイスステータス情報151(図8参照)と、I/Oパス切替部構成情報153(図9、10乃至13参照)と、テストプログラム情報152(図9参照)と、ステータス情報管理パラメータ154(図14参照)と、テストプログラム155とを格納する。
プールI/Oデバイス動作確認システム管理端末160はプールI/Oデバイス動作確認モジュール140に接続されている。また、プールI/Oデバイス動作確認モジュール140は、ディスク媒体171もしくは外部記憶デバイス172、外部ネットワーク173といった外部装置と接続することができる。
このような構成を有する計算機システム100において、プールI/Oデバイス動作確認部140が、現用I/Oデバイス120aが動作中であっても、プールI/Oデバイス120bの動作が正常であるか否かを周期的に確認している。
なお、図1では、計算機システム100がプールI/Oデバイス動作確認モジュール140や上記各種情報(151乃至155)を格納する記憶デバイス150をその内部に備える構成が示されている。しかし、本発明を実現するには、このような構成に限られず、用途によって、プールI/Oデバイス動作確認モジュール140及び/又は記憶デバイス150が、計算機システム100の外に設けられるようにしても良い。例えば、計算機システム100(ブレードサーバ等)が複数組設置され、それぞれに導入されたプールI/Oデバイスの動作確認を定期的に実行するプールI/Oデバイス確認部が上記複数の計算機システムとは独立して設けられるようにしてもよい。このようにすれば、プールI/Oデバイスの管理を1箇所で集中して実行することができるようになる。
<計算機システム100の動作の簡単な説明>
動作の詳細については、後述のフローチャートによって説明するが、ここでは、計算機システム100の動作を簡単に説明する。
図1に示すように、プールI/Oデバイス動作確認モジュール140は、メモリ112b上に、前述のプールI/Oデバイス動作確認のためのプログラムであるプールI/Oデバイス動作確認部141を格納し、プロセッサ111bで処理することにより、接続するプールI/Oデバイス120bを動作確認し、記憶デバイス150内に格納された各情報を参照および更新する。
前述の処理の実行主体はプロセッサ111bであるが、同じプロセッサ111bが実行する処理は複数あり、それらを区別して表現するため、プログラムであるプールI/Oデバイス動作確認部141をプロセッサ処理の実行主体として記述する。以下、プールI/Oデバイス動作確認部141が含む複数のプログラムについても、同様に実行主体として記述する。後述のフローチャートの実行主体についても同様である。
プールI/Oデバイス動作確認モジュール140は、記憶デバイス150や、ディスク媒体171、外部記憶デバイス172もしくは外部ネットワーク173等の外部装置から、プールI/Oデバイス動作確認部141(プログラム)の全体もしくは一部をロードして使用する。つまり、例えば、計算機システム100の起動時に、プログラムの全体若しくは一部を記憶デバイス150や外部装置等から読み出してきて、メモリ112b内に格納して使用する。
また、サーバ仮想化技術を適用した場合には、図16に示されるように、1つのプロセッサを複数の分割プロセッサ領域に、1つのメモリ112cを複数の分割メモリ領域1602に分割し、分割メモリ領域上に配置したプログラムを分割プロセッサ領域1601で処理することができる。この場合に、分割メモリ領域1602のうちの1つにプールI/Oデバイス動作確認部141を配置し、分割プロセッサ領域のうちの1つで処理することで、プールI/Oデバイス動作確認部141を実行することもできる。
次に、図1におけるプールI/Oデバイス動作確認部141の構成の詳細を、図2を参照して説明する。図2は、プールI/Oデバイス動作確認部141を構成する各部の関係を示している。
プールI/Oデバイス動作確認部141は、1つ以上のステータス情報管理部201と、1つ以上のI/Oパス切替制御部202と、1つ以上のテストプログラム実行部203と、タイマー204とを備えている。
ステータス情報管理部201は、プールI/Oデバイス動作確認時に、確認対象のプールI/Oデバイス120bを管理するプールI/Oデバイスステータス情報151を参照し、動作確認後にその情報を更新する。
I/Oパス切替制御部202は、ステータス情報管理部201から命令信号に基づいて、I/Oパス切替部130に対してI/Oパスを経由してI/Oパス切替制御信号を送り、I/Oパス切替部130を制御して、任意のI/Oデバイス120aおよび120bと汎用モジュール110もしくはプールI/Oデバイス動作確認モジュール140を接続および接続解除する。確認動作の度に、ステータス情報管理部201から命令がI/Oパス切替制御部202に送られ、確認対象のプールI/Oデバイスに対応した接続が確立され、動作の確認が(対応するテストプログラムに基づいて)なされ、その後確立された接続が解除される。
テストプログラム実行部203は、プールI/Oデバイス動作確認モジュール140に接続するプールI/Oデバイス120bに対してテストプログラム155をメモリにロードし実行し、動作確認結果を取得する。
タイマー204は、ステータス情報更新時等の時刻を取得するために使用される。プロセッサ固有のタイマー等を使用するようにしてもよい。
続いて、プールI/Oデバイス動作確認部141の動作の一例を、図2を参照して簡単に説明する。
プールI/Oデバイス動作確認部141は、ステータス情報管理部201を実行する。まず、ステータス情報管理部201は、計算機システム100の起動時に、プールI/Oデバイスステータス情報初期化処理を行い、接続されている全プールI/Oデバイスの情報をプールI/Oデバイスステータス情報151に格納する。初期化終了時のプールI/Oデバイスのステータスは全て、「未確認」となっている。
次に、ステータス情報管理部201は、プールI/Oデバイスステータス情報更新処理を行い、プールI/Oデバイスステータス情報151に格納された各プールI/Oデバイスの情報を定期的に更新する。更新後は、「未確認」から「正常」又は「異常」等にステータスが変更される。
なお、ステータス情報管理パラメータ154はデフォルトで所定値に決められるようにしても良いし、ステータス情報管理部201が管理者161が入力した入力パラメータ162を、プールI/Oデバイス動作確認システム管理端末160から受信して、適時ステータス情報管理パラメータ154に格納するようにしてもよい。
これらの処理の中で、ステータス情報管理部201は、特に、I/Oパス切替制御部202、テストプログラム実行部203およびタイマー204に対して、以下の処理要求を行う。つまり、
ステータス情報管理部201は、I/Oパス切替制御部202に対して接続要求および接続解除要求を送ることで、任意のプールI/Oデバイス120bとプールI/Oデバイス動作確認モジュール140とを接続および接続解除する。
また、ステータス情報管理部201は、テストプログラム実行部203に対して、接続しているプールI/Oデバイス120bを動作確認するテストプログラム実行要求を送り、テストプログラム実行部203は、ステータス情報管理部201に対して、前記プールI/Oデバイスの動作確認結果を返す。
さらに、ステータス情報管理部201は、タイマー204に対して時刻情報を要求し、タイマー204はステータス情報管理部201に対して現在時刻を返す。
<ステータス情報管理部201の動作>
図3及び4を参照して、ステータス情報管理部201の動作について説明する。まず、ステータス情報管理部201によるプールI/Oデバイスステータス情報初期化の手順の一例を図3により説明する。
ステータス情報管理部201は、プールI/Oデバイスステータス情報初期化処理要求を受け、プールI/Oデバイスステータス情報151にアクセスし、全てのプールI/Oデバイスのステータス値を「未確認」に変更する(ステップS301)。ステータス情報管理部201は、ループを開始する(ステップS302)。ステータス情報管理部201は、プールI/Oデバイスステータス情報151にアクセスし、プールI/Oデバイスステータス情報一覧を取得する(ステップS303)。さらに、ステータス値が「未確認」のプールI/Oデバイスが存在するかが判定される(ステップS304)。ステータス値が「未確認」のプールI/Oデバイスが存在する場合、動作確認対象として「未確認」のプールI/Oデバイス120bを一つ選択し(ステップS305)、このプールI/Oデバイス120bのステータス情報更新処理を行い(ステップS306)、ステップS303に戻る。ステータス情報管理部201は、ステータス値が「未確認」のプールI/Oデバイスが存在しない場合、プールI/Oデバイスステータス情報管理処理を開始し、初期化処理を終了する(ステップS307)。この初期化処理により、プールI/Oデバイス動作確認部141を構成する要素を全て起動し、全てのプールI/Oデバイスのステータス値をプールI/Oデバイスステータス情報151に格納することができる。その後、定期的にそれぞれのプールI/Oデバイスの動作確認を実行する(ステップS308)。
次に、図4を参照してステータス情報管理部201によるプールI/Oデバイスステータス情報管理処理の一例について説明する。ステータス情報管理部201は、前述の初期化処理の終了とともに、プールI/Oデバイスステータス情報管理処理を開始する(ステップS401)。まず、ステータス情報管理部201は、ステータス情報管理パラメータ152をメモリ112bへと読み込む(ステップS402)。続いて、プールI/Oデバイスステータス情報151からプールI/OデバイスIDとプールI/Oデバイスの種類と更新時刻の一覧を取得する(ステップS403)。ステータス情報管理部201は、タイマーから現在の時刻を取得し、現在の時刻と更新時刻を比較する(ステップS404)。そして、前回更新時刻から更新周期時間以上経過しており、かつステータス値が「正常」であるプールI/Oデバイスが存在するかを判定する(ステップS405)。ステータス値が「正常」であるプールI/Oデバイスが存在する場合、該プールI/Oデバイスのステータス情報更新処理を行い(ステップS407)、ステップS402の処理に戻る。また、ステータス値が「正常」であるプールI/Oデバイスが存在しないとき(前回異常と判断されたものについて更に動作確認をする必要がないから)、スリープ時間経過後(ステップS406)ステップS402の処理に戻る。
<ステータス情報更新処理の詳細>
図3及び4におけるステータス情報管理部201によるステータス情報更新処理(ステップS306及びS407)の詳細について、図5のフローチャートを参照して説明する。
図5は、ステータス情報管理部201によるステータス情報更新処理の動作例について説明するためのフローチャートである。図3及び図4のフローチャートに示した処理において、ステータス情報管理部201のステータス情報更新処理(ステップS306及びS407)が開始されるとき、ステータス情報管理部201は入力としてプールI/OデバイスIDを受け取っている。そして、ステータス情報管理部201は、プールI/OデバイスIDに対応するプールI/Oデバイスの種類をプールI/Oデバイスステータス情報151から取得する(ステップS501)。図5によれば、プールI/OデバイスIDからプールI/Oデバイスの種類を割り出しているが、あらかじめプールI/OデバイスIDとプールI/Oデバイスの種類を一緒に入力として受け取っても良い。
ステータス情報更新処理開始時にステータス情報管理部201は、プールI/OデバイスとプールI/Oデバイス動作確認部141の接続をI/Oパス切替制御部202に要求する(ステップS502)。I/Oパス切替制御部202がI/Oパス切替部130おける接続切替処理を指示して、プールI/Oデバイス動作確認モジュール140とプールI/Oデバイス120bとが接続された後(ステップS503)、ステータス情報管理部201はタイマー204から現在の時刻を取得する(ステップS504)。そして、ステータス情報管理部201は、プールI/Oデバイスステータス情報151にアクセスし、プールI/Oデバイスのステータス値を「確認中」に、また更新時刻を現在の時刻に変更する(ステップS505)。
続いて、ステータス情報管理部201は、テストプログラム実行部203に対して、プールI/Oデバイスの動作確認処理を要求する(ステップS506)。その要求に応じて、テストプログラム実行部203は、テストプログラムを実行し、動作確認結果をステータス情報管理部201に返却する(ステップS507)。ステータス情報管理部201は、タイマー204から現在の時刻を取得して(ステップS508)、プールI/Oデバイスステータス情報151に対して、プールI/Oデバイスのステータス値を動作確認結果に相当するものに変更し、さらに更新時刻を現在の時刻に変更する(ステップS509)。ここで、テストプラグラム実行部203の動作確認処理終了を待つ間に動作確認処理が始まる前の時刻から特定のタイムアウト時間だけ経過すると、動作確認結果の取得を待たずにプールI/Oデバイスを異常と判断し、プールI/Oデバイスステータス情報151のうちのステータス値を「異常」に変更し、ステップS509に進むような処理を行ってもよい。
次に、ステータス情報管理部201は、動作確認が終了したプールI/OデバイスとプールI/Oデバイス動作確認部141の接続を解除するようI/Oパス切替制御部202に要求する(ステップS510)。そして、I/Oパス(接続)切替処理が終了した後(ステップS511)、プールI/Oデバイスのステータス値が「正常」か「異常」かが判定される(ステップS512)。ステータス値が「正常」のときは、管理者が規定した「正常」時の処理を行い、更新処理が終了する(ステップS513)。ステータス値が「異常」のときは管理者が規定した「異常」時の処理を行い、更新処理が終了する(ステップS514)。例えば、「正常」時には、プールI/OデバイスIDをプールI/Oデバイス動作確認システム管理端末160を介して管理者161に正常であることをメッセージ告知し、「異常」時には異常である旨のメッセージ告知と共に、当該異常と判断されたプールI/Oデバイスへの接続を禁止する処理を行うようにする。
<I/Oパス切替処理>
図5におけるI/Oパス切替制御部202によるI/Oパス切替処理(ステップS503及びS511)の例について図6を用いて説明する。
I/Oパス切替制御部202は、入力としてプールI/OデバイスIDを取得する。また、I/Oパス切替制御部202は、プールI/Oデバイスの接続するI/Oパス切替部IDとプールI/Oデバイスの接続するポートとプールI/Oデバイス動作確認モジュールの接続するポートを取得する(ステップS601)。そして、I/Oパス切替制御部202は、要求処理が接続か接続解除かを判定する(ステップS602)。なお、この判定は、I/Oパス切替制御部202が有しているテーブルに保持された接続処理か接続解除処理かを示す情報に基づいてなされても良い。
要求処理が接続である場合、I/Oパス切替制御部202は、I/Oデバイス接続ポートとプールI/Oデバイス動作確認デバイス接続ポート間を接続するようI/Oパス切替部130を制御する(ステップS603)。要求処理が接続解除である場合、I/Oパス切替制御部202は、I/Oデバイス接続ポートとモジュール接続ポート間の接続を解除するようI/Oパス切替部130を制御する(ステップS604)。その後、I/Oパス切替制御部202は、切替わった接続状況に合わせてI/Oパス切替部構成情報を更新する(ステップS605)。
<テストプログラム実行処理>
図7は、図5におけるテストプログラム実行部203によるテストプログラム実行処理(ステップS507)の一例について説明するためのフローチャートである。まず、動作確認対象のプールI/Oデバイスがホットプラグ機能により起動される(ステップS701)。次に、テストプログラム実行部203は、入力としてプールI/Oデバイスの種類をステータス情報管理部201から取得する。テストプログラム実行部203は、テストプログラム情報(図9参照)を参照し、プールI/Oデバイスの種類に対応したテストプログラムIDを取得する。そして、テストプログラム実行部203は、記憶デバイスに格納されたテストプログラムのIDに対応するテストプログラムを取得する(ステップS702)。テストプログラム実行部203は、ステップS701で起動されたプールI/Oデバイス120bに対してテストプログラムを実行し、プールI/Oデバイス120bを動作確認する(ステップS703)。動作確認終了後、テストプログラム実行部203はプールI/Oデバイスを停止し(ステップS704)、動作確認結果を返して(ステップS705)、動作確認処理を終了する。
なお、プールI/Oデバイス動作確認モジュール140が動作するOSがホットプラグ機能を有しない場合には、OS再起動等により当該動作確認対象プールI/Oデバイスを認識するためのステップを実行することも可能である。
<プールI/Oデバイスステータス情報の例>
図8は、プールI/Oデバイスステータス情報151の例を示す図である。図8において、プールI/Oデバイスステータス情報151は、例えば、プールI/OデバイスIDとプールI/Oデバイスの種類とプールI/Oデバイスのステータス値と更新時刻とから構成され、それぞれが対応関係を持っている。図8の例では、プールI/OデバイスIDが「ID=1」のプールI/Oデバイスについては、プールI/Oデバイスの種類がPCIバスで接続されたNIC(Network Information Card)であり、ステータス値は「正常」であることが分かる。このように、プールI/OデバイスIDからプールI/Oデバイスの種類、ステータス値および更新時刻を参照することができる。
<テストプログラム情報の例>
図9は、テストプログラム情報の例を示す図である。テストプログラム情報は、プールI/Oデバイスの種類に対するテストプログラムIDを持つ。よって、プールI/Oデバイスの種類が特定されれば、テストプログラムIDを取得し、それに基づいてテストプログラム155を参照して、当該プールI/Oデバイスの動作確認をするのに最適なテストプログラムを取得できる。
<I/Oパス切替部構成情報の例>
図10乃至13は、接続切替制御に必要となるI/Oパス切替部構成情報の例について説明するための図である。
図10は、I/Oパス切替部130とプールI/Oデバイス動作確認モジュール140とI/Oデバイス120の接続構成例を示している。図10では、プールI/Oデバイス動作確認モジュール140は2つのI/Oパス切替部130a及びbに接続されており、それぞれが2つのプールI/Oデバイス120c及び120dに対して任意に接続されている。
また、図11乃至13は、プールI/Oデバイス動作確認モジュール140とプールI/Oデバイス120c及びdとの接続関係をポートごとに記述するI/Oパス切替部構成情報として、プールI/Oデバイス-I/Oパス切替部間の接続構成情報と、I/Oパス切替部内の接続構成情報と、プールI/Oデバイス動作確認モジュール-I/Oパス切替部間の接続構成情報の3つを保持する例を示している。
まず、図11において、プールI/Oデバイス-I/Oパス切替部間の接続構成情報1100は、プールI/OデバイスID 1101に対応するプールI/Oデバイスに接続されているI/Oパス切替部ID 1102と、プールI/Oデバイスが接続されているI/Oデバイス接続ポートID 1103の情報を有している。図11に示すように、プールI/Oデバイス120c(プールI/OデバイスID = IO1)は、I/Oパス切替部130a(I/Oパス切替部ID = SW1)の中の、I/Oデバイス接続ポート132c(I/Oデバイス接続ポートID = p13)に接続されており、同時にI/Oパス切替部130b(I/Oパス切替部ID = SW2)のI/Oデバイス接続ポート132e(I/Oデバイス接続ポートID = p23)にも接続されていることが分かる。
次に、図12において、I/Oパス切替部内接続構成情報1200は、I/Oパス切替部のモジュール接続ポート131c、131d、131eおよび131fとI/Oデバイス接続ポート132c、132d、132eおよび132fにおける接続ペアの一覧情報を有している。図10の例では、図12に示されるように、I/Oパス切替部130a(I/Oパス切替部ID = SW1)内では、モジュール接続ポート131c(モジュール接続ポートID = p11)がI/Oデバイス接続ポート132d(I/Oデバイス接続ポートID = p14)に、またモジュール接続ポート131d(モジュール接続ポートID = p12)がI/Oデバイス接続ポート132c(I/Oデバイス接続ポートID = p13)に接続されている。
さらに、図13において、I/Oパス切替部-プールI/Oデバイス動作確認モジュール間の接続構成情報1300は、I/Oパス切替部ID1301とI/Oパス切替部接続ポートID1302とモジュール接続ポートID1303の情報を有している。I/Oパス切替部-プールI/Oデバイス動作確認モジュール間の接続構成情報1300は、プールI/Oデバイス動作確認モジュール140とI/Oパス切替部ID1301に対応するI/Oパス切替部130を接続するパスが、I/Oパス切替部接続ポートID1302とモジュール接続ポートID1303を接続していることを示すものである。図13に示されるように、プールI/Oデバイス動作確認モジュール140は、I/Oパス切替部接続ポート142a(I/Oパス切替部接続ポートID = p31)を介してI/Oパス切替部(I/Oパス切替部ID = SW1)のモジュール接続ポート131d(モジュール接続ポートID = p12)に接続されており、I/Oパス切替部130a(I/Oパス切替部ID = SW1)に対しては、I/Oパス切替部接続ポート142a(I/Oパス切替部接続ポートID = p31)を介してI/Oパス切替制御信号を送信すればよいことが分かる。
<ステータス情報管理パラメータの例>
図14は、ステータス情報管理パラメータの一例を示す図である。ステータス情報管理パラメータは、キー情報として、更新周期時間、スリープ時間、「正常」終了処理、「異常」終了処理を有し、値には、キーに対応するパラメータ値を有している。例えば、図14においては、「異常」終了処理として、プールI/Oデバイス動作確認システム管理端末にプールI/OデバイスIDを通知することが指定されている。このステータス情報管理パラメータは、図4のステータス情報管理処理においてループのたびに読み込まれ、その内容はステータス情報管理処理に反映されることになる。
<管理者によるパラメータ入力>
図15は、管理者によって入力されるパラメータ162の一例を示す図である。管理者による入力パラメータ162は、キーと値を合わせた複数組のパラメータで構成される。図15の例においては、3件のパラメータが設けられ、それぞれのキーは、ステータス情報管理パラメータのキーに対応している。また、ステータス情報管理部201は、入力パラメータの値を、キーが対応しているステータス情報管理パラメータの値に入力する。例えば、図4のステップS402において、プールI/Oデバイス動作確認システムが図15の入力パラメータを受け取り、図14に示すステータス情報管理パラメータに対して適用すると、キーが対応しているパラメータに値が代入される。
<実施形態のまとめ>
本発明の実施形態によるプールI/Oデバイス動作確認手法は、大規模な計算機システムの構築と、その上で高い信頼性を必要とするIT業務サービスの運用等に適用可能である。
このような本実施形態によれば、プールI/Oデバイス動作確認モジュールが、ステータス値803という形で、各プールI/Oデバイス120bの動作確認結果を個別に保持し、各プールI/Oデバイスに対して定期的に動作確認を行うことができる。そして、ステータス情報管理部201のステータス情報更新処理は、汎用モジュール110と接続する現用I/Oデバイスと接続パスに対して影響を及ぼさないので、汎用モジュール110でプロセスを稼動させながら、プールI/Oデバイスステータス情報151を更新することができる。つまり、ブレードサーバ等の計算機システムに導入されたプールI/Oデバイスの動作確認を、稼働中の汎用モジュールや現用I/Oデバイスに影響を与えることなく、定期的に行うことで、プールI/Oデバイスを異常のまま放置せず、障害復旧時間を削減することができる。
より詳細には、プールI/Oデバイス動作確認部が、プールI/Oデバイスステータス情報格納部(計算機システム内又は外に設けられている)から、プールI/Oデバイスを識別するためのプールI/OデバイスIDと、プールI/Oデバイスの種類と、動作確認結果を示すステータス値と、最新の動作確認時刻を表す更新時刻とを含むプールI/Oデバイスステータス情報を取得し、プールI/Oデバイスを起動して動作確認し、この動作確認後プールI/Oデバイスの動作を停止し、動作確認によって得られた動作確認結果を用いてプールI/Oデバイスステータス情報を更新する。このように、プールI/Oデバイス毎にステータス情報に基づいて動作確認をしているので、上述のように稼働中の現用I/Oデバイスに影響を与えることなく、確実に、かつ個別に(プールI/Oデバイス毎に別々の周期で)動作確認を実行できる。
また、動作確認する際には、プールI/Oデバイス動作確認部が、I/Oパス切替部構成情報格納部から、プールI/Oデバイスに接続するためのパスをI/Oパス切替部の内部接続関係を含めて規定するI/Oパス切替部構成情報を取得し、このI/Oパス切替部構成情報に基づいて、I/Oパス切替部を制御し、動作確認対象のプールI/Oデバイスとの接続を実行し、プールI/Oデバイスの動作確認後に、接続状態を解除する。従って、動作確認に使用するI/Oパスを効率よく各プールI/Oデバイスに対して割り振ることができ、確認動作処理も高速に行うことができる。なお、例えばプールI/Oデバイスの数が少ない場合等には、I/Oパス切替部構成情報を動作確認の度に取得しなくてもよい。このような場合には、プールI/Oデバイス動作確認部が使用されていないI/Oパス切替部のパスを検知してプールI/Oデバイスとの接続を実現し、動作確認後にその接続を解除するようにする。
また、動作確認に際して、プールI/Oデバイス動作確認部が、テストプログラム情報格納部から、プールI/Oデバイスステータス情報に含まれるプールI/Oデバイスの種類に応じて使用すべき動作確認プログラムを特定する情報であるテストプログラム情報を取得し、取得したテストプログラム情報に対応したテストプログラムを実行して、プールI/Oデバイスの動作確認を実行する。このようにすることにより、プールI/Oデバイスの種類によって最適なテストを実行することができる。
さらに、具体的には、プールI/Oデバイス動作確認部が、ステータス情報管理パラメータ格納部から、プールI/Oデバイスステータス情報の管理処理で使用するパラメータであって、更新周期時間を含むステータス情報管理パラメータを取得し、取得したステータス情報管理パラメータに基づいて、更新周期時間が経過したプールI/Oデバイスに対して動作確認処理を実行するようにしてもよい。このようにすることにより、プールI/Oデバイスによって異なるパラメータを設定することができ、特に、各プールI/Oデバイスによって動作確認周期を異ならせることができるので、プールI/Oデバイス毎に最適な動作確認処理を実行することができる。なお、ステータス情報管理パラメータは、さらにスリープ時間をパラメータとして含み、プールI/Oデバイス動作確認部は、更新周期時間が経過したプールI/Oデバイスが存在しない場合には、スリープ時間経過後にプールI/Oデバイス動作確認処理を再開するようにしてもよい。また、プールI/Oデバイス動作確認部が、前記計算機システムに接続された外部端末からの入力指示によって、ステータス情報管理パラメータを変更できるようにしてもよい。これにより、管理者が外部端末を用いてパラメータを適宜変更でき、管理者の望む動作確認処理を実現することができる。
なお、実施形態の機能を実現するソフトウェアのプログラムコードによっても本発明は実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ(又はCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フロッピィ(登録商標)ディスク、CD−ROM、DVD−ROM、ハードディスク、光ディスク、光磁気ディスク、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
また、プログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのCPUなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。
また、実施の形態の機能を実現するソフトウェアのプログラムコードがネットワークを介して配信されることにより、システム又は装置のハードディスクやメモリ等の記憶手段又はCD-RW、CD-R等の記憶媒体に格納され、そのシステム又は装置のコンピュータ(又はCPUやMPU)が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行することによっても、達成されるようにしてもよい。
本発明の実施形態による計算機システムを含む、プールI/Oデバイス動作確認システムの概略構成を示す図である。 プールI/Oデバイス動作確認部の機能構成を示す図である。 ステータス情報管理部によるプールI/Oデバイスステータス情報初期化処理を説明するためのフローチャートである。 ステータス情報管理部によるプールI/Oデバイスステータス情報管理処理を説明するためのフローチャートである。 ステータス情報管理部によるプールI/Oデバイスステータス情報更新処理を説明するためのフローチャートである。 I/Oパス切替制御部による接続切替処理を説明するためのフローチャートである。 テストプログラム実行部による動作確認処理を説明するためのフローチャートである。 プールI/Oデバイスステータス情報の一例を示す図である。 テストプログラム情報の一例を示す図である。 I/Oパス切替部とプールI/Oデバイス動作確認モジュールとI/Oデバイスの接続構成例を示す図である。 I/OデバイスとI/Oパス切替部との間の接続情報の一例を示す図である。 I/Oパス切替部内接続情報の一例を示す図である。 I/Oパス切替部とプールI/Oデバイス動作確認モジュールとの間の接続情報の一例を示す図である。 ステータス情報管理パラメータの一例を示す図である。 管理者による入力パラメータの一例を示す図である。 プロセッサ及びメモリを仮想化して用いた場合の例を示す図である。
符号の説明
100 計算機システム
110 汎用モジュール
120 I/Oデバイス
130 I/Oパス切替部
140 プールI/Oデバイス動作確認モジュール
150 記憶デバイス
201 ステータス情報管理部
202 I/Oパス切替制御部
203 テストプログラム実行部
204 タイマー

Claims (10)

  1. 1つ以上のプロセッサを搭載する汎用モジュールと、前記汎用モジュールの入出力を外部デバイスに経由する実際に動作中の1つ以上の現用I/Oデバイスと、この現用I/Oデバイスの予備として設けられた、待機中の1つ以上のプールI/Oデバイスと、前記汎用モジュールと前記現用及びプールI/Oデバイスとを接続するI/Oパスをスイッチングする1つ以上のI/Oパス切替部と、記憶部と、を備える計算機システムにおける、前記プールI/Oデバイスの動作を確認するプールI/Oデバイス動作確認方法であって、
    前記I/Oパス切替部は、プールI/Oデバイス動作確認部と接続するポートと、前記プールI/Oデバイスと接続するポートと、を有し、
    前記プールI/Oデバイス動作確認部が、
    前記記憶部から、前記プールI/Oデバイス毎に前記プールI/Oデバイスの種類を管理するプールI/Oデバイスステータス情報を参照して、動作確認対象のプールI/Oデバイスの種類を取得し、
    前記記憶部から、前記プールI/Oデバイス動作確認部と前記プールI/Oデバイスとの接続関係を管理するI/Oパス切替部構成情報を参照して、前記プールI/Oデバイス動作確認部と接続するポートを識別する第一の識別子と、前記動作確認対象のプールI/Oデバイスと接続するポートを識別する第二の識別子と、を取得し、
    前記取得した第一の識別子に対応する前記プールI/Oデバイス動作確認部と接続するポートと、前記取得した第二の識別子に対応する前記動作確認対象のプールI/Oデバイスと接続するポートと、を接続するよう前記I/Oパス切替部を制御し、
    前記記憶部から、前記プールI/Oデバイスの種類とテストプログラムの識別子との対応関係を管理するテストプログラム情報を参照して、前記取得した動作確認対象のプールI/Oデバイスの種類に応じて使用すべきテストプログラムの識別子を取得し、
    前記取得したテストプログラムの識別子に対応するテストプログラムを実行して、前記動作確認対象のプールI/Oデバイスの動作確認を実行し、
    前記動作確認の実行後に、前記プールI/Oデバイス動作確認部と接続するポートと、前記動作確認を実行したプールI/Oデバイスと接続するポートと、の接続を解除するよう前記I/Oパス切替部を制御し、
    期的に前記プールI/Oデバイスの動作確を実行することを特徴とするプールI/Oデバイス動作確認方法。
  2. 前記プールI/Oデバイス動作確認部が、
    前記記憶部から、前記プールI/Oデバイスを識別するプールI/OデバイスIDと、前記プールI/Oデバイスの種類と、動作確認結果を示すステータス値と、最新の動作確認時刻を表す更新時刻とを含む前記プールI/Oデバイスステータス情報を取得し、
    前記プールI/Oデバイスを起動して動作確認し、この動作確認後前記プールI/Oデバイスの動作を停止し、動作確認によって得られた動作確認結果を用いて前記プールI/Oデバイスステータス情報を更新することを特徴とする請求項1に記載のプールI/Oデバイス動作確認方法。
  3. 前記プールI/Oデバイス動作確認部が、
    前記記憶部から、前記プールI/Oデバイスステータス情報の管理処理で使用するパラメータであって、更新周期時間を含むステータス情報管理パラメータを取得し、
    前記取得したステータス情報管理パラメータに基づいて、前記更新周期時間が経過したプールI/Oデバイスに対して前記動作確認を実行することを特徴とする請求項に記載のプールI/Oデバイス動作確認方法。
  4. 前記ステータス情報管理パラメータは、さらにスリープ時間をパラメータとして含み、
    前記プールI/Oデバイス動作確認部は、前記更新周期時間が経過したプールI/Oデバイスが存在しない場合には、前記スリープ時間経過後に前記プールI/Oデバイスの前記動作確認を実行することを特徴とする請求項に記載のプールI/Oデバイス動作確認方法。
  5. 前記プールI/Oデバイス動作確認部は、前記計算機システムに接続された外部端末からの入力指示によって、前記ステータス情報管理パラメータを変更することを特徴とする請求項に記載のプールI/Oデバイス動作確認方法。
  6. 1つ以上のプロセッサを搭載する汎用モジュールと、
    前記汎用モジュールの入出力を外部デバイスに経由する実際に動作中の1つ以上の現用I/Oデバイスと、
    この現用I/Oデバイスの予備として設けられた、待機中の1つ以上のプールI/Oデバイスと、
    前記汎用モジュールと前記現用及びプールI/Oデバイスとを接続するI/Oパスをスイッチングする1つ以上のI/Oパス切替部と、
    記憶部と、
    プールI/Oデバイス動作確認部と、を有し、
    前記I/Oパス切替部は、前記プールI/Oデバイス動作確認部と接続するポートと、前記プールI/Oデバイスと接続するポートと、を有し、
    前記プールI/Oデバイス動作確認部は、
    前記記憶部から、前記プールI/Oデバイス毎に前記プールI/Oデバイスの種類を管理するプールI/Oデバイスステータス情報を参照して、動作確認対象のプールI/Oデバイスの種類を取得し、
    前記記憶部から、前記プールI/Oデバイス動作確認部と前記プールI/Oデバイスとの接続関係を管理するI/Oパス切替部構成情報を参照して、前記プールI/Oデバイス動作確認部と接続するポートを識別する第一の識別子と、前記動作確認対象のプールI/Oデバイスと接続するポートを識別する第二の識別子と、を取得し、
    前記取得した第一の識別子に対応する前記プールI/Oデバイス動作確認部と接続するポートと、前記取得した第二の識別子に対応する前記動作確認対象のプールI/Oデバイスと接続するポートと、を接続するよう前記I/Oパス切替部を制御し、
    前記記憶部から、前記プールI/Oデバイスの種類とテストプログラムの識別子との対応関係を管理するテストプログラム情報を参照して、前記取得した動作確認対象のプールI/Oデバイスの種類に応じて使用すべきテストプログラムの識別子を取得し、
    前記取得したテストプログラムの識別子に対応するテストプログラムを実行して、前記動作確認対象のプールI/Oデバイスの動作確認を実行し、
    前記動作確認の実行後に、前記プールI/Oデバイス動作確認部と接続するポートと、前記動作確認を実行したプールI/Oデバイスと接続するポートと、の接続を解除するよう前記I/Oパス切替部を制御し、
    期的に前記プールI/Oデバイスの動作確を実行ることを特徴とする計算機システム。
  7. 前記プールI/Oデバイス動作確認部が、
    前記記憶部から、前記プールI/Oデバイスを識別するプールI/OデバイスIDと、前記プールI/Oデバイスの種類と、動作確認結果を示すステータス値と、最新の動作確認時刻を表す更新時刻とを含む前記プールI/Oデバイスステータス情報を取得し、
    前記プールI/Oデバイスを起動して動作確認し、この動作確認後前記プールI/Oデバイスの動作を停止し、動作確認によって得られた動作確認結果を用いて前記プールI/Oデバイスステータス情報を更新することを特徴とする請求項に記載の計算機システム。
  8. 前記プールI/Oデバイス動作確認部が、
    前記記憶部から、前記プールI/Oデバイスステータス情報の管理処理で使用するパラメータであって、更新周期時間を含むステータス情報管理パラメータを取得し、
    前記取得したステータス情報管理パラメータに基づいて、前記更新周期時間が経過したプールI/Oデバイスに対して前記動作確認を実行することを特徴とする請求項に記載の計算機システム。
  9. 前記ステータス情報管理パラメータは、さらにスリープ時間をパラメータとして含み、
    前記プールI/Oデバイス動作確認部は、前記更新周期時間が経過したプールI/Oデバイスが存在しない場合には、前記スリープ時間経過後に前記プールI/Oデバイスの前記動作確認を実行することを特徴とする請求項に記載の計算機システム。
  10. 前記プールI/Oデバイス動作確認部は、外部端末からの入力指示によって、前記ステータス情報管理パラメータを変更することを特徴とする請求項に記載の計算機システム。
JP2007051974A 2007-03-01 2007-03-01 プールi/oデバイス動作確認方法、及び計算機システム Expired - Fee Related JP5022062B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007051974A JP5022062B2 (ja) 2007-03-01 2007-03-01 プールi/oデバイス動作確認方法、及び計算機システム
US12/023,059 US8321608B2 (en) 2007-03-01 2008-01-31 Pool I/O device operation confirmation method and computer system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007051974A JP5022062B2 (ja) 2007-03-01 2007-03-01 プールi/oデバイス動作確認方法、及び計算機システム

Publications (2)

Publication Number Publication Date
JP2008217265A JP2008217265A (ja) 2008-09-18
JP5022062B2 true JP5022062B2 (ja) 2012-09-12

Family

ID=39733937

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007051974A Expired - Fee Related JP5022062B2 (ja) 2007-03-01 2007-03-01 プールi/oデバイス動作確認方法、及び計算機システム

Country Status (2)

Country Link
US (1) US8321608B2 (ja)
JP (1) JP5022062B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5544516B2 (ja) * 2009-11-19 2014-07-09 日本電信電話株式会社 高可用サーバシステム、高可用サーバシステムの障害時復旧方法、および高可用サーバ
JP5331725B2 (ja) * 2010-02-19 2013-10-30 株式会社東芝 周辺デバイス部のオンラインテスト機能を備えたcpuボード、及びそのオンラインテスト方法
JP5113893B2 (ja) 2010-09-10 2013-01-09 株式会社東芝 保守システム及び保守方法
JP6179101B2 (ja) * 2013-01-16 2017-08-16 日本電気株式会社 管理装置、管理方法、および管理プログラム
JP5840173B2 (ja) * 2013-06-21 2016-01-06 京セラドキュメントソリューションズ株式会社 情報処理装置、入出力制御部の再起動方法
US9959078B2 (en) 2015-01-30 2018-05-01 Sandisk Technologies Llc Multi-die rolling status mode for non-volatile storage
JP2016146115A (ja) * 2015-02-09 2016-08-12 株式会社リコー 情報処理装置、情報処理システム、提案方法及びプログラム
US10114690B2 (en) * 2015-02-13 2018-10-30 Sandisk Technologies Llc Multi-die status mode for non-volatile storage

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63279318A (ja) * 1987-05-11 1988-11-16 Nec Corp 磁気ディスク装置
JPH03271835A (ja) * 1990-03-20 1991-12-03 Fujitsu Ltd 二重化システム診断方式
DE69132227T2 (de) * 1990-09-20 2000-09-28 Fujitsu Ltd Eingang-/Ausgangsteuerungseinrichtung
JP2548480B2 (ja) * 1992-02-10 1996-10-30 富士通株式会社 アレイディスク装置のディスク装置診断方法
JPH0689146A (ja) * 1992-09-08 1994-03-29 Fujitsu Ltd ディスクアレイ装置のスタンバイディスク制御方法
JPH06168154A (ja) * 1992-12-01 1994-06-14 Hokuriku Nippon Denki Software Kk 磁気ディスク装置パトロール診断方式
JP2953639B2 (ja) * 1992-12-02 1999-09-27 株式会社日立製作所 バックアップ装置及びその方法
JP3271835B2 (ja) 1993-08-27 2002-04-08 樂比顧股▲分▼有限公司 加熱保温装置
JPH11203157A (ja) * 1998-01-13 1999-07-30 Fujitsu Ltd 冗長装置
US7263593B2 (en) * 2002-11-25 2007-08-28 Hitachi, Ltd. Virtualization controller and data transfer control method
US7117388B2 (en) 2003-04-28 2006-10-03 International Business Machines Corporation Dynamic, Non-invasive detection of hot-pluggable problem components and re-active re-allocation of system resources from problem components
JP2004341994A (ja) * 2003-05-19 2004-12-02 Hitachi Ltd プログラム、情報処理装置、及び情報処理装置の制御方法
US7246210B2 (en) * 2004-11-08 2007-07-17 Prostor Systems, Inc. Archival cartridge management system with auto-refresh
JP2006268521A (ja) 2005-03-24 2006-10-05 Nec Corp 予備cell試験システム
JP2006285464A (ja) * 2005-03-31 2006-10-19 Hitachi Ltd 計算機システムとストレージ及びデバイス制御方法
JP4786255B2 (ja) * 2005-08-29 2011-10-05 株式会社日立製作所 ストレージシステム及び記憶制御方法
JP4903415B2 (ja) * 2005-10-18 2012-03-28 株式会社日立製作所 記憶制御システム及び記憶制御方法

Also Published As

Publication number Publication date
US20080215771A1 (en) 2008-09-04
US8321608B2 (en) 2012-11-27
JP2008217265A (ja) 2008-09-18

Similar Documents

Publication Publication Date Title
JP5022062B2 (ja) プールi/oデバイス動作確認方法、及び計算機システム
US7418627B2 (en) Cluster system wherein failover reset signals are sent from nodes according to their priority
US7062676B2 (en) Method and system for installing program in multiple system
US8566635B2 (en) Methods and systems for improved storage replication management and service continuance in a computing enterprise
JP4039794B2 (ja) マルチパス計算機システム
US8661286B2 (en) QProcessor architecture in a cluster configuration
US9235484B2 (en) Cluster system
US8104031B2 (en) Storage system, storage unit, and method for hot swapping of firmware
JP4448878B2 (ja) 障害回復環境の設定方法
US20090282142A1 (en) Boot controlling method of managed computer
US8090975B2 (en) Recovery server for recovering managed server
JP2004062535A (ja) マルチプロセッサシステムの障害処理方法、マルチプロセッサシステム及びノード
TW201211904A (en) Multi-socket server management with RFID
US20130346790A1 (en) Non-disruptive controller replacement in network storage systems
US20130117518A1 (en) System controller, information processing system and method of saving and restoring data in the information processing system
JP5013324B2 (ja) コンピュータ装置及びそのbiosアップデート方法
US8880552B2 (en) Database system and database control method
CN109358982B (zh) 硬盘自愈装置、方法以及硬盘
US8074109B1 (en) Third-party voting to select a master processor within a multi-processor computer
US11954509B2 (en) Service continuation system and service continuation method between active and standby virtual servers
JP2009230484A (ja) ストレージサブシステム、ストレージシステム、ファームウェア置換方法、及びプログラム
JP4483947B2 (ja) 入出力制御装置
JP2020086805A (ja) 情報処理システム及び情報処理装置
JP6822706B1 (ja) クラスタシステム、サーバ装置、引継ぎ方法、及びプログラム
JP2004013723A (ja) 共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置と方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090817

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111116

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120612

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120615

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150622

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees