JP4462024B2 - ディスク引き継ぎによるフェイルオーバ方法 - Google Patents

ディスク引き継ぎによるフェイルオーバ方法 Download PDF

Info

Publication number
JP4462024B2
JP4462024B2 JP2004356159A JP2004356159A JP4462024B2 JP 4462024 B2 JP4462024 B2 JP 4462024B2 JP 2004356159 A JP2004356159 A JP 2004356159A JP 2004356159 A JP2004356159 A JP 2004356159A JP 4462024 B2 JP4462024 B2 JP 4462024B2
Authority
JP
Japan
Prior art keywords
server
servers
active
search
logical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2004356159A
Other languages
English (en)
Other versions
JP2006163963A (ja
Inventor
恵介 畑▲崎▼
隆夫 中島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2004356159A priority Critical patent/JP4462024B2/ja
Publication of JP2006163963A publication Critical patent/JP2006163963A/ja
Application granted granted Critical
Publication of JP4462024B2 publication Critical patent/JP4462024B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2025Failover techniques using centralised failover control functionality

Description

本発明は、外部ディスク装置からブートするサーバから成る計算機システムにおけるフェイルオーバ方法に関する。
一般に、サーバは内蔵のディスク装置にインストールされたOSをブートする。この構成では、故障したサーバの業務を引き継ぐ場合、従来の方法として、サーバに内蔵するディスク装置に同じOSや業務アプリケーションを複数のサーバのディスクにインストールする冗長化構成を取っていた。この方法では、業務を実行中のサーバ(現用サーバ)が故障した場合、同じOSや業務アプリケーションがインストールされた別のサーバ(予備サーバ)が起動することで業務を引き継ぐことができる。しかし、この方法では、1台の現用サーバに対して、ペアとなる予備サーバが必要となるため、初期導入コストや初期構築工数が増大する。
上記に対して、サーバがディスク装置として外部のディスクアレイ装置を利用してブートする形態がある。この場合、ディスクアレイ装置は、ファイバチャネルやファイバチャネルスイッチを介して複数のサーバと接続することができため、ディスクアレイ装置に接続されたあるサーバのブートディスクは、別のサーバから参照可能である。この構成では、業務を実行中の現用サーバで障害が発生した場合、そのサーバのブートディスクを利用して予備サーバが起動することで業務を引き継ぐことができる。この方法では、ブートディスクの内容はそのまま予備サーバに引き継ぐため、OSや業務アプリケーションをそのまま引き継ぐことができる。さらに、現用サーバに対してペアとなる予備サーバを準備する必要が無いため、任意の現用サーバから任意の予備サーバへの業務引き継ぎが可能である。しかし、現用サーバと予備サーバとでハードウェア構成が異なる場合、ブートディスク内のOSや業務アプリケーションが正常に動作できない場合がある。
この課題に対して、従来の方法では、均質なハードウェア構成をもつシステムを想定し、ユーザはあるハードウェア構成の現用サーバに対して、同じハードウェア構成の予備サーバを設定する方法を取っていた。しかしこの方法では、ユーザの初期構築工数が増大してしまう。さらに、CPUの速度やメモリ容量など、ハードウェア構成が多少異なっても業務の引き継ぎが可能な場合があるため、必ずしも同じハードウェア構成のサーバを準備する必要は無い場合がある。
さらに、複数のサーバを仮想的に1台の論理サーバを構成するパーティション機能を利用している場合、現用の論理サーバと、予備の論理サーバのパーティション構成を一致させる必要がある。しかし、ある現用の論理サーバに対して、予備の論理サーバのパーティション構成を一致させておくと、その予備の論理サーバは構成が一致していない他の現用の論理サーバからの業務は引き継ぐことは出来ない。このため、現用の論理サーバに対して必ずペアとなる予備の論理サーバを準備しておく必要があるため、初期導入コストと初期構築コストが増大してしまう。
本発明が解決しようとする課題は、外部のディスク装置を利用してブートするサーバにおいて障害が発生した場合に、ブートディスクの引き継ぎによる業務引き継ぎを実現する方法において、不均質なハードウェア構成を持つシステムの中から業務の引き継ぎ先となるサーバの選択作業やパーティション構成作業を不要とすることで、システムの初期構築の工数と導入コストとを削減することである。
予備サーバの設定作業を人手により行う場合、ハードウェア構成が均質なシステムの場合はどのサーバを予備サーバとして設定しても問題はない。しかし、不均質なハードウェア構成をもつシステムの場合、予備サーバとして設定する際に、ユーザは現用サーバのハードウェア構成情報を調べ、さらに予備サーバの候補となるサーバのハードウェア構成を調べて、一致するサーバを選択しなければならないため、手間がかかる。
また、一般に業務引き継ぎでは、複数の現用サーバに対して1台の予備サーバを設定する。このため、パーティション機能を利用している場合、予備の論理サーバの構成は、現用の論理サーバで障害が発生した時点で決定する。このため、ユーザが障害発生を監視し、発生時に人手によるパーティション構成作業を実施しなければならず、運用コストが大幅に増大してしまう。さらに、予備サーバの台数が不足するなど、予備サーバ群の構成によっては、現用の論理サーバと同じ構成を持つ予備の論理サーバを構成できない場合がある。
複数のサーバがネットワーク上の外部ディスク装置に接続され、サーバは外部ディスク装置からオペレーションシステムをブートする計算機システムにおいて、業務を稼動である現用サーバの障害発生時に、計算機システム内の業務を稼動中でないサーバへと業務処理を引き継ぐ際に、現用サーバの障害発生を検知し、計算機システム内において現用サーバと同じハードウェア構成を持つ業務を稼動中でないサーバを検索し、検索の結果発見したサーバから外部ディスク装置へのアクセスを可能として、そのサーバを外部ディスク装置からブートすることで業務の引き継ぎを行う。
本発明は外部のディスク装置を利用してブートするサーバにおいて障害が発生した場合に、ブートディスクの引き継ぎによる業務引き継ぎを実現する方法において、不均質なハードウェア構成を持つシステムの中から業務の引き継ぎ先となるサーバの選択作業やパーティション構成作業を不要とすることで、システムの初期構築の工数と導入コストの削減を可能とするフェイルオーバ方法を実現する。
図1は、本発明における実施例の全体図を示している。本実施例のシステムは
複数のサーバ102を備える。各サーバは、ネットワークインターフェースカード(NIC)121を介してネットワークスイッチ(NW SW)105に接続され、ファイバチャネルのホストバスアダプタ(HBA)120を介してファイバチャネルスイッチ104に接続されている。また、ファイバチャネルスイッチ104はディスクアレイ装置103にも接続され、サーバ102からアクセスできる。ネットワークスイッチ105は、システムを管理する管理サーバ101にも接続されている。また、サーバ102の各々にはBMC(Baseboard Management Controller)122が内蔵されておいる。BCM122はネットワークを介して管理サーバ101に接続される。これにより各サーバのハードウェアの状態監視や、電源制御が可能となる。さらにサーバ102にはパーティション機構140が設けられている。図示した実施例ではパーティション機構140は2台のサーバを1つの論理サーバとするか、それぞれ個別の論理サーバとするかの切り換えを行う。具体的には、前者の場合には同一パーティション内の各々のサーバは互いに他のサーバが搭載するメモリを自身が搭載するメモリと同様にアクセス可能とする。
なお、同一パーティションにまとめられるサーバの最大数を、2台でなくより多数にすると、論理サーバ構成のより多彩な切り換えが可能となる。管理サーバ101は、サーバ102,ディスクアレイ装置103、ネットワークスイッチ104,ファイバチャネルスイッチ105に対し、ネットワークを経由して状態の監視や必要に応じて制御を行う。管理サーバ101にはフェイルオーバ機構110が設けられている。フェイルオーバ機構110は、サーバの障害発生時にBMC122からの障害通知の受信やBMC122への電源制御、ディスクアレイ装置103のディスクマッピング機構130の制御などを行う機構であり、本発明の特徴の一つである。ディスクアレイ装置103内のディスクマッピング機構130は、サーバ102に搭載のHBA120とディスク131との関係づけを行う。具体的にはディスク131にアクセス可能なサーバを制限することによりセキュリティ機能を実現する。本実施例1では、サーバ102はブートディスクとしてディスクアレイ装置103内のディスク131を利用し、ディスク131にはOSおよび業務アプリケーションが格納されている。
図2は、本実施例におけるサーバ102の詳細な構成を示している。サーバ102にはプログラムやデータを格納するメモリ201と、メモリ内のプログラムを実行するCPU202と、HBA120と、NIC121と、BMC122から構成されている。HBA120にはファイバチャネル通信において通信相手を特定するために必要となるWWN(World Wide Name)204と呼ばれるユニークなデバイス識別子がメモリに格納されている。BMC122は、主にサーバ102のハードウェアの監視や制御を行う。サーバ102のハードウェアに異常が発生した場合は障害検出機構205が検知して外部に通知可能である。また、BMC122を通じて遠隔からサーバ102の電源のON/OFFが可能である。
図3はフェイルオーバ機構110のプログラムモジュール構成を示している。フェイルオーバ機構110は、サーバのハードウェアやパーティションの構成状況およびサーバの利用状態を格納するサーバ管理テーブル301と、サーバの状態監視を行って障害発生時のフェイルオーバ動作の起動やサーバの電源制御を行うサーバ管理モジュールと、フェイルオーバ時に業務の引き継ぎ先となる予備サーバを検索するサーバ検索機能と、フェイルオーバ時に現用サーバから予備サーバへディスクマッピングを変更するディスクマッピング変更モジュールから構成される。
図4は、図3におけるサーバ管理テーブル301の詳細を示している。サーバ管理テーブル301は、フェイルオーバ機構110が管理対象としているサーバの一覧と、各サーバの構成情報および状態が格納されている。テーブルのカラム401は、サーバの識別子が格納されている。サーバ識別子401は、サーバが特定できる情報であれば良い。サーバのシリアル番号や、ブレードサーバであれば、ブレード番号などである。カラム402は、カラム402はサーバのCPU種別を示している。製品名が同じCPUであっても、ステッピングなどが異なれば区別可能な情報を含んでいる。カラム403はサーバのCPU周波数を示している。カラム404はサーバが搭載しているメモリ容量を示している。カラム405はサーバのパーティション構成を示している。カラムの数字はそのサーバが属するパーティションを構成するサーバ数を示しており、括弧内はそのサーバが属すパーティションの識別子を示す。パーティション識別子は論理サーバに対応して付与される。
たとえば、サーバ識別子S2とS3のサーバが1つの論理サーバを構成しているのであれば、S2とS3は共にパーティション構成サーバ数は2となり、同じパーティション識別子であるP2に所属していることになる。また、サーバ1台のみで論理サーバが構成されている場合もある。この場合は、パーティション機能を持たないサーバと同等である。本実施例では、現用サーバや予備サーバは全て論理サーバとして示している。ただし、パーティション機能を持たないシステムでは、物理サーバが現用サーバや予備サーバであっても良い。カラム406はサーバの状態を示している。使用中の場合は業務を実行中である。未使用の場合は直ぐに別の業務に利用可能である。また、障害が発生して利用できない場合は障害発生中であることを示す情報が格納される。
図5は、図3におけるサーバ管理モジュール302の詳細を示している。サーバ管理モジュールは、サーバの状態監視を行い、サーバの稼動状況や障害監視、および電源の制御を行う。サーバの障害発生時、図1に示すBMC122や、サーバ上で稼動するエージェントプログラムなどがサーバの障害を検出すると、サーバ管理モジュール302へ障害の発生を通知される。このとき通知される障害情報には障害の種類が含まれている。この障害の種類によってフェイルオーバ実行の是非を判断するため、サーバ管理モジュール302は障害動作テーブルを持つ。カラム501は発生した障害の種類を示し、カラム502はその障害発生時のフェイルオーバ実行の是非を示す。障害動作テーブルの格納情報は、システムのユーザが任意に設定可能とすることも出来る。
図6は、図3におけるディスクマッピング変更モジュール304の詳細を示している。ディスクマッピング変更モジュール304は、障害が発生した現用サーバのマッピングされているディスクを全てマッピング解除して、業務引き継ぎ先となる予備サーバへそのディスクをマッピングするように要求する。このディスクマッピングの変更は、図1に示すディスクアレイ装置103内のディスクマッピング機構130に対して要求する。ディスクマッピング機構130は、サーバ搭載のHBAの識別子であるWWNに対してディスクを割り当てる。このため、ディスクマッピング変更には、現用サーバのWWNとマッピングされているディスクの情報、予備サーバのWWNが必要となる。これらの情報をディスクマッピング変更モジュール304はサーバディスクマッピングテーブルに格納する。カラム601はサーバの識別子を示す。カラム602はサーバ搭載のHBAのWWNを示している。カラム603はWWNに割り当てられているディスクの仮想ディスク番号を示す。カラム604はそのディスクの物理ディスク番号を示している。仮想ディスク番号は、サーバに見せる仮想的なディスク番号であり、物理ディスク番号に関わらず設定することが出来る。また、サーバディスクマッピングテーブルはディスクがマッピングされていないサーバの情報も記録する。この場合、カラム603およびカラム604の情報は空白となる。
図7は、図1におけるディスクアレイ装置103内のディスクマッピング機構130の詳細を示している。ディスクマッピング機構130はディスクアレイ装置内103のディスク131と、ディスクアレイ装置103にファイバチャネル経由で接続されているサーバ搭載のHBA120のWWNとのマッピングを実施する。このマッピング関係にないWWNを持つサーバからはディスクを参照できない。これにより、あるディスクをあるサーバからのみアクセス可能とするセキュリティ設定が可能である。このセキュリティ設定のため、本実施例ではディスクマッピング機構130は図7に示すディスクマッピングテーブルを持つ。カラム701はサーバ搭載のHBAのWWNを示す。カラム702はWWNにマッピングされた仮想ディスク番号を示す。カラム703はWWNにマッピングされた論理ディスク番号を示す。
図8は、本実施例におけるディスクマッピング変更例を示している。現用サーバ801に搭載のHBA810はWWN1(811)を持ち、予備サーバ802に搭載のHBA820はWWN2(821)を持つ。これらはファイバチャネルスイッチ104を経由してディスクアレイ装置103に接続されている。ディスクのマッピングはディスクマッピング機構130によって制御されており、仮想ディスク831、832,833を含む仮想ディスクのグループ803が現用サーバ801のWWN1(811)にマッピングされている。仮想ディスク831、832、833の実体は論理ディスク804、805、806であり、OSや業務アプリケーションがインストールされているブートディスクを含んでいる。現用サーバ801で障害が発生した場合は、予備サーバ802へとディスクマッピングを変更する。このとき、現用サーバ801のWWN1(811)と仮想ディスクのグループ803とのマッピングを解除し、予備サーバ802のWWN2(821)へマッピングする。これにより、予備サーバ802は現用サーバ801が利用していたOSや業務アプリケーションを含むディスクを引き継ぐことができる。この状態で予備サーバ802を起動することで、現用サーバ801からの業務のフェイルオーバを実現する。
図9は、本実施例のフェイルオーバ動作のシーケンス図である。図示するシーケンス図は、現用サーバ801、管理サーバ101のフェイルオーバ機構110、ディスクマッピング機構130、及び予備サーバ802の連携動作を示す。ステップ910は現用サーバでの障害発生を示す。現用サーバ801に搭載のBMCや現用サーバ上で稼動中のエージェントプログラムが障害の発生を検出し、フェイルオーバ機構110に通知する。ステップ920でフェイルオーバ機構110は通知された障害を検知する。するとフェイルオーバ機構110はステップ921で現用サーバのハードウェア構成やパーティション構成などの情報を取得する。この情報は図4に示したサーバ管理テーブルから取得する。ステップ922では、現用サーバをシャットダウンする。もし現用サーバが稼動したままであれば、OSや業務アプリケーションが不安定な状態で稼動している場合があり、これらが不正なI/Oを発行する場合がある。
さらに、予備サーバが業務を引き継いだ時点で現用サーバが未だ稼動中であれば、同じIPアドレスを持つサーバが並存することになる。これを防ぐため、現用サーバのシャットダウンが必要である。ただし、現用サーバがダンプ処理中である場合は、ダンプ処理が終了までシャットダウンを実行しない。また、フェイルオーバ機構110が現用サーバ801にダンプ処理の起動を要求する場合もある。ステップ911では、現用サーバ801がシャットダウンの要求を受けてシャットダウン処理を実行する。もしシャットダウン処理が不可能な場合は、フェイルオーバ機構110が現用サーバ801の強制電源OFFを実行する。強制電源OFFはサーバ搭載のBMCに対して指示することで実行する。フェイルオーバ機構110はステップ923では、ステップ921で取得した現用サーバの情報をもとに、業務引き継ぎが可能な予備サーバを検索する。この検索は図4に示したサーバ管理テーブルの情報が現用サーバと一致するサーバを検索することで実行する。検索の結果、発見したサーバを予備サーバ904とする。ステップ924では現用サーバ901にマッピングされたディスクのマッピングを解除して、予備サーバ802にマッピングするためのディスクマッピング変更要求をディスクマッピング機構130に要求する。ステップ930では、ディスクアレイ装置のディスクマッピング機構130が要求されたディスクマッピング変更を実行する。ステップ925では予備サーバ802の起動を要求する。ステップ940では予備サーバ802が起動する。これによりOSや業務アプリケーションが起動するため、ステップ941で業務が再開される。
以下では、図9におけるシーケンスをより詳細に説明する。図10は、サーバ管理モジュール302の動作フローを示している。ステップ1001では、障害が発生したサーバから障害情報を受信する。ステップ1002では、受信した障害の情報から障害の種類を特定する。ステップ1003では、障害動作テーブルを参照し、該当する障害の種類に対してフェイルオーバ動作の実行の是非となる情報を参照する。ステップ1004は、障害動作テーブルの内容より、フェイルオーバの実行の是非を判定する。フェイルオーバ動作が必要であればステップ1005に移り、不要であれば何もせずに終了する。ステップ1005では、現用サーバのシャットダウンを実行する。ステップ1006では、サーバ検索モジュール303を起動する。サーバ検索モジュールの動作が終了するとステップ1007に移る。ステップ1007では予備サーバを起動する。
図11はサーバ検索モジュール303の処理フローを示している。ステップ1101では、サーバ管理テーブルから現用サーバの情報を取得する。このとき、現用サーバのサーバ識別子と、そのサーバか属するパーティション識別子を元に情報を取り出す。ステップ1102では、サーバ管理テーブルから、取り出した現用サーバの情報とハードウェア構成が同じであり、かつ同じパーティション構成を持つ未使用状態のサーバを検索する。ここでハードウェア構成とは、図4に示すサーバ管理テーブルのCPU種別(カラム402)とCPU周波数(カラム403)とメモリ容量(カラム404)のことである。また、パーティション構成はカラム405であるが、ここではパーティションを構成するサーバ数のみを条件として参照し、どのパーティションに所属するかは関係ない。ステップ1103では、検索の結果、サーバが発見できたかどうかを判定する。発見したならば次のステップ1104に進む。発見できなかった場合は終了する。ただし、一般的にサーバが発見できなかった場合には、その旨を示す情報をユーザに通知するため、メッセージの表示やログへの出力を行う。ステップ1104では発見したサーバを予備サーバに指定する。ステップ1105ではディスクマッピング変更モジュールを起動する。
図12はディスクマッピング変更モジュール303およびディスクアレイ装置のディスクマッピング機構130103の詳細シーケンスを示す。ステップ1201、1202、1203、1205はディスクマッピング変更モジュール303の処理フロー、ステップ1204、1206はディスクマッピング機構130103の処理フローである。ステップ1201では、サーバマッピングテーブルを参照して、現用サーバ搭載のWWNと、そこへマッピングされているディスクの状態を取得する。ステップ1202では、サーバディスクマッピングテーブルを参照して予備サーバ搭載のWWNを取得する。これらの情報はディスクマッピング機構130へマッピング変更要求を指示する際に引数として必要となる。ステップ1203で、現用サーバのWWNにマッピングされているディスクのマッピングを解除するように、ディスクマッピング機構130に要求を出す。ステップ1204では、現用サーバのWWNに対するディスクのマッピングを全て解除する。ステップ1205では、ディスクマッピング機構130に対して、現用サーバにマッピングされていたディスクを、予備サーバのWWNにディスクにマッピングするように要求する。ステップ1206では、予備サーバのWWNに対して要求されたディスクマッピングを実施する。
図13は、本発明における実施例2の全体図を示している。実施例2では、現用の論理サーバのパーティション構成に合わせて、予備の論理サーバを構成する実施例を示す。実施例1と異なるのは、管理サーバ101′にパーティション管理機構111が追加されたことと、フェイルオーバ機構の構造である。パーティション管理機構111は、論理サーバの作成、構成変更、および削除といったパーティションの制御を行う機構である。フェイルオーバ機構110′は、パーティション管理機構111と連携して、予備の論理サーバのパーティションを自動構成する機能を実現する。
図14は、実施例2の管理サーバ101′の構成を示している。実施例1の管理サーバ101に加えて、パーティション管理機構111が追加される。フェイルオーバ機構110′の構造は、実施例1のフェイルオーバ機構110に加えて、パーティション構成変更モジュール305と、パーティション構成可能テーブル306が追加される。パーティション構成変更モジュール305は、現用の論理サーバと予備の論理サーバのパーティション構成が一致するように、パーティション管理機構111に対して、予備となる論理サーバの構成変更を要求する機能モジュールである。ここでパーティション構成を一致させるとは、現用の論理サーバを構成するサーバ台数と、予備の論理サーバを構成するサーバ台数を一致させることである。たとえば、現用サーバがサーバ2台で構成される論理サーバであった場合、予備サーバも同様にサーバ2台で構成される論理サーバとする。パーティション構成可能テーブル306は、システムで論理サーバが構成できるサーバの組み合わせを列挙するテーブルである。パーティション構成変更モジュール305は、パーティション構成可能テーブル306を参照して、現用の論理サーバと同じパーティション構成となる論理サーバを構成できるサーバの組み合わせを検索する。パーティション管理機構111はパーティション管理テーブル311を含んでいる。パーティション管理機構111は、パーティション管理テーブル311を参照して、現在のパーティション構成を管理している。
図15は、図14のパーティション構成可能テーブル306の詳細を示している。カラム1501は論理サーバを構成するサーバの台数を示す。カラム1502は、論理サーバを構成することが可能なサーバの組み合わせを示す。図15に示す例では、サーバ2台で構成する論理サーバは、S2とS3の組み合わせ、S6とS7の組み合わせ、S11とS12の組み合わせで可能ということである。また、本実施例では、サーバ1台で構成する論理サーバのサーバ識別子は記述していないが、本テーブルに含まれていても問題ない。
図16は、図14のパーティション管理テーブル311の詳細を示している。カラム1601はパーティション識別子を示している。この識別子は論理サーバに対応して付与される。カラム1602は論理サーバを構成するサーバを示す。
図17は、実施例2のフェイルオーバ動作のシーケンス図である。図示するシーケンス図は、現用サーバ、フェイルオーバ機構110′、パーティション管理機構111、ディスクマッピング機構130、及び予備サーバの連携動作を示す。実施例1と異なるのは、ステップ1724のパーティション構成要求と、ステップ1730のパーティション構成変更が追加されたことである。また、ステップ1723の予備サーバの検索における詳細も異なる。ステップ1723では、まず現用の論理サーバのパーティション構成と同じパーティション構成を持つ未使用のサーバの組を検索する。見つかった場合は現用サーバへのディスクのマッピングを解除し、見つかった未使用サーバにそのディスクをマッピングすることを要求するステップ1725に進む。一方、現用の論理サーバのパーティション構成と同じパーティション構成を持つ未使用のサーバの組が見つからない場合は、現用の論理サーバと同じパーティション構成の論理サーバを構成可能なサーバの組み合わせを検索する。たとえば、現用サーバが2台のサーバから構成される論理サーバであった場合、その2台と同じハードウェア構成を持つサーバであり、かつ論理サーバが構成可能なサーバ2台を検索する。これが見つかれば、ステップ1724に進み、発見したサーバを利用して、論理サーバを構成するようにパーティション管理機構1703に要求する。ステップ1730は、パーティション管理機構1703がステップ1724の要求を受けて、パーティションの構成変更を実施する。
図18は、実施例2におけるサーバ検索機能303の処理フローを示している。ステップ1801では、サーバ管理テーブルから現用サーバの情報を取得する。このとき、現用サーバのサーバ識別子と、そのサーバか属するパーティション識別子を元に情報を取り出す。ステップ1802では、サーバ管理テーブルから、現用サーバを構成するサーバとハードウェア構成が同じで、かつパーティション構成も同じである未使用サーバの組み合わせ(予備の論理サーバ)を検索する。もしそのサーバの組が無ければ、次にステップ1803に進む。ステップ1803では現用サーバを構成するサーバとハードウェア構成が同じサーバであり、論理サーバを構成可能なサーバの組み合わせを検索する。たとえば、現用サーバがサーバ2台で構成される論理サーバである場合、まずそれぞれのサーバと同じハードウェア構成を持つサーバをサーバ管理テーブル301を利用して検索し、次にそれらのサーバの中から2台で論理サーバが構成できるサーバの組みをパーティション構成可能テーブル306を利用して検索する。発見したならば次のステップ1804に進み、パーティション構成変更モジュールを起動する。次にステップ1805でディスクマッピング変更のためにディスクマッピング機構を起動する。先のステップ1802で予備の論理サーバをお発見できた場合は、ステップ1804のパーティション構成変更モジュールの起動を行わずにステップ1805に進む。
ここでステップ1802でもステップ1803でも該当するサーバの組を発見できなかった場合はフェイルオーバの動作を終了する。ただし、一般的にサーバが発見できなかった場合には、その旨を示す情報をユーザに通知するため、メッセージの表示やログへの出力を行う。
図19は、パーティション構成変更モジュール305およびパーティション管理機構111の詳細シーケンスを示す。ステップ1901、1903はパーティション構成変更モジュール305の処理フロー、ステップ1902はパーティション管理機構111の処理フローである。ステップ1901でパーティション構成変更モジュール305は、サーバの組みを利用して、現用の論理サーバと同じパーティション構成を持つ論理サーバの構成をパーティション管理機構111に要求する。ステップ1902では、パーティション管理機構111が論理サーバの構成を実施する。ステップ1903では、パーティション構成変更モジュール305は構成した論理サーバを予備サーバとして設定する。
本発明における実施例3では、予備サーバの検索の際に、検索ポリシーを用いる例を示している。検索ポリシーによって、現用サーバと必ずしも予備サーバのハードウェア構成やパーティション構成が完全一致しない場合であっても業務の引き継ぎが可能な場合に対処できる。たとえば、CPU周波数やメモリ容量などは、多少の変化があってもソフトウェアは対応可能であるため、一致しなくても業務の引き継ぎは可能である。
図20は、本発明における実施例3のサーバ検索モジュール303′を示す。実施例1および実施例2におけるサーバ検索モジュール303に対して、実施例3のサーバ検索モジュール303′は検索ポリシーテーブルを追加している。検索ポリシーテーブルは現用サーバに対して、予備サーバとして満たすべきポリシーが列挙される。このポリシーを満たすサーバであれば、現用サーバ対してハードウェア構成やパーティション構成が完全一致しない場合であっても、予備サーバとして利用することができる。カラム2001は現用サーバのサーバ識別子を示している。カラム2002は検索のポリシーを示している。ポリシーとしては、図20に示すように、CPU周波数やメモリがある一定値以上である条件や、パーティション構成が不一致の場合でも業務に引き継ぎが可能とするなどの条件を設定可能である。サーバ検索モジュール303′では、予備サーバとするサーバの検索の際に、この検索ポリシーテーブルを参照する。検索ポリシーテーブルは、ユーザによって書き換えを可能とする。たとえば、GUIやコマンド、設定ファイルを提供し、検索ポリシーの指定を可能とする。
図21は、本発明における実施例3のサーバ検索モジュール303′の処理フローを示す。実施例1および実施例2と異なるのは、ステップ2102において検索ポリシーを利用することである。ステップ2102では、サーバ検索モジュール303′は検索ポリシーテーブルの該当する現用サーバのポリシーを参照し、予備サーバの候補となるサーバをサーバ管理テーブル301から検索する。
本発明における実施例4では、システムに未使用のサーバが存在しない場合であっても、障害が発生した業務よりも優先度の低い業務から、サーバを融通することで業務を引き継ぐ方法を示す。
図22は、本発明における実施例4のサーバ管理テーブルである。他の実施例と異なるのは、カラム407とカラム408である。カラム407では、サーバが稼動する業務の種類を示している。この例以外にも、業務の種類を示すものとして業務IDを利用しても良い。カラム408はカラム407の業務の優先度を示す。ここでは例として、高、中、低となっている。高であれば業務の優先度は高く、低であれば業務の優先度が低いことを示す。業務の優先度はユーザが指定する。指定方法としては、ユーザへのGUIやコマンドの提供や、設定ファイルなどである。
図23は、本発明における実施例4のサーバ検索モジュールの処理フローである。他の実施例と異なるのは、ステップ2302である。ステップ2302では、未使用のサーバだけでなく、現用サーバが稼動していた業務より低い優先度の業務が稼動するサーバを含めて検索する。他の業務が稼動するサーバを予備サーバとする場合は、該当する業務からサーバを融通する。たとえば、図23の例では、サーバ識別子S5で障害が発生した場合、S5の業務より優先度が低いS4のサーバを融通する。また、サーバを融通する業務が他のサーバを利用している場合は、その業務に対するスケールインまたはスケールダウンを実行しても良い。さらに、サーバが不足して予備の論理サーバが構成できない場合にも、他の業務から融通したサーバを利用して、論理サーバを構成可能である。また、サーバを融通する前に、融通するサーバで稼動していた業務を他のサーバへと引き継ぐ方法もある。たとえば、図23においてS5の予備サーバをS4とする場合、先にS4の業務を未使用のS12に引き継ぎ、その後S5の業務をS4へと引き継ぐ。ここで、S4とS12はハードウェア構成が異なるが、実施例3で示した検索ポリシーによって業務の引き継ぎが可能であるものとしている。この動作は、本発明で記述しているフェイルオーバ処理を2回行ったことに等しい。
本発明における実施例5の全体図を図24に示す。実施例1と異なるのは、FCSW104にFCSW管理機構140とNWSW105にNWSW管理機構150が追加されていることである。FCSW管理機構140は、FCSWの接続ポートごとやサーバ搭載のHBAのWWNごとにゾーンを分けることで、あるゾーンの属するサーバからは別のゾーンのディスクにアクセスできないようにするセキュリティ機能を制御する。NWSW管理機構150は、NWSWの接続ポートやサーバ搭載のNICごとにVLAN IDを付与し、VLAN IDごとにネットワークを分離するセキュリティ機能を制御する。実施例5では、現用サーバと接続先のNWSW104やディスクアレイ装置103が異なる場合や、サーバ間でFCSW104のゾーンやNWSW105のVLAN IDが異なる場合を考慮して、予備サーバの検索を可能とする。
図25は、本発明における実施例5の管理サーバ101″の構成を示している。他の実施例と異なるのは、管理サーバ101″のフェイルオーバ機構110″にはFCSW設定変更モジュール307とNWSW設定変更モジュール308が追加されていることである。FCSW設定変更モジュール307は、予備サーバが現用サーバとゾーンが異なる場合に、ゾーンが一致するようにFCSW管理機構140に対して設定変更を要求する機能モジュールである。NWSW設定変更モジュール308は、予備サーバが現用サーバとVLAN IDが異なる場合に、VLAN IDが一致するようにNWSW管理機構150に対して設定変更を要求する機能モジュールである。FCSW設定変更モジュール307およびNWSW設定変更モジュール308の動作タイミングは、サーバ検索モジュール303が予備サーバを発見した時点である。
図26は、本発明における実施例5のサーバ管理テーブル301である。カラム409はサーバのチップセットの種類を示す。チップセットが一意に決まるのであれば、サーバのモデル名でも良い。現用サーバと予備サーバでチップセットが一致しない場合、業務の引き継ぎができない可能性があるため、このカラムによりチップセットの種類が一致するサーバを検索する。カラム409はサーバ搭載NICのポート数を示す。カラム410はサーバ搭載のHBAポート数を示す。カラム409およびカラム410は、現用サーバと予備サーバでI/Oポート数が一致しなければ業務の引き継ぎができない場合があるため、予備サーバの検索に利用する。カラム412はサーバが属するVLAN IDである。現用サーバと予備サーバでVLAN IDが一致しない場合であっても、予備サーバのVLAN IDをNWSW設定変更モジュール308によって現用サーバと一致させることで、業務に引き継ぎが可能である。カラム413はサーバが属するゾーンの識別子である。現用サーバと予備サーバでゾーンが異なる場合であっても、予備サーバのゾーンをFCSW設定変更モジュール307によって現用サーバと一致させることで、業務に引き継ぎが可能である。カラム414はサーバの接続先NWSWを示す。現用サーバと予備サーバで接続先NWSWが異なる場合は、業務の引き継ぎができない場合があるため、予備サーバの検索に本カラムを利用する。カラム415はサーバの接続先ディスクアレイ装置を示す。現用サーバと予備サーバで接続先ディスクアレイ装置が異なる場合は、現用サーバのブートディスクが予備サーバからアクセスできないため、業務の引き継ぎができない。そこで、本カラムを予備サーバの検索に利用する。他にもサーバとディスクアレイ装置の接続先ポートの情報や、のディスクアレイ装置の接続先コントローラの情報をサーバ管理テーブル301に追加しても良い。
本特許のサーバ検索方法は、フェイルオーバだけでなく、負荷分散システムにおける業務のスケールアウトやスケールアップの対象とするサーバの検索にも適用できる。
本発明の実施例1の全体構成を示すブロック図である。 上記実施例のサーバの構成を示すブロック図である。 上記実施例の管理サーバの構成を示す機能ブロック図である。 上記実施例のサーバ管理テーブルを示すフォーマット図である。 上記実施例のサーバ管理モジュールの構成を示す機能ブロック図である。 上記実施例のディスクマッピング変更モジュールを示す機能ブロック図である。 上記実施例のディスクマッピング機構を示す機能ブロック図である。 上記実施例のサーバへのディスクマッピング構成を示す概念図である。 上記実施例の動作を示すシーケンス図である。 サーバ管理モジュールの処理フローを示すフローチャートである。 サーバ検索モジュールの処理フローを示すフローチャートである。 ディスクマッピング変更モジュールとディスクマッピング機構のシーケンス図である。 本発明の実施例2の全体構成を示すブロック図である。 上記実施例の管理サーバの構成を示す機能ブロック図である。 上記実施例のパーティション構成可能テーブルを示すフォーマット図である。 上記実施例のパーティション管理テーブルを示すフォーマット図である。 上記実施例の動作を示すシーケンス図である。 上記実施例のサーバ検索モジュールの処理フローを示すフローチャートである。 上記実施例のパーティション構成変更モジュールとパーティション管理機構のシーケンス図である。 本発明の実施例3のサーバ検索モジュールの構成を示す機能ブロック図である。 上記実施例のサーバ検索モジュールの処理フローを示すフローチャートである。 本発明の実施例4のサーバ管理テーブルを示すフォーマット図である。 上記実施例のサーバ検索モジュールの処理フローを示すフローチャートである。 本発明の実施例5の全体構成を示すブロック図である。 上記実施例の管理サーバの構成を示す機能ブロック図である。 上記実施例のサーバ管理テーブルを示すフォーマット図である。
符号の説明
101 管理サーバ
102 サーバ
103 ディスクアレイ装置
104 FCSW
105 NWSW
110 フェイルオーバ機構
120 HBA
121 NIC
122 BMC
130 ディスクマッピング機構
131 ディスク
140 パーティション機構。

Claims (12)

  1. 複数のサーバがネットワークを介して外部ディスク装置に接続され、該サーバの各々は該
    外部ディスク装置からオペレーションシステムをブートすることで起動可能となる計算機
    システムにおいて、業務を稼動している現用サーバの障害発生時に、該計算機システム内
    の他のサーバへと業務処理を引き継ぐフェイルオーバ方法であって、
    前記現用サーバの障害発生を検知するステップと、前記現用サーバと同じサーバ構成情報を有するサーバであって業務を稼動していない状態のサーバを、サーバと対応付けてサーバの構成情報とサーバの状態を記録した記録手段から検索する検索ステップと、前記検索ステップにより発見した前記現用サーバを引き継ぐサーバから該外部ディスク装置へのアクセスを可能とするステップと、前記発見したサーバを該外部ディスク装置からブートするステップを有することを特徴とするフェイルオーバ方法。
  2. 前記検索ステップでは、更に、前記現用サーバに対応して検索ポリシーを記録したテーブルを参照し、該テーブルの検索ポリシーに従って前記現用サーバを引き継ぐべきサーバを前記記録手段から検索することを特徴とする請求項1のフェイルオーバ方
  3. 前記検索ステップでは、前記記録手段のサーバ構成情報にサーバの接続先ネットワークスイッチが含まれており、前記現用サーバの接続先ネットワークスイッチと同じスイッチを接続先とするサーバであることを引き継ぎ先のサーバの検索条件とすることを特徴とする請求項1のフェイルオーバ方法。
  4. ネットワークを介して外部ディスク装置と接続され、各々が該外部ディスク装置からオペ
    レーションシステムをブートすることで起動可能となる複数のサーバと、該複数のサーバ
    の各々を、それぞれが1台のサーバか、もしくは複数台のサーバで構成される一つの論理サーバとして機能するように管理するパーティション管理機構を備えた管理サーバとを有する計算機システムにおいて、ある業務を稼動している現用サーバの障害発生時に他のサーバに業務処理を引き継ぐフェイルオーバ方法であって、
    前記現用サーバの障害発生を検知するステップと、
    前記サーバの状態と前記論理サーバを構成するサーバの台数を記録手段に記録しておき、前記計算機システム内のサーバの中から、業務を稼動中でなく、且つ前記現用サーバが属する論理サーバを構成するサーバの台数と同じサーバの台数を構成する別の論理サーバを現に構成しているサーバの組を前記記録手段に基づいて検索する第1の検索ステップと、
    前記第1の検索の結果発見したサーバの組から構成される論理サーバを引き継ぎ先の論理サーバとして構成するステップと、
    前記検索の結果発見したサーバの組の各サーバから前記外部ディスク装置へのアクセスを可能にするステップと、前記発見したサーバの組の各サーバを前記外部ディスク装置からブートするステップを有することを特徴とするフェイルオーバ方法。
  5. 前記第1の検索ステップで該当するサーバの組が発見されない場合には、業務を稼動中で
    なく、且つ前記現用サーバが属す論理サーバを構成するサーバ台数と同じ台数の論理サーバを構成可能なサーバの組を検索する第2の検索ステップ、前記第2の検索ステップで発見されたサーバの組を一つの論理サーバとするステップをさらに有する請求項4のフェイルオーバ方法。
  6. 前記検索ステップにおいて、前記記録手段にはサーバにおける業務の優先度を記録しておき、前記現用サーバで稼動していた業務より低い優先度の業務が稼動するサーバを引継ぎサーバとして検索することを特徴とする請求項1のフェイルオーバ方法。
  7. 複数の仮想ネットワークを構築可能なスイッチを経由して複数のサーバが外部ディスク装置に接続され、該サーバの各々は該外部ディスク装置からオペレーションシステムをブートすることで起動可能となる計算機システムにおいて、業務を稼動している現用サーバの障害発生時に、該計算機システム内の他のサーバへと業務処理を引き継ぐフェイルオーバ方法であって、
    前記現用サーバの障害発生を検知するステップと、
    前記現用サーバと同じサーバの構成情報を有したサーバであって業務を稼動していない状態のサーバを、サーバと対応付けてサーバの構成情報とサーバの状態を記録した記録手段から検索する検索ステップと、
    前記検索の結果発見したサーバを前記現用サーバと同じ仮想ネットワークに属するように前記スイッチの設定を変更するステップとを有することを特徴とするフェイルオーバ方法。
  8. ネットワークを介して外部ディスク装置に接続され、各々が該外部ディスク装置からオペ
    レーションシステムをブートすることで起動可能になる複数のサーバと、
    該複数のサーバを管理する管理サーバとを有し、
    前記管理サーバには、
    前記サーバと対応付けてサーバの構成情報とサーバの状態を記録するサーバ管理テーブル、
    ある業務を稼動している前記複数のサーバの内の現用サーバの障害発生の検出を契機に、
    前記現用サーバと同じサーバの構成情報を有したサーバであって業務を稼動していない状態のサーバを前記サーバ管理テーブルから検索するサーバ検索手段、および前記サーバ検索手段の検索したサーバに前記現用サーバが利用していた外部ディスクをマッピングするよう前記外部ディスク装置に要求するマッピング変更手段、
    を備えるフェイルオーバ機構を有する計算機システム。
  9. 前記サーバ検索手段は、更に、前記現用サーバに対応して検索ポリシーを記録したポリシーテーブルを有し、該検索ポリシーテーブルの検索ポリシーに従って前記現用サーバを引き継ぐべきサーバを前記サーバ管理テーブルから検索することを特徴とする請求項8の計算機システム。
  10. 前記サーバ検索手段は、前記記憶手段のサーバ構成情報にサーバの接続先ネットワークスイッチが含まれており、前記現用サーバの接続先ネットワークスイッチと同じスイッチを接続先とするサーバであることを引き継ぎ先のサーバの検索条件とすることを特徴とする請求項8の計算機システム。
  11. ネットワークを介して外部ディスク装置に接続され、各々が該外部ディスク装置からオペ
    レーションシステムをブートすることで起動可能になる複数のサーバと、
    前記複数のサーバの各々を、それぞれが1台のサーバか、もしくは複数台のサーバで構成される一つの論理サーバとして機能させるパーティション機構と、
    該複数のサーバを管理する管理サーバとを有し、
    前記管理サーバには、
    前記サーバに対応して前記論理サーバを構成するサーバの台数とサーバの状態を記録するサーバ管理テーブル、
    前記複数のサーバの内のある業務を稼動してい現用サーバの障害発生の検出を契機に、前記現用サーバが属する論理サーバを構成するサーバの台数と同じサーバ台数を構成する別の論理サーバを現に構成するとともに、業務を稼動していないサーバの組を検索するサーバ検索手段、および
    前記サーバ検索手段の検索したサーバに前記現用サーバが利用していた外部ディスクをマ
    ッピングするよう前記外部ディスク装置に要求するマッピング変更手段、
    を備えるフェイルオーバ機構を有する計算機システム。
  12. 前記管理サーバには、前記論理サーバを構成することが可能なサーバの組み合わせを示すテーブルを参照して、業務を稼動しておらず、かつ前記現用サーバが属す論理サーバを構成するサーバ台数と同じ台数の論理サーバを構成可能なサーバの組を検索する第2の検索手段と、検索の結果見つかったサーバの組で一つの論理サーバを構成するように前記パーティション機構にパーティション構成の変更を要求する手段を更に有することを特徴とする請求項11の計算機システム。
JP2004356159A 2004-12-09 2004-12-09 ディスク引き継ぎによるフェイルオーバ方法 Active JP4462024B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004356159A JP4462024B2 (ja) 2004-12-09 2004-12-09 ディスク引き継ぎによるフェイルオーバ方法

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
JP2004356159A JP4462024B2 (ja) 2004-12-09 2004-12-09 ディスク引き継ぎによるフェイルオーバ方法
US11/033,724 US7549076B2 (en) 2004-12-09 2005-01-13 Fail over method through disk take over and computer system having fail over function
US11/830,207 US7346800B2 (en) 2004-12-09 2007-07-30 Fail over method through disk take over and computer system having failover function
US12/153,315 US7516353B2 (en) 2004-12-09 2008-05-16 Fall over method through disk take over and computer system having failover function
US12/434,800 US8069368B2 (en) 2004-12-09 2009-05-04 Failover method through disk takeover and computer system having failover function
US13/279,365 US8312319B2 (en) 2004-12-09 2011-10-24 Failover method through disk takeover and computer system having failover function
US13/645,623 US8601314B2 (en) 2004-12-09 2012-10-05 Failover method through disk take over and computer system having failover function

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2009173842A Division JP4877368B2 (ja) 2009-07-27 2009-07-27 ディスク引き継ぎによるフェイルオーバ方法

Publications (2)

Publication Number Publication Date
JP2006163963A JP2006163963A (ja) 2006-06-22
JP4462024B2 true JP4462024B2 (ja) 2010-05-12

Family

ID=36613193

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004356159A Active JP4462024B2 (ja) 2004-12-09 2004-12-09 ディスク引き継ぎによるフェイルオーバ方法

Country Status (2)

Country Link
US (6) US7549076B2 (ja)
JP (1) JP4462024B2 (ja)

Families Citing this family (84)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1814027A4 (en) * 2004-10-18 2009-04-29 Fujitsu Ltd PROGRAM, METHOD AND INSTALLATION FOR OPERATIONAL MANAGEMENT
DE602004027424D1 (de) * 2004-10-18 2010-07-08 Fujitsu Ltd Operationsverwaltungsprogramm, operationsverwaltun
JP4734259B2 (ja) * 2004-10-18 2011-07-27 富士通株式会社 運用管理プログラム、運用管理方法および運用管理装置
JP4462024B2 (ja) 2004-12-09 2010-05-12 株式会社日立製作所 ディスク引き継ぎによるフェイルオーバ方法
JP4516439B2 (ja) * 2005-02-01 2010-08-04 富士通株式会社 中継プログラム、中継方法および中継装置
JP2006253900A (ja) * 2005-03-09 2006-09-21 Hitachi Ltd Ipアドレス引き継ぎ方法、ipアドレスアドレス引き継ぎプログラム、サーバおよびネットワークシステム
JP4831599B2 (ja) * 2005-06-28 2011-12-07 ルネサスエレクトロニクス株式会社 処理装置
US7937616B2 (en) * 2005-06-28 2011-05-03 International Business Machines Corporation Cluster availability management
ITMI20051358A1 (it) * 2005-07-15 2007-01-16 Babel S R L Dispositivo di condivisione degli astati in un sistema informatico ad alta affidabilita'
JP4701929B2 (ja) 2005-09-02 2011-06-15 株式会社日立製作所 ブート構成変更方法、管理サーバ、及び計算機システム
JP4322240B2 (ja) * 2005-09-15 2009-08-26 株式会社日立製作所 再起動方法、システム及びプログラム
JP4920391B2 (ja) * 2006-01-06 2012-04-18 株式会社日立製作所 計算機システムの管理方法、管理サーバ、計算機システム及びプログラム
JP4414399B2 (ja) * 2006-01-30 2010-02-10 富士通株式会社 ディスク制御装置
US20070233865A1 (en) * 2006-03-30 2007-10-04 Garbow Zachary A Dynamically Adjusting Operating Level of Server Processing Responsive to Detection of Failure at a Server
US7496579B2 (en) * 2006-03-30 2009-02-24 International Business Machines Corporation Transitioning of database service responsibility responsive to server failure in a partially clustered computing environment
US7613742B2 (en) * 2006-05-02 2009-11-03 Mypoints.Com Inc. System and method for providing three-way failover for a transactional database
WO2008004275A1 (fr) * 2006-07-04 2008-01-10 Fujitsu Limited Programme, procédé et dispositif de reprise sur sinistre
US7747898B1 (en) 2006-09-19 2010-06-29 United Services Automobile Association (Usaa) High-availability data center
US7685465B1 (en) * 2006-09-19 2010-03-23 United Services Automobile Association (Usaa) High-availability data center
JP5068056B2 (ja) 2006-10-11 2012-11-07 株式会社日立製作所 障害回復方法、計算機システム及び管理サーバ
US7739546B1 (en) * 2006-10-20 2010-06-15 Netapp, Inc. System and method for storing and retrieving file system log information in a clustered computer system
JP2008129869A (ja) * 2006-11-21 2008-06-05 Nec Computertechno Ltd サーバ監視操作システム
JP4923990B2 (ja) * 2006-12-04 2012-04-25 株式会社日立製作所 フェイルオーバ方法、およびその計算機システム。
US7930529B2 (en) * 2006-12-27 2011-04-19 International Business Machines Corporation Failover of computing devices assigned to storage-area network (SAN) storage volumes
US8700575B1 (en) * 2006-12-27 2014-04-15 Emc Corporation System and method for initializing a network attached storage system for disaster recovery
US20080162984A1 (en) * 2006-12-28 2008-07-03 Network Appliance, Inc. Method and apparatus for hardware assisted takeover
US20080190642A1 (en) * 2007-02-12 2008-08-14 Allen John C Cable for Stringed Musical Instruments
US7711979B2 (en) * 2007-02-16 2010-05-04 Symantec Corporation Method and apparatus for flexible access to storage facilities
JP4863905B2 (ja) * 2007-03-02 2012-01-25 株式会社日立製作所 ストレージ利用排他方式
JP2008276320A (ja) * 2007-04-25 2008-11-13 Nec Corp 仮想システム制御方法およびコンピュータシステム
JP4842210B2 (ja) 2007-05-24 2011-12-21 株式会社日立製作所 フェイルオーバ方法、計算機システム、管理サーバ及び予備サーバの設定方法
JP4744480B2 (ja) * 2007-05-30 2011-08-10 株式会社日立製作所 仮想計算機システム
US20090083586A1 (en) * 2007-09-24 2009-03-26 General Electric Company Failure management device and method
US9258360B2 (en) * 2007-11-07 2016-02-09 International Business Machines Corporation Intelligent disaster recovery for database connection failures
JP4448878B2 (ja) 2007-12-06 2010-04-14 株式会社日立製作所 障害回復環境の設定方法
JP5526784B2 (ja) * 2007-12-26 2014-06-18 日本電気株式会社 縮退構成設計システムおよび方法
US8719624B2 (en) 2007-12-26 2014-05-06 Nec Corporation Redundant configuration management system and method
US10572188B2 (en) 2008-01-12 2020-02-25 Hewlett Packard Enterprise Development Lp Server-embedded distributed storage system
KR101478621B1 (ko) * 2008-01-15 2015-01-02 삼성전자주식회사 UPnP 네트워크에 다중으로 원격 접속 서비스를제공하는 UPnP 장치 및 그 방법
JP2009259200A (ja) * 2008-03-17 2009-11-05 Fujitsu Ltd データ処理装置、データ処理方法およびデータ処理プログラム
JP5332257B2 (ja) * 2008-03-26 2013-11-06 日本電気株式会社 サーバシステム、サーバ管理方法、およびそのプログラム
JP4802207B2 (ja) * 2008-04-23 2011-10-26 株式会社日立製作所 情報処理システムの制御方法、情報処理システム、およびプログラム
JP4659062B2 (ja) * 2008-04-23 2011-03-30 株式会社日立製作所 フェイルオーバ方法、プログラム、管理サーバおよびフェイルオーバシステム
US8161315B2 (en) * 2008-04-30 2012-04-17 International Business Machines Corporation Implementation of sparing policies for servers
JP5286942B2 (ja) * 2008-05-30 2013-09-11 富士通株式会社 制御方法、制御プログラム及び情報処理装置
US8706878B1 (en) 2008-08-21 2014-04-22 United Services Automobile Association Preferential loading in data centers
JP4572250B2 (ja) 2008-09-11 2010-11-04 株式会社日立製作所 計算機切り替え方法、計算機切り替えプログラム及び計算機システム
JP4648447B2 (ja) 2008-11-26 2011-03-09 株式会社日立製作所 障害復旧方法、プログラムおよび管理サーバ
JP4727714B2 (ja) * 2008-12-05 2011-07-20 株式会社日立製作所 サーバのフェイルオーバの制御方法及び装置、並びに計算機システム群
JP5286135B2 (ja) * 2009-03-31 2013-09-11 富士通エフ・アイ・ピー株式会社 コンピュータ機能の災害対応移行システムと方法、同方法を実行させるコンピュータプログラムおよび同コンピュータプログラムを格納した記憶媒体
US8359380B2 (en) * 2009-08-31 2013-01-22 Red Hat Israel, Ltd. Configuring a host using configuration parameters of another host
US20110231602A1 (en) * 2010-03-19 2011-09-22 Harold Woods Non-disruptive disk ownership change in distributed storage systems
JP2012018556A (ja) * 2010-07-08 2012-01-26 Hitachi Ltd 計算機システム及び計算機システムの系切替制御方法
US8614958B2 (en) * 2010-07-14 2013-12-24 Fujitsu Limited Systems and methods of snooping connectivity fault messages to configure maintenance end point for alarm suppression messages
JP5845571B2 (ja) * 2010-11-30 2016-01-20 富士通株式会社 計算システムおよび計算システム管理方法
US8468383B2 (en) * 2010-12-08 2013-06-18 International Business Machines Corporation Reduced power failover system
CA2820865A1 (en) * 2010-12-10 2012-06-14 Nec Corporation Server management apparatus, server management method, and program
CN102571478B (zh) * 2010-12-31 2016-05-25 上海宽惠网络科技有限公司 服务器
JP5637873B2 (ja) 2011-01-19 2014-12-10 株式会社日立製作所 計算機システムおよびpciカードのhba識別子引き継ぎ方式
JP5266347B2 (ja) * 2011-01-31 2013-08-21 株式会社日立製作所 引継方法、計算機システム及び管理サーバ
WO2012131761A1 (ja) * 2011-03-28 2012-10-04 富士通株式会社 情報処理システム及び情報処理システムの処理方法
US8782464B2 (en) * 2011-03-31 2014-07-15 International Business Machines Corporation Method and system for using a standby server to improve redundancy in a dual-node data storage system
JP5505380B2 (ja) * 2011-07-11 2014-05-28 富士通株式会社 中継装置及び中継方法
JP5321658B2 (ja) * 2011-08-26 2013-10-23 株式会社日立製作所 フェイルオーバ方法、およびその計算機システム。
US20130151888A1 (en) * 2011-12-12 2013-06-13 International Business Machines Corporation Avoiding A Ping-Pong Effect On Active-Passive Storage
US8938639B1 (en) * 2012-02-24 2015-01-20 Symantec Corporation Systems and methods for performing fast failovers
US20130304901A1 (en) * 2012-05-11 2013-11-14 James Malnati Automated integration of disparate system management tools
US8954783B2 (en) 2012-06-28 2015-02-10 Microsoft Technology Licensing, Llc Two-tier failover service for data disaster recovery
JP5422705B2 (ja) * 2012-07-06 2014-02-19 株式会社日立製作所 仮想計算機システム
JP5422706B2 (ja) * 2012-07-06 2014-02-19 株式会社日立製作所 管理システム
US9742674B1 (en) * 2012-08-15 2017-08-22 F5 Networks, Inc. Methods for distributed application visibility and reporting and devices thereof
US20140250319A1 (en) * 2013-03-01 2014-09-04 Michael John Rieschl System and method for providing a computer standby node
WO2014141462A1 (ja) * 2013-03-15 2014-09-18 株式会社日立製作所 計算機切替方法、計算機システム、及び管理計算機
US9792189B2 (en) * 2013-09-12 2017-10-17 Hitachi, Ltd. Server system, computer system, method for managing server system, and computer-readable storage medium
US9727357B2 (en) * 2013-10-01 2017-08-08 International Business Machines Corporation Failover detection and treatment in checkpoint systems
WO2015114816A1 (ja) * 2014-01-31 2015-08-06 株式会社日立製作所 管理計算機および管理プログラム
JP5744259B2 (ja) * 2014-02-20 2015-07-08 株式会社日立製作所 サーバ切り替え方法、サーバシステム、及び管理計算機
US9553767B2 (en) 2014-02-25 2017-01-24 Red Hat Israel, Ltd. Host connectivity templates to configure host of virtual machines
US9804937B2 (en) * 2014-09-08 2017-10-31 Quanta Computer Inc. Backup backplane management control in a server rack system
US10825006B2 (en) * 2014-12-18 2020-11-03 Ncr Corporation Device-to-device claim staking
US10505818B1 (en) 2015-05-05 2019-12-10 F5 Networks. Inc. Methods for analyzing and load balancing based on server health and devices thereof
US10579486B2 (en) * 2016-01-08 2020-03-03 Hitachi, Ltd. Integrated platform, server and failover method
US10089028B2 (en) * 2016-05-27 2018-10-02 Dell Products L.P. Remote secure drive discovery and access
CN109725828A (zh) * 2017-10-27 2019-05-07 阿里巴巴集团控股有限公司 磁盘恢复方法及设备

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3189903B2 (ja) * 1991-06-03 2001-07-16 富士通株式会社 ケーパビリティの退避・復元機構を持つ装置
US6446224B1 (en) * 1995-03-03 2002-09-03 Fujitsu Limited Method and apparatus for prioritizing and handling errors in a computer system
US6715100B1 (en) * 1996-11-01 2004-03-30 Ivan Chung-Shung Hwang Method and apparatus for implementing a workgroup server array
US6802062B1 (en) * 1997-04-01 2004-10-05 Hitachi, Ltd. System with virtual machine movable between virtual machine systems and control method
US5996086A (en) * 1997-10-14 1999-11-30 Lsi Logic Corporation Context-based failover architecture for redundant servers
JPH11126195A (ja) 1997-10-22 1999-05-11 Mitsubishi Electric Corp 分散システム
JP3062155B2 (ja) 1998-07-31 2000-07-10 三菱電機株式会社 計算機システム
JP4123621B2 (ja) 1999-02-16 2008-07-23 株式会社日立製作所 主記憶共有型マルチプロセッサシステム及びその共有領域設定方法
JP2001155003A (ja) 1999-11-30 2001-06-08 Ntt Comware Corp サービス復旧システムおよびその記録媒体
US7093004B2 (en) * 2002-02-04 2006-08-15 Datasynapse, Inc. Using execution statistics to select tasks for redundant assignment in a distributed computing platform
JP2002259355A (ja) 2001-02-28 2002-09-13 Hitachi Ltd 多重系システム
CN1290008C (zh) 2001-04-20 2006-12-13 伊金耐勒股份有限公司 在处理系统中虚拟连网的系统及方法
US6922791B2 (en) * 2001-08-09 2005-07-26 Dell Products L.P. Failover system and method for cluster environment
US20040202013A1 (en) 2001-09-21 2004-10-14 Polyserve, Inc. System and method for collaborative caching in a multinode system
US20030126242A1 (en) * 2001-12-28 2003-07-03 Chang Albert H. Network boot system and method using remotely-stored, client-specific boot images created from shared, base snapshot image
JP2003203018A (ja) 2002-01-07 2003-07-18 Mitsubishi Electric Corp Sanを用いた擬似クラスタシステム
US7213246B1 (en) * 2002-03-28 2007-05-01 Veritas Operating Corporation Failing over a virtual machine
JP4119162B2 (ja) * 2002-05-15 2008-07-16 株式会社日立製作所 多重化計算機システム、論理計算機の割当方法および論理計算機の割当プログラム
JP2004032103A (ja) 2002-06-21 2004-01-29 Ntt Docomo Tokai Inc ネットワークシステム及びサーバ切り替え方法
US7178059B2 (en) * 2003-05-07 2007-02-13 Egenera, Inc. Disaster recovery for processing resources using configurable deployment platform
JP3737810B2 (ja) * 2003-05-09 2006-01-25 株式会社東芝 計算機システム及び故障計算機代替制御プログラム
US7287186B2 (en) * 2003-06-02 2007-10-23 Surgient Inc. Shared nothing virtual cluster
US7543174B1 (en) * 2003-09-24 2009-06-02 Symantec Operating Corporation Providing high availability for an application by rapidly provisioning a node and failing over to the node
US7185223B2 (en) * 2003-09-29 2007-02-27 International Business Machines Corporation Logical partitioning in redundant systems
US7146497B2 (en) * 2003-09-30 2006-12-05 International Business Machines Corporation Scalability management module for dynamic node configuration
JP4462969B2 (ja) * 2004-03-12 2010-05-12 株式会社日立製作所 フェイルオーバクラスタシステム及びフェイルオーバ方法
JP2005301442A (ja) * 2004-04-07 2005-10-27 Hitachi Ltd ストレージ装置
US20060015773A1 (en) * 2004-07-16 2006-01-19 Dell Products L.P. System and method for failure recovery and load balancing in a cluster network
DE602004027424D1 (de) * 2004-10-18 2010-07-08 Fujitsu Ltd Operationsverwaltungsprogramm, operationsverwaltun
JP4462024B2 (ja) 2004-12-09 2010-05-12 株式会社日立製作所 ディスク引き継ぎによるフェイルオーバ方法
US7840839B2 (en) * 2007-11-06 2010-11-23 Vmware, Inc. Storage handling for fault tolerance in virtual machines

Also Published As

Publication number Publication date
US20080235533A1 (en) 2008-09-25
JP2006163963A (ja) 2006-06-22
US20120042069A1 (en) 2012-02-16
US20060143498A1 (en) 2006-06-29
US8312319B2 (en) 2012-11-13
US20130047027A1 (en) 2013-02-21
US8601314B2 (en) 2013-12-03
US7346800B2 (en) 2008-03-18
US7549076B2 (en) 2009-06-16
US8069368B2 (en) 2011-11-29
US20090217083A1 (en) 2009-08-27
US20070260913A1 (en) 2007-11-08
US7516353B2 (en) 2009-04-07

Similar Documents

Publication Publication Date Title
JP4462024B2 (ja) ディスク引き継ぎによるフェイルオーバ方法
US8423816B2 (en) Method and computer system for failover
JP4939102B2 (ja) ネットワークブート計算機システムの高信頼化方法
JP5068056B2 (ja) 障害回復方法、計算機システム及び管理サーバ
US7657786B2 (en) Storage switch system, storage switch method, management server, management method, and management program
JP4701929B2 (ja) ブート構成変更方法、管理サーバ、及び計算機システム
JP5316616B2 (ja) 業務引き継ぎ方法、計算機システム、及び管理サーバ
JP2009265805A (ja) フェイルオーバ方法、プログラム、フェイルオーバ装置およびフェイルオーバシステム
JPWO2006043308A1 (ja) 運用管理プログラム、運用管理方法および運用管理装置
JPWO2006043309A1 (ja) 運用管理プログラム、運用管理方法および運用管理装置
JP2004088570A (ja) ネットワーク計算機システムおよび管理装置
JP5267544B2 (ja) ディスク引き継ぎによるフェイルオーバ方法
JP5266347B2 (ja) 引継方法、計算機システム及び管理サーバ
JP5131336B2 (ja) ブート構成変更方法
JP4877368B2 (ja) ディスク引き継ぎによるフェイルオーバ方法
JP5484434B2 (ja) ネットワークブート計算機システム、管理計算機、及び計算機システムの制御方法
JP2011060317A (ja) 運用管理プログラム、運用管理方法および運用管理装置

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060425

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071017

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090513

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090526

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090727

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100126

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100208

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130226

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4462024

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130226

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140226

Year of fee payment: 4