JP2007207219A - 計算機システムの管理方法、管理サーバ、計算機システム及びプログラム - Google Patents

計算機システムの管理方法、管理サーバ、計算機システム及びプログラム Download PDF

Info

Publication number
JP2007207219A
JP2007207219A JP2006329366A JP2006329366A JP2007207219A JP 2007207219 A JP2007207219 A JP 2007207219A JP 2006329366 A JP2006329366 A JP 2006329366A JP 2006329366 A JP2006329366 A JP 2006329366A JP 2007207219 A JP2007207219 A JP 2007207219A
Authority
JP
Japan
Prior art keywords
computer system
computer
failure
performance
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006329366A
Other languages
English (en)
Other versions
JP4920391B2 (ja
Inventor
Toru Kawashima
徹 河島
Nobuo Kawamura
信男 河村
Norihiro Hara
憲宏 原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2006329366A priority Critical patent/JP4920391B2/ja
Priority to US11/620,179 priority patent/US7797572B2/en
Publication of JP2007207219A publication Critical patent/JP2007207219A/ja
Application granted granted Critical
Publication of JP4920391B2 publication Critical patent/JP4920391B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2046Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share persistent storage
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2041Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with more than one idle spare processing component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3433Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment for load management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/81Threshold
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/815Virtual
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/88Monitoring involving counting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/885Monitoring specific for caches

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)

Abstract

【課題】1つの実行系ノードに対して1つの待機系ノードを必要とすることなく、かつ障害の要因に対応した計算機の系切り替え制御方式を提供する。
【解決手段】n個の実行系ノード200に対して異なる特性(CPU性能、I/O性能、通信性能など)をもつm個の待機系ノード300を用意しておく。m個の待機系ノード300は障害の要因ごとに切り替え対象とする優先度を予め登録しておく。1つの実行系ノード200に障害が発生した場合、障害の要因を取り除ける待機系ノード300をm個の待機系ノードの中から選択することで、データ処理を引き継ぐ。
【選択図】図2

Description

本発明は計算機システムのデータ処理技術に関わり、特に、系切り替え機能を有するデータベース管理システムに適用可能な技術に関するものである。
データベース管理システム(以下、DBMS)では、システムの信頼性向上と稼動率向上を目的として、障害発生時の影響の局所化と迅速なシステム回復が重要である。従来より、DBMSでは、障害発生時の迅速なシステム回復のために、サービス実行用の実行系ノードとは別に待機系ノードを用意し、障害発生時には実行系ノードから待機系ノードにサービスの実行を切り替える「系切り替え」という技術が用いられてきた。
DBMSの障害対策としては、システム構成によってホットスタンバイ無停止運用を行う技術が知られている(例えば、非特許文献1)。
一方、データベース処理負荷を複数のプロセッサに分散させ実行するアーキテクチャも知られており、例えば、非特許文献2に開示されている。上記従来技術にはShared Everything, Shared Disk(共用型)アーキテクチャが開示されており、この種のシステムではDB処理を行う全てのノードが全てのディスクにアクセス可能であり、Shared Nothing(非共用型)アーキテクチャでは各ノードに接続されたディクスに格納されたデータのみにアクセス可能である。
上記従来技術において、任意のノードで障害が発生している場合、予め決められた待機系ノードに対して系切り替えをするために、実行系ノードに対して1:1で予備系ノードを用意するサーバープール等が知られている。しかし、近年のブレードサーバの登場と相まって、ハードウェア的なノードの追加や構成変更が容易になってきており、ブレードの追加時にシステムに存在するノードを有効利用することができるソフトウェア技術が注目されている。
「Transaction Processing: Concepts and Techniques」、Jim Gray、Andreas Reuter 著、Morgan Kaufmann Publishers、1992年発行、第646頁〜第648頁、第925頁〜第927頁 「Parallel Database Systems: The Future of High Performance Database Systems」、David DeWitt、Jim Gray 著、COMMUNICATIONS OF THE ACM, Vol.35, N06, 1992年発行, 第85頁〜第98頁
上記系切り替え機能を持つシステムでは、1つの実行系ノードに対して別に同等性能を持つ待機系ノードを用意する必要があり、複数ノードで稼動しているDBMSではノードの数だけの待機系ノードが必要となる。通常のサービス実行時には待機系ノードは遊んでいる状態であり、通常未稼動状態である待機専用のリソース(プロセッサやメモリなど)を必要とするシステムにおいては通常時にリソースを有効に利用できておらず、システム構築・運用におけるTCO(Total Cost of Ownership)削減の観点で問題である。
また、系切り替えが発生する障害の要因にはハードウェア障害や処理負荷が増大したためにシステムが極端に遅くなるといった性能障害など様々なものがある。障害の要因がハードウェア障害のような場合には単純に待機系ノードに系を切り替えることによって障害要因は取り除かれることとなるが、処理負荷増大による性能障害の場合、系を切り替えたとしても、切り替えた先の待機系ノードでもまた性能障害に陥るという問題がある。
本発明の目的は上記問題を解決し、前述のような1つの実行系ノードに対して1つの待機系ノードを必要とすることなく、かつ障害の要因に対応した計算機の系切り替え制御方式を提供することを目的とする。
本発明は、業務を実行する複数の計算機を備えた第1の計算機システムと、複数の計算機を備えた第2の計算機システムと、を備えて、前記第1の計算機システムの計算機に障害が発生したときには、前記第2の計算機システムの計算機に第1の計算機システムの計算機で実行していた業務を引き継ぐ計算機システムの管理方法であって、前記第1の計算機システムを構成する計算機に障害が発生したことを検知し、前記発生した障害の要因と、前記第2の計算機システムを構成する計算機の性能に関する性能情報に基づいて、前記第2の計算機システムの中から前記障害を回復可能な計算機を選択し、前記選択した第2の計算機システムの計算機に、前記障害が発生した第1の計算機システムの計算機で実行していた業務を引き継ぐ。
また、前記第2の計算機システムを構成する計算機の数は、前記第1の計算機システムを構成する計算機の数よりも少ない。
また、業務を実行する複数の計算機を備えた第1の計算機システムと、複数の計算機を備えた第2の計算機システムと、を備えて、前記第1の計算機システムの計算機に障害が発生したときには、前記第2の計算機システムの計算機に第1の計算機システムの計算機で実行していた業務を引き継ぐ計算機システムの管理方法であって、前記第1の計算機システムの計算機毎の稼働状態を示す稼動情報を収集し、前記稼動情報に基づいて、前記第1の計算機システムを構成する計算機に障害が発生したことを検知して、前記稼動情報に基づいて前記発生した障害の要因を検出し、前記第2の計算機システムを構成する計算機の性能に関する性能情報を取得し、前記障害の要因と前記性能情報に基づいて前記障害を回復可能な計算機の性能情報を演算し、前記演算した性能情報に基づいて前記第2の計算機システムを構成する計算機の性能を変更し、前記性能を変更した第2の計算機システムの計算機を第1の計算機システムの引き継ぎ先として選択して、前記選択した第2の計算機システムの計算機に、前記障害が発生した第1の計算機システムの計算機で実行していた業務を引き継ぐ。
したがって、本発明は、n個の実行系ノード(第1の計算機システムの計算機)に対してm(<n)個の待機系ノード(第2の計算機システムの計算機)だけを用意することで、1つの実行系ノードに対して1つの特定の待機系ノードを割り当てずに、障害が発生した時にm個の待機系の中から障害の要因に応じた適切なものを選択することによって、遊んでいる状態の待機系ノードの運用コストを減少することができる。
また、m個の待機系ノードに障害の要因に対応した特性をもつノードを用意しておくことで、系切り替えが発生した時に系切り替え(引き継ぎ)後に同じ障害要因が発生しないようにできる。
さらに、障害の内容に応じた性能の待機系ノードの計算機を選択してデータベースを引き継ぐことができ、実行系ノードを引き継ぐ待機系ノードの計算機の性能が過剰になるのを防ぐことができる。
以下、本発明を実施するための最良の形態を図面に基づいて詳細に説明する。
<第1実施形態>
図1は、第1の実施形態を示し、本発明を適用する計算機システムのハードウェア構成を示すブロック図である。
図1において、ネットワーク410には、業務を提供する実行系ノード200を構成するサーバ420と、実行系ノード200に障害が発生したときに業務を引き継ぐ予備系(待機系)ノード300のサーバ430と、これら実行系ノード200と予備系ノード300を管理する管理サーバ100と、実行系ノード200にアクセスするクライアントコンピュータ150が接続されている。なお、ネットワーク410は、例えば、IPネットワークで構成される。また、業務はデータベース管理システムやアプリケーションあるいはサービスなどで構成される。
管理サーバ100は、演算処理を行うCPU101と、プログラムやデータを格納するメモリ102と、ネットワーク410を介して他の計算機と通信を行うネットワークインターフェース103を備える。なお、CPUはホモジニアス・プロセッサに限定されるものではなく、ヘテロジニアス・プロセッサで構成することができる。
実行系ノード200は、1つまたは複数のサーバ420から構成される。サーバ420は、演算処理を行うCPU421と、データベースの処理を行うプログラムやデータを格納するメモリ422と、ネットワーク410を介して他の計算機と通信を行う通信制御装置423と、SAN(Storage Area Network)405を介してストレージ装置406にアクセスを行うI/O制御装置(ホストバスアダプタ)424を備える。
予備系ノード300は、実行系ノードと同様に、1つまたは複数のサーバ430から構成される。但し、実行系ノード200のサーバ420の総数に比して予備系ノード300のサーバ430の総数は少なく設定される。
サーバ430は、演算処理を行うCPU431と、データベースの処理を行うプログラムやデータを格納するメモリ432と、ネットワーク410を介して他の計算機と通信を行う通信制御装置433と、SAN(Storage Area Network)405を介してストレージ装置406にアクセスを行うI/O制御装置434を備える。
ストレージ装置406は複数のディスクドライブを備え、実行系ノード200と予備系ノード300からアクセス可能な記憶領域としてボリューム407が設定される。このボリューム407に後述するデータベース400が格納される。
図2は、図1の計算機システムで実行されるデータベース管理システムのソフトウェア構成を示すブロック図である。この例では、障害発生時に障害の要因に対応したDBアクセス処理を再開可能なデータベースシステムの構成を示すものである。本実施形態では、ネットワーク410で接続された1台以上のサーバ420と1台以上のサーバ430と管理サーバ100、及びサーバ420とサーバ430に接続されたデータベース400で実現されている。
実行系ノード200の各サーバ420では、自身の障害の有無を検知する障害検知部210と、クライアントコンピュータ150からの要求に応じて、ストレージ装置406のボリューム407に格納されたデータベース400に対して参照または更新を行うデータベース管理システム(DBMS)220が割り当てられ、実行されている。
なお、データベース管理システム220は、ストレージ装置406のボリューム407に格納されたデータベース400を複数の分割データベースに分割し、そのおのおのに対してサーバ420を関連付けてデータ処理を行う。
予備系ノード300の各サーバ430にも、実行系ノード200のサーバ420と同様に、障害検知部310とデータベース管理システム320が割り当てられている。
実行系ノード200と予備系ノード300を管理する管理サーバ100では、各サーバ420の障害検知部210からの情報を監視し、各サーバ420の稼動状態を監視する障害監視部110と、予備系ノード300の各サーバ430を管理する予備系ノード管理部120と、実行系ノード200に障害が発生したときに、予備系ノード300でデータベース管理システムを引き継ぐサーバ430を管理する予備系ノード優先度テーブル130が割り当てられている。
図3は図2に示した構成の実行系ノード200の各機能要素をさらに詳細に示したブロック図である。図3においては、実行系ノード200のうちひとつのノードを構成するひとつのサーバ420を示している。
障害検知部210は、CPU421とI/O制御装置424と通信制御装置423及びデータベース管理システム220の状態を監視するノード状態チェック機能211を有する。ノード状態チェック機能211は、上記のデバイスまたはシステムのいずれかに異常があれば、ノード状態通達機能212から管理サーバ100に障害情報を通知するとともに、DBMS停止機能213を用いてデータベース管理システム220に停止指示を出す。
ノード状態チェック機能211は、CPU421の監視については、例えば、CPU421の利用率または負荷を検知し、利用率が所定のしきい値(例えば、99%)を超えている時間が所定時間に達した場合には負荷が過大になって障害が発生したと判定する。換言すれば、CPU421の利用率が100%の状態で所定時間を経過すると、障害が発生したと判定する。
ここで、CPU421の負荷が要因でDBMS220が動作できなくなる要因として、
・データベース400のトランザクション処理量の増大(データベース400の実行プロセスに対するCPU占有(利用)率の増大)
・データベース以外のプロセスのCPU占有率の増大
などが上げられる。
このため、ノード状態チェック機能211は、システム全体のCPU利用率、DBプロセスのCPU利用率、CPU421へのプロセスの実行待ち行列の長さ、CPU421への実行可能プロセスのスワップ待ち行列の長さまたはメッセージキューの長さなどを監視することができる。そして、ノード状態チェック機能211は、監視した値が予め設定した値を超えたとき(または所定の条件を満たしたとき)に、障害発生を判定する。なお、CPU421の利用率以外の測定値は、普段の値と比較して、増大した比率等によって障害発生を判定することができる。
また、ノード状態チェック機能211は、I/O制御装置424や通信制御装置423の監視については、スループット(転送速度や通信速度)を監視し、スループット(一定時間内のI/Oデータ量)が予め設定したしきい値未満となったときに障害が発生したと判定する。これは、純粋に、ストレージ装置406へのアクセス頻度やネットワーク410からのアクセス頻度が普段の値と比較し、増大した比率によって障害発生を判定するものである。
また、ノード状態チェック機能211は、データベース管理システム220の監視については、キャッシュメモリ(図示省略)へのバッファヒット率を監視して、測定したヒット率が予め設定したしきい値未満となったときに障害が発生したと判定する。この例も、上記と同様に、ストレージ装置406へのアクセス頻度が普段の値と比較し、増大した比率によって障害発生を判定するものである。
なお、実行系ノード200の各サーバ420のデータベース管理システム220は、各サーバ420のハードウェアやソフトウェアに関するノード情報221を保持する。このノード情報221は、例えば、CPU421の性能や数、メモリ422の容量、OSの種類、ノードの識別子(ノード名)などが含まれる。
図4は図2で示した構成の管理サーバ100の各機能要素の詳細を示すブロック図である。障害監視部110では各実行系ノード200から通知があった障害情報を障害情報収集機能111で受け取る。障害情報収集機能111は障害情報と障害が発生したノード名を予備系ノード管理部120に通知する。
予備系ノード管理部120では、予備系ノード選択機能121が予備系ノード優先度テーブル130と障害情報に基づいて系切り替え先となる予備系ノード300(サーバ430)を決定する。また、予備系ノード選択機能121は、系切り替え先として決定した予備系ノードを実行系ノード200に割り当てた後に、この予備系ノードの情報を予備系ノード優先度テーブル130から削除する。予備系ノード起動機能112は上記決定した系切り替え先の予備系ノード300に対して、系切り替え元ノードの情報とデータベース管理システム320の起動指示を行う。
図5は図2で示した構成の予備系ノード300の各機能要素の詳細を示すブロック図である。図5においては、予備系ノード300のうちひとつのノードを構成するひとつのサーバ430を示している。予備系ノード300の障害検知部310のうち、ノード状態チェック機能311、ノード状態通達機能312は、実行系ノード200のノード状態チェック機能211、ノード状態通達機能212と同様である。
障害検知部310のDBMS起動処理機能313は、管理サーバ100からデータベース管理システムの起動指示と系切り替え元のノード情報を受け取る。また、DBMS起動処理機能313は、切り換え元の実行系ノード200から取得したノード情報をデータベース管理システム320に渡すとともに、データベース管理システム320の起動指示を行う。
図6、図7は予備系ノード300が予備系ノードA、予備系ノードB、予備系ノードCで構成された場合の一例を示しており、図6は予備系ノードA〜C間の性能差を示す説明図で、図7は同じく予備系ノードを管理する予備系ノード優先度テーブル130の構成例を示す。
図6ではそれぞれの予備系ノードA〜CがもつCPU性能、I/O性能、通信性能の性能差の例である。CPU性能は予備系ノードAの性能が一番高く、予備系ノードB、予備系ノードCの順に性能が高い。I/O性能は予備系ノードCの性能が一番高く、予備系ノードA、予備系ノードBの順に性能が高くなる。通信性能は予備系ノードBの性能が一番高く、予備系ノードC、予備系ノードAの順に性能が高くなる。
図7は図6の予備系ノードの性能差を用いて作成した予備系ノード優先度テーブル130の例である。予備系ノード優先度テーブル130は、予備系ノード名(または識別子)131毎に、予備系ノード300内でのCPU性能の順位がCPU負荷132に設定され、予備系ノード300内でのI/O性能の順位がI/O負荷133に、同じく通信性能の順位が通信障害134に設定され、また、DBMSの障害時に選択すべきノード(サーバ430)の順位がDBMS障害135に格納される。なお、各項目の順位は、値が小さいほど優先度が高くなるように設定される。
ある実行系ノード200に障害が発生した場合、予備系ノード管理部120は、障害の要因に従って系切り替え先の予備系ノード300の決定を予備系ノード優先度テーブル130に基づいて行う。例えば、障害要因がCPU負荷132の場合は優先度に従い、ノードAを選択する。障害要因がI/O負荷133の場合はノードCを選択する。障害要因が通信障害134の場合はノードBを選択する。障害要因がDBMS障害135の場合はノードBを選択をする。
なお、実行系ノード200では、各サーバ420の上記各性能は均一であることが望ましい。しかしながら障害発生時には、サーバ420間で負荷が異なること場合がある。このため、予備系ノード300を構築する際には、図6、図7で示したように、サーバ430間の各性能が異なるように構成することが望ましい。また、図6において予備系ノード300を構成する各ノードA〜Cの性能の基準は、予備系ノード300の構築に要する費用に応じて設定することができる。例えば、費用に余裕がある場合では、実行系ノード200の性能を予備系ノード300の低性能とする。あるいは、予備系ノード300の構築に許容される費用が限られている場合では、実行系ノード200の性能を予備系ノード300の中間の性能とする。なお、図6、図7では、予備系ノード300を3つのノードA〜Cで構成した例を示したが、多数のノードで構成する場合では、同一の性能を備えたサーバ430が複数存在してもよい。
図8は本実施形態の実行系ノード200にて障害が発生した場合の処理手順のフローチャートである。
実行系ノード200のノード状態チェック機能211はステップ601においてCPU421の処理負荷状態、I/O制御装置424の処理負荷状態、通信制御装置423の通信負荷状態、データベース管理システム220の状態をチェックし、それぞれの状態が正常であるかをチェックする。このとき、それぞれの状態が正常であれば、一定時間ごとにステップ601を繰り返して行う。チェックしたもののうち何れかの状態に異常がある場合にはステップ602に進む。
ステップ602では、障害の要因がDBMS障害であるかどうかのチェックを行う。障害要因がDBMS障害(DBMSの停止や処理遅延)である場合は、データベース管理システム220が異常終了しているので、ステップ604に進み、管理サーバに対して障害内容を送信する。
また、ステップ602において、障害要因がDBMS障害でない場合は、データベース管理システム220自体は正常動作中であるため、ステップ603に進み、データベース管理システム220に対して停止指示を出し、データベース管理システム320を停止する。その後、ステップ604に進み、管理サーバ100に対して障害内容と、ノード情報を送信する。
図9は管理サーバ100が実行系ノード200から障害情報を受け取った場合の処理手順のフローチャートである。
管理サーバ100の障害情報収集機能111はステップ701において、実行系ノード200から障害情報を受け取る。ステップ702では予備系ノード選択機能121が予備系ノード優先度テーブル130の情報を取得して、ステップ704において、障害情報から得られた障害の要因を用いて、系の切り替え先となる予備系ノード300を決定する。ステップ705においては、決定した予備系ノード300の情報を予備系ノード優先度テーブルから削除する。次に予備系ノード起動機能112はステップ706において決定した予備系ノード300に対して、障害が発生した実行系ノードのノード情報と予備系ノードの起動通知を送信する。
図10は予備系ノード300が管理サーバ100からノード情報と起動通知を受け取った場合の処理手順のフローチャートである。
予備系ノード300のDBMS起動機能313はステップ801において、管理サーバ100から障害が発生した実行系ノード200のノード情報を受け取る。ステップ802において、受け取ったノード情報をデータベース管理システム320に転送し、データベース管理システム320は障害が発生した実行系ノード200の情報を設定する。次にステップ803において、DBMS起動機能313はデータベース管理システム320に起動指示を出し、データベース管理システム320の起動を行う。起動が完了した後、ステップ804において、障害検知機構310にノード状態チェックを開始する。ここで、予備系ノード300は実行系ノード200として系切り替えが完了する。
図11は上記図6と図7で示した予備系ノード300として予備系ノードA430A、予備系ノードB430B、予備系ノードC430Cを用意したデータベース管理システムのシステム構成を示す。ここで、データベース管理システムは、ブレードサーバ440に挿入された1台以上の実行系サーバ200と3台の予備系サーバ(430A〜C)で稼動する。
また、管理サーバ100はブレードサーバ440の外側にあるが、ブレードサーバ440に挿入されたサーバでもよい。
実行系サーバ420は通常、DBアクセス処理を行っているが任意の実行系サーバ420においてCPUに高負荷がかかった場合についての動作を説明する。
実行系サーバ420がDBアクセス処理中によってCPU421に高負荷がかかった場合、実行系サーバ420の障害検知部210がCPU421に異常が生じたと判定する。障害検知部210は障害要因がDBMS障害でないので、実行系サーバ420で稼動中のデータベース管理システム220を停止する。次に障害検知部210は実行系サーバ420で発生した障害情報を管理サーバ100に対して送信をする。
実行系ノード200からの障害情報を受け取った障害監視部110は、系切り替え先の予備系ノード300を決定するために障害情報を予備系ノード管理部120に渡す。予備系ノード管理部120では予備系ノード優先度テーブル130(図7)を参照して、障害要因がCPU負荷である場合の優先度1の予備系ノードである予備系ノードA430Aを系切り替え先として決定する。このとき、予備系ノード管理部120は予備系ノードA430Aの情報を予備系ノード優先度テーブル130から削除する。次に障害監視部110は系切り替え先に決定した予備系ノードA430Aに対して、系切り替え元の実行系ノード200のノード情報とデータベース管理システムの起動通知を予備系ノードA430Aに対して行う。
管理サーバ100からの通知を受けた予備系ノードA430Aは、受け取った系切り替え元の実行系ノード200のノード情報をデータベース管理システム320に送り、ノード情報に基づいてデータベース管理システム320の設定をした後、データベース管理システム320の起動処理を行う。データベース管理システム320は起動処理が完了した後、障害検知部310に障害監視開始の通知をする。障害検知部310は通知を受けて障害監視を開始すると、系切り替え処理が完了する。
このようにして、障害が発生した実行系ノード200から障害要因に応じた予備系ノードA300のサーバ430Aを割り当てることが可能となる。そして、予備系ノード300の各サーバ430A〜Cは、性能が異なるサーバで予備系ノード300を構成することで、実行系ノード200の障害要因の種類に応じた最適なサーバ430を引き継ぎ先として選択することが可能となる。これにより、予備系ノード300の各サーバ430A〜430Cを選択する際には、障害の要因を回復可能な所定の性能を備えたサーバ430A〜430Cを選択することで、障害からの回復を確実に行うことができる。ここで、所定の性能は、CPU性能、I/O性能、通信性能などであり、図7で示すように障害の要因別に、選択すべきサーバ430A〜430Cの相対的な優先順位が予め設定される。この障害の要因別の優先順位は、上記サーバ430A〜430Cの各種性能差に応じて予め設定したものである。
また、実行系ノード200に障害が発生したときに、全てのサーバ420に障害が発生することは希であるため、予備系(待機系)ノード300のサーバ430の数を実行系ノード200のサーバ420の数よりも少なくすることができる。これにより、予備系ノード300の構築、運用に係るコストを削減しながらも、耐障害性を高めることができる。
<第2実施形態>
図12は、第2の実施形態を示し、前記第1実施形態の障害発生の判定を行う機能を実行系ノード200のサーバ420から管理サーバ100に移したものであり、その他の構成は、前記第1実施形態と同様である。
実行系ノード200のサーバ420には、CPU421、I/O制御装置424、通信制御装置423、データベース管理システム220を監視し、稼動状態を管理サーバ100に通知するノード状態通達機能212Aが稼動する。なお、ノード状態通達機能212Aは、所定の周期で各デバイスやシステムの稼動状態を監視する。
管理サーバ100の障害監視部110には、各サーバ420から収集した稼動状態を予め設定したしきい値と比較して、障害の有無を判定する障害判定部113が稼動する。この障害判定部113は、障害を検知すると必要に応じて障害が発生したサーバ420に対してDBMS停止機能213に停止指令を通知する。その他は、前記第1実施形態と同様である。
このように、実行系ノード200の各サーバ420の障害発生の判定を管理サーバ100に集約して行うことで、各サーバ420の処理負荷を低減し、各サーバ420のリソースをより有効に利用することができる。
<第3実施形態>
図13は、第3の実施形態を示し、前記第1実施形態の管理サーバ100の機能を予備系ノード300の一つのサーバに実行させ、物理的な管理サーバ100を不要にしたものである。
予備系ノード300には、前記第1実施形態と同様に3つのサーバ430A〜430Cで構成し、各サーバ430A〜Cには障害検知部310とデータベース管理システム320を備える。さらに、予備系ノード300の一つのサーバ430Cには前記第1実施形態の管理サーバ100と同様の機能を提供する管理部100Aを実行させる。
管理部100Aは、前記第1実施形態の管理サーバ100の構成と同様であり、実行系ノード200の障害情報を監視する障害監視部110と、予備系ノード300を管理する予備系ノード管理部120と、業務(データベース管理システム)を引き継ぐサーバ430A〜Cの順位を管理する予備系ノード優先度テーブル130とを備えている。
予備系ノード300は、実行系ノード200が正常に稼動していれば、障害に備えて待機しているだけである。そこで、予備系ノード300のうちの一つのサーバ430A〜Cに管理部100Aを割り当てて実行させることで、物理的な管理サーバ100を不要にして、実行系ノード200と予備系ノード300の計算機のリソースを有効に利用することができる。
<第4実施形態>
図14は、第4の実施形態を示し、前記第1実施形態に示した図1の計算機システムで実行されるデータベース管理システムのソフトウェア構成を示すブロック図である。この実施形態は、障害発生時に障害の要因に対応したDBアクセス処理を再開可能なデータベースシステムの構成を示すもので、前記第1実施形態と同一のものに同一の符号を付した。本実施形態では、ネットワーク410で接続された1台以上のサーバ420と1台以上のサーバ430と管理サーバ100、及びサーバ420とサーバ430に接続されたデータベース400で実現されている。
実行系ノード200の各サーバ420では、自身の障害の有無を検知する障害検知部210と、クライアントコンピュータ150からの要求に応じて、ストレージ装置406のボリューム407に格納されたデータベース400に対して参照または更新を行うデータベース管理システム(DBMS)220、DBMSの内部情報の収集を行うDB情報通知部230が割り当てられ、実行されている。ここで、DBMSの内部情報であるDB情報は、例えば、キャッシュメモリのヒット率やログバッファが満杯になった回数や単位時間当たりのDB処理プロセス(スレッド)がダウンした回数などで構成することができる。
なお、データベース管理システム220は、ストレージ装置406のボリューム407に格納されたデータベース400を複数の分割データベースに分割し、そのおのおのに対してサーバ420を関連付けてデータ処理を行う。
予備系ノード300の各サーバ430にも、実行系ノード200のサーバ420と同様に、障害検知部310とデータベース管理システム320、DB情報通知部330が割り当てられている。
実行系ノード200と予備系ノード300を管理する管理サーバ100では、各サーバ420の障害検知部210からの情報とDB情報通知部230からの情報を監視し、各サーバ420の稼動状態を監視する障害監視部110と、予備系ノード300の各サーバ430を管理する予備系ノード管理部120が割り当てられている。予備系ノード管理部120では、実行系ノード200に障害が発生したときに、各サーバ420のDB情報通知部230からの情報から必要な予備系ノードのスペック(仕様情報)を算出するために利用するDB情報解析テーブルと、予備系ノード300でデータベース管理システムを引き継ぐサーバ430を管理する予備系ノード管理テーブル1300が割り当てられている。また、管理サーバ100は、各サーバ420DB情報通知部230から取得したデータベース管理システム220の状態を格納するDB情報格納部140を備えている。
図15は図14に示した構成の実行系ノード200の各機能要素をさらに詳細に示したブロック図である。図15においては、実行系ノード200のうちひとつのノードを構成するひとつのサーバ420を示している。
障害検知部210は、CPU421とメモリ422とI/O制御装置424と通信制御装置423及びデータベース管理システム220の状態を監視するノード状態チェック機能211を有する。ノード状態チェック機能211は、上記のデバイスまたはシステムのいずれかに異常があれば、ノード状態通達機能212から管理サーバ100に障害情報を通知するとともに、DBMS停止機能213を用いてデータベース管理システム220に停止指示を出す。
ノード状態チェック機能211は、CPU421の監視については、例えば、CPU421の利用率または負荷を検知し、利用率が所定のしきい値(例えば、99%)を超えている時間が所定時間に達した場合には負荷が過大になって障害が発生したと判定する。換言すれば、CPU421の利用率が100%の状態で所定時間を経過すると、障害が発生したと判定する。
ここで、CPU421の負荷が要因でDBMS220が動作できなくなる要因として、
・データベース400のトランザクション処理量の増大(データベース400の実行プロセスに対するCPU占有(利用)率の増大)
・データベース以外のプロセスのCPU占有率の増大
などが上げられる。
このため、ノード状態チェック機能211は、システム全体のCPU利用率、DBプロセスのCPU利用率、CPU421へのプロセスの実行待ち行列の長さ、CPU421への実行可能プロセスのスワップ待ち行列の長さ、またはメッセージキューの長さなどを監視することができる。そして、ノード状態チェック機能211は、監視した値が予め設定した値を超えたとき(または所定の条件を満たしたとき)に、障害発生を判定する。なお、CPU421の利用率以外の測定値は、普段の値と比較して、増大した比率等によって障害発生を判定することができる。
また、ノード状態チェック機能211は、I/O制御装置424や通信制御装置423の監視については、スループット(転送速度や通信速度)を監視し、スループット(一定時間内のI/Oデータ量)が予め設定したしきい値未満となったときに障害が発生したと判定する。これは、純粋に、ストレージ装置406へのアクセス頻度やネットワーク410からのアクセス頻度が普段の値と比較し、増大した比率によって障害発生を判定するものである。
また、ノード状態チェック機能211は、データベース管理システム220の監視については、キャッシュメモリ(図示省略)へのバッファヒット率を監視して、測定したヒット率が予め設定したしきい値未満となったときに障害が発生したと判定する。この例も、上記と同様に、ストレージ装置406へのアクセス頻度が普段の値と比較し、増大した比率によって障害発生を判定するものである。キャッシュメモリ(またはDBキャッシュ、DB内部バッファ)やログバッファは、メモリ422の所定の領域に設定される。なお、ログバッファは、データベース管理システム220が作成したデータベースの操作履歴のログを一時的に格納するものである。
DB情報通知部230は、データベース管理システム220のDB情報を定期的に収集するDB状態取得機能231と収集したDB情報を管理サーバ100に通知を行うDB状態通知機能232を有する。
DB状態取得機能231はDBMS上から次のようなDB情報を収集する。
・ メッセージキュー滞留の超過時間
・ 単位時間内のDB処理プロセスダウン回数の超過
・ 排他タイムアウト数超過
・ UAP(SQL)実行時間経過
・ 排他競合回数超過
・ ログバッファ満杯回数
・ DB入出力バッファヒット率
なお、実行系ノード200の各サーバ420のデータベース管理システム220は、各サーバ420のハードウェアやソフトウェアに関するノード情報221を保持する。このノード情報221は、例えば、CPU421の性能や数、メモリ422の容量、OSの種類、ノードの識別子(ノード名)などが含まれる。
図16は図14で示した構成の管理サーバ100の各機能要素の詳細を示すブロック図である。障害監視部110では各実行系ノード200から通知があった障害情報とDB情報を情報収集機能111で受け取る。情報収集機能111は障害情報と障害が発生したノード名、DB情報を予備系ノード管理部120に通知する。
予備系ノード管理部120では、DB情報解析機能122がDB情報解析テーブル131とDB情報と障害が発生したノード情報に基づいて、予備系ノード300として必要なスペックを算出する。また、予備系ノード選択機能121はDB情報解析機能122で算出した予備系ノードに最も近いスペックを持つ予備系ノード300(サーバ430)を予備系ノード管理テーブル1300から決定する。
なお、算出したスペックに最も近いスペックを備えた予備系ノードの決定は、予備系ノード管理部120が算出したスペックを満足する予備系ノード300のサーバ430のうち、最もスペック(性能)の低いものを選択する。例えば、算出したスペックがCPU性能=120%で、予備系ノード300にCPU性能が、100%、130%、150%のサーバ430があるときには、CPU性能=130%のサーバ430を選択する。
また、予備系ノード選択機能121は、系切り替え先として決定した予備系ノードを実行系ノード200に割り当てた後に、この予備系ノードの情報を予備系ノード管理テーブル1300から削除する。予備系ノード起動機能112は上記決定した系切り替え先の予備系ノード300に対して、系切り替え元ノードの情報とデータベース管理システム320の起動指示を行う。
図17は図14で示した構成の予備系ノード300の各機能要素の詳細を示すブロック図である。図17においては、予備系ノード300のうちひとつのノードを構成するひとつのサーバ430を示している。予備系ノード300の障害検知部310のうち、ノード状態チェック機能311、ノード状態通達機能312は、実行系ノード200のノード状態チェック機能211、ノード状態通達機能212と同様である。
障害検知部310のDBMS起動処理機能313は、管理サーバ100からデータベース管理システムの起動指示と系切り替え元のノード情報を受け取る。また、DBMS起動処理機能313は、切り替え元の実行系ノード200から取得したノード情報をデータベース管理システム320に渡すとともに、データベース管理システム320の起動指示を行う。
図18は予備系ノード300が予備系ノードA、予備系ノードB、予備系ノードCで構成された場合の一例を示しており、予備系ノードを管理する予備系ノード管理テーブル1300の構成例を示す。
予備系ノード管理テーブル1300は、予備系ノード名(または識別子)1301毎に、予備系ノード300内でのCPU性能を数値化(例えば、相対的な処理能力)したものがCPU負荷1302に設定され、予備系ノード300内でのメモリ量をメモリ量1303に、I/O性能の差をここでは占有か共有のどちらか(占有の方が共有よりI/O性能がよい)をI/O性能1304に、同じく通信性能を通信性能1305に設定され、また、データベース処理の性能にかかわるOSの設定値がどのような値に設定してあるかをOS設定A1306、OS設定B1307に格納する。OS設定A1306、OS設定B1307のOSの設定値は、例えば、カーネルのパラメータ値を示し、例えば、メッセージキューの数や、セマフォ数の最大値や共有メモリセグメントの最大サイズなど、変更可能なOSの設定値を示す。例えば、図18においてOS設定A1306がメッセージキューの数を示し、OS設定B1307が共有メモリセグメントの最大サイズ(kB)である。
図19は実行系ノード200から取得したDB情報をDB情報解析機能122が解析を行うための情報を格納しているDB情報解析テーブル131の構成例を示す。
DB情報解析テーブル131は、DB情報1311毎に、閾値1312が設定され、それぞれのDB情報1311が閾値1312を超えた場合、それぞれ必要とするリソース内容1313を設定される。リソース内容1313は必要とする対象リソース名1314と必要なリソース量1315を設定し、必要なリソース量1315は現在のリソース量に何%加算という値や数値を設定する。
ある実行系ノード200に障害が発生した場合、予備系ノード管理部120は、ノード情報とDB情報から必要となるリソース量をDB情報解析テーブル131に基づいて求め、求めたリソース量に従って、系切り替え先の予備系ノード300の決定を予備系ノード管理テーブル1300に基づいて行う。例えば、CPU性能100でI/O性能が共有である実行系ノード200において障害が発生した時に、単位時間内のDB処理プロセス(スレッド)ダウン回数の超過が16であった場合、切り替え先の予備系ノードに求められるCPU性能は100×1.3=130であり、I/O性能は占有となる。この情報を予備系ノード管理テーブルから、ノードCを選択する。
なお、予備系ノード管理部120は、実行系ノード200に発生した障害が複数あるときは、対象リソース名1314が同一の中から必要なリソース量1315の最大値を選択する。例えば、ある実行系ノード200に発生した障害が、メッセージキュー滞留の超過時間がしきい値1312を超え、かつ、ダウン回数の超過がしきい値1312に超えた場合、必要なリソース量1315の最大値である+30%を選択し、切り替え先の予備系ノードに求められるCPU性能を100×1.3=130%とする。
なお、実行系ノード200では、各サーバ420の上記各性能は均一であることが望ましい。しかしながら障害発生時には、サーバ420間で負荷が異なること場合がある。このため、予備系ノード300を構築する際には、図18で示したように、サーバ430間の各性能が異なるように構成することが望ましい。また、予備系ノード300を構成する各ノードA〜Cの性能の基準は、予備系ノード300の構築に要する費用に応じて設定することができる。例えば、費用に余裕がある場合では、実行系ノード200の性能を予備系ノード300の低性能とする。あるいは、予備系ノード300の構築に許容される費用が限られている場合では、実行系ノード200の性能を予備系ノード300の中間の性能とする。なお、図18では、予備系ノード300を3つのノードA〜Cで構成した例を示したが、多数のノードで構成する場合では、同一の性能を備えたサーバ430が複数存在してもよい。
図20は本実施形態の実行系ノード200にて障害が発生した場合の処理手順のフローチャートである。この処理は、実行系ノード200の各サーバ420で所定の周期などで実行されるものである。
実行系ノード200ではDB状態取得機能231がステップ601でデータベース管理システム220のDB情報の取得を行い、取得したDB情報はDB状態通知機能232によってステップ602で管理サーバ100に送信する。
ノード状態チェック機能211はステップ603においてCPU421の処理負荷状態、メモリ422のメモリ使用量、I/O制御装置424の処理負荷状態、通信制御装置423の通信負荷状態、データベース管理システム220の状態をチェックし、それぞれの状態が正常であるかをチェックする。このとき、それぞれの状態が正常であれば、一定時間ごとにステップ601〜ステップ603を繰り返して行う。チェックしたもののうち何れかの状態に異常がある場合にはステップ604に進む。
ステップ604では、障害の要因がDBMS障害であるかどうかのチェックを行う。障害要因がDBMS障害(DBMSの停止や処理遅延)である場合は、データベース管理システム220が異常終了しているので、ステップ606に進み、管理サーバ100に対して障害情報とノード情報を送信する。
また、ステップ604において、障害要因がDBMS障害でない場合は、データベース管理システム220自体は正常動作中であるため、ステップ605に進み、データベース管理システム220に対して停止指示を出し、データベース管理システム220を停止する。その後、ステップ606に進み、管理サーバ100に対して障害情報と、ノード情報を送信する。
図21は、管理サーバ100が実行系ノード200から障害情報を受け取った場合に実行する処理手順のフローチャートである。
管理サーバ100の障害情報収集機能111はステップ701において、実行系ノード200から障害情報又はDB情報を受け取る。ステップ702ではDB情報解析機能131が受け取った(または、DB情報格納部140から読み込んだ)DB情報の解析をDB情報解析テーブル131を用いて行う。
予備系ノード選択機能121はステップ703で障害情報から障害要因を取得し、ステップ704では上記ステップ702で取得したDB解析情報とステップ703で取得した障害要因の情報を用いてDB情報解析テーブル131から予備系ノードとして必要なマシンスペックを算出する。
ステップ705で予備系ノードとして必要なマシンスペックに一番性能の近い予備系ノードを予備系ノード管理テーブル1300を用いて、系の切り替え先となる予備系ノード300を決定する。ステップ706においては、上記ステップ705で決定した予備系ノード300の情報を予備系ノード管理テーブル1300から削除する。次に予備系ノード起動機能112はステップ707において決定した予備系ノード300に対して、障害が発生した実行系ノード200のノード情報と起動通知を上記決定した予備系ノード300へ送信する。
図22は予備系ノード300が管理サーバ100からノード情報と起動通知を受け取ったときに実行する処理手順のフローチャートである。
予備系ノード300のDBMS起動機能313はステップ801において、管理サーバ100から障害が発生した実行系ノード200のノード情報を受け取る。ステップ802において、受け取ったノード情報をデータベース管理システム320に転送し、データベース管理システム320は障害が発生した実行系ノード200の情報を設定する。次にステップ803において、DBMS起動機能313はデータベース管理システム320に起動指示を出し、データベース管理システム320の起動を行う。起動が完了した後、ステップ804において、障害検知機構310にノード状態チェックを開始する。ここで、予備系ノード300は実行系ノード200として系切り替えが完了する。
以上のように、障害要因をノードの障害とノードが実行する業務(データベース管理システムやアプリケーションまたはサービス)の障害に切り分けて、障害の内容(種類)に応じた性能、仕様の予備系ノード300のサーバ430を選択してデータベースを引き継ぐことができる。特に、予備系ノード管理部120が、障害の発生した実行系ノード200を引き継ぐ予備系ノード300のサーバ430のスペック(性能及び仕様)を求め、このスペックに最も近いスペックを持つ予備系ノード300(サーバ430)を選択することで、実行系ノード200を引き継ぐ予備系ノード300のサーバ430の性能または仕様が過剰になるのを防ぐことができる。これにより、予備系ノード300のリソースを効率よく利用することができる。
また、ノードの障害に加えて業務の障害の要因を検知し、予備系ノード300で障害を回復可能な計算機の性能を求めるようにしたので、実行系ノード200の障害を確実に回復することができる。そして、予備系ノード300で選択する計算機の性能を、演算した性能に最も近いものとすることで、予備系ノード300のリソースが無駄に消費されるのを防いで、効率の良い系切替を実現できる。
<第5実施形態>
図23は、第5の実施形態を示し、本発明を適用する計算機システムのハードウェア構成を示すブロック図である。前記第4実施形態では物理サーバ上に1つの実行系ノードを作成し、障害が発生した場合には物理サーバ(420)単位で系の切り替えを実施していたが、第5の実施形態では、物理サーバ上に仮想化した1つ以上の仮想サーバを作成し、仮想サーバ単位での系切り替えを実施する構成である。
また、第5の実施形態では前記第4実施形態の系切り替え先の選択方法に加えて、仮想化している系切り替え先の各サーバの予備系ノードのリソースを動的に変更する機能を追加する。その他の構成は前記第4実施形態と同様であり、同一のものに同一の符号を付した。
図23において、実行系ノード200は1つまたは複数の物理サーバ926から構成される。物理サーバはサーバ仮想化プログラム925により1つまたは複数の仮想サーバ920から構成される。仮想サーバ920は演算処理を行う仮想CPU921と、データベースの処理を行うプログラムやデータを格納する仮想メモリ922と、ネットワーク410を介して他の計算機と通信を行う仮想通信制御装置923と、SAN(Storage Area Network)405を介してストレージ装置406にアクセスを行う仮想I/O制御装置(ホストバスアダプタ)924を備える。
予備系ノード300は、実行系ノードと同様に、1つまたは複数の物理サーバ936から構成され、物理サーバ936は1つまたは複数の仮想サーバ930から構成される。仮想サーバ930はサーバ仮想化プログラム935により演算処理を行う仮想CPU931と、データベースの処理を行うプログラムやデータを格納する仮想メモリ932と、ネットワーク410を介して他の計算機と通信を行う仮想通信制御装置933と、SAN(Storage Area Network)405を介してストレージ装置406にアクセスを行う仮想I/O制御装置(ホストバスアダプタ)934を備える。
実行系ノード200及び予備系ノード300のそれぞれの仮想CPU、仮想メモリ、仮想通信制御装置、仮想I/O制御装置は、物理サーバのCPU,メモリ、通信制御装置、I/O制御装置のリソースを割り当てており、各リソースの割当量はサーバ仮想化プログラムによって制御されている。
図24は実行系サーバ200から受け取ったDB情報を用いて、予備系ノード300として必要なリソースやOSの設定内容を求め、実行系ノード200から予備系ノード300への系切り替えが発生する前に、予備系ノード300の仮想CPU931、仮想メモリ932、仮想通信制御装置933、仮想I/O制御装置934やOSパラメータを変更する処理を行う。なお、予備系ノード300では、サーバ仮想化プログラム935が少なくともひとつの仮想サーバ930を生成しているものとする。
管理サーバ100は障害監視部110と予備系ノード管理部120で構成され、前記第4実施形態の予備系ノード管理部120にノード環境設定制御部123を追加する。ノード環境設定制御部123はDB情報解析機能122がDB情報を解析した結果から、予備系ノード300に必要なリソース情報やOSの設定内容を受け取る。
ノード環境設定制御部123は、予備系ノード管理テーブル1300を用いて設定を変更する予備系ノード300の仮想サーバ930を選択し、選択した予備系ノード300の仮想サーバ930に対してリソース情報やOSの設定内容で構成される設定情報を送信する。
ノード環境設定制御部123は予備系ノード300の設定が完了したら、予備系ノード管理テーブル1300の内容を更新する。
その他の機能は前記第4実施形態と同様である。
図25においては、予備系ノード300のうちのひとつのノードを構成するひとつの物理サーバ936を示している。仮想サーバ930はサーバ仮想化プログラム935によって物理サーバ936のリソース(CPU、メモリ、I/O制御装置、通信制御装置、OSパラメータなど)を割り当てられている。OSパラメタ設定機能9351は管理サーバ100から送信された設定情報に従い、仮想サーバ930のOSパラメタ値の変更を行う。
CPU割当機能9352は管理サーバ100から送信された設定情報に従い、仮想サーバ930の仮想CPU931に割り当てられている物理サーバ936のCPUの割当量の変更を行う。メモリ割当機能9353は管理サーバ100から送信された設定情報に従い、仮想サーバ930の仮想メモリ932に割り当てられている物理サーバ936のメモリの割当量の変更を行う。DISK割当機能9354は管理サーバ100から送信された設定情報に従い、仮想サーバ930の仮想I/O制御装置934に割り当てられている物理サーバ936のI/O制御装置の割当量の変更を行う。通信割当機能9355は管理サーバ100から送信された設定情報に従い、仮想サーバ930の仮想通信制御装置933に割り当てられている物理サーバ936の通信制御装置の割当量の変更を行う。
その他の機能は前記第4実施形態と同様である。
図26は予備系ノード300のうちひとつのノードを構成するひとつの仮想サーバ930に対してリソースを動的に変更して系切り替えを行うための処理手順を示すフローチャートである。この処理は、管理サーバ100が実行系ノード200から障害情報を受信したときに実行する。
管理サーバ100の障害情報収集機能111はステップ701において、実行系ノード200から障害情報又はDB情報を受け取る。ステップ711では系切り替えが発生したかどうかを障害情報を用いて判定を行い、障害情報がある場合にはステップ702へ進み、障害情報がない場合はそのまま処理を終了する。
ステップ702ではDB情報解析機能131が受け取った(または、DB情報格納部140から読み込んだ)DB情報の解析をDB情報解析テーブル131を用いて行う。
予備系ノード選択機能121はステップ703で障害情報から障害要因を取得し、ステップ704では上記ステップ702で取得したDB解析情報とステップ703で取得した障害要因の情報を用いてDB情報解析テーブル131から予備系ノードとして仮想サーバ930に必要なマシンスペックを算出する。
ステップ705で予備系ノードとして必要なマシンスペックに一番性能の近い予備系ノードを予備系ノード管理テーブル1300を用いて、系の切り替え先となる予備系ノード300の仮想サーバ930を決定する。ステップ706においては、上記ステップ705で決定した予備系ノード300の情報を予備系ノード管理テーブル1300から削除する。次に予備系ノード起動機能112はステップ707において決定した予備系ノード300に対して、障害が発生した実行系ノード200のノード情報と起動通知を上記決定した予備系ノード300へ送信する。
図27は予備系ノード300が管理サーバ100から予備系ノードの設定を変更する設定情報を受け取った場合の処理手順のフローチャートである。
予備系ノード300のサーバ仮想化プログラム935はステップ901において、管理サーバ100から設定情報を受け取る。ステップ902において受け取った設定情報にOSのパラメータの内容に変更がある場合にはステップ903で、OSのパラメータを変更して、ステップ904へ進む。OSのパラメタ変更内容がない場合にはそのままステップ904へ進む。ステップ904では受け取った設定情報にCPU割当変更がある場合にはステップ905で、CPUの割当を変更して、ステップ906へ進む。CPU割当変更がない場合にはそのままステップ906へ進む。ステップ906では受け取った設定情報にメモリ割当変更がある場合にはステップ907で、メモリの割当を変更して、ステップ908へ進む。メモリ割当変更がない場合にはそのままステップ908へ進む。ステップ908では受け取った設定情報にDISK割当変更がある場合にはステップ909で、DISKの割当を変更して、ステップ910へ進む。DISK割当変更がない場合にはそのままステップ910へ進む。ステップ910では受け取った設定情報に通信割当変更がある場合にはステップ911で、通信の割当を変更して、ステップ901へ戻る。通信割当変更がない場合にはそのままステップ901へ戻る。これによって予備系ノードのリソースの動的変更処理は終了となる。
以上のように、障害要因をノードの障害とデータベース管理システムの障害に切り分けて、障害の内容に応じた性能、仕様の予備系ノード300の仮想サーバ930を選択してデータベースを引き継ぐことができる。また、予備系ノード管理部120は、ノード環境設定制御部123を備えることで、仮想サーバ930のスペック(性能及び仕様)を動的に変更することが可能となって、予備系ノード300のリソースを効率よく利用することができる。
<第6実施形態>
図28は、第6の実施形態を示し、管理サーバ100が実行系ノード200に障害がない場合でも、系切り替えが発生したときに必要となるスペックの仮想サーバ930を設定しておくものである。その他の構成は前記第5実施形態と同様である。
図中ステップ701〜707の処理は前記第5実施形態と同様であり、障害情報があったときに管理サーバ100で実行される。
ステップ711の判定で障害情報がない場合、ステップ712でDB情報解析機能131が受け取ったDB情報の解析をDB情報解析テーブル131を参照して実行する。この解析は、受信したDB情報のうちDB情報解析テーブル131の閾値の所定比率(例えば、90%)を超える実行系ノード200の仮想サーバ920を障害が発生する恐れがある仮想サーバとして抽出する。次に、DB情報解析機能131は、抽出した仮想サーバ920を予備系ノード300で引く次ぐのに必要な仮想サーバ930のリソース量の増分をDB情報解析テーブル131から取得する。
次に、ノード環境設定制御部123はステップ713で上記ステップ712で取得したリソース量の増分から上記抽出された実行系ノード200の仮想サーバ920を引き継ぐことが可能な予備系ノード300に必要なマシンスペックを算出する。
次に、ステップ713では、ノード環境設定制御部123が、予備系ノード管理テーブル1300で管理されている予備系ノード300の中に、上記ステップ712の算出結果としての必要なマシンスペックに近い予備系ノードが存在するかどうかをチェックする。このチェックの結果、ノード環境設定制御部123は、必要なマシンスペックに近い予備系ノードがない場合は、予備系ノード300の設定変更が必要であると判定して、ステップ714に進む。一方、ノード環境設定制御部123は、必要なマシンスペックに近い予備系ノードが存在する場合はステップ701に戻る。
ステップ714では、ノード環境設定制御部123が、上記ステップ713で算出したマシンスペックと予備系ノード優先度テーブル130から設定を変更する予備系ノード300の仮想サーバ930を選択し、変更する設定情報を予備系ノードのサーバ仮想化プログラム935に対して送信する。ステップ715では、設定情報を変更した予備系ノード300の予備系ノード優先度テーブル130の情報を更新を行い、ステップ701に戻る。
以上の処理により、管理サーバ100の予備系ノード管理部120は、障害がない場合でも、データベース管理システムに障害が発生することが予測される仮想サーバ920を検出することができる。そして、ノード環境設定制御部123は、データベース管理システムの障害が予測される仮想サーバ920を引き継ぐことが可能な仮想サーバ930がなければ、予備系ノード300の仮想化プログラム935に対して設定情報を送信し、障害の発生以前に必要となるスペックの仮想サーバ930を予備系ノード300に設定することができる。そして、障害の発生以前に引き継ぐ仮想サーバ930を予め予備系ノード300に設定しておくことで、系切り替えに要する時間を短縮することも可能となる。
さらに、DB情報解析機能131は、DB情報解析テーブル131の閾値を超えないDB情報のうち、閾値の所定比率を超えたDB情報に対応する実行系ノード200の仮想サーバ920を、障害発生の可能性がある仮想サーバとして検出することができるので、予備系ノード300のリソースを無駄なく利用することが可能となるのである。
なお、上記各実施形態では、実行系ノード200のサーバ420でデータベース管理システム220を実行する例を示したが、サーバ420が提供するサービスはデータベースに限定されるものではなく、WEBサービス等を実行することができる。
また、上記各実施形態では、サーバ420(ノード)毎にデータベース管理システム220を実行していたが、複数のサーバ420で同一の処理を並列的に実行するようにしても良い。
以上のように、本発明によれば実行系ノードと予備系ノードを備えて、実行系ノードの障害時に予備系ノードへ切り換える計算機システムに適用することができる。
第1の実施形態を示し、本発明を適用する計算機システムのブロック図。 図1の計算機システムで実行されるデータベース管理システムのソフトウェア構成を示すブロック図である。 実行系ノードの各機能要素をさらに詳細に示すブロック図である。 管理サーバの各機能要素の詳細を示すブロック図である。 予備系ノードの各機能要素の詳細を示すブロック図である。 予備系ノードA〜Cの性能差を示す説明図である。 予備系ノードを管理する予備系ノード優先度テーブルの構成例を示す説明図である。 実行系ノードで行われる障害が発生した場合の処理手順のフローチャートである。 管理サーバが実行系ノードから障害情報を受け取った場合の処理手順のフローチャートである。 予備系ノードが管理サーバからノード情報と起動通知を受け取った場合の処理手順のフローチャートである。 実行系ノードで障害が発生した場合の系切り換え処理を示すブロック図。 第2の実施形態を示しデータベース管理システムのうち実行系ノードと管理サーバを示すブロック図である。 第3の実施形態を示しデータベース管理システムの構成を示すブロック図である。 第4の実施形態を示し、図1の計算機システムで実行されるデータベース管理システムのソフトウェア構成を示すブロック図である。 実行系ノードの各機能要素をさらに詳細に示すブロック図である。 管理サーバの各機能要素の詳細を示すブロック図である。 予備系ノードの各機能要素の詳細を示すブロック図である。 予備系ノードを管理する予備系ノード管理テーブルの構成例を示す説明図である。 DB情報から必要なリソースとそのリソース量を解析するために利用するDB情報解析テーブルの構成例を示す説明図である。 実行系ノードで行われる障害が発生した場合の処理手順のフローチャートである。 管理サーバが実行系ノードから障害情報を受け取った場合の処理手順のフローチャートである。 予備系ノードが管理サーバからノード情報と起動通知を受け取った場合の処理手順のフローチャートである。 第5の実施形態を示し、本発明を適用する計算機システムのブロック図。 管理サーバの各機能要素の詳細を示すブロック図である。 予備系ノードの各機能要素の詳細を示すブロック図である。 管理サーバが予備系ノードのリソースを動的に変更する場合の処理手順のフローチャートである。 予備系ノードが管理サーバからリソースの変更を通知してきた場合の処理手順のフローチャートである。 第6の実施形態を示し、管理サーバが予備系ノードのリソースを動的に変更する場合の処理手順のフローチャートである。
符号の説明
100 管理サーバ
200 実行系ノード
300 予備系ノード
420、430 サーバ
210、310 障害検知部
110 障害監視部
120 予備系ノード監視部
130 予備系ノード優先度テーブル
220、320 データベース管理システム
400 データベース
920、930 仮想サーバ
925、935 サーバ仮想化プログラム
926、936 物理サーバ

Claims (20)

  1. 業務を実行する複数の計算機を備えた第1の計算機システムと、複数の計算機を備えた第2の計算機システムと、を備えて、前記第1の計算機システムの計算機に障害が発生したときには、前記第2の計算機システムの計算機に第1の計算機システムの計算機で実行していた業務を引き継ぐ計算機システムの管理方法であって、
    前記第1の計算機システムの計算機毎の稼働状態を示す稼動情報を収集する手順と、
    前記稼動情報に基づいて、前記第1の計算機システムを構成する計算機に障害が発生したことを検知する手順と、
    前記稼動情報に基づいて前記前記第1の計算機システムを構成する計算機に発生した障害の要因を検出する手順と、
    前記第2の計算機システムを構成する計算機の性能に関する性能情報を取得する手順と、
    前記第1の計算機システムに発生した障害の要因と、前記取得した第2の計算機システムの計算機の性能情報に基づいて、前記第2の計算機システムの中から前記障害を回復可能な計算機を選択する手順と、
    前記選択した第2の計算機システムの計算機に、前記障害が発生した第1の計算機システムの計算機で実行していた業務を引き継ぐ手順と、
    を含むことを特徴とする計算機システムの管理方法。
  2. 前記第2の計算機システムを構成する計算機の数は、前記第1の計算機システムを構成する計算機の数よりも少ないことを特徴とする請求項1に記載の計算機システムの管理方法。
  3. 前記第2の計算機システムは、性能の異なる計算機を含み、
    前記障害を回復可能な計算機を選択する手順は、
    前記障害の要因を回復可能な所定の性能を備えた計算機を選択することを特徴とする請求項1に記載の計算機システムの管理方法。
  4. 前記第1の計算機システムを構成する計算機に障害が発生したことを検知する手順は、
    前記第1の計算機システムの計算機の性能に関連する性能情報を取得する手順と、
    前記性能情報と予め設定した値とを比較して、前記比較結果が予め設定した条件となったときに、障害が発生したことを判定する手順と、
    前記性能情報の種類に基づいて前記障害の要因を判定する手順と、
    を含むことを特徴とする請求項1に記載の計算機システムの管理方法。
  5. 前記第1の計算機システムを構成する計算機は、
    ストレージ装置に格納されたデータベースを複数の分割データベースに分割し、前記分割したデータベースに対して計算機を関連付けてデータ処理を前記業務として提供する手順を含むことを特徴とする請求項1に記載の計算機システムの管理方法。
  6. 前記第1の計算機システムを構成する計算機に障害が発生したことを検知する手順は、 前記障害が発生した計算機のデータ処理を停止させる手順を含むことを特徴とする請求項5に記載の計算機システムの管理方法。
  7. 前記第1の計算機システムと第2の計算機システムを管理する管理サーバを含み、
    前記管理サーバが、前記障害が発生したことを検知する手順と、前記障害を回復可能な計算機を選択する手順と、前記障害が発生した第1の計算機システムの計算機から前記障害選択した第2の計算機システムの計算機に業務を引き継ぐ手順と、を実行することを特徴とする請求項1に記載の計算機システムの管理方法。
  8. 前記第2の計算機システムを構成する計算機の内の一つが、前記障害が発生したことを検知する手順と、前記障害を回復可能な計算機を選択する手順と、前記障害が発生した第1の計算機システムの計算機から前記障害選択した第2の計算機システムの計算機に業務を引き継ぐ手順と、を実行することを特徴とする請求項1に記載の計算機システムの管理方法。
  9. 前記稼動情報に基づいて前記第1の計算機システムの障害を回復可能な計算機の性能に関連する性能情報を演算し、当該性能情報に基づいて前記第2の計算機システムを構成する計算機の性能を変更する手順をさらに含み、
    前記障害を回復可能な計算機を選択する手順は、
    前記性能を変更した計算機を選択することを特徴とする請求項1に記載の計算機システムの管理方法。
  10. 前記第2の計算機システムを構成する計算機の性能を変更する手順は、
    前記第1の計算機システムの計算機の性能に関連する性能情報を取得する手順と、
    前記性能情報と予め設定した値とを比較して、当該比較結果が予め設定した条件となったときに、前記第2の計算機システムを構成する計算機の性能を変更することを判定する手順と、
    前記性能情報の種類に基づいて前記第2の計算機システムを構成する計算機の性能を変更する手順と、
    を含むことを特徴とする請求項9に記載の計算機システムの管理方法。
  11. 前記稼動情報を収集する手順は、
    前記第1の計算機システムの計算機毎の稼働状態を示す第1の稼動情報を収集する手順と、
    前記第1の計算機システムの計算機毎に実行される業務の実行状態を示す第2の稼動情報を収集する手順と、を含み、
    前記計算機に障害が発生したことを検知する手順は、
    前記第1の稼動情報に基づいて、前記第1の計算機システムを構成する計算機に障害が発生したことを検知し、
    前記第2の計算機システムを構成する計算機の性能を変更する手順は、
    前記第2の稼動情報に基づいて前記第1の計算機システムの障害を回復可能な計算機の性能に関連する性能情報を演算し、当該性能情報に基づいて前記第2の計算機システムを構成する計算機の性能を変更することを特徴とする請求項9に記載の計算機システムの管理方法。
  12. 業務を実行する複数の計算機を備えた第1の計算機システムと、複数の計算機を備えた第2の計算機システムと、を備えて、前記第1の計算機システムの計算機に障害が発生したときには、前記第2の計算機システムの計算機に第1の計算機システムの計算機で実行していた業務を引き継ぐ計算機システムの管理方法であって、
    前記第1の計算機システムの計算機毎の稼働状態を示す稼動情報を収集する手順と、
    前記稼動情報に基づいて、前記第1の計算機システムを構成する計算機に障害が発生したことを検知する手順と、
    前記稼動情報に基づいて前記発生した障害の要因を検出する手順と、
    前記第2の計算機システムを構成する計算機の性能に関する性能情報を取得する手順と、
    前記第1の計算機システムに発生した障害の要因と、前記取得した第2の計算機システムの計算機の性能情報に基づいて、前記障害を回復可能な第2の計算機システムの計算機の性能情報を演算する手順と、
    前記第2の計算機システムの計算機の中から前記性能を満たす計算機を選択する手順と、
    前記選択した第2の計算機システムの計算機に、前記障害が発生した第1の計算機システムの計算機で実行していた業務を引き継ぐ手順と、
    を含むことを特徴とする計算機システムの管理方法。
  13. 業務を実行する複数の計算機を備えた第1の計算機システムと、複数の計算機を備えた第2の計算機システムと、を備えて、前記第1の計算機システムの計算機に障害が発生したときには、前記第2の計算機システムの計算機に第1の計算機システムの計算機で実行していた業務を引き継ぐ計算機システムの管理方法であって、
    前記第1の計算機システムの計算機毎の稼働状態を示す稼動情報を収集する手順と、
    前記稼動情報に基づいて、前記第1の計算機システムを構成する計算機に障害が発生したことを検知する手順と、
    前記第2の計算機システムを構成する計算機の性能に関する性能情報を取得する手順と、
    前記第1の計算機システムに発生した障害の要因と、前記取得した第2の計算機システムの計算機の性能情報に基づいて、前記第2の計算機システムの中から前記障害を回復可能な計算機の性能情報を演算する手順と、
    前記演算した性能情報に基づいて前記第2の計算機システムを構成する計算機の性能を変更する手順と、
    前記性能を変更した第2の計算機システムの計算機を第1の計算機システムの引き継ぎ先として選択する手順と、
    前記選択した第2の計算機システムの計算機に、前記障害が発生した第1の計算機システムの計算機で実行していた業務を引き継ぐ手順と、
    を含むことを特徴とする計算機システムの管理方法。
  14. 前記稼動情報と予め設定した情報を比較することで、前記第1の計算機システムを構成する計算機に障害が発生することを予測する手順と、
    前記稼動情報に基づいて前記予測された障害の要因を特定し、当該障害の要因に基づいて前記予測された障害を回復可能な計算機の性能情報を演算する手順と、
    前記演算した性能情報に基づいて前記第2の計算機システムを構成する計算機の性能を変更する手順と、
    を含むことを特徴とする請求項13に記載の計算機システムの管理方法。
  15. プロセッサと記憶装置及びインターフェースを有し、
    プロセッサと記憶装置及びインターフェースを含んで業務を実行する複数の計算機を備えた第1の計算機システムと、
    プロセッサと記憶装置及びインターフェースを含んで複数の計算機を備えた第2の計算機システムと、
    前記インターフェースを介して第1の計算機システムと第2の計算機システム及び管理サーバを接続するネットワークと、を備え、
    前記第1の計算機システムの計算機に障害が発生したときには、前記第2の計算機システムの計算機に前記業務を引き継がせる管理サーバであって、
    前記管理サーバは、
    前記インターフェースを介して前記プロセッサが受信した第1の計算機システムの計算機毎の稼動情報を前記記憶装置に格納し、当該稼動情報に基づいて前記第1の計算機システムの計算機に障害が発生したことを検知する障害監視部と、
    前記稼動情報に基づいて前記プロセッサが前記発生した障害の要因を検出し、当該障害の要因と、前記第2の計算機システムを構成する計算機の性能情報に基づいて、前記第2の計算機システムの中から前記障害を回復可能な計算機を選択する予備系ノード選択部と、
    前記障害が発生した第1の計算機システムで実行していた業務を、前記選択した第2の計算機システムの計算機に引き継ぐように当該選択した計算機に前記プロセッサが指令する予備系ノード起動部と、
    を備えたことを特徴とする管理サーバ。
  16. プロセッサと記憶装置及びインターフェースを有し、
    プロセッサと記憶装置及びインターフェースを含んで業務を実行する複数の計算機を備えた第1の計算機システムと、
    プロセッサと記憶装置及びインターフェースを含んで複数の計算機を備えた第2の計算機システムと、
    前記インターフェースを介して前記第1の計算機システムと第2の計算機システム及び管理サーバを接続するネットワークとを備え、
    前記第1の計算機システムの計算機に障害が発生したときには、前記第2の計算機システムの計算機に前記業務を引き継がせる管理サーバであって、
    前記管理サーバは、
    前記インターフェースを介して前記プロセッサが受信した第1の計算機システムの計算機毎の稼動情報を前記記憶装置に格納し、当該稼動情報に基づいて前記第1の計算機システムの計算機に障害が発生したことを検知する障害監視部と、
    前記稼動情報に基づいて前記プロセッサが前記障害を回復可能な性能情報を演算し、当該性能情報に基づいて前記第2の計算機システムに計算機の性能を変更する指令を送信するノード環境設定制御部と、
    前記障害が発生した第1の計算機システムで実行していた業務を、前記性能を変更した第2の計算機システムの計算機に引き継ぐように前記第2の計算機システムへ前記プロセッサが指令する予備系ノード起動部と、
    を備えたことを特徴とする管理サーバ。
  17. 前記第2の計算機システムは、物理計算機上に複数の仮想計算機を実行させる仮想化部を有し、
    前記ノード環境設定制御部は、
    前記性能情報に基づいて前記第2の計算機システムの仮想化部に仮想計算機の性能を変更する指令を送信し、
    前記予備系ノード起動部は、
    前記障害が発生した第1の計算機システムで実行していた業務を、前記性能を変更した第2の計算機システムの仮想計算機に引き継ぐように前記第2の計算機システムの仮想計算機へ前記プロセッサが指令することを特徴とする請求項16に記載の管理サーバ。
  18. 業務を実行する複数の計算機を備えた第1の計算機システムと、
    複数の計算機を備えた第2の計算機システムと、
    前記第1の計算機システムの計算機に障害が発生したときには、前記第2の計算機システムの計算機で業務を引き継がせる管理サーバと、
    前記第1の計算機システムと第2の計算機システム及び管理サーバを接続するネットワークとを備えた計算機システムであって、
    前記第1の計算機システムの計算機は、
    演算を実行するプロセッサと、
    データを格納するストレージ部とプロセッサの間で、データの転送を制御するI/O制御部と、
    前記プロセッサとネットワークとの間で通信を制御する通信制御部と、
    前記プロセッサとI/O制御部及び通信制御部の稼動状態を検出する状態検知部と、
    前記状態検知部に異常が発生したか否かを判定する異常検知部と、
    前記異常が発生したときには、当該異常が発生した部位を異常の種類として設定し、異常の発生と前記種類と当該異常の発生した計算機の識別子を前記管理サーバに通知する状態通知部と、
    を備えたことを特徴とする計算機システム。
  19. 業務を実行する複数の計算機を備えた第1の計算機システムと、複数の計算機を備えた第2の計算機システムと、を備えて、前記第1の計算機システムの計算機に障害が発生したときには、前記第2の計算機システムの計算機に第1の計算機システムの計算機で実行していた業務を引き継がせる処理を管理サーバに機能させるプログラムであって、
    前記第1の計算機システムの計算機毎の稼働状態を示す稼動情報を収集する手順と、
    前記稼動情報に基づいて、前記第1の計算機システムを構成する計算機に障害が発生したことを検知する処理と、
    前記稼動情報に基づいて前記前記第1の計算機システムを構成する計算機に発生した障害の要因を検出する処理と、
    前記第2の計算機システムを構成する計算機の性能に関する性能情報を取得する処理と、
    前記第1の計算機システムに発生した障害の要因と、前記取得した第2の計算機システムの計算機の性能情報に基づいて、前記第2の計算機システムの中から前記障害を回復可能な計算機を選択する処理と、
    前記選択した第2の計算機システムの計算機に、前記障害が発生した第1の計算機システムの計算機で実行していた業務を引き継ぐ指令を送信する処理と、
    を前記管理サーバに機能させることを特徴とするプログラム。
  20. 業務を実行する複数の計算機を備えた第1の計算機システムと、複数の計算機を備えた第2の計算機システムと、を備えて、前記第1の計算機システムの計算機に障害が発生したときには、前記第2の計算機システムの計算機に第1の計算機システムの計算機で実行していた業務を引き継がせる処理を管理サーバに機能させるプログラムであって、
    前記第1の計算機システムの計算機毎の稼働状態を示す稼動情報を収集する手順と、
    前記稼動情報に基づいて、前記第1の計算機システムを構成する計算機に障害が発生したことを検知する処理と、
    前記稼動情報に基づいて前記前記第1の計算機システムを構成する計算機に発生した障害の要因を検出する処理と、
    前記第2の計算機システムを構成する計算機の性能に関する性能情報を取得する処理と、
    前記第1の計算機システムに発生した障害の要因と、前記取得した第2の計算機システムの計算機の性能情報に基づいて前記障害を回復可能な計算機の性能情報を演算する処理と、
    前記演算した性能情報に基づいて前記第2の計算機システムを構成する計算機の性能を変更する処理と、
    前記性能を変更した第2の計算機システムの計算機に、前記障害が発生した第1の計算機システムの計算機で実行していた業務を引き継ぐ指令を送信する処理と、
    を前記管理サーバに機能させることを特徴とするプログラム。
JP2006329366A 2006-01-06 2006-12-06 計算機システムの管理方法、管理サーバ、計算機システム及びプログラム Expired - Fee Related JP4920391B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006329366A JP4920391B2 (ja) 2006-01-06 2006-12-06 計算機システムの管理方法、管理サーバ、計算機システム及びプログラム
US11/620,179 US7797572B2 (en) 2006-01-06 2007-01-05 Computer system management method, management server, computer system, and program

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2006001831 2006-01-06
JP2006001831 2006-01-06
JP2006329366A JP4920391B2 (ja) 2006-01-06 2006-12-06 計算機システムの管理方法、管理サーバ、計算機システム及びプログラム

Publications (2)

Publication Number Publication Date
JP2007207219A true JP2007207219A (ja) 2007-08-16
JP4920391B2 JP4920391B2 (ja) 2012-04-18

Family

ID=38323568

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006329366A Expired - Fee Related JP4920391B2 (ja) 2006-01-06 2006-12-06 計算機システムの管理方法、管理サーバ、計算機システム及びプログラム

Country Status (2)

Country Link
US (1) US7797572B2 (ja)
JP (1) JP4920391B2 (ja)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009129148A (ja) * 2007-11-22 2009-06-11 Hitachi Ltd サーバ切り替え方法、およびサーバシステム
JP2009237758A (ja) * 2008-03-26 2009-10-15 Nec Corp サーバシステム、サーバ管理方法、およびそのプログラム
JP2009265805A (ja) * 2008-04-23 2009-11-12 Hitachi Ltd フェイルオーバ方法、プログラム、フェイルオーバ装置およびフェイルオーバシステム
JP2010128644A (ja) * 2008-11-26 2010-06-10 Hitachi Ltd 障害復旧方法、プログラムおよび管理サーバ
JP2010282326A (ja) * 2009-06-03 2010-12-16 Nec Corp 情報処理システム、情報処理システムの障害対応機構、及び情報処理システムの障害対応方法
WO2011148524A1 (ja) * 2010-05-28 2011-12-01 株式会社日立製作所 アプリケーションサーバの切替方法、管理計算機及びプログラムを格納した記憶媒体
JP2012093868A (ja) * 2010-10-26 2012-05-17 Nec Corp サービス提供システム、サービス提供サーバ、サービス提供方法、及びプログラム
WO2012101759A1 (ja) * 2011-01-25 2012-08-02 富士通株式会社 プロセッサ処理方法、およびプロセッサシステム
WO2012164689A1 (ja) * 2011-05-31 2012-12-06 株式会社日立製作所 ジョブ管理サーバ及びジョブ管理方法
JP2013003711A (ja) * 2011-06-14 2013-01-07 Shindengen Electric Mfg Co Ltd 監視装置、監視方法、監視プログラム及び監視システム
JP2013008320A (ja) * 2011-06-27 2013-01-10 Nippon Telegr & Teleph Corp <Ntt> ネットワークシステム、冗長化方法、障害検知装置及び障害検知プログラム
JP2013501270A (ja) * 2009-07-31 2013-01-10 株式会社エヌ・ティ・ティ・ドコモ 信頼性保証のある仮想化インフラストラクチャのためのリソース割振りプロトコル
WO2013072985A1 (ja) * 2011-11-14 2013-05-23 株式会社日立製作所 計算機システムを管理する管理システム、計算機システムの管理方法及び記憶媒体
JP2013161252A (ja) * 2012-02-03 2013-08-19 Fujitsu Ltd 冗長コンピュータ制御プログラム、方法、及び装置
JP2013196452A (ja) * 2012-03-21 2013-09-30 Nec Corp クラスタシステム
JP2013251006A (ja) * 2013-09-04 2013-12-12 Canon Inc 情報処理システム、システム、情報処理システム制御方法、およびそのプログラム
JP2014116035A (ja) * 2014-02-20 2014-06-26 Hitachi Ltd サーバ切り替え方法、サーバシステム、及び管理計算機
WO2014147802A1 (ja) * 2013-03-21 2014-09-25 富士通株式会社 情報処理装置、資源割当方法、及びプログラム
US8908220B2 (en) 2009-10-27 2014-12-09 Canon Kabushiki Kaisha Information processing system, print system, and method and computer-readable storage medium for controlling information processing system
WO2015052836A1 (ja) * 2013-10-11 2015-04-16 株式会社日立製作所 ストレージ装置及びフェールオーバ方法
WO2015163084A1 (ja) * 2014-04-22 2015-10-29 オリンパス株式会社 データ処理システム及びデータ処理方法
WO2016013116A1 (ja) * 2014-07-25 2016-01-28 株式会社日立製作所 ストレージ装置
US9354914B2 (en) 2011-09-26 2016-05-31 Fujitsu Limited Storage system
WO2018235310A1 (ja) * 2017-06-23 2018-12-27 三菱電機株式会社 切替管理装置、監視制御システム、切替管理方法および切替管理プログラム
DE112017006451T5 (de) 2017-01-24 2019-09-12 Mitsubishi Electric Corporation Gemeinsam genutzte Backup-Einheit und Steuersystem
WO2021234885A1 (ja) * 2020-05-21 2021-11-25 日本電信電話株式会社 コンテナリソース設計装置、コンテナリソース設計方法およびプログラム
JP2022070769A (ja) * 2020-10-27 2022-05-13 株式会社日立製作所 クラスタシステム、クラスタシステムのフェイルオーバー制御方法

Families Citing this family (81)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008269462A (ja) * 2007-04-24 2008-11-06 Hitachi Ltd ノードの管理装置及び方法
US20080294705A1 (en) * 2007-05-24 2008-11-27 Jens Brauckhoff Performance Improvement with Mapped Files
US8682916B2 (en) 2007-05-25 2014-03-25 F5 Networks, Inc. Remote file virtualization in a switched file system
US8762664B2 (en) * 2007-08-30 2014-06-24 Red Hat, Inc. Replicating cache nodes in a cluster
US9106800B2 (en) * 2007-08-31 2015-08-11 At&T Intellectual Property I, L.P. System and method of monitoring video data packet delivery
US7383327B1 (en) * 2007-10-11 2008-06-03 Swsoft Holdings, Ltd. Management of virtual and physical servers using graphic control panels
US7941510B1 (en) 2007-10-11 2011-05-10 Parallels Holdings, Ltd. Management of virtual and physical servers using central console
US8548953B2 (en) 2007-11-12 2013-10-01 F5 Networks, Inc. File deduplication using storage tiers
JP4906686B2 (ja) * 2007-11-19 2012-03-28 三菱電機株式会社 仮想マシンサーバサイジング装置及び仮想マシンサーバサイジング方法及び仮想マシンサーバサイジングプログラム
US8214467B2 (en) * 2007-12-14 2012-07-03 International Business Machines Corporation Migrating port-specific operating parameters during blade server failover
JP4547440B2 (ja) * 2008-03-31 2010-09-22 富士通株式会社 仮想テープシステム
US8549582B1 (en) 2008-07-11 2013-10-01 F5 Networks, Inc. Methods for handling a multi-protocol content name and systems thereof
US8780718B2 (en) * 2008-11-25 2014-07-15 Citrix Systems, Inc. Systems and methods for maintaining persistence by a backup virtual server
US8117487B1 (en) * 2008-12-29 2012-02-14 Symantec Corporation Method and apparatus for proactively monitoring application health data to achieve workload management and high availability
JP5251575B2 (ja) * 2009-02-10 2013-07-31 富士通株式会社 グリッドコンピューティングの管理プログラム
US9003411B2 (en) * 2009-05-13 2015-04-07 Verizon Patent And Licensing Inc. Automated provisioning and configuration of virtual and physical servers
US8429652B2 (en) 2009-06-22 2013-04-23 Citrix Systems, Inc. Systems and methods for spillover in a multi-core system
WO2011043011A1 (ja) * 2009-10-09 2011-04-14 日本電気株式会社 仮想サーバシステム、その自律制御サーバ、そのデータ処理方法およびコンピュータプログラム
CN102063447A (zh) * 2009-11-16 2011-05-18 联想(北京)有限公司 系统状态切换时的文件呈现方法及便携终端
US8224993B1 (en) * 2009-12-07 2012-07-17 Amazon Technologies, Inc. Managing power consumption in a data center
US8825859B2 (en) * 2009-12-23 2014-09-02 Citrix Systems, Inc. System and methods for mixed mode of IPv6 and IPv4 DNS of global server load balancing
US9098335B2 (en) * 2009-12-23 2015-08-04 Citrix Systems, Inc. Systems and methods for managing spillover limits in a multi-core system
CN102763393B (zh) 2009-12-23 2016-07-13 思杰系统有限公司 用于在多核系统中管理跨越核的rtsp的端口的系统和方法
US8515726B2 (en) * 2010-01-20 2013-08-20 Xyratex Technology Limited Method, apparatus and computer program product for modeling data storage resources in a cloud computing environment
US9195500B1 (en) 2010-02-09 2015-11-24 F5 Networks, Inc. Methods for seamless storage importing and devices thereof
JP5691248B2 (ja) * 2010-05-28 2015-04-01 富士通株式会社 タスク引継プログラム、処理装置及びコンピュータ・システム
US9286298B1 (en) 2010-10-14 2016-03-15 F5 Networks, Inc. Methods for enhancing management of backup data sets and devices thereof
US20130268801A1 (en) * 2010-12-10 2013-10-10 Nec Corporation Server management apparatus, server management method, and program
JP5229696B2 (ja) * 2011-03-04 2013-07-03 日本電気株式会社 情報処理システム、情報処理装置、その制御方法、及びその制御プログラム、通信環境監視復旧方法
US8639815B2 (en) * 2011-08-31 2014-01-28 International Business Machines Corporation Selecting a primary-secondary host pair for mirroring virtual machines
US9020912B1 (en) 2012-02-20 2015-04-28 F5 Networks, Inc. Methods for accessing data in a compressed file system and devices thereof
US20130275353A1 (en) * 2012-04-16 2013-10-17 Apple Inc. Systems and methods for selecting media items
US10157110B2 (en) * 2012-09-24 2018-12-18 Nec Corporation Distributed system, server computer, distributed management server, and failure prevention method
US9519501B1 (en) 2012-09-30 2016-12-13 F5 Networks, Inc. Hardware assisted flow acceleration and L2 SMAC management in a heterogeneous distributed multi-tenant virtualized clustered system
WO2014080492A1 (ja) * 2012-11-22 2014-05-30 株式会社日立製作所 計算機システム、クラスタ管理方法、及び管理計算機
US9405605B1 (en) * 2013-01-21 2016-08-02 Amazon Technologies, Inc. Correction of dependency issues in network-based service remedial workflows
US10375155B1 (en) 2013-02-19 2019-08-06 F5 Networks, Inc. System and method for achieving hardware acceleration for asymmetric flow connections
US9554418B1 (en) 2013-02-28 2017-01-24 F5 Networks, Inc. Device for topology hiding of a visited network
CN105247819B (zh) * 2013-04-17 2019-07-16 希斯泰克公司 用于利用双重蜂窝接口的机器对机器的通信的网关设备
JP6155861B2 (ja) * 2013-06-06 2017-07-05 富士通株式会社 データ管理方法、データ管理プログラム、データ管理システム及びデータ管理装置
WO2015016832A1 (en) * 2013-07-30 2015-02-05 Hewlett-Packard Development Company, L.P. Recovering stranded data
US9971660B2 (en) * 2014-09-12 2018-05-15 Vmware, Inc. Virtual machine network loss detection and recovery for high availability
US9454416B2 (en) 2014-10-14 2016-09-27 Netapp, Inc. Detecting high availability readiness of a distributed computing system
CN104468242A (zh) * 2014-12-29 2015-03-25 同方威视技术股份有限公司 自动切换方法及系统
US20160239394A1 (en) * 2015-02-13 2016-08-18 Netapp, Inc. Methods for improving management of input or output operations in a network storage environment with a failure and devices thereof
US10834065B1 (en) 2015-03-31 2020-11-10 F5 Networks, Inc. Methods for SSL protected NTLM re-authentication and devices thereof
KR20170045928A (ko) * 2015-10-20 2017-04-28 삼성에스디에스 주식회사 인메모리 데이터베이스를 이용한 데이터 관리 방법 및 그 장치
US10476773B2 (en) * 2015-10-21 2019-11-12 Microsoft Technology Licensing, Llc Substituting window endpoints using a health monitor
CN106775997B (zh) * 2015-11-23 2020-12-22 阿里巴巴集团控股有限公司 一种任务处理方法和设备
US10404698B1 (en) 2016-01-15 2019-09-03 F5 Networks, Inc. Methods for adaptive organization of web application access points in webtops and devices thereof
US10412198B1 (en) 2016-10-27 2019-09-10 F5 Networks, Inc. Methods for improved transmission control protocol (TCP) performance visibility and devices thereof
US10552272B2 (en) * 2016-12-14 2020-02-04 Nutanix, Inc. Maintaining high availability during N-node failover
US10567492B1 (en) 2017-05-11 2020-02-18 F5 Networks, Inc. Methods for load balancing in a federated identity environment and devices thereof
US10445197B1 (en) * 2017-05-25 2019-10-15 Amazon Technologies, Inc. Detecting failover events at secondary nodes
US10719407B1 (en) * 2017-06-05 2020-07-21 EMC IP Holding Company LLC Backing up availability group databases configured on multi-node virtual servers
US10635334B1 (en) 2017-09-28 2020-04-28 EMC IP Holding Company LLC Rule based data transfer model to cloud
US10754368B1 (en) * 2017-10-27 2020-08-25 EMC IP Holding Company LLC Method and system for load balancing backup resources
US10942779B1 (en) 2017-10-27 2021-03-09 EMC IP Holding Company LLC Method and system for compliance map engine
CN108196501A (zh) * 2017-12-22 2018-06-22 北京东土科技股份有限公司 一种基于plc的分布式控制系统的容灾方法、装置和系统
US11223689B1 (en) 2018-01-05 2022-01-11 F5 Networks, Inc. Methods for multipath transmission control protocol (MPTCP) based session migration and devices thereof
US10834189B1 (en) 2018-01-10 2020-11-10 EMC IP Holding Company LLC System and method for managing workload in a pooled environment
US10833943B1 (en) 2018-03-01 2020-11-10 F5 Networks, Inc. Methods for service chaining and devices thereof
US10509587B2 (en) 2018-04-24 2019-12-17 EMC IP Holding Company LLC System and method for high priority backup
US10769030B2 (en) 2018-04-25 2020-09-08 EMC IP Holding Company LLC System and method for improved cache performance
CN108650123B (zh) * 2018-05-08 2022-09-06 平安普惠企业管理有限公司 故障信息记录方法、装置、设备和存储介质
US10776225B2 (en) * 2018-06-29 2020-09-15 Hewlett Packard Enterprise Development Lp Proactive cluster compute node migration at next checkpoint of cluster cluster upon predicted node failure
US12003422B1 (en) 2018-09-28 2024-06-04 F5, Inc. Methods for switching network packets based on packet data and devices
US11169887B2 (en) * 2019-02-20 2021-11-09 Cohesity, Inc. Performing a database backup based on automatically discovered properties
US11057478B2 (en) * 2019-05-23 2021-07-06 Fortinet, Inc. Hybrid cluster architecture for reverse proxies
CN112241319A (zh) * 2019-07-19 2021-01-19 伊姆西Ip控股有限责任公司 均衡负载的方法、电子设备和计算机程序产品
US11385975B2 (en) 2019-11-27 2022-07-12 Amazon Technologies, Inc. Systems and methods for enabling a highly available managed failover service
US11397652B2 (en) * 2020-03-27 2022-07-26 Amazon Technologies, Inc. Managing primary region availability for implementing a failover from another primary region
US11411808B2 (en) * 2020-03-27 2022-08-09 Amazon Technologies, Inc. Managing failover region availability for implementing a failover service
US11397651B2 (en) * 2020-03-27 2022-07-26 Amazon Technologies, Inc. Managing failover region availability for implementing a failover service
US11979947B2 (en) 2020-05-04 2024-05-07 Systech Corporation Dual channel gateway device for machine-to-machine communication
WO2022029340A1 (en) 2020-08-07 2022-02-10 Softiron Limited Current monitor for security
WO2022043386A1 (en) * 2020-08-25 2022-03-03 Softiron Limited Shadow node with cold and warm server standby
US12019528B2 (en) * 2020-08-25 2024-06-25 Softiron Limited Centralized server management for shadow nodes
US11709741B1 (en) 2021-03-29 2023-07-25 Amazon Technologies, Inc. Systems and methods for enabling a failover service for block-storage volumes
US11237892B1 (en) * 2021-04-19 2022-02-01 Hewlett Packard Enterprise Development Lp Obtaining data for fault identification
CN116915584B (zh) * 2023-09-08 2023-12-08 新华三技术有限公司 一种在网计算异常处理方法及装置

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1185547A (ja) * 1997-09-12 1999-03-30 Hitachi Ltd 仮想クラスタ構成方法
JP2001092800A (ja) * 1999-09-17 2001-04-06 Hitachi Ltd システム切替方法およびコンピュータシステム
JP2001166955A (ja) * 1999-12-10 2001-06-22 Fujitsu Ltd マルチプロセッサシステム及び機能引継ぎ制御方法
JP2001306349A (ja) * 2000-04-27 2001-11-02 Mitsubishi Electric Corp バックアップ装置及びバックアップ方法
JP2002183106A (ja) * 2000-12-11 2002-06-28 Hitachi Ltd サービス切替システム及び方法
JP2003330737A (ja) * 2002-05-15 2003-11-21 Hitachi Ltd 計算機システム
JP2004062470A (ja) * 2002-07-29 2004-02-26 Nec Engineering Ltd マルチプロセッサの切り替え方式
JP2004355446A (ja) * 2003-05-30 2004-12-16 Hitachi Ltd クラスタシステム及びその制御方法
JP2005234917A (ja) * 2004-02-20 2005-09-02 Hitachi Ltd 障害時のサーバ決定方法
JP2005250840A (ja) * 2004-03-04 2005-09-15 Nomura Research Institute Ltd 耐障害システムのための情報処理装置
JP2005258983A (ja) * 2004-03-15 2005-09-22 Hitachi Ltd 複数のクラスタシステムを有するコンピュータシステム、および、コンピュータシステムの制御方法
JP2005339300A (ja) * 2004-05-28 2005-12-08 Hitachi Ltd データベース処理方法およびシステム並びにその処理プログラム
JP2006113828A (ja) * 2004-10-15 2006-04-27 Hitachi Ltd 作業負荷管理可能なクラスタシステム
JP2006277690A (ja) * 2005-03-30 2006-10-12 Nec Corp クラスタシステム、クラスタ切り替え方法、クラスタ切り替え制御プログラム

Family Cites Families (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3949125A (en) * 1965-05-14 1976-04-06 Roberts Arthur H Molded solid plastics articles and a method for their manufacture
US4177182A (en) * 1974-10-28 1979-12-04 Terumo Corp. Polyvinyl chloride series resin medical product implements and method of manufacturing the same using siloxane oil additive
US4028845A (en) * 1976-01-21 1977-06-14 Marvin Glass & Associates Layered skin doll
US5283897A (en) * 1990-04-30 1994-02-01 International Business Machines Corporation Semi-dynamic load balancer for periodically reassigning new transactions of a transaction type from an overload processor to an under-utilized processor based on the predicted load thereof
JP3550460B2 (ja) * 1996-04-25 2004-08-04 株式会社日立製作所 サーバレスプラント監視・制御装置
US5673382A (en) * 1996-05-30 1997-09-30 International Business Machines Corporation Automated management of off-site storage volumes for disaster recovery
US5938729A (en) * 1996-07-12 1999-08-17 Microsoft Corporation System and method for monitoring server performance at a client computer
US6145089A (en) * 1997-11-10 2000-11-07 Legato Systems, Inc. Server fail-over system
US6314526B1 (en) * 1998-07-10 2001-11-06 International Business Machines Corporation Resource group quorum scheme for highly scalable and highly available cluster system management
JP3062155B2 (ja) * 1998-07-31 2000-07-10 三菱電機株式会社 計算機システム
US6266784B1 (en) * 1998-09-15 2001-07-24 International Business Machines Corporation Direct storage of recovery plan file on remote server for disaster recovery and storage management thereof
US6438705B1 (en) * 1999-01-29 2002-08-20 International Business Machines Corporation Method and apparatus for building and managing multi-clustered computer systems
US6446218B1 (en) * 1999-06-30 2002-09-03 B-Hub, Inc. Techniques for maintaining fault tolerance for software programs in a clustered computer system
US6553401B1 (en) * 1999-07-09 2003-04-22 Ncr Corporation System for implementing a high volume availability server cluster including both sharing volume of a mass storage on a local site and mirroring a shared volume on a remote site
WO2002071220A1 (en) * 2001-03-05 2002-09-12 Sanpro Systems Inc. A system and a method for asynchronous replication for storage area networks
US20030005350A1 (en) * 2001-06-29 2003-01-02 Maarten Koning Failover management system
US6922791B2 (en) * 2001-08-09 2005-07-26 Dell Products L.P. Failover system and method for cluster environment
US7484114B2 (en) * 2001-08-17 2009-01-27 International Business Machines Corporation Method and apparatus for providing redundant access to a shared resource with a shareable spare adapter
US7392302B2 (en) * 2002-02-21 2008-06-24 Bea Systems, Inc. Systems and methods for automated service migration
US7287075B2 (en) * 2002-02-22 2007-10-23 Bea Systems, Inc. System for monitoring managed server health
US7392421B1 (en) * 2002-03-18 2008-06-24 Symantec Operating Corporation Framework for managing clustering and replication
US7120827B2 (en) * 2002-05-07 2006-10-10 Hitachi Ltd. System and method of volume health checking and recovery
JP2003345531A (ja) * 2002-05-24 2003-12-05 Hitachi Ltd ストレージシステム、管理サーバ、及びそのアプリケーションの管理方法
US6986076B1 (en) * 2002-05-28 2006-01-10 Unisys Corporation Proactive method for ensuring availability in a clustered system
US7529822B2 (en) * 2002-05-31 2009-05-05 Symantec Operating Corporation Business continuation policy for server consolidation environment
US7496668B2 (en) * 2002-06-28 2009-02-24 Honeywell International Inc. OPC server redirection manager
JP4130615B2 (ja) * 2003-07-02 2008-08-06 株式会社日立製作所 ストレージ装置を有するネットワークにおける障害情報管理方法及び管理サーバ
JP4175083B2 (ja) * 2002-10-29 2008-11-05 株式会社日立製作所 記憶装置の管理用計算機、およびプログラム
JP4325843B2 (ja) * 2002-12-20 2009-09-02 株式会社日立製作所 論理ボリュームコピー先性能調整方法及び装置
JP4037257B2 (ja) * 2002-12-26 2008-01-23 株式会社日立製作所 情報処理システムの制御方法、情報処理システム、及びプログラム
US20040181707A1 (en) * 2003-03-11 2004-09-16 Hitachi, Ltd. Method and apparatus for seamless management for disaster recovery
JP4141875B2 (ja) * 2003-03-27 2008-08-27 株式会社日立製作所 リカバリ処理方法及びその実施システム並びにその処理プログラム
JP2004318744A (ja) * 2003-04-21 2004-11-11 Hitachi Ltd 高可用性を提供するデータベース処理方法
US7483374B2 (en) * 2003-08-05 2009-01-27 Scalent Systems, Inc. Method and apparatus for achieving dynamic capacity and high availability in multi-stage data networks using adaptive flow-based routing
US7225356B2 (en) * 2003-11-06 2007-05-29 Siemens Medical Solutions Health Services Corporation System for managing operational failure occurrences in processing devices
JP2005157712A (ja) * 2003-11-26 2005-06-16 Hitachi Ltd リモートコピーネットワーク
US7234075B2 (en) * 2003-12-30 2007-06-19 Dell Products L.P. Distributed failover aware storage area network backup of application data in an active-N high availability cluster
US6996502B2 (en) * 2004-01-20 2006-02-07 International Business Machines Corporation Remote enterprise management of high availability systems
US7246256B2 (en) * 2004-01-20 2007-07-17 International Business Machines Corporation Managing failover of J2EE compliant middleware in a high availability system
JP4315016B2 (ja) * 2004-02-24 2009-08-19 株式会社日立製作所 コンピュータシステムの系切替方法
US7444536B1 (en) * 2004-04-16 2008-10-28 Sun Microsystems, Inc. RMI-IIOP request failover mechanism
US7512668B2 (en) * 2004-04-21 2009-03-31 Sap Ag Message-oriented middleware server instance failover
JP2005326935A (ja) * 2004-05-12 2005-11-24 Hitachi Ltd 仮想化ストレージを備える計算機システムの管理サーバおよび障害回避復旧方法
US20050283636A1 (en) * 2004-05-14 2005-12-22 Dell Products L.P. System and method for failure recovery in a cluster network
US7434087B1 (en) * 2004-05-21 2008-10-07 Sun Microsystems, Inc. Graceful failover using augmented stubs
JP2005338893A (ja) * 2004-05-24 2005-12-08 Hitachi Ltd データ処理システムおよびディスクアクセス制御方法並びにその処理プログラム
JP3826940B2 (ja) * 2004-06-02 2006-09-27 日本電気株式会社 障害復旧装置および障害復旧方法、マネージャ装置並びにプログラム
US20060029016A1 (en) * 2004-06-29 2006-02-09 Radware Limited Debugging application performance over a network
US7383462B2 (en) * 2004-07-02 2008-06-03 Hitachi, Ltd. Method and apparatus for encrypted remote copy for secure data backup and restoration
US7373546B2 (en) * 2004-07-22 2008-05-13 Dell Products L.P. Cluster network with redundant communication paths
US7360113B2 (en) * 2004-08-30 2008-04-15 Mendocino Software, Inc. Protocol for communicating data block copies in an error recovery environment
US7409576B2 (en) * 2004-09-08 2008-08-05 Hewlett-Packard Development Company, L.P. High-availability cluster with proactive maintenance
US20060074937A1 (en) * 2004-09-30 2006-04-06 International Business Machines Corporation Apparatus and method for client-side routing of database requests
JP2006107151A (ja) * 2004-10-06 2006-04-20 Hitachi Ltd ストレージシステム及びストレージシステムの通信パス制御方法
US7325156B1 (en) * 2004-10-07 2008-01-29 Hewlett-Packard Development Company, L.P. Methods and apparatus for backing up data in a data center
US7475274B2 (en) * 2004-11-17 2009-01-06 Raytheon Company Fault tolerance and recovery in a high-performance computing (HPC) system
US7523286B2 (en) * 2004-11-19 2009-04-21 Network Appliance, Inc. System and method for real-time balancing of user workload across multiple storage systems with shared back end storage
JP4462024B2 (ja) * 2004-12-09 2010-05-12 株式会社日立製作所 ディスク引き継ぎによるフェイルオーバ方法
JP4516458B2 (ja) * 2005-03-18 2010-08-04 株式会社日立製作所 フェイルオーバークラスタシステム及びフェイルオーバー方法
US7484040B2 (en) * 2005-05-10 2009-01-27 International Business Machines Corporation Highly available removable media storage network environment
US7464303B2 (en) * 2005-06-09 2008-12-09 International Business Machines Corporation Autonomically adjusting configuration parameters for a server when a different server fails
US7870230B2 (en) * 2005-07-15 2011-01-11 International Business Machines Corporation Policy-based cluster quorum determination
US7480816B1 (en) * 2005-08-04 2009-01-20 Sun Microsystems, Inc. Failure chain detection and recovery in a group of cooperating systems
CN101248628A (zh) * 2005-09-02 2008-08-20 富士通株式会社 网络接口控制程序以及网络接口控制装置
US7484132B2 (en) * 2005-10-28 2009-01-27 International Business Machines Corporation Clustering process for software server failure prediction
US7447940B2 (en) * 2005-11-15 2008-11-04 Bea Systems, Inc. System and method for providing singleton services in a cluster
US7702947B2 (en) * 2005-11-29 2010-04-20 Bea Systems, Inc. System and method for enabling site failover in an application server environment
US7500134B2 (en) * 2005-12-27 2009-03-03 Emc Corporation Virtual array failover

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1185547A (ja) * 1997-09-12 1999-03-30 Hitachi Ltd 仮想クラスタ構成方法
JP2001092800A (ja) * 1999-09-17 2001-04-06 Hitachi Ltd システム切替方法およびコンピュータシステム
JP2001166955A (ja) * 1999-12-10 2001-06-22 Fujitsu Ltd マルチプロセッサシステム及び機能引継ぎ制御方法
JP2001306349A (ja) * 2000-04-27 2001-11-02 Mitsubishi Electric Corp バックアップ装置及びバックアップ方法
JP2002183106A (ja) * 2000-12-11 2002-06-28 Hitachi Ltd サービス切替システム及び方法
JP2003330737A (ja) * 2002-05-15 2003-11-21 Hitachi Ltd 計算機システム
JP2004062470A (ja) * 2002-07-29 2004-02-26 Nec Engineering Ltd マルチプロセッサの切り替え方式
JP2004355446A (ja) * 2003-05-30 2004-12-16 Hitachi Ltd クラスタシステム及びその制御方法
JP2005234917A (ja) * 2004-02-20 2005-09-02 Hitachi Ltd 障害時のサーバ決定方法
JP2005250840A (ja) * 2004-03-04 2005-09-15 Nomura Research Institute Ltd 耐障害システムのための情報処理装置
JP2005258983A (ja) * 2004-03-15 2005-09-22 Hitachi Ltd 複数のクラスタシステムを有するコンピュータシステム、および、コンピュータシステムの制御方法
JP2005339300A (ja) * 2004-05-28 2005-12-08 Hitachi Ltd データベース処理方法およびシステム並びにその処理プログラム
JP2006113828A (ja) * 2004-10-15 2006-04-27 Hitachi Ltd 作業負荷管理可能なクラスタシステム
JP2006277690A (ja) * 2005-03-30 2006-10-12 Nec Corp クラスタシステム、クラスタ切り替え方法、クラスタ切り替え制御プログラム

Cited By (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009129148A (ja) * 2007-11-22 2009-06-11 Hitachi Ltd サーバ切り替え方法、およびサーバシステム
US8386830B2 (en) 2007-11-22 2013-02-26 Hitachi, Ltd. Server switching method and server system equipped therewith
JP2009237758A (ja) * 2008-03-26 2009-10-15 Nec Corp サーバシステム、サーバ管理方法、およびそのプログラム
JP2009265805A (ja) * 2008-04-23 2009-11-12 Hitachi Ltd フェイルオーバ方法、プログラム、フェイルオーバ装置およびフェイルオーバシステム
JP4659062B2 (ja) * 2008-04-23 2011-03-30 株式会社日立製作所 フェイルオーバ方法、プログラム、管理サーバおよびフェイルオーバシステム
US8010830B2 (en) 2008-04-23 2011-08-30 Hitachi, Ltd. Failover method, program, failover apparatus and failover system
JP2010128644A (ja) * 2008-11-26 2010-06-10 Hitachi Ltd 障害復旧方法、プログラムおよび管理サーバ
JP4648447B2 (ja) * 2008-11-26 2011-03-09 株式会社日立製作所 障害復旧方法、プログラムおよび管理サーバ
JP2010282326A (ja) * 2009-06-03 2010-12-16 Nec Corp 情報処理システム、情報処理システムの障害対応機構、及び情報処理システムの障害対応方法
US8990397B2 (en) 2009-07-31 2015-03-24 Ntt Docomo, Inc. Resource allocation protocol for a virtualized infrastructure with reliability guarantees
JP2013501270A (ja) * 2009-07-31 2013-01-10 株式会社エヌ・ティ・ティ・ドコモ 信頼性保証のある仮想化インフラストラクチャのためのリソース割振りプロトコル
US8908220B2 (en) 2009-10-27 2014-12-09 Canon Kabushiki Kaisha Information processing system, print system, and method and computer-readable storage medium for controlling information processing system
JP2011248735A (ja) * 2010-05-28 2011-12-08 Hitachi Ltd サーバ計算機の切替方法、管理計算機及びプログラム
WO2011148524A1 (ja) * 2010-05-28 2011-12-01 株式会社日立製作所 アプリケーションサーバの切替方法、管理計算機及びプログラムを格納した記憶媒体
JP2012093868A (ja) * 2010-10-26 2012-05-17 Nec Corp サービス提供システム、サービス提供サーバ、サービス提供方法、及びプログラム
WO2012101759A1 (ja) * 2011-01-25 2012-08-02 富士通株式会社 プロセッサ処理方法、およびプロセッサシステム
JP5704176B2 (ja) * 2011-01-25 2015-04-22 富士通株式会社 プロセッサ処理方法、およびプロセッサシステム
JPWO2012101759A1 (ja) * 2011-01-25 2014-06-30 富士通株式会社 プロセッサ処理方法、およびプロセッサシステム
WO2012164689A1 (ja) * 2011-05-31 2012-12-06 株式会社日立製作所 ジョブ管理サーバ及びジョブ管理方法
JP5651772B2 (ja) * 2011-05-31 2015-01-14 株式会社日立製作所 ジョブ管理サーバ及びジョブ管理方法
US9112750B2 (en) 2011-05-31 2015-08-18 Hitachi, Ltd. Job management server and job management method
JP2013003711A (ja) * 2011-06-14 2013-01-07 Shindengen Electric Mfg Co Ltd 監視装置、監視方法、監視プログラム及び監視システム
JP2013008320A (ja) * 2011-06-27 2013-01-10 Nippon Telegr & Teleph Corp <Ntt> ネットワークシステム、冗長化方法、障害検知装置及び障害検知プログラム
US9354914B2 (en) 2011-09-26 2016-05-31 Fujitsu Limited Storage system
US9417978B2 (en) 2011-11-14 2016-08-16 Hitachi, Ltd. Management system for managing computer system, method for managing computer system, and storage medium
WO2013072985A1 (ja) * 2011-11-14 2013-05-23 株式会社日立製作所 計算機システムを管理する管理システム、計算機システムの管理方法及び記憶媒体
JPWO2013072985A1 (ja) * 2011-11-14 2015-04-02 株式会社日立製作所 計算機システムを管理する管理システム、計算機システムの管理方法及び記憶媒体
JP2013161252A (ja) * 2012-02-03 2013-08-19 Fujitsu Ltd 冗長コンピュータ制御プログラム、方法、及び装置
JP2013196452A (ja) * 2012-03-21 2013-09-30 Nec Corp クラスタシステム
US9792142B2 (en) 2013-03-21 2017-10-17 Fujitsu Limited Information processing device and resource allocation method
WO2014147802A1 (ja) * 2013-03-21 2014-09-25 富士通株式会社 情報処理装置、資源割当方法、及びプログラム
JP2013251006A (ja) * 2013-09-04 2013-12-12 Canon Inc 情報処理システム、システム、情報処理システム制御方法、およびそのプログラム
US9262289B2 (en) 2013-10-11 2016-02-16 Hitachi, Ltd. Storage apparatus and failover method
WO2015052836A1 (ja) * 2013-10-11 2015-04-16 株式会社日立製作所 ストレージ装置及びフェールオーバ方法
JP2014116035A (ja) * 2014-02-20 2014-06-26 Hitachi Ltd サーバ切り替え方法、サーバシステム、及び管理計算機
US9699509B2 (en) 2014-04-22 2017-07-04 Olympus Corporation Alternate video processing on backup virtual machine due to detected abnormalities on primary virtual machine
WO2015163084A1 (ja) * 2014-04-22 2015-10-29 オリンパス株式会社 データ処理システム及びデータ処理方法
JP5945637B2 (ja) * 2014-04-22 2016-07-05 オリンパス株式会社 データ処理システム及びデータ処理方法
JPWO2015163084A1 (ja) * 2014-04-22 2017-04-13 オリンパス株式会社 データ処理システム及びデータ処理方法
JPWO2016013116A1 (ja) * 2014-07-25 2017-04-27 株式会社日立製作所 ストレージ装置
WO2016013116A1 (ja) * 2014-07-25 2016-01-28 株式会社日立製作所 ストレージ装置
US10296429B2 (en) 2014-07-25 2019-05-21 Hitachi, Ltd. Storage device
DE112017006451T5 (de) 2017-01-24 2019-09-12 Mitsubishi Electric Corporation Gemeinsam genutzte Backup-Einheit und Steuersystem
DE112017006451B4 (de) 2017-01-24 2020-07-16 Mitsubishi Electric Corporation Gemeinsam genutzte Backup-Einheit und Steuersystem
WO2018235310A1 (ja) * 2017-06-23 2018-12-27 三菱電機株式会社 切替管理装置、監視制御システム、切替管理方法および切替管理プログラム
WO2021234885A1 (ja) * 2020-05-21 2021-11-25 日本電信電話株式会社 コンテナリソース設計装置、コンテナリソース設計方法およびプログラム
JP2022070769A (ja) * 2020-10-27 2022-05-13 株式会社日立製作所 クラスタシステム、クラスタシステムのフェイルオーバー制御方法
JP7179810B2 (ja) 2020-10-27 2022-11-29 株式会社日立製作所 クラスタシステム、クラスタシステムのフェイルオーバー制御方法

Also Published As

Publication number Publication date
US20070180314A1 (en) 2007-08-02
US7797572B2 (en) 2010-09-14
JP4920391B2 (ja) 2012-04-18

Similar Documents

Publication Publication Date Title
JP4920391B2 (ja) 計算機システムの管理方法、管理サーバ、計算機システム及びプログラム
JP4980792B2 (ja) 仮想計算機の性能監視方法及びその方法を用いた装置
US8346933B2 (en) Virtual machine location system, virtual machine location method, program, virtual machine manager, and server
JP6219512B2 (ja) 仮想ハドゥープマネジャ
JP5089380B2 (ja) 仮想マシン・コンピュータ・プログラムの動的マイグレーション
US7992032B2 (en) Cluster system and failover method for cluster system
US9396026B2 (en) Allocating a task to a computer based on determined resources
CN106452818B (zh) 一种资源调度的方法和系统
WO2011074284A1 (ja) 仮想計算機の移動方法、仮想計算機システム及びプログラムを格納した記憶媒体
JP2004030363A (ja) 論理計算機システム、論理計算機システムの構成制御方法および論理計算機システムの構成制御プログラム
US8065560B1 (en) Method and apparatus for achieving high availability for applications and optimizing power consumption within a datacenter
WO2014168913A1 (en) Database management system with database hibernation and bursting
WO2012050224A1 (ja) コンピュータリソース制御システム
JP5942509B2 (ja) バッチ処理システム
JP2007156679A (ja) サーバの障害回復方法及びデータベースシステム
JP2005115751A (ja) 計算機システム及び計算機システムの障害兆候の検知方法
US20160004554A1 (en) Information processing device and resource allocation method
EP2645635B1 (en) Cluster monitor, method for monitoring a cluster, and computer-readable recording medium
CN112052072A (zh) 一种虚拟机的调度策略及超融合系统
US10754547B2 (en) Apparatus for managing disaggregated memory and method thereof
JP5597293B2 (ja) 計算機システム及びプログラム
JP6556726B2 (ja) コンピューティング環境においてアダプティブビジーウェイトをサポートするためのシステムおよび方法
JP2009003537A (ja) 計算機
JP5390651B2 (ja) 計算機システム及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090114

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101028

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110207

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110829

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20110901

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111018

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111206

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120110

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120201

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150210

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees