JP4485592B2 - 計算機システムおよび計算機システムの計算機制御方法 - Google Patents

計算機システムおよび計算機システムの計算機制御方法 Download PDF

Info

Publication number
JP4485592B2
JP4485592B2 JP2009052896A JP2009052896A JP4485592B2 JP 4485592 B2 JP4485592 B2 JP 4485592B2 JP 2009052896 A JP2009052896 A JP 2009052896A JP 2009052896 A JP2009052896 A JP 2009052896A JP 4485592 B2 JP4485592 B2 JP 4485592B2
Authority
JP
Japan
Prior art keywords
computer
unit
determination unit
standby
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009052896A
Other languages
English (en)
Other versions
JP2009123238A (ja
Inventor
和宏 村山
裕幸 佐藤
道子 林
正之 目黒
信之 宮森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2009052896A priority Critical patent/JP4485592B2/ja
Publication of JP2009123238A publication Critical patent/JP2009123238A/ja
Application granted granted Critical
Publication of JP4485592B2 publication Critical patent/JP4485592B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、例えば、複数の計算機がネットワークを形成して、連携して複数のプロセスを並行処理する分散システムの可用性を向上させるための制御装置、計算機システム、制御装置のプロセス制御方法、計算機システムの計算機制御方法、計算機制御プログラムおよびプロセス制御プログラムに関するものである。
従来の計算機リソース動的制御方式は、従来例1として例えば特許文献1によれば、繰り返し周期ごとに処理時間と処理データのデータの内容、データの大きさと前回の処理時間をもとにしてプロセスの次の処理時間を予測する手段と、処理予測時間の大きさの範囲ごとに定められたタスクの実行順序案を保持し、予測によって求めた次の処理時間のデータに基づいて、あらかじめ定められた実行順序案に基づいて次の周期の処理順序を決定することにより、処理のデッドラインミス発生を防止することを特徴としている。デッドラインミス発生とは所定時間内に終了しないことを言う。
また従来例2として他の特許文献2によれば、処理すべきプロセス量を単位化して、例えばあるプロセスは8単位、他のプロセスは5単位等とし、この細分化されたプロセスの単位を基準にして、各プロセッサに処理する単位を割当てる方法が示されている。従ってプロセスが持つ単位量を管理するプロセス管理手段と、実行するプロセッサを管理するプロセッサ管理手段と、割当リソース量決定手段とを持っている。
特開平4−171538号公報 特開平6−28323号公報 特開平9−081409号公報 特開平9−016427号公報
上記の従来例1や従来例2では、1つの計算機に障害が発生した場合に、デッドラインミスが発生し続けることを防げない、という課題がある。
この発明は上記のような課題を解決するためになされたもので、例えば、1つの機能に障害が発生した場合でも、プロセスのデッドラインミスの継続発生を防止することを目的とする。
本発明の制御装置は、複数の計算機により実行される複数のプロセスについて、管理中のプロセスとプロセスを管理している計算機とを対応付けたプロセス対応情報を記憶機器に記憶して制御する制御装置であり
異常を発生した計算機をCPU(Central Proccessing Unit)を用いて検出する異常検出部と、
前記異常検出部が検出した計算機が管理しているプロセスを前記プロセス対応情報に基づきCPUを用いて検出する割当プロセス検出部と、
前記異常検出部が検出した計算機以外の各計算機の中で、管理しているプロセスの量が一番少ない計算機を前記プロセス対応情報に基づきCPUを用いて検出する割当先計算機検出部と、
前記割当先計算機検出部が検出した計算機に前記割当プロセス検出部が検出したプロセスを管理させるようCPUを用いて命令するプロセス割当部と
を備えたことを特徴とする。
本発明によれば、常用系計算機に異常が発生した場合に待機系計算機を新たな待機系計算機として稼働させることができるため、例えば、1つの機能に障害が発生した場合でもプロセスのデッドラインミスの継続発生を防止することができる。
実施の形態1における計算機システム200の構成図。 実施の形態1における計算機210のハードウェア資源の一例を示す図。 実施の形態1における常用系計算機の制御部300の構成図。 実施の形態1における待機系計算機の制御部300の構成図。 実施の形態1における計算機制御処理を示す表。 実施の形態1における(A)処理開始通知前制御処理を示すフローチャート。 実施の形態1における(B)処理終了通知前制御処理を示すフローチャート。 実施の形態1における(C)待機系稼働中制御処理を示すフローチャート。 実施の形態1における(D)待機系制御処理を示すフローチャート。 実施の形態2における常用系計算機の常用系プロセス制御部301の構成図。 実施の形態2における常用系プロセス制御部301による、ある計算機210が故障時におけるプロセス制御方法を示すフローチャート。 実施の形態3における全体構成の例。 実施の形態3におけるプロセス情報管理テーブル27の例。 実施の形態3における移行プロセス決定・資源割当部3bが正常動作している場合の動作手順を示す図。 実施の形態3における異常ケース1の動作を示す図。 実施の形態3における異常ケース2の動作を示す図。 実施の形態3における異常ケース3(その1:手順2)の動作を示す図。 実施の形態3における異常ケース3(その2:手順3〜7)の動作を示す図。 実施の形態3における異常ケース4の動作を示す図。 実施の形態3における異常ケース5の動作を示す図。 実施の形態4における全体構成の例。 実施の形態4における処理時間収集・予測部情報テーブル29を示す図。 実施の形態4における処理時間収集・予測部情報テーブル29(その2)を示す図。 実施の形態5における全体構成の例を示す図。 実施の形態5における管理アプリケーション一覧テーブル30を示す図。 実施の形態5における正常時の「処理時間収集部監視部28」の動作を示す図。 実施の形態5におけるケース1の異常時における処理時間収集部監視部28の動作を示す図。 実施の形態5におけるケース2の異常時における処理時間収集部監視部28の動作を示す図。 実施の形態5におけるケース3の異常時における処理時間収集部監視部28の動作を示す図。 実施の形態5におけるケース4の異常時における処理時間収集部監視部28の動作を示す図。 実施の形態6における全体構成の例。
実施の形態1.
図1は、実施の形態1における計算機システム200の構成図である。
計算機システム200は複数の計算機210が通信ネットワークで接続され、各計算機210がデータ通信を行う。
計算機210には、特定の処理を実行する常用系計算機と、常用系計算機が故障した際に新たな常用系計算機として稼働する待機系計算機と、常用系計算機でも待機系計算機でもない一般計算機とがある。一般計算機は待機系計算機が新たな常用系計算機として稼働した場合や待機系計算機が故障した場合に新たな待機系計算機として稼働する。
また、常用系計算機および待機系計算機には制御部300(制御部305)が存在する。
待機系計算機の制御部305は、常用系計算機が故障した際に、新たな常用系計算機の制御部300として稼働し、一般計算機を新たな待機系計算機として稼働させる計算機制御処理を行う。
また、常用系計算機の制御部300は、待機系計算機が故障した際に、一般計算機を新たな待機系計算機として稼働させる計算機制御処理を行う。
図2は、実施の形態1における計算機210のハードウェア資源の一例を示す図である。
図2において、計算機210は、プログラムを実行するCPU911(Central・Processing・Unit、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサともいう)を備えている。CPU911は、バス912を介してROM913、RAM914、通信ボード915、表示装置901、キーボード902、マウス903、FDD904(Flexible・Disk・Drive)、CDD905(コンパクトディスク装置)、プリンタ装置906、スキャナ装置907、マイク908、スピーカー909、磁気ディスク装置920と接続され、これらのハードウェアデバイスを制御する。磁気ディスク装置920の代わりに、光ディスク装置、メモリカード読み書き装置などの記憶装置でもよい。
RAM914は、揮発性メモリの一例である。ROM913、FDD904、CDD905、磁気ディスク装置920の記憶媒体は、不揮発性メモリの一例である。これらは、記憶機器、記憶装置あるいは記憶部の一例である。
通信ボード915、キーボード902、スキャナ装置907、FDD904などは、入力機器、入力装置あるいは入力部の一例である。
また、通信ボード915、表示装置901、プリンタ装置906などは、出力機器、出力装置あるいは出力部の一例である。
通信ボード915は計算機システム200の通信ネットワークに接続されている。
磁気ディスク装置920には、OS921(オペレーティングシステム)、ウィンドウシステム922、プログラム群923、ファイル群924が記憶されている。プログラム群923のプログラムは、CPU911、OS921、ウィンドウシステム922により実行される。
上記プログラム群923には、実施の形態において「〜部」として説明する機能を実行するプログラムが記憶されている。プログラムは、CPU911により読み出され実行される。
ファイル群924には、実施の形態において、「〜部」の機能を実行した際の「〜の判定結果」、「〜の計算結果」、「〜の処理結果」などの結果データ、「〜部」の機能を実行するプログラム間で受け渡しするデータ、その他の情報やデータや信号値や変数値やパラメータが、「〜ファイル」や「〜データベース」の各項目として記憶されている。「〜ファイル」や「〜データベース」は、ディスクやメモリなどの記録媒体に記憶される。ディスクやメモリなどの記憶媒体に記憶された情報やデータや信号値や変数値やパラメータは、読み書き回路を介してCPU911によりメインメモリやキャッシュメモリに読み出され、抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示などのCPUの動作に用いられる。抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示のCPUの動作の間、情報やデータや信号値や変数値やパラメータは、メインメモリやキャッシュメモリやバッファメモリに一時的に記憶される。
また、実施の形態において説明するフローチャートの矢印の部分は主としてデータや信号の入出力を示し、データや信号値は、RAM914のメモリ、FDD904のフレキシブルディスク、CDD905のコンパクトディスク、磁気ディスク装置920の磁気ディスク、その他光ディスク、ミニディスク、DVD(Digital・Versatile・Disc)等の記録媒体に記録される。また、データや信号値は、バス912や信号線やケーブルその他の伝送媒体によりオンライン伝送される。
また、実施の形態において「〜部」として説明するものは、「〜回路」、「〜装置」、「〜機器」、「〜手段」であってもよく、また、「〜ステップ」、「〜手順」、「〜処理」であってもよい。すなわち、「〜部」として説明するものは、ROM913に記憶されたファームウェアで実現されていても構わない。或いは、ソフトウェアのみ、或いは、素子・デバイス・基板・配線などのハードウェアのみ、或いは、ソフトウェアとハードウェアとの組み合わせ、さらには、ファームウェアとの組み合わせで実施されても構わない。ファームウェアとソフトウェアは、プログラムとして、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD等の記録媒体に記憶される。プログラムはCPU911により読み出され、CPU911により実行される。すなわち、計算機制御プログラムは、「〜部」としてコンピュータを機能させるものである。あるいは、「〜部」の手順や方法をコンピュータに実行させるものである。
図3は、実施の形態1における常用系計算機の制御部300の構成図である。
実施の形態1における常用系計算機の制御部300の構成について、図3に基づいて以下に説明する。
常用系計算機の制御部300は常用系プロセス制御部301、常用系異常検出部302、常用系制御判定部303、待機系制御部370および常用系記憶部390を備える。また、常用系計算機の制御部300は、待機系計算機から新たな常用系計算機に切り替わってから待機系計算機の計算機制御処理が終了するまで、処理開始通知前制御部330、処理終了通知前制御部340および待機系稼動中制御部360を備える。
各部の機能について以下に説明する。
まず、常用系プロセス制御部301(計算機管理部)について説明する。
常用系プロセス制御部301は、計算機システム200に発生したプロセスをどの計算機210に実行させるかを制御するプロセス制御処理をCPU(Central Proccessing Unit)を用いて実行する。プロセス制御処理は特定処理の一例である。
常用系プロセス制御部301は空きリソース量、リソース不足、割り当てプロセスなどのリソースに関する情報(計算機リソース情報)を各計算機210から取得し、各計算機210から取得した計算機リソース情報を計算機システム200の状態情報として常用系記憶部390に記憶する。
そして、常用系プロセス制御部301は計算機システム200の状態情報が示す各計算機210のリソース負荷状態に応じて各プロセスを各計算機210に割り当てる。
また、常用系プロセス制御部301はどの計算機210にどのプロセスを割り当てたかを割当プロセス情報として記憶機器に記憶する。
以下、計算機システム200の状態情報や割当プロセス情報など、プロセス制御処理に用いる情報をプロセス制御情報とする。
一般計算機は常用系プロセス制御部301により割り当てられたプロセスをCPUやメモリなどのリソースを用いて実行する。
また、一般計算機はリソース不足が発生した際にリソース不足の発生を常用系プロセス制御部301に通知する。リソース不足の発生はプロセス制御処理の実行契機となり、常用系プロセス制御部301は一般計算機からリソース不足の発生を示す通知を受けた場合にプロセス制御処理を実行してリソース不足を解消する。以下、リソース不足の発生を示す通知を事象発生通知とする。
また、常用系プロセス制御部301は、常用系計算機が故障した際に待機系計算機が新たな常用系計算機としてプロセス制御処理を実行できるように、プロセス制御処理の実行に際して以下に説明する各種通知データを待機系計算機の後述する待機系プロセス制御部306に送信する。このとき、各通知にはプロセス制御情報に関する情報が含まれている。
常用系プロセス制御部301はプロセス制御処理の実行に際して以下の通知を待機系計算機の待機系プロセス制御部306に送信する。
1.プロセス制御処理の実行を開始する際の処理開始通知
2.プロセス制御処理の実行を終了する際の処理終了通知
次に、常用系異常検出部302について説明する。
常用系異常検出部302は、例えば、待機系計算機および一般計算機に所定の周期で応答要求を送信し、所定の時間内に応答要求に対する応答を受信できなかった場合に当該計算機に故障が発生したものと判定する。
次に、常用系制御判定部303について説明する。
常用系制御判定部303は常用系異常検出部302が待機系計算機の異常を検出した場合に待機系制御部370を動作させ、常用系異常検出部302が一般計算機の異常を検出した場合に常用系プロセス制御部301を動作させる。
次に、待機系制御部370について説明する。
待機系制御部370は、待機系計算機に異常が発生した際に、後述する(D)待機系制御処理をCPUを用いて実行する。(D)待機系制御処理は常用系計算機の制御部300が実行する計算機制御処理の一例である。
次に、常用系記憶部390について説明する。
常用系記憶部390は各計算機210の計算機リソース情報を計算機システム200の状態情報として記憶する記憶機器である。
また、常用系記憶部390はどの計算機210にどのプロセスが割り当てられているかを示す割当プロセス情報を記憶する。
また、常用系記憶部390は、計算機システム200の状態情報や割当プロセス情報と併せて、プロセス制御処理に用いる情報をプロセス制御情報として記憶する。
また、常用系記憶部390はどの計算機210が待機系計算機として稼働しているか、どの計算機210が一般計算機として稼働しているかを示す計算機稼働情報を記憶する。
待機系制御部370は計算機稼働情報に基づいて各計算機210を識別することができる。
新たに稼動し始めた常用系計算機は、待機系計算機として稼働していたときに実行し始めた計算機制御処理が終了するまで、後述する処理開始通知前制御部330、処理終了通知前制御部340および待機系稼動中制御部360を備える。
図4は、実施の形態1における待機系計算機の制御部305の構成図である。
実施の形態1における待機系計算機の制御部305の構成について、図4に基づいて以下に説明する。
待機系計算機の制御部305は待機系プロセス制御部306、待機系異常検出部307、待機系制御判定部308、処理開始通知前制御部330、処理終了通知前制御部340、待機系稼動中制御部360および待機系記憶部391を備える。
各部の機能について以下に説明する。
まず、待機系プロセス制御部306(計算機管理部)について説明する。
待機系プロセス制御部306は、常用系プロセス制御部301から送信された前記の各通知が示す情報を待機系記憶部391に記憶済みのプロセス制御情報に反映することによって常用系計算機と同じ内容のプロセス制御情報を記憶し、常用系計算機の故障の発生に備える。以下、待機系プロセス制御部306が常用系計算機の故障の発生に備える処理のことを待機系処理とする。
そして、待機系プロセス制御部306は、常用系計算機が故障し待機系計算機が新たな常用系計算機として稼働した際に、常用系プロセス制御部301として故障前の常用系計算機と同じプロセス制御処理を実行する。つまり、待機系プロセス制御部306は故障前に常用系計算機の常用系プロセス制御部301が実行していたプロセス制御処理を引き継ぎ、新たな常用系計算機の常用系プロセス制御部301として稼働する。
次に、待機系異常検出部307について説明する。
待機系異常検出部307は、例えば、常用系計算機に所定の周期で応答要求を送信し、所定の時間内に応答要求に対する応答を受信できなかった場合に常用系計算機に故障が発生したものと判定する。
また、待機系異常検出部307は、待機系プロセス制御部306が常用系計算機の常用系プロセス制御部301から受信した各通知に基づいて、どのタイミングで常用系計算機が故障したかを判定する。
次に、待機系制御判定部308について説明する。
待機系制御判定部308は、待機系プロセス制御部306が常用系計算機から(1)処理開始通知(特定処理開始通知の一例)を受信する前に、待機系異常検出部307が常用系計算機に異常が発生したことを検出した場合に、処理開始通知前制御部330を動作させる。
また、待機系制御判定部308は、待機系プロセス制御部306が常用系計算機から(1)処理開始通知(特定処理開始通知の一例)を受信した後から(2)処理終了通知(特定処理終了通知の一例)を受信するまでの間に、待機系異常検出部307が常用系計算機に異常が発生したことを検出した場合に、処理終了通知前制御部340を動作させる。
また、待機系制御判定部308は、新たな待機系計算機として稼働し始める際に、待機系異常検出部307が新たな常用系計算機に異常が発生したことを検出した場合に、待機系稼動中制御部360を動作させる。
処理開始通知前制御部330(特定処理開始通知前制御部、常用系稼働部の一例)は、(1)処理開始通知(特定処理開始通知の一例)の受信前に常用系計算機に異常が発生した際に、後述する(A)処理開始通知前制御処理をCPUを用いて実行する。(A)処理開始通知前制御処理は待機系計算機の制御部305が実行する計算機制御処理の一例である。
処理終了通知前制御部340(特定処理終了通知前制御部、常用系稼働部の一例)は、(1)処理開始通知の受信後から(2)処理終了通知(特定処理終了通知の一例)の受信前までの間に常用系計算機に異常が発生した際に、後述する(B)処理終了通知前制御処理をCPUを用いて実行する。(B)処理終了通知前制御処理は待機系計算機の制御部305が実行する計算機制御処理の一例である。
待機系稼動中制御部360(常用系稼働部の一例)は、(b)待機系稼働処理後から(d)状態コピー処理前までの間に常用系計算機に異常が発生した際に、CPUを用いて(C)待機系稼動中制御処理を実行する。(b)待機系稼働処理、(d)状態コピー処理および(C)待機系稼動中制御処理については後述する。(C)待機系稼動中制御処理は待機系計算機の制御部305が実行する計算機制御処理の一例である。
次に、待機系記憶部391について説明する。
待機系記憶部391は常用系計算機と同じ内容のプロセス制御情報を記憶する記憶機器である。待機系記憶部391は、待機系計算機が新たな常用系計算機として稼働した後、常用系記憶部390として機能する。
また、待機系記憶部391はどの計算機210が常用系計算機として稼働しているか、どの計算機210が一般計算機として稼働しているかを示す計算機稼働情報を記憶する。
処理開始通知前制御部330、処理終了通知前制御部340および待機系稼動中制御部360は計算機稼働情報に基づいて各計算機210を識別することができる。
図5は、実施の形態1における計算機制御方法を示す表である。
実施の形態1における計算機制御処理を構成する(A)処理開始通知前制御処理、(B)処理終了通知前制御処理、(C)待機系稼動中時制御処理および(D)待機系制御処理について、図5に基づいて以下に説明する。
待機系計算機の処理開始通知前制御部330による(A)処理開始通知前制御処理には(a)常用系稼働処理と(b)第1の実行処理と(c)待機系稼働処理と(d)状態コピー処理とが含まれる。
待機系計算機の処理終了通知前制御部340による(B)処理終了通知前制御処理には(a)常用系稼働処理と(b)第1の実行処理と(c)待機系稼働処理と(d)状態コピー処理と(e)第2の実行処理とが含まれる。
待機系計算機の待機系稼動中制御部360による(C)待機系稼働中制御処理には(a)常用系稼働処理と(c)待機系稼働処理と(d)状態コピー処理と(f)状態取得処理とが含まれる。
常用系計算機の待機系制御部370による(D)待機系制御処理には(c)待機系稼働処理と(d)状態コピー処理とが含まれる。
以下、(a)、(b)、(c)、(d)、(e)、(f)の処理について説明する。
(a)常用系稼働処理において、待機系計算機の処理開始通知前制御部330、処理終了通知前制御部340および待機系稼動中制御部360は、待機系計算機(自計算機)を新たな常用系計算機として稼動させる。これにより、待機系異常検出部307が常用系計算機の故障を検出した場合に、待機系計算機上の待機系プロセス制御部306は自身が常用系プロセス制御部301になったということを知る。そして、新たな常用系計算機の常用系プロセス制御部301は、新規に常用系計算機の常用系プロセス制御部301となったことを各計算機210に通知する。新たな常用系計算機の常用系プロセス制御部301は、この通知により、リソース不足を発生している各計算機210に事象発生通知の再送を促す。
(b)第1の実行処理において、新たな常用系計算機の常用系プロセス制御部301は、各計算機210から再送された事象発生通知に基づいてプロセス制御処理(特定処理の一例)を実行する。
このとき、常用系プロセス制御部301は、受信した事象発生通知に基づいて、リソース不足を発生した計算機210が実行しているプロセスを他の計算機210に割り当ててリソース不足を解消する。
(c)待機系稼働処理において、待機系計算機の処理開始通知前制御部330、処理終了通知前制御部340および待機系稼動中制御部360、また、常用系計算機の待機系制御部370は、一般計算機から1台を新たな待機系計算機として選択し、選択した一般計算機を新たな待機系計算機として稼働させ、新たな待機系計算機は制御部305を動作させる。例えば、常用系計算機の待機系制御部370は新たな待機系計算機として稼働するよう一般計算機に命令を出す。そして、命令を受信した一般計算機は待機系プロセス制御部306に対してリソースを割り当て、待機系処理を実行可能な状態にする。
(d)状態コピー処理において、待機系計算機の処理開始通知前制御部330、処理終了通知前制御部340および待機系稼動中制御部360、また、常用系計算機の待機系制御部370は、新たな待機系計算機の待機系プロセス制御部306に対して新たな常用系計算機の常用系記憶部390に記憶されているプロセス制御情報を送信する。新たな待機系計算機の待機系プロセス制御部306は受信したプロセス制御情報を待機系記憶部391に記憶する。
(e)第2の実行処理において、新たな常用系計算機の常用系プロセス制御部301は未実行であるプロセス制御処理を実行する。
以下に具体例を挙げる。
旧常用系計算機の常用系プロセス制御部301は、故障前に、(1)処理開始通知の送信を待機系計算機(新たな常用系計算機)に対して行っている。ここで、処理開始通知は計算機Aのプロセスaを計算機Cに割り当てることと計算機Bのプロセスbを計算機Dに割り当てることとを示しているとする。また、旧常用系計算機は、常用系プロセス制御部301が計算機Cにプロセスaを割り当ててから計算機Dにプロセスbを割り当てるまでの間に故障したものとする。旧常用系計算機が故障すると、待機系計算機(新たな常用系計算機)は、待機系異常検出部307が故障を検出し、新規に常用系計算機となる。そして、新たな常用系計算機の常用系プロセス制御部301は、旧常用系計算機から受信した処理開始通知に基づいて、プロセスaを割り当てているかを計算機Cに問い合わせ、プロセスbを割り当てているかを計算機Dに問い合わせる。新たな常用系計算機の常用系プロセス制御部301は、計算機Cからプロセスaが割り当て済みであることを通知され、計算機Dからプロセスbが割り当てられていないことを通知される。計算機Cと計算機Dとから通知を受けた新たな常用系計算機の常用系プロセス制御部301は、プロセスbが未だ割り当てられていない計算機Dにプロセスbを割り当てさせる。
(f)状態取得処理において、新たな常用系計算機の常用系プロセス制御部301はプロセス制御情報を取得する。例えば、新たな常用系計算機の常用系プロセス制御部301は各計算機210に計算機リソース情報を要求し、各計算機210から受信した計算機リソース情報に基づいて、各計算機210のリソース負荷状態を示す計算機システム200の状態情報と、どのプロセスがどの計算機210に割り当てられているかを示す割当プロセス情報とをプロセス制御情報として生成し記憶機器に記憶する。プロセス制御情報を取得することにより、新たな常用系計算機の常用系プロセス制御部301は、プロセス制御情報に基づいてプロセス制御処理を実行することができる。
図6は、実施の形態1における(A)処理開始通知前制御処理を示すフローチャートである。
実施の形態1における処理開始通知前制御部330による(A)処理開始通知前制御処理について、図6に基づいて以下に説明する。
まず、処理開始通知前制御部330は(a)常用系稼働処理を実行する(S2201)。
次に、新たな常用系計算機の常用系プロセス制御部301は(b)第1の実行処理を実行する(S2202)。
次に、処理開始通知前制御部330は(c)待機系稼働処理を実行する(S2203)。
そして、新たな常用系計算機の常用系プロセス制御部301は(d)状態コピー処理を実行する(S2204)。
待機系制御判定部308は、待機系プロセス制御部306が常用系計算機から(1)処理開始通知を受信する前に、待機系異常検出部307が常用系計算機の故障を検出した場合、処理開始通知前制御部330を動作させる。
図6において、処理開始通知前制御部330が(a)常用系稼働処理(S2101)することにより待機系計算機は新たな常用系計算機として稼働して常用系プロセス制御部301を動作し、常用系プロセス制御部301は(b)第1の実行処理(S2202)において事象発生通知に基づきプロセス制御処理を実行する。また、処理開始通知前制御部330は(c)待機系稼働処理することにより一般計算機を新たな待機系計算機として稼働させ、常用系プロセス制御部301は(d)状態コピー処理によりプロセス制御情報を新たな待機系計算機に提供する。
また、どの計算機210にもリソース不足が発生しておらず、常用系プロセス制御部301が事象発生通知を受信しない場合、(b)第1の実行処理においてプロセス制御処理は実行されない。
図7は、実施の形態1における(B)処理終了通知前制御処理を示すフローチャートである。
実施の形態1における処理終了通知前制御部340が実行する(B)処理終了通知前制御処理について、図7に基づいて以下に説明する。
まず、処理終了通知前制御部340は(a)常用系稼働処理を実行する(S2301)。
次に、新たな常用系計算機の常用系プロセス制御部301は(e)第2の実行処理を実行する(S2302)。
次に、新たな常用系計算機の常用系プロセス制御部301は(b)第1の実行処理を実行する(S2303)。
次に、処理終了通知前制御部340は(c)待機系稼働処理を実行する(S2304)。
そして、新たな常用系計算機の常用系プロセス制御部301は(d)状態コピー処理を実行する(S2305)。
待機系制御判定部308は、待機系プロセス制御部306が常用系計算機から(1)処理開始通知を受信した後から(2)処理終了通知を受信するまでの間に、待機系異常検出部307が常用系計算機の故障を検出した場合、処理終了通知前制御部340を動作させる。
図7では、故障前の旧常用系計算機の常用系プロセス制御部301により一部のプロセス制御処理が実行済みである場合があるため、図6が示す処理(a,b,c,d)に対して、(e)第2の実行処理(S2302)が加わっている。
図8は、実施の形態1における(C)待機系稼働中制御処理を示すフローチャートである。
実施の形態1における待機系稼動中制御部360が実行する(C)待機系稼働中制御処理について、図8に基づいて以下に説明する。
ここで、待機系計算機上の処理開始通知前制御部330または処理終了通知前制御部340が、常用系計算機が故障した際に(a)常用系稼働処理と(c)待機系稼働処理とを実行し、新たな常用系計算機の常用系プロセス制御部が(d)状態コピー処理により新たな待機系計算機へプロセス制御情報を送信する前に、新たな常用系計算機に故障が発生したものとする。
このとき、(c)待機系稼働処理により稼働した新たな待機系計算機の待機系制御判定部308は、待機系稼動中制御部360を動作させる。
新たな待機系計算機の待機系稼動中制御部360は、(a)常用系稼働処理(常用系第2稼働処理)を実行して、自身の計算機210を新たな(第2の)常用系計算機として稼働させる(S2401)。
次に、新たな常用系計算機の常用系プロセス制御部301は(f)状態取得処理を実行して、プロセス制御情報を取得する(S2402)。
次に、新たな常用系計算機の待機系稼動中制御部360は、(c)待機系稼働処理を実行して、一般計算機を新たな(第2の)待機系計算機として稼働させる(S2403)。
そして、新たな常用系計算機の常用系プロセス制御部301は(d)状態コピー処理を実行して、S2403で稼働した新たな(第2の)待機系計算機の待機系プロセス制御部306にプロセス制御情報を送信する(S2404)。
図9は、実施の形態1における(D)待機系制御処理を示すフローチャートである。
常用系計算機の常用系制御判定部303は常用系異常検出部302が待機系計算機の異常を検出した場合に待機系制御部370を動作させる。
実施の形態1における常用系計算機の待機系制御部370が実行する(D)待機系制御処理について、図9に基づいて以下に説明する。
まず、常用系計算機の待機系制御部370は(c)待機系稼働処理を実行する(S2501)。
そして、常用系計算機の常用系プロセス制御部301は(d)状態コピー処理を実行する(S2502)。
実施の形態1における計算機システム200は、どのようなタイミングで常用系計算機または待機系計算機が故障した場合でも、前記計算機制御処理により常用系計算機および待機系計算機の機能(特定の処理の実行など)を確保し、システムの可用性を向上させることができる。
実施の形態2.
本実施の形態における常用系計算機の常用系プロセス制御部301はどの計算機210にどのプロセスが割り当てられているか管理するプロセス制御処理を実行する。
以下、前記実施の形態1と異なる事項について説明し、説明しない事項については前記実施の形態1と同様である。
図10は、実施の形態2における常用系計算機の常用系プロセス制御部301の構成図である。
実施の形態2における常用系計算機(制御装置の一例)の常用系プロセス制御部301の構成について、図10に基づいて以下に説明する。
常用系計算機の常用系プロセス制御部301は、割当プロセス検出部382、割当先計算機検出部383およびプロセス割当部384を備える。
割当プロセス検出部382は、常用系計算機の制御部300が備える常用系異常検出部302(異常検出部)が検出した計算機210に割り当てている(計算機210が管理している)プロセスを、前記割当プロセス情報(プロセス対応情報の一例)に基づきCPU911を用いて検出する。
割当先計算機検出部383は、異常検出部381が検出した計算機210以外の各計算機210の中で、割り当てられているプロセスの数・リソース使用量が一番少ない計算機210を(または、プロセス数・リソース使用量の少ない順で計算機210を)、前記割当プロセス情報に基づきCPU911を用いて検出する。
プロセス割当部384は、割当先計算機検出部383が検出した計算機210に割当プロセス検出部382が検出したプロセスを管理するようCPU911を用いて命令する。管理する情報としては、例えばプロセスの処理開始時刻、処理終了時刻などがある。
前記常用系記憶部390は、複数の計算機210により実行される複数のプロセスについて、管理しているプロセスとプロセスを管理している計算機210とを対応付けた前記割当プロセス情報を記憶する。
図11は、実施の形態2における常用系プロセス制御部301による、ある計算機210が故障時におけるプロセス制御方法を示すフローチャートである。
実施の形態2における常用系プロセス制御部301が実行するプロセス制御処理について、図11に基づいて以下に説明する。
「〜部」で説明する常用系プロセス制御部301の各構成要素は以下の処理をCPU911を用いて実行する。
ここで、常用系計算機の制御部300が備える常用系異常検出部302は異常を発生した計算機210をCPU911を用いて検出したものとする(異常検出処理)。
<S2601:割当プロセス検出処理>
まず、常用系プロセス制御部301の割当プロセス検出部382は、常用系異常検出部302で検出された計算機210に割り当てられているプロセスを、常用系記憶部390に記憶されている割当プロセス情報に基づきCPU911を用いて検出する。
このとき、割当プロセス検出部382は、常用系異常検出部302から故障した計算機210の識別子を入力し、、常用系異常検出部302から入力した計算機210の識別子に対応付けられているプロセスの識別子を割当プロセス情報から取得する。そして、常用系異常検出部302から入力した計算機210の識別子と割当プロセス情報から取得したプロセスの識別子とを割当先計算機検出部383に出力する。
<S2602:割当先計算機検出処理>
常用系プロセス制御部301の割当先計算機検出部383は、常用系異常検出部302が検出した計算機210以外の各計算機210の中で、割り当てられているプロセスの量が一番少ない計算機210を、割当プロセス情報に基づきCPU911を用いて検出する。
このとき、割当先計算機検出部383は、割当プロセス検出部382から故障した計算機210の識別子と故障した計算機210に割り当てられているプロセスの識別子とを取得する。次に、割当先計算機検出部383は、割当プロセス情報において計算機210の識別子に対応付けられているプロセスの識別子の数を計算機210の識別子毎に算出する。そして、割当先計算機検出部383から故障した計算機210の識別子以外の識別子の中で、割当プロセス情報において対応付けられているプロセスの数(または各プロセスに要するリソース使用量の合計)が一番少ない計算機210の識別子を(または、プロセス数・リソース使用量の少ない順で計算機210の識別子を)プロセス割当部384に出力する。また、割当先計算機検出部383は割当プロセス検出部382から入力したプロセスの識別子をプロセス割当部384に出力する。
<S2603:プロセス割当処理>
プロセス割当部384は、割当先計算機検出部383が検出した計算機210に割当プロセス検出部382が検出したプロセスを管理させるようCPU911を用いて命令する。
このとき、プロセス割当部384は、割当先計算機検出部383から故障した計算機210に割り当てられているプロセスの識別子と割り当てられているプロセスの数(または各プロセスに要するリソース使用量の合計)が一番少ない計算機210の識別子(または、プロセス数・リソース使用量の少ない順での計算機の識別子)とを入力する。そして、プロセス割当部384は、入力した識別子に基づいて、故障した計算機210のプロセスをプロセスの数が一番少ない計算機210に割り当てる。
「プロセスの割り当て」は、例えば、制御装置では各プロセスの「処理開始時刻」、「処理終了時刻」、「処理時間」などの情報が管理されることである。
実施の形態2における常用系計算機の常用系プロセス制御部301は、故障した計算機210が管理する予定だったプロセスを他の計算機210に効率良く割り当て、計算機システム200の可用性を向上させることができる。
実施の形態3.
図12に実施の形態3の構成を示す。
実施の形態3のシステムの特徴は、各計算機がプロセス制御部26、プロセス情報管理テーブル27を持つ点、システム内に移行プロセス決定・資源割当部3bおよびシステム構成情報管理テーブル7を2つ持つ点である。
各計算機は前記実施の形態1における計算機210と同様にハードウェアを有する(図2参照)。
プロセス情報管理テーブル27には当該計算機に割り当てられているプロセスが設定されている。
プロセス制御部26はプロセス情報管理テーブル27に設定されているプロセスを実行する。
つまり、実施の形態3のシステムは各計算機がそれぞれにプロセスを実行制御する。
システム構成情報管理テーブル7には各計算機が実行しているプロセスや各計算機の空きリソース量・リソース使用量などが設定されている。
また、移行プロセス決定・資源割当部3bはシステム構成情報管理テーブル7に基づいて各計算機にプロセスを割り当てるプロセス制御処理を実行する。
例えば、システム構成情報管理テーブル7は前記実施の形態1におけるプロセス制御情報に対応し、移行プロセス決定・資源割当部3bを備える計算機は前記実施の形態1における常用系計算機、待機系計算機に対応する。
つまり、実施の形態3のシステムは各計算機に対するプロセス制御を行う常用系計算機と常用系計算機が故障した際に故障した常用系計算機の代わりにプロセス制御を行う待機系計算機とを備える。
なお、本実施の形態における処理時間収集・予測部2bは、本図には示していないが、デッドラインミス発生時刻予測部21、処理時間収集部2、CPU時間予測部23を持っている。
処理時間収集部2は各計算機からプロセスの実行に要した処理時間(CPU使用時間)を取得する。
CPU時間予測部23は処理時間収集部2が取得した各プロセスの実行に要した処理時間の変化量に基づいて各プロセスの実行に要する将来の処理時間を算出する。
デッドラインミス発生時刻予測部21はCPU時間予測部23が算出した各プロセスの将来の処理時間に基づいて所定時間内に終了しないプロセスが発生する時刻(デッドラインミス発生時刻)を算出する。
同様に、計算機負荷量収集・予測部5bは計算機負荷量収集部5、計算機負荷予測部22、メモリ使用量予測部24を持ち、計算機状態テーブル10および計算機負荷履歴テーブル9を管理する。
計算機負荷量収集部5は各計算機から各プロセスの実行に要した負荷量(CPU使用率・メモリ使用量)を取得する。
計算機負荷予測部22は計算機負荷量収集部5が取得した各プロセスの実行に要したCPU使用率の変化量に基づいて各プロセスの実行に要する将来のCPU使用率を算出する。
メモリ使用量予測部24は計算機負荷量収集部5が取得した各プロセスの実行に要したメモリ使用量の変化量に基づいて各プロセスの実行に要する将来のメモリ使用量を算出する。
計算機状態テーブル10には各計算機の故障有無が設定される。
計算機負荷履歴テーブル9には計算機負荷量収集部5が取得した各プロセスの実行に要したCPU使用率・メモリ使用量が設定される。
同様に、移行プロセス決定・資源割当部3bは、資源割当部6、移行プロセス決定部3を持つ。
移行プロセス決定部3は処理時間収集・予測部2bが予測した時刻においてデッドラインミスが発生しないように各計算機間で移行する各プロセスを計算機負荷量収集・予測部5bが予測した計算機負荷量に基づいて決定する。
資源割当部6は移行プロセス決定部3が決定したプロセスにリソース(CPU時間、メモリ)を割り当てるよう各計算機に命令する。
本実施の形態における各計算機のプロセス制御部26は移行プロセス決定部3が決定したプロセスを、資源割当部6が決定した計算機で実際に起動したり、プロセスを停止したりする役割を持つ。また、各計算機上で動作しているプロセス一覧をプロセス情報管理テーブル27に記録し、保持する役割を持つ。
本実施の形態におけるプロセス情報管理テーブル27の例を図13に示す。本テーブルは各計算機上に存在し、例えば各計算機で動作するプロセスの名前、識別子など、プロセスの停止、起動に必要な情報が記録される。
本実施の形態における資源割当部6は、プロセスの割付先決定後、実際にプロセスを起動するのではなく、各計算機上にあるプロセス制御部26にプロセスの起動・停止を依頼する。そして、各依頼を受けたプロセス制御部26がプロセス起動・停止の結果を資源割当部6に通知する。
本実施の形態におけるプロセス制御部26の動作は以下の通りである。
1.資源割当部6からプロセスの起動・停止依頼を受け取る。
2.プロセスを起動(UNIX(登録商標)のfork/execなど)・停止(UNIX(登録商標)のkillなど)する。
3.プロセスを起動した場合には起動したプロセスの名前、識別子を「プロセス情報管理テーブル27」に記載し、停止した場合には、停止したプロセスの名前、識別子をプロセス情報管理テーブル27から削除する。
4.成功・失敗を資源割当部6に戻す。
2つの移行プロセス決定・資源割当部3bがともに正常に動作しているときの動作手順について図14に基づいて以下に説明する。
1.処理時間収集・予測部2bは、デッドラインミスを予測後、警告メッセージ(計算機リソース情報の一例)を常用系のみに送信する。
2.移行プロセス決定・資源割当部3bの一方がデッドラインミス解消に向けた処理を開始する。本手順で処理を行う方を常用系,もう一方を待機系とする。常用系・待機系の区別はあらかじめシステムによって決定されているものとする。資源割当部6は「『どのプロセス』を『どの計算機に移行させるか』、『どのプロセス』を停止させるか、どのプロセスをいくつに『分割』させるか」といった内容で再配置方法を決定する。
3.プロセス制御部26による対処を始める前に再配置方法(処理開始通知の一例)を待機系に通知する。
4.3の後、移行プロセス決定・資源割当部3bの常用系は各計算機のプロセス制御部26に対処を要求し、各計算機のプロセス制御部26にてプロセスの起動・停止などを行う(プロセス制御処理の一例)。
5.4の後、移行プロセス決定・資源割当部3bの常用系は、システム構成情報管理テーブル7(プロセス制御情報の一例)を更新する。
6.移行プロセス決定・資源割当部3bの常用系は待機系に対して対処結果(処理終了通知の一例)を報告する。
7.移行プロセス決定・資源割当部3bの待機系は受信した報告をもとに、待機系が持つシステム構成情報管理テーブル7を更新する。
8.移行プロセス決定・資源割当部3bの常用系は処理時間収集・予測部2bに処理完了を通知し、処理時間収集・予測部2bは、警告を破棄する。
2つの移行プロセス決定・資源割当部3bのどちらかに異常が発生している場合の残りの正常な移行プロセス決定・資源割当部3bの動作を以下で述べる。起こり得るケースは以下の5つであり、各ケースの動作を以下に示す。
ケース1:デッドラインミスが予測する前に常用系に異常が発生した場合
ケース2:常用系が正常時動作の手順1で「処理時間収集・予測部2b」からデッドラインミス警告を受信し、正常時動作の手順3で対処方法を待機系に送信するまでの間に異常が発生した場合
ケース3:正常時の動作手順3において、常用系が再配置方法を通知後、待機系が正常時動作の手順6にて対処完了報告を受信するまでの間に常用系に異常が発生した場合
ケース4:常用系の処理終了後に常用系に異常が発生した場合
ケース5:待機系に異常が発生した場合
ケース1の動作(図15に基づいて説明する):((A)未事象時制御処理の一例)
常用系の故障は、常用系と待機系の間で行われるハートビート(定期的な信号の送受信)によって検出することができる。対処の手順は以下の通りとなる。
1.待機系が常用系に対してハートビートメッセージの送信に失敗すると、待機系は常用系が故障したと判断し、常用系に切り替わる((a)常用系稼働処理の一例)。
2.待機系は常用系に切り替わったことを処理時間収集・予測部2bに通知する。
3.例えば計算機負荷の最も低い計算機にて移行プロセス決定・資源割当部3bの待機系を1つ起動する。
4.新規起動した待機系に「システム構成情報管理テーブル7」を送信する((c)待機系稼働処理の一例、(d)状態コピー処理の一例)。
ケース2の動作(図16に基づいて説明する):((C)処理開始通知前制御処理の一例)
常用系がデッドラインミス警告を受信し、正常時手順3の対処方法通知メッセージが待機系に届く前に常用系に故障が発生した場合、まだプロセス制御部26による対処は行われていないため、常用系・待機系が持つ「システム構成情報管理テーブル7」の内容と実際のプロセス配置状況は一致している。対処の手順は以下のようになる。
1.正常時手順の1〜2と同じ。
2.処理時間収集・予測部2bに対して待機系が常用系に切り替わったことを通知する。3.処理時間収集・予測部2bは、新規に常用系に切り替わった移行プロセス決定・資源割当部3bにデッドラインミスを再度警告する。
4.移行プロセス決定・資源割当部3b内の資源割当部6にてリソース再配置方法を決定する((b)第1の実行処理の一例)。
5.プロセスを移行する計算機のプロセス制御部26に処理を依頼する((b)第1の実行処理の一例)。
6.プロセス制御部26の処理完了後、移行プロセス決定・資源割当部3bはシステム構成情報管理テーブル7を更新する((b)第1の実行処理の一例)。
7.移行プロセス決定・資源割当部3bの待機系を新規起動する((c)待機系稼働処理の一例)。
8.新たな待機系は新たな常用系にシステム構成情報管理テーブル7を送信する((d)状態コピー処理の一例)。
9.処理時間収集・予測部2bに処理完了を通知する。
ケース3の動作(図17、図18に基づいて説明する):((D)処理終了通知前制御処理の一例)
常用系による対処方法の通知(正常時手順3)後、対処結果の通知が待機系に届く(正常時手順6)前に常用系の故障を検出した場合、待機系はプロセス制御部26による対処が完了した後に常用系に障害したのかその前に障害が発生したのかわからず、移行プロセス決定・資源割当部3bの待機系が持っているテーブルの内容と実際のプロセス配置の状態が異なっている。本ケースのパターンの故障では、実際のプロセスの配置状況と待機系が持っているテーブルの内容を整合する必要がある。対処の手順は以下のようになる。
1.移行プロセス決定・資源割当部3bの待機系は、常用系から送られた「対処方法通知」に示されている各計算機のプロセス制御部26に対し、各計算機にどのプロセスが動作しているのかを問い合わせる((e)第2の実行処理の一例)。
2.各プロセス制御部26からの1の問い合わせの応答と、待機系が持つシステム構成情報管理テーブル7と、常用系から送られた対処するプロセスのリストを比較することにより、プロセス制御部26への対処要求のうち、どの対処が行われ、どの対処が未対処であるかを識別する((e)第2の実行処理の一例)。
3.対処済のものがあれば、実際のプロセス配置状況になるようシステム構成情報管理テーブル7を更新する。未対処のリクエストがあれば、プロセス制御部26に対して処理を依頼する((e)第2の実行処理の一例)。
4.プロセス制御部26の処理終了後、新たな常用系はシステム構成情報管理テーブル7を更新する。
5.移行プロセス決定・資源割当部3bの待機系を起動する((c)待機系稼働処理の一例)。
6.新たな常用系は新規起動した待機系に、システム構成情報管理テーブル7を送信する((d)状態コピー処理の一例)。
7.処理時間収集・予測部2bに処理完了および移行プロセス決定・資源割当部3bが変更されたことを通知し、処理時間収集・予測部2bは「デッドラインミス警告」を破棄する。
ケース4の動作(図19に基づいて説明する):((E)処理終了通知後制御処理の一例)
対処結果の通知が届いた後(正常時手順7以降)に移行プロセス決定・資源割当部3bの常用系が停止したことは、待機系はハートビートにより知ることができる。この場合には、待機系が持つシステム構成情報管理テーブル7には実際のプロセス配置状況が反映されていることになる。この場合の手順は以下の通りである。
1.移行プロセス決定・資源割当部3bの待機系が常用系に切り替わる((a)常用系稼働処理の一例)。
2.切り替わった常用系は新規に待機系を起動してテーブルを送信する((c)待機系稼働処理、(d)状態コピー処理の一例)。
3.処理時間収集・予測部2bに、プロセス再配置の対処が終了したこと、および移行プロセス決定・資源割当部3bが変更されたことを通知する。
4.処理時間収集・予測部2bは、本通知を受けて「デッドラインミス警告」を破棄する。
ケース5(図20に基づいて説明する):((G)待機系制御処理の一例)
待機系の異常は、待機系よりハートビートが届かないことにより知ることが出来る。手順は以下の通りである。
1.ケース1と同様、例えば計算機負荷の最も小さい計算機上での移行プロセス決定・資源割当部3bの待機系を起動する((c)待機系稼働処理の一例)。
2.待機系に、システム構成情報管理テーブル7を送信する((d)状態コピー処理の一例)。
なお、本ケースでは常用系は変更されないので、処理時間収集・予測部2bへのメッセージ送信は行われない。
このように、移行プロセス決定・資源割当部3bをつねに2つ起動し、一方を待機系、もう一方を常用系として動作させ、異常ケースに応じたシステム構成情報管理テーブル7の整合動作を行うことにより、移行プロセス決定・資源割当部3bの常用系が停止した場合においても待機系はそのまま処理を引き継ぐことができる。すなわち、移行プロセス決定・資源割当部3bの1つに異常が発生した場合においても動的リソース制御を継続することができる。
実施の形態4.
図21に実施の形態4の構成を示す。実施の形態3との相違点は、各計算機に処理時間収集・予測部2b、処理時間履歴テーブル8が配置されている点と、ある計算機上に処理時間収集部監視部28および処理時間収集・予測部情報テーブル29が配置されている点である。
実施の形態4における計算機負荷監視部4は、計算機の負荷量を計算機負荷量収集・予測部5bに通知し、また、計算機負荷量収集・予測部5bの異常を検出し、処理時間収集部監視部28に伝える役割を持つ。
実施の形態4における処理時間監視部1は、全ての処理時間収集・予測部2bに対して処理開始時刻、処理終了時刻、CPU時間を送信する役割を持つ。
図22に、本実施の形態における処理時間収集・予測部情報テーブル29の構成を示す。本テーブルには、システム内に存在する処理時間収集・予測部2bを識別する番号と、正常・異常を示す値、および、各処理時間収集・予測部2bが管理するパイプライン処理(プロセスの順次処理)を判別する番号が記入される。
本実施の形態における処理時間収集部監視部28の、処理時間収集・予測部2bが管理するパイプライン処理のIDを割り振る際の動作について説明する。
システム起動時には、処理時間収集部2は自身の識別番号と「『パイプライン処理ID÷計算機台数』の剰余値」が一致するIDを持つパイプライン処理アプリケーションの処理時間、およびパイプライン処理を構成するプロセスのCPU時間を管理する。そして、「処理時間収集部2」の異常を検出した場合には、異常がおきた処理時間収集部2が管理していたパイプライン処理(アプリケーション)のIDを、管理しているパイプライン処理の数が少ない順で、かつ、処理時間収集・予測部2bの識別子の小さい順に割り振る。
例えば、図22において、処理時間収集・予測部ID1に異常が発生した場合、図23に示すように、ID2の処理時間収集・予測部2bがパイプライン処理ID1を、ID3の処理時間収集・予測部2bがパイプライン処理ID5を管理することになる。
本実施の形態における処理時間収集・予測部2bは、処理時間収集部監視部28によって割り当てられたパイプライン処理アプリケーションのみのデッドラインミスを監視することになる。
このように、各計算機上に処理時間収集・予測部2bを配置し、さらに、ある計算機上に処理時間収集部監視部28を配置し、処理時間収集・予測部2bに故障が発生した場合に、その処理時間収集・予測部2bで監視していたアプリケーションを、他の処理時間収集・予測部2bが監視することにより、処理時間収集・予測部2bが停止しても、デッドラインミスの監視を継続することができ、アプリケーションのリアルタイム処理を継続することができる。
実施の形態5.
図24に実施の形態5の構成を示す。実施の形態4との相違点は、システム上に処理時間収集部監視部28が2つ配置されている点と、処理時間収集部監視部28が配置されている計算機と同一の計算機上に処理時間収集・予測部情報テーブル29が配置されている点、および各計算機上に管理アプリケーション一覧テーブル30が配置されている点である。
本実施の形態における処理時間収集部監視部28は、実施の形態4の役割のほか、2つの処理時間収集部監視部28をハートビートにより相互監視し、片方の異常を検出した場合に、他の計算機上で処理時間収集部監視部28を起動する役割を持つ。
本実施の形態における計算機負荷監視部4は、さらに、処理時間収集・予測部2bの異常を調査し、異常検出時には2つの処理時間収集部監視部28に通知する。それぞれの処理時間収集部監視部28は異常を検出すると処理時間収集・予測部情報テーブル29の該当エントリにおいて「正常/異常」を書き換える。
本実施の形態における管理アプリケーション一覧テーブル30の構成を図25に示す。
テーブルの各エントリには各処理時間収集・予測部2bがCPU時間、処理開始時刻、処理終了時刻を収集し、デッドラインミスを予測するパイプライン処理アプリケーションの識別子が格納される。
本実施の形態における処理時間収集部監視部28の正常時の動作を以下に示す(図26に基づいて説明する)。
1.計算機負荷監視部4から、処理時間収集・予測部2bの異常を検出すると、2つのうちの片方(常用系とする)が、もう片方(待機系とする)に対して、異常が発生した処理時間収集・予測部2bを通知(変更開始通知、処理開始通知)する。
2.異常が発生した処理時間収集・予測部2bが管理していたパイプライン処理アプリケーションを、他の処理時間収集・予測部2bが管理するように管理アプリケーション一覧テーブル30を変更する。
3.割当変更後、処理時間収集・予測部情報テーブル29を変更する。
4.変更完了後の処理時間収集・予測部情報テーブル29の内容を待機系に送信する(変更完了通知、処理終了通知)。そして、待機系の処理時間収集・予測部情報テーブル29の内容を常用系の内容と一致させる。
5.手順2において管理するパイプライン処理が変更となった処理時間収集・予測部2bに対し、管理するパイプライン処理アプリケーションの識別子一覧を送信する。
本実施の形態における処理時間収集部監視部28に異常が発生した場合の動作を以下に示す。
考慮すべき異常発生のタイミングとして以下の4点が考えられる。
ケース1:全ての処理時間収集・予測部2bが正常動作している際に常用系もしくは待機系に障害が発生した場合。
ケース2:ある処理時間収集・予測部2bに異常が発生し、常用系から待機系に変更開始通知を送信する前に処理時間収集部監視部28の常用系に障害が発生した場合
ケース3:待機系が変更開始通知受信後、変更完了通知までの間に常用系が停止した場合
ケース4:待機系が変更完了通知受信直後、常用系に障害が発生し、待機系起動直後にさらに切り替わった常用系が停止した場合
ケース5:待機系に障害が発生した場合
ケース1の動作:((A)未事象時制御処理、(G)待機系制御処理の一例)
ケース1では、常用系と待機系の間のハートビートによって検出することができる。この場合、常用系は待機系を起動し、待機系に対して処理時間収集・予測部情報テーブル29を送信する(図27に基づいて説明する)。
ケース2の動作:((C)処理開始通知前制御処理の一例)
ケース2では、待機系は、常用系からのハートビートが届かないことにより常用系の故障を認識することができる。さらに、この場合は計算機負荷監視部4から故障通知が届き、処理時間収集・予測部情報テーブル29が変更されているので、処理時間収集・予測部情報テーブル29を参照することにより、異常が発生した処理時間収集・予測部2bを処理時間収集部監視部28の待機系にて把握することができる。
本ケースの手順は以下の通りである。図28に基づいて説明する。
1.常用系の故障を認識すると、待機系は常用系に切り替わる((a)常用系稼働処理の一例)。
2.新規切り替わった常用系は、障害が発生した処理時間収集・予測部2bが管理していたパイプライン処理アプリケーションを他の処理時間収集・予測部2bに割りつける((b)第1の実行処理の一例)。
3.新規切り替わった常用系は、新しく処理時間収集部監視部28の待機系を起動する((c)待機系稼働処理の一例)。
4.新規切り替わった常用系は、新規起動した処理時間収集部監視部28に、処理時間収集・予測部情報テーブル29を送信する((d)状態コピー処理の一例)。
5.新規切り替わった常用系は、監視アプリケーションの割当変更のあった処理時間収集・予測部2bに対し、管理するアプリケーションの識別子一覧を送信する。
ケース3の動作:((D)処理終了通知前制御処理の一例)
本ケースにおいても、待機系は、常用系からのハートビートが届かないことにより、常用系に異常が発生したことを知る。本ケースの障害では、常用系から「異常箇所通知」が届いているので、どの「処理時間収集・予測部2b」に異常が発生していることがわかる。
本ケースの手順は以下の通りである。図29に基づいて説明する。
1.待機系は、常用系の異常検出後、常用系に切り替わってパス割付の変更を実施する((e)第2の実行処理の一例)。
2.新規切り替わった常用系は、処理時間収集部監視部28の待機系を新しく起動する((c)待機系稼働処理の一例)。
3.新規切り替わった常用系は、新規起動した待機系に処理時間収集・予測部情報テーブル29を送信する((d)状態コピー処理の一例)。
4.新規切り替わった常用系は、アプリケーションの割当変更のあった処理時間収集・予測部2bに対し、管理するアプリケーションの識別子一覧を通知する。
ケース4の動作:((F)待機系稼動中制御処理)
本ケースは、常用系が待機系にテーブルを送信する直前、ケース2、ケース3で待機系が常用系に切り替わり、新規起動した待機系にテーブルを送信する直前に常用系が停止した場合を示している。この場合には処理時間収集・予測部情報テーブル29を新規起動した待機系に渡すことができない。この場合、新規起動した待機系は、各計算機上にある処理時間収集・予測部2bに問い合わせることにより各処理時間収集・予測部2bが管理しているアプリケーションの識別子を知り、処理時間収集・予測部情報テーブル29の内容を現状に合わせるようにする(図30参照)。
このように、処理時間収集部監視部28をつねに2つ起動し、一方を待機系、もう一方を常用系として動作させ、異常ケースに応じて処理時間収集・予測部情報テーブル29の整合動作を行うことにより、処理時間収集部監視部28の常用系が停止した場合においても、待機系はそのまま処理を引き継ぐことができる。すなわち、処理時間収集部監視部28に異常が発生した場合においても処理負荷の分散が可能となり、動的リソース制御を継続することができる。
実施の形態6.
図31に実施の形態6の構成を示す。実施の形態5との相違点は、システム上に計算機負荷量収集部5を2つ持つ点、および、計算機負荷量収集部5がある計算機に計算機負荷履歴テーブル9を持つ点である。本実施の形態における計算機負荷量収集部5はこれまでの機能のほか、2つの計算機負荷量収集部5を相互監視する役割を持つ。
本実施の形態における計算機負荷監視部4は、計算機の負荷を収集、予測するとともに、2つの計算機負荷量収集部5の両方に計算機負荷を通知する役割を持つ。また、計算機負荷量収集部5が新規に起動した場合には、起動した旨を知らせる通知を受信し、新規起動した計算機負荷量収集部5にも計算機負荷を通知する。
本実施の形態における移行プロセス決定・資源割当部3bは、リソース再配置方法を決定する際に2つの計算機負荷量収集部5に問い合わせ、例えば応答の速いほうのデータを採用する。
本実施の形態における計算機負荷量収集部5は、双方でハートビートを行い、故障を検出した場合には、新たに計算機負荷量収集部5を起動し、新しく起動した計算機負荷量収集部5は、計算機負荷量収集部5が新規に起動したことを全ての計算機負荷監視部4に通知する。
このように、計算機負荷量収集・予測部5bをつねに2つ用意することにより、一方の「計算機負荷量収集部5」に障害が発生しても、動的リソース制御の処理を継続することができる。
前記実施の形態3〜6において、以下を特徴とする計算機リソース動的制御システムについて説明した。
(1)本制御システムは、プロセスを起動・停止する「プロセス制御部」を各計算機に持つ。
本制御システムは、各プロセス制御部は、各計算機で動作しているプロセス一覧を記録した「プロセス情報管理テーブル」を各計算機上に持ち、「プロセス制御部」が管理する。
本制御システムでは「資源割当部」を「移行プロセス決定部」が存在する計算機と同一計算機に配置し、「移行プロセス決定部」と「資源割当部」の両方をまとめて「移行プロセス決定・資源割当部」とする。「移行プロセス決定・資源割当部」はそれぞれ異なる計算機上に2つ持つ。2つの「移行プロセス決定・資源割当部」はお互いに正常・異常を監視する。
片方の「移行プロセス決定・資源割当部」異常時において、もう一方の「移行プロセス決定・資源割当部」が異常を検出し、処理を引き継ぐことにより、1つの「移行プロセス決定・資源割当部」に異常が発生してもリソース割当決定処理の継続を可能とする。
「移行プロセス決定・資源割当部」の一方に異常が発生しても、もう一方の「移行プロセス決定・資源割当部」が、各計算機上の「プロセス情報管理テーブル」より、リソース動的制御処理に必要なデータを取り寄せることにより、異常が発生する前の「移行プロセス決定・資源管理部」のデータに復旧させてリソース割当決定処理の継続を可能とする。
、本制御システムは、各プロセスが動作する計算機を示した情報を各計算機上で分散させて保持することにより、「移行プロセス決定部」の異常時における全データの紛失を防ぐことができる。
(2)(1)の構成に加え、以下を特徴とする計算機リソース動的制御システムについて説明した。
本制御システムは、「処理時間収集・予測部」および「処理時間履歴テーブル」を各計算機に持つ。
「処理時間収集部監視部」はシステム起動時および「処理時間収集・予測部」の故障時において、システム上で動作する各パイプライン処理アプリケーションの処理開始時刻・終了時刻をどの「処理時間収集・予測部」が取得・管理するかを動的に割り当てる機能を持つ。
本制御システムは、どの「処理時間収集・予測部」がどのパイプライン処理アプリケーションのデッドラインミスを監視しているか、という情報、および、各「処理時間収集・予測部」の正常・異常の情報が記載された「処理時間収集・予測部情報テーブル」を持つ。
「処理時間収集・予測部」の異常は、各計算機上にある「計算機負荷監視部」が検出し、その情報は「処理時間収集部管理部」に通知されることにより、「処理時間収集・予測部情報テーブル」の正常・異常の情報が変更される。
本制御システムにおける「処理時間監視部」は、全ての「処理時間収集・予測部」に処理開始時刻・処理終了時刻を送信する。「処理時間収集・予測部」は全てのパイプライン処理アプリケーションの処理開始時刻・終了時刻を受け取るが、「処理時間収集部管理部」が割り当てたアプリケーションについてのみ、デッドラインミスの監視などを行う。
「処理時間収集・予測部」を複数個持ち、「処理時間収集・予測部」の故障時において、故障した「処理時間収集・予測部」が監視していたアプリケーションを他の「処理時間収集・予測部」が監視することにより、アプリケーションのデッドラインミス検出の継続を可能とする。また、「処理時間収集部管理部」が処理の分散化を動的に行うことにより、1つの「処理時間収集・予測部」に加わる負荷の軽減を可能とする。
(3)(2)の構成に加え、以下を特徴とする計算機リソース動的制御システムについて説明した。
本制御装置は、「処理時間収集部監視部」を2つ、それぞれ異なる計算機に配置する。2つの「処理時間収集部監視部」は(2)の機能のほか、「処理時間収集部監視部」が正常に動作しているかどうかを相互監視する。
各計算機上にある「処理時間収集・予測部」は、自身が収集するパイプライン処理アプリケーションの一覧を記録した「管理アプリケーション一覧テーブル」を保持する。
「処理時間収集部監視部」の1つが停止した場合においても、もう一方の「処理時間収集部監視部」が処理を引き継ぎ、「処理時間収集・予測部」の処理分散に必要なデータを各「処理時間収集・予測部」の「管理アプリケーション一覧テーブル」から取り寄せることにより、2つの「処理時間収集部監視部」間のデータの整合を可能にする。
「処理時間収集・予測部」の1つが停止した場合においても、もう1つの「処理時間収集・予測部」が処理を継続することにより、故障した「処理時間収集・予測部」が担当していた処理の切り替え、「処理時間収集・予測部」の負荷分散処理の継続を可能とする。
(4)(1)〜(3)の構成の構成に加え、以下を特徴とする計算機リソース動的制御装置について説明した。
本制御装置は、「計算機負荷収集・予測部」を2つ、異なる計算機に配置する。2つの「計算機負荷収集・予測部」は、双方の「計算機負荷収集・予測部」が正常に動作しているかどうかを監視する。
各計算機上にある「計算機負荷監視部」は、2つの「計算機負荷量収集部」に計算機負荷を送信する。
一方の「計算機負荷収集・予測部」に異常が発生した場合には、もう一方の「計算機負荷量収集部」が「移行プロセス決定・資源割当部」の要求に応えることにより、「移行プロセス決定・処理割当部」の処理継続を可能とする。
また、各構成要素のただ1つに異常が発生した場合に動的リソース制御処理ができなくなる、という課題に対し、処理を継続するために「処理時間収集・予測部」「計算機負荷量収集部」「移行プロセス決定部」「資源割当部」を冗長化し、故障時には故障前に各部が保持していた状態を待機系側で復旧した上で待機系に処理を切り替えるということについて説明した。
1 処理時間監視部、2 処理時間収集部、21 デッドラインミス発生時刻予測部、22 計算機負荷予測部、23 CPU時間予測部、24 メモリ使用量予測部、26 プロセス制御部、27 プロセス情報管理テーブル、28 処理時間収集部監視部、29 処理時間収集・予測部情報テーブル、2b 処理時間収集・予測部、3 移行プロセス決定部、3b 移行プロセス決定・資源割当部、30 管理アプリケーション一覧テーブル、4 計算機負荷監視部、5 計算機負荷量収集部、5b 計算機負荷量収集・予測部、6 資源割当部、7 システム構成情報管理テーブル、8 処理時間履歴テーブル、9 計算機負荷履歴テーブル、10 計算機状態テーブル、200 計算機システム、210 計算機、300,305 制御部、301 常用系プロセス制御部、302 常用系異常検出部、303 常用系制御判定部、306 待機系プロセス制御部、307 待機系異常検出部、308 待機系制御判定部、330 処理開始通知前制御部、340 処理終了通知前制御部、360 待機系稼動中制御部、370 待機系制御部、382 割当プロセス検出部、383 割当先計算機検出部、384 プロセス割当部、390 常用系記憶部、391 待機系記憶部、901 表示装置、902 キーボード、903 マウス、904 FDD、905 CDD、906 プリンタ装置、907 スキャナ装置、908 マイク、909 スピーカー、911 CPU、912 バス、913 ROM、914 RAM、915 通信ボード、920 磁気ディスク装置、921 OS、922 ウィンドウシステム、923 プログラム群、924 ファイル群。

Claims (6)

  1. 常用系計算機と待機系計算機とを含む複数の計算機を有する計算機システムにおいて、
    割り当てられたプロセスを制御するプロセス制御部を各計算機が備え、
    各計算機に割り当てられたプロセスを示すシステム構成情報管理テーブルを前記常用系計算機と前記待機系計算機とが備え、
    プロセスのデッドラインミスを予測するデッドラインミス予測部をいずれかの計算機が備え、
    前記デッドラインミス予測部によりプロセスのデッドラインミスが予測された場合にプロセスの再配置方法を前記システム構成情報管理テーブルに基づいて決定する移行プロセス決定部が前記常用系計算機と前記待機系計算機とで動作し、
    前記常用系計算機と前記待機系計算機とが正常に動作している場合、
    前記デッドラインミス予測部は、プロセスのデッドラインミスを予測した場合、前記常用系計算機の前記移行プロセス決定部に警告メッセージを送信し、
    前記常用系計算機の前記移行プロセス決定部は、プロセスの再配置方法を決定し、
    前記常用系計算機の前記移行プロセス決定部は、決定したプロセスの再配置方法を示す処理開始通知を前記待機系計算機の前記移行プロセス決定部に通知し、
    前記常用系計算機の前記移行プロセス決定部は、決定したプロセスの再配置方法に基づいて各計算機のプロセス制御部にプロセスを制御させ、
    前記常用系計算機の前記移行プロセス決定部は、前記常用系計算機のシステム構成情報管理テーブルを更新し、
    前記常用系計算機の前記移行プロセス決定部は、プロセスの再配置結果を処理終了通知として前記待機系計算機の前記移行プロセス決定部に通知し、
    前記待機系計算機の前記移行プロセス決定部は、前記処理終了通知に基づいて前記待機系計算機のシステム構成情報管理テーブルを更新し、
    前記常用系計算機の前記移行プロセス決定部は、前記デッドラインミス予測部に処理完了通知を通知する
    ことを特徴とする計算機システムであり、
    前記デッドラインミス予測部によるデッドラインミスの予測前に前記常用系計算機が故障した場合、
    前記待機系計算機は、新たな常用系計算機に切り替わり、
    前記新たな常用系計算機の前記移行プロセス決定部は、前記デッドラインミス予測部に常用系に切り替わったことを通知し、
    前記新たな常用系計算機の前記移行プロセス決定部は、新たな待機系計算機として特定の計算機に前記移行プロセス決定部を起動させ、
    前記新たな常用系計算機の前記移行プロセス決定部は、前記新たな常用系計算機の前記システム構成情報管理テーブルを前記新たな待機系計算機にコピーさせる
    ことを特徴とする計算機システム。
  2. 前記警告メッセージの送信後から前記処理開始通知の通知前までの間に前記常用系計算機が故障した場合、
    前記待機系計算機は、新たな常用系計算機に切り替わり、
    前記新たな常用系計算機の前記移行プロセス決定部は、前記デッドラインミス予測部に新たな常用系計算機に切り替わったことを通知し、
    前記デッドラインミス予測部は、前記新たな常用系計算機の前記移行プロセス決定部に警告メッセージを通知し、
    前記新たな常用系計算機の前記移行プロセス決定部は、プロセスの再配置方法を決定し、
    前記新たな常用系計算機の前記移行プロセス決定部は、決定したプロセスの再配置方法に基づいて各計算機のプロセス制御部にプロセスを制御させ、
    前記新たな常用系計算機の前記移行プロセス決定部は、前記新たな常用系計算機のシステム構成情報管理テーブルを更新し、
    前記新たな常用系計算機の前記移行プロセス決定部は、新たな待機系計算機として特定の計算機に前記移行プロセス決定部を起動させ、
    前記新たな常用系計算機の前記移行プロセス決定部は、前記新たな常用系計算機の前記システム構成情報管理テーブルを前記新たな待機系計算機にコピーさせ、
    前記新たな常用系計算機の前記移行プロセス決定部は、前記デッドラインミス予測部に処理完了通知を通知する
    ことを特徴とする請求項1記載の計算機システム。
  3. 前記処理開始通知の通知後から前記処理終了通知の通知前までの間に前記常用系計算機が故障した場合、
    前記待機系計算機は、新たな常用系計算機に切り替わり、
    前記新たな常用系計算機の移行プロセス決定部は、各計算機に割り当てられているプロセスを各計算機に問い合わせ、
    前記新たな常用系計算機の移行プロセス決定部は、各計算機に割り当てられているプロセスに合わせて前記システム構成情報管理テーブルを更新し、
    前記新たな常用系計算機の移行プロセス決定部は、前記処理開始通知と各計算機に割り当てられているプロセスとに基づいて各計算機のプロセス制御部にプロセスを制御させ、
    前記新たな常用系計算機の前記移行プロセス決定部は、前記新たな常用系計算機のシステム構成情報管理テーブルを更新し、
    前記新たな常用系計算機の前記移行プロセス決定部は、新たな待機系計算機として特定の計算機に前記移行プロセス決定部を起動させ、
    前記新たな常用系計算機の前記移行プロセス決定部は、前記新たな常用系計算機の前記システム構成情報管理テーブルを前記新たな待機系計算機にコピーさせ、
    前記新たな常用系計算機の前記移行プロセス決定部は、前記デッドラインミス予測部に新たな常用系計算機に切り替わったことを通知し、
    前記新たな常用系計算機の前記移行プロセス決定部は、前記デッドラインミス予測部に処理完了通知を通知する
    ことを特徴とする請求項1または請求項2記載の計算機システム。
  4. 前記処理終了通知の通知後に前記常用系計算機が故障した場合、
    前記待機系計算機は、新たな常用系計算機に切り替わり、
    前記新たな常用系計算機の前記移行プロセス決定部は、新たな待機系計算機として特定の計算機に前記移行プロセス決定部を起動させ、
    前記新たな常用系計算機の前記移行プロセス決定部は、前記新たな常用系計算機の前記システム構成情報管理テーブルを前記新たな待機系計算機にコピーさせ、
    前記新たな常用系計算機の前記移行プロセス決定部は、前記デッドラインミス予測部に新たな常用系計算機に切り替わったことを通知し、
    前記新たな常用系計算機の前記移行プロセス決定部は、前記デッドラインミス予測部に処理完了通知を通知する
    ことを特徴とする請求項1〜請求項3いずれかに記載の計算機システム。
  5. 前記待機系計算機が故障した場合、
    前記常用系計算機の前記移行プロセス決定部は、新たな待機系計算機として特定の計算機に前記移行プロセス決定部を起動させ、
    前記常用系計算機の前記移行プロセス決定部は、前記常用系計算機の前記システム構成情報管理テーブルを前記新たな待機系計算機にコピーさせる
    ことを特徴とする請求項1〜請求項4いずれかに記載の計算機システム。
  6. 常用系計算機と待機系計算機とを含む複数の計算機を有する計算機システムの計算機制御方法において、
    割り当てられたプロセスを制御するプロセス制御部を各計算機が備え、
    各計算機に割り当てられたプロセスを示すシステム構成情報管理テーブルを前記常用系計算機と前記待機系計算機とが備え、
    プロセスのデッドラインミスを予測するデッドラインミス予測部をいずれかの計算機が備え、
    前記デッドラインミス予測部によりプロセスのデッドラインミスが予測された場合、プロセスの再配置方法を前記システム構成情報管理テーブルに基づいて決定する移行プロセス決定部が前記常用系計算機と前記待機系計算機とで動作し、
    前記常用系計算機と前記待機系計算機とが正常に動作している場合、
    前記デッドラインミス予測部は、プロセスのデッドラインミスを予測した場合、前記常用系計算機の前記移行プロセス決定部に警告メッセージを送信し、
    前記常用系計算機の前記移行プロセス決定部は、プロセスの再配置方法を決定し、
    前記常用系計算機の前記移行プロセス決定部は、決定したプロセスの再配置方法を示す処理開始通知を前記待機系計算機の前記移行プロセス決定部に通知し、
    前記常用系計算機の前記移行プロセス決定部は、決定したプロセスの再配置方法に基づいて各計算機のプロセス制御部にプロセスを制御させ、
    前記常用系計算機の前記移行プロセス決定部は、前記常用系計算機のシステム構成情報管理テーブルを更新し、
    前記常用系計算機の前記移行プロセス決定部は、プロセスの再配置結果を処理終了通知として前記待機系計算機の前記移行プロセス決定部に通知し、
    前記待機系計算機の前記移行プロセス決定部は、前記処理終了通知に基づいて前記待機系計算機のシステム構成情報管理テーブルを更新し、
    前記常用系計算機の前記移行プロセス決定部は、前記デッドラインミス予測部に処理完了通知を通知する
    ことを特徴とする計算機システムの計算機制御方法であり、
    前記デッドラインミス予測部によるデッドラインミスの予測前に前記常用系計算機が故障した場合、
    前記待機系計算機は、新たな常用系計算機に切り替わり、
    前記新たな常用系計算機の前記移行プロセス決定部は、前記デッドラインミス予測部に常用系に切り替わったことを通知し、
    前記新たな常用系計算機の前記移行プロセス決定部は、新たな待機系計算機として特定の計算機に前記移行プロセス決定部を起動させ、
    前記新たな常用系計算機の前記移行プロセス決定部は、前記新たな常用系計算機の前記システム構成情報管理テーブルを前記新たな待機系計算機にコピーさせる
    ことを特徴とする計算機システムの計算機制御方法。
JP2009052896A 2009-03-06 2009-03-06 計算機システムおよび計算機システムの計算機制御方法 Expired - Fee Related JP4485592B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009052896A JP4485592B2 (ja) 2009-03-06 2009-03-06 計算機システムおよび計算機システムの計算機制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009052896A JP4485592B2 (ja) 2009-03-06 2009-03-06 計算機システムおよび計算機システムの計算機制御方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2006188754A Division JP4408122B2 (ja) 2006-07-10 2006-07-10 計算機システム、計算機システムの計算機制御方法および計算機制御プログラム

Publications (2)

Publication Number Publication Date
JP2009123238A JP2009123238A (ja) 2009-06-04
JP4485592B2 true JP4485592B2 (ja) 2010-06-23

Family

ID=40815252

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009052896A Expired - Fee Related JP4485592B2 (ja) 2009-03-06 2009-03-06 計算機システムおよび計算機システムの計算機制御方法

Country Status (1)

Country Link
JP (1) JP4485592B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5448787B2 (ja) * 2009-12-21 2014-03-19 三菱重工業株式会社 計算機管理装置、計算機管理方法及び計算機管理プログラム
JP5545813B2 (ja) * 2009-12-24 2014-07-09 大和製衡株式会社 計量システム及びその制御装置
US8909763B2 (en) 2011-03-31 2014-12-09 Mitsubishi Heavy Industries, Ltd. Computing-device management device, computing-device management method, and computing-device management program
JP7110937B2 (ja) 2018-11-22 2022-08-02 富士通株式会社 情報処理システム及び情報処理装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000040045A (ja) * 1998-07-24 2000-02-08 Mitsubishi Electric Corp 監視システム
JP2001155003A (ja) * 1999-11-30 2001-06-08 Ntt Comware Corp サービス復旧システムおよびその記録媒体

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06195318A (ja) * 1992-12-24 1994-07-15 Kanebo Ltd 分散処理システム
JPH0916427A (ja) * 1995-06-29 1997-01-17 Fujitsu Ltd 二重化制御方法並びにそのためのマスタ制御装置及びスレーブ制御装置
JP2888278B2 (ja) * 1995-09-14 1999-05-10 日本電気株式会社 相互ホットスタンバイシステム待機系選択方式

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000040045A (ja) * 1998-07-24 2000-02-08 Mitsubishi Electric Corp 監視システム
JP2001155003A (ja) * 1999-11-30 2001-06-08 Ntt Comware Corp サービス復旧システムおよびその記録媒体

Also Published As

Publication number Publication date
JP2009123238A (ja) 2009-06-04

Similar Documents

Publication Publication Date Title
JP4920391B2 (ja) 計算機システムの管理方法、管理サーバ、計算機システム及びプログラム
CN105357038B (zh) 监控虚拟机集群的方法和系统
WO2012056596A1 (ja) 計算機システム及び処理制御方法
CN101533417B (zh) 一种实现etl调度的方法及系统
US7516292B2 (en) Method for predicting and avoiding danger in execution environment
US8862833B2 (en) Selection of storage containers for thin-partitioned data storage based on criteria
JP4992408B2 (ja) ジョブ割当プログラム、方法及び装置
US8171060B2 (en) Storage system and method for operating storage system
JP2007193471A (ja) 予約管理プログラム、予約管理装置、および予約管理方法
US8065560B1 (en) Method and apparatus for achieving high availability for applications and optimizing power consumption within a datacenter
JP6434131B2 (ja) 分散処理システム、タスク処理方法、記憶媒体
WO2014168913A1 (en) Database management system with database hibernation and bursting
US20210240575A1 (en) Dynamic backup management
EP3956771B1 (en) Timeout mode for storage devices
WO2015063889A1 (ja) 管理システム、プラン生成方法、およびプラン生成プログラム
KR20190066516A (ko) 도커 컨테이너 관리 시스템 및 방법, 이를 수행하기 위한 기록매체
JP4485592B2 (ja) 計算機システムおよび計算機システムの計算機制御方法
US11212174B2 (en) Network management device and network management method
JP6252309B2 (ja) 監視漏れ特定処理プログラム,監視漏れ特定処理方法及び監視漏れ特定処理装置
JP4408122B2 (ja) 計算機システム、計算機システムの計算機制御方法および計算機制御プログラム
JP6279816B2 (ja) ストレージ監視システムおよびその監視方法
US10909094B1 (en) Migration scheduling for fast-mutating metadata records
KR101596325B1 (ko) 서버/스토리지 관리 시스템
KR102187382B1 (ko) 클라우드 인프라 기반의 컨테이너 가상os 통합 모니터링 운영 방법
JP2009259005A (ja) リソース監視方法および装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090306

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090526

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090717

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100323

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100324

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130402

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130402

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140402

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees