JP2011123724A

JP2011123724A - 情報処理装置及び処理情報縮退方法

Info

Publication number: JP2011123724A
Application number: JP2009281599A
Authority: JP
Inventors: Kazumiki Yamamoto; 和幹山本
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2009-12-11
Filing date: 2009-12-11
Publication date: 2011-06-23

Abstract

【課題】並列処理を行う一部の計算機に障害が発生した場合において、リソースの不足により残りの計算機がオーバーロードとなる状況を未然に防ぐとともに、オペレーション上重要な、特定のミッションの継続を保証する。
【解決手段】並列処理を行う一部の計算機に障害が発生した時、残りの計算機が高負荷となった場合、あらかじめオペレータが指定したミッションに応じて、トリアージ対象外の外部機器とのインターフェースを負荷率の高い順に切断することで全体負荷を低減し、重要性の高い外部機器を用いた処理性能を保証する。
【選択図】図２

Description

本発明は、複数の処理すべきミッション毎に、センサ情報を複数の計算機により並列処理する情報処理装置に関するものであり、並列処理を行う計算機の障害発生時において、特定のミッションを継続して処理するために、処理情報を縮退する処理情報縮退方法に関するものである。

艦載に搭載される従来の情報処理装置は、センサや火器などの外部機器を全て連接した状態で運用し、センサや外部の情報処理装置から得られた目標情報を複数の計算機で並列処理して、複数のミッションを同時に処理している。例えば、上空を飛行する航空機や飛翔体へ対処するための目標情報を処理する対空処理を行っている場合であっても、同時に、海中を潜行する潜水艦へ対処するための目標情報の処理を行っている。

この種の情報処理装置では、複数台の計算機のプロセッサを用いて、各プロセッサの有効活用を図りながら複数のタスクについてリアルタイム処理を行うとともに、障害発生時の信頼性を確保することが行われる。例えば、並列処理プロセッサによってタスクを並列処理させ、並列プロセッサの故障時には他の並列プロセッサが故障したプロセッサのタスクを実行する（例えば、特許文献１参照）。

特開２００９−３５３７号公報

従来の技術では、特許文献１に示すように、目標情報を並列処理している一部の計算機に障害が発生した場合、障害の発生しない残りの計算機で目標情報を処理することになる。しかし、並列処理を行う計算機のリソース（ＣＰＵ、メモリ等の使用率）が不足し、残った全ての計算機の負荷が高くなるため、全目標情報を処理するにはオーバーロードとなってしまい、ミッションが継続できなくなるという問題があった。

本発明は、並列処理を行う一部の計算機に障害が発生した場合において、障害の発生しない残りの計算機のオーバーロードを未然に防ぎ、並列処理によるオペレーション上重要な、特定のミッションの継続を保証する情報処理装置を得ることを目的とする。

この発明による情報処理装置は、複数の計算機からなり、複数の外部機器に対しネットワークにより接続された並列処理部と、複数の外部機器と上記並列処理部とのインタフェースの接続処理及び切断処理を行う入出力処理部と、障害の発生した計算機を検出し、障害を生じていない残りの計算機における上記並列処理部の負荷と負荷制限値との比較に応じて、予め設定された特定のミッションによって利用される外部機器の重要度を示す情報に基いて上記並列処理部との切断処理を行う候補とすべき切断候補外部機器を選定し、選定された切断候補外部機器の中から、外部機器毎に消費する上記並列処理部の負荷状況に基いて、上記並列処理部とのインタフェースを切断する外部機器を決定する計算機監視部と、を備えたものである。

この発明によれば、重要度の高いミッションを遂行するために重要な機器（トリアージ対象）以外の（トリアージ対象外）外部機器について、並列処理部とのインタフェースの切断を行うことにより、重要なミッションの継続が可能となるとともに、トリアージ対象外の外部機器の中で、外部機器の負荷状況（リソース使用状況）に基いて外部機器と並列処理部とのインターフェースを切断することで、並列処理部の処理負荷を効果的に低減することができる。

この発明の実施の形態１に係わる情報処理装置及び外部機器の構成例を示す図である。情報処理装置における計算機監視部の構成例を示す図である。情報処理装置における並列処理部の構成例を示す図である。計算機監視部１０５の処理動作フローを示す図である。

実施の形態１．
図１は、本発明の実施の形態１に係わる情報処理装置１００及び外部機器１０７ａ〜１０７ｎの構成を示す図である。情報処理装置１００は、例えば艦載や航空機に搭載され、センサや火器などの外部機器を全て連接した状態で運用し、センサや他の情報処理装置から得られた目標情報を複数の計算機で並列処理して、複数のミッションを同時に処理する。処理されるミッションは、あらかじめ重要度に応じた優先順位が設定されているが、この優先順位は、処理状況や外囲環境によって変化するものであっても良い。

図において、情報処理装置１００は、複数の計算機が情報処理装置内部ネットワーク１０１で接続されている。
各計算機はそれぞれ役割が与えられ、その役割によって、Ｉ／Ｏ処理部１０２、逐次実行部１０３、並列処理部１０４、計算機監視部１０５に分類される。並列処理部１０４は、並列処理を行う複数の計算機１０４ａ〜１０４ｎから構成される。各計算機１０４ａ〜１０４ｎによる並列処理によって、リアルタイムで複数のミッションが同時に処理される。各計算機１０４ａ〜１０４ｎは、処理すべきミッションに依存して処理能力が異なるような個体差はなく、それぞれ同様の処理能力を有していることが好ましい。

また、外部機器１０７ａ〜１０７ｎとしては、主としてセンサや火器が用いられる。外部機器１０７ａ〜１０７ｎは、情報処理装置１００のＩ／Ｏ処理部１０２と、上位システムのシステムネットワーク１０６に接続されている。

Ｉ／Ｏ処理部１０２は、センサを含む外部機器とのインターフェースの連接（接続）処理及び切断処理を行う他、各外部機器１０７ａ〜１０７ｎとの間で通信によりデータの受け渡しを行うための入出力処理を実行するための入出力処理部である。

逐次実行部１０３は、情報処理装置１００を構成する各計算機（Ｉ／Ｏ処理部１０２、並列処理部１０４、計算機監視部１０５）、及び各外部機器１０７ａ〜１０７ｎからのメッセージ受信時に行われる実行処理を逐次実行する。また、逐次実行部１０３は、各外部機器１０７ａ〜１０７ｎから受信したメッセージに基いて生成した要求メッセージを、並列処理部１０４に対して送信する。

並列処理部１０４は、逐次実行部１０３からの要求メッセージに応じて、複数の計算機１０４ａ〜１０４ｎにより、目標情報の並列処理を実行する。並列処理部１０４の計算機１０４ａ〜１０４ｎのうち、１つ以上の計算機に障害が発生した場合は、残った計算機で目標情報の並列処理を継続して実行する。

計算機監視部１０５は、並列処理部１０４に対して定期的にメッセージを送り、並列処理部１０４における障害の発生有無を監視する。ここで障害の発生とは、例えば、並列処理部１０４の各計算機１０４ａ〜ｎが、計算機監視部１０５からのメッセージに対し、設定した時間内に応答しない状態を指す。なお、この設定した時間内に全ての計算機１０４ａ〜ｎから応答があった場合は、障害の発生無と判断される。

並列処理部１０４の計算機１０４ａ〜１０４ｎのうち１つ以上の計算機に障害が発生し、計算機監視部１０５がその障害を検知した際、計算機監視部１０５は残った各計算機の全リソース使用状況を確認する。この全リソース使用状況の確認では、計算機毎に処理する全プロセスについてのリソース使用状況の合計値を求め、求めた計算機毎のリソース使用状況の合計値に基いて、全リソース使用状況の確認処理が行われる。

計算機監視部１０５による全リソース使用状況の確認処理の結果、リソース使用状況の合計値があらかじめ設定した負荷制限値を超えた場合は、計算機監視部１０５はインターフェース切断処理を指示する。
このインターフェース切断処理では、あらかじめミッションにおいて重要であると設定した外部機器に該当しない、重要性の低い外部機器の中から、外部機器の使用に応じた外部機器リソース使用状況に応じて、インターフェースの切断を行う外部機器の選択が行われる。外部機器リソース使用状況は、例えば外部機器との通信に関連する各計算機のプロセスについての、各リソースの使用状況の合計値を求めることで行われる。

計算機監視部１０５は、このインターフェース切断を行うと選択された外部機器について、Ｉ／Ｏ処理部１０２に対してインターフェースの切断処理を指示する。Ｉ／Ｏ処理部１０２は、この指示に従い、選択された外部機器との通信を切断し、情報の授受を停止する。

一方、障害が発生した並列処理部１０４の計算機が障害から回復した場合、計算機監視部１０５はＩ／Ｏ処理部１０２におけるインターフェースの接続状態を確認する。この際、インターフェースが切断状態の外部機器があれば、計算機監視部１０５はＩ／Ｏ処理部１０２に対してインターフェースの連接（接続）処理を指示する。

図２は計算機監視部１０５の構成を示す例である。計算機監視部１０５は内部にトリアージ対象外部機器テーブル２００及び負荷制限値管理テーブル２０１を備える。

ここでトリアージとは、災害発生時において、人材や資源の厳しい状況下で最善の救命効果を得るために、重症度や緊急性から負傷者を選別し、治療の優先度を決定するという意味の医療用語に由来するものであるが、この実施の形態では、「障害発生時において、リソース不足となった場合、重要なミッションの継続を保証するために、ミッションにおける重要度に基いてインターフェース接続を維持するための外部機器を選別する」ことを意味するものとする。

表１は計算機監視部１０５が管理する、トリアージ対象外部機器テーブル２００の構成例を示す表である。この例では、ミッションの種類として、ミッション００１、ミッション００２、ミッション００３の３種類が設定されている。トリアージ対象外部機器テーブル２００には、ミッションの種類毎に、障害発生時において各外部機器１０７ａ〜１０７ｎをトリアージするか否かを識別するための情報が格納されている。ここでは、トリアージを行う対象となる外部機器をトリアージ対象外部機器と呼び、トリアージを行う対象とはならない外部機器をトリアージ非対象外部機器と呼ぶものとする。

表１の例では、ミッション別にトリアージ対象外部機器を識別する情報として、○印を付記している。例えば、ミッション００１では、障害発生時において外部機器Ａ、Ｂ、Ｃ、Ｅ、Ｆはトリアージ対象とし、トリアージ非対象である外部機器Ｄ、Ｇ、Ｈ、Ｉ、Ｊは、インターフェースを切断する外部機器としてもよい外部機器として選択することを意味する。
同様に、ミッション００２では、障害発生時において外部機器Ｄ、Ｇ、Ｈ、Ｊはトリアージ対象とし、トリアージ非対象である外部機器Ａ、Ｂ、Ｃ、Ｅ、Ｆ、Ｉは、インターフェースを切断してもよい外部機器として選択することを意味する。
また、ミッション００３では、障害発生時において外部機器Ｃ、Ｈ、Ｉ、Ｊはトリアージ対象とし、トリアージ非対象である外部機器Ａ、Ｂ、Ｄ、Ｅ、Ｆ、Ｇは、インターフェースを切断してもよい外部機器として選択することを意味する。

ミッションの種類及び重要度に応じた優先順位と、各ミッション種別に対応したトリアージ対象外部機器は、予めオペレータ操作により設定が行われ、計算機監視部１０５においてトリアージ対象外部機器テーブル２００の情報が設定される。また、全てのミッションの開始前に、実行対象となるべきミッションの種類がオペレータにより選択され、選択されたミッションが並列処理部１０４によって同時に処理される。
なお、表１に例示したミッションの場合、ミッション００１がトリアージ対象とする外部機器の数が多く、ミッション００２、００３がトリアージ対象とする外部機器の数が少ない。
このことは、ミッション００１については情報処理装置１００の所有する並列処理部１０６によって情報処理すべき外部機器情報が多く、ミッション００２、００３については情報処理装置１００の所有する並列処理部１０６によって情報処理すべき外部機器情報が少ないことを意味しており、並列処理部１０６が最も重要視しているミッションがミッション００１であることを示している。逆に、ミッション００２、００３は、並列処理部１０６にとって重要度が低く、外部に設けられた他の情報処理装置の並列処理部が代替処理を行うことができるものとなっている。
トリアージ対象外部機器テーブル２００においては、ミッションの重要度に応じて順位の並べ替えを行い、重要度が高く優先順位の高いミッションから重要度が低く優先順位の低いミッションまで、順にテーブル上に掲載するようにしても良い。

表２は計算機監視部１０５が管理する、負荷制限値管理テーブル２０１の構成例を示す表である。この例では、並列処理部１０４の各計算機１０４ａ〜１０４ｎにおける、全リソース使用状況に対する負荷制限値を示す情報を格納している。

ここでのリソース使用状況（負荷状況）とは、例えばＣＰＵ使用率、メモリ使用量等の負荷占有率を指す指標である。表２では、リソース使用状況としてＣＰＵ使用率を用いた例を示している。リソース使用状況は、並列処理部１０４の各計算機１０４ａ〜１０４ｎにおいて、後述するリソース使用状況管理テーブルを用いて個別に管理が行われている。

また、負荷制限値とは、障害発生時に、特定の外部機器とのインターフェース切断を実行するための制限値を与えるものであり、複数種類の制限値を設けることで、インターフェースの切断形態を複数種類設けることができる。
表２では、負荷制限値として、第一制限値と第二制限値の二種類を設定した例を示している。これらの負荷制限値は、オペレータの操作によって計算機監視部１０５の負荷制限値管理テーブル２０１に設定される。

表２に示すインターフェースの切断形態によれば、並列処理部１０４のそれぞれの計算機におけるＣＰＵ使用率が第一制限値を超えた場合には、計算機監視部１０５はオペレータにインターフェース切断のリコメンド（推薦）を行い、オペレータがリコメンドに応じた場合にのみ、インターフェースの切断処理が実行される。
また、並列処理部１０４のそれぞれの計算機におけるＣＰＵ使用率が第二制限値を超えた場合は、計算機監視部１０５はオペレータにリコメンドを行うことなく、自動的にインターフェースの切断処理を実行する。

次に、並列処理部１０４に障害が発生した際の、計算機監視部１０５の処理動作について図を用いて詳細を説明する。
図３は並列処理部１０４の構成例を示す図である。並列処理部１０４の各計算機１０４ａ〜１０４ｎは、それぞれ内部にリソース使用状況管理テーブル３００ａ〜３００ｎを有する。図４は計算機監視部１０５の処理動作フローを示す図である。

表３は並列処理部１０４の各計算機１０４ａ〜１０４ｎが管理する、リソース使用状況管理テーブル３００ａ〜３００ｎの構成例を示す図である。
リソース使用状況管理テーブル３００ａ〜３００ｎは、各計算機１０４ａ〜１０４ｎにおける全リソース使用状況及び外部機器リソース使用状況が格納されており、周期的に更新が行われている。

表３はＣＰＵ使用率に関するものであり、例えば、表３が示す並列処理部１０４の計算機については、全プロセスのＣＰＵ使用率が３３％で、外部機器ＡのＣＰＵ使用率が２％となっており、ＣＰＵ使用率が、高い順にＢ、Ｄ、Ｉ、Ａ、Ｃ、Ｅ、Ｆ、Ｇ、Ｊとなっている例を示している。

障害発生時、並列処理部１０４の一部の計算機の処理が障害により停止し、計算機監視部１０５が、障害発生した計算機からの応答反応がないことを確認することで、その障害の発生を検出する（ステップＳ１）。

計算機監視部１０５は、障害の発生を検出すると、並列処理部１０４の残った各計算機１０４ａ〜１０４ｎの全リソース使用状況の監視を始め、例えば全プロセスによるＣＰＵ使用率と負荷制限値との比較を行い、インターフェースの切断処理を行う（ステップＳ２）。

例えば、並列処理部１０４のある計算機の全リソース使用状況が第一制限値（例えば７０％）を超えた場合、計算機監視部１０５はオペレータに対してインターフェース切断をリコメンドし（ステップＳ３）、オペレータがリコメンドに応じた場合は、インターフェース切断処理が実行される（ステップＳ４）。
オペレータがリコメンドを拒否した場合は、並列処理部１０４の残った各計算機１０４ａ〜１０４ｎの全リソース使用状況の監視を続ける（ステップＳ５）。

具体的には、ステップＳ３では、例えば、計算機監視部１０５の制御によって、情報処理装置１００に接続された図示しない表示装置を通じて、ＣＰＵ使用率の現状値と「インターフェース切断しますか？」のようなリコメンドすべき情報とが表示される。オペレータはミッションの重要度に応じて、インターフェース切断処理を行うか否かを判断し、トリアージ対象外部機器テーブルに基いてインターフェース切断処理を行うべき外部機器を決定する。
ステップＳ４では、オペレータがこのリコメンドに応じて、情報処理装置１００に接続された図示しない入力装置を通じ、一定時間内に「Ｙｅｓ」のように是認する回答入力を行った場合は、オペレータの指定した外部機器について、インターフェース切断処理が実行される。この際、オペレータに対して、各ミッションに対応したトリアージ対象外の外部機器が表示され、オペレータはインターフェース切断を行う外部機器を適宜選択して、情報処理装置１００の入力装置に入力する。
例えば、表１のトリアージ対象外部機器テーブルに基き、重要度の最も高いミッション００１について、トリアージ対象外の外部機器Ｄ、Ｇ、Ｈ、Ｉ、Ｊの中から、表３の例のように全プロセスにおいてＣＰＵ使用率が最も高くなる外部機器Ｄをオペレータが選び、オペレータが外部機器Ｄについてインターフェースの切断処理を実行する。
一方、ステップＳ５では、オペレータがこのリコメンドに応じず、図示しない入力装置を通じて「Ｎｏ」のように拒否する回答入力を行った場合や、一定時間内に何も回答入力を行われなかった場合は、インターフェース切断処理が実行されず、そのまま処理が継続される。

次いで、例えば並列処理部１０４のある計算機の全リソース使用状況が第二制限値（例えば１００％）を超えた場合、計算機監視部１０５の指示によってインターフェース切断処理が自動的に強制実行される。この際、トリアージ対象外部機器テーブルに基いて、優先度の最も高いミッションに対応するトリアージ対象外の外部機器が、インターフェース切断対象候補となる外部機器として、自動的に選択される（ステップＳ６）。

インターフェース切断処理では、計算機監視部１０５が、トリアージ対象外の外部機器（インターフェース切断対象候補）の中から、外部機器リソース使用状況が最大となる外部機器を選択決定する（ステップＳ７）。
選択した外部機器について、Ｉ／Ｏ処理部１０２に対してインターフェース切断の実行処理を指示する。Ｉ／Ｏ処理部１０２は、指示を受けたインターフェース切断すべき外部機器について、インターフェース切断処理を実行し、情報処理装置内部ネットワーク１０１との接続を切断する（ステップＳ８）。
これによって、並列処理部にて処理される情報の縮退が行われる。

インターフェース切断後、全リソース使用状況が第一制限値以下にならない場合は、外部機器リソース使用状況が次に最大のものを切断し、全リソース使用状況が第一制限値を下回るまで切断処理を繰り返す（ステップＳ９）。
例えば、表１のトリアージ対象外部機器テーブルに基き、重要度の最も高いミッション００１について、既に切断されている外部機器Ｄを除く、トリアージ対象外の外部機器Ｇ、Ｈ、Ｉ、Ｊが、インターフェース切断対象候補として選択される。ここで、ＣＰＵ使用率の状況は、表３の例と同様に外部機器Ｉ、Ｈ、Ｇの順に、ＣＰＵ使用率が高いものと仮定して説明する。
次に、外部機器Ｇ、Ｈ、Ｉ、Ｊの中から、ＣＰＵ使用率の最も高い外部機器Ｉが、インターフェース切断すべき外部機器として選択され、インターフェース切断が行われる。その後、全リソース使用状況が第一制限値を下回らない場合には、外部機器Ｈ、Ｉ、Ｊの中から、ＣＰＵ使用率が次に最も高い外部機器Ｈが、インターフェース切断すべき外部機器として選択され、インターフェース切断が行われる。以降、全リソース使用状況が第一制限値を下回るまで、順にインターフェース切断処理が続けられることとなる。
このようにして、並列処理部にて処理される情報の縮退を更に推し進めることが可能となる。

続いて、障害からの回復時、計算機監視部１０５が回復を検知した場合、インターフェース切断状態の外部機器がある場合は、Ｉ／Ｏ処理部１０２に対して、ＣＰＵ使用率の低い外部機器から順に、インターフェース連接を指示する。
例えば、インターフェース切断処理以前でのＣＰＵ使用率の状況が、表３の例と同様であって、外部機器Ｄ、Ｇ、Ｈ、Ｉ、Ｊの全てが切断されている場合は、ＣＰＵ使用率の最も低い外部機器Ｇが最初にインターフェース連接される。以降、外部機器Ｈ、Ｉ、Ｇの順にインターフェース連接が行われる。

以上のように、この実施の形態１による情報処理装置は、複数の計算機からなり、複数の外部機器に対しネットワークにより接続された並列処理部と、複数の外部機器と上記並列処理部とのインタフェースの接続処理及び切断処理を行う入出力処理部と、障害の発生した計算機を検出し、障害を生じていない残りの計算機における上記並列処理部の負荷と負荷制限値との比較に応じて、予め設定された特定のミッションによって利用される外部機器の重要度を示す情報に基いて上記並列処理部との切断処理を行う候補とすべき切断候補外部機器を選定し、選定された切断候補外部機器の中から、外部機器毎に消費する上記並列処理部の負荷状況に基いて、上記並列処理部とのインタフェースを切断する外部機器を決定する計算機監視部と、を備えたことを特徴とする。

また、上記負荷制限値は、第一、第二制限値からなる二段階の制限値が設定され、
上記計算機監視部は、上記並列処理部の負荷が第一制限値を超えたことを検出すると、オペレータに対して上記切断候補外部機器とのインターフェース切断の可否決定の入力を促すとともに、上記リコメンド処理に応じてオペレータにて切断候補外部機器の中から選択した特定の外部機器についてインターフェース切断処理が行われるように、負荷状況として負荷占有率をオペレータに提示するリコメンド処理を行い、
上記計算機監視部は、上記並列処理部の負荷が上記第二制限値を超えたことを検出すると、上記切断候補外部機器の中から負荷占有率に応じて他の外部機器を自動的に選択し、当該他の外部機器についてインタフェースの切断処理を行う、ことを特徴としても良い。

また、上記計算機監視部は、上記並列処理部の負荷が上記第二制限値を超えたことを検出すると、上記並列処理部の負荷が第一制限値を下回るまで、上記切断候補外部機器の中から負荷占有率に応じて、順次外部機器とのインターフェース切断処理を繰り返すことを特徴としても良い。

また、上記計算機監視部は、上記障害の発生した計算機が障害から回復したことを検出した場合、上記インターフェースを切断した外部機器とのインターフェースを、自動的に連接することを特徴としても良い。

更に、複数の計算機からなり、複数の外部機器に対しネットワークにより接続された並列処理部と、複数の外部機器と上記並列処理部とのインタフェースの接続処理及び切断処理を行う入出力処理部とを備えた情報処理装置による処理情報縮退方法であって、障害の発生した計算機を検出するステップ、障害の発生した計算機を検出した場合、障害を生じていない残りの計算機における上記並列処理部の負荷と負荷制限値との比較に応じて、予め設定された特定のミッションによって利用される外部機器の重要度を示す情報に基いて上記並列処理部との切断処理を行う候補とすべき切断候補外部機器を選定するステップ、選定された切断候補外部機器の中から、外部機器毎に消費する上記並列処理部の負荷状況に基いて、上記並列処理部とのインタフェースを切断する外部機器を決定するステップ、上記インタフェースを切断する外部機器の決定に基いて、上記並列処理部と上記決定された外部機器のインタフェースを切断することで、上記並列処理部にて処理される情報を縮退するステップ、を備えた処理情報縮退方法であっても良い。

このように構成することで、予めミッションにおいて重要な外部機器及び負荷制限値を設定しておくことにより、障害発生時において処理負荷が負荷制限値に達した場合は、重要度の高いミッションにおいて重要な外部機器をトリアージ対象とすることで、重要なミッションの継続が可能となるとともに、トリアージ対象外の外部機器の中で、外部機器リソース使用状況が最大となる外部機器と並列処理部とのインターフェースを切断することで、最も効果的に並列処理部の処理負荷を低減することができる。

また、負荷制限値を二種類設けることによって、障害発生時において処理負荷が第一制限値に達しない場合は外部機器とのインターフェースは切断せず、第一制限値に達した場合はインターフェースの切断をオペレータにリコメンドし、リコメンドに対してオペレータが拒否した場合はインターフェース切断処理を行わないような、オペレータの選択に応じた処理を実行できることともに、処理負荷が第二制限値に達した場合には、自動的に外部機器とのインターフェースを切断する処理を行うことができる。
このように、出来る限り外部機器と並列処理部とのインターフェースを切断せずにオペレーションを継続することが可能であり、処理負荷が高くなった場合にもまずはオペレータの判断でインターフェースを切断するかどうかを決定することができるので、負荷状況に応じて柔軟に障害時処置を行うことができる。

なお、インターフェース切断処理は、処理負荷が第一制限値を下回るまで繰り返されるため、インターフェースの切断後はリソースに余裕があり、重要なミッションの継続を保証することができる。

また、計算機が障害から回復した際、インターフェースを切断した外部機器があった場合は、外部機器リソース使用状況が最小の外部機器から順に自動で連接されていくため、オペレータはインターフェース連接処理を手動で実行することなく、ミッションを継続することができる。

１００情報処理装置、１０１情報処理装置内部ネットワーク、１０２Ｉ／Ｏ処理部、１０３逐次実行部、１０４並列処理部、１０５計算機監視部、１０６システムネットワーク、１０７外部機器、２００トリアージ対象外部機器テーブル、２０１負荷制限値管理テーブル、３００リソース使用状況管理テーブル。

Claims

複数の計算機からなり、複数の外部機器に対しネットワークにより接続された並列処理部と、
複数の外部機器と上記並列処理部とのインタフェースの接続処理及び切断処理を行う入出力処理部と、
障害の発生した計算機を検出し、障害を生じていない残りの計算機における上記並列処理部の負荷と負荷制限値との比較に応じて、予め設定された特定のミッションによって利用される外部機器の重要度を示す情報に基いて上記並列処理部との切断処理を行う候補とすべき切断候補外部機器を選定し、選定された切断候補外部機器の中から、外部機器毎に消費する上記並列処理部の負荷状況に基いて、上記並列処理部とのインタフェースを切断する外部機器を決定する計算機監視部と、
を備えた情報処理装置。
上記負荷制限値は、第一、第二制限値からなる二段階の制限値が設定され、
上記計算機監視部は、上記並列処理部の負荷が第一制限値を超えたことを検出すると、オペレータに対して上記切断候補外部機器とのインターフェース切断の可否決定の入力を促すとともに、上記リコメンド処理に応じてオペレータにて切断候補外部機器の中から選択した特定の外部機器についてインターフェース切断処理が行われるように、負荷状況として負荷占有率をオペレータに提示するリコメンド処理を行い、
上記計算機監視部は、上記並列処理部の負荷が上記第二制限値を超えたことを検出すると、上記切断候補外部機器の中から負荷占有率に応じて他の外部機器を自動的に選択し、当該他の外部機器についてインタフェースの切断処理を行う、
ことを特徴とした請求項１記載の情報処理装置。
上記計算機監視部は、上記並列処理部の負荷が上記第二制限値を超えたことを検出すると、上記並列処理部の負荷が第一制限値を下回るまで、上記切断候補外部機器の中から負荷占有率に応じて、順次外部機器とのインターフェース切断処理を繰り返すことを特徴とした請求項２記載の情報処理装置。
上記計算機監視部は、上記障害の発生した計算機が障害から回復したことを検出した場合、上記インターフェースを切断した外部機器とのインターフェースを、自動的に連接することを特徴とした請求項１から請求項３の何れか１項記載の情報処理装置。
複数の計算機からなり、複数の外部機器に対しネットワークにより接続された並列処理部と、複数の外部機器と上記並列処理部とのインタフェースの接続処理及び切断処理を行う入出力処理部とを備えた情報処理装置による処理情報縮退方法であって、
障害の発生した計算機を検出するステップ、
障害の発生した計算機を検出した場合、障害を生じていない残りの計算機における上記並列処理部の負荷と負荷制限値との比較に応じて、予め設定された特定のミッションによって利用される外部機器の重要度を示す情報に基いて上記並列処理部との切断処理を行う候補とすべき切断候補外部機器を選定するステップ、
選定された切断候補外部機器の中から、外部機器毎に消費する上記並列処理部の負荷状況に基いて、上記並列処理部とのインタフェースを切断する外部機器を決定するステップ、
上記インタフェースを切断する外部機器の決定に基いて、上記並列処理部と上記決定された外部機器のインタフェースを切断することで、上記並列処理部にて処理される情報を縮退するステップ、
を備えた処理情報縮退方法。