JP2011123724A - 情報処理装置及び処理情報縮退方法 - Google Patents
情報処理装置及び処理情報縮退方法 Download PDFInfo
- Publication number
- JP2011123724A JP2011123724A JP2009281599A JP2009281599A JP2011123724A JP 2011123724 A JP2011123724 A JP 2011123724A JP 2009281599 A JP2009281599 A JP 2009281599A JP 2009281599 A JP2009281599 A JP 2009281599A JP 2011123724 A JP2011123724 A JP 2011123724A
- Authority
- JP
- Japan
- Prior art keywords
- processing unit
- external device
- parallel processing
- interface
- load
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Hardware Redundancy (AREA)
Abstract
【課題】 並列処理を行う一部の計算機に障害が発生した場合において、リソースの不足により残りの計算機がオーバーロードとなる状況を未然に防ぐとともに、オペレーション上重要な、特定のミッションの継続を保証する。
【解決手段】 並列処理を行う一部の計算機に障害が発生した時、残りの計算機が高負荷となった場合、あらかじめオペレータが指定したミッションに応じて、トリアージ対象外の外部機器とのインターフェースを負荷率の高い順に切断することで全体負荷を低減し、重要性の高い外部機器を用いた処理性能を保証する。
【選択図】 図2
【解決手段】 並列処理を行う一部の計算機に障害が発生した時、残りの計算機が高負荷となった場合、あらかじめオペレータが指定したミッションに応じて、トリアージ対象外の外部機器とのインターフェースを負荷率の高い順に切断することで全体負荷を低減し、重要性の高い外部機器を用いた処理性能を保証する。
【選択図】 図2
Description
本発明は、複数の処理すべきミッション毎に、センサ情報を複数の計算機により並列処理する情報処理装置に関するものであり、並列処理を行う計算機の障害発生時において、特定のミッションを継続して処理するために、処理情報を縮退する処理情報縮退方法に関するものである。
艦載に搭載される従来の情報処理装置は、センサや火器などの外部機器を全て連接した状態で運用し、センサや外部の情報処理装置から得られた目標情報を複数の計算機で並列処理して、複数のミッションを同時に処理している。例えば、上空を飛行する航空機や飛翔体へ対処するための目標情報を処理する対空処理を行っている場合であっても、同時に、海中を潜行する潜水艦へ対処するための目標情報の処理を行っている。
この種の情報処理装置では、複数台の計算機のプロセッサを用いて、各プロセッサの有効活用を図りながら複数のタスクについてリアルタイム処理を行うとともに、障害発生時の信頼性を確保することが行われる。例えば、並列処理プロセッサによってタスクを並列処理させ、並列プロセッサの故障時には他の並列プロセッサが故障したプロセッサのタスクを実行する(例えば、特許文献1参照)。
従来の技術では、特許文献1に示すように、目標情報を並列処理している一部の計算機に障害が発生した場合、障害の発生しない残りの計算機で目標情報を処理することになる。しかし、並列処理を行う計算機のリソース(CPU、メモリ等の使用率)が不足し、残った全ての計算機の負荷が高くなるため、全目標情報を処理するにはオーバーロードとなってしまい、ミッションが継続できなくなるという問題があった。
本発明は、並列処理を行う一部の計算機に障害が発生した場合において、障害の発生しない残りの計算機のオーバーロードを未然に防ぎ、並列処理によるオペレーション上重要な、特定のミッションの継続を保証する情報処理装置を得ることを目的とする。
この発明による情報処理装置は、複数の計算機からなり、複数の外部機器に対しネットワークにより接続された並列処理部と、複数の外部機器と上記並列処理部とのインタフェースの接続処理及び切断処理を行う入出力処理部と、障害の発生した計算機を検出し、障害を生じていない残りの計算機における上記並列処理部の負荷と負荷制限値との比較に応じて、予め設定された特定のミッションによって利用される外部機器の重要度を示す情報に基いて上記並列処理部との切断処理を行う候補とすべき切断候補外部機器を選定し、選定された切断候補外部機器の中から、外部機器毎に消費する上記並列処理部の負荷状況に基いて、上記並列処理部とのインタフェースを切断する外部機器を決定する計算機監視部と、を備えたものである。
この発明によれば、重要度の高いミッションを遂行するために重要な機器(トリアージ対象)以外の(トリアージ対象外)外部機器について、並列処理部とのインタフェースの切断を行うことにより、重要なミッションの継続が可能となるとともに、トリアージ対象外の外部機器の中で、外部機器の負荷状況(リソース使用状況)に基いて外部機器と並列処理部とのインターフェースを切断することで、並列処理部の処理負荷を効果的に低減することができる。
実施の形態1.
図1は、本発明の実施の形態1に係わる情報処理装置100及び外部機器107a〜107nの構成を示す図である。情報処理装置100は、例えば艦載や航空機に搭載され、センサや火器などの外部機器を全て連接した状態で運用し、センサや他の情報処理装置から得られた目標情報を複数の計算機で並列処理して、複数のミッションを同時に処理する。処理されるミッションは、あらかじめ重要度に応じた優先順位が設定されているが、この優先順位は、処理状況や外囲環境によって変化するものであっても良い。
図1は、本発明の実施の形態1に係わる情報処理装置100及び外部機器107a〜107nの構成を示す図である。情報処理装置100は、例えば艦載や航空機に搭載され、センサや火器などの外部機器を全て連接した状態で運用し、センサや他の情報処理装置から得られた目標情報を複数の計算機で並列処理して、複数のミッションを同時に処理する。処理されるミッションは、あらかじめ重要度に応じた優先順位が設定されているが、この優先順位は、処理状況や外囲環境によって変化するものであっても良い。
図において、情報処理装置100は、複数の計算機が情報処理装置内部ネットワーク101で接続されている。
各計算機はそれぞれ役割が与えられ、その役割によって、I/O処理部102、逐次実行部103、並列処理部104、計算機監視部105に分類される。並列処理部104は、並列処理を行う複数の計算機104a〜104nから構成される。各計算機104a〜104nによる並列処理によって、リアルタイムで複数のミッションが同時に処理される。各計算機104a〜104nは、処理すべきミッションに依存して処理能力が異なるような個体差はなく、それぞれ同様の処理能力を有していることが好ましい。
各計算機はそれぞれ役割が与えられ、その役割によって、I/O処理部102、逐次実行部103、並列処理部104、計算機監視部105に分類される。並列処理部104は、並列処理を行う複数の計算機104a〜104nから構成される。各計算機104a〜104nによる並列処理によって、リアルタイムで複数のミッションが同時に処理される。各計算機104a〜104nは、処理すべきミッションに依存して処理能力が異なるような個体差はなく、それぞれ同様の処理能力を有していることが好ましい。
また、外部機器107a〜107nとしては、主としてセンサや火器が用いられる。外部機器107a〜107nは、情報処理装置100のI/O処理部102と、上位システムのシステムネットワーク106に接続されている。
I/O処理部102は、センサを含む外部機器とのインターフェースの連接(接続)処理及び切断処理を行う他、各外部機器107a〜107nとの間で通信によりデータの受け渡しを行うための入出力処理を実行するための入出力処理部である。
逐次実行部103は、情報処理装置100を構成する各計算機(I/O処理部102、並列処理部104、計算機監視部105)、及び各外部機器107a〜107nからのメッセージ受信時に行われる実行処理を逐次実行する。また、逐次実行部103は、各外部機器107a〜107nから受信したメッセージに基いて生成した要求メッセージを、並列処理部104に対して送信する。
並列処理部104は、逐次実行部103からの要求メッセージに応じて、複数の計算機104a〜104nにより、目標情報の並列処理を実行する。並列処理部104の計算機104a〜104nのうち、1つ以上の計算機に障害が発生した場合は、残った計算機で目標情報の並列処理を継続して実行する。
計算機監視部105は、並列処理部104に対して定期的にメッセージを送り、並列処理部104における障害の発生有無を監視する。ここで障害の発生とは、例えば、並列処理部104の各計算機104a〜nが、計算機監視部105からのメッセージに対し、設定した時間内に応答しない状態を指す。なお、この設定した時間内に全ての計算機104a〜nから応答があった場合は、障害の発生無と判断される。
並列処理部104の計算機104a〜104nのうち1つ以上の計算機に障害が発生し、計算機監視部105がその障害を検知した際、計算機監視部105は残った各計算機の全リソース使用状況を確認する。この全リソース使用状況の確認では、計算機毎に処理する全プロセスについてのリソース使用状況の合計値を求め、求めた計算機毎のリソース使用状況の合計値に基いて、全リソース使用状況の確認処理が行われる。
計算機監視部105による全リソース使用状況の確認処理の結果、リソース使用状況の合計値があらかじめ設定した負荷制限値を超えた場合は、計算機監視部105はインターフェース切断処理を指示する。
このインターフェース切断処理では、あらかじめミッションにおいて重要であると設定した外部機器に該当しない、重要性の低い外部機器の中から、外部機器の使用に応じた外部機器リソース使用状況に応じて、インターフェースの切断を行う外部機器の選択が行われる。外部機器リソース使用状況は、例えば外部機器との通信に関連する各計算機のプロセスについての、各リソースの使用状況の合計値を求めることで行われる。
このインターフェース切断処理では、あらかじめミッションにおいて重要であると設定した外部機器に該当しない、重要性の低い外部機器の中から、外部機器の使用に応じた外部機器リソース使用状況に応じて、インターフェースの切断を行う外部機器の選択が行われる。外部機器リソース使用状況は、例えば外部機器との通信に関連する各計算機のプロセスについての、各リソースの使用状況の合計値を求めることで行われる。
計算機監視部105は、このインターフェース切断を行うと選択された外部機器について、I/O処理部102に対してインターフェースの切断処理を指示する。I/O処理部102は、この指示に従い、選択された外部機器との通信を切断し、情報の授受を停止する。
一方、障害が発生した並列処理部104の計算機が障害から回復した場合、計算機監視部105はI/O処理部102におけるインターフェースの接続状態を確認する。この際、インターフェースが切断状態の外部機器があれば、計算機監視部105はI/O処理部102に対してインターフェースの連接(接続)処理を指示する。
図2は計算機監視部105の構成を示す例である。計算機監視部105は内部にトリアージ対象外部機器テーブル200及び負荷制限値管理テーブル201を備える。
ここでトリアージとは、災害発生時において、人材や資源の厳しい状況下で最善の救命効果を得るために、重症度や緊急性から負傷者を選別し、治療の優先度を決定するという意味の医療用語に由来するものであるが、この実施の形態では、「障害発生時において、リソース不足となった場合、重要なミッションの継続を保証するために、ミッションにおける重要度に基いてインターフェース接続を維持するための外部機器を選別する」ことを意味するものとする。
表1は計算機監視部105が管理する、トリアージ対象外部機器テーブル200の構成例を示す表である。この例では、ミッションの種類として、ミッション001、ミッション002、ミッション003の3種類が設定されている。トリアージ対象外部機器テーブル200には、ミッションの種類毎に、障害発生時において各外部機器107a〜107nをトリアージするか否かを識別するための情報が格納されている。ここでは、トリアージを行う対象となる外部機器をトリアージ対象外部機器と呼び、トリアージを行う対象とはならない外部機器をトリアージ非対象外部機器と呼ぶものとする。
表1の例では、ミッション別にトリアージ対象外部機器を識別する情報として、○印を付記している。例えば、ミッション001では、障害発生時において外部機器A、B、C、E、Fはトリアージ対象とし、トリアージ非対象である外部機器D、G、H、I、Jは、インターフェースを切断する外部機器としてもよい外部機器として選択することを意味する。
同様に、ミッション002では、障害発生時において外部機器D、G、H、Jはトリアージ対象とし、トリアージ非対象である外部機器A、B、C、E、F、Iは、インターフェースを切断してもよい外部機器として選択することを意味する。
また、ミッション003では、障害発生時において外部機器C、H、I、Jはトリアージ対象とし、トリアージ非対象である外部機器A、B、D、E、F、Gは、インターフェースを切断してもよい外部機器として選択することを意味する。
同様に、ミッション002では、障害発生時において外部機器D、G、H、Jはトリアージ対象とし、トリアージ非対象である外部機器A、B、C、E、F、Iは、インターフェースを切断してもよい外部機器として選択することを意味する。
また、ミッション003では、障害発生時において外部機器C、H、I、Jはトリアージ対象とし、トリアージ非対象である外部機器A、B、D、E、F、Gは、インターフェースを切断してもよい外部機器として選択することを意味する。
ミッションの種類及び重要度に応じた優先順位と、各ミッション種別に対応したトリアージ対象外部機器は、予めオペレータ操作により設定が行われ、計算機監視部105においてトリアージ対象外部機器テーブル200の情報が設定される。また、全てのミッションの開始前に、実行対象となるべきミッションの種類がオペレータにより選択され、選択されたミッションが並列処理部104によって同時に処理される。
なお、表1に例示したミッションの場合、ミッション001がトリアージ対象とする外部機器の数が多く、ミッション002、003がトリアージ対象とする外部機器の数が少ない。
このことは、ミッション001については情報処理装置100の所有する並列処理部106によって情報処理すべき外部機器情報が多く、ミッション002、003については情報処理装置100の所有する並列処理部106によって情報処理すべき外部機器情報が少ないことを意味しており、並列処理部106が最も重要視しているミッションがミッション001であることを示している。逆に、ミッション002、003は、並列処理部106にとって重要度が低く、外部に設けられた他の情報処理装置の並列処理部が代替処理を行うことができるものとなっている。
トリアージ対象外部機器テーブル200においては、ミッションの重要度に応じて順位の並べ替えを行い、重要度が高く優先順位の高いミッションから重要度が低く優先順位の低いミッションまで、順にテーブル上に掲載するようにしても良い。
なお、表1に例示したミッションの場合、ミッション001がトリアージ対象とする外部機器の数が多く、ミッション002、003がトリアージ対象とする外部機器の数が少ない。
このことは、ミッション001については情報処理装置100の所有する並列処理部106によって情報処理すべき外部機器情報が多く、ミッション002、003については情報処理装置100の所有する並列処理部106によって情報処理すべき外部機器情報が少ないことを意味しており、並列処理部106が最も重要視しているミッションがミッション001であることを示している。逆に、ミッション002、003は、並列処理部106にとって重要度が低く、外部に設けられた他の情報処理装置の並列処理部が代替処理を行うことができるものとなっている。
トリアージ対象外部機器テーブル200においては、ミッションの重要度に応じて順位の並べ替えを行い、重要度が高く優先順位の高いミッションから重要度が低く優先順位の低いミッションまで、順にテーブル上に掲載するようにしても良い。
表2は計算機監視部105が管理する、負荷制限値管理テーブル201の構成例を示す表である。この例では、並列処理部104の各計算機104a〜104nにおける、全リソース使用状況に対する負荷制限値を示す情報を格納している。
ここでのリソース使用状況(負荷状況)とは、例えばCPU使用率、メモリ使用量等の負荷占有率を指す指標である。表2では、リソース使用状況としてCPU使用率を用いた例を示している。リソース使用状況は、並列処理部104の各計算機104a〜104nにおいて、後述するリソース使用状況管理テーブルを用いて個別に管理が行われている。
また、負荷制限値とは、障害発生時に、特定の外部機器とのインターフェース切断を実行するための制限値を与えるものであり、複数種類の制限値を設けることで、インターフェースの切断形態を複数種類設けることができる。
表2では、負荷制限値として、第一制限値と第二制限値の二種類を設定した例を示している。これらの負荷制限値は、オペレータの操作によって計算機監視部105の負荷制限値管理テーブル201に設定される。
表2では、負荷制限値として、第一制限値と第二制限値の二種類を設定した例を示している。これらの負荷制限値は、オペレータの操作によって計算機監視部105の負荷制限値管理テーブル201に設定される。
表2に示すインターフェースの切断形態によれば、並列処理部104のそれぞれの計算機におけるCPU使用率が第一制限値を超えた場合には、計算機監視部105はオペレータにインターフェース切断のリコメンド(推薦)を行い、オペレータがリコメンドに応じた場合にのみ、インターフェースの切断処理が実行される。
また、並列処理部104のそれぞれの計算機におけるCPU使用率が第二制限値を超えた場合は、計算機監視部105はオペレータにリコメンドを行うことなく、自動的にインターフェースの切断処理を実行する。
また、並列処理部104のそれぞれの計算機におけるCPU使用率が第二制限値を超えた場合は、計算機監視部105はオペレータにリコメンドを行うことなく、自動的にインターフェースの切断処理を実行する。
次に、並列処理部104に障害が発生した際の、計算機監視部105の処理動作について図を用いて詳細を説明する。
図3は並列処理部104の構成例を示す図である。並列処理部104の各計算機104a〜104nは、それぞれ内部にリソース使用状況管理テーブル300a〜300nを有する。図4は計算機監視部105の処理動作フローを示す図である。
図3は並列処理部104の構成例を示す図である。並列処理部104の各計算機104a〜104nは、それぞれ内部にリソース使用状況管理テーブル300a〜300nを有する。図4は計算機監視部105の処理動作フローを示す図である。
表3は並列処理部104の各計算機104a〜104nが管理する、リソース使用状況管理テーブル300a〜300nの構成例を示す図である。
リソース使用状況管理テーブル300a〜300nは、各計算機104a〜104nにおける全リソース使用状況及び外部機器リソース使用状況が格納されており、周期的に更新が行われている。
リソース使用状況管理テーブル300a〜300nは、各計算機104a〜104nにおける全リソース使用状況及び外部機器リソース使用状況が格納されており、周期的に更新が行われている。
表3はCPU使用率に関するものであり、例えば、表3が示す並列処理部104の計算機については、全プロセスのCPU使用率が33%で、外部機器AのCPU使用率が2%となっており、CPU使用率が、高い順にB、D、I、A、C、E、F、G、Jとなっている例を示している。
障害発生時、並列処理部104の一部の計算機の処理が障害により停止し、計算機監視部105が、障害発生した計算機からの応答反応がないことを確認することで、その障害の発生を検出する(ステップS1)。
計算機監視部105は、障害の発生を検出すると、並列処理部104の残った各計算機104a〜104nの全リソース使用状況の監視を始め、例えば全プロセスによるCPU使用率と負荷制限値との比較を行い、インターフェースの切断処理を行う(ステップS2)。
例えば、並列処理部104のある計算機の全リソース使用状況が第一制限値(例えば70%)を超えた場合、計算機監視部105はオペレータに対してインターフェース切断をリコメンドし(ステップS3)、オペレータがリコメンドに応じた場合は、インターフェース切断処理が実行される(ステップS4)。
オペレータがリコメンドを拒否した場合は、並列処理部104の残った各計算機104a〜104nの全リソース使用状況の監視を続ける(ステップS5)。
オペレータがリコメンドを拒否した場合は、並列処理部104の残った各計算機104a〜104nの全リソース使用状況の監視を続ける(ステップS5)。
具体的には、ステップS3では、例えば、計算機監視部105の制御によって、情報処理装置100に接続された図示しない表示装置を通じて、CPU使用率の現状値と「インターフェース切断しますか?」のようなリコメンドすべき情報とが表示される。オペレータはミッションの重要度に応じて、インターフェース切断処理を行うか否かを判断し、トリアージ対象外部機器テーブルに基いてインターフェース切断処理を行うべき外部機器を決定する。
ステップS4では、オペレータがこのリコメンドに応じて、情報処理装置100に接続された図示しない入力装置を通じ、一定時間内に「Yes」のように是認する回答入力を行った場合は、オペレータの指定した外部機器について、インターフェース切断処理が実行される。この際、オペレータに対して、各ミッションに対応したトリアージ対象外の外部機器が表示され、オペレータはインターフェース切断を行う外部機器を適宜選択して、情報処理装置100の入力装置に入力する。
例えば、表1のトリアージ対象外部機器テーブルに基き、重要度の最も高いミッション001について、トリアージ対象外の外部機器D、G、H、I、Jの中から、表3の例のように全プロセスにおいてCPU使用率が最も高くなる外部機器Dをオペレータが選び、オペレータが外部機器Dについてインターフェースの切断処理を実行する。
一方、ステップS5では、オペレータがこのリコメンドに応じず、図示しない入力装置を通じて「No」のように拒否する回答入力を行った場合や、一定時間内に何も回答入力を行われなかった場合は、インターフェース切断処理が実行されず、そのまま処理が継続される。
ステップS4では、オペレータがこのリコメンドに応じて、情報処理装置100に接続された図示しない入力装置を通じ、一定時間内に「Yes」のように是認する回答入力を行った場合は、オペレータの指定した外部機器について、インターフェース切断処理が実行される。この際、オペレータに対して、各ミッションに対応したトリアージ対象外の外部機器が表示され、オペレータはインターフェース切断を行う外部機器を適宜選択して、情報処理装置100の入力装置に入力する。
例えば、表1のトリアージ対象外部機器テーブルに基き、重要度の最も高いミッション001について、トリアージ対象外の外部機器D、G、H、I、Jの中から、表3の例のように全プロセスにおいてCPU使用率が最も高くなる外部機器Dをオペレータが選び、オペレータが外部機器Dについてインターフェースの切断処理を実行する。
一方、ステップS5では、オペレータがこのリコメンドに応じず、図示しない入力装置を通じて「No」のように拒否する回答入力を行った場合や、一定時間内に何も回答入力を行われなかった場合は、インターフェース切断処理が実行されず、そのまま処理が継続される。
次いで、例えば並列処理部104のある計算機の全リソース使用状況が第二制限値(例えば100%)を超えた場合、計算機監視部105の指示によってインターフェース切断処理が自動的に強制実行される。この際、トリアージ対象外部機器テーブルに基いて、優先度の最も高いミッションに対応するトリアージ対象外の外部機器が、インターフェース切断対象候補となる外部機器として、自動的に選択される(ステップS6)。
インターフェース切断処理では、計算機監視部105が、トリアージ対象外の外部機器(インターフェース切断対象候補)の中から、外部機器リソース使用状況が最大となる外部機器を選択決定する(ステップS7)。
選択した外部機器について、I/O処理部102に対してインターフェース切断の実行処理を指示する。I/O処理部102は、指示を受けたインターフェース切断すべき外部機器について、インターフェース切断処理を実行し、情報処理装置内部ネットワーク101との接続を切断する(ステップS8)。
これによって、並列処理部にて処理される情報の縮退が行われる。
選択した外部機器について、I/O処理部102に対してインターフェース切断の実行処理を指示する。I/O処理部102は、指示を受けたインターフェース切断すべき外部機器について、インターフェース切断処理を実行し、情報処理装置内部ネットワーク101との接続を切断する(ステップS8)。
これによって、並列処理部にて処理される情報の縮退が行われる。
インターフェース切断後、全リソース使用状況が第一制限値以下にならない場合は、外部機器リソース使用状況が次に最大のものを切断し、全リソース使用状況が第一制限値を下回るまで切断処理を繰り返す(ステップS9)。
例えば、表1のトリアージ対象外部機器テーブルに基き、重要度の最も高いミッション001について、既に切断されている外部機器Dを除く、トリアージ対象外の外部機器G、H、I、Jが、インターフェース切断対象候補として選択される。ここで、CPU使用率の状況は、表3の例と同様に外部機器I、H、Gの順に、CPU使用率が高いものと仮定して説明する。
次に、外部機器G、H、I、Jの中から、CPU使用率の最も高い外部機器Iが、インターフェース切断すべき外部機器として選択され、インターフェース切断が行われる。その後、全リソース使用状況が第一制限値を下回らない場合には、外部機器H、I、Jの中から、CPU使用率が次に最も高い外部機器Hが、インターフェース切断すべき外部機器として選択され、インターフェース切断が行われる。以降、全リソース使用状況が第一制限値を下回るまで、順にインターフェース切断処理が続けられることとなる。
このようにして、並列処理部にて処理される情報の縮退を更に推し進めることが可能となる。
例えば、表1のトリアージ対象外部機器テーブルに基き、重要度の最も高いミッション001について、既に切断されている外部機器Dを除く、トリアージ対象外の外部機器G、H、I、Jが、インターフェース切断対象候補として選択される。ここで、CPU使用率の状況は、表3の例と同様に外部機器I、H、Gの順に、CPU使用率が高いものと仮定して説明する。
次に、外部機器G、H、I、Jの中から、CPU使用率の最も高い外部機器Iが、インターフェース切断すべき外部機器として選択され、インターフェース切断が行われる。その後、全リソース使用状況が第一制限値を下回らない場合には、外部機器H、I、Jの中から、CPU使用率が次に最も高い外部機器Hが、インターフェース切断すべき外部機器として選択され、インターフェース切断が行われる。以降、全リソース使用状況が第一制限値を下回るまで、順にインターフェース切断処理が続けられることとなる。
このようにして、並列処理部にて処理される情報の縮退を更に推し進めることが可能となる。
続いて、障害からの回復時、計算機監視部105が回復を検知した場合、インターフェース切断状態の外部機器がある場合は、I/O処理部102に対して、CPU使用率の低い外部機器から順に、インターフェース連接を指示する。
例えば、インターフェース切断処理以前でのCPU使用率の状況が、表3の例と同様であって、外部機器D、G、H、I、Jの全てが切断されている場合は、CPU使用率の最も低い外部機器Gが最初にインターフェース連接される。以降、外部機器H、I、Gの順にインターフェース連接が行われる。
例えば、インターフェース切断処理以前でのCPU使用率の状況が、表3の例と同様であって、外部機器D、G、H、I、Jの全てが切断されている場合は、CPU使用率の最も低い外部機器Gが最初にインターフェース連接される。以降、外部機器H、I、Gの順にインターフェース連接が行われる。
以上のように、この実施の形態1による情報処理装置は、複数の計算機からなり、複数の外部機器に対しネットワークにより接続された並列処理部と、複数の外部機器と上記並列処理部とのインタフェースの接続処理及び切断処理を行う入出力処理部と、障害の発生した計算機を検出し、障害を生じていない残りの計算機における上記並列処理部の負荷と負荷制限値との比較に応じて、予め設定された特定のミッションによって利用される外部機器の重要度を示す情報に基いて上記並列処理部との切断処理を行う候補とすべき切断候補外部機器を選定し、選定された切断候補外部機器の中から、外部機器毎に消費する上記並列処理部の負荷状況に基いて、上記並列処理部とのインタフェースを切断する外部機器を決定する計算機監視部と、を備えたことを特徴とする。
また、上記負荷制限値は、第一、第二制限値からなる二段階の制限値が設定され、
上記計算機監視部は、上記並列処理部の負荷が第一制限値を超えたことを検出すると、オペレータに対して上記切断候補外部機器とのインターフェース切断の可否決定の入力を促すとともに、上記リコメンド処理に応じてオペレータにて切断候補外部機器の中から選択した特定の外部機器についてインターフェース切断処理が行われるように、負荷状況として負荷占有率をオペレータに提示するリコメンド処理を行い、
上記計算機監視部は、上記並列処理部の負荷が上記第二制限値を超えたことを検出すると、上記切断候補外部機器の中から負荷占有率に応じて他の外部機器を自動的に選択し、当該他の外部機器についてインタフェースの切断処理を行う、ことを特徴としても良い。
上記計算機監視部は、上記並列処理部の負荷が第一制限値を超えたことを検出すると、オペレータに対して上記切断候補外部機器とのインターフェース切断の可否決定の入力を促すとともに、上記リコメンド処理に応じてオペレータにて切断候補外部機器の中から選択した特定の外部機器についてインターフェース切断処理が行われるように、負荷状況として負荷占有率をオペレータに提示するリコメンド処理を行い、
上記計算機監視部は、上記並列処理部の負荷が上記第二制限値を超えたことを検出すると、上記切断候補外部機器の中から負荷占有率に応じて他の外部機器を自動的に選択し、当該他の外部機器についてインタフェースの切断処理を行う、ことを特徴としても良い。
また、上記計算機監視部は、上記並列処理部の負荷が上記第二制限値を超えたことを検出すると、上記並列処理部の負荷が第一制限値を下回るまで、上記切断候補外部機器の中から負荷占有率に応じて、順次外部機器とのインターフェース切断処理を繰り返すことを特徴としても良い。
また、上記計算機監視部は、上記障害の発生した計算機が障害から回復したことを検出した場合、上記インターフェースを切断した外部機器とのインターフェースを、自動的に連接することを特徴としても良い。
更に、複数の計算機からなり、複数の外部機器に対しネットワークにより接続された並列処理部と、複数の外部機器と上記並列処理部とのインタフェースの接続処理及び切断処理を行う入出力処理部とを備えた情報処理装置による処理情報縮退方法であって、障害の発生した計算機を検出するステップ、障害の発生した計算機を検出した場合、障害を生じていない残りの計算機における上記並列処理部の負荷と負荷制限値との比較に応じて、予め設定された特定のミッションによって利用される外部機器の重要度を示す情報に基いて上記並列処理部との切断処理を行う候補とすべき切断候補外部機器を選定するステップ、選定された切断候補外部機器の中から、外部機器毎に消費する上記並列処理部の負荷状況に基いて、上記並列処理部とのインタフェースを切断する外部機器を決定するステップ、上記インタフェースを切断する外部機器の決定に基いて、上記並列処理部と上記決定された外部機器のインタフェースを切断することで、上記並列処理部にて処理される情報を縮退するステップ、を備えた処理情報縮退方法であっても良い。
このように構成することで、予めミッションにおいて重要な外部機器及び負荷制限値を設定しておくことにより、障害発生時において処理負荷が負荷制限値に達した場合は、重要度の高いミッションにおいて重要な外部機器をトリアージ対象とすることで、重要なミッションの継続が可能となるとともに、トリアージ対象外の外部機器の中で、外部機器リソース使用状況が最大となる外部機器と並列処理部とのインターフェースを切断することで、最も効果的に並列処理部の処理負荷を低減することができる。
また、負荷制限値を二種類設けることによって、障害発生時において処理負荷が第一制限値に達しない場合は外部機器とのインターフェースは切断せず、第一制限値に達した場合はインターフェースの切断をオペレータにリコメンドし、リコメンドに対してオペレータが拒否した場合はインターフェース切断処理を行わないような、オペレータの選択に応じた処理を実行できることともに、処理負荷が第二制限値に達した場合には、自動的に外部機器とのインターフェースを切断する処理を行うことができる。
このように、出来る限り外部機器と並列処理部とのインターフェースを切断せずにオペレーションを継続することが可能であり、処理負荷が高くなった場合にもまずはオペレータの判断でインターフェースを切断するかどうかを決定することができるので、負荷状況に応じて柔軟に障害時処置を行うことができる。
このように、出来る限り外部機器と並列処理部とのインターフェースを切断せずにオペレーションを継続することが可能であり、処理負荷が高くなった場合にもまずはオペレータの判断でインターフェースを切断するかどうかを決定することができるので、負荷状況に応じて柔軟に障害時処置を行うことができる。
なお、インターフェース切断処理は、処理負荷が第一制限値を下回るまで繰り返されるため、インターフェースの切断後はリソースに余裕があり、重要なミッションの継続を保証することができる。
また、計算機が障害から回復した際、インターフェースを切断した外部機器があった場合は、外部機器リソース使用状況が最小の外部機器から順に自動で連接されていくため、オペレータはインターフェース連接処理を手動で実行することなく、ミッションを継続することができる。
100 情報処理装置、101 情報処理装置内部ネットワーク、102 I/O処理部、103 逐次実行部、104 並列処理部、105 計算機監視部、106 システムネットワーク、107 外部機器、200 トリアージ対象外部機器テーブル、201 負荷制限値管理テーブル、300 リソース使用状況管理テーブル。
Claims (5)
- 複数の計算機からなり、複数の外部機器に対しネットワークにより接続された並列処理部と、
複数の外部機器と上記並列処理部とのインタフェースの接続処理及び切断処理を行う入出力処理部と、
障害の発生した計算機を検出し、障害を生じていない残りの計算機における上記並列処理部の負荷と負荷制限値との比較に応じて、予め設定された特定のミッションによって利用される外部機器の重要度を示す情報に基いて上記並列処理部との切断処理を行う候補とすべき切断候補外部機器を選定し、選定された切断候補外部機器の中から、外部機器毎に消費する上記並列処理部の負荷状況に基いて、上記並列処理部とのインタフェースを切断する外部機器を決定する計算機監視部と、
を備えた情報処理装置。 - 上記負荷制限値は、第一、第二制限値からなる二段階の制限値が設定され、
上記計算機監視部は、上記並列処理部の負荷が第一制限値を超えたことを検出すると、オペレータに対して上記切断候補外部機器とのインターフェース切断の可否決定の入力を促すとともに、上記リコメンド処理に応じてオペレータにて切断候補外部機器の中から選択した特定の外部機器についてインターフェース切断処理が行われるように、負荷状況として負荷占有率をオペレータに提示するリコメンド処理を行い、
上記計算機監視部は、上記並列処理部の負荷が上記第二制限値を超えたことを検出すると、上記切断候補外部機器の中から負荷占有率に応じて他の外部機器を自動的に選択し、当該他の外部機器についてインタフェースの切断処理を行う、
ことを特徴とした請求項1記載の情報処理装置。 - 上記計算機監視部は、上記並列処理部の負荷が上記第二制限値を超えたことを検出すると、上記並列処理部の負荷が第一制限値を下回るまで、上記切断候補外部機器の中から負荷占有率に応じて、順次外部機器とのインターフェース切断処理を繰り返すことを特徴とした請求項2記載の情報処理装置。
- 上記計算機監視部は、上記障害の発生した計算機が障害から回復したことを検出した場合、上記インターフェースを切断した外部機器とのインターフェースを、自動的に連接することを特徴とした請求項1から請求項3の何れか1項記載の情報処理装置。
- 複数の計算機からなり、複数の外部機器に対しネットワークにより接続された並列処理部と、複数の外部機器と上記並列処理部とのインタフェースの接続処理及び切断処理を行う入出力処理部とを備えた情報処理装置による処理情報縮退方法であって、
障害の発生した計算機を検出するステップ、
障害の発生した計算機を検出した場合、障害を生じていない残りの計算機における上記並列処理部の負荷と負荷制限値との比較に応じて、予め設定された特定のミッションによって利用される外部機器の重要度を示す情報に基いて上記並列処理部との切断処理を行う候補とすべき切断候補外部機器を選定するステップ、
選定された切断候補外部機器の中から、外部機器毎に消費する上記並列処理部の負荷状況に基いて、上記並列処理部とのインタフェースを切断する外部機器を決定するステップ、
上記インタフェースを切断する外部機器の決定に基いて、上記並列処理部と上記決定された外部機器のインタフェースを切断することで、上記並列処理部にて処理される情報を縮退するステップ、
を備えた処理情報縮退方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009281599A JP2011123724A (ja) | 2009-12-11 | 2009-12-11 | 情報処理装置及び処理情報縮退方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009281599A JP2011123724A (ja) | 2009-12-11 | 2009-12-11 | 情報処理装置及び処理情報縮退方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011123724A true JP2011123724A (ja) | 2011-06-23 |
Family
ID=44287545
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009281599A Pending JP2011123724A (ja) | 2009-12-11 | 2009-12-11 | 情報処理装置及び処理情報縮退方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011123724A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111356903A (zh) * | 2019-01-25 | 2020-06-30 | 深圳市大疆创新科技有限公司 | 视觉定位方法、装置及系统 |
US20220138037A1 (en) * | 2020-11-05 | 2022-05-05 | International Business Machines Corporation | Resource manager for transaction processing systems |
-
2009
- 2009-12-11 JP JP2009281599A patent/JP2011123724A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111356903A (zh) * | 2019-01-25 | 2020-06-30 | 深圳市大疆创新科技有限公司 | 视觉定位方法、装置及系统 |
US20220138037A1 (en) * | 2020-11-05 | 2022-05-05 | International Business Machines Corporation | Resource manager for transaction processing systems |
US11645130B2 (en) * | 2020-11-05 | 2023-05-09 | International Business Machines Corporation | Resource manager for transaction processing systems |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10303509B2 (en) | Distributed task system based on internet of things and service processing method for distributed tasks based on the same | |
US6859889B2 (en) | Backup system and method for distributed systems | |
JP5851503B2 (ja) | 高可用性仮想機械環境におけるアプリケーションの高可用性の提供 | |
CN109194514B (zh) | 一种双机监测方法、装置、服务器及存储介质 | |
JP4491482B2 (ja) | 障害回復方法、計算機、クラスタシステム、管理計算機及び障害回復プログラム | |
JP6595861B2 (ja) | 情報処理装置、ログ取得方法およびログ取得プログラム | |
CN113220378A (zh) | 流程处理方法、装置、电子设备、存储介质及系统 | |
CN110191016B (zh) | 云平台业务监控方法、装置、设备、系统及可读存储介质 | |
JP2011123724A (ja) | 情報処理装置及び処理情報縮退方法 | |
US9132550B2 (en) | Apparatus and method for managing robot components | |
JP2006195554A (ja) | 統合監視システム | |
JP6539974B2 (ja) | 障害通報装置、障害通報方法及び障害通報プログラム | |
US8275865B2 (en) | Methods, systems and computer program products for selecting among alert conditions for resource management systems | |
CN112269693B (zh) | 一种节点自协调方法、装置和计算机可读存储介质 | |
CN114281583A (zh) | 设备检测方法、装置、电子设备及可读存储介质 | |
JP4968568B2 (ja) | 障害監視方法、障害監視システムおよびプログラム | |
JP2007249759A (ja) | 監視システム | |
JP2006229761A (ja) | 遠隔監視装置および遠隔監視システム | |
US20160132356A1 (en) | Management apparatus and method for system configuration | |
JP6431577B1 (ja) | 昇降機監視システムおよびその試験方法 | |
CN111240857B (zh) | 一种远程服务调用系统及调用方法 | |
CN115983393B (zh) | 量子电路任务超时原因确定方法、装置、设备及存储介质 | |
CN114567536B (zh) | 异常数据处理方法、装置、电子设备和存储介质 | |
JP4061549B2 (ja) | ネットワークコンピュータシステム | |
US11704164B1 (en) | Intelligent and automatic load balancing of workloads on replication appliances based on appliance load scores |