JP2008217285A - 情報処理システムの運用管理装置および運用管理方法 - Google Patents
情報処理システムの運用管理装置および運用管理方法 Download PDFInfo
- Publication number
- JP2008217285A JP2008217285A JP2007052208A JP2007052208A JP2008217285A JP 2008217285 A JP2008217285 A JP 2008217285A JP 2007052208 A JP2007052208 A JP 2007052208A JP 2007052208 A JP2007052208 A JP 2007052208A JP 2008217285 A JP2008217285 A JP 2008217285A
- Authority
- JP
- Japan
- Prior art keywords
- resource
- policy
- priority
- resources
- failure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Hardware Redundancy (AREA)
Abstract
【解決手段】各リソースの機能、その稼動状態、各サービスが利用するリソースおよびサービスにおけるリソース間の関係を定義したシステム構成情報(1035)と、サービスごとに設定された所定の重要度とを少なくとも保持する記憶部(1030)と、システム構成情報(1035)より、リソースを利用するサービスを特定し、特定したサービスにおいて、リソースと同一の機能を有する同等リソースを特定し、この同等リソースの状態およびその数に基づいて、リソースがサービスに及ぼす影響度を算出し、サービスの重要度および算出した影響度に基づいて、リソースの優先度を算出する優先度計算部(1024)とを有する運用管理装置(1000)。
【選択図】図2
Description
また、近年では、発生した障害の対処として実行する処理を、予め運用管理装置に設定しておき、障害が発生した場合に、運用管理装置に設定された処理を自動的に実行することで、障害を復旧することも可能になっている。
特に、一台の物理ホスト上で複数のサーバを稼動する構成において、物理ホストに障害が発生した場合、その物理ホスト上で稼動する複数のサーバから障害イベントが発生する可能性が高くなる。このような、一台の物理ホスト上で複数のサーバを稼動する構成は、現在でも実現可能な技術であるが、将来、仮想化技術の進歩によって、より一般的になると考えられる。その場合、運用管理者または運用管理装置が、それぞれの障害に応じて対処する必要がある。
特許文献1に記載の技術によれば、運用管理者または運用管理装置が発生した障害イベントに設定された重要度を参照することによって、より重大な障害の復旧を優先することが可能である。
したがって、単に障害イベントの重要度に基づいて、障害の復旧を優先するのではなく、サービスにより重大な影響を及ぼす障害の復旧を優先することが必要である。
図1は、本発明の第1実施形態に係る運用管理装置(情報処理システムの運用管理装置)が適用された情報処理システムの全体構成を示す図面である。
図1に示した情報処理システムは、運用管理装置1000と、第1のネットワーク1100と、クライアント1200と、第2のネットワーク1300と、ロードバランサA1400と、ロードバランサB1401と、WebAPサーバA〜E(1500〜1504)と、DBサーバA〜E(1600〜1604)とを構成要素として含んで構成される。
また、情報処理システムは、第2のネットワーク1300を介してクライアント1200と通信可能に接続され、クライアント1200に対して業務サービス(以下、業務とよぶ)を提供する。なお、本実施形態では説明のために、請求項のサービスに対応する言葉として「業務」を用いるが、請求項のサービスとは情報処理システムの内部的なバッチ処理などを広く含む概念である。
運用管理装置1000は、情報処理システムを管理するためのコンピュータである。運用管理装置1000は、情報処理システムで発生する障害と、この障害が発生した場合に対処として行なう処理の組み合わせとを、ポリシとして管理し、情報処理システムで障害が発生すると、管理されたポリシに基づいて障害の復旧処理を行なう。詳しくは後述する。
クライアント1200は、情報処理システムから情報処理サービスの提供を受けるための処理要求を、WebAPサーバA〜E(1500〜1504)に送信するためのコンピュータである。図1には、クライアント1200が1台のみ接続された例を示したが、クライアント1200は複数台であってもよい。また、情報処理システムが、定期的なバッチ処理などを実行するシステムである場合には、クライアント1200が設置されない構成とすることもできる。
第1のネットワーク1100と第2のネットワーク1300とは、別のネットワークでもよいし、同一のネットワークにより具現することもできる。
図1に示した情報処理システムでは、WebAPサーバA〜E(1500〜1504)の5台を含む構成が例示されているが、WebAPサーバが1台の場合には、ロードバランサを設けない構成とすることもできる。
また、図1に示した情報処理システムでは、5台のWebAPサーバA〜E(1500〜1504)が例示されているが、情報処理システムには、WebAPサーバが1台以上含まれればよい。
DBサーバ制御機能1610は、WebAPサーバA〜E(1500〜1504)から、業務プログラム1511が利用するデータの読み書きの要求を受信すると、このデータの読み書きをする機能である。
次に、図2は、本実施形態に係る運用管理装置1000の構成を示す図面である。
運用管理装置1000は、CPU1010と、主記憶装置1020とを有するコンピュータであり、ディスクインタフェース1040を介してディスク装置1030と接続され、通信インタフェース1050を介して第1のネットワーク1100と接続され、ディスプレイインタフェース1060を介して表示装置1070と接続される。
以降、対処が実行中か、または実行待ちであるポリシを、このポリシの「インスタンス」と呼ぶ。
システム構成テーブル1035は、情報処理システムの構成情報を格納するためのテーブルである。
対処スクリプト1036は、障害が発生した際に、対処として実行する各処理を記述したプログラムである。対処スクリプト1036は、バッチファイルなど、障害に対する対処として行なう処理が実行できるものであればよい。図2に示した構成では、対処スクリプト1036が1つ例示されているが、対処スクリプトを2つ以上設ける構成とすることもできる。
優先度計算部1024は、情報処理システムを構成するリソースの優先度を計算する処理部である。
ポリシ適用部1025は、ポリシ適用テーブル1033に格納されたポリシのインスタンスのうち、最も優先度の高いポリシのインスタンスを適用する処理部である。
表示処理部1027は、情報処理システムから受信したイベントや、ポリシの情報など各種情報を表示装置1070に表示するための画面を生成する処理部である。
表示装置1070は、ディスプレイなどであり、表示処理部1027で生成された画面を表示するための装置である。
次に、図3は、本実施形態に係る運用管理装置1000の動作の概要を説明する説明図である。運用管理装置1000が、情報処理システムで発生した障害を検知し、業務に重大な影響を及ぼす障害を優先して復旧するまでの流れを、図3を用いて説明する。
そして、障害監視部1021は、障害が発生したリソースの状態の変化を構成管理部1026に通知し(ステップs3)、構成管理部1026がシステム構成テーブル1035を更新する(ステップs4)。
そして、ポリシ管理部1022は、取得したイベントおよびリソースの情報が、ポリシを適用する際の条件として定義されているポリシをポリシ定義テーブル1032を参照して特定し(ステップs8)、このポリシのインスタンスをポリシ適用テーブル1033へ格納する(ステップs9)。
そして、ポリシ制御部1023は、算出したリソースの優先度に基づき、ポリシのインスタンスの優先度を設定し(ステップs13)、ポリシ適用部1025で、最も優先度の高いポリシのインスタンスを適用する(ステップs14)。ポリシ適用部1025は、ポリシに定義された対処に基づき、第1のネットワーク1100を介して、目的の計算機のエージェント機能1411を用いて設定情報の変更などを行なう。
そして、ポリシのインスタンスの適用後、ポリシ適用部1025は、障害への対処の完了を障害監視部1021へ通知し、障害監視部1021が、構成管理部1026で障害が発生したリソースの状態を元に戻す(ステップs15)。
イベント4000は、イベントID4001、詳細情報4002、リソース名4003、IPアドレス4004、および状態4005の各情報を含み、情報処理システムから受信するイベントごとにイベントID4001、詳細情報4002、リソース名4003、IPアドレス4004、状態4005が設定される。
IPアドレス4004は、障害が発生したリソースを一意に識別し、該リソースと通信する際に相手先を特定するための値が設定される。本実施の形態では、リソースのIPアドレスが設定される。
なお、イベント4000には、イベントID4001、詳細情報4002、リソース名4003、IPアドレス4004、状態4005以外の項目を設けることもできる。
以下、運用管理装置1000のディスク装置1030に格納された各テーブルに含まれる情報について説明する。
障害情報テーブル1031は、情報処理システムで障害が発生した際に、情報処理システムから受信したイベントを格納するためのテーブルである。
詳細情報5002は、情報処理システムで発生した障害の内容を示す文字列や数値が設定される。情報処理システムから受信したイベント4000の詳細情報4002が設定される。
IPアドレス5004は、障害が発生したリソースを一意に識別し、該リソースと通信する際に相手先を特定するための値が設定される。情報処理システムから受信したイベント4000のIPアドレス4004が設定される。
ポリシ定義テーブル1032は、情報処理システムで発生する可能性のある障害と、その障害が発生した場合に対処として実行する処理の組み合わせとを定義したポリシを格納するためのテーブルである。
イベントID6001は、情報処理システムで発生する障害を、現象ごとに分類するためのIDである。
イベントID6001およびリソース種別6002は、ポリシを適用する際の条件となる情報であり、情報処理システムから受信したイベントのイベントIDおよびリソース種別が、イベントID6001およびリソース種別6002と一致する場合に、このポリシを適用する。
なお、本実施形態では、イベントID6001およびリソース種別6002を、ポリシを適用する際の条件としているが、障害の発生時刻など、イベントID6001およびリソース種別6002以外の項目を、ポリシを適用する際の条件にしてもよい。
また、アクション6003により特定されるコマンドやスクリプトを実行する際、システム構成テーブル1035からリソースのIPアドレスなどの情報を取得することにより、対処の適用先を特定することができる。システム構成テーブル1035については後述する。
優先度7003は、ポリシを適用する際の優先順位を表した値である。障害が業務に及ぼす影響が大きいほど、優先度7003は高く設定される。ポリシの優先度7003が高く設定されている場合、このポリシを優先して適用する。優先度7003は、優先順位を表せるものであれば、数値であっても文字列であってよい。
なお、優先度7003の算出手順については後記する。
また、業務Bは、ロードバランサB1401と、WebAPサーバD1503と、WebAPサーバE1504と、DBサーバC1602と、DBサーバD1603と、DBサーバE1604とを用いて処理を実行する。
ロードバランサA1400とWebAPサーバA〜C(1500〜1502)とを結ぶ線分は、ロードバランサA1400が、クライアント1200からの処理要求を、業務Aの業務プログラム1511(図1参照)が格納されたWebAPサーバA〜C(1500〜1502)へ振り分けることを示している。
WebAPサーバA〜C(1500〜1502)とDBサーバA〜C(1600〜1602)とを結ぶ線分は、WebAPサーバA〜C(1500〜1502)が、業務Aで利用するデータの読み書きの要求を、DBサーバA〜C(1600〜1602)へ送信することを示している。DBサーバA〜C(1600〜1602)は、業務Aで利用するデータの読み書きの要求を受信すると、業務Aで利用するデータを読み書きする。
なお、DBサーバC1602は業務Aおよび業務Bに利用されることを示している。
業務名9001は、情報処理システムで実行される業務の名称を示す文字列が設定される。
重要度9002は、情報処理システムで実行される業務がどの程度重要であるかを示す文字列や数値が設定される。重要度9002は、固定値であってもよく、特許文献2に記載された方法のように、何らかの計算規則やプログラムによって算出した値でもよい。
リソース名10001は、情報処理システムを構成するリソースの名称を示す文字列が設定される。本実施形態では、例えば「WebAPサーバA」などが設定される。
リソース種別10003は、リソースの分類を示す文字列や数値が設定される。本実施形態では、例えば「WebAPサーバ」、「DBサーバ」などが設定される。システム構成や業務上の役割に応じて、リソース種別10003を変えてもよい。
状態10007は、リソースの障害状態を表し、障害監視部1021から通知された状態が格納される。リソースに障害が発生している場合、「障害」が格納される。リソースが正常稼動している場合は、何も設定されない。
次に、前記の各情報が格納された運用管理装置1000の各機能部の処理動作について説明する(適宜、図1ないし図10参照)。
そして、ステップ11010で新しく設定したイベント通し番号を、ポリシ管理部1022へ送信し、障害の発生を通知する(ステップ11030)。
障害監視部1021の処理は、プログラムが起動するとループ状態になり、プログラム起動中は継続的に情報処理システムから障害の情報を受信する。プログラムが終了すると、障害監視部1021の処理は終了し(ステップ11040で‘Yes’)、終了しない場合は(ステップ11040‘No’)、ステップ11000に戻って、ループを繰り返す。
そして、構成管理部1026へ、障害が発生したリソースのIPアドレス「192.168.1.3」と状態「障害」を送信し、構成管理部1026がシステム構成テーブル1035(図10参照)を更新する。さらに、ポリシ管理部1022へ、イベント通し番号「001」を送信し、障害の発生を通知する。
そして、障害情報テーブル1031(図5参照)におけるイベント通し番号5000が、ステップ12000で受信したイベント通し番号と一致する行を選択し、この行のイベントID5001とIPアドレス5004を取得する(ステップ12010)。
そして、ポリシ定義テーブル1032(図6参照)におけるイベントID6001およびリソース種別6002が、それぞれステップ12010で取得したイベントIDおよびステップ12020で取得したリソース種別と一致する行を選択し、この行のポリシ定義ID6000を取得する(ステップ12030)。
次に、ポリシ定義テーブル1032から、イベントIDが「100」、リソース種別が「WebAPサーバ」であるポリシのポリシ定義ID「002」を特定し、イベント通し番号「001」およびポリシ定義ID「002」をポリシ適用テーブル1033に格納する。このとき、ポリシ適用テーブル1033内で一意のポリシ適用ID「001」を設定する。
なお、ステップ12030において、イベントIDやリソース種別以外の項目を、ポリシを適用する際の条件とすることも可能である。
次に、優先度計算部1024で、ステップ13030で取得したIPアドレスに基づき、リソースの優先度を算出する(ステップ13040)。なお、このリソースの優先度の算出手順については、図14を参照して後記する。
ここで、ステップ13070において、システム構成テーブル1035におけるリソースグループ10005、業務番号10006または状態10007が変化した場合に、再度、ポリシのインスタンスの優先度をすべて計算することとしたが、変化によって影響のあるポリシのインスタンスの優先度のみを計算することもできる。つまり、システム構成テーブル1035におけるリソースグループ10005、業務番号10006または状態10007が変化した行を選択し、システム構成テーブル1035におけるリソースグループ10005が、選択した行のリソースグループ10005または変化する前のリソースグループ10005と一致する行を選択し、該行のIPアドレス10002で特定されるリソースに発生した障害に適用するポリシのインスタンスの優先度のみを計算することもできる。
この、優先度の高いポリシのインスタンスを適用する手順については、図17を参照して後述する。
なお、本実施形態におけるポリシ制御部1023は、ステップ13080においてポリシ適用部1025を呼び出した直後、ステップ13090へ移り、プログラムを終了するか否かを判定し、終了しない場合は(ステップ13090で‘No’)、以降の処理を継続する。複数の障害が発生している場合は、ポリシ適用部1025の処理が複数並行して実行される。同時に実行できるポリシ適用部1025の処理の数は、制限を設けないこともできるし、1以上の制限を設けることもできる。
まず、ステップ13040で指定されたIPアドレス、およびステップ14020で選択した業務番号に基づいて、業務におけるリソースの優先度βを算出し(ステップ14030)、業務におけるリソースの優先度を表す変数βに算出した値を設定する。
なお、業務におけるリソースの優先度の算出手順については、図15を参照して後述する。また、ステップ14020において、業務番号を選択する際、主記憶装置1020に記憶されていない業務番号を選択し、選択した後、選択した業務番号を主記憶装置1020に記憶する。主記憶装置1020に記憶した業務番号は、本処理の終了時にすべて削除する。
図15で示す処理において、優先度計算部1024は、ステップ14030で指定されたIPアドレスと業務番号に基づき、業務におけるリソースの優先度を計算する。
図16で示す処理において、優先度計算部1024は、ステップ15020で対象としたIPアドレスと業務番号に基づき、リソースを利用する業務ごとに、リソースの冗長度を算出する。本実施形態において、リソースの冗長度には、同一機能を有するリソースのうち、ステップ15020で指定されたIPアドレスで特定されるリソース以外で正常な状態にあるリソースが占める割合が設定される。したがって、冗長度を1から減算した値は、同一機能を有するリソースのうち、ステップ15020で指定されたIPアドレスで特定されるリソースおよび障害状態にあるリソースが占める割合となる。冗長度が低い場合、前記リソースの障害によってシステムが停止する可能性が高くなるとともに、システムの処理能力低下の可能性があるため、本実施形態では、業務に及ぼす影響の大きさを判断する値(影響度)として、冗長度を1から減算した値を利用する。
次に、ステップ16020で選択した各行における業務番号10006が、ステップ15020で指定された業務番号を含むすべての行を選択する。これにより、同一の業務が利用するリソースを特定する(ステップ16030)。ステップ16010〜16030により、ステップ15020で指定されたIPアドレスにより特定されるリソースと同一機能を有し、同一の業務が利用するリソースが特定される。
そして、障害状態にないリソースの数を表す変数mを0で初期化し(ステップ16050)、ステップ16030で選択した各行に対して、ステップ16070からステップ16090を繰り返す(ステップ16060)。
システム構成テーブル1035から、「WebAPサーバA」のリソースグループ10005は「2」であるので、同一機能を有し、同一業務が利用するリソースは、「WebAPサーバA」、「WebAPサーバB」および「WebAPサーバC」である。したがって、同一機能を有するリソースの総数は「3」となる。「WebAPサーバA」の状態10007は「障害」であるから、障害状態にないリソースは、「WebAPサーバB」および「WebAPサーバC」であり、その数は「2」である。
リソースの優先度の計算方法は、前記の図14から図16に示した手順に限定することなく、様々に変更可能である。以下、リソースの優先度の計算方法の変更例について説明する。
ただし、α>0
ただし、1≦n
ただし、Rns≧Rmin
Rr=0
ただし、Rns<Rmin
そして、コマンドやスクリプトの実行後、ポリシ適用テーブル1033において、ステップ17000で選択した行(ポリシ)を削除する(ステップ17030)。
前記の第1実施形態は、複数の障害が発生した場合に、障害が発生したリソースの優先度に基づいて算出した復旧処理の優先度を比較することにより、優先度の高い復旧処理を先に実行する例である。
一方、第2実施形態では、本発明を単一の障害に適用した例であり、情報処理システムを構成するすべてのリソースの優先度を算出し、優先度の高いリソースに障害が発生した場合に、このリソースの優先度よりも、優先度の低いリソースの業務への割り当てを解除し、優先度の高いリソースの代替リソースとして利用する。
したがって、余剰リソースが存在しない場合であっても、業務に重大な影響を及ぼす障害を遅延なく復旧することが可能となる。
なお、以下の説明において、第1実施形態と同様の構成については、同じ参照符号を付してその詳細な説明は省略する。
図20は、本実施形態に係る運用管理装置1000の構成を示す図である。
ディスク装置1030は、図2に示した第1実施形態の運用管理装置1000と同様に、障害情報テーブル1031と、ポリシ定義テーブル1032と、ポリシ適用テーブル1033と、業務定義テーブル1034と、システム構成テーブル1035と、対処スクリプト1036とを有する。本実施形態の運用管理装置1000は、さらに、リソース管理テーブル1037と、再割当定義テーブル1038と、再割当スクリプト1039とを有する。
再割当定義テーブル1038は、リソースの業務への割り当てを解除する際の制約や、割り当てを解除する際の処理に関する情報を格納するためのテーブルである。
また、ポリシ制御部1023は、第1実施形態の運用管理装置1000と同様に優先度計算部1024とポリシ適用部1025からなる。
次に、図21は、本実施形態に係る運用管理装置1000の動作の概要を説明する説明図である。運用管理装置1000が、優先度の低いリソースの業務への割り当てを解除し、優先度の高いポリシが使用するリソースを確保するまでの流れを、図21を用いて説明する。
ここで、情報処理システムからイベント4000を受信してから、ポリシ管理部1022が適用するポリシのインスタンスをポリシ適用テーブル1033に格納するまでの流れ(ステップs1〜ステップs9)は、図3に示した第1実施形態における処理と同様であるため、その説明を省略する。
そして、ポリシ制御部1023は、障害情報テーブル1031およびポリシ適用テーブル1033より、ポリシのインスタンスを適用するリソースを特定し(ステップs13)、システム構成テーブル1035から取得したリソースの優先度を、このポリシのインスタンスの優先度として設定する(ステップs14)。
そして、ポリシのインスタンスの適用後、ポリシ適用部1025は、障害への対処の完了を障害監視部1021へ通知し、障害監視部1021が、構成管理部1026で障害が発生したリソースの状態を元に戻す(ステップs21)。
以下、運用管理装置1000のディスク装置1030に格納された各テーブルに含まれる情報について、第1実施形態と異なる部分について説明する。
図22に示すように、システム構成テーブル1035は、図10に示した第1実施形態のシステム構成テーブル1035と同様に、リソース番号10000、リソース名10001、IPアドレス10002、リソース種別10003、接続リソース10004、リソースグループ10005、業務番号10006および状態10007を含む。さらに、本実施形態のシステム構成テーブル1035は優先度10008を含んでいる。
リソース管理テーブル1037は、情報処理システムを構成するリソースの名称や種別、業務への割り当て状態を格納するためのテーブルである。リソース管理テーブル1037には、業務に割り当てられていないリソースの情報も格納される。
種別23002は、ロードバランサやサーバなどリソースの分類を示す文字列や数値が設定される。システム構成テーブル1035のリソース種別10003に設定された「WebAPサーバ」や「DBサーバ」などのように、業務におけるリソースの役割に応じて分類することもできるし、本実施形態における「サーバ」のように、より抽象的な分類とすることもできるし、ハードウェアレベルの分類とすることもできる。
再割当定義テーブル1038は、リソースの業務への割り当てを解除する際の制約や、割り当てを解除する際の処理に関する情報を格納するためのテーブルである。
リソース種別24001は、リソースの分類を表し、システム構成テーブル1035のリソース種別10003のうち、該当するリソース種別が設定される。
再割当処理24004は、リソースを再割当する際に、このリソースの業務への割り当てを解除するために実行するコマンドやスクリプトなどを特定するための情報が設定される。本実施形態では、オペレーティングシステムが基本的な機能として提供するコマンドやスクリプト、運用管理装置1000のディスク装置1030に格納された再割当スクリプト1039を特定するためのパスが格納される。
そして、システム構成テーブル1035の各行に対して、ステップ25020からステップ25030を繰り返す(ステップ25010)。
そして、システム構成テーブル1035(図22参照)の現在処理対象の行に対して、この行の優先度10008に、ステップ13040で算出したリソースの優先度を設定する(ステップ25030)。システム構成テーブル1035のすべての行において、優先度10008を設定するまでステップ25020からステップ25030を繰り返す(ステップ25040)。
そして、システム構成テーブル1035におけるすべての行のリソースグループ10005、業務番号10006および状態10007が、ステップ25000で記憶したリソースグループ、業務番号および状態と一致しているか否かを判定し(ステップ25060)、一致していない場合(ステップ25060でNo)、ステップ25000へ戻りシステム構成テーブル1035の優先度10008を再度計算する。一致している場合(ステップ25060でYes)、ポリシ適用部1025で優先度の高いポリシのインスタンスを適用する(ステップ25070)。
この、優先度の高いポリシのインスタンスを適用する手順については、図17を用いて説明した第1実施形態の手順と同様である。
まず、障害情報テーブル1031におけるイベント通し番号5000が、現在処理対象の行のイベント通し番号7001に一致する行を選択し、この行のIPアドレス5004を取得する。これにより、障害が発生したリソースを特定する(ステップ26010)。
そして、ポリシ適用テーブル1033の現在処理対象の行に対して、この行の優先度7003に、ステップ26020で取得したリソースの優先度を設定する(ステップ26030)。ポリシ適用テーブル1033のすべての行において、優先度7003を設定するまでステップ26010からステップ26030を繰り返す(ステップ26040)。
そして、リソース管理テーブル1037(図23参照)におけるIPアドレス23001が、ステップ27000で取得したIPアドレスと一致する行を選択し、この行の種別23002を取得する。これにより、障害が発生したリソースの種別を特定する(ステップ27010)。
そして、ステップ27020で選択した行のうち、割当状態23003が「未割当」である行が存在するか否かを確認し(ステップ27030)、「未割当」の行が存在する場合(ステップ27030でYes)、ステップ27120へ移る。一方、「未割当」の行が存在しない場合(ステップ27030でNo)、ステップ27040へ移る。
そして、システム構成テーブル1035におけるIPアドレス10002が、主記憶装置1020に記憶されておらず、かつIPアドレス10002がステップ27020で選択した行のいずれかの行のIPアドレス23001と一致し、かつ状態10007が「障害」ではなく、優先度10008がステップ27040で取得した優先度よりも低い行のうち、優先度10008が最も低い行を選択し、この行のIPアドレス10002とリソース種別10003と業務番号10006を取得する(ステップ27050)。
ステップ27050において、リソース管理部1028は、IPアドレス10002を取得した後、取得したIPアドレスを主記憶装置1020に記憶する。主記憶装置1020に記憶されたIPアドレスは、本処理の終了時にすべて削除する。さらに、ステップ27050において取得した業務番号10006は、主記憶装置1020に記憶する。
そして、再割当定義テーブル1038(図24参照)における業務番号24000が、ステップ27060から取得した業務番号と一致し、かつリソース種別24001が、ステップ27050で取得したリソース種別と一致する行を選択する。これにより、ステップ27050で特定したリソースの再割当定義を特定する(ステップ27070)。
1021 障害監視部
1022 ポリシ管理部
1023 ポリシ制御部
1024 優先度計算部
1025 ポリシ適用部
1026 構成管理部
1027 表示処理部
1028 リソース管理部
Claims (15)
- 1以上のサービスを提供する1以上の計算機からなる情報処理システムにおいて、前記計算機のハードウェアまたはソフトウェアからなるリソースの前記サービスにおける重要性を示す、リソースの優先度を算出する運用管理装置であって、
各リソースの機能、その稼動状態、各サービスが利用するリソースおよび前記サービスにおけるリソース間の関係を定義したシステム構成情報と、前記サービスごとに設定された所定の重要度とを少なくとも保持する記憶部と、
前記システム構成情報より、前記重要度の算出対象となるリソースを利用するサービスを特定し、
前記システム構成情報より、前記特定したサービスにおいて、前記リソースと同じ機能を有する同等リソースを特定し、
前記同等リソースの稼動状態およびその数に基づいて、前記リソースが前記サービスに及ぼす影響度を算出し、
前記サービスの重要度および前記算出した影響度に基づいて、前記リソースの優先度を算出する優先度計算部とを有すること、
を特徴とする情報処理システムの運用管理装置。 - 前記計算機から、リソースの稼動状態、各サービスが利用するリソースおよび前記サービスにおけるリソース間の関係の変更の通知を受信すると、前記システム構成情報を更新する構成管理部をさらに有すること、
を特徴とする請求項1に記載の情報処理システムの運用管理装置。 - 前記リソースの優先度は、
前記記憶部に保持された前記サービスの前記重要度と、前記算出した影響度とを用いて次の数式1により算出されること、
を特徴とする請求項1または請求項2に記載の情報処理システムの運用管理装置。
Rs=Gs×Rr ・・・(1)
ただし、Rsはリソースの優先度、Gsはサービスの重要度、Rrは算出された影響度をそれぞれ表す。 - 前記リソースの優先度は、
前記記憶部に保持された前記サービスの前記重要度と、前記算出した影響度と、前記影響度が前記リソースの優先度に影響する度合いを表す所定の係数とを用いて次の数式2により算出されること、
を特徴とする請求項1または請求項2に記載の情報処理システムの運用管理装置。
Rs=Gs×(1+αRr) ・・・(2)
ただし、Rsはリソースの優先度、Gsはサービスの重要度、Rrは算出された影響度、αは所定の係数(α>0)をそれぞれ表す。 - 前記影響度は、
システム構成情報から、前記同等リソースのうち、前記リソース以外で正常に稼動しているリソースの数を算出し、このリソースの数と、前記同等リソースの総数とを用いて次の数式3により算出されること、
を特徴とする請求項1ないし請求項4のいずれか1項に記載の情報処理システムの運用管理装置。
Rr=1−m/n ・・・(3)
ただし、Rrは影響度、mは正常に稼動しているリソースの数、nは同等リソースの総数をそれぞれ表す。 - 前記影響度は、
前記同等リソースのうち、前記リソース以外で正常に稼動しているリソースの数と、システム構成情報に含まれる前記サービスを提供するために最低限必要なリソースの数と、前記同等リソースの総数とを用いて次の数式4又は数式5により算出されること、
を特徴とする請求項1ないし請求項4のいずれか1項に記載の情報処理システムの運用管理装置。
Rns≧Rminにおいて
Rr=(Rns−Rmin+1)/(Rna−Rmin+1) ・・・(4)
Rns<Rminにおいて
Rr=0 ・・・(5)
ただし、Rrは影響度、Rnsは正常に稼動しているリソースの数、Rminは最低限必要なリソースの数、Rnaは同等リソースの総数をそれぞれ表す。 - 前記影響度は、
前記同等リソースのうち、前記リソース以外で正常に稼動しているリソースの数と、前記同等リソースの総数と、前記同等リソースの可用性とに基づいて算出されること、
を特徴とする請求項1ないし請求項4のいずれか1項に記載の情報処理システムの運用管理方法。 - 前記同等リソースの可用性は、前記同等リソースの各リソースの故障率から算出した前記正常に稼動するリソースのうちの1台に障害が発生する確率を用いて表され、前記影響度は、次の数式6により算出されること、
を特徴とする請求項6に記載の運用管理方法。
Rr=(1−p)×Rns/Rna+p×(Rns−1)/Rna ・・・(6)
ただし、Rrは影響度、pは障害が発生する確率、Rnsは正常に稼動しているリソースの数、Rnaは同等リソースの総数をそれぞれ表す。 - 前記記憶部には、
リソースに発生する障害の内容に応じた復旧処理を定義したポリシをさらに保持し、
前記計算機から、リソースに発生した障害内容およびそのリソースを特定する情報を含んだ障害情報を受信する障害監視部と、
前記受信した障害情報に応じた前記ポリシを選択するポリシ管理部と、
前記選択されたポリシから、障害が発生したリソースを特定し、前記優先度計算部から取得した当該リソースの優先度に基づいて、前記選択されたポリシから、実行するポリシを指定するポリシ制御部と、
前記ポリシ制御部が指定したポリシに定義された復旧処理を実行するポリシ適用部とをさらに有すること、
を特徴とする請求項1ないし請求項8のいずれか1項に記載の情報処理システムの運用管理装置。 - 前記ポリシ制御部は、
前記優先度計算部の前記リソースの優先度の算出前後で、前記システム構成情報が変化しているか否かを判定し、
前記システム構成情報が変化している場合は、前記優先度計算部に、当該リソースの優先度を再度算出させること、
を特徴とする請求項9に記載の情報処理システムの運用管理装置。 - 前記優先度計算部が算出したリソースの優先度を用いて、前記障害が発生したリソースの優先度より、優先度の低いリソースを特定し、前記システム構成情報から、前記優先度の低いリソースを利用するサービスを特定し、前記優先度の低いリソースの前記サービスへの割り当てを解除し、前記優先度の低いリソースを、代替リソースとして前記ポリシ適用部に通知するリソース管理部をさらに有し、
前記ポリシ適用部は、
前記ポリシ制御部が指定したポリシに定義された復旧処理を実行する際に、前記リソース管理部から通知された前記優先度の低いリソースを前記復旧処理に割り当てることを、
特徴とする請求項9または請求項10に記載の情報処理システムの運用管理装置。 - 前記優先度計算部が算出した前記リソースの優先度および前記システム構成情報を閲覧可能な表示画面を作成して出力する表示処理部をさらに有すること、
を特徴とする請求項1ないし請求項11のいずれか1項に記載の情報処理システムの運用管理装置。 - 1以上のサービスを提供する1以上の計算機からなる情報処理システムにおいて、前記計算機のハードウェアおよびソフトウェアのリソースの前記サービスにおける重要性を示す、前記リソースの優先度を算出する運用管理装置における運用管理方法であって、
前記運用管理装置の優先度計算部が、
前記運用管理装置の記憶部に保持され、各リソースの機能、その稼動状態、各サービスが利用するリソースおよび前記サービスにおけるリソース間の関係を定義したシステム構成情報より、前記リソースを利用するサービスを特定し、
前記システム構成情報より、前記特定したサービスにおいて、前記リソースと同じ機能を有する同等リソースを特定し、
前記同等リソースの稼動状態およびその数に基づいて、前記リソースが前記サービスに及ぼす影響度を算出し、
前記サービスごとに設定され前記記憶部に保持された所定の重要度および前記算出した影響度に基づいて、前記リソースの優先度を算出すること、
を特徴とする情報処理システムの運用管理方法。 - 前記運用管理装置の障害監視部が、
前記計算機から、リソースに発生した障害内容およびそのリソースを特定する情報を含んだ障害情報を受信すると、
前記運用管理装置のポリシ管理部が、
前記受信した障害情報に応じて、前記記憶部に保持され、リソースに発生する障害の内容に応じた復旧処理を定義されたポリシを選択し、
前記運用管理装置のポリシ制御部が、
前記選択されたポリシから、障害が発生したリソースを特定し、前記優先度計算部から取得した当該リソースの優先度に基づいて、前記選択されたポリシから、実行するポリシを指定し、
前記運用管理装置のポリシ適用部が、
前記ポリシ制御部が指定したポリシに定義された復旧処理を実行すること、
を特徴とする請求項13に記載の情報処理システムの運用管理方法。 - 前記ポリシ適用部が、
前記ポリシ制御部が指定したポリシに定義された復旧処理を実行する際に、前記リソース管理部に代替リソースを要求し、
前記運用管理装置のリソース管理部が、
前記優先度計算部が算出したリソースの優先度を用いて、前記障害が発生したリソースの優先度より、優先度の低いリソースを特定し、
前記システム構成情報から、前記優先度の低いリソースを利用するサービスを特定し、
前記優先度の低いリソースの前記サービスへの割り当てを解除し、
前記優先度の低いリソースを、代替リソースとして前記ポリシ適用部に通知し、
前記ポリシ適用部が、
前記通知された前記優先度の低いリソースを前記復旧処理に割り当てることを、
を特徴とする請求項14に記載の情報処理システムの運用管理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007052208A JP4669487B2 (ja) | 2007-03-02 | 2007-03-02 | 情報処理システムの運用管理装置および運用管理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007052208A JP4669487B2 (ja) | 2007-03-02 | 2007-03-02 | 情報処理システムの運用管理装置および運用管理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008217285A true JP2008217285A (ja) | 2008-09-18 |
JP4669487B2 JP4669487B2 (ja) | 2011-04-13 |
Family
ID=39837271
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007052208A Expired - Fee Related JP4669487B2 (ja) | 2007-03-02 | 2007-03-02 | 情報処理システムの運用管理装置および運用管理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4669487B2 (ja) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011003132A (ja) * | 2009-06-22 | 2011-01-06 | Nippon Telegr & Teleph Corp <Ntt> | アクセス制御システム、アクセス制御装置及びアクセス制御方法 |
US20110113429A1 (en) * | 2009-11-10 | 2011-05-12 | Takuya Oda | Incident management method and operation management server |
JP2011180805A (ja) * | 2010-03-01 | 2011-09-15 | Nec Corp | 運用管理装置、運用管理方法、運用管理プログラム |
WO2011138879A1 (ja) * | 2010-05-06 | 2011-11-10 | 株式会社日立製作所 | 情報処理システムの運用管理装置および運用管理方法 |
JP2012048408A (ja) * | 2010-08-25 | 2012-03-08 | Fujitsu Ltd | アプリケーションの多重関係を検出する装置、方法、およびプログラム |
JP2012528382A (ja) * | 2009-05-25 | 2012-11-12 | アリババ・グループ・ホールディング・リミテッド | キャッシュクラスタを構成可能モードで用いるキャッシュデータ処理 |
JP2013501270A (ja) * | 2009-07-31 | 2013-01-10 | 株式会社エヌ・ティ・ティ・ドコモ | 信頼性保証のある仮想化インフラストラクチャのためのリソース割振りプロトコル |
WO2014002557A1 (ja) * | 2012-06-29 | 2014-01-03 | 日本電気株式会社 | 共有リスク影響度評価システム、共有リスク影響度評価方法、およびプログラム |
JP2014146197A (ja) * | 2013-01-29 | 2014-08-14 | Mitsubishi Heavy Ind Ltd | システム管理装置およびシステム |
JP2016009982A (ja) * | 2014-06-24 | 2016-01-18 | 富士通株式会社 | ネットワーク管理装置、ネットワーク管理システム、及びネットワーク管理方法 |
JP2016031657A (ja) * | 2014-07-29 | 2016-03-07 | 三菱重工業株式会社 | システム管理装置およびシステム |
US9607051B2 (en) | 2012-03-16 | 2017-03-28 | Fujitsu Limited | Effect analysis method, and management device |
US9898525B2 (en) | 2012-12-17 | 2018-02-20 | Nec Corporation | Information processing device which carries out risk analysis and risk analysis method |
JP2019133246A (ja) * | 2018-01-29 | 2019-08-08 | 富士通株式会社 | 順序制御プログラム、順序制御方法、及び情報処理装置 |
CN111984463A (zh) * | 2020-07-03 | 2020-11-24 | 浙江华云信息科技有限公司 | 一种基于边缘计算系统的微应用管理方法及装置 |
CN113268383A (zh) * | 2021-04-26 | 2021-08-17 | 北京控制工程研究所 | 一种基于分级策略的四机四总线故障代班方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07114520A (ja) * | 1993-10-15 | 1995-05-02 | Hitachi Ltd | 冗長資源の管理方法及びそれを用いた分散型フォールトトレラントコンピュータシステム |
JP2004302937A (ja) * | 2003-03-31 | 2004-10-28 | Hitachi Ltd | プログラム配置方法及びその実施システム並びにその処理プログラム |
JP2005141605A (ja) * | 2003-11-10 | 2005-06-02 | Hitachi Ltd | 予測に基づいた計算機リソース配分方法 |
JP2005216151A (ja) * | 2004-01-30 | 2005-08-11 | Hitachi Ltd | 資源運用管理システム及び資源運用管理方法 |
-
2007
- 2007-03-02 JP JP2007052208A patent/JP4669487B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07114520A (ja) * | 1993-10-15 | 1995-05-02 | Hitachi Ltd | 冗長資源の管理方法及びそれを用いた分散型フォールトトレラントコンピュータシステム |
JP2004302937A (ja) * | 2003-03-31 | 2004-10-28 | Hitachi Ltd | プログラム配置方法及びその実施システム並びにその処理プログラム |
JP2005141605A (ja) * | 2003-11-10 | 2005-06-02 | Hitachi Ltd | 予測に基づいた計算機リソース配分方法 |
JP2005216151A (ja) * | 2004-01-30 | 2005-08-11 | Hitachi Ltd | 資源運用管理システム及び資源運用管理方法 |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8972773B2 (en) | 2009-05-25 | 2015-03-03 | Alibaba Group Holding Limited | Cache data processing using cache cluster with configurable modes |
JP2012528382A (ja) * | 2009-05-25 | 2012-11-12 | アリババ・グループ・ホールディング・リミテッド | キャッシュクラスタを構成可能モードで用いるキャッシュデータ処理 |
JP2011003132A (ja) * | 2009-06-22 | 2011-01-06 | Nippon Telegr & Teleph Corp <Ntt> | アクセス制御システム、アクセス制御装置及びアクセス制御方法 |
JP2013501270A (ja) * | 2009-07-31 | 2013-01-10 | 株式会社エヌ・ティ・ティ・ドコモ | 信頼性保証のある仮想化インフラストラクチャのためのリソース割振りプロトコル |
US20110113429A1 (en) * | 2009-11-10 | 2011-05-12 | Takuya Oda | Incident management method and operation management server |
JP2011180805A (ja) * | 2010-03-01 | 2011-09-15 | Nec Corp | 運用管理装置、運用管理方法、運用管理プログラム |
WO2011138879A1 (ja) * | 2010-05-06 | 2011-11-10 | 株式会社日立製作所 | 情報処理システムの運用管理装置および運用管理方法 |
JP2012048408A (ja) * | 2010-08-25 | 2012-03-08 | Fujitsu Ltd | アプリケーションの多重関係を検出する装置、方法、およびプログラム |
US9607051B2 (en) | 2012-03-16 | 2017-03-28 | Fujitsu Limited | Effect analysis method, and management device |
WO2014002557A1 (ja) * | 2012-06-29 | 2014-01-03 | 日本電気株式会社 | 共有リスク影響度評価システム、共有リスク影響度評価方法、およびプログラム |
US9898525B2 (en) | 2012-12-17 | 2018-02-20 | Nec Corporation | Information processing device which carries out risk analysis and risk analysis method |
JP2014146197A (ja) * | 2013-01-29 | 2014-08-14 | Mitsubishi Heavy Ind Ltd | システム管理装置およびシステム |
JP2016009982A (ja) * | 2014-06-24 | 2016-01-18 | 富士通株式会社 | ネットワーク管理装置、ネットワーク管理システム、及びネットワーク管理方法 |
JP2016031657A (ja) * | 2014-07-29 | 2016-03-07 | 三菱重工業株式会社 | システム管理装置およびシステム |
JP2019133246A (ja) * | 2018-01-29 | 2019-08-08 | 富士通株式会社 | 順序制御プログラム、順序制御方法、及び情報処理装置 |
JP7027912B2 (ja) | 2018-01-29 | 2022-03-02 | 富士通株式会社 | 順序制御プログラム、順序制御方法、及び情報処理装置 |
CN111984463A (zh) * | 2020-07-03 | 2020-11-24 | 浙江华云信息科技有限公司 | 一种基于边缘计算系统的微应用管理方法及装置 |
CN113268383A (zh) * | 2021-04-26 | 2021-08-17 | 北京控制工程研究所 | 一种基于分级策略的四机四总线故障代班方法 |
CN113268383B (zh) * | 2021-04-26 | 2023-07-14 | 北京控制工程研究所 | 一种基于分级策略的四机四总线故障代班方法 |
Also Published As
Publication number | Publication date |
---|---|
JP4669487B2 (ja) | 2011-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4669487B2 (ja) | 情報処理システムの運用管理装置および運用管理方法 | |
JP4261543B2 (ja) | 動作不能なマスタ作業負荷管理プロセスを代替するシステムおよび方法 | |
US20200007620A1 (en) | Intelligent Backup and Recovery of Cloud Computing Environment | |
US8185905B2 (en) | Resource allocation in computing systems according to permissible flexibilities in the recommended resource requirements | |
US20060015773A1 (en) | System and method for failure recovery and load balancing in a cluster network | |
JP6321031B2 (ja) | 優先度が付与された複数のバーチャルマシン及び複数のアプリケーションに対して、共有された複数のリソースの品質に基づいて、サービスの品質を提供すること | |
JP4353005B2 (ja) | クラスタ構成コンピュータシステムの系切替方法 | |
US6618820B1 (en) | Method for configuring an application server system | |
US20060155912A1 (en) | Server cluster having a virtual server | |
JP6186787B2 (ja) | データ転送装置、データ転送システム、データ転送方法及びプログラム | |
US8713127B2 (en) | Techniques for distributed storage aggregation | |
WO2012056596A1 (ja) | 計算機システム及び処理制御方法 | |
WO2011074284A1 (ja) | 仮想計算機の移動方法、仮想計算機システム及びプログラムを格納した記憶媒体 | |
WO2016022405A1 (en) | Providing higher workload resiliency in clustered systems based on health heuristics | |
US9329937B1 (en) | High availability architecture | |
JP4920248B2 (ja) | サーバの障害回復方法及びデータベースシステム | |
JP2006350780A (ja) | キャッシュ割当制御方法 | |
JP5323554B2 (ja) | ジョブ処理方法、ジョブ処理プログラムを格納したコンピュータ読み取り可能な記録媒体、および、ジョブ処理システム | |
JP2009181578A (ja) | 複数の仮想マシンに対して動的にリソースを割当てる方法及び装置 | |
CN113382077B (zh) | 微服务调度方法、装置、计算机设备和存储介质 | |
EP2645635B1 (en) | Cluster monitor, method for monitoring a cluster, and computer-readable recording medium | |
EP3591530B1 (en) | Intelligent backup and recovery of cloud computing environment | |
KR20200080458A (ko) | 클라우드 멀티-클러스터 장치 | |
JP5632820B2 (ja) | 広域分散構成変更システム | |
JP4649341B2 (ja) | 計算機制御方法、情報処理システムおよび計算機制御プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090811 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100924 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100928 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101126 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110111 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110114 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140121 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |