JP2008217285A - 情報処理システムの運用管理装置および運用管理方法 - Google Patents

情報処理システムの運用管理装置および運用管理方法 Download PDF

Info

Publication number
JP2008217285A
JP2008217285A JP2007052208A JP2007052208A JP2008217285A JP 2008217285 A JP2008217285 A JP 2008217285A JP 2007052208 A JP2007052208 A JP 2007052208A JP 2007052208 A JP2007052208 A JP 2007052208A JP 2008217285 A JP2008217285 A JP 2008217285A
Authority
JP
Japan
Prior art keywords
resource
policy
priority
resources
failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007052208A
Other languages
English (en)
Other versions
JP4669487B2 (ja
Inventor
Kota Saito
恒太 斉藤
Akihiko Yamaguchi
明彦 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2007052208A priority Critical patent/JP4669487B2/ja
Publication of JP2008217285A publication Critical patent/JP2008217285A/ja
Application granted granted Critical
Publication of JP4669487B2 publication Critical patent/JP4669487B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Hardware Redundancy (AREA)

Abstract

【課題】サービスの重要度だけでなく、システムの状態を考慮して、利用中のリソースが、サービスに及ぼす影響を定量的に出力する手段を提供すること。
【解決手段】各リソースの機能、その稼動状態、各サービスが利用するリソースおよびサービスにおけるリソース間の関係を定義したシステム構成情報(1035)と、サービスごとに設定された所定の重要度とを少なくとも保持する記憶部(1030)と、システム構成情報(1035)より、リソースを利用するサービスを特定し、特定したサービスにおいて、リソースと同一の機能を有する同等リソースを特定し、この同等リソースの状態およびその数に基づいて、リソースがサービスに及ぼす影響度を算出し、サービスの重要度および算出した影響度に基づいて、リソースの優先度を算出する優先度計算部(1024)とを有する運用管理装置(1000)。
【選択図】図2

Description

本発明は、1以上の計算機から構成される情報処理システムを自律制御する方法に関し、特に、サービスに及ぼす影響が大きい障害を遅延なく復旧するために、情報処理システムで発生した障害の重大性、およびサービスで利用中のリソースの重要性を、サービスに及ぼす影響を考慮して適切に評価することができる情報処理システムの運用管理装置および運用管理方法に関する。
情報処理システムを構成するリソース、すなわち計算機などのハードウェアまたはサーバやアプリケーションなどのソフトウェアに障害が発生した場合、運用管理者が、発生した障害の内容に応じた対処を実行することが一般的である。
また、近年では、発生した障害の対処として実行する処理を、予め運用管理装置に設定しておき、障害が発生した場合に、運用管理装置に設定された処理を自動的に実行することで、障害を復旧することも可能になっている。
ところで、情報処理システムでは、短い間隔で複数の障害が発生することもある。
特に、一台の物理ホスト上で複数のサーバを稼動する構成において、物理ホストに障害が発生した場合、その物理ホスト上で稼動する複数のサーバから障害イベントが発生する可能性が高くなる。このような、一台の物理ホスト上で複数のサーバを稼動する構成は、現在でも実現可能な技術であるが、将来、仮想化技術の進歩によって、より一般的になると考えられる。その場合、運用管理者または運用管理装置が、それぞれの障害に応じて対処する必要がある。
しかし、発生した全ての障害を復旧させるために十分な余剰リソースが存在しない場合や、復旧処理を並行して実行することができない場合、すべての障害を遅延なく復旧させることができない可能性がある。したがって、重大な障害が発生した場合、その障害を優先して復旧することが必要である。そのためには、発生した障害の重大性を評価し、復旧処理の優先順位を決定することを支援する機能が望まれる。
また、複数の障害が発生した場合に限らず、単一の障害が発生した場合であっても、余剰リソースが存在しない場合などは、重大な障害の復旧が遅延してしまう可能性がある。このような場合には、サービスに及ぼす影響の小さなリソースを、障害が発生したリソースの代替として利用することにより、遅延なく重大な障害の復旧を行なうことが可能となる。そのためには、発生した障害の重大性を評価するとともに、サービスで利用中のリソースの重要性を評価し、発生した障害の重大性よりも重要でないリソースが存在すれば、そのリソースを融通するなどして、障害を遅延なく復旧することを支援する機能が望まれる。
前記課題に対し、特許文献1に記載の従来技術では、情報処理システムにおいて発生する障害イベントごとに設けた重要度によって、障害の重要性を表現している。
特許文献1に記載の技術によれば、運用管理者または運用管理装置が発生した障害イベントに設定された重要度を参照することによって、より重大な障害の復旧を優先することが可能である。
しかし、障害イベントごとに重要度を設けている場合、その障害がどのサービスに影響を及ぼすかを把握することができない。そのため、サービスに重大な影響を及ぼす障害の復旧が遅延してしまう場合があり、業務上大きな損失を招く可能性があるという問題がある。
したがって、単に障害イベントの重要度に基づいて、障害の復旧を優先するのではなく、サービスにより重大な影響を及ぼす障害の復旧を優先することが必要である。
前記課題に対し、特許文献2では、業務ごとにあらかじめ定義された重要度計算規則に基づいて、障害が発生したリソースを利用する業務の重要度を算出し、算出した重要度を障害の重要度として位置づけている。業務の重要度は、売り上げなどの業務データから算出される。運用管理者は、該業務の重要度をコンソールなどで参照することにより、業務により重大な影響を及ぼす障害を検知することを可能にしている。
特開2005−331998号公報 特開2005−31893号公報
しかし、特許文献2では、予め定義された業務の重要度計算規則に従って算出した重要度を障害の重要度として位置づけているため、障害が業務に与える影響を情報処理システムの状態に応じて区別することができないという問題がある。
例えば、業務の停止を招くような障害が発生した場合であっても、重要度計算規則によって、その業務よりわずかに重要度が高く計算された別の業務に障害が発生すると、その障害によって業務が停止する可能性が低くても、その障害の復旧を優先することになる。なぜなら、運用管理者はコンソールなどに表示された業務の重要度に基づいて、復旧処理の優先順位を決定するからである。重要度の大きな業務に発生した障害であっても、障害の程度によって復旧処理の優先順位を決定しなければ、結果的に業務上大きな損失を招く可能性がある。
したがって、発生した障害の重大性を、サービスの重要度だけではなく、その時々のシステムの状態を考慮して評価し、サービスに及ぼす影響が大きい障害を優先して復旧することが望まれる。
また、利用中のリソースを、障害が発生したリソースの代替として利用する場合、利用中のリソースの中から、最もサービスに及ぼす影響が小さなリソースを、障害が発生したリソースの代替として利用することが望ましい。利用中のリソースの重要性は、その時々のシステムの状態に応じて変化するため、利用中のリソースの重要性の評価においても、該リソースを利用するサービスの重要度だけではなく、その時々のシステムの状態を考慮することが望ましい。
本発明は前記の課題を鑑みてなされたものであり、サービスの重要度だけでなく、システムの状態を考慮して、利用中のリソースが、サービスに及ぼす影響を定量的に出力する手段を提供することを目的とする。
前記課題を解決するために、本発明に係る情報処理システムの運用管理装置は、1以上のサービスを提供する1以上の計算機からなる情報処理システムにおいて、この計算機のハードウェアまたはソフトウェアからなるリソースの前記サービスにおける重要性を示す、リソースの優先度を算出する運用管理装置であって、各リソースの機能、その稼動状態、各サービスが利用するリソースおよび前記サービスにおけるリソース間の関係を定義したシステム構成情報と、前記サービスごとに設定された所定の重要度とを少なくとも保持する記憶部と、前記システム構成情報より、前記重要度の算出対象となるリソースを利用するサービスを特定し、前記システム構成情報より、前記特定したサービスにおいて、前記リソースと同一の機能を有する同等リソースを特定し、前記同等リソースの状態およびその数に基づいて、前記リソースが前記サービスに及ぼす影響度を算出し、前記サービスの重要度および前記算出した影響度に基づいて、前記リソースの優先度を算出する優先度計算部とを有することを特徴とする。
本発明によると、サービスの重要度だけでなく、システムの状態を考慮して、利用中のリソースが、サービスに及ぼす影響を定量的に計算することができる。
以下、添付した図面を参照しつつ、本発明の好適な実施の形態について説明する。
(第1実施形態)
図1は、本発明の第1実施形態に係る運用管理装置(情報処理システムの運用管理装置)が適用された情報処理システムの全体構成を示す図面である。
図1に示した情報処理システムは、運用管理装置1000と、第1のネットワーク1100と、クライアント1200と、第2のネットワーク1300と、ロードバランサA1400と、ロードバランサB1401と、WebAPサーバA〜E(1500〜1504)と、DBサーバA〜E(1600〜1604)とを構成要素として含んで構成される。
運用管理装置1000と、ロードバランサA1400と、ロードバランサB1401と、WebAPサーバA〜E(1500〜1504)と、DBサーバA〜E(1600〜1604)とは、第1のネットワーク1100を介して通信可能に接続される。
また、情報処理システムは、第2のネットワーク1300を介してクライアント1200と通信可能に接続され、クライアント1200に対して業務サービス(以下、業務とよぶ)を提供する。なお、本実施形態では説明のために、請求項のサービスに対応する言葉として「業務」を用いるが、請求項のサービスとは情報処理システムの内部的なバッチ処理などを広く含む概念である。
以下、図1に示した情報処理システムの各構成要素について説明する。
運用管理装置1000は、情報処理システムを管理するためのコンピュータである。運用管理装置1000は、情報処理システムで発生する障害と、この障害が発生した場合に対処として行なう処理の組み合わせとを、ポリシとして管理し、情報処理システムで障害が発生すると、管理されたポリシに基づいて障害の復旧処理を行なう。詳しくは後述する。
第1のネットワーク1100は、運用管理装置1000と、ロードバランサA1400と、ロードバランサB1401と、WebAPサーバA〜E(1500〜1504)と、DBサーバA〜E(1600〜1604)とを相互に通信可能に接続する通信網である。この第1のネットワーク1100は、例えば企業内におけるLAN(Local Area Network)により具現される。また、例えばWAN(Wide Area Network)を適用することもできる。
クライアント1200は、情報処理システムから情報処理サービスの提供を受けるための処理要求を、WebAPサーバA〜E(1500〜1504)に送信するためのコンピュータである。図1には、クライアント1200が1台のみ接続された例を示したが、クライアント1200は複数台であってもよい。また、情報処理システムが、定期的なバッチ処理などを実行するシステムである場合には、クライアント1200が設置されない構成とすることもできる。
第2のネットワーク1300は、クライアント1200と、情報処理システムとを相互に通信可能に接続する通信網である。第2のネットワーク1300は、例えば企業内におけるLANにより具現される。また、例えばWANを適用することもできる。
第1のネットワーク1100と第2のネットワーク1300とは、別のネットワークでもよいし、同一のネットワークにより具現することもできる。
ロードバランサA1400およびロードバランサB1401は、クライアント1200からWebAPサーバA〜E(1500〜1504)へ送信された処理要求を、WebAPサーバA〜E(1500〜1504)に振り分けて送信するコンピュータであり、ロードバランサ制御機能1410と、エージェント機能1411を含んで構成される。
ロードバランサ制御機能1410は、クライアント1200からWebAPサーバA〜E(1500〜1504)へ送信された処理要求を、WebAPサーバA〜E(1500〜1504)に振り分けて送信する機能である。
エージェント機能1411は、運用管理装置1000への障害情報(イベント)の送信や、各種設定情報の変更などを行なう機能である。設定情報の変更は、運用管理装置1000が、ポリシに定義された対処に基づき、エージェント機能1411を用いて実行する。設定情報の変更は、エージェント機能1411の機能として含んでもよいし、オペレーティングシステムが提供する基本的な機能を利用してもよいし、他のプログラムを利用してもよい。
図1に示した情報処理システムでは、WebAPサーバA〜E(1500〜1504)の5台を含む構成が例示されているが、WebAPサーバが1台の場合には、ロードバランサを設けない構成とすることもできる。
WebAPサーバA〜E(1500〜1504)は、クライアント1200から送信された各処理要求に応じた処理を実行し、処理結果をクライアント1200に送信するコンピュータであり、それぞれ、WebAPサーバ制御機能1510と、業務プログラム1511と、エージェント機能1411とを含んで構成される。
WebAPサーバ制御機能1510は、クライアント1200から送信された各処理要求に応じて業務プログラム1511を実行し、処理結果をクライアント1200に送信する機能である。WebAPサーバ制御機能1510は、各処理要求に応じた処理を実行する際に、DBサーバA〜E(1600〜1604)に対して、業務で利用するデータの読み書きの要求を送信する。
業務プログラム1511は、各種情報処理サービスをクライアント1200に提供するために実行されるプログラムである。情報処理システムが、バッチ処理など、クライアント1200に対して各種情報処理サービスを提供するシステムではない場合、業務プログラム1511は、バッチ処理を実行するためのプログラムでもよい。図1では、業務プログラム1511を1つ備える例を示しているが、業務プログラム1511を2つ以上設ける構成とすることもできる。
また、図1に示した情報処理システムでは、5台のWebAPサーバA〜E(1500〜1504)が例示されているが、情報処理システムには、WebAPサーバが1台以上含まれればよい。
DBサーバA〜E(1600〜1604)は、WebAPサーバA〜E(1500〜1504)からの要求を受けて、業務プログラム1511が利用するデータを読み書きするためのコンピュータであり、DBサーバ制御機能1610と、エージェント機能1411とを含んで構成される。業務プログラム1511が利用するデータは、DBサーバA〜E(1600〜1604)のローカルディスクに記憶されてもよいし、SAN(Storage Area Network)を介して外部のディスク装置などに記憶されてもよい。
DBサーバ制御機能1610は、WebAPサーバA〜E(1500〜1504)から、業務プログラム1511が利用するデータの読み書きの要求を受信すると、このデータの読み書きをする機能である。
図1に示した情報処理システムでは、5台のDBサーバA〜E(1600〜1604)が例示されているが、DBサーバを設けない構成とすることもできるし、さらに多く設けることもできる。
(運用管理装置の構成)
次に、図2は、本実施形態に係る運用管理装置1000の構成を示す図面である。
運用管理装置1000は、CPU1010と、主記憶装置1020とを有するコンピュータであり、ディスクインタフェース1040を介してディスク装置1030と接続され、通信インタフェース1050を介して第1のネットワーク1100と接続され、ディスプレイインタフェース1060を介して表示装置1070と接続される。
ディスク装置1030は、運用管理装置1000が利用するデータを格納するハードディスクドライブなどの記憶装置であり、障害情報テーブル1031と、ポリシ定義テーブル1032と、ポリシ適用テーブル1033と、業務定義テーブル1034と、システム構成テーブル1035と、対処スクリプト1036とを有する。
障害情報テーブル1031は、情報処理システムで発生した障害の情報を格納するためのテーブルである。以降、情報処理システムで発生した障害の情報を、「イベント」と呼ぶ。
ポリシ定義テーブル1032は、情報処理システムで発生する可能性のある障害と、その障害が発生した場合に対処として実行する処理の組み合わせを定義した「ポリシ」を格納するためのテーブルである。
ポリシ適用テーブル1033は、情報処理システムで発生した障害に対し、ポリシに定義された対処を実行中か、または実行待ちのポリシの優先度や状態を格納するためのテーブルである。
以降、対処が実行中か、または実行待ちであるポリシを、このポリシの「インスタンス」と呼ぶ。
業務定義テーブル1034は、情報処理システムで実行される業務の情報を格納するためのテーブルである。
システム構成テーブル1035は、情報処理システムの構成情報を格納するためのテーブルである。
対処スクリプト1036は、障害が発生した際に、対処として実行する各処理を記述したプログラムである。対処スクリプト1036は、バッチファイルなど、障害に対する対処として行なう処理が実行できるものであればよい。図2に示した構成では、対処スクリプト1036が1つ例示されているが、対処スクリプトを2つ以上設ける構成とすることもできる。
運用管理装置1000は、主記憶装置1020に格納された、障害監視部1021、ポリシ管理部1022、ポリシ制御部1023、構成管理部1026、および表示処理部1027を具現する各種プログラムをCPU1010が実行することにより、情報処理システムの運用管理を行なう。
障害監視部1021は、情報処理システムよりイベントを受信し、この受信したイベントを管理するとともに、関連する処理部へ通知する処理部である。障害監視部1021は、障害の発生をポリシ管理部1022へ通知し、障害の発生に伴うリソースの状態の変化を構成管理部1026へ通知する。
ポリシ管理部1022は、障害監視部1021から障害の発生を通知されると、この障害に適用するポリシをポリシ定義テーブル1032より特定し、このポリシのインスタンスの情報をポリシ適用テーブル1033に格納する処理部である。
ポリシ制御部1023は、優先度計算部1024とポリシ適用部1025からなる。
優先度計算部1024は、情報処理システムを構成するリソースの優先度を計算する処理部である。
ポリシ適用部1025は、ポリシ適用テーブル1033に格納されたポリシのインスタンスのうち、最も優先度の高いポリシのインスタンスを適用する処理部である。
ポリシ制御部1023は、優先度計算部1024で、障害が発生したリソースの優先度を計算し、計算したリソースの優先度に基づき、この障害に適用するポリシのインスタンスの優先度を設定し、ポリシ適用部1025で優先度の最も高いポリシのインスタンスを適用する。
構成管理部1026は、情報処理システムの構成情報を管理し、情報処理システムのリソースの状態の変化、構成の変更の通知を受け、システム構成テーブル1035を更新する処理部である。
表示処理部1027は、情報処理システムから受信したイベントや、ポリシの情報など各種情報を表示装置1070に表示するための画面を生成する処理部である。
表示装置1070は、ディスプレイなどであり、表示処理部1027で生成された画面を表示するための装置である。
(運用管理装置の動作概要)
次に、図3は、本実施形態に係る運用管理装置1000の動作の概要を説明する説明図である。運用管理装置1000が、情報処理システムで発生した障害を検知し、業務に重大な影響を及ぼす障害を優先して復旧するまでの流れを、図3を用いて説明する。
障害監視部1021は、第1のネットワーク1100を介して、情報処理システムからイベントを受信し(ステップs1)、障害監視部1021を介してこのイベントを障害情報テーブル1031へ格納する(ステップs2)。
そして、障害監視部1021は、障害が発生したリソースの状態の変化を構成管理部1026に通知し(ステップs3)、構成管理部1026がシステム構成テーブル1035を更新する(ステップs4)。
次に、障害監視部1021は、障害の発生をポリシ管理部1022に通知する(ステップs5)。ポリシ管理部1022は、障害の発生を通知されると、障害情報テーブル1031に新たに格納されたイベントを取得し(ステップs6)、システム構成テーブル1035から障害が発生したリソースの情報を取得する(ステップs7)。
そして、ポリシ管理部1022は、取得したイベントおよびリソースの情報が、ポリシを適用する際の条件として定義されているポリシをポリシ定義テーブル1032を参照して特定し(ステップs8)、このポリシのインスタンスをポリシ適用テーブル1033へ格納する(ステップs9)。
ポリシ制御部1023は、ポリシ適用テーブル1033を常時監視しており、ステップs9でのポリシ適用テーブル1033へのポリシのインスタンスの格納を契機に、障害情報テーブル1031およびポリシ適用テーブル1033を参照し、ポリシのインスタンスを適用するリソースを特定し(ステップs10)、優先度計算部1024で、業務定義テーブル1034およびシステム構成テーブル1035を参照し(ステップs11)、障害が業務に及ぼす影響の大きさに基づいて、このリソースの優先度を算出する(ステップs12)。
そして、ポリシ制御部1023は、算出したリソースの優先度に基づき、ポリシのインスタンスの優先度を設定し(ステップs13)、ポリシ適用部1025で、最も優先度の高いポリシのインスタンスを適用する(ステップs14)。ポリシ適用部1025は、ポリシに定義された対処に基づき、第1のネットワーク1100を介して、目的の計算機のエージェント機能1411を用いて設定情報の変更などを行なう。
構成管理部1026は、情報処理システムを構成するリソースの状態や、構成の変更を通知されると(ステップsn)、システム構成テーブル1035を更新する。したがって、優先度計算部1024で算出される優先度には、その時々の情報処理システムの構成情報が反映される。
そして、ポリシのインスタンスの適用後、ポリシ適用部1025は、障害への対処の完了を障害監視部1021へ通知し、障害監視部1021が、構成管理部1026で障害が発生したリソースの状態を元に戻す(ステップs15)。
ここで、図4は、障害監視部1021が情報処理システムから受信するイベント4000に含まれる情報を表すテーブルである。
イベント4000は、イベントID4001、詳細情報4002、リソース名4003、IPアドレス4004、および状態4005の各情報を含み、情報処理システムから受信するイベントごとにイベントID4001、詳細情報4002、リソース名4003、IPアドレス4004、状態4005が設定される。
図4に示したテーブルにおいて、イベントID4001は、情報処理システムで発生した障害を現象ごとに分類するためのIDである。また、詳細情報4002は、情報処理システムで発生した障害の内容を示す文字列や数値が格納される。障害とは、リソースで稼動するサービスやアプリケーション、業務の停止を招く事象であり、本実施形態では、例えば「サーバダウン」などが設定される。
また、リソース名4003は、障害が発生したリソースの名称を示す文字列などが設定される。本実施の形態では、例えば「WebAPサーバA」などが設定される。
IPアドレス4004は、障害が発生したリソースを一意に識別し、該リソースと通信する際に相手先を特定するための値が設定される。本実施の形態では、リソースのIPアドレスが設定される。
状態4005は、障害が発生したリソースの状態を示す文字列や数値が設定される。本実施の形態では、「障害」が設定される。
なお、イベント4000には、イベントID4001、詳細情報4002、リソース名4003、IPアドレス4004、状態4005以外の項目を設けることもできる。
(ディスク装置に格納された情報)
以下、運用管理装置1000のディスク装置1030に格納された各テーブルに含まれる情報について説明する。
図5は、ディスク装置1030に格納された障害情報テーブル1031に含まれる情報を表すテーブルである。
障害情報テーブル1031は、情報処理システムで障害が発生した際に、情報処理システムから受信したイベントを格納するためのテーブルである。
障害情報テーブル1031は、イベント通し番号5000、イベントID5001、詳細情報5002、リソース名5003、IPアドレス5004、および状態5005からなり、イベントごとに、イベント通し番号5000、イベントID5001、詳細情報5002、リソース名5003、IPアドレス5004、および状態5005が格納される。
イベント通し番号5000は、情報処理システムで発生した障害を一意に識別するための番号であり、情報処理システムから受信したイベント4000を障害情報テーブル1031に格納する際に割り当てられる。
イベントID5001は、情報処理システムで発生する障害を現象ごとに分類するためのIDであり、情報処理システムから受信したイベント4000のイベントID4001が格納される。
詳細情報5002は、情報処理システムで発生した障害の内容を示す文字列や数値が設定される。情報処理システムから受信したイベント4000の詳細情報4002が設定される。
リソース名5003は、障害が発生したリソースの名称を示す文字列が設定される。情報処理システムから受信したイベント4000のリソース名4003が設定される。
IPアドレス5004は、障害が発生したリソースを一意に識別し、該リソースと通信する際に相手先を特定するための値が設定される。情報処理システムから受信したイベント4000のIPアドレス4004が設定される。
状態5005は、障害が発生したリソースの状態を示す文字列や数値が設定される。情報処理システムから受信したイベント4000の状態4005が設定される。
次に、図6は、ディスク装置1030に格納されたポリシ定義テーブル1032に含まれる情報を表すテーブルである。
ポリシ定義テーブル1032は、情報処理システムで発生する可能性のある障害と、その障害が発生した場合に対処として実行する処理の組み合わせとを定義したポリシを格納するためのテーブルである。
ポリシ定義テーブル1032は、ポリシ定義ID6000、イベントID6001、リソース種別6002、およびアクション6003からなり、運用管理装置1000に定義されるポリシごとに、ポリシ定義ID6000、イベントID6001、リソース種別6002、およびアクション6003が格納される。
ポリシ定義ID6000は、ポリシ定義テーブル1032に格納されているポリシを一意に識別するためのIDである。
イベントID6001は、情報処理システムで発生する障害を、現象ごとに分類するためのIDである。
リソース種別6002は、障害が発生したリソースの種類を示す文字列や数値が設定される。本実施形態では、例えば、「WebAPサーバ」などが設定される。
イベントID6001およびリソース種別6002は、ポリシを適用する際の条件となる情報であり、情報処理システムから受信したイベントのイベントIDおよびリソース種別が、イベントID6001およびリソース種別6002と一致する場合に、このポリシを適用する。
なお、本実施形態では、イベントID6001およびリソース種別6002を、ポリシを適用する際の条件としているが、障害の発生時刻など、イベントID6001およびリソース種別6002以外の項目を、ポリシを適用する際の条件にしてもよい。
アクション6003は、情報処理システムから受信したイベント4000のイベントID4001および、障害が発生したリソースのリソース種別(図10参照)が、それぞれポリシ定義テーブル1032のイベントID6001およびリソース種別6002と一致する場合に、障害の対処として実行する処理であり、例えば、障害が発生したサーバを代替することなどである。
アクション6003には、対処として実行するコマンドやスクリプトなどを特定するための情報が設定される。例えば、オペレーティングシステムが基本的な機能として提供するコマンドやスクリプト、運用管理装置1000のディスク装置1030に格納された対処スクリプト1036を特定するためのパスが格納される。
また、アクション6003により特定されるコマンドやスクリプトを実行する際、システム構成テーブル1035からリソースのIPアドレスなどの情報を取得することにより、対処の適用先を特定することができる。システム構成テーブル1035については後述する。
図6に示したポリシ定義テーブル1032では、ポリシ定義ID「002」の行は、イベントID「100」すなわち「サーバダウン」の障害が発生した場合に(図5の障害情報テーブル1031参照)、対処として「D:\script\scriptB」で特定されるスクリプトを実行することを表している。このスクリプトは、例えば、障害が発生したサーバと同等の性能を有する代替サーバを起動するための処理を記述したものである。
次に、図7は、ディスク装置1030に格納されたポリシ適用テーブル1033に含まれる情報を表すテーブルである。ポリシ適用テーブル1033は、ポリシのインスタンスの優先度や状態を格納するためのテーブルである。
ポリシ適用テーブル1033は、ポリシ適用ID7000、イベント通し番号7001、ポリシ定義ID7002、優先度7003、および適用状態7004からなり、ポリシのインスタンスごとに、ポリシ適用ID7000、イベント通し番号7001、ポリシ定義ID7002、優先度7003、および適用状態7004が格納される。
ポリシ適用ID7000は、ポリシのインスタンスを一意に識別するためのIDである。ポリシ適用ID7000は、情報処理システムで発生した障害に適用するポリシのインスタンスの情報を、ポリシ適用テーブル1033に格納する際に、ポリシ管理部1022によって割り当てられる。
イベント通し番号7001は、情報処理システムで発生した障害の情報を一意に識別するための番号である。イベント通し番号7001には、ポリシの適用の契機となったイベントのイベント通し番号、すなわち障害情報テーブル1031(図5参照)のイベント通し番号5000が設定される。
ポリシ定義ID7002は、ポリシ定義テーブル1032(図6参照)に格納されたポリシを一意に識別するためのIDである。ポリシ定義ID7002には、障害に適用するポリシのポリシ定義ID、すなわちポリシ定義テーブル1032のポリシ定義ID6000が格納される。
優先度7003は、ポリシを適用する際の優先順位を表した値である。障害が業務に及ぼす影響が大きいほど、優先度7003は高く設定される。ポリシの優先度7003が高く設定されている場合、このポリシを優先して適用する。優先度7003は、優先順位を表せるものであれば、数値であっても文字列であってよい。
なお、優先度7003の算出手順については後記する。
適用状態7004は、ポリシのインスタンスの状態を示す文字列や数値が設定される。本実施形態では、「未適用」または「適用中」が設定される。「未適用」は、ポリシに定義されたアクションの実行待ちであることを表す。「適用中」は、ポリシに定義されたアクションが実行中であることを表す。以降、ポリシに定義されたアクションが実行中であることを、「ポリシのインスタンスが適用中である」という。
図7に示したポリシ適用テーブル1033において、ポリシ適用ID「001」の行は、イベント通し番号「001」の障害、つまり「WebAPサーバA」に発生した障害に対し、ポリシ定義ID「002」のポリシを適用することを表している。ポリシのインスタンスの優先度は、「30」である。
次に、業務定義テーブル1034およびシステム構成テーブル1035に格納される情報を説明するために、前提となる情報処理システムの稼動状態について説明する。
図8は、図1に示した情報処理システムの業務実行時における論理的な接続関係の例を説明する図面である。図8に示した接続関係では、情報処理システムが業務Aおよび業務Bの2つの業務に利用されることを表している。
図8を参照して、業務Aは、ロードバランサA1400と、WebAPサーバA1500と、WebAPサーバB1501と、WebAPサーバC1502と、DBサーバA1600と、DBサーバB1601と、DBサーバC1602とを用いて処理を実行する。
また、業務Bは、ロードバランサB1401と、WebAPサーバD1503と、WebAPサーバE1504と、DBサーバC1602と、DBサーバD1603と、DBサーバE1604とを用いて処理を実行する。
第2のネットワーク1300と、ロードバランサA1400およびロードバランサB1401とを結ぶ線分は、第2のネットワーク1300を介して、ロードバランサA1400およびロードバランサB1401が、クライアント1200からの処理要求を受け付けることを示している。
ロードバランサA1400とWebAPサーバA〜C(1500〜1502)とを結ぶ線分は、ロードバランサA1400が、クライアント1200からの処理要求を、業務Aの業務プログラム1511(図1参照)が格納されたWebAPサーバA〜C(1500〜1502)へ振り分けることを示している。
ロードバランサB1401とWebAPサーバD〜E(1503〜1504)とを結ぶ線分は、ロードバランサB1401が、クライアント1200からの処理要求を、業務Bの業務プログラム1511(図1参照)が格納されたWebAPサーバD〜E(1503〜1504)へ振り分けることを示している。
WebAPサーバA〜C(1500〜1502)とDBサーバA〜C(1600〜1602)とを結ぶ線分は、WebAPサーバA〜C(1500〜1502)が、業務Aで利用するデータの読み書きの要求を、DBサーバA〜C(1600〜1602)へ送信することを示している。DBサーバA〜C(1600〜1602)は、業務Aで利用するデータの読み書きの要求を受信すると、業務Aで利用するデータを読み書きする。
WebAPサーバD〜E(1503〜1504)とDBサーバC〜E(1602〜1604)とを結ぶ線分は、WebAPサーバD〜E(1503〜1504)が、業務Bで利用するデータの読み書きの要求を、DBサーバC〜E(1602〜1604)へ送信することを示している。DBサーバC〜E(1602〜1604)は、業務Bで利用するデータの読み書きの要求を受信すると、業務Bで利用するデータを読み書きする。
なお、DBサーバC1602は業務Aおよび業務Bに利用されることを示している。
DBサーバA1600とDBサーバB1601とを結ぶ線分、およびDBサーバD1603とDBサーバE1604とを結ぶ線分は、それぞれ線分で結ばれたDBサーバ同士がフェールオーバクラスタ構成を組んでいることを示している。フェールオーバクラスタ構成を組んだDBサーバは、ハートビートの送受信や、業務で利用するデータの同期を取るためのミラーリングなどを行っていることを示している。
以降、情報処理システムが、図8で示した業務実行時における論理的な接続関係を有する場合における、運用管理装置1000のディスク装置1030に格納された業務定義テーブル1034およびシステム構成テーブル1035に格納される情報について説明する。
図9は、ディスク装置1030に格納された業務定義テーブル1034に含まれる情報を表すテーブルである。業務定義テーブル1034は、情報処理システムで実行される業務の情報を格納するためのテーブルである。
業務定義テーブル1034は、業務番号9000、業務名9001、および重要度9002からなり、情報処理システムで実行される業務ごとに、業務番号9000、業務名9001、および重要度9002が格納される。
業務番号9000は、情報処理システムで実行される業務を一意に識別するための番号である。
業務名9001は、情報処理システムで実行される業務の名称を示す文字列が設定される。
重要度9002は、情報処理システムで実行される業務がどの程度重要であるかを示す文字列や数値が設定される。重要度9002は、固定値であってもよく、特許文献2に記載された方法のように、何らかの計算規則やプログラムによって算出した値でもよい。
図10は、ディスク装置1030に格納されたシステム構成テーブル1035に含まれる情報を表すテーブルである。図10のシステム構成テーブル1035には、図8で示した接続関係に基づいた情報処理システムの構成情報が格納される。
システム構成テーブル1035は、リソース番号10000、リソース名10001、IPアドレス10002、リソース種別10003、接続リソース10004、リソースグループ10005、業務番号10006、および状態10007からなり、情報処理システムを構成するリソースごとに、リソース番号10000、リソース名10001、IPアドレス10002、リソース種別10003、接続リソース10004、リソースグループ10005、業務番号10006、および状態10007が格納される。
リソース番号10000は、情報処理システムを構成するリソースを一意に識別するための番号である。
リソース名10001は、情報処理システムを構成するリソースの名称を示す文字列が設定される。本実施形態では、例えば「WebAPサーバA」などが設定される。
IPアドレス10002は、情報処理システムを構成するリソースを一意に識別し、このリソースと通信する際に相手先を特定するための値が設定される。本実施の形態では、リソースのIPアドレスが設定される。ポリシに定義されたアクション6003(図6参照)に設定されたコマンドやスクリプトは、IPアドレス10002より対処の適用先を特定することができる。
リソース種別10003は、リソースの分類を示す文字列や数値が設定される。本実施形態では、例えば「WebAPサーバ」、「DBサーバ」などが設定される。システム構成や業務上の役割に応じて、リソース種別10003を変えてもよい。
接続リソース10004は、リソースの接続関係を表しており、接続するリソースのリソース番号10000が設定される。接続するリソースが複数の場合、複数のリソース番号が設定される。図8で示した接続関係において、ロードバランサA1400は、WebAPサーバA1500と、WebAPサーバB1501と、WebAPサーバC1502とに接続しているため、WebAPサーバA1500と、WebAPサーバB1501と、WebAPサーバC1502とのリソース番号「2,3,4」が格納される。なお、本実施形態では、複数のリソースID13000を連結して設定するものとしたが、接続リソース10004を別のテーブルで管理し、正規化することもできる。
リソースグループ10005は、同一機能を有するリソースのまとまりを示す文字列や数値が設定される。同一機能を有するリソースとは、例えば、ロードバランサで負荷分散されたサーバや、フェールオーバークラスタ構成を組んだサーバなどである。リソースグループ10005は、ユーザが設定してもよく、各サーバのエージェント機能1411を利用して取得したロードバランサやWebAPサーバなどの設定情報から自動的に設定してもよい。
業務番号10006は、リソースを利用する業務を表し、業務定義テーブル1034(図9参照)の該当する業務番号9000が設定される。リソースを利用する業務が複数ある場合、複数の番号が格納される。図8で示した接続関係において、DBサーバC1602は、業務Aおよび業務Bが利用するため、業務番号10006には、業務Aおよび業務Bのそれぞれの業務番号900である「1,2」が格納される。なお、本実施形態では、複数の業務番号9000を連結して設定するものとしたが、業務番号10006を別のテーブルで管理し、正規化することもできる。
状態10007は、リソースの障害状態を表し、障害監視部1021から通知された状態が格納される。リソースに障害が発生している場合、「障害」が格納される。リソースが正常稼動している場合は、何も設定されない。
(運用管理装置の詳細な動作)
次に、前記の各情報が格納された運用管理装置1000の各機能部の処理動作について説明する(適宜、図1ないし図10参照)。
図11は、障害監視部1021の処理を説明するフローチャートの例である。図11を参照して、障害監視部1021の処理を説明する。前記のように、障害監視部1021は、発生した障害の情報を障害情報テーブル1031へ格納し、障害の発生を関連する処理部へ通知する処理部である。
まず、情報処理システムで障害が発生すると障害監視部1021は、この障害が発生したリソースを監視するエージェント機能1411から、イベント4000(図4参照)を受信する(ステップ11000)。
次に、受信したイベントのイベントID4001、詳細情報4002、リソース名4003、IPアドレス4004、および状態4005をそれぞれ障害情報テーブル1031(図5参照)のイベントID5001、詳細情報5002、リソース名5003、IPアドレス5004、および状態5005に格納する(ステップ11010)。このとき、障害情報テーブル1031のイベント通し番号5000には、障害情報テーブル1031内で一意のイベント通し番号を設定する。
次に、ステップ11000で受信したイベント4000のIPアドレス4004と状態4005を、構成管理部1026へ送信し、リソースの状態変化を通知する(ステップ11020)。構成管理部1026は、システム構成テーブル1035(図10参照)におけるIPアドレス10002が、ステップ11020で送信されたIPアドレスと一致する行を選択し、この行の状態10007に、ステップ11020で送信された状態4005を設定する。
そして、ステップ11010で新しく設定したイベント通し番号を、ポリシ管理部1022へ送信し、障害の発生を通知する(ステップ11030)。
障害監視部1021の処理は、プログラムが起動するとループ状態になり、プログラム起動中は継続的に情報処理システムから障害の情報を受信する。プログラムが終了すると、障害監視部1021の処理は終了し(ステップ11040で‘Yes’)、終了しない場合は(ステップ11040‘No’)、ステップ11000に戻って、ループを繰り返す。
具体的には、「WebAPサーバA」に障害が発生した場合、障害監視部1021はエージェント機能1411から、図4に示した、イベントID「100」、詳細情報「サーバダウン」、リソース名「WebAPサーバA」、IPアドレス「192.168.1.3」、および状態「障害」が設定されたイベント4000を受信し、障害情報テーブル1031へ格納する(図5の1行目のデータ)。このとき、障害情報テーブル1031内で一意のイベント通し番号「001」を設定する。
そして、構成管理部1026へ、障害が発生したリソースのIPアドレス「192.168.1.3」と状態「障害」を送信し、構成管理部1026がシステム構成テーブル1035(図10参照)を更新する。さらに、ポリシ管理部1022へ、イベント通し番号「001」を送信し、障害の発生を通知する。
次に、図12は、ポリシ管理部1022の処理を説明するフローチャートの例である。図12を参照して、ポリシ管理部1022の処理を説明する。前記のように、ポリシ管理部1022は、障害監視部1021から障害発生の通知を受け、その障害に適用するポリシを決定する処理部である。
まず、ポリシ管理部1022は、障害監視部1021から、新たに発生した障害のイベント通し番号を受信する(ステップ12000)。
そして、障害情報テーブル1031(図5参照)におけるイベント通し番号5000が、ステップ12000で受信したイベント通し番号と一致する行を選択し、この行のイベントID5001とIPアドレス5004を取得する(ステップ12010)。
次に、ポリシ管理部1022は、システム構成テーブル1035(図10参照)におけるIPアドレス10002が、ステップ12010で取得したIPアドレスと一致する行を選択し、この行のリソース種別10003を取得する(ステップ12020)。
そして、ポリシ定義テーブル1032(図6参照)におけるイベントID6001およびリソース種別6002が、それぞれステップ12010で取得したイベントIDおよびステップ12020で取得したリソース種別と一致する行を選択し、この行のポリシ定義ID6000を取得する(ステップ12030)。
そして、ステップ12000で受信したイベント通し番号と、ステップ12030で取得したポリシ定義ID6000とを、ポリシ適用テーブル1033(図7参照)のイベント通し番号7001とポリシ定義ID7002とに設定して格納する(ステップ12040)処理を終了する。このとき、ポリシ適用テーブル1033のポリシ適用ID7000には、ポリシ適用テーブル1033内で一意のポリシ適用IDを設定する。
具体的には、図8に示す情報システムの接続関係において、「WebAPサーバA1500」(IPアドレス「192.168.11.3」)に障害が発生した場合、障害監視部1021から、イベント通し番号「001」を受信し、障害情報テーブル1031からイベントID「100」を取得する。そして、システム構成テーブル1035からリソース種別「WebAPサーバ」を取得する。
次に、ポリシ定義テーブル1032から、イベントIDが「100」、リソース種別が「WebAPサーバ」であるポリシのポリシ定義ID「002」を特定し、イベント通し番号「001」およびポリシ定義ID「002」をポリシ適用テーブル1033に格納する。このとき、ポリシ適用テーブル1033内で一意のポリシ適用ID「001」を設定する。
なお、ステップ12030において、イベントIDやリソース種別以外の項目を、ポリシを適用する際の条件とすることも可能である。
次に、図13は、ポリシ制御部1023の処理を説明するフローチャートの例である。図13を参照して、ポリシ制御部1023の処理を説明する。前記のように、ポリシ制御部1023は、優先度計算部1024で算出したリソースの優先度に基づいてポリシのインスタンスの優先度を設定し、情報処理システムで発生した障害にポリシを適用する処理部である。
まず、ポリシ制御部1023は、システム構成テーブル1035(図10参照)におけるすべての行のリソースグループ10005、業務番号10006および状態10007を記憶する(ステップ13000)。そして、ポリシ適用テーブル1033の各行に対して、ステップ13020からステップ13050の処理を繰り返す(ステップ13010)。
まず、処理対象の行に対して、この行のイベント通し番号7001を取得することで、ポリシ適用テーブル1033より、ポリシを適用する障害のイベント通し番号を特定する(ステップ13020)。そして、障害情報テーブル1031におけるイベント通し番号5000が、ステップ13020で取得したイベント通し番号と一致する行を選択し、この行のIPアドレス5004を取得する。これにより、障害情報テーブル1031から、障害が発生したリソースのIPアドレスを特定する(ステップ13030)。
次に、優先度計算部1024で、ステップ13030で取得したIPアドレスに基づき、リソースの優先度を算出する(ステップ13040)。なお、このリソースの優先度の算出手順については、図14を参照して後記する。
次に、ポリシ適用テーブル1033の現在処理対象の行に対して、この行の優先度7003に、ステップ13040で算出したリソースの優先度を設定する(ステップ13050)。ポリシ適用テーブル1033のすべての行において、優先度7003を設定するまでステップ13020からステップ13050を繰り返す(ステップ13060)。
次に、システム構成テーブル1035におけるすべての行のリソースグループ10005、業務番号10006および状態10007が、ステップ13000で記憶したリソースグループ、業務番号および状態と一致しているか確認し(ステップ13070)、一致していない場合(ステップ13070でNo)、ステップ13000へ戻りポリシのインスタンスの優先度を再度計算する。
ここで、ステップ13070において、システム構成テーブル1035におけるリソースグループ10005、業務番号10006または状態10007が変化した場合に、再度、ポリシのインスタンスの優先度をすべて計算することとしたが、変化によって影響のあるポリシのインスタンスの優先度のみを計算することもできる。つまり、システム構成テーブル1035におけるリソースグループ10005、業務番号10006または状態10007が変化した行を選択し、システム構成テーブル1035におけるリソースグループ10005が、選択した行のリソースグループ10005または変化する前のリソースグループ10005と一致する行を選択し、該行のIPアドレス10002で特定されるリソースに発生した障害に適用するポリシのインスタンスの優先度のみを計算することもできる。
一方、システム構成テーブル1035とステップ13000で記憶した情報とが一致している場合(ステップ13070でYes)、ポリシ適用部1025で優先度の高いポリシのインスタンスを適用する(ステップ13080)。
この、優先度の高いポリシのインスタンスを適用する手順については、図17を参照して後述する。
図13に示したポリシ制御部1023の処理は、プログラムが起動するとループ状態になり、プログラム起動中は継続的にポリシのインスタンスの優先度の計算と適用を繰り返す。プログラムが終了すると、ポリシ制御部1023の処理は終了する(ステップ13090)。
なお、本実施形態におけるポリシ制御部1023は、ステップ13080においてポリシ適用部1025を呼び出した直後、ステップ13090へ移り、プログラムを終了するか否かを判定し、終了しない場合は(ステップ13090で‘No’)、以降の処理を継続する。複数の障害が発生している場合は、ポリシ適用部1025の処理が複数並行して実行される。同時に実行できるポリシ適用部1025の処理の数は、制限を設けないこともできるし、1以上の制限を設けることもできる。
次に、図14は、優先度計算部1024の処理を説明するフローチャートの例である。図14を参照して、優先度計算部1024の処理を説明する。前記のように、優先度計算部1024は、ステップ13040(図13参照)で指定されたIPアドレスで特定されるリソースの優先度を計算する処理部である。
まず、優先度計算部1024は、リソースの優先度を表す変数αを0に初期化する(ステップ14000)。そして、システム構成テーブル1035(図10参照)におけるIPアドレス10002が、ステップ13040(図13参照)で指定されたIPアドレスと一致する行を選択し、この行の業務番号10006を取得することで、システム構成テーブル1035から、リソースを利用する業務を特定する(ステップ14010)。
次に、ステップ14010で取得した業務番号のいずれかを選択し、ステップ14010で取得したすべての業務番号について、ステップ14020ないしステップ14050の処理を繰り返す(ステップ14020)。
まず、ステップ13040で指定されたIPアドレス、およびステップ14020で選択した業務番号に基づいて、業務におけるリソースの優先度βを算出し(ステップ14030)、業務におけるリソースの優先度を表す変数βに算出した値を設定する。
なお、業務におけるリソースの優先度の算出手順については、図15を参照して後述する。また、ステップ14020において、業務番号を選択する際、主記憶装置1020に記憶されていない業務番号を選択し、選択した後、選択した業務番号を主記憶装置1020に記憶する。主記憶装置1020に記憶した業務番号は、本処理の終了時にすべて削除する。
次に、優先度計算部1024は、変数βの値を、変数αに加算する(ステップ14040)。ステップ14010で取得したすべての業務番号について、業務におけるリソースの優先度を算出した場合、優先度計算部1024の処理を終了する(ステップ14050)。ステップ14020からステップ14050において、リソースを利用する業務ごとに、この業務におけるリソースの優先度を、リソースの優先度に加算することによって、多くの業務が利用するリソースの優先度は高く計算される。
次に、図15は、図14で示したフローのステップ14030(図14参照)で呼び出される優先度計算部1024における処理を説明するフローチャートの例である。図15を参照して、業務におけるリソースの優先度の計算手順について説明する。
図15で示す処理において、優先度計算部1024は、ステップ14030で指定されたIPアドレスと業務番号に基づき、業務におけるリソースの優先度を計算する。
まず、優先度計算部1024は、業務におけるリソースの優先度を表す変数βを0に初期化する(ステップ15000)。そして、業務定義テーブル1034(図9参照)における業務番号9000が、ステップ14030で指定された業務番号と一致する行を選択し、この行の重要度9002を取得して、業務の重要度を表す変数γに設定する(ステップ15010)。
次に、ステップ14030で指定されたIPアドレスと業務番号に基づいて、リソースの冗長度を算出し、リソースの冗長度を表す変数σに算出した値を設定する(ステップ15020)。なお、リソースの冗長度を計算する手順については、図16を参照して後述する。
次に、変数γの値と、変数σの値を1から減算した値とを積算した値を、変数βに設定する(ステップ15030)。これにより、ステップ15010からステップ15030において、業務の重要度が高い場合、およびリソースの冗長度が低い場合に、業務におけるリソースの優先度が高く設定される。
次に、図16は、図15で示したフローのステップ15020(図15参照)で呼び出される優先度計算部1024における処理を説明するフローチャートの例である。図15を参照して、業務におけるリソースの優先度の計算手順について説明する。
図16で示す処理において、優先度計算部1024は、ステップ15020で対象としたIPアドレスと業務番号に基づき、リソースを利用する業務ごとに、リソースの冗長度を算出する。本実施形態において、リソースの冗長度には、同一機能を有するリソースのうち、ステップ15020で指定されたIPアドレスで特定されるリソース以外で正常な状態にあるリソースが占める割合が設定される。したがって、冗長度を1から減算した値は、同一機能を有するリソースのうち、ステップ15020で指定されたIPアドレスで特定されるリソースおよび障害状態にあるリソースが占める割合となる。冗長度が低い場合、前記リソースの障害によってシステムが停止する可能性が高くなるとともに、システムの処理能力低下の可能性があるため、本実施形態では、業務に及ぼす影響の大きさを判断する値(影響度)として、冗長度を1から減算した値を利用する。
まず、優先度計算部1024は、リソースの冗長度を表す変数σを0に初期化する(ステップ16000)。そして、システム構成テーブル1035(図10参照)におけるIPアドレス10002が、ステップ15020で指定されたIPアドレスと一致する行、すなわち、障害が発生したリソースの行を選択し、この行のリソースグループ10005を取得する。これにより、障害が発生したリソースのリソースグループを特定する(ステップ16010)。
次に、優先度計算部1024は、システム構成テーブル1035におけるリソースグループ10005が、ステップ16010で取得したリソースグループと一致するすべての行を選択する。これにより、同一のリソースグループに属するリソースを特定する(ステップ16020)。
次に、ステップ16020で選択した各行における業務番号10006が、ステップ15020で指定された業務番号を含むすべての行を選択する。これにより、同一の業務が利用するリソースを特定する(ステップ16030)。ステップ16010〜16030により、ステップ15020で指定されたIPアドレスにより特定されるリソースと同一機能を有し、同一の業務が利用するリソースが特定される。
次に、ステップ16030で選択した行の総数を取得し、取得した行の総数すなわち、全リソースの数を変数nに代入する。(ステップ16040)。
そして、障害状態にないリソースの数を表す変数mを0で初期化し(ステップ16050)、ステップ16030で選択した各行に対して、ステップ16070からステップ16090を繰り返す(ステップ16060)。
まず、優先度計算部1024は、現在処理対象の行に対して、この行のIPアドレス10002がステップ15020で指定されたIPアドレスと一致するか否かを確認し、指定されたリソースであるか否かを判定する(ステップ16070)。指定されたリソースである場合(ステップ16070でYes)、ステップ16100へ移る。一方、指定されたリソースではない場合(ステップ16070でNo)、この行の状態10007が「障害」と一致するか確認して、対象リソースが障害状態であるか否かを判定する(ステップ16080)。障害状態である場合(ステップ16080でYes)、ステップ16100へ移る。一方、障害状態ではない場合(ステップ16080でNo)、変数mに1を加算する(ステップ16090)。ステップ16030で選択したすべての行に対してステップ16070からステップ16090を繰り返した場合、ステップ16110へ移る(ステップ16100)。
そして、変数mを、変数nで除算した値を、変数σに代入する(ステップ16110)。これにより、ステップ16000からステップ16110において、障害状態にあるリソースが多い場合、および同一機能を有するリソースが少ない場合に、リソースの冗長度は低く計算される。
以下、情報処理システムが、図8に示す接続関係を有する場合において、「WebAPサーバA」(IPアドレス「192.168.1.3」)に障害が発生したときを例に、ポリシのインスタンスの優先度の算出方法について説明する。
「WebAPサーバA」に障害が発生した場合、システム構成テーブル1035(図10参照)より、リソース名10001「WebAPサーバA」を利用する業務の業務番号10006「1」を特定する。業務定義テーブル1034(図9参照)から、業務番号9000「1」の業務「業務A」の重要度9002は、「90」である。
システム構成テーブル1035から、「WebAPサーバA」のリソースグループ10005は「2」であるので、同一機能を有し、同一業務が利用するリソースは、「WebAPサーバA」、「WebAPサーバB」および「WebAPサーバC」である。したがって、同一機能を有するリソースの総数は「3」となる。「WebAPサーバA」の状態10007は「障害」であるから、障害状態にないリソースは、「WebAPサーバB」および「WebAPサーバC」であり、その数は「2」である。
したがって、図16で示した処理によって算出される、「WebAPサーバA」の冗長度は「2/3」であり、図15で示した処理によって算出される、「業務A」における「WebAPサーバA」の優先度は「90×(1−2/3)」から、「30」となる。「WebAPサーバA」を利用する業務は、業務番号「1」の業務「業務A」のみであるから、ポリシ適用テーブル1033(図7参照)のポリシのインスタンスの優先度7003は「30」となる。
なお、「WebAPサーバD」(IPアドレス「192.168.1.10」)に適用するポリシのインスタンス優先度は、次の通り算出される。「WebAPサーバD」を利用する業務は業務番号「2」の「業務B」のみであり、その重要度は「80」である。「WebAPサーバD」と同一機能を有するリソースで、業務番号「2」の業務が利用するリソースは、「WebAPサーバD」、「WebAPサーバE」であり、そのうち障害状態にないリソースは、「WebAPサーバE」であるから、冗長度は「1/2」となる。したがって、業務の優先度は、「80×(1−1/2)」から「40」であり、ポリシ適用テーブル1033のポリシのインスタンスの優先度7003は「40」となる。
業務定義テーブル1034に格納された業務番号「2」の業務の方が、業務番号「1」の業務よりも重要度は低いが、システム構成および状態から算出されるリソースの冗長度が「WebAPサーバD」の方が小さく、業務に及ぼす影響が大きいため、ポリシ適用テーブル1033に格納されるポリシのインスタンスの優先度は高く計算される。
(リソースの優先度の計算方法の変更例)
リソースの優先度の計算方法は、前記の図14から図16に示した手順に限定することなく、様々に変更可能である。以下、リソースの優先度の計算方法の変更例について説明する。
まず、リソースの優先度をRs、業務の重要度をGs、リソースの冗長度をRrとする。図16のフローチャートで示した通り、(1−Rr)は同一機能を有するリソースのうち、優先度の算出対象のリソースまたは障害状態にあるリソースが占める割合である。そこで、本実施形態では、業務に及ぼす影響の大きさを判断する値(影響度)として、(1−Rr)を利用する。図15に示したフローチャートのステップ15030におけるリソースの優先度Rsは、次の数式1で表現できる。
Rs=Gs×(1−Rr) ・・・(1)
ただし、このリソースを利用する業務が複数ある場合は、すべての業務における上記の値を積算したものとなる。
ここで、数式1によってリソースの優先度Rsが算出される場合、業務の重要度Gsの差が小さい業務がそれぞれ利用するリソースの優先度Rsは、リソースの冗長度Rrに大きく依存することとなる。従って、業務の重要度Gsをより重視する場合、リソースの冗長度Rrがリソースの優先度Rsに影響する度合いを小さくできることが望ましい。その場合、リソースの優先度Rsを算出する式としては、例えば、次の数式2を用いることができる。
Rs=Gs×(1+α(1−Rr)) ・・・(2)
ただし、α>0
パラメータαを操作することにより、重要度Gsまたは冗長度Rrがそれぞれリソースの優先度Rsに影響する度合いを調整することができる。
また、業務の重要度Gsが低い場合においても、決してシステムを停止することができない場合、冗長度Rrの低い箇所においてリソースの優先度Rsがより大きくなるようにできることが望ましい。その場合、リソースの優先度Rsを算出する式としては、例えば、次の数式3を用いることができる。
Rs=Gs×(1−Rr)^n ・・・(3)
ただし、1≦n
また、リソースの冗長度Rrについても、前記の方法によってのみ算出されるものではない。例えば、RAID5やRAID6などは、ディスクが冗長化されているため、それぞれ1台または2台の障害までは許容できるが、それ以上の数のディスクに障害が発生した場合、機能が停止してしまう。従って、同一機能を有するリソースの数がある値を下回ると機能が停止しまうような場合、ここリソースの数がその値に近いならば、リソースの冗長度を低く設定することが望ましい。
ここで、業務に対して同一機能を有するリソースの総数をRna、そのうち優先度の算出対象のリソース以外で正常な状態にあるリソースの数をRns、機能を停止させないために最低限必要なリソースの数をRminとすると、機能を停止させずに変動可能なリソースの数は、Rna−Rminである。同一機能を有するリソースの数が、機能を停止させないために最低限必要なリソースの数に近い場合に、リソースの冗長度を低く設定する計算式としては、例えば、次の数式4を用いることができる。
Rr=(Rns−Rmin+1)/(Rna−Rmin+1) ・・・(4)
ただし、Rns≧Rmin
Rr=0
ただし、Rns<Rmin
数式4において、リソースの数Rnsが最低限必要なリソースの数Rminを下回った場合は、リソースの冗長度Rrが0となり、リソースの優先度Rsは高く設定される。
また、前記の方法では、リソースの数および状態のみを利用してリソースの冗長度を算出したが、各々のリソースの違いを考慮する場合、各々のリソースの情報を利用してリソースの冗長度を算出できることが望ましい。ここで、正常に稼動するリソースのうちの1台に障害が発生する確率をpとする。pは、各リソースの故障率などから算出することが可能である。リソースの故障率を利用し、さらに1台に障害が発生した場合における業務の影響を考慮してリソースの冗長度Rrを設定する計算式としては、例えば、次の数式5を用いることができる。
Rr=(1−p)×Rns/Rna+p×(Rns−1)/Rna ・・・(5)
数式5において、リソースごとに故障率は異なるため、pの値はそれぞれのリソースの特性を反映した値が算出される。
以上のように、時々刻々変化するシステム構成情報から、業務が利用するリソースの構成情報を取得してリソースの優先度を動的に算出する方法であれば、他の方法により算出してもよい。
次に、図17は、ポリシ適用部1025における処理を説明するフローチャートの例である。図17を参照して、ポリシ適用部1025の処理を説明する。前記のように、ポリシ適用部1025は、優先度の高いポリシのインスタンスを選択し、情報処理システムに適用する処理部である。
まず、ポリシ適用部1025は、ポリシ適用テーブル1033の適用状態7004が「未適用」である行のうち、優先度7003の値が最も高い行(ポリシ)を特定し(ステップ17000)、この行(ポリシ)の適用状態7004を「適用中」に更新する(ステップ17010)。
次に、ポリシ定義テーブル1032(図6参照)におけるポリシ定義ID6000が、ステップ17000で選択した行のポリシ定義ID7002と一致する行を選択し、この行のアクション6003より特定されるコマンドやスクリプトを実行することで、ポリシに定義されたアクションを実行する(ステップ17020)。
そして、コマンドやスクリプトの実行後、ポリシ適用テーブル1033において、ステップ17000で選択した行(ポリシ)を削除する(ステップ17030)。
そして、ポリシ適用部1025は、ステップ17000で選択した行のイベント通し番号7001を、障害監視部1021へ送信し、障害の対処の完了を通知する(ステップ17040)。すると、障害監視部1021は、障害情報テーブル1031におけるイベント通し番号5000が、受信したイベント通し番号と一致する行を削除する。さらに、障害情報テーブル1031のIPアドレス5004が、該行のIPアドレス5004と一致し、かつ状態5005が「障害」と一致する行が存在しない場合、構成管理部1026に該IPアドレスを通知する。構成管理部1026は、システム構成テーブル1035におけるIPアドレス10002が、通知されたIPアドレスと一致する行を選択し、この行の状態10007を未設定に戻す。
具体的には、図7に示したポリシ適用テーブル1033おいて、適用状態7004が「未適用」であり、最も優先度7003の高いポリシは、ポリシ適用ID7000「002」のポリシであり、ポリシ定義ID7002は「001」である。したがって、ポリシ適用部1025は、ポリシ定義テーブル1032(図6参照)を参照して、ポリシ定義ID6000「001」のポリシに定義されたアクション6003「D:\script\scriptA」で特定されるコマンドやスクリプトを実行する。そして、コマンドやスクリプトの実行後、ポリシ適用テーブル1033におけるポリシ適用ID7000が「002」と一致する行を削除する。
次に、ポリシ適用部1025は、イベント通し番号「002」を障害監視部1021へ送信し、障害監視部1021は、障害情報テーブル1031におけるイベント通し番号5000が「002」と一致する行を削除する。障害情報テーブル1031のIPアドレス5004が「192.168.1.10」と一致し、かつ状態5005が「障害」と一致する行が存在しない場合、障害監視部1021は、構成管理部1026にIPアドレス「192.168.1.10」を送信し、構成管理部1026が、システム構成テーブル1035におけるIPアドレス10002が「192.168.1.10」と一致する行の状態10007を未設定にする。
次に、図18は、運用管理装置1000の表示装置1070(図2参照)に表示されるポリシインスタンス一覧画面を示す図面である。図18に示したポリシインスタンス一覧画面1071は、ポリシ適用ID、適用状態、優先度など、情報処理システムで発生した障害に対して適用するポリシのインスタンスの各種情報を含む。ポリシインスタンス一覧画面1071には、それぞれポリシのインスタンスの優先度が表示されているため、運用管理者が、どの障害を優先して復旧しているかを確認することができる。さらに、優先度に応じて画面に表示する色を変更することにより、重大な障害が発生したことを、運用管理者が一目で把握できるように支援することが可能である。画面に表示する色以外でも、優先度に応じて画面への表示方法を変更してもよい。
また、図19は、表示装置1070に表示される業務システム画面を示す図面である。図19に示した業務システム画面1072は、図8で示した情報処理システムの論理的な接続関係を業務ごとに表示すると共に、情報処理システムを構成するリソースの一覧を表示する画面である。
業務システム画面1072において、システム構成表示エリア1073は、各業務のシステム構成を表示する領域である。システム構成表示エリア1073では、障害が発生しているリソースを明示すると共に、リソースの優先度に応じて表示する色などを変更することにより、重大な障害が発生したことを、運用管理者が一目で把握できるように支援することが可能である。
また、リソース一覧エリア1074は、すべてのリソースの情報を表示するための領域である。リソース一覧エリア1074においても、システム構成表示エリア1073と同様に、優先度に応じて画面への表示方法を変更することにより、運用管理者が、全ての業務において最も及ぼす影響の大きいリソースを特定できるように支援することが可能である。
図18および図19に例示した表示画面は、運用管理装置1000のディスク装置1030に格納された各情報に基づいて、表示処理部1027が作成する。作成された表示画面は、表示処理部1027が、ディスプレイインタフェース1060を介して、表示装置1070に出力する。
以上、説明した本実施形態の運用管理装置によると、情報処理システムに発生した障害の復旧処理の優先順位を、障害が発生したリソースの優先度に基づいて決定することができるので、サービスに及ぼす影響の大きい障害を優先して復旧することができる。
(第2実施形態)
前記の第1実施形態は、複数の障害が発生した場合に、障害が発生したリソースの優先度に基づいて算出した復旧処理の優先度を比較することにより、優先度の高い復旧処理を先に実行する例である。
一方、第2実施形態では、本発明を単一の障害に適用した例であり、情報処理システムを構成するすべてのリソースの優先度を算出し、優先度の高いリソースに障害が発生した場合に、このリソースの優先度よりも、優先度の低いリソースの業務への割り当てを解除し、優先度の高いリソースの代替リソースとして利用する。
したがって、余剰リソースが存在しない場合であっても、業務に重大な影響を及ぼす障害を遅延なく復旧することが可能となる。
なお、以下の説明において、第1実施形態と同様の構成については、同じ参照符号を付してその詳細な説明は省略する。
(運用管理装置の構成)
図20は、本実施形態に係る運用管理装置1000の構成を示す図である。
ディスク装置1030は、図2に示した第1実施形態の運用管理装置1000と同様に、障害情報テーブル1031と、ポリシ定義テーブル1032と、ポリシ適用テーブル1033と、業務定義テーブル1034と、システム構成テーブル1035と、対処スクリプト1036とを有する。本実施形態の運用管理装置1000は、さらに、リソース管理テーブル1037と、再割当定義テーブル1038と、再割当スクリプト1039とを有する。
リソース管理テーブル1037は、情報処理システムを構成するリソースの名称や種別、業務への割り当て状態を格納するためのテーブルである。
再割当定義テーブル1038は、リソースの業務への割り当てを解除する際の制約や、割り当てを解除する際の処理に関する情報を格納するためのテーブルである。
再割当スクリプト1039は、リソースを再割り当てする際に、業務に割り当てられたリソースの割り当てを解除するために実行する処理を記述したプログラムである。再割当スクリプト1039は、バッチファイルなど、リソースの業務への割り当てを解除する処理が実行できるものであればよい。図20に示した運用管理装置1000では、再割当スクリプト1039を1つ備える構成を例示したが、再割当スクリプトを2つ以上備える構成とすることもできる。
主記憶装置1020には、図2に示した第1実施形態の運用管理装置1000と同様に障害監視部1021、ポリシ管理部1022、ポリシ制御部1023、構成管理部1026、および表示処理部1027を有する。本実施形態の運用管理装置1000は、さらにリソース管理部1028を有している。
また、ポリシ制御部1023は、第1実施形態の運用管理装置1000と同様に優先度計算部1024とポリシ適用部1025からなる。
本実施形態のポリシ制御部1023は、システム構成テーブル1035に格納されるすべてのリソースの優先度を、優先度計算部1024で算出し、算出したリソースの優先度に基づき、ポリシ適用テーブル1033に格納されるポリシのインスタンスの優先度を算出し、ポリシ適用部1025で優先度の最も高いポリシのインスタンスを適用する。障害が発生したリソースの優先度から、ポリシのインスタンスの優先度のみを算出する第1実施形態とは異なり、本実施形態にかかるポリシ制御部1023は、すべてのリソースの優先度を算出する。
リソース管理部1028は、情報処理システムを構成するリソースを管理する処理部であり、リソースの業務への割り当てなどを行なう。リソース管理部1028は、十分な余剰リソースが存在しない場合、優先度の低いリソースの業務への割り当てを解除し、優先度の高いポリシのインスタンスが使用するリソースを確保する。
(運用管理装置の動作概要)
次に、図21は、本実施形態に係る運用管理装置1000の動作の概要を説明する説明図である。運用管理装置1000が、優先度の低いリソースの業務への割り当てを解除し、優先度の高いポリシが使用するリソースを確保するまでの流れを、図21を用いて説明する。
ここで、情報処理システムからイベント4000を受信してから、ポリシ管理部1022が適用するポリシのインスタンスをポリシ適用テーブル1033に格納するまでの流れ(ステップs1〜ステップs9)は、図3に示した第1実施形態における処理と同様であるため、その説明を省略する。
次に、ポリシ制御部1023は、ポリシ適用テーブル1033へのポリシのインスタンスの格納を契機に、優先度計算部1024で、業務定義テーブル1034およびシステム構成テーブル1035を参照し(ステップs10)、システム構成テーブル1035に格納されるすべてのリソースの優先度を算出する(ステップs11、ステップs12)。
そして、ポリシ制御部1023は、障害情報テーブル1031およびポリシ適用テーブル1033より、ポリシのインスタンスを適用するリソースを特定し(ステップs13)、システム構成テーブル1035から取得したリソースの優先度を、このポリシのインスタンスの優先度として設定する(ステップs14)。
次に、ポリシ適用部1025は、代替リソースをリソース管理部1028に対して要求する処理が、ポリシのアクションに定義された場合において、このポリシのインスタンスを適用することにより、リソース管理部1028から代替リソースを確保する(ステップs15)。このとき、十分な余剰リソースが存在しない場合、リソース管理部1028は、システム構成テーブル1035より優先度の低いリソースを特定し(ステップs16)、リソース管理テーブル1037および再割当定義テーブル1038を参照して、このリソースの業務への割り当てを解除することが可能であるか確認する(ステップs17)。
次に、リソース管理部1028は、このリソースの業務への割り当てを解除し(ステップs18)、リソース管理テーブル1037を更新する(ステップs19)。そして、ポリシ適用部1025は、確保したリソースを利用してポリシのインスタンスを適用する(ステップs20)。
そして、ポリシのインスタンスの適用後、ポリシ適用部1025は、障害への対処の完了を障害監視部1021へ通知し、障害監視部1021が、構成管理部1026で障害が発生したリソースの状態を元に戻す(ステップs21)。
(ディスク装置に格納された情報)
以下、運用管理装置1000のディスク装置1030に格納された各テーブルに含まれる情報について、第1実施形態と異なる部分について説明する。
図22は、ディスク装置1030に格納されたシステム構成テーブル1035に含まれる情報を表すテーブルである。
図22に示すように、システム構成テーブル1035は、図10に示した第1実施形態のシステム構成テーブル1035と同様に、リソース番号10000、リソース名10001、IPアドレス10002、リソース種別10003、接続リソース10004、リソースグループ10005、業務番号10006および状態10007を含む。さらに、本実施形態のシステム構成テーブル1035は優先度10008を含んでいる。
優先度10008は、情報処理システムを構成するリソースの重要性を示す情報であり、優先度計算部1024で算出されたリソースの優先度が設定される。
図23は、ディスク装置1030に格納されたリソース管理テーブル1037に含まれる情報を表すテーブルである。
リソース管理テーブル1037は、情報処理システムを構成するリソースの名称や種別、業務への割り当て状態を格納するためのテーブルである。リソース管理テーブル1037には、業務に割り当てられていないリソースの情報も格納される。
図23に示すように、リソース管理テーブル1037は、リソース名23000、IPアドレス23001、種別23002、および割当状態23003からなり、情報処理システムを構成するリソースごとにリソース名23000、IPアドレス23001、種別23002、および割当状態23003が格納される。
リソース名23000は、情報処理システムを構成するリソースの名称を示す文字列が設定される。本実施形態では、例えば「WebAPサーバA」が設定される。業務に割り当てられていないリソースは、リソース名23000が設定されていなくてもよい。業務に割り当てられていないリソースのリソース名23000は、ポリシに定義されたアクションによって、このリソースが業務に割り当てられる際に設定される。
IPアドレス23001は、情報処理システムにおいてリソースを一意に識別し、このリソースと通信する際に相手先を特定するための値が設定される。本実施形態では、リソースのIPアドレスが設定される。
種別23002は、ロードバランサやサーバなどリソースの分類を示す文字列や数値が設定される。システム構成テーブル1035のリソース種別10003に設定された「WebAPサーバ」や「DBサーバ」などのように、業務におけるリソースの役割に応じて分類することもできるし、本実施形態における「サーバ」のように、より抽象的な分類とすることもできるし、ハードウェアレベルの分類とすることもできる。
割当状態23003は、リソースが業務に割り当てられているか否かを示す文字列や数値が設定される。本実施形態では、「割当済」または「未割当」が設定される。「割当済」であるリソースは、既に業務に割り当てられていることを表す。「未割当」であるリソースは、業務に割り当てられておらず、代替リソースとして利用することが可能であることを表す。
図24は、ディスク装置1030に格納された再割当定義テーブル1038に含まれる情報を表すテーブルである。
再割当定義テーブル1038は、リソースの業務への割り当てを解除する際の制約や、割り当てを解除する際の処理に関する情報を格納するためのテーブルである。
図24に示すように、再割当定義テーブル1038は、業務番号24000、リソース種別24001、最小構成24002、再割当可否24003および再割当処理24004からなり、業務におけるリソースの分類ごとに、業務番号24000、リソース種別24001、最小構成24002、再割当可否24003および再割当処理24004が格納される。
業務番号24000は、情報処理システムで実行される業務を一意に識別するための番号であり、業務定義テーブル1034の業務番号9000のうち、該当する業務番号が設定される。
リソース種別24001は、リソースの分類を表し、システム構成テーブル1035のリソース種別10003のうち、該当するリソース種別が設定される。
最小構成24002は、同一機能を有するリソースの最小構成を表し、同一機能を有するリソースの数の最小値が設定される。業務に割り当てられているリソースのうち、同一機能を有するリソースで障害状態にないリソースの数が、最小構成24002に設定される値に達していない場合は、業務への割り当てを解除することはできない。最小構成24002は、ユーザが業務要件などから設定するものとする。最小構成24002は、同一機能を有するリソースの数以外にも、同一機能を有するリソースの処理能力などにすることもできる。
再割当可否24003は、リソースを再割当することが可能であるか否かを示す文字列や数値が設定される。本実施形態では、「可」または「不可」が設定される。「可」の場合、リソースを再割当することが可能である。「不可」の場合、リソースを再割当することができない。
再割当処理24004は、リソースを再割当する際に、このリソースの業務への割り当てを解除するために実行するコマンドやスクリプトなどを特定するための情報が設定される。本実施形態では、オペレーティングシステムが基本的な機能として提供するコマンドやスクリプト、運用管理装置1000のディスク装置1030に格納された再割当スクリプト1039を特定するためのパスが格納される。
図24に示した再割当定義テーブル1038において、再割当処理24004の「D:\script\WebAP\scriptA」で特定されるプログラムは、リソース種別が「WebAPサーバ」であるリソースの業務への割り当てを解除するための処理が記述されたコマンドやスクリプトなどである。このプログラムには、例えば、ロードバランサA1400の設定情報において、クライアント1200からの処理要求の振り分け先として指定されているWebAPサーバA1500を削除し、WebAPサーバA1500のWebAPサーバ制御機能1510を利用して、業務プログラム1511を停止するための処理が記述される。
図25は、本実施形態に係るポリシ制御部1023の処理を説明するフローチャートの例である。図25を参照して、ポリシ制御部1023の処理を説明する。
まず、ポリシ制御部1023は、システム構成テーブル1035におけるすべての行のリソースグループ10005、業務番号10006および状態10007、つまりリソースの情報を記憶する(ステップ25000)。
そして、システム構成テーブル1035の各行に対して、ステップ25020からステップ25030を繰り返す(ステップ25010)。
まず、ポリシ制御部1023は、現在処理対象の行に対して、この行のIPアドレス10002を取得し、優先度計算部1024でリソースの優先度を算出する(ステップ25020)。優先度計算部1024では、ステップ25020で取得したIPアドレスに基づいて、リソースの優先度を算出する。なお、このリソースの優先度の計算手順については、図14を用いて説明した第1実施形態の手順と同様である。
そして、システム構成テーブル1035(図22参照)の現在処理対象の行に対して、この行の優先度10008に、ステップ13040で算出したリソースの優先度を設定する(ステップ25030)。システム構成テーブル1035のすべての行において、優先度10008を設定するまでステップ25020からステップ25030を繰り返す(ステップ25040)。
次に、ポリシ制御部1023は、ポリシ適用テーブル1033のすべての行において、優先度7003を設定する(ステップ25050)。なお、ポリシ適用テーブル1033に優先度を設定する手順については、図26を参照して後記する。
そして、システム構成テーブル1035におけるすべての行のリソースグループ10005、業務番号10006および状態10007が、ステップ25000で記憶したリソースグループ、業務番号および状態と一致しているか否かを判定し(ステップ25060)、一致していない場合(ステップ25060でNo)、ステップ25000へ戻りシステム構成テーブル1035の優先度10008を再度計算する。一致している場合(ステップ25060でYes)、ポリシ適用部1025で優先度の高いポリシのインスタンスを適用する(ステップ25070)。
この、優先度の高いポリシのインスタンスを適用する手順については、図17を用いて説明した第1実施形態の手順と同様である。
ポリシ制御部1023の処理は、プログラムが起動するとループ状態になり、プログラム起動中は継続的にリソースおよびポリシのインスタンスの優先度の計算と、ポリシのインスタンスの適用を繰り返す。プログラムが終了すると、ポリシ制御部1023の処理は終了するか否かを判定し(ステップ25080)、終了しない場合は(ステップ25080で‘No’)、ステップ25000からの処理を繰り返す。
図26は、図25で示したフローチャートのステップ25050で呼び出される処理を説明するフローチャートの例である。図26に示すフローチャートでは、ポリシ適用テーブル1033(図7参照)のすべての行の優先度7003を設定する。
そのために、ポリシ適用テーブル1033(図7参照)の各行に対して、ステップ26010からステップ26030を繰り返す(ステップ26000)。
まず、障害情報テーブル1031におけるイベント通し番号5000が、現在処理対象の行のイベント通し番号7001に一致する行を選択し、この行のIPアドレス5004を取得する。これにより、障害が発生したリソースを特定する(ステップ26010)。
次に、システム構成テーブル1035におけるIPアドレス10002が、ステップ26010で取得したIPアドレスと一致する行(リソース)を選択し、この行(リソース)の優先度10008を取得する(ステップ26020)。
そして、ポリシ適用テーブル1033の現在処理対象の行に対して、この行の優先度7003に、ステップ26020で取得したリソースの優先度を設定する(ステップ26030)。ポリシ適用テーブル1033のすべての行において、優先度7003を設定するまでステップ26010からステップ26030を繰り返す(ステップ26040)。
次に、図27は、リソース管理部1028の処理を説明するフローチャートの例である。図27を参照して、リソース管理部1028の処理を説明する。前記のように、リソース管理部1028は、指定されたリソースの代替リソースを確保する処理部であり、障害が発生したリソースの代替リソースをリソース管理部1028に対して要求する処理が、ポリシのアクションに定義された場合において、このポリシをポリシ適用部1025が適用することにより呼び出される。
まず、リソース管理部1028は、ポリシ適用部1025から障害が発生したリソースのIPアドレスを取得する(ステップ27000)。
そして、リソース管理テーブル1037(図23参照)におけるIPアドレス23001が、ステップ27000で取得したIPアドレスと一致する行を選択し、この行の種別23002を取得する。これにより、障害が発生したリソースの種別を特定する(ステップ27010)。
次に、リソース管理部1028は、リソース管理テーブル1037における種別23002が、ステップ27001で取得した種別と一致する行をすべて選択することで、同一の種類のリソースを特定する(ステップ27020)。
そして、ステップ27020で選択した行のうち、割当状態23003が「未割当」である行が存在するか否かを確認し(ステップ27030)、「未割当」の行が存在する場合(ステップ27030でYes)、ステップ27120へ移る。一方、「未割当」の行が存在しない場合(ステップ27030でNo)、ステップ27040へ移る。
次に、リソース管理部1028は、システム構成テーブル1035(図22参照)におけるIPアドレス10002が、ステップ27000で取得したIPアドレスと一致する行を選択し、この行の優先度10008を取得する。これにより、障害が発生したリソースの優先度を取得する(ステップ27040)。
そして、システム構成テーブル1035におけるIPアドレス10002が、主記憶装置1020に記憶されておらず、かつIPアドレス10002がステップ27020で選択した行のいずれかの行のIPアドレス23001と一致し、かつ状態10007が「障害」ではなく、優先度10008がステップ27040で取得した優先度よりも低い行のうち、優先度10008が最も低い行を選択し、この行のIPアドレス10002とリソース種別10003と業務番号10006を取得する(ステップ27050)。
ステップ27050において、リソース管理部1028は、IPアドレス10002を取得した後、取得したIPアドレスを主記憶装置1020に記憶する。主記憶装置1020に記憶されたIPアドレスは、本処理の終了時にすべて削除する。さらに、ステップ27050において取得した業務番号10006は、主記憶装置1020に記憶する。
次に、リソース管理部1028は、主記憶装置1020に記憶されたすべての業務番号について、ステップ27060ないしステップ27100の処理を繰り返す(ステップ27060)。そのため、記憶された業務番号のいずれかを取得し、取得した後、この業務番号を主記憶装置1020から削除する。
そして、再割当定義テーブル1038(図24参照)における業務番号24000が、ステップ27060から取得した業務番号と一致し、かつリソース種別24001が、ステップ27050で取得したリソース種別と一致する行を選択する。これにより、ステップ27050で特定したリソースの再割当定義を特定する(ステップ27070)。
次に、リソース管理部1028は、ステップ27070で選択した行の再割当可否24003が「可」であるか確認する(ステップ27080)。「可」でない場合(ステップ27080でNo)、ステップ27050へ戻る。「可」である場合(ステップ27080でYes)、システム構成テーブル1035におけるリソースグループ10005が、ステップ27050で選択した行のリソースグループ10005と一致し、かつ業務番号10006が、ステップ27060で選択した業務番号を含み、かつ状態10007が「障害」ではない行の総数を算出し、算出した値が、再割当定義テーブル1038における最小構成24002の値より大きいか否かを確認する。これにより、リソースの組み合わせが最小構成を満たすか否かを判定する(ステップ27090)。
ステップ27090において、最小構成24002の値以下である場合(ステップ27090でNo)、ステップ27050へ戻る。最小構成24002の値より大きい場合(ステップ27090でYes)、ステップ27070で選択した行の再割当処理24004を主記憶装置1020に記憶し、ステップ27110へ移る。そして、主記憶装置1020に記憶されたすべての業務番号について、ステップ27060からステップ27090の処理を繰り返す(ステップ27100)。
次に、リソース管理部1028は、主記憶装置1020に記憶された再割当処理24004により特定されるコマンドやスクリプト、または再割当スクリプト1039を実行することにより(ステップ27110)、ステップ27050で取得したIPアドレスで特定されるリソースの業務への割り当てを解除する。そして、主記憶装置1020に格納された再割当処理24004を削除する。ステップ27050で取得した業務番号が複数である場合、主記憶装置1020に記憶された再割当処理24004より特定されるコマンドやスクリプト、または再割当スクリプト1039をすべて実行する。
ステップ27110において、再割当処理24004により特定されるコマンドやスクリプト、または再割当スクリプト1039が実行されると、リソース管理部1028は、このリソースの割り当て解除を通知される。リソース管理部1028は、リソース管理テーブル1037(図23参照)におけるIPアドレス23001が、再割当処理24004により特定されるコマンドやスクリプト、または再割当スクリプト1039から通知されたIPアドレスと一致する行を選択し、この行のリソース名23000を未設定にし、割当状態23003を「未割当」に設定する。さらに、リソース管理部1028は、このリソースの割り当て解除を構成管理部1026へ通知する。構成管理部1026は、システム構成テーブル1035におけるIPアドレス10002が、通知されたIPアドレスと一致する行を削除し、この行のリソース番号を、システム構成テーブル1035におけるすべての接続リソース10004から削除する。
次に、リソース管理部1028は、リソース管理テーブル1037(図23参照)における種別23002が、ステップ27010で取得したリソース種別と一致し、かつ割当状態23003が「未割当」である行の割当状態23003を「割当済」に設定し、この行のIPアドレス23001を、ポリシ適用部1025に返す(ステップ27120)。そして、ポリシ適用部1025は、ステップ27120で取得したIPアドレスにより特定されるリソースを利用して、ポリシに定義されたアクションの実行を継続する。
本実施の形態は、単一の障害が発生した場合に、優先度の低いリソースの業務への割り当てを解除し、この障害の復旧処理に利用するものであるが、単一の障害が発生した場合の本発明の適用例として、ポリシのインスタンスの優先度にしきい値を設けることによって、このしきい値を超過した場合のみポリシのインスタンスを適用することにより、優先度が低い、すなわち障害が業務に及ぼす影響が小さい場合は、通常業務を優先させることも可能である。
以上、説明した本実施形態の運用管理装置によると、優先度の高いリソースに障害が発生した場合に、優先度の低いリソースを代替として利用することができるので、余剰リソースが存在しない場合であっても、サービスに及ぼす影響の大きい障害を遅延なく復旧でき、リソースを有効活用できる。
第1実施形態に係る運用管理装置が適用された情報処理システムの全体構成を示す図面である。 運用管理装置の構成を示す図面である。 運用管理装置の動作の概要を説明する説明図である。 障害監視部が情報処理システムから受信するイベントに含まれる情報を表すテーブルである。 障害情報テーブルに含まれる情報を表すテーブルである。 ポリシ定義テーブルに含まれる情報を表すテーブルである。 ポリシ適用テーブルに含まれる情報を表すテーブルである。 情報処理システムの業務実行時における論理的な接続関係の例を説明する図面である。 業務定義テーブルに含まれる情報を表すテーブルである。 システム構成テーブルに含まれる情報を表すテーブルである。 障害監視部の処理を説明するフローチャートである。 ポリシ管理部の処理を説明するフローチャートである。 ポリシ制御部の処理を説明するフローチャートである。 優先度計算部の処理を説明するフローチャートである。 優先度計算部における処理を説明するフローチャートである。 優先度計算部における処理を説明するフローチャートである。 ポリシ適用部における処理を説明するフローチャートである。 ポリシインスタンス一覧画面を示す図面である 業務システム画面を示す図面である。 第2実施形態に係る運用管理装置の構成を示す図である。 運用管理装置の動作の概要を説明する説明図である。 システム構成テーブルに含まれる情報を表すテーブルである。 リソース管理テーブルに含まれる情報を表すテーブルである。 再割当定義テーブルに含まれる情報を表すテーブルである。 ポリシ制御部の処理を説明するフローチャートである。 ステップ25050で呼び出される処理を説明するフローチャートである。 リソース管理部の処理を説明するフローチャートである。
符号の説明
1000 運用管理装置
1021 障害監視部
1022 ポリシ管理部
1023 ポリシ制御部
1024 優先度計算部
1025 ポリシ適用部
1026 構成管理部
1027 表示処理部
1028 リソース管理部

Claims (15)

  1. 1以上のサービスを提供する1以上の計算機からなる情報処理システムにおいて、前記計算機のハードウェアまたはソフトウェアからなるリソースの前記サービスにおける重要性を示す、リソースの優先度を算出する運用管理装置であって、
    各リソースの機能、その稼動状態、各サービスが利用するリソースおよび前記サービスにおけるリソース間の関係を定義したシステム構成情報と、前記サービスごとに設定された所定の重要度とを少なくとも保持する記憶部と、
    前記システム構成情報より、前記重要度の算出対象となるリソースを利用するサービスを特定し、
    前記システム構成情報より、前記特定したサービスにおいて、前記リソースと同じ機能を有する同等リソースを特定し、
    前記同等リソースの稼動状態およびその数に基づいて、前記リソースが前記サービスに及ぼす影響度を算出し、
    前記サービスの重要度および前記算出した影響度に基づいて、前記リソースの優先度を算出する優先度計算部とを有すること、
    を特徴とする情報処理システムの運用管理装置。
  2. 前記計算機から、リソースの稼動状態、各サービスが利用するリソースおよび前記サービスにおけるリソース間の関係の変更の通知を受信すると、前記システム構成情報を更新する構成管理部をさらに有すること、
    を特徴とする請求項1に記載の情報処理システムの運用管理装置。
  3. 前記リソースの優先度は、
    前記記憶部に保持された前記サービスの前記重要度と、前記算出した影響度とを用いて次の数式1により算出されること、
    を特徴とする請求項1または請求項2に記載の情報処理システムの運用管理装置。
    Rs=Gs×Rr ・・・(1)
    ただし、Rsはリソースの優先度、Gsはサービスの重要度、Rrは算出された影響度をそれぞれ表す。
  4. 前記リソースの優先度は、
    前記記憶部に保持された前記サービスの前記重要度と、前記算出した影響度と、前記影響度が前記リソースの優先度に影響する度合いを表す所定の係数とを用いて次の数式2により算出されること、
    を特徴とする請求項1または請求項2に記載の情報処理システムの運用管理装置。
    Rs=Gs×(1+αRr) ・・・(2)
    ただし、Rsはリソースの優先度、Gsはサービスの重要度、Rrは算出された影響度、αは所定の係数(α>0)をそれぞれ表す。
  5. 前記影響度は、
    システム構成情報から、前記同等リソースのうち、前記リソース以外で正常に稼動しているリソースの数を算出し、このリソースの数と、前記同等リソースの総数とを用いて次の数式3により算出されること、
    を特徴とする請求項1ないし請求項4のいずれか1項に記載の情報処理システムの運用管理装置。
    Rr=1−m/n ・・・(3)
    ただし、Rrは影響度、mは正常に稼動しているリソースの数、nは同等リソースの総数をそれぞれ表す。
  6. 前記影響度は、
    前記同等リソースのうち、前記リソース以外で正常に稼動しているリソースの数と、システム構成情報に含まれる前記サービスを提供するために最低限必要なリソースの数と、前記同等リソースの総数とを用いて次の数式4又は数式5により算出されること、
    を特徴とする請求項1ないし請求項4のいずれか1項に記載の情報処理システムの運用管理装置。
    Rns≧Rminにおいて
    Rr=(Rns−Rmin+1)/(Rna−Rmin+1) ・・・(4)
    Rns<Rminにおいて
    Rr=0 ・・・(5)
    ただし、Rrは影響度、Rnsは正常に稼動しているリソースの数、Rminは最低限必要なリソースの数、Rnaは同等リソースの総数をそれぞれ表す。
  7. 前記影響度は、
    前記同等リソースのうち、前記リソース以外で正常に稼動しているリソースの数と、前記同等リソースの総数と、前記同等リソースの可用性とに基づいて算出されること、
    を特徴とする請求項1ないし請求項4のいずれか1項に記載の情報処理システムの運用管理方法。
  8. 前記同等リソースの可用性は、前記同等リソースの各リソースの故障率から算出した前記正常に稼動するリソースのうちの1台に障害が発生する確率を用いて表され、前記影響度は、次の数式6により算出されること、
    を特徴とする請求項6に記載の運用管理方法。
    Rr=(1−p)×Rns/Rna+p×(Rns−1)/Rna ・・・(6)
    ただし、Rrは影響度、pは障害が発生する確率、Rnsは正常に稼動しているリソースの数、Rnaは同等リソースの総数をそれぞれ表す。
  9. 前記記憶部には、
    リソースに発生する障害の内容に応じた復旧処理を定義したポリシをさらに保持し、
    前記計算機から、リソースに発生した障害内容およびそのリソースを特定する情報を含んだ障害情報を受信する障害監視部と、
    前記受信した障害情報に応じた前記ポリシを選択するポリシ管理部と、
    前記選択されたポリシから、障害が発生したリソースを特定し、前記優先度計算部から取得した当該リソースの優先度に基づいて、前記選択されたポリシから、実行するポリシを指定するポリシ制御部と、
    前記ポリシ制御部が指定したポリシに定義された復旧処理を実行するポリシ適用部とをさらに有すること、
    を特徴とする請求項1ないし請求項8のいずれか1項に記載の情報処理システムの運用管理装置。
  10. 前記ポリシ制御部は、
    前記優先度計算部の前記リソースの優先度の算出前後で、前記システム構成情報が変化しているか否かを判定し、
    前記システム構成情報が変化している場合は、前記優先度計算部に、当該リソースの優先度を再度算出させること、
    を特徴とする請求項9に記載の情報処理システムの運用管理装置。
  11. 前記優先度計算部が算出したリソースの優先度を用いて、前記障害が発生したリソースの優先度より、優先度の低いリソースを特定し、前記システム構成情報から、前記優先度の低いリソースを利用するサービスを特定し、前記優先度の低いリソースの前記サービスへの割り当てを解除し、前記優先度の低いリソースを、代替リソースとして前記ポリシ適用部に通知するリソース管理部をさらに有し、
    前記ポリシ適用部は、
    前記ポリシ制御部が指定したポリシに定義された復旧処理を実行する際に、前記リソース管理部から通知された前記優先度の低いリソースを前記復旧処理に割り当てることを、
    特徴とする請求項9または請求項10に記載の情報処理システムの運用管理装置。
  12. 前記優先度計算部が算出した前記リソースの優先度および前記システム構成情報を閲覧可能な表示画面を作成して出力する表示処理部をさらに有すること、
    を特徴とする請求項1ないし請求項11のいずれか1項に記載の情報処理システムの運用管理装置。
  13. 1以上のサービスを提供する1以上の計算機からなる情報処理システムにおいて、前記計算機のハードウェアおよびソフトウェアのリソースの前記サービスにおける重要性を示す、前記リソースの優先度を算出する運用管理装置における運用管理方法であって、
    前記運用管理装置の優先度計算部が、
    前記運用管理装置の記憶部に保持され、各リソースの機能、その稼動状態、各サービスが利用するリソースおよび前記サービスにおけるリソース間の関係を定義したシステム構成情報より、前記リソースを利用するサービスを特定し、
    前記システム構成情報より、前記特定したサービスにおいて、前記リソースと同じ機能を有する同等リソースを特定し、
    前記同等リソースの稼動状態およびその数に基づいて、前記リソースが前記サービスに及ぼす影響度を算出し、
    前記サービスごとに設定され前記記憶部に保持された所定の重要度および前記算出した影響度に基づいて、前記リソースの優先度を算出すること、
    を特徴とする情報処理システムの運用管理方法。
  14. 前記運用管理装置の障害監視部が、
    前記計算機から、リソースに発生した障害内容およびそのリソースを特定する情報を含んだ障害情報を受信すると、
    前記運用管理装置のポリシ管理部が、
    前記受信した障害情報に応じて、前記記憶部に保持され、リソースに発生する障害の内容に応じた復旧処理を定義されたポリシを選択し、
    前記運用管理装置のポリシ制御部が、
    前記選択されたポリシから、障害が発生したリソースを特定し、前記優先度計算部から取得した当該リソースの優先度に基づいて、前記選択されたポリシから、実行するポリシを指定し、
    前記運用管理装置のポリシ適用部が、
    前記ポリシ制御部が指定したポリシに定義された復旧処理を実行すること、
    を特徴とする請求項13に記載の情報処理システムの運用管理方法。
  15. 前記ポリシ適用部が、
    前記ポリシ制御部が指定したポリシに定義された復旧処理を実行する際に、前記リソース管理部に代替リソースを要求し、
    前記運用管理装置のリソース管理部が、
    前記優先度計算部が算出したリソースの優先度を用いて、前記障害が発生したリソースの優先度より、優先度の低いリソースを特定し、
    前記システム構成情報から、前記優先度の低いリソースを利用するサービスを特定し、
    前記優先度の低いリソースの前記サービスへの割り当てを解除し、
    前記優先度の低いリソースを、代替リソースとして前記ポリシ適用部に通知し、
    前記ポリシ適用部が、
    前記通知された前記優先度の低いリソースを前記復旧処理に割り当てることを、
    を特徴とする請求項14に記載の情報処理システムの運用管理方法。
JP2007052208A 2007-03-02 2007-03-02 情報処理システムの運用管理装置および運用管理方法 Expired - Fee Related JP4669487B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007052208A JP4669487B2 (ja) 2007-03-02 2007-03-02 情報処理システムの運用管理装置および運用管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007052208A JP4669487B2 (ja) 2007-03-02 2007-03-02 情報処理システムの運用管理装置および運用管理方法

Publications (2)

Publication Number Publication Date
JP2008217285A true JP2008217285A (ja) 2008-09-18
JP4669487B2 JP4669487B2 (ja) 2011-04-13

Family

ID=39837271

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007052208A Expired - Fee Related JP4669487B2 (ja) 2007-03-02 2007-03-02 情報処理システムの運用管理装置および運用管理方法

Country Status (1)

Country Link
JP (1) JP4669487B2 (ja)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011003132A (ja) * 2009-06-22 2011-01-06 Nippon Telegr & Teleph Corp <Ntt> アクセス制御システム、アクセス制御装置及びアクセス制御方法
US20110113429A1 (en) * 2009-11-10 2011-05-12 Takuya Oda Incident management method and operation management server
JP2011180805A (ja) * 2010-03-01 2011-09-15 Nec Corp 運用管理装置、運用管理方法、運用管理プログラム
WO2011138879A1 (ja) * 2010-05-06 2011-11-10 株式会社日立製作所 情報処理システムの運用管理装置および運用管理方法
JP2012048408A (ja) * 2010-08-25 2012-03-08 Fujitsu Ltd アプリケーションの多重関係を検出する装置、方法、およびプログラム
JP2012528382A (ja) * 2009-05-25 2012-11-12 アリババ・グループ・ホールディング・リミテッド キャッシュクラスタを構成可能モードで用いるキャッシュデータ処理
JP2013501270A (ja) * 2009-07-31 2013-01-10 株式会社エヌ・ティ・ティ・ドコモ 信頼性保証のある仮想化インフラストラクチャのためのリソース割振りプロトコル
WO2014002557A1 (ja) * 2012-06-29 2014-01-03 日本電気株式会社 共有リスク影響度評価システム、共有リスク影響度評価方法、およびプログラム
JP2014146197A (ja) * 2013-01-29 2014-08-14 Mitsubishi Heavy Ind Ltd システム管理装置およびシステム
JP2016009982A (ja) * 2014-06-24 2016-01-18 富士通株式会社 ネットワーク管理装置、ネットワーク管理システム、及びネットワーク管理方法
JP2016031657A (ja) * 2014-07-29 2016-03-07 三菱重工業株式会社 システム管理装置およびシステム
US9607051B2 (en) 2012-03-16 2017-03-28 Fujitsu Limited Effect analysis method, and management device
US9898525B2 (en) 2012-12-17 2018-02-20 Nec Corporation Information processing device which carries out risk analysis and risk analysis method
JP2019133246A (ja) * 2018-01-29 2019-08-08 富士通株式会社 順序制御プログラム、順序制御方法、及び情報処理装置
CN111984463A (zh) * 2020-07-03 2020-11-24 浙江华云信息科技有限公司 一种基于边缘计算系统的微应用管理方法及装置
CN113268383A (zh) * 2021-04-26 2021-08-17 北京控制工程研究所 一种基于分级策略的四机四总线故障代班方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07114520A (ja) * 1993-10-15 1995-05-02 Hitachi Ltd 冗長資源の管理方法及びそれを用いた分散型フォールトトレラントコンピュータシステム
JP2004302937A (ja) * 2003-03-31 2004-10-28 Hitachi Ltd プログラム配置方法及びその実施システム並びにその処理プログラム
JP2005141605A (ja) * 2003-11-10 2005-06-02 Hitachi Ltd 予測に基づいた計算機リソース配分方法
JP2005216151A (ja) * 2004-01-30 2005-08-11 Hitachi Ltd 資源運用管理システム及び資源運用管理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07114520A (ja) * 1993-10-15 1995-05-02 Hitachi Ltd 冗長資源の管理方法及びそれを用いた分散型フォールトトレラントコンピュータシステム
JP2004302937A (ja) * 2003-03-31 2004-10-28 Hitachi Ltd プログラム配置方法及びその実施システム並びにその処理プログラム
JP2005141605A (ja) * 2003-11-10 2005-06-02 Hitachi Ltd 予測に基づいた計算機リソース配分方法
JP2005216151A (ja) * 2004-01-30 2005-08-11 Hitachi Ltd 資源運用管理システム及び資源運用管理方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8972773B2 (en) 2009-05-25 2015-03-03 Alibaba Group Holding Limited Cache data processing using cache cluster with configurable modes
JP2012528382A (ja) * 2009-05-25 2012-11-12 アリババ・グループ・ホールディング・リミテッド キャッシュクラスタを構成可能モードで用いるキャッシュデータ処理
JP2011003132A (ja) * 2009-06-22 2011-01-06 Nippon Telegr & Teleph Corp <Ntt> アクセス制御システム、アクセス制御装置及びアクセス制御方法
JP2013501270A (ja) * 2009-07-31 2013-01-10 株式会社エヌ・ティ・ティ・ドコモ 信頼性保証のある仮想化インフラストラクチャのためのリソース割振りプロトコル
US20110113429A1 (en) * 2009-11-10 2011-05-12 Takuya Oda Incident management method and operation management server
JP2011180805A (ja) * 2010-03-01 2011-09-15 Nec Corp 運用管理装置、運用管理方法、運用管理プログラム
WO2011138879A1 (ja) * 2010-05-06 2011-11-10 株式会社日立製作所 情報処理システムの運用管理装置および運用管理方法
JP2012048408A (ja) * 2010-08-25 2012-03-08 Fujitsu Ltd アプリケーションの多重関係を検出する装置、方法、およびプログラム
US9607051B2 (en) 2012-03-16 2017-03-28 Fujitsu Limited Effect analysis method, and management device
WO2014002557A1 (ja) * 2012-06-29 2014-01-03 日本電気株式会社 共有リスク影響度評価システム、共有リスク影響度評価方法、およびプログラム
US9898525B2 (en) 2012-12-17 2018-02-20 Nec Corporation Information processing device which carries out risk analysis and risk analysis method
JP2014146197A (ja) * 2013-01-29 2014-08-14 Mitsubishi Heavy Ind Ltd システム管理装置およびシステム
JP2016009982A (ja) * 2014-06-24 2016-01-18 富士通株式会社 ネットワーク管理装置、ネットワーク管理システム、及びネットワーク管理方法
JP2016031657A (ja) * 2014-07-29 2016-03-07 三菱重工業株式会社 システム管理装置およびシステム
JP2019133246A (ja) * 2018-01-29 2019-08-08 富士通株式会社 順序制御プログラム、順序制御方法、及び情報処理装置
JP7027912B2 (ja) 2018-01-29 2022-03-02 富士通株式会社 順序制御プログラム、順序制御方法、及び情報処理装置
CN111984463A (zh) * 2020-07-03 2020-11-24 浙江华云信息科技有限公司 一种基于边缘计算系统的微应用管理方法及装置
CN113268383A (zh) * 2021-04-26 2021-08-17 北京控制工程研究所 一种基于分级策略的四机四总线故障代班方法
CN113268383B (zh) * 2021-04-26 2023-07-14 北京控制工程研究所 一种基于分级策略的四机四总线故障代班方法

Also Published As

Publication number Publication date
JP4669487B2 (ja) 2011-04-13

Similar Documents

Publication Publication Date Title
JP4669487B2 (ja) 情報処理システムの運用管理装置および運用管理方法
JP4261543B2 (ja) 動作不能なマスタ作業負荷管理プロセスを代替するシステムおよび方法
US20200007620A1 (en) Intelligent Backup and Recovery of Cloud Computing Environment
US8185905B2 (en) Resource allocation in computing systems according to permissible flexibilities in the recommended resource requirements
US20060015773A1 (en) System and method for failure recovery and load balancing in a cluster network
JP6321031B2 (ja) 優先度が付与された複数のバーチャルマシン及び複数のアプリケーションに対して、共有された複数のリソースの品質に基づいて、サービスの品質を提供すること
JP4353005B2 (ja) クラスタ構成コンピュータシステムの系切替方法
US6618820B1 (en) Method for configuring an application server system
US20060155912A1 (en) Server cluster having a virtual server
JP6186787B2 (ja) データ転送装置、データ転送システム、データ転送方法及びプログラム
US8713127B2 (en) Techniques for distributed storage aggregation
WO2012056596A1 (ja) 計算機システム及び処理制御方法
WO2011074284A1 (ja) 仮想計算機の移動方法、仮想計算機システム及びプログラムを格納した記憶媒体
WO2016022405A1 (en) Providing higher workload resiliency in clustered systems based on health heuristics
US9329937B1 (en) High availability architecture
JP4920248B2 (ja) サーバの障害回復方法及びデータベースシステム
JP2006350780A (ja) キャッシュ割当制御方法
JP5323554B2 (ja) ジョブ処理方法、ジョブ処理プログラムを格納したコンピュータ読み取り可能な記録媒体、および、ジョブ処理システム
JP2009181578A (ja) 複数の仮想マシンに対して動的にリソースを割当てる方法及び装置
CN113382077B (zh) 微服务调度方法、装置、计算机设备和存储介质
EP2645635B1 (en) Cluster monitor, method for monitoring a cluster, and computer-readable recording medium
EP3591530B1 (en) Intelligent backup and recovery of cloud computing environment
KR20200080458A (ko) 클라우드 멀티-클러스터 장치
JP5632820B2 (ja) 広域分散構成変更システム
JP4649341B2 (ja) 計算機制御方法、情報処理システムおよび計算機制御プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090811

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100924

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100928

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110111

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110114

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140121

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees