JP2013178592A - 情報処理システムの運用管理装置および運用管理方法 - Google Patents

情報処理システムの運用管理装置および運用管理方法 Download PDF

Info

Publication number
JP2013178592A
JP2013178592A JP2010106351A JP2010106351A JP2013178592A JP 2013178592 A JP2013178592 A JP 2013178592A JP 2010106351 A JP2010106351 A JP 2010106351A JP 2010106351 A JP2010106351 A JP 2010106351A JP 2013178592 A JP2013178592 A JP 2013178592A
Authority
JP
Japan
Prior art keywords
resource
configuration
processing system
information processing
influence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010106351A
Other languages
English (en)
Inventor
Hirokazu Uchi
裕和 内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2010106351A priority Critical patent/JP2013178592A/ja
Priority to PCT/JP2011/053044 priority patent/WO2011138879A1/ja
Publication of JP2013178592A publication Critical patent/JP2013178592A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)
  • Hardware Redundancy (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

【課題】情報処理システムに障害が発生しにくい,特に業務運用に与える影響が大きい障害が発生しにくいシステム運用管理が必要とされる。
【解決手段】運用管理装置は,構成を管理する対象である情報処理システムと接続する。運用管理装置は,稼動中の情報処理システムから,情報処理システムの構成情報を取得し,取得した構成情報から,情報処理システムを構成するリソースに障害が発生した場合に,情報処理システムの業務遂行に与える影響を示す影響度を各リソースについて算出し,算出した影響度が予め定めた影響度の上限値を超えているリソースがある場合に,リソースの影響度が上限値を下回る情報処理システムの構成案を作成する。作成する情報処理システムの構成案は,リソースの影響度が上限値を下回る情報処理システムの分散化構成と多重化構成の構成変更案である。
【選択図】図2

Description

本発明は,情報処理システムの障害予防に関し,とくに情報処理システムの構成情報を基に,発生する可能性のある障害を事前に予防するための技術に関する。
情報処理システムの大規模化に伴って,情報処理システムにおける業務プログラム(アプリケーションプログラム)の実行による業務やサービスの運用と,情報処理システムのリソースの効率的な運用とが分けられている。前者のための業務運用管理は,情報処理システムのユーザからの処理要求やサービス要求に,所定のパフォーマンス(たとえば,応答時間)をもって応えられるように,運用スケジュールや負荷に応じて,業務プログラムを実行するための計算機,ストレージ装置,ネットワークインタフェイスなどのリソースの選択,業務プログラムの起動・停止などを制御する。後者のためのシステム運用管理は,情報処理システムのリソースの構成を管理し,稼動状況の監視,過負荷や故障などに伴う障害発生の監視,障害が発生した場合にその影響の範囲や度合いの抑制などを制御する。システム運用管理は,情報処理システムのコストパフォーマンスや運用計画などに伴うリソースの性能や数の制約の下に実現されなければならない。
情報処理システムに障害が発生した場合の制御に関連する技術が特許文献1に記載されている。特許文献1には,システムの状態を考慮して,リソースがサービスに及ぼす影響度を算出し,サービスの重要度および算出した影響度に基づいて,リソースの優先度を算出することがが示されている。これにより,重要度の高いサービスが利用しているリソースに障害が発生した場合,重要度の低いサービスが利用しているリソースを重要度の高いサービスに割り当てることが可能になる。
特開2008−217285号公報
昨今では計算機やストレージ装置などの仮想化技術の進展に伴い,業務運用管理もシステム運用管理も,制御の幅(管理の対象,対象を制御するための構成や手順の選択肢,など)が拡大している。また,業務運用管理とシステム運用管理とが分けられて運用される情報処理システムにおいては,そのための管理者も分けられる。ここでは,業務運用管理の管理者を業務管理者,システム運用管理の管理者をシステム管理者と呼ぶ。
このような状況の下では,業務管理者による情報処理システムの業務運用管理の結果が,情報処理システムに障害を発生させ易い,障害が発生した場合にその影響が大きいシステム状態を招く場合が生じる。特許文献1は,障害が発生した場合に対処する技術を開示しているが,障害が発生しにくい,特に業務運用に与える影響が大きい障害が発生しにくいシステム運用管理が望まれる。
開示される運用管理装置は,構成を管理する対象である情報処理システムと接続する。また,管理クライアントと接続する。運用管理装置は,稼動中の情報処理システムから,情報処理システムの構成情報を取得する構成情報取得部,取得した構成情報から,情報処理システムを構成するリソースに障害が発生した場合に,情報処理システムの業務遂行に与える影響を示す影響度を各リソースについて算出する影響度計算部,及び,算出した影響度が予め定めた影響度の上限値を超えているリソースがある場合に,リソースの影響度が上限値を下回る情報処理システムの構成案を作成する構成生成部を有する。
開示される運用管理装置の望ましい他の態様は,情報処理システムの構成案は,リソースの影響度が上限値を下回る情報処理システムの分散化構成と多重化構成の構成変更案である。
開示される運用管理装置の望ましいさらに他の態様は,影響度計算部は,情報処理システムを構成するリソースに障害が発生した場合に,そのリソースが影響を与える他のリソース影響度とそのリソースの重要度の和をそのリソースの影響度として算出する。
開示される運用管理装置の望ましいさらに他の態様は,影響度計算部が影響度を算出した各リソースの中で,多重化構成されているリソースに関して,算出した影響度を修正する多重度計算部をさらに有する。
開示される運用管理装置の望ましいさらに他の態様は,管理クライアントから入力される予め定めた影響度の上限値を設定するアラートポリシー設定部,各リソースについて算出した影響度が予め定めた影響度の上限値を超えているか否かを判定するアラート検出部,および,算出した影響度が予め定めた影響度の上限値を超えている場合にアラートを管理クライアントに出力するアラート出力部をさらに有する。
その他本願が開示する課題やその解決方法については,発明の実施形態の欄及び図面により明らかにされる。
本発明によれば,情報処理システムに障害が発生しにくい,特に業務運用に与える影響が大きい障害が発生しにくいシステム運用管理が可能になる。
実施形態のシステム構成例である。 実施形態のシステムの各部,各テーブル構成を示す図である。 構成制御部の処理フローである。 構成情報テーブルの一例である。 構成情報テーブルの一例である。 構成情報テーブルの一例である。 リソース関連情報テーブルの一例である。 構成確認画面の一例である。 重要度定義テーブルの一例である。 影響度情報テーブルの一例である。 依存関係定義テーブルの一例である。 影響度計算部の処理フローである。 影響度計算部の処理フローである。 影響度確認画面の一例である。 多重度定義テーブルの一例である。 アラートポリシーテーブルの一例である。 アラートの判定および発行の処理フローである。 推奨構成生成部の処理フローである。 分散化構成生成処理のフローチャートである。 割り当て可能なリソース検索処理のフローチャートである。 多重度構成生成処理のフローチャートである。 分散化構成テーブルの一例である。 多重化構成テーブルの一例である。 推奨構成表示画面の一例である。
図1に,実施形態のシステム構成例を示す。本実施形態のシステムは,通信ネットワークを介して接続する,一つ以上のサーバ装置2及び一つ以上のスイッチ(ネットワークスイッチ)4を含む管理対象装置1と,構成管理サーバ5及び管理クライアント6を含む構成管理システムを備え,構成管理システムが,業務管理者により業務運用管理されている情報処理システムとしての管理対象装置1の構成を管理・制御する。
構成管理サーバ5(運用管理装置)は,構成を管理する対象である管理対象装置1と接続する。構成管理サーバ5は,稼動中の管理対象装置1から,管理対象装置1の構成情報を取得し,取得した構成情報から,管理対象装置1を構成するリソースに障害が発生した場合に,管理対象装置1の業務遂行に与える影響を示す影響度を各リソースについて算出し,算出した影響度が予め定めた影響度の上限値を超えているリソースがある場合に,リソースの影響度が上限値を下回る管理対象装置1の構成案を作成する。
作成する管理対象装置1の構成案は,リソースの影響度が上限値を下回る管理対象装置1の分散化構成と多重化構成の構成変更案である。構成管理サーバ5は,管理対象装置1を構成するリソースに障害が発生した場合に,そのリソースが影響を与える他のリソース影響度とそのリソースの重要度の和をそのリソースの影響度として算出する。構成管理サーバ5は,影響度を算出した各リソースの中で,多重化構成されているリソースに関して,算出した影響度を修正する。また構成管理サーバ5は,管理クライアント6から入力される予め定めた影響度の上限値を設定し,各リソースについて算出した影響度が予め定めた影響度の上限値を超えているか否かを判定し,算出した影響度が予め定めた影響度の上限値を超えている場合にアラートを管理クライアントに出力する。
図2に,管理対象装置1と,構成管理サーバ5及び管理クライアント6を含む構成管理システムの,本実施形態の説明に必要な各部及び各テーブルを示す。管理対象装置1のメモリに格納される構成情報提供部16は,そのCPUによって実行される。また,構成管理サーバ5のメモリに格納される各部は,そのCPUによって実行される。
管理対象装置1の構成情報提供部16は,構成管理サーバ5からの要求に応じて,管理対象装置1の構成情報を送信する。構成管理サーバ5は,構成情報制御部35によって各部の実行を制御することによって機能する。補助記憶装置に格納される各情報テーブルは,各部の実行に用いられる。構成情報制御部35を初めとする各部および各情報テーブルに関して,以下に説明する。
図3に,構成制御部35の処理フローを示す。この処理フローを用いて,構成管理システムの動作概要を説明し,各部の動作の詳細は後述する。構成制御部35が各処理部を実行させ,管理対象装置1の構成を管理・制御する。構成情報取得部17が管理対象装置1の構成情報を収集する(ステップ7)。収集した構成情報を基に,重要度計算部18がリソースの重要度を算出し(ステップ8),影響度計算部19がリソースの影響度を算出する。(ステップ9)。次に多重度計算部20がリソースの多重度を算出して,算出した多重度に基づいて影響度を修正する(ステップ10)。その後,アラートポリシー検出部21が,求めた影響度がアラートポリシーに合致するか判定し(ステップ11,ステップ12),アラートポリシーに合致しない場合は,処理を終了する。なお,アラートポリシーは,予めアラートポリシー設定部24の実行に伴う,管理クライアント6を介したシステム管理者からの入力により,アラートポリシーテーブル34に設定されている。
アラートポリシーと合致している場合,アラート出力部23がアラートを発行する(ステップ13)。次に,推奨構成生成部22が推奨する構成変更案を作成し(ステップ14),推奨構成表示部25が管理クライアント5に作成した構成変更案を表示する(ステップ15)。以下,構成制御部35のステップ7〜ステップ14の各処理について説明する。
<管理対象装置1の構成情報収集(ステップ7)>
構成管理サーバ5の構成情報取得部17が,管理対象装置1の構成情報提供部16に構成情報の送信を要求し,管理対象装置1の構成情報提供部16が管理対象装置1の構成情報を返信する。管理対象装置1の構成情報は,仮想化されたものも含めて管理対象装置1のリソースの名称や識別子に対応付けられて,その属性や他のリソースとの関係などのシステム運用管理に基づく構成情報と,業務プログラム(アプリケーション)がどのリソースを使用しているかなどの業務運用管理に基づく構成情報とを含む。システム運用管理の観点からは,アプリケーションなどもソフトウエアリソースとして扱えるので,以下では,ハードウェア,ソフトウェアにとらわれずにリソースと呼ぶ。
管理対象装置1の構成情報は,業務管理者による稼動中の情報処理システム(管理対象装置1)の業務運用管理の結果によって変化する。
構成情報収集部17は,受信した構成情報を,構成情報テーブル26に格納する。また,構成情報収集部17は,構成情報に含まれるリソース間の関連情報をリソース関連情報テーブル27に格納し,管理対象装置1のリソース一覧(各リソースについてリソース識別子およびリソース種別)を影響度情報テーブル28に格納する。影響度情報テーブル28については後述する。
構成情報テーブル26は,図4〜図6に示すように,リソース種別毎のテーブルで構成される。図4は,リソース種別101が“アプリケーション”の構成情報テーブル26の例のアプリケーション構成情報テーブル100であり,収集した構成情報に含まれるリソースを識別する識別子102,アプリケーション名103やインストールパス104などの属性値を格納する。図5はホスト構成情報テーブル105の例であり,属性値としてホスト名,IPアドレスなどを格納する。図6はプロセッサ構成情報テーブル106の例であり,属性値としてプロセッサの動作周波数やコア数などを格納する。例示を省略するが,リソース種別には,さらに,プロセッサやメモリなどのホストを構成するリソース,スイッチなどがある。
図7は,リソース関連情報テーブル27の例であり,リソース間の関連情報と関連の種別を格納する。リソース間の関連には関連元(リソース識別子およびリソース種別)108と関連先(リソース識別子およびリソース種別)109がある。関連種別110が“所有”であるたとえば“ホスト-A”と“アプリケーション-A”の関連は,関連元の“ホスト-A”が“アプリケーション-A”を所有していることを表す。関連種別110が“使用”は,関連元108が関連先109を使用してることを表す。換言すると,“所有”は包含関係を表し,“使用”は接続関係を表す。
構成情報収集部17は,リソース関連情報テーブル27に格納した関連情報を基にして,図8に示す構成確認画面111を,管理クライアント6のディスプレイに表示する。図8に示す構成確認画面111の例は,図7に示すリソース関連情報テーブル27に対応して,たとえば“ホスト-A”が“アプリケーション-A” 所有していることを示している。
<リソースの重要度算出(ステップ8)>
収集した構成情報に含まれるリソースにはリソース種別ごとの属性がある。図4のアプリケーション構成情報テーブル100では,アプリケーション名103やインストールパス104などが属性である。重要度計算部18は,図9に示す重要度定義テーブル31に定義されたリソースの種別201とその属性に関する条件202にマッチした重要度203を参照し,リソースごとの重要度を算出する。リソースの種別201と条件にマッチしないリソースの重要度は最小値の1とする。求めた重要度を影響度情報テーブル28の重要度カラムに格納する。
重要度定義テーブル31のリソース種別201,条件202,重要度203の定義内容は,管理対象装置1の構成変更に応じて,管理クライアント6を通じて,システム管理者が入力,更新する。なお,リソースの種別201とその属性に関する条件202にマッチした重要度203の値は,業務運用管理の観点からのリソースの重要性に応じて定義され,アプリケーションなどの業務運用管理に係るリソースの重要度などは,予め業務管理者から得ておく。
図10は影響度情報テーブル28の例である。影響度情報テーブル28には,構成情報収集部17によってリソース識別子301,リソース種別302が既に格納されている。リソース識別子“アプリケーション-A”は重要度定義テーブル31にヒットし,その重要度203は5であるので,影響度情報テーブル28のリソース識別子301“アプリケーション-A”の重要度303に5を格納する。同様に,影響度情報テーブル28の全レコード(管理対象装置1の全リソース)に対して重要度を求め格納する。
<リソースの影響度算出(ステップ9)>
リソース毎の影響度を次式により求める。
リソースの影響度 = (影響を与える全リソースの影響度の和) + (リソースの重要度)
影響度は,あるリソースに障害が発生した場合の管理対象装置1(情報処理システム)の業務遂行に与える影響の度合いを示し,上式に示すように,あるリソースに障害が発生した場合に,そのリソースの障害が影響するリソースの影響度と,そのリソースの重要度の和で定義する。
影響度計算部19は,上式の影響度を求める対象のリソースが(影響を与える全リソースの影響度の和)を求めるために,図11に示す依存関係定義テーブル30を用いる。依存関係定義テーブル30は,影響を与える元である影響元リソース種別401,影響を受ける影響先リソース種別402,及び影響元の関連種別403を格納する。影響元の関連種別403は,リソース関連情報テーブル27に関連元のリソースと関連先のリソースのいずれとして格納されるかを示す。
影響度計算部19は,上式により各リソースの影響度を求め,影響度情報テーブル28の影響度304に格納する。影響度計算部19の処理フローを図12,図13に示す。
影響度情報テーブル28のリソース識別子301に対応するリソース種別302が,依存関係定義テーブル30の影響元リソース種別401にあるかを検索する(ステップ501)。処理フローは,影響度情報テーブル28のリソース識別子301の一つに関する処理を示すが,影響度情報テーブル28のリソース識別子301のすべてに関して,影響度304を格納し終えるまで繰り返す。
検索の結果,リソース種別がある場合はステップ503を依存関係毎に繰返し,ない場合はステップ505に分岐する(ステップ502)。リソース種別がない場合,影響度情報テーブル28の該当リソースの重要度303を影響度304とする(ステップ505)。たとえば,影響度情報テーブル28のリソース識別子301が“ホスト-A”のリソース種別302である“ホスト”を依存関係定義テーブル30で検索すると,リソース種別“ホスト”は依存関係定義テーブル30の影響元リソース種別401にあるので,ステップ503を実行して依存関係毎の影響度を算出する。
依存関係毎の影響度の算出処理を図13を用いて説明する。依存関係定義テーブル30の影響元リソース種別401の関連種別403が関連元であるかを判定し(ステップ601),関連元である場合は,該当するリソースが関連元であり,依存関係定義テーブル30の影響先リソース種別402に等しい関連先リソース種別の関連をリソース関連情報テーブル27から検索する(ステップ602)。関連元でない場合は,該当するリソースが関連先であり,依存関係定義テーブル30の影響元リソース種別401に等しい関連元リソース種別をリソース関連情報テーブル27から検索する(ステップ605)。たとえば,影響元リソース種別401が“ホスト”の場合には,依存関係定義テーブル30の関連種別に“関連元”と定義してあるので,“ホスト-A”が関連元であり,関連先が依存関係定義テーブル30の影響先リソース種別402のアプリケーションである関連をリソース関連情報テーブル27から検索すると,関連先リソースとして,“アプリケーション-A”と“アプリケーション-B”と“アプリケーション-C”が見つかる。これが,“ホスト-A”が影響を与えるリソースになる。これを影響先リソース305として影響度情報テーブル28に格納する。
次に,関連先リソースとして見つけたリソース毎に,それぞれの影響度を求める(ステップ603)。たとえば,“アプリケーション-A”のリソース種別である“アプリケーション”は依存関係定義テーブル30の影響元リソース種別401にないので,“アプリケーション-A”が影響を与えるリソースは存在しない。これにより,“アプリケーション-A”の(影響を与える全リソースの影響度の和)は0と求まる。また,“アプリケーション-A”の重要度は影響度テーブル28から5と求まる。これにより,“アプリケーション-A”の影響度は0 + 5 = 5と求まり,これを影響度情報テーブル28の“アプリケーション-A”の行の影響度304に格納する。同様に,“アプリケーション-B”と“アプリケーション-C”の影響度はどちらも1と求まる。
次に,該当リソースの全ての依存関係の影響度と該当リソースの重要度との和を該当リソースの影響度とする(ステップ504)。該当リソースが“ホスト-A”の場合,“ホスト-A”の(影響を与える全リソースの影響度の和)は(“アプリケーション-A”の影響度) + (“アプリケーション-B”の影響度) + (”アプリケーション-C ”の影響度) = 5 + 1 + 1 = 7 と求まる。また,“ホスト-A”の重要度は影響度情報テーブル28において1であるので,“ホスト-A”の影響度は7 + 1 = 8と求まる。これを影響度情報テーブル28の“ホスト-A”の影響度304に格納する。
また,影響度計算部19は,算出した影響度を表す,図14に示す影響度確認画面112を,管理クライアント6のディスプレイに表示する。影響度確認画面112は,図8に示す構成情報確認画面111に,各リソースの影響度を重畳させた画面である。
<リソースの多重度算出(ステップ10)>
管理対象装置1のリソースがクラスタ構成やハードウェアの冗長化構成などのように多重化されている場合,そのリソースに障害が発生した場合の管理対象装置1に与える影響は,多重化していないリソースよりも小さい。そこで,リソースの多重度計算部20では,多重化されているリソースを検索し,影響度を修正する。
図15は,多重度定義テーブル29の例であり,多重化の対象のリソース種別701と多重化となる条件702が定義されている。リソースの多重度計算部20では,収集したリソース毎に多重度定義テーブル29を検索し,多重化しているリソースの組を発見する。発見したリソースの組を一つのリソースとして影響度情報テーブル28で扱い,その影響度は多重度にあわせて修正する。2重化されているリソースの影響度は1/2のように,影響度を1/(多重度)に修正し,影響度情報テーブル28の影響度304を更新する。
<アラートポリシー判定および発行(ステップ11〜13)>
アラート検出部21がアラートポリシー34を参照し,アラートを発行するか判定する。アラートを発行する場合は,アラート出力部23がアラートを発行する。アラート出力部23では,管理クライアント6のディスプレイにGUI表示,メール送信,SNMP(Simple Network Management Protocol)などの少なくとも一つにより,ユーザにアラートを通知する。
図16は,アラートポリシーテーブル34の例であり,影響度の上限値(閾値)801と上限値を超えたリソース数の閾値802と除外条件803として除外リソース種別が定義されている。除外条件803に該当せずに,影響度が上限値801を超え,その数(リソースの数)がリソース数の閾値802以上であるリソースを,アラート発行の対象とする。
図17に,アラートの判定および発行の処理フローを示す。影響度がユーザが規定した閾値を超えた場合,そのリソースに関してアラートを発行しシステム管理者に通知する。アラート検出部21では,各リソースに関して影響度計算部19(多重度計算部20による修正を含む)により影響度304が求められた影響度情報テーブル28から,アラートポリシーテーブル34の影響度の上限値801を超えたリソース数を検索し,検索したリソース数が,アラートポリシーテーブル34の上限を超えたリソース数の閾値802を超えていた場合(ステップ900),アラート出力部23を通して,アラートをユーザに通知する(ステップ901)。なお,リソース数の閾値802を用いずに,影響度の上限値801を超えたリソースをアラート発行の対象のリソースとする簡易な判定でもよい。図16に示す例では,リソース数の閾値802が1であるので,実質的に簡易な判定と同じになる。
図10の影響度情報テーブル28と図16のアラートポリシーテーブル34に示す例では,影響度上限値801の7を超えているリソース数が,除外条件803を満たすネットワークスイッチを除いて4つあり,リソース数閾値802の1も超えているので,アラートを発行する。
<推奨する構成変更案作成(ステップ14)>
影響度が規定した閾値を超えた場合,アラートを発行すると共に,ユーザに対して推奨する構成変更案を提供する。推奨構成生成部22が,推奨する構成変更案を作成し,推奨構成表示部25が,作成した構成変更案を表示する。
図18に,推奨構成生成部22の処理フローを示す。推奨構成生成部22は,分散化構成作成処理(ステップ1002)と多重化構成作成処理(ステップ1004)を実行し,管理対象装置1の新たな構成案として分散化構成と多重化構成の構成変更案を作成する。
以下,分散化構成作成処理(ステップ1002)と多重化構成作成処理(ステップ1004)について説明する。
<分散化構成変更案作成(ステップ1002)>
分散化構成作成の処理フローを図19に示す。本処理では,分散化した推奨構成を分散化構成情報テーブル32に格納する。
まず該当リソースの影響先リソース305の一覧を影響度情報テーブル28から取得する(ステップ1105)。“ホスト-A”を例にすると,影響度情報テーブル28より,“アプリケーション-A”と“アプリケーション-B”と“アプリケーション-C”を取得する。ここで,該当リソースとは,影響度が規定した閾値を超えているリソースであり,複数ある場合は,それら複数のリソースに関して図19に示す処理を繰り返す。
次に,該当リソースに与える影響度が大きいリソースの順に,割り当て可能なリソースを検索する(ステップ1106)。“ホストA”に影響を与えるリソースを影響度順に並べると,“アプリケーション-A”,“アプリケーション-B” ,“アプリケーション-C”の順になる(影響度が同値の場合は順不同)。この場合,まず“アプリケーションA”を割り当てるリソースを検索する。
図20に,ステップ1106の割り当て可能なリソース検索の処理フローを示す。リソースの一覧を取得する(ステップ1109)。リソースの一覧は,管理対象装置1のリソースの一覧であり,構成管理サーバ5に格納され管理されている。なお,リソースの一覧には,管理対象装置1を構成するリソースではあるが使用されていないリソースも含んでいる。リソースの一覧の中に追加リソースとしてのホストがない状態では,割り当て可能なリソースは“ホスト-A”しかなく,また,“ホスト-A”には関連が割り当っていない(再割り当てのため,構成変更収集部で収集した関連は考慮せずに,“ホスト-A”には関連を割り当てていない初期状態を想定する)ので,“アプリケーション-A”を“ホスト-A”に割り当てる。これにより,ホストAの影響度は“アプリケーションA”の影響度 + “ホストA”の重要度 = 5 + 1 = 6 となり,アラートの閾値を超えてしまうが,“ホストA”は未割り当てリソースのため,“アプリケーションA”を割り当てることとし,分散化構成テーブル1100に格納する。図22は分散化構成情報テーブル32の例であり,リソース識別子1101が“ホストA”のリソースにリソース識別子1103が“アプリケーション-A”を割り当てることを示している(ステップ1108)。
次に,“アプリケーション-B”を割り当てるリソースを検索する。割り当て対象のリソースは“ホスト-A”があるが,“ホスト-A”に割り当てた場合,“ホスト-A”の影響度は“アプリケーション-A”の影響度 + “アプリケーション-B”の影響度 + “ホスト-A”の重要度 = 5 + 1 + 1 = 7となり,アラートポリシーの影響度上限値を超えてしまう。
“ホスト-A”は未割り当てリソースでもない(すでに“アプリケーション-A”を割り当てている)ため,割り当てるリソースが見つからない(ステップ1110)。割り当てるリソースが見つからない場合,新規のリソースを追加する(ステップ1107)。図22の例では,新しいリソース“追加ホスト”を追加し,“アプリケーション-B”を“追加ホスト”に割り当てる。同様に,“アプリケーション-C”は“追加ホスト”に割り当てることになる。以上のように “ホスト-A”に関して作成した分散化テーブル(分散化変更案情報の実現形式の一つ)を図22に示す。また,分散化テーブル1100には,作成した推奨構成の影響度1104を格納する。
以上の例は,新しいリソースとして“追加ホスト”がリソースの一覧にある場合,すなわち管理対象装置1を構成するリソース(ホスト)ではあるが使用されていないリソース(ホスト)がある場合であるが,新しいリソースがない場合がある。この場合は,分散化構成をとる必要があるが追加リソースがなく,分散化構成をとることができないことを,管理クライアント6を介してシステム管理者に通知するか,追加リソースがあるとして分散化構成案を作成し,リソースの追加を促すメッセージをシステム管理者に通知する。
<多重化構成変更案作成(ステップ1004)>
多重化構成作成の処理フローを図21に示す。本処理では,多重化の推奨構成を多重化構成情報テーブル33に格納する。
まず現在の影響度と閾値から多重度を以下の計算式より算出する(ステップ1204)。
多重度 = リソースの影響度 / リソースの閾値 (但し,小数点以下切り上げ)
以下,リソースとして“ホスト-A”を取り上げて説明するが,影響度が規定した閾値を超えているリソースが複数ある場合は,それら複数のリソースに関して,以下に説明する処理を繰り返す。
図10の影響度テーブル28より “ホスト-A”の影響度は8であり,図16のアラートポリシーテーブル34より影響度上限値は7なので,多重度は[8 / 7 ]= 2と求まる(ステップ1204)。なお,[ ]は,小数点以下を切り上げた整数値を表す。これより,現在の“ホスト-A”に1つ“追加ホスト”を追加し(ステップ1205),ホスト数を2とする。次に,“追加ホスト”と“ホスト-A”に影響を与えているリソース(“アプリケーション-A”と“アプリケーション-B”と“アプリケーションC”)との間の関連を作成する(ステップ1206)。さらに,“ホスト-A”と“追加ホスト”の影響度は多重度2で多重化しているため,影響度を1/(多重度)とし,それぞれ8 / 2 = 4となる。また,作成した多重化構成のリソース識別子1201とリソース種別1202と算出した推奨構成での影響度1203は多重化テーブル1200(多重化変更案情報の実現形式の一つ)に格納する。図23に多重化構成テーブルの例を示す。
なお,“追加ホスト”に関しては,分散化構成変更案作成の場合と同様に,追加ホストとしてのリソースがない場合,多重化構成をとる必要があるが追加リソースがなく,多重化構成をとることができないことを,管理クライアント6を介してシステム管理者に通知するか,追加リソースがあるとして多重化構成案を作成し,リソースの追加を促すメッセージをシステム管理者に通知する。。
<推奨する構成変更案を表示(ステップ15)>
推奨構成表示部25は,推奨する構成変更案を管理クライアント6に表示する。図24は推奨構成表示画面1300の例である。また,推奨構成表示画面に必要な情報は分散化構成情報テーブル32と多重化構成情報テーブル33に保存されているため,推奨構成表示画面1300は構成変更後でも表示可能である。
そこで,システムの運用管理者は,推奨構成に従い構成変更を実施したあと,影響度確認画面で,構成変更後の影響度を表示し,推奨構成画面1300と比較することで同じ構成に変更ができたことを確認することができる。
本実施形態によれば,情報処理システムに障害が発生しにくい,特に業務運用に与える影響が大きい障害が発生しにくいシステム運用管理が可能になる。具体的には,障害が発生した場合に情報システムに重大な影響を及ぼす恐れがあるリソースを事前に検知し,検知内容に対応した構成変更案をシステム管理者に対して提案することが可能になる。また実際の構成変更後に構成変更案どおりに構成変更できたか検証することが可能になる。
1:管理対象装置,2:サーバ装置,4:スイッチ,5:構成管理サーバ,6:管理クライアント,16:構成情報提供部,17:構成情報取得部,18:重要度計算部,19:影響度計算部,20:多重度計算部,21:アラート検出部,22:推奨構成生成部,23:アラート出力部,24:アラートポリシー設定部,25:推奨構成表示部,26:構成情報テーブル,27:リソース関連情報テーブル,28:影響度情報テーブル,29:多重度定義テーブル,30:依存関係定義テーブル,31:重要度定義テーブル,32:分散化構成情報テーブル,33:多重化構成情報テーブル,34:アラート ポリシー,35:構成情報制御部。

Claims (10)

  1. 構成を管理する対象である情報処理システムと接続する運用管理装置であって,管理クライアントと接続し,
    稼動中の前記情報処理システムから,前記情報処理システムの構成情報を取得する構成情報取得部,
    取得した前記構成情報から,前記情報処理システムを構成するリソースに障害が発生した場合に,前記情報処理システムの業務遂行に与える影響を示す影響度を各リソースについて算出する影響度計算部,及び,
    算出した前記影響度が予め定めた影響度の上限値を超えているリソースがある場合に,前記リソースの影響度が前記上限値を下回る前記情報処理システムの構成案を作成する構成生成部を有することを特徴とする運用管理装置。
  2. 前記情報処理システムの構成案は,前記リソースの影響度が前記上限値を下回る前記情報処理システムの分散化構成と多重化構成の構成変更案であることを特徴とする請求項1記載の運用管理装置。
  3. 前記影響度計算部は,前記情報処理システムを構成する前記リソースに障害が発生した場合に,前記リソースが影響を与える他のリソース影響度と前記リソースの重要度の和を前記リソースの影響度として算出することを特徴とする請求項2記載の運用管理装置。
  4. 前記影響度計算部が前記影響度を算出した前記各リソースの中で,多重化構成されているリソースに関して,算出した前記影響度を修正する多重度計算部をさらに有することを特徴とする請求項2記載の運用管理装置。
  5. 前記管理クライアントから入力される前記予め定めた影響度の上限値を設定するアラートポリシー設定部,前記各リソースについて算出した前記影響度が予め前記定めた影響度の上限値を超えているか否かを判定するアラート検出部,および,算出した前記影響度が予め前記定めた影響度の上限値を超えている場合にアラートを前記管理クライアントに出力するアラート出力部をさらに有することを特徴とする請求項2記載の運用管理装置。
  6. 構成を管理する対象である情報処理システムと接続する運用管理装置による運用管理方法であって,前記運用管理装置は管理クライアントと接続し,前記運用管理装置は,
    稼動中の前記情報処理システムから,前記情報処理システムの構成情報を取得し,
    取得した前記構成情報から,前記情報処理システムを構成するリソースに障害が発生した場合に,前記情報処理システムの業務遂行に与える影響を示す影響度を各リソースについて算出し,
    算出した前記影響度が予め定めた影響度の上限値を超えているリソースがある場合に,前記リソースの影響度が前記上限値を下回る前記情報処理システムの構成案を作成することを特徴とする運用管理方法。
  7. 前記情報処理システムの構成案は,前記リソースの影響度が前記上限値を下回る前記情報処理システムの分散化構成と多重化構成の構成変更案であることを特徴とする請求項6記載の運用管理方法。
  8. 前記運用管理装置は,前記情報処理システムを構成する前記リソースに障害が発生した場合に,前記リソースが影響を与える他のリソース影響度と前記リソースの重要度の和を前記リソースの影響度として算出することを特徴とする請求項7記載の運用管理方法。
  9. 前記運用管理装置は,前記影響度を算出した前記各リソースの中で,多重化構成されているリソースに関して,算出した前記影響度を修正することを特徴とする請求項7記載の運用管理方法。
  10. 前記運用管理装置は,前記管理クライアントから入力される前記予め定めた影響度の上限値を設定し,前記各リソースについて算出した前記影響度が予め前記定めた影響度の上限値を超えているか否かを判定し,算出した前記影響度が予め前記定めた影響度の上限値を超えている場合にアラートを前記管理クライアントに出力するすることを特徴とする請求項7記載の運用管理方法。
JP2010106351A 2010-05-06 2010-05-06 情報処理システムの運用管理装置および運用管理方法 Pending JP2013178592A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010106351A JP2013178592A (ja) 2010-05-06 2010-05-06 情報処理システムの運用管理装置および運用管理方法
PCT/JP2011/053044 WO2011138879A1 (ja) 2010-05-06 2011-02-14 情報処理システムの運用管理装置および運用管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010106351A JP2013178592A (ja) 2010-05-06 2010-05-06 情報処理システムの運用管理装置および運用管理方法

Publications (1)

Publication Number Publication Date
JP2013178592A true JP2013178592A (ja) 2013-09-09

Family

ID=44903731

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010106351A Pending JP2013178592A (ja) 2010-05-06 2010-05-06 情報処理システムの運用管理装置および運用管理方法

Country Status (2)

Country Link
JP (1) JP2013178592A (ja)
WO (1) WO2011138879A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012048408A (ja) * 2010-08-25 2012-03-08 Fujitsu Ltd アプリケーションの多重関係を検出する装置、方法、およびプログラム
CN103744735A (zh) * 2014-01-09 2014-04-23 福建星网锐捷网络有限公司 一种多核资源的调度方法及装置
US10693745B2 (en) 2018-02-27 2020-06-23 Servicenow, Inc. Defining and enforcing operational associations between configuration item classes in managed networks

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013114911A1 (ja) * 2012-02-01 2013-08-08 日本電気株式会社 リスク評価システム、リスク評価方法、及びプログラム
US20150358215A1 (en) * 2012-06-29 2015-12-10 Nec Corporation Shared risk influence evaluation system, shared risk influence evaluation method, and program
JP6237649B2 (ja) * 2013-01-23 2017-11-29 日本電気株式会社 情報処理装置及び影響判定方法
US20160117622A1 (en) * 2013-05-22 2016-04-28 Nec Corporation Shared risk group management system, shared risk group management method, and shared risk group management program
CN104679619A (zh) * 2013-11-28 2015-06-03 英业达科技有限公司 服务器与服务器检测方法
WO2015114816A1 (ja) * 2014-01-31 2015-08-06 株式会社日立製作所 管理計算機および管理プログラム
US9852007B2 (en) 2014-02-12 2017-12-26 Hitachi, Ltd. System management method, management computer, and non-transitory computer-readable storage medium
CN106126389B (zh) * 2016-06-23 2019-02-01 上海爱数信息技术股份有限公司 硬件检测方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003058520A (ja) * 2001-08-09 2003-02-28 Mitsubishi Heavy Ind Ltd コンピュータの配置方法
JP2005234861A (ja) * 2004-02-19 2005-09-02 Mitsubishi Electric Corp 管理装置、及び、管理システム
JP4669487B2 (ja) * 2007-03-02 2011-04-13 株式会社日立製作所 情報処理システムの運用管理装置および運用管理方法
JP4577384B2 (ja) * 2008-03-14 2010-11-10 日本電気株式会社 管理マシン、管理システム、管理プログラム、および、管理方法
JP5109799B2 (ja) * 2008-05-15 2012-12-26 富士通株式会社 情報処理システム、負荷制御方法、および負荷制御プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012048408A (ja) * 2010-08-25 2012-03-08 Fujitsu Ltd アプリケーションの多重関係を検出する装置、方法、およびプログラム
CN103744735A (zh) * 2014-01-09 2014-04-23 福建星网锐捷网络有限公司 一种多核资源的调度方法及装置
US10693745B2 (en) 2018-02-27 2020-06-23 Servicenow, Inc. Defining and enforcing operational associations between configuration item classes in managed networks

Also Published As

Publication number Publication date
WO2011138879A1 (ja) 2011-11-10

Similar Documents

Publication Publication Date Title
WO2011138879A1 (ja) 情報処理システムの運用管理装置および運用管理方法
US10680874B2 (en) Network service fault handling method, service management system, and system management module
EP3231135B1 (en) Alarm correlation in network function virtualization environment
JP5557590B2 (ja) 負荷分散装置及びシステム
CN108632067B (zh) 容灾部署方法、装置及系统
EP2979183B1 (en) Method and arrangement for fault management in infrastructure as a service clouds
US7949882B2 (en) Storage session management system in storage area network
US8751637B2 (en) Network monitoring server and network monitoring system
US11886904B2 (en) Virtual network function VNF deployment method and apparatus
US7681088B2 (en) Apparatus expressing high availability cluster demand based on probability of breach
EP3400528A1 (en) Deferred server recovery in computing systems
EP3044906A1 (en) Apparatus and method for monitoring network performance
JP2017069895A (ja) 障害切り分け方法および障害切り分けを行う管理サーバ
US9881056B2 (en) Monitor system and monitor program
US9021078B2 (en) Management method and management system
CN108780408B (zh) 基于全局实现号识别逻辑实体的实现状况
US9317355B2 (en) Dynamically determining an external systems management application to report system errors
US20240039813A1 (en) Health analytics for easier health monitoring of a network
JP5734421B2 (ja) 管理情報生成方法、管理情報生成プログラムおよび管理情報生成装置
JP5483784B1 (ja) 制御装置、計算資源管理方法及び計算資源管理プログラム
JP2006039662A (ja) Wwwサーバ障害時の代理応答装置及び代理応答装置を備えたwwwサーバ装置
US11750489B1 (en) Modifying health monitoring through user interface
TWI691183B (zh) 應用於虛擬網路功能之備援方法及系統
US20240037475A1 (en) Health analytics for easier health monitoring of logical networks
JP2017028644A (ja) 故障監視装置および故障監視方法