JP7239828B2 - システム管理方法、システム管理プログラム、およびシステム管理装置 - Google Patents

システム管理方法、システム管理プログラム、およびシステム管理装置 Download PDF

Info

Publication number
JP7239828B2
JP7239828B2 JP2019142838A JP2019142838A JP7239828B2 JP 7239828 B2 JP7239828 B2 JP 7239828B2 JP 2019142838 A JP2019142838 A JP 2019142838A JP 2019142838 A JP2019142838 A JP 2019142838A JP 7239828 B2 JP7239828 B2 JP 7239828B2
Authority
JP
Japan
Prior art keywords
risk
failure
devices
impact
physical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019142838A
Other languages
English (en)
Other versions
JP2021026432A (ja
Inventor
玲子 近藤
武 安家
正洋 麻岡
和宏 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2019142838A priority Critical patent/JP7239828B2/ja
Priority to US16/935,933 priority patent/US11544127B2/en
Publication of JP2021026432A publication Critical patent/JP2021026432A/ja
Application granted granted Critical
Publication of JP7239828B2 publication Critical patent/JP7239828B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/008Reliability or availability analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/004Error avoidance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5077Logical partitioning of resources; Management or configuration of virtualized resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • G06F9/5088Techniques for rebalancing the load in a distributed system involving task migration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/4557Distribution of virtual machine instances; Migration and load balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45591Monitoring or debugging support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45595Network integration; Enabling network access in virtual machine instances
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/81Threshold
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/815Virtual

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Description

本発明は、システム管理方法、システム管理プログラム、およびシステム管理装置に関する。
データセンタやクラウドコンピューティングシステムにおけるコンピュータシステムは、多くの機器が混在し、システム構成は複雑である。なおここでいう機器には、仮想機器も含まれる。大規模なシステムでは、物理的な機器の故障、リソース逼迫などのさまざまな原因で障害が発生する。複雑な構成のシステムでは、1つの機器で障害が発生すると、その障害の影響が周辺の関連機器に影響を及ぼし、連鎖的に周辺の機器にも障害が発生する場合がある。一部の機器で障害が発生した場合、例えばフェイルオーバなどにより障害の影響を受ける仮想マシン(VM:Virtual Machine)を別の物理マシンに移動させることで、障害の影響の拡大を抑止することができる。
障害の影響を受ける可能性の判断技術としては、例えば障害の影響を受ける可能性の高さの違いを判別できるようにする影響範囲特定プログラムが提案されている。
特開2018-205811号公報
実際に障害が発生した後にVMの移動などフェイルオーバを実施しても、発生した障害の影響によりフェイルオーバに失敗する可能性がある。そこでいずれかの機器での障害の発生により、その障害の影響を受けるリスク(可能性)が高い機器は、実際に障害が発生する前に、障害の影響を受けるリスクが低い物理サーバに移動させることで、該当機器の機能が停止することを抑止できる。
しかし従来は、各機器が他の複数の機器のいずれかで発生する可能性がある障害(未発生の障害)の影響を受けるリスクを正しく計算する技術がない。すなわち、障害発生前に、障害の影響を受けるリスクの高い機器を適切に判断することができない。そのため、障害を受けるリスクが高い機器を、障害発生前に、障害を受けるリスクが低い物理サーバに移動させ、他の機器の障害の影響を受けるリスクを低減させることが困難である。
1つの側面では、本件は、他の機器の障害の影響を受けるリスクを低減させることを目的とする。
1つの案では、コンピュータによるシステム管理方法が提供される。当該システム管理方法によれば、コンピュータが以下の処理を実行する。
コンピュータは、ネットワークに接続されている複数の物理装置および複数の物理装置上に構築された仮想機器を含めた複数の機器それぞれについて、複数の機器の動作状況を示す動作状況情報に基づいて、障害が発生する可能性を示す障害リスクを算出する。次にコンピュータは、機器の種別ごとに障害の影響が及ぶ範囲の探索経路が示された探索経路情報に基づいて、複数の機器それぞれについて、障害が発生した場合に障害の影響が及ぶ影響範囲を算出する。次にコンピュータは、第1物理装置上に構築された仮想機器である分析対象機器を障害の影響範囲に含んでいる機器の障害リスクに基づいて、分析対象機器が他の機器の障害の影響を受ける可能性を示す第1影響リスクを算出する。次にコンピュータは、第1物理装置以外の第2物理装置ごとに、分析対象機器を第1物理装置から第2物理装置に移動させた場合に分析対象機器を障害の影響範囲内に含むこととなる機器の障害リスクに基づいて、分析対象機器が移動後に他の機器の障害の影響を受ける可能性を示す第2影響リスクを算出する。そしてコンピュータは、第2影響リスクが第1影響リスクよりも低い値の第2物理装置のうちの1つを、分析対象機器の移動先に決定する。
1態様によれば、他の機器の障害の影響を受けるリスクを低減させることができる。
第1の実施の形態に係るシステム管理方法の一例を示す図である。 第2の実施の形態のシステム構成例を示す図である。 管理サーバのハードウェアの一構成例を示す図である。 物理サーバで発生した障害の影響範囲の一例を示す図である。 VMで発生した障害の影響範囲の一例を示す図である。 分析対象機器に影響を及ぼす障害想定機器の一例を示す図である。 機器ごとに算出した障害リスクの一例を示す図である。 分析対象機器の影響リスクの計算例を示す図である。 影響リスクが過大となった機器の移動例を示す図である。 管理サーバが有する機能を示すブロック図である。 記憶部が記憶する情報の一例を示す図である。 システム構成モデルの一例を示す図である。 システム構成モデルで表されるシステム構成の一例を示す図である。 障害リスクテーブルの一例を示す図である。 影響リスクテーブルの一例を示す図である。 影響範囲探索経路情報の一例を示す図である。 リスク分析処理の手順の一例を示すフローチャートである。 障害リスクの算出例を示す図である。 障害リスク算出処理の手順の一例を示すフローチャートである。 影響範囲探索の第1の例を示す図である。 影響範囲探索の第2の例を示す図である。 影響範囲探索の第3の例を示す図である。 影響範囲探索の第4の例を示す図である。 影響範囲探索の第5の例を示す図である。 影響範囲判定処理の手順の一例を示すフローチャートである。 分析対象機器に対して影響を及ぼす障害想定機器の検出例を示す図である。 複数の障害想定機器の影響範囲に含まれる分析対象機器の例を示す図である。 影響リスクの算出例を示す図である。 影響リスク算出処理の手順の一例を示すフローチャートである。 影響リスクが高い機器の移動例を示す図である。 移動先判定処理の手順の一例を示すフローチャートである。 移動先候補物理サーバ判定処理の手順の一例を示すフローチャートである。 移動先候補物理サーバリストの一例を示す図である。 物理サーバ選択処理の手順の一例を示すフローチャートである。 推奨移動先物理サーバの選択例を示す図である。 移動先候補ストレージ判定処理の手順の一例を示すフローチャートである。 移動先候補ストレージリストの一例を示す図である。 ストレージ選択処理の手順の一例を示すフローチャートである。 推奨移動先ストレージの選択例を示す図である。 VM移動処理の手順の一例を示すフローチャートである。 管理用端末装置に表示されるリスク分析画面の一例を示す図である。 VMを自動で移動可能な管理サーバが有する機能を示すブロック図である。 リスク分析処理の手順の一例を示すフローチャートである。 移動先判定処理の手順の一例を示すフローチャートである。 移動先候補物理サーバ判定処理の手順の一例を示すフローチャートである。 物理サーバ選択処理の手順の一例を示すフローチャートである。 移動先候補ストレージ判定処理の手順の一例を示すフローチャートである。 ストレージ選択処理の手順の一例を示すフローチャートである。 VM移動処理の手順の一例を示すフローチャートである。 VMの自動移動を行う場合のリスク分析画面の一例を示す図である。
以下、本実施の形態について図面を参照して説明する。なお各実施の形態は、矛盾のない範囲で複数の実施の形態を組み合わせて実施することができる。
〔第1の実施の形態〕
まず、第1の実施の形態について説明する。第1の実施の形態は、VMなどの仮想機器を、他の物理装置または仮想機器の障害の影響を受けるリスク(影響リスク)が少ない物理装置で実現させるようにコンピュータシステムを管理するシステム管理方法である。
図1は、第1の実施の形態に係るシステム管理方法の一例を示す図である。図1には、システム管理装置10を用いて、システム管理方法を実施した場合の例を示している。システム管理装置10は、例えばシステム管理方法の処理手順が記述されたシステム管理プログラムを実行することにより、システム管理方法を実施することができる。
システム管理装置10は、システム管理方法を実現するために、記憶部11と処理部12とを有する。記憶部11は、例えばシステム管理装置10が有するメモリ、またはストレージ装置である。処理部12は、例えばシステム管理装置10が有するプロセッサ、または演算回路である。なお、以下の説明において、ストレージ装置を単に「ストレージ」と呼ぶこともある。
システム管理装置10は、ネットワーク2に接続されている。ネットワーク2には、複数の物理装置1a,1b,・・・が接続されている。複数の物理装置1a,1b,・・・は、割り当てられた仮想機器を構築する。複数の物理装置1a,1b,・・・上に構築される仮想機器には、VMやボリュームがある。例えば物理装置が物理サーバであればその物理装置上でVMが構築され、物理装置がストレージであればその物理装置上でボリュームが構築される。
記憶部11は、例えばシステム構成モデル3を記憶する。システム構成モデル3は、システムを構成する複数の機器の接続関係が示されている。複数の機器には、ネットワーク2に接続されている複数の物理装置1a,1b,・・・と複数の物理装置1a,1b,・・・上に構築されている仮想機器とが含まれる。図1の例では、ネットワーク2に、物理装置1a,1b,・・・として物理ルータ3a、3e、物理サーバ3b,3fが存在することが示されており、物理装置1a,1b,・・・上に構築された仮想機器としてVM3c,3d,3gが存在することが示されている。
処理部12は、システム構成モデル3を参照して、リスク分析の対象となる機器(分析対象機器)が他の機器の障害の影響を受けるリスクを低減させることができるように、仮想機器の移動先とする物理装置を決定する。なお処理部12は、例えばシステムの管理者が指定した機器を分析対象機器とする。さらに処理部12は、決定した物理装置に、機器のうち、仮想機器を移動させることもできる。例えば処理部12は、以下のような処理を実行する。
処理部12は、まず複数の物理装置1a,1b,・・・それぞれについて、障害が発生する可能性を示す障害リスクを算出する(ステップS1)。例えば処理部12は、ネットワーク2に接続されている複数の物理装置1a,1b,・・・それぞれから、複数の物理装置1a,1b,・・・および複数の物理装置1a,1b,・・・上に構築されている仮想機器の動作状況を示す動作状況情報を取得する。動作状況情報には、例えばCPU(Central Processing Unit)使用率、メモリ使用率、ディスク使用率などの時系列変化を示す情報が含まれる。次に処理部12は、動作状況情報に基づいて、複数の物理装置および仮想機器それぞれについて、障害が発生する可能性を示す障害リスクを算出する。例えば処理部12は、稼働時間のうちのCPU使用率が所定値以上となっている時間の割合を、障害リスクとすることができる。
次に処理部12は、複数の物理装置および複数の物理装置上に構築された仮想機器それぞれについて、機器に障害が発生した場合のその機器(障害想定機器)の影響範囲を算出する(ステップS2)。例えば処理部12は、機器の種別ごとに障害の影響が及ぶ範囲の探索経路が示された探索経路情報に基づいて、影響範囲にある物理装置または仮想機器を判断する。探索経路情報には、例えば探索起点が物理装置であれば、その物理装置上に構築されている仮想機器を探索することが示されている。探索で見つかった仮想機器が、探索起点の物理装置の影響範囲内の機器である。また探索経路情報には、例えば探索起点がVMまたはボリュームなどの仮想機器であれば、その仮想機器を構築している物理装置、およびその物理装置上に構築されている他の仮想機器を探索することが示されている。探索で見つかった機器が、探索起点の仮想機器の影響範囲内の機器である。
次に処理部12は、第1物理装置上に構築された仮想機器である分析対象機器を障害の影響範囲に含んでいる機器の障害リスクに基づいて、分析対象機器が他の機器の障害の影響を受ける可能性を示す影響リスク(第1影響リスク)を算出する(ステップS3)。例えば処理部12は、分析対象機器を障害の影響範囲に含んでいる機器の障害リスクの合計を、分析対象機器の影響リスクとする。例えば物理ルータ3aの障害リスクが「0.1」、物理サーバ3bの障害リスクが「0.1」、VM3cの障害リスクが「0.3」の場合、VM3dの影響リスクは「0.5」となる。
また処理部12は、第1物理装置以外の第2物理装置ごとに、分析対象機器が第2物理装置に移動後に他の機器の障害の影響を受ける可能性を示す影響リスク(第2影響リスク)を算出する。例えば処理部12は、分析対象機器を第1物理装置から第2物理装置に移動させた場合に分析対象機器を障害の影響範囲内に含むこととなる機器を特定する。そして処理部12は、特定した機器の障害リスクに基づいて、分析対象機器が移動後に他の機器の障害の影響を受ける可能性を示す第2影響リスクを算出する。例えば処理部12は、分析対象機器3dに対応する仮のVM4を、VMを構築可能な物理装置(物理サーバ3f)で構築する場合を想定する。そして処理部12は、仮のVM4を障害の影響範囲内に含む機器の障害リスクの合計を、仮のVM4の影響リスクとする。物理ルータ3eの障害リスクが「0.1」、物理サーバ3fの障害リスクが「0.1」、VM3gの障害リスクが「0.1」の場合、仮のVM4の影響リスクは「0.3」となる。仮のVM4の影響リスクが、分析対象機器3dを物理サーバ3bから物理サーバ3fへ移動させた場合の移動後の影響リスクである。
さらに処理部12は、第2影響リスクが第1影響リスクよりも低い値の第2物理装置のうちの1つを、分析対象機器の移動先に決定する(ステップS4)。例えば処理部12は、分析対象機器の影響リスクが最小となる第2物理装置を、分析対象機器の移動先に決定する。また処理部12は、影響リスクが所定の閾値以下となる第2物理装置のうちのいずれか1つを、分析対象機器の移動先に決定してもよい。図1の例では、VM3dの影響リスクよりも仮のVM4の方が、影響リスクが小さい。この場合、処理部12は、物理サーバ3fを、分析対象機器(VM3d)の移動先に決定する。
そして処理部12は、決定した第2物理装置に分析対象機器を移動させる(ステップS5)。例えば物理サーバ3b上に構築されているVM3dが分析対象機器の場合、処理部12は、VM3dを物理サーバ3f上に移動させる。具体的には、処理部12は、ネットワーク2を介して物理サーバ3bに対して、VM3dの物理サーバ3fへのマイグレーションを指示する。さらに処理部12は、物理サーバ3fに対して、マイグレーションされたVM3dの構築を指示する。
このようにして、分析対象機器が他の機器の障害の影響を受ける影響リスクを低下させることができる。すなわちシステム管理装置10は、仮想機器が構築されている物理機器の障害リスクだけでなく、その物理機器上の他の仮想機器や、その物理機器に接続された他の物理装置での障害リスクを考慮して、仮想機器を構築する物理装置を決定することができる。その結果、例えば仮想機器を構築する物理装置の障害リスクのみを考慮して仮想機器を構築する物理装置を決定する場合に比べて、その仮想機器を安定して運用できる可能性が向上する。
なお処理部12は、仮の機器の影響リスクが閾値以下となるような物理装置のうち、分析対象機器が構築されている物理装置との間のネットワーク2の経路上の他の物理装置の数が最小となる第2物理装置を、移動先に決定してもよい。これにより、仮想機器を移動させる際のシステムの処理負荷の低減(例えばネットワークの通信負荷の低減)を図ることができる。
また処理部12は、仮の機器の影響リスクが閾値以下となるような物理装置のうち、分析対象機器が構築されている物理装置との間のネットワーク2の経路上の他の物理装置の障害リスクの合計が最小となる第2物理装置を、移動先に決定してもよい。これにより、仮想機器を移動させる際に障害の影響を受ける可能性を低減し、仮想機器を確実に移動させることができる。
処理部12は、複数の物理装置のいずれかで構築されている既存の仮想機器それぞれについて、影響リスクの低減が可能かどうかを定期的に判断し、影響リスクの低減が可能な仮想機器を、影響リスクが低減する物理装置へ自動的に移動させることもできる。その場合、処理部12は、複数の物理装置のいずれかで構築されている仮想機器ごとに、探索経路情報に基づいて、既存の仮想機器に障害の影響を及ぼす障害想定機器を判断する。次に処理部12は、既存の仮想機器ごとに、障害想定機器の障害リスクに基づいて、仮想機器が障害想定機器の障害の影響を受ける可能性を示す影響リスクを算出する。そして処理部12は、影響リスクが移動前影響リスク閾値を超えている仮想機器の移動先を決定し、他の物理装置に移動させる。これにより、システム全体をリスクの少ない状態に保つことができ、システムの安定性が向上する。
〔第2の実施の形態〕
次に第2の実施の形態について説明する。第2の実施の形態は、特に重要なVMなどの機器(例えば銀行などの社会的責任の大きい機器など)をユーザが指定し、該当機器が周辺機器によって障害を受けるリスクを低減できるようにしたものである。
図2は、第2の実施の形態のシステム構成例を示す図である。ネットワーク20には、監視対象の機器として、例えばサーバ31a,31b,・・・、端末装置32a,32b,・・・、ストレージ装置33a,33b,・・・、ネットワーク機器34a,34b,・・・などがある。ネットワーク20には、さらに管理サーバ100と管理用端末装置30が接続されている。管理サーバ100は、監視対象の機器から情報を取得し、障害の影響を受けるリスクの高い機器を検出し、その機器を、リスクが低くなる物理サーバへ移動させる。管理用端末装置30は、システムの管理者が使用するコンピュータである。
図3は、管理サーバのハードウェアの一構成例を示す図である。管理サーバ100は、プロセッサ101によって装置全体が制御されている。プロセッサ101には、バス109を介してメモリ102と複数の周辺機器が接続されている。プロセッサ101は、マルチプロセッサであってもよい。プロセッサ101は、例えばCPU、MPU(Micro Processing Unit)、またはDSP(Digital Signal Processor)である。プロセッサ101がプログラムを実行することで実現する機能の少なくとも一部を、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)などの電子回路で実現してもよい。
メモリ102は、管理サーバ100の主記憶装置として使用される。メモリ102には、プロセッサ101に実行させるOS(Operating System)のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、メモリ102には、プロセッサ101による処理に利用する各種データが格納される。メモリ102としては、例えばRAM(Random Access Memory)などの揮発性の半導体記憶装置が使用される。
バス109に接続されている周辺機器としては、ストレージ装置103、グラフィック処理装置104、入力インタフェース105、光学ドライブ装置106、機器接続インタフェース107およびネットワークインタフェース108がある。
ストレージ装置103は、内蔵した記録媒体に対して、電気的または磁気的にデータの書き込みおよび読み出しを行う。ストレージ装置103は、コンピュータの補助記憶装置として使用される。ストレージ装置103には、OSのプログラム、アプリケーションプログラム、および各種データが格納される。なお、ストレージ装置103としては、例えばHDD(Hard Disk Drive)やSSD(Solid State Drive)を使用することができる。
グラフィック処理装置104には、モニタ21が接続されている。グラフィック処理装置104は、プロセッサ101からの命令に従って、画像をモニタ21の画面に表示させる。モニタ21としては、有機EL(Electro Luminescence)を用いた表示装置や液晶表示装置などがある。
入力インタフェース105には、キーボード22とマウス23とが接続されている。入力インタフェース105は、キーボード22やマウス23から送られてくる信号をプロセッサ101に送信する。なお、マウス23は、ポインティングデバイスの一例であり、他のポインティングデバイスを使用することもできる。他のポインティングデバイスとしては、タッチパネル、タブレット、タッチパッド、トラックボールなどがある。
光学ドライブ装置106は、レーザ光などを利用して、光ディスク24に記録されたデータの読み取りを行う。光ディスク24は、光の反射によって読み取り可能なようにデータが記録された可搬型の記録媒体である。光ディスク24には、DVD(Digital Versatile Disc)、DVD-RAM、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)などがある。
機器接続インタフェース107は、管理サーバ100に周辺機器を接続するための通信インタフェースである。例えば機器接続インタフェース107には、メモリ装置25やメモリリーダライタ26を接続することができる。メモリ装置25は、機器接続インタフェース107との通信機能を搭載した記録媒体である。メモリリーダライタ26は、メモリカード27へのデータの書き込み、またはメモリカード27からのデータの読み出しを行う装置である。メモリカード27は、カード型の記録媒体である。
ネットワークインタフェース108は、ネットワーク20に接続されている。ネットワークインタフェース108は、ネットワーク20を介して、他のコンピュータまたは通信機器との間でデータの送受信を行う。
管理サーバ100は、以上のようなハードウェア構成によって、第2の実施の形態の処理機能を実現することができる。なお、第1の実施の形態に示したシステム管理装置10も、図3に示した管理サーバ100と同様のハードウェアにより実現することができる。
管理サーバ100は、例えばコンピュータ読み取り可能な記録媒体に記録されたプログラムを実行することにより、第2の実施の形態の処理機能を実現する。管理サーバ100に実行させる処理内容を記述したプログラムは、様々な記録媒体に記録しておくことができる。例えば、管理サーバ100に実行させるプログラムをストレージ装置103に格納しておくことができる。プロセッサ101は、ストレージ装置103内のプログラムの少なくとも一部をメモリ102にロードし、プログラムを実行する。また管理サーバ100に実行させるプログラムを、光ディスク24、メモリ装置25、メモリカード27などの可搬型記録媒体に記録しておくこともできる。可搬型記録媒体に格納されたプログラムは、例えばプロセッサ101からの制御により、ストレージ装置103にインストールされた後、実行可能となる。またプロセッサ101が、可搬型記録媒体から直接プログラムを読み出して実行することもできる。
このようなシステムにおいて、管理サーバ100は、ユーザが指定したVMについて、他の機器の障害の影響を受ける可能性(影響リスク)を計算する。影響リスクとは、周辺機器からの障害の影響を受ける可能性を表す値である。そして管理サーバ100は、影響リスクの値を用い、障害が発生する前に、障害を受ける可能性の低い物理サーバへVMを移動し、そのVMに対して障害の影響が及ぶことを抑止する。以下、影響リスクを算出する対象の機器を、分析対象機器と呼ぶ。
管理サーバ100は、例えば周辺機器の障害リスクと影響範囲の重ね合わせから、分析したい機器自身の障害リスクだけではなく周辺機器から受ける影響リスクを算出する。ここで障害リスクとは、各機器の障害が発生する可能性を表す値である。影響範囲とは、ある機器に障害が発生したことによって、影響を受ける機器のことである。そして管理サーバ100は、現構成での分析対象機器の影響リスクと仮に分析対象機器を他の物理サーバへ移動した場合の影響リスクを比較し、影響リスクが低くなる物理サーバへ分析対象機器を移動する。
図4は、物理サーバで発生した障害の影響範囲の一例を示す図である。図4の例では、物理ルータ41に物理スイッチ42が接続されている。物理スイッチ42に物理サーバ43が接続されている。物理サーバ43ではVM48a~48cが動作している。物理ルータ44に物理スイッチ45が接続されている。物理スイッチ45にストレージ46が接続されている。ボリューム47を用いてVM48c,48dが構築されている。また2台の物理ルータ41,44が互いに接続されている。なおボリューム47は、ストレージ46内の記憶領域の管理単位である。1つのストレージ46内に複数のボリュームを生成することも可能である。
ここで物理サーバ43において障害が発生した場合を想定する。なお、影響範囲の抽出処理において障害が発生したものと想定する機器を障害想定機器と呼ぶ。障害想定機器が物理サーバ43の場合、管理サーバ100は、例えばその物理サーバ43上のVM48a~48cを影響範囲とする。
図5は、VMで発生した障害の影響範囲の一例を示す図である。図5の例では、VM48cを障害想定機器としている。障害想定機器がVM48cの場合、管理サーバ100は、例えばそのVM48cが構築されている物理サーバ43とその物理サーバ43上の他のVM48a,48bを影響範囲に含める。また管理サーバ100は、障害想定機器であるVM48cが構築されているボリューム47、そのボリューム47を有するストレージ46、およびそれらのボリューム47とストレージ46とを利用している他のVM48dを、影響範囲に含める。
障害想定機器としては、物理サーバ、VM以外にも、物理スイッチ、物理ルータ、ボリューム、ストレージが想定される。管理サーバ100は、機器の種別ごとの影響範囲の抽出方法が定義されており、機器ごとに、機器の種別に応じた影響範囲を抽出する。管理サーバ100は、例えば1時間単位程度の間隔で定期的に、各機器の影響範囲を抽出する。また管理サーバ100は、システムの構成情報の変化を検出したタイミングで、各機器の影響範囲を抽出してもよい。さらに管理サーバ100は、分析対象機器に対する影響リスクを分析するタイミングで、各機器の影響範囲を抽出してもよい。
なお、図5の例では、障害想定機器がVMの場合、同じ物理サーバ上の他のVMを影響範囲に含めている。この理由の1つは、オーバーコミット時など、同じホスト上のVMのCPU使用量によって他のVMの性能に影響が出る可能性があり得るためである。同じ物理サーバ上の他のVMを影響範囲とした他の理由は、障害想定機器であるVMへの人による設定ミスで物理サーバの通信帯域が占領され、他のVMに影響を及ぼすことがあり得るためである。
管理サーバ100は、機器ごとに、その機器が影響範囲となっている機器を抽出する。これより、ある機器を分析対象機器とした場合に、分析対象機器が他のどの機器の影響範囲に含まれているのかが分かる。そこで管理サーバ100は、障害による影響を及ぼす範囲に分析対象機器を含む機器(障害想定機器)を抽出する。
図6は、分析対象機器に影響を及ぼす障害想定機器の一例を示す図である。例えば、分析対象機器がVM48cの場合、そのVM48cが構築されている物理サーバ43とその物理サーバ43上に構築されている他のVM48a,48bが障害想定機器に含まれる。また分析対象機器であるVM48cが構築されているボリューム47やストレージ46とそのボリューム47上に構築されている他のVM48d、ストレージ46に設けられた他のボリューム(図示せず)も障害想定機器に含まれる。さらに分析対象機器であるVM48cが構築されている物理サーバ43やストレージ46に接続される物理スイッチ42,45と物理ルータ41,44も障害想定機器に含まれる。これらの障害想定機器群のいずれかに障害が発生した場合、分析対象機器であるVM48cに障害の影響が及ぶ。
また管理サーバ100は、各機器について、機器自身の障害リスクを算出する。障害リスクには、リソース障害リスク、利用者障害リスク、耐用障害リスク、環境障害リスクなどがある。
例えば管理サーバ100は、仮想機器(VMやボリューム)に関する障害リスクとして、リソース障害リスクと利用者障害リスクとを計算する。
リソース障害リスクは、リソースの余力不足により生じる障害のリスクである。例えば管理サーバ100は、VMに割り当てられているリソース(CPU、メモリ、ストレージ装置)の使用状況が100%または100%に近い値に達した時間を、該当VMの稼働時間で割った値を、該当VMのリソース障害リスクとする。なお、VMに割り当てるリソース量を自動調整することでリソース障害リスクを低減することは可能であるが、リソース量の自動調整は、時間と負荷がかかり性能が劣化することがある。そのためリソースの自動調整が頻繁に起こることは、パフォーマンスの安定維持ができない可能性が高く、システムの動作が不安定になるという障害のリスクを生じさせる。そこで管理サーバ100は、リソース量の自動調整機能の有無にかかわらず、リソース障害リスクを、機器の障害リスクのうちの1つに含める。
利用者障害リスクとは、利用者による不適切な機器の利用によって生じる障害のリスクである。例えば管理サーバ100は、利用者の操作ミスや設定ミスなどによる障害があった場合、今後も同様のミスが発生する可能性があるとして一定の障害リスクを、利用者障害リスクとして算出する。
また管理サーバ100は、物理機器に関する障害リスクとして、耐用障害リスクと環境障害リスクとを算出する。
耐用障害リスクは、機器の使用履歴(使用年数、使用状況)と、耐用年数または製造者が保証する使用時間とを比較して算出される障害リスクである。例えば管理サーバ100は、機器の一般的な耐用年数と現在の使用年数との差や、機器の故障回数に基づいて、対象障害リスクを計算する。
環境障害リスクは、機器の使用環境に起因して過去に発生した障害の発生を加味して計算される障害リスクである。例えば管理サーバ100は、温度上昇や部品故障など、通常の耐用年数とは異なる不良が生じた機器には、一定の環境障害リスクを付与する。
管理サーバ100は、例えば各機器について、上記のような種類別の障害リスクを算出し、それらの障害リスクの合計を、該当機器の障害リスクとする。よって障害リスクは0以上の任意の値となる。なお管理サーバ100は、システム全体で算出された機器ごとの障害リスクの最大値で、各機器の障害リスクを除算するなどで、障害リスクの値を0から1の範囲内に正規化してもよい。なお管理サーバ100は、算出する障害リスクの種類を、システムを構成するすべての機器に関して同じとし、障害リスクの算出条件を、すべての機器に関して等しくする。
図7は、機器ごとに算出した障害リスクの一例を示す図である。図7の例では、障害リスクの値が0~1の範囲内に正規化されている。
管理サーバ100は、機器ごとに算出した障害リスクと各機器の影響範囲とに基づいて、分析対象機器の影響リスクを算出する。影響リスクの算出方法は以下の通りである。
管理サーバ100は、分析対象機器が影響範囲となっているすべての機器の障害リスクを加算することで、分析対象機器の影響リスクを算出する。影響リスクは周辺機器の障害リスクから算出されるものであるため、分析対象機器の障害リスクは、その分析対象機器の影響リスクには含まれない。
影響リスクは0以上の任意の値となるが、障害リスク算出の条件は等しく設定されているため、機器ごとの影響リスクも同じ条件の下で比較できる。なお管理サーバ100は、システム全体で算出された最大値で各影響リスクを除算するなどで、影響リスクの値を0から1の範囲内に正規化してもよい。
図8は、分析対象機器の影響リスクの計算例を示す図である。図8の例では、VM48cが分析対象機器である。VM48cは、物理サーバ43を障害想定機器としたときの影響範囲に含まれる。またVM48cは、ストレージ46を障害想定機器としたときの影響範囲にも含まれる。そこで管理サーバ100は、VM48cの影響リスクの算出の際には、物理サーバ43の障害リスク「0.13」とストレージ46の障害リスク「0.07」とを、VM48cの影響リスクに加算する。他の機器が障害想定機器となる場合も同様に、管理サーバ100は、順次、VM48cが影響範囲に入っている機器の障害リスクを、VM48cの影響リスクに加算していく。VM48cを影響範囲に含むすべての障害想定機器の障害リスクの合計が、VM48cの影響リスクとなる。
管理サーバ100は、分析対象機器の影響リスクが所定の閾値を超えた場合に、分析対象機器のネットワーク上での位置を移動させてもよい。例えば分析対象機器がVMの場合、管理サーバ100は、そのVMを現在稼働させている物理サーバから、他の物理サーバに移動させる。
図9は、影響リスクが過大となった機器の移動例を示す図である。図9に示すシステムには、物理ルータ51a~51d、物理スイッチ52a~52d、物理サーバ53a,53b、ストレージ54a,54b、ボリューム55a~55c、およびVM56a~56kが含まれる。
管理サーバ100は、物理サーバ53a上に構築されているVM56eを分析対象機器として影響リスクを計算し、影響リスクが所定の閾値を超えたと判断すると、VM56eを他の物理サーバ53b上に移動した場合の仮のVM57の影響リスクを算出する。管理サーバ100は、仮のVM57の影響リスクが十分に低ければ、分析対象機器であるVM56eを仮のVM57の位置に移動させる。例えば管理サーバ100は、物理サーバ53aの仮想化マネージャに対して、VM56eの物理サーバ53bへのマイグレーションを指示する。なお管理サーバ100は、特に重要な機器を優先的に、影響リスクが低くなる物理サーバへ移動させる。
仮のVM57の影響リスクは、仮のVM57の位置(どの物理サーバ上に構築され、どのボリュームを使用するか)の周辺機器の障害リスクに依存するが、各機器の障害リスクの計算には、周辺機器の障害リスクの値は用いない。そのため仮のVM57の位置に分析対象機器であるVM56eを移動させても、移動先の周辺機器の障害リスクが変わることもない。
管理サーバ100は、例えば、移動させるVM56eをできるだけ近い位置を、移動先の候補とする。この場合、管理サーバ100は、VM56eが構築された物理サーバ53aとのネットワーク上の距離が近い物理サーバから順に移動先の候補とし、移動先の候補となった物理サーバに仮のVM57を構築した場合の、仮のVM57の影響リスクを算出する。そして管理サーバ100は、仮のVM57の影響リスクが予め決めた閾値以下となった場所を、VM56eの移動先とする。
図9の例では、分析対象機器であるVM56eの影響リスクは「0.87」であるが、仮のVM57の影響リスクは「0.11」である。そこで管理サーバ100は、VM56eを仮のVM57の位置へ移動させる。
なお管理サーバ100は、仮のVM57の影響リスクを算出する場合、例えばVM56eを移動可能なすべての場所について、その場所に仮のVM57を構築した場合の影響リスクを計算してもよい。また管理サーバ100は、計算時間短縮のため、影響リスクの小さい物理サーバから優先的に、その物理サーバに仮のVM57を構築した場合の影響リスクを計算してもよい。
さらに管理サーバ100は、分析対象機器であるVM56eを移動させる際に、経由するスイッチやルータの数ができるだけ少なくなる場所を、移動先とすることもできる。例えば管理サーバ100は、VM56eが構築された物理サーバ53aと同じ物理ルータ51aを利用した同じラック内の他の物理サーバがある場合、その物理サーバを移動先候補として優先的に選出することができる。これにより、移動のための通信帯域の使用量を削減することができ、機器の移動に伴うシステムの効率の低下を抑止できる。
次に、管理サーバ100における障害のリスクの低減機能について具体的に説明する。
図10は、管理サーバが有する機能を示すブロック図である。管理サーバ100は、記憶部110、障害リスク算出部120、影響範囲判定部130、影響リスク算出部140、移動先判定部150、VM移動部160、およびリスク分析制御部170を有する。
記憶部110は、システム内の機器の影響リスクの算出に利用する情報を記憶する。例えばメモリ102またはストレージ装置103の記憶領域の一部が、記憶部110として使用される。
障害リスク算出部120は、リスク分析制御部170からの指示に応じて、システム内の機器それぞれの障害リスクを算出する。障害リスク算出部120は、算出した障害リスクを記憶部110に格納する。また障害リスク算出部120は、ネットワーク20を介してシステム構成を監視し、システム構成を示すシステム構成モデルを記憶部110に格納する。
影響範囲判定部130は、各機器の障害リスクが算出されると、システム内の機器それぞれの影響範囲を判定する。影響範囲判定部130は、判定した影響範囲の情報を記憶部110に格納する。
影響リスク算出部140は、各機器の影響範囲が算出されると、リスク分析制御部170から指定された分析対象装置の影響リスクを算出する。影響リスク算出部140は、算出した影響リスクを記憶部110に格納する。
移動先判定部150は、リスク分析制御部170から推奨移動先の判定指示を受信した場合、分析対象機器の影響リスクを低減可能な移動先を判定する。移動先判定部150は、判定した移動先を示す情報をリスク分析制御部170に送信する。
VM移動部160は、分析対象機器の移動が決定された場合に、該当機器の起動を、その機器が構築されている物理機器に送信する。
リスク分析制御部170は、リスク分析に用いる情報の入力の受け付け、および分析結果の表示を行う。例えばリスク分析制御部170は、分析対象機器の指定入力や影響リスクが閾値を超えたVMの移動実行指示を受け付ける。そしてリスク分析制御部170は、管理サーバ100のリスク分析のための機能を制御して分析結果を取得する。またリスク分析制御部170は、分析結果を管理用端末装置30に表示させる。
なお、図10に示した各要素間を接続する線は通信経路の一部を示すものであり、図示した通信経路以外の通信経路も設定可能である。また、図10に示した各要素の機能は、例えば、その要素に対応するプログラムモジュールをコンピュータに実行させることで実現することができる。
図11は、記憶部が記憶する情報の一例を示す図である。記憶部110には、例えばシステム構成モデル111、障害リスクテーブル112、影響リスクテーブル113,および影響範囲探索経路情報114が格納される。
システム構成モデル111は、システムに含まれる機器、および機器間の接続関係を示す情報である。障害リスクテーブル112は、機器ごとに判定された、該当機器で障害の発生した場合の影響範囲が設定されたデータテーブルである。影響リスクテーブル113は、分析対象機器の影響リスクが設定されたデータテーブルである。影響範囲探索経路情報114は、機器の種別ごとの、影響範囲の探索経路を示す情報である。
以下、図12~図16を参照して、記憶部110に格納されている情報の詳細を説明する。
図12は、システム構成モデルの一例を示す図である。システム構成モデル111には、機器情報と接続情報とが含まれる。機器情報には、システムの構成要素である機器(VMなどの仮想機器も含まれる)の名称(機器名)と、機器の機能が設定されている。接続情報には、ネットワーク上で直接接続されている機器のリストが設定されている。なお各機器の機器名は、機能を示す名称の後に識別番号を付与した名前としてもよい。機器名が「SV」で始まる機器はサーバである。機器名が「VM」で始まる機器は仮想マシン(VM)である。機器名が「Storage」で始まる機器はストレージである。機器名が「Volume」で始まる機器はボリュームである。
図13は、システム構成モデルで表されるシステム構成の一例を示す図である。システム構成111aに示されるように、システム内には多数の機器が複雑に関係し合っている。そのため、1つの機器に障害が発生すると、その障害の影響は他の機器にも及ぶ。多数の機器からの影響を受けやすい機器は、他の機器の障害の影響により機能低下などの問題が生じるリスクが高い。そこで各機器の影響リスクを正しく計算し、影響リスクを低減することが重要となる。
図14は、障害リスクテーブルの一例を示す図である。障害リスクテーブル112には、障害想定機器、障害リスク、および影響範囲にある機器の欄が設けられている。障害想定機器の欄には、障害が発生したと仮定した機器であり、影響範囲の探索が行われた起点となる機器名が設定されている。障害リスクの欄には、障害想定機器の障害リスクが設定されている。影響範囲にある機器の欄には、障害想定機器で障害が発生した場合にその障害の影響を受ける範囲に含まれる機器の機器名が設定されている。
図15は、影響リスクテーブルの一例を示す図である。影響リスクテーブル113には、分析対象機器、影響リスク、構築物理サーバ、接続ストレージ、および障害想定機器の欄が設けられている。分析対象機器の欄には、分析の対象となった場合の機器名が設定されている。影響リスクの欄には、分析対象機器について算出された影響リスクが設定されている。構築物理サーバの欄には、分析対象機器が構築されている物理サーバの機器名が設定されている。接続ストレージの欄には、分析対象機器が接続されているストレージの機器名が設定されている。障害想定機器の欄には、分析対象機器を影響範囲に含む障害想定機器の機器名が設定されている。
図16は、影響範囲探索経路情報の一例を示す図である。影響範囲探索経路情報114には、障害想定機器、探索機器種別、および影響範囲探索経路の欄が設けられている。障害想定機器の欄には、障害想定機器の種別が設定されている。探索機器種別の欄には、影響範囲探索の対象とする機器の種別(ストレージ関連機器なのかサーバ関連機器なのか)が設定されている。影響範囲探索経路の欄には、影響範囲の探索のために機器間の接続関係を辿る経路(接続関係探索経路)が設定されている。
管理サーバ100は、記憶部110に格納した情報を用いて、分析対象機器のリスク分析を実施する。
図17は、リスク分析処理の手順の一例を示すフローチャートである。以下、図17に示す処理をステップ番号に沿って説明する。
[ステップS101]リスク分析制御部170は、分析対象機器の入力を受け付ける。例えばリスク分析制御部170は、管理用端末装置30に対して、リスク分析画面の画面データを送信する。管理用端末装置30は、受信した画面データに基づいてリスク分析画面を表示する。管理者は、表示されたリスク分析画面を参照し、管理用端末装置30に分析対象機器を指定した影響リスク算出処理の実行を指示する入力を行う。管理用端末装置30は、影響リスク算出処理の実行を指示する入力に応じて、分析対象機器を指定した影響リスク算出要求を管理サーバ100に送信する。リスク分析制御部170は、影響リスク算出要求を受信すると、障害リスク算出部120に対して障害リスクの算出を指示する。またリスク分析制御部170は、影響リスク算出部140に対して分析対象機器を示す情報(例えば機器名)を送信する。
[ステップS102]障害リスク算出部120は、リスク分析制御部170からの指示に応じて、各機器の障害リスクを算出する。障害リスク算出部120は、障害リスクの算出処理が終了すると、影響範囲判定部130に影響範囲の判定を指示する。なお、障害リスク算出処理の詳細は後述する(図19参照)。
[ステップS103]影響範囲判定部130は、障害リスク算出部120からの指示に応じて、各機器で障害が発生した場合の影響範囲を判定する。影響範囲判定部130は、影響範囲判定処理が終了すると、影響リスク算出部140に影響リスクの算出を指示する。なお影響範囲判定処理の詳細は後述する(図25参照)。
[ステップS104]影響リスク算出部140は、影響範囲判定部130からの指示に応じて、分析対象機器の影響リスクを算出する。影響リスク算出部140は、影響リスク算出処理が終了すると、影響リスクの算出結果をリスク分析制御部170に送信する。なお、影響リスク算出処理の詳細は後述する(図29参照)。
[ステップS105]リスク分析制御部170は、分析対象機器の影響リスクを管理用端末装置30の画面に表示させる。管理者は、表示された画面により、分析対象機器の影響リスクを認識する。
[ステップS106]リスク分析制御部170は、VM移動候補影響リスク閾値の入力を受け付ける。例えば管理者は、分析対象機器がVMであり、影響リスクが高すぎると判断した場合、VM移動候補影響リスク閾値を指定した推奨移動先判定処理の実行指示を、管理用端末装置30に入力する。管理用端末装置30は、管理者からの入力に応じて、VM移動候補影響リスク閾値を含む推奨移動先判定処理の実行要求を管理サーバ100に送信する。リスク分析制御部170は、VM移動候補影響リスク閾値を含む推奨移動先判定処理の実行要求を受信すると、移動先判定部150に、推奨移動先判定要求を送信する。
[ステップS107]移動先判定部150は、推奨移動先判定要求に応じて、移動先判定処理を実行する。移動先判定部150は、移動先判定処理が終了すると、リスク分析制御部170に、推奨移動先(例えばVMを構築する物理サーバの装置名、VMを接続するストレージの装置名)と推奨移動先の影響リスクを示す情報を送信する。なお、移動先判定処理の詳細は後述する(図30参照)。
[ステップS108]リスク分析制御部170は、推奨移動先のネットワーク上の位置と推奨移動先の影響リスクとを示す画面を、管理用端末装置30に表示させる。管理者は、管理用端末装置30の画面を参照し、VMを移動させると判断した場合、管理用端末装置30にVMの移動実行の指示を入力する。また管理者は、VMを移動させないと判断した場合、管理用端末装置30にリスク分析処理終了の指示を入力する。管理用端末装置30は、管理者からの入力に応じて、管理サーバ100にVMの移動要求、またはリスク分析処理の終了要求を送信する。
[ステップS109]リスク分析制御部170は、VMの移動要求を受信したか否かを判断する。リスク分析制御部170は、VMの移動要求を受信した場合、VMの移動の実行をVM移動部160に指示し、処理をステップS110に進める。またリスク分析制御部170は、VMの移動要求を受信せずにリスク分析処理の終了要求を受信した場合、リスク分析処理を終了する。
[ステップS110]VM移動部160は、分析対象機器であるVMを、推奨移動先となった位置に移動させる。VM移動処理の詳細は後述する(図40参照)。
[ステップS111]リスク分析制御部170は、VMの移動が完了すると、VMの移動結果を示す画面を、管理用端末装置30に表示させる。その後、リスク分析処理が終了する。
このような手順で、分析対象機器の影響リスクの算出とVMの移動とが行われる。
次に、障害リスク算出処理について詳細に説明する。
図18は、障害リスクの算出例を示す図である。障害リスク算出部120は、例えばリソースの稼働状況から障害リスクを算出する。すなわち、機器で使用可能なリソース量が逼迫していると、その機器の障害が起こる可能性が高くなる。そこで障害リスク算出部120は、CPU、メモリ、ストレージの稼働状況に基づいて障害リスクを算出する。例えば障害リスク算出部120は、CPU、メモリ、ストレージの少なくとも1つについて、稼働時間に対し、使用率が所定の閾値(100%または100%に近い値)を超えた時間の比率を算出し、その比率を障害リスクとする。なお障害リスク算出部120は、CPU、メモリ、ストレージのうちの2つ以上について、使用率が閾値を超えた時間比率を算出し、それらの比率の合計を障害リスクとすることもできる。
例えば障害リスク算出部120は、1週間の稼働時間(168時間)のうちのCPU使用率が95%以上の時間の割合を、稼働状況による障害リスクとする。図18の例では、CPU使用率が95%以上になった時間の合計が16時間である。そのため、障害リスクは0.095(=16/168)となる。
障害リスク算出部120は、過去の障害状況を加味して障害リスクを算出することもできる。例えば障害リスク算出部120は、利用者の操作ミスや設定ミスなどによる障害があった場合、今後も同様のミスが発生する可能性があるとして、同じ利用者が管理する機器には、一定の障害リスクを付与する。また障害リスク算出部120は、物理機器では耐用年数を加味して障害リスクを算出することもできる。例えば障害リスク算出部120は、機器の耐用年数までの残存期間や故障確立に応じて算出した値を、障害リスクに加算する。さらに障害リスク算出部120は、物理機器では環境温度を加味して障害リスクを算出することもできる。例えば障害リスク算出部120は、データセンタ内での温度分布を取得し、機器が比較的高い温度領域に設置されている場合は、データセンタの平均温度(または予め設定された温度)に対する機器周辺の温度の割合に応じた値を、障害リスクに加算する。このように、リソースの稼働状況、過去の障害状況、物理機器の耐用年数や環境温度それぞれから算出される障害リスクを足し合わせることで、適切な障害リスクを算出することができる。
図19は、障害リスク算出処理の手順の一例を示すフローチャートである。以下、図19に示す処理をステップ番号に沿って説明する。
[ステップS121]障害リスク算出部120は、システム構成モデル111の機器情報を参照し、未選択の機器を1つ選択する。
[ステップS122]障害リスク算出部120は、選択した機器の障害リスクを算出する。例えば障害リスク算出部120は、選択した機器から、CPU使用率などの運用状況の時系列変化を示す情報を取得し、障害リスクを算出する。障害リスク算出部120は、算出した障害リスクを、障害リスクテーブル112における選択した機器の機器名に対応するレコードに設定する。
[ステップS123]障害リスク算出部120は、すべての機器を選択したか否かを判断する。障害リスク算出部120は、すべての機器が選択済みであれば、障害リスク算出処理を終了する。また障害リスク算出部120は、未選択の機器があれば、処理をステップS121に進める。
このようにしてすべての機器の障害リスクが算出され、算出した障害リスクの値が障害リスクテーブル112に設定される。障害リスクの算出が終了すると、影響範囲判定部130により、各機器の障害の影響範囲が判定される。障害の影響範囲に含まれる機器は、図16に示した影響範囲探索経路に従って探索される。以下、図20~図24を参照し、影響範囲探索経路に従った影響範囲の探索例について説明する。
図20は、影響範囲探索の第1の例を示す図である。図20には、障害想定機器がVMの場合の影響範囲の探索例が示されている。障害想定機器がVMの場合、ストレージ関連機器の探索とサーバ関連機器の探索とが行われる。ストレージ関連機器の探索における影響範囲探索経路は「VM→Volume→Storage→Volume→VM」である。これはストレージを共有する機器を探索する影響範囲探索経路であり、ストレージを共有しない機器は影響範囲に含まれない。サーバ関連機器の探索における影響範囲探索経路は「VM→SV→VM」である。これは物理サーバを共有する機器を探索する影響範囲探索経路であり、物理サーバを共有しない機器は影響範囲に含まれない。
影響範囲判定部130は、機器名「VM1」のVMが障害想定機器の場合、経路61a,61bに沿ってストレージ関連機器を探索し、経路61cに沿ってサーバ関連機器を探索する。そして影響範囲判定部130は、経路61a~61c上の機器を、「VM1」の影響範囲にある機器と判定する。なお経路61aに示すように、影響範囲の探索では、1つの機器を2度通る経路が許容される。
図21は、影響範囲探索の第2の例を示す図である。図21には、障害想定機器がボリューム(Volume)の場合の影響範囲の探索例が示されている。障害想定機器がボリュームの場合、ストレージ関連機器の探索が行われる。障害想定機器がボリュームの場合の影響範囲探索経路は「Volume→Storage→Volume→VM」である。これはストレージを共有する機器を探索する影響範囲探索経路であり、ストレージを共有しない機器は影響範囲に含まれない。
影響範囲判定部130は、機器名「Volume2」のボリュームが障害想定機器の場合、経路62a,62bに沿ってストレージ関連機器を探索する。そして影響範囲判定部130は、経路62a,62b上の機器を、「Volume2」の影響範囲にある機器と判定する。なお経路62aに示すように、影響範囲の探索では、障害想定機器を通る経路が許容される。
図22は、影響範囲探索の第3の例を示す図である。図22には、障害想定機器がストレージ(Storage)の場合の影響範囲の探索例が示されている。障害想定機器がストレージの場合、ストレージ関連機器の探索が行われる。障害想定機器がストレージの場合の影響範囲探索経路は「Storage→Volume→VM」である。これはストレージを共有する機器を探索する影響範囲探索経路であり、ストレージを共有しない機器は影響範囲に含まれない。
影響範囲判定部130は、機器名「Storage1」のストレージが障害想定機器の場合、経路63a~63cに沿ってストレージ関連機器を探索する。そして影響範囲判定部130は、経路63a~63c上の機器を、「Storage1」の影響範囲にある機器と判定する。
図23は、影響範囲探索の第4の例を示す図である。図23には、障害想定機器が物理サーバ(SV)の場合の影響範囲の探索例が示されている。障害想定機器が物理サーバの場合、サーバ関連機器の探索が行われる。障害想定機器が物理サーバの場合の影響範囲探索経路は「SV→VM」である。これは物理サーバを共有する機器を探索する影響範囲探索経路であり、物理サーバを共有しない機器は影響範囲に含まれない。
影響範囲判定部130は、機器名「SV1」の物理サーバが障害想定機器の場合、経路64a,64bに沿ってサーバ関連機器を探索する。そして影響範囲判定部130は、経路64a,64b上の機器を、「SV1」の影響範囲にある機器と判定する。
図24は、影響範囲探索の第5の例を示す図である。図24には、障害想定機器が物理スイッチ(Switch)の場合の影響範囲の探索例が示されている。障害想定機器が物理スイッチの場合、ストレージ関連機器の探索とサーバ関連機器の探索とが行われる。ストレージ関連機器の探索における影響範囲探索経路は「Switch→Storage→Volume→VM」である。サーバ関連機器の探索における影響範囲探索経路は「Switch→SV→VM」である。これらは物理スイッチから、物理ルータと異なるポートに接続されたストレージまたは物理サーバを経由して接続された機器を探索する影響範囲探索経路である。
影響範囲判定部130は、機器名「Switch2」が障害想定機器の場合、経路65a~65cに沿ってストレージ関連機器を探索する。そして影響範囲判定部130は、経路65a~65c上の機器を、「Switch2」の影響範囲にある機器と判定する。また影響範囲判定部130は、機器名「Switch1」が障害想定機器の場合、経路65d,65eに沿ってサーバ関連機器を探索する。そして影響範囲判定部130は、経路65d,65e上の機器を、「Switch1」の影響範囲にある機器と判定する。
図25は、影響範囲判定処理の手順の一例を示すフローチャートである。以下、図25に示す処理をステップ番号に沿って説明する。
[ステップS131]影響範囲判定部130は、システム構成モデル111を参照し、影響範囲探索の起点となる機器(障害想定機器)の機器名と機能(種別)とを読み込む。例えば影響範囲判定部130は、システム構成モデル111に示されるすべての機器を、障害想定機器とする。
[ステップS132]影響範囲判定部130は、影響範囲探索経路情報114から、機器の種別ごとの影響範囲探索経路を読み込む。
[ステップS133]影響範囲判定部130は、未選択の障害想定機器を1つ選択する。
[ステップS134]影響範囲判定部130は、選択した障害想定機器の影響範囲を、その機器の種別に応じた影響範囲探索経路に従って探索する。影響範囲判定部130は、影響範囲の探索により、影響範囲内にあると判断した機器の機器名を、障害リスクテーブル112の選択した機器の機器名に対応するレコードに設定する。
[ステップS135]影響範囲判定部130は、すべての障害想定機器を選択したか否かを判断する。影響範囲判定部130は、すべての機器が選択済みであれば、影響範囲判定処理を終了する。また影響範囲判定部130は、未選択の機器があれば、処理をステップS133に進める。
このようにして機器ごとの影響範囲が判定される。その結果、障害リスクテーブル112には、各機器の障害リスクの値とその機器に障害が発生した場合の影響範囲にある機器の機器名が設定される。影響リスク算出部140は、障害リスクテーブル112に設定された情報に基づいて、分析対象機器に対して影響を及ぼす障害想定機器を検出する。
図26は、分析対象機器に対して影響を及ぼす障害想定機器の検出例を示す図である。例えば影響リスク算出部140は、分析対象機器ごとに、その機器が影響範囲となっている障害想定機器の機器名を障害リスクテーブル112から抽出し、影響リスクテーブル113に格納する。これにより影響リスクテーブル113には、分析対象機器に対して障害による影響を及ぼす可能性のある他の機器の機器名のリストが保存される。
例えば分析対象機器が機器名「VM1」の機器の場合、影響リスク算出部140は、障害リスクテーブル112の影響範囲にある機器の欄から「VM1」を検索する。そして影響リスク算出部140は、影響範囲に機器「VM1」を含む障害想定機器の機器名「SV1」、「Volume2」、「Storage1」、「Switch2」を分析対象機器「VM1」に対応付けて、影響リスクテーブル113に登録する。
このようにして、分析対象機器に障害の影響を及ぼす障害想定機器が抽出される。抽出された障害想定機器が多い分析対象機器ほど、他の機器の障害の影響を受けて、その分析対象機器の動作にも問題が生じる可能性が高いことになる。
図27は、複数の障害想定機器の影響範囲に含まれる分析対象機器の例を示す図である。図27の例では、機器名「VM1」の機器が分析対象機器である。分析対象機器「VM1」に影響を及ぼす障害想定機器は多数存在する。換言すると、障害想定機器それぞれの影響範囲を重ね合わせたとき、分析対象機器「VM1」の位置で影響範囲が多重に重なり合う。例えば障害想定機器「SV1」、「Switch2」、「Volume2」それぞれの影響範囲が、分析対象機器「VM1」の位置で重なり合っている。
影響リスク算出部140は、分析対象機器の位置での障害想定機器の影響範囲の重なりの量を反映させて、分析対象機器の影響リスクを算出する。
図28は、影響リスクの算出例を示す図である。例えば影響リスク算出部140は、分析対象機器を影響範囲に含むすべての障害想定機器の障害リスクの合計を、分析対象機器の影響リスクとする。すなわち、分析対象機器に対して障害の影響を及ぼすすべての機器の障害リスクを重ね合わせることで、分析対象機器の影響リスクが算出される。
例えば影響リスク算出部140は、分析対象機器が機器名「VM1」の機器の場合、「VM1」を影響範囲に含む障害想定機器の障害リスクの値を、影響リスクテーブル113の分析対象機器「VM1」の影響リスクの値に加算していく。図28の例では影響リスク算出部140は、機器「SV1」の障害リスク「0.13」、機器「Volume2」の障害リスク「0.05」、機器「Storage1」の障害リスク「0.02」、機器「Switch2」の障害リスク「0.10」を、影響リスクとして順次加算する。
なお影響リスク算出部140は、例えば、影響リスクを、分析対象機器を指定する入力があったとき算出する。また影響リスク算出部140は、すべての機器についての影響リスクを定期的に算出し、影響リスクテーブル113に保存しておいてもよい。
図29は、影響リスク算出処理の手順の一例を示すフローチャートである。以下、図29に示す処理をステップ番号に沿って説明する。
[ステップS141]影響リスク算出部140は、システム構成モデル111を参照し、システム内のすべての機器の機器名を読み込む。
[ステップS142]影響リスク算出部140は、未選択の機器を1つ選択し、分析対象機器とする。
[ステップS143]影響リスク算出部140は、障害リスクテーブル112から、分析対象機器に影響を及ぼす障害想定機器の機器名を抽出する。影響リスク算出部140は、抽出した機器名を、分析対象機器の機器名に対応付けて影響リスクテーブル113に登録する。
[ステップS144]影響リスク算出部140は、障害リスクテーブル112と影響リスクテーブル113とを参照し、分析対象機器の影響リスクを算出する。例えば影響リスク算出部140は、影響リスクテーブル113から、分析対象機器に影響を及ぼす障害想定機器の機器名を1つずつ抽出する。次に影響リスク算出部140は、障害リスクテーブル112から、抽出した機器名に対応する障害リスクの値を抽出する。そして影響リスク算出部140は、抽出した障害リスクの値を、影響リスクテーブル113における分析対象機器の影響リスクの値に加算する。影響リスク算出部140は、分析対象機器に影響を及ぼす障害想定機器の障害リスクの値の加算が完了すると、現在の分析対象機器の影響リスクの算出を終了する。
[ステップS145]影響リスク算出部140は、すべての機器を選択したか否かを判断する。影響リスク算出部140は、すべての機器が選択済みであれば、影響リスク算出処理を終了する。また影響リスク算出部140は、未選択の機器があれば、処理をステップS142に進める。
このようにして、分析対象機器の影響リスクを算出することができる。なお図29の例では、システム内のすべての機器について、それぞれを分析対象機器としたときの影響リスクを算出しているが、影響リスク算出部140は、影響リスクの算出対象を、管理者によって指定された分析対象機器に限定してもよい。
分析対象機器の影響リスクの算出結果は、リスク分析制御部170によって、管理用端末装置30に表示される。管理者は、影響リスクの算出結果を参照し、分析対象機器の影響リスクが過大であると判断した場合、その分析対象機器を利用しているユーザに、リスクの内容を通知することができる。
例えば管理者は、ユーザへ、ユーザが利用する機器の影響リスクが、管理者が設定した値(閾値)よりも高い値となった旨を通知するとともに、影響リスクを下げる方法(新機種や新契約の提案など)を提示する。なお影響リスク算出部140は、影響リスクの最大値が「1」となるよう正規化しておいてもよい。これにより、管理者による閾値の設定がしやすくなる。
また管理者は、分析対象機器の影響リスクが閾値を超えた場合、分析対象機器を、影響リスクが低くなる物理サーバへ移動させることもできる。例えば契約などによる重要な機器の影響リスクが、設定した値(閾値)よりも大きくなった場合、管理者の判断により、重要機器を影響リスクが閾値より低くなる物理サーバへ移動させる。
例えば管理者は、分析対象機器を移動させると判断した場合、管理サーバ100に、推奨移動先の判定を指示する。管理サーバ100は、仮のVMを設定し、そのVMの影響リスクを予め算出し、算出結果を管理用端末装置30の画面に表示する。これにより、管理者は、実際に機器を移動させる前に、移動後の影響リスクを確認することができ、影響リスクが確実に低くなる物理サーバへ移動させることができる。
図30は、影響リスクが高い機器の移動例を示す図である。図30の例では、機器名「VM1」の機器の影響リスクは「0.45」である。機器「VM1」を移動させる場合、管理サーバ100は、仮のVMが定義され、仮のVMをさまざまな位置に配置することで、機器を移動させた場合に影響リスクが低くなる位置を探索する。図30の例では、影響リスクが「0.03」となる位置が検出されている。管理者が、影響リスクが「0.03」となった位置へ機器「VM1」を移動させてよいと判断し、移動の実行指示を入力すると、管理サーバ100の制御により、機器「VM1」が仮のVMの位置へ移動する。
なお、予め設定した機器において設定した値(閾値)よりも影響リスクが大きくなった場合に、該当機器を、管理サーバ100が自動で影響リスクが低くなる物理サーバへ移動させることも可能である。
このような機器の移動を行うことで、影響リスクの低いシステムが構築される。すなわち、システムを再構築する前に、仮のVMにより事前に影響リスクを算出することで、重要機器の影響リスクが低くなるようなシステムを確実に構築することができる。また、システム全体の機器の平均の影響リスクが低くなるようなシステムを構築することも可能となる。
管理サーバ100は、推奨移動先として、例えば仮のVMの影響リスクが最小となる位置に決定することができる。また管理サーバ100は、現在の影響リスクに比べ、管理者が設定した閾値(例えば80%)以下になるまで、仮のVMの位置を変えながら影響リスクを算出し、影響リスクが閾値以下となる位置を検出したとき、その位置を推奨移動先としてもよい。なお管理サーバ100は、推奨移動先とする条件を満たす仮のVMの位置が検出できない場合、推奨移動先が検出できない旨を管理者に通知して、閾値の再設定を促してもよい。
なおシステム内の機器のうちの重要な機器は、例えば機器ごとに算出した重要度に基づいて判断することができる。例えば管理用端末装置30または管理サーバ100は、さまざまな重要度の指標のうちの1つを選択し、その指標の重要度が所定値以上の機器を、影響リスクを低減させる重要機器と判断する。また管理用端末装置30または管理サーバ100は、さまざまな重要度の指標それぞれの値の合計を、該当機器の重要度とすることもできる。重要度の算出方法としては、以下のような例が考えられる。
第1の重要度算出方法として、契約上の利用金額を段階に分けて設定する方法が考えられる。例えば管理者は、管理用端末装置30または管理サーバ100を用いて、月額の利用金額を5段階評価する。そして管理者は、管理用端末装置30または管理サーバ100に、高い利用金額の顧客が利用している機器ほど重要度を高く設定する。
第2の重要度算出方法として、過去の障害事例の業種、顧客規模とその被害金額から、同じ業種、顧客規模の顧客が利用する機器に対し、同様の被害金額が発生するとして重要度を設定する方法が考えられる。例えば管理者は、管理用端末装置30または管理サーバ100を用いて過去の障害事例の業種、顧客規模とその被害金額を計算する。そして管理者は、管理用端末装置30または管理サーバ100に、被害金額が大規模な顧客と業種または顧客規模が同じ顧客が利用する機器であるほど重要度を高く設定する。
第3の重要度算出方法として、開発環境であるか、実際に顧客が利用する本番環境であるかで重要度を設定する方法が考えられる。例えば管理者は、管理用端末装置30または管理サーバ100に、開発環境に使用する機器の重要度よりも、本番環境で使用する機器の重要度を高く設定する。
第4の重要度算出方法として、各機器に接続される上位機器の台数を自動で算出する機能を追加し、接続される機器の台数によって重要度を設定する方法が考えられる。例えば管理者は、接続される機器の台数を5段階評価し、管理用端末装置30または管理サーバ100に、接続数の多い機器ほど重要度を高く設定する。
第5の重要度算出方法として、機器を利用する顧客の業種によって、重要度を設定する方法が考えられる。例えば管理者は、管理用端末装置30または管理サーバ100に、銀行などの社会的重要度が高い業種の顧客が使用する機器の重要度を、それ以外の顧客が使用する機器の重要度よりも高く設定する。
以下、移動先判定処理について詳細に説明する。
図31は、移動先判定処理の手順の一例を示すフローチャートである。以下、図31に示す処理をステップ番号に沿って説明する。
[ステップS151]移動先判定部150は、システム構成モデル111、影響リスクテーブル113、およびVM移動候補影響リスク閾値70に基づいて、分析対象機器の移動先とすることができる移動先候補物理サーバを判定する。なお、VM移動候補影響リスク閾値70は、管理者によって予め指定された値である。例えば管理者が管理用端末装置30に対して、VM移動候補影響リスク閾値70の入力、および推奨移動先判定指示の操作を行うと、管理用端末装置30から管理サーバ100に、VM移動候補影響リスク閾値70を含むVMの推奨移動先判定要求が送信される。移動先判定部150は、判定した物理サーバの機器名を、移動先候補物理サーバリスト71に設定する。なお、移動先候補物理サーバ判定処理の詳細は後述する(図32参照)。
[ステップS152]移動先判定部150は、移動先候補物理サーバリスト71と障害リスクテーブル112とに基づいて、推奨移動先とする物理サーバを選択する。物理サーバ選択処理の詳細は後述する(図34参照)。
[ステップS153]移動先判定部150は、分析対象機器がストレージに接続されているか否かを判断する。移動先判定部150は、ストレージに接続されていれば、処理をステップS154に進める。また移動先判定部150は、ストレージに接続されていなければ、移動先判定処理を終了する。
[ステップS154]移動先判定部150は、システム構成モデル111、影響リスクテーブル113、およびVM移動候補影響リスク閾値70に基づいて、分析対象機器の移動先とすることができる移動先候補ストレージを判定する。移動先判定部150は、判定したストレージの機器名を、移動先候補ストレージリスト72に設定する。なお、移動先候補ストレージ判定処理の詳細は後述する(図36参照)。
[ステップS155]移動先判定部150は、移動先候補ストレージリスト72と障害リスクテーブル112とに基づいて、推奨移動先とするストレージを選択する。ストレージ選択処理の詳細は後述する(図38参照)。
次に移動先候補物理サーバ判定処理について詳細に説明する。
図32は、移動先候補物理サーバ判定処理の手順の一例を示すフローチャートである。以下、図32に示す処理をステップ番号に沿って説明する。
[ステップS161]移動先判定部150は、システム構成モデル111を参照し、分析対象機器の現在の構築物理サーバ以外の物理サーバのうち、未選択の物理サーバを1台選択する。
[ステップS162]移動先判定部150は、影響リスクテーブル113を参照し、選択した物理サーバ上に分析対象機器を構築した場合の影響リスク(移動後影響リスク)を算出する。例えば移動先判定部150は、選択した物理サーバ上に構築した仮のVMを定義する。そして移動先判定部150は、図29に示した影響リスク処理のステップS143,S144と同様の処理を実行し、仮のVMの影響リスクを算出する。仮のVMの影響リスクが、移動後影響リスクである。
[ステップS163]移動先判定部150は、移動後影響リスクがVM移動候補影響リスク閾値70未満か否かを判断する。移動先判定部150は、VM移動候補影響リスク閾値70未満であれば、処理をステップS164に進める。また移動先判定部150は、VM移動候補影響リスク閾値70未満でなければ、処理をステップS165に進める。
[ステップS164]移動先判定部150は、選択した物理サーバの機器名と移動後影響リスクとを、移動先候補として移動先候補物理サーバリスト71に登録する。
[ステップS165]移動先判定部150は、分析対象機器が構築された物理サーバ以外のすべての物理サーバが選択済みか否かを判断する。移動先判定部150は、分析対象機器以外のすべての物理サーバが選択済みであれば、移動先候補物理サーバ判定処理を終了する。また移動先判定部150は、未選択の物理サーバがあれば、処理をステップS161に進める。
このようにして、分析対象機器に対応する移動先候補物理サーバリスト71が生成される。
図33は、移動先候補物理サーバリストの一例を示す図である。移動先候補物理サーバリスト71には、移動先候補物理サーバの欄と移動後影響リスクの欄とが設けられている。移動先候補物理サーバの欄には、移動先候補物理サーバと判定された物理サーバの機器名が設定されている。移動後影響リスクの欄には、分析対象機器を移動先候補物理サーバ上に移動した場合の移動後影響リスクが設定されている。移動先候補物理サーバリスト71は、移動先判定部150により、例えばメモリ102に格納される。
移動先判定部150は、移動先候補物理サーバリスト71の中から、移動先として推奨する物理サーバを選択する。
図34は、物理サーバ選択処理の手順の一例を示すフローチャートである。以下、図34に示す処理をステップ番号に沿って説明する。
[ステップS171]移動先判定部150は、移動先候補物理サーバリスト71から、未選択の移動先候補物理サーバを1台選択する。
[ステップS172]移動先判定部150は、分析対象機器が構築されている物理サーバと選択した移動先候補物理サーバとの間の経路上のノード数を算出する。例えば移動先判定部150は、影響リスクテーブル113に基づいて分析対象機器の構築物理サーバを判断する。そして移動先判定部150は、システム構成モデル111を参照し、構築物理サーバから選択した移動先候補物理サーバまでの最短の接続関係を辿り、辿った経路上のノード数(機器数)を計数する。移動先判定部150は、計算したノード数を、選択した移動先候補物理サーバに対応付けて、移動先候補物理サーバリスト71に設定する。
[ステップS173]移動先判定部150は、障害リスクテーブル112を参照し、分析対象機器が構築されている物理サーバと選択した移動先候補物理サーバとの間の経路上のノード(機器)の障害リスクの合計値(経路間ノード障害リスク合計値)を算出する。移動先判定部150は、計算した経路間ノード障害リスク合計値を、選択した移動先候補物理サーバに対応付けて、移動先候補物理サーバリスト71に設定する。
[ステップS174]移動先判定部150は、すべての移動先候補物理サーバを選択したか否かを判断する。移動先判定部150は、すべての移動先候補物理サーバが選択済みの場合、処理をステップS175に進める。また移動先判定部150は、未選択の移動先候補物理サーバがある場合、処理をステップS171に進める。
[ステップS175]移動先判定部150は、移動先候補物理サーバリスト71を参照し、各移動先候補物理サーバの移動後影響リスク、経路間ノード数、および経路間ノード障害リスク合計値に基づいて、推奨移動先物理サーバを選択する。
図35は、推奨移動先物理サーバの選択例を示す図である。図35には、分析対象機器「VM1」の推奨移動先物理サーバの選択例が示されている。移動先候補物理サーバリスト73には、移動先候補物理サーバごとの経路間ノード数と経路間障害リスク合計値が追加登録されている。
移動先判定部150は、例えば第1の選択基準として、経路間ノード数が最も少ない移動先候補物理サーバを選択する。第1の選択基準に該当する移動先候補物理サーバが複数ある場合、移動先判定部150は、第2の選択基準として、第1の選択基準で該当する複数の移動先候補物理サーバの中から、経路間ノード障害リスク合計値が最も小さい移動先候補物理サーバを選択する。第2の選択基準に該当する移動先候補物理サーバが複数ある場合、移動先判定部150は、第3の選択基準として、第2の選択基準で該当する複数の移動先候補物理サーバの中から、移動後影響リスクが最も小さい移動先候補物理サーバを選択する。なお、第1から第3の選択基準の順番は、例えば、第1に移動後影響リスクが最も小さいこと、第2に経路間ノード障害リスク合計値が最も小さいこと、第3に経路間ノード数が最も少ないことのように、管理者が適宜変更してもよい
図35の例では、第1の選択基準を満たす移動先候補物理サーバとして、経路間ノード数が「6」である2台の移動先候補物理サーバ「SV11」、「SV21」が存在する。移動先候補物理サーバ「SV11」の経路間ノード障害リスク合計値は「0.015」であり、移動先候補物理サーバ「SV21」の経路間ノード障害リスク合計値「0.021」より小さい。しがって移動先判定部150は、移動先候補物理サーバ「SV11」を推奨移動先物理サーバとして選択する。
次に移動先候補ストレージ判定処理について詳細に説明する。
図36は、移動先候補ストレージ判定処理の手順の一例を示すフローチャートである。以下、図36に示す処理をステップ番号に沿って説明する。
[ステップS181]移動先判定部150は、システム構成モデル111を参照し、分析対象機器が接続されているストレージ以外のストレージのうち、未選択のストレージを1台選択する。
[ステップS182]移動先判定部150は、影響リスクテーブル113を参照し、分析対象機器を選択したストレージに接続した場合の影響リスク(移動後影響リスク)を算出する。例えば移動先判定部150は、選択したストレージに接続した仮のVMを定義する。そして移動先判定部150は、図29に示した影響リスク処理のステップS143,S144と同様の処理を実行し、仮のVMの影響リスクを算出する。仮のVMの影響リスクが、移動後影響リスクである。
[ステップS183]移動先判定部150は、移動後影響リスクがVM移動候補影響リスク閾値70未満か否かを判断する。移動先判定部150は、VM移動候補影響リスク閾値70未満であれば、処理をステップS184に進める。また移動先判定部150は、VM移動候補影響リスク閾値70未満でなければ、処理をステップS185に進める。
[ステップS184]移動先判定部150は、選択したストレージの機器名と移動後影響リスクとを、移動先候補として移動先候補ストレージリスト72に登録する。
[ステップS185]移動先判定部150は、分析対象機器以外のすべてのストレージが選択済みか否かを判断する。移動先判定部150は、分析対象機器が接続されているストレージ以外のすべてのストレージが選択済みであれば、移動先候補ストレージ判定処理を終了する。また移動先判定部150は、未選択のストレージがあれば、処理をステップS181に進める。
このようにして、分析対象機器に対応する移動先候補ストレージリスト72が生成される。
図37は、移動先候補ストレージリストの一例を示す図である。移動先候補ストレージリスト72には、移動先候補ストレージの欄と移動後影響リスクの欄とが設けられている。移動先候補ストレージの欄には、移動先候補ストレージと判定されたストレージの機器名が設定されている。移動後影響リスクの欄には、分析対象機器を移動先候補ストレージに接続した場合の移動後影響リスクが設定されている。移動先候補ストレージリスト72は、移動先判定部150により、例えばメモリ102に格納される。
移動先判定部150は、移動先候補ストレージリスト72の中から、移動先として推奨するストレージを選択する。
図38は、ストレージ選択処理の手順の一例を示すフローチャートである。以下、図38に示す処理をステップ番号に沿って説明する。
[ステップS191]移動先判定部150は、移動先候補ストレージリスト72から、未選択の移動先候補ストレージを1台選択する。
[ステップS192]移動先判定部150は、分析対象機器が構築されているストレージと選択した移動先候補ストレージとの間の経路上のノード数を算出する。例えば移動先判定部150は、影響リスクテーブル113に基づいて分析対象機器に接続されたストレージを判断する。そして移動先判定部150は、システム構成モデル111を参照し、分析対象機器に接続されたストレージから選択した移動先候補ストレージまでの最短の接続関係を辿り、辿った経路上のノード数(機器数)を計数する。移動先判定部150は、計算したノード数を、選択した移動先候補ストレージに対応付けて、移動先候補ストレージリスト72に設定する。
[ステップS193]移動先判定部150は、障害リスクテーブル112を参照し、分析対象機器が接続されているストレージと選択した移動先候補ストレージとの間の経路上のノード(機器)の障害リスクの合計値(経路間ノード障害リスク合計値)を算出する。移動先判定部150は、計算した経路間ノード障害リスク合計値を、選択した移動先候補ストレージに対応付けて、移動先候補ストレージリスト72に設定する。
[ステップS194]移動先判定部150は、すべての移動先候補ストレージを選択したか否かを判断する。移動先判定部150は、すべての移動先候補ストレージが選択済みの場合、処理をステップS195に進める。また移動先判定部150は、未選択の移動先候補ストレージがある場合、処理をステップS191に進める。
[ステップS195]移動先判定部150は、移動先候補ストレージリスト72を参照し、各移動先候補ストレージの移動後影響リスク、経路間ノード数、および経路間ノード障害リスク合計値に基づいて、推奨移動先ストレージを選択する。
図39は、推奨移動先ストレージの選択例を示す図である。図39には、分析対象機器「VM1」の推奨移動先ストレージの選択例が示されている。移動先候補ストレージリスト74には、移動先候補ストレージごとの経路間ノード数と経路間障害リスク合計値が追加登録されている。
移動先判定部150は、例えば第1の選択基準として、経路間ノード数が最も少ない移動先候補ストレージを選択する。第1の選択基準に該当する移動先候補ストレージが複数ある場合、移動先判定部150は、第2の選択基準として、第1の選択基準で該当する複数の移動先候補ストレージの中から、経路間ノード障害リスク合計値が最も小さい移動先候補ストレージを選択する。第2の選択基準に該当する移動先候補ストレージが複数ある場合、移動先判定部150は、第3の選択基準として、第2の選択基準で該当する複数の移動先候補ストレージの中から、移動後影響リスクが最も小さい移動先候補ストレージを選択する。なお、第1から第3の選択基準の順番は、例えば、第1に移動後影響リスクが最も小さいこと、第2に経路間ノード障害リスク合計値が最も小さいこと、第3に経路間ノード数が最も少ないことのように、管理者が適宜変更してもよい
図39の例では、第1の基準を満たす移動先候補ストレージとして、経路間ノード数が「6」である2台の移動先候補ストレージ「Storage11」、「Storage21」が存在する。移動先候補ストレージ「Storage11」の移動後影響リスクは「0.12」であり、移動先候補ストレージ「Storage21」の移動後影響リスク「0.20」より小さい。しがって移動先判定部150は、移動先候補ストレージ「Storage11」を推奨移動先ストレージとして選択する。
推奨移動先物理サーバと推奨移動先ストレージとが決定すると、リスク分析制御部170が、管理用端末装置30に、VMを推奨移動先物理サーバへ移動し、推奨移動先ストレージに接続した場合の影響リスクを表示させる。そして管理者からVMの移動実行を指示する操作が行われると、管理用端末装置30から管理サーバへ、VMの移動実行要求が送信される。管理サーバ100では、VMの移動実行要求に応じて、VM移動部160が分析対象機器であるVMの移動処理を実行する。
図40は、VM移動処理の手順の一例を示すフローチャートである。以下、図40に示す処理をステップ番号に沿って説明する。
[ステップS201]VM移動部160は、推奨移動先物理サーバがあるか否かを判断する。例えばリスク分析制御部170は、推奨移動先物理サーバがある場合、推奨移動先物理サーバの機器名をVM移動部160に送信する。VM移動部160は、リスク分析制御部170から推奨移動先物理サーバの機器名を取得した場合、推奨移動先物理サーバがあると判断する。VM移動部160は、推奨移動先物理サーバがある場合、処理をステップS202に進める。またVM移動部160は、推奨移動先物理サーバがない場合、処理をステップS203に進める。
[ステップS202]VM移動部160は、分析対象機器であるVMを、推奨移動先物理サーバに移動する。例えばVM移動部160は、分析対象機器が構築されている物理サーバに対して、推奨移動先物理サーバへの分析対象機器のマイグレーションを指示する。
[ステップS203]VM移動部160は、推奨移動先ストレージがあるか否かを判断する。例えばリスク分析制御部170は、推奨移動先ストレージがある場合、推奨移動先ストレージの機器名をVM移動部160に送信する。VM移動部160は、リスク分析制御部170から推奨移動先ストレージの機器名を取得した場合、推奨移動先ストレージがあると判断する。VM移動部160は、推奨移動先ストレージがある場合、処理をステップS204に進める。またVM移動部160は、推奨移動先ストレージがない場合、VM移動処理を終了する。
[ステップS204]VM移動部160は、分析対象機器であるVMを、推奨移動先ストレージに接続する。例えばVM移動部160は、分析対象機器であるVMに対して、推奨移動先ストレージへの接続設定を行う。
このようにして影響リスクが高いVMを、影響リスクが低くなる位置に移動させることができる。その結果、障害発生時に、その障害がシステム全体に及ぼす影響を低減することが可能となる。
また管理者は、例えば管理用端末装置30に表示されたリスク分析画面により、管理サーバ100への指示の入力をすることができる。
図41は、管理用端末装置に表示されるリスク分析画面の一例を示す図である。リスク分析画面80には、システム構成図81が表示されている。システム構成図81には、管理対象のシステムに含まれる機器と、機器間の接続関係が示されている。システム構成図81では、例えば影響リスクが所定値以上となったVMが強調表示されており、そのVMの近辺に、そのVMの影響リスクが表示されている。またシステム構成図81では、推奨移動先となる位置に定義された仮のVMが表示されており、仮のVMの近辺に、仮のVMの位置に移動させた場合の影響リスクが表示されている。
またリスク分析画面80には、テキストボックス82,83やボタン84~87が表示されている。テキストボックス82は、分析対象機器の機器名を入力するためのテキストボックスである。テキストボックス83は、VM移動候補影響リスク閾値を入力するためのテキストボックスである。
ボタン84は、影響リスクの算出指示を入力するためのボタンである。ボタン84が押下されると、管理用端末装置30は、テキストボックス82に設定された機器名を分析対象機器として指定した影響リスク算出要求を、管理サーバ100に対して送信する。
ボタン85は、推奨移動先の判定指示を入力するためのボタンである。ボタン85が押下されると、管理用端末装置30は、テキストボックス83に設定されたVM移動先候補リスク閾値を含む推奨移動先判定要求を、管理サーバ100に対して送信する。
ボタン86は、VMの移動実行指示を入力するためのボタンである。ボタン86が押下されると、管理用端末装置30は、VMの移動実行要求を管理サーバ100に対して送信する。
ボタン87は、VMの移動をキャンセルさせるためのボタンである。ボタン87が押下されると、管理用端末装置30は、VM移動のキャンセル要求を管理サーバ100に対して送信する。VM移動のキャンセル要求を受信した管理サーバ100では、移動させたVMを元の位置に戻す処理を行う。例えば管理サーバ100のVM移動部160は、VMの移動先の物理サーバに対して、該VMの元の物理サーバへのマイグレーションを指示する。
管理者は、このようなリスク分析画面80を参照して、影響リスクが所定値以上となったVMが存在すること、該当VMを移動させることで影響リスクの低減が図れることを把握できる。そして、管理者が、管理用端末装置30のリスク分析画面80への入力操作を行うことで、VMを移動させることができる。
〔第3の実施の形態〕
第3の実施の形態は、影響リスクが閾値を超えた機器の有無を管理サーバで定期的に監視し、該当する機器を発見した場合には自動で影響リスクを低減させるものである。これにより、管理者が関与せずに、システムが自律的にシステムのリスクを低い状態に維持することができる。
図42は、VMを自動で移動可能な管理サーバが有する機能を示すブロック図である。管理サーバ200は、記憶部210、障害リスク算出部220、影響範囲判定部230、影響リスク算出部240、移動先判定部250、VM自動移動部260、およびリスク分析制御部270を有する。
記憶部210は、システム内の機器の影響リスクの算出に利用する情報を記憶する。例えば管理サーバ200が有するメモリまたはストレージ装置の記憶領域の一部が、記憶部210として使用される。なお、記憶部210に記憶される情報は、図11に示した第2の実施の形態の記憶部110に記憶される情報と同様である。
障害リスク算出部220は、リスク分析制御部270からVMの自動移動の実行開始の指示を受信すると、定期的にシステム内の機器それぞれの障害リスクを算出する。障害リスク算出部220は、算出した障害リスクを記憶部210に格納する。また障害リスク算出部220は、ネットワーク20を介してシステム構成を監視し、システム構成を示すシステム構成モデルを記憶部210に格納する。
影響範囲判定部230は、各機器の障害リスクが算出されると、システム内の機器それぞれの影響範囲を判定する。影響範囲判定部230は、判定した影響範囲の情報を記憶部210に格納する。
影響リスク算出部240は、各機器の影響範囲が算出されると、各機器を分析対象装置とした場合の影響リスクを算出する。影響リスク算出部240は、算出した影響リスクを記憶部210に格納する。
移動先判定部250は、分析対象機器の影響リスクが所定の閾値以上の場合、その機器の影響リスクを低減可能な移動先を判定する。移動先判定部250は、判定した移動先を示す情報をリスク分析制御部270に送信する。
VM自動移動部260は、移動先の判定により影響リスクが所定の閾値以下となる移動先が検出できた場合、分析対象機器を自動で移動させる。例えばVM自動移動部260は、移動させる分析対象機器が構築されている物理サーバに、該当分析対象機器の移動先の物理サーバへのマイグレーションを指示する。
リスク分析制御部270は、リスク分析に用いる情報の入力の受け付け、および分析結果の表示を行う。例えばリスク分析制御部270は、VMの移動の自動実行の入力、自動移動させるVMの影響リスクの閾値、移動先の影響リスクの閾値などの入力を受け付ける。またリスク分析制御部270は、VMの移動結果を管理用端末装置30に表示させる。
なお、図42に示した各要素間を接続する線は通信経路の一部を示すものであり、図示した通信経路以外の通信経路も設定可能である。また、図42に示した各要素の機能は、例えば、その要素に対応するプログラムモジュールをコンピュータに実行させることで実現することができる。
図43は、リスク分析処理の手順の一例を示すフローチャートである。以下、図43に示す処理をステップ番号に沿って説明する。
[ステップS301]リスク分析制御部270は、VM移動前影響リスク閾値、VM移動実行影響リスク閾値の入力を受け付ける。例えばリスク分析制御部270は、管理用端末装置30に対して、リスク分析画面の画面データを送信する。管理用端末装置30は、受信した画面データに基づいてリスク分析画面を表示する。管理者は、表示されたリスク分析画面を参照し、管理用端末装置30にVM移動前影響リスク閾値とVM移動実行影響リスク閾値とを入力するとともに、VMの自動実行を指示する入力を行う。管理用端末装置30は、VMの自動実行を指示する入力に応じて、VM移動前影響リスク閾値とVM移動実行影響リスク閾値とを含むVM自動移動要求を管理サーバ200に送信する。リスク分析制御部270は、VM自動移動要求を受信すると、障害リスク算出部220に対してVMの自動移動の実行開始を指示する。またリスク分析制御部270は、移動先判定部250に対してVM移動前影響リスク閾値とVM移動実行影響リスク閾値とを送信する。なお、VM移動実行影響リスク閾値は、VM移動前影響リスク閾値よりも低い値であることが、リスク分析制御部270が入力を受け付ける条件である。
[ステップS302]障害リスク算出部220は、各機器の障害リスクを算出する。障害リスク算出部220は、障害リスクの算出処理が終了すると、影響範囲判定部230に影響範囲の判定を指示する。なお第3の実施の形態における障害リスク算出処理の詳細は、第2の実施の形態における障害リスク算出処理(図19参照)と同様である。
[ステップS303]影響範囲判定部230は、障害リスク算出部220からの指示に応じて、各機器で障害が発生した場合の影響範囲を判定する。影響範囲判定部230は、影響範囲判定処理が終了すると、影響リスク算出部240に影響リスクの算出を指示する。なお第3の実施の形態における影響範囲判定処理の詳細は、第2の実施の形態における影響範囲判定処理(図25参照)と同様である。
[ステップS304]影響リスク算出部240は、影響範囲判定部230からの指示に応じて、分析対象機器の影響リスクを算出する。影響リスク算出部240は、影響リスク算出処理が終了すると、影響リスクの算出結果をリスク分析制御部270に送信する。なお第3の実施の形態における影響リスク算出処理の詳細は、第2の実施の形態における影響リスク算出処理(図29参照)と同様である。
[ステップS305]移動先判定部250は、影響リスクが過大なVMが存在するか否かを判断する。例えば移動先判定部250は、リスク分析制御部270から取得したVM移動前影響リスク閾値と、各機器の影響リスク閾値とを比較する。移動先判定部250は、影響リスクが移動前影響リスク閾値を超える機器が少なくとも1つでもあれば、影響リスクが過大なVMが存在すると判断する。移動先判定部250は、影響リスクが過大なVMが存在する場合、処理をステップS306に進める。また移動先判定部250は、影響リスクが過大なVMが存在しない場合、処理をステップS310に進める。
[ステップS306]移動先判定部250は、移動先判定処理を実行する。なお、移動先判定処理の詳細は後述する(図44参照)。
[ステップS307]移動先判定部250は、影響リスクを低減可能な移動先があるか否かを判断する。例えば移動先判定部250は、リスク分析制御部270から取得したVM移動実行影響リスク閾値と、各機器の影響リスク閾値とを比較する。移動先判定部250は、影響リスクが移動前影響リスク閾値を超える機器が少なくとも1つでもあれば、影響リスクを低減可能な移動先があると判断する。移動先判定部250は、影響リスクを低減可能な移動先がある場合、処理をステップS308に進める。また移動先判定部250は、影響リスクを低減可能な移動先がない場合、処理をステップS310に進める。
[ステップS308]VM自動移動部260は、VM移動処理を行う。VM移動処理の詳細は後述する(図49参照)。
[ステップS309]リスク分析制御部270は、VMの移動が完了すると、VMの移動結果を示す画面を、管理用端末装置30に表示させる。
[ステップS310]リスク分析制御部270は、リスク分析処理の終了を指示する入力が行われたか否かを判断する。リスク分析制御部270は、リスク分析処理の終了の入力が行われた場合、障害リスク算出部220に処理の終了を通知し、リスク分析処理を終了する。またリスク分析制御部270は、リスク分析処理の終了の入力が行われていなければ、処理をステップS311に進める。
[ステップS311]障害リスク算出部220は、周期的なリスク分析タイミングになったか否かを判断する。障害リスク算出部220は、リスク分析タイミングになった場合、処理をステップS302に進める。また障害リスク算出部220は、リスク分析タイミングになっていなければ、処理をステップS310に進める。
このような手順で、影響リスクが過大となったVMの、影響リスクが低減される位置への自動移動が行われる。
以下、第3の実施の形態における移動先判定処理について、詳細に説明する。
図44は、移動先判定処理の手順の一例を示すフローチャートである。以下、図44に示す処理をステップ番号に沿って説明する。
[ステップS311]移動先判定部250は、影響リスクテーブル113を参照し、移動するか否かの判定対象とする機器を1台選択する。
[ステップS312]移動先判定部250は、選択した機器の影響リスクが、VM移動前影響リスク閾値75を超えているか否かを判断する。移動先判定部250は、VM移動前影響リスク閾値75を超えている場合、処理をステップS313に進める。また移動先判定部250は、VM移動前影響リスク閾値75を超えていない場合、処理をステップS314に進める。
[ステップS313]移動先判定部250は、選択した機器を、移動対象機器リスト76に登録する。
[ステップS314]移動先判定部250は、影響リスクテーブル113に登録されているすべての機器を選択したか否かを判断する。移動先判定部250は、すべての機器が選択済みであれば、処理をステップS315に進める。また移動先判定部250は、未選択の機器があれば、処理をステップS311に進める。
[ステップS315]移動先判定部250は、移動対象機器リスト76、システム構成モデル111、影響リスクテーブル113、およびVM移動実行影響リスク閾値77に基づいて、移動対象となった分析対象機器の移動先とすることができる移動先候補物理サーバを判定する。移動先判定部250は、判定した物理サーバの機器名を、移動対象の分析対象機器ごとの移動先候補物理サーバリスト71a,71b,・・・に設定する。なお、移動先候補物理サーバ判定処理の詳細は後述する(図45参照)。
[ステップS316]移動先判定部250は、移動先候補物理サーバリスト71a,71b,・・・、システム構成モデル111、および障害リスクテーブル112に基づいて、推奨移動先とする物理サーバを選択する。物理サーバ選択処理の詳細は後述する(図46参照)。
[ステップS317]移動先判定部250は、移動対象の分析対象機器がストレージに接続されているか否かを判断する。移動先判定部250は、ストレージに接続されていれば、処理をステップS318に進める。また移動先判定部250は、ストレージに接続されていなければ、移動先判定処理を終了する。
[ステップS318]移動先判定部250は、システム構成モデル111、影響リスクテーブル113、およびVM移動実行影響リスク閾値77に基づいて、移動対象の分析対象機器の移動先とすることができる移動先候補ストレージを判定する。移動先判定部250は、判定したストレージの機器名を、移動対象の分析対象機器ごとの移動先候補ストレージリスト72a,72b,・・・に設定する。なお、移動先候補ストレージ判定処理の詳細は後述する(図47参照)。
[ステップS319]移動先判定部250は、移動先候補ストレージリスト72a,72b,・・・、システム構成モデル111、および障害リスクテーブル112に基づいて、推奨移動先とするストレージを選択する。ストレージ選択処理の詳細は後述する(図48参照)。
次に移動先候補物理サーバ判定処理について詳細に説明する。
図45は、移動先候補物理サーバ判定処理の手順の一例を示すフローチャートである。なお図45に示すステップS322~S326の処理は、図32に示す第2の実施の形態におけるステップS161~S165の処理と同様である。そこで以下に、図45における第2の実施の形態と異なるステップS321,S327の処理について説明する。
[ステップS321]移動先判定部250は、移動対象機器リスト76から、移動対象となっている分析対象機器のうち、未選択の分析対象機器を1台選択する。その後、移動先判定部250は、ステップS322~S326の処理により、選択した分析対象機器についての移動先候補物理サーバリストを生成する。
[ステップS327]移動先判定部250は、移動対象機器リスト76に示されるすべての分析対象機器を選択したか否かを判断する。移動先判定部250は、移動対象のすべての分析対象機器が選択済みであれば、移動先候補物理サーバ判定処理を終了する。また移動先判定部250は、未選択の分析対象機器があれば、処理をステップS321に進める。
このようにして、移動対象の分析対象機器それぞれに対応する移動先候補物理サーバリスト71a,71b,・・・が生成される。移動先判定部250は、移動対象の分析対象機器それぞれについて、対応する移動先候補物理サーバリスト71a,71b,・・・の中から、移動先として推奨する物理サーバを選択する。
図46は、物理サーバ選択処理の手順の一例を示すフローチャートである。なお図46に示すステップS332~S336の処理は、図34に示す第2の実施の形態におけるステップS171~S175の処理と同様である。そこで以下に、図46における第2の実施の形態と異なるステップS331,S337の処理について説明する。
[ステップS331]移動先判定部250は、移動対象機器リスト76から、移動対象となっている分析対象機器のうち、未選択の分析対象機器を1台選択する。その後、移動先判定部250は、ステップS332~S336の処理により、選択した分析対象機器の推奨移動先物理サーバを選択する。
[ステップS337]移動先判定部250は、移動対象機器リスト76に示されるすべての分析対象機器を選択したか否かを判断する。移動先判定部250は、移動対象のすべての分析対象機器が選択済みであれば、移動先候補物理サーバ判定処理を終了する。また移動先判定部250は、未選択の分析対象機器があれば、処理をステップS331に進める。
次に移動先候補ストレージ判定処理について詳細に説明する。
図47は、移動先候補ストレージ判定処理の手順の一例を示すフローチャートである。なお図47に示すステップS342~S346の処理は、図36に示す第2の実施の形態におけるステップS181~S185の処理と同様である。そこで以下に、図47における第2の実施の形態と異なるステップS341,S347の処理について説明する。
[ステップS341]移動先判定部250は、移動対象機器リスト76から、移動対象となっている分析対象機器のうち、未選択の分析対象機器を1台選択する。その後、移動先判定部250は、ステップS342~S346の処理により、選択した分析対象機器についての移動先候補ストレージリストを生成する。
[ステップS347]移動先判定部250は、移動対象機器リスト76に示されるすべての分析対象機器を選択したか否かを判断する。移動先判定部250は、移動対象のすべての分析対象機器が選択済みであれば、移動先候補ストレージ判定処理を終了する。また移動先判定部250は、未選択の分析対象機器があれば、処理をステップS341に進める。
このようにして、移動対象の分析対象機器それぞれに対応する移動先候補ストレージリスト72a,72b,・・・が生成される。移動先判定部250は、移動対象の分析対象機器それぞれについて、対応する移動先候補ストレージリスト72a,72b,・・・の中から、移動先として推奨するストレージを選択する。
図48は、ストレージ選択処理の手順の一例を示すフローチャートである。なお図48に示すステップS352~S356の処理は、図38に示す第2の実施の形態におけるステップS191~S195の処理と同様である。そこで以下に、図48における第2の実施の形態と異なるステップS351,S357の処理について説明する。
[ステップS351]移動先判定部250は、移動対象機器リスト76から、移動対象となっている分析対象機器のうち、未選択の分析対象機器を1台選択する。その後、移動先判定部250は、ステップS352~S356の処理により、選択した分析対象機器の推奨移動先ストレージを選択する。
[ステップS357]移動先判定部250は、移動対象機器リスト76に示されるすべての分析対象機器を選択したか否かを判断する。移動先判定部250は、移動対象のすべての分析対象機器が選択済みであれば、ストレージ選択処理を終了する。また移動先判定部250は、未選択の分析対象機器があれば、処理をステップS351に進める。
このようにして、移動対象の分析対象機器ごとに、推奨移動先物理サーバと推奨移動先ストレージとが判定される。移動先判定部250は、移動対象の分析対象機器ごとの推奨移動先物理サーバと推奨移動先ストレージとを、VM自動移動部260に送信する。するとVM自動移動部260は、VM移動処理を実行する。
図49は、VM移動処理の手順の一例を示すフローチャートである。なお図49に示すステップS362~S365の処理は、図40に示す第2の実施の形態におけるステップS201~S204の処理と同様である。そこで以下に、図49における第2の実施の形態と異なるステップS361,S366の処理について説明する。
[ステップS361]移動先判定部250は、移動対象機器リスト76から、移動対象となっている分析対象機器のうち、未選択の分析対象機器を1台選択する。その後、移動先判定部250は、ステップS362~S365の処理により、選択した分析対象機器であるVMの推奨移動先物理サーバへの移動、および推奨移動先ストレージへの接続処理を実施する。
[ステップS366]移動先判定部250は、移動対象機器リスト76に示されるすべての分析対象機器を選択したか否かを判断する。移動先判定部250は、移動対象のすべての分析対象機器が選択済みであれば、VM移動処理を終了する。また移動先判定部250は、未選択の分析対象機器があれば、処理をステップS361に進める。
このようにして、管理サーバ200は、定期的にリスク分析を行い、影響リスクが過大となったVMを、影響リスクが低減する位置に自動で移動させることができる。なおVMの移動結果は、リスク分析制御部270によって、管理用端末装置30のリスク分析画面に表示される。
図50は、VMの自動移動を行う場合のリスク分析画面の一例を示す図である。リスク分析画面90には、システム構成図91が表示されている。システム構成図91には、管理対象のシステムに含まれる機器と、機器間の接続関係が示されている。システム構成図91では、例えば自動で移動されたVMの移動前の位置が強調表示されており、その位置の近辺に、そのVMの移動前の影響リスクが表示されている。またシステム構成図91では、移動されたVMの移動後の位置に、移動されたVMが表示されており、そのVMの近辺に、移動後の影響リスクが表示されている。
またリスク分析画面90には、テキストボックス92,93やボタン94が表示されている。テキストボックス92は、VM移動前影響リスク閾値を入力するためのテキストボックスである。テキストボックス93は、VM移動実行影響リスク閾値を入力するためのテキストボックスである。なお、VM移動実行影響リスク閾値は、VM移動前影響リスク閾値よりも低い値のみが設定可能である。
ボタン94は、VMの移動の自動実行処理の開始を指示するためのボタンである。ボタン94が押下されると、管理用端末装置30は、テキストボックス92,93に設定された値を含むVM移動自動実行要求を管理サーバ200に対して送信する。
管理者は、このようなリスク分析画面90を参照して、影響リスクの低減処理の実行状況を把握することができる。
〔その他の実施の形態〕
第2・第3の実施の形態では、影響リスクが過大なVMを移動させる例を示したが、同様の処理で影響リスクが過大なボリュームを移動させることもできる。
また第2・第3の実施の形態では、すでにシステム上に構築されている機器の影響リスクが過大な場合にその機器の移動先を判定しているが、管理サーバ100,200は、新たにシステムに追加する機器についても同様の処理で適切な構築場所を判定できる。そして管理サーバ200,300は、影響リスクが最も低い位置(物理サーバやストレージ)に、新たな機器を構築することができる。例えば管理サーバ100は、機器の追加要求に応じて、移動先判定処理(図31参照)を実行する。そして管理サーバは、移動先判定処理で得られた推奨移動先物理サーバに新たな機器(例えばVM)を構築させ、移動先判定処理で得られた推奨移動先ストレージに構築した機器を接続する。
以上、実施の形態を例示したが、実施の形態で示した各部の構成は同様の機能を有する他のものに置換することができる。また、他の任意の構成物や工程が付加されてもよい。さらに、前述した実施の形態のうちの任意の2以上の構成(特徴)を組み合わせたものであってもよい。
1a,1b 物理装置
2 ネットワーク
3 システム構成モデル
3a,3e 物理ルータ
3b,3f 物理サーバ
3c,3d,3g VM
4 仮のVM
10 システム管理装置
11 記憶部
12 処理部

Claims (8)

  1. コンピュータが、
    ネットワークに接続されている複数の物理装置および前記複数の物理装置上に構築された仮想機器を含めた複数の機器それぞれについて、前記複数の機器の動作状況を示す動作状況情報に基づいて、障害が発生する可能性を示す障害リスクを算出し、
    機器の種別ごとに障害の影響が及ぶ範囲の探索経路が示された探索経路情報に基づいて、前記複数の機器それぞれについて、障害が発生した場合に障害の影響が及ぶ影響範囲を算出し、
    第1物理装置上に構築された仮想機器である分析対象機器を障害の影響範囲に含んでいる機器の前記障害リスクに基づいて、前記分析対象機器が他の機器の障害の影響を受ける可能性を示す第1影響リスクを算出し、
    前記第1物理装置以外の第2物理装置ごとに、前記分析対象機器を前記第1物理装置から前記第2物理装置に移動させた場合に前記分析対象機器を障害の影響範囲内に含むこととなる機器の前記障害リスクに基づいて、前記分析対象機器が移動後に他の機器の障害の影響を受ける可能性を示す第2影響リスクを算出し、
    前記第2影響リスクが前記第1影響リスクよりも低い値の前記第2物理装置のうちの1つを、前記分析対象機器の移動先に決定する、
    システム管理方法。
  2. 移動先の決定では、前記第2影響リスクが、前記第1影響リスクよりも低い値に設定された閾値以下である前記第2物理装置のうちの1つを、前記分析対象機器の移動先に決定する、
    請求項1記載のシステム管理方法。
  3. 移動先の決定では、前記第1物理装置と、前記第2影響リスクが前記第1影響リスクよりも低い値の前記第2物理装置それぞれとの間の前記ネットワークの通信経路上の他の物理装置の数に基づいて、前記分析対象機器の移動先の前記第2物理装置を決定する、
    請求項1または2に記載のシステム管理方法。
  4. 移動先の決定では、前記第1物理装置と、前記第2影響リスクが前記第1影響リスクよりも低い値の前記第2物理装置それぞれとの間の前記ネットワークの通信経路上の他の物理装置の前記障害リスクに基づいて、前記分析対象機器の移動先の前記第2物理装置を決定する、
    請求項1ないし3のいずれかに記載のシステム管理方法。
  5. 前記第1影響リスクの算出では、前記複数の物理装置上に構築された仮想機器それぞれを前記分析対象機器として、前記複数の物理装置上に構築された仮想機器それぞれの前記第1影響リスクを算出し、
    移動先の決定では、前記第1影響リスクが移動前影響リスク閾値を超えている前記分析対象機器の移動先を決定する、
    請求項1ないし4のいずれかに記載のシステム管理方法。
  6. 前記第1影響リスクの算出では、前記分析対象機器を障害の影響範囲内に含んでいる機器の前記障害リスクの合計を、前記第1影響リスクとする、
    請求項1ないし5のいずれかに記載のシステム管理方法。
  7. コンピュータに、
    ネットワークに接続されている複数の物理装置および前記複数の物理装置上に構築された仮想機器を含めた複数の機器それぞれについて、前記複数の機器の動作状況を示す動作状況情報に基づいて、障害が発生する可能性を示す障害リスクを算出し、
    機器の種別ごとに障害の影響が及ぶ範囲の探索経路が示された探索経路情報に基づいて、前記複数の機器それぞれについて、障害が発生した場合に障害の影響が及ぶ影響範囲を算出し、
    第1物理装置上に構築された仮想機器である分析対象機器を障害の影響範囲に含んでいる機器の前記障害リスクに基づいて、前記分析対象機器が他の機器の障害の影響を受ける可能性を示す第1影響リスクを算出し、
    前記第1物理装置以外の第2物理装置ごとに、前記分析対象機器を前記第1物理装置から前記第2物理装置に移動させた場合に前記分析対象機器を障害の影響範囲内に含むこととなる機器の前記障害リスクに基づいて、前記分析対象機器が移動後に他の機器の障害の影響を受ける可能性を示す第2影響リスクを算出し、
    前記第2影響リスクが前記第1影響リスクよりも低い値の前記第2物理装置のうちの1つを、前記分析対象機器の移動先に決定する、
    処理を実行させるシステム管理プログラム。
  8. ネットワークに接続されている複数の物理装置および前記複数の物理装置上に構築された仮想機器を含めた複数の機器それぞれについて、前記複数の機器の動作状況を示す動作状況情報に基づいて、障害が発生する可能性を示す障害リスクを算出し、機器の種別ごとに障害の影響が及ぶ範囲の探索経路が示された探索経路情報に基づいて、前記複数の機器それぞれについて、障害が発生した場合に障害の影響が及ぶ影響範囲を算出し、第1物理装置上に構築された仮想機器である分析対象機器を障害の影響範囲に含んでいる機器の前記障害リスクに基づいて、前記分析対象機器が他の機器の障害の影響を受ける可能性を示す第1影響リスクを算出し、前記第1物理装置以外の第2物理装置ごとに、前記分析対象機器を前記第1物理装置から前記第2物理装置に移動させた場合に前記分析対象機器を障害の影響範囲内に含むこととなる機器の前記障害リスクに基づいて、前記分析対象機器が移動後に他の機器の障害の影響を受ける可能性を示す第2影響リスクを算出し、前記第2影響リスクが前記第1影響リスクよりも低い値の前記第2物理装置のうちの1つを、前記分析対象機器の移動先に決定する処理部、
    を有するシステム管理装置。
JP2019142838A 2019-08-02 2019-08-02 システム管理方法、システム管理プログラム、およびシステム管理装置 Active JP7239828B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019142838A JP7239828B2 (ja) 2019-08-02 2019-08-02 システム管理方法、システム管理プログラム、およびシステム管理装置
US16/935,933 US11544127B2 (en) 2019-08-02 2020-07-22 System management method, non-transitory computer-readable storage medium for storing system management program, and system management device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019142838A JP7239828B2 (ja) 2019-08-02 2019-08-02 システム管理方法、システム管理プログラム、およびシステム管理装置

Publications (2)

Publication Number Publication Date
JP2021026432A JP2021026432A (ja) 2021-02-22
JP7239828B2 true JP7239828B2 (ja) 2023-03-15

Family

ID=74260154

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019142838A Active JP7239828B2 (ja) 2019-08-02 2019-08-02 システム管理方法、システム管理プログラム、およびシステム管理装置

Country Status (2)

Country Link
US (1) US11544127B2 (ja)
JP (1) JP7239828B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114143179A (zh) * 2021-10-28 2022-03-04 珠海大横琴科技发展有限公司 一种故障处理的方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014002557A (ja) 2012-06-18 2014-01-09 Fujitsu Ltd 試験データ生成方法、試験方法、試験データ生成装置、および試験データ生成プログラム
US20180219899A1 (en) 2017-01-27 2018-08-02 Oracle International Corporation Method and system for placing a workload on one of a plurality of hosts
JP2018205811A (ja) 2017-05-30 2018-12-27 富士通株式会社 影響範囲特定プログラム、影響範囲特定方法、および影響範囲特定装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2041919B1 (en) * 2006-06-30 2017-06-28 Telecom Italia S.p.A. Fault location in telecommunications networks using bayesian networks
DE102007041651A1 (de) * 2007-09-03 2009-03-05 Abb Research Ltd. Mit Redundanz ausgestattetes verteiltes Computersystem mit Serverfunktionalitäten
DE102008006370A1 (de) * 2008-01-28 2009-07-30 Prüftechnik Dieter Busch AG Verfahren und Vorrichtung zum Überwachen einer Maschine
JP4918668B2 (ja) * 2008-06-27 2012-04-18 株式会社日立システムズ 仮想化環境運用支援システム及び仮想化環境運用支援プログラム
US7975165B2 (en) * 2009-06-25 2011-07-05 Vmware, Inc. Management of information technology risk using virtual infrastructures
JPWO2014002557A1 (ja) * 2012-06-29 2016-05-30 日本電気株式会社 共有リスク影響度評価システム、共有リスク影響度評価方法、およびプログラム
WO2014097598A1 (ja) * 2012-12-17 2014-06-26 日本電気株式会社 リスク分析を行う情報処理装置及びリスク分析方法
WO2015130645A1 (en) 2014-02-27 2015-09-03 Intel Corporation Workload optimization, scheduling, and placement for rack-scale architecture computing systems
US10353786B2 (en) * 2014-07-22 2019-07-16 Nec Corporation Virtualization substrate management device, virtualization substrate management system, virtualization substrate management method, and recording medium for recording virtualization substrate management program
JP6611581B2 (ja) 2015-12-08 2019-11-27 三菱電機株式会社 空気調和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014002557A (ja) 2012-06-18 2014-01-09 Fujitsu Ltd 試験データ生成方法、試験方法、試験データ生成装置、および試験データ生成プログラム
US20180219899A1 (en) 2017-01-27 2018-08-02 Oracle International Corporation Method and system for placing a workload on one of a plurality of hosts
JP2018205811A (ja) 2017-05-30 2018-12-27 富士通株式会社 影響範囲特定プログラム、影響範囲特定方法、および影響範囲特定装置

Also Published As

Publication number Publication date
US11544127B2 (en) 2023-01-03
US20210034444A1 (en) 2021-02-04
JP2021026432A (ja) 2021-02-22

Similar Documents

Publication Publication Date Title
US9684562B2 (en) Automatic serial starting of resource groups on failover based on the prediction of aggregate resource usage
US11061791B2 (en) Providing insight of continuous delivery pipeline using machine learning
RU2702268C2 (ru) Масштабируемые пулы хранения данных
JP6867589B2 (ja) 影響範囲特定プログラム、影響範囲特定方法、および影響範囲特定装置
Shahid et al. Towards Resilient Method: An exhaustive survey of fault tolerance methods in the cloud computing environment
US9465685B2 (en) Identifying solutions to application execution problems in distributed computing environments
US11327742B2 (en) Affinity recommendation in software lifecycle management
EP3249538B1 (en) Function execution prioritization
US20130332770A1 (en) Active/passive database management across clusters
US9696982B1 (en) Safe host deployment for a heterogeneous host fleet
US10656934B2 (en) Efficient software testing
US11573848B2 (en) Identification and/or prediction of failures in a microservice architecture for enabling automatically-repairing solutions
US10866872B1 (en) Auto-recovery for software systems
US10977108B2 (en) Influence range specifying method, influence range specifying apparatus, and storage medium
US11165665B2 (en) Apparatus and method to improve precision of identifying a range of effects of a failure in a system providing a multilayer structure of services
US20140281727A1 (en) Grouping and analysis of data access hazard reports
JP2021149849A (ja) 障害原因特定システム、障害原因特定方法および障害原因特定プログラム
JP7239828B2 (ja) システム管理方法、システム管理プログラム、およびシステム管理装置
US8555105B2 (en) Fallover policy management in high availability systems
JP6209862B2 (ja) プログラム、ジョブ監視支援方法、情報処理装置およびシステム
US20170206143A1 (en) Management apparatus, management method, and computer-readable recording medium recorded with management program
JP2021064078A (ja) 複数のノードを含むストレージシステムの拡張構成案を作成する装置
US11379468B1 (en) Control flow graph refining via execution data
US20200394091A1 (en) Failure analysis support system, failure analysis support method, and computer readable recording medium
US11237914B2 (en) Intelligent handling of consistency level of virtual machines

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220407

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230131

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230131

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230213

R150 Certificate of patent or registration of utility model

Ref document number: 7239828

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150