JP7239828B2 - システム管理方法、システム管理プログラム、およびシステム管理装置 - Google Patents
システム管理方法、システム管理プログラム、およびシステム管理装置 Download PDFInfo
- Publication number
- JP7239828B2 JP7239828B2 JP2019142838A JP2019142838A JP7239828B2 JP 7239828 B2 JP7239828 B2 JP 7239828B2 JP 2019142838 A JP2019142838 A JP 2019142838A JP 2019142838 A JP2019142838 A JP 2019142838A JP 7239828 B2 JP7239828 B2 JP 7239828B2
- Authority
- JP
- Japan
- Prior art keywords
- risk
- failure
- devices
- impact
- physical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/008—Reliability or availability analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/004—Error avoidance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5077—Logical partitioning of resources; Management or configuration of virtualized resources
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5083—Techniques for rebalancing the load in a distributed system
- G06F9/5088—Techniques for rebalancing the load in a distributed system involving task migration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3051—Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3058—Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
- G06F2009/4557—Distribution of virtual machine instances; Migration and load balancing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
- G06F2009/45591—Monitoring or debugging support
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
- G06F2009/45595—Network integration; Enabling network access in virtual machine instances
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/81—Threshold
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/815—Virtual
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Debugging And Monitoring (AREA)
Description
コンピュータは、ネットワークに接続されている複数の物理装置および複数の物理装置上に構築された仮想機器を含めた複数の機器それぞれについて、複数の機器の動作状況を示す動作状況情報に基づいて、障害が発生する可能性を示す障害リスクを算出する。次にコンピュータは、機器の種別ごとに障害の影響が及ぶ範囲の探索経路が示された探索経路情報に基づいて、複数の機器それぞれについて、障害が発生した場合に障害の影響が及ぶ影響範囲を算出する。次にコンピュータは、第1物理装置上に構築された仮想機器である分析対象機器を障害の影響範囲に含んでいる機器の障害リスクに基づいて、分析対象機器が他の機器の障害の影響を受ける可能性を示す第1影響リスクを算出する。次にコンピュータは、第1物理装置以外の第2物理装置ごとに、分析対象機器を第1物理装置から第2物理装置に移動させた場合に分析対象機器を障害の影響範囲内に含むこととなる機器の障害リスクに基づいて、分析対象機器が移動後に他の機器の障害の影響を受ける可能性を示す第2影響リスクを算出する。そしてコンピュータは、第2影響リスクが第1影響リスクよりも低い値の第2物理装置のうちの1つを、分析対象機器の移動先に決定する。
〔第1の実施の形態〕
まず、第1の実施の形態について説明する。第1の実施の形態は、VMなどの仮想機器を、他の物理装置または仮想機器の障害の影響を受けるリスク(影響リスク)が少ない物理装置で実現させるようにコンピュータシステムを管理するシステム管理方法である。
次に第2の実施の形態について説明する。第2の実施の形態は、特に重要なVMなどの機器(例えば銀行などの社会的責任の大きい機器など)をユーザが指定し、該当機器が周辺機器によって障害を受けるリスクを低減できるようにしたものである。
リソース障害リスクは、リソースの余力不足により生じる障害のリスクである。例えば管理サーバ100は、VMに割り当てられているリソース(CPU、メモリ、ストレージ装置)の使用状況が100%または100%に近い値に達した時間を、該当VMの稼働時間で割った値を、該当VMのリソース障害リスクとする。なお、VMに割り当てるリソース量を自動調整することでリソース障害リスクを低減することは可能であるが、リソース量の自動調整は、時間と負荷がかかり性能が劣化することがある。そのためリソースの自動調整が頻繁に起こることは、パフォーマンスの安定維持ができない可能性が高く、システムの動作が不安定になるという障害のリスクを生じさせる。そこで管理サーバ100は、リソース量の自動調整機能の有無にかかわらず、リソース障害リスクを、機器の障害リスクのうちの1つに含める。
耐用障害リスクは、機器の使用履歴(使用年数、使用状況)と、耐用年数または製造者が保証する使用時間とを比較して算出される障害リスクである。例えば管理サーバ100は、機器の一般的な耐用年数と現在の使用年数との差や、機器の故障回数に基づいて、対象障害リスクを計算する。
管理サーバ100は、機器ごとに算出した障害リスクと各機器の影響範囲とに基づいて、分析対象機器の影響リスクを算出する。影響リスクの算出方法は以下の通りである。
図10は、管理サーバが有する機能を示すブロック図である。管理サーバ100は、記憶部110、障害リスク算出部120、影響範囲判定部130、影響リスク算出部140、移動先判定部150、VM移動部160、およびリスク分析制御部170を有する。
リスク分析制御部170は、リスク分析に用いる情報の入力の受け付け、および分析結果の表示を行う。例えばリスク分析制御部170は、分析対象機器の指定入力や影響リスクが閾値を超えたVMの移動実行指示を受け付ける。そしてリスク分析制御部170は、管理サーバ100のリスク分析のための機能を制御して分析結果を取得する。またリスク分析制御部170は、分析結果を管理用端末装置30に表示させる。
図12は、システム構成モデルの一例を示す図である。システム構成モデル111には、機器情報と接続情報とが含まれる。機器情報には、システムの構成要素である機器(VMなどの仮想機器も含まれる)の名称(機器名)と、機器の機能が設定されている。接続情報には、ネットワーク上で直接接続されている機器のリストが設定されている。なお各機器の機器名は、機能を示す名称の後に識別番号を付与した名前としてもよい。機器名が「SV」で始まる機器はサーバである。機器名が「VM」で始まる機器は仮想マシン(VM)である。機器名が「Storage」で始まる機器はストレージである。機器名が「Volume」で始まる機器はボリュームである。
図17は、リスク分析処理の手順の一例を示すフローチャートである。以下、図17に示す処理をステップ番号に沿って説明する。
[ステップS111]リスク分析制御部170は、VMの移動が完了すると、VMの移動結果を示す画面を、管理用端末装置30に表示させる。その後、リスク分析処理が終了する。
次に、障害リスク算出処理について詳細に説明する。
図18は、障害リスクの算出例を示す図である。障害リスク算出部120は、例えばリソースの稼働状況から障害リスクを算出する。すなわち、機器で使用可能なリソース量が逼迫していると、その機器の障害が起こる可能性が高くなる。そこで障害リスク算出部120は、CPU、メモリ、ストレージの稼働状況に基づいて障害リスクを算出する。例えば障害リスク算出部120は、CPU、メモリ、ストレージの少なくとも1つについて、稼働時間に対し、使用率が所定の閾値(100%または100%に近い値)を超えた時間の比率を算出し、その比率を障害リスクとする。なお障害リスク算出部120は、CPU、メモリ、ストレージのうちの2つ以上について、使用率が閾値を超えた時間比率を算出し、それらの比率の合計を障害リスクとすることもできる。
[ステップS121]障害リスク算出部120は、システム構成モデル111の機器情報を参照し、未選択の機器を1つ選択する。
[ステップS131]影響範囲判定部130は、システム構成モデル111を参照し、影響範囲探索の起点となる機器(障害想定機器)の機器名と機能(種別)とを読み込む。例えば影響範囲判定部130は、システム構成モデル111に示されるすべての機器を、障害想定機器とする。
[ステップS133]影響範囲判定部130は、未選択の障害想定機器を1つ選択する。
図28は、影響リスクの算出例を示す図である。例えば影響リスク算出部140は、分析対象機器を影響範囲に含むすべての障害想定機器の障害リスクの合計を、分析対象機器の影響リスクとする。すなわち、分析対象機器に対して障害の影響を及ぼすすべての機器の障害リスクを重ね合わせることで、分析対象機器の影響リスクが算出される。
[ステップS141]影響リスク算出部140は、システム構成モデル111を参照し、システム内のすべての機器の機器名を読み込む。
[ステップS143]影響リスク算出部140は、障害リスクテーブル112から、分析対象機器に影響を及ぼす障害想定機器の機器名を抽出する。影響リスク算出部140は、抽出した機器名を、分析対象機器の機器名に対応付けて影響リスクテーブル113に登録する。
図31は、移動先判定処理の手順の一例を示すフローチャートである。以下、図31に示す処理をステップ番号に沿って説明する。
図32は、移動先候補物理サーバ判定処理の手順の一例を示すフローチャートである。以下、図32に示す処理をステップ番号に沿って説明する。
[ステップS165]移動先判定部150は、分析対象機器が構築された物理サーバ以外のすべての物理サーバが選択済みか否かを判断する。移動先判定部150は、分析対象機器以外のすべての物理サーバが選択済みであれば、移動先候補物理サーバ判定処理を終了する。また移動先判定部150は、未選択の物理サーバがあれば、処理をステップS161に進める。
図33は、移動先候補物理サーバリストの一例を示す図である。移動先候補物理サーバリスト71には、移動先候補物理サーバの欄と移動後影響リスクの欄とが設けられている。移動先候補物理サーバの欄には、移動先候補物理サーバと判定された物理サーバの機器名が設定されている。移動後影響リスクの欄には、分析対象機器を移動先候補物理サーバ上に移動した場合の移動後影響リスクが設定されている。移動先候補物理サーバリスト71は、移動先判定部150により、例えばメモリ102に格納される。
図34は、物理サーバ選択処理の手順の一例を示すフローチャートである。以下、図34に示す処理をステップ番号に沿って説明する。
[ステップS172]移動先判定部150は、分析対象機器が構築されている物理サーバと選択した移動先候補物理サーバとの間の経路上のノード数を算出する。例えば移動先判定部150は、影響リスクテーブル113に基づいて分析対象機器の構築物理サーバを判断する。そして移動先判定部150は、システム構成モデル111を参照し、構築物理サーバから選択した移動先候補物理サーバまでの最短の接続関係を辿り、辿った経路上のノード数(機器数)を計数する。移動先判定部150は、計算したノード数を、選択した移動先候補物理サーバに対応付けて、移動先候補物理サーバリスト71に設定する。
図35の例では、第1の選択基準を満たす移動先候補物理サーバとして、経路間ノード数が「6」である2台の移動先候補物理サーバ「SV11」、「SV21」が存在する。移動先候補物理サーバ「SV11」の経路間ノード障害リスク合計値は「0.015」であり、移動先候補物理サーバ「SV21」の経路間ノード障害リスク合計値「0.021」より小さい。しがって移動先判定部150は、移動先候補物理サーバ「SV11」を推奨移動先物理サーバとして選択する。
図36は、移動先候補ストレージ判定処理の手順の一例を示すフローチャートである。以下、図36に示す処理をステップ番号に沿って説明する。
[ステップS185]移動先判定部150は、分析対象機器以外のすべてのストレージが選択済みか否かを判断する。移動先判定部150は、分析対象機器が接続されているストレージ以外のすべてのストレージが選択済みであれば、移動先候補ストレージ判定処理を終了する。また移動先判定部150は、未選択のストレージがあれば、処理をステップS181に進める。
図37は、移動先候補ストレージリストの一例を示す図である。移動先候補ストレージリスト72には、移動先候補ストレージの欄と移動後影響リスクの欄とが設けられている。移動先候補ストレージの欄には、移動先候補ストレージと判定されたストレージの機器名が設定されている。移動後影響リスクの欄には、分析対象機器を移動先候補ストレージに接続した場合の移動後影響リスクが設定されている。移動先候補ストレージリスト72は、移動先判定部150により、例えばメモリ102に格納される。
図38は、ストレージ選択処理の手順の一例を示すフローチャートである。以下、図38に示す処理をステップ番号に沿って説明する。
[ステップS192]移動先判定部150は、分析対象機器が構築されているストレージと選択した移動先候補ストレージとの間の経路上のノード数を算出する。例えば移動先判定部150は、影響リスクテーブル113に基づいて分析対象機器に接続されたストレージを判断する。そして移動先判定部150は、システム構成モデル111を参照し、分析対象機器に接続されたストレージから選択した移動先候補ストレージまでの最短の接続関係を辿り、辿った経路上のノード数(機器数)を計数する。移動先判定部150は、計算したノード数を、選択した移動先候補ストレージに対応付けて、移動先候補ストレージリスト72に設定する。
図39の例では、第1の基準を満たす移動先候補ストレージとして、経路間ノード数が「6」である2台の移動先候補ストレージ「Storage11」、「Storage21」が存在する。移動先候補ストレージ「Storage11」の移動後影響リスクは「0.12」であり、移動先候補ストレージ「Storage21」の移動後影響リスク「0.20」より小さい。しがって移動先判定部150は、移動先候補ストレージ「Storage11」を推奨移動先ストレージとして選択する。
[ステップS201]VM移動部160は、推奨移動先物理サーバがあるか否かを判断する。例えばリスク分析制御部170は、推奨移動先物理サーバがある場合、推奨移動先物理サーバの機器名をVM移動部160に送信する。VM移動部160は、リスク分析制御部170から推奨移動先物理サーバの機器名を取得した場合、推奨移動先物理サーバがあると判断する。VM移動部160は、推奨移動先物理サーバがある場合、処理をステップS202に進める。またVM移動部160は、推奨移動先物理サーバがない場合、処理をステップS203に進める。
図41は、管理用端末装置に表示されるリスク分析画面の一例を示す図である。リスク分析画面80には、システム構成図81が表示されている。システム構成図81には、管理対象のシステムに含まれる機器と、機器間の接続関係が示されている。システム構成図81では、例えば影響リスクが所定値以上となったVMが強調表示されており、そのVMの近辺に、そのVMの影響リスクが表示されている。またシステム構成図81では、推奨移動先となる位置に定義された仮のVMが表示されており、仮のVMの近辺に、仮のVMの位置に移動させた場合の影響リスクが表示されている。
第3の実施の形態は、影響リスクが閾値を超えた機器の有無を管理サーバで定期的に監視し、該当する機器を発見した場合には自動で影響リスクを低減させるものである。これにより、管理者が関与せずに、システムが自律的にシステムのリスクを低い状態に維持することができる。
[ステップS301]リスク分析制御部270は、VM移動前影響リスク閾値、VM移動実行影響リスク閾値の入力を受け付ける。例えばリスク分析制御部270は、管理用端末装置30に対して、リスク分析画面の画面データを送信する。管理用端末装置30は、受信した画面データに基づいてリスク分析画面を表示する。管理者は、表示されたリスク分析画面を参照し、管理用端末装置30にVM移動前影響リスク閾値とVM移動実行影響リスク閾値とを入力するとともに、VMの自動実行を指示する入力を行う。管理用端末装置30は、VMの自動実行を指示する入力に応じて、VM移動前影響リスク閾値とVM移動実行影響リスク閾値とを含むVM自動移動要求を管理サーバ200に送信する。リスク分析制御部270は、VM自動移動要求を受信すると、障害リスク算出部220に対してVMの自動移動の実行開始を指示する。またリスク分析制御部270は、移動先判定部250に対してVM移動前影響リスク閾値とVM移動実行影響リスク閾値とを送信する。なお、VM移動実行影響リスク閾値は、VM移動前影響リスク閾値よりも低い値であることが、リスク分析制御部270が入力を受け付ける条件である。
[ステップS307]移動先判定部250は、影響リスクを低減可能な移動先があるか否かを判断する。例えば移動先判定部250は、リスク分析制御部270から取得したVM移動実行影響リスク閾値と、各機器の影響リスク閾値とを比較する。移動先判定部250は、影響リスクが移動前影響リスク閾値を超える機器が少なくとも1つでもあれば、影響リスクを低減可能な移動先があると判断する。移動先判定部250は、影響リスクを低減可能な移動先がある場合、処理をステップS308に進める。また移動先判定部250は、影響リスクを低減可能な移動先がない場合、処理をステップS310に進める。
[ステップS309]リスク分析制御部270は、VMの移動が完了すると、VMの移動結果を示す画面を、管理用端末装置30に表示させる。
以下、第3の実施の形態における移動先判定処理について、詳細に説明する。
[ステップS311]移動先判定部250は、影響リスクテーブル113を参照し、移動するか否かの判定対象とする機器を1台選択する。
[ステップS314]移動先判定部250は、影響リスクテーブル113に登録されているすべての機器を選択したか否かを判断する。移動先判定部250は、すべての機器が選択済みであれば、処理をステップS315に進める。また移動先判定部250は、未選択の機器があれば、処理をステップS311に進める。
図45は、移動先候補物理サーバ判定処理の手順の一例を示すフローチャートである。なお図45に示すステップS322~S326の処理は、図32に示す第2の実施の形態におけるステップS161~S165の処理と同様である。そこで以下に、図45における第2の実施の形態と異なるステップS321,S327の処理について説明する。
図47は、移動先候補ストレージ判定処理の手順の一例を示すフローチャートである。なお図47に示すステップS342~S346の処理は、図36に示す第2の実施の形態におけるステップS181~S185の処理と同様である。そこで以下に、図47における第2の実施の形態と異なるステップS341,S347の処理について説明する。
〔その他の実施の形態〕
第2・第3の実施の形態では、影響リスクが過大なVMを移動させる例を示したが、同様の処理で影響リスクが過大なボリュームを移動させることもできる。
2 ネットワーク
3 システム構成モデル
3a,3e 物理ルータ
3b,3f 物理サーバ
3c,3d,3g VM
4 仮のVM
10 システム管理装置
11 記憶部
12 処理部
Claims (8)
- コンピュータが、
ネットワークに接続されている複数の物理装置および前記複数の物理装置上に構築された仮想機器を含めた複数の機器それぞれについて、前記複数の機器の動作状況を示す動作状況情報に基づいて、障害が発生する可能性を示す障害リスクを算出し、
機器の種別ごとに障害の影響が及ぶ範囲の探索経路が示された探索経路情報に基づいて、前記複数の機器それぞれについて、障害が発生した場合に障害の影響が及ぶ影響範囲を算出し、
第1物理装置上に構築された仮想機器である分析対象機器を障害の影響範囲に含んでいる機器の前記障害リスクに基づいて、前記分析対象機器が他の機器の障害の影響を受ける可能性を示す第1影響リスクを算出し、
前記第1物理装置以外の第2物理装置ごとに、前記分析対象機器を前記第1物理装置から前記第2物理装置に移動させた場合に前記分析対象機器を障害の影響範囲内に含むこととなる機器の前記障害リスクに基づいて、前記分析対象機器が移動後に他の機器の障害の影響を受ける可能性を示す第2影響リスクを算出し、
前記第2影響リスクが前記第1影響リスクよりも低い値の前記第2物理装置のうちの1つを、前記分析対象機器の移動先に決定する、
システム管理方法。 - 移動先の決定では、前記第2影響リスクが、前記第1影響リスクよりも低い値に設定された閾値以下である前記第2物理装置のうちの1つを、前記分析対象機器の移動先に決定する、
請求項1記載のシステム管理方法。 - 移動先の決定では、前記第1物理装置と、前記第2影響リスクが前記第1影響リスクよりも低い値の前記第2物理装置それぞれとの間の前記ネットワークの通信経路上の他の物理装置の数に基づいて、前記分析対象機器の移動先の前記第2物理装置を決定する、
請求項1または2に記載のシステム管理方法。 - 移動先の決定では、前記第1物理装置と、前記第2影響リスクが前記第1影響リスクよりも低い値の前記第2物理装置それぞれとの間の前記ネットワークの通信経路上の他の物理装置の前記障害リスクに基づいて、前記分析対象機器の移動先の前記第2物理装置を決定する、
請求項1ないし3のいずれかに記載のシステム管理方法。 - 前記第1影響リスクの算出では、前記複数の物理装置上に構築された仮想機器それぞれを前記分析対象機器として、前記複数の物理装置上に構築された仮想機器それぞれの前記第1影響リスクを算出し、
移動先の決定では、前記第1影響リスクが移動前影響リスク閾値を超えている前記分析対象機器の移動先を決定する、
請求項1ないし4のいずれかに記載のシステム管理方法。 - 前記第1影響リスクの算出では、前記分析対象機器を障害の影響範囲内に含んでいる機器の前記障害リスクの合計を、前記第1影響リスクとする、
請求項1ないし5のいずれかに記載のシステム管理方法。 - コンピュータに、
ネットワークに接続されている複数の物理装置および前記複数の物理装置上に構築された仮想機器を含めた複数の機器それぞれについて、前記複数の機器の動作状況を示す動作状況情報に基づいて、障害が発生する可能性を示す障害リスクを算出し、
機器の種別ごとに障害の影響が及ぶ範囲の探索経路が示された探索経路情報に基づいて、前記複数の機器それぞれについて、障害が発生した場合に障害の影響が及ぶ影響範囲を算出し、
第1物理装置上に構築された仮想機器である分析対象機器を障害の影響範囲に含んでいる機器の前記障害リスクに基づいて、前記分析対象機器が他の機器の障害の影響を受ける可能性を示す第1影響リスクを算出し、
前記第1物理装置以外の第2物理装置ごとに、前記分析対象機器を前記第1物理装置から前記第2物理装置に移動させた場合に前記分析対象機器を障害の影響範囲内に含むこととなる機器の前記障害リスクに基づいて、前記分析対象機器が移動後に他の機器の障害の影響を受ける可能性を示す第2影響リスクを算出し、
前記第2影響リスクが前記第1影響リスクよりも低い値の前記第2物理装置のうちの1つを、前記分析対象機器の移動先に決定する、
処理を実行させるシステム管理プログラム。 - ネットワークに接続されている複数の物理装置および前記複数の物理装置上に構築された仮想機器を含めた複数の機器それぞれについて、前記複数の機器の動作状況を示す動作状況情報に基づいて、障害が発生する可能性を示す障害リスクを算出し、機器の種別ごとに障害の影響が及ぶ範囲の探索経路が示された探索経路情報に基づいて、前記複数の機器それぞれについて、障害が発生した場合に障害の影響が及ぶ影響範囲を算出し、第1物理装置上に構築された仮想機器である分析対象機器を障害の影響範囲に含んでいる機器の前記障害リスクに基づいて、前記分析対象機器が他の機器の障害の影響を受ける可能性を示す第1影響リスクを算出し、前記第1物理装置以外の第2物理装置ごとに、前記分析対象機器を前記第1物理装置から前記第2物理装置に移動させた場合に前記分析対象機器を障害の影響範囲内に含むこととなる機器の前記障害リスクに基づいて、前記分析対象機器が移動後に他の機器の障害の影響を受ける可能性を示す第2影響リスクを算出し、前記第2影響リスクが前記第1影響リスクよりも低い値の前記第2物理装置のうちの1つを、前記分析対象機器の移動先に決定する処理部、
を有するシステム管理装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019142838A JP7239828B2 (ja) | 2019-08-02 | 2019-08-02 | システム管理方法、システム管理プログラム、およびシステム管理装置 |
US16/935,933 US11544127B2 (en) | 2019-08-02 | 2020-07-22 | System management method, non-transitory computer-readable storage medium for storing system management program, and system management device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019142838A JP7239828B2 (ja) | 2019-08-02 | 2019-08-02 | システム管理方法、システム管理プログラム、およびシステム管理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021026432A JP2021026432A (ja) | 2021-02-22 |
JP7239828B2 true JP7239828B2 (ja) | 2023-03-15 |
Family
ID=74260154
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019142838A Active JP7239828B2 (ja) | 2019-08-02 | 2019-08-02 | システム管理方法、システム管理プログラム、およびシステム管理装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11544127B2 (ja) |
JP (1) | JP7239828B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114143179A (zh) * | 2021-10-28 | 2022-03-04 | 珠海大横琴科技发展有限公司 | 一种故障处理的方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014002557A (ja) | 2012-06-18 | 2014-01-09 | Fujitsu Ltd | 試験データ生成方法、試験方法、試験データ生成装置、および試験データ生成プログラム |
US20180219899A1 (en) | 2017-01-27 | 2018-08-02 | Oracle International Corporation | Method and system for placing a workload on one of a plurality of hosts |
JP2018205811A (ja) | 2017-05-30 | 2018-12-27 | 富士通株式会社 | 影響範囲特定プログラム、影響範囲特定方法、および影響範囲特定装置 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2041919B1 (en) * | 2006-06-30 | 2017-06-28 | Telecom Italia S.p.A. | Fault location in telecommunications networks using bayesian networks |
DE102007041651A1 (de) * | 2007-09-03 | 2009-03-05 | Abb Research Ltd. | Mit Redundanz ausgestattetes verteiltes Computersystem mit Serverfunktionalitäten |
DE102008006370A1 (de) * | 2008-01-28 | 2009-07-30 | Prüftechnik Dieter Busch AG | Verfahren und Vorrichtung zum Überwachen einer Maschine |
JP4918668B2 (ja) * | 2008-06-27 | 2012-04-18 | 株式会社日立システムズ | 仮想化環境運用支援システム及び仮想化環境運用支援プログラム |
US7975165B2 (en) * | 2009-06-25 | 2011-07-05 | Vmware, Inc. | Management of information technology risk using virtual infrastructures |
JPWO2014002557A1 (ja) * | 2012-06-29 | 2016-05-30 | 日本電気株式会社 | 共有リスク影響度評価システム、共有リスク影響度評価方法、およびプログラム |
WO2014097598A1 (ja) * | 2012-12-17 | 2014-06-26 | 日本電気株式会社 | リスク分析を行う情報処理装置及びリスク分析方法 |
WO2015130645A1 (en) | 2014-02-27 | 2015-09-03 | Intel Corporation | Workload optimization, scheduling, and placement for rack-scale architecture computing systems |
US10353786B2 (en) * | 2014-07-22 | 2019-07-16 | Nec Corporation | Virtualization substrate management device, virtualization substrate management system, virtualization substrate management method, and recording medium for recording virtualization substrate management program |
JP6611581B2 (ja) | 2015-12-08 | 2019-11-27 | 三菱電機株式会社 | 空気調和装置 |
-
2019
- 2019-08-02 JP JP2019142838A patent/JP7239828B2/ja active Active
-
2020
- 2020-07-22 US US16/935,933 patent/US11544127B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014002557A (ja) | 2012-06-18 | 2014-01-09 | Fujitsu Ltd | 試験データ生成方法、試験方法、試験データ生成装置、および試験データ生成プログラム |
US20180219899A1 (en) | 2017-01-27 | 2018-08-02 | Oracle International Corporation | Method and system for placing a workload on one of a plurality of hosts |
JP2018205811A (ja) | 2017-05-30 | 2018-12-27 | 富士通株式会社 | 影響範囲特定プログラム、影響範囲特定方法、および影響範囲特定装置 |
Also Published As
Publication number | Publication date |
---|---|
US11544127B2 (en) | 2023-01-03 |
US20210034444A1 (en) | 2021-02-04 |
JP2021026432A (ja) | 2021-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9684562B2 (en) | Automatic serial starting of resource groups on failover based on the prediction of aggregate resource usage | |
US11061791B2 (en) | Providing insight of continuous delivery pipeline using machine learning | |
RU2702268C2 (ru) | Масштабируемые пулы хранения данных | |
JP6867589B2 (ja) | 影響範囲特定プログラム、影響範囲特定方法、および影響範囲特定装置 | |
Shahid et al. | Towards Resilient Method: An exhaustive survey of fault tolerance methods in the cloud computing environment | |
US9465685B2 (en) | Identifying solutions to application execution problems in distributed computing environments | |
US11327742B2 (en) | Affinity recommendation in software lifecycle management | |
EP3249538B1 (en) | Function execution prioritization | |
US20130332770A1 (en) | Active/passive database management across clusters | |
US9696982B1 (en) | Safe host deployment for a heterogeneous host fleet | |
US10656934B2 (en) | Efficient software testing | |
US11573848B2 (en) | Identification and/or prediction of failures in a microservice architecture for enabling automatically-repairing solutions | |
US10866872B1 (en) | Auto-recovery for software systems | |
US10977108B2 (en) | Influence range specifying method, influence range specifying apparatus, and storage medium | |
US11165665B2 (en) | Apparatus and method to improve precision of identifying a range of effects of a failure in a system providing a multilayer structure of services | |
US20140281727A1 (en) | Grouping and analysis of data access hazard reports | |
JP2021149849A (ja) | 障害原因特定システム、障害原因特定方法および障害原因特定プログラム | |
JP7239828B2 (ja) | システム管理方法、システム管理プログラム、およびシステム管理装置 | |
US8555105B2 (en) | Fallover policy management in high availability systems | |
JP6209862B2 (ja) | プログラム、ジョブ監視支援方法、情報処理装置およびシステム | |
US20170206143A1 (en) | Management apparatus, management method, and computer-readable recording medium recorded with management program | |
JP2021064078A (ja) | 複数のノードを含むストレージシステムの拡張構成案を作成する装置 | |
US11379468B1 (en) | Control flow graph refining via execution data | |
US20200394091A1 (en) | Failure analysis support system, failure analysis support method, and computer readable recording medium | |
US11237914B2 (en) | Intelligent handling of consistency level of virtual machines |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220407 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230131 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230131 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230213 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7239828 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |