JP6622808B2 - 管理計算機および計算機システムの管理方法 - Google Patents

管理計算機および計算機システムの管理方法 Download PDF

Info

Publication number
JP6622808B2
JP6622808B2 JP2017534045A JP2017534045A JP6622808B2 JP 6622808 B2 JP6622808 B2 JP 6622808B2 JP 2017534045 A JP2017534045 A JP 2017534045A JP 2017534045 A JP2017534045 A JP 2017534045A JP 6622808 B2 JP6622808 B2 JP 6622808B2
Authority
JP
Japan
Prior art keywords
countermeasure procedure
countermeasure
evaluation
procedure
rank
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017534045A
Other languages
English (en)
Other versions
JPWO2017026017A1 (ja
Inventor
信明 小崎
信明 小崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of JPWO2017026017A1 publication Critical patent/JPWO2017026017A1/ja
Application granted granted Critical
Publication of JP6622808B2 publication Critical patent/JP6622808B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/81Threshold

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Description

本発明は、計算機システムの管理に係り、管理計算機および計算機システムの管理方法および関連技術に関する。
従来、計算機システムで問題が発生したとき、管理者の判断を補助する目的で推奨する対処策を提案する管理システムがある(例えば下記特許文献1を参照)。特許文献1の管理システムは、例えばディスク稼働率など主に稼働データを参照し、対処ルールに基づいて具体的な対処策を生成し、その効果を評価し、管理者に提示する。これにより、管理者は計算機システムの問題を解決するための具体的な対処策を容易に判断または選択できる。
公開番号WO2014/073045
しかしながら、上述した特許文献1では、計算機システムを構成する部品、例えば仮想サーバや論理ボリュームなどの重要度や利用している顧客の重要度など、運用方針を参照し考慮する処理が無い。そのため、特許文献1で推奨される対処策ではより重要度の高い要素、例えば重要顧客に悪影響を与える可能性がある。
例えば、仮想マシンをとあるホストサーバから別のホストサーバに移動させるような対処策を生成する場合、実験用の仮想マシンなどのように比較的重要度の低い仮想マシンが他にも存在するにも関わらず、重要顧客が利用している仮想マシンを移動対象として選択するような対処策が生成される。計算機システムの管理者は対処策の実行により重要な仮想マシンに悪影響がでないように対処策の詳細を確認し、必要があれば対処策を修正しなければならないという問題がある。
本願において開示される発明の一側面となる計算機システムは、顧客および計算機システムを構成する部品毎に運用方針に関する情報を保持し、問題への対処策を生成する際に、運用方針に基づいて対処策の影響範囲を区分し、上位の顧客への影響が下位の顧客への影響以下になるように対処策を生成する。例えば、対処策の操作の対象から上位の顧客を除外する、または性能への影響が上位の方が小さくなるような操作を施すことで実現されれば良い。生成した対処策は、管理者が操作を行ってもよいし、管理計算機が対処策の候補を管理者に提示し、管理者の承認を得てから管理計算機が実行しても良いし、事前承認や学習結果などに基づき管理計算機により自動で実行されても良い。
本願発明の他の一側面は、プロセッサと、入力装置と、出力装置と、記憶装置を有し、複数の計算機システムを管理する管理計算機である。この管理計算機は、複数の計算機システムの部品の状態を変更する対策手順案を生成する、対策手順案生成モジュールを備える。この対策手順案生成モジュールは、複数の計算機システムまたはその部品のうち、上位ランクの計算機システムまたはその部品への影響が、下位ランクの計算機システムまたはその部品への影響より小さくなるという制約条件に従って、対策手順案を生成する。
本発明の他の一側面は、プロセッサと、入力装置と、出力装置と、記憶装置を有する管理計算機が、複数の計算機システムを管理する計算機システムの管理方法である。この方法では、管理計算機は、複数の計算機システムの部品の状態を変更する対策手順案を生成する際に、複数の計算機システムまたはその部品のうち、上位ランクの計算機システムまたはその部品への影響が、下位ランクの計算機システムまたはその部品への影響より小さくなるという制約条件に従って、対策手順案を生成する。
ここで、計算機システムの部品とは、例えば、テナント、サーバ、仮想計算機、ストレージのボリューム、IO処理ユニットなどであり、その粒度や分類は任意である。制約条件は、具体的な例としては、計算機システムの運用方針に基づいて、自動的にあるいは人の手によって作成される。場合によっては、制約条件は運用方針そのものでもよい。また、計算機システムまたはその部品のランク分けの定義や粒度も任意でよい。
本発明の代表的な実施の形態によれば、管理計算機は問題を解決できる対処策の中でも、重要性の高い要素、例えば上位の顧客への影響が小さい対処策を提示できる。前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。
本発明実施例の計算機システムにおける問題解決処理フローの概要を説明する概念ブロック図。 図1の実施例の計算機システム2のハードウェア構成例を、管理サーバ201を中心に示すブロック図。 図1の実施例の計算機システム2のハードウェア構成例を、管理サーバ201の管理対象である管理対象装置群を中心に示すブロック図。 図1の実施例の計算機システム2のハードウェア構成例を、管理サーバ201の機能を主に示すブロック図。 図1の計算機システム2上に構成されるテナントシステムの一例を示すブロック図。 システム構成情報234の一部をなす、接続関係の対応テーブル400の一例を示す表図。 運用方針情報233の一部をなす、サーバランクテーブル500の一例を示す表図。 運用方針情報233の一部をなす、ボリュームランクテーブル600の一例を示す表図。 運用方針情報233の一部をなす、サーバランク詳細テーブル700の一例を示す表図。 運用方針情報233の一部をなす、ボリュームランク詳細テーブル800の一例を示す表図。 管理サーバ201の問題解決処理900の手順例を示す流れ図。 図9の対策手順案の生成処理S903の例を示す概念図。 図9の対策手順案の生成処理ステップS903の手順例を示す流れ図。 影響度合いの区分テーブル1200の例を示す表図。 制約条件のパターンテーブル1300の一例を示す表図。 対策手順案の評価結果テーブル1400の一例を示す表図。 図9の対策手順案の優先順位付ステップS905の手順例を示す流れ図。 対策手順案の評価結果が図14に例示するとおりであった場合の足切り処理の概要を例示する説明図。 図15の総合評価値の算出処理S1503で用いる数式例を示す説明図。 管理サーバ201が実行する対策手順案の実行実績を記憶する場合の、対策手順案の実行処理(ステップS908)の手順例を示す流れ図。 変数テーブル1900の一例を示す表図。 パターンテーブル2000の一例を示す表図。 記憶処理と忘却処理を実行した際の実行実績2005の値の変化の様子を例示する概念図。
以後の説明では「aaaテーブル」、「aaaリスト」、「aaaDB(Database)」、「aaaキュー」(aaaは任意の文字列)等の表現にて本実施例の情報を説明するが、これら情報は必ずしもテーブル、リスト、DB、キュー、等のデータ構造以外で表現されていてもよい。そのため、データ構造に依存しないことを示すために「aaaテーブル」、「aaaリスト」、「aaaDB」、「aaaキュー」等について「aaa情報」と呼ぶことがある。
また、各情報の内容を説明する際に、「識別情報」、「識別子」、「名」、「名前」、「ID(IDentification)」という表現を用いるが、これらについてはお互いに置換が可能である。
また、以後の説明では「プログラム」を主語として説明を行う場合があるが、プログラムはプロセッサによって実行されることで定められた処理をメモリ及び通信ポート(通信制御デバイス)を用いながら行うため、プロセッサを主語とした説明としてもよい。また、プログラムを主語として開示された処理は管理サーバ等の計算機、情報処理装置が行う処理としてもよい。また、プログラムの一部または全ては専用ハードウェアによって実現されてもよい。
また、各種プログラムは、プログラム配布サーバや、計算機が読み取り可能な記憶メディアによって各計算機にインストールされてもよい。この場合、プログラム配布サーバは、プロセッサと記憶資源を含み、記憶資源はさらに配布プログラムと配布対象であるプログラムを記憶する。そして、配布プログラムをプロセッサが実行することで、プログラム配布サーバのプロセッサは、配布対象のプログラムを他の計算機に配布する。
また、計算機は入出力デバイスを有する。入出力デバイスの例としてはディスプレイとキーボードとポインタデバイスが考えられるが、これ以外のデバイスであってもよい。また、入出力デバイスの代替としてシリアルインタフェースやイーサーネットインタフェースを入出力デバイスとし、当該インタフェースにディスプレイ又はキーボード又はポインタデバイスを有する表示用計算機を接続し、表示用情報を表示用計算機に送信したり、入力用情報を表示用計算機から受信することで、表示用計算機で表示を行ったり、入力を受け付けることで入出力デバイスでの入力及び表示を代替してもよい。
以後、情報処理システムを管理し、本実施例の表示用情報を表示する一つ以上の計算機の集合を管理システムと呼ぶことがある。管理用の計算機(以下、管理計算機)が表示用情報を表示する場合は管理計算機が管理システムである、また、管理計算機と表示用計算機の組み合わせも管理システムである。また、管理処理の高速化や高信頼化のために複数の計算機で管理計算機と同等の処理を実現してもよく、この場合は当該複数の計算機(表示を表示用計算機が行う場合は表示用計算機も含む)が管理システムである。
ここで言う対処策とは、例えば、IDが00_1の仮想マシンをID02のホストマシンにマイグレーションする、ID00_1の仮想マシンのDiskアクセスを1000IOPSに制限するといった具体的な操作の内容を含んだ情報のことを指す。以後、対処策、対処プラン、アクションプランなどと表現する。また、具体的な操作の内容を含まない、例えば、仮想マシンをとあるホストマシンから別のマシンにマイグレーションする、仮想マシンのDiskアクセス数を制限するといった定性的な情報のことを、以後、対策ルール、あるいは単にルールと呼ぶ。
図1は、本実施例の計算機システムにおける問題解決処理フローの概要を説明する図である。ここでは、本実施例が適用されないシステムを比較例として、本実施例のシステムの概要を説明する。
計算機システム1は、本実施例が適用されていない比較例の計算機システムを示している。計算機システム1は、管理対象であるサーバ203と、ストレージ204と、ネットワーク装置205と、これら管理対象装置群を管理する管理サーバ201とを備える。また、管理対象装置上で稼働するアプリケーション、または管理対象装置上で稼働するアプリケーション群により構成されるテナントシステムの重要度や性能の規定値である運用方針233は、管理サーバ201外部に存在するExcelなどの外部ファイル208に保持される。システムを使用するテナントには、超重要テナント11、重要テナント12、通常テナント13のように重み付けがされている。
管理サーバ201は、重要テナント12で発生した問題(#1)を監視機能2011により検知し(#2)、原因解析機能2012により原因解析を実施する(#3)。対策手順案作成機能2013は、補助記憶デバイス213内の、対策手順ルール231や稼働データ232に基づいて問題を解決する対処手順案を生成し(#4)、生成された対処手順を実行基盤機能2014により実行登録する(#5)。管理サーバ201より受信したサーバ203は(#6)、サーバ203上で稼働している仮想マシン(図中ではVMと例示している)を別のサーバ装置203上にマイグレーションを実施する(#7)。その結果、重要テナント12で発生した問題を解決できても、超重要テナント11に悪影響を与えることがある(#8)。
通常、特定のテナントで発生した問題を解決したい場合、問題が発生したテナントよりも、より重要である(以後、より重要であることを上位ランクと記載する。また、逆に、より重要ではない方を下位ランクと記載する。)テナントに悪影響を与えることは避けたいと考える。しかし、比較例では上位ランクのテナントに悪影響をあたえることがある。これは、管理サーバが対処手順案を生成するとき、稼働データ232や対処手順ルール231に従って対処手順を生成するが、管理サーバ外部に存在する運用方針233は参照していないためである。ここでいう対処手順案とは、例えば、VM_1番をサーバ装置_1からサーバ装置_2へマイグレーションする、といった問題解決手順の案のことを示す。対処手順案生成処理では、例えば、VM_3をサーバ装置_1からサーバ装置_3へマイグレーションする、テナントシステムAのリクエストの上限を100リクエスト/秒から50リクエスト/秒に制限する、のように、様々な手順案を生成し、効果や影響を見積もり、優先順位を付ける処理である。
図1の比較例のシステム1では、重要テナント12が使用していたVMを、超重要テナント11が使用しているVMがあるサーバへマイグレーションしているため、超重要テナント11に影響する場合がある。
計算機システム2は、本実施例における計算機システムの概要を例示している。システム2では、運用方針を考慮して対策手順案を生成し、重要なテナントを優先する。構成の一例として、計算機システム2は、計算機システム1では管理サーバ201の外部に存在していた運用方針233を管理サーバ201上に記憶しており、外部のファイル208を含まないこと以外は計算機システム1と同様のシステム構成である。処理の流れも同様であるが、対処手順案を生成する処理で運用方針233を参照する点が計算機システム1と異なる。これにより、重要テナント12で発生した問題を解決するとき、超重要テナント11には悪影響を与えず、悪影響の範囲を通常テナント13に限定することができる。
前述の通り、本実施例は対処手順案生成処理において運用方針を制約条件として活用し、上位ランクを優遇する効果を有する。なお、図1に例示するシステム構成は、説明の簡易化のために図2A以降で説明するシステム構成の詳細の一部を省略し、一部を誇張表現している。
図2Aは、図1の実施例の計算機システム2のハードウェア構成例を、管理サーバ201を中心に示すブロック図である。管理サーバ201はプロセッサ211と、主記憶デバイス212と、補助記憶デバイス213と、入力装置214と、出力装置205と、ネットワークI/F216と、を有する。プロセッサ211、主記憶デバイス212、補助記憶デバイス213、入力装置214、出力装置205、およびネットワークI/F216はバス217に接続される。
プロセッサ211が、問題解決処理220を実行する。問題解決処理220は例えば半導体メモリ等の主記憶デバイス212に格納されるソフトウェア(プログラム)であり、プロセッサ211等の管理サーバ201のハードウェア資源を利用して、所望の機能を実行する。なお、問題解決処理220による処理は、プロセッサ211で実行される代わりに、例えば集積回路等のハードウェアで実現してもよい。
例えば磁気ディスク装置等の補助記憶デバイス213は、対処手順ルール231と、稼働データ232と、運用方針233と、システム構成情報234をデータとして記憶する。補助記憶デバイス213、対処手順ルール231、および稼働データ232と、運用方針233と、システム構成情報234はそれぞれ異なる記憶デバイスに保存されていてもよい。
ここで、対処手順ルール231とは、例えば、特定のサーバ装置のCPU使用率の閾値超過を検出した場合に、サーバ装置上で稼働している任意の仮想マシンを別の任意のサーバ装置にマイグレーションするだとが、ストレージ装置上のボリュームプールを構成する記憶ディスクの稼働率の閾値超過を検出した場合に、ディスク上に存在する論理ボリュームへのIO量に制限をかけるといった、計算機システムで発生した問題を解決するための手順を生成する処理方式群のことである。対策手順ルール231は1種類以上の処理方式を含んでおればよい。
稼働データ232とは、例えば、過去1ヶ月のサーバ装置203のCPU使用率情報など、一定期間の計算機システムのリソース使用率や受信したリクエスト数などの稼働情報のことを指す。
運用方針233は、「重要度」と「性能の目標値」の少なくともいずれかを含む。重要度とは、例えば、金、銀、銅で例示されるような重要度である。金は銀よりも重要で、銀は、銅よりも重要であるといった優劣のつけられる情報であればよい。また、性能の目標値とは、例えば、応答時間が100ミリ秒以内だとか、スループットが100リクエスト/秒などである。これらの運用方針は、例えば、仮想マシン毎や論理ボリューム毎で保持していても良いし、アプリケーション毎やテナントシステム毎など粗粒度で保持しアプリケーションやテナントシステムを構成する全ての仮想マシンインスタンスに対し同様の運用方針を適用するといった保持の形式でもよい。
システム構成情報234とは、サーバ203、ストレージ204、ネットワーク装置205等の管理対象装置群の接続関係や、管理対象であるテナントシステムと管理対象装置群の接続関係を特定する情報である。
補助記憶デバイス213は、管理サーバ201に不図示の外部装置へのI/FやネットワークI/F216を介して接続される外部の記憶装置、例えばストレージ装置204であってもよい。また、主記憶デバイス212と補助記憶デバイス203は同一デバイスであってもよい。
入力装置214は、キーボード等の管理者の操作によりデータを入力するデバイスである。出力装置215は、プリンタやモニタ等、プロセッサ211の実行結果を表示するデバイスである。入力装置214と出力装置215は、一体型の装置でもよい。
また、計算機システム201には、操作端末202が接続されていてもよい。操作端末202は、管理計算機201を操作するコンピュータである。操作端末202は入力装置241と出力装置242と、を有する。入力装置241は、管理者の操作によりデータを入力するデバイスである。入力データは、ネットワーク206を介して管理サーバ201に送信される。出力デバイス242は、管理サーバ201からのデータを表示するデバイスである。入力装置241と出力装置242は、一体型の装置でもよい。
また、計算機システム2には、管理サーバ201と、操作端末202と、サーバ装置203と、ストレージ装置204と、ネットワーク装置205が含まれる。ネットワーク装置205は管理サーバ201と、操作端末202と、サーバ装置203と、ストレージ装置204との間のデータを中継する。
図2Bは、図1の実施例の計算機システム2のハードウェア構成例を、管理サーバ201の管理対象である管理対象装置群を中心に示すブロック図である。管理対象装置群は、サーバ装置203と、ストレージ装置204と、ネットワーク装置205と、がネットワーク206やSAN(Storage Area Network)を介して相互に接続されるシステムである。
サーバ装置203は、プロセッサ261と、主記憶262と、ネットワークI/F263と、補助記憶デバイス264と、HBA(Host Bus Adapter)365と、を含む。
補助記憶デバイス264は、ネットワークI/F263や、HBA265や、不図示の外部装置のI/Fを介して接続される外部の記憶装置であってもよい。また、サーバ装置203は仮想マシンであってもよい。サーバ装置203は、管理サーバ201の監視対象装置である。サーバ装置203は、テナントシステムを構成するソフトウェアや仮想マシンを実行する。ネットワークI/F263は、ネットワーク206を介して、他のネットワークI/F252や、ネットワーク装置205の一例であるIP(Internet Protcol)スイッチ205Aに接続される。HBA265は、ネットワーク装置205の一例であるFC(Fiber Channel)スイッチのポートに接続される。
ストレージ装置204は、管理サーバ201の管理対象装置であり、サーバ203上、または管理サーバ201上で動作するソフトウェアが使用する記憶容量を提供する。ストレージ装置204は、IO処理ユニット251と、ネットワークI/F252と、IOポート253と、DISK254と、IOポート255と、を有する。DISK254は複数のDISK254によりRAIDグループ256を構成していてよい。RAIDグループ256は、単一または複数のRAIDグループ256からボリュームプール257を構成していてよい。例えば、サーバ装置203の補助記憶デバイスとしてストレージ装置204が利用されている場合に、補助記憶デバイス264のデータが論理ボリューム258に記憶されておればよい。論理ボリューム258は、ボリュームプール257、またはRAIDグループ256、またはDISK254上のいずれかに存在しておればよい。
ネットワークI/F252は、例えばイーサネット(登録商標)によるLAN(Local Area Network)などのネットワーク206に接続するためのインタフェースである。IOポート253およびIOポート255は、例えばファイバチャネルなどのようなSAN(Storage Area Network)に接続するインタフェースである。また、ストレージ装置204はIOポート255を介して接続される外部のストレージ装置209に存在する論理ボリューム259を管理していてもよい。
ここで例示するネットワーク装置205には、IPスイッチ205AとFCスイッチ205Bがある。IPスイッチ205Aは管理サーバ201のネットワークI/F216と、サーバ装置203のネットワークI/F263と、ストレージ装置204のネットワークI/F252と、FCスイッチ205Bの不図示のネットワークIF、他のIPスイッチ205Bの不図示のネットワークI/Fに接続される。FCスイッチ205Bは、サーバ装置203とストレージ装置204との間でデータ転送する。FCスイッチ205Bは複数のポート271を有する。FCスイッチ205Bのポート271は、サーバ装置203のHBA265と、ストレージ装置204のIOポート253と、に接続される。ネットワーク装置205は、管理サーバ201の管理対象装置であってもよい。
図2Cは、図1の実施例の計算機システム2のハードウェア構成例において、管理サーバ201の機能構成例を説明する機能ブロック図である。
管理サーバ201のプロセッサ211は、主記憶220内の問題解決処理プログラム220の制御により各種の機能を実現する。便宜的に、問題解決処理プログラム220内に機能に対応するモジュールを定義するが、これらモジュールは物理的に分離されている必要はない。また、これらモジュールは、独立したプログラムまたはサブルーチンに対応する必要はない。問題解決処理プログラム220は、対策手順案生成モジュール2201を有する。対策手順案生成モジュール2201は、候補取得モジュール2202、フィルタリングモジュール2203を含む。問題解決処理プログラム220は、さらに、対策手順案評価モジュール2204、対策手順案優先順位付モジュール2205、対策手順案提示モジュール2206、選択モジュール2207、対策手順案実行モジュール2208を備える。このうちのいずれかのモジュールが省略されていてもよいし、他のモジュールが追加されてもよい。
問題解決処理プログラム220による処理例の全体は図9で後述される。対策手順案生成モジュール2201が実現する機能は、図9の処理S903に相当し、詳細は図11で後述する。候補取得モジュール2202が実現する機能は、図11の処理S1103に相当し、問題解決のための操作対象の候補の一覧を取得する。フィルタリングモジュール2203が実現する機能は、図11の処理S1104に相当する。
対策手順案評価モジュール2204が実現する機能は、図9の処理S904に相当する。対策手順案優先順位付けモジュール2205が実現する機能は、図9の処理S905に相当し、詳細は図15で後述する。対策手順案提示モジュール2206が実現する機能は、図9の処理S906に相当する。選択モジュール2207が実現する機能は、図9の処理S907に相当する。対策手順案実行モジュールが実現する機能は、図9の処理S908に相当する。
主記憶212または補助記憶デバイス213は、運用方針233を反映した制約条件2131を保持する。制約条件2131は、一部または全部が運用方針233と同じであってもよいが、より具体化されたルールを運用方針233に基づいて準備してもよい。制約条件2131は、管理サーバ201自身がプログラムに基づいて運用方針233から自動的に作成してもよいし、管理者が別途作成し、管理サーバ201外部から入力してもよい。この処理は図11の処理S1101〜S1102に相当する。制約条件の例は、図12〜図13で後述する。
以上の構成は、単体のコンピュータで構成してもよいし、あるいは、入力装置、出力装置、処理装置、記憶装置の任意の部分が、ネットワークで接続された他のコンピュータで構成されてもよい。また、ソフトウェアで構成した機能と同等の機能は、FPGA(Field Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)などのハードウェアでも実現できる。
図3は、図1の計算機システム2上に構成されるテナントシステムの一例を示すブロック図である。この例では、テナントAはHV1という名称のサーバ装置203と、HV2という名称のサーバ装置203上に存在する仮想マシンVM_A1〜A4で構成される。サーバ装置203であるHV1とHV2は複数(図中では例として2つ)のCPU201とHBA265を有する。ストレージ装置204であるST1は複数(図中では例として2つ)のIO処理ユニット251と、複数(図中では例として3つ)のボリュームプール257を有する。
テナントAを構成する仮想マシンは、VM_A1、VM_A2、VM_A3、VM_A4である。仮想マシンVM_A1はHV1のCPU1という名称のプロセッサ201で処理され、HBA1という名称のHBA265を経由してST1という名称のストレージ装置204に接続されている。
VM_A1の補助記憶デバイス264はユニット1という名称のIO処理ユニット251で処理され、プール1という名称のボリュームプール257上に存在するVol_A1という名称の論理ボリューム258である。VM_A2と、VM_A3とVM_A4に関しても同様に、図3に示すような接続関係であることを例示している。なお、図3では説明の簡易化のため、その他の構成要素の接続関係を省略して記載している。
図4は、システム構成情報234に含まれる接続関係の対応テーブル400の一例を示す説明図である。システム構成情報234は、接続関係の対応テーブル400の他に、例えば、CPUの処理スペック情報など、不図示の情報を含んでいてもよい。
対応関係の対応テーブル400は、テナントシステムとシステムコンポーネントを対応付ける情報であり、予め手動または何らかのプログラムにより用意された情報である。接続関係の対応テーブル400は、テナント名フィールド401と、サーバ名フィールド402と、ホスト名フィールド403と、CPU名フィールド404と、HBA名フィールド405と、ストレージ名フィールド406と、IO処理ユニット名フィールド407と、プール名フィールド408と、論理ボリューム名フィールド409と、を有する。接続関係の対応テーブル400は、これらのフィールドのうち幾つかが存在しなくても良いし、不図示の別のフィールドを含んでいても良いし、複数のテーブルに分けて記憶されていてもよい。
テナント名フィールド401は、テナント名を格納する領域である。テナント名はテナントを一意に特定する識別情報である。サーバ名フィールド402は、テナントを構成するサーバのサーバ名を格納する領域である。サーバ名はサーバを一意に特定する識別情報である。なお、ここでサーバは物理的なサーバでもよいし、仮想マシンであってもよい。以下の各フィールド403〜409は、接続関係にあるコンポーネントを一意に特定する識別子情報である。
次に、上述した運用方針情報233の一例について、図5〜8を用いて説明する。運用方針情報は、サーバ毎や論理ボリューム毎などの細粒度で管理しても良いし、テナントやアプリ毎など粗粒度で管理していても良いが、以下の例ではサーバ毎や論理ボリューム毎に運用方針を管理している場合の例を示す。
図5は、運用方針情報233の一部をなす、サーバランクテーブル500の一例を示す説明図である。サーバランクテーブル500は、サーバ203とサーバの重要度(図中ではランクと表示している)を対応づける情報であり、予め手動または何らかのプログラムにより用意された情報である。サーバランクテーブル500は、サーバ名フィールド501と、ランクフィールド502と、を有する。サーバランクテーブル500は、これらのフィールド以外の不図示のフィールドを有していてもよい。この例では、VM_A1のランクが金で、VM_A2のランクが銀であるというように、仮想マシン毎のランクを保持している。
図6は、運用方針情報233の一部をなす、ボリュームランクテーブル600の一例を示す説明図である。ボリュームランクテーブル600は、論理ボリューム258と論理ボリュームの重要度(図中ではランクと表示している)を対応づける情報であり、予め手動または何らかのプログラムにより用意された情報である。ボリュームランクテーブル600は、ボリューム名フィールド601と、ランクフィールド602と、を有する。ボリュームランクテーブル600は、これら以外の不図示のフィールドを有していてもよい。
図7は、運用方針情報233の一部をなす、サーバランク詳細テーブル700の一例を示す説明図である。サーバランク詳細テーブル700は、サーバ203に付与されるランクの重要度や、各ランクで提供するサービスレベルの目標値を格納する情報であり、予め手動または何らかのプログラムにより用意された情報である。サーバランク詳細テーブル700は、重要度フィールド701と、ランクフィールド702と、応答時間フィールド703と、RTOフィールド704と、を有する。サーバランク詳細テーブル700は、これらのフィールドの内幾つかが存在しなくても良いし、これら以外の不図示のフィールドを有していても良い。
重要度フィールド701は、ランクの優先度合いを示すフィールドであり、ランクフィールド702は特定のランクを一意に特定する識別子である。図7ではPlatinumランクが最も重要で、その次に金ランクが重要で、さらにその次に銀ランクが重要であることを示している。重要度701が同じである複数のランク702が存在していてもよい。
応答時間フィールド703は、応答時間の目標値を格納するフィールドである。例えば、PlatinumランクのVMへのリクエストの平均的な応答時間が20ミリ秒以内に収まるようなサービスレベルの提供を目指していることがわかる。管理サーバ201または計算機システムの管理者は、サーバの応答時間を監視するとき、Platinumランクのサーバであれば、平均的な応答時間が20ミリ秒に収まっておれば問題ないと判定し、20ミリ秒を超えるようであれば、サービスレベルに問題が発生していると判断できる。
RTOフィールド704は、回復目標時間を格納するフィールドである。例えば、Platinumランクの場合RTOが5分となっているため、Platinumランクのサーバで平均的な応答時間が20ミリ秒を超える問題が発生した場合、問題が発生してから5分以内に問題を解決させることを目標としている運用方針であることが分かる。
図8は、運用方針情報233の一部をなす、ボリュームランク詳細テーブル800の一例を示す説明図である。ボリュームランク詳細テーブル800は、論理ボリューム258に付与されるランクの重要度や、各ランクで提供するサービスレベルの目標値を格納する情報であり、予め手動または何らかのプログラムにより用意された情報である。ボリュームランク詳細テーブル800は、重要度フィールド801と、ランクフィールド802と、応答時間フィールド803と、IOPSフィールド804と、を有する。ボリュームランク詳細テーブル800は、これらのフィールドのうち幾つかが存在しなくてもよいし、これら以外の不図示のフィールドを有していてもよい。
次に、管理計算機201の問題解決処理について説明する。問題解決処理は、管理計算機201に記憶されている問題解決処理プログラム220をプロセッサ211に実行させることにより実行される処理である。
図9は管理サーバ201の問題解決処理900の手順例を示すフローチャートである。まず、本フローチャートが事項される際のトリガについて説明する。
本フローチャートによる問題解決処理は、管理計算機201の入力装置214から入力される管理者からの指示によって実行されてもよい。また、管理サーバ201が、例えば5分おき等のように、定期的に実行されてもよい。また、管理サーバ201の管理対象装置である計算機システムが送信した問題発生の通知を、管理サーバ201がネットワークI/F216を介して受信した際に実行されてもよい。
図9において、管理サーバ201は、問題の検出処理(ステップS901)、原因箇所の特定処理(ステップS902)、対策手順案の生成処理(ステップS903)、対策手順案の評価処理(ステップS904)、対策手順案の優先順位付処理(ステップS905)、対策手順案の提示処理(ステップS906)、管理者の選択(ステップS907)、対策手順案の実行処理(ステップS908)を実行する。問題解決処理フロー900は、これら以外の不図示の処理ステップを含んでいてもよし、これらの処理ステップの幾つかが存在しなくても良い。
問題の検出処理(ステップS901)では、管理サーバ201は計算機システムで発生している問題を検出する。例えば、収集したリソース使用率とリソース使用率の閾値を比較し、リソース使用率が閾値を超過している場合に問題が発生したことを検出する。他に、例えば、収集したシステムログのテキストを解析し、「Error」や「警告」などの特定の文字列が含まれる場合に、問題が発生したことを検出するような処理である。
原因箇所の特定ステップ(ステップS902)では、例えば、テナントAの応答時間が閾値を超過して悪化している場合に、図4に例示する接続関係の対応テーブル400を参照して、テナントAが利用している計算機システムコンポーネントであるVM_A1やVM_A2などの稼働状況を確認していき、原因がST1という名称のストレージ装置204のDisk254の稼働率が高いために、論理ボリュームの応答時間がボトルネックになっていることを検出するなどの処理である。
なお、対策手順案の生成処理(ステップS903)に原因箇所が入力されるのであれば、ステップS901とステップS902は、例えば管理者が手動で原因箇所と特定するなどの代替手段があれば、必ずしも実行されなくても良い。
対策手順案の生成処理(ステップS903)では、ステップS902で特定した原因箇所の問題を解決する対策手順案を生成する。例えば、Disk254の稼働率を下げるために、VOL_A4という名称の論理ボリュームをボリュームプール3からボリュームプール4へマイグレーションする手順案や、VOL_A4という名称の論理ボリュームをボリュームプール3からボリュームプール5へマイグレーションする手順案や、Disk254の稼働率を下げるために、VOL_A4へのIOの上限を50IOPSに制限するという手順案や、Disk254の稼働率を下げるために、VOL_A4へのIOの上限を50IOPSから30IOPSに制限する、レプリケーション用途の論理ボリュームを新規に構築して負荷読み込み要求の負荷を分散する、等という手順案などを生成する処理である。このとき、運用方針233を参照し、上位ランクのサーバや論理ボリュームへの悪影響が下位ランクよりも小さくなるような処理を施す。対策手順案の生成処理(ステップS903)の詳細は図11で説明する。
対策手順案の評価処理(ステップS904)では、ステップS903で生成した一つ以上の対策手順案の効果をシミュレートし、評価する処理である。例えば、ランク毎に影響と効果を算出し、複数種類の手順案を同一の基準で評価する。多角的な視点で手順案を評価するために、影響の他に、効果や推定される実行時間、コスト(例えばハードウェアの追加が必要な場合に必要な投資金額など)を評価してもよい。対策手順案の評価処理(ステップS904)では、例えば、対策手順案の生成処理(ステップS903)の内部処理として実行されていても良いし、管理者が手動で算出した値を受信することで代替されるのでも良い。
対策手順案の優先順位処理(ステップS905)では、ステップS904で評価した評価結果に基づいて、ステップS903で生成した対策手順案の足切りや並び替えを行う。例えば、ステップS904で評価した全ての項目において、対策手順案1が対策手順案2よりも下回る場合、対策手順案1は、足切りを行い管理者に提示する候補からは削除する。または、自動実行する候補からは削除する。そして、複数の項目で評価されている場合、一律基準で対策手順案の総合評価結果を算出し、評価結果の良い順に優先順位をつけるといった処理を行う。なお、対策手順案の優先順位付処理(ステップS905)の詳細は図15で説明する。
対策手順案の提示処理(ステップS906)では、管理サーバ201の出力装置215または操作端末202の出力装置242を介して、ステップS905で算出した順位に従って対策手順案を計算機システムの管理者に提示する処理である。ステップS906は、例えば、ステップS905で算出した対処手順案の総合評価が最も高い対処手順案を自動で実行してよいという事前設定が有るような場合、必ずしも実行されなくても良い。
管理者の選択処理(ステップS907)では、管理サーバ201の入力装置214または操作端末202の入力装置241を介して、計算機システムの管理者が選択した対策手順案を受信する処理である。ステップS907では、管理者が選択した対策手順案を受信する他に、ステップS905における総合評価の重みづけを変更するような情報を受信しても良い。例えば、金ランクに対する影響がある対策手順案の総合評価値を小さくするために、金ランクへの影響の項目は総合評価に対してマイナスに働くようにパラメータを変更するといった情報である。総合評価の重みづけを変更する情報を受信した場合、ステップS905の処理を再度実行するような処理の分岐があると良い。
また、ステップS907では、制約条件を変更するような情報を受信しても良い。例えば、銅ランクであってもSLOへの悪影響が60%を越えるような制約条件を除外するといった情報である。制約条件を変更するような情報を受信した場合、ステップS903を再度実行するような処理の分岐があると良い。
また、ステップS907では、一定期間以上管理者からの情報を受信できなかった場合に、ステップS901から再度実行するような処理の分岐が有ってもよい。例えば、性能問題の場合10分以上たつと自然に問題が解決する場合もあるし、問題が悪化している場合もある。そのような状態の変化に合わせて最適な対処策を提案するための分岐である。
なお、図9では、ステップS907からステップS901とステップS903とステップS905に戻る分岐を示しているが、これらの分岐のうち幾つかが存在しなくても良いし、不図示の分岐を含んでいてもよい。また、例えば、総合評価値が一番高い対処手順案を自動で実行してよいといった事前設定により、総合評価値が最も高い対策手順案を自動で管理者が選択したと判定してもよい。
対策手順案の実行処理(ステップS908)では、ステップS907で選択された対策手順案を実行、または実行登録する処理である。例えば、仮想マシンをマイグレーションする対処手順がステップS907で選択された場合に、ホストマシンにマイグレーションする処理の実行登録を行う。対策手順案の実行処理(ステップS908)は、例えば、管理サーバ201が対策手順を実行する機能を有しておらず、管理者が手動で管理対象装置群を操作する場合などは、必ずしも実行されなくても良い。また、ステップS908では、管理者が選択した対策手順案を実行実績として記憶してもよい。ステップS908において実行実績を記憶する場合の処理の詳細を図18で説明する。
図10は、対策手順案の生成処理(図9のステップS903)の手順例の概要を示す説明図である。管理サーバ201は、運用方針情報233に基づいて制約条件のパターン1001を生成し、制約条件に従って対策手順案を生成する。制約条件のパターン1001は、運用方針情報233に基づいてオペレータが作成して管理サーバ201に入力してもよい。
制約条件のパターン1001の生成では、影響範囲を区分する。例えば、金・銀・銅のランク毎に影響範囲を区分する。併せて、影響の度合いも区分する。例えば、性能への影響がSLOを満足できる範囲から10%違反する範囲は影響を「小」、SLOを10%から30%違反する場合を影響「中」、SLOを30%よりも大きく違反する場合を影響「大」と区分する。「−」は違反する影響を許容しないことを意味する。
次に、上位ランクへの影響が下位ランク以下になるような制約でパターン1001を生成する。例えば、金は影響なし、銀は影響小、銅は影響中といったパターンや、金も銀も銅も影響が小となるようなパターンである。例えば、金への影響が小で、銀と銅は影響が無いといったパターンは除外する。
制約条件に従った対策手順案では、制約条件のパターン1001に従って操作対象の候補をフィルタしたり、操作の上限を設定したりする。例えば、サーバ装置203のネットワークI/F263がボトルネックとなっている問題に対する対策としてサーバ装置203上で稼働する仮想マシンに対してIOの上限を設定する場合に、操作対象の候補1002として問題の発生しているサーバ装置203で稼働している仮想マシンの一覧を取得する。
図10では、金ランクであるVM_1とVM_2とVM_3と、銀ランクであるVM_4とVM_5とVM_6と、銅ランクであるVM_7とVM_8とVM_9が稼働していることを想定している。金と銀への影響がなく、銅への影響が中である制約条件を考慮してフィルタリングする場合、金と銀ランクである仮想マシンは操作対象の候補から除外し、銅ランクであるVM_7とVM_8とVM_9にIOの上限を設定する。また、銅ランクへの影響の制約が中であるため、SLOで規定されている値から30%低い値にIOの上限を設定する。このように、生成した一つ以上の制約条件のパターン1001で捜査対象の候補1002を特定し、対策手順案を生成していくのが対策手順案の生成処理(ステップS903)である。
図11は、図10に例示した対策手順案の生成処理(ステップS903)の手順例を示すフローチャートである。図11において、管理サーバ201は、影響の区分処理(ステップS1101)、制約パターンの生成処理(ステップS1102)、操作対象の候補を取得する処理(ステップS1103)、操作対象の候補をフィルタする処理(ステップS1104)、操作の上限を設定する処理(ステップS1105)、対策手順案の生成処理(S1106)を実行する。策手順案の生成処理フロー1100は、これら以外の不図示の処理ステップを含んでいても良いし、幾つかの処理の順番が異なっていても良い。
影響の区分処理(ステップS1101)では、管理サーバ201は運用方針233に基づいて影響範囲を区分する。例えば、金・銀・銅のランク毎に影響範囲を区分する。併せて、影響の度合いも区分する。例えば、性能への影響が無い区分を「S1」、性能への影響がSLOを満足できる範囲から10%違反する範囲を「S2」、SLOを10%から20%違反する範囲を「S3」、SLOを20%よりも大きく違反するが利用可能である範囲を「S4」、利用不可能となる範囲を「S5」と区分する。また、影響の小さい順に評価値を高く評価するように定義しておく。影響度合いを区分した例を図12に示す。
図12は、図11の影響の区分処理(S1101)で生成される、影響度合いの区分テーブル1200の例を示す説明図である。影響度合いの区分テーブル1200Aは、区分フィールド1201と、サービス品質フィールド1202と、評価値フィールド1203と、を有する。区分フィールド1201は、区分された性能を一意に特定する。サービス品質フィールド1202は、区分フィールド1201における性能の範囲を示している。評価値フィールド1203は、対策手順案の効果や影響が区分フィールド1201に対応する場合に、対策手順案に与える評価値を格納している。影響度合いの区分テーブル1200Aは、これらのフィールドの内幾つかが存在しなくても良いし、不図示のフィールドを有していてもよい。影響度合いの区分テーブル1200は、主記憶212に格納しておいてもよいし、例えば運用方針情報233の一部として、補助記憶デバイス213に格納しておいてもよい。
影響度合いの区分テーブル1200Bは、テーブルの他の例を示す。サービス品質フィールド1202は、SLOが定義されていない場合など、SLOと関係なく定めてもよい。例えばストレージ装置のIO処理ユニットの使用率などのように、リソース使用率に対する影響度合いを区分する場合は、リソース使用率の閾値に基づいて区分されてもよい。また、区分の数や区分毎の範囲は、管理者が手動で設定していても良いし、管理サーバ201が、何らかの処理によって区分の数と範囲を算出して生成されてもよい。
図11に戻り説明する。制約パターンの生成処理(ステップS1102)では、管理サーバ201は上位ランクへの影響が下位ランクの影響以下になるような制約条件のパターンを生成する。例えば、影響が図12のように区分されている場合に、金は影響のないS1、銀は影響が小さいS2、銅はやや影響があるS3といったパターンや、金も銀も銅も影響が小さいS2となるようなパターンである。例えば、金への影響がS3で、銀と銅は影響が無いといったパターンは除外する。生成するパターンの例を図13に示す。
図13は、図11の制約パターンの生成処理(S1102)で生成される、制約条件のパターンテーブル1300の一例を示す説明図である。この例では、制約条件のパターンテーブル1300は、金フィールド1301と、銀フィールド1302と、銅フィールド1303と、を有する。これらのフィールドは、運用方針233で定義されている、ランクに基づいて生成されれば良い。図13では、影響範囲が下位ランク(銅ランク側)に寄っていることを視認しやすいように、影響がないことを示すS1を薄い文字で示している。 なお、ステップS1101とステップS1102は、事前に実行された結果を利用してもよい。運用方針は頻繁に変更されるものではないため、例えば、最初に運用方針が定義されたタイミングや運用方針に変更が加わったタイミングでステップS1101とステップS1102を実行しておき、生成された影響度合いの区分テーブル1200と制約条件のパターンテーブル1300を保持しておくのでもよい。
制約条件のパターンテーブル1300は、計算機システムやテナントのような大きな粒度で作成してもよいし、図5〜8に示すように、それらの部品となる仮想計算機やストレージの粒度で作成してもよい。制約条件のパターンテーブル1300は、主記憶212に格納しておいてもよいし、例えば運用方針情報233の一部として、補助記憶デバイス213に格納しておいてもよい。
図11に戻り説明する。操作対象の候補を取得する処理(ステップS1103)では、管理サーバ201は操作対象の候補の一覧を取得し、併せて、操作対象のランク情報も取得する。操作対象の候補の一覧を取得するためには、例えば図4の接続関係の対応テーブルを利用する。サーバ装置203のネットワークI/F263がボトルネックとなっている問題に対する対策として、サーバ装置203上で稼働する仮想マシンに対してIOの上限を設定する場合を例に説明する。この場合は、図4の接続関係の対応テーブル400の、ホストマシン名403が問題の発生したサーバ装置名である行のサーバ名402を全て取得する。次に、運用方針233からサーバのランク情報を取得する。例えば、図4における、HV1というホストマシンで問題が発生している場合は、VM_A1とVM_A1を操作対象の候補として取得し、次に、図5のサーバランクテーブル500から、VM_A1が金ランクで、VM_A2が銀ランクであることを取得する。
操作対象の候補をフィルタする処理(ステップS1104)では、制約条件のパターンに従って操作対象の候補をフィルタする処理である。例えば、図13に示す制約条件のパターンテーブル1300の一行目に示す制約条件のパターンに基づいてフィルタする場合、金ランクと銀ランクには影響を与えないことになっているため、金ランクと銀ランクは操作対象から除外する。例えば、図13に示す制約条件のパターンテーブル1300の二行目に示す制約条件のパターンに基づいてフィルタする場合、金ランクには影響がなく、銀ランクはS2の、銅ランクにはS3の影響があるため、金ランクは操作対象から除外する。
操作の上限を設定する処理(ステップS1105)では、制約条件に基づいて操作の上限を設定する。例えば、仮想マシンのIOの上限を設定する対策手順案を、図13に示す制約条件のパターンテーブル1300の2行目に基づいて上限を設定する場合、銀ランクへの影響はS2であるため、銀ランクの仮想マシンに対してはSLOから最大で10%低い値にIOの上限を設定し、銅ランクへの影響はS3であるため、銅ランクの仮想マシンに対してはSLOから最大で20%低い値にIOの上限を設定する。
例えば、図13に示す制約条件のパターンテーブル1300の2行目の制約条件でホストマシンのボトルネックが解消されるまで仮想マシンを外部のホストマシンにマイグレーションさせていくような対処手順案を生成する場合、例えば、マイグレーション対象に選ばれる頻度が金:銀:銅が0:1:2となるような制約条件を与える。具体的には、三回に一度は、銀ランクと銅ランクの両方がマイグレーション対象の候補になり、三回に二度は、銅ランクのみがマイグレーション対象の候補となるように、マイグレーションの探索を行えば実現できる。
対策手順案の生成処理(ステップS1106)では、ステップS1104で生成した操作対象の候補の一覧と、ステップS1105で生成した上限に従って、対策手順案を生成する処理である。なお、対策手順案自体は、公知の技術を用いて生成されればよい。
ステップS1104とステップS1105とステップS1106は、ステップS1102で生成されたパターンの全てのパターンで実行を繰り返してもよいし、ステップS1102で生成されたパターンのうちの一つ以上の幾つかのパターンだけで実行されてもよい。
図14は、図9の対策手順案の評価処理(S904)で生成される、対策手順案の評価結果テーブル1400の一例を示す説明図である。対策手順案の評価結果テーブル1400は、対策手順案IDフィールド1401と、影響フィールド1402と、効果フィールド1403と、実行実績フィールド1404と、コストフィールド1405と、を有する。対策手受案の評価結果テーブル1400は、これらのフィールドの内幾つかが存在しなくても良いし、これらのフィールド以外の不図示のフィールドを有していてもよい。
対策手順案IDフィールド1401は、対策手順案を一意に特定する識別子が格納されている。影響フィールド1402は、シミュレートされた対策手順案の影響の評価結果が格納されている。影響フィールド1402は図14に例示する様にランク毎に細分化されて評価されていてもよいし、細分化されていなくても良い。効果フィールド1403は、シミュレートされた対策手順案の効果の評価結果が格納されている。効果フィールド1403は、図14に例示するようにランク毎に細分化されて評価されていてもよいし、細分化されていなくてもよい。実行実績フィールド1404は、対策手順案の実行実績の評価値を格納する。コストフィールド1405は、例えば、ハードウェアを追加するために、ハードウェアを購入する金額であったり、スケールアウトによる対処を行うために新規で構築する仮想マシンインスタンスに必要な契約金額であったり、対策手順案を実行するために必要な金額の評価値を格納する。図14においては、どの項目の評価値も値が大きい方が優れていることを示している。
評価結果テーブル1400は、計算機システムやテナントのような大きな粒度で作成してもよいし、図5〜8に示すように、それらの部品となる仮想計算機やストレージの粒度で作成してもよい。対策手順案の評価結果テーブル1400は、主記憶212に格納しておいてもよいし、例えば運用方針情報233の一部として、補助記憶デバイス213に格納しておいてもよい。 図15は、対策手順案の優先順位付処理(ステップS905)の詳細を示すフローチャートである。図15において、管理サーバ201は、足切り処理(ステップS1501)、総合評価値の算出処理(ステップS1502)、並び替え処理(ステップS1503)を実行する。対策手順案の優先順位付処理フロー1500は、これら以外の不図示の処理ステップを含んでいてもよいし、幾つかのステップが存在しなくても良い。対策手順案の優先順位付処理フロー1500は、これらのステップの順番が入れ替わっていてもよい。
足切り処理(ステップS1501)は、特定の対策手順案のすべての評価値が他の対策手順案の評価値と他の対策手順案の評価値をすべての項目で比較し、すべての項目で小さい場合、または、一部の評価値が同じでその他の評価値が小さい場合、つまり、どこかの項目で優れている評価値が存在しない場合、足切りを行う処理である。
例えば、図14において、対策手順案IDが2の対策手順案と、対策手順案IDが4の対策手順案を比較すると、対策手順案4の金ランクへの影響フィールド1402の値は、対策手順案IDが2の対策手順案よりも小さく、その他の項目の評価値が同じである。そのため、対策手順案IDが4の対策手順案は足切りされる。また、対策手順案IDが3の対策手順案は、対策手順案IDが2の対策手順案と比較し、すべての評価値において評価値が小さいため、対策手順案IDが3の対策手順案は足切りされる。一方、対策手順案IDが1の対策手順案を対策手順案IDが2の対策手順案と比較すると、影響フィールド1402の銀の項目は対策手順案IDが1の対策手順案が優れており、効果フィールド1403の金の項目は対策手順案IDが2の対策手順案が優れている。このように、どこかの項目で優れた評価値を持つ対策手順案は足切りされない。足切りの概要を図16に例示する。
図16は、対策手順案の評価結果が図14に例示するとおりであった場合の足切り処理の概要を例示する説明図である。解説は前述の通りである。
総合評価値の算出処理(ステップS1502)は、対策手順案の総合評価値を算出する処理である。図14に例示する対策手順案の評価結果では、影響と、効果と、実行実績と、コストの観点で対策手順案の評価を実施している。
図17は、図15の総合評価値の算出処理(S1502)で用いる、総合評価値の計算式の一例である。これらの全ての評価値を考慮した優先順位付を実行するために、例えば、図17に例示する式のように、それぞれの評価値に定数(図17中のAと、Bと、Cと、D)を乗算した値の総和を算出して求めるなどの手段により、総合評価値を算出する。なお、それぞれの評価値に乗算する定数は、管理者が任意に設定した値でもよいし、管理サーバ201が算出した任意の値でもよい。
並び替え処理(ステップS1503)は、ステップS1502で算出した総合評価の高い順に並びかえる処理である。この処理により、例えば図14の対策手順を、図17の数式に基づいて評価し、並び替え処理を行う。
図9に戻り説明を続ける。対策手順案の優先順位付処理(S905)により、図14の対策手順を、評価得点順に並び替えた一覧が得られる。図9の例では、対策手順案の提示処理(S906)により結果を提示する。管理者の選択処理(S907)では対策手順案から管理者が所望の案を選択し、対策手順案の実行処理(S908)で、選択された対策手順を実行する。なお、対策手順案の提示処理(S906)以降は省略し、対策手順案をデータとして保持するまでで処理を一度終えてもよい。
実施例1は、対策手順案の優先順位付処理(S905)により優先順位をつけられた候補から、管理者が候補を選択することができるシステムである。ただし、候補から選択する作業には一定のスキルが要求されるため、システム上のサポートがされることが望ましい。実施例2では、管理者が候補を選択するうえで、妥当性の高い候補を選択することを支援できる例を説明する。
実施例2は、実施例1の構成を基本とし、以下の構成を追加すればよい。
図18は、管理サーバ201が実行する対策手順案の実行実績を記憶する場合の、対策手順案の実行処理(ステップS908)の手順例を示すフローチャートであり、ここでは学習処理フロー1800とよぶ。なお、実施例1では、対策手順案の実行処理(ステップS908)は単に選択された手順を実行し、実行実績をカウントするのみであったが、実施例2においては、管理サーバ201は管理者が選択した対処手順案の評価のパターン毎に実行実績の評価を行う。従って、異なる種類の対策手順案であっても、評価のパターンが同じであれば、同じパターンとして実行実績に反映される。本実施例においては、実行実績の評価値を増加させる処理を記憶処理、または記憶すると記載し、実行実績の評価値を減少させる処理を忘却処理、または忘却すると記載する。
対策手順案の評価のパターンは、管理者やユーザが任意に定義することができる。例えば、「金への影響が5、銀への影響が4、銀への影響が1」、あるいは、「金への影響が4、銀への影響が3、銀への影響が2」のようにランクごとに数値を示すことができる。また、「金銀銅全てのランクに対して2以下の影響がない」「金銀銅全てのランクに対して3以上の効果のみである」「金銀銅全てのランクに対して2以下の影響がなく、かつ、金銀銅全てのランクに対して3以上の効果のみである」のように条件を設定してもよい。
図18において、管理サーバ201は、ロール取得処理(ステップS1801)と、変数取得処理(ステップS1802)、選択されたパターンの記憶処理(ステップS1803)、選択されなかったパターンの忘却処理(ステップS1804)、実行登録処理(ステップS1805)を実行する。
ロール取得処理(ステップS1801)では、管理サーバは対策手順案を選択した管理者のロール(役割)を取得する。例えば、管理者がシステム管理スキルの高い専門者ロールであるだとか、スキルの低い一般ロールであるといった情報を取得する。
変数取得処理(ステップS1802)では、変数テーブル1900からステップS1801で取得したロールに該当する行の記憶変数1902と忘却変数1903を取得する。
図19は、変数テーブル1900の一例を示す説明図である。変数テーブル1900は、ステップS1803とステップS1804で実行される実行実績の学習処理で利用される変数を保持しており、予め手動または何らかのプログラムにより用意された情報である。変数テーブル1900は、ロールフィールド1901と、記憶変数1902と、忘却変数1903を有する。変数テーブル1900は、これらのフィールドの幾つかが存在しなくても良いし、その他の不図示のフィールドを有していても良い。ロールフィールド1901は、管理者のロールを一意に特定する識別子である。
図18に戻り、選択されたパターンの記憶処理(ステップS1803)では、管理サーバは選択された対策手順案の評価のパターンの記憶処理を行う。例えば、既存の実行実績の値に一定値を加算することで実現できる。例えば、管理者ロールにより選択された対策手順案のパターンを記憶する場合、ステップS1802に於いて変数テーブル1900の記憶変数フィールド1902から5という値を取得し、管理者が選択した対策手順案が該当するパターンの実行実績値に対して5の値を加算する。該当するパターンとしては1つに限る必要はなく、複数のパターンが該当してもよい。
選択されなかったパターンの忘却処理(ステップS1804)では、管理サーバは選択されなかった対策手順案の評価のパターンの忘却処理を行う。例えば、既存の実行実績の評価値に対して、0から1未満の数値を乗算することで実現できる。例えば、管理者ロールに選択されなかった対策手順案の評価のパターンを忘却する場合、ステップS1802において変数テーブル1900の忘却変数フィールド1903から0.6という値を取得し、管理者が選択しなかったすべてのパターンの実行実績の値に対して0.6の値を乗算する。
同様に、一般ロールにより選択された対策手順案の評価のパターンについては、一般ロールに対応する記憶変数1902と忘却変数1903を用いて同様の処理を行う。以上の記憶処理(S1803)と忘却処理(S1804)により、経験的に妥当と思われる対策手順案の評価パターンに対する重み付けを行うことができる。
実行登録処理(S1805)は、管理者が選択した対策手順案の実行登録を行う処理である。
図20は、パターンテーブル2000の一例を示す説明図である。パターンテーブル2000は、管理者が選択した対策手順案の評価のパターン毎に実行実績を管理しているテーブルであり、管理者が対策手順案を初めて選択したときに生成され管理者が選択したことのあるパターンだけ実行実績を保持していればよい。または、管理サーバが生成したことのある対策手順案の全ての評価結果のパターンにおいて実行実績を保持していてもよい。
パターンテーブル2000は、パターンIDフィールド2001と、影響フィールド2002と、効果フィールド2003と、コストフィールド2004と、実行実績フィールド2005と、を有する。ランクごとに数値を示すパターンの例では、パターンテーブル2000は、基本的に対策手順案の評価結果テーブル1400と同等のフィールドを有しておればよいが、これらのフィールドのうち幾つかが存在しなくてもよいし、例えば、問題の発生状況を評価した値を格納する評価フィールドなどのように、不図示のフィールドを有していても良い。
なお、管理サーバ201は、対策手順案の評価処理(ステップS904)において、対策手順案の実行実績の評価値を計算する際に、テーブル1400とテーブル2000を比較する。一例としては、対策手順案の影響フィールド1402と影響フィールド2002が一致し、効果フィールド1403と効果フィールド2003が一致し、コストフィールド1405、コストフィールド2004が一致する実行実績2005の値を、実行実績1404の値として算出する。あるいは、対策手順案の影響フィールド1402と影響フィールド2002が一致し、効果フィールド1403と効果フィールド2003が一致する実行実績2005の値を、実行実績1404の値として算出してもよい。あるいは、対策手順案の影響フィールド1402と影響フィールド2002が一致する実行実績2005の値を、実行実績1404の値として算出してもよい。
対策手順案の評価結果と一致するパターンの実行実績が存在しない場合、実行実績1404の評価値は、例えば0など任意の値が入力されればよい。
図21は、管理者ロールの利用者が、パターンIDが1に該当する対策手順案を選択した場合において、記憶処理と忘却処理を実行した際の実行実績2005の値の変化の様子を例示している。選択されたパターンの重みに所定値が加算され、選択されないパターンが同一割合で重み付が減少する。
学習処理フロー1800では、記憶処理(ステップS1803)と忘却処理(ステップS1804)を両方実行しているが、両者の内の一方だけが実行されて、他方が実行されなくても良い。また、記憶処理(ステップS1803)と忘却処理(ステップS1804)は逆の順番で実行されてもよい。また、管理者のロールを考慮しない場合は、必ずしもステップS1801とS1802は実行されず、つねに一定値の記憶変数1902と忘却変数1903が学習処理で利用され続けていても良い。 変数テーブル1900やパターンテーブル2000は、主記憶212に格納しておいてもよいし、補助記憶デバイス213に格納しておいてもよい。
実施例2の対策手順案の実行処理(S908)では、以上のように対策手順案の評価のパターン2000は過去の候補選択の経緯を学習し、重み付けがされている。
従って、実施例2ではこの情報を利用し、例えば、図9の対策手順案の提示処理(S906)において、実行実績値が所定以上(例えば5以上)のパターンと同じパターンを持つ候補について、強調表示を行うことができる。これにより、管理者は過去の対策手順案候補の選択の傾向を知ることができる。
別の例としては、実施例1における図14の対策手順案の評価結果テーブル1400の実行実績1404の値に上記重みづけを反映させ、図15の総合評価値の算出処理(S1502)において図17の数式に基づいて評価し、並び替え処理を行う。この場合、過去の選択パターンを反映した優先順位付が得られることになる。実行実績1404の値に重みづけを反映する手法としては、例えば、対策手順案の実行実績1404に、同じパターンを持つパターンID2001の実行実績2005を演算(加算あるいは積算等)して重みづけを反映した実行実績1404とする方法がある。
また、実施例2では、図21の対策手順案の評価のパターンの実行実績2005の値のパターンごとの差が大きくなるため、一定以下の値の評価パターンと同じパターンを持つ対策手順案は足切りとしてもよい。
なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。例えば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加・削除・置換をしてもよい。
また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。
各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記憶装置、又は、ICカード、SDカード、DVD、Blue Ray Disk、その他の光ディスク等の記録媒体に格納することができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。
計算機システムの運用管理に利用することができる。
201:管理サーバ、211:プロセッサ、212:主記憶、213:補助記憶デバイス、220:問題解決処理、2131:制約条件

Claims (11)

  1. プロセッサと、入力装置と、出力装置と、記憶装置を有し、複数の計算機システムを管理する管理計算機であって、
    前記複数の計算機システムの部品の状態を変更する対策手順案を生成する、対策手順案生成モジュールを備え、
    前記対策手順案生成モジュールは、
    前記複数の計算機システムまたはその部品のうち、予め定義された上位ランクの計算機システムまたはその部品への影響が、前記上位ランクに対して相対的に予め定義された下位ランクの計算機システムまたはその部品への影響より小さくなるという制約条件に従って、前記対策手順案を生成し、
    前記対策手順案生成モジュールで生成した、一つ以上の前記対策手順案の効果をシミュレートし評価する、対策手順案評価モジュールと、
    前記対策手順案評価モジュールの評価結果に基づいて、前記一つ以上の対策手順案の優先順位付を行う、対策手順案優先順位付けモジュールと、
    をさらに備え、
    前記対策手順案評価モジュールは、
    前記一つ以上の対策手順案を特定する対策手順案IDと、該対策手順案ID毎に、前記複数の計算機システムまたはその部品の予め相対的に定義された上位ランク及び下位ランクの其々に対する効果および影響の少なくとも一つの評価値を対応付けた対策手順案の評価結果情報を生成し、
    前記評価結果情報は、少なくとも第1の対策手順案と第2の対策手順案の評価結果情報を含み、
    前記対策手順案優先順位付けモジュールは、
    前記評価結果情報において、(1)前記第1の対策手順案の全ての評価値が、前記第2の対策手順案よりも下回る場合、あるいは、(2)前記第1の対策手順案の一部の評価値が、前記第2の対策手順案よりも下回り、かつ、前記第1の対策手順案の他の評価値が、第2の対策手順案と同じ値の場合、前記第1の対策手順案を対策手順案から除外する、
    管理計算機。
  2. プロセッサと、入力装置と、出力装置と、記憶装置を有し、複数の計算機システムを管理する管理計算機であって、
    前記複数の計算機システムの部品の状態を変更する対策手順案を生成する、対策手順案生成モジュールを備え、
    前記対策手順案生成モジュールは、
    前記複数の計算機システムまたはその部品のうち、予め定義された上位ランクの計算機システムまたはその部品への影響が、前記上位ランクに対して相対的に予め定義された下位ランクの計算機システムまたはその部品への影響より小さくなるという制約条件に従って、前記対策手順案を生成し、
    前記対策手順案生成モジュールで生成した、一つ以上の前記対策手順案の効果をシミュレートし評価する、対策手順案評価モジュールと、
    前記対策手順案評価モジュールの評価結果に基づいて、前記一つ以上の対策手順案の優先順位付を行う、対策手順案優先順位付けモジュールと、
    をさらに備え、
    前記対策手順案評価モジュールは、
    前記一つ以上の対策手順案を特定する対策手順案IDと、該対策手順案ID毎に、前記複数の計算機システムまたはその部品の予め相対的に定義された上位ランク及び下位ランクの其々に対する効果、影響、実行実績、及びコストの少なくとも一つの評価値を対応付けた対策手順案の評価結果情報を生成し、
    前記対策手順案優先順位付けモジュールは、
    前記評価値に基づいて所定の演算を行うことにより総合評価値を得、前記総合評価値に基づいて、前記一つ以上の対策手順案を並び替える、
    管理計算機。
  3. プロセッサと、入力装置と、出力装置と、記憶装置を有し、複数の計算機システムを管理する管理計算機であって、
    前記複数の計算機システムの部品の状態を変更する対策手順案を生成する、対策手順案生成モジュールを備え、
    前記対策手順案生成モジュールは、
    前記複数の計算機システムまたはその部品のうち、予め定義された上位ランクの計算機システムまたはその部品への影響が、前記上位ランクに対して相対的に予め定義された下位ランクの計算機システムまたはその部品への影響より小さくなるという制約条件に従って、前記対策手順案を生成し、
    前記対策手順案生成モジュールで生成した、一つ以上の前記対策手順案の効果をシミュレートし評価する、対策手順案評価モジュールと、
    前記対策手順案評価モジュールの評価結果に基づいて、前記一つ以上の対策手順案の優先順位付を行う、対策手順案優先順位付けモジュールと、
    をさらに備え、
    対策手順案提示モジュールと、選択モジュールと、対策手順案実行モジュールをさらに備え、
    前記対策手順案評価モジュールは、
    前記一つ以上の対策手順案を特定する対策手順案IDと、該対策手順案ID毎に、前記複数の計算機システムまたはその部品の予め相対的に定義された上位ランク及び下位ランクの其々に対する効果および影響の少なくとも一つの評価値を対応付けた対策手順案の評価結果情報を生成し、
    前記対策手順案提示モジュールは、
    前記評価結果情報を提示し、
    前記選択モジュールは、
    前記提示した評価結果情報に基づいて1または複数の対策手順案を操作者に選択させ、
    前記対策手順案実行モジュールは、
    パターンID毎に、前記複数の計算機システムまたはその部品の上位ランク及び下位ランクの其々に対する効果および影響の少なくとも一つの評価値と、実行実績を対応付けたパターン情報を管理し、
    前記選択モジュールで選択された対策手順案の評価結果情報と所定の関係を有する前記パターン情報の前記実行実績に対して加算および重み付けの少なくとも一つを行う、
    管理計算機。
  4. 前記対策手順案生成モジュールは、
    前記上位ランクの計算機システムの部品の状態を変更し、かつ、前記下位ランクの計算機システムの部品の状態を変更しない対策手順案を、前記生成する対策手順案から除外するフィルタリングモジュールを有する、
    請求項1〜3のうちいずれかに記載の管理計算機。
  5. 前記制約条件は、前記計算機システムまたはその部品が満たすべき品質を品質区分として定義し、前記計算機システムまたはその部品ごとに前記品質区分を対応づけた情報を含み、
    前記対策手順案生成モジュールは、
    前記品質区分を満足するように、前記複数の対策手順案を生成する、
    請求項1〜4のうちいずれかに記載の管理計算機。
  6. 前記対策手順案実行モジュールは、
    前記選択モジュールで選択された対策手順案の評価結果情報と同じパターンを有する前記パターン情報の前記実行実績に対して値を増加させ、選択されなかったパターンの実行実績の値を減少させて前記実行実績を管理する、
    請求項3に記載の管理計算機。
  7. プロセッサと、入力装置と、出力装置と、記憶装置を有する管理計算機が、複数の計算機システムを管理する計算機システムの管理方法であって、
    前記管理計算機は、前記複数の計算機システムの部品の状態を変更する対策手順案を生成する際に、
    前記複数の計算機システムまたはその部品のうち、予め定義された上位ランクの計算機システムまたはその部品への影響が、前記上位ランクに対して相対的に予め定義された下位ランクの計算機システムまたはその部品への影響より小さくなるという制約条件に従って、前記対策手順案を生成し、
    前記管理計算機は、
    一つ以上の前記対策手順案の効果をシミュレートして評価する評価処理と、
    前記評価結果に基づいて、前記一つ以上の対策手順案の優先順位付けを行う優先順位付け処理を行い、
    前記評価処理では、
    前記一つ以上の対策手順案を特定する対策手順案IDと、該対策手順案ID毎に、前記複数の計算機システムまたはその部品の予め相対的に定義された上位ランク及び下位ランクの其々に対する効果および影響の少なくとも一つの評価値を対応付けた対策手順案の評価結果情報を生成し、
    前記評価結果情報は、少なくとも第1の対策手順案と第2の対策手順案の評価結果情報を含み、
    前記優先順位付け処理では、
    前記評価結果情報において、(1)前記第1の対策手順案の全ての評価値が、前記第2の対策手順案よりも下回る場合、あるいは、(2)前記第1の対策手順案の一部の評価値が、前記第2の対策手順案よりも下回り、かつ、前記第1の対策手順案の他の評価値が、
    前記第2の対策手順案と同じ値の場合、前記第1の対策手順案を対策手順案から除外する、
    計算機システムの管理方法。
  8. プロセッサと、入力装置と、出力装置と、記憶装置を有する管理計算機が、複数の計算機システムを管理する計算機システムの管理方法であって、
    前記管理計算機は、前記複数の計算機システムの部品の状態を変更する対策手順案を生成する際に、
    前記複数の計算機システムまたはその部品のうち、予め定義された上位ランクの計算機システムまたはその部品への影響が、前記上位ランクに対して相対的に予め定義された下位ランクの計算機システムまたはその部品への影響より小さくなるという制約条件に従って、前記対策手順案を生成し、
    前記管理計算機は、
    一つ以上の前記対策手順案の効果をシミュレートして評価する評価処理と、
    前記評価結果に基づいて、前記一つ以上の対策手順案の優先順位付けを行う優先順位付け処理を行い、
    前記評価処理では、
    前記一つ以上の対策手順案を特定する対策手順案IDと、該対策手順案ID毎に、前記複数の計算機システムまたはその部品の予め相対的に定義された上位ランク及び下位ランクの其々に対する効果、影響、実行実績、及びコストの少なくとも一つの評価値を対応付けた対策手順案の評価結果情報を生成し、
    前記優先順位付け処理では、
    前記評価値に基づいて所定の演算を行うことにより総合評価値を得、前記総合評価値に基づいて、前記一つ以上の対策手順案を並び替える、
    計算機システムの管理方法。
  9. プロセッサと、入力装置と、出力装置と、記憶装置を有する管理計算機が、複数の計算機システムを管理する計算機システムの管理方法であって、
    前記管理計算機は、前記複数の計算機システムの部品の状態を変更する対策手順案を生成する際に、
    前記複数の計算機システムまたはその部品のうち、予め定義された上位ランクの計算機システムまたはその部品への影響が、前記上位ランクに対して相対的に予め定義された下位ランクの計算機システムまたはその部品への影響より小さくなるという制約条件に従って、前記対策手順案を生成し、
    前記管理計算機は、
    一つ以上の前記対策手順案の効果をシミュレートして評価する評価処理と、
    前記評価結果に基づいて、前記一つ以上の対策手順案の優先順位付けを行う優先順位付け処理を行い、
    前記管理計算機は、
    対策手順案提示処理と、選択処理と、対策手順案実行処理をさらに実行し、
    前記評価処理では、
    前記一つ以上の対策手順案を特定する対策手順案IDと、該対策手順案ID毎に、前記複数の計算機システムまたはその部品の予め相対的に定義された上位ランク及び下位ランクの其々に対する効果および影響の少なくとも一つの評価値を対応付けた対策手順案の評価結果情報を生成し、
    前記対策手順案提示処理では、
    前記評価結果情報を提示し、
    前記選択処理では、
    前記提示した評価結果情報に基づいて1または複数の対策手順案を操作者に選択させ、
    前記対策手順案実行処理では、
    パターンID毎に、前記複数の計算機システムまたはその部品の上位ランク及び下位ランクの其々に対する効果および影響の少なくとも一つの評価値と、実行実績を対応付けたパターン情報を管理し、
    前記操作者により選択された対策手順案の評価結果情報と所定の関係を有する前記パターン情報の前記実行実績に対して値を増加させ、それ以外のパターン情報の前記実行実績に対して値を減少させる、
    計算機システムの管理方法。
  10. 前記管理計算機は、
    前記上位ランクの計算機システムの部品の状態を変更し、かつ、前記下位ランクの計算機システムの部品の状態を変更しない対策手順案を、前記生成する対策手順案から除外するフィルタリング処理を行う、
    請求項7〜9のうちいずれかに記載の計算機システムの管理方法。
  11. 前記制約条件は、前記計算機システムまたはその部品が満たすべき品質を品質区分として定義し、前記計算機システムまたはその部品ごとに前記品質区分を対応づけた情報を含み、
    前記管理計算機は、
    前記品質区分を満足するように、前記複数の対策手順案を生成する、
    請求項7〜10のうちいずれかに記載の計算機システムの管理方法。
JP2017534045A 2015-08-07 2015-08-07 管理計算機および計算機システムの管理方法 Active JP6622808B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/072562 WO2017026017A1 (ja) 2015-08-07 2015-08-07 管理計算機および計算機システムの管理方法

Publications (2)

Publication Number Publication Date
JPWO2017026017A1 JPWO2017026017A1 (ja) 2018-05-31
JP6622808B2 true JP6622808B2 (ja) 2019-12-18

Family

ID=57983663

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017534045A Active JP6622808B2 (ja) 2015-08-07 2015-08-07 管理計算機および計算機システムの管理方法

Country Status (3)

Country Link
US (1) US20180052729A1 (ja)
JP (1) JP6622808B2 (ja)
WO (1) WO2017026017A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018185686A (ja) * 2017-04-26 2018-11-22 京セラ株式会社 端末装置、プログラム、電力管理装置、およびサーバ
JP6622273B2 (ja) * 2017-10-12 2019-12-18 株式会社日立製作所 リソース管理装置、リソース管理方法、及びリソース管理プログラム
US11755928B1 (en) 2020-04-27 2023-09-12 Wells Fargo Bank, N.A. Computing cluster configuration standardization

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3826940B2 (ja) * 2004-06-02 2006-09-27 日本電気株式会社 障害復旧装置および障害復旧方法、マネージャ装置並びにプログラム
JP4859558B2 (ja) * 2006-06-30 2012-01-25 株式会社日立製作所 コンピュータシステムの制御方法及びコンピュータシステム
US7904756B2 (en) * 2007-10-19 2011-03-08 Oracle International Corporation Repair planning engine for data corruptions
US7904753B2 (en) * 2009-01-06 2011-03-08 International Business Machines Corporation Method and system to eliminate disruptions in enterprises
US8732524B2 (en) * 2011-08-03 2014-05-20 Honeywell International Inc. Systems and methods for using a corrective action as diagnostic evidence
US9672252B2 (en) * 2012-03-08 2017-06-06 Hewlett-Packard Development Company, L.P. Identifying and ranking solutions from multiple data sources
US9063856B2 (en) * 2012-05-09 2015-06-23 Infosys Limited Method and system for detecting symptoms and determining an optimal remedy pattern for a faulty device
JPWO2013171944A1 (ja) * 2012-05-15 2016-01-07 日本電気株式会社 仮想マシン管理システム、仮想マシン管理方法およびプログラム
US8990639B1 (en) * 2012-05-31 2015-03-24 Amazon Technologies, Inc. Automatic testing and remediation based on confidence indicators
US8977899B1 (en) * 2012-09-14 2015-03-10 CSC Holdings, LLC Assisted device recovery
US9760294B2 (en) * 2012-11-07 2017-09-12 Hitachi, Ltd. Computer system, storage management computer, and storage management method
US9081680B2 (en) * 2013-03-15 2015-07-14 Accenture Global Services Limited System-level issue detection and handling
JP6249016B2 (ja) * 2013-04-17 2017-12-20 日本電気株式会社 障害復旧手順生成装置、障害復旧手順生成方法および障害復旧手順生成プログラム
US9250993B2 (en) * 2013-04-30 2016-02-02 Globalfoundries Inc Automatic generation of actionable recommendations from problem reports
US9183074B2 (en) * 2013-06-21 2015-11-10 Dell Products, Lp Integration process management console with error resolution interface
WO2015016925A1 (en) * 2013-07-31 2015-02-05 Hewlett-Packard Development Company, L.P. Automated remote network target computing device issue resolution
WO2015040688A1 (ja) * 2013-09-18 2015-03-26 株式会社日立製作所 計算機システムを管理する管理システム及びその管理方法
US9448907B2 (en) * 2013-10-27 2016-09-20 Bank Of America Corporation Computer application maturity illustration system with single point of failure analytics and remediation techniques
US20150302336A1 (en) * 2014-04-17 2015-10-22 Bank Of America Corporation Strategic partner governance framework and performance tracking

Also Published As

Publication number Publication date
US20180052729A1 (en) 2018-02-22
JPWO2017026017A1 (ja) 2018-05-31
WO2017026017A1 (ja) 2017-02-16

Similar Documents

Publication Publication Date Title
US9870330B2 (en) Methods and systems for filtering collected QOS data for predicting an expected range for future QOS data
JP6165886B2 (ja) 動的ストレージサービスレベル・モニタリングの管理システムおよび方法
US11290360B2 (en) Analyzing resource placement fragmentation for capacity planning
US9411834B2 (en) Method and system for monitoring and analyzing quality of service in a storage system
US9547445B2 (en) Method and system for monitoring and analyzing quality of service in a storage system
JP4516306B2 (ja) ストレージネットワークの性能情報を収集する方法
US10564998B1 (en) Load balancing using predictive VM-based analytics
US9658778B2 (en) Method and system for monitoring and analyzing quality of service in a metro-cluster
US9747156B2 (en) Management system, plan generation method, plan generation program
US9141288B2 (en) Chargeback based storage recommendations for datacenters
US10225158B1 (en) Policy based system management
US10002025B2 (en) Computer system and load leveling program
JP6009089B2 (ja) 計算機システムを管理する管理システム及びその管理方法
US20180004797A1 (en) Application resiliency management using a database driver
JP6622808B2 (ja) 管理計算機および計算機システムの管理方法
US11775330B2 (en) Load balancing VM selection and movement
US20200394091A1 (en) Failure analysis support system, failure analysis support method, and computer readable recording medium
US11210159B2 (en) Failure detection and correction in a distributed computing system
US10042572B1 (en) Optimal data storage configuration
AU2021363719B2 (en) Generating and updating a performance report
JP7135780B2 (ja) ライブマイグレーション調整プログラム及びライブマイグレーション調整方法
WO2006011905A2 (en) Methods and systems for managing an application environment and portions thereof
JPWO2018042637A1 (ja) 学習データ処理装置および方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190402

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190531

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190730

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190904

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191023

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191122

R150 Certificate of patent or registration of utility model

Ref document number: 6622808

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150