JP2023114001A - 運用管理装置及び方法 - Google Patents

運用管理装置及び方法 Download PDF

Info

Publication number
JP2023114001A
JP2023114001A JP2022016028A JP2022016028A JP2023114001A JP 2023114001 A JP2023114001 A JP 2023114001A JP 2022016028 A JP2022016028 A JP 2022016028A JP 2022016028 A JP2022016028 A JP 2022016028A JP 2023114001 A JP2023114001 A JP 2023114001A
Authority
JP
Japan
Prior art keywords
abnormality
anomaly
managed
configuration
configuration change
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022016028A
Other languages
English (en)
Other versions
JP7369219B2 (ja
Inventor
蓉 張
Rong Zhang
裕志 早川
Hiroshi Hayakawa
祐輔 高田
Yusuke Takada
剛 有坂
Takeshi Arisaka
康人 西井
Yasuto Nishii
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2022016028A priority Critical patent/JP7369219B2/ja
Priority to US17/903,483 priority patent/US20230305917A1/en
Publication of JP2023114001A publication Critical patent/JP2023114001A/ja
Application granted granted Critical
Publication of JP7369219B2 publication Critical patent/JP7369219B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0775Content or structure details of the error report, e.g. specific table structure, specific error fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0283Price estimation or determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Debugging And Monitoring (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】有効性の高い対処案を提示し得る信頼性の高い運用管理装置及び方法を提案する。【解決手段】1又は複数の管理対象装置を含むシステム全体の運用を管理する運用管理装置及び当該運用管理装置により実行される運用管理方法であって、管理対象装置の異常を検知してから当該異常が解消するまでの間に当該管理対象装置に対して行われた一連の構成変更の内容をログから抽出して構成変更履歴として記録し、記録した構成変更履歴の内容を一般化した異常対処ルールを生成し、異常を検知した場合に、適用可能な異常対処ルールを利用して1又は複数の対処案を生成し、生成した対処案をユーザに提示するようにした。【選択図】 図14

Description

本発明は運用管理装置及び方法に関し、1又は複数の装置の運用を管理する運用管理装置に適用して好適なものである。
従来、管理装置として、管理対象システムや装置の異常を検知したときに、その異常の対処方法を提示し得るようになされたものがある。このような管理装置として、例えば特許文献1には、問題発生時に根本原因の分析技術を利用し、各種の異常に対する対処方法を規定した汎用ルールから対象となる機器に適用した対処方法に展開させた展開ルールを作成し、作成した展開ルールに基づく対処方法の効果を予測して、複数の対処案を提案することが開示されている。
しかしながら、この特許文献1に開示された技術によると、管理装置が提示可能な対処案が汎用ルールや展開ルールに記載の障害に対する対処案のみに固定され、管理装置の運用中に新たな対処案の追加ができないという問題があった。
このような問題点について、特許文献2には、管理装置において、異常検知ルール及び対処ルールの組合せと、計算機システムとの関係を示すラベルに基づいて対処ルールを絞り込み、絞り込んだ対処ルールをその計算機システムに適用した場合のシミュレーションを実行し、シミュレーション結果に基づいて対処ルールを決定することが開示されている。このような方法により発生した異常に対する対処案を運用中に動的に提案することが可能となる。
米国特許出願公開第2014/0068343号明細書 特願2020-175340
しかしながら、特許文献2に記載の技術で実行される上述のシミュレーションでは、対処ルールを実際の装置に適用する際の実際の変化をすべて予測することが難しいため、対処ルールを計算機システムに適用した際のシミュレーション結果だけに基づいて現実の装置異常に対する対処ルールの有効性確認が困難な問題があった。
本発明は以上の点を考慮してなされたもので、有効性の高い対処案を提示し得る信頼性の高い運用管理装置及び方法を提案しようとするものである。
かかる課題を解決するため本発明においては、1又は複数の管理対象装置を含むシステム全体の運用を管理する運用管理装置において、前記管理対象装置の異常を検知する異常検知部と、前記異常検知部が前記管理対象装置の前記異常を検知してから当該異常が解消するまでの間に当該管理対象装置に対して行われた一連の構成変更の内容をログから抽出して構成変更履歴として記録する構成変更抽出部と、前記構成変抽出部により記録された前記構成変更履歴の内容を一般化した異常対処ルールを生成する異常対処ルール生成部と、前記異常検知部が新たな異常を検知した場合に、適用可能な前記異常対処ルールを利用して1又は複数の対処案を生成し、生成した前記対処案をユーザに提示する対処案提示部とを設けるようにした。
また本発明においては、1又は複数の管理対象装置を含むシステム全体の運用を管理する運用管理装置により実行される運用管理方法であって、前記管理対象装置の前記異常を検知してから当該異常が解消するまでの間に当該管理対象装置に対して行われた一連の構成変更の内容をログから抽出して構成変更履歴として記録する第1のステップと、記録した前記構成変更履歴の内容を一般化した異常対処ルールを生成する第2のステップと、異常を検知した場合に、適用可能な前記異常対処ルールを利用して1又は複数の対処案を生成し、生成した前記対処案をユーザに提示する第3のステップとを設けるようにした。
本発明の運用管理装置及び方法によれば、過去の異常発生時に行われ、それによって異常が解消した一連の構成変更に基づいて今回の異常に対する対処案を生成して提示することができる。
本発明によれば、有効性の高い対処案を提示し得る信頼性の高い運用管理装置及び方法を実現できる。
本実施の形態による計算機システムの全体構成を示すブロック図である。 運用管理装置の全体構成を示すブロック図である。 管理対象管理表の構成例を示す図表である。 組織内管理装置管理表の構成例を示す図表である。 装置構成管理表の構成例を示す図表である。 稼動情報管理表の構成例を示す図表である。 ログ管理表の構成例を示す図表である。 異常判定ルール管理表の構成例を示す図表である。 構成変更履歴管理表の構成例を示す図表である。 異常対処ルール管理表の構成例を示す図表である。 構成変更操作管理表の構成例を示す図表である。 構成変更コスト管理表の構成例を示す図表である。 対処案評価関数管理表の構成例を示す図表である。 異常対処及び異常対処ルール生成処理の処理手順を示すフローチャートである。 装置情報収集処理の処理手順を示すフローチャートである。 異常検知処理の処理手順を示すフローチャートである。 異常対処ルール生成処理の処理手順を示すフローチャートである。 異常対処処理の処理手順を示すフローチャートである。 (A)及び(B)は、それぞれ対処案候補の生成手法の説明に供する図及び図表である。 生成された3つの対処案候補の詳細例を示す図表である。 生成された3つの対処案候補の異常改善指標化値、所要時間指標化値及び変更コスト指標化値の一例を示す図表である。 構成変更処理の処理手順を示すフローチャートである。
以下図面について、本発明の一実施の形態を詳述する。
(1)本実施の形態による計算機システムの構成
図1において、1は全体として本実施の形態による計算機システムを示す。この計算機システム1は、複数の組織2と、これらの組織2とネットワーク3を介してそれぞれ接続された運用管理装置4とを備えて構成される。
各組織2は、それぞれ会社内又はデータセンタ等に設置された管理対象の1若しくは複数のストレージ装置5Aの集合体、又は、管理対象の1若しくは複数のストレージ装置5A及び1若しくは複数の情報機器5Bの集合体である。情報機器5Bは、サーバ装置、スイッチ機器又はIoT(Internet of Things)機器などから構成される。なお、以下においては、管理対象のストレージ装置5A及び情報機器5Bをまとめて管理対象装置5と呼ぶものとする。
また一部の組織2には、その組織2に属する管理対象装置5を管理する組織内管理装置6が設けられている。実際上、組織内管理装置6は、所属する組織2内の各管理対象装置5から構成情報や稼動情報を定期的に収集したり、運用管理装置4からの指示に応じて、指定された管理対象装置5内にボリュームを作成し又は指定された管理対象装置5内のボリュームを削除するなどの管理業務を行う。
運用管理装置4は、計算機システム1全体の運用を管理するコンピュータ装置であり、図2に示すように、CPU(Central Processing Unit)10、メモリ11、記憶装置12、通信装置13、入力装置14及び表示装置15を備えて構成される。
CPU10は、運用管理装置4全体の動作を制御するプロセッサである。またメモリ11は、例えば揮発性の半導体メモリから構成され、CPU10のワークメモリとして利用される。さらに記憶装置12は、例えば、ハードディスク装置やSSD(Solid State Drive)などの大容量の不揮発性の記憶装置から構成され、各種プログラムや長期間保存が必要な各種データが格納される。
運用管理装置4の起動時や必要時に必要なプログラムが記憶装置12からメモリ11に読み出され、メモリ11に読み出されたプログラムをCPU10が実行することにより、後述のような運用管理装置4全体としての各種処理が実行される。
通信装置13は、NIC(Network Interface Card)などから構成され、運用管理装置4がネットワーク3(図1)を介して計算機システム1内の他の装置等と通信を行う際のプロトコル制御を行う。
入力装置14は、例えばキーボードやマウスなどから構成され、ユーザが必要な情報や指示を運用管理装置4に入力する際に利用される。また表示装置15は、例えば液晶ディスプレイや有機EL(Electro Luminescence)ディスプレイなどから構成され、必要な画面や情報を表示するために利用される。なお、入力装置14及び表示装置15が一体化したタッチパネルを適用するようにしてもよい。
(2)異常時対処案提示及び実行機能
次に、本実施の形態の運用管理装置4に搭載された異常時対処案提示及び実行機能について説明する。この異常時対処案提示及び実行機能は、管理対象装置5の異常を検出してからその異常を解消するまでの間にその管理対象装置5に対して行われた対処(一連の構成変更)の内容を構成変更履歴として記録し、記録した構成変更履歴に基づいてそのとき実行された対処(一連の構成変更)の内容を一般化した異常対処ルールを生成し、その後に新たな異常が発生した場合に、適用可能な異常対処ルールを利用して1又は複数の対処案の候補(以下、これを対処案候補と呼ぶ)を生成してユーザに提示し、提示した対処案候補の中からユーザが選択した対処案候補を実行する機能である。
このような異常時対処案提示及び実行機能を実現するための手段として、運用管理装置4の記憶装置12には、管理対象管理表20、組織内管理装置管理表21、装置構成管理表22、稼動情報管理表23、ログ管理表24、異常判定ルール管理表25、構成変更履歴管理表26、異常対処ルール管理表27、構成変更操作管理表28、構成変更コスト管理表29及び対処案評価関数管理表30が格納されている。また運用管理装置4のメモリ11には、装置情報収集プログラム31、異常検知プログラム32、対処案提示プログラム33、構成変更抽出プログラム36、異常対処ルール生成プログラム37、構成変更実行プログラム34及びログ収集プログラム35が格納されている。
管理対象管理表20は、運用管理装置4や各組織2の組織内管理装置6が管理する計算機システム1内のすべて管理対象装置5が予め登録されたテーブルであり、図3に示すように、管理装置ID欄20A、装置ID欄20B、装置モデル欄20C及び組織ID欄20Dを備えて構成される。管理対象管理表20では、1つのレコード(行)が1つの管理対象装置5に対応する。
そして装置ID欄20Bには、対応する管理対象装置5に付与されたその管理対象装置5に固有の識別子(装置ID)が格納され、装置モデル欄20Cには、その管理対象装置5のモデル名が格納される。また組織ID欄20Dには、その管理対象装置5が所属する組織2の識別子(組織ID)が格納され、管理システムID欄20Aには、その管理対象装置5の運用を管理する運用管理装置4又は組織内管理装置6の識別子(管理装置ID)が格納される。
従って、図3の例の場合、「装置1」という装置IDが付与された管理対象装置5は「Mode 1」という装置モデルの装置であり、「1」という組織2に所属し、「運用管理装置」という管理装置IDが付与された管理装置(運用管理装置4又は組織内管理装置6)に管理されていることが示されている。
また組織内管理装置管理表21は、計算機システム1内に存在する各組織内管理装置6を管理するために利用されるテーブルであり、これらの組織内管理装置6にアクセスするために必要な情報が格納される。具体的に、組織内管理装置管理表21は、図4に示すように、管理装置ID欄21A、接続エンドポイント欄21B及び認証情報欄21Cを備えて構成される。組織内管理装置管理表21では、1つのレコード(行)が計算機システム1内に存在する1つの組織内管理装置6に対応する。
そして管理装置ID欄21Aには、対応する組織内管理装置6に付与されたその組織内管理装置6に固有の識別子(管理装置ID)が格納される。また接続エンドポイント欄21Cには、その組織内管理装置6のネットワーク3(図1)上のアドレスが格納され、認証情報欄21Cには、その組織内管理装置6が運用管理装置4を識別するためのアクセストークン等の認証情報が格納される。
従って、図4の例の場合、例えば「1」という管理装置IDが付与されたレコードは、「組織内管理装置1」という組織内管理装置6のアドレスが「https://endpoint1.example」であり、その組織内管理装置6における運用管理装置4の認証情報が「UPYx%HzfQNX@Lm^#J9rL3*bD&B6ZBEy42^vwcf6n$@tzGXLRPx」であることが示されている。
装置構成管理表22は、運用管理装置4が各管理対象装置5から直接的に又は対応する組織内管理装置6を介して間接的に取得した各管理対象装置5の構成情報を管理するために利用されるテーブルであり、図5に示すように、装置ID欄22A、リソース種別欄22B、リソースID欄22C、関連リソース欄22D、スペック欄22E及び容量コスト欄22Fを備えて構成される。
そして装置構成管理表22には、計算機システム1内の各管理対象装置5にそれぞれ対応させて装置ID欄22Aが設けられており、これらの装置ID欄22A内にそれぞれ対応する管理対象装置5の装置IDが格納される。
また装置構成管理表22には、各管理対象装置5がそれぞれ備えるCPU、プール、ボリューム及びNICなどの各種リソースのリソース種別にそれぞれ対応させてリソース種別欄22Bが設けられており、これらのリソース種別欄22B内に、それぞれ対応するリソース種別の名称が格納される。
さらに各リソース種別欄22Bにそれぞれ対応するリソースID欄22Cは、対応する管理対象装置5が備える対応するリソース種別の各リソースにそれぞれ対応させて区分(例えば、CPUが2つある場合には2つに区分され、CPUが3つある場合には3つに区分)されており、これら区分されたリソースID欄22C内に、対応するリソースに付与されたそのリソースに固有の識別子(リソースID)が格納される。
また関連リソース欄22Dは、各リソースID欄22Cにそれぞれ対応させて設けられ、対応するリソースID欄22CにリソースIDが格納されたリソースと関連するすべてのリソースのリソースIDがそれぞれ格納される。例えば、リソース種別が「プール」である場合、その「プール」に含まれるすべてのボリュームの識別子(ボリュームID)が関連リソース欄22Dに格納され、逆にリソース種別が「ボリューム」である場合には、その「ボリューム」を含むプールのプールIDが関連リソース欄22Dに格納される。
さらにスペック欄22E及び容量コスト欄22Fは、対応する管理対象装置5の各リソースID欄22Cにそれぞれ対応付けて設けられる。そしてスペック欄22Eには、対応するリソースID欄22CにリソースIDが格納されたリソースのスペックが格納され、容量コスト欄22Fには、そのリソースが記憶領域又は記憶装置である場合に、単位容量(1GB)当たりのコストが格納される。
従って、図5の例の場合、例えば「装置1」という装置IDが付与された管理対象装置5の「Pool1」という「プール」の関連リソースは「Volume1」、「Volume2」及び「Volume3」であり(つまり「Pool1」に「Volume1」、「Volume2」及び「Volume3」という3つのボリュームを含んでおり)、かかる「プール」の容量は「1TB」で容量コストが「$1/GB」であることが示されている。
稼動情報管理表23は、運用管理装置4が各管理対象装置5から直接的に又は組織内管理装置6を介して間接的に取得した各管理対象装置5の稼動情報を管理するために利用されるテーブルであり、図6に示すように、装置ID欄23A、リソース種別欄23B、リソースID欄23C、メトリック欄23D、日時欄23E及び数値欄23Fを備えて構成される。
そして稼動情報管理表23には、計算機システム1内の各管理対象装置5にそれぞれ対応させて装置ID欄22Aが設けられており、これら装置ID欄23A内にそれぞれ対応する管理対象装置5の装置IDが格納される。
また稼動情報管理表23には、各管理対象装置5がそれぞれ備えるCPU、プール、ボリューム及びNICなどの各種リソースのリソース種別にそれぞれ対応させてリソース種別欄23Bが設けられており、これらのリソース種別欄23B内にそれぞれ対応するリソース種別の名称が格納される。
さらに各リソース種別欄23Bにそれぞれ対応するリソースID欄23Cは、対応する管理対象装置5が備える対応するリソース種別の各リソースにそれぞれ対応させて区分されており、これら区分されたリソースID欄23C内に、対応するリソースのリソースIDが格納される。
またメトリック欄23Dは、各リソースID欄23Cにそれぞれ対応させて設けられている。そして、これらのメトリック欄23Dには、対応するリソースのメトリックの種別が格納される。また日時欄23E及び数値欄23Fは、対応する管理対象装置5の対応するメトリックを取得した日時にそれぞれ対応させて設けられる。そして、日時欄23Eには、対応する管理対象装置5や組織内管理装置6からその管理対象装置5の対応するメトリックを取得した日時が格納され、数値欄23Fには、その日時に取得した対応するメトリックの値が格納される。
従って、図6の例の場合、例えば「装置1」という装置IDが付与された管理対象装置5の「CPU1」という「CPU」の「CPU利用率」は、「2021/09/26 10:00:00」の時点では「40%」、「2021/09/26 10:05:00」の時点では「30%」であったことが示されている。
ログ管理表24は、管理対象装置5に対して行われた構成変更に関するログのログ情報を保持しておくために利用されるテーブルであり、図7に示すように、日時欄24A、管理装置ID欄24B、構成変更種別欄24C及び変更詳細欄24Dを備えて構成される。ログ管理表24では、1つのレコード(行)が管理対象装置5に対して行われた1つの構成変更に対応する。
そして日時欄24Aには、対応する構成変更を開始した日時が格納される。また管理装置ID欄24Bには、異常が発生した管理対象装置5を管理する管理装置(運用管理装置4又は組織内管理装置6)の管理装置IDが格納され、変更種別欄24Cには、対応する異常に対して実行された構成変更の種別(構成変更種別)が格納される。さらに変更詳細欄24Dには、対応する構成変更が行われた管理対象装置5と、その管理対象装置5内の構成変更が行われた箇所となどの情報が変更詳細として格納される。
従って、図7の例の場合、例えば「運用管理装置」が管理する「装置1」という管理対象装置5について、その管理対象装置5の「Drive1」というハードディスク装置やSSDなどの記憶装置が提供する記憶領域から「Parity Group5」というパリティグループを新たに作成する「Parity Group作成」という構成変更種別の構成変更が「2020/08/07 10:15:00」に行われたことが示されている。
また図7では、その後、その管理対象装置5(「装置1」)について、「Volume3」というボリュームを、上述のように新たに作成した「Parity Group5」というパリティグループに移動させる「VolumeをParity Group間で移動」という構成変更種別の構成変更が「2020/08/07 10:30:00」に行われたことが示されている。
異常判定ルール管理表25は、計算機システム1内の各管理対象装置5が異常であるか否かを判定するための予め定められた各種ルール(以下、これらを異常判定ルールと呼ぶ)が登録されたテーブルであり、図8に示すように、ルールID欄25A、異常個所欄25B、異常判定ルール欄25C及び異常レベル欄25Dを備えて構成される。異常判定ルール管理表25では、1つのレコード(行)が1つの異常判定ルールに対応する。
そしてルールID欄25Aには、対応する異常判定ルールに対して付与されたその異常判定ルールに固有の識別子(ルールID)が格納され、異常個所欄25Bには、その異常判定ルールにより異常の有無の判定対象となる管理対象装置5内の箇所が格納される。
また異常判定ルール欄25Cには、対応する異常判定ルールが格納され、異常レベル欄25Dには、その異常判定ルールにより対応箇所が異常と判定された場合におけるその対応箇所の異常の度合(以下、これを異常レベルと呼ぶ)が格納される。なお異常レベルとしては、その対応箇所に重大な異常がある「Critical」と、警告程度の異常がある「Warning」となどがある。
従って、図8の例の場合、例えば「1」というルールIDが付与された異常判定ルールは、「CPU平均利用率>90%(CPUの平均利用率が90%よりも大きい)」場合に「CPU」に「Critical」レベルの異常が発生していると判断できることが示されている。
構成変更履歴管理表26は、計算機システム1内で発生した異常に対する対処として過去に行われた構成変更をログ管理表24(図7)から抽出して保持するために利用されるテーブルであり、図9に示すように、ID欄26A、装置ID欄26B、装置モデル欄26C、異常判定ルール欄26D、異常箇所欄26E、日時欄26F、管理装置ID欄26G、操作種別欄26H、操作対象欄26Iを備えて構成される。構成変更履歴管理表26では、1つのレコード(行)が、過去に発生した異常に対する対処として行われた一連の構成変更の履歴(以下、これを構成変更履歴と呼ぶ)に対応する。
そしてID欄26Aには、ログ管理表24(図7)から抽出された対応する構成変更履歴に対して構成変更履歴管理表26において付与されたその構成変更履歴に固有の識別子が格納される。また装置ID欄26Bには、対応する構成変更が行われた管理対象装置5の装置IDが格納され、装置モデル欄26Cには、その管理対象装置5の装置モデルの名称が格納される。
異常判定ルール欄26Dには、そのとき異常と判定するのに利用された異常判定ルールが格納され、異常箇所欄26Eには、その異常判定ルールにより異常と判定された対応する管理対象装置5の異常箇所が格納される。また日時欄26Fには、対応する構成変更が開始された日時が格納され、管理装置ID欄26Gには、その構成変更の操作を行った管理装置(運用管理装置4又は組織内管理装置6)の管理装置IDが格納される。
さらに操作種別欄26Hには、その構成変更の操作種別が格納される。この種の操作種別としては、ボリュームを同一ストレージ装置内の他のプールに移動したり、他のストレージ装置に移動する「Volume Migration」や、データを圧縮すると共に重複するデータを排除する「圧縮・重複排除」、ドライブを追加することにより特定のプールの容量を増加させる「プール拡張(ドライブ追加)」、あるボリュームにポートを割り当てる「Port割当て」、及び、パリティグループを追加する「Parity Group追加」などがある。
操作対象欄26Iは、変更元対象欄26IA及び変更先対象欄26IBに区分されている。そして変更元対象欄26IAには、構成変更の変更元に関する情報が格納され、変更先対象欄26IBには、構成変更の変更先に関する情報が格納される。例えば、操作種別が「Volume Migration」の場合、変更元対象欄26IAには、移動元のボリュームのボリュームID及びそのボリュームが対応付けられたプールのプールIDが格納され、変更先対象欄26IBには、移動先として作成されたボリュームが対応付けられたプールのプールIDが格納される。
従って、図9の例の場合、例えば「1」というIDが付与された構成変更履歴は、「Model1」という装置モデルの「装置1」という管理対象装置5の「Pool1」に「Pool利用率>80%」という異常判定ルールに合致する異常が検知され、この異常に対して、「2021/09/01 10:00:00」に「運用管理装置」が「Pool1」と対応付けられた「Volume1」に格納されたデータを、同一ストレージ装置5A内の「Pool2」というプールに対応付けられたボリュームを作成してそのボリュームに移行させる「Volume Migration」という操作を行うことにより対処したことが示されている。
異常対処ルール管理表27は、構成変更履歴管理表26に格納された各構成変更履歴の内容(構成変更の内容)を一般化したものを異常対処ルールとして管理するために利用されるテーブルであり、図10に示すように、ID欄27A、装置モデル欄27B、異常判定ルール欄27C、異常箇所欄27D、管理装置種別欄27E、操作種別欄27F及び変更対象欄27Gを備えて構成される。異常対処ルール管理表27では、1つのレコード(行)が、1つの異常対処ルールに対応する。
そしてID欄27Aには、異常対処ルール管理表27において対応する異常対処ルールに付与されたその異常対処ルールに固有の識別子(異常対処ルールID)が格納され、装置モデル欄27Bには、対応する構成変更が行われた管理対象装置5の装置モデルが格納される。
また異常判定ルール欄27Cには、かかる管理対象装置5の異常を検知した際に利用された異常判定ルールが格納され、異常箇所欄27Dには、その異常判定ルールによりその異常が検知された対応する管理対象装置5の箇所(異常箇所)が格納される。
さらに操作種別欄27Fには、かかる異常を解消するために行われた構成変更の操作種別が格納され、管理装置ID欄27Eには、その操作種別の操作を行った管理装置(運用管理装置4又は組織内管理装置6)の種別(運用管理装置又は組織内管理装置)が格納される。
変更対象欄27Gは、変更元対象欄27GA及び変更先対象欄27GBに区分されている。そして変更元対象欄27GAには、対応する構成変更において変更元となったリソースを一般化した情報が格納され、変更先対象欄27GBには、その構成変更において変更先となったリソースを一般化した情報が格納される。
従って、図10の例の場合、例えば「1」というIDが付与された異常対処ルールは、「Model1」という装置モデルの装置の「特定のPool」に「Pool利用率>80%」という異常判定ルールに合致する異常が検知され、この異常に対する対処として、「運用管理装置」の操作のもとに、「特定のPoolにあるVolume」を「特定のPool以外のPool」に移動させる「Volume Migration」を実行することでその異常が解消したという異常対処ルールであることが示されている。
構成変更操作管理表28は、予め定義された構成変更種別ごとの構成変更操作の内容(変更対象及び変更所要時間と、変更元及び変更先の選定基準など)が登録されたテーブルであり、図11に示すように、操作ID欄28A、管理装置種別欄28B、構成変更種別欄28C、変更対象欄28D、変更所要時間欄28E及び選定基準欄28Fを備えて構成される。構成変更操作管理表28では、1つのレコード(行)が1つの構成変更種別の構成変更を行うための具体的な構成変更操作に対応する。
そして操作ID欄28Aには、構成変更操作管理表28において対応する構成変更操作に対して付与された識別子(操作ID)が格納され、管理装置ID欄28Bには、その構成変更操作を行うべき管理装置(運用管理装置4又は組織内管理装置6)の管理装置種別が格納される。また構成変更種別欄28Cには、対応する構成変更種別の名称が格納される。
変更対象欄28Dは、変更元対象欄28DA及び変更先対象欄28DBに区分されており、変更元対象欄28DAに、対応する構成変更種別の構成変更を行う際の変更元の対象(以下、これを変更元対象と呼ぶ)が格納され、変更先対象欄28DBに変更先の対象(以下、これを変更先対象と呼ぶ)が格納される。
さらに変更所要時間欄28Eには、対応する構成変更種別の構成変更に要する一般的な時間が格納され、選定基準欄28Fには、変更元対象や変更先対象の選定基準が格納される。なお、選定基準については、必ずしも事前に定義しておく必要はなく、運用中の更新や操作履歴等に応じて動的に作成又は更新するようにしてもよい。
従って、図11の例の場合、例えば「1」という操作IDが付与された構成変更操作は、「運用管理装置」の制御の下に行われる「Volume Migration」という構成変更種別の構成変更に関する操作であり、「Volume Migration」は、対象となる「Volume」が対応付けられた「Pool」を移動させる操作を行う構成変更で(対象が「Volume」、移動元及び移動先が「Pool」)、所要時間は「Volume容量」に応じて「2mins/GB」程度であり、「容量が大きい」Volumeを対象Volume、「利用率が高い」Poolを移動元のPool、「利用率が低い」Poolを移動先のPoolとすべきことが定義されていることが示されている。
構成変更コスト管理表29は、構成変更種別ごとの構成変更に要するコスト(以下、これを変更コストと呼ぶ)が予め登録されたテーブルであり、図12に示すように、管理装置種別欄29A、構成変更種別欄29B及び変更コスト欄29Cを備えて構成される。構成変更コスト管理表29では、1つのレコード(行)が1つの構成変更種別に対応する。
そして構成変更種別欄29Bには、対応する構成変更種別の名称が格納され、管理装置種別欄29Aには、その構成変更種別の構成変更操作を行う管理装置(運用管理装置4又は組織内管理装置6)の名称が格納される。また変更コスト欄29Cには、対応する変更種別の構成変更を行う際に要するコスト(変更コスト)を算出するための演算式が格納される。
従って、図12の例の場合、「Volume Migration」は、運用管理装置4の制御のもとに行われ、変更コストが移動元及び移動先間でのビット単価(1ビットのデータを記憶するために要するコスト)の差分と、移動対象のボリュームの容量との乗算結果として算出できると定義されていることが示されている。
対処案評価関数管理表30は、異常対処ルール管理表27に登録されている同一又は類似の異常対処ルールを利用して生成された今回の異常に対する対処案候補を評価するための各種評価関数が格納されたテーブルである。
本実施の形態の場合、対処案候補の評価は、その対処案候補の対処を実行した場合における異常の改善率(以下、これを異常改善率と呼ぶ)と、その対処案候補の対処を実行するのに要する時間(以下、これを所要時間と呼ぶ)と、その対処案候補の対処を実行するのに要する変更コストとの3つの評価基準に基づいて行う。
異常改善率は、シミュレーションにより算出し、所要時間は、構成変更操作管理表28(図11)の対応する変更所要時間欄28E(図11)に格納された所要時間を利用して算出する。また変更コストは、構成変更コスト管理表29(図12)の対応する変更コスト欄29C(図12)に格納された演算式を利用して算出する。
そして本実施の形態においては、算出したこれら異常改善率、所要時間及び変更コストの値をそれぞれ-1~0又は0~1の範囲の値にそれぞれ指標化し、指標化したこれら異常改善率、所要時間及び変更コストの値を利用して各対処案候補を評価し、これら対処案候補と共にその評価結果をユーザに提示する。
対処案評価関数管理表30は、このように異常改善率、所要時間及び変更コストの値を指標化するための演算式がそれぞれ評価関数として予め格納されたテーブルであり、図13に示すように、評価基準欄30A及び評価関数欄30Bを備えて構成される。対処案評価関数管理表30では、1つのレコード(行)が1つの評価基準(異常改善率、所要時間又は変更コスト)に対応する。
そして評価基準欄30Aには、対応する評価基準の名称が格納され、評価関数欄30Bには、その評価基準を算出するための評価関数が格納される。
従って、図13の例の場合、異常改善率の評価関数は、次式
Figure 2023114001000002
であり、所要時間の評価関数は、次式
Figure 2023114001000003
であり、変更コストの評価関数は、次式
Figure 2023114001000004
であることが示されている。
一方、装置情報収集プログラム31は、各管理対象装置5の構成情報及び稼動情報を直接的又はその管理対象装置5と同じ組織2内の組織内管理装置6を介して間接的に収集する機能を有するプログラムである。装置情報収集プログラム31は、収集した各管理対象装置5の構成情報を装置構成管理表22(図5)に格納すると共に、収集した各管理対象装置5の稼動情報を稼動情報管理表23(図6)に格納する。
また異常検知プログラム32は、稼動情報管理表23に格納された各管理対象装置5の稼動情報と、異常判定ルール管理表25(図8)に格納された異常判定ルールとに基づいて各管理対象装置5に発生した異常を検知する機能を有するプログラムである。異常検知プログラム32は、いずれかの管理対象装置5の異常を検知した場合、その旨を対処案提示プログラム33に通知する。
対処案提示プログラム33は、今回の異常に対する幾つかの対処案候補を生成してユーザに提示する機能を有するプログラムである。実際上、対処案提示プログラム33は、異常検知プログラム32が検知した異常に適用可能な異常対処ルールを異常対処ルール管理表27(図10)上で検索し、かかる検索により検出した異常対処ルールに基づいて、今回の異常に対する1又は複数の対処案候補を生成する。また対処案提示プログラム33は、生成した対処案候補を今回の異常に対する対処案としてユーザに提示する。
この際、対処案提示プログラム33は、各対処案候補について、その対処案候補の対処を実行したときの異常改善率、所要時間及び変更コストをシミュレーション等により算出する。そして対処案提示プログラム33は、算出した各対処案候補の異常改善率、所要時間及び変更コストに基づいて各対処案候補を順位付けし、各対処案候補をその順位と共にユーザに提示する。
構成変更実行プログラム34は、対処案提示プログラム33が提示した対処案候補のうちのユーザにより選択された対処案候補を実行するようにして、異常が発生した管理対象装置5の構成を変更する構成変更処理を実行する機能を有するプログラムである。構成変更実行プログラム34は、実行した構成変更処理の内容をログ管理表24(図7)に記録すると共に、実行した構成変更処理の内容に応じて装置構成管理表22を更新する。
またログ収集プログラム35は、構成変更実行プログラム34がログ管理表24に記録できない構成変更(例えば、その組織内管理装置6をユーザが操作するなどしてその組織内管理装置6が所属する組織2内の各管理対象装置5に対して行われた構成変更)に関するログのログ情報を各組織内管理装置6からそれぞれ収集する機能を有するプログラムである。ログ収集プログラム35は、収集したログ情報をログ管理表24に格納する。
構成変更抽出プログラム36は、構成変更操作管理表28(図11)を参照して、異常の発生からその解消までの間にその異常を解消するために当該異常が発生した管理対象装置5に対して行われた構成変更に関するログのログ情報をログ管理表24から抽出する機能を有するプログラムである。構成変更抽出プログラム36は、抽出したログ情報に含まれる各種情報及びその他必要な情報を構成変更履歴として構成変更履歴管理表26(図9)に記録する。
異常対処ルール生成プログラム37は、構成変更履歴管理表26に格納された各構成変更履歴の内容を一般化した異常対処ルールを生成して異常対処ルール管理表27(図10)に記録する機能を有するプログラムである。上述のように対処案提示プログラム33は、この異常対処ルール管理表27に記録された異常対処ルールに基づいて、今回の異常に対する幾つかの対処案候補を生成する。
(3)異常時対処機能に関連して実行される各種処理
次に、かかる異常時対処機能に関連して運用管理装置4において実行される一連の処理(以下、これを異常対処及び異常対処ルール生成処理と呼ぶ)の内容について説明する。なお、以下においては、各種処理の処理主体を「プログラム」として説明するが、実際上は、そのプログラムに基づいて運用管理装置4のCPU10(図2)がその処理を実行することは言うまでもない。
(3-1)異常対処及び異常対処ルール生成処理の流れ
図14は、かかる異常対処及び異常対処ルール生成処理の流れを示す。この異常対処及び異常対処ルール生成処理は、運用管理装置4の電源が投入されると開始され、まず、装置情報収集プログラム31(図2)が、計算機システム1内に存在するすべての管理対象装置5の構成情報及び稼動情報を直接的又は間接的にそれぞれ収集し、収集した構成情報及び稼動情報を装置構成管理表22(図5)や稼動情報管理表23(図6)に記録する装置情報収集処理を実行する(S1)。
次いで、異常検知プログラム32(図2)が、稼動情報管理表23に格納された各管理対象装置5の稼動情報と、異常判定ルール管理表25(図8)に格納された各異常判定ルールとに基づいていずれかの管理対象装置5に発生した異常を検知する異常検知処理を実行する(S2)。
この後、異常検知プログラム32が、これまでに検知したいずれかの異常が解消したか否かを判断する(S3)。そして、この判断で否定結果が得られた場合には、処理がステップS5に進む。
これに対して、ステップS3で肯定結果が得られた場合には、異常対処ルール生成プログラム37(図2)が、解消した異常に関し、その異常が発生してから解消するまでにその異常を解消するために対応する管理対象装置5に対して行われた一連の構成変更を一般化したものを、その異常に対する異常対処ルールとして生成して異常対処ルール管理表27(図10)に格納する異常対処ルール生成処理を実行する(S4)。
続いて、異常検知プログラム32が、ステップS2の異常検知処理で異常を検知したか否かを判断する(S5)。そして、この判断で否定結果が得られた場合には、処理がステップS1に戻り、この後ステップS1以降が上述と同様に繰り返し処理される。
これに対して、ステップS5の判断で肯定結果が得られた場合には、異常対処ルール管理表27に格納された異常対処ルールに基づいて、ステップS2で検知した異常に対する1又は複数の対処案候補を生成してユーザに提示し、提示した対処案候補の中からユーザが選択した対処案候補に基づく対処処理を実行する一連の異常対処処理が対処案提示プログラム33及び構成変更実行プログラム34により実行される(S6)。この後、処理がステップS1に戻り、これ以降、ステップS1以降の処理が上述と同様に繰り返される。
(3-1-2)装置情報収集処理
図15は、図14について上述した異常対処及び異常対処ルール生成処理のステップS1において装置情報収集プログラム31により実行される装置情報収集処理の具体的な処理内容を示す。この装置情報収集処理は、異常対処及び異常対処ルール生成処理のステップS2に処理が進むと開始され、まず、装置情報収集プログラム31(図2)が、管理対象管理表20(図3)から管理対象装置5の一覧を取得する(S10)。
続いて、装置情報収集プログラム31は、ステップS10で取得した一覧に含まれる各管理対象装置5から直接的に又は対応する組織内管理装置6(図1)を介して間接的にその管理対象装置5の構成情報及び稼動情報をそれぞれ取得する(S11)。
そして装置情報収集プログラム31は、取得した各管理対象装置5の構成情報を装置構成管理表22(図5)に記録すると共に、取得した各管理対象装置5の稼動情報を稼動情報管理表23(図6)にそれぞれ記録し(S12)、この後、異常検知プログラム32(図2)を呼び出した後に(S13)、この装置情報収集処理を終了する。
(3-1-3)異常検知処理
図16は、上述の装置情報収集処理のステップS13で装置情報収集プログラム31により呼び出された異常検知プログラム32により異常対処及び異常対処ルール生成処理のステップS2において実行される異常検知処理の具体的な処理内容を示す。
異常検知プログラム32は、装置情報収集プログラム31により呼び出されるとこの異常検知処理を開始し、まず、管理対象管理表20(図3)から管理対象装置5の一覧を取得する(S20)。
続いて、異常検知プログラム32は、稼動情報管理表23から各管理対象装置5の稼動情報をそれぞれ取得し(S21)、さらに異常判定ルール管理表25(図6)からすべての異常判定ルールを取得する(S22)。
次いで、異常検知プログラム32は、ステップS21で取得した各管理対象装置5の稼動情報と、ステップS22で取得した各異常判定ルールとに基づいて、異常が発生している管理対象装置5及びその異常をすべて検出する(S23)。
具体的に、異常検知プログラム32は、ステップS22で取得した異常判定ルールの中から1つの未処理の異常判定ルールを選択し、その異常判定ルールと各管理対象装置5の稼動情報とを順次比較することにより、その異常判定ルールに基づいて異常が発生していると判定可能な管理対象装置5があるか否かを順次判断する。そして、この判断により異常が発生していると判定可能な管理対象装置5と、その異常とをすべて抽出する。
また異常検知プログラム32は、残りの他の異常判定ルールについても、同様にしてその異常判定ルールに基づいて異常が発生していると判定可能な管理対象装置5があるか否かを判断する。そして、この判断により異常が発生していると判定された管理対象装置5と、その異常とをすべて抽出する。
そして異常検知プログラム32は、各異常判定ルール及び各管理対象装置5のすべての組合せについて異常の有無の判定を完了し終えると、この異常検知処理を終了する。
(3-1-4)異常対処ルール生成処理
図17は、図14について上述した異常対処及び異常対処ルール生成処理のステップS4で実行される異常対処ルール生成処理の具体的な処理内容を示す。
異常対処及び異常対処ルール生成処理のステップS3で肯定結果が得られると、この異常対処ルール生成処理が開始され、まず、異常検知プログラム32が、異常対処及び異常対処ルール生成処理のステップS3で解消を検知した異常に関する情報を異常情報として構成変更抽出プログラム36(図2)に通知する(S30)。
具体的に、異常検知プログラム32は、その異常が発生した日時と、その異常が発生した管理対象装置5の装置IDと、その管理対象装置5を管理している管理装置(運用管理装置4又は組織内管理装置6)の管理装置IDと、その異常を検出した際に利用した異常判定ルールと、異常が発生した箇所(異常箇所)となどの情報を異常情報として構成変更抽出プログラム36に通知する。
続いて、構成変更抽出プログラム36が、構成変更操作管理表28(図11)を参照して、異常情報が通知された異常が発生してからその異常が解消されるまでの間にその異常を解消するために対応する管理対象装置5に対して行われたすべての構成変更に関するログをログ管理表24(図7)から抽出する(S31)。例えば、構成変更抽出プログラム36は、異常が検知された時刻から異常が解消された時刻までのログを抽出する。
また、他の手法として、構成変更抽出プログラム36に、各異常判定ルールに対して、その異常判定ルールにより検出される異常に対して通常実行される対処(一連の構成変更)を対応付けた図示しない異常判定ルール-対処対応表を持たせる方法も考えられる。例えば、「Parity Group利用率>80%」という異常判定ルールにより検出される異常については、その異常を解消するため、新たなパリティグループを追加する「Parity Group追加」という構成変更と、異常が検出されたパリティグループのボリュームを新たなパリティグループに移動させる「VolumeをParity Groupに移動」という構成変更とが順番に行われる(図7参照)。このため、かかる異常判定ルール-対処対応表では、「Parity Group利用率>80%」という異常判定ルールに対して「Parity Group追加」及び「VolumeをParity Groupに移動」という構成変更からなる対処が対応付けられている。
なお、例えば、プール利用率が閾値よりも高いという異常に対しては、そのプールに対応付けられているボリュームを他のプールに移動させるボリュームマイグレーション(「Volume Migration」)する対処と、そのプール内のデータを重複排除及び圧縮する対処(「重複排除&圧縮」)と、そのプールの容量を追加する対処(「プール拡張」)とがある。このため異常判定ルール-対処対応表では、1つの異常判定ルールに対して複数の対処(一連の構成変更)が対応付けられている場合があり、例えば、「Pool利用率>80%」という異常判定ルールに対しては、「Volume Migration」、「重複排除&圧縮」及び「プール拡張」という3つの対処が対応付けられている。
かくして、この場合に構成変更抽出プログラム36は、ステップS32において、ステップS31で異常検知プログラム32から通知された異常情報に含まれる異常発生の日時と、その異常を検知する際に利用した異常判定ルールとに基づき、まず、異常の発生日時で検索範囲を決定(異常発生日時以降の範囲に決定)し、この後、異常判定ルール-対処対応表を参照して、決定した検索範囲内のログであって、かかる異常情報に含まれる異常判定ルールに対応付けられた対処(一連の構成変更)と合致するすべての構成変更にそれぞれ対応するログを抽出するようにして、必要なすべてのログをログ管理表24から抽出する。
次いで、構成変更抽出プログラム36は、抽出したこれらのログの情報と、ステップS31で異常検知プログラム32から通知された異常情報とに基づいて、その異常情報に対応する異常の構成変更履歴を生成し、生成した構成変更履歴を構成変更履歴管理表26に格納する(S32)。また構成変更抽出プログラム36は、構成変更履歴管理表26を更新した旨を、ステップS31で受領した異常情報と共に異常対処ルール生成プログラム37に通知する(S33)。
異常対処ルール生成プログラム37は、かかる通知を受領すると、異常情報に含まれる異常が発生した管理対象装置5の構成情報を装置構成管理表22(図5)から取得する(S34)。
また異常対処ルール生成プログラム37は、ステップS34で取得した構成情報に基づいて、ステップS32で構成変更履歴管理表26に格納した構成変更履歴のレコードにおける異常箇所欄26Eに格納された異常箇所と、操作対象欄26Iに格納された変更元対象や変更先対象との関係性を抽出する(S35)。なお、ここでの「関係性」とは、かかる異常箇所と、かかる変更元対象や変更先対象との間の接続関係(例えばボリューム及びポート間の接続関係)や、親子関係(例えばプール及びボリューム間の親子関係)、関連性(例えばプール及びパリティグループ間の関連性)、及び、変更先対象が新しいリソースであるかといった情報を含む。
続いて、異常対処ルール生成プログラム37は、ステップS32で構成変更履歴管理表26に記録した構成変更履歴のうち、装置モデル、異常判定ルール、異常箇所、管理装置ID及び操作種別の各情報を、それぞれ異常対処ルール管理表27(図10)の装置モデル欄27B、異常判定ルール欄27C、異常箇所欄27D、管理装置種別欄27E及び操作種別欄27Fに格納すると共に、ステップS35で取得した異常箇所と変更元対象との関係性を変更元対象欄27GAに格納し、さらに異常箇所と変更先対象との関係性を変更先対象欄27GBに格納する(S36)。これにより、ステップS32で構成変更履歴管理表26に記録した構成変更履歴に対応する異常対処ルールが異常対処ルール管理表27に格納され、この後、この異常対処ルール生成処理が終了する。
(3-1-5)異常対処処理
図18は、図14について上述した異常対処及び異常対処ルール生成処理のステップS6において実行される異常対処処理の具体的な処理内容を示す。この異常対処処理は、異常対処及び異常対処ルール生成処理のステップS6に処理が進むと開始され、まず、異常検知プログラム32が、異常対処及び異常対処ルール生成処理のステップS2の異常検知処理で検知したすべての異常を対処案提示プログラム33(図2)に通知する(S40)。
続いて、対処案提示プログラム33が、異常検知プログラム32から通知された異常ごとに、その異常の対処案として適用可能な異常対処ルールを異常対処ルール管理表27(図11)上で検索する(S41)。なお、ここでの「適用可能な異常対処ルール」とは、その異常が検出された管理対象装置5と装置モデルが一致し、さらに異常箇所及びその異常箇所の異常抽出に利用された異常判定ルールが一致する異常対処ルールを指す。
次いで、対処案提示プログラム33は、ステップS41の検索で適用可能な異常対処ルールを検出できたか否かを判断する(S42)。そして対処案提示プログラム33は、この判断で否定結果を得ると、異常を検出したが、その異常の対処案候補を提示できない旨のメッセージを表示装置15(図2)に表示し(S50)、この後、この異常対処処理を終了する。
これに対して、対処案提示プログラム33は、ステップS42の判断で肯定結果を得ると、装置構成管理表22(図4)を参照して、ステップS41で検出した各異常対処ルールをそれぞれ今回の異常に適用するに際して操作対象となる変更元対象及び変更先対象をそれぞれ選定することにより、対処案候補をそれぞれ生成する(S43)。
例えば、ステップS40で異常検知プログラム32から対処案提示プログラム33に通知された異常の内容が、図19(A)に示すように、「Pool利用率>80%」という異常判定ルールに合致し、異常箇所が「Pool1」、該当装置(異常が検知された管理対象装置5)が「装置1」であり、ステップS41で対処案提示プログラム33が異常対処ルール管理表27から検出した異常対処ルールが、図19(B)に示すように、異常対処ルール管理表27において「1」という異常対処ルールIDが付与された異常対処ルールであったものとする。
この場合、対処案提示プログラム33は、図19(B)の異常対処ルール管理表27の変更対象欄28Gに格納された変更元対象及び変更先対象と、装置構成管理表22(図5)に格納された該当する管理対象装置5(ここでは「装置1」)のリース構成とに基づいて、該当する「変更元対象」のリソースを検索する。図19(B)及び図5の例では、この検索により「Pool1」に対応付けられた「Volume1」、「Volume2」、「Volume3」が検出される。また対処案提示プログラム33は、該当する「変更先対象」のリソースも併せて検索する。ここでは、この検索により「Pool2」及び「Pool3」が検出されたものとする。
そして対処案提示プログラム33は、上述の検索により該当する「変更元対象」のリソースを複数検出した場合には、事前に定義されている構成変更操作管理表28(図11)の選定基準欄28F(図11)に格納された選定基準に従って「変更元対象」を選定する。例えば、図11のように「Volume Migration」という変更種別における対象Volumeの選定基準が「Volume容量が大きい」であり、図5のように「装置1」という管理対象装置5における「Volume1」の容量が「10GB」、「Volume2」の容量が「20GB」、「Volume3」の容量が「30GB」である場合には、容量が一番大きい「Volume3」が「変更元対象」として選定される。
また対処案提示プログラム33は、上述の検索により該当する「変更先対象」のリソースを複数検出した場合には、事前に定義されている構成変更操作管理表28の選定基準に従って「変更元対象」を選定する。例えば、図11のように「Volume Migration」という変更種別における移動先の選定基準が「Pool利用率が低い」であり、仮に「装置1」の「Pool2」というプールの利用率が「10%」、「Pool3」というプールの容量が「30%」である場合には、一番利用率が低い「Pool2」が「変更先対象」として選定される。従って、この場合には、図20において「1」という対処案候補IDが付与された対処案候補(操作種別が「Volume Migration」、変更元対象の移動元が「Pool1」、対象が「Pool1にあるVolume3」で、移動先が「Pool2」)が生成される。
なお図20は、同じ装置モデルの管理対象装置5について、同じ装置モデルの同じ異常判定ルールに基づいて検知された同じ異常箇所の異常を、データの重複排除及び圧縮(「重複排除&圧縮」)を行うことにより解消した異常対処ルールや、プール容量の拡張(「プール拡張」)により解消した異常対処ルールがあり、これらに基づいて「2」という対処案候補IDの対処案候補や、「3」という対処案候補IDの対処案候補も生成された場合の例を示している。
図18の説明に戻って、対処案提示プログラム33は、ステップS43においてすべての対処案候補を生成後、生成した対処案候補ごとに、その対処案候補に従った構成変更を行った場合におけるシミュレーションを実行し、その構成変更を行った場合の異常改善率をそれぞれ算出する(S44)。
なお、ここでの「異常改善率」とは、今回の異常が合致した異常判定ルールにおける対象となるリソースの次式
Figure 2023114001000005
で算出される状態(利用率等)の改善率を示す。例えば、今回の異常が「Pool利用率>80%」という異常判定ルールに合致していたためにその異常が検知された場合であって、異常検知時におけるPool利用率が82%、対処案候補の構成変更を行ったときのPool利用率のシミュレーション結果が41%であったときには、次式
Figure 2023114001000006
のように異常改善率が0.5と算出される。
続いて、対処案提示プログラム33は、ステップS44で算出した各対処案候補の異常改善率に基づいて、これら対処案候補の中に実行可能な対処案候補が含まれているか否かを判断する(S45)。「実施可能」か否かの判断は、異常改善率に基づいて行うことができ、例えば、すべての対処案候補のシミュレーション結果が予め設定された閾値未満であった場合などには、実行可能な対処案候補が含まれていないと判断することができる。
そして対処案提示プログラム33は、このステップS45の判断で否定結果を得ると(つまり実行可能な対処案候補がなかった場合には)、異常を検出したが、その異常の対処案候補を提示できない旨のメッセージを表示装置15(図2)に表示し(S50)、この後、この異常対処処理を終了する。
これに対して、対処案提示プログラム33は、ステップS45で肯定結果を得ると、実行可能と判断した各対処案候補について、その対処案候補の構成変更を行うために必要な所要時間及び変更コストをそれぞれ算出する(S46)。具体的に、対処案提示プログラム33は、所要時間については、構成変更操作管理表28(図11)の対応する変更所要時間欄28E(図11)に格納された変更所要時間を参照して算出し、変更コストについては、構成変更コスト管理表29(図12)の対応する変更コスト欄29C(図12)に格納された変更コストを参照して算出する。
例えば、ステップS45で実行可能と判断された対処案候補が図20のような3種類であり、Volume3の容量が30GBである場合、対処案提示プログラム33は、図20において対処案候補IDが「1」の対処案候補については、構成変更操作管理表28における構成変更種別欄28C(図11)に格納された変更種別が「Volume Migration」であるレコードの変更所要時間欄28Eに格納された単位容量当たりの所要時間を利用して、次式
Figure 2023114001000007
により所要時間を60分と算出する。
また対処案提示プログラム33は、かかる対処案候補の変更コストについては、構成変更コスト管理表29(図12)における構成変更種別欄29B(図12)に格納された構成変更種別が「Volume Migration」であるレコードの変更コスト欄29C(図12)に格納された演算式(ビット単価の差分×ボリューム容量)を利用して、例えばPool1の単価が$1/GB、Pool2の単価が$1.5/GBである場合、次式
Figure 2023114001000008
により$15と算出する。
一方、対処案提示プログラム33は、図20において対処案候補IDが「2」の対処案候補については、Volume1に格納されたデータが30GB(つまりVolume1に空きがない状態)であるものとして、構成変更操作管理表28(図11)における構成変更種別欄28C(図11)に格納された構成変更種別が「圧縮・重複排除」である操作IDが「5」のレコードの変更所要時間欄28Eに格納された単位データ量当たりの所要時間を利用して、次式
Figure 2023114001000009
により所要時間を30分と算出する。
また対処案提示プログラム33は、かかる対処案候補の変更コストについては、構成変更コスト管理表29における構成変更種別欄29Bに格納された構成変更種別が「圧縮・重複排除」であるレコードの変更コスト欄29Cに格納された演算式(ビット単価×データ減少容量)を利用して、重複排除及び圧縮処理によるVolume1のデータ減少容量を10GBとして、次式
Figure 2023114001000010
により$-10と算出する。
さらに対処案提示プログラム33は、図20において対処案候補IDが「3」の対処案候補については、Pool1を100GB拡張するものとして、構成変更操作管理表28における構成変更種別欄28Cに格納された構成変更種別が「プール拡張(ドライブ追加)」である操作IDが「6」のレコードの変更所要時間欄28Eに格納された単位追加容量当たりの所要時間を利用して、次式
Figure 2023114001000011
により所要時間を100分と算出する。
また対処案提示プログラム33は、かかる対処案候補の変更コストについては、構成変更コスト管理表29における構成変更種別欄29Bに格納された構成変更種別が「プール拡張(ドライブ追加)」であるレコードの変更コスト欄29Cに格納された演算式(ビット単価×追加する容量)を利用して、次式
Figure 2023114001000012
により$100と算出する。
次いで、対処案提示プログラム33は、上述のようにして算出した各対処案候補の異常改善率、所要時間及び更新コストをそれぞれ利用してこれら対処案候補の評価値をそれぞれ算出し、算出した対処案候補ごとの評価値に基づいてこれら対処案候補を順位付けした上で、各対処案候補の異常改善率、所要時間及び変更コストを表示装置15(図2)に一覧表示する(S47)。
具体的に、対処案提示プログラム33は、まず、異常改善率、所要時間及び変更コストにそれぞれ対応させて対処案評価関数管理表30に格納された各評価関数を用いてこれら異常改善率、所要時間及び変更コストを指標化する。
例えば、対処案提示プログラム33は、対処案候補IDが「1」の対処案候補の異常改善率については、上述した(1)式を用いて、次式
Figure 2023114001000013
のように、その対処案候補の「異常改善率」として「50」、「異常改善率の最小値」として3つの対処案候補の異常改善率のうちの最小値である「25」、「異常改善率の最大値」として3つの対処案候補の異常改善率のうちの最大値である「50」をそれぞれ代入することにより、その異常改善率を指標化した異常改善率指標化値を算出する。また対処案提示プログラム33は、対処案候補IDが「2」の対処案候補及び対処案候補IDが「3」の対処案候補についても同様にして異常改善率指標化値をそれぞれ算出する。
また対処案提示プログラム33は、対処案候補IDが「1」の対処案候補の所要時間については、上述した(2)式を用いて、次式
Figure 2023114001000014
のように、その対処案候補の「所要時間」として「60」、「所要時間の最小値」として3つの対処案候補の所要時間のうちの最小値である「30」、「所要時間の最大値」として3つの対処案候補の所要時間のうちの最大値である「100」をそれぞれ代入することにより、その所要時間を指標化した所要時間指標化値を算出する。また対処案提示プログラム33は、対処案候補IDが「2」の対処案候補及び対処案候補IDが「3」の対処案候補についても同様にして所要時間指標化値をそれぞれ算出する。
さらに対処案提示プログラム33は、対処案候補IDが「1」の対処案候補の変更コストについては、上述した(3)式を用いて、次式
Figure 2023114001000015
のように、その対処案候補の「変更コスト」として「15」、「変更コストの最小値」として3つの対処案候補の変更コストのうちの最小値である「-10」、「変更コストの最大値」として3つの対処案候補の変更コストのうちの最大値である「100」をそれぞれ代入することにより、その変更コストを指標化した変更コスト指標化値を算出する。また対処案提示プログラム33は、対処案候補IDが「2」の対処案候補及び対処案候補IDが「3」の対処案候補についても同様にして変更コスト指標化値をそれぞれ算出する。
次に、対処案提示プログラム33は、異常改善率指標化値、所要時間指標化値及び変更コスト指標化値に対してそれぞれ予め設定された重みをそれぞれa1、a2、a3として、次式
Figure 2023114001000016
のようにして各対処案候補の評価値をそれぞれ算出し、算出した対処案候補ごとの評価値に基づいてこれら対処案候補を順位付けする。なお、重みa1、a2、a3は、後から変更することもできるものとする。
例えば、a1、a2及びa3をそれぞれ0.5、0.3、0.3とし、各対処案候補の異常改善率指標化値、所要時間指標化値及び変更コスト指標化値がそれぞれ図21に示すような数値であったものとすると、対処案候補IDが「1」の対処案候補の評価値は、次式
Figure 2023114001000017
のように0.3056…であり、対処案候補IDが「2」の対処案候補の評価値は、次式
Figure 2023114001000018
のように0.25であり、対処案候補IDが「3」の対処案候補の評価値は、次式
Figure 2023114001000019
のように-0.6として算出される。
従って、この例の場合、対処案候補IDが「1」の対処案候補の順位が最も高く、次に対処案候補IDが「2」の対処案候補、その次に対処案候補IDが「3」の対処案候補といった順番で順位付けが行われることになる。かくして対処案提示プログラム33は、このようにして順位付けした各対処案候補の異常改善率、所要時間及び変更コストを順位通りの順番で表示装置15(図2)に一覧表示する。
続いて、対処案提示プログラム33は、かかる一覧表示された対処案候補の中からユーザが1つの対処案候補を今回の異常に対する対処として選択すると、その対処案候補(以下、これをユーザ選択対処案候補と呼ぶ)を構成変更処理の実行指示と共に構成変更実行プログラム34に通知する(S48)。ただし、対処案候補において操作対象となる管理対象装置5がいずれかの組織内管理装置6により管理されている場合には、対処案提示プログラム33は、ユーザ選択対処案候補及び構成変更処理の実行指示をその組織内管理装置6に送信する。
なお、ユーザが所望する対処案候補を選択する際、その対処案候補が2つ以上の操作からなる場合には、これらのすべての操作を実行するか、そのうちの一部の操作のみを実行するかをユーザが選択できるようにしてもよい。このようにすることによって、図17のステップS31で構成変更抽出プログラム36が抽出したログに不要なログが含まれていた場合に、そのログに基づいて実行されるおそれがある不要な操作の実行を抑止することができる。
そして、かかるユーザ選択対処案候補及び構成変更処理の実行指示を受領した構成変更実行プログラム34又は組織内管理装置6は、対処案提示プログラム33から通知されたユーザ選択対処案候補に従った構成変更を実行する(S49)。以上により、この異常対処処理が終了する。
なお上述の異常対処処理のステップS48においてユーザ選択対処案候補及び構成変更処理の実行指示を受領した構成変更実行プログラム34又は組織内管理装置6の処理(以下、これを構成変更処理と呼ぶ)の流れを図22に示す。
構成変更実行プログラム34又は組織内管理装置6は、対処案提示プログラム33から構成変更処理の実行指示及びユーザ選択対処案候補が与えられると、この図22に示す構成変更処理を開始し、まず、対処案提示プログラム33から通知されたユーザ選択対処案候補に従った構成変更処理を実行する(S60)。
続いて、構成変更実行プログラム34は、実行した構成変更処理の内容を表すログを生成し、生成したログをログ管理表24(図7)に記録する(S61)。また構成変更実行プログラム34は、対応する管理対象装置5の構成変更後の構成に応じて装置構成管理表22(図5)を更新し(S62)、この後、この構成変更処理を終了する。
(4)本実施の形態の効果
以上のように本実施の形態の計算機システム1では、管理対象装置5の異常を検知してから当該異常が解消するまでの間に当該管理対象装置5に対して行われた一連の構成変更のログをログ管理表24から抽出して構成変更履歴として構成変更履歴管理表26に記録し、記録した構成変更履歴の内容を一般化した異常対処ルールを生成し、新たな異常を検知した場合に、適用可能な異常対処ルールを利用して1又は複数の対処案候補を生成し、生成した対処案候補をユーザに提示する。
従って、本実施の形態によれば、過去の異常発生時に行われ、それによって異常が解消した一連の構成変更に基づいて今回の異常に対する対処案を生成して提示することができるため、有効性の高い対処案を提示し得る信頼性の高い運用管理装置4を実現することができる。
(5)他の実施の形態
なお上述の実施の形態においては、本実施の形態による異常時対処案提示及び実行機能を1つのコンピュータ装置(運用管理装置4)に搭載するようにした場合について述べたが、本発明はこれに限らず、異常時対処案提示及び実行機能の一部又は全部を分散コンピューティングシステムを構成する複数のコンピュータ装置に分散して搭載するようにしてもよい。
また上述の実施の形態においては、管理対象装置5がストレージ装置5A等である場合について述べたが、本発明はこれに限らず、管理対象装置5がこの他の装置である場合においても本発明を広く適用することができる。
さらに上述の実施の形態においては、組織内管理装置6が設けられた組織2に所属する各管理対象装置5の構成変更に関するログ情報をその組織内管理装置6から収集するログ収集プログラム35を設けるようにした場合について述べたが、本発明はこれに限らず、各組織内管理装置6が、それぞれ保持するかかるログ情報を定期的に運用管理装置4に送信するようにしてもよい。このようにしても実施の形態の場合と同様に、運用管理装置4のみでは実行できない構成変更操作を含む対処案を生成しユーザに提示することができる。
さらに上述の実施の形態においては、対処案提示プログラム33が各対処案候補の異常改善率、所要時間及び更新コストをそれぞれ算出し、算出したこれら異常改善率、所要時間及び更新コストに基づいて対処案候補を順位付けしてユーザに提示するようにした場合について述べたが、本発明はこれに限らず、これら異常改善率、所要時間及び更新コストのうちの少なくとも1つに基づいて対処案候補を順位付けするようにしてもよい。
本発明は、1又は複数の管理対象装置を含む計算機システム全体の運用を管理する運用管理装置に広く適用することができる。
1……計算機システム、2……組織、4……運用管理装置、5……管理対象装置、6……組織内管理装置、10……CPU、20……管理対象管理表、21……組織内管理装置管理表、22……装置構成管理表、23……稼動情報管理表、24……ログ管理表、25……異常判定ルール管理表、26……構成変更履歴管理表、27……異常対処ルール管理表、28……構成変更操作管理表、29……構成変更コスト管理表、30……対処案評価関数管理表、31……装置情報収集プログラム、32……異常検知プログラム、33……対処案提案プログラム、34……構成変更実行プログラム、35……ログ収集プログラム、36……構成変更抽出プログラム、37……異常対処ルール生成プログラム。

Claims (12)

  1. 1又は複数の管理対象装置を含むシステム全体の運用を管理する運用管理装置において、
    前記管理対象装置の異常を検知する異常検知部と、
    前記異常検知部が前記管理対象装置の前記異常を検知してから当該異常が解消するまでの間に当該管理対象装置に対して行われた一連の構成変更の内容をログから抽出して構成変更履歴として記録する構成変更抽出部と、
    前記構成変抽出部により記録された前記構成変更履歴の内容を一般化した異常対処ルールを生成する異常対処ルール生成部と、
    前記異常検知部が新たな異常を検知した場合に、適用可能な前記異常対処ルールを利用して1又は複数の対処案を生成し、生成した前記対処案をユーザに提示する対処案提示部と
    を備えることを特徴とする運用管理装置。
  2. 一部の前記管理対象装置を管理する管理装置から当該管理対象装置に対して行われた構成変更のログを収集するログ収集部をさらに備え、
    前記構成変更抽出部は、
    前記管理装置が管理する前記管理対象装置の異常を検知してから当該異常が解消するまでの間に当該異常を解消するために当該管理対象装置に対して行われた一連の構成変更の内容を、前記ログ収集部により収集された前記ログを含むすべての前記ログから抽出して前記構成変更履歴として記録する
    ことを特徴とする請求項1に記載の運用管理装置。
  3. 前記構成変更抽出部は、
    前記異常検知部が前記管理対象装置の前記異常を検知してから当該異常が解消するまでの間に当該管理対象装置に対して行われた一連の構成変更の内容のログとして、前記異常が検知された時刻から当該異常が解消された時刻までのすべてのログを抽出する
    ことを特徴とする請求項1に記載の運用管理装置。
  4. 前記異常検知部は、
    前記管理対象装置が異常であるか否かを判定するための予め定められた複数の異常判定ルールと、各前記管理対象装置の稼働状態とをそれぞれ比較するようにして前記管理対象装置に発生した異常を検出し、
    前記構成変更抽出部は、
    各前記異常判定ルールに対して、当該異常判定ルールにより検出される各前記異常に対してそれぞれ通常実行される対処を管理し、
    前記異常が発生した日時に基づいて前記異常の発生日時で検索範囲を決定し、決定した検索範囲内の前記ログとして記録された前記構成変更であって、当該異常を検出する際に利用した前記異常判定ルールに対応付けられた対処と合致するすべての前記構成変更を抽出するようにして、前記一連の構成変更の内容を抽出する
    ことを特徴とする請求項1に記載の運用管理装置。
  5. 前記異常検知部は、
    前記管理対象装置が異常であるか否かを判定するための予め定められた複数の異常判定ルールと、各前記管理対象装置の稼働状態とをそれぞれ比較するようにして前記管理対象装置に発生した異常を検出し、
    前記異常対処ルール生成部は、
    前記異常が発生した異常箇所と、当該異常に対して行われた前記構成変更における変更元及び変更先との間の関連性を抽出し、抽出した前記関連性と、当該異常箇所と、当該異常が発生した前記管理対象装置の装置モデルと、当該異常を検出する際に利用した前記異常判定ルールとに基づいて前記異常対処ルールを生成する
    ことを特徴とする請求項1に記載の運用管理装置。
  6. 対処案提示部は、
    生成した各前記対処案の対処を実行したときの異常改善率、所要時間及び変更コストのうちの少なくとも1つを算出し、算出した前記異常改善率、前記所要時間及び又は前記変更コストに基づいて各前記対処案を順位付けして前記ユーザに提示する
    ことを特徴とする請求項1に記載の運用管理装置。
  7. 1又は複数の管理対象装置を含むシステム全体の運用を管理する運用管理装置により実行される運用管理方法であって、
    前記管理対象装置の前記異常を検知してから当該異常が解消するまでの間に当該管理対象装置に対して行われた一連の構成変更の内容をログから抽出して構成変更履歴として記録する第1のステップと、
    記録した前記構成変更履歴の内容を一般化した異常対処ルールを生成する第2のステップと、
    異常を検知した場合に、適用可能な前記異常対処ルールを利用して1又は複数の対処案を生成し、生成した前記対処案をユーザに提示する第3のステップと
    を備えることを特徴とする運用管理方法。
  8. 前記運用管理装置は、
    一部の前記管理対象装置を管理する管理装置から当該管理対象装置に対して行われた構成変更のログを収集し、
    前記第1のステップでは、
    前記管理装置が管理する前記管理対象装置の異常を検知してから当該異常が解消するまでの間に当該異常を解消するために当該管理対象装置に対して行われた一連の構成変更の内容を、前記ログ収集部により収集された前記ログを含むすべての前記ログから抽出して前記構成変更履歴として記録する
    ことを特徴とする請求項7に記載の運用管理方法。
  9. 前記第1のステップにおいて、前記運用管理装置は、
    前記異常検知部が前記管理対象装置の前記異常を検知してから当該異常が解消するまでの間に当該管理対象装置に対して行われた一連の構成変更の内容のログとして、前記異常が検知された時刻から当該異常が解消された時刻までのすべてのログを抽出する
    ことを特徴とする請求項7に記載の運用管理方法。
  10. 前記運用管理装置は、
    前記管理対象装置が異常であるか否かを判定するための予め定められた複数の異常判定ルールと、各前記管理対象装置の稼働状態とをそれぞれ比較するようにして前記管理対象装置に発生した異常を検出し、
    前記第1のステップにおいて、前記運用管理装置は、
    各前記異常判定ルールに対して、当該異常判定ルールにより検出される各前記異常に対してそれぞれ通常実行される対処を管理し、
    前記異常が発生した日時に基づいて前記異常の発生日時で検索範囲を決定し、決定した検索範囲内の前記ログとして記録された前記構成変更であって、当該異常を検出する際に利用した前記異常判定ルールに対応付けられた対処と合致するすべての前記構成変更を抽出するようにして、前記一連の構成変更の内容を抽出する
    ことを特徴とする請求項7に記載の運用管理方法。
  11. 前記運用管理装置は、
    前記管理対象装置が異常であるか否かを判定するための予め定められた複数の異常判定ルールと、各前記管理対象装置の稼働状態とをそれぞれ比較するようにして前記管理対象装置に発生した異常を検出し、
    前記第2のステップにおいて、前記運用管理装置は、
    前記異常が発生した異常箇所と、当該異常に対して行われた前記構成変更における変更元及び変更先との間の関連性を抽出し、抽出した前記関連性と、当該異常箇所と、当該異常が発生した前記管理対象装置の装置モデルと、当該異常を検出する際に利用した前記異常判定ルールとに基づいて前記異常対処ルールを生成する
    ことを特徴とする請求項7に記載の運用管理方法。
  12. 前記第3のステップにおいて、前記運用管理装置は、
    生成した各前記対処案の対処を実行したときの異常改善率、所要時間及び変更コストのうちの少なくとも1つを算出し、算出した前記異常改善率、前記所要時間及び又は前記変更コストに基づいて各前記対処案を順位付けして前記ユーザに提示する
    ことを特徴とする請求項7に記載の運用管理方法。
JP2022016028A 2022-02-04 2022-02-04 運用管理装置及び方法 Active JP7369219B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022016028A JP7369219B2 (ja) 2022-02-04 2022-02-04 運用管理装置及び方法
US17/903,483 US20230305917A1 (en) 2022-02-04 2022-09-06 Operation management apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022016028A JP7369219B2 (ja) 2022-02-04 2022-02-04 運用管理装置及び方法

Publications (2)

Publication Number Publication Date
JP2023114001A true JP2023114001A (ja) 2023-08-17
JP7369219B2 JP7369219B2 (ja) 2023-10-25

Family

ID=87569023

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022016028A Active JP7369219B2 (ja) 2022-02-04 2022-02-04 運用管理装置及び方法

Country Status (2)

Country Link
US (1) US20230305917A1 (ja)
JP (1) JP7369219B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021172435A1 (ja) * 2020-02-28 2021-09-02 日本電気株式会社 障害対処装置及びシステム、ルールリスト生成方法並びに非一時的なコンピュータ可読媒体

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012003406A (ja) * 2010-06-15 2012-01-05 Hitachi Solutions Ltd 障害原因判定ルール検証装置及びプログラム
JP2016012193A (ja) * 2014-06-27 2016-01-21 富士通株式会社 抽出方法、装置、及びプログラム
WO2021172435A1 (ja) * 2020-02-28 2021-09-02 日本電気株式会社 障害対処装置及びシステム、ルールリスト生成方法並びに非一時的なコンピュータ可読媒体

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9367809B2 (en) * 2013-10-11 2016-06-14 Accenture Global Services Limited Contextual graph matching based anomaly detection
KR101621019B1 (ko) * 2015-01-28 2016-05-13 한국인터넷진흥원 시계열 통계 기반 공격의심 이상징후를 탐지하기 위한 방법
US20190243743A1 (en) * 2018-02-07 2019-08-08 Apple Inc. Unsupervised anomaly detection
US11120033B2 (en) * 2018-05-16 2021-09-14 Nec Corporation Computer log retrieval based on multivariate log time series
CN112470131B (zh) * 2018-07-20 2023-02-07 华为技术有限公司 检测数据集中异常的装置和方法以及它们相应的计算机程序产品
US11106789B2 (en) * 2019-03-05 2021-08-31 Microsoft Technology Licensing, Llc Dynamic cybersecurity detection of sequence anomalies
US20210406112A1 (en) * 2020-06-29 2021-12-30 International Business Machines Corporation Anomaly classification in information technology environments
US11281521B1 (en) * 2021-03-10 2022-03-22 Keysight Technologies, Inc. Methods, systems and computer readable media for troubleshooting test environments using automated analysis of log file data

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012003406A (ja) * 2010-06-15 2012-01-05 Hitachi Solutions Ltd 障害原因判定ルール検証装置及びプログラム
JP2016012193A (ja) * 2014-06-27 2016-01-21 富士通株式会社 抽出方法、装置、及びプログラム
WO2021172435A1 (ja) * 2020-02-28 2021-09-02 日本電気株式会社 障害対処装置及びシステム、ルールリスト生成方法並びに非一時的なコンピュータ可読媒体

Also Published As

Publication number Publication date
JP7369219B2 (ja) 2023-10-25
US20230305917A1 (en) 2023-09-28

Similar Documents

Publication Publication Date Title
JP5719974B2 (ja) 複数の監視対象デバイスを有する計算機システムの管理を行う管理システム
JP5117120B2 (ja) ストレージ装置のボリュームを管理する計算機システム、方法及びプログラム
US20140215471A1 (en) Creating a model relating to execution of a job on platforms
RU2696347C2 (ru) Визуальные инструменты для анализа отказов в распределенных системах
US10949765B2 (en) Automated inference of evidence from log information
JP2007042034A (ja) 計算機システム、管理計算機及び論理記憶領域の管理方法
JP6449804B2 (ja) メモリー被疑部検出のための方法およびシステム
JP6692454B2 (ja) 継続的インテグレーションシステム及びリソース制御方法
JP6009089B2 (ja) 計算機システムを管理する管理システム及びその管理方法
GB2607224A (en) Implementing workloads in a multi-cloud environment
JP6842447B2 (ja) リソース割当ての最適化を支援するシステム及び方法
JP2021149849A (ja) 障害原因特定システム、障害原因特定方法および障害原因特定プログラム
JP5439775B2 (ja) 障害対応プログラム、障害対応装置、及び障害対応システム
JP7369219B2 (ja) 運用管理装置及び方法
US11562299B2 (en) Workload tenure prediction for capacity planning
CN114281260A (zh) 应用于分布式存储系统的存储方法、装置、设备及介质
US20160378544A1 (en) Intellective switching between tasks
JP6642024B2 (ja) 管理装置,管理方法および管理プログラム
US11762729B2 (en) Apparatus and method for anomaly countermeasure decision, execution and evaluation
JPWO2017026017A1 (ja) 管理計算機および計算機システムの管理方法
US20200394091A1 (en) Failure analysis support system, failure analysis support method, and computer readable recording medium
JP2009157441A (ja) 情報処理装置、ファイル再配置方法およびプログラム
JP6588956B2 (ja) 計算機、ボトルネック特定方法、及びプログラム
JP5993052B2 (ja) 複数の監視対象デバイスを有する計算機システムの管理を行う管理システム
US20210398176A1 (en) Apparatus, method, and storage medium for burstable instance recommendation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220722

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230914

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230926

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231013

R150 Certificate of patent or registration of utility model

Ref document number: 7369219

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350