JP2007521579A

JP2007521579A - アクション中心のアプローチを用いてネットワークシステムの自律管理を行うシステム及び方法

Info

Publication number: JP2007521579A
Application number: JP2006544419A
Authority: JP
Inventors: ウッタムチャンダニ、サンディープ、マドハブ; ボーガンティ、カラダハール; スリニバサン、サンダーシャン; ピース、デイビッド、アラン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2003-12-15
Filing date: 2004-12-08
Publication date: 2007-08-02
Anticipated expiration: 2024-12-08
Also published as: US20050132052A1; US7734561B2; US8352593B2; EP1700422A1; CN1894892A; WO2005060159A1; JP4617317B2; KR100985624B1; CN1894892B; KR20060126494A; US20100205133A1; EP1700422B1

Abstract

【課題】本発明によれば、アクション中心のアプローチを用いてストレージシステムの自律管理を行うＳＡＮ管理システムを提供する。
【解決手段】ＳＡＮ管理システムは、管理システムと関連するポリシ記述を維持するポリシ記述ロジックブロックを含む。更に、ＳＡＮ管理システムは、ロジックの組み合わせと、ポリシ記述から得られた情報とを用いてアクション規則を決定する推論ロジックブロックを含む。また、ＳＡＮ管理システムは、ポリシ記述ロジックブロックを推論ロジックブロックと結合して管理システムの理解を改善する学習ロジックブロックを含む。この学習は継続し、ユーザからの手動入力への依存を減少させるシステムの自律進化を達成する。
【選択図】図１

Description

本発明は、ネットワークシステム管理の分野に関し、特に、ネットワークシステムの自律管理（ａｕｔｏｎｏｍｉｃｍａｎａｇｅｍｅｎｔ）を行うシステム及び方法に関する。

ストレージシステム内の実行時間挙動管理（ｒｕｎ‐ｔｉｍｅｂｅｈａｖｉｏｒｍａｎａｇｅｍｅｎｔ）における当面の問題は、複雑性（ｃｏｍｐｌｅｘｉｔｙ）及び脆弱性（ｂｒｉｔｔｌｅｎｅｓｓ）である。複雑性は、ポリシを記述するのに必要とされる詳細のレベルから生じる。これら詳細は些細なものではなく、システム内部の完全な理解及び知識を必要とする。特に、多くの考えられるオブザーバブルセットから、観測するシステムパラメータの組み合わせを選択し、多くのシステム変数セットの相互作用を考慮した後に適切なしきい値を決定し、多くの競合する選択肢セットから特定の修正アクションを選択することは管理者及びシステム構築者にとって困難である。ユーザ、ストレージ装置、ストレージ管理アクション及びサービスレベルアグリーメントの数が増大するにつれて、システム管理者及びストレージ管理ツール開発者がすべての代替手段を考慮することは計算上枯渇になる。

脆弱性に関して、製造業者が、製品内に予めパッケージされた変換コードを用意することは困難である。その理由は、このコードが、システム設定、ユーザ作業負荷及び部門／事業制約の変化に対して脆弱になるためである。従って、可能性がある使用ケースのシナリオのすべてをストレージ管理業者が前もって想像するのは困難であり、従って、現在のストレージ管理ソリューションの多くはワークフロー環境を形成し、これらワークフロー環境は、（ワークフロースクリプトを介して）高水準のサービス品質（ＱｏＳ）目標値を変換する責任を機関のシステム管理者及びインフラ構造計画者に移す。

本発明の目的は、ストレージシステムで自律管理を行うことにあり、本発明では、複雑性及び脆弱性と関連して生じる問題に対処する。

本発明によれば、アクション中心（ａｃｔｉｏｎ‐ｃｅｎｔｒｉｃ）のアプローチを用いてネットワークシステムの自律管理を行うネットワーク管理システムを提供する。ネットワーク管理システムは、管理システムと関連するポリシ記述を維持するポリシ記述ロジックブロック（ｐｏｌｉｃｙｓｐｅｃｉｆｉｃａｔｉｏｎｌｏｇｉｃｂｌｏｃｋ）を含む。更に、ネットワーク管理システムは、ロジックの組み合わせと、ポリシ記述から得られた情報とを用いてアクション規則を決定する推論ロジックブロックを含む。また、ネットワーク管理システムは、ポリシ記述ロジックブロックを推論ロジックブロック（ｒｅａｓｏｎｉｎｇｌｏｇｉｃｂｌｏｃｋ）と結合して管理システムの理解を改善する学習ロジックブロック（ｌｅａｒｎｉｎｇｌｏｇｉｃｂｌｏｃｋ）を含む。この学習は継続し、ユーザからの手動入力への依存を減少させるシステムの自律進化（ａｕｔｏｎｏｍｉｃｅｖｏｌｖｅｍｅｎｔ）を達成する。

主として、アクション中心のアプローチを用いてストレージシステムで自律管理を行うシステム及び方法として本発明を説明する。以下の記述では、本発明の充分な理解を得るために多数の具体的な詳細を説明のために述べる。しかし、当業者にとって、これら具体的な詳細なしで本発明を実施できること明らかである。

当業者は、本発明の実施を容易にするように、ＣＰＵ、メモリ、Ｉ／Ｏ、プログラムストレージ、接続バス及びその他の適切な部品を含むデータ処理システムのような装置をプログラミングでき、あるいは別の方法で設計できることを理解するであろう。このようなシステムは、本発明の操作を実行する適切なプログラム手段を含む。

データ処理システムと用いる事前記録ディスクまたはその他の類似のコンピュータプログラム製品のような製品は、記録媒体と、本発明の方法の実行を容易にするようデータ処理システムに指示するため、記録媒体上に記憶されたプログラム手段とを含めることができる。このような装置及び製品も本発明の精神及び範囲内に含まれる。

図１には、本発明の例示的な実施形態に従ってアクション中心のアプローチを用いてストレージシステム１２の自律管理を行うシステムモデル１０を示す。

システムモデル１０は、システムマネジャ１４を含む。システムマネジャ１４は、管理者により指定された目標値に従って管理システム１２を調整する。

管理システム１２は、アプリケーションからの要求をサービスするのに用いられる一連の資源＜Ｒ＞１６を含む。資源１６の例として、プロセッサ、ネットワーク、メモリ及びストレージが挙げられる。管理システム１２は一連のオブザーバブル＜Ｏ＞１８も含む。一連のオブザーバブル１８は、アプリケーションに見える管理システム１２の属性（例えば、処理能力、待ち時間、信頼性、可用性、安全性）を表す。管理システム１２の目標値は、＜Ｒ＞１６または＜Ｏ＞１８の値に関するしきい値として表される。

管理システム１２に入ってくる一連の要求を、幾つかの次元に沿って特徴付けることができる。例えば、ストレージシステムにおいて、代表的な次元は、リード／ライト比、（順次／無作為な）アクセスパターン、要求のブロックサイズなどである。例示的な実施形態では、様々な次元（例えば、要求のブロックサイズなど）に沿って情報を獲得することを用いて、入ってくるストリームの作業負荷特性（ｗｏｒｋｌｏａｄｃｈａｒａｃｔｅｒｉｓｔｉｃｓ）＜Ｗ＞を決定する。

管理システム１２と関連する目標値を達成するため、システムマネジャ１４はサービスを呼び出すか、または、モニタ２２から送信された状態情報（例えば、作業負荷特性、資源１６からの資源情報、オブザーバブル１８からのオブザーバブル情報など）の結果として管理システム１２内の設定パラメータを調整する。サービスの呼び出しとパラメータの変更とは、管理システム１２が実行できる一連の適応可能なアクション＜Ａ＞２０を規定する。

例示的な実施形態では、アクション＜Ａ＞２０は第１級の実体である。これらは、資源１６及びオブザーバブル１８を含む挙動次元（ｂｅｈａｖｉｏｒｄｉｍｅｎｓｉｏｎｓ）に対して影響を持っている。アクションの量的な影響は、管理システム１２における現在の作業負荷特性、資源使用率レベル（ｒｅｓｏｕｒｃｅｕｔｉｌｉｚａｔｉｏｎｌｅｖｅｌ）並びに観測可能な値に依存する。アクション２０は、（ストレージネットワーク産業協会のストレージ管理主導規格（ＳＭＩ‐Ｓ）に基づいて）充分に定義され、規格化された機能を有する。

図２は、本発明の例示的な実施形態に従ってシステムマネジャ１４に含まれる論理ブロックのブロック図２４である。ブロック図２４は、ポリシ記述ロジック２６、推論ロジック２８及び学習ロジック３０を含む。

ポリシ記述

ポリシ記述ロジック２６は、維持される管理システム１２と関連するポリシ記述を維持する。ポリシ記述を複数のポリシから構成することができる。本発明の例示的な実施形態によれば、ポリシ記述ロジック２６により維持されるポリシ記述は、ソフトウェアオブジェクトとしてアクションを処理し、管理者は、（既存のアプローチの複雑な「やり方」の詳細よりはむしろ、）アクションの属性を簡単に規定する。

ポリシ記述ロジック２６は、アクション２０がソフトウェアオブジェクトとして表されるアクション中心の（イベント中心とは対照的な）アプローチを用いる。既存のアプローチは、ポリシがシステム挙動を異なる状態で規定する「イベント中心」である。ポリシ記述は、これらオブジェクトの属性すなわち修正アクションの特性を規定する。ポリシ記述は、目標値が満たされない場合、どのように管理システム１２が反応すべきかを規定しない。アクション２０の特性は規定され、推論によりシステムマネジャ１４が正確な挙動をオンザフライで導き出す。これら特性は、アクションの呼び出しの費用／利益効果について簡単で且つ宣言型の、脆弱ではない詳細である。

例示的実施形態では、アクション２０の属性は、メタ属性及び基本属性を含む２つのカテゴリに該当する。

メタ属性

メタ属性により、システムマネジャ１４は、アクションの選択に含まれるトレードオフに関して推論し、アクション２０内の幾つかの利用可能な選択肢のうちでどのアクションを呼び出すかを決定することができる。メタ属性は２つの次元に沿って情報を具える。すなわち、
・アクションを呼び出す影響。これら影響は、一連の挙動結果として記述される。挙動結果は、アクションが管理システム１２の資源＜Ｒ＞１６またはオブザーバブル＜Ｏ＞１８あるいはその両方にどのように影響を及ぼすかを表現する挙動影響ベクトルから成る。
・アクションの「有効性」が依存する前提条件。作業負荷条件＜Ｗ＞または資源＜Ｒ＞１６への制限という点においてこれら前提条件は述語である。

基本属性

このグループの属性は、メタ属性の利用により選択されたアクションをどのようにして正確に呼び出すかを指定する。このことは、アクションを呼び出すパラメータの値への制限に合致しながら、これら値を選択することを含む。

更に、メタ属性カテゴリ及び基本属性カテゴリに対して、ポリシ記述は、ある例外も含む。

表１オブジェクトのポリシ記述用の定型書式

本発明の例示的な実施形態によれば、表１は、ポリシ記述におけるオブジェクトの記述についての典型書式を規定する。

表２ポリシ記述文法

表３先取りノブ定義

本発明の例示的な実施形態によれば、表３は、表２の文法を用いる先取り知識の例示的な定義を規定する。

推論

推論ロジック２８は、ロジックの組み合わせ及び基本属性を用いてアクション規則の決定を「オンザフライで」行う。システムマネジャ１４を警報駆動し、１つ以上の目標値が破られていることを管理システム１２が指摘する時だけ、システムマネジャ１４は推論手続きを呼び出す。管理システム１２は、警告を発することにより１つ以上の目標値の侵害を知らせる。システムマネジャ１４は、推論のため、ポリシ記述に基づいて形成された知識基盤を用い、管理システム１２を、すべての目標値が満たされる状態に戻す１つ以上のアクション２０を呼び出すことを決定する。

図３は、本発明の例示的な実施形態に従ってシステムマネジャ１４の推論ロジック２８内で推論を実行する方法３２である。ブロック３４において、方法３２が始まる。

ブロック３６において、管理システム１２と関連する挙動目標値を識別する。挙動目標値は、システムを実行する責任がある管理者により指定されている。これら目標値はサービスレベルアグリーメント（ＳＬＡ）に類似し、管理システム１２の観測される挙動に対する制約を規定する。挙動目標値の例として、５ミリ秒未満の待ち時間、１００Ｍｂｐｓを超える処理能力、１年当たり５分未満のシステムダウン時間などが挙げられる。

ブロック３８において、管理システム１２の作業負荷特性を決定する。

ブロック４０において、管理システム１２により用いられる資源を決定する。

ブロック４２において、ブロック３６で識別した挙動目標値が満たされているかを決定する。肯定応答であれば、方法３２がブロック３６に戻る。

ブロック４２に戻って、否定応答であれば、ブロック４４において、システムマネジャ１４の推論ロジック２８を開始するトリガを起動する。

ブロック４６において、管理システム１２と関連する基準設定を識別する。この基準設定は、識別された挙動目標値（ｂｅｈａｖｉｏｒｇｏａｌｓ）（工程３６参照）が満たされた管理システム１２に関する前設定である。

ブロック４８において、識別した基準設定を管理システム１２の現在設定と比較して、識別された挙動目標値（工程３６参照）をかなえさせないシステム特性（例えば、作業負荷、資源、環境、目標値など）またはシステム特性の組み合わせを識別する。この比較は、挙動レベル及び状態レベルでの（複数の）変化を理解するのに役立つ。

システム特性の例としてはこれらに限定されないが、下記の事項が挙げられる。

ａ．資源使用率（百分率）［ｃ_１］：これは、欠陥、資源追加及びアプリケーション動作範囲を明らかにする。

ｂ．アプリケーション要求特性［ｃ_２］

ｃ．指定目標値［ｃ_３］

ｄ．環境［ｃ_４］：これは、システム内の他の部品との依存性を明らかにする。現在の作業がスタンドアロンシステムに焦点を合わせているので、この態様は今後の作業の一部である。

ほどんどの場合、［ｃ］において［ｃ_２］及び［ｃ_４］の複合効果が反映する。

表４システム特性ファイル‐システムパラメータ

ブロック５０において、ポリシ記述ロジック２６により維持されるポリシ記述を検索して、ブロック４８で識別されたシステム特性またはシステム特性の組み合わせに整合する属性を有する適応オブジェクトの位置を検出する。検索の結果、ｃ_１、ｃ_２及びｃ_４のパラメータに影響を及ぼすすべての適応オブジェクトの選抜候補リストが生じる。

ポリシ記述の検索は、表に基づく簡単なアプローチに基づく。すなわち、ｃ_１、ｃ_２及びｃ_４でのパラメータの各々に対して、適応オブジェクトは表の形態で配置され、言い換えれば、資源、アプリケーション特性及び環境の所望の集まりに影響を及ぼすオブジェクトである。結合動作を用いて、２つ以上のカテゴリ内のパラメータに影響を及ぼすオブジェクトを選択する。

ブロック５２において、選抜候補リストを適応オブジェクト前提条件に基づいてフィルタリングする。前提条件は、（呼び出された場合、）アクションが有効になることを確実にするシステム状態及び作業負荷特性の要件である。例えば、先取りアクションの場合、作業負荷が連続し、メモリが利用できるということが前提条件である。

ブロック５４において、満たされていない目標値に影響を部分的または全面的に及ぼす適応オブジェクトを含むリストを作成する。

アクションに関する高次演算の実行

図５には、Ｎ次元挙動空間５６を示す。目標値（ｃ_３）の次元は、呼び出す必要がある適応オブジェクトの組み合わせと、対応の変化度とを決定するのに用いられる。

図４に戻る。

ブロック５８において、呼び出す必要がある適応オブジェクトの組み合わせと、対応の変化度に関する決定を行う。選抜候補リストの適応オブジェクトと、影響を受ける挙動次元の推定値とを目標値（ｃ_３）の次元に与える（上記の図５参照）。挙動次元は、ポリシ記述内容の組み合わせ及び自己学習により導き出される。

ブロック５８の動作をベクトル空間動作の点から見て説明することができる。ベクトル空間は、図５に示すようにｎ次元挙動空間を表す。各適応オブジェクトは、単位ベクトルとしてｎ次元挙動空間内で表される。ベクトルの方向は、影響を受ける挙動次元の推定値である。長さは、適応オブジェクトの基本呼び出しのための変化度を意味する。

単位ベクトル（図５参照）の組み合わせ及び関連の長さを決定する。

図６は、ブラックウェルの定理（Ｂｌａｃｋｗｅｌｌ’ｓｔｈｅｏｒｅｍ）に基づくベクトル加法を示す線図５９であり、ベクトルを結合するため、ブラックウェルの定理に基づく再帰アルゴリズムが用いられている。

現在状態６２から始まって所望の状態６４に至る目標ベクトル６０を生成する。

目標ベクトル６０との余弦角が最大となる単位ベクトルを選択する。ベクトルの刻み幅はｋである。ここで、「ｋ」は、システムの不安定の度合いを意味する（ｋ＜目的ベクトルの長さ）。目標ベクトル６０の生成と、目標ベクトルとの余弦角が最大となる単位ベクトルの選択とを繰り返す。例示的な実施形態では、（刻み幅ｋを有する）単位ベクトルが目標ベクトルに等しくなるまで、目標ベクトルの生成を繰り返す工程を繰り返す。各繰り返し中、アルゴリズムは、所定の状態に対して実現可能な最善のアクション（例えば、現在状態に基づく局所的最適化）を選択する。

アクションを呼び出す方法を決定するための基本記述の利用

ブロック６６において、呼び出すべき１つ以上のアクションを決定した後、各挙動次元（資源及びオブザーバブル）に沿って要求された量的変化に関しての決定を行う。どのパラメータ値をアクションに設定するかを決定するために付加的なアプローチを用いる。例えば、一方向にパラメータ値の単位変化を有するアクションを呼び出す。この工程の結果が予想通りであれば、このアクションを繰り返し呼び出し、システムが満足のいく状態に達するまで、パラメータの値を増大する。予想通りでなければ、アクションパラメータ値の変化方向を逆にし、ブロック６６のアクションを繰り返す。

従って、管理システム１２の１つ以上の目標値が破られているということをシステムが指摘すれば、推論モジュールを呼び出す。

ブロック６８において、方法３２が終了する。

学習

図２に戻る。学習ロジック３０は、学習をポリシ記述（ポリシ記述ロジック２６）及び推論（推論ロジック２８）と結合する方法を行う。測定値及びしきい値で知識基盤を絞り込むのに学習ロジック３０を用いる。機械学習用のアプローチ（例えば、ニューラルネットワーク、決定木（ｄｅｃｉｓｉｏｎｔｒｅｅｓ）、「Ｋ最近隣」（ＫＮｅａｒｅｓｔＮｅｉｇｈｂｏｕｒｓ：Ｋ‐ＮＮ）法など）のような既存のアプローチが活用されている。既存のアプローチは分類に用いられており、本明細書では、先の決定への応答から学習するのに用いられる。

学習は、メタ記述レベル（上記のメタ属性を参照する）、基本記述レベル（上記の基本属性を参照する）、アクション間の関係を保護するレベル、並びに、管理者からの学習が達成されるレベルを含む複数のレベルで体系的に行われる。

メタ記述レベル

管理者は、アクションの結果に関する不完全または不明確な情報を与えることができる。例えば、これら情報は、アクションが上述の影響を持たない１つ以上の前提条件次元の値を特定できない場合がある。システムは、正常な動作中、これら追加の前提条件について学習し、これに応じてポリシ記述を変更する。

学習の他の例として、フレームワークにより、管理者は、システムを推論に導くヒントを指定することができる。例えば、システム状態を修正するため、２つ以上のアクションを呼び出すことができるシナリオにおいて、管理者は、特定の作業負荷条件下で呼び出すアクションを（過去の経験に基づいて）指定することができる。木の葉が、呼び出すアクションの管理者の選択肢を含む決定木を用いて作業負荷条件を特定することにより上記のことを実施できる。

基本記述レベル

システムは、付加的な呼び出しから学ぶことができる。アクションを呼び出すためのパラメータの値を決定するため、アクションエージェントは、付加的なアプローチに加えて、ニューラルネットワークに基づくアプローチを用いて、パラメータのどの近似値とすべきかを過去の呼び出しから知ることができる。次に、アクションエージェントは、この時点から付加的なアプローチに従う。

アクション間の関係、並びに、管理者からの学習

アクションの属性を学習することに加えて、アクションの呼び出し間の関係を記録し、パターンを導き出そうとすることによりパターンを導き出すこともできる（例えば、アクションＡ及びＢは常に一緒に呼び出され、アクションＣ及びＤは互いを無効にするなど）。

管理者を監視することによっても学習を達成できる。管理者が、満たされていない目標値に応じてアクションを呼び出す場合、システムはレコードを生成し、資源レベル、作業負荷特性、目標値及び所望のアクションのような詳細を記録する。このレコードは「事例」を生成するのに用いられ、事例ベース推論（Ｃａｓｅ‐ｂａｓｅｄＲｅａｓｏｎｉｎｇ：ＣＢＲ）に既存のアプローチを用いる。

図７は、本発明の例示的な実施形態によるシステムマネジャ１４並びに機能（例えば、モニタ、アクチュエータなど）との相互作用を示すブロック図７０である。意思決定モジュール７２は、幾つかの構成要素エージェント間の相互作用を介して実施される。これら構成要素エージェントを以下で簡単に説明する。

システムエージェント７４はその他すべてのエージェント間の交信を調整し、システムにおいて、アクション属性に関する入力を管理者から獲得し、ポリシ記述に基づいて自律機能を行うために監視する。システムの管理者は、モニタ及びアクチュエータと同様にシステムエージェント７４と直接に相互作用する。システムエージェント７４は、システム状態を得るためにポールモデルを用いる。システムエージェント７４はモニタを定期的にポーリングし、状態変数を更新する。次に、目標値が破られていないかどうか検査する。目標値が破られていれば、システムエージェント７４は、この状況を修正する意思決定処理を呼び出す。

入力エージェント７６は、ユーザにより与えられたポリシ記述を持続性ストレージの幾つかの表現に変換する責任がある。入力エージェント７６は、与えられたＸＭＬ（拡張可能なマーク付け言語）の記述を容易に解析し、データベーステーブルに投入する。この形態でアクション属性を記憶することにより、学習中にマネジャにより容易に更新できるのみならず、必要な時に情報を簡単に検索することもできる。

決定エージェント７２は、マネジャが幾つかの実行可能なアクションの中からどれを呼び出すべきかを決定する。これを達成するため、決定エージェント７２はメタ記述を用いてアクション間で推論し、システムを、すべての目標値が満たされる状態に戻すため、呼び出すべき１つ以上のアクションを選択する。このようなアクションがなければ、決定エージェント７２は空の集合を戻す。

アクションエージェント７８は、決定エージェントにより生成された１つ以上のアクションから成る集まりを獲得し、基本記述を用いて、アクションを呼び出すパラメータの値を決定する。

図８には、本発明の例示的な実施形態に従って、管理システム１２における記述、推論及び自己学習についてアクション中心のアプローチを実行する方法８６を示す。

ブロック８８において、方法８６が始まる。

ブロック９０において、システムの管理者は、アクション属性の記述を含むＸＭＬファイルをシステムエージェント７４へ送信する。

ブロック９２において、次に、システムエージェント７４は要求を入力エージェント７６に送り、この入力エージェント７６はファイルを解析し、持続性論理構造体を生成する。このことは、管理システム１２を開始する時に一度行われ、まれに起こるアクション属性の変更を必要とする時に再び呼び出されなければならない。

ブロック９４において、システムエージェント７４は、モニタにより集められた情報から形成されたシステム状態を検査する。例示的な実施形態では、この検査は、システムエージェント７４により定期的に行われる。周期的とは、管理者またはソフトウェアあるいはその両方により設定できる時間の単位である。

ブロック９６において、システムエージェント７４は資源及びオブザーバブルの現在値を、目標値に指定されている所望の範囲と比較する。

ブロック９８において、すべての管理システム１２の目標値が満たされていないかを決定する。肯定応答であれば、ブロック１１０において方法８６が終了する。

ブロック９８に戻って、否定応答であれば、ブロック１００において、適切な要求を生成する変化解析を開始する。１つまたはそれ以上の目標値が満たされなければ、システムは変化解析を実行し、変化解析は、すべての目標値が満たされる状態をシステムにもたらすため、資源またはオブザーバブルあるいはその両方の値に必要とされる最小数の変化を要約する。

ブロック１０２において、ブロック１００の変化解析の要約を記録し、解決要求として決定エージェント７２へ送信する。

ブロック１０４において、決定エージェント７２はアクション間で推論し、呼び出すべきアクションまたはアクションセットを選択する。

ブロック１０６において、次に、アクションエージェント７８は、このアクションセットとシステムの現在状態及び目標状態とを獲得し、基本記述に与えられた利用意味に基づいて、識別した（複数の）アクションと関連するパラメータの値を選択する。

ブロック１０８において、システムエージェント７４は、アクションエージェント７８によりブロック１０６で選択されたパラメータ値に基づいてアクションを呼び出す。

ブロック１１０において、方法８６が終了する。

このようにして、アクション中心のアプローチを用いてストレージシステムにおいて自律管理を行うシステム及び方法を説明した。特定の例示的な実施形態を参照して本発明を説明したが、本発明の広範囲な精神及び範囲から逸脱することなく、これら実施形態に様々な修正及び変更を行うことができること明らかである。従って、上述の実施形態及び図面を、限定的な意味よりはむしろ例示的な意味に受け取るべきである。

本発明の例示的な実施形態に従ってアクション中心のアプローチを用いてストレージシステムの自律管理を行うシステムモデルのブロック図である。本発明の例示的な実施形態に従ってコンピュータシステムの挙動を動的に管理するのに用いられるシステムマネジャ内に含まれる論理ブロックのブロック図である。本発明の例示的な実施形態に従ってシステムマネジャ内で推論を実行する方法を示す流れ図である。本発明の例示的な実施形態に従ってシステムマネジャ内で推論を実行する方法を示す流れ図である。Ｎ次元挙動空間を示す図である。ブラックウェルの定理に基づく再帰アルゴリズムを用いてベクトルを結合する、ブラックウェルの定理に基づくベクトル加法を示す図である。本発明の例示的な実施形態によるシステムマネジャ及び機能との相互作用を示すブロック図である。本発明の例示的な実施形態に従って管理システムにおける記述、推論及び自己学習についてアクション中心のアプローチを実行する方法を示す流れ図である。

Claims

ネットワークシステムの自律管理を行うシステムであって、前記システムが、前記ネットワークシステムと関連するポリシ記述を維持するポリシ記述ロジックブロックと、前記ポリシ記述ロジックブロックから得られた情報を用いてアクション規則を決定する推論ロジックブロックと、推論ロジックによる推論に従って前記ポリシ記述に自律的に調節し、これにより、前記ネットワークシステムを管理する学習ロジックブロックとを含むシステム。
前記ポリシ記述ロジックブロックにより維持されている前記ポリシ記述が、前記ネットワークシステムと関連する複数の挙動目標値を識別する、請求項１に記載のシステム。
前記推論ロジックが、前記識別した挙動目標値が満たされているかを決定する、請求項２に記載のシステム。
前記識別した挙動目標値が満たされていないことが決定されると、前記推論ロジックがアクション形式の呼び出しを選択する、請求項３に記載のシステム。
アクション中心のアプローチを用いてストレージシステムの自律管理を行うシステムであって、前記システムが、管理システムと関連するポリシ記述を維持するポリシ記述ロジックブロックと、前記ポリシ記述から得られた情報、並びにロジックの組み合わせを用いてアクション規則の決定を行う推論ロジックブロックと、前記ポリシ記述ロジックブロックを前記推論ロジックブロックと結合して管理システムの理解を改善する学習ロジックブロックとを含み、前記学習が継続し、ユーザからの手動入力への依存及び保守を減少させる前記システムの自律進化を達成するシステム。
前記ポリシ記述が複数のポリシから構成されている、請求項５に記載のシステム。
前記ポリシ記述がソフトウェアオブジェクトとしてアクションを処理する、請求項５または６に記載のシステム。
前記ポリシ記述が前記ソフトウェアオブジェクトの属性を規定する、請求項７に記載のシステム。
属性がメタ属性及び基本属性を含む、請求項８に記載のシステム。
メタ属性が、前記ソフトウェアオブジェクトの各々を選択する際に含まれるトレードオフに関する推論と、前記ソフトウェアオブジェクトの各々と関連する幾つかの利用可能な選択肢から呼び出すアクションの決定とを容易にする、請求項９に記載のシステム。
メタ属性は、アクションを呼び出す影響と、前記アクションの有効性が依存する前提条件とに対応する情報を具える、請求項９または１０に記載のシステム。
前記アクションを呼び出す前記影響が一連の挙動結果として特定され、挙動結果が、前記アクションがどのように前記管理システムの資源及びオブザーバブルに前記影響を及ぼすかを表す挙動影響ベクトルを含む、請求項１１に記載のシステム。
前記アクションの前記有効性が依存する前記前提条件が、作業負荷条件、または前記管理システムの資源への制限という点において述部を含む、請求項１１または１２に記載のシステム。
基本属性が、選択されているアクションをどのようにして正確に呼び出すかを特定する属性を含み、前記アクションが前記管理システムのメタ属性を介して選択されている、請求項９〜１３のいずれか一項に記載のシステム。
アクションをどのようにして正確に呼び出すかに関する前記特定が、前記アクションと関連する選択パラメータ値を含む、請求項１４に記載のシステム。
前記推論ロジックブロックが、ロジックの組み合わせ及び前記基本属性を用いることによりアクション規則の前記決定を行う、請求項１〜１５のいずれか一項に記載のシステム。
前記管理システムと関連する１つまたはそれ以上の目標値が満たされていないことを前記管理システムが指摘すると、前記推論ロジックブロックが呼び出され、満たされていない前記１つまたはそれ以上の目標値に応じて、１つまたはその以上のアクションが前記推論ロジックブロックにより呼び出されて、前記目標値のすべてが満たされている状態に前記管理システムを戻すようになっている、請求項１〜１６のいずれか一項に記載のシステム。
前記学習ロジックブロックが、前記ポリシ記述ロジックブロックにより維持される前記ポリシ記述と、前記推論ロジックブロックで行われる推論とを学習に結合して、前記管理システムの管理に関して絞り込まれた知識基盤を形成するようになっている、請求項１〜１７のいずれか一項に記載のシステム。
メタ記述レベルと、基本記述レベルと、アクション間の関係を保護するレベルと、管理者からの学習が達成されるレベルとを含む複数のレベルで学習が行われる、請求項１８に記載のシステム。
不完全または不明確な情報を含む前記ポリシ記述に応じて前記ポリシ記述を修正するため、前記メタ記述レベルが、正常な動作中に学習した前記システムの使用情報を含む、請求項１９に記載のシステム。
前記基本記述レベルが、前記アクションと関連してパラメータ値を近似するため、前記管理システムの過去の呼び出しと関連する前記管理システムの使用情報を含む、請求項１９または２０に記載のシステム。
ネットワークシステムの自律ポリシ管理を行う方法であって、前記方法は、前記ネットワークシステムと関連する挙動目標値を識別する工程と、前記ネットワークシステムの作業負荷特性を識別する工程と、前記ネットワークシステムの資源利用率を決定する工程と、前記識別した挙動目標値が満たされているかを、前記識別した作業負荷特性と、決定した資源利用率とに基づいて決定する工程と、前記識別した挙動目標値が満たされていないという決定に応答して、前記識別した作業負荷特性並びに、決定した資源利用率を自律的に調節する工程とを有し、自律調節は、前記識別した作業負荷特性並びに、前記決定した資源利用率を、前記識別した挙動目標値が満たされるレベルに動的に調節する方法。
アクション中心のアプローチを用いてネットワークシステムの自律管理を行うようにシステムを展開する方法であって、前記方法が、前記ネットワークシステムの前記管理でポリシを維持するのに用いられている現在の管理システムを評価し、前記ポリシが、前記ネットワークシステムの特性を考慮して取るべきシステムアクションを指定する工程と、前記ネットワークシステムを管理するために自律管理システムを用いて前記現在の管理システムを更新するし方を決定する工程と、決定した前記更新に従って前記自律管理システムを展開する工程とを有し、更新が前記現在の管理システムを前記自律管理システムと置き換えるか、あるいは、前記自律管理システムを前記現在の管理システム内で統合することを含む方法。
システムアクションがメタ属性及び基本属性を含む、請求項２３に記載の方法。
前記ネットワークシステムの特性がシステム作業負荷、システム資源、システム環境及びシステム目標値を含む、請求項２３または２４に記載の方法。
前記ネットワークシステムが、ストレージエリアネットワーク（ＳＡＮ）である、請求項２３または２４または２５に記載の方法。