JP2007004337A - 自律運用管理システム、自律運用管理方法及びプログラム - Google Patents

自律運用管理システム、自律運用管理方法及びプログラム Download PDF

Info

Publication number
JP2007004337A
JP2007004337A JP2005181659A JP2005181659A JP2007004337A JP 2007004337 A JP2007004337 A JP 2007004337A JP 2005181659 A JP2005181659 A JP 2005181659A JP 2005181659 A JP2005181659 A JP 2005181659A JP 2007004337 A JP2007004337 A JP 2007004337A
Authority
JP
Japan
Prior art keywords
control
operation management
stop
autonomous
execution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005181659A
Other languages
English (en)
Other versions
JP4945935B2 (ja
Inventor
Fumio Machida
文雄 町田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2005181659A priority Critical patent/JP4945935B2/ja
Priority to US11/922,789 priority patent/US7818421B2/en
Priority to PCT/JP2006/312232 priority patent/WO2006137356A1/ja
Publication of JP2007004337A publication Critical patent/JP2007004337A/ja
Application granted granted Critical
Publication of JP4945935B2 publication Critical patent/JP4945935B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0748Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a remote unit communicating with a single-box computer node experiencing an error/fault
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Administration (AREA)
  • Operations Research (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Computer Hardware Design (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer And Data Communications (AREA)
  • Debugging And Monitoring (AREA)

Abstract

【課題】 運用管理ポリシに基づいて自律的にシステム運用管理を行う自律運用管理システムにおいて、ポリシやポリシによって起動されるワークフローの問題によって起こる不適切な自律制御シーケンスを検知し、問題のある箇所に対する自律制御機能を部分的に停止し、管理者によるポリシ制御のデバッグ作業を効率化する。
【解決手段】 判断手段13は、運用管理ポリシ161に記述されたワークフローの実行を要求し、要求されたワークフローを実行する実行手段23は、停止判断ルール261に基づいて、ポリシ記述に現れない制約に基づいた異常状態を検知する。実行手段23は、異常状態を検知すると、特定の判断手段13からの要求又は特定の制御対象に対する要求に従うワークフローの実行を停止することによって、部分的に自律制御を停止し、管理者などによるデバッグ作業を効率化する。
【選択図】図1

Description

本発明は自律運用管理システム、自律運用管理方法及びプログラムに関し、特に、計算機システムの自律制御に際して部分的に自律制御を停止することができる自律運用管理システム、自律運用制御方法及びプログラムに関する。
分散資源計算機システムでは、自律運用管理システムを導入する例が増えている。自律運用管理システムは、ネットワークで接続された複数の計算機資源に対する煩雑な管理作業を自動化するものであり、制御対象のシステム状態を監視し、予め設定された運用規則(以下、ポリシと記述する)に基づき、システム環境に適応した運用手順(以下、ワークフローと記述する)を自動的に実行する。特許文献1では、ストレージシステムの運用において、システム環境の変化に適応して自動的に運用を継続する手法を示している。また、特許文献2では、宇宙機の自律的制御を実現するための手法を示している。
上記特許文献に記載された従来の自律運用管理システムは、企業内のシステム管理や一つの宇宙機システムの制御において有効に機能する。しかし、これら自律運用管理システムでは、ポリシを作る際に必要な情報が全て取得できる状況にあることや、ポリシで呼び出すワークフローと実際に制御を実行するワークフローの実装との間に食い違いがないことが前提となっている。この前提が成り立たなければ、意図した状況とは異なる状況でポリシ制御が実行され、或いは、意図した制御とは異なる制御をワークフローが実行してしまうことがあり得る。
例えば、データセンタや大企業の社内システムにおいて、複数の管理者やサービス運用者がシステムの一部を共有して使っている状況を考える。各管理者や運用者は、業務の目的や、セキュリティの要件により、それぞれの運用管理ポリシに基づいてシステムを自律的に管理することを要求する。このような状況下では、ある管理者は別の管理者がどのような制御を実行しているかといった情報や、他の管理者に割り当てられている資源の情報を、必ずしも全ては知ることができない。また、ポリシによって起動されるワークフローは、人間のミスやシステム環境の変化により、ポリシの制御と整合性が常に取れているとは限らない。
従って、先に述べた前提は、複数の独立したポリシ制御によって一つのシステムを運用管理する場合や、仮想化した制御対象に対してポリシを定義する場合などでは、満たされない可能性がある。このような場合には、ポリシ制御とその効果との不整合を防ぐために、ポリシ記述者がその不整合を把握するための仕組みが必要となる。現在の自律運用管理システムは、人手を介さずに自動的に運用を継続することをその目的としており、このため、ポリシ制御とその効果との不整合を検出してポリシ記述者に通知し、ポリシやワークフローの実装を管理者などが修正する仕組みが存在しない。
特開2004−227359 特開平10−329800
従来の自律運用管理システムにおける第1の問題点は、複数の自律制御機能によって運用管理されるシステムでは、ある自律制御機能が他の自律制御機能によって、ポリシ記述者の意図しない制御シーケンスが生じたときに、対処する方法が存在しないことである。その理由は、他の自律制御の制御情報を把握できない環境では、意図しない制御シーケンスが生じる理由を解析できないためである。
第2の問題点は、仮想化又は抽象化された情報やワークフロー定義に基づいてポリシによる自律制御をするシステムでは、仮想化や抽象化の過程で抜け落ちた情報間の制約によって、ポリシ記述者の意図しない制御結果を招いたときに、対処する方法が存在しないことである。その理由は、情報の仮想化や抽象化によって全ての情報が把握できない環境では、意図しない制御結果が生じた際の原因を解析できないためである。
第3の問題点は、ワークフローを実行する個々の資源に対する制御スクリプトに誤りがあった場合や、ポリシ記述者の意図した制御とは異なる制御が実装されていた場合に、生じた問題を確認し、ポリシ記述者に通知するための仕組みが存在しないことである。その理由は、ポリシ記述者はポリシ記述時点での、制御スクリプトの外部仕様に基づいてポリシを記述するため、制御スクリプトの動作環境が変化した場合や、外部仕様と実装とで不整合がある場合に、意図しない制御結果が生じた原因を解析できないためである。
上記従来の自律運用管理システムにおける問題に鑑み、本発明の目的は、複数の自律制御機能によって運用管理されるシステムで、ある自律制御機能が他の自律制御機能によって、ポリシ記述者の意図しない制御シーケンスが生じたことを判断し、問題のある自律制御機能を部分的に停止し、ポリシ記述者、システム管理者に対応を要求することが出来る自律運用管理システム、方法、及びプログラムを提供することを目的とする。
本発明の他の目的は、仮想化又は抽象化された情報やワークフロー定義に基づいてポリシによる自律制御をするシステムで、仮想化や抽象化される過程で抜け落ちた情報間の制約によって、ポリシ記述者の意図しない制御が行われたことを判断し、問題のある自律制御機能を部分的に停止し、ポリシ記述者、システム管理者に対応を要求することが出来る自律運用管理システム、方法、及び、プログラムを提供することを目的とする。
本発明のさらに他の目的は、ワークフローを実行する個々の資源に対する制御スクリプトに誤りがあった場合や、ポリシ記述者の意図した制御とは異なる制御が実装されていた場合に、生じた問題を確認し、問題のある自律制御機能を部分的に停止し、ポリシ記述者や、システム管理者など(以下、総称して管理者と呼ぶこともある)に対応を要求することが出来る自律運用管理システム、方法、及び、プログラムを提供することを目的とする。
更に、本発明の他の目的は、上記自律運用管理システムに用いられる方法及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明の第1の視点に係る自律運用管理システムは、制御対象の状態を監視する状態監視部と、該状態監視部による監視情報とポリシ記憶部に記憶された運用管理ポリシとに基づいて制御対象に必要な制御を決定する制御決定部と、該制御決定部の決定に基づいて制御対象を制御する制御実行部とを備える自律運用管理システムにおいて、
制御対象の自律制御を停止する停止条件を記述した停止判断ルールを記憶するルール記憶装置と、前記監視情報及び停止判断ルールに基づいて停止条件の成立を検知する停止判断手段とを備え、
前記停止判断手段は、前記停止条件の成立を検知すると、前記制御実行部による制御実行機能、及び、前記状態監視部から前記制御実行部に与える監視情報の少なくとも一方を制限することを特徴とする。
また、本発明の第2の視点に係る自律運用管理システムは、ネットワークにより接続された複数の計算機を自律的に運用管理する自律運用管理システムにおいて、
システム内の管理対象の情報を収集する情報収集手段と、
前記情報収集手段によって収集された情報と記憶装置に記憶された運用管理ポリシとに基づいて自律的に制御を決定する制御決定手段と、
前記制御決定手段からの制御要求に基づいて前記管理対象の制御を実行する制御実行手段と、
前記制御実行手段による制御の実行状態、及び、前記情報収集手段によって収集された制御対象の情報の少なくとも一方と、記憶装置に記憶された停止条件とに基づいて、自律制御停止の判断をする停止判断手段とを備え、
前記停止判断手段は、前記自律制御停止の判断をしたときには、前記制御実行手段の機能、及び、前記制御決定手段に与える監視情報の少なくとも一方を制限するこことを特徴とする。
また、本発明の自律運用管理方法は、ネットワークにより接続された複数の計算機から成るシステムを自律的に運用管理する方法において、
システムの監視装置から得られる監視情報及び記憶装置に記憶された運用管理ポリシに基づいて、制御実行手段が制御のワークフローを実行するステップと、
前記制御実行手段が、前記制御のワークフローを実行するにあたり、前記監視情報と、記憶装置に記憶された、制御対象の自律制御を停止する停止条件を記述した停止判断ルールとに基づいて、停止条件の成立の有無を検知するステップと、
前記停止条件の成立を検知すると、前記制御実行手段が実行する制御実行機能、及び、前記監視装置が前記制御実行手段に与える監視情報の少なくとも一方を制限するステップとを備えることを特徴とする。
本発明のプログラムは、ネットワークにより接続された複数の計算機を自律的に運用管理する制御コンピュータのためのプログラムであって、前記制御コンピュータに、
システムの監視装置から得られる監視情報及び記憶装置に記憶された運用管理ポリシに基づいて、制御のワークフローを実行する処理と、
前記制御のワークフローを実行する処理にあたり、前記監視情報と、記憶装置に記憶された、制御対象の自律制御を停止する停止条件を記述した停止判断ルールとに基づいて、停止条件の成立の有無を検知する処理と、
前記停止条件の成立を検知すると、前記制御のワークフローの実行機能、及び、前記監視装置から前記前記制御のワークフローを実行する処理の際に与える監視情報の少なくとも一方を制限する処理とを実行させることを特徴とする。
本発明の第1及び第2の視点に係る自律運用管理システム、本発明の自律運用管理方法、及び、プログラムによると、ワークフローの実行手段による制御の実行機能、及び、システム内の情報を監視する監視装置(情報収集手段)からワークフローの実行手段に与える監視情報の少なくとも一方を制限する構成により、制御停止条件が満たされた場合にも、制御実行手段における監視情報及び運用管理ポリシから制御のワークフローを決定する制御決定機能には直接的な操作を加えることなく、間接的に自律制御動作を停止できるので、ポリシ記述者などの意図しない制御シーケンスが発生した場合には、ポリシ記述者などによる原因解析が可能になる。
本発明では、特に停止判断ルールには、他の実行手段の制御に起因する制御状態や、一般に運用管理ポリシには含まれない抽象化されていない情報を含めることができるため、運用管理ポリシでは判断できない停止条件の成立の有無を監視することができる。また、実行手段の機能を制限することにより、或いは、監視装置から実行手段の実行決定機能に与える監視情報を制限することにより、実行手段の制御決定機能に複雑な制御を実装することなく、自律制御機能を停止することができる。
ここで、実行機能及び監視情報の「制限」とは、実行機能及び監視情報の少なくとも一部を停止することをいう。また、「制御の実行状態」とは、特に情報収集手段からの監視情報によらなくとも、システム内で自明な情報により判別可能なシステムの状態、例えば、制御のワークフローが開始する前または後などをいう。なお、これら状態の情報は、監視情報として監視装置から停止判断手段に与えられる。「機器に依存する設定情報の制約」とは、システム内に存在する機器の特殊性などのために、その機器に特別な設定を付け加えたことにより、発生する制約をいう。このような制約は、一般化、抽象化されるべきポリシにはなじまないので、個別の業務処理などに特に必要な停止条件などと共に、停止判断ルールに加えられることが好ましい。
前記停止判断手段又は実行手段は、前記停止条件が成立すると、システムの管理者に警報を発生することが好ましい。この場合、意図しない制御状態などについて、管理者などによる迅速な原因解析が可能になる。
前記停止条件には、前記運用管理ポリシに記述できない機密保持された情報、及び、システム内の機器に依存する設定情報の制約などを含ませることが出来る。この場合、運用管理ポリシには記述できない情報や、運用管理ポリシに記述すべきではない特殊な情報などを含ませることにより、一般化、抽象化した運用管理ポリシのみによる制御が可能になる。
前記停止条件に、前記運用管理ポリシで想定した制御スクリプトの実行効果と実際の実行効果とが異なる場合を含ませることが出来る。この場合、自律制御における問題点の発見が迅速になる。
前記停止判断手段は、前記自律制御停止の判断をしたときには、前記情報収集手段から前記制御決定手段に提供される全ての監視情報の提供を停止させること、或いは、前記情報収集手段から前記制御決定手段に提供される監視情報の一部の提供を停止させること、或いは、前記情報収集手段から前記制御決定手段に提供される監視情報に、制御停止の対象を示す情報を加えて提供させることも出来る。このようにすることで、システムの構成に応じた停止状況、或いは、所望の自律制御の停止状況が得られる。
前記停止判断手段は、その少なくとも一部を、ワークフローの実行状態に応じて起動される監視タスクによって実現することが出来る。この場合、きめ細かな停止条件の成立の有無の判断が可能になる。
前記制御実行手段は、監視状態の変化に基づいて制御のワークフローを実行するにあたり、該ワークフローの実行に先だって、該ワークフローのために定義された事前条件、及び、前記運用管理ポリシによって制御が決定された際の判断条件の少なくとも一方が満たされていることを確認することも好ましい。この場合、一般化、抽象化した運用管理ポリシを修正することなく、特殊な停止条件で自律制御を停止することが出来る。また、一方のシステム運用者の運用管理ポリシにより、他方のシステム運用者にとって不適切な制御が行われる事態を避けることも出来る。
前記停止判断手段は、監視状態の変化に基づいて制御のワークフローが実行された後に、該ワークフローに定義された事後条件が満たされているか否かを判定することも好ましい。この場合、一方のシステム運用者の運用管理ポリシにより、他方のシステム運用者にとって不適切な制御が行われた場合に、迅速に発見が可能である。
次に、発明を実施するための最良の形態について図面を参照して詳細に説明する。図1を参照すると、本発明の第1の実施形態に係る自律運用管理システムは、自律運用のための判断手段を備える複数の計算機10と、自律運用のための実行手段(制御実行手段)を備える計算機20と、複数の制御対象の計算機30と、これらを接続するネットワーク40とで構成される。
計算機10は、システム運用者又は管理者からデータの入力を受け付ける入力装置11と、システム運用者又は管理者に対して情報を提供する表示装置15と、運用管理ポリシ161を格納する記憶装置16と、運用管理ポリシに基づいて自律的にワークフローを起動する判断手段13を含む処理装置12と、ネットワーク40を介して計算機20と通信するための通信装置(通信インターフェイス)14とを備える。計算機20は、システム運用者又は管理者からデータの入力を受け付ける入力装置21と、システム運用者又は管理者に対して情報を提供する表示装置25と、判断手段13による要求を解釈して実行する実行手段(制御実行手段)23を有する処理装置22と、停止判断ルール261を格納する記憶装置26と、ネットワーク40を介して他の計算機10、30と通信するための通信装置24を備える。制御対象の計算機30は、ネットワークを介して計算機20と制御されて自律業務を行う複数の計算機として構成される。
図2は、計算機10の判断手段13及び記憶装置16の詳細な構成を示した図である。判断手段13はネットワークを介して収集した制御対象の情報を監視する情報監視部131と、監視情報と運用管理ポリシ161とに基づいて、ワークフローを起動する制御決定部132と、制御決定部132で指定されたワークフローを作成するためのワークフロー定義163を記憶装置16から読み出し、そのワークフロー定義から作成したワークフローの実行を実行手段23に要求する制御要求部133とからなる。記憶装置16には、情報監視部131が利用する監視設定情報162と、制御決定部132が利用する前記運用管理ポリシ161と、制御要求部133が利用する前記ワークフロー定義163とが格納される。
図3は、計算機20の実行手段23及び記憶装置26の詳細な構成を示したブロック図である。実行手段23は、ネットワーク40を介して複数の計算機10の判断手段13から要求されるワークフロー実行要求を受け付けて、調停を行う要求処理部234と、要求処理部234から渡される各制御対象計算機30への制御を、ネットワーク40を介して実行する要求実行部235と、ネットワーク40を介して各制御対象計算機30から情報を収集する情報収集部(監視装置)232と、情報収集部232が集めた情報を変換及び加工し、ネットワーク40を介して複数の判断手段13に情報を提供する情報提供部231と、要求実行部235から受け取る制御の実行状態情報と、情報収集部232から受け取る監視情報と、記憶装置26から読み出した停止判断ルール261とから、自律制御停止の判断をし、要求処理部234及び/又は情報提供部231の機能を制限する停止判断部233とから構成される。記憶装置26には、停止判断部233が制御の実行状態通知に応じて監視タスクを開始するための、ワークフローに付随する制約条件262と、該制約条件262をチェックした後の停止処置を記述した停止判断ルール261とが格納される。
計算機10の判断手段13は、計算機20の実行手段23を介して制御対象の情報を監視し、運用管理ポリシ161に基づいて自律的にワークフローを決定し、実行手段23にワークフロー実行要求を送る。ワークフロー実行要求を受理した実行手段23は、ネットワーク40を介して制御対象の計算機30にアクセスし、その制御を実行する。また、制御対象の計算機30から、制御対象の負荷情報や障害情報や構成情報を収集し、情報を変換及び加工して判断手段13に提供する。判断手段13と実行手段23の連携により、制御が継続的に且つ自律的に実行される。
次に、第1の実施形態の動作について詳細に説明する。はじめに、自律運用管理を要求するアプリケーションやサービスの運用者、システムの一部の管理を任されるネットワーク管理者やサーバ管理者などは、それぞれの組織が持つ運用管理ポリシに基づいて、自律制御を行うための運用管理ポリシを作成し、計算機10の入力装置11を介して、記憶装置16に、運用管理ポリシ161及び情報の監視設定情報162と、制御プログラムとを格納する。
図4に、記憶装置16に記憶された運用管理ポリシ161、監視設定情報162、及び、ワークフロー定義部163の例を示す。運用管理ポリシ161は、少なくとも条件部と制御部とを持ち、ルール形式で記述される。このルールの条件部に現れる情報を監視するための設定情報が監視設定情報162であり、監視の対象や監視の時間間隔などを設定する。監視情報は実行手段23によって生成されて提供されるものである。また、ルールの制御部に現れるワークフローを実行するための設定情報がワークフロー定義163であり、ワークフロー定義163は、ワークフローの操作手順のテンプレートとして利用される。得られたワークフローは、実行手段23によって、機器を制御するための詳細な制御手順に変換されて実行される。
次に、一つのデータセンタや、企業システムを安定運用させる責任を持つシステム管理者は、自律制御の挙動に異変が生じた時に、自律制御機能を停止してシステム管理者が介在して問題解析を行うための停止判断ルールを用意し、計算機20の入力装置21を介して、記憶装置26に停止判断ルール261を格納する。
停止判断ルール261及びそれに含まれる停止条件の例を図5に示す。停止判断ルール261は、ワークフローや詳細な制御手順に付随する事前条件、事後条件、及び、いかなる制御要求を受け付けたときでも常に成立していなければならない不変条件などを使って記述される。
事前条件と事後条件は、運用管理ポリシやワークフローの詳細から一部を自動生成することができ、それ以外にも、管理者が追加することができる。例えば、図5の例では、管理者が事前条件として、ネットワーク機器を制御するためのプログラムが利用可能な状態であることを事前条件に加えている。この条件は、nwController.status = runで表現されている。停止判断ルールでは、これらの条件がどのようなタイミングで違反した場合に、どの自律制御を停止するかを指定する。例えば、2行目の停止判断ルールは、ワークフロー実行後、制御が成功しているにもかかわらず、事後条件が2分間経っても満たされない場合に、停止処置を実行することを示している。ここで、行う停止処置は、全ての資源に対するこの要求者からの制御要求を停止し(要求停止(All,要求者))、要求者に対する全ての資源情報の提供を停止し(情報フィルタ(All,要求者))、管理者に対して停止処置を講じた旨を通報すること(通報(管理者))を示している。
次に、計算機10の判断手段と計算機20の実行手段23とが運用を開始することにより、運用管理ポリシ161に基づいた自律運用管理が開始される。監視情報、運用管理ポリシ、ワークフローに不整合がなく、他の自律制御機能による制御が混入しなければ、人手を介すことなく、継続的に自律運用管理が実行される。
図6は、計算機10の判断手段13における制御ループをフローチャートで示している。情報監視部131が監視設定情報162を読み込み(ステップS1)、それに基づいて監視を開始し(ステップS2)、監視情報を制御決定部132に入力する(ステップS3)。制御決定部132では、入力された監視情報や制御要求部133からのワークフロー実行結果などと、記憶装置16に記憶された運用管理ポリシ161とを照らし合わせ、条件にマッチする運用管理ポリシがあるか否かを判定する(ステップS4)。ステップS4で、該当する運用管理ポリシがあった場合には、そのポリシの制御部に記述されたワークフローを、制御要求部133に入力として与え(ステップS5)、ステップS6に進む。条件にマッチする運用管理ポリシが存在しない場合には、何もせずに監視ステップS2に戻る。ステップS6では、制御要求部133は、実行手段23に対して、制御決定部132から入力されたワークフローの実行を要求し、その実行結果を受け取る(ステップS7)。実行手段23から受け取った実行結果は、制御決定部132に入力として与え(ステップS8)、その後ステップS4に戻り、更に運用管理ポリシにマッチする監視状態の発生を監視する。
図7は、実行手段23における監視情報取得提供処理をフローチャートで示す。図6の処理に基づいて、判断手段13から監視情報の取得が要求されたとき、実行手段23では情報提供部231がこの要求を受け取る(ステップS11)。情報提供部231では、要求元の判断手段13の権限や、要求された情報の内容をチェックし、提供可能な情報を生成するために必要な情報を収集する要求を情報収集部232に対して発行する(ステップS12)。情報収集部232は、複数の制御対象から、要求された情報を収集し(ステップS13)、収集した情報を情報提供部231に返す(ステップS14)。情報提供部231は、必要に応じて情報の内容を加工及び修正して(ステップS15)、情報要求元の判断手段13に監視情報を結果として返す(ステップS16)。
図8は、実行手段23におけるワークフロー実行処理をフローチャートで示す。図6の処理に基づいて、判断手段13からワークフロー実行要求が入力されたとき、実行手段23では、要求処理部234がこの要求を受け取る。要求処理部234は、ワークフロー実行要求を実行するための詳細な制御手順を生成し(ステップS22)、要求実行部235に入力する(ステップS23)。要求実行部235は、実際に制御対象に対して制御を開始する前に、停止判断部233に制御を開始することを通知する(ステップS24)。また、要求実行部235で、実際に制御を行い(ステップS25)、その制御が終了した後に(ステップS26)、制御結果を要求処理部234に返す前に、停止判断部233に制御が終了したことを通知する(ステップS27)。要求処理部234は、制御結果を要求実行部235から受け取り(ステップS28)、受け取った制御結果をワークフロー実行結果として判断手段13に返す(ステップS29)。
実行手段23は、複数の判断手段13から、監視情報取得要求とワークフロー実行要求とを非同期で受け付ける。このため、実行手段23による図7及び図8の処理は、それぞれ複数が同時に実行されることがある。次に、停止判断ルールに基づいて自律制御機能を停止する際の動作を示す。
図9は、実行手段23における自律制御停止処理をフローチャートで示す。図8の処理に基づいて、停止判断部233は、要求実行部235から制御開始通知を受け取る(ステップS31)。停止判断部233は、その制御を開始しようとしているワークフローに付随する制約条件を読み込む(ステップS32)。始めに、ワークフローを実行する前に満たされているべき事前条件が定義されているかどうかを調べ(ステップS33)、定義されている場合には、その事前条件をチェックするための監視タスクを開始する(ステップS34)。次いで、停止判断ルールに基づいて、自律制御機能を停止する必要があるか否かを判断する(ステップS35)。ステップS35で、停止が必要と判断された場合には、ステップS43から始まる共通の自律制御停止処理フローに進む。停止の必要がない場合には、ステップS36に進み、更に不変条件の有無をチェックする。不変条件は、ワークフロー処理中に満たされているべき条件を記述したもので、制御終了通知が通知されるまでは継続してチェックし続ける(ステップS37、S38)。停止判断ルールに基づいて、自律制御機能を停止する必要があると判断された場合には、ステップS43から始まる共通の自律制御停止処理フローに進む。停止不要と判断され、更に制御終了通知が要求実行部235から通知されると(ステップS39)、事後条件の指定の有無を判断する(ステップS40)。事後条件が指定されている場合には、事後条件をチェックするための監視タスクを開始する(ステップS41)。事後条件で停止の必要の有無を判定し、停止が必要であれば、ステップS43から始まる共通の自律制御停止処理に進む。停止が不要であれば、一連の処理が終了し、自律運用管理システムは自律制御を継続する。
上記各条件チェック(ステップS35、S38、S42)で、記述された停止判断ルールに基づいて、自律制御機能を停止する必要があると判断されると、プロセスは、ステップ43で始まる共通の自律制御停止処理フローに進む。停止の必要がなければ処理を終了する。自律制御停止処理は、停止判断ルールに記述された方法に基づいて行われる。停止判断ルールに、特定の判断手段13からの要求、或いは特定の制御対象に対する制御要求を停止するという記述が存在する場合には、停止判断部233は、要求処理部234の設定を変更し、要求処理機能に制限をかける。また、停止判断ルールに、特定の判断手段13に対して監視情報の提供を制限する、或いは、特定の制御対象の情報提供を制限するという記述が存在する場合には、停止判断部233は、情報提供部231の設定を変更し、情報提供機能に制限をかける。
上記実施形態の自律運用管理システムでは、停止判断ルールに記述された全ての停止処理が完了したら、停止判断部233は、処理を終了する。この停止処理は、停止判断部233や判断手段13などの直接的な要求によって自律制御を停止するのではなく、要求処理機能や情報提供機能に制限をかけることによって、部分的に自律制御機能を停止させるものである。また、この停止の情報は、計算機システムの管理者に通知される。このため、判断手段13の誤判断によってシステムの構成変更が行われることがないため、管理者による復旧作業が効率化できる。
次に、要求処理部234によって、判断手段13の制御機能を抑制する動作について説明する。図10は、停止判断部233から停止設定が行われた要求処理部234の動作をフローチャートで示す。要求処理部234は、判断手段13からワークフロー実行要求を受け付けると(ステップS51)、詳細な制御手順を生成する(ステップS52)。次いで、その制御手順による処理が、停止判断部233によって設定された拒否条件に該当するか否かをチェックする(ステップS53)。拒否された判断手段13からの制御要求である場合、或いは、拒否された制御対象への処理を含む場合は、このワークフロー実行要求を拒否し(ステップS55)、処理を終了する。また、そのような処理に該当しない場合には、生成した制御手順を実行する(ステップS54)。
次に、情報提供部231によって、判断手段13の制御機能を抑制する動作について説明する。図11は、停止判断部233によって停止設定が行われた情報提供部231の動作をフローチャートで示す。情報提供部231では、判断手段13から監視情報取得要求を受けたあと、情報収集部232から制御対象の情報を取得する。そこで、停止判断部233によって設定されたフィルタ条件をチェックする。情報の提供を制限している判断手段13からの要求である場合や、情報の提供を制限している制御対象の情報を含んでいる場合には、その情報を削除する、或いは、利用不可能であることを示す情報を付加して、提供すべき情報を生成する。これにより、判断手段13が誤判断を引き起こす元情報が断たれるため、誤ったシステム構成を未然に防止し、管理者による復旧作業を効率化することが可能になる。
上記実施形態では、自律制御システムの相互作用によって顕在化しにくいシステム管理上の問題を早期に発見し、発見後は部分的に自律制御機能を停止していくことで、問題の箇所を絞りこみ、管理者が復旧作業や運用管理ポリシを見直すことを容易にする。
次に、本発明の第2の実施形態について図面を参照して詳細に説明する。図12は、第2の実施形態に係る自律運用管理システムを示す。第1の実施形態と異なる点は、判断手段と実行手段とが同一の計算機上で動作する点である。その他の構成は、図1と同様である。自律運用管理システムは、判断手段及び実行手段を備える計算機50と、制御対象の複数の計算機30と、これらを接続するネットワーク40とから構成される。本実施形態の判断手段53及び実行手段54の構成は、それぞれ図2及び図3に示した判断手段13及び実行手段23の構成と同様である。判断手段53は、記憶装置55に記憶された運用管理ポリシ551を参照して、システムが実行すべき自律制御を判断し、実行手段54は、記憶装置55に記憶された停止判断ルール552に基づいて、自律運用停止の必要の有無を判断する。
次に、本実施形態の動作について説明する。始めに、サービスを運用するための運用管理ポリシ551と、自律運用を停止して人間の操作を介入させるための停止判断ルール552とを、入力装置51を介して記憶装置55に格納する。運用管理ポリシ551ができるだけ少ない記述でより多くの状況判断に対応できるように、実行手段54は、抽象化、集約化、仮想化された情報(以下では抽象化された情報と呼ぶ)を参照して、抽象化、集約化、仮想化されたワークフロー(以下では抽象化されたワークフローと呼ぶ)を実行する。実行手段54は、抽象化されたワークフローを詳細な制御手順に展開して実行し、制御対象から収集した情報から抽象化された情報を生成して、判断手段53に提供する。
判断手段53及び実行手段54の運用を開始することにより、運用管理ポリシに基づいた自律運用管理が開始する。監視情報、運用管理ポリシ、制御プログラムに不整合がなければ、人手を介すことなく、継続的に自律運用管理が実行される。
判断手段53における制御ループは、図6のフローチャートで示される。実行手段における監視情報提供処理は、図7のフローチャートで示される。ここで判断手段53に提供される情報は抽象化された情報を含む。実行手段54におけるワークフロー実行処理は、図8のフローチャートで示される。ここで判断手段が要求するワークフローは抽象化されたワークフローを含む。
次に、停止判断ルールに基づいて自律制御機能を停止する際の動作を示す。実行手段53における自律制御停止処理は図9のフローチャートで示される。ワークフローに付随した制約条件は、抽象化される前の情報を含む。停止判断部233では抽象化されてチェックできない条件に関し、停止判断ルール552が詳細な条件を指定することで補う。
次に、要求処理部234によって、判断手段53の制御機能を抑制する動作について説明する。 停止判断部233によって、停止設定が行われた要求処理部234の動作は図10のフローチャートで示される。抽象化されたワークフローは、要求処理部234で詳細な制御手順に展開されたあと(ステップS52)、実際に制御を行う上で拒否条件に違反がないか否かがチェックされる(ステップS53)。
次に、情報提供部231によって、判断手段13の制御機能を抑制する動作について説明する。 停止判断部233によって、停止設定が行われた情報提供部231の動作は、図11のフローチャートで示される。抽象化された情報に拒否条件を満たすような情報が含まれていないか否かがチェックされる(ステップS63)。
本実施形態では、抽象化、集約化された情報だけでは判断できない異常な状態を検知し、問題箇所と関連する自律制御機能を部分的に停止することで、管理者が運用管理ポリシや制御プログラムを改善していくことを容易にする。
次に、本発明の第1の実施形態に係る自律運用管理システムの具体的実施例について図面を参照して説明する。図13は、計算機システム上で、アプリケーションを運用するアプリケーション運用者と、サーバの管理を担当しているサーバ管理者がそれぞれ、計算機PC1(10)及びPC2(10)を使用し、リモートモで管理作業を行う状況を示している。計算機PC1、PC2はそれぞれ、それぞれの管理者が持つ運用管理ポリシに基づいて自律的に運用管理を継続するために、判断手段13を搭載している。各計算機PC1、PC2の判断手段13によって要求される監視情報取得要求や、ワークフロー実行要求は、別の計算機である管理サーバ20に送られる。管理サーバ20は、判断手段13から要求された内容を解釈して実行するために、実行手段23を搭載する。実行手段23は、ネットワーク40を介して、制御対象となるサーバ、host01(30)、host02(30)、host03(30)に制御コマンドを発行し、また、これらホスト30から構成情報や性能情報を集める。各管理者の計算機10上で動作する判断手段13と管理サーバ20上で動作する実行手段23とによって、それぞれの自律運用管理が実行されている。
ここで、アプリケーション運用者は、host03上でアプリケーションを稼動させており、サーバの負荷が軽いときには、アプリケーションの可用性を向上させるような制御を行うポリシを登録している。このポリシでは、サーバの負荷が軽いときには、例えば、同時に実行するスレッドの数を増加させる。逆に、サーバの負荷が高くなったときには、アプリケーションの動作制限を行うようなポリシも登録してある。このポリシでは、サーバの負荷が高くなったときには、例えば、同時に実行するスレッドの数を減らす。
一方、サーバ管理者は、host03を含むいくつかのサーバ30のメンテナンスをしており、各サーバ30の稼動を脅かすような異常を検知して、対処を行うようなポリシを登録している。このポリシは、例えば、アプリケーションがリソースを浪費していると、そのアプリケーションを再起動する。
上記のようなポリシによって自律運用管理が行われるとき、従来の自律運用管理システムでは、次のような問題が発生し得る。始めに、アプリケーション運用者の判断手段13が、自律的にアプリケーションの可用性を向上させる制御を行ったとする。この設定はメモリに保持され、ファイルなどに書き出されない一時的な設定情報である。しかし、この設定変更によって、アプリケーションの負荷が急激に上昇してしまったとする。アプリケーション運用者の判断手段13は、何れかの時点で負荷の上昇を検知して、この設定を元に戻す処理を起動する。このとき、同時にサーバ管理者の判断手段13は、負荷の情報を検知しており、その運用ポリシ161に従って、アプリケーションの再起動処理を実行する可能性がある。
どちらの要求が先に管理サーバ20の実行手段23に届くかは、事前に予測することができない。ここで、サーバ管理者の判断手段13による再起動処理が先に実行されたとすると、アプリケーションは初期状態に戻り、負荷も低い状態になる。これに遅れて、アプリケーション運用者の判断手段13からの設定変更要求が実行されると、この処理自体は問題なく終了し、通常通りの運用が開始される。
ここで問題となるのは、アプリケーション運用者の判断手段13とサーバ管理者の判断手段13の双方は、互いがどのような制御を実行したかを把握していないことである。 アプリケーション運用者の判断手段13は、サーバの負荷が下がった理由が再起動によるものであることを把握しておらず、サーバ管理者の判断手段13は、アプリケーションの負荷上昇がアプリケーションの自動的な設定変更によるものであることを把握していない。このため、この一連の制御は、繰り返し何度も実行される可能性がある。本来は、アプリケーションの設定変更のパラメタを見直す必要があると考えられるが、双方の自律制御機能は運用管理ポリシ通りに正しく動作しているため、このような現象が生じていること自体を把握することが難しい。この例は単純な例の一つであり、このような、一つの判断手段が他の判断手段の制御を把握できないことに起因する、想定外の自律制御シーケンスは一般的に存在し得る。
上記実施例の自律運用管理システムでは、次のような動作により、上記の問題を解消する。アプリケーションの設定変更、及び、アプリケーションの再起動要求は何れも、管理サーバ20の実行手段23の要求処理部(234、図3)に届く。要求処理部234では、これらのワークフロー実行要求を詳細な制御手順に展開し、要求実行部235に入力する。
ここで、要求実行部235は、停止判断部233に要求の実行を開始することを通知する。停止判断部233は、要求の内容から、停止判断ルールを検索し、監視タスクを起動する。監視タスクは、要求実行部235より通知される要求処理の状態と、情報収集部232を介して取得する監視情報とを継続的にチェックする。
図14は、アプリケーション運用管理者の運用管理ポリシ161、及び、“removeThread”処理に対応する事前条件及び停止判断ルールを示す。 “removeThread”は、アプリケーションの負荷を軽減することを目的とした設定変更処理であり、事前条件では、運用管理ポリシ161の判断部と同じ条件である、サーバhost03のCPU負荷が90%以上で、現在のスレッド数制限が100であるという条件を記述している。
アプリケーション運用者のみがシステム管理を行うという環境であれば、事前条件違反は起こりにくいが、サーバ管理者など他の管理者による管理も介在する可能性がある場合では、実行時に事前条件が満たされているという保障はない。“removeThread”処理に対応する停止判断ルールでは、事前条件に違反した項目がある場合には、アプリケーション運用者の判断手段13に対してhost03の情報提供を制限し、host03に対する制御を制限し、アプリケーション運用者に通知するということが定義されている。サーバ管理者の判断手段13によって、“removeThread”処理が実行される前にアプリケーション再起動処理が実行された場合には、このアプリケーションのスレッド数の設定は初期状態に戻り、負荷の問題も解消されるため、事前条件が満たされないことがわかる。したがって、停止判断ルールに基づいた停止処理が施され、アプリケーション運用者の判断手段13のhost03への制御が制限される。アプリケーション運用者への通知によって、何らかの外部要因によって、意図した状況と異なる状況になっていることを知らせ、アプリケーション運用者が、問題を解析する。アプリケーション運用者が、ポリシ等を修正したあと、実行手段23の停止設定を解除することで、自律制御を再開させる。復旧に至るまでは、host03のみが自律制御の対象外となり、それ以外の通常の自動化された業務は継続されて実行される。
次に、本発明の第2の実施形態に係る自律運用管理システムにおける具体的実施例を説明する。図15は、この具体例を示すもので、システム上にあるアプリケーションを利用してサービスを運用しているサービス運用管理者が、管理サーバ50を通じてシステム管理を行っている状況を示している。管理サーバ50には判断手段53と実行手段54とが搭載され、サービス運用管理者は、仮想化された情報で制御可能な範囲のサービス運用管理ポリシ551を判断手段53に関連して登録している。
例えば、サービスの運用管理者は、サービスの可用性を向上させるため、負荷分散対象サーバ30の負荷上昇/降下に応じて、サーバの追加/削除を行うようなポリシを用意していたとする。図16に、サーバ追加/削除の運用管理ポリシ552の例を示す。アプリケーションの負荷は、CPU利用率やクライアント数のような具体的な数値データではなく、アプリケーション負荷のような抽象化された形で表記される。例えば、サーバの追加/削除を指示する制御コマンドも、“addHost”、“removeHost”で表され、具体的にどのサーバ30を追加するか、どのような手順で追加するかといった情報は、ポリシ記述には現れない。情報を仮想化することによって、ポリシの記述は単純化され、サービス運用管理者の負担は軽減される。しかし、上記のようなポリシによって自律運用管理が行われるとき、従来の自律運用管理システムでは、次のような問題が発生し得る。この運用管理ポリシにおいて、サービスの運用管理者は、“addHost”を呼び出すことによって、アプリケーションの負荷分散対象のサーバが新規に割り当てられ、アプリケーション負荷が低下するという効果を期待する。
ところが、従来の自律運用管理システムでは、実行手段54によって、“addHost”を解釈して実行するとき、制御プログラムにバグがあり、プログラム自体は正常終了するにもかかわらず、期待した効果が得られた旨のデータが得られないとすると、判断手段53では、この不整合に対処することができなくなってしまう。図16の運用管理ポリシ551によって“addHost”が起動し、ワークフローが正常終了したにもかかわらず、アプリケーションの負荷が“high”のままであると、繰り返し何度もこのポリシによる制御が行われることになる。 アプリケーションの負荷が実際に継続して“high”の場合には、この動作は正しいが、制御プログラムのバグである場合には、問題を特定してデバッグする必要がある。
しかし、判断手段53によるポリシ制御は正常に動作しているため、このような状況を発見することは難しい。この例は単純な例の一つであり、制御プログラムや監視情報を仮想化、抽象化、集約化することに起因する、想定外の自律制御シーケンスは一般的に存在し得る。
上記実施例では、次のような動作により、上記の問題を解消する。図16の運用管理ポリシ551で、起動される“addHost”のワークフロー実行要求は、実行手段54の要求処理部(234、図3)に届く。 要求処理部234は、ワークフロー実行要求を詳細な制御手順に展開し、要求実行部235に詳細な制御手順を送る。ここで、要求実行部235は、停止判断部233に要求の実行を開始することを通知する。停止判断部233は、要求の内容から、停止判断ルールを検索し、監視タスクを起動する。監視タスクは、要求実行部235から通知される要求処理の状態と情報収集部232を介して取得する監視情報とを継続的にチェックする。
図17は、負荷分散対象サーバ30を追加した際の停止判断ルールを示す。停止判断ルールは、実行手段54でチェックされるため、ポリシ記述とは異なり、抽象化、集約化されていない情報に対して、具体的な制約条件が設けられる。ここでは、ポリシ記述に現れるアプリケーション負荷の実体が、host03のCPU利用率である場合を示している。実行手段54は、host03のCPU利用率が90%以上のとき、アプリケーションの負荷が“high”であると、判断手段53に通知する。
実行手段54は、アプリケーション負荷がhighであるという状態が、host03のCPU利用率が90%以上であることに対応することを把握しているため、事前条件、事後条件にhost03のCPU利用率に関する制約を加える。 また、“addHost”の効果として、host04のIPアドレスが10.2.0.3から10.1.3.2に変更されるということから、“addHost”の効果を事前条件、事後条件に加えることができる。これらの情報は、制御プログラムを展開する過程で自動的に生成することが可能であり、必要に応じて、人間が条件を追加して設定する。
制御プログラムのバグでも、プログラムは正常終了するが、システムが持つキャッシュ情報などによって、即座に設定が更新されないこともあるため、host04のIPアドレスが変更しなかった場合には、事後条件違反となり、要求処理部234において判断手段53からの要求に対する応答を停止し、判断手段53にアプリケーション負荷の情報を通知しないことにより、判断手段53による制御を抑制する。
また、抽象化、集約化された情報からhost04が追加可能であると判断し、“addHost”が要求され、実行手段54において、実際にIPアドレスの変更処理などにプログラムを展開した際に、追加可能でないことが発覚する場合がある。このような場合には、事前条件違反となり、要求処理部234において判断部からの要求を停止し、判断手段53にアプリケーション負荷の情報を通知しないことにより、判断手段53による制御を抑制、停止する。制御停止後に、サービス運用管理者が運用管理ポリシ551とそのポリシによって起動される制御プログラムの整合性に関して検査を行い、問題を究明し、ポリシ記述の改善、制御プログラムのデバッグを行う。
以上、本発明をその好適な実施形態例に基づいて説明したが、本発明の自律運用管理システム及び方法は、上記実施形態例の構成にのみ限定されるものではなく、上記実施形態例の構成から種々の修正及び変更を施したものも、本発明の範囲に含まれる。
本発明は、データセンタや企業システムを管理する自律運用管理ミドルウェアといった用途に適用できる。また、そのようなミドルウェアのデバッグツールとして利用することもできる。
本発明の第1の実施形態に係る自律運用管理システムの構成を示すブロック図である。 判断手段の詳細な構成を示すブロック図である。 実行手段の詳細な構成を示すブロック図である。 運用管理ポリシ、監視設定情報、ワークフロー定義の例を示す表である。 ワークフロー定義と制約条件、及び、停止判断ルールの例を示す表である。 判断手段における制御ループを示したフローチャートである。 実行手段における監視情報取得提供処理を示したフローチャートである。 実行手段におけるワークフロー実行処理を示したフローチャートである。 実行手段における自律制御停止判断と停止処理を示したフローチャートである。 停止判断部によって自律制御の停止設定がされた要求処理部の動作を示すフローチャートである。 停止判断部によって自律制御の停止設定がされた情報提供部の動作を示すフローチャートである。 本発明の第2の実施形態に係る自律運用管理システムの構成を示すブロック図である。 発明の第1の実施形態に係る自律運用管理システムの具体例を示すブロック図である。 図13の運用管理システムにおける運用管理ポリシのルールと停止判断ルールの例を示す表である。 発明の第2の実施形態に係る自律運用管理システムの具体例を示すブロック図である。 図15の自律運用管理システムにおける運用管理ポリシの例を示す表である。 図15の自律運用管理システムにおける停止判断ルールの例を示す表である。
符号の説明
10、20、30、50:計算機(サーバ)
11、21、51:入力装置
12、22:処理装置
13、53:判断手段
131:情報監視部
132:制御決定部
133:制御要求部
14、24、56:通信装置
15、25、52:表示装置
16、26、55:記憶装置
161、551:運用管理ポリシ
162:監視設定情報
163:ワークフロー定義
23、54:実行手段
231:情報提供部
232:情報収集部
233:停止判断部
234:要求処理部
235:要求実行部
261、552:停止判断ルール
262:制約条件
40:ネットワーク

Claims (28)

  1. 制御対象の状態を監視する状態監視部と、該状態監視部による監視情報とポリシ記憶部に記憶された運用管理ポリシとに基づいて制御対象に必要な制御を決定する制御決定部と、該制御決定部の決定に基づいて制御対象を制御する制御実行部とを備える自律運用管理システムにおいて、
    制御対象の自律制御を停止する停止条件を記述した停止判断ルールを記憶するルール記憶装置と、前記監視情報及び停止判断ルールに基づいて停止条件の成立を検知する停止判断手段とを備え、
    前記停止判断手段は、前記停止条件の成立を検知すると、前記制御実行部による制御実行機能、及び、前記状態監視部から前記制御決定部に与える監視情報の少なくとも一方を制限することを特徴とする自律運用管理システム。
  2. 前記停止判断手段は、前記停止条件が成立すると、システムの管理者に警報を発生する、請求項1に記載の自律管理システム。
  3. ネットワークにより接続された複数の計算機を自律的に運用管理する自律運用管理システムにおいて、
    システム内の管理対象の監視情報を収集する情報収集手段と、
    前記情報収集手段によって収集された監視情報と記憶装置に記憶された運用管理ポリシとに基づいて自律的に制御を決定する制御決定手段と、
    前記制御決定手段からの制御要求に基づいて前記管理対象の制御を実行する制御実行手段と、
    前記制御実行手段による制御の実行状態、及び、前記情報収集手段によって収集された監視情報の少なくとも一方と、記憶装置に記憶された停止条件とに基づいて、自律制御停止の判断をする停止判断手段とを備え、
    前記停止判断手段は、前記自律制御停止の判断をしたときには、前記制御実行手段による制御実行機能、及び、前記制御決定手段に与える監視情報の少なくとも一方を制限することを特徴とする自律運用管理システム。
  4. 前記停止条件が、前記運用管理ポリシに記述できない機密保持された情報、及び、システム内の機器に依存する設定情報の制約の少なくとも一方を含む、請求項3に記載の自律運用管理システム。
  5. 前記停止条件が、前記運用管理ポリシで想定した制御スクリプトの実行効果と実際の実行効果とが異なる場合を含む、請求項3に記載の自律運用管理システム。
  6. 前記停止判断手段は、前記自律制御停止の判断をしたときには、前記情報収集手段から前記制御決定手段に提供される全ての監視情報の提供を停止させる、請求項3に記載の自律運用管理システム。
  7. 前記停止判断手段は、前記自律制御停止の判断をしたときには、前記情報収集手段から前記制御決定手段に提供される監視情報の一部の提供を停止させる、請求項3に記載の自律運用管理システム。
  8. 前記停止判断手段は、前記自律制御停止の判断をしたときには、前記情報収集手段から前記制御決定手段に提供される監視情報に、制御停止の対象を示す情報を加えて提供させる、請求項3に記載の自律運用管理システム。
  9. 前記停止判断手段は、少なくともその一部がワークフローの実行状態に応じて起動される監視タスクによって実現される、請求項3に記載の自律運用管理システム。
  10. 前記制御実行手段は、前記監視情報に基づいて制御のワークフローを実行するにあたり、該ワークフローの実行に先だって、該ワークフローのために定義された事前条件、及び、前記運用管理ポリシによって制御が決定された際の判断条件の少なくとも一方が満たされていることを確認する、請求項3に記載の自律運用管理システム。
  11. 前記実行手段は、前記監視情報に基づいて制御のワークフローを実行した後に、該ワークフローに定義された事後条件が満たされているか否かを判定する、請求項3に記載の自律運用管理システム。
  12. 前記停止判断手段は、前記停止条件が成立すると、システムの管理者に警報を発生する、請求項1に記載の自律管理システム。
  13. ネットワークにより接続された複数の計算機から成るシステムを自律的に運用管理する方法において、
    システムの監視装置から得られる監視情報及び記憶装置に記憶された運用管理ポリシに基づいて、制御実行手段が制御のワークフローを実行するステップと、
    前記制御実行手段が、前記制御のワークフローを実行するにあたり、前記監視情報と、記憶装置に記憶された、制御対象の自律制御を停止する停止条件を記述した停止判断ルールとに基づいて、停止条件の成立の有無を検知するステップと、
    前記停止条件の成立を検知すると、前記制御実行手段が実行する制御実行機能、及び、前記監視装置が前記制御実行手段に与える監視情報の少なくとも一方を制限するステップとを備えることを特徴とする自律運用管理方法。
  14. 前記停止条件が、前記運用管理ポリシで想定した制御スクリプトの実行効果と実際の実行効果とが異なる場合を含む、請求項13に記載の自律運用管理方法。
  15. 前記停止条件の成立を検知すると、前記監視装置が前記制御実行手段に提供する全ての情報の提供を停止する、請求項13に記載の自律運用管理方法。
  16. 前記停止条件の成立を検知すると、前記監視装置が前記制御決定手段に提供する情報の一部の提供を停止する、請求項13に記載の自律運用管理方法。
  17. 前記停止条件の成立を検知すると、前記監視装置が、前記制御実行手段に提供する情報に、制御停止の対象を示す情報を加えて提供する、請求項13に記載の自律運用管理方法。
  18. 前記停止条件の検知ステップを、ワークフローの実行状態に応じて起動される監視タスクによって実現する、請求項13に記載の自律運用管理方法。
  19. 前記制御実行手段が、前記ワークフローの実行ステップに先だって、前記ワークフローのために定義された事前条件、及び、前記運用管理ポリシによって制御が決定された際の判断条件の少なくとも一方が満たされていることを確認する、請求項13に記載の自律運用管理方法。
  20. 前記制御実行手段は、前記停止条件の成立を検知すると、システムの管理者に警報を発生する、請求項13に記載の自律管理方法。
  21. ネットワークにより接続された複数の計算機を含むシステムを自律的に運用管理する制御コンピュータのためのプログラムであって、前記制御コンピュータに、
    システムの監視装置から得られる監視情報及び記憶装置に記憶された運用管理ポリシに基づいて、制御のワークフローを実行する処理と、
    前記制御のワークフローを実行する処理にあたり、前記監視情報と、記憶装置に記憶された、制御対象の自律制御を停止する停止条件を記述した停止判断ルールとに基づいて、停止条件の成立の有無を検知する処理と、
    前記停止条件の成立を検知すると、前記制御のワークフローの実行機能、及び、前記監視装置から前記制御のワークフローを実行する処理の際に与える監視情報の少なくとも一方を制限する処理とを実行させることを特徴とするプログラム。
  22. 前記停止条件が、前記運用管理ポリシで想定した制御スクリプトの実行効果と実際の実行効果とが異なる場合を含む、請求項21に記載のプログラム。
  23. 前記停止条件の成立を検知すると、前記監視装置から前記制御実行手段に提供される全ての監視情報の提供を停止する処理を更に前記制御コンピュータに実行させる、請求項21に記載のプログラム。
  24. 前記停止条件の成立を検知すると、前記監視装置から前記制御決定手段に提供される監視情報の一部の提供を停止する処理を更に前記制御コンピュータに実行させる、請求項21に記載のプログラム。
  25. 前記停止条件の成立を検知すると、前記監視装置から前記制御実行手段に提供される情報に、制御停止の対象を示す情報を加えて提供する処理を更に前記制御コンピュータに実行させる、請求項21に記載のプログラム。
  26. 前記停止条件の検知処理を、ワークフローの実行状態に応じて起動される監視タスクプログラムによって実現する、請求項21に記載のプログラム。
  27. 前記制御のワークフローを実行する処理に先だって、該ワークフローのために定義された事前条件、及び、前記運用管理ポリシによって制御が決定された際の判断条件の少なくとも一方が満たされていることを確認する処理を更に前記制御コンピュータに実行させる、請求項21に記載のプログラム。
  28. 前記停止条件の成立を検知すると、システムの管理者に警報を発生する処理を更に前記制御コンピュータに実行させる、請求項21に記載のプログラム。
JP2005181659A 2005-06-22 2005-06-22 自律運用管理システム、自律運用管理方法及びプログラム Expired - Fee Related JP4945935B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2005181659A JP4945935B2 (ja) 2005-06-22 2005-06-22 自律運用管理システム、自律運用管理方法及びプログラム
US11/922,789 US7818421B2 (en) 2005-06-22 2006-06-19 Autonomous handling management system, autonomous handling management method, and program
PCT/JP2006/312232 WO2006137356A1 (ja) 2005-06-22 2006-06-19 自律運用管理システム、自律運用管理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005181659A JP4945935B2 (ja) 2005-06-22 2005-06-22 自律運用管理システム、自律運用管理方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2007004337A true JP2007004337A (ja) 2007-01-11
JP4945935B2 JP4945935B2 (ja) 2012-06-06

Family

ID=37570384

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005181659A Expired - Fee Related JP4945935B2 (ja) 2005-06-22 2005-06-22 自律運用管理システム、自律運用管理方法及びプログラム

Country Status (3)

Country Link
US (1) US7818421B2 (ja)
JP (1) JP4945935B2 (ja)
WO (1) WO2006137356A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008152910A1 (ja) * 2007-06-11 2008-12-18 Fujitsu Limited ワークフロー定義変更プログラム、ワークフロー定義変更方法およびワークフロー定義変更装置
JPWO2008152910A1 (ja) * 2007-06-11 2010-08-26 富士通株式会社 ワークフロー定義変更プログラムおよびワークフロー定義変更方法
JP2012203681A (ja) * 2011-03-25 2012-10-22 Fujitsu Ltd 監視方法、情報処理装置および監視プログラム
JP2014191603A (ja) * 2013-03-27 2014-10-06 Fujitsu Ltd ワークフロー制御プログラム、装置および方法
US9973388B2 (en) 2014-04-24 2018-05-15 Fujitsu Limited Server information management apparatus, non-transitory computer-readable recording medium having stored therein server information management program, and server information management method

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4976672B2 (ja) * 2005-09-13 2012-07-18 キヤノン株式会社 ネットワークデバイス装置、データ処理方法及びコンピュータプログラム
JP4757175B2 (ja) * 2006-11-24 2011-08-24 キヤノン株式会社 情報処理装置及びアプリケーション管理方法
KR100849066B1 (ko) * 2007-02-06 2008-07-30 주식회사 하이닉스반도체 실린더형 엠아이엠 캐패시터 형성방법
US8868441B2 (en) 2007-12-28 2014-10-21 International Business Machines Corporation Non-disruptively changing a computing environment
US8990810B2 (en) 2007-12-28 2015-03-24 International Business Machines Corporation Projecting an effect, using a pairing construct, of execution of a proposed action on a computing environment
US8375244B2 (en) 2007-12-28 2013-02-12 International Business Machines Corporation Managing processing of a computing environment during failures of the environment
US8677174B2 (en) 2007-12-28 2014-03-18 International Business Machines Corporation Management of runtime events in a computer environment using a containment region
US8447859B2 (en) 2007-12-28 2013-05-21 International Business Machines Corporation Adaptive business resiliency computer system for information technology environments
US8782662B2 (en) 2007-12-28 2014-07-15 International Business Machines Corporation Adaptive computer sequencing of actions
US20090172149A1 (en) 2007-12-28 2009-07-02 International Business Machines Corporation Real-time information technology environments
US8428983B2 (en) 2007-12-28 2013-04-23 International Business Machines Corporation Facilitating availability of information technology resources based on pattern system environments
US8346931B2 (en) 2007-12-28 2013-01-01 International Business Machines Corporation Conditional computer runtime control of an information technology environment based on pairing constructs
US8365185B2 (en) * 2007-12-28 2013-01-29 International Business Machines Corporation Preventing execution of processes responsive to changes in the environment
US8326910B2 (en) 2007-12-28 2012-12-04 International Business Machines Corporation Programmatic validation in an information technology environment
US9558459B2 (en) 2007-12-28 2017-01-31 International Business Machines Corporation Dynamic selection of actions in an information technology environment
US8682705B2 (en) 2007-12-28 2014-03-25 International Business Machines Corporation Information technology management based on computer dynamically adjusted discrete phases of event correlation
US8826077B2 (en) 2007-12-28 2014-09-02 International Business Machines Corporation Defining a computer recovery process that matches the scope of outage including determining a root cause and performing escalated recovery operations
US8341014B2 (en) 2007-12-28 2012-12-25 International Business Machines Corporation Recovery segments for computer business applications
US8763006B2 (en) 2007-12-28 2014-06-24 International Business Machines Corporation Dynamic generation of processes in computing environments
US8751283B2 (en) 2007-12-28 2014-06-10 International Business Machines Corporation Defining and using templates in configuring information technology environments
US7840656B2 (en) * 2008-04-30 2010-11-23 International Business Machines Corporation Policy control architecture for blade servers upon inserting into server chassis
US8862491B2 (en) 2009-01-15 2014-10-14 International Business Machines Corporation System and method for creating and expressing risk-extended business process models
WO2011128712A1 (en) 2010-04-12 2011-10-20 Stellenbosch University Biofuel production
US9201723B2 (en) 2011-06-27 2015-12-01 International Business Machines Corporation Fault handling in a distributed IT environment
WO2020001652A1 (en) * 2018-06-29 2020-01-02 Yunding Network Technology (Beijing) Co., Ltd. Systems and methods for informarion management

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11120147A (ja) * 1997-10-17 1999-04-30 Hitachi Ltd 負荷分散制御方法
JP2005004723A (ja) * 2003-05-20 2005-01-06 Hitachi Ltd 管理項目管理システム及び方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5951609A (en) * 1997-05-29 1999-09-14 Trw Inc. Method and system for autonomous spacecraft control
JP2002334194A (ja) * 2001-02-09 2002-11-22 Internatl Business Mach Corp <Ibm> ワークフロー管理システムにおいて選択的コマンド制御を提供する方法、システム、プログラム
AU2002231756A1 (en) * 2001-02-22 2002-09-24 International Business Machines Corporation Controlling the creation of process instances in workflow management systems
US7424717B2 (en) * 2002-05-01 2008-09-09 Bea Systems, Inc. Systems and methods for business process plug-in development
AU2003273853A1 (en) * 2002-08-13 2004-03-03 International Business Machines Corporation An adaptive management method and system with automatic dependency resolution
JP4345313B2 (ja) 2003-01-24 2009-10-14 株式会社日立製作所 ポリシーに基づいたストレージシステムの運用管理方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11120147A (ja) * 1997-10-17 1999-04-30 Hitachi Ltd 負荷分散制御方法
JP2005004723A (ja) * 2003-05-20 2005-01-06 Hitachi Ltd 管理項目管理システム及び方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008152910A1 (ja) * 2007-06-11 2008-12-18 Fujitsu Limited ワークフロー定義変更プログラム、ワークフロー定義変更方法およびワークフロー定義変更装置
WO2008152687A1 (ja) * 2007-06-11 2008-12-18 Fujitsu Limited ワークフロー定義変更プログラム、ワークフロー定義変更方法およびワークフロー定義変更装置
JPWO2008152910A1 (ja) * 2007-06-11 2010-08-26 富士通株式会社 ワークフロー定義変更プログラムおよびワークフロー定義変更方法
JP5229223B2 (ja) * 2007-06-11 2013-07-03 富士通株式会社 ワークフロー定義変更プログラムおよびワークフロー定義変更方法
JP2012203681A (ja) * 2011-03-25 2012-10-22 Fujitsu Ltd 監視方法、情報処理装置および監視プログラム
US8904234B2 (en) 2011-03-25 2014-12-02 Fujitsu Limited Determination of items to examine for monitoring
JP2014191603A (ja) * 2013-03-27 2014-10-06 Fujitsu Ltd ワークフロー制御プログラム、装置および方法
US9973388B2 (en) 2014-04-24 2018-05-15 Fujitsu Limited Server information management apparatus, non-transitory computer-readable recording medium having stored therein server information management program, and server information management method

Also Published As

Publication number Publication date
US7818421B2 (en) 2010-10-19
WO2006137356A1 (ja) 2006-12-28
US20090037574A1 (en) 2009-02-05
JP4945935B2 (ja) 2012-06-06

Similar Documents

Publication Publication Date Title
JP4945935B2 (ja) 自律運用管理システム、自律運用管理方法及びプログラム
US11307939B2 (en) Low impact snapshot database protection in a micro-service environment
WO2012056596A1 (ja) 計算機システム及び処理制御方法
CN108427616B (zh) 后台程序监控方法及监控装置
JP4609380B2 (ja) 仮想サーバ管理システムおよびその方法ならびに管理サーバ装置
US11734100B2 (en) Edge side filtering in hybrid cloud environments
US8589727B1 (en) Methods and apparatus for providing continuous availability of applications
US20080235678A1 (en) Methods and Apparatus for Patching Software in Accordance with Instituted Patching Policies
US11507479B2 (en) High availability for a relational database management system as a service in a cloud platform
US11157373B2 (en) Prioritized transfer of failure event log data
US9158606B2 (en) Failure repetition avoidance in data processing
CA2504333A1 (en) Programming and development infrastructure for an autonomic element
US8112518B2 (en) Redundant systems management frameworks for network environments
US20110173319A1 (en) Apparatus and method for operating server using virtualization technique
JP6009089B2 (ja) 計算機システムを管理する管理システム及びその管理方法
EP3591530B1 (en) Intelligent backup and recovery of cloud computing environment
US8276150B2 (en) Methods, systems and computer program products for spreadsheet-based autonomic management of computer systems
US20090089772A1 (en) Arrangement for scheduling jobs with rules and events
US11290330B1 (en) Reconciliation of the edge state in a telemetry platform
US11182131B2 (en) System and method that support production management
US11700178B2 (en) System and method for managing clusters in an edge network
WO2022009438A1 (ja) サーバメンテナンス制御装置、システム、制御方法及びプログラム
JP4883492B2 (ja) 仮想マシン管理システムおよび計算機、並びに、プログラム
CN114816662A (zh) 应用于Kubernetes的容器编排方法和系统
US8595349B1 (en) Method and apparatus for passive process monitoring

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080514

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20100223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110816

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111017

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120207

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120220

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150316

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4945935

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees