JP2005346204A - 自律制御プログラム及びその記録媒体、自律制御装置並びに自律制御方法 - Google Patents

自律制御プログラム及びその記録媒体、自律制御装置並びに自律制御方法 Download PDF

Info

Publication number
JP2005346204A
JP2005346204A JP2004162442A JP2004162442A JP2005346204A JP 2005346204 A JP2005346204 A JP 2005346204A JP 2004162442 A JP2004162442 A JP 2004162442A JP 2004162442 A JP2004162442 A JP 2004162442A JP 2005346204 A JP2005346204 A JP 2005346204A
Authority
JP
Japan
Prior art keywords
policy
autonomous control
information processing
server
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004162442A
Other languages
English (en)
Other versions
JP4308086B2 (ja
Inventor
Masazumi Matsubara
正純 松原
Akira Katsuno
昭 勝野
Toshihiko Hirabayashi
利彦 平林
Yasumasa Oda
泰正 小田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2004162442A priority Critical patent/JP4308086B2/ja
Priority to DE102004046046A priority patent/DE102004046046B4/de
Priority to GB0421446A priority patent/GB2414824B/en
Priority to US10/951,932 priority patent/US7680914B2/en
Priority to KR1020040082332A priority patent/KR100647179B1/ko
Publication of JP2005346204A publication Critical patent/JP2005346204A/ja
Application granted granted Critical
Publication of JP4308086B2 publication Critical patent/JP4308086B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0659Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0866Checking the configuration
    • H04L41/0873Checking configuration conflicts between network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0893Assignment of logical groups to network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0894Policy-based network configuration management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5003Managing SLA; Interaction between SLA and QoS
    • H04L41/5009Determining service level performance parameters or violations of service level contracts, e.g. violations of agreed response time or mean time between failures [MTBF]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5003Managing SLA; Interaction between SLA and QoS
    • H04L41/5009Determining service level performance parameters or violations of service level contracts, e.g. violations of agreed response time or mean time between failures [MTBF]
    • H04L41/5012Determining service level performance parameters or violations of service level contracts, e.g. violations of agreed response time or mean time between failures [MTBF] determining service availability, e.g. which services are available at a certain point in time
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/091Measuring contribution of individual network components to actual service level

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Hardware Redundancy (AREA)
  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

【課題】ネットワークにより接続されたサーバ、ストレージ及びネットワーク装置から構成される自律制御システムで、制御要件(ポリシー)に応じて柔軟な自律制御を行うこと。
【解決手段】ポリシーDB102などに各種ポリシーを記憶し、システムを構成する各ノードが他のノードと連携するとともに、ポリシーに基づいて自律制御を行う。また、予備のリソースを共有プール、ベアメタルプール及びスタンバイプールを用いて管理し、障害時や性能劣化時にワークグループシステムリソースマネジャ105がスタンバイプール、ベアメタルプールの順に予備のリソースを選択する。
【選択図】 図4

Description

この発明は、ネットワークにより接続され複数の情報処理装置から構成される情報処理システムを自律制御する自律制御プログラム及びその記録媒体、自律制御装置並びに自律制御方法に関し、特に、情報処理システムの制御要件(ポリシー)にしたがって柔軟な自律制御を行うことができる自律制御プログラム及びその記録媒体、自律制御装置並びに自律制御方法に関するものである。
従来、ITインフラストラクチャ・システムにおいては、サーバ、ストレージ、ネットワークなどのリソースは別々に管理されており、障害や急激な負荷変動が検出された場合、サーバ、ストレージ、ネットワーク各装置からの障害情報、負荷情報を基に人手により障害個所の特定、ボトルネック分析、システム再設計・検証、対処が行われていた。
しかし、システムの大規模化やシステム構成の複雑化にともない、従来の人手による対応では、障害や急激な負荷変動が発生した際の対応に多くの時間と作業工数が必要となり、ひいてはオペミス等によるトラブルの発生等によるTCOの増加を招いていた。
そこで、システムに障害が発生した際の復旧や急激な負荷変動が発生した際のシステムの再構成を自動的に行う自律制御システムが開発されている(例えば、特許文献1及び非特許文献1参照。)。
自律制御システムでは、サーバ、ストレージ、ネットワークなどのリソースの管理を一元化し、障害や急激な負荷変動の検出、分析、システム再設計、検証、対処を自動的に行うことによって、人手を介さずに24時間365日とまる事の無いシステムの実現を目指している。
特開2001−265726号公報 「Server Technology」、[平成16年4月14日検索]、インターネット<URL:http://www.ibm.com/ibm/licensing/patents/server.shtml>
しかしながら、従来の自律制御システムでは、システムの復旧や再配置をシステムの制御要件(ポリシー)に基づいて柔軟に行うことができないという問題があった。例えば、障害からの回復や負荷変動への対応をできるだけ高速に行う場合と、リソースをできるだけ有効活用する場合とでは、システムの復旧や再配置の方式を変える必要があるが、従来の自律制御システムでは復旧や再配置の方式を変えることができないという問題があった。
この発明は、上述した従来技術による問題点を解消するためになされたものであり、情報処理システムの制御要件(ポリシー)にしたがって柔軟な自律制御を行うことができる自律制御プログラム及びその記録媒体、自律制御装置並びに自律制御方法を提供することを目的とする。
上述した課題を解決し、目的を達成するため、本発明は、ネットワークにより接続された複数の情報処理装置から構成される情報処理システムを自律制御する自律制御プログラムであって、前記情報処理システムを管理するにあたっての要件であるポリシーを記憶した記憶装置から該ポリシーを読み出すポリシー読出手順と、前記ポリシー読出手順により読み出されたポリシーに基づいて自律制御を行う制御実行手順と、をコンピュータに実行させることを特徴とする。
また、本発明は、ネットワークにより接続された複数の情報処理装置から構成される情報処理システムを自律制御する自律制御プログラムを記録したコンピュータ読み取り可能な記録媒体であって、前記情報処理システムを管理するにあたっての要件であるポリシーを記憶した記憶装置から該ポリシーを読み出すポリシー読出手順と、前記ポリシー読出手順により読み出されたポリシーに基づいて自律制御を行う制御実行手順と、をコンピュータに実行させる自律制御プログラムを記録したことを特徴とする。
また、本発明は、ネットワークにより接続された複数の情報処理装置から構成される情報処理システムを自律制御する自律制御装置であって、前記情報処理システムを管理するにあたっての要件であるポリシーを記憶したポリシー記憶手段と、前記ポリシー記憶手段により記憶されたポリシーに基づいて自律制御を行う制御実行手段と、を備えたことを特徴とする。
また、本発明は、ネットワークにより接続された複数の情報処理装置から構成される情報処理システムを自律制御する自律制御方法であって、前記情報処理システムを管理するにあたっての要件であるポリシーを記憶した記憶装置から該ポリシーを読み出すポリシー読出工程と、前記ポリシー読出工程により読み出されたポリシーに基づいて自律制御を行う制御実行工程と、を含んだことを特徴とする。
かかる発明によれば、情報処理システムを管理するにあたっての要件であるポリシーを記憶し、記憶したポリシーに基づいて自律制御を行うよう構成したので、ポリシーを変更することによって異なる方式の自律制御を行うことができる。
また、本発明は、上記発明において、前記情報処理システムは、提供するサービスのサービスモデルを構成する複数のサービス階層の各階層にリソースである情報処理装置を割り当て、利用されていない予備のリソースを集めて共有プールとして管理し、共有プールの中のリソースのうち各サービス階層で利用可能であると判定されたリソースをサービス階層ごとに集めてベアメタルプールとして管理し、ベアメタルプールの中から選択して各サービス階層での利用に必要な準備を完了したリソースをサービス階層ごとに集めてスタンバイプールとして管理し、前記制御実行手順は、スタンバイプール、ベアメタルプール、共有プールの順に必要な予備のリソースを探して自律制御を行うことを特徴とする。
この発明によれば、提供するサービスのサービスモデルを構成する複数のサービス階層の各階層にリソースである情報処理装置を割り当て、利用されていない予備のリソースを集めて共有プールとして管理し、共有プールの中のリソースのうち各サービス階層で利用可能であると判定されたリソースをサービス階層ごとに集めてベアメタルプールとして管理し、ベアメタルプールの中から選択して各サービス階層での利用に必要な準備を完了したリソースをサービス階層ごとに集めてスタンバイプールとして管理し、スタンバイプール、ベアメタルプール、共有プールの順に必要な予備のリソースを探して自律制御を行うよう構成したので、スタンバイプールを用いて障害からの回復や負荷変動への対応を高速に行うことができる。
本発明によれば、ポリシーを変更することによって異なる方式の自律制御を行うので、ポリシーにしたがって柔軟な自律制御を行うことができるという効果を奏する。
また、本発明によれば、スタンバイプールを用いて障害からの回復や負荷変動への対応を高速に行うので、効率的な自律制御を実現することができるという効果を奏する。
以下に添付図面を参照して、この発明に係る自律制御プログラム及びその記録媒体、自律制御装置並びに自律制御方法の好適な実施例を詳細に説明する。
まず、本実施例に係る自律制御の概念について図1〜図3を用いて説明する。具体的には、本実施例に係る自律制御ループの概念及び本実施例に係る自律制御におけるリソースプールの概念について説明する。
図1は、本実施例に係る自律制御ループの概念を説明するための説明図である。同図に示すように、本実施例に係る自律制御は、「監視・計測」及び「操作」のループと「分析」及び「設計・検証」の2つのループで構成され、制御要件(ポリシー)と知識データベースを基にそれぞれのフェーズを実行する。
「監視・計測」フェーズでは、障害など稼働状況の監視や負荷状況の計測を行い、予め定義した手続きなどで即時対処可能な場合は「操作」フェーズに対処方法の指示、実行依頼を行う。一方、即時対処不可の場合は「分析」フェーズに障害情報・負荷情報を通知する。
「分析」フェーズでは、検出された障害箇所の特定分析・影響範囲の特定分析や、性能のボトルネック分析・他への影響分析を行い必要リソース量の算出を行う。
「設計・検証」フェ−ズでは、分析結果とポリシーをもとに、リソース配分調整を行う。例えば、システムで共有されるリソースプールから必要なリソースを取得したリソース再配分の改善提案の設計を行い、改善提案に従ったシステム構成を検証し、検証結果に問題が無ければ新規リソースを組み込み、且つ周辺リソースへの設定変更も含んだ設計を行う。
「操作」フェーズでは、予め定義した手続き又は、設計・検証結果をもとに、リソースの再構成を行う。
このように、本実施例に係る自律制御システムでは、制御要件(ポリシー)に基づいてリソースの配分調整を行うことによって、柔軟な自律制御システムを実現することができる。
図2は、本実施例に係る自律制御ループの相関図である。同図に示すように、本実施例に係る自律制御は、自律制御ループがサーバ、ストレージ、ネットワークの各ノードで機能し、かつ複数ノードにまたがった形でも機能する。すなわち、個々のノードにおいて、各ノードのリソースについての自律制御ループが機能しており、運用管理を含んだシステム全体でも複数ノードにまたがってリソースを自律制御するために、この自律制御ループは機能している。
図3は、本実施例に係る自律制御におけるリソースプールの概念を説明するための説明図である。同図に示すように、本実施例に係る自律制御では、リソースの配分を調整する手段として、サーバ/ストレージ/ネットワークそれぞれの予備装置または予備部品を、システムで共有されるリソースプールとして用意し、必要に応じてこのリソースプールからの割り当てや返却を行う事でリソース配分の調整を行う。
ここで、サーバプールの場合は、計算処理を行なうサーバ本体がプール対象となり、サーバ選択時には性能緒元が主な指標となる。ストレージプールの場合は、性能はもちろん、容量及び付随するリンクの確保がプールの重要な役割である。ネットワークプールでは、帯域幅・リンクを確保しなければならない。
いずれのプールであっても、リソースの有効活用、レスポンスの早さということを考慮すると、リソースの状態及び結線状況に応じて複数のプールを用意しなければ実運用に耐え得る配分調整機能は提供できない。そこで、本自律制御システムでは、「共有プール(Shared Pool)」「ベアメタルプール(Bare Metal Pool)」「スタンバイプール(Standby Pool)」の3段階のプールを基本構成として、配分調整機能を実現する。
「共有プール」とは、システム全体で共有されるプールであり、遊休状態にあるリソース全てを型番等により分類して保持する。新規導入されたリソースはまずこのプールに入れられる。なお、本プールでは、筺体単位で物理リソースを管理する(ブレードサーバの場合は各CPUブレードを1筺体として扱う)。
本プール内のリソースは、(使用条件を満たせば)どのサービスからも利用可能であるため、リソースの有効活用という面からは最適であるが、サービスに組み込んで使用するまでにデプロイ(必要なソフトウェアのインストールなどの準備)、各種設定を一から行う必要があるので、サービスを開始するまでに多大な時間を要する。
「ベアメタルプール」とは、各サービスレイヤ専用のプールであり、共有プールの中から当該サービスレイヤに適したリソースを選定して登録しておく。なお、本実施例に係るサービスモデルは、Front層、Web層、AP層及びDB層の四つのサービスレイヤから構成されるが、サービスモデルの詳細については、後述する。
また、ベアメタルプールへの登録とは、共有プール内のリソースの当該サービスレイヤへの写像を登録することであり、リソースの実体は共有プールに登録されたままである。また、ここでいう“適した”リソースというのは、要求されたハードウェア基準を満たし、なおかつ適切な物理配線が張られているリソースのことを指す。
本段階では、同一リソースが複数のベアメタルプール、つまり複数のサービスレイヤに登録されていても良い(複数のサービスに跨って所属することを許す)。本プール内のリソースは当該サービスレイヤで利用可能であるという検証が既に済んでいるため、サービスを開始するまでの時間は共有プールからリソースを選択する場合よりも若干短い。
この検証時間は、用意されているリソース規模に比例して増大するので、システム規模が大きくなるほどベアメタルプールを用意したほうが効率的である。また、リソース共有に関しては、前述の通り、本プールは共有プールの単なる写像に過ぎないので、共有プールと同程度の自由度がある。
「スタンバイプール」とは、各サービスレイヤ専用のプールであり、当該サービスレイヤのベアメタルプールに登録されたリソースの中からデプロイを済ませて速やかに利用可能な状態にしたリソースを保持する。スタンバイプールに属するリソースは、必ずどれか1つのサービスレイヤにのみ含まれる。
本プール内のリソースは、必要最小限の設定だけでサービスを開始することができるので、要求されてからのレスポンスは3つの中で最も早い。ただし、これらのリソースは当該サービスレイヤ用に専用化されているので、あまり多くのリソースをスタンバイプールに保持しておくのは非効率的である。
このように、本実施例に係る自律制御システムでは、サービスに対する準備状況の異なる三つのリソースプールを用意することによって、柔軟な配分調整機能を提供することができる。
次に、本実施例に係る自律制御システムのシステム構成について説明する。図4は、本実施例に係る自律制御システムのシステム構成を示す機能ブロック図である。同図に示すように、この自律制御システムは、管理ノード100、サーバノード210及び240、ストレージノード220及び250、並びにネットワークノード230及び260から構成され、これらのノードはネットワークにより接続される。
なお、ここでは、説明の便宜上、2台のサーバノード、ストレージノード及びネットワークノードを示したが、この自律制御システムは、任意の台数のサーバノード、ストレージノード及びネットワークノードから構成される。
管理ノード100は、サーバノード210及び240、ストレージノード220及び250並びにネットワークノード230及び260を束ねたシステム全体を管理・制御する事を目的としたソフトウェアを搭載したハードウェアである。
サーバノード210は、1台のサーバ装置(OSインスタンス単位)内のサーバリソースを管理・制御する事を目的としたソフトウェアを搭載したハードウェアである。ここで、サーバリソースは、ノード内のCPU、メモリ、ディスク、HBA(Host Bus Adapter)、NIC(Network Interface Card)等の物理リソース、及び、サーバ装置上で動作するソフトウェア(ノードサーバリソースマネジャ214が管理)である。
ストレージノード220は、1台のストレージ装置内のストレージリソースを管理・制御する事を目的としたソフトウェアを搭載したハードウェアである。ここで、ストレージリソースは、サーバノード210内のDBテーブル情報の管理等ストレージに関する論理リソース(ノードストレージリソースマネジャ215が管理)及びSAN、NAS等のストレージ装置(ストレージノードリソースマネジャ221が管理)である。
ネットワークノード230は、1台のネットワーク装置内のネットワークリソースを管理・制御する事を目的としたソフトウェアを搭載したハードウェアである。ここで、ネットワークリソースは、サーバノード210内のネットワークに関する論理リソース(ノードネットワークリソースマネジャ216が管理)及びルータ、スイッチ、ファイアウォール、ロードバランサ等のネットワーク装置(ネットワークノードリソースマネジャ231が管理)である。
サーバノード240は、サーバノード210と同様、1台のサーバ装置内のサーバリソースを管理・制御する事を目的としたソフトウェアを搭載したハードウェアであるが、サーバノード210とはベンダーが異なる。
ストレージノード250は、ストレージノード220と同様、1台のストレージ装置内のストレージリソースを管理・制御する事を目的としたソフトウェアを搭載したハードウェアであるが、ストレージノード220とはベンダーが異なる。
ネットワークノード260は、ネットワークノード230と同様、1台のネットワーク装置内のネットワークリソースを管理・制御する事を目的としたソフトウェアを搭載したハードウェアであるが、ネットワークノード230とはベンダーが異なる。
次に、各ノードが搭載するソフトウェアの機能構成について説明する。管理ノード100が搭載するソフトウェアには、ポリシーマネジャ(Policy Manager)101と、ポリシーDB(Policy DB)102と、ワークグループサービスマネジャ(Workgroup Service Manager)103と、ワークグループサービスDB(Workgroup Service DB)104と、ワークグループシステムリソースマネジャ(Workgroup System Resource Manager)105と、ワークグループシステムDB(Workgroup System DB)106と、ワークグループリソースコーディネータ(Workgroup Resource Coordinator)107と、ワークグループサーバリソースマネジャ(Workgroup Server resource Manager)108と、ワークグループサーバDB(Workgroup Server DB)109と、ワークグループストレージリソースマネジャ(Workgroup Storage Resource Manager)110と、ワークグループストレージDB(Workgroup Storage DB)111と、ワークグループネットワークリソースマネジャ(Workgroup Network Resource Manager)112と、ワークグループネットワークDB(Workgroup Network DB)113と、オープンI/F(Open I/F)114とが含まれる。
ポリシーマネジャ101は、自律制御システムが扱う全体的なポリシーを管理する処理部である。また、このポリシーマネジャ101は、各ブロック(マネジャ)のポリシー管理機能と連携し、ポリシー設定ビューの統合と各ブロックの扱うポリシーへのブレイクダウンを行う。
ポリシーDB102は、ポリシーマネジャ101が管理するポリシーを記憶するデータベースである。なお、各ブロックのポリシーは、各ブロックが管理するデータベースに記憶される。
ワークグループサービスマネジャ103は、システム全体に跨った、サービスの構成管理、性能の計測、分析(予兆分析を含む)を行う処理部である。ワークグループサービスDB104は、ワークグループサービスマネジャ103が使用するポリシーなどのデータを記憶したデータベースである。
ワークグループシステムリソースマネジャ105は、システム全体に跨った、リソースの構成管理と障害の監視・分析及び設計・検証・操作を行う処理部であり、システムとして対処出来ない場合はオペレータに通知する。
ワークグループシステムDB106は、ワークグループシステムリソースマネジャ105が使用するデータを記憶したデータベースであり、このデータベースの詳細については後述する。
ワークグループリソースコーディネータ107は、システム/サーバ/ストレージ/ネットワークの各ノードリソースマネジャとシステム/サーバ/ストレージ/ネットワークの各ワークグループリソースマネジャとの繋ぎ<パイプ>役として動作する処理部である。すなわち、このワークグループリソースコーディネータ107は、両者間のデータ通信インフラとして、リソースコーディネータのデータ入出力間での整合性を保証するものである。
ワークグループサーバリソースマネジャ108は、管理ノード100の配下にある全サーバノードに跨った、サーバリソースの構成管理と障害の監視・分析及び検証・操作を行う処理部である。ワークグループサーバDB109は、ワークグループサーバリソースマネジャ108が使用するポリシーなどのデータを記憶したデータベースである。
ワークグループストレージリソースマネジャ110は、管理ノード100の配下にある全ストレージノード及びサーバノード内ストレージリソースにおける、ストレージリソースの構成管理と障害・性能の監視・計測、分析及び検証、操作を行う処理部である。ワークグループストレージDB111は、ワークグループストレージリソースマネジャ110が使用するポリシーなどのデータを記憶したデータベースである。
ワークグループネットワークリソースマネジャ112は、管理ノード100の配下にある全ネットワークノード及びサーバノード内ネットワークリソースにおける、ネットワークリソースの構成管理と障害・性能の監視・計測・分析及び検証・操作を行う処理部である。ワークグループネットワークDB113は、ワークグループネットワークリソースマネジャ112が使用するポリシーなどのデータを記憶したデータベースである。
オープンI/F114は、オープンインタフェースを備えた機器(ベンダーが異なる装置)に対するゲートウェイとして動作する処理部であり、管理ノード100は、このオープンI/F114を介してベンダーが異なるサーバノード240、ストレージノード250及びネットワークノード260と通信する。
サーバノード210が搭載するソフトウェアには、ノードシステムリソースマネジャ(Node System Resource Manager)211と、ノードサービスマネジャ(Node Service Manager)212と、ノードリソースコーディネータ(Node Resource Coordinator)213と、ノードサーバリソースマネジャ(Node Server Resource Manager)214と、ノードストレージリソースマネジャ(Node Storage Resource Manager)215と、ノードネットワークリソースマネジャ(Node Network Resource Manager)216とが含まれる。
ノードシステムリソースマネジャ211は、サーバノード210内における、リソースの構成管理と障害の監視・分析及び設計・検証・操作を行う処理部である。また、このノードシステムリソースマネジャ211は、障害の分析において、サーバノード210内で解決出来ない場合は、ワークグループシステムリソースマネジャ105に依頼を行う。
ノードサービスマネジャ212は、サーバノード210内における、業務の構成管理と性能の計測・分析を行う処理部である。また、このノードサービスマネジャ212は、サーバノード210内で解決出来ない場合は、ワークグループサービスマネジャ103へ依頼を行う。
ノードリソースコーディネータ213は、システム/サーバ/ストレージ/ネットワークの各ノードリソースマネジャとシステム/サーバ/ストレージ/ネットワークの各ワークグループリソースマネジャとの繋ぎ<パイプ>役として動作する処理部である。すなわち、両者間のデータ通信インフラとして、リソースコーディネータのデータ入出力間での整合性を保証するものである。
ノードサーバリソースマネジャ214は、サーバノード210内における、サーバリソースの構成管理と障害・性能での監視・計測及び操作を行う処理部である。
ノードストレージリソースマネジャ215は、サーバノード210内における、ストレージリソースの構成管理と障害・性能での監視・計測及び操作を行う処理部である。
ノードネットワークリソースマネジャ216は、サーバノード210内における、ネットワークリソースの構成管理と障害・性能での監視・計測及び操作を行う処理部である。
ストレージノード220が搭載するソフトウェアには、ストレージノードリソースマネジャ(Storage Node Resource Manager)221が含まれる。ストレージノードリソースマネジャ221は、ストレージノード220における、ストレージリソースの構成管理と障害での監視・分析・設計・検証、性能での計測及び操作を行う処理部である。また、このストレージノードリソースマネジャ221は、障害の分析において、ストレージノード220内で解決出来ない場合は、ワークグループストレージリソースマネジャ110へ依頼を行う。
ネットワークノード230が搭載するソフトウェアには、ネットワークノードリソースマネジャ(Network Node Resource Manager)231が含まれる。ネットワークノードリソースマネジャ231は、ネットワークノード230における、ネットワークリソースの構成管理と障害での監視・分析・設計・検証、性能での計測及び操作を行う処理部である。また、このネットワークノードリソースマネジャ231は、障害の分析において、ネットワークノード230内で解決出来ない場合は、ワークグループネットワークリソースマネジャ112へ依頼を行う。
サーバノード240が搭載するソフトウェアには、マルチベンダサーバ/ストレージ/ネットワークリソースマネジャ(Multi-vendor Server/Storage/Network Resource Manager)241〜243が含まれる。マルチベンダサーバ/ストレージ/ネットワークリソースマネジャ241〜243は、サーバノード240内における、サーバリソース/ストレージリソース/ネットワークリソースそれぞれの構成管理と障害・性能での監視・計測及び操作を行う処理部である。
ストレージノード250が搭載するソフトウェアには、ストレージマルチベンダリソースマネジャ(Storage Multi-vendor Resource Manager)251が含まれる。ストレージマルチベンダリソースマネジャ251は、ストレージノード250における、ストレージリソースの構成管理と障害での監視・分析・設計・検証、性能での計測及び操作を行う処理部である。また、このストレージマルチベンダリソースマネジャ251は、障害の分析において、ストレージノード250内で解決出来ない場合は、ワークグループストレージリソースマネジャ110へ依頼を行う。
ネットワークノード260が搭載するソフトウェアには、ネットワークマルチベンダリソースマネジャ(Network Multi-vendor Resource Manager)261が含まれる。ネットワークマルチベンダリソースマネジャ261は、ネットワークノード260における、ネットワークリソースの構成管理と障害での監視・分析・設計・検証、性能での計測及び操作を行う処理部である。また、このネットワークマルチベンダリソースマネジャ261は、障害の分析において、ネットワークノード260内で解決出来ない場合は、ワークグループネットワークリソースマネジャ112へ依頼を行う。
なお、図4では、管理ノード100、サーバノード210、ストレージノード220、ネットワークノード230などがネットワークを介して接続される場合を示したが、管理ノード100とサーバノード210に搭載されるソフトウェアを同一のコンピュータシステムに搭載したり、あるいは、管理ノード100に搭載されるソフトウェアを複数のコンピュータシステムに分散することもできる。
次に、本実施例に係る自律制御システムのサービスモデル、論理構成及び物理構成について図5〜7を用いて説明する。図5は、本実施例に係る自律制御システムのサービスモデルの構成を示す図である。ここで、サービスとは、エンドユーザに提供する一連の業務のことである。
図5に示すように、本実施例に係る自律制御システムでは、Front層、Web層、AP層、DB層の4階層のサービスモデルを基準とする。Front層は、インターネットとイントラネットを接続する層であり、このFront層には、ルータ301やセンター全体のファイアウォールなどが置かれる。
Web層は、Webサーバ302やディレクトリサーバが置かれる層であり、Front層がセンターの出入口であるのに対して、Web層は当該サービスの出入口に相当する。AP層は、当該サービスのビジネスロジック部分を処理するAPサーバ303が置かれる層であり、DB層は、データベース処理を担当するDBサーバ304やストレージ305が置かれる層である。
このように、サービスを機能別に4階層に分割し、各階層に対して処理内容に適した物理リソースを適切な量だけ割り付けることで当該サービスを効率良く実行でき、なおかつセンター全体としても最適なリソース運用が可能となる。
なお、ルータ301は、図4に示したネットワークノード230に対応し、Webサーバ302、APサーバ303及びDBサーバ304は、図4に示したサーバノード210に対応し、ストレージ305は、図4に示したストレージノード220に対応する。
図6は、本実施例に係る自律制御システムの論理構成を示す図である。同図に示すように、本実施例に係る自律制御システムでは、Front層には論理ネットワーク(ルータ)「LRT1」が置かれ、Web層には論理サーバ「LSvr1」及び「LSvr2」が置かれ、AP層には論理サーバ「LSvr3」が置かれ、DB層には論理サーバ「LSvr4」及び論理ストレージ(データベース)「LDB1」が置かれる。
そして、「サービス1」は、論理ネットワーク「LRT1」、論理サーバ「LSvr1」、論理サーバ「LSvr3」、論理サーバ「LSvr4」及び論理ストレージ「LDB1」により提供され、「サービス2」は、論理ネットワーク「LRT1」、論理サーバ「LSvr2」、論理サーバ「LSvr3」、論理サーバ「LSvr4」及び論理ストレージ「LDB1」により提供される。また、「サービス2」に対するWeb層のスタンバイプールには、論理サーバ「LSvr5」が登録されている。
この論理システムは、サービスと物理システムの間に設けられる仮想化レイヤであり、物理的なリソースの構成変更が直接サービスに影響を与えることなく、柔軟なリソース運用を可能にするために設けられている。なお、論理サーバ、論理ストレージ、論理ネットワークは、論理リソースと総称される。
図7は、本実施例に係る自律制御システムの物理構成を示す図である。同図に示すように、本実施例に係る自律制御システムでは、Front層には物理ネットワーク(ルータ)「PRT1」が置かれ、Web層には物理ネットワーク(スイッチ)「PSW1」並びに物理サーバ「PSvr1」、「PSvr2」及び「PSvr7」が置かれ、AP層には物理ネットワーク「PSW2」及び物理サーバ「PSvr4」が置かれ、DB層には物理ネットワーク「PSW3」、物理サーバ「PSvr5」及び物理ストレージ(データベース)「PDB1」が置かれる。また、物理ネットワーク「PSW1」、「PSW2」及び「PSW3」は、物理ネットワーク「PRT2」を介して管理ノード100に接続される。
また、「サービス1」に対するAP層のベアメタルプールには、物理サーバ「PSvr6」が登録され、「サービス2」に対するAP層のスタンバイプールには、物理サーバ「PSvr3」が登録され、「サービス2」に対するベアメタルプールには、物理サーバ「PSvr6」が登録されている。なお、物理サーバ「PSvr6」は、共有プールにも登録されている。また、物理サーバ、物理ストレージ、物理ネットワークは、物理リソースと総称される。
次に、図4に示したポリシーDB102及び各ブロックが記憶するポリシーについて説明する。図8は、ポリシーの全体イメージを示す図であり、図9は、ポリシーの全体構成を示す図である。図8及び図9に示すように、ポリシーには、センターポリシーと、カスタマポリシーと、サービスポリシーとがある。
センターポリシーはセンター全体のポリシーであり、カスタマポリシーは各顧客のポリシーであり、サービスポリシーは各顧客の各サービスのポリシーである。なお、センターポリシーが最も優先度が高く、サービスポリシーの優先度が最も低い。
また、センターポリシー、カスタマポリシー及びサービスポリシーには、それぞれ管理ポリシーと、設計ポリシーと、運用ポリシーと、障害復旧ポリシーと、保守ポリシーとが含まれる。
図10は、ポリシーの詳細を示す図である。同図に示すように、管理ポリシーには、認証ポリシー、課金ポリシー、レポーティングポリシーなどがあり、運用ポリシーには、監視ポリシー、分析ポリシー、プロビジョニングポリシーなどがある。
次に、ワークグループシステムDB106が記憶する情報について図11〜図30を用いて説明する。ワークグループシステムDB106が記憶する情報には、ポリシー以外に、自律制御システムの物理リソース及び接続関係、論理リソース及び接続関係、物理リソースと論理リソースとの対応関係、サービスレイヤとリソースとの対応関係、サービスとリソースとの対応関係などの情報が含まれる。
図11は、物理サーバと型番の対応関係の一例を示す図である。同図に示すように、ワークグループシステムDB106は、各物理サーバに対して型番を対応させた情報を記憶する。
図12は、物理サーバの型番詳細情報の一例を示す図である。同図に示すように、ワークグループシステムDB106は、各物理サーバの型番に対して仕様及び性能値を対応させた情報を記憶する。
図13は、物理ネットワークと型番の対応関係の一例を示す図である。同図に示すように、ワークグループシステムDB106は、各物理ネットワークに対して型番を対応させた情報を記憶する。
図14は、物理ネットワークの型番詳細情報の一例を示す図である。同図に示すように、ワークグループシステムDB106は、各物理ネットワークの型番に対して仕様及び性能値を対応させた情報を記憶する。
図15は、物理ストレージと型番の対応関係の一例を示す図である。同図に示すように、ワークグループシステムDB106は、各物理ストレージに対して型番を対応させた情報を記憶する。
図16は、物理ストレージの型番詳細情報の一例を示す図である。同図に示すように、ワークグループシステムDB106は、各物理ストレージの型番に対して仕様及び性能値を対応させた情報を記憶する。
このように、ワークグループサーバ/ストレージ/ネットワークDBが各物理サーバ/物理ストレージ/物理ネットワークの仕様及び性能を記憶することによって、ワークグループシステムリソースマネジャ105は、各サービスレイヤで必要とされる物理サーバ/物理ストレージ/物理ネットワークを共有プールから選択することができる。
図17は、物理リソース接続関係の一例を示す図である。同図に示すように、ワークグループシステムDB106は、物理リソース間を接続する各リンクに対してリンク番号、接続元及び接続先を対応させた情報を記憶する。
図18は、物理―論理マッピングの一例を示す図である。同図に示すように、ワークグループシステムDB106は、物理リソースと論理リソースの対応関係を記憶する。
図19は、論理サーバとタイプの対応関係の一例を示す図である。同図に示すように、ワークグループシステムDB106は、各論理サーバに対してサーバのタイプを対応させた情報を記憶する。
図20は、論理サーバのタイプ詳細情報の一例を示す図である。同図に示すように、ワークグループシステムDB106は、各論理サーバのタイプに対して搭載するソフトウェア及び必須条件を対応させた情報を記憶する。このように、ワークグループシステムDB106が各論理サーバが搭載するソフトウェア及び必須条件を記憶することによって、ワークグループシステムリソースマネジャ105は、各サービスレイヤで必要とされる論理サーバをスタンバイプールに準備することができる。
図21は、論理ネットワークとタイプの対応関係の一例を示す図である。同図に示すように、ワークグループシステムDB106は、各論理ネットワークに対して装置のタイプを対応させた情報を記憶する。
図22は、論理ネットワークのタイプ詳細情報の一例を示す図である。同図に示すように、ワークグループシステムDB106は、各論理ネットワークのタイプに対して必須条件を対応させた情報を記憶する。
図23は、論理ストレージとタイプの対応関係の一例を示す図である。同図に示すように、ワークグループシステムDB106は、各論理ストレージに対して装置のタイプを対応させた情報を記憶する。
図24は、論理ストレージのタイプ詳細情報の一例を示す図である。同図に示すように、ワークグループシステムDB106は、各論理ストレージのタイプに対して必須条件を対応させた情報を記憶する。
図25は、論理リソース接続関係の一例を示す図である。同図に示すように、ワークグループシステムDB106は、論理リソース間を接続する各リンクに対してリンク番号、接続元及び接続先を対応させた情報を記憶する。
図26は、論理サーバとサービスレイヤの対応関係の一例を示す図である。同図に示すように、ワークグループシステムDB106は、各論理サーバが動作するサービスレイヤについての情報を記憶する。
図27は、論理ストレージとサービスレイヤの対応関係の一例を示す図である。同図に示すように、ワークグループシステムDB106は、各論理ストレージが動作するサービスレイヤについての情報を記憶する。
図28は、論理ネットワークとサービスレイヤの対応関係の一例を示す図である。同図に示すように、ワークグループシステムDB106は、各論理ネットワークが動作するサービスレイヤについての情報を記憶する。
図29は、サービスとリソースの対応関係の一例を示す図である。同図に示すように、ワークグループシステムDB106は、各サービスに対して、サービスレイヤごとに運用中の論理リソース、スタンバイプールに登録されている論理リソース及びベアメタルプールに登録されている物理リソースの情報を記憶する。
図30は、共有プールに登録される物理サーバの一例を示す図である。同図に示すように、共有プールには、型番ごとに物理サーバが登録される。なお、物理ネットワーク及び物理ストレージについても同様に型番ごとに共有プールに登録される。
次に、本実施例に係る自律制御システムの復旧処理についてサーバ故障を例として説明する。図31−1〜31−4は、サーバ故障からの復旧処理の処理手順を示すシーケンス図(1)〜(4)である。なお、ここでは、図7に示した物理サーバ「PSvr2」が故障した場合について説明する。
また、図31−1〜31−4において、枠の左上の「alt」は、その枠を2分割する点線の前後での選択処理を示し、「opt」は、指定された条件が満たされた場合の処理を示し、「par」は点線で分割された部分の処理が並列に行われることを示し、「ref」は他のシーケンス図の参照を示す。
図31−1〜31−4に示すように、本実施例に係る自律制御システムでは、「PSvr2」のノードサーバリソースマネジャ214がサーバ内部品の故障を検出し、それをノードシステムリソースマネジャ211に通知する。すると、ノードシステムリソースマネジャ211は、ノード内では処理しきれないと判断し、管理ノード100のワークグループシステムリソースマネジャ105に故障通知をあげる(ステップS101)。
すると、ワークグループシステムリソースマネジャ105は、図17に示した物理リソース接続関係を用いて関連する物理リソースの検索を行い(ステップS102)、図18に示した物理リソースと論理リソースの対応関係及び図25に示した論理リソース接続関係を用いて関連する論理リソースの検索を行う(ステップS103)。
そして、図26〜28に示した論理サーバ/論理ストレージ/論理ネットワークとサービスレイヤの対応関係を用いて関連するサービスの検索を行い(ステップS104)、故障箇所及び影響を受けるサービスについて管理者に通知する(ステップS105)。
そして、図29に示したサービスとリソースの対応関係を用いてスタンバイプールに代替候補があるか否かを判定し、代替候補がある場合には、スタンバイプールから代替候補を選択する(ステップS106)。この例では、スタンバイプールの「LSvr5」を選択する。
一方、スタンバイプールに代替候補がない場合には、ベアメタルプールに代替サーバがあるか否かを判定し、代替サーバがある場合には、ベアメタルプールから代替候補を選択し(ステップS107)、代替リソースを用いてシステムレイアウトを生成し(ステップS108)、生成したシステムの検証を行う(ステップS109)。
一方、ベアメタルプールに代替サーバがない場合には、縮退運転が可能であるか否かを調べ、縮退運転が可能である場合には、ワークグループサービスマネジャ103に縮退運転を依頼する(ステップS110)。
そして、関連するノードに縮退運転を指示する。すなわち、関連するサーバノードに対しては、ワークグループサーバリソースマネジャ108を介して縮退運転を指示し(ステップS111〜ステップS112)、関連するストレージノードに対しては、ワークグループストレージリソースマネジャ110を介して縮退運転を指示し(ステップS113〜ステップS114)、関連するネットワークノードに対しては、ワークグループネットワークリソースマネジャ112を介して縮退運転を指示する(ステップS115〜ステップS116)。
ここで、関連するノードとしては、主に故障したノードが動作するサービスレイヤに属するノード群が対象となるが、場合によっては、同一サービスの他レイヤのノード群にも影響する。
そして、流量制御が可能でかつ必要であるか否かを調べ、流量制御が可能でかつ必要である場合には、ワークグループサービスマネジャ103に流量調整を依頼する(ステップS117)。なお、流量制御とは、例えば、クライアントからサーバへのリクエスト数を制御することである。
そして、関連するノードに流量制御を指示する。すなわち、関連するサーバノードに対しては、ワークグループサーバリソースマネジャ108を介して流量制御を指示し(ステップS118〜ステップS119)、関連するストレージノードに対しては、ワークグループストレージリソースマネジャ110を介して流量制御を指示し(ステップS120〜ステップS121)、関連するネットワークノードに対しては、ワークグループネットワークリソースマネジャ112を介して流量制御を指示する(ステップS122〜ステップS123)。また、管理者に縮退運転を通知する(ステップS124)。
一方、縮退運転が可能でない場合には、ワークグループサービスマネジャ103にサービス停止を依頼する(ステップS125)。そして、関連するノードにサービス停止を指示する。すなわち、関連するサーバノードに対しては、ワークグループサーバリソースマネジャ108を介してサービス停止を指示し(ステップS126〜ステップS127)、関連するストレージノードに対しては、ワークグループストレージリソースマネジャ110を介してサービス停止を指示し(ステップS128〜ステップS129)、関連するネットワークノードに対しては、ワークグループネットワークリソースマネジャ112を介してサービス停止を指示する(ステップS130〜ステップS131)。また、管理者にサービス停止を通知する(ステップS132)。
そして、代替リソースが確保できた場合には、関連するノードに構成検証を指示する。すなわち、関連するサーバノードに対しては、ワークグループサーバリソースマネジャ108を介してサーバ状態を確認し(ステップS133〜ステップS134)、関連するストレージノードに対しては、ワークグループストレージリソースマネジャ110を介してストレージ状態を確認し(ステップS135〜ステップS136)、関連するネットワークノードに対しては、ワークグループネットワークリソースマネジャ112を介してネットワーク状態を確認する(ステップS137〜ステップS138)。
そして、物理リンクの検証を行い(ステップS139)、管理者に代替候補を表示する(ステップS140)。なお、検証結果がNGとなった場合には、代替候補の取得から再実行する。
そして、関連するノードに設定の変更を指示する。すなわち、関連するサーバノードに対しては、ワークグループサーバリソースマネジャ108を介してサーバの設定変更を指示し(ステップS141〜ステップS142)、関連するストレージノードに対しては、ワークグループストレージリソースマネジャ110を介してストレージの設定変更を指示し(ステップS143〜ステップS144)、関連するネットワークノードに対しては、ワークグループネットワークリソースマネジャ112を介してネットワークの設定変更を指示する(ステップS145〜ステップS146)。
そして、ワークグループサービスマネジャ103にリソース構成変更を通知し(ステップS147)、サーバノード及び代替ノードにアプリケーションの起動を指示する(ステップS148〜ステップS149)。また、関連するノードの設定変更と並行して、リソースプールへのリソース補充を行う(ステップS150)。
そして、ワークグループサービスマネジャ103に構成変更を通知し(ステップS151)、リソース情報の更新、具体的には図18に示した論理リソースと物理リソースの対応関係の更新を行い(ステップS152)、管理者に障害復旧を通知する(ステップS153)。
このように、システム内のリソースに障害が発生した場合に、ワークグループシステムリソースマネジャ105がスタンバイプールから代替リソースを選択し、システム構成の検証、設定変更を行うことによって、迅速な障害復旧を行うことができる。
次に、本実施例に係る自律制御システムの性能劣化からの回復処理について説明する。図32−1〜32−4は、性能劣化からの回復処理の処理手順を示すシーケンス図(1)〜(4)である。
図32−1〜32−4に示すように、本実施例に係る自律制御システムでは、ワークグループサービスマネジャ103が性能劣化を検出すると(ステップS201)、図29に示したサービスとリソースの対応関係を用いて対応するサービスの検索を行い(ステップS202)、ボトルネックの特定を行う(ステップS203)。そして、ワークグループシステムリソースマネジャ105に性能劣化を通知する(ステップS204)。
すると、ワークグループシステムリソースマネジャ105は、図25に示した論理リソース接続関係を用いて関連する論理リソースの検索を行い(ステップS205)、図17に示した物理リソース接続関係及び図18に示した物理リソースと論理リソースの対応関係を用いて関連する物理リソースの検索を行う(ステップS206)。
そして、各リソースの性能情報を収集する。すなわち、ワークグループサーバリソースマネジャ108からサーバの性能情報を収集し(ステップS207)、ワークグループストレージリソースマネジャ110からストレージの性能情報を収集し(ステップS208)、ワークグループネットワークリソースマネジャ112からネットワークの性能情報を収集する(ステップS209)。そして、性能劣化箇所及びその原因を特定し、管理者に通知する(ステップS210)。
そして、図29に示したサービスとリソースの対応関係を用いてスタンバイプールに追加候補があるか否かを判定し、追加候補がある場合には、スタンバイプールから追加候補を選択する(ステップS211)。
一方、スタンバイプールに追加候補がない場合には、ベアメタルプールに追加サーバがあるか否かを判定し、追加サーバがある場合には、ベアメタルプールから追加候補を選択し(ステップS212)、追加リソースを用いてシステムレイアウトを生成し(ステップS213)、生成したシステムの検証を行う(ステップS214)。
一方、ベアメタルプールに追加サーバがない場合には、流量制御によるアクセス制御が可能であるか否かを調べ、流量制御によるアクセス制御が可能である場合には、ワークグループサービスマネジャ103に流量調整を依頼する(ステップS215)。
そして、関連するノードに流量制御を指示する。すなわち、関連するサーバノードに対しては、ワークグループサーバリソースマネジャ108を介して流量制御を指示し(ステップS216〜ステップS217)、関連するストレージノードに対しては、ワークグループストレージリソースマネジャ110を介して流量制御を指示し(ステップS218〜ステップS219)、関連するネットワークノードに対しては、ワークグループネットワークリソースマネジャ112を介して流量制御を指示する(ステップS220〜ステップS221)。
そして、追加リソースが確保できた場合には、論理リソースの構成を更新し(ステップS222)、関連するノードに構成検証を指示する。すなわち、関連するサーバノードに対しては、ワークグループサーバリソースマネジャ108を介してサーバ状態を確認し(ステップS223〜ステップS224)、関連するストレージノードに対しては、ワークグループストレージリソースマネジャ110を介してストレージ状態を確認し(ステップS225〜ステップS226)、関連するネットワークノードに対しては、ワークグループネットワークリソースマネジャ112を介してネットワーク状態を確認する(ステップS227〜ステップS228)。
そして、物理リンクの検証を行い(ステップS229)、管理者に対処策を通知する(ステップS230)。なお、検証結果がNGとなった場合には、追加候補の取得から再実行する。
そして、関連するノードに設定の変更を指示する。すなわち、関連するサーバノードに対しては、ワークグループサーバリソースマネジャ108を介してサーバの設定変更を指示し(ステップS231〜ステップS232)、関連するストレージノードに対しては、ワークグループストレージリソースマネジャ110を介してストレージの設定変更を指示し(ステップS233〜ステップS234)、関連するネットワークノードに対しては、ワークグループネットワークリソースマネジャ112を介してネットワークの設定変更を指示する(ステップS235〜ステップS236)。
そして、ワークグループサービスマネジャ103にリソース構成変更を通知し(ステップS237)、サーバノード及び追加ノードにアプリケーションの起動を指示する(ステップS238〜ステップS239)。また、関連するノードの設定変更と並行して、リソースプールへのリソース補充を行う(ステップS240)。
そして、ワークグループサービスマネジャ103に構成変更を通知し(ステップS241)、リソース情報の更新、具体的には図18に示した論理リソースと物理リソースの対応関係の更新を行い(ステップS242)、管理者に対処結果を通知する(ステップS243)。
このように、システムに性能劣化が発生した場合に、ワークグループシステムリソースマネジャ105が性能劣化の箇所及び原因を特定し、スタンバイプールから追加リソースを選択し、システム構成の検証、設定変更を行うことによって、迅速な回復を行うことができる。
次に、プールのリソース補充処理について説明する。図33は、プールのリソース補充処理の処理手順を示すシーケンス図である。同図に示すように、このプールのリソース補充処理は、ワークグループシステムリソースマネジャ105が、スタンバイプールのリソースが最低量未満であるか、または、ベアメタルプールのリソースが最低量より多いか否かを調べ、スタンバイプールのリソースが最低量未満であるか、または、ベアメタルプールのリソースが最低量より多い場合には、ベアメタルプールからスタンバイプールへリソース補充を行い(ステップS301)、共有プールからベアメタルプールへリソース補充を行う(ステップS302)。
一方、スタンバイプールのリソースが最低量未満でなく、かつ、ベアメタルプールのリソースが最低量より多くない場合には、まず、共有プールからベアメタルプールへリソース補充を行い(ステップS303)、共有プールからベアメタルプールへリソース補充ができた場合には、ベアメタルプールからスタンバイプールへリソース補充を行う(ステップS304)。
そして、プール補充結果を管理者に通知する(ステップS305)。
次に、共有プールからベアメタルプールへのリソース補充処理について説明する。図34は、共有プールからベアメタルプールへのリソース補充処理の処理手順を示すシーケンス図である。なお、図34において、「break」は1レベル外の枠へのジャンプを示す。
同図に示すように、このリソース補充処理は、ワークグループシステムリソースマネジャ105が、共有プールに条件を満たす予備サーバが存在するか否かを判定する。なお、共有プールに条件を満たすリソースがあるか否かの判定は、図11〜16に示した各リソースの型番、仕様、性能値を用いて行う。
そして、共有プールに条件を満たす予備サーバが存在する場合には、図30に示した共有プールから適当なサーバを選択し(ステップS401)、共有プールからベアメタルプールへサーバを補充する。また、図29に示したサービスとリソースの対応関係及び図30に示した共有プールの情報を更新する(ステップS402)。
一方、共有プールに条件を満たす予備サーバが存在しない場合には、ベアメタルプールのリソースが最低量未満またはスタンバイプールのリソースが最低量未満であるか否かを調べ、ベアメタルプールのリソースが最低量未満またはスタンバイプールのリソースが最低量未満である場合には、他のサービスのリソースから適当なサーバを検索する(ステップS403)。
そして、優先度の低い他のサービスからリソースを横取りすることができるか否かを判定し、横取りできない場合には、管理者にプール補充失敗の通知を行い(ステップS404)、処理を終了する。
一方、リソースを横取りできる場合には、ワークグループサービスマネジャ103にサービス構成変更を依頼し(ステップS405)、ワークグループサーバリソースマネジャ108を介して対象ノードに設定変更を指示する(ステップS406〜ステップS407)。そして、対象ノードから設定完了の通知をワークグループサーバリソースマネジャ108を介して受け取ると(ステップS408〜ステップS409)、図29に示したサービスとリソースの対応関係及び図30に示した共有プールの情報を更新し(ステップS410)、サービス構成変更をワークグループサービスマネジャ103に通知する(ステップS411)。
このように、ワークグループシステムリソースマネジャ105が、共有プールに条件を満たす予備リソースが存在するか否かを各リソースの型番、仕様、性能値を用いて判定し、条件を満たす予備リソースが存在する場合には、共有プールから適当なリソースを選択してベアメタルプールへ補充することによって、障害の復旧や性能劣化からの回復を迅速に行うことができる。
次に、ベアメタルプールからスタンバイプールへのリソース補充処理について説明する。図35は、ベアメタルプールからスタンバイプールへのリソース補充処理の処理手順を示すシーケンス図である。
同図に示すように、このリソース補充処理は、ワークグループシステムリソースマネジャ105が、図29に示したサービスとリソースの対応関係を用いてベアメタルプールから適当なサーバを選択し(ステップS501)、ベアメタルプールからスタンバイプールへサーバを補充するとともに、サービスとリソースの対応関係を更新する(ステップS502)。
そして、ワークグループサーバリソースマネジャ108を介して対象ノードに設定変更を指示し(ステップS503〜ステップS504)、対象ノードの状態を「準備中」に更新する(ステップS505)。
そして、対象ノードから設定完了の通知をワークグループサーバリソースマネジャ108を介して受け取ると(ステップS506〜ステップS507)、対象ノードの状態を「準備完了」に更新する(ステップS508)。
このように、ワークグループシステムリソースマネジャ105が、ベアメタルプールから適当なリソースを選択してスタンバイプールへ補充し、リソースをサービスレイヤに特化した準備完了状態にすることによって、障害の復旧や性能劣化からの回復を最低限のレスポンス時間で行うことができる。
なお、図36−1及び36−2は、本実施例に係る自律制御システムの障害時の監視・計測、分析、設計、検証、操作の各機能を示す図(1)及び(2)である。同図は、障害時に各マネジャが行う監視・計測、分析、設計、検証、操作の対象範囲と、機能と、制御の流れとを示している。
例えば、ワークグループシステムリソースマネジャ105は、障害時に分析としてシステム全体を対象範囲とする影響範囲の特定を行い、(3)-(c)すなわちワークグループシステムリソースマネジャ105の設計段階へ移行する。
また、図37−1及び37−2は、本実施例に係る自律制御システムの性能劣化時の監視・計測、分析、設計、検証、操作の各機能を示す図(1)及び(2)である。同図は、性能劣化時に各マネジャが行う監視・計測、分析、設計、検証、操作の対象範囲と、機能と、制御の流れとを示している。
例えば、ノードサービスマネジャ212は、性能劣化時に監視・計測としてサーバノードを対象範囲とするミドルウェアの性能情報収集及びサーバノード単位/業務単位での負荷情報の収集を行い、(10)-(b)すなわちノードサービスマネジャ212の分析段階へ移行する。
次に、本実施例に係るサーバノードとして動作するコンピュータシステムについて説明する。図38は、本実施例に係るサーバノードとして動作するコンピュータシステムの一例を示す図である。同図に示すように、このコンピュータシステム400は、本体部401と、本体部401からの指示により表示画面402aに情報を表示するディスプレイ402と、このコンピュータシステム400に種々の情報を入力するためのキーボード403と、ディスプレイ402の表示画面402a上の任意の位置を指定するマウス404と、LAN406または広域エリアネットワーク(WAN)に接続するLANインタフェースと、公衆回線407に接続するモデムとを有する。ここで、LAN406は、他のサーバ411、プリンタ412などとコンピュータシステム400とを接続している。
また、図39は、図38に示した本体部401の構成を示す機能ブロック図である。同図に示すように、この本体部401は、CPU421と、RAM422と、ROM423と、ハードディスクドライブ(HDD)424と、CD−ROMドライブ425と、FDドライブ426と、I/Oインタフェース427と、LANインタフェース428と、モデム429とを有する。
そして、このコンピュータシステム400において実行される自律制御プログラムは、フロッピィディスク(FD)408、CD−ROM409、DVDディスク、光磁気ディスク、ICカードなどの可搬型記憶媒体に記憶され、これらの記憶媒体から読み出されてコンピュータシステム400にインストールされる。
あるいは、この自律制御プログラムは、LANインタフェース428を介して接続されたサーバ411のデータベースなどに記憶され、これらのデータベースから読み出されてコンピュータシステム400にインストールされる。
そして、インストールされた自律制御プログラムは、HDD424に記憶され、RAM422、ROM423などを利用してCPU421により実行される。
上述してきたように、本実施例では、ポリシーDB102などに各種ポリシーを記憶し、システムを構成する各ノードが他のノードと連携するとともに、ポリシーに基づいて自律制御を行うこととしたので、障害や急激な負荷変動に対して柔軟な自律制御を行うことができる。
また、本実施例では、予備のリソースを共有プール、ベアメタルプール及びスタンバイプールを用いて管理することとしたので、スタンバイプールを中心としてリソースを管理することによって障害からの復旧や性能劣化からの回復を高速に行うことが可能であるとともに、共有プールを中心としてリソースを管理することによってリソースを効率良く利用することができる。
(付記1)ネットワークにより接続された複数の情報処理装置から構成される情報処理システムを自律制御する自律制御プログラムであって、
前記情報処理システムを管理するにあたっての要件であるポリシーを記憶した記憶装置から該ポリシーを読み出すポリシー読出手順と、
前記ポリシー読出手順により読み出されたポリシーに基づいて自律制御を行う制御実行手順と、
をコンピュータに実行させることを特徴とする自律制御プログラム。
(付記2)前記ポリシーは、前記情報処理システム全体についてのポリシーと、各情報処理装置ごとのポリシーとから構成されることを特徴とする付記1に記載の自律制御プログラム。
(付記3)前記ポリシーは、情報処理システムを運用してサービスを提供するセンターのポリシーと、情報処理システムを利用する顧客のポリシーと、情報処理システムの提供するサービスのポリシーとから構成されることを特徴とする付記1に記載の自律制御プログラム。
(付記4)前記情報処理システムは、提供するサービスのサービスモデルを構成する複数のサービス階層の各階層にリソースである情報処理装置を割り当て、
利用されていない予備のリソースを集めて共有プールとして管理し、
共有プールの中のリソースのうち各サービス階層で利用可能であると判定されたリソースをサービス階層ごとに集めてベアメタルプールとして管理し、
ベアメタルプールの中から選択して各サービス階層での利用に必要な準備を完了したリソースをサービス階層ごとに集めてスタンバイプールとして管理し、
前記制御実行手順は、スタンバイプール、ベアメタルプール、共有プールの順に必要な予備のリソースを探して自律制御を行うことを特徴とする付記1、2または3に記載の自律制御プログラム。
(付記5)共有プールの中のリソースのうち各サービス階層で利用可能であるか否かの判定は、各リソースのハードウェア仕様と物理接続とに基づいて行われることを特徴とする付記4に記載の自律制御プログラム。
(付記6)前記制御実行手順は、予備のリソースを使用する場合に、予備のリソースを運用状態にする操作と並行してスタンバイプールおよびベアメタルプールの補充処理を行うことを特徴とする付記4に記載の自律制御プログラム。
(付記7)前記サービスモデルは、インターネットとイントラネットとを接続するFront層、ウェブサーバが配置されるWeb層、アプリケーションサーバが配置されるAP層及びデータベースサーバが配置されるDB層から構成されることを特徴とする付記4に記載の自律制御プログラム。
(付記8)前記制御実行手順は、いずれかの情報処理装置に障害が発生した場合には、該障害が発生した情報処理装置の代替装置として動作する情報処理装置を予備のリソースから選択して障害を復旧し、前記情報処理システムに所定の大きさを超える負荷変動が発生した場合には、リソースの再配置を行うことによって自律制御を行うことを特徴とする付記4に記載の自律制御プログラム。
(付記9)前記情報処理システムは、サーバ、ストレージおよびネットワーク装置を情報処理装置として構成されるシステムであることを特徴とする付記1、2または3に記載の自律制御プログラム。
(付記10)ネットワークにより接続された複数の情報処理装置から構成される情報処理システムを自律制御する自律制御プログラムであって、
前記情報処理システムを管理するにあたっての要件であるポリシーを記憶した記憶装置から該ポリシーを読み出すポリシー読出手順と、
前記ポリシー読出手順により読み出されたポリシーに基づいて各情報処理装置に制御指示を行う制御指示手順と、
をコンピュータに実行させることを特徴とする自律制御プログラム。
(付記11)ネットワークにより接続された複数の情報処理装置から構成される情報処理システムを自律制御する自律制御プログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記情報処理システムを管理するにあたっての要件であるポリシーを記憶した記憶装置から該ポリシーを読み出すポリシー読出手順と、
前記ポリシー読出手順により読み出されたポリシーに基づいて自律制御を行う制御実行手順と、
をコンピュータに実行させる自律制御プログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
(付記12)ネットワークにより接続された複数の情報処理装置から構成される情報処理システムを自律制御する自律制御プログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記情報処理システムを管理するにあたっての要件であるポリシーを記憶した記憶装置から該ポリシーを読み出すポリシー読出手順と、
前記ポリシー読出手順により読み出されたポリシーに基づいて各情報処理装置に制御指示を行う制御指示手順と、
をコンピュータに実行させる自律制御プログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
(付記13)ネットワークにより接続された複数の情報処理装置から構成される情報処理システムを自律制御する自律制御装置であって、
前記情報処理システムを管理するにあたっての要件であるポリシーを記憶したポリシー記憶手段と、
前記ポリシー記憶手段により記憶されたポリシーに基づいて自律制御を行う制御実行手段と、
を備えたことを特徴とする自律制御装置。
(付記14)ネットワークにより接続された複数の情報処理装置から構成される情報処理システムを自律制御する自律制御装置であって、
前記情報処理システムを管理するにあたっての要件であるポリシーを記憶したポリシー記憶手段と、
前記ポリシー記憶手段により記憶されたポリシーに基づいて各情報処理装置に制御指示を行う制御指示手段と、
を備えたことを特徴とする自律制御装置。
(付記15)ネットワークにより接続された複数の情報処理装置から構成される情報処理システムを自律制御する自律制御方法であって、
前記情報処理システムを管理するにあたっての要件であるポリシーを記憶した記憶装置から該ポリシーを読み出すポリシー読出工程と、
前記ポリシー読出工程により読み出されたポリシーに基づいて自律制御を行う制御実行工程と、
を含んだことを特徴とする自律制御方法。
(付記16)ネットワークにより接続された複数の情報処理装置から構成される情報処理システムを自律制御する自律制御方法であって、
前記情報処理システムを管理するにあたっての要件であるポリシーを記憶した記憶装置から該ポリシーを読み出すポリシー読出工程と、
前記ポリシー読出工程により読み出されたポリシーに基づいて各情報処理装置に制御指示を行う制御指示工程と、
を含んだことを特徴とする自律制御方法。
以上のように、本発明に係る自律制御プログラム及びその記録媒体、自律制御装置並びに自律制御方法は、サーバ、ストレージ及びネットワーク装置から構成される情報処理システムに有用であり、特に、ポリシーに基づいて柔軟な自律制御を行いたい場合に適している。
本実施例に係る自律制御ループの概念を説明するための説明図である。 本実施例に係る自律制御ループの相関図である。 本実施例に係る自律制御におけるリソースプールの概念を説明するための説明図である。 本実施例に係る自律制御システムのシステム構成を示す機能ブロック図である。 本実施例に係る自律制御システムのサービスモデルの構成を示す図である。 本実施例に係る自律制御システムの論理構成を示す図である。 本実施例に係る自律制御システムの物理構成を示す図である。 ポリシーの全体イメージを示す図である。 ポリシーの全体構成を示す図である。 ポリシーの詳細を示す図である。 物理サーバと型番の対応関係の一例を示す図である。 物理サーバの型番詳細情報の一例を示す図である。 物理ネットワークと型番の対応関係の一例を示す図である。 物理ネットワークの型番詳細情報の一例を示す図である。 物理ストレージと型番の対応関係の一例を示す図である。 物理ストレージの型番詳細情報の一例を示す図である。 物理リソース接続関係の一例を示す図である。 物理―論理マッピングの一例を示す図である。 論理サーバとタイプの対応関係の一例を示す図である。 論理サーバのタイプ詳細情報の一例を示す図である。 論理ネットワークとタイプの対応関係の一例を示す図である。 論理ネットワークのタイプ詳細情報の一例を示す図である。 論理ストレージとタイプの対応関係の一例を示す図である。 論理ストレージのタイプ詳細情報の一例を示す図である。 論理リソース接続関係の一例を示す図である。 論理サーバとサービスレイヤの対応関係の一例を示す図である。 論理ストレージとサービスレイヤの対応関係の一例を示す図である。 論理ネットワークとサービスレイヤの対応関係の一例を示す図である。 サービスとリソースの対応関係の一例を示す図である。 共有プールに登録される物理サーバの一例を示す図である。 サーバ故障からの復旧処理の処理手順を示すシーケンス図(1)である。 サーバ故障からの復旧処理の処理手順を示すシーケンス図(2)である。 サーバ故障からの復旧処理の処理手順を示すシーケンス図(3)である。 サーバ故障からの復旧処理の処理手順を示すシーケンス図(4)である。 性能劣化からの回復処理の処理手順を示すシーケンス図(1)である。 性能劣化からの回復処理の処理手順を示すシーケンス図(2)である。 性能劣化からの回復処理の処理手順を示すシーケンス図(3)である。 性能劣化からの回復処理の処理手順を示すシーケンス図(4)である。 プールのリソース補充処理の処理手順を示すシーケンス図である。 共有プールからベアメタルプールへのリソース補充処理の処理手順を示すシーケンス図である。 ベアメタルプールからスタンバイプールへのリソース補充処理の処理手順を示すシーケンス図である。 本実施例に係る自律制御システムの障害時の監視・計測、分析、設計、検証、操作の各機能を示す図(1)である。 本実施例に係る自律制御システムの障害時の監視・計測、分析、設計、検証、操作の各機能を示す図(2)である。 本実施例に係る自律制御システムの性能劣化時の監視・計測、分析、設計、検証、操作の各機能を示す図(1)である。 本実施例に係る自律制御システムの性能劣化時の監視・計測、分析、設計、検証、操作の各機能を示す図(2)である。 本実施例に係るサーバノードとして動作するコンピュータシステムの一例を示す図である。 図38に示した本体部の構成を示す機能ブロック図である。
符号の説明
100 管理ノード
101 ポリシーマネジャ
102 ポリシーDB
103 ワークグループサービスマネジャ
104 ワークグループサービスDB
105 ワークグループシステムリソースマネジャ
106 ワークグループシステムDB
107 ワークグループリソースコーディネータ
108 ワークグループサーバリソースマネジャ
109 ワークグループサーバDB
110 ワークグループストレージリソースマネジャ
111 ワークグループストレージDB
112 ワークグループネットワークリソースマネジャ
113 ワークグループネットワークDB
114 オープンI/F
210,240 サーバノード
211 ノードシステムリソースマネジャ
212 ノードサービスマネジャ
213 ノードリソースコーディネータ
214 ノードサーバリソースマネジャ
215 ノードストレージリソースマネジャ
216 ノードネットワークリソースマネジャ
220,250 ストレージノード
221 ストレージノードリソースマネジャ
230,260 ネットワークノード
231 ネットワークノードリソースマネジャ
241 マルチベンダサーバ/ストレージ/ネットワークリソースマネジャ
251 ストレージマルチベンダリソースマネジャ
261 ネットワークマルチベンダリソースマネジャ
301 ルータ
302 Webサーバ
303 APサーバ
304 DBサーバ
305 ストレージ
400 コンピュータシステム
401 本体部
402 ディスプレイ
402a 表示画面
403 キーボード
404 マウス
406 LAN
407 公衆回線
408 フロッピィディスク
409 CD−ROM
411 サーバ
412 プリンタ
421 CPU
422 RAM
423 ROM
424 ハードディスクドライブ
425 CD−ROMドライブ
426 フロッピィディスクドライブ
427 I/Oインタフェース
428 LANインタフェース
429 モデム

Claims (10)

  1. ネットワークにより接続された複数の情報処理装置から構成される情報処理システムを自律制御する自律制御プログラムであって、
    前記情報処理システムを管理するにあたっての要件であるポリシーを記憶した記憶装置から該ポリシーを読み出すポリシー読出手順と、
    前記ポリシー読出手順により読み出されたポリシーに基づいて自律制御を行う制御実行手順と、
    をコンピュータに実行させることを特徴とする自律制御プログラム。
  2. 前記ポリシーは、前記情報処理システム全体についてのポリシーと、各情報処理装置ごとのポリシーとから構成されることを特徴とする請求項1に記載の自律制御プログラム。
  3. 前記ポリシーは、情報処理システムを運用してサービスを提供するセンターのポリシーと、情報処理システムを利用する顧客のポリシーと、情報処理システムの提供するサービスのポリシーとから構成されることを特徴とする請求項1に記載の自律制御プログラム。
  4. 前記情報処理システムは、提供するサービスのサービスモデルを構成する複数のサービス階層の各階層にリソースである情報処理装置を割り当て、
    利用されていない予備のリソースを集めて共有プールとして管理し、
    共有プールの中のリソースのうち各サービス階層で利用可能であると判定されたリソースをサービス階層ごとに集めてベアメタルプールとして管理し、
    ベアメタルプールの中から選択して各サービス階層での利用に必要な準備を完了したリソースをサービス階層ごとに集めてスタンバイプールとして管理し、
    前記制御実行手順は、スタンバイプール、ベアメタルプール、共有プールの順に必要な予備のリソースを探して自律制御を行うことを特徴とする請求項1、2または3に記載の自律制御プログラム。
  5. 前記サービスモデルは、インターネットとイントラネットとを接続するFront層、ウェブサーバが配置されるWeb層、アプリケーションサーバが配置されるAP層及びデータベースサーバが配置されるDB層から構成されることを特徴とする請求項4に記載の自律制御プログラム。
  6. 前記制御実行手順は、いずれかの情報処理装置に障害が発生した場合には、該障害が発生した情報処理装置の代替装置として動作する情報処理装置を予備のリソースから選択して障害を復旧し、前記情報処理システムに所定の大きさを超える負荷変動が発生した場合には、リソースの再配置を行うことによって自律制御を行うことを特徴とする請求項4に記載の自律制御プログラム。
  7. 前記情報処理システムは、サーバ、ストレージおよびネットワーク装置を情報処理装置として構成されるシステムであることを特徴とする請求項1、2または3に記載の自律制御プログラム。
  8. ネットワークにより接続された複数の情報処理装置から構成される情報処理システムを自律制御する自律制御プログラムを記録したコンピュータ読み取り可能な記録媒体であって、
    前記情報処理システムを管理するにあたっての要件であるポリシーを記憶した記憶装置から該ポリシーを読み出すポリシー読出手順と、
    前記ポリシー読出手順により読み出されたポリシーに基づいて自律制御を行う制御実行手順と、
    をコンピュータに実行させる自律制御プログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
  9. ネットワークにより接続された複数の情報処理装置から構成される情報処理システムを自律制御する自律制御装置であって、
    前記情報処理システムを管理するにあたっての要件であるポリシーを記憶したポリシー記憶手段と、
    前記ポリシー記憶手段により記憶されたポリシーに基づいて自律制御を行う制御実行手段と、
    を備えたことを特徴とする自律制御装置。
  10. ネットワークにより接続された複数の情報処理装置から構成される情報処理システムを自律制御する自律制御方法であって、
    前記情報処理システムを管理するにあたっての要件であるポリシーを記憶した記憶装置から該ポリシーを読み出すポリシー読出工程と、
    前記ポリシー読出工程により読み出されたポリシーに基づいて自律制御を行う制御実行工程と、
    を含んだことを特徴とする自律制御方法。
JP2004162442A 2004-05-31 2004-05-31 自律制御プログラム及びその記録媒体、自律制御装置並びに自律制御方法 Expired - Fee Related JP4308086B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2004162442A JP4308086B2 (ja) 2004-05-31 2004-05-31 自律制御プログラム及びその記録媒体、自律制御装置並びに自律制御方法
DE102004046046A DE102004046046B4 (de) 2004-05-31 2004-09-21 Vorrichtung zum Einstellen eines Betriebsmittels
GB0421446A GB2414824B (en) 2004-05-31 2004-09-27 Autonomous reconfiguration of an information processing system
US10/951,932 US7680914B2 (en) 2004-05-31 2004-09-28 Autonomous control apparatus, autonomous control method, and computer product
KR1020040082332A KR100647179B1 (ko) 2004-05-31 2004-10-14 자율 제어 프로그램 및 그 기록 매체, 자율 제어 장치 및자율 제어 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004162442A JP4308086B2 (ja) 2004-05-31 2004-05-31 自律制御プログラム及びその記録媒体、自律制御装置並びに自律制御方法

Publications (2)

Publication Number Publication Date
JP2005346204A true JP2005346204A (ja) 2005-12-15
JP4308086B2 JP4308086B2 (ja) 2009-08-05

Family

ID=33411304

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004162442A Expired - Fee Related JP4308086B2 (ja) 2004-05-31 2004-05-31 自律制御プログラム及びその記録媒体、自律制御装置並びに自律制御方法

Country Status (5)

Country Link
US (1) US7680914B2 (ja)
JP (1) JP4308086B2 (ja)
KR (1) KR100647179B1 (ja)
DE (1) DE102004046046B4 (ja)
GB (1) GB2414824B (ja)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007200128A (ja) * 2006-01-27 2007-08-09 Nec Corp 計算機システム、管理サーバ、計算機設定時間を低減する方法およびプログラム
JP2007293422A (ja) * 2006-04-21 2007-11-08 Hitachi Ltd ネットワークブート計算機システムの高信頼化方法
JP2008004092A (ja) * 2006-06-19 2008-01-10 Internatl Business Mach Corp <Ibm> 情報技術インフラストラクチャを動的にプロビジョニングするための方法
JP2009237809A (ja) * 2008-03-26 2009-10-15 Nec Corp マルチベンダーサーバシステムの保守運用システム
JP2009543216A (ja) * 2006-06-27 2009-12-03 インターナショナル・ビジネス・マシーンズ・コーポレーション コンピュータ・ストレージ・システムの制御のための方法およびコンピュータ・プログラム
JP2010073151A (ja) * 2008-09-22 2010-04-02 Nec Corp クラスタシステムにおける性能低下の原因箇所の特定方法、クラスタシステム
JP2010102414A (ja) * 2008-10-22 2010-05-06 Fujitsu Ltd 仮想システム制御プログラム、方法及び装置
JP2010102415A (ja) * 2008-10-22 2010-05-06 Fujitsu Ltd 仮想システム制御プログラム、方法及び装置
JP2011527781A (ja) * 2008-07-01 2011-11-04 インターナショナル・ビジネス・マシーンズ・コーポレーション ネットワーク資源がサービス・ランドスケープ・インスタンス内でプロビジョンされるときに、ネットワーク・セキュリティ・ポリシ・ルールを更新するためのコンピュータ実装方法、システム及びコンピュータ・プログラム
JP2012064244A (ja) * 2011-12-19 2012-03-29 Hitachi Ltd ネットワークブート計算機システム、管理計算機、及び計算機システムの制御方法
JP2013206047A (ja) * 2012-03-28 2013-10-07 Toshiba It Service Kk 障害波及管理システム
JP2015507279A (ja) * 2012-01-09 2015-03-05 マイクロソフト コーポレーション Paas階層スケジューリングおよび自動スケーリング
JP2015191246A (ja) * 2014-03-27 2015-11-02 株式会社Nttドコモ 通信システムおよび管理方法
JP2016536661A (ja) * 2013-09-23 2016-11-24 ジーオーピーシー・プロプライエタリー・リミテッドGopc Pty Ltd 仮想コンピュータシステム及び方法
US10241812B2 (en) 2012-01-09 2019-03-26 Microsoft Technology Licensing, Llc Assignment of resources in virtual machine pools

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040111513A1 (en) * 2002-12-04 2004-06-10 Shen Simon S. Automatic employment of resource load information with one or more policies to automatically determine whether to decrease one or more loads
CA2435655A1 (en) * 2003-07-21 2005-01-21 Symbium Corporation Embedded system administration
US7428658B2 (en) * 2004-10-26 2008-09-23 International Business Machines Corporation Checking storage reconfiguration
US20060190522A1 (en) * 2005-02-18 2006-08-24 Mitsuhiro Nagata Method for controlling a computer
US7788544B2 (en) * 2006-05-03 2010-08-31 Computer Associates Think, Inc. Autonomous system state tolerance adjustment for autonomous management systems
WO2013014545A1 (en) * 2011-07-26 2013-01-31 International Business Machines Corporation Managing workloads in a multiprocessing computer system
US9432256B2 (en) * 2014-03-27 2016-08-30 Hitachi, Ltd. Resource management method and resource management system

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6024647A (ja) * 1983-07-20 1985-02-07 Hitachi Ltd システムの自律化資源管理方式
JPS6140643A (ja) * 1984-07-31 1986-02-26 Hitachi Ltd システムの資源割当て制御方式
US5996013A (en) * 1997-04-30 1999-11-30 International Business Machines Corporation Method and apparatus for resource allocation with guarantees
US6038673A (en) * 1998-11-03 2000-03-14 Intel Corporation Computer system with power management scheme for DRAM devices
JP2000316025A (ja) 1999-03-03 2000-11-14 Hitachi Ltd 通信品質保証型ネットワークシステム
AU2080901A (en) * 1999-12-30 2001-07-16 Sony Electronics Inc. A resource manager for providing user-dependent access control
US6636988B1 (en) * 2000-03-03 2003-10-21 International Business Machines Corporation Application of automation and procedures to enable high-speed recovery and relocation of computer workloads
US7228453B2 (en) 2000-10-16 2007-06-05 Goahead Software, Inc. Techniques for maintaining high availability of networked systems
US7249179B1 (en) * 2000-11-09 2007-07-24 Hewlett-Packard Development Company, L.P. System for automatically activating reserve hardware component based on hierarchical resource deployment scheme or rate of resource consumption
US6898705B2 (en) * 2001-05-31 2005-05-24 International Business Machines Corporation Automatic appliance server re-provision/re-purposing method
US7213065B2 (en) * 2001-11-08 2007-05-01 Racemi, Inc. System and method for dynamic server allocation and provisioning
US7318164B2 (en) * 2001-12-13 2008-01-08 International Business Machines Corporation Conserving energy in a data processing system by selectively powering down processors
WO2003083734A2 (en) * 2002-03-27 2003-10-09 British Telecommunications Public Limited Company Policy based system management
US20040181476A1 (en) * 2003-03-13 2004-09-16 Smith William R. Dynamic network resource brokering

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4605036B2 (ja) * 2006-01-27 2011-01-05 日本電気株式会社 計算機システム、管理サーバ、計算機設定時間を低減する方法およびプログラム
JP2007200128A (ja) * 2006-01-27 2007-08-09 Nec Corp 計算機システム、管理サーバ、計算機設定時間を低減する方法およびプログラム
JP2007293422A (ja) * 2006-04-21 2007-11-08 Hitachi Ltd ネットワークブート計算機システムの高信頼化方法
US8407514B2 (en) 2006-04-21 2013-03-26 Hitachi, Ltd. Method of achieving high reliability of network boot computer system
JP2008004092A (ja) * 2006-06-19 2008-01-10 Internatl Business Mach Corp <Ibm> 情報技術インフラストラクチャを動的にプロビジョニングするための方法
JP2009543216A (ja) * 2006-06-27 2009-12-03 インターナショナル・ビジネス・マシーンズ・コーポレーション コンピュータ・ストレージ・システムの制御のための方法およびコンピュータ・プログラム
JP2009237809A (ja) * 2008-03-26 2009-10-15 Nec Corp マルチベンダーサーバシステムの保守運用システム
JP2011527781A (ja) * 2008-07-01 2011-11-04 インターナショナル・ビジネス・マシーンズ・コーポレーション ネットワーク資源がサービス・ランドスケープ・インスタンス内でプロビジョンされるときに、ネットワーク・セキュリティ・ポリシ・ルールを更新するためのコンピュータ実装方法、システム及びコンピュータ・プログラム
JP2010073151A (ja) * 2008-09-22 2010-04-02 Nec Corp クラスタシステムにおける性能低下の原因箇所の特定方法、クラスタシステム
JP2010102414A (ja) * 2008-10-22 2010-05-06 Fujitsu Ltd 仮想システム制御プログラム、方法及び装置
JP2010102415A (ja) * 2008-10-22 2010-05-06 Fujitsu Ltd 仮想システム制御プログラム、方法及び装置
US8799896B2 (en) 2008-10-22 2014-08-05 Fujitsu Limited Virtual system control method and apparatus
JP2012064244A (ja) * 2011-12-19 2012-03-29 Hitachi Ltd ネットワークブート計算機システム、管理計算機、及び計算機システムの制御方法
JP2015507279A (ja) * 2012-01-09 2015-03-05 マイクロソフト コーポレーション Paas階層スケジューリングおよび自動スケーリング
US10241812B2 (en) 2012-01-09 2019-03-26 Microsoft Technology Licensing, Llc Assignment of resources in virtual machine pools
JP2013206047A (ja) * 2012-03-28 2013-10-07 Toshiba It Service Kk 障害波及管理システム
JP2016536661A (ja) * 2013-09-23 2016-11-24 ジーオーピーシー・プロプライエタリー・リミテッドGopc Pty Ltd 仮想コンピュータシステム及び方法
JP2015191246A (ja) * 2014-03-27 2015-11-02 株式会社Nttドコモ 通信システムおよび管理方法

Also Published As

Publication number Publication date
JP4308086B2 (ja) 2009-08-05
US7680914B2 (en) 2010-03-16
US20050268148A1 (en) 2005-12-01
GB2414824B (en) 2007-09-19
GB0421446D0 (en) 2004-10-27
GB2414824A (en) 2005-12-07
DE102004046046A1 (de) 2005-12-29
KR100647179B1 (ko) 2006-11-23
DE102004046046B4 (de) 2010-03-04
KR20050114185A (ko) 2005-12-05

Similar Documents

Publication Publication Date Title
JP4308086B2 (ja) 自律制御プログラム及びその記録媒体、自律制御装置並びに自律制御方法
US10728135B2 (en) Location based test agent deployment in virtual processing environments
US11296922B2 (en) Context-aware automated root cause analysis in managed networks
KR101925696B1 (ko) 대규모 데이터 스트림들의 획득, 저장, 및 소비를 위한 관리 서비스
US9134922B2 (en) System and method for allocating datastores for virtual machines
US10146636B1 (en) Disaster recovery rehearsals
KR100491541B1 (ko) 네트웍 환경에서의 컨텐츠 동기화 시스템 및 동기화 방법
US20210168034A1 (en) Configuration and management of scalable global private networks
US8832498B1 (en) Scalable codebook correlation for cloud scale topology
US8533337B2 (en) Continuous upgrading of computers in a load balanced environment
US11283688B2 (en) Delayed recomputation of formal network topology models based on modifications to deployed network topologies
JP2004295811A (ja) ジョブ管理機能を有するストレージ系障害管理方法及び装置
US8054763B2 (en) Migration of switch in a storage area network
US8387013B2 (en) Method, apparatus, and computer product for managing operation
US9736046B1 (en) Path analytics using codebook correlation
CN112513815A (zh) 训练数据中心硬件实例网络
US11336528B2 (en) Configuration and management of scalable global private networks
CN107864055A (zh) 虚拟化系统的管理方法及平台
Diallo et al. AutoMigrate: a framework for developing intelligent, self-managing cloud services with maximum availability
WO2021041039A1 (en) Computational instance batching and automation orchestration based on resource usage and availability
US11095540B2 (en) Hybrid anomaly detection for response-time-based events in a managed network
US10909094B1 (en) Migration scheduling for fast-mutating metadata records
US20160043894A1 (en) Automatic reconfiguration of network parameters during file system failover
Gopisetty et al. Automated planners for storage provisioning and disaster recovery
US10999169B1 (en) Configuration and management of scalable global private networks

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061127

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090304

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090428

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090430

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120515

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120515

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130515

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130515

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees