JP2018169920A - 管理装置、管理方法及び管理プログラム - Google Patents

管理装置、管理方法及び管理プログラム Download PDF

Info

Publication number
JP2018169920A
JP2018169920A JP2017068233A JP2017068233A JP2018169920A JP 2018169920 A JP2018169920 A JP 2018169920A JP 2017068233 A JP2017068233 A JP 2017068233A JP 2017068233 A JP2017068233 A JP 2017068233A JP 2018169920 A JP2018169920 A JP 2018169920A
Authority
JP
Japan
Prior art keywords
state
communication
service
clone
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017068233A
Other languages
English (en)
Other versions
JP6828558B2 (ja
Inventor
朗 峯岸
Akira Minegishi
朗 峯岸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2017068233A priority Critical patent/JP6828558B2/ja
Priority to US15/920,621 priority patent/US10817400B2/en
Publication of JP2018169920A publication Critical patent/JP2018169920A/ja
Application granted granted Critical
Publication of JP6828558B2 publication Critical patent/JP6828558B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3433Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment for load management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45591Monitoring or debugging support

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)
  • Retry When Errors Occur (AREA)

Abstract

【課題】情報処理環境での管理機構の復旧を短時間で行うこと。【解決手段】情報取得部34が、サービスデーモン5からステータス情報を取得する通信を行うとともに、サービスVM2及びクローンと相互通信を行う。そして、ログ処理部32が、サービスデーモン5との通信の状態、サービスVM2との通信の状態及びクローンとの相互通信の状態に基づいて問題箇所の特定に用いる項目の状態を特定する。そして、情報取得部34が、問題箇所の特定に用いる項目についてクローンが特定した状態をクローンから取得する。そして、問題箇所特定部33aが、問題箇所の特定に用いる項目についてログ処理部32が特定した状態と情報取得部34がクローンから取得した状態に基づいて、問題箇所がサービスデーモン5、サービスVM2又は管理マネージャー3のいずれであるかを特定する。そして、復旧部33bが、問題箇所に対応する復旧動作を行う。【選択図】図2

Description

本発明は、管理装置、管理方法及び管理プログラムに関する。
近年、仮想化技術によりCPU(Central Processing Unit)、メインメモリ等のハードウェア資源を仮想化した仮想環境の利用が進んでいる。仮想環境では、ハードウェア及び仮想環境の状態を監視して管理するために、仮想環境に専用のVM(Virtual Machine)としてサービスVMを設定して運用することが行われる。
図10は、仮想環境での管理機構を説明するための図である。図10に示すように、仮想環境では、仮想基盤4がハードウェア6を仮想化して提供する。サービスVM92は、仮想基盤上で動作する。サービスVM92では、管理マネージャー93が動作する。管理マネージャー93は、仮想基盤4で動作するサービスデーモン5からハードウェア6及び仮想環境の状態に関する情報を取得し、仮想環境の監視及び管理を行う。
なお、第1OS、第1OSと異なる第2OS、第1OSと第2OSの間のOS間通信機能を備えるマルチOS制御部、第2OS上で動作する障害監視モニタを搭載する計算機において、障害監視モニタがOS間通信機能を介して第1OSの障害を監視する技術がある。ここで、OSは、オペレーティングシステム(Operating System)である。この技術によれば、専用のハードウェアを追加することなくOSの障害を監視することができる。
また、第1APがVMを起動後、VM上で動作する第2APを起動して第2APの動作を監視し、第2APの動作異常を検出すると、VMを別のVMに切替え、切替後のVM上にて第2APを再起動することで第2APを復旧する技術がある。ここで、APはアプリケーションプログラム(Application Program)である。この技術によれば、現OSと異なるOS環境下で第2APを動作させることにより、第2APが動作しているOSが異常動作しても監視を行うことができる。
特開2001−101033号公報 特開2006−268277号公報
図10に示した管理機構において、ハードウェア6の状態表示ができない等の状況が発生した場合、サービスVM92の側に原因があるのかサービスデーモン5の側に原因があるのかの特定に手間取り、管理機構の復旧に時間がかかるという問題がある。
本発明は、1つの側面では、情報処理環境での管理機構の復旧を短時間で行うことを目的とする。
1つの態様では、管理装置は、通信部と第1特定部と取得部と第2特定部と復旧部とを有する。通信部は、自身が動作する基盤の状態情報を取得する通信を行うとともに、自身と同様の機能を有し基盤で動作するクローンと相互通信を行う。第1特定部は、基盤との通信状態、基盤の状態情報及びクローンとの通信状態に基づいて、問題箇所の特定に用いる項目の状態を特定する。取得部は、クローンが基盤の状態情報及び相互通信の通信状態に基づいて項目について特定した状態をクローンから取得する。第2特定部は、第1特定部が項目について特定した状態と取得部が項目について取得した状態とに基づいて、問題箇所が基盤の状態情報を収集する機能部、クローン又は自身のいずれであるかを特定する。復旧部は、第2特定部により特定された問題箇所に対応する復旧動作を行う。
1つの側面では、本発明は、情報処理環境での管理機構の復旧を短時間で行うことができる。
図1は、実施例に係る管理システムによる管理機構の仕組みを説明するための図である。 図2は、管理マネージャーの機能構成を示す図である。 図3Aは、サービスデーモンに問題ありと判定する方法を説明するための図である。 図3Bは、サービスVMに問題ありと判定する方法を説明するための図である。 図3Cは、管理マネージャーに問題ありと判定する方法を説明するための図である。 図4は、復旧動作を説明するための図である。 図5は、仮想環境の負荷変動に応じた対応を説明するための図である。 図6は、管理マネージャーによる処理のフローを示すフローチャートである。 図7は、管理マネージャー、サービスVM及びサービスデーモンのステータスを用いた問題箇所の特定を説明するための図である。 図8は、スタンバイ側とアクティブ側の2者間の関係に基づいて問題箇所を特定する処理のフローを示すフローチャートである。 図9は、実施例に係る管理プログラムを実行するコンピュータのハードウェア構成を示す図である。 図10は、仮想環境での管理機構を説明するための図である。
以下に、本願の開示する管理装置、管理方法及び管理プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例は開示の技術を限定するものではない。
まず、実施例に係る管理システムによる管理機構の仕組みについて説明する。図1は、実施例に係る管理システムによる管理機構の仕組みを説明するための図である。図1に示すように、実施例に係る管理システム1では、仮想基盤4でサービスVM(A)とサービスVM(B)で表される2つのサービスVM2が動作する。
サービスVM2は、ハードウェア6及び仮想環境の状態を監視して管理するための専用のVMである。サービスVM(A)では、管理マネージャー(A)で表される管理マネージャー3が動作する。管理マネージャー3は、仮想基盤4で動作するサービスデーモン5からハードウェア6及び仮想環境のステータス(状態)に関する情報を取得し、仮想環境の監視及び管理を行う。サービスVM(B)は、サービスVM(A)のクローンである。管理マネージャー(B)は、管理マネージャー(A)のクローンである。
管理マネージャー3は、ハード管理部7を介してCPU、メインメモリ、ディスク装置等のハードウェア6のステータスを収集する。
サービスVM2では、基準サービス部23が動作する。基準サービス部23は、サービスデーモン5の応答を模擬する。管理マネージャー3は、サービスデーモン5の代わりに基準サービス部23と通信することによって、管理マネージャー3からサービスVM2への通信経路が正常に動作しているか否かを確認することができる。
管理マネージャー3は、他の管理マネージャー3とハートビート通信を行うことにより、相互に状態を確認する。また、管理マネージャー3は、他の管理マネージャー3から監視情報を取得する。また、管理マネージャー3は、定期的に監視状況を管理者8に通報する。
このように、管理システム1は、元のサービスVM2とクローンのサービスVM2との組み合わせで、同じ経路による監視の仕組みを2つ備え、それぞれがサービスデーモン5及びハード管理部7と通信し、管理者8に監視状況を通報する。そして、管理システム1は、元のサービスVM2、クローンのサービスVM2、サービスデーモン5、ハード管理部7、管理者8の間の通信状態に基づいて、サービスVM2、管理マネージャー3及びサービスデーモン5の状態を監視する。
次に、管理マネージャー3の機能構成について説明する。図2は、管理マネージャー3の機能構成を示す図である。図2に示すように、管理マネージャー3は、ログ記憶部31と、ログ処理部32と、情報解析部33と、情報取得部34と、通報部35とを有する。
ログ記憶部31は、サービスデーモン5から取得したステータス情報及びハード管理部7から取得したハードウェア情報をログとして記憶する。
ログ処理部32は、ログ記憶部31が記憶するログを処理して、問題箇所の特定に用いる項目の状態を特定する。問題箇所の特定に用いる項目には、サービスデーモン通信、管理マネージャー通信、サービスVM通信、ステータス情報、通報サービス及びハードウェア情報がある。
サービスデーモン通信は、サービスデーモン5との通信であり、状態として、サービスデーモン5との通信ができる「接続可」と、サービスデーモン5との通信ができない「接続不可」とがある。
管理マネージャー通信は、他の管理マネージャー3との通信であり、状態として、他の管理マネージャー3との通信ができる「接続可」と、他の管理マネージャー3との通信ができない「接続不可」とがある。
サービスVM通信は、サービスVM2との通信であり、状態として、サービスVM2との通信ができる「応答あり」と、サービスVM2との通信ができない「応答なし」とがある。
ステータス情報は、サービスデーモン5から取得する情報であり、状態として、直近の情報が得られた「直近情報あり」と、直近の情報が得られなかった「直近情報なし」とがある。
通報サービスは、管理者8へ通報するサービスであり、状態として、管理者8への通報が行われている「通報済」と、管理者8への通報が行われていない「通報なし」とがある。
ハードウェア情報は、ハード管理部7から取得する情報であり、状態として、ハードウェア6に問題がある「問題あり」と、ハードウェア6に問題がない「問題なし」とがある。
情報解析部33は、ログ処理部32により特定された項目状態に基づいて、問題箇所を特定し、特定した問題に対応する復旧動作を行う。情報解析部33は、問題箇所特定部33aと、復旧部33bと、負荷対応部33cとを有する。
問題箇所特定部33aは、ログ処理部32により特定された項目状態とクローンの管理マネージャー3から受け取ったクローンの監視情報に基づいて、問題箇所を特定する。ここで、クローンの監視情報は、クローンの管理マネージャー3が特定した項目状態の情報である。
図3A〜図3Cは、問題箇所を特定する方法を説明するための図である。図3Aは、サービスデーモン5に問題ありと判定する方法を説明するための図であり、図3Bは、サービスVM2に問題ありと判定する方法を説明するための図であり、図3Cは、管理マネージャー3に問題ありと判定する方法を説明するための図である。
なお、図3A〜図3Cにおいて、監視管理系統Aは、管理マネージャー(A)による各項目の状態の特定結果を示し、監視管理系統Bは、管理マネージャー(B)による各項目の状態の特定結果を示す。また、判定は、項目について特定された状態を示す。監視管理系統Aか監視管理系統Bのいずれかで状態の特定結果が異常(×)である場合に、判定は異常(×)であり、監視管理系統Aと監視管理系統Bの両方で状態の特定結果が正常(○)である場合に、判定は正常(○)である。
図3Aでは、サービスデーモン通信は「接続不可」(×)であり、管理マネージャー通信は「接続可」(○)であり、サービスVM通信は、「応答あり」(○)であり、ステータス情報は「直近情報なし」(×)であり、通報サービスは「通報済」(○)である。また、ハードウェア情報は「問題なし」(○)である。すなわち、直近情報が得られず、サービスデーモン5との通信ができず、管理マネージャー3の間では通信できることから、サービスデーモン5に問題ありと特定される。
図3Bでは、サービスデーモン通信は「接続可」(○)であり、管理マネージャー通信は監視管理系統Aで「接続可」(○)であり、監視管理系統Bで「接続不可」(×)である。また、サービスVM通信は、監視管理系統Aで「応答あり」(○)であり、監視管理系統Bで「応答なし」(×)であり、ステータス情報は「直近情報あり」(○)である。また、通報サービスは「通報済」(○)であり、ハードウェア情報は「問題なし」(○)である。すなわち、監視管理系統AではサービスVM通信及び管理マネージャー通信ができ、監視管理系統BではサービスVM通信及び管理マネージャー通信ができないことから、サービスVM(B)に問題ありと特定される。
図3Cでは、サービスデーモン通信は「接続可」(○)であり、管理マネージャー通信は「接続不可」(×)であり、サービスVM通信は、「応答あり」(○)である。また、ステータス情報は、監視管理系統Aで「直近情報なし」(×)であり、監視管理系統Bで「直近情報あり」(○)であり、通報サービスは、監視管理系統Aで「通報なし」(×)であり、監視管理系統Bで「通報済」(○)である。また、ハードウェア情報は「問題なし」(○)である。すなわち、監視管理系統Aで、直近情報が得られず、管理者8への通報がなく、管理マネージャー通信に問題があることから、管理マネージャー(A)に問題ありと特定される。
復旧部33bは、問題箇所特定部33aにより特定された問題箇所に応じた復旧動作を行う。図4は、復旧動作を説明するための図である。図4は、サービスVM(A)、サービスVM(B)、サービスデーモン5のそれぞれに問題がある場合(×)と問題がない場合(○)の組合せ(ステータスパターン)に対応する復旧動作を示す。
なお、管理マネージャー(A)に問題がある場合の復旧動作は、サービスVM(A)に問題がある場合と同じであり、管理マネージャー(B)に問題がある場合の復旧動作は、サービスVM(B)に問題がある場合と同じである。
図4に示すように、サービスVM(A)、サービスVM(B)、サービスデーモン5のいずれにも問題がない場合には、復旧部33bは何もしない。また、サービスデーモン5だけに問題がある場合には、復旧部33bは、サービスデーモン5を再起動する。また、復旧部33bは、サービスVM(B)だけに問題がある場合には、サービスVM(B)を再起動し、サービスVM(A)だけに問題がある場合には、サービスVM(A)を再起動する。
また、サービスデーモン5とサービスVM(B)に問題がある場合には、復旧部33bは、サービスデーモン5とサービスVM(B)を再起動する。また、サービスデーモン5とサービスVM(A)に問題がある場合には、復旧部33bは、サービスデーモン5とサービスVM(A)を再起動する。
また、サービスVM(A)とサービスVM(B)の両方に問題があり、サービスデーモン5に問題がない場合には、復旧部33bではなく、外部、例えば管理者8に通報し、外部からサービスVM(A)とサービスVM(B)の再起動を行う。また、サービスVM(A)、サービスVM(B)、サービスデーモン5の全てに問題がある場合には、外部、例えば管理者8に通報し、外部からサービスVM(A)、サービスVM(B)、サービスデーモン5の再起動を行う。
負荷対応部33cは、仮想環境の負荷変動に応じた対応を行う。サービスVM2は、仮想基盤上で動作するので、仮想基盤上で動作する業務VMに影響を与えることは望ましくない。このため、負荷対応部33cは、仮想環境の負荷が高い場合には、クローンのサービスVM2の負荷を抑えるように制御する。
図5は、仮想環境の負荷変動に応じた対応を説明するための図である。負荷対応部33cは、仮想環境の負荷が所定の第1閾値より高い場合に、例えば、サービスデーモン5との通信周期を長期化する。あるいは、負荷対応部33cは、仮想環境の負荷がより大きな第2閾値より高い場合には、クローンの動作を一定期間休止する。
情報取得部34は、サービスVM2の通信I/F部21を介してサービスデーモン5からステータス情報を取得する。通信I/F部21は、サービスデーモン5と通信を行うインタフェースである。また、情報取得部34は、通信I/F部21を介して基準サービス部23と通信する。
また、情報取得部34は、サービスVM2のステータス監視部22を介して他の管理マネージャー3から問題箇所の特定に用いられる項目の状態についての情報を取得する。ステータス監視部22は、他のサービスVM2のステータス監視部22と相互に状態を監視するとともに、監視情報を相互に交換する。
通報部35は、サービスデーモン5から取得したハードウェア6及び仮想環境のステータスに関する情報に基づいて、管理者8への通報を行う。管理者8への通報は、SNMP(Simple Network Management Protocol)トラップ又はメールにより行われる。
次に、管理マネージャー3による処理のフローについて説明する。図6は、管理マネージャー3による処理のフローを示すフローチャートである。図6に示すように、管理マネージャー3は、サービスデーモン5、クローンの管理マネージャー3、サービスVM2、ハード管理部7と所定の周期で通信する(ステップS1)。
管理マネージャー3は、サービスデーモン5との通信では、ハードウェア6及び仮想環境の状態に関する情報を取得する。また、管理マネージャー3は、クローンの管理マネージャー3と接続が可能であるかを確認するために通信を行う。また、管理マネージャー3は、サービスVM2と通信が可能であるかを確認するために通信を行う。また、管理マネージャー3は、ハード管理部7との通信では、ハードウェア6の情報を取得する。なお、管理マネージャー3は、サービスデーモン5、クローンの管理マネージャー3、サービスVM2、ハード管理部7との通信において、周期が異なってもよい。
そして、管理マネージャー3は、取得した情報、情報の取得状況及び通信状態に基づいて、問題箇所の特定に用いる項目の状態を特定する(ステップS2)。ここで、問題箇所の特定に用いる項目には、サービスデーモン通信、管理マネージャー通信、サービスVM通信、ステータス情報、通報サービス及びハードウェア情報がある。
そして、管理マネージャー3は、クローンの管理マネージャー3から問題箇所の特定に用いる項目の状態を取得する(ステップS3)。クローンの管理マネージャー3は、問題箇所の特定に用いる項目の状態を特定し、特定した項目状態を送信する。
そして、管理マネージャー3は、特定した項目状態とクローンの管理マネージャー3から取得した項目状態とに基づいて問題箇所を特定する(ステップS4)。そして、管理マネージャー3は、問題箇所に対応する復旧動作を特定し(ステップS5)、特定した復旧動作を実行する(ステップS6)。
上述してきたように、実施例では、情報取得部34が、サービスデーモン5からステータス情報を取得する通信を行うとともに、サービスVM2及びクローンと相互通信を行う。そして、ログ処理部32が、サービスデーモン5との通信の状態、サービスVM2との通信の状態及びクローンとの相互通信の状態に基づいて問題箇所の特定に用いる項目の状態を特定する。そして、情報取得部34が、問題箇所の特定に用いる項目についてクローンが特定した状態をクローンから取得する。そして、問題箇所特定部33aが、問題箇所の特定に用いる項目についてログ処理部32が特定した状態と情報取得部34がクローンから取得した状態に基づいて、問題箇所がサービスデーモン5、サービスVM2又は管理マネージャー3のいずれであるかを特定する。そして、復旧部33bが、問題箇所特定部33aにより特定された問題箇所に対応する復旧動作を行う。したがって、管理マネージャー3は、仮想環境での管理機構の復旧を短時間で行うことができる。
また、実施例では、負荷対応部33cが、仮想基盤4の負荷状況に基づいてサービスデーモン5との通信の周期の変更又はクローンの休止を行うので、管理マネージャー3は、仮想基盤4で動作する業務VMへの悪影響を抑えることができる。
また、実施例では、基準サービス部23が、サービスデーモン5からの応答を模擬するので、管理マネージャー3は、サービスデーモン5との通信に問題があるのかサービスVM2の中の通信に問題があるのかを特定することができる。
ところで、上記実施例では、管理マネージャー3は、問題箇所の特定に用いる項目として、サービスデーモン通信、管理マネージャー通信、サービスVM通信、ステータス情報、通報サービス及びハードウェア情報を用いた。しかしながら、管理マネージャー3は、より少ない情報を用いて問題箇所を特定することもできる。
図7は、管理マネージャー3、サービスVM2及びサービスデーモン5のステータスを用いた問題箇所の特定を説明するための図である。図7は、管理マネージャー3、サービスVM2及びサービスデーモン5について、監視管理系統Aと監視管理系統Bのそれぞれのステータスを示す。ステータスは、正常を示す「OK」又は異常を示す「NG」である。
管理マネージャー3は、クローンの管理マネージャー3との定期的通信のログメッセージを抽出し、抽出したログメッセージに基づいて管理マネージャー3のステータスが正常か異常かを特定する。また、管理マネージャー3は、サービスVM2への定期的通信のログメッセージを抽出し、抽出したログメッセージに基づいてサービスVM2のステータスが正常か異常かを特定する。また、管理マネージャー3は、サービスデーモン5への定期的通信のログメッセージを抽出し、抽出したログメッセージに基づいてサービスデーモン5のステータスが正常か異常かを特定する。
そして、管理マネージャー3は、クローンの管理マネージャー3から、クローンの管理マネージャー3が特定した管理マネージャー3、サービスVM2及びサービスデーモン5のステータスを取得する。
そして、管理マネージャー3は、管理マネージャー3、サービスVM2及びサービスデーモン5について、自身が特定したステータスとクローンが特定したステータスに基づいて、問題箇所を特定する。例えば、図7(a)では、両系統ともサービスデーモン5に問題ありと特定しているので、管理マネージャー3は、問題箇所をサービスデーモン5と特定する。
また、図7(b)では、サービスVM2及びサービスデーモン5との通信には問題がなく、クローンの管理マネージャー3との通信に問題があるので、問題箇所をクローンの管理マネージャー3と特定する。また、図7(c)では、サービスデーモン5との通信には問題がなく、クローンの管理マネージャー3との通信、及び、クローンの管理マネージャー3とサービスVM2との間の通信に問題があるので、問題箇所をクローンのサービスVM2と特定する。
このように、管理マネージャー3は、管理マネージャー3、サービスVM2及びサービスデーモン5について、自身が特定したステータスとクローンが特定したステータスに基づいて、問題箇所を特定するので、簡単に問題箇所を特定することができる。
また、2つの監視管理系統を運用中のアクティブ監視管理系統とスタンバイの状態にあるスタンバイ監視管理系統として問題箇所を特定してもよい。図8は、スタンバイ側とアクティブ側の2者間の関係に基づいて問題箇所を特定する処理のフローを示すフローチャートである。図8(a)は、スタンバイ側の処理のフローを示し、図8(b)は、アクティブ側の処理のフローを示す。
図8に示すように、スタンバイ側の管理マネージャー3は、スタンバイ側のアクションを管理者8に定期的に通報する(ステップS10)。そして、スタンバイ側の管理マネージャー3は、サービスVMアクティブとサービスVMスタンバイ間に問題ありか否かを判定する(ステップS11)。ここで、サービスVMアクティブとは、運用中のサービスVM2であり、サービスVMスタンバイとは、スタンバイの状態にあるサービスVM2である。
そして、スタンバイ側の管理マネージャー3は、サービスVMアクティブとサービスVMスタンバイ間に問題がない場合には、サービスVMスタンバイとサービスデーモン5間に問題ありか否かを判定する(ステップS12)。そして、サービスVMスタンバイとサービスデーモン5間に問題がない場合には、スタンバイ側の管理マネージャー3は、ステップS10に戻る。
一方、サービスVMスタンバイとサービスデーモン5間に問題ありの場合には、スタンバイ側の管理マネージャー3は、サービスデーモン5に問題があると判定し、サービスデーモン5を再起動する(ステップS13)。
また、サービスVMアクティブとサービスVMスタンバイ間に問題ありの場合には、スタンバイ側の管理マネージャー3は、サービスVMスタンバイとサービスデーモン5間に問題ありか否かを判定する(ステップS14)。そして、サービスVMスタンバイとサービスデーモン5間に問題ありと判定した場合には、スタンバイ側の管理マネージャー3は、サービスVMアクティブとサービスデーモン5に問題ありと判定する。そして、スタンバイ側の管理マネージャー3は、サービスデーモン5を再起動し(ステップS15)、スタンバイとアクティブの切り替えを行い(ステップS16)、スタンバイに切り替えられたサービスVM2を再起動する(ステップS17)。
また、ステップS14において、サービスVMスタンバイとサービスデーモン5間に問題はないと判定した場合には、スタンバイ側の管理マネージャー3は、サービスVMアクティブに問題ありと判定する。そして、スタンバイ側の管理マネージャー3は、スタンバイとアクティブの切り替えを行い(ステップS16)、スタンバイに切り替えられたサービスVM2を再起動する(ステップS17)。
また、アクティブ側の管理マネージャー3は、サービスVMアクティブとサービスVMスタンバイ間に問題ありか否かを判定し(ステップS21)、問題がない場合には、ステップS21を再度実行する。一方、サービスVMアクティブとサービスVMスタンバイ間に問題ありの場合には、アクティブ側の管理マネージャー3は、スタンバイ側サービスVMを再起動する(ステップS22)。
このように、サービスVMアクティブとサービスVMスタンバイ間、及び、サービスVMスタンバイとサービスデーモン5間に問題があるかを判定することで、スタンバイ側の管理マネージャー3は、簡単に問題箇所を特定することができる。
なお、実施例では、管理マネージャー3について説明したが、管理マネージャー3が有する構成をソフトウェアによって実現することで、同様の機能を有する管理プログラムを得ることができる。そこで、管理プログラムを実行するコンピュータについて説明する。
図9は、実施例に係る管理プログラムを実行するコンピュータのハードウェア構成を示す図である。図9に示すように、コンピュータ50は、メインメモリ51と、CPU52と、LAN(Local Area Network)インタフェース53と、HDD(Hard Disk Drive)54とを有する。また、コンピュータ50は、スーパーIO(Input Output)55と、DVI(Digital Visual Interface)56と、ODD(Optical Disk Drive)57とを有する。
メインメモリ51は、プログラムやプログラムの実行途中結果などを記憶するメモリである。CPU52は、メインメモリ51からプログラムを読み出して実行する中央処理装置である。CPU52は、メモリコントローラを有するチップセットを含む。
LANインタフェース53は、コンピュータ50をLAN経由で他のコンピュータに接続するためのインタフェースである。HDD54は、プログラムやデータを格納する記憶装置であり、スーパーIO55は、マウスやキーボードなどの入力装置を接続するためのインタフェースである。DVI56は、液晶表示装置を接続するインタフェースであり、ODD57は、DVDの読み書きを行う装置である。
LANインタフェース53は、PCIエクスプレス(PCIe)によりCPU52に接続され、HDD54及びODD57は、SATA(Serial Advanced Technology Attachment)によりCPU52に接続される。スーパーIO55は、LPC(Low Pin Count)によりCPU52に接続される。
そして、コンピュータ50において実行される管理プログラムは、DVD等のコンピュータで読み取り可能な記録媒体に記憶され、ODD57によって記憶媒体から読み出されてコンピュータ50にインストールされる。あるいは、管理プログラムは、LANインタフェース53を介して接続された他のコンピュータシステムのデータベースなどに記憶され、これらのデータベースから読み出されてコンピュータ50にインストールされる。そして、インストールされた管理プログラムは、HDD54に記憶され、メインメモリ51に読み出されてCPU52によって実行される。
また、実施例では、1つのクローンを用いる場合について説明したが、本発明はこれに限定されるものではなく、2つ以上のクローンを用いる場合にも同様に適用することができる。
また、実施例では、仮想環境における問題箇所を特定する場合について説明したが、本発明はこれに限定されるものではなく、仮想化技術を用いない実環境における問題箇所を特定する場合にも同様に適用することができる。
1 管理システム
2 サービスVM
3 管理マネージャー
4 仮想基盤
5 サービスデーモン
6 ハードウェア
7 ハード管理部
8 管理者
21 通信I/F部
22 ステータス監視部
23 基準サービス部
31 ログ記憶部
32 ログ処理部
33 情報解析部
33a 問題箇所特定部
33b 復旧部
33c 負荷対応部
34 情報取得部
35 通報部
50 コンピュータ
51 メインメモリ
52 CPU
53 LANインタフェース
54 HDD
55 スーパーIO
56 DVI
57 ODD

Claims (5)

  1. 自身が動作する基盤の状態情報を取得する通信を行うとともに、自身と同様の機能を有し前記基盤で動作するクローンと相互通信を行う通信部と、
    前記基盤との通信状態、前記基盤の状態情報及び前記クローンとの通信状態に基づいて、問題箇所の特定に用いる項目の状態を特定する第1特定部と、
    前記クローンが前記基盤の状態情報及び前記相互通信の通信状態に基づいて前記項目について特定した状態を前記クローンから取得する取得部と、
    前記第1特定部が前記項目について特定した状態と前記取得部が前記項目について取得した状態とに基づいて、前記問題箇所が前記基盤の状態情報を収集する機能部、前記クローン又は自身のいずれであるかを特定する第2特定部と、
    前記第2特定部により特定された問題箇所に対応する復旧動作を行う復旧部と
    を有することを特徴とする管理装置。
  2. 前記基盤の負荷の状況に応じて前記基盤の状態情報の取得周期の変更又は前記クローンの休止を行う負荷対応部をさらに有することを特徴とする請求項1に記載の管理装置。
  3. 前記第1特定部は、前記基盤の状態情報を収集する機能部からの応答を模擬する模擬部を利用して、前記項目の状態を特定することを特徴とする請求項1又は2に記載の管理装置。
  4. コンピュータが、
    自身が動作する基盤の状態情報を取得する通信を行うとともに、自身と同様の機能を有し前記基盤で動作するクローンと相互通信を行い、
    前記基盤との通信状態、前記基盤の状態情報及び前記クローンとの通信状態に基づいて、問題箇所の特定に用いる項目の状態を特定し、
    前記クローンが前記基盤の状態情報及び前記相互通信の通信状態に基づいて前記項目について特定した状態を前記クローンから取得し、
    前記項目について特定した状態と前記項目について前記クローンから取得した状態とに基づいて、前記問題箇所が前記基盤の状態情報を収集する機能部、前記クローン又は自身のいずれであるかを特定し、
    特定した問題箇所に対応する復旧動作を行う
    処理を実行することを特徴とする管理方法。
  5. コンピュータに、
    自身が動作する基盤の状態情報を取得する通信を行うとともに、自身と同様の機能を有し前記基盤で動作するクローンと相互通信を行い、
    前記基盤との通信状態、前記基盤の状態情報及び前記クローンとの通信状態に基づいて、問題箇所の特定に用いる項目の状態を特定し、
    前記クローンが前記基盤の状態情報及び前記相互通信の通信状態に基づいて前記項目について特定した状態を前記クローンから取得し、
    前記項目について特定した状態と前記項目について前記クローンから取得した状態とに基づいて、前記問題箇所が前記基盤の状態情報を収集する機能部、前記クローン又は自身のいずれであるかを特定し、
    特定した問題箇所に対応する復旧動作を行う
    処理を実行させることを特徴とする管理プログラム。
JP2017068233A 2017-03-30 2017-03-30 管理装置、管理方法及び管理プログラム Active JP6828558B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017068233A JP6828558B2 (ja) 2017-03-30 2017-03-30 管理装置、管理方法及び管理プログラム
US15/920,621 US10817400B2 (en) 2017-03-30 2018-03-14 Management apparatus and management method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017068233A JP6828558B2 (ja) 2017-03-30 2017-03-30 管理装置、管理方法及び管理プログラム

Publications (2)

Publication Number Publication Date
JP2018169920A true JP2018169920A (ja) 2018-11-01
JP6828558B2 JP6828558B2 (ja) 2021-02-10

Family

ID=63669466

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017068233A Active JP6828558B2 (ja) 2017-03-30 2017-03-30 管理装置、管理方法及び管理プログラム

Country Status (2)

Country Link
US (1) US10817400B2 (ja)
JP (1) JP6828558B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11409621B2 (en) * 2018-05-29 2022-08-09 Vmware, Inc. High availability for a shared-memory-based firewall service virtual machine
US10742743B2 (en) * 2018-11-19 2020-08-11 Blackberry Limited Systems and methods for managing IOT/EOT devices

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05224970A (ja) * 1992-02-13 1993-09-03 Toshiba Corp 誤り検出方式
JP2006343822A (ja) * 2005-06-07 2006-12-21 Fujitsu Ltd ライブラリ装置
JP2007067540A (ja) * 2005-08-29 2007-03-15 Mitsubishi Electric Corp 二重系系切替装置
JP2014002798A (ja) * 2013-10-09 2014-01-09 Hitachi Ltd 計算機システム及びプログラム
JP2014182577A (ja) * 2013-03-19 2014-09-29 Mitsubishi Electric Corp データ収集記録装置、管理システム、データ収集記録方法、及びデータ収集記録プログラム
JP2014197307A (ja) * 2013-03-29 2014-10-16 グリー株式会社 監視処理方法、監視処理装置及び監視処理システム
JP2015146152A (ja) * 2014-02-04 2015-08-13 三菱電機株式会社 監視制御装置
JP2015207079A (ja) * 2014-04-18 2015-11-19 富士通株式会社 分析方法、分析装置、及び分析プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001101033A (ja) 1999-09-27 2001-04-13 Hitachi Ltd オペレーティングシステム及びアプリケーションプログラムの障害監視方法
JP2006268277A (ja) 2005-03-23 2006-10-05 Nec Corp アプリケーションプログラムの復旧方式
US10079797B2 (en) * 2014-10-29 2018-09-18 Vmware, Inc. Methods, systems and apparatus to remotely start a virtual machine
JP2016162428A (ja) * 2015-03-05 2016-09-05 富士通株式会社 情報処理システム、管理装置、および情報処理システムの管理方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05224970A (ja) * 1992-02-13 1993-09-03 Toshiba Corp 誤り検出方式
JP2006343822A (ja) * 2005-06-07 2006-12-21 Fujitsu Ltd ライブラリ装置
JP2007067540A (ja) * 2005-08-29 2007-03-15 Mitsubishi Electric Corp 二重系系切替装置
JP2014182577A (ja) * 2013-03-19 2014-09-29 Mitsubishi Electric Corp データ収集記録装置、管理システム、データ収集記録方法、及びデータ収集記録プログラム
JP2014197307A (ja) * 2013-03-29 2014-10-16 グリー株式会社 監視処理方法、監視処理装置及び監視処理システム
JP2014002798A (ja) * 2013-10-09 2014-01-09 Hitachi Ltd 計算機システム及びプログラム
JP2015146152A (ja) * 2014-02-04 2015-08-13 三菱電機株式会社 監視制御装置
JP2015207079A (ja) * 2014-04-18 2015-11-19 富士通株式会社 分析方法、分析装置、及び分析プログラム

Also Published As

Publication number Publication date
US20180285232A1 (en) 2018-10-04
JP6828558B2 (ja) 2021-02-10
US10817400B2 (en) 2020-10-27

Similar Documents

Publication Publication Date Title
US8910172B2 (en) Application resource switchover systems and methods
US11182220B2 (en) Proactive high availability in a virtualized computer system
US9841986B2 (en) Policy based application monitoring in virtualized environment
JP5851503B2 (ja) 高可用性仮想機械環境におけるアプリケーションの高可用性の提供
EP2972870B1 (en) Coordinating fault recovery in a distributed system
US8738961B2 (en) High-availability computer cluster with failover support based on a resource map
US10462027B2 (en) Cloud network stability
US10489232B1 (en) Data center diagnostic information
US11157373B2 (en) Prioritized transfer of failure event log data
US8832490B2 (en) Server control automation
JP5579650B2 (ja) 監視対象プロセスを実行する装置及び方法
US20160378603A1 (en) Automated fault recovery
US20150089505A1 (en) Systems and methods for fault tolerant batch processing in a virtual environment
US10146653B2 (en) Automated system-level failure and recovery
JP2010086516A (ja) 仮想化環境において生じる障害の解析方法、管理サーバ、及びプログラム
WO2015063889A1 (ja) 管理システム、プラン生成方法、およびプラン生成プログラム
US9798625B2 (en) Agentless and/or pre-boot support, and field replaceable unit (FRU) isolation
US20210224121A1 (en) Virtual machine-initiated workload management
JP6828558B2 (ja) 管理装置、管理方法及び管理プログラム
JP2011113122A (ja) 障害影響分析装置及び業務システム及び障害影響分析方法
JP5285045B2 (ja) 仮想環境における故障復旧方法及びサーバ及びプログラム
EP3473035B1 (en) Application resilience system and method thereof for applications deployed on a cloud platform
TWI469573B (zh) 系統錯誤處理方法與使用其之伺服器系統
KR101783201B1 (ko) 서버 통합 관리 시스템 및 방법
Lee et al. NCU-HA: A lightweight HA system for kernel-based virtual machine

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201222

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210104

R150 Certificate of patent or registration of utility model

Ref document number: 6828558

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150