JP7405260B2 - サーバメンテナンス制御装置、システム、制御方法及びプログラム - Google Patents

サーバメンテナンス制御装置、システム、制御方法及びプログラム Download PDF

Info

Publication number
JP7405260B2
JP7405260B2 JP2022534888A JP2022534888A JP7405260B2 JP 7405260 B2 JP7405260 B2 JP 7405260B2 JP 2022534888 A JP2022534888 A JP 2022534888A JP 2022534888 A JP2022534888 A JP 2022534888A JP 7405260 B2 JP7405260 B2 JP 7405260B2
Authority
JP
Japan
Prior art keywords
server
maintenance
alarm
virtual machine
affected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022534888A
Other languages
English (en)
Other versions
JPWO2022009438A1 (ja
Inventor
奨悟 斎藤
直樹 高田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2022009438A1 publication Critical patent/JPWO2022009438A1/ja
Application granted granted Critical
Publication of JP7405260B2 publication Critical patent/JP7405260B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45591Monitoring or debugging support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45595Network integration; Enabling network access in virtual machine instances

Description

本発明は、物理サーバをオンデマンドにユーザに割り当てて、この物理サーバ上の仮想マシンを利用させるシステムにおいて、物理サーバに接続されているデバイスの故障の検知と、このデバイスのメンテナンスに用いるサーバメンテナンス制御装置、サーバメンテナンスシステム、サーバメンテナンス制御方法、及び、プログラムに関する。
近年、仮想化基盤が普及している。仮想化基盤は、仮想化技術を用いて物理サーバやネットワークといった物理資源を抽象化・隠蔽し、複数のアプリケーションやサービスに対して共通基盤を提供するシステムである。仮想化基盤の物理サーバは、ユーザの要求に応じてオンデマンドでユーザに割り当てられる。また、仮想化基盤の物理サーバには、例えばGPU(graphics processing unit)やFPGA(field programmable gate array)
、NIC(network interface card)等の、複数の各種外部デバイス(以下、「デバイス」と称する)が接続されている。
各ユーザは、各物理サーバに対してリソースを要求し、物理サーバにデプロイされた仮想マシンを一時的に利用する。このとき、各仮想マシンは、任意の数のデバイスを利用する。各デバイスは、不定期にメンテナンスを行う必要がある。デバイスのメンテナンス中、仮想マシンはメンテナンス対象デバイスを利用できない。
従来、デバイスのメンテナンスでは、コントローラサーバにより以下のような処理が行われている(例えば、非特許文献1参照)。
(1)メンテナンス対象デバイスが接続された物理サーバ全体を警報監視の対象外に設定する。
(2)メンテナンス対象デバイスが接続された物理サーバを利用中のユーザのインスタンス(仮想マシン)を他のサーバに退避(移行)させる。
「open stack 運用ガイド 第12章 メンテナンス、故障およびデバッグ」、[online]、[令和2年6月10日検索]、インターネット<URL:http://openstack-ja.github.io/openstack-manuals/openstack-ops/content/maintenance.html>
しかしながら、この従来技術では、メンテナンス対象デバイスを利用していないインスタンス(仮想マシン)まで退避(移行)させていた。そのため、メンテナンス対象デバイスを利用していないインスタンス(仮想マシン)が一時停止する等の影響を与えてしまっていた。
また、この従来技術では、物理サーバ全体を警報監視の対象外としているため、メンテナンス対象デバイスを利用していないインスタンス(仮想マシン)の警報も抑止されてしまっていた。更に、デバイス故障時には、このデバイスをメンテナンスしなければならないが、このときに正しい手順でメンテナンスしないと、メンテナンス対象デバイスを利用していないインスタンス(仮想マシン)が停止したり、デバイスのメンテナンスに伴う警報が発生していた。
本発明は、前記した問題点を解決するためになされたものであり、メンテナンス対象デバイスが接続された物理サーバ上でこのデバイスを利用しない仮想マシンの他の物理サーバへの退避処理を抑止するとともに、デバイスのメンテナンスに伴う警報の発出を抑止するサーバメンテナンス制御装置、サーバメンテナンスシステム、サーバメンテナンス制御方法、及び、プログラムを提供することを主な課題とする。更に、デバイス故障検知をトリガとしてデバイスのメンテナンスを行うことを課題とする。
前記した課題を解決するため、本発明に係るサーバメンテナンス制御装置は、ユーザが管理する仮想マシンに対して、サーバに接続されたデバイスを割り当てる割当部と、前記仮想マシンとそれが利用するデバイスとの対応を記録する利用状況管理部と、メンテナンス時に各前記デバイスに発生しうる警報種別を記録する警報関係管理部と、メンテナンス要求を受け付けると、メンテナンス時に前記デバイスに発生しうる警報の発出の抑止指示と前記仮想マシンのうちメンテナンスにより影響を受ける影響仮想マシンの他のサーバへの退避指示との順序を決定するメンテナンス制御部と、前記警報関係管理部に記録された前記警報種別に基づいて前記メンテナンス時にデバイスに発生しうる警報の発出の抑止を前記サーバに指示する警報除外設定部と、前記利用状況管理部に記録された前記仮想マシンとそれが利用するデバイスとの対応に基づいて前記影響仮想マシンを特定して前記サーバから前記他のサーバに退避させる影響ユーザ特定退避部と、を有することを特徴とする。
本発明によれば、メンテナンス対象デバイスが接続された物理サーバ上で、このデバイスを利用しない仮想マシンの他の物理サーバへの退避処理を抑止するとともに、デバイスのメンテナンスに伴う警報の発出を抑止することができる。更に、デバイス故障検知をトリガとしてデバイスのメンテナンスを行うことができる。
第1の実施形態に係るコントローラサーバ(サーバメンテナンス制御装置)を含むサーバシステムの全体構成と動作の説明図(1)である。 第1の実施形態に係るコントローラサーバ(サーバメンテナンス制御装置)を含むサーバシステムの全体構成と動作の説明図(2)である。 第1の実施形態に係るコントローラサーバ(サーバメンテナンス制御装置)を含むサーバシステムの全体構成と動作の説明図(3)である。 コントローラサーバの構成ブロック図である。 利用状況データベースの説明図である。 警報関係データベースの説明図である。 コントローラサーバの全体の動作を表すフローチャートである。 警報関係記録時のコントローラサーバの動作を表すフローチャートである。 メンテナンス準備時のコントローラサーバの動作を表すフローチャートである。 第2の実施形態に係るコントローラサーバ(サーバメンテナンス制御装置)を含むサーバシステムの全体構成と動作の説明図である。 コントローラサーバの構成ブロック図である。 警報監視システムの構成ブロック図である。 デバイス故障データベースの説明図である。 利用状況データベースへの登録処理のフローチャートである。 警報関係データベースへの登録処理のフローチャートである。 デバイスの故障検知処理と仮想マシンの退避処理のフローチャートである。 デバイスの故障検知処理と仮想マシンの退避処理のフローチャートである。
以下、図面を参照して、本発明の実施の形態(以下、「本実施形態」と称する)について詳細に説明する。なお、各図は、本発明を十分に理解できる程度に、概略的に示しているに過ぎない。よって、本発明は、図示例のみに限定されるものではない。また、各図において、共通する構成要素や同様な構成要素については、同一の符号を付し、それらの重複する説明を省略する。
《第1の実施形態》
<サーバシステムの全体構成と動作>
以下、図1A乃至図1Cを参照して、第1の実施形態に係るコントローラサーバ10を含むサーバシステム100(サーバメンテナンスシステム)の全体構成と動作について説明する。図1A乃至図1Cは、それぞれ、第1の実施形態に係るコントローラサーバ10(サーバメンテナンス制御装置)を含むサーバシステム100の全体構成と動作の説明図である。
図1A乃至図1Cに示すように、サーバシステム100は、コントローラサーバ10と、複数の物理サーバと、メンテナンス指示装置91と、警報監視システム92と、を備えている。第1の実施形態では、サーバシステム100が第1サーバ20aと第2サーバ20bの2つの物理サーバを備えている場合を想定して説明する。ただし、物理サーバの数は3つ以上であってもよい。
コントローラサーバ10は、物理サーバのメンテナンス処理を制御するサーバメンテナンス制御装置として機能するコンピュータである。
各物理サーバ(第1の実施形態では、第1サーバ20aと第2サーバ20b)は、ユーザに仮想化環境を提供するコンピュータである。
メンテナンス指示装置91は、各物理サーバに接続された外部デバイスのメンテナンス時に、メンテナンス要求Rq(図1B参照)をコントローラサーバ10に送信する端末装置である。
警報監視システム92は、各物理サーバから発出される警報を監視して管理者等に通知するシステムである。
各物理サーバには、それぞれ、各種の複数の外部デバイスが電気的に接続されている。複数の外部デバイスは、例えばGPU(graphics processing unit)やFPGA(field programmable gate array)、NIC(network interface card)等である。以下、これ
らの外部デバイスを単に「デバイス」と称する。
例えば、図1Aに示す例では、第1サーバ20aには、第1デバイス31aと第2デバイス32aと第3デバイス33aとが接続されている。同様に、第2サーバ20bには、第1デバイス31bと第2デバイス32bと第3デバイス33bとが接続されている。第1サーバ20aに接続されたデバイスと第2サーバ20bに接続されたデバイスとは、同種のものになっている。つまり、第1サーバ20aの第1デバイス31aと第2サーバ20bの第1デバイス31bは、同種のものになっている。また、第1サーバ20aの第2デバイス32aと第2サーバ20bの第2デバイス32bは、同種のものになっている。また、第1サーバ20aの第3デバイス33aと第2サーバ20bの第3デバイス33bは、同種のものになっている。なお、第1サーバ20aと第2サーバ20bは、3つ以上のデバイスを接続することもできる。
なお、GPUやFPGA等のデバイスは、CPU(central processing unit)と異な
り、内部状態の一時退避(移行)に特化した機能を持たないことが多い。そのため、GPUやFPGA等のデバイスは、ソフトウェアによる退避処理が必要であり、その退避処理に比較的長い時間を要する。つまり、GPUやFPGA等のデバイスは、退避時の設定コストが比較的高いデバイスになっている。物理サーバに接続された複数のデバイスの中には、このようなGPUやFPGA等のデバイスが含まれている。そのため、或るデバイスのメンテナンス作業においても、メンテナンス対象のデバイスを利用しない他の仮想マシンを退避させず、継続して利用できることが好ましい。
また、各物理サーバには、発出すべきでない警報(監視の対象外の警報)をフィルタしてその警報の発出を抑止するためのフィルタ設定部が設けられている。例えば、第1サーバ20aには、フィルタ設定部26aが設けられている。同様に、第2サーバ20bには、フィルタ設定部26bが設けられている。第1の実施形態では、フィルタ設定部26a,26bは、デバイスのメンテナンスに伴う警報の発出を抑止する際に動作する。
コントローラサーバ10には、記憶媒体99から、コンピュータをサーバメンテナンス制御装置として機能させるための制御プログラムPrが予めインストールされている。コントローラサーバ10は、各物理サーバ(第1の実施形態では、第1サーバ20aと第2サーバ20b)と、メンテナンス指示装置91とに通信可能に接続されている。
コントローラサーバ10は、制御プログラムPrを実行することにより、図2に示す構成を内部に構築する。これにより、コントローラサーバ10は、以下の第1機能乃至第6機能を実現する。
割当部11aは、ユーザの仮想マシンへのデバイスの割当機能(第1機能)を具現化するものである(図1A及び図1B参照)。「ユーザへのデバイスの割当機能」とは、ユーザが管理する各仮想マシンに対して、サーバに接続されたデバイスを任意の数だけ割り当てる機能である。
利用状況管理部11bは、デバイスの利用状況記録機能(第2機能)を具現化するものである(図1A及び図1B参照)。「デバイスの利用状況記録機能」とは、ユーザが管理する各仮想マシンと、この仮想マシンが利用するデバイスとの対応を記録する機能である。デバイスの利用状況記録機能は、この利用状況管理部11bと、後記する利用状況データベース12a(図2参照)によって実現される。
警報関係管理部11cは、警報関係記録機能(第3機能)を具現化するものである(図1A及び図1B参照)。「警報関係記録機能」とは、デバイスと、このデバイスのメンテナンス時に発生しうる警報種別との対応を記録管理する機能であり、即ち、各デバイスとそれのメンテナンス時に監視の除外対象となる除外対象警報種別との対応関係を記録管理する。警報関係記録機能は、この警報関係管理部11cと、後記する警報関係データベース12b(図2参照)によって実現される。
メンテナンス制御部11dは、メンテナンス要求受付機能(第4機能)を具現化するものである(図1B参照)。「メンテナンス要求受付機能」とは、外部のメンテナンス指示装置91からデバイスのメンテナンス要求Rq(図1B参照)を受け付けると、デバイスのメンテナンス時に発生しうる警報の発出の除外(抑止)指示とデバイスのメンテナンスにより影響を受ける仮想マシンの他の物理サーバへの退避指示との順序を決定する機能である。以下、デバイスのメンテナンスにより影響を受ける仮想マシンを「影響仮想マシン」と称する。
警報除外設定部11eは、警報除外設定機能(第5機能)を具現化するものである(図1B参照)。「警報除外設定機能」とは、デバイスのメンテナンスにより発生しうる警報の発出の除外(抑止)を物理サーバに指示する機能である。
影響ユーザ特定退避部11fは、影響ユーザ特定・退避機能(第6機能)を具現化するものである(図1B参照)。「影響ユーザ特定・退避機能」とは、影響仮想マシンを特定して、この影響仮想マシンを物理サーバ(第1の実施形態では、第1サーバ20a)から他の物理サーバ(第1の実施形態では、第2サーバ20b)に退避させる機能である。
物理サーバは、複数のユーザ端末からの要求に応じて、オンデマンドに提供される。各ユーザは、提供された物理サーバ上の仮想マシンを利用する。例えば、図1Aに示す例では、第1サーバ20aは、第1ユーザが使用する第1ユーザ端末61aからの要求に応じて、オンデマンドで第1ユーザに提供される。第1ユーザは、第1ユーザ端末61aを介して、この第1サーバ20a上の第1仮想マシン21aを利用する。また、第1サーバ20aは、第2ユーザが使用する第2ユーザ端末61bからの要求に応じて、オンデマンドで第2ユーザに提供される。第2ユーザは、第2ユーザ端末61bを介して、この第1サーバ20a上の第2仮想マシン22aを利用する。
各ユーザは、オンデマンドに各仮想マシンに対してリソースを要求し、一時的に仮想マシンを利用する。このとき、各仮想マシンは、任意の数のデバイスを利用する。例えば、図1Aに示す例では、第1ユーザは、オンデマンドに第1仮想マシン21aに対して、リソースである第1デバイス31aを要求する。このとき、第1仮想マシン21aは、第1デバイス31aを利用する。第2ユーザは、オンデマンドに第2仮想マシン22aに対して、リソースである第2デバイス32aと第3デバイス33aを要求する。このとき、第2仮想マシン22aは、第2デバイス32aと第3デバイス33aを利用する。
第1仮想マシン21aは、第1デバイス31aが接続されており、第1ユーザ端末61aに仮想化環境を提供する。一方、第2仮想マシン22aは、第2デバイス32aと第3デバイス33aとが接続されており、第2ユーザ端末61bに仮想化環境を提供する。
第1デバイス31aや第2デバイス32aや第3デバイス33aは、それぞれ不定期にメンテナンス作業が必要となる。デバイスのメンテナンス中に、仮想マシンは当該デバイスを利用できない。
各物理サーバは、予め規定された異常を検知した場合に、能動的に警報Wa(図1C参照)を警報監視システム92に発出する。これに応答して、警報監視システム92は、管理者等に警報を発出する。
図1Bに示すように、任意のタイミングでメンテナンス指示装置91からコントローラサーバ10にメンテナンス要求Rqが出力される。メンテナンス要求Rqは、メンテナンス対象であるデバイス(以下、「メンテナンス対象デバイス」と称する)を指定する形態になっている。
ここでは、メンテナンス要求Rqがメンテナンス対象デバイスとして第3デバイス33aを指定しているものとして説明する。この場合、メンテナンス対象デバイスである第3デバイス33aを利用している第2仮想マシン22aは、影響仮想マシンとなる。
コントローラサーバ10は、メンテナンス要求Rqに応答して、メンテナンス制御部11d(第4機能)によりメンテナンス要求を受け付ける。そして、コントローラサーバ10は、警報除外設定部11e(第5機能)により物理サーバに警報除外設定を行うとともに、影響ユーザ特定退避部11f(第6機能)により影響仮想マシンを特定して退避させる。ここで影響ユーザ特定退避部11fが退避させるのは、影響仮想マシンである第2仮想マシン22aに限られる。影響ユーザ特定退避部11fは、第1仮想マシン21aを退避しない。
このとき、コントローラサーバ10は、警報除外設定部11e(第5機能)により、デバイスのメンテナンスに伴う警報の発出の除外(抑止)を指示するための警報除外設定指示Cm1を第1サーバ20aに出力する。警報除外設定指示Cm1に応答して、第1サーバ20aは、フィルタ設定部26aに対して、メンテナンス対象デバイスである第3デバイス33aのメンテナンスに伴う警報の発出を除外(抑止)するためのフィルタ設定を行う。
また、コントローラサーバ10は、影響ユーザ特定退避部11f(第6機能)により、影響仮想マシンの他のサーバへの退避(移行)を指示するための退避指示Cm2を第1サーバ20aに出力する。退避指示Cm2に応答して、第1サーバ20aは、影響仮想マシンである第2仮想マシン22aを第2サーバ20bへ退避(移行)する。
その結果、図1Cに示すように、第2ユーザ端末61bは、第2サーバ20bに構築された第2仮想マシン22bに接続される。そして第2サーバ20bの第2仮想マシン22bは、第2デバイス32b及び第3デバイス33bを利用して、第2仮想マシン22aと同じ仮想化環境を第2ユーザに提供する。
このとき、第3デバイス33aのメンテナンス作業においても、第3デバイス33aを利用しない第1仮想マシン21aを退避させず、継続して利用できる。
<コントローラサーバ(サーバメンテナンス制御装置)の構成>
以下、図2を参照して、コントローラサーバ10(サーバメンテナンス制御装置)の構成について説明する。図2は、コントローラサーバ10の構成ブロック図である。
図2に示すように、コントローラサーバ10は、制御部11と、記憶部12と、通信部19と、を備えている。
制御部11は、割当部11aと、利用状況管理部11bと、警報関係管理部11cと、メンテナンス制御部11dと、警報除外設定部11eと、影響ユーザ特定退避部11fと、を有している。制御部11は、このコントローラサーバ10のCPUであり、制御プログラムPrを実行することにより、各部の機能を具現化する。
割当部11aは、物理サーバに対し、ユーザが管理する仮想マシンに対して、サーバに接続されたデバイスを任意の数だけ割り当てる。これにより、仮想マシンは割り当てられたデバイスを利用できる。
利用状況管理部11bは、各ユーザが管理する仮想マシンと、この仮想マシンが利用するデバイスとの対応を記録する。
警報関係管理部11cは、デバイスと、このデバイスのメンテナンス時に発生しうる警報種別との対応を記録する。
メンテナンス制御部11dは、外部のメンテナンス指示装置91などからデバイスのメンテナンス要求Rqを受け付けて、デバイスのメンテナンスにより発生しうる警報の発出の除外(抑止)指示とデバイスのメンテナンスにより影響を受けるユーザの仮想マシンである影響仮想マシンの他の物理サーバへの退避指示との順序を決定する。第1の実施形態において、メンテナンス制御部11dは、警報除外設定指示Cm1(図1B参照)が退避指示Cm2(図1B参照)よりも早く第1サーバ20aに出力されるようにする。
警報除外設定部11eは、警報関係管理部11cにより記録された警報種別に基づいてデバイスのメンテナンスにより発生しうる警報の発出の除外(抑止)を物理サーバに指示する。
影響ユーザ特定退避部11fは、メンテナンス対象のデバイスIDをキーとして、デバイスとこのデバイスを利用する仮想マシンとの対応に基づいて影響仮想マシンを特定して、この影響仮想マシンを他の物理サーバに退避させる。デバイスとこのデバイスを利用する仮想マシンとの対応は、利用状況管理部11bにより利用状況データベース12aに記録されている。
記憶部12には、制御プログラムPrが格納されている。また、記憶部12には、利用状況データベース12aと警報関係データベース12bとが構築されている。
利用状況データベース12a(第1データベース)は、ユーザへのデバイス割当機能であり、各ユーザが管理する仮想マシンと、それが利用するデバイスとの対応を記録する。
警報関係データベース12b(第2データベース)は、各デバイスと、メンテナンス時にこのデバイスに発生しうる警報種別との対応を記録する。
<利用状況データベースの構成>
以下、図3を参照して、利用状況データベース12aの構成について説明する。図3は、利用状況データベース12aの説明図である。
利用状況データベース12aは、ユーザの仮想マシンを識別するユーザIDと、この仮想マシンが利用するデバイスのデバイスIDとを対応付けている。図3に示す例では、第1ユーザの第1仮想マシン21aに対して第1デバイス31aが対応付けられている。また、第2ユーザの第2仮想マシン22aに対して第2デバイス32aと第3デバイス33aとが対応付けられている。
影響ユーザ特定退避部11fは、メンテナンス要求受付時に、利用状況データベース12aを参照してメンテナンス要求で指定されたメンテナンス対象デバイスを利用する仮想マシンを、影響仮想マシンとして特定する。このようにすることで、影響ユーザ特定退避部11fは、メンテナンス対象デバイスのデバイスIDに紐づく仮想マシンを容易かつ短時間に特定することができる。
<警報関係データベースの構成>
以下、図4を参照して、警報関係データベース12bの構成について説明する。図4は、警報関係データベース12bの説明図である。
警報関係データベース12bは、デバイスIDと除外対象警報種別とを対応付けている。ここで、「除外対象警報種別」は、デバイスIDで示されるデバイスのメンテナンス時に監視の除外対象とする警報の種別を意味している。図4に示す例では、第1デバイス31aに対する除外対象警報種別として「リブート(Reboot)」が対応付けられている。リブートとは、デバイスを再起動することをいう。また、第1デバイス31b対する除外対象警報種別として「シャットダウン(Shut down)」が対応付けられている。シャットダ
ウンとは、デバイスを終了させて電源を切ることをいう。また、31cに対する除外対象警報種別として「アンアベイラブル(unavailable)」が対応付けられている。アンアベ
イラブルとは、デバイスが使用不能であることをいう。
警報除外設定部11eは、メンテナンス要求受付時に、警報関係データベース12bを参照して、メンテナンス要求で指定されたデバイスのメンテナンスにより発生しうる警報の発出の抑止を物理サーバに指示する。このようにすることで、警報除外設定部11eは、デバイスのメンテナンスにより発生しうる警報の発出を除外(抑止)できる。
<コントローラサーバ(サーバメンテナンス制御装置)の動作>
以下、図5乃至図7を参照して、コントローラサーバ10(サーバメンテナンス制御装置)の動作について説明する。図5は、コントローラサーバ10の全体の動作を表すフローチャートである。図6は、図5に示すステップS125の警報関係記録時のコントローラサーバ10の動作を表すフローチャートである。図7は、図5に示すステップS140のメンテナンス準備時のコントローラサーバ10の動作を表すフローチャートである。
図5に示すように、コントローラサーバ10のメンテナンス制御部11dは、ユーザ端末であるメンテナンス指示装置91からの要求があるか否かを繰り返し判定し(ステップS105)、ユーザ端末からの要求があった場合(“Yes”の場合)に、ユーザ端末からの要求を受け付ける(ステップS110)。このユーザ端末からの要求には、利用するデバイスのIDが含まれている。
ステップS105において、メンテナンス制御部11dは、ユーザ端末からの要求が無かった場合(“No”の場合)に、ステップS105の処理に戻る。
次に、コントローラサーバ10の割当部11aは、ユーザの仮想マシンに、要求されたデバイスを割り当てる(ステップS115)。すると、コントローラサーバ10の利用状況管理部11bが、ユーザが管理する各仮想マシンのIDと、この仮想マシンが利用するデバイスのIDとの対応を利用状況データベース12aに記録することで、デバイスの利用状況を記録する(ステップS120)。また、コントローラサーバ10の警報関係管理部11cが、デバイスIDと、このデバイスのメンテナンス時に発生しうる警報種別との対応関係を警報関係データベース12bに記録する(ステップS125)。
ステップS125では、例えば、図6に示す警報関係記録処理が行われる。
図6に示すように、まず、コントローラサーバ10の警報関係管理部11cは、ユーザがデバイスの利用を開始した後に、ユーザ端末から各デバイスのメンテナンス時に発生しうる警報種別の入力を受け付ける(ステップS125a)。次に、警報関係管理部11cは、各デバイスのメンテナンス時に発生しうる警報種別を警報関係データベース12bに記録する(ステップS125b)。なお、各デバイスのメンテナンス時に発生しうる警報種別は、ユーザによって入力される。
警報関係管理部11cは、デバイスのメンテナンス時に発生しうる全ての警報関係の記録が完了したか否かを判定する(ステップS125c)。ステップS125cにおいて、警報関係管理部11cは、記録が完了していないと判定した場合(“No”の場合)に、処理はステップS125bに戻る。一方、警報関係管理部11cは、記録が完了していると判定した場合(“Yes”の場合)に、図6の処理は終了する。この場合に、処理は、図5のステップS130に進む。
図5に戻り、ステップS125の後、コントローラサーバ10のメンテナンス制御部11dは、メンテナンス指示装置91からのデバイスのメンテナンス要求Rqがあるか否かを判定する(ステップS130)。ステップS130の判定で、デバイスのメンテナンス要求Rqがないと判定された場合(“No”の場合)に、処理はステップS130に戻る。
一方、デバイスのメンテナンス要求Rqがあると判定された場合(“Yes”の場合)に、メンテナンス制御部11dは、デバイスのメンテナンス要求Rqを受け付ける(ステップS135)。このとき、メンテナンス制御部11dは、メンテナンスにより発生しうる警報の発出の除外(抑止)指示とメンテナンスにより影響を受ける影響仮想マシンの他の物理サーバへの退避指示との順序を決定する。そしてメンテナンス制御部11dは、メンテナンス準備を行う(ステップS140)。
ステップS140では、例えば、図7に示す処理が行われる。
図7に示すように、まず、コントローラサーバ10のメンテナンス制御部11dは、メンテナンス対象デバイスのメンテナンスにより発生しうる警報の発出の除外(抑止)を警報除外設定部11eに指示する。これに応答して、警報除外設定部11eは、メンテナンス対象デバイスに付されたデバイスID(以下、「指定デバイスID」と称する)を引数にして警報関係データベース12bを参照する(ステップS140a)。これにより、警報除外設定部11eは、このデバイスのメンテナンスにより発生しうる警報種別を特定する。そして警報除外設定部11eは、指定デバイスIDに紐づく除外対象警報があるか否かを判定する(ステップS140b)。
ステップS140bの判定で、指定デバイスIDに紐づく除外対象警報がないと判定された場合(“No”の場合)に、処理はステップS140dに進む。一方、指定デバイスIDに紐づく除外対象警報があると判定された場合(“Yes”の場合)に、警報除外設定部11eは、警報除外設定指示を物理サーバに出力し、この物理サーバのフィルタ設定部に対して指定デバイスIDに紐づく除外対象警報種別の警報をフィルタに設定させる(ステップS140c)。具体的にいうと、図1Bに示すように、警報除外設定部11eは、警報除外設定指示Cm1を第1サーバ20aに出力して、第1サーバ20aのフィルタ設定部26aに対して指定デバイスIDに紐づく除外対象警報種別の警報を設定させる。これにより、第1サーバ20aは、後記するステップS145でデバイスのメンテナンスが実行される際に、警報の発出を抑止できる。
ステップS140bの判定で、指定デバイスIDに紐づく除外対象警報がないと判定された場合(“No”の場合)、又は、ステップS140cの後、メンテナンス制御部11dは、メンテナンスにより影響を受ける仮想マシンである影響仮想マシンの他の物理サーバへの退避を影響ユーザ特定退避部11fに指示する。これに応答して、影響ユーザ特定退避部11fは、指定デバイスIDを引数にして利用状況データベース12aを参照する(ステップS140d)。そして影響ユーザ特定退避部11fは、指定デバイスIDのデバイス(すなわち、メンテナンス対象デバイス)を利用中のユーザIDがあるか否かを判定する(ステップS140e)。このユーザIDは、影響仮想マシンを識別するものである。ここで、影響ユーザ特定退避部11fは、影響仮想マシンがあるか否かを判定する。
ステップS140eの判定で、このデバイスを利用中のユーザIDがあると判定された場合(“Yes”の場合)に、影響ユーザ特定退避部11fは、物理サーバに対し、ユーザIDを引数にして影響仮想マシンの退避を指示する(ステップS140f)。具体的にいうと、図1Bに示すように、影響ユーザ特定退避部11fは、第1サーバ20aに対して、第3デバイス33aを利用中のユーザIDを引数にして影響仮想マシンである第2仮想マシン22aの退避を指示する。これに応答して、第1サーバ20aと第2サーバ20bとの間で、第2仮想マシン22aの退避(移行)が行われる。
ステップS140eの判定で、利用中のユーザIDがないと判定された場合(“No”の場合)、又は、ステップS140fの後に、ステップS140の処理は終了する。この場合に、処理は、図5のステップS145に進む。
図5に戻り、ステップS140の後、作業者等は、デバイスをメンテナンスし(ステップS145)、ステップS130に戻る。
《第2の実施形態》
第2の実施形態のサーバシステム100Aでは、デバイス故障をトリガに、デバイス単位でのメンテナンスを自動的に行う機能を追加し、故障発生からデバイス単位でのメンテナンスと、影響のあるユーザのみの退避までの一連の処理を自律的に行う。
以下、図8を参照して、第2の実施形態に係るコントローラサーバ10Aを含むサーバシステム100Aの全体構成と動作について説明する。図8は、第2の実施形態に係るコントローラサーバ10A(サーバメンテナンス制御装置)を含むサーバシステムの全体構成と動作の説明図である。
図8に示すサーバシステム100Aは、第1の実施形態とは異なるコントローラサーバ10Aと警報監視システム92Aとを備えている。これ以外の構成は、第1の実施形態のサーバシステム100と同様である。
コントローラサーバ10Aは、サーバのメンテナンス処理を制御するサーバメンテナンス制御装置として機能するコンピュータである。コントローラサーバ10Aは、第1の実施形態のコントローラサーバ10と同様な構成に加えて更に、メンテナンス要求生成部11gを備えている。
警報監視システム92Aは、各物理サーバから発出される警報を監視して管理者等に通知するシステムであり、デバイス故障通知部921aと、デバイス故障管理部921bとを備えている。
デバイス故障通知部921aは、デバイス故障通知機能(第7機能)を具現化するものである(図8及び図9参照)。「デバイス故障通知機能」とは、デバイスの故障に係る故障情報をコントローラサーバ10Aのメンテナンス要求生成部11gに通知する機能である。つまりデバイス故障通知部921aは、デバイスを搭載した物理サーバからの通知を入力に、デバイス故障通知機能の各レコードとの比較を行うことで、この通知がデバイス故障であるか否かを判定する。この通知がデバイス故障に係るものであれば、コントローラサーバ10Aのメンテナンス要求生成部11gに対し、対象とする物理サーバおよびデバイスを一意に識別する情報とともに、故障の発生を通知する。
デバイス故障通知部921aは、サーバメンテナンス制御装置のメンテナンス要求生成部11gにデバイスの故障を自律的に通知するので、デバイスの故障にいち早く対処できる。
ここでのデバイスを搭載する物理サーバからの通知は、システムログを遠隔サーバに転送するrsyslogやSNMP(Simple Network Management Protocol)である。しかし、これに限
られず、警報監視システム92Aがデバイスを搭載する物理サーバに対し、ポーリングによる周期的なチェックを行う形態でもよい。
第2の実施形態のデバイス故障通知部921aは、デバイス故障であることを検知した場合に、自律的にメンテナンス要求生成部11gに通知する。しかし、これに限られず、デバイス故障通知部921aは、デバイス故障であることを検知した場合にオペレータに通知し、そのうえでメンテナンス要求生成部11gに通知するか否かをオペレータが判定してもよい。
また、デバイス故障通知部921aは、コントローラサーバ10Aまたは独立したサーバに配置され、警報監視とは独立したインタフェースによって、デバイス故障通知を受け付けてもよい。
デバイス故障管理部921bは、デバイス故障通知機能を具現化するものである。「デバイス故障通知機能」とは、デバイスの故障に該当する故障情報を、デバイス故障データベース922b(図10参照)に記録する機能である。デバイス故障管理部921bにより、予め決められた故障情報に限ってメンテナンス要求生成部11gに通知されるので、サーバメンテナンス制御装置の負荷を軽減させることができる。
コントローラサーバ10Aは、制御プログラムPrを実行することにより、図8に示す構成を内部に構築する。これにより、コントローラサーバ10Aは、第1の実施形態と同様な第1機能乃至第6機能に加え、第8機能を実現する。
メンテナンス要求生成部11gは、メンテナンス要求生成機能(第8機能)を具現化するものである。「メンテナンス要求生成機能」とは、警報監視システム92Aから通知されたデバイス故障情報と対象サーバ情報とを元に、故障対応のメンテナンス要求をメンテナンス制御部11dに通知する機能である。これにより、デバイスの故障検知をトリガとしてデバイスのメンテナンスを行うことができる。
故障発生時に、警報監視システム92Aのデバイス故障通知部921aは、デバイス故障であるか否かを判定する。デバイス故障通知部921aは、デバイス故障であることを判定したならば、オペレータ(ユーザ)に警報を通知すると共に、コントローラサーバ10のメンテナンス要求生成部11gに通知する。
メンテナンス要求生成部11gは、デバイス故障情報を元に、そのデバイスのメンテナンス要求Rqを生成して、メンテナンス制御部11dに通知する。デバイスのメンテナンス要求Rqには、故障デバイスを一意に識別するデバイスIDが含まれている。これにより第2の実施形態は、デバイス故障をユーザに通知しつつ、故障発生時の警報を最小化し、仮想マシンへの影響を最小化する。
以降のサーバシステム100Aの動作は、第1の実施形態のサーバシステム100の動作と同様である。
図9は、コントローラサーバ10Aの構成ブロック図である。
図9に示すように、コントローラサーバ10Aは、制御部11Aと、第1の実施形態と同様な記憶部12と、通信部19とを備えている。
制御部11Aは、第1の実施形態と同様な割当部11aと、利用状況管理部11bと、警報関係管理部11cと、メンテナンス制御部11dと、警報除外設定部11eと、影響ユーザ特定退避部11fとを有している。制御部11Aは更に、メンテナンス要求生成部11gを備えている。制御部11Aは、このコントローラサーバ10AのCPUであり、制御プログラムPrを実行することにより、各部の機能を具現化する。メンテナンス要求生成部11gの機能は、図8で説明済である。
図10は、警報監視システム92Aの構成ブロック図である。
図10に示すように、警報監視システム92Aは、制御部921と、記憶部922と、通信部923とを備えている。
制御部921は、デバイス故障通知部921aと、デバイス故障管理部921bとを有している。制御部921は、警報監視システム92Aを構成する装置のCPUであり、後記する警報監視プログラム922aを実行することにより、各部の機能を具現化する。
デバイス故障通知部921aは、図8で説明済である。
デバイス故障管理部921bは、デバイス故障記録機能を具現化するものである。「デバイス故障記録機能」とは、デバイスの故障に該当する故障情報を記録管理する機能である。デバイスの故障記録機能は、このデバイス故障管理部921bと、後記するデバイス故障データベース922bによって実現される。
記憶部922には、警報監視プログラム922aと、デバイス故障データベース922bとが格納されている。デバイス故障データベース922bは、デバイスの故障に該当する故障情報を記録する第3のデータベースである。
図11は、デバイス故障データベース922bの説明図である。
図11に示すように、デバイス故障データベース922bは、デバイスの故障に該当する故障情報を記録する。“Device Failure”とは、デバイスが動作を失敗した旨の故障情報である。“Error”とは、デバイスの動作中にエラーが発生した旨の故障情報である。
“unavailable”とは、デバイスが使用不能である旨の故障情報である。
図12は、利用状況データベース12aへの登録処理のフローチャートである。
最初、割当部11aは、ユーザの仮想マシンへのデバイス割り当てを行い(S200)、割当結果を利用状況データベース12aに登録すると(S201)、図12の処理を終了する。これにより利用状況データベース12aには、ユーザが管理する各仮想マシンと、この仮想マシンが利用するデバイスとの対応が記録される。
図13は、警報関係データベース12bへの登録処理のフローチャートである。
ユーザは、端末などを介して除外対象とする警報種別を入力する(S210)。ここで除外対象とする警報種別とは、デバイスのメンテナンス時に発生しうる警報種別のことをいう。
警報関係管理部11cは、入力された除外対象の警報種別のうち1つを警報関係データベース12bに記録する(S211)。そして警報関係管理部11cは、記録が完了したか否かを判定する(S212)。警報関係管理部11cは、記録が完了していないならば(No)、ステップS211の処理に戻り、記録が完了したならば(Yes)、図13の処理を終了する。
図14Aと図14Bは、デバイスの故障検知処理と仮想マシンの退避処理のフローチャートである。
最初、警報監視システム92Aのデバイス故障通知部921aは、デバイスからのアラームをもとに、デバイス故障データベース922bと照合する(S221)。そして、デバイス故障通知部921aは、アラームがデバイス故障でなければ(No)、図14Aの処理を終了し、アラームがデバイス故障ならば(Yes)、ステップS222に進む。このように、デバイス故障通知部921aは、デバイス故障の場合に限って、コントローラサーバ10Aに通知するので、コントローラサーバ10Aの負荷を軽減することができる。
ステップS222において、デバイス故障通知部921aは、デバイス故障である旨をオペレータに通知する。デバイス故障通知部921aは更に、アラームに含まれるデバイスIDとともに、メンテナンス要求生成部11gを呼び出す(S223)。
メンテナン要求生成部11gは、デバイスIDをもとに、メンテナンス制御部11dを呼び出す(S224)。そして、メンテナンス制御部11dは、デバイスIDをもとに、メンテナンス対象デバイスのメンテナンスにより発生しうる警報の発出の除外(抑止)を指示するために警報除外設定部11eを呼び出すと(S225)、図14BのステップS226に進む。
図14BのステップS226において、警報除外設定部11eは、メンテナンス対象デバイスに付されたデバイスID、すなわち指定されたデバイスIDを引数に、警報関係データベース12bを参照する。これにより、警報除外設定部11eは、メンテナンスにより発生しうる警報種別を特定する。そして、警報除外設定部11eは、指定されたデバイスIDに紐づく除外対象警報があるか否かを判定する(S227)。
ステップS227において、警報除外設定部11eは、指定されたデバイスIDに紐づく除外対象警報が有れば(Yes)、ステップS228に進み、除外対象の警報をフィルタ設定部に設定し、ステップS229に進む。警報除外設定部11eは、指定されたデバイスIDに紐づく除外対象警報が無ければ(No)、ステップS229に進む。
ステップS229において、メンテナンス制御部11dは、メンテナンス対象に指定されたデバイスIDを引数に、影響ユーザ特定退避部11fを呼び出す。
ステップS230において、影響ユーザ特定退避部11fは、指定デバイスIDを利用中の仮想マシンに係るユーザIDが有るか否かを判定する。影響ユーザ特定退避部11fは、指定デバイスIDを利用中の仮想マシンに係るユーザIDが有るならば(Yes)、指定されたユーザIDを引数に仮想マシンの退避を指示し、図14Bの処理を終了する。影響ユーザ特定退避部11fは、指定デバイスIDを利用中の仮想マシンに係るユーザIDが無いならば(No)、図14Bの処理を終了する。
デバイスの故障をトリガに警報監視システム92Aが起動され、更にデバイス情報をもとにメンテナンス制御部11dが起動される。これにより、警報監視システム92Aは、故障検知に伴う警報を発出し、コントローラサーバ10Aは、デバイスのメンテナンスに伴う警報の発出を抑止したのち、デバイスを利用する影響仮想マシンを退避させる。これにより、サーバに接続されたデバイスの故障時に、いち早くメンテナンスを行うことができる。
<効果>
以下、本発明に係るサーバメンテナンス制御装置の構成と効果について説明する。
(1)本発明に係るサーバメンテナンス制御装置は、ユーザが管理する仮想マシンに対して、サーバに接続されたデバイスを割り当てる割当部と、前記仮想マシンとそれが利用するデバイスとの対応を記録する利用状況管理部と、メンテナンス時に各前記デバイスに発生しうる警報種別を記録する警報関係管理部と、メンテナンス要求を受け付けると、メンテナンス時に前記デバイスに発生しうる警報の発出の抑止指示と前記仮想マシンのうちメンテナンスにより影響を受ける影響仮想マシンの他のサーバへの退避指示との順序を決定するメンテナンス制御部と、前記警報関係管理部に記録された前記警報種別に基づいて前記メンテナンス時にデバイスに発生しうる警報の発出の抑止を前記サーバに指示する警報除外設定部と、前記利用状況管理部に記録された前記仮想マシンとそれが利用するデバイスとの対応に基づいて前記影響仮想マシンを特定して前記サーバから前記他のサーバに退避させる影響ユーザ特定退避部と、を有する。
このような本発明に係るサーバメンテナンス制御装置は、各仮想マシンへのデバイスの割り当てを管理する。そして、本発明に係るサーバメンテナンス制御装置は、サーバに接続されたメンテナンス対象デバイス(第3デバイス33a)のメンテナンスを行う場合に、メンテナンスに伴って発生する警報が発出されないようにサーバ(第1サーバ20a)にフィルタ設定を行わせるとともに、メンテナンス対象デバイスに割り当てられた仮想マシンを特定してサーバ(第1サーバ20a)から他のサーバ(第2サーバ20b)に退避(移行)させる。
このようにすることで、本発明に係るサーバメンテナンス制御装置は、メンテナンス対象デバイスが接続されたサーバ上で、このデバイスを利用しない仮想マシンの他の物理サーバへの退避処理を抑止するとともに、メンテナンスに伴う警報の発出を抑止することができる。その結果、本発明に係るサーバメンテナンス制御装置は、影響仮想マシンを除く他の仮想マシンの動作を継続できる。また、デバイスのメンテナンスに伴う警報の発出を抑止することができる。
(2)前記利用状況管理部は、前記仮想マシンとそれが利用するデバイスとの対応を第1データベースに記録しておき、前記影響ユーザ特定退避部は、メンテナンス要求受付時に、前記第1データベースを参照して前記メンテナンス要求で指定されたデバイスを利用する仮想マシンを、前記影響仮想マシンとして特定する、ことを特徴とする請求項1に記載のサーバメンテナンス制御装置とした。
このようにすることで、本発明に係るサーバメンテナンス制御装置は、メンテナンス対象デバイスのデバイスIDに紐づく仮想マシンを容易かつ短時間に特定することができる。
(3)前記警報関係管理部は、各デバイスとそれのメンテナンス時に監視の除外対象となる除外対象警報種別との対応関係を第2データベースに記録しておき、前記警報除外設定部は、メンテナンス要求受付時に、前記第2データベースを参照して前記メンテナンス要求で指定されたデバイスのメンテナンスにより発生しうる警報の発出の抑止を前記サーバに指示する、ことを特徴とする請求項1に記載のサーバメンテナンス制御装置とした。
このようにすることで、本発明に係るサーバメンテナンス制御装置は、デバイスのメンテナンスにより発生しうる警報の発出を除外(抑止)できる。
(4)前記デバイスのうち何れかの故障情報に基づき、前記故障情報に係るデバイスのメンテナンス要求を生成するメンテナンス要求生成部、を更に備えることを特徴とする請求項1に記載のサーバメンテナンス制御装置とした。
このようにすることで、デバイスの故障検知をトリガとしてデバイスのメンテナンスを行うことができる。
(5)本発明のサーバメンテナンスシステムは、(4)に記載のサーバメンテナンス制御装置と、デバイスの故障を検知すると前記メンテナンス要求生成部に当該デバイスの故障情報を通知するデバイス故障通知部を備える警報監視装置と、を有することを特徴とする。
このようにすることで、サーバメンテナンス制御装置のメンテナンス要求生成部にデバイスの故障を自律的に通知するので、デバイスの故障にいち早く対処できる。
(6)前記警報監視装置は、前記デバイス故障通知部が前記メンテナンス要求生成部に通知する故障情報を記録する第3のデータベースを備える、ことを特徴とする請求項5に記載のサーバメンテナンスシステムとした。
このようにすることで、予め決められた故障情報に限ってメンテナンス要求生成部に通知されるので、サーバメンテナンス制御装置の負荷を軽減させることができる。
(7)本発明に係るサーバメンテナンス制御方法は、サーバメンテナンス制御装置のサーバメンテナンス制御方法であって、前記サーバメンテナンス制御装置は、ユーザが管理する仮想マシンに対して、サーバに接続されたデバイスを割り当てるステップと、前記仮想マシンとそれが利用するデバイスとの対応を第1データベースに記録するステップと、メンテナンス時に各前記デバイスに発生しうる警報種別を第2データベースに記録するステップと、メンテナンス要求を受け付けるステップと、前記第2データベースに記録された前記警報種別に基づいてメンテナンス時に前記デバイスに発生しうる警報の発出の除外を前記サーバに指示するステップと、前記第1データベースに記録された前記仮想マシンとそれが利用するデバイスとの対応に基づいてメンテナンスにより影響を受ける前記仮想マシンである影響仮想マシンを特定して前記サーバから他のサーバに退避させるステップと、を実行する、ことを特徴とする。
このようにすることで、本発明に係るサーバメンテナンス制御方法は、メンテナンス対象デバイスが接続されたサーバ上で、このデバイスを利用しない仮想マシンの他のサーバへの退避処理を抑止するとともに、メンテナンスに伴う警報の発出を抑止することができる。その結果、本発明に係るサーバメンテナンス制御方法は、影響仮想マシンを除く他の仮想マシンの動作を継続させることができる。また、デバイスのメンテナンスに伴う警報の発出を抑止する。
(8)本発明に係るプログラムは、サーバメンテナンス制御装置としてコンピュータに、ユーザが管理する仮想マシンに対して、サーバに接続されたデバイスを割り当てる手順、前記仮想マシンとそれが利用するデバイスとの対応を第1データベースに記録する手順、メンテナンス時に各前記デバイスに発生しうる警報種別を第2データベースに記録する手順、メンテナンス要求を受け付けると、メンテナンスにより発生しうる警報の発出の抑止指示と前記仮想マシンのうちメンテナンスにより影響を受ける影響仮想マシンの他のサーバへの退避指示との順序を決定する手順、前記第2データベースに記録された前記警報種別に基づいて前記メンテナンスにより発生しうる警報の発出の除外を前記サーバに指示する手順、前記第1データベースに記録された前記仮想マシンとそれが利用するデバイスとの対応に基づいて前記影響仮想マシンを特定して前記サーバから前記他のサーバに退避させる手順、を実行させるためのものである。
このようにすることで、本発明に係るプログラムは、メンテナンス対象デバイスが接続されたサーバ上で、このデバイスを利用しない仮想マシンの他のサーバへの退避処理を抑止するとともに、メンテナンスに伴う警報の発出を抑止することができる。その結果、本発明に係るプログラムは、影響仮想マシンを除く他の仮想マシンの動作を継続させることができる。また、デバイスのメンテナンスに伴う警報の発出を抑止する。
なお、本発明は、前記した実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲で種々の変更や変形を行うことができる。また、前記した実施形態は、本発明の要旨を分かり易く説明するために詳細に説明したものである。そのため、本発明は、必ずしも説明した全ての構成要素を備えるものに限定されるものではない。また、本発明は、ある構成要素に他の構成要素を追加したり、一部の構成要素を他の構成要素に変更したりすることができる。また、本発明は、一部の構成要素を削除することもできる。
10,10A コントローラサーバ(サーバメンテナンス制御装置)
11,11A 制御部
11a 割当部
11b 利用状況管理部
11c 警報関係管理部
11d メンテナンス制御部
11e 警報除外設定部
11f 影響ユーザ特定退避部
11g メンテナンス要求生成部
12 記憶部
12a 利用状況データベース(第1データベース)
12b 警報関係データベース(第2データベース)
19 通信部
20a 第1サーバ
20b 第2サーバ
21a 第1仮想マシン
22a,22b 第2仮想マシン
26a,26b フィルタ設定部
31a,31b 第1デバイス
32a,32b 第2デバイス
33a,33b 第3デバイス
61a 第1ユーザ端末
61b 第2ユーザ端末
91 メンテナンス指示装置
92,92A 警報監視システム
921 制御部
921a デバイス故障通知部
921b デバイス故障管理部
922 記憶部
922a 警報監視プログラム
922b デバイス故障データベース (第3のデータベース)
923 通信部
99 記憶媒体
100,100A サーバシステム(サーバメンテナンスシステム)
Cm1 警報除外設定指示
Cm2 退避指示
Pr 制御プログラム
Rq メンテナンス要求
Wa 警報

Claims (8)

  1. ユーザが管理する仮想マシンに対して、サーバに接続されたデバイスを割り当てる割当部と、
    前記仮想マシンとそれが利用するデバイスとの対応を記録する利用状況管理部と、
    メンテナンス時に各前記デバイスに発生しうる警報種別を記録する警報関係管理部と、
    メンテナンス要求を受け付けると、メンテナンス時に前記デバイスに発生しうる警報の発出の抑止指示と前記仮想マシンのうちメンテナンスにより影響を受ける影響仮想マシンの他のサーバへの退避指示との順序を決定するメンテナンス制御部と、
    前記警報関係管理部に記録された前記警報種別に基づいて前記メンテナンス時にデバイスに発生しうる警報の発出の抑止を前記サーバに指示する警報除外設定部と、
    前記利用状況管理部に記録された前記仮想マシンとそれが利用するデバイスとの対応に基づいて前記影響仮想マシンを特定して前記サーバから前記他のサーバに退避させる影響ユーザ特定退避部と、を有する、
    ことを特徴とするサーバメンテナンス制御装置。
  2. 前記利用状況管理部は、前記仮想マシンとそれが利用するデバイスとの対応を第1データベースに記録しておき、
    前記影響ユーザ特定退避部は、メンテナンス要求受付時に、前記第1データベースを参照して前記メンテナンス要求で指定されたデバイスを利用する仮想マシンを、前記影響仮想マシンとして特定する、
    ことを特徴とする請求項1に記載のサーバメンテナンス制御装置。
  3. 前記警報関係管理部は、各デバイスとそれのメンテナンス時に監視の除外対象となる除外対象警報種別との対応関係を第2データベースに記録しておき、
    前記警報除外設定部は、メンテナンス要求受付時に、前記第2データベースを参照して前記メンテナンス要求で指定されたデバイスのメンテナンスにより発生しうる警報の発出の抑止を前記サーバに指示する、
    ことを特徴とする請求項1に記載のサーバメンテナンス制御装置。
  4. 前記デバイスのうち何れかの故障情報に基づき、前記故障情報に係るデバイスのメンテナンス要求を生成するメンテナンス要求生成部、
    を更に備えることを特徴とする請求項1に記載のサーバメンテナンス制御装置。
  5. 請求項4に記載のサーバメンテナンス制御装置と、
    デバイスの故障を検知すると前記メンテナンス要求生成部に当該デバイスの故障情報を通知するデバイス故障通知部を備える警報監視装置と、
    を有することを特徴とするサーバメンテナンスシステム。
  6. 前記警報監視装置は、前記デバイス故障通知部が前記メンテナンス要求生成部に通知する故障情報を記録する第3のデータベースを備える、
    ことを特徴とする請求項5に記載のサーバメンテナンスシステム。
  7. サーバメンテナンス制御装置のサーバメンテナンス制御方法であって、
    前記サーバメンテナンス制御装置は、
    ユーザが管理する仮想マシンに対して、サーバに接続されたデバイスを割り当てるステップと、
    前記仮想マシンとそれが利用するデバイスとの対応を第1データベースに記録するステップと、
    メンテナンス時に各前記デバイスに発生しうる警報種別を第2データベースに記録するステップと、
    メンテナンス要求を受け付けるステップと、
    前記第2データベースに記録された前記警報種別に基づいてメンテナンス時に前記デバイスに発生しうる警報の発出の除外を前記サーバに指示するステップと、
    前記第1データベースに記録された前記仮想マシンとそれが利用するデバイスとの対応に基づいてメンテナンスにより影響を受ける前記仮想マシンである影響仮想マシンを特定して前記サーバから他のサーバに退避させるステップと、を実行する、
    ことを特徴とするサーバメンテナンス制御方法。
  8. サーバメンテナンス制御装置としてコンピュータに、
    ユーザが管理する仮想マシンに対して、サーバに接続されたデバイスを割り当てる手順、
    前記仮想マシンとそれが利用するデバイスとの対応を第1データベースに記録する手順、
    メンテナンス時に各前記デバイスに発生しうる警報種別を第2データベースに記録する手順、
    メンテナンス要求を受け付けると、メンテナンスにより発生しうる警報の発出の抑止指示と前記仮想マシンのうちメンテナンスにより影響を受ける影響仮想マシンの他のサーバへの退避指示との順序を決定する手順、
    前記第2データベースに記録された前記警報種別に基づいて前記メンテナンスにより発生しうる警報の発出の除外を前記サーバに指示する手順、
    前記第1データベースに記録された前記仮想マシンとそれが利用するデバイスとの対応に基づいて前記影響仮想マシンを特定して前記サーバから前記他のサーバに退避させる手順、
    を実行させるためのプログラム。
JP2022534888A 2020-07-10 2020-09-08 サーバメンテナンス制御装置、システム、制御方法及びプログラム Active JP7405260B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JPPCT/JP2020/026992 2020-07-10
PCT/JP2020/026992 WO2022009410A1 (ja) 2020-07-10 2020-07-10 サーバメンテナンス制御装置、制御方法、及び、プログラム
PCT/JP2020/033954 WO2022009438A1 (ja) 2020-07-10 2020-09-08 サーバメンテナンス制御装置、システム、制御方法及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2022009438A1 JPWO2022009438A1 (ja) 2022-01-13
JP7405260B2 true JP7405260B2 (ja) 2023-12-26

Family

ID=79552379

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022534888A Active JP7405260B2 (ja) 2020-07-10 2020-09-08 サーバメンテナンス制御装置、システム、制御方法及びプログラム

Country Status (3)

Country Link
US (1) US20230289203A1 (ja)
JP (1) JP7405260B2 (ja)
WO (2) WO2022009410A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014203360A1 (ja) 2013-06-19 2014-12-24 富士通株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5717164B2 (ja) * 2009-10-07 2015-05-13 日本電気株式会社 コンピュータシステム、及びコンピュータシステムのメンテナンス方法
JP2014178912A (ja) * 2013-03-15 2014-09-25 Hitachi Ltd サーバ移動計画策定支援方法
EP3252607A4 (en) * 2015-01-27 2018-08-29 Nec Corporation Network function virtualization management and orchestration device, system, management method, and program

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014203360A1 (ja) 2013-06-19 2014-12-24 富士通株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Also Published As

Publication number Publication date
WO2022009410A1 (ja) 2022-01-13
JPWO2022009438A1 (ja) 2022-01-13
WO2022009438A1 (ja) 2022-01-13
US20230289203A1 (en) 2023-09-14

Similar Documents

Publication Publication Date Title
KR101888029B1 (ko) 가상 머신 클러스터 모니터링 방법 및 모니터링 시스템
US8156490B2 (en) Dynamic migration of virtual machine computer programs upon satisfaction of conditions
US10162661B2 (en) Interdependent virtual machine management
JP5851503B2 (ja) 高可用性仮想機械環境におけるアプリケーションの高可用性の提供
US20160036924A1 (en) Providing Higher Workload Resiliency in Clustered Systems Based on Health Heuristics
US20140068040A1 (en) System for Enabling Server Maintenance Using Snapshots
EP3179368A1 (en) Systems and methods for fault tolerant communications
JP2003022258A (ja) サーバーのバックアップシステム
CN106980529B (zh) 基板管理控制器资源管理的电脑系统
WO2015169199A1 (zh) 分布式环境下虚拟机异常恢复方法
US9201675B2 (en) DAAS manager and DAAS client for DAAS system
TW201502774A (zh) 協調分散式系統中的故障復原
US11507479B2 (en) High availability for a relational database management system as a service in a cloud platform
US8112518B2 (en) Redundant systems management frameworks for network environments
JP2020115330A (ja) ソフトウエアアプリケーションプロセスを監視するシステムと方法
WO2013190694A1 (ja) 計算機の復旧方法、計算機システム及び記憶媒体
CN108199901B (zh) 硬件报修方法、系统、设备、硬件管理服务器与存储介质
US9032014B2 (en) Diagnostics agents for managed computing solutions hosted in adaptive environments
US10193744B1 (en) Mass restoration of enterprise business services following service disruption
JP7405260B2 (ja) サーバメンテナンス制御装置、システム、制御方法及びプログラム
US20150220379A1 (en) Dynamically determining an external systems management application to report system errors
US8812900B2 (en) Managing storage providers in a clustered appliance environment
US10789129B1 (en) Rolling restoration of enterprise business services following service disruption
JP5056464B2 (ja) プロセス監視方法、情報処理装置、及びプログラム
JP4911063B2 (ja) データベース状態監視装置、方法、及び、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221205

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231127

R150 Certificate of patent or registration of utility model

Ref document number: 7405260

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150