JP6984119B2 - 監視装置、監視プログラム、及び監視方法 - Google Patents

監視装置、監視プログラム、及び監視方法 Download PDF

Info

Publication number
JP6984119B2
JP6984119B2 JP2016222342A JP2016222342A JP6984119B2 JP 6984119 B2 JP6984119 B2 JP 6984119B2 JP 2016222342 A JP2016222342 A JP 2016222342A JP 2016222342 A JP2016222342 A JP 2016222342A JP 6984119 B2 JP6984119 B2 JP 6984119B2
Authority
JP
Japan
Prior art keywords
condition
failure
parameter
snmp trap
physical machine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016222342A
Other languages
English (en)
Other versions
JP2018081428A (ja
Inventor
理 若林
友泰 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2016222342A priority Critical patent/JP6984119B2/ja
Publication of JP2018081428A publication Critical patent/JP2018081428A/ja
Application granted granted Critical
Publication of JP6984119B2 publication Critical patent/JP6984119B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、監視装置、監視プログラム、及び監視方法に関し、例えば、仮想環境を構成する基盤ソフト(ハイパバイザー)/ハード(物理マシン:PM)を監視する監視装置に適用できる。
近年、サーバ装置(例えば、SIP(Session Initiation Protocol)サーバ)等において、仮想化技術が広く適用されている。仮想化技術は、余剰リソースを有効活用する手法を提供する。仮想化技術の適用により、物理的な構成にとらわれずに、負荷に応じてサーバの機能を実行する仮想マシン(VM)間で動的なリソースの配分を行い、ハードウェアの処理能力を最大限に発揮させる仮想環境が構築される。
ところで、仮想環境では、仮想化基盤を構成するハードウェア(PM)の障害が、複数のサービスコンポーネント(仮想マシン)のサービス停止につながる可能性がある。
そのため、仮想環境では、ハードウェア障害の発生を監視し、自動でハードウェア障害発生を検出して、障害が発生したPMで動作していた仮想マシンを、別のPMにて復旧(PMヒーリング)する、自動復旧機能が存在する(特許文献1参照)。
一般的に、自動復旧機能は、(1)障害の検知(2)障害原因がPMの故障であることの確認(3)壊れたPMの電源の切断(4)予備のPMから一台、復旧用のPMを選択(5)故障したPM上の仮想マシンを復旧用PMに移動(6)仮想マシン上で稼働するべきプログラム類の起動の6つの処理(機能)により実現されている。
特開2015−176168号公報
しかしながら、従来の監視及び復旧の技術では、主に以下の2つの課題が存在する。
第1に、PM間(又はPMと監視装置間)で定期的な情報収集を行って障害を検出するため、監視する仕組み(アクティブ監視)や誤検出の防止が必要となる。第2に、PMの故障(ハードウェア障害)やシステムのダウンを検出してからの処理であるため、障害を事前に検出して復旧を行うことができない。
そのため、効率的に仮想化基盤を監視し、障害を検出できる監視装置、監視プログラム、及び監視方法が望まれている。
第1の本発明は、仮想マシンが動作する第1の物理マシンの障害を監視し、障害を検出すると、前記第1の物理マシン上の仮想マシンを第2の物理マシンに移動させて障害復旧を行う監視装置であって、(1)前記第1の物理マシンから能動的に発信される障害を示す通知であるSNMPトラップを受信する受信手段と、(2)少なくとも前記SNMPトラップのID毎に、前記SNMPトラップに含まれるパラメータの内、条件判定に用いるパラメータを特定する番号を示すパラメータ番号、前記パラメータ番号に係るパラメータと比較する閾値、前記パラメータ番号に係るパラメータと前記閾値とを比較する際の比較条件、障害の発生頻度を示す発生回数条件、及び条件を満たした場合に実行するアクションを含む予め登録された障害条件を記憶する記憶手段と、前記SNMPトラップが受信されると、受信した前記SNMPトラップのIDをキーとして、前記障害条件のデータを探索し、該当する前記障害条件に係るデータが見つかり、且つ受信した前記SNMPトラップに該当する前記パラメータ番号に係るパラメータが含まれている場合、前記パラメータ番号に係るパラメータと、前記閾値とを前記比較条件で比較し、その比較結果及び前記発生回数条件を満たすか否かにより、前記第1の物理マシンの状態を判定する判定手段と、()受信した前記SNMPトラップに含まれるパラメータの内、前記パラメータ番号に係るパラメータと、前記閾値とを前記比較条件で比較したときに、前記比較条件を満たし、前記障害条件に前記発生回数条件が設定されていない場合又は前記障害条件に前記発生回数条件が設定されているときには、前記SNMPトラップ毎の単位時間当たりの障害発生回数をカウントし、当該障害発生回数が前記発生回数条件を満たす場合には、前記障害条件に設定された前記アクションを実行する行動手段とを有し、()前記行動手段は、前記障害条件に設定された前記アクションが仮想マシンの復旧である場合には、前記第1の物理マシン上の仮想マシンを前記第2の物理マシンに移動させて障害復旧を行うことを特徴とする。
第2の本発明の監視プログラムは、仮想マシンが動作する第1の物理マシンの障害を監視し、障害を検出すると、前記第1の物理マシン上の仮想マシンを第2の物理マシンに移動させて障害復旧を行う監視装置に搭載されるコンピュータを、(1)前記第1の物理マシンから能動的に発信される障害を示す通知であるSNMPトラップを受信する受信手段と、(2)少なくとも前記SNMPトラップのID毎に、前記SNMPトラップに含まれるパラメータの内、条件判定に用いるパラメータを特定する番号を示すパラメータ番号、前記パラメータ番号に係るパラメータと比較する閾値、前記パラメータ番号に係るパラメータと前記閾値とを比較する際の比較条件、障害の発生頻度を示す発生回数条件、及び条件を満たした場合に実行するアクションを含む予め登録された障害条件を記憶する記憶手段と、前記SNMPトラップが受信されると、受信した前記SNMPトラップのIDをキーとして、前記障害条件のデータを探索し、該当する前記障害条件に係るデータが見つかり、且つ受信した前記SNMPトラップに該当する前記パラメータ番号に係るパラメータが含まれている場合、前記パラメータ番号に係るパラメータと、前記閾値とを前記比較条件で比較し、その比較結果及び前記発生回数条件を満たすか否かにより、前記第1の物理マシンの状態を判定する判定手段と、()受信した前記SNMPトラップに含まれるパラメータの内、前記パラメータ番号に係るパラメータと、前記閾値とを前記比較条件で比較したときに、前記比較条件を満たし、前記障害条件に前記発生回数条件が設定されていない場合又は前記障害条件に前記発生回数条件が設定されているときには、前記SNMPトラップ毎の単位時間当たりの障害発生回数をカウントし、当該障害発生回数が前記発生回数条件を満たす場合には、前記障害条件に設定された前記アクションを実行する行動手段として機能させ、()前記行動手段は、前記障害条件に設定された前記アクションが仮想マシンの復旧である場合には、前記第1の物理マシン上の仮想マシンを前記第2の物理マシンに移動させて障害復旧を行うことを特徴とする。
第3の本発明は、仮想マシンが動作する第1の物理マシンの障害を監視し、障害を検出すると、前記第1の物理マシン上の仮想マシンを第2の物理マシンに移動させて障害復旧を行う監視装置に使用する監視方法であって、(1)受信手段、記憶手段、判定手段、及び行動手段を有し、(2)前記受信手段は、前記第1の物理マシンから能動的に発信される障害を示す通知であるSNMPトラップを受信し、(3)前記記憶手段は、少なくとも前記SNMPトラップのID毎に、前記SNMPトラップに含まれるパラメータの内、条件判定に用いるパラメータを特定する番号を示すパラメータ番号、前記パラメータ番号に係るパラメータと比較する閾値、前記パラメータ番号に係るパラメータと前記閾値とを比較する際の比較条件、障害の発生頻度を示す発生回数条件、及び条件を満たした場合に実行するアクションを含む予め登録された障害条件を記憶し、)前記判定手段は、前記SNMPトラップが受信されると、受信した前記SNMPトラップのIDをキーとして、前記障害条件のデータを探索し、該当する前記障害条件に係るデータが見つかり、且つ受信した前記SNMPトラップに該当する前記パラメータ番号に係るパラメータが含まれている場合、前記パラメータ番号に係るパラメータと、前記閾値とを前記比較条件で比較し、その比較結果及び前記発生回数条件を満たすか否かにより、前記第1の物理マシンの状態を判定し、()前記行動手段は、受信した前記SNMPトラップに含まれるパラメータの内、前記パラメータ番号に係るパラメータと、前記閾値とを前記比較条件で比較したときに、前記比較条件を満たし、前記障害条件に前記発生回数条件が設定されていない場合又は前記障害条件に前記発生回数条件が設定されているときには、前記SNMPトラップ毎の単位時間当たりの障害発生回数をカウントし、当該障害発生回数が前記発生回数条件を満たす場合には、前記障害条件に設定された前記アクションを実行し、()前記行動手段は、前記障害条件に設定された前記アクションが仮想マシンの復旧である場合には、前記第1の物理マシン上の仮想マシンを前記第2の物理マシンに移動させて障害復旧を行うことを特徴とする。
本発明によれば、効率的に仮想化基盤を監視し、障害を検出できる。
実施形態に係る監視装置の機能的構成について示したブロック図である。 実施形態に係る監視復旧システムの全体構成例を示すブロック図である。 実施形態に係る障害条件の一例を示す図である。 実施形態に係る監視復旧システム(監視装置)の動作を示すフローチャートである。 実施形態に係る監視装置が、障害の発生を検出したPM上で動作していた仮想マシンを復旧するイメージを示す図である。 実施形態に係るSNMPトラップの具体例を基に、図4の動作を説明する図である。
(A)主たる実施形態
以下では、本発明の監視装置、監視プログラム、及び監視方法の実施形態を、図面を参照しながら詳細に説明する。
(A−1)実施形態の構成
(A−1−1)全体構成
図2は、実施形態に係る監視復旧システムの全体構成例を示すブロック図である。
図2において、監視復旧システム1は、監視装置2と、3台の物理マシン(PM)3(3−1〜3−3)とを有して構成される。勿論、PM3の数は、限定されるものでは無い。また、監視装置2及びPM3は、ネットワークNに接続している。ネットワークNの通信方式については限定されないものであるが、例えば、IP通信網等を適用することができる。なお、この実施形態では、監視装置2が、SNMP(Simple Network Management Protocol)プロトコルを用いて、監視対象であるPM3を監視する例を示すが、これに限定するものでは無く、種々様々なプロトコルを用いることができる。
監視装置2は、PM3(仮想環境を構成するハイパバイザー31を含む)の障害を示すSNMPトラップを監視し、障害を検出すると、予め設定された復旧動作を実行する。
PM3は、コンピュータを仮想化した仮想マシン(VM)32を動作させて、ユーザに対して各種のサービスを提供する装置であり、例えば、サーバコンピュータである。PM3は、サーバ仮想化プログラムを実行することによって、ハイパバイザー31上で複数の仮想マシン32を動作させる。
(A−1−2)監視装置2の詳細な構成
図1は、実施形態の監視装置の構成を示すブロック図である。
図1において、監視装置2は、トラップ受信部21及びPMヒーリング・自動復旧部22を有して構成される。
トラップ受信部21は、監視対象であるPM3からのSNMPトラップを受信するものである。トラップ受信部21は、受信したSNMPトラップ情報をPMヒーリング・自動復旧部22に通知する。通知する情報は、例えば、SNMPトラップを識別する「トラップID」と、SNMPトラップで通知された詳細情報を示す「パラメータ」等である。
PMヒーリング・自動復旧部22は、実行条件判定部23、保守者通知部24及びVM復旧部25を有して構成される。
実行条件判定部23は、トラップ受信部21から通知されたSNMPトラップ情報と、予め設定された自動復旧の実行条件(障害条件T)との比較判定を行う。図3は、実施形態に係る障害条件の一例を示す図である。図3において、障害条件Tは、SNMPトラップを識別するID(snmpTrap OID)を示す「トラップID」と、SNMPトラップに含まれるパラメータの内、条件判定に用いるパラメータの番号を示す「パラメータ番号」と、パラメータ番号の判定に用いる閾値を示す「閾値」と、閾値に対する判定を行う条件(一致、不一致、以上、未満)を示す「条件」と、単位時間あたりの発生回数を示す「発生回数」と、条件一致時に実行するアクション(自動復旧、停止、保守者通知等)を示す「アクション」の項目を有する。
実行条件判定部23は、受信したSNMPトラップ情報のトラップIDをキーとして、障害条件Tに合致するデータが存在するか否か探索する。例えば、通知されたトラップIDが0001の場合には、障害条件Tの1行目のデータ(「トラップID」の項目が0001のデータ)が合致するデータとなる。次に、実行条件判定部23は、受信したSNMPトラップ情報のパラメータ中、指定された箇所(「パラメータ番号」)の値を、「閾値」、「条件」、「発生回数」の項目に従って、比較する。例えば、受信したトラップIDが0001の場合には、受信したパラメータの内、2番目のパラメータの値が、閾値(100)と一致し、且つ同じ通知が30秒の内、10回発生していれば、障害と判定される。なお、図3の障害条件Tの内、2〜4行目のデータの「発生回数」は、設定されておらず、「閾値」と「条件」の項目のみによって判定される。また、変形例として、トラップIDが異なるSNMPトラップを複数受信した場合に、PM3の故障と判定しても良い。なお、図3に示す障害条件Tの設定は一例であって、判定を行うパラメータの番号(位置)、判定閾値、一致/不一致/大小などの比較条件は予め自由に設定することができる。
実行条件判定部23によって、条件に合致したと判定されると、後述する保守者通知部24又はVM復旧部25によって、指定された「アクション」が実行される。
保守者通知部24は、システムを管理する保守者に通知を行う機能部である。保守者への通知手段は種々様々な手段を用いることができるが、例えば、監視装置2の表示画面にPM3の故障(又は故障の兆候)が発生した旨を示す画面を表示しても良いし、保守者のコンピュータ、スマートフォン、タブレット端末等に障害内容を記載した電子メールを送信しても良い。
VM復旧部25は、障害が起きたPM3上で動作していたVM32の復旧処理を行う機能部である。VM復旧部25の復旧処理についてはAPI(Application Programming Interface)を利用して実行されるが、詳細については、後述する動作の項で述べる。
(A−2)実施形態の動作
次に、以上のような構成を有する実施形態の監視復旧システム1の動作を説明する。
図4は、実施形態に係る監視復旧システム(監視装置)の動作を示すフローチャートである。
監視装置2(トラップ受信部21)は、PMマシン3(図2の例では、PMマシン3−2)からSNMPトラップを受信すると、受信したSNMPトラップの情報(トラップIDと、パラメータ等)を、PMヒーリング・自動復旧部22(実行条件判定部23)に通知する(S101)。
PMヒーリング・自動復旧部22(実行条件判定部23)は、受信したSNMPトラップ(トラップID)が、障害条件Tに含まれているか探索する(S102)。実行条件判定部23は、トラップIDが障害条件Tに含まれていれば、次の処理を行い、含まれていなければ、判定処理を終了する。
実行条件判定部23は、受信したSNMPのパラメータの数が、障害条件Tのパラメータ番号(トラップIDをキーとして探索したデータのパラメータ番号)以上か否か判定する(言い換えれば、障害条件のパラメータ番号に対応する受信パラメータが存在するか否か判定する)(S103)。実行条件判定部23は、受信したSNMPのパラメータの数が、障害条件Tのパラメータ番号以上であれば、次の処理を行い、条件を満たさなければ、判定処理を終了する。
実行条件判定部23は、障害条件Tの該当データのパラメータ番号に対応する(位置する)受信トラップのパラメータが、障害条件Tの閾値及び条件に合致するか否か判定する(S104)。実行条件判定部23は、該当位置の受信パラメータが障害条件Tの閾値及び条件に合致すれば、次の処理を行い、合致しなければ、判定処理を終了する。
実行条件判定部23は、障害条件Tの該当データに発生回数が設定されているか判定する(S105)。実行条件判定部23は、障害条件Tの該当データに発生回数が設定されていれば、次の処理を行い、設定されていなければ、後述するステップS108の処理を実行する。
実行条件判定部23は、障害発生の回数を更新する(S106)。なお、障害発生の回数の管理の仕方は限定されないものであるが、例えば、実行条件判定部23は、PM3(3−1〜3−3)毎に所定のトラップIDの障害発生回数を、単位時間あたりにカウントするカウンタにより管理しても良い。
実行条件判定部23は、先述のステップS106の処理により更新された障害発生の回数が、障害条件Tの該当データの発生回数と合致するか否か判定する(S107)。実行条件判定部23は、障害条件Tの該当データに合致されていれば、次の処理(ステップS108の処理)を行い、合致しなければ、処理を終了する。
PMヒーリング・自動復旧部22(保守者通知部24、VM復旧部25)は、最終的に障害条件に合致したと判定されると(障害を検出したとされると)、障害条件Tの該当データに係るアクションを実行する(S108)。例えば、障害条件Tの該当データのアクションがVM復旧だった場合には、VM復旧部25は、自動復旧処理を行う。図5は、実施形態に係る監視装置が、障害の発生を検出したPM上で動作していた仮想マシンを復旧するイメージを示す図である。まず、VM復旧部25は、PMサービス停止APIを起動して、障害の発生を検出したPM3−2の電源を切断する。次に、VM復旧部25は、仮想マシン復旧APIを起動して、故障したPM3−2上の仮想マシン(VM#3、VM#4)を、復旧用PM3−3に移動する(例えば、ストレージングデバイスに記憶されたVM#3、VM#4のバックアップデータをコピーする)。そして、VM復旧部25は、仮想マシン起動APIを起動して、VM上で稼働するべきプログラム類の起動を行う(運用系の状態にする)。
図6は、実施形態に係るSNMPトラップの具体例を基に、図4の動作を説明する図である。図6(A)は、PM3−2から受信したトラップ情報の具体例を示す図である。また、図6(B)は、先述の障害条件Tを示す図である。監視装置2(実行条件判定部23)は、PM3−2から図6(A)のSNMPトラップを受信すると、トラップIDが「0001」であるので、障害条件Tの先頭データがヒットする(S102)。実行条件判定部23は、ヒットした先頭データのパラメータ番号である「2」と、受信したSNMPトラップのパラメータ数(2)とを比較して、2番目のパラメータが存在することを判定する(S103)。実行条件判定部23は、受信したSNMPトラップの2番目のパラメータ値(2)が閾値(100)と一致することを判定する(S104)。実行条件判定部23は、障害条件Tの先頭データには発生回数が設定されていることを判定する(S105)。発生回数の条件が満たされいれば(S106)、先に説明した通り、VM復旧部25が自動復旧処理を行う(S108)。
(A−3)実施形態の効果
この実施形態によれば、以下のような効果を奏することができる。
監視装置2側からの定期的な監視が不要となり、パッシブ型の監視が可能となった。また、障害監視には、汎用的なSNMPトラップを監視及び故障検出に使用することで、ハイパバイザーに特化した監視機能を独自に持つ必要がなくなった。さらに、PMヒーリング・自動復旧部22は、SNMPトラップに含まれるパラメータ(詳細内容)についても評価を行う対象とすることで、確実な障害検出を行い、誤検出を防止することができる。なお、評価を行う条件(障害条件T)は、ユーザが自由に予め設定できるため、環境や提供するサービスに応じた監視を行うことができる。
PMヒーリング・自動復旧部22が、SNMPトラップ単位の監視とパラメータの判定を行うことで、細かいアクションの設定ができる。例えば、通知内容が致命的障害ではないが、予防が必要な障害については、発生頻度などの条件を登録することでアクションを行うことができる。実行するアクション自体についても、自動復旧、停止、通知等の中からユーザが自由に設定することができる。
そして、この実施形態では、先述の図5で説明した通り、監視装置2が、VMを復旧する処理をAPIとして提供することにより、仮想環境独自の仕様に依存しないで、障害が発生したPMを停止したり、停止したPM上のVMを復旧用のPMに移動したり、VMの復旧処理が行えることになった。
1…監視復旧システム、2…監視装置、3…物理マシン、21…トラップ受信部、22…自動復旧部、23…実行条件判定部、24…保守者通知部、25…VM復旧部、31…ハイパバイザー、32…仮想マシン、N…ネットワーク、T…障害条件。

Claims (4)

  1. 仮想マシンが動作する第1の物理マシンの障害を監視し、障害を検出すると、前記第1の物理マシン上の仮想マシンを第2の物理マシンに移動させて障害復旧を行う監視装置であって、
    前記第1の物理マシンから能動的に発信される障害を示す通知であるSNMPトラップを受信する受信手段と、
    少なくとも前記SNMPトラップのID毎に、前記SNMPトラップに含まれるパラメータの内、条件判定に用いるパラメータを特定する番号を示すパラメータ番号、前記パラメータ番号に係るパラメータと比較する閾値、前記パラメータ番号に係るパラメータと前記閾値とを比較する際の比較条件、障害の発生頻度を示す発生回数条件、及び条件を満たした場合に実行するアクションを含む予め登録された障害条件を記憶する記憶手段と、
    前記SNMPトラップが受信されると、受信した前記SNMPトラップのIDをキーとして、前記障害条件のデータを探索し、該当する前記障害条件に係るデータが見つかり、且つ受信した前記SNMPトラップに該当する前記パラメータ番号に係るパラメータが含まれている場合、前記パラメータ番号に係るパラメータと、前記閾値とを前記比較条件で比較し、その比較結果及び前記発生回数条件を満たすか否かにより、前記第1の物理マシンの状態を判定する判定手段と、
    受信した前記SNMPトラップに含まれるパラメータの内、前記パラメータ番号に係るパラメータと、前記閾値とを前記比較条件で比較したときに、前記比較条件を満たし、前記障害条件に前記発生回数条件が設定されていない場合又は前記障害条件に前記発生回数条件が設定されているときには、前記SNMPトラップ毎の単位時間当たりの障害発生回数をカウントし、当該障害発生回数が前記発生回数条件を満たす場合には、前記障害条件に設定された前記アクションを実行する行動手段とを有し、
    前記行動手段は、前記障害条件に設定された前記アクションが仮想マシンの復旧である場合には、前記第1の物理マシン上の仮想マシンを前記第2の物理マシンに移動させて障害復旧を行う
    ことを特徴とする監視装置。
  2. 前記行動手段は、APIを利用して構成されることを特徴とする請求項1に記載の監視装置。
  3. 仮想マシンが動作する第1の物理マシンの障害を監視し、障害を検出すると、前記第1の物理マシン上の仮想マシンを第2の物理マシンに移動させて障害復旧を行う監視装置に搭載されるコンピュータを、
    前記第1の物理マシンから能動的に発信される障害を示す通知であるSNMPトラップを受信する受信手段と、
    少なくとも前記SNMPトラップのID毎に、前記SNMPトラップに含まれるパラメータの内、条件判定に用いるパラメータを特定する番号を示すパラメータ番号、前記パラメータ番号に係るパラメータと比較する閾値、前記パラメータ番号に係るパラメータと前記閾値とを比較する際の比較条件、障害の発生頻度を示す発生回数条件、及び条件を満たした場合に実行するアクションを含む予め登録された障害条件を記憶する記憶手段と、
    前記SNMPトラップが受信されると、受信した前記SNMPトラップのIDをキーとして、前記障害条件のデータを探索し、該当する前記障害条件に係るデータが見つかり、且つ受信した前記SNMPトラップに該当する前記パラメータ番号に係るパラメータが含まれている場合、前記パラメータ番号に係るパラメータと、前記閾値とを前記比較条件で比較し、その比較結果及び前記発生回数条件を満たすか否かにより、前記第1の物理マシンの状態を判定する判定手段と、
    受信した前記SNMPトラップに含まれるパラメータの内、前記パラメータ番号に係るパラメータと、前記閾値とを前記比較条件で比較したときに、前記比較条件を満たし、前記障害条件に前記発生回数条件が設定されていない場合又は前記障害条件に前記発生回数条件が設定されているときには、前記SNMPトラップ毎の単位時間当たりの障害発生回数をカウントし、当該障害発生回数が前記発生回数条件を満たす場合には、前記障害条件に設定された前記アクションを実行する行動手段として機能させ、
    前記行動手段は、前記障害条件に設定された前記アクションが仮想マシンの復旧である場合には、前記第1の物理マシン上の仮想マシンを前記第2の物理マシンに移動させて障害復旧を行う
    ことを特徴とする監視プログラム。
  4. 仮想マシンが動作する第1の物理マシンの障害を監視し、障害を検出すると、前記第1の物理マシン上の仮想マシンを第2の物理マシンに移動させて障害復旧を行う監視装置に使用する監視方法であって、
    受信手段、記憶手段、判定手段、及び行動手段を有し、
    前記受信手段は、前記第1の物理マシンから能動的に発信される障害を示す通知であるSNMPトラップを受信し、
    前記記憶手段は、少なくとも前記SNMPトラップのID毎に、前記SNMPトラップに含まれるパラメータの内、条件判定に用いるパラメータを特定する番号を示すパラメータ番号、前記パラメータ番号に係るパラメータと比較する閾値、前記パラメータ番号に係るパラメータと前記閾値とを比較する際の比較条件、障害の発生頻度を示す発生回数条件、及び条件を満たした場合に実行するアクションを含む予め登録された障害条件を記憶し、
    前記判定手段は、前記SNMPトラップが受信されると、受信した前記SNMPトラップのIDをキーとして、前記障害条件のデータを探索し、該当する前記障害条件に係るデータが見つかり、且つ受信した前記SNMPトラップに該当する前記パラメータ番号に係るパラメータが含まれている場合、前記パラメータ番号に係るパラメータと、前記閾値とを前記比較条件で比較し、その比較結果及び前記発生回数条件を満たすか否かにより、前記第1の物理マシンの状態を判定する判定し、
    前記行動手段は、受信した前記SNMPトラップに含まれるパラメータの内、前記パラメータ番号に係るパラメータと、前記閾値とを前記比較条件で比較したときに、前記比較条件を満たし、前記障害条件に前記発生回数条件が設定されていない場合又は前記障害条件に前記発生回数条件が設定されているときには、前記SNMPトラップ毎の単位時間当たりの障害発生回数をカウントし、当該障害発生回数が前記発生回数条件を満たす場合には、前記障害条件に設定された前記アクションを実行し、
    前記行動手段は、前記障害条件に設定された前記アクションが仮想マシンの復旧である場合には、前記第1の物理マシン上の仮想マシンを前記第2の物理マシンに移動させて障害復旧を行う
    ことを特徴とする監視方法。
JP2016222342A 2016-11-15 2016-11-15 監視装置、監視プログラム、及び監視方法 Active JP6984119B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016222342A JP6984119B2 (ja) 2016-11-15 2016-11-15 監視装置、監視プログラム、及び監視方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016222342A JP6984119B2 (ja) 2016-11-15 2016-11-15 監視装置、監視プログラム、及び監視方法

Publications (2)

Publication Number Publication Date
JP2018081428A JP2018081428A (ja) 2018-05-24
JP6984119B2 true JP6984119B2 (ja) 2021-12-17

Family

ID=62198088

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016222342A Active JP6984119B2 (ja) 2016-11-15 2016-11-15 監視装置、監視プログラム、及び監視方法

Country Status (1)

Country Link
JP (1) JP6984119B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7423942B2 (ja) 2019-09-09 2024-01-30 富士フイルムビジネスイノベーション株式会社 情報処理システム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006053728A (ja) * 2004-08-11 2006-02-23 Nec Corp 障害対処ルール伝播方法、障害復旧装置およびプログラム
WO2011101887A1 (ja) * 2010-02-16 2011-08-25 株式会社日立製作所 管理システム及び管理システムの制御方法
JP6019995B2 (ja) * 2012-09-24 2016-11-02 日本電気株式会社 分散システム、サーバ計算機、及び障害発生防止方法
JP5872433B2 (ja) * 2012-10-04 2016-03-01 日本電信電話株式会社 仮想マシン配置装置および仮想マシン配置方法

Also Published As

Publication number Publication date
JP2018081428A (ja) 2018-05-24

Similar Documents

Publication Publication Date Title
TWI746512B (zh) 實體機器故障分類處理方法、裝置和虛擬機器恢復方法、系統
US9342426B2 (en) Distributed system, server computer, distributed management server, and failure prevention method
US9672085B2 (en) Adaptive fault diagnosis
US20140101489A1 (en) Method, Apparatus, and System for Handling Virtual Machine Internal Fault
CN106856489A (zh) 一种分布式存储系统的服务节点切换方法和装置
WO2016188100A1 (zh) 信息系统故障场景信息收集方法及系统
CN111953566B (zh) 一种基于分布式故障监控的方法和虚拟机高可用系统
US20200204620A1 (en) Systems and methods of monitoring software application processes
CN111212127A (zh) 一种存储集群及业务数据的维护方法、装置和存储介质
CN108039956A (zh) 应用监控方法、系统和计算机可读存储介质
JP6984119B2 (ja) 監視装置、監視プログラム、及び監視方法
US10157110B2 (en) Distributed system, server computer, distributed management server, and failure prevention method
JP6269199B2 (ja) 管理サーバおよび障害復旧方法、並びにコンピュータ・プログラム
CN108154343B (zh) 一种企业级信息系统的应急处理方法及系统
WO2014040470A1 (zh) 告警消息的处理方法及装置
JP6263083B2 (ja) 仮想システムの稼働率管理方法、稼働率管理プログラム、および稼働率管理装置
JP2006285453A (ja) 情報処理装置、情報処理方法、および情報処理プログラム
KR101864126B1 (ko) 지속적인 서비스 제공을 위한 정상상태 모델 기반의 침입감내 시스템 및 그 제어방법
JP5011174B2 (ja) 情報機器管理方法
AU2014200806B1 (en) Adaptive fault diagnosis
CN109412888B (zh) 虚拟交换机监控方法及装置
CN112532525B (zh) 设备恢复服务的处理方法、装置和系统
JP2012118800A (ja) 運用管理障害対応システム及び運用管理障害対応方法
JPWO2011114834A1 (ja) ネットワーク機器およびネットワーク装置
CN117149482A (zh) 一种对线程状态进行检测的方法和装置、电子设备、介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190815

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200728

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201013

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201211

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210427

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210625

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211026

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211108

R150 Certificate of patent or registration of utility model

Ref document number: 6984119

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150