JP6060781B2 - 障害診断装置およびプログラム - Google Patents

障害診断装置およびプログラム Download PDF

Info

Publication number
JP6060781B2
JP6060781B2 JP2013077365A JP2013077365A JP6060781B2 JP 6060781 B2 JP6060781 B2 JP 6060781B2 JP 2013077365 A JP2013077365 A JP 2013077365A JP 2013077365 A JP2013077365 A JP 2013077365A JP 6060781 B2 JP6060781 B2 JP 6060781B2
Authority
JP
Japan
Prior art keywords
hardware
virtual machine
received
request
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013077365A
Other languages
English (en)
Other versions
JP2014203181A (ja
Inventor
大樹 増田
大樹 増田
敦 攝津
敦 攝津
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2013077365A priority Critical patent/JP6060781B2/ja
Publication of JP2014203181A publication Critical patent/JP2014203181A/ja
Application granted granted Critical
Publication of JP6060781B2 publication Critical patent/JP6060781B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、計算機の障害を検出する障害診断技術に関する。
物理的には1つの計算機において、仮想化機構を用いてサービス用と監視用の複数の仮想の計算機(仮想計算機あるいはVM)を動作させ、監視用の仮想計算機からサービス用の仮想計算機を監視する技術が提案されている。
特許文献1には計算機に本番システムの論理計算機と監視システムの論理計算機を作成し、監視システムの論理計算機から本番システムの論理計算機を監視する論理計算機システムが開示されている。この論理計算機システムでは、本番システムの論理計算機で実行されるオペレーティングシステム(OSとも称す)やアプリケーションが取得したログを、論理計算機エージェントが監視システムの論理計算機に送信する。監視システムの論理計算機で実行される論理計算機マネージャはこのログを受信して、本番システムの論理計算機を監視する。
特許文献2には同一の計算機システム上で、第1のOSと第2のOSを実行させ、第1のOS上でサービスアプリケーションを実行し、また、第2のOS上で解析予測アプリケーションを実行して、第1のOSが保持する自OSの状態情報と動作記録情報を第2のOS上で動作する解析予測アプリケーションが解析して、障害の兆候を検出する計算機システムが開示されている。
特開2004−30363号公報(図1) 特開2005−115751号公報(図1)
上述のような従来の監視用の仮想計算機によって計算機が備えるハードウェアの障害を検出するとき、監視用の仮想計算機から診断のためのハードウェアの操作を実行すると、サービス用のアプリケーションプログラムが実行される仮想計算機からのハードウェアの操作と競合して、サービス用のアプリケーションプログラムの実行を阻害してしまうという問題があった。
この発明は上記のような問題点を解決するためになされたものであり、計算機のハードウェアの診断を目的とするハードウェアの操作が、サービス用のアプリケーションプログラムが実行される仮想計算機からのハードウェアの操作に対して与える影響を軽減することを目的とする。
この発明の障害診断装置は、計算機と、計算機において動作するサービス用の仮想計算機と、計算機で仮想計算機が動作するための仮想環境を提供する仮想計算機モニタと、計算機のハードウェアを診断するハードウェア診断部と、サービス用の仮想計算機またはハードウェア診断部からハードウェアの操作を要求する操作要求を受信し、受信した操作要求がサービス用の仮想計算機から受信した操作要求である場合には当該サービス用計算機から受信した操作要求で要求された操作を実施し、受信した操作要求がハードウェア診断部がハードウェアの診断のために送信した操作要求である場合には当該ハードウェア診断部が送信した操作要求で指示された操作対象のハードウェアを予め定められた時間以内にサービス用計算機からの操作要求に応じて操作していたか否かを判断し、予め定められた時間以内に操作していた場合はハードウェア診断部が送信した操作要求で要求された操作の実施を抑制し、予め定められた時間以内に操作していなかった場合はハードウェア診断部が送信した操作要求で要求された操作を実施するハードウェア操作代行部と、を備えるようにしたものである。
この発明のプログラムは、複数の仮想計算機が動作する計算機に、計算機のハードウェアの操作を要求する操作要求を、計算機において動作する仮想計算機から受信するステップと、受信した操作要求の送信元が計算機において動作するサービス用の仮想計算機であるとき当該サービス用計算機らの操作要求で要求された操作を実施し、受信した操作要求の送信元が計算機において動作するハードウェアを診断するための診断用の仮想計算機であるとき、当該診断用の仮想計算機からの操作要求により指示された操作対象のハードウェアを、予め定められた時間以内にサービス用の仮想計算機からの操作要求に応じて操作していた場合は診断用の仮想計算機からの操作要求で要求された操作の実施を抑制し、予め定められた時間以内に操作をしていなかった場合は当該要求された操作を実施する要求処理ステップと、を実行させるようにしたものである。
上述のようにこの発明によれば、監視用の仮想計算機による計算機のハードウェア障害検出のためのハードウェアの操作が、サービス用の仮想計算機によるハードウェアの操作に与える影響を軽減した障害診断装置を得ることができる。
この発明の実施の形態1の障害診断装置の構成を示すブロック図である。 この発明の実施の形態1の仮想マシンモニタの操作履歴テーブルのフォーマットである。 この発明の実施の形態1の定期診断プログラムの処理フローである。 この発明の実施の形態1の仮想マシンモニタのHW操作代行部の処理フローである。
以下、この発明の実施の形態を、図面を参照して説明する。なお、以下で参照する図面において同一もしくは相当する部分には同一の符号を付している。
実施の形態1.
図1はこの発明の実施の形態1に係る障害診断装置の構成を示すブロック図である。図1において、計算機ハードウェア(以降、PHWとも称す)100は現実の計算機のハードウェアである。PHW100は、マイクロプロセッサ101、メモリ102に加え、例えばディスク装置(HDDとも称す)103、通信インタフェース(NICとも称す)104などの複数のハードウェアを備えている。また、RTC(Real Time Counter)105は現在時刻をカウントするカウンタである。マイクロプロセッサ101はカウンタ106を備えている。なお、図1は構成例として示すものであり、この発明はPHW100が備えるHDD103、NIC104等のハードウェアの種類および個数を限定するものではない。
一般的に仮想計算機システムは、例えばXen(登録商標)などのような仮想計算機モニタ(以降、仮想マシンモニタと称す)と呼ばれるプログラムを用いて構築される。仮想計算機モニタが提供する仮想環境は、物理的には1個の計算機においてで複数の仮想の計算機(仮想計算機もしくは仮想マシンと称す)が動作することを可能にする。図3に示す仮想マシンモニタ(以降、VMMとも称す)110はこのような仮想環境を提供するプログラムであり、PHW100が備えるマイクロプロセッサ101が実行するものである。なお、VMM110はハイパーバイザ型と呼ばれる計算機ハードウェア上で直接実行されるものであっても良いし、ホスト型と呼ばれるオペレーティングシステム上で実行されるものであっても良い。ここでは、ハイパーバイザ型を例として説明する。
VMM110は、PHW100が備えるHDD103等の各ハードウェアを実際に操作するハードウェア操作代行部(HW操作代行部)111と、PHW100の各ハードウェアに対する操作の履歴を記録する操作履歴テーブル112を備えている。操作履歴テーブル112は記憶媒体であるメモリ102を用いて記憶する。HW操作代行部111はPHW100が備える各ハードウェアを操作するとき、操作対象のハードウェアの操作コマンドを用いて操作を行う。例えば、ATA(Advanced Technology Attachment)規格の装置であれば、ATAコマンドを用いて操作を行う。
運用仮想マシン(以降、仮想マシンをVMとも称す)120と診断仮想マシン130はVMM110が提供する仮想環境上で動作する仮想の計算機である。ここで、運用VMは本実施の形態におけるサービス用の仮想計算機である。診断VM130は本実施の形態における診断用の仮想計算機(ハードウェア診断部)である。運用VM120では、アプリケーションプログラム123が動作する。アプリケーションプログラム123は、例えばファイルサーバ等のサーバ機能や、あるいは会計システムといったエンタープライズアプリケーションなどの処理を提供するプログラムである。運用VM120において、アプリケーションプログラム123はオペレーティングシステムであるOS122上で実行される。
OS122、アプリケーションプログラム123は現実の計算機において実行されるのと同様の動作をする。つまり、これらのプログラムは、運用VM120が備えるプロセッサが実行しているものとして動作する。しかし実際には、運用VM120が備えるプロセッサは存在せず、PHW100が備えるマイクロプロセッサ101がこれらのプログラムを実行する。これは診断VM130においても同様である。
仮想ハードウェア(以降、VHWとも称す)121はOS122が実行する上述のATAコマンドなどのハードウェア操作コマンドを受ける仮想的なハードウェアである。VHW121はVMM110がPHW100に相当するハードウェアをソフトウェアで模擬したものである。このため、図3でVHW121は運用VM120とVMM110の両方に属するように示している。
VHW121は、OS122が出す運用VM120におけるハードウェアの操作コマンドを、PHW100に対するハードウェアの操作コマンドに変換してHW操作代行部111に通知する。HW操作代行部111はこの通知を受けて、PHW100に対する操作コマンドを実行する。
診断VM130も運用VM120と同様の構成である。VHW131は、VHW121と同様の仮想的なハードウェアである。OS132はOS122と同様の診断VM130のオペレーティングシステムであり、VHW131上で実行される。定期診断プログラム140はOS132上で実行される、PHW100の異常を検知するための診断プログラムである。
なお、ここでは説明を簡略にするために運用VM120が1個の場合を示しているが、この発明は運用VM120の数を1個に限定するものではなく、複数であって良い。
図2はVMM110の操作履歴テーブル112のフォーマットである。このテーブルにはPHW100が備える個々のハードウェアを識別するハードウェア情報と、そのハードウェアに対する直近の操作を実行した時刻である最終操作時刻(操作時刻)と、その直近の操作時のハードウェアの操作に要した操作時間を記録する。
計算機システムにおける時刻の管理は、起動時にプロセッサ外部にある時刻管理カウンタから時刻を取得し、以降はプロセッサに内蔵のカウンタを用いて時間経過を測ることで行う方法が一般的に行われており、この実施の形態の障害診断装置においても同様にRTC105とマイクロプロセッサ101を用いて行えばよい。
なお、最終操作時刻は例えばマイクロプロセッサ101が備えるカウンタ106のカウンタ値の形式で記憶し、また、操作時間も同じカウンタ106のカウンタ値の増分で記憶するなどしても良い。
次に、この発明の実施の形態1の障害診断装置の動作を説明する。最初に診断VM130が実行する定期診断プログラム140による診断処理について説明する。上述のように仮想マシンで実行されるプログラムは、実際にはマイクロプロセッサ101が実行するものである。診断VM130で実行される定期診断プログラム140等のプログラムも、実際にはマイクロプロセッサ101が実行するものである。
図3は定期診断プログラム140の処理フローである。定期診断プログラム140は、定期的にPHW100の診断処理を行うプログラムであり、診断処理を実行するタイミングが来ると診断処理を行い、診断処理を終了すると次回の実行タイミングまでスリープする動作を繰り返す。診断処理を実行する周期については、例えば、100ミリ秒、10秒というように、そのシステムに適した周期とすればよい。なお、診断対象のハードウェア毎に異なる診断周期にしても良い。S100のスリープ時間の経過判定でスリープ時間の満了を判定すると、スリープから起床して診断処理を実行する。
S100の判定処理でスリープから起床すると、定期診断プログラム140の処理で診断対象のPHW100に対応するVHW131の各ハードウェアに対する診断用の操作を行う。ここで、ハードウェアの操作はOS132が提供する各ハードウェアを操作するためのシステムコールを実行することで行う。ここでシステムコールとは、例えばディスク装置に対するファイル操作などのオペレーティングシステムが提供する機能を、オペレーティングシステムの上位層のプログラムが使用するときに実行する関数である。
スリープから起床後にはまず、定期診断プログラム140の処理で、定期診断プログラム140が行った操作の完了時にそのハードウェアの診断に要した時間(診断時間)を取得するために、ハードウェアの操作を開始するとき(システムコールを実行するとき)の時刻を診断開始時刻として記憶する(S110)。このとき、定期診断プログラム140は仮想の計算機の記憶媒体としてVHW131が備えるメモリに記憶するように動作をする。VHW131は仮想のハードウェアであるので、実際にはPHW100のメモリ102に記憶される。診断VM130における時刻の管理は、VHW131がPHW100を模擬することにより、上述の現実の計算機の時刻の管理と同様に行うことができる。
S110のあと、診断対象ハードウェアの操作を実施する(S120)。S120で行う定期診断プログラム140が行うVHW131の各ハードウェアの操作内容は、診断対象がPHW100のHDD103であれば、例えばディスク特定領域への書き込み処理、診断対象がPHW100のNIC104であれば、例えば試験用メッセージの送信処理というように予め定めておくこととする。このハードウェア対応の操作内容は診断VM130のメモリ(実際にはメモリ102)に記憶しておき、診断実行時には対象のハードウェアに基づいて操作内容を選択するなどすればよい。
S120で定期診断プログラム140による処理で実行するVHW131の操作は、図3にS300からS350で示すフローで、OS132、VHW131、VMM110のHW操作代行部111によって処理される。これらの処理は定期診断プログラム140の処理ではないので、図3では破線の枠で囲んで示している。OS132は定期診断プログラム140が実行するシステムコールを受けて、VHW131の対象ハードウェアにして操作コマンドを発行する(S300)。VHW131はこの操作コマンドを受けて、これをPHW100用の操作コマンドに変換してHW操作代行部111に通知(操作要求)する(S310)。
HW操作代行部111はこの操作要求を受けて、PHW100に対して操作コマンドを発行する(S320)。そして、HW操作代行部111は発行したコマンドに対するレスポンスをPHW100より受信すると、VHW131にPHW100の操作完了を通知(操作応答)する(S330)。VHW131はHW操作代行部111から操作応答を受けるとOS132にS310で受けた操作コマンドのレスポンスを送信する(S340)。OS132はこのレスポンスを受信して発行した操作コマンドの実行の完了を検出して、S120で実行されたシステムコールの処理を完了する(S350)。なお、VMM110のHW操作代行部111の処理フローについては図4を参照して後述する。
定期診断プログラム140はS120で実行したシステムコールの完了を検出して(S130)、この時刻を診断終了時刻とし、診断終了時刻から記憶している診断開始時刻を減算して、そのハードウェアの診断時間を取得する(S140)。そして、取得した診断時間を所定のしきい値と比較する(S150)。このしきい値は、例えば診断対象のハードウェアに応じて予め正常動作時の応答時間を測定して決定することができる。また、過去の診断実行時の診断時間を考慮するようにしても良い。
S150での比較結果がしきい値以下であれば正常、しきい値以上であれば異常と判断する(S160)。正常の場合は次回の実行までスリープする(S170)。また、S160での判定が異常の場合は、異常処理に遷移する。一般的な異常処理として冗長系への切り替えや、装置の再起動などがある。例えば冗長系への切り替えでは、切り替えプログラムを実行して、処理の引き継ぎに必要な情報を予め準備した待機系計算機に転送して、待機系計算機で動作を開始する待機系計算機の運用VMに動作を引き継ぎ、自計算機は動作を停止するという動作を行って、運用VM120が提供するサービスに中断が発生しないようにできる。
なお、図3では処理フローの説明を簡略にするためにS110からS160までをそれぞれ1つのステップで記載しているが、実際にはHDD103、NIC104などの各診断対象ハードウェアに対して実施する。これは、診断対象とするハードウェアをPHW100の構成に基づいて設定しておき、定期診断プログラム140が処理を実施するときにその設定に基づいて順に行えばよい。
次に運用VM120の動作について説明する。運用VM120において実行されるアプリケーションプログラム123が運用VM120のハードウェアであるVHW121を操作するとき、アプリケーションプログラム123は診断VM130の場合と同様に、OS122が提供するシステムコールによって操作を行う。運用VM120ではOS122、VHW121が診断VM130の場合と同様の動作をし、そして、VMM110のHW代行部111がPHW100に対して操作を実行する。
次に、VHW121、VHW131からPHW100の操作コマンドの通知を受けたVMM110のHW操作代行部111の動作を説明する。HW操作代行部111はVHW121、VHW131から通知されたPHW100の操作コマンドを順に処理する。
図4はVMM110のHW操作代行部111の処理フローである。S200〜S202の処理については後述する。HW操作代行部111は、S200での判定結果が送信待ちの操作応答なしである場合、各VMからのPHW100の操作コマンドの通知の有無をチェックする(S210)。HW操作代行部111はPHW100の操作コマンドの通知を受けている場合、その操作コマンドが診断VM130からの要求か否かをチェックする(S220)。HW操作代行部111の処理は、操作コマンドの通知を受けていない場合にはS200の処理に戻る。
HW操作代行部111は通知された操作コマンドの送信元VMが診断VM130でない場合、操作対象のハードウェアに対する操作を行う。まず、操作を開始する時点の時刻を取得して、操作開始時刻として記憶媒体であるメモリ102に記憶する(S230)。次に通知された操作コマンドをPHW100の操作対象ハードウェアに対して発行し、PHW100のハードウェアの操作を実施する(S231)。ここで、ハードウェアに対する操作とは、例えば対象がHDD103であればディスクの書き込み処理や読出し処理等であり、NIC104であれば送信処理や受信処理等である。
操作コマンドを発行したPHW100のハードウェアで処理が完了すると、HW操作代行部111は発行したコマンドに対するレスポンスをPHW100から受信する。HW操作代行部111はこのときの時刻を取得して、操作完了時刻とし、操作完了時刻から記憶している操作開始時刻を減算して、このときのハードウェアの操作に要した時間(操作時間)を取得する(S232)。そして、操作コマンドの送信元VMに対してPHW100の操作完了を通知(操作応答の送信)する(S233)。次に、HW操作代行部111は図2に示した操作履歴テーブル112にハードウェア操作の履歴(ハードウェア情報、最終操作時刻、操作時間)を記録する(S234)。なお、最終操作時刻は、S230で記憶した操作開始時刻とする。
HW操作代行部111は、S220で診断VM130からの操作コマンドの通知と判断した場合には、操作履歴テーブル112をチェックする(S221)。そして、通知された操作コマンドの操作対象ハードウェアと同一のハードウェアに対して所定時間内の操作履歴が操作履歴テーブル112にあるか否かを判定する(S222)。ここで所定の時間はシステムに応じて決定されるべき時間である。一例としては、定期診断プログラム140の診断実行の周期と同じにすると、前回診断時からハードウェアの操作が行われている場合に診断のためのハードウェアの実際の操作を省略するようにできる。
ここで、S220〜S230もしくはS222までの処理が本実施の形態における要求処理ステップである。
HW操作代行部111は、S222で所定時間内の操作履歴なしと判定した場合には、上述のS230〜S234の手順で通知された操作コマンドによる操作を実施する。ここで要求された操作とは、定期診断プログラム140の処理フローの説明で述べた通り、例えば操作対象がHDD103であれば特定領域の書き込み処理であるとか、あるいは操作対象がNIC104であれば試験用メッセージの送信処理などである。
HW操作代行部111は、S222で所定時間内の操作履歴があると判定した場合には、通知された操作コマンドを実行せずに診断VM130のVHW131に操作応答を返す。ただし、この操作応答を返すタイミングは操作履歴テーブル112に記録された当該ハードウェアに対する最後の操作履歴に記録された操作時間を経過後とする。このため、現在時刻に操作履歴テーブル112に記録された操作時間を加算した時刻を応答送信時刻として設定し(S223)、診断VM130に対する操作応答を送信待ち操作応答としてメモリ102に保存する(S224)。このように応答送信時刻を設定することにより、実際の操作を行った場合と同様の時間間隔を空けて操作応答を診断VM130に返すことが可能となり、定期診断プログラム140が実施する診断時間としきい値の比較で、より正確な判断が可能となる。
S224で保存した送信待ち操作応答の診断VM130への送信は、図4のフローのS200〜S202の処理で行う。HW操作代行部111はS200の処理で、送信待ち操作応答があるか否かを判定する。そして、送信待ち操作応答がある場合には、その送信待ち操作応答の応答送信時刻に到達しているか否かを判定する(S201)。
HW操作代行部111は、S201の処理で応答送信時刻に到達していると判定した場合、S223の処理で保存した診断VM130への操作応答を送信する(S202)。なお、応答送信時刻に到達していないと判断した場合には、S201の処理を行わずにS210の処理を実施する。
上述のように、物理的には1つの計算機で複数の仮想の計算機が動作することを可能にする仮想環境を提供するプログラムである仮想マシンモニタに、計算機が備えるハードウェアに対する仮想計算機からの操作要求を受けて実際にハードウェアの操作を実行するHW操作代行部と、HW操作代行部によって行ったハードウェアの操作の履歴を個々のハードウェア毎に記録する操作履歴テーブルとを備えて、HW操作代行部は診断仮想マシンからの計算機ハードウェアに対する操作要求を受けたとき、要求された操作の対象ハードウェアに対する所定時間以内の操作履歴が操作履歴テーブルにある場合には、要求された操作を行わずに操作要求に対応する操作応答を診断仮想マシンに返すようにした。
これにより、運用仮想マシンが計算機のハードウェアの操作を行っているときには、診断仮想マシンによる計算機のハードウェアの操作を実際には実行しないようにすることができ、診断仮想マシンからの診断のための操作が、運用仮想マシンからのハードウェアの操作に与える影響を軽減することができる。また、運用仮想マシンが計算機ハードウェアの操作を行っていないときには、診断仮想マシンからの計算機ハードウェアに対する操作を実際に行うので、計算機ハードウェアに障害が起きている場合には、運用仮想マシンからの計算機ハードウェアの操作で異常が発生する前に診断仮想マシンが計算機ハードウェアの障害を検出することができる。
100 計算機ハードウェア、101 マイクロプロセッサ、102 メモリ、103 ディスク装置、104 通信インタフェース、105 RTC、106 カウンタ、110 仮想マシンモニタ、111 HW操作代行部、112 操作履歴テーブル、120 運用仮想マシン、121,131 仮想ハードウェア、122,132 オペレーティングシステム、123 アプリケーションプログラム、130 診断仮想マシン、140 定期診断プログラム

Claims (6)

  1. 計算機と、
    前記計算機において動作するサービス用の仮想計算機と、
    前記計算機で前記仮想計算機が動作するための仮想環境を提供する仮想計算機モニタと、
    前記計算機のハードウェアを診断するハードウェア診断部と、
    前記サービス用の仮想計算機または前記ハードウェア診断部から前記ハードウェアの操作を要求する操作要求を受信し、前記受信した操作要求が前記サービス用の仮想計算機から受信した操作要求である場合には当該サービス用計算機から受信した操作要求で要求された操作を実施し、前記受信した操作要求が前記ハードウェア診断部が前記ハードウェアの診断のために送信した操作要求である場合には当該ハードウェア診断部が送信した操作要求で指示された操作対象の前記ハードウェアを予め定められた時間以内に前記サービス用計算機から受信した操作要求に応じて操作していたか否かを判断し、前記予め定められた時間以内に操作していた場合は前記ハードウェア診断部が送信した操作要求で要求された操作の実施を抑制し、前記予め定められた時間以内に操作していなかった場合は前記ハードウェア診断部が送信した操作要求で要求された操作を実施するハードウェア操作代行部と、
    を備えることを特徴とする障害診断装置。
  2. 前記ハードウェア診断部は前記計算機において動作する診断用の仮想計算機であり、
    前記ハードウェア操作代行部は前記診断用の仮想計算機から前記操作要求を受けたとき、当該診断用の仮想計算機から受信した操作要求で指示された操作対象の前記ハードウェアを前記予め定められた時間以内に操作していなかった場合は、当該診断用の仮想計算機から受信した操作要求で要求された操作を実施して、操作を実施したことを通知する操作応答を前記診断用の仮想計算機に送信し、前記予め定められた時間以内に操作していた場合は、当該診断用の仮想計算機から受信した操作要求で要求された操作を行わずに前記操作応答を前記診断用の仮想計算機に送信することを特徴とする請求項1に記載の障害診断装置。
  3. 前記ハードウェア操作代行部は前記仮想計算機モニタの一部であり、
    前記仮想計算機モニタは前記計算機の前記ハードウェアを操作した操作時刻とその操作に要した操作時間を記録する操作履歴テーブルを備え、
    前記ハードウェア操作代行部は、前記ハードウェアを操作したときに前記操作履歴テーブルに当該操作されたハードウェアの操作履歴として前記操作時刻と前記操作時間を記録し、前記診断用の仮想計算機から受信した操作要求で指示された操作対象の前記ハードウェアについて前記操作履歴テーブルに前記予め定められた時間以内に操作した記録がある場合は、当該診断用の仮想計算機から受信した操作要求で要求された操作を行わずに、前記操作履歴テーブルに記録された当該操作対象のハードウェアの前記操作時間が経過するのを待って前記操作応答を前記診断用の仮想計算機に送信することを特徴とする請求項2に記載の障害診断装置。
  4. 複数の仮想計算機が動作する計算機に、
    前記計算機のハードウェアの操作を要求する操作要求を、前記計算機において動作する仮想計算機から受信するステップと、
    前記受信した操作要求の送信元が前記計算機において動作するサービス用の仮想計算機であるとき当該サービス用計算機からの操作要求で要求された操作を実施し、前記受信した操作要求の送信元が前記計算機において動作する前記ハードウェアを診断するための診断用の仮想計算機であるとき、当該診断用の仮想計算機からの操作要求により指示された操作対象の前記ハードウェアを予め定められた時間以内に前記サービス用の仮想計算機からの操作要求に応じて操作していた場合は前記診断用の仮想計算機からの操作要求で要求された操作の実施を抑制し、前記予め定められた時間以内に操作をしていなかった場合は当該要求された操作を実施する要求処理ステップと、
    を実行させるプログラム。
  5. 前記受信した操作要求で要求された前記計算機の前記ハードウェアの操作を実施すると
    き、当該操作に要した操作時間を測定するステップと、
    前記受信した操作要求で要求された前記ハードウェアの操作を実行したとき、当該操作したハードウェアの操作履歴として、当該操作を実行した時刻である操作時刻と前記操作時間とを前記計算機の記憶媒体に記憶した操作履歴テーブルに記録するステップと、を備え、
    前記要求処理ステップは、前記受信した操作要求の送信元が前記計算機において動作するサービス用の仮想計算機であるとき、当該受信した操作要求で要求された操作を実行する第1のステップと、
    前記受信した操作要求の送信元が前記診断用の仮想計算機であるとき、当該受信した操作要求で指示された操作対象の前記ハードウェアについて前記予め定められた時間以内の操作の記録が前記操作履歴テーブルにある場合は当該受信した操作要求で要求された操作の実施を抑制し、前記予め定められた時間以内の操作の履歴がない場合は当該受信した操作要求で要求された操作を実施する第2のステップと、を備えたことを特徴とする請求項4に記載のプログラム。
  6. 前記受信した操作要求で要求された操作を実施したときには、当該要求された操作を実施したことを通知する操作応答を、当該受信した操作要求の送信元のサービス用もしくは診断用の仮想計算機に送信するステップと、
    前記受信した操作要求の送信元が前記診断用の仮想計算機であり、前記操作履歴テーブルに当該受信した操作要求で指示された操作対象の前記ハードウェアについて前記予め定められた時間以内の操作の履歴があって、当該受信した操作要求で要求された操作の実施を抑制した場合は、当該受信した操作要求を受信してから前記操作履歴テーブルに記録された当該操作対象のハードウェアの前記操作時間が経過した後に前記診断用の仮想計算機に前記操作応答を送信するステップと、
    を備えたことを特徴とする請求項5に記載のプログラム。
JP2013077365A 2013-04-03 2013-04-03 障害診断装置およびプログラム Expired - Fee Related JP6060781B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013077365A JP6060781B2 (ja) 2013-04-03 2013-04-03 障害診断装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013077365A JP6060781B2 (ja) 2013-04-03 2013-04-03 障害診断装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2014203181A JP2014203181A (ja) 2014-10-27
JP6060781B2 true JP6060781B2 (ja) 2017-01-18

Family

ID=52353589

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013077365A Expired - Fee Related JP6060781B2 (ja) 2013-04-03 2013-04-03 障害診断装置およびプログラム

Country Status (1)

Country Link
JP (1) JP6060781B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809045B (zh) * 2015-04-27 2021-01-05 腾讯科技(深圳)有限公司 监控脚本的运行方法及装置
JP6944252B2 (ja) * 2017-03-07 2021-10-06 東日本旅客鉄道株式会社 情報処理装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011022934A (ja) * 2009-07-17 2011-02-03 Toyota Motor Corp 電子制御ユニット、異常検出方法
JP2011248454A (ja) * 2010-05-24 2011-12-08 Renesas Electronics Corp プロセッサ装置及びプロセッサ装置の制御方法
EP2608046A1 (en) * 2010-08-18 2013-06-26 Fujitsu Limited Computer management device, computer management system, and computer system
JP5716830B2 (ja) * 2011-08-31 2015-05-13 富士通株式会社 情報処理装置及び方法、プログラム

Also Published As

Publication number Publication date
JP2014203181A (ja) 2014-10-27

Similar Documents

Publication Publication Date Title
US8132057B2 (en) Automated transition to a recovery kernel via firmware-assisted-dump flows providing automated operating system diagnosis and repair
US9098609B2 (en) Health monitoring of applications in a guest partition
TWI554875B (zh) 基於資源存取模式預測、診斷應用程式故障並從應用程式故障恢復
Ruprecht et al. VM live migration at scale
TWI317868B (en) System and method to detect errors and predict potential failures
CN111767184A (zh) 一种故障诊断方法、装置及电子设备和存储介质
US7979749B2 (en) Method and infrastructure for detecting and/or servicing a failing/failed operating system instance
JP4489802B2 (ja) マルチcpuコンピュータおよびシステム再起動方法
EP2867770B1 (en) Methods, systems and apparatus to capture error conditions in lightweight virtual machine managers
JP5186211B2 (ja) ヘルス・モニタリング技術およびアプリケーション・サーバの制御
US9753809B2 (en) Crash management of host computing systems in a cluster
JP5579650B2 (ja) 監視対象プロセスを実行する装置及び方法
US9183093B2 (en) Virtual machine crash management
US9841986B2 (en) Policy based application monitoring in virtualized environment
US9229820B2 (en) Information processing device with memory dump function, memory dump method, and recording medium
JP2010086364A (ja) 情報処理装置、動作状態監視装置および方法
US11176020B2 (en) Server status monitoring system and method using baseboard management controller
CN106598796A (zh) 一种测试reboot时硬件信息稳定性的方法
JP6060781B2 (ja) 障害診断装置およびプログラム
JP5014179B2 (ja) Os優先度変更装置及びos優先度変更プログラム
JP5440073B2 (ja) 情報処理装置,情報処理装置の制御方法および制御プログラム
JP2005190038A (ja) プロセッサの診断処理方法および診断処理プログラム
JP5342660B2 (ja) 管理システム及びシステム管理方法及びプログラム
KR101268290B1 (ko) 가상화 시스템에서 디바이스 드라이버의 오류를 탐지하고 복구하는 장치 및 방법
JP5335150B2 (ja) 計算機装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160830

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160831

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161021

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161128

R151 Written notification of patent or utility model registration

Ref document number: 6060781

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees