JP5625605B2 - Os動作状態確認システム、確認対象装置、os動作状態確認装置、os動作状態確認方法およびプログラム - Google Patents

Os動作状態確認システム、確認対象装置、os動作状態確認装置、os動作状態確認方法およびプログラム Download PDF

Info

Publication number
JP5625605B2
JP5625605B2 JP2010180432A JP2010180432A JP5625605B2 JP 5625605 B2 JP5625605 B2 JP 5625605B2 JP 2010180432 A JP2010180432 A JP 2010180432A JP 2010180432 A JP2010180432 A JP 2010180432A JP 5625605 B2 JP5625605 B2 JP 5625605B2
Authority
JP
Japan
Prior art keywords
confirmation
target device
operation state
event
control means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010180432A
Other languages
English (en)
Other versions
JP2012038257A (ja
Inventor
佳史 猿田
佳史 猿田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010180432A priority Critical patent/JP5625605B2/ja
Publication of JP2012038257A publication Critical patent/JP2012038257A/ja
Application granted granted Critical
Publication of JP5625605B2 publication Critical patent/JP5625605B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Description

本発明はOS動作状態確認システム、OS動作状態確認装置および確認対象装置、確認方法およびプログラムに関し、特に確認対象装置に起こった不具合の原因を遠隔地から特定するOS動作状態確認システム等に関する。
コンピュータネットワークによる情報サービスシステムが社会的に重要なインフラとして定着している現代では、ネットワークはますます大規模化および複雑化している。これによって、該システムを構成する各コンピュータが正常に動作しているか否かを監視する重要性はますます増大している。そこで、情報サービスシステムを構成する各コンピュータの動作を監視するための運用管理システム、とりわけOS動作状態確認システムの利用が拡大している。
ここでいうOS動作状態確認システムとは、複数のコンピュータ装置である確認対象装置と、それらの確認対象装置を監視するコンピュータ装置であるOS動作状態確認装置とがネットワークによって相互に接続されて構成され、確認対象装置の主演算制御手段(CPU: Central Processing Unit)で動作するオペレーティングシステム(以後OSという)が正常に動作しているか否かを遠隔地に設置されたOS動作状態確認装置の側で監視するものである。
確認対象装置は、当該装置の主演算制御手段とは別個に動作するマイクロプロセッサを含むBMC(Baseboard Management Controller)を備えており、これによってOSの動作状態とは関係なく当該装置の動作状態を収集してOS動作状態確認装置に送信することができる。
これに関連する技術文献として、以下の各々がある。その中でも特許文献1には、OS内に作成されたログを電子メールによって保守管理者に送信するという計算機システムが記載されている。特許文献2には、監視管理コンピュータと被監視コンピュータとが相互に監視し合うことにより、監視管理プログラム自体で発生した問題を検出できるというコンピュータ相互監視方式などが記載されている。
特許文献3には、接続されたネットワーク機器に異常が発生した場合にその旨をユーザ受信端末に送信するという端末装置が記載されている。特許文献4には、複数の装置(サーバ)が監視用データを相互に書き換え、書き換えられた監視用データを監視装置に送信することにより、複数の装置のアプリケーション間の連携について監視することができるという監視方法などが記載されている。
特許文献5には、複数の通信ルートを介して監視対象装置と通信を行うという死活監視方法が記載されている。非特許文献1には、前述のBMCを利用してネットワークを介して確認対象装置の監視を行う技術の一例が記載されている。非特許文献2には、監視対象装置のハードウェアの状態を監視するための標準インターフェイス仕様であるIPMI(Intelligent Platform Management Interface)について記載されている。
特開2001−005692号公報 特開2004−341779号公報 特開2005−130337号公報 特開2009−169836号公報 特開2009−205364号公報
日本アイ・ビー・エム株式会社、「Mini BMC(Mini Baseboard Management Controller)」、2006年2月26日、[平成22年7月28日検索]、インターネット<URL:http://www-01.ibm.com/support/docview.wss?uid=pcd1syj0-02c0e52&aid=1> インテル・コーポレーション、「Intelligent Platform Management Interface Specification」、[平成22年7月29日検索]、インターネット<URL:http://download.intel.com/design/servers/ipmi/IPMI2_0E4_Markup_061209.pdf>
確認対象装置とOS動作状態確認装置とが相互に通信して確認対象装置のOSが正常に動作しているか否かの監視(以後、これを死活監視という)を行う場合、通常は確認対象装置とOS動作状態確認装置との間でピング(Ping)などのような通信を定期的に行い、この定期的な通信が断絶した場合に確認対象装置に問題が発生したと判断している。
しかしながら、その場合に確認対象装置において発生した問題が、確認対象装置で動作するOSで発生したものであるか、それとも確認対象装置との間のネットワーク機器で発生したものであるか、またそれは誤検出もしくは時間が経過すれば回復する一時的な現象であるか、それとも技術者による回復の操作が必要な重大な問題であるかを、OS動作状態確認装置側で知る方法はなかった。このような問題の発生原因やその重大さを特定するには、専ら技術者が実際にその問題の発生した確認対象装置を操作する以外にない。これには時間と労力を要する。
前述の特許文献1〜5および非特許文献1〜2には、この問題を解決しうる技術は記載されていない。非特許文献1に記載されたBMCは、確認対象装置のOSが正常に動作していないとしても、それとは無関係に動作して確認対象装置のハードウェアの動作状態を検出してOS動作状態確認装置側に送信することはできる。しかしながら、これも確認対象装置で発生した問題の原因やその重大さを特定するものではない。
本発明の目的は、確認対象装置で発生したOS動作状態確認装置との間の通信の断絶の原因がOSで発生したものであるかネットワーク機器で発生したものであるか、およびその問題の重大さを遠隔地に設置されたOS動作状態確認装置側で知ることを可能とするOS動作状態確認システム、確認対象装置、OS動作状態確認装置、OS動作状態確認方法およびプログラムを提供することにある。
上記目的を達成するため、本発明に係るOS動作状態確認システムは、OS動作状態確認装置と確認対象装置とが相互に接続されることによって構成され、確認対象装置におけるオペレーティングシステムの動作が正常であるか否かをOS動作状態確認装置の側から確認するOS動作状態確認システムであって、確認対象装置が、オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して確認対象装置の動作情報を収集してOS動作状態確認装置に送信する副演算制御手段と、主演算制御手段および副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段と、主演算制御手段が正常に動作している間はイベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を追記すると同時にOS動作状態確認装置に対して自らの動作状態の確認情報である第1の死活検出情報を送信する死活検出部とを備えると共に、副演算制御手段が、OS動作状態確認装置からの命令に基づいてイベントログに新規イベントを付加すると共に予め定められた遅延時間が経過した後でこの新規イベントに処理済み情報が追記されているか否かを判断し、該処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す第2の死活検出情報をOS動作状態確認装置に対して送信するIPMIコマンド通信機能を備え、OS動作状態確認装置が、確認対象装置と定期的に通信を行ってこの定期的な通信が途切れた場合に確認対象装置に不具合が生じたと判断する確認対象装置死活検出部と、確認対象装置に対してネットワーク疎通確認用のピング(Ping)を送信するピング送信部と、確認対象装置に不具合が生じたと判断された場合に確認対象装置の副演算制御手段に対してイベントログに新規イベントを付加する命令を送信するOEMイベント送信部とを備えると共に、確認対象装置から第2の死活検出情報を受信した場合にピング送信部に対して第1のピングの送信を指令する死活検出情報判定部と、第1のピングに対する返信が確認対象装置から返って来た場合に確認対象装置の主演算制御手段が過負荷状態であると判断し、そうでない場合に確認対象装置の主演算制御手段がハングアップしていると判断して、この判断結果を外部に出力する不具合原因判断部とを有することを特徴とする。
上記目的を達成するため、本発明に係る確認対象装置は、OS動作状態確認装置と相互に接続されることによって、オペレーティングシステムの動作が正常であるか否かをOS動作状態確認装置の側から確認するOS動作状態確認システムを構成する確認対象装置であって、オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して自らの動作情報を収集してOS動作状態確認装置に送信する副演算制御手段と、主演算制御手段および副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段と、主演算制御手段が正常に動作している間はイベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を追記すると同時にOS動作状態確認装置に対して自らの動作状態の確認情報である第1の死活検出情報を送信する死活検出部とを備えると共に、副演算制御手段が、OS動作状態確認装置からの命令に基づいてイベントログに新規イベントを付加すると共に予め定められた遅延時間が経過した後でこの新規イベントに処理済み情報が追記されているか否かを判断し、該処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す第2の死活検出情報をOS動作状態確認装置に対して送信するIPMIコマンド通信機能を備えることを特徴とする。
上記目的を達成するため、本発明に係るOS動作状態確認装置は、オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して自らのハードウェアの動作についての情報を収集して外部装置に送信する副演算制御手段と、主演算制御手段および副演算制御手段の双方の動作内容を記録するイベントログを記憶した記憶手段とを備える確認対象装置と相互に接続されることによって、確認対象装置でのオペレーティングシステムの動作が正常であるか否かを確認するOS動作状態確認システムを構成するOS動作状態確認装置であって、確認対象装置と定期的に通信を行ってこの定期的な通信が途切れた場合に確認対象装置に不具合が生じたと判断する確認対象装置死活検出部と、確認対象装置に対してネットワーク疎通確認用のピング(Ping)を送信するピング送信部と、確認対象装置に不具合が生じたと判断された場合に確認対象装置の副演算制御手段に対してイベントログにその不具合を新規イベントとして付加する命令を送信するOEMイベント送信部とを備えると共に、確認対象装置からイベントログに書き込んだ新規イベントに対して予め定められた遅延時間が経過した後でも処理済み情報が書き込まれていないことを意味する死活検出情報を受信した場合にピング送信部に対してピングの送信を指令する死活検出情報判定部と、ピングに対する返信が確認対象装置から返って来た場合に確認対象装置のオペレーティングシステムが過負荷状態であると判断し、そうでない場合に確認対象装置のオペレーティングシステムがハングアップしていると判断して、この判断結果を外部に出力する不具合原因判断部を有することを特徴とする。
上記目的を達成するため、本発明に係るOS動作状態確認方法は、オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して自らの動作情報を収集してOS動作状態確認装置に送信する副演算制御手段と、主演算制御手段および副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段とを備える確認対象装置がOS動作状態確認装置と相互に接続されることによって構成され、確認対象装置でのオペレーティングシステムの動作が正常であるか否かをOS動作状態確認装置の側から確認するOS動作状態確認システムにあって、確認対象装置で主演算制御手段が正常に動作している間はイベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を確認対象装置の死活検出部が追記すると同時にOS動作状態確認装置に対して自らの動作状態の確認情報である第1の死活検出情報を死活検出部が送信し、OS動作状態確認装置と確認対象装置との間の定期的な通信が途切れた場合に確認対象装置に不具合が生じたとOS動作状態確認装置の確認対象装置死活検出部が判断し、確認対象装置に不具合が生じたと判断された場合に確認対象装置の副演算制御手段に対してイベントログに新規イベントを付加する命令をOS動作状態確認装置のOEMイベント送信部が送信し、OS動作状態確認装置からの命令に反応した確認対象装置の副演算制御手段がイベントログに新規イベントを付加し、予め定められた遅延時間が経過した後で確認対象装置のイベントログに付加した新規イベントに対して処理済み情報が追記されているか否かを副演算制御手段が判断し、確認対象装置のイベントログに処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す第2の死活検出情報をOS動作状態確認装置に対して確認対象装置の副演算制御手段が送信し、OS動作状態確認装置が確認対象装置から第2の死活検出情報を受信した場合に死活検出情報判定部がピング送信部を介して確認対象装置にネットワーク疎通確認用のピング(Ping)を送信し、ピングに対する返信が確認対象装置から返って来た場合に確認対象装置のオペレーティングシステムが過負荷状態であると判断し、そうでない場合に確認対象装置のオペレーティングシステムがハングアップしているとOS動作状態確認装置の死活検出情報判定部が判断し、この判断結果をOS動作状態確認装置の死活検出情報判定部が外部に出力することを特徴とする。
上記目的を達成するため、本発明に係るOS動作状態確認プログラムは、オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して確認対象装置の動作情報を収集してOS動作状態確認装置に送信する副演算制御手段と、主演算制御手段および副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段とを備える確認対象装置がOS動作状態確認装置と相互に接続されることによって構成され、確認対象装置でのオペレーティングシステムの動作が正常であるか否かをOS動作状態確認装置の側から確認するOS動作状態確認システムにあって、OS動作状態確認装置が備えるコンピュータに、OS動作状態確認装置と確認対象装置との間の定期的な通信が途切れた場合に確認対象装置に不具合が生じたと判断する手順、確認対象装置に不具合が生じたと判断された場合に確認対象装置の副演算制御手段に対してイベントログに新規イベントを付加する命令を送信する手順、確認対象装置からイベントログに付加した新規イベントに対して予め定められた遅延時間が経過した後でも処理済み情報が追記されていないことを意味する死活検出情報を受信した場合に確認対象装置にネットワーク疎通確認用のピング(Ping)を送信する手順、ピングに対する返信が確認対象装置から返って来た場合に確認対象装置のオペレーティングシステムが過負荷状態であると判断し、そうでない場合に確認対象装置のオペレーティングシステムがハングアップしていると判断する手順、およびこの判断結果を外部に出力する手順を、実行させることを特徴とする。
本発明は、上述したように確認対象装置が主演算制御手段およびこれとは別個に動作する副演算制御手段、即ちBMCを備える構成とし、BMCがイベントログに書き込んだイベントがOSの上で動作する死活検出部によって処理済みとされているか否かによってOSの動作を判断するように構成したので、OS動作状態確認装置からネットワークを介して確認対象装置でのOSの動作状態を把握できる。
これによって、確認対象装置で発生したOS動作状態確認装置との間の通信の断絶の原因がOSで発生したものであるかネットワーク機器で発生したものであるか、およびその問題の重大さを遠隔地に設置されたOS動作状態確認装置側で知ることを可能とするOS動作状態確認システム、確認対象装置、OS動作状態確認装置、OS動作状態確認方法およびプログラムを提供することができる。
図2に示したOS動作状態確認装置および確認対象装置のより詳しい構成について示す説明図である。 本発明の第1の実施形態に係るOS動作状態確認システムの構成について示す説明図である。 図1に示したBMCのさらに詳しい構成を示す説明図である。 図1に示したSELのデータ記録形式について示す説明図である。 図1に示したOS動作状態確認装置が行う、OSの動作状態の監視の動作について示すフローチャートである。 図5の続きである。 図1に示した確認対象装置側でOS上で動作する死活検出部が、図5〜6に示したOS動作状態確認装置の動作に対応して行う動作について示すフローチャートである。 図1に示した確認対象装置側でOSとは関係なく動作するBMCが、図5〜6に示したOS動作状態確認装置の動作に対応して行う動作について示すフローチャートである。 本発明の第2の実施形態に係るOS動作状態確認システムの構成について示す説明図である。 図9に示したOS動作状態確認装置のより詳しい構成について示す説明図である。 図10に示したOS動作状態確認装置が行う、OSの監視の動作について示すフローチャートである。 図11の続きである。
(第1の実施形態)
以下、本発明の第1の実施形態の構成について添付図1〜3に基づいて説明する。
最初に、本実施形態の基本的な内容について説明し、その後でより具体的な内容について説明する。
本実施形態に係るOS動作状態確認システム1は、OS動作状態確認装置10と確認対象装置20とが相互に接続されることによって構成され、確認対象装置におけるオペレーティングシステムの動作が正常であるか否かをOS動作状態確認装置の側から確認するOS動作状態確認システムである。確認対象装置20は、オペレーティングシステムを動作させる主演算制御手段21と、この主演算制御手段とは別個に動作して確認対象装置の動作情報を収集してOS動作状態確認装置に送信する副演算制御手段(BMC24)と、主演算制御手段および副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログ(SEL210)を記憶した記憶手段22と、主演算制御手段が正常に動作している間はイベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を追記すると同時にOS動作状態確認装置に対して当該動作状態の確認情報である第1の死活検出情報を送信する死活検出部201とを備えると共に、副演算制御手段(BMC24)が、OS動作状態確認装置からの命令に基づいてイベントログに新規イベントを付加すると共に予め定められた遅延時間が経過した後でこの新規イベントに処理済み情報が追記されているか否かを判断し、該処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す第2の死活検出情報をOS動作状態確認装置に対して送信するIPMIコマンド通信機能241を備える。OS動作状態確認装置10は、確認対象装置と定期的に通信を行ってこの定期的な通信が途切れた場合に確認対象装置に不具合が生じたと判断する確認対象装置死活検出部101と、確認対象装置に対してネットワーク疎通確認用のピング(Ping)を送信するピング送信部103と、確認対象装置に不具合が生じたと判断された場合に確認対象装置の副演算制御手段に対してイベントログに新規イベントを付加する命令を送信するOEMイベント送信部102とを備えると共に、確認対象装置から第2の死活検出情報を受信した場合にピング送信部に対して第1のピングの送信を指令する死活検出情報判定部104と、第1のピングに対する返信が確認対象装置から返って来た場合に確認対象装置の主演算制御手段が過負荷状態であると判断し、そうでない場合に確認対象装置の主演算制御手段がハングアップしていると判断して、この判断結果を外部に出力する不具合原因判断部105とを有する。
そして不具合原因判断部105が、確認対象装置から第2の死活検出情報を受信せずかつ第1の死活検出情報を受信した場合に確認対象装置のオペレーティングシステムの動作に特に問題はないと判断する。
さらに死活検出情報判定部104が、確認対象装置から第1および第2の死活検出情報をいずれも受信しない場合にピング送信部102に対して第2のピングの送信を指令し、不具合原因判断部105が、第2のピングに対する返信が確認対象装置から返って来た場合に確認対象装置のオペレーティングシステムが過負荷状態であると判断し、そうでない場合に確認対象装置との間のネットワークに恒久的な障害が発生したと判断する。
以上の構成を備えることにより、本実施形態のOS動作状態確認システム1は、遠隔地に設置されたOS動作状態確認装置10から、確認対象装置20でのOSの動作状態を正確に検出することが可能となる。
以下、これをより詳細に説明する。
図2は、本発明の第1の実施形態に係るOS動作状態確認システム1の構成について示す説明図である。OS動作状態確認システム1は、互いに離れた場所に設置されたOS動作状態確認装置10と複数台の確認対象装置20a、20b、20c…が、ネットワーク30と管理用ネットワーク31とを介して相互に接続されることによって構成される。1台のOS動作状態確認装置10で、複数台の確認対象装置20によって管理する構成とすることができる。以後、確認対象装置20a、20b、20c…を総称して確認対象装置20という。
ネットワーク30は、OS動作状態確認装置10と確認対象装置20との間の通常の通信で使用されるLAN(Local Area Network)およびWAN(Wide Area Network)である。管理用ネットワーク31は、OS動作状態確認装置10と確認対象装置20との間で、動作についての情報の収集や管理コマンドの送信などのようなネットワーク管理用途で専用に利用されるネットワークである。
図1は、図2に示したOS動作状態確認装置10および確認対象装置20のより詳しい構成について示す説明図である。
OS動作状態確認装置10は、一般的なコンピュータ装置としての構成を有する。即ち、コンピュータプログラムを実行する主体となる主演算制御手段(CPU: Micro Processing Unit)11と、データを記憶する記憶手段12と、ネットワーク30に接続して他のコンピュータとのデータ通信を行う通信手段13aと、管理用ネットワーク31に接続して他のコンピュータとのデータ通信を行う通信手段13bと、主演算制御手段11による処理結果をユーザに表示する表示手段14とを備える。
そして、主演算制御手段11では、確認対象装置死活検出部101と、OEMイベント送信部102と、ピング(Ping)送信部103と、死活検出情報判定部104と、不具合原因判断部105とが、コンピュータプログラムとして各々の機能を実行されるように構成されている。
確認対象装置死活検出部101は、確認対象装置20に対して所定の間隔で通信を行い、その通信に対する返信が予め決められた時間内になかった場合に、この確認対象装置20との通信が途切れたと判断する。OEMイベント送信部102は、確認対象装置20に対して、後述するOEMイベントを記録させるIPMIコマンドを送信する(詳細は後述)。ピング送信部103は、確認対象装置20に対してネットワーク30を介してネットワーク疎通確認のためのコマンドであるピング(Ping)を送信する。
死活検出情報判定部104は、これも後述する確認対象装置20からの応答情報を受信して、その内容に応じてピング送信部103にピングを送信させる。そして不具合原因判断部105は、以上の応答情報やピングに対する返信の有無などから、後述のロジックで確認対象装置20に生じた不具合の内容を特定して、その判断結果を表示手段14に表示する。
もう一方の確認対象装置20もまた、一般的なコンピュータ装置としての構成を有する。即ち、コンピュータプログラムを実行する主体となる主演算制御手段(CPU: Micro Processing Unit)21と、データを記憶する記憶手段22と、ネットワーク30に接続して他のコンピュータとのデータ通信を行う2系統の通信手段23aと、管理用ネットワーク31に接続して他のコンピュータとのデータ通信を行う通信手段23bとを備える。これらに加えて、確認対象装置20はBMC(Baseboard Management Controller)24をさらに備える。
BMC24は通信手段23bに接続されていて、主演算制御手段21とは別個に動作する。OS動作状態確認装置10は、管理用ネットワーク31を介して、BMC24との間でRMCP(Remote Management Control ProtocolまたはRemote Media Control Protocol)のプロトコルによるIPMI(Intelligent Platform Management Interface)コマンドを交換することが可能である。
さらに、確認対象装置20の記憶手段22には、主演算制御手段21とBMC24のいずれの側からもアクセス可能なシステムイベントログ(SEL)210が記憶されている。
主演算制御手段21ではオペレーティングシステム(以後OSという)200が動作し、そのOS200上で死活検出部201とIPMIドライバ202とが、コンピュータプログラムとして実行されるように構成されている。OS200は、通信手段23aを通信インターフェースとして認識していて、この通信手段23aを介してネットワーク30経由でOS動作状態確認装置10と通信を行うことができる。
死活検出部201は、OS動作状態確認装置10で動作する確認対象装置死活検出部101からの通信に対して返信を行うことにより、確認対象装置死活検出部101に対して自らが問題なく動作していることを知らせる。死活検出部201は、IPMIドライバ202に対して命令を発するIPMI命令機能201a、OS動作状態確認装置10に対しての通信を行う管理通信機能201bとを備える。
IPMI命令機能201aは、主演算制御手段21のカーネルモードで動作し、SEL210に記録されたイベントを定期的に監視し、新たなイベントが記録されたらそのイベントの状態を「処理済み」に変更する機能を持つ。管理通信機能201bは、主演算制御手段21のユーザーモードで動作し、OS動作状態確認装置10に対してOS200の動作に問題がないこと示す通信を行う機能を持つ。
IPMIドライバ202は、主演算制御手段21のカーネルモードで動作し、IPMI命令機能201aがSEL210にアクセスするために利用する。
一方、BMC24は、OS動作状態確認装置10からのIPMIコマンドを受けて、SEL210に対するイベントの書き込みおよびログの記録内容の編集の動作を行うことができ、その結果に応じてPET(Platform Event Trap)をOS動作状態確認装置10に返信することができる。
図3は、図1に示したBMC24のさらに詳しい構成を示す説明図である。BMC24は、主演算制御手段21とは別個に動作するマイクロプロセッサ24aと、確認対象装置20の記憶手段22とは別個の記憶手段24bとを備え、主演算制御手段21で動作するOS200からは独立して、小規模なコンピュータプログラムを実行する主体として機能することができる。
そして、マイクロプロセッサ24aでは、通信手段23bを制御して(管理用ネットワーク31経由で)OS動作状態確認装置10とIPMIコマンドを交換するIPMIコマンド通信機能241と、このIPMIコマンドに応じてSEL210にアクセスするSELアクセス機能242とが、コンピュータプログラムとして実行されるように構成されている。
IPMIコマンド通信機能241は、通信手段23bに対して、OS200が通信手段23aに対して設定しているIPアドレスとは異なるIPアドレスを設定している。これによって、ネットワーク30とは別系統の管理用ネットワーク31を介してOS動作状態確認装置10との間で、IPMIコマンドとそれに対する返答(PET)とを交換することができる。
図4は、図1に示したSEL210のデータ記録形式について示す説明図である。SEL210はIPMIの仕様に従い、OS200およびBMC24の動作に応じて、その内容がイベントとして付加されるものである。処理済み情報210aは、最後に発生したイベントについてのSEL210の1〜2バイト目の「Record ID」をBMC24内部の記憶手段24bに記憶するものである。さらに新しいイベントが発生するたびに、この処理済み情報210aは上書きされる。
本実施形態でいうOEM(Original Equipment Manufacturer)イベントとは、非特許文献2のIPMIの仕様で定義された「OEM SEL record」を利用して、各ベンダーが独自にその内容を定義してSELに記録できるイベントをいう。これによって、本実施形態は他の装置との衝突を起こすことなく実施可能なものとなる。
より具体的には「Record Type」を示す3バイト目を16進数の「0xC0」〜「0xDF」の間の値に設定すれば、本実施形態で利用可能なものとできる。8〜10バイト目が各ベンダーに与えられる「Manufacturer ID」、そして11〜16バイト目が各ベンダーが独自に定義できる「OEM Defined」というデータフィールドであるので、この両者の組み合わせによりイベントの内容を一意に決定することができる。
本実施形態では、8〜10バイト目を「日本電気株式会社」に割り当てられた「0x07」「0x07」「0x00」とし、11〜16バイト目を「0x01」「0x00」「0x00」「0x00」「0x00」「0x00」として、これに「OSの死活監視」という内容を独自に割り当てることによって実施する。
図5〜6(紙面の都合で2枚に分ける)は、図1に示したOS動作状態確認装置10が行う、OS200の動作状態の監視の動作について示すフローチャートである。OS動作状態確認装置10の主演算制御手段11では、確認対象装置死活検出部101が予め定められた所定の間隔で、ネットワーク30を介して死活検出部201との間で定期的に通信を行っている。この通信に対する返信が所定の時間内に戻ってこない場合に、通信が途切れたと判断して、OEMイベント送信部102に制御を渡して(ステップS301)以後の動作を開始させる。
OEMイベント送信部102は、管理用ネットワーク31を介してBMC24に対してIPMIコマンド「Arm PEF Postpone Timer」を発行し、即ちSEL210にイベントを書き込まれてもすぐにこれをPET(Platform Event Trap)として返信せず、所定の遅延時間だけその返信の動作を待ち合わせるようBMC24に設定させる(ステップS302)。
その後すぐにOEMイベント送信部102は、管理用ネットワーク31を介してBMC24に対してIPMIコマンド「Platform Event Message」を発行し、BMC24にSEL210へ新規のOEMイベントを書き込ませる(ステップS303)。
図7は、図1に示した確認対象装置20側でOS200上で動作する死活検出部201が、図5〜6に示したOS動作状態確認装置10の動作に対応して行う動作について示すフローチャートである。この動作は、予め設定された間隔で定期的に実行される。
確認対象装置20のOS200上で動作する死活検出部201では、IPMI命令機能201aがあらかじめ設定された動作間隔が経過したら(ステップS351)IPMIドライバ202を利用して定期的にSEL210を読み出し、新しく発生したイベントが記録されているか否かを常に確認する(ステップS352)。
ステップS352の処理は、より具体的には、IPMIコマンド「Get Last Processed Event ID」を発行してIPMIドライバ202で最後に処理されたイベントIDを取得し、このイベントIDより新しいイベントをSEL210からIPMIコマンド「Get SEL Entry」を発行することによって取得することで、SEL210上の新しく発生したイベントの有無を確認することができる。
SEL210に新しく発生したイベントが記録されている場合には(ステップS352:YES)、IPMI命令機能201aがそのイベントの処理済み情報210aを「処理済み」に変更する(ステップS353)。より具体的にはIPMIコマンド「Set Last Processed Event ID」によって、そのイベントの処理済み情報210aを変更することができる。これと同時に、管理通信機能201bがOS動作状態確認装置10に対して自身が動作していることを伝えるための通信(第1の死活検出情報)を行う(ステップS354)。
図8は、図1に示した確認対象装置20側でOS200とは関係なく動作するBMC24が、図5〜6に示したOS動作状態確認装置10の動作に対応して行う動作について示すフローチャートである。BMC24のIPMIコマンド通信機能241は、図5のステップS302でOEMイベント送信部102から受信したIPMIコマンド「Arm PEF Postpone Timer」に反応して、このコマンドで設定された遅延時間だけ動作を待ち合わせる(ステップS401)。
そしてBMC24のSELアクセス機能242は、図5のステップS303でOEMイベント送信部102から受信したIPMIコマンド「Platform Event Message」に反応してOEMイベントを書き込み(ステップS402)、ステップS401で設定した遅延時間が経過したらSEL210にアクセスしてその内容を読み、これをIPMIコマンド通信機能241に伝達する(ステップS403)。
IPMIコマンド通信機能241は、ステップS402でSEL210に書き込んだOEMイベントが「処理済み」であるか否か、即ち処理済み情報210aとして記録されたレコードID(Record ID)の値よりもSEL210に記録されている最新のレコードのレコードIDが大きいか否かを判断し(ステップS404)、「未処理」であればこれをPET(第2の死活検出情報)としてOS動作状態確認装置10に返信する(ステップS405)。「処理済み」であればそのまま処理を終了する。
以上で述べた図7および図8の動作は、同一の確認対象装置20内ではあるが、動作主体が異なる(図7は主演算制御手段21、図8はBMC24のマイクロプロセッサ24a)ので、互いに干渉することなく並行して実行される。
即ち、主演算制御手段21上のOS200が、ハングアップの発生もしくは高い処理負荷がかかったことが原因で、図5のステップS302および図8のステップS401で設定された遅延時間内に図7のステップS353の動作ができなかった場合には、ステップS402でSEL210に記録されたOEMイベントがBMC24からPET(図8のステップS405、請求項でいう「第2の死活検出情報」)としてOS動作状態確認装置10に返されることになる。
逆に、OS200が正常に動作していれば、図5のステップS302および図8のステップS401で設定された遅延時間内に図7のステップS353の動作が行われ、死活検出部201の管理通信機能201bによる通信(図7のステップS354、請求項でいう「第1の死活検出情報」)がOS動作状態確認装置10に返されることになる。
図5〜6に戻って、OS動作状態確認装置10では死活検出情報判定部104が、ステップS303でBMC24を介してSEL210に書き込ませたOEMイベントが確認対象装置20から(図8のステップS405の)PETとして返却されているか否かを確認する(ステップS304)。返却されている場合(ステップS304:YES)、OS200は停止しているか、もしくは過負荷状態であることになる。そこで死活検出情報判定部104は、確認対象装置20のOS200に対して(ネットワーク30を介して)ピング(Ping)を発行するようピング送信部103に指示する(ステップS305)。
ステップS305のピングに対してOS200からの応答があれば(ステップS305:YES)、OS200は動作中で、そこで動作しているプロセスが過負荷状態のため反応できないものであると不具合原因判断部105は判断することができる(ステップS311)。ステップS305のピングに対してOS200からの応答がなければ(ステップS305:NO)、OS200がハングアップしているか、もしくは非常に重大な過負荷状態であると不具合原因判断部105は判断することができる(ステップS312)。
ステップS304で、ステップS303で書き込んだOEMイベントが確認対象装置20からPETとして返却されていない場合(ステップS304:NO)、死活検出部201がステップS352〜352の処理を正常に行えたので、OS200は動作していると判断することができる。そこで死活検出情報判定部104は、死活検出部201がSELを処理したときに発する、図7のステップS354の通信があったか否かを確認する(ステップS306)。
ステップS306で、死活検出部201からの通信があったことを確認できれば(ステップS306:YES)、OS200は特に問題なく動作していて、通信が途切れた理由は間欠的なネットワーク障害などのような軽微な障害であると不具合原因判断部105は判断することができる(ステップS313)。
ステップS306で、死活検出部201からの通信を確認できなければ(ステップS306:NO)、恒久的なネットワーク障害、もしくはOS200の過負荷であった可能性がある。そこで死活検出情報判定部104はOS200に対して(ネットワーク30を介して)ピングを発行するようピング送信部103に指示し、これに対する応答の有無を確認する(ステップS307)。
ステップS307のピングに対してOS200からの応答があれば(ステップS307:YES)、OS200は動作していて、かつステップS306の死活検出部201からの通信がなかったことからOS200の過負荷であると不具合原因判断部105は判断できる(ステップS314)。また、同じくステップS307のピングに対してOS200からの応答がなければ(ステップS307:NO)、ネットワーク30の恒久的な障害が発生していると不具合原因判断部105は判断できる(ステップS315)。
不具合原因判断部105は最後に、ステップS311〜315の判断結果を表示手段14に表示して、処理を終了する(ステップS316)。この判断結果の出力は、OS動作状態確認装置10および確認対象装置20のいずれとも異なる(管理担当者の操作する)他のコンピュータにネットワークを介して行うものでもよいし、コンピュータ以外の装置、たとえば管理担当者の操作するページャーや携帯電話などに対して出力するものとすることもできる。
(第1の実施形態の全体的な動作)
次に、上記の実施形態の全体的な動作について説明する。本実施形態に係るOS動作状態確認方法は、オペレーティングシステムを動作させる主演算制御手段21と、この主演算制御手段とは別個に動作して確認対象装置の動作情報を収集してOS動作状態確認装置に送信する副演算制御手段(BMC24)と、主演算制御手段および副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログ(SEL210)を記憶した記憶手段22とを備える確認対象装置20がOS動作状態確認装置10と相互に接続されることによって構成され、確認対象装置でのオペレーティングシステムの動作が正常であるか否かをOS動作状態確認装置の側から確認するOS動作状態確認システム1にあって、確認対象装置で主演算制御手段が正常に動作している間はイベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を確認対象装置の死活検出部が追記すると同時にOS動作状態確認装置に対して当該動作状態の確認情報である第1の死活検出情報を死活検出部が送信し(図7・ステップS352〜354)、OS動作状態確認装置と確認対象装置との間の定期的な通信が途切れた場合に確認対象装置に不具合が生じたとOS動作状態確認装置の確認対象装置死活検出部が判断し(図5・ステップS301)、確認対象装置に不具合が生じたと判断された場合に確認対象装置の副演算制御手段に対してイベントログに新規イベントを付加する命令をOS動作状態確認装置のOEMイベント送信部が送信し(図5・ステップS302〜303)、OS動作状態確認装置からの命令に反応した確認対象装置の副演算制御手段がイベントログに新規イベントを付加し(図8・ステップS401〜402)、予め定められた遅延時間が経過した後で確認対象装置のイベントログに付加した新規イベントに対して処理済み情報が追記されているか否かを副演算制御手段が判断し(図8・ステップS403〜404)、確認対象装置のイベントログに処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す第2の死活検出情報をOS動作状態確認装置に対して確認対象装置の副演算制御手段が送信し(図8・ステップS405)、OS動作状態確認装置が確認対象装置から第2の死活検出情報を受信した場合に死活検出情報判定部がピング送信部を介して確認対象装置にネットワーク疎通確認用のピング(Ping)を送信し(図5・ステップS304〜図6・ステップ305)、ピングに対する返信が確認対象装置から返って来た場合に確認対象装置のオペレーティングシステムが過負荷状態であると判断し(図6・ステップ311)、そうでない場合に確認対象装置のオペレーティングシステムがハングアップしているとOS動作状態確認装置の死活検出情報判定部が判断し(図6・ステップ312)、この判断結果をOS動作状態確認装置の死活検出情報判定部が外部に出力する(図6・ステップ316)。
ここで、上記各動作ステップについては、これをコンピュータで実行可能にプログラム化し、これらを前記各ステップを直接実行するコンピュータであるOS動作状態確認装置10および確認対象装置20に実行させるようにしてもよい。
この動作により、本実施形態は以下のような効果を奏する。
本実施形態によれば、単に確認対象装置20の異常発生を検出するだけでなく、その異常がOS200に起因するものか、またネットワークの障害に起因するものかを判定できる。さらに、OS200に発生した異常が、単なる誤検出もしくは過負荷などのような一時的な現象であるか、あるいはハングアップなどのような重大な現象であるかを、ネットワークを介したOS動作状態確認装置の側で判定できる。
本実施形態は、主演算制御手段21(OS200)とは独立して動作するBMC24を利用しただけでなく、この両者から共通してアクセス可能なSEL210を、OS200とBMC24との間で動作状態を伝達するために利用している。これは前述の非特許文献1〜2にも記載されたBMCおよびIPMIなどの標準的な機能を利用するだけで実現可能であるので、本実施形態を導入することに伴うコスト増は少なく済む。
(第2の実施形態)
本発明の第2の実施形態は、第1の実施形態の構成に加えて、不具合原因判断部605が、OEMイベント送信部102が副演算制御手段(BMC24)に対してイベントログ(SEL210)にイベントを書き込む命令を送信した後に該命令に対する副演算制御手段の応答が無い場合にBMCに障害が発生したと判断する。
そして不具合原因判断部605が、第1のピングに対する返信が確認対象装置から返って来た場合にOEMイベント送信部102に副演算制御手段(BMC24)に対してイベントログに新規イベントを書き込む命令を送信する処理を繰り返させて同一の判断結果が出るか否かを判断し、同一の判断結果が出ればオペレーティングシステムのユーザーモードがハングアップしていると判断する。
この構成によっても、第1の実施形態と同一の効果を得ることができることに加えて、さらに「BMCの異常」や「オペレーティングシステムのユーザーモードのみハングアップ」といった第1の実施形態では検出できなかった異常も検出できるようになり、これによってより詳細に確認対象装置20の動作状態を把握することが可能となる。
以下、これをより詳細に説明する。
図9は、本発明の第2の実施形態に係るOS動作状態確認システム501の構成について示す説明図である。OS動作状態確認システム501は、前述の第1の実施形態と比べて、OS動作状態確認装置10がOS動作状態確認装置510に置き換わっている。この点以外は第1の実施形態と同一である。即ち、確認対象装置20の構成および動作は第1の実施形態と同一である。
図10は、図9に示したOS動作状態確認装置510のより詳しい構成について示す説明図である。OS動作状態確認装置510は、前述の第1の実施形態のOS動作状態確認装置10と、ハードウェア的には同一である。また、ソフトウェア的にも、不具合原因判断部105が、動作の一部が異なる不具合原因判断部605に置き換わっている以外は同一である。
図11〜12は、図10に示したOS動作状態確認装置510が行う、OS200の監視の動作について示すフローチャートである。図11〜12に示す動作は、原則的には図5〜6に示した第1の実施形態の動作と同一であるので、第1の実施形態と同一の動作には図5〜6と同一の参照番号を付けて呼び、本明細書ではそれとの相違点のみを説明することとする。
ステップS303でBMC24に対してIPMIコマンド「Platform Event Message」を発行した後、不具合原因判断部605がこれに対するBMC24からの反応の有無を判断する(ステップS701)。反応があればステップS304以後の処理に進み、反応がなければBMC24がハードウェア異常を起こしていると判断して(ステップS702)ステップS316に進む。
また、ステップS311で「OS200が過負荷状態である」と判断された場合、単なる過負荷状態であればこれは一時的な現象であるので時間が経てば復旧する可能性がある。しかしながら、OS200がユーザーモードのみハングアップしているという可能性もあり、この場合は時間が経っても復旧しない。
そこで、その場合には不具合原因判断部605がOEMイベント送信部102にステップS302からの処理をくり返させて、その結果が同じ「OS200が過負荷状態である」という結果になるか否かを判断する(ステップS703〜704)。同じ結果にならなければ(ステップS704:NO)、1回目の判断結果は単なる一時的な現象だったと判断し、2回目に出た判断結果を採用して(ステップS705)ステップS316に進む。同じ結果になれば(ステップS704:YES)、OS200のユーザーモードがハングアップしていると判断して(ステップS706)ステップS316に進む。
以上に説明した動作以外は、OS動作状態確認装置510の動作は図5〜6に示した第1の実施形態の動作と同一である。
ここで説明した第2の実施形態によれば、第1の実施形態よりもさらに詳しく、OS200の動作状態をOS動作状態確認装置510の側で検出できる。とりわけ、第1の実施形態では検出できなかった「BMC24のハードウェア異常」や「OS200のユーザーモードのみハングアップ」といった異常の発生を検出できる。
これまで本発明について図面に示した特定の実施形態をもって説明してきたが、本発明は図面に示した実施形態に限定されるものではなく、本発明の効果を奏する限り、これまで知られたいかなる構成であっても採用することができる。
上述した各々の実施形態について、その新規な技術内容の要点をまとめると、以下のようになる。なお、上記実施形態の一部または全部は、新規な技術として以下のようにまとめられるが、本発明は必ずしもこれに限定されるものではない。
(付記1) OS動作状態確認装置と確認対象装置とが相互に接続されることによって構成され、前記確認対象装置におけるオペレーティングシステムの動作が正常であるか否かを前記OS動作状態確認装置の側から確認するOS動作状態確認システムであって、
前記確認対象装置が、
前記オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して前記確認対象装置の動作情報を収集して前記OS動作状態確認装置に送信する副演算制御手段と、前記主演算制御手段および前記副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段と、前記主演算制御手段が正常に動作している間は前記イベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を追記すると同時に前記OS動作状態確認装置に対して当該動作状態の確認情報である第1の死活検出情報を送信する死活検出部とを備えると共に、
前記副演算制御手段が、前記OS動作状態確認装置からの命令に基づいて前記イベントログに新規イベントを付加すると共に予め定められた遅延時間が経過した後でこの新規イベントに前記処理済み情報が追記されているか否かを判断し、該処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す第2の死活検出情報を前記OS動作状態確認装置に対して送信するIPMIコマンド通信機能を備え、
前記OS動作状態確認装置が、
前記確認対象装置と定期的に通信を行ってこの定期的な通信が途切れた場合に前記確認対象装置に不具合が生じたと判断する確認対象装置死活検出部と、前記確認対象装置に対してネットワーク疎通確認用のピング(Ping)を送信するピング送信部と、前記確認対象装置に不具合が生じたと判断された場合に前記確認対象装置の前記副演算制御手段に対して前記イベントログに前記新規イベントを付加する命令を送信するOEMイベント送信部とを備えると共に、
前記確認対象装置から前記第2の死活検出情報を受信した場合に前記ピング送信部に対して第1のピングの送信を指令する死活検出情報判定部と、
前記第1のピングに対する返信が前記確認対象装置から返って来た場合に前記確認対象装置の前記主演算制御手段が過負荷状態であると判断し、そうでない場合に前記確認対象装置の前記主演算制御手段がハングアップしていると判断して、この判断結果を外部に出力する不具合原因判断部とを有することを特徴とするOS動作状態確認システム。
(付記2) 前記不具合原因判断部が、前記確認対象装置から前記第2の死活検出情報を受信せずかつ前記第1の死活検出情報を受信した場合に前記確認対象装置の前記主演算制御手段の動作に特に問題はないと判断することを特徴とする、付記1に記載のOS動作状態確認システム。
(付記3) 前記死活検出情報判定部が、前記確認対象装置から前記第1および第2の死活検出情報をいずれも受信しない場合に前記ピング送信部に対して第2のピングの送信を指令し、
前記不具合原因判断部が、前記第2のピングに対する返信が前記確認対象装置から返って来た場合に前記確認対象装置の前記主演算制御手段が過負荷状態であると判断し、そうでない場合に前記確認対象装置との間のネットワークに恒久的な障害が発生したと判断することを特徴とする、付記2に記載のOS動作状態確認システム。
(付記4) 前記不具合原因判断部が、前記OEMイベント送信部が前記副演算制御手段に対して前記イベントログに前記新規イベントを付加する命令を送信した後に該命令に対する前記副演算制御手段からの応答が無い場合にこの副演算制御手段に障害が発生したと判断することを特徴とする、付記1に記載のOS動作状態確認システム。
(付記5) 前記不具合原因判断部が、前記第1のピングに対する返信が前記確認対象装置から返って来た場合に前記OEMイベント送信部に前記副演算制御手段に対して前記イベントログに前記新規イベントを書き込む命令を送信する処理を繰り返させて同一の判断結果が出るか否かを判断し、同一の判断結果が出れば前記主演算制御手段のユーザーモードがハングアップしていると判断することを特徴とする、付記1に記載のOS動作状態確認システム。
(付記6) 前記OS動作状態確認装置と前記確認対象装置の前記主演算制御手段との間が第1のネットワークによって接続され、
前記OS動作状態確認装置と前記確認対象装置の前記副演算制御手段との間が前記第1のネットワークとは異なる系統である第2のネットワークによって接続されていることを特徴とする、付記1に記載のOS動作状態確認システム。
(付記7) OS動作状態確認装置と相互に接続されることによって、オペレーティングシステムの動作が正常であるか否かを前記OS動作状態確認装置の側から確認するOS動作状態確認システムを構成する確認対象装置であって、
前記オペレーティングシステムを動作させる主演算制御手段と、
この主演算制御手段とは別個に動作して自らの動作情報を収集して前記OS動作状態確認装置に送信する副演算制御手段と、
前記主演算制御手段および前記副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段と、
前記主演算制御手段が正常に動作している間は前記イベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を追記すると同時に前記OS動作状態確認装置に対して当該動作状態の確認情報である第1の死活検出情報を送信する死活検出部とを備えると共に、
前記副演算制御手段が、前記OS動作状態確認装置からの命令に基づいて前記イベントログに新規イベントを付加すると共に予め定められた遅延時間が経過した後でこの新規イベントに前記処理済み情報が追記されているか否かを判断し、該処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す第2の死活検出情報を前記OS動作状態確認装置に対して送信するIPMIコマンド通信機能を備えることを特徴とする確認対象装置。
(付記8) オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して自らのハードウェアの動作についての情報を収集して外部装置に送信する副演算制御手段と、前記主演算制御手段および前記副演算制御手段の双方の動作内容を記録するイベントログを記憶した記憶手段とを備える確認対象装置と相互に接続されることによって、前記確認対象装置での前記オペレーティングシステムの動作が正常であるか否かを確認するOS動作状態確認システムを構成するOS動作状態確認装置であって、
前記確認対象装置と定期的に通信を行ってこの定期的な通信が途切れた場合に前記確認対象装置に不具合が生じたと判断する確認対象装置死活検出部と、
前記確認対象装置に対してネットワーク疎通確認用のピング(Ping)を送信するピング送信部と、
前記確認対象装置に不具合が生じたと判断された場合に前記確認対象装置の前記副演算制御手段に対して前記イベントログに前記新規イベントを付加する命令を送信するOEMイベント送信部とを備えると共に、
前記確認対象装置から前記イベントログに書き込んだ前記新規イベントに対して予め定められた遅延時間が経過した後でも処理済み情報が書き込まれていないことを意味する死活検出情報を受信した場合に前記ピング送信部に対してピングの送信を指令する死活検出情報判定部と、
前記ピングに対する返信が前記確認対象装置から返って来た場合に前記確認対象装置の前記オペレーティングシステムが過負荷状態であると判断し、そうでない場合に前記確認対象装置の前記オペレーティングシステムがハングアップしていると判断して、この判断結果を外部に出力する不具合原因判断部を有することを特徴とするOS動作状態確認装置。
(付記9) オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して前記確認対象装置の動作情報を収集して前記OS動作状態確認装置に送信する副演算制御手段と、前記主演算制御手段および前記副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段とを備える確認対象装置がOS動作状態確認装置と相互に接続されることによって構成され、前記確認対象装置での前記オペレーティングシステムの動作が正常であるか否かを前記OS動作状態確認装置の側から確認するOS動作状態確認システムにあって、
前記確認対象装置で主演算制御手段が正常に動作している間は前記イベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を前記確認対象装置の死活検出部が追記すると同時に前記OS動作状態確認装置に対して当該動作状態の確認情報である第1の死活検出情報を前記死活検出部が送信し、
前記OS動作状態確認装置と前記確認対象装置との間の定期的な通信が途切れた場合に前記確認対象装置に不具合が生じたと前記OS動作状態確認装置の前記確認対象装置死活検出部が判断し、
前記確認対象装置に不具合が生じたと判断された場合に前記確認対象装置の前記副演算制御手段に対して前記イベントログに新規イベントを付加する命令を前記OS動作状態確認装置のOEMイベント送信部が送信し、
前記OS動作状態確認装置からの前記命令に反応した前記確認対象装置の前記副演算制御手段が前記イベントログに前記新規イベントを付加し、
予め定められた遅延時間が経過した後で前記確認対象装置の前記イベントログに付加した前記新規イベントに対して前記処理済み情報が追記されているか否かを前記副演算制御手段が判断し、
前記確認対象装置の前記イベントログに前記処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す第2の死活検出情報を前記OS動作状態確認装置に対して前記確認対象装置の前記副演算制御手段が送信し、
前記OS動作状態確認装置が前記確認対象装置から前記第2の死活検出情報を受信した場合に死活検出情報判定部がピング送信部を介して前記確認対象装置にネットワーク疎通確認用のピング(Ping)を送信し、
前記ピングに対する返信が前記確認対象装置から返って来た場合に前記確認対象装置の前記オペレーティングシステムが過負荷状態であると判断し、そうでない場合に前記確認対象装置の前記オペレーティングシステムがハングアップしていると前記OS動作状態確認装置の死活検出情報判定部が判断し、
この判断結果を前記OS動作状態確認装置の前記死活検出情報判定部が外部に出力することを特徴とするOS動作状態確認方法。
(付記10) オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して前記確認対象装置の動作情報を収集して前記OS動作状態確認装置に送信する副演算制御手段と、前記主演算制御手段および前記副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段とを備える確認対象装置がOS動作状態確認装置と相互に接続されることによって構成され、前記確認対象装置での前記オペレーティングシステムの動作が正常であるか否かを前記OS動作状態確認装置の側から確認するOS動作状態確認システムにあって、
前記OS動作状態確認装置が備えるコンピュータに、
前記OS動作状態確認装置と前記確認対象装置との間の定期的な通信が途切れた場合に前記確認対象装置に不具合が生じたと判断する手順、
前記確認対象装置に不具合が生じたと判断された場合に前記確認対象装置の前記副演算制御手段に対して前記イベントログに新規イベントを付加する命令を送信する手順、
前記確認対象装置から前記イベントログに付加した前記新規イベントに対して予め定められた遅延時間が経過した後でも処理済み情報が追記されていないことを意味する死活検出情報を受信した場合に前記確認対象装置にネットワーク疎通確認用のピング(Ping)を送信する手順、
前記ピングに対する返信が前記確認対象装置から返って来た場合に前記確認対象装置の前記オペレーティングシステムが過負荷状態であると判断し、そうでない場合に前記確認対象装置の前記オペレーティングシステムがハングアップしていると判断する手順、
およびこの判断結果を外部に出力する手順を、
実行させることを特徴とするOS動作状態確認プログラム。
(付記11) オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して前記確認対象装置の動作情報を収集して前記OS動作状態確認装置に送信する副演算制御手段と、前記主演算制御手段および前記副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段とを備える確認対象装置がOS動作状態確認装置と相互に接続されることによって構成され、前記確認対象装置での前記オペレーティングシステムの動作が正常であるか否かを前記OS動作状態確認装置の側から確認するOS動作状態確認システムにあって、
前記確認対象装置の主演算制御手段に、
前記確認対象装置で前記オペレーティングシステムが動作している間は前記イベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を追記する手順、
およびこれと同時に前記OS動作状態確認装置に対して当該動作状態の確認情報である死活検出情報を送信する手順、
を実行させることを特徴とするOS動作状態確認プログラム。
(付記12) オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して前記確認対象装置の動作情報を収集して前記OS動作状態確認装置に送信する副演算制御手段と、前記主演算制御手段および前記副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段とを備える確認対象装置がOS動作状態確認装置と相互に接続されることによって構成され、前記確認対象装置での前記オペレーティングシステムの動作が正常であるか否かを前記OS動作状態確認装置の側から確認するOS動作状態確認システムにあって、
前記副演算制御手段に、
前記OS動作状態確認装置からの命令に反応して予め定められた遅延時間を設定する手順、
前記イベントログに新規イベントを書き込む手順、
前記遅延時間が経過した後で前記確認対象装置の前記イベントログに書き込んだ前記新規イベントに対して前記処理済み情報が追記されているか否かを判断する手順、
および前記イベントログに前記処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す死活検出情報を前記OS動作状態確認装置に対して送信する手順、
を実行させることを特徴とするOS動作状態確認プログラム。
遠隔地からネットワークを介してコンピュータの動作状態を把握する必要のある用途に対して幅広く適用できる。
1、501 OS動作状態確認システム
10、510 OS動作状態確認装置
11、21 主演算制御手段
12、22、24b 記憶手段
13a、13b、23a、23b 通信手段
14 表示手段
20、20a、20b、20c 確認対象装置
24 BMC(Baseboard Management Controller)
24a マイクロプロセッサ
30 ネットワーク
31 管理用ネットワーク
101 確認対象装置死活検出部
102 OEMイベント送信部
103 ピング送信部
104 死活検出情報判定部
105、605 不具合原因判断部
200 OS
201 死活検出部
201a IPMI命令機能
201b 管理通信機能
202 IPMIドライバ
210 SEL(System Event Log)
210a 処理済み情報
241 IPMIコマンド通信機能
242 SELアクセス機能

Claims (9)

  1. OS動作状態確認装置と確認対象装置とが相互に接続されることによって構成され、前記確認対象装置におけるオペレーティングシステムの動作が正常であるか否かを前記OS動作状態確認装置の側から確認するOS動作状態確認システムであって、
    前記確認対象装置が、
    前記オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して前記確認対象装置の動作情報を収集して前記OS動作状態確認装置に送信する副演算制御手段と、前記主演算制御手段および前記副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段と、前記主演算制御手段が正常に動作している間は前記イベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を追記すると同時に前記OS動作状態確認装置に対して自らの動作状態の確認情報である第1の死活検出情報を送信する死活検出部とを備えると共に、
    前記副演算制御手段が、前記OS動作状態確認装置からの命令に基づいて前記イベントログに新規イベントを付加すると共に予め定められた遅延時間が経過した後でこの新規イベントに前記処理済み情報が追記されているか否かを判断し、該処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す第2の死活検出情報を前記OS動作状態確認装置に対して送信するIPMIコマンド通信機能を備え、
    前記OS動作状態確認装置が、
    前記確認対象装置と定期的に通信を行ってこの定期的な通信が途切れた場合に前記確認対象装置に不具合が生じたと判断する確認対象装置死活検出部と、前記確認対象装置に対してネットワーク疎通確認用のピング(Ping)を送信するピング送信部と、前記確認対象装置に不具合が生じたと判断された場合に前記確認対象装置の前記副演算制御手段に対して前記イベントログに前記新規イベントを付加する命令を送信するOEMイベント送信部とを備えると共に、
    前記確認対象装置から前記第2の死活検出情報を受信した場合に前記ピング送信部に対して第1のピングの送信を指令する死活検出情報判定部と、
    前記第1のピングに対する返信が前記確認対象装置から返って来た場合に前記確認対象装置の前記主演算制御手段が過負荷状態であると判断し、そうでない場合に前記確認対象装置の前記主演算制御手段がハングアップしていると判断して、この判断結果を外部に出力する不具合原因判断部とを有することを特徴とするOS動作状態確認システム。
  2. 前記不具合原因判断部が、前記確認対象装置から前記第2の死活検出情報を受信せずかつ前記第1の死活検出情報を受信した場合に前記確認対象装置の前記主演算制御手段の動作に特に問題はないと判断することを特徴とする、請求項1に記載のOS動作状態確認システム。
  3. 前記死活検出情報判定部が、前記確認対象装置から前記第1および第2の死活検出情報をいずれも受信しない場合に前記ピング送信部に対して第2のピングの送信を指令し、
    前記不具合原因判断部が、前記第2のピングに対する返信が前記確認対象装置から返って来た場合に前記確認対象装置の前記主演算制御手段が過負荷状態であると判断し、そうでない場合に前記確認対象装置との間のネットワークに恒久的な障害が発生したと判断することを特徴とする、請求項2に記載のOS動作状態確認システム。
  4. 前記不具合原因判断部が、前記OEMイベント送信部が前記副演算制御手段に対して前記イベントログに前記新規イベントを付加する命令を送信した後に該命令に対する前記副演算制御手段からの応答が無い場合にこの副演算制御手段に障害が発生したと判断することを特徴とする、請求項1に記載のOS動作状態確認システム。
  5. 前記不具合原因判断部が、前記第1のピングに対する返信が前記確認対象装置から返って来た場合に前記OEMイベント送信部に前記副演算制御手段に対して前記イベントログに前記新規イベントを書き込む命令を送信する処理を繰り返させて同一の判断結果が出るか否かを判断し、同一の判断結果が出れば前記主演算制御手段のユーザーモードがハングアップしていると判断することを特徴とする、請求項1に記載のOS動作状態確認システム。
  6. OS動作状態確認装置と相互に接続されることによって、オペレーティングシステムの動作が正常であるか否かを前記OS動作状態確認装置の側から確認するOS動作状態確認システムを構成する確認対象装置であって、
    前記オペレーティングシステムを動作させる主演算制御手段と、
    この主演算制御手段とは別個に動作して自らの動作情報を収集して前記OS動作状態確認装置に送信する副演算制御手段と、
    前記主演算制御手段および前記副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段と、
    前記主演算制御手段が正常に動作している間は前記イベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を追記すると同時に前記OS動作状態確認装置に対して自らの動作状態の確認情報である第1の死活検出情報を送信する死活検出部とを備えると共に、
    前記副演算制御手段が、前記OS動作状態確認装置からの命令に基づいて前記イベントログに新規イベントを付加すると共に予め定められた遅延時間が経過した後でこの新規イベントに前記処理済み情報が追記されているか否かを判断し、該処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す第2の死活検出情報を前記OS動作状態確認装置に対して送信するIPMIコマンド通信機能を備えることを特徴とする確認対象装置。
  7. オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して自らのハードウェアの動作についての情報を収集して外部装置に送信する副演算制御手段と、前記主演算制御手段および前記副演算制御手段の双方の動作内容を記録するイベントログを記憶した記憶手段とを備える確認対象装置と相互に接続されることによって、前記確認対象装置での前記オペレーティングシステムの動作が正常であるか否かを確認するOS動作状態確認システムを構成するOS動作状態確認装置であって、
    前記確認対象装置と定期的に通信を行ってこの定期的な通信が途切れた場合に前記確認対象装置に不具合が生じたと判断する確認対象装置死活検出部と、
    前記確認対象装置に対してネットワーク疎通確認用のピング(Ping)を送信するピング送信部と、
    前記確認対象装置に不具合が生じたと判断された場合に前記確認対象装置の前記副演算制御手段に対して前記イベントログにその不具合を新規イベントとして付加する命令を送信するOEMイベント送信部とを備えると共に、
    前記確認対象装置から前記イベントログに書き込んだ前記新規イベントに対して予め定められた遅延時間が経過した後でも処理済み情報が書き込まれていないことを意味する死活検出情報を受信した場合に前記ピング送信部に対してピングの送信を指令する死活検出情報判定部と、
    前記ピングに対する返信が前記確認対象装置から返って来た場合に前記確認対象装置の前記オペレーティングシステムが過負荷状態であると判断し、そうでない場合に前記確認対象装置の前記オペレーティングシステムがハングアップしていると判断して、この判断結果を外部に出力する不具合原因判断部を有することを特徴とするOS動作状態確認装置。
  8. オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して自らの動作情報を収集してOS動作状態確認装置に送信する副演算制御手段と、前記主演算制御手段および前記副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段とを備える確認対象装置が前記OS動作状態確認装置と相互に接続されることによって構成され、前記確認対象装置での前記オペレーティングシステムの動作が正常であるか否かを前記OS動作状態確認装置の側から確認するOS動作状態確認システムにあって、
    前記確認対象装置で主演算制御手段が正常に動作している間は前記イベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を前記確認対象装置の死活検出部が追記すると同時に前記OS動作状態確認装置に対して自らの動作状態の確認情報である第1の死活検出情報を前記死活検出部が送信し、
    前記OS動作状態確認装置と前記確認対象装置との間の定期的な通信が途切れた場合に前記確認対象装置に不具合が生じたと前記OS動作状態確認装置の前記確認対象装置死活検出部が判断し、
    前記確認対象装置に不具合が生じたと判断された場合に前記確認対象装置の前記副演算制御手段に対して前記イベントログに新規イベントを付加する命令を前記OS動作状態確認装置のOEMイベント送信部が送信し、
    前記OS動作状態確認装置からの前記命令に反応した前記確認対象装置の前記副演算制御手段が前記イベントログに前記新規イベントを付加し、
    予め定められた遅延時間が経過した後で前記確認対象装置の前記イベントログに付加した前記新規イベントに対して前記処理済み情報が追記されているか否かを前記副演算制御手段が判断し、
    前記確認対象装置の前記イベントログに前記処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す第2の死活検出情報を前記OS動作状態確認装置に対して前記確認対象装置の前記副演算制御手段が送信し、
    前記OS動作状態確認装置が前記確認対象装置から前記第2の死活検出情報を受信した場合に死活検出情報判定部がピング送信部を介して前記確認対象装置にネットワーク疎通確認用のピング(Ping)を送信し、
    前記ピングに対する返信が前記確認対象装置から返って来た場合に前記確認対象装置の前記オペレーティングシステムが過負荷状態であると判断し、そうでない場合に前記確認対象装置の前記オペレーティングシステムがハングアップしていると前記OS動作状態確認装置の死活検出情報判定部が判断し、
    この判断結果を前記OS動作状態確認装置の前記死活検出情報判定部が外部に出力することを特徴とするOS動作状態確認方法。
  9. オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して前記確認対象装置の動作情報を収集して前記OS動作状態確認装置に送信する副演算制御手段と、前記主演算制御手段および前記副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段とを備える確認対象装置がOS動作状態確認装置と相互に接続されることによって構成され、前記確認対象装置での前記オペレーティングシステムの動作が正常であるか否かを前記OS動作状態確認装置の側から確認するOS動作状態確認システムにあって、
    前記OS動作状態確認装置が備えるコンピュータに、
    前記OS動作状態確認装置と前記確認対象装置との間の定期的な通信が途切れた場合に前記確認対象装置に不具合が生じたと判断する手順、
    前記確認対象装置に不具合が生じたと判断された場合に前記確認対象装置の前記副演算制御手段に対して前記イベントログに新規イベントを付加する命令を送信する手順、
    前記確認対象装置から前記イベントログに付加した前記新規イベントに対して予め定められた遅延時間が経過した後でも処理済み情報が追記されていないことを意味する死活検出情報を受信した場合に前記確認対象装置にネットワーク疎通確認用のピング(Ping)を送信する手順、
    前記ピングに対する返信が前記確認対象装置から返って来た場合に前記確認対象装置の前記オペレーティングシステムが過負荷状態であると判断し、そうでない場合に前記確認対象装置の前記オペレーティングシステムがハングアップしていると判断する手順、
    およびこの判断結果を外部に出力する手順を、
    実行させることを特徴とするOS動作状態確認プログラム。
JP2010180432A 2010-08-11 2010-08-11 Os動作状態確認システム、確認対象装置、os動作状態確認装置、os動作状態確認方法およびプログラム Expired - Fee Related JP5625605B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010180432A JP5625605B2 (ja) 2010-08-11 2010-08-11 Os動作状態確認システム、確認対象装置、os動作状態確認装置、os動作状態確認方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010180432A JP5625605B2 (ja) 2010-08-11 2010-08-11 Os動作状態確認システム、確認対象装置、os動作状態確認装置、os動作状態確認方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2012038257A JP2012038257A (ja) 2012-02-23
JP5625605B2 true JP5625605B2 (ja) 2014-11-19

Family

ID=45850153

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010180432A Expired - Fee Related JP5625605B2 (ja) 2010-08-11 2010-08-11 Os動作状態確認システム、確認対象装置、os動作状態確認装置、os動作状態確認方法およびプログラム

Country Status (1)

Country Link
JP (1) JP5625605B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102736970A (zh) * 2012-06-29 2012-10-17 浪潮电子信息产业股份有限公司 一种操作系统活动状态的监控方法
US9525608B2 (en) 2015-02-25 2016-12-20 Quanta Computer, Inc. Out-of band network port status detection
JP2019212046A (ja) * 2018-06-05 2019-12-12 富士通株式会社 制御プログラム、制御方法及び情報処理装置
JP6958925B2 (ja) * 2019-01-21 2021-11-02 Necプラットフォームズ株式会社 障害通知装置、システム、方法及びプログラム
JP6697102B1 (ja) * 2019-01-23 2020-05-20 Necプラットフォームズ株式会社 情報処理装置、情報処理装置の制御方法、及び、情報処理装置の制御プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000112790A (ja) * 1998-10-02 2000-04-21 Toshiba Corp 障害情報収集機能付きコンピュータ
JP2009205364A (ja) * 2008-02-27 2009-09-10 Nec Corp 死活監視方法、被監視装置、監視装置、死活監視プログラム
JP4659062B2 (ja) * 2008-04-23 2011-03-30 株式会社日立製作所 フェイルオーバ方法、プログラム、管理サーバおよびフェイルオーバシステム

Also Published As

Publication number Publication date
JP2012038257A (ja) 2012-02-23

Similar Documents

Publication Publication Date Title
CN107547589B (zh) 一种数据采集处理方法以及装置
CN110750480B (zh) 一种双机热备系统
US11706080B2 (en) Providing dynamic serviceability for software-defined data centers
JP5625605B2 (ja) Os動作状態確認システム、確認対象装置、os動作状態確認装置、os動作状態確認方法およびプログラム
US11157373B2 (en) Prioritized transfer of failure event log data
JP2004021549A (ja) ネットワーク監視システムおよびプログラム
WO2016197737A1 (zh) 自检处理方法、装置及系统
JP6183931B2 (ja) クラスタシステム、サーバ装置、クラスタシステムの管理方法、及びプログラム。
JP5425720B2 (ja) 仮想化環境監視装置とその監視方法およびプログラム
US10721135B1 (en) Edge computing system for monitoring and maintaining data center operations
JP2008172592A (ja) クラスタシステム、コンピュータおよびその異常検出方法
KR101574900B1 (ko) 철강 플랜트 제어 시스템
US8677323B2 (en) Recording medium storing monitoring program, monitoring method, and monitoring system
JP2012168907A (ja) 相互監視システム
JP4495248B2 (ja) 情報処理装置、障害処理方法
JP7328907B2 (ja) 制御システム、制御方法
JP2007334668A (ja) メモリダンプ方法、クラスタシステム、それを構成するノードおよびプログラム
JP2006285453A (ja) 情報処理装置、情報処理方法、および情報処理プログラム
JP2014532236A (ja) 接続方法
JP2014164628A (ja) 情報処理装置、情報処理方法および情報処理プログラム並びに統合監視サーバ及び監視システム
JP2007272328A (ja) コンピュータ・システム
JP4034436B2 (ja) クライアント・サーバシステム及びクライアント稼働監視方法
JP3190880B2 (ja) スタンバイシステム、スタンバイ方法、および記録媒体
CN102932196B (zh) 一种主机系统状态的检测方法和装置
JP4863984B2 (ja) 監視処理プログラム、方法及び装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130711

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140319

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140408

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140523

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140902

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140915

R150 Certificate of patent or registration of utility model

Ref document number: 5625605

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees