JP5625605B2

JP5625605B2 - Ｏｓ動作状態確認システム、確認対象装置、ｏｓ動作状態確認装置、ｏｓ動作状態確認方法およびプログラム

Info

Publication number: JP5625605B2
Application number: JP2010180432A
Authority: JP
Inventors: 佳史猿田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2010-08-11
Filing date: 2010-08-11
Publication date: 2014-11-19
Anticipated expiration: 2030-08-11
Also published as: JP2012038257A

Description

本発明はＯＳ動作状態確認システム、ＯＳ動作状態確認装置および確認対象装置、確認方法およびプログラムに関し、特に確認対象装置に起こった不具合の原因を遠隔地から特定するＯＳ動作状態確認システム等に関する。

コンピュータネットワークによる情報サービスシステムが社会的に重要なインフラとして定着している現代では、ネットワークはますます大規模化および複雑化している。これによって、該システムを構成する各コンピュータが正常に動作しているか否かを監視する重要性はますます増大している。そこで、情報サービスシステムを構成する各コンピュータの動作を監視するための運用管理システム、とりわけＯＳ動作状態確認システムの利用が拡大している。

ここでいうＯＳ動作状態確認システムとは、複数のコンピュータ装置である確認対象装置と、それらの確認対象装置を監視するコンピュータ装置であるＯＳ動作状態確認装置とがネットワークによって相互に接続されて構成され、確認対象装置の主演算制御手段（ＣＰＵ: Central Processing Unit）で動作するオペレーティングシステム（以後ＯＳという）が正常に動作しているか否かを遠隔地に設置されたＯＳ動作状態確認装置の側で監視するものである。

確認対象装置は、当該装置の主演算制御手段とは別個に動作するマイクロプロセッサを含むＢＭＣ（Baseboard Management Controller）を備えており、これによってＯＳの動作状態とは関係なく当該装置の動作状態を収集してＯＳ動作状態確認装置に送信することができる。

これに関連する技術文献として、以下の各々がある。その中でも特許文献１には、ＯＳ内に作成されたログを電子メールによって保守管理者に送信するという計算機システムが記載されている。特許文献２には、監視管理コンピュータと被監視コンピュータとが相互に監視し合うことにより、監視管理プログラム自体で発生した問題を検出できるというコンピュータ相互監視方式などが記載されている。

特許文献３には、接続されたネットワーク機器に異常が発生した場合にその旨をユーザ受信端末に送信するという端末装置が記載されている。特許文献４には、複数の装置（サーバ）が監視用データを相互に書き換え、書き換えられた監視用データを監視装置に送信することにより、複数の装置のアプリケーション間の連携について監視することができるという監視方法などが記載されている。

特許文献５には、複数の通信ルートを介して監視対象装置と通信を行うという死活監視方法が記載されている。非特許文献１には、前述のＢＭＣを利用してネットワークを介して確認対象装置の監視を行う技術の一例が記載されている。非特許文献２には、監視対象装置のハードウェアの状態を監視するための標準インターフェイス仕様であるＩＰＭＩ（Intelligent Platform Management Interface）について記載されている。

特開２００１−００５６９２号公報特開２００４−３４１７７９号公報特開２００５−１３０３３７号公報特開２００９−１６９８３６号公報特開２００９−２０５３６４号公報

日本アイ・ビー・エム株式会社、「Mini BMC（Mini Baseboard Management Controller）」、２００６年２月２６日、［平成２２年７月２８日検索］、インターネット＜URL：http://www-01.ibm.com/support/docview.wss?uid=pcd1syj0-02c0e52&aid=1＞インテル・コーポレーション、「Intelligent Platform Management Interface Specification」、［平成２２年７月２９日検索］、インターネット＜URL：http://download.intel.com/design/servers/ipmi/IPMI2_0E4_Markup_061209.pdf＞

確認対象装置とＯＳ動作状態確認装置とが相互に通信して確認対象装置のＯＳが正常に動作しているか否かの監視（以後、これを死活監視という）を行う場合、通常は確認対象装置とＯＳ動作状態確認装置との間でピング（Ｐｉｎｇ）などのような通信を定期的に行い、この定期的な通信が断絶した場合に確認対象装置に問題が発生したと判断している。

しかしながら、その場合に確認対象装置において発生した問題が、確認対象装置で動作するＯＳで発生したものであるか、それとも確認対象装置との間のネットワーク機器で発生したものであるか、またそれは誤検出もしくは時間が経過すれば回復する一時的な現象であるか、それとも技術者による回復の操作が必要な重大な問題であるかを、ＯＳ動作状態確認装置側で知る方法はなかった。このような問題の発生原因やその重大さを特定するには、専ら技術者が実際にその問題の発生した確認対象装置を操作する以外にない。これには時間と労力を要する。

前述の特許文献１〜５および非特許文献１〜２には、この問題を解決しうる技術は記載されていない。非特許文献１に記載されたＢＭＣは、確認対象装置のＯＳが正常に動作していないとしても、それとは無関係に動作して確認対象装置のハードウェアの動作状態を検出してＯＳ動作状態確認装置側に送信することはできる。しかしながら、これも確認対象装置で発生した問題の原因やその重大さを特定するものではない。

本発明の目的は、確認対象装置で発生したＯＳ動作状態確認装置との間の通信の断絶の原因がＯＳで発生したものであるかネットワーク機器で発生したものであるか、およびその問題の重大さを遠隔地に設置されたＯＳ動作状態確認装置側で知ることを可能とするＯＳ動作状態確認システム、確認対象装置、ＯＳ動作状態確認装置、ＯＳ動作状態確認方法およびプログラムを提供することにある。

上記目的を達成するため、本発明に係るＯＳ動作状態確認システムは、ＯＳ動作状態確認装置と確認対象装置とが相互に接続されることによって構成され、確認対象装置におけるオペレーティングシステムの動作が正常であるか否かをＯＳ動作状態確認装置の側から確認するＯＳ動作状態確認システムであって、確認対象装置が、オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して確認対象装置の動作情報を収集してＯＳ動作状態確認装置に送信する副演算制御手段と、主演算制御手段および副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段と、主演算制御手段が正常に動作している間はイベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を追記すると同時にＯＳ動作状態確認装置に対して自らの動作状態の確認情報である第１の死活検出情報を送信する死活検出部とを備えると共に、副演算制御手段が、ＯＳ動作状態確認装置からの命令に基づいてイベントログに新規イベントを付加すると共に予め定められた遅延時間が経過した後でこの新規イベントに処理済み情報が追記されているか否かを判断し、該処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す第２の死活検出情報をＯＳ動作状態確認装置に対して送信するＩＰＭＩコマンド通信機能を備え、ＯＳ動作状態確認装置が、確認対象装置と定期的に通信を行ってこの定期的な通信が途切れた場合に確認対象装置に不具合が生じたと判断する確認対象装置死活検出部と、確認対象装置に対してネットワーク疎通確認用のピング（Ｐｉｎｇ）を送信するピング送信部と、確認対象装置に不具合が生じたと判断された場合に確認対象装置の副演算制御手段に対してイベントログに新規イベントを付加する命令を送信するＯＥＭイベント送信部とを備えると共に、確認対象装置から第２の死活検出情報を受信した場合にピング送信部に対して第１のピングの送信を指令する死活検出情報判定部と、第１のピングに対する返信が確認対象装置から返って来た場合に確認対象装置の主演算制御手段が過負荷状態であると判断し、そうでない場合に確認対象装置の主演算制御手段がハングアップしていると判断して、この判断結果を外部に出力する不具合原因判断部とを有することを特徴とする。

上記目的を達成するため、本発明に係る確認対象装置は、ＯＳ動作状態確認装置と相互に接続されることによって、オペレーティングシステムの動作が正常であるか否かをＯＳ動作状態確認装置の側から確認するＯＳ動作状態確認システムを構成する確認対象装置であって、オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して自らの動作情報を収集してＯＳ動作状態確認装置に送信する副演算制御手段と、主演算制御手段および副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段と、主演算制御手段が正常に動作している間はイベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を追記すると同時にＯＳ動作状態確認装置に対して自らの動作状態の確認情報である第１の死活検出情報を送信する死活検出部とを備えると共に、副演算制御手段が、ＯＳ動作状態確認装置からの命令に基づいてイベントログに新規イベントを付加すると共に予め定められた遅延時間が経過した後でこの新規イベントに処理済み情報が追記されているか否かを判断し、該処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す第２の死活検出情報をＯＳ動作状態確認装置に対して送信するＩＰＭＩコマンド通信機能を備えることを特徴とする。

上記目的を達成するため、本発明に係るＯＳ動作状態確認装置は、オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して自らのハードウェアの動作についての情報を収集して外部装置に送信する副演算制御手段と、主演算制御手段および副演算制御手段の双方の動作内容を記録するイベントログを記憶した記憶手段とを備える確認対象装置と相互に接続されることによって、確認対象装置でのオペレーティングシステムの動作が正常であるか否かを確認するＯＳ動作状態確認システムを構成するＯＳ動作状態確認装置であって、確認対象装置と定期的に通信を行ってこの定期的な通信が途切れた場合に確認対象装置に不具合が生じたと判断する確認対象装置死活検出部と、確認対象装置に対してネットワーク疎通確認用のピング（Ｐｉｎｇ）を送信するピング送信部と、確認対象装置に不具合が生じたと判断された場合に確認対象装置の副演算制御手段に対してイベントログにその不具合を新規イベントとして付加する命令を送信するＯＥＭイベント送信部とを備えると共に、確認対象装置からイベントログに書き込んだ新規イベントに対して予め定められた遅延時間が経過した後でも処理済み情報が書き込まれていないことを意味する死活検出情報を受信した場合にピング送信部に対してピングの送信を指令する死活検出情報判定部と、ピングに対する返信が確認対象装置から返って来た場合に確認対象装置のオペレーティングシステムが過負荷状態であると判断し、そうでない場合に確認対象装置のオペレーティングシステムがハングアップしていると判断して、この判断結果を外部に出力する不具合原因判断部を有することを特徴とする。

上記目的を達成するため、本発明に係るＯＳ動作状態確認方法は、オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して自らの動作情報を収集してＯＳ動作状態確認装置に送信する副演算制御手段と、主演算制御手段および副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段とを備える確認対象装置がＯＳ動作状態確認装置と相互に接続されることによって構成され、確認対象装置でのオペレーティングシステムの動作が正常であるか否かをＯＳ動作状態確認装置の側から確認するＯＳ動作状態確認システムにあって、確認対象装置で主演算制御手段が正常に動作している間はイベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を確認対象装置の死活検出部が追記すると同時にＯＳ動作状態確認装置に対して自らの動作状態の確認情報である第１の死活検出情報を死活検出部が送信し、ＯＳ動作状態確認装置と確認対象装置との間の定期的な通信が途切れた場合に確認対象装置に不具合が生じたとＯＳ動作状態確認装置の確認対象装置死活検出部が判断し、確認対象装置に不具合が生じたと判断された場合に確認対象装置の副演算制御手段に対してイベントログに新規イベントを付加する命令をＯＳ動作状態確認装置のＯＥＭイベント送信部が送信し、ＯＳ動作状態確認装置からの命令に反応した確認対象装置の副演算制御手段がイベントログに新規イベントを付加し、予め定められた遅延時間が経過した後で確認対象装置のイベントログに付加した新規イベントに対して処理済み情報が追記されているか否かを副演算制御手段が判断し、確認対象装置のイベントログに処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す第２の死活検出情報をＯＳ動作状態確認装置に対して確認対象装置の副演算制御手段が送信し、ＯＳ動作状態確認装置が確認対象装置から第２の死活検出情報を受信した場合に死活検出情報判定部がピング送信部を介して確認対象装置にネットワーク疎通確認用のピング（Ｐｉｎｇ）を送信し、ピングに対する返信が確認対象装置から返って来た場合に確認対象装置のオペレーティングシステムが過負荷状態であると判断し、そうでない場合に確認対象装置のオペレーティングシステムがハングアップしているとＯＳ動作状態確認装置の死活検出情報判定部が判断し、この判断結果をＯＳ動作状態確認装置の死活検出情報判定部が外部に出力することを特徴とする。

上記目的を達成するため、本発明に係るＯＳ動作状態確認プログラムは、オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して確認対象装置の動作情報を収集してＯＳ動作状態確認装置に送信する副演算制御手段と、主演算制御手段および副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段とを備える確認対象装置がＯＳ動作状態確認装置と相互に接続されることによって構成され、確認対象装置でのオペレーティングシステムの動作が正常であるか否かをＯＳ動作状態確認装置の側から確認するＯＳ動作状態確認システムにあって、ＯＳ動作状態確認装置が備えるコンピュータに、ＯＳ動作状態確認装置と確認対象装置との間の定期的な通信が途切れた場合に確認対象装置に不具合が生じたと判断する手順、確認対象装置に不具合が生じたと判断された場合に確認対象装置の副演算制御手段に対してイベントログに新規イベントを付加する命令を送信する手順、確認対象装置からイベントログに付加した新規イベントに対して予め定められた遅延時間が経過した後でも処理済み情報が追記されていないことを意味する死活検出情報を受信した場合に確認対象装置にネットワーク疎通確認用のピング（Ｐｉｎｇ）を送信する手順、ピングに対する返信が確認対象装置から返って来た場合に確認対象装置のオペレーティングシステムが過負荷状態であると判断し、そうでない場合に確認対象装置のオペレーティングシステムがハングアップしていると判断する手順、およびこの判断結果を外部に出力する手順を、実行させることを特徴とする。

本発明は、上述したように確認対象装置が主演算制御手段およびこれとは別個に動作する副演算制御手段、即ちＢＭＣを備える構成とし、ＢＭＣがイベントログに書き込んだイベントがＯＳの上で動作する死活検出部によって処理済みとされているか否かによってＯＳの動作を判断するように構成したので、ＯＳ動作状態確認装置からネットワークを介して確認対象装置でのＯＳの動作状態を把握できる。

これによって、確認対象装置で発生したＯＳ動作状態確認装置との間の通信の断絶の原因がＯＳで発生したものであるかネットワーク機器で発生したものであるか、およびその問題の重大さを遠隔地に設置されたＯＳ動作状態確認装置側で知ることを可能とするＯＳ動作状態確認システム、確認対象装置、ＯＳ動作状態確認装置、ＯＳ動作状態確認方法およびプログラムを提供することができる。

図２に示したＯＳ動作状態確認装置および確認対象装置のより詳しい構成について示す説明図である。本発明の第１の実施形態に係るＯＳ動作状態確認システムの構成について示す説明図である。図１に示したＢＭＣのさらに詳しい構成を示す説明図である。図１に示したＳＥＬのデータ記録形式について示す説明図である。図１に示したＯＳ動作状態確認装置が行う、ＯＳの動作状態の監視の動作について示すフローチャートである。図５の続きである。図１に示した確認対象装置側でＯＳ上で動作する死活検出部が、図５〜６に示したＯＳ動作状態確認装置の動作に対応して行う動作について示すフローチャートである。図１に示した確認対象装置側でＯＳとは関係なく動作するＢＭＣが、図５〜６に示したＯＳ動作状態確認装置の動作に対応して行う動作について示すフローチャートである。本発明の第２の実施形態に係るＯＳ動作状態確認システムの構成について示す説明図である。図９に示したＯＳ動作状態確認装置のより詳しい構成について示す説明図である。図１０に示したＯＳ動作状態確認装置が行う、ＯＳの監視の動作について示すフローチャートである。図１１の続きである。

（第１の実施形態）
以下、本発明の第１の実施形態の構成について添付図１〜３に基づいて説明する。
最初に、本実施形態の基本的な内容について説明し、その後でより具体的な内容について説明する。
本実施形態に係るＯＳ動作状態確認システム１は、ＯＳ動作状態確認装置１０と確認対象装置２０とが相互に接続されることによって構成され、確認対象装置におけるオペレーティングシステムの動作が正常であるか否かをＯＳ動作状態確認装置の側から確認するＯＳ動作状態確認システムである。確認対象装置２０は、オペレーティングシステムを動作させる主演算制御手段２１と、この主演算制御手段とは別個に動作して確認対象装置の動作情報を収集してＯＳ動作状態確認装置に送信する副演算制御手段（ＢＭＣ２４）と、主演算制御手段および副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログ（ＳＥＬ２１０）を記憶した記憶手段２２と、主演算制御手段が正常に動作している間はイベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を追記すると同時にＯＳ動作状態確認装置に対して当該動作状態の確認情報である第１の死活検出情報を送信する死活検出部２０１とを備えると共に、副演算制御手段（ＢＭＣ２４）が、ＯＳ動作状態確認装置からの命令に基づいてイベントログに新規イベントを付加すると共に予め定められた遅延時間が経過した後でこの新規イベントに処理済み情報が追記されているか否かを判断し、該処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す第２の死活検出情報をＯＳ動作状態確認装置に対して送信するＩＰＭＩコマンド通信機能２４１を備える。ＯＳ動作状態確認装置１０は、確認対象装置と定期的に通信を行ってこの定期的な通信が途切れた場合に確認対象装置に不具合が生じたと判断する確認対象装置死活検出部１０１と、確認対象装置に対してネットワーク疎通確認用のピング（Ｐｉｎｇ）を送信するピング送信部１０３と、確認対象装置に不具合が生じたと判断された場合に確認対象装置の副演算制御手段に対してイベントログに新規イベントを付加する命令を送信するＯＥＭイベント送信部１０２とを備えると共に、確認対象装置から第２の死活検出情報を受信した場合にピング送信部に対して第１のピングの送信を指令する死活検出情報判定部１０４と、第１のピングに対する返信が確認対象装置から返って来た場合に確認対象装置の主演算制御手段が過負荷状態であると判断し、そうでない場合に確認対象装置の主演算制御手段がハングアップしていると判断して、この判断結果を外部に出力する不具合原因判断部１０５とを有する。

そして不具合原因判断部１０５が、確認対象装置から第２の死活検出情報を受信せずかつ第１の死活検出情報を受信した場合に確認対象装置のオペレーティングシステムの動作に特に問題はないと判断する。

さらに死活検出情報判定部１０４が、確認対象装置から第１および第２の死活検出情報をいずれも受信しない場合にピング送信部１０２に対して第２のピングの送信を指令し、不具合原因判断部１０５が、第２のピングに対する返信が確認対象装置から返って来た場合に確認対象装置のオペレーティングシステムが過負荷状態であると判断し、そうでない場合に確認対象装置との間のネットワークに恒久的な障害が発生したと判断する。

以上の構成を備えることにより、本実施形態のＯＳ動作状態確認システム１は、遠隔地に設置されたＯＳ動作状態確認装置１０から、確認対象装置２０でのＯＳの動作状態を正確に検出することが可能となる。
以下、これをより詳細に説明する。

図２は、本発明の第１の実施形態に係るＯＳ動作状態確認システム１の構成について示す説明図である。ＯＳ動作状態確認システム１は、互いに離れた場所に設置されたＯＳ動作状態確認装置１０と複数台の確認対象装置２０ａ、２０ｂ、２０ｃ…が、ネットワーク３０と管理用ネットワーク３１とを介して相互に接続されることによって構成される。１台のＯＳ動作状態確認装置１０で、複数台の確認対象装置２０によって管理する構成とすることができる。以後、確認対象装置２０ａ、２０ｂ、２０ｃ…を総称して確認対象装置２０という。

ネットワーク３０は、ＯＳ動作状態確認装置１０と確認対象装置２０との間の通常の通信で使用されるＬＡＮ（Local Area Network）およびＷＡＮ（Wide Area Network）である。管理用ネットワーク３１は、ＯＳ動作状態確認装置１０と確認対象装置２０との間で、動作についての情報の収集や管理コマンドの送信などのようなネットワーク管理用途で専用に利用されるネットワークである。

図１は、図２に示したＯＳ動作状態確認装置１０および確認対象装置２０のより詳しい構成について示す説明図である。

ＯＳ動作状態確認装置１０は、一般的なコンピュータ装置としての構成を有する。即ち、コンピュータプログラムを実行する主体となる主演算制御手段（ＣＰＵ: Micro Processing Unit）１１と、データを記憶する記憶手段１２と、ネットワーク３０に接続して他のコンピュータとのデータ通信を行う通信手段１３ａと、管理用ネットワーク３１に接続して他のコンピュータとのデータ通信を行う通信手段１３ｂと、主演算制御手段１１による処理結果をユーザに表示する表示手段１４とを備える。

そして、主演算制御手段１１では、確認対象装置死活検出部１０１と、ＯＥＭイベント送信部１０２と、ピング（Ｐｉｎｇ）送信部１０３と、死活検出情報判定部１０４と、不具合原因判断部１０５とが、コンピュータプログラムとして各々の機能を実行されるように構成されている。

確認対象装置死活検出部１０１は、確認対象装置２０に対して所定の間隔で通信を行い、その通信に対する返信が予め決められた時間内になかった場合に、この確認対象装置２０との通信が途切れたと判断する。ＯＥＭイベント送信部１０２は、確認対象装置２０に対して、後述するＯＥＭイベントを記録させるＩＰＭＩコマンドを送信する（詳細は後述）。ピング送信部１０３は、確認対象装置２０に対してネットワーク３０を介してネットワーク疎通確認のためのコマンドであるピング（Ｐｉｎｇ）を送信する。

死活検出情報判定部１０４は、これも後述する確認対象装置２０からの応答情報を受信して、その内容に応じてピング送信部１０３にピングを送信させる。そして不具合原因判断部１０５は、以上の応答情報やピングに対する返信の有無などから、後述のロジックで確認対象装置２０に生じた不具合の内容を特定して、その判断結果を表示手段１４に表示する。

もう一方の確認対象装置２０もまた、一般的なコンピュータ装置としての構成を有する。即ち、コンピュータプログラムを実行する主体となる主演算制御手段（ＣＰＵ: Micro Processing Unit）２１と、データを記憶する記憶手段２２と、ネットワーク３０に接続して他のコンピュータとのデータ通信を行う２系統の通信手段２３ａと、管理用ネットワーク３１に接続して他のコンピュータとのデータ通信を行う通信手段２３ｂとを備える。これらに加えて、確認対象装置２０はＢＭＣ（Baseboard Management Controller）２４をさらに備える。

ＢＭＣ２４は通信手段２３ｂに接続されていて、主演算制御手段２１とは別個に動作する。ＯＳ動作状態確認装置１０は、管理用ネットワーク３１を介して、ＢＭＣ２４との間でＲＭＣＰ（Remote Management Control ProtocolまたはRemote Media Control Protocol）のプロトコルによるＩＰＭＩ（Intelligent Platform Management Interface）コマンドを交換することが可能である。

さらに、確認対象装置２０の記憶手段２２には、主演算制御手段２１とＢＭＣ２４のいずれの側からもアクセス可能なシステムイベントログ（ＳＥＬ）２１０が記憶されている。

主演算制御手段２１ではオペレーティングシステム（以後ＯＳという）２００が動作し、そのＯＳ２００上で死活検出部２０１とＩＰＭＩドライバ２０２とが、コンピュータプログラムとして実行されるように構成されている。ＯＳ２００は、通信手段２３ａを通信インターフェースとして認識していて、この通信手段２３ａを介してネットワーク３０経由でＯＳ動作状態確認装置１０と通信を行うことができる。

死活検出部２０１は、ＯＳ動作状態確認装置１０で動作する確認対象装置死活検出部１０１からの通信に対して返信を行うことにより、確認対象装置死活検出部１０１に対して自らが問題なく動作していることを知らせる。死活検出部２０１は、ＩＰＭＩドライバ２０２に対して命令を発するＩＰＭＩ命令機能２０１ａ、ＯＳ動作状態確認装置１０に対しての通信を行う管理通信機能２０１ｂとを備える。

ＩＰＭＩ命令機能２０１ａは、主演算制御手段２１のカーネルモードで動作し、ＳＥＬ２１０に記録されたイベントを定期的に監視し、新たなイベントが記録されたらそのイベントの状態を「処理済み」に変更する機能を持つ。管理通信機能２０１ｂは、主演算制御手段２１のユーザーモードで動作し、ＯＳ動作状態確認装置１０に対してＯＳ２００の動作に問題がないこと示す通信を行う機能を持つ。

ＩＰＭＩドライバ２０２は、主演算制御手段２１のカーネルモードで動作し、ＩＰＭＩ命令機能２０１ａがＳＥＬ２１０にアクセスするために利用する。

一方、ＢＭＣ２４は、ＯＳ動作状態確認装置１０からのＩＰＭＩコマンドを受けて、ＳＥＬ２１０に対するイベントの書き込みおよびログの記録内容の編集の動作を行うことができ、その結果に応じてＰＥＴ（Platform Event Trap）をＯＳ動作状態確認装置１０に返信することができる。

図３は、図１に示したＢＭＣ２４のさらに詳しい構成を示す説明図である。ＢＭＣ２４は、主演算制御手段２１とは別個に動作するマイクロプロセッサ２４ａと、確認対象装置２０の記憶手段２２とは別個の記憶手段２４ｂとを備え、主演算制御手段２１で動作するＯＳ２００からは独立して、小規模なコンピュータプログラムを実行する主体として機能することができる。

そして、マイクロプロセッサ２４ａでは、通信手段２３ｂを制御して（管理用ネットワーク３１経由で）ＯＳ動作状態確認装置１０とＩＰＭＩコマンドを交換するＩＰＭＩコマンド通信機能２４１と、このＩＰＭＩコマンドに応じてＳＥＬ２１０にアクセスするＳＥＬアクセス機能２４２とが、コンピュータプログラムとして実行されるように構成されている。

ＩＰＭＩコマンド通信機能２４１は、通信手段２３ｂに対して、ＯＳ２００が通信手段２３ａに対して設定しているＩＰアドレスとは異なるＩＰアドレスを設定している。これによって、ネットワーク３０とは別系統の管理用ネットワーク３１を介してＯＳ動作状態確認装置１０との間で、ＩＰＭＩコマンドとそれに対する返答（ＰＥＴ）とを交換することができる。

図４は、図１に示したＳＥＬ２１０のデータ記録形式について示す説明図である。ＳＥＬ２１０はＩＰＭＩの仕様に従い、ＯＳ２００およびＢＭＣ２４の動作に応じて、その内容がイベントとして付加されるものである。処理済み情報２１０ａは、最後に発生したイベントについてのＳＥＬ２１０の１〜２バイト目の「Record ID」をＢＭＣ２４内部の記憶手段２４ｂに記憶するものである。さらに新しいイベントが発生するたびに、この処理済み情報２１０ａは上書きされる。

本実施形態でいうＯＥＭ（Original Equipment Manufacturer）イベントとは、非特許文献２のＩＰＭＩの仕様で定義された「OEM SEL record」を利用して、各ベンダーが独自にその内容を定義してＳＥＬに記録できるイベントをいう。これによって、本実施形態は他の装置との衝突を起こすことなく実施可能なものとなる。

より具体的には「Record Type」を示す３バイト目を１６進数の「０ｘＣ０」〜「０ｘＤＦ」の間の値に設定すれば、本実施形態で利用可能なものとできる。８〜１０バイト目が各ベンダーに与えられる「Manufacturer ID」、そして１１〜１６バイト目が各ベンダーが独自に定義できる「OEM Defined」というデータフィールドであるので、この両者の組み合わせによりイベントの内容を一意に決定することができる。

本実施形態では、８〜１０バイト目を「日本電気株式会社」に割り当てられた「０ｘ０７」「０ｘ０７」「０ｘ００」とし、１１〜１６バイト目を「０ｘ０１」「０ｘ００」「０ｘ００」「０ｘ００」「０ｘ００」「０ｘ００」として、これに「ＯＳの死活監視」という内容を独自に割り当てることによって実施する。

図５〜６（紙面の都合で２枚に分ける）は、図１に示したＯＳ動作状態確認装置１０が行う、ＯＳ２００の動作状態の監視の動作について示すフローチャートである。ＯＳ動作状態確認装置１０の主演算制御手段１１では、確認対象装置死活検出部１０１が予め定められた所定の間隔で、ネットワーク３０を介して死活検出部２０１との間で定期的に通信を行っている。この通信に対する返信が所定の時間内に戻ってこない場合に、通信が途切れたと判断して、ＯＥＭイベント送信部１０２に制御を渡して（ステップＳ３０１）以後の動作を開始させる。

ＯＥＭイベント送信部１０２は、管理用ネットワーク３１を介してＢＭＣ２４に対してＩＰＭＩコマンド「Arm PEF Postpone Timer」を発行し、即ちＳＥＬ２１０にイベントを書き込まれてもすぐにこれをＰＥＴ（Platform Event Trap）として返信せず、所定の遅延時間だけその返信の動作を待ち合わせるようＢＭＣ２４に設定させる（ステップＳ３０２）。

その後すぐにＯＥＭイベント送信部１０２は、管理用ネットワーク３１を介してＢＭＣ２４に対してＩＰＭＩコマンド「Platform Event Message」を発行し、ＢＭＣ２４にＳＥＬ２１０へ新規のＯＥＭイベントを書き込ませる（ステップＳ３０３）。

図７は、図１に示した確認対象装置２０側でＯＳ２００上で動作する死活検出部２０１が、図５〜６に示したＯＳ動作状態確認装置１０の動作に対応して行う動作について示すフローチャートである。この動作は、予め設定された間隔で定期的に実行される。

確認対象装置２０のＯＳ２００上で動作する死活検出部２０１では、ＩＰＭＩ命令機能２０１ａがあらかじめ設定された動作間隔が経過したら（ステップＳ３５１）ＩＰＭＩドライバ２０２を利用して定期的にＳＥＬ２１０を読み出し、新しく発生したイベントが記録されているか否かを常に確認する（ステップＳ３５２）。

ステップＳ３５２の処理は、より具体的には、ＩＰＭＩコマンド「Get Last Processed Event ID」を発行してＩＰＭＩドライバ２０２で最後に処理されたイベントＩＤを取得し、このイベントＩＤより新しいイベントをＳＥＬ２１０からＩＰＭＩコマンド「Get SEL Entry」を発行することによって取得することで、ＳＥＬ２１０上の新しく発生したイベントの有無を確認することができる。

ＳＥＬ２１０に新しく発生したイベントが記録されている場合には（ステップＳ３５２：ＹＥＳ）、ＩＰＭＩ命令機能２０１ａがそのイベントの処理済み情報２１０ａを「処理済み」に変更する（ステップＳ３５３）。より具体的にはＩＰＭＩコマンド「Set Last Processed Event ID」によって、そのイベントの処理済み情報２１０ａを変更することができる。これと同時に、管理通信機能２０１ｂがＯＳ動作状態確認装置１０に対して自身が動作していることを伝えるための通信（第１の死活検出情報）を行う（ステップＳ３５４）。

図８は、図１に示した確認対象装置２０側でＯＳ２００とは関係なく動作するＢＭＣ２４が、図５〜６に示したＯＳ動作状態確認装置１０の動作に対応して行う動作について示すフローチャートである。ＢＭＣ２４のＩＰＭＩコマンド通信機能２４１は、図５のステップＳ３０２でＯＥＭイベント送信部１０２から受信したＩＰＭＩコマンド「Arm PEF Postpone Timer」に反応して、このコマンドで設定された遅延時間だけ動作を待ち合わせる（ステップＳ４０１）。

そしてＢＭＣ２４のＳＥＬアクセス機能２４２は、図５のステップＳ３０３でＯＥＭイベント送信部１０２から受信したＩＰＭＩコマンド「Platform Event Message」に反応してＯＥＭイベントを書き込み（ステップＳ４０２）、ステップＳ４０１で設定した遅延時間が経過したらＳＥＬ２１０にアクセスしてその内容を読み、これをＩＰＭＩコマンド通信機能２４１に伝達する（ステップＳ４０３）。

ＩＰＭＩコマンド通信機能２４１は、ステップＳ４０２でＳＥＬ２１０に書き込んだＯＥＭイベントが「処理済み」であるか否か、即ち処理済み情報２１０ａとして記録されたレコードＩＤ（Record ID）の値よりもＳＥＬ２１０に記録されている最新のレコードのレコードＩＤが大きいか否かを判断し（ステップＳ４０４）、「未処理」であればこれをＰＥＴ（第２の死活検出情報）としてＯＳ動作状態確認装置１０に返信する（ステップＳ４０５）。「処理済み」であればそのまま処理を終了する。

以上で述べた図７および図８の動作は、同一の確認対象装置２０内ではあるが、動作主体が異なる（図７は主演算制御手段２１、図８はＢＭＣ２４のマイクロプロセッサ２４ａ）ので、互いに干渉することなく並行して実行される。

即ち、主演算制御手段２１上のＯＳ２００が、ハングアップの発生もしくは高い処理負荷がかかったことが原因で、図５のステップＳ３０２および図８のステップＳ４０１で設定された遅延時間内に図７のステップＳ３５３の動作ができなかった場合には、ステップＳ４０２でＳＥＬ２１０に記録されたＯＥＭイベントがＢＭＣ２４からＰＥＴ（図８のステップＳ４０５、請求項でいう「第２の死活検出情報」）としてＯＳ動作状態確認装置１０に返されることになる。

逆に、ＯＳ２００が正常に動作していれば、図５のステップＳ３０２および図８のステップＳ４０１で設定された遅延時間内に図７のステップＳ３５３の動作が行われ、死活検出部２０１の管理通信機能２０１ｂによる通信（図７のステップＳ３５４、請求項でいう「第１の死活検出情報」）がＯＳ動作状態確認装置１０に返されることになる。

図５〜６に戻って、ＯＳ動作状態確認装置１０では死活検出情報判定部１０４が、ステップＳ３０３でＢＭＣ２４を介してＳＥＬ２１０に書き込ませたＯＥＭイベントが確認対象装置２０から（図８のステップＳ４０５の）ＰＥＴとして返却されているか否かを確認する（ステップＳ３０４）。返却されている場合（ステップＳ３０４：ＹＥＳ）、ＯＳ２００は停止しているか、もしくは過負荷状態であることになる。そこで死活検出情報判定部１０４は、確認対象装置２０のＯＳ２００に対して（ネットワーク３０を介して）ピング（Ｐｉｎｇ）を発行するようピング送信部１０３に指示する（ステップＳ３０５）。

ステップＳ３０５のピングに対してＯＳ２００からの応答があれば（ステップＳ３０５：ＹＥＳ）、ＯＳ２００は動作中で、そこで動作しているプロセスが過負荷状態のため反応できないものであると不具合原因判断部１０５は判断することができる（ステップＳ３１１）。ステップＳ３０５のピングに対してＯＳ２００からの応答がなければ（ステップＳ３０５：ＮＯ）、ＯＳ２００がハングアップしているか、もしくは非常に重大な過負荷状態であると不具合原因判断部１０５は判断することができる（ステップＳ３１２）。

ステップＳ３０４で、ステップＳ３０３で書き込んだＯＥＭイベントが確認対象装置２０からＰＥＴとして返却されていない場合（ステップＳ３０４：ＮＯ）、死活検出部２０１がステップＳ３５２〜３５２の処理を正常に行えたので、ＯＳ２００は動作していると判断することができる。そこで死活検出情報判定部１０４は、死活検出部２０１がＳＥＬを処理したときに発する、図７のステップＳ３５４の通信があったか否かを確認する（ステップＳ３０６）。

ステップＳ３０６で、死活検出部２０１からの通信があったことを確認できれば（ステップＳ３０６：ＹＥＳ）、ＯＳ２００は特に問題なく動作していて、通信が途切れた理由は間欠的なネットワーク障害などのような軽微な障害であると不具合原因判断部１０５は判断することができる（ステップＳ３１３）。

ステップＳ３０６で、死活検出部２０１からの通信を確認できなければ（ステップＳ３０６：ＮＯ）、恒久的なネットワーク障害、もしくはＯＳ２００の過負荷であった可能性がある。そこで死活検出情報判定部１０４はＯＳ２００に対して（ネットワーク３０を介して）ピングを発行するようピング送信部１０３に指示し、これに対する応答の有無を確認する（ステップＳ３０７）。

ステップＳ３０７のピングに対してＯＳ２００からの応答があれば（ステップＳ３０７：ＹＥＳ）、ＯＳ２００は動作していて、かつステップＳ３０６の死活検出部２０１からの通信がなかったことからＯＳ２００の過負荷であると不具合原因判断部１０５は判断できる（ステップＳ３１４）。また、同じくステップＳ３０７のピングに対してＯＳ２００からの応答がなければ（ステップＳ３０７：ＮＯ）、ネットワーク３０の恒久的な障害が発生していると不具合原因判断部１０５は判断できる（ステップＳ３１５）。

不具合原因判断部１０５は最後に、ステップＳ３１１〜３１５の判断結果を表示手段１４に表示して、処理を終了する（ステップＳ３１６）。この判断結果の出力は、ＯＳ動作状態確認装置１０および確認対象装置２０のいずれとも異なる（管理担当者の操作する）他のコンピュータにネットワークを介して行うものでもよいし、コンピュータ以外の装置、たとえば管理担当者の操作するページャーや携帯電話などに対して出力するものとすることもできる。

（第１の実施形態の全体的な動作）
次に、上記の実施形態の全体的な動作について説明する。本実施形態に係るＯＳ動作状態確認方法は、オペレーティングシステムを動作させる主演算制御手段２１と、この主演算制御手段とは別個に動作して確認対象装置の動作情報を収集してＯＳ動作状態確認装置に送信する副演算制御手段（ＢＭＣ２４）と、主演算制御手段および副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログ（ＳＥＬ２１０）を記憶した記憶手段２２とを備える確認対象装置２０がＯＳ動作状態確認装置１０と相互に接続されることによって構成され、確認対象装置でのオペレーティングシステムの動作が正常であるか否かをＯＳ動作状態確認装置の側から確認するＯＳ動作状態確認システム１にあって、確認対象装置で主演算制御手段が正常に動作している間はイベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を確認対象装置の死活検出部が追記すると同時にＯＳ動作状態確認装置に対して当該動作状態の確認情報である第１の死活検出情報を死活検出部が送信し（図７・ステップＳ３５２〜３５４）、ＯＳ動作状態確認装置と確認対象装置との間の定期的な通信が途切れた場合に確認対象装置に不具合が生じたとＯＳ動作状態確認装置の確認対象装置死活検出部が判断し（図５・ステップＳ３０１）、確認対象装置に不具合が生じたと判断された場合に確認対象装置の副演算制御手段に対してイベントログに新規イベントを付加する命令をＯＳ動作状態確認装置のＯＥＭイベント送信部が送信し（図５・ステップＳ３０２〜３０３）、ＯＳ動作状態確認装置からの命令に反応した確認対象装置の副演算制御手段がイベントログに新規イベントを付加し（図８・ステップＳ４０１〜４０２）、予め定められた遅延時間が経過した後で確認対象装置のイベントログに付加した新規イベントに対して処理済み情報が追記されているか否かを副演算制御手段が判断し（図８・ステップＳ４０３〜４０４）、確認対象装置のイベントログに処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す第２の死活検出情報をＯＳ動作状態確認装置に対して確認対象装置の副演算制御手段が送信し（図８・ステップＳ４０５）、ＯＳ動作状態確認装置が確認対象装置から第２の死活検出情報を受信した場合に死活検出情報判定部がピング送信部を介して確認対象装置にネットワーク疎通確認用のピング（Ｐｉｎｇ）を送信し（図５・ステップＳ３０４〜図６・ステップ３０５）、ピングに対する返信が確認対象装置から返って来た場合に確認対象装置のオペレーティングシステムが過負荷状態であると判断し（図６・ステップ３１１）、そうでない場合に確認対象装置のオペレーティングシステムがハングアップしているとＯＳ動作状態確認装置の死活検出情報判定部が判断し（図６・ステップ３１２）、この判断結果をＯＳ動作状態確認装置の死活検出情報判定部が外部に出力する（図６・ステップ３１６）。

ここで、上記各動作ステップについては、これをコンピュータで実行可能にプログラム化し、これらを前記各ステップを直接実行するコンピュータであるＯＳ動作状態確認装置１０および確認対象装置２０に実行させるようにしてもよい。
この動作により、本実施形態は以下のような効果を奏する。

本実施形態によれば、単に確認対象装置２０の異常発生を検出するだけでなく、その異常がＯＳ２００に起因するものか、またネットワークの障害に起因するものかを判定できる。さらに、ＯＳ２００に発生した異常が、単なる誤検出もしくは過負荷などのような一時的な現象であるか、あるいはハングアップなどのような重大な現象であるかを、ネットワークを介したＯＳ動作状態確認装置の側で判定できる。

本実施形態は、主演算制御手段２１（ＯＳ２００）とは独立して動作するＢＭＣ２４を利用しただけでなく、この両者から共通してアクセス可能なＳＥＬ２１０を、ＯＳ２００とＢＭＣ２４との間で動作状態を伝達するために利用している。これは前述の非特許文献１〜２にも記載されたＢＭＣおよびＩＰＭＩなどの標準的な機能を利用するだけで実現可能であるので、本実施形態を導入することに伴うコスト増は少なく済む。

（第２の実施形態）
本発明の第２の実施形態は、第１の実施形態の構成に加えて、不具合原因判断部６０５が、ＯＥＭイベント送信部１０２が副演算制御手段（ＢＭＣ２４）に対してイベントログ（ＳＥＬ２１０）にイベントを書き込む命令を送信した後に該命令に対する副演算制御手段の応答が無い場合にＢＭＣに障害が発生したと判断する。

そして不具合原因判断部６０５が、第１のピングに対する返信が確認対象装置から返って来た場合にＯＥＭイベント送信部１０２に副演算制御手段（ＢＭＣ２４）に対してイベントログに新規イベントを書き込む命令を送信する処理を繰り返させて同一の判断結果が出るか否かを判断し、同一の判断結果が出ればオペレーティングシステムのユーザーモードがハングアップしていると判断する。

この構成によっても、第１の実施形態と同一の効果を得ることができることに加えて、さらに「ＢＭＣの異常」や「オペレーティングシステムのユーザーモードのみハングアップ」といった第１の実施形態では検出できなかった異常も検出できるようになり、これによってより詳細に確認対象装置２０の動作状態を把握することが可能となる。
以下、これをより詳細に説明する。

図９は、本発明の第２の実施形態に係るＯＳ動作状態確認システム５０１の構成について示す説明図である。ＯＳ動作状態確認システム５０１は、前述の第１の実施形態と比べて、ＯＳ動作状態確認装置１０がＯＳ動作状態確認装置５１０に置き換わっている。この点以外は第１の実施形態と同一である。即ち、確認対象装置２０の構成および動作は第１の実施形態と同一である。

図１０は、図９に示したＯＳ動作状態確認装置５１０のより詳しい構成について示す説明図である。ＯＳ動作状態確認装置５１０は、前述の第１の実施形態のＯＳ動作状態確認装置１０と、ハードウェア的には同一である。また、ソフトウェア的にも、不具合原因判断部１０５が、動作の一部が異なる不具合原因判断部６０５に置き換わっている以外は同一である。

図１１〜１２は、図１０に示したＯＳ動作状態確認装置５１０が行う、ＯＳ２００の監視の動作について示すフローチャートである。図１１〜１２に示す動作は、原則的には図５〜６に示した第１の実施形態の動作と同一であるので、第１の実施形態と同一の動作には図５〜６と同一の参照番号を付けて呼び、本明細書ではそれとの相違点のみを説明することとする。

ステップＳ３０３でＢＭＣ２４に対してＩＰＭＩコマンド「Platform Event Message」を発行した後、不具合原因判断部６０５がこれに対するＢＭＣ２４からの反応の有無を判断する（ステップＳ７０１）。反応があればステップＳ３０４以後の処理に進み、反応がなければＢＭＣ２４がハードウェア異常を起こしていると判断して（ステップＳ７０２）ステップＳ３１６に進む。

また、ステップＳ３１１で「ＯＳ２００が過負荷状態である」と判断された場合、単なる過負荷状態であればこれは一時的な現象であるので時間が経てば復旧する可能性がある。しかしながら、ＯＳ２００がユーザーモードのみハングアップしているという可能性もあり、この場合は時間が経っても復旧しない。

そこで、その場合には不具合原因判断部６０５がＯＥＭイベント送信部１０２にステップＳ３０２からの処理をくり返させて、その結果が同じ「ＯＳ２００が過負荷状態である」という結果になるか否かを判断する（ステップＳ７０３〜７０４）。同じ結果にならなければ（ステップＳ７０４：ＮＯ）、１回目の判断結果は単なる一時的な現象だったと判断し、２回目に出た判断結果を採用して（ステップＳ７０５）ステップＳ３１６に進む。同じ結果になれば（ステップＳ７０４：ＹＥＳ）、ＯＳ２００のユーザーモードがハングアップしていると判断して（ステップＳ７０６）ステップＳ３１６に進む。

以上に説明した動作以外は、ＯＳ動作状態確認装置５１０の動作は図５〜６に示した第１の実施形態の動作と同一である。

ここで説明した第２の実施形態によれば、第１の実施形態よりもさらに詳しく、ＯＳ２００の動作状態をＯＳ動作状態確認装置５１０の側で検出できる。とりわけ、第１の実施形態では検出できなかった「ＢＭＣ２４のハードウェア異常」や「ＯＳ２００のユーザーモードのみハングアップ」といった異常の発生を検出できる。

これまで本発明について図面に示した特定の実施形態をもって説明してきたが、本発明は図面に示した実施形態に限定されるものではなく、本発明の効果を奏する限り、これまで知られたいかなる構成であっても採用することができる。

上述した各々の実施形態について、その新規な技術内容の要点をまとめると、以下のようになる。なお、上記実施形態の一部または全部は、新規な技術として以下のようにまとめられるが、本発明は必ずしもこれに限定されるものではない。

（付記１）ＯＳ動作状態確認装置と確認対象装置とが相互に接続されることによって構成され、前記確認対象装置におけるオペレーティングシステムの動作が正常であるか否かを前記ＯＳ動作状態確認装置の側から確認するＯＳ動作状態確認システムであって、
前記確認対象装置が、
前記オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して前記確認対象装置の動作情報を収集して前記ＯＳ動作状態確認装置に送信する副演算制御手段と、前記主演算制御手段および前記副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段と、前記主演算制御手段が正常に動作している間は前記イベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を追記すると同時に前記ＯＳ動作状態確認装置に対して当該動作状態の確認情報である第１の死活検出情報を送信する死活検出部とを備えると共に、
前記副演算制御手段が、前記ＯＳ動作状態確認装置からの命令に基づいて前記イベントログに新規イベントを付加すると共に予め定められた遅延時間が経過した後でこの新規イベントに前記処理済み情報が追記されているか否かを判断し、該処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す第２の死活検出情報を前記ＯＳ動作状態確認装置に対して送信するＩＰＭＩコマンド通信機能を備え、
前記ＯＳ動作状態確認装置が、
前記確認対象装置と定期的に通信を行ってこの定期的な通信が途切れた場合に前記確認対象装置に不具合が生じたと判断する確認対象装置死活検出部と、前記確認対象装置に対してネットワーク疎通確認用のピング（Ｐｉｎｇ）を送信するピング送信部と、前記確認対象装置に不具合が生じたと判断された場合に前記確認対象装置の前記副演算制御手段に対して前記イベントログに前記新規イベントを付加する命令を送信するＯＥＭイベント送信部とを備えると共に、
前記確認対象装置から前記第２の死活検出情報を受信した場合に前記ピング送信部に対して第１のピングの送信を指令する死活検出情報判定部と、
前記第１のピングに対する返信が前記確認対象装置から返って来た場合に前記確認対象装置の前記主演算制御手段が過負荷状態であると判断し、そうでない場合に前記確認対象装置の前記主演算制御手段がハングアップしていると判断して、この判断結果を外部に出力する不具合原因判断部とを有することを特徴とするＯＳ動作状態確認システム。

（付記２）前記不具合原因判断部が、前記確認対象装置から前記第２の死活検出情報を受信せずかつ前記第１の死活検出情報を受信した場合に前記確認対象装置の前記主演算制御手段の動作に特に問題はないと判断することを特徴とする、付記１に記載のＯＳ動作状態確認システム。

（付記３）前記死活検出情報判定部が、前記確認対象装置から前記第１および第２の死活検出情報をいずれも受信しない場合に前記ピング送信部に対して第２のピングの送信を指令し、
前記不具合原因判断部が、前記第２のピングに対する返信が前記確認対象装置から返って来た場合に前記確認対象装置の前記主演算制御手段が過負荷状態であると判断し、そうでない場合に前記確認対象装置との間のネットワークに恒久的な障害が発生したと判断することを特徴とする、付記２に記載のＯＳ動作状態確認システム。

（付記４）前記不具合原因判断部が、前記ＯＥＭイベント送信部が前記副演算制御手段に対して前記イベントログに前記新規イベントを付加する命令を送信した後に該命令に対する前記副演算制御手段からの応答が無い場合にこの副演算制御手段に障害が発生したと判断することを特徴とする、付記１に記載のＯＳ動作状態確認システム。

（付記５）前記不具合原因判断部が、前記第１のピングに対する返信が前記確認対象装置から返って来た場合に前記ＯＥＭイベント送信部に前記副演算制御手段に対して前記イベントログに前記新規イベントを書き込む命令を送信する処理を繰り返させて同一の判断結果が出るか否かを判断し、同一の判断結果が出れば前記主演算制御手段のユーザーモードがハングアップしていると判断することを特徴とする、付記１に記載のＯＳ動作状態確認システム。

（付記６）前記ＯＳ動作状態確認装置と前記確認対象装置の前記主演算制御手段との間が第１のネットワークによって接続され、
前記ＯＳ動作状態確認装置と前記確認対象装置の前記副演算制御手段との間が前記第１のネットワークとは異なる系統である第２のネットワークによって接続されていることを特徴とする、付記１に記載のＯＳ動作状態確認システム。

（付記７）ＯＳ動作状態確認装置と相互に接続されることによって、オペレーティングシステムの動作が正常であるか否かを前記ＯＳ動作状態確認装置の側から確認するＯＳ動作状態確認システムを構成する確認対象装置であって、
前記オペレーティングシステムを動作させる主演算制御手段と、
この主演算制御手段とは別個に動作して自らの動作情報を収集して前記ＯＳ動作状態確認装置に送信する副演算制御手段と、
前記主演算制御手段および前記副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段と、
前記主演算制御手段が正常に動作している間は前記イベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を追記すると同時に前記ＯＳ動作状態確認装置に対して当該動作状態の確認情報である第１の死活検出情報を送信する死活検出部とを備えると共に、
前記副演算制御手段が、前記ＯＳ動作状態確認装置からの命令に基づいて前記イベントログに新規イベントを付加すると共に予め定められた遅延時間が経過した後でこの新規イベントに前記処理済み情報が追記されているか否かを判断し、該処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す第２の死活検出情報を前記ＯＳ動作状態確認装置に対して送信するＩＰＭＩコマンド通信機能を備えることを特徴とする確認対象装置。

（付記８）オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して自らのハードウェアの動作についての情報を収集して外部装置に送信する副演算制御手段と、前記主演算制御手段および前記副演算制御手段の双方の動作内容を記録するイベントログを記憶した記憶手段とを備える確認対象装置と相互に接続されることによって、前記確認対象装置での前記オペレーティングシステムの動作が正常であるか否かを確認するＯＳ動作状態確認システムを構成するＯＳ動作状態確認装置であって、
前記確認対象装置と定期的に通信を行ってこの定期的な通信が途切れた場合に前記確認対象装置に不具合が生じたと判断する確認対象装置死活検出部と、
前記確認対象装置に対してネットワーク疎通確認用のピング（Ｐｉｎｇ）を送信するピング送信部と、
前記確認対象装置に不具合が生じたと判断された場合に前記確認対象装置の前記副演算制御手段に対して前記イベントログに前記新規イベントを付加する命令を送信するＯＥＭイベント送信部とを備えると共に、
前記確認対象装置から前記イベントログに書き込んだ前記新規イベントに対して予め定められた遅延時間が経過した後でも処理済み情報が書き込まれていないことを意味する死活検出情報を受信した場合に前記ピング送信部に対してピングの送信を指令する死活検出情報判定部と、
前記ピングに対する返信が前記確認対象装置から返って来た場合に前記確認対象装置の前記オペレーティングシステムが過負荷状態であると判断し、そうでない場合に前記確認対象装置の前記オペレーティングシステムがハングアップしていると判断して、この判断結果を外部に出力する不具合原因判断部を有することを特徴とするＯＳ動作状態確認装置。

（付記９）オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して前記確認対象装置の動作情報を収集して前記ＯＳ動作状態確認装置に送信する副演算制御手段と、前記主演算制御手段および前記副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段とを備える確認対象装置がＯＳ動作状態確認装置と相互に接続されることによって構成され、前記確認対象装置での前記オペレーティングシステムの動作が正常であるか否かを前記ＯＳ動作状態確認装置の側から確認するＯＳ動作状態確認システムにあって、
前記確認対象装置で主演算制御手段が正常に動作している間は前記イベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を前記確認対象装置の死活検出部が追記すると同時に前記ＯＳ動作状態確認装置に対して当該動作状態の確認情報である第１の死活検出情報を前記死活検出部が送信し、
前記ＯＳ動作状態確認装置と前記確認対象装置との間の定期的な通信が途切れた場合に前記確認対象装置に不具合が生じたと前記ＯＳ動作状態確認装置の前記確認対象装置死活検出部が判断し、
前記確認対象装置に不具合が生じたと判断された場合に前記確認対象装置の前記副演算制御手段に対して前記イベントログに新規イベントを付加する命令を前記ＯＳ動作状態確認装置のＯＥＭイベント送信部が送信し、
前記ＯＳ動作状態確認装置からの前記命令に反応した前記確認対象装置の前記副演算制御手段が前記イベントログに前記新規イベントを付加し、
予め定められた遅延時間が経過した後で前記確認対象装置の前記イベントログに付加した前記新規イベントに対して前記処理済み情報が追記されているか否かを前記副演算制御手段が判断し、
前記確認対象装置の前記イベントログに前記処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す第２の死活検出情報を前記ＯＳ動作状態確認装置に対して前記確認対象装置の前記副演算制御手段が送信し、
前記ＯＳ動作状態確認装置が前記確認対象装置から前記第２の死活検出情報を受信した場合に死活検出情報判定部がピング送信部を介して前記確認対象装置にネットワーク疎通確認用のピング（Ｐｉｎｇ）を送信し、
前記ピングに対する返信が前記確認対象装置から返って来た場合に前記確認対象装置の前記オペレーティングシステムが過負荷状態であると判断し、そうでない場合に前記確認対象装置の前記オペレーティングシステムがハングアップしていると前記ＯＳ動作状態確認装置の死活検出情報判定部が判断し、
この判断結果を前記ＯＳ動作状態確認装置の前記死活検出情報判定部が外部に出力することを特徴とするＯＳ動作状態確認方法。

（付記１０）オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して前記確認対象装置の動作情報を収集して前記ＯＳ動作状態確認装置に送信する副演算制御手段と、前記主演算制御手段および前記副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段とを備える確認対象装置がＯＳ動作状態確認装置と相互に接続されることによって構成され、前記確認対象装置での前記オペレーティングシステムの動作が正常であるか否かを前記ＯＳ動作状態確認装置の側から確認するＯＳ動作状態確認システムにあって、
前記ＯＳ動作状態確認装置が備えるコンピュータに、
前記ＯＳ動作状態確認装置と前記確認対象装置との間の定期的な通信が途切れた場合に前記確認対象装置に不具合が生じたと判断する手順、
前記確認対象装置に不具合が生じたと判断された場合に前記確認対象装置の前記副演算制御手段に対して前記イベントログに新規イベントを付加する命令を送信する手順、
前記確認対象装置から前記イベントログに付加した前記新規イベントに対して予め定められた遅延時間が経過した後でも処理済み情報が追記されていないことを意味する死活検出情報を受信した場合に前記確認対象装置にネットワーク疎通確認用のピング（Ｐｉｎｇ）を送信する手順、
前記ピングに対する返信が前記確認対象装置から返って来た場合に前記確認対象装置の前記オペレーティングシステムが過負荷状態であると判断し、そうでない場合に前記確認対象装置の前記オペレーティングシステムがハングアップしていると判断する手順、
およびこの判断結果を外部に出力する手順を、
実行させることを特徴とするＯＳ動作状態確認プログラム。

（付記１１）オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して前記確認対象装置の動作情報を収集して前記ＯＳ動作状態確認装置に送信する副演算制御手段と、前記主演算制御手段および前記副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段とを備える確認対象装置がＯＳ動作状態確認装置と相互に接続されることによって構成され、前記確認対象装置での前記オペレーティングシステムの動作が正常であるか否かを前記ＯＳ動作状態確認装置の側から確認するＯＳ動作状態確認システムにあって、
前記確認対象装置の主演算制御手段に、
前記確認対象装置で前記オペレーティングシステムが動作している間は前記イベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を追記する手順、
およびこれと同時に前記ＯＳ動作状態確認装置に対して当該動作状態の確認情報である死活検出情報を送信する手順、
を実行させることを特徴とするＯＳ動作状態確認プログラム。

（付記１２）オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して前記確認対象装置の動作情報を収集して前記ＯＳ動作状態確認装置に送信する副演算制御手段と、前記主演算制御手段および前記副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段とを備える確認対象装置がＯＳ動作状態確認装置と相互に接続されることによって構成され、前記確認対象装置での前記オペレーティングシステムの動作が正常であるか否かを前記ＯＳ動作状態確認装置の側から確認するＯＳ動作状態確認システムにあって、
前記副演算制御手段に、
前記ＯＳ動作状態確認装置からの命令に反応して予め定められた遅延時間を設定する手順、
前記イベントログに新規イベントを書き込む手順、
前記遅延時間が経過した後で前記確認対象装置の前記イベントログに書き込んだ前記新規イベントに対して前記処理済み情報が追記されているか否かを判断する手順、
および前記イベントログに前記処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す死活検出情報を前記ＯＳ動作状態確認装置に対して送信する手順、
を実行させることを特徴とするＯＳ動作状態確認プログラム。

遠隔地からネットワークを介してコンピュータの動作状態を把握する必要のある用途に対して幅広く適用できる。

１、５０１ＯＳ動作状態確認システム
１０、５１０ＯＳ動作状態確認装置
１１、２１主演算制御手段
１２、２２、２４ｂ記憶手段
１３ａ、１３ｂ、２３ａ、２３ｂ通信手段
１４表示手段
２０、２０ａ、２０ｂ、２０ｃ確認対象装置
２４ＢＭＣ（Baseboard Management Controller）
２４ａマイクロプロセッサ
３０ネットワーク
３１管理用ネットワーク
１０１確認対象装置死活検出部
１０２ＯＥＭイベント送信部
１０３ピング送信部
１０４死活検出情報判定部
１０５、６０５不具合原因判断部
２００ＯＳ
２０１死活検出部
２０１ａＩＰＭＩ命令機能
２０１ｂ管理通信機能
２０２ＩＰＭＩドライバ
２１０ＳＥＬ（System Event Log）
２１０ａ処理済み情報
２４１ＩＰＭＩコマンド通信機能
２４２ＳＥＬアクセス機能

Claims

ＯＳ動作状態確認装置と確認対象装置とが相互に接続されることによって構成され、前記確認対象装置におけるオペレーティングシステムの動作が正常であるか否かを前記ＯＳ動作状態確認装置の側から確認するＯＳ動作状態確認システムであって、
前記確認対象装置が、
前記オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して前記確認対象装置の動作情報を収集して前記ＯＳ動作状態確認装置に送信する副演算制御手段と、前記主演算制御手段および前記副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段と、前記主演算制御手段が正常に動作している間は前記イベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を追記すると同時に前記ＯＳ動作状態確認装置に対して自らの動作状態の確認情報である第１の死活検出情報を送信する死活検出部とを備えると共に、
前記副演算制御手段が、前記ＯＳ動作状態確認装置からの命令に基づいて前記イベントログに新規イベントを付加すると共に予め定められた遅延時間が経過した後でこの新規イベントに前記処理済み情報が追記されているか否かを判断し、該処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す第２の死活検出情報を前記ＯＳ動作状態確認装置に対して送信するＩＰＭＩコマンド通信機能を備え、
前記ＯＳ動作状態確認装置が、
前記確認対象装置と定期的に通信を行ってこの定期的な通信が途切れた場合に前記確認対象装置に不具合が生じたと判断する確認対象装置死活検出部と、前記確認対象装置に対してネットワーク疎通確認用のピング（Ｐｉｎｇ）を送信するピング送信部と、前記確認対象装置に不具合が生じたと判断された場合に前記確認対象装置の前記副演算制御手段に対して前記イベントログに前記新規イベントを付加する命令を送信するＯＥＭイベント送信部とを備えると共に、
前記確認対象装置から前記第２の死活検出情報を受信した場合に前記ピング送信部に対して第１のピングの送信を指令する死活検出情報判定部と、
前記第１のピングに対する返信が前記確認対象装置から返って来た場合に前記確認対象装置の前記主演算制御手段が過負荷状態であると判断し、そうでない場合に前記確認対象装置の前記主演算制御手段がハングアップしていると判断して、この判断結果を外部に出力する不具合原因判断部とを有することを特徴とするＯＳ動作状態確認システム。
前記不具合原因判断部が、前記確認対象装置から前記第２の死活検出情報を受信せずかつ前記第１の死活検出情報を受信した場合に前記確認対象装置の前記主演算制御手段の動作に特に問題はないと判断することを特徴とする、請求項１に記載のＯＳ動作状態確認システム。
前記死活検出情報判定部が、前記確認対象装置から前記第１および第２の死活検出情報をいずれも受信しない場合に前記ピング送信部に対して第２のピングの送信を指令し、
前記不具合原因判断部が、前記第２のピングに対する返信が前記確認対象装置から返って来た場合に前記確認対象装置の前記主演算制御手段が過負荷状態であると判断し、そうでない場合に前記確認対象装置との間のネットワークに恒久的な障害が発生したと判断することを特徴とする、請求項２に記載のＯＳ動作状態確認システム。
前記不具合原因判断部が、前記ＯＥＭイベント送信部が前記副演算制御手段に対して前記イベントログに前記新規イベントを付加する命令を送信した後に該命令に対する前記副演算制御手段からの応答が無い場合にこの副演算制御手段に障害が発生したと判断することを特徴とする、請求項１に記載のＯＳ動作状態確認システム。
前記不具合原因判断部が、前記第１のピングに対する返信が前記確認対象装置から返って来た場合に前記ＯＥＭイベント送信部に前記副演算制御手段に対して前記イベントログに前記新規イベントを書き込む命令を送信する処理を繰り返させて同一の判断結果が出るか否かを判断し、同一の判断結果が出れば前記主演算制御手段のユーザーモードがハングアップしていると判断することを特徴とする、請求項１に記載のＯＳ動作状態確認システム。
ＯＳ動作状態確認装置と相互に接続されることによって、オペレーティングシステムの動作が正常であるか否かを前記ＯＳ動作状態確認装置の側から確認するＯＳ動作状態確認システムを構成する確認対象装置であって、
前記オペレーティングシステムを動作させる主演算制御手段と、
この主演算制御手段とは別個に動作して自らの動作情報を収集して前記ＯＳ動作状態確認装置に送信する副演算制御手段と、
前記主演算制御手段および前記副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段と、
前記主演算制御手段が正常に動作している間は前記イベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を追記すると同時に前記ＯＳ動作状態確認装置に対して自らの動作状態の確認情報である第１の死活検出情報を送信する死活検出部とを備えると共に、
前記副演算制御手段が、前記ＯＳ動作状態確認装置からの命令に基づいて前記イベントログに新規イベントを付加すると共に予め定められた遅延時間が経過した後でこの新規イベントに前記処理済み情報が追記されているか否かを判断し、該処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す第２の死活検出情報を前記ＯＳ動作状態確認装置に対して送信するＩＰＭＩコマンド通信機能を備えることを特徴とする確認対象装置。
オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して自らのハードウェアの動作についての情報を収集して外部装置に送信する副演算制御手段と、前記主演算制御手段および前記副演算制御手段の双方の動作内容を記録するイベントログを記憶した記憶手段とを備える確認対象装置と相互に接続されることによって、前記確認対象装置での前記オペレーティングシステムの動作が正常であるか否かを確認するＯＳ動作状態確認システムを構成するＯＳ動作状態確認装置であって、
前記確認対象装置と定期的に通信を行ってこの定期的な通信が途切れた場合に前記確認対象装置に不具合が生じたと判断する確認対象装置死活検出部と、
前記確認対象装置に対してネットワーク疎通確認用のピング（Ｐｉｎｇ）を送信するピング送信部と、
前記確認対象装置に不具合が生じたと判断された場合に前記確認対象装置の前記副演算制御手段に対して前記イベントログにその不具合を新規イベントとして付加する命令を送信するＯＥＭイベント送信部とを備えると共に、
前記確認対象装置から前記イベントログに書き込んだ前記新規イベントに対して予め定められた遅延時間が経過した後でも処理済み情報が書き込まれていないことを意味する死活検出情報を受信した場合に前記ピング送信部に対してピングの送信を指令する死活検出情報判定部と、
前記ピングに対する返信が前記確認対象装置から返って来た場合に前記確認対象装置の前記オペレーティングシステムが過負荷状態であると判断し、そうでない場合に前記確認対象装置の前記オペレーティングシステムがハングアップしていると判断して、この判断結果を外部に出力する不具合原因判断部を有することを特徴とするＯＳ動作状態確認装置。
オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して自らの動作情報を収集してＯＳ動作状態確認装置に送信する副演算制御手段と、前記主演算制御手段および前記副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段とを備える確認対象装置が前記ＯＳ動作状態確認装置と相互に接続されることによって構成され、前記確認対象装置での前記オペレーティングシステムの動作が正常であるか否かを前記ＯＳ動作状態確認装置の側から確認するＯＳ動作状態確認システムにあって、
前記確認対象装置で主演算制御手段が正常に動作している間は前記イベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を前記確認対象装置の死活検出部が追記すると同時に前記ＯＳ動作状態確認装置に対して自らの動作状態の確認情報である第１の死活検出情報を前記死活検出部が送信し、
前記ＯＳ動作状態確認装置と前記確認対象装置との間の定期的な通信が途切れた場合に前記確認対象装置に不具合が生じたと前記ＯＳ動作状態確認装置の前記確認対象装置死活検出部が判断し、
前記確認対象装置に不具合が生じたと判断された場合に前記確認対象装置の前記副演算制御手段に対して前記イベントログに新規イベントを付加する命令を前記ＯＳ動作状態確認装置のＯＥＭイベント送信部が送信し、
前記ＯＳ動作状態確認装置からの前記命令に反応した前記確認対象装置の前記副演算制御手段が前記イベントログに前記新規イベントを付加し、
予め定められた遅延時間が経過した後で前記確認対象装置の前記イベントログに付加した前記新規イベントに対して前記処理済み情報が追記されているか否かを前記副演算制御手段が判断し、
前記確認対象装置の前記イベントログに前記処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す第２の死活検出情報を前記ＯＳ動作状態確認装置に対して前記確認対象装置の前記副演算制御手段が送信し、
前記ＯＳ動作状態確認装置が前記確認対象装置から前記第２の死活検出情報を受信した場合に死活検出情報判定部がピング送信部を介して前記確認対象装置にネットワーク疎通確認用のピング（Ｐｉｎｇ）を送信し、
前記ピングに対する返信が前記確認対象装置から返って来た場合に前記確認対象装置の前記オペレーティングシステムが過負荷状態であると判断し、そうでない場合に前記確認対象装置の前記オペレーティングシステムがハングアップしていると前記ＯＳ動作状態確認装置の死活検出情報判定部が判断し、
この判断結果を前記ＯＳ動作状態確認装置の前記死活検出情報判定部が外部に出力することを特徴とするＯＳ動作状態確認方法。
オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して前記確認対象装置の動作情報を収集して前記ＯＳ動作状態確認装置に送信する副演算制御手段と、前記主演算制御手段および前記副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段とを備える確認対象装置がＯＳ動作状態確認装置と相互に接続されることによって構成され、前記確認対象装置での前記オペレーティングシステムの動作が正常であるか否かを前記ＯＳ動作状態確認装置の側から確認するＯＳ動作状態確認システムにあって、
前記ＯＳ動作状態確認装置が備えるコンピュータに、
前記ＯＳ動作状態確認装置と前記確認対象装置との間の定期的な通信が途切れた場合に前記確認対象装置に不具合が生じたと判断する手順、
前記確認対象装置に不具合が生じたと判断された場合に前記確認対象装置の前記副演算制御手段に対して前記イベントログに新規イベントを付加する命令を送信する手順、
前記確認対象装置から前記イベントログに付加した前記新規イベントに対して予め定められた遅延時間が経過した後でも処理済み情報が追記されていないことを意味する死活検出情報を受信した場合に前記確認対象装置にネットワーク疎通確認用のピング（Ｐｉｎｇ）を送信する手順、
前記ピングに対する返信が前記確認対象装置から返って来た場合に前記確認対象装置の前記オペレーティングシステムが過負荷状態であると判断し、そうでない場合に前記確認対象装置の前記オペレーティングシステムがハングアップしていると判断する手順、
およびこの判断結果を外部に出力する手順を、
実行させることを特徴とするＯＳ動作状態確認プログラム。