JP2006268310A

JP2006268310A - 障害監視装置および方法およびプログラム

Info

Publication number: JP2006268310A
Application number: JP2005084148A
Authority: JP
Inventors: Ryosuke Takeuchi; 良輔竹内
Original assignee: NEC Corp; NEC Communication Systems Ltd
Current assignee: NEC Corp; NEC Communication Systems Ltd
Priority date: 2005-03-23
Filing date: 2005-03-23
Publication date: 2006-10-05

Abstract

【課題】ハードウェア規模が大きくなった場合でも一定のＣＰＵ負荷にて対応し、保守機能が他の通常的に実施する処理に与える影響を軽減化する。
【解決手段】複数の監視対象を複数のグループに分割し、この複数のグループに対して監視周期に基づき循環的に障害の有無の監視を実行し、この実行に際して障害監視装置の負荷の状況に応じて監視周期またはグループ規模を変更する。例えば、障害監視装置が過負荷状態であるときには、監視周期またはグループ数を拡大させる。
【選択図】図１

Description

本発明は、複数の監視対象を一元的に監視する装置に利用する。特に、一つのＣＰＵ(Central
Processing Unit)内で障害監視処理と通常処理とを並行して行う場合のＣＰＵ負荷を低減する技術に関する。

従来の障害監視装置の一般的な考え方は、一つのハードウェア障害監視処理機能にて各監視対象に対するポーリング監視を実現して一括管理していた。

すなわち、図９に示すように、１つのタイマＴ１からの通知（Ｍ１）により、ハードウェア障害監視処理機能が起動され、監視処理（Ｃ１）を実行し、全てのハードウェア監視対象Ｇの障害発生状況を確認する構成にて実現していた。

図７に示したような、ハードウェア障害監視処理機能は、ハードウェア障害監視処理以外の処理も並行して実行しているＣＰＵの機能の一部として実現される。

なお、本明細書では、括弧付きの符号は処理または機能（ソフトウェア）を指すものとし、括弧無しの符号は装置または回路（ハードウェア）を指すものとする。

このような従来技術には、次のような問題点があった。

第一の問題点は、監視対象の増加による管理が煩雑化するということである。

その理由は、集積技術の向上に伴う回路規模の増大化によるためである。技術の向上する昨今において、回路規模が増大化し、それに伴い監視すべき機能部が増加してしまう。監視対象が増加した場合には、それぞれの要因を管理するため、ソフトウェア構成が複雑化、煩雑化する可能性が発生してしまう。

第二の問題点は、監視対象の増加に伴う通常処理への影響増加ということである。

その理由は、監視項目の増加に伴い、保守監視処理のＣＰＵ占有の時間が無視できなくなるためである。保守監視動作は、定常的に動作する機能である。しかし、リアルタイム処理を実現する上では、他の処理への効率的な切替えが必要となる。監視対象が増加した場合に、従来の構成ではＣＰＵ占有時間が伸長してしまう。

第三の問題点は、安易な構成変更が許されないということである。

その理由は、例えば、監視対象毎に監視周期を変更しようとしても、タイマＴ１、通知（Ｍ１）、監視（Ｃ１）のみの簡素な構成のため、処理変更に伴うプログラムの修正規模が増加する。また、実現できたとしても、ハードウェア障害監視処理機能が複雑化してしまう。

第四の問題点は、監視周期が異なる監視対象を管理することが、困難であるということである。

その理由は、タイマを１つしか使用しない構成であるため、より精度の高く、よりリアルタイム性のある監視を実施しようとすることが困難になってしまう。

本発明は、このような背景の下に行われたものであって、ハードウェア規模が大きくなった場合でも一定のＣＰＵ負荷にて対応でき、保守機能が他の通常的に実施する処理に与える影響を軽減化できる障害監視装置および方法を提供することを目的とする。

本発明は、肥大化するハードウェア構成におけるハードウェア障害監視処理においてＣＰＵに対する負荷を低減できる障害監視装置を提供するものである。

本発明の原理を図１を参照して説明する。図１は本発明の障害監視方法の処理機能の構成図である。図１において、タイマＴ１〜Ｔｎは、一定の間隔が経過したことをハードウェア障害監視処理機能に通知（Ｍ１〜Ｍｎ）する。タイマＴ１〜Ｔｎより通知（Ｍ１〜Ｍｎ）を受けたハードウェア障害監視処理機能は、監視対象群Ｇ１〜Ｇｎの状態を参照し、障害が発生していないか各監視対象を確認する。

監視対象群Ｇ１〜Ｇｎはそれぞれ、監視対象Ｏ１〜Ｏ４、監視対象Ｏ５〜Ｏ８、監視対象Ｏ９〜Ｏ１２、…、監視対象Ｏｍ−３〜Ｏｍにて構成される。

通知（Ｍ１〜Ｍｎ）にて行う監視処理（Ｃ１〜Ｃｎ）は、それぞれ１対１の関係を持つ。すなわち、タイマＴ１〜Ｔｎ、通知（Ｍ１〜Ｍｎ）、監視処理（Ｃ１〜Ｃｎ）、監視対象群Ｇ１〜Ｇｎは、タイマＴｎを契機に１つずつ通知（Ｍｎ）を発生し、ハードウェア障害監視処理機能にて監視対象群Ｇｎの障害監視を監視処理（Ｃｎ）にて行う構成である。

また、図２は本発明の通知周期を示す図であるが、図２において、タイマＴ１〜Ｔｎのそれぞれは、周期Ｆ２にてハードウェア障害監視処理機能への任意の通知（Ｍｎ−１）と（Ｍｎ）との間隔を維持する。また、同一のタイマ、例えばタイマＴ１は、通知（Ｍ１）と通知（Ｍ１）の通知間隔を周期Ｆ１にて維持する。

タイマＴ１〜Ｔｎは、それぞれの通知間隔Ｆ１およびＦ２を維持し、同順序にて通知（Ｍ１〜Ｍｎ）を繰り返しハードウェア障害監視処理機能へ通知する。

図１および図２に示す構成を適用することで、ハードウェア障害監視処理機能がハードウェアの状態を把握するための監視動作にて、ＣＰＵの占有時間を短くすることが可能になる。このようにして、ＣＰＵ負荷の低減を可能にし、本来実施すべき処理に与える影響を小規模にする。

さらに詳細には、ＣＰＵ負荷検出処理によって、ＣＰＵの負荷を検出し、ＣＰＵの負荷が過負荷である場合には、例えば、通知周期制御処理を行い、図２に示す周期Ｆ１またはＦ２の拡大を図る。これにより、ＣＰＵが監視を行う頻度が低くなり、ＣＰＵの負荷を低減させることができる。あるいは、ＣＰＵの負荷が過負荷である場合には、グループ化制御処理を行い、グループの細分化を図る。これにより、１グループ当たりに含まれる監視対象数が減るので、監視に要する負荷（占有時間）を短縮させることができる。また、１グループ当たりの監視に要する負荷（占有時間）を短縮させておいて、さらに、前述したように、周期Ｆ１またはＦ２の拡大を図ることもできる。

反対に、ＣＰＵの負荷に余裕がある場合には、周期Ｆ１またはＦ２を縮小したり、あるいは、グループを統合化して１グループ当たりの監視に要する負荷（占有時間）を増大させ、１グループ当たりの監視対象数を増やすことにより、ＣＰＵの負荷が過負荷にならない範囲内で最大限に監視効率を高めることができる。

このようにして、ＣＰＵの負荷を自在に調節することができる。

すなわち、本発明の第一の観点は、複数の監視対象を一元的に監視する障害監視装置であって、本発明の特徴とするところは、自己の負荷を検出する負荷検出手段と、前記複数の監視対象を複数のグループに分割するグループ化制御手段と、この複数のグループに対して監視周期に基づき循環的に障害の有無の監視を実行する監視手段と、この監視周期を生成する監視周期生成手段と、前記負荷検出手段の検出結果に応じて前記監視周期生成手段または前記グループ化制御手段を制御して前記監視周期または前記グループ規模を変更する手段とを備えたところにある。

例えば、前記監視周期生成手段は、前記グループ数と同数以上のタイマにより構成され、個々のタイマには、それぞれ一つのグループが割当てられ、個々のタイマは、自己に割当てられたグループに対する監視周期を個々に生成する手段を備え、この監視周期は、自己に割当てられたグループに対する監視実行開始時間間隔および自己に割当てられたグループの監視実行開始時刻と自己に割当てられたグループの後に監視を実行する隣接する他グループの監視実行開始時刻との時間間隔を含む。

また、前記変更する手段は、例えば、前記負荷検出手段の検出結果が過負荷を示すときには、前記監視周期または前記グループ数を拡大させる手段を備える。

また、本発明の障害監視装置が複数並列に接続され、これらの障害監視装置相互間には通信手段が設けられ、前記グループは、いずれか一つの障害監視装置に割当てられる障害監視システムとして構成することもできる。

これによれば、複数の障害監視装置が連携して動作することができるため、多種多様な監視形態に柔軟に対応することができる。

例えば、複数の障害監視装置には、それぞれに優先順位が設けられ、優先順位が高い障害監視装置ほど、障害監視に要する処理時間がより長く設けられ、優先順位が高い障害監視装置ほど、より高い監視優先度を有する監視対象を含むグループが割当てられるようにすれば、ＣＰＵを占有する時間を長く要する監視処理とＣＰＵを占有する時間が短くてよい監視処理とを明確に区別することができるため、ＣＰＵ負荷の配分の調節が容易になる。

本発明の第二の観点は、複数の監視対象を障害監視装置を用いて一元的に監視する障害監視方法であって、本発明の特徴とするところは、前記複数の監視対象を複数のグループに分割し、この複数のグループに対して監視周期に基づき循環的に障害の有無の監視を実行し、この実行に際して前記障害監視装置の負荷の状況に応じて前記監視周期または前記グループ規模を変更するところにある。

例えば、前記グループ数と同数のタイマによって前記監視周期が生成され、この生成に際し、個々のタイマには、それぞれ一つのグループが割当てられ、個々のタイマは、自己に割当てられたグループに対する監視周期を個々に生成し、この監視周期は、自己に割当てられたグループに対する監視実行開始時間間隔および自己に割当てられたグループの監視実行開始時刻と自己に割当てられたグループの後に監視を実行する隣接する他グループの監視実行開始時刻との時間間隔を含む。

また、例えば、前記障害監視装置が過負荷状態であるときには、前記監視周期または前記グループ数を拡大させる。

また、本発明の障害監視装置を複数並列に接続し、これらの障害監視装置が相互に通信を行うことにより連携して動作し、前記グループは、いずれかの障害監視装置に割当てられるようにすることもできる。

これにより、例えば、複数の障害監視装置には、それぞれに優先順位が設けられ、優先順位が高い障害監視装置ほど、障害監視に要する処理時間がより長く設けられ、優先順位が高い障害監視装置ほど、より高い監視優先度を有する監視対象を含むグループが割当てられるようにすることができる。

本発明の第三の観点は、複数の監視対象を一元的に監視する障害監視装置に適用されるプログラムであって、本発明の特徴とするところは、情報処理装置にインストールすることにより、その情報処理装置に、自己の負荷を検出する負荷検出機能と、前記複数の監視対象を複数のグループに分割するグループ化制御機能と、この複数のグループに対して監視周期に基づき循環的に障害の有無の監視を実行する監視機能と、この監視周期を生成する監視周期生成機能と、前記負荷検出機能の検出結果に応じて前記監視周期生成機能または前記グループ化制御機能を制御して前記監視周期または前記グループ規模を変更する機能とを実現させるところにある。

例えば、前記監視周期生成機能として、前記グループ数と同数以上のタイマ機能を実現させ、個々のタイマ機能には、それぞれ一つのグループが割当てられ、個々のタイマ機能として、自己に割当てられたグループに対する監視周期を個々に生成する機能を実現させ、この監視周期は、自己に割当てられたグループに対する監視実行開始時間間隔および自己に割当てられたグループの監視実行開始時刻と自己に割当てられたグループの後に監視を実行する隣接する他グループの監視実行開始時刻との時間間隔を含む。

また、前記変更する機能として、例えば、前記負荷検出機能の検出結果が過負荷を示すときには、前記監視周期または前記グループ数を拡大させる機能を実現させる。

これにより、汎用の情報処理装置を用いて本発明の障害監視装置を実現させ、本発明の障害監視方法を実行させることができる。

第一の効果は、ハードウェア規模が大きくなった場合でも一定のＣＰＵ負荷にて対応できることにある。

その理由は、ハードウェア規模の増大による監視項目が増大しても監視するグループ数が増えるのみであり、監視周期の制御と監視対象のグループ化を実施することで、保守監視動作におけるＣＰＵ負荷（占有時間）を意図的に調節することが可能なためである。

第二の効果は、保守機能が他の通常的に実施する処理に与える影響を軽減化できることにある。

その理由は、任意の通知にて実施する処理が、ＣＰＵの占有時間を短くすることで、後発の通常処理実施までの遅延時間が短くなるためである。例えば、グループを細分化し、一つのグループに含まれる監視対象数を減らすことにより、任意の通知にて実施する処理時間を短縮し、ＣＰＵの占有時間を短縮することができる。

第三の効果は、監視対象をグループ化することによるメンテナンス性の向上が期待できることにある。

その理由は、監視項目が膨大にあった場合でも、意味を持たせたグループ化を実現でき、監視対象の追加や削除が容易なためである。

第四の効果は、監視対象毎、監視対象グループ毎に監視周期を変更することが容易であることにある。

その理由は、複数のタイマを使用して管理するため、監視周期に差分を設け、障害に応じた監視を実施させることが容易である。監視周期を細かく調節することを実現するため、保守監視におけるリアルタイム性を向上させ、システムに影響を与える可能性のある障害等の監視に適している。

従来の手法では、ＣＰＵの占有時間は、監視対象の分量に依存していた。仮に、監視対象の分量が少ない場合には、単純に一度の処理にて全ての監視対象の障害発生状況を取得し、処理することが可能であった。しかし、監視対象の分量が多くなってしまう場合には、前述の動作をそのまま適用すると保守監視処理が動作している時間が長くなってしまい、監視動作中は、他の処理が動作できなくなってしまう。本発明の適用にて従来の手法では実現できない上記効果を得ることが可能になる。

（第一実施例）
本発明第一実施例の障害監視装置および障害監視方法を図３および図４を参照して説明する。図３は本実施例の障害監視装置のブロック構成図である。図４は本実施例のＣＰＵ負荷調節手順を示すフローチャートである。

本実施例は、図３に示すように、複数の監視対象としての末端機能部Ｈ１〜Ｈ２１を一元的に監視する障害監視装置としての機能を含むＣＰＵであって、本実施例の特徴とするところは、自己の負荷を検出するＣＰＵ負荷検出部１と、末端機能部Ｈ１〜Ｈ２１を複数のグループに分割するグループ化制御部２と、この複数のグループに対して監視周期に基づき循環的に障害の有無の監視を実行する監視処理部４と、この監視周期を生成するハードウェアタイマ群ＨＴ１と、ＣＰＵ負荷検出部１の検出結果に応じてハードウェアタイマ群ＨＴ１またはグループ化制御部２を制御して前記監視周期または前記グループ規模を変更するＣＰＵ負荷調節部３とを備えたところにある。

ハードウェアタイマ群ＨＴ１は、前記グループ数と同数以上のタイマにより構成され、個々のタイマには、それぞれ一つのグループが割当てられ、個々のタイマは、自己に割当てられたグループに対する監視周期を個々に生成する手段を備え、この監視周期は、図２で説明したように、自己に割当てられたグループに対する監視実行開始時間間隔（周期Ｆ１）および自己に割当てられたグループの監視実行開始時刻と自己に割当てられたグループの後に監視を実行する隣接する他グループの監視実行開始時刻との時間間隔（周期Ｆ２）を含む。

また、ＣＰＵ負荷調節部３は、ＣＰＵ負荷検出部１の検出結果が過負荷を示すときには、前記監視周期または前記グループ数を拡大させる手段を備える。

すなわち、本実施例の障害監視方法は、複数の監視対象としての末端機能部Ｈ１〜Ｈ２１を複数のグループに分割し、この複数のグループに対して監視周期に基づき循環的に障害の有無の監視を実行し、この実行に際してＣＰＵの負荷の状況に応じて前記監視周期または前記グループ規模を変更することを特徴とする。

前記グループ数と同数のタイマによって前記監視周期が生成され、この生成に際し、個々のタイマには、それぞれ一つのグループが割当てられ、個々のタイマは、自己に割当てられたグループに対する監視周期を個々に生成し、この監視周期は、自己に割当てられたグループに対する監視実行開始時間間隔（周期Ｆ１）および自己に割当てられたグループの監視実行開始時刻と自己に割当てられたグループの後に監視を実行する隣接する他グループの監視実行開始時刻との時間間隔（周期Ｆ２）を含む。

ＣＰＵが過負荷状態であるときには、前記監視周期または前記グループ数を拡大させる。すなわち、図４に示すように、ＣＰＵ負荷検出部１によりＣＰＵ負荷（占有時間）を検出し（Ｓ１）、その負荷量が適正値よりも大きい場合には（Ｓ２）、通知周期Ｆ１またはＦ２を拡大する（Ｓ３）。また、その負荷量が適正値よりも小さい場合には（Ｓ２）、通知周期Ｆ１またはＦ２を縮小する（Ｓ４）。ステップＳ３またはＳ４を実行した後に、再び、ＣＰＵ負荷検出部１によりＣＰＵ負荷（占有時間）を検出し（Ｓ５）、その負荷量が未だ適正値よりも大きい場合には（Ｓ６）、グループを細分化してグループ数を拡大させる（Ｓ７）。また、その負荷量が適正値よりも小さい場合には（Ｓ６）、グループを統合化してグループ数を縮小させる（Ｓ８）。

図４において、通知周期の制御をグループ制御に先行して行った理由は、通知周期の制御の方がグループ制御と比較して容易に実行可能だからである。すなわち、通知周期の制御は、タイマＴ１〜Ｔｎの設定値を変更するだけでよいが、グループ制御は、集積回路Ａ１〜Ａ４と末端機能部Ｈ１〜Ｈ２１との接続関係を変更する必要があり、この変更は、集積回路Ａ１〜Ａ４と末端機能部Ｈ１〜Ｈ２１との間に挿入されたスイッチング回路５の方路変更によって行うが、タイマＴ１〜Ｔｎの設定値を変更する場合と比較して処理に要する負荷および時間を多く必要とする。しかし、通知周期の制御またはグループ制御のいずれを先行させるかについてはいずれでもよい。あるいは、他の実施例として、通知周期の制御およびグループ制御の双方を並行して同時に行ってもよい。

また、本実施例は、汎用の情報処理装置にインストールすることにより、その情報処理装置に本実施例の障害監視装置に相応する機能を実現させるプログラムとして実現することができる。このプログラムは、記録媒体に記録されて情報処理装置にインストールされ、あるいは通信回線を介して情報処理装置にインストールされることにより当該情報処理装置に、ＣＰＵ負荷検出部１、グループ化制御部２、ＣＰＵ負荷調節部３、監視処理部４にそれぞれ相応する機能を実現させることができる。

本実施例では、当該情報処理装置はＣＰＵに相当し、ＣＰＵが障害監視装置の機能を含むとして説明を行っているため、ＣＰＵの制御部または演算部に、本実施例のプログラムがあらかじめ別のインストール機器によってインストールされた後、当該ＣＰＵは装置内に実装されているものとする。

以下では、本実施例をさらに詳細に説明する。

図３を参照すると、本実施例の障害監視装置は、以下のような機能を含む。

・プログラム制御により動作するプロセッサ（以下、ＣＰＵ）
・一定周期でカウントアップし、カウンタ値満了に伴いＣＰＵに対して、割込みを発生させるタイマＴ１〜Ｔｎを保有するハードウェアタイマ群ＨＴ１
・末端機能部Ｈ１〜Ｈ２１からの動作状況を集約しＣＰＵからの参照を可能にする集積回路Ａ１〜Ａ４
・当該ハードウェアにて実現する機能を保有する末端機能部Ｈ１〜Ｈ２１
・タイマＴ１〜Ｔｎはそれぞれ識別可能である
なお、タイマＴ１〜Ｔｎは、本実施例ではｎ個の独立したタイマとして説明を行うが、独立したタイマＴ１〜Ｔｎに相当する機能を有する一つのタイマとして実現してもよい。

また、上記の各機能部間の関係を以下に示す。

・タイマＴ１〜Ｔｎは、カウンタの満了をチェックし、カウンタ満了時にＣＰＵに対して障害監視開始タイミングを通知するための割込みを発生させる
・割込みを受けたＣＰＵは、ハードウェアタイマ群ＨＴ１を参照し、タイマＴ１〜Ｔｎの内、どのタイマが満了したのかを識別可能である
・集積回路Ａ１〜Ａ４は、末端機能部Ｈ１〜Ｈ２１より常時提供される自機能部の状態を自集積回路内に保持する
・ＣＰＵは、集積回路内の状態を参照し、当該ハードウェアにて保有する全末端機能部の状態を監視することが可能である
また、集積回路Ａ１〜Ａ４と末端機能部Ｈ１〜Ｈ２１との間には、これらの接続関係を適宜変更することができるスイッチング回路５を設ける。このスイッチング回路５は、グループ化制御部２の制御によって末端機能部Ｈ１〜Ｈ２１をグループ化し、各グループを集積回路Ａ１〜Ａ４のいずれかにそれぞれ接続する。

図５は、本実施例の障害監視方法のソフトウェア構成を示す図である。本実施例の障害監視方法のソフトウェア構成は、以下のような機能を含む。

・タイマＴ１〜ＴｎからＣＰＵに通知される割込みを検出し、タイマ識別処理（Ｄ１）に対して通知する割込み検出処理（Ｉ１）
・割込み検出処理（Ｉ１）により通知を受け、ハードウェアタイマ群ＨＴ１のタイマＴ１〜Ｔｎの内のどのタイマが満了したのか判断するタイマ識別処理（Ｄ１）
・タイマ識別処理（Ｄ１）によりどのタイマの満了かを認識した後、タイマ毎に対応付けられた監視対象を確認するタイマＴ１〜Ｔ４用監視処理（Ｐ１〜Ｐ４）
・タイマＴ１〜Ｔ４用監視処理（Ｐ１〜Ｐ４）により異常を検出した際に異常毎に処理を行う異常検出時処理（ＰＥＩ）

次に、図６の第一実施例の障害監視方法の手順を示すフローチャートを参照して本実施例の全体の動作について詳細を説明する。まず、ハードウェア的にハードウェアタイマ群にてタイマ満了検出（Ｉ）が行われ、ＣＰＵに対して割込みを発行する。割込みを検出したＣＰＵは、タイマ識別処理（Ｄ１）を行い、満了したタイマ番号を取得する。タイマ番号取得後、タイマ番号識別処理（ＣＴ）を行い、該当するタイマ番号を認識し、該当する処理を選択する。

例えば、タイマＴ１が満了した場合は、末端機能部状況確認（Ｂ１）を行い、集積回路Ａ１が保有する末端機能部Ｈ１の状態を取得する。集積回路Ａ１より取得した末端機能部Ｈ１の状態が、正常状態を示すのか、異常状態を示すのかを正常判定（Ｅ１）にて行う。正常状態を示す場合は、引き続き集積回路Ａ１より末端機能部Ｈ２の状態を取得し、末端機能部Ｈ１のときと同様に状態を判断する。以降、集積回路Ａ１が保有する各末端機能部Ｈ１〜Ｈ５の状態に異常が存在しない場合は、処理を終了する。他のタイマＴ２〜Ｔ４が満了した場合も同様に、タイマ番号識別処理（ＣＴ）にてタイマ番号毎の処理を選択し上記要領にて実施する。

仮に、末端機能部Ｈ７にて異常が発生し、集積回路Ａ２に対する状態更新（Ｓ）が発生した場合は、次回タイマＴ２が満了した際に、上記要領にて検出することが可能である。ハードウェアタイマ群がタイマ満了検出（Ｉ）にて割込みをＣＰＵに対して発行する。割込みを受けたＣＰＵは、タイマ識別処理（Ｄ１）を実施し、タイマ満了したタイマ番号を取得する。取得したタイマ番号をタイマ番号識別処理（ＣＴ）にて判断する。タイマ番号識別処理（ＣＴ）にてタイマＴ２のタイマが満了したことを認識し、末端機能部状況確認（Ｂ６）を実施する。集積回路Ａ２より取得した末端機能部Ｈ６の状態が、正常状態を示すのか、異常状態を示すのかを正常判定（Ｅ６）にて行う。引き続き末端機能部状況確認（Ｂ７）を実施し、末端機能部Ｈ７の状態を取得する。状態更新（Ｓ）にて異常状態が、集積回路Ａ２に保持されているため、正常判定（Ｅ７）にて異常を検出する。異常を検出した場合は、末端機能部Ｈ７に従った異常要因毎処理（ＰＥ）を実施する。異常要因毎処理（ＰＥ）を実施後、処理を終了する。

（第二実施例）
本発明第二実施例について図７を参照して詳細に説明する。

図７は第二実施例の障害監視装置の構成を示す図である。図７を参照すると、本実施例は、図１に示す構成を２つ保有し、ハードウェアの監視処理を実現する。各ハードウェア障害監視処理機能（ＨＣ１）、（ＨＣ２）は、管理する監視対象を二分し、障害の監視処理を実施する。また、各ハードウェア障害監視処理機能（ＨＣ１）、（ＨＣ２）は、相互にインタフェースを保有する。

インタフェースとなる機能部間通知（ＴＭ１）、（ＴＭ２）は、各タイマに依存せずにお互いの処理を起動することができる。例えば、ハードウェア障害監視処理機能（ＨＣ１）の内部で監視して検出した障害を機能部間通知（ＴＭ１）にて、ハードウェア障害監視処理機能（ＨＣ２）に通知し、同機能部で監視している、かつ、ハードウェア障害監視処理機能（ＨＣ１）で検出した監視対象と関係する監視対象への監視処理を省略することで、保守監視処理におけるＣＰＵの占有時間を短縮化することが可能である。

また、ハードウェア障害監視処理機能（ＨＣ１）とハードウェア障害監視処理機能（ＨＣ２）との関係は、ハードウェア障害監視処理機能（ＨＣ１）が、優先的に監視すべき対象を管理して監視し、それに対してハードウェア障害監視処理機能（ＨＣ２）は、他の即応性が求められる処理よりも低く実施することが可能な監視対象を管理する。

これにより、監視対象の特性に応じてハードウェア障害監視処理間の処理優先度を決定し、関係付けることでさらにＣＰＵの占有時間を短縮化することができる。例えば、ＣＰＵの負荷が高いときには、優先的に監視すべき対象のみの監視処理だけを実行し、それ以外の監視処理をＣＰＵの負荷が平常値に戻るまでの期間に限り休止させるといった制御を行うことができる。

当該他の実施例のブロック構成を図８を参照して説明する。図２に示す構成におけるＣＰＵおよびハードウェアタイマ群をそれぞれ２個ずつ有する構成である。

本発明によれば、ハードウェア規模が大きくなった場合でも一定のＣＰＵ負荷にて対応でき、また、保守機能が他の通常的に実施する処理に与える影響を軽減化でき、また、監視対象をグループ化することによるメンテナンス性の向上が期待でき、また、監視対象毎、監視対象グループ毎に監視周期を変更することが容易であるため、効率の良いＣＰＵの運用を可能とする。

本発明の障害監視方法の処理機能の構成図。本発明の通知周期を示す図。第一実施例の障害監視装置のブロック構成図。第一実施例のＣＰＵ負荷調節手順を示すフローチャート。第一実施例の障害監視方法のソフトウェア構成を示す図。第一実施例の障害監視方法の手順を示すフローチャート。第二実施例の障害監視方法の処理内容の構成図。第二実施例の障害監視システムのブロック構成図。従来の障害監視方法の処理内容の構成図。

符号の説明

１ＣＰＵ負荷検出部
２グループ化制御部
３ＣＰＵ負荷調節部
４監視処理部
５スイッチング回路
Ａ１〜Ａ４集積回路
（Ｂ１）〜（Ｂ２１）末端機能部状況確認
（Ｃ１）〜（Ｃｎ）監視
（ＣＴ）タイマ番号識別処理
（Ｄ１）タイマ識別処理
（Ｅ１）〜（Ｅ２１）正常判定
Ｇハードウェア監視対象
Ｇ１〜Ｇｎ監視対象群
Ｈ１〜Ｈ２１末端機能部
（ＨＣ１）、（ＨＣ２）ハードウェア障害監視処理機能
ＨＴ１、ＨＴ２ハードウェアタイマ群
（Ｉ）タイマ満了検出
（Ｉ１）割り込み検出処理
Ｏ１〜Ｏｍ監視対象
（Ｐ１）タイマＴ１用監視処理
（Ｐ２）タイマＴ２用監視処理
（Ｐ３）タイマＴ３用監視処理
（Ｐ４）タイマＴ４用監視処理
（ＰＥ１）異常検出時処理
（Ｓ）状態更新
（Ｓ１）〜（Ｓ８）ステップ
Ｔ１〜Ｔｎタイマ

Claims

複数の監視対象を一元的に監視する障害監視装置において、
自己の負荷を検出する負荷検出手段と、
前記複数の監視対象を複数のグループに分割するグループ化制御手段と、
この複数のグループに対して監視周期に基づき循環的に障害の有無の監視を実行する監視手段と、
この監視周期を生成する監視周期生成手段と、
前記負荷検出手段の検出結果に応じて前記監視周期生成手段または前記グループ化制御手段を制御して前記監視周期または前記グループ規模を変更する手段と
を備えたことを特徴とする障害監視装置。
前記監視周期生成手段は、前記グループ数と同数以上のタイマにより構成され、
個々のタイマには、それぞれ一つのグループが割当てられ、
個々のタイマは、自己に割当てられたグループに対する監視周期を個々に生成する手段を備え、
この監視周期は、自己に割当てられたグループに対する監視実行開始時間間隔および自己に割当てられたグループの監視実行開始時刻と自己に割当てられたグループの後に監視を実行する隣接する他グループの監視実行開始時刻との時間間隔を含む
請求項１記載の障害監視装置。
前記変更する手段は、前記負荷検出手段の検出結果が過負荷を示すときには、前記監視周期または前記グループ数を拡大させる手段を備えた請求項１記載の障害監視装置。
請求項１ないし３のいずれかに記載の障害監視装置が複数並列に接続され、
これらの障害監視装置相互間には通信手段が設けられ、
前記グループは、いずれか一つの障害監視装置に割当てられる
障害監視システム。
複数の障害監視装置には、それぞれに優先順位が設けられ、
優先順位が高い障害監視装置ほど、障害監視に要する処理時間がより長く設けられ、
優先順位が高い障害監視装置ほど、より高い監視優先度を有する監視対象を含むグループが割当てられる
請求項４記載の障害監視システム。
複数の監視対象を障害監視装置を用いて一元的に監視する障害監視方法において、
前記複数の監視対象を複数のグループに分割し、この複数のグループに対して監視周期に基づき循環的に障害の有無の監視を実行し、この実行に際して前記障害監視装置の負荷の状況に応じて前記監視周期または前記グループ規模を変更する
ことを特徴とする障害監視方法。
前記グループ数と同数のタイマによって前記監視周期が生成され、
この生成に際し、
個々のタイマには、それぞれ一つのグループが割当てられ、
個々のタイマは、自己に割当てられたグループに対する監視周期を個々に生成し、
この監視周期は、自己に割当てられたグループに対する監視実行開始時間間隔および自己に割当てられたグループの監視実行開始時刻と自己に割当てられたグループの後に監視を実行する隣接する他グループの監視実行開始時刻との時間間隔を含む
請求項６記載の障害監視方法。
前記障害監視装置が過負荷状態であるときには、前記監視周期または前記グループ数を拡大させる請求項６記載の障害監視方法。
請求項１ないし３のいずれかに記載の障害監視装置を複数並列に接続し、これらの障害監視装置が相互に通信を行うことにより連携して動作し、
前記グループは、いずれかの障害監視装置に割当てられる
障害監視方法。
複数の障害監視装置には、それぞれに優先順位が設けられ、
優先順位が高い障害監視装置ほど、障害監視に要する処理時間がより長く設けられ、
優先順位が高い障害監視装置ほど、より高い監視優先度を有する監視対象を含むグループが割当てられる
請求項９記載の障害監視方法。
複数の監視対象を一元的に監視する障害監視装置に適用されるプログラムにおいて、
情報処理装置にインストールすることにより、その情報処理装置に、
自己の負荷を検出する負荷検出機能と、
前記複数の監視対象を複数のグループに分割するグループ化制御機能と、
この複数のグループに対して監視周期に基づき循環的に障害の有無の監視を実行する監視機能と、
この監視周期を生成する監視周期生成機能と、
前記負荷検出機能の検出結果に応じて前記監視周期生成機能または前記グループ化制御機能を制御して前記監視周期または前記グループ規模を変更する機能と
を実現させることを特徴とするプログラム。
前記監視周期生成機能として、前記グループ数と同数以上のタイマ機能を実現させ、
個々のタイマ機能には、それぞれ一つのグループが割当てられ、
個々のタイマ機能として、自己に割当てられたグループに対する監視周期を個々に生成する機能を実現させ、
この監視周期は、自己に割当てられたグループに対する監視実行開始時間間隔および自己に割当てられたグループの監視実行開始時刻と自己に割当てられたグループの後に監視を実行する隣接する他グループの監視実行開始時刻との時間間隔を含む
請求項１１記載のプログラム。
前記変更する機能として、前記負荷検出機能の検出結果が過負荷を示すときには、前記監視周期または前記グループ数を拡大させる機能を実現させる請求項１１記載のプログラム。