JP2006268310A - 障害監視装置および方法およびプログラム - Google Patents

障害監視装置および方法およびプログラム Download PDF

Info

Publication number
JP2006268310A
JP2006268310A JP2005084148A JP2005084148A JP2006268310A JP 2006268310 A JP2006268310 A JP 2006268310A JP 2005084148 A JP2005084148 A JP 2005084148A JP 2005084148 A JP2005084148 A JP 2005084148A JP 2006268310 A JP2006268310 A JP 2006268310A
Authority
JP
Japan
Prior art keywords
monitoring
group
function
groups
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005084148A
Other languages
English (en)
Inventor
Ryosuke Takeuchi
良輔 竹内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
NEC Communication Systems Ltd
Original Assignee
NEC Corp
NEC Communication Systems Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp, NEC Communication Systems Ltd filed Critical NEC Corp
Priority to JP2005084148A priority Critical patent/JP2006268310A/ja
Publication of JP2006268310A publication Critical patent/JP2006268310A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

【課題】 ハードウェア規模が大きくなった場合でも一定のCPU負荷にて対応し、保守機能が他の通常的に実施する処理に与える影響を軽減化する。
【解決手段】 複数の監視対象を複数のグループに分割し、この複数のグループに対して監視周期に基づき循環的に障害の有無の監視を実行し、この実行に際して障害監視装置の負荷の状況に応じて監視周期またはグループ規模を変更する。例えば、障害監視装置が過負荷状態であるときには、監視周期またはグループ数を拡大させる。
【選択図】 図1

Description

本発明は、複数の監視対象を一元的に監視する装置に利用する。特に、一つのCPU(Central
Processing Unit)内で障害監視処理と通常処理とを並行して行う場合のCPU負荷を低減する技術に関する。
従来の障害監視装置の一般的な考え方は、一つのハードウェア障害監視処理機能にて各監視対象に対するポーリング監視を実現して一括管理していた。
すなわち、図9に示すように、1つのタイマT1からの通知(M1)により、ハードウェア障害監視処理機能が起動され、監視処理(C1)を実行し、全てのハードウェア監視対象Gの障害発生状況を確認する構成にて実現していた。
図7に示したような、ハードウェア障害監視処理機能は、ハードウェア障害監視処理以外の処理も並行して実行しているCPUの機能の一部として実現される。
なお、本明細書では、括弧付きの符号は処理または機能(ソフトウェア)を指すものとし、括弧無しの符号は装置または回路(ハードウェア)を指すものとする。
このような従来技術には、次のような問題点があった。
第一の問題点は、監視対象の増加による管理が煩雑化するということである。
その理由は、集積技術の向上に伴う回路規模の増大化によるためである。技術の向上する昨今において、回路規模が増大化し、それに伴い監視すべき機能部が増加してしまう。監視対象が増加した場合には、それぞれの要因を管理するため、ソフトウェア構成が複雑化、煩雑化する可能性が発生してしまう。
第二の問題点は、監視対象の増加に伴う通常処理への影響増加ということである。
その理由は、監視項目の増加に伴い、保守監視処理のCPU占有の時間が無視できなくなるためである。保守監視動作は、定常的に動作する機能である。しかし、リアルタイム処理を実現する上では、他の処理への効率的な切替えが必要となる。監視対象が増加した場合に、従来の構成ではCPU占有時間が伸長してしまう。
第三の問題点は、安易な構成変更が許されないということである。
その理由は、例えば、監視対象毎に監視周期を変更しようとしても、タイマT1、通知(M1)、監視(C1)のみの簡素な構成のため、処理変更に伴うプログラムの修正規模が増加する。また、実現できたとしても、ハードウェア障害監視処理機能が複雑化してしまう。
第四の問題点は、監視周期が異なる監視対象を管理することが、困難であるということである。
その理由は、タイマを1つしか使用しない構成であるため、より精度の高く、よりリアルタイム性のある監視を実施しようとすることが困難になってしまう。
本発明は、このような背景の下に行われたものであって、ハードウェア規模が大きくなった場合でも一定のCPU負荷にて対応でき、保守機能が他の通常的に実施する処理に与える影響を軽減化できる障害監視装置および方法を提供することを目的とする。
本発明は、肥大化するハードウェア構成におけるハードウェア障害監視処理においてCPUに対する負荷を低減できる障害監視装置を提供するものである。
本発明の原理を図1を参照して説明する。図1は本発明の障害監視方法の処理機能の構成図である。図1において、タイマT1〜Tnは、一定の間隔が経過したことをハードウェア障害監視処理機能に通知(M1〜Mn)する。タイマT1〜Tnより通知(M1〜Mn)を受けたハードウェア障害監視処理機能は、監視対象群G1〜Gnの状態を参照し、障害が発生していないか各監視対象を確認する。
監視対象群G1〜Gnはそれぞれ、監視対象O1〜O4、監視対象O5〜O8、監視対象O9〜O12、…、監視対象Om−3〜Omにて構成される。
通知(M1〜Mn)にて行う監視処理(C1〜Cn)は、それぞれ1対1の関係を持つ。すなわち、タイマT1〜Tn、通知(M1〜Mn)、監視処理(C1〜Cn)、監視対象群G1〜Gnは、タイマTnを契機に1つずつ通知(Mn)を発生し、ハードウェア障害監視処理機能にて監視対象群Gnの障害監視を監視処理(Cn)にて行う構成である。
また、図2は本発明の通知周期を示す図であるが、図2において、タイマT1〜Tnのそれぞれは、周期F2にてハードウェア障害監視処理機能への任意の通知(Mn−1)と(Mn)との間隔を維持する。また、同一のタイマ、例えばタイマT1は、通知(M1)と通知(M1)の通知間隔を周期F1にて維持する。
タイマT1〜Tnは、それぞれの通知間隔F1およびF2を維持し、同順序にて通知(M1〜Mn)を繰り返しハードウェア障害監視処理機能へ通知する。
図1および図2に示す構成を適用することで、ハードウェア障害監視処理機能がハードウェアの状態を把握するための監視動作にて、CPUの占有時間を短くすることが可能になる。このようにして、CPU負荷の低減を可能にし、本来実施すべき処理に与える影響を小規模にする。
さらに詳細には、CPU負荷検出処理によって、CPUの負荷を検出し、CPUの負荷が過負荷である場合には、例えば、通知周期制御処理を行い、図2に示す周期F1またはF2の拡大を図る。これにより、CPUが監視を行う頻度が低くなり、CPUの負荷を低減させることができる。あるいは、CPUの負荷が過負荷である場合には、グループ化制御処理を行い、グループの細分化を図る。これにより、1グループ当たりに含まれる監視対象数が減るので、監視に要する負荷(占有時間)を短縮させることができる。また、1グループ当たりの監視に要する負荷(占有時間)を短縮させておいて、さらに、前述したように、周期F1またはF2の拡大を図ることもできる。
反対に、CPUの負荷に余裕がある場合には、周期F1またはF2を縮小したり、あるいは、グループを統合化して1グループ当たりの監視に要する負荷(占有時間)を増大させ、1グループ当たりの監視対象数を増やすことにより、CPUの負荷が過負荷にならない範囲内で最大限に監視効率を高めることができる。
このようにして、CPUの負荷を自在に調節することができる。
すなわち、本発明の第一の観点は、複数の監視対象を一元的に監視する障害監視装置であって、本発明の特徴とするところは、自己の負荷を検出する負荷検出手段と、前記複数の監視対象を複数のグループに分割するグループ化制御手段と、この複数のグループに対して監視周期に基づき循環的に障害の有無の監視を実行する監視手段と、この監視周期を生成する監視周期生成手段と、前記負荷検出手段の検出結果に応じて前記監視周期生成手段または前記グループ化制御手段を制御して前記監視周期または前記グループ規模を変更する手段とを備えたところにある。
例えば、前記監視周期生成手段は、前記グループ数と同数以上のタイマにより構成され、個々のタイマには、それぞれ一つのグループが割当てられ、個々のタイマは、自己に割当てられたグループに対する監視周期を個々に生成する手段を備え、この監視周期は、自己に割当てられたグループに対する監視実行開始時間間隔および自己に割当てられたグループの監視実行開始時刻と自己に割当てられたグループの後に監視を実行する隣接する他グループの監視実行開始時刻との時間間隔を含む。
また、前記変更する手段は、例えば、前記負荷検出手段の検出結果が過負荷を示すときには、前記監視周期または前記グループ数を拡大させる手段を備える。
また、本発明の障害監視装置が複数並列に接続され、これらの障害監視装置相互間には通信手段が設けられ、前記グループは、いずれか一つの障害監視装置に割当てられる障害監視システムとして構成することもできる。
これによれば、複数の障害監視装置が連携して動作することができるため、多種多様な監視形態に柔軟に対応することができる。
例えば、複数の障害監視装置には、それぞれに優先順位が設けられ、優先順位が高い障害監視装置ほど、障害監視に要する処理時間がより長く設けられ、優先順位が高い障害監視装置ほど、より高い監視優先度を有する監視対象を含むグループが割当てられるようにすれば、CPUを占有する時間を長く要する監視処理とCPUを占有する時間が短くてよい監視処理とを明確に区別することができるため、CPU負荷の配分の調節が容易になる。
本発明の第二の観点は、複数の監視対象を障害監視装置を用いて一元的に監視する障害監視方法であって、本発明の特徴とするところは、前記複数の監視対象を複数のグループに分割し、この複数のグループに対して監視周期に基づき循環的に障害の有無の監視を実行し、この実行に際して前記障害監視装置の負荷の状況に応じて前記監視周期または前記グループ規模を変更するところにある。
例えば、前記グループ数と同数のタイマによって前記監視周期が生成され、この生成に際し、個々のタイマには、それぞれ一つのグループが割当てられ、個々のタイマは、自己に割当てられたグループに対する監視周期を個々に生成し、この監視周期は、自己に割当てられたグループに対する監視実行開始時間間隔および自己に割当てられたグループの監視実行開始時刻と自己に割当てられたグループの後に監視を実行する隣接する他グループの監視実行開始時刻との時間間隔を含む。
また、例えば、前記障害監視装置が過負荷状態であるときには、前記監視周期または前記グループ数を拡大させる。
また、本発明の障害監視装置を複数並列に接続し、これらの障害監視装置が相互に通信を行うことにより連携して動作し、前記グループは、いずれかの障害監視装置に割当てられるようにすることもできる。
これにより、例えば、複数の障害監視装置には、それぞれに優先順位が設けられ、優先順位が高い障害監視装置ほど、障害監視に要する処理時間がより長く設けられ、優先順位が高い障害監視装置ほど、より高い監視優先度を有する監視対象を含むグループが割当てられるようにすることができる。
本発明の第三の観点は、複数の監視対象を一元的に監視する障害監視装置に適用されるプログラムであって、本発明の特徴とするところは、情報処理装置にインストールすることにより、その情報処理装置に、自己の負荷を検出する負荷検出機能と、前記複数の監視対象を複数のグループに分割するグループ化制御機能と、この複数のグループに対して監視周期に基づき循環的に障害の有無の監視を実行する監視機能と、この監視周期を生成する監視周期生成機能と、前記負荷検出機能の検出結果に応じて前記監視周期生成機能または前記グループ化制御機能を制御して前記監視周期または前記グループ規模を変更する機能とを実現させるところにある。
例えば、前記監視周期生成機能として、前記グループ数と同数以上のタイマ機能を実現させ、個々のタイマ機能には、それぞれ一つのグループが割当てられ、個々のタイマ機能として、自己に割当てられたグループに対する監視周期を個々に生成する機能を実現させ、この監視周期は、自己に割当てられたグループに対する監視実行開始時間間隔および自己に割当てられたグループの監視実行開始時刻と自己に割当てられたグループの後に監視を実行する隣接する他グループの監視実行開始時刻との時間間隔を含む。
また、前記変更する機能として、例えば、前記負荷検出機能の検出結果が過負荷を示すときには、前記監視周期または前記グループ数を拡大させる機能を実現させる。
これにより、汎用の情報処理装置を用いて本発明の障害監視装置を実現させ、本発明の障害監視方法を実行させることができる。
第一の効果は、ハードウェア規模が大きくなった場合でも一定のCPU負荷にて対応できることにある。
その理由は、ハードウェア規模の増大による監視項目が増大しても監視するグループ数が増えるのみであり、監視周期の制御と監視対象のグループ化を実施することで、保守監視動作におけるCPU負荷(占有時間)を意図的に調節することが可能なためである。
第二の効果は、保守機能が他の通常的に実施する処理に与える影響を軽減化できることにある。
その理由は、任意の通知にて実施する処理が、CPUの占有時間を短くすることで、後発の通常処理実施までの遅延時間が短くなるためである。例えば、グループを細分化し、一つのグループに含まれる監視対象数を減らすことにより、任意の通知にて実施する処理時間を短縮し、CPUの占有時間を短縮することができる。
第三の効果は、監視対象をグループ化することによるメンテナンス性の向上が期待できることにある。
その理由は、監視項目が膨大にあった場合でも、意味を持たせたグループ化を実現でき、監視対象の追加や削除が容易なためである。
第四の効果は、監視対象毎、監視対象グループ毎に監視周期を変更することが容易であることにある。
その理由は、複数のタイマを使用して管理するため、監視周期に差分を設け、障害に応じた監視を実施させることが容易である。監視周期を細かく調節することを実現するため、保守監視におけるリアルタイム性を向上させ、システムに影響を与える可能性のある障害等の監視に適している。
従来の手法では、CPUの占有時間は、監視対象の分量に依存していた。仮に、監視対象の分量が少ない場合には、単純に一度の処理にて全ての監視対象の障害発生状況を取得し、処理することが可能であった。しかし、監視対象の分量が多くなってしまう場合には、前述の動作をそのまま適用すると保守監視処理が動作している時間が長くなってしまい、監視動作中は、他の処理が動作できなくなってしまう。本発明の適用にて従来の手法では実現できない上記効果を得ることが可能になる。
(第一実施例)
本発明第一実施例の障害監視装置および障害監視方法を図3および図4を参照して説明する。図3は本実施例の障害監視装置のブロック構成図である。図4は本実施例のCPU負荷調節手順を示すフローチャートである。
本実施例は、図3に示すように、複数の監視対象としての末端機能部H1〜H21を一元的に監視する障害監視装置としての機能を含むCPUであって、本実施例の特徴とするところは、自己の負荷を検出するCPU負荷検出部1と、末端機能部H1〜H21を複数のグループに分割するグループ化制御部2と、この複数のグループに対して監視周期に基づき循環的に障害の有無の監視を実行する監視処理部4と、この監視周期を生成するハードウェアタイマ群HT1と、CPU負荷検出部1の検出結果に応じてハードウェアタイマ群HT1またはグループ化制御部2を制御して前記監視周期または前記グループ規模を変更するCPU負荷調節部3とを備えたところにある。
ハードウェアタイマ群HT1は、前記グループ数と同数以上のタイマにより構成され、個々のタイマには、それぞれ一つのグループが割当てられ、個々のタイマは、自己に割当てられたグループに対する監視周期を個々に生成する手段を備え、この監視周期は、図2で説明したように、自己に割当てられたグループに対する監視実行開始時間間隔(周期F1)および自己に割当てられたグループの監視実行開始時刻と自己に割当てられたグループの後に監視を実行する隣接する他グループの監視実行開始時刻との時間間隔(周期F2)を含む。
また、CPU負荷調節部3は、CPU負荷検出部1の検出結果が過負荷を示すときには、前記監視周期または前記グループ数を拡大させる手段を備える。
すなわち、本実施例の障害監視方法は、複数の監視対象としての末端機能部H1〜H21を複数のグループに分割し、この複数のグループに対して監視周期に基づき循環的に障害の有無の監視を実行し、この実行に際してCPUの負荷の状況に応じて前記監視周期または前記グループ規模を変更することを特徴とする。
前記グループ数と同数のタイマによって前記監視周期が生成され、この生成に際し、個々のタイマには、それぞれ一つのグループが割当てられ、個々のタイマは、自己に割当てられたグループに対する監視周期を個々に生成し、この監視周期は、自己に割当てられたグループに対する監視実行開始時間間隔(周期F1)および自己に割当てられたグループの監視実行開始時刻と自己に割当てられたグループの後に監視を実行する隣接する他グループの監視実行開始時刻との時間間隔(周期F2)を含む。
CPUが過負荷状態であるときには、前記監視周期または前記グループ数を拡大させる。すなわち、図4に示すように、CPU負荷検出部1によりCPU負荷(占有時間)を検出し(S1)、その負荷量が適正値よりも大きい場合には(S2)、通知周期F1またはF2を拡大する(S3)。また、その負荷量が適正値よりも小さい場合には(S2)、通知周期F1またはF2を縮小する(S4)。ステップS3またはS4を実行した後に、再び、CPU負荷検出部1によりCPU負荷(占有時間)を検出し(S5)、その負荷量が未だ適正値よりも大きい場合には(S6)、グループを細分化してグループ数を拡大させる(S7)。また、その負荷量が適正値よりも小さい場合には(S6)、グループを統合化してグループ数を縮小させる(S8)。
図4において、通知周期の制御をグループ制御に先行して行った理由は、通知周期の制御の方がグループ制御と比較して容易に実行可能だからである。すなわち、通知周期の制御は、タイマT1〜Tnの設定値を変更するだけでよいが、グループ制御は、集積回路A1〜A4と末端機能部H1〜H21との接続関係を変更する必要があり、この変更は、集積回路A1〜A4と末端機能部H1〜H21との間に挿入されたスイッチング回路5の方路変更によって行うが、タイマT1〜Tnの設定値を変更する場合と比較して処理に要する負荷および時間を多く必要とする。しかし、通知周期の制御またはグループ制御のいずれを先行させるかについてはいずれでもよい。あるいは、他の実施例として、通知周期の制御およびグループ制御の双方を並行して同時に行ってもよい。
また、本実施例は、汎用の情報処理装置にインストールすることにより、その情報処理装置に本実施例の障害監視装置に相応する機能を実現させるプログラムとして実現することができる。このプログラムは、記録媒体に記録されて情報処理装置にインストールされ、あるいは通信回線を介して情報処理装置にインストールされることにより当該情報処理装置に、CPU負荷検出部1、グループ化制御部2、CPU負荷調節部3、監視処理部4にそれぞれ相応する機能を実現させることができる。
本実施例では、当該情報処理装置はCPUに相当し、CPUが障害監視装置の機能を含むとして説明を行っているため、CPUの制御部または演算部に、本実施例のプログラムがあらかじめ別のインストール機器によってインストールされた後、当該CPUは装置内に実装されているものとする。
以下では、本実施例をさらに詳細に説明する。
図3を参照すると、本実施例の障害監視装置は、以下のような機能を含む。
・プログラム制御により動作するプロセッサ(以下、CPU)
・一定周期でカウントアップし、カウンタ値満了に伴いCPUに対して、割込みを発生させるタイマT1〜Tnを保有するハードウェアタイマ群HT1
・末端機能部H1〜H21からの動作状況を集約しCPUからの参照を可能にする集積回路A1〜A4
・当該ハードウェアにて実現する機能を保有する末端機能部H1〜H21
・タイマT1〜Tnはそれぞれ識別可能である
なお、タイマT1〜Tnは、本実施例ではn個の独立したタイマとして説明を行うが、独立したタイマT1〜Tnに相当する機能を有する一つのタイマとして実現してもよい。
また、上記の各機能部間の関係を以下に示す。
・タイマT1〜Tnは、カウンタの満了をチェックし、カウンタ満了時にCPUに対して障害監視開始タイミングを通知するための割込みを発生させる
・割込みを受けたCPUは、ハードウェアタイマ群HT1を参照し、タイマT1〜Tnの内、どのタイマが満了したのかを識別可能である
・集積回路A1〜A4は、末端機能部H1〜H21より常時提供される自機能部の状態を自集積回路内に保持する
・CPUは、集積回路内の状態を参照し、当該ハードウェアにて保有する全末端機能部の状態を監視することが可能である
また、集積回路A1〜A4と末端機能部H1〜H21との間には、これらの接続関係を適宜変更することができるスイッチング回路5を設ける。このスイッチング回路5は、グループ化制御部2の制御によって末端機能部H1〜H21をグループ化し、各グループを集積回路A1〜A4のいずれかにそれぞれ接続する。
図5は、本実施例の障害監視方法のソフトウェア構成を示す図である。本実施例の障害監視方法のソフトウェア構成は、以下のような機能を含む。
・タイマT1〜TnからCPUに通知される割込みを検出し、タイマ識別処理(D1)に対して通知する割込み検出処理(I1)
・割込み検出処理(I1)により通知を受け、ハードウェアタイマ群HT1のタイマT1〜Tnの内のどのタイマが満了したのか判断するタイマ識別処理(D1)
・タイマ識別処理(D1)によりどのタイマの満了かを認識した後、タイマ毎に対応付けられた監視対象を確認するタイマT1〜T4用監視処理(P1〜P4)
・タイマT1〜T4用監視処理(P1〜P4)により異常を検出した際に異常毎に処理を行う異常検出時処理(PEI)
次に、図6の第一実施例の障害監視方法の手順を示すフローチャートを参照して本実施例の全体の動作について詳細を説明する。まず、ハードウェア的にハードウェアタイマ群にてタイマ満了検出(I)が行われ、CPUに対して割込みを発行する。割込みを検出したCPUは、タイマ識別処理(D1)を行い、満了したタイマ番号を取得する。タイマ番号取得後、タイマ番号識別処理(CT)を行い、該当するタイマ番号を認識し、該当する処理を選択する。
例えば、タイマT1が満了した場合は、末端機能部状況確認(B1)を行い、集積回路A1が保有する末端機能部H1の状態を取得する。集積回路A1より取得した末端機能部H1の状態が、正常状態を示すのか、異常状態を示すのかを正常判定(E1)にて行う。正常状態を示す場合は、引き続き集積回路A1より末端機能部H2の状態を取得し、末端機能部H1のときと同様に状態を判断する。以降、集積回路A1が保有する各末端機能部H1〜H5の状態に異常が存在しない場合は、処理を終了する。他のタイマT2〜T4が満了した場合も同様に、タイマ番号識別処理(CT)にてタイマ番号毎の処理を選択し上記要領にて実施する。
仮に、末端機能部H7にて異常が発生し、集積回路A2に対する状態更新(S)が発生した場合は、次回タイマT2が満了した際に、上記要領にて検出することが可能である。ハードウェアタイマ群がタイマ満了検出(I)にて割込みをCPUに対して発行する。割込みを受けたCPUは、タイマ識別処理(D1)を実施し、タイマ満了したタイマ番号を取得する。取得したタイマ番号をタイマ番号識別処理(CT)にて判断する。タイマ番号識別処理(CT)にてタイマT2のタイマが満了したことを認識し、末端機能部状況確認(B6)を実施する。集積回路A2より取得した末端機能部H6の状態が、正常状態を示すのか、異常状態を示すのかを正常判定(E6)にて行う。引き続き末端機能部状況確認(B7)を実施し、末端機能部H7の状態を取得する。状態更新(S)にて異常状態が、集積回路A2に保持されているため、正常判定(E7)にて異常を検出する。異常を検出した場合は、末端機能部H7に従った異常要因毎処理(PE)を実施する。異常要因毎処理(PE)を実施後、処理を終了する。
(第二実施例)
本発明第二実施例について図7を参照して詳細に説明する。
図7は第二実施例の障害監視装置の構成を示す図である。図7を参照すると、本実施例は、図1に示す構成を2つ保有し、ハードウェアの監視処理を実現する。各ハードウェア障害監視処理機能(HC1)、(HC2)は、管理する監視対象を二分し、障害の監視処理を実施する。また、各ハードウェア障害監視処理機能(HC1)、(HC2)は、相互にインタフェースを保有する。
インタフェースとなる機能部間通知(TM1)、(TM2)は、各タイマに依存せずにお互いの処理を起動することができる。例えば、ハードウェア障害監視処理機能(HC1)の内部で監視して検出した障害を機能部間通知(TM1)にて、ハードウェア障害監視処理機能(HC2)に通知し、同機能部で監視している、かつ、ハードウェア障害監視処理機能(HC1)で検出した監視対象と関係する監視対象への監視処理を省略することで、保守監視処理におけるCPUの占有時間を短縮化することが可能である。
また、ハードウェア障害監視処理機能(HC1)とハードウェア障害監視処理機能(HC2)との関係は、ハードウェア障害監視処理機能(HC1)が、優先的に監視すべき対象を管理して監視し、それに対してハードウェア障害監視処理機能(HC2)は、他の即応性が求められる処理よりも低く実施することが可能な監視対象を管理する。
これにより、監視対象の特性に応じてハードウェア障害監視処理間の処理優先度を決定し、関係付けることでさらにCPUの占有時間を短縮化することができる。例えば、CPUの負荷が高いときには、優先的に監視すべき対象のみの監視処理だけを実行し、それ以外の監視処理をCPUの負荷が平常値に戻るまでの期間に限り休止させるといった制御を行うことができる。
当該他の実施例のブロック構成を図8を参照して説明する。図2に示す構成におけるCPUおよびハードウェアタイマ群をそれぞれ2個ずつ有する構成である。
本発明によれば、ハードウェア規模が大きくなった場合でも一定のCPU負荷にて対応でき、また、保守機能が他の通常的に実施する処理に与える影響を軽減化でき、また、監視対象をグループ化することによるメンテナンス性の向上が期待でき、また、監視対象毎、監視対象グループ毎に監視周期を変更することが容易であるため、効率の良いCPUの運用を可能とする。
本発明の障害監視方法の処理機能の構成図。 本発明の通知周期を示す図。 第一実施例の障害監視装置のブロック構成図。 第一実施例のCPU負荷調節手順を示すフローチャート。 第一実施例の障害監視方法のソフトウェア構成を示す図。 第一実施例の障害監視方法の手順を示すフローチャート。 第二実施例の障害監視方法の処理内容の構成図。 第二実施例の障害監視システムのブロック構成図。 従来の障害監視方法の処理内容の構成図。
符号の説明
1 CPU負荷検出部
2 グループ化制御部
3 CPU負荷調節部
4 監視処理部
5 スイッチング回路
A1〜A4 集積回路
(B1)〜(B21) 末端機能部状況確認
(C1)〜(Cn) 監視
(CT) タイマ番号識別処理
(D1) タイマ識別処理
(E1)〜(E21) 正常判定
G ハードウェア監視対象
G1〜Gn 監視対象群
H1〜H21 末端機能部
(HC1)、(HC2) ハードウェア障害監視処理機能
HT1、HT2 ハードウェアタイマ群
(I) タイマ満了検出
(I1) 割り込み検出処理
O1〜Om 監視対象
(P1) タイマT1用監視処理
(P2) タイマT2用監視処理
(P3) タイマT3用監視処理
(P4) タイマT4用監視処理
(PE1) 異常検出時処理
(S) 状態更新
(S1)〜(S8) ステップ
T1〜Tn タイマ

Claims (13)

  1. 複数の監視対象を一元的に監視する障害監視装置において、
    自己の負荷を検出する負荷検出手段と、
    前記複数の監視対象を複数のグループに分割するグループ化制御手段と、
    この複数のグループに対して監視周期に基づき循環的に障害の有無の監視を実行する監視手段と、
    この監視周期を生成する監視周期生成手段と、
    前記負荷検出手段の検出結果に応じて前記監視周期生成手段または前記グループ化制御手段を制御して前記監視周期または前記グループ規模を変更する手段と
    を備えたことを特徴とする障害監視装置。
  2. 前記監視周期生成手段は、前記グループ数と同数以上のタイマにより構成され、
    個々のタイマには、それぞれ一つのグループが割当てられ、
    個々のタイマは、自己に割当てられたグループに対する監視周期を個々に生成する手段を備え、
    この監視周期は、自己に割当てられたグループに対する監視実行開始時間間隔および自己に割当てられたグループの監視実行開始時刻と自己に割当てられたグループの後に監視を実行する隣接する他グループの監視実行開始時刻との時間間隔を含む
    請求項1記載の障害監視装置。
  3. 前記変更する手段は、前記負荷検出手段の検出結果が過負荷を示すときには、前記監視周期または前記グループ数を拡大させる手段を備えた請求項1記載の障害監視装置。
  4. 請求項1ないし3のいずれかに記載の障害監視装置が複数並列に接続され、
    これらの障害監視装置相互間には通信手段が設けられ、
    前記グループは、いずれか一つの障害監視装置に割当てられる
    障害監視システム。
  5. 複数の障害監視装置には、それぞれに優先順位が設けられ、
    優先順位が高い障害監視装置ほど、障害監視に要する処理時間がより長く設けられ、
    優先順位が高い障害監視装置ほど、より高い監視優先度を有する監視対象を含むグループが割当てられる
    請求項4記載の障害監視システム。
  6. 複数の監視対象を障害監視装置を用いて一元的に監視する障害監視方法において、
    前記複数の監視対象を複数のグループに分割し、この複数のグループに対して監視周期に基づき循環的に障害の有無の監視を実行し、この実行に際して前記障害監視装置の負荷の状況に応じて前記監視周期または前記グループ規模を変更する
    ことを特徴とする障害監視方法。
  7. 前記グループ数と同数のタイマによって前記監視周期が生成され、
    この生成に際し、
    個々のタイマには、それぞれ一つのグループが割当てられ、
    個々のタイマは、自己に割当てられたグループに対する監視周期を個々に生成し、
    この監視周期は、自己に割当てられたグループに対する監視実行開始時間間隔および自己に割当てられたグループの監視実行開始時刻と自己に割当てられたグループの後に監視を実行する隣接する他グループの監視実行開始時刻との時間間隔を含む
    請求項6記載の障害監視方法。
  8. 前記障害監視装置が過負荷状態であるときには、前記監視周期または前記グループ数を拡大させる請求項6記載の障害監視方法。
  9. 請求項1ないし3のいずれかに記載の障害監視装置を複数並列に接続し、これらの障害監視装置が相互に通信を行うことにより連携して動作し、
    前記グループは、いずれかの障害監視装置に割当てられる
    障害監視方法。
  10. 複数の障害監視装置には、それぞれに優先順位が設けられ、
    優先順位が高い障害監視装置ほど、障害監視に要する処理時間がより長く設けられ、
    優先順位が高い障害監視装置ほど、より高い監視優先度を有する監視対象を含むグループが割当てられる
    請求項9記載の障害監視方法。
  11. 複数の監視対象を一元的に監視する障害監視装置に適用されるプログラムにおいて、
    情報処理装置にインストールすることにより、その情報処理装置に、
    自己の負荷を検出する負荷検出機能と、
    前記複数の監視対象を複数のグループに分割するグループ化制御機能と、
    この複数のグループに対して監視周期に基づき循環的に障害の有無の監視を実行する監視機能と、
    この監視周期を生成する監視周期生成機能と、
    前記負荷検出機能の検出結果に応じて前記監視周期生成機能または前記グループ化制御機能を制御して前記監視周期または前記グループ規模を変更する機能と
    を実現させることを特徴とするプログラム。
  12. 前記監視周期生成機能として、前記グループ数と同数以上のタイマ機能を実現させ、
    個々のタイマ機能には、それぞれ一つのグループが割当てられ、
    個々のタイマ機能として、自己に割当てられたグループに対する監視周期を個々に生成する機能を実現させ、
    この監視周期は、自己に割当てられたグループに対する監視実行開始時間間隔および自己に割当てられたグループの監視実行開始時刻と自己に割当てられたグループの後に監視を実行する隣接する他グループの監視実行開始時刻との時間間隔を含む
    請求項11記載のプログラム。
  13. 前記変更する機能として、前記負荷検出機能の検出結果が過負荷を示すときには、前記監視周期または前記グループ数を拡大させる機能を実現させる請求項11記載のプログラム。
JP2005084148A 2005-03-23 2005-03-23 障害監視装置および方法およびプログラム Pending JP2006268310A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005084148A JP2006268310A (ja) 2005-03-23 2005-03-23 障害監視装置および方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005084148A JP2006268310A (ja) 2005-03-23 2005-03-23 障害監視装置および方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2006268310A true JP2006268310A (ja) 2006-10-05

Family

ID=37204243

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005084148A Pending JP2006268310A (ja) 2005-03-23 2005-03-23 障害監視装置および方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2006268310A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008177740A (ja) * 2007-01-17 2008-07-31 Fuji Xerox Co Ltd 管理装置、及びプログラム
JP2009117915A (ja) * 2007-11-01 2009-05-28 Nec Corp 通信装置、ヘルスチェック間隔調整方法およびヘルスチェック間隔調整プログラム
JP2010211523A (ja) * 2009-03-10 2010-09-24 Ricoh Co Ltd 機器管理装置、機器管理システム、機器管理方法、機器管理プログラム、及びそのプログラムを記録した記録媒体
JP2013178850A (ja) * 2013-06-21 2013-09-09 Nec System Technologies Ltd 監視システム、監視方法、及びプログラム
JP2017161982A (ja) * 2016-03-07 2017-09-14 富士通株式会社 監視プログラム、監視装置、および監視方法
JP2020022067A (ja) * 2018-07-31 2020-02-06 株式会社リコー システム、方法およびプログラム
US11586032B2 (en) 2017-01-27 2023-02-21 Gigaphoton Inc. Laser apparatus and extreme ultraviolet light generation system

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0594383A (ja) * 1991-10-02 1993-04-16 Nec Corp 障害監視装置
JPH07319836A (ja) * 1994-05-30 1995-12-08 Hitachi Ltd 障害監視方式
JPH09172435A (ja) * 1995-12-20 1997-06-30 Pfu Ltd 分散管理システム
JPH11340991A (ja) * 1998-05-25 1999-12-10 Nec Corp マルチキャストを用いたネットワ−ク監視方式
JP2002141921A (ja) * 2000-10-31 2002-05-17 Pfu Ltd ノード監視方法、ノード監視システム、および記録媒体
JP2002259158A (ja) * 2001-03-06 2002-09-13 Unisia Jecs Corp 電子部品診断装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0594383A (ja) * 1991-10-02 1993-04-16 Nec Corp 障害監視装置
JPH07319836A (ja) * 1994-05-30 1995-12-08 Hitachi Ltd 障害監視方式
JPH09172435A (ja) * 1995-12-20 1997-06-30 Pfu Ltd 分散管理システム
JPH11340991A (ja) * 1998-05-25 1999-12-10 Nec Corp マルチキャストを用いたネットワ−ク監視方式
JP2002141921A (ja) * 2000-10-31 2002-05-17 Pfu Ltd ノード監視方法、ノード監視システム、および記録媒体
JP2002259158A (ja) * 2001-03-06 2002-09-13 Unisia Jecs Corp 電子部品診断装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008177740A (ja) * 2007-01-17 2008-07-31 Fuji Xerox Co Ltd 管理装置、及びプログラム
JP2009117915A (ja) * 2007-11-01 2009-05-28 Nec Corp 通信装置、ヘルスチェック間隔調整方法およびヘルスチェック間隔調整プログラム
JP2010211523A (ja) * 2009-03-10 2010-09-24 Ricoh Co Ltd 機器管理装置、機器管理システム、機器管理方法、機器管理プログラム、及びそのプログラムを記録した記録媒体
JP2013178850A (ja) * 2013-06-21 2013-09-09 Nec System Technologies Ltd 監視システム、監視方法、及びプログラム
JP2017161982A (ja) * 2016-03-07 2017-09-14 富士通株式会社 監視プログラム、監視装置、および監視方法
US11586032B2 (en) 2017-01-27 2023-02-21 Gigaphoton Inc. Laser apparatus and extreme ultraviolet light generation system
JP2020022067A (ja) * 2018-07-31 2020-02-06 株式会社リコー システム、方法およびプログラム
JP7103036B2 (ja) 2018-07-31 2022-07-20 株式会社リコー システム、方法およびプログラム

Similar Documents

Publication Publication Date Title
JP2006268310A (ja) 障害監視装置および方法およびプログラム
US8942089B2 (en) Method and apparatus for adaptive fast start in link aggregation
JP5843020B2 (ja) 通信装置及び通信方法
CN115001956B (zh) 服务器集群的运行方法、装置、设备及存储介质
Saifullah et al. CapNet: A real-time wireless management network for data center power capping
WO2013145325A1 (ja) 情報処理システム、障害検知方法および情報処理装置
CN105991371A (zh) 一种故障检测方法及装置
WO2013018183A1 (ja) システム制御装置、電力制御方法及び電子システム
CN106899659B (zh) 分布式系统及其管理方法和管理装置
WO2005104435A1 (en) Methods, devices and computer program products using a node affiliation protocol for monitoring and/or controlling networkable devices
JP2007206955A (ja) 情報処理装置および方法、プログラム、並びに記録媒体
CN109639640B (zh) 消息发送方法和装置
JP2011023983A (ja) ネットワークノード
CN109586978B (zh) 总线拓扑网络自组网方法
CN110213364B (zh) 快递柜监控方法、系统、存储介质和设备
JP2015121963A (ja) 情報処理システム、監視方法、及び、プログラム
US8209405B1 (en) Failover scheme with service-based segregation
CN107547257B (zh) 一种服务器集群实现方法及装置
CN103678095A (zh) 一种告警检测方法
CN102262579A (zh) 一种计算机监控方法及系统
JP5221292B2 (ja) サイクリック伝送システム、及びその伝送方法
JP2008054028A (ja) 制御情報伝送システム
JP2009187269A (ja) データベースシステム及びデータベース接続制御方法
JP2010244129A (ja) 計算機システム
JP5378847B2 (ja) 監視装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080111

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20080318

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080318

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091023

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091117

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100330