JP4968568B2 - 障害監視方法、障害監視システムおよびプログラム - Google Patents
障害監視方法、障害監視システムおよびプログラム Download PDFInfo
- Publication number
- JP4968568B2 JP4968568B2 JP2004373293A JP2004373293A JP4968568B2 JP 4968568 B2 JP4968568 B2 JP 4968568B2 JP 2004373293 A JP2004373293 A JP 2004373293A JP 2004373293 A JP2004373293 A JP 2004373293A JP 4968568 B2 JP4968568 B2 JP 4968568B2
- Authority
- JP
- Japan
- Prior art keywords
- information processing
- information
- failure
- periodic signal
- detailed information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Description
図1は、本発明の第1の実施形態の構成を示すブロック図である。本実施形態のシステムは、図1に示すように、クラスタにおける個々のノードの障害を監視する障害監視ノード100と、この障害監視ノード100の監視対象であり且つ負荷分散装置(図示略)からユーザリクエストを分散して入力される被障害監視ノード200とから構成される。
上記説明した手順は、定期信号の受信障害を到着遅延と判定したとき、障害監視ノード200の過負荷状態が解消傾向にあるか否かを判定し(図3:S207)、解消傾向にあればグループへの復帰を行うものであったが、これに代えて、定期信号の到着遅延が信号消失のような明らかな障害ではないとの判断のもとに、到着遅延を一時的な過負荷状態であると一意に判定し、この判定を行ったとき、グループへ復帰させるようにしてもよい。すなわち、図1の過負荷状態判定手段107を不要とし、また、図3のフローチャートにおいて到着遅延と判定したとき(S203:到着遅延)、直ちに詳細情報から定期信号への切り換え命令(S208)及びグループへの復帰(S209)を行うものである。この手順によれば、グループへの復帰までの手順を簡素化することができる。
本発明の第2の実施形態について図面を参照して詳細に説明する。図5は、第2の実施形態の構成を示すブロック図である。図5を参照すると、本実施形態は、図1に示す第1の実施形態の構成に加え、被障害監視ノード200が内部状態選択手段204及び内部状態付加手段205を持ち、障害監視ノード100が詳細情報選択手段108を持つ。本実施形態は、被障害監視ノード200の内部状態に関する情報を定期信号に付加することにより、信号遅延のような受信障害に先立ち被障害監視ノード200の不具合を察知しようとするものである。
本発明の第3の実施形態について図面を参照して詳細に説明する。図10は、第3の実施形態の構成を示すブロック図である。第3の実施形態のシステムは、図10に示すように、図1に示す第1の実施形態の被障害監視ノード200に、詳細レベル選択手段206を追加したものである。詳細レベル選択手段206は、障害監視ノード100へ詳細情報を送信する際に、自装置の負荷及びネットワーク負荷に応じて、送信する詳細情報を切り替える機能を果たす。
負荷率=(CPU使用率xα)+(ネットワーク帯域使用率xβ) ・・・(1)
1≧(α,β)≧0 α+β=1 ・・・(2)
詳細レベルの設定について、一例を挙げると、詳細レベルを10段階(N=10)、負荷の比率を「α:β=0.8:0.2」としたときに、CPU使用率が50%、ネットワーク帯域使用率が30%であったとする。この場合、上記式(1)より、負荷率は「0.46」となり、これに全レベル数(N=10)を掛けることにより、詳細レベル「4」を得る。詳細レベル選択手段206は、上述の演算に基づく詳細情報の切り替え判断を、所定期間ごと、あるいは詳細情報の送出ごとに行い、詳細レベルの変化に従い、取得すべき詳細情報の内容を変化させる。
図10に示す詳細レベル選択手段206と同様な機能を果たす手段を、被障害監視ノード200に代えて障害監視ノード100に設置することができる。この場合、最初の詳細情報は詳細レベル「1」にて取得し、その後、上記式(1)を用いて、ノード及びネットワークの負荷率に対応する詳細レベルを適用する。そして、適用する詳細レベルを被障害監視ノード200へ通知し、被障害監視ノード200が、通知されたレベルに基づき詳細情報を生成する。この形態によれば、詳細レベルを求める演算を障害監視ノード100側で行う分、被障害監視ノード200の負荷を軽くすることができる。
本発明の第4の実施形態について図面を参照して詳細に説明する。図12は、第4の実施形態の構成を示すブロック図である。本実施形態のシステムは、図1に示す第1の実施形態の障害監視ノード100に簡易障害判定手段109を追加し、被障害監視ノード200に障害対応手段207を追加したものである。
200 被障害監視ノード
101:定期信号受信手段、102,111:定期信号障害判定手段、103:グループ管理手段、104,112:情報量切り替え命令送信手段、105,113:詳細情報受信手段、106:詳細情報表示部、107:過負荷状態判定手段、108:詳細情報選択手段、109:簡易障害判定手段、201:定期信号送信手段、202,211:情報量切り替え手段、203:詳細情報送信手段、204:内部状態選択手段、205:内部状態付加手段:206:詳細レベル選択手段、207:障害対処手段
Claims (18)
- 外部装置からの要求が分散して入力される複数の情報処理装置と、該各情報処理装置と通信可能に接続された障害監視装置とを備えるシステムにおける障害監視方法であって、
前記各情報処理装置が、前記障害監視装置に対し所定の時間間隔にて定期信号を送信する処理を実行し、
前記障害監視装置が、前記各情報処理装置から定期信号を受信したか否かを判定し、否のとき、当該情報処理装置に対する外部装置からの要求の入力を停止させ、該停止後、前記情報処理装置から該装置の動作状況を示す詳細情報を取得し該詳細情報に基づき前記情報処理装置の過負荷発生または障害発生のいずれかを判定し、過負荷発生と判定したとき、前記情報処理装置に対する前記入力停止を解除することを特徴とする障害監視方法。 - 前記障害監視装置が、詳細情報に基づく前記判定を過負荷発生としたとき、前記情報処理装置の過負荷状態が解消傾向にあるか否かを判定し、解消傾向にあると判定したとき、前記入力停止の解除を実行することを特徴とする請求項1記載の障害監視方法。
- 前記各情報処理装置が、自装置のリソースについて正常か否かを示す内部情報を定期信号に付加し、
前記障害監視装置が、前記各情報処理装置からの定期信号に含まれる内部情報に基づき当該情報処理装置における異常のリソースの有無を判定し、異常のリソースがあるとき、当該リソースに対応し且つ前記情報処理装置が送信すべき詳細情報の内容を該情報処理装置へ通知し、
前記情報処理装置が、前記障害監視装置からの通知に対応する詳細情報を送信することを特徴とする請求項1又は2記載の障害監視方法。 - 前記各情報処理装置が、自装置およびネットワークの負荷の変化に応じて前記障害監視装置へ送信すべき詳細情報を変化させることを特徴とする請求項1記載の障害監視方法。
- 前記障害監視装置が、前記情報処理装置およびネットワークの負荷の変化に応じて前記情報処理装置から取得すべき詳細情報を変化させることを特徴とする請求項1記載の障害監視方法。
- 前記障害監視装置が、詳細情報に基づく前記判定を障害発生としたとき、当該障害を解決するための対処情報を前記情報処理装置へ送信し、
前記情報処理装置が、前記障害監視装置からの対処情報に対応する処理を実行し、該処理が完了したとき該完了の旨を前記障害監視装置へ通知し、
前記障害監視装置が、前記情報処理装置から前記処理の完了を通知されたとき該情報処理装置に対する前記入力停止を解除することを特徴とする請求項1記載の障害監視方法。 - 外部装置からの要求が分散して入力される複数の情報処理装置と、該各情報処理装置と通信可能に接続された障害監視装置とを備え、
前記各情報処理装置は、
前記障害監視装置に対し所定の時間間隔にて定期信号を送信する処理を実行する定期信号送信手段と、
定期信号の送信後、前記障害監視装置に対し自装置の動作状況を示す詳細情報を送信する詳細情報送信手段とを有し、
前記障害監視装置は、
前記各情報処理装置から定期信号を受信したか否かを判定する定期信号判定手段と、
前記各情報処理装置に対する外部装置からの入力可否の切り替えを行うグループ管理手段と、
前記定期信号判定手段による判定が否のとき、当該情報処理装置に対する外部装置からの要求の入力を停止させ、該停止後、前記情報処理装置から詳細情報を取得し該詳細情報に基づき前記情報処理装置の過負荷発生または障害発生のいずれかを判定し、過負荷発生と判定したとき、前記情報処理装置に対する前記入力停止を解除する監視制御手段とを有することを特徴とする障害監視システム。 - 前記障害監視装置は、詳細情報に基づく前記判定を過負荷発生としたとき前記情報処理装置の過負荷状態が解消傾向にあるか否かを判定する過負荷状態判定手段を有し、
前記監視制御手段は、前記情報処理装置の過負荷状態が解消傾向にあると判定されたとき、前記入力停止の解除を実行することを特徴とする請求項7記載の障害監視システム。 - 前記各情報処理装置は、自装置のリソースについて正常か否かを示す内部情報を定期信号に付加する内部状態付加手段を有し、
前記障害監視装置は、前記各情報処理装置からの定期信号に含まれる内部情報に基づき当該情報処理装置における異常のリソースの有無を判定し、異常のリソースがあるとき当該リソースに対応し且つ前記情報処理装置が送信すべき詳細情報の内容を該情報処理装置へ通知する詳細情報選択手段を有することを特徴とする請求項7又は8記載の障害監視システム。 - 前記各情報処理装置は、自装置およびネットワークの負荷の変化に応じて前記障害監視装置へ送信すべき詳細情報を変化させるレベル選択手段を有することを特徴とする請求項7記載の障害監視システム。
- 前記障害監視装置は、前記情報処理装置およびネットワークの負荷の変化に応じて前記情報処理装置から取得すべき詳細情報を変化させるレベル選択手段を有することを特徴とする請求項7記載の障害監視システム。
- 前記障害監視装置は、前記情報処理装置の障害を判別し該障害を解決するための対処情報を前記情報処理装置へ送信する障害判定手段を有し、
前記各情報処理装置は、前記障害監視装置からの対処情報に対応する処理を実行し該処理の完了の旨を前記障害監視装置へ通知する障害対処手段を有し、
前記監視制御手段は、前記情報処理装置から前記処理の完了を通知されたとき該情報処理装置に対する前記入力停止を解除することを特徴とする請求項7記載の障害監視システム。 - 外部装置からの要求が分散して入力される複数の情報処理装置と通信可能に接続された障害監視装置であって、
前記各情報処理装置から所定の時間間隔にて送信される定期信号を受信したか否かを判定する定期信号判定手段と、
前記各情報処理装置に対する外部装置からの入力可否の切り替えを行うグループ管理手段と、
前記定期信号判定手段による判定が否のとき、当該情報処理装置に対する外部装置からの要求の入力を停止させ、該停止後、前記情報処理装置から該装置の動作状況を示す詳細情報を取得し該詳細情報に基づき前記情報処理装置の過負荷発生または障害発生のいずれかを判定し、過負荷発生と判定したとき、前記情報処理装置に対する前記入力停止を解除する監視制御手段とを有することを特徴とする障害監視装置。 - 詳細情報に基づく前記判定を過負荷発生としたとき前記情報処理装置の過負荷状態が解消傾向にあるか否かを判定する過負荷状態判定手段を有し、
前記監視制御手段は、前記情報処理装置の過負荷状態が解消傾向にあると判定されたとき、前記入力停止の解除を実行することを特徴とする請求項13記載の障害監視装置。 - 前記各情報処理装置のリソースについて正常か否かを示す内部情報が付加された定期信号を受信したとき該定期信号に含まれる内部情報に基づき当該情報処理装置における異常のリソースの有無を判定し、異常のリソースがあるとき当該リソースに対応し且つ前記情報処理装置が送信すべき詳細情報の内容を該情報処理装置へ通知する詳細情報選択手段を有することを特徴とする請求項13又は14記載の障害監視装置。
- 前記情報処理装置およびネットワークの負荷の変化に応じて前記情報処理装置から取得すべき詳細情報を変化させるレベル選択手段を有することを特徴とする請求項13記載の障害監視装置。
- 前記各情報処理装置の障害を判別し該障害を解決するための対処情報を当該情報処理装置へ送信する障害判定手段を有し、
前記監視制御手段は、前記情報処理装置から前記対処情報に対応する処理の完了を通知されたとき該情報処理装置に対する前記入力停止を解除することを特徴とする請求項13記載の障害監視装置。 - コンピュータを、請求項13乃至17いずれか1項に記載の障害監視装置として機能させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004373293A JP4968568B2 (ja) | 2004-12-24 | 2004-12-24 | 障害監視方法、障害監視システムおよびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004373293A JP4968568B2 (ja) | 2004-12-24 | 2004-12-24 | 障害監視方法、障害監視システムおよびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006178851A JP2006178851A (ja) | 2006-07-06 |
JP4968568B2 true JP4968568B2 (ja) | 2012-07-04 |
Family
ID=36732906
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004373293A Active JP4968568B2 (ja) | 2004-12-24 | 2004-12-24 | 障害監視方法、障害監視システムおよびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4968568B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5098456B2 (ja) * | 2007-06-15 | 2012-12-12 | 村田機械株式会社 | プロセス状態監視装置 |
EP2177993A4 (en) * | 2007-07-10 | 2011-01-12 | Nec Corp | COMPUTER SYSTEM, MANAGEMENT DEVICE, AND METHOD OF MANAGING COMPUTER SYSTEM |
JP6082678B2 (ja) * | 2013-09-13 | 2017-02-15 | 株式会社日立製作所 | サーバ負荷分散方法およびプログラム |
JP6977650B2 (ja) * | 2018-03-30 | 2021-12-08 | 富士通株式会社 | 異常検出方法、異常検出プログラム、及び異常検出装置 |
CN110147292A (zh) * | 2019-04-15 | 2019-08-20 | 平安普惠企业管理有限公司 | 网页异常的监控方法、装置、存储介质及计算机设备 |
CN111198778B (zh) * | 2020-01-10 | 2024-03-15 | 广东金赋科技股份有限公司 | 一种自助终端故障上报的方法和装置 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0691565B2 (ja) * | 1987-06-17 | 1994-11-14 | 日本電気株式会社 | 相手処理装置の動作監視装置 |
JPH03122753A (ja) * | 1989-10-05 | 1991-05-24 | Nec Corp | プロセッサ管理方式 |
JPH07302242A (ja) * | 1994-04-30 | 1995-11-14 | Mitsubishi Electric Corp | 負荷分散方式 |
JPH09297733A (ja) * | 1996-04-30 | 1997-11-18 | Nec Corp | コンソールメッセージの監視による自動運転システム |
JP2000259449A (ja) * | 1999-03-09 | 2000-09-22 | Hitachi Information Systems Ltd | プログラム実行トレース取得制御システムおよびその方法ならびに該方法を実現するプログラムを記録した記録媒体 |
JP2002351855A (ja) * | 2001-05-28 | 2002-12-06 | Mitsubishi Electric Corp | 計算機異常処理システムおよび、計算機異常処理方法および、計算機で動作する計算機異常処理プログラムおよび、コンピュータにより読み取り可能な記録媒体に記録された計算機異常処置プログラム |
JP2003114811A (ja) * | 2001-10-05 | 2003-04-18 | Nec Corp | 自動障害復旧方法及びシステム並びに装置とプログラム |
JP2003345770A (ja) * | 2002-05-24 | 2003-12-05 | Nec Corp | クラスタシステム及びそのサーバ切替え方法 |
JP3916232B2 (ja) * | 2002-11-27 | 2007-05-16 | 日本電気株式会社 | ナレッジ型運用管理システム,方法およびプログラム |
EP1627316B1 (en) * | 2003-05-27 | 2018-02-21 | Vringo Infrastructure Inc. | Data collection in a computer cluster |
-
2004
- 2004-12-24 JP JP2004373293A patent/JP4968568B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2006178851A (ja) | 2006-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10802900B2 (en) | Compute node, failure detection method thereof and cloud data processing system | |
US8332506B2 (en) | Network monitor program executed in a computer of cluster system, information processing method and computer | |
US7328367B2 (en) | Logically partitioned computer system and method for controlling configuration of the same | |
US10911295B2 (en) | Server apparatus, cluster system, cluster control method and program | |
US20080288812A1 (en) | Cluster system and an error recovery method thereof | |
JP4725724B2 (ja) | クラスタ障害推定システム | |
US20160036654A1 (en) | Cluster system | |
US20090164565A1 (en) | Redundant systems management frameworks for network environments | |
JP4834622B2 (ja) | ビジネスプロセス運用管理システム、方法、プロセス運用管理装置およびそのプログラム | |
JP4968568B2 (ja) | 障害監視方法、障害監視システムおよびプログラム | |
JP2010231293A (ja) | 監視装置 | |
JP5408620B2 (ja) | データ分散管理システム及びデータ分散管理方法 | |
JP2011203941A (ja) | 情報処理装置、監視方法、および監視プログラム | |
JP4863984B2 (ja) | 監視処理プログラム、方法及び装置 | |
WO2014010021A1 (ja) | 情報処理装置、情報処理システム、情報処理装置制御方法及び情報処理装置制御プログラム | |
JP2006325118A (ja) | 監視データ収集システム | |
JP2007272328A (ja) | コンピュータ・システム | |
KR101883251B1 (ko) | 가상 시스템에서 장애 조치를 판단하는 장치 및 그 방법 | |
JP6368842B2 (ja) | プロセス監視プログラム及びプロセス監視システム | |
JP2005110096A (ja) | 通信装置および方法 | |
JP6309711B2 (ja) | プロセス監視プログラム及びプロセス監視システム | |
CN114760317A (zh) | 虚拟网关集群的故障检测方法及相关设备 | |
KR101015251B1 (ko) | 통신망시스템의 관리시스템 및 그 관리방법 | |
JP2014204136A (ja) | 輻輳制御システム、輻輳制御方法及び輻輳制御プログラム | |
JP2010237793A (ja) | 稼働状況監視システム、方法、及び、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071112 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080514 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20101001 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20101001 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110301 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20111122 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120220 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20120227 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120309 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120322 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150413 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4968568 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |