JP4725724B2 - クラスタ障害推定システム - Google Patents
クラスタ障害推定システム Download PDFInfo
- Publication number
- JP4725724B2 JP4725724B2 JP2005312539A JP2005312539A JP4725724B2 JP 4725724 B2 JP4725724 B2 JP 4725724B2 JP 2005312539 A JP2005312539 A JP 2005312539A JP 2005312539 A JP2005312539 A JP 2005312539A JP 4725724 B2 JP4725724 B2 JP 4725724B2
- Authority
- JP
- Japan
- Prior art keywords
- node
- cluster
- nodes
- detailed information
- fault
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Hardware Redundancy (AREA)
- Debugging And Monitoring (AREA)
Description
前記複数の被障害監視ノードは、それぞれ、当該被障害監視ノードの資源の利用状況を示す内部情報を詳細情報として取得する詳細情報取得手段を有し、
前記障害監視ノードは、
前記詳細情報を格納するための詳細情報格納手段と、
前記詳細情報取得手段から送られてきた詳細情報を前記詳細情報格納手段に格納する詳細情報管理手段と、
前記複数の被障害監視ノードのうち、リクエストの分配を停止する被障害監視ノードを選定するリクエスト停止ノード選択手段と、
前記リクエスト停止ノード選択手段において選定された被障害監視ノードの詳細情報を前記詳細情報格納手段から取得し、取得した該詳細情報を用いて、複数の被障害監視ノードの中から資源の利用状況が他の被障害監視ノードとは異なるパターンを示す被障害監視ノードを算出する希少ノード計算手段と、
前記希少ノード計算手段によって計算された計算結果を用いて、異常状態にある被詳細監視ノードを検出するクラスタ障害推定手段と、
前記クラスタ障害推定手段により異常が発生していると判定された被障害ノードをネットワークから切り離すノード切離し手段とを有し、
前記負荷分散装置は、
前記リクエスト停止ノード選択手段において選定された被障害監視ノードに対するリクエストの分配を停止するリクエスト停止手段を有することを特徴とする。
(1)クラスタを構成する各ノードへのリクエスト分配を一旦停止し、ノードの定常的な状態で資源の利用状況を取得するようにしているので、リクエストの急激な増加による過負荷の影響を受けずに障害を検出することができる。言い換えると、クラスタが過負荷状態に陥っている状態でも、異常の発生しているノードを発見することができる。
(2)各ノードの資源利用パターンから、希な資源利用状況のノードを障害の発生したノードと判定するようにしているので、異常の発生しているノードのみを正確に検出することができる。
図1は本発明の第1の実施形態のクラスタ障害推定システムの構成を示すブロック図である。
リクエスト停止手段41は、負荷分散装置4に設置される他、各被障害監視ノード内に設置してもよい。そのような場合は、リクエスト停止ノード選択手段81から「リクエストの拒否命令」が各被障害監視ノード6上のリクエスト停止手段に送られてくる。被障害監視ノード6へ負荷分散装置4から送られてくるリクエストは、まずリクエスト停止手段41によって受け取られる。そして、リクエストの拒否命令をリクエスト停止手段41が受け取っている場合は、リクエストを処理せず、そのまま放棄する。こうすることによって、負荷分散装置4においてリクエストの分配を停止することと同じ効果を生む。
クラスタ状態観察手段87を含まない第1の実施形態も構築可能である。このような場合、図3に示されるステップ108〜110のステップが無くなり、異常ノードが発見されなかった場合は、そのまま処理を終了する。
詳細情報管理手段82、詳細情報取得手段66は、図3に示される本実施形態の動作に関連せず、定期的に詳細情報の送受信を行うが、定期的に詳細情報の送受信を行わない手法も存在する。すなわち、リクエスト停止ノード選択手段81によって、リクエストの分配を停止する被障害監視ノード6を決定した後に、それらの被障害監視ノード6の詳細情報のみを詳細情報取得手段66から取得する手法である。この方法を用いても、上記で説明した手法をもちいても、効果は変わらない。
次に、本発明の第2の実施形態のクラスタ障害推定システムについて図面を参照して詳細に説明する。
次に、本発明の第3の実施形態のクラスタ障害推定システムについて図面を参照して詳細に説明する。
次に、本発明の第4の実施形態のクラスタ障害推定システムについて図面を参照して詳細に説明する。
2 リクエスト
3 レスポンス
4 負荷分散装置
5 LAN
6 被障害監視ノード
8 障害監視ノード
36 被障害監視ノード
38 障害監視ノード
41 リクエスト停止手段
48 障害監視ノード
54 負荷分散装置
561〜56N ノード
61 ウィルス監視部
62 監視条件定義ファイル
63 事前登録部
64 測定データファイル
65 資源
66 詳細情報取得手段
71 遮断部
72 ウィルス判定部
76 パーソナルコンピュータ
81 リクエスト停止ノード選択手段
82 詳細情報管理手段
83 詳細情報格納部
84 希少ノード計算手段
85 クラスタ障害推定手段
86 ノード切離し手段
87 クラスタ状態観察手段
88 推定基準設定手段
89 計算および計算因数表示部
90 希少ノード計算手段設定部
91 アプリケーション実行状態観察手段
92 アプリケーション実行状態取得手段
93 異常ノード診断手段
94 異常ノード入力手段
95 補正情報格納部
96 推定結果補正手段
101〜110 ステップ
651 ネットワークリソース
652 CPUリソース
653 入出力リソース
851 推定基準表
Claims (5)
- クラスタを構成する複数の被障害監視ノードと、ユーザ端末からのリクエストを前記各被障害監視ノードに対して分配する負荷分散装置と、前記複数の被障害監視ノードの中から異常の発生しているノードを検出するための障害監視ノードとから構成されるクラスタ障害推定システムにおいて、
前記複数の被障害監視ノードは、それぞれ、当該被障害監視ノードの資源の利用状況を示す内部情報を詳細情報として取得する詳細情報取得手段を有し、
前記障害監視ノードは、
前記詳細情報を格納するための詳細情報格納手段と、
前記詳細情報取得手段から送られてきた詳細情報を前記詳細情報格納手段に格納する詳細情報管理手段と、
前記複数の被障害監視ノードのうち、リクエストの分配を停止する被障害監視ノードを選定するリクエスト停止ノード選択手段と、
前記リクエスト停止ノード選択手段において選定された被障害監視ノードの詳細情報を前記詳細情報格納手段から取得し、取得した該詳細情報を用いて、複数の被障害監視ノードの中から資源の利用状況が他の被障害監視ノードとは異なるパターンを示す被障害監視ノードを算出する希少ノード計算手段と、
前記希少ノード計算手段によって計算された計算結果を用いて、異常状態にある被詳細監視ノードを検出するクラスタ障害推定手段と、
前記クラスタ障害推定手段により異常が発生していると判定された被障害ノードをネットワークから切り離すノード切離し手段とを有し、
前記負荷分散装置は、
前記リクエスト停止ノード選択手段において選定された被障害監視ノードに対するリクエストの分配を停止するリクエスト停止手段を有することを特徴とするクラスタ障害推定システム。 - 前記障害監視ノードは、
前記クラスタ障害推定手段において異常の発生している被障害監視ノードが検出されなかった場合、前記詳細情報格納部に格納されている詳細情報に基づいて前記複数の被障害監視ノードが過負荷状態であるか否かを判定し、該複数の被障害監視ノードが過負荷状態であると判定した場合、前記複数の被障害監視ノードの詳細情報取得手段に対して、詳細情報の取得を一時的に停止するように命令するクラスタ状態観察手段をさらに有する請求項1記載のクラスタ障害推定システム。 - 前記障害監視ノードは、
前記希少ノード計算手段によって使用される計算方法を変更するための希少ノード計算手段設定部と、
前記希少ノード計算手段によって使用された計算方法および、計算途中で利用された計算因数を表示する計算および計算因数表示部と、
前記クラスタ障害推定手段で用いられる推定基準を変更するための推定基準設定手段と、をさらに有する請求項1記載のクラスタ障害推定システム。 - 前記複数の被障害監視ノードは、それぞれ、
当該複数の被障害監視ノードで実行されているアプリケーションの情報を取得して送信するアプリケーション実行状態取得手段をさらに有し、
前記障害監視ノードは、
前記アプリケーション実行状態取得手段から送られてきた情報に基づいて、実行されているアプリケーションの状態が同様なノード群のリストを前記リクエスト停止ノード選択手段に通知するアプリケーション実行状態観察手段をさらに有する請求項1から3のいずれか1項記載のクラスタ障害推定システム。 - 前記障害監視ノードは、
前記クラスタ障害推定手段により異常ノードと判定されたノードの中で、実際に障害のあった被障害監視ノードと、障害はなく、誤検知であったノードを分別する異常ノード診断手段と、
前記異常ノード診断手段の出力結果を用いて、前記クラスタ障害推定手段におけるクラスタ障害推定に用いられる推定基準を自動的に変更する推定結果補正手段と、
前記推定結果補正手段における補正情報を格納するための補正情報格納部と、をさらに有する請求項1記載のクラスタ障害推定システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005312539A JP4725724B2 (ja) | 2005-10-27 | 2005-10-27 | クラスタ障害推定システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005312539A JP4725724B2 (ja) | 2005-10-27 | 2005-10-27 | クラスタ障害推定システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007122330A JP2007122330A (ja) | 2007-05-17 |
JP4725724B2 true JP4725724B2 (ja) | 2011-07-13 |
Family
ID=38146124
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005312539A Expired - Fee Related JP4725724B2 (ja) | 2005-10-27 | 2005-10-27 | クラスタ障害推定システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4725724B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190140179A (ko) * | 2018-06-11 | 2019-12-19 | 주식회사 티맥스오에스 | 컨테이너 기반 통합 관리 시스템 |
KR20190143531A (ko) * | 2018-06-11 | 2019-12-31 | 주식회사 티맥스오에스 | 컨테이너 기반 클라우드 서버를 위한 통합관리 시스템 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007108407A1 (ja) * | 2006-03-17 | 2007-09-27 | Nec Corporation | 端末位置特定方法、端末位置特定システム、測位サーバ及びプログラム |
JP4573179B2 (ja) * | 2006-05-30 | 2010-11-04 | 日本電気株式会社 | 性能負荷異常検出システム、性能負荷異常検出方法、及びプログラム |
GB2452715A (en) * | 2007-09-11 | 2009-03-18 | Loadbalancer Org Ltd | Method and system for monitoring a cluster database |
JP5047072B2 (ja) * | 2008-06-20 | 2012-10-10 | 三菱電機株式会社 | データ転送システム及び転送装置及び監視装置及び転送プログラム及び監視プログラム |
JP5244686B2 (ja) * | 2009-04-24 | 2013-07-24 | 株式会社東芝 | 監視装置およびサーバー |
WO2011083687A1 (ja) * | 2010-01-08 | 2011-07-14 | 日本電気株式会社 | 運用管理装置、運用管理方法、及びプログラム記憶媒体 |
JPWO2013035162A1 (ja) * | 2011-09-06 | 2015-03-23 | 株式会社日立製作所 | 分散型電力系統監視制御システム及び分散型電力系統監視制御方法 |
JP5821471B2 (ja) * | 2011-09-28 | 2015-11-24 | 富士通株式会社 | 情報処理装置、プロセス監視方法、プロセス監視プログラム、記録媒体 |
JP6380774B1 (ja) | 2017-03-31 | 2018-08-29 | 日本電気株式会社 | コンピュータシステム、サーバ装置、プログラム及び障害検出方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10198642A (ja) * | 1997-01-09 | 1998-07-31 | Fujitsu Ltd | サーバ装置 |
JP2001075934A (ja) * | 1999-09-07 | 2001-03-23 | Nec Eng Ltd | 負荷分散処理システム及び方法 |
JP2002342182A (ja) * | 2001-05-21 | 2002-11-29 | Hitachi Ltd | ネットワークシステムにおける運用管理の支援システム |
JP2003248596A (ja) * | 2002-02-26 | 2003-09-05 | Hitachi Ltd | 多重計算機システムにおける処理の引継方法 |
JP4286594B2 (ja) * | 2003-06-12 | 2009-07-01 | 三菱電機株式会社 | 障害解析データ採取装置およびその方法 |
JP3971353B2 (ja) * | 2003-07-03 | 2007-09-05 | 富士通株式会社 | ウィルス隔離システム |
JP4051020B2 (ja) * | 2003-10-28 | 2008-02-20 | 富士通株式会社 | ワーム判定プログラム、ワーム判定プログラムを記憶したコンピュータ読み取り可能な記憶媒体、ワーム判定方法およびワーム判定装置 |
-
2005
- 2005-10-27 JP JP2005312539A patent/JP4725724B2/ja not_active Expired - Fee Related
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190140179A (ko) * | 2018-06-11 | 2019-12-19 | 주식회사 티맥스오에스 | 컨테이너 기반 통합 관리 시스템 |
KR102059808B1 (ko) * | 2018-06-11 | 2019-12-27 | 주식회사 티맥스오에스 | 컨테이너 기반 통합 관리 시스템 |
KR20190143531A (ko) * | 2018-06-11 | 2019-12-31 | 주식회사 티맥스오에스 | 컨테이너 기반 클라우드 서버를 위한 통합관리 시스템 |
KR102093130B1 (ko) * | 2018-06-11 | 2020-04-23 | 주식회사 티맥스에이앤씨 | 컨테이너 기반 클라우드 서버를 위한 통합관리 시스템 |
US11003765B2 (en) | 2018-06-11 | 2021-05-11 | Tmax A&C Co., Ltd | Container-based integrated management system |
Also Published As
Publication number | Publication date |
---|---|
JP2007122330A (ja) | 2007-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4725724B2 (ja) | クラスタ障害推定システム | |
US8645769B2 (en) | Operation management apparatus, operation management method, and program storage medium | |
US7574620B2 (en) | Method for operating an arrangement of a plurality of computers in the event of a computer failure | |
CN111049705A (zh) | 一种监控分布式存储系统的方法及装置 | |
CN110825544A (zh) | 计算节点及其失效检测方法与云端数据处理系统 | |
WO2011155621A1 (ja) | 障害検出装置、障害検出方法およびプログラム記録媒体 | |
JPWO2014033894A1 (ja) | サービス性能監視方法 | |
CN104506392B (zh) | 一种宕机检测方法及设备 | |
JP6595861B2 (ja) | 情報処理装置、ログ取得方法およびログ取得プログラム | |
US10020982B2 (en) | Failure isolation method and management server for failure isolation | |
CN106453504A (zh) | 一种基于nginx服务器集群的监控系统及方法 | |
US8275865B2 (en) | Methods, systems and computer program products for selecting among alert conditions for resource management systems | |
Imran et al. | Cloud-niagara: A high availability and low overhead fault tolerance middleware for the cloud | |
JP2007280155A (ja) | 分散システムにおける信頼性向上方法 | |
JP2020038506A (ja) | 情報処理システム、情報処理方法、及び、プログラム | |
JP4968568B2 (ja) | 障害監視方法、障害監視システムおよびプログラム | |
JP2020038525A (ja) | 異常検知装置 | |
CN115378794A (zh) | 一种基于快照模式的网关故障检测方法及装置 | |
JP2015082131A (ja) | 監視システム、監視方法、監視プログラム及び監視装置 | |
JP7474168B2 (ja) | 監視システムおよび障害監視方法 | |
JP2008005118A (ja) | ネットワーク監視システム | |
JP6163751B2 (ja) | 判定プログラム、判定方法および判定システム | |
JP2010087834A (ja) | ネットワーク監視システム | |
WO2018173698A1 (ja) | 監視システム、コンピュータ可読記憶媒体および監視方法 | |
JP6073211B2 (ja) | サーバ監視方法およびサーバ監視システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080919 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100401 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110316 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110329 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4725724 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140422 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |