JP6323243B2 - システム及び異常検知方法 - Google Patents
システム及び異常検知方法 Download PDFInfo
- Publication number
- JP6323243B2 JP6323243B2 JP2014161251A JP2014161251A JP6323243B2 JP 6323243 B2 JP6323243 B2 JP 6323243B2 JP 2014161251 A JP2014161251 A JP 2014161251A JP 2014161251 A JP2014161251 A JP 2014161251A JP 6323243 B2 JP6323243 B2 JP 6323243B2
- Authority
- JP
- Japan
- Prior art keywords
- information processing
- node
- information
- path
- message
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
- G06F11/0772—Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0709—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0751—Error or fault detection not based on redundancy
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
- G06F11/0784—Routing of error reports, e.g. with a specific transmission path or data flow
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Computer Networks & Wireless Communication (AREA)
- Debugging And Monitoring (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Description
本実施の形態においては、監視対象ノードの資源を利用して管理ノードの負荷を下げるという方針を採用している。但し、監視対象ノードの負荷があるレベルを超えて増加することも回避する。
第1の実施の形態では、ハミルトンパスを1本のみ設定する例を示したが、監視対象ノードが多数存在する場合には、ハミルトンパスが長くなりすぎて監視にかかる時間が長くなりすぎる場合がある。
通信パスを介して接続された複数の情報処理装置と、
前記複数の情報処理装置を管理する管理装置と
を含み、
前記管理装置は、
前記複数の情報処理装置に対して設定されたハミルトンパスにおいて前記複数の情報処理装置のうち正常に動作する最初の情報処理装置に、検出した異常に関する情報を含むメッセージを送信し、
前記複数の情報処理装置の各々は、
前記メッセージを受信すると、前記ハミルトンパスにおいて次に正常に動作する情報処理装置が存在する場合には当該次に正常に動作する情報処理装置に、これまでに検出された異常に関する情報を含むメッセージを送信し、
前記ハミルトンパスにおいて次に正常に動作する情報処理装置を検出できない又は前記ハミルトンパスの末端である情報処理装置は、
これまでに検出された異常に関する情報を前記管理装置に送信する
システム。
前記複数の情報処理装置の各々は、
前記ハミルトンパスにおいて次に正常に動作する情報処理装置を探索し、
異常な情報処理装置を検出すると、当該異常な情報処理装置のデータを前記管理装置のメモリに書き込む
付記1記載のシステム。
前記管理装置は、
前記複数の情報処理装置の各々がいずれかに属する複数のグループの各々に対して設定されたハミルトンパスにおいて前記複数の情報処理装置のうち正常に動作する最初の情報処理装置に、検出した異常に関する情報を含むメッセージを送信し、
前記複数のグループの各々について前記これまでに検出された異常に関する情報を受信すると、当該情報を集約する
付記1又は2記載のシステム。
通信パスを介して接続された複数の情報処理装置と、前記複数の情報処理装置を管理する管理装置とを有するシステムにより実行される異常検出方法であって、
前記管理装置は、前記複数の情報処理装置に対して設定されたハミルトンパスにおいて前記複数の情報処理装置のうち正常に動作する最初の情報処理装置に、検出した異常に関する情報を含むメッセージを送信し、
前記複数の情報処理装置の各々は、前記メッセージを受信すると、前記ハミルトンパスにおいて次に正常に動作する情報処理装置が存在する場合には当該次に正常に動作する情報処理装置に、これまでに検出された異常に関する情報を含むメッセージを送信し、
前記複数の情報処理装置のうち前記ハミルトンパスにおいて次に正常に動作する情報処理装置を検出できない又は前記ハミルトンパスの末端である情報処理装置は、これまでに検出された異常に関する情報を前記管理装置に送信する
処理を含む異常検出方法。
10,10b 通信部
11 RDMA部
12 リダクション処理部
20 監視処理部
30 ハミルトンパスデータ格納部
200,200b 管理ノード
210 初期設定部
211 ハミルトンパス生成部
220 ハミルトンパスデータ格納部
230 監視処理部
240,240b 通信部
241 RDMA部
242 リダクション処理部
250 メモリ
260 異常処理部
Claims (4)
- 通信パスを介して接続された複数の情報処理装置と、
前記複数の情報処理装置を管理する管理装置と
を含み、
前記管理装置は、
前記複数の情報処理装置に対して設定されたハミルトンパスにおいて前記複数の情報処理装置のうち正常に動作する最初の情報処理装置に、検出した異常に関する情報を含むメッセージを送信し、
前記複数の情報処理装置の各々は、
前記メッセージを受信すると、前記ハミルトンパスにおいて次に正常に動作する情報処理装置が存在する場合には当該次に正常に動作する情報処理装置に、これまでに検出された異常に関する情報を含むメッセージを送信し、
前記ハミルトンパスにおいて次に正常に動作する情報処理装置を検出できない又は前記ハミルトンパスの末端である情報処理装置は、
これまでに検出された異常に関する情報を前記管理装置に送信する
システム。 - 前記複数の情報処理装置の各々は、
前記ハミルトンパスにおいて次に正常に動作する情報処理装置を探索し、
異常な情報処理装置を検出すると、当該異常な情報処理装置のデータを前記管理装置のメモリに書き込む
請求項1記載のシステム。 - 前記管理装置は、
前記複数の情報処理装置の各々がいずれかに属する複数のグループの各々に対して設定されたハミルトンパスにおいて前記複数の情報処理装置のうち正常に動作する最初の情報処理装置に、検出した異常に関する情報を含むメッセージを送信し、
前記複数のグループの各々について前記これまでに検出された異常に関する情報を受信すると、当該情報を集約する
請求項1又は2記載のシステム。 - 通信パスを介して接続された複数の情報処理装置と、前記複数の情報処理装置を管理する管理装置とを有するシステムにより実行される異常検出方法であって、
前記管理装置は、前記複数の情報処理装置に対して設定されたハミルトンパスにおいて前記複数の情報処理装置のうち正常に動作する最初の情報処理装置に、検出した異常に関する情報を含むメッセージを送信し、
前記複数の情報処理装置の各々は、前記メッセージを受信すると、前記ハミルトンパスにおいて次に正常に動作する情報処理装置が存在する場合には当該次に正常に動作する情報処理装置に、これまでに検出された異常に関する情報を含むメッセージを送信し、
前記複数の情報処理装置のうち前記ハミルトンパスにおいて次に正常に動作する情報処理装置を検出できない又は前記ハミルトンパスの末端である情報処理装置は、これまでに検出された異常に関する情報を前記管理装置に送信する
処理を含む異常検出方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014161251A JP6323243B2 (ja) | 2014-08-07 | 2014-08-07 | システム及び異常検知方法 |
US14/742,842 US9727403B2 (en) | 2014-08-07 | 2015-06-18 | System and method for detecting an abnormal condition in a multi-node communication system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014161251A JP6323243B2 (ja) | 2014-08-07 | 2014-08-07 | システム及び異常検知方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016038705A JP2016038705A (ja) | 2016-03-22 |
JP6323243B2 true JP6323243B2 (ja) | 2018-05-16 |
Family
ID=55267482
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014161251A Active JP6323243B2 (ja) | 2014-08-07 | 2014-08-07 | システム及び異常検知方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9727403B2 (ja) |
JP (1) | JP6323243B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7063139B2 (ja) * | 2018-06-15 | 2022-05-09 | 富士通株式会社 | 監視プログラム、監視方法、および並列処理装置 |
WO2021209784A1 (en) * | 2020-04-13 | 2021-10-21 | Eci Telecom Ltd. | Satisfying service demands in data communication networks |
CN112217668B (zh) * | 2020-09-29 | 2021-10-29 | 福州大学 | 基于比较模型的自适应网络故障诊断方法 |
CN113220540B (zh) * | 2021-06-07 | 2023-04-25 | 深圳华锐分布式技术股份有限公司 | 业务管理方法、装置、计算机设备和存储介质 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3532037B2 (ja) | 1996-07-31 | 2004-05-31 | 富士通株式会社 | 並列計算機 |
JPH11306153A (ja) * | 1998-04-17 | 1999-11-05 | Mitsubishi Electric Corp | 分散システムのネットワーク管理方式 |
JP2000187598A (ja) | 1998-12-24 | 2000-07-04 | Hitachi Ltd | 並列計算機 |
DE60200530T2 (de) * | 2001-04-04 | 2004-09-23 | Alcatel | Mechanismus und Verfahren zur Bestimmung und schnellen Wiederherstellung einer minimalen Kapazität in einem vermaschten Netz |
JP2002312199A (ja) * | 2001-04-13 | 2002-10-25 | Mitsubishi Electric Corp | 異常検知電子機器及び異常検知方法及び異常検知電子機器システム及び異常検知プログラム及び異常検知プログラムを記録したコンピュータ読み取り可能な記録媒体 |
US7551552B2 (en) * | 2003-10-17 | 2009-06-23 | Microsoft Corporation | Method for providing guaranteed distributed failure notification |
US7991857B2 (en) * | 2008-03-24 | 2011-08-02 | International Business Machines Corporation | Broadcasting a message in a parallel computer |
JP4845982B2 (ja) * | 2009-03-05 | 2011-12-28 | 株式会社日立製作所 | 情報処理装置、及びストレージシステムから取得した構成情報の管理方法 |
WO2012004891A1 (ja) * | 2010-07-09 | 2012-01-12 | 富士通株式会社 | コンピュータの監視プログラム,監視方法及び監視装置 |
JP5754504B2 (ja) * | 2011-05-23 | 2015-07-29 | 富士通株式会社 | 管理装置、情報処理装置、情報処理システム及びデータ転送方法 |
FR2987530B1 (fr) * | 2012-02-28 | 2014-03-28 | Sagemcom Energy & Telecom Sas | Reseau de dispositifs formant un systeme de diagnostic |
JPWO2014103078A1 (ja) | 2012-12-28 | 2017-01-12 | 富士通株式会社 | 情報処理システム、情報処理システムの管理方法および情報処理システムの管理プログラム |
-
2014
- 2014-08-07 JP JP2014161251A patent/JP6323243B2/ja active Active
-
2015
- 2015-06-18 US US14/742,842 patent/US9727403B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016038705A (ja) | 2016-03-22 |
US20160041863A1 (en) | 2016-02-11 |
US9727403B2 (en) | 2017-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10075327B2 (en) | Automated datacenter network failure mitigation | |
US7631222B2 (en) | Method and apparatus for correlating events in a network | |
JP6323243B2 (ja) | システム及び異常検知方法 | |
US9165247B2 (en) | Using global and local catastrophes across sub-populations in parallel evolutionary computing | |
US10740198B2 (en) | Parallel partial repair of storage | |
JP2009199395A (ja) | 仮想サーバ管理装置および仮想サーバ管理方法 | |
JP5078347B2 (ja) | 複数のノードを有するコンピュータ・システムの故障ノードをフェイルオーバー(修復)する方法 | |
CN111160661A (zh) | 一种电力通信网可靠性优化方法、系统以及设备 | |
US9032118B2 (en) | Administration device, information processing device, and data transfer method | |
Oliva et al. | Distributed cycle detection and removal | |
WO2019019915A1 (zh) | 一种调度方案配置方法和装置及其计算机可读存储介质和计算机设备 | |
Ali et al. | Probabilistic normed load monitoring in large scale distributed systems using mobile agents | |
US20140317257A1 (en) | Risk mitigation in data center networks | |
Oussane et al. | Fault Tolerance in The IoT: A Taxonomy Based on Techniques | |
Tian et al. | Recovery mechanism of large-scale damaged edge computing net-work in industrial internet of things | |
US8996911B2 (en) | Core file limiter for abnormally terminating processes | |
US20240193439A1 (en) | Automonous digital twin generation using edge-nodes | |
CN117667834B (zh) | 存算解耦系统、数据处理方法及存储介质 | |
Jaggi et al. | Message efficient global snapshot recording using a self stabilizing spanning tree in a MANET | |
US20240195679A1 (en) | Smart online link repair and job scheduling in machine learning supercomputers | |
JP7306481B2 (ja) | 分散処理システム | |
JP2018097435A (ja) | 並列処理装置及びノード間通信プログラム | |
Miao et al. | Computation-Aware Link Repair for Large-Scale Damage in Distributed Cloud Networks | |
Lei | A novel fault tolerance based load balancing technique in cloud computing | |
Al Adraa et al. | Comprehensive Performance and Robustness Analysis of Expander-Based Data Centers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170511 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180228 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180313 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180326 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6323243 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |