JP2007028118A - ノード装置の故障判断方法 - Google Patents

ノード装置の故障判断方法 Download PDF

Info

Publication number
JP2007028118A
JP2007028118A JP2005206301A JP2005206301A JP2007028118A JP 2007028118 A JP2007028118 A JP 2007028118A JP 2005206301 A JP2005206301 A JP 2005206301A JP 2005206301 A JP2005206301 A JP 2005206301A JP 2007028118 A JP2007028118 A JP 2007028118A
Authority
JP
Japan
Prior art keywords
failure
node device
circuit
network
detection time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005206301A
Other languages
English (en)
Inventor
Mamoru Ichimura
守 市村
Hiroaki Kurihara
紘章 栗原
Junichi Sekimura
淳一 関村
Hideaki Masuko
英昭 益子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Hitachi Information and Control Systems Inc
Hitachi Information and Control Solutions Ltd
Original Assignee
Hitachi Ltd
Hitachi Information and Control Systems Inc
Hitachi Information and Control Solutions Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd, Hitachi Information and Control Systems Inc, Hitachi Information and Control Solutions Ltd filed Critical Hitachi Ltd
Priority to JP2005206301A priority Critical patent/JP2007028118A/ja
Publication of JP2007028118A publication Critical patent/JP2007028118A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)
  • Small-Scale Networks (AREA)
  • Retry When Errors Occur (AREA)
  • Debugging And Monitoring (AREA)

Abstract

【課題】
物量の増大を抑えたシングル構成において、複数のノード装置が接続され相互に通信を行うネットワークの各ノード装置の稼動性の確保及び向上を目的とする。
【解決手段】
シングル構成のネットワークのノード装置3において、ノード装置3の停止処理を、ノード装置3の設定された検出時間内の故障発生の有無と故障発生回数と再起動許可閾値との比較により動作可否の判断を行い、復旧が不可能な故障と判断された場合は該当するノード装置3を停止する。
【選択図】図1

Description

本発明は、複数のノードが接続され相互に通信を行うネットワークのノード装置の故障判断方法に関する。
近年、ネットワーク技術の発展に伴い、ネットワーク関連製品の価格も安価になってきており、広い分野にネットワークが用いられるようになってきた。このため、構築されるネットワークの規模は大きくなり、ネットワークの構成も複雑になっている。
又、ネットワークの重要性が高まり、ネットワーク機器の信頼性の向上と稼動率の向上が求められている。このため、複雑なハード,ソフト構成により装置を多重化して信頼性の確保と高い稼動率の確保を行っている。
〔特許文献1〕には、観測可能でネットワークにおいて発生する例外的な状態であるシンプトンの発生状況を規定頻度以上発生したシンプトン異常発生状態、規定頻度未満で発生したシンプトン継続発生状態、全く発生していないシンプトン未発生状態の3種に分類し、シンプトン異常発生状態とシンプトン継続発生状態を通知するようにしたネットワーク管理方法が記載されている。
特開2001−7892号公報
上記した装置を多重化する従来の技術では、装置の故障が発生した場合、主従系の間で障害が検出された系を停止し、待機系に切換えて動作を引継ぎ、継続して動作を行うようにしている。
しかし、多重化すると装置の物量が増大して複雑で高価になるという問題があり、多重構成であっても共通部があるため、従系が正常であっても、共通部が故障してしまうと継続した動作ができなくなるという問題がある。
又、シングル構成の装置の場合は、単一故障により動作が停止してしまうため、装置の稼動性が悪くなる。
又、〔特許文献1〕に開示のネットワーク管理方法は、ネットワーク上のTrapイベントを受信してネットワーク上のシンプトン発生状態を検出するもので、ノード装置の信頼性,稼動性の確保については、配慮されていないものであった。
本発明の目的は、単一装置でも高い稼動性を有し、信頼性を確保できるノード装置の故障判断方法を提供することにある。
上記目的を達成するために、複数のノード装置が接続され相互に通信を行うネットワークにおいて、故障によるノード装置の停止処理を、各ノード装置の設定された時間内の故障発生の有無と、故障発生回数と再起動許可回数閾値との比較により動作可否の判断を行い、復旧が不可能な故障と判断された場合は該当するノード装置を停止するようにしたものである。
本発明によれば、ノード装置の障害の度合いにあった停止処理を設定された単位時間内の故障発生回数と閾値により自己判断してノード装置の動作を決定しているので、単一装置で稼動性を確保した、装置障害に強いネットワークを提供することができる。
本発明の一実施例を図1から図3により説明する。本発明は、一般の装置にも適用可能であるが、特にリング型のネットワーク,バス型のネットワークに有効である。本実施例では、リング型のネットワークに適用した例について説明する。
図3に、一般的なリング型のネットワークを示す。図3に示すように、リング型のネットワークは、複数のノード3がリング状に伝送路30で接続されており、伝送路30にはデータを伝送するためのフレームが周回されている。各ノード3では、リング型のネットワーク30を介して、種々の情報が授受されており、ノード3が故障すると、情報の授受ができなくなる。ノード装置が故障すると、故障したノード装置単体が影響を受けるだけでなく、ネットワークの各部での情報の授受が妨げられる影響が想定でき、各ノード装置の稼動性の確保が求められる。
図1は、本実施例のノード装置3aの構成図である。図1に示すように、ノード装置
3aは、ノード装置を制御するためのMPU(Micro Processing Unitの略) 200と、
MPU200とアドレス/データバス208及びコントロールバス209を介して接続される記憶回路205と、MPU200及びコントロールバス209と接続される故障検出回路201と、アドレス/データバス208及びコントロールバス209と接続される制御レジスタ回路202及びネットワーク制御回路207と、制御レジスタ回路202と接続されるライフタイマ回路203と、MPU200及びネットワーク制御回路207にリセット信号線で接続されたリセット出力回路206で構成される。
記憶回路205には、故障発生回数カウンタ204,多重故障検出時間210,再起動許可回数閾値211が記憶されている。故障発生回数カウンタ204は故障発生回数のカウントである。多重故障検出時間210は予め設定された検出時間であり、この検出時間より長ければ再起動可と判断する時間である。再起動許可回数閾値211は、予め設定された復旧可否を判断する閾値であり、この閾値を超えると復旧不可能と判断される。
故障検出回路201は、ノード装置の故障を検出してMPU200に連絡するための回路であり、制御レジスタ回路202は、各種のI/Oを制御する回路であり、ライフタイマ回路203は、ノードライフタイムを計測する回路である。
リセット出力回路206は、MPU200から制御レジスタ回路202をアクセスすることにより、ノード装置のリセット信号を発生する回路であり、ネットワーク制御回路
207は、ネットワーク制御を行う回路である。
図2は、上述したように構成されたノード装置の故障判断方法を示す流れ図である。
ステップ100で、リセット出力回路206のリセット信号が解除されてリセット解除されると、故障判断の動作を開始する。ステップ101で、MPU200のライフタイマ起動によりライフタイマ回路203をスタートする。ライフタイマ回路203がスタートされると、ノード装置の稼動時間の計測が開始される。ここで、ライフタイマは、ノード装置が起動されて再起動されるまで継続して計測された時間であり、ライフタイマの計測により、ノード装置の多重故障検出期間との比較を行い、多重故障検出期間内の故障発生有無により装置の再起動及び停止を判断する。
故障検出回路201によりノード装置の故障が発生したことが検出された場合、ステップ104で、故障発生回数カウンタ204を+1UP、すなわち1つインクリメントさせ、必要な故障情報収集105を実施する。
故障発生時のライフタイムが、記憶回路205に記録されている多重故障検出時間210より長ければ、復旧可能な故障と判断して、ステップ107で、ノード装置のリセット再起動を行い、ノード装置を復旧させる。
故障が多重故障検出時間210内で、且つ故障発生回数カウンタ204の値が、記憶装置205に記録されている再起動許可回数の閾値211内の場合も、復旧可能な故障と判断して、ステップ107で、ノード装置のリセット再起動を行い、ノード装置を復旧させる。
また、障害が多重故障検出時間210内で、且つ故障発生回数カウンタ204の値が再起動許可回数の閾値211をオーバした場合は、復旧が不可能な固定障害と判断して装置を停止させる。
このような判断方法を用いることにより、ノード装置の故障時の再起動及び停止を行い装置故障に強い安定したネットワークを提供することができる。
本発明の一実施例であるノード装置の構成図である。 本実施例のノード装置の故障判断方法の流れ図である。 リング型のネットワークを示す図である。
符号の説明
200…MPU、201…故障検出回路、202…制御レジスタ回路、203…ライフタイマ回路、204…故障発生回数カウンタ、205…記憶回路、206…リセット出力回路、207…ネットワーク制御回路、208…アドレス/データバス、209…コントロールバス。

Claims (4)

  1. 複数のノード装置が接続され相互に通信を行うネットワークにおいて、故障によるノード装置の停止処理を、各ノード装置の設定された検出時間内の故障発生の有無と、故障発生回数と再起動許可回数閾値との比較により動作可否の判断を行い、復旧が不可能な故障と判断された場合は該当するノード装置を停止するノード装置の故障判断方法。
  2. ノード装置の故障を検出してMPUに通知する故障検出回路と、ノード装置が起動されて再起動されるまでの時間であるライフタイマを計測するライフタイマ回路と、前記故障検出回路で検出されたノード装置の故障発生回数をカウントする故障発生回数カウンタと、再起動可否を判断する検出時間及び復旧可否を判断する閾値である再起動許可回数閾値を記憶する記憶回路を備え、前記ライフタイマが前記検出時間以内であって、前記故障発生回数が前記再起動許可回数閾値を超えた場合は、該当するノード装置を停止させるノード装置の故障診断方法。
  3. 前記検出時間以内に故障が生じなかった場合は、復旧可能な故障と判断して、該当するノード装置のリセット再起動を行い、ノード装置を復旧させる請求項1又は2に記載のノード装置の故障診断方法。
  4. 前記ライフタイマが前記検出時間以内であって、前記故障発生回数が前記再起動許可回数閾値を超えない場合は、復旧可能な故障と判断して、該当するノード装置のリセット再起動を行い、ノード装置を復旧させる請求項2に記載のノード装置の故障診断方法。

JP2005206301A 2005-07-15 2005-07-15 ノード装置の故障判断方法 Pending JP2007028118A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005206301A JP2007028118A (ja) 2005-07-15 2005-07-15 ノード装置の故障判断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005206301A JP2007028118A (ja) 2005-07-15 2005-07-15 ノード装置の故障判断方法

Publications (1)

Publication Number Publication Date
JP2007028118A true JP2007028118A (ja) 2007-02-01

Family

ID=37788299

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005206301A Pending JP2007028118A (ja) 2005-07-15 2005-07-15 ノード装置の故障判断方法

Country Status (1)

Country Link
JP (1) JP2007028118A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012073900A (ja) * 2010-09-29 2012-04-12 Denso Corp 監視装置、及び電子制御システム
JP2012094039A (ja) * 2010-10-28 2012-05-17 Fujitsu Frontech Ltd 自動取引装置及び診断方法
JP2014013529A (ja) * 2012-07-05 2014-01-23 Nec Access Technica Ltd 障害管理システム、障害管理方法及び障害管理プログラム
JP2016031657A (ja) * 2014-07-29 2016-03-07 三菱重工業株式会社 システム管理装置およびシステム
JP2017091307A (ja) * 2015-11-12 2017-05-25 日本電信電話株式会社 分散ストレージ制御方法及び分散ストレージシステム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1078896A (ja) * 1996-09-03 1998-03-24 Toshiba Corp 産業用電子計算機
JP2000293408A (ja) * 1999-04-08 2000-10-20 Meidensha Corp 処理システムのリセットカウント処理方式
JP2002163128A (ja) * 2000-11-29 2002-06-07 Fujitsu Ten Ltd コンピュータ装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1078896A (ja) * 1996-09-03 1998-03-24 Toshiba Corp 産業用電子計算機
JP2000293408A (ja) * 1999-04-08 2000-10-20 Meidensha Corp 処理システムのリセットカウント処理方式
JP2002163128A (ja) * 2000-11-29 2002-06-07 Fujitsu Ten Ltd コンピュータ装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012073900A (ja) * 2010-09-29 2012-04-12 Denso Corp 監視装置、及び電子制御システム
JP2012094039A (ja) * 2010-10-28 2012-05-17 Fujitsu Frontech Ltd 自動取引装置及び診断方法
JP2014013529A (ja) * 2012-07-05 2014-01-23 Nec Access Technica Ltd 障害管理システム、障害管理方法及び障害管理プログラム
JP2016031657A (ja) * 2014-07-29 2016-03-07 三菱重工業株式会社 システム管理装置およびシステム
JP2017091307A (ja) * 2015-11-12 2017-05-25 日本電信電話株式会社 分散ストレージ制御方法及び分散ストレージシステム

Similar Documents

Publication Publication Date Title
US8190396B2 (en) Failure diagnosis system for cooling fans, a failure diagnosis device for cooling fans, a failure diagnosis method for cooling fans, a computer readable medium therefor and a cooling device
CN104639380A (zh) 服务器监控方法
US7408475B2 (en) Power supply monitoring device
CN107508694B (zh) 一种集群内的节点管理方法及节点设备
CN112631820A (zh) 软件系统的故障恢复方法及装置
JP2019101515A (ja) 半導体装置及びその電源監視方法
US7953016B2 (en) Method and system for telecommunication apparatus fast fault notification
JP2007028118A (ja) ノード装置の故障判断方法
CN108243031B (zh) 一种双机热备的实现方法及装置
JP4655718B2 (ja) コンピュータシステム及びその制御方法
JP2009110218A (ja) 仮想化スイッチおよびそれを用いたコンピュータシステム
JP2011023983A (ja) ネットワークノード
CN110321261B (zh) 一种监控系统及监控方法
JP2008003646A (ja) 不良モジュール検出方法および信号処理装置
TWI494754B (zh) 伺服器監控裝置和其操作方法
JP4432354B2 (ja) ウオッチドッグタイマ回路の状態監視方式
JP2010003132A (ja) 情報処理装置、その入出力装置の故障検出方法及びプログラム
JP2007209122A (ja) ディジタル形保護継電装置のリスタート方式
JP2015106226A (ja) 二重化システム
CN108415788B (zh) 用于对无响应处理电路作出响应的数据处理设备和方法
JP2007026038A (ja) パス監視システム,パス監視方法,およびパス監視プログラム
JP4613019B2 (ja) コンピュータシステム
JP2006171995A (ja) 制御用計算機
WO2023276350A1 (ja) 通信装置、通信制御方法、および通信制御プログラム
JP2011172011A (ja) 監視システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070620

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091016

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091110

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100107

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100316