JPH06243064A - コンピュータネットワークの障害検出システム - Google Patents

コンピュータネットワークの障害検出システム

Info

Publication number
JPH06243064A
JPH06243064A JP5024310A JP2431093A JPH06243064A JP H06243064 A JPH06243064 A JP H06243064A JP 5024310 A JP5024310 A JP 5024310A JP 2431093 A JP2431093 A JP 2431093A JP H06243064 A JPH06243064 A JP H06243064A
Authority
JP
Japan
Prior art keywords
information
failure
fault
management
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5024310A
Other languages
English (en)
Inventor
Naoki Komori
直樹 小森
Akio Morita
明生 守田
Katsuaki Suzuki
克明 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP5024310A priority Critical patent/JPH06243064A/ja
Priority to US08/194,075 priority patent/US5487148A/en
Publication of JPH06243064A publication Critical patent/JPH06243064A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0781Error filtering or prioritizing based on a policy defined by the user or on a policy defined by a hardware/software module, e.g. according to a severity level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0748Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a remote unit communicating with a single-box computer node experiencing an error/fault
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

(57)【要約】 【目的】 複数のコンピュータシステムが中央のコンピ
ュータシステムと共に網間接続されて成るコンピュータ
ネットワークの障害を、中央のコンピュータシステムが
効率良く検出して監視の合理化を図ることができるコン
ピュータネットワークの障害検出システムを提供する。 【構成】 複数のコンピュータシステムから伝送されて
くる障害発生の情報を保持し、かかる障害発生中の旨を
示す情報について更に軽微の障害か重大な障害かを、発
生継続時間の長短に基づいて判定し、重大な障害の場合
について表示手段に警報表示を行わせ、軽微な障害の場
合については表示を行わないようにした。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、構内的あるいは広域的
に分散して設けられた複数のコンピュータシステムが相
互に網間接続されたコンピュータネットワークの障害検
出システムに関し、特に、高速通信網に発生した障害を
効率良く検出するための障害検出システムに関する。
【0002】
【従来の技術】コンピュータネットワークシステムにあ
っては、図7の典型例に示すように、地域的に離れた複
数の事業所A,B,C,Dに夫々設置されたコンピュー
タシステム間が高速デジタル回線S1,S2,S3によ
って接続された形態を有する。
【0003】更に、事業所Aのコンピュータシステムが
このコンピュータネットワークシステムの障害を集中監
視する形態の場合には、事業所Aのコンピュータシステ
ムに、ホストコンピュータ1、通信制御装置2、ネット
ワーク管理ホスト3及び時分割多重化装置4が備えら
れ、他の事業所B,C,Dには、図示するように、時分
割多重化装置5,6,7、通信制御装置8,9,10及
びホストコンピュータ11,12,13が備えられて、
時分割多重化装置4,5,6,7間が高速デジタル回線
S1,S2,S3によって接続され、事業所Aのネット
ワーク管理ホスト3がネットワーク内の障害の有無を集
中監視する。
【0004】ここで、事業所Aと事業所Bとの間が高速
デジタル回線S1で直接接続され、あるいは事業所Aと
事業所Dとの間が高速デジタル回線S3で直接接続され
るような直接接続によるネットワーク形態や、事業所A
と事業所Cとの間が事業所B内の時分割多重化装置5を
経由して高速デジタル回線S1とS2で接続されるよう
な間接接続によるネットワーク形態が一般的に含まれて
いる。
【0005】次に、ネットワーク管理ホスト3の機能を
詳述する。例えば、事業所AとBを直接接続する高速デ
ジタル回線S1に障害が発生した場合には、時分割多重
化装置4と5の間での交信が不能になるので、時分割多
重化装置4からの障害発生通知をネットワーク管理ホス
ト3が受信して表示装置3Dに警報表示を行わせる。そ
して、この表示を見た保守要員が、永続的な障害なのか
若しくは一時的にシステム電源が降下したような一過性
の障害なのかを判断するために、ネットワーク管理ホス
ト3から管理要求コマンドを入力して再び時分割多重化
装置4からの障害状況情報を入手する。そして、保守要
員が永続的な障害であると確認した場合には、ネットワ
ーク管理ホスト3から高速デジタル回線S1の再接続要
求コマンドを入力することによって、事業所Aと事業所
Bの交信を復旧させる。
【0006】又、事業所AとDを直接接続する高速デジ
タル回線S3に障害が発生した場合にも、これと同様の
復旧処理が行われる。
【0007】一方、事業所Cのように、事業所Bを介し
て間接的に事業所Aと接続されるネットワーク形態にお
ける高速デジタル回線S2に障害が発生した場合には、
事業所Bの時分割多重化装置5が川下側の事業所Cの時
分割多重化装置6との間での交信が不能であることを検
知して、事業所Aの時分割多重化装置4へ障害発生通知
を送信する。そして、ネットワーク管理ホスト3がこの
障害発生通知を受信して表示装置3Dに警報表示を行わ
せる。そして、この表示を見た保守要員が、永続的な障
害なのか若しくは一時的にシステム電源が降下したよう
な一過性の障害なのかを判断するために、ネットワーク
管理ホスト3から管理要求コマンドを入力して再び時分
割多重化装置5からの障害状況情報を入手する。そし
て、保守要員が永続的な障害であると確認した場合に
は、ネットワーク管理ホスト3から高速デジタル回線S
2の再接続要求コマンドを入力することによって、事業
所Bと事業所Cの交信を復旧させ、この結果、間接接続
の関係にある事業所Aと事業所Cのネットワーク形態を
復旧させる。
【0008】尚、このような従来の関連技術として、特
開平1−26956号「間欠障害判定方式」等が知られ
ている。
【0009】
【発明が解決しようとする課題】ところで、このような
従来のコンピュータネットワークの障害検出システムに
あっては、次のような問題点があった。
【0010】(第1の問題点)上記のネットワーク管理
ホストは、高速デジタル回線の障害が永続的な障害(重
大な障害)であっても、システム電源が瞬間的に降下し
た場合のような一過性の障害(軽微且つ自動復旧される
障害)であっても、これらの障害の軽重の差異を判断す
ることなく表示装置に表示していた。特に、上記のよう
な軽微の障害は一日当り数回発生する場合があり、一
方、永続的な障害は一年当り数回と極めて希にしか発生
しない。したがって、保守要員が通常の業務において軽
微の障害に慣れてしまい、重大な障害を見落とすという
問題があった。更に、このような保守業務のミスを無く
すために、障害の軽重に関わり無く全ての事象に対して
障害内容の確認を行うために管理要求コマンドを操作入
力し、応答されてきた障害状況情報を確認した上で普及
処理を行うことは極めて煩雑であり、特に、多数のコン
ピュータシステムを有するコンピュータネットワークを
保守監視する場合には、膨大な障害発生通知に対応しな
ければならないので、その煩に絶えない状況を招いてい
た。
【0011】(第2の問題点)図7の事業所AとCのよ
うに、中間の事業所Bを介して間接的に接続されるネッ
トワーク形態の場合で、例えば、川下側の高速デジタル
回線S2に障害が発生した場合には、特に次の問題を招
いていた。この問題点を図8に示す高速デジタル回線S
2の状態と事業所A,B,Cの各処理状態を対比しつつ
詳述する。
【0012】ある時点t1 において高速デジタル回線S
2に障害が発生したとすると、事業所BとCの時分割多
重化装置5と6がこの障害を検知する(時点t2 )。
【0013】次に、事業所Bの時分割多重化装置5が障
害発生を示す障害情報EBAを発行し(時点t3 )、更
に、障害情報EBAを回線S1を介して事業所Aの時分割
多重化装置4へ伝送することによってネットワーク管理
ホスト3に通知する(時点t4)。一方、事業所Cの時
分割多重化装置6も障害情報ECBを発行し(時点t3
これを事業所Bの時分割多重化装置5へ伝送しようとす
る。即ち、時分割多重化装置6は障害情報ECBを時分割
多重化装置5を介して間接的に事業所Aの時分割多重化
装置4へ伝送しようとする。しかし、高速デジタル回線
S2には障害が存在するので現実には障害情報ECBが伝
送されない状態となり、この結果、時分割多重化装置6
は時分割多重化装置5から受信確認(アクノリッジ)信
号が返送されるまでは障害情報ECBを発行し続ける継続
状態となる。
【0014】次に、事業所Aのネットワーク管理ホスト
3が障害情報EBAを受信すると(時点t5 )、この情報
を表示装置3Dに警報表示させることによって保守要員
に通知する(時点t6 )。
【0015】次に、保守要員が警告表示に対応して障害
復旧を指示すると(時点t7 )、ネットワーク管理ホス
ト3が復旧情報RABを事業所B側へ伝送する(時点
8 )。そして、事業所Bのコンピュータシステムがこ
の復旧情報RABを受信し(時点t9 )、高速デジタル回
線S2の復旧処理を行う。そして、復旧処理が完了する
と(時点t10)、完了通知が事業所Bから事業所Aのネ
ットワーク管理ホスト3へ伝送されて表示装置3Dに表
示される。よって、保守要員は高速デジタル回線S2の
復旧を確認することができる。
【0016】一方、事業所Cの時分割多重化装置6は、
高速デジタル回線S2が復旧するまでの期間(時点t3
ないし時点t10までの期間)中は上記継続状態にあり、
復旧完了(時点t10)の後の時点(t11)において、や
っと障害情報ECBを事業所Bの時分割多重化装置5へ伝
送することとなる。そして、時分割多重化装置5がこの
情報ECBを受信すると(時点t12)、時分割多重化装置
4へ再伝送する(時点t13)。そして、事業所Aの時分
割多重化装置4はこの障害情報ECBを受信すると(時点
14)、表示装置3Dに高速デジタル回線S2の障害発
生を表示させる。
【0017】かかる説明から明らかなように、障害情報
BAとECBは共に高速デジタル回線S2の同一の障害を
意味するものである。そして、ネットワーク管理ホスト
3は障害情報EBAに対応して復旧処理を行い、上記時点
(t10)において障害復旧が完了しているにも関わら
ず、時間的に遅延して伝送されてきた障害情報ECBに基
づく障害発生の表示が再度なされていた。しかし、保守
要員は、障害情報ECBに基づく警報表示と障害情報EBA
との同一性を識別することができないので、障害情報E
CBに基づく警報表示を新たな障害発生と判断して、再び
高速デジタル回線S2に対する障害復旧指示を行う等の
不合理な状況を招いていた。
【0018】本発明は、このような従来のコンピュータ
ネットワークの障害検出システムの問題点に鑑みて成さ
れたものであり、ネットワークの障害を効率良く検出し
て監視の合理化を図ることができるコンピュータネット
ワークの障害検出システムを提供することを目的とす
る。
【0019】
【課題を解決するための手段】このような目的を達成す
るために本発明は、分散して設けられた複数のコンピュ
ータシステムが通信網によって網間接続され、中央のコ
ンピュータシステムがネットワークの障害を監視するコ
ンピュータネットワークの障害検出システムを対象と
し、上記中央のコンピュータシステムには、上記複数の
コンピュータシステムから伝送されてくる障害情報と障
害復旧情報を含む管理情報を受信して障害情報と障害復
旧情報を区別し、伝送元の項目毎に解析して障害情報に
対して障害無しの旨の第1の情報、障害復旧情報に対し
て障害発生中の旨の第2の情報を夫々データファイルと
して保持する管理情報抽出手段と、該管理情報抽出手段
に保持されているデータファイルを所定周期で検索する
と共に、上記第2の情報の発生継続時間の長短に応じて
障害の軽重を判定して、第2の情報に軽重の区別を示す
情報を付加し、更に、重大な障害を示す第2の情報を含
む項目について表示手段に警報表示を行わせる状態情報
処理手段とを備える構成とした。
【0020】
【作用】このような構成を有する本発明によれば、状態
情報処理手段が、上記障害発生中の旨の第2の情報につ
いて更に軽微の障害か重大な障害かを、発生継続時間の
長短に基づいて判定し、重大な障害の場合について表示
手段に警報表示を行わせ、軽微な障害の場合については
表示を行わないので、保守監視にとって本来的に必要な
障害発生情報だけを警報表示する。
【0021】
【実施例】以下、本発明の一実施例を図面と共に説明す
る。まず、図1に基づいてシステム構成を説明する。
尚、図7と同一又は相当する部分については同一符号で
示すものとする。本発明の主たる特徴点はネットワーク
管理ホスト3にあり、管理情報抽出手段14と状態情報
処理手段15を備えている。
【0022】更に、管理情報抽出手段14は、管理情報
受信手段16、障害情報識別手段17、管理情報解析手
段18及び状態情報保管手段19を備えている。状態情
報処理手段15は、状態情報読込手段20と時間変化管
理手段21を備えている。尚、これらの手段は例えば、
ホストコンピュータ1のオペレーテングシステムの管理
下にあるプログラムによって実現されている。
【0023】管理情報受信手段16は、時分割多重化装
置4から転送されてくる全ての情報を受信して障害情報
識別手段17へ転送する。
【0024】障害情報識別手段17は、管理情報受信手
段16から転送されてくる全ての情報の中から、ネット
ワーク監視に関連する管理情報だけを抽出して、管理情
報解析手段18へ転送する。ここで、管理情報とは、障
害発生を示す障害情報と、障害が復旧したことを示す障
害復旧情報であり、これらの障害情報と障害復旧情報
は、監視されている事業所B,C,Dの時分割多重化装
置5,6,7からの管理内容として送られてくるもので
ある。更に、かかる管理情報と他の情報との区別、及び
障害情報と障害復旧情報との区別は、所定データコード
を調べることによって抽出される。
【0025】管理情報解析手段18は、障害情報と障害
復旧情報を解析し、例えば、いずれの事業所間や端末装
置で発生した障害なのか、あるいは復旧したのかを分類
し、これらの分類結果を状態情報として状態情報保管手
段19に格納させる。尚、この実施例では一例として図
4に示すように、事業所や端末装置の場所で項目分け
し、障害情報を受信したときは該当項目の情報内容を障
害発生中とし、復旧情報を受信したときは該当項目の情
報内容を障害無し(即ち、正常状態)としている。
【0026】状態情報保管手段19は、管理情報解析手
段18からの状態情報を図4に示すようなランダムファ
イルとして保管すると共に、時間変化管理手段21から
の後述のデータ書替え指令に応じて格納内容の変更を行
う。
【0027】状態情報読込手段20は、予め決められた
周期(以下、ウォッチング周期という)TW 毎に、状態
情報保管手段19から状態情報(図4参照)を読込んで
時間変化管理手段21へ転送する。
【0028】時間変化管理手段21は、状態情報読込手
段20を介して状態情報保管手段19内の状態情報が転
送されてくる度に、項目毎に状態内容を調べ、同一の状
態内容が継続する時間を第1の判断基準時間TRF1 と比
較する。そして、状態内容「障害発生中」の継続時間が
第1の判断基準時間TRF1 を超えたときに、状態情報保
管手段19に指示して、該当する情報内容を、軽度の障
害レベルLa を示す「障害発生中(La )」の内容に変
更させる。更に、状態内容「障害発生中(La )」が更
に継続して第2の判断基準時間TRF2 を超えると、該当
する情報内容「障害発生中(La )」を、重度の障害レ
ベルLb を示す「障害発生中(Lb )」に変更させる。
【0029】即ち、管理情報解析手段18が最初に障害
発生の情報内容を状態情報保管手段19に格納させると
きは、当該項目の状態内容は障害の軽重に関わらず単に
「障害発生中」となり、時間変化管理手段21が第1,
第2の判断基準時間TRF1 ,TRF2 に基づいて軽重のレ
ベル判断を行うようになっている。
【0030】更に、時間変化管理手段21は、状態内容
「障害発生中(La )」の該当項目(事業所等)につい
ては、表示装置3Dに警報表示を行わせず、状態内容
「障害発生中(Lb )」の該当項目についてのみ表示装
置3Dに警報表示を行わせるようになっている。
【0031】次に、かかる構成を有する実施例の作用を
図2及び図3に基づいて説明する。尚、上述したが、管
理情報抽出手段14と状態情報処理手段15は相互に同
期して作動せず、管理情報抽出手段14は管理情報(障
害情報と復旧情報)を入手する毎に状態情報保管手段1
9に状態情報を格納させる処理を繰り返し、状態情報処
理手段15は予め決められたウォッチング周期TW で処
理を繰り返す。
【0032】まず、図2に基づいて管理情報抽出手段1
4の作用を説明する。ステップ100において、管理情
報受信手段16が時分割多重化装置4からの管理情報を
受信すると、ステップ110において、障害情報識別手
段17が、管理情報は障害発生の情報(障害情報)か障
害復旧の情報(復旧情報)であるかを識別し、障害情報
であればステップ120へ処理が移行し、復旧情報であ
ればステップ140へ処理が移行する。
【0033】ステップ120では、管理情報解析手段1
8が障害情報の特定コードを解析することによって、い
ずれの項目(事業所)に関する障害であるかを認識し、
状態情報保管手段19の該当項目を検索して、該当項目
の状態内容が「障害無し」であれば、ステップ130に
おいて、該当項目の状態内容を「障害発生中」に書き替
え、一方、該当項目の状態内容が「障害発生中」であれ
ばステップ100の処理へ戻る。例えば、この障害情報
が事業所Bの時分割多重化装置5から伝送されて来た事
業所Cに関係する高速デジタル回線S2の障害を示すも
のとすると、この障害情報を受信する以前は図5(a)
に示すように「障害無し」であれば、障害情報の受信後
は、図5(b)に示すように事業所Cの項目の状態内容
が「障害発生中」に書き替えられる。そして、ステップ
130からステップ100へ処理が戻り、次の管理情報
の受信処理へ移行する。
【0034】ステップ140においては、管理情報解析
手段18が復旧情報の特定コードを解析することによっ
て、いずれの項目(事業所)に関する復旧であるかを認
識し、状態情報保管手段19の該当項目を検索して、該
当項目の状態内容が「障害発生中」であれば、ステップ
150において、該当項目については実質的な障害でな
かったと判断する。更に、状態内容の「障害発生中」を
「障害無し」に書き替えた後、ステップ100へ処理が
戻る。例えば、この復旧情報を受信する以前は図5
(b)に示すように状態情報が「障害発生中」であった
とすれば、復旧情報の受信後は、図5(c)に示すよう
に「障害無し」に書き替えられる。
【0035】即ち、状態内容が「障害発生中」であった
としても短時間で復旧情報が来た場合には、システム電
源の瞬間的な降下などの一過性の障害であって特別の障
害復旧処置を講ずる必要が無いと判断され、表示装置3
Dにも障害復旧の表示が行われない。
【0036】一方、ステップ140における解析で、該
当項目の状態内容が「障害発生中」でなかった場合には
ステップ160へ移行して、管理情報解析手段18は、
該当項目の状態内容が「障害発生中(La )」であるか
を確認する。そして、「障害発生中(La )」であれば
更にステップ170へ移行し、軽微の障害であり特別の
障害復旧処置を施す必要が無いと判断すると共に、状態
内容の「障害発生中(La )」を「障害無し」に書き替
える。
【0037】即ち、この復旧情報を受信する以前は、図
6(a)に示すように、該当項目の状態内容が「障害発
生中(La )」であったとしても、復旧情報の受信後
は、図6(b)に示すように「障害無し」に書き替えら
れる。このことは、システム電源の瞬間的な降下などの
一過性の障害であって特別の障害復旧処置を講ずる必要
が無いと判断するからであり、表示装置3Dにも障害復
旧の表示が行われない。ステップ180では、管理情報
解析手段18が、該当項目の状態内容が「障害発生中
(Lb )」であるかを確認する。そして、「障害発生中
(Lb )」であればステップ190へ移行し、「障害発
生中(Lb )」で示される重大な障害が復旧されたと判
断して、「障害発生中(Lb )」の状態内容を「障害無
し」に書き替え、障害が復旧された旨の表示を表示装置
3Dに行わせる。一方、「障害発生中(Lb )」でなけ
ればステップ180からステップ100へ直接移行す
る。
【0038】次に、状態情報処理手段15の作用を図3
のフローチャートに基づいて説明する。上述したように
状態情報処理手段15は、状態情報保管手段19の保持
情報(図4参照)を所定のウォッチング周期TW に同期
して検索及び解析処理を繰り返す。
【0039】ステップ200において状態情報読込手段
20が状態情報保管手段19に保持されている全ての項
目について検索し、時間変化管理手段21が、各検索項
目毎にステップ210ないし240の処理を行う。
【0040】まず、ステップ210において、該当項目
の状態内容が「障害発生中」か否かの判断を行い、「障
害発生中」であればステップ220へ、それ以外であれ
ばステップ230へ処理が移行する。
【0041】ステップ220に処理が移行することは、
「障害発生中」の状態が継続していることを意味する。
そこで、時間変化管理手段21は、例えば図7に示すよ
うに、当該項目について「障害無し」から「障害発生
中」に変化した時点から第1の判断基準時間TRF1 が経
過する時点までの期間中に、「障害発生中」が継続する
ときは、状態情報保管手段19の該当項目の状態内容
「障害発生中」を「障害発生中(La )」に書替える。
【0042】一方、ステップ230では、該当項目の状
態内容が「障害発生中(La )」か否かの判断を行い、
「障害発生中(La )」であればステップ240へ、そ
れ以外であればステップ200の処理へ戻る。
【0043】ステップ240では、該当項目の状態内容
「障害発生中(La )」が第2の判断基準時間TRF2
経過しても継続している場合に、永続的な重大障害であ
ると判断して、状態情報保管手段19の該当項目の状態
内容「障害発生中(La )」を「障害発生中(Lb )」
に書替え、更に、重大な障害が発生した旨を表示装置3
Dに表示させることによって、保守要員に通報する。
【0044】このようにこの実施例では、管理情報抽出
手段14が障害情報と復旧情報を状態情報保管手段19
にデータファイルとして保管し、一方、状態情報処理手
段15が、状態情報保管手段19のこれらの情報の時間
的継続性を解析することによって障害の軽重の判断を行
い且つ重大な障害についてのみ表示装置3Dに表示させ
る。よって、システム電源の瞬間的電圧降下等に起因す
る特別な復旧作業を必要としない一過性の障害について
まで保守要員に対応を強要しなくて済み、本来対応すべ
き重大な障害についての監視に集中することを可能にす
る。又、従来のように表示装置に表示された膨大な障害
発生の情報の中から重大な情報を判別させるという煩雑
且つ困難な作業を保守要員に強要しなくて済むので、見
落とし等を未然に防止して、信頼性の高い監視を実現さ
せることができる。
【0045】又、図6と共に上述した従来の問題点(第
2の問題点)についても改善される。即ち、従来は、図
8中の時点t10において現実に障害復旧が完了している
にも関わらず、障害発生の情報が川下側の事業所Cの時
分割多重化装置6から事業所Aのネットワーク管理ホス
ト3へ伝送されてくる(時点t11〜t14)ので、障害復
旧が完了しているのか否かの判断が困難となっていた。
これに対してこの実施例では、一旦は時点t14の障害情
報を図2に示すステップ100〜130の処理により状
態情報保管手段19に格納するが、時点t14後に時分割
多重化処理装置6から短期間で伝送されてくる復旧情報
に基づいて、ステップ140〜170の処理が行われる
ので、時点13の障害情報に基づく警報表示が表示装置3
Dには表示されない。したがって、本来不要な障害発生
の表示は選択的且つ合理的に禁止され、保守要員に確度
の高い管理情報のみを提供することができる。
【0046】
【発明の効果】以上に説明したように本発明によれば、
障害発生中の旨を示す第2の情報について更に軽微の障
害か重大な障害かを、発生継続時間の長短に基づいて判
定し、重大な障害の場合について表示手段に警報表示を
行わせ、軽微な障害の場合については表示を行わないよ
うにしたので、保守監視にとって本来的に必要な障害発
生情報だけを警報表示する。この結果、特別な復旧作業
を必要としない一過性の障害についてまで保守要員に対
応を強要しなくて済み、本来対応すべき重大な障害につ
いての監視に集中することを可能にする。又、従来のよ
うに表示装置に表示された膨大な障害発生の情報の中か
ら重大な情報を判別させるという煩雑且つ困難な作業を
保守要員に強要しなくて済むので、見落とし等を未然に
防止して、信頼性の高い監視を実現させることができ
る。更に、中央のコンピュータシステムに対して間接的
に接続されている他のコンピュータシステム間での障害
が発生した場合であって、従来のように、川上側のコン
ピュータシステムと川下側のコンピュータシステムから
夫々の障害発生情報が中央のコンピュータシステムに伝
送される場合でも、川下側のコンピュータシステムから
伝送されてくる障害発生情報については重大な障害と判
断されないので、本来不要な障害発生の表示は選択的且
つ合理的に禁止され、確度の高い管理情報のみを提供す
ることができる。
【0047】
【図面の簡単な説明】
【図1】本発明による一実施例のコンピュータネットワ
ークの構成を示す構成図である。
【図2】実施例の管理情報抽出手段の作用を説明するた
めのフローチャートである。
【図3】実施例の状態情報処理手段の作用を説明するた
めのフローチャートである。
【図4】実施例の状態情報保管手段に保持される情報形
態を示す説明図である。
【図5】実施例の時間変化管理手段の作用を説明するた
めの説明図である。
【図6】実施例の時間変化管理手段の作用を更に説明す
るための説明図である。
【図7】従来のコンピュータネットワークの構成例を示
す構成図である。
【図8】従来の障害検出システムの問題点を説明するた
めの説明図である。
【符号の説明】
A,B,C,D…事業所、1,11,12,13…ホス
トコンピュータ、2,8,9,10…通信制御装置、3
…ネットワーク管理ホスト、3D…表示装置、4,5,
6,7…時分割多重化装置。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 分散して設けられた複数のコンピュータ
    システムが通信網によって網間接続され、中央のコンピ
    ュータシステムがネットワークの障害を監視するコンピ
    ュータネットワークの障害検出システムにおいて、 前記中央のコンピュータシステムには、 前記複数のコンピュータシステムから伝送されてくる障
    害情報と障害復旧情報を含む管理情報を受信して障害情
    報と障害復旧情報を区別し、伝送元の項目毎に解析して
    障害情報に対して障害無しの旨の第1の情報、障害復旧
    情報に対して障害発生中の旨の第2の情報を夫々データ
    ファイルとして保持する管理情報抽出手段と、 該管理情報抽出手段に保持されているデータファイルを
    所定周期で検索すると共に、上記第2の情報の発生継続
    時間の長短に応じて障害の軽重を判定して、第2の情報
    に軽重の区別を示す情報を付加し、更に、重大な障害を
    示す第2の情報を含む項目について表示手段に警報表示
    を行わせる状態情報処理手段と、を具備することを特徴
    とするコンピュータネットワークの障害検出システム。
JP5024310A 1993-02-12 1993-02-12 コンピュータネットワークの障害検出システム Pending JPH06243064A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP5024310A JPH06243064A (ja) 1993-02-12 1993-02-12 コンピュータネットワークの障害検出システム
US08/194,075 US5487148A (en) 1993-02-12 1994-02-09 Method and apparatus for detecting faults in a computer network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5024310A JPH06243064A (ja) 1993-02-12 1993-02-12 コンピュータネットワークの障害検出システム

Publications (1)

Publication Number Publication Date
JPH06243064A true JPH06243064A (ja) 1994-09-02

Family

ID=12134607

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5024310A Pending JPH06243064A (ja) 1993-02-12 1993-02-12 コンピュータネットワークの障害検出システム

Country Status (2)

Country Link
US (1) US5487148A (ja)
JP (1) JPH06243064A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999067715A1 (fr) * 1998-06-23 1999-12-29 Fujitsu Limited Procede de surveillance d'etats, systeme de reseau et support d'enregistrement
WO2013027562A1 (ja) * 2011-08-24 2013-02-28 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム

Families Citing this family (85)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE470031B (sv) * 1991-06-20 1993-10-25 Icl Systems Ab System och metod för övervakning och förändring av driften av ett datorsystem
US5535335A (en) * 1992-12-22 1996-07-09 International Business Machines Corporation Method and system for reporting the status of an aggregate resource residing in a network of interconnected real resources
GB9320381D0 (en) * 1993-10-04 1993-11-24 Patel Baldev Industrial equipment operating status scanner
JPH07162825A (ja) * 1993-12-02 1995-06-23 Canon Inc テレビ会議システムの遠隔保守装置
JPH08235006A (ja) * 1995-02-24 1996-09-13 Fujitsu Ltd 状態監視システム
JP3555047B2 (ja) * 1995-12-20 2004-08-18 株式会社日立製作所 複合コンピュータシステム
US6502208B1 (en) 1997-03-31 2002-12-31 International Business Machines Corporation Method and system for check stop error handling
US6119246A (en) * 1997-03-31 2000-09-12 International Business Machines Corporation Error collection coordination for software-readable and non-software readable fault isolation registers in a computer system
US6557121B1 (en) 1997-03-31 2003-04-29 International Business Machines Corporation Method and system for fault isolation for PCI bus errors
US5951686A (en) * 1997-03-31 1999-09-14 International Business Machines Corporation Method and system for reboot recovery
US6324608B1 (en) 1997-05-13 2001-11-27 Micron Electronics Method for hot swapping of network components
US6330690B1 (en) 1997-05-13 2001-12-11 Micron Electronics, Inc. Method of resetting a server
US6282673B1 (en) 1997-05-13 2001-08-28 Micron Technology, Inc. Method of recording information system events
US6418492B1 (en) 1997-05-13 2002-07-09 Micron Electronics Method for computer implemented hot-swap and hot-add
US6338150B1 (en) * 1997-05-13 2002-01-08 Micron Technology, Inc. Diagnostic and managing distributed processor system
US6170028B1 (en) 1997-05-13 2001-01-02 Micron Electronics, Inc. Method for hot swapping a programmable network adapter by using a programmable processor to selectively disabling and enabling power thereto upon receiving respective control signals
US5987554A (en) * 1997-05-13 1999-11-16 Micron Electronics, Inc. Method of controlling the transfer of information across an interface between two buses
US6243773B1 (en) 1997-05-13 2001-06-05 Micron Electronics, Inc. Configuration management system for hot adding and hot replacing devices
US6173346B1 (en) 1997-05-13 2001-01-09 Micron Electronics, Inc. Method for hot swapping a programmable storage adapter using a programmable processor for selectively enabling or disabling power to adapter slot in response to respective request signals
US6202111B1 (en) 1997-05-13 2001-03-13 Micron Electronics, Inc. Method for the hot add of a network adapter on a system including a statically loaded adapter driver
US6202160B1 (en) 1997-05-13 2001-03-13 Micron Electronics, Inc. System for independent powering of a computer system
US6526333B1 (en) 1997-05-13 2003-02-25 Micron Technology, Inc. Computer fan speed control system method
US6122758A (en) * 1997-05-13 2000-09-19 Micron Electronics, Inc. System for mapping environmental resources to memory for program access
US5892928A (en) * 1997-05-13 1999-04-06 Micron Electronics, Inc. Method for the hot add of a network adapter on a system including a dynamically loaded adapter driver
US6219734B1 (en) 1997-05-13 2001-04-17 Micron Electronics, Inc. Method for the hot add of a mass storage adapter on a system including a statically loaded adapter driver
US6182180B1 (en) 1997-05-13 2001-01-30 Micron Electronics, Inc. Apparatus for interfacing buses
US6163849A (en) * 1997-05-13 2000-12-19 Micron Electronics, Inc. Method of powering up or powering down a server to a maintenance state
US6553416B1 (en) * 1997-05-13 2003-04-22 Micron Technology, Inc. Managing computer system alerts
US6179486B1 (en) 1997-05-13 2001-01-30 Micron Electronics, Inc. Method for hot add of a mass storage adapter on a system including a dynamically loaded adapter driver
US6192434B1 (en) 1997-05-13 2001-02-20 Micron Electronics, Inc System for hot swapping a programmable adapter by using a programmable processor to selectively disabling and enabling power thereto upon receiving respective control signals
US6058445A (en) * 1997-05-13 2000-05-02 Micron Electronics, Inc. Data management method for adding or exchanging components on a running computer
US6249834B1 (en) 1997-05-13 2001-06-19 Micron Technology, Inc. System for expanding PCI bus loading capacity
US6363497B1 (en) 1997-05-13 2002-03-26 Micron Technology, Inc. System for clustering software applications
US6122746A (en) * 1997-05-13 2000-09-19 Micron Electronics, Inc. System for powering up and powering down a server
US6105089A (en) * 1997-05-13 2000-08-15 Micron Electronics, Inc. Data management system for adding or exchanging components on a running computer
US6269417B1 (en) 1997-05-13 2001-07-31 Micron Technology, Inc. Method for determining and displaying the physical slot number of an expansion bus device
US6249828B1 (en) 1997-05-13 2001-06-19 Micron Electronics, Inc. Method for the hot swap of a mass storage adapter on a system including a statically loaded adapter driver
US6247080B1 (en) 1997-05-13 2001-06-12 Micron Electronics, Inc. Method for the hot add of devices
US6266721B1 (en) 1997-05-13 2001-07-24 Micron Electronics, Inc. System architecture for remote access and control of environmental management
US6425006B1 (en) * 1997-05-13 2002-07-23 Micron Technology, Inc. Alert configurator and manager
US6499073B1 (en) 1997-05-13 2002-12-24 Micron Electronics, Inc. System using programmable processor for selectively enabling or disabling power to adapter in response to respective request signals
US6134673A (en) * 1997-05-13 2000-10-17 Micron Electronics, Inc. Method for clustering software applications
US6304929B1 (en) 1997-05-13 2001-10-16 Micron Electronics, Inc. Method for hot swapping a programmable adapter by using a programmable processor to selectively disabling and enabling power thereto upon receiving respective control signals
US6253334B1 (en) 1997-05-13 2001-06-26 Micron Electronics, Inc. Three bus server architecture with a legacy PCI bus and mirrored I/O PCI buses
US6138250A (en) * 1997-05-13 2000-10-24 Micron Electronics, Inc. System for reading system log
US6073255A (en) * 1997-05-13 2000-06-06 Micron Electronics, Inc. Method of reading system log
US6134615A (en) 1997-05-13 2000-10-17 Micron Electronics, Inc. System for facilitating the replacement or insertion of devices in a computer system through the use of a graphical user interface
US6148355A (en) * 1997-05-13 2000-11-14 Micron Electronics, Inc. Configuration management method for hot adding and hot replacing devices
US6249885B1 (en) 1997-05-13 2001-06-19 Karl S. Johnson Method for managing environmental conditions of a distributed processor system
US6292905B1 (en) 1997-05-13 2001-09-18 Micron Technology, Inc. Method for providing a fault tolerant network using distributed server processes to remap clustered network resources to other servers during server failure
US6247898B1 (en) 1997-05-13 2001-06-19 Micron Electronics, Inc. Computer fan speed control system
US6163853A (en) * 1997-05-13 2000-12-19 Micron Electronics, Inc. Method for communicating a software-generated pulse waveform between two servers in a network
US6170067B1 (en) 1997-05-13 2001-01-02 Micron Technology, Inc. System for automatically reporting a system failure in a server
US6145098A (en) 1997-05-13 2000-11-07 Micron Electronics, Inc. System for displaying system status
US6134614A (en) * 1997-05-13 2000-10-17 Micron Electronics, Inc. Method for facilitating the replacement or insertion of devices in a computer system through the use of a graphical user interface
US6046742A (en) * 1997-05-13 2000-04-04 Micron Electronics, Inc. Display of system information
US6134668A (en) * 1997-05-13 2000-10-17 Micron Electronics, Inc. Method of selective independent powering of portion of computer system through remote interface from remote interface power supply
US6195717B1 (en) 1997-05-13 2001-02-27 Micron Electronics, Inc. Method of expanding bus loading capacity
DE19722479B4 (de) * 1997-05-28 2005-02-17 Siemens Ag Kommunikationssystem
US5991893A (en) * 1997-08-29 1999-11-23 Hewlett-Packard Company Virtually reliable shared memory
US6263387B1 (en) 1997-10-01 2001-07-17 Micron Electronics, Inc. System for automatically configuring a server after hot add of a device
US6088816A (en) * 1997-10-01 2000-07-11 Micron Electronics, Inc. Method of displaying system status
US6212585B1 (en) 1997-10-01 2001-04-03 Micron Electronics, Inc. Method of automatically configuring a server after hot add of a device
US6035420A (en) * 1997-10-01 2000-03-07 Micron Electronics, Inc. Method of performing an extensive diagnostic test in conjunction with a bios test routine
US6175490B1 (en) 1997-10-01 2001-01-16 Micron Electronics, Inc. Fault tolerant computer system
US6068661A (en) * 1997-10-01 2000-05-30 Micron Electronics, Inc. Method of emulating synchronous communication
US6065053A (en) * 1997-10-01 2000-05-16 Micron Electronics, Inc. System for resetting a server
US6154835A (en) * 1997-10-01 2000-11-28 Micron Electronics, Inc. Method for automatically configuring and formatting a computer system and installing software
US6138179A (en) * 1997-10-01 2000-10-24 Micron Electronics, Inc. System for automatically partitioning and formatting a primary hard disk for installing software in which selection of extended partition size is not related to size of hard disk
US6079033A (en) * 1997-12-11 2000-06-20 Intel Corporation Self-monitoring distributed hardware systems
US6263458B1 (en) * 1997-12-31 2001-07-17 Alcatel Usa Sourcing, L.P. Regulated push method of data collection
US6266696B1 (en) * 1998-02-17 2001-07-24 International Business Machine Corporation Full time network auxiliary for a network connected PC
US6158020A (en) * 1998-04-14 2000-12-05 International Business Machines Corporation Remote jumper set and reset
US6327550B1 (en) * 1998-05-26 2001-12-04 Computer Associates Think, Inc. Method and apparatus for system state monitoring using pattern recognition and neural networks
US6205503B1 (en) 1998-07-17 2001-03-20 Mallikarjunan Mahalingam Method for the hot swap and add of input/output platforms and devices
US6223234B1 (en) 1998-07-17 2001-04-24 Micron Electronics, Inc. Apparatus for the hot swap and add of input/output platforms and devices
US6389551B1 (en) 1998-12-17 2002-05-14 Steeleye Technology, Inc. Method of preventing false or unnecessary failovers in a high availability cluster by using a quorum service
US6757850B1 (en) * 1998-12-30 2004-06-29 Ncr Corporation Remote services management fault escalation
JP2004535017A (ja) * 2001-07-05 2004-11-18 コンピュータ アソシエイツ シンク,インコーポレイテッド ビジネスイベントを解析するためのシステム及び方法
US7243264B2 (en) * 2002-11-01 2007-07-10 Sonics, Inc. Method and apparatus for error handling in networks
US20060041534A1 (en) * 2004-05-24 2006-02-23 Atwell Micah E Remote infrastructure management
US7599308B2 (en) * 2005-02-04 2009-10-06 Fluke Corporation Methods and apparatus for identifying chronic performance problems on data networks
JP2007201692A (ja) * 2006-01-25 2007-08-09 Nec Computertechno Ltd アラーム信号制御方法および装置並びにこれを用いる電子機器
US7676695B2 (en) 2007-06-05 2010-03-09 Compuware Corporation Resolution of computer operations problems using fault trend analysis
US20090083585A1 (en) * 2007-09-21 2009-03-26 Inventec Corporation Method of pressure testing for peripheral component interconnect (pci) bus stage

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03235443A (ja) * 1990-02-10 1991-10-21 Nec Corp 通信ネットワークにおける障害管理方式
JPH04291436A (ja) * 1991-03-19 1992-10-15 Hitachi Ltd 複合形計算機システムにおけるデータ通信方式

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4545011A (en) * 1979-01-29 1985-10-01 Infinet Inc. Enhanced communications network testing and control system
US4323966A (en) * 1980-02-05 1982-04-06 The Bendix Corporation Operations controller for a fault-tolerant multiple computer system
US4356546A (en) * 1980-02-05 1982-10-26 The Bendix Corporation Fault-tolerant multi-computer system
US4412281A (en) * 1980-07-11 1983-10-25 Raytheon Company Distributed signal processing system
JPH0618377B2 (ja) * 1983-09-08 1994-03-09 株式会社日立製作所 伝送系
US4769761A (en) * 1986-10-09 1988-09-06 International Business Machines Corporation Apparatus and method for isolating and predicting errors in a local area network
DE3719283A1 (de) * 1987-06-10 1988-12-22 Bosch Gmbh Robert Verfahren zur lokalisierung defekter stationen in lokalen netzwerken und dazugehoeriger schnittstellencontroller
US5036514A (en) * 1989-11-09 1991-07-30 International Business Machines Corp. Apparatus and method for isolating and predicting errors in a local area network
US5307354A (en) * 1991-05-31 1994-04-26 International Business Machines Corporation Method and apparatus for remote maintenance and error recovery in distributed data processing networks

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03235443A (ja) * 1990-02-10 1991-10-21 Nec Corp 通信ネットワークにおける障害管理方式
JPH04291436A (ja) * 1991-03-19 1992-10-15 Hitachi Ltd 複合形計算機システムにおけるデータ通信方式

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999067715A1 (fr) * 1998-06-23 1999-12-29 Fujitsu Limited Procede de surveillance d'etats, systeme de reseau et support d'enregistrement
WO2013027562A1 (ja) * 2011-08-24 2013-02-28 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム
JP5621937B2 (ja) * 2011-08-24 2014-11-12 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム
JPWO2013027562A1 (ja) * 2011-08-24 2015-03-19 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム
US9778972B2 (en) 2011-08-24 2017-10-03 Nec Corporation Operation management device, operation management method

Also Published As

Publication number Publication date
US5487148A (en) 1996-01-23

Similar Documents

Publication Publication Date Title
JPH06243064A (ja) コンピュータネットワークの障害検出システム
US7266758B2 (en) Network monitoring program, network monitoring method, and network monitoring apparatus
CN111475386B (zh) 一种故障预警方法及相关装置
JP2888283B2 (ja) 全2重データ通信装置および全2重データ伝送システム
JPH09307550A (ja) ネットワークシステム監視装置
KR0175595B1 (ko) 비동기식전송방식(atm) 장치에서 단순망관리규약(snmp)을 사용한 원격지에서의 장애관리방법
JP4437513B2 (ja) 異常検出システム
JP3280703B2 (ja) プラント監視方法及びプラント監視システム
US5963545A (en) Fault evaluating system for transmission apparatus
JP2000298517A (ja) 機器制御監視システム
JPH0955735A (ja) 通信網故障診断システムおよび通信網故障診断方法
JP3339459B2 (ja) ネットワーク管理システムおよびネットワーク管理方法
JPH0879192A (ja) 通信網設備監視オペレーションシステム
JPS609246A (ja) デ−タ回線網監視方式
JPH053511A (ja) 通信回線監視方式
JPH0556042A (ja) 複数回線通信端末装置の障害判定システム
JP2957339B2 (ja) 遠隔監視装置
JP2024004705A (ja) ネットワークシステム及びその制御方法
JPH06290126A (ja) 計算機システム障害監視方式
CN115801550A (zh) 一种web应用服务节点的隔离方法及装置
JPH06162369A (ja) ビル設備機器遠隔監視装置
JPH11331194A (ja) 監視装置および監視システム
JP3350613B2 (ja) 瞬時状態転送システム
JPH11289304A (ja) 遠方監視システム
JPH04319900A (ja) 状態変化情報再送信方式