JP2000115168A - ネットワークに適用する障害管理システム及びネットワーク管理システム - Google Patents

ネットワークに適用する障害管理システム及びネットワーク管理システム

Info

Publication number
JP2000115168A
JP2000115168A JP10279045A JP27904598A JP2000115168A JP 2000115168 A JP2000115168 A JP 2000115168A JP 10279045 A JP10279045 A JP 10279045A JP 27904598 A JP27904598 A JP 27904598A JP 2000115168 A JP2000115168 A JP 2000115168A
Authority
JP
Japan
Prior art keywords
failure
information
fault
management
related information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10279045A
Other languages
English (en)
Inventor
Murasaki Hamazaki
紫 浜崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP10279045A priority Critical patent/JP2000115168A/ja
Publication of JP2000115168A publication Critical patent/JP2000115168A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

(57)【要約】 【課題】障害の発生時から障害処理が完了するまでに要
する時間を短縮化し、結果としてシステムに設定された
所定の制限時間内に障害回復などの障害管理処理を完了
できるように実現することにある。 【解決手段】マネージャ/エージェント方式によるネッ
トワーク管理システムにおいて、管理対象システム20
の障害発生時に、管理対象モジュール32は障害管理テ
ーブル35を参照して当該障害内容に対応する障害関連
情報を監視タイマ値内に収集する。エージェント30
は、管理対象モジュール32により管理情報テーブル3
1に書き込まれた障害関連情報からなる送信パケットを
マネージャ2に送信する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、特にネットワーク
上において障害管理機能を有するネットワーク管理シス
テムに関する。
【0002】
【従来の技術】従来、複数のコンピュータ、通信機器、
及び通信回線などのネットワーク機器が接続されて構成
されるネットワークでは、当該ネットワーク上での構成
要素(コンピュータなどの物理的要素以外にデータなど
の論理的要素も含む)を管理するネットワーク管理シス
テムにより効率的な運用が実行されている。
【0003】近年では、SNMP(Simple Ne
twork ManagementProtocol)
等の標準的プロトコルを使用して、ネットワーク管理に
必要な管理情報を交換して、各種の管理処理を行うシス
テムが注目されている。ネットワーク管理システムは、
ネットワーク上の構成管理(資源管理)や性能管理(効
率的な利用管理)等以外に、障害管理を主たる管理機能
として備えている。障害管理機能は、概略的にはネット
ワーク機器の障害の検出及び当該障害の原因を除去して
回復させる障害回復の機能を意味する。
【0004】SNMPを利用するネットワーク管理シス
テムの概念は、図22に示すように、マネージャ/エー
ジェント・モデルと呼ばれるシステムである。このシス
テムは、ネットワーク1を介して、管理システム主体で
ある管理ステーション上のマネージャ2と、管理対象シ
ステム(具体的にはネットワーク機器)上のエージェン
ト3とが前記のSNMPにより情報を交換する構成であ
る。
【0005】マネージャ2は、各種のネットワーク機器
に組み込まれたエージェント3から各種データを収集し
てシステム全体の管理情報4を構成し、当該管理情報に
基づいて所定の管理機能に必要な制御動作を実行する。
このシステム全体の管理情報4とは、一般的にはMIB
(Management InformationBa
se)と呼ばれる仮想データベースである。
【0006】一方、エージェント3は、障害管理などの
各種管理に必要な管理情報を登録する管理情報テーブル
5を管理し、マネージャ2からの要求に応じて当該管理
情報テーブル5に登録されている管理情報を送信する。
管理情報テーブル5には、管理対象モジュールにより管
理情報が不定期に書き込まれる。ここで、管理対象シス
テムに障害が発生すると、エージェント3は自発的に管
理情報テーブル5から障害関連情報をマネージャ2に送
信する機能を有する。
【0007】このような従来方式のネットワーク管理シ
ステムにおいて、ある障害が発生したときの動作を図2
3のタイミングチャート及び図24のフローチャートを
参照して説明する。
【0008】管理対象システムであるネットワーク機器
に障害が発生すると、エージェント3は、管理情報テー
ブルから障害通知を行うための送信メッセージを作成し
て、マネージャ2に送信する(ステップS70〜S7
3)。管理情報テーブルは、障害が発生した時点で、障
害関連情報が書き込まれて更新される(ステップS7
1)。一方、マネージャ2は、エージェント3からメッ
セージを受信すると、システム全体の情報(MIB)4
を更新し、障害に対処するために必要な制御内容を決定
する(ステップS74〜S76)。
【0009】ここで、マネージャ2は、エージェント3
から受信した情報が当該障害の対処に必要な全ての障害
情報を含むとは限らないため、必要な情報(情報B、情
報C)をエージェント3に要求する(ステップS7
7)。エージェント3は、マネージャ2からの情報収集
の要求を受信すると、管理情報テーブルを検索して要求
された障害関連情報を収集する(ステップS78,S7
9)。そして、再度送信メッセージを作成して、マネー
ジャ2に送信する(ステップS80,S81)。以後同
様に、マネージャ2は、エージェント3からメッセージ
を受信すると、システム全体の情報(MIB)4を更新
する動作を繰り返す(ステップS82,S83)。
【0010】マネージャ2は、必要な情報を全て取得す
ると、当該情報に基づいて決定した制御内容をエージェ
ント3に指示する(ステップS84,S85)。エージ
ェント3は、マネージャ2からの制御指示を受信する
と、当該制御を実行する(ステップS86,S87)。
エージェント3は、制御の実行結果である障害回復状況
などを示す応答メッセージを作成して、マネージャ2に
送信する(ステップS88,S89)。マネージャ2
は、受信した応答メッセージにより障害回復結果を認識
する(ステップS90)。
【0011】以上のような一連の動作は、図23のタイ
ミングチャートに示すように、時系列処理として実現さ
れる。ここで、図23では、横軸が時間軸であり、時間
Tzは障害の発生時から障害対処に必要な制御動作が終
了するまでの時間を示す。一方、時間Twは、システム
として制御が完了すべき時間を示す。即ち、障害が発生
してから回復するまでに、システムとして許容される時
間である。
【0012】
【発明が解決しようとする課題】図23のタイミングチ
ャートから明らかなように、従来のネットワーク管理シ
ステムによる障害管理方式では、障害の発生時から障害
対処に必要な制御動作が終了するまでの時間Tzが、本
来システムとして完了すべき時間Twより長くなる事態
が発生する可能性がある。換言すれば、完了すべき時間
Tw内に、障害回復などに必要な制御動作が終了しない
事態が発生する。
【0013】このような事態の要因としては、図23及
び図24に示すように、実際の制御に必要な時間Tn以
外に、いわば冗長な時間Txを費やしていることにあ
る。この冗長な時間Txとは、マネージャ2が障害関連
情報(情報B,情報C)をエージェント3側に要求し、
エージェント3側からマネージャ2側に要求された障害
関連情報を送信するための情報要求、情報収集、及び情
報提供の一連の処理に要する時間である。また、冗長な
時間Txには、マネージャ2が要求した情報が所定の時
間内に到達せずに、結果として前記の一連の処理に要す
る時間が不確定となる要素も含まれている。
【0014】そこで、本発明の目的は、障害の発生時か
ら障害処理が完了するまでに要する時間を短縮化し、結
果としてシステムに設定された所定の制限時間内に障害
回復などの障害管理処理を完了できるように実現するこ
とにある。
【0015】
【課題を解決するための手段】本発明は、特にマネージ
ャ/エージェント方式によるネットワーク管理システム
において、管理対象システムの障害発生時に、エージェ
ント側から障害処理(障害検出及び障害回復など)に必
要な情報を収集して、できるだけ短時間にマネージャ側
に送信する障害管理システムである。
【0016】このような機能を実現するために、本シス
テムは、ネットワーク機器の障害内容に対応して予め設
定される障害関連情報を登録するための障害管理テーブ
ル手段と、ネットワーク機器の障害発生時に障害管理テ
ーブル手段を参照して当該障害内容に対応する障害関連
情報を収集する情報収集手段と、情報収集手段により収
集された障害関連情報を前記ネットワーク管理システム
に送信する送信手段とを備えている。
【0017】具体的には、本システムでは、障害発生時
にエージェント側は、自発的に障害処理に必要な障害関
連情報を収集して、所定の制限時間内にマネージャ側に
送信する。必要な障害関連情報を収集するための手段と
して、障害管理テーブルを利用する。従って、障害発生
時に、マネージャ側は、障害処理に必要な障害関連情報
の全てを受信できる可能性が高くなり、当該障害関連情
報をエージェント側に要求する処理を大幅に減少するこ
とが可能となる。これにより、マネージャ側の処理負担
の軽減および障害処理に要する時間の短縮化(冗長時間
の削減)を実現できる。
【0018】本発明の別の観点として、前記障害管理テ
ーブルにセットした監視タイマ情報により監視タイマ機
能を有するシステムである。監視タイマ機能は、障害発
生時からエージェント側が必要な障害関連情報を収集し
て、マネージャ側に送信するまでの制限時間を監視する
ための機能である。この機能により、マネージャ側は、
所定の時間内に最小限必要な障害関連情報を受信できる
ため、予めシステムとして設定された時間内に障害回復
等の障害処理を完了することを監視することができる。
従って、障害関連情報がエージェント側からマネージャ
側に到達されるまでの時間が不確定になるような事態を
防止することが可能となる。
【0019】
【発明の実施の形態】以下図面を参照して、本発明の実
施の形態を説明する。
【0020】図1は本実施形態に関係するネットワーク
管理システムの基本的構成を示すブロック図であり、図
2は同実施形態の障害管理テーブルの構成を説明するた
めの概念図であり、図3は同実施形態のエージェントが
送信する送信パケットの構成を示す概念図であり、図4
は同実施形態のシステムにおける一連の障害処理を説明
するためのフローチャートである。 (システムの構成)本システムは、マネージャ/エージ
ェント方式であり、マネージャとエージェント間でSN
MP等の標準的プロトコルを使用して、ネットワーク管
理に必要な情報を交換するネットワーク管理システムを
想定する。
【0021】図1に示すように、マネージャ2は、シス
テム管理の主体である管理ステーション10に存在す
る。管理ステーション10には、管理情報の表示及び入
力などの機能を実現するための管理コンソール11およ
びシステム全体の管理情報であるMIB(図示せず)が
含まれている。マネージャ2は、ネットワーク1上の通
信回線を介して、エージェント30との間でパケット単
位の管理情報(後述する障害関連情報、システムの状態
情報等)の交換する。
【0022】一方、エージェント30は、管理対象シス
テム20上に存在し、同実施形態の障害管理機能を実現
する。管理対象システム20とは、サーバなどのコンピ
ュータ、通信機器、通信回線等のネットワーク機器等の
物理的対象(ハードウエア)およびデータなどの論理的
対象を意味する。即ち、エージェント30は、例えばサ
ーバ(後述するストリーム配信サーバなど)に常駐して
いる制御プログラム群に含まれる制御プログラムであ
る。
【0023】エージェント30に属する機能モジュール
として、障害検出モジュール33、管理情報テーブル監
視モジュール(以下テーブル監視モジュールと省略す
る)34、及び管理対象モジュール32がある。障害検
出モジュール33は、管理対象システム20上の機器で
障害が発生したことを検出し、障害管理テーブル35を
参照して管理対象モジュール32に障害関連情報の取得
要求を出す。
【0024】管理対象モジュール32は管理対象機器か
ら障害関連情報・状態情報・その他の管理情報を取り出
し、管理情報テーブル31に書き込む。テーブル監視モ
ジュール34は、障害管理テーブル35に基づいて管理
情報テーブル31を監視し、かつエージェント30に対
して管理情報テーブル31に登録された情報の送信要求
を出す。
【0025】管理情報テーブル31は、管理対象モジュ
ール32が収集した管理対象システム20上の機器に関
する管理情報(同実施形態では障害関連情報のみについ
て説明する)を登録するためのテーブルである。エージ
ェント30は、管理情報テーブル31に登録された管理
情報を読出して、マネージャ2に送信する送信パケット
(送信情報)を作成する。同実施形態では、エージェン
ト30は、マネージャ2からの要求に応じて不定期また
は定期的に、当該送信パケットをマネージャ2に送信す
る。また、障害発生時にテーブル監視モジュール34か
らの指示に従って、当該送信パケットをマネージャ2に
送信する。
【0026】マネージャ2は、エージェント30から送
信された情報に基づいてシステム全体の情報(MIB)
を管理する。同実施形態では、マネージャ2は、エージ
ェント30から送信された障害管理に関する情報に基づ
いて、障害処理(障害検出や障害回復など)に関する制
御が必要と判断した場合には、エージェント30に対し
て制御動作の実行を要求するための制御指示を送信す
る。 (障害管理テーブル35の構成)障害管理テーブル35
は、図2に示すように、予め設定された各障害項目
(X,Y,…)毎に、当該障害の対応処理を行うために
必要な複数の関連情報(DATA)、その付加情報(F
LAG)、及び監視タイマ値により構成されている。即
ち、障害管理テーブル35を参照することにより、例え
ばシステム20上において、障害項目Xに相当する障害
が発生した場合には、障害処理に必要な関連情報として
は情報A,B,C,Dが必要であることが認識される。
また、各関連情報に付加された付加情報(FLAG)に
より、各情報A,B,C,Dに関して以下のことが指示
される。
【0027】即ち、FLAGが「0」の場合には、その
情報の収集要求が必要であり、かつ管理情報テーブル3
1が未更新であることを示す。FLAGが「1」の場合
には、その情報の収集要求が必要であり、かつ管理情報
テーブル31が更新済みであることを示す。また、FL
AGが「2」の場合には、その情報は管理情報テーブル
31に既に登録されていることを示す。従って、FLA
Gが「2」の情報については、管理対象モジュール32
による情報収集処理は不要となる。
【0028】監視タイマ値は、障害発生時からエージェ
ント30がマネージャ2に、障害関連情報(送信パケッ
ト)を送信するまでの制限時間を示す時間情報である。
即ち、障害発生時からその障害処理に必要な関連情報
を、エージェント30からマネージャ2に到達するまで
の限界時間を意味する。これにより、エージェント30
は、制限時間内に障害関連情報をマネージャ2に対して
通知することになる。 (障害処理)以下図1と共に、図2、図3及び図4
(A),(B)のフローチャートを参照して同実施形態
の障害処理を説明する。
【0029】まず、図4(A)に示すように、管理対象
システム20上において、障害検出モジュール33が機
器の障害(障害項目Xとする)の発生を検出すると、障
害管理テーブル35を参照する(ステップS1,S
2)。ここで、障害検出モジュール33は、例えば機器
のハードウエアでの障害が発生したことが表示されるス
テータスレジスタや、エラー表示用のレジスタ等をポー
リングすることでエラーを検出したり、エラー発生時に
割り込みが設定されている場合は割り込みにより検出す
る。
【0030】さらに、障害検出モジュール33は、障害
管理テーブル35を参照することにより、当該障害項目
Xの障害処理に必要な関連情報(A,B,C,D)を認
識し、さらに付加情報(FLAG)に従って各情報毎に
情報収集要求を管理対象モジュール32に出す。ここで
は、前述したように、関連情報Dについては既に管理情
報テーブル31に格納されているため、情報収集処理は
不要となる。従って、管理対象モジュール32は、関連
情報(A,B,C)のみについて収集処理を実行する
(ステップS3)。
【0031】また、障害検出モジュール33は、テーブ
ル監視モジュール34に対して、管理情報テーブル31
の監視要求を出す。この要求に応じて、テーブル監視モ
ジュール34は、障害管理テーブル35上の障害項目X
についての情報を自身のモジュール内にコピーし、当該
コピーした関連情報(A〜D)、その付加情報(FLA
G)、および監視タイマ値に基づいて管理情報テーブル
31を監視する。
【0032】管理対象モジュール32は、障害検出モジ
ュール33からの指示に応じて障害関連情報(A,B,
C)を収集し、管理情報テーブル31に書き込む(ステ
ップS4)。このとき、管理情報テーブル31に登録さ
れている関連情報(D)については、そのまま維持して
更新しない。テーブル監視モジュール34は、管理情報
テーブル31の書き込み状態を監視し、情報収集要求が
出ていて書き込まれた関連情報については、その各付加
情報のフラグ(FLAG)を「1」にセットする。書き
込まれない関連情報については、フラグ(FLAG)を
「0」のまま維持する。ここでは、管理情報テーブル3
1には、関連情報(A、B)のみが書き込まれて、関連
情報(C)は書き込まれていないとする。関連情報
(D)については、管理情報テーブル31には既に書き
込まれており、そのまま出力されるため、フラグ(FL
AG)を「2」にセットする。
【0033】ここで、テーブル監視モジュール34は、
障害管理テーブル35上の障害項目Xに対応する監視タ
イマ値(1.0s)に基づいて、障害発生時からの時間
経過を監視タイマにより監視している。この監視タイマ
がタイムアウトした時点で、テーブル監視モジュール3
4は、前記フラグ情報(FLAG)を管理情報テーブル
31上の各関連情報A〜Dのそれぞれにセットし、エー
ジェント30に対して送信要求を通知する(ステップS
5のYES)。なお、テーブル監視モジュール34は、
監視タイマがタイムアウトする前でも、管理情報テーブ
ル31に必要な関連情報(A〜D)の全てが登録された
時点で、エージェント30に対して送信要求を通知す
る。
【0034】エージェント30は、テーブル監視モジュ
ール34からの要求に応じて、管理情報テーブル31か
ら障害関連情報を読出し、図3に示すような送信パケッ
トを作成し、マネージャ2に送信する(ステップS6,
S7)。
【0035】以上の一連の動作がエージェント側で実行
された後に、図4(B)に示すように、マネージャ側の
処理に移行する。
【0036】即ち、マネージャ2は、エージェント30
から送信パケットによる障害関連情報を受信すると、シ
ステム全体の情報(MIB)を更新し、障害に対処する
ために必要な制御内容を決定する(ステップS10〜S
12)。
【0037】さらに、マネージャ2は、決定した制御内
容をエージェント30に指示する(ステップS13,S
14)。エージェント30は、マネージャ2からの制御
指示を受信すると、当該制御を実行することになる。マ
ネージャ2は、エージェント30から制御の実行結果
(障害回復状況など)を示す応答メッセージを受信し、
障害回復結果等を認識する(ステップS15)。
【0038】ここで、マネージャ2は、エージェント3
0から受信した障害関連情報では当該障害処理を実行す
る上で不足している場合には、必要な情報をエージェン
ト30に要求することになる。エージェント30は、前
述の情報収集処理を再度実行して、マネージャ2から要
求された関連情報を送信する。
【0039】以上のように本実施形態によれば、障害項
目に対応する障害関連情報がリンクされた構成の障害管
理テーブル35を利用することにより、障害発生時に当
該障害処理に必要な障害関連情報を管理対象システム側
で自発的に収集する事ができる。エージェント30は、
収集した障害関連情報を送信パケット形式でマネージャ
2側に送信することができる。従って、障害発生時に収
集したばかりの障害処理に有効な情報を、直ちにマネー
ジャ2側に送信することが可能となる。また、障害管理
テーブル35に登録された監視タイマ値を使用して、障
害発生時からマネージャ2側に障害関連情報が到達する
までの時間を監視し、制限時間内に当該処理が完了する
ように制御することができる。これにより、マネージャ
2側には所定の制限時間内に必要最小限の障害関連情報
が送信されるため、不確定でかつ長時間を要する障害関
連情報の送信処理を改善できる。従って、従来の方式の
ような冗長な時間を費やすような事態は発生せずに、結
果として障害発生時から所定の時間内で障害処理を完了
することが可能となる。
【0040】換言すれば、システムが障害処理を開始し
なければならない限界時間内に障害発生時の複数の障害
情報を収集できマネージャに通知することができる。即
ち、監視タイマを設定することにより限界時間内にマネ
ージャに通知することができる。従って、マネージャ側
は障害原因を特定するために必要な障害発生時の情報を
得ることができる。また、エージェントにおいてパケッ
トを作成する際、各情報が障害原因を特定するために有
効な情報なのかどうかを付加してマネージャに送ること
ができる。さらに、障害発生時の復旧処理に必要な情報
をまとめて送ることができるので、マネージャ側の処理
負荷を軽減でき、かつ結果として障害処理に要する時間
の短縮化を図ることができる。 (具体例)図5は、同実施形態のネットワーク管理シス
テムをビデオ・オン・デマンドを実現するストリーム配
信システムに適用した場合の具体例である。
【0041】本システムは大別して、例えばハードディ
スクドライブ(HDD)52に蓄積された映像データ
(静止画像データを含む)をネットワーク1に送信する
サーバ50と、当該映像データを受信して表示するクラ
イアント(ユーザ端末)51と、当該システムの管理を
行う管理ステーション(管理端末)10により構成され
ている。
【0042】サーバ50には、同実施形態におけるエー
ジェント30および障害関連のモジュール・テーブル群
(31〜35)が実装されている。以下これらを総称し
て障害関連処理部57として表記する。また、管理ステ
ーション10には、同実施形態のマネージャ2機能が実
装されている。
【0043】サーバ50は、HDD52から映像データ
を読出して、メモリ54に書き込むリード/ライト(R
/W)コントローラ53と、当該メモリ54から読出し
た映像データからなるストリームをネットワーク1に送
信する送信コントローラ55とを有する。さらに、サー
バ50は、メモリ54上へのデータのリード/ライト動
作時でのパリティエラーを監視するエラーチェック回路
56、及び前記の障害関連処理部57を有する。
【0044】障害関連処理部57は、ネットワーク1を
介して管理ステーション10に接続し、前述のSNMP
などにより管理ステーション10との間で障害関連情報
の交換を実行する。管理ステーション10は、HDD5
8にシステム全体の管理情報(MIB)を格納して、シ
ステムの障害管理を含む各種のシステム管理を行う。
【0045】以下図5と共に、図6、図7及び図8のフ
ローチャートを参照して動作を説明する。
【0046】まず、図8に示すように、サーバ50は、
クライアント51からのストリーム送信要求(ビデオ配
信要求)を受信すると、その要求に応じた映像データの
HDD52の格納位置やどのストリームに映像データを
流せば良いか等のストリーム情報を決定する(ステップ
S20,S21)。
【0047】R/Wコントローラ53は、HDD52か
ら要求に応じた映像データを読出し、メモリ54上に書
き込む(ステップS22)。送信コントローラ55は、
メモリ54上から映像データを読出して、当該ストリー
ムをネットワーク1を介してクライアント51に送信す
る(ステップS24)。クライアント51は、ストリー
ムを受信して再生する。サーバ50は、要求された映像
データの全てを送信して終了となる(ステップS2
5)。
【0048】ここで、R/Wコントローラ53がHDD
52読出した映像データをメモリ54上に書き込むとき
に、メモリのパリティエラーが発生する場合を想定する
(ステップS23のYES)。このとき、エラーチェッ
ク回路56は、パリティエラーを検出すると、割り込み
を発生させる。障害関連処理部57は、当該割り込みを
受信すると、前述したような一連の障害処理を実行する
(ステップS26〜S30)。
【0049】即ち、障害検出モジュール33は障害管理
テーブル35を参照し、管理対象モジュール32に情報
の収集要求を出すと同時に、テーブル監視モジュール3
4にパリティエラーが発生したことを通知し、管理情報
テーブル31の監視要求を出す。ここで、サーバ50に
含まれる管理情報テーブル31は、具体的には図6に示
すような管理情報を登録するテーブルである。
【0050】この具体例では、メモリ54にパリティエ
ラーが発生した場合に、メモリ54のどこでエラーが発
生したか、どのストリームがどのような状態のときに発
生したか、またその発生時間が分かれば、その障害を回
復させることができるものと想定する。図6に示すよう
に、メモリ54上のエラー発生位置(部位)に関する情
報がエラー発生情報である。ストリーム情報は、エラー
発生時のストリームを特定するための情報(ストリーム
ID)であり、送信開始・終了のイベントの度に変化す
る情報である。また、ストリーム情報は、ストリームの
コンテンツ(送信完了のストリーム情報)も含む。時間
情報は、ストリームの送信時間であり、ストリーム送信
時に刻々と変化する情報である。これらの情報が、メモ
リエラーに対する障害処理に必要な情報である。
【0051】また、障害管理テーブル35は、図9に示
すように、障害項目(X,Y,Zとする)毎に、当該障
害の対応処理を行うために必要な複数の関連情報(DA
TA)、その付加情報(FLAG)、及び監視タイマ値
により構成されている。関連情報としては、前記のよう
に、エラー発生位置(部位)に関するエラー発生情報、
ストリームIDやコンテンツであるストリーム情報、ス
トリームの送信時間である時間情報などである。
【0052】障害関連処理部57の管理対象モジュール
32は、パリティエラーの検出通知を受けると同時に複
数の最新の障害関連情報を収集し、管理情報テーブルを
更新する(ステップS26,S27)。即ち、図9に示
すように、複数のプログラム1〜Mがそれぞれ、対応す
る障害関連情報を収集し、管理情報テーブルの書き込み
を実行する。ここで、最新かどうかの判断は障害管理テ
ーブルのフラグを用いて判断する。また、刻々と変化す
る情報については、障害発生後にデータを上書きされる
前の障害発生時の情報を収集する必要がある。これにつ
いては、前述の監視タイマ機能を利用して、障害発生時
のデータを収集することができる。即ち、パリティエラ
ーが発生してから障害処理を開始しなければならない制
限時間を監視タイマ値に設定し、その制限時間内にでき
るだけ多くの関連情報を収集しマネージャ(管理ステー
ション10)へ通知する。
【0053】テーブル監視モジュール34は、監視タイ
マ値(10s)に相当する時間経過の後に、収集した各
情報を一括してエージェントに通知する(図10を参
照)。図10は、テーブル監視モジュール34の監視開
始から監視タイマによるタイムアウトまでのタイミング
チャートを示す。ここで、ET1〜ET3は、管理対象
モジュール32のプログラム1によるエラー発生情報
(発生部位)の更新タイミングを示す。また、ST1,
ST2は、管理対象モジュール32のプログラム2によ
るストリーム情報(発生部位)の更新タイミングを示
す。
【0054】エージェントは、障害発生時のデータに更
新された各障害項目の値から図7に示すような送信パケ
ットを作成して、マネージャ(管理ステーション10)
に送信する(ステップS28〜S30)。マネージャ1
0は、障害関連処理部57から受信した情報(図7の送
信パケット)に基づいて、HDD58に格納しているシ
ステム全体の情報を更新し、かつ所定のストリームの復
旧処理を実行する。
【0055】以上のように同実施形態のネットワーク管
理システムを、ビデオ・オン・デマンドを実現するスト
リーム配信システムに適用すると、メモリエラーのよう
な障害が発生しても、短時間に障害処理を実行して、中
断したストリーム配信処理を再開することが可能とな
る。 (変形例1)図11および図12は、同実施形態の変形
例1に関するタイミングチャートである。なお、本変形
例は、システム構成および基本的動作については、同実
施形態(図1から図4を参照)と同様である。
【0056】本変形例の特徴は、監視タイマの使用方法
に関するものである。即ち、障害管理テーブル35にセ
ットされた監視タイマ値を使用して、障害発生時からそ
の障害に関する情報をエージェント30がマネージャ2
に通知するまでの限界時間を設定することができる。換
言すれば、エージェント30は、制限時間までマネージ
ャ2へ情報を通知するのを待つことができる。また、エ
ージェント30からマネージャ2に通知する時間を決め
ることができるので、マネージャ2が障害処理を開始す
る時間を操作することができる。
【0057】以下図11及び図12を参照して、本変形
例を具体的に説明する。
【0058】いま仮に、システムとして障害の復旧が完
了しなければならない時間(Tr)が設定されている場
合に、その障害復旧の作業としては管理対象システム2
0内で障害発生時に自動的に行われる方法と、管理対象
システム20内での作業で復旧が完了しなかった場合に
行われるマネージャ2の制御による方法とが用意されて
いると想定する。
【0059】システムとして障害復旧が完了しなければ
ならない時間(Tr)から、マネージャ側からの制御に
必要な時間(Tn)と、エージェント/マネージャ間の
通信時間とを差し引いた監視タイマ値を設定する。例え
ば障害項目(X)に相当する障害の発生時から監視タイ
マ値で定められた制限時間だけ待った時点で、管理対象
システム20内の障害復旧処理が終了していない場合、
エージェント30はマネージャ2に対して当該障害の関
連情報および復旧処理状況(障害復旧処理の失敗)をマ
ネージャに通知する。マネージャ2は、エージェント3
0から通知を受けた時点Ts1から復旧制御を開始する
(図11を参照)。
【0060】一方、障害発生時から監視タイマ値で定め
られた制限時間だけ待った時点で、管理対象システム2
0内の障害復旧処理が終了した場合は、エージェント3
0はその時点Ts2での関連情報・復旧処理状況(障害
復旧処理の成功)をエージェマネージャ2に通知する
(図12を参照)。
【0061】以上のように本変形例によれば、システム
が障害処理を開始しなければならない限界時間だけ待っ
て、障害発生時から制限時間までの複数の障害情報を収
集しマネージャに通知することができる。また、基本的
には同実施形態と同様であるが、監視タイマ機能の使用
方法の変更により、エージェント30からマネージャ2
に障害関連情報を通知する時間を設定できるため、結果
としてマネージャ2が障害処理を開始する時間を操作す
ることが可能となる。 (変形例2)図13および図14は、同実施形態の変形
例2に関するフローチャートである。なお、本変形例
は、システム構成については同実施形態(図1から図3
を参照)と同様である。
【0062】本変形例の特徴は、障害管理テーブル35
の中の監視タイマ値をテーブル監視モジュール34がシ
ステムの状態・情報により変更することができる機能で
ある。また、マネージャ2側からもテーブル監視モジュ
ール34に対して変更指示を出すことにより、障害管理
テーブル35の内容を変更することができる機能であ
る。
【0063】まず、図13のフローチャートを参照し
て、本変形例のエージェント30側の処理について具体
的に説明する。
【0064】管理対象システム20上において、障害検
出モジュール33が機器の障害の発生を検出すると、障
害管理テーブル35を参照する(ステップS40,S4
1)。さらに、障害検出モジュール33は、障害管理テ
ーブル35を参照することにより、当該障害処理に必要
な関連情報を認識し、さらに付加情報(FLAG)に従
って各情報毎に情報収集要求を管理対象モジュール32
に出す。管理対象モジュール32は、関連情報の収集処
理を実行する(ステップS42)。
【0065】また、障害検出モジュール33は、テーブ
ル監視モジュール34に対して、管理情報テーブル31
の監視要求を出す。この要求に応じて、テーブル監視モ
ジュール34は、障害管理テーブル35から関連情報と
共に、監視タイマ値を取得して、管理情報テーブル31
を監視する処理を開始する(ステップS43)。
【0066】このとき、テーブル監視モジュール34
は、管理情報テーブル31の監視によりシステム20の
状態を認識して、この認識結果に基づいて障害管理テー
ブル35上の監視タイマ値の書き換えを実行する(ステ
ップS44〜S46)。管理対象モジュール32は、障
害検出モジュール33からの指示に応じて障害関連情報
を収集し、管理情報テーブル31に書き込む(ステップ
S47)。
【0067】テーブル監視モジュール34は、障害管理
テーブル35上の更新した(または維持された)監視タ
イマ値に基づいて、障害発生時からの時間経過を監視タ
イマにより監視している。この監視タイマがタイムアウ
トした時点で、テーブル監視モジュール34は、エージ
ェント30に対して送信要求を通知する(ステップS4
8のYES)。なお、テーブル監視モジュール34は、
監視タイマがタイムアウトする前でも、管理情報テーブ
ル31に必要な関連情報の全てが登録された時点で、エ
ージェント30に対して送信要求を通知する。エージェ
ント30は、テーブル監視モジュール34からの要求に
応じて、管理情報テーブル31から障害関連情報を読出
して送信パケットを作成し、マネージャ2に送信する
(ステップS49,S50)。
【0068】一方、図14のフローチャートを参照し
て、本変形例のマネージャ2側の処理について具体的に
説明する。
【0069】即ち、マネージャ2は、エージェント30
からの応答メッセージに従って、一連の制御の結果を監
視している(ステップS60)。ここで、制御タイムア
ウトの発生又は他のエラーが発生した場合に、マネージ
ャ2は、システム状態の変化を監視し、この監視結果に
基づいて障害管理テーブル35の登録情報の変更を判断
する(ステップS61〜S63)。ここで、監視項目と
しては、例えばネットワーク負荷、ネットワーク障害、
マネージャ3の処理負荷等がある。
【0070】マネージャ2は、障害管理テーブル35の
登録情報の変更が必要であると判断すると、エージェン
ト30に対して変更指示を行う(ステップS64)。エ
ージェント30側では、テーブル監視モジュール34が
マネージャ2からの変更指示を受信すると、障害管理テ
ーブル35の登録情報(監視タイマ値など)の書き換え
を実行する(ステップS67)。エージェント30は、
テーブル監視モジュール34からの指示に応じて、変更
指示に対する応答メッセージを作成してマネージャ2に
送信する(ステップS68)。マネージャ2は、応答メ
ッセージを受信すると、所定の処理に移行する(ステッ
プS65)。
【0071】以上のように本変形例によれば、システム
が障害処理を開始しなければならない限界時間内に障害
発生時の複数の障害情報を収集でき、マネージャに通知
することが可能であることは実施例と同様であるが、さ
らにシステム負荷等を検出して最適な監視タイマ値を設
定することができる。例えば、ネットワークが高負荷状
態であることを検出した場合には制御に費やす時間が短
くなる場合があり、そういった時には監視タイマの値も
短くしてやることにより適切な値となる。従って、例え
ばネットワークの状態が変化して高負荷の状態になった
り、他の処理プロセスの処理負荷が変化する等のシステ
ム状態の変化に対して、制御を失敗するといった影響を
うけることなく、より迅速な制御を行うことが可能とな
る。 (変形例3)図15から図21は、同実施形態の変形例
3に関する図である。なお、本変形例の基本的なシステ
ム構成は同実施形態(図1から図3を参照)と同様であ
る。
【0072】本変形例の特徴は、障害管理テーブル35
上において、障害関連情報をエージェント30がマネー
ジャ2に通知する際のリトライ回数を設定した構成であ
る。これにより、マネージャ2への通知の確実性を高
め、かつエージェント/マネージャ間の送受信パケット
数を制限することができる。また、初回の障害通知とは
区別して、リトライによる通知であることをマネージャ
2側に認識させることが可能となる。
【0073】以下、図15から図19を参照して本変形
例のシステムを説明する。
【0074】本変形例は、図15に示すように、各障害
項目(X,Y…)毎にリトライ回数を有する示す障害管
理テーブル35を使用する。このリトライ回数は、エー
ジェント30からマネージャ2への障害関連情報の送信
リトライの回数を設定するための情報である。即ち、障
害通知の重要度が高いものについては障害管理テーブル
35上にリトライ回数を定義し、エージェント30は監
視タイマ値で定めた時間ごとにリトライ回数だけマネー
ジャ2へ障害情報を通知する。このとき、障害通知に成
功してマネージャ2からの制御指示があった場合には、
エージェント30はリトライ回数未満でも、その時点で
送信リトライを中止する。
【0075】このような構成であれば、障害発生時に一
度だけエージェント30がマネージャ2に障害通知をし
ても、障害通知が確実に行われない場合があるが、リト
ライすることにより、マネージャ2側に障害通知(障害
関連情報の到達)を確実に行うことが可能となる。特
に、ネットワークの負荷を抑えるために、マネージャ2
がエージェント30からの送信パケットの受信確認をエ
ージェント30に行わないようなプロトコルを使用した
ネットワーク管理システムに有効である。
【0076】また、本変形例の障害管理テーブル35
は、図15に示すように、付加情報(FLAG)として
2桁の数値情報を使用している。下位の1桁目は、前述
の実施形態の場合と同様である(図2を参照)。一方、
付加情報(FLAG)の上位1桁は、前記の送信リトラ
イの実行回数を示す情報である。即ち、エージェント3
0からマネージャ2への送信リトライが実行される毎
に、「0」、「1」、「2」、「3」と増加していく。
エージェント30は、図16に示すように、2桁の付加
情報(FLAG)を有する送信パケットを作成して、マ
ネージャ2側に送信する。
【0077】このような本変形例について、さらに図1
7及び図18を参照して具体的に説明する。
【0078】図17に示すように、障害発生後1度目の
監視タイマ値内では、エージェント側において必要最小
限の障害関連情報を収集できず、マネージャ2側への障
害通知が失敗する場合が想定できる。そこで、本変形例
のシステムでは、エージェント側は2度目の監視タイマ
値内での送信リトライ(障害関連情報の送信)を実行す
る。リトライでは、十分な障害関連情報が収集されてい
る可能性が高く、マネージャ2側への障害通知が成功す
る確率が高くなる。
【0079】また、障害発生後1度目の監視タイマ値内
では、収集できなかった障害関連情報を送信リトライに
より、マネージャ2側に通知する場合が想定できる。即
ち、図18に示すように、障害発生後1度目の監視タイ
マ値内では、関連情報(A、B、D)のみからなる送信
パケットがマネージャ側に送信されて、関連情報(C)
については監視タイマ時間内に収集できなかった場合で
ある。そこで、2度目の監視タイマ値内でのリトライに
より、新たに収集できた関連情報(C)を含む送信パケ
ットをマネージャ側に送信できる。ここで、前述したよ
うに、送信パケットの付加情報(FLAG)の上位1桁
目が、1度目の「0」から2度目には「1」に変化して
いる。即ち、マネージャ側は、送信パケットの付加情報
(FLAG)の上位1桁目を参照することにより、初回
の送信による障害通知であるか、リトライ送信による障
害通知であるかを判断することができる。
【0080】以上のように本変形例によれば、障害通知
のリトライ機能によりエージェントからマネージャへの
障害通知の確実性を高めることができる。この場合、リ
トライ回数を定義することにより、エージェント/マネ
ージャ間のパケット送受信によるネットワーク負荷を制
限しながら、障害通知の確実性を高めることができる。
また、リトライ機能により、監視タイマ値ごとに新しい
障害情報を定期的にマネージャに送信することができ
る。
【0081】図19から図21は、本変形例の補足説明
を行うための概念図である。
【0082】即ち、管理情報テーブル31に格納されて
いる情報は、管理対象モジュール32によって障害発生
時に書き換えられる他、定期的に更新される情報もあ
る。従って障害発生時から監視タイマ値ごとにエージェ
ント30からマネージャ2へリトライ送信している間
に、管理情報テーブル31の情報が更新され、障害発生
時の情報と異なるものをマネージャ2に送信する場合も
考えられる。このような場合を考慮して、マネージャ2
側においてエージェント30から受信した情報を格納し
ておき、リトライ毎に送信されてきた関連情報と付加情
報(FLAG)を比較して、格納してあった情報の更新
処理が必要であるかどうかを判断するしくみを用意する
必要がある。
【0083】図19はその具体例を示すものであり、障
害発生に伴い関連情報(A,B,C,D)を収集して通
知する場合である。ここでは、関連情報Cが収集される
までリトライ送信を繰り返している間に管理情報テーブ
ル31の関連情報Bが更新された例を示している。障害
発生後一度目の送信では、関連情報Bはマネージャ2に
対して障害発生時の情報を通知できているが、リトライ
2回目では障害発生後に更新された情報が通知されてい
る。
【0084】以上のような場合を考慮して、マネージャ
2側でエージェント30から受信した情報を格納してお
き、リトライの度に送信された障害関連情報と比較し処
理をする機能が必要になる。以下、図20及び図21を
参照して説明する。
【0085】先ず、マネージャ2側ではエージェント3
0から障害情報を受信した際には、その関連情報と付加
情報(FLAG)からなる受信パケットをHDD100
に保存する。そして、リトライにより新たな障害情報2
01を受信したときには、マネージャ2は既にHDD1
00に格納されている情報200との比較を行う(図2
1を参照)。マネージャ2側は、付加情報(FLAG)
の下位1桁目の情報に基づいて、「0」から「1」に変
化している関連情報(ここではC)については新たに受
信した情報201から選択して更新する。また、付加情
報(FLAG)の下位1桁の情報が「1」のまま変化し
ない情報については、すでに障害発生時の情報が通知さ
れていると判断し、HDD100に格納してある情報の
更新はしない。さらに、下位1桁の情報が「1」から
「0」に変化した情報についても、すでに通知されてい
ると判断するので、情報の更新はしない。以上のように
して、HDD100には、比較処理の後に更新された障
害関連情報202が格納されることになる。
【0086】なお、同実施形態の監視タイマ値の設定基
準は、障害処理を実行する上で必要な障害関連情報の通
知時間の制限値に基づいている。具体的には、例えばフ
ァンが停止して所定の時間が経過すると、システムによ
ってはハード的に熱が帯びて、制限温度を越えてしまう
場合がある。このようなシステムでは、その温度に達す
る前に障害関連情報を通知する必要があるため、これを
基準として当該監視タイマ値を設定することになる。
【0087】
【発明の効果】以上詳述したように本発明によれば、特
にマネージャ/エージェント方式によるネットワーク管
理システムにおいて、管理対象システムの障害発生から
障害処理が完了するまでに要する時間を短縮化し、結果
としてシステムに設定された所定の制限時間内に障害回
復などの障害管理処理を完了することができる。従っ
て、障害発生時にマネージャ側は、障害処理に必要な障
害関連情報の全てを受信できる可能性が高くなり、当該
障害関連情報をエージェント側に要求する処理を大幅に
減少することが可能となる。これにより、マネージャ側
の処理負担の軽減および障害処理に要する時間の短縮化
(冗長時間の削減)を実現できる。
【図面の簡単な説明】
【図1】本発明の実施形態に関係するネットワーク管理
システムの基本的構成を示すブロック図。
【図2】同実施形態の障害管理テーブルの構成を説明す
るための概念図。
【図3】同実施形態のエージェントが送信する送信パケ
ットの構成を示す概念図。
【図4】同実施形態のシステムにおける一連の障害処理
を説明するためのフローチャート。
【図5】同実施形態のシステムを適用したストリーム配
信システムの具体例を示すブロック図。
【図6】同具体例での管理情報テーブルの構成を示す概
念図。
【図7】同具体例での送信パケットの構成を示す概念
図。
【図8】同具体例でのメモリエラー処理を説明するため
のフローチャート。
【図9】同具体例での障害管理テーブルの構成を説明す
るための概念図。
【図10】同具体例でのメモリエラー処理を説明するた
めのタイミングチャート。
【図11】同実施形態の変形例1に関係するタイミング
チャート。
【図12】同変形例1に関係するタイミングチャート。
【図13】同実施形態の変形例2に関係するフローチャ
ート。
【図14】同変形例2に関係するフローチャート。
【図15】同実施形態の変形例3に関係する障害管理テ
ーブルの構成を説明するための概念図。
【図16】同変形例3に関係する送信パケットの構成を
示す概念図。
【図17】同変形例3に関係するタイミングチャート。
【図18】同変形例3に関係するタイミングチャート。
【図19】同変形例3に関係するタイミングチャート。
【図20】同変形例3に関係するシステム構成を示す概
念図。
【図21】同変形例3に関係する概念図。
【図22】従来のネットワーク管理システムの概念を示
すブロック図。
【図23】同ネットワーク管理システムの動作を説明す
るためのタイミングチャート。
【図24】同ネットワーク管理システムの動作を説明す
るためのフローチャート。
【符号の説明】
1…ネットワーク 2…マネージャ 10…管理ステーション 11…管理コンソール 20…管理対象システム 30…エージェント 31…管理情報テーブル 32…管理対象モジュール 33…障害検出モジュール 34…管理情報テーブル監視モジュール 35…障害管理テーブル 50…サーバ 51…クライアント 52…HDD 53…リード/ライト(R/W)コントローラ 54…メモリ 55…送信コントローラ 56…エラーチェック回路 57…障害関連処理部

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 ネットワークの障害管理機能を有するネ
    ットワーク管理システムに対して、当該ネットワークに
    接続されたネットワーク機器の障害関連情報を送信する
    機能を有する障害管理システムであって、 前記ネットワーク機器の障害内容に対応して予め設定さ
    れる障害関連情報を登録するための障害管理テーブル手
    段と、 前記ネットワーク機器の障害発生時に、前記障害管理テ
    ーブル手段を参照して当該障害内容に対応する障害関連
    情報を収集する情報収集手段と、 前記情報収集手段により収集された障害関連情報を前記
    ネットワーク管理システムに送信する送信手段とを具備
    したことを特徴とする障害管理システム。
  2. 【請求項2】 ネットワークの障害管理機能を有するネ
    ットワーク管理システムに対して、当該ネットワークに
    接続されたネットワーク機器の障害関連情報を送信する
    機能を有する障害管理システムであって、 前記ネットワーク機器の障害内容に対応して予め設定さ
    れる障害関連情報および障害発生時から当該障害関連情
    報を前記ネットワーク管理システムに送信するまでの制
    限時間を監視するための監視時間情報を登録するための
    障害管理テーブル手段と、 前記ネットワーク機器の障害発生時に、前記障害管理テ
    ーブル手段を参照して当該障害内容に対応する障害関連
    情報を収集する情報収集手段と、 前記監視時間情報に基づいて前記情報収集手段により収
    集された障害関連情報を、予め設定された制限時間内に
    前記ネットワーク管理システムに送信する送信手段とを
    具備したことを特徴とする障害管理システム。
  3. 【請求項3】 ネットワーク上においてエージェントと
    マネージャ間で所定のプロトコルを使用して情報を交換
    し、当該情報に基づいて障害管理を行う機能を有するネ
    ットワーク管理システムであって、 ネットワーク上の管理対象システムの障害発生時に、管
    理情報テーブル手段を参照して当該障害管理に必要な管
    理情報を生成して送信する機能を有するエージェント手
    段と、 前記管理対象システムの障害内容に対応して予め設定さ
    れる障害関連情報を登録するための障害管理テーブル手
    段と、 前記管理対象システムの障害発生時に、前記障害管理テ
    ーブル手段を参照して当該障害内容に対応する障害関連
    情報を収集して、前記管理情報テーブル手段に登録する
    情報収集手段と、 前記エージェント手段から送信された前記障害関連情報
    を含む前記管理情報に基づいて、前記管理対象システム
    の障害管理に必要な制御を行うマネージャ手段とを具備
    したことを特徴とするネットワーク管理システム。
  4. 【請求項4】 前記障害管理テーブル手段は、前記管理
    対象システムの障害発生時から前記エージェント手段が
    前記マネージャ手段に前記障害関連情報を含む前記管理
    情報を送信するまでの制限時間を規定した監視時間情報
    を登録していることを特徴とする請求項3記載のネット
    ワーク管理システム。
  5. 【請求項5】 前記管理対象システムの障害発生時に、
    前記障害管理テーブル手段を参照して前記管理情報テー
    ブル手段を監視し、前記管理情報テーブル手段に所定の
    前記障害関連情報が登録されたときに、前記エージェン
    ト手段に対して前記障害関連情報を前記マネージャ手段
    に送信することを指示するためのテーブル監視モジュー
    ル手段を有することを特徴とする請求項3記載のネット
    ワーク管理システム。
  6. 【請求項6】 前記障害管理テーブル手段に設定する前
    記監視時間情報に基づいて、前記マネージャ手段が前記
    障害関連情報の受信に応じて実行する障害処理の開始時
    点を設定する手段を有することを特徴とする請求項3記
    載のネットワーク管理システム。
  7. 【請求項7】 前記障害管理テーブル手段に設定する前
    記監視時間情報を、システムの状態変化または前記マネ
    ージャ手段からの要求に応じて更新する手段を有するこ
    とを特徴とする請求項3記載のネットワーク管理システ
    ム。
  8. 【請求項8】 前記障害管理テーブル手段は、予め設定
    される障害項目毎に障害処理に必要な障害関連情報と、
    当該各障害関連情報の収集状況を示す付加情報と、障害
    発生時から当該障害関連情報を送信するまでの制限時間
    を規定した監視時間情報とを有することを特徴とする請
    求項1または請求項2のいずれか記載の障害管理システ
    ム、あるいは請求項3から請求項7のいずれか記載のネ
    ットワーク管理システム。
  9. 【請求項9】 前記エージェント手段は、前記マネージ
    ャ手段に前記障害関連情報を含む前記管理情報を送信す
    る送信処理を、所定の条件に基づいて再実行するリトラ
    イ手段を有することを特徴とする請求項3記載のネット
    ワーク管理システム。
  10. 【請求項10】 前記リトライ手段は、前記障害管理テ
    ーブル手段に設定されたリトライ回数情報に基づいてリ
    トライ回数を制御する機能を有することを特徴とする請
    求項9記載のネットワーク管理システム。
JP10279045A 1998-09-30 1998-09-30 ネットワークに適用する障害管理システム及びネットワーク管理システム Pending JP2000115168A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10279045A JP2000115168A (ja) 1998-09-30 1998-09-30 ネットワークに適用する障害管理システム及びネットワーク管理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10279045A JP2000115168A (ja) 1998-09-30 1998-09-30 ネットワークに適用する障害管理システム及びネットワーク管理システム

Publications (1)

Publication Number Publication Date
JP2000115168A true JP2000115168A (ja) 2000-04-21

Family

ID=17605641

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10279045A Pending JP2000115168A (ja) 1998-09-30 1998-09-30 ネットワークに適用する障害管理システム及びネットワーク管理システム

Country Status (1)

Country Link
JP (1) JP2000115168A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103368771A (zh) * 2013-06-24 2013-10-23 华为技术有限公司 一种多节点服务器系统的故障现场信息的收集方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103368771A (zh) * 2013-06-24 2013-10-23 华为技术有限公司 一种多节点服务器系统的故障现场信息的收集方法及装置
WO2014206099A1 (zh) * 2013-06-24 2014-12-31 华为技术有限公司 一种多节点服务器系统的故障现场信息的收集方法及装置

Similar Documents

Publication Publication Date Title
US5301309A (en) Distributed processing system with checkpoint restart facilities wherein checkpoint data is updated only if all processors were able to collect new checkpoint data
US7269611B2 (en) Storage system and storage system control method
US20080201470A1 (en) Network monitor program executed in a computer of cluster system, information processing method and computer
JP5549556B2 (ja) データ収集システム、データ収集システムの異常要因判定方法
JPH0619743B2 (ja) コンピユータ・ネツトワークにおける適用業務セッションの保存方法、制御方法及び保存装置
JP4851719B2 (ja) 周辺装置管理システム及び方法
TW200426571A (en) Policy-based response to system errors occurring during os runtime
JPH086910A (ja) クラスタ型計算機システム
JP2679674B2 (ja) 半導体製造ライン制御装置
US8880552B2 (en) Database system and database control method
JP3942216B2 (ja) 二重化された監視/制御プロセッサによるシステム監視・制御方法およびシステム監視・制御装置
JP5366184B2 (ja) データ記憶システム、データ記憶方法
US20060053330A1 (en) Smart card for high-availability clustering
JP2000132413A (ja) エラーリトライ方法、エラーリトライシステム及びその記録媒体
US7359833B2 (en) Information processing system and method
JP2000115168A (ja) ネットワークに適用する障害管理システム及びネットワーク管理システム
JP2595833B2 (ja) 遠隔保守装置
JP2002169704A (ja) 代行処理方法、代行処理システム及びコンピュータシステム
JP5067075B2 (ja) 疎結合システム、待機系排他制御装置、疎結合システムのリカバリ方法、プログラムおよび記憶媒体
JP2001331330A (ja) プロセス異常検知及び復旧システム
JP3691272B2 (ja) 分散処理システムおよび障害解析情報の保存方法
JP3190880B2 (ja) スタンバイシステム、スタンバイ方法、および記録媒体
JP2001027951A (ja) マルチプロセッサ構成の情報処理システムにおけるファイルロード装置と記録媒体
JPH07141308A (ja) 情報処理システムにおけるバックアップ方法
JP2776442B2 (ja) 複合コンピュータシステム