JPH08305661A - 分散設置システムの障害復旧方式 - Google Patents

分散設置システムの障害復旧方式

Info

Publication number
JPH08305661A
JPH08305661A JP12977595A JP12977595A JPH08305661A JP H08305661 A JPH08305661 A JP H08305661A JP 12977595 A JP12977595 A JP 12977595A JP 12977595 A JP12977595 A JP 12977595A JP H08305661 A JPH08305661 A JP H08305661A
Authority
JP
Japan
Prior art keywords
failure
information
failure recovery
fault
maintenance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP12977595A
Other languages
English (en)
Inventor
Teruaki Nakajima
輝明 中嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP12977595A priority Critical patent/JPH08305661A/ja
Publication of JPH08305661A publication Critical patent/JPH08305661A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Test And Diagnosis Of Digital Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Debugging And Monitoring (AREA)

Abstract

(57)【要約】 【目的】分散設置された複数のコンピュータシステムに
おいて、オンライン接続を利用した障害情報の一元管理
及び、保守システムに備えられた障害復旧部品の共有し
た自動障害復旧により保守費用の削減を図る。 【構成】分散設置コンピュータシステム1-1〜1-nと保
守システム100をオンライン接続し、分散設置コンピュ
ータシステムの障害監視手段11が検出した障害情報は通
信制御手段30、31を介して保守システムに送信され、保
守システムでは受け取った障害情報を障害解析手段70に
て解析し必要な障害復旧情報を分散設置コンピュータシ
ステムに送り返し、分散設置コンピュータシステムは受
け取った障害復旧情報に基づき障害復旧手段21が障害復
旧処理を行う。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は分散設置コンピュータシ
ステム群の保守方式に関し、特に多地域に対して分散設
置されたコンピュータシステム(小規模多数展開型コン
ピュータシステム)の障害復旧方式に関する。
【0002】
【従来の技術】コンピュータシステム群の障害を自動的
に復旧するための従来の方式では、個々のコンピュータ
システム毎に障害復旧処理手段が具備され、不特定多数
のシステムの障害情報や障害復旧用の部品等も個別に管
理されていた。
【0003】また、高度な障害復旧処理手段を用意する
のに適さない小規模システムにおいては、通常保守要員
を動員し、手作業で復旧を行っていた。
【0004】なお、コンピュータシステムの従来の保守
方式として、例えば特開昭62−135938号公報に
は、障害を修正する修正情報の検索と修正情報によりコ
ンピュータシステムの修正とが直接保守要員により手作
業で行なわれる保守方式では、例えば保守要員の専門知
識不足や保守要員が常駐していないコンピュータシステ
ムにおいては障害発生から復旧まで時間がかかるという
問題を解消するために、コンピュータシステムの障害を
自動的に診断して障害を自動修正する保守方式が提案さ
れている。すなわち、同公報には、保守対象コンピュー
タに障害発生時にこれを一時的に停止させる手段と、障
害に関する情報を受信する手段と、受信した情報を基に
障害の診断を行なう手段と、診断結果に基づき障害の修
正情報を要求する修正情報要求手段と、修正情報を検索
する手段と、障害の修正を行なう手段と、障害の修正完
了後に保守対象コンピュータの処理を再開する手段とを
備え、障害を自動修正する保守方式が提案されている。
【0005】
【発明が解決しようとする課題】前記従来の保守方式で
は下記記載の問題点を有する。
【0006】第1の問題点は、複数(多数)の地域にコ
ンピュータシステムが分散している場合、個々の障害情
報も分散しているため情報を収集、整理する作業が必要
となり、障害の早期発見が難しく、長い復旧時間が必要
とされるという点である。
【0007】第2の問題点は、個々のシステム毎に高度
な障害復旧機能(例えば前記特開昭62−135938
号公報に記載されるようなシステム)を具備することが
価格及び設置形態(寸法的制約)等の点から不適又は困
難とされる多数展開型の小規模コンピュータシステムに
おいて、障害時の復旧作業は保守要員による人手の作業
が多くならざるを得ず、特にコンピュータシステムが広
域に分散して設置されている場合、人手による保守は多
数の保守要員の導入および保守要員の遠地派遣を伴うこ
ととなり、高い保守費用と長い障害復旧時間が必要とさ
れるという点である。
【0008】従って、本発明の目的は上記問題点を解消
し、分散設置された複数のコンピュータシステムにおい
て、オンライン接続を利用した障害情報の一元管理及び
保守システムに備えられた障害復旧部品の共有した自動
障害復旧により保守費用の削減を図る分散設置コンピュ
ータシステム群の保守方式を提供することにある。
【0009】
【課題を解決するための手段】前記目的を達成するた
め、本発明は、分散して設置された複数のコンピュータ
システム群の保守方式において、前記複数のコンピュー
タシステムが、稼動情報を監視して障害を自動的に検出
し障害情報を作成する手段と、前記障害情報を外部へ送
信する通信制御手段と、を少なくとも備え、前記コンピ
ュータシステムから送信される前記障害情報を受信して
データベースに情報を格納する手段と、前記データベー
スの内容を参照する手段を、を少なくとも備えてなる保
守用コンピュータシステムに前記複数のコンピュータシ
ステムをオンライン接続し、前記複数のコンピュータシ
ステムの障害情報を少なくとも一の保守用コンピュータ
システムにて一元的に管理することを特徴とする分散設
置型コンピュータシステム群の保守方式を提供する。
【0010】本発明は、前記障害情報を受信・解析して
対応する障害復旧部品と障害復旧処理情報とを出力する
手段と、前記障害復旧部品と前記障害復旧処理情報とを
障害復旧情報として送信する手段と、を備えた保守用コ
ンピュータシステムと、前記障害復旧情報を受信し、該
障害復旧情報に基づき障害復旧処理を行う手段を備えた
複数のコンピュータシステムとをオンライン接続し、前
記保守用コンピュータシステムにて管理されている前記
障害復旧処理情報と前記障害復旧部品とを、分散設置さ
れた前記複数のコンピュータシステムにて共有して自動
的に障害復旧するように構成してもよい。
【0011】本発明においては、好ましくは、前記保守
用コンピュータシステムが、前記分散設置されたコンピ
ュータシステムから送信されて来る障害情報を受信する
手段と、受信した前記障害情報をデータベースに格納す
る手段と、前記障害情報が分散設置された前記分散配置
されたコンピュータシステムの障害であることが判明す
ると、前記障害復旧部品と前記障害復旧処理情報とを障
害復旧情報として前記コンピュータシステムへ送信する
手段と、を備えたことを特徴とする。本発明において
は、前記保守用コンピュータシステムが、内部の障害を
検出して障害情報を作成する障害検出手段と、前記障害
検出手段自身の異常を検出して障害情報を作成する手段
と、対応する障害の障害復旧処理情報と障害復旧部品を
用意し障害復旧処理を行う手段と、を備えたことを特徴
とする。
【0012】また、本発明においては、好ましくは、分
散設置されたコンピュータシステムが、内部の障害を検
出して障害情報を作成する障害検出手段と、前記障害検
出手段自身の異常を検出して障害情報を作成する手段
と、障害情報を外部に送信する手段と、前記障害復旧用
部品と障害復旧処理情報を障害復旧情報として受け取っ
た際に、該情報に基づき障害復旧処理を行う障害復旧手
段と、を備えたことを特徴とする。
【0013】
【作用】本発明によれば、保守システムとのオンライン
通信を利用して、多地域に分散設置されたコンピュータ
システム群の障害情報を一元的に管理することができ、
障害の早期復旧が可能とされる。また、本発明によれ
ば、個別に障害復旧手段を備えることが困難とされる多
数設置型の小規模システムの場合においても、障害発生
時に自動復旧(無人化)を実現することが可能とされ、
保守要員を動員した場合に比べて保守費用の削減と障害
の早期復旧が可能となる。
【0014】
【実施例】図面を参照して、本発明の実施例を以下に説
明する。
【0015】
【実施例1】図1は本発明の一実施例の構成を示すブロ
ック図である。図1を参照して、保守システム100は通
信制御手段30、障害情報データベース80、入出力手
段90から構成されている。
【0016】分散設置されたコンピュータシステム
(「分散設置コンピュータシステム」という)1-1は、
障害監視手段11、通信制御手段31、分散設置コンピ
ュータシステム監視対象61から構成されている。他の
分散設置コンピュータシステム(1-2〜1-n)も同様に
構成されている。
【0017】保守システム100と各分散設置コンピュー
タシステム1-1〜1-nとはオンラインでそれぞれ結ばれ
ている。
【0018】図1を参照して、分散設置コンピュータシ
ステムにおいて、障害監視手段11は分散設置コンピュ
ータシステム監視対象61の状態を随時監視することに
より障害の検出を行う。
【0019】障害監視手段11は異常状態を検出した場
合、状態に応じた障害情報を作成し、通信制御手段31
に通知する。
【0020】通信制御手段31は障害監視手段11から
障害情報を受け取ると、障害情報に個々の分散コンピュ
ータシステムが判別可能とするシステム情報を加えて、
オンラインで保守システム100に送信する。
【0021】保守システム100において、通信制御手段
30は分散設置システム(1-1〜1-n)から障害情報を
受け取ると、障害情報を障害情報データベース80へ記
録する。
【0022】障害情報データベース80に登録された障
害情報は、任意のタイミングで入出力手段90からの指
示にて出力される。
【0023】
【実施例2】図2は本発明の第2の実施例の構成を示す
ブロック図である。
【0024】図2を参照して、保守システム100は、障
害監視手段10、障害復旧手段20、通信制御手段3
0、障害復旧部品群40、障害監視機能異常検出手段5
0、保守システム障害監視対象60、障害解析手段7
0、障害情報データベース80、入出力手段90から構
成されている。
【0025】分散設置コンピュータシステム1-1は、障
害監視手段11、障害復旧手段21、通信制御手段3
1、通信制御復旧部品41、障害監視機能異常検出手段
51、分散設置コンピュータシステム監視対象61から
構成されている。他の分散設置コンピュータシステム
(1-2〜1-n)も同様に構成されている。
【0026】保守システム100と分散設置コンピュータ
システム1-1〜1-nとはオンラインでそれぞれ接続され
ている。
【0027】分散設置コンピュータシステム1-1〜1-n
において、障害監視手段11は分散設置コンピュータシ
ステム監視対象61の状態を随時監視することにより、
障害の検出を行う。
【0028】障害監視手段11は、異常状態を検出した
場合、状態に応じた障害情報を障害復旧手段21と通信
制御手段31に通信する。
【0029】通信制御手段31は、障害情報を受け取る
とこれにシステム情報を加えてオンラインで保守システ
ム100に送信し、保守システム100から返信されてくる障
害復旧情報の受信を行い、受信した障害復旧情報を障害
復旧手段21に送る。
【0030】障害復旧手段21は、通信制御手段31か
ら障害復旧用部品や障害復旧処理情報を障害復旧情報と
して受け取ると、分散コンピュータシステム監視対象6
1に対して障害復旧処理を行う。
【0031】また、障害監視機能異常検出手段51は、
障害監視手段11の稼動状況を随時監視して障害検出を
行う。
【0032】障害監視機能異常検出手段51は、異常を
検出すると障害情報を、障害復旧手段21と通信制御手
段31へそれぞれ通知する。
【0033】通知を受けた障害復旧手段21と通信制御
手段31は、通常の障害と同じ手順で、障害監視手段1
1の復旧を行う。
【0034】一方、保守システム100においては、障害
監視手段10は保守システム監視対象60の状態を随時
監視することにより、障害の検出を行う。
【0035】障害監視手段10は、異常状態を検出した
場合、障害復旧手段20と障害解析手段70へ障害情報
の通知を行う。
【0036】障害解析手段70は、受け取った障害情報
を障害情報データベース80へ記録するとともに、対応
する障害復旧処理情報を障害情報データベース80から
取り出し、障害復旧手段20へ通知する。
【0037】障害復旧手段20は、受けとった障害復旧
処理情報から処理に必要な障害復旧部品を調べ、障害復
旧部品群40から取り出し、障害復旧処理情報の内容に
基づいて保守システム監視対象60に対して障害復旧処
理を実行する。
【0038】また、通信制御手段30は、分散設置コン
ピュータシステム1-1〜1-nの障害情報を受信すると、
これを障害復旧手段20と障害解析手段70へ通知す
る。
【0039】障害解析手段70は、通信制御手段30か
ら障害情報を受け取った場合も、保守システム100内部
で検出された障害情報と同様にして、障害情報を障害情
報データベース80へ記録するとともに、障害復旧処理
情報を取り出して障害復旧手段20へ通知する。
【0040】障害復旧手段20は、受けとった復旧処理
情報から必要な障害復旧部品を調べ、障害復旧部品群4
0から取り出す。さらに、通信制御手段30から受け取
った障害情報に付加されたシステム情報から分散設置コ
ンピュータシステム1-1〜1-nの障害であることが判明
すると、障害復旧部品、障害復旧処理情報を障害復旧情
報として通信制御手段30へ送る。
【0041】通信制御手段30は障害復旧情報を受け取
るとこれを分散設置コンピュータシステム1-1〜1-nへ
オンラインで送信する。
【0042】なお、障害情報データベース80に登録さ
れた内容は、後に任意のタイミングで入出力手段90か
らの指示に基づき出力させることが可能である。
【0043】また、障害監視機能異常検出手段50は障
害監視手段10の稼動状況を随時監視して障害検出を行
う。
【0044】障害監視機能異常検出手段50は異常を検
出すると障害情報を、障害復旧手段20と障害解析手段
70へそれぞれ通知する。
【0045】通知を受けた障害復旧手段20と障害解析
手段70は通常の障害と同じ手順で、障害監視手段10
の復旧を行う。
【0046】すなわち、本実施例においては、分散設置
コンピュータシステムの障害監視手段11が障害を検出
した際に障害情報は通信制御手段31を介して保守シス
テム100に送信され、保守システム100は受け取った障害
情報を障害解析手段70にて解析し、必要な障害復旧情
報を分散設置コンピュータシステムに送り返し、分散設
置コンピュータシステムは受け取った障害復旧情報に基
づき障害復旧手段21が障害復旧処理を行う。
【0047】以上、本発明を上記実施例に即して説明し
たが、本発明は上記態様にのみ限定されず、本発明の原
理に準ずる各種態様を含むことは勿論である。
【0048】
【発明の効果】以上説明したように、本発明によれば、
保守システムとのオンライン通信を利用して、多地域に
分散設置されたコンピュータシステム群の障害情報を一
元的に管理することができ、障害の早期復旧が可能とな
る。
【0049】また、本発明によれば、全ての分散設置シ
ステムが、保守システムにて所持している障害復旧手段
を共有することにより、保守費用を削減できる。
【0050】さらに、本発明によれば、個別に障害復旧
手段を備えることが困難とされる多数設置型の小規模シ
ステムの場合においても、無人復旧を実現することが可
能とされ、保守要員を動員した場合に比べて保守費用の
削減と障害の早期復旧が可能となる。
【図面の簡単な説明】
【図1】本発明の一実施例の構成を示す図である。
【図2】本発明の別の実施例の構成を示す図である。
【符号の説明】
1-1〜1-n 分散設置コンピュータシステム 10、11 障害監視手段 20、21 障害復旧手段 30、31 通信制御手段 40 障害復旧部品群 41 通信制御復旧部品 50、51 障害監視機能異常検出手段 60 保守システム監視対象 61 分散設置コンピュータシステム監視対象 70 障害解析手段 80 障害情報データベース 90 入出力手段 100 保守システム

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】分散して設置された複数のコンピュータシ
    ステム群の保守方式において、 前記複数のコンピュータシステムが、 稼動情報を監視して障害を自動的に検出し障害情報を作
    成する手段と、 前記障害情報を外部へ送信する通信制御手段と、 を少なくとも備え、 前記コンピュータシステムから送信される前記障害情報
    を受信してデータベースに情報を格納する手段と、 前記データベースの内容を参照する手段を、 を少なくとも備えてなる保守用コンピュータシステムに
    前記複数のコンピュータシステムをオンライン接続し、 前記複数のコンピュータシステムの障害情報を少なくと
    も一の保守用コンピュータシステムにて一元的に管理す
    ることを特徴とする分散設置型コンピュータシステム群
    の保守方式。
  2. 【請求項2】前記障害情報を受信・解析して対応する障
    害復旧部品と障害復旧処理情報とを出力する手段と、 前記障害復旧部品と前記障害復旧処理情報とを障害復旧
    情報として送信する手段と、 を備えた保守用コンピュータシステムと、 前記障害復旧情報を受信し、該障害復旧情報に基づき障
    害復旧処理を行う手段を備えた複数のコンピュータシス
    テムとをオンライン接続し、 前記保守用コンピュータシステムにて管理されている前
    記障害復旧処理情報と前記障害復旧部品とを、分散設置
    された前記複数のコンピュータシステムにて共有して自
    動的に障害復旧することを特徴とする請求項1記載の分
    散設置型コンピュータシステム群の保守方式。
  3. 【請求項3】前記保守用コンピュータシステムが、 前記分散設置されたコンピュータシステムから送信され
    て来る障害情報を受信する手段と、 受信した前記障害情報をデータベースに格納する手段
    と、 前記障害情報が分散設置された前記分散配置されたコン
    ピュータシステムの障害であることが判明すると、前記
    障害復旧部品と前記障害復旧処理情報とを障害復旧情報
    として前記コンピュータシステムへ送信する手段と、 を備えたことを特徴とする請求項2記載の分散設置型コ
    ンピュータシステム群の保守方式。
  4. 【請求項4】前記保守用コンピュータシステムが、 内部の障害を検出して障害情報を作成する障害検出手段
    と、 前記障害検出手段自身の異常を検出して障害情報を作成
    する手段と、 対応する障害の障害復旧処理情報と障害復旧部品を用意
    し障害復旧処理を行う手段と、 を備えたことを特徴とする請求項3記載の分散設置型コ
    ンピュータシステム群の保守方式。
  5. 【請求項5】分散設置された複数のコンピュータシステ
    ムが、 内部の障害を検出して障害情報を作成する障害検出手段
    と、 前記障害検出手段自身の異常を検出して障害情報を作成
    する手段と、 障害情報を外部に送信する手段と、 前記障害復旧用部品と障害復旧処理情報を障害復旧情報
    として受け取った際に、該情報に基づき障害復旧処理を
    行う障害復旧手段と、 を備えたことを特徴とする請求項2記載の分散設置型コ
    ンピュータシステム群の保守方式。
JP12977595A 1995-04-28 1995-04-28 分散設置システムの障害復旧方式 Pending JPH08305661A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP12977595A JPH08305661A (ja) 1995-04-28 1995-04-28 分散設置システムの障害復旧方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP12977595A JPH08305661A (ja) 1995-04-28 1995-04-28 分散設置システムの障害復旧方式

Publications (1)

Publication Number Publication Date
JPH08305661A true JPH08305661A (ja) 1996-11-22

Family

ID=15017914

Family Applications (1)

Application Number Title Priority Date Filing Date
JP12977595A Pending JPH08305661A (ja) 1995-04-28 1995-04-28 分散設置システムの障害復旧方式

Country Status (1)

Country Link
JP (1) JPH08305661A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020014364A (ko) * 2000-08-17 2002-02-25 윤종용 장치 드라이버의 자동 진단 장치 및 그 방법
US7069473B2 (en) 2001-10-05 2006-06-27 Nec Corporation Computer recovery method and system for recovering automatically from fault, and fault monitoring apparatus and program used in computer system
JP2007287042A (ja) * 2006-04-19 2007-11-01 Oki Electric Ind Co Ltd システム障害監視装置および障害情報配信システム
CN101751325A (zh) * 2008-12-11 2010-06-23 成都吉胜科技有限责任公司 软件运行监控方法
JP2013257764A (ja) * 2012-06-13 2013-12-26 Nec Corp 障害解析システム、障害解析装置、サーバ装置、障害解析方法及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05189374A (ja) * 1992-01-13 1993-07-30 Kyushu Nippon Denki Software Kk 分散処理コンピュータシステムの実行監視システム
JPH0675872A (ja) * 1992-08-26 1994-03-18 Nec Corp データ転送方法
JPH06139089A (ja) * 1992-03-25 1994-05-20 Nec Corp 情報処理装置の障害処理装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05189374A (ja) * 1992-01-13 1993-07-30 Kyushu Nippon Denki Software Kk 分散処理コンピュータシステムの実行監視システム
JPH06139089A (ja) * 1992-03-25 1994-05-20 Nec Corp 情報処理装置の障害処理装置
JPH0675872A (ja) * 1992-08-26 1994-03-18 Nec Corp データ転送方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020014364A (ko) * 2000-08-17 2002-02-25 윤종용 장치 드라이버의 자동 진단 장치 및 그 방법
US7069473B2 (en) 2001-10-05 2006-06-27 Nec Corporation Computer recovery method and system for recovering automatically from fault, and fault monitoring apparatus and program used in computer system
JP2007287042A (ja) * 2006-04-19 2007-11-01 Oki Electric Ind Co Ltd システム障害監視装置および障害情報配信システム
CN101751325A (zh) * 2008-12-11 2010-06-23 成都吉胜科技有限责任公司 软件运行监控方法
JP2013257764A (ja) * 2012-06-13 2013-12-26 Nec Corp 障害解析システム、障害解析装置、サーバ装置、障害解析方法及びプログラム

Similar Documents

Publication Publication Date Title
US8306782B2 (en) System for monitoring and diagnosing remote devices
US4991174A (en) Fault diagnostic distributed processing method and system
US6795799B2 (en) Remote diagnosis server
JPH0758765A (ja) リング網のノード間情報収集方式
JPH08305661A (ja) 分散設置システムの障害復旧方式
JP2006195554A (ja) 統合監視システム
JP3871643B2 (ja) 業務運用監視システム
KR100506248B1 (ko) 사설 교환시스템에서 링크를 진단하는 방법
JPH01217666A (ja) マルチプロセッサシステムの障害検出方式
JPH09288589A (ja) システム・バックアップ方法
JPH0368584B2 (ja)
JPH0877119A (ja) サービス処理機能監視方法及びその装置
JPS5843649A (ja) メツセ−ジ情報出力方法
JPH0635739A (ja) 切替制御方式
KR100235570B1 (ko) 2이상의 주전산기를 병립 연결한 시스템의 클러스터 관리 마스터 시스템의 클러스터 관리방법
JPH04120932A (ja) ポーリング監視制御方式
JPH11250026A (ja) 並列マルチプロセッサシステムの障害リカバリ方法及び方式
JPH07182032A (ja) プラントデ−タ監視装置
JPH04329098A (ja) 遠隔監視装置
JPS6356755A (ja) スレ−ブプロセツサの異常監視方式
KR940002271B1 (ko) 전후단 분리 구조 시스템의 장애 자동 감시 방법
JPS58123255A (ja) 一重ル−プ伝送システムの障害箇所検出方式
KR100286352B1 (ko) 엘리베이터의원격감시장치및방법
JP2002269643A (ja) 店舗pos端末装置の保守システム
JP2000138679A (ja) 分散制御システムにおける複数制御装置間の同期制御方法

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 19980602