JP2734455B2 - 障害検出方式 - Google Patents

障害検出方式

Info

Publication number
JP2734455B2
JP2734455B2 JP3074324A JP7432491A JP2734455B2 JP 2734455 B2 JP2734455 B2 JP 2734455B2 JP 3074324 A JP3074324 A JP 3074324A JP 7432491 A JP7432491 A JP 7432491A JP 2734455 B2 JP2734455 B2 JP 2734455B2
Authority
JP
Japan
Prior art keywords
intermittent
failure
fault
occurrences
occurrence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP3074324A
Other languages
English (en)
Other versions
JPH04287460A (ja
Inventor
正 森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP3074324A priority Critical patent/JP2734455B2/ja
Publication of JPH04287460A publication Critical patent/JPH04287460A/ja
Application granted granted Critical
Publication of JP2734455B2 publication Critical patent/JP2734455B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Computer And Data Communications (AREA)
  • Maintenance And Management Of Digital Transmission (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、ホスト計算機上の通信
管理プログラムと前置通信処理装置上の通信制御プログ
ラムとが共同で制御するオンラインシステムにおいて、
通信管理プログラムと通信制御プログラムとの間で行う
データ送受信動作の結果発生する種々の障害事象の中
で、再試行すれば復旧する可能性が高い間欠障害と呼ば
れる障害に関連する障害検出方式に関する。
【0002】
【従来の技術】従来、ホスト計算機上の通信管理プログ
ラムと前置通信処理装置上の通信制御プログラムとが共
同で制御するオンラインシステムにおいて、通信管理プ
ログラムと通信制御プログラムとの間で行うデータ送受
信動作の結果発生する障害に対して障害の分類を行い、
それが再試行すれば復旧する可能性が高い間欠障害と呼
ばれる障害であると判定された場合には、発生の都度、
間欠障害発生時の処理を実行していた。
【0003】間欠障害が同一動作に対して連続して発生
しても、常に間欠障害の扱いを変更していなかった。
【0004】このようにして発生する間欠障害に対する
復旧処理を実行して間欠障害発生時にも正常なオンライ
ン動作を保証していた。
【0005】
【発明が解決しょうとする課題】上述した従来のホスト
計算機上の通信管理プログラムと前置通信処理装置上の
通信制御プログラムとが共同で制御するオンラインシス
テムにおいて、通信管理プログラムと通信制御プログラ
ムとの間で行うデータ送受信動作の結果発生する種々の
障害事象の中で、再試行すれば復旧する可能性が高い間
欠障害と呼ばれる障害に関連する障害検出方式では、発
生した障害が障害レベルの判定処理により再試行すれば
復旧する可能性が高い間欠障害であると判定された場合
には、ただ単純に間欠障害の処理を実行するだけであ
る。
【0006】このような間欠障害が何回発生しようと、
その処理を忠実に実行するだけであった。
【0007】以上のように従来の障害検出方式では、発
生障害が間欠障害である場合には、間欠障害自身が何回
かに1回必ず発生するような、あるいは複数回連続して
発生するような重大障害が発生した場合でもそれを検出
できないため、的確な障害復旧処理を行うことができ
ず、結果的にオンライン処理停止等の運用管理上致命的
な打撃を与えてしまうという欠点がある。
【0008】本発明の目的は、上述の欠点を除去するよ
うにした障害検出方式を提供することにある。
【0009】
【課題を解決するための手段】本発明は前述した課題を
解決するための手段として、ホスト計算機上の通信管理
プログラムと、前置通信処理装置上の通信制御プログラ
ムとが共同で制御するオンラインシステムにおいて、前
記通信管理プログラムと通信制御プログラムとの間で行
うデータ送受信動作に対して、その結果発生する種々の
障害を、その障害が及ぼす影響の大きさから、運用管理
者等の介入を必要とする重大障害(レベル3障害と称す
る)、一時的な障害であり再試行すれば復旧可能な間欠
障害(レベル1障害と称する)、および前記二種類以外
の通常障害(レベル2障害と称する)の前記三段階に分
類した上で、発生した障害が三段階の内どの段階に相当
するかを判定する障害レベル判定手段と、前記障害レベ
ル判定手段によって発生障害が間欠障害であると判定さ
れたときにその発生回数を第1間欠障害発生管理テーブ
ル上で更新する第1間欠障害発生回数更新手段と、前記
第1間欠障害発生回数更新手段によって更新された間欠
障害発生回数と、予め規定されている第1間欠障害発生
許容値とを比較し、許容値以上であればレベル2障害発
生と見做す第1間欠障害判定手段と、前記第1間欠障害
発生管理テーブル上の発生回数が0から1に更新された
ときに開始され、第1規定時間内の間欠障害発生回数
第1間欠障害発生許容値に満たない場合に実行する第1
間欠障害監視手段とを有する。
【0010】また前記障害レベル判定手段によって発生
障害が間欠障害であると判定されたときに、その発生回
数を第2間欠障害発生管理テーブル上で更新する第2間
欠障害発生回数更新手段と、前記第2間欠障害発生更新
手段によって更新された間欠障害発生回数と、予め規定
されている第2間欠障害発生許容値とを比較し、許容値
以上であればレベル2障害発生と見做す第2間欠障害判
定手段と、前記第2間欠障害発生管理テーブル上の発生
回数が0から1に更新されたときに開始され、前記第1
規定時間よりも長く設定した第2規定時間内の間欠障害
発生回数が第2間欠障害発生許容値に満たない場合に実
行する第2間欠障害監視手段とを有する。
【0011】また、前記第2間欠障害発生管理テーブル
上の発生回数が0から1に更新されたときに開始する前
記第1規定時間よりも長く設定した第2規定時間内の間
欠障害発生回数を監視し、規定時間経過後に、予め規定
されている第3間欠障害発生許容値と前記第2間欠障害
発生管理テーブル上の間欠障害発生回数とを比較し、許
容値以上なら運用管理者に警告文を出力する運用管理者
警告手段とを有する。
【0012】
【実施例】次に本発明について図面を参照して詳細に説
明する。図1は本発明の一実施例を示す図、図2は障害
レベル判定手段1の詳細な動作を説明するためのフロー
チャート、図3は第1間欠障害発生回数更新手段2の詳
細な動作を説明するためのフローチャート、図4は第1
間欠障害判定手段3の詳細な動作を説明するためのフロ
ーチャート、図5は第1間欠障害監視手段5の詳細な動
作を説明するためのフローチャート、図6は第2間欠障
害発生回数更新手段6の詳細な動作を説明するためのフ
ローチャート、図7は第2間欠障害判定手段7の詳細な
動作を説明するためのフローチャート、図8は第2間欠
障害監視手段9の詳細な動作を説明するためのフローチ
ャート、図9は運用管理者警告手段10の詳細な動作を
説明するためのフローチャート、図10は第1間欠障害
発生管理テーブル4の詳細な形式を示す図、図11は第
2間欠障害発生管理テーブル8の詳細な形式を示す図、
図12は障害コード判定テーブル11の詳細な形式を示
す図である。
【0013】まず図1を参照すると、本発明の一実施例
は、通信管理プログラム12から前置通信処理装置14
に対するデータ送受信動作に伴うI/O障害発生時の処
理について述べたものであり、ホスト計算機13上で動
作する通信管理プログラム12、前置通信処理装置14
上で動作する通信制御プログラム15から構成されてい
る。
【0014】さらに通信管理プログラム12は前置通信
処理装置14に対してデータを送信した結果として障害
通知を受けた場合に起動され通知障害コードから障害コ
ード判定テーブル11を基に処理コードを判定する障害
レベル判定手段1、前記障害レベル判定手段1によって
発生した障害が間欠障害であると判定された場合に呼ば
れ第1間欠障害発生管理テーブル4上の発生回数を1加
算する第1間欠障害発生回数更新手段2、および第2間
欠障害発生管理テーブル8上の発生回数を1加算する第
2間欠障害発生回数更新手段6、前記第1間欠障害発生
回数更新手段2から呼ばれ障害発生回数が第1間欠障害
発生許容値を越えている場合には発生障害をレベル2障
害、許容値以下の場合には間欠障害と判定する第1間欠
障害判定手段3、前記第2間欠障害発生回数更新手段6
から呼ばれ障害発生回数が第2間欠障害発生許容値を越
えている場合には発生障害をレベル2障害、許容値以下
の場合には間欠障害と判定する第2間欠障害判定手段
7、前記第1間欠障害発生回数更新手段2によって第1
間欠障害発生管理テーブル4上の発生回数が0から1に
なるときにタイマキューに登録されタイムアウト時に第
1間欠障害発生管理テーブル4上の発生回数を0にリセ
ットする第1間欠障害監視手段5、前記第2間欠障害発
生回数更新手段6によって第2間欠障害発生管理テーブ
ル8上の発生回数が0から1になるときにタイマキュー
に登録されタイムアウト時に第2間欠障害発生管理テー
ブル8上の発生回数を0にリセットする第2間欠障害監
視手段9、前記第2間欠障害監視手段9において発生回
数が第3間欠障害発生許容値を越えている場合に起動さ
れ運用管理者に間欠障害多発を警告する運用管理者警告
手段10から構成されている。
【0015】次に本発明の動作を図1から図12を参照
しながら説明する。
【0016】図2のステップ201〜204を参照する
と、障害レベル判定手段1は通知された障害内容から発
生障害コードを取得し(201)、障害コード判定テー
ブル11から取得した障害コードと一致する障害コード
1201を持つエントリを検索し(202)、当該エン
トリの処理コード1202が間欠障害処理を示していれ
ば第1間欠障害発生回数更新手段2および第2間欠障害
発生回数更新手段6を呼び出し(203)、戻りコード
が間欠障害なら間欠障害発生処理を、レベル2障害なら
レベル2障害発生処理を起動して処理を終える(20
4)。
【0017】図3のステップ301〜305を参照する
と、第1間欠障害発生回数更新手段2は第1間欠障害発
生管理テーブル4上の発生回数1003が0であるか判
定し(301)、0ならば第1間欠障害監視手段5を第
1規定時間1002のタイマ値でタイマキューに登録し
(302)、第1間欠障害発生管理テーブル4上の発生
回数1003を1加算し(303)、第1間欠障害判定
手段3を呼び出し(304)、その判定結果を呼び出し
元に持ち帰り処理を終える(305)。ステップ301
の判定結果が0以外であればステップ303に進む。
【0018】図4のステップ401〜405を参照する
と、第1間欠障害判定手段3は第1間欠障害発生管理テ
ーブル4上の発生回数1003と第1間欠障害発生許容
値1001を比較し(401)、許容値以下なら障害判
定結果を間欠障害として呼び出し元へ持ち帰り処理を終
える(405)。一方発生回数が許容値を越えていれば
第1間欠障害監視手段5をタイマキューからはずし動作
しないようにし(402)、第1間欠障害発生管理テー
ブル4上の発生回数1003を0にリセットした上で
(403)、障害判定結果をレベル2障害として呼び出
し元へ持ち帰り処理を終える(404)。
【0019】図5のステップ501を参照すると、第1
間欠障害監視手段5は第1間欠障害発生管理テーブル4
上の発生回数1003をリセットして処理を終える(5
01)。
【0020】図6のステップ601〜605を参照する
と、第2間欠障害発生回数更新手段6は第2間欠障害発
生管理テーブル8上の発生回数1104が0であるか判
定し(601)、0ならば第2間欠障害監視手段9を第
2規定時間1103のタイマ値でタイマキューに登録し
(602)、第2間欠障害発生管理テーブル8上の発生
回数1104を1加算し(603)、第2間欠障害判定
手段7を呼び出し(604)、その判定結果を呼び出し
元に持ち帰り処理を終える(605)。ステップ601
の判定結果が0以外であればステップ603に進む。
【0021】図7のステップ701〜705を参照する
と、第2間欠障害判定手段7は第2間欠障害発生管理テ
ーブル8上の発生回数1104と第2間欠障害発生許容
値1101を比較し(701)、許容値以下なら障害判
定結果を間欠障害として呼び出し元へ持ち帰り処理を終
える(705)。一方発生回数が許容値を越えていれば
第2間欠障害監視手段9をタイマキューからはずし動作
しないようにし(702)、第2間欠障害発生管理テー
ブル8上の発生回数1104を0にリセットした上で
(703)、障害判定結果をレベル2障害として呼び出
し元へ持ち帰り処理を終える(704)。
【0022】図8のステップ801〜803を参照する
と、第2間欠障害監視手段9は第2間欠障害発生管理テ
ーブル8上の発生回数1104と第3間欠障害発生許容
値1102を比較し(801)、許容値を越えている場
合には運用管理者警告手段10を起動し(802)、第
2間欠障害発生管理テーブル8上の発生回数1104を
0にリセットして処理を終える(803)。一方ステッ
プ801の判定結果が許容値以下である場合にはステッ
プ803に進む。
【0023】図9のステップ901を参照すると、運用
管理者警告手段10はシステム操作卓上に間欠障害が多
発している旨の警告メッセージを発生回数と共に表示し
て処理を終える(901)。
【0024】図10を参照すると、第1間欠障害発生管
理テーブル4は第1発生間欠障害発生許容値1001、
第1規定時間1002および間欠障害発生回数1003
とから構成されている。
【0025】図11を参照すると、第2間欠障害発生管
理テーブル8は第2発生間欠障害発生許容値1101、
第3発生間欠障害発生許容値1102、第2規定時間1
103および間欠障害発生回数1104とから構成され
ている。
【0026】図12を参照すると、障害コード判定テー
ブル11は1エントリ内に障害コード1201、処理コ
ード1202を持ち、全体として複数エントリとから構
成されている。処理コード1202はその内容として、
X’01’が間欠障害(レベル1)、X’02’がレベ
ル2障害、X’03’が重大障害(レベル3)を示す。
【0027】
【発明の効果】本発明には、ホスト計算機上の通信管理
プログラムと前置通信処理装置上の通信制御プログラム
との間で行うデータ送受信動作の結果発生する種々の障
害事象の中で、再試行すれば復旧する可能性が高い間欠
障害と呼ばれる障害に関連するオンラインシステムにお
ける障害検出方式において、間欠障害の発生回数を2段
階管理し、第1の規定時間内の発生回数が許容限度を越
えた場合には間欠障害とはせず、より障害度の高いレベ
ルの障害発生と認識し、更に第1規定時間内では許容限
度以内であっても第1規定時間より長い第2規定時間内
での発生回数が許容限度を越えていれば、同様により障
害度の高いレベルの障害発生と認識することができるた
め、間欠障害が連続して発生するような障害発生の場合
には、第1監視によりその検出が可能となり、また間欠
障害が間欠的に継続して発生するような障害発生の場合
には、第2監視によりその検出が可能となる。
【0028】その上、第2規定時間内の発生回数が別の
許容限度を越えている場合には、前述のような障害とは
せずに運用管理者に対してその旨警告メッセージを伝え
ることができるため、運用管理者による的確な予防保守
等の運用手順が実行できる。以上のように、間欠障害が
多発するというような障害が発生した場合の早期検出が
可能となり、間欠障害多発によるオンラインシステム運
用に与える影響を最小限度に抑え、円滑な運用が行える
という効果がある。
【図面の簡単な説明】
【図1】本発明の一実施例を示す図、
【図2】障害レベル判定手段1の詳細な動作を説明する
ためのフローチャート、
【図3】第1間欠障害発生回数更新手段2の詳細な動作
を説明するためのフローチャート、
【図4】第1間欠障害判定手段3の詳細な動作を説明す
るためのフローチャート、
【図5】第1間欠障害監視手段5の詳細な動作を説明す
るためのフローチャート、
【図6】第2間欠障害発生回数更新手段6の詳細な動作
を説明するためのフローチャート、
【図7】第2間欠障害判定手段7の詳細な動作を説明す
るためのフローチャート、
【図8】第2間欠障害監視手段9の詳細な動作を説明す
るためのフローチャート、
【図9】運用管理者警告手段10の詳細な動作を説明す
るためのフローチャート、
【図10】第1間欠障害発生管理テーブル4の詳細な形
式を示す図、
【図11】第2間欠障害発生管理テーブル8の詳細な形
式を示す図、
【図12】障害コード判定テーブル11の詳細な形式を
示す図である。
【符号の説明】
1 障害レベル判定手段 2 第1間欠障害発生回数更新手段 3 第1間欠障害判定手段 4 第1間欠障害発生管理テーブル 5 第1間欠障害監視手段 6 第2間欠障害発生回数更新手段 7 第2間欠障害判定手段 8 第2間欠障害発生管理テーブル 9 第2間欠障害監視手段 10 運用管理者警告手段 11 障害コード判定テーブル 12 通信管理プログラム 13 ホスト計算機 14 前置通信処理装置 15 通信制御プログラム

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】 ホスト計算機上の通信管理プログラム
    と、前置通信処理装置上の通信制御プログラムとが共同
    で制御するオンラインシステムにおいて、 前記通信管理プログラムと通信制御プログラムとの間で
    行うデータ送受信動作に対して、その結果発生する種々
    の障害を、その障害が及ぼす影響の大きさから、運用管
    理者等の介入を必要とする重大障害(レベル3障害と称
    する)、一時的な障害であり再試行すれば復旧可能な間
    欠障害(レベル1障害と称する)、および前記二種類以
    外の通常障害(レベル2障害と称する)の三段階に分類
    した上で、発生した障害が前記三段階の内どの段階に相
    当するかを判定する障害レベル判定手段と、 前記障害レベル判定手段によって発生障害が前記間欠障
    害であると判定されたときに、その発生回数を第1間欠
    障害発生管理テーブル上で更新する第1間欠障害発生回
    数更新手段と、 前記第1間欠障害発生回数更新手段によって更新された
    間欠障害発生回数と、予め規定されている第1間欠障害
    発生許容値とを比較し、許容値以上であればレベル2障
    害発生と見做す第1間欠障害判定手段と、 前記第1間欠障害発生管理テーブル上の発生回数が0か
    ら1に更新されたときに開始され、第1規定時間内の間
    欠障害発生回数が第1間欠障害発生許容値に満たない場
    合に実行する第1間欠障害監視手段とを有することを特
    徴とする障害検出方式。
  2. 【請求項2】 前記障害レベル判定手段によって発生障
    害が間欠障害であると判定されたときに、その発生回数
    を第2間欠障害発生管理テーブル上で更新する第2間欠
    障害発生回数更新手段と、 前記第2間欠障害発生回数更新手段によって更新された
    間欠障害発生回数と、予め規定されている第2間欠障害
    発生許容値とを比較し、許容値以上であればレベル2障
    害発生と見做す第2間欠障害判定手段と、 前記第2間欠障害発生管理テーブル上の発生回数が0か
    ら1に更新されたときに開始され、前記第1規定時間よ
    りも長く設定した第2規定時間内の間欠障害発生回数
    第2間欠障害発生許容値に満たない場合に実行する第2
    間欠障害監視手段とを有することを特徴とする請求項1
    に記載の障害検出方式。
  3. 【請求項3】 前記第2間欠障害発生管理テーブル上の
    発生回数が0から1に更新されたときに開始する前記第
    1規定時間よりも長く設定した第2規定時間内の間欠障
    害発生回数を監視し、規定時間経過後に、予め規定され
    ている第3間欠障害発生許容値と前記第2間欠障害発生
    管理テーブル上の間欠障害発生回数とを比較し、許容値
    以上なら運用管理者に警告文を出力する運用管理者警告
    手段とを有することを特徴とする請求項2に記載の障害
    検出方式。
JP3074324A 1991-03-15 1991-03-15 障害検出方式 Expired - Fee Related JP2734455B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3074324A JP2734455B2 (ja) 1991-03-15 1991-03-15 障害検出方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3074324A JP2734455B2 (ja) 1991-03-15 1991-03-15 障害検出方式

Publications (2)

Publication Number Publication Date
JPH04287460A JPH04287460A (ja) 1992-10-13
JP2734455B2 true JP2734455B2 (ja) 1998-03-30

Family

ID=13543822

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3074324A Expired - Fee Related JP2734455B2 (ja) 1991-03-15 1991-03-15 障害検出方式

Country Status (1)

Country Link
JP (1) JP2734455B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3467330B2 (ja) * 1994-09-22 2003-11-17 富士通株式会社 システム異常監視装置
JP2001209561A (ja) 2000-01-27 2001-08-03 Mitsubishi Electric Corp 異常処理方式及び異常処理方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6432737A (en) * 1987-07-29 1989-02-02 Fujitsu Ltd Abnormalness detection system

Also Published As

Publication number Publication date
JPH04287460A (ja) 1992-10-13

Similar Documents

Publication Publication Date Title
EP0591345B1 (en) Method and system for monitoring a computer system
JPH10501907A (ja) ネットワーク内でプログラムを監視し、制御する方法および装置
US6675315B1 (en) Diagnosing crashes in distributed computing systems
JP2734455B2 (ja) 障害検出方式
CN114185326A (zh) 一种车辆远程诊断方法、系统及存储装置
JPH07281929A (ja) トレース情報収集装置
CN112214437A (zh) 一种存储设备及通信方法、装置、计算机可读存储介质
JPH06175887A (ja) 障害監視/通知方式
JPS63280537A (ja) 障害状況報告方式
JP2756052B2 (ja) 数値制御装置
JP2969762B2 (ja) 監視方式
JPH09244966A (ja) コンピュータ周辺機器のチェック装置
KR950011478B1 (ko) 전전자 교환기에서의 신호 단말 상태 관리 방법
JP2973939B2 (ja) ネットワーク管理システム
JP2536386B2 (ja) オンライン情報処理装置
JPH11353255A (ja) 異常部位検知方法
JP2746007B2 (ja) 自動パケットモニタリング方式
JPS58225738A (ja) 分散形伝送システム
JPS629409A (ja) プラントの監視方法
JPH11136000A (ja) 電子部品実装におけるデータ収集方法、電子部品実装装置および電子部品実装制御システム
JPS62198944A (ja) 装置異常検出方式
JPH04205441A (ja) 主原因判定処理方式
JPH02310755A (ja) ヘルスチェック方式
CN117221376A (zh) 一种应用车机总线的超时反馈方法和装置
JP2842748B2 (ja) 情報処理装置の監視制御方式

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080109

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090109

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100109

Year of fee payment: 12

LAPS Cancellation because of no payment of annual fees