JPH04287460A - 障害検出方式 - Google Patents

障害検出方式

Info

Publication number
JPH04287460A
JPH04287460A JP3074324A JP7432491A JPH04287460A JP H04287460 A JPH04287460 A JP H04287460A JP 3074324 A JP3074324 A JP 3074324A JP 7432491 A JP7432491 A JP 7432491A JP H04287460 A JPH04287460 A JP H04287460A
Authority
JP
Japan
Prior art keywords
fault
intermittent
occurrence
occurrences
intermittent fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3074324A
Other languages
English (en)
Other versions
JP2734455B2 (ja
Inventor
Tadashi Mori
正 森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP3074324A priority Critical patent/JP2734455B2/ja
Publication of JPH04287460A publication Critical patent/JPH04287460A/ja
Application granted granted Critical
Publication of JP2734455B2 publication Critical patent/JP2734455B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Computer And Data Communications (AREA)
  • Maintenance And Management Of Digital Transmission (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、ホスト計算機上の通信
管理プログラムと前置通信処理装置上の通信制御プログ
ラムとが共同で制御するオンラインシステムにおいて、
通信管理プログラムと通信制御プログラムとの間で行う
データ送受信動作の結果発生する種々の障害事象の中で
、再試行すれば復旧する可能性が高い間欠障害と呼ばれ
る障害に関連する障害検出方式に関する。
【0002】
【従来の技術】従来、ホスト計算機上の通信管理プログ
ラムと前置通信処理装置上の通信制御プログラムとが共
同で制御するオンラインシステムにおいて、通信管理プ
ログラムと通信制御プログラムとの間で行うデータ送受
信動作の結果発生する障害に対して障害の分類を行い、
それが再試行すれば復旧する可能性が高い間欠障害と呼
ばれる障害であると判定された場合には、発生の都度、
間欠障害発生時の処理を実行していた。
【0003】間欠障害が同一動作に対して連続して発生
しても、常に間欠障害の扱いを変更していなかった。
【0004】このようにして発生する間欠障害に対する
復旧処理を実行して間欠障害発生時にも正常なオンライ
ン動作を保証していた。
【0005】
【発明が解決しょうとする課題】上述した従来のホスト
計算機上の通信管理プログラムと前置通信処理装置上の
通信制御プログラムとが共同で制御するオンラインシス
テムにおいて、通信管理プログラムと通信制御プログラ
ムとの間で行うデータ送受信動作の結果発生する種々の
障害事象の中で、再試行すれば復旧する可能性が高い間
欠障害と呼ばれる障害に関連する障害検出方式では、発
生した障害が障害レベルの判定処理により再試行すれば
復旧する可能性が高い間欠障害であると判定された場合
には、ただ単純に間欠障害の処理を実行するだけである
【0006】このような間欠障害が何回発生しようと、
その処理を忠実に実行するだけであった。
【0007】以上のように従来の障害検出方式では、発
生障害が間欠障害である場合には、間欠障害自身が何回
かに1回必ず発生するような、あるいは複数回連続して
発生するような重大障害が発生した場合でもそれを検出
できないため、的確な障害復旧処理を行うことができず
、結果的にオンライン処理停止等の運用管理上致命的な
打撃を与えてしまうという欠点がある。
【0008】本発明の目的は、上述の欠点を除去するよ
うにした障害検出方式を提供することにある。
【0009】
【課題を解決するための手段】本発明は前述した課題を
解決するための手段として、ホスト計算機上の通信管理
プログラムと、前置通信処理装置上の通信制御プログラ
ムとが共同で制御するオンラインシステムにおいて、前
記通信管理プログラムと通信制御プログラムとの間で行
うデータ送受信動作に対して、その結果発生する種々の
障害を、その障害が及ぼす影響の大きさから、運用管理
者等の介入を必要とする重大障害(レベル3障害と称す
る)、一時的な障害であり再試行すれば復旧可能な間欠
障害(レベル1障害と称する)、および前記二種類以外
の通常障害(レベル2障害と称する)の前記三段階に分
類した上で、発生した障害が三段階の内どの段階に相当
するかを判定する障害レベル判定手段と、前記障害レベ
ル判定手段によって発生障害が間欠障害であると判定さ
れたときにその発生回数を第1間欠障害発生管理テーブ
ル上で更新する第1間欠障害発生回数更新手段と、前記
第1間欠障害発生回数更新手段によって更新された間欠
障害発生回数と、予め規定されている第1間欠障害発生
許容値とを比較し、許容値以上であればレベル2障害発
生と見做す第1間欠障害判定手段と、前記第1間欠障害
発生管理テーブル上の発生回数が0から1に更新された
ときに開始する第1規定時間内の間欠障害発生回数を監
視する第1間欠障害監視手段とを有する。
【0010】また前記障害レベル判定手段によって発生
障害が間欠障害であると判定されたときに、その発生回
数を第2間欠障害発生管理テーブル上で更新する第2間
欠障害発生回数更新手段と、前記第2間欠障害発生更新
手段によって更新された間欠障害発生回数と、予め規定
されている第2間欠障害発生許容値とを比較し、許容値
以上であればレベル2障害発生と見做す第2間欠障害判
定手段と、前記第2間欠障害発生管理テーブル上の発生
回数が0から1に更新されたときに開始する前記第1規
定時間よりも長く設定した第2規定時間内の間欠障害発
生回数を監視する第2間欠障害監視手段とを有する。
【0011】また、前記第2間欠障害発生管理テーブル
上の発生回数が0から1に更新されたときに開始する前
記第1規定時間よりも長く設定した第2規定時間内の間
欠障害発生回数を監視し、規定時間経過後に、予め規定
されている第3間欠障害発生許容値と前記第2間欠障害
発生管理テーブル上の間欠障害発生回数とを比較し、許
容値以上なら運用管理者に警告文を出力する運用管理者
警告手段とを有する。
【0012】
【実施例】次に本発明について図面を参照して詳細に説
明する。図1は本発明の一実施例を示す図、図2は障害
レベル判定手段1の詳細な動作を説明するためのフロー
チャート、図3は第1間欠障害発生回数更新手段2の詳
細な動作を説明するためのフローチャート、図4は第1
間欠障害判定手段3の詳細な動作を説明するためのフロ
ーチャート、図5は第1間欠障害監視手段5の詳細な動
作を説明するためのフローチャート、図6は第2間欠障
害発生回数更新手段6の詳細な動作を説明するためのフ
ローチャート、図7は第2間欠障害判定手段7の詳細な
動作を説明するためのフローチャート、図8は第2間欠
障害監視手段9の詳細な動作を説明するためのフローチ
ャート、図9は運用管理者警告手段10の詳細な動作を
説明するためのフローチャート、図10は第1間欠障害
発生管理テーブル4の詳細な形式を示す図、図11は第
2間欠障害発生管理テーブル8の詳細な形式を示す図、
図12は障害コード判定テーブル11の詳細な形式を示
す図である。
【0013】まず図1を参照すると、本発明の一実施例
は、通信管理プログラム12から前置通信処理装置14
に対するデータ送受信動作に伴うI/O障害発生時の処
理について述べたものであり、ホスト計算機13上で動
作する通信管理プログラム12、前置通信処理装置14
上で動作する通信制御プログラム15から構成されてい
る。
【0014】さらに通信管理プログラム12は前置通信
処理装置14に対してデータを送信した結果として障害
通知を受けた場合に起動され通知障害コードから障害コ
ード判定テーブル11を基に処理コードを判定する障害
レベル判定手段1、前記障害レベル判定手段1によって
発生した障害が間欠障害であると判定された場合に呼ば
れ第1間欠障害発生管理テーブル4上の発生回数を1加
算する第1間欠障害発生回数更新手段2、および第2間
欠障害発生管理テーブル8上の発生回数を1加算する第
2間欠障害発生回数更新手段6、前記第1間欠障害発生
回数更新手段2から呼ばれ障害発生回数が第1間欠障害
発生許容値を越えている場合には発生障害をレベル2障
害、許容値以下の場合には間欠障害と判定する第1間欠
障害判定手段3、前記第2間欠障害発生回数更新手段6
から呼ばれ障害発生回数が第2間欠障害発生許容値を越
えている場合には発生障害をレベル2障害、許容値以下
の場合には間欠障害と判定する第2間欠障害判定手段7
、前記第1間欠障害発生回数更新手段2によって第1間
欠障害発生管理テーブル4上の発生回数が0から1にな
るときにタイマキューに登録されタイムアウト時に第1
間欠障害発生管理テーブル4上の発生回数を0にリセッ
トする第1間欠障害監視手段5、前記第2間欠障害発生
回数更新手段6によって第2間欠障害発生管理テーブル
8上の発生回数が0から1になるときにタイマキューに
登録されタイムアウト時に第2間欠障害発生管理テーブ
ル8上の発生回数を0にリセットする第2間欠障害監視
手段9、前記第2間欠障害監視手段9において発生回数
が第3間欠障害発生許容値を越えている場合に起動され
運用管理者に間欠障害多発を警告する運用管理者警告手
段10から構成されている。
【0015】次に本発明の動作を図1から図12を参照
しながら説明する。
【0016】図2のステップ201〜204を参照する
と、障害レベル判定手段1は通知された障害内容から発
生障害コードを取得し(201)、障害コード判定テー
ブル11から取得した障害コードと一致する障害コード
1201を持つエントリを検索し(202)、当該エン
トリの処理コード1202が間欠障害処理を示していれ
ば第1間欠障害発生回数更新手段2および第2間欠障害
発生回数更新手段6を呼び出し(203)、戻りコード
が間欠障害なら間欠障害発生処理を、レベル2障害なら
レベル2障害発生処理を起動して処理を終える(204
)。
【0017】図3のステップ301〜305を参照する
と、第1間欠障害発生回数更新手段2は第1間欠障害発
生管理テーブル4上の発生回数1003が0であるか判
定し(301)、0ならば第1間欠障害監視手段5を第
1規定時間1002のタイマ値でタイマキューに登録し
(302)、第1間欠障害発生管理テーブル4上の発生
回数1003を1加算し(303)、第1間欠障害判定
手段3を呼び出し(304)、その判定結果を呼び出し
元に持ち帰り処理を終える(305)。ステップ301
の判定結果が0以外であればステップ303に進む。
【0018】図4のステップ401〜405を参照する
と、第1間欠障害判定手段3は第1間欠障害発生管理テ
ーブル4上の発生回数1003と第1間欠障害発生許容
値1001を比較し(401)、許容値以下なら障害判
定結果を間欠障害として呼び出し元へ持ち帰り処理を終
える(405)。一方発生回数が許容値を越えていれば
第1間欠障害監視手段5をタイマキューからはずし動作
しないようにし(402)、第1間欠障害発生管理テー
ブル4上の発生回数1003を0にリセットした上で(
403)、障害判定結果をレベル2障害として呼び出し
元へ持ち帰り処理を終える(404)。
【0019】図5のステップ501を参照すると、第1
間欠障害監視手段5は第1間欠障害発生管理テーブル4
上の発生回数1003をリセットして処理を終える(5
01)。
【0020】図6のステップ601〜605を参照する
と、第2間欠障害発生回数更新手段6は第2間欠障害発
生管理テーブル8上の発生回数1104が0であるか判
定し(601)、0ならば第2間欠障害監視手段9を第
2規定時間1103のタイマ値でタイマキューに登録し
(602)、第2間欠障害発生管理テーブル8上の発生
回数1104を1加算し(603)、第2間欠障害判定
手段7を呼び出し(604)、その判定結果を呼び出し
元に持ち帰り処理を終える(605)。ステップ601
の判定結果が0以外であればステップ603に進む。
【0021】図7のステップ701〜705を参照する
と、第2間欠障害判定手段7は第2間欠障害発生管理テ
ーブル8上の発生回数1104と第2間欠障害発生許容
値1101を比較し(701)、許容値以下なら障害判
定結果を間欠障害として呼び出し元へ持ち帰り処理を終
える(705)。一方発生回数が許容値を越えていれば
第2間欠障害監視手段9をタイマキューからはずし動作
しないようにし(702)、第2間欠障害発生管理テー
ブル8上の発生回数1104を0にリセットした上で(
703)、障害判定結果をレベル2障害として呼び出し
元へ持ち帰り処理を終える(704)。
【0022】図8のステップ801〜803を参照する
と、第2間欠障害監視手段9は第2間欠障害発生管理テ
ーブル8上の発生回数1104と第3間欠障害発生許容
値1102を比較し(801)、許容値を越えている場
合には運用管理者警告手段10を起動し(802)、第
2間欠障害発生管理テーブル8上の発生回数1104を
0にリセットして処理を終える(803)。一方ステッ
プ801の判定結果が許容値以下である場合にはステッ
プ803に進む。
【0023】図9のステップ901を参照すると、運用
管理者警告手段10はシステム操作卓上に間欠障害が多
発している旨の警告メッセージを発生回数と共に表示し
て処理を終える(901)。
【0024】図10を参照すると、第1間欠障害発生管
理テーブル4は第1発生間欠障害発生許容値1001、
第1規定時間1002および間欠障害発生回数1003
とから構成されている。
【0025】図11を参照すると、第2間欠障害発生管
理テーブル8は第2発生間欠障害発生許容値1101、
第3発生間欠障害発生許容値1102、第2規定時間1
103および間欠障害発生回数1104とから構成され
ている。
【0026】図12を参照すると、障害コード判定テー
ブル11は1エントリ内に障害コード1201、処理コ
ード1202を持ち、全体として複数エントリとから構
成されている。処理コード1202はその内容として、
X’01’が間欠障害(レベル1)、X’02’がレベ
ル2障害、X’03’が重大障害(レベル3)を示す。
【0027】
【発明の効果】本発明には、ホスト計算機上の通信管理
プログラムと前置通信処理装置上の通信制御プログラム
との間で行うデータ送受信動作の結果発生する種々の障
害事象の中で、再試行すれば復旧する可能性が高い間欠
障害と呼ばれる障害に関連するオンラインシステムにお
ける障害検出方式において、間欠障害の発生回数を2段
階管理し、第1の規定時間内の発生回数が許容限度を越
えた場合には間欠障害とはせず、より障害度の高いレベ
ルの障害発生と認識し、更に第1規定時間内では許容限
度以内であっても第1規定時間より長い第2規定時間内
での発生回数が許容限度を越えていれば、同様により障
害度の高いレベルの障害発生と認識することができるた
め、間欠障害が連続して発生するような障害発生の場合
には、第1監視によりその検出が可能となり、また間欠
障害が間欠的に継続して発生するような障害発生の場合
には、第2監視によりその検出が可能となる。
【0028】その上、第2規定時間内の発生回数が別の
許容限度を越えている場合には、前述のような障害とは
せずに運用管理者に対してその旨警告メッセージを伝え
ることができるため、運用管理者による的確な予防保守
等の運用手順が実行できる。以上のように、間欠障害が
多発するというような障害が発生した場合の早期検出が
可能となり、間欠障害多発によるオンラインシステム運
用に与える影響を最小限度に抑え、円滑な運用が行える
という効果がある。
【図面の簡単な説明】
【図1】本発明の一実施例を示す図、
【図2】障害レベル判定手段1の詳細な動作を説明する
ためのフローチャート、
【図3】第1間欠障害発生回数更新手段2の詳細な動作
を説明するためのフローチャート、
【図4】第1間欠障害判定手段3の詳細な動作を説明す
るためのフローチャート、
【図5】第1間欠障害監視手段5の詳細な動作を説明す
るためのフローチャート、
【図6】第2間欠障害発生回数更新手段6の詳細な動作
を説明するためのフローチャート、
【図7】第2間欠障害判定手段7の詳細な動作を説明す
るためのフローチャート、
【図8】第2間欠障害監視手段9の詳細な動作を説明す
るためのフローチャート、
【図9】運用管理者警告手段10の詳細な動作を説明す
るためのフローチャート、
【図10】第1間欠障害発生管理テーブル4の詳細な形
式を示す図、
【図11】第2間欠障害発生管理テーブル8の詳細な形
式を示す図、
【図12】障害コード判定テーブル11の詳細な形式を
示す図である。
【符号の説明】
1    障害レベル判定手段 2    第1間欠障害発生回数更新手段3    第
1間欠障害判定手段 4    第1間欠障害発生管理テーブル5    第
1間欠障害監視手段 6    第2間欠障害発生回数更新手段7    第
2間欠障害判定手段 8    第2間欠障害発生管理テーブル9    第
2間欠障害監視手段 10    運用管理者警告手段 11    障害コード判定テーブル 12    通信管理プログラム 13    ホスト計算機 14    前置通信処理装置 15    通信制御プログラム

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】  ホスト計算機上の通信管理プログラム
    と、前置通信処理装置上の通信制御プログラムとが共同
    で制御するオンラインシステムにおいて、前記通信管理
    プログラムと通信制御プログラムとの間で行うデータ送
    受信動作に対して、その結果発生する種々の障害を、そ
    の障害が及ぼす影響の大きさから、運用管理者等の介入
    を必要とする重大障害(レベル3障害と称する)、一時
    的な障害であり再試行すれば復旧可能な間欠障害(レベ
    ル1障害と称する)、および前記二種類以外の通常障害
    (レベル2障害と称する)の三段階に分類した上で、発
    生した障害が前記三段階の内どの段階に相当するかを判
    定する障害レベル判定手段と、前記障害レベル判定手段
    によって発生障害が前記間欠障害であると判定されたと
    きに、その発生回数を第1間欠障害発生管理テーブル上
    で更新する第1間欠障害発生回数更新手段と、前記第1
    間欠障害発生回数更新手段によって更新された間欠障害
    発生回数と、予め規定されている第1間欠障害発生許容
    値とを比較し、許容値以上であれば2障害発生と見做す
    第1間欠障害判定手段と、前記第1間欠障害発生管理テ
    ーブル上の発生回数が0から1に更新されたときに開始
    する第1規定時間内の間欠障害発生回数を監視する第1
    間欠障害監視手段とを有することを特徴とする障害検出
    方式。
  2. 【請求項2】  前記障害レベル判定手段によって発生
    障害が間欠障害であると判定されたときに、その発生回
    数を第2間欠障害発生管理テーブル上で更新する第2間
    欠障害発生回数更新手段と、前記第2間欠障害発生回数
    更新手段によって更新された間欠障害発生回数と、予め
    規定されている第2間欠障害発生許容値とを比較し、許
    容値以上であればレベル2障害発生と見做す第2間欠障
    害判定手段と、前記第2間欠障害発生管理テーブル上の
    発生回数が0から1に更新されたときに開始する前記第
    1規定時間よりも長く設定した第2規定時間内の間欠障
    害発生回数を監視する第2間欠障害監視手段とを有する
    ことを特徴とする請求項1に記載の障害検出方式。
  3. 【請求項3】  前記第2間欠障害発生管理テーブル上
    の発生回数が0から1に更新されたときに開始する前記
    第1規定時間よりも長く設定した第2規定時間内の間欠
    障害発生回数を監視し、規定時間経過後に、予め規定さ
    れている第3間欠障害発生許容値と前記第2間欠障害発
    生管理テーブル上の間欠障害発生回数とを比較し、許容
    値以上なら運用管理者に警告文を出力する運用管理者警
    告手段とを有することを特徴とする請求項2に記載の障
    害検出方式。
JP3074324A 1991-03-15 1991-03-15 障害検出方式 Expired - Fee Related JP2734455B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3074324A JP2734455B2 (ja) 1991-03-15 1991-03-15 障害検出方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3074324A JP2734455B2 (ja) 1991-03-15 1991-03-15 障害検出方式

Publications (2)

Publication Number Publication Date
JPH04287460A true JPH04287460A (ja) 1992-10-13
JP2734455B2 JP2734455B2 (ja) 1998-03-30

Family

ID=13543822

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3074324A Expired - Fee Related JP2734455B2 (ja) 1991-03-15 1991-03-15 障害検出方式

Country Status (1)

Country Link
JP (1) JP2734455B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0895832A (ja) * 1994-09-22 1996-04-12 Fujitsu Ltd システム異常監視装置
US6862688B2 (en) 2000-01-27 2005-03-01 Mitsubishi Denki Kabushiki Kaisha Fault handling system and fault handling method

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6432737A (en) * 1987-07-29 1989-02-02 Fujitsu Ltd Abnormalness detection system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6432737A (en) * 1987-07-29 1989-02-02 Fujitsu Ltd Abnormalness detection system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0895832A (ja) * 1994-09-22 1996-04-12 Fujitsu Ltd システム異常監視装置
US6862688B2 (en) 2000-01-27 2005-03-01 Mitsubishi Denki Kabushiki Kaisha Fault handling system and fault handling method

Also Published As

Publication number Publication date
JP2734455B2 (ja) 1998-03-30

Similar Documents

Publication Publication Date Title
EP0591345B1 (en) Method and system for monitoring a computer system
CN108710544B (zh) 一种数据库系统的进程监控方法及轨道交通综合监控系统
CN110532096A (zh) 一种多节点分组并行部署的系统和方法
CN112671767A (zh) 一种基于告警数据分析的安全事件预警方法及装置
EP2390739A2 (en) A method and apparatus for providing industrial plant information
JPH04287460A (ja) 障害検出方式
US20210232686A1 (en) Attack detection device, attack detection method, and attack detection program
JPH07160326A (ja) プラント監視装置
JP2005141466A (ja) コンピュータの監視装置および監視対象のコンピュータに関するメッセージの処理方法
JPH06324916A (ja) 障害情報ロギング方式
JPH05108412A (ja) プラント警報装置
CN111464357A (zh) 资源配置方法及装置
JPH06175887A (ja) 障害監視/通知方式
CN111415501A (zh) 基于可穿戴式设备的车间监控和报警方法及系统
JP5098887B2 (ja) アラーム表示装置およびアラーム表示方法
JPH07281929A (ja) トレース情報収集装置
JPS6188311A (ja) プラントの監視方法
JPS61206099A (ja) 表示装置における警報情報処理方式
KR101738770B1 (ko) 엔터프라이즈 비즈니스 서비스 레벨의 통합 모니터링 방법 및 시스템
JPH10187232A (ja) 監視制御装置
WO2024013989A1 (ja) 障害箇所推定装置、方法及びコンピュータプログラム
JP7034975B2 (ja) 監視制御システム及び監視制御装置
JPH1124742A (ja) プラント監視装置のアラーム出力装置
KR20010056513A (ko) 알람 메시지 마스킹 방법
JPH11136000A (ja) 電子部品実装におけるデータ収集方法、電子部品実装装置および電子部品実装制御システム

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080109

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090109

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100109

Year of fee payment: 12

LAPS Cancellation because of no payment of annual fees