JP2665380B2 - システム異常の検出処理方式 - Google Patents

システム異常の検出処理方式

Info

Publication number
JP2665380B2
JP2665380B2 JP1169128A JP16912889A JP2665380B2 JP 2665380 B2 JP2665380 B2 JP 2665380B2 JP 1169128 A JP1169128 A JP 1169128A JP 16912889 A JP16912889 A JP 16912889A JP 2665380 B2 JP2665380 B2 JP 2665380B2
Authority
JP
Japan
Prior art keywords
detection
abnormality
system abnormality
occurrence
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP1169128A
Other languages
English (en)
Other versions
JPH0334037A (ja
Inventor
克彦 森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP1169128A priority Critical patent/JP2665380B2/ja
Publication of JPH0334037A publication Critical patent/JPH0334037A/ja
Application granted granted Critical
Publication of JP2665380B2 publication Critical patent/JP2665380B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔概要〕 データ処理システムのシステム異常の発生を検出する
システム異常の検出処理方式に関し、 異常の発生の検出をシステムに負担をかけることな
く、かつ精度よく検出できるようにすることを目的と
し、 システムの異常の発生の有無を所定の検出周期に従っ
て検出する第1の検出部と、第1の検出部がシステムの
異常の発生を検出するときに、発生したシステムの異常
の継続をより短い検出周期に従って検出する第2の検出
部と、第2の検出部がシステムの異常の継続を検出する
ときに、システムの異常の発生を表示する異常状態表示
部とを備えるよう構成する。
〔産業上の利用分野〕
本発明は、データ処理システムのソフトウェア資源の
使用状態やシステム動作上の内部処理状態を周期的に監
視することで、システムの異常の発生を検出するシステ
ム異常の検出処理方式に関し、特に、システムの異常の
発生をシステムに負担をかけることなく、かつ精度よく
検出できるようにするシステム異常の検出処理方式に関
する。
オンライン処理するコンピュータシステムでは、ソフ
トウェアが処理のために必要とする資源(以下、ソフト
ウェア資源と称する)の使用状態を監視して、ソフトウ
ェア資源の使用が過負荷状態にあるのか否かを検出する
処理や、システム動作上の内部処理状態を監視して、内
部処理状態が過負荷状態にあるのか否かを検出する処理
を行うことになる。このようなシステム異常の検出処理
は、本来のデータ処理を圧迫することなく、かつ精度よ
く検出できるように構成していく必要がある。
〔従来の技術〕
従来のシステム異常の検出処理方式では、ソフトウェ
ア資源の使用状態やシステム動作上の内部処理状態を所
定の検出周期に従って周期的に監視するよう構成すると
ともに、この監視によりシステムの異常が所定回数連続
することを検出すると、システムに異常があると判断し
て、リカバリー処理に入るべくシステムの異常を表示す
るよう処理していた。
〔発明が解決しようとする課題〕
しかしながらこのような従来技術にあって、本来のデ
ータ処理を圧迫しないために、システムの異常の発生の
検出のための検出周期を長く設定すると、第7図に示す
ように、例えばソフトウェア資源の使用状態の異常で説
明するならば、使用状態の異常が継続するような場合に
は使用状態の異常の発生を精度よく検出できるものの、
第8図に示すように、使用状態が正常/異常の判断値を
境界にしてふらつくような場合には、使用状態に異常が
発生しているとは言えないのに異常と判断してしまうと
いう問題点があった。これに対処するためには、システ
ムの異常の発生の検出のための検出周期を短く設定すれ
ばよいのであるが、それでは本来のデータ処理を圧迫し
てしまうという問題点がでてくることになる。ここで、
第6図では、ソフトウェア資源の使用状態の異常の発生
が4回継続した場合に異常を表示する例を示してある。
本発明はかかる事情に鑑みてなされたものであって、
データ処理システムのシステム異常の発生をシステムに
負担をかけることなく、かつ精度よく検出できるように
する新たなシステム異常の検出処理方式を提供すること
を目的とする。
〔課題を解決するための手段〕
第1図は本発明の原理構成図である。
図中、1は本発明を具備するデータ処理システム、10
はデータ処理実行部であって、所定のデータ処理を実行
するもの、11は動作状態管理部であって、データ処理実
行部10の実行に伴って使用されるソフトウェア資源の使
用状態値やシステム動作上の内部処理状態値を管理する
もの、12は第1の検出部であって、動作状態管理部11の
管理データを参照することでシステムの異常の発生の有
無を検出するもの、13は第1の検出実行依頼部であっ
て、所定の検出周期に従って第1の検出部12に対して検
出の実行依頼を行うもの、14は第2の検出部であって、
第1の検出部12がシステムの異常の発生を検出するとき
に、動作状態管理部11の管理データを参照することでシ
ステムの異常の継続を検出するもの、15は第2の検出実
行依頼部であって、第1の検出実行依頼部13の検出周期
より短い1つ又は複数の検出周期に従って第2の検出部
14に対して検出の実行依頼を行うもの、16は異常状態表
示部であって、第2の検出部14がシステムの異常の継続
を検出するときに、システムの異常の発生をデータ処理
実行部10に通知するものである。
〔作用〕
本発明では、第1の検出部12は、第1の検出実行依頼
部13からの起動依頼に応じて所定の検出周期に従って動
作状態管理部11の管理データを参照することで、データ
処理システムのソフトウェア資源の使用状態やシステム
動作上の内部処理状態に異常が発生したのか否かを検出
する。この検出処理によりシステムに異常が発生したこ
とが検出されると、続いて、第2の検出部14は、第2の
検出実行依頼部15からの起動依頼に応じて第1の検出部
12の検出周期より短い検出周期に従って動作状態管理部
11の管理データを参照することで、システムの異常の発
生が連続して複数回続いているのか否かを検出すること
で、システムの異常が継続しているのか否かを判断す
る。この判断により、システムの異常が継続しているこ
とが検出されると、異常状態表示部16は、データ処理実
行部10に対してシステムの異常の発生を表示する処理を
行う。
このように、本発明では、先ず最初に、より長い検出
周期に従ってシステムの異常の発生を検出するよう構成
するとともに、異常の発生が検出されるときには、より
短い検出周期に従ってシステムの異常の発生の継続を判
断するよう構成したことから、システムの異常の発生を
本来のデータ処理を圧迫することなく、かつ精度よく検
出できるようになる。
更に、この異常の継続の検出処理にあって、第2の検
出実行依頼部15は、用意する複数の検出周期の内の最も
長い検出周期に従って第2の検出部14に対して起動依頼
を行い、この検出周期に従って第2の検出部14が異常の
継続を検出するときには、次に長い検出周期に従って第
2の検出部14に対して起動依頼を行うといったように構
成することで、第2の検出部14は、用意される複数の検
出周期の長いものの順に従って発生したシステムの異常
の継続を判断するよう処理する。
このように構成すると、本発明の効果を更に大きなも
のにできる。
〔実施例〕
以下、実施例に従って本発明を詳細に説明する。
第2図に、本発明のシステム構成を図示する。図中、
1はパケット交換機等のデータ処理システム本体、2は
データ処理プログラムであって、所定のデータ処理をオ
ンラインで実行するもの、3は制御プログラムであっ
て、データ処理プログラム2が使用しるソフトウェア資
源(バッファやトランザクション等)の使用状態やデー
タ処理プログラム2が実行するシステム動作上の内部処
理状態(出力キュー長等)の異常の発生を検出する機能
を備えるもの、4は入力側端末であって、データ処理プ
ログラム2にデータを入力するもの、5は出力側端末で
あって、データ処理プログラム2からのデータを受け取
るもの、6は入力バッファであって、入力側端末4から
入力されるデータを格納するもの、7は出力バッファで
あって、出力側端末5に出力されるデータを格納するも
の、8は送信待機キューであって、送信待ちの状態にあ
る出力データをキューに接続して管理するものである。
制御プログラム3は、ソフトウェア資源の使用状態や
システム動作上の内部処理状態の異常の発生を検出する
ために、監視起動プログラム30と、検出サイクルカウン
タ31と、トランザクションの使用数を監視するトランザ
クション数監視プログラム32aや送信待ちの状態にある
キューの滞留数を監視するキュー長監視プログラム32b
等の状態監視プログラム32と、トランザクションの使用
数を管理するトランザクション使用数管理部33aや送信
待ちの状態にあるキューの滞留数を管理するキュー長滞
留数管理部33b等の状態データ管理部33とを備えるよう
構成される。
第3図に、検出サイクルカウンタ31の構成を示す。こ
の図に示すように、検出サイクルカウンタ31は、各状態
監視プログラム32毎に割り付けられる計数値を管理する
もので、この計数値は、これから説明するように、初期
値を起点にして“0"の値になるまで基本周期に達する度
毎に1つずつ減算されていくことになる。なお、この初
期値は、トランザクション数監視プログラム32aとキュ
ー長監視プログラム32bとで異なる値が用いられるよう
に、状態監視プログラム32の種別に応じて適切な値が用
いられることになるが、以下説明の便器上“n0"の値を
採るものとして説明することにする。
次に、第4図及び第5図に示すフローチャートに従っ
て、本発明について詳細に説明する。ここで、第4図の
フローチャートは、監視起動プログラム30が実行するフ
ローチャートであり、第5図のフローチャートは、状態
監視プログラム32が実行するフローチャートである。
監視起動プログラム30は、第4図のフローチャートの
ステップ1で示すように、タイマを監視することで、現
在の時刻が例えば1分といったような基本時間単位で区
切られる基本周期に達したのか否かを判断する。このス
テップ1の判断で現在の時刻が基本周期に達したと判断
するときには、ステップ2に進んで、検出サイクルカウ
ンタ31が管理するすべての状態監視プログラム32につい
ての計数値を1つ減算する。続いて、ステップ3で、こ
の減算により検出サイクルカウンタ31の計数値が“0"と
なる状態監視プログラム32があるのか否かを判断する。
このステップ3の判断で計数値が“0"となる状態監視プ
ログラム32があると判断するときには、ステップ4に進
んで、その計数値が“0"となる状態監視プログラム32を
起動する。そして、次のステップ5で、データ処理の終
了要求があるのか否かを判断して、終了要求がないと判
断するときにはステップ1に戻るよう処理する。一方、
ステップ3の判断で計数値が“0"となる状態監視プログ
ラム32がないと判断するときには、直ちにステップ5に
進む処理を実行する。
このようにして、監視起動プログラム30は、検出サイ
クルカウンタ31の初期値“n0"により設定される検出周
期に達すると、対応する状態監視プログラム32を起動す
るよう処理することになるのである。
状態監視プログラム32は、監視起動プログラム30によ
り起動されると、先ず最初に、第5図のフローチャート
のステップ10で示すように、状態データ管理部33の管理
データを参照することで、その時点におけるソフトウェ
ア資源の使用状態値やシステム動作上の内部処理状態値
を読み取る。すなわち、トランザクション数監視プログ
ラム32aが起動されるときには、トランザクション使用
数管理部33aを参照することで使用中のトランザクショ
ン数を読み取り、また、キュー長監視プログラム32bが
起動されるときには、キュー長滞留数管理部33bを参照
することで送信待機キュー8にキューイングされる滞留
中の出力データ数を読み取ることになる。
次に、状態監視プログラム32は、ステップ11で、読み
取ったソフトウェア資源の使用状態値やシステム動作上
の内部処理状態値の状態値を予め定めてある判断値と比
較することで、システムに異常が発生したのか否かを判
断する。このステップ11の判断で使用状態値が判断値よ
り大きいと判断するとき、すなわち、システムに異常が
発生したと判断するときには、ステップ12に進んで、シ
ステム異常の継続回数を計数する継続回数カウンタの計
数値を1つ加算し、続くステップ13で、この加算した計
数値が予め定めてある例えば4回といった判断回数に達
したのか否かを判断する。
一方、ステップ11の判断で使用状態値が判断値より小
さいと判断するとき、すなわち、システムに異常が発生
していないか、あるいは、一度発生したもののステップ
13の判断回数分継続せずに消滅した場合には、ステップ
14が進んで、検出サイクルカウンタ31に初期値“n0"を
セットし、続くステップ15で、継続回数カウンタの計数
値をクリア処理して処理を終了する。このステップ14の
処理により、状態監視プログラム32は、初期値“n0"で
定められる次の検出周期になると監視起動プログラム30
により再び起動されることになるとともに、ステップ15
の処理により、システム異常の継続回数を再び最初から
計数できるようになる。
そして、ステップ13の判断で継続回数カウンタの計数
値が判断回数に達していないと判断するときには、ステ
ップ16に進んで、検出サイクルカウンタ31に“n0"より
小さな値をとる初期値“n1"をセットする。このステッ
プ16の処理により、状態監視プログラム32は、今度はそ
れまでの初期値“n0"で定められる検出周期より短い検
出周期である初期値“n1"で定められる検出周期に従っ
て、監視起動プログラム30により起動されていくよう処
理される。一方、ステップ13の判断で継続回数カウンタ
の計数値が判断回数に達したと判断するとき、すなわ
ち、状態監視プログラム32が初期値“n1"で定められる
検出周期に従って起動されて、この起動により検出され
るシステムの異常が所定の判断回数分継続したと判断す
るときには、ステップ17に進んで、システムに異常があ
ることを表示する。この表示処理により、オペレータに
対して異常状態の発生を表示できるようになるととも
に、必要なリカバリー処理に入れるようになる。
このようにして、本発明では、ソフトウェア資源の使
用状態の例で説明するならば、第6図に示すように、通
常は(a)で示されるような長い検出周期に従ってソフ
トウェア資源の使用状態の異常の発生を検出するよう処
理するとともに、この検出処理に従って使用状態の異常
が検出されると、次に、ないしで示されるような短
い検出周期に従って異常の発生の継続を判断するよう処
理することになるのである。
この実施例では、1段階のより短い検出周期に従って
システムの異常の継続を検出していくものを開示した
が、短くする検出周期に更に段数を設けていくよう構成
することも可能である。このようにすると、更にデータ
処理プログラム2のデータ処理を圧迫することなく精度
よく使用状態の異常の継続を検出できることになる。
以上図示実施例について説明したが、本発明はこれに
限定されるものではない。例えば、システムの異常の継
続を判断するための判断回数は、起動される状態監視プ
ログラム32毎に異なるものであってもよい。
〔発明の効果〕
以上説明したように、本発明によれば、システムの異
常の発生を本来のデータ処理を圧迫せずに精度よく検出
できるようになる。
【図面の簡単な説明】
第1図は本発明の原理構成図、 第2図は本発明のシステム構成図、 第3図は検出サイクルカウンタの説明図、 第4図は監視起動プログラムが実行するフローチャー
ト、 第5図は状態監視プログラムが実行するフローチャー
ト、 第6図は本発明の処理内容を説明するための説明図、 第7図及び第8図は従来技術の問題点を説明するための
説明図である。 図中、1はデータ処理システム本体、2はデータ処理プ
ログラム、3は制御プログラム、4は入力側端末、5は
出力側端末、6は入力バッファ、7は出力バッファ、8
は送信待機キュー、10はデータ処理実行部、11は資源使
用状態管理部、12は第1の検出部、14は第2の検出部、
16は異常状態表示部、30は監視起動プログラム、31は検
出サイクルカウンタ、32は状態監視プログラム、33は状
態データ管理部である。

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】データ処理システムのシステム異常の発生
    を周期的に監視することで、システム異常の発生を検出
    するシステム異常の検出処理方式において、 システム異常の発生の有無を所定の検出周期に従って検
    出する第1の検出部(12)と、 該第1の検出部(12)がシステム異常の発生を検出する
    ときに起動されて、発生したシステム異常の継続を上記
    検出周期より短い検出周期に従って検出する第2の検出
    部(14)と、 該第2の検出部(14)がシステム異常の継続を検出する
    ときに、システム異常の発生を表示する異常状態表示部
    (16)とを備えることを、 特徴とするシステム異常の検出処理方式。
  2. 【請求項2】請求項1記載のシステム異常の検出処理方
    式において、 第2の検出部(14)は、発生したシステム異常の継続を
    検出するための検出周期を複数個用意して、その用意す
    る複数の検出周期を長いものから順次選択し、その選択
    した検出周期に従って発生したシステム異常の継続を検
    出していくことを、 特徴とするシステム異常の検出処理方式。
JP1169128A 1989-06-30 1989-06-30 システム異常の検出処理方式 Expired - Fee Related JP2665380B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1169128A JP2665380B2 (ja) 1989-06-30 1989-06-30 システム異常の検出処理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1169128A JP2665380B2 (ja) 1989-06-30 1989-06-30 システム異常の検出処理方式

Publications (2)

Publication Number Publication Date
JPH0334037A JPH0334037A (ja) 1991-02-14
JP2665380B2 true JP2665380B2 (ja) 1997-10-22

Family

ID=15880800

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1169128A Expired - Fee Related JP2665380B2 (ja) 1989-06-30 1989-06-30 システム異常の検出処理方式

Country Status (1)

Country Link
JP (1) JP2665380B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002041328A (ja) * 2000-07-24 2002-02-08 Tokyo Electron Ltd 処理装置を駆動するソフトウェアの自己診断方法
US6954716B2 (en) * 2000-07-07 2005-10-11 Tokyo Electron Limited Method of automatically resetting processing apparatus
JP2006221484A (ja) * 2005-02-14 2006-08-24 Meidensha Corp コンピュータの温度異常監視方式
US8326971B2 (en) * 2007-11-30 2012-12-04 International Business Machines Corporation Method for using dynamically scheduled synthetic transactions to monitor performance and availability of E-business systems

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6428748A (en) * 1987-07-24 1989-01-31 Hitachi Ltd Monitor system

Also Published As

Publication number Publication date
JPH0334037A (ja) 1991-02-14

Similar Documents

Publication Publication Date Title
US7568028B2 (en) Bottleneck detection system, measurement object server, bottleneck detection method and program
CA1102425A (en) Circuits and methods for multiple control data processing systems
JP2665380B2 (ja) システム異常の検出処理方式
JP3859564B2 (ja) イベント通知タスク制御処理方式及び方法並びにプログラム
JP2000132428A (ja) コンピュータシステム、コンピュータシステムのアプリケーション監視方法、及びプログラム記録媒体
JP5821471B2 (ja) 情報処理装置、プロセス監視方法、プロセス監視プログラム、記録媒体
JP2915061B2 (ja) 計算機システムの負荷制御方法
JPH04309110A (ja) 情報処理装置
JP2000089971A (ja) 割込み順位制御方法及び割込み順位制御装置
JP3759852B2 (ja) プロセス障害対応装置及びプロセス障害検出方法
JPH10340196A (ja) 演算処理方式
JP2842748B2 (ja) 情報処理装置の監視制御方式
JPS5971555A (ja) 計算機性能モニタリング方法
JPH02310755A (ja) ヘルスチェック方式
JPH06131205A (ja) デッドロックリスタート方式
JPH03191452A (ja) 通信制御方法
JPH02136927A (ja) 言語処理プログラム
JPH0497474A (ja) コンピュータネットワークにおけるジョブ管理方式
JPH113308A (ja) コンピュータシステム
JPH01241630A (ja) タスクのデットロックの回復支援方式
JPH0319036A (ja) タイムスライスインターバルを使用したダイナミックディスパッチング方式
JPH0287893A (ja) 遠方監視制御装置
JPH0535460B2 (ja)
JPH05210540A (ja) 割り込み装置
JPH02173854A (ja) 周辺制御装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees