JP2665380B2

JP2665380B2 - システム異常の検出処理方式

Info

Publication number: JP2665380B2
Application number: JP1169128A
Authority: JP
Inventors: 克彦森
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1989-06-30
Filing date: 1989-06-30
Publication date: 1997-10-22
Anticipated expiration: 2012-10-22
Also published as: JPH0334037A

Description

【発明の詳細な説明】〔概要〕データ処理システムのシステム異常の発生を検出する
システム異常の検出処理方式に関し、異常の発生の検出をシステムに負担をかけることな
く、かつ精度よく検出できるようにすることを目的と
し、システムの異常の発生の有無を所定の検出周期に従っ
て検出する第１の検出部と、第１の検出部がシステムの
異常の発生を検出するときに、発生したシステムの異常
の継続をより短い検出周期に従って検出する第２の検出
部と、第２の検出部がシステムの異常の継続を検出する
ときに、システムの異常の発生を表示する異常状態表示
部とを備えるよう構成する。

〔産業上の利用分野〕

本発明は、データ処理システムのソフトウェア資源の
使用状態やシステム動作上の内部処理状態を周期的に監
視することで、システムの異常の発生を検出するシステ
ム異常の検出処理方式に関し、特に、システムの異常の
発生をシステムに負担をかけることなく、かつ精度よく
検出できるようにするシステム異常の検出処理方式に関
する。

オンライン処理するコンピュータシステムでは、ソフ
トウェアが処理のために必要とする資源（以下、ソフト
ウェア資源と称する）の使用状態を監視して、ソフトウ
ェア資源の使用が過負荷状態にあるのか否かを検出する
処理や、システム動作上の内部処理状態を監視して、内
部処理状態が過負荷状態にあるのか否かを検出する処理
を行うことになる。このようなシステム異常の検出処理
は、本来のデータ処理を圧迫することなく、かつ精度よ
く検出できるように構成していく必要がある。

〔従来の技術〕

従来のシステム異常の検出処理方式では、ソフトウェ
ア資源の使用状態やシステム動作上の内部処理状態を所
定の検出周期に従って周期的に監視するよう構成すると
ともに、この監視によりシステムの異常が所定回数連続
することを検出すると、システムに異常があると判断し
て、リカバリー処理に入るべくシステムの異常を表示す
るよう処理していた。

〔発明が解決しようとする課題〕

しかしながらこのような従来技術にあって、本来のデ
ータ処理を圧迫しないために、システムの異常の発生の
検出のための検出周期を長く設定すると、第７図に示す
ように、例えばソフトウェア資源の使用状態の異常で説
明するならば、使用状態の異常が継続するような場合に
は使用状態の異常の発生を精度よく検出できるものの、
第８図に示すように、使用状態が正常／異常の判断値を
境界にしてふらつくような場合には、使用状態に異常が
発生しているとは言えないのに異常と判断してしまうと
いう問題点があった。これに対処するためには、システ
ムの異常の発生の検出のための検出周期を短く設定すれ
ばよいのであるが、それでは本来のデータ処理を圧迫し
てしまうという問題点がでてくることになる。ここで、
第６図では、ソフトウェア資源の使用状態の異常の発生
が４回継続した場合に異常を表示する例を示してある。

本発明はかかる事情に鑑みてなされたものであって、
データ処理システムのシステム異常の発生をシステムに
負担をかけることなく、かつ精度よく検出できるように
する新たなシステム異常の検出処理方式を提供すること
を目的とする。

〔課題を解決するための手段〕

第１図は本発明の原理構成図である。

図中、１は本発明を具備するデータ処理システム、10
はデータ処理実行部であって、所定のデータ処理を実行
するもの、11は動作状態管理部であって、データ処理実
行部10の実行に伴って使用されるソフトウェア資源の使
用状態値やシステム動作上の内部処理状態値を管理する
もの、12は第１の検出部であって、動作状態管理部11の
管理データを参照することでシステムの異常の発生の有
無を検出するもの、13は第１の検出実行依頼部であっ
て、所定の検出周期に従って第１の検出部12に対して検
出の実行依頼を行うもの、14は第２の検出部であって、
第１の検出部12がシステムの異常の発生を検出するとき
に、動作状態管理部11の管理データを参照することでシ
ステムの異常の継続を検出するもの、15は第２の検出実
行依頼部であって、第１の検出実行依頼部13の検出周期
より短い１つ又は複数の検出周期に従って第２の検出部
14に対して検出の実行依頼を行うもの、16は異常状態表
示部であって、第２の検出部14がシステムの異常の継続
を検出するときに、システムの異常の発生をデータ処理
実行部10に通知するものである。

〔作用〕

本発明では、第１の検出部12は、第１の検出実行依頼
部13からの起動依頼に応じて所定の検出周期に従って動
作状態管理部11の管理データを参照することで、データ
処理システムのソフトウェア資源の使用状態やシステム
動作上の内部処理状態に異常が発生したのか否かを検出
する。この検出処理によりシステムに異常が発生したこ
とが検出されると、続いて、第２の検出部14は、第２の
検出実行依頼部15からの起動依頼に応じて第１の検出部
12の検出周期より短い検出周期に従って動作状態管理部
11の管理データを参照することで、システムの異常の発
生が連続して複数回続いているのか否かを検出すること
で、システムの異常が継続しているのか否かを判断す
る。この判断により、システムの異常が継続しているこ
とが検出されると、異常状態表示部16は、データ処理実
行部10に対してシステムの異常の発生を表示する処理を
行う。

このように、本発明では、先ず最初に、より長い検出
周期に従ってシステムの異常の発生を検出するよう構成
するとともに、異常の発生が検出されるときには、より
短い検出周期に従ってシステムの異常の発生の継続を判
断するよう構成したことから、システムの異常の発生を
本来のデータ処理を圧迫することなく、かつ精度よく検
出できるようになる。

更に、この異常の継続の検出処理にあって、第２の検
出実行依頼部15は、用意する複数の検出周期の内の最も
長い検出周期に従って第２の検出部14に対して起動依頼
を行い、この検出周期に従って第２の検出部14が異常の
継続を検出するときには、次に長い検出周期に従って第
２の検出部14に対して起動依頼を行うといったように構
成することで、第２の検出部14は、用意される複数の検
出周期の長いものの順に従って発生したシステムの異常
の継続を判断するよう処理する。

このように構成すると、本発明の効果を更に大きなも
のにできる。

〔実施例〕

以下、実施例に従って本発明を詳細に説明する。

第２図に、本発明のシステム構成を図示する。図中、
１はパケット交換機等のデータ処理システム本体、２は
データ処理プログラムであって、所定のデータ処理をオ
ンラインで実行するもの、３は制御プログラムであっ
て、データ処理プログラム２が使用しるソフトウェア資
源（バッファやトランザクション等）の使用状態やデー
タ処理プログラム２が実行するシステム動作上の内部処
理状態（出力キュー長等）の異常の発生を検出する機能
を備えるもの、４は入力側端末であって、データ処理プ
ログラム２にデータを入力するもの、５は出力側端末で
あって、データ処理プログラム２からのデータを受け取
るもの、６は入力バッファであって、入力側端末４から
入力されるデータを格納するもの、７は出力バッファで
あって、出力側端末５に出力されるデータを格納するも
の、８は送信待機キューであって、送信待ちの状態にあ
る出力データをキューに接続して管理するものである。

制御プログラム３は、ソフトウェア資源の使用状態や
システム動作上の内部処理状態の異常の発生を検出する
ために、監視起動プログラム30と、検出サイクルカウン
タ31と、トランザクションの使用数を監視するトランザ
クション数監視プログラム32aや送信待ちの状態にある
キューの滞留数を監視するキュー長監視プログラム32b
等の状態監視プログラム32と、トランザクションの使用
数を管理するトランザクション使用数管理部33aや送信
待ちの状態にあるキューの滞留数を管理するキュー長滞
留数管理部33b等の状態データ管理部33とを備えるよう
構成される。

第３図に、検出サイクルカウンタ31の構成を示す。こ
の図に示すように、検出サイクルカウンタ31は、各状態
監視プログラム32毎に割り付けられる計数値を管理する
もので、この計数値は、これから説明するように、初期
値を起点にして“0"の値になるまで基本周期に達する度
毎に１つずつ減算されていくことになる。なお、この初
期値は、トランザクション数監視プログラム32aとキュ
ー長監視プログラム32bとで異なる値が用いられるよう
に、状態監視プログラム32の種別に応じて適切な値が用
いられることになるが、以下説明の便器上“n₀"の値を
採るものとして説明することにする。

次に、第４図及び第５図に示すフローチャートに従っ
て、本発明について詳細に説明する。ここで、第４図の
フローチャートは、監視起動プログラム30が実行するフ
ローチャートであり、第５図のフローチャートは、状態
監視プログラム32が実行するフローチャートである。

監視起動プログラム30は、第４図のフローチャートの
ステップ１で示すように、タイマを監視することで、現
在の時刻が例えば１分といったような基本時間単位で区
切られる基本周期に達したのか否かを判断する。このス
テップ１の判断で現在の時刻が基本周期に達したと判断
するときには、ステップ２に進んで、検出サイクルカウ
ンタ31が管理するすべての状態監視プログラム32につい
ての計数値を１つ減算する。続いて、ステップ３で、こ
の減算により検出サイクルカウンタ31の計数値が“0"と
なる状態監視プログラム32があるのか否かを判断する。
このステップ３の判断で計数値が“0"となる状態監視プ
ログラム32があると判断するときには、ステップ４に進
んで、その計数値が“0"となる状態監視プログラム32を
起動する。そして、次のステップ５で、データ処理の終
了要求があるのか否かを判断して、終了要求がないと判
断するときにはステップ１に戻るよう処理する。一方、
ステップ３の判断で計数値が“0"となる状態監視プログ
ラム32がないと判断するときには、直ちにステップ５に
進む処理を実行する。

このようにして、監視起動プログラム30は、検出サイ
クルカウンタ31の初期値“n₀"により設定される検出周
期に達すると、対応する状態監視プログラム32を起動す
るよう処理することになるのである。

状態監視プログラム32は、監視起動プログラム30によ
り起動されると、先ず最初に、第５図のフローチャート
のステップ10で示すように、状態データ管理部33の管理
データを参照することで、その時点におけるソフトウェ
ア資源の使用状態値やシステム動作上の内部処理状態値
を読み取る。すなわち、トランザクション数監視プログ
ラム32aが起動されるときには、トランザクション使用
数管理部33aを参照することで使用中のトランザクショ
ン数を読み取り、また、キュー長監視プログラム32bが
起動されるときには、キュー長滞留数管理部33bを参照
することで送信待機キュー８にキューイングされる滞留
中の出力データ数を読み取ることになる。

次に、状態監視プログラム32は、ステップ11で、読み
取ったソフトウェア資源の使用状態値やシステム動作上
の内部処理状態値の状態値を予め定めてある判断値と比
較することで、システムに異常が発生したのか否かを判
断する。このステップ11の判断で使用状態値が判断値よ
り大きいと判断するとき、すなわち、システムに異常が
発生したと判断するときには、ステップ12に進んで、シ
ステム異常の継続回数を計数する継続回数カウンタの計
数値を１つ加算し、続くステップ13で、この加算した計
数値が予め定めてある例えば４回といった判断回数に達
したのか否かを判断する。

一方、ステップ11の判断で使用状態値が判断値より小
さいと判断するとき、すなわち、システムに異常が発生
していないか、あるいは、一度発生したもののステップ
13の判断回数分継続せずに消滅した場合には、ステップ
14が進んで、検出サイクルカウンタ31に初期値“n₀"を
セットし、続くステップ15で、継続回数カウンタの計数
値をクリア処理して処理を終了する。このステップ14の
処理により、状態監視プログラム32は、初期値“n₀"で
定められる次の検出周期になると監視起動プログラム30
により再び起動されることになるとともに、ステップ15
の処理により、システム異常の継続回数を再び最初から
計数できるようになる。

そして、ステップ13の判断で継続回数カウンタの計数
値が判断回数に達していないと判断するときには、ステ
ップ16に進んで、検出サイクルカウンタ31に“n₀"より
小さな値をとる初期値“n₁"をセットする。このステッ
プ16の処理により、状態監視プログラム32は、今度はそ
れまでの初期値“n₀"で定められる検出周期より短い検
出周期である初期値“n₁"で定められる検出周期に従っ
て、監視起動プログラム30により起動されていくよう処
理される。一方、ステップ13の判断で継続回数カウンタ
の計数値が判断回数に達したと判断するとき、すなわ
ち、状態監視プログラム32が初期値“n₁"で定められる
検出周期に従って起動されて、この起動により検出され
るシステムの異常が所定の判断回数分継続したと判断す
るときには、ステップ17に進んで、システムに異常があ
ることを表示する。この表示処理により、オペレータに
対して異常状態の発生を表示できるようになるととも
に、必要なリカバリー処理に入れるようになる。

このようにして、本発明では、ソフトウェア資源の使
用状態の例で説明するならば、第６図に示すように、通
常は（ａ）で示されるような長い検出周期に従ってソフ
トウェア資源の使用状態の異常の発生を検出するよう処
理するとともに、この検出処理に従って使用状態の異常
が検出されると、次に、ないしで示されるような短
い検出周期に従って異常の発生の継続を判断するよう処
理することになるのである。

この実施例では、１段階のより短い検出周期に従って
システムの異常の継続を検出していくものを開示した
が、短くする検出周期に更に段数を設けていくよう構成
することも可能である。このようにすると、更にデータ
処理プログラム２のデータ処理を圧迫することなく精度
よく使用状態の異常の継続を検出できることになる。

以上図示実施例について説明したが、本発明はこれに
限定されるものではない。例えば、システムの異常の継
続を判断するための判断回数は、起動される状態監視プ
ログラム32毎に異なるものであってもよい。

〔発明の効果〕

以上説明したように、本発明によれば、システムの異
常の発生を本来のデータ処理を圧迫せずに精度よく検出
できるようになる。

【図面の簡単な説明】

第１図は本発明の原理構成図、第２図は本発明のシステム構成図、第３図は検出サイクルカウンタの説明図、第４図は監視起動プログラムが実行するフローチャー
ト、第５図は状態監視プログラムが実行するフローチャー
ト、第６図は本発明の処理内容を説明するための説明図、第７図及び第８図は従来技術の問題点を説明するための
説明図である。図中、１はデータ処理システム本体、２はデータ処理プ
ログラム、３は制御プログラム、４は入力側端末、５は
出力側端末、６は入力バッファ、７は出力バッファ、８
は送信待機キュー、10はデータ処理実行部、11は資源使
用状態管理部、12は第１の検出部、14は第２の検出部、
16は異常状態表示部、30は監視起動プログラム、31は検
出サイクルカウンタ、32は状態監視プログラム、33は状
態データ管理部である。

Claims

(57)【特許請求の範囲】

【請求項１】データ処理システムのシステム異常の発生
を周期的に監視することで、システム異常の発生を検出
するシステム異常の検出処理方式において、システム異常の発生の有無を所定の検出周期に従って検
出する第１の検出部（12）と、該第１の検出部（12）がシステム異常の発生を検出する
ときに起動されて、発生したシステム異常の継続を上記
検出周期より短い検出周期に従って検出する第２の検出
部（14）と、該第２の検出部（14）がシステム異常の継続を検出する
ときに、システム異常の発生を表示する異常状態表示部
（16）とを備えることを、特徴とするシステム異常の検出処理方式。
【請求項２】請求項１記載のシステム異常の検出処理方
式において、第２の検出部（14）は、発生したシステム異常の継続を
検出するための検出周期を複数個用意して、その用意す
る複数の検出周期を長いものから順次選択し、その選択
した検出周期に従って発生したシステム異常の継続を検
出していくことを、特徴とするシステム異常の検出処理方式。