JPH0520106A - システム機能停止防止方式 - Google Patents

システム機能停止防止方式

Info

Publication number
JPH0520106A
JPH0520106A JP3175695A JP17569591A JPH0520106A JP H0520106 A JPH0520106 A JP H0520106A JP 3175695 A JP3175695 A JP 3175695A JP 17569591 A JP17569591 A JP 17569591A JP H0520106 A JPH0520106 A JP H0520106A
Authority
JP
Japan
Prior art keywords
task
internal memory
resident
recovery method
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3175695A
Other languages
English (en)
Inventor
Toyoo Nomura
豊夫 野村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP3175695A priority Critical patent/JPH0520106A/ja
Publication of JPH0520106A publication Critical patent/JPH0520106A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Retry When Errors Occur (AREA)

Abstract

(57)【要約】 【目的】 オンラインリアルタイムシステムおいて使用
するシステム機能停止防止方式に関し、システム稼働率
の向上を図ることを目的とする。 【構成】 システム起動後、内部メモリ3に複数のタス
ク31を常駐させ、CPU11 が対応するタスクを用いて
入力データのオンラインリアルタイム処理を行うオンラ
インリアルタイムシステムにおいて、タスクが消滅した
ことにより機能停止したシステムのリカバリ方法を、該
内部メモリに常駐するタスク毎に指定したテーブル33
と、消滅監視タスク32とを設け、該CPUは、該テーブ
ルを参照しながら、該消滅監視タスクを用いて、該内部
メモリに常駐しているタスクが消滅したか否かを、所定
時間間隔で監視するが、タスクの消滅を検出した時、該
テーブル内の、対応するタスクにおいて指定されたリカ
バリ方法に従って、自動的にリカバリを行うように構成
する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、オンラインリアルタイ
ムシステムおいて使用するシステム機能停止防止方式に
関するものである。
【0002】例えば、パケット交換システムでは、シス
テム起動後、内部メモリに複数のタスクを常駐させてオ
ンラインリアルタイム処理を行っている。この時、オペ
ーレーテイングシステムOSは処理の異常を検出すると、
対応するタスクを消滅するので、このシステムの機能が
停止し、システム稼働率が低下する。
【0003】そこで、システム稼働率の向上を図ること
が必要である。
【0004】
【従来の技術】図5は従来のオンラインリアルタイムシ
ステム構成図の一例である。図において、外部メモリ13
にオペーレーテイングシステム( 以下, OSと省略する)
やアプリケーションプログラム(タスク221 〜タスク22
n で構成されているとする) などが格納されている。
【0005】そして、システムが起動されると、初期プ
ログラムロード(IPL) により、内部メモリ2の中の対応
する領域に、OSやアプリケーションログラムがロードさ
れる。 また、バッファ領域23には回線, インタフェー
ス14を介して、例えば、入力データが格納されていると
する。
【0006】さて、内部メモリ2に OS やタスク221 〜
タスク22n や入力データが格納されたので、CPU 11は O
S の制御の下に、これらのタスクに従って、入力データ
のオンラインリアルタイム処理を行う。
【0007】ここで、上記の様に複数のタスクより構成
されるオンラインリアルタイムシステムでは、タスク処
理の異常を主に次の2つの方法により実施している。 タスク自身による異常の監視 OSによるタスク異常の監視 の方法はアプリケーションプログラムであるタスク自
身で、自分の異常を監視する方法であり、タスク内部に
おける論理処理の矛盾の検出に代表される様なタスクの
異常監視である。
【0008】例えば、タスク221 がA 部分とB 部分から
構成されていて、A 部分がB 部分に対して、データを指
定して、所定の処理を依頼したとする。B 部分は指定さ
れたデータを用いて所定の処理を実行し、処理が終了す
ると処理結果をA 部分に渡す。
【0009】A 部分は処理結果が、予期した処理結果で
ない時、B 部分の処理異常としてアラームを送出し、例
えば自分自身でタスク221 を消滅する。この様に、異常
が発生したことがタスク自身で判別できる為、リカバリ
方法として、自分自身を異常終了( ABEND:タスク消滅)
させたり、内部メモリに格納してある OS やアプリケー
ションプログラムなどを全てを消滅させた後、再度、IP
L を行ったりする。
【0010】の方法は OS によるタスクの異常監視で
あり、タスクが暴走して、本来アクセス権のないエリア
を参照しようとしたり、メモリ保護違反をして、書込み
禁止領域へデータを転送する等のことを監視する機能で
ある。
【0011】この場合、タスク自身では自分が違反して
いるのは判らない為、OS が第三者的にタスクの動作を
監視し、違反タスクが発生した場合、多くは当該タスク
を、例えば、メモリから消滅して、強制終了させる( こ
の時、システムIPL を行う場合がある) 。
【0012】タスクを強制終了させた場合、OSの機能と
して基本的には異常タスクの再起動はしない(この為、
システムは機能停止の状態になる)。この理由は、OSは
汎用品である為、当該タスクがシステムとしてどの程
度, 重要な処理を行っているかなどは分からず、異常を
起こしたタスクはフェイルセーフ( フェイルソフト) の
考えにより異常部分の切離しを行う。
【0013】
【発明が解決しようとする課題】しかし、上記の様な処
理をした時、下記の様な問題が発生する。項の場合、
タスク自身を異常終了させることは可能であるが、タス
ク自身が消滅する為に再起動ができない。
【0014】一方、オンラインリアルタイムの様なシス
テムでは、例えば、第1のタスクで処理したものを、第
2のタスクで処理し、第2のタスクで処理したものを第
3のタスクで処理して行くことが多いので、オンライン
処理を司るタスクが停止した場合、複数のタスクのう
ち,1つのタスクが異常終了したと云った程度の影響に
止まらず、システムの機能停止に等しい影響が発生す
る。
【0015】なお、停止した機能をほぼ完全にリカバリ
させる為には、システムの再起動(IPL)が必要となる。
項の場合、 OS が保護違反のタスクを、例えば、メモ
リから消滅して強制終了させるが、既に運用に供してい
るようなシステムでは、前述の保護違反の様な単純な異
常は殆ど発生せず、発生したとしても殆んどの場合、再
起動により正常処理が実行できる状態になる。
【0016】結局、オンラインリアルタイムシステムの
場合、重大なシステムの機能停止を引き起こし、システ
ム運用上甚大な影響を与えるので、例えばIPL によるリ
カバリを行うが、機能停止期間が長くなる程、システム
稼働率が低下すると云う問題がある。
【0017】本発明はシステム稼働率の向上を図ること
を目的とする。
【0018】
【課題を解決するための手段】図1は本発明の原理構成
図である。図中、32は消滅監視タスク、 33 はタスクが
消滅したことにより機能停止したシステムのリカバリ方
法を、該内部メモリに常駐するタスク毎に指定したテー
ブルである。
【0019】そして、該CPUは、該テーブルを参照し
ながら該消滅監視タスクを用いて、該内部メモリに常駐
しているタスクが消滅したか否かを、所定時間間隔で監
視するが、タスクの消滅を検出した時、該テーブル内
の、対応するタスクにおいて指定されたリカバリ方法に
従って、自動的にシステムのリカバリを行う。
【0020】また、指定されたリカバリ方法は、消滅し
たタスクの再起動及びシステムの再起動のうちの、いず
れか一方である。
【0021】
【作用】本発明は、消滅監視タスクと、タスクが消滅し
た場合、タスクを再起動するか、システムを再起動する
かを、タスク毎に予め指定したリストを格納したテーブ
ルとを設ける。
【0022】ここで、内部メモリに常駐するタスクは初
期のシステム設計の段階で決まる。また、消滅したタス
クの機能や、再起動することでシステム的にリカバリ可
能なタスクであるかにより( 消滅している間に、内部情
報で矛盾を生じ、単純に再起動するだけではシステム的
にリカバリできないタスクもある) 、再起動はタスクか
システムかを指定する様になっている。
【0023】さて、消滅監視タスクは、テーブルを参照
しながら、システム内のタスクの動作状況(内部メモリ
に常駐しているか、消滅しているか)を所定時間間隔で
監視している。
【0024】そして、タスクの消滅を検出した時、該テ
ーブル内の、対応するタスクにおいて指定されたリカバ
リ方法に従って、自動的にリカバリを行う様にした。な
お、消滅したタスクをリカバリする前に、 タスク消滅が発生したことを示すアラームの送出 消滅したタスクの動作状態( タスクがどこ迄, 処理
したかが判る) や、バッファ資源等の利用状況の収集
(消滅したタスクが、どの程度, 処理をし、またはどの
様な処理をしようとしていたのかが判る) を行うことにより、消滅の原因を調査することが可能と
なる。
【0025】即ち、タスクの消滅によるシステムの機能
停止を防止することが可能であり、またリカバリ方法の
指定により、自動IPL を行わずにリカバリが可能とな
り、システム稼働率の向上が図れる。
【0026】また、上記の指定したリカバリ方法は、消
滅したタスクの再起動及びシステムの再起動のうちの、
いずれか一方である。
【0027】
【実施例】図2は本発明のオンラインリアルタイムシス
テム構成図の一例、図3は図2中のテーブルの内容の一
例を示す図、図4は図2中の消滅監視タスクの動作説明
図である。
【0028】なお、全図を通じて同一符号は同一対象物
を示す。以下、図3,図4を参照して図2の動作を説明
する。先ず、内部メモリ3には、外部メモリからロード
されたOS, タスク311,消滅監視タスク32, テーブル33,
バッファ34が格納されている。
【0029】そして、図3に示す様に、テーブルには、
タスクの識別番号(ID)、タスクの名称とリカバリ方法の
指定が、内部メモリに常駐すべきタスク毎に示されたリ
ストが格納されている。
【0030】なお、タスクIDとは OS が各タスクに対し
て割り当てる識別番号であり、タスク名称はタスクに付
けられた名前であり、リカバリ指定は各タスク毎に指定
可能な項目であり、タスク消滅時のリカバリ方法を規定
している。
【0031】また、テーブルの内容はシステム毎に異な
り、リカバリ指定の欄の中の“1”はタスク再起動、
“2”はシステム再起動を示す。さて、CPU 11は、消滅
監視タスク32に従って、テーブル33を参照し、例えば、
タスク100 を選択し、このタスクの動作状態をチェック
する。チェックの結果、タスク 100が消滅していなけれ
ば、テーブルを参照して、タスク201(図示せず)を選択
し、上記と同じチェックをする( 図4の〜参照)。
【0032】しかし、タスク100 が消滅していることを
検出すると、CPU はタスク消滅のアラームを送出すると
共に、タスク100 の動作状態や、バッファ資源等の使用
状態のデータを収集する( 図4の,参照)。
【0033】その後、CPU はテーブルにアクセスして、
タスク100に対するリカバリ方法が、タスク再起動と指
定しているので、外部メモリに格納されているタスク10
0 を内部メモリにロードしてタスク100 を再起動し、シ
ステムをリカバリする( 図4の, 参照)。
【0034】この様に、内部メモリに常駐している他の
タスクに対して、上記のチェックを繰り返すが、タスク
1001が消滅していることを検出した時には、テーブルで
システム再起動と指定してあるので、CPU は、再度、外
部メモリから自動IPL を行ってシステムをリカバリする
( 図4の参照)。
【0035】なお、タスク1001までチェックすればテー
ブルの全てをサーチしたので、チェック動作終了とする
が、所定時間後に、再び、上記の処理を繰り返す。即
ち、消滅監視タスクとテーブルを用いて、所定時間間隔
でタスクの状態を監視することにより、タスク消滅によ
るシステム機能停止を防止することが可能である。ま
た、指定により自動IPL を行わずにシステムのリカバリ
が可能となり、システム機能停止の時間が低下し、シス
テム稼働率の向上が図れる。
【0036】
【発明の効果】以上詳細に説明した様本発明によれば、
システム稼働率の向上を図ることができると云う効果が
ある。
【図面の簡単な説明】
【図1】本発明の原理構成図、
【図2】本発明のオンラインリアルタイム構成図の一例
【図3】図2中のテーブルの内容の一例を示す図
【図4】図2中の消滅監視タスクの動作説明図
【図5】従来のオンラインリアルタイムシステムの構成
図の一例
【符号の説明】
3 内部メモリ 11 CPU 31 複数のタスク 32 消滅監視タスク 33 テーブル

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 システム起動後、内部メモリ(3) に複数
    のタスク(31)を常駐させ、CPU(11)が対応するタスク
    を用いて入力データのオンラインリアルタイム処理を行
    うが、タスクに異常が発生した時は対応するタスクを消
    滅して機能を停止するオンラインリアルタイムシステム
    において、 タスクが消滅したことにより機能停止したシステムのリ
    カバリ方法を、該内部メモリに常駐するタスク毎に指定
    したテーブル(33)と、消滅監視タスク(32)とを設け、 該CPUは、該テーブルを参照しながら該消滅監視タス
    クを用いて、該内部メモリに常駐しているタスクが消滅
    したか否かを、所定時間間隔で監視するが、 タスクの消滅を検出した時、該テーブル内の、対応する
    タスクにおいて指定されたリカバリ方法に従って、自動
    的にシステムのリカバリを行う様にしたことを特徴とす
    るシステム機能停止防止方式。
  2. 【請求項2】 該指定されたリカバリ方法が、消滅した
    タスクの再起動及びシステムの再起動のうちの、いずれ
    か一方である請求項1のシステム機能停止方式。
JP3175695A 1991-07-17 1991-07-17 システム機能停止防止方式 Pending JPH0520106A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3175695A JPH0520106A (ja) 1991-07-17 1991-07-17 システム機能停止防止方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3175695A JPH0520106A (ja) 1991-07-17 1991-07-17 システム機能停止防止方式

Publications (1)

Publication Number Publication Date
JPH0520106A true JPH0520106A (ja) 1993-01-29

Family

ID=16000634

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3175695A Pending JPH0520106A (ja) 1991-07-17 1991-07-17 システム機能停止防止方式

Country Status (1)

Country Link
JP (1) JPH0520106A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016206735A (ja) * 2015-04-16 2016-12-08 株式会社日立製作所 制御サーバおよび障害検知方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016206735A (ja) * 2015-04-16 2016-12-08 株式会社日立製作所 制御サーバおよび障害検知方法

Similar Documents

Publication Publication Date Title
US7243267B2 (en) Automatic failure detection and recovery of applications
CN100498725C (zh) 用于最小化计算机应用程序中的丢失的方法和系统
US6502206B1 (en) Multi-processor switch and main processor switching method
CN109656742B (zh) 一种节点异常处理方法、装置及存储介质
US9542557B2 (en) Snoop-based kernel integrity monitoring apparatus and method thereof
CN110659159A (zh) 一种服务进程运行监控方法、装置、设备及存储介质
CN115543740A (zh) 业务运行异常监控方法、系统、设备及存储介质
US6338151B1 (en) Input/output recovery which is based an error rate and a current state of the computer environment
JPH10214208A (ja) ソフトウェアの異常監視方式
EP0125797B1 (en) Interrupt signal handling apparatus
JP2008003691A (ja) 計算機のプロセス回復方法、チェックポイントリスタートシステム
JPH02294739A (ja) 障害検出方式
US6336193B1 (en) Input/output recovery method which is based upon an error rate and a current state of the computer environment
JP2965075B2 (ja) プログラム実行状態監視方法
JPH0520106A (ja) システム機能停止防止方式
US6338145B1 (en) Input/output recovery system which is based upon an error rate and a current state of the computer environment
JPH0736721A (ja) 多重化コンピュータシステムの制御方式
JPH0922369A (ja) マルチタスキング方式のカーネルにおける不正動作検出方法
JP2004213122A (ja) クライアント/サーバによる制御システムの安定稼働方法及びそのプログラム
JPH10269110A (ja) 計算機システムのハングアップ回避方法並びにこの方法を用いた計算機システム。
CN108415788B (zh) 用于对无响应处理电路作出响应的数据处理设备和方法
US20240054212A1 (en) Method, system and apparatus for security monitoring of vehicle-mounted system
JP4611659B2 (ja) 不正アクセス検出装置、不正アクセス検出方法、プログラム
KR100206472B1 (ko) 전전자교환기에서 시스템 장애관리 및 복구방법
JPH0619744A (ja) マルチプロセッサシステムの動作監視方式

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20000718