JPH10198583A - 空走プロセスの検出と処置方式及び方法 - Google Patents

空走プロセスの検出と処置方式及び方法

Info

Publication number
JPH10198583A
JPH10198583A JP9014538A JP1453897A JPH10198583A JP H10198583 A JPH10198583 A JP H10198583A JP 9014538 A JP9014538 A JP 9014538A JP 1453897 A JP1453897 A JP 1453897A JP H10198583 A JPH10198583 A JP H10198583A
Authority
JP
Japan
Prior art keywords
information
idle running
detection
running
idle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9014538A
Other languages
English (en)
Inventor
Hiroshi Taguchi
広志 田口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP9014538A priority Critical patent/JPH10198583A/ja
Priority to GB9800209A priority patent/GB2323191B/en
Priority to NZ32956498A priority patent/NZ329564A/en
Publication of JPH10198583A publication Critical patent/JPH10198583A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0715Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a system implementing multitasking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1479Generic software techniques for error detection or fault masking
    • G06F11/1482Generic software techniques for error detection or fault masking by means of middleware or OS functionality

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

(57)【要約】 【課題】UNIXベースのマシンにおいて、空走プロセ
スが発生しても、検出及び処置を可能とする方式の提
供。 【解決手段】システムのパフォーマンス情報が格納され
ているデバイスファイルから、稼動中の全てのプロセス
に関してプロセス情報を収集し、それぞれのプロセスの
状態解析を行ない、その解析結果を基に、空走プロセス
の検出処理を行なう。空走プロセスを検出した場合、そ
の後の対処に必要な情報を添付した形で、アラーム送出
/ログファイルへの書き込み処理を行ない、保守者に対
して空走プロセス検出の旨を通知する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、空走プロセスの検
出方式に関し、例えばUNIXベースのマシンにおいて
パフォーマンス情報格納デバイスファイルからプロセス
情報を収集することにより、空走プロセスの検出と処置
を行う方式に関する。
【0002】
【従来の技術】従来のUNIXベースのマシン(オペレ
ーティングシステムとしてUNIXを搭載した計算機)
には、自動的に空走プロセスを検出し、それに対して有
効な処置を行なう機能が具備されていない。このため、
空走プロセスが発生した場合に、システムとしては何の
処置も行なわず、システム運用に支障を来たすレベルの
問題が発生したところで、保守者が手作業により、原因
解析及び必要な処置を行なわざるを得ない。
【0003】そして、空走プロセスが発生した場合、
(1)新しいプロセスの生成ができなくなる、(2)他のプロ
セスに対してCPUの割り当てが行なわれなくなる、等
の問題が発生し、安定したシステムの運用を行なうこと
ができない。
【0004】なお、特開平4−264655号公報に
は、立ち上げ時もしくはログイン時に予め必要な処理を
行う情報処理システムにおいて、親プロセスが存在して
いる時に該親プロセスに終了を認識されず、実行情報の
みを残して消滅待ちの状態であるゾンビプロセスの存在
を判定する判定手段と、ゾンビプロセスの存在が判定さ
れた際にはその旨をユーザに報知する報知手段を備えて
システムが提案されている。
【0005】
【発明が解決しようとする課題】上記したように、従来
のUNIXベースのマシンにおいて、自動的に空走プロ
セスを検出し、処置を行なうことができない、という問
題点を有している。
【0006】その理由は、UNIXベースのマシンに
は、空走プロセスを検出し、処置を行なう機能が存在し
ない、ためである。
【0007】したがって、本発明は、上記問題点に鑑み
てなされたものであり、その目的は、好ましくはUNI
Xベースのマシンにおいて、空走プロセス発生時に自動
的に検出し、処置を行なう方式及び方法、及び、この方
式をコンピュータ上で実行するプログラムを記録する記
録媒体を提供することにある。
【0008】
【課題を解決するための手段】前記目的を達成するた
め、本発明の空走プロセスの検出及び処置方式は、シス
テムのパフォーマンス情報格納デバイスファイルから稼
動中の全てのプロセスについてプロセス情報を収集し、
それぞれのプロセス毎に現在の状態の解析を行ない、プ
ロセスの終了状態に遷移しているが、その状態を保ち続
けたまま正常に終了することができないでいるプロセ
ス、あるいは実行モードに遷移しているが正常に動作し
ていないプロセス(このようなプロセスを「空走プロセ
ス」という)が存在した場合、空走しているものと判断
して、検出を行ない、必要な情報を添えた形で、空走プ
ロセス検出の旨を通知する、ことを特徴とする。
【0009】本発明は、情報処理システムにおいてシス
テムのパフォーマンス情報を格納するファイルから稼動
中の全てのプロセスについてプロセス情報を収集し、そ
れぞれのプロセス毎に現在の状態の解析を行ない、プロ
セスの終了状態に遷移しているが、その状態を保ち続け
たまま正常に終了することができないでいるプロセスあ
るいは実行モードに遷移しているが正常に動作していな
いプロセス(このようなプロセスを「空走プロセス」と
いう)が存在した場合、空走しているものと判断して、
空走プロセスとして検出する検出手段と、前記検出手段
からの空走プロセス検出の通知を受けて、該空走プロセ
スの対処に必要となる所定の情報を付加してアラームを
送出するか、またはログファイルへの書き込み処理を行
ない、保守者に対して空走プロセス検出の旨を通知する
手段と、を備えたことを特徴とする。
【0010】また、本発明は、システムのパフォーマン
ス情報を格納するファイルから稼動中の全てのプロセス
についてプロセス情報を収集し、それぞれのプロセス毎
に現在の状態の解析を行ない、プロセスの終了状態に遷
移しているが、その状態を保ち続けたまま正常に終了す
ることができないでいるプロセスまたは実行モードに遷
移しているが正常に動作していないプロセス(「空走プ
ロセス」という)が存在した場合、空走していると判断
し、空走プロセスとして検出を行ない、必要情報を添え
た形で、空走プロセス検出の旨を通知する、処理を、情
報処理装置上で実行させるためのプログラムを記録した
記録媒体を提供するものである。
【0011】
【発明の実施の形態】本発明の実施の形態について以下
に説明する。本発明は、好ましい実施の形態において、
プロセスの状態を監視し、空走プロセスが発生したとき
に自動的に検出し、保守者に対して通知する。
【0012】より具体的には、空走プロセス検出/処置
機能(図1の1)の検出部(図1の2)において、シス
テムのパフォーマンス情報格納デバイスファイル(図1
の4)から、稼動中の全てのプロセスに関するプロセス
情報を収集し、それぞれのプロセス毎に収集した情報を
基に解析を行ない、一定時間プロセスの終了状態に遷移
したままで正常終了することができないプロセス、また
は一定時間定められた閾値を超えるCPU使用率を示す
プロセスが存在した場合、空走プロセスとして検出し、
処置部(図1の3)に対して、空走プロセス検出の旨を
通知する。
【0013】空走プロセス検出の旨の通知を受け取った
処置部では、空走プロセスに関する情報を添えた形でア
ラーム送出またはログファイルへの書き込み処理を行な
い、保守者に対して空走プロセス検出の旨を通知する。
【0014】本発明は、その好ましい実施の形態におい
て、周期的にプロセスの状態の監視を行ない、空走プロ
セスが発生した場合、自動的に検出及び処置を行なう。
このため、問題発生の初期段階において容易に対処を行
なうことができ、安定したシステム運用を可能とする。
【0015】
【実施例】以下に本発明の一実施例について、図面を参
照として説明する。
【0016】図1は、本発明の空走プロセスの検出及び
処置方式の一実施例のシステム構成を示すブロック図で
ある。
【0017】図1を参照して、本発明の一実施例は、空
走プロセス検出/処置機能1を備え、検出部2におい
て、稼動中の全てのプロセスに関する情報が格納されて
いるパフォーマンス情報格納デバイスファイル(ここで
デバイスファイルはUNIXのdevice special fil
e)4から、それぞれのプロセス毎のプロセス情報を収
集する(図1の)。
【0018】検出部2では、収集したプロセス情報を基
にしてプロセス状態の解析を行ない、解析の結果、空走
プロセスと判断した場合、処置部3に対して空走プロセ
ス検出の旨を通知する(図1の)。
【0019】処置部3では、検出部2からの空走プロセ
ス検出の旨の通知を基に、その後の対処に必要となる情
報を添えた形でアラーム送出またはログファイルへの書
き込み処理を行ない(図1の)、保守者に対して空走
プロセス検出の旨を通知する。
【0020】本発明の一実施例における空走プロセスの
検出及び処置方式の動作について、図2を参照して説明
する。図2は、本発明の一実施例の動作を説明するため
のフローチャートである。
【0021】まず現在稼動中の全てのプロセスに関し
て、プロセスID(process ID、「PID」ともい
う)を取得する(ステップS1)。
【0022】ステップS1にて取得したプロセスID群
の中から、1つを取り出し、そのプロセスIDをキーと
して、パフォーマンス情報格納デバイスファイル4から
該当するプロセスに関するプロセス情報を収集する(ス
テップS2)。
【0023】ステップS2において収集するプロセス情
報としては、例えばプロセス名、親プロセスID、プロ
セスが遷移している状態(process state)、CPU使
用時間等がある。
【0024】収集したプロセス情報を基に、該当するプ
ロセスの状態を解析し(ステップS3)、解析結果か
ら、空走状態か否かを判定する(ステップS4)。
【0025】ステップS4で、空走状態と判定した場
合、その後の対処の際に必要となる情報を添付した形
で、アラームの送出またはログファイルへの書き込み処
理を行なうことにより、保守者に対して通知する(ステ
ップS5)。
【0026】該当するプロセスの状態判定、または空走
プロセス検出の旨の通知を行なった場合、ステップS1
の後の処理に戻り、別のプロセスIDを取得し、そのプ
ロセスIDをキーとして、ステップS2以降の処理を行
なう。
【0027】そして全てのプロセスIDについて、ステ
ップS2以降の処理を行なった時点で、処理を終了す
る。
【0028】なお、図2に示した各ステップからなる処
理を実現するプログラムは、UNIXベースのマシン上
にて好適に実行される。
【0029】
【発明の効果】以上説明したように、本発明によれば、
空走プロセス発生の初期段階において、自動的に検出及
び処置を行なうことを可能とし、これにより安定したシ
ステム運用が可能とし、信頼性、生産性を向上するとい
う効果を奏する。
【0030】その理由は、本発明においては、周期的に
稼動中のプロセスについて、プロセス情報の収集、状態
の解析を行ない、プロセスの状態判定を行なうように構
成されている。
【図面の簡単な説明】
【図1】本発明の一実施例のシステム構成を示すブロッ
ク図である。
【図2】本発明の一実施例の動作を説明するためのフロ
ーチャートである。
【符号の説明】
1 空走プロセス検出/処置機能 2 検出部 3 処置部 4 パフォーマンス情報格納デバイスファイル

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】システムのパフォーマンス情報格納デバイ
    スファイルから稼動中の全てのプロセスについてプロセ
    ス情報を収集し、 それぞれのプロセス毎に現在の状態の解析を行ない、 プロセスの終了状態に遷移しているが、その状態を保ち
    続けたまま正常に終了することができないでいるプロセ
    ス、あるいは実行モードに遷移しているが正常に動作し
    ていないプロセス(このようなプロセスを「空走プロセ
    ス」という)が存在した場合、空走しているものと判断
    して、検出を行ない、必要な情報を添えた形で、空走プ
    ロセス検出の旨を通知する、ことを特徴とする、空走プ
    ロセスの検出と処置方法。
  2. 【請求項2】情報処理システムにおいてシステムのパフ
    ォーマンス情報を格納するファイルから稼動中の全ての
    プロセスについてプロセス情報を収集し、それぞれのプ
    ロセス毎に現在の状態の解析を行ない、プロセスの終了
    状態に遷移しているが、その状態を保ち続けたまま正常
    に終了することができないでいるプロセス、あるいは実
    行モードに遷移しているが正常に動作していないプロセ
    ス(このようなプロセスを「空走プロセス」という)が
    存在した場合、空走しているものと判断し、空走プロセ
    スとして検出する検出手段と、 前記検出手段からの空走プロセス検出の通知を受けて、
    該空走プロセスの対処に必要となる所定の情報を付加し
    てアラームを送出するか、あるいはログファイルへの書
    き込み処理を行ない、保守者に対して空走プロセス検出
    の旨を通知する手段と、 を備えたことを特徴とする空走プロセスの検出と処置方
    式。
  3. 【請求項3】システムのパフォーマンス情報を格納する
    ファイルから稼動中の全てのプロセスについてプロセス
    情報を収集し、それぞれのプロセス毎に現在の状態の解
    析を行ない、 プロセスの終了状態に遷移しているが、その状態を保ち
    続けたまま正常に終了することができないでいるプロセ
    スまたは実行モードに遷移しているが正常に動作してい
    ないプロセス(「空走プロセス」という)が存在した場
    合、空走していると判断して、空走プロセスとして検出
    を行ない、必要情報を添えた形で、空走プロセス検出の
    旨を通知する、という処理を、情報処理装置上で実行さ
    せるためのプログラムを記録した記録媒体。
JP9014538A 1997-01-10 1997-01-10 空走プロセスの検出と処置方式及び方法 Pending JPH10198583A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP9014538A JPH10198583A (ja) 1997-01-10 1997-01-10 空走プロセスの検出と処置方式及び方法
GB9800209A GB2323191B (en) 1997-01-10 1998-01-06 System and method of detecting and handling zombie process
NZ32956498A NZ329564A (en) 1997-01-10 1998-01-09 Zombie process detecting and notification

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9014538A JPH10198583A (ja) 1997-01-10 1997-01-10 空走プロセスの検出と処置方式及び方法

Publications (1)

Publication Number Publication Date
JPH10198583A true JPH10198583A (ja) 1998-07-31

Family

ID=11863939

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9014538A Pending JPH10198583A (ja) 1997-01-10 1997-01-10 空走プロセスの検出と処置方式及び方法

Country Status (3)

Country Link
JP (1) JPH10198583A (ja)
GB (1) GB2323191B (ja)
NZ (1) NZ329564A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006277115A (ja) * 2005-03-28 2006-10-12 Fujitsu Ten Ltd 異常検出プログラムおよび異常検出方法
JP2011141786A (ja) * 2010-01-08 2011-07-21 Oki Networks Co Ltd Cpu監視装置およびcpu監視プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6382528A (ja) * 1986-09-26 1988-04-13 Nec Corp タスク障害時情報出力方式
JPH03171336A (ja) * 1989-11-30 1991-07-24 Fujitsu Ltd タスク異常検出方式
JPH04280329A (ja) * 1991-03-08 1992-10-06 Fujitsu Ltd プログラム異常検出方式

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3996567A (en) * 1972-05-23 1976-12-07 Telefonaktiebolaget L M Ericsson Apparatus for indicating abnormal program execution in a process controlling computer operating in real time on different priority levels
SE364579B (ja) * 1972-05-23 1974-02-25 Ericsson Telefon Ab L M
JPS594054B2 (ja) * 1979-04-17 1984-01-27 株式会社日立製作所 マルチプロセツサ障害検出方式
DE3481872D1 (de) * 1984-12-31 1990-05-10 Ibm Geraet zur erkennung von ausserbetriebzustaenden bei einem nichtbedienten unterbrechungsgesteuerten prozessor.
JP2520544B2 (ja) * 1991-09-26 1996-07-31 インターナショナル・ビジネス・マシーンズ・コーポレイション タスクのオ―バ―ラン状態を監視する方法及びタスク実行サイクルのオ―バ―ランを検出する装置
DE69409445D1 (de) * 1993-07-27 1998-05-14 Ibm Prozessüberwachung in einem Mehrfachverarbeitungsanbieter

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6382528A (ja) * 1986-09-26 1988-04-13 Nec Corp タスク障害時情報出力方式
JPH03171336A (ja) * 1989-11-30 1991-07-24 Fujitsu Ltd タスク異常検出方式
JPH04280329A (ja) * 1991-03-08 1992-10-06 Fujitsu Ltd プログラム異常検出方式

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006277115A (ja) * 2005-03-28 2006-10-12 Fujitsu Ten Ltd 異常検出プログラムおよび異常検出方法
JP2011141786A (ja) * 2010-01-08 2011-07-21 Oki Networks Co Ltd Cpu監視装置およびcpu監視プログラム

Also Published As

Publication number Publication date
NZ329564A (en) 1998-06-26
GB2323191B (en) 2001-12-19
GB2323191A (en) 1998-09-16
GB9800209D0 (en) 1998-03-04

Similar Documents

Publication Publication Date Title
JP4114879B2 (ja) トレース情報収集システム、トレース情報収集方法、及びトレース情報収集プログラム
JP3351318B2 (ja) 計算機システムの監視方法
JP4199322B2 (ja) 情報処理装置及び情報処理装置のエラー採取方法
CA2509579A1 (en) Systems and methods for detecting a security breach in a computer system
JP4383413B2 (ja) 不正操作判定システム、不正操作判定方法及び不正操作判定プログラム
JPH10198583A (ja) 空走プロセスの検出と処置方式及び方法
US20060005004A1 (en) Bios-level incident response system and method
WO2005067403A2 (en) Integrated alarm manager shared by multiple monitoring processes on an operation and maintenance processor
JP2004086278A (ja) 装置障害監視方法および装置障害監視システム
JP2001331330A (ja) プロセス異常検知及び復旧システム
CN112910732A (zh) 一种边缘计算服务器复位的方法和设备
JP3607574B2 (ja) トランザクション処理性能低下監視装置およびトランザクション処理性能低下監視方式
CN114880080B (zh) 一种虚拟机高可用方法及计算集群
JPH11259160A (ja) コンピュータの起動方法、コンピュータ、起動処理プログラムを記録した記録媒体
JP3161444B2 (ja) 障害ロギングシステム、方法およびプログラムを記憶した記憶媒体
JP3324649B2 (ja) 負荷監視・連動処理自動起動方式
JPH11134284A (ja) 情報処理装置
JP2002063051A (ja) ソフトウェア動作監視システムおよびその記録媒体およびソフトウェア動作監視方法
JPH11161518A (ja) 管理プロセッサによる情報処理システム立ち上げ時のス トール監視装置と方法および記録媒体
JP2008204134A (ja) 異常兆候検出対処システム
JP2842213B2 (ja) 情報処理装置の監視システム
JP2006268277A (ja) アプリケーションプログラムの復旧方式
CN110795263A (zh) 一种硬盘链路保护方法以及相关装置
JP2005078123A (ja) 故障検出装置および故障検出方法ならびにそのプログラム
JPS6260019A (ja) 情報処理装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20000718