JP2002149437A - Method for restarting software - Google Patents

Method for restarting software

Info

Publication number
JP2002149437A
JP2002149437A JP2000352557A JP2000352557A JP2002149437A JP 2002149437 A JP2002149437 A JP 2002149437A JP 2000352557 A JP2000352557 A JP 2000352557A JP 2000352557 A JP2000352557 A JP 2000352557A JP 2002149437 A JP2002149437 A JP 2002149437A
Authority
JP
Japan
Prior art keywords
software
monitored
monitoring
restart
monitored software
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000352557A
Other languages
Japanese (ja)
Inventor
Norimitsu Okada
紀光 岡田
Hiroshi Ito
伊藤  博
Toshikazu Umetsu
利和 梅都
Yasuoi Mizuno
養老 水野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2000352557A priority Critical patent/JP2002149437A/en
Publication of JP2002149437A publication Critical patent/JP2002149437A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To solve such problems that it is not clear whether the generation of a failure of software loaded on a computer is due to the generation of an abnormality of the software itself or the generation of an abnormality of an OS or hardware, and that it is impossible to recover the failure even at the time of restarting the software in the latter case. SOLUTION: Monitor software monitors the state of software to be monitored after the OS starts or while the OS is operating, and when any failure is generated in the software to be monitored, the restart of the software to be monitored and the OS or the reset of hardware is respectively started the designated number of times so that the software can be restored.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は汎用的なコンピュー
タ装置のソフトウェア稼動監視方法及び障害回復方法に
関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a software operation monitoring method and a failure recovery method for a general-purpose computer device.

【0002】[0002]

【従来の技術】特開平10−214208号公報に記載
の「ソフトウェアの異常監視方式」等に代表される従来
の技術では、コンピュータシステムにおけるアプリケー
ション障害の回復手段として、監視ソフトウェアを用い
て外部から動作中のアプリケーションの状態を監視し、
異常時に該アプリケーションを再起動する方法がある。
これら従来の技術によってアプリケーションを再起動す
る場合、動作中のアプリケーションそのものの状態が異
常となっている場合は対処することができるが、他のソ
フトウェアあるいはメモリ,CPU状態や入出力装置な
どのハードウェアが異常となりOSやシステムが異常と
なっていることが原因で該アプリケーションが異常とな
っている場合は異常となったアプリケーションのみを再
起動しても正常状態に回復することができない。
2. Description of the Related Art In a conventional technique typified by a "software abnormality monitoring method" described in Japanese Patent Application Laid-Open No. H10-214208, an external operation using monitoring software is used as a means for recovering an application failure in a computer system. Monitor the status of the application inside,
There is a method of restarting the application when an abnormality occurs.
When the application is restarted by these conventional techniques, it is possible to cope with the abnormal state of the running application itself. However, other software or hardware such as a memory, a CPU state, and an input / output device can be used. Is abnormal and the application is abnormal because the OS or the system is abnormal, it is not possible to recover the normal state even if only the abnormal application is restarted.

【0003】[0003]

【発明が解決しようとする課題】本発明では、コンピュ
ータシステムにおいて、あるソフトウェアの動作状態
が、OSや他のソフトウェアあるいはハードウェアの障
害が原因となって異常となっている場合の該ソフトウェ
アの再起動方法を提供することによりコンピュータシス
テムの障害を回復することを目指す。
SUMMARY OF THE INVENTION According to the present invention, in a computer system, when the operating state of a certain software is abnormal due to a failure of the OS, other software or hardware, the software is re-installed. Aims at recovering from computer system failure by providing a boot method.

【0004】[0004]

【課題を解決するための手段】本発明では、ソフトウェ
アが動作中であるかを監視するソフトウェアを用いてソ
フトウェア動作状態の監視を行う。監視ソフトウェアに
は、監視されるソフトウェア(以下、被監視ソフトウェ
ア)が起動後動作していない場合あるいは異常な状態に
なった場合に、あらかじめ指定された回数だけ被監視ソ
フトウェアの再起動を行い、再起動を行っても被監視ソ
フトウェアが起動されない場合には、OSの再起動また
は端末装置のリブートを実行することにより、被監視ソ
フトウェアだけでなく他のソフトウェアやメモリ,入出
力装置などのハードウェアリセットあるいは再起動など
を行い、被監視ソフトウェアのみならずシステム全体を
初期正常状態に戻すことにより本課題を解決する。
According to the present invention, the operation state of software is monitored using software for monitoring whether the software is operating. If the monitored software (hereinafter referred to as “monitored software”) does not operate after startup or enters an abnormal state, the monitored software is restarted a specified number of times and restarted. If the monitored software is not started even after the activation, the OS is restarted or the terminal device is rebooted, so that not only the monitored software but also other software, a hardware reset of a memory, an input / output device, and the like are performed. Alternatively, this problem is solved by performing a restart or the like to return not only the monitored software but also the entire system to an initial normal state.

【0005】[0005]

【発明の実施の形態】以下、図面を参照しながら本発明
の実施形態の一例を説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the present invention will be described below with reference to the drawings.

【0006】図1は本発明におけるソフトウェア構造
図、図2は監視ソフトウェア情報テーブル、図3は被監
視ソフトウェアの状態監視機能のフローチャート、図4
は本発明の具体的な実施例を説明するOS起動時の被監
視ソフトウェアによるソフトウェア監視と該ソフトウェ
ア再起動及びOS再起動処理のフローチャート、図5は
図4中のOS再起動判定処理のフローチャート、図6は
図4中の被監視ソフトウェア動作中状態監視処理のフロ
ーチャートである。
FIG. 1 is a software structure diagram of the present invention, FIG. 2 is a monitoring software information table, FIG. 3 is a flowchart of a status monitoring function of monitored software, and FIG.
FIG. 5 is a flow chart of software monitoring by the monitored software at the time of OS startup and a process of restarting the software and restarting the OS, and FIG. 5 is a flowchart of OS restart determination processing in FIG. FIG. 6 is a flow chart of the monitored software operating state monitoring process in FIG.

【0007】まず、本発明における監視ソフトウェアを
構成する各要素等の説明をする。
First, each element constituting the monitoring software according to the present invention will be described.

【0008】図1は、本発明の実施形態のソフトウェア
構造図である。図1において、監視ソフトウェア110
はソフトウェア情報テーブル111と状態監視機能11
5から構成される。共有メモリ120には被監視ソフト
ウェア名称エリア121と状態情報122が対になって
おり、監視ソフトウェア110の個数分存在する。被監
視ソフトウェア130は起動時に、共有メモリ120に
存在する被監視ソフトウェア名称エリア121に自らの
ソフトウェア名称をセットする。ここでセットする名称
はシステムで一意の名称である。状態情報122は被監
視ソフトウェア130がその状態をセットするエリアで
ある。状態監視機能115は、被監視ソフトウェア名称
エリア121と状態情報122によって被監視ソフトウ
ェア130を監視する機能である。その監視方法につい
ては後述する。
FIG. 1 is a software structure diagram of an embodiment of the present invention. In FIG. 1, monitoring software 110
Indicates the software information table 111 and the status monitoring function 11
5 is comprised. In the shared memory 120, the monitored software name area 121 and the status information 122 are paired, and there are as many as the number of the monitored software 110. The monitored software 130 sets its own software name in the monitored software name area 121 existing in the shared memory 120 at the time of startup. The name set here is a unique name in the system. The status information 122 is an area where the monitored software 130 sets the status. The status monitoring function 115 is a function of monitoring the monitored software 130 based on the monitored software name area 121 and the status information 122. The monitoring method will be described later.

【0009】図2は本発明の実施形態の一例におけるソ
フトウェア情報テーブル111の詳細を示す。各テーブ
ルの情報はディスク装置などの不揮発媒体に保存する。
各テーブルの情報はいずれも被監視ソフトウェア130
の個数分存在する。
FIG. 2 shows details of the software information table 111 according to an embodiment of the present invention. Information of each table is stored in a non-volatile medium such as a disk device.
All information in each table is monitored software 130
There are as many as.

【0010】ソフトウェア情報テーブル111は被監視
ソフトウェア名称200をキーに実行プログラムパス2
01や各タイマや再起動回数の設定値およびカウンタ更
新およびカウンタなどの更新を行うテーブルである。被
監視ソフトウェア名称200には被監視ソフトウェア1
30の名称を設定する。この名称は共有メモリ122と
同じ値を設定する。実行プログラムパス201には被監
視ソフトウェア名称200に対応する実行プログラムの
ハードディスク装置などにおける格納位置を示す情報で
ある実行プログラムパス201を設定する。本情報は再
起動時に毎回設定を行う。起動待ち監視タイマ202に
は監視ソフトウェア110起動後、被監視ソフトウェア
130の状態監視を開始するまでの待ち時間をセットす
る。この時間は被監視ソフトウェア起動失敗時、被監視
ソフトウェア130を再起動した後、被監視ソフトウェ
ア130の状態監視を開始するまでの待ち時間としても
使用する。動作中監視タイマ203には動作中の被監視
ソフトウェアが何らかの障害で動作しなくなり、継続し
てその状態が続いた場合、該ソフトウェアが無応答状態
となりタイムアウトと判定するまでの時間を設定する。
再起動監視タイマ204には被監視ソフトウェア130
再起動後に再び状態監視を行うまでの待ち時間を設定す
る。起動失敗時再起動回数205には被監視ソフトウェ
ア130の障害時、被監視ソフトウェア130の再起動
を行う回数を設定する。動作中障害時再起動回数206
には動作中の被監視ソフトウェア130が何らかの障害
により動作しなくなった時、被監視ソフトウェア130
の再起動を行う回数を設定する。起動失敗時OS再起動
回数207には被監視ソフトウェア130が起動に失敗
し、設定回数再起動しても被監視ソフトウェア130が
動作しない場合OSの再起動を何回行うかを設定する。
動作中障害時OS再起動回数208には動作中の被監視
ソフトウェア130が何らかの障害により動作しなくな
り、設定回数再起動しても被監視ソフトウェア130が
動作しない場合OSの再起動を何回行うかを設定する。
The software information table 111 stores the execution program path 2 using the monitored software name 200 as a key.
It is a table for updating a set value of 01, each timer, the number of restarts, a counter update, and a counter. The monitored software name 200 contains the monitored software 1
30 names are set. This name sets the same value as that of the shared memory 122. In the execution program path 201, an execution program path 201 which is information indicating a storage location of the execution program corresponding to the monitored software name 200 in a hard disk device or the like is set. This information is set every time when restarting. A wait time from when the monitoring software 110 is started to when the state monitoring of the monitored software 130 is started is set in the start waiting monitoring timer 202. This time is also used as a wait time until restart of the monitored software 130 after the monitored software 130 has failed to start monitoring the status of the monitored software 130. In the operating monitoring timer 203, when the monitored software that is operating stops operating due to some failure and continues to be in that state, the time until the software becomes a non-response state and is determined to be timed out is set.
The restart monitoring timer 204 includes the monitored software 130
Set the waiting time before restarting status monitoring after restarting. The number of restarts 205 of the monitored software 130 when the failure of the monitored software 130 occurs is set in the restart failure count 205 at the time of starting failure. Number of restarts during operation failure 206
When the monitored software 130 stops operating due to some failure, the monitored software 130
Set the number of times to restart. The number of restarts of OS at the time of startup failure 207 sets how many times the OS is restarted if the monitored software 130 fails to start even if the monitored software 130 does not operate even after restarting the set number of times.
If the monitored software 130 that is operating does not operate due to some kind of failure and the monitored software 130 does not operate even after restarting the set number of times, the number of times to restart the OS Set.

【0011】なお、被監視ソフトウェア130の再起動
を必要としない被監視ソフトウェア130については起
動失敗時再起動回数205及び動作中障害時再起動回数
206に0(ゼロ)を設定すればよい。また、OSの再
起動を必要としない被監視ソフトウェア130について
は起動失敗時OS再起動回数207及び動作中障害時O
S再起動回数208に0を設定すればよい。
For the monitored software 130 that does not require the monitored software 130 to be restarted, 0 (zero) may be set in the restart failure count 205 when the startup fails and the restart count 206 when the failure occurs during operation. For the monitored software 130 that does not require an OS restart, the OS restart count 207 when startup fails and the OS
The number of S restarts 208 may be set to 0.

【0012】起動待ち監視タイマカウンタ212は起動
待ち監視タイマ202から取得したタイマ値を、動作中
監視タイマカウンタ213には動作中監視タイマ203
から取得したタイマ値を、再起動監視タイマカウンタ2
14には再起動監視タイマ204から取得したタイマ値
を維持、更新するためのワークエリアである。また、起
動失敗時再起動回数カウンタ215は起動失敗時再起動
回数205から取得した再起動回数を、動作中障害時再
起動回数カウンタ216は動作中障害時再起動回数20
6から取得した再起動回数を維持、更新するためのワー
クエリアである。さらに、起動失敗時OS再起動回数カ
ウンタ217は起動失敗時OS再起動回数207から取
得したOS再起動回数を、動作中障害時OS再起動回数
カウンタ218には動作中障害時OS再起動回数208
から取得したOS再起動回数を維持、更新するためのワ
ークエリアである。
The start wait monitoring timer counter 212 stores the timer value obtained from the start wait monitoring timer 202 and the active monitoring timer counter 213 stores the active monitoring timer 203
The timer value obtained from the restart monitoring timer counter 2
Reference numeral 14 denotes a work area for maintaining and updating the timer value acquired from the restart monitoring timer 204. The restart failure count counter 215 at the time of start failure indicates the number of restarts acquired from the restart count 205 at the time of start failure.
6 is a work area for maintaining and updating the number of restarts acquired from No. 6. Further, the OS restart number counter 217 at the time of boot failure indicates the number of OS restarts obtained from the OS restart number 207 at the time of boot failure, and the OS restart number counter 218 at the time of operating failure indicates the OS restart number 208 at the time of operating failure.
This is a work area for maintaining and updating the number of OS restarts acquired from the OS.

【0013】起動待ちOS再起動フラグ221は今回の
OS起動がOS起動時、被監視ソフトウェア130によ
ってOS再起動した場合か否かのフラグをセットするエ
リアである。動作中OS再起動フラグ222は今回のO
S起動がOS起動時、被監視ソフトウェア130によっ
てOS再起動した場合か否かのフラグをセットするエリ
アである。なお、起動待ちOS再起動フラグ221及び
動作中OS再起動フラグ222のフラグ初期値はオフで
ある。
The boot waiting OS restart flag 221 is an area for setting a flag as to whether or not the OS restarted by the monitored software 130 at the time of starting the OS. The operating OS restart flag 222 is
This area is used to set a flag indicating whether or not the monitored software 130 has restarted the OS when the OS is started. Note that the initial values of the startup waiting OS restart flag 221 and the operating OS restart flag 222 are off.

【0014】エラー情報231は監視ソフトウェア11
0が被監視ソフトウェア130の障害を検出し、被監視
ソフトウェア130及びOS再起動の実行を行ったとい
う情報を格納するエリアである。
The error information 231 is stored in the monitoring software 11
Reference numeral 0 denotes an area for storing information indicating that a failure of the monitored software 130 has been detected and that the monitored software 130 and the OS have been restarted.

【0015】時間帯情報232には、あらかじめ被監視
ソフトウェア130が稼動しているべき日付,時刻およ
び時間帯を設定しておき、その指定された日付,時刻お
よび時間帯に稼動していない被監視ソフトウェア130
を監視ソフトウェア110が起動させるための情報をセ
ットしておくエリアである。
In the time zone information 232, a date, a time, and a time zone in which the monitored software 130 is to be operated are set in advance, and the monitored software that is not operating on the specified date, time, and time zone is set. Software 130
Is an area in which information for starting the monitoring software 110 is set.

【0016】以上が本発明の一例である監視ソフトウェ
ア110を構成する要素の説明である。
The above is an explanation of the elements constituting the monitoring software 110 which is an example of the present invention.

【0017】図3のフローチャートを用いて監視ソフト
ウェア110が被監視ソフトウェア130の状態を判別
する方法を説明する。まず、用語の定義をする。ここで
は、動作中とは被監視ソフトウェア130が正常に稼動
している状態を指す。停止中とは被監視ソフトウェア1
30が起動されていない状態を指す。障害中とは被監視
ソフトウェア130が何らかの障害などにより無応答と
なった状態を指す。
A method by which the monitoring software 110 determines the state of the monitored software 130 will be described with reference to the flowchart of FIG. First, terms are defined. Here, “operating” indicates a state in which the monitored software 130 is operating normally. Stopped means monitored software 1
30 indicates a state in which it has not been started. The failure indicates a state in which the monitored software 130 has become unresponsive due to some kind of failure.

【0018】被監視ソフトウェア130は、起動後、被
監視ソフトウェア名称エリア121に自ソフトウェアの
名称をセットする。その後、定期的にあるいは監視ソフ
トウェア110の要求に応じて状態情報122に任意の
値をセットする。
After being started, the monitored software 130 sets its own software name in the monitored software name area 121. Thereafter, an arbitrary value is set in the status information 122 periodically or in response to a request from the monitoring software 110.

【0019】監視ソフトウェア110は、自らが起動し
た後、定期的に被監視ソフトウェア130の状態を監視
するため、一定時間待機(300)後、被監視ソフトウ
ェア名称エリア読み込み(301)を行い、被監視ソフ
トウェア130のソフトウェア名称が登録されているか
をチェック(302)する。登録されていなければ監視
対象の被監視ソフトウェア130が停止中であるため、
再び一定時間待機(300)にもどる。被監視ソフトウ
ェア130が停止中はこの動作が繰り返される。被監視
ソフトウェア130の名称が登録されている場合、、被
監視ソフトウェア動作中(303)であることを意味す
る。監視ソフトウェア110は、被監視ソフトウェア1
30が動作中である事を判定できた場合、被監視ソフト
ウェア130の状態情報を確認(304)する。このと
き被監視ソフトウェア130による状態情報122の設
定は、被監視ソフトウェア130の定期的な設定かある
いは、監視ソフトウェア110が状態情報122の設定
を被監視ソフトウェア130に要求する方法でもよい。
監視ソフトウェア110による状態情報122の状態判
定(305)で任意の値が設定されていない場合、被監
視ソフトウェア130は無応答(308)状態である。
状態情報122に任意の値が設定されていた場合、被監
視ソフトウェア130が動作中かつ応答あり状態(30
6)であり、監視ソフトウェア110は状態情報を任意
の値以外でクリアする(307)。上記のようにして、
監視ソフトウェア110は、被監視ソフトウェア130
の状態を監視する。
The monitoring software 110 waits for a certain period of time (300) and then reads the monitored software name area (301) to periodically monitor the status of the monitored software 130 after it has been started up. It is checked whether the software name of the software 130 is registered (302). If it is not registered, the monitored software 130 to be monitored is stopped.
The process returns to the standby for a fixed time (300). This operation is repeated while the monitored software 130 is stopped. When the name of the monitored software 130 is registered, it means that the monitored software 130 is operating (303). The monitoring software 110 is the monitored software 1
If it is determined that the monitoring software 30 is operating, the status information of the monitored software 130 is confirmed (304). At this time, the setting of the status information 122 by the monitored software 130 may be a periodic setting of the monitored software 130 or a method in which the monitoring software 110 requests the monitored software 130 to set the status information 122.
If any value is not set in the status determination (305) of the status information 122 by the monitoring software 110, the monitored software 130 is in a no-response (308) status.
If an arbitrary value is set in the status information 122, the monitored software 130 is operating and responding (30
6), and the monitoring software 110 clears the status information to a value other than an arbitrary value (307). As above,
The monitoring software 110 includes the monitored software 130
Monitor the status of.

【0020】以上が本発明の実施例を説明するための情
報である。
The above is the information for explaining the embodiment of the present invention.

【0021】図4はOS起動時の被監視ソフトウェアに
よるソフトウェア監視と該ソフトウェア再起動及びOS
再起動処理を示すフローチャートである。本図を使用し
て本発明における監視ソフトウェア110の動作につい
て具体的に説明する。
FIG. 4 shows software monitoring by the monitored software at the time of OS startup, restarting of the software, and OS
It is a flowchart which shows a restart process. The operation of the monitoring software 110 according to the present invention will be specifically described with reference to FIG.

【0022】まず、OS起動時のソフトウェア監視方式
について説明する。OS起動(400)後、監視ソフト
ウェア110と被監視ソフトウェア130はそれぞれ、
OSにより自動的に起動されるソフトウェアであり、監
視ソフトウェア110は被監視ソフトウェア130より
先に起動(401)されるものであるとする。監視ソフ
トウェア110は、起動後OS再起動判定処理(40
2)で起動待ちOS再起動フラグ221と動作中OS再
起動フラグ222のフラグ状態を確認し、監視ソフトウ
ェア110によるOS再起動を実行したか否かを判断す
る(402)。本実施例では各フラグの初期値はオフと
する。OS起動後被監視ソフトウェア130が起動する
までの監視タイマをセットし(403)、被監視ソフト
ウェア起動失敗時に被監視ソフトウェア130を再起動
する回数をセットする(404)。被監視ソフトウェア
130が動作中か否か(405)を被監視ソフトウェア
名称エリア121の確認を行い、その確認結果、被監視
ソフトウェア130が動作中であれば、起動待ちOS再
起動フラグオフ(406)を行い、被監視ソフトウェア
130の監視処理を被監視ソフトウェア動作中状態監視
処理(407)へ遷移する。
First, a software monitoring method at the time of starting the OS will be described. After the OS startup (400), the monitoring software 110 and the monitored software 130 respectively
It is assumed that the monitoring software 110 is software that is automatically started by the OS, and that the monitoring software 110 is started (401) before the monitored software 130. The monitoring software 110 performs the OS restart determination process after startup (40
In 2), the flag states of the boot waiting OS restart flag 221 and the operating OS restart flag 222 are checked, and it is determined whether or not the OS restart by the monitoring software 110 has been executed (402). In this embodiment, the initial value of each flag is off. A monitoring timer is set after the OS starts until the monitored software 130 starts (403), and the number of times the monitored software 130 is restarted when the monitored software fails to start is set (404). The monitored software 130 checks the monitored software name area 121 to determine whether the monitored software 130 is operating (405), and if the monitored software 130 is operating, turns off the OS waiting flag for booting OS (406). Then, the monitoring process of the monitored software 130 transitions to the monitored software operating state monitoring process (407).

【0023】被監視ソフトウェア130が動作中か否か
(405)の確認結果により被監視ソフトウェア130
が起動されていない場合は起動待ち監視タイマカウンタ
212値を更新する(408)。OS起動後、被監視ソ
フトウェアの起動待ち監視タイマカウンタ212がタイ
ムアウトか否かを判定(409)する。このタイマカウ
ンタ値が1以上である場合、被監視ソフトウェア動作中
判定処理(405)へ遷移し監視を継続する。起動待ち
監視タイマカウンタ212値が1より下の値であった場
合起動待ちタイムアウトが発生したため、被監視ソフト
ウェア130の起動失敗時再起動回数カウンタ215が
0あるいは0以下か否か(410)の判定を行い、1以
上であった場合、被監視ソフトウェア130の再起動を
行い(411)、起動失敗時再起動回数カウンタ215
を更新(412)する。以上のように、被監視ソフトウ
ェア130の回復処理を行う。
Based on the result of checking whether the monitored software 130 is operating (405), the monitored software 130
If is not activated, the value of the activation wait monitoring timer counter 212 is updated (408). After the OS is started, it is determined whether or not the start waiting monitoring timer counter 212 of the monitored software has timed out (409). If the timer counter value is 1 or more, the process proceeds to the monitored software in-operation determination processing (405) to continue monitoring. When the value of the start wait monitoring timer counter 212 is less than 1, since the start wait timeout has occurred, it is determined whether or not the restart failure counter 215 when the start of the monitored software 130 fails is 0 or less (0) (410). If the value is 1 or more, the monitored software 130 is restarted (411), and the restart failure counter 215 when the startup fails
Is updated (412). As described above, the recovery process of the monitored software 130 is performed.

【0024】被監視ソフトウェア130の起動失敗時再
起動回数カウンタ217の値が0であった場合、OSか
ら再起動を行うか否かの判定を行う(413)。被監視
ソフトウェア130の起動失敗時OS再起動回数カウン
タ217が0であった場合エラー処理を行いエラー情報
テーブル114に被監視ソフトウェア200とエラー情
報231を格納し、被監視ソフトウェア130の監視を
終了する。起動失敗時OS再起動回数カウンタが1以上
であった場合起動待ちOS再起動フラグをオン(41
4)後、起動失敗時OS再起動回数カウンタ217を更
新(415)しOS終了処理(416)を行い、OS起
動(400)によって、OS再起動及びハードウェアリ
セットを実行し被監視ソフトウェア130の復旧を行
う。以上のように、被監視ソフトウェア130の再起動
をOSの再起動から行うことにより被監視ソフトウェア
130が異常となった原因が被監視ソフトウェア自身の
みならずOSあるいはハードウェア異常が原因で被監視
ソフトウェアも異常となった場合も、OS再起動とハー
ドウェアリセットを行うことによりOS,ソフトウェ
ア,ハードウェアの一時的な障害などの原因をリセット
できるため被監視ソフトウェアが復旧できる本発明の方
式は有利である。
If the value of the restart failure counter 217 at the time of the failure of the monitored software 130 being failed is 0, it is determined whether or not to restart from the OS (413). If the OS restart count counter 217 is 0 when the monitored software 130 fails to start, error processing is performed, the monitored software 200 and the error information 231 are stored in the error information table 114, and the monitoring of the monitored software 130 ends. . If the OS restart counter at the time of boot failure is 1 or more, the boot wait OS restart flag is turned on (41
4) After that, the OS restart count counter 217 at the time of boot failure is updated (415), the OS termination process (416) is performed, and the OS restart (400) executes the OS restart and hardware reset to execute the OS restart and hardware reset. Perform recovery. As described above, when the monitored software 130 is restarted from the restart of the OS, the monitored software 130 becomes abnormal not only because of the monitored software itself but also because of the OS or hardware abnormality. Even if an error occurs, the method of the present invention is advantageous in that the monitored software can be recovered because the cause of a temporary failure of the OS, software, and hardware can be reset by restarting the OS and resetting the hardware. is there.

【0025】なお、起動失敗時再起動回数207と起動
失敗時OS再起動回数208を0あるいは再起動しない
設定の場合、被監視ソフトウェア130の強制終了のみ
を行う。
When the number of restarts 207 at the time of starting failure and the number of times of restarting the OS at the time of starting failure 208 are set to 0 or not restarted, only the forced termination of the monitored software 130 is performed.

【0026】図5は本発明の実施例におけるOS再起動
判定処理である。OS起動後何らかの障害で被監視ソフ
トウェア130起動に失敗したことを監視ソフトウェア
110が検知しOS再起動を行う場合、起動待ちOS再
起動フラグにオン(414)をセットした後OS再起動
しているためOS再起動後、起動待ちOS再起動フラグ
オフ(501)をここで行う。通常のOS起動あるいは
通常のOS再起動を行う場合は起動待ちOS再起動フラ
グ221の初期値はオフのままであるため起動失敗時O
S再起動回数カウンタ217に起動失敗時OS再起動回
数207をセット(504)する。
FIG. 5 shows an OS restart determination process according to the embodiment of the present invention. When the monitoring software 110 detects that the monitored software 130 has failed to start due to some failure after the OS has started, and restarts the OS, the OS is restarted after setting the on-boot OS restart flag to ON (414). Therefore, after the OS is restarted, the startup waiting OS restart flag is turned off (501). When the normal OS startup or the normal OS restart is performed, the initial value of the boot waiting OS restart flag 221 remains off, so that when the startup fails, O
The OS restart count 207 at the time of startup failure is set in the S restart count counter 217 (504).

【0027】被監視ソフトウェア130が動作後に何ら
かの障害で被監視ソフトウェア130の異常を監視ソフ
トウェア110が検知しOS再起動を行う場合、動作中
OS再起動フラグ222にオン(611)をセットした
後、OS再起動しているため被監視ソフトウェア動作中
OS再起動フラグオフ(503)をここで行う。通常の
OS起動あるいは通常のOS再起動を行う場合は動作中
OS再起動フラグ222の初期値はオフのままであるた
め動作中障害時OS再起動回数カウンタ218に動作中
障害時OS再起動回数208をセット(505)する。
When the monitoring software 110 detects an abnormality of the monitored software 130 due to some failure after the monitored software 130 operates and restarts the OS, the operating OS restart flag 222 is set to ON (611), Since the OS has been restarted, the OS restart flag is turned off (503) during the operation of the monitored software. When the normal OS is started or the normal OS is restarted, the initial value of the operating OS restart flag 222 is kept off, so that the operating failure OS restart number counter 218 stores the operating OS restart number of times. 208 is set (505).

【0028】図6は本発明の実施例における被監視ソフ
トウェア動作中状態監視処理である。被監視ソフトウェ
ア130が動作中に動作中障害時再起動回数206を動
作中障害時再起動回数カウンタ216にセット(60
0)を行い、動作中監視タイマ203を動作中監視タイ
マカウンタ203にセット(601)後、被監視ソフト
ウェア130が動作中か否か(602)を状態情報12
2で確認する。被監視ソフトウェア130が動作中であ
る場合、監視ソフトウェア110の監視終了か否か(6
03)を監視し被監視ソフトウェア130動作中か否か
の確認を繰り返す。状態情報122で確認した結果、被
監視ソフトウェアが動作中か否かの判別を行う。動作中
でない場合、動作中監視タイマ値を更新(604)す
る。被監視ソフトウェアの動作中監視タイマカウンタの
値が1以上である場合n秒待ち(609)して被監視ソ
フトウェア動作中判定処理(602)へ遷移する。被監
視ソフトウェアが動作中監視タイマ時間を超過して動作
中でない状態が継続した場合、被監視ソフトウェアが障
害中または停止中であると判定し、被監視ソフトウェア
の動作中障害時再起動回数カウンタが0あるいは0以下
か否か(606)の判定を行い、1以上であった場合、
被監視ソフトウェア名称エリアをクリアし、被監視ソフ
トウェアの再起動を行う(607)。その後、動作中障
害時再起動回数カウンタを更新(608)する。
FIG. 6 shows a status monitoring process during operation of the monitored software in the embodiment of the present invention. During the operation of the monitored software 130, the number of restarts during operation failure 206 is set in the number of restart during operation failure counter 216 (60
0), and sets the running monitoring timer 203 to the running monitoring timer counter 203 (601), and then determines whether the monitored software 130 is running (602).
Confirm with 2. If the monitored software 130 is operating, whether or not the monitoring of the monitoring software 110 has ended (6.
03), and repeatedly checks whether the monitored software 130 is operating. As a result of checking the status information 122, it is determined whether the monitored software is operating. If not in operation, the monitoring timer value during operation is updated (604). When the value of the monitoring timer counter during operation of the monitored software is 1 or more, the process waits for n seconds (609), and transitions to the monitoring software operating determination process (602). If the status of the monitored software is longer than the monitoring timer time and is not running, the status of the monitored software is determined to be faulty or stopped. It is determined whether or not it is 0 or less than 0 (606), and if it is 1 or more,
The monitored software name area is cleared, and the monitored software is restarted (607). Thereafter, the number of restarts counter during operation failure is updated (608).

【0029】被監視ソフトウェア130の動作中障害時
再起動回数カウンタの値が0であった場合、OSから再
起動を行うか否かの判定を行う(610)。動作中障害
時OS再起動回数カウンタ218が1以上であった場合
動作中OS再起動フラグオン(611)後、動作中障害
時OS再起動回数カウンタ218を更新(612)しO
S終了処理(613)を行いOS起動(400)を行
う。
If the value of the failure restart counter during operation of the monitored software 130 is 0, it is determined whether or not to restart from the OS (610). When the operating failure restart counter 218 is equal to or greater than 1 After the operating OS restart flag is turned on (611), the operating restart counter 218 is updated (612) and the operating restart flag is reset (612).
An S end process (613) is performed and an OS startup (400) is performed.

【0030】上記のように、被監視ソフトウェア130
とOSの再起動を行うことにより、被監視ソフトウェア
130が異常となった原因が被監視ソフトウェア130
自身のみならずOSあるいはハードウェア異常が原因で
被監視ソフトウェア130も異常となった場合も、O
S,ソフトウェア,ハードウェアの一時的な障害などの
原因をOS再起動とハードウェアリセットを行うことに
よりリセットできるため本発明の方式は有利である。な
お、起動失敗時再起動回数207と起動失敗時OS再起
動回数208を0あるいは再起動しない設定の場合被監
視ソフトウェア130の強制終了のみを行う。
As described above, the monitored software 130
Cause the monitored software 130 to become abnormal by restarting the OS and the OS.
If the monitored software 130 becomes abnormal not only due to itself but also due to the OS or hardware abnormality,
The method of the present invention is advantageous because a cause such as a temporary failure of S, software, or hardware can be reset by restarting the OS and performing a hardware reset. If the number of restarts 207 at the time of unsuccessful startup and the number of restarts of the OS at the time of unsuccessful boot 208 are set to 0 or not to be restarted, only forced termination of the monitored software 130 is performed.

【0031】次に、日付,一定時間あるいは時刻に稼動
が必要な被監視ソフトウェア130の場合、あらかじめ
時間帯情報232に日付,時刻および時間帯を設定して
おき、被監視ソフトウェア130の起動監視において時
間帯情報232を使用する。例えば図3のフローチャー
トにおいては、被監視ソフトウェアの動作中(405)
において動作中でない場合に現在日時あるいは時刻と被
監視ソフトウェアの時間帯情報232を比較して該当日
時あるいは時刻である場合に被監視ソフトウェア再起動
処理(411)を実行する。更に、被監視ソフトウェア
130が既に動作中になった後は図6のフローチャート
の被監視ソフトウェア動作中判定(602)で動作中で
ない場合、時間帯情報232を判定し被監視ソフトウェ
ア130を再起動(607)させることができる。
Next, in the case of the monitored software 130 which needs to be activated at a certain date or a fixed time or time, the date, time and time zone are set in advance in the time zone information 232, and the monitoring of the monitored software 130 is started. The time zone information 232 is used. For example, in the flowchart of FIG. 3, during the operation of the monitored software (405)
When the operation is not in operation, the current date / time or time is compared with the time zone information 232 of the monitored software, and if it is the relevant date / time or time, the monitored software restart processing (411) is executed. Further, after the monitored software 130 is already running, if the monitored software is not running in the monitoring software running determination (602) in the flowchart of FIG. 6, the time zone information 232 is determined and the monitored software 130 is restarted ( 607).

【0032】[0032]

【発明の効果】本発明により、コンピュータシステムに
おいて、OS起動時にソフトウェアが起動されない、あ
るいは動作中のソフトウェアが動作していない場合、ソ
フトウェアの再起動及びOSの再起動を行う事によりソ
フトウェア障害を回復する事が可能となる。
According to the present invention, in a computer system, if software is not started when the OS is started or the running software is not running, the software failure is recovered by restarting the software and restarting the OS. It is possible to do.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明のソフトウェア構造図。FIG. 1 is a software structure diagram of the present invention.

【図2】監視ソフトウェア内の情報テーブル。FIG. 2 is an information table in monitoring software.

【図3】被監視ソフトウェアの状態監視機能のフローチ
ャート。
FIG. 3 is a flowchart of a status monitoring function of monitored software.

【図4】OS起動時の被監視ソフトウェアによるソフト
ウェア監視と該ソフトウェア再起動およびOS再起動処
理のフローチャート。
FIG. 4 is a flowchart of software monitoring by monitored software at the time of OS startup, and the software restart and OS restart processing.

【図5】OS再起動判定処理のフローチャート。FIG. 5 is a flowchart of an OS restart determination process.

【図6】被監視ソフトウェア動作中状態監視処理のフロ
ーチャート。
FIG. 6 is a flowchart of a monitored software operating state monitoring process.

【符号の説明】[Explanation of symbols]

110…監視ソフトウェア、111…ソフトウェア情報
テーブル、115…状態監視機能、120…共有メモ
リ、130…被監視ソフトウェア、140…OS(オペ
レーティングシステム)、150…ハードウェア
110: monitoring software, 111: software information table, 115: status monitoring function, 120: shared memory, 130: monitored software, 140: OS (operating system), 150: hardware

───────────────────────────────────────────────────── フロントページの続き (72)発明者 梅都 利和 愛知県尾張旭市晴丘町池上1番地 株式会 社日立製作所情報機器事業部内 (72)発明者 水野 養老 愛知県尾張旭市晴丘町池上1番地 株式会 社日立製作所情報機器事業部内 Fターム(参考) 5B027 AA04 CC02 5B042 GA23 GC15 JJ15 JJ23  ──────────────────────────────────────────────────続 き Continued on the front page (72) Inventor Toshikazu Umeto 1 Ikegami, Haruoka-cho, Owariasahi-shi, Aichi Prefecture Inside the Information Equipment Division, Hitachi, Ltd. F-term in the Information Technology Division of Hitachi, Ltd. (reference) 5B027 AA04 CC02 5B042 GA23 GC15 JJ15 JJ23

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】OSとその上で動作する複数のソフトウェ
アから構成されるシステムにおいて、ソフトウェアの起
動状態を監視して一定時間内に起動されないソフトウェ
アを検出して再起動する機能を有するソフトウェアによ
ってOS起動時に起動されるべきソフトウェアが起動さ
れるかを監視し、起動されない場合に該ソフトウェアま
たは該OSを再起動することを特徴とするソフトウェア
再起動方法。
In a system comprising an OS and a plurality of software operating on the OS, the software having a function of monitoring the activation state of the software, detecting software that is not activated within a predetermined time, and restarting the software. A software restart method characterized by monitoring whether software to be started at the time of startup is started, and restarting the software or the OS when the software is not started.
【請求項2】OSとその上で動作する複数のソフトウェ
アから構成されるシステムにおいて、ソフトウェアの動
作状態を監視して一定時間内に応答しないソフトウェア
を検出して再起動する機能を有するソフトウェアによっ
てOS起動後に継続的に稼動していることが必要なソフ
トウェアの稼動状態を監視し、該ソフトウェアが障害な
どにより停止または無応答となった場合に、該ソフトウ
ェアまたは該OSを再起動することを特徴とするソフト
ウェア再起動方法。
2. A system comprising an OS and a plurality of software operating on the OS, the OS having a function of monitoring an operating state of the software, detecting software that does not respond within a predetermined time, and restarting the software. It monitors the operating state of software that needs to be continuously running after startup, and restarts the software or the OS if the software stops or becomes unresponsive due to a failure or the like. How to restart the software.
【請求項3】OSとその上で動作する複数のソフトウェ
アから構成されるシステムにおいて、ソフトウェアを実
行する日付,時刻および時間帯を管理して、指定された
日付,時刻および時間帯に該ソフトウェアを起動する機
能、および指定された日付,時刻および時間帯に稼動し
ていないソフトウェアを検出して起動する機能を有する
ソフトウェアによってソフトウェアの稼動状態を監視す
るソフトウェア稼動監視方法。
3. In a system comprising an OS and a plurality of software operating on the OS, a date, time and time zone for executing the software are managed, and the software is executed on a designated date, time and time zone. A software operation monitoring method for monitoring an operation state of software by a software having a function of starting and a function of detecting and starting software that is not operating at a designated date, time, and time zone.
JP2000352557A 2000-11-15 2000-11-15 Method for restarting software Pending JP2002149437A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000352557A JP2002149437A (en) 2000-11-15 2000-11-15 Method for restarting software

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000352557A JP2002149437A (en) 2000-11-15 2000-11-15 Method for restarting software

Publications (1)

Publication Number Publication Date
JP2002149437A true JP2002149437A (en) 2002-05-24

Family

ID=18825439

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000352557A Pending JP2002149437A (en) 2000-11-15 2000-11-15 Method for restarting software

Country Status (1)

Country Link
JP (1) JP2002149437A (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008165551A (en) * 2006-12-28 2008-07-17 Sony Corp Information processing apparatus, method, program and recording medium
JP2010501138A (en) * 2006-08-15 2010-01-14 センサーマティック・エレクトロニクス・コーポレーション Controller for video matrix switching system
JP2012256227A (en) * 2011-06-09 2012-12-27 Hitachi Systems Ltd Process failure determination and restoration device, process failure determination and restoration method, process failure determination and restoration program and storage medium
JP2016143330A (en) * 2015-02-04 2016-08-08 富士ゼロックス株式会社 Electronic apparatus, control device, and program
JP2016207122A (en) * 2015-04-28 2016-12-08 京セラドキュメントソリューションズ株式会社 Electronic equipment and reboot program
US9971651B2 (en) 2015-04-28 2018-05-15 Kyocera Document Solutions Inc. Electronic device that ensures recovery without entire reboot, and recording medium
CN112732520A (en) * 2020-12-30 2021-04-30 中国人民解放军32181部队 Fault processing method and system for equipment operation monitoring software
US11269730B2 (en) 2019-01-23 2022-03-08 Seiko Epson Corporation Management method, structure monitoring device, and structure monitoring system

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010501138A (en) * 2006-08-15 2010-01-14 センサーマティック・エレクトロニクス・コーポレーション Controller for video matrix switching system
JP2008165551A (en) * 2006-12-28 2008-07-17 Sony Corp Information processing apparatus, method, program and recording medium
JP4544246B2 (en) * 2006-12-28 2010-09-15 ソニー株式会社 Control device and method, program, and recording medium
US8887091B2 (en) 2006-12-28 2014-11-11 Sony Corporation Information processing apparatus, method, processor, and recording medium for determining whether information stored in a memory is incorrectly updated
JP2012256227A (en) * 2011-06-09 2012-12-27 Hitachi Systems Ltd Process failure determination and restoration device, process failure determination and restoration method, process failure determination and restoration program and storage medium
JP2016143330A (en) * 2015-02-04 2016-08-08 富士ゼロックス株式会社 Electronic apparatus, control device, and program
JP2016207122A (en) * 2015-04-28 2016-12-08 京セラドキュメントソリューションズ株式会社 Electronic equipment and reboot program
US9971651B2 (en) 2015-04-28 2018-05-15 Kyocera Document Solutions Inc. Electronic device that ensures recovery without entire reboot, and recording medium
US11269730B2 (en) 2019-01-23 2022-03-08 Seiko Epson Corporation Management method, structure monitoring device, and structure monitoring system
CN112732520A (en) * 2020-12-30 2021-04-30 中国人民解放军32181部队 Fault processing method and system for equipment operation monitoring software
CN112732520B (en) * 2020-12-30 2024-04-12 中国人民解放军32181部队 Fault processing method and system for equipment operation monitoring software

Similar Documents

Publication Publication Date Title
US7975188B2 (en) Restoration device for BIOS stall failures and method and computer program product for the same
US6425093B1 (en) Methods and apparatuses for controlling the execution of software on a digital processing system
US20040158702A1 (en) Redundancy architecture of computer system using a plurality of BIOS programs
JP2001154885A (en) Method for preventing lock-up of computer system and method for monitoring the same system
US7162714B2 (en) Software-based watchdog method and apparatus
JP2012069032A (en) Information processor
CN111800304A (en) Process running monitoring method, storage medium and virtual device
JP2008186173A (en) Fault monitoring system
US7428660B2 (en) Starting control method, duplex platform system, and information processor
CN115237644B (en) System fault processing method, central operation unit and vehicle
JP2007323631A (en) Cpu runaway determination circuit
JP2002149437A (en) Method for restarting software
JPH10214208A (en) System for monitoring abnormality of software
JP2006065440A (en) Process management system
JP2000516745A (en) Rebooting a master CPU that has stopped functioning with a slave DSP
JP4708088B2 (en) Failure recovery method and microcomputer
JPH11327914A (en) Automatic installation system and recording medium having recorded automatic installation program
JP2785992B2 (en) Server program management processing method
JPH0764930A (en) Mutual monitoring method between cpus
JP3183227B2 (en) Redundant startup method
JPH08329006A (en) Fault information system
JP6023898B1 (en) Information processing apparatus, information processing method, and information processing program
JP3122371B2 (en) Computer system
KR102262942B1 (en) Gateway self recovery method by the wireless bridge of wireless network system system
US20220206823A1 (en) Information processing method and electronic apparatus