JPH05257675A - Program parts duplex system - Google Patents

Program parts duplex system

Info

Publication number
JPH05257675A
JPH05257675A JP5587392A JP5587392A JPH05257675A JP H05257675 A JPH05257675 A JP H05257675A JP 5587392 A JP5587392 A JP 5587392A JP 5587392 A JP5587392 A JP 5587392A JP H05257675 A JPH05257675 A JP H05257675A
Authority
JP
Japan
Prior art keywords
program
failure
fault
program parts
switching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP5587392A
Other languages
Japanese (ja)
Inventor
Michihiro Onari
道廣 大成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Software Shikoku Ltd
Original Assignee
NEC Software Shikoku Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Software Shikoku Ltd filed Critical NEC Software Shikoku Ltd
Priority to JP5587392A priority Critical patent/JPH05257675A/en
Publication of JPH05257675A publication Critical patent/JPH05257675A/en
Withdrawn legal-status Critical Current

Links

Landscapes

  • Stored Programmes (AREA)

Abstract

PURPOSE:To improve reliability of the system by constituting the system so that the operation can be continued by switching other program parts having the same function, in the case where the on-line system becomes abnormal being caused by a software. CONSTITUTION:In a fault recovery processing of an on-line system, the system is provided with a means 14 for managing a program parts group in a storage area, a means 12 for collecting fault statistical information for every program parts in which a fault is occurred, a means 13 for selecting a program whose fault occurrence frequency is less from the program parts group having the same function as the program parts which cause a fault and switching to the active program, and a means 16 for scheduling the active program parts and shifting the control, and by switching the program parts concerned at the time of fault of the software, the operation of the system is continued.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明はオンラインシステムにお
けるソフトウェア信頼性向上に関し、特にオンラインに
おけるプログラム部品二重化方式に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to improving software reliability in an online system, and more particularly to an online program parts duplication system.

【0002】[0002]

【従来の技術】従来、オンラインシステムではサービス
中に障害が発生した場合、運転を継続することが不可能
な障害ならシステムダウンする。この場合、障害原因が
ソフトウェアにある場合でも再度立上げして同一のソフ
トウェアをメモリ上に格納して運転を再開していた。
2. Description of the Related Art Conventionally, in an online system, when a failure occurs during service, the system is down if it is impossible to continue operation. In this case, even if the cause of the failure is software, the software was restarted, the same software was stored in the memory, and the operation was restarted.

【0003】[0003]

【発明が解決しようとする課題】上述した従来のオンラ
インシステムのシステムダウンからの再立上げでは、同
一のソフトウェアがメモリ上に格納され運転が再開され
る。しかし、同一のソフトウェアが動作するため、ソフ
トウェアに障害原因がある場合は障害に至る要因となる
データが入力されると再びシステムダウンするといった
欠点がある。
When the above-described conventional online system is restarted from system down, the same software is stored in the memory and the operation is restarted. However, since the same software operates, there is a drawback that if the software has a cause of failure, the system goes down again when data that causes the failure is input.

【0004】[0004]

【課題を解決するための手段】本発明のプログラム部品
二重化方式は、オンラインシステムの障害リカバリ処理
において、プログラム部品群を記憶域に管理する手段
と、障害が発生したプログラム部品毎に障害統計情報を
収集する手段と、障害となったプログラム部品と同一機
能を持つプログラム部品群のなかより障害発生頻度の少
ないプログラムを選択し現用に切替える手段と、現用と
なっているプログラム部品をスケジュールし制御を移行
する手段とを備え、ソフトウェア障害時に該当するプロ
グラム部品を切替えてシステムの運用を継続する。
The program component duplication system of the present invention provides means for managing a group of program components in a storage area and fault statistical information for each faulted program component in a failure recovery process of an online system. A means for collecting, a means for selecting a program with a low failure frequency from the program parts group having the same function as the failed program part and switching to the active program, and scheduling the active program part to transfer control. And a means for doing so to switch the corresponding program component at the time of software failure and continue the operation of the system.

【0005】[0005]

【実施例】次に本発明について図面を参照して説明す
る。
The present invention will be described below with reference to the drawings.

【0006】図1は本発明の一実施例を示す説明図であ
る。同図において本発明によるプログラム部品二重化方
式は、OS(オペレーティングシステム)の障害処理部
11,障害統計情報収集部12,プログラム部品切替制
御部13,プログラム部品情報管理テーブル部14,各
種プログラム群15,プログラム部品スケジュール部1
6を含む。なお、プログラム群15およびプログラム部
品情報管理テーブル14はシステム立上げ時にOSによ
ってメモリ上に格納されているものとする。
FIG. 1 is an explanatory view showing an embodiment of the present invention. In the same figure, the program component duplication system according to the present invention uses an OS (operating system) fault processing unit 11, fault statistical information collecting unit 12, program component switching control unit 13, program component information management table unit 14, various program groups 15, Program parts schedule section 1
Including 6. It is assumed that the program group 15 and the program component information management table 14 are stored in the memory by the OS when the system is started up.

【0007】あるプログラムが走行中に、例えば実メモ
リが割当てられていない領域にデータを書込もうとする
例外割込みが発生する。こうしたソフトウェアに起因す
る障害が発生すると、OSの障害処理部11に制御が移
行される。
[0007] While a program is running, an exception interrupt for writing data to an area to which real memory is not allocated occurs. When a failure due to such software occurs, control is transferred to the failure processing unit 11 of the OS.

【0008】これを受けてOSの障害処理部11は、障
害分析やリカバリ処理を行う。このとき、障害内容がソ
フトウェアに起因する障害なら障害統計情報収集部12
へ障害発生を通知する。
In response to this, the OS failure processing unit 11 performs failure analysis and recovery processing. At this time, if the fault content is a fault caused by software, the fault statistical information collecting unit 12
Notify the occurrence of a failure to.

【0009】障害情報収集部12は、障害統計情報収集
に先立って2重化されたプログラム部品内で障害が発生
したかどうか判断する。プログラム部品内で走行してい
る場合、プログラム部品の開始時点で対応する部品群I
D及び部品IDがメモリ上の走行中部品識別ID退避域
に設定され、走行の終了時点で走行中部品識別ID退避
域がクリアされる。したがって走行中部品識別ID退避
域がクリアされていなければ、プログラム部品内で障害
が発生したと判断する。
The fault information collection unit 12 judges whether a fault has occurred in the duplicated program component prior to the collection of the fault statistical information. When running in a program part, the corresponding part group I at the start of the program part
D and the part ID are set in the running part identification ID save area on the memory, and the running part identification ID save area is cleared at the end of running. Therefore, if the running part identification ID save area is not cleared, it is determined that a failure has occurred in the program part.

【0010】走行中部品識別ID退避域がクリアされて
いれば、二重化されたプログラム部品ではないためプロ
グラム部品の切替は必要なく、OSの障害処理部11に
制御を戻す。
If the running part identification ID save area is cleared, it is not a duplicated program part, so that switching of the program part is not necessary and control is returned to the failure processing section 11 of the OS.

【0011】二重化されたプログラム部品内で障害が発
生したと判断された場合、障害統計情報収集部12は、
走行中部品識別ID退避域に設定されている部品群ID
及び部品IDを基にプログラム部品情報管理テーブル部
14のプログラム部品情報管理テーブルを参照し、部品
群ID及び部品IDに対応するテーブルエントリを得
る。
When it is determined that a failure has occurred in the duplicated program component, the failure statistical information collecting unit 12
Parts ID set in the running parts identification ID save area
And the component ID, the program component information management table of the program component information management table unit 14 is referred to, and a table entry corresponding to the component group ID and the component ID is obtained.

【0012】図2はプログラム部品情報管理テーブルの
例を示す説明図である。同図において斜線部分がテーブ
ルの1エントリを表わす。
FIG. 2 is an explanatory diagram showing an example of the program component information management table. In the figure, the shaded portion represents one entry in the table.

【0013】次にプログラム部品情報管理テーブルの該
当エントリに統計情報を収集するが、収集するものとし
て本実施例では障害の発生回数と連続障害発生カウンタ
の加算がある。連続障害とは同一部品が2度連続して選
択され、2度連続して障害になる事象を言う。障害統計
情報収集を完了すると、プログラム部品の切替えを行う
ためプログラム部品切替制御部13へ制御を移行する。
Next, the statistical information is collected in the corresponding entry of the program component information management table. In this embodiment, the number of failure occurrences and the addition of the continuous failure occurrence counter are added. The continuous failure means an event in which the same part is selected twice in a row and becomes a failure twice in a row. When the collection of the failure statistical information is completed, the control is transferred to the program part switching control unit 13 to switch the program parts.

【0014】図3はプログラム切替え制御部13の動作
を示す流れ図である。プログラム部品切替制御部13の
入力情報は部品群ID及び部品IDである。
FIG. 3 is a flow chart showing the operation of the program switching control unit 13. The input information of the program component switching control unit 13 is the component group ID and the component ID.

【0015】(ステップ21):メモリ上にあるプログ
ラム部品情報管理テーブル14より部品群IDに一致す
る部品対応の全エントリを得る。この実施例では1つの
部品群IDは2つの部品を持つため、2つのエントリが
得られる。
(Step 21): Obtain all entries corresponding to the component group ID from the program component information management table 14 on the memory. In this embodiment, one component group ID has two components, so two entries are obtained.

【0016】(ステップ22):次に部品対応の全エン
トリについて障害統計情報域の障害発生数を比較し、最
も値が小さい部品対応のエントリを選択する。障害発生
数が同一のものが存在する場合は始めに検出した部品対
応のエントリを優先して選択する。
(Step 22): Next, the number of fault occurrences in the fault statistical information area is compared for all entries corresponding to parts, and the entry corresponding to the part having the smallest value is selected. If there are the same number of failures, the entry corresponding to the first detected component is preferentially selected.

【0017】(ステップ23):選択された部品対応エ
ントリの連続障害発生カウンタを参照し、2ならば連続
障害と判断しステップ24の処理へ移る。2より小さけ
ればステップ26の処理へ移る。
(Step 23): The continuous failure occurrence counter of the selected component-corresponding entry is referred to. If it is smaller than 2, the process proceeds to step 26.

【0018】(ステップ24):連続障害発生カウンタ
をクリアする。
(Step 24): The continuous failure occurrence counter is cleared.

【0019】(ステップ25):二重化されているもう
一方の部品に対応するエントリを得る。
(Step 25): Obtain an entry corresponding to the other duplicated part.

【0020】(ステップ26):プログラム部品情報管
理テーブル14において障害発生部品に対応するエント
リの現用/予備表示を予備とし、新しく選択された部品
に対応するエントリの現用/予備表示を現用とする。
(Step 26): In the program parts information management table 14, the working / spare display of the entry corresponding to the faulty part is set as the spare, and the working / spare display of the entry corresponding to the newly selected part is set as the working.

【0021】以上で障害が発生したプログラム部品の切
替えを終了し、OSの障害処理部11へ戻る。
The switching of the program component in which the fault has occurred is completed, and the process returns to the fault processing unit 11 of the OS.

【0022】次に、実際に切替えられたプログラム部品
がどのようにして走行するか説明する。各種プログラム
群15の中であるプログラムが走行している時、プログ
ラム部品化された機能を使用する必要が出てきた場合、
対象となるプログラムの部品群IDを指定しプログラム
部品スケジュール部16にプログラム部品起動を依頼す
る。
Next, how the actually changed program parts run will be described. When it is necessary to use a function that has been made into a program component while a program in the various program groups 15 is running,
The component group ID of the target program is specified, and the program component scheduling unit 16 is requested to start the program component.

【0023】これを受けて、プログラム部品スケジュー
ル部16はプログラム部品情報管理テーブル部14が持
つプログラム部品情報管理テーブルを参照し、指定され
た部品群IDに対応する部品対応全エントリの中から現
用/予備表示が現用となっている部品対応エントリを選
択し、該当エントリ内のプログラムエントリアドレスを
得て制御を移行する。このようにしてプログラム部品を
動作させることが可能である。
In response to this, the program parts schedule section 16 refers to the program parts information management table held by the program parts information management table section 14, and selects the active / active entry from all the parts correspondence entries corresponding to the specified parts group ID. The part corresponding entry whose preliminary display is currently used is selected, the program entry address in the corresponding entry is obtained, and the control is transferred. In this way, the program component can be operated.

【0024】なお、本発明は同一機能を持つプログラム
部品を二重化する場合に限定されず、プログラム部品を
3個以上持つことも可能である。
The present invention is not limited to the case where the program parts having the same function are duplicated, and it is possible to have three or more program parts.

【0025】[0025]

【発明の効果】以上説明したように本発明は、オンライ
ンシステムがソフトウェア原因により異常となる場合、
同じ機能を持つ別のプログラム部品に切替えて運転を続
行できるので、システムの信頼性を大幅に向上させる効
果がある。
As described above, according to the present invention, when the online system becomes abnormal due to software,
Since it is possible to continue operation by switching to another program part having the same function, there is an effect that the reliability of the system is greatly improved.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施例を示す説明図。FIG. 1 is an explanatory view showing an embodiment of the present invention.

【図2】プログラム部品情報管理テーブルの例を示す説
明図。
FIG. 2 is an explanatory diagram showing an example of a program component information management table.

【図3】プログラム部品切替制御部の動作を示す流れ
図。
FIG. 3 is a flowchart showing an operation of a program parts switching control unit.

【符号の説明】[Explanation of symbols]

11 OSの障害処理部 12 障害統計情報収集部 13 プログラム部品切替制御部 14 プログラム部品情報管理テーブル部 15 各種プログラム群 16 プログラム部品スケジュール部 11 OS Failure Processing Section 12 Failure Statistics Information Collection Section 13 Program Parts Switching Control Section 14 Program Parts Information Management Table Section 15 Various Programs 16 Program Parts Scheduling Section

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】 オンラインシステムの障害リカバリ処理
において、プログラム部品群を記憶域に管理する手段
と、障害が発生したプログラム部品毎に障害統計情報を
収集する手段と、障害となったプログラム部品と同一機
能を持つプログラム部品群のなかより障害発生頻度の少
ないプログラムを選択し現用に切替える手段と、現用と
なっているプログラム部品をスケジュールし制御を移行
する手段とを備え、ソフトウェア障害時に該当するプロ
グラム部品を切替えてシステムの運用を継続することを
特徴とするプログラム部品二重化方式。
1. In a failure recovery process of an online system, a means for managing a program part group in a storage area, a means for collecting failure statistical information for each failed program part, and the same program part as the failure A program part corresponding to a software failure is provided with means for selecting a program having a less frequent occurrence of a failure from the program parts group having functions and switching it to the active part, and means for scheduling the active program part and transferring control. The program component duplication method characterized by continuing to operate the system by switching between the two.
JP5587392A 1992-03-16 1992-03-16 Program parts duplex system Withdrawn JPH05257675A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5587392A JPH05257675A (en) 1992-03-16 1992-03-16 Program parts duplex system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5587392A JPH05257675A (en) 1992-03-16 1992-03-16 Program parts duplex system

Publications (1)

Publication Number Publication Date
JPH05257675A true JPH05257675A (en) 1993-10-08

Family

ID=13011215

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5587392A Withdrawn JPH05257675A (en) 1992-03-16 1992-03-16 Program parts duplex system

Country Status (1)

Country Link
JP (1) JPH05257675A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7069473B2 (en) 2001-10-05 2006-06-27 Nec Corporation Computer recovery method and system for recovering automatically from fault, and fault monitoring apparatus and program used in computer system
US7386751B2 (en) 2002-01-11 2008-06-10 National Cheng Kung University Generic service management system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7069473B2 (en) 2001-10-05 2006-06-27 Nec Corporation Computer recovery method and system for recovering automatically from fault, and fault monitoring apparatus and program used in computer system
US7386751B2 (en) 2002-01-11 2008-06-10 National Cheng Kung University Generic service management system

Similar Documents

Publication Publication Date Title
US7610511B2 (en) Journal migration method and data recovery management method
US5805790A (en) Fault recovery method and apparatus
US5499342A (en) System for dynamically switching logical sessions between terminal device and a processor which stops its operation to another working processor under control of communication control processor
US5652833A (en) Method and apparatus for performing change-over control to processor groups by using rate of failed processors in a parallel computer
US6976140B2 (en) Computer system and a method of replication
US20070112893A1 (en) Computer system, management computer, storage system, and backup management method
JP2001527232A (en) System and method for synchronizing redundant controllers with minimal disruption of control
JPH09259098A (en) Decentralized memory type multiprocessor system and fault recovery method
JP3481737B2 (en) Dump collection device and dump collection method
JPS5914777B2 (en) System configuration method
JPH05257675A (en) Program parts duplex system
US7065539B2 (en) Data transfer method
JPH05314075A (en) On-line computer system
JP2001290677A (en) High-speed dump sampling method
JP2509811B2 (en) Task management method
JP2560875B2 (en) Information processing system failure notification method
JP3296378B2 (en) Computer backup system
JPH0744413A (en) Computer backup system
JPH07219802A (en) Duplex control system
JPH04369735A (en) Backup system for computer system
JPH07261989A (en) Control program restoration system
JPH09114765A (en) Distributed data access system
JPH0668002A (en) Network management system
JPH0668034A (en) Online system monitor system
JP2850756B2 (en) Failure recovery method for files in distributed processing system

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 19990518