JP2009123082A - Information processor and method and program for restarting system - Google Patents

Information processor and method and program for restarting system Download PDF

Info

Publication number
JP2009123082A
JP2009123082A JP2007298191A JP2007298191A JP2009123082A JP 2009123082 A JP2009123082 A JP 2009123082A JP 2007298191 A JP2007298191 A JP 2007298191A JP 2007298191 A JP2007298191 A JP 2007298191A JP 2009123082 A JP2009123082 A JP 2009123082A
Authority
JP
Japan
Prior art keywords
file
application
backup
storage means
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007298191A
Other languages
Japanese (ja)
Inventor
Yusuke Yamazaki
雄介 山崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2007298191A priority Critical patent/JP2009123082A/en
Publication of JP2009123082A publication Critical patent/JP2009123082A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To surely restore a backup file when a failure occurs. <P>SOLUTION: An information processor has an external storage means for storing backup files; a local storage means for storing files used by applications; a reboot-related information management means for managing first information to determine at reboot after a failure whether or not a backup file should be restored from the external storage means to the local storage means in the next reboot and, if restoration is needed, to determine a backup file to be restored, and second information to determine a file to be applied in the next reboot; and a restore control means for controlling the restoration of the backup file according to the first information. The reboot-related information management means serves as a functional part of an application and the restore control means serves as an external functional part of the application. <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

本発明は、情報処理装置、システム再開方法及びシステム再開プログラムに関し、例えば、バックアップファイルからシステムを再開させる場合に適用して好適なものである   The present invention relates to an information processing apparatus, a system restart method, and a system restart program, and is suitable for application to, for example, restarting a system from a backup file.

一般に、高信頼性を求められるシステムにおいては、バックアップファイルを複数世代管理している。そのようなシステムでは、バックアップファイルをリストア(復元)する際に、複数世代からバックアップファイルを選択するために、何等かのロジックが必要になる。例えば、特許文献1では、ユーザがリストアするファイルを選択することが記載されている。   Generally, in a system that requires high reliability, multiple generations of backup files are managed. In such a system, when restoring a backup file, some logic is required to select the backup file from multiple generations. For example, Patent Document 1 describes that a user selects a file to be restored.

IP電話サービスを提供するコールサーバのように非常に高い信頼性を求められるシステムにおいては、システム停止時間を最短にするため、障害発生時には、自律的にプロセスの再起動を実施する仕組みを有している。さらに、現用ファイルでの再起動が不可能だと判断された場合、バックアップファイルからの復旧がシステム自律で実施される。このとき、リストアには、可能な限り新しいファイルで復旧させること、システム停止時間を最短にすることが求められる。このため、復旧対象のプログラムは、現用ファイルも含めて複数世代のファイルから最適なファイルを選択するロジックを持つ必要がある。このため、リストア機能も、そのプロセスの他の機能(例えば、ネットワーク通信機能や障害監視など)と同一プロセスに存在するのが一般的である。
特開2006−178645号公報
In a system that requires extremely high reliability, such as a call server that provides IP phone services, there is a mechanism for autonomously restarting processes when a failure occurs in order to minimize system downtime. ing. Furthermore, when it is determined that the current file cannot be restarted, the recovery from the backup file is carried out autonomously by the system. At this time, restoration is required to restore the file as new as possible and to minimize the system stop time. For this reason, the recovery target program needs to have a logic for selecting an optimal file from a plurality of generation files including the current file. For this reason, the restore function is generally present in the same process as other functions of the process (for example, a network communication function and failure monitoring).
JP 2006-178645 A

バックアップファイルからの再開が必要となる主な原因は、アプリケーションの障害によるものである。例えば、新機能の追加やバグの修正などによりプログラムに改修があり、運用中のサーバ上の実行ファイルを更新する場合は、実績のないファイルでの起動となるため、このようなアプリケーションは障害が発生し易い。   The main reason for restarting from a backup file is due to an application failure. For example, if the program has been modified due to the addition of a new function or bug correction, etc., and the executable file on the running server is updated, it will start with an unproven file, so such applications will fail. It is easy to generate.

一方、障害が発生する原因としては、改修によりプログラムが複雑化し、バグが埋め込まれることが挙げられる。   On the other hand, the cause of the failure is that the program becomes complicated and bugs are embedded by renovation.

上述したリストア機能は、一般的には他の機能と同一プロセス内に存在するが、この場合、バグの埋め込みによるプロセス障害が、その障害からの復旧手段であるリストア機能に影響を及ぼす恐れがあった。   The restore function described above generally exists in the same process as other functions. In this case, however, a process failure caused by embedding a bug may affect the restore function that is a means of recovery from the failure. It was.

そのため、アプリケーションの障害をトリガに実行されるバックアップファイルのリストアを確実に実行することができる情報処理装置、システム再開方法及びシステム再開プログラムが望まれている。   Therefore, there is a demand for an information processing apparatus, a system restart method, and a system restart program that can reliably execute a backup file restore that is triggered by an application failure.

第1の本発明の情報処理装置は、(1)少なくとも1つのバックアップファイルを記憶している外部記憶手段と、(2)アプリケーションが利用するファイルを記憶するローカル記憶手段と、(3)上記アプリケーションの障害発生後のシステム再開時に、今回の次のシステム再開時に、上記外部記憶手段から上記ローカル記憶手段へバックアップファイルをリストアするか否か、する場合には、どのバックアップファイルかを決定できる第1の情報、並びに、次のシステム再開時に、現用ファイル及びバックアップファイルのどのファイルを適用するかを決定できる第2の情報を管理するリブート関連情報管理手段と、(4)管理されている第1の情報に従い、上記外部記憶手段から上記ローカル記憶手段へのバックアップファイルのリストアを制御するリストア制御手段とを有し、(5)上記リブート関連情報管理手段が上記アプリケーションの機能部として構成され、上記リストア制御手段が上記アプリケーションの外部の機能部として構成されていることを特徴とする。   The information processing apparatus according to the first aspect of the present invention includes (1) an external storage unit storing at least one backup file, (2) a local storage unit storing a file used by the application, and (3) the application When the system is restarted after the occurrence of a failure, whether or not to restore the backup file from the external storage means to the local storage means at the next system restart time can be determined. And reboot related information management means for managing second information that can determine which of the current file and the backup file to apply at the time of the next system restart, and (4) the first managed In accordance with the information, a list of backup files from the external storage means to the local storage means (5) the reboot related information management unit is configured as a function unit of the application, and the restore control unit is configured as a function unit external to the application. Features.

第2の本発明は、外部記憶手段に記憶されているバックアップファイルの中の1つを、アプリケーションが利用するファイルを記憶するローカル記憶手段にリストアしてシステムを再開することも可能なシステム再開方法において、(1)リブート関連情報管理手段が、上記アプリケーションの障害発生後のシステム再開時に、今回の次のシステム再開時に、上記外部記憶手段から上記ローカル記憶手段へバックアップファイルをリストアするか否か、する場合には、どのバックアップファイルかを決定できる第1の情報、並びに、次のシステム再開時に、現用ファイル及びバックアップファイルのどのファイルを適用するかを決定できる第2の情報を管理し、(2)リストア制御手段が、管理されている第1の情報に従い、上記外部記憶手段から上記ローカル記憶手段へのバックアップファイルのリストアを制御すると共に、(3)上記リブート関連情報管理手段が上記アプリケーションの機能部として構成され、上記リストア制御手段が上記アプリケーションの外部の機能部として構成されていることを特徴とする。   The second aspect of the present invention is a system resumption method capable of restoring one of backup files stored in an external storage means to a local storage means for storing a file used by an application and restarting the system. (1) Whether the reboot related information management means restores the backup file from the external storage means to the local storage means at the time of the next system restart after the system failure after the occurrence of the application failure, In this case, the first information that can determine which backup file is to be managed, and the second information that can determine which of the current file and the backup file are to be applied when the next system restarts are managed. ) According to the first information managed by the restore control means, the external storage device (3) The reboot related information management unit is configured as a function unit of the application, and the restore control unit is configured as a function unit external to the application. It is characterized by.

第3の本発明のシステム再開プログラムは、少なくとも1つのバックアップファイルを記憶している外部記憶手段と、アプリケーションが利用するファイルを記憶するローカル記憶手段とを含むコンピュータを、(1)上記アプリケーションの障害発生後のシステム再開時に、今回の次のシステム再開時に、上記外部記憶手段から上記ローカル記憶手段へバックアップファイルをリストアするか否か、する場合には、どのバックアップファイルかを決定できる第1の情報、並びに、次のシステム再開時に、現用ファイル及びバックアップファイルのどのファイルを適用するかを決定できる第2の情報を管理するリブート関連情報管理手段と、(2)管理されている第1の情報に従い、上記外部記憶手段から上記ローカル記憶手段へのバックアップファイルのリストアを制御するリストア制御手段として機能させると共に、(3)上記リブート関連情報管理手段が上記アプリケーションの機能部として構成され、上記リストア制御手段が上記アプリケーションの外部の機能部として構成されていることを特徴とする。   According to a third aspect of the present invention, there is provided a system restart program comprising: (1) a failure of the application, including: an external storage unit storing at least one backup file; and a local storage unit storing a file used by the application. First information that can determine which backup file is to be restored whether or not to restore a backup file from the external storage means to the local storage means at the time of the next system restart after the occurrence of the system And reboot related information management means for managing second information capable of determining which file of the current file and the backup file to apply at the time of the next system restart, and (2) according to the managed first information Backup from the external storage means to the local storage means (3) The reboot related information management unit is configured as a function unit of the application, and the restore control unit is configured as a function unit external to the application. It is characterized by being.

本発明によれば、リストア制御手段を、複雑になりがちな他手段と切り分けて構築しているので、バックアップファイルのリストアを確実に実行できるようになる。   According to the present invention, the restore control unit is constructed separately from other units that tend to be complicated, so that the backup file can be restored reliably.

(A)主たる実施形態
以下、本発明による情報処理装置及びプロセス再開方法の一実施形態を、図面を参照しながら詳述する。実施形態の情報処理装置は、IP電話サービスを提供するコールサーバのような、非常に高い信頼性を求められるサーバである。
(A) Main Embodiment Hereinafter, an embodiment of an information processing apparatus and a process restarting method according to the present invention will be described in detail with reference to the drawings. The information processing apparatus according to the embodiment is a server that is required to have extremely high reliability, such as a call server that provides an IP telephone service.

この実施形態は、リストア機能部を他の機能部と別プロセスとする。また、リストアする際に必要な世代判断のロジックを主たる機能部に持たせることでリストア機能を単純化している。これにより、障害が発生した場合でも、その復旧手段であるリストアを確実に行う方法である。   In this embodiment, the restore function unit is a separate process from the other function units. In addition, the restore function is simplified by providing the main function unit with generation determination logic necessary for restoration. As a result, even if a failure occurs, this is a method for reliably performing restoration as a recovery means.

(A−1)実施形態の構成
図1は、実施形態に係るサーバのリストア機能に関するシステム構成を示すブロック図である。なお、サーバは、CPU、ROM、RAMなどを備え、後述するOSやアプリケーションやバックアッププロセスの処理は、ハードウェア的にはCPUが実行するものである。
(A-1) Configuration of Embodiment FIG. 1 is a block diagram illustrating a system configuration related to a restore function of a server according to the embodiment. The server includes a CPU, a ROM, a RAM, and the like, and an OS, an application, and a backup process, which will be described later, are executed by the CPU in terms of hardware.

例えば、コールサーバが該当するサーバ1には、ローカルディスク5などを有するハードウェアと、後述するソフトウェアを連携させるためのlinux(登録商標)などのOS2が搭載されている。このOS2上でアプリケーション3やバックアッププロセス4などのプロセスが動作する。アプリケーション3は、当該サーバ1が提供するサービスプロセス(例えば呼処理サービス)に係る処理を実行するものであり、ローカルディスク5上にある実行ファイルが実行されることにより起動する。   For example, the server 1 corresponding to the call server is equipped with an OS 2 such as Linux (registered trademark) for linking hardware having a local disk 5 or the like and software described later. Processes such as the application 3 and the backup process 4 operate on the OS 2. The application 3 executes a process related to a service process (for example, a call processing service) provided by the server 1, and starts when an executable file on the local disk 5 is executed.

サーバ1の外部に設けられている外部ディスク7には、複数世代のバックアップファイルが保存されている。ローカルディスク5上に管理される再開情報ファイル6は、リストアに関する情報が記述されるファイルである。アプリケーション3は、次にリストアすべき世代を決定し、この再開情報ファイル6に書き込む動作を実行すると共に、次回起動時には、再度この再開情報ファイル6を読み込んで、さらに次のリストアすべき世代を決定するものである。バックアッププロセス4は、常駐せず、必要に応じて(障害発生時などに)、OS2又はアプリケーション3から起動されるものである。   A plurality of generations of backup files are stored on the external disk 7 provided outside the server 1. The resume information file 6 managed on the local disk 5 is a file in which information related to restoration is described. The application 3 determines a generation to be restored next, executes an operation of writing to the resume information file 6, and reads the resume information file 6 again at the next startup, and further determines a generation to be restored next. To do. The backup process 4 is not resident, and is started from the OS 2 or the application 3 as necessary (when a failure occurs).

ローカルディスク5や外部ディスク7は、ハードディスクや光ディスクで構成されているものに限定されず、他の大容量記憶装置に構成されていても良い。   The local disk 5 and the external disk 7 are not limited to those configured by a hard disk or an optical disk, but may be configured by other mass storage devices.

図2は、再開情報ファイル6が保持する情報(設定項目)を示している。再開情報ファイル6では、次回リストアファイルF11、次回起動ファイルF12、リトライ回数F13の情報を管理する。   FIG. 2 shows information (setting items) held in the resume information file 6. The resume information file 6 manages information on the next restore file F11, the next startup file F12, and the retry count F13.

次回リストアファイルF11は、次回のシステム起動時に、外部ディスク7からリストアすべきファイルを表している。後述するように、ローカルディスク5に格納されている現用ファイルが、次回のシステム起動時に利用されることもあり、このような場合には、次回リストアファイルは「なし」となる。次回起動ファイルF12は、次回のシステム起動時に、シンボリックリンク(一種のポインタである)「/opt/application」が指すべきリンク先を表している(図4〜図7参照)。リトライ回数F13は、現在起動している世代のバックアップファイルを用いたリトライ回数を表している。   The next restore file F11 represents a file to be restored from the external disk 7 at the next system startup. As will be described later, the current file stored in the local disk 5 may be used at the next system startup. In such a case, the next restore file is “none”. The next activation file F12 represents a link destination that a symbolic link (a kind of pointer) “/ opt / application” should point to at the next system activation (see FIGS. 4 to 7). The retry count F13 represents the retry count using the backup file of the currently activated generation.

図3は、外部ディスク7に世代別に保存されているバックアップファイル例を示す説明図である。図3に示す例では、外部ディスク7には、前回ファイルF21と保障ファイルF22とが格納されている状態を示している。なお、バックアップファイルの数が2個に限定されないことは勿論である。   FIG. 3 is an explanatory view showing an example of a backup file stored in the external disk 7 for each generation. In the example shown in FIG. 3, the external disk 7 shows a state where the previous file F21 and the guarantee file F22 are stored. Of course, the number of backup files is not limited to two.

前回ファイルF21は、例えば、前日の所定時刻に格納動作された、現在運用中のファイルの1世代前のファイルである。保障ファイルF22は、前回ファイルよりも古い世代のファイルであり、起動することを保障し得るファイル(例えば、過去の障害時に正常起動ができたファイル)である。ここで、バックアップファイルとは、アプリケーションの実行ファイル、コンフィグファイル、各種データファイルなどが含まれるものである。外部ディスク7上のバックアップファイルを、ローカルディスク5上に復元し、アプリケーション3を起動することにより、バックアップ実施時点の状態でアプリケーション3を起動することができる。また、バックアップファイルからの起動では、可能な限り、新しいバックアップファイルで起動させようとする。図3の例の場合、前回ファイルF21から起動を試みることになる。   The previous file F21 is, for example, a file one generation before the currently operating file that was stored at a predetermined time on the previous day. The guarantee file F22 is a file of a generation older than the previous file, and is a file that can be guaranteed to be activated (for example, a file that has been normally activated at the time of a past failure). Here, the backup file includes an application execution file, a configuration file, various data files, and the like. By restoring the backup file on the external disk 7 to the local disk 5 and starting the application 3, the application 3 can be started in the state at the time of backup execution. In addition, when starting from a backup file, an attempt is made to start with a new backup file as much as possible. In the case of the example of FIG. 3, the activation is attempted from the previous file F21.

図4〜図7は、ローカルディスク4についてアプリケーション2が使用するディレクトリ構成を示す説明図である。   4 to 7 are explanatory diagrams showing a directory structure used by the application 2 for the local disk 4.

図4〜図7において、ディレクトリ/data/data1〜/data/data3は、現用ファイル、バックアップファイルを示している。   4 to 7, directories / data / data1 to / data / data3 indicate working files and backup files.

例えば、図4〜図6において、ディレクトリ/data/data1は現用ファイルに係るディレクトリであり、ディレクトリ/data/data2は保障ファイルに係るディレクトリであり、ディレクトリ/data/data3は前回ファイルに係るディレクトリである。一方、図7において、ディレクトリ/data/data1は前回ファイルに係るディレクトリであり、ディレクトリ/data/data2は保障ファイルに係るディレクトリであり、ディレクトリ/data/data3は現用ファイルに係るディレクトリである。例えば、ディレクトリ/data/data3の前回ファイルをバックアップファイルとして用いた障害復旧(図6参照)が正常に終了したときには、図7に示す状態に移行する。   For example, in FIGS. 4 to 6, directory / data / data 1 is a directory related to the current file, directory / data / data 2 is a directory related to the security file, and directory / data / data 3 is a directory related to the previous file. . On the other hand, in FIG. 7, the directory / data / data1 is a directory related to the previous file, the directory / data / data2 is a directory related to the security file, and the directory / data / data3 is a directory related to the working file. For example, when failure recovery (see FIG. 6) using the previous file of directory / data / data3 as a backup file is completed normally, the state shifts to the state shown in FIG.

シンボリックリンク/apl/REALは、現用ファイルのディレクトリへのシンボリックリンクであり、/apl/BK0は、保障ファイルのディレクトリへのシンボリックリンクであり、/apl/BK1は、前回ファイルのディレクトリへのシンボリックリンクである。また、シンボリックリンクopt/application/は、現用ファイルへのシンボリックリンク/apl/REAL、保障ファイルへのシンボリックリンク/apl/BK0、又は、前回ファイルへのシンボリックリンク/apl/BK1へのシンボリックリンクである。図4及び図7は、シンボリックリンクopt/application/が/apl/REALにリンクしている場合を示しており、図5は、シンボリックリンクopt/application/が/apl/BK0にリンクしている場合を示しており、図6は、シンボリックリンクopt/application/が/apl/BK1にリンクしている場合を示している。   Symbolic link / apl / REAL is a symbolic link to the directory of the current file, / apl / BK0 is a symbolic link to the directory of the guarantee file, and / apl / BK1 is a symbolic link to the directory of the previous file. It is. The symbolic link opt / application / is a symbolic link to the current file / apl / REAL, a symbolic link to the security file / apl / BK0, or a symbolic link to the previous file / apl / BK1. . 4 and 7 show a case where the symbolic link opt / application / is linked to / appl / REAL, and FIG. 5 shows a case where the symbolic link opt / application / is linked to / apl / BK0. FIG. 6 shows a case where the symbolic link opt / application / is linked to / ap1 / BK1.

(A−2)実施形態の動作
次に、実施形態の情報処理装置の動作(プロセス再開方法)を、図面を参照しながら説明する。以下では、現用ファイルを用いていた処理で障害が発生し、バックアップファイルでの立ち上げを繰り返す動作を説明する。
(A-2) Operation of Embodiment Next, the operation (process restart method) of the information processing apparatus of the embodiment will be described with reference to the drawings. In the following, a description will be given of an operation in which a failure occurs in the process using the current file and the startup with the backup file is repeated.

まず、現用ファイルを用いていた処理で障害が発生したためにリブートが発生する際の動作を、図8のシーケンス図を参照しながら説明する。   First, the operation when a reboot occurs because a failure has occurred in the process using the current file will be described with reference to the sequence diagram of FIG.

アプリケーション3が現用ファイルを用いて実行した処理で障害が発生すると、アプリケーション3からOS2へシャットダウンが要求され、OS2はシャットダウン処理を開始する(S1)。このシャットダウン処理の中で、OS2によって、バックアッププロセス4が起動される。なお、アプリケーション3がバックアッププロセス4を起動するようにしても良い。現用ファイルを用いていた処理状況下では、OS2の管理下にある再開情報ファイル6(図2参照)の初期設定値は、次回リストアファイルが「なし」、次回起動ファイルが「REAL」(現用ファイル)であり、リトライ回数が「0」である(S2)。起動されたバックアッププロセス4は、このような再開情報ファイル6を読み込むが(S3)、次回起動ファイルがREALであり、現在のシンボリックリンク/opt/applicationが指しているディレクトリもREALであって、同一なのでシンボリックリンクの変更等をしない(S4)。   If a failure occurs in the process executed by the application 3 using the current file, the application 3 requests the OS 2 to shut down, and the OS 2 starts the shutdown process (S1). In this shutdown process, the backup process 4 is activated by the OS 2. Note that the application 3 may activate the backup process 4. Under the processing situation in which the current file is used, the initial value of the resume information file 6 (see FIG. 2) under the management of the OS 2 is “None” for the next restore file and “REAL” for the next startup file (current file). ) And the number of retries is “0” (S2). The activated backup process 4 reads such a resume information file 6 (S3), but the next activated file is REAL, and the directory pointed to by the current symbolic link / opt / application is also REAL, which is the same. Therefore, the symbolic link is not changed (S4).

その後、OS2がリブートされる(S5)。このような障害発生後の1回目のリブートがなされた後の動作を、図9のシーケンス図に示している。   Thereafter, the OS 2 is rebooted (S5). The operation after the first reboot after the occurrence of such a failure is shown in the sequence diagram of FIG.

OS2のリブート後、開始されたOS2の起動処理の中で(S6)、バックアッププロセス4が起動される。これにより、バックアッププロセス4は、再開情報ファイル6を読み込むが(S7)、このときの次回リストアファイルが「なし」であることから、何らの処理も実行しない(S8)。OS2のリブート後、アプリケーション3は自律的に起動し(S9)、再開情報ファイル6の内容を更新する(S10〜S12)。その後、サービスプロセス(例えば呼処理プロセス)が起動される(S13)。   After the OS 2 is rebooted, the backup process 4 is activated in the started OS 2 activation process (S6). As a result, the backup process 4 reads the resume information file 6 (S7), but since the next restore file at this time is “none”, no processing is executed (S8). After the OS 2 is rebooted, the application 3 starts autonomously (S9), and updates the contents of the resume information file 6 (S10 to S12). Thereafter, a service process (for example, a call processing process) is started (S13).

再開情報ファイル6の更新処理は、再開情報ファイル6の読み込み、設定内容の算出、再開情報ファイル6の書き込みという一連の処理でなされる。   The update process of the resume information file 6 is performed by a series of processes such as reading the resume information file 6, calculating setting contents, and writing the resume information file 6.

図13は、更新内容の判定ロジックを示す説明図(フローチャート)である。アプリケーション3は、この更新内容の判定ロジックに従って、再開情報ファイル6を更新する。   FIG. 13 is an explanatory diagram (flow chart) showing the determination logic of the update content. The application 3 updates the restart information file 6 according to the determination logic of the update content.

図13において、まず、再開情報ファイル6のリトライ回数(F13)が、リブートで適用されたファイル(現用ファイル又はリストアされたバックアップファイル)について実行された予め定められている最大リトライ回数に達しているか否かを判別する(S100)。なお、リストアされたバックアップファイルは、リストアされた時点で現用ファイルとなっている。   In FIG. 13, first, whether the number of retries (F13) of the restart information file 6 has reached the predetermined maximum number of retries executed for a file applied by rebooting (current file or restored backup file). It is determined whether or not (S100). Note that the restored backup file is an active file at the time of restoration.

最大リトライ回数に達していなければ、再開情報ファイル6のリトライ回数を1インクリメントした後(S101)、そのインクリメント後のリトライ回数が最大リトライ回数と等しいか否かを判別する(S102)。インクリメント後のリトライ回数が最大リトライ回数より小さいならば、再開情報ファイル6を、図13の「結果1」のようにする(S103)。すなわち、次回リストアファイルを「なし」、次回起動ファイルを「変更なし(今までのもののまま)」、リトライ回数を「インクリメント後の回数」とする。   If the maximum number of retries has not been reached, the number of retries in the resume information file 6 is incremented by 1 (S101), and it is determined whether the number of retries after the increment is equal to the maximum number of retries (S102). If the number of retries after the increment is smaller than the maximum number of retries, the restart information file 6 is changed to “Result 1” in FIG. 13 (S103). That is, the next restore file is “none”, the next startup file is “no change (as it was before)”, and the number of retries is “number after increment”.

一方、インクリメント後のリトライ回数が最大リトライ回数に等しい場合には、さらに、図3に示すような情報を参照し、次に起動するべき世代のバックアップファイルがあるか否かを判断する(S104)。次に起動するべき世代のバックアップファイルがあると、再開情報ファイル6を、図13の「結果2」のようにし(S105)、次に起動するべき世代のバックアップファイルがないと、再開情報ファイル6を、図13の「結果3」のようにする(S106)。「結果2」では、次回リストアファイルを「次世代(今のものの次の世代)」、次回起動ファイルを「変更なし(今までのもののまま)」、リトライ回数を「0」とする。「結果3」では、次回リストアファイルを「なし」、次回起動ファイルを「なし」、リトライ回数を「0」とし、アプリケーション3を停止する。リトライを、最下位の世代のファイルを適用して行う状態になり、しかも、最下位の世代のファイルを適用したリトライを最大リトライ回数行っても正常な再起動ができなかったため、アプリケーション3を停止することとしている。   On the other hand, if the number of retries after increment is equal to the maximum number of retries, the information as shown in FIG. 3 is further referred to to determine whether there is a generation backup file to be started next (S104). . If there is a generation backup file to be activated next, the resume information file 6 is changed to “Result 2” in FIG. 13 (S105). If there is no generation backup file to be activated next, the resume information file 6 is restored. Is set as “Result 3” in FIG. 13 (S106). In “Result 2”, the next restore file is “next generation (next generation of the current one)”, the next startup file is “no change (as it was before)”, and the retry count is “0”. In “Result 3”, the next restore file is “None”, the next startup file is “None”, the number of retries is “0”, and the application 3 is stopped. Retry is performed by applying the file of the lowest generation, and the application 3 is stopped because a normal restart could not be performed even if the maximum number of retries was applied. To do.

上述したステップS100の判断の肯定結果が得られたときには、図3に示すような情報を参照し、次に起動するべき世代のバックアップファイルがあるか否かを判断する(S107)。次に起動するべき世代のバックアップファイルがないと、再開情報ファイル6を、図13の「結果3」のようにする(S106)。   When a positive result of the determination in step S100 described above is obtained, information as shown in FIG. 3 is referred to and it is determined whether there is a generation backup file to be started next (S107). If there is no generation backup file to be activated next, the resume information file 6 is changed to “Result 3” in FIG. 13 (S106).

これに対して、次に起動するべき世代のバックアップファイルがあると、さらに、次に起動するべき世代のバックアップファイルを用いた最大リトライ回数が0か否かを判別する(S108)。最大リトライ回数が0であれば、再開情報ファイル6を、図13の「結果4」のようにし(S109)、最大リトライ回数が0でなければ、再開情報ファイル6を、図13の「結果5」のようにする(S110)。「結果4」では、次回リストアファイルを「次世代」、次回起動ファイルを「次世代」、リトライ回数を「0」とする。「結果5」では、次回リストアファイルを「なし」、次回起動ファイルを「次世代」、リトライ回数を「0」とする。   On the other hand, if there is a generation backup file to be activated next, it is further determined whether or not the maximum number of retries using the generation backup file to be activated next is 0 (S108). If the maximum number of retries is 0, the resume information file 6 is set as “result 4” in FIG. 13 (S109). If the maximum number of retries is not 0, the resume information file 6 is stored in “result 5” of FIG. (S110). In “Result 4”, the next restore file is “next generation”, the next startup file is “next generation”, and the retry count is “0”. In “Result 5”, the next restore file is “None”, the next startup file is “Next Generation”, and the retry count is “0”.

ここで、現用ファイルでの最大リトライ回数が1回、前回ファイルや保障ファイルでの最大リトライ回数が0回に設定されているとする。このような設定は、コンフィグファイルに記述することで、ユーザによる設定が可能である。   Here, it is assumed that the maximum number of retries for the current file is set to 1 and the maximum number of retries for the previous file or the security file is set to 0. Such settings can be set by the user by describing them in the configuration file.

図9のステップS10〜S12の再開情報ファイル6の更新では、図13のステップS101によってリトライ回数が0から1にインクリメントされる。インクリメント後のリトライ回数「1」は最大リトライ回数に等しく、次の世代として前回ファイルが存在するため、図13の「結果2」の内容で、再開情報ファイル6が更新される。   In updating the restart information file 6 in steps S10 to S12 in FIG. 9, the number of retries is incremented from 0 to 1 in step S101 in FIG. Since the retry count “1” after the increment is equal to the maximum retry count and the previous file exists as the next generation, the restart information file 6 is updated with the contents of “Result 2” in FIG.

ステップS13のプロセス起動処理の際に再び障害が発生すると、OS2は、シャットダウン処理を開始し(S14)、このとき、バックアッププロセス4は再開情報ファイル6を読み込むが(S15)、次回起動ファイルはREAL(現用ファイル)であっていままでと同じであるため、バックアッププロセス4は何もせず(S16)、OSリブートがなされる(S17)。   If a failure occurs again during the process activation process in step S13, the OS 2 starts a shutdown process (S14). At this time, the backup process 4 reads the restart information file 6 (S15), but the next activation file is REAL. Since it is the same as it is (active file), the backup process 4 does nothing (S16), and the OS is rebooted (S17).

OS2のリブート後(図10)、OS2の起動処理が開始され(S18)、この起動処理中に起動されたバックアッププロセス4は、再開情報ファイル6を読み込み(S19)、読み込んだ再開情報ファイル6(図9のステップS11参照)に従い、前回ファイルを外部ディスク7から、/apl/BKF1にロードする(S20)。ロードには時間がかかるため、OS2は、バックアッププロセス4を動作させたまま、アプリケーション3の起動処理を実行する(S21)。アプリケーション3では、図13に示した判定ロジックに従って、再開情報ファイル6を更新する(S22〜S24)。その後、サービスプロセスが起動される(S25)。   After the OS 2 is rebooted (FIG. 10), the OS 2 activation process is started (S18). The backup process 4 activated during the activation process reads the resume information file 6 (S19), and the read resume information file 6 ( According to step S11 in FIG. 9, the previous file is loaded from the external disk 7 to / apl / BKF1 (S20). Since loading takes time, the OS 2 executes the activation process of the application 3 while the backup process 4 is operating (S21). In the application 3, the restart information file 6 is updated according to the determination logic shown in FIG. 13 (S22 to S24). Thereafter, the service process is activated (S25).

このときの再開情報ファイル6の更新では、図13の「結果4」が適用され、次回リストアファイルを「2」(保障ファイル)、次回起動ファイルを「BK1」(前回ファイル)、リトライ回数を「0」とする。   In updating the restart information file 6 at this time, “Result 4” in FIG. 13 is applied, the next restore file is “2” (guaranteed file), the next startup file is “BK1” (previous file), and the retry count is “ 0 ”.

サービスプロセスの起動中に、再び障害が発生すると、OS2は、シャットダウン処理を開始し(S26)、このとき、バックアッププロセス4は再開情報ファイル6を読み込むが(S27)、読み込んだ再開情報ファイルの次回起動ファイルが「BK1」であるので、/opt/applicationのシンボリックリンクを/apl/BK1に変更する(S28)。この変更により、シンボリックリンク構成は図4から図5に変化したことになる。   If a failure occurs again during the activation of the service process, the OS 2 starts a shutdown process (S26). At this time, the backup process 4 reads the resume information file 6 (S27). Since the activation file is “BK1”, the symbolic link of / opt / application is changed to / apl / BK1 (S28). With this change, the symbolic link configuration is changed from FIG. 4 to FIG.

これにより、OSリブート後のアプリケーション3は、通常通り/opt/application配下のファイルを実行することで、外部ディスク7からロードされた前回ファイルが復元されることになる。   As a result, the application 3 after the OS reboot executes the file under / opt / application as usual, so that the previous file loaded from the external disk 7 is restored.

このときのOSリブート後(S29)の動作(図11)を簡単に説明する。バックアッププロセス4は、外部ディスク7から保障ファイルをロードする(S32)。また、アプリケーション3は、図13の判定ロジックに従って、再開情報ファイル6を、次回リストアファイルを「なし」、次回起動ファイルを「BK2」(保障ファイル)、リトライ回数を「0」とするように更新する(S34〜S36)。障害発生により、OSリブートが実行されると、シャットダウン処理中に、バックアッププロセス4は、/opt/applicationのシンボリックリンクを/apl/BK2に変更する。この変更により、シンボリックリンク構成は図5から図6に変化したことになる。これにより、OSリブート後のアプリケーション3は、外部ディスク7からロードされた保障ファイルから起動されることになる。   The operation after the OS reboot (S29) at this time (FIG. 11) will be briefly described. The backup process 4 loads the security file from the external disk 7 (S32). Further, the application 3 updates the resume information file 6 so that the next restore file is “none”, the next startup file is “BK2” (guaranteed file), and the retry count is “0” according to the determination logic of FIG. (S34 to S36). When an OS reboot is executed due to a failure, the backup process 4 changes the symbolic link of / opt / application to / apl / BK2 during the shutdown process. With this change, the symbolic link configuration is changed from FIG. 5 to FIG. As a result, the application 3 after the OS reboot is started from the guarantee file loaded from the external disk 7.

このときのOSリブート後(S41)の動作(図12)を簡単に説明する。OSリブート後、バックアッププロセス4は、リストア要求がないことから外部ディスク7からのロードは行わない(S44)。また、アプリケーション3は、図13の判定ロジックに従って再開情報ファイル6を更新するが(S46〜S48)、このとき、これ以上のエスカレーションは行えず、図13中の「結果3」と判定され、次回リストアファイルを「なし」、次回起動ファイルを「なし」、リトライ回数を「0」とするように更新する。図12では記載していないが、仮に、この後、障害発生した場合は、OSリブートせずアプリケーション3は停止する。   The operation after the OS reboot (S41) at this time (FIG. 12) will be briefly described. After the OS reboot, the backup process 4 does not load from the external disk 7 because there is no restore request (S44). Further, the application 3 updates the restart information file 6 according to the determination logic of FIG. 13 (S46 to S48). At this time, no further escalation can be performed, and it is determined as “Result 3” in FIG. The restore file is updated to “None”, the next startup file is set to “None”, and the retry count is set to “0”. Although not shown in FIG. 12, if a failure occurs after this, the application 3 stops without rebooting the OS.

図12は、この保障ファイルでのアプリケーション起動が成功した場合を示している。起動に成功すると(S49)、アプリケーション3は、バックアッププロセス4によって、/opt/applicationのリンク先を/apl/REALに、/apl/REALのリンク先を/data/data3に変更する(S50)。この変更により、シンボリックリンク構成は図6から図7に変化したことになる。   FIG. 12 shows a case where the application is successfully activated with this guarantee file. If the activation is successful (S49), the application 3 changes the link destination of / opt / application to / apl / REAL and the link destination of / apl / REAL to / data / data3 by the backup process 4 (S50). With this change, the symbolic link configuration is changed from FIG. 6 to FIG.

また、アプリケーション3は、再開情報ファイル6も、次回リストアファイルが「なし」、次回起動ファイルが「REAL」(現用ファイル)、リトライ回数が「0」である初期状態に設定し直す(S51、S52)。   Also, the application 3 resets the resume information file 6 to the initial state where the next restore file is “none”, the next startup file is “REAL” (active file), and the retry count is “0” (S51, S52). ).

(A−3)実施形態の効果
上記実施形態では、複雑になりがちな他機能部と、リストア機能部を別プロセスとするようにしたので、アプリケーションで障害が発生した場合でも、バックアップ機能には影響を与えず、バックアップファイルのリストア失敗を回避することができる(言い換えると、バックアップファイルのリストアを確実に実行できる)。
(A-3) Effects of the embodiment In the above embodiment, the other function unit, which tends to be complicated, and the restore function unit are set as separate processes. Therefore, even if a failure occurs in the application, the backup function includes The backup file restore failure can be avoided without influencing (in other words, the backup file restore can be executed reliably).

(B)他の実施形態
再開情報ファイル6の項目や構成は、上記実施形態ものに限らず、次にリストアすべき世代のバックアップファイル、次に起動すべきファイルが判定できれば良い。例えば、前回起動したファイルの情報やそのリトライ回数を格納するようにしておいて、それに基づいて、次にリストアすべき世代のバックアップファイル、次に起動すべきファイルを判定させるようにしても良い。
(B) Other Embodiments The items and configuration of the resume information file 6 are not limited to those in the above embodiment, and it is sufficient that the next generation backup file to be restored and the file to be activated next can be determined. For example, information on the previously activated file and the number of retries thereof may be stored, and based on this information, the next generation backup file to be restored and the next activated file may be determined.

また、再開情報ファイル6のような仕組みを用いずに、アプリケーション3内で、次にリストアすべき世代、次に起動すべきファイルが判定できるようにしても良い。例えば、次にリストアすべき世代、次に起動すべきファイルの複数の組合せを、状態遷移図的な情報として管理するようにしても良い。   Further, without using the mechanism such as the restart information file 6, the next generation to be restored and the next file to be activated may be determined in the application 3. For example, a plurality of combinations of generations to be restored next and files to be activated next may be managed as state transition diagram information.

実施形態に係るサーバのリストア機能に関するシステム構成を示すブロック図である。It is a block diagram which shows the system configuration regarding the restore function of the server which concerns on embodiment. 実施形態の再開情報ファイルが保持する情報(設定項目)を示す説明図である。It is explanatory drawing which shows the information (setting item) which the restart information file of embodiment hold | maintains. 実施形態の外部ディスクに世代別に保存されているバックアップファイル例を示す説明図である。It is explanatory drawing which shows the example of the backup file preserve | saved according to the generation in the external disk of embodiment. 実施形態における、ローカルディスクについてアプリケーションが使用するディレクトリ構成を示す説明図(1)である。It is explanatory drawing (1) which shows the directory structure which an application uses about a local disk in embodiment. 実施形態における、ローカルディスクについてアプリケーションが使用するディレクトリ構成を示す説明図(2)である。It is explanatory drawing (2) which shows the directory structure which an application uses about a local disk in embodiment. 実施形態における、ローカルディスクについてアプリケーションが使用するディレクトリ構成を示す説明図(3)である。It is explanatory drawing (3) which shows the directory structure which an application uses about a local disk in embodiment. 実施形態における、ローカルディスクについてアプリケーションが使用するディレクトリ構成を示す説明図(4)である。It is explanatory drawing (4) which shows the directory structure which an application uses about a local disk in embodiment. 実施形態におけるバックアップ再開動作を示すシーケンス図(1)である。It is a sequence diagram (1) which shows the backup resumption operation | movement in embodiment. 実施形態におけるバックアップ再開動作を示すシーケンス図(2)である。It is a sequence diagram (2) which shows the backup resumption operation | movement in embodiment. 実施形態におけるバックアップ再開動作を示すシーケンス図(3)である。It is a sequence diagram (3) which shows the backup resumption operation | movement in embodiment. 実施形態におけるバックアップ再開動作を示すシーケンス図(4)である。It is a sequence diagram (4) which shows the backup resumption operation | movement in embodiment. 実施形態におけるバックアップ再開動作を示すシーケンス図(5)である。It is a sequence diagram (5) which shows the backup resumption operation | movement in embodiment. 実施形態における、再開情報ファイルの更新内容の判定ロジックを示す説明図である。It is explanatory drawing which shows the determination logic of the update content of a restart information file in embodiment.

符号の説明Explanation of symbols

1…サーバ、2…OS、3…アプリケーション、4…バックアッププロセス、5…ローカルディスク、6…再開情報ファイル、7…外部ディスク。   DESCRIPTION OF SYMBOLS 1 ... Server, 2 ... OS, 3 ... Application, 4 ... Backup process, 5 ... Local disk, 6 ... Resume information file, 7 ... External disk.

Claims (3)

少なくとも1つのバックアップファイルを記憶している外部記憶手段と、
アプリケーションが利用するファイルを記憶するローカル記憶手段と、
上記アプリケーションの障害発生後のシステム再開時に、今回の次のシステム再開時に、上記外部記憶手段から上記ローカル記憶手段へバックアップファイルをリストアするか否か、する場合には、どのバックアップファイルかを決定できる第1の情報、並びに、次のシステム再開時に、現用ファイル及びバックアップファイルのどのファイルを適用するかを決定できる第2の情報を管理するリブート関連情報管理手段と、
管理されている第1の情報に従い、上記外部記憶手段から上記ローカル記憶手段へのバックアップファイルのリストアを制御するリストア制御手段とを有し、
上記リブート関連情報管理手段が上記アプリケーションの機能部として構成され、上記リストア制御手段が上記アプリケーションの外部の機能部として構成されている
ことを特徴とする情報処理装置。
External storage means storing at least one backup file;
A local storage means for storing files used by the application;
When the system is restarted after the failure of the application, whether or not to restore the backup file from the external storage unit to the local storage unit at the next system restart can be determined. Reboot related information management means for managing the first information and the second information capable of determining which file of the current file and the backup file to be applied when the next system is restarted;
A restore control means for controlling restoration of a backup file from the external storage means to the local storage means according to the managed first information;
The information processing apparatus, wherein the reboot related information management unit is configured as a function unit of the application, and the restore control unit is configured as a function unit external to the application.
外部記憶手段に記憶されているバックアップファイルの中の1つを、アプリケーションが利用するファイルを記憶するローカル記憶手段にリストアしてシステムを再開することも可能なシステム再開方法において、
リブート関連情報管理手段が、上記アプリケーションの障害発生後のシステム再開時に、今回の次のシステム再開時に、上記外部記憶手段から上記ローカル記憶手段へバックアップファイルをリストアするか否か、する場合には、どのバックアップファイルかを決定できる第1の情報、並びに、次のシステム再開時に、現用ファイル及びバックアップファイルのどのファイルを適用するかを決定できる第2の情報を管理し、
リストア制御手段が、管理されている第1の情報に従い、上記外部記憶手段から上記ローカル記憶手段へのバックアップファイルのリストアを制御すると共に、
上記リブート関連情報管理手段が上記アプリケーションの機能部として構成され、上記リストア制御手段が上記アプリケーションの外部の機能部として構成されている
ことを特徴とするシステム再開方法。
In the system restart method, one of the backup files stored in the external storage means can be restored to the local storage means for storing the file used by the application and the system can be restarted.
When the reboot related information management means determines whether or not to restore the backup file from the external storage means to the local storage means at the time of the next system restart after the system failure after the failure of the application, Managing first information that can determine which backup file, and second information that can determine which of the current file and the backup file to apply when the next system restarts;
The restore control means controls the restoration of the backup file from the external storage means to the local storage means according to the managed first information,
The system resumption method, wherein the reboot related information management unit is configured as a function unit of the application, and the restore control unit is configured as a function unit external to the application.
少なくとも1つのバックアップファイルを記憶している外部記憶手段と、アプリケーションが利用するファイルを記憶するローカル記憶手段とを含むコンピュータを、
上記アプリケーションの障害発生後のシステム再開時に、今回の次のシステム再開時に、上記外部記憶手段から上記ローカル記憶手段へバックアップファイルをリストアするか否か、する場合には、どのバックアップファイルかを決定できる第1の情報、並びに、次のシステム再開時に、現用ファイル及びバックアップファイルのどのファイルを適用するかを決定できる第2の情報を管理するリブート関連情報管理手段と、
管理されている第1の情報に従い、上記外部記憶手段から上記ローカル記憶手段へのバックアップファイルのリストアを制御するリストア制御手段として機能させると共に、
上記リブート関連情報管理手段が上記アプリケーションの機能部として構成され、上記リストア制御手段が上記アプリケーションの外部の機能部として構成されている
ことを特徴とするシステム再開プログラム。
A computer comprising external storage means storing at least one backup file and local storage means storing a file used by an application;
When the system is restarted after the failure of the application, whether or not to restore the backup file from the external storage unit to the local storage unit at the next system restart can be determined. Reboot related information management means for managing the first information and the second information capable of determining which file of the current file and the backup file to be applied when the next system is restarted;
According to the managed first information, while functioning as a restore control means for controlling the restoration of the backup file from the external storage means to the local storage means,
The system resumption program, wherein the reboot related information management unit is configured as a function unit of the application, and the restore control unit is configured as a function unit external to the application.
JP2007298191A 2007-11-16 2007-11-16 Information processor and method and program for restarting system Pending JP2009123082A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007298191A JP2009123082A (en) 2007-11-16 2007-11-16 Information processor and method and program for restarting system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007298191A JP2009123082A (en) 2007-11-16 2007-11-16 Information processor and method and program for restarting system

Publications (1)

Publication Number Publication Date
JP2009123082A true JP2009123082A (en) 2009-06-04

Family

ID=40815145

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007298191A Pending JP2009123082A (en) 2007-11-16 2007-11-16 Information processor and method and program for restarting system

Country Status (1)

Country Link
JP (1) JP2009123082A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109901117A (en) * 2019-03-13 2019-06-18 苏州理工雷科传感技术有限公司 A kind of radar method for restarting and device

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109901117A (en) * 2019-03-13 2019-06-18 苏州理工雷科传感技术有限公司 A kind of radar method for restarting and device
CN109901117B (en) * 2019-03-13 2022-05-27 苏州理工雷科传感技术有限公司 Radar restarting method and device

Similar Documents

Publication Publication Date Title
US10701084B2 (en) Reliable and secure firmware update with a dynamic validation for internet of things (IoT) devices
USRE41162E1 (en) Method for providing scaleable restart and backout of software upgrades for clustered computing
US10114655B2 (en) Rapid start up method for electronic equipment
KR100750132B1 (en) Method and system for booting, updating software automatically and recovering update error, and computer readable medium recording the method
RU2461053C2 (en) Self-controlled processing device
US6928579B2 (en) Crash recovery system
EP1899814B1 (en) Firmware update for consumer electronic device
CN107844386B (en) Data backup and recovery method and device
JP5113700B2 (en) Firmware update apparatus and method
US7882388B2 (en) Dual independent non volatile memory systems
CN111651304B (en) Software recovery method and device based on double-core intelligent ammeter and computer equipment
KR100986487B1 (en) Mobile handset with a fault tolerant update agent
JP2001331327A (en) Electronic equipment
JP2019020798A (en) Information processing device and program
JP5683088B2 (en) Recovery system, recovery method, and backup control system
JP2009123082A (en) Information processor and method and program for restarting system
JP2007087269A (en) Software update system, update method and program
WO2022093197A1 (en) Firmware overwrites using queues and pointers
CN113721959A (en) Information processing method and device and electronic equipment
KR20130040636A (en) Method for generating boot image for fast booting and image forming apparatus for performing the same, method for performing fast booting and image forming apparatus for performing the same
JP6149624B2 (en) Firmware execution apparatus, firmware execution method, computer program, and computer apparatus
US20240118975A1 (en) Iinformation processing system, management apparatus, management method, and program
JP2007249382A (en) Computer system and restoration method in its failure and program
JP5290064B2 (en) Software switching device, software switching method and program thereof
JP2005078336A (en) Image forming apparatus and program rewriting method for image forming apparatus