JP2015138269A - Communication control device and fault restoration method - Google Patents
Communication control device and fault restoration method Download PDFInfo
- Publication number
- JP2015138269A JP2015138269A JP2014007644A JP2014007644A JP2015138269A JP 2015138269 A JP2015138269 A JP 2015138269A JP 2014007644 A JP2014007644 A JP 2014007644A JP 2014007644 A JP2014007644 A JP 2014007644A JP 2015138269 A JP2015138269 A JP 2015138269A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- activation
- failure
- storage unit
- software execution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Retry When Errors Occur (AREA)
- Computer And Data Communications (AREA)
Abstract
Description
この発明は、動作に必要なシステムデータなどを不揮発保持する通信制御装置に関し、特にインターネットサービスに供し、エンドユーザ宅内にあって障害時の即時復旧が困難である通信制御装置において、当該システムデータの異常に起因する障害を検出し、自動復旧する機能を備えた通信制御装置およびその障害復旧方法に関するものである。 The present invention relates to a communication control apparatus that holds system data and the like necessary for operation in a nonvolatile manner, and more particularly, to a communication control apparatus that is provided for Internet service and is difficult to recover immediately when a failure occurs in an end user's home. The present invention relates to a communication control device having a function of detecting and automatically recovering from a failure caused by an abnormality, and a failure recovery method thereof.
従来の通信制御装置は、内部に保持する複数のシステムデータを集積したデータセットの一部または全体に対して異常を検出するための機構として、検査コード(パリティ、チェックサム、操作履歴など)を付与する手段を取っている(例えば特許文献1参照)。これらの手段は、データを読出す際または定期的に、当該検査コードを検査することによってデータの異常または異常可能性を検出している。また、異常を検出した際のデータ修復手段として、検査コードの冗長情報から計算によってデータを修正する方法、またはデータセットのコピーまたは過去履歴を1つ以上保持しておき、異常検出時に正常なデータセットと差し替える方法を取っている。 A conventional communication control device uses a check code (parity, checksum, operation history, etc.) as a mechanism for detecting an abnormality in a part or the whole of a data set in which a plurality of system data held inside is integrated. A means for giving is taken (see, for example, Patent Document 1). These means detect data abnormality or possibility of abnormality by inspecting the inspection code when reading data or periodically. In addition, as a data recovery means when an abnormality is detected, a method of correcting the data by calculation from the redundant information of the inspection code, or holding one or more copies of the data set or past history, and normal data when the abnormality is detected The method of replacing with a set is taken.
従来の通信制御装置は以上のように構成されているため、検査コードを付与する機能部位よりも処理の後段、または下位層に当たる部位で発生した異常しか検出できないという課題がある。例えば不揮発メモリの故障、書込み中の停電、不具合による書込み機能の異常などにより不正な内容が保存されていた場合には、異常を検出できる。一方、書込み機能を利用した上位アプリケーションソフトウェアの機能不具合などにより、上位機能にとって不正であるデータを書込み機能に渡してしまった場合には、そのデータセットには当該不正データを含む検査コードが付与されるため、異常を検出できない。よって、当該不正データに起因し装置の通信機能が阻害された場合には、装置を交換しなければ復旧できなくなる。 Since the conventional communication control apparatus is configured as described above, there is a problem that only an abnormality that has occurred at a later stage of processing or a part corresponding to a lower layer can be detected than a functional part to which an inspection code is assigned. For example, when an illegal content is stored due to a failure of a nonvolatile memory, a power failure during writing, an abnormality of a writing function due to a malfunction, an abnormality can be detected. On the other hand, if data that is illegal for the upper function is passed to the write function due to a malfunction of the upper application software that uses the write function, an inspection code that includes the incorrect data is assigned to the data set. Therefore, no abnormality can be detected. Therefore, when the communication function of the device is hindered due to the illegal data, it cannot be recovered unless the device is replaced.
昨今、オープンソースソフトウェアや一般販売ソフトウェアを通信制御装置に組込む機会が増えている。これらブラックボックスのソフトウェアによるセキュリティホールなどの潜在的問題、あるいはそれらの組合わせに起因する不具合によって、データの論理破壊が引き起こされた場合、装置全体の動作異常を招く不正データを不揮発保持するリスクが上がっている。データの不正によって引き起こされた障害は、原因データが修復されるまで継続する。そのため、当該データが不揮発保持されていた場合には、装置の再起動や電源再投入など、一般的なエンドユーザが実施可能な手段では動作復旧できないという課題がある。 In recent years, there are increasing opportunities to incorporate open source software and general sales software in communication control devices. If the logical destruction of data is caused by potential problems such as security holes caused by these black box software, or a combination of them, there is a risk of holding illegal data that causes abnormal operation of the entire device in a nonvolatile manner. It is up. Failures caused by data corruption continue until the cause data is repaired. Therefore, when the data is held in a non-volatile manner, there is a problem that the operation cannot be recovered by means that can be performed by a general end user, such as restarting the apparatus or turning on the power again.
この発明は、上記のような課題を解決するためになされたもので、検査コードなどの設計上予め想定した障害原因のみを検出する手段に依存せず、不特定原因により発生した不揮発の不正データによる障害状態から自動復旧できる通信制御装置および障害復旧方法を提供することを目的としている。 The present invention has been made to solve the above-described problems, and does not depend on means for detecting only a cause of failure assumed in advance in the design of an inspection code or the like, and non-volatile illegal data generated due to an unspecified cause. It is an object of the present invention to provide a communication control device and a failure recovery method capable of automatically recovering from a failure state caused by a failure.
この発明に係る通信制御装置は、プロセスを起動する冗長構成のソフトウェア実行モジュール、および当該ソフトウェア実行モジュールで使用されるシステムデータを格納する記憶部と、自機の起動開始後、記憶部から該当するソフトウェア実行モジュールおよびシステムデータを読出して実行することで、該当するプロセスの起動を行うプロセス起動部と、プロセス起動部によるプロセスの起動開始後、設定時間までに当該プロセスの起動が完了したかを判定する起動判定部と、起動判定部により起動が完了しなかったと判定された場合に、プロセス起動部に、使用するソフトウェア実行モジュールの冗長切替えを行わせて再起動させる再起動指示部と、プロセス起動部により再起動が行われた後、起動判定部により再び起動が完了しなかったと判定された場合に、再起動指示部による処理前に、記憶部に格納された該当するシステムデータの修復を行うデータ修復部とを備えたものである。 The communication control apparatus according to the present invention corresponds to a redundantly configured software execution module for starting a process, a storage unit for storing system data used in the software execution module, and a storage unit after starting its own start Reads and executes the software execution module and system data, and determines whether or not the process has been started by the set time after starting the process by the process starter. A startup determination unit that restarts the process startup unit by causing the process startup unit to perform redundant switching of the software execution modules to be used when the startup determination unit determines that startup has not been completed, and a process startup After the restart is performed by the part, the start determination part does not complete the start again If it is determined that, before the treatment with restart instructing section, in which a data recovery unit for performing repair system data corresponding stored in the storage unit.
また、この発明に係る障害復旧方法は、記憶部により、プロセスを起動する冗長構成のソフトウェア実行モジュール、および当該ソフトウェア実行モジュールで使用されるシステムデータを格納する記憶ステップと、プロセス起動部により、自機の起動開始後、記憶部から該当するソフトウェア実行モジュールおよびシステムデータを読出して実行することで、該当するプロセスの起動を行うプロセス起動ステップと、起動判定部により、プロセス起動部によるプロセスの起動開始後、設定時間までに当該プロセスの起動が完了したかを判定する起動判定ステップと、再起動指示部により、起動判定部により起動が完了しなかったと判定された場合に、プロセス起動部に、使用するソフトウェア実行モジュールの冗長切替えを行わせて再起動させる再起動指示ステップと、データ修復部により、プロセス起動部により再起動が行われた後、起動判定部により再び起動が完了しなかったと判定された場合に、再起動指示部による処理前に、記憶部に格納された該当するシステムデータの修復を行うデータ修復ステップとを有するものである。 Further, the failure recovery method according to the present invention includes a storage unit storing a redundantly configured software execution module for starting a process and system data used by the software execution module, and a process starting unit. After the start of the machine, the corresponding software execution module and system data are read from the storage unit and executed to start the corresponding process, and the process determination unit starts the process activation by the process activation unit. After that, when the activation determination step for determining whether the activation of the process is completed by the set time and the activation instruction unit determines that the activation has not been completed by the activation instruction unit, the process activation unit is used. Restart the software execution module to be switched The restart instruction step and the data restoration unit, after the restart by the process startup unit, and when the startup determination unit determines that the startup is not completed again, before the processing by the restart instruction unit, And a data restoration step for restoring the corresponding system data stored in the storage unit.
この発明によれば、上記のように構成したので、検査コードなどの設計上予め想定した障害原因のみを検出する手段に依存せず、不特定原因により発生した不揮発の不正データによる障害状態から自動復旧できる。 According to the present invention, since it is configured as described above, it is not dependent on means for detecting only the cause of failure assumed in advance in the design of inspection codes or the like, and automatically from a failure state due to non-volatile illegal data generated by an unspecified cause. It can be recovered.
以下、この発明の実施の形態について図面を参照しながら詳細に説明する。
実施の形態1.
図1はこの発明の実施の形態1に係る通信制御装置の一般的な全体構成を示す図である。
通信制御装置は、図1に示すように、処理部1、通信コントローラ2、記憶部3および外部インタフェース部4から構成されている。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
FIG. 1 is a diagram showing a general overall configuration of a communication control apparatus according to
As shown in FIG. 1, the communication control device includes a
処理部1は、外部インタフェース部4を通じてEther Net(登録商標)や電話回線、無線LANなどと通信データの送受信を行うものである。また、処理部1は、ユーザインタフェースを搭載し、操作者にデータ設定や表示の機能を提供する。この処理部1は、CPUおよびソフトウェアで構成される。この処理部1のソフトウェア内部構成については後述する。
The
通信コントローラ2は、処理部1の通信機能を補助するものである。すなわち、受信パケットデータを選別して処理部1へ渡す、予め処理部1から設定されたルールに基づき送信パケットを組立てて外部インタフェース部4へ転送する、また、外部インタフェース部4にある複数のインタフェース間でパケットデータの送受・転送を行うなどの動作を行う。
The
記憶部3は、通信制御装置が動作するために必要なデータを格納する不揮発メモリである。この記憶部3には、図2に示すように、プロセス(サービスプロセス)を起動するソフトウェア実行モジュール、ソフトウェア実行モジュールで使用されるシステムデータ(運用値)、ユーザデータ、およびシステムデータの初期データが格納される。この記憶部3に格納されたデータが処理部1により読出され、または処理部1により更新データが書込まれることで、装置が動作する。
The
ここで、システムデータの具体例としては、回線種別や経路情報、IPアドレスや各種フィルタ設定、その他動作ログなどがある。回線種別とは、外部インタフェース部4と接続される回線の種類である。経路情報とは、通信制御装置へ受信されるまでの通信データの経路(ルート)情報、通信制御装置から送信される通信データの経路(ルート)情報である。また、経路上の装置(1つであっても複数であってもよい)の識別情報(例えばIPアドレス)であってもよい。IPアドレスとは、自装置のIPアドレスである。
また、システムデータは、通信制御装置の運用時に更新される。例えば、回線種別などは起動時または一定時間毎に確認され、前回と異なる場合はシステムデータが更新される。また、IPアドレスのように動的に変化するものは、変化の都度、システムデータが更新される。
Here, specific examples of system data include line type, route information, IP address, various filter settings, and other operation logs. The line type is the type of line connected to the external interface unit 4. The route information is route information of communication data until it is received by the communication control device, and route information of communication data transmitted from the communication control device. Further, it may be identification information (for example, an IP address) of a device (one or a plurality) on the route. The IP address is the IP address of the own device.
The system data is updated when the communication control apparatus is operated. For example, the line type or the like is checked at the time of activation or at regular intervals, and the system data is updated if it is different from the previous time. In the case of an IP address that changes dynamically, the system data is updated each time the address changes.
また、ソフトウェア実行モジュールは冗長構成であり、記憶部3に2つ格納されている。一方のソフトウェア実行モジュールは起動に使用され、他方のソフトウェア実行モジュールはバックアップとなる。なお以下では便宜上、前者を1面、後者を2面と呼ぶ。
The software execution modules have a redundant configuration and are stored in the
次に、処理部1で動作するソフトウェア内部構成について、図3を参照しながら説明する。
処理部1は、図3に示すように、装置制御部11およびタイマ制御部12を有している。
Next, an internal configuration of software that operates in the
As shown in FIG. 3, the
装置制御部11は、ソフトウェア全体の起動を担うものである。この装置制御部11は、タイマ設定部111、プロセス起動部112、起動判定部113、再起動指示部114およびデータ修復部115から構成されている。
The
タイマ設定部111は、通信制御装置の起動開始後、タイマ制御部12が計数する値(セットアップ完了タイマ)を当該タイマ制御部12に対して設定するものである。
The
プロセス起動部112は、通信制御装置の起動開始後、ユーザへの機能提供に必要となるプロセスの起動を行うものである。この際、プロセス起動部112は、記憶部3からソフトウェア実行モジュールを順次読出して実行し、かつ、記憶部3からシステムデータを適宜読出し、動作に必要となる各種設定を行いながら処理を進めていく。なお、起動を行うプロセスは複数あってもよく、また、1つずつ順に起動してもよいし一斉に起動してもよい。また、各プロセスは、起動が完了した際に装置制御部11に対して完了通知を行うよう構成されている。
The
起動判定部113は、プロセス起動部112によるプロセスの起動開始後、設定時間までに(タイマ制御部12からのタイムアウト通知を受けるまでに)、当該プロセス(複数のプロセスの起動を行った場合には全てのプロセス)の起動が完了したかを判定するものである。この際、起動判定部113は、プロセス起動部112が起動を行ったプロセスから起動完了通知を受けたかを判定することで、起動が完了したかを判定する。
The
再起動指示部114は、起動判定部113により起動が完了しなかったと判定された場合に、プロセス起動部112に、使用するソフトウェア実行モジュールの冗長切替えを行わせて再起動させるものである。
When the
データ修復部115は、プロセス起動部112により再起動が行われた後、起動判定部113により再び起動が完了しなかったと判定された場合に、再起動指示部114による処理前に、記憶部3に格納された該当するシステムデータの修復を行うものである。
After the restart is performed by the
タイマ制御部12は、タイマ設定部111によりセットアップ完了タイマが設定された後、当該セットアップ完了タイマを計数して設定時間を経過した際に、装置制御部11に対してタイムアウト通知を行うものである。
After the setup completion timer is set by the
次に、上記のように構成された通信制御装置の動作について、図4を参照しながら説明する。なお図4では、通信制御装置の運用時に更新のないソフトウェア実行モジュールではなく、通信制御装置の運用時に更新があるシステムデータに異常がある場合を想定する。
通信制御装置の動作では、図4に示すように、まず、タイマ設定部111は、通信制御装置の起動開始後、セットアップ完了タイマをタイマ制御部12に対して設定する(ステップST401)。そして、タイマ制御部12は、上記セットアップ完了タイマの計数を開始する(ステップST402)。
Next, the operation of the communication control apparatus configured as described above will be described with reference to FIG. In FIG. 4, it is assumed that there is an abnormality in the system data that is updated when the communication control apparatus is operated, not the software execution module that is not updated when the communication control apparatus is operated.
In the operation of the communication control device, as shown in FIG. 4, first, the
また、プロセス起動部112は、通信制御装置の起動開始後、ユーザへの機能提供に必要となるプロセスの起動を行う(ステップST403、プロセス起動ステップ)。この際、プロセス起動部112は、記憶部3からソフトウェア実行モジュールを順次読出して実行し、かつ、記憶部3からシステムデータを適宜読出し、動作に必要となる各種設定を行いながら処理を進めていく。そして、各プロセスは、起動が完了した際に装置制御部11に対して完了通知を行う。なお、ここでプロセス起動部112が使用するソフトウェア実行モジュールは1面である。
In addition, the
その後、タイマ制御部12は、セットアップ完了タイマを計数して設定時間を経過した際に、装置制御部11に対してタイムアウト通知を行う(ステップST404)。
Thereafter, the
次いで、起動判定部113は、プロセス起動部112によるプロセスの起動開始後、タイマ制御部12からのタイムアウト通知を受けるまでに、プロセスから起動完了通知を受けたかを判定する(ステップST405、起動判定ステップ)。
このステップST405において、起動判定部113は、プロセス起動部112が起動を行ったプロセスから起動完了通知を受けたと判定した場合には、起動が完了したと判定し、通信制御装置は運用状態に移行する。なお図4では、プロセスに何らかの障害が発生し、起動完了通知を装置制御部11に返せない場合を示している。
Next, the
In step ST405, the
一方、ステップST405において、起動判定部113が、プロセス起動部112が起動を行ったプロセスから起動完了通知を受けていないと判定した場合には、起動が完了しなかったと判定し、再起動指示部114は、プロセス起動部112に、使用するソフトウェア実行モジュールの冗長切替えを行わせて再起動させる(ステップST406,407、再起動指示ステップ)。すなわち、再起動指示部114は、記憶部3に格納されたソフトウェア実行モジュールに何らかの異常があると想定し、プロセス起動部112が使用するソフトウェア実行モジュールを1面から2面に切替えさせて再起動させる。
On the other hand, if the
この再起動においても上記同様に、タイマ制御部12がセットアップ完了タイマを計数してタイマ制御部12が当該セットアップ完了タイマの計数を開始し、プロセス起動部112が順次プロセスの起動を行っていく(ステップST408〜410、プロセス起動ステップ)。
その後、タイマ制御部12は、セットアップ完了タイマを計数して設定時間を経過した際に、装置制御部11に対してタイムアウト通知を行う(ステップST411)。
In this restart, similarly to the above, the
Thereafter, the
次いで、起動判定部113は、プロセス起動部112によるプロセスの起動開始後、タイマ制御部12からのタイムアウト通知を受けるまでに、プロセスから起動完了通知を受けたかを判定する(ステップST412、起動判定ステップ)。
このステップST412において、起動判定部113は、プロセス起動部112が起動を行ったプロセスから起動完了通知を受けたと判定した場合には、起動が完了したと判定し、通信制御装置は運用状態に移行する。なお図4では、プロセスに何らかの障害が発生し、起動完了通知を装置制御部11に返せない場合を示している。
Next, the
In step ST412, the
一方、ステップST412において、起動判定部113が、再び、プロセス起動部112が起動を行ったプロセスから起動完了通知を受けていないと判定した場合には、起動が完了しなかったと判定し、データ修復部115は、記憶部3に格納された該当するシステムデータの修復を行う(ステップST413、データ修復ステップ)。すなわち、データ修復部115は、記憶部3に格納されたシステムデータに何らかの異常があると想定し、当該システムデータの修復を行う。
On the other hand, in step ST412, if the
なお図4では、システムデータの修復手段として、データ修復部115が、記憶部3に格納された初期データを用いて当該システムデータを初期化する例を示している。しかしながら、これに限るものではなく、他に、ソフトウェア実行モジュールと同様の方法でシステムデータについてもバックアップを保持しておき、または過去に更新された世代データを保持しておき、これに差替える方法でもよい。また、上記初期化または差替えの後、通信機能が正常動作した際に、外部装置から必要なデータを取得する方法を組合わせてもよい。
FIG. 4 shows an example in which the
次いで、データ修復部115によりシステムデータが修復された後、再起動指示部114は、プロセス起動部112に、使用するソフトウェア実行モジュールの冗長切替え(1面から2面への切替え)を行わせて再起動させる(ステップST414,415、再起動指示ステップ)。
Next, after the system data is restored by the
以上のように、この実施の形態1によれば、装置動作そのものの異常を検出し、その異常要因の可能性として不揮発保持データの不正がある場合にデータ復旧を実行するように構成したので、検査コードなどの設計上予め想定した障害原因のみを検出する手段に依存せず、不特定原因により発生した不揮発の不正データによる障害状態から自動復旧できる。そして、プロセスの異常により再起動を試みる際に、不揮発のシステムデータを起動可能な内容に修復することによって、データに依存した異常においても再起動を延々と繰り返す事象に陥ることがなく、通信制御装置の起動に成功する可能性が高まる。
その結果、ブラックボックスソフトウェアによるセキュリュティホールや上位アプリケーションの不具合に起因する不正データの発生により引き起こされた障害状態を解消し、通信制御装置を正常動作状態に復旧させることができる。これにより、障害発生時、エンドユーザは、迅速に通信サービス事業者のサポートおよびサービスを受けられる効果がある。また、通信サービス事業者は、通信制御装置の交換などの時間とコストがかかる手段ではなく、遠隔からの保守手段によるユーザサポートの実施、または障害を復旧させサービスを再開できる効果がある。
As described above, according to the first embodiment, since the abnormality of the device operation itself is detected, the data recovery is executed when the non-volatile retained data is illegal as the possibility of the abnormality. It is possible to automatically recover from a failure state caused by non-volatile illegal data generated due to an unspecified cause without depending on a means for detecting only a failure cause assumed in design such as an inspection code. Then, when trying to restart due to a process error, by restoring nonvolatile system data to a bootable content, even if an error depends on the data, it does not fall into the event of repeated restarts, and communication control The possibility of successfully starting the device is increased.
As a result, the failure state caused by the generation of illegal data due to the security hole by the black box software or the malfunction of the upper application can be solved, and the communication control device can be restored to the normal operation state. As a result, when a failure occurs, the end user can quickly receive the support and service of the communication service provider. In addition, the communication service provider is not a method that takes time and cost such as replacement of a communication control device, but has an effect of performing user support by remote maintenance means or recovering a failure and restarting the service.
実施の形態2.
実施の形態1では、通信制御装置の起動の際にプロセスが起動完了しない事象におけるデータ修復の例を示した。それに対し、起動の際のみでなく、プロセスの運用中においても、例えば、システムデータを使用する際の値域判定による異常検出、プロセスの無応答検出、ウォッチドグタイムアウト、設計想定外の条件分岐成立、オペレーティングシステムによるプロセスの停止などの、公知の想定された事象と組合わせることによって、障害復旧の可能性を更に高めることができる。以下、運用中のプロセスに障害が生じた場合に障害を復旧する構成について示す。
図5はこの発明の実施の形態1における処理部1のソフトウェア内部構成を示す図である。図5に示す実施の形態2における処理部1は、図3に示す実施の形態1における処理部1に、障害検出部116、障害情報記憶部117および障害情報判定部118を追加したものである。その他の構成は同様であり、同一の符号を付して異なる部分についてのみ説明を行う。
In the first embodiment, the example of data restoration in the event that the process is not completely started when the communication control device is started has been described. On the other hand, not only during startup but also during operation of the process, for example, abnormality detection by range judgment when using system data, process no response detection, watchdog timeout, conditional branch establishment beyond design assumptions, Combining with known anticipated events, such as process shutdown by the operating system, can further increase the likelihood of failure recovery. Hereinafter, a configuration for recovering from a failure when a failure occurs in an operating process will be described.
FIG. 5 is a diagram showing an internal software configuration of the
障害検出部116は、運用中のプロセスに発生した障害を検出するものである。ここで、障害検出部116による障害検出手段としては、プロセスの正常性を確認するための問合せを行うヘルスチェック、プロセスに委託した処理の応答有無の監視などがある。なお、ヘルスチェックを行う場合には、タイマ設定部111は、障害検出部116がヘルスチェックを行う際に、タイマ制御部12が計数する値(ヘルスチェック完了タイマ)をタイマ制御部12に対して設定する。また、障害検出部116による障害検出対象のプロセスは複数であってもよい。
The
障害情報記憶部117は、障害検出部116により障害が検出された場合に、当該障害を示す情報を格納する不揮発メモリである。
障害情報判定部118は、障害検出部116により障害が検出された場合に、障害情報記憶部117に格納された情報に基づいて、同一の障害が発生したかを判定するものである。
The failure
The failure
なお、再起動指示部114は、障害検出部116により障害が検出された場合に、プロセス起動部112に該当するプロセスを再起動させる。
また、データ修復部115は、障害情報判定部118により同一の障害が発生したと判定された場合に、再起動指示部114による処理前に、記憶部3に格納されたシステムデータの修復を行う。
Note that the
Further, the
次に、上記のように構成された通信制御装置の動作について、図6を参照しながら説明する。なお図6では、障害検出部116は、障害検出手段としてプロセスに対してヘルスチェックを定期的に行い、プロセスの無応答を検出する場合を想定する。
通信制御装置の動作では、図4に示すように、通信制御装置が運用中に、まず、タイマ設定部111は、ヘルスチェック完了タイマをタイマ制御部12に対して設定する(ステップST601)。そして、タイマ制御部12は、上記ヘルスチェック完了タイマの計数を開始する(ステップST602)。
Next, the operation of the communication control apparatus configured as described above will be described with reference to FIG. In FIG. 6, it is assumed that the
In the operation of the communication control device, as shown in FIG. 4, first, the
また、障害検出部116は、プロセスに対してヘルスチェックを行い、当該プロセスの正常性を確認するための問合せを行う(ステップST603、障害検出ステップ)。
In addition, the
その後、タイマ制御部12は、ヘルスチェックを計数して設定時間を経過した際に、装置制御部11に対してタイムアウト通知を行う(ステップST604)。
Thereafter, when the
次いで、障害検出部116は、ヘルスチェック後、タイマ制御部12からのタイムアウト通知を受けるまでに、プロセスから応答があったかを判定する(ステップST605、障害検出ステップ)。
このステップST605において、障害検出部116は、ヘルスチェックを行ったプロセスから応答があったと判定した場合には、障害は発生していないと判定し、シーケンスはステップST601に戻る。なお図6では、プロセスからの応答がなかった場合を示している。
Next, after the health check, the
In step ST605, when the
一方、ステップST605において、障害検出部116が、ヘルスチェックを行ったプロセスから応答がないと判定した場合には、障害が発生したと判定し、障害情報記憶部117は、当該障害を示す情報を格納する(ステップST606、障害情報記憶ステップ)。
その後、再起動指示部114は、プロセス起動部112に該当するプロセスを再起動させる(ステップST607、再起動指示ステップ)。この再起動は実施の形態1と同様の動作であり、その説明を省略する(ステップST608〜614)。
On the other hand, if the
After that, the
その後、プロセスの起動が完了した場合には運用を開始し、上記と同様にタイマ制御部12がヘルスチェック完了タイマを計数してタイマ制御部12が当該ヘルスチェック完了タイマの計数を開始し、障害検出部116はプロセスに対してヘルスチェックを行う(ステップST615〜617、障害検出ステップ)。
その後、タイマ制御部12は、ヘルスチェック完了タイマを計数して設定時間を経過した際に、装置制御部11に対してタイムアウト通知を行う(ステップST618)。
Thereafter, when the process activation is completed, the operation is started, and the
Thereafter, when the
次いで、障害検出部116は、ヘルスチェック後、タイマ制御部12からのタイムアウト通知を受けるまでに、プロセスから応答があったかを判定する(ステップST619、障害検出ステップ)。
このステップST619において、障害検出部116は、ヘルスチェックを行ったプロセスから応答があったと判定した場合には、障害は発生していないと判定し、シーケンスはステップST601に戻る。なお図6では、プロセスからの応答がなかった場合を示している。
Next, after the health check, the
In step ST619, when the
一方、ステップST619において、障害検出部116が、ヘルスチェックを行ったプロセスから応答がないと判定した場合には、障害が発生したと判定し、障害情報記憶部117は、当該障害を示す情報を格納する(ステップST620、障害情報記憶ステップ)。
次いで、障害情報判定部118は、障害情報記憶部117に格納された情報に基づいて、同一の障害が発生したかを判定する(ステップST621、障害情報判定ステップ)。
On the other hand, if the
Next, the failure
このステップST621において、障害情報判定部118が、同一の障害が発生したと判定した場合には、データ修復部115は、記憶部3に格納されたシステムデータの修復を行う(ステップST622、データ修復ステップ)。すなわち、データ修復部115は、同一要因の障害が繰り返し発生したことを確認し、システムデータに起因する可能性であると想定し、当該システムデータの修復(初期化など)を行う。
その後、再起動指示部114は、プロセス起動部112に該当するプロセスを再起動させる(ステップST623、再起動指示ステップ)。
In step ST621, when the failure
Thereafter, the
以上のように、この実施の形態2によれば、実施の形態1の効果に加え、運用中の障害検出を行うように構成したので、装置の起動に成功した後に発生する特定サービスの繰り返し障害に対しても、障害状態を解消できる可能性が高まる。 As described above, according to the second embodiment, in addition to the effects of the first embodiment, since it is configured to detect a failure during operation, a repeated failure of a specific service that occurs after the apparatus is successfully started up However, the possibility that the fault state can be resolved is increased.
なお、本願発明はその発明の範囲内において、各実施の形態の自由な組合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。 In the present invention, within the scope of the invention, any combination of the embodiments, or any modification of the components of the embodiments, or omission of any components of the embodiments can be made. is there.
1 処理部、2 通信コントローラ、3 記憶部、4 外部インタフェース部、11 装置制御部、12 タイマ制御部、111 タイマ設定部、112 プロセス起動部、113 起動判定部、114 再起動指示部、115 データ修復部、116 障害検出部、117 障害情報記憶部、118 障害情報判定部。
DESCRIPTION OF
Claims (3)
自機の起動開始後、前記記憶部から該当するソフトウェア実行モジュールおよびシステムデータを読出して実行することで、該当するプロセスの起動を行うプロセス起動部と、
前記プロセス起動部によるプロセスの起動開始後、設定時間までに当該プロセスの起動が完了したかを判定する起動判定部と、
前記起動判定部により起動が完了しなかったと判定された場合に、前記プロセス起動部に、使用するソフトウェア実行モジュールの冗長切替えを行わせて再起動させる再起動指示部と、
前記プロセス起動部により再起動が行われた後、前記起動判定部により再び起動が完了しなかったと判定された場合に、前記再起動指示部による処理前に、前記記憶部に格納された該当するシステムデータの修復を行うデータ修復部と
を備えた通信制御装置。 A redundantly configured software execution module for starting processes, and a storage unit for storing system data used in the software execution module;
After starting the start of its own machine, by reading and executing the corresponding software execution module and system data from the storage unit, a process starting unit for starting the corresponding process;
An activation determination unit that determines whether the activation of the process is completed by a set time after the activation of the process by the process activation unit;
When it is determined that the activation has not been completed by the activation determination unit, a restart instruction unit that causes the process activation unit to perform redundancy switching of the software execution module to be used, and to restart,
After the restart is performed by the process activation unit, when the activation determination unit determines that the activation is not completed again, the corresponding stored in the storage unit before processing by the restart instruction unit A communication control device comprising a data restoration unit for restoring system data.
前記障害検出部により障害が検出された場合に、当該障害を示す情報を格納する障害情報記憶部と、
前記障害検出部により障害が検出された場合に、前記障害情報記憶部に格納された情報に基づいて、同一の障害が発生したかを判定する障害情報判定部とを備え、
前記再起動指示部は、前記障害検出部により障害が検出された場合に、前記プロセス起動部に該当するプロセスを再起動させ、
前記データ修復部は、前記障害情報判定部により同一の障害が発生したと判定された場合に、前記再起動指示部による処理前に、前記記憶部に格納されたシステムデータの修復を行う
ことを特徴とする請求項1記載の通信制御装置。 A fault detection unit that detects a fault that has occurred in an operating process;
A failure information storage unit that stores information indicating the failure when a failure is detected by the failure detection unit;
A failure information determination unit that determines whether the same failure has occurred based on information stored in the failure information storage unit when a failure is detected by the failure detection unit;
The restart instruction unit restarts a process corresponding to the process startup unit when a failure is detected by the failure detection unit,
The data restoration unit restores the system data stored in the storage unit before processing by the restart instruction unit when it is determined by the failure information determination unit that the same failure has occurred. The communication control apparatus according to claim 1, wherein:
プロセス起動部により、自機の起動開始後、前記記憶部から該当するソフトウェア実行モジュールおよびシステムデータを読出して実行することで、該当するプロセスの起動を行うプロセス起動ステップと、
起動判定部により、前記プロセス起動部によるプロセスの起動開始後、設定時間までに当該プロセスの起動が完了したかを判定する起動判定ステップと、
再起動指示部により、前記起動判定部により起動が完了しなかったと判定された場合に、前記プロセス起動部に、使用するソフトウェア実行モジュールの冗長切替えを行わせて再起動させる再起動指示ステップと、
データ修復部により、前記プロセス起動部により再起動が行われた後、前記起動判定部により再び起動が完了しなかったと判定された場合に、前記再起動指示部による処理前に、前記記憶部に格納された該当するシステムデータの修復を行うデータ修復ステップと
を有する障害復旧方法。 A storage unit for storing redundantly executed software execution modules for starting processes by the storage unit, and system data used in the software execution modules;
A process activation step for starting the corresponding process by reading and executing the corresponding software execution module and system data from the storage unit after starting the activation of the own device by the process activation unit;
An activation determination step for determining whether the activation of the process has been completed by a set time after the activation of the process by the process activation unit by the activation determination unit;
When the restart instruction unit determines that the activation has not been completed by the activation determination unit, a restart instruction step for causing the process activation unit to perform redundancy switching of the software execution module to be used and restarting,
When the data restoration unit determines that the activation has not been completed again by the activation determination unit after the process activation unit has been restarted, before the processing by the restart instruction unit, in the storage unit A data recovery step for recovering the corresponding system data stored therein.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014007644A JP6257345B2 (en) | 2014-01-20 | 2014-01-20 | Communication control device and failure recovery method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014007644A JP6257345B2 (en) | 2014-01-20 | 2014-01-20 | Communication control device and failure recovery method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015138269A true JP2015138269A (en) | 2015-07-30 |
JP6257345B2 JP6257345B2 (en) | 2018-01-10 |
Family
ID=53769264
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014007644A Expired - Fee Related JP6257345B2 (en) | 2014-01-20 | 2014-01-20 | Communication control device and failure recovery method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6257345B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11099935B2 (en) | 2018-09-28 | 2021-08-24 | Canon Kabushiki Kaisha | Error handling associated with boot program alteration |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07295670A (en) * | 1994-04-27 | 1995-11-10 | Chubu Nippon Denki Software Kk | Starting method for computer system |
JP2002333990A (en) * | 2001-03-05 | 2002-11-22 | Omron Corp | Program updating device and its method |
JP2007052520A (en) * | 2005-08-16 | 2007-03-01 | Sony Corp | Information processor, information processing method, and program |
JP2011258245A (en) * | 2011-09-27 | 2011-12-22 | Toshiba Corp | Server device, start control method, and information processor |
-
2014
- 2014-01-20 JP JP2014007644A patent/JP6257345B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07295670A (en) * | 1994-04-27 | 1995-11-10 | Chubu Nippon Denki Software Kk | Starting method for computer system |
JP2002333990A (en) * | 2001-03-05 | 2002-11-22 | Omron Corp | Program updating device and its method |
JP2007052520A (en) * | 2005-08-16 | 2007-03-01 | Sony Corp | Information processor, information processing method, and program |
JP2011258245A (en) * | 2011-09-27 | 2011-12-22 | Toshiba Corp | Server device, start control method, and information processor |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11099935B2 (en) | 2018-09-28 | 2021-08-24 | Canon Kabushiki Kaisha | Error handling associated with boot program alteration |
Also Published As
Publication number | Publication date |
---|---|
JP6257345B2 (en) | 2018-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI386847B (en) | Method of safe and recoverable firmware update and device using the same | |
JP6291248B2 (en) | Firmware upgrade error detection and automatic rollback | |
JP5431111B2 (en) | Information processing apparatus and system setting method | |
JP4681900B2 (en) | Computer stop condition monitoring method, information processing apparatus, and program | |
JP4643977B2 (en) | Programmable logic device, information processing apparatus, and control method for programmable logic device | |
JP5910444B2 (en) | Information processing apparatus, activation program, and activation method | |
JP6102235B2 (en) | BIOS recovery control device, recovery control method thereof, information processing device, and computer program | |
JP2009070224A (en) | Electronic equipment, start-up control method of electronic equipment and image forming device | |
JP6482211B2 (en) | Information processing apparatus, control method thereof, and program | |
CN108737153B (en) | Block chain disaster recovery system, method, server and computer-readable storage medium | |
JP5366184B2 (en) | Data storage system and data storage method | |
JP6257345B2 (en) | Communication control device and failure recovery method | |
JP2009271737A (en) | Information processor | |
CN111427721B (en) | Abnormality recovery method and device | |
JP2006235992A (en) | Firmware rewriting system of printer, firmware rewriting method, and printer | |
JP2011186588A (en) | Printer device, server device, and update system | |
JP2014099097A (en) | Information processing device, information processing method, and computer program | |
WO2011158367A1 (en) | Technology for updating active program | |
JP2007172096A (en) | Information processor and start control method | |
JP2016010974A (en) | Printing apparatus, control method of printing apparatus, and program | |
JP6194496B2 (en) | Information processing apparatus, information processing method, and program | |
JP2015106226A (en) | Dual system | |
JP2010061258A (en) | Duplex processor system and processor duplex method | |
JP6232877B2 (en) | Information processing apparatus, information processing method, and program | |
JP4834421B2 (en) | Network equipment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160714 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170726 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170808 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171006 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171107 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171205 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6257345 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |