JP6257345B2 - Communication control device and failure recovery method - Google Patents
Communication control device and failure recovery method Download PDFInfo
- Publication number
- JP6257345B2 JP6257345B2 JP2014007644A JP2014007644A JP6257345B2 JP 6257345 B2 JP6257345 B2 JP 6257345B2 JP 2014007644 A JP2014007644 A JP 2014007644A JP 2014007644 A JP2014007644 A JP 2014007644A JP 6257345 B2 JP6257345 B2 JP 6257345B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- activation
- failure
- data
- software execution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
この発明は、動作に必要なシステムデータなどを不揮発保持する通信制御装置に関し、特にインターネットサービスに供し、エンドユーザ宅内にあって障害時の即時復旧が困難である通信制御装置において、当該システムデータの異常に起因する障害を検出し、自動復旧する機能を備えた通信制御装置およびその障害復旧方法に関するものである。 The present invention relates to a communication control apparatus that holds system data and the like necessary for operation in a nonvolatile manner, and more particularly, to a communication control apparatus that is provided for Internet service and is difficult to recover immediately when a failure occurs in an end user's home. The present invention relates to a communication control device having a function of detecting and automatically recovering from a failure caused by an abnormality, and a failure recovery method thereof.
従来の通信制御装置は、内部に保持する複数のシステムデータを集積したデータセットの一部または全体に対して異常を検出するための機構として、検査コード(パリティ、チェックサム、操作履歴など)を付与する手段を取っている(例えば特許文献1参照)。これらの手段は、データを読出す際または定期的に、当該検査コードを検査することによってデータの異常または異常可能性を検出している。また、異常を検出した際のデータ修復手段として、検査コードの冗長情報から計算によってデータを修正する方法、またはデータセットのコピーまたは過去履歴を1つ以上保持しておき、異常検出時に正常なデータセットと差し替える方法を取っている。 A conventional communication control device uses a check code (parity, checksum, operation history, etc.) as a mechanism for detecting an abnormality in a part or the whole of a data set in which a plurality of system data held inside is integrated. A means for giving is taken (see, for example, Patent Document 1). These means detect data abnormality or possibility of abnormality by inspecting the inspection code when reading data or periodically. In addition, as a data recovery means when an abnormality is detected, a method of correcting the data by calculation from the redundant information of the inspection code, or holding one or more copies of the data set or past history, and normal data when the abnormality is detected The method of replacing with a set is taken.
従来の通信制御装置は以上のように構成されているため、検査コードを付与する機能部位よりも処理の後段、または下位層に当たる部位で発生した異常しか検出できないという課題がある。例えば不揮発メモリの故障、書込み中の停電、不具合による書込み機能の異常などにより不正な内容が保存されていた場合には、異常を検出できる。一方、書込み機能を利用した上位アプリケーションソフトウェアの機能不具合などにより、上位機能にとって不正であるデータを書込み機能に渡してしまった場合には、そのデータセットには当該不正データを含む検査コードが付与されるため、異常を検出できない。よって、当該不正データに起因し装置の通信機能が阻害された場合には、装置を交換しなければ復旧できなくなる。 Since the conventional communication control apparatus is configured as described above, there is a problem that only an abnormality that has occurred at a later stage of processing or a part corresponding to a lower layer can be detected than a functional part to which an inspection code is assigned. For example, when an illegal content is stored due to a failure of a nonvolatile memory, a power failure during writing, an abnormality of a writing function due to a malfunction, an abnormality can be detected. On the other hand, if data that is illegal for the upper function is passed to the write function due to a malfunction of the upper application software that uses the write function, an inspection code that includes the incorrect data is assigned to the data set. Therefore, no abnormality can be detected. Therefore, when the communication function of the device is hindered due to the illegal data, it cannot be recovered unless the device is replaced.
昨今、オープンソースソフトウェアや一般販売ソフトウェアを通信制御装置に組込む機会が増えている。これらブラックボックスのソフトウェアによるセキュリティホールなどの潜在的問題、あるいはそれらの組合わせに起因する不具合によって、データの論理破壊が引き起こされた場合、装置全体の動作異常を招く不正データを不揮発保持するリスクが上がっている。データの不正によって引き起こされた障害は、原因データが修復されるまで継続する。そのため、当該データが不揮発保持されていた場合には、装置の再起動や電源再投入など、一般的なエンドユーザが実施可能な手段では動作復旧できないという課題がある。 In recent years, there are increasing opportunities to incorporate open source software and general sales software in communication control devices. If the logical destruction of data is caused by potential problems such as security holes caused by these black box software, or a combination of them, there is a risk of holding illegal data that causes abnormal operation of the entire device in a nonvolatile manner. It is up. Failures caused by data corruption continue until the cause data is repaired. Therefore, when the data is held in a non-volatile manner, there is a problem that the operation cannot be recovered by means that can be performed by a general end user, such as restarting the apparatus or turning on the power again.
この発明は、上記のような課題を解決するためになされたもので、検査コードなどの設計上予め想定した障害原因のみを検出する手段に依存せず、不特定原因により発生した不揮発の不正データによる障害状態から自動復旧できる通信制御装置および障害復旧方法を提供することを目的としている。 The present invention has been made to solve the above-described problems, and does not depend on means for detecting only a cause of failure assumed in advance in the design of an inspection code or the like, and non-volatile illegal data generated due to an unspecified cause. It is an object of the present invention to provide a communication control device and a failure recovery method capable of automatically recovering from a failure state caused by a failure.
この発明に係る通信制御装置は、冗長構成のソフトウェア実行モジュール、および当該ソフトウェア実行モジュールで使用されるシステムデータを格納する記憶部と、自機の起動開始後、記憶部からソフトウェア実行モジュールおよびシステムデータを読出して実行することで、プロセスの起動を行うプロセス起動部と、プロセス起動部によるプロセスの起動開始後、設定時間までに当該プロセスの起動が完了したかを判定する起動判定部と、起動判定部により起動が完了しなかったと判定された場合に、プロセス起動部に、使用するソフトウェア実行モジュールの冗長切替えを行わせて再起動させる再起動指示部と、プロセス起動部により再起動が行われた後、起動判定部により再び起動が完了しなかったと判定された場合に、再起動指示部による処理前に、記憶部に格納されたシステムデータの修復を行うデータ修復部とを備えたものである。 Communication control apparatus according to the present invention includes a storage unit for storing the system data used by software execution modules and the software execution modules, the redundant configuration, after starting the start of its own, storage unit or Raso software execution module and by executing the system data is read, the process starting unit that performs activation of the process and, after activation start of the process by the process startup unit determines the activation determination unit for determining activation of the process is completed by the set time And a restart instructing unit that causes the process starting unit to perform redundancy switching of the software execution module to be used and restarts when the start determining unit determines that the start has not been completed, and a restart by the process starting unit If the activation determination unit determines that the activation has not been completed again, the restart instruction is issued. Before treatment with, in which a data recovery unit for performing repair the system data stored in the storage unit.
また、この発明に係る障害復旧方法は、記憶部により、冗長構成のソフトウェア実行モジュール、および当該ソフトウェア実行モジュールで使用されるシステムデータを格納する記憶ステップと、プロセス起動部により、自機の起動開始後、記憶部からソフトウェア実行モジュールおよびシステムデータを読出して実行することで、プロセスの起動を行うプロセス起動ステップと、起動判定部により、プロセス起動部によるプロセスの起動開始後、設定時間までに当該プロセスの起動が完了したかを判定する起動判定ステップと、再起動指示部により、起動判定部により起動が完了しなかったと判定された場合に、プロセス起動部に、使用するソフトウェア実行モジュールの冗長切替えを行わせて再起動させる再起動指示ステップと、データ修復部により、プロセス起動部により再起動が行われた後、起動判定部により再び起動が完了しなかったと判定された場合に、再起動指示部による処理前に、記憶部に格納されたシステムデータの修復を行うデータ修復ステップとを有するものである。 Furthermore, error recovery method according to the present invention, the storage unit, a storing step of storing the system data used by software execution modules and the software execution modules, the redundant configuration, the process starting unit, activation of its own after the start, the storage unit or Raso software execution module and system data by performing reads out a process startup step of starting the process, the activation determination section, the process of activation after the start by the process startup unit, the set time A software execution module to be used for the process activation unit when the activation determination unit determines whether the activation of the process has been completed by the activation determination unit and the activation instruction unit Restart instruction step for restarting by performing redundant switching of data, and data The recovery unit, after the restart is performed by the process startup unit, when it is determined that activation is not completed again by activation determination unit, the pretreatment with restart instructing section, system stored in the storage unit And a data repairing step for repairing data.
この発明によれば、上記のように構成したので、検査コードなどの設計上予め想定した障害原因のみを検出する手段に依存せず、不特定原因により発生した不揮発の不正データによる障害状態から自動復旧できる。 According to the present invention, since it is configured as described above, it is not dependent on means for detecting only the cause of failure assumed in advance in the design of inspection codes or the like, and automatically from a failure state due to non-volatile illegal data generated by an unspecified cause. It can be recovered.
以下、この発明の実施の形態について図面を参照しながら詳細に説明する。
実施の形態1.
図1はこの発明の実施の形態1に係る通信制御装置の一般的な全体構成を示す図である。
通信制御装置は、図1に示すように、処理部1、通信コントローラ2、記憶部3および外部インタフェース部4から構成されている。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
FIG. 1 is a diagram showing a general overall configuration of a communication control apparatus according to
As shown in FIG. 1, the communication control device includes a
処理部1は、外部インタフェース部4を通じてEther Net(登録商標)や電話回線、無線LANなどと通信データの送受信を行うものである。また、処理部1は、ユーザインタフェースを搭載し、操作者にデータ設定や表示の機能を提供する。この処理部1は、CPUおよびソフトウェアで構成される。この処理部1のソフトウェア内部構成については後述する。
The
通信コントローラ2は、処理部1の通信機能を補助するものである。すなわち、受信パケットデータを選別して処理部1へ渡す、予め処理部1から設定されたルールに基づき送信パケットを組立てて外部インタフェース部4へ転送する、また、外部インタフェース部4にある複数のインタフェース間でパケットデータの送受・転送を行うなどの動作を行う。
The communication controller 2 assists the communication function of the
記憶部3は、通信制御装置が動作するために必要なデータを格納する不揮発メモリである。この記憶部3には、図2に示すように、プロセス(サービスプロセス)を起動するソフトウェア実行モジュール、ソフトウェア実行モジュールで使用されるシステムデータ(運用値)、ユーザデータ、およびシステムデータの初期データが格納される。この記憶部3に格納されたデータが処理部1により読出され、または処理部1により更新データが書込まれることで、装置が動作する。
The
ここで、システムデータの具体例としては、回線種別や経路情報、IPアドレスや各種フィルタ設定、その他動作ログなどがある。回線種別とは、外部インタフェース部4と接続される回線の種類である。経路情報とは、通信制御装置へ受信されるまでの通信データの経路(ルート)情報、通信制御装置から送信される通信データの経路(ルート)情報である。また、経路上の装置(1つであっても複数であってもよい)の識別情報(例えばIPアドレス)であってもよい。IPアドレスとは、自装置のIPアドレスである。
また、システムデータは、通信制御装置の運用時に更新される。例えば、回線種別などは起動時または一定時間毎に確認され、前回と異なる場合はシステムデータが更新される。また、IPアドレスのように動的に変化するものは、変化の都度、システムデータが更新される。
Here, specific examples of system data include line type, route information, IP address, various filter settings, and other operation logs. The line type is the type of line connected to the external interface unit 4. The route information is route information of communication data until it is received by the communication control device, and route information of communication data transmitted from the communication control device. Further, it may be identification information (for example, an IP address) of a device (one or a plurality) on the route. The IP address is the IP address of the own device.
The system data is updated when the communication control apparatus is operated. For example, the line type or the like is checked at the time of activation or at regular intervals, and the system data is updated if it is different from the previous time. In the case of an IP address that changes dynamically, the system data is updated each time the address changes.
また、ソフトウェア実行モジュールは冗長構成であり、記憶部3に2つ格納されている。一方のソフトウェア実行モジュールは起動に使用され、他方のソフトウェア実行モジュールはバックアップとなる。なお以下では便宜上、前者を1面、後者を2面と呼ぶ。
The software execution modules have a redundant configuration and are stored in the
次に、処理部1で動作するソフトウェア内部構成について、図3を参照しながら説明する。
処理部1は、図3に示すように、装置制御部11およびタイマ制御部12を有している。
Next, an internal configuration of software that operates in the
As shown in FIG. 3, the
装置制御部11は、ソフトウェア全体の起動を担うものである。この装置制御部11は、タイマ設定部111、プロセス起動部112、起動判定部113、再起動指示部114およびデータ修復部115から構成されている。
The
タイマ設定部111は、通信制御装置の起動開始後、タイマ制御部12が計数する値(セットアップ完了タイマ)を当該タイマ制御部12に対して設定するものである。
The
プロセス起動部112は、通信制御装置の起動開始後、ユーザへの機能提供に必要となるプロセスの起動を行うものである。この際、プロセス起動部112は、記憶部3からソフトウェア実行モジュールを順次読出して実行し、かつ、記憶部3からシステムデータを適宜読出し、動作に必要となる各種設定を行いながら処理を進めていく。なお、起動を行うプロセスは複数あってもよく、また、1つずつ順に起動してもよいし一斉に起動してもよい。また、各プロセスは、起動が完了した際に装置制御部11に対して完了通知を行うよう構成されている。
The
起動判定部113は、プロセス起動部112によるプロセスの起動開始後、設定時間までに(タイマ制御部12からのタイムアウト通知を受けるまでに)、当該プロセス(複数のプロセスの起動を行った場合には全てのプロセス)の起動が完了したかを判定するものである。この際、起動判定部113は、プロセス起動部112が起動を行ったプロセスから起動完了通知を受けたかを判定することで、起動が完了したかを判定する。
The
再起動指示部114は、起動判定部113により起動が完了しなかったと判定された場合に、プロセス起動部112に、使用するソフトウェア実行モジュールの冗長切替えを行わせて再起動させるものである。
When the
データ修復部115は、プロセス起動部112により再起動が行われた後、起動判定部113により再び起動が完了しなかったと判定された場合に、再起動指示部114による処理前に、記憶部3に格納された該当するシステムデータの修復を行うものである。
After the restart is performed by the
タイマ制御部12は、タイマ設定部111によりセットアップ完了タイマが設定された後、当該セットアップ完了タイマを計数して設定時間を経過した際に、装置制御部11に対してタイムアウト通知を行うものである。
After the setup completion timer is set by the
次に、上記のように構成された通信制御装置の動作について、図4を参照しながら説明する。なお図4では、通信制御装置の運用時に更新のないソフトウェア実行モジュールではなく、通信制御装置の運用時に更新があるシステムデータに異常がある場合を想定する。
通信制御装置の動作では、図4に示すように、まず、タイマ設定部111は、通信制御装置の起動開始後、セットアップ完了タイマをタイマ制御部12に対して設定する(ステップST401)。そして、タイマ制御部12は、上記セットアップ完了タイマの計数を開始する(ステップST402)。
Next, the operation of the communication control apparatus configured as described above will be described with reference to FIG. In FIG. 4, it is assumed that there is an abnormality in the system data that is updated when the communication control apparatus is operated, not the software execution module that is not updated when the communication control apparatus is operated.
In the operation of the communication control device, as shown in FIG. 4, first, the
また、プロセス起動部112は、通信制御装置の起動開始後、ユーザへの機能提供に必要となるプロセスの起動を行う(ステップST403、プロセス起動ステップ)。この際、プロセス起動部112は、記憶部3からソフトウェア実行モジュールを順次読出して実行し、かつ、記憶部3からシステムデータを適宜読出し、動作に必要となる各種設定を行いながら処理を進めていく。そして、各プロセスは、起動が完了した際に装置制御部11に対して完了通知を行う。なお、ここでプロセス起動部112が使用するソフトウェア実行モジュールは1面である。
In addition, the
その後、タイマ制御部12は、セットアップ完了タイマを計数して設定時間を経過した際に、装置制御部11に対してタイムアウト通知を行う(ステップST404)。
Thereafter, the
次いで、起動判定部113は、プロセス起動部112によるプロセスの起動開始後、タイマ制御部12からのタイムアウト通知を受けるまでに、プロセスから起動完了通知を受けたかを判定する(ステップST405、起動判定ステップ)。
このステップST405において、起動判定部113は、プロセス起動部112が起動を行ったプロセスから起動完了通知を受けたと判定した場合には、起動が完了したと判定し、通信制御装置は運用状態に移行する。なお図4では、プロセスに何らかの障害が発生し、起動完了通知を装置制御部11に返せない場合を示している。
Next, the
In step ST405, the
一方、ステップST405において、起動判定部113が、プロセス起動部112が起動を行ったプロセスから起動完了通知を受けていないと判定した場合には、起動が完了しなかったと判定し、再起動指示部114は、プロセス起動部112に、使用するソフトウェア実行モジュールの冗長切替えを行わせて再起動させる(ステップST406,407、再起動指示ステップ)。すなわち、再起動指示部114は、記憶部3に格納されたソフトウェア実行モジュールに何らかの異常があると想定し、プロセス起動部112が使用するソフトウェア実行モジュールを1面から2面に切替えさせて再起動させる。
On the other hand, if the
この再起動においても上記同様に、タイマ制御部12がセットアップ完了タイマを計数してタイマ制御部12が当該セットアップ完了タイマの計数を開始し、プロセス起動部112が順次プロセスの起動を行っていく(ステップST408〜410、プロセス起動ステップ)。
その後、タイマ制御部12は、セットアップ完了タイマを計数して設定時間を経過した際に、装置制御部11に対してタイムアウト通知を行う(ステップST411)。
In this restart, similarly to the above, the
Thereafter, the
次いで、起動判定部113は、プロセス起動部112によるプロセスの起動開始後、タイマ制御部12からのタイムアウト通知を受けるまでに、プロセスから起動完了通知を受けたかを判定する(ステップST412、起動判定ステップ)。
このステップST412において、起動判定部113は、プロセス起動部112が起動を行ったプロセスから起動完了通知を受けたと判定した場合には、起動が完了したと判定し、通信制御装置は運用状態に移行する。なお図4では、プロセスに何らかの障害が発生し、起動完了通知を装置制御部11に返せない場合を示している。
Next, the
In step ST412, the
一方、ステップST412において、起動判定部113が、再び、プロセス起動部112が起動を行ったプロセスから起動完了通知を受けていないと判定した場合には、起動が完了しなかったと判定し、データ修復部115は、記憶部3に格納された該当するシステムデータの修復を行う(ステップST413、データ修復ステップ)。すなわち、データ修復部115は、記憶部3に格納されたシステムデータに何らかの異常があると想定し、当該システムデータの修復を行う。
On the other hand, in step ST412, if the
なお図4では、システムデータの修復手段として、データ修復部115が、記憶部3に格納された初期データを用いて当該システムデータを初期化する例を示している。しかしながら、これに限るものではなく、他に、ソフトウェア実行モジュールと同様の方法でシステムデータについてもバックアップを保持しておき、または過去に更新された世代データを保持しておき、これに差替える方法でもよい。また、上記初期化または差替えの後、通信機能が正常動作した際に、外部装置から必要なデータを取得する方法を組合わせてもよい。
FIG. 4 shows an example in which the
次いで、データ修復部115によりシステムデータが修復された後、再起動指示部114は、プロセス起動部112に、使用するソフトウェア実行モジュールの冗長切替え(1面から2面への切替え)を行わせて再起動させる(ステップST414,415、再起動指示ステップ)。
Next, after the system data is restored by the
以上のように、この実施の形態1によれば、装置動作そのものの異常を検出し、その異常要因の可能性として不揮発保持データの不正がある場合にデータ復旧を実行するように構成したので、検査コードなどの設計上予め想定した障害原因のみを検出する手段に依存せず、不特定原因により発生した不揮発の不正データによる障害状態から自動復旧できる。そして、プロセスの異常により再起動を試みる際に、不揮発のシステムデータを起動可能な内容に修復することによって、データに依存した異常においても再起動を延々と繰り返す事象に陥ることがなく、通信制御装置の起動に成功する可能性が高まる。
その結果、ブラックボックスソフトウェアによるセキュリュティホールや上位アプリケーションの不具合に起因する不正データの発生により引き起こされた障害状態を解消し、通信制御装置を正常動作状態に復旧させることができる。これにより、障害発生時、エンドユーザは、迅速に通信サービス事業者のサポートおよびサービスを受けられる効果がある。また、通信サービス事業者は、通信制御装置の交換などの時間とコストがかかる手段ではなく、遠隔からの保守手段によるユーザサポートの実施、または障害を復旧させサービスを再開できる効果がある。
As described above, according to the first embodiment, since the abnormality of the device operation itself is detected, the data recovery is executed when the non-volatile retained data is illegal as the possibility of the abnormality. It is possible to automatically recover from a failure state caused by non-volatile illegal data generated due to an unspecified cause without depending on a means for detecting only a failure cause assumed in design such as an inspection code. Then, when trying to restart due to a process error, by restoring nonvolatile system data to a bootable content, even if an error depends on the data, it does not fall into the event of repeated restarts, and communication control The possibility of successfully starting the device is increased.
As a result, the failure state caused by the generation of illegal data due to the security hole by the black box software or the malfunction of the upper application can be solved, and the communication control device can be restored to the normal operation state. As a result, when a failure occurs, the end user can quickly receive the support and service of the communication service provider. In addition, the communication service provider is not a method that takes time and cost such as replacement of a communication control device, but has an effect of performing user support by remote maintenance means or recovering a failure and restarting the service.
実施の形態2.
実施の形態1では、通信制御装置の起動の際にプロセスが起動完了しない事象におけるデータ修復の例を示した。それに対し、起動の際のみでなく、プロセスの運用中においても、例えば、システムデータを使用する際の値域判定による異常検出、プロセスの無応答検出、ウォッチドグタイムアウト、設計想定外の条件分岐成立、オペレーティングシステムによるプロセスの停止などの、公知の想定された事象と組合わせることによって、障害復旧の可能性を更に高めることができる。以下、運用中のプロセスに障害が生じた場合に障害を復旧する構成について示す。
図5はこの発明の実施の形態1における処理部1のソフトウェア内部構成を示す図である。図5に示す実施の形態2における処理部1は、図3に示す実施の形態1における処理部1に、障害検出部116、障害情報記憶部117および障害情報判定部118を追加したものである。その他の構成は同様であり、同一の符号を付して異なる部分についてのみ説明を行う。
Embodiment 2. FIG.
In the first embodiment, the example of data restoration in the event that the process is not completely started when the communication control device is started has been described. On the other hand, not only during startup but also during operation of the process, for example, abnormality detection by range judgment when using system data, process no response detection, watchdog timeout, conditional branch establishment beyond design assumptions, Combining with known anticipated events, such as process shutdown by the operating system, can further increase the likelihood of failure recovery. Hereinafter, a configuration for recovering from a failure when a failure occurs in an operating process will be described.
FIG. 5 is a diagram showing an internal software configuration of the
障害検出部116は、運用中のプロセスに発生した障害を検出するものである。ここで、障害検出部116による障害検出手段としては、プロセスの正常性を確認するための問合せを行うヘルスチェック、プロセスに委託した処理の応答有無の監視などがある。なお、ヘルスチェックを行う場合には、タイマ設定部111は、障害検出部116がヘルスチェックを行う際に、タイマ制御部12が計数する値(ヘルスチェック完了タイマ)をタイマ制御部12に対して設定する。また、障害検出部116による障害検出対象のプロセスは複数であってもよい。
The
障害情報記憶部117は、障害検出部116により障害が検出された場合に、当該障害を示す情報を格納する不揮発メモリである。
障害情報判定部118は、障害検出部116により障害が検出された場合に、障害情報記憶部117に格納された情報に基づいて、同一の障害が発生したかを判定するものである。
The failure
The failure
なお、再起動指示部114は、障害検出部116により障害が検出された場合に、プロセス起動部112に該当するプロセスを再起動させる。
また、データ修復部115は、障害情報判定部118により同一の障害が発生したと判定された場合に、再起動指示部114による処理前に、記憶部3に格納されたシステムデータの修復を行う。
Note that the
Further, the
次に、上記のように構成された通信制御装置の動作について、図6を参照しながら説明する。なお図6では、障害検出部116は、障害検出手段としてプロセスに対してヘルスチェックを定期的に行い、プロセスの無応答を検出する場合を想定する。
通信制御装置の動作では、図4に示すように、通信制御装置が運用中に、まず、タイマ設定部111は、ヘルスチェック完了タイマをタイマ制御部12に対して設定する(ステップST601)。そして、タイマ制御部12は、上記ヘルスチェック完了タイマの計数を開始する(ステップST602)。
Next, the operation of the communication control apparatus configured as described above will be described with reference to FIG. In FIG. 6, it is assumed that the
In the operation of the communication control device, as shown in FIG. 4, first, the
また、障害検出部116は、プロセスに対してヘルスチェックを行い、当該プロセスの正常性を確認するための問合せを行う(ステップST603、障害検出ステップ)。
In addition, the
その後、タイマ制御部12は、ヘルスチェックを計数して設定時間を経過した際に、装置制御部11に対してタイムアウト通知を行う(ステップST604)。
Thereafter, when the
次いで、障害検出部116は、ヘルスチェック後、タイマ制御部12からのタイムアウト通知を受けるまでに、プロセスから応答があったかを判定する(ステップST605、障害検出ステップ)。
このステップST605において、障害検出部116は、ヘルスチェックを行ったプロセスから応答があったと判定した場合には、障害は発生していないと判定し、シーケンスはステップST601に戻る。なお図6では、プロセスからの応答がなかった場合を示している。
Next, after the health check, the
In step ST605, when the
一方、ステップST605において、障害検出部116が、ヘルスチェックを行ったプロセスから応答がないと判定した場合には、障害が発生したと判定し、障害情報記憶部117は、当該障害を示す情報を格納する(ステップST606、障害情報記憶ステップ)。
その後、再起動指示部114は、プロセス起動部112に該当するプロセスを再起動させる(ステップST607、再起動指示ステップ)。この再起動は実施の形態1と同様の動作であり、その説明を省略する(ステップST608〜614)。
On the other hand, if the
After that, the
その後、プロセスの起動が完了した場合には運用を開始し、上記と同様にタイマ制御部12がヘルスチェック完了タイマを計数してタイマ制御部12が当該ヘルスチェック完了タイマの計数を開始し、障害検出部116はプロセスに対してヘルスチェックを行う(ステップST615〜617、障害検出ステップ)。
その後、タイマ制御部12は、ヘルスチェック完了タイマを計数して設定時間を経過した際に、装置制御部11に対してタイムアウト通知を行う(ステップST618)。
Thereafter, when the process activation is completed, the operation is started, and the
Thereafter, when the
次いで、障害検出部116は、ヘルスチェック後、タイマ制御部12からのタイムアウト通知を受けるまでに、プロセスから応答があったかを判定する(ステップST619、障害検出ステップ)。
このステップST619において、障害検出部116は、ヘルスチェックを行ったプロセスから応答があったと判定した場合には、障害は発生していないと判定し、シーケンスはステップST601に戻る。なお図6では、プロセスからの応答がなかった場合を示している。
Next, after the health check, the
In step ST619, when the
一方、ステップST619において、障害検出部116が、ヘルスチェックを行ったプロセスから応答がないと判定した場合には、障害が発生したと判定し、障害情報記憶部117は、当該障害を示す情報を格納する(ステップST620、障害情報記憶ステップ)。
次いで、障害情報判定部118は、障害情報記憶部117に格納された情報に基づいて、同一の障害が発生したかを判定する(ステップST621、障害情報判定ステップ)。
On the other hand, if the
Next, the failure
このステップST621において、障害情報判定部118が、同一の障害が発生したと判定した場合には、データ修復部115は、記憶部3に格納されたシステムデータの修復を行う(ステップST622、データ修復ステップ)。すなわち、データ修復部115は、同一要因の障害が繰り返し発生したことを確認し、システムデータに起因する可能性であると想定し、当該システムデータの修復(初期化など)を行う。
その後、再起動指示部114は、プロセス起動部112に該当するプロセスを再起動させる(ステップST623、再起動指示ステップ)。
In step ST621, when the failure
Thereafter, the
以上のように、この実施の形態2によれば、実施の形態1の効果に加え、運用中の障害検出を行うように構成したので、装置の起動に成功した後に発生する特定サービスの繰り返し障害に対しても、障害状態を解消できる可能性が高まる。 As described above, according to the second embodiment, in addition to the effects of the first embodiment, since it is configured to detect a failure during operation, a repeated failure of a specific service that occurs after the apparatus is successfully started up However, the possibility that the fault state can be resolved is increased.
なお、本願発明はその発明の範囲内において、各実施の形態の自由な組合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。 In the present invention, within the scope of the invention, any combination of the embodiments, or any modification of the components of the embodiments, or omission of any components of the embodiments can be made. is there.
1 処理部、2 通信コントローラ、3 記憶部、4 外部インタフェース部、11 装置制御部、12 タイマ制御部、111 タイマ設定部、112 プロセス起動部、113 起動判定部、114 再起動指示部、115 データ修復部、116 障害検出部、117 障害情報記憶部、118 障害情報判定部。
DESCRIPTION OF
Claims (3)
自機の起動開始後、前記記憶部から前記ソフトウェア実行モジュールおよびシステムデータを読出して実行することで、プロセスの起動を行うプロセス起動部と、
前記プロセス起動部によるプロセスの起動開始後、設定時間までに当該プロセスの起動が完了したかを判定する起動判定部と、
前記起動判定部により起動が完了しなかったと判定された場合に、前記プロセス起動部に、使用するソフトウェア実行モジュールの冗長切替えを行わせて再起動させる再起動指示部と、
前記プロセス起動部により再起動が行われた後、前記起動判定部により再び起動が完了しなかったと判定された場合に、前記再起動指示部による処理前に、前記記憶部に格納された前記システムデータの修復を行うデータ修復部と
を備えた通信制御装置。 A storage unit for storing the system data to be used in redundant configuration of the software execution modules and the software execution module,
After starting activation of its own equipment, by running from the storage unit reads the software execution modules and system data, and process startup unit is used to start the process,
An activation determination unit that determines whether the activation of the process is completed by a set time after the activation of the process by the process activation unit;
When it is determined that the activation has not been completed by the activation determination unit, a restart instruction unit that causes the process activation unit to perform redundancy switching of the software execution module to be used, and to restart,
After the restart is performed by the process startup unit, the start if the activation determination unit again by are determined not completed, the prior treatment with restart instructing section, the systems stored in the storage unit A communication control device comprising a data restoration unit for restoring data.
前記障害検出部により障害が検出された場合に、当該障害を示す情報を格納する障害情報記憶部と、
前記障害検出部により障害が検出された場合に、前記障害情報記憶部に格納された情報に基づいて、同一の障害が発生したかを判定する障害情報判定部とを備え、
前記再起動指示部は、前記障害検出部により障害が検出された場合に、前記プロセス起動部に前記プロセスを再起動させ、
前記データ修復部は、前記障害情報判定部により同一の障害が発生したと判定された場合に、前記再起動指示部による処理前に、前記記憶部に格納されたシステムデータの修復を行う
ことを特徴とする請求項1記載の通信制御装置。 A fault detection unit that detects a fault that has occurred in an operating process;
A failure information storage unit that stores information indicating the failure when a failure is detected by the failure detection unit;
A failure information determination unit that determines whether the same failure has occurred based on information stored in the failure information storage unit when a failure is detected by the failure detection unit;
The restart instruction unit, when a failure is detected by the failure detection unit, to restart the process in the process startup unit,
The data restoration unit restores the system data stored in the storage unit before processing by the restart instruction unit when it is determined by the failure information determination unit that the same failure has occurred. The communication control apparatus according to claim 1, wherein:
プロセス起動部により、自機の起動開始後、前記記憶部から前記ソフトウェア実行モジュールおよびシステムデータを読出して実行することで、プロセスの起動を行うプロセス起動ステップと、
起動判定部により、前記プロセス起動部によるプロセスの起動開始後、設定時間までに当該プロセスの起動が完了したかを判定する起動判定ステップと、
再起動指示部により、前記起動判定部により起動が完了しなかったと判定された場合に、前記プロセス起動部に、使用するソフトウェア実行モジュールの冗長切替えを行わせて再起動させる再起動指示ステップと、
データ修復部により、前記プロセス起動部により再起動が行われた後、前記起動判定部により再び起動が完了しなかったと判定された場合に、前記再起動指示部による処理前に、前記記憶部に格納された前記システムデータの修復を行うデータ修復ステップと
を有する障害復旧方法。 The storage unit, a storing step of storing the system data to be used in redundant configuration of the software execution modules and the software execution module,
The process startup unit, after activation start of its own equipment, by running from the storage unit reads the software execution modules and system data, and process start step of starting the process,
An activation determination step for determining whether the activation of the process has been completed by a set time after the activation of the process by the process activation unit by the activation determination unit;
When the restart instruction unit determines that the activation has not been completed by the activation determination unit, a restart instruction step for causing the process activation unit to perform redundancy switching of the software execution module to be used and restarting,
When the data restoration unit determines that the activation has not been completed again by the activation determination unit after the process activation unit has been restarted, before the processing by the restart instruction unit, in the storage unit error recovery method and a data restoration step of performing repairs of the stored the system data.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014007644A JP6257345B2 (en) | 2014-01-20 | 2014-01-20 | Communication control device and failure recovery method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014007644A JP6257345B2 (en) | 2014-01-20 | 2014-01-20 | Communication control device and failure recovery method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015138269A JP2015138269A (en) | 2015-07-30 |
JP6257345B2 true JP6257345B2 (en) | 2018-01-10 |
Family
ID=53769264
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014007644A Expired - Fee Related JP6257345B2 (en) | 2014-01-20 | 2014-01-20 | Communication control device and failure recovery method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6257345B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7152920B2 (en) | 2018-09-28 | 2022-10-13 | キヤノン株式会社 | Information processing device, its control method, and program |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07295670A (en) * | 1994-04-27 | 1995-11-10 | Chubu Nippon Denki Software Kk | Starting method for computer system |
JP2002333990A (en) * | 2001-03-05 | 2002-11-22 | Omron Corp | Program updating device and its method |
JP2007052520A (en) * | 2005-08-16 | 2007-03-01 | Sony Corp | Information processor, information processing method, and program |
JP4875222B2 (en) * | 2011-09-27 | 2012-02-15 | 株式会社東芝 | Server apparatus, activation control method, and information processing apparatus |
-
2014
- 2014-01-20 JP JP2014007644A patent/JP6257345B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2015138269A (en) | 2015-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI386847B (en) | Method of safe and recoverable firmware update and device using the same | |
JP6291248B2 (en) | Firmware upgrade error detection and automatic rollback | |
JP5431111B2 (en) | Information processing apparatus and system setting method | |
US8806265B2 (en) | LPAR creation and repair for automated error recovery | |
JP4681900B2 (en) | Computer stop condition monitoring method, information processing apparatus, and program | |
JP4643977B2 (en) | Programmable logic device, information processing apparatus, and control method for programmable logic device | |
CN108737153B (en) | Block chain disaster recovery system, method, server and computer-readable storage medium | |
JP2009070224A (en) | Electronic equipment, start-up control method of electronic equipment and image forming device | |
JP6102235B2 (en) | BIOS recovery control device, recovery control method thereof, information processing device, and computer program | |
JP5366184B2 (en) | Data storage system and data storage method | |
JP6257345B2 (en) | Communication control device and failure recovery method | |
JP6482211B2 (en) | Information processing apparatus, control method thereof, and program | |
CN101526908B (en) | Device and method for firmware updating | |
JP2006235992A (en) | Firmware rewriting system of printer, firmware rewriting method, and printer | |
JP2007172096A (en) | Information processor and start control method | |
JP2013187699A (en) | Fpga configuration processing control circuit | |
JP6194496B2 (en) | Information processing apparatus, information processing method, and program | |
JP2010061258A (en) | Duplex processor system and processor duplex method | |
JP6232877B2 (en) | Information processing apparatus, information processing method, and program | |
JP6745586B2 (en) | Programmable device, information processing apparatus, and control method of processing circuit in programmable device | |
JP5645262B2 (en) | Information processing device | |
CN111427721B (en) | Abnormality recovery method and device | |
JP2010055509A (en) | System, method, and program for fault recovery, and cluster system | |
JP7166231B2 (en) | Information processing device and information processing system | |
JP4834421B2 (en) | Network equipment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160714 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170726 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170808 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171006 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171107 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171205 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6257345 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |