JP2014211784A - 多重化制御装置および多重化制御方法 - Google Patents

多重化制御装置および多重化制御方法 Download PDF

Info

Publication number
JP2014211784A
JP2014211784A JP2013088106A JP2013088106A JP2014211784A JP 2014211784 A JP2014211784 A JP 2014211784A JP 2013088106 A JP2013088106 A JP 2013088106A JP 2013088106 A JP2013088106 A JP 2013088106A JP 2014211784 A JP2014211784 A JP 2014211784A
Authority
JP
Japan
Prior art keywords
control device
error
log
multiplexing
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013088106A
Other languages
English (en)
Inventor
貴嗣 人見
Takashi Hitomi
貴嗣 人見
古賀 信義
Nobuyoshi Koga
信義 古賀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2013088106A priority Critical patent/JP2014211784A/ja
Publication of JP2014211784A publication Critical patent/JP2014211784A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B9/00Safety arrangements
    • G05B9/02Safety arrangements electric
    • G05B9/03Safety arrangements electric with multiple-channel loop, i.e. redundant control systems

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Safety Devices In Control Systems (AREA)

Abstract

【課題】信頼性の低下を抑制することが可能な多重化制御装置を提供する。【解決手段】多重化制御装置は、エラーのイベントをシステムログにログとして登録する。システムログから、所定の時間内に発生しているエラーの発生回数を把握し、エラーの回数が、所定の回数に達したとき、永久エラーが発生したと推定する。多重化制御装置は、推定した永久エラーの明示を行う。これにより、エラーに関する情報が不足している種々の部品を実装しても、永久エラーを推定することが可能となり、多重化制御装置の信頼性の低下を抑制することが可能となる。【選択図】図2

Description

本発明は、多重化制御装置および多重化制御方法に関し、特に故障の発生に応答して自動的に制御の切り替えが行われる多重化サーバに関する。
近年、監視制御システムなどの制御システムにおいては、そのシステムの信頼性を向上させるために、制御システムに含まれるところの制御装置を複数個設け、多重化した多重化制御装置が採用されることがある。例えば、電気、上下水、ガス等の生活インフラを制御する制御システムにおいては、制御システムは終日稼働されることが要求される。更に、生活に密着しているため、当該制御システムには高い信頼性が要求される。そのため、この様な制御システムにおいては、複数の制御装置を用いた多重化制御装置が、制御システムとして用いられる。
多重化制御装置の一例として、いわゆる二重化された制御装置がある。この場合、二重化された制御装置を構成する2個の制御装置のうちの、一方が運用系とされ、他方が待機系とされる。運用系の制御装置が、万が一故障および/あるいは通信不良に陥り、その制御装置が復旧不可能となった場合、待機系の制御装置が、運用系に自動的に切り替わる。これにより、重要な機能が停止せずに、継続してシステムの運用を行うことが可能となる。
一方、多重化制御装置においては、複数個の制御装置を設けることが要求されるため、コストアップに繋がる。コストアップを抑制するために、それぞれの制御装置に用いられる部品としては、種々のメーカから、種々の部品の調達が行われることがある。
特開2011―248678号公報
種々のメーカから、種々の部品を調達して、多重化制御装置を構成する場合、調達した部品に関して、それを販売するメーカから、その部品に対して十分な情報の公開がされていない場合も有りうる。例えば、調達した部品に関して、エラーを発生するときの使用状況等に関する情報が十分に公開されていないことが考えられる。この様な状況においても、多重化制御装置においては、運用系の制御装置に復旧不可能な故障が発生した場合には、自動的に待機系の制御装置へ切り替えが行われ、運用を継続することが要求される。
エラーに関する情報が不足していると、その部品を実装した場合に、運用において発生しているエラーを認識することが困難となることが考えられる。例えば、その部品で発生しているエラーが、復旧不可能なエラー(永久エラー)であるのか、期待エラーであるのかを認識することが困難となる。発生しているエラーが、永久エラーであれば、運用を継続することは困難となり、その部品を故障と判定して、運用系の制御装置における部品の交換あるいは点検が必要とされる。また、この場合には、待機系の制御装置を運用系に切り替えることも要求される。
一方、発生しているエラーが、期待エラーの場合には、予め想定しているエラーであり、制御装置のパフォーマンスは低下することが考えられるが、運用は可能である。ここで、期待エラーとは、制御装置が正常に動作している状態で、そのエラーが発生することが想定されており、且つ制御装置の設計の際にも、そのエラーの発生が織り込み済みのエラーを意味している。すなわち、期待エラーの発生そのものは、制御装置の異常には該当しない。例えば、一時的なイベントの多発が想定される制御装置において、イベントの入力待ちテーブルが一時的にFULLとなることを想定して設計された制御装置においては、新たなイベントが、待ちテーブルへの登録に失敗することは、期待エラーに該当する。この場合、待ちテーブルへの登録に失敗したときは、一定時間経過した後で、再登録を行う様に、制御装置は設計される。すなわち、エラーが発生することは予め織り込み済みとされており、部品の交換等が要求される永久エラーには該当しない。しかしながら、この例の様に、時間的なパフォーマンスは低下する。
特許文献1には、データベースを更新した場合に、更新に係わるログを生成するログ生成部を有するデータベース二重化システムが開示されている。しかしながら、特許文献1には、情報開示が十分されていない部品を用いた場合に生じる課題は記載されていないし、その認識もされていない。
本発明の目的は、それを構成する部品として、種々の部品を用いても、その信頼性の低下を抑制することが可能な多重化制御装置を提供することにある。
本発明の前記ならびにそのほかの目的と新規な特徴は、本明細書の記述および添付図面から明らかになるであろう。
本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、次のとおりである。
すなわち、多重化制御装置は、エラーのイベントをシステムのログに記録(登録)する。所定の時間内にログに登録されたエラーイベントは、エラーの発生回数として把握され、エラーの発生回数が、所定の回数に達したとき、永久エラーが発生したと推定される。多重化制御装置は、推定した永久エラーの明示を行う。これにより、例えばエラーに関する情報が不足している種々の部品を実装しても、永久エラーを推定することが可能となり、多重化制御装置の信頼性の低下を抑制することが可能となる。また、推定した永久エラーの明示に応じて、運用の切り替え要否の判断も可能となる。
本明細書に開示される一実施の形態においては、期待エラーと判定されるべき情報が、多重化制御装置に記憶(格納)される。この格納されている情報とログに記録されているエラーイベントとの比較が行われ、所定の時間内に、所定の回数の一致が判定されたとき、永久エラーと推定される。これにより、期待エラーに対する処理(例えば、運用の継続)と、永久エラーに対する処理(明示あるいは運用の切り替え)とを、自動的に行うことが可能となる。
本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば、以下のとおりである。
信頼性の低下を抑制することが可能な多重化制御装置を提供することができる。
本発明に係わる多重化制御装置を有するシステムの構成を示すブロック図である。 本発明に係わるイベントログを判定する処理を示すフローチャート図である。 本発明の係わる制御機能処理の一覧(リスト)を示す図である。
以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一部分には原則として同一の符号を付し、その繰り返しの説明は省略する。
(実施の形態)
図1は、本発明の一実施の形態による多重化制御装置を具備したシステムのブロック図である。特に制限されないが、本実施の形態においては、多重化制御装置として、2個の制御装置を用いた二重化制御装置の例が示されている。以下、二重化制御装置を、多重化制御装置の例として説明する。図1において、2および3のそれぞれは、二重化制御装置を構成する制御装置である。同図において、1は、制御装置2および3により制御されるシステムであり、ネットワーク5、6によって、制御装置2および3に接続され、制御される。二重化制御装置を構成する制御装置2および3の間は、ネットワーク4によって接続されている。特に制限されないが、ネットワーク4は、LAN(Local Area Network)等で構成され、システム1と制御装置2および3を結ぶネットワーク5、6とは異なり、ネットワーク5、6からは分離されている。
上記した制御装置2および3のそれぞれは、運用系と待機系の2種類の状態を有しており、それぞれは2種類の状態のいずれかで動作する。もちろん、一方が、運用系として動作する時は、他方は待機系として動作し、運用系の制御装置が、主導でシステム1の制御を行う。以下では、制御装置2が運用系の制御装置であり、制御装置3が待機系の制御装置である場合を例として説明する。運用系の制御装置2と待機系の制御装置3は、専用のネットワーク4を介して、互いの生存を監視している。制御装置2および3のそれぞれには、キーボードが設置されている様に図面においては示されているが、これにはもちろん限定されない。また、以下の説明では、制御装置2、3のそれぞれをサーバ装置として説明するが、LAN等の通信機能を有するパーソナルコンピュータであってもよい。
図2は、本実施の形態に係わるイベントログを判定する処理のフローチャート図である。以下、図1および図2を用いて、イベントログの判定を実施する処理を説明する。以下の説明においては、制御装置2(図1)が運用系の制御装置として動作し、この制御装置2がプログラムを実行することにより、図2に示したフローチャートの処理が実行される場合を述べる。しかしながら、図1に示した制御装置が、プログラムを実行してもよい。また、図2において、フローチャートで示されている各処理は、ハードウェアにより実現してもよい。ハードウェアにより実現する場合、本明細書においては、処理をユニットと称する。
システムを起動すると、すなわち制御装置2、3を起動すると、ステップS101(起動)からの処理が開始される。一方、制御装置2および3のそれぞれは、それにエラーが発生する度に、システムのログに、ログデータとしてエラーのイベントIDを登録する。
制御装置2および/あるいは3は、ステップS102において、システムのログを開く(システムログオープン)。次に、ステップS103において、ログの内容が確認される(ログエラーチェック)。ログの内容がエラーの場合、次にログエラーチェック処理が開始される。ログエラーチェック処理は、同図において、右側に示されており、ステップA1からステップA2の間の工程を有している。このログエラーチェック処理は、ステップA1が入り口で、ステップA2が出口である。ステップS103において、ログの内容がエラーの場合、ログエラーチェック処理の入り口であるステップA1に処理が移り、ログエラーチェック処理が終了すると、出口であるステップA2から、上記したステップS103へ処理が移る。すなわち、ステップS103から、ログエラーチェック処理へは、記号Aを通して、ステップA1へ移る。ログエラーチェック処理からステップS103へは、ステップA2から、記号Aを通して、ステップS103へ移る。
ログエラーチェック処理においては、先ず、ステップS116において、エラー状態のイニシャルが行われる。次に、ステップS117において、システムのログを読み込み、システムのログに登録されているところのログデータからイベントIDを確認する(ステップS118)。ログデータに含まれるイベントIDについては、後で図3を用いて説明するが、発生するエラーの種類に対応した例えば番号である。図2に示している一連の処理を実行するところ制御装置(本実施の形態においては、制御装置2)には、予め、把握した複数種類のエラーのそれぞれに対して、対応するイベントIDが付与され、イベントIDのチェックリストが作成され、格納されている。説明を容易にするために、システムのログに登録されるログデータに含まれるイベントIDをログデータイベントIDと称し、イベントのチェックリストに登録されているイベントをチェックデータイベントIDと称する。ステップS118においては、ログデータイベントIDとチェックデータイベントIDとの比較が行われる。
ステップS118(イベントID確認)において、読み取ったログデータイベントIDと、チェックデータイベントIDとが一致した場合、エラーの発生回数を確認するステップが次に実行される。すなわち、一致したチェックデータイベントID(この場合、ログデータイベントIDも同じ)が、所定の回数に到達したか否かの判定がステップS119(発生回数確認)において行われる。所定の回数に到達した場合、次にステップS120が実行される。このステップS119においては、ステップS118からの一致を受けて、そのチェックデータイベントIDの発生(出現)の回数を“1”だけ増やす処理が行われる。特に制限されないが、回数を“1”だけ増加させた後で、上記した所定の回数に到達しているか否かの判定処理が行われる。
また、チェックリストには、後で図3を用いて説明するが、そのエラーの発生回数をチェック(確認)せずに、永久エラーとして処理すべきエラーもチェックデータイベントIDとして登録されている。本明細書においては、このチェックをしないエラーをチェック不要エラーと称する。このチェック不要エラーは、後で説明する図3から理解されるが、複数種類存在する。ログデータイベントIDとチェックデータイベントIDとの比較により、チェック不要エラーであると、ステップS118において判定された場合、ステップS119の処理はスキップされ、ステップS120が、次に実行される。
ステップS120は、チェックデータイベントIDに対応するエラーが所定の回数だけ発生した場合と、チェック不要エラーが発生した場合に、実行される。このステップS120の実行により、永久エラーが発生した旨の永久エラー情報が作成され、登録される。チェックリストに登録されているイベントIDには、期待エラーが発生した場合にシステムのログに登録されるイベントIDに対応するチェックデータイベントIDが含まれている。従って、その情報が十分に公開されていない部品を実装したときに、所定の回数以上に期待エラーが発生すると、永久エラーの発生を示す永久エラー情報が、ステップS120において形成される。すなわち、永久エラーの発生と推定される。発生しているエラーが永久エラーでなく、上記した所定の回数以上、実行(リトライ)すれば、エラーの解消が図れる場合もあるが、この実施の形態の様に、永久エラーの発生と同様と見なすことにより、時間的なパフォーマンスの低下を防ぐことが可能となる。
ステップS118において、システムのログに登録されているイベントIDが、チェックリストに登録されているイベントIDと一致しない場合、あるいはステップS119において、発生回数が、所定の回数に到達していないと判断された場合には、次にステップS121が実行される。また、上記したステップS120において、永久エラー情報を登録した後も、ステップS121が次に実行される。このステップS121においては、特に制限されないが、ログのチェックが行われたかの確認が行われる。もし、ログのチェックが済んでいなければ、再度ステップS118に戻り、ログのイベントIDをチェックする。ログのチェックが済んでいれば、次にステップS122が実行される。
ステップS122においては、システムのログとして登録されているログの件数分、ログのチェックが行われたかの判定を行う。もし、システムのログに登録されている件数分のログのチェックが済んでいなければ、上記したステップS117に戻り、ログの取り込みを行い、ステップS118以降のチェック処理を繰り返す。一方、件数分のログについて、チェックが済んでいると判断した場合には、ログエラーチエック処理の出口(A2)へ移る。このとき、ログエラーチェック処理において、永久エラーと見なせるエラーが検出されて、永久エラー情報が登録されていた場合には、その永久エラー情報が、以降のステップに伝わる様にして、ログエラーチェック処理は完了する。
ログエラーチェック処理が完了すると、次にステップS104が実行される。ステップS104においては、二重化状態の取得処理が行われる。この二重化状態の取得処理においては、ログエラーチェック処理を行ったところの自機が、運用系の制御装置なのか待機系の制御装置なのかの判定が行われる。
ステップS104の次に、ステップS111が実行される。ステップS111においては、上記したログエラーチェック処理において、永久エラー情報が登録されているか否かの判定が行われる(図においては、エラー判定と記載)。もし、永久エラー情報が登録されている場合、エラーとして次のステップS112が実行される。ステップS112では、既にエラーの表示がされているか否かの判定が行われる(表示判定)。もし、ステップS112において、エラーの表示がされていないと判定(未表示)された場合には、エラーが発生している旨のメッセージ表示を、ステップS113において行う。エラーのメッセージを表示した後、ステップS114において、開いていたシステムのログを閉じる(システムログクローズ)。
一方、ステップS111において、永久エラー情報を基にした判定の結果として、エラーは発生していないとなった場合には、ステップS111の後に、ステップS114を実施して、システムのログを閉じる。また、ステップS112において、エラーが発生している旨のメッセージを、既に表示していると判定した場合においても、ステップS112の後に、ステップS114を実行して、システムのログを閉じる。ステップS114を実行した後、所定の期間(本実施の形態においては、5秒間)の待機時間をステップS115で確保し、再び、上記したステップS102からの処理を実行する。
上記した処理(ステップS102〜S104、ステップS111〜S122)を、所定の時間だけ繰り返す。これにより、この所定の時間におけるシステムのログに表れるエラーの発生回数が、求められる。求められたエラーの発生回数が、ステップS119で比較される所定の回数に達していれば、当該エラーは、永久エラーと見なされ、表示される。
上記したステップS104において、自機が待機系の制御装置であると判定された場合にも、上述したのと同様に、ステップS111からステップS115が実施される。この様にして、システムの制御を主として実施していない、待機系の制御装置においても、永久エラーが発生しているときには、その旨のメッセージが表示される。一方、ステップS104において、自機は運用系の制御装置であると判定された場合には、ステップS111において永久エラー情報が登録されているか否かにより、例えば、ステップS115における待機時間が変更される。すなわち、自機が運用系であり、永久エラー情報が登録されているときには、待機時間を、例示の5秒よりも短くし、上記したログエラーチェックがより短い時間間隔で実施される様にしてもよい。この様にすることにより、より短い時間間隔で、エラーチェックが行われる様になり、エラー判定の信頼性を向上させることが可能となる。一方、自機が運用系で、永久エラー情報が登録されていない場合には、待機時間を例示の値(5秒)あるいはそれ以上に長い待機時間として、ログエラーチェック処理が行われる間隔を、永久エラー情報が登録されている場合に比べて長くなる様にしてもよい。
また、ステップS104において、自機が運用系であると判定され、ステップS111において、永久エラー情報が登録されていると判定した場合には、待機系の制御装置として待機している制御装置に、システムを管理するための処理を切り替える様にしてもよい。この場合においても、ステップS113において、エラーが発生した旨のメッセージは表示することが、信頼性の観点から望ましい。
なお、ステップS113におけるエラーのメッセージは、制御装置2あるいは3に設けられた表示装置で行うことが可能である。
エラーが発生しているか否かを判定するための時間(所定の時間)は、上記した処理のループを繰り返す回数として設定してもよい。この場合、例えば、ステップS115からステップS102に戻る回数をカウンタ等で、計測し、カウンタのカウント数が所定の値に到達するまでの回数が、エラーが発生しているか否かを判定する時間(所定の時間)に相当する。また、ステップS119で比較される発生回数は、起動を行うステップS101において、所望の値に設定する。
なお、ステップS118で一致と判定された値(回数)は、上記したエラーが発生しているか否かを判定するための時間の間(期間)、ステップS119において、保持され、更新される。また、このエラーが発生しているか否かを判定するための期間を経過したときに、ステップS118で一致と判定された値(回数)は、リセットされる。すなわち、ステップS119に保持されていた回数がリセットされる。もちろん、このリセット後に、再度エラーチェックをする際には、上記した判定するための期間、一致と判定された値(回数)は、ステップS119において、保持され、更新される。
次に、イベントIDについて、二重化制御装置の制御機能処理(切り替え処理)の一覧を用いて説明する。図3には、二重化制御装置において、運用系の制御装置と待機系の制御装置とを切り替える場合の状態が示されている。なお、運用系と待機系との間の切り替えは、図3に示されているもの以外にも存在する。そのため、図3は、一例であると理解されたい。
図3は、運用系と待機系とを切り替える場合の状態を示す一覧(リスト)の図である。同図のリストは、4個の列(300〜303)を有しており、列300にはイベントIDが記載されている。列300には、この実施の形態においては、イベントIDの種類が、1〜8として記載されている。それぞれのイベントIDに対応する、障害種別、故障部位及び要因、自動切替が、列301、302、303に記載されている。すなわち、リストには、イベントIDと、それに対応するエラーと、運用系/待機系の自動的な切替(自動切替)が、列記されている。また、後で説明するが、イベントID「1」から「8」には、期待エラーに対応したイベントIDも含まれている。言い換えるならば、このリストには、期待エラーに対応した情報(自動切替等)が含まれている。以下、例示したイベントIDについて述べる。
イベントIDが「1」は、故障部位及び要因302が、「CPU(プロセッサ)故障」であり、障害種別301は、「ハードウェア」である。このイベントID「1」が発生した場合には、自動切替303は、「有」であり、自動的に運用系と待機系を切り替えることを意味している。このイベントID「1」が発生した場合、制御装置内のプロセッサが故障していることが、故障の要因であるため、無条件に運用系と待機系の切替を行う。
イベントIDが「4」は、故障部位及び要因302が、「I/O(入出力)装置無応答」であり、障害種別301は、「ハードウェア」であり、自動切替303は、「一部有」である。このイベントID「4」は、期待エラーの一例である。すなわち、時間が経過すれば、入出力装置から応答があることが考えられる。そのため、自動的に切り替えるか否かが決められない。
イベントIDが「5」は、故障種別301が、「ハードウェア」ではなく、「ソフトウェア」の例である。このイベントID「5」の故障部位及び要因302は、「OS(オペーレションシステム)異常」であり、自動切替303は、「有」である。このイベントIDは、例えば、オペレーションシステムが強制停止しているときに、発生する。もちろん、オペレーションシステムが強制停止しているので、運用系と待機系の切替は、自動的に行われる。
イベントIDが「7」も、期待エラーである。このイベントID「7」は、障害種別301が「ソフトウェア」であり、故障部位及び要因302が、「アプリケーション異常」
である。このイベントIDにおいては、制御装置で実行されているプロセスの状況に応じて、運用系と待機系との間の切替が行われる様にする。そのため、自動的に切り替えるか否かの判定は、「一部有」とされる。言い換えるならば、実行されているプロセスの状況によっては、異常では無くなる可能性がある。
イベントIDが「8」は、障害種別301が、「ソフトウェア」であり、故障部位及び要因302が、「リソース監視」である。この場合には、自動の切替を実施する必要が無いため、自動切替303は、「無」である。
制御装置2、3のそれぞれには、図3に示したリストが、チェックリストとして格納(記憶)されている。一方、制御装置2および3のそれぞれは、エラーが発生すると、システムのログにエラーログを登録する。このときのエラーログとして、図3に示したイベントIDの番号が登録される。
図2において、ステップS118は、チェックリストとして設けられた図3のリストにおけるイベントIDの番号と、システムのログとして登録されているエラーログ(イベントIDの番号)とを比較する。この比較により、一致した場合、一致したイベントIDに対応するところの自動切替303における項目が、参照される。この参照において、自動切替303が、「有」となっていれば、ステップS118は、そのエラーは、チェック不要エラーと判定し、次にステップS120を実行させる。ステップS120は、これを受けて、永久エラーと見なして、永久エラー情報を登録する。
また、一致したイベントIDに対応する自動切替303における項目が「無」となっていれば、ステップS118は、例えば、一致したことを無効にする。あるいは、ステップS119において、発生回数を計測する対象から外す。
一致したイベントIDに対応する自動切替303における項目が「一部有」を示す情報になっていた場合、ステップS118からは、一致したことがステップS119に知らされる。ステップS119においては、このイベントIDに関して、今まで積算されていた回数に、加算を行い、所定の回数に達したか否かの判定を行う。到達していれば、その旨がステップS120に知らされ、ステップS120において、永久エラー情報が登録される。
自動切替303において、「一部有」は、故障要因により、システムの運用に支障をきたすと思われる故障が発生している場合と、リトライ処理による復帰する事象、あるいはシステムの運用に影響を与えない装置などに故障が発生している場合に、登録する。この場合、リトライ処理による復帰する事象あるいはシステムの運用に影響を与えない装置などに故障が発生している場合には、システムを継続して運用することが可能と判断して、自動での切替は実施しない。
例えば、十分に情報の公開がされていない部品として、種々の情報あるいはデータを記憶するために用いられるディスクがある。ディスクは、その故障モードによっては、リトライ処理を行うことによって正常にアクセスでき、ディスクエラーに至らない場合がある。そのため、自動での切替は適切ではない。しかしながら、この様なリトライ処理が一過性でなく、継続して発生すると、ディスクアクセスエラーの性能劣化によりシステム全体のパフォーマンス低下を招く。
本実施の形態によれば、上記したディスクのエラーは、イベントID「4」として登録される。これにより、所定の時間の間に、所定の回数に達するイベントID「4」が発生したとき、永久エラーと推定して、永久エラー情報が登録される。永久エラー情報に基づいたメッセージ表示を確認して、運用系から待機系への切替あるいは、部品の交換を行うことにより、二重化制御装置の信頼性の向上を図ることが可能となる。また、システム全体のパフォーマンス低下を抑制することも可能となる。
また、イベントID「7」が発生した場合も、時間の経過により、システムを継続して運用することが可能な場合が有り、自動で切替を行うのは適さない。本実施の形態によれば、所定の時間の間、所定の回数に達するイベントID「7」が発生した場合、永久エラーと見なして、表示が行われる。この様にすることにより、システム全体のパフォーマンス低下を抑制することが可能となる。
本実施の形態においては、メッセージを表示する様にしているが、メッセージの代わりに、運用系から待機系への切替を行う様にしてもよい。また、図3に示したリストは、それぞれの制御装置に格納しなくてもよく、図2に示した処理を行う制御装置に格納されていればよい。また、上記した所定の時間および所定の回数は、ステップS101において、システムを起動する際に、設定すればよい。
以上本発明者によってなされた発明を、前記実施形態に基づき具体的に説明したが、本発明は、前記実施形態に限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能である。
2、3 制御装置
S113 メッセージ表示ステップ
S118 イベントID確認ステップ
S119 発生回数確認ステップ

Claims (9)

  1. 複数の制御装置を具備し、前記複数の制御装置のうちの第1の制御装置の故障に応答して、前記複数の制御装置のうちの第2の制御装置が、前記第1の制御装置の代わりに処理を行う多重化制御装置であって、
    前記複数の制御装置のうちの一の制御装置において発生するエラーをログとして登録するログ登録ユニットと、
    前記ログ登録ユニットにより登録されたログにおいて、所定の期間におけるログから、前記一の制御装置において発生したエラーの回数を求め、求めたエラー回数が所定の回数に達したとき、故障情報を出力する検出ユニットと、
    を具備し、
    前記検出ユニットからの前記故障情報に応じた処理を行う、多重化制御装置。
  2. 請求項1に記載の多重化制御装置において、
    前記検出ユニットは、前記ログ登録ユニットにより登録されているログから、期待エラーを検出し、期待エラーの検出回数が、前記所定の回数に達したとき、前記故障情報を出力する、多重化制御装置。
  3. 請求項2に記載の多重化制御装置において、
    前記検出ユニットは、前記期待エラーを特定する情報を有し、前記ログ登録ユニットにより登録されたログと前記情報とを比較することにより、ログから期待エラーを検出する、多重化制御装置。
  4. 請求項3に記載の多重化制御装置において、
    前記多重化制御装置は、前記故障情報に応答して、故障情報を表示する処理を行う、多重化制御装置。
  5. 請求項3に記載の多重化制御装置において、
    前記一の制御装置は、前記第1の制御装置であり、
    前記多重化制御装置は、前記故障情報に応じて、前記第1の制御装置の代わりに前記第2の制御装置に処理を行わせる、多重化制御装置。
  6. 請求項2に記載の多重化制御装置において、
    前記期待エラーの検出回数が、前記所定の回数を超えないとき、前記一の制御装置が処理を継続する、多重化制御装置。
  7. 請求項1に記載の多重化制御装置において、
    前記一の制御装置は、プログラムに従って動作し、
    前記ログ登録ユニットおよび前記検出ユニットのそれぞれは、前記一の制御装置が前記プログラムを実行することにより、構成される、多重化制御装置。
  8. 複数の制御装置のうちの第1の制御装置の故障に応答して、前記複数の制御装置のうちの第2の制御装置が、前記第1の制御装置の代わりに処理を行う多重化制御方法であって、
    前記複数の制御装置のうちの一の制御装置におけるエラーをログとして登録する工程と、
    前記登録されたログにおいて、所定の期間におけるログから、前記一の制御装置において発生しているエラーの回数を求める工程と、
    求めたエラーの回数が所定の回数に達したとき、故障に応じた処理を行う工程と、
    を具備する、多重化制御方法。
  9. 請求項8に記載の多重化制御方法において、
    前記エラーの回数を求める工程により求められるエラーの回数は、期待エラーの回数である、多重化制御方法。
JP2013088106A 2013-04-19 2013-04-19 多重化制御装置および多重化制御方法 Pending JP2014211784A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013088106A JP2014211784A (ja) 2013-04-19 2013-04-19 多重化制御装置および多重化制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013088106A JP2014211784A (ja) 2013-04-19 2013-04-19 多重化制御装置および多重化制御方法

Publications (1)

Publication Number Publication Date
JP2014211784A true JP2014211784A (ja) 2014-11-13

Family

ID=51931493

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013088106A Pending JP2014211784A (ja) 2013-04-19 2013-04-19 多重化制御装置および多重化制御方法

Country Status (1)

Country Link
JP (1) JP2014211784A (ja)

Similar Documents

Publication Publication Date Title
US20160378603A1 (en) Automated fault recovery
CN104639380A (zh) 服务器监控方法
US11848889B2 (en) Systems and methods for improved uptime for network devices
WO2012046293A1 (ja) 障害監視装置、障害監視方法及びプログラム
US9210059B2 (en) Cluster system
US11853150B2 (en) Method and device for detecting memory downgrade error
CN100362481C (zh) 多处理器设备单元主备保护方法
US20160378604A1 (en) Agentless and/or pre-boot support, and field replaceable unit (fru) isolation
JP4655718B2 (ja) コンピュータシステム及びその制御方法
US8451019B2 (en) Method of detecting failure and monitoring apparatus
JP6504610B2 (ja) 処理装置、方法及びプログラム
US20120210176A1 (en) Method for controlling information processing apparatus and information processing apparatus
JP5995265B2 (ja) 情報処理システム、保守方法及びプログラム
JP2009252006A (ja) コンピュータシステムにおけるログ管理システム、ログ管理方法
JP2014211784A (ja) 多重化制御装置および多重化制御方法
JP2007028118A (ja) ノード装置の故障判断方法
JP2005267434A (ja) アプリケーション監視装置、そのプログラム、及びその記録媒体。
JP7192155B1 (ja) 異常検知サーバ、異常検知システム、及び異常検知方法
JP2015106226A (ja) 二重化システム
JP6326383B2 (ja) ネットワーク評価システム、ネットワーク評価方法、及びネットワーク評価プログラム
JP2013046372A (ja) 障害検出装置、ネットワーク構成推定装置および障害検出方法
WO2023084670A1 (ja) 監視装置、監視方法、及びコンピュータ読み取り可能な記憶媒体
Mohd. Noor et al. Extended heartbeat mechanism for fault detection service methodology
JP2008293441A (ja) 機器障害予測方法及び機器障害予測装置
JP2012256227A (ja) プロセス障害判定復旧装置、プロセス障害判定復旧方法、プロセス障害判定復旧プログラム、および記録媒体