JP6083480B1 - 監視装置、フォールトトレラントシステムおよび方法 - Google Patents

監視装置、フォールトトレラントシステムおよび方法 Download PDF

Info

Publication number
JP6083480B1
JP6083480B1 JP2016028976A JP2016028976A JP6083480B1 JP 6083480 B1 JP6083480 B1 JP 6083480B1 JP 2016028976 A JP2016028976 A JP 2016028976A JP 2016028976 A JP2016028976 A JP 2016028976A JP 6083480 B1 JP6083480 B1 JP 6083480B1
Authority
JP
Japan
Prior art keywords
data
unit
external device
processor system
read
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016028976A
Other languages
English (en)
Other versions
JP2017146833A (ja
Inventor
幸宏 田中
幸宏 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2016028976A priority Critical patent/JP6083480B1/ja
Priority to US15/426,243 priority patent/US10360115B2/en
Application granted granted Critical
Publication of JP6083480B1 publication Critical patent/JP6083480B1/ja
Publication of JP2017146833A publication Critical patent/JP2017146833A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1629Error detection by comparing the output of redundant processing systems
    • G06F11/1641Error detection by comparing the output of redundant processing systems where the comparison is not performed by the redundant processing components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1629Error detection by comparing the output of redundant processing systems
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/04Programme control other than numerical control, i.e. in sequence controllers or logic controllers
    • G05B19/042Programme control other than numerical control, i.e. in sequence controllers or logic controllers using digital processors
    • G05B19/0428Safety, monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1608Error detection by comparing the output signals of redundant hardware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1608Error detection by comparing the output signals of redundant hardware
    • G06F11/1616Error detection by comparing the output signals of redundant hardware where the redundant component is an I/O device or an adapter therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1629Error detection by comparing the output of redundant processing systems
    • G06F11/1637Error detection by comparing the output of redundant processing systems using additional compare functionality in one or some but not all of the redundant processing components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1629Error detection by comparing the output of redundant processing systems
    • G06F11/165Error detection by comparing the output of redundant processing systems with continued operation after detection of the error
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1629Error detection by comparing the output of redundant processing systems
    • G06F11/1654Error detection by comparing the output of redundant processing systems where the output of only one of the redundant processing components can drive the attached hardware, e.g. memory or I/O
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1658Data re-synchronization of a redundant component, or initial sync of replacement, additional or spare unit
    • G06F11/1662Data re-synchronization of a redundant component, or initial sync of replacement, additional or spare unit the resynchronized component or unit being a persistent storage device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2035Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant without idle spare hardware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3037Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a memory, e.g. virtual memory, cache

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Automation & Control Theory (AREA)
  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)

Abstract

【課題】フォールトトレラントシステムにおいてロックステップ動作を行う領域に接続された外部デバイスが故障した場合に発生しうるシステム・クラッシュや可用性の低下を、より確実に防止する技術を提供すること。【解決手段】フォールトトレラントシステム1において、プロセッサシステム10は、システム100間でロックステップ動作を行う。監視装置50は、プロセッサシステム10に接続された外部デバイス40に対して、所定のタイミング毎に所定の記憶領域のリードを行うリード部51と、リードデータおよびデータ記憶部53に記憶されたデータを比較する比較部52と、比較結果が一致しないことを示す場合、自系のプロセッサシステム10を、フォールトトレラントシステム1から切り離す切り離し部54と、を備える。【選択図】 図1

Description

本発明は、ロックステップ方式のフォールトトレラントシステムに関する。
稼働中の計算機でハードウェア故障が発生しても、その故障を隠蔽して、計算機上で処理されているサービスを継続可能にする技術として、フォールトトレラントシステムが知られている。フォールトトレラントシステムの一例として、ロックステップ方式を採用するものがある。ロックステップ方式では、計算機のハードウェア・コンポーネントは多重化されている。そして、同一のハードウェア・コンポーネントからなる各システムは、同一のクロックで互いに同期して同一の動作を行う。以降、同一のクロックで同期して同一の動作を行うことをロックステップ動作とも記載する。また、同一のクロックで同期して同一の動作を行っている状態を、ロックステップ状態とも記載する。また、故障等に起因してロックステップ状態を維持できなくなることを、ロックステップ外れとも記載する。ロックステップ方式は、複数のシステムの1つが故障してロックステップ外れが発生しても、正常な他のシステムによる動作の継続を可能にする。
このようなロックステップ方式を採用したフォールトトレラントシステムの一例が、特許文献1に記載されている。
特許文献1に記載されたフォールトトレラントシステムは、同一のハードウェア・コンポーネントからなる複数のシステムを有する。各システムは、CPU(Central Processing Unit)を含むプロセッサシステムと、ストレージやネットワーク等のIO(input output)デバイスを含む入出力システムと、制御装置とからなる。また、このうち、ロックステップ動作をしているのは、プロセッサシステムである。入出力システムは、プロセッサシステムのCPUで実行されるソフトウェアによるミラーリング処理によって、他の入出力システムとの間で冗長性を保つよう構成されている。
制御装置は、プロセッサシステム間の動作に不一致が生じたか否かを検出する。例えば、制御装置は、自系のプロセッサシステムから入出力システムへ転送されるデータと、他系のプロセッサシステムから自系の入出力システムへ転送されるデータとを比較する。これらのデータに不一致が生じた場合、いずれかのシステムの制御装置が、自系のプロセッサシステムを、フォールトトレラントシステムから切り離す。
データに不一致が生じるのは、例えば、CPUから流れてくるデータの一部が化けた場合や、データのタイミングがずれた場合等である。なお、どちらのシステムのプロセッサシステムを切り離すかについては、各種の方法が提案されているが、例えば、プロセッサシステムのMTBF(Mean Time Between Failure)や、故障の発生頻度に基づき優先度を算出して決定する方法がある。
また、ロックステップ動作をしているプロセッサシステム内部で故障が発生する場合もある。例えば、外部からの電気的ノイズ、宇宙線やその他放射線によるメモリ化けなどにより、一時的に故障と判断される場合がある。この場合、エラーを検出したプロセッサシステムが、自らをフォールトトレラントシステムから切り離す。
例えば、CPUは、何らかのエラーを検出した場合、プロセッサシステムに対してシャットダウンメッセージを送出する。そして、シャットダウンメッセージを受信したプロセッサシステムは、自らをフォールトトレラントシステムから切り離す。
このようにして、ロックステップ方式のフォールトトレラントシステムでは、故障の可能性があるプロセッサシステムが切り離されると、他のシステムのプロセッサシステムが処理を継続する。その後、正常であると判断されたプロセッサシステムがフォールトトレラントシステムに再び組み込まれると、これらのプロセッサシステムは、再びロックステップ動作を行う。
特開2009−205630号公報
しかしながら、特許文献1に記載された関連技術に代表されるロックステップ方式のフォールトトレラントシステムでは、ロックステップ動作を行うプロセッサシステムに接続された外部デバイスが故障した場合に、次の課題が発生する。すなわち、外部デバイスの故障に起因するロックステップ外れにより、正常なプロセッサシステムが切り離される可能性があり、その結果、システム・クラッシュが発生する可能性がある。
この課題について詳細に説明する。プロセッサシステムがロックステップ動作中に外部デバイスが故障したとする。その後、故障した外部デバイスへのアクセスが発生すると、プロセッサシステムは、ロックステップ状態を維持できなくなる。そこで、上述した制御装置は、ロックステップ外れを検出し、いずれかのプロセッサシステムを切り離すことになる。このとき、故障した外部デバイスが接続された側のプロセッサシステムが切り離されるべきである。ところが、外部デバイスは、故障を通知する機能を有していないことが多い。このため、制御装置は、外部デバイスの故障を知ることができない。したがって、各制御装置は、検出したロックステップ外れが実際には外部デバイスの故障に起因するにも関わらず、外部デバイスの故障以外の要素を考慮して、いずれのプロセッサシステムを切り離すかを決定する。そのため、故障した外部デバイスが接続されていない側のプロセッサシステムが切り離される可能性がある。
そして、故障した外部デバイスが接続された側のプロセッサシステムが処理を継続しているとする。この後、このプロセッサシステムにおいて、CPUが外部デバイスの故障によるエラーを検出すると、自系のプロセッサシステムを切り離す。この場合、本来正常であったはずの他のプロセッサシステムが既に切り離されているため、両系のプロセッサシステムが切り離されることになる。そのため、システム・クラッシュが発生してしまう。あるいは、三重化以上に多重化されているフォールトトレラントシステムであったとしても、可用性が低下してしまう。
例えば、プロセッサシステムに接続される外部デバイスとして、フラッシュメモリを想定する。フラッシュメモリには、BIOSのコードが格納されているとする。そして、ロックステップ動作中にこのようなフラッシュメモリの故障に起因するロックステップ外れが検出され、故障したフラッシュメモリが接続されていない側のプロセッサシステムが切り離されたとする。すると、処理を継続すべきプロセッサシステムは、再起動時にBIOSのコードを読み込むため、故障したフラッシュメモリにアクセスしてエラーを検出し、自系を切り離すことになる。その結果、両系のプロセッサシステムが切り離され、上述のシステム・クラッシュまたは可用性の低下が発生する。
本発明は、上述の課題を解決するためになされたものである。すなわち、本発明は、フォールトトレラントシステムにおいてロックステップ動作を行う領域に接続された外部デバイスが故障した場合に発生しうるシステム・クラッシュや可用性の低下を、より確実に防止する技術を提供することを目的とする。
本発明の監視装置は、フォールトトレラントシステムにおいて同一のハードウェア・コンポーネントで構成される複数のシステムのそれぞれに含まれる監視装置であって、自系の前記システムにおいて他系の前記システムとの間でロックステップ動作を行うプロセッサシステムに接続された外部デバイスに対して、所定のタイミング毎に所定の記憶領域のリードを行うリード部と、前記リード部により読み込まれたリードデータおよびデータ記憶部に記憶されたデータを比較する比較部と、前記比較部による比較結果が一致しないことを示す場合、自系のプロセッサシステムを、前記フォールトトレラントシステムから切り離す切り離し部と、を備える。
また、本発明のフォールトトレラントシステムは、上述の監視装置と、前記プロセッサシステムと、前記外部デバイスと、前記プロセッサシステムに接続される入出力システムと、自系および他系の各前記プロセッサシステムからの自系の前記入出力システムへのデータを比較することによりロックステップ外れを検出すると、自系のプロセッサシステムを、必要に応じて前記フォールトトレラントシステムから切り離す制御装置と、をそれぞれが有する複数のシステムからなる。
また、本発明の方法は、フォールトトレラントシステムに含まれる同一のハードウェア・コンポーネントで構成される複数のシステムのそれぞれにおいて、自系の前記システムにおいて他系の前記システムとの間でロックステップ動作を行うプロセッサシステムに接続された外部デバイスに対して、所定のタイミング毎に所定の記憶領域のリードを行い、読み込んだリードデータおよびデータ記憶部に記憶されたデータを比較し、比較結果が一致しないことを示す場合、自系のプロセッサシステムを、前記フォールトトレラントシステムから切り離す。
本発明は、フォールトトレラントシステムにおいてロックステップ動作を行う領域に接続された外部デバイスが故障した場合に発生しうるシステム・クラッシュや可用性の低下を、より確実に防止する技術を提供することができる。
本発明の第1の実施の形態としてのフォールトトレラントシステムの構成の概要を示すブロック図である。 本発明の第1の実施の形態としてのフォールトトレラントシステムに含まれるシステムのハードウェア要素の一例を示す図である。 本発明の第1の実施の形態において外部デバイスを監視する動作を説明するフローチャートである。 本発明の第2の実施の形態としてのフォールトトレラントシステムの構成の概要を示すブロック図である。 本発明の第2の実施の形態としてのフォールトトレラントシステムに含まれるシステムのハードウェア要素の一例を示す図である。 本発明の第2の実施の形態としてのフォールトトレラントシステムにおいてアドレス記憶部およびデータ記憶部を更新する動作を説明するフローチャートである。 本発明の第2の実施の形態において外部デバイスを監視する動作を説明するフローチャートである。
以下、本発明の実施の形態について、図面を参照して詳細に説明する。
(第1の実施の形態)
本発明の第1の実施の形態としてのフォールトトレラントシステム1の構成を図1に示す。図1において、フォールトトレラントシステム1は、複数のシステム100を含む。なお、図1には、2つのシステム100を示しているが、フォールトトレラントシステム1が含むシステム100の数は、限定されない。
各システム100は、同一のハードウェア・コンポーネントで構成される。詳細には、各システム100は、プロセッサシステム10と、入出力システム20と、制御装置30と、外部デバイス40と、監視装置50とを有する。
プロセッサシステム10は、各システム100間でロックステップ動作を行う。プロセッサシステム10の詳細については後述する。
入出力システム20は、1つ以上のIO(Input Output)デバイスを含む。入出力システム20は、プロセッサシステム10で実行されるソフトウェアによるミラーリング処理によって、他の入出力システム20との間で冗長性を保つよう構成されている。
制御装置30は、プロセッサシステム10および入出力システム20の間に接続され、プロセッサシステム10がロックステップ状態にあるか否かを監視する。制御装置30の詳細については後述する。なお、各システム100の制御装置30間は、クロスリンクにより相互に通信可能に接続される。
外部デバイス40は、記憶領域を有するデバイスである。外部デバイス40は、プロセッサシステム10に接続される。例えば、外部デバイス40は、フラッシュメモリであってもよい。
監視装置50は、外部デバイス40が故障しているか否かを監視する。監視装置50は、リード部51と、比較部52と、データ記憶部53と、切り離し部54とを有する。監視装置50の詳細については後述する。
なお、図1には、各システム100を構成する要素を1つずつ示しているが、各システム100が含む各要素の数は、限定されない。
ここで、システム100に含まれるハードウェア要素の一例を図2に示す。図2において、プロセッサシステム10は、CPU(Central Processing Unit)101と、主記憶としてのメモリ102と、外部デバイスインタフェース103と、CPUステートマシン104とを含む。また、監視装置50は、タイマ501と、リード生成回路502と、レジスタ503と、比較回路504と、制御信号出力回路505とを含む。なお、図2は一例であり、システム100に含まれるハードウェア要素はこれらに限定されない。
次に、プロセッサシステム10の詳細について、図1および図2を参照して説明する。
上述したように、プロセッサシステム10は、自系および他系のシステム100間でロックステップ動作を行う。具体的には、各システム100間で、CPU101は、同一のクロックで同期して同一の動作を行い、メモリ102は同一の状態を保つ。なお、自系とは、自身が含まれるシステム100、または、そのシステム100に含まれる要素をさす。他系とは、自身が含まれないシステム100、または、そのシステム100に含まれる要素をさす。
また、プロセッサシステム10は、自系の入出力システム20に、制御装置30を介してアクセス可能となっている。また、プロセッサシステム10は、他系の入出力システム20に、自系の制御装置30および他系の制御装置30を介してアクセス可能となっている。プロセッサシステム10は、自系および他系の入出力システム20に対して、データを転送する。
また、プロセッサシステム10は、外部デバイス40の記憶領域にアクセスする。具体的には、外部デバイスインタフェース103は、CPU101からのコマンドに従って、外部デバイス40へのライトまたはリードを実行する。また、外部デバイスインタフェース103は、後述の監視装置50からの要求に基づいて、外部デバイス40の所定の記憶領域へのリードを実行する。
また、プロセッサシステム10の状態は、CPUステートマシン104によって示される。CPUステートマシン104は、自系のプロセッサシステム10がフォールトトレラントシステム1に組み込まれて動作中のオンライン状態であるか、切り離されたブロークン状態であるかを少なくとも記憶可能である。
次に、監視装置50の詳細について、図1および図2を参照して説明する。
リード部51は、外部デバイス40における所定の記憶領域に対して、所定のタイミング毎にリードを行う。例えば、リード部51は、タイマ501と、リード生成回路502とによって構成され、プロセッサシステム10の外部デバイスインタフェース103を制御することにより、その機能を実現する。タイマ501は、所定のタイミングを決定する信号を出力する。また、リード生成回路502は、タイマ501から出力される信号のタイミングで、外部デバイス40の所定の記憶領域に対するリード命令を、外部デバイスインタフェース103に対して出力する。所定の記憶領域とは、例えば、外部デバイス40において、更新されることのない固定値が記憶されている記憶領域であってもよい。外部デバイスインタフェース103から返却されるリードデータは、後述の比較部52に入力される。
例えば、外部デバイス40がフラッシュメモリであるとする。一般的に、フラッシュメモリには、SFDP(Serial Flash Discoverable Parameter)が記憶されている。SFDPは、JEDEC(Joint Electron Device Engineering Council)で規定された32ビットの固定値となり、ベンダー依存がない。この場合、リード部51は、SFDPの記憶領域に対するリード命令を出力すればよい。
データ記憶部53は、レジスタ503によって構成される。データ記憶部53は、比較部52によって用いられるデータを記憶している。比較部52によって用いられるデータは、リード部51により読み込まれたリードデータと比較されるためのデータである。例えば、リード部51によって、所定の記憶領域として、固定値が記憶されている記憶領域が適用されている場合、データ記憶部53は、その固定値をあらかじめ記憶しておけばよい。
前述のように、外部デバイス40がフラッシュメモリであり、リード部51により読み込まれる所定の記憶領域として、上述のSFDPの領域が定められているとする。この場合、データ記憶部53は、SFDPの値を記憶しておく。
比較部52は、リード部51により得られたリードデータと、データ記憶部53のデータとを比較する。具体的には、比較部52は、比較回路504によって構成される。比較回路504には、リード部51により生成されたリード命令の応答としてのリードデータが、プロセッサシステム10の外部デバイスインタフェース103から入力される。また、比較回路504には、レジスタ503のデータが入力される。そして、比較回路504は、リードデータと、レジスタ503のデータとの比較結果を、切り離し部54に出力する。
切り離し部54は、比較部52による比較結果が一致しないことを示す場合、必要に応じて、自系のプロセッサシステム10をフォールトトレラントシステム1から切り離す。具体的には、切り離し部54は、制御信号出力回路505によって構成され、プロセッサシステム10のCPUステートマシン104を制御することによりその機能を実現する。制御信号出力回路505は、比較回路504から、不一致を表す信号が入力されると、プロセッサシステム10のCPUステートマシン104に対して、ブロークン状態に遷移させるための制御信号を出力する。その他、制御信号出力回路505は、プロセッサシステム10を構成する各部に対して、切り離しに必要な停止信号やリセット信号等を出力する。
次に、制御装置30について詳細に説明する。
制御装置30は、自系のプロセッサシステム10から自系の入出力システム20へ流れるデータと、他系のプロセッサシステム10から自系の入出力システム20へ流れるデータとを比較する。そして、比較結果が一致しない場合、制御装置30は、必要に応じて、自系のプロセッサシステム10をフォールトトレラントシステム1から切り離す。
具体的には、比較結果が一致しない場合、制御装置30は、自系のプロセッサシステム10を切り離す必要があるか否かを判断する。具体的には、制御装置30は、自系のプロセッサシステム10が他系より故障の可能性が高いと判断可能な場合に切り離す必要があると判断する。例えば、制御装置30は、各プロセッサシステム10について記録された過去の切り離しおよび再組込みの回数に基づいて、故障の可能性がより高いプロセッサシステム10を判定してもよい。
以上のように構成されたフォールトトレラントシステム1の動作について、図面を参照して説明する。
なお、フォールトトレラントシステム1が起動すると、各システム100のプロセッサシステム10は、ロックステップ動作を開始する。そして、ロックステップ動作中、制御装置30によるロックステップ状態の監視動作と、プロセッサシステム10による外部デバイス40の監視動作とが繰り返し行われる。
ここでは、外部デバイス40の監視動作を図3に示す。
図3では、まず、リード部51は、所定のタイミングまで待機する(ステップS1)。
次に、リード部51は、外部デバイス40の所定の記憶領域に対してリードを行う(ステップS2)。
次に、比較部52は、リード部51によるリードデータと、データ記憶部53のデータとを比較する(ステップS3)。
ここで、リードデータとデータ記憶部53のデータとが一致していれば、フォールトトレラントシステム1は、ステップS1からの動作を繰り返す。
一方、リードデータとデータ記憶部53のデータとが一致していなければ、切り離し部54は、自系のプロセッサシステム10を、フォールトトレラントシステム1から切り離す(ステップS4)。
以降、フォールトトレラントシステム1は、切り離されていないシステム100のプロセッサシステム10によって、処理を続行する。処理を続行するプロセッサシステム10が1つであれば、そのプロセッサシステム10は、ロックステップ動作を行わずに動作する。
以上で、監視装置50は、外部デバイス40を監視する動作を終了する。
このようなフォールトトレラントシステム1の動作を具体例で説明する。
ここでは、フォールトトレラントシステム1は、二重化されており、2つのシステム100aおよび100bを含むものとする。また、それぞれのシステム100aおよび100bにおいて、プロセッサシステム10には、外部デバイス40としてフラッシュメモリが接続されているとする。また、フラッシュメモリには、BIOS(Basic Input Output System)のコードが記憶されているものとする。また、このフラッシュメモリは、SFDPを記憶しているものとし、プロセッサシステム10のデータ記憶部53には、SFDPの値が記憶されている。また、このフラッシュメモリ自体は、自身の故障を検出し通知する機能を有していないものとする。また、このフラッシュメモリへのアクセスは、主記憶としてのメモリ102に対するアクセスに比べてアクセス頻度が低いものとする。例えば、システム100の起動時または再起動時に、CPU101がフラッシュメモリからBIOSのコードをリードする程度のアクセス頻度であるものとする。また、制御装置30によってロックステップ状態が外れたことが検出された場合、システム100aおよび100bのうち、過去の切り離しおよび再組込みの回数が多い方のプロセッサシステム10が切り離されるものとする。
まず、フォールトトレラントシステム1において、システム100aのプロセッサシステム10およびシステム100bのプロセッサシステム10は、ロックステップ動作を行っている。
また、システム100aおよび100bでは、各制御装置30が、ロックステップ状態を監視する動作を繰り返し行っている。この具体例では、この時点までは、ロックステップ状態が維持されているものとする。
また、システム100aおよび100bでは、プロセッサシステム10が、フラッシュメモリを監視する動作を繰り返し行っている。
ここで、システム100aのフラッシュメモリが故障したとする。
すると、システム100aでフラッシュメモリを監視する動作において、フラッシュメモリのSFDPの領域からリードされたリードデータと、データ記憶部53に記憶してあるSFDPの値とが一致しなくなる(ステップS3でNo)。
そこで、システム100aのプロセッサシステム10は、フォールトトレラントシステム1から切り離される(ステップS4)。
以降、システム100bのプロセッサシステム10が、フォールトトレラントシステム1における処理を継続する。
これにより、以降、システム100aおよび100bのプロセッサシステム10間でロックステップ動作が行われないので、制御装置30によりロックステップ外れが検出されることはない。したがって、フラッシュメモリが故障していない方のシステム100bのプロセッサシステム10が、ロックステップ外れからの判断によりフォールトトレラントシステム1から切り離される状態が回避される。
ここで、本実施の形態の具体例との比較のために、システム100aおよび100bが監視装置50を含んでいない場合について説明する。
この場合、システム100aにおいてアクセス頻度の低いフラッシュメモリが故障しても、その故障によるエラーは、システム100aの再起動時にCPU101がBIOSをリードする時点まで検出されない可能性が高い。そのため、システム100aおよび100bのプロセッサシステム10では、フラッシュメモリの故障に起因するロックステップ外れが制御装置30により検出される。そして、過去の切り離しおよび再組込みの回数等に基づいて、フラッシュメモリが故障していない方のシステム100bのプロセッサシステム10が切り離される可能性がある。この場合、処理を継続するシステム100aのプロセッサシステム10が再起動した際に、BIOSのコードを読み込むため、故障したフラッシュメモリにアクセスすることになる。そして、システム100aのプロセッサシステム10は、フラッシュメモリの故障によるエラーを検出し、フォールトトレラントシステム1から自身を切り離す。その結果、システム100aおよび100bのプロセッサシステム10が共に切り離されて、システム・クラッシュが発生してしまう。
本実施の形態の具体例では、システム100aおよび100bが監視装置50を含んでいるため、故障したフラッシュメモリが接続されたシステム100aのプロセッサシステム10は、ロックステップ外れが検出される前に監視装置50により切り離される。したがって、フォールトトレラントシステム1は、システム・クラッシュを回避することができる。
以上で、具体例の説明を終了する。
次に、本発明の第1の実施の形態の効果について述べる。
本発明の第1の実施の形態としてのフォールトトレラントシステムは、ロックステップ動作を行う領域に接続された外部デバイスが故障した場合に発生しうるシステム・クラッシュや可用性の低下を、より確実に防止する。
その理由について説明する。本実施の形態では、同一のハードウェア・コンポーネントで構成される複数のシステムからなるフォールトトレラントシステムにおいて、各監視装置が、次のように構成されるからである。すなわち、各監視装置において、リード部が、ロックステップ動作を行うプロセッサシステムに接続された外部デバイスの所定の記憶領域に対して、所定のタイミング毎にリードを行う。そして、比較部が、リード部により読み込まれたリードデータと、データ記憶部に記憶されたデータとを比較する。そして、切り離し部が、比較部による比較結果が一致しないことを示す場合、自系のプロセッサシステムをフォールトトレラントシステムから切り離すからである。
これにより、本実施の形態は、外部デバイスの故障をより速やかに検出し、外部デバイスが故障したシステムをより速やかにフォールトトレラントシステムから切り離すことができる。このため、本実施の形態は、外部デバイスの故障に起因するロックステップ外れが検出されて外部デバイスが故障していない方のプロセッサシステムがフォールトトレラントシステムから切り離される可能性を大幅に低減できる。その結果、本実施の形態は、処理を継続するプロセッサシステムが外部デバイスの故障によるエラーを検出した際に、既に他方のプロセッサシステムが切り離されているために招かれるシステム・クラッシュまたは可用性の低下を防止することができる。
(第2の実施の形態)
次に、本発明の第2の実施の形態について図面を参照して詳細に説明する。本実施の形態では、外部デバイスとして、フラッシュメモリのSFDPのように固定値が記憶された領域を特に持たない外部デバイスを適用する場合について説明する。なお、本実施の形態の説明において参照する各図面において、本発明の第1の実施の形態と同一の構成および同様に動作するステップには同一の符号を付して本実施の形態における詳細な説明を省略する。
まず、本発明の第2の実施の形態としてのフォールトトレラントシステム2の構成を図4に示す。図4において、フォールトトレラントシステム2は、複数のシステム200を含む。なお、図4には、2つのシステム200を示しているが、フォールトトレラントシステム2が含むシステム200の数は、限定されない。
各システム200は、同一のハードウェア・コンポーネントで構成される。システム200は、本発明の第1の実施の形態におけるシステム100に対して、監視装置50に替えて監視装置60を含む点が異なる。監視装置60は、本発明の第1の実施の形態における監視装置50に対して、リード部51に替えてリード部61と、データ記憶部53に替えてデータ記憶部63とを有する点が異なる。さらに、監視装置60は、データ更新部65と、アドレス記憶部66とを有する点も異なる。
ここで、システム200に含まれるハードウェア要素の一例を図5に示す。図5において、監視装置60は、図2を参照して説明した本発明の第1の実施の形態と同一のハードウェア要素に加えて、さらに、アクセス監視回路606と、レジスタ607とを備える。なお、図5は一例であり、システム200に含まれるハードウェア要素はこれらに限定されない。
次に、監視装置60の詳細について、図4および図5を参照して説明する。
データ更新部65は、プロセッサシステム10による外部デバイス40への所定の時点でのアクセス先のアドレスを、アドレス記憶部66に記憶する。例えば、データ更新部65は、アクセス監視回路606によって構成され、プロセッサシステム10の外部デバイスインタフェース103を制御することにより、その機能を実現する。また、アドレス記憶部66は、レジスタ607によって構成可能である。なお、所定の時点とは、例えば、システム200が起動後、外部デバイス40に対する初回のアクセス時点であってもよい。
また、データ更新部65は、前述の所定の時点でのアクセス先の記憶領域のデータを、データ記憶部63に記憶する。例えば、所定の時点でのアクセスがリードであれば、データ更新部65は、その応答として得られるリードデータをデータ記憶部63に記憶する。また、所定の時点のアクセスがライトであれば、データ更新部65は、ライト対象のデータをデータ記憶部63に記憶する。
また、データ更新部65は、アドレス記憶部66に記憶したアドレスが示す記憶領域のデータが更新される度に、データ記憶部63のデータを更新する。外部デバイス40における該当する記憶領域のデータの更新は、アクセス監視回路606によって検出可能である。アクセス監視回路606は、該当する記憶領域に対するライトおよびライトデータを検出すればよい。
リード部61は、外部デバイス40に対して、所定のタイミング毎に、アドレス記憶部66に記憶されたアドレスの記憶領域のリードを行う。
以上のように構成されたフォールトトレラントシステム2の動作について、図面を参照して説明する。
なお、フォールトトレラントシステム2が起動すると、本発明の第1の実施の形態としてのフォールトトレラントシステム1と同様に、各システム200のプロセッサシステム10は、ロックステップ動作を開始する。そして、ロックステップ動作中、制御装置30によるロックステップ状態の監視動作と、監視装置60による外部デバイス40の監視動作とが繰り返し行われる。ただし、本実施の形態では、監視装置60による監視動作の詳細が、本発明の第1の実施の形態に対して異なる。
本実施の形態における監視装置60の動作を、図6〜図7に示す。
図6は、データ更新部65によるアドレス記憶部66およびデータ記憶部63の更新動作である。
図6では、まず、データ更新部65は、プロセッサシステム10による外部デバイス40に対する所定の時点のアクセスを検出すると(ステップS11でYes)、そのアクセス先のアドレスを、アドレス記憶部66に記憶する(ステップS12)。
次に、データ更新部65は、アクセス先の記憶領域に記憶されるデータを、データ記憶部63に記憶する(ステップS13)。
前述のように、データ更新部65は、ステップS11で検出されたアクセスがリードであれば、リードデータをデータ記憶部63に記憶する。また、検出されたアクセスがライトであれば、データ更新部65は、ライトデータをデータ記憶部63に記憶する。
次に、データ更新部65は、アドレス記憶部66のアドレスの記憶領域に対するライトを検出すると(ステップS14でYes)、ライトデータを用いて、データ記憶部63を更新する(ステップS15)。
そして、データ更新部65は、ステップS14からの動作を繰り返す。
以上で、アドレス記憶部66およびデータ記憶部63の更新動作の説明を終了する。
次に、外部デバイス40の監視動作を図7に示す。
図7において、外部デバイス40の監視動作は、図3を参照して説明した本発明の第1の実施の形態の動作に対して、ステップS2の代わりにステップS22を実行する点が異なる。
ステップS22において、リード部61は、アドレス記憶部66のアドレスが示す外部デバイス40の記憶領域に対して、リードを行う(ステップS22)。
以降、監視装置60は、ステップS3〜S4まで、本発明の第1の実施の形態における監視装置50と同様に動作する。
すなわち、ステップS3において、比較部52は、アドレス記憶部66のアドレスが示す記憶領域から読み込んだリードデータと、その記憶領域から事前に読み込んでデータ記憶部63に記憶しておいたデータとを比較することになる。もし、リードデータがデータ記憶部63のデータに一致しない場合、切り離し部54は、自系のプロセッサシステム10をフォールトトレラントシステム2から切り離す。以降、フォールトトレラントシステム2は、切り離されていないシステム200のプロセッサシステム10によって、処理を続行する。処理を続行するプロセッサシステム10が1つであれば、そのプロセッサシステム10は、ロックステップ動作を行わずに動作する。
以上で、監視装置60は、外部デバイス40を監視する動作を終了する。
次に、本発明の第2の実施の形態の効果について述べる。
本実施の形態としてのフォールトトレラントシステムは、ロックステップ動作を行う領域に、固定値の記憶領域を持たない外部デバイスが接続される場合でも、その外部デバイスの故障により発生しうるシステム・クラッシュや可用性の低下を、より確実に防止する。
その理由について説明する。本実施の形態では、本発明の第1の実施の形態と同様の構成に加えて、監視装置において、データ更新部が、プロセッサシステムによる外部デバイスに対する所定の時点でのアクセス先のアドレスをアドレス記憶部に記憶する。そして、データ更新部が、そのアクセス先のアドレスが示す記憶領域のデータを、データ記憶部に記憶する。さらに、データ更新部が、アドレス記憶部のアドレスが示す記憶領域のデータが更新される度に、データ記憶部を更新する。そして、リード部は、外部デバイスにおけるアドレス記憶部のアドレスに対して、所定のタイミング毎にリードを行うからである。
このように、本実施の形態では、比較部は、所定タイミング毎に、外部デバイスにおけるある記憶領域から読み込んだリードデータと、その記憶領域のデータとして事前に記憶し更新しているデータとを、比較することになる。その結果、本実施の形態は、プロセッサシステムに接続される外部デバイスが、SFDPが規定される以前のフラッシュメモリであったり、SFDPのような固定値の記憶領域を持たないその他の外部デバイスであったりする場合にも、対応可能となる。すなわち、本実施の形態は、そのような外部デバイスの故障をより速やかに検出し、外部デバイスが故障したシステムをより速やかにフォールトトレラントシステムから切り離すことができる。
このため、本実施の形態は、外部デバイスの故障が検出される前にロックステップ外れが検出されて外部デバイスが故障していない方の正常なシステムがフォールトトレラントシステムから切り離される可能性を大きく低減できる。その結果、本実施の形態は、処理を継続するシステムのプロセッサシステムが外部デバイスの故障を検出した際に、既に他方のプロセッサシステムが切り離されているために招かれるシステム・クラッシュまたは可用性の低下を防止することができる。
なお、本実施の形態において、外部デバイスとして、固定値が記憶された領域を持たない外部デバイスを適用する例について説明した。これに限らず、本実施の形態は、固定値が記憶された領域を持つ外部デバイス(例えば、SFDPを持つフラッシュメモリ)にも適用可能である。
また、上述した本発明の各実施の形態において、外部デバイスがフラッシュメモリである例について説明したが、外部デバイスはフラッシュメモリに限定されない。
また、本発明の各実施の形態において、制御装置が、ロックステップ外れを検出した際に切り離すシステムを決定する基準として、切り離しおよび再組込みの回数に基づく例について説明した。ただし、制御装置が、ロックステップ外れに基づき切り離すシステムを決定する基準は限定されない。
また、本発明の各実施の形態において、切り離し部が、CPUステートマシンを遷移させることによりプロセッサシステムの切り離しを行う例について説明したが、切り離しを実現するための処理および構成は限定されない。
また、本発明の各実施の形態において、図2および図5を参照して説明した各装置に含まれるハードウェア要素は一例であり、これらに限定されない。
また、本発明の各実施の形態において、監視装置は、物理的に独立した装置として実装されていなくてもよい。例えば、監視装置は、プロセッサシステムに含まれるハードウェア要素を含む集積回路の一部として実装されていてもよい。
また、本発明の各実施の形態において、フォールトトレラントシステムが二重化された例を中心に説明した。これに限らず、各実施の形態は、三重化以上に多重化されたシステムにも適用可能である。
また、上述した各実施の形態は、適宜組み合わせて実施されることが可能である。
また、本発明は、上述した各実施の形態に限定されず、様々な態様で実施されることが可能である。
1、2 フォールトトレラントシステム
100、100a、100b、200 システム
10 プロセッサシステム
20 入出力システム
30 制御装置
40 外部デバイス
50、60 監視装置
51、61 リード部
52 比較部
53、63 データ記憶部
54 切り離し部
65 データ更新部
66 アドレス記憶部
101 CPU
102 メモリ
103 外部デバイスインタフェース
104 CPUステートマシン
501 タイマ
502 リード生成回路
503 レジスタ
504 比較回路
505 制御信号出力回路
606 アクセス監視回路
607 レジスタ

Claims (4)

  1. フォールトトレラントシステムにおいて同一のハードウェア・コンポーネントで構成される複数のシステムのそれぞれに含まれる監視装置であって、
    自系の前記システムにおいて他系の前記システムとの間でロックステップ動作を行うプロセッサシステムに接続された外部デバイスに対して、所定のタイミング毎に所定の記憶領域のリードを行うリード部と、
    前記リード部により読み込まれたリードデータおよびデータ記憶部に記憶されたデータを比較する比較部と、
    前記比較部による比較結果が一致しないことを示す場合、自系のプロセッサシステムを、前記フォールトトレラントシステムから切り離す切り離し部と、
    を備えた監視装置。
  2. 前記プロセッサシステムによる前記外部デバイスに対する所定の時点でのアクセス先のアドレスをアドレス記憶部に記憶し、前記アドレスが示す記憶領域のデータを前記データ記憶部に記憶するとともに、前記アドレスが示す記憶領域のデータが更新される度に前記データ記憶部を更新するデータ更新部をさらに備え、
    前記リード部は、前記外部デバイスにおける前記アドレス記憶部のアドレスの記憶領域に対して所定のタイミング毎にリードを行うことを特徴とする請求項1に記載の監視装置。
  3. 請求項1または請求項2に記載の監視装置と、
    前記プロセッサシステムと、
    前記外部デバイスと、
    前記プロセッサシステムに接続される入出力システムと、
    自系および他系の各前記プロセッサシステムからの自系の前記入出力システムへのデータを比較することによりロックステップ外れを検出すると、自系のプロセッサシステムを、必要に応じて前記フォールトトレラントシステムから切り離す制御装置と、
    をそれぞれが有する複数のシステムからなるフォールトトレラントシステム。
  4. フォールトトレラントシステムに含まれる同一のハードウェア・コンポーネントで構成される複数のシステムのそれぞれにおいて、
    自系の前記システムにおいて他系の前記システムとの間でロックステップ動作を行うプロセッサシステムに接続された外部デバイスに対して、所定のタイミング毎に所定の記憶領域のリードを行い、
    読み込んだリードデータおよびデータ記憶部に記憶されたデータを比較し、
    比較結果が一致しないことを示す場合、自系のプロセッサシステムを、前記フォールトトレラントシステムから切り離す方法。
JP2016028976A 2016-02-18 2016-02-18 監視装置、フォールトトレラントシステムおよび方法 Active JP6083480B1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016028976A JP6083480B1 (ja) 2016-02-18 2016-02-18 監視装置、フォールトトレラントシステムおよび方法
US15/426,243 US10360115B2 (en) 2016-02-18 2017-02-07 Monitoring device, fault-tolerant system, and control method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016028976A JP6083480B1 (ja) 2016-02-18 2016-02-18 監視装置、フォールトトレラントシステムおよび方法

Publications (2)

Publication Number Publication Date
JP6083480B1 true JP6083480B1 (ja) 2017-02-22
JP2017146833A JP2017146833A (ja) 2017-08-24

Family

ID=58095216

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016028976A Active JP6083480B1 (ja) 2016-02-18 2016-02-18 監視装置、フォールトトレラントシステムおよび方法

Country Status (2)

Country Link
US (1) US10360115B2 (ja)
JP (1) JP6083480B1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106293620B (zh) * 2016-08-09 2019-05-14 浪潮电子信息产业股份有限公司 intel平台检测Flash Rom中参数的方法
US10810094B2 (en) * 2018-06-21 2020-10-20 Arm Limited Methods and apparatus for anomaly response
JP2020086538A (ja) * 2018-11-15 2020-06-04 株式会社日立製作所 計算機システム、及びデバイス管理方法
US10970180B2 (en) * 2019-03-29 2021-04-06 Nakamoto & Turing Labs Inc Methods and apparatus for verifying processing results and/or taking corrective actions in response to a detected invalid result

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02114337A (ja) * 1988-10-25 1990-04-26 Mitsubishi Electric Corp 2重化計算機システム
JPH05189325A (ja) * 1992-01-16 1993-07-30 Railway Technical Res Inst 二重系電子計算機
US20030041290A1 (en) * 2001-08-23 2003-02-27 Pavel Peleska Method for monitoring consistent memory contents in redundant systems
JP2007026010A (ja) * 2005-07-15 2007-02-01 Yaskawa Electric Corp 安全関連信号処理システムの無線通信方法
JP2012038305A (ja) * 2010-08-05 2012-02-23 Freescale Semiconductor Inc 周辺装置の設定情報のエラー検出を有するデータ処理システム

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4882752A (en) * 1986-06-25 1989-11-21 Lindman Richard S Computer security system
US6820213B1 (en) * 2000-04-13 2004-11-16 Stratus Technologies Bermuda, Ltd. Fault-tolerant computer system with voter delay buffer
EP1249744A1 (de) * 2001-08-23 2002-10-16 Siemens Aktiengesellschaft Verfahren zum Herstellen konsistenter Speicherinhalte in redundanten Systemen
JP3982353B2 (ja) * 2002-07-12 2007-09-26 日本電気株式会社 フォルトトレラントコンピュータ装置、その再同期化方法及び再同期化プログラム
JP4161276B2 (ja) * 2004-12-17 2008-10-08 日本電気株式会社 フォルトトレラントコンピュータ装置およびその同期化方法
JP2006178616A (ja) * 2004-12-21 2006-07-06 Nec Corp フォールトトレラントシステム、これで用いる制御装置、動作方法、及び動作プログラム
DE102005037246A1 (de) * 2005-08-08 2007-02-15 Robert Bosch Gmbh Verfahren und Vorrichtung zur Steuerung eines Rechnersystems mit wenigstens zwei Ausführungseinheiten und einer Vergleichseinheit
US7562264B2 (en) * 2006-09-06 2009-07-14 Intel Corporation Fault tolerant soft error detection for storage subsystems
US8301791B2 (en) * 2007-07-26 2012-10-30 Netapp, Inc. System and method for non-disruptive check of a mirror
JP4822024B2 (ja) 2008-02-29 2011-11-24 日本電気株式会社 フォールトトレラントサーバ、フルバックアップ方法、およびフルバックアッププログラム
JP5509637B2 (ja) * 2009-03-18 2014-06-04 日本電気株式会社 フォールトトレラントシステム
US20110208948A1 (en) * 2010-02-23 2011-08-25 Infineon Technologies Ag Reading to and writing from peripherals with temporally separated redundant processor execution
WO2011117156A2 (de) * 2010-03-23 2011-09-29 Continental Teves Ag & Co. Ohg Kontrollrechnersystem, verfahren zur steuerung eines kontrollrechnersystems, sowie verwendung eines kontrollrechnersystems
EP2550598A1 (de) * 2010-03-23 2013-01-30 Continental Teves AG & Co. oHG Redundante zwei-prozessor-steuerung und steuerungsverfahren
JP5740644B2 (ja) * 2010-10-08 2015-06-24 日本電産サンキョー株式会社 電子機器装置、そのペアリング処理方法及びペアリング監視方法
US8479042B1 (en) * 2010-11-01 2013-07-02 Xilinx, Inc. Transaction-level lockstep
US8443230B1 (en) * 2010-12-15 2013-05-14 Xilinx, Inc. Methods and systems with transaction-level lockstep
JP6098778B2 (ja) * 2012-03-29 2017-03-22 日本電気株式会社 冗長化システム、冗長化方法、冗長化システムの可用性向上方法、及びプログラム
US20140088338A1 (en) * 2012-09-26 2014-03-27 Alice Chang Clothing with magnets systems
JP6070374B2 (ja) * 2013-03-29 2017-02-01 富士通株式会社 情報処理装置、メモリ試験プログラムおよびメモリ試験方法
US9697094B2 (en) * 2015-02-06 2017-07-04 Intel Corporation Dynamically changing lockstep configuration
US10761925B2 (en) * 2015-03-24 2020-09-01 Nxp Usa, Inc. Multi-channel network-on-a-chip
JP6697360B2 (ja) * 2016-09-20 2020-05-20 キオクシア株式会社 メモリシステムおよびプロセッサシステム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02114337A (ja) * 1988-10-25 1990-04-26 Mitsubishi Electric Corp 2重化計算機システム
JPH05189325A (ja) * 1992-01-16 1993-07-30 Railway Technical Res Inst 二重系電子計算機
US20030041290A1 (en) * 2001-08-23 2003-02-27 Pavel Peleska Method for monitoring consistent memory contents in redundant systems
JP2007026010A (ja) * 2005-07-15 2007-02-01 Yaskawa Electric Corp 安全関連信号処理システムの無線通信方法
JP2012038305A (ja) * 2010-08-05 2012-02-23 Freescale Semiconductor Inc 周辺装置の設定情報のエラー検出を有するデータ処理システム

Also Published As

Publication number Publication date
JP2017146833A (ja) 2017-08-24
US20170242760A1 (en) 2017-08-24
US10360115B2 (en) 2019-07-23

Similar Documents

Publication Publication Date Title
JP4330547B2 (ja) 情報処理システムの制御方法、情報処理システム、情報処理システムの制御プログラム、冗長構成制御装置
US11194679B2 (en) Method and apparatus for redundancy in active-active cluster system
KR100566338B1 (ko) 폴트 톨러런트 컴퓨터 시스템, 그의 재동기화 방법 및 재동기화 프로그램이 기록된 컴퓨터 판독가능 기억매체
JP3982353B2 (ja) フォルトトレラントコンピュータ装置、その再同期化方法及び再同期化プログラム
US7620845B2 (en) Distributed system and redundancy control method
US7516358B2 (en) Tuning core voltages of processors
JP6083480B1 (ja) 監視装置、フォールトトレラントシステムおよび方法
JP2006178557A (ja) コンピュータシステム及びエラー処理方法
US7373542B2 (en) Automatic startup of a cluster system after occurrence of a recoverable error
EP2787401A1 (en) Method and apparatus for controlling a physical unit in an automation system
JP5874492B2 (ja) フォールトトレラント制御装置、フォールトトレラントシステムの制御方法
JP4182948B2 (ja) フォールト・トレラント・コンピュータシステムと、そのための割り込み制御方法
CN114840495A (zh) 一种数据库集群防脑裂的方法、存储介质与设备
US10860411B2 (en) Automatically detecting time-of-fault bugs in cloud systems
CN112600690B (zh) 一种配置数据同步方法、装置、设备及存储介质
JP3774826B2 (ja) 情報処理装置
JP2006172243A (ja) フォルトトレラントコンピュータ装置およびその同期化方法
JP2009098988A (ja) フォルトトレラントコンピュータシステム
WO2021043246A1 (zh) 数据读取方法及装置
JP6069951B2 (ja) フォールトトレラントコンピュータシステム、フォールトトレラントコンピュータシステムの起動方法およびフォールトトレラントコンピュータシステムの起動プログラム
JPH11296394A (ja) 二重化情報処理装置
JP7371547B2 (ja) ノード、ミラーリング型クラスタシステム、リストア検出方法、及び、プログラム
JP2001175545A (ja) サーバシステムおよび障害診断方法ならびに記録媒体
US11507478B2 (en) Method for operating a redundant automation system
JPH11134211A (ja) 二重化コンピュータシステムおよびその運用方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161227

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170109

R150 Certificate of patent or registration of utility model

Ref document number: 6083480

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150