JP6069951B2 - フォールトトレラントコンピュータシステム、フォールトトレラントコンピュータシステムの起動方法およびフォールトトレラントコンピュータシステムの起動プログラム - Google Patents

フォールトトレラントコンピュータシステム、フォールトトレラントコンピュータシステムの起動方法およびフォールトトレラントコンピュータシステムの起動プログラム Download PDF

Info

Publication number
JP6069951B2
JP6069951B2 JP2012183743A JP2012183743A JP6069951B2 JP 6069951 B2 JP6069951 B2 JP 6069951B2 JP 2012183743 A JP2012183743 A JP 2012183743A JP 2012183743 A JP2012183743 A JP 2012183743A JP 6069951 B2 JP6069951 B2 JP 6069951B2
Authority
JP
Japan
Prior art keywords
computer
error information
module
storage unit
hardware
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012183743A
Other languages
English (en)
Other versions
JP2014041503A (ja
Inventor
真太郎 米倉
真太郎 米倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2012183743A priority Critical patent/JP6069951B2/ja
Publication of JP2014041503A publication Critical patent/JP2014041503A/ja
Application granted granted Critical
Publication of JP6069951B2 publication Critical patent/JP6069951B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Hardware Redundancy (AREA)

Description

本発明は、フォールトトレラントコンピュータシステム、フォールトトレラントコンピュータシステムの起動方法およびフォールトトレラントコンピュータシステムの起動プログラムに関し、特に、ほぼ同一ハードウェア構成をとる2つのコンピュータを二重化して運用するフォールトトレラントコンピュータシステム、フォールトトレラントコンピュータシステムの起動方法およびフォールトトレラントコンピュータシステムの起動プログラムに関する。
一般的に、ハードウェア構成が同一な2つのコンピュータ系を同期させて動作させるフォールトトレラントコンピュータシステムでは、起動時の診断でCPU(中央処理装置)やメモリなどの機能モジュールにエラーが検出された場合には、エラーが検出されたコンピュータ系が切り離され、エラーが検出されなかったコンピュータ系のみを使用した構成でフォールトトレラントコンピュータシステムが運用されている。このように、コンピュータ系が二重化されていない状態で運用が行われるため、信頼性の低下を招くという問題がある。
このような問題を回避するために、特許文献1には、二重化されたモジュールaおよびbから構成されるシステムにおいて、例えば、モジュールa内のCPUI1にエラーが発生した場合に、CPUI1を切り離すとともに、モジュールb内の対応するCPUI2も切り離して、両モジュールを縮退運転しつつも、システム全体の冗長化構成は維持しながらシステムを運用する技術が開示されている。
また、特許文献2には、信頼性を高めた二重化コンピュータのハードウェア構成チェックシステムおよびハードウェア構成方法が記載されている。
特開平11−134210号公報 特開2000−207237号公報
上述したように特許文献1は、システムの運用中にモジュール内でエラーが発生した場合について、如何にして冗長化構成を維持しながらシステムの運用を継続するかを開示しているが、システムの起動時にいずれかのモジュールでエラーが発生した場合にどのように対処するかについては何ら開示していない。
また、特許文献2は、起動時の二重化コンピュータのハードウェア構成をチェックする方法を開示するにとどまり、二重化コンピュータのいずれかのコンピュータのモジュールに障害が発生したときにも二重化して起動する方法については開示されていない。
本発明の目的は、上述した問題点を解決するフォールトトレラントコンピュータシステム、フォールトトレラントコンピュータシステムの起動方法およびフォールトトレラントコンピュータシステムの起動プログラムを提供することにある。
本発明のフォールトトレラントコンピュータシステムは、それぞれ固有の機能を有する複数の第1のモジュールを含む第1のコンピュータと、前記複数の第1のモジュールと対をなす複数の第2のモジュールを含む第2のコンピュータと、前記複数の第1および第2のモジュールのうちのエラーを発生したモジュールを示すエラー情報を記憶するエラー情報記憶部とを備え、前記第1のコンピュータは、前記第1のコンピュータの起動時に前記複数の第1のモジュールのハードウェア診断を行う第1のハードウェア診断手段と、前記第1のハードウェア診断手段によりエラーが検出されたモジュールを示すエラー情報を前記エラー情報記憶部に記憶する第1のエラー情報更新手段と、前記エラー情報記憶部に記憶された前記エラー情報で示されるモジュールが前記第1のコンピュータのモジュールである場合には当該モジュールを前記第1のコンピュータから切り離し、一方、当該エラー情報で示されるモジュールが前記第2のコンピュータのモジュールである場合には当該モジュールと対をなす前記第1のコンピュータのモジュールを前記第1のコンピュータから切り離す第1のエラー情報確認手段とを備え、前記第2のコンピュータは、前記第1コンピュータの起動後に前記複数の第2のモジュールのハードウェア診断を行う第2のハードウェア診断手段と、前記第2のハードウェア診断手段によりエラーが検出されたモジュールを示すエラー情報を前記エラー情報記憶部に記憶する第2のエラー情報更新手段と、前記エラー情報記憶部に記憶された前記エラー情報で示されるモジュールが前記第2のコンピュータのモジュールである場合には当該モジュールを前記第2のコンピュータから切り離し、一方、当該エラー情報で示されるモジュールが前記第1のコンピュータのモジュールである場合には当該モジュールと対をなす前記第2のコンピュータのモジュールを前記第2のコンピュータから切り離す第2のエラー情報確認手段とを備え、前記第2のエラー情報更新手段がエラー情報を前記エラー情報記憶部に記憶した場合には、前記第1のエラー情報確認手段が当該エラー情報で示されるモジュールと対をなす前記第1のコンピュータのモジュールを前記第1のコンピュータから切り離す。
本発明のフォールトトレラントコンピュータシステムの起動方法は、それぞれ固有の機能を有する複数の第1のモジュールを含む第1のコンピュータと、前記複数の第1のモジュールと対をなす複数の第2のモジュールを含む第2のコンピュータと、前記複数の第1および第2のモジュールのうちのエラーを発生したモジュールを示すエラー情報を記憶するエラー情報記憶部とからなるフォールトトレラントコンピュータシステムを起動する方法であって、前記第1のコンピュータの起動時に前記複数の第1のモジュールのハードウェア診断を行う第1のハードウェア診断ステップと、前記第1のハードウェア診断ステップによりエラーが検出されたモジュールを示すエラー情報を前記エラー情報記憶部に記憶する第1のエラー情報更新ステップと、前記エラー情報記憶部に記憶された前記エラー情報で示されるモジュールが前記第1のコンピュータのモジュールである場合には当該モジュールを前記第1のコンピュータから切り離し、一方、当該エラー情報で示されるモジュールが前記第2のコンピュータのモジュールである場合には当該モジュールと対をなす前記第1のコンピュータのモジュールを前記第1のコンピュータから切り離す第1のエラー情報確認ステップと、前記第1コンピュータの起動後に前記複数の第2のモジュールのハードウェア診断を行う第2のハードウェア診断ステップと、前記第2のハードウェア診断ステップによりエラーが検出されたモジュールを示すエラー情報を前記エラー情報記憶部に記憶する第2のエラー情報更新ステップと、前記エラー情報記憶部に記憶された前記エラー情報で示されるモジュールが前記第2のコンピュータのモジュールである場合には当該モジュールを前記第2のコンピュータから切り離し、一方、当該エラー情報で示されるモジュールが前記第1のコンピュータのモジュールである場合には当該モジュールと対をなす前記第2のコンピュータのモジュールを前記第2のコンピュータから切り離す第2のエラー情報確認ステップと、前記第2のエラー情報更新ステップにおいてエラー情報を前記エラー情報記憶部に記憶した場合には、当該エラー情報で示されるモジュールと対をなす前記第1のコンピュータのモジュールを前記第1のコンピュータから切り離す第3のエラー情報確認ステップとを含む。
本発明のフォールトトレラントコンピュータシステムの起動プログラムは、それぞれ固有の機能を有する複数の第1のモジュールを含む第1のコンピュータと、前記複数の第1のモジュールと対をなす複数の第2のモジュールを含む第2のコンピュータと、前記複数の第1および第2のモジュールのうちのエラーを発生したモジュールを示すエラー情報を記憶するエラー情報記憶部を有するフォールトトレラントコンピュータシステムの起動プログラムであって、前記第1のコンピュータの起動時に前記複数の第1のモジュールのハードウェア診断を行う第1のハードウェア診断処理と、前記第1のハードウェア診断処理によりエラーが検出されたモジュールを示すエラー情報を前記エラー情報記憶部に記憶する第1のエラー情報更新処理と、前記エラー情報記憶部に記憶された前記エラー情報で示されるモジュールが前記第1のコンピュータのモジュールである場合には当該モジュールを前記第1のコンピュータから切り離し、一方、当該エラー情報で示されるモジュールが前記第2のコンピュータのモジュールである場合には当該モジュールと対をなす前記第1のコンピュータのモジュールを前記第1のコンピュータから切り離す第1のエラー情報確認処理とを前記第1のコンピュータに実行させ、前記第1コンピュータの起動後に前記複数の第2のモジュールのハードウェア診断を行う第2のハードウェア診断処理と、
前記第2のハードウェア診断処理によりエラーが検出されたモジュールを示すエラー情報を前記エラー情報記憶部に記憶する第2のエラー情報更新処理と、前記エラー情報記憶部に記憶された前記エラー情報で示されるモジュールが前記第2のコンピュータのモジュールである場合には当該モジュールを前記第2のコンピュータから切り離し、一方、当該エラー情報で示されるモジュールが前記第1のコンピュータのモジュールである場合には当該モジュールと対をなす前記第2のコンピュータのモジュールを前記第2のコンピュータから切り離す第2のエラー情報確認処理とを前記第2のコンピュータに実行させ、前記第2のエラー情報更新処理においてエラー情報を前記エラー情報記憶部に記憶した場合には、当該エラー情報で示されるモジュールと対をなす前記第1のコンピュータのモジュールを前記第1のコンピュータから切り離す第3のエラー情報確認処理を前記第1のコンピュータに実行させる。
以上、本発明には、起動時に、フォールトトレラントコンピュータシステムを構成する各コンピュータ内の一方のコンピュータのモジュールでエラーが検出された場合にエラーを発生したモジュールを当該コンピュータから切り離すとともに、エラーを発生したモジュールと対をなす、他方のコンピュータのモジュールも切り離し、正常なモジュールのみを使用して両コンピュータを縮退したハードウェア構成で二重化を維持しつつシステムを起動でき、その結果、システムダウンの可能性を大幅に小さくすることが可能となるという効果がある。
本発明の第1の実施形態のブロック図である。 本発明の第1の実施形態におけるシステムを起動する処理を示すフローチャートである。 本発明の第1の実施形態におけるハードウェア構成確認処理を示すフローチャートである。 本発明の第1の実施形態におけるエラー情報確認処理を示すフローチャートである。 本発明の第2の実施形態のブロック図である。
次に、本発明の実施の形態について図面を参照して詳細に説明する。
図1は本発明の第1の実施形態を示すブロック図である。
図1において、本実施形態に係るフォールトトレラントコンピュータシステム100は、第1のコンピュータ110(以下、「0系コンピュータ」と言う。)および第2のコンピュータ120(以下、「1系コンピュータ」と言う。」からなる2系統のコンピュータと、システムバックプレーン130とから構成される。
0系コンピュータ110と、1系コンピュータ120とは、ほぼ同一のハードウェア構成を有し、いわゆる二重化構成で運用されている。
0系コンピュータ110は、それぞれ固有の機能を有する複数のハードウェア機能モジュール(以下、単に「モジュール」とも言う。)111と、二重化制御部112とを含む。
各モジュール111は、コンピュータ110を構成するひとかたまりのハードウェア構成要素で、図1では、一例として、CPUおよびメモリのみを示しているが、これら以外のものも含むことは言うまでもない。
1系コンピュータ120は、コンピュータ110の複数のモジュール111と対をなす複数のモジュール121と、二重化制御部122とを含む。
1系コンピュータ120の各モジュール121と二重化制御部122は、それぞれ0系コンピュータ110の各モジュール111と二重化制御部112に対応する。
0系コンピュータ110と1系コンピュータ120と間の通信は、二重化機能を実現するための二重化制御部112および122を経由して行う。
二重化制御部112は、ハードウェア構成確認手段115と、エラー情報確認手段116と、ハードウェア診断手段117と、エラー情報更新手段118とを含む。
二重化制御部122は、ハードウェア構成確認手段125と、エラー情報確認手段126と、ハードウェア診断手段127と、エラー情報更新手段128とを含む。
二重化制御部122のハードウェア構成確認手段125、エラー情報確認手段126、ハードウェア診断手段127およびエラー情報更新手段128は、それぞれ二重化制御部112のハードウェア構成確認手段115、エラー情報確認手段116、ハードウェア診断手段117およびエラー情報更新手段118とほぼ同様の処理を行う。
また、ハードウェア構成確認手段115、エラー情報確認手段116、ハードウェア診断手段117およびエラー情報更新手段118は、BIOS(Basic Input Output System)プログラムの一部の機能として実現しても良いし、専用のハードウェアで実現しても良い。
システムバックプレーン130は、0系コンピュータ110と1系コンピュータ120とを相互に接続する役割を果たし、0系コンピュータ110および1系コンピュータ120から共通にアクセスが可能である。
システムバックプレーン130は、ハードウェア構成記憶部133と、エラー情報記憶部134とを含む。
ハードウェア構成記憶部133は、0系コンピュータ110および1系コンピュータ120のハードウェア構成情報を格納する記憶領域である。
各コンピュータ110および120は、少なくとも前回の運用終了時のそれぞれのハードウェア構成を示すハードウェア構成情報をハードウェア構成記憶部133に保存している。
エラー情報記憶部134は、各コンピュータ110および120においてエラーを発生したモジュールやエラーの種類等を含むエラー情報を格納するための領域である。
0系コンピュータ110および1系コンピュータ120の起動時にハードウェア診断手段117および127が実行するハードウェア診断(例えば、BIOSプログラムが実行するPower On Self Test(POST)等)により、0系コンピュータ110および1系コンピュータ120内に実装されているモジュールに関するハードウェア診断の結果がエラー情報記憶部134に格納される。
次に、フォールトトレラントコンピュータシステム100を起動する処理について、図2に示すフローチャートを用いて説明する。
ここで、0系コンピュータ110を最初に起動するPrimary側コンピュータ、1系コンピュータ120をその後から起動するSecondary側コンピュータであるとする。
フォールトトレラントコンピュータシステム100を起動するにあたり、図2に示すように、初めにPrimary側コンピュータである0系コンピュータ110を起動する(S11)。
0系コンピュータ110の起動後に、ハードウェア構成確認手段115はハードウェア構成確認処理を実行する(S12)。
ここで、このハードウェア構成確認処理の流れについて、図3に示すフローチャートを用いて詳細に説明する。
ハードウェア構成確認手段115は、初めに、0系コンピュータ110の現状のハードウェア構成を確認し(S31)、ハードウェア構成記憶部133に0系コンピュータ110のハードウェア構成情報が存在するかを確認する(S32)。なお、当然のことながら、0系コンピュータ110の初回起動時には、ハードウェア構成記憶部133にハードウェア構成情報は存在しない。
ハードウェア構成情報が存在すれば、現在のハードウェア構成情報とハードウェア構成記憶部133にある0系コンピュータ110のハードウェア構成情報を比較する(S33)。
両者の情報が一致した場合は、ステップS35に進む。
一方、両者の情報が不一致であった場合には、エラー情報記憶部134に保存されている0系および1系コンピュータ110および120に関連するエラー情報を消去する(S34)。
ハードウェア構成確認処理の最後に、ハードウェア構成記憶部133にある0系コンピュータ110のハードウェア構成情報を現状のハードウェア構成情報で更新する(S35)。
ステップS12のハードウェア構成確認処理が終わったら、エラー情報確認手段116はエラー情報確認/モジュール切り離し処理を行う(S13)。この処理の流れを、図4を用いて以下に説明する。
エラー情報確認/モジュール切り離し処理において、エラー情報確認手段116はまずエラー情報記憶部134に0系コンピュータ110のエラー情報が格納されているかどうかを確認する(S41)。
エラー情報記憶部134に0系コンピュータ110のエラー情報が存在した場合には、エラー情報確認手段116はそのエラー情報をもとに、エラーが発生しているモジュールをコンピュータ110から論理的に切り離す(S42)。
次に、エラー情報記憶部134に1系コンピュータ120のエラー情報が格納されているかどうかを確認する(S43)。エラー情報記憶部134に1系コンピュータ120のエラー情報が存在した場合には、エラー情報確認手段116はエラー情報をもとに、エラーが発生した1系コンピュータ120のモジュールと対をなす0系コンピュータ110のモジュールをコンピュータ110から論理的に切り離す(S44)。
エラー情報確認/モジュール切り離し処理の後、ハードウェア診断手段117はPOSTによるハードウェア診断処理を行う(S14)。
診断の結果、モジュールにエラーが検出された場合(S15で「NO」の場合)、エラー情報更新手段118はそのエラー情報をエラー情報記憶部134に格納する(S18)。
その後、0系コンピュータおよび1系コンピュータにリセットをかけ(S17)、フォールトトレラントコンピュータシステム100を起動する処理が初めから(S11から)再実行される。
フォールトトレラントコンピュータシステム100の起動を再実行する処理は、エラーを発生したモジュールが切り離され(S13)、0系コンピュータ110のハードウェア診断(S14)でエラーモジュールが検出されなくなるまで行われる。
ハードウェア診断(S14)でエラーが検出されなければ、その時点のハードウェア構成でシステムが起動される(S16)。
0系コンピュータ110を使用して正常にシステムが起動(S16)した後、1系コンピュータ120をシステムに組み込むため、1系コンピュータ120が起動される(S19)。
0系コンピュータ110の起動時と同様に、1系コンピュータ120で動作するハードウェア構成確認手段125はまずハードウェア構成確認処理を行う(S20)。
ハードウェア構成確認処理の次に、エラー情報確認手段126によりエラー情報領域/モジュール切り離し処理が行われる(S21)。
0系コンピュータ110での処理と同様に、エラー情報確認手段126は、1系コンピュータ120および0系コンピュータ110に関するエラー情報の有無を確認し、エラー情報が存在する場合、そのエラーが1系コンピュータ120のモジュールのエラーであればそのエラーが発生したモジュールを、0系コンピュータ110のモジュールに関するエラー情報であれば、そのモジュールと対をなす1系コンピュータ120のモジュールを、それぞれ1系コンピュータ120から論理的に切り離す(S42およびS44)。
次に、ハードウェア診断手段127は、ハードウェア診断処理を行い(S22)、エラーが検出されなければ1系コンピュータ120をそのままシステムに組み込み(S24)、二重化された状態でシステムの運用を開始する。
ハードウェア診断(S22)でモジュールにエラーが検出された場合には、エラー情報更新手段128がエラー情報記憶部134に格納されているエラー情報が更新され(S18)、両系コンピュータ110および120にリセットをかけた後に(S17)、0系コンピュータ110の起動(S11)が再度実行される。
0系コンピュータ110を起動する処理は、エラーを発生したモジュールが切り離され(S21)、1系コンピュータ120のハードウェア診断(S22)でエラーが検出されなくなるまで繰り返される。
次に、本発明の第2の実施形態について図5を参照して説明する。
図5を参照すると、本実施形態では、第1の実施形態におけるハードウェア構成記憶部133およびエラー情報記憶部134が、システムバックプレーン上ではなく、0系コンピュータおよび1系コンピュータ内にそれぞれ配置されている。
すなわち、ハードウェア構成記憶部133が、ハードウェア構成記憶部113およびハードウェア構成記憶部123に、エラー情報記憶部134が、エラー情報記憶部114およびエラー情報記憶部124に対応する。
本実施形態の場合には、Primary側(0系)コンピュータを起動した直後のハードウェア構成確認(S12)の前に、二重化制御部によってPrimary側コンピュータのハードウェア構成記憶部113およびエラー情報記憶部114の内容と、Secondary側(1系)コンピュータのハードウェア構成記憶部123およびエラー情報記憶部124の内容とをそれぞれ同期(一致)させておく必要がある。
以上、説明したように、第1および第2の実施形態には、フォールトトレラントコンピュータシステムを構成する同一構成の2つのコンピュータ内のモジュールにエラーを検出した場合であっても、エラーの発生した一方のコンピュータのモジュールおよびそのモジュールと対をなす他方のコンピュータのモジュールを切り離し、正常なモジュールのみを使用した同一のハードウェア構成の二重化コンピュータからなるフォールトトレラントコンピュータシステムを該システムの起動時に構築することが出来るという効果がある。
その理由は、各コンピュータの起動時のハードウェア診断によって得られたエラー情報を保存しておき、そのエラー情報に基づき、エラーを発生したモジュールの切り離し処理を行っているためである。
100 フォールトトレラントコンピュータシステム
110 0系コンピュータ
111 モジュール
112 二重化制御部
113 ハードウェア構成記憶部
114 エラー情報記憶部
115 ハードウェア構成確認手段
116 エラー情報確認手段
117 ハードウェア診断手段
118 エラー情報更新手段
120 1系コンピュータ
121 モジュール
122 二重化制御部
123 ハードウェア構成記憶部
124 エラー情報記憶部
125 ハードウェア構成確認手段
126 エラー情報確認手段
127 ハードウェア診断手段
128 エラー情報更新手段
130 システムバックプレーン
133 ハードウェア構成記憶部
134 エラー情報記憶部

Claims (6)

  1. それぞれ固有の機能を有する複数の第1のモジュールを含む第1のコンピュータと、
    前記複数の第1のモジュールと対をなす複数の第2のモジュールを含む第2のコンピュータと、
    前記複数の第1および第2のモジュールのうちのエラーを発生したモジュールを示すエラー情報を記憶する、前記第2のコンピュータ起動前からアクセス可能なエラー情報記憶部と
    を備え、
    前記第1のコンピュータは、
    前記第1のコンピュータの起動時に前記複数の第1のモジュールのハードウェア診断を行う第1のハードウェア診断手段と、
    前記第1のハードウェア診断手段によりエラーが検出されたモジュールを示すエラー情報を前記エラー情報記憶部に記憶する第1のエラー情報更新手段と、
    前記エラー情報記憶部に記憶された前記エラー情報で示されるモジュールが前記第1のコンピュータのモジュールである場合には当該モジュールを前記第1のコンピュータから切り離し、一方、当該エラー情報で示されるモジュールが前記第2のコンピュータのモジュールである場合には当該モジュールと対をなす前記第1のコンピュータのモジュールを前記第1のコンピュータから切り離す第1のエラー情報確認手段と
    を備え、
    前記第2のコンピュータは、
    前記第1のハードウェア診断手段による診断完了後に前記複数の第2のモジュールのハードウェア診断を行う第2のハードウェア診断手段と、
    前記第2のハードウェア診断手段によりエラーが検出されたモジュールを示すエラー情報を前記エラー情報記憶部に記憶する第2のエラー情報更新手段と、
    前記エラー情報記憶部に記憶された前記エラー情報で示されるモジュールが前記第2のコンピュータのモジュールである場合には当該モジュールを前記第2のコンピュータから切り離し、一方、当該エラー情報で示されるモジュールが前記第1のコンピュータのモジュールである場合には当該モジュールと対をなす前記第2のコンピュータのモジュールを前記第2のコンピュータから切り離す第2のエラー情報確認手段と
    を備え、
    前記第2のエラー情報更新手段がエラー情報を前記エラー情報記憶部に記憶した場合には、前記第1のエラー情報確認手段が当該エラー情報で示されるモジュールと対をなす前記第1のコンピュータのモジュールを前記第1のコンピュータから切り離すことを特徴とするフォールトトレラントコンピュータシステム。
  2. 前記第1および第2のコンピュータの少なくとも前回の運用終了時のハードウェア構成をそれぞれ示す第1および第2のハードウェア構成情報を記憶したハードウェア構成記憶部を備え、
    前記第1のコンピュータは、起動動作開始時に、その時点の前記第1のコンピュータのハードウェア構成と前記第1のハードウェア構成情報が示すハードウェア構成とを比較し、両者が一致しない場合には、前記エラー情報記憶部に記憶された前記第1および第2のコンピュータに関連する前記エラー情報を削除し、
    前記第2のコンピュータは、起動動作開始時に、その時点の前記第2のコンピュータのハードウェア構成と前記第2のハードウェア構成情報が示すハードウェア構成とを比較し、両者が一致しない場合には、前記エラー情報記憶部に記憶された前記第1および第2のコンピュータに関連する前記エラー情報を削除する
    ことを特徴とする請求項1記載のフォールトトレラントコンピュータシステム。
  3. それぞれ固有の機能を有する複数の第1のモジュールを含む第1のコンピュータと、前記複数の第1のモジュールと対をなす複数の第2のモジュールを含む第2のコンピュータと、前記複数の第1および第2のモジュールのうちのエラーを発生したモジュールを示すエラー情報を記憶する、前記第2のコンピュータ起動前からアクセス可能なエラー情報記憶部とからなるフォールトトレラントコンピュータシステムの起動方法において、
    前記第1のコンピュータの起動時に前記複数の第1のモジュールのハードウェア診断を行う第1のハードウェア診断ステップと、
    前記第1のハードウェア診断ステップによりエラーが検出されたモジュールを示すエラー情報を前記エラー情報記憶部に記憶する第1のエラー情報更新ステップと、
    前記エラー情報記憶部に記憶された前記エラー情報で示されるモジュールが前記第1のコンピュータのモジュールである場合には当該モジュールを前記第1のコンピュータから切り離し、一方、当該エラー情報で示されるモジュールが前記第2のコンピュータのモジュールである場合には当該モジュールと対をなす前記第1のコンピュータのモジュールを前記第1のコンピュータから切り離す第1のエラー情報確認ステップと、
    前記第1のハードウェア診断手段による診断完了後に前記複数の第2のモジュールのハードウェア診断を行う第2のハードウェア診断ステップと、
    前記第2のハードウェア診断ステップによりエラーが検出されたモジュールを示すエラー情報を前記エラー情報記憶部に記憶する第2のエラー情報更新ステップと、
    前記エラー情報記憶部に記憶された前記エラー情報で示されるモジュールが前記第2のコンピュータのモジュールである場合には当該モジュールを前記第2のコンピュータから切り離し、一方、当該エラー情報で示されるモジュールが前記第1のコンピュータのモジュールである場合には当該モジュールと対をなす前記第2のコンピュータのモジュールを前記第2のコンピュータから切り離す第2のエラー情報確認ステップと、
    前記第2のエラー情報更新ステップにおいてエラー情報を前記エラー情報記憶部に記憶した場合には、当該エラー情報で示されるモジュールと対をなす前記第1のコンピュータのモジュールを前記第1のコンピュータから切り離す第3のエラー情報確認ステップと
    を含むことを特徴とするフォールトトレラントコンピュータシステムの起動方法。
  4. 前記フォールトトレラントコンピュータシステムは、前記第1および第2のコンピュータの少なくとも前回の運用終了時のハードウェア構成をそれぞれ示す第1および第2のハードウェア構成情報を記憶したハードウェア構成記憶部を備え、
    前記第1のコンピュータの起動動作開始時に、その時点の前記第1のコンピュータのハードウェア構成と前記第1のハードウェア構成情報が示すハードウェア構成とを比較し、
    両者が一致しない場合には、前記エラー情報記憶部に記憶された前記第1および第2のコンピュータに関連する前記エラー情報を削除し、
    前記第2のコンピュータの起動動作開始時に、その時点の前記第2のコンピュータのハードウェア構成と前記第2のハードウェア構成情報が示すハードウェア構成とを比較し、両者が一致しない場合には、前記エラー情報記憶部に記憶された前記第1および第2のコンピュータに関連する前記エラー情報を削除する
    ことを特徴とする請求項3記載のフォールトトレラントコンピュータシステムの起動方法。
  5. それぞれ固有の機能を有する複数の第1のモジュールを含む第1のコンピュータと、前記複数の第1のモジュールと対をなす複数の第2のモジュールを含む第2のコンピュータと、前記複数の第1および第2のモジュールのうちのエラーを発生したモジュールを示すエラー情報を記憶する、前記第2のコンピュータ起動前からアクセス可能なエラー情報記憶部を有するフォールトトレラントコンピュータシステムの起動プログラムにおいて、
    前記第1のコンピュータの起動時に前記複数の第1のモジュールのハードウェア診断を行う第1のハードウェア診断処理と、
    前記第1のハードウェア診断処理によりエラーが検出されたモジュールを示すエラー情報を前記エラー情報記憶部に記憶する第1のエラー情報更新処理と、
    前記エラー情報記憶部に記憶された前記エラー情報で示されるモジュールが前記第1のコンピュータのモジュールである場合には当該モジュールを前記第1のコンピュータから切り離し、一方、当該エラー情報で示されるモジュールが前記第2のコンピュータのモジュールである場合には当該モジュールと対をなす前記第1のコンピュータのモジュールを前記第1のコンピュータから切り離す第1のエラー情報確認処理と
    を前記第1のコンピュータに実行させ、
    前記第1のハードウェア診断手段による診断完了後に前記複数の第2のモジュールのハードウェア診断を行う第2のハードウェア診断処理と、
    前記第2のハードウェア診断処理によりエラーが検出されたモジュールを示すエラー情報を前記エラー情報記憶部に記憶する第2のエラー情報更新処理と、
    前記エラー情報記憶部に記憶された前記エラー情報で示されるモジュールが前記第2のコンピュータのモジュールである場合には当該モジュールを前記第2のコンピュータから切り離し、一方、当該エラー情報で示されるモジュールが前記第1のコンピュータのモジュールである場合には当該モジュールと対をなす前記第2のコンピュータのモジュールを前記第2のコンピュータから切り離す第2のエラー情報確認処理と
    を前記第2のコンピュータに実行させ、
    前記第2のエラー情報更新処理においてエラー情報を前記エラー情報記憶部に記憶した場合には、当該エラー情報で示されるモジュールと対をなす前記第1のコンピュータのモジュールを前記第1のコンピュータから切り離す第3のエラー情報確認処理を前記第1のコンピュータに実行させる
    ことを特徴とするフォールトトレラントコンピュータシステムの起動プログラム。
  6. 前記フォールトトレラントコンピュータシステムは、前記第1および第2のコンピュータの少なくとも前回の運用終了時のハードウェア構成をそれぞれ示す第1および第2のハードウェア構成情報を記憶したハードウェア構成記憶部を備え、
    前記第1のコンピュータの起動動作開始時に、その時点の前記第1のコンピュータのハードウェア構成と前記第1のハードウェア構成情報が示すハードウェア構成とを比較し、両者が一致しない場合には、前記エラー情報記憶部に記憶された前記第1および第2のコンピュータに関連する前記エラー情報を前記第1コンピュータに削除させ、
    前記第2のコンピュータの起動動作開始時に、その時点の前記第2のコンピュータのハードウェア構成と前記第2のハードウェア構成情報が示すハードウェア構成とを比較し、両者が一致しない場合には、前記エラー情報記憶部に記憶された前記第1および第2のコンピュータに関連する前記エラー情報を前記第2コンピュータに削除させる
    ことを特徴とする請求項5記載のフォールトトレラントコンピュータシステムの起動プログラム
JP2012183743A 2012-08-23 2012-08-23 フォールトトレラントコンピュータシステム、フォールトトレラントコンピュータシステムの起動方法およびフォールトトレラントコンピュータシステムの起動プログラム Active JP6069951B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012183743A JP6069951B2 (ja) 2012-08-23 2012-08-23 フォールトトレラントコンピュータシステム、フォールトトレラントコンピュータシステムの起動方法およびフォールトトレラントコンピュータシステムの起動プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012183743A JP6069951B2 (ja) 2012-08-23 2012-08-23 フォールトトレラントコンピュータシステム、フォールトトレラントコンピュータシステムの起動方法およびフォールトトレラントコンピュータシステムの起動プログラム

Publications (2)

Publication Number Publication Date
JP2014041503A JP2014041503A (ja) 2014-03-06
JP6069951B2 true JP6069951B2 (ja) 2017-02-01

Family

ID=50393704

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012183743A Active JP6069951B2 (ja) 2012-08-23 2012-08-23 フォールトトレラントコンピュータシステム、フォールトトレラントコンピュータシステムの起動方法およびフォールトトレラントコンピュータシステムの起動プログラム

Country Status (1)

Country Link
JP (1) JP6069951B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10838815B2 (en) 2018-09-19 2020-11-17 Dell Products L.P. Fault tolerant and diagnostic boot

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3447404B2 (ja) * 1994-12-08 2003-09-16 日本電気株式会社 マルチプロセッサシステム
JP3180737B2 (ja) * 1997-10-29 2001-06-25 日本電気株式会社 システムの冗長化方法
JP2000207237A (ja) * 1999-01-13 2000-07-28 Nec Field Service Ltd 二重化コンピュ―タのハ―ドウェア構成チェックシステムおよびハ―ドウェア構成チェック方法
JP2004046599A (ja) * 2002-07-12 2004-02-12 Nec Corp フォルトトレラントコンピュータ装置、その再同期化方法及び再同期化プログラム
JP4182948B2 (ja) * 2004-12-21 2008-11-19 日本電気株式会社 フォールト・トレラント・コンピュータシステムと、そのための割り込み制御方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10838815B2 (en) 2018-09-19 2020-11-17 Dell Products L.P. Fault tolerant and diagnostic boot

Also Published As

Publication number Publication date
JP2014041503A (ja) 2014-03-06

Similar Documents

Publication Publication Date Title
JP3808874B2 (ja) 分散システム及び多重化制御方法
JP5183542B2 (ja) 計算機システム及び設定管理方法
CN108737153B (zh) 区块链灾备系统、方法、服务器和计算机可读存储介质
JP4491482B2 (ja) 障害回復方法、計算機、クラスタシステム、管理計算機及び障害回復プログラム
JP6083480B1 (ja) 監視装置、フォールトトレラントシステムおよび方法
CN110865907A (zh) 在主服务器与从服务器之间提供服务冗余的方法和系统
JP2003015900A (ja) 追走型多重化システム、及び追走により信頼性を高めるデータ処理方法
US11010086B2 (en) Data synchronization method and out-of-band management device
JP5201134B2 (ja) 二重化システム、切替プログラムおよび切替方法
JP2013206265A (ja) フォールトトレラント制御装置、フォールトトレラントシステムの制御方法
JP6069951B2 (ja) フォールトトレラントコンピュータシステム、フォールトトレラントコンピュータシステムの起動方法およびフォールトトレラントコンピュータシステムの起動プログラム
KR101731422B1 (ko) 가상화 환경에서의 장애 복구 장치 및 방법
US7533297B2 (en) Fault isolation in a microcontroller based computer
CN113448760A (zh) 一种硬盘异常状态的恢复方法、系统、设备以及介质
US6721882B1 (en) Method and apparatus for warm starting a system where the system includes region(s) of software code incapable of warm starting
JP6556852B2 (ja) 多重化処理システム、多重化処理方法及びプログラム
JP2011076262A (ja) 計算機システムおよびその方法
JP6554801B2 (ja) 冗長通信装置及びその制御方法
JP3156654B2 (ja) 二重化コンピュータシステムおよびその運用方法
JP4830698B2 (ja) 担当lun制御を用いたraid制御を行うディスクコントローラおよび診断制御方法
JP5734107B2 (ja) プロセス障害判定復旧装置、プロセス障害判定復旧方法、プロセス障害判定復旧プログラム、および記録媒体
US20070038849A1 (en) Computing system and method
JP5564756B2 (ja) 冗長構成システム、該冗長構成システムに用いられる情報管理方法及び情報管理制御プログラム
JP2010055509A (ja) 障害復旧システム、方法及びプログラム、並びにクラスタシステム
JP2011028481A (ja) フォールトトレラントサーバ、プロセッサ切り替え方法およびプロセッサ切り替えプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150722

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160428

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160517

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160712

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161219

R150 Certificate of patent or registration of utility model

Ref document number: 6069951

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150