JP5296036B2 - マルチプロセッサコンピュータシステムでのdmi冗長 - Google Patents

マルチプロセッサコンピュータシステムでのdmi冗長 Download PDF

Info

Publication number
JP5296036B2
JP5296036B2 JP2010262354A JP2010262354A JP5296036B2 JP 5296036 B2 JP5296036 B2 JP 5296036B2 JP 2010262354 A JP2010262354 A JP 2010262354A JP 2010262354 A JP2010262354 A JP 2010262354A JP 5296036 B2 JP5296036 B2 JP 5296036B2
Authority
JP
Japan
Prior art keywords
processor
computer
boot
instability
multiplexer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010262354A
Other languages
English (en)
Other versions
JP2011134314A (ja
Inventor
ケリー ブライアン
ジェイ. カスパー マイケル
Original Assignee
インテル コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インテル コーポレイション filed Critical インテル コーポレイション
Publication of JP2011134314A publication Critical patent/JP2011134314A/ja
Application granted granted Critical
Publication of JP5296036B2 publication Critical patent/JP5296036B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1417Boot up procedures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2025Failover techniques using centralised failover control functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2038Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2043Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share a common memory address space

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)
  • Stored Programmes (AREA)
  • Debugging And Monitoring (AREA)

Description

本開示は、概して、マルチプロセッサコンピュータプラットフォームの分野に関し、より具体的には、マルチプロセッサコンピュータシステムでのデスクトップ管理インターフェース(DMI(desktop management interface))冗長のため装置、システム及び方法に関する。
コンピュータシステムは、シングル(単一)プロセッサ(UP(unitary processor))又はマルチプロセッサ構成を有することができる。マルチプロセッサ構成の一種として、デュアルプロセッサ(DP(dual processor))構成がある。マルチプロセッサ構成では、通常、プロセッサの1つがブートプロセッサに指定される。これにより、コンピュータがブートされるときに、ブートプロセッサは、ブート処理に関与する唯一のプロセッサとなる。
しかしながら、ブートプロセッサがコンピュータシステムをブートすることができない場合には、コンピュータは、通常、他の手段がとられない限り、機能しない。
従って、必要とされるのは、ブートプロセッサが適切に機能しているのかどうかを決定し、もし機能していない場合には、他のプロセッサをブートプロセッサに指定することができるマルチプロセッサコンピュータシステムである。
本開示の様々な実施形態に従って、第1のプロセッサ・インスタビリティに関してモニタリングモジュールによってコンピュータの第1のプロセッサをモニタする段階と、モニタされた前記第1のプロセッサ・インスタビリティに基づいて、前記第1のプロセッサが安定しているかどうかを決定する段階と、前記第1のプロセッサが安定していないと決定される場合にマルチプレクサモジュールにより前記コンピュータの第2のプロセッサに動作プライオリティを送る段階であって、前記第1のプロセッサの第1のデスクトップ管理インターフェース及び前記第2のプロセッサの第2のデスクトップ管理インターフェースは、前記マルチプレクサモジュールと通信し、前記第1のプロセッサ及び前記第2のプロセッサは、プロセッサ・インターコネクトによって通信する段階と、前記第2のプロセッサを用いて前記コンピュータを操作する段階とを有する方法が開示される。
本開示の様々な実施形態に従って、第1のプロセッサと、インターコネクトを介して前記第1のプロセッサと通信するよう構成される第2のプロセッサと、前記第1のプロセッサの第1のデスクトップ管理インターフェース及び前記第2のプロセッサの第2のデスクトップ管理インターフェースをプラットフォーム・コントローラ・ハブにマルチプレクスするよう構成されるマルチプレクサとを有する装置が開示される。
本開示の様々な実施形態に従って、ボードを有するコンピュータを有し、前記ボードは、第1のプロセッサと、インターコネクトを介して前記第1のプロセッサと通信するよう構成される第2のプロセッサと、プラットフォーム・コントローラ・ハブに接続されるように前記第1のプロセッサの第1のデスクトップ管理インターフェース及び前記第2のプロセッサの第2のデスクトップ管理インターフェースをマルチプレクスするよう構成されるマルチプレクサとを有する、装置が開示される。
本発明の実施形態によれば、ブートプロセッサが適切に機能しているのかどうかを決定し、もし機能していない場合には、他のプロセッサをブートプロセッサに指定することができるマルチプロセッサコンピュータシステムを提供することが可能となる。
プロセッサ・トポロジの一例を示す。 本開示の様々な態様に従うデュアルプロセッサ(DP)トポロジを有するマルチプロセッサプラットフォームの一例を示す。 本開示の様々な態様に従うクワッドプロセッサトポロジを有するマルチプロセッサプラットフォームの一例を示す。 本開示の様々な態様に従うDPからDPへのスイッチングのためのフローチャートの例を示す。 本開示の様々な態様に従うDPから単一プロセッサ(UP)へのスイッチングのためのフローチャートの例を示す。
以下の記載で、同じ構成要素は、それらが異なる実施形態において示されているかどうかに関わらず、同じ参照符号を付されている。明りょう且つ簡潔に本開示の実施形態を表すために、図面は必ずしも実寸通りではなく、特定の機能が多少図式的に示されることがある。1つの実施形態に関して記載及び/又は図示をされている機能は、1又はそれ以上の他の実施形態でも同じように、あるいは、他の実施形態の特徴とともに、又はそれらに代えて、使用されてよい。
関連する構成要素の動作及び機能の方法、部品の組合せ、並びに製造の経済利益とともに、上記の及び他の機能及び特徴は、添付の図面を参照して明細書及び特許請求の範囲を読むことで明らかになるであろう。全ての図を通して、同じ参照符号は対応する部分を表す。しかしながら、図面は例示及び説明のためのものであり、本発明の技術的範囲を定めるものではないことが明確に理解されるべきである。明細書及び特許請求の範囲で使用されているように、1つの(a、an)又は前記(the)等の語に続く要素は、明示されない限り、複数存在する場合を含むものである。
図1は、関連するプロセッサ・トポロジの一例を示す。2つのプロセッサ105及び110は、例えば、インテル(登録商標)によるQPI(QuickPath Interconnect)等のポイント・ツー・ポイントのプロセッサ・インターコネクトのようなインターコネクトを介して接続されている。プロセッサ105のデスクトップ管理インターフェース(DMI(Desktop Management Interface))はプラットフォーム・コントローラ・ハブ(PCH(Platform Control HUB))に接続され、一方、プロセッサ110のDMIは使用されない。PCHは、I/Oコントローラ・ハブ(ICH)又はサウスブリッジとしても知られており、ノースブリッジ/サウスブリッジ・チップセット・コンピュータ・アーキテクチャにおけるマザーボード(図示せず。)の低速(slower)機能を実施するチップである。通常、サウスブリッジは、CPUに直接には接続されないことでノースブリッジと区別され得る。むしろ、ノースブリッジはサウスブリッジをCPUに結合する。コントローラ内蔵チャネル回路の使用を通じて、ノースブリッジは、入力/出力(I/O)ユニットからの信号をデータ制御及びアクセスのためにCPUに直接にリンクすることができる。
マルチプロセッサプラットフォームでは、プロセッサはルートスルー(route-through)可能なプロセッサであってよい。ルートスルーは、あるプロセッサのアンコア(uncore)内のパケットルーティングメカニズムである。語「アンコア」は、コア以外のマルチコアチップの構成要素(例えば、コアのためのインターコネクト、バスインターフェース等)をいう。内部ブロック(CSIホームロジック、ソースアドレスデコードブロック、グローバルキュー等)における変化は、パケットのあて先を決定するために使用される。各ノードでパケットを処理することに代えて、あて先ノードは、あて先アドレスに基づくルートスルー又はプロセスのいずれかにより決定される。
図2は、本開示の様々な態様に従うデュアルプロセッサ(DP)トポロジを有するマルチプロセッサプラットフォームの一例を示す。この例で、2つのプロセッサ205及び210は、ポイント・ツー・ポイントのプロセッサ・インターコネクトのようなインターコネクトを介して接続されてよい。例えば、ポイント・ツー・ポイント・インターコネクトはQPIであってよい。しかし、他の適切なプロセッサ・インターコネクトが使用されてもよい。図2に示されるように、プロセッサ205及び210はいずれもルートスルー可能なプロセッサである。しかし、これは単なるプラットフォーム構成の一例にすぎない。プロセッサはルートスルー可能である必要はない。初期構成において、2つのプロセッサ205及び210のうちの1つがブートプロセッサであるよう選択されてよい。プロセッサ205のDMI及びプロセッサ210のDMIはマルチプレクサ(MUX)210の入力部に接続されてよい。モニタ220はMUX215と通信することができ、ブートプロセッサの状態をモニタするよう構成されてよい。コントローラ230はモニタ220、MUX215又はそれら両方と通信することができ、MUX215にモニタ220によってモニタされた状態に基づいて非ブートプロセッサをブートプロセッサであるよう指定させるよう構成されてよい。MUX215の出力部はPCH225と通信することができる。
図3は、本開示の様々な態様に従うクワッドプロセッサトポロジを有するマルチプロセッサプラットフォームの一例を示す。この例で、4つのプロセッサ305、310、315及び320は、ポイント・ツー・ポイントのプロセッサ・インターコネクトのようなインターコネクトを介して接続されてよい。トのプロセッサ・インターコネクトのようなインターコネクトを介して接続されてよい。例えば、ポイント・ツー・ポイント・インターコネクトはQPIであってよい。しかし、他の適切なプロセッサ・インターコネクトが使用されてもよい。図3に示されるように、プロセッサ305、310、315及び320はいずれもルートスルー可能なプロセッサである。しかし、これは単なるプラットフォーム構成の一例にすぎない。プロセッサはルートスルー可能である必要はない。初期構成において、4つのプロセッサ305、310、315及び320のうちの1つのプロセッサがブートプロセッサであるよう選択されてよい。プロセッサ305、310、315及び320の夫々のDMIはマルチプレクサ(MUX)325の入力部に接続されてよい。モニタ330はMUX325と通信することができ、ブートプロセッサの状態をモニタするよう構成されてよい。コントローラ340はモニタ330、MUX325又はそれら両方と通信することができ、MUX325にモニタ330によってモニタされた状態に基づいて非ブートプロセッサをブートプロセッサであるよう指定させるよう構成されてよい。MUX325の出力部はPCH335と通信することができる。
幾つかの態様で、モニタ220、320は、タイマ、ウォッチドッグタイマ若しくはベースボード管理コントローラ、又は離散状態機械(discrete state machine)であってよい。例えば、ウォッチドッグタイマは、ブートプロセッサが、例えばハングアップ又はフリーズ等の何らかの不具合状態により、規則的なウォッチドッグの提供を行わない場合に、システムリセットをトリガするよう構成されるコンピュータハードウェアタイミング装置であってよい。ハングアップ又はフリーズは、ブートプロセッサ、コンピュータプログラム又はシステム全体がユーザ入力に応答しなくなる場合に起こる。ハードウェアは、一時的に止まっているために、又はコンピュータ内の他のハードウェアに不適合であるために、コンピュータをハングアップさせることがある。また、ハードウェアは、ごみ又は熱損傷のために、時間とともに欠陥を有するようになる。ウォッチドッグはMUX215、325若しくはコントローラ230、340又はそれら両方に直接に結合されてよい。
幾つかの態様で、モニタ220、330は、ベースボード管理コントローラ(BMC(baseboard management controller))であってよい。BMCは、コンピュータのマザーボードに組み込まれている特殊化したマイクロコントローラである。BMCは、インテリジェント・プラットフォーム管理インターフェース(IPMI(Intelligent Platform Management Interface))アーキテクチャにおけるインテリジェンスである。BMCは、システム管理ソフトウェアとプラットフォームハードウェアとの間のインターフェースを管理する。コンピュータシステム内に組み込まれている様々なタイプのセンサが、温度、冷却ファンの速度、電力モード、オペレーティングシステム(OS)のステータス等のパラメータについてBMCに報告する。BMCはセンサをモニタし、いずれかのパラメータが、システムの潜在的な故障を含む所定の限界範囲内にない場合に、警報をMUX215、325若しくはコントローラ230、340又はそれら両方に送ることができる。また、コンピュータのユーザは、ハングアップしたOSが再び実行されるようシステムのリセット又は再起動等の何らかの是正措置を行うために、BMCと通信することができる。BMCに対する物理的なインターフェースには、BMCがシステム内の他の管理コントローラからのIPMI要求メッセージを受け取ることを可能にするSMBusバス、RS−232シリアスコンソール、アドレス及びデータライン、並びにインテリジェント・プラットフォーム管理インターフェース(IPMI)が含まれてよい。
幾つかの態様で、モニタ220、330は、様々なシステム・インスタビリティ(不安定性)(instabilities)をモニタすることによって、システムが安定しているかどうかをモニタし決定するよう構成されてよい。例えば、システム・インスタビリティには、指定されるブートプロセッサが適切にブートすることができるか否かが含まれてよい。他のシステム・インスタビリティには、システムが特定の時間(例えば、分、日又は週単位で)安定なままであることができるかどうかが含まれてよい。かかる決定は様々な方法で行われてよい。例えば、システム・インスタビリティは、ハードウェア及び/又はソフトウェアで実施されるウォッチドッグタイマを用いる、あるいは、性能データのシステムレベルでのロギングにより管理されるシステムの観測によって、ユーザ/操作により手動で決定されてよい。他のパラメータには、システムの実行が所望の状態と比較して遅いとの決定、電気的な不安定性、ブートプロセッサに対する過度のメモリエラー、あるいは、1若しくはそれ以上のプロセッサに対するDMI又は他のローカルなプラットフォーム・インターフェースにおける多すぎるエラーが含まれてよい。
幾つかの態様で、ブートプロセッサ構成は、アーキテクチャごとに達成されてよい。プロセッサにおける入力の組合せ等の様々なストラップオプション(strapping options)は、リセットを解除する場合にプロセッサに自身を設定するよう指示を与えるために使用される所定の方法で設定する。ストラップオプションは、PLD、FPGA、手動スイッチによって、又はプラットフォームにおける他のロジックデバイスから制御されてよい。幾つかの態様で、ブートプロセッサは、アーキテクチャ特有の基準で無効にされてよい。
幾つかの態様で、MUXはいくつかの方法で構成されてよい。例えば、MUXは、PCH内蔵管理エンジン(Manageability Engine)、オンボードBMCによって、フロントパネル上のユーザインターフェースを通じて手動で、又はフィールドプログラマブルゲートアレイ(FPGA(field-programmable gate array))若しくはコンプレックスプログラマブルロジックデバイス(CPLD(complex programmable logic device))により、設定されてよい。
図4は、本開示の様々な態様に従うDPからDPへのスイッチングアーキテクチャのためのフローチャートの例を示す。処理はステップ405から始まる。ステップ405で、モニタ220、330は、プロセッサの動作状態における不安定性等の状態を検出するよう構成される。不安定性が検出されない場合は、処理はステップ405に戻り、不安定性が検出される場合は、処理はステップ410に移る。ステップ410で、プラットフォームは電源を切られ、MUXはDMIをソケット0からソケット1にリルートする。次いで、ソケット1にあるプロセッサがブートプロセッサであるよう構成される。ステップ415で、システムはDPモードでリブートされ、プラットフォームは、ソケット1でリルートされたプロセッサを用いてブートされる。
図5は、本開示の様々な態様に従うDPから単一プロセッサ(UP)へのスイッチングアーキテクチャのためのフローチャートの例を示す。処理はステップ505から始まる。ステップ505で、モニタ220、330は、プロセッサの動作状態における不安定性等の状態を検出するよう構成される。不安定性が検出されない場合は、処理はステップ505に戻り、不安定性が検出される場合は、処理はステップ510に移る。ステップ510で、プラットフォームは電源を切られ、MUXはDMIをソケット0からソケット1にリルートする。次いで、ソケット1にあるプロセッサがブートプロセッサ又はレガシー(legacy)プロセッサであるよう構成され、ソケット0にあるプロセッサが無効にされる。ステップ515で、システムはUPモードでリブートされ、プラットフォームは、ソケット1でリルートされたプロセッサを用いてブートされる。
上記の開示は、目下考えられている様々な有用な実施形態について論じられてきたが、かかる詳細は例示のために提示されるのであって、添付の特許請求の範囲は開示される実施形態に限定されない。しかし、見方を変えれば、本開示は、特許請求の範囲で定義される本発明の技術的範囲内にある変形例を包含するよう意図される。
105,110,205,210,305,310,315,320 プロセッサ
115,225,335 プラットフォーム・コントローラ・ハブ(PCH)
215,325 マルチプレクサ(MUX)
220,330 モニタ
230,340 コントローラ

Claims (20)

  1. 第1のプロセッサ・インスタビリティに関してモニタリングモジュールによってコンピュータの第1のプロセッサをモニタする段階と、
    モニタされた前記第1のプロセッサ・インスタビリティに基づいて、前記第1のプロセッサが安定しているかどうかを前記モニタリングモジュールによって決定する段階と、
    前記第1のプロセッサが安定していないと決定される場合にマルチプレクサモジュールにより前記コンピュータの第2のプロセッサにリルートする段階であって、前記第1のプロセッサの第1のデスクトップ管理インターフェース及び前記第2のプロセッサの第2のデスクトップ管理インターフェースは、前記マルチプレクサモジュールと通信し、前記第1のプロセッサ及び前記第2のプロセッサは、プロセッサ・インターコネクトによって通信し、前記コンピュータは前記マルチプレクサモジュールを含み、前記コンピュータは前記モニタリングモジュールと動作可能に関連付けられる、段階と、
    前記第2のプロセッサを用いて前記コンピュータを操作する段階と
    を有する方法。
  2. 前記第1のプロセッサ・インスタビリティは、前記コンピュータでのブート前又はブート後のインスタビリティを含む、請求項1に記載の方法。
  3. 前記モニタリングモジュールは、タイマ、ウォッチドッグタイマ又はベースボード管理コントローラ及び離散状態機械を有するグループから選択される、請求項1に記載の方法。
  4. 前記ブート前のインスタビリティは、電源又はタイミングメカニズムのインスタビリティを含む、請求項2に記載の方法。
  5. 前記ブート後のインスタビリティは、前記コンピュータが運転可能である期間、前記第1のプロセッサに係る所定数のメモリエラー、及びユーザ又はコンピュータ活動に対する所定レベルのコンピュータ応答を有するグループから選択されるインスタビリティ・パラメータを含む、請求項2に記載の方法。
  6. 前記第2のプロセッサにより前記コンピュータをブートする段階
    を更に有する、請求項1に記載の方法。
  7. 前記第1のプロセッサの前記第1のデスクトップ管理インターフェース及び前記第2のプロセッサの前記第2のデスクトップ管理インターフェースは、前記マルチプレクサモジュールによりプラットフォーム・コントローラ・ハブに接続されるよう配置される、請求項1に記載の方法。
  8. 前記コンピュータは、前記マルチプレクサモジュールと通信する第3のプロセッサ及び第4のプロセッサを有する、請求項1に記載の方法。
  9. 前記決定する段階は、前記マルチプレクサモジュールに前記第2のプロセッサにリルートすることを指示するように前記第1のプロセッサを配置する段階を有する、請求項1に記載の方法。
  10. 第1のプロセッサと、
    インターコネクトを介して前記第1のプロセッサと通信するよう構成される第2のプロセッサと、
    前記第1のプロセッサの第1のデスクトップ管理インターフェース及び前記第2のプロセッサの第2のデスクトップ管理インターフェースをプラットフォーム・コントローラ・ハブにマルチプレクスするよう構成されるマルチプレクサと
    を有する装置。
  11. 前記マルチプレクサからの状態をモニタするよう構成されるモニタ
    を更に有する、請求項10に記載の装置。
  12. モニタされた前記状態に基づいて、どのプロセッサがコンピュータをブートするために使用すべきブートプロセッサであるのかを選択するよう構成されるコントローラ
    を更に有する、請求項11に記載の装置。
  13. 前記インターコネクトは、ポイント・ツー・ポイントのプロセッサ・インターコネクトである、請求項10に記載の装置。
  14. 前記モニタは、タイマ、ウォッチドッグタイマ又はベースボード管理コントローラ及び離散状態機械を有するグループから選択される、請求項10に記載の装置。
  15. 前記状態は、コンピュータでのブート前又はブート後のインスタビリティを含む、請求項11に記載の装置。
  16. 前記ブート前のインスタビリティは、電源又はタイミングメカニズムのインスタビリティを含む、請求項15に記載の装置。
  17. 前記ブート後のインスタビリティは、前記コンピュータが運転可能である期間、前記第1のプロセッサに係る所定数のメモリエラー、及びユーザ又はコンピュータ活動に対する所定レベルのコンピュータ応答を有するグループから選択されるインスタビリティ・パラメータを含む、請求項15に記載の装置。
  18. ボードを有するコンピュータを有し、
    前記ボードは、
    第1のプロセッサと、
    インターコネクトを介して前記第1のプロセッサと通信するよう構成される第2のプロセッサと、
    プラットフォーム・コントローラ・ハブに接続されるように前記第1のプロセッサの第1のデスクトップ管理インターフェース及び前記第2のプロセッサの第2のデスクトップ管理インターフェースをマルチプレクスするよう構成されるマルチプレクサと
    を有する、装置。
  19. 前記マルチプレクサからの状態をモニタするよう構成されるモニタ
    を更に有する、請求項18に記載の装置。
  20. モニタされた前記状態に基づいて、どのプロセッサがコンピュータをブートするために使用すべきブートプロセッサであるのかを選択するよう構成されるコントローラ
    を更に有する、請求項19に記載の装置。
JP2010262354A 2009-12-22 2010-11-25 マルチプロセッサコンピュータシステムでのdmi冗長 Expired - Fee Related JP5296036B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/644,540 US8117494B2 (en) 2009-12-22 2009-12-22 DMI redundancy in multiple processor computer systems
US12/644,540 2009-12-22

Publications (2)

Publication Number Publication Date
JP2011134314A JP2011134314A (ja) 2011-07-07
JP5296036B2 true JP5296036B2 (ja) 2013-09-25

Family

ID=43770464

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010262354A Expired - Fee Related JP5296036B2 (ja) 2009-12-22 2010-11-25 マルチプロセッサコンピュータシステムでのdmi冗長

Country Status (6)

Country Link
US (3) US8117494B2 (ja)
EP (1) EP2348414A3 (ja)
JP (1) JP5296036B2 (ja)
CN (1) CN102110035B (ja)
TW (1) TWI526822B (ja)
WO (1) WO2011087594A2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201218075A (en) * 2010-10-20 2012-05-01 Hon Hai Prec Ind Co Ltd Dual processor startup system
CN102955136A (zh) * 2011-08-18 2013-03-06 鸿富锦精密工业(深圳)有限公司 冗余电源辅助检测电路及方法
JP5561622B2 (ja) 2011-09-27 2014-07-30 日本電気株式会社 多重化システム、データ通信カード、状態異常検出方法、及びプログラム
TW201321943A (zh) * 2011-11-17 2013-06-01 Hon Hai Prec Ind Co Ltd 風扇控制系統及方法
CN103164234A (zh) * 2011-12-13 2013-06-19 鸿富锦精密工业(深圳)有限公司 双处理器切换装置
TW201405303A (zh) * 2012-07-30 2014-02-01 Hon Hai Prec Ind Co Ltd 底板管理控制器監控系統及方法
WO2015042925A1 (zh) * 2013-09-29 2015-04-02 华为技术有限公司 服务器的控制方法和服务器的控制设备
US9811491B2 (en) 2015-04-07 2017-11-07 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Minimizing thermal impacts of local-access PCI devices
WO2018076351A1 (zh) * 2016-10-31 2018-05-03 华为技术有限公司 启动物理设备的方法和使能装置
CN109670319B (zh) * 2018-12-25 2022-04-15 广东浪潮大数据研究有限公司 一种服务器flash安全管理方法及其系统

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02130666A (ja) * 1988-11-11 1990-05-18 Pfu Ltd マルチプロセッサシステムのシステム再構成方式
NL9301093A (nl) * 1993-06-23 1995-01-16 Nederland Ptt Processorcircuit omvattende een eerste processor, een geheugen en een periferiecircuit, en systeem omvattende het processorcircuit en een tweede processor.
US5491788A (en) * 1993-09-10 1996-02-13 Compaq Computer Corp. Method of booting a multiprocessor computer where execution is transferring from a first processor to a second processor based on the first processor having had a critical error
WO1998059288A1 (en) * 1997-06-23 1998-12-30 Koninklijke Philips Electronics N.V. Slave dsp reboots stalled master cpu
US6687818B1 (en) * 1999-07-28 2004-02-03 Unisys Corporation Method and apparatus for initiating execution of an application processor in a clustered multiprocessor system
US20020178262A1 (en) * 2001-05-22 2002-11-28 David Bonnell System and method for dynamic load balancing
US7251723B2 (en) * 2001-06-19 2007-07-31 Intel Corporation Fault resilient booting for multiprocessor system using appliance server management
US20050066218A1 (en) * 2003-09-24 2005-03-24 Stachura Thomas L. Method and apparatus for alert failover
US7366948B2 (en) * 2004-10-25 2008-04-29 Hewlett-Packard Development Company, L.P. System and method for maintaining in a multi-processor system a spare processor that is in lockstep for use in recovering from loss of lockstep for another processor
US7376816B2 (en) 2004-11-12 2008-05-20 International Business Machines Corporation Method and systems for executing load instructions that achieve sequential load consistency
US7398528B2 (en) 2004-11-13 2008-07-08 Motorola, Inc. Method and system for efficient multiprocessor processing in a mobile wireless communication device
US8756605B2 (en) 2004-12-17 2014-06-17 Oracle America, Inc. Method and apparatus for scheduling multiple threads for execution in a shared microprocessor pipeline
US7965736B2 (en) * 2005-08-24 2011-06-21 Qualcomm Incorporated Transmission of multiplex protocol data units in physical layer packets
JP4701929B2 (ja) * 2005-09-02 2011-06-15 株式会社日立製作所 ブート構成変更方法、管理サーバ、及び計算機システム
JP4853620B2 (ja) * 2005-12-08 2012-01-11 日本電気株式会社 マルチプロセッサシステムと初期立ち上げ方法およびプログラム
JP2008276320A (ja) * 2007-04-25 2008-11-13 Nec Corp 仮想システム制御方法およびコンピュータシステム
KR20090092371A (ko) * 2008-02-27 2009-09-01 삼성전자주식회사 래치타입 메모리 셀들로 이루어진 공유 메모리 영역을 갖는멀티포트 반도체 메모리 장치 및 그를 채용한 멀티프로세서 시스템과 멀티포트 반도체 메모리 장치의구동방법
US7971098B2 (en) * 2008-03-24 2011-06-28 Globalfoundries Inc. Bootstrap device and methods thereof
US7836335B2 (en) * 2008-04-11 2010-11-16 International Business Machines Corporation Cost-reduced redundant service processor configuration
US8228946B2 (en) * 2009-07-29 2012-07-24 General Electric Company Method for fail-safe communication

Also Published As

Publication number Publication date
CN102110035A (zh) 2011-06-29
CN102110035B (zh) 2015-04-08
US20110154106A1 (en) 2011-06-23
WO2011087594A3 (en) 2011-10-27
US20120124416A1 (en) 2012-05-17
EP2348414A2 (en) 2011-07-27
TWI526822B (zh) 2016-03-21
US8117494B2 (en) 2012-02-14
WO2011087594A2 (en) 2011-07-21
TW201137601A (en) 2011-11-01
US20130318337A1 (en) 2013-11-28
US8943360B2 (en) 2015-01-27
JP2011134314A (ja) 2011-07-07
US8527808B2 (en) 2013-09-03
EP2348414A3 (en) 2013-01-16

Similar Documents

Publication Publication Date Title
JP5296036B2 (ja) マルチプロセッサコンピュータシステムでのdmi冗長
CN108139925B (zh) 虚拟机的高可用性
US10055296B2 (en) System and method for selective BIOS restoration
JP6515132B2 (ja) シャーシ管理システム及びシャーシ管理方法
TWI610167B (zh) 改善平台管理的計算裝置建置方法、保持電腦可執行指令之非暫存媒體及配置為提供強化管理資訊之計算裝置
TW202136996A (zh) 用於網路裝置之最佳啟動路徑之方法和系統
JP2008262538A (ja) 入出力(i/o)エラーをハンドリングするための方法及びシステム
JP2006201881A (ja) 情報処理装置およびシステムバス制御方法
US7318171B2 (en) Policy-based response to system errors occurring during OS runtime
US7434102B2 (en) High density compute center resilient booting
WO2014013499A1 (en) System and method for operating system agnostic hardware validation
TWI668567B (zh) 伺服器及自動檢修基板管理控制器的方法
US20180018127A1 (en) Obtaining state information of processes of a device
US10572435B2 (en) Techniques of accessing serial console of BMC using host serial port
US20200314172A1 (en) Server system and management method thereto
US11714696B2 (en) Custom baseboard management controller (BMC) firmware stack watchdog system and method
CN107291653B (zh) 一种多处理器系统及配置多处理器系统的方法
JP6303405B2 (ja) 情報処理装置、管理装置、監視装置、監視プログラム、及び管理装置の監視方法
JP6256087B2 (ja) ダンプシステムおよびダンプ処理方法
JP6424134B2 (ja) 計算機システム及び計算機システムの制御方法
JP7389877B2 (ja) ネットワークの最適なブートパスの方法及びシステム
TWI715005B (zh) 用於監控基板管理控制器之常駐程序的方法
US20240036882A1 (en) Unplanned reboot expedited recovery for network devices
WO2016122534A1 (en) Multiple computers on a reconfigurable circuit board
TW200521837A (en) Method for switching to boot multi-processor computer system

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121023

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130205

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130424

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130514

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130612

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees