JP2012173762A - マルチプロセッサシステム - Google Patents

マルチプロセッサシステム Download PDF

Info

Publication number
JP2012173762A
JP2012173762A JP2011031890A JP2011031890A JP2012173762A JP 2012173762 A JP2012173762 A JP 2012173762A JP 2011031890 A JP2011031890 A JP 2011031890A JP 2011031890 A JP2011031890 A JP 2011031890A JP 2012173762 A JP2012173762 A JP 2012173762A
Authority
JP
Japan
Prior art keywords
management table
main processor
board
privilege management
cpu
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011031890A
Other languages
English (en)
Inventor
Kenichi Ofuji
謙一 大藤
Sei Tomikawa
聖 冨川
Daiki Yashiro
大基 八代
Go Komiyama
剛 小宮山
Takayasu Ishibashi
孝泰 石橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2011031890A priority Critical patent/JP2012173762A/ja
Publication of JP2012173762A publication Critical patent/JP2012173762A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Abstract

【課題】メインプロセッサの故障が発生した場合でもシステムとしての稼働率の低下を防止し、ライフサイクルコストの上昇を抑えることのできるマルチプロセッサシステムを得る。
【解決手段】C0A動作監視手段306は、ボードの起動処理を行うメインプロセッサの状態を監視する。C0A動作監視手段306がメインプロセッサの非動作状態を検知した場合、C0A隔離手段307はメインプロセッサとなっているプロセッサを隔離すると共に、特権管理表更新手段303は特権管理表を更新する。C0B通知手段308は、更新された特権管理表に基づいて新たなプロセッサに対してメインプロセッサとなることを通知する。
【選択図】図5

Description

本発明は、1枚のボードに複数のプロセッサを搭載するマルチプロセッサシステムに関し、特に、その故障対策あるいはフェイルオーバーの構成に関する。
近年のコンピュータシステムでは単体のプロセッサの性能不足を補う手段として複数のプロセッサを組み込んだマルチプロセッサシステムを利用するケースが増えている。マルチプロセッサシステムにおいて、基板1枚に搭載されるプロセッサ数が増えると、基板の起動処理を担うプロセッサが故障することがあり、他のプロセッサが故障していなくても基板が使用できなくなるケースが発生する。このような事態に対処するため、例えば特許文献1に記載したようなマルチプロセッサシステムでは、故障した基板を探索して予備基板に切り替える手段を提供している。
特開2004−334698号公報
複数のプロセッサを搭載した基板を利用するマルチプロセッサシステムにおいて、各基板を制御するメインプロセッサが故障すると、他のプロセッサは正常であっても基板が起動できない等の弊害が生じる。その結果、基板として使用できずに交換が必要となるため、システムの稼働率が低下し、また予備基板との交換を含むメンテナンスの頻度が増えてライフサイクルコスト上昇の要因となっていた。
この発明は上記のような課題を解決するためになされたもので、メインプロセッサの故障が発生した場合でもシステムとしての稼働率の低下を防止し、ライフサイクルコストの上昇を抑えることのできるマルチプロセッサシステムを得ることを目的とする。
この発明に係るマルチプロセッサシステムは、1枚のボードに複数のプロセッサを搭載するマルチプロセッサシステムにおいて、複数のプロセッサのうち、ボードの起動処理を実行するメインプロセッサの状態を監視する状態監視手段と、メインプロセッサがボードの起動処理を実行できない場合、メインプロセッサが行う起動処理を複数のプロセッサにおける他のプロセッサに実行させるための起動指示手段とを備えたものである。
この発明のマルチプロセッサシステムは、メインプロセッサがボードの起動処理を実行できない場合、メインプロセッサが行う起動処理を複数のプロセッサにおける他のプロセッサに実行させるようにしたので、メインプロセッサの故障が発生した場合でもシステムとしての稼働率の低下を防止し、ライフサイクルコストの上昇を抑えることができる。
この発明の実施の形態1によるマルチプロセッサシステムの全体構成図である。 この発明の実施の形態1のマルチプロセッサシステムにおけるデータ処理ボードの構成図である。 この発明の実施の形態1のマルチプロセッサシステムにおけるCPU#0を示す構成図である。 この発明の実施の形態1のマルチプロセッサシステムにおけるCPU#1を示す構成図である。 この発明の実施の形態1のマルチプロセッサシステムにおけるFPGAを示す構成図である。 この発明の実施の形態1のマルチプロセッサシステムにおける特権管理表を示す説明図である。 この発明の実施の形態1のマルチプロセッサシステムにおけるPCI Expressスイッチを示す構成図である。 この発明の実施の形態1のマルチプロセッサシステムにおける共有入出力を示す構成図である。 この発明の実施の形態1のマルチプロセッサシステムにおける正常時の起動処理のシーケンスを示す説明図である。 この発明の実施の形態1のマルチプロセッサシステムにおけるメインプロセッサ故障時の起動処理のシーケンスを示す説明図である。 この発明の実施の形態1のマルチプロセッサシステムにおける特権譲渡処理のシーケンスを示す説明図である。
実施の形態1.
図1は、この発明の実施の形態1によるマルチプロセッサシステムを示す構成図である。
図1に示すシステムは、複数のデータ処理ボード1a,1b,1cとデータ供給ボード2とネットワーク3を備えている。データ処理ボード1a,1b,1cは、それぞれ複数のプロセッサを搭載したボードであり、例えばレーダ信号処理といったデータ処理をボード単位で行うものである。データ供給ボード2は、データ処理ボード1a,1b,1cにデータを供給するためのボードであり、ネットワーク3は、データ供給ボード2とデータ処理ボード1a,1b,1cとを接続するLAN等のネットワークである。
図2は、データ処理ボード1a,1b,1cの内部構成を示すものである。図1に示すそれぞれのデータ処理ボード1a,1b,1cの構成は同様であるため、図2ではデータ処理ボード1として説明する。
データ処理ボード1は、CPU#0(100)、CPU#1(200)、FPGA(Field-Programmable Gate Array)300、PCI Expressスイッチ400、LANコントローラ#0(500)、LANコントローラ#1(600)、共有入出力700を備えている。
CPU#0(100)は、図3に示すように、コアA(C0A)101、コアB(C0B)102、FPGA通知手段103を備えたデュアルコアのCPUである。ここで、C0A101は、CPU#0(100)において、データ処理ボード1の起動処理を行うメインプロセッサとしてのCPUコアである。また、FPGA通知手段103は、C0A101またはC0B102が正常に稼働していることをFPGA300に通知するための手段である。
CPU#1(200)は、CPU#0(100)と基本的な機能は同様であり、図4に示すように、コアA(C1A)201、コアB(C1B)202を備えたデュアルコアのCPUである。即ち、データ処理ボード1には四つのCPUコアが搭載されているものである。
FPGA300は、データ処理ボード1の起動処理を実行するメインプロセッサであるC0A101の状態を監視する状態監視手段と、C0A101がデータ処理ボード1の起動処理を実行できない場合、C0A101が行う起動処理を他のプロセッサに実行させるための起動指示手段の機能を実現する機能部であり、図5に示すように、特権管理表生成手段301、特権管理表記憶手段302、特権管理表更新手段303、CPU#0インタフェース(I/F)304、CPU#0信号処理補助手段305、C0A動作監視手段306,C0A隔離手段307、C0B通知手段308、CPU#1インタフェース(I/F)309、CPU#1信号処理補助手段310を備えている。ここで、C0A動作監視手段306が状態監視手段を構成し、C0A隔離手段307とC0B通知手段308とで起動指示手段を構成している。
特権管理表生成手段301は、複数のプロセッサ(C0A101〜C1B202)のうち、データ処理ボード1の起動処理を行うメインプロセッサを示す特権管理表を生成する手段であり、特権管理表記憶手段302は、特権管理表生成手段301で生成された特権管理表を記憶する手段である。また、特権管理表更新手段303は、C0A動作監視手段306でC0A101がデータ処理ボード1の起動処理を実行できないことを検知した場合またはC0A101からの指示により特権管理表を更新する手段である。特権管理表は、図6に示すように、データ処理ボード1におけるC0A101〜C1B202のボード起動の優先順位のパターンを示すものである。図6において、0〜3が優先順位を示しており、0が最も高い優先順位である。
CPU#0インタフェース304は、FPGA300におけるCPU#0(100)とのインタフェースであり、CPU#0信号処理補助手段305〜C0B通知手段308が接続されている。CPU#0信号処理補助手段305は、FPGA300において、CPU#0(100)の信号処理に関する処理を行う手段である。C0A動作監視手段306は、CPU#0(100)におけるコアA101の動作状態の監視を行う手段であり、例えば、一定時間毎にC0A101の生存確認を行う、といった手段を用いて監視を行う。C0A隔離手段307は、C0A動作監視手段306において、コアA101の動作状態を確認できない場合、コアA101を隔離処理する手段である。C0B通知手段308は、C0A隔離手段307でコアA101が隔離された場合、コアB102に対してメインプロセッサであることを通知する手段である。また、CPU#1インタフェース309は、CPU#1(200)とのインタフェースであり、CPU#1信号処理補助手段310は、FPGA300においてCPU#1(00)の信号処理に関する処理を行う手段である。
図2に戻り、PCI Expressスイッチ(以下、スイッチという)400は、CPU#0(100)とCPU#1(200)との共有入出力700へのスイッチングを行う手段であり、図7に示すように、CPU#0が接続されるアップストリームポート(UpStream Port)401、CPU#1が接続される非透過ポート(Non-Transparent Port)402、共有入出力700が接続されるダウンストリームポート(DownStream Port)403を備えている。
LANコントローラ#0(500)及びLANコントローラ#1(600)は、それぞれCPU#0(100)及びCPU#1(200)とネットワーク3とのネットワーク制御を行うための制御部である。
共有入出力700は、CPU#0(100)とCPU#1(200)とが共有する入出力手段であり、図8に示すように、スイッチ400に接続されるPCI Expressブリッジ701、USB(Universal Serial Bus)が接続されるUSBコントローラ702、VMEバスが接続されるVMEバスブリッジ703、PMC(PCIメザニンカード)704、PCI Expressブリッジ701とUSBコントローラ702〜PMC704とを接続するPCIバス705を備えている。
次に、実施の形態1のマルチプロセッサシステムの動作について説明する。
図9は、正常時の起動処理のシーケンスを示す説明図である。
データ処理ボード1に電源が投入されると、4つのコア(C0A101〜C1B202)は各々起動処理を実行し(ステップST900、ST901)、FPGA300は特権管理表に初期値を設定する(ステップST902)。即ち、FPGA300における特権管理表更新手段303は、特権管理表記憶手段302に記憶されている特権管理表に初期値を設定する。初期値のメインプロセッサはC0A101であり、C0A動作監視手段306によってC0A101の生存状態が確認される。その後、C1A201とC1B202はスイッチ400のアクセスがCPU#0(100)側から許可されるまで待機し(ステップST903〜ST904)、C0A101がスイッチ400を設定してCPU#1(200)側からのアクセスを許可する(ステップST905)。続いて、C1A201とC1B202は共有入出力700の初期設定完了を待ち、C0A101がこれを設定する(ステップST906〜ST908)。以降は、C0A101〜C1B202が、それぞれスイッチ400を介して共有入出力700とのデータ入出力を行うと共に、LANコントローラ#0(500)及びLANコントローラ#1(600)を介してデータ処理ボード1外部とのデータ入出力を行う。
次に、メインプロセッサが故障した場合の動作について説明する。
図10は、この場合の起動処理のシーケンスを示す説明図である。
通常はC0A101がボード全体を制御するが、ステップST1000,ST1001の起動処理完了後、何らかの原因で故障する等で起動できない場合(ステップST1002)は、FPGA300からの動作監視に応答しなくなり(ステップST1005〜ST1006)、FPGA300のC0A動作監視手段306がC0A101の故障を検出する。尚、C1A201とC1B202は待機状態のままである(ステップST1003〜ST1004)。C0A101の故障を検出したFPGA300では、C0A隔離手段307がC0A101を隔離する(ステップST1007)と共に、特権管理表更新手段303は特権管理表を更新し(ステップST1008)、C0B通知手段308は、共有入出力700を初期設定する権限をC0B102に移した上で、C0B102に起動処理の実行を指示する(ステップST1009)。以下、スイッチ400を設定してCPU#1(200)から共有入出力700へのアクセスを許可する処理(ステップST1010)と、共有入出力700の初期設定(ステップST1011〜ST1013)は、C0B102が行う。この状態でC0A101を除く三つのCPU(C0B102,C1A201,C1B202)はFPGA300を利用することができ、また、共有入出力700を含むボード上のリソースも通常通り利用できる。
次に図11を用いて、C0A101が故障せずに他のCPU(例えばC0B102)に特権を譲渡する動作を説明する。ここで、ステップST1100〜ステップST1102の処理は図9におけるステップST900〜ステップST902と同様である。
起動処理を終えたC0A101は、FPGA300の特権管理表を更新した後、C0B102に起動を指示して特権をC0B102に譲渡する(ステップST1103〜ST1105)。尚、C0A101による特権管理表の更新は、CPU#0信号処理補助手段305を介して特権管理表更新手段303に更新指示を行うことによって実行される。その後の処理は、C1A201とC1B202の待機状態(ステップST1106〜ST1107)の後、C0B102がスイッチ400を設定してCPU#1(200)から共有入出力700へのアクセスを許可する処理(ステップST1108)と、共有入出力700の初期設定(ステップST1109〜ST1111)はC0B102が行う。ここで、図10に示したC0A101が故障したケースとでは、4つのCPU(C0A101〜C1B202)全てがFPGA300や共有入出力700を利用することができる点が異なる。
尚、上記実施の形態1では、メインプロセッサをC0A101としたが、これに限定されるものではなく、どのプロセッサが起動処理を行う場合であっても同様に適用可能である。
このように実施の形態1では、基板上に予め搭載されている他のプロセッサを利用してメインプロセッサの処理を代行させることで、基板の延命策を提供することができる。実施の形態1では、故障単位がCPU(コア)であるため、基板上のCPUが単独で故障した状況にも対応できる。また、メインプロセッサの処理を代行可能な他のプロセッサを基板内で確保できるので、外部に予備基板を用意する必要がない。または、予備基板への交換頻度を小さくでき、基板のライフサイクルコストを低減することができる。特許文献1に記載されているような従来のシステムでは故障基板を探索して予備基板に切り替える手段として故障計算機探索プロセスを基板外部に設けているが、実施の形態1では基板内でメインプロセッサから他のプロセッサへの切替えが行われるため、基板の外部に故障基板を監視するための機構を設ける必要がない。また、従来のシステムではディスク故障を課題としているが、実施の形態1ではディスクレスのシステムにも適用可能である。
以上説明したように、実施の形態1のマルチプロセッサシステムによれば、1枚のボードに複数のプロセッサを搭載するマルチプロセッサシステムにおいて、複数のプロセッサのうち、ボードの起動処理を実行するメインプロセッサの状態を監視する状態監視手段と、メインプロセッサがボードの起動処理を実行できない場合、メインプロセッサが行う起動処理を複数のプロセッサにおける他のプロセッサに実行させるための起動指示手段とを備えたので、メインプロセッサの故障が発生した場合でもシステムとしての稼働率の低下を防止することができ、ライフサイクルコストの上昇を抑えることができる。
また、実施の形態1のマルチプロセッサシステムによれば、複数のプロセッサのうち、メインプロセッサを示す特権管理表を生成する特権管理表生成手段と、特権管理表におけるメインプロセッサの更新を行う特権管理表更新手段とを備え、特権管理表更新手段は、状態管理手段でメインプロセッサがボードの起動処理を実行できないことを検知した場合またはメインプロセッサからの指示により特権管理表を更新すると共に、起動指示手段は更新された特権管理表に基づいて他のプロセッサへの起動指示を行うようにしたので、メインプロセッサの管理を容易に行うことができる。
尚、本願発明はその発明の範囲内において、実施の形態の任意の構成要素の変形、もしくは実施の形態の任意の構成要素の省略が可能である。
1,1a,1b,1c データ処理ボード、100 CPU#0、101 C0A、102 C0B、103 FPGA通知手段、200 CPU#1、201 C1A、202 C1B、300 FPGA、301 特権管理表生成手段、302 特権管理表記憶手段、303 特権管理表更新手段、304 CPU#0インタフェース、305 CPU#0信号処理補助手段、306 C0A動作監視手段、307 C0A隔離手段、308 C0B通知手段、309 CPU#1インタフェース、310 CPU#1信号処理補助手段、400 PCI Expressスイッチ、500 LANコントローラ#0、600 LANコントローラ#1、700 共有入出力。

Claims (2)

  1. 1枚のボードに複数のプロセッサを搭載するマルチプロセッサシステムにおいて、
    前記複数のプロセッサのうち、前記ボードの起動処理を実行するメインプロセッサの状態を監視する状態監視手段と、
    前記メインプロセッサが前記ボードの起動処理を実行できない場合、当該メインプロセッサが行う起動処理を前記複数のプロセッサにおける他のプロセッサに実行させるための起動指示手段とを備えることを特徴とするマルチプロセッサシステム。
  2. 複数のプロセッサのうち、メインプロセッサを示す特権管理表を生成する特権管理表生成手段と、
    前記特権管理表におけるメインプロセッサの更新を行う特権管理表更新手段とを備え、
    前記特権管理表更新手段は、状態管理手段で前記メインプロセッサが前記ボードの起動処理を実行できないことを検知した場合または前記メインプロセッサからの指示により前記特権管理表を更新すると共に、起動指示手段は前記更新された特権管理表に基づいて他のプロセッサへの起動指示を行うことを特徴とする請求項1記載のマルチプロセッサシステム。
JP2011031890A 2011-02-17 2011-02-17 マルチプロセッサシステム Pending JP2012173762A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011031890A JP2012173762A (ja) 2011-02-17 2011-02-17 マルチプロセッサシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011031890A JP2012173762A (ja) 2011-02-17 2011-02-17 マルチプロセッサシステム

Publications (1)

Publication Number Publication Date
JP2012173762A true JP2012173762A (ja) 2012-09-10

Family

ID=46976651

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011031890A Pending JP2012173762A (ja) 2011-02-17 2011-02-17 マルチプロセッサシステム

Country Status (1)

Country Link
JP (1) JP2012173762A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015090501A (ja) * 2013-11-05 2015-05-11 三菱電機株式会社 二重系制御装置
JP7341476B2 (ja) 2019-12-20 2023-09-11 株式会社川本製作所 給水装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61253551A (ja) * 1985-05-07 1986-11-11 Toshiba Corp マルチプロセツサシステムの立ち上げ方式
JPH02132529A (ja) * 1988-11-14 1990-05-22 Hitachi Ltd 自動監視切替制御装置
JPH04181438A (ja) * 1990-11-16 1992-06-29 Fujitsu Ltd マルチプロセッサ制御方式
JPH08161279A (ja) * 1994-12-08 1996-06-21 Nec Corp マルチプロセッサシステム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61253551A (ja) * 1985-05-07 1986-11-11 Toshiba Corp マルチプロセツサシステムの立ち上げ方式
JPH02132529A (ja) * 1988-11-14 1990-05-22 Hitachi Ltd 自動監視切替制御装置
JPH04181438A (ja) * 1990-11-16 1992-06-29 Fujitsu Ltd マルチプロセッサ制御方式
JPH08161279A (ja) * 1994-12-08 1996-06-21 Nec Corp マルチプロセッサシステム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015090501A (ja) * 2013-11-05 2015-05-11 三菱電機株式会社 二重系制御装置
JP7341476B2 (ja) 2019-12-20 2023-09-11 株式会社川本製作所 給水装置

Similar Documents

Publication Publication Date Title
US7251746B2 (en) Autonomous fail-over to hot-spare processor using SMI
US9195553B2 (en) Redundant system control method
JP2008217225A (ja) ブレードサーバシステム
CN110874261B (zh) 可用性系统、方法和存储有程序的存储介质
EP2360614B1 (en) Information processing device and hardware setting method for said information processing device
WO2007088575A1 (ja) システム監視装置の制御方法、プログラム及びコンピュータシステム
WO2017179537A1 (ja) ソフトウェア更新制御装置、ソフトウェア更新制御システム、ソフトウェア更新制御方法、及び、ソフトウェア更新制御プログラムが格納された記録媒体
JP6130520B2 (ja) 多重系システムおよび多重系システム管理方法
US20120159241A1 (en) Information processing system
JP4655718B2 (ja) コンピュータシステム及びその制御方法
JP2012173762A (ja) マルチプロセッサシステム
JP5508354B2 (ja) モジュール、周波数制御方法、及び周波数制御プログラム
JP2011141675A (ja) 計算機及び計算機管理方法並びに計算機管理プログラム
JP5626884B2 (ja) 電力供給管理システム及び電力供給管理方法
JP5278471B2 (ja) クラスタシステム
JP2009237758A (ja) サーバシステム、サーバ管理方法、およびそのプログラム
WO2010023756A1 (ja) 仮想プロセッサを含む情報処理装置、情報処理方法、およびプログラム
JP5733384B2 (ja) 情報処理装置
JP5636695B2 (ja) フォールトトレラントシステム及び仮想マシン構築方法
JP2017041110A (ja) マルチコンピュータシステム,管理装置および管理プログラム
US20120278565A1 (en) Processing device, controlling unit, and method for processing
JP2018147510A (ja) サーバ装置およびサーバシステム
KR101564144B1 (ko) 펌웨어 관리 장치 및 방법
JP2012108853A (ja) ディジタルシグナルプロセッサを起動するシステム、装置および方法
JP2010244129A (ja) 計算機システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140107

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140916

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140924

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141121

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20141209