JP5050028B2 - サーバ装置 - Google Patents

サーバ装置 Download PDF

Info

Publication number
JP5050028B2
JP5050028B2 JP2009237839A JP2009237839A JP5050028B2 JP 5050028 B2 JP5050028 B2 JP 5050028B2 JP 2009237839 A JP2009237839 A JP 2009237839A JP 2009237839 A JP2009237839 A JP 2009237839A JP 5050028 B2 JP5050028 B2 JP 5050028B2
Authority
JP
Japan
Prior art keywords
node
nodes
server
controller
smp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009237839A
Other languages
English (en)
Other versions
JP2010009628A (ja
Inventor
守秀 中谷
至誠 藤原
敏宏 石木
直人 作間
淳一 船津
健 吉田
朋永 糸井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2009237839A priority Critical patent/JP5050028B2/ja
Publication of JP2010009628A publication Critical patent/JP2010009628A/ja
Application granted granted Critical
Publication of JP5050028B2 publication Critical patent/JP5050028B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Multi Processors (AREA)

Description

本発明は、複数のスケールアウト型サーバモジュールを密結合することで高性能なスケールアップサーバの構築を可能とするサーバシステムに関する。特に対称型マルチプロセッサシステム(SMP)における、多ノードSMPサーバ装置に関する。
従来のサーバ装置における演算処理能力の拡張手段としては、「スケールアウト」、「スケールアップ」と呼ばれる大きく2つの方式に分類できる。スケールアウト方式とは、ブレードサーバシステムに代表されるように、複数のサーバ装置に処理を分散させることで全体の処理能力を向上する拡張手法のことであり、相互に関連の薄い処理が大量にある場合に有効である。スケールアップ方式とは、SMP(Symmetric Multi Processing:対称型マルチプロセッシング)システムに代表されるように、プロセッサの高速化と増設、メモリの大容量化などによってサーバ装置単体の処理能力を向上させる拡張手法であり、高負荷の単一プロセス処理に有効である。このようにブレードサーバシステムとSMPシステムはそれぞれ異なる特徴をもつことから、システム構築にあたっては、アプリケーション、業務内容に応じて適切な方式を選択するのが一般的である。実際にインターネットデータセンタ(IDC)ではWEBフロントエンド処理など比較的軽い処理を大量に実行するWEBサーバとしてスケールアウトに適したブレードサーバ装置が、大規模DBなどメモリを大量に必要とする処理を実行するデータベースサーバとしてはスケールアップに適したSMPサーバ装置というように使い分けられている。このことは一見すると適材適所で非常に効率的であるように思われるが、目的に合わせてそれぞれ専用のサーバ装置を設置することになるために管理が煩雑になり、運用コストの面では必ずしも効率の良い状態とは言い難い。また、めまぐるしく変化するビジネス環境の中にあって急激なシステム要件の変化に対する既知の解決策として、第一にハードウェアの増設が挙げられる。これは例えばスケールアウト型のブレードサーバではブレードサーバモジュールの増設、スケールアップ型のSMPサーバではプロセッサやメモリ等のハードウェアリソースの増設またはより高性能なハードウェアリソースへの増強ということになるが、これもTCOの削減を妨げる要因の1つと言える。
多ノードSMP構成では、メモリアドレスを送信し、キャッシュコヒーレンシを維持し、データをキャッシュラインの大きさのブロック単位で転送する必要がある。プロセッサには頻繁に使用されるデータ・ブロックを保管するキャッシュメモリがある。一般的なキャッシュ・ブロック・サイズは32、64、または128バイトであり、キャッシュラインと呼ばれる。プロセッサは、必要なデータがキャッシュにないと(キャッシュ・ミス)、他のプロセッサに必要なデータを要求する。要求したブロックの修正されたコピーが何処のプロセッサにもなく、また入出力コントローラにもないと、ブロックはメモリから取り出される。ブロックを変更する許可を得るためには、メモリからブロックを取り出したプロセッサが、ブロックの所有者になる必要がある。変更許可を得たプロセッサが所有者になると、他のすべてのデバイスは保持しているコピーを無効にし、前の所有者は変更許可を得たプロセッサが要求したデータを新所有者に渡す。前の所有者が変更許可を得たプロセッサが要求したデータを新所有者に渡した後は、他のプロセッサが所有プロセッサの要求したデータの読み取り専用コピーを共有しようとすると、データは所有デバイス(メモリではなく)から提供される。所有プロセッサは、新しいデータを書き込むためにキャッシュの空き領域が必要になると、キャッシュブロックをメモリに書き込み、メモリが再び所有者になる。キャッシュブロックの最新コピーを見つけるプロセスを「キャッシュコヒーレンシ」と呼ぶ。システム設計者は、主にブロードキャストコヒーレンシとディレクトリコヒーレンシの2つの方法を使って各プロセッサから見たメモリの一貫性を維持する。
ブロードキャストコヒーレンシでは、すべてのアドレスがすべてのノードに送信される。各デバイスは、要求されたキャッシュラインがローカル・キャッシュでどのような状態になっているかを調べる(スヌープする)。システムは、各デバイスが要求されたキャッシュラインがローカル・キャッシュでどのような状態になっているかを調べた数サイクル後に、全体的なスヌープ結果を判定しているため、ブロードキャストコヒーレンシでは、遅延が最小限に抑えられる。
ディレクトリコヒーレンシでは、プロセッサからのアクセス要求に対し、特定のキャッシュブロックのアドレスを管理しているノード(ホームノード)だけにアドレスが送信される。ハードウェアは、どのノードがどのキャッシュブロックを共有または所有しているかをメモリ内のディレクトリや特殊なRAMや制御装置を使って管理している。「ディレクトリ」がメモリ内に埋め込まれているので原理的にはコントローラは毎回メモリをアクセスしてディレクトリ情報をチェックする必要があるので、プロトコルが複雑になるため、遅延は長くなり、遅延の変動も大きくなる。
多ノードSMP構成を実現するために、キャッシュコヒーレンシ制御を多ノード間で制御する際には、クロスバスイッチを使用するのが一般的である。しかし、クロスバスイッチをトランザクションが通過しなければならないということは、クロスバスイッチが無い場合に比べ、トランザクションが通過しなければならない経路にデバイスが1つ増えるのでレイテンシが悪くなるという問題がある。要求系トランザクションと応答系トランザクションの往復経路でみると、クロスバスイッチを使用した場合と使用しない場合ではレイテンシにかなりの差が出ることとなる。
現在、クロスバスイッチを持たない多ノードSMP構成もあるが、ディレクトリコヒーレンシ方式のディレクトリベースのSMP構成が一般的でありコヒーレンシの遅延が長くなる分システム性能劣化の原因の一つとなっている。
また、バックプレーン上でノード間を直接相互接続する方法として、特許文献4に記載の例がある。これは、ノード間を直接相互接続する方法を示しているが、キャッシュコヒーレンシの維持形態や、トランザクションの処理方式については明記されていない。
特開2004−110791 特開2004−078930 特開2003−216595 特開2004−070954
本発明の目的は、ブレードサーバモジュール(ノードとも呼ぶ)としての機能に加え、複数のブレードサーバモジュール間を物理的にSMP結合することができるサーバ装置を提供することで、スケールアウトとスケールアップを同時に実現可能なマルチプロセッササーバ装置を実現することにある。
本発明の目的は、さらに、多ノードSMP構成においてレイテンシを小さくすることにある。また、装置の部品点数を削減し、コスト低下、障害率低下及びリソースの削減をすることにある。
本発明は、複数のサーバモジュールと装置全体を管理する管理ユニットからなるサーバ装置であって、各サーバモジュールは該サーバモジュールの動作モードを切り換えるモジュール管理部を備え、該モジュール管理部は前記管理ユニットから伝達される構成情報に従って各サーバモジュールが単独で動作するか又は他のサーバモジュールとSMP構成で協調して動作するかを切り換えることを特徴とする。
本発明は、さらに、複数のサーバモジュール(ノード)から成るSMP構成のサーバ装置において、前記複数のノードを搭載して各ノード間を相互に接続するバックプレーンを備え、各ノードは自ノードを含め全ノードとの間でトランザクションの送信と受信を行うノードコントローラを備え、該ノードコントローラがトランザクションの順序付けを行うことを特徴とする。
本発明は、さらに、バックプレーン上で各ノード間リンクを等長配線し、自ノード内でもバックプレーン上の各ノード間リンクと等長のループ配線をすることで同期をとることを特徴とする。
本発明は、さらに、複数のサーバモジュールと装置全体を管理する管理ユニットと該複数のサーバモジュールに対し共通の基準クロックを分配する基準クロック分配ユニットからなるサーバ装置であって、各サーバモジュールは自身の基準クロックを発生させる基準クロック発生回路と、該基準クロック発生回路から発生した自身の基準クロックと前記基準クロック分配ユニットから分配された共通の基準クロックとを切り換えていずれか一方の基準クロックを当該サーバモジュール内に分配するクロック分配器と、前記管理ユニットから伝達される構成情報に従って該サーバモジュール内に分配する基準クロックの切り換えを前記クロック分配器に指示するモジュール管理部とを備えることを特徴とする。
本発明は、さらに、複数のサーバモジュール、装置全体を管理する管理ユニット、及び前記複数のサーバモジュールと前記管理ユニットを搭載して相互に信号伝達を可能とするバックプレーンとからなるサーバ装置であって、各サーバモジュールは基準クロックを出力する基準クロック発生回路と、該基準クロック発生回路から出力された基準クロック信号を入力して自サーバモジュールの第2のクロック分配器に出力すると供に前記バックプレーンを経由して自サーバモジュール及び他のサーバモジュールの第2のクロック分配器に出力する第1のクロック分配器と、当該自サーバモジュールの第1のクロック分配器から出力された基準クロック信号と前記バックプレーンを経由して入力された自サーバモジュール及び他のサーバモジュールからの基準クロック信号の中からいずれか1つの基準クロック信号を選択して当該サーバモジュール内に分配する前記第2のクロック分配器と、前記管理ユニットから伝達される構成情報に従って該サーバモジュール内に分配する基準クロックの切り換えを前記第2のクロック分配器に指示するモジュール管理部とを備えることを特徴とする。
本発明によれば、従来のブレードサーバシステムのスケールアウト型の拡張性に加え、複数のブレードサーバモジュール間をSMP結合することによるスケールアップ型の拡張性を有するサーバ装置及びブレードサーバモジュールを提供することが可能となることから、システム導入後のビジネス要件の変化に応じて、これらアプリケーションを実行するサーバが柔軟にそのリソースを拡大または縮小し最適化することで、結果的に運用コスト低減、TCOの削減が可能となる。
また、本発明によれば、多ノード構成マルチプロセッサのサーバ装置におけるノード間リンク接続にクロスバスイッチを必要とせず、多ノードSMP構成において、レイテンシが小さくなりシステムの性能を向上することができる。また、クロスバスイッチを不要とすることで、部品点数の削減による障害率の低減、コスト低下、及びリソースの削減が実現できる。
本発明の一つの実施形態のシステム構成図である。 4ノードSMP構成の各ノード間リンクを示す図である。 4ノードSMP構成の各ノードの構成例である。 4ノードSMP構成の各ノードの他の構成例である。 4ノードSMP構成の各ノードの他の構成例である。 4ノードSMP構成の各ノード間リンクを示す図である。 4ノードSMP構成の各ノードの他の構成例である。 4ノードSMP構成におけるブロードキャストとコヒーレンシ応答を説明する図である。 トランザクションの追い越しの例を説明する図である。 待ち合わせ回路を使用したトランザクション応答の同期を説明する図である。 ノードコントローラの構成例である。 ノードコントローラの構成例である。 ノードコントローラの処理フロー図である。 図1の具体的な動作を説明するためのシステム構成図である。 本発明の他の実施形態のシステム構成図である。 一般的なブレードサーバシステムの構成図である。
以下、本発明の実施例について図面を用いて説明する。
図16は一般的なブレードサーバシステムの構成図である。少なくとも2台以上のブレードサーバモジュール110(#0〜#n)、サーバ装置全体を管理するサービスプロセッサユニット111、そしてこれらユニットを装着することでユニット間の信号伝達を実現するバックプレーン113により構成されている。ブレードサーバモジュール110には少なくとも1台以上のCPU22を搭載でき、このCPU22とメモリ23を制御するノードコントローラ20とI/O回路24、そしてブレードサーバモジュール110内部の電源制御、構成管理、環境監視などの機能を有するモジュール管理部25を備えることで、1台のサーバ装置としての機能を有している。また各ブレードサーバモジュール110内部には基準クロック発生器26とクロック分配器27からなる基準クロック分配回路121を備えており、ブレードサーバモジュール110内の同期動作する各LSIに基準クロックS21が分配されているが、前述のように1台のブレードサーバモジュール110は1台のサーバ装置として独立しており、このクロックは他のブレードサーバモジュール内の基準クロックとは同期している必要は無い。
図1は本発明に係るマルチプロセッササーバ装置の一実施例を示したものである。複数のブレードサーバモジュール10(#0〜#n)、サーバ装置全体を管理するサービスプロセッサユニット11、そしてこれらユニットを装着することでユニット間の信号伝達を実現するバックプレーン13により構成され、各ブレードサーバモジュール10内部のノードコントローラ20はSMP結合インタフェースS20を有しており、バックプレーン13を経由して多ノードSMP構成を実現する機能を有している。
図2は、本発明に係るクロスバスイッチを持たないブロードキャスト方式よる多ノードSMPサーバの構成例であり、本図では4ノードの場合を例にあげている。
ブロードキャストコヒーレンシでは、図8に示すようにすべてのアドレスがすべてのノードにブロードキャストされ、各ノードはコヒーレンシ応答をする。各ノードは、要求されたキャッシュラインがローカル・キャッシュでどのような状態になっているかを調べた数サイクル後に、全体的なスヌープ結果を判定してコヒーレンシ応答をする。
図9に示すように、アドレスのブロードキャストからコヒーレンシ応答までに要する時間は、アドレスをブロードキャストしたノードから近いノードと遠いノード、つまり、ノード間の配線が短いノードと長いノードがある場合にトランザクションの追い越しが発生してしまう。この、ノード間の配線の長さが違うことにより発生するトランザクションの追い越しを制御するために、一般的にはクロスバスイッチの実装をすることで回避するが、本手法では、クロスバスイッチを持たない為、トランザクションの順序づけをどの様にして行うかが問題となる。そこで、図2では、各ノード間リンクをバックプレーン201内で等長配線することで同サイクルとし、レイテンシを一定に保つことでノード間の同期をとるようにした。
また、図10に示すようにアドレスをブロードキャストしたノード自身へのコヒーレンシ応答は、ノード間の配線と通る必要が無いためノード渡りの時間が無く、トランザクション要求を出した他ノードからのコヒーレンシ応答よりもはやくなるために、トランザクションの追い越しが発生してしまう。この、ノード渡りの時間が無いことで発生してしまうトランザクションの追い越しを制御する為に、ノードコントローラ内に待ち合わせ回路を実装した。
図11はノードコントローラ1002の構成を示しており、図13に示すように、CPU1101から発行されたトランザクションはHOSTi/f1106によりシーケンサ1107に渡される(ステップ1301、1302)。次に、シーケンサ1107の制御により、トランザクションはタグ制御回路1104へ渡される。タグ制御回路1104がタグ情報1103を確認し(ステップ1306)、キャッシュ上でModifyまたは、Shared readの場合はシーケンサ1107へとかえり(ステップ1307、1303)、メモリi/f1109の制御により、メモリ1111にアクセスする(ステップ1304,1305)。ここで、キャッシュ上でModifyまたは、Shared readでなかった場合は、スヌープ問い合わせのために、コヒーレンシ送信部1105より、他ノードへとトランザクションを発行する(ステップ1308、1310)。この時、自ノードへのコヒーレンシ応答待ち合わせ回路1110へと送られる(ステップ1309)。
図12はノードコントローラ1201上に待ち合わせ回路1204を実装した例である。他ノードでのスヌープ処理が終わった後でかえってきたコヒーレンシ応答は、ノードコントローラ1201上のコヒーレンシ受信部1205で受ける。同期を取ることにより同タイミングでかえってきたコヒーレンシ応答と、待ち合わせ回路1204によるディレイでタイミングを合わせた自ノードへのコヒーレンシ応答のタイミングは全て一致する。コヒーレンシ受信部1105で受け取ったトランザクションは、シーケンサ1203に渡され、メモリi/f1109の制御によりメモリ1111にアクセスする。
図12に示す回路ように、サーバ起動時にCPUが起動前にファームウェア1206により、トランザクション要求先の各ノードからの応答時間と、自ノードでの待ち合わせ回路を経た応答時間に要した時間を一度計算する。この応答にかかった時間の計算から、ファームウェア1206により調整を行う。各ノード間の配線を等長にすることと、ノードコントローラ内に待ち合わせ回路(ループ配線)を実装することと、ファームウェア1206による応答時間の調整により、ノード間の同期をとっている。ノード間の同期をとることで、ブロードキャストされた該当アドレスに対するスヌープ結果の判定後の応答が一定となり、トランザクションの選択順序が必ず同じになることを保証している。尚、それぞれのノードを独立のサーバ増設の形としている場合は、図8に示すブロードキャストは生じない。
図3は多ノードSMPサーバの4ノード構成における各ノードの構成例を示している。ノード 301上では、複数のノードを結合して1つのSMPを構成するためのノード間結合インタフェース307を持たせている。さらに、ノードコントローラ 302上にノードリンクコントローラ 303を実装した。ノードコントローラ 302上にノードリンクコントローラインタフェース306を持たせ、各ノードのノードリンクコントローラインタフェース306によってノードコントローラ同士を1対1接続することで、SMP構成を実現している。ノードリンクコントローラインタフェース306はノードコントローラ内部のノードリンクコントローラ303と共にクロスバスイッチの役割を行う。ノードリンクコントローラ 303からノードリンクコントローラ 303への、ラッチ304をはさんだローカルループ配線をすることで、各ノードからの応答とのタイミングを合わせこみ、全ノード間の同期をとることで同サイクルとし、レイテンシを一定に保つことで、トランザクション応答のタイミングと一致させる機能を実現している。トランザクション応答のタイミングと一致させる機能の実現により、トランザクションの順序付けを保証している。
ノードコントローラ 302のトランザクション送信機能と受信機能は独立しておりノードコントローラ 302はトランザクションの送信と受信を並行して処理することが可能である。ノードリンクコントローラ 303は、コヒーレントトランザクションをすべてのノードへ同一の順序でブロードキャストする。ノードリンクコントローラインタフェース306を持ったノードコントローラ302は、各ノードから受け取ったコヒーレントトランザクションを同一の順序でノードコントローラ内部へ転送する。ノードリンクコントローラインタフェース306は、ブロードキャストトランザクションのノード間転送、コヒーレンシ応答トランザクションのノード間転送、1 to 1トランザクションのノード間転送の機能を持つ。ノードリンクを流れるトランザクションは、ECC(Error Correction Coding)によって保護される。
ブロードキャストトランザクションは要求系トランザクションと応答系トランザクションに分類される。ノードリンクコントローラインタフェース 306とノードリンクコントローラ303を持ったノードコントローラ 302内部は要求系トランザクションと応答系トランザクションに対して二重化されているが、ノードリンク上では要求系トランザクションと応答系トランザクションは区別なく転送される。また、1 to 1トランザクションはアドレストランザクションとデータトランザクションに分類される。1 to 1トランザクションはアドレストランザクションとデータトランザクションに対して二重化されているが、ノードリンク上ではアドレストランザクションと対応データトランザクションに含まれるデータが連続して転送される。
各ノードでリンクの転送に何サイクルかかったかを計算する計算回路をノードコントローラ内に持たせ、計算させることで、リンク間のずれを各ノードのファームウェアに通知し各ノード間のサイクル数の同期をファームウェアの補正で行う。等長配線に加え、リンク間のずれを一切無くしているので、ブロードキャストされた該当アドレスに対するスヌープが一定となることが保証され、トランザクション応答のタイミングと一致させる機能の実現がなされ、トランザクションの順序付けを保証している。ノード間の同期をとっていたとしても、ノードコントローラ内のキューの状態により応答のタイミングがずれてしまわないように、ファームウェアの制御により余裕のあるノードが応答に時間のかかるノードの処理を待つことでトランザクションの選択順序が必ず同じになることを保証している。
図4は4ノード構成における各ノードの他の構成例を示す。図2に示す各ノード間を等長配線したバックプレーン201と図4の404に示すように、ノードコントローラ402内部のローカルループ404の長さを図1に示すバックプレーン201内の各ノード間の等長配線と等長のループ配線を施すことで各ノードからのトランザクション応答とのタイミングをそろえる機能を実現することができるため、クロスバスイッチを不要とする「ブロードキャスト(スヌーピー)コヒーレンシ」方式のスヌープベースのSMP構成を実現できる。
図5は4ノード構成における各ノードのさらに他の構成例を示す。図2に示す各ノードリンク間を等長配線したバックプレーン201と図5に示すノードリンクインタフェースを使用することでも、クロスバスイッチを不要とする「ブロードキャスト(スヌーピー)コヒーレンシ」方式のスヌープベースのSMP構成を実現できる。図5に示すノードコントローラ502上には他ノードへのデータ転送トランザクションの送信機能を持つリンクポート(ノード数-1)個と他ノードへのデータ転送トランザクションの受信機能を持つリンクポート(ノード数-1)個のノード間結合インタフェース506に加え、トランザクション要求を出す自身のノードへのローカルループ用のデータ転送トランザクションの送信リンクポートとデータ転送トランザクションの受信リンクポートを持ったノードリンクコントローラインタフェース505を実装している。ノードコントローラ502のトランザクション送信機能と受信機能は独立しているため、ノードコントローラはトランザクションの送信と受信を並行して処理することが可能である。図4に示すように、ノードリンクコントローラインタフェース404を出たあとのノード上の経路405に、各ノードリンク間と等長の配線をすることでディレイの役割を持たせ、各ノードからのトランザクション応答とのタイミングをそろえる機能を実現している。
図6は4ノード構成における各ノードのさらに他の構成例を示す。図2に示すバックプレーン201内での各ノード間の等長配線に加え、図6に示すようにバックプレーン601内に各ノードへのループ配線606-609を各ノード間リンクの等長配線と同じ長さで配線することでトランザクション応答のタイミングをそろえている。この場合、ノード間結合インタフェース705は、図7に示すように、ノードコントローラ702内にデータ要求トランザクションの送信部と受信部のノードリンクポートをノード数用意するのみで、ノードコントローラ内でのラッチをはさんだループ配線、及び各ノード間と等長のループ配線を施す必要はない。
又、本発明は、多ノード構成マルチプロセッサのサーバ装置において、各ノードをサーバブレードとするブレードサーバであって、データ転送トランザクションの順序付けをノードコントローラ内部で行うことにより、外部にクロスバスイッチを必要としないノード間リンク接続方式を採っており、対象型マルチプロセッサ構成へのプロセッサ増設の形でも、独立のサーバの増設の形でも可能である。
図1において、ブレードサーバモジュール10間SMP結合をより高性能とするためにはサーバモジュール間で基準クロックが同期していることが不可欠であるため、全てのブレードサーバモジュール10に基準クロックを分配できる基準クロック分配ユニット14をバックプレーン13に装着し、分配された基準クロックをバックプレーン13内で等長配線し、各ブレードサーバモジュール10内部の基準クロック分配回路21内のクロック分配器27によって基準クロックを切り換えることで、全ブレードサーバモジュール10の基準クロックの同期化を実現可能としている。
図14を用いて前述のクロック切り換え動作について、代表的なシステム構成例を示し具体的に説明する。本システム構成例では4台のブレードサーバモジュール10(#0〜#3)がバックプレーン13に装着されており、#0、#1を協調した1台のSMPサーバとし、#2、#3を独立したブレードサーバとして使用する構成とする場合、まずユーザが管理ソフトウェアを介してサービスプロセッサユニット11に対し、このシステム構成情報を設定する。ここで設定された構成情報は、サービスプロセッサユニット11内にもつメモリ28に格納され、電源が遮断されても消去されないものとし、システム起動毎にサービスプロセッサユニット11から各ブレードサーバモジュール10内のモジュール管理部25に伝達される。各モジュール管理部25は基準クロック分配回路21に対し、サービスプロセッサユニット11から伝達された構成情報に応じて使用する基準クロックを切り換える指示をする。本図構成例では、ブレードサーバモジュール#0、#1の基準クロックを外部基準クロックに切り換えることで#0、#1の基準クロックを同期化しSMPサーバを構成しており、ブレードサーバモジュール#2、#3の基準クロックを内部基準クロックに切り換えることでそれぞれ独立したサーバとして稼動できる。各ブレードサーバモジュール10のクロック切り換えに関するシステム構成情報をサービスプロセッサユニット11内のメモリ28に持たせることによって、ブレードサーバモジュール10に障害が発生して保守交換される場合においても、構成情報を引き継ぐ一切の手順が不要となる効果がある。また、本図のようにシステム構成情報を一元管理するサービスプロセッサユニット11を二重化することによってシステム全体の信頼性向上を図ることも可能となる。
図15では図1、図14で説明した実施例とは異なる他の実施の形態について説明する。尚、図15ではクロック分配に関わる機能以外は図1、図14に示す実施の形態と同じであるため、図示及び説明を省略する。これまで説明した実施例では、図1、図14のように基準クロック分配ユニット14から各ブレードサーバモジュール10に対し基準クロックを分配していたが、図15の実施例ではこの基準クロック分配ユニットの機能をブレードサーバモジュール10内部に取り込んでいる。まず基準クロック発生器26の出力クロック信号が第1のクロック分配器30に入力され、このクロック分配器の出力は第2のクロック分配器29、及びバックプレーン13を経由して、自身を含み一緒にSMPサーバを構成し得る全てのブレードサーバモジュール10内部のクロック分配器29に等長配線にて接続されている。第2のクロック分配器29の出力はモジュール管理部25によって切り換えられる。例えば図15の構成において、ブレードサーバモジュール#0上の第2のクロック分配器29はクロック信号S22を選択し、ブレードサーバモジュール#1上の第2のクロック分配器29はクロック信号S23を選択し、ブレードサーバモジュール#2上の第2のクロック分配器29はクロック信号S24を選択し、ブレードサーバモジュール#3上の第2のクロック分配器29はクロック信号S25を選択したとする。こうすることによってブレードサーバモジュール#0と#1で1台のSMPサーバA1500を構成し、#2と#3で1台のSMPサーバB1501を構成することが可能である。このようにこの実施の形態によれば2台のSMPサーバの基準クロックは完全に独立していることから、ブレードサーバモジュール#0、#1の組と#2、#3の組で基準クロックの周波数が異なるブレードサーバモジュール、例えば異種あるいは次世代ブレードサーバモジュールにより構成されるSMPサーバの同一サーバシャーシ内混載が実現可能となる。
10 ブレードサーバモジュール
11 サービスプロセッサユニット
13 バックプレーン
14 基準クロック分配ユニット
20 ノードコントローラ
21 基準クロック分配回路
22 CPU
23 メモリ
24 I/O回路
25 モジュール管理部
26 基準クロック発生部
27 クロック分配器
28 サービスプロセッサユニット内メモリ
29 第2のクロック分配器
30 第1のクロック分配器
1500 SMPサーバA
1501 SMPサーバB
S20 SMP結合インタフェース
S21〜S25 基準クロック
201 バックプレーン
202〜205 ノード(ブレードサーバモジュール)
301 ノード(ブレードサーバモジュール)
302 ノードコントローラ
303 ノードリンクコントローラ
304 ラッチ
305 ノードコントローラ内のローカルループ配線
306 ノードリンクコントローラインタフェース
307 ノード間結合インタフェース
401 ノード(ブレードサーバモジュール)
402 ノードコントローラ
403 ノードリンクコントローラ
404 ノードコントローラ上のローカルループ配線
405 ノードリンクコントローラインタフェース
406 ノード間結合インタフェース
501 ノード(ブレードサーバモジュール)
502 ノードコントローラ
503 ノードリンクコントローラ
504 ノードリンクコントローラインタフェース
505 ノード上のローカルループ配線
506 ノード間結合インタフェース
601 ノードリンク間を等長配線したバックプレーン
602〜605 ノード(ブレードサーバモジュール)
606〜609 自ノードへのローカルループ配線
701 ノード(ブレードサーバモジュール)
702ノードコントローラ
703 ノードリンクコントローラ
704 ノードリンクコントローラインタフェース
705 ノード間結合インタフェース
801〜804 ノード(ブレードサーバモジュール)
1101 CPU
1102 ノードコントローラ
1103 タグ
1104 タグ制御回路
1105 コヒーレンシ送信部
1106 HOSTi/f
1107 シーケンサ
1108 コヒーレンシ受信部
1109 メモリi/f
1110 待ち合わせ回路
1111 メモリ
1201 ノードコントローラ
1202 コヒーレンシ送信部
1203 シーケンサ
1204 待ち合わせ回路
1205 コヒーレンシ受信部
1206 ファームウェア

Claims (6)

  1. 複数のサーバモジュール(以下ノードと呼ぶ)から成るSMP構成のサーバ装置において、
    各ノードは、前記各ノード間を相互にリンクで接続され、自ノードを含め全ノードとの間でスヌープの送信を行う送信部と自ノードを含め全ノードとの間でスヌープの受信を行う受信部とを有するノードコントローラと、前記自ノードの送信部から送信されたスヌープを受信し、所定時間のディレイ後に、前記受信したスヌープ前記自ノードの受信部へ送信する待ち合わせ回路とを備え、
    前記自ノードのノードコントローラは、自ノードを含め全ノードから受信したスヌープの受信の順序付けを行い、
    自ノードを含め全ノードから受信したスヌープの受信の順序付けが、全ノード間で同じに保証されることを特徴とするサーバ装置。
  2. 各ノードコントローラは、前記スヌープを他ノードのノードコントローラ及び自ノードのノードコントローラに転送する経路を有し、自ノード間を含め全ノード間の転送サイクル数を同一サイクル数とすることを特徴とする請求項1記載のサーバ装置。
  3. 各ノード内の自ノード間転送経路に転送サイクル数を調整する手段を有する請求項2記載のサーバ装置。
  4. 各ノードコントローラに他ノード間及び自ノード間での前記スヌープの応答時間を調整する手段を備えることを特徴とする請求項1記載のサーバ装置。
  5. 前記ノードコントローラは、前記待ち合わせ回路を含有することを特徴とする請求項1記載のサーバ装置。
  6. 前記待ち合わせ回路は、ラッチであることを特徴とする請求項5記載のサーバ装置。
JP2009237839A 2004-12-09 2009-10-15 サーバ装置 Expired - Fee Related JP5050028B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009237839A JP5050028B2 (ja) 2004-12-09 2009-10-15 サーバ装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2004356157 2004-12-09
JP2004356157 2004-12-09
JP2009237839A JP5050028B2 (ja) 2004-12-09 2009-10-15 サーバ装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2005130746A Division JP4484757B2 (ja) 2004-12-09 2005-04-28 情報処理装置

Publications (2)

Publication Number Publication Date
JP2010009628A JP2010009628A (ja) 2010-01-14
JP5050028B2 true JP5050028B2 (ja) 2012-10-17

Family

ID=36784404

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009237839A Expired - Fee Related JP5050028B2 (ja) 2004-12-09 2009-10-15 サーバ装置

Country Status (2)

Country Link
JP (1) JP5050028B2 (ja)
CN (2) CN1786936B (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5115075B2 (ja) * 2007-07-25 2013-01-09 富士通株式会社 転送装置、転送装置を有する情報処理装置及び制御方法
CN101119171B (zh) * 2007-09-14 2011-04-06 中兴通讯股份有限公司 一种先进电信计算机体系的时钟同步系统及方法
CN102195797B (zh) * 2010-03-05 2014-10-01 广达电脑股份有限公司 计算机管理方法
JP2012053504A (ja) 2010-08-31 2012-03-15 Hitachi Ltd ブレード型サーバ装置
JPWO2013105433A1 (ja) * 2012-01-13 2015-05-11 株式会社日立製作所 情報処理システム
WO2014073324A1 (ja) 2012-11-12 2014-05-15 インターナショナル・ビジネス・マシーンズ・コーポレーション 光回路スイッチ(ocs)による電気/光メモリリンクの確立
JP6030998B2 (ja) * 2013-06-05 2016-11-24 株式会社日立製作所 情報処理システム
CN106603355B (zh) * 2015-10-15 2019-10-18 华为技术有限公司 一种计算装置、节点设备和服务器

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0334496A3 (en) * 1988-03-16 1991-09-18 Crosfield Electronics Limited High data bandwidth synchronous interconnect bus structure protocol
JPH01251250A (ja) * 1988-03-31 1989-10-06 Mitsubishi Electric Corp 共有キャッシュメモリ
JPH0215357A (ja) * 1988-07-04 1990-01-19 Hitachi Ltd データ処理装置
JP2626698B2 (ja) * 1989-06-15 1997-07-02 株式会社 グラフィコ 放射型・パラレル・システムバス
JP2546048B2 (ja) * 1990-08-31 1996-10-23 富士通株式会社 クロック分配方式
JPH05341872A (ja) * 1992-06-05 1993-12-24 Mitsubishi Electric Corp データ処理装置
JPH06334369A (ja) * 1993-05-27 1994-12-02 Toshiba Corp バックパネルモジュールのクロック信号等長配線方式
JPH0997123A (ja) * 1995-09-28 1997-04-08 Toshiba Corp クロック信号分配装置
JPH09128095A (ja) * 1995-10-31 1997-05-16 Toshiba Corp クロック信号分配装置
JPH10269169A (ja) * 1997-03-27 1998-10-09 Toshiba Corp コンピュータシステムおよびバストランザクション制御方法
JPH11234318A (ja) * 1998-02-10 1999-08-27 Fujitsu Ltd クロック再生装置
JP2001256179A (ja) * 2000-03-14 2001-09-21 Sharp Corp プロセッサシステム
JP4397109B2 (ja) * 2000-08-14 2010-01-13 富士通株式会社 情報処理装置及びクロスバーボードユニット・バックパネル組立体の製造方法
JP3632635B2 (ja) * 2001-07-18 2005-03-23 日本電気株式会社 マルチスレッド実行方法及び並列プロセッサシステム
US20040022022A1 (en) * 2002-08-02 2004-02-05 Voge Brendan A. Modular system customized by system backplane
US7117388B2 (en) * 2003-04-28 2006-10-03 International Business Machines Corporation Dynamic, Non-invasive detection of hot-pluggable problem components and re-active re-allocation of system resources from problem components

Also Published As

Publication number Publication date
JP2010009628A (ja) 2010-01-14
CN101526935A (zh) 2009-09-09
CN1786936B (zh) 2010-12-01
CN1786936A (zh) 2006-06-14

Similar Documents

Publication Publication Date Title
JP4484757B2 (ja) 情報処理装置
JP5050028B2 (ja) サーバ装置
JP3644587B2 (ja) 共用介入サポートを有する不均等メモリ・アクセス(numa)・データ処理システム
US9261897B2 (en) Scalable, common reference-clocking architecture using a separate, single clock source for blade and rack servers
JP5833282B2 (ja) 多階層キャッシュコヒーレンシドメインシステムおよび多階層キャッシュコヒーレンシドメインシステムのローカルドメインにおけるShare−F状態の構成方法
KR100308323B1 (ko) 공유된 개입 지원을 가지는 비균등 메모리 액세스 데이터처리 시스템
JP5852294B2 (ja) マルチプロセサシステムおよびマルチプロセサシステムの構成方法
US6374331B1 (en) Distributed directory cache coherence multi-processor computer architecture
US20010013089A1 (en) Cache coherence unit for interconnecting multiprocessor nodes having pipelined snoopy protocol
JPH11134312A (ja) 分散共有メモリ多重プロセッサシステム
CN101635679B (zh) 路由表的动态更新
EP1701267B1 (en) Address snoop method and multi-processor system
US6950913B2 (en) Methods and apparatus for multiple cluster locking
CN108874687A (zh) 针对拼贴式末级高速缓存的非统一总线(nub)互连协议
EP0817064B1 (en) Methods and apparatus for a directory less memory access protocol in a distributed shared memory computer system
KR19990085485A (ko) 분산 공유 메모리 시스템에서 미세 통신과 대단위 통신의 병합을 위한 적응형 입도 방법
KR100319708B1 (ko) 방향 분리 이중 링 구조의 분산된 공유 메모리 다중프로세서 시스템
EP3938920A1 (en) Permutated ring network interconnected computing architecture
US6636948B2 (en) Method and system for a processor to gain assured ownership of an up-to-date copy of data
Litz et al. TCCluster: A Cluster Architecture Utilizing the Processor Host Interface as a Network Interconnect
US20020133656A1 (en) Method and apparatus for efficiently broadcasting transactions between an address repeater and a client
US20020133652A1 (en) Apparatus for avoiding starvation in hierarchical computer systems that prioritize transactions
Oh et al. Design and implementation of cc-numa card ii for sci-based pc clustering
JP2005509199A (ja) トランザクションを第1アドレスリピータと第2アドレスリピータとの間で効果的に同報通信するための方法および装置
Shing et al. A Novel Approach to the Design of Scalable Shared-Memory Multiprocessors

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091015

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120417

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120531

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120626

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120723

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150727

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees