JP3735057B2 - マルチノードシステム - Google Patents

マルチノードシステム Download PDF

Info

Publication number
JP3735057B2
JP3735057B2 JP2001319211A JP2001319211A JP3735057B2 JP 3735057 B2 JP3735057 B2 JP 3735057B2 JP 2001319211 A JP2001319211 A JP 2001319211A JP 2001319211 A JP2001319211 A JP 2001319211A JP 3735057 B2 JP3735057 B2 JP 3735057B2
Authority
JP
Japan
Prior art keywords
node
transaction
port
nodes
control register
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001319211A
Other languages
English (en)
Other versions
JP2003122729A (ja
Inventor
民夫 島谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2001319211A priority Critical patent/JP3735057B2/ja
Publication of JP2003122729A publication Critical patent/JP2003122729A/ja
Application granted granted Critical
Publication of JP3735057B2 publication Critical patent/JP3735057B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Multi Processors (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、マルチノードシステムに係り、特にノードをいくつのグループに分割して一つのシステムとして動作させるマルチ分割に用いて、経済性、拡張性の点で好適なマルチノードシステムに関する。
【0002】
【従来の技術】
従来、複数のノードを結合して構成されているマルチノードシステムでは、ノードをシステム構築者の意図により、いくつのグループに分割して、同一のグループに属するノードで一つのシステムとして動作させる技術が知られている。このようなシステム技術は、「マルチ分割」あるいは「マルチドメイン」などと呼称されている。
【0003】
分割されたシステムは、それぞれのグループが一つのOSにより動作して、同じグループに属するノード間でのみトランザクションをやり取りして、異なったグループに属するノード間では、トランザクションのやり取りはおこなわない。
【0004】
以下、図5および図6を用いて従来技術に係るマルチノードシステムを説明する。
図5は、従来技術に係るマルチノードシステムのシステム構成図である(その一)。
図6は、従来技術に係るマルチノードシステムのシステム構成図である(その二)。
【0005】
従来技術に係るマルチノードシステムでは、図5に示すように、複数のノード210が一つのノード結合装置300によって接続されている。
【0006】
そして、各ノード210からのトランザクションは、前記ノード結合装置300内にあるアービタ330で調停された後、クロスバースイッチ340であて先のノードへルーティングされる。マルチ分割の制御をおこなう際には、ノード210の起動前に、スーパバイザプロセッサ350から、ノードコントローラ250内の分割制御レジスタ251の設定が必要である。
【0007】
分割制御レジスタには、ノードがどのグループに属するかを示す分割情報として、ノードIDとグループIDの対を持っている。
【0008】
そして、ノード内のノードコントローラ250は、トランザクションを自分の属するグループのノードに送るように制御する。例えば、図5の例では、ノードN1は、グループG1に属するので、トランザクションをノードN2に送るように制御する。
【0009】
また、分割制御レジスタは、図6に示すように、アービタ330の中に置かれることもある。このときには、アービタ330がトランザクションの発信元のノードを認識して、同一のグループIDを持つノードにトランザクションを送信するようにクロスバースイッチ340を制御する。
【0010】
【発明が解決しようとする課題】
上記従来技術のマルチノードシステムでは、ノード210内の分割制御レジスタ251(または、アービタ330内の分割制御レジスタ331)で想定している最大分割数はノード結合装置300に接続できるノード210の最大数に等しい。これは、言いかえると分割制御レジスタ251(または、分割制御レジスタ331)がノード結合装置300に接続できるノード210の最大数に依存した構成になっているということで、上記マルチノードシステムは、拡張性を持たないマルチノードシステムということができる。このようなシステム構成は、将来拡張する予定がなく、最初からフル構成でノードを搭載して、それを分割運転するという場合であれば問題はない。
【0011】
しかしながら、一般的には、最初は小規模システムで少ないノード数によるマルチ分割運転をおこない、途中で必要に応じて段階的にシステム規模を増やしていく場合も多い。このような場合には、ノード数が少ないときでも、最大のノード数を設置できるようなノード結合装置330を用意しなければならない。したがって、上記従来技術のシステムでは、ノードをフル搭載していない場合には、コスト、設置面積の面で不利であるという問題点がある。
【0012】
また、ノードをフル搭載している場合には、それ以上拡張できないという問題点もある。
【0013】
さらに、図5に示した構成では、各ノードが分割制御レジスタ251を有していて、マルチ分割機能が組み込まれたノードでなければ使用することができない。
【0014】
本発明は、上記問題点を解決するためになされたもので、その目的は、既存のマルチ分割機能を持たないノードを搭載することができ、設置しているノードが少ない場合であっても、効率の良いノード結合がおこなうことができ、さらに、拡張性に富むマルチノードシステムを提供することにある。
【0015】
【課題を解決するための手段】
上記目的を達成するために、本発明のマルチノードシステムの構成では、ノード結合装置をノード毎に用意して、各ノードを相互接続して、拡張性のあるマルチノードシステム構成を実現する。また、マルチ分割制御を、各ノードがもつ分割制御レジスタを使用せずに、各ノード結合装置にある分割制御レジスタのみで制御できるような機能をノード結合装置に持たせることにより、この拡張性のあるマルチノードシステム構成において、マルチ分割機能を実現する。
【0016】
【発明の実施の形態】
以下、本発明に係る一実施形態を、図1を用いて説明する。
図1は、本発明のマルチノードシステムの構成図である。
【0017】
本システムは、複数のノード10とノード結合装置100の組とスーパバイザプロセッサ150から構成されている。
【0018】
ノード10は、既存のマルチ分割機能を持たないノードを使用できる。すなわち、ノード10側でどのようにシステムが分割されているかを意識することはない。
【0019】
ノード10は、CPU20、メモリ30、I/O装置40、ノードコントローラ50から構成されている。
【0020】
ノードコントローラ50は、ノード内のCPU20、メモリ30、I/O装置40と接続されていて、ノード結合装置100内のトランザクションコントローラ110にも相互接続されている。
【0021】
ノードコントローラ50は、トランザクションコントローラ110経由で、他ノードからのトランザクションを受付け、トランザクションの種類を判定し、受付けたトランザクションが自ノードのメモリへのアクセス要求トランザクションであるならば、メモリ30にアクセス要求を送出し、受付けたトランザクションが自ノードのI/O装置40へのアクセス要求トランザクションであるならば、I/O装置40へアクセス要求を送出する。
【0022】
また、自ノードのCPU20の要求により、他ノードへトランザクションを送出する動作をする。
【0023】
ノード結合装置100内は、結合ポート120〜122とトランザクションコントローラ110で構成されている。
【0024】
結合ポート121は、自ノードと接続されていて、結合ポート120,122は、他ノード10のノード結合装置100と接続されている。この接続の形態は、いわゆる一次元のメッシュ接続であり、互いに隣り合うノードに対してトランザクションを送信するような接続である。
【0025】
ノード結合装置100内のトランザクションコントローラ110は、各ポート毎に分割情報を設定するための分割制御レジスタ111を有している。
【0026】
分割情報については、後に具体例を交えて詳細に説明する。
【0027】
スーパバイザプロセッサ150は、マルチノードシステムのノード全体の管理・設定をおこなう装置であるが、本発明に関連する機能としては、システムブート時に、分割制御レジスタに分割情報を設定することがある。
【0028】
ノード結合装置100内のトランザクションコントローラ110は、結合ポート120〜122経由で受付けた自ノード10あるいはノード結合装置100経由で接続されている他ノード10からのトランザクションを、分割制御レジスタ111の設定にしたがって、その送信元のポートから適切な送信先を割り出して、送信先のノードに接続されている結合ポート120〜122に送り出す。
【0029】
なお、図1の例では、ノード10がマルチ分割機能を持たないものとして、説明したが、ノード10内に分割制御レジスタが存在するノードでも、接続が可能である。その場合には、ノード10を起動する前に、スーパバイザプロセッサ150から、ノード10内の分割制御レジスタにアクセスして、ノード側では分割制御をおこなわない設定にする必要がある。
【0030】
次に、図2、図3、図4を用いて本発明のマルチノードシステムのマルチ分割時のシステムの動作を具体例に基づいて説明する。
図2は、本発明のマルチノードシステムのマルチ分割時の構成図である。
図3は、各ノードの分割情報の具体例を示す模式図である。
図4は、本発明のマルチノードシステムのマルチ分割時のシステムの動作を示すフローチャートである。
【0031】
図2に示されているように、ノードN1、ノードN2、ノードN3がグループG1に属していて、ノードN16がグループG4に属しているものとする。
【0032】
ノードN1、ノードN2、ノードN3は、一つのシステムとして動作し、それらのノード間でトランザクションをやり取りするが、他のグループに属するノードとは、トランザクションのやり取りをおこなわない。
【0033】
分割制御レジスタ111内に、結合ポート毎に格納されている分割情報は、その結合ポートに接続されている自ノードあるいは他ノードのグループID情報、メモリマッピング情報、I/Oマッピング情報である。
【0034】
グループIDは、各ノード10がシステム内でどの分割グループに属するかを示す識別子であり、同じ分割グループに属するノード同士はグループIDを同じ値に設定する。
【0035】
メモリマッピング情報は、結合ポート120〜122に接続されている自ノード10のメモリ30、あるいはノード結合装置100経由で接続されている他ノード10のメモリ30がアドレス空間上のどこにマッピングされているかの情報を設定する。
【0036】
I/Oマッピング情報は、結合ポート120〜122に接続されている自ノード10のI/O装置40、あるいはノード結合装置100経由で接続されている他ノード10のI/O装置40がI/O空間上のどこにマッピングされているかの情報を設定する。
【0037】
分割制御レジスタ111内のグループID情報は、各ノードが起動する前に、スーパバイザプロセッサ150から設定される。
【0038】
また、メモリマッピング情報、および、I/Oマッピング情報は、同じグループIDに属するノード10のうちの一つが、同じグループIDに属するノード間でマッピングの重複や抜けの矛盾がないようにシステムブート時に設定される。
【0039】
トランザクションコントローラ110は、結合ポート120〜122経由で受付けた自ノード10あるいはノード結合装置100経由で接続されている他ノード10からのトランザクションを、分割制御レジスタ111の設定に従って、結合ポート120〜122にルーティングすることになる。
【0040】
例えば、分割制御レジスタの値が、図3に示されているようになっていたとする。ここで、ノードN2からメモリアクセス要求でアクセスがメモリアクセスが8Mであるトランザクションが送出されたとする。
【0041】
以下、図4のフローチャートをも参照しながら、この場合のシステムの動作について説明する。
【0042】
このときには、ノードN2のメモリコントローラは、トランザクションをポートID1の結合ポートから受けつけて(S400)、トランザクションを送出したノードN2のグループIDがG1であることを知る。グループIDがG1の結合ポートは、ポートID=0、ポートID=2のポートなのでこれを抽出する(S401)。
【0043】
そして、トランザクションの種類がメモリアクセスであり(S402)、メモリマッピングが8Mなので、ポートID=0のメモリマッピング情報に含まれることになるので(S403,S405)、ポートID=0の結合ポートにトランザクションを送出する(S407)。
【0044】
ノードN1のトランザクションコントローラは、このトランザクションを受けつけて、同様の処理をおこない、ポートID=1のポート、すなわち、ノードN1のノードコントローラ50に、トランザクションを送信する。これにより、このトランザクションは、ノードN1で受けつけられて処理されることになる。
【0045】
また、別の場合として、ノードN3からメモリアクセス要求でアクセスがメモリアクセスが8Mのトランザクションが送出されたとする。
【0046】
このときには、ノードN3のメモリコントローラは、トランザクションをポートID1の結合ポートから受けつけて(S400)、トランザクションを送出したノードN3のグループIDがG1であることを知る。グループIDがG1の結合ポートは、ポートID=0のポートなのでこれを抽出する(S401)。
【0047】
そして、トランザクションの種類がメモリアクセスであり(S402)、メモリマッピングが8Mなので、マッチングするポートはない(S403,S405)。このときには、ポートID=0のポートにトランザクションを送出する(S406)。すなわち、隣のノードに転送するようにする。
【0048】
ノードN2では、このトランザクションをポートID=2で受けつけて、メモリマッピング情報を参照して、ポートID=0のポートにトランザクションを送出して、ノードN1にトランザクションが転送される。したがって、このトランザクションは、ノードN1で処理されることになる。
【0049】
このようにS406では、送信元のノードのグループの中で、条件の合うものがなかったときには、他のノードに転送する処理であるが、そのノード結合装置100に接続している結合ポート1、すなわち、自ノードには、トランザクションは送らないようする。送るのは、他のノードのノード結合装置に接続された結合ポートのみである。
【0050】
ここでは、ノード結合装置100は、ポートを三つ持つ構成、接続形態は一次元メッシュであるが、性能や冗長性を向上させるために、さらに、多くのポートを持つ構成にしたり、他の結合形態にも適用することができる。また、ここでのシステム動作の説明では、ノードN3からノードN1にトランザクションを送信するときに、ノードN2のトランザクションコントローラ110が、トランザクションを転送する処理をおこなうように説明したが、トランザクションコントローラ110が、トランザクションを転送する機能を持たず、例えば、図2の構成では、ノードN1とノードN3を接続するポートをさらに設けて、トランザクションを送信するようにしても良い。
【0051】
また、メモリアクセス要求のトランザクションについてのみ説明したが、I/Oアクセス要求のトランザクションについても同様の動作をおこなう。ここで、重要なのは、メモリアクセス要求のアドレスもI/Oアクセス要求のアドレスもアドレスも一意的なので、グループの中で処理するノードが一意的に定まることである。
【0052】
したがって、マッチする結合ポートの数が複数あるときには、送信元にエラー応答を返すようにする(S408)。
【0053】
【発明の効果】
本発明によれば、既存のマルチ分割機能を持たないノードを搭載することができ、設置しているノードが少ない場合であっても、効率の良いノード結合がおこなうことができ、さらに、拡張性に富むマルチノードシステムを提供することができる。
【図面の簡単な説明】
【図1】本発明のマルチノードシステムの構成図である。
【図2】本発明のマルチノードシステムのマルチ分割時の構成図である。
【図3】各ノードの分割情報の具体例を示す模式図である。
【図4】本発明のマルチノードシステムのマルチ分割時のシステムの動作を示すフローチャートである。
【図5】従来技術に係るマルチノードシステムのシステム構成図である(その一)。
【図6】従来技術に係るマルチノードシステムのシステム構成図である(その二)。
【符号の説明】
10…ノード
20…CPU
30…メモリ
40…I/O
50…ノードコントローラ
100…ノード結合装置
110…トランザクションコントローラ
111…分割制御レジスタ
120〜122…結合ポート
150…スーパバイザプロセッサ

Claims (3)

  1. ノードとノードを結合するためのノード結合装置を有し、複数のノードを複数のグループに分割して、同一グループで一つのシステムとして動作させることのできるマルチノードシステムにおいて、
    前記複数のノードの各ノードに1個の前記ノード結合装置を接続し、隣接するノードのノード結合装置を互いに接続し、
    前記ノード結合装置は、
    自ノードと接続する結合ポートと、
    隣接する他ノードのノード結合装置と接続するための結合ポートと、
    ノード間でやり取りされるトランザクションの流れを制御するためのトランザクションコントローラとを備え、
    前記トランザクションコントローラは、分割制御レジスタを有し、
    前記分割制御レジスタは、前記結合ポート毎にそれに接続されている自ノードまたは隣接する他ノードが属するグループID及び各ノードに割り当てられたリソースマッピング情報から成る分割情報を保持していて、
    前記トランザクションコントローラは、トランザクションを受付けると、トランザクション送出元の結合ポートのグループIDと同一のグループIDを持つ他の結合ポートを前記分割制御レジスタから抽出し、該抽出した結合ポートのリソースマッピング情報とトランザクションのリソースアクセス要求のアドレスとの比較結果により、トランザクションのあて先となる結合ポートを求めて、そのトランザクションをそのあて先に送出するように制御することを特徴とするマルチノードシステム。
  2. 前記リソースマッピング情報は、前記自ノードおよび隣接する他のノードに割当てられたメモリマッピング情報、又はI/Oマッピング情報であり、前記リソースアクセス要求は、メモリアクセス要求、又はI/Oアクセス要求であることを特徴とする請求項1記載のマルチノードシステム。
  3. 請求項1および請求項2記載のいずれかのマルチノードシステムは、スーパバイザプロセッサを有し、
    前記スーパバイザプロセッサが、前記分割制御レジスタの分割情報を設定することを特徴とするマルチノードシステム
JP2001319211A 2001-10-17 2001-10-17 マルチノードシステム Expired - Fee Related JP3735057B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001319211A JP3735057B2 (ja) 2001-10-17 2001-10-17 マルチノードシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001319211A JP3735057B2 (ja) 2001-10-17 2001-10-17 マルチノードシステム

Publications (2)

Publication Number Publication Date
JP2003122729A JP2003122729A (ja) 2003-04-25
JP3735057B2 true JP3735057B2 (ja) 2006-01-11

Family

ID=19136791

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001319211A Expired - Fee Related JP3735057B2 (ja) 2001-10-17 2001-10-17 マルチノードシステム

Country Status (1)

Country Link
JP (1) JP3735057B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2417105B (en) * 2004-08-13 2008-04-09 Clearspeed Technology Plc Processor memory system
JP5212476B2 (ja) * 2008-08-18 2013-06-19 富士通株式会社 ノード間通信方法、サーバ装置、ノード間通信プログラム
WO2011036726A1 (ja) * 2009-09-25 2011-03-31 富士通株式会社 情報処理装置、及びその設定切り替え方法

Also Published As

Publication number Publication date
JP2003122729A (ja) 2003-04-25

Similar Documents

Publication Publication Date Title
US8250165B2 (en) Method and system for communicating between memory regions
US6675253B1 (en) Dynamic routing of data across multiple data paths from a source controller to a destination controller
CN110941576B (zh) 具有多模pcie功能的存储控制器的系统、方法和设备
US9146890B1 (en) Method and apparatus for mapped I/O routing in an interconnect switch
JP3807250B2 (ja) クラスタシステム、コンピュータ及びプログラム
JP2007282197A (ja) Ipネットワーク上の遠隔データファシリティ
JP2005301802A (ja) ストレージシステム
EP0855819A1 (en) Network switch stacking mechanism
WO2009014576A1 (en) Systems and methods for improving performance of a routable fabric
WO2007080718A1 (ja) ブリッジ、情報処理装置、情報処理システムおよびグローバルアドレス管理方法
US6597692B1 (en) Scalable, re-configurable crossbar switch architecture for multi-processor system interconnection networks
JP3735057B2 (ja) マルチノードシステム
JP2009282917A (ja) サーバ間通信機構及びコンピュータシステム
US6339812B1 (en) Method and apparatus for handling invalidation requests to processors not present in a computer system
US20060031622A1 (en) Software transparent expansion of the number of fabrics coupling multiple processsing nodes of a computer system
US8224987B2 (en) System and method for a hierarchical interconnect network
JPH10320365A (ja) データ交換装置およびその方法
JPH06266684A (ja) プロセッサ間ルーティング方式
US5528768A (en) Multiprocessor communication system having a paritioned main memory where individual processors write to exclusive portions of the main memory and read from the entire main memory
JP2011113163A (ja) Ioアクセス通信システムにおけるエンドポイント間通信制御装置および方法
JP2000250746A (ja) 交換機のデータ変換システム
US20200341928A1 (en) Information processing system
US20240211138A1 (en) Localized and relocatable software placement and noc-based access to memory controllers
JP3791463B2 (ja) 演算装置及びデータ転送システム
US20080320201A1 (en) Central processing apparatus, control method therefor and information processing system

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050428

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050712

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050908

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050908

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051018

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051020

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050908

LAPS Cancellation because of no payment of annual fees