JP3889879B2 - 仮想メモリ変換を制御する方法 - Google Patents

仮想メモリ変換を制御する方法 Download PDF

Info

Publication number
JP3889879B2
JP3889879B2 JP17440198A JP17440198A JP3889879B2 JP 3889879 B2 JP3889879 B2 JP 3889879B2 JP 17440198 A JP17440198 A JP 17440198A JP 17440198 A JP17440198 A JP 17440198A JP 3889879 B2 JP3889879 B2 JP 3889879B2
Authority
JP
Japan
Prior art keywords
message
memory
data
register
status
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP17440198A
Other languages
English (en)
Other versions
JPH1185618A (ja
Inventor
トニー・エム・ブルーアー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HP Inc
Original Assignee
Hewlett Packard Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Co filed Critical Hewlett Packard Co
Publication of JPH1185618A publication Critical patent/JPH1185618A/ja
Application granted granted Critical
Publication of JP3889879B2 publication Critical patent/JP3889879B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • G06F11/0724Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/073Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a memory management context, e.g. virtual memory or cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/10Address translation
    • G06F12/1027Address translation using associative or pseudo-associative address translation means, e.g. translation look-aside buffer [TLB]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Memory System Of A Hierarchy Structure (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、一般にコンピュータ上のメモリ管理に関し、特に、仮想メモリからのデータ移動操作の完全性を保証する方法および装置に関する。この発明は、データ移動が、主にソフトウェアではなくハードウェアで実施され、アドレス変換バッファ(「TLB」)のパージの監視および検出に応じて実現される環境で動作する。
【0002】
【従来の技術】
データ移動は、メッセージング、データコピーまたはメモリのゼロへのクリアのような、多くの標準の通常使用されるシステム操作に組み込まれる、システムの重要な「コア」機能である。複数のシステム内のデータ移動は、典型的に、3つの一般的なステップを含む。第1に、データの移動を許可するように、メモリが割り当てられる。第2に、データ移動自体が、実施される。第3に、データ移動がうまく完了し、処理がデータの新しい位置に基づいて続行できることを、プロセッサまたはプロセッサ・エージェントのような適当な成分に通知する。
【0003】
今日の技術のシステムで、第1および第3のステップ(メモリ割当ておよび通知)は、典型的にソフトウェアによって実施され、第2のステップ(データ移動)は、ハードウェアによって実施される。データ移動ハードウェアは、典型的にメッセージ/コピー表明(state)マシンを含み、それは、その操作がデータ移動を実現する中枢となる高価なハードウェア要素である。
【0004】
【発明が解決しようとする課題】
データ移動の第1および第3のステップ(メモリ割当ておよび通知)のためのソフトウェア操作は、必然的に、いくつかのマシン・サイクルが完了することを必要とする。ソフトウェアは典型的に、データ移動操作を求める要求を発行しているプロセッサにローカルなメモリ・ノードにロードされているマイクロカーネルの中にある。従って、マイクロカーネル・ソフトウェアを参照する必要なく、これら第1および第3のステップをハードウェア上で実施し、それによってデータ移動操作を実行するための処理時間を速められることは非常に有利である。
【0005】
しかし、操作が進行する間、ハードウェア駆動のデータ移動操作は、仮想から物理へのメモリ・マッピングの完全性も保証しなければならないことが分かるであろう。より一層ソフトウェア駆動されるデータ移動環境で、この機能は、通常はプロセッサ・ハードウェアによって実施される。従って、そのようなマッピングの完全性を、ハードウェア駆動のデータ移動操作の一部として保証する、非プロセッサ・ハードウェア志向の機構が必要である。
【0006】
【課題を解決するための手段】
ここで使用されるとき、「アーキテクチャ」とは、能力および性能の計画されたレベルを提供するために、コンピュータ設計、ハードウェアおよびソフトウェアが相互に作用する態様を意味する。ここで使用されるとき、「アーキテクチャ構成」は、プロセッサ、レジスタ、メモリ、命令セットおよび入力/出力資源を含むコンピュータの内部操作の物理構造の幾何的レイアウトを意味し、特定のあらかじめ決められたアーキテクチャを実現するように設計される。
【0007】
この発明は、複数システムの中のデータ移動が、メモリ割当ておよび通知のようなデータ移動に必須の操作をソフトウェアではなくハードウェアを使って実施することによって最適化されるアーキテクチャで動作する。
【0008】
その結果、データ移動を含む多くのシステム操作も相応じて最適化される。ノード間のメッセージングが、よい例である。全体で共有されるメモリをもつシステムの中で、あるメモリ・ノード上に常駐するマイクロカーネルが、他のメモリ・ノード上に常駐するマイクロカーネルにメッセージを送信できることは一般的である。しかし、データ移動が、ソフトウェアによって実施されるメモリ割当ておよび通知のステップを含む場合、プロセッサ効率は通常、これらのメッセージが1キャッシュライン長の長さに制限されることを指示する。今日の技術で使用される一般的な4つのキャッシュライン長は、16バイト、32バイト、64バイトおよび128バイトである。しかし、あるマイクロカーネルから別のマイクロカーネルへのメッセージは、典型的に、これらの固定された1キャッシュライン長よりもかなり長くなる必要がある。従って、例えば32バイトの長さでメッセージを保持する制約は、重要なオーバーヘッド負担をオペレーティング・システムに課し、メッセージを複数の32バイトの「コンテナ」に制限する。このオーバーヘッド負担は、必然的に性能の低下をもたらす。
【0009】
しかし、ここで開示されるアーキテクチャ下でのデータ移動は、制限のない長さの連続するメッセージが、あるノードから他のノードへ複数のキャッシュラインで送信されることを許す。全体のメッセージ長は、操作が完了したときに送信ノードによって提示される完了ステータスによって指定される。制限のないメッセージングのこのタイプは、メッセージ/コピー表明マシンに、データ移動操作と同様にメモリ割当ておよび通知操作を実施する能力を与えることにより実現される。ノード間のメッセージングに関する制約が解かれると、システムは、オーバーヘッド負担から解放される。したがって、システムからこのオーバーヘッドを無くすと、システム処理効率は、物理的なデータ移動レベルで達成される実際の効率をはるかに越えるようになる。
【0010】
データコピーは、この発明によって最適化されるデータ移動を含むシステム操作の一例である。最適化は、具体的にはメモリ内の仮想ページからのデータコピーを含む操作の中で改善される。仮想ページは、最初に物理ページに変換されなければならない。しかし、データコピー操作が発行され、実行される間に、同時に走るシステムの他の成分が、仮想ページを物理ページに変換するために信頼される物理マッピングを変更することがある。今日の技術のシステムで、変換の正確さを維持するためのこのマッピングの監視は、プロセッサ・ハードウェアによって実施される。この発明の好ましい形態で、この監視は、非プロセッサ・ハードウェアによって付加的に実施される。マッピングに対する変更は、アドレス変換バッファ(「TLB」:translation lookaside buffer)のパージを生成し、その発生は、ここで開示される機構によって監視され、検出される。TLBのパージが検出されると、機構は、データコピー操作を中止し、データ転送が中止された点に関連するステータス情報を待ち行列に入れ、それによって、正確なマッピングが再び確立され、データ転送が再開するときに、その点からの先への進行を保証する。
【0011】
パイプライン化は、パイプライン処理される機能の利用が高められる設計最適化の一例である。データ移動を含むシステム操作は、ここで開示されるようなパイプライン化を利用することによって最適化することができる。「パイプライン」を生成する際、一連の機能または操作は、あらかじめ定義されるように、同時に、連続的に、またはオーバラップして実行されるようセットアップされる。それぞれのパイプライン処理される操作の個々のサイクルまたは命令が、一緒に実行され、全てのパイプライン化される操作を同時に処理するという全体的な効果を提供する。ここで開示されるようなパイプライン化は、個々のデータ移動命令がパイプラインにきたとき、それらを同時に実行するように利用できることによって、アーキテクチャを改善する。従って、パイプラインは潜在的に、同時にパイプライン処理される多様なデータ移動操作から各々が抽出されるデータ移動命令の1ストリーム(例えばメモリを割り当て、データを移動させ、通知する)を与え得ることが分かるであろう。こうして、(メッセージ/コピー表明マシンのような)データ移動ハードウェアは、ほぼ連続的に最大限に使用することができ、多様なパイプライン処理される操作がパイプラインにきたとき、それら操作からデータ移動命令の間で「取り出し、選択する」。全体の効果は、ほぼ連続的にパイプライン処理されるデータ移動命令を速めることによって、パイプラインを最適化することであると分かるであろう。
【0012】
好ましい形態で、この発明が動作するアーキテクチャ構成は、(1)第1のプロセッサからデータを受信する第1の入力レジスタ、および第2のプロセッサから入力を受信する第2の入力レジスタと、(2)入力レジスタから制御情報を受信するメッセージ/コピー表明マシンと、(3)データ・ムーバと、(4)オーバラップする環境で個々のデータ移動操作をパイプライン処理する手段と、(5)メッセージ/コピー表明マシンから、第1のプロセッサに提供される制御情報を受信する第1のステータス待ち行列、およびメッセージ/コピー表明マシンから、第2のプロセッサに提供される制御情報を受信する第2のステータス待ち行列と、をもつプロセッサ・エージェントを含む。好ましい形態のアーキテクチャ構成は、さらに、プロセッサ・エージェントと通信するメモリ・アクセス・コントローラを含み、メモリ・アクセス・コントローラは、(1)操作を許可するように、メッセージ/コピー表明マシンからの制御情報に応じてメモリを割り当てる手段と、(2)メッセージ/コピー表明マシンからの制御情報に応じて動作するメッセージ割当て表明マシンと、(3)メッセージ/コピー表明マシンからの制御情報に応じて動作するメッセージ完了ステータス待ち行列と、をもつ。
【0013】
したがって、この発明の技術的な利点は、TLBのパージを検出し、それに応答するハードウェアベースの警告システムを実現することによって、データ移動操作を最適化することである。
【0014】
この発明の更なる技術的な利点は、データ移動のような操作が主にハードウェアによって実施されるとき、そのような操作の間、仮想から物理へのメモリマッピングの完全性を保証することである。この完全性は、データ移動操作に影響を与えうるTLBのパージを検出し、それに応答するハードウェア駆動の警告システムを実現することによって保証される。
【0015】
上述は、以下のこの発明の詳細な記述をよりよく理解することができるように、この発明の特徴および技術的な利点を広く概略で説明した。この発明の追加の特徴および利点は、以下に記述される。当業者であれば、開示される概念および特定の実施例は、変更する又はこの発明と同じ目的を達成する他の構造を設計するための基準として、容易に利用できることが分かるであろう。また当業者であれば、そのような同等の構造は、この発明の理念から逸脱しないことが分かるであろう。
【0016】
【発明の実施の形態】
上述したように、この発明は、メモリ割当ておよび通知のようなデータ移動に必須の操作を、ソフトウェアでなくハードウェアを用いて実施することによって、システム内のデータ移動が最適化されるアーキテクチャを提供する。
【0017】
好ましい実施例で、典型的なアーキテクチャ構成は、(1)第1のプロセッサからデータを受信する第1の入力レジスタおよび第2のプロセッサから入力を受信する第2の入力レジスタと、(2)入力レジスタから制御情報を受信するメッセージ/コピー表明マシンと、(3)データ・ムーバと、(4)オーバラップする環境で、個々のデータ移動操作をパイプライン処理する手段と、(5)メッセージ/コピー表明マシンから、第1のプロセッサに提供される制御情報を受信する第1のステータス待ち行列、およびメッセージ/コピー表明マシンから、第2のプロセッサに提供される制御情報を受信する第2のステータス待ち行列と、を有するプロセッサ・エージェントを含む。好ましい実施例のアーキテクチャ構成は、さらに、プロセッサ・エージェントと通信するメモリ・アクセス・コントローラを含み、メモリ・アクセス・コントローラは、(1)メッセージ/コピー表明マシンからの制御情報に応じて、操作を許可するように、メモリを割り当てる手段と、(2)メッセージ/コピー表明マシンからの制御情報に応じて動作するメッセージ割当て表明マシンと、(3)メッセージ/コピー表明マシンからの制御情報に応じて動作するメッセージ完了ステータス待ち行列と、をもつ。
【0018】
図1を参照すると、この発明が実施可能な典型的なアーキテクチャ構成が示されており、その中でEPAC(エクスキャリバ・プロセッサ・エージェント・チップ)150は、メッセージ/コピー表明マシン153が利用できるCPU入力レジスタ151および152(CPU0およびCPU1にそれぞれ対応する)を含む。データ移動操作の一部および特に有利にはデータ移動の通知フェーズで、メッセージ/コピー表明マシン153は、情報をCPUステータス待ち行列154および155に送信する。CPUステータス待ち行列154および155もまた、それぞれCPU0およびCPU1に対応し、EPAC150に常駐する。
【0019】
EPAC150はさらに、メッセージ/コピー表明マシン153を通して、メッセージ割当て表明マシン161およびメッセージ完了ステータス待ち行列162を含むEMAC(エクスキャリバ・メモリ・アクセス・チップ)160とデータ通信する。
【0020】
この発明に従って、データ移動操作は、図1に示されるようなハードウェアをほぼ排他的に使用して実現される。慣例的に、メモリ割当ておよび通知のようなデータ移動のフェーズまたは工程は、ソフトウェアによって実現される。例えばメッセージングに言及して以下で述べられるように、これらのフェーズまたは工程は、この発明に従ってハードウェアによって実現される。
【0021】
しかし最初に、図1のハードウェア成分を、マルチプロセッサ、マルチノード環境を表す広範な図で視覚化することが有用である。図16を参照すると、そのような環境の中のEPAC150およびEMAC160と他のハードウェアとの相互作用を示す典型的なアーキテクチャ構成が示されている。EPAC150は、プロセッサ1401(有利にはEPACあたり2つのプロセッサ)に結合される。図16に示されるように、I/Oサブシステムを、単方向のパスを使用して各々のEPACに結合することもできる。さらにEPAC150は、コア論理バス1402に結合され、それらを介してEPAC150は、電気的消去可能なプログラム読出し専用メモリ(「EEPROM」)、静的ランダムアクセス・メモリ(「SRAM」)、リアルタイム・クロック、RS-232およびイーサネットのような他のコンピュータ・システム成分とインターフェースすることができる。さらにコア論理バス1402は、プロセッサ1401が、バスを使用してアクセスされる制御およびステータス・レジスタ(「CSR」)に書き込みして、クロス・バー・ゲート・アレイ(「ERAC」)1403を初期化し構成することを可能にする。
【0022】
図16から、EPAC150は、トランザクションをERAC1403へまたはそこから送信し、受信することが分かるであろう。好ましい実施例で、4つの単方向データ・パスを使用して、この通信を実現することができ、各々のEPAC150は、2つのERAC1403と通信する。
【0023】
ERAC1403は、トランザクションをEPAC150からEMAC160に進めるクロスバーを形成する。好ましい実施例で、ERAC1403へおよびそこからのデータ・パスは、幅が32ビットで、単方向である。ERAC1403は、それ自体のCSR空間なしでクロス・バーを形成する。代わりに、上で述べたように、ERAC1403は、コア論理バス1402上に常駐するCSRに書き込むことによって初期化される。これらのCSRは、どのポートがアクティブであるかを制御し、エラー検出を実現する。
【0024】
図16に示される典型的なアーキテクチャ構成で、各々のERAC1403は、4つのEMAC160とトランザクションを交換する。組合せの中で、EMAC160は、コヒーレントなメモリへのアクセスを制御する。有利には、4つのメモリ・バンク1406が、各々のEMAC160によって制御され、8EMACシステムで32バンクまでを許す。メモリ・バンク1406は、同期DRAMのSIMMから成る。EMAC160によって制御されるメモリは、ノード・ローカル・メモリ、ネットワーク・キャッシュおよびメッセージングのために使用される。
【0025】
さらに図16は、トランザクションをEMAC160と交換するリング・インタフェース・コントローラ(「ETAC」)1407を示す。各々のETAC1407は、2つのオペレーティング・プラットホーム・リング(x次元およびy次元)とインターフェースし、上記インタフェースは、リングが、EMAC160を通してメモリにアクセスできるようにする。
【0026】
図16に示される典型的なアーキテクチャ構成に従う操作で、プロセッサ1401は、対応するEPAC150を通してクロス・バーERAC1403に要求を送信することによって、メモリ・バンク1406にアクセスする。EMAC160は、利用できるメモリ・バンク1406にアクセスし、ECCおよびあらゆるタグ付けされたコヒーレンス情報を調べる。追加のコヒーレンス操作が要求されないとすると、メモリ1406からアクセスされたデータは、ERAC1403および対応するEPAC150を通して、要求を出しているプロセッサ1401に返される。
【0027】
図16に加えて、この発明を実現するアーキテクチャおよびトポロジーの他の具体化があり得ることも分かるであろう。
【0028】
従って、上述したように、この発明は、(メモリ割当てまたは通知のような)データ移動のフェーズまたは工程が、ソフトウェアでなくハードウェアで実現されるときに機能する。これは、コンピュータ処理すなわちメッセージングのときの一般的なデータ移動操作に言及することによって最もよく説明される。しかし、メッセージングに関連する以下の記述は、この発明が実施可能な適用の一例にすぎず、この発明は、他のデータ移動操作に等しく適用されることが分かるであろう。
【0029】
ここで図2を参照して、この発明に従うメッセージングは、ブロック101から始まり、そこでソース・プロセッサは、送信されるメッセージをフォーマットする。メッセージは、任意の長さであり得る。メッセージの実際のフォーマッティングは、ソフトウェアによって行われ、システム・メモリを使用して実施される。
【0030】
ブロック102で、ソース・プロセッサは、コマンドを発行し、メッセージング操作を開始する。このコマンドは、ローカル・プロセッサ・エージェント(図1および図16のEPAC150)上の入力コマンド・レジスタに書き込むことによって、ローカル・ノード上のハードウェアに発行される。
【0031】
ブロック103で、EPAC内のメッセージ/コピー表明マシンは、トランザクションを受信ノード上のメモリ・アクセス・コントローラ(図1および図16上のEMAC160)に送信する。このトランザクションは、受信するEMAC内のメッセージ割当て表明マシン(図1の要素161)へ向けられ、またメモリ内のメッセージのソース・アドレスおよびメッセージの大きさを含む。
【0032】
ブロック104で、EMACメッセージ割当て表明マシンは、その制御下で、メモリのプールから受信ノード上のメモリを割り当てる。割り当てられるメモリの量は、そこに格納されなければならないメッセージの大きさに一致する。EMACは、トランザクションを、ソースEPAC内のメッセージ/コピー表明マシン(図1の要素153)に返し、そこでそのメッセージは、受信ノード・メモリ内の受信EMACによって割り当てられた宛先アドレスを含む(ブロック105)。
【0033】
ブロック106で、ソース・プロセッサは、メッセージを、ソース・メモリから宛先メモリにキャッシュライン長の量のインクリメントでコピーする。任意のライン長が、実施可能であるが、好ましい実施例で、このキャッシュライン長は、32バイトである。メッセージをコピーするとき、キャッシュライン長のインクリメントは、任意の順序で、およびソース・ノードから宛先ノードに同時に送信される他のメッセージと一緒に、送信することができることに注意されたい。結果として、処理オーバーヘッドを最適化することができる。
【0034】
メッセージ全体が、うまくコピーされると、ソース・ノードは、完了ステータスを受信ノードに送信する(ブロック107)。完了ステータスの送信は、ソースEPAC上のメッセージ/コピー表明マシンが、受信ノード上のEMACに完了ステータス・トランザクションを送信することによって実現される。EMACは、完了ステータス・トランザクションを、そのノード(図1の162)に関する待ち行列に入れる。空の待ち行列に完了ステータスが入れられると(すなわち空であることから空でないことへの待ち行列の移行)、そのノードに関するプロセッサに割込みが送信され、それによってソフトウェアは、受信されたメッセージを処理することができる(ブロック107A)。割込みは、送信プロセッサにも任意に送信される(ブロック107B)。このように、送信プロセッサは、メッセージング操作が完了し、従って先に進めることを知る。
【0035】
ここで、好ましい実施例の実現の更なる説明は、具体的には、典型的な32バイト・キャッシュラインをもつ環境でこの発明を具体化するHewlett-Packardの「Excalibur」という製品に言及する。しかし、Excalibur製品は、この発明の1つの可能な実現にすぎず、この発明は、Excalibur製品の特定の詳細に限定されないことが分かるであろう。
【0036】
従って、再び図1を参照して、この発明によって最適化されるメッセージングを、特定のハードウェア成分に言及して説明する。EPAC150は、そこからメッセージが送信されることが望まれるソースまたは送信ノードに常駐する。EMAC160は、メッセージのための受信または宛先ノードに常駐する。上述したように、EPAC150は、2つの別々のプロセッサCPU0およびCPU1によってそれぞれプログラムされることができるCPU入力レジスタ151および152を含む。EPAC150はさらに、メッセージ/コピー表明マシン153と、プロセッサCPU0およびCPU1を制御するために利用できるCPUステータス待ち行列154および155とを含む。EMAC160は、メッセージ割当て表明マシン161および完了ステータス待ち行列162を含む。
【0037】
入力レジスタ 151 および 152
EPAC150は、ここに物理的に結合される2つのプロセッサCPU0およびCPU1で専用に使用するための入力レジスタの2組をもつ。操作を起動するために、最初にプロセッサは、それが起動した最後の操作が、もはや入力レジスタ段階にないことを判断しなければならない。入力レジスタが利用可能であれば、プロセッサは、入力レジスタをプログラムすることによって操作を起動する。
【0038】
メッセージ / コピー表明マシン 153
入力レジスタの1組がセットアップされ、かつメッセージ/コピー表明マシンがアイドルであるとき、メッセージ/コピー表明マシン153は、メッセージング操作を実行し始める。入力レジスタの両方の組が、実行する準備ができている操作をもつ場合、ハードウェアが入力レジスタの2組の間の仲裁を行って、先への進行を保証する。
【0039】
メッセージング操作の実行は、3つのフェーズに分割される。第1のフェーズは、メッセージのための宛先アドレスを決定する。現在の操作がコピー操作である場合、実行のこのフェーズはスキップされる。図1に示されるように、宛先アドレスは、トランザクション170を、宛先ノード上のEMAC160に送信することによって決定される。EMAC160は、メモリ割当て操作を実施し、宛先ノード・メモリ・アドレスを使って応答する(トランザクション175)。
【0040】
第2のフェーズは、データをソース・メモリから宛先メモリにコピーすることである。コピー操作は、操作が完了するか、アドレス変換バッファ(「TLB」)のパージが起こるか、あるいはエラーが起こるまで、実行する。
【0041】
実行の最後のフェーズは、メッセージ完了トランザクション185をEMAC160に送信することである。操作がデータコピーである場合、このフェーズは実施されない。EMAC160は、完了ステータスをメモリベースの待ち行列(要素162)に入れ、割込みによってメッセージの宛先ノード上のプロセッサに知らせる。
【0042】
操作ステータス待ち行列 154 および 155
操作ステータス待ち行列154および155は、EPAC150に物理的に接続する各々のプロセッサに対応付けられる。図1で、これらのプロセッサは、CPU0およびCPU1である。メッセージまたはコピー操作の完了から生じるステータスは、2つのステータス待ち行列のうちの1つに入れられる。CPU0によって始められた操作は、それが完了するとき、ステータスをその割り当てられたステータス待ち行列154に書き込む。同様に、CPU1のステータスは、ステータス待ち行列155に書き込まれる。各々のステータス待ち行列は、入力レジスタおよびメッセージ/コピー表明マシン段階のためにステータス空間を提供する3エントリの深さである。
【0043】
ステータスが待ち行列に入れられると、割込みが、操作を起動したプロセッサに送信され、メッセージが配送されたことをそのプロセッサに知らせることができる。
【0044】
図3ないし図13は、メッセージングおよびデータコピー・ハードウェアを制御するために必要とされるCSR(制御およびステータス・レジスタ)を説明する。図1に示すように、CSRは全て、EPAC150またはEMAC160のいずれかに属する。CSRは、以下を含む。
・入力コマンド・レジスタ
・操作コンテクスト・レジスタ
・ソースおよび宛先物理ページ・フレーム・レジスタ
・ソースおよび宛先オフセット・レジスタ
・操作ステータス・レジスタ
・メッセージ受信エリア構成レジスタ
・メッセージ受信エリア・オフセット・レジスタ
・メッセージ完了待ち行列構成レジスタ
・メッセージ完了待ち行列オフセット・レジスタ
・メモリ割当てアドレス
・メッセージ完了エンキュー(enqueue)・アドレス
・メッセージ完了デキュー(dequeue)・アドレス
【0045】
入力コマンド・レジスタ
各々のEPAC150は、メッセージングおよびデータコピー操作の多様なモードおよび長さを設定する2つの入力コマンド・レジスタをもつ。
【0046】
入力コマンド・レジスタは、CSRの準備ビットがゼロであって、CSR操作コンテクスト・レジスタの装備ビットが1であるとき、書き込むことができる。このレジスタを読み出す制限はない。
【0047】
入力コマンド・レジスタのフォーマットは、図3に示される。入力コマンド・レジスタのフィールドは、以下のように定義される。
【0048】
・準備フィールド(ビット23)
入力レジスタが操作を実施する準備ができていることを示す。通常、このビットは、ソフトウェアによって設定され、ハードウェアによってクリアされる。入力レジスタが、操作のためのセットアップを完了するとき、このビットが、ソフトウェアによって設定されなければならない。メッセージングおよびコピー表明マシンが、操作のために入力レジスタからの全ての必要とされる情報にアクセスすると、ハードウェアが、このビットをクリアする。準備ビットは、CSR書込みアクセスによって書き込まれる。CSR読出しは、現在の値を読み出す。リセットは、ビットをクリアする。
【0049】
・ステータス索引フィールド(ビット24:25)
完了ステータス待ち行列管理のためにソフトウェアによって使用される。フィールドは、CSR読出しによって読み出される。フィールドの値は、操作完了ステータス待ち行列の中のステータスの一部である。リセットは、フィールドをクリアする。
【0050】
・TLBパージ・アボート許可フィールド(ビット26)
操作の前またはその間にTLBパージ・トランザクションが検出される場合、操作をアボートすることができる。システム操作で、ソフトウェアが、ビットを設定し、クリアする。仮想アドレスが使用されるとき、それはソフトウェアによって設定されなければならない。メッセージングおよびコピー表明マシンが操作を始めるとき、TLBパージ検知およびTLBパージ・アボート許可ビットが設定されている場合、操作は、始まる前にアボートされることに注意されたい。アボートされた操作について完了ステータスは、適当なステータス待ち行列に書き込まれる。TLBパージ・アボート許可ビットは、CSR書込みによって書き込まれ、CSR読出しによって読み出される。リセットが、ビットをクリアする。
【0051】
・TLBパージ検知フィールド(ビット27)
TLBパージ検知トランザクションが、EPACによって検出されたことを示す。ビットは、ソフトウェアによってクリアされ、ハードウェアによって設定される。それは、CSR書込みによって書き込まれる。CSR読出しは、現在の値を読み出す。リセットは、ビットをクリアする。
【0052】
・ソースBTT許可フィールド(ビット28)
ソース物理ページ・フレーム・レジスタが、操作のソース・メモリ領域にアクセスするために使用されるブロック変換テーブル(BTT)のアドレスを含むことを示す。ビットは、CSR書込みによって書き込まれ、CSR読出しによって読み出される。
【0053】
・宛先BTT許可フィールド(ビット29)
宛先物理ページ・フレーム・レジスタが、操作の宛先メモリ領域にアクセスするために使用されるブロック変換テーブルのアドレスを含むことを示す。ビットは、CSR書込みによって書き込まれ、CSR読出しによって読み出される。
【0054】
・メッセージング操作フィールド(ビット30)
メッセージングおよびコピー表明マシンに、入力レジスタの宛先アドレスではなく、宛先アドレスを決定するためのメッセージング機構を使用させる。ビットは、CSR書込みによって書き込まれ、CSR読出しによって読み出される。
【0055】
・Bゼロ操作フィールド(ビット31)
メッセージングおよびコピー表明マシンに、ソースを宛先メモリ領域にコピーするのではなく、宛先メモリ領域をクリアさせる。ビットは、CSR書込みによって書き込まれ、CSR読出しによって読み出される。
【0056】
・ギャザー(gather)操作フィールド(ビット32-33)
ギャザー操作のために使用されるストライドを指定する。ここで、このフィールドは、具体化されずゼロとして読み出される。
【0057】
・入力割込み許可フィールド(ビット34)
入力コマンド・レジスタがソフトウェアによって再プログラミングするために利用できるとき、関連するプロセッサへの割込みを許可する。送信される割込み番号の最上位5ビットは、このフィールドによって指定される。送信される割込み番号の最下位ビットは、ゼロである。このビットは、CSR書込みによって書き込まれ、CSR読出しによって読み出される。
【0058】
・完了割込みフィールド(ビット35-36)
メッセージングおよびコピー表明マシンが操作を完了するとき、関連するプロセッサへの割込みを許可する。さらにフィールドは、操作がエラーで完了するとき、またはそれが操作のステータスに関係なく送信される場合、割込みが送信されるか決定する。下の表1は、このフィールドについて符号化を指定する。
【0059】
【表1】
Figure 0003889879
【0060】
・割込み番号フィールド(ビット37-41)
要求を起動したプロセッサに送信される割込み番号の最上位5ビットを指定する。割込みは、次の2つのイベントのどちらかが生じるときに送信される。
--メッセージングおよびコピー表明マシンが、入力レジスタへのアクセスを完了するとき。
--メッセージングおよびコピー表明マシンが、操作を完了するとき。
割込み番号の最下位ビットは、第1のイベントの場合はゼロ、第2の場合は1である。ビットは、CSR書込みによって書き込まれ、CSR読出しによって読み出される。
【0061】
・長さ−1・フィールド(ビット42-63)
メッセージングおよびコピー操作の長さを指定する。メッセージング操作は、最下位5ビットを無視し、長さが、整数個のメモリ・ライン(32バイトのインクリメント)になるようにする。しかしコピーは、どんなバイト長でもよい。フィールド内のゼロの値は、1バイトをコピーし(メッセージングの場合は1メモリ・ライン)、フィールド内の全ての1の値は、メモリの4メガバイトをコピーする。フィールドは、CSR書込みによって書き込まれ、CSR読出しによって読み出される。
【0062】
操作コンテクスト・レジスタ
各々のEPAC150は、2つの操作コンテクストCSRをもち、各々のプロセッサについて1つある。操作コンテクストは、2通りの方法で他のCSRに適用される。1つは、CSRを装備することにより、もう1つは、装備されたCSRがトリガされたこと、すなわちそれが特定の機能を実行したことを示すことによる。
【0063】
操作コンテクスト・レジスタのフォーマットは、図4に示される。CSR操作コンテクスト・レジスタのフィールドは、次のように定義される。
・装備フィールド(ビット63)
特定のEPACのプロセッサCSRの機能を装備するようにソフトウェアによって設定される。このビットによって装備されるEPAC CSRは、データ・ムーバ入力コマンド・レジスタを含む。装備ビットは、ソフトウェアによって設定され、ハードウェアまたはソフトウェアのいずれかによってクリアされる。
・トリガ・フィールド(ビット62)
装備ビットが設定されたときに、CSR操作が実行されたことを示す。トリガ・ビットは、ソフトウェアによってクリアされ、ハードウェアによって設定される。
【0064】
以下の表2は、操作が発行されたとき、すなわちソフトウェアが操作アドレスCSRのうちの1つにアクセスするとき、ハードウェアによって制御されるような装備およびトリガ・ビットの移行を示す。
【0065】
【表2】
Figure 0003889879
【0066】
以下の表3は、TLB無効トランザクションが検出されるとき、ハードウェアによって制御されるような装備およびトリガ・ビットの移行を示す。
【0067】
【表3】
Figure 0003889879
【0068】
ソース / 宛先物理ページ・フレーム・レジスタ
各々のEPAC150上には、メッセージングおよびデータコピー操作のソースおよび宛先を指定する2つのソース/宛先物理ページ・フレームCSRがある。
【0069】
レジスタは、入力コマンド・レジスタの準備ビットがゼロであり、CSR操作コンテクスト・レジスタの装備ビットが1であるときのみ、書き込まれる。レジスタは、いつでも読み出すことができる。
【0070】
物理ページ・フレーム・レジスタのフォーマットは、図5に示される。このレジスタのフィールドは、次のように定義される。
・物理ページ・フレーム・フィールド(ビット24-51)
ここで典型的な目的のために使用される40ビット・アドレスの物理ページ・フレームを示す。ブロック変換テーブル(BTT)が使用される場合、フィールドはBTTのアドレスを指定する。そうでない場合、フィールドは、コピー操作のためのソースまたは宛先ページを指定する。
【0071】
メッセージング操作の場合、宛先物理ページ・フレーム・レジスタは、メッセージを受信する宛先EMAC160のノードIDおよび仮想リングでプログラムされなければならない。
【0072】
ソース / 宛先オフセット・レジスタ
各々のEPAC150に、メッセージまたはコピー操作のソースおよび宛先のオフセットを指定する2つのソース/宛先オフセットCSRがある。
【0073】
レジスタは、入力コマンド・レジスタの準備ビットがゼロであり、CSR操作コンテクスト・レジスタの装備ビットが1であるときのみ書き込まれる。レジスタは、いつでも読み出すことができる。
【0074】
オフセット・レジスタのフォーマットは、図6に示される。レジスタのフィールドは、次のように定義される。
・BTT/ページ・オフセット・フィールド(ビット42-63)
2通りの方法の1つで使用される。ブロック変換テーブルが使用されているとき、最上位10ビットが、BTTへの索引を指定し、最下位12ビットが、選択されるブロックテーブル・エントリ(「BTE」)・メモリページへのオフセットを指定する。ブロック変換テーブルが使用されていないとき、フィールドは、メモリのページへのオフセットとして使用される。22ビットを用いると、1ページ内のオフセットは、より大きいページ・サイズを支援するために4メガバイトの大きさまで可能である。
【0075】
メッセージング操作の場合、宛先オフセット・レジスタをプログラムする必要はない。
【0076】
操作ステータス待ち行列レジスタ
複数の操作ステータス待ち行列レジスタが各々のEPAC150上に提供され、そこに結合される各々のプロセッサに対して1つある。図1に示される実施例で、2つのプロセッサCPU0およびCPU1があるので、2つの操作ステータス待ち行列レジスタが提供される。ステータスは、操作が完了する順にステータス待ち行列に挿入される。エラーが生じた場合、この順序は、操作が発行された順序ではないことに注意されたい。
【0077】
プロセッサの操作ステータス待ち行列レジスタのフォーマットは、図7に示される。操作ステータス待ち行列レジスタのフィールドは、次のように定義される。
【0078】
・有効フィールド(ビット0)
ステータス待ち行列が、有効なメッセージングおよびコピー表明マシン完了ステータスをもつことを示す。表明マシンが完了し、ステータスを待ち行列に書き込むとき、ビットが設定される。ビットは、ステータスが読み出されるときにクリアされ、ステータス待ち行列に残る他の有効なステータスはない。CSR読出しが値を読み出し、CSR書込みは影響を及ぼさない。リセットが、ビットをクリアする。
【0079】
・オーバフロー・フィールド(ビット1)
ステータス待ち行列オーバフローが生じ、ステータス情報の損失を引き起こしたことを示す。ステータス待ち行列が満杯であって、メッセージングおよびコピー表明マシンが操作を完了するとき、ビットが設定され、そのステータスは、その待ち行列に対するものである。ステータス・レジスタが読み出されるとき、ビットがクリアされる。CSR書込みは、ビットの値に影響を及ぼさない。リセットが、ビットをクリアする。
【0080】
・ステータス索引フィールド(ビット2-3)
操作ステータスを適当なソフトウェア起動される操作に関連づけるために、ソフトウェアによって使用される。2つのビットは、準備ビットが設定されたときの入力コマンド・レジスタのステータス索引フィールドの直接のコピーである。
【0081】
・完了ステータス・フィールド(ビット4-7)
メッセージングおよびコピー表明マシン完了ステータスを示す。下の表4は、起こりうる完了ステータス・フィールド値を示す。
【0082】
【表4】
Figure 0003889879
CSR読出しが、値を読み出し、CSR書込みは、影響を及ぼさない。
【0083】
操作が、ステータス値0(成功した操作)で終了するとき、検出チップ、検出Xバー・ポートおよびエラーコードのフィールドは、有用な情報を含まない。1のステータス値の場合、エラーコード・フィールドは、検出されたエラーのタイプを示す。これらのエラーコードは、以下のエラーコード定義で規定される。ステータス値が2ないし8の場合、検出チップ、検出Xバー・ポートおよびエラーコードのフィールドは、エラーを返したトランザクションから返される値である。
・検出チップ(ビット8-9)および検出Xバー・ポート(ビット10-13)フィールド
トランザクション・エラー応答から直接取得される。フィールドは、どのチップまたはクロスバー・ポートがエラーを検出したかを特定する。
・エラーコード・フィールド(ビット14-18)
操作を失敗させたエラーのタイプを指定する。1の完了ステータス値に対するエラーコードは、以下の表5に挙げられる。
【0084】
【表5】
Figure 0003889879
【0085】
・完了長さ−1・フィールド(ビット42-63)
操作が終了したとき、コピーし残している量を示す。フィールドは、操作がTLBパージの検出でアボートされた場合のみ有効であることに注意されたい。フィールドは、操作がうまく完了したとき、マイナス1の値をもち、操作がアボートされた場合、ゼロまたはより大きい。操作が、TLBパージの検出によりアボートされたとき、この値を使用して操作を再発行する。CSR読出しが、値を読み出し、CSR書込みは、影響を及ぼさない。
【0086】
メッセージ受信エリア構成レジスタ
各々のEMAC160上に、メッセージを受信するのに使用されるメモリの領域のための基準アドレスを指定する1つのメッセージ受信エリア構成レジスタがある。構成レジスタのフォーマットは、図8に示される。メッセージ受信エリア構成レジスタのフィールドは、次のように定義される。
・非インタリーブ・アクセス(ビット29)、行(ビット30-32)、仮想リング(ビット33-35)、仮想バンク(ビット36-37)およびページ(ビット38-48)・フィールド
メッセージ受信エリアの基準アドレスを指定する。
・サイズ・フィールド(ビット62-63)
メッセージ受信エリアのサイズを指定する。表6は、メッセージ受信エリアについて起こりうるサイズを示す。
【0087】
【表6】
Figure 0003889879
【0088】
メッセージ受信エリア・オフセット・レジスタ
2つのメッセージ受信エリア・オフセットCSRが各々のEMAC160上にある。
・メッセージ受信エリア利用可能オフセット・レジスタ
新しいメッセージのために利用できるメッセージ受信エリアの領域を指定する。
・メッセージ受信エリア占有オフセット・レジスタ
現在メッセージで占有されている領域を指定する。
【0089】
一方のCSRは、メッセージを受信するために利用できる空間が始まるメッセージ受信エリアへのオフセットを指定し、もう一方は、占有メモリが始まるところを指定する。
【0090】
メッセージ受信エリア・オフセット・レジスタのフォーマットは、図9に示される。レジスタのフィールドは、次のように定義される。
・オフセット・フィールド(ビット39-58)
メッセージ受信エリアへのオフセットを指定する。レジスタは通常、(新しいメッセージについて空間を割り当てるために)ハードウェアによって読み出され、書き込まれる。それは、十分な利用可能エリアが新しいメッセージのために存在するか調べるためにハードウェアによって読み出され、以前に受信されたメッセージによって消費されたメモリを解放するために、ソフトウェアによって書き込まれる。
【0091】
メッセージ受信エリア構成レジスタのサイズ・フィールドに依存して、オフセット・フィールドの最上位ビットのいくつかは、使用されず、ソフトウェアによって書き込まれるときゼロに設定されなければならないことに注意されたい。以下の表7は、メッセージ受信エリアの各々の起こりうるサイズに対して使用されるビットを示す。
【0092】
【表7】
Figure 0003889879
【0093】
メッセージ受信エリア利用可能オフセットが、表7に指定されるビットの中のメッセージ受信エリア占有オフセットに等しく、表で指定されるものより上位の1ビットが、異なるとき、メッセージ受信エリアは、満杯である。オフセット・フィールドのビット39は、メッセージ受信エリアへのオフセットとして使用されないが、サイズが16メガバイトであるとき、メッセージ受信エリアの満杯ステータスを決定するためにのみ使用されることに注意されたい。
【0094】
メッセージ完了待ち行列構成レジスタ
各々のEMAC160は、1つのメッセージ完了待ち行列構成レジスタをもち、このレジスタは、メッセージ完了ステータスを書き込むために使用されるメモリの領域のための基準アドレスを指定する(「メッセージ完了待ち行列エリア」のセクションを参照されたい)。
【0095】
構成レジスタのフォーマットは、図10に示される。レジスタの全てのフィールドは、読出しアクセスによって読み出され、書込みアクセスによって書き込まれる。メッセージ完了待ち行列構成レジスタのフィールドは、次のように定義される。
・行(ビット30-32)およびページ(ビット38-49)・フィールド
メッセージ完了待ち行列の基準アドレスを指定する。基準アドレスは、40ビット物理アドレスの行およびページ・フィールドによって指定される。ハードウェアは、特定のEMAC上の全てのバンクを使用するので、仮想リングおよび仮想バンク・フィールドは基準アドレスの一部ではない。
・割込みプロセッサ・フィールド(ビット53-56)
メッセージ完了ステータスがメッセージ完了待ち行列に入れられるとき、宛先ノード内の16プロセッサのうちのどれに割り込むかを指定する。
・割込み番号フィールド(ビット57-62)
メッセージ完了ステータスがメッセージ完了待ち行列に入れられるとき、宛先ノード上のプロセッサに割り込むために使用される割込み番号を指定する。
・待ち行列許可フィールド(ビット63)
関連するメッセージ受信エリアにメッセージを受信することを許可する。ビットは、リセットによってクリアされる。
【0096】
メッセージ完了待ち行列オフセット・レジスタ
各々のEMAC160は、3つのメッセージ完了待ち行列オフセットCSRをもつ。
・メッセージ完了待ち行列予約オフセット
メッセージ完了ステータスのための空間が予約されているメッセージ完了待ち行列メモリ・エリアへのオフセットを指定する。
・メッセージ完了待ち行列書込みオフセット
受信されたメッセージ・ステータスが書き込まれるオフセットを指定する。
・メッセージ完了待ち行列読出しオフセット
メッセージ完了ステータスが読み出されるオフセットを指定する。
【0097】
ソフトウェアは、ゼロ値を書き込むことによってこれらのCSRを初期化しなければならないが、その後ハードウェアのみが、レジスタを読む出しまたは書き込む必要がある。
【0098】
メッセージ完了待ち行列オフセット・レジスタのフォーマットは、図11に示される。レジスタのフィールドは、次のように定義される。
・オフセット・フィールド(ビット49-60)
メッセージ完了待ち行列メモリ・エリアへのオフセットを指定する。フィールドの最上位ビット(ビット49)は、オフセットの一部でないが、待ち行列の満杯または空のステータスを決定する。メッセージ完了待ち行列読出しオフセットのビット50-60が、メッセージ完了待ち行列書込みオフセット・レジスタのビット50-60に等しく、各々のレジスタのビット49が異なるとき、メッセージ完了待ち行列は満杯である。各々のオフセットのレジスタのビット49-60が同じ値をもつとき、待ち行列は空である。
【0099】
メッセージ割当てアドレス
各々のEMAC160は、メッセージ割当てアドレスをもつ。このCSRアドレスは、それに関連するレジスタをもたないが、アクセスされるとき他のCSRを操作するという点で、特別である。実施される操作は、メッセージ受信エリアおよびメッセージ完了待ち行列に空間が存在することを調べ、それが存在する場合、受信エリアに空間を割り当て、メッセージ完了待ち行列にエントリを予約することである。
【0100】
以下の機能が、このアドレスへのアクセスによって実施される。
・メッセージ受信エリアがメッセージを受信できることを確認する。これは、メッセージ完了待ち行列構成レジスタの待ち行列許可ビットを調べることによって実施される。
・エントリが、メッセージ完了待ち行列に存在することを確認する。確認に必要とされる情報は、メッセージ完了待ち行列予約オフセットおよびメッセージ完了待ち行列読出しオフセット・レジスタである。行われる確認は、2つのオフセットの比較が待ち行列を満杯にしないことである。
・空間が、メッセージ受信エリアに存在することを確認する。この確認に必要とされる情報は、メッセージの長さ、メッセージ受信エリア利用可能メモリ・オフセットCSR、およびメッセージ受信エリア占有メモリ・オフセットCSRである。行われる確認は、占有オフセットから利用可能なオフセットを引いたものが、メッセージの長さより大きいことである。
・上記の確認のどれかが失敗である場合、割当ての試みの不成功のステータスを返す。そうでない場合、メッセージ受信エリア構成レジスタおよびメッセージ受信エリア利用可能オフセット・レジスタからの情報が、メモリ・アドレスを指定するソース・ノードに返される。
・メッセージ受信エリア利用可能オフセット・レジスタを、メッセージの長さずつインクリメントする。
・メッセージ完了待ち行列予約オフセットを、1ずつインクリメントし、1少ないエントリが利用可能であることを示す。
【0101】
表8は、宛先ノード上のEMAC160上のメモリ割当てCSRアドレスに送信される要求パケットに含まれる情報を指定する。
【0102】
【表8】
Figure 0003889879
【0103】
表9は、応答パケットで返されなければならない情報を示す。
【0104】
【表9】
Figure 0003889879
【0105】
メモリ割当てCSRアドレスにアクセスする操作は、要求および応答の両方に情報を含まなければならない。
【0106】
メッセージ完了エンキュー・アドレス
各々のEMAC160は、メッセージ完了エンキュー・アドレスをもち、このアドレスは、それに関連するレジスタをもたないが、アドレスが書き込まれるときに他のCSRが操作される点で、特別である。実施される操作は、完了ステータスを、メモリベースのメッセージ完了待ち行列に書き込むことである。
【0107】
メッセージ割当てCSRアドレスへの以前のアクセスが、完了ステータスのための空間を待ち行列に予約するので、メッセージ完了待ち行列は、満杯であってはいけない。
【0108】
このアドレスへの書込みによって実施される機能は以下に挙げられる。
・完了ステータスをメモリベースのメッセージ完了待ち行列に書き込む。書き込まれるメモリ・アドレスは、メッセージ完了待ち行列構成レジスタの行およびページ・フィールドと、メッセージ完了待ち行列書込みオフセット・レジスタのオフセット・フィールドとによって形成される。書き込まれるデータは、書込み要求パケットに含まれる。
・メッセージ完了待ち行列書込みオフセット・レジスタのオフセット・フィールドを、1ずつインクリメントする。
・メッセージ完了待ち行列が、メッセージ完了エンキュー・アドレスにアクセスする前に空である場合、メッセージ完了待ち行列構成レジスタによって指定されるプロセッサが、割り込まれる。
【0109】
図12は、メッセージ完了エンキューCSRアドレスへの書込みで送信される要求データについてフォーマットを示す。
【0110】
メッセージ完了デキュー・アドレス
各々のEMAC160は、メッセージ完了デキュー・アドレスをもち、そのアドレスは、関連するレジスタをもたないが、アドレスが読み出されるときに他のCSRを操作する点で特別である。実施される操作は、メモリベースのメッセージ完了待ち行列から完了ステータスを読み出すことである。
【0111】
このアドレスの読出しによって実施される機能を以下に挙げる。
・メッセージ完了待ち行列が空である場合、有効ビットをゼロとして応答を返す。
・メモリベースのメッセージ完了待ち行列から完了ステータスを読み出す。読み出されるメモリ・アドレスは、メッセージ完了待ち行列構成レジスタの行およびページ・フィールドと、メッセージ完了待ち行列読出しオフセット・レジスタのオフセット・フィールドとを使用することによって形成される。読み出されるデータは、応答パケットで返される。
・メッセージ完了待ち行列読出しオフセット・レジスタのオフセット・フィールドを、1ずつインクリメントする。
【0112】
図13は、メッセージ完了デキューCSRアドレスの読出しから返される応答データについてフォーマットを示す。アドレスの読出しから返される応答データのフィールドは、次のように定義される。
・有効フィールド(ビット0)
読出しアクセスのとき、メッセージ完了待ち行列の空のステータスを示す。
・完了ステータス・フィールド(ビット1-2)
受信されたメッセージの完了ステータスを指定する。表10は、起こりうる完了ステータス・フィールド値を示す。有効ビットは、読出しアクセスのとき、メッセージ完了待ち行列の空のステータスを示す。
【0113】
【表10】
Figure 0003889879
【0114】
完了ステータス値0および1の場合、メッセージのための空間が、メッセージ受信エリアに割り当てられており、メモリは、解放されなければならない。
・長さ−1・フィールド(ビット10-26)
メッセージの場合、割り当てられるメモリの長さを、メモリ・ライン(32バイトのインクリメント)で指定する。ゼロ値は、1メモリ・ライン(32バイト)を指定し、全てが1の値は、131,072メモリ・ライン(4メガバイト)を指定する。
・開始オフセット・フィールド(ビット40-58)
メッセージの開始に対するメモリ受信エリアへのオフセットを指定する。
【0115】
図14および図15は、メッセージングおよびデータコピー・ハードウェアによって使用されるメモリ構造を記述する。3つのデータ構造は、
・メッセージ受信エリア
・メッセージ完了待ち行列
・ブロック変換テーブル
である。
【0116】
メッセージ受信エリア
メッセージ受信エリアは、メッセージを書き込むことができる、メモリのオペレーティング・システム割当ての領域である。メッセージ受信エリアは、メッセージが受信されるとき、メッセージ空間を割り当て、メッセージを書き込むハードウェアによって制御される。
【0117】
メッセージ受信エリアへのアクセスは全て、コヒーレントなメモリ・アクセスによる。プロセッサは、メッセージ受信エリアから直接、またはデータコピー・ハードウェアを使用することによって、メッセージをコピーすることができる。
【0118】
メッセージ完了待ち行列エリア
メッセージ完了待ち行列エリアは、ソフトウェアが受信したメッセージを処理できるようになるまで、メッセージ完了ステータスを保有する。
【0119】
具体例であるHewlett-PackardのExcalibur製品で、各々のメッセージ完了待ち行列エリアのサイズは、16Kバイトに固定される。各々のエントリは、大きさが8バイトであり、待ち行列あたり2048エントリになる。メッセージ完了待ち行列エリアは、制御EMAC160に物理的に接続されるメモリにある。
【0120】
待ち行列エントリのその物理メモリ・アドレスへのマッピングは、表11に示される。メッセージ完了待ち行列構成レジスタのページ・フィールドは、Config.ページと呼ばれ、メッセージ完了待ち行列オフセット・レジスタのオフセット・フィールドは、エントリ・オフセットと呼ばれる。アドレスは、システム構成レジスタのノーマル・メモリ・インタリーブ・フィールドの値に基づいてそれぞれ生成されることに注意されたい。これは、ソフトウェアが、ローカル・ノード上のEMACに対する全てのメッセージ完了待ち行列エリアによって使用されるメモリの連続する領域を割り当てることを可能にする。
【0121】
【表11】
Figure 0003889879
【0122】
図14は、メッセージ完了待ち行列およびそのエントリの1つについてフォーマットを示す。メッセージ・ステータス・エントリCSRのフィールドは、次の通りである。
・完了ステータス・フィールド(ビット0-1)
受信されたメッセージの完了ステータスを指定する。表12は、起こりうる完了ステータス・フィールド値を示す。
【0123】
【表12】
Figure 0003889879
【0124】
完了ステータス値が0および1の場合、メッセージのための空間がメッセージ受信エリアに割り当てられており、メモリは解放されなければならない。
・長さ−1・フィールド(ビット10-26)
メッセージのために、メモリ・ライン(32バイトのインクリメント)の数で割り当てられたメモリを指定する。ゼロの値は、1メモリ・ライン(32バイト)を指定し、全てが1の値は、131,072メモリ・ライン(4Mバイト)を指定する。
・開始オフセット・フィールド(ビット40-58)
メッセージの開始に対するメモリ受信エリアへのオフセットを指定する。
【0125】
ブロック変換テーブル定義
ブロック変換テーブル(BTT)は、周辺装置のアドレス空間から物理メモリへの変換の手段を、I/Oシステムに提供する。それは、連続するアドレスから物理メモリのページへのマッピングを指定する。テーブルは、各々のエントリがワード(有利には4バイト)の大きさをもつメモリの1ページに限定される。
【0126】
表の中の各々のエントリは、ブロック変換エントリ(BTE)と呼ばれ、それは、物理メモリのページのためのページ・フレームを指定する。好ましい実施例で、ページは4096バイトであり、BTTは、4メガバイトの最大アドレス空間を指定する。しかし、この発明の理念に基づいて他の構成が選択されてもよいことがわかるであろう。
【0127】
図15は、ブロック変換テーブルおよびそのエントリの1つについてフォーマットを示す。BTE CSRのフィールドは、次の通りである。
・有効フィールド(ビット0)
有効エントリを示す。メッセージングおよびコピー表明マシンが、有効ビットセットが設定されていないエントリを使用する必要がある場合、操作は、問題を示す完了ステータスでアボートされる。
・読出し/書込みフィールド(ビット1)
メッセージングおよびコピー表明マシンによって無視される。
・物理ページ・フレーム・フィールド(ビット4-31)
操作のソースまたは宛先のいずれかについてページ・フレームを示す。
【0128】
ソフトウェア・インタフェース
メッセージングおよびデータコピー・ハードウェアのためのソフトウェア・インタフェースは、以下の機能から構成される。
・リセットし、初期化する。
・入力レジスタをプログラムする。
・操作完了ステータスを取得する。
・メッセージ完了ステータスを取得する。
・メッセージを読み出す。
【0129】
リセットおよび初期化
システムがリセットされたあと、全てのハードウェアは、コピー操作を受け入れ、実行する準備ができている状態になる。リセットは、全てのメッセージ受信待ち行列を不許可にする。メッセージを送信するために、宛先ノード・メッセージ受信エリアおよびメッセージ完了待ち行列CSRが、初期化されなければならない。
【0130】
図示され個別に上述したが、完全に構成されたノードには、有利な複数のEMACがあり、各々は、メッセージ受信エリアの独立した制御を提供する。どのメッセージ待ち行列も、メッセージング・メモリの量を低減するために不許可にすることができる。これは、メッセージングのために使用される帯域幅を低減しないが、別々に管理されるメッセージ受信エリアの数を低減する。
【0131】
メッセージ受信エリアおよびメッセージ完了待ち行列のために使用されるメモリは全て、ワイヤードダウン(wired-down)されなければならない。(ワイヤードダウンとう用語は、仮想から物理アドレスへの変換が、同一のもののままでなければならないことを示す)。要求は、(ブート時間に)メッセージングが初期化される時間から始まる。
【0132】
入力レジスタをプログラムする
メッセージまたはデータコピー操作は、入力レジスタをプログラムすることによって起動される。以下のシーケンスは、コピー操作のために入力レジスタを初期化する。
ステップ1:CSR操作コンテクスト・レジスタ装備ビットを設定する。
ステップ2:ソース物理ページ・フレーム・レジスタに書き込む。
ステップ3:ソース・オフセット・レジスタに書き込む。
ステップ4:宛先物理ページ・フレーム・レジスタに書き込む。
ステップ5:宛先オフセット・レジスタに書き込む。
ステップ6:入力コマンド・レジスタに書き込み、全てのフィールドを指定し、準備ビットを設定する。
ステップ7:CSR操作コンテクスト・レジスタのトリガ・ビットを調べる。
【0133】
ステップ1は、割込み/トラップが、データ・ムーバ入力レジスタに上書きする、または仮想から物理へのアドレス・マッピングを変更するときを検出するように、操作を装備する。これら2つのイベントのいずれかが生じる場合、トリガ・ビットは、ステップ7について設定されない。
【0134】
ステップ2は、ソース物理ページ・フレーム・レジスタを初期化する。レジスタは、2つのアドレスの一方で書き込まれる。BTTを使用してソース領域を指定する場合、レジスタは、BTTの基準アドレスで初期化されなければならない。そうでない場合、ソース領域は、メモリの1ページ内に含まれ、レジスタは、メモリのそのページのアドレスで初期化されなければならない。
【0135】
ステップ3は、ソース・オフセット・レジスタを初期化する。レジスタは、ソース領域の開始へのオフセットで初期化される。コピーがメモリの1ページからであるとき、オフセットは、メモリのそのページへのバイト数である。そうでない場合、オフセットは、BTT(4メガバイトより少ない)の始まりからのバイト数である。BTTが使用されるとき、最上位10ビットは、BTTテーブルへの索引であり、最下位12ビットは、ページへのオフセットである。
【0136】
ステップ4およびステップ5は、ステップ2およびステップ3のソース・レジスタと同様に、宛先物理ページ・フレームおよび宛先オフセット・レジスタを初期化する。
【0137】
ステップ6は、入力コマンド・レジスタを初期化して、操作の長さおよびモードを設定する。準備ビットは、1に設定される。全ての他のフィールドの値は、要求されるメッセージまたはコピーのタイプに基づいて設定される。このレジスタが、書き込まれると、メッセージングおよびコピー表明マシンは、直ちに操作を始めることができる。
【0138】
ステップ7は、CSR操作コンテクスト・レジスタのトリガ・ビットを調べて、操作が、うまく始まったかどうかを判断する。
【0139】
B ゼロ操作
メモリ・ゼロ操作は、ステップ2およびステップ3がスキップされることを除いて、上述のようにセットアップされる。
【0140】
メッセージング操作
メッセージ操作は、宛先物理ページ・フレーム・レジスタが、宛先ノードおよび仮想リング情報を含むだけでよいことを除いて、上述のようにセットアップされる。さらに、宛先オフセット・レジスタは、書き込まれる必要がない。
【0141】
仮想アドレスを使って初期化する
ソースまたは宛先物理ページ・フレーム・レジスタは、仮想アドレスに基づいて初期化することができる。仮想アドレスを用いて初期化するために、LPA(ロード物理アドレス)命令は、仮想から物理へのアドレス変換を提供する。
【0142】
ソースまたは宛先アドレスのいずれかが、非ワイヤード仮想メモリから取得されるとき、入力コマンド・レジスタのTLBパージ・アボート許可ビットが、設定されなければならない。TLBパージ・トランザクションが、コピー操作より前またはその間に検出される場合、このビットは、メッセージングおよびコピー表明マシンに、操作をアボートさせることができる。アボートされた操作は、再開され、操作を完了することができる。
【0143】
操作が、先への進行を保証しつつアボートされたとき、コピー操作は、コピーし残している長さで再開することができる。アボートされたメッセージ操作は、オリジナルの長さで再開されなければならない。仮想ソース・アドレッシングを使用するメッセージの場合、先への進行は保証されない。
【0144】
入力レジスタが利用可能であるときを判断する
入力レジスタがプログラムされるために利用できるときを決定する2通りの方法がある。第1に、入力コマンド・レジスタを任意の時間に読み出して、準備ビットの状態を判断する。ビットが設定されているとき、メッセージングおよびコピー表明マシンは、入力レジスタの制御をもち、ソフトウェア書込みが、無視される。ビットがハードウェアによってクリアされると、ソフトウェアは、入力レジスタをプログラムし、操作をセットアップすることができる。ソフトウェアは、準備ビットを設定することによって、入力レジスタをプログラムすることを完了する。
【0145】
第2に、ハードウェアが準備ビットをクリアするとき、割込みをプロセッサに送信することができる。割込みは、プロセッサ内でマスクされ、プロセッサは、割込みペンディング・レジスタをポーリングして、入力レジスタの利用可能性を判断することができる。
【0146】
操作完了ステータスを取得する
メッセージングおよびコピー操作のステータスを取得するため、プロセッサは、操作ステータス待ち行列レジスタを読み出す。EPACによって維持される2つのステータス待ち行列があり、そこに結合される各々のプロセッサについて1つある。各々の待ち行列は、3要素の深さである。操作が終了すると、メッセージングおよびコピー表明マシンは、ステータスを待ち行列に入れる。操作ステータス待ち行列レジスタが読み出されるとき、エントリは、待ち行列から除去される。順序は、入力レジスタにプログラムされる操作および操作ステータス待ち行列レジスタから読み出されるステータスの間で、維持されないことがある。入力コマンド・レジスタのステータス索引フィールドを使用して、操作タグを指定する。操作ステータス待ち行列レジスタから読み出されるステータス索引フィールドの値を使用して、ステータスを起動操作に関連付ける。
【0147】
メッセージングまたはコピー操作の完了時に、割込みをプロセッサに送信することができる。割込み番号は、入力コマンド・レジスタの割込み番号フィールドによって指定される。割込みが送信されるプロセッサは、操作で入力コマンド・レジスタを初期化したプロセッサである。
【0148】
メッセージ完了ステータスを取得する
メッセージ完了ステータスが待ち行列に入れられると、プロセッサは、割込みされる。プロセッサは、各々のメッセージ完了待ち行列エントリを1度に1つずつ読み出し、メッセージが、うまく到着したかどうか、メッセージの開始オフセット、および長さを判断する。クリアされた有効ビットをもつメッセージ完了待ち行列エントリは、待ち行列が空であることを示す。
【0149】
メッセージを読み出す
メッセージの開始および長さは、前のセクションで記述されたように、メッセージ完了待ち行列エントリを読み出すことによって取得される、すなわち「メッセージを読み出す」。メッセージは、データコピー・ハードウェアによって、またはプロセッサがメッセージを直接コピーすることによって、メモリから(それがインタリーブであろうと非インタリーブであろうと)アクセスすることができる。
【0150】
メッセージ割当てエリア・メモリを解放する
メッセージが、メッセージ受信エリアからコピーされると、占有であったメモリは、再利用のために解放されなければならない。メモリを解放するプロセスは、メモリが割り当てられ、メモリが解放される順序が異なることによって複雑化される。この複雑さのため、ソフトウェア構造を使用して、単純なビットマップの使用によって、解放されるメモリを整理し、ソートする。メッセージを解放するために、ビットマップの適当なビットが、設定される。解放されるメッセージの全てのビットが設定されると、ビットは、現在のメッセージ受信エリア占有オフセット・レジスタ値からスキャンされ、クリアされたビットの最初の発生を探す。そしてメッセージ割当てエリア占有オフセット・レジスタは、設定されたビットのストリングの終端に関連するオフセットに更新される。最後に、設定されたビットのストリングが、クリアされる。
【0151】
高度に利用可能なシステム上でのメッセージング
高度に利用可能なシステムで、インタリーブおよび非インタリーブの両方のメッセージは、各々のノードによって受信されなければならない。さらに、メッセージのこれら2つのタイプは、ソフトウェアまたはハードウェア問題のいずれかをもつノードからの腐敗を避けるために、別々に管理されなければならない。
【0152】
高度に利用可能なシステムは、ノード内のEMACのいくつかが、インタリーブ・メッセージを受信し、いくつかが、非インタリーブ・メッセージを受信し、あるいはいくつかのEMACが、不許可のそれらのメッセージ受信エリアをもつように、セットアップされる。
【0153】
前述の説明は、メッセージングのコンテクストの中で、データ移動操作の最適化を詳しく述べた。さらに、上述したように、データコピーおよびパイプライン処理のようなその他のデータ移動操作も、ここに開示されるようなアーキテクチャによって最適化できることが分かるであろう。
【0154】
さらに前述の説明は、データコピー操作がハードウェアによって実施される一方、操作の間、TLBパージについて監視することによって、データコピー操作の更なる新しさの基礎を開示する。TLBパージ警告機構によって、ハードウェアベースのデータコピー操作の間、仮想メモリページから物理メモリページへの変換のマッピングの完全性を維持することができる。従来技術で、データコピー操作がソフトウェアによって一部実施される場合、ソフトウェアが、マッピングの完全性を制御することもできる。TLBパージ警告機構は、ソフトウェアによって以前に実施された操作がハードウェアによって実施されるところで、この発明に従ってその制御を提供する。
【0155】
一般に、データコピーは、メモリ内の物理ページまたはメモリ内の仮想ページから指定することができる。データ移動が、物理メモリ位置の間で実際に始まる前に、仮想ページは、その仮想ページを物理ページに変換する追加のマッピングを必要とする。しかし、データコピー操作を発行し、または実際にデータを移動するプロセスの間に、コンピュータの他の機能がマッピングを変更する場合、問題が生じる。これが生じるとき、操作は中止され、正確なマッピングが再確立されたら(有利に中止点から)再開されなければならない。中止し、再開を待つ必要の検出は、TLBパージ警告によって実現にされ、ここで図17に関して記述される。
【0156】
上述したように、TLBパージは、アドレス変換バッファのパージであり、プロセッサに、仮想ページから物理ページへの変換に変更があったことを示す。図17を参照して、ブロック1501で、TLBパージ警告機構が、データコピー操作を始める前に装備される。図1および図16に関して上述した典型的なアーキテクチャ構成で、これは、図4に関して上述した操作コンテクストCSRに書き込むことによって行われる。図4では、操作コンテクストCSRは、装備ビットおよびトリガ・ビットをもつように示されていることに気付くであろう。従って、装備ビットをその操作コンテクストCSRに設定することは、TLBパージ警告によって制御される操作がセットアップされていることを、ハードウェアに知らせる。
【0157】
そしてブロック1502で、TLBパージ警告機構は、TLBパージについて監視し始める。この監視が続く一方、ブロック1503で、仮想から物理への変換が、現在定められているマッピングに従って始まる。この変換は、指定されるデータコピー操作の中でソースおよび宛先位置の両方について行われる。この変換が完了すると、データ・ムーバ・レジスタが、コピー操作に備えてセットアップされ(ブロック1504)、入力コマンドCSR内の「準備」ビット(図3を参照)が設定される(ブロック1505)。ブロック1505における入力コマンドCSR「準備」ビットの設定は、実際のデータ移動のための全ての準備が完了したことを、ハードウェアに知らせる。
【0158】
ここでブロック1506で、ハードウェアは、ブロック1501で機構が装備されてからTLBパージが起こったかどうか調べる。何も起こっていない場合、操作コンテクストCSRの「装備」ビットは、クリアされ、操作コンテクストCSRの「トリガ」ビットが、設定される(ブロック1507)。あるいは、1つまたは複数のTLBパージが起きた場合、操作コンテクストCSRの「装備」ビットは、クリアされ、操作コンテクストCSRの「トリガ」ビットも、クリアされる(ブロック1508)。次にブロック1509で、操作コンテクストCSRの「トリガ」ビットを調べる。それが、クリアである(すなわちTLBパージが起きた)場合、データコピー操作は、ブロック1501に戻る。他方、それが設定されている(すなわちTLBパージが生じなかった)場合、データコピー操作を実施することができる。
【0159】
引き続き図17を参照して、ブロック1510で、データコピー操作が開始される。ブロック1510でデータコピーが行われている間、TLBパージの監視も続くことに注意されたい。これは、先への進行を保証する。コピー操作が完了する前に、TLBパージが検出される場合、機構は、その時点で操作を中止し、どれくらいのデータが転送し残されているかを指定するステータス情報を有利に待ち行列に入れ、操作を完了する(ブロック1511および1513)。処理は、ブロック1501に戻る。データコピー操作が、最終的に再開されるとき、データ・ムーバは、この待ち行列に入れられたステータス情報を使用して、データコピー操作を、それがアボートされた点から再開する。
【0160】
他方、ブロック1511で、TLBパージが、データコピー操作の間に検出されない場合、操作は、うまく完了する(ブロック1512)。ブロック1514でハードウェアは、成功した完了を示すステータスを操作完了ステータス待ち行列に入れる。
【0161】
さらに、TLBパージの監視は、変換されているメモリ・アドレスに特化しないことに注意されたい。機構は、任意の(複数の)メモリ・アドレスに影響を及ぼすどのTLBパージについても監視し、トリガする。また一般に、TLBパージは、まれなイベントであるので、上述したようなTLBパージ警告機構によって提供される対応策は、実質的にランタイムに影響を及ぼさずに、ハードウェア駆動のデータコピー操作の完全性を維持することに留意されたい。さらに、ハードウェア上のランタイムは、たとえTLBパージ警告が許可されていても、ソフトウェアによって実施される同等の操作よりも劇的に速い。
【0162】
さらに、ここで述べたTLBパージ機構は、データコピー操作に使用することに制限されないことが分かるであろう。それは、「フェッチおよびインクリメント」および「フェッチおよびデクリメント」のような他のプロセッサ操作でも非常に有利である。
【0163】
この発明およびその利点を詳細に記述してきたが、多様な変更、置き換えおよび改造を、この発明の理念から逸脱することなく行うことができることを理解すべきである。特に、Hewlett-PackardのExcalibur製品を例示的に使用してこの発明を説明したことは、既に述べたが、そのシステム設計は、この発明を実現できる1つの構成のみを示すパラメータを選択する。上記システム設計および構成の中の変えられる要素は、この発明の理念から逸脱することなく変更できることが分かるであろう。
【0164】
本発明は例として次の実施態様を含む。
【0165】
(1)ハードウェア環境で実現されるデータ移動操作の間、仮想メモリ変換を制御する方法であって、
仮想メモリからのデータ移動操作のセットアップおよび実行の間、ハードウェア操作として、アドレス変換バッファ(TLB)のパージの発生について監視するステップ(1502)と、
データ移動操作の完了より前にTLBパージを検出したとき(1511)、仮想メモリから物理メモリへの正確なマッピングが再確立するまで、データ移動操作をアボートするステップと、
を含み、上記TLBパージの発生は、仮想メモリから物理メモリへのマッピングに変更が生じたことを示す、仮想メモリ変換を制御する方法。
【0166】
(2)さらに、データ移動操作が完了したかまたはアボートされたかに関するステータス情報を、待ち行列に入れるステップ(1513,1514)を含む、上記(1)記載の仮想メモリ変換を制御する方法。
(3)上記ステータス情報は、アボートの前にうまく移動したデータの識別を含む、上記(1)または(2)に記載の仮想メモリ変換を制御する方法。
(4)データ移動操作は、データコピー操作である、上記(1)ないし(3)のいずれかに記載の仮想メモリ変換を制御する方法。
【0167】
(5)上記ハードウェア環境は、
データ移動操作の開始時に第1のフラグを設定する手段(1501)と、
周期的にTLBのパージについて監視する手段(1502)と、
仮想アドレス空間から物理アドレス空間へ変換する手段(1503)と、
データ・ムーバ上の1つまたは複数の入力レジスタをセットアップする手段(1504)と、
上記変換する手段および上記セットアップする手段に応答し、TLBのパージが検出されなかった場合、第1のフラグをクリアし、第2のフラグを設定する手段(1506,1507)と、
上記変換する手段および上記セットアップする手段に応答し、TLBのパージが検出された場合、第1のフラグをクリアし、第2のフラグをクリアする手段(1506,1508)と、
第2のフラグを調べる手段(1509)と、
第2のフラグが設定されている場合、データの物理的な移動を開始する手段(1510)と、
データの物理的な移動が完了する前にTLBのパージが検出されない場合、第1の操作完了ステータスを待ち行列に入れる手段(1511,1512,1514)と、
データの物理的な移動が完了する前にTLBのパージが検出される場合、データ移動操作をアボートし、第2の操作完了ステータスを待ち行列に入れる手段(1511,1512,1513)と、
を備える、上記(1)ないし(4)のいずれかに記載の仮想メモリ変換を制御する方法。
【0168】
(6)上記第1の操作完了ステータスは、データ移動操作の完了を示す(1514)、上記(5)記載の仮想メモリ変換を制御する方法。
(7)上記第2の操作完了ステータスは、アボートより前にうまく移動したデータを識別する(1513)、上記(5)または(6)記載の仮想メモリ変換を制御する方法。
【0169】
(8)物理的なデータ移動が開始する前にTLBのパージが検出されなかった場合、第1のフラグをクリアし、第2のフラグを設定する上記手段が許可される(1507)、上記(5)ないし(7)に記載の仮想メモリ変換を制御する方法。
(9)物理的データ移動が開始する前にTLBのパージが検出された場合、第1のフラグをクリアし、第2のフラグをクリアする上記手段が許可される(1508)、上記(5)ないし(8)のいずれかに記載の仮想メモリ変換を制御する方法。
【0170】
【発明の効果】
本発明によれば、ハードウェアによるデータ移動操作の間に、仮想空間から物理空間へのマッピングに変更が生じた場合でも、データ移動操作の完全性を保証することができる。
【図面の簡単な説明】
【図1】この発明が実施可能な典型的なアーキテクチャ構成を示すブロック図。
【図2】制限のない長さのノード間のメッセージングを実現するために、図1のアーキテクチャ構成によって実施されるステップを示すフロー図。
【図3】この発明を実現する好ましい実施例の入力コマンド・レジスタのレイアウトを示す図。
【図4】この発明を実現する好ましい実施例の操作コンテクスト・レジスタのレイアウトを示す図。
【図5】この発明を実現する好ましい実施例のソース/宛先物理ページ・フレーム・レジスタのレイアウトを示す図。
【図6】この発明を実現する好ましい実施例のソース/宛先オフセット・レジスタのレイアウトを示す図。
【図7】この発明を実現する好ましい実施例の操作ステータス待ち行列レジスタのレイアウトを示す図。
【図8】この発明を実現する好ましい実施例のメッセージ受信エリア構成レジスタのレイアウトを示す図。
【図9】この発明を実現する好ましい実施例のメッセージ受信エリア・オフセット・レジスタのレイアウトを示す図。
【図10】この発明を実現する好ましい実施例のメッセージ完了待ち行列構成レジスタのレイアウトを示す図。
【図11】この発明を実現する好ましい実施例のメッセージ完了待ち行列オフセット・レジスタのレイアウトを示す図。
【図12】この発明を実現する好ましい実施例のメッセージ完了エンキューCSRアドレスのレイアウトを示す図。
【図13】この発明を実現する好ましい実施例のメッセージ完了デキューCSRアドレスのレイアウトを示す図。
【図14】この発明を実現する好ましい実施例のメッセージ完了待ち行列およびそのエントリの1つについてフォーマットを示す図。
【図15】この発明を実現する好ましい実施例のブロック変換テーブルおよびそのエントリの1つについてフォーマットを示す図。
【図16】この発明がマルチプロセッサ・マルチノード・システムで実施可能である典型的なアーキテクチャ構成を、機能レベルで示すブロック図。
【図17】この発明のTLBパージ警告機構の操作を示すフロー図。
【符号の説明】
150 エクスキャリバ・プロセッサ・エージェント・チップ
151,152 入力レジスタ
153 メッセージ/コピー表明マシン
154,155 ステータス待ち行列
160 メモリ・アクセス・コントローラ
162 メッセージ完了表明マシン
170,175,180,185 トランザクション

Claims (3)

  1. ハードウェア環境で実現されるデータ移動操作の間、仮想メモリ変換を制御する方法であって、
    仮想メモリからのデータ移動操作のセットアップおよび実行の間、仮想メモリから物理メモリへのマッピングに変更が生じたことを示すアドレス変換バッファ(TLB)のパージの発生を、ハードウェア操作として監視するステップと、
    上記データ移動操作の完了より前にTLBのパージを検出したとき、仮想メモリから物理メモリへの正確なマッピングが再び確立するまで、データ移動操作をアボートするステップと、を含み、
    該アボートするステップが、データ移動操作が完了したかまたはアボートされたかに関するステータス情報を、待ち行列に入れるステップをさらに含む、
    仮想メモリ変換を制御する方法。
  2. ハードウェア環境で実現されるデータ移動操作の間、仮想メモリ変換を制御する方法であって、
    仮想メモリからのデータ移動操作のセットアップおよび実行の間、仮想メモリから物理メモリへのマッピングに変更が生じたことを示すアドレス変換バッファ(TLB)のパージの発生を、ハードウェア操作として監視するステップと、
    上記データ移動操作の完了より前にTLBのパージを検出したとき、仮想メモリから物理メモリへの正確なマッピングが再び確立するまで、データ移動操作をアボートするステップと、
    データ移動操作が完了したかまたはアボートされたかに関するステータス情報を、待ち行列に入れるステップと、
    アボートの前にうまく移動したデータの識別を含むステータス情報を、待ち行列に入れるステップと、
    を含む、仮想メモリ変換を制御する方法。
  3. データコピー操作の間、仮想メモリ変換を制御するハードウェアであって、
    仮想メモリからのデータ移動操作のセットアップおよび実行の間のアドレス変換バッファ(TLB)のパージの発生は、仮想メモリから物理メモリへのマッピングに変更が生じたことを示し、
    データ移動操作の開始時に第1のフラグを設定する手段と、
    周期的にTLBのパージについて監視する手段と、
    仮想アドレス空間から物理アドレス空間へ変換する手段と、
    データ・ムーバ上の1つまたは複数の入力レジスタをセットアップする手段と、
    上記変換する手段および上記セットアップする手段に応答し、TLBのパージが検出されなかった場合、第1のフラグをクリアし、第2のフラグを設定する手段と、
    上記変換する手段および上記セットアップする手段に応答し、TLBのパージが検出された場合、第1のフラグをクリアし、第2のフラグをクリアする手段と、
    第2のフラグを調べる手段と、
    第2のフラグが設定されている場合、データの物理的な移動を開始する手段と、
    データの物理的な移動が完了する前にTLBのパージが検出されない場合、第1の操作完了ステータスを待ち行列に入れる手段と、
    データの物理的な移動が完了する前にTLBのパージが検出される場合、データコピー操作をアボートし、第2の操作完了ステータスを待ち行列に入れる手段と、
    を備えるハードウェア。
JP17440198A 1997-06-24 1998-06-22 仮想メモリ変換を制御する方法 Expired - Fee Related JP3889879B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/881,196 US6668314B1 (en) 1997-06-24 1997-06-24 Virtual memory translation control by TLB purge monitoring
US881,196 1997-06-24

Publications (2)

Publication Number Publication Date
JPH1185618A JPH1185618A (ja) 1999-03-30
JP3889879B2 true JP3889879B2 (ja) 2007-03-07

Family

ID=25377975

Family Applications (1)

Application Number Title Priority Date Filing Date
JP17440198A Expired - Fee Related JP3889879B2 (ja) 1997-06-24 1998-06-22 仮想メモリ変換を制御する方法

Country Status (2)

Country Link
US (2) US6668314B1 (ja)
JP (1) JP3889879B2 (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6668314B1 (en) * 1997-06-24 2003-12-23 Hewlett-Packard Development Company, L.P. Virtual memory translation control by TLB purge monitoring
US6766472B2 (en) * 2000-09-22 2004-07-20 Microsoft Corporation Systems and methods for replicating virtual memory on a host computer and debugging using the replicated memory
US20020087765A1 (en) * 2000-12-29 2002-07-04 Akhilesh Kumar Method and system for completing purge requests or the like in a multi-node multiprocessor system
US7430643B2 (en) * 2004-12-30 2008-09-30 Sun Microsystems, Inc. Multiple contexts for efficient use of translation lookaside buffer
US7506132B2 (en) * 2005-12-22 2009-03-17 International Business Machines Corporation Validity of address ranges used in semi-synchronous memory copy operations
US8032716B2 (en) * 2008-02-26 2011-10-04 International Business Machines Corporation System, method and computer program product for providing a new quiesce state
US8019922B2 (en) * 2008-10-21 2011-09-13 International Business Machines Corporation Interruption facility for adjunct processor queues
US20110219016A1 (en) * 2010-03-04 2011-09-08 Src, Inc. Stream Mining via State Machine and High Dimensionality Database
US10180909B2 (en) 2016-07-18 2019-01-15 International Business Machines Corporation Host-based resetting of active use of guest page table indicators
US10162764B2 (en) 2016-07-18 2018-12-25 International Business Machines Corporation Marking page table/page status table entries to indicate memory used to back address translation structures
US10176111B2 (en) 2016-07-18 2019-01-08 International Business Machines Corporation Host page management using active guest page table indicators
US10241924B2 (en) 2016-07-18 2019-03-26 International Business Machines Corporation Reducing over-purging of structures associated with address translation using an array of tags
US10802986B2 (en) 2016-07-18 2020-10-13 International Business Machines Corporation Marking to indicate memory used to back address translation structures
US10176006B2 (en) 2016-07-18 2019-01-08 International Business Machines Corporation Delaying purging of structures associated with address translation
US10168902B2 (en) 2016-07-18 2019-01-01 International Business Machines Corporation Reducing purging of structures associated with address translation
US10176110B2 (en) 2016-07-18 2019-01-08 International Business Machines Corporation Marking storage keys to indicate memory used to back address translation structures
US10248573B2 (en) 2016-07-18 2019-04-02 International Business Machines Corporation Managing memory used to back address translation structures
US10169243B2 (en) 2016-07-18 2019-01-01 International Business Machines Corporation Reducing over-purging of structures associated with address translation
US10282305B2 (en) 2016-07-18 2019-05-07 International Business Machines Corporation Selective purging of entries of structures associated with address translation in a virtualized environment
US10223281B2 (en) 2016-07-18 2019-03-05 International Business Machines Corporation Increasing the scope of local purges of structures associated with address translation
US10169233B2 (en) * 2017-06-05 2019-01-01 International Business Machines Corporation Translation lookaside buffer purging with concurrent cache updates
US10353825B2 (en) * 2017-06-16 2019-07-16 International Business Machines Corporation Suspending translation look-aside buffer purge execution in a multi-processor environment

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4456954A (en) * 1981-06-15 1984-06-26 International Business Machines Corporation Virtual machine system with guest architecture emulation using hardware TLB's for plural level address translations
JPS59227098A (ja) * 1983-06-08 1984-12-20 Fujitsu Ltd Tlbパ−ジリカバリ方式
JPS60254346A (ja) * 1984-05-31 1985-12-16 Toshiba Corp マルチプロセツサシステム
US5574936A (en) * 1992-01-02 1996-11-12 Amdahl Corporation Access control mechanism controlling access to and logical purging of access register translation lookaside buffer (ALB) in a computer system
JPH0784883A (ja) * 1993-09-17 1995-03-31 Hitachi Ltd 仮想計算機システムのアドレス変換バッファパージ方法
JPH07248974A (ja) * 1994-03-10 1995-09-26 Hitachi Ltd 情報処理装置
US5906001A (en) * 1996-12-19 1999-05-18 Intel Corporation Method and apparatus for performing TLB shutdown operations in a multiprocessor system without invoking interrup handler routines
US5966733A (en) * 1997-06-24 1999-10-12 Hewlett-Packard Company Optimizing data movement with hardware operations
US6668314B1 (en) * 1997-06-24 2003-12-23 Hewlett-Packard Development Company, L.P. Virtual memory translation control by TLB purge monitoring

Also Published As

Publication number Publication date
US20040221131A1 (en) 2004-11-04
US7117338B2 (en) 2006-10-03
US6668314B1 (en) 2003-12-23
JPH1185618A (ja) 1999-03-30

Similar Documents

Publication Publication Date Title
JP3889879B2 (ja) 仮想メモリ変換を制御する方法
US7533197B2 (en) System and method for remote direct memory access without page locking by the operating system
US5790807A (en) Computer sysem data I/O by reference among CPUS and I/O devices
US5864738A (en) Massively parallel processing system using two data paths: one connecting router circuit to the interconnect network and the other connecting router circuit to I/O controller
JP4977159B2 (ja) 特定のプロセッサを使ってアトミックなコンペア・アンド・スワップ命令を実行するための技術
JP4719655B2 (ja) ネットワーク上におけるプロセッサ制御技術
US5954794A (en) Computer system data I/O by reference among I/O devices and multiple memory units
US5852719A (en) System for transferring data over a network in which a data source sends only a descriptor which a data sink uses to retrieve data
US6119150A (en) Message passing distributed shared memory system that eliminates unnecessary software controlled cache flushes or purges
JP2001117859A (ja) バス制御装置
JPH0944424A (ja) 遠隔情報処理システム間のメッセージ伝送方法
US5941959A (en) System for transferring a data stream to a requestor without copying data segments to each one of multiple data source/sinks during data stream building
US5901328A (en) System for transferring data between main computer multiport memory and external device in parallel system utilizing memory protection scheme and changing memory protection area
JP4130465B2 (ja) メモリ転送処理サイズが異なるプロセッサに関してアトミックな処理を実行するための技術
US5495614A (en) Interface control process between using programs and shared hardware facilities
US5966733A (en) Optimizing data movement with hardware operations
JP2001333137A (ja) 自主動作通信制御装置及び自主動作通信制御方法
US7130936B1 (en) System, methods, and computer program product for shared memory queue
US20070079077A1 (en) System, method, and computer program product for shared memory queue
WO2008057833A2 (en) System and method for remote direct memory access without page locking by the operating system
JP2004206424A (ja) データ処理装置及びデータ処理装置におけるデータ転送方法
JP3375649B2 (ja) 並列計算機
US20080209085A1 (en) Semiconductor device and dma transfer method
US5931903A (en) Computer system data I/O by reference among multiple CPUS
US6434592B1 (en) Method for accessing a network using programmed I/O in a paged, multi-tasking computer

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040525

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040525

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061102

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061201

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees