JP3919765B2

JP3919765B2 - アービトレーションを管理する方法およびプロセッサ

Info

Publication number: JP3919765B2
Application number: JP2004112522A
Authority: JP
Inventors: ロバート・エイチ・ベル・ジュニア; ロバート・アラン・カルニョーニ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2003-04-10
Filing date: 2004-04-06
Publication date: 2007-05-30
Anticipated expiration: 2024-04-06
Also published as: US6950892B2; CN1551002A; US20040205275A1; JP2004318876A; CN100373360C

Description

本発明は、一般には、プロセッサおよびコンピューティング・システムに関し、より詳細には、プロセッサ内での、複数のスライス間で異なったレイテンシーを持つ要求パスおよびデータ・パス上での分散型バス・アービトレーションに関するものである。

今日の高速プロセッサには、様々なリソースと、１つまたは複数のプロセッサ・コア、キャッシュ、およびメモリとの間での非常に効率的な通信を可能にする、ハイレベルの統合化と非同期設計とが組み込まれており、その結果、データ転送および他の通信が、プロセッサ内でデジタル信号を伝播するほぼ限界の速度にて行われている。

具体的には、高速プロセッサの内部バスでは、異なったレイテンシーを持つパスを介してデータおよびコマンドを転送することができ、また、最大伝播時間のために制限された長い同期サイクルを必要とすることなしに、データおよびコマンドの妥当性が適切に検査され、それらが順序どおりに転送されるようにするロジックが備わっている。これは、今日のプロセッサにおいて、制御信号のみならず、データ値、プログラム命令、およびコマンドが、多数の論理ステージを介してパイプライン処理されることが可能で、これら信号が通過するステージの段数がチップ・レイアウトに大きく依存しているような場合には、特にそうである。

処理システム内でのこうした論理実装の一つに、プロセッサ・コア・アービタおよび１つまたは複数のスライス・アービタを含む、分散型アービトレーション方式がある。この分散方式によって、あるリソースからプロセッサ・コアへのデータ転送要求の早期の指示が可能になる。分散型アービトレーションの場合では、この早期の指示のタイミングは、データが存在する物理的な位置によって決まり、一方、集中型アービトレーション手法では一般に、要求を中央のポイントに中継し、アービトレーション決定を行い、次いでその決定をプロセッサ・コアに中継するのに必要な追加のサイクルを経た後でしか、こうした指示は提供されない。したがって、集中型アービトレーションでは、データが使用可能であることに関する指示をプロセッサ・コアに提供するのが非常に遅れることになる。

こうした分散型アービトレーション方式では、スライス・アービタに結合されたリソースが、１つまたは複数のスライスからプロセッサ・コアにデータを転送する準備ができたときに、当該スライス・アービタが、転送に必要なバスの割当てを決定し、それによって、いつ当該バス上にデータを置いてよいかをこれらスライスに対して指示する。それと同時に、かつ並行して、これらの要求はコア・アービタに送られ、その結果、プロセッサ・コアは、データ転送動作についての指示を早めに受け取る。コア・アービタは、要求元スライスからの個々のデータのレイテンシー分の時間が経過した後で、これら要求を受け取り、スライス・アービタ側で並行して行われている同じアービトレーション決定を履行し、データが届きつつあることをプロセッサ・コアに早めに指示し、続いて、これらスライスのデータがプロセッサ・コアでラッチ（またはロード）可能となる適切なときに、これらスライスから有効データが転送されるようにする。

一般に、単一サイクルのデータ転送動作のシーケンスを扱うのに必要なロジックはあまり複雑ではないが、それはそれぞれの要求元のレイテンシーが分かっており、また、スライス・アービタ側における（および並行してコア・アービタ側における）更なる許可は、それぞれのスライスの既知のレイテンシーに基づいて、別のスライスの要求を許可した後の特定の数サイクルの間は、ブロックすることができるからである。最長（最大）レイテンシーのスライスからの更なる要求をブロックする必要は全く無く、また、より速いスライスからの要求は、以前に調停された要求から届くデータがすでに選択されているので、データがコアに送信されはするが、ロードのためにスライス・アービタまたはコア・アービタのいずれによっても選択されることがないようなサイクルにおいては、ブロックされる。

上述のように、コア・アービタは、スライス・アービタと同じアービトレーション決定を行うが、これらスライスからコア・アービタに至るまでの異なったレイテンシーのせいで、必ずしもスライス・アービタ側と同じ順序で許可が行われるとは限らない。ただし、スライス・アービタによって許可されたのと同じ要求が、コア・アービタによって許可される。スライス・アービタ側とコア・アービタ側では、許可する順序が必ずしも一致しないことになるので、プロセッサ・コア側で（たとえば、戻ってきたデータのアドレスやタグを用いることによって）データを再度同期させる。コア・アービタは、マルチプレクサを介してこれらスライスをコアに結合する個々のバスを選択する決定を行う。コア・アービタは、所与のサイクルにおいて許可すべき適切なスライスを決定し、このようにして、適切なコア・レジスタにデータをロードするため適切なマルチプレクサ選択を行うことができる。

上述のように、コア・アービタは、それぞれのスライスのレイテンシーについての既知のサイクル数の差異に準拠した、スライス・アービタのための決定許可ロジック、に適合するロジックに基づいて決定を行う。いつスライス・アービタが、それぞれのスライスに関連するバスを許可したかを知ることによって、これらスライスから提供されるすべてのデータを使用することができ、また分散型アービトレーション手法では、スライス・アービタによって許可されたすべての転送の正常な終了が履行されるので、（所与のサイクルにおいて、マルチプレクサに対する競合が生じたために）データ転送に失敗したことをスライスに通知する必要はない。

しかし、もしこのようなシステムにおいてマルチサイクル要求が行われているとしたら、データが不正確にプロセッサ・コアに送られ、再試行処理または誤ったデータ転送が余儀なくされることになることもある。たとえば、最高（最大）レイテンシーのスライスが関与する要求が、すぐ後の最低（最小）レイテンシーのスライスからの要求の前に許可されるであろう。しかし、コア・アービタは、最高レイテンシーのスライスがかなり後にならないとコア・アービタに到来しないので、まず最低レイテンシーのスライスからの要求を許可することになる。単一サイクル要求については、順不同な決定の間で生じるマルチプレクサの競合を防ぐには、上述のブロッキングで十分であるが、もしマルチサイクル要求が許可されると、既存のブロッキング方式では競合を防ぐのには不十分である。

したがって、分散型アービトレーション・システムにおいて、改良型のマルチサイクル・データ転送動作を実現するアービトレーション・システムおよび方法を提供することが望ましい。

分散型アービトレーション方式において、改良型のマルチサイクル・データ転送動作を提供する目的は、ある方法および装置で実現される。当該方法では、データ転送動作がマルチサイクル要求かどうかを判断し、要求がマルチサイクル要求であるという判断に応答して、最高レイテンシーを持つ第１のスライスだけに関連するバスを許可する。この方法ではさらに、当該第１のスライスよりも低い（小さい）レイテンシーを持つ別の要求元スライスからの要求は、当該別の要求元スライスと最高レイテンシーを持つ第１のスライスとの間のレイテンシーの差に所定のサイクル数を加えた値による時間が経過するまで、これをブロックする。この方法ではまた、所定のサイクル数を経るまで、当該第１のスライスからの追加の要求もブロックする。この方法ではさらに、当該第１のスライスよりも高い（大きい）レイテンシーを持ったスライスからの要求も、当該第１のスライスと当該より高いレイテンシーを持つスライスとの間のレイテンシーの差を所定のサイクル・カウンタ値から引いた値による時間が経過するまで、これをブロックする。当該装置は、本発明の一実施形態にしたがってプロセッサ内で本発明の方法を遂行するためのロジックを有している。

本発明の前述その他の目的、特徴および利点は、添付の図面に示す本発明の好ましい実施形態についての以下のより具体的な記述から明らかなものとなる。

次に図面、特に図１を参照すると、本発明による方法および装置を実施するプロセッサ１０のブロック図が示されている。プロセッサ１０は一般に対称型マルチプロセシング・システム（ＳＭＰ）で使用されるタイプのものであり、他のプロセッサによって実行される命令を、キャッシュ内またはプロセッサ１０内のリソースにロードされた値と関係させることができるものである。しかし、本発明の技術は、（転送の受信側によって開始されたコマンドに結果的に応答しての完了要求であることもある）転送要求が転送の供給側から提供されるようなデータ転送機構、を有するいずれのプロセッサにも適用される。単一のプロセッサ・システムには、たとえばあるいくつかの値が記憶装置または他のリソースからプロセッサ・コアに再ロードされる場合に、こうしたデータ転送機構を含めることができる。本発明の文脈における「データ転送」という用語は、即時のデータ転送要求がデータの供給側で発生する場合におけるある動作を意味し、具体的な例では、データ転送を要求するリソースからプロセッサ・コアに至る動作を意味する。また「データ転送」によって規定される転送のタイプは、「データ値」（プログラムで使用される変数や定数など）の転送に限定されず、プログラム命令、内部コマンド、アドレス値、タグなどの転送をも含む。

プロセッサ１０は、プロセッサ１０内のプログラム命令の実行およびデータの移動を制御するコア実行ユニット１４を含む。コア実行ユニット１４は、命令シーケンサ・ユニット１２、プリフェッチ・ユニット１３、キャッシュ・インターフェイス・ユニット１６、オンボードのＬ１キャッシュ１７およびＬ２キャッシュ１８、ならびに浮動小数点ユニット１５など様々なリソースに結合されている。一部のデータ転送命令は、単一のデータ値に対するものであり、このデータ値は、特定の要求元スライスから単一サイクルで取り出すことができる。しかし、マルチサイクルのデータ転送命令もまたコア実行ユニット１４によってサポートされており、それには、複数のバス・サイクルが複数のデータ値を取り出せるよう調整されていることが必要であり、それはたとえば、Ｌ２キャッシュ１８の１つまたは複数のキャッシュ・ラインである場合がある。

データ転送命令は、他のリソースのコア実行ユニット１４への接続において、ならびに、コア実行ユニット１４以外の装置間での接続においても実施することもできる。本明細書に開示するバス・アービトレーションの技術は、データ転送動作を必要としており、また、データ、プログラム命令またはコマンドを処理システム内の別のユニット（転送受信側ユニット）に供給するための共有バス、に結合された複数のスライス（データ供給側）を有している、処理システムのどんな部分にも適用することができる。

次に図２を参照すると、プロセッサ１０内の回路の細部が示されている。本発明の技術を説明するために、Ｌ２キャッシュ１８とコア実行ユニット１４との間の接続を用いるが、本発明は、前述のように、プロセッサ１０内の他のユニット間の接続に拡張され、また高速相互接続バス上の複数プロセッサ間などのアービトレーション方式にも一般に適用され、この高速相互接続バスでは、受信側ユニットにて早期のデータ供給の指示を受け取ることが必要であり、それ故、インターフェイス上で分散型アービトレーションが実施されるのだということを理解されたい。

スライスＭ１、Ｍ２およびＭ３は、Ｌ２キャッシュ１８内の記憶ユニットであり、コア実行ユニット１４に対して異なったレイテンシーを持つが、それは、Ｌ２キャッシュ１８のアーキテクチュアのせいか、または、プロセッサ１０内でのスライスＭ１、Ｍ２およびＭ３の物理的位置のせいである場合がある。３つのスライスの図は例示的なものであり、本発明の技術は、任意の数のスライスに、または一般に、任意の種類のデータ提供元に拡張される。スライスＭ１、Ｍ２およびＭ３は、コア実行ユニット１４をＬ２キャッシュ１８に接続する関連バス２８Ａ〜２８Ｃを介して、コア実行ユニット１４に結合される。コア実行ユニット１４へのデータの供給も例示的なものであり、本発明の技術は、任意のデータ受信側に適用される。要求パス２６は、単一の制御パスのこともあるし、実際にはバス２８Ａ〜２８Ｃであることもあり、こうしたバスを介して、データ転送要求の指示がコア・アービタ２２に送られる。スライス・アービタ２４は、スライスＭ１、Ｍ２およびＭ３に結合され、それぞれのスライスＭ１、Ｍ２およびＭ３から要求の指示を受け取る。スライス・アービタ２４の役割は、スライスＭ１、Ｍ２およびＭ３からコア実行ユニット１４内のマルチプレクサ２０へのデータ供給に関する競合ならびに順序制御誤りを防ぐことである。マルチプレクサ２０は、１サイクルごとに、バス２８Ａ〜２８Ｃのうちの１つからしかデータを選択することができないので、スライス・アービタの役割は、同じサイクルでマルチプレクサ２０に届くはずの、スライスＭ１、Ｍ２およびＭ３からのデータ送信を行わないようにして、複数のスライスから同時に到来するデータのロスを回避することである。コア・アービタ２２の役割は、所与のサイクルで、（あるとすれば）どのデータをマルチプレクサ２０から供給するかを判断することである。マルチプレクサ２０は、プロセッサ・コア内に集中型マルチプレクサとして示されているが、本発明の他の実施形態によるシステム内のマルチプレクサでは、データ転送動作のデータの宛先がマルチプレクサ・アドレスによって決まり、また、データ有効信号のタイミングを、異なったマルチプレクサ・レイテンシーに従って調整することができる、分散型マルチプレクサを組み込むことができる。

コア・アービタ２２は、スライス・アービタ２４によって許可された要求に関連するデータの順序およびサイクル・タイミングを決定する役割を担っており、その結果、コア実行ユニット１４に到来するデータの順序およびサイクル・タイミング（それらは、スライス・アービタ２４で行われる決定によって指示される）が、データのコア実行ユニット１４への適切なロードが行えるように、正しく決定されることになる。スライスＭ１、Ｍ２およびＭ３からの要求レイテンシーＬ１、Ｌ２およびＬ３は異なっており、ここでの例では、最高レイテンシーＬ３から最低レイテンシーＬ１へと順序付けされる。コア・アービタ２２はまた、レイテンシーＬ４でデータ有効信号を供給し、このことで、コア実行ユニット１４内のレジスタへ適切なデータを供給するようにマルチプレクサ／ラッチ２０が動作する。データ有効信号をアサートするまでの追加のレイテンシーによって、スライス・アービタ２４側で許可されなかったためその後無効化されている要求を、キル／ブロックすることができる。データも同様に、スライスＭ１、Ｍ２およびＭ３の要求から、Ｌ４だけ遅延され、その結果、アサートされたデータ有効信号が、提供されるデータとうまく並ぶようになる。もしデータおよびデータ有効信号が遅延しないのなら（すなわち、要求とデータがスライスＭ１、Ｍ２およびＭ３から同時に送出される場合）、スライス・アービタ２４がバス２８Ａ〜２８Ｃ上へのデータのロードをブロックする時間はなくなっていることであろうし、その後にマルチプレクサ２０上で、それが拒否されていることになって、不必要な電力を消費させ、不必要な仕事によってスライスがビジーにされるであろう。データ有効信号／データの遅延は、要求とデータの間の、固定サイクル・オフセットのみを表しているので、いかなる帯域幅に関するペナルティもこうした遅延には関連付けられていない。

本発明の文脈において、マルチサイクル動作の場合には、スライス・アービタ２４によって再ロード・バスがスライスＭ１およびＭ２よりも高いレイテンシーのマルチサイクル動作用のスライスに既に許可されているときには、スライスＭ１およびＭ２から送られ、コア・アービタ２２に移動中である要求を、コア・アービタ２２がキルできることが必要不可欠である。上述の動作によって、スライス・アービタ２４によって決定された許可が、コア・アービタ２２で履行され、その結果、スライス・アービタ２４によって許可されなかったが、コア・アービタ２２によって受け取られた要求が、コア・アービタ２２で誤って許可されることがなくなる。Ｌ４≧Ｌ３−Ｌ１であるレイテンシーの関係から、こうした要求をキルする能力を具現化するのに必要な時間が提供される。単一サイクル動作について、表Ｉにスライス・アービタ２４の動作を示す。

表１の左３つの欄は、スライス・アービタ２４に提示された、それぞれのスライスＭ１、Ｍ２およびＭ３からの要求を示し、ロジック「１」は要求している状態を、「０」は、要求していない状態を表す。スライス要求のすべての組合せについて、すべての要求されたスライスがサイクル１で許可されるが、これは、サイクル１でコアに向かって既に進行中のものはないと仮定しており、これは、スライス・アービタ２４によっていずれかの要求が許可される前の初期状態である。要求が許可された後では、コア実行ユニット１４に移動しているデータに関連する、より長いレイテンシーによって決まるサイクルにおいて、スライスＭ１およびＭ２からの更なる要求がブロックされなければならない。

たとえば、３つのスライスＭ１、Ｍ２およびＭ３がすべて、サイクル１で始まるデータ転送の開始を許可された場合、スライスＭ３からの更なる要求を、スライス・アービタ２４上でブロックする必要はないが、これは、スライスＭ３からの次の要求がコア・アービタ２２に（サイクルＬ３＋１で）伝播する前に、当該第１の転送サイクルが（サイクルＬ３で）既に完了しているからである。しかし、スライスＭ１およびＭ２からの更なる要求は、その要求が、それらのデータの到来とスライスＭ３からの要求に対して提供されるデータの到来とを同時に発生させるものである場合は、当該到達するサイクルにてブロックされなければならない。要求後、データはＬ４サイクルだけ遅延されるので、別のスライスからのデータは、スライスＭ３からの当該データと同じサイクルにて到来し、マルチプレクサ２０は、両方のスライスからのデータをロードすることはできないこともある。スライスＭ１からの要求もまた、当該要求がスライスＭ２からの要求と同時に到達するかもしれないようなサイクル、すなわち当該データがサイクルＬ２にて到来するようなサイクルである場合においては、そしてスライスＭ１からの場合は、サイクル１＋Ｌ２−Ｌ１にて到来するようなサイクルである場合には、ブロックされなければならない。一般に、この表は、スライス・アービタ２４で許可された以前の要求がコア・アービタ２２に到達するような特定のサイクルについての要求をブロックし、複数のスライスからの要求を満たすデータが同時に到達することが回避されることを反映している。

上述の説明では、当該スライスについて、要求レイテンシーがデータ・レイテンシーと等しいと仮定している。もし（上述のデータ／データ有効レイテンシー以外に）データ・レイテンシーが要求レイテンシーと一定サイクル数分異なる場合には、当該許可サイクルを、当該データ・レイテンシーの超過分に等しい値だけ遅延させなければならない（たとえば、もし当該データ・レイテンシーが要求レイテンシーよりも４サイクル分長い場合には、表１を、サイクル１ではなく、サイクル４での許可として示すようにする）。もしデータ・レイテンシーの差が様々である場合には、システムでは、そのうちの最高データ・レイテンシーを待つこともできるし、また、保留中のサイクルに関わる最高データ・レイテンシーを遅延させる複雑なロジックを実装することもできる。

上述のアービトレーション方式は、コア・アービタ２２およびスライス・アービタ２４が要求を異なる時間に許可したとしても、エラーなく実装することができるが、それは、データと同じレイテンシーをＬ４サイクルずらしたレイテンシーで、要求タイプがコア実行ユニット１４に供給されるためである。スライス・アービタ２４はある順序で要求を許可し、コア・アービタ２２は別の順序で要求を許可する（もしこれら要求が両スライス間のレイテンシーの時間差の範囲内である場合）が、データを常に適切な宛先にソートすることができなくてはならず、それは要求のレイテンシーおよびデータのレイテンシーがスライスごとに同じであり、それ故、当該データが各要求からＬ４サイクル分オフセットされるためである。もし複数の要求がコア・アービタ２２に同時に到来した場合には、まず最長レイテンシーのスライスの要求が許可され、これは表１に従ったスライス・アービタ２４での許可と一致する。このように、前記のプロセスに従って要求を許可することによって、コア・アービタ２２は、バス２８Ａ〜Ｃ上に提供されたデータを、提供元のスライスと常に関連付けることができる。

しかし、マルチサイクル要求（データ転送動作を完遂するのに複数サイクルを必要とするサイクル・タイプ）を実施する場合には、表１に概要を示したアービトレーション方式では失敗するが、これは、スライスの要求が、別のスライスのマルチサイクル要求がまだ処理されている間に許可することが可能であり、単一サイクルでの要求をブロックしても、マルチサイクル動作と他のマルチサイクルまたは単一サイクル動作との間のマルチプレクサにおける競合が回避されないためである。マルチサイクル動作のデータと他の動作のデータとの間の競合を回避するために、分散型アービトレーション・システムを変更して、保留中のマルチサイクル・データ転送動作の完了を保証するのに十分な時間だけ、追加の動作の要求をブロックするようにすることができる。効率的な動作を成し遂げるために、スライス・アービタ２４およびコア・アービタ２２では、マルチサイクル動作の指示が使用され、この指示は一般に、要求の指示から解読可能な動作タイプであるが、もう１つの方法として、別個の制御パスを介して供給されることもある。

表２は、すべての要求がマルチサイクル動作タイプである場合の、スライス・アービタ２４の動作を示している。

最長レイテンシーを持った要求元スライスが最初に許可される。他のスライスからの要求は、所定のサイクル・カウンタ値「Ｋ」が経過するまで、その後のすべてのサイクルでブロックされるが、このＫは、少なくとも当該マルチサイクル・データ転送動作を完了するのに必要な最小サイクル数である。最長レイテンシーのスライスの要求が許可された後、Ｋ個のサイクルが経過した時点である、サイクル１＋Ｋまで、そのスライスをブロックすることが観察される。さらに、それよりも低いレイテンシーのスライスからのマルチサイクル要求は、サイクル１＋Ｋにそのレイテンシーの差に等しいサイクル数を加えた期間が経過するまでブロックされ、それによってマルチサイクル転送が完了することと、当該低いレイテンシーのスライスからのマルチサイクル要求が、そのマルチサイクル転送要求がコア実行ユニット１４に伝わる前には、コア・アービタ２２側で受信されないようにすることとが保証される。

さらに、より高いレイテンシーのスライスからのマルチサイクル要求は、Ｋサイクル経過した時間から、当該許可されたスライスと各々のより高いレイテンシーを持ったスライスとの差の分のレイテンシーを引いた値のサイクル数の間ブロックされる。たとえば、スライスＭ１が、マルチサイクル転送を実施する、許可されたスライスである場合、スライスＭ２の要求は、サイクル１＋Ｋ−（Ｌ２−Ｌ１）までブロックされ、またスライスＭ３の要求は、サイクル１＋Ｋ−（Ｌ３−Ｌ１）までブロックされることで、コア実行ユニット１４に伝播されるマルチサイクル要求とのデータ衝突の潜在性が回避されるまで、より高いレイテンシーを持つスライスからの要求は遅延させられる。

スライス・アービタ２４によって受信される要求が、単一サイクル要求とマルチサイクル要求の混在したものである場合、以下の規則によって、これら要求に応答してバス２８Ａ〜Ｃをブロックおよび許可するための処理方式（表１の方式または表２の方式）が選択される。
１）いずれかのより低いレイテンシーを持つ要求がマルチサイクル動作のためのものである場合、最高レイテンシーの要求が単一サイクルであったか、それともマルチサイクルであったかに関係なく、その要求は表２の規則に従い許可をされない。
２）最高レイテンシーの要求が、単一サイクル動作のためのものである場合、他のより低いレイテンシーの単一サイクル要求が、表１の規則に従って許可される。
３）最高レイテンシーの要求がマルチサイクル動作のためのものである場合、他のより低いレイテンシーの単一サイクル要求は、もし当該要求がサイクル１で発生するか、または、表１に示した、要求元スライスをブロックするサイクルの前に発生した場合には、表１の規則に従って許可される。そのスライスについての当該特定のブロッキング・サイクルの後は、そのスライスから行われるいずれの要求も、表２の規則に従ってブロックされる。

たとえば、スライスＭ１、Ｍ２およびＭ３がすべてサイクル１で要求しており、かつスライスＭ１およびＭ３からの要求はマルチサイクルであるが、スライスＭ２からの要求は単一サイクルである場合、スライスＭ３およびＭ２は、上記の規則１および規則３に従ってそのバスを許可されるが、Ｍ１は、規則１に従ってそのバスを許可されない。サイクル２で、スライスＭ１が次いで単一サイクル要求を行った場合、スライスＭ１はそのバスを許可されるが、それは規則３および表１に従えば、サイクル２での要求は、１＋（Ｌ３−Ｌ１）＝３よりも小さく、従ってその要求はブロックされないためである。

スライス・アービタ２４に対する変更に加えて、コア・アービタ２２も同様に修正され、その結果、表１または表２と、上記の単一サイクルおよびマルチサイクルの混在する要求についての規則とに従って、スライス・アービタ２４で許可された、より高いレイテンシーのスライスからの単一サイクルまたはマルチサイクル転送が到来したときに、より低いレイテンシーのスライスからのマルチサイクル動作に対する誤った許可の補償が行われる。表３は、コア・アービタ２２で「キル」しなければならないマルチサイクル要求を示している。「キル」の実施によっては、スライス・アービタ２４、または、スライスＭ１、Ｍ２、もしくはＭ３は影響を受けないが、スライス・アービタ２４で拒否された要求をコア・アービタ２２で許可することも、また前に拒否された要求に対するデータ有効信号をアサートすることも回避され、そうしなければ、(当該「キル」の実施は)コア実行ユニット１４で、無効または誤ったデータのマルチプレクスおよび／またはラッチを行うことになってしまう。

表３を見ると、サイクル１より前のサイクルで既に許可されている要求が、コア・アービタ２２で「キル」されることが分かり、キルすることによって、到来する拒否された要求は効果的に無視される。表３は、マルチサイクル再ロード動作を実施するスライスに対して、サイクル１での許可に基づいて要求をキルすることを示している。サイクル１より前にスライス・アービタ２４で許可された、より低いレイテンシーのスライスからのマルチサイクル要求は、もしそれらがマルチサイクル再ロード・スライスとその要求元スライスとの間のレイテンシーの差の時間内に許可される場合は、キルされる。したがって、データ有効信号を生成するのに必要な時間は、スライス間の最長のレイテンシー差よりも長くなければならない。たとえば、図示する実施形態では、Ｌ４≧Ｌ３−Ｌ１となる。

コア・アービタ２２はまた、スライス・アービタ２４内のサイクル・カウンタ動作と同様に、カウンタも使用して、後続の単一サイクルおよびマルチサイクル動作をブロックする。このカウンタは、あるマルチサイクル動作が許可された後、その許可サイクルから始まってＫ＋１サイクルの間、後続の動作に対する許可をブロックする。

そうでなければ、以前のマルチサイクル転送であるためコア・アービタ２２でブロックされるはずの一部のマルチサイクル要求は、表４に示すように、アービトレーションのために可能にされなければならない。

サイクル１で、コア・アービタ２２によって、マルチサイクル要求についてより低いレイテンシーのスライスが許可されている場合は、スライス・アービタ２４によって当該より低いレイテンシーの要求よりも優先して許可された、コア・アービタ２２に到来するより高いレイテンシーのスライスの要求は、コア・アービタ２２でアービトレーションが可能とならなければならない。表４は、（より低いレイテンシーの）マルチサイクル要求のデータ提供元と、スライス・アービタ２４で以前にバスを許可されている（より高いレイテンシーの）スライスとの間のレイテンシーの差の時間内に到来する要求を許可することが示されている。

次に図３を参照すると、上述のシステム内でのバス動作が示されている。コア実行ユニット１４における、要求／データの供給が、要求の指示２９およびマルチプレクサ入力データ２９Ａを転送するパイプラインにおけるセル（実際には、各スライスにつき単一バスであることがある）にて示されている。要求ラインＲＭ１、ＲＭ２およびＲＭ３は、スライス・アービタ２４に対する、データ転送要求の指示である。要求パイプライン２９およびデータ・パイプライン２９Ａ中のセルは、各サイクルに対応しており、最も左のセルがサイクル１である。サイクル１では、マルチサイクル動作を示すＭＵＬＴＩがアサートされていないので、３つの要求のすべてがアサートされ許可される。サイクル２では、１サイクル・レイテンシーのため、要求がＭ１から供給される。サイクル５では、要求がＭ２から供給され、サイクル７では、要求がＭ３から供給される。サイクル３で、ＲＭ２が再びアサートされるが、しかし、（表１の）サイクル１でのスライスＭ３の許可に基づくスライスＭ２の許可をブロックするための式が、１＋（Ｌ３−Ｌ２）＝サイクル１＋６−４＝サイクル３であるので、スライス・アービタ２４ではブロックされる。上述の、許可を拒否することによって、コア実行ユニット１４内で、スライスＭ２からのデータが、Ｍ３スライスからのデータと、サイクル７＋Ｌ４（この例では、Ｌ４＝６）で、マルチプレクサ２０に対して競合することがなくなる（ｃ１は潜在的な競合関係を示す）。サイクル７で、両方の要求がコア・アービタ２２に到来すること、および、スライスＭ３が最長レイテンシーを持つスライスであるので、コア・アービタ２２はまた、スライスＭ２よりもスライスＭ３を選択することに留意されたい。

次いで、Ｍ２の要求が、サイクル４で許可され、サイクル８でコア・アービタ２２に到来し、サイクル１４でデータを供給する。マルチサイクル要求が、サイクル７で、Ｍ２から行われ、この要求が許可され、サイクル１１で、コア実行ユニット１４に到来し始める。サイクル１２で、単一サイクル動作用にＲＭ１、ＲＭ２およびＲＭ３が、再びアサートされるが、ＲＭ１については、７＋Ｋ＋Ｌ２−Ｌ１＝サイクル２０まで、ＲＭ２については、７＋Ｋ＝サイクル１７まで、ＲＭ３については、７＋Ｋ−（６−４）＝サイクル１５までブロックされる。スライス・アービタ２４によって許可されたスライスからの再ロード・データだけが、実際には再ロード・バス２８上にロードされ、このロードされたデータが、Ｌ４の遅延（この例では、６サイクル）およびスライスのレイテンシーによって決まるサイクルでコアに到来する。

上述の許可された要求に対するデータであるＭ１、Ｍ２およびＭ３がバス・パイプライン２９Ａに表されており、このパイプラインがバス２８Ａ〜２８Ｃからマルチプレクサ２０に入力される有効データを表している。データ有効信号によって、コア実行ユニット１４内のレジスタ（またはマルチプレクサ２０の内部ラッチ）にデータがラッチされる。データ／データ有効信号と、コア・アービタ２２に到来する要求との間の遅延は、本明細書では６サイクルとして示すＬ４である。データは、当該要求が届いてからＬ４サイクル後に、マルチプレクサ２０を介してコア実行ユニット１４にロードされる。したがって、上に示すように、スライス・アービタ２４にて、表２に従って要求をブロックすることによって、上に示したマルチサイクル動作が終了した直後（サイクル７＋Ｋ）にスライス・アービタ２４によって行われる許可が、直前に終了したマルチサイクル動作を実施したスライスとそれより高いレイテンシーを持つスライスとの間のレイテンシー差による時間が経過するまで拒否され、それによって、コア・アービタ２２によってこうした要求が拒否されることが回避され、その結果、コア・アービタ２２がマルチサイクル動作の後に許可された要求を誤って拒否することがなくなる。

次に図４および５を参照すると、本発明の一実施形態による方法が示されている。データ転送要求がスライス・アービタ２４で受信され（ステップ３０）、その要求が以前の処理でブロックされていない場合には（判断３１）、最高レイテンシーのスライスが許可され（ステップ３２）、それより低いレイテンシーのマルチサイクル要求はすべてブロックされる。最高レイテンシーの要求がマルチサイクル動作でない場合には（判断３３）、デフォルトの単一サイクル処理によってすべての要求元スライスが許可され、供給が、直前に許可されたスライス・データの供給と一致するようなサイクルでは、更なる要求はブロックされる（ステップ３４）。そうでなく、もし最高レイテンシーの要求がマルチサイクル要求である場合は、それより低いレイテンシーの単一サイクル要求は、もしその要求がデフォルトの単一サイクル処理についてのブロッキング・サイクルよりも前に行われた場合に、それは許可される（ステップ３５）。次いで、より低いレイテンシーのスライスからの要求は、最高レイテンシーとそのスライスのレイテンシーとの間のそれぞれの差に所定のカウンタ値を加えた値による時間が経過するまでブロックされる（ステップ３８）。また最高レイテンシーの（許可された）スライスからの更なる要求は、所定のカウンタ値による時間が経過するまでブロックされる（ステップ４０）。最後に、より高いレイテンシーのスライスからの要求が、所定のカウンタ値から、そのより高いレイテンシーとそのスライスのレイテンシーとの間のそれぞれの差を引いた値による時間が経過するまでブロックされる（ステップ４２）。

コア・アービタ２２では、より低いレイテンシーのマルチサイクル要求が、より高いレイテンシーのマルチサイクル動作が直前に許可された後、カウント値Ｋによる時間が経過するまでの間に届いた場合には、それをキルする（ステップ４３）。さらには、より低いレイテンシーのマルチサイクル要求は、もしそれが、当該より高いレイテンシーの要求と同時に到来するか、または、それより以前であってかつ当該マルチサイクルの要求元のレイテンシーと当該より低いレイテンシーを持つ要求元のレイテンシーとの間の差に等しいサイクル数の範囲内に到来する場合に、それをキルする（ステップ４４）。より高いレイテンシーのマルチサイクル要求は、もしそれが、より低いレイテンシーのマルチサイクル要求と同時に到来するか、または、それより以降であってかつ当該マルチサイクルの要求元のレイテンシーと当該より低いレイテンシーを持つマルチサイクルの要求元レイテンシーとの間の差に等しいサイクル数の範囲内に到来する場合に、それを受け入れる（ステップ４６）。

一般に、上述のスライス・アービタのステップは、スライス・アービタで要求が受信されるのと同時に実施され、上述のコア・アービタについてのステップは、コア・アービタに要求が到来するのと同時に実施されるが、特定の論理設計のために、また、ブロック、キルおよび受入れ動作の特定のタイミングに依存して、それと多少異なることがある。

本発明を、好ましい実施形態を参照して具体的に示し説明したが、本発明の趣旨および範囲を逸脱せずに、前述のまたはその他の、形態および詳細における変更を実施できることは、当業者には理解されるであろう。

本発明の一実施形態によるプロセッサのブロック図である。図１のプロセッサ１０内をさらに詳細に示すブロック図である。本発明の一実施形態によるプロセッサ内でのデータ転送動作を示すタイミング図である。本発明の一実施形態による方法を示すフローチャートである。本発明の一実施形態による方法を示すフローチャートである。

符号の説明

１０プロセッサ
１２命令シーケンサ・ユニット
１３プリフェッチ・ユニット
１４コア実行ユニット
１５浮動小数点ユニット
１６キャッシュ・インターフェイス・ユニット
１７Ｌ１キャッシュ
１８Ｌ２キャッシュ
１９バス・インターフェイス・ユニット
２０マルチプレクサ
２２コア・アービタ
２４スライス・アービタ
２６要求パス
２８Ａバス
２８Ｂバス
２８Ｃバス
２９要求パイプライン
２９Ａデータ・パイプライン

Claims

転送供給側の複数のスライスと転送受信側との間のアービトレーションを管理する方法であって、前記複数のスライスの各々が、別々のバスにそれぞれ接続されていて、これらの別々のバスがいずれも前記転送受信側に結合されており、前記複数のスライスの各々が、前記転送受信側に至るまでの異なったレイテンシーを有しており、
前記転送供給側に設けられ且つ要求線を介して前記複数のスライスの各々に接続されたスライス・アービタが、前記複数のスライスのうちの１つまたは複数からそれぞれ発行された転送要求を受信するステップと、
前記スライス・アービタが、前記受信した転送要求が複数であり且つ当該受信した複数の転送要求の全てが複数のデータ・サイクルを必要とするか否かを判断するステップと、
前記スライス・アービタが、前記受信した複数の転送要求の全てが複数のデータ・サイクルを必要としないと判断したことに応答して、（１）前記受信した複数の転送要求を発行した全てのスライスに対応するバスの使用を許可し、（２）前記受信した複数の転送要求のうちで最大レイテンシーを有する第１のスライスからの次の転送要求については、これをブロックせず、（３）前記受信した複数の転送要求のうちで前記第１のスライスよりも小さいレイテンシーを有する第２のスライスからの次の転送要求については、前記許可が行われたサイクルを示すサイクル・カウンタ値に、前記第１のスライスのレイテンシーと前記第２のスライスのレイテンシーとの間の差を加えた値に相当するサイクルで、これをブロックするステップと、
を有する方法。
転送供給側の複数のスライスと転送受信側との間のアービトレーションを管理する方法であって、前記複数のスライスの各々が、別々のバスにそれぞれ接続されていて、これらの別々のバスがいずれも前記転送受信側に結合されており、前記複数のスライスの各々が、前記転送受信側に至るまでの異なったレイテンシーを有しており、
前記転送供給側に設けられ且つ要求線を介して前記複数のスライスの各々に接続されたスライス・アービタが、前記複数のスライスのうちの１つまたは複数からそれぞれ発行された転送要求を受信するステップと、
前記スライス・アービタが、前記受信した転送要求が複数であり且つ当該受信した複数の転送要求の全てが複数のデータ・サイクルを必要とするか否かを判断するステップと、
前記スライス・アービタが、前記受信した複数の転送要求の全てが複数のデータ・サイクルを必要とすると判断したことに応答して、（１）前記受信した複数の転送要求のうちで最大レイテンシーを有する第１のスライスからの転送要求だけを選択して、当該第１のスライスに対応するバスの使用を許可し、（２）前記受信した複数の転送要求のうちで前記第１のスライスよりも小さいレイテンシーを有する第２のスライスからの転送要求については、前記許可が行われたサイクルの後、少なくとも前記第１のスライスからの前記転送要求に関連するデータ転送動作を完了するのに必要なサイクル数を表す所定のサイクル・カウンタ値に、前記第１のスライスのレイテンシーと前記第２のスライスのレイテンシーとの間の差を加えた値に相当するサイクルが経過するまで、これをブロックし、（３）前記第１のスライスからの次の転送要求については、前記許可が行われたサイクルの後、前記所定のサイクル・カウンタ値に相当するサイクルが経過するまで、これをブロックするステップと、
を有する方法。
前記スライス・アービタが、前記許可が行われたサイクルの後に、前記第１のスライスよりも大きいレイテンシーを有する第３のスライスから受信し且つ複数のデータ・サイクルを必要とすると判断した転送要求については、前記許可が行われたサイクルの後、前記所定のサイクル・カウンタ値から、前記第３のスライスのレイテンシーと前記第１のスライスのレイテンシーとの間の差を引いた値に相当するサイクルが経過するまで、これをブロックするステップ、をさらに有する、請求項２に記載の方法。
前記転送受信側に設けられ且つ前記要求線に接続されたコア・アービタが、前記第１のスライスからの前記転送要求を受信し且つ当該第１のスライスに対応するバスの使用を許可するときは、当該許可が行われたサイクルの後、前記所定のサイクル・カウント値に相当するサイクルが経過するまで、前記第２のスライスから受信される前記転送要求をキルするステップ、をさらに有する、請求項２に記載の方法。
前記転送受信側に設けられ且つ前記要求線に接続されたコア・アービタが、前記第１のスライスからの前記転送要求を受信し且つ当該第１のスライスに対応するバスの使用を許可するときは、前記第１のスライスからの前記転送要求と同時に受信されるか、又はそれより以前であって且つ前記第１のスライスのレイテンシーと前記第２のスライスのレイテンシーとの間の差に相当するサイクルの範囲内に受信される前記第２のスライスからの前記転送要求をキルするステップ、をさらに有する、請求項２に記載の方法。
前記転送受信側に設けられ且つ前記要求線に接続されたコア・アービタが、前記第１のスライスからの前記転送要求を受信し且つ当該第１のスライスに対応するバスの使用を許可するときは、前記第１のスライスからの前記転送要求と同時に受信されるか、又はそれより以降であって且つ前記第１のスライスのレイテンシーと前記第３のスライスのレイテンシーとの間の差に相当するサイクルの範囲内に受信される前記第３のスライスからの前記転送要求については、これを許可するステップ、をさらに有する、請求項３に記載の方法。
転送要求に関連するデータを受信する転送受信ユニットと、
前記転送受信ユニットに結合され且つ複数のスライスを有するリソースとを備え、
前記複数のスライスの各々は、別々のバスにそれぞれ接続されていて、これらの別々のバスがいずれも前記転送受信ユニットに結合されており、また前記複数のスライスの各々は、前記転送受信ユニットに至るまでの異なったレイテンシーを有しており、
前記リソースの側に設けられ且つ前記バスについての要求を調停するため要求線を介して前記複数のスライスの各々に接続されたスライス・アービタをさらに備え、
前記スライス・アービタが、前記複数のスライスのうちの１つまたは複数からそれぞれ発行された転送要求を受信し、前記受信した転送要求が複数であり且つ当該受信した複数の転送要求の全てが複数のデータ・サイクルを必要としないとの指示を生成するための回路を含み、当該指示に応答して、（１）前記受信した複数の転送要求を発行した全てのスライスに対応するバスの使用を許可し、（２）前記受信した複数の転送要求のうちで最大レイテンシーを有する第１のスライスからの次の転送要求については、これをブロックせず、（３）前記受信した複数の転送要求のうちで前記第１のスライスよりも小さいレイテンシーを有する第２のスライスからの次の転送要求については、前記許可が行われたサイクルを示すサイクル・カウンタ値に、前記第１のスライスのレイテンシーと前記第２のスライスのレイテンシーとの間の差を加えた値に相当するサイクルで、これをブロックするように構成されている、
プロセッサ。
転送要求に関連するデータを受信する転送受信ユニットと、
前記転送受信ユニットに結合され且つ複数のスライスを有するリソースとを備え、
前記複数のスライスの各々は、別々のバスにそれぞれ接続されていて、これらの別々のバスがいずれも前記転送受信ユニットに結合されており、また前記複数のスライスの各々は、前記転送受信ユニットに至るまでの異なったレイテンシーを有しており、
前記リソースの側に設けられ且つ前記バスについての要求を調停するため要求線を介して前記複数のスライスの各々に接続されたスライス・アービタをさらに備え、
前記スライス・アービタが、前記複数のスライスのうちの１つまたは複数からそれぞれ発行された転送要求を受信し、前記受信した転送要求が複数であり且つ当該受信した複数の転送要求の全てが複数のデータ・サイクルを必要とするとの指示を生成するための回路を含み、当該指示に応答して、（１）前記受信した複数の転送要求のうちで最大レイテンシーを有する第１のスライスからの転送要求だけを選択して、当該第１のスライスに対応するバスの使用を許可し、（２）前記受信した複数の転送要求のうちで前記第１のスライスよりも小さいレイテンシーを有する第２のスライスからの転送要求については、前記許可が行われたサイクルの後、少なくとも前記第１のスライスからの前記転送要求に関連するデータ転送動作を完了するのに必要なサイクル数を表す所定のサイクル・カウンタ値に、前記第１のスライスのレイテンシーと前記第２のスライスのレイテンシーとの間の差を加えた値に相当するサイクルが経過するまで、これをブロックし、（３）前記第１のスライスからの次の要求については、前記許可が行われたサイクルの後、前記所定のサイクル・カウンタ値に相当するサイクルが経過するまで、これをブロックするように構成されている、
プロセッサ。
前記スライス・アービタが、前記許可が行われたサイクルの後に、前記第１のスライスよりも大きいレイテンシーを有する第３のスライスから受信し且つ複数のデータ・サイクルを必要とすると指示した転送要求については、前記許可が行われたサイクルの後、前記所定のサイクル・カウンタ値から、前記第３のスライスのレイテンシーと前記第１のスライスのレイテンシーとの間の差を引いた値に相当するサイクルが経過するまで、これをブロックするように構成されている、請求項８に記載のプロセッサ。
前記転送受信ユニットには、前記要求線に接続され且つ前記スライス・アービタの行った決定を履行するためのコア・アービタが設けられ、
前記コア・アービタが、前記第１のスライスからの前記転送要求を受信し且つ当該第１のスライスに対応するバスの使用を許可するときは、当該許可が行われたサイクルの後、前記所定のカウンタ値に相当するサイクルが経過するまで、前記第２のスライスから受信される前記転送要求をキルするためのカウンタ回路を有する、請求項８に記載のプロセッサ。
前記転送受信ユニットには、前記要求線に接続され且つ前記スライス・アービタの行った決定を履行するためのコア・アービタが設けられ、
前記コア・アービタが、前記第１のスライスからの前記転送を受信し且つ当該第１のスライスに対応するバスの使用を許可するときは、前記第１のスライスからの前記転送要求と同時に受信されるか、又はそれより以前であって且つ前記第１のスライスのレイテンシーと前記第２のスライスのレイテンシーとの間の差に相当するサイクルの範囲内に受信される前記第２のスライスからの前記転送要求をキルするための回路を有する、請求項８に記載のプロセッサ。
前記転送受信ユニットには、前記要求線に接続され且つ前記スライス・アービタの行った決定を履行するためのコア・アービタが設けられ、
前記コア・アービタが、前記第１のスライスからの前記転送要求を受信し且つ当該第１のスライスからの前記転送要求と同時に受信されるか、又はそれより以降であって且つ前記第１のスライスのレイテンシーと前記第３のスライスのレイテンシーとの間の差に相当するサイクルの範囲内に受信される前記第３のスライスからの前記転送要求については、これを許可するための回路を有する、請求項９に記載のプロセッサ。