JP2003501775A

JP2003501775A - プロセッサおよびコプロセッサを含むコンピュータ・アーキテクチャ

Info

Publication number: JP2003501775A
Application number: JP2001503042A
Authority: JP
Inventors: オルギエッティ・アンドレア; マッカーシー・ドミニク・ポール
Original assignee: Hewlett Packard Co
Current assignee: HP Inc
Priority date: 1999-06-15
Filing date: 2000-06-15
Publication date: 2003-01-14
Also published as: WO2000077626A1; EP1104561A1; EP1061438A1

Abstract

(57)【要約】コンピュータ・システムは、第１のプロセッサ（１）および第１のプロセッサへのコプロセッサとして使用するための第２のプロセッサ（２）を備える。システムはメモリ（３）を備える。システムは、減結合エレメント（８）を備え、命令が減結合エレメントを介して第１のプロセッサから第２のプロセッサへ渡され。減結合エレメントを介して第１のプロセッサから得た命令を第２のプロセッサが消費し、第２のプロセッサがメモリからデータを受け取り、かつメモリへデータを書き込む。こうして、第２のプロセッサによる命令の処理が第１のプロセッサの動作から減結合される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】

本発明は、メイン・プロセッサおよびコプロセッサを含むコンピュータ・アー
キテクチャに関する。

【０００２】

【従来の技術】

マイクロプロセッサに基づいたコンピュータ・システムは、典型的には、ＣＰ
Ｕのような汎用マイクロプロセッサの周辺に基づいている。このようなマイクロ
プロセッサは、幅広い範囲の計算タスクを処理するように十分に適合されるが、
これらは必然的にすべてのタスクに合わせて最適化されるのではない。タスクが
計算的に集中する場合（媒体処理など）、ＣＰＵはしばしば受け入れ可能に実行
することができない。

【０００３】この問題への標準の手法の１つは、個々の計算的に困難なタスクを処理するよ
うに特に適合されたコプロセッサを使用することである。このようなコプロセッ
サは、ＡＳＩＣ（特定用途向けＩＣ）を使用して構築することができる。これら
は特定の計算タスクのために構築され、したがってこのようなタスクに合わせて
最適化することができる。しかし、これらは使用において柔軟性がなく（これら
が特定のタスクのみのために設計されるので）、典型的に製造するのが遅い。改
善された解決策は、ＦＰＧＡ（フィールド・プログラム可能ゲート・アレイ）な
ど、所与の計算タスクに特に適合された構成でプログラムすることができる、柔
軟性のあるハードウェアの構築によって見つけることができる。このような構成
が構成可能であるだけでなく、再構成可能である場合は、さらなる柔軟性が達成
される。このような再構成可能な構成の一例がＣＨＥＳＳアレイであり、これは
、国際特許出願第ＧＢ９８／００２６２号、国際特許出願第ＧＢ９８／００２４
８号、１９９８年１２月１１日出願の米国特許出願第０９／２０９，５４２号、
およびその欧州の相当する欧州特許出願第９８３０９６００．９号において論じ
られている。

【０００４】

【発明が解決しようとする課題】

このようなコプロセッサの使用は、このような計算の効率を著しく改善するこ
とができるが、ＣＰＵとして動作するマイクロプロセッサの限界が、このような
計算が要求される場合に、全体的なシステムパフォーマンスに重大な影響を与え
る可能性がなお存在する。前記プロセッサの限界が全体的なパフォーマンスに与
える影響をより少なくするために、プロセッサ―コプロセッサシステムをさらに
改善することが望ましい。

【０００５】

【課題を解決するための手段】

この発明によると、第１のプロセッサ、第１のプロセッサへのコプロセッサと
して使用するための第２のプロセッサ、メモリ、減結合エレメントを含み、減結
合エレメントを介して第１のプロセッサから得た命令を第２のプロセッサが消費
するよう、命令が減結合エレメントを介して第１のプロセッサから第２のプロセ
ッサへ渡され、第２のプロセッサがメモリからデータを受け取り、かつメモリへ
データを書き込み、それによって、第２のプロセッサによる命令の処理が第１の
プロセッサの動作から減結合される、コンピュータ・システムが提供される。

【０００６】この装置は、典型的には前記演算、あるいはそれに委任できるタイプの演算を
実行するのに特別に適合されたプロセッサである第２のプロセッサ上で命令が実
行されている間に、典型的には汎用マイクロプロセッサである第１のプロセッサ
がタスクを切り替えることができるので、パフォーマンスの著しい改善をもたら
すことができる。これは、第１のプロセッサがコンピュータ装置の中心演算ユニ
ットであり、ゆえに多数の他のタスクのために必要とされる可能性がある場合に
非常に重要である。これは、第２のプロセッサが構成可能か、あるいは再構成可
能である場合に、特に有効な装置である。

【０００７】第１のプロセッサに残される可能性のある前記演算に関する唯一のタスクは、
（減結合エレメントが効率的に命令を与えることができるように）減結合エレメ
ントの補助をすることだけである。都合のよいことに、減結合エレメントは、委
任されたタスクが実行される間はそのような補助を要求しないように設定するこ
ともできる。

【０００８】減結合エレメントの選択肢の一つは、命令が、第１のプロセッサによってコプ
ロセッサ命令列に追加され、かつ、コプロセッサによってコプロセッサ命令列か
ら消費される、コプロセッサ命令列である。その代替選択肢に、命令を与えるべ
き情報が第１のプロセッサによって状態機械に与えられ、かつ、命令が状態機械
によって命じられたシーケンスで第２のプロセッサに与えられる、状態機械があ
る。さらなる代替選択肢として、第２のプロセッサに命令を与えるべき情報が第
１のプロセッサによって第３のプロセッサに与えられ、かつ、命令が第３のプロ
セッサによって命じられたシーケンスで第２のプロセッサに与えられる、第３の
プロセッサがある。

【０００９】有効な配列の一つは、システムが、第２のプロセッサの動作を制御し、コプロ
セッサの実行をメモリからの読み込みと同期させるためのコプロセッサ・コント
ローラを含むことである。

【００１０】システムは、それが、第２のプロセッサがデータを読み込み、かつ、第２のプ
ロセッサがデータを格納するバッファ・メモリをも含み、そのバッファ・メモリ
がメモリからデータを読み込み、かつ、メモリにデータを格納するように適合さ
れている場合、特に有効である。これは、もしメモリがダイナミックＲＡＭであ
り、バッファ・メモリがデータをバーストの形でバッファ・メモリから読み込む
か、あるいはバッファ・メモリに格納するように適合されている場合、メディア
・アルゴリズムに対するパフォーマンスを著しく向上させる。

【００１１】第１のプロセッサのバッファ・メモリからの減結合は、バッファ・メモリとメ
モリの間のデータの移動に関するメモリ命令が、この第２の減結合エレメントを
介して第１のプロセッサからバッファ・メモリへ渡される、バッファ・メモリが
第２の減結合エレメントを介して第１のプロセッサから得た命令を消費するよう
な、第２の減結合エレメントを使用することによって達成される。このように、
バッファ・メモリによるメモリ命令の処理は第１のプロセッサの動作から減結合
される。

【００１２】このようなバッファ・メモリが使用され、また第１のプロセッサが他のシステ
ム要素から減結合されている場合、バッファ・メモリとメモリの間のデータの転
送を第２のプロセッサによる命令の実行に同期させるための同期機構が存在する
ことが望まれる。これは、メモリからバッファ・メモリにまだ読み込まれていな
いデータに対して第２のプロセッサによる命令の実行をブロックするように適合
され、かつ相当する命令が第２のプロセッサによってまだ実行されていない場合
に、バッファ・メモリからメモリへデータを格納するメモリ命令の実行をブロッ
クするように適合されるのが好ましい。もし、命令、またはメモリ命令の実行が
同期機構によってブロックされた時に、同期機構によってブロックされていない
他の命令、またはメモリ命令が依然実行されているような場合に、最も大きな効
果が得られる。またさらなる側面においては、本発明は、第１のプロセッサによ
る実行のためのコードの提供、そのコードからの、第１のプロセッサに対するコ
プロセッサとして動作する第２のプロセッサによって実行されるべきタスクの抽
出、そのタスクを定義する情報の第１のプロセッサから減結合エレメントへの受
け渡し、前記情報より得られた命令の減結合エレメントから第２のプロセッサへ
の受け渡し、および第２のプロセッサ上での前記命令の実行を含み、第２のプロ
セッサによる前記命令の処理が第１のプロセッサの動作から減結合されているよ
うな、コンピュータ・システムを制御する方法を提供する。

【００１３】本発明の特定の実施形態が、例として、添付の図面を参照して、以下でさらに
記載される。

【００１４】

【発明の実施の形態】

図１は、本発明の第１の実施形態によるシステムの基本エレメントを示す。本
質的に、このシステムはプロセッサ１およびコプロセッサ２を含み、これらは、
最大の計算効率のために、計算をプロセッサ１とコプロセッサ２の間で区分する
ことができるよう構成されている。プロセッサ１は本質的にいかなる汎用プロセ
ッサ（たとえば、ｉ９６０）でもよく、コプロセッサ２は本質的に、著しくより
高い有効性により計算の一部を処理することができるいかなるコプロセッサでも
よい。ここで記載された特定のシステムでは、本質的に計算全体がプロセッサ１
によるよりもコプロセッサ２によって処理されるが、本発明はこの特定の構成に
限定されるものではない。

【００１５】特に記載されたシステムでは、コプロセッサ２が再構成可能ＦＰＧＡの形式で
あり、これについては以下でさらに述べられるが、コプロセッサ２の他の形式、
たとえば、ＡＳＩＣＳ、ＤＳＰなどを代りに使用することができる（対応する修
正を計算モデルに行うことが必要）。プロセッサ１およびコプロセッサ２は共に
ＤＲＡＭメイン・メモリ３へのアクセスを有するが、プロセッサ１はより高速な
アクセス・メモリ４のキャッシュ、典型的にはＳＲＡＭへのアクセスも有する。
ＤＲＡＭ３への効率的なアクセスが、情報の「バースト」の効率的なローディン
グおよび格納のためにＤＲＡＭと通信するように適合された「バースト・バッフ
ァ」メモリ５によって提供され、バースト・バッファについては以下でさらに記
載される。バースト・バッファ５への命令が、バースト命令待ち行列６を通じて
提供され、バースト・バッファ５がバースト・バッファ・コントローラ７の制御
下で動作する。バースト・バッファのアーキテクチャは、以下に述べられる理由
のため、コプロセッサ２に関連付けられたアーキテクチャにおいて、ミラーリン
グされる。コプロセッサ２への命令がコプロセッサ命令待ち行列８において提供
され、コプロセッサがコプロセッサ・コントローラ９の制御下で動作する。バー
スト・バッファおよびコプロセッサの動作、およびそれらの関連付けられた命令
待ち行列の同期化が、プロセッサ１自体による一般の方法ではなく、特定の機構
によって達成される。この実施形態では、この機構がロード／実行セマフォ(sem
aphore)１０および実行／格納セマフォ１１を含み、これらは以下に記載される
方法で動作する（他のこのような同期化機構が可能であり、これらについても以
下に述べられる）。

【００１６】システム・アーキテクチャにおけるエレメントの説明このシステムの個々のエレメントが、以下でより詳細に論じられる。プロセッ
サ１は一般に計算を制御するが、計算自体におけるステップのいくつか（または
、記載された実施形態では、すべて）がコプロセッサ２において実行されるよう
な方法で制御する。プロセッサ１が、バースト命令待ち行列６を通じて特定のタ
スクのための命令、すなわち、バースト・バッファ・コントローラ７の構成、お
よびバースト・バッファ・メモリ５とメイン・メモリ３の間のデータの転送のた
めの命令を提供する。さらに、コプロセッサ命令待ち行列８を通じて、プロセッ
サ１はさらなるタスクのための命令、すなわち、コプロセッサ・コントローラ９
の構成、およびコプロセッサ２上の計算の開始のための命令を提供する。コプロ
セッサ２上で実行されるこの計算は、バースト・バッファ・メモリ５を通じてデ
ータにアクセスする。

【００１７】コプロセッサ命令待ち行列８の使用が有効にプロセッサ１をプロセッサ２の動
作から減結合させ、バースト命令待ち行列６の使用が有効にプロセッサ１をバー
スト・バッファ５から減結合させる。この構成の特定の詳細は、以下でより詳細
に論じられる。この減結合については、本発明のこの実施形態のための計算モデ
ルに関連して、以下でさらに論じられる。

【００１８】コプロセッサ２が、実際の計算のいくつかまたはすべてを実行する。特に適し
たコプロセッサはＣＨＥＳＳＦＰＧＡ構造であり、これは、国際特許出願第Ｇ
Ｂ９８／００２６２号、国際特許出願第ＧＢ９８／００２４８号、１９９８年１
２月１１日出願の米国特許出願第０９／２０９，５４２号、およびその欧州の相
当する欧州特許出願第９８３０９６００．９号に記載されており、それらの出願
の内容が参照により本明細書に組み込まれる。このコプロセッサは再構成可能で
あり、４ビットＡＬＵのチェッカーボード・アレイおよびスイッチング構造を含
み、それにより、コプロセッサが構成可能であり、１つの４ビットＡＬＵからの
出力を使用して別のＡＬＵへ命令することができる。ＣＨＥＳＳアーキテクチャ
は特に、パイプライン計算に有効であり、ここでは入力および出力データ・スト
リームと対話するように有効に適合される。コプロセッサ・コントローラ９（こ
の動作が以下でさらに論じられる）が、高レベルの制御命令（計算の詳細に関す
る命令ではなく、コプロセッサ２の制御全体のための命令、たとえば「ｎサイク
ル実行する」）を、コプロセッサ命令待ち行列８から受信する。ＣＨＥＳＳコプ
ロセッサ２はコプロセッサ・コントローラ９の制御下で動作し、バッファ・バー
スト５との対話を通じてデータを受信し、格納する。したがって、ＣＨＥＳＳコ
プロセッサ２は入力ストリーム上で動作して、出力ストリームを生成する。これ
は、ＣＨＥＳＳコプロセッサの動作が非常に予測可能なので、効率的なプロセス
にすることができる。このモデルに従った計算の詳細な動作が、後で論じられる
。

【００１９】プロセッサ１が、従来の方法によるＳＲＡＭにおける高速アクセス・メモリ・
キャッシュ４へのアクセスを有するが、メイン・メモリはＤＲＡＭ３として提供
される。ＤＲＡＭへの有効なアクセスが、バースト・バッファ５によって提供さ
れる。バースト・バッファは、欧州特許出願第９７３０９５１４．４号、および
１９９８年１月６日出願の対応する米国特許出願第０９／３，５２６号において
記載されており、それらの出願が参照により本明細書に組み込まれる。バースト
・バッファ・アーキテクチャについては本明細書で簡単に記載されるが、このア
ーキテクチャの十分な詳細については、先の出願を参照していただきたい。

【００２０】バースト・バッファ・アーキテクチャは、これらの実施形態において述べら
れるように、本発明の動作に有用ではあるが、不可欠なものではない。本発明の
状況においては、バースト・バッファ・アーキテクチャの最も重要な面は、バー
スト・バッファ５がプロセッサ１からの命令に従って動作すること、および、こ
れらの命令が待ち行列（または、後で議論されるように、その代替手段）によっ
て与えられることである。この機構は、プロセッサ１が、適切なアーキテクチャ
において、バースト・バッファ５の動作から減結合されることを可能にする。

【００２１】この実施形態で使用されたバースト・バッファ・アーキテクチャのバージョン
のエレメント（前記の出願において論じられるように、変形も可能）が、図２お
よび図３に示される。バースト・バッファ構成エレメントがプロセッサ１と通信
する接続１２が提供される。メモリ・バス１６が、メイン・メモリ３（図２にお
いては図示せず）への接続を提供する。このメモリ・バスはキャッシュ４と共有
することができ、この場合、メモリ・データパス・アービタ５８が、キャッシュ
４との通信も可能にする。

【００２２】この装置におけるバースト・バッファの全体の役割は、計算をコプロセッサ２
上で実行できるようにすることであり、このコプロセッサ２とメイン・メモリ３
の間のデータ転送を、両方が各システム構成エレメントの効率を最大にすると同
時に全体のシステム効率を最大にする方法で行うことを含む。これは、以下のい
くつかの技術の組み合わせによって達成される。

【００２３】 1)以下に記載されるようなバースト・バッファ５を使用した、ＤＲＡＭへのバ
ースト・アクセス、 2)「ダブル・バッファリング」とよばれる技術を使用した、コプロセッサ２上の
計算の同時実行、およびメイン・メモリ３とバースト・バッファ・メモリ５の間
のデータ転送、および 3)プロセッサ１の実行をコプロセッサ２およびバースト・バッファ・メモリ５の
実行から、命令待ち行列の使用を通じて減結合させることである。

【００２４】「ダブル・バッファリング」は、たとえば、コンピュータ・グラフィックスに
おいて知られている技術である。本明細書で使用される形式では、バースト・バ
ッファ・メモリ５の一部からのデータを消費すること、すなわち読み取ること、
他のデータを同じメモリの異なる領域へ生成すること、すなわち書き込むことを
含み、先に書き込まれた領域を読み取り、その逆もできるスイッチング機構を有
する。

【００２５】バースト・バッファの利点は、従来のＤＲＡＭ構造の特徴の有効な利用である
。ＤＲＡＭは、正方行列におけるメモリ位置のアレイを含む。アレイにおけるエ
レメントにアクセスするには、行が最初に選択され（あるいは「開かれ」）なけ
ればならず、その後に適切な列の選択が続く。しかし、行が選択された後、その
行における列への連続アクセスは、単に列アドレスを提供することによって実行
することができる。行を開くことおよびその行にローカルな一連のアクセスを実
行することの概念が、「バースト」と呼ばれる。媒体集中計算（典型的には、い
かなるデータ依存アドレス指定もなしに長いアレイにアクセスする、規則正しい
プログラム・ループを使用するアルゴリズムを含む）におけるように、データが
規則正しい方法で構成されるとき、バーストの有効な使用が劇的に計算速度を向
上させることができる。バースト・バッファは、バーストの効率的な使用を通じ
てＤＲＡＭからのデータにアクセスするように適合された、新しいメモリ構造で
ある。

【００２６】システムがいくつかのバースト・バッファを含むことができる。典型的には、
各バースト・バッファがそれぞれのデータ・ストリームへ割り振られる。アルゴ
リズムが、異なる数のデータ・ストリームを有するので、固定量のＳＲＡＭ２６
がバースト・バッファ・メモリ領域としてバースト・バッファに使用可能であり
、この量が、必要とされるバッファの数に従って分割される。たとえば、固定Ｓ
ＲＡＭの量が２Ｋバイトである場合、かつ、アルゴリズムが４つのデータ・スト
リームを有する場合、メモリ領域を４つの５１２バイトのバースト・バッファに
区分することができる。

【００２７】このタイプのアーキテクチャでは、バーストが、以下によって定義されたアド
レスの組を含む。

【００２８】

【数１】バースト＝｛Ｂ＋Ｓ×ｉ｜Ｂ，Ｓ，ｉ∈Ｎ∧０≦ｉ＜Ｌ｝

【００２９】ただし、Ｂは転送の基底アドレスであり、Ｓはエレメントの間のストライド(s
tride)であり、Ｌは長さであり、Ｎは自然数の組である。この式において明示的
に定義されないが、バースト順序が、０からＬ−１まで増分するｉによって定義
される。したがって、バーストは、次の３個のエレメントからなる集合によって
定義することができる。

【００３０】（ｂａｓｅ＿ａｄｄｒｅｓｓ，ｌｅｎｇｔｈ，ｓｔｒｉｄｅ）ソフトウェアでは、バーストをエレメントサイズによって定義することもでき
る。これは、バーストをバイト、ハーフワード、またはワードのサイズにするこ
とができることを意味する。ストライドの単位は、このことを考慮しなければな
らない。「サイズド・バースト」は、次の形式の４個のエレメントからなる集合
によって定義される。

【００３１】（ｂａｓｅ＿ａｄｄｒｅｓｓ，ｌｅｎｇｔｈ，ｓｔｒｉｄｅ，ｓｉｚｅ）「チャネル・バースト」は、サイズがメモリへのチャネルの幅である、サイズ
ド・バーストである。コンパイラが、ソフトウェア・サイズド・バーストからチ
ャネル・バーストへのマッピングを担う。チャネル・バーストは、次の４個のエ
レメントからなる集合によって定義することができる。

【００３２】（ｂａｓｅ＿ａｄｄｒｅｓｓ，ｌｅｎｇｔｈ，ｓｔｒｉｄｅ，ｗｉｄｔｈ）チャネル幅が３２ビット（または４バイト）である場合、チャネル・バースト
が常に以下の形式である。

【００３３】（ｂａｓｅ＿ａｄｄｒｅｓｓ，ｌｅｎｇｔｈ，ｓｔｒｉｄｅ，４）あるいは、３個のエレメントからなる集合（ｂａｓｅ＿ａｄｄｒｅｓｓ，ｌｅ
ｎｇｔｈ，ｓｔｒｉｄｅ）に短縮される。

【００３４】このメモリの制御およびバースト・バッファの割り振り（および解放）が、ソ
フトウェア処理によって高レベルで処理される。この実施形態では、「ダブル・
バッファリング」が使用されるが、他の戦略も確かに可能であり、この判断は記
憶の効率と簡潔性の間のトレードオフを含む。バースト・バッファ・メモリ領域
２６がメイン・メモリ３からデータをロードし、そこへデータを格納し、これは
メモリ・データパス・アービタ５８を通じて行い、これがＤＭＡコントローラ５
６の制御下で動作し、バースト命令待ち行列６を通じて受信される命令に応答す
る。データが、バースト・バッファ・メモリ領域２６とプロセッサ１またはコプ
ロセッサ２の間で、接続手段１２を通じて交換される。図３に示すように、バー
スト・バッファ・システム５のための制御インタフェースは、１組のテーブルに
基づいている。すなわち、バースト・バッファ・メモリへバーストし、そこから
バーストするためのメイン・メモリの領域を記述するメモリ・アクセス・テーブ
ル（ＭＡＴ）６５、およびバースト・バッファ・メモリの領域を記述するバッフ
ァ・アクセス・テーブル（ＢＡＴ）６６である。この実施形態では、デュアルポ
ートＳＲＡＭの同次領域が、バースト・バッファ・メモリ領域２６のために使用
される。

【００３５】ＭＡＴおよびＢＡＴを使用しなかったバースト・バッファ構成（これも欧州特
許出願第９７３０９５１４．４号に記載されているようなもの）を、本発明の代
替実施形態において使用することができ、ＭＡＴおよびＢＡＴにおいて暗示的に
符号化されたパラメータ（ソース・アドレス、宛先アドレス、長さ、ストライド
）が、次いで、発行されたバースト転送毎に明示的に指定されなければならない
。直接のアドレス、長さおよびストライドではなく、ＭＡＴおよびＢＡＴを使用
するための主な理由は、これが全体のコード・サイズを著しく減らすことである
。本発明に関連して、これは典型的には重要というよりも有用である。

【００３６】プロセッサ１から発信するバースト命令が、バースト命令待ち行列６により、
バースト・バッファ５へ提供される。バースト命令待ち行列６からの命令が、バ
ッファ制御エレメント５４によって処理されて、ＭＡＴ６５およびＢＡＴ６６に
おけるスロットが参照される。バッファ・コントローラは、８個のバースト制御
レジスタ５２からの制御入力も受信する。これらの２つのテーブルに含まれた情
報が、実行時間で共に結び付けられて、完全なメイン・メモリ対バースト・バッ
ファのトランザクションが記述される。出力がバッファ・コントローラ５４から
直接メモリ・アクセス（ＤＭＡ）コントローラ５６へ、よってメモリ・データパ
ス・アービタ５８へ提供されて、メイン・メモリ３とバースト・バッファ・メモ
リ領域２６の間のトランザクションが実施される。

【００３７】重要なバースト命令は、データをメイン・メモリ３からバースト・バッファ・
メモリ領域２６へロードするため、かつ、データをバースト・バッファ・メモリ
領域２６からメイン・メモリ３へ格納するために使用されるものである。これら
の命令は「ロードバースト」および「ストアバースト」である。ロードバースト
命令が、データ・ワードのバーストを、メモリ３における決定された位置からバ
ースト・バッファのそれへ転送させる。対応するストアバースト命令もあり、こ
れは、データ・ワードのバーストを、バースト・バッファの１つからメモリ３へ
、メモリ３における特定のアドレスで開始して、転送させる。図１のアーキテク
チャでは、追加の同期化命令も必要とされ、これらは以下でさらに論じられる。

【００３８】命令のロードバーストおよびストアバーストは、通常のロードおよび格納命令
とは異なり、これらは転送が起こっていなくとも単一のサイクルで完了する。本
質において、ロードバーストおよびストアバースト命令が、メモリ・インタフェ
ース１６へバーストを実行するように伝えるが、これらはバーストが完了するま
で待機しない。

【００３９】基本動作は、２つのテーブル・エントリへ、メモリ・アクセスおよびバッファ
・アクセス・テーブルのそれぞれにおける１つを索引付けする命令を発行するこ
とである。メモリ・アクセス・テーブルへの索引が、転送のメモリ側で使用され
た基底アドレス、エクステントおよびストライドを検索する。バッファ・アクセ
ス・テーブルへの索引が、バースト・バッファ・メモリ領域内の基底アドレスを
検索する。図示の実施形態では、マスキングおよびオフセットが索引値へ、コン
テキスト・テーブル（これは欧州特許出願第９７３０９５１４．４号においてさ
らに論じられている）によって提供されるが、代りに実アドレスを使用すること
が可能である。直接メモリ・アクセス（ＤＭＡ）コントローラ５６がパラメータ
を２つのテーブルから渡され、これらを使用して、要求された転送を指定する。

【００４０】表１は、可能な命令セットを示す。

【００４１】

【表１】

【００４２】ストアバースト命令（ＢＢ＿ストアバースト）が、ＭＡＴおよびＢＡＴにおけ
るパラメータを索引付け(index)し、これが要求された転送の特性を定義する。
ｂｌｏｃｋ＿ｉｎｃｒｅｍｅｎｔビットが設定される場合、ＭＡＴにおいて索引
付けされたエントリのｍｅｍａｄｄｒフィールドが、転送が完了するときに自動
的に更新される（以下で論じられるように）。

【００４３】ロードバースト命令（ＢＢ＿ロードバースト）も、ＭＡＴおよびＢＡＴにおけ
るパラメータを索引付けし、再度これが要求された転送の特性を定義する。前の
ように、ｂｌｏｃｋ＿ｉｎｃｒｅｍｅｎｔビットが設定される場合、ＭＡＴにお
いて索引付けされたエントリのｍｅｍａｄｄｒフィールドが、転送が完了すると
きに自動的に更新される。

【００４４】必要とされた同期化命令が、Ｌｏａｄ−ＥｘｅｃｕｔｅＩｎｃｒｅｍｅｎｔ
およびｅＸｅｃｕｔｅ−ＳｔｏｒｅＤｅｃｒｅｍｅｎｔ（ＢＢ＿ＬＸ＿ＩＮＣ
ＲＥＭＥＮＴおよびＢＢ＿ＸＳ＿ＤＥＣＲＥＭＥＮＴ）として提供される。ＢＢ
＿ＬＸ＿ＩＮＣＲＥＭＥＮＴの目的は、特定のデータのバーストにおけるコプロ
セッサ２の実行が、必要とされたデータがロードバースト命令の後に続いてバー
スト・バッファ・メモリ５に到着した後に起こるようにすることである。ＢＢ＿
ＸＳ＿ＤＥＣＲＥＭＥＮＴの目的は、ストアバースト命令の実行が、結果がメイ
ン・メモリ３に格納され戻される（コプロセッサ２上の）計算の完了の後に続く
ようにすることである。

【００４５】この実施形態では、これらの命令が動作する特定の機構は、２つのカウンタの
組であり、それぞれ次のものを追跡する。すなわち、a)ストアバーストを受信す
る用意ができているバースト・バッファ・メモリ５における領域の数、およびb)
完了されたロードバースト命令の数、である。

【００４６】コプロセッサ２によるデータの要求が、ＬＸカウンタを減分することによって
実行されるが、データの可用性は、ＸＳカウンタを増分することによって信号で
通知される。これらのカウンタは、２つの特性を満たさなければならない。すな
わち、これらがただ１つのシステム構成エレメントへいかなる所与のときにもア
クセス可能でなければならないこと、およびこれらが使用不可能なデータを要求
する処理を中断する能力を有していなければならないことである。

【００４７】要求されるものにもっとも近く合致する既存の概念はセマフォであり、Ｄｉｊ
ｋｓｔｒａ（「［Ｄｉｊｋｓｔｒａ１９６８］Ｅ．Ｄｉｊｋｓｔｒａ，「Ｃ
ｏ−ｏｐｅｒａｔｉｎｇＳｅｑｕｅｎｔｉａｌＰｒｏｃｅｓｓｅｓ」，Ｆ．
Ｇｅｎｕｙｓ（編集者），ＰｒｏｇｒａｍｍｉｎｇＬａｎｇｕａｇｅｓ，Ｎｅ
ｗＹｏｒｋ：ＡｃａｄｅｍｉｃＰｒｅｓｓ，（１９６８），４３−１１２ペ
ージ）に記載されている。したがって、用語「セマフォ」は、本発明の実施形態
において使用されたカウンタを記載するために使用されるが、これらのカウンタ
がＤｉｊｋｓｔｒａによって記載されたセマフォには等しくないが広く類似して
いることに留意されたい。

【００４８】セマフォの基本原理は以下の通りである。セマフォは整数値を含む。Ｗａｉｔ
（）命令をセマフォ上で実行することはこの値をディクリメント(decrement、減
分)するが、Ｓｉｇｎａｌ（）命令を実行することはこれをインクリメント(incr
ement、増分)する。Ｗａｉｔ（）を、値がすでに０であるセマフォ上で実行する
と、セマフォの値が増分されるまで、Ｗａｉｔ（）を実行しようと試みているソ
フトウェア処理またはハードウェア構成エレメントが停止する。

【００４９】この実施形態では、ＢＢ＿ＸＳ＿ＤＥＣＲＥＭＥＮＴ命令がＸＳセマフォ（図
１の１１）上でＷａｉｔ（）のように動作するが、ＢＢ＿ＬＸ＿ＩＮＣＲＥＭＥ
ＮＴ命令はＬＸセマフォ（図１の１０）上でＳｉｇｎａｌ（）のように動作する
。以下で記載されるように、コプロセッサ・コントローラ９が、反対に、Ｗａｉ
ｔ（）をＬＸセマフォ１０上で、Ｓｉｇｎａｌ（）をＸＳセマフォ１１上で実行
する。これらの命令の意味は、Ｄｉｊｋｓｔｒａの論文に記載されたものと同じ
にすることができるが、Ｓｉｇｎａｌ（）およびＷａｉｔ（）動作の構成全体は
元の論文に記載されたものとは著しく異なる。システムの正確さに必要な、ある
イベントの相対的時間順序が守られるようにするため、これらの命令が適切な順
序で（以下でさらに論じられるように）発行される。

【００５０】メモリ・アクセス・テーブル（ＭＡＴ）６５が、以下で図３を参照して記載さ
れる。これは、バースト・トランザクションに含まれたメイン・メモリ位置に関
連する情報を保持するメモリ記述子テーブルである。ＭＡＴにおける各エントリ
は、メイン・メモリへのトランザクションを記述する、索引付けされたスロット
である。この実施形態では、ＭＡＴ６５が１６個のエントリを含むが、異なる実
施がもちろん可能である。各エントリが以下の３個のフィールドを含む。１．メモリ・アドレス（ｍｅｍａｄｄｒ）。メイン・メモリにおける関連領域
の開始アドレス。この位置が物理メモリ空間にあることが理想的であり、これは
、仮想アドレス変換が２つの物理ページにまたがるバースト要求の結果となる可
能性があり、これがメモリ・コントローラに難点を引き起こすからである。２．エクステント（ｅｘｔｅｎｔ）。転送のエクステント。これは転送の長さ
であり、ストライドで乗算され、転送された最後のアドレス＋１を与える。転送
の長さは、エクステントをストライドにより除算することによって計算され、こ
れは、転送が完了した後で、関連するＢＡＴ６６（以下参照）のｂｕｆｓｉｚｅ
フィールドへ自動的にコピーされる。３．ストライド（ｓｔｒｉｄｅ）。転送における連続したエレメントの間の間
隔。

【００５１】ｍｅｍａｄｄｒ：チャネル・バーストの第１のエレメントの３２ビット、符号
なし、語調整されたアドレスである。

【００５２】ｅｘｔｅｎｔ：ｅｘｔｅｎｔレジスタにおけるパラメータは、バースト転送の
範囲を包含するアドレス・オフセットである。転送がＳのストライドによって分
離されたＬ個のエレメントを必要とする場合、エクステントはＳ＊Ｌである。

【００５３】ｓｔｒｉｄｅ：パラメータｓｔｒｉｄｅは、アクセスの間でスキップされたバ
イト数である。転送ストライド間隔の値は、１から１０２４までの範囲に制限さ
れる。１０２４より大きい値は自動的に１０２４に切り捨てられる。このレジス
タの読取りが、バーストのために使用された値を戻す（すなわち、切り捨てが必
要であった場合、切り捨てられた値が戻される）。ストライドはメモリ・バス幅
の倍数でなければならず、この場合は４バイトである。自動切り捨て（丸めなし
）が、この位置合わせを実施するために実行される。

【００５４】ＭＡＴスロットによって含まれた値の一例は、以下のようになる可能性がある
。

【００５５】｛０ｘ１ｆｅｅｌｂａｄ，１２８，１６｝これは、３２語（３２個の４バイト語）バーストの結果となり、各語が４語（
４個の４バイト語）によって分離される。

【００５６】バースト命令の自動増分標識ビットは、ＭＡＴ６５にも関連している。このビ
ットがバースト命令において設定される場合、もしバーストが３２を越えて継続
しているならば、開始アドレス・エントリがポイント・トゥ・ポイントで、次の
メモリ位置へ増分される。これは、長いシーケンスのメモリ・アクセスにおいて
次のバーストのための開始アドレスを計算することにおける、プロセッサ・オー
バーヘッドを節減する。

【００５７】バッファ・アクセス・テーブル（ＢＡＴ）６６が、以下で図３を参照して記載
される。これもまたメモリ記述子テーブルであり、この場合はバースト・バッフ
ァ・メモリ領域２６に関する情報を保持する。ＢＡＴ６６における各エントリが
、バースト・バッファ・メモリ領域２６へのトランザクションを記述する。ＭＡ
Ｔ６５の場合のように、ＢＡＴ６６が１６個のエントリを含むが、もちろんＭＡ
Ｔ６５の場合のように変わる可能性がある。この場合は各エントリが以下の２つ
のフィールドを含む。１．バッファ・アドレス（ｂｕｆａｄｄｒ）。バッファ領域におけるバッファ
の開始。２．バッファ・サイズ（ｂｕｆｓｉｚｅ）。最後の転送で使用されたバッファ
領域のサイズ。

【００５８】バッファ・アドレス・パラメータｂｕｆａｄｄｒは、バッファ領域におけるチ
ャネル・バーストの第１のエレメントのためのオフセット・アドレスである。バ
ースト・バッファ領域は、ハードウェアによってプロセッサのメモリ空間の領域
へ物理的にマッピングされる。これは、バースト・バッファ領域にアクセスする
ときにプロセッサが絶対アドレスを使用しなければならないことを意味する。し
かし、ＤＭＡ転送は単にオフセットを使用し、そのため、ハードウェアが、要求
されたいかなるアドレス解決をも管理することが必要である。不当に位置合わせ
された値は、切り捨てによって自動的に位置合わせすることができる。このレジ
スタの読取りが、バーストのために使用された値を戻す（すなわち、切り捨てが
必要であった場合、切り捨てられた値が戻される）。デフォルト値は０である。

【００５９】パラメータｂｕｆｓｉｚｅは、もっとも最近のバーストによって占有されたバ
ッファ領域内の領域のサイズである。このレジスタは、そのエントリを目標とし
たバースト転送の完了時に、自動的に設定される。格納された値がバーストの長
さであり、これは、０の値が使用されていないバッファ・エントリを指示するか
らであることに留意されたい。このレジスタに書き込むことができるが、これは
、バッファが保存されリストアされるときに、文脈切り換え後にのみ有用である
。デフォルト値は再度０である。

【００６０】ＭＡＴおよびＢＡＴエントリをプログラムすることが、ＢＢ＿ＳＥＴ＿ＭＡＴ
およびＢＢ＿ＳＥＴ＿ＢＡＴ命令の使用を通じて実行される。エントリ・パラメ
ータが、現在の命令が参照するＭＡＴ（またはＢＡＴ）におけるエントリを決定
する。

【００６１】バースト・バッファ・アーキテクチャおよびその制御のための機構のさらなる
詳細が、欧州特許出願第９７３０９５１４．４号および対応する米国特許出願第
０９／３，５２６号において提供される。上記で提供された詳細は、主として、
バースト・バッファ・システムのアーキテクチャエレメントを示し、バースト・
バッファ・システムが実施することができる機能効果を、それが提供する入力お
よび出力と共に示すように意図される。バースト・バッファ・システムが、特定
のタイプの計算モデルに合わせて最適に適合され、これは、本明細書で、本発明
の記載された実施形態のための計算モデルに展開される。この計算モデルについ
てさらに説明する。

【００６２】バースト命令待ち行列６が上で記載された。この実施形態の著しい態様は、命
令が類似の方法でコプロセッサへ、コプロセッサ命令待ち行列８を通じて提供さ
れることである。コプロセッサ命令待ち行列８は、コプロセッサ・コントローラ
９との接続において動作し、これは、コプロセッサがプロセッサ１から命令を受
信する方法、およびそれがデータをバースト・バッファ・システム５と交換する
方法を決定する。

【００６３】コプロセッサ命令待ち行列８の使用は、プロセッサ１自体が計算自体から減結
合される重要な効果を有する。したがって、計算中に、プロセッサ・リソースが
他のタスクの実行のために使用可能である。プロセッサ１の動作がストールされ
ることにつながる可能性のある唯一の状況は、命令待ち行列６、８の一方が命令
で満たされることである。この場合は、プロセッサ１が、いずれかの待ち行列の
ための命令を、命令が消費されるよりも速い速度で生成するときに起こる可能性
がある。この問題の解決策は入手可能である。事前定義の時間量の後、あるいは
、いずれかの待ち行列において占有されたスロットの数が事前定義の量まで減分
された事実によってトリガされた割り込みの受信の上で、文脈切り換えを実行し
てこれら２つの待ち行列にサービスするために戻るように、プロセッサ１へ要求
することによって、有効性を改善することができる。反対に、プロセッサ１が、
命令が消費される速度に遅れないでいることができないために、２つの待ち行列
の一方が空になる場合、これらの命令の消費者（コプロセッサ・コントローラ９
またはバースト・バッファ・コントローラ７）は、新しい命令がプロセッサ１に
よって生成されるまで、ストール（機能停止）する。

【００６４】修正を、プロセッサ１からのそれ以上の関与がまったく必要とされないように
するアーキテクチャにも提供することができ、これらについては本明細書の最後
の部分において論じられる。

【００６５】コプロセッサ・コントローラ９の基本機能は、データをバースト・バッファ・
メモリ５からコプロセッサ２へ（およびコプロセッサ２からバースト・バッファ
・メモリ５へ）取り出すこと、コプロセッサの動作を制御すること、およびコプ
ロセッサ２の実行をバースト・バッファ・メモリ５からの適切なロードまたはそ
れへの格納と同期化することである。これらの機能を達成するには、コプロセッ
サ・コントローラを、本質において、ある規則に従ってアドレスを生成すること
ができる、相対的に簡素な状態機械にすることができる。

【００６６】図４は、コプロセッサ・コントローラ９を、アーキテクチャの他の構成エレメ
ントとの関係において示し、その構成エレメント、およびアーキテクチャ全体に
おける他のエレメントとの接続も示す。その厳密な機能は、コプロセッサ２およ
びその初期化要件（ある場合は）によって必要とされた入力および出力のタイプ
に依存し、そのため、以下に記載されたものから詳細において変わる可能性があ
る。ＣＨＥＳＳコプロセッサの場合、これらの入力および出力が、バースト・バ
ッファ・メモリ５と交換された入力および出力データ・ストリームである。

【００６７】コプロセッサ・コントローラ９は、次の２つの主なタスクを実行する。すなわ
ち、1)コプロセッサ２とバースト・バッファ・メモリ５との間の通信の制御、お
よび2)制御有限状態機械４２の使用を通じたシステム状態の維持である。

【００６８】コプロセッサ２がストリームにおけるデータにアクセスし、そのそれぞれがい
くつかの制御レジスタ４１の１つとの関連付けを与えられる。これらのレジスタ
４１のためのアドレスが、制御有限状態機械４２によってアドレス指定ロジック
４３と共に、有限状態機械４２によって生成されたシーケンスに従って、周期的
な様式において生成される。

【００６９】有限状態機械４２内のクロックの各チックで、有限状態機械は、レジスタ４１
の（多くとも）１つが、そのために生成された新しいアドレス、およびレジスタ
４１がバースト・バッファ・メモリ５をアドレス指定できるようにするために使
用されたアドレスを有するための許可を与える。同時に、適切な制御信号が有限
状態機械４２によって生成され、マルチプレクサ４４へ送信されて、適切なアド
レスが正しい読み／書き信号と共にバースト・バッファ・メモリ５へ送信される
ようにする。特定の読み／書き信号が各レジスタ４１に、全体の計算中で変化し
ない値と共に関連付けられる。

【００７０】レジスタ４１のために得られたアドレスがメモリをアドレス指定するために使
用された後、一定量がその値へ追加され、これは一般にコプロセッサ２とバース
ト・バッファ・メモリ５との間の接続の幅と同じである。つまり、この接続の幅
が４バイトである場合、カウンタ４１に行われた増分が４となる。これは、本質
的に、バースト・バッファのプログラミングにおける「ストライド」に比較可能
である。

【００７１】上述のコプロセッサ・コントローラの機構は、単一のバスに沿った異なるデー
タ・ストリームの多重化を可能にする。各データ・ストリームは、それ自体のポ
ートを通じて単一の共有バスへアクセスするとみなすことができる。

【００７２】このシステムが、通信の完全性が保証されるように動作するためには、バスの
他方の端でコプロセッサ２が、同期した方法でこのバスから読み取り、このバス
へ書き込みする用意ができていることが必要である。アプリケーション・ソフト
ウェア（および具体的には、コプロセッサ２を構成するアプリケーション・ソフ
トウェアの一部まで）の責任は、つぎのことを保証することである。すなわち、
1)２つのストリームが同時にバスにアクセスしようと試みないこと、および2)コ
プロセッサ２の実行がバースト・バッファ・メモリ５とのデータ転送と同期であ
ることである。

【００７３】この後者の要件は、コプロセッサ２が、２つのデバイスの間の接続上で、バー
スト・バッファ・メモリ５によって配置されたデータを読み取るため、かつその
逆のための用意ができることを保証する。

【００７４】通常は、複数の物理線をＣｈｅｓｓアレイ２とバースト・バッファ・メモリ５
の間に設けることができるが、一般の多重化の必要性はなお残る。コプロセッサ
２とバースト・バッファ・メモリ５の間の物理接続の数が、コプロセッサ２のた
めの論理Ｉ／Ｏストリームの合計数以上でない限り、２つ以上の論理ストリーム
が同じワイヤ上で多重化されなければならないことが常に真となる。（バースト
・バッファ・メモリ５に有利に使用されるように）高速ＳＲＡＭの設計に関係し
た技術的な理由が、コプロセッサ２との複数の接続の使用を防止する。

【００７５】コプロセッサ・コントローラ９は、コプロセッサ２を含むＣＨＥＳＳアレイの
実行を制御するようにも動作し、それが指定数のクロック・サイクルで実行する
ようにする。これは、コプロセッサ２におけるパイプラインの内部状態に影響を
与えない方法において、ＣＨＥＳＳアレイを、その内部クロックを「ゲーティン
グ」すること（つまり、停止すること）によって「フリーズ」する前に、指定数
のサイクルだけチッキングする、制御有限状態機械４２におけるカウンタによっ
て達成される。このチックの数が、以下に記載されたＣＣ＿ＳＴＡＲＴ＿ＥＸＥ
Ｃ命令を使用して指定される。

【００７６】コプロセッサ・コントローラ９が、プロセッサ１によって、コプロセッサ命令
待ち行列８の使用を通じてプログラムされる。このコプロセッサ・コントローラ
９のための可能な命令セットが、以下の表２において示される。

【００７７】

【表２】

【００７８】前記の命令では、命令フォーマットの異なる選択を行うことができる。１つの
可能なフォーマットは３２ビットの数字であり、１６ビットが演算コードを符号
化し、１６ビットが上述の任意選択のパラメータ値を符号化する。

【００７９】個々の命令の意味は、以下の通りである。・ＣＣ＿ＣＵＲＲＥＮＴ＿ＰＯＲＴは、ポートの１つを、すべての後続のＣＣ＿
ＰＯＲＴ＿ｘｘｘ命令の受信者として、次のＣＣ＿ＣＵＲＲＥＮＴ＿ＰＯＲＴま
で、選択する。・ＣＣ＿ＰＯＲＴ＿ＰＥＲＩＯＤ（）は、現在のポートの活動化の周期を、整数
パラメータの値に設定する。・ＣＣ＿ＰＯＲＴ＿ＰＨＡＳＥ＿ＳＴＡＲＴ／ＣＣ＿ＰＯＲＴ＿ＰＨＡＳＥ＿Ｅ
ＮＤ（_{ｓｔａｒｔ} _ｅｎｄ）は、現在のポートの活動化の段階の開始／終了を、
整数のパラメータ（_{ｓｔａｒｔ} _ｅｎｄ）の値に設定する。・ＣＣ＿ＰＯＲＴ＿ＴＩＭＥ＿ＳＴＡＲＴ／ＣＣ＿ＰＯＲＴ＿ＴＩＭＥ＿ＥＮＤ
（ｔ_{ｓｔａｒｔ} ｔ_ｅｎｄ）は、現在のポートの活動の最初／最後のサイクルを
設定する。・ＣＣ＿ＰＯＲＴ＿ＡＤＤＲＥＳＳ（ａｄｄｒ_{ｓｔａｒｔ}）は、現在のポートの
現在のアドレスを、整数のパラメータａｄｄｒ_{ｓｔａｒｔ}の値に設定する。・ＣＣ＿ＰＯＲＴ＿ＩＮＣＲＥＭＥＮＴ（ａｄｄｒ_ｉｎｃｒ）は、現在のポート
のアドレス増分を、整数のパラメータａｄｄｒ_ｉｎｃｒの値に設定する。・ＣＣ＿ＰＯＲＴ＿ＩＳ＿ＷＲＩＴＥ（ｒｗ）は、現在のポートのためのデータ
転送方向を、ブール・パラメータｒｗの値に設定する。・ＣＣ＿ＳＴＡＲＴ＿ＥＸＥＣｎ_{ｃｙｃｌｅｓ}は、コプロセッサ・コントロー
ラ２の実行を、関連付けられた整数パラメータｎ_{ｃｙｃｌｅｓ}によって指定され
たクロック・サイクルの数だけ開始する。・ＣＣ＿ＬＸＳ＿ＤＥＣＲＥＭＥＮＴは、ＬＸセマフォの値を（以前に記載され
たように、中断の方法において）減分する。・ＣＣ＿ＸＳＳ＿ＩＮＣＲＥＭＥＮＴは、ＸＳセマフォの値を増分する。

【００８０】カウンタ４２の現在値、ｔ_ｃｕｒが、ｔ_{ｓｔａｒｔ}ｔ_ｃｕｒ＜ｔ_ｅｎｄであり
、_{ｓｔａｒｔ}（ｔ_ｃｕｒｍｏｄ）＜_ｅｎｄである場合、ポートが能動（つまり
、バースト・バッファ・メモリ５との通信の制御を有する）として定義される。
これは、たとえば、２つのストリームが、等しい周期、言わば５で存在し、一方
が最初の４サイクルのためのＢＢメモリの制御を有し、他方が残りのサイクルの
ための制御を有する、システムの可能性を可能にする。

【００８１】このアーキテクチャを使用するアルゴリズムを実行する処理は、最初にコプロ
セッサ２のプログラミング、次いでコプロセッサ・コントローラ９およびバース
ト・バッファ・コントローラ７のプログラミングまたは初期化と、その後に続く
アルゴリズムの実際の実行を含む。

【００８２】コプロセッサ２の初期化では、デバイスの実際の実施形態に特定の手段によっ
て、構成がコプロセッサ自体にロードされることが、一般にもっとも直接になる
。

【００８３】コプロセッサ・コントローラ９のプログラミングでは、そのステップは次の通
りである。１．メイン・コプロセッサ・コントローラ９が、前に記載されたように、Ｃｈ
ｅｓｓアレイにおいて存在する各論理ストリーム毎の合計数、周期、段階および
アドレス増分に従って構成される。所望の機能を実行するためのコプロセッサ・
コントローラ９のプログラミングの一例が、下に示される。２．コプロセッサ・コントローラ９の構成における次のステップは、アドレス
構成である。各論理ストリームの特性（周期、段階）がアルゴリズム中で同じで
あり続ける可能性が高いが、バースト・バッファ・メモリ５におけるコプロセッ
サ・コントローラ９によってアクセスされた実アドレスは変わる。それはこの可
変性であり、これは、バースト・バッファ・コントローラ７がダブル・バッファ
リングを、バースト・バッファ・アーキテクチャ内で直接の方法で実行できるよ
うにする。このダブル・バッファリングの効果は、先に述べられたように、コプ
ロセッサ２に、それが連続ストリームと対話中である印象を与えることであるが
、実際にはバッファが連続的に交換されている。

【００８４】バースト・バッファ・コントローラ７も構成される必要がある。これを行うに
は、メイン・メモリ３からバースト・バッファ・メモリ５へのデータの転送を構
成するために、適切なコマンドがバースト命令待ち行列６へ送信されなければな
らない。これらの命令（ＢＢ＿ＳＥＴ＿ＭＡＴおよびＢＢ＿ＳＥＴ＿ＢＡＴ）が
、ＢＡＴおよびＭＡＴ内で適切なエントリを、コプロセッサ・コントローラ９の
プログラミングに適合する方法で構成する。この実施形態では、ＭＡＴおよびＢ
ＡＴエントリをプログラムするための命令が、バースト命令待ち行列６を通じて
発行される。代替の可能性は、プロセッサ１が読み書きするメモリ・マップ・レ
ジスタの使用となる。この実施形態の場合のように、メモリ・マップ・レジスタ
から読み取られる可能性がなく（それらが存在しないので）、プロセッサ１がバ
ースト・バッファ・コントローラ７の状態を照会することができないが、これは
著しい制限ではない。さらに、この目的のためのバースト命令待ち行列６の使用
は、バースト転送の実行によりＭＡＴおよびＢＡＴエントリを構成するための命
令をインターリービングし、したがって、プロセッサ１の監視なしに正しい時間
的意味を維持する可能性を可能とする。

【００８５】これらのステップが実行された後、ＣＨＥＳＳアレイの実際の実行を開始する
ことができる。この実施形態では、ＣＨＥＳＳアレイに指定数のサイクルで実行
するように命令することのみが必要である。これは、正確な数のサイクルをパラ
メータとして、コプロセッサ命令待ち行列８におけるＣＣ＿ＳＴＡＲＴ＿ＥＸＥ
Ｃ命令へ書き込むことによって達成され、次いでこのデータをコプロセッサ・コ
ントローラ９へ渡すことができるようにする。この値がコプロセッサ・コントロ
ーラ９に転送された１クロック・サイクル後、コントローラが値をバースト・バ
ッファ・メモリ５とコプロセッサ２のＣＨＥＳＳアレイの間で転送することを開
始し、ＣＨＥＳＳアレイの実行を可能にする。

【００８６】しかし、重要なステップを、計算に関係する命令がそれぞれの命令待ち行列に
配置される前に追加しなければならない。これは、必要な同期化機構が、同期化
およびダブル・バッファリングの原理をうまく実施するために適切であるように
するためである。この機構における基本エレメントは、コプロセッサ・コントロ
ーラ９がＬＸセマフォの値を減分しようと試み、上述のロジックに従って、それ
がそうできるようになるまでコプロセッサの動作を中断することである。このセ
マフォの初期値は０である。すなわち、したがって、コプロセッサ・コントロー
ラ９およびコプロセッサ２がこの段階で「フリーズ」される。成功したロードバ
ースト命令の後にＬＸセマフォの値がバースト・バッファ・コントローラ７によ
って増分されるときにのみ、コプロセッサ２がその実行を開始（あるいは再開）
できるようになる。この効果を達成するため、ＣＣ＿ＬＸ＿ＤＥＣＲＥＭＥＮＴ
命令がコプロセッサ命令待ち行列８において、「コプロセッサ２の実行を開始す
る」（ＣＣ＿ＳＴＡＲＴ＿ＥＸＥＣ）命令の前に挿入される。以下に示されるよ
うに、対応する「ＬＸセマフォを増分する」（ＢＢ＿ＬＸ＿ＩＮＣＲＥＭＥＮＴ
）命令が、バースト命令待ち行列６において、対応するロードバースト命令の後
に挿入される。

【００８７】ＣＨＥＳＳ論理ストリームおよびバースト・バッファ・メモリ５の間の実際の
データの転送が、先に記載されたようなコプロセッサ・コントローラ９のプログ
ラミングに従って実行される。

【００８８】カウンタ４２が実行しなければならないチックの数は、１つまたは複数の入力
バーストを消費するためにどれだけの時間がかかるかに依存する。システムの正
確さを保証することは、アプリケーション・ソフトウェアに任される。カウンタ
４２のプログラミングは、バッファが消費された後にコプロセッサ２の実行が停
止するようにしなければならない。コプロセッサ命令待ち行列８における次の命
令は、次のデータのバーストがバースト・バッファ・メモリ５に到着しているよ
うにするため、同期化命令（つまり、ＣＣ＿ＬＸ＿ＤＥＣＲＥＭＥＮＴ）でなけ
ればならない。この命令（および場合によっては、必要とされたデータが使用可
能になるまでの待機期間）の後に続いて、この新しいデータのバーストの初期ア
ドレスがデータ・ストリームに割り当てられ（ＣＣ＿ＰＯＲＴ＿ＡＤＤＲＥＳＳ
命令により）、実行がＣＣ＿ＳＴＡＲＴ＿ＥＸＥＣ命令を介して再開される。こ
の手順は出力ストリームの場合に類似している（重要な違いは、データがメイン
・メモリ３からバースト・バッファ・メモリ５に到着するために必要としたもの
に等しい待機期間がなくなることである）。

【００８９】計算モデル計算モデル全体の例を図５を参照して説明する。この例は、アルゴリズムがこ
のアーキテクチャにおいて使用するためにどのように記録することができるかを
指示し、一例として簡素なベクトル加算を使用し、これは従来のマイクロプロセ
ッサ向けに以下のようにＣでコーディングすることができる。

【００９０】

【表３】ｉｎｔａ［１０２４］，ｂ［１０２４］，ｃ［１０２４］；ｆｏｒ（ｉ＝０；ｉ＜１０２４；ｉ＋＋）ａ［ｉ］＝ｂ［ｉ］＋ｃ［ｉ］；

【００９１】図１のアーキテクチャ上で元のベクトル加算ループ・ネストと同じ機能性を達
成するようプロセッサ１を走らせるＣコードの一部分は、次の通りである。

【００９２】

【表４】

【００９３】この構成では、３つのポートがコプロセッサ・コントローラ９において使用さ
れ、すなわち、各入力ベクトルのためのもの（ｂおよびｃ）、および出力ベクト
ルのためのもの（ａ）である。行４、６および８の文は、これらの３つのポート
を初期化するためのコード・マクロである。これらは、拡張されるとき、次の表
のコマンドになる（これは行４を参照し、他の拡張されたマクロは直接類似して
いる）。

【００９４】

【表５】ＣＣ＿ＣＵＲＲＥＮＴ＿ＰＯＲＴ（０）；ＣＣ＿ＰＯＲＴ＿ＩＮＣＲＥＭＥＮＴ（４）；ＣＣ＿ＴＲＡＮＳＦＥＲ＿ＳＩＺＥ（４）；ＣＣ＿ＰＯＲＴ＿ＰＥＲＩＯＤ（３）；ＣＣ＿ＰＯＲＴ＿ＰＨＡＳＥ＿ＳＴＡＲＴ（０）；ＣＣ＿ＰＯＲＴ＿ＰＨＡＳＥ＿ＥＮＤ（１）；ＣＣ＿ＰＯＲＴ＿ＳＴＡＲＴ＿ＴＩＭＥ（０）；ＣＣ＿ＰＯＲＴ＿ＥＮＤ＿ＴＩＭＥ（３＊ＢＬＥＮ＊ＭＡＸＫ＋３）；ＣＣ＿ＰＯＲＴ＿ＩＳ＿ＷＲＩＴＥ（０）；

【００９５】このコードは、ポート０が、カウンタ４２の３チック毎、正確にはチック０、
３、６．．．３＊ＢＬＥＮ＊ＭＡＸＫ＋３の４バイトのデータを読み取り、それ
が読み取るアドレスを毎回４バイト増分するという効果を有する。ＢＬＥＮ＊Ｍ
ＡＸＫは、合計する２つのベクトルの長さ（この場合、１０２４）であり、ＢＬ
ＥＮはＤＲＡＭからの単一のデータのバーストの長さ（たとえば、６４バイト）
である。これらの値で、ＭＡＸＫは１０２４／６４＝１６に設定される。

【００９６】行９から１４は、バースト・バッファ転送のためのＭＡＴおよびＢＡＴを確立
し、これらのテーブルにおけるエントリをメイン・メモリ３およびバースト・バ
ッファ・メモリ５におけるアドレスに結合する。コマンドＢＩＱ＿ＳＥＴ＿ＭＡ
Ｔ（０，＆ｂ［０］，ＢＬＥＮ＊４，４，ＴＲＵＥ）はコード・マクロであり、
これはＢＢ＿ＳＥＴ＿ＭＡＴ（０，＆ｂ［０］，ＢＬＥＮ＊４，４）に拡張され
、ＭＡＴにおけるエントリ０をアドレス＆ｂ［０］へ結合し、バースト長をＢＬ
ＥＮ＊４バイトに（つまり、整数が３２ビットの場合、ＢＬＥＮ整数）、ストラ
イドを４に設定する。後に続く２行は、ｃおよびａに類似し、関係する。行ＢＩ
Ｑ＿ＳＥＴ＿ＢＡＴ（０，０ｘ００００，ＢＬＥＮ＊４）は、ＢＢ＿ＳＥＴ＿Ｂ
ＡＴ（０，０ｘ００００，ＢＬＥＮ＊４）に拡張され、ＢＡＴのエントリ０をバ
ースト・バッファ・メモリ５におけるアドレス０ｘ００００へ結合する。後に続
く２行は再度類似している。

【００９７】この点まで、計算は行われていないが、コプロセッサ・コントローラ９および
バースト・バッファ・コントローラ７が設定されている。行１５から３８のルー
プ・ネストは、実際の計算が行われるところである。このループはＭＡＸＫ回繰
り返され、各反復がＢＬＥＮエレメント上で動作し、処理されたＭＡＸＫ＊ＢＬ
ＥＮエレメントの合計を与える。このループは、コプロセッサ命令待ち行列８へ
送信された命令の組ＣＩＱ＿ｘｘｘで開始して、コプロセッサ２およびコプロセ
ッサ・コントローラ９の動作を制御し、その後に、バースト・バッファ・コント
ローラ７およびバースト・バッファ・メモリ５を制御することが目的である、バ
ースト命令待ち行列６へ送信された１組の命令が続く。これら２組の相対的な順
序は、原理においては重要でなく、これは、異なるシステムエレメントの間の同
期化が、セマフォによって明示的に保証されるからである。互いの後に実行する
２つの異なるループを有すること（２つの命令待ち行列が十分深かったと仮定し
て）、または、２つの異なる制御のスレッドを有することさえも可能となる。

【００９８】ＣＩＱ＿ｘｘｘ行は、ソース・コードを書くことを簡約にするコード・マクロ
である。これらの意味は、次の通りである。ＣＩＱ＿ＬＸＤ（Ｎ）：Ｎ個のＣＣ＿ＬＸＳ＿ＤＥＣＲＥＭＥＮＴ命令をコプ
ロセッサ命令待ち行列８に挿入する。ＣＩＱ＿ＳＡ（ポート、アドレス）：ＣＣ＿ＣＵＲＲＥＮＴ＿ＰＯＲＴ（ポー
ト）およびＣＣ＿ＰＯＲＴ＿ＡＤＤＲＥＳＳ（アドレス）命令をコプロセッサ命
令待ち行列８に挿入する。ＣＩＱ＿ＳＴ（ｃｙｃｌｅｎｏ）：コプロセッサ２にカウンタ４２のｃｙｃｌ
ｅｎｏチックだけ実行させるために、ＣＣ＿ＥＸＥＣＵＴＥ＿ＳＴＡＲＴ（ｃｙ
ｃｌｅｎｏ）命令を挿入する。ＣＩＱ＿ＸＳＩ（Ｎ）：Ｎ個のＣＣ＿ＸＳＳ＿ＩＮＣＲＥＭＥＮＴ命令をコプ
ロセッサ命令待ち行列８に挿入する。

【００９９】上に示したコードのネットの効果は、以下の通りである。すなわち、1)ＬＸＳ
セマフォ上で対応するロードバーストと同期化すること、2)コプロセッサ２上で
計算を、カウンタ４２の３＊ＢＬＥＮチックだけ開始すること、および3)ＸＳＳ
セマフォ上で対応するストアバーストと同期化することである。

【０１００】ＢＩＱ＿ｘｘｘ行は再度、ソース・コードを書くことを簡約にするコード・マ
クロである。これらの意味は、次の通りである。ＢＩＱ＿ＦＬＢ（ｍａｔｅ，ｂａｔｅ）：ＢＢ＿ロードバースト（ｍａｔｅ，
ｂａｔｅ，ＴＲＵＥ）命令をバースト命令待ち行列６に挿入する。ＢＩＱ＿ＬＸＩ（Ｎ）：Ｎ個のＢＢ＿ＬＸ＿ＩＮＣＲＥＭＥＮＴ命令をバース
ト命令待ち行列６に挿入する。ＢＩＱ＿ＦＳＢ（ｍａｔｅ，ｂａｔｅ）：ＢＢ＿ストアバースト（ｍａｔｅ，
ｂａｔｅ，ＴＲＵＥ）命令をバースト命令待ち行列６に挿入する。ＢＩＱ＿ＸＳＤ（Ｎ）：Ｎ個のＢＢ＿ＸＳ＿ＤＥＣＲＥＭＥＮＴ命令をバース
ト命令待ち行列６に挿入する。

【０１０１】上に示したコードのネットの効果は、メインＤＲＡＭメモリ３からバースト・
バッファ・メモリ５へ２つのバーストをロードし、次いでＬＸセマフォ１０の値
を増分して、コプロセッサ２がその実行を上述のように開始できるようにするこ
とである。最初のものを除くすべての反復において、コプロセッサ２の計算の結
果が、次いで、ストアバースト命令を使用してメイン・メモリ３に戻すように格
納される。２番目の反復が、最初の反復において実行された計算の結果を格納す
ることを待機する必要は厳密にはないが、これはコプロセッサ２とバースト・バ
ッファ・メモリ５の間の並行性を向上させる。

【０１０２】２つの変数ｅｏおよびｎｏｔ＿ｅｏの使用は、先に記載されたダブル・バッフ
ァリング効果を可能にするためにここで使用された機構である。

【０１０３】行３９から４２は、バースト・バッファ・メモリ５からメイン・メモリ３への
最後のバースト転送を実行し、ループ本体の最初の反復におけるストアバースト
命令の不在を補償する。

【０１０４】結果として生じる時間線は図６の通りである。ロードバースト６０１は最初の
動作であり（これらが完了されるまで、コプロセッサ２がロード／実行セマフォ
によってストールされるので）、これらが完了されるとき、コプロセッサ２が６
０２を実行開始することができる。バースト命令待ち行列６における次の命令は
別のロードバースト６０１であり、これが、最初の２つのロードが終了するとす
ぐに実行される。次いで、バースト命令待ち行列６における次の命令がストアバ
ースト６０３であり、これは、ＸＳセマフォ１１が、コプロセッサ２上の最初の
計算が完了したことを信号で知らせるまで待機しなければならない。この処理は
、ループ中で継続する。

【０１０５】上に示された例は非常に簡素なアルゴリズムの場合であるが、これは、より複
雑である計算において必要とされる基本原理を例示する。当業者は、上に示され
た手法、原理および技術を、より複雑なアルゴリズムをこのアーキテクチャによ
る実行に適合させるために図１のアーキテクチャをプログラムすることに使用で
きる。

【０１０６】計算のためのツールチェーン計算モデルの原理を、ハンド・コーディングによって直接の様式で活用するこ
とができる。つまり、手動でＣコードを書いて、従来の方法でシステム構成エレ
メントの適切な動作をスケジュールするように適合されたＣＰＵ上で実行して（
命令を適切な待ち行列に配置し、記載されたようにシステム構成エレメントを動
作に設定し）、コプロセッサのための適切な構成を、そのコプロセッサを構成す
るための標準の合成ツールに従って提供することである。ＣＨＥＳＳのような、
構成可能またはＦＰＧＡに基づいたプロセッサでは、このツールが一般にハード
ウェア記述言語となる。ＣＨＥＳＳに使用するための適切なハードウェア記述言
語はＪＨＤＬであり、たとえば、ＰｅｔｅｒＢｅｌｌｏｗｓおよびＢｒａｄ
Ｈｕｔｃｈｉｎｇｓによる１９９８年４月の「ＪＨＤＬ−ＡｎＨＤＬｆｏｒ
ＲｅｃｏｎｆｉｇｕｒａｂｌｅＳｙｓｔｅｍｓ」Ｐｒｏｃｅｅｄｉｎｇｓ
ｏｆｔｈｅＩＥＥＥＳｙｍｐｏｓｉｕｍｏｎＦｉｅｌｄ−Ｐｒｏｇｒ
ａｍｍａｂｌｅＣｕｓｔｏｍＣｏｍｐｕｔｉｎｇＭａｃｈｉｎｅｓに記載
されている。

【０１０７】好ましい代替手法は、特定のツールチェーンがこの計算アーキテクチャのため
に使用されることである。このようなツールチェーンおよびその実際の動作のエ
レメントを次に簡単に説明する。

【０１０８】ツールチェーンは、従来の順次コードから、有効な動作に特に適合されたコー
ドへ変換すること、およびシステム構成エレメントの相互運用の機能を有する。
例示的ツールチェーンは入力としてＣコードを受信し、出力として次のものを提
供する。すなわち、1)計算の実行のためのＣＨＥＳＳコプロセッサ構成、2)デー
タをシステム・メモリとバースト・バッファ・メモリの間で移動するためのバー
スト・バッファ・スケジュール、および3)データをＣＨＥＳＳコプロセッサとバ
ースト・バッファ・メモリの間で移動するためのコプロセッサ・コントローラ構
成である。

【０１０９】ツールチェーン自体は２つの構成エレメントを有する。第１のものはフロント
エンドであり、これはＣコードをその入力として取り、注釈付きのディペンデン
スグラフをその出力として提供する。第２の構成エレメントはバックエンドであ
り、これはフロントエンドによって生成されたディペンデンスグラフを取り、こ
れらからＣＨＥＳＳ構成、バースト・バッファ・スケジュール、およびコプロセ
ッサ・コントローラ構成を生成する。

【０１１０】フロントエンドの主なタスクは、計算を、それがコプロセッサ２において起こ
るように、適切に記述するグラフを生成することである。実行された主なステッ
プの１つは、値に基づいた依存解析であり、これはＷ．ＰｕｇｈおよびＤ．Ｗｏ
ｎｎａｃｏｔｔによる１９９３年１２月の「ＡｎＥｘａｃｔＭｅｔｈｏｄ
ｆｏｒＡｎａｌｙｓｉｓｏｆＶａｌｕｅ−ｂａｓｅｄＡｒｒａｙＤａ
ｔａＤｅｐｅｎｄｅｎｃｅｓ」，ＵｎｉｖｅｒｓｉｔｙｏｆＭａｒｙｌａ
ｎｄ，ＩｎｓｔｉｔｕｔｅｆｏｒＡｄｖａｎｃｅｄＣｏｍｐｕｔｅｒＳ
ｔｕｄｉｅｓ−Ｄｅｐｔ．ｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，Ｕｎｉ
ｖｅｒｓｉｔｙｏｆＭａｒｙｌａｎｄに記載されている。生成された出力は
、ＣＨＥＳＳアレイにおいて実施されるデータフローの記述、および（ロードバ
ースト命令を介して）入力としてロードされるか、あるいは（ストアバースト命
令を介して）出力として格納される必要のあるすべてのアドレスの表現、および
データがメイン・メモリ３から検索され、それへ格納されなければならない順序
の表現である。これは、バースト・バッファ・コントローラ７のための効率的な
スケジュールが導出される基礎である。

【０１１１】一例として、４タップＦＩＲフィルタのためのＣコードを仮定する場合、次の
表のようになる。

【０１１２】

【表６】 int i，j，src[]，kernel［］，dst［］； for（i=0 ; i<1000; i++） for（j=0；j<4; j++） dst［i］＝dst［i］＋src［4+i-j］*kernel［j］；

【０１１３】テキスト・ファイルとして提供された、フロントエンド、出力への入力として
、次の形式を有する。

【０１１４】

【表７】

【０１１５】このテキスト・ファイルは注釈付きのグラフの表現である。グラフ自体が、図
７に示される。このグラフは、フロントエンド・アルゴリズムによって判明され
た依存性を明瞭に示す。エッジ８１が、依存性が存在する条件、および適用可能
である場合の依存性の距離によりマーク付けされる。記述は、必要とされる機能
性を有するハードウェア構成エレメントを生成するに必要なすべての情報を含む
。

【０１１６】コンパイル・ツールチェーンのバックエンドは、ある基本機能を有する。１つ
は、フロントエンドから得られた、拡張されたディペンデンスグラフをスケジュ
ールし、時間変更することである。これは、十分に機能的なＣＨＥＳＳ構成を得
るために必要である。スケジューリングは、拡張されたディペンデンスグラフに
おけるノード８２のそれぞれが活動化される時点を決定することを含み、時間変
更は、たとえば、エッジが値を適切な瞬間に伝播するようにするための遅延の挿
入を含む。スケジューリングは、シフト線形スケジューリングを使用して実行す
ることができ、これはハードウェア合成において幅広く使用される技術である。
時間変更は、ハードウェア合成における共通で静かな直接のタスクであり、適切
な数のレジスタを回路に追加して、回路における異なる経路が適切な時点で交わ
るようにすることのみを含む。この点で、コプロセッサ２（ここでは、ＣＨＥＳ
Ｓコプロセッサ）の機能性の完全な記述を有する。この記述が図８に示される。
次いで、この記述を適切なツールへ渡して、この機能性を有するＣＨＥＳＳコプ
ロセッサをプログラムするために必要な一連の信号（一般に「ビットストリーム
」と呼ばれる）を生成することができる。

【０１１７】バックエンドの必要とされる別の機能は、バースト・バッファおよびコプロセ
ッサ・コントローラ・スケジュールの生成である。ＣＨＥＳＳ構成が得られた後
、これにメイン・メモリからの値を入れる必要があるとき、および値をメイン・
メモリへ戻すように格納でき、バースト・バッファ・スケジュールを確立できる
ときが明らかである。したがって、バースト・バッファ・メモリ５にロードされ
、そこから格納される必要のあるすべてのデータのアドレス空間を、バースト・
バッファ・コントローラ７が動作できる固定のデータのバーストに分割すること
を含む、ステップが提供される。

【０１１８】たとえば、上に提示されたＦＩＲの例では、入力アレイ（ｓｒｃ［］）が適切
なサイズのいくつかのバーストに分割され、アルゴリズムのために必要とされた
すべてのアドレス範囲が包含されるようになる。このツールチェーンは長さＢ_ｌ _ｅｎのバーストを使用して（Ｂ_ｌｅｎは２の累乗であり、このツールチェーンへ
の実行パラメータとして指定される）、できるだけ多くの入力アドレス空間を包
含する。このバースト長でそれ以上達成できないとき、ツールチェーンは、長さ
を減分するバースト、すなわち、Ｂ_ｌｅｎ／２、Ｂ_ｌｅｎ／４、Ｂ_ｌｅｎ／８、
．．．、２、１を、このアルゴリズムのために必要とされたあらゆる入力アドレ
スが唯一のバーストに属するまで使用する。

【０１１９】これらのバーストのそれぞれについて、ロードされたデータのいずれかが必要
とされる、反復空間におけるもっとも早い点が計算される。すなわち、各入力バ
ーストに対して、反復空間において関連付けられた１点があり、そこでは、それ
より早い反復が、バーストによってロードされたデータのいずれをも必要としな
いことが保証される。コプロセッサ２の実行が反復空間におけるこの点に到達す
るときを検出することは容易である。したがって、次のものが作成される。すな
わち、1)データをバースト・バッファ・メモリ５に移動するための、関連アドレ
スのためのロードバースト命令、および2)コプロセッサ２の実行が関連ロードバ
ースト命令と同期化されることを保証するための、対応する同期化点（ＣＣ＿Ｌ
Ｘ＿ＤＥＣＲＥＭＥＮＴ／ＢＢ＿ＬＸ＿ＩＮＣＲＥＭＥＮＴの組）である。

【０１２０】計算および通信の効果的なオーバーラップを達成するには、バスを介したデー
タの転送に関連付けられた待ち時間を隠すために、ロードバースト命令が予め発
行されなければならない。

【０１２１】アルゴリズムによって包含されなければならないすべての出力アドレス空間が
、類似のロジックに従って出力バーストに区分される。再度、出力空間が、可変
長のバーストに区分される。

【０１２２】ツールチェーンは、1)関連アドレスのためのストアバースト命令、および2)対
応する同期化点（ＢＢ＿ＸＳ＿ＤＥＣＲＥＭＥＮＴ／ＣＣ＿ＸＳ＿ＩＮＣＲＥＭ
ＥＮＴの組）を作成する。

【０１２３】この点で、我々は、次のことに関連する情報を有する。すなわち、1)ロードバ
ーストおよびストアバースト命令の相対的順序、およびそれらの実行のパラメー
タ（アドレスなど）、および2)コプロセッサ２上で実行される計算に相対的なそ
れらの位置である。

【０１２４】次いで、この情報が使用されて、上述のＦＩＲの例のように、全体の計算を編
成するための適切なＣコードが生成される。

【０１２５】実際のコード生成段階（つまり、プロセッサ１上で実行するためのＣコードの
排出）を、ｈｔｔｐ：／／ｗｗｗ．ｃｓ．ｕｍｄ．ｅｄｕ／ｐｒｏｊｅｃｔｓ／
ｏｍｅｇａ／で入手可能である、ＯｍｅｇａＬｉｂｒａｒｙｏｆｔｈｅ
ＵｎｉｖｅｒｓｉｔｙｏｆＭａｒｙｌａｎｄに含まれたコード生成ルーチン
と、その後に続いて、これらのルーチンの総称出力を上述の形式に変換する、カ
スタマイズされたスクリプトを使用して実施することができる。

【０１２６】実験結果−画像たたみこみ画像たたみこみアルゴリズムが、次の表のループ・ネストによって記述される
。

【０１２７】

【表８】 for（i=0；i＜ＩＭＡＧＥ＿ＨＥＩＧＨＴ；i++） for（j=0；j＜ＩＭＡＧＥ＿ＷＩＤＴＨ；j++） for（k=0；k＜ＫＥＲＮＥＬ＿ＨＥＩＧＨＴ；k++） for（l＝0；1＜ＫＥＲＮＥＬ＿ＷＩＤＴＨ；l++） Dest［i，j］＋＝Source［（i+1）-k，（j+1）-l］*C［k，l］；

【０１２８】境界条件を簡約するために、ソース画像を、垂直方向においてＫＥＲＮＥＬ＿
ＨＥＩＧＨＴ−１画素、水平方向においてＫＥＲＮＥＬ＿ＷＩＤＴＨ−１画素だ
け拡張するために、複製が使用された。２つのカーネル、すなわち共にメディア
ン・フィルタ(median filtering)を実行する３ｘ３カーネルおよび５ｘ５カーネ
ルが、システム性能を評価することに使用される。

【０１２９】図９および図１０は、（ＢＢＣとして示す）本発明の一実施形態によるアーキ
テクチャの性能を、バースト・バッファ（ＢＢとして示す）を使用した従来のプ
ロセッサ、および従来のプロセッサおよびキャッシュの組み合わせ（キャッシュ
として示す）に対するものとして例示する。２つのバージョンのアルゴリズムが
実施され、１つは３２ビットの画素により、１つは８ビットの画素による。同じ
実験測定値が、異なる画像サイズで、８ｘ８から１２８ｘ１２８までの範囲で、
異なるバースト長でとられた。

【０１３０】図から分かるように、ＢＢＣ実装が、ＢＢおよびキャッシュ実装に勝る高い性
能上の利点を示した。このアルゴリズムは相対的に複雑であり、ＢＢおよびキャ
ッシュ実装におけるシステムの性能全体が非常にコンピュータ制約的(computer
bound)であり、アルゴリズムが高度に複雑であるためにＣＰＵがついていけない
。本発明の実施形態を使用すると、計算がＣＨＥＳＳアレイ上で（その固有の並
行性により）実行されるので計算が大いに効果的であり、性能はあえていうとＩ
Ｏ制約的(IO bound)である。最も、ＩＯもバースト・バッファの有効な使用を通
じて効率的である。マルチメディア命令（ＭＩＰＳＭＤＭＸなど）がＢＢまた
はキャッシュ実施におけるＣＰＵの性能を向上させることができ、これは、それ
らがいくつかの算術命令の並列実行を可能にできるからである。それでもなお、
性能向上の結果は、この構成において専用コプロセッサを使用して得られた性能
レベルに到達する可能性が低い。

【０１３１】修正および変形形態プロセッサ１をコプロセッサ２およびバースト・バッファ・メモリ５から減結
合させる機能を、命令待ち行列６、８以外によって達成することができる。有効
な代替物は、２つの待ち行列を、図１２に記載されたような、命令をバースト・
バッファ・メモリ５およびコプロセッサ２へ発行することに完全に専用にされた
２つの小型プロセッサ（それぞれが各待ち行列用）と置換することである。バー
スト命令待ち行列が（図１の実施形態を参照して）バースト・コマンド・プロセ
ッサ１０６によって置換され、コプロセッサ命令待ち行列が、コプロセッサ・コ
マンド・プロセッサ１０８によって置換される。これは、これらの２つの構成エ
レメントによって実行された唯一のタスクとなるので、これらがコプロセッサ２
およびバースト・バッファ７からそれぞれ減結合される必要はなくなる。コマン
ド・プロセッサ１０６、１０８のそれぞれが、コマンドをコプロセッサまたはバ
ースト・バッファ（適切なように）へ発行することによって動作でき、次いで、
そのコマンドがその実行を完了するまで何も行わず、別のコマンドを発行するこ
となどができる。これは、設計を複雑にするが、メイン・プロセッサ１をその残
りの、命令を待ち行列へ発行する単純なタスクから解放する。プロセッサ１によ
って実行される唯一の作業は、次いで、これらの２つのプロセッサの初期設定と
なり、これは計算の開始直前に行われる。したがって、計算中に、プロセッサ１
が完全にコプロセッサ２およびバースト・バッファ・メモリ５の実行から減結合
される。

【０１３２】２つの従来の、しかしより小型のマイクロプロセッサ（あるいは、別法として
、２つの制御の独立スレッドを実行する唯一のプロセッサ）を使用することがで
き、それぞれが適切なコード（ループ・ネスト）の関連部分を実行する。別法と
して、外部挙動がコードの関連部分の実行を反映する、２つの汎用状態機械を合
成することができる（つまり、これらが同じ命令のシーケンスを提供する）。こ
のような状態機械のハードウェアの複雑さおよびコストは、同等の専用プロセッ
サのものよりも著しく低くなる。このような状態機械が、メイン・プロセッサ１
によって、上述のものに類似した方法でプログラムされる。主な違いは、イベン
トの繰り返しも符号化されることである。すなわち、これは、プロセッサ１が、
多少の（複雑である場合は）命令における１つのアルゴリズムの挙動を符号化で
きるために必要である。イベントのｘ回の繰り返しを得るために、プロセッサ１
がｘ個の命令を待ち行列に挿入する必要はないが、この繰り返しパラメータを命
令定義において符号化しなければならない。

【０１３３】上に示したように、特に有効な機構は、有限状態機械（ＦＳＭ：Finite State
Machine）を待ち行列の代りに使用して、メイン・プロセッサ１の実行をコプロ
セッサ２およびバースト・バッファ・コントローラ７の実行から減結合させるこ
とである。この機構が以下でより詳細に論じられる。

【０１３４】図１に例示されたアーキテクチャでは、異なるＩ／Ｏストリームの実行を駆動
するための命令を、コプロセッサ２の実行のための命令と混合することができる
。これは、システム構成エレメントの間の相互関係がコンパイル時に知られてお
り、したがって、異なるシステム構成エレメントへの命令を正しい順序でソース
・コードにおいてインタリーブすることができるので、可能である。

【０１３５】２つの状態機械を、まったく同じ方法による実行のためのこれらの命令を発行
するように、構築することができる。このような状態機械の一方は、コプロセッ
サ２の挙動を制御し、必要とされるようなＣＣ＿ｘｘｘ＿ｘｘｘ命令を発行し、
他方はバースト・バッファ・コントローラ７の挙動を制御し、必要とされるよう
なＢＢ＿ｘｘｘ＿ｘｘｘ命令を発行する。

【０１３６】このような状態機械を、いくつかの異なる方法において実施することができる
。１つの代替手法が図１３に示される。上で提示されたベクトル加算の例を参照
して、この状態機械１５０（コプロセッサ２のためのものであるが、バースト・
バッファ・コントローラ７のための同等のマシンが直接類似している）が、以下
のパターンから構築された命令のシーケンスを実施する。

【０１３７】

【表９】ＣＣ＿ＬＸ＿ＤＥＣＲＥＭＥＮＴ、ＣＣ＿ＬＸ＿ＤＥＣＲＥＭＥＮＴ、ＣＣ＿ＳＴＡＲＴ＿ＥＸＥＣ、ＣＣ＿ＸＳ＿ＩＮＣＲＥＭＥＮＴ

【０１３８】メインの状態機械１５０が効果的に、より簡素な状態機械１５１、１５２、１
５３に分割され、それぞれが１種類の命令の実行を制御する。周期および段階（
これが、コプロセッサ２とバースト・バッファ・コントローラ７の間で通信する
Ｉ／Ｏストリームに関連付けることができる周期および段階とは、何の関係も有
していないことに留意されたい）が、より簡素な状態機械のそれぞれに関連付け
られる。状態機械１５０のハードウェアは、典型的には、意図されたアプリケー
ションの要件を満たすために十分な数の、このようなより簡素な状態機械のアレ
イを含む。

【０１３９】イベント・カウンタ１５４が定義される。イベント・カウンタ１５４の役割は
、（この場合、コプロセッサ２のための）命令が順番に送信されることを可能に
することである。イベント・カウンタ１５４が増分される毎に、Ｍ＊周期_ｉ＋段
階_ｉ＝イベント・カウンタの値であるような値Ｍが存在する場合、状態機械ｉ（
すなわち、より簡素な状態機械１５１、１５２、１５３の１つ）が、比較ロジッ
ク１５５を通じた実行のために選択され、その命令が実行される。アプリケーシ
ョン・ソフトウェアの責任は、２つの異なる状態機械がこの式を満たすことがで
きないようにすることである。この命令の実行が完了されるとき、イベント・カ
ウンタ１５４が再度増分される。このイベントのシーケンスは、次のように要約
することができる。

【０１４０】１：イベントカウンタを増分する、すなわち、ＥＣ＋＋２：Ｍ＊周期_ｉ＋段階_ｉ＝ＥＣであるようなＭが存在する場合、状態機械ｉを
実行のために選択する３：このような状態機械ｉが発見された場合、状態機械ｉによって記述された
命令を実行する（これは、中断動作を含むことができる）４：１へ戻る

【０１４１】命令の実行に関係する多少の余分なパラメータ（読み／書きするためのアドレ
ス、ＣＣ＿ＳＴＡＲＴ＿ＥＸＥＣのための実行の長さなど）が、状態機械１５０
において符号化されなければならない。複数の状態機械が、典型的には異なるパ
ラメータを有する所与の命令を発行することができることに留意されたい。

【０１４２】このシステムは、周期的挙動を生成するために特に十分に動作する。しかし、
イベントが一度だけ起こらなければならない場合、これは容易に、無限周期およ
び有限段階を有する簡素な状態機械において符号化することができ、唯一の帰結
は、この簡素な状態機械が一度だけ使用されることである。

【０１４３】この手法はそれ自体を変更することができる。たとえば、この機構に柔軟性を
追加するには、可能な選択肢は、１つまたは複数の簡素な状態機械の実行を所定
の「時間ウィンドウ」に制限するために、「開始時間」および「終了時間」パラ
メータを簡素な状態機械に追加することである。

【０１４４】これらの状態機械のプログラミングは、システムの初期化中に、たとえば、プ
ロセッサ１によって割り当てられたメモリマップ・レジスタの使用を通じて起こ
る。代替物は、これらの状態機械をメイン・メモリ３の事前定義の領域から、お
そらくは専用チャネルおよび直接メモリ・アクセス（ＤＭＡ）機構の使用を通じ
て、プログラムするために必要なすべてのパラメータのローディングとなる。

【０１４５】２つの専用マイクロプロセッサを使用する、提案された他の代替機構は、図１
のアーキテクチャのためのプログラミング・モデルに著しい修正を必要としない
。すなわち、メイン・プロセッサ１をプログラムするために使用された同じ技術
を、コプロセッサ２のために意図されたコマンドをバースト・バッファ・コント
ローラ７のために意図されたものから分割する追加ステップと共に、使用するこ
とができる。実現可能であるが、この構成は、状態機械の手法に関して不利であ
る可能性がある。これらのプロセッサに、システムの複雑さに加えて、メイン・
メモリ３または他のＤＲＡＭへのアクセスを提供することが必要となる。システ
ムのコストおよび複雑さは、２つのマイクロプロセッサをこのように追加するこ
と（およびそれらが非常に簡素な計算を実行するためにのみ存在することにおい
て、十分に利用しないこと）によっても増大される。

【０１４６】図１およびその代替物のアーキテクチャを越えた様々な開発も、本発明の本質
の原理から逸れることなく行うことができる。３つのこれらの開発の分野が以下
に記載される。すなわち、パイプライン、データ依存条件／知られていない実行
時間、およびメモリへの非アフィン・アクセスである。

【０１４７】パイプライン・アーキテクチャは、アプリケーションがそれらの入力データ・
ストリーム上で複数の変換が実行されることを必要とする値を有する。たとえば
、たたみこみの直後に続いて相関を行うことができる。この種類の構成を収容す
るために、アーキテクチャおよび計算モデルへの変更が必要となる。アーキテク
チャ上では、逐次的にバッファされたＣＨＥＳＳアレイ、またはより大きい区分
されたＣＨＥＳＳアレイ、または計算段階の間に再構成されたＣＨＥＳＳアレイ
を提供することができる。図１１Ａおよび図１１Ｂは、このようなアプリケーシ
ョンを処理するために有効であり、複数のＣＨＥＳＳアレイを含む、異なるパイ
プライン・アーキテクチャを示す。図１１Ａは、プロセッサ１４３から命令され
た互い違いのＣＨＥＳＳ／バースト・バッファ・パイプラインによる構成、およ
びメイン・メモリ１４４とのデータの交換を示し、ＣＨＥＳＳアレイ１４１がデ
ータを第１の組のバースト・バッファ１４２から受信して、これを第２の組のバ
ースト・バッファ１４５へ渡し、この第２の組のバースト・バッファ１４５がさ
らにＣＨＥＳＳアレイ１４６と対話する（潜在的には、このパイプラインを、さ
らなる組のＣＨＥＳＳアレイおよびバースト・バッファにより継続させることが
できる）。同期化はより複雑になり、近接したＣＨＥＳＳアレイの間、および近
接したバースト・バッファの組の間の通信を含むが、同じ汎用パイプラインを後
に続けて、バースト・バッファの効率的な使用、およびＣＨＥＳＳアレイの間の
効率的な同期化を可能にすることができる。すなわち、セマフォを使用して、パ
イプラインの逐次段階によって実行された計算の正確さを保証することができる
。

【０１４８】図１１Ｂは、異なるタイプの計算パイプラインを示し、２つのＣＨＥＳＳアレ
イ１５１、１５６の間にＳＲＡＭキャッシュ１５５を有し、第１の組のバースト
・バッファ１５２へ提供されたロード、および第２の組のバースト・バッファ１
５７によって提供された格納を有する。プロセッサ１５３およびメイン・メモリ
１５４の役割は、本質的に他の実施形態から不変である。同期化はこの構成にお
いてそれほど困難でない可能性があるが、この構成が並行性をそれほど効果的で
なく活用する可能性がある。

【０１４９】上述のようなアーキテクチャにおけるコプロセッサの効率的な使用上の１つの
制約は、コプロセッサ実施の実行時間が知られるべきであることである（効率的
なスケジューリングを可能にするため）。これは、多数の媒体処理ループについ
て達成可能である。しかし、実行時間がコンパイル時に知られていない場合、ツ
ールチェーンにおけるスケジューリング要件を緩和させる必要があり、プロセッ
サ、コプロセッサおよびバースト・バッファの間の同期化および通信プロトコル
において、適切な許容が行われる必要がある。コプロセッサ・コントローラは、
この状況のための特定の構成も必要とする。

【０１５０】別の拡張は、バースト・バッファ・メモリへの非アフィン参照を可能にするこ
とである。上で使用されたバースト・バッファ・モデルでは、すべてのアクセス
がＡＩ＋Ｆのタイプであり、ただしＡは定数行列、Ｉは反復ベクトル、Ｆは定数
ベクトルである。この制限されたアクセス・モデルの使用により、コプロセッサ
・コントローラおよびプロセッサが予め、どのデータがいずれかの所与の時点で
必要とされるかを知ることができ、論理ストリームの効率的な作成が可能となる
。このアーキテクチャへのこの有意性は、全体として、どのように非アフィン・
アクセスを完全に任意の方法で提供することができるかが不明瞭である（同期化
機構が失敗するように思われる）が、非アフィン・アレイ・アクセスを使用して
ルックアップ・テーブルを参照することが可能になるということである。これは
、ルックアップ・テーブルをバースト・バッファにロードすることによって行う
ことができ、次いで、コプロセッサが、後続アクセスのためのルックアップ・テ
ーブルの開始に相対的なバースト・バッファ・アドレスを生成することができる
。このようなアドレスを、それらが使用されるときより十分に前もって生成でき
るようにすること（場合によっては、これを、同期化機構への精練化によって達
成することができる）、およびこのタイプの回帰参照を支持するように論理スト
リーム機構を修正することが必要となる。

【０１５１】したがって、図１のアーキテクチャへの多数の変形形態および拡張を、特許請
求の範囲に記載されたような本発明から逸脱することなく、実行することができ
る。

【図面の簡単な説明】

【図１】本発明の第１の実施形態によるシステムの基本エレメントを示す図。

【図２】図１のシステムにおいて使用されたバースト・バッファ構造のアーキテ
クチャを示す図である。

【図３】図２のバースト・バッファ構造のさらなる機能を示す図である。

【図４】図１のシステムにおいて使用されたコプロセッサ・コントローラの構造
、および他のシステム構成エレメントとの関係を示す図である。

【図５】図１のシステム上で使用可能な計算モデルを例示するための一例を示す
図である。

【図６】図５の例のための計算およびＩ／Ｏ動作のための時間線を示す図。

【図７】図１のシステムのためのコードを提供するために有用なツールチェーン
のフロントエンドからの出力として提供された、注釈付きグラフを示す図。

【図８】図７における仕様から導出された、コプロセッサの内部構成を示す図。

【図９】３２ビット・ピクセルを使用する５ｘ５画像たたみこみのための代替ア
ーキテクチャの性能を示す図である。

【図１０】８ビット・ピクセルを使用する５ｘ５画像たたみこみのための、図９
を生成するために使用された代替アーキテクチャの性能を示す図である。

【図１１Ａ】本発明のさらなる実施形態を使用する代替パイプライン・アーキテ
クチャを示す図である。

【図１１Ｂ】本発明のさらなる実施形態を使用する代替パイプライン・アーキテ
クチャを示す図である。

【図１２】図１のアーキテクチャにおける、コプロセッサ命令待ち行列およびバ
ースト命令待ち行列の代替として使用可能な、２つの補助プロセッサを示す図。

【図１３】図１のアーキテクチャにおけるコプロセッサ命令待ち行列の代替とし
ての状態機械の実施を示す図である。

───────────────────────────────────────────────────── フロントページの続きＦターム(参考） 5B013 DD03 5B098 AA10 GD05 GD12

Claims

【特許請求の範囲】

【請求項１】第１のプロセッサと、前記第１のプロセッサへのコプロセッサとして使用するための第２のプロセッ
サと、コプロセッサ・コントローラと、メモリと、減結合エレメントを含み、前記第２のプロセッサが、前記減結合エレメントを介して前記第１のプロセッ
サから得た命令を消費するよう、命令が該減結合エレメントを介して該第１のプ
ロセッサから該第２のプロセッサへ渡され、前記第２のプロセッサは、前記メモ
リからデータを受け取り、かつ該メモリへデータを書き込み、前記コプロセッサ
・コントローラは、前記メモリからの読み込みに関して前記コプロセッサの実行
が正しく命じられるよう、前記第２のプロセッサの活動を制御し、それにより前
記第２のプロセッサによる命令の処理が前記第１のプロセッサの動作と減結合さ
れる、コンピュータ・システム。
【請求項２】前記減結合エレメントがコプロセッサ命令列であり、命令が第
一のプロセッサによってコプロセッサ命令列に加えられ、かつ、コプロセッサに
よってコプロセッサ命令列から消費される、請求項１に記載のコンピュータ・シ
ステム。
【請求項３】前記減結合エレメントが状態機械であり、前記第２のプロセッ
サに命令を提供するための情報が前記第１のプロセッサによって前記状態機械に
提供され、命令が前記状態機械によって前記第２のプロセッサに命じられたシー
ケンスで提供される、請求項１に記載のコンピュータ・システム。
【請求項４】前記減結合エレメントが第３のプロセッサであり、前記第２の
プロセッサに命令を提供するための情報が前記第１のプロセッサによって前記第
３のプロセッサに提供され、命令が前記第３のプロセッサによって前記第２のプ
ロセッサに命じられたシーケンスで提供される、請求項１に記載のコンピュータ
・システム。
【請求項５】前記第２のプロセッサが構成可能である、前記請求項１から４
のいずれか一つに記載のコンピュータ・システム。
【請求項６】前記第２のプロセッサがメモリからダウンロードされた構成に
したがって構成されるように適合された、請求項５に記載のコンピュータ・シス
テム。
【請求項７】前記第１のプロセッサが、前記第２のプロセッサによる命令の
実行の間にタスクを切り替えることのできる、前記請求項１から６のいずれか一
つに記載のコンピュータ・システム。
【請求項８】前記第２のプロセッサがデータを読み込み、かつ、前記第２の
プロセッサがデータを格納するバッファ・メモリをさらに含み、前記バッファ・
メモリが前記メモリからデータを読み込み、かつ、前記メモリにデータを格納す
るように適合された、前記請求項１から７のいずれか一つに記載のコンピュータ
・システム。
【請求項９】前記メモリがダイナミックＲＡＭであり、前記バッファ・メモ
リがバーストの形で前記バッファ・メモリからデータを読み込み、かつ、前記バ
ッファ・メモリにデータを格納する、請求項８に記載のコンピュータ・システム
。
【請求項１０】第２の減結合エレメントをさらに含み、前記バッファ・メモ
リが前記第２の減結合エレメントを介して前記第１のプロセッサから得た命令を
消費するという、前記バッファ・メモリと前記メモリの間のデータの移動に関す
るメモリ命令が、前記第２の減結合エレメントを介して前記第１のプロセッサか
ら前記バッファ・メモリに渡され、それによって、前記バッファ・メモリによる
メモリ命令の処理が前記第１のプロセッサの動作から減結合される、請求項８ま
たは９に記載のコンピュータ・システム。
【請求項１１】前記第２の減結合エレメントがバッファ・メモリ命令列であ
り、メモリ命令が前記第１のプロセッサによって前記バッファ・メモリ命令列に
加えられ、かつ、前記バッファ・メモリによって前記バッファ・メモリ命令列か
ら消費される、請求項１０に記載のコンピュータ・システム。
【請求項１２】前記第２の減結合エレメントが状態機械であり、前記バッフ
ァ・メモリにメモリ命令を提供するための情報が前記第１のプロセッサによって
前記状態機械に提供され、メモリ命令が前記状態機械によって前記バッファ・メ
モリに命じられたシーケンスで提供される、請求項１０に記載のコンピュータ・
システム。
【請求項１３】前記第２の減結合エレメントが第４のプロセッサであり、前
記バッファ・メモリにメモリ命令を提供するための情報が前記第１のプロセッサ
によって前記第４のプロセッサに提供され、メモリ命令が前記第４のプロセッサ
によって前記バッファ・メモリに命じられたシーケンスで提供される、請求項１
０に記載のコンピュータ・システム。
【請求項１４】前記第２のプロセッサによる命令の実行により前記バッファ
・メモリと前記メモリとの間のデータの転送を同期させるための同期機構をさら
に含む、請求項８から１３のいずれかに記載のコンピュータ・システム。
【請求項１５】前記同期機構が、前記メモリからより前記バッファ・メモリ
にまだ読み込まれていないデータに対する前記第２のプロセッサによる命令の実
行をブロックするように適合され、かつ、前記第２のプロセッサによって相当す
る命令がまだ実行されていない場合に、前記バッファ・メモリから前記メモリへ
のデータの格納するためのメモリ命令の実行をブロックするように適合された、
請求項１４に記載のコンピュータ・システム。
【請求項１６】命令またはメモリ命令の実行が前記同期機構によってブロッ
クされた時に、前記同期機構によってブロックされていない他の命令またはメモ
リ命令は実行されるように適合された、請求項１５に記載のコンピュータ・シス
テム。
【請求項１７】前記第１のプロセッサがコンピュータ装置のＣＰＵである、
請求項１から１６のいずれかに記載のコンピュータ・システム。
【請求項１８】コンピュータ・システムを動作する方法であって、第１のプロセッサ、および、該第１のプロセッサへのコプロセッサとして動作
する第２のプロセッサによる実行のためのコードを提供すること、前記第２のプロセッサによって実行されるタスクを提供するものとして、前記
コードの一部を識別すること、タスクを定義する情報を、前記第１のプロセッサから減結合エレメントに渡す
こと、および、前記情報から得られた命令を前記減結合エレメントから前記第２のプロセッサ
に渡し、かつ前記第２のプロセッサ上で前記命令を処理することを含み、前記第
２のプロセッサによる前記命令の処理が前記第１のプロセッサの動作から減結合
されている、方法。