JPH0850575A

JPH0850575A - プログラマブルプロセッサ、前記プログラマブルプロセッサを用いてデジタル信号処理を行なうための方法およびその改良

Info

Publication number: JPH0850575A
Application number: JP7109642A
Authority: JP
Inventors: Keith M Bindloss; ケイス・エム・ビンドロス; Kenneth E Garey; ケニス・イー・ギャレイ; A Watson George; ジョージ・エイ・ワトソン; John Earle; ジョン・アール
Original assignee: Rockwell International Corp
Current assignee: Boeing North American Inc
Priority date: 1994-05-05
Filing date: 1995-05-08
Publication date: 1996-02-20
Anticipated expiration: 2022-03-07
Also published as: JP3889069B2; EP0681236B1; EP0681236A1; DE69519449D1; US5778241A; DE69519449T2

Abstract

(57)【要約】【目的】汎用プログラマブルプロセッサにＳＩＭＤス
キームを統合する空間ベクトルデータ経路を提供する。【構成】プログラマブルプロセッサは、命令手段に結
合され、オペランドがベクトルおよびスカラモードの１
つ処理されるか否かを各命令に対して特定するためのモ
ード手段と、モード手段に結合され、オペランドを受取
り、モード手段に特定されるような命令に応答してベク
トルおよびスカラモードの１つでオペランドを処理する
ための処理ユニット１１０とを含み、ベクトルモードは
オペランド内に複数の要素があることを処理ユニット１
１０に示し、スカラモードはオペランド内に１つの要素
をあることを処理ユニット１１０に示す。

Description

【発明の詳細な説明】

【０００１】

【発明の分野】この発明は信号プロセッサに関し、より
特定的には空間並列処理能力を備えたデジタル信号プロ
セッサに関する。

【０００２】

【発明の背景】近年、コンピュータ技術において、単一
命令多重データ（ＳＩＭＤ）などの並列処理方式を備え
るコンピュータは徐々に認識される割合を獲得してきて
いる。ＳＩＭＤコンピュータは概念的には図１（ａ）で
示すことができるものであり、ここでは複数の処理要素
（ＰＥ）が１つのメインシーケンサによって監視されて
いる。すべてのＰＥはメインシーケンサから通信される
同じ命令を受取るが、別々のデータストリームからの異
なったデータの組に対して動作する。図１（ｂ）に示す
ように、各ＰＥはそれ自身の局所メモリを備える中央処
理装置（ＣＰＵ）として機能する。したがって、ＳＩＭ
Ｄコンピュータは各ＰＥのＣＰＵとともに複数の同期さ
れた算述論理ユニットを用いることによって、空間的並
列性を達成することができる。一旦データが各ＰＥ内に
存在するようになれば、個々のＰＥがそのデータを扱う
ことは比較的容易なことであるとはいえ、相互接続（図
示せず）を介してすべてのＰＥ間で分配および通信を行
なうことは、極めて複雑な仕事である。よって、ＳＩＭ
Ｄマシンは、通常専用とすることを念頭において設計さ
れており、プログラミングやベクトル化の難しさのため
に、これらのマシンは汎用の用途には望ましくないもの
となっている。

【０００３】一方で、ＳＰＡＲＣ（登録商標）、Ｐｏｗ
ｅｒＰＣ（登録商標）、および６８０００ベースのマシ
ンなど現在の汎用計算機は、典型的には高性能グラフィ
ック処理に際してはそれらの持つ３２ビットメモリ空間
をフルに利用してはいない。たとえば、これらのマシン
のバスが３２ビットの幅であるのに、映像および画像情
報についてはデータは未だに１６ビット幅または８ビッ
トピクセルで処理されるように制限されている。しかし
ながら、これらの汎用マシンは高級言語のソフトウェア
環境におけるプログラミングの便利さのため魅力的であ
る。したがって、デジタル信号処理に応用されるような
ＳＩＭＤのスピードの利点と、汎用ＣＰＵにおけるプロ
グラミングの便利さとの間で、バランスをとることが望
ましい。そうすれば、低性能なＳＩＭＤマシンの実現例
であっても、汎用マシンに組込まれたならば、あたかも
複数のスカラＣＰＵが並列に働いているかのように総合
的なスループットが激しく向上するであろう。しかしな
がら、汎用マシンにＳＩＭＤが組込まれた場合、高めら
れたスループットは、伝統的なＳＩＭＤマシンに見られ
る複数ユニットのスカラＣＰＵと典型的にはかかわりの
ある、シリコンの使用と引替えにもたらされるものでは
ない。

【０００４】したがって、コード強調応用およびスピー
ド強調計算のためのＳＩＭＤ能力を備える汎用プロセッ
サを有することが望ましいだろう。

【０００５】本発明の目的は、ＳＩＭＤ方式を汎用ＣＰ
Ｕアーキテクチャに組入れてスループットを高めること
である。

【０００６】実質的にシリコンの使用を招くことなくス
ループットを高めることも本発明の目的である。

【０００７】この発明のさらなる目的は、同じ命令実行
速度で各命令において処理されるデータ要素の数に比例
してスループットを増大させることである。

【０００８】

【発明の概要】ＳＩＭＤ方式を汎用プログラマブルプロ
セッサに組入れるための空間ベクトルデータ経路が開示
される。プログラマブルプロセッサは、命令手段に結合
され、オペランドがベクトルおよびスカラモードの１つ
において処理されるかどうかを各命令について特定する
ためのモード手段と、モード手段に結合され、オペラン
ドを受取り、モード手段によって特定された命令に応答
して、オペランドをベクトルおよびスカラモードのうち
１つにおいて処理するための処理ユニットとを備え、ベ
クトルモードは処理ユニットに、オペランド内に複数個
の要素があることを示し、スカラモードは処理ユニット
に、オペランド内に１つの要素があることを示す。

【０００９】本発明はまた、汎用コンピュータを用いて
複数のデータ経路を介しデジタル信号処理を行なう方法
をも開示するものであって、汎用コンピュータは、各オ
ペランドが少なくとも１つの要素を有する状態で複数個
のオペランドをストアするためのデータメモリと、複数
個のサブ処理ユニットを有する処理ユニットとを含む。
この方法は以下のステップを含む。ａ）処理ユニットに
よって実行されるべき命令の予め定められたシーケンス
の中から命令を提供する。ｂ）命令はオペランドに対す
る処理ユニットによる処理についてスカラモードおよび
ベクトルモードのうち１つを特定する。スカラモードは
オペランド内に１つの要素があることを処理ユニットに
示し、ベクトルモードは複数個のサブ要素がオペランド
内にあることを前記処理ユニット示す。ｃ）スカラモー
ドの場合、処理ユニットにおける各サブ処理ユニットは
命令に応答して処理すべきオペランドのそれぞれの部分
を受取り、部分的中間結果を発生する。ｄ）各サブ処理
ユニットは複数のサブ処理ユニット間にその中間結果を
送り、その部分的結果を他のサブ処理ユニットと合せ
て、オペランドのための最終的な結果を発生する。ｅ）
最終的結果に対応するように第１の条件コードを発生す
る。ｆ）ベクトルモードの場合、処理ユニットにおける
各サブ処理ユニットは命令に応答してオペランド内の複
数個のサブ要素からそれぞれのサブ要素を受取りかつそ
れを処理して、部分的中間結果を発生し、各中間結果は
不能化され、各部分的結果はその対応する要素のための
最終的結果を表わす。ｇ）複数個の第２の条件コードを
発生する。ここで第２の条件コードの各々は独立した結
果に対応する。

【００１０】

【発明の詳しい説明】一般的な実現例の考察ＳＩＭＤ方式を汎用マシンに組込む場合、望ましくは考
慮されるべきである問題がいくつかある。

【００１１】１）スカラまたはベクトルの動作の選択
は、好ましくは、ある期間ベクトルモードに切換わるの
ではなく、命令単位で行なわれるべきである。なぜな
ら、いくつかのアルゴリズムはベクトルサイズが大きい
と容易にベクトル化されないからである。また、ベクト
ル演算が選択される場合、ベクトルの次元を特定しなけ
ればならない。

【００１２】現在、本発明に従い、スカラ／ベクトルに
ついての情報はＳＩＭＤ能力を有する各命令内のデータ
タイプ修飾子フィールドによって特定される。たとえ
ば、命令はワードまたはハーフワード対演算を特定する
ことのできる１ビット「経路」修飾子フィールドを特徴
としていてもよい。さらに、より大きいベクトル次元、
たとえば４、８などを選択するために、このフィールド
は好ましくはストリーマコンテキストレジスタ内のデー
タタイプ変換フィールドと組合せられるべきである。ス
トリーマの完全な説明は、「ＲＩＳＣデジタル信号プロ
セッサのためのストリーマ（STREAMER FOR DIGITAL SIG
NAL PROCESSOR ）」と題され、その開示がここに引用に
よって援用される、１９９２年７月２３日に提出された
関連の米国特許出願連続番号第９１７，８７２号に開示
されている。

【００１３】２）マシンは、ベクトル結果に基づく条件
付実行に備えるものでなければならない。ＳＩＭＤ演算
の結果を、それがちょうど多重スカラ演算を用いて行な
われたかのようにテストできることが重要である。この
理由により、ステータスレジスタ内の条件コードフラグ
は、データ経路の１セグメントごとに１組が存在するよ
うに二重にされることが好ましい。たとえば、ベクトル
次元が４であれば４組の条件コードが必要であろう。

【００１４】また、条件付命令は、条件コードのどの組
を使用するかを特定することを必要とする。たとえば
「１つでもけた上げフラグがセットされていれば」また
は「すべてのけた上げフラグがセットされていれば」な
どの条件の組合せをテストすることができれば有用であ
る。

【００１５】３）ＳＩＭＤ方式は可能な限り多くの演算
に応用可能であるべきである。これから述べる本発明の
好ましい実施例は、１６ビット乗算器および３２ビット
入力データなどの現在の実現例におけるマシンを示して
いるが、本発明に従い他の変形が容易に構成され得ると
いうことは当業者には認識されるであろう。

【００１６】次の演算は、空間ベクトル（ＳＶ）技術の
性能を高めることができる、可能な演算（図２８〜３６
で列挙）の例である。

【００１７】ＡＢＳ，ＮＥＧ，ＮＯＴ，ＰＡＲ，ＲＥ
Ｖ，ＡＤＤ，ＳＵＢ，ＳＵＢＲ，ＡＳＣ，ＭＩＮ，ＭＡ
Ｘ，ＴｃｏｎｄＳＢＩＴ，ＣＢＩＴ，ＩＢＩＴ，ＴＢＺ，ＴＢＮＺＡＣＣ，ＡＣＣＮ，ＭＵＬ，ＭＡＣ，ＭＡＣＮ，ＵＭＵ
Ｌ，ＵＭＡＣＡＮＤ，ＡＮＤＮ，ＯＲ，ＸＯＲ，ＸＯＲＣＳＨＲ，ＳＨＬ，ＳＨＲＡ，ＳＨＲＣ，ＲＯＲ，ＲＯＬＢｃｏｎｄＬＯＡＤ，ＳＴＯＲＥ，ＭＯＶＥ，Ｍｃｏｎｄここでｃｏｎｄは、ＣＣ，ＣＳ，ＶＣ，ＶＳ，ＺＣおよ
びＺＳであってもよい。

【００１８】４）メモリデータ帯域幅はＳＩＭＤデータ
経路の性能に適合可能であるべきである。

【００１９】メモリおよびバス帯域幅をハードウェアの
複雑さを増大させることなく空間ベクトルデータ経路の
データ要求に適合させることが望ましい。現在実現され
ているマシンにおけるデュアルアクセスの３２ビットメ
モリを備える２つの３２ビットバスは、算述論理ユニッ
ト（ＡＬＵ）およびデュアル１６×１６乗算／累算ユニ
ット（ＭＡＣ）によく適合している。これらはまた、４
つの８×８ＭＡＣにもよく適合するだろう。

【００２０】５）実現されるいかなる付加および変形
も、付加的なハードウェアの複雑さは最小限で性能を最
大限にすることによって、コスト効率の良さをもたらす
べきである。

【００２１】加算器／減算器は、けた上げ伝播を止め、
条件コード論理を二重にすることによって、空間ベクト
ルモードにおいて動作させることができる。

【００２２】シフタは、ラップアラウンド論理をも再構
成し、条件コード論理を二重にすることによって空間ベ
クトルモードにおいて動作させることができる。

【００２３】ビット論理ユニットは、条件コード論理を
二重にするだけで空間ベクトルモードにおいて動作させ
ることができる。

【００２４】空間ベクトル条件付移動動作は、条件コー
ドフラグのベクトルを用いてマルチプレクサを制御し、
ベクトルの各要素が独立的に移動させられるようにする
ことによって達成され得る。

【００２５】空間ベクトルの乗算は、乗算器アレイを二
重にし、部分積を組合せることを必要とする。たとえば
適切な組合せ論理を備える４つの１６×８乗算器は、４
つの１６×８または２つの１６×１６のベクトル演算、
もしくは１つの３２×１６スカラ演算を行なうのに用い
ることができる。空間ベクトル乗算−累算演算はまた、
けた上げ伝播を止め、条件コード論理を二重にすること
ができる累算加算器を、ベクトル化された累算器レジス
タと同様に必要とする。

【００２６】６）汎用コンピュータにおける空間ベクト
ルの実現に起因するプログラミングの複雑さは、最小限
にされるべきである。空間ベクトル結果をスカラ結果に
組合せるために命令を考え出すことができる。

【００２７】ACC Az,Ax,Ay 累算器を加算する。SA Ay,
Mz スケーリングされた累算器対をメモリにストアす
る。

【００２８】MAR Rz，Ax スケーリングされた累算器対
をレジスタに移動させる。７）ベクトルが物理的メモリ
境界と交差するとき、ベクトルへのアクセスがそれでも
可能であるべきである。たたみ込みなどのいくつかのア
ルゴリズムは、データアレイを介しての増分を必要とす
る。アレイが長さＮのベクトルとして扱われる場合、ベ
クトルが部分的に１つの物理的メモリ位置の中に存在
し、部分的に隣接する物理的メモリ位置の中に存在する
ということがあり得る。そのような空間ベクトル演算に
対する性能を維持するには、物理的境界と交差するデー
タアクセスに対処するようにメモリを設計するか、また
は前述の米国特許出願「ＲＩＳＣデジタル信号プロセッ
サのためのストリーマ」に記載されたようなストリーマ
を用いることが好ましい。

【００２９】全体システム図２は、本発明の空間ベクトルデータ経路を組入れても
よいプログラマブルプロセッサを一般化して表わしたも
のである。本発明に取入れられたコンセプトの１つは、
スカラオペランドまたはアレイの要素に一度に１つずつ
対処するように設計されたコンピュータを変形し、同時
に１つより多くのオペランドを処理できるようにするこ
とによって、その性能を高めることができるということ
である。

【００３０】図２に示されているのは、プログラムおよ
びデータオペランドをストアするためのプログラムおよ
びデータ記憶ユニット１００を有するプログラマブルプ
ロセッサ、または広い意味でいう「コンピュータ」であ
る。命令収集ユニット１３０が記憶ユニット１００から
命令をフェッチし、これは命令フェッチ／デコード／シ
ーケンスユニット１４０によりデコードかつ解釈され、
処理ユニット１１０によって実行される。このようにし
て処理ユニット１１０は記憶ユニット１００から供給さ
れるオペランドで命令を実行する。

【００３１】性能を高めるため、オペランドがスカラで
あるかベクトルであるかを特定するためのビットが各命
令の中にある。また、それらがベクトルである場合、各
オペランド内にいくつの要素があるかが特定される。こ
の情報は典型的なデコードされた命令とともに処理ユニ
ット１１０に送られるので、処理ユニット１１０はオペ
ランドをスカラとして処理するべきがベクトルとして処
理するべきかを「知る」。

【００３２】処理ユニット１１０はＡＬＵでもシフタで
もＭＡＣでもよい。記憶ユニット１００は一般に何らか
の種類のメモリであってよく、レジスタファイルでも、
半導体メモリでも、磁気メモリでも、またはいくつかの
種類のメモリのいずれのものでもよい。処理ユニット１
１０は加算、減算、論理ＡＮＤ、論理ＯＲ、バレルシフ
タでのようなシフト、乗算、累算、およびデジタル信号
プロセッサにおいて典型的に見られる乗算および累算の
ような、典型的な演算を行なってもよい。処理ユニット
１１０はオペランドを、命令において用いられる１つの
オペランド、命令において用いられる２つのオペラン
ド、またはそれ以上多くのものなどのうちいずれかとし
てとる。処理ユニット１１０は次にこれらのオペランド
で演算を行なって、それらの結果を得る。スカラまたは
ベクトルオペランドで開始することにより、オペランド
は演算を最後まで行なわれ、それぞれスカラまたはベク
トル結果をもたらす。

【００３３】次のステップは、処理ユニット１１０がど
のように形成されてもよく、どのように機能するかをよ
り特定的に認識するためのものである。データおよびプ
ログラムは記憶ユニット１００内で組合せられているよ
うに示されているが、それらは同じ物理的メモリ内で組
合せることもできるし、別個になった物理的メモリ内で
実現することもできるということは明らかであろう。各
オペランドは典型的な３２ビットの長さを有するものと
して説明されているが、一般に、オペランドはいくつか
の長さのいずれとすることもできるだろう。１６ビット
マシン、８ビットマシン、または６４ビットマシン等々
とすることができる。一般的なアプローチは、Ｎビット
オペランドが、ともにとられて加算されるとＮビットに
なる複数オペランドとして考えられ得るということであ
ると、当業者は認識するだろう。したがって、３２ビッ
トワードはたとえば２つの１６ビットハーフワード、も
しくは４つの８ビットクォーターワードまたはバイトで
あり得るだろう。発明者らによる現在の実現例では、１
つのオペランド中の要素は各々同じ幅のものとしてい
る。しかしながら、３２ビットオペランドを、一方の要
素を２４ビットとし、他方の要素を８ビットとすること
もできる。オペランド中で複数のデータ経路および複数
の要素を用いることから導き出される利点とは、すべて
の要素が独立的かつ同時に処理されており、処理のスル
ープットの増加がなし遂げられるということである。

【００３４】命令はどのようなサイズであってもよい。
現在は３２ビット命令が用いられている。しかしながら
当業者は、８ビット、１６ビット、３２ビット、および
６４ビットにおいて特に有用性を見出すかもしれない。
より重要なことは、命令については固定長でさえなくと
もよいということである。同じコンセプトが、３２ビッ
ト命令に拡張可能な１６ビット命令を備えるものなど
の、または命令がいくつかの数の８ビットバイトで形成
されており、その数はそれがどの特定の命令であるかに
よって決まる、可変長命令マシンにおいて用いられた場
合でも、働くだろう。当業者のために、図２８〜３６に
例示的な命令セットのまとめを示し、本発明に従って実
現されてもよい命令を示す。

【００３５】処理ユニット１１０は典型的にはＡＬＵ１
２１および／またはＭＡＣ１２２を含んでもよい。また
これは、シフタ１２３または論理ユニット１２４を実現
するだけのものであってもよい。

【００３６】加算器図３は処理ユニット（図２の１１０）のための、ＡＬＵ
において実現されてもよい加算器を模式的に表わしたも
のである。図３（ａ）は従来の３２ビット加算器を示
す。図３（ｂ）はハーフワード対モードのために接続さ
れた２つの１６ビット加算器を表わしたものである。図
３（ｃ）はワードモードのために接続された２つの１６
ビット加算器を表わしたものである。

【００３７】図３（ａ）から（ｃ）は、図３（ａ）にお
ける３２ビットの従来のマシンにおける典型的なハード
ウェアが、本発明に従うハーフワード対モードまたはワ
ードモードの所望される目的を達成するためにどのよう
に変形されてもよいかということを示す役割を果たす。
ベクトルはここでは２つの要素を持つものとして示され
る。より特定的には、３２ビットの従来のオペランドが
どのようにして各々１６ビットの２つの要素に分割され
得るかということが示される。同じ原理を、等しい長さ
または等しくない長さのものがあるいくつかの要素に分
割するのに適用することができるだろう。

【００３８】図３（ａ）を参照して、従来の加算器２０
０はＸオペランドのための入力ＸとＹオペランドのため
の入力Ｙとを有する。またこれは、加算器と関連して典
型的に見出されるキャリー−イン２０１および条件コー
ド２０５のための入力をも有する。条件コード２０５
は、オーバフローを表わすのがＶ、キャリー−アウトが
Ｃ、ゼロ結果、すなわち加算器から出される結果がゼロ
である場合がＺであってよい。さらにこれは加算器から
出される結果オペランドを有しており、これはＳであ
る。Ｘ、Ｙ、およびＳはすべて３２ビットワードで表わ
される。制御入力ｓ／ｕ２０２は符号付または符号なし
オペランドを表わし、ここで最上位ビットはその数が正
または負である場所を示し、もしくは符号なしオペラン
ドではその最上位ビットがオペランドの大きさに関与す
る。図３（ｂ）は、典型的な３２ビット加算器に類似し
てはいるが、そうではなく単なる１６ビット加算器であ
る２つの加算器が、どのようにともに組合せられてハー
フワード対、すなわち１つのオペランドにつき２つのハ
ーフワード要素があるものに対してベクトル演算を行な
うことができるかということを示す。Ｙオペランドはこ
こでは２つのハーフワードオペランド、すなわち下半分
のＹ０からＹ１５、および上半分のＶ０からＶ１５とし
て分割されている。同様に、Ｘオペランドは２つのハー
フワードオペランド、すなわち下半分のＸ０からＸ１
５、および上半分のＵ０からＵ１５として分割されてい
る。結果Ｓは、加算器２１０からくるＳ０からＳ１５、
および加算器２２０からくる上半分のＷ０からＷ１５と
して認識される。本質的には、３２ビット加算器２００
を中央で分割して２つの１６ビット加算器２１０および
２２０を形成してもよい。しかしながら、上位ビットに
はオペランドの符号ビットの性質を決定するための論理
が必要であろう。したがって３２ビット加算器２００を
分割する際には、３２ビット加算器から分割されて加算
器２１０を形成する下方の１６ビットの符号制御のため
に付加的な論理が必要となるであろう。この場合これら
２つの加算器２１０および２２０は、加算器２１０のた
めの入力オペランドが３２ビットオペランドの下半分か
らきており、１６ビット加算器２２０のための入力オペ
ランドが３２ビットオペランドの上半分からきていると
いうことを除けば、同一なものとなるであろう。

【００３９】オペランド要素ＸおよびＵが別個にそれぞ
れＹおよびＶと加算されて合された場合、それらはそれ
ぞれ結果ＳおよびＷをもたらす。またそれらは加算器の
各々のために独立的な条件コードを生成する。加算器２
１０は条件コード２１５を生成し、加算器２２０は条件
コード２２５を生成する。これらの条件コードは、それ
らが関連している特定のハーフワード加算器に適用され
る。したがって、これで独立的なハーフワード対演算を
行なうために従来の３２ビット加算器がわずかに変形さ
れる様が見てとれる。

【００４０】図３（ｃ）を参照して、図３（ｂ）におけ
る同じ加算器ユニットが、図３（ａ）の加算器２００に
おいて行なわれた、もとのワード演算を行なうべく再接
続されてもよい。これは、オペランドが３２ビットスカ
ラを表わす場合である。スカラはＹ０からＹ３１および
Ｘ０からＸ３１である。これらのオペランドの下半分は
加算器２３０によって処理され、上半分は加算器２４０
によって処理される。これを可能にするメカニズムは、
加算器２３０のキャリー−アウトを加算器２４０のキャ
リー−イン２３６に接続することによるものである。図
２（ｃ）に示されるように、組合せられた２つの１６ビ
ット加算器は図３（ａ）の１つの３２ビット加算器と同
じ機能を果たす。したがって、図３（ｂ）および３
（ｃ）に示した実現例では、加算器２１０は本質的に加
算器２３０と同じものであってもよく、一方で加算器２
２０は加算器２４０と同じものであってもよい。この説
明ではこれら２つの加算器がどのようにハーフワード対
モードまたはワードモードのいずれかで機能できるかが
示されているが、当業者は、拡張によってベクトルの独
立した要素を同時に扱うために従来の加算器をいくつか
の加算器に変形すること、およびこれを再結合してスカ
ラ演算をスカラオペランドで行なうことをしてもよい。

【００４１】図３の加算器について、１つ注目すべきこ
とがある。図３（ｃ）では２組の条件コード２３５およ
び２４５が示されている。一方、もとの従来の加算器で
は１組の条件コード２０５しかない。図３（ｃ）の条件
コードは、本当は条件コードＺを除いては２４５の条件
コードである。２３５における条件コード、すなわちオ
ーバフローＶおよびキャリーＣは、条件コード２０５に
おける条件コードおよび条件コードＺが、効果的に２３
５のＺ条件コードとＡＮＤ処理される２４５のＺ条件コ
ードである限り、無視される。ここでは２０５の条件コ
ードＶは２４５のＶに対応する。２０５のＣは２４５の
Ｃに対応し、２０５のＺはコード２３５のＺとＡＮＤ処
理されたコード２４５のＺに対応する。当業者は、適合
すると思われるどの特定のやり方でもこれらを組合せる
ことができるだろう。

【００４２】論理ユニット図４は本発明に従い実現されてもよい論理ユニットの模
式図である。図４（ａ）はビット単位の論理演算、ビッ
ト単位の補数または現在のプロセッサにおいて典型的に
見られるいくつかの組合せを行なう典型的な３２ビット
論理ユニットを示すものであって、これらの演算につい
て重要かもしれないのは、それらが条件コードにおける
異なったビットのために独立的に働くということであ
る。オーバフロービットは通常、３０５における条件コ
ードでは全く重要性を持たない。キャリー−アウトは論
理演算においてまったく重要ではないが、ゼロには、結
果がゼロであるということを示すことにおいてまだ重要
性がある。ハーフワード対演算のために、もとの３２ビ
ット加算器は「動作的」には２つの１６ビット論理ユニ
ットに分割されるだろう。入力オペランドにおける上方
の１６ビット３２０および下方の１６ビット３１０は、
加算器のときと同じ態様で２つのハーフワードに分割さ
れるだろう。論理演算を処理するにあたっては、ビット
は一般に独立的に処理されるので、２つの論理ユニット
３１０および３２０の間には動作的な接続は全くない。

【００４３】図４（ｃ）はスカラ処理のための典型的な
論理ユニットを形成するようにもう一度再結合された論
理ユニットを示す。条件コードエリア以外ではユニット
間には接続が必要ではないということに注意されたい。
従来の論理ユニットのゼロ条件コード３０５はここでは
ユニット３４５のゼロ条件コードをユニット３３５のゼ
ロ条件コードとＡＮＤ処理することによって表わされて
もよい。したがって当業者には、デュアルモード論理ユ
ニットが前述のようにデュアルモード加算器のコンセプ
トおよび実現例を拡張することによって構成され得ると
いうことが明らかなはずである。

【００４４】シフタ図５から８は、本発明に従い実現されてもよいバレルシ
フタを模式的に表わしたものである。いくつかのプロセ
ッサは図５（ｂ）に示されるようにバレルシフタを有す
るが、他のものは図５（ａ）、図６、および図７に示さ
れる１ビットシフタを有する。バレルシフタは典型的に
はプロセッサユニット内に必要なものではないが、高性
能マシンについては、プロセッサユニットは図５（ｂ）
に表わされるようなシフタユニットを実現してもよい。
以下の説明では、処理を高速化する、または必要なハー
ドウェアの量を最小限にするために、当業者によってシ
フタがどのように構成され実現されてもよいかを示す。
図５（ａ）は、左シフトまたは右シフトのどちらかであ
る１ビットシフトが典型的なプロセッサにおいてどのよ
うに実現されてもよいかを示す。シフタ４１５は、３２
ビット入力オペランドＸが、左または右へ１ビットシフ
トされる、または方向入力ＤＩＲ４０１の制御下ではシ
フトされないようにして、Ｚ出力を生成できる。シフト
が起こった場合、それが左へのシフトなら、選択ボック
ス４１６によって最下位ビットの位置にビットが入れら
れなければならない。

【００４５】シフタが右へシフトされる場合、選択ボッ
クス４００からのビットが最上位ビットの位置に入れら
れる。選択ボックス４００および４１６はシフタ４１５
に入れるために選択され得るいくつかの入力を有する。
双方のボックスにはＳＥＬとラベル付けされる選択入力
もあり、これは命令からくるものであって、従来のマシ
ンには典型的なものである。ＳＥＬはこれらの入力ビッ
トのうちどちらがシフタに入れられるために選択される
であろうかを決定する。一般に、これらの選択ボックス
があるため、シフトは、シフタの外へシフトされるビッ
トがシフタのもう一方の端で中にシフトされる回転でも
あり得るし、他のビットが右へシフトされる際に符号ビ
ットまたは最上位ビットがドラッグされる算術的右シフ
トでもあり得るし、他のビットが左へシフトされる際に
０が入れられる算術的左シフトでもあり得る。論理シフ
トについては、「０」がビットとして入れられる。ま
た、「１」は論理シフトに入れられる新しいビットとし
て、入れられる。

【００４６】当業者は、加算器および論理ユニットのた
めの条件コードの説明を参照することによって、容易に
条件コードをシフタに割当て、算術的左シフト演算のた
めのオーバフロー、シフト演算の最後のビットを保持す
るためのキャリー、およびシフトの結果が０値であった
ときにそれを記録するゼロフラグを表わすことができる
だろう。

【００４７】図５（ａ）のシフタを組合せて用いること
で、図５（ｂ）のシフタを３２ビット左／右バレルシフ
タとして形成してもよい。これは図５（ａ）におけるシ
フタを３２個組合せ、それらを次々にカスケード接続
し、第１のものの出力が第２のものの入力に入る、とい
うふうに最後まで続いていくようにすることによって行
なわれてもよい。シフトされるべきビットの数は個々の
シフタへの方向入力ＤＩＲの１および０のパターンによ
って決定される。図５（ａ）ではシフタのための方向は
３値であるということに注意されたい。すなわち左、
右、またはまったくシフトがなし遂げられない真っ直ぐ
前方、である。そこで図５（ｂ）では、個々の３２ビッ
トの１ビットシフタへの方向入力は、左でも右でもシフ
トなしでもあり得る。３２ビットが左へシフトすべきで
ある場合、すべての方向入力が左を示すだろう。

【００４８】左へシフトすべきなのが１ビットだけの場
合、第１のボックスが左への１ビットシフトを示し、他
の３１個はすべてシフトなしを示す。Ｎビットが左へシ
フトすべきである場合、始めのＮ個のボックスが左への
１ビットの方向入力を有し、残りのボックスがシフトな
しを示すだろう。同じことが右へのシフトにも適用でき
るだろう。この場合には方向は右へのシフトまたはシフ
トなしのいずれかを示し、同じように右シフトにおいて
０ビットから３２ビットまでのシフトが可能であろう。

【００４９】この図５（ａ）における典型的な１ビット
シフタは、ここで図６を参照して２つの１６ビットシフ
タに分割することができる。ここではハーフワード対モ
ードのために接続された２つの１６ビットＬ／Ｒ１ビッ
トシフタが示される。図５（ａ）におけるシフタ４１５
は、動作的には２つの１６ビットの１ビットシフタ４５
０および４３５に分割できる。これらの１６ビットシフ
タの各々は、この場合特に４１６および４００を参照す
る図５（ａ）に示す入力選択論理を有しており、これは
ボックス４５０がボックス４６０および４４５を有し、
ボックス４３５がボックス４４０および４３０を有する
ように二重にされる。入力論理は同じであるが、選択ボ
ックスへの入力は異なったように結線される。したがっ
て、ハーフワード対モードのために接続される図６のシ
フタとワードモードのために接続される図７のシフタと
の違いは、入力選択ボックスの結線のされ方にある。下
方のシフタ４５０のための図６の入力オペランド要素は
Ｘ０からＸ１５であり、シフタ４３５のための入力オペ
ランド要素はＹ０からＹ１５である。このようにしてＸ
およびＹは２つのハーフワードを示す。

【００５０】結果Ｚ出力オペランドは２つのハーフワー
ドとして示される。下方の１６ビットはＺ０からＺ１５
であり、上方の１６ビットはＷ０からＷ１５である。入
力セレクタは、回転においてシフタから出力されるビッ
トがシフタの他方の端にフィードバックされるように結
線される。シフタ４３５が左シフトを行なうと、回転さ
れるビットはＹ１５となり、右シフトを行なうと回転さ
れるビットはＹ０となる。同様にシフタ４５０につい
て、それが左回転であれば、入力ビットはＸ１５であ
り、右回転であれば入力ビットはＸ０である。同様に、
選択は算術的シフトおよび論理的シフトについても図５
（ａ）でのように働く。

【００５１】図７は、これらの同じ２つのシフタの動作
がどのようにワードモードのために接続され得るかを示
す。ここではシフトパターンは図６での２つのハーフワ
ードとは違ってオペランドにおける３２ビット全体に対
して働く。左への回転については、下方のシフタ４８６
から外へ回転させられるビット（ＭＳＢビットＸ１５）
は上方のシフタ４７５の中に回転させられる一方で、Ｌ
ＳＢビットはシフタ４７５に入力される。これは上方の
１ビットシフタと下方の１ビットシフタとの間で連続的
なシフトを形成する。２つのシフタをめぐる回転につい
ては、Ｘ３１がＸ０にシフトされるだろう。図７に示し
たようにセレクタ４８０のすべての入力がＸ１５に接続
されており、セレクタ４８５のすべての入力がＸ１６に
接続されていれば、図７の組合せられたシフタは図５
（ａ）におけるシフタとして効果的に動作する。入力セ
レクタ４７０は入力セレクタ４００と同じパターンを有
するだろう。入力セレクタ４８８はセレクタ４１６と同
じ入力パターンを有するだろう。したがって、図７の組
合せられたシフタは図５（ａ）におけるシフタと同じス
カラオペランドのためのシフト動作を行なうだろう。

【００５２】図６および７における１ビットシフタはさ
らに、１ビットシフタを３２個カスケード接続すること
によって、図５（ｂ）と類似の態様で、図８に示した３
２ビットバレルシフタに拡張することができる。１ビッ
トシフトが所望されるならば、方向制御信号が第１のシ
フタに対して用いられ、１ビットシフトを示す。他のカ
スケード接続された１ビットシフタに対しては、示され
るシフトはない。Ｎビットシフトについては、最初のＮ
個の１ビットシフタにおける方向入力が、１ビットだけ
シフトすることを示し、残りの１ビットシフタはシフト
せずデータを通過させる。

【００５３】同様にこの図８のバレルシフタはワードま
たはハーフワード対モード演算のいずれをも行なうこと
ができる。なぜなら、個々のビットシフタはワードまた
はハーフワード対演算のどちらでも行なうことができる
からである。この図５から８の実施例はバレルシフタを
実現する１つの方法を代表するものであるが、バレルシ
フタを真中で分割して入力選択論理を提供する同じコン
セプトが、バレルシフタの多くの他の実現例にも応用で
きる。当業者は、特定のハードウェアまたはスループッ
トの要求に応じて適切な実現例を見出すことができるは
ずである。

【００５４】乗算累算器図９および１０は、本発明に従い実現されてもよい乗算
および累算（ＭＡＣ）ユニットの模式図である。

【００５５】典型的な３２ビットプロセッサは通常、高
価な３２×３２乗算器アレイの実現を必要とはしないだ
ろう。乗算はおそらく他の方法で確立されるだろう。し
かしながら典型的な１６ビット信号プロセッサでは、１
６×１６乗算器アレイが極めて普通に見られる。高速な
乗算を必要とするタイプの計算には、典型的に１６ビッ
トデータが用いられるので、１６×１６乗算器アレイの
方が普及したものとなっており、これはいくつかの３２
ビットプロセッサにおいてさえ当てはまることである。
したがって、３２ビットオペランドを２つの１６ビット
ハーフワード対として扱うことにより、１つのベクトル
化されたオペランド中の３２ビットワードオペランド、
ハーフワードオペランド、またはハーフワード要素の空
間ベクトルの概念を利用すべく２つの１６×１６乗算器
アレイを実現することができる。

【００５６】次の例は、どのようにして１６×１６乗算
器アレイを二重にして２つのハーフワード対乗算器とし
て用いることができるかを示すものであって、これらの
乗算器はともに接続されて３２×１６スケーラ乗算をも
たらしてもよい。この３２×１６スカラ乗算には、これ
らの乗数の２つを一緒に用いて３２×３２ビット乗算を
なすことができるという有用さがある。または、３２×
１６乗算をそれ自体で用いることもでき、この場合３２
ビットの精度のオペランドがただ１６ビットだけの精度
のオペランドによって乗算されてもよい。

【００５７】ＭＡＣユニットはすべてのプロセッサで典
型的に見られるわけではない。しかし信号処理の用途の
ための高性能プロセッサでは、これは典型的に実現され
ている。図９は、ＭＡＣユニットの従来の実現例を示
す。ＭＡＣは様々なサイズのうちどのサイズでもあり得
る。これは３２ビットの積を形成する乗算器における１
６ビット×１６ビットのユニットである。この３２ビッ
トの積は累算加算器内で第３のオペランドと加算されて
もよく、これは「ガードビット」と呼ばれる余剰の上位
ビットがあるためその積よりも長いかもしれない。

【００５８】図９に示されるように、入力オペランドは
１６ビットであって、Ｘ０からＸ１５およびＹ０からＹ
１５で表わされる。これらは３２ビットの積Ｚを発生
し、これはフィードバックオペランドＦに加えられても
よい。この場合、Ｆは４０ビットのフィードバックワー
ドまたはオペランドを表わすＦ０からＦ３９として示さ
れる。これが４０ビットなのは、積を保持するのに３２
ビット、加えてガードビットのために付加的な８ビット
が必要とされるであろうからである。ガードビットはオ
ーバフローを扱うために含まれている。なぜなら、いく
つかの積が加算されると、オーバフローが起こる可能性
があり、ガードビットはオーバフローを累算してそれら
を保護するからである。典型的にはガードビットの数は
４または８であろう。この例では８ビットが示されてい
るが、いくつかのサイズが可能であろう。累算器の結果
は４０ビットの結果Ａ０からＡ３９として示される。

【００５９】乗算アレイは乗算器なしで用いることもで
きるし、乗算器とともに用いることもできるということ
に注意すべきである。符号付または符号なしを意味する
別の入力Ｓ／Ｕが、入力オペランドが符号付数として扱
われるべきか符号なし数として扱われるべきかを示すと
いうことが注意されるべきである。当業者は、乗算器の
上方のビットが、入力オペランドが符号付であるか符号
なしであるかによって異なったように扱われるというこ
とを認識するであろう。

【００６０】図１０は、ハーフワード対オペランドを扱
うためにどのように典型的な１６×１６アレイが形成さ
れるかを示す。この場合、３２ビット入力オペランドＸ
が２つのハーフワードに分割される。乗算器５２０のた
めの下方のハーフワードはＸ０からＸ１５であり、乗算
器５１５のための上方のハーフワードはＸ１６からＸ３
１である。Ｙ入力オペランドも２つのハーフワードオペ
ランドに分割される。乗算器５２０のための下方のハー
フワードはＹ０からＹ１５であり、乗算器５１５のため
の上半分はＹ１６からＹ３１である。図１０はこのよう
にしてＸオペランドのハーフワードオペランドをそれぞ
れＹオペランドのハーフワードオペランドと乗算するた
めの接続を表わす。Ｘの最下位ハーフワードは乗算器５
２０においてＹの最下位ハーフワードと乗算されるとい
うことに注意されたい。また乗算器５１５において独立
的かつ同時に、Ｘの上方のハーフワードがＹの上方のハ
ーフワードと乗算される。これらの２つの乗算は、２つ
の積を生じる。乗算器５２０からの３２ビットの積はＺ
０からＺ３１で表わされ、同様に乗算器５１５の３２ビ
ットの結果はＷ０からＷ３１によって表わされる。２つ
の積はその精度を保つために各々１６ビットよりも大き
い。この時点で、ハーフワードの積は独立的なオペラン
ドの表現として保存される。

【００６１】乗算器５２０より出された下方のハーフワ
ードからの積は、累算器５３０に送られＦ０からＦ３９
で表わされるフィードバックレジスタで加算される。こ
れにより、Ａ０からＡ３９で表わされる累積された積Ａ
が形成される。同様に上方のハーフワードにおいて、積
はＷ０からＷ３１によって表わされており、かつ累算器
５２５の中でＧ０からＧ３９によって表わされるフィー
ドバックレジスタに加算されて４０ビットの結果Ｂを形
成し、この結果はＢ０からＢ３９で表わされる。これら
の累算器の結果は一般に、乗算の精度を保つためにより
大きい数またはビットで表わされるオペランドとして累
算器の中でより大きい数として保存される。

【００６２】フィードバックビットは通常、メモリ（図
２の１００）またはより大きい数のビットをストアする
ことのできる特殊なメモリのいずれからでももたらされ
るだろう。典型的なメモリ位置が扱えるのは３２ビット
であるが、典型的には累算器ファイルと呼ばれる特殊な
メモリは、スカラ積のために４０ビット、またはハーフ
ワード対の積のために８０ビットをストアすることがで
きるだろう。この場合スカラオペランドを扱うことので
きる２つの累算レジスタが、ハーフワード対オペランド
のための記憶を形成するのに用いられてもよい。換言す
れば、ハーフワード対演算の２つの４０ビットの結果を
ストアするのに２つの４０ビット累算器を用いることが
できるだろう。

【００６３】ＭＡＣ相互接続図１１および図１２は、スカラオペランドのための１６
×３２ビット乗算を形成するために、図１０のアレイの
２つの１６ビット乗算器がどのように相互接続され得る
かを示す。この例では、乗算器アレイは加算器列として
実現される。最下位乗算器アレイ６１０のキャリー−ア
ウト６０５は、上位乗算器アレイ６００の加算器にキャ
リー入力として与えられる。さらに、上位乗算器アレイ
６００の最下位端に形成される合計ビット６０６は、下
位乗算器アレイ６１０の加算器の最上位端に与えられ
る。

【００６４】他の接続は、累算器６１５および６０５に
生ずる。積の下位部分を表わす累算器６１５は３２ビッ
トに制限され、上位８ガードビットは使用されない。３
２ビットのキャリーアウトは上位４０ビット累算器６０
５のキャリー入力に与えられ、その結果はＢ３９を通る
Ｂ０としてここでは示される７２ビットオペランドであ
る。典型的にはこのオペランドは２つのオペランドとし
てストアされ、下位３２ビットは１つの累算器６１５に
ストアされ、上位４０ビットは第２の累算器６０５にス
トアされる。さらにこの演算では、符号付ビットおよび
符号なしビットのために、入力オペランドＸの下位半分
は乗算器６１０において符号なし数として扱われ、入力
オペランドＸの上位１６ビットは上位乗算器アレイ６０
０において符号付または符号なしオペランドとして扱わ
れる。

【００６５】さらに、下位累算器６１５においては積は
符号なしオペランドとして扱われ、一方上位累算器６０
５ではオペランドは符号付数として扱われる。４０ビッ
ト累算器は図１１および図１２のすべての例においては
符号付数として扱われることを付け加えるべきである。
これは、符号なし数でさえも符号付数の正の部分と考え
られ得るようなビットを、累算器の拡張であるガードビ
ットが可能にするからである。ゆえに、拡張累算器にお
ける符号付数は、符号付オペランドと符号なしオペラン
ドの両方を含む。

【００６６】図１２は、乗算器アレイ６００および６１
０を構成する加算器間でキャリーおよび合計ビットがど
のように相互作用するかをより詳細に示す。たとえば、
加算器６２５および６３５は乗算器アレイ６１０の一部
として示され、加算器６２０および６３０は乗算器アレ
イ６００の一部として示される。乗算器アレイ６１０お
よび６００は典型的には加算器の何らかの構成でもって
実現されることが注目されるべきである。特定的な実現
例において、加算器の相互接続は様々な方法でなされる
であろう。図１０は加算器の単純なカスケードを示す
が、この同じ技術を、加算器がたとえばブース乗算器ま
たはウォレス・ツリー乗算器におけるように接続される
であろうような他の方法に用いてもよい。図１２に示さ
れるように、下位乗算器アレイ６１０の加算器６２５
は、上位乗算器アレイ６１０の対応する加算器６２０の
キャリー入力に与えられるキャリー−アウト６２１を与
える。下位乗算器アレイ６１０は、Ｘ−入力の入力オペ
ランドがあたかも符号なしであるかのように演算を行な
う。入力オペランドの符号は特定されて、上位乗算器６
００アレイの上位加算器６２０および６３０の符号制御
に用いられる。

【００６７】さらに加算器は、それらが乗算器の最下位
ビットから乗算器の最上位ビットにオフセットされるよ
うな方法で接続されるため、それは合計ビットを再び加
算し戻す機会を与える。より特定的には、加算器６２５
および６２０は、Ｙｉとされる、乗算器のより下位のビ
ットに対応する。加算器６３５および６３０は、Ｙ（ｉ
＋１）とされる、乗算器の次のより上位のビットに対応
する。このオフセットは、加算器６３５の入力Ｂ０に与
えられる加算器６２５の出力Ｓ１、および加算器６３５
の入力Ｂ１４に与えられる加算器６２５のＳ１５として
見られ得る。この１ビットのオフセットは加算器６２０
からの入力Ｓ０を受取るよう加算器６３５の入力のＢ１
５を解放して、最上位乗算器アレイ６００からの合計ビ
ットは最下位乗算器アレイ６１０へ入力ビットとして与
えられる。

【００６８】さらに、加算器６２５からの合計ビットＳ
０は、６４０として示される次の部分積に直接進み、さ
らなる乗算器または加算器段を通る必要はない。したが
って、連続する加算器段６２５、６３５などからＳ０を
出力することは、図９の出力ビットＺ０からＺ１５を生
じさせる。加算器６３５のＳ０からＳ１５に対応する最
終部分積からの出力ビットは、Ｚ１６からＺ３１の図９
のアレイ６１０からの出力ビットを生じさせるであろ
う。

【００６９】万一乗算器Ｙが負である場合に補償を与え
るために最終加算器段がどのように用いられ得るかにつ
いては、当業者ならば理解するであろう。

【００７０】オペランドデータのタイプの分類オペランドデータのタイプの分類に関してここで注目す
る。オペランドモードのタイプをスカラまたはベクトル
として特定するための１つのアプローチは命令にその情
報を含むことであるが、代替的アプローチはその情報を
オペランドの付加的なビットにおいて付け加えることで
ある。たとえば、オペランドが３２ビットの場合、１つ
の付加的なビットを用いて、オペランドをスカラまたは
ベクトルのいずれかとして識別してもよい。仮にベクト
ル要素の数がはっきりと示されるか、またはベクトル要
素の数が２のような何らかの数であると仮定され得るよ
うな場合、付加的なビットがさらに用いられてもよい。
オペランド処理ユニットは、オペランドに付加される情
報に応答することによってオペランドをスカラとしてま
たはベクトルとして処理するのに適合されるであろう。

【００７１】オペランドがスカラであるかまたはベクト
ルであるかは、オペランドが選択される方法によってさ
らに特定されてもよい。たとえば、オペランドのアドレ
スをさらに特定するメモリ位置にあるビットフィールド
に、情報が含まれてもよい。

【００７２】２つのオペランドが処理ユニットによって
処理され、モード情報がその２つのオペランドにおいて
異なる場合には、混合されたモード演算を処理するため
に当業者によって処理ユニットに規定が設定されてもよ
い。たとえば、ベクトルオペランドおよびスカラオペラ
ンドを伴うＡＤＤ演算は、処理ユニットによって、スカ
ラからベクトルを形成し、必要ならば切捨て、次いでベ
クトル演算を行なうことによって処理されてもよい。

【００７３】空間ハードウェアに対する代替としてのタ
イムシェアリング実現手段をタイムシェアリングすることは空間に分散す
る実現手段の代用にしばしばなり得ることは、当業者に
は理解されるであろう。たとえば、空間に分散されるベ
クトル処理ユニットにおいて多重加算器を効果的に実現
するのに、１つのベクトル加算器が何度も用いられても
よい。ハードウェアの多重化および非多重化を用いて、
入力オペランドおよび結果を順序づけることも可能であ
る。付加的なサポートハードウェアを有するベクトル加
算器をさらに用いて、スカラオペランドを処理するのに
分散ベクトル加算器が相互接続され得る方法と類似の態
様でスカラオペランドをばらばらに処理することも可能
である。サポートハードウェアは、ベクトル演算処理素
子間を通る中間結果を処理するのに用いられる。

【００７４】この発明の上記の説明に留意して、この発
明の空間ベクトルデータ経路を組込む例示のＲＩＳＣ型
プロセッサがこれより説明される。以下のプロセッサシ
ステムは、当業者がこの発明を組込むであろう方法の一
例にすぎないことに注意されたい。他の例は、記載され
るこの発明に基づく、それらの有利なアプリケーション
を見出すであろう。

【００７５】この発明を組込む例示的プロセッサこの発明を組込む演算処理素子の機能図を示す図１３を
参照する。以下の説明は特定のビット幅を参照するが、
それらは例示のためであり、この発明の教示に従って他
の幅が容易に構成され得ることを、当業者は理解するで
あろう。

【００７６】図１３を参照すると、図示されるデータ処
理ユニットを制御するために、２つのソースオペランド
および１つの宛先オペランドを特定することのできる命
令が用いられる。

【００７７】オペランドは典型的にはレジスタにおよび
データメモリ（２００）にストアされる。演算命令、論
理命令、およびシフト命令がＡＬＵ２４０およびＭＡＣ
２３０においてレジスタ空間からのオペランドを用いて
実行され、その結果はレジスタ空間に戻される。レジス
タ空間はレジスタファイル２２０と幾つかの他の内部レ
ジスタ（図示せず）とから構成される。レジスタ空間に
ストアされるオペランドは、３２ビットワードまたはハ
ーフワード対のいずれかである。オペランドは、ロード
およびストア命令によってレジスタ空間とメモリ２００
との間を、または既に記載したようにレジスタ空間と自
動メモリアクセスユニットであるストリーマ２１０との
間を往復する。

【００７８】図１４を参照すると、ＡＬＵ２４０の機能
ブロック図が示される。ＡＬＵは加算器４１０、４２０
とバレルシフタ４７０とから構成される。一般に、ＡＬ
Ｕ命令は、レジスタ空間から２つのオペランドをとり、
レジスタ空間にその結果を書込む。ＡＬＵ命令は、各ク
ロックサイクルを実行することができ、ＡＬＵパイプに
おいて僅か１つの命令クロックサイクルを必要とするだ
けである。

【００７９】加算器４１０、４２０およびシフタ４７０
は、ワードまたはハーフワード対オペランドを用いて演
算を行なう。符号付オペランドは２の補数表記法で表わ
される。現在、符号付、符号なし、小数、および整数オ
ペランドが、ＡＬＵ演算のための命令によって特定可能
である。

【００８０】加算器加算器（４１０、４２０）はワードおよびハーフワード
対で加算および論理演算を行なう。ハーフワード対演算
の場合、加算器４１０、４２０は半分のものが２つある
ものとして機能する。下半分４２０はハーフワード対の
下位オペランド４６０を用いて演算を実行し、上半分４
１０は同じ演算をハーフワード対の上位オペランド４５
０を用いて実行する。ハーフワード対モードにある場合
は、２つの加算器４１０、４２０は本質的に互いから独
立している。３２ビット論理ユニット４４０は、下の加
算器４２０から上の加算器４１０へ情報を送り、２つの
加算器がワードモードで動作しているときには情報を逆
に送るために用いられる。

【００８１】加算器演算は、２つのキャリー（ＣＵおよ
びＣＬ）、２つのオーバフロー（ＶＵおよびＶＬ）、お
よび２つのゼロ（ＺＵおよびＺＬ）条件コードビットに
影響する。ＣＵはワード演算のための桁上げフラグであ
り、ＣＵおよびＣＬはハーフワード対演算のための桁上
げフラグである。同様に、ＶＵはワード演算におけるオ
ーバフローを示し、ＶＵおよびＶＬはハーフワード対演
算におけるオーバフローを示す。

【００８２】オーバフローフラグに作用するオーバフロ
ーは、加算器演算命令からおよびＭＡＣスカラ命令から
結果として生じ得る。オーバフローフラグは、実行され
た命令がたとえ結果を飽和したとしてもセットされる。
一度セットされると、条件コードは、フラグをセットす
ることのできる別の命令があるまで変わらない。

【００８３】飽和のない加算器演算命令がオーバフロー
し、誤り例外が可能化されると、誤り例外要求が生ず
る。飽和のあるオーバフローおよび飽和のないオーバフ
ローを示すために、別個の信号がデバッグ論理に送られ
る。

【００８４】バレルシフタ図１４を参照すると、１クロックサイクルの間に、バレ
ルシフタは３２ビット位置までのワードオペランドにあ
るすべてのビットを左または右のいずれにもシフトさせ
ながら、ゼロ、オペランドの符号ビット、または加算器
の上位桁上げフラグ（ＣＵ）を回転または挿入すること
ができる。ハーフワード対演算の場合には、１クロック
サイクルで、シフタは１６ビット位置までの両方のハー
フワードを左または右へシフトさせながら、ゼロ、符号
ビット、または加算器の桁上げフラグ（ＣＵおよびＣ
Ｌ）を回転または挿入することができる。

【００８５】典型的なシフト／回転演算の場合、バレル
シフタ４７０は、両方のソースオペランドの位置にある
各ビットを演算によって示される方向に移動させる。各
位置のシフトに対して、バレルシフタ４７０は、選択さ
れる演算に依って、終わりのビットを回転させるか、ま
たは符号ビット、桁上げフラグ（ＣＵまたはＣＬ）、も
しくはゼロを挿入する。

【００８６】たとえば、左回転の場合、ビットは左側へ
シフトされる。ビット３１はワードモードではビット０
にシフトされる。ハーフワード対モードの場合には、ビ
ット３１はビット１６に回転させられ、ビット１５はビ
ット０に回転させられる。右回転の場合は、ビットは右
側にシフトされる。ゼロはワードモードではビット３１
に挿入される。ハーフワード対モードの場合には、ゼロ
はビット３１およびビット１５の両方に挿入される。同
様に、キャリー伝搬を伴うシフトでは、桁上げフラグ
（ＣＵ）はワードモードではビット３１に挿入される。
ハーフワード対モードの場合には、各ハーフワードの桁
上げフラグ（ＣＵおよびＣＬ）はビット３１およびビッ
ト１５に挿入される。

【００８７】次に図１５を参照する。デュアルＭＡＣユ
ニットは、２つの１６×１６の積または１６×３２の積
のいずれをも生ずることができるよう一体的に相互接続
された、２つのＭＡＣユニット５２０、５５０、５７
０、５９０および５１０、５４０、５６０、５８０から
構成される。各ＭＡＣは、１６×１６乗算アレイ５１
０、５２０と、累算加算器５６０、５７０と、累算器レ
ジスタファイル５８０、５９０と、スケーラ５９１とか
ら構成される。

【００８８】幾つかの例示的な命令：乗算、累算、乗算
および累算、ユニバーサルハーフワード対乗算、ユニバ
ーサルハーフワード対乗算および累算、ダブル乗算ステ
ップ、ならびにダブル乗算および累算ステップが、図２
８−図３６に挙げられる命令のまとめに見られる。

【００８９】ワード演算はどちらかのＭＡＣユニットで
実行され得る。ＭＡＣは現在１６×１６演算であるた
め、ＭＡＣユニットで用いられる「ワード」は１６ビッ
トであることは注目されるべきである。しかしながら、
より便利なアプローチは、ベクトル長１、２、４または
８を用いて演算を表わすことである。したがって、ＭＡ
Ｃにおけるワード演算はベクトル長１と呼ばれることが
でき、一方ハーフワード対演算はベクトル長２となるだ
ろう。宛先累算器を含むＭＡＣは、演算を行なうのに現
在用いられているものである。

【００９０】ハーフワード対演算は両方のＭＡＣユニッ
トを用いる。命令は特定の累算器を宛先累算器として特
定し、これはアドレス指定される累算器となる。アドレ
ス指定される宛先累算器を含むＭＡＣは下位のハーフワ
ード対要素で演算を行ない、他方の（「対応する」）Ｍ
ＡＣは同じ演算を上位のハーフワード対要素で行なう。
対応するＭＡＣからの結果は対応する累算器にストアさ
れ、アドレス指定される累算器と対応する累算器とはそ
れらのそれぞれのレジスタファイルにおいて同じ相対位
置に位置する。

【００９１】倍精度演算はハーフワードおよびワードで
行なわれ、この演算は二重ＭＡＣとして組合せられる２
つのＭＡＣによって行なわれる。「上位」ＭＡＣは計算
の最上位部を行ない、「下位」ＭＡＣは計算の最下位部
を行なう。

【００９２】ＭＡＣユニットは、整数オペランドまたは
小数オペランド、および符号付または符号なしオペラン
ドをサポートしてもよい。

【００９３】累算器レジスタファイル２つのＭＡＣユニットは上位ＭＡＣおよび下位ＭＡＣと
呼ばれる。各ＭＡＣは４つの４０ビットのガードされる
累算器レジスタから構成される累算器レジスタファイル
を有し、ＡＬＵには合計８つの累算器がある。各ガード
される累算器（ＡＧｎ）は、最上位端が８ビットのガー
ドレジスタ（Ｇｎ）でもって拡張される３２ビット累算
器レジスタ（Ａｎ）から構成される。図１６は累算器レ
ジスタファイルのレイアウトを示す。

【００９４】ハーフワード対オペランドの累算器は２つ
の累算器にストアされる。ハーフワード対の下位要素
は、いずれかのＭＡＣの１つの累算器において、４０ビ
ット数として累算される。ハーフワード対の上位要素
は、他方のＭＡＣにある対応する累算器において、４０
ビット数として累算される（図１７は対応するアドレス
を示す）。

【００９５】２つの累算器は、倍精度ステップ演算の結
果をストアするためにさらに用いられる。結果の最上位
部は、上位ＭＡＣのガードされる累算器ＡＧにストアさ
れる。結果の最下位部は、下位ＭＡＣの累算器Ａにスト
アされる。下位ＭＡＣ累算器のガードビットは使用され
ない。

【００９６】各累算器は、レジスタ空間に、上位および
下位累算器アドレスまたは上位および下位冗長アドレス
と呼ばれる２つのアドレスを有する。（累算器ｎのため
のこれらのアドレスのアセンブリ言語名はそれぞれＡｎ
ＨおよびＡｎＬである。）どちらのアドレスが使用され
るかということの効果は、レジスタが命令においてどの
ように用いられるかに依存し、これらの効果は以下のサ
ブセクションにおいて詳細に述べられる。

【００９７】命令フォーマット（およびアセンブリ言
語）はアドレス指定累算器の幾つかの方法を提供する。

【００９８】・レジスタ空間の要素として。各累算器
は、１１１ないし１２７の範囲に、アセンブリ言語記号
をＡＲｎＨおよびＡＲｎＬとする上位アドレスおよび下
位アドレスを有する。

【００９９】・累算器オペランドとして。命令フォーマ
ットは範囲０−７にある数をとり、対応するアセンブリ
言語記号はＡｎ形式である。

【０１００】・別々の上位アドレスおよび下位アドレス
を有する累算器オペランドとして。命令フィールドは範
囲０−１５にある値をとり、アセンブリ言語フォーマッ
トはＡｎＨまたはＡｎＬである。

【０１０１】８つのガードレジスタの各々は拡張レジス
タ空間にアドレスを有する（１６０−１６７；アセンブ
リ言語記号はＡＧｎ形式を有する）。

【０１０２】このセクションの残りのサブセクション
は、累算器およびガードレジスタの、命令としての取扱
いを特定する。レジスタがソースであるかまたは宛先で
あるか、および演算の要素がワードであるかまたはハー
フワード対であるかによって、多数の特別な例がある。

【０１０３】１．ワードソースオペランドとしての累算
器上位累算器アドレスは累算器Ａｎの上位３２ビットを小
数ワードオペランドとして特定し、下位アドレスはＡｎ
の下位３２ビットを整数ワードオペランドとして特定す
る。プロセッサの現在のバージョンでは、累算器は３２
ビットの長さなので、両方のアドレスとも同じ３２ビッ
トを参照する。しかしながら、一般的なプロセッサアー
キテクチャはより長い累算器を可能にする。ガードビッ
トは、累算器（アセンブリ言語Ａｎ）を３２ビットソー
スオペランドとして用いる命令によって無視される。命
令が、ガードされる累算器（アセンブリ言語ＡＧｎ）を
用いることを、たとえば累算レジスタのためにまたはス
ケーラへの入力として特定する場合には、ガードビット
は４０ビットソースオペランドに含まれる。

【０１０４】バス構造は、現在、各ＭＡＣからの１つの
累算器レジスタが任意の所与の命令において明示される
ソースオペランドとして用いられることを可能にする。

【０１０５】累算器が乗算演算のためのソースオペラン
ドとして選択されると、３２ビットすべてが累算器によ
って提示される。命令はさらに、整数／小数オプション
によって、乗算アレイへの入力のための下位または上位
ハーフワードを選択する。

【０１０６】２．ハーフワード対ソースオペランドとし
ての累算器ハーフワード対の各要素は、累算器に、あたかもワード
オペランドであるかのように保持される。ハーフワード
対の２つの要素は、別個のＭＡＣにある対応する累算器
にストアされる。それらのそれぞれのＭＡＣ内で累算器
レジスタとしてまたはスケーラへの入力として用いられ
るときは、それらは４０ビットソースオペランドとして
用いられる。

【０１０７】それ以外の場合には、要素はハーフワード
対オペランドで２つのハーフワードとしてアセンブルさ
れる。ハーフワード対ソースオペランドが上位累算器ア
ドレスである場合には、各要素に対し累算器の上位ハー
フワードが用いられる。下位累算器アドレスが用いられ
る場合には、下位ハーフワードが用いられる。アドレス
指定される累算器は下位ハーフワードを与え、対応する
累算器は上位ハーフワードを与える。いずれのＭＡＣも
ハーフワード対のいずれの要素をも供給することができ
る。

【０１０８】３．倍精度ソースオペランドとしての累算
器累算器は倍精度ステップ演算においてのみ精度ソースオ
ペランドのために用いられる。アドレス指定される累算
器は最下位３２ビットを与え、対応するガードされる累
算器は最上位４０ビットを与える。

【０１０９】４．ソースオペランドとしてのガードレジ
スタ８ビットガードレジスタ（Ｇｘ）は符号拡張整数として
拡張レジスタ空間から直接アクセスすることができる。
ガードレジスタがハーフワード対演算のソースオペラン
ドである場合、アドレス指定されるガードは最下位ハー
フワードオペランドとなり、対応するガードは最上位ハ
ーフオペランドとなる。両方の例において、ガードレジ
スタは１６ビットに符号拡張される。

【０１１０】５．ワード宛先オペランドとしての累算器ＭＡＣを用いるワード演算では、乗算演算の３２ビット
結果は、宛先累算器にストアされ、そのガードレジスタ
を介して符号拡張される。累算演算の４０ビット結果は
宛先ガード累算器にストアされる。

【０１１１】他の、レジスタからレジスタへの命令で
は、結果は、宛先累算器に移動させられ、そのガードレ
ジスタを介して符号拡張される。

【０１１２】６．ワード対宛先オペランドとしての累算
器ワード対のデータタイプの変換を特定する累算器を目標
とするロード命令では、下位メモリアドレスからのワー
ドはアドレス指定される累算器にロードされ、より上位
のメモリアドレスからのワードの最下位バイトは累算器
のガードレジスタにロードされる。

【０１１３】７．ハーフワード対宛先オペランドとして
の累算器２つのＭＡＣユニットを用いるハーフワード対演算で
は、各ＭＡＣの結果はその累算器ファイルにストアされ
る。宛先累算器を含むＭＡＣは下位のハーフワード対要
素を処理し、その４０ビット結果はそのガードされる累
算器（ＡＧ）にストアされる。対応するＭＡＣは上位の
ハーフワード対要素を処理し、その４０ビット結果は対
応するガードされる累算器（ＡＧＣ）にストアされる。

【０１１４】他の、レジスタからレジスタへの命令で
は、宛先累算器のために選択される特定の累算器アドレ
スが、結果をどのようにストアするかを判断する。上位
アドレスが用いられる場合には、最下位ハーフワード
は、選択される累算器の最上位半分にロードされ、右側
へゼロ拡張され、そのガードレジスタを介して符号拡張
される。最上位ハーフワードは、対応する累算器の最上
位半分にロードされ、右側へゼロ拡張され、そのガード
レジスタを介して符号拡張される。下位アドレスが用い
られる場合には、最下位ハーフワードは、選択される累
算器の最下位半分にロードされ、選択される累算器の最
上位半分を介し、次いでそのガードレジスタを介して符
号拡張される。最上位ハーフワードは、対応する累算器
の最下位半分にロードされ、上述のように符号拡張され
る。

【０１１５】８．倍精度オペランドとしての累算器倍精度乗算ステップ演算の結果の最下位３２ビットは宛
先累算器にストアされ、最上位４０ビットは対応するガ
ードされる累算器にストアされる。宛先累算器のガード
ビットはすべてゼロにセットされる。

【０１１６】９．宛先オペランドとしてのガードレジス
タガードレジスタが宛先オペランドである場合、結果の８
つの最下位ビットはアドレス指定されるガードレジスタ
にストアされる。ガードレジスタがハーフワード対演算
の宛先オペランドとしてもちいられる場合には、結果の
８つの最下位ビットはアドレス指定されるガードレジス
タにストアされ、上位ハーフワードの８つの最下位ビッ
トは対応するガードレジスタにストアされる。

【０１１７】乗算アレイここで図１５を参照する。各ＭＡＣのための乗算アレイ
または乗算ユニットは、２つの１６ビット入力から３２
ビットの積を生ずる。符号付および符号なし入力、整数
および小数入力は、任意の組合せで乗算されてもよい。
整数入力の場合、ソースオペランドの最下位ハーフワー
ドが用いられる。小数入力の場合は、最上位ハーフワー
ドが用いられる。図１８は入力のスケーリングを示し、
図１９は出力スケーリングを示す。

【０１１８】２つのワードオペランドまたは１つのワー
ドおよび１つの即値オペランドが乗算される場合には、
宛先累算器を含むＭＡＣのみが用いられる。２つのＨＰ
オペランドまたは１つのＨＰおよび１つの即値オペラン
ドが乗算される場合には、両方のＭＡＣが用いられ、宛
先累算器を含むＭＡＣは下位のＨＰ要素を乗算する。

【０１１９】ともに用いられる２つの乗算アレイは、図
１８に従ってスケーリングされる１つの１６ビット入力
と１つの３２ビット入力とから４８ビットの積を生ず
る。この積は、図２０および図２１に従ってスケーリン
グされる。

【０１２０】乗算飽和 −１．０が累算なしで（１６ビットの符号付小数とし
て）−１．０によって乗算される場合、結果（＋１．
０）は飽和して、ガードビットへのオーバフローを防
ぐ。最大の正の数は累算器（Ａ）に置かれ、ガードビッ
トはゼロにセットされる。乗算命令が累算を含む場合に
は、結果は飽和せず、代わりに完全な結果が宛先ガード
累算器において累算されそこに置かれる。

【０１２１】乗算スケーリング図１８、図１９、図２０および図２１は、乗算演算のた
めのソースオペランドおよび結果のスケーリングを示
す。表は、小数点の想定された位置および任意の符号ビ
ットの処理を示す。

【０１２２】図１８は乗算演算のためのソースオペラン
ドのスケーリングを示す。図１９は３２ビットの積のた
めのスケーリングを示す。図２０および図２１は４８ビ
ットの積のためのスケーリングを示す。（図２０（ａ）
および（ｂ）は、下位および上位ＭＡＣにおいてそれぞ
れ右寄せされる積のスケーリングを示し、同様に図２１
（ａ）および（ｂ）は左寄せされた積のスケーリングを
示す。）累算加算器図１５を参照すると、各ＭＡＣは、累算器に入力を加算
することのできる（または累算器から入力を減算するこ
とのできる）累算加算器を含む。考えられ得る入力は、
乗算アレイからの積、即値オペランド、いずれかのＭＡ
Ｃからの累算器、またはワードもしくはハーフワード対
含むレジスタである。

【０１２３】累算初期化特性は、ステータスレジスタ
（ＳＴ）（図示せず）のＩＭＡＣ（抑止ＭＡＣ累算）ビ
ットによって制御される。乗算／累算演算を行なう命令
が実行され、ＩＭＡＣビットが真（＝１）である場合に
は、宛先累算器は入力オペランドに初期化され、ＩＭＡ
Ｃビットは偽（＝０）にリセットされる（実際には、宛
先累算器は、入力が累算される前に０にセットされ
る）。

【０１２４】同様の初期化および丸め特性は、ステータ
スレジスタのＩＭＡＲビットによって制御される。ＩＭ
ＡＲビットが真である間に、累算加算器演算を行なう命
令が実行されると、累算レジスタは丸め係数によって置
き換えられ、宛先累算器は入力オペランドに切上げビッ
トを加えたものに初期化され、ＩＭＡＲビットは偽にリ
セットされる。丸め係数は、下位ハーフワードの最上位
ビットにある１を除き、すべて０である。

【０１２５】いくつかの乗算命令は、累算加算器におい
て実行される丸めオプションを含む。丸められた結果は
宛先累算器の上位ハーフワードに置かれ、ゼロは下位ハ
ーフワードに置かれる。結果は、下位ハーフワードと上
位ハーフワードとの間に小数点を有すると考えられるべ
きであり、結果は最も近い整数に丸められ、下位ハーフ
ワードが１／２である場合には（つまり上位ビットが１
である場合には）、結果は最も近い偶数の整数に丸めら
れる。

【０１２６】累算加算器のオーバフローはオーバフロー
フラグをセットしない。飽和オプションを有する累算命
令に対してオーバフロー生ずると、ガードされる累算器
はオーバフローの方向に従ってそれの最も大きい正の数
または最も小さい負の数にセットされる。命令が飽和を
特定せず、かつ誤り例外が可能化される場合には、オー
バフローは誤り例外要求を生ずる。飽和を有するオーバ
フローおよび飽和を有しないオーバフローのために、デ
バッグ論理に別個の信号が送られる。

【０１２７】図２２は、累算レジスタに加算されるワー
ドまたは累算器オペランドを示す。図２３は、累算レジ
スタにあるハーフワード対に加算される（レジスタまた
は累算器からの）ハーフワード対オペランドを示す。

【０１２８】図２４は、累算レジスタに加算される積を
示す。図２５は、累算レジスタにあるハーフワード対に
加算されるハーフワード対の積を示す。

【０１２９】図２６は、右寄せオプションを用いて累算
される４８ビットの積を示す。このオプションは、整数
結果が所望される１６×３２積、または３２×３２積の
第１のステップに適用できる。

【０１３０】図２７は、左寄せオプションを用いて累算
される４８ビット積を示す。このオプションは、小数結
果が所望される１６×３２積、または３２×３２積の第
２のステップに適用できる。

【０１３１】図２８−図３６は、この発明の空間ベクト
ルデータ経路に従って実現されるであろう演算の命令の
まとめである。

【０１３２】スケーラ図１５を参照すると、スケーラユニットは、ガードされ
る累算器の全長上で、０ないし８ビット位置の右バレル
シフトを行なうことができる。最上位ガードビットは空
いたビットに伝搬される。

【０１３３】ガードビットと結果の最上位ビットとがす
べて一致しない場合には、スケーラ命令の間にオーバフ
ローが生ずる。（これらのビットが一致する場合には、
それは、累算器の符号ビットがガードレジスタ全体を通
って伝搬し、累算器のオーバフローはガードビットには
生じなかったことを意味する。）スケーラ命令はオーバフローが生じた際に結果を飽和す
るオプションをサポートする。この例においては、結果
は、オーバフローの方向に依って、最も大きい正の数ま
たは最も小さい負の数に１つの最下位ビットを加えても
のにセットされる（最上位ガードビットは、元の数が正
であったかまたは負であったかを示す。）オーバフローが生じ、飽和が特定されなかったときに、
誤り例外が可能化された場合には誤り例外が生ずる。飽
和のないオーバフローおよび飽和のあるオーバフロー
は、別個の信号でデバッグ論理に報告される。

【０１３４】累算器を正規化するのに、レジスタへの移
動がスケーリングされる累算器（ＭＡＲ）を用いてもよ
い。累算器Ａｎを正規化するためには：ＭＡＲＲｘ，ＡｎＨ，♯８；８ビットでＡＧｎを
スケーリングするＭＥＸＰＲｃ，Ｒｘ；指数を測定するＳＵＢＲＵ．Ｗ．ＳＡＴＲｃ，Ｒｃ，♯８；正規
化に必要なシフト数を計算するＭＡＲＲｘ，ＡｎＨ，Ｒｃ；累算器の内容を正規
化するこのシーケンスの後、Ｒｃはガードされる累算器を正規
化するのに必要なシフト数を含み、Ｒｘは正規化された
結果を含む。

【０１３５】この発明は図１−図３６を参照して記載さ
れてきたが、この発明の教示は当業者によって決定され
るようなさまざまな処理スキームに適用されてもよいこ
とが理解される。

【図面の簡単な説明】

【図１】（ａ）は、従来の単一命令、多重データ（ＳＩ
ＭＤ）コンピュータの概念的な図である。（ｂ）はＳＩ
ＭＤコンピュータに用いられる処理素子の単純な図であ
る。

【図２】この発明を組込むであろうプログラマブルプロ
セッサの一般化された図である。

【図３】（ａ）は、処理ユニットのためのＡＬＵに組込
まれるであろう従来の加算器の模式図である。（ｂ）お
よび（ｃ）は、この発明を実現するであろう加算器の模
式図である。

【図４】（ａ）は、処理ユニットのためのＡＬＵに組込
まれるであろう従来の論理ユニットの模式図である。
（ｂ）および（ｃ）は、この発明を実現するであろう論
理ユニットの模式図である。

【図５】（ａ）および（ｂ）は、この発明を実連するで
あろう従来のシフタの模式図である。

【図６】この発明を組込むであろうシフタの図である。

【図７】この発明を組込むであろうシフタの図である。

【図８】この発明を組込むであろうシフタの図である。

【図９】従来の乗算累算器（ＭＡＣ）の単純な図であ
る。

【図１０】ＭＡＣがこの発明をどのように組込み得るか
を示す図である。

【図１１】ＭＡＣが３２×１６モードでこの発明をどの
ようにして組込み得るかを示す図である。

【図１２】３２×１６モードのためのＭＡＣ内の相互接
続を示す図である。

【図１３】この発明を組込む処理素子の単純な機能図で
ある。

【図１４】この発明を組込むＡＬＵおよびシフタの単純
な図である。

【図１５】デュアルＭＡＣ構成を示す図である。

【図１６】累算器レジスタファイルのレイアウトを示す
図である。

【図１７】（ａ）および（ｂ）は、対応する累算器アド
レスを示す図である。

【図１８】乗算演算のためのソースオペランドおよび結
果のスケーリングを示す図である。

【図１９】乗算演算のためのソースオペランドおよび結
果のスケーリングを示す図である。

【図２０】（ａ）および（ｂ）は、乗算演算のためのソ
ースオペランドおよび結果のスケーリングを示す図であ
る。

【図２１】（ａ）および（ｂ）は、乗算演算のためのソ
ースオペランドおよび結果のスケーリングを示す図であ
る。

【図２２】累算器レジスタに加算されるワードまたは累
算器オペランドを示す図である。

【図２３】累算レジスタでハーフワード対に加算される
ハーフワード対オペランドを示す図である。

【図２４】累算レジスタに加算される積を示す図であ
る。

【図２５】累算レジスタでハーフワード対に加算される
ハーフワード対の積を示す図である。

【図２６】右寄せオプションを用いて累算される４８ビ
ットの積を示す図である。

【図２７】左寄せオプションを用いて累算される４８ビ
ットの積を示す図である。

【図２８】この発明に従って実現されるであろう命令の
まとめを示す図である。

【図２９】この発明に従って実現されるであろう命令の
まとめを示す図である。

【図３０】この発明に従って実現されるであろう命令の
まとめを示す図である。

【図３１】この発明に従って実現されるであろう命令の
まとめを示す図である。

【図３２】この発明に従って実現されるであろう命令の
まとめを示す図である。

【図３３】この発明に従って実現されるであろう命令の
まとめを示す図である。

【図３４】この発明に従って実現されるであろう命令の
まとめを示す図である。

【図３５】この発明に従って実現されるであろう命令の
まとめを示す図である。

【図３６】この発明に従って実現されるであろう命令の
まとめを示す図である。

【符号の説明】

１００プログラムおよびデータ記憶ユニット１１０処理ユニット１２１ＡＬＵ１２２ＭＡＣ１２３シフタ１２４論理ユニット１３０命令収集ユニット１４０命令フェッチ／デコーダ／シーケンスユニット

フロントページの続き (72)発明者ケニス・イー・ギャレイアメリカ合衆国、92714 カリフォルニア州、アーバイン、フレンズ・コート、 17531 (72)発明者ジョージ・エイ・ワトソンアメリカ合衆国、92635 カリフォルニア州、フラートン、ツリービュー・プレイス、2952 (72)発明者ジョン・アールアメリカ合衆国、92680 カリフォルニア州、タスティン、ウィリアムズ・ストリート、15512−ピー

Claims

【特許請求の範囲】

【請求項１】少なくとも１つのオペランドの複数デー
タ経路処理のためのプログラマブルプロセッサであっ
て、各オペランドは少なくとも１つの要素を含み、前記
プロセッサは命令フェッチ／デコード／シーケンス手段
によって判断される予め定められるシーケンスで命令を
実行し、前記プログラマブルプロセッサは、ａ）前記命令手段に結合され、前記少なくとも１つの
オペランドがベクトルおよびスカラモードのうちの１つ
で処理されるかどうかを各命令に対して特定するための
モード手段と、ｂ）前記モード手段に結合される処理ユニットとを含
み、前記処理ユニットは、前記少なくとも１つのオペラ
ンドを受取り、前記モード手段によって特定される前記
命令に応答して前記ベクトルおよびスカラモードのうち
の１つにある前記少なくとも１つのオペランドを処理
し、前記ベクトルモードは複数の要素が前記オペランド
内にあることを前記処理ユニットに示し、前記スカラモ
ードは１つの要素が前記オペランド内にあることを前記
処理ユニットに示す、プログラマブルプロセッサ。
【請求項２】前記処理ユニットは、ａ）前記モード手段からの命令に応答し、前記少なく
とも１つのオペランドにある各それぞれの要素を同時並
列処理して、前記ベクトルモードの各それぞれの要素に
対する独立した結果を得るための第１のベクトル手段
と、ｂ）前記モード手段からの前記命令に応答し、前記少
なくとも１つのオペランドにある第１の要素を、前記ベ
クトルモードの前記オペランドにある少なくともひとつ
の第２の要素との選択的組合せで処理するための第２の
ベクトル手段と、ｃ）前記モード手段からの前記命令に応答し、前記オ
ペランドの各それぞれの部分を処理してそれぞれの部分
的結果を得、各それぞれの部分的結果を併せて前記スカ
ラモードでスカラ結果を引出すためのスカラ手段とを含
む、請求項１に記載のプログラマブルプロセッサ。
【請求項３】前記第１のベクトル手段およびスカラ手
段は、ａ）複数の乗算累算器と、ｂ）複数のシフタと、ｃ）複数の算術ユニットと、ｄ）論理ユニットとのうちの少なくとも１つを備え、各々は、ベクトルオペランド内の少なくともひとつのそ
れぞれの要素と、スカラオペランドのそれぞれの部分と
のうちの１つを処理する、請求項２に記載のプログラマ
ブルプロセッサ。
【請求項４】前記スカラ手段は条件付移動を行ない、
前記第２のベクトル手段と前記スカラ手段とは前記第２
のベクトルモードにある前記オペランド内の前記第１お
よび第２の要素の前記選択的組合せに基づいて条件付き
分岐を行なう、請求項３に記載のプログラマブルプロセ
ッサ。
【請求項５】前記処理ユニットは、ａ）前記ベクトルおよびスカラモードのうちの１つで
動作する複数の加算器を備え、前記複数の加算器の各加
算器は前記モード手段によって特定されるベクトルオペ
ランドからの要素を受取りそれを個別に処理し、前記複
数の加算器は前記モード手段によって特定されるスカラ
オペランドを受取ってそれをともに処理し、前記処理ユ
ニットはさらに、ｂ）前記複数の加算器に結合され、前記複数の加算器
が１つの加算器として前記スカラオペランドを処理する
よう、キャリーステータスを前記スカラもどで前記複数
の加算器の各々の間で送るための加算器制御手段を備え
る、請求項１に記載のプログラマブルプロセッサ。
【請求項６】前記複数の加算器は１つの加算器として
前記スカラオペランドを処理するよう、前記加算器制御
手段は前記スカラモードで前記複数の加算器の各々の間
でオーバフローステータスをさらに送る、請求項５に記
載のプログラマブルプロセッサ。
【請求項７】前記処理ユニットは、ａ）前記ベクトルおよびスカラモードのうちの１つで
動作する複数の乗算累算器（ＭＡＣ）を備え、各ＭＡＣ
は前記モード手段によって特定されるようなベクトルオ
ペランド内の要素を受取ってそれを別個に同時並列処理
し、前記複数のＭＡＣは前記モード手段によって特定さ
れるスカラオペランドを受取りそれをともに処理し、前
記処理ユニットはさらに、ｂ）前記ＭＡＣに結合され、前記モード手段に応答
し、前記複数のＭＡＣを、ベクトルモードでは互いに独
立して動作させ、スカラモードではともに動作させるた
めのＭＡＣ制御手段を備える、請求項１に記載のプログ
ラマブルプロセッサ。
【請求項８】前記処理ユニットは、ａ）前記ベクトルおよびスカラモードのうちの１つで
動作する複数の論理ユニットを備え、前記複数の論理ユ
ニットの各論理ユニットは前記モード手段によって特定
されるようなベクトルオペランド内の要素を受取ってそ
れを別個に同時並列処理し、前記複数の論理ユニットは
前記モード手段によって特定されるスカラオペランドを
受取ってそれをともに処理し、前記処理ユニットはさら
に、ｂ）前記複数の論理ユニットに結合され、前記複数の
論理ユニットが１つの論理ユニットとして前記スカラオ
ペランドを処理するよう、前記スカラモードで前記複数
の論理ユニットの各々の間でゼロステータスを送るため
の、論理制御手段を備える、請求項１に記載のプログラ
マブルプロセッサ。
【請求項９】前記処理ユニットは、ａ）前記スカラモードでは１つの統合化されたシフタ
として、および前記ベクトルモードでは複数のシフタと
して、選択的に動作するための複数のシフタを備え、前
記複数のシフタの各々は、演算の第１のモードにある前
記モード手段に応答し、特定されるベクトルオペランド
からの要素を受取ってそれを別個に同時並列処理し、前
記複数のシフタは、第２のモードの演算にある前記モー
ド手段に応答し、スカラオペランドを受取ってそれをと
もに処理し、前記処理ユニットはさらに、ｂ）前記シフタに結合され、前記複数のシフタが前記
スカラオペランドを処理するよう、シフトされたオペラ
ンドビットを前記スカラモードで前記複数のシフタの各
々の間で送るためのシフタ制御手段を含み、前記シフタ
制御手段は、前記ベクトルモードでは、前記複数のシフ
タの各々からシフトされたオペランドビットを送ること
を不能化する、請求項１に記載のプログラマブルプロセ
ッサ。
【請求項１０】スカラおよびベクトルモードの１つで
オペランドの条件を評価するための比較手段をさらに含
む、請求項１に記載のプログラマブルプロセッサ。
【請求項１１】前記比較手段は命令実行のシーケンス
を修飾するために各オペランドの条件を評価する、請求
項１０に記載のプログラマブルプロセッサ。
【請求項１２】第１のオペランドは前記比較手段に基
づいて第１の記憶位置から第２の記憶位置へ条件付きで
移動され、前記比較手段は、第１のオペランド内の対応
する要素が移動されるかどうかを判断するために第２お
よび第３のオペランド内の対応する要素を各々が比較す
る複数のサブ比較器を含む、請求項１０に記載のプログ
ラマブルプロセッサ。
【請求項１３】前記モード手段は、各々の命令が命令
単位でベクトルおよびスカラモードのうちの１つを特定
するよう、各命令内にフィールドとして含まれる、請求
項１に記載のプログラマブルプロセッサ。
【請求項１４】前記モード手段は各命令内にビットフ
ィールドとして含まれる、請求項１３に記載のプログラ
マブルプロセッサ。
【請求項１５】各オペランド内に少なくとも１つの要
素を有するオペランドをストアするためのデータメモリ
と、実行のための命令をストアするための命令メモリ
と、命令手段と、複数の算術論理ユニット（ＡＬＵ）と
に結合される汎用コンピュータにおける、複数データデ
ジタル信号処理を行なうための構成であって、ａ）前記命令メモリと前記命令手段とに結合され、オ
ペランドが前記処理ユニットによってベクトルモードお
よびスカラモードのうちの１つとして処理されるかどう
かを各命令において特定するためのモード手段と、ｂ）前記モード手段に応答し、前記ＡＬＵを、スカラ
オペランドの場合は第１のモードで１つのユニットとし
てともに動作させ、ベクトルオペランドの場合には各ユ
ニットが第２のモードにある状態で個々の演算ユニット
とて独立して動作させることを選択的に行なうためのＡ
ＬＵ制御手段と、ｃ）前記ＡＬＵ制御手段と前記ＡＬＵとに結合され、
スカラオペランドの場合には前記ＡＬＵの各々の間でキ
ャリー条件を選択的に送り、ベクトルオペランドの場合
は前記ＡＬＵの各々のための前記キャリー条件を無視す
るための、キャリー条件手段とを備える、各オペランド
内に少なくとも１つの要素を有するオペランドをストア
するためのデータメモリと、実行のための命令をストア
するための命令メモリと、命令手段と、複数の演算論理
ユニット（ＡＬＵ）とに結合される汎用コンピュータに
おける、複数データデジタル信号処理を行なうための構
成。
【請求項１６】各々がその中に少なくとも１つの要素
を有するオペランドをストアするためのデータメモリ
と、実行のための命令をストアするための命令メモリ
と、命令手段と、第１の乗算累算器（ＭＡＣ）とに結合
される汎用コンピュータにおける、複数データデジタル
信号処理を行なうための構成であって、ａ）前記命令メモリと前記命令手段とに結合され、オ
ペランドが前記処理ユニットによってベクトルモードお
よびスカラモードのうちの１つとして処理されるかどう
かを各命令において特定するためのモード手段と、ｂ）複数のＭＡＣと、ｃ）前記第１および複数のＭＡＣの各々に結合され、
前記モード手段に応答し、前記第１および複数のＭＡＣ
の各々を、ベクトルモードでは互いに独立して動作さ
せ、スカラモードではともに動作させることを選択的に
行なうためのＭＡＣ制御手段とを備える、複数データデ
ジタル信号処理を行なうための構成。
【請求項１７】ＡＬＵによるオペランドの処理は、ａ）前記オペランド内の各独立した要素に結合される
各条件コードの組と、ｂ）前記オペランド内の組合せにおける選択的組合せ
の、条件コードの複数の組と、ｃ）前記スカラオペランドのための条件コードの前記
１つの組とのうちの１つに基づいて修飾される、請求項
１５に記載の構成。
【請求項１８】前記命令の実行のシーケンスは、ａ）前記オペランド内の各独立した要素に関連する各
条件コードの組と、ｂ）選択的組合せにある条件コードの複数の組とのう
ちの１つによって、第１の命令から第２の命令に修飾さ
れる、請求項１５に記載の構成。
【請求項１９】オペランドは、ａ）前記オペランド内の各々の独立した要素と関連す
る各条件コードの組と、ｂ）選択的組合せにある条件コードの複数の組と、ｃ）前記スカラオペランドのための条件コードの前記
１つの組とのうちの１つに基づいて、第１の記憶位置か
ら第２の記憶位置へ選択的に移動される、請求項１８に
記載の信号プロセッサ。
【請求項２０】ａ）前記スカラモードでは１つの統
合されたシフタとして、および前記ベクトルモードでは
複数のシフタとして、選択的に動作するための複数のシ
フタをさらに含み、前記複数のシフタの各々は、演算の
第１のモードにある前記モード手段に応答し、特定され
るようなベクトルオペランドからの要素を受取ってそれ
を独立して処理し、前記複数のシフタは、第２のモード
演算にある前記モード手段に応答し、スカラオペランド
を受取ってそれをともに処理し、さらに、ｂ）前記シフタに結合され、前記複数のシフタが前記
スカラオペランドを処理するよう、シフトされたオペラ
ンドビットを前記スカラモードで前記複数のシフタの各
々の間で送るためのシフタ制御手段を含み、前記シフタ
制御手段は前記ベクトルモードでは前記複数のシフタの
各々からシフトされたオペランドビットを送ることを不
能化する、請求項１５に記載の構成。
【請求項２１】汎用コンピュータを用いる複数データ
経路計算のためのプログラマブルプロセッサであって、
前記汎用コンピュータは、オペランドをストアするため
のデータメモリと、データメモリからオペランドを転送
するためのメモリアクセスバスと、実行のための命令を
ストアするための命令メモリと、前記命令メモリに結合
され前記命令のフェッチ、デコードおよび順序付けのた
めの命令手段とを含み、前記プログラマブルプロセッサ
は、ａ）前記命令手段に結合され、データメモリからのオ
ペランドが単一データ経路モードおよび複数データ経路
モードのうちの１つで処理されるかどうかを各命令にお
いて特定するためのモード手段を含み、ｂ）各データ経路は、演算ユニットと、乗算累算器（ＭＡＣ）とを含み、前記プログラマブルプ
ロセッサはさらに、ｃ）前記モード手段に応答し、各データ経路にある前
記算術ユニットを、スカラオペランドの場合は１つのモ
ードで１つのユニットとしてともに動作させ、ベクトル
オペランドの場合は各ユニットが別のモードにある状態
で個々の算術ユニットとして独立して動作させることを
選択的に行なうための演算制御手段と、ｄ）前記算術制御手段と各経路にある前記算術ユニッ
トとに結合され、スカラオペランドの場合には前記算術
ユニットの各々の間でキャリー条件を選択的に送り、ベ
クトルオペランドの場合には各算術ユニットに対応する
前記キャリー条件を不能化するためのキャリー条件手段
と、ｅ）各ＭＡＣに結合され、前記モード手段に応答し、
ベクトルモードでは各ＭＡＣを互いから独立させて動作
させ、スカラモードではともに動作させることを選択的
に行なうためのＭＡＣ制御手段とを含む、プログラマブ
ルプロセッサ。
【請求項２２】ａ）前記スカラモードでは１つの統
合されたシフタとして、および前記ベクトルモードでは
複数のシフタとして、選択的に動作するための複数のシ
フタをさらに含み、前記複数のシフタの各々は、演算の
第１のモードにある前記モード手段に応答し、特定され
るベクトルオペランドからの要素を受取ってそれを独立
して処理し、前記複数のシフタは、第２のモード演算に
ある前記モード手段に応答し、スカラオペランドを受取
ってそれをともに処理し、さらに、ｂ）前記シフタに結合され、前記複数のシフタが前記
スカラオペランドを処理するよう、シフトされたオペラ
ンドビットを前記スカラモードで前記複数のシフタの各
々の間で送るためのシフタ制御手段を含み、前記シフタ
制御手段は前記ベクトルモードでは前記複数のシフタの
各々からシフトされたオペランドビットを送ることを不
能化する、請求項２１に記載のプログラマブルプロセッ
サ。
【請求項２３】プログラマブルプロセッサを用いて複
数データ経路を介してデジタル信号処理を行なう方法で
あって、前記プログラマブルプロセッサは、少なくとも
１つの要素を各々が有する少なくとも１つのオペランド
で動作し、前記プログラマブルプロセッサは複数のサブ
処理ユニットを有し、前記方法は、ａ）前記プログラマブルプロセッサによって実行され
るべき命令の予め定められるシーケンスの中から命令を
供給するステップと、ｂ）前記命令が、前記プログラマブルプロセッサによ
る少なくとも１つのオペランド上での処理のスカラおよ
びベクトルモードのうちの１つを生じさせるステップと
を含み、前記スカラモードは前記少なくとも１つのオペ
ランド内に１つの要素があることを前記プログラマブル
プロセッサに示し、前記ベクトルモードは前記少なくと
も１つのオペランド内に複数のサブ要素があることを前
記プログラマブルプロセッサに示し、前記方法はさら
に、ｃ）スカラモードの場合には、前記プログラマブルプ
ロセッサの各サブ処理ユニットは、前記命令に応答し、
前記オペランドのそれぞれの部分を受取って処理して部
分的および中間結果を発生するステップと、ｄ）各サブ処理ユニットは、その中間結果を前記複数
のサブ処理ユニットの間で送り、その部分的結果を他の
サブ処理ユニットと併せて前記オペランドのための最終
結果を発生するステップと、ｅ）第１の条件コードを発生して前記最終結果に対応
するステップと、ｆ）ベクトルモードの場合には、前記プログラマブル
プロセッサの各サブ処理ユニットは、前記命令に応答
し、前記オペランド内の前記複数のサブ要素からそれぞ
れのサブ要素を受取ってそれを処理して、各中間結果は
不能化されかつ各部分的結果はその対応する要素のため
の最終結果を表わす状態で部分的および中間結果を発生
するステップと、ｇ）複数の第２の条件コードを、その各々が独立した
結果に対応する状態で発生するステップとを含む、デジ
タル信号処理方法。
【請求項２４】汎用コンピュータを介する複数データ
経路計算のためのプログラマブルプロセッサであって、
前記汎用コンピュータは、オペランドをストアするため
のデータメモリと、プログラム命令をストアするための
命令メモリと、命令手段とを含み、前記プログラマブル
プロセッサは、前記命令手段に結合され、データメモリからのオペラン
ドがベクトルおよびスカラモードのうちの１つとして処
理されるかどうかを特定するためのモード手段を含み、
ベクトルモードは各オペランド内の複数の要素を判断
し、スカラモードはオペランド内の１つの要素を判断
し、前記プログラマブルプロセッサはさらに、モード手段とデータメモリとに結合される複数の処理ユ
ニットを含み、各処理ユニットはオペランドのそれぞれ
の要素を受取りそれを処理して、部分的結果および伝搬
情報を得るために処理し、前記プログラマブルプロセッ
サはさらに、前記ベクトルモードで動作し、前記処理ユニットに結合
され、各部分的結果を各要素の処理のその最終結果とし
て送り、伝搬情報を無視するためのベクトル手段と、前記スカラモードで動作し、前記処理ユニットに結合さ
れ、各部分的結果と伝搬情報とを併せて各オペランドの
処理のその最終結果を得るためのスカラ手段とを含む、
プログラマブルプロセッサ。
【請求項２５】各処理ユニットは処理条件を保存する
ための条件コードの組を備え、条件コードの前記組は、ａ）個々に第１のベクトルモードにある各組と、ｂ）第２のベクトルモードにある別の組との選択的組
合せにある各組と、ｃ）前記スカラモードで組合されるスカラオペランド
のすべての組とのうちの１つによって、プログラマブル
プロセッサの処理を修飾する、請求項２４に記載のプロ
セッサ。
【請求項２６】各処理ユニットは、ａ）算術ユニットと、ｂ）乗算累算器と、ｃ）論理オペレータと、ｄ）バレルシフタとのうちの少なくとも１つを備え
る、請求項２５に記載のプロセッサ。
【請求項２７】前記モード手段は前記少なくとも１つ
のオペランドにあるビットフィールドによって特定され
る、請求項１に記載のプログラマブルプロセッサ。
【請求項２８】前記モード手段は、前記少なくとも１
つのオペランドが選択される方法によって特定される、
請求項１に記載のプログラマブルプロセッサ。
【請求項２９】前記モード手段は、前記少なくとも１
つのオペランドのアドレスをさらに特定するメモリ位置
にあるビットフィールドにおいて特定される、請求項２
８に記載のプログラマブルプロセッサ。
【請求項３０】前記モード手段に応答し、第２のオペ
ランドがスカラモードにある状態で、第１のオペランド
の各それぞれの要素をベクトルモードで処理するための
第３のベクトル手段をさらに含む、請求項２に記載のプ
ログラマブルプロセッサ。