JP2001147799A

JP2001147799A - データ移動方法および条件付転送論理ならびにデータの配列換え方法およびデータのコピー方法

Info

Publication number: JP2001147799A
Application number: JP2000279260A
Authority: JP
Inventors: Srinivas Mandavilli; スリニバス・マンダビリ; Saha Arindam; アリンダム・サハ
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1999-10-01
Filing date: 2000-09-14
Publication date: 2001-05-29
Also published as: US20030172254A1

Abstract

(57)【要約】【課題】ベクトル化処理命令に対する命令セットアー
キテクチャを強化すること、および、ベクトル化データ
処理領域において、命令セットアーキテクチャ準拠プロ
セッサの微小アーキテクチャを改善すること【解決手段】処理コア操作法であって、ある汎用レジ
スタから、別の汎用レジスタへデータをコピーするため
の命令を提供する。条件付移動命令が、制御レジスタの
対応ビットに基づいて、ソースレジスタから、ディステ
ィネーションレジスタＲｄへ、ビットの条件付コピーを
実行する。再配列命令が、制御レジスタに基づいて、任
意の配列を実行する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、マイクロプロセッ
サに関わり、特に、ベクトル化データを操作する技術に
関わる。

【０００２】

【従来の技術】現代のディジタルサービスを提供するに
は、さらにコンピュータ処理の増大が必要とされる。一
例として、インターネットは、画像表示、および、ビデ
オ・オーディオ・コンテンツの再生用に、多量のマルチ
メディアプリケーションを発生させた。これらのアプリ
ケーションにおいては、静止的グラフィック画像や、完
全動画ビデオの形式を持つ複雑なデータの操作が実行さ
れる。ディジタル化画像は、莫大な量のメモリ容量を消
費することが一般に認められている。例えば、一個の、
４８０ｘ６４０ピクセルで、ピクセル当り２４ビットの
フルカラー解像度（ピクセル当り３個の、８ビットバイ
ト）を持つ、比較的小容量の画像は、ほぼ１メガバイト
のデータを占拠する。１０２４ｘ７６８ピクセルの解像
度においては、２４ビット・カラー画像は、その表示に
２．３ＭＢのメモリを必要とする。８．５インチｘ１１
インチ（２１ｘ２８ｃｍ）のページの２４ビット色彩画
は、インチ当り３００ドットとすると、２ＭＢものメモ
リ容量を必要とする。ビデオ画像はさらにデータ集約的
である。なぜなら、高品質消費者用アプリケーション用
の場合、画像は、毎秒少なくとも３０フレームの割合で
出現しなければならないと一般に認められているからで
ある。現在、フレーム当り１９２０ｘ１０３５、また
は、それ以上ものピクセルを要求する高画質テレビ（Ｈ
ＤＴＶ）が提案されているが、これは、毎秒約１５０億
ビットのデータ転送率に相当する。その他、ビデオ電子
会議や、家庭娯楽装置のようなディジタル画像や、マル
チメディアプリケーションにおける進歩によって、さら
に広帯域で、従って、さらに高度の処理能力に対する高
度の要求が生じている。

【０００３】ディジタル画像やビデオ情報を圧縮するた
めの、従来の、無損失技術としては、ハフマン符号化
法、ラン・レングス符号化法、および、レンペル・ジフ
・ウェルチ・アルゴリズムのような方法がある。これら
の方法は、画像品質を維持することにおいては有利では
あるけれども、その他の点では、高出力効率システムに
対する要求を満たすには十分ではない。このため、通常
ある程度の情報損失を含む圧縮技術が工夫されてきてい
る。そのような技術として、離散コサイン変換（ＤＣ
Ｔ）法、適応ＤＣＴ法、および、ウェーブレット変換法
がある。

【０００４】ＪｏｉｎｔＰｈｏｔｏｇｒａｐｈｉｃ
ＥｘｐｅｒｔｓＧｒｏｕｐ（ＪＰＥＧ）は、ＪＰＥ
Ｇ標準という名で知られる、静止画像圧縮のための標準
を創製した。この標準は、離散コサイン変換（ＤＣＴ）
に基づくアルゴリズムを定義する。ＪＰＥＧアルゴリズ
ムを用いる符号化装置は、画像を、４ステップで処理す
る。すなわち、線形変換、量子化、ラン・レングス符号
化（ＲＬＥ）、および、ハフマン符号化である。デコー
ドは、上記のステップを逆に行い、元の画像を再構成す
る。線形変換ステップの場合、画像は、８ｘ８ピクセル
のブロックに分割され、次に、各ブロックの、空間にお
ける両次元に対してＤＣＴ操作を適用する。画像をブロ
ックに分割する目的は、ＤＣＴアルゴリズムの欠点、す
なわち、ＤＣＴは高度に非局部的であるという欠点を補
うためである。画像は、この非局部性を補うために、ブ
ロックに分割される。すなわち、アルゴリズムを小区域
に限定し、各ブロック毎に別々に変換を実行するためで
ある。しかしながら、このような妥協は、タイル状の外
観を生ずるという欠点を持つ。このタイル状の外観は、
粗い品質を持つことによって視覚的にもそれ自身明白で
ある。

【０００５】量子化ステップは、伝達される情報量を抑
えるために必須であるが、画像情報の損失はもたらさな
い。各変換成分は、各８ｘ８ブロック内におけるその位
置から選択されるある値をもって量子化される。このス
テップは、多量の僅少数値を特定するのにごく僅かな情
報しか要しない、ゼロまたは、その他の小数値に減少さ
せるという好ましい副次的効果を有する。

【０００６】ラン・レングス符号化ステップは、同じ
値、例えば、ゼロの実行数をコードして、ある一つの値
を繰り返す度数、および、繰り返す数値を特定するコー
ドを生ずる。例えば、「８個のゼロ」のような単一コー
ドの方が、一連の８個のゼロよりも表わすのに少ないス
ペースしか要求しない。このステップは、通常、量子化
ステップで生ずる大量のゼロの存在によって正当化され
る。

【０００７】ハフマンステップ（エントロピー符号化法
の一般的形式）は、ラン・レングス符号化ステップによ
って得られた各記号を、その記号の出現頻度に応じて選
ばれる、可変長ビット記号列に変換する。すなわち、高
頻度記号は、低頻度記号よりも、短いコードで符号化さ
れる。符号化は、あらかじめ設定された表、または、特
に、画像については、その必要な全ビット数を最小にす
るように構成された表に基づいて実行することが可能で
ある。

【０００８】ＪＰＥＧと同様に、ＭｏｔｉｏｎＰｉｃ
ｔｕｒｅｓＥｘｐｅｒｔｓＧｒｏｕｐ（ＭＰＥ
Ｇ）も、画像配列を符号化するための二つの標準を定め
た。この基準は、ＭＰＥＧＩおよびＭＰＥＧＩＩの
名で知られる。このＭＰＥＧアルゴリズムは、フレーム
間の比較的僅かな変動の共通出現を利用するものであ
る。ＭＰＥＧ標準においては、完全画像は、各１２フレ
ーム毎に１回だけ圧縮・転送される。この「参照フレー
ム」（インフラ・フレームを表わす所謂「Ｉ−フレー
ム」である）は、通常、ＪＰＥＧ圧縮法を用いて圧縮さ
れる。中間フレームに関しては、予側フレーム（Ｐ−フ
レーム）を計算し、現実フレームと各予測フレーム間の
差のみを圧縮・転送する。

【０００９】予測フレームを計算するには、いくつかあ
るアルゴリズムの内のいずれでも用いることができる。
アルゴリズムは、特定のブロックに対してどの予測アル
ゴリズムがもっとも良く適応するかに応じて、ブロック
毎に選ばれる。「移動推定」と呼ばれる方法は、時間的
冗長度を減少させるのに用いられる。時間的冗長度と
は、画像の大部分が、フレーム間で変化することのない
映画に観察される。カメラのパンのような、多くの場合
において、画像中の各ピクセルは、フレーム毎に変化し
ているが、ほとんど各画像が、前画像においても発見さ
れるものである。先行（および後続）フレームにおいて
ピクセルのコピーを「発見する」ステップを、移動推定
と呼ぶ。Ｈ．２６１やＭＰＥＧ１および２のようなビデ
オ圧縮標準により、画像符号化装置（画像圧縮エンジ
ン）は、画像内の１６ｘ１６ピクセル・ブロックの移動
を特定することによって冗長度を除去することが可能で
ある。圧縮される画像を、１６ｘ１６ピクセルのブロッ
クに分解する。画像の各ブロックにおいて、検索を実行
し、圧縮された配列の中の他の画像中に適合ブロックが
発見されないかどうか探る。適合を決めるには、通常、
二つの測定値が使用され入するのが容易である。一方、ＳＤＳの演算は、実行す
るのにさらに高度の精度が要求されるけれども、その結
果は、一般により優れた品質のものとして受け入れられ
ている。

【００１０】リアルタイムの、高品質ビデオ画像の圧縮
解除（復元）のためには、復元アルゴリズムは、毎秒３
０フレームの復元画像を生成することが可能なほど十分
に単純でなければならない。圧縮におけるスピード要求
は、多くの場合、復元におけるものほど極端ではない。
なぜなら、多くの場合、画像は、オフラインで圧縮され
るからである。しかしながら、そうは言っても、圧縮時
間は、市場で商業的に生き残っていけるほどにそこそこ
のものでなければならない。さらに、多くのアプリケー
ションは、復元ばかりでなく、リアルタイム圧縮を要求
する。例えば、ビデオ電子会議のようなライブ・イベン
トのリアルタイム転送がそれである。

【００１１】専用ディジタル信号プロセッサ（ＤＳＰ）
は、この種の操作を実行するのに一般的に使用される、
通例の実行機器である。集約数字の処理に最適化してい
るので、ＤＳＰは、しばしばサウンドカード、音声認識
カード、ビデオキャプチャ・カード等のようなマルチメ
ディア機器の内部に組み込まれる。ＤＳＰは、もう一方
の汎用マイクロプロセッサよりも、データ圧縮プログラ
ムの要求する複雑かつ繰り返しの多い数式計算や、特異
的なマルチメディア型アルゴリズムを、より効率的に実
行するコプロセッサとして機能する。

【００１２】しかしながら、パーソナルコンピュータの
価格・性能比を改善しようという飽くなき探求は、従来
ＤＳＰによって与えられた処理能力の多くを効果的に乗
算する、汎用マイクロプロセッサ世代を生み出した。一
つの開発方向は、縮小命令セットコンピュータ（ＲＩＳ
Ｃ）である。ＲＩＳＣプロセッサは、命令が比較的少な
く、そのためデコードが簡単であること、および、全て
の代数・論理演算を、レジスタ対レジスタ方式で実行す
ることを要求すること、が特徴である。もう一つの特徴
は、複雑なメモリアクセス操作がないことである。メモ
リアクセスは全てレジスタロード・格納操作であって、
比較的小数の、比較的単純なアドレスモードしかない。
すなわち、オペランドアドレスを特定するのに数通りの
やり方しかない。命令は、ただ一つの長さしか持たず、
メモリアクセスは、標準データ幅しか持たない。命令実
行は、マイクロコード化と比べると、直接的回路構成型
である。命令サイクル時間は固定されており、かつ、命
令は比較的単純なものとなるように定義されているの
で、それらは全て１乃至数サイクルで実行される。通
常、多数命令は、パイプライン処理の結果として、ある
１時点においては、実行の様々なステップにある。

【００１３】

【発明が解決しようとする課題】ＭＰＥＧ、ＪＰＥＧ、
Ｈ．３２０等を、データ圧縮標準としてさらに競合的に
するために、既存のＲＩＳＣアーキテクチャプロセッサ
や、既存の命令セットを強化する試みがなされて来てい
る。従来からＤＳＰ技術を用いて具現化されている、他
の現代のディジタルサービス、例えば、広帯域ネットワ
ーク、セットトップ・ボックスＣＰＵ、ケーブルシステ
ム、音声交信ＩＰ装置、無線製品等も、単一の汎用プロ
セッサにおいて処理能力が増加するならば、その恩恵を
被ることになろう。さらに一般的に、従来からＤＳＰ技
術を用いて具現化されていたディジタルフィルタ・アプ
リケーションは、ＤＳＰ性能を持つ汎用プロセッサがさ
らに処理能力を向上させることになれば、そのお蔭を被
ることになろう。

【００１４】多くのＲＩＳＣプロセッサにおいて、その
命令セット・アーキテクチャ（ＩＳＡ）は、単一命令多
数データ（ＳＩＭＤ）型命令を含む。これらの命令によ
って、あるベクトルデータの多数要素であって、別のベ
クトルの対応要素を含む、そのようなベクトルデータの
多数要素に対して平行演算を実行することが可能にな
る。この型のベクトル演算は、画像処理のような多くの
ディジタルアプリケーションに共通のものである。もう
一つの重要な領域として、データ暗号化系、および、解
読系の分野がある。情報のコード化は、インターネット
上における、安全な取引を確保するために、また、無線
通信装置のために、重要である。

【００１５】従って、ＲＩＳＣアーキテクチャの性能を
さらに高めることが好ましい。ＲＩＳＣプロセッサ・コ
アの性能を改善し、それによって、さらに強力なマルチ
メディアプリケーションや、次世代一般製品の求める計
算能力需要を満たすことが好ましい。必要なのは、ベク
トル化処理命令のためのＩＳＡの強化である。さらに、
ベクトル化データ処理の領域において、ＲＩＳＣ準拠プ
ロセッサに対する改善されたマイクロアーキテクチャを
供給することが好ましい。

【００１６】

【課題を解決するための手段】第1の汎用レジスタから
第２の汎用レジスタにビットを転送するための方法は、
第３の汎用レジスタの内容の上に転送の基礎を置くこと
を含む。第１の汎用レジスタ内の各ビットは、もし第３
の汎用レジスタ内で対応する位置に置かれたビットが第
１の論理状態にある場合、第２の汎用レジスタ内の同じ
ビット位置にコピーされる。

【００１７】また、マシンレベルの単一命令を受け取る
ステップと、この単一命令をデコードするステップとか
らなり、前記デコードステップに応じて、（ｉ）第１の
汎用レジスタを読み出して、第１のデータを生成するス
テップ、（ii）第２の汎用レジスタを読み出して、第２
のデータを生成するステップ、および（iii）前記第２
のデータに基づいて前記第１のデータからデータフィー
ルドを読み出し、かつ、前記第２のデータに基づいてそ
れらのデータフィールドの順序を配置ないし配列するこ
とによって、第３のデータを生成するステップ、を含む
データの配列換え方法が開示されている。

【００１８】本発明の上記、並びに、その他の利点は、
図に示す、また、下記に論ずる各種実施の態様の説明を
参照することによってさらに十分な理解が可能である。

【００１９】

【発明の実施の形態】ＲＩＳＣアーキテクチャにおいて
は、その操作がレジスタ対レジスタ方式であることが特
徴である。データ・ソースはレジスタであり、データ・
ディスティネーションはレジスタである。従って、レジ
スタファイルは、通常、中央計算装置によって実行され
る各種整数演算用の汎用レジスタのプールとして設けら
れる。本発明によれば、レジスタファイルを含む汎用レ
ジスタが、下記に開示・説明される各種ベクトル化演算
のための、データ・ソースとデータ・ディスティネーシ
ョンとなる。この事実を強調するために、図１に、Ｎ個
の汎用レジスタＲ₀−Ｒ_n-1から成るレジスタファイル１
０２を示す。各レジスタは、長さが６０ビットである。

【００２０】本発明の一局面は、ベクトル化データの乗
算演算関連領域における改善を含む。図１は、本発明に
よる、乗算装置１００の模式図を示す。本来複雑な回路
の図示を簡単化するために、乗算装置の主要機能ブロッ
クのみを強調して示してある。関連技術に通常の技能を
持つ当業者であれば、もし本発明の議論に密接に関係す
るならば、各種制御信号や、その他の支援論理も含まれ
ることが了解されるであろう。

【００２１】乗算装置１００は、３段パイプライン処理
装置である。各段は、他の段と、パイプライン・ラッチ
Ｐ１、Ｐ２およびＰ３によって分離されている。通常、
パイプライン・ラッチは、一連のフリップフロップを含
む。パイプライン・ラッチは、前段からのデータを、ク
ロックサイクルの間、一時的に保持する。これは、ある
段から次段へのデータの流れを同期化するのに役立つ。
さらに、パイプライン・ラッチは、各段間のデータを隔
離（アイソレート）するのにも役立つ。これは重要であ
る。なぜなら、パイプライン処理の利点は、各種命令
が、パイプラインの各段で実行可能であるということだ
からである。

【００２２】乗算装置１００は、オペランドＡ、Ｂおよ
びＣを介して入力および出力データを供給する。各オペ
ランドは、６４ビット・バスである。各６４ビット・バ
スは、論理（図示せず）を介して、レジスタファイル１
０２の汎用レジスタの内の一つに結合する。これによっ
て、乗算装置とレジスタファイルとの間にデータ通信が
確立する。通常、通信は、プロセッサ操作の命令デコー
ド相に行われる。

【００２３】図１に見られるように、オペランドＡ、Ｂ
およびＣの６４ビット・バスは、パイプライン・ラッチ
Ｐ１を介して１段目に供給される。クロック信号を受け
取ると、Ａ、ＢおよびＣは同相にクロックされ、ソース
ラインｓｒｃ１，ｓｒｃ２およびｓｒｃ３となる。ただ
し、各ソース「ライン」は、６４ビットラインを含む。
ソースラインｓｒｃ１とｓｒｃ２は、セレクタ回路１１
０、典型的にはマルチプレクサ回路に供給される。ソー
スラインｓｒｃ３は、１段目を通過して、パイプライン
・ラッチＰ２に達し、それから、２段目に入る。セレク
タ回路１１０は、各ソースラインｓｒｃ１とｓｒｃ２と
をまとめて、４グループのワードラインに入力する。従
って、ソースラインｓｒｃ１の６４ビットラインは、通
常、ｓｒｃ１［６３：０］、ビット位置６３−０として
表わされる。セレクタ回路１１０は、ｓｒｃ１を下記の
ようにグループ分けする、すなわち、ｓｒｃ１［６３：
４８］，ｓｒｃ１［４７：３２］，ｓｒｃ１［３
１：１６］、および、ｓｒｃ１［１５：０］である。

【００２４】同様に、ｓｒｃ２の６４ビットラインは、
下記のようにグループ分けされる、すなわち、ｓｒｃ２
［６３：４８］，ｓｒｃ２［４７：３２］，ｓｒｃ
２［３１：１６］、および、ｓｒｃ２［１５：０］であ
る。

【００２５】本出願の目的のために、「小エンディアン
（末尾）」ビット、バイト（８ビット）、および、ワー
ド（１６ビット）の順序が用いられる。この慣用法によ
れば、高次の要素であればあるほど、大きい数のビット
位置に格納される。また別の慣用法として、「大エンデ
ィアン（末尾）」法があるが、この場合、高次の要素で
あればあるほど、小さな数のビット位置に格納される。

【００２６】図１の説明を続けると、セレクタ回路１１
０は、４対の出力ライン、ｘ₃／ｙ₃，ｘ₂／ｙ₂，ｘ₁／
ｙ₁、および、ｘ₀／ｙ₀を与える。各出力ラインは、１
６ビットラインを含む。セレクタ回路１１０は、ｓｒｃ
１およびｓｒｃ２から得られた８個の１６ビットグルー
プを、８個のワードラインｘ_n，ｙ_nにマップするように
設計されている。セレクタ回路１１０は、下記の配列を
与える。一つは、１６ビット乗算用であり、もう一つは
３２ビット乗算用である。これらの配列の重要性は、命
令の説明時に明らかになる。１６ビット配列３２ビット配列Ｉ３２ビット配列ＩＩ src1[62:48]⇒ x₃ src1[31:16]⇒ x₃ src1[63:48]⇒ x₃ src1[47:32]⇒ x₂ src1[31:16]⇒ x₂ src1[63:48]⇒ x₂ src1[31:16]⇒ x₁ src1[15:0]⇒ x₁ src1[47:32]⇒ x₁ src1[15:0]⇒ x₀ src1[15:0]⇒ x₀ src1[47:32]⇒ x₀ src2[63:48]⇒ y₃ src2[31:16]⇒ y₃ src2[63:48]⇒ y₃ src2[47:32]⇒ y₂ src2[15:0]⇒ y₂ src2[47:32]⇒ y₂ src2[31:16]⇒ y₁ src2[31:16]⇒ y₁ src2[63:48]⇒ y₁ src2[15:0] ⇒ y₀ src2[15:0]⇒ y₀ src2[47:32]⇒ y₀ ８個のワードラインｘ_n，ｙ_nは、４個の１６ｘ１６乗算
回路１２０−１２６に入力する。ワードラインｘ₀／ｙ₀
は回路１２０に入力し、ワードラインｘ₁／ｙ₁は回路１
２２に入力する、等のようになっている。各乗算回路１
２０−１２６は、それぞれ、オーバーフロー検出論理１
３０−１３６を含む。乗算回路は、４本の３３ビット合
計ラインｓ₃−ｓ₀と、４本の対応する３３ビット桁上ラ
インｃ₃−ｃ₀を生成する。この合計・桁上ラインにおけ
る余分ビットは、乗算回路１２０−１２６において生成
された符号ビットである。合計・桁上ラインは、パイプ
ライン・ラッチＰ２に入力する。パイプライン・ラッチ
Ｐ２は、乗算装置１００の１段目を、次段、すなわち、
２段から分離する。

【００２７】２段目において、４対の合計・桁上ライン
ｓ₃／ｃ₃，ｓ₂／ｃ₂，ｓ₁／ｃ₁，ｓ ₀／ｃ₀は各々、１６
ビット変換回路１５２、３２ビット変換回路１５４、お
よび、６４ビット変換回路１５６に結合されている。こ
れらの変換回路は、それぞれ、入力の３３ビット合計・
桁上対を再編成し、それを、６４ビット合計・桁上出力
対にまとめる。変換回路に応じて、その後の処理が実行
される。この変換の重要性については、命令セットの説
明のところで明らかにされる。

【００２８】変換回路１５２は、１６ビット整数乗算、
固定小数点乗算に使用される。その出力１５３は、６４
ビット合計ラインおよびそれと対応する６４ビット桁上
ラインを含む。回路１５２は、３３ビット合計・桁上入
力を、６４ビット合計・桁上出力対１５３に変換するた
めに２個の変換方式を提供する。整数乗算では、４個の
入力３３ビット合計・桁上対において、最下位の１６ビ
ットのみが、その６４ビット合計・桁上出力対１５３、
すなわち、０−１５ビットにパックされる。固定小数点
の場合、４個の３３ビット合計・桁上対の上部のみが出
力１５３にパックされる。特に、ビット部分１５−３０
が転送される。

【００２９】整数変換は：ｓ３［１５：０］ ⇒合計出力のビット位置［６３：４８］ｃ３［１５：０］ ⇒桁上出力のビット位置［６３：４８］ｓ２［１５：０］ ⇒合計出力のビット位置［４７：３２］ｃ２［１５：０］ ⇒桁上出力のビット位置［４７：３２］ｓ１［１５：０］ ⇒合計出力のビット位置［３１：１６］ｃ１［１５：０］ ⇒桁上出力のビット位置［３１：１６］ｓ０［１５：０］ ⇒合計出力のビット位置［１５：０］ｃ０［１５：０］ ⇒桁上出力のビット位置［１５：０］固定小数点変換：ｓ３［３０：１５］ ⇒合計出力のビット位置［６３：４８］ｃ３［３０：１５］ ⇒桁上出力のビット位置［６３：４８］ｓ２［３０：１５］ ⇒合計出力のビット位置［４７：３２］ｃ２［３０：１５］ ⇒桁上出力のビット位置［４７：３２］ｓ１［３０：１５］ ⇒合計出力のビット位置［３１：１６］ｃ１［３０：１５］ ⇒桁上出力のビット位置［３１：１６］ｓ０［３０：１５］ ⇒合計出力のビット位置［１５：０］ｃ０［３０：１５］ ⇒桁上出力のビット位置［１５：０］好ましくは、変換回路１５２は、一組のビットレベル・
ミキサないしマルチプレクサを含む。もっとも別の構成
も可能である。

【００３０】変換回路１５４は、全幅１６ビット乗算に
使用される。その出力１５５は、６４ビットの合計ライ
ンと６４ビットの桁上ラインを含む。回路１５４は、３
３ビット合計・桁上入力の下位の２対、または、３３ビ
ット合計・桁上入力の上位の２対の内のいずれかを、６
４ビット合計・桁上出力対に変換する。

【００３１】従って、ｓ３［３１：０］ ⇒合計出力のビット位置［６３：３２］ｃ３［３１：０］ ⇒桁上出力のビット位置［６３：３２］ｓ２［３１：０］ ⇒合計出力のビット位置［３１：０］ｃ２［３１：０］ ⇒桁上出力のビット位置［３１：０］または、ｓ１［３１：０］ ⇒合計出力のビット位置［６３：３２］ｃ１［３１：０］ ⇒桁上出力のビット位置［６３：３２］ｓ０［３１：０］ ⇒合計出力のビット位置［３１：０］ｃ０［３１：０］ ⇒桁上出力のビット位置［３１：０］好ましくは、変換回路１５４は、合計・桁上入力ライン
の上位または下位対を選択し、それらを結合して６４ビ
ット出力１５５を形成する、一組のマルチプレクサより
なる。この回路の使用法は、命令セットに関連する説明
で明らかになる。合計・桁上入力ラインは、各々、３３
ビットであることが見てとれる。最上位ビット（ビット
位置３２）は、２段目における外部の符号ビットである
が、これは、変換操作の間に取り除かれる。ＭＡＣＦ
Ｘ．ＷＬおよびＭＡＣＮＦＸ．ＷＬ命令の場合、ｓ０／
ｃ０およびｓ１／ｃ１のビット［３０：０］が転送さ
れ、合計・桁上出力のビット［０］には「０」がロード
される。

【００３２】変換回路１５６は、全幅３２ビット乗算に
使用される。その出力は、４対の合計・桁上ライン、ｓ
ｘ₃／ｃｘ₃，ｓｘ₂／ｃｘ₂，ｓｘ₁／ｃｘ₁，ｓｘ₀／ｃ
ｘ₀を含み、各「ライン」は、６４ビットライン幅であ
る。回路１５６は、入力する各合計・桁上対ｓ₃／ｃ₃，
ｓ₂／ｃ₂，ｓ₁／ｃ₁，ｓ₀／ｃ₀を、それぞれ、出力６４
ビット合計・桁上対ｓｘ₃／ｃｘ₃，ｓｘ₂／ｃｘ₂，ｓｘ
₁／ｃｘ₁，ｓｘ₀／ｃｘ₀にマップする。しかしながら、
入力合計・桁上対は、出力合計・桁上対とは異なるビッ
ト位置を占める。マッピングは、下記の要領で行われ
る。このマッピングの重要性は、命令セットの説明の際
に明らかになる。ｓ₃[31:0],c₃[31:0]⇒sx₃[63:48],cx₃[63:48] s₂[31:0],c₂[31:0]⇒ sx₂[47:16],cx₂[47:16] s₁[31:0],c₁[31:0]⇒sx₁[47:16],cx₁[47:16] s₀[31:0],c₀[31:0]⇒sx₀[31:0],cx₀[31:0] 好ましくは、回路１５６は、合計・桁上入力ラインを、
出力ラインの適当なビット位置に簡単に振り向ける一組
の配線を含んでいる。前述の回路１５４の場合と同様、
各入力ラインの最上位符号ビットは単純に無視される。
なぜなら、それは、乗算装置１００の２段目、および、
３段目における外部ビットだからである。

【００３３】２段目は、セレクタ回路１１４を含む。回
路１５２の出力１５３は、セレクタ回路１１４の「ａ」
入力に入力する。同様に、回路１５４の出力１５５は、
セレクタ回路１１４の「ｂ」入力に結合する。このセレ
クタ回路は、「ａ」入力か、「ｂ」入力のいずれかに出
力し、出力ライン１１５に至る。出力１１５は、もう一
つのセレクタ回路１１６の「ａ」入力に入力する。

【００３４】回路１５６の８個の出力、ｓｘ_n／ｃｘ
_nは、８：２圧縮回路１４０に入力する。この圧縮回路
は、１対の６４ビット合計・桁上出力１４１を生成す
る。この出力は、セレクタ回路１１６の「ｂ」入力に入
力する。セレクタ回路は、「ａ」入力か、「ｂ」入力の
いずれかを選択し、その選択したラインを、３：２圧縮
回路１６０の入力に提供する。

【００３５】直ちに分かるように、別法として、出力１
５３と１５５は、セレクタ回路１１６に直接結合しても
よい。しかしながら、図１の構成の方が好ましい。なぜ
なら、セレクタ１１４の存在によって、このデータフロ
ーのタイミングと、圧縮器１４０を通過するデータフロ
ーのタイミングを同期させられるからである。有効に作
用すると、セレクタ１１４と１１６は協力して単一の
３：１セレクタとして作動し、三つのデータ変換経路の
内の一つからデータを選択する。

【００３６】さらにもう一つのセレクタ１１２は、その
「ａ」入力に入力ラインｓｒｃ３を受け入れる。その
「ｂ」入力は、定数値"０．５"に結合する。その「ｃ」
入力は、定数値"０"に結合する。セレクタ１１２の選択
された入力は、圧縮回路１６１の第３の入力に結合す
る。圧縮回路１６０は、３個の入力を結合し、２個の６
４ビット出力１６１を生成する。これらの出力は、パイ
プライン・ラッチＰ３に結合され、２段目から３段目を
分離する。

【００３７】３段目においては、パイプライン・ラッチ
Ｐ３の出力１６３は、２段目からの合計・桁上ラインを
含む。この合計・桁上ラインは、桁上・伝送加算回路１
７０に入力する。加算回路１７０の出力は、６４ビット
である。上半分、ビット［６３：３２］は、セレクタ回
路１１８の「ａ」入力に入力する。下半分、ビット［３
１：０］は、セレクタ回路１１９の「ｂ」入力に入力す
る。飽和数値ジェネレータ１８２は、セレクタ１１８と
１１９の「ａ」入力に入力を与える。

【００３８】パイプライン・ラッチＰ３の出力１６３は
さらに、オーバーフロー検出論理回路１８０，１８６に
入力する。出力１６３の低位ビット［３１：０］は、検
出論理１８０に入力する。高位ビット［６３：３２］
は、検出論理回路１８６に入力する。各回路１８０，１
８６の出力は、それぞれ、セレクタ回路１１８，１１９
のセレクタ入力に入力する。

【００３９】検出論理回路１８０，１８６は、その入力
に基づいて、加算回路１７０で実行される加算操作にお
いてオーバーフローが現れるかどうかを予測する。図２
は、回路１８０のさらなる詳細を示す。各合計・桁上入
力１８１の低位ビット、すなわち、ビット［３１：０］
は、桁上発生回路２０２に入力する。この回路は、単純
に加算回路の桁上生成論理である。回路２０２の出力
は、３２ビット桁上数である。上位の２個のビットｃ
［３１］とｃ［３０］は、ＸＯＲゲート２０６によって
ＸＯＲ処理される。ゲート２０６の出力は、制御信号Ｍ
ＡＣとの間でＡＮＤ処理される。このＭＡＣ制御信号
は、ＭＭＡＣＦＸ．ＷＬまたはＭＡＣＮＦＸ．ＷＬのい
ずれかが実行のためにデコードされた場合肯定される。
それ以外の場合は、ＭＡＣ制御信号は、肯定ないし表明
されない。回路１８０は、オーバーフローが起こると予
測される場合、出力１８３を肯定ないし表明する。検出
論理１８６も同様に構成され、同様に動作する。出力１
８７は、合計・桁上ライン１６３の上位３２ビットに基
づいてオーバーフローが起ころうとする時に肯定ないし
表明される。

【００４０】図１に戻ると、もしもオーバーフロー条件
が、論理回路１８０によって予測されたとすると、セレ
クタ回路１１８は、「ａ」入力を、出力１８８に生成す
る。それ以外は、セレクタ回路１１８は、その出力に、
「ｂ」入力を生成する。すぐにわかるように、出力１８
８は、出力１９０の上位３２ビットを含み、出力１９０
は、乗算装置１００の出力を含む。同様に、論理回路１
８６によってオーバーフロー条件が予測されると、セレ
クタ回路１１９は、「ａ」入力を、出力１８９に生成す
る。それ以外は、セレクタ回路１１９は、「ｂ」入力
を、出力に生成する。出力１８９は、出力１９０の下位
３２ビットを含む。

【００４１】ここで図３を参照すると、乗算回路１２０
−１２６のさらなる詳細が、乗算器１２０を実例として
示されている。回路１２２−１２６も同様の構成を持つ
ものであることを了解されたい。回路１２０は、ウォー
レス加算ツリー３１０を含み、１６ｘ１６ビット乗算を
実行する。セレクタ回路１１０からの１６ビット入力ラ
インｘ₀とｙ₀は、このウォーレス加算ツリーによって結
合される。その出力は、３３ビット桁上ライン３０４と
３３ビット合計ライン３０２である。合計・桁上ライン
における３３番目のビットは、符号ビットである。合計
・桁上ラインは、セレクタ回路３３０の「ｂ」入力に結
合される。通常、セレクタ回路３３０は、乗算回路１２
０のｃ₀およびｓ₀出力として、「ｂ」入力を選択する。

【００４２】本発明においては、各乗算回路１２０−１
２６は、オーバーフロー検出論理１３０を含む。ウォー
レス・ツリー３１０に結合する、１６ビット入力ライン
ｘ₀およびｙ₀は、検出論理１３０にも結合する。この検
出論理は、セレクタ回路３３０の「ａ」入力に結合する
出力を持つ。飽和数値ジェネレータ３００も、セレクタ
回路３３０の「ａ」入力に結合する出力を持つ。検出論
理は、ｘ₀およびｙ₀に基づき、オーバーフローが、１６
ビット固定小数点乗算に現れるかどうかを予測する。も
しもオーバーフロー条件が予測されると、セレクタ回路
３３０は、乗算回路１２０のｃ₀およびｓ₀出力として、
「ａ」入力を選択する。本発明においては、１段目の検
出論理は、ｘ₀とｙ₀の両方が−１かどうかを予測する。
これが、固定小数点乗算の場合のオーバーフロー条件と
なる。なぜなら、固定小数点表示法における正の最大値
は、１６ビット・データの場合、１−２^-15であり、３
２ビット・データの場合、１−２^-32だからである。

【００４３】図４を参照すると、３段目の加算回路１７
０は、４個の加算段を含む。入力する６４ビット合計・
桁上ライン１６３は、４組の１６ビットラインにまとめ
られる。各加算段は、全加算回路４００−４０３を含
む。低位１６ビット合計・桁上ライングループ、ｓ［１
５：０］，ｃ［１５：０］は、全加算器４００の入力に
結合し、次の１６ビット合計・桁上ライングループ、ｓ
［３１：１６］，ｃ［３１：１６］は、全加算器４０１
の入力に結合し、合計・桁上ライングループ、ｓ［４
７：３２］，ｃ［４７：３２］は、全加算器４０２の入
力に結合し、高位１６ビット合計・桁上ライングループ
は全加算器４０３に結合する。

【００４４】全加算器は、共に、セレクタ回路４２０−
４２４を介して結合し、選択性リップル桁上構成を形成
する。加算器４００の桁上出力は、セレクタ回路４２０
の「ａ」入力に結合する。セレクタ回路４２０の出力
は、加算器４０１の桁上入力に結合する。一方、加算器
４０１の桁上出力は、セレクタ回路４２２の「ａ」入力
に入力し、その出力は、加算器４０２の桁上入力に結合
する。加算器４０２の桁上出力は、セレクタ回路４２４
の「ａ」入力に結合する。セレクタ回路４２４の出力
は、加算器４０３の桁上入力に供給される。セレクタ回
路４２０−４２４の「ｂ」入力は、定数値「０」に結合
する。加算器４００の桁上入力も定数値「０」に結合す
る。加算器回路の１６ビット出力は結合されて、加算器
１７０の６４ビット出力を生成する。前述したように、
加算器１７０の出力は、セレクタ回路１１８と１１９に
入力する。

【００４５】本発明のもう一つの実施の態様において
は、図１における、１段目の乗算回路１２０−１２６
は、また別の構成を持つ。図５は、回路１２０−１２６
の代替として示した、別の乗算回路１２０'−１２６'か
らなる例である。図５に示した構成は、下記に述べるあ
る種の命令を実行ないし具現化するのに使用される。

【００４６】乗算器１２０'のさらに詳細を見ると、修
正型１６ｘ１６ウォーレス・ツリー加算器５３０が示さ
れる。セレクタ回路１１０の出力ラインｘ₀が、ウォー
レス・ツリー加算器の一方の入力となる。ウォーレス・
ツリー加算器に対するもう一方の入力は、セレクタ回路
５２０から来る。セレクタ回路５２０の「ａ」入力は、
セレクタ回路１１０の出力ラインｙ₀と結合する。出力
ラインｙ₀は反転され、１の相補的出力を生成し、これ
は、セレクタ回路５２０の「ｂ」入力に結合する。反転
論理５１０は、１６個の反転器で形成することも可能で
ある。セレクタ回路５２０と修正型ウォーレス・ツリー
は、制御信号ＣＴＬ１を受け取る。

【００４７】制御信号ＣＴＬ１は、ＭＭＡＣＮＦＸ．Ｗ
Ｌ命令のデコードに応答して生成される。ＣＴＬ１が肯
定ないし表明されると、セレクタ回路５２０は「ｂ」入
力を生成し、これが、ｙ₀の１の相補値を、修正型ウォ
ーレス・ツリーに入力する。さらに、このウォーレス・
ツリーは、ＣＴＬ１が肯定された場合、定数「１」が、
その入力の積に加算されるように修正されている。その
結果、これは、ｙ₀を反転し、次に、「１」を加えるの
と同じになる。この演算は、ｙ₀に対して、２の相補値
を生成する。従って、ＣＴＬ１を肯定ないし表明するこ
とは、ｘ₀掛ける−ｙ₀の乗算となる。

【００４８】図３に示した構成の場合のように、ウォー
レス・ツリー入力はさらにオーバーフロー検出論理１３
０にも入力する。図３で述べたように、飽和値ジェネレ
ータ３００は、セレクタ回路３３０の「ａ」入力に結合
する出力を生成する。検出論理１３０が、オーバーフロ
ーが起こると判断すると、セレクタ回路３３０は、その
「ａ」入力から飽和値を生成する。

【００４９】ここで、図６を参照して、本発明のさらに
もう一つの実施の態様を説明する。図６に示してあるも
のは、乗算装置１００の１段目に設けられたさらに別の
論理である。乗算回路１２０−１２６に加えて、減算装
置６０１−６０８がある。減算装置６０１に対して、さ
らに詳細が示されている。減算装置６０１は、２個の８
ビット入力ｘ₀とｙ₀を受け取る。このｘ₀入力は全加算
器６２１と、８個の反転器から成る反転器バンク６１１
に入力する。反転器バンク６１１の出力は、第２の全加
算器６４１に入力する。ｙ₀入力は、全加算器６４１の
第２入力に結合し、さらに、８個の反転器６３１から成
るもう一つのバンクに結合する。反転器６３１の出力
は、全加算器６２１の第２の入力に結合する。両全加算
器の桁上入力は結合され、定数"１"となる。全加算器６
２１の出力は、セレクタ回路６５１の「ａ」入力に結合
し、一方、同セレクタ回路の「ｂ」入力は、全加算器６
４１の出力を受け取る。

【００５０】全加算器６２１について言うと、ｙ₀を反
転し、桁上入力に"１"を供給することによる結合効果
は、ｙ₀に対する２の相補値の生成であり、−ｙ₀を生成
することになる。従って、全加算器６２１は、量（ｘ₀
−ｙ₀）を計算する。同様に、全加算器６４１に関して
は、ｘ₀を反転し、桁上入力に"１"を供給することによ
る結合効果は、ｘ₀に対する２の相補値の生成となる。
従って、全加算器６２１は、量（−ｘ₀＋ｙ₀）を計算す
る。セレクタ回路の選択入力は、全加算器の桁上出力の
一つに結合し、もう一方の桁上出力は無視される。全加
算器の一つの適当な桁上出力を、セレクタ回路６５１の
セレクタに接続することによる効果として、減算装置６
０１の出力に、（ｘ₀−ｙ₀）の絶対値が得られる。

【００５１】図６は、８個の減算装置６０１−６０８を
示す。各装置は、８ビットグループから成る、セレクタ
回路１１０の出力ｘ₃／ｙ₃，ｘ₂／ｙ₂，ｘ₁／ｙ₁，ｘ₀
／ｙ₀に演算を施す。例えば、減算装置６０１は、８ビ
ット組のｘ₀［７：０］とｙ₀［７：０］に演算を施す。
減算装置６０２は、８ビット組のｘ₀［１５：８］とｙ₀
［１５：８］に演算を施し、以下、これに準ずる。

【００５２】セレクタ回路６６０は、乗算回路１２０−
１２６の合計・桁上出力を受け取る。さらに、セレクタ
回路６６０は、減算装置の出力を受け取る。従って、セ
レクタ回路６６０の出力は、パイプライン・ラッチＰ２
にたいし、８個の合計・桁上ラインｓ₃／ｃ₃，ｓ₂／
ｃ₂，ｓ₁／ｃ₁，ｓ₀／ｃ₀、または、減算回路６０１−
６０８の８個の出力のいずれかを提示する。減算装置の
出力は８ビット結果であることに注意すべきである。一
方、合計・桁上ラインは、それぞれ３３ビットである。
従って、減算装置の８ビット結果は、パイプライン・ラ
ッチＰ２にラッチする前に、ゼロ延長し、３３ビットに
適合させる。

【００５３】本発明のもう一つの局面は、ベクトル化デ
ータの各種変換演算に関連する命令領域の改善にある。
本発明に基づいて設けられるシャッフル論理７００を、
図７に示す回路で模式的に例示する。１対の汎用レジス
タが、レジスタ・ファイル１０２のアクセスを受け、６
４ビットｓｒｃ１とｓｒｃ２入力ラインに入力する。こ
の入力ラインは、ビットシフト回路ないしシフタ７０２
に結合する。後述するように、ビットシフタ７０２は、
ｓｒｃ１のビットレベルシフトを実行する。さらに、ビ
ットシフタ７０２は、左・右シフトと、１から７ビット
位置のシフトを、上記の方向のいずれかに向けて実行す
る。ビットシフタ７０２は、左または右シフトを選ぶた
めの左・右制御入力７５２を含む。もう一つの制御入力
７５４は、シフト量を特定する３ビットシフト入力であ
る。このシフト量は、シフト入力７５４に入力するｓｒ
ｃ２に含まれる。

【００５４】ビットシフタ７０２の、２個の６４ビット
出力は、右または左の、０−７ビット位置のいずれかに
シフトした後のｓｒｃ１とｓｒｃ２を表す。この出力
は、マトリックス７０４に結合する。ｓｒｃ２から得ら
れた制御入力７５６が、マトリックス７０４に入力す
る。マトリックス７０４は、１２８（２ｘ６４）個の入
力ビットラインの内から任意の６４個を選び、それらを
任意の順序で、その６４個の出力ビットラインに供給す
る。この６４本の出力ビットラインは各々セレクタ回路
７４０の「ａ」入力に入力する。

【００５５】ソース・ラインｓｒｃ１の内の何本かは、
符号ジェネレータ７０８に入力する。符号ジェネレータ
の、６４本の出力ビットラインは、それぞれ、セレクタ
回路７４０の「ｂ」入力に入力する。マスクジェネレー
タ７１０は、ｓｒｃ２におけるシフト量を受け取る。こ
のマスクジェネレータは、セレクタ回路７４０を操作す
る出力を供給する。符号ジェネレータ７０８とマスクジ
ェネレータ７１０の意味については、命令セットと関連
して後述する。

【００５６】セレクタ回路７４０の出力は、ラッチ７１
２にラッチされる。このラッチ７１２はさらにビットシ
フタ７０２の出力も受け取る。このラッチは、ビットシ
フタ７０２と、マトリックス７０４とから転送されるデ
ータの到着を同期化するのに役立つ。セレクタ回路７４
０の出力は、セレクタ回路７２４の「ａ」入力と、オー
バーフロー検出回路７２０の入力に結合する。ビットシ
フタ７０２の出力はさらに、オーバーフロー検出回路７
２０にも入力する。飽和値発生回路７２２は、入力を検
出回路７２０に供給し、セレクタ回路７２４の「ｂ」入
力に入力する。セレクタ回路７２４は、検出回路７２０
の出力に応じて、「ａ」入力か、「ｂ」入力かのいずれ
かを生成する。

【００５７】ここで図８を参照すると、本発明による変
換操作用の、さらに別の論理８００が示されているが、
これは、汎用レジスタファイル１０２から３個のソース
ｓｒｃ１、ｓｒｃ２およびｓｒｃ３をラッチするラッチ
８７０を含む。各ｓｒｃ１とｓｒｃ２の６４ビットライ
ンはそれぞれ、セレクタ回路８０１−８６３の、単一ビ
ット「ａ」および「ｂ」入力に入力する。セレクタ回路
８６３は、このような２：１選択回路における、典型的
な設計例である。このセレクタ回路のセレクタ制御は、
ａｒｃ２の６４ビットラインによって供給される。この
セレクタ回路出力は結合して、６４ビット出力８８０を
生成する。

【００５８】本発明の回路を説明したところで、今度
は、前述の回路の動作を、命令セットとの関連で記述す
ることとする。命令によってサポートされる各種データ
フォーマットを表わすのに、下記の、通例の表記法を用
いることとする。ソース・レジスタはＲｍとＲｎで表わ
し、ディスティネーション・レジスタは、Ｒｄで表わ
す。データサイズは６４ビットで、データ順序法は、下
位のデータを、低い数字位置に置くこととする。

【００５９】ビットレベル操作Ｒｘ：Ｒｘ₆₃，Ｒｘ₆₂，．．．Ｒ_x1，Ｒ_x0，ｘ＝１，
２，３バイトレベル（８ビット）操作Ｒｘ：Ｒｘ_b7，Ｒｘ_b6，Ｒｘ_b5，Ｒｘ_b4，Ｒｘ_b3，Ｒｘ
_b2，Ｒｘ_b1，Ｒｘ_b0，ｘ＝１，２，３ワードレベル（１６ビット）操作Ｒｘ：Ｒｘ_w3，Ｒｘ_w2，Ｒｘ_w1，Ｒｘ_w0，ｘ＝１,２,３長ワード（３２ビット）操作Ｒｘ：Ｒｘ_L1，Ｒｘ_L0，ｘ＝１，２，３各命令は、下記のアッセンブリーレベル命令フォーマッ
ト、すなわち、ＯＰ−ＣＯＤＥ（６ビット）：Ｒｍ（６ビット）：ＯＰ
−ＥＸＴ（４ビット）：Ｒｎ（６ビット）：Ｒｄ（６ビ
ット）を有している。ＯＰ−ＥＸＴフィールドは、機能は同じ
であるが、数値の異なる命令、例えば、ＭＥＸＴＲ＊の
ために用いる。各アッセンブリーレベル命令は、一連の
１と０から成る、対応するマシンレベル命令に翻訳ない
し変換される。このマシンレベル命令はデコードされ、
各種制御信号を生成し、これが、各種論理を動かして、
デコード命令の実行を実現する。

【００６０】命令に応じて、オペランド（単数または複
数）は、パックされた（ベクトル化）データを含む。２
個以上のＮビットの、独立データ要素を、一つのオペラ
ンドに含めるというのが既知の常法である。各データ
は、サイズがＮビットである。このデータの各々に対し
て施される演算は、同じ演算ではあるが、それぞれ独立
に実行される。ＭＭＵＬ．Ｗこれは、パックされた（ベクトル化）１６ビット乗算命
令である。２個のオペランドＲｍ、Ｒｎがそれぞれ４個
の、独立の１６ビットワードを含む。得られたＲｄは、
４個の１６ビット値を含む。Ｒｍ：Ｒｍ_w3，Ｒｍ_w2，Ｒｍ_w1，Ｒｍ_w0 Ｒｎ：Ｒｎ_w3，Ｒｎ_w2，Ｒｎ_w1，Ｒｎ_w0 Ｒｄ：Ｒｍ_w3 ｘＲｎ_w3，Ｒｍ_w2 ｘＲｎ_w2，Ｒｍ_w1
ｘＲｎ_w1，Ｒｍ_w0 ｘＲｎ_w0 この１６ビットｘ１６ビット乗算は、３２ビット量とな
る。従って、この命令の目的のために、各乗算結果を、
モジュロ代数を用いて１６ビットに低位変換する。

【００６１】図１に関して言うと、この命令のデコード
によって、適当な制御信号が生成され（図示せず）、こ
れがＲｍの内容をｓｒｃ１データラインに、Ｒｎの内容
をｓｒｃ２データラインに出力させる。これらのデータ
は、パイプライン・ラッチＰ１にラッチされ、クロック
同期して、セレクタ回路１１０に入力される。セレクタ
回路１１０は、ｘラインとｙラインに下記の出力を供給
するように制御されている。すなわち、ｘ₃−src1[63-48](Rm_w3),x₂-src1[47-32](Rm_w2),x₁−sr
c1[31-16](Rm_w1),x₀−src1[15-0](Rm_w0) y₃−src2[63-48](Rn_w3),y₂−src2[47-32](Rn_w2),y₁−sr
c2[31-16](Rn_w1),y₀−src2[15-0](Rn_w0) ｘおよびｙラインは、それぞれの乗算回路１２０−１２
６に入力する。合計・桁上出力ｓ₃／ｃ₃，ｓ₂／ｃ₂，ｓ
₁／ｃ₁，ｓ₀／ｃ₀が、乗算器１２０−１２６の出力に生
成され、ラッチされてＰ２に入る。

【００６２】各合計・桁上対（例えば、ｓ₀／ｃ₀）は、
オペランドＲｍとＲｎの、それぞれの１６ｘ１６の積
（例えば、Ｒｍ_w0 ｘＲｎ_w0）を含む。ＭＭＵＬ．Ｗ命
令の目的のためには、回路１５２を通過する経路のみが
関わりがある。ただし、２段目の合計・桁上対は、変換
回路１５２、１５４および１５６に入力する。各合計・
桁上ライン対の上位１７ビットがマスク消去され、下位
１６ビットがそのまま残る。ただし、この合計・桁上対
が３３ビットラインであることは記憶される。このマス
ク消去ステップを、モジュロ代数による、３２ビット結
果の、１６ビット量への低位変換と言う。さらに、回路
１５２は、４対の１６ビット結果を、６４ビットの合計
・桁上ライン１５３にパックする。

【００６３】ライン１５３は、セレクタ回路１１４とセ
レクタ回路１１６を介して、圧縮回路１６０に入力す
る。セレクタ回路１１２は操作されて、「０」定数値
（入力「ｃ」）を生成し、「０」を圧縮回路１６０に入
力する。圧縮回路１６０に「０」を入力することは、そ
の入力１１７を直接出力１６１に通過させる作用を持
つ。従って、この圧縮回路は効果的にバイパスされるこ
とになり、通過装置のように振る舞い、その入力１１７
を、圧縮することなく直接Ｐ３に入力させる。

【００６４】図１、図４に関して言うと、Ｐ３ラッチか
らの出力１６３は、加算回路１７０に入力する。セレク
タ回路４２０−４２４は、それぞれの「ｂ」入力を、セ
レクタ回路の出力に生成するように制御される。従っ
て、定数値「０」、各全加算器４００−４０３の桁上入
力に導入される。これによって、全加算器は、４個の独
立した全加算器として構成されることになり、その入力
に対して、４個の独立した加算操作を実行する。さら
に、この４個の独立の加算操作は、同時に実行される。
なぜなら、各回路は、自足した全加算器だからである。
これこそ、ＭＭＵＬ．Ｗ命令にとってまさに所望の作用
である。４個のパックされたワードは独立数値であるの
だから、その結果は、４個の独立積項でなければならな
い。さらに、４個の独立加算操作は、各回路が自足した
全加算器なので、同時に実行される。ＭＭＵＬ．Ｗの場
合、図１の検出論理回路１８０と１８６は使用されな
い。従って、セレクタ回路１１８と１１９は、ＭＭＵ
Ｌ．Ｗのデコードによって生成された制御信号に応じて
それぞれの「ｂ」入力を生成し、６４ビットの結果を形
成する。ＭＭＵＬＦＸ．ＷＭＵＬＦＸＲＰ．Ｗこれらは、パックされた（ベクトル化）１６ビット固定
小数点乗算命令である。２個のオペランドＲｍ、Ｒｎは
各々４個の独立した１６ビットワードを含む。結果Ｒｄ
は、４個の、１６ビット数値を含む。ＭＭＵＬＦＸＲ
Ｐ．Ｗは、丸め操作ないし四捨五入を含む。Ｒｍ：Ｒｍ_w3，Ｒｍ_w2,Ｒｍ_w1，Ｒｍ_w0 Ｒｎ：Ｒｎ_w3，Ｒｎ_w2，Ｒｎ_w1，Ｒｎ_w0 Ｒｄ：Ｒｍ_w3 ｘＲｎ_w3，Ｒｍ_w2 ｘＲｎ_w2，Ｒｍ_w1
ｘＲｍ_w1，Ｒｍ_w0 ｘＲｎ_w0 これらの命令は、ＭＭＵＬ．Ｗに関して前述したのと同
様にして処理されるが、ただし、ＭＭＵＬＦＸ．ＷとＭ
ＭＵＬＦＸＲＰ．Ｗのオペランドの固定小数点フォーマ
ットのせいで下記の違いが見られる。

【００６５】１６ビットｘ１６ビット乗算は、３２ビッ
ト量をもたらすので、固定小数点乗算の結果は、飽和化
を含む１６ビットに低位変換される。この低位変換は、
３２ビット結果の内、もっとも重要な１６ビットのみを
保持することを含む。飽和化は、既知のステップであ
る。ある代数演算の結果が、あるデータタイプの保持し
得る量よりもさらに大きなビットを要求する場合、結果
は、そのデータタイプで表現し得る最大、または、最小
数にクランプされる。例えば、結果が、１６ビットの符
号化整数に適合しなければならないのに、結果が２０ビ
ット数である場合、結果の飽和化によって、結果の符号
に依存して、２¹⁵−１（１６ビット符号化整数の最大
値）、または、−２^-15という数値（１６ビット符号化
整数の最小値）が得られる。１６ビット固定小数点数値
の場合、範囲は、−１から（１−２^-1 ⁵）までとなる。

【００６６】従って、これら固定小数点倍数に対し、オ
ーバーフロー検出は、１段目の乗算回路１２０−１２６
によって実行される。図３に関連して説明したように、
検出論理１３０は、その入力が両方とも−１である時点
を判断する。それが起こると、セレクタ回路３３０はそ
の「ａ」入力を生成する。飽和化ジェネレータは、ＭＭ
ＵＬＦＸ．ＷおよびＭＭＵＬＦＸＲＰ．Ｗのために（１
−２^-15）を出力するので、合計・桁上ラインｓ０およ
びｃ０はそれぞれ「０」および（１−２^-15）、また
は、その逆に設定される。これと同じことが、他の合計
・桁上ラインｓ₃／ｃ₃，ｓ₂／ｃ₂およびｓ₁／ｃ₁におい
ても起こる。このようにして、各積項について、オーバ
ーフロー状態が検出され、処理される。

【００６７】２段目において、ｓ₃／ｃ₃、ｓ₂／ｃ₂、ｓ
₁／ｃ₁およびｓ₀／ｃ₀ラインは、変換回路１５３によっ
て６４ビットラインにパックされる。ＭＭＵＬＦＸ．Ｗ
とＭＭＵＬＦＸＲＰ．Ｗ命令の目的にとっては、回路１
５２を通過する経路のみが関わりがある。もっとも２段
目の合計・桁上対は、変換回路１５２、１５４および１
５６にも入力するのではある。次に、ライン１５３は、
セレクタ回路１１４と１１６を介して圧縮回路１６０に
結合する。ＭＭＵＬＦＸ．Ｗに関しては、回路１１２
が、定数「０」を圧縮回路に入力する。従って、ＭＭＵ
ＬＦＸ．Ｗ命令に関しては入力の圧縮はない。固定小数
点演算の場合、結果は、１だけ左にシフトする。これ
は、結果の固定小数点表示を維持するためである。圧縮
回路の出力はＰ３にラッチされる。

【００６８】ＭＭＵＬＦＸＲＰ．Ｗ命令に関しては、四
捨五入は、２段目で行われる。セレクタ回路１１２は、
「０．５」定数を生成する。この命令は１６ビットデー
タの上で作動するのであるから、セレクタ１１２は、
「０．５」の４個のコピーを固定小数点フォーマットで
生成し、それらを６４ビット出力１１３にパックする。
各定数は、圧縮回路１６０において、回路１５２由来の
対応する合計・桁上ラインｓ₃／ｃ₃，ｓ₂／ｃ₂，ｓ₁／
ｃ₁およびｓ₀／ｃ₀と結合させられる。これによって、
ＭＭＵＬＦＸＲＰ．Ｗにおける丸めないし四捨五入操作
が実行される。処理はさらに進んで３段目に移る。

【００６９】図１と図４について、Ｐ３ラッチからの出
力１６３は、加算回路１７０に入力する。セレクタ回路
４２０−４２４は、それぞれの「ｂ」入力を、セレクタ
回路の出力に生成するように制御される。従って、定数
値「０」は、各全加算器４００−４０３の桁上入力に導
入される。これによって、全加算器は、４個の独立した
全加算器として構成されることになり、各々が、その入
力に対して、他の入力と独立して加算操作を実行する。
これこそ、ＭＭＵＬＦＸ．ＷおよびＭＭＵＬＦＸＲＰ．
Ｗ命令にとってまさに所望の作用である。４個のパック
されたワードは独立数値であるのだから、その結果は、
４個の独立積項でなければならない。ＭＭＵＬ．Ｌこれは、パックされた（ベクトル化）３２ビット乗算命
令である。２個のオペランドＲｍ、Ｒｎは各々２個の独
立した３２ビットワードを含む。結果Ｒｄは、２個の、
３２ビット数値を含む。Ｒｍ：Ｒｍ_L1，Ｒｍ_L0 Ｒｎ：Ｒｎ_L1，Ｒｎ_L0 Ｒｄ：Ｒｍ_L1 ｘＲｎ_L1，Ｒｍ_L0 ｘＲｎ_L0 この３２ビットｘ３２ビット乗算は、６４ビット量とな
る。従って、この命令の目的のために、各乗算結果を、
モジュロ代数を用いて３２ビットに低位変換する。

【００７０】本発明に従って、３２ビット乗算は、各３
２ビットオペランドを、２個の１６ビット要素に分割し
て実行される。次に、乗算を、独立した１６ビット演算
として実行し、中間結果を結合して６４ビット結果を生
成することが可能である。これは、図１の既存の１６ビ
ット乗算器１２０−１２６を再使用して、３２ビット乗
算を実行することを可能にする。

【００７１】ある３２ビット数、Ａは、下記の形式を持
つ：Ａ_h ｘ２¹⁶ ＋Ａ₁ ここにＡ_hは、Ａの最上数、Ａ［３１：１６］であり、
Ａ₁は、Ａの低位数、Ａ［１５：０］である。

【００７２】従って、ＡｘＢは次のように表わされ
る： (A_h x 2¹⁶+A₁) x (B_hx 2¹⁶+ B₁) …式１＝A_h x 2¹⁶xB_hx２¹⁶＋A_hx２¹⁶xB₁＋B_hx２¹⁶xA₁＋A₁xB₁…式２＝A_h x B_hx 2³²+(A_hx B₁+ B_hx A₁) x 2¹⁶ + A₁ x B₁ …式３代数学から援用すれば、前式は、２個の２項式の積の多
項的展開と見なすことができる。第１の２項式は（Ａ_h
ｘ２¹⁶＋Ａ₁）であり、第２の２項式は（Ｂ_hｘ２¹⁶＋Ｂ
₁）である。多項式展開は、式３で表わされる。

【００７３】図１に関して言うと、ＭＭＵＬ．Ｌ命令の
デコードによって、適当な制御信号が生成され（図示せ
ず）、これがＲｍの内容をｓｒｃ１データラインに、Ｒ
ｎの内容をｓｒｃ２データラインに出力させる。これら
のデータは、パイプライン・ラッチＰ１にラッチされ、
クロック同期して、命令実行の第１サイクルにおいて、
セレクタ回路１１０に入力される。ＭＭＵＬ．Ｌに対応
する制御信号がセレクタ回路１１０を操作して、下記の
ようにｘラインとｙラインにｓｒｃ１とｓｒｃ２データ
ラインをマップさせる。すなわち、３２ビットマッピング３２ビットマッピング（交互）レジスタ内容（交互） src1[31:16] ⇒x₃ Rm_h0 src1[31:16] ⇒x₂src1[15:0] ⇒x₂ Rm_h0(Rm₁₀) src1[15:0] ⇒x₁ src1[31:16] ⇒x₁ Rm₁₀(Rm_h0) src1[15:0] ⇒x₀ Rm₁₀ src2[31:16] ⇒y₃ Rn_h0 src2[15:0] ⇒y₂src2[31:16] ⇒y₂ Rn₁₀(Rn_h0) src2[31:16] ⇒y₁src2[15:0] ⇒y₁ Rn_h0(Rn₁₀) src2[15:0] ⇒y₀ Rn₁₀ 「交互」マッピングは、式３の項（Ａ_hｘＢ₁＋Ｂ_hｘ
Ａ₁）における加算の交換性を認めたものである。

【００７４】最初のパイプライン実行サイクルにおいて
は、ｓｒｃ１およびｓｒｃ２各々の低位長ワードのみが
選択され、１段目の乗算回路に供給されることに注意さ
れたい。低位の長ワード照合は、レジスタ名の中の
「０」下付き表示によって示される（例えば、Ｒ
ｍ_h0）。パイプライン実行の第２サイクルにおいて、こ
の間に第１サイクルで得られた合計・桁上出力が２段目
に進むのであるが、ｓｒｃ１とｓｒｃ２の高位の長ワー
ドが選択され、乗算回路１２０−１２６に供給される。
従って、ＭＭＵＬ．Ｌ命令は、実行するのに余分の１サ
イクルを要求する。第２サイクルにおいては、下記のデ
ータ選択が１段目で行われる。すなわち、３２ビットマッピング３２ビットマッピング（交互）レジスタ内容（交互） src1[63:48] ⇒x₃ Rm_h1 src1[63:48] ⇒x₂ src1[47:32] ⇒x₂ Rm_h1(Rm₁₁) src1[47:32] ⇒x₁src1[63:48] ⇒x₁ Rm₁₁(Rm_h1) src1[47:32] ⇒x₀ Rm₁₁ src2[63:48] ⇒y₃ Rm_h1 src2[47:32] ⇒y₂src2[63:48] ⇒y₂ Rn₁₁(Rn_h1) src2[63:48] ⇒y₁ src2[47:32] ⇒y₁ Rn_h1(Rn₁₁) src2[47:32] ⇒y₀ Rn₁₁ さらに続けてｘラインとｙラインは、それぞれの乗算回
路１２０−１２６に入力する。合計・桁上出力ｓ₃／
ｃ₃，ｓ₂／ｃ₂，ｓ₁／ｃ₁，ｓ₀／ｃ₀が、図３に関連し
て説明したのと同様のやり方によって生成される。

【００７５】乗算回路１２０−１２６の出力はＰ２にラ
ッチされ入る。２段目に入った合計・桁上ラインは、下
記の積項を表わす。すなわち、ｓ₃／ｃ₃＝Ａ_h ｘＢ_h，ｓ₂／ｃ₂＝Ａ_h ｘＢ₁，ｓ₁／
ｃ₁＝Ｂ_h ｘＡ₁，ｓ₀／ｃ₀＝Ａ₁ ｘＢ₁ しかしながら、式３は、上記項の内のいくつかは、２の
乗数による掛け算となることを要求する。これは、変換
回路１５６によって実行される。ＭＭＵＬ．Ｌ命令の目
的のためには、回路１５６を通過する経路のみが関係あ
るだけである。もっとも２段目において合計・桁上対
は、変換回路１５２、１５４および１５６にも入力する
のである。

【００７６】前述したように、入力合計・桁上対ｓ₃／
ｃ₃，ｓ₂／ｃ₂，ｓ₁／ｃ₁，ｓ₀／ｃ₀は、それぞれ、６
４ビット出力合計・桁上対ｓｘ₃／ｃｘ₃，ｓｘ₂／ｃ
ｘ₂，ｓｘ ₁／ｃｘ₁，ｓｘ₀／ｃｘ₀に下記のようにマッ
プされる。 S₃[31:0],c₃[31:0] ⇒ sx₃[63:48],cx₃[63:48](x2³²) S₂[31:0],c₂[31:0] ⇒ sx₂[47:16],cx₂[47:16](x2¹⁶) S₁[31:0],c₁[31:0] ⇒ sx₁[47:16],cx₁[47:16](x2¹⁶) S₀[31:0],c₀[31:0] ⇒ sx₀[31:0],cx₀[31:0] ｓｘ₃／ｃｘ₃、ｓｘ₂／ｃｘ₂、および、ｓｘ₁／ｃｘ₁を
高位位置へシフトさせることは、２の乗数による乗算を
実現することになる。ｓｘ₃／ｃｘ₃は３２ビットシフト
されているので、Ａ_h ｘＢ_hは、２³²で乗算したことに
なる。ｓｘ₂／ｃｘ₂およびｓｘ₁／ｃｘ₁についても同様
であるが、ただし乗数は２¹⁶である。

【００７７】従って、合計・桁上ラインｓｘ₃／ｃｘ₃、
ｓｘ₂／ｃｘ₂、ｓｘ₁／ｃｘ₁およびｓｘ₀／ｃｘ₀は、式
３の中間積項を表わす。８本のラインが８：２圧縮回路
１４０に入力して１対の桁上・合計ライン１４１を生成
する。ライン１４１は、セレクタ回路１１６を介して
３：２圧縮回路１６０に入力する。セレクタ回路１１２
は、圧縮回路１６０に「０」定数を与え、この装置を実
質的に通過装置とする。従って、ＭＭＵＬ．Ｌのような
３２ビット倍数の場合、圧縮回路１６０は実効的にバイ
パスされる。出力１４１は、圧縮なしにＰ３にラッチさ
れ、第３サイクルの間に３段目にクロックされる。

【００７８】３段目においては、第３サイクルの間に、
合計・桁上ライン１６３によって表わされる中間積項
は、加算回路１７０に入力される。図４を参照すると、
加算回路１７０において、その構成セレクタ回路４２０
−４２４は、ＭＭＵＬ．Ｌ命令デコードに応じて生成さ
れる制御信号によって、「ａ」入力を生成するよう制御
される。これによって、各全加算器４００−４０２の桁
上出力は、後続の加算器に転送される。このため、加算
器１７０は、単一の、４段桁上転送加算器として構成さ
れる。このようにして、入力合計・桁上ライン１６３の
単一６４ビット加算が実行される。これに対して、ＭＭ
ＵＬ．ＷおよびＭＭＵＬＦＸ．Ｗ命令のデコードに応じ
て構成された加算器１７０では、４個の独立な１６ビッ
ト加算が実行される。３２ビット乗算に使用した場合、
加算器１７０にこのように構成可変性があるために、様
々な大きさのデータフォーマットに対して、各データサ
イズに合わせたロジックの設計・組み込みを要すること
なく、回路の再使用が可能となる。

【００７９】最後に、ＭＭＵＬ．Ｌ命令に基づいて、合
計（すなわち、ｓｕｍ［３１：０］）の下位３２ビット
が、加算回路１７０の出力に生成される。上位３２ビッ
トのマスク消去によって、６４ビット合計のモジュロ低
位変換が行われ、３２ビット量が得られる。

【００８０】高位の、長ワードＲｍ₁とＲｎ₁は、同時
に、同様に処理されるが、１サイクル遅れることを想起
されたい。第４サイクルで処理が３段目に達した時、６
４ビット結果（Ｒｍ_l ｘＲｎ_l）が、加算回路１７０に
よって生成される。この合計は、３２ビット結果に低位
変換され、第３サイクルの３２ビット結果（Ｒｍ₀ ｘＲ
ｎ₀）と結合され、６４ビット結果にパックされる。ＭＭＵＬＦＸ．Ｌこの命令は、パックされた３２ビット固定小数点乗算命
令である。２個のオペランドＲｍ、Ｒｎは各々２個の独
立した３２ビットワードを含む。結果Ｒｄは、２個の、
３２ビット数値を含む。Ｒｍ：Ｒｍ_L1，Ｒｍ_L0 Ｒｎ：Ｒｎ_L1，Ｒｎ_L0 Ｒｄ：Ｒｍ_L1 ｘＲｎ_L1，Ｒｍ_L0 ｘＲｎ_L0 これらの命令は、ＭＭＵＬ．Ｌに関して前述したのと同
様にして処理されるが、ただし、オペランドの固定小数
点フォーマットのせいで下記の違いが見られる。

【００８１】３２ビットｘ３２ビット乗算は、６４ビッ
ト量をもたらすので、各乗算の結果は、飽和化を含む３
２ビットに低位変換される。この低位変換は、６４ビッ
ト結果の内、もっとも重要な３２ビットのみを保持する
ことを含む。

【００８２】ＭＭＵＬ．Ｌの場合と同様、３２ビット乗
算は、式３当り１６ビット倍数に還元される。従って、
オーバーフロー検出は、１段目の乗算回路１２０−１２
６における各１６ビット演算毎に必要になる。従って、
図３に関して言うと、検出論理１３０は、その入力が両
方とも−１である時点を決定する。それが起こると、セ
レクタ回路３３０はその「ａ」入力を生成する。飽和化
ジェネレータは、ＭＭＵＬＦＸ．Ｌのために（１−２
^-32）を出力するので、合計・桁上ラインｃ０およびｓ
０はそれぞれ「０」および（１−２^-32）、または、そ
の逆に設定される。これと同じことが、他の合計・桁上
ラインｓ₁／ｃ₁，ｓ₂／ｃ₂，ｓ₃／ｃ₃においても起こ
る。このようにして、式３に示した中間積項について、
オーバーフロー状態が検出される。次に、処理は３段目
に進む。

【００８３】３段目において、オーバーフロー検出論理
回路１８０と１８６が、またしても、飽和化が必要かど
うかを決定する。これは、４個の中間積項が、合計され
た場合、オーバーフローする可能性があるからである。
飽和数値ジェネレータ１８２は、ＭＭＵＬＦＸ．Ｌ用に
１−２^-32を生成するように制御される。論理１８０と
１８６の判断によって、飽和化が必要とされた場合、セ
レクタ回路１１８と１１９は、「ａ」入力を生成し、加
算器１７０の出力ではなく、飽和値を出力する。ＭＭＵＬＬＯ．ＷＬＭＭＵＬＨＩ．ＷＬこれらは、１６ビット、全幅乗算命令である。各命令
は、オペランドＲｍ、Ｒｎの低位の（「ＬＯ」）２ワー
ド、または、高位の（「ＨＩ」）２ワードのいずれかで
作動する。結果オペランドＲｄは、２個の３２ビット積
項を含む。これらの演算は、乗算で得られた完全３２ビ
ット結果を格納する。Ｒｍ：Ｒｍ_w3，Ｒｍ_w2，Ｒｍ_w1，Ｒｍ_w0 Ｒｎ：Ｒｎ_w3，Ｒｎ_w2，Ｒｎ_w1，Ｒｎ_w0 Ｒｄ：Ｒｍ_w1 ｘＲｎ_w1，Ｒｍ_w0 ｘＲｎ_w0（ＭＭＵＬ
ＬＯ．ＷＬ）Ｒｄ：Ｒｍ_w3 ｘＲｎ_w3，Ｒｍ_w2 ｘＲｎ_w2（ＭＭＵＬ
ＨＩ．ＷＬ）図１に関して言うと、これらの命令のデコードによっ
て、適当な制御信号が生成され（図示せず）、これがＲ
ｍの内容をｓｒｃ１データラインに、Ｒｎの内容をｓｒ
ｃ２データラインに出力させる。これらのデータは、パ
イプライン・ラッチＰ１にラッチされ、また、セレクタ
回路１１０にクロックされる。セレクタ回路１１０は、
ｘラインとｙラインの下記の出力を供給するように制御
されている。すなわち、 x₃=src1[63-48](Rm_w3),x₂=src1[47-32](Rm_w2)x₁=src1[3
1-16](Rm_w1),x₀=src1[15-0](Rm_w0) y₃=src2[63-48](Rn_w3),y₂=src2[47-32](Rn_w2),y₁=src2
[31-16](Rn_w1),y₀=src2[15-0](Rn_w0) ｘおよびｙラインは、それぞれの乗算回路１２０−１２
６に入力する。合計・桁上出力ｓ₃／ｃ₃，ｓ₂／ｃ₂，ｓ
₁／ｃ₁，ｓ₀／ｃ₀が、乗算器１２０−１２６の出力に生
成され、Ｐ２にラッチされる。ＭＭＵＬＬＯ．ＷＬおよ
びＭＭＵＬＨＩ．ＷＬ命令の目的のためには、回路１５
４を通過する経路のみが関わりがある。ただし、２段目
の合計・桁上対は、変換回路１５２、１５４および１５
６に入力する。

【００８４】変換回路１５４は、ＭＭＵＬＬＯ．ＷＬと
ＭＭＵＬＨＩ．ＷＬのデコードに応じて生成される制御
信号によって活性化される。ＭＭＵＬＬＯ．ＷＬに関し
ては、変換回路１５４は、ｓ₁／ｃ₁およびｓ₀／ｃ₀の合
計／桁上対のみが選択され、64ビット出力ライン１５５
にパックされるように操作される。ｓ₁／ｃ₁ライン対は
Ｒｍ_w1×Ｒｎ_w1の積を表し、ｓ₀／ｃ₀のライン対はＲｍ
_w0×Ｒｎ_w0の積を表す。ＭＭＵＬＨＩ．ＷＬに関して
は、変換回路１５４は、ｓ₃／ｃ₃とｓ₂／ｃ₂合計・桁上
ラインのみが選択され、６４ビット出力ライン１５５に
パックされるように操作される。このｓ₃／ｃ₃ライン対
は、Ｒｍ_w3 ｘＲｎ_w3の積を表わし、ラインｓ₂／ｃ
₂は、Ｒｍ_w2 ｘＲｎ_w2の積を表わす。セレクタ回路１
１４と１１６は協働して出力１５５を圧縮回路１６０に
入力させる。セレクタ回路１１２は、定数「０」を圧縮
回路１６０に入力する。前述したように、これは、圧縮
回路１６０をバイパスし、出力１５５をラッチして、圧
縮なしで直接Ｐ３に入力させる。

【００８５】３段目では、合計・桁上ライン１６３は、
加算回路１７０に入力する。図４を参照すると、加算回
路１７０は、ＭＭＵＬＯ．ＷＬおよびＭＭＵＬＨＩ．Ｗ
Ｌ命令のデコードに応じて生成される制御信号によって
制御される４段桁上転送加算器として構成される。従っ
て、セレクタ回路４２０−４２４は「ａ」入力を生成す
る。これにより、各々の全加算器４００−４０２の桁上
出力は後続の加算器に転送される。ここで、直列結合す
る必要のあるのは、全加算器の内二つだけであることに
注意されたい。なぜなら、２段目で得られる積は３２ビ
ット量だからである。入力合計・桁上ライン１６３は結
合して、最終結果を生成する。ＭＭＵＬＨＩ．ＷＬに関
しては、得られた３２ビット合計は、加算器１７０の出
力の上位３２ビットに置かれ、一方、ＭＭＵＬＬＯ．Ｗ
Ｌについては、３２ビット合計は、加算器の出力の下位
３２ビットに置かれる。ＭＭＡＣＦＸ．ＷＬＭＭＡＣＮＦＸ．ＷＬこれらは、パックされた、固定小数点、１６ビット、全
幅乗算命令で、累算器（Ｒｄ）と結合したものである。
この命令は、オペランドＲｍ、Ｒｎの下位２ワードのみ
に対して実行される。積は、（ＭＭＡＣＦＸ．ＷＬ）と
加算するか、または、（ＭＭＡＣＮＦＸ．ＷＬ）、すな
わち、第３のオペランドＲｄから引算される。最終結果
は、Ｒｄに行く（ここでは、Ｒｄ'と表わす）。Ｒｍ：Ｒｍ_w1，Ｒｍ_w0 Ｒｎ：Ｒｎ_w1，Ｒｎ_w0 Ｒｄ：Ｒｄ_L1，Ｒｄ_L0 （入力Ｒｄ）Ｒｄ'：Ｒｄ_L1＋Ｒｍ_w1 ｘＲｎ_w1，Ｒｄ_L0＋Ｒｍ_w0 ｘ
Ｒｎ_w0（ＭＭＡＣＦＸ．ＷＬ）Ｒｄ'：Ｒｄ_L1−Ｒｍ_w1 ｘＲｎ_w1，Ｒｄ_L0−Ｒｍ_w0 ｘ
Ｒｎ_w0（ＭＭＡＣＮＦＸ．ＷＬ）これらの命令は、ＭＭＵＬＬＯ．ＷＬと同様のやり方で
実行されるが、以下の相違点がある。すなわち、１段目
で、オーバーフロー検出と飽和化が、ＭＭＵＬＦＸ．Ｗ
命令の場合と同様にして実行される。１段目からの出力
は、２段目の変換回路１５２、１５４および１５６に入
力する。しかしながら、ＭＭＡＣＦＸ．ＷＬおよびＭＭ
ＡＣＮＦＸ．ＷＬ命令の場合、回路１５４が関わる。回
路１５４は、ｓ₁／ｃ₁とｓ₀／ｃ₀合計・桁上ラインを選
択し、これを６４ビット出力ライン１５５にパックす
る。この出力は、セレクタ回路１１４、１１６を介して
圧縮回路１６０に結合する。入力ライン１１７は、積Ｒ
ｍ_w1 ｘＲｎ_w1を表わすｓ₁／ｃ₁と、積Ｒｍ_w0 ｘＲｎ
_w0を表わすｓ０／ｃ０とを含む。

【００８６】セレクタ回路１１２は、ｓｒｃ３ラインで
ある「ａ」入力を生成する。ＭＭＡＣＦＸ．ＷＬとＭＭ
ＡＣＮＦＸ．ＷＬ命令に合致する制御信号は、オペラン
ドＲｄによって特定されるレジスタ・ファイル１０２の
汎用レジスタとデータ交換を実行する。セレクタ回路１
１２の出力は、圧縮回路１６０に入力する。圧縮回路１
６０は、ｓ₁／ｃ₁をＲｄの上半分に、ｓ₀／ｃ₀をＲｄの
下半分に加える。この結果は、Ｐ３ラッチを介して３段
目に進む。Ｒｄの各半分は固定小数点数であるから、Ｒ
ｍとＲｎの乗算結果は、それぞれの固定小数点を、累算
器のそれと揃えるには、１だけ左にシフトさせなければ
ならないことに注意されたい。

【００８７】図１、図４に関して言うと、Ｐ３の出力１
６３は加算器１７０に入力する。セレクタ回路４２０と
４２４は、それぞれ「ａ」入力を、一方、セレクタ回路
４２２は「ｂ」入力を生成するように制御される。これ
によって、加算器４００と４０１は、加算器４０２と４
０３からアイソレートされ、二つの、独立した直列連鎖
すなわちカスケード型加算器を生み出す。従って、全加
算器４００と４０１は直列結合して、３２ビット合計、
すなわち、Ｒｄ_L0＋Ｒｍ_w0 ｘＲｎｗ０を生成し、全加
算器４０２と４０３は直列結合して、また別の３２ビッ
ト合計、すなわち、Ｒｄ_L1＋Ｒｍ_w1 ｘＲｎ_w1を生成す
る。この独立加算は共に同時に行われる。さらに、論理
回路１８０と１８６によるオーバーフロー検出も実行さ
れ、もしもオーバーフローが予測されたならば、飽和化
ジェネレータ１８２から（１−２ ^-15）を出力する。

【００８８】ＭＭＡＣＮＦＸ．ＷＬの場合、図５に模式
的に図示した、乗算装置１２０−１２６における付加回
路が、命令のデコードに応じて生成された制御信号ＣＴ
Ｌ１によって活性化される。ＣＴＬ１の肯定ないし表明
は、ｘ０掛けるｙ０の乗算を引き起こすことを想起され
たい。これが、ＭＭＡＣＮＦＸ．ＷＬの所期の結果であ
る。Ｒ_dと−（ｘ₀ ｘｙ₀）を加えれば、Ｒｄから差し
引くという所期の結果が得られる。ＭＳＨＬＬ（Ｒ）Ｄ．Ｗ（Ｌ）ＭＳＨＡＲＤ．Ｗ（Ｌ）ＭＳＨＡＬＤＳ．Ｗ（Ｌ）これらは、パックされた１６ビット（３２ビット）デー
タの左（右）シフトである。第１のオペランドＲｍは、
４（２）個の、独立した１６ビット（３２ビット）値を
含む。各々、Ｒｎに特定されるのと同じ量だけシフトさ
れる。結果はＲｄの中に置かれる。Ｒｍ：Ｒｍ_w3，Ｒｍ_w2，Ｒｍ_w1，Ｒｍ_w0 （１６ビット）Ｒｍ：Ｒｍ_L1，Ｒｍ_L0 （３２ビット）Ｒｎ：ｎ（シフト量）Ｒｄ：Ｒｍ_w3＜＜ｎ，Ｒｍ_w2＜＜ｎ，Ｒｍ_w1＜＜ｎ, Ｒｍ_w0＜＜ｎ（左シフト、１６ビット）Ｒｄ：Ｒｍ_w3＞＞ｎ，Ｒｍ_w2＞＞ｎ，Ｒｍ_w1＞＞ｎ，Ｒｍ_w0＞＞ｎ（右シフト、１６ビット）Ｒｄ：Ｒｍ_L1＜＜ｎ，Ｒｍ_L0＜＜ｎ（左シフト、３２ビット）Ｒｄ：Ｒｍ_L1＞＞ｎ，Ｒｍ_L0＞＞ｎ（右シフト、３２ビット）論理シフトＭＳＨＬＬ（Ｒ）Ｄ．Ｗ（Ｌ）は、飽和化を
含まない。同様に、代数的右シフトＭＳＨＡＲＤ．Ｗ
（Ｌ）の場合も、飽和化の問題はない。右シフトは、２
による除算操作であり、従って、最終結果は必ず開始値
よりも小さくなる。しかしながら、右シフトには符号延
長を設けなければならない。代数的左シフトＭＳＨＡＬ
ＤＳ．Ｗ（Ｌ）の場合、必要でれば、飽和化を実行す
る。

【００８９】図７を参照すると、論理シフト命令、ＭＭ
ＳＨＬＬＤ．Ｗ、ＭＭＳＨＬＲＤ．Ｗ、ＭＭＳＨＬＬ
Ｄ．Ｌ、または、ＭＭＳＨＬＲＤ．Ｌの内のいずれかを
デコードすると、ビットシフタ７０２とマトリックス７
０４を作動する制御信号を生成する。シフト量は、ｓｒ
ｃ２の最下位バイトに含まれる。ｓｒｃ２の、３個の最
下位ビット（ｓｒｃ２₂，ｓｒｃ２₁，ｓｒｃ２₀）は、
シフト量入力７５４を供給する。すぐわかるように、最
下位の３ビットは、シフト量モジュロ８である。命令に
従って、適当な上行／下行制御信号が生成され、制御７
５２に供給される。従って、ビットシフタ７０２は、量
入力７５４によって特定される量（０−７桁）だけ、ｓ
ｒｃ１入力のビットレベルの左、または、右シフトを実
行する。ビットシフタ７０２の出力はマトリックス７０
４に入力する。ｓｒｃ２バイトにおける次の３ビット
（ｓｒｃ２₅，ｓｒｃ２₄，ｓｒｃ２₃）は、マトリック
ス７０４の制御入力７５６に入力する。この制御入力
は、その入力に対して実行すべき８ビット（バイトレベ
ル）シフトの数を特定する。

【００９０】このような、ビットレベルシフトの後に、
バイトレベルシフトが続くという２相配置によって、１
６ビットシフトと、３２ビットシフトの両方を受け入れ
ることが可能となる。例えば、２１ビット位置のシフト
を考えてみる。入力ｓｒｃ２は、０１０１０１₂を含
み、これは、１０を底とする２１である。従って、ビッ
トシフタ７０２は、１０１₂ビット位置をシフトする、
すなわち、５のシフトを実行する。マトリックス７０４
がさらに追加の０１０₂バイトレベルのシフト、すなわ
ち、合計２１ビット位置のシフトについて、１６ビット
位置のシフトを実行する。マトリックス７０４の出力
は、セレクタ回路７４０の「ａ」入力に入力する。セレ
クタ回路７４０の「ｂ」入力は、符号ジェネレータ７０
８からの出力を受け取る。これらのセレクタは、マスク
ジェネレータ７１０からの出力によって制御される。

【００９１】ここで、符号ジェネレータ７０８とマスク
ジェネレータ７１０の機能を論じるために、図７と図９
を参照する。図９の２４ビットレジスタを考える。この
レジスタは、３個の８ビット要素に分割される。以後の
議論は、命令ＭＭＳＨＬＬＤ．Ｗ、ＭＭＳＨＬＲＤ．
Ｗ、ＭＭＳＨＬＬＤ．Ｌ、および、ＭＭＳＨＬＲＤ．Ｌ
の１６ビット、および３２ビットデータフォーマットに
も適用される。ステップ（１）において、３個の初期値
は、Ｂ２＝１０１１１００１，Ｂ１＝０００１１１０
０，Ｂ０＝１１０１０１０１である。３ビット右シフト
を所望すると仮定しよう。レジスタを単純に３ビットシ
フトさせた場合、ステップ（２）に示した内容が得られ
るであろう。Ｂ２は正しくは１０１１１を含むが、Ｂ１
は００１０００１１を含み、Ｂ０は１００１１０１０を
含む。Ｂ１とＢ０は適正でない。なぜなら、レジスタを
単純にシフトさせただけでは、要素Ｂ２、Ｂ１およびＢ
０の独立的側面を考慮していないからである。その結
果、バイトＢ１およびＢ０は、隣接バイトから「あふれ
出た」ビットを受け取ることになる。

【００９２】本発明によれば、マスクジェネレータ７１
０が、（３）に示すマスクパターンを生成し、これが、
セレクタ回路７４０を制御する。さらに、本発明によれ
ば、符号ジェネレータ７０８が、その６４ビットライン
にゼロを出力し、すなわち、セレクタ回路７４０の各
「ｂ」入力にゼロを入力する。従って、マスクパターン
において「１」が生じると、セレクタ回路は、「０」の
「ｂ」入力を生成する。マスクパターンにおいて「０」
が生じると、セレクタ回路は、シフトレジスタ内容であ
る、「ａ」入力を生成する。セレクタ回路７４０の出力
におけるビットパターン（例えば、図９のステップ４に
図示）は、与えられたデータフォーマット、すなわち、
１６ビット、３２ビット等々における適正にシフトされ
た要素を表わす。マスクジェネレータ７１０と符号ジェ
ネレータ７０８とは協働して、隣接要素からの「あふれ
出し」ビットを効果的にマスク消去する。

【００９３】命令ＭＭＳＨＬＬＤ．Ｗ、ＭＭＳＨＬＲ
Ｄ．Ｗ、ＭＭＳＨＬＬＤ．ＬおよびＭＭＳＨＬＲＤ．Ｌ
に関して言えば、符号ジェネレータは常に全部「０」を
出力する。このために、符号ジェネレータは、「交互数
値」ジェネレータと書くほうがより適正である。なぜな
ら、論理シフト命令には「符号」の概念がないからであ
る。マスクジェネレータ７１０は、これらの命令に対応
する制御信号に応じて適正パターンサイズ（例えば、１
６ビット、３２ビット）を生成する。パターンそのもの
は、マスクジェネレータに入力するｓｒｃ２バイトに含
まれるシフト量に基づいて創成される。図９の（３）に
見られるように、右シフトのパターンは、ｓｒｃ２のシ
フト量で特定される数だけ続く「０」の連なりを持ち、
さらに、左は、「１」の連続連鎖によって塞がれ、適当
なデータサイズのパターンを完成させる。図９を参照す
ると、バイトＢ２のマスクパターンは、５個の連続
「０」（シフト量）の連なりと、３個の「１」の連なり
とを示す。すぐに推定できるように、左シフトのパター
ンは、シフト量で特定される数だけの「０」を持つが、
右は、与えられたデータサイズのパターンを完成させる
のに十分なだけの数の「１」で塞がれる。

【００９４】ここで、符号化シフト命令ＭＳＨＡＲＤ．
ＷとＭＳＨＡＲＤ．Ｌに関連して、図７と図１０を参照
してみる。再び、３個の８ビット要素として組織される
２４ビットレジスタを考えてみる。ステップ（１）で、
３個の初期値は、Ｂ２＝１０１１１００１，Ｂ１＝００
０１１１００，Ｂ０＝１１０１０１０１である。３ビッ
トの代数的右シフトが所望のものであると仮定する。前
と同様、レジスタの全内容を単純に３個位置シフトさせ
るだけでは、ステップ（２）において示すように、不適
正な結果を生成することになる。なぜなら、隣接バイト
から「あふれ出る」ビットがあるからである。さらに、
バイトＢ２とＢ０は負数であり、これは、右シフトの場
合、符号延長を必要とする。図１０は、（２）では、Ｂ
２とＢ０が正数であることを示す。

【００９５】ＭＳＨＡＲＤ．ＷとＭＳＨＡＲＤ．Ｌに関
しては、マスクジェネレータ７１０は、図９で前述した
のと同様のやり方で作動し、同じビットパターンを出力
する。図１０に見られるように、符号ジェネレータ出力
（４）は、Ｂ２とＢ０の各々に対応して、８個の「１」
から成るパターンと、Ｂ１に対応した「０」から成るパ
ターンとなる。すぐわかるように、この符号パターン
を、セレクタ７４０の「ｂ」入力に入力し、かつ、各セ
レクタをマスクパターンに従って作動させることによっ
て、Ｂ２、Ｂ１およびＢ０について適正にシフトした出
力が得られるばかりでなく、適正な符号延長も得られ
る。

【００９６】図７を参照すると、ビットｓｒｃ１₆₃、ｓ
ｒｃ１₄₇、ｓｒｃ１₃₁、およびｓｒｃ１₁₅が、符号ジェ
ネレータ７０８に入力する。これらは、１６ビットデー
タフォーマット用の符号ビットである。３２ビットデー
タフォーマットでは、符号ビットは、ｓｒｃ１₆₃とｓｒ
ｃ１₃₁である。符号ジェネレータは、これらの符号ビッ
トに応じて、「１」または「０」の信号から成るパター
ンを出力する。パターンの長さは、デコードしたＭＳＨ
ＡＲＤ．Ｗ（１６ビット）、または、ＭＳＨＡＲＤ．Ｌ
（３２ビット）命令に対応する制御信号によって定めら
れる。

【００９７】ＭＳＨＡＬＤＳ．ＷとＭＳＨＡＬＤＳ．Ｌ
に関連して図７を参照すると、オーバーフロー検出器７
２０は、マトリックス７０４の出力から、得られた左シ
フト演算がオーバーフローを生成したか否かを判断す
る。飽和値ジェネレータ７２２は、データサイズに応じ
て、検出器７２０で使用される上限、２¹⁶−１（１６ビ
ット）、または、２³²−１（３２ビット）を特定する。
オーバーフローが予測されたならば、飽和値が、セレク
タ回路７３０によって生成される。ＭＳＨＡＲＤＳ．Ｏこれは、符号付、６４ビットソースＲｍに実行される代
数的右シフト命令である。シフト量はＲｎに特定され
る。結果は、低位変換されて、飽和化された、符号付、
１６ビット値となり、次にＲｄに置かれる。この命令
は、前述の論理シフト、および、代数シフトと実質的に
同様なやり方で実行される。符合ジェネレータ７０８
は、全て「０」、または、全て「１」から成る６４ビッ
トパターンに対する単一符号パターンとして、ｓｒｃ１
６３を用いる。マスクジェネレータ７１０は、他のシフ
ト命令と関連して前述したように作動する。オーバーフ
ロー検出は、検出器７２０により２¹⁶−１のオーバーフ
ロー値と比較することによって実行される。ＭＣＮＶＳ．ＷＢＭＣＮＶＳ．ＷＵＢこれらは、各オペランドＲｍ、Ｒｎ中の、４個の符号付
１６ビットデータを、８ビット値に変換する、低位変換
命令である。低位変換されたデータは、Ｒｍ'とＲｎ'で
表わされる。８個の、８ビット結果は、符号付の（ＭＣ
ＮＶＳ．ＷＢ）か、符合無しの（ＭＣＮＶＳ．ＷＵＢ）
のいずれかで、Ｒｄに置かれる。８ビット結果に対する
飽和化は、必要に応じて実行される。Ｒｍ：Ｒｍ_w3，Ｒｍ_w2，Ｒｍ_w1，Ｒｍ_w0 Ｒｎ：Ｒｎ_w3，Ｒｎ_w2，Ｒｎ_w1，Ｒｎ_w0 Ｒｄ：Ｒｎ'_w3，Ｒｎ'_w2，Ｒｎ'_w1，Ｒｎ'_w0，Ｒ
ｍ'_w3，Ｒｍ'_w2，Ｒｍ'ｗ₁，Ｒｍ'_w0 図７を参照すると、ｓｒｃ１とｓｒｃ２は、低位変換の
対象となるオペランドである。ビットシフタ７０２は、
この命令の実行には関与せず、ｓｒｃ１とｓｒｃ２をそ
のままマトリックス７０４に通過させる。一方、マトリ
ックス７０４は、低位変換を実行するのに必要なマッピ
ングを行う。いずれかの命令に付属する制御信号に応じ
て、マトリックス７０４は、ｓｒｃ１、ｓｒｃ２のそれ
ぞれにおける４個の１６ビットグループの各々から下位
８ビットを、その出力に生成する。この８ビットは、マ
トリックスの６４ビット出力にパックされる。８個の８
ビットフィールドの各々に対して、オーバーフロー検出
が実行され、飽和化が実施される。ＭＣＮＶＳ．ＬＷこれは、オペランドＲｍとＲｎの各々における2個の３
２ビットデータを１６ビットデータ値に変換する低位変
換命令である。低位変換されたデータは、Ｒｍ'とＲｎ'
によって表わす。４個の符号付、１６ビット結果は、Ｒ
ｄに置かれる。１６ビット結果に対する飽和化は、必要
に応じて実施される。Ｒｍ：Ｒｍ_L1，Ｒｍ_L0 Ｒｎ：Ｒｎ_L1，Ｒｎ_L0 Ｒｄ：Ｒｎ'_L1，Ｒｎ'_L0，Ｒｍ'_L1，Ｒｍ'_L0 この命令は、ＭＣＮＶＳ．ＷＢとＭＣＮＶＳ．ＷＵＢに
関して前述したのとほとんど同様のやり方で実行され
る。ただし、３２ビットのパックされたソースであるｓ
ｒｃ１とｓｒｃ２に対して実行され、１６ビット結果を
生成する。ＭＳＨＦＨＩ．ＢＭＳＨＦＬＯ．Ｂこれらの命令は、オペランドＲｍとＲｎの上半分（Ｈ
Ｉ）、または、下半分（ＬＯ）の８ビットデータをシャ
ッフル（インターリーブ＝互い違いに挿入する）し、そ
の結果をＲｄに置く。Ｒｍ：Ｒｍ_b7，Ｒｍ_b6，Ｒｍ_b5，
Ｒｍ_b4，Ｒｍ_b3，Ｒｍ_b2，Ｒｍ_b1，Ｒｍ_b0 Ｒｎ：Ｒｎ_b7，Ｒｎ_b6，Ｒｎ_b5，Ｒｎ_b4，Ｒｎ_b3，Ｒｎ
_b2，Ｒｎ_b1，Ｒｎ_b0 Ｒｄ：Ｒｎ_b7，Ｒｍ_b7，Ｒｎ_b6，Ｒｍ_b6，Ｒｎ_b5，Ｒｍ
_b5，Ｒｎ_b4，Ｒｍ_b4 （ＭＳＨＦＨＩ．Ｂ）Ｒｄ：Ｒｎ_b3，Ｒｍ_b3，Ｒｎ_b2，Ｒｍ_b2，Ｒｎ_b1，Ｒｍ
_b1，Ｒｎ_b0，Ｒｍ_b0 （ＭＳＨＦＬＯ．Ｂ）図７を参照すると、ｓｒｃ１とｓｒｃ２は、低位変換の
オペランドである。ビットシフタ７０２は、これらの命
令の実行には関与せず、ｓｒｃ１とｓｒｃ２をそのまま
マトリックス７０４に通過させる。一方、マトリックス
７０４は、インターリーブ実行に必要なマッピングを行
う。いずれかの命令に伴う制御信号に応じて、マトリッ
クスは、その出力において、各ｓｒｃ１とｓｒｃ２の下
半分（ＭＳＨＦＬＯ．Ｂ）、または、上半分（ＭＳＨＦ
ＨＩ．Ｂ）の各々における４バイトをインターリーブす
る。次に、マトリックス７０４の出力は通過して出力７
３０となる。ＭＳＨＦＨＩ．ＷＭＳＨＦＬＯ．Ｗこれらの命令は、オペランドＲｍとＲｎの上半分（Ｈ
Ｉ）、または、下半分（ＬＯ）の１６ビットデータをシ
ャッフル（インターリーブ）し、その結果をＲｄに置
く。Ｒｍ：Ｒｍ_w3，Ｒｍ_w2，Ｒｍ_w1，Ｒｍ_w0 Ｒｎ：Ｒｎ_w3，Ｒｎ_w2，Ｒｎ_w1，Ｒｎ_w0 Ｒｄ：Ｒｎ_w3，Ｒｎ_w3，Ｒｍ_w2，Ｒｎ_w2(ＭＳＨＦＨ
Ｉ．Ｗ）Ｒｄ：Ｒｎ_w1，Ｒｍ_w1，Ｒｎ_w0，Ｒｍ_w0 (ＭＳＨＦＬ
Ｏ．Ｗ）これらの命令は、ＭＳＨＦＨＩ（ＬＯ）．Ｂに関して前
述したのとほとんど同様のやり方で実行される。ただ
し、ｓｒｃ１とｓｒｃ２の各々の、上（下）半分の各々
における１６ビットワードに対して実行される。ＭＳＨＦＨＩ．ＬＭＳＨＦＬＯ．Ｌこれらの命令は、オペランドＲｍとＲｎの上半分（Ｈ
Ｉ）、または、下半分（ＬＯ）の３２ビットデータをシ
ャッフル（インターリーブ）し、その結果をＲｄに置
く。Ｒｍ：Ｒｍ_L1，Ｒｍ_L0 Ｒｎ：Ｒｎ_L1，Ｒｎ_L0 Ｒｄ：Ｒｎ_L1，Ｒｍ_L1 （ＭＳＨＦＨＩ．Ｌ）Ｒｄ：Ｒｎ_L0，Ｒｍ_L0 （ＭＳＨＦＬＯ．Ｌ）これらの命令は、ＭＳＨＦＨＩ（ＬＯ）．ＢおよびＭＳ
ＨＦＨＩ（ＬＯ）．Ｗに関して前述したのとほとんど同
様のやり方で実行される。ただし、ｓｒｃ１とｓｒｃ２
の各々の、上（下）半分の各々における３２ビット長ワ
ードに対して実行される。ＭＰＥＲＭ．Ｗこの命令は、ソースオペランドＲｍの、４個のパックさ
れた１６ビットデータの順序を、制御オペランドＲｎで
特定される組合せで配列する。結果は、結果オペランド
Ｒｄに入る。結果オペランドの、４個の１６ビットフィ
ールドのそれぞれについて、制御オペランドの２ビット
識別子が、ソースオペランドのどの１６ビットフィール
ドを、その結果フィールドにコピーするのかを決める。
ある実施の態様では、ｓｒｃ２の最下位８ビットが、４
個の、２ビット識別子を含む。従って、ｓｒｃ１が、４
個の１６ビットフィールドｓｒｃ１_w3，ｓｒｃ１_w2，ｓ
ｒｃ１_w1およびｓｒｃ１_w0を含む場合、次のようにな
る。src2: 10110001₂は、src3: src1_w2,src1_w3,src1_w0,
src1_w1となる、src2: 00101101₂は、src3: src1_w0,src1
_w2,src1_w3,src1_w1となる、src2: 11100011₂は、src3: s
rc1_w3,src1_w2,src1_w0,src1_w3となる、等最後の実例は、ソースの１６ビットフィールドが、ディ
スティネーションないし行先（転送先）において複数回
複製されていることを例示するためのものである。

【００９８】図７を参照すると、ビットシフタ７０２
は、ＭＰＥＲＭ．Ｗに関与せず、従って、ｓｒｃ１とｓ
ｒｃ２は、そのままビットシフタを通過して、マトリッ
クス７０４に入る。ｓｒｃ２のｉｄ（識別用）ビット
は、マトリックス７０４の制御入力７５６に入力する。
ＭＰＥＲＭ命令のデコードに応じて生成される制御信号
がマトリックス７０４に入力する。このｉｄビットに基
づいて、マトリックス７０４は、その出力において、特
定された入れ替えないし並べ替えを実行する。

【００９９】図１１は、ＭＰＥＲＭで見られる選択を示
す。入力ｓｒｃ１の６４ビットラインは、各セレクタ回
路１１０３−１１００に入力する。さらに詳細に言う
と、各セレクタは、４個の１６ビット入力を含む。ｓｒ
ｃ１の４個の１６ビットフィールドはそれぞれ、対応す
る入力に供給される。ｓｒｃ２ｉｄビットは、セレク
タの選択入力に入力する。ビット１、０はセレクタ１１
００を、ビット３、２はセレクタ１１０１を、ビット
５，４はセレクタ１１０２を、そして、ビット７、６は
セレクタ１１０３を、それぞれ制御する。各セレクタ出
力は、図１１に対応するビット位置によって示される、
１６ビット結果フィールドの一つに対応する。従って、
各セレクタ１１０３−１１００は、ｓｒｃ１の４個の１
６ビットフィールドの内のいずれでも、それを、ｓｒｃ
３の４個の１６ビットフィールドの内のいずれにでも生
成することが可能である。これらのラインは究極的には
結合され、ＭＰＥＲＭ命令用の単一６４ビット出力とな
る。ＭＥＸＴＲｍ−ＭＥＸＴＲ７これらの命令は、２個の連結レジスタＲｍとＲｎにまた
がって、右から１−７バイトずらして、８バイトを抽出
する。抽出されたバイトは、Ｒｄに置かれる。Rm,Rn :Rm_b7,Rm_b6,Rm_b5,Rm_b4,Rm_b3,Rm_b2,Rm_b1,Rm_b0,Rn_b7,Rn_b6,Rn_b5,Rn_b4,Rn_b3,R n_b2,Rn_b1,Rn_b0 Rd：Rm_b0，Rn_b7，Rn_b6，Rn_b5，Rn_b4，Rn_b3，Rn_b2，Rn_b1(ＭＥＸＴＲ１) Rd：Rm_b1，Rm_b0，Rn_b7，Rn_b6，Rn_b5，Rn_b4，Rn_b3，Rn_b2(ＭＥＸＴＲ２) Rd：Rm_b2，Rm_b1，Rm_b0，Rn_b7，Rn_b6, Rn_b5，Rn_b4，Rn_b3（ＭＥＸＴＲ３） Rd：Rm_b3，Rm_b2，Rm_b1，Rm_b0，Rn_b7，Rn_b6，Rn_b5，Rn_b4(ＭＥＸＴＲ４) Rd：Rm_b4，Rm_b3，Rm_b2，Rm_b1，Rm_b0，Rn_b7, Rn_b6，Rn_b5（ＭＥＸＴＲ５） Rd：Rm_b5，Rm_b4，Rm_b3，Rm_b2，Rm_b1，Rm_b0，Rn_b7，Rn_b6(ＭＥＸＴＲ６) Rd：Rm_b6，Rm_b5，Rm_b4, Rm_b3，Rm_b2，Rm_b1, Rm_b0，Rn_b7(ＭＥＸＴＲ７) 図７を参照すると、Ｒｍはｓｒｃ１に入力し、Ｒｎはｓ
ｒｃ２に入力する。ビットシフタ７０２は、ｓｒｃ１と
ｓｒｃ２には作用せず、そのままマトリックス７０４に
通過させる。マトリックス７０４は、ｓｒｃ１から適当
数の連続バイトを選び、それらを、その出力の高位部分
の対応する位置に生成する。次に、マトリックス７０４
は、ｓｒｃ２から適当数の連続バイトを選び、それら
を、その出力の低位部部分の対応する位置に生成する。
各ＭＥＸＴＲ＊命令に対応する制御信号が、各ｓｒｃ１
とｓｒｃ２の内のいくつのバイトが選択されるかを特定
する。ＭＣＭＶこの命令は、マスクＲｎの対応ビットのビット設定に基
づいて、オペランドＲｍからディスティネーションない
し行先（転送先）Ｒｄの対応するビット位置への、条件
付ビット毎コピーを実行する。Ｒｍ：Ｒｍ₆₃，Ｒｍ₆₂，．．．Ｒｍ₁，Ｒｍ₀ Ｒｄ：Ｒｄ_n ←Ｒｍ_n もしもＲｎ_nが設定されているな
らば、図８に示した論理を参照すると、オペランドレジスタＲ
ｍはｓｒｃ１に入力し、マスクレジスタＲｎはｓｒｃ２
に入力する。ディスティネーションレジスタＲｄもｓｒ
ｃ３としてその論理に入力する。ｓｒｃ１、ｓｒｃ３の
各対応ビット対は、それぞれ、セレクタ回路８０１−８
６３の「ａ」入力と「ｂ」入力に結合する。ｓｒｃ２の
各ビットは、セレクタ回路を制御する。

【０１００】動作時には、各セレクタ回路８０１−８６
３は、もしもｓｒｃ２の対応ビットが、すなわち、ビッ
ト位置ｎが、第１論理状態にある場合、「ａ」入力、す
なわち、ｓｒｃ１_nを生成する。同様に、もしもｓｒｃ
２のビット位置ｎのビットが第２論理状態にある場合、
入力「ｂ」、すなわち、ｓｒｃ３_nが生成される。セレ
クタ回路８０１−８６３の出力は結合されて、６４ビッ
ト出力８８０を形成する。

【０１０１】従って、ｓｒｃ１とｓｒｃ３からのビット
は、ｓｒｃ２の対応位置ビットの論理状態に応じて、条
件付きでコピーされる。出力８８０は、ディスティネー
ションレジスタＲｄに戻される。従って、これは、マス
クレジスタＲｎの内容に基づいて、ソースレジスタＲｍ
から、ディスティネーションレジスタＲｄへ、条件付で
ビットを移動させる命令を与えるという効果を持つ。ＭＳＡＤこの機能は、ＲｍとＲｎに含まれる８バイトに対して差
の合計演算を実行する。結果は、加算されてＲｄに入
る。この操作は、下記によって表わされる。

【０１０２】図６を参照すると、オペランドＲｍとＲｎは、それぞ
れ、ｓｒｃ１とｓｒｃ２に入力する。ＭＳＡＤ命令につ
いては、セレクタ１１０は、１６ビットｘおよびｙデー
タラインに対して、ｓｒｃ１とｓｒｃ２の下記のような
１６ビットマッピングを生成する。１６ビットマッピング src1[63:48]⇒x₃ src2[63:48]⇒y₃ src1[47:32]⇒x₂ src2[47:32]⇒y₂ src1[31:16]⇒x₁ src2[31:16]⇒y₁ src1[15:0] ⇒x₀ src2[15:0] ⇒y₀ しかしながら、ＭＡＳＡＤ命令の場合、ｓｒｃ１とｓｒ
ｃ２は各々８個の、８ビットデータ要素を含む。従っ
て、図６に示したように、各１６ビットｘ_nおよびｙ_nデ
ータラインは、さらに、８ビットラインに分割される。
これにより、本命令のために、ｓｒｃ１とｓｒｃ２に８
ビットデータ要素が生成される。

【０１０３】各８ビットライン対ｘ／ｙは、減算装置６
０１−６０８の内の一つに入力する。図６に関連して前
述したように、各減算装置は、入力間の差の絶対値を生
成する。回路１２０−１２６の乗算結果ではなくて、減
算装置６０１−６０８の出力の方が、セレクタ回路６６
０によって選択され、そしてＰ２にラッチされ、２段目
の処理を受ける。

【０１０４】図１を参照すると、減算装置の出力は、変
換回路１５２によってパックされて、１対の６４ビット
の合計・桁上ライン１５３に入る。セレクタ回路１１４
と１１６は、ライン１５３を圧縮回路１６０に入力させ
る。ＭＳＡＤ命令の場合、オペランドＲｄは、ｓｒｃ３
に結合し、これはセレクタ回路１１２によって抽出され
て、圧縮回路１６０に入力される。圧縮回路は、それら
の入力を結合して、出力１６１を生成し、これが、Ｐ３
ラッチを介して３段目に供給される。

【０１０５】３段目において、加算回路１７０が最終合
計を生成する。その３２ビット出力は、セレクタ回路１
１８と１１９によって結合され、所望の、Ｒｄと結合し
た、６４ビットの、絶対値差出力の合計を生成する。図
４を参照すると、加算回路１７０は、ＭＳＡＤ命令に対
応する制御信号によって、単一の４段桁上転送加算器と
して作動するように構成される。従って、セレクタ回路
４２０−４２４は、「ａ」入力を生成するように制御さ
れる。これによって、各全加算器４００−４０２の桁上
値は、後続の加算器に転送される。その結果、入力合計
・桁上ライン１６３の６４ビット加算が実行される。

【０１０６】

【発明の効果】本発明によれば、たとえば以下の如き優
れた作用効果が得られる。

【０１０７】（１）ＲＩＳＣ準拠プロセッサに対するア
ーキテクチャの性能をさらに高めることができる。

【０１０８】（２）ＲＩＳＣプロセッサ・コアの性能を
改善することができる。

【０１０９】（３）マルチメディアプリケーションの強
化や、次世代一般製品の計算能力の向上を図ることがで
きる。

【図面の簡単な説明】

【図１】図１は、本発明の、ある種のマルチメディア命
令に関連する、ベクトル化乗算装置を示す。

【図２】図２は、図１に示したオーバーフロー検出論理
のさらに詳細を示したものである。

【図３】図３は、図１の乗算装置に示した乗算回路のさ
らに詳細を示したものである。

【図４】図４は、図１に示した加算回路の模式図であ
る。

【図５】図５は、本発明のある種のマルチメディア命令
に関連して図１で示したマルチプレクサ回路の他の実施
の形態である。

【図６】図６は、本発明のある種のマルチメディア命令
に関連して図１で示した乗算装置にさらに付加される論
理を示す。

【図７】図７は、本発明のある種のマルチメディア命令
に関連するベクトル変換装置を示す。

【図８】図８は、本発明のある種のマルチメディア命令
に関連するビット操作回路である。

【図９】図９は、本発明のある種のマルチメディア命令
実行時における、図８に参照される操作を示す。

【図１０】図１０は、本発明のある種のマルチメディア
命令実行時における、図８に参照される操作を示す。

【図１１】図１１は、本発明のある種のマルチメディア
命令に関連する、図８のマトリックスに使用される論理
を示す。

【符号の説明】

１００…乗算装置１１０、１１２、１１４、１１６、１１８、１１９…セ
レクタ回路Ｐ１、Ｐ２、Ｐ３…パイプライン・ラッチｓｒｃ１、ｓｒｃ２、ｓｒｃ３…ソースライン１２０−１２６…乗算回路１５２、１５４、１５６…変換回路１６０…圧縮回路１７０…加算回路１８０、１８６…オーバーフロー検出論理回路４００−４０３…全加算器４２０−４２４…セレクタ回路６２１、６４１…全加算器

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）

Claims

【特許請求の範囲】

【請求項１】コンピュータ処理コアにおいて、データ
ソースからデータディスティネーションまで条件付でＬ
ビットデータを移動する方法であって、（ｉ）Ｌビットのビットパターンを提供するステップ、
および、（ｉｉ）第１論理状態にある前記ビットパターンの各ビ
ットについて、データソースにおいて対応位置にあるビ
ットを、データディスティネーションにおいて対応的に
位置付けられるビット位置に転送するステップ、の諸ステップを含むデータ移動方法。
【請求項２】請求項１の方法であって、さらに、複数の汎用レジスタを含むレジスタファイルを供給する
こと、第１汎用レジスタを選び、前記ビットパターンをその中
にロードすること、第２汎用レジスタを選び、前記データをその中にロード
すること、および、第３汎用レジスタをディスティネーションとして選ぶこ
と、を含み、前記転送ステップが、前記第２汎用レジスタのビット
を、前記第３汎用レジスタのビット位置に書き込むこと
を含み、前記第１レジスタの対応位置のビットが第１論理状態に
あるとき、前記第２レジスタのビット位置のみを前記第
３レジスタの対応位置に書き込む、ことを特徴とする方法。
【請求項３】請求項２の方法であって、前記第１論理
状態が論理「１」であることを特徴とする方法。
【請求項４】請求項２の方法であって、レジスタファ
イル中のレジスタがＬビットレジスタであることを特徴
とする方法。
【請求項５】汎用レジスタファイルを有するＲＩＳＣ
準拠コンピュータ処理コアにおいて、２個のレジスタ間
でデータを移動させる方法であって、単一のマシンレベル命令を受け取るステップ、前記単一命令をデコードするステップであって、このデ
コードに応じて、レジスタファイルから第１および第２レジスタにアクセ
スするステップ、および、出力ビットパターンを生成するステップであって、第１
論理状態にある前記第２レジスタの各ビットについて、
前記第１レジスタから対応位置ビットを生成するステッ
プ、の諸ステップを含むデータ移動方法。
【請求項６】請求項５の方法であって、さらに、前記
単一命令のデコードに応じて、レジスタファイルから第
３レジスタにアクセスするステップを含み、前記第１レ
ジスタの対応位置ビットが、前記第３レジスタの対応ビ
ット位置にコピーされることを特徴とする方法。
【請求項７】請求項５の方法であって、さらに、前記
単一命令のデコードに応じて、レジスタファイルから第
３レジスタにアクセスするステップを含み、前記出力ビ
ットパターンを生成するステップが、第２論理状態にあ
る前記第２レジスタの各ビットについて、前記第３レジ
スタから対応位置ビットを生成することを含むことを特
徴とする方法。
【請求項８】請求項７の方法であって、さらに、前記
単一命令のデコードに応じて、前記出力ビットパターン
を、前記第３レジスタに格納することを含む方法。
【請求項９】Ｌビットの汎用レジスタから成るレジス
タファイルを有する演算処理コアにおいて、条件付転送
論理であって、第１汎用レジスタとデータ通信する第１組のＬ個の入力
ライン、第２汎用レジスタとデータ通信する第２組のＬ個の入力
ライン、第３汎用レジスタとデータ通信する第３組のＬ個の入力
ライン、Ｌ個のセレクタ回路であって、各セレクタ回路が、第１
入力と第２入力、選択制御入力、および、出力を備え、
前記セレクタ回路は、その第１もしくは第２入力を、そ
の選択入力の論理状態に応じて、その出力に供給するの
に有効であるセレクタ回路、を含み、各第１入力ラインは、前記セレクタ回路の内の一つの第
１入力に結合し、各第３入力ラインは、前記セレクタ回路の内の一つの第
２入力に結合し、各第２入力ラインは、前記セレクタ回路の内の一つの選
択入力に結合する、ことを特徴とする条件付転送論理。
【請求項１０】請求項９の条件付転送論理であって、
前記セレクタ回路の出力がグループ化されて、１個のＬ
ビットデータを形成することを特徴とする条件付転送論
理。
【請求項１１】演算装置において、データを配列換え
する方法であって、マシンレベルの単一命令を受け取る
ステップ、前記単一命令をデコードするステップであって、このデ
コードステップに応じて、（ｉ）第１汎用レジスタを読み出して、第１データを生
成するステップ、（ｉｉ）第２汎用レジスタを読み出して、第２データ
を生成するステップ、（ｉｉｉ）前記第２データに基づいて、前記第１デー
タからデータフィールドを読み出し、さらに、その順序
を前記第２データに基づいて配置することによって、第
３データを生成するステップ、の諸ステップを含むデータの配列換え方法。
【請求項１２】請求項１１の方法であって、前記第２
データは、各々第１データ内におけるデータフィールド
を特定する、Ｍ個の識別子を含み、かつ、前記副ステッ
プ（ｉｉｉ）が、前記第１データから同時にＭ個のデー
タフィールドを選ぶことを含む、ことを特徴とする方
法。
【請求項１３】請求項１２の方法であって、前記Ｍ個
の識別子はそれぞれ前記第１データにおける１個のデー
タフィールドを特定し、それによって、特定された複数
のデータフィールドが同時に選択される、ことを特徴と
する方法。
【請求項１４】請求項１１の方法であって、前記第２
データがＭ個の識別子を含み、かつ、前記副ステップ
（ｉｉｉ）が、前記第１データから読み出したデータフ
ィールドを、前記Ｍ個の識別子の順序に対応する順序に
配置することを含む、ことを特徴とする方法。
【請求項１５】請求項１１の方法であって、前記第２
データはＭ個の識別子を含み、かつ、前記副ステップ
（ｉｉｉ）が、前記第１データから、各々Ｍ個の識別子
の内の一つによって特定される、Ｍ個のデータフィール
ドを同時に選択し、かつ、そのＭ個のデータフィールド
を、前記Ｍ個の識別子の順序に対応する順序で結合する
ことを含む、ことを特徴とする方法。
【請求項１６】請求項１１の方法であって、前記第１
データが２^N個のデータフィールドを含み、かつ、前記
第２データが、その各々がデータフィールドの内の一つ
を特定する、複数のＮビット識別子を含む、ことを特徴
とする方法。
【請求項１７】請求項１１の方法であって、さらに、
前記単一命令のデコードに応じて、第３の汎用レジスタ
にアクセスして、前記第３データをその中に格納する、
ことを含む方法。
【請求項１８】汎用レジスタファイルを有するＲＩＳ
Ｃ準拠コンピュータ処理コアにおいて、データをコピー
する方法であって、マシンレベルの単一命令を受け取るステップ、前記単一命令をデコードするステップであって、この単
一命令のデコードに応じて、前記汎用レジスタファイルの第１および第２レジスタに
アクセスするステップ、前記第１レジスタからＮ個のデータ要素よりなるソース
データを提供するステップ、前記第２レジスタから制御データを提供するステップで
あって、前記制御データはそれぞれＮ個のデータ要素の
内の一つを特定するＭ個の識別子を含むステップ、およ
び、Ｍ要素出力データを生成するステップ、の諸ステップを
含み、前記Ｍ個の識別子の各々について、ソースデータから特
定データ要素を選択し、それによってＭ個のデータ要素
を生成し、かつ、Ｍ要素出力データにおける前記選択されたデータ要素
を、Ｍ識別子の順序に対応する順序に配置する、ことを
特徴とするデータのコピー方法。
【請求項１９】請求項１８の方法であって、前記Ｍ個
の選択されたデータ要素が同時に選択されることを特徴
とする方法。
【請求項２０】請求項１８の方法であって、さらに、
前記単一命令のデコードに応じて、前記汎用レジスタフ
ァイルの第３レジスタにアクセスし、前記Ｍ要素出力デ
ータをその中に格納することを含む方法。