JPH08314717A

JPH08314717A - コンピュータ及びコンピュータ動作方法

Info

Publication number: JPH08314717A
Application number: JP8146619A
Authority: JP
Inventors: Mackenzie Sidwell Nathan; マッキンゼーサイドウェルネイサン; Catherine L Barnaby; ルイスバーナビィーキャサリン
Original assignee: S G S THOMSON MICROELECTRON Ltd; SGS THOMSON MICROELECTRONICS; STMicroelectronics Ltd Great Britain
Current assignee: S G S THOMSON MICROELECTRON Ltd; SGS THOMSON MICROELECTRONICS; STMicroelectronics Ltd Great Britain
Priority date: 1995-05-17
Filing date: 1996-05-16
Publication date: 1996-11-29
Anticipated expiration: 2016-05-16
Also published as: EP0743592B1; EP1197845A2; DE69622637T2; US6145077A; EP1197845A3; GB9509987D0; EP0743592A1; DE69622637D1; JP3771968B2

Abstract

(57)【要約】【課題】再構成インストラクションを実行してデータ
ストリング内のオブジェクトを再編成することでメモリ
への読み出し及び記憶動作を最小化する。【解決手段】プロセッサ及び離散データの複数のサブ
ストリングを有するデータストリングを処理するための
データ記憶回路を有するコンピュータが提供され、サブ
ストリングはそれぞれ同じビット長を有する第１サブス
トリング、最終サブストリング及び少なくとも四つの中
間サブストリングを有し、コンピュータは少なくとも一
つのデータストリング再構成インストラクションを含む
インストラクションセットを有し、再構成インストラク
ションがデータストリングに実行されて第１及び最終サ
ブストリングを変わらない位置で保持し、再構成された
データにおいて少なくとも二つの中間サブストリングの
位置を互いに交換する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はデータの操作に関す
る。本発明は全面的という訳ではないが詳細にはコンピ
ュータ及びコンピュータを動作させて所謂 "パックイン
ストラクション（命令）”の実行に関連してデータ値の
操作を実行する方法に関する。

【０００２】

【従来の技術及び発明が解決しようとする課題】パック
インストラクションはパックオペランドで実行される。
パックオペランドは複数のサブストリングからなるビッ
トストリングを有し、各サブストリングは特定のデータ
値を画定し、本明細書中では "オブジェクト”と称され
る。従って、オペランドは複数のオブジェクトを有す
る。各オペランドはレジスタ記憶装置を有し、その記憶
装置は単一のアドレスによってアドレス可能な予め決め
られたビット容量を有し、各ビット位置は個々にアドレ
スできない。従って、各オペランド内で個々のオブジェ
クトをアドレス且つ処理することはできない。

【０００３】"パックインストラクション”によってオ
ブジェクトを個々に識別せずにオペランド内の全てのオ
ブジェクトに対して共通の動作が実行される。単一の共
通動作はオペランドをメモリの中へ及び該メモリの外へ
ロードすることである。

【０００４】別の "パックインストラクション”は演算
インストラクションであり、このインストラクションは
個々のオペランドからのオブジェクトのペアに対して同
じ演算動作を並列実行し、複数の結果オブジェクトを有
するパック結果オペランドを提供する。パックインスト
ラクションの実行のために、コンピュータはパック演算
ユニットを提供し、このユニットは少なくとも一つがパ
ックされている二つのソースオペランドに動作してパッ
ク結果を生成する。

【０００５】メモリへのローディング及び記憶動作が減
少し、各レジスタを埋めることによって使用可能なレジ
スタ容量を最大にすることができるため、単一のオペラ
ンド内のオブジェクトのセットを一緒に処理することが
有益であるのは明らかである。

【０００６】しかしながら、オペランド内のオブジェク
トのシーケンスはオブジェクトがメモリに記憶される順
序によって予め決められているという不利益を有する。
このシーケンスはメモリからオブジェクトを検索してそ
のオブジェクトを別個のレジスタに一時的に記憶し、異
なる位置のメモリに再度書き込むことによってのみ変え
ることが可能である。これはマトリックス操作に特に要
求される。この性質の動作はメモリへの繰り返しのアク
セス及び長いインストラクションシーケンスを必要とす
る。インストラクションシーケンスはメモリの空間を占
有する。インストラクションシーケンスの長さをできる
だけ短くすることが所望される。メモリアクセスは動作
を遅くするため、このアクセスを最小化することも所望
される。

【０００７】

【課題を解決するための手段】本発明の一態様に従う
と、コンピュータが提供されており、そのコンピュータ
は、プロセッサ及び離散データの複数のサブストリング
を有するデータストリングを処理するためのデータ記憶
回路を有し、前記サブストリングはそれぞれ同じビット
長を有する第１サブストリング、最終サブストリング及
び少なくとも四つの中間サブストリングを有し、前記コ
ンピュータは少なくとも一つのデータストリング再構成
インストラクションを含むインストラクションセットを
有し、前記再構成インストラクション又は各再構成イン
ストラクションがデータストリングに実行されて前記第
１サブストリング及び最終サブストリングを変わらない
位置で保持し、再構成データストリングにおいて少なく
とも二つの中間サブストリングの位置が互いに交換され
る。

【０００８】従って単一の再構成インストラクションの
実行によってオペランド内の二つのオブジェクトの配置
をスワップすることが可能である。

【０００９】この性質を有する本明細書中で述べられる
インストラクションの主なカテゴリーは "フリップ”イ
ンストラクションである。

【００１０】他に二つの画定されるインストラクション
のカテゴリーがあり、それらは "ジップ”及び "アンジ
ップ”インストラクションである。これらのインストラ
クションのいくつかもペアのオブジェクトのオペランド
内で互いに位置をスワップする性質を有する。

【００１１】以下の記述から明らかになるように、再構
成インストラクションは単一のレジスタ記憶装置の内容
又は二つのレジスタ記憶装置の内容に対して実行され、
二つのレジスタ記憶装置の内容がデータストリングを画
定する。

【００１２】インストラクションが単一のレジスタ記憶
装置の内容に関して実行されると、幾つかのインストラ
クションに対してデータストリングが考慮され、このイ
ンストラクションは前記データストリングの第１の半分
を形成する第１ビットシーケンス及び前記データストリ
ングの第２の半分を形成する第２ビットシーケンスによ
って形成された偶数のサブストリングを含む。再構成イ
ンストラクションが実行されて前記第１シーケンスから
選択されたサブストリングと前記第２シーケンスから選
択されたサブストリングとを交換する。或いは、各シー
ケンスの二つの中間サブストリングの位置を交換するこ
ともできる。第１シーケンス及び第２シーケンスは別個
のレジスタ記憶装置に選択的に保持される。

【００１３】再構成インストラクションが実行されて前
記再構成データストリングにおける前記第１及び第２シ
ーケンスからサブストリングを１つ置きに配置すること
ができる。

【００１４】再構成インストラクションが実行されてデ
ータストリングの各半分の１つ置きのサブストリングを
変わらない位置で保持し、前記第１及び最終サブストリ
ングを変わらない位置で保持する。

【００１５】再構成インストラクションが実行されて半
分のデータストリングの奇数番目のサブストリング間に
他方の半分のデータストリングの奇数番目のサブストリ
ングを挿入することができる。

【００１６】本発明はコンピュータを動作させる方法を
提供し、その方法は、離散データを表しデータストリン
グの複数のサブストリングの一つを形成する複数のビッ
トシーケンスをデータ記憶装置に保持し、各サブストリ
ングはそれぞれ同じビット長を有する第１サブストリン
グ、最終サブストリング及び少なくとも四つの中間サブ
ストリングを含み、更に少なくとも一つのデータストリ
ング再構成インストラクションを含むインストラクショ
ンシーケンスを実行し、再構成インストラクション又は
各再構成インストラクションがデータストリングに実行
されて前記第１及び最終サブストリングを変わらない位
置で保持し、再構成されたデータストリングにおいて少
なくとも二つの中間サブストリングの位置を交換する。

【００１７】本発明はコンピュータを動作させる方法を
提供し、その方法は、離散データを表しデータストリン
グの複数のサブストリングの一つを形成する複数のビッ
トシーケンスをデータ記憶装置に保持し、インストラク
ションシーケンスを実行し、そのインストラクションシ
ーケンスは、データストリング内の個々のサブストリン
グを識別せずに前記データストリングのサブストリング
に共通動作を実行する第１インストラクション、データ
ストリング内の個々のサブストリングを識別して少なく
とも一つのサブストリングを変わらない位置で保持しつ
つデータストリング内の少なくとも二つの中間サブスト
リングの位置を交換してデータストリングを再構成する
第２インストラクション、更にデータストリング内の前
記サブストリングを識別せずに再構成されたデータスト
リングのサブストリングに共通動作を実行する第３イン
ストラクションを含む。

【００１８】この方法において、インストラクションの
シーケンスが実行され、そのシーケンスにおいて、第１
インストラクションはオペランド内の個々のオブジェク
トを識別せず、第２インストラクションはオペランド内
のオペランドを再配置し、第３インストラクションは更
に共通動作を実行する。これはパック演算環境で動作を
実行するのに特に有益である。

【００１９】本発明はコンピュータを提供し、コンピュ
ータはプロセッサ、メモリ及びデータストリング内の離
散データのサブストリングを形成するビットシーケンス
を保持するデータ記憶回路を有し、前記コンピュータは
インストラクションシーケンスを前記メモリに記憶し、
そのインストラクションシーケンスはデータストリング
内の前記サブストリングの識別なしで前記データストリ
ングのサブストリングに共通動作を指定する第１インス
トラクション、データストリング内の個々のサブストリ
ングを識別して少なくとも一つのサブストリングを変わ
らない位置で残しつつデータストリング内の少なくとも
二つのサブストリングの位置を互いに交換してデータス
トリングを再構成する第２インストラクション、及びデ
ータストリング内の前記サブストリングの識別なしで再
構成データストリングのサブストリングに更に共通動作
を実行する第３インストラクションを含む。

【００２０】本発明の再構成インストラクションはマト
リックス操作を実行する場合に特に有益である。従っ
て、本発明はコンピュータシステムを動作させてマトリ
ックス転置動作を実行する方法を更に提供しており、そ
の方法は、各々がマトリックスの行及び列の位置のデー
タ値を表す複数のサブストリングからデータストリング
を形成し、本発明の再構成インストラクションを使用し
てデータストリングを再構成して選択された行及び列の
値の交換を実行する。

【００２１】本発明の請求項１の態様では、コンピュー
タであって、プロセッサ及び離散データの複数のサブス
トリングを有するデータストリングを処理するためのデ
ータ記憶回路を有し、前記サブストリングは同じビット
長を有する第１サブストリング、最終サブストリング及
び少なくとも四つの中間サブストリングを有し、前記コ
ンピュータは少なくとも一つのデータストリング再構成
インストラクションを含むインストラクションセットを
有し、前記再構成インストラクション又は各再構成イン
ストラクションがデータストリングに実行されて前記第
１及び最終サブストリングを変わらない位置で保持し、
再構成されたデータにおいて少なくとも二つの中間サブ
ストリングの位置を互いに交換する、ことを含む。

【００２２】本発明の請求項２の態様では、請求項１の
態様において、前記データストリングは前記データスト
リングの第１の半分を形成するビットの第１シーケンス
及び前記データストリングの第２の半分を形成するビッ
トの第２シーケンスによって形成された偶数のサブスト
リングを含み、前記再構成インストラクションが実行さ
れて前記第１シーケンスから選択されたサブストリング
と前記第２シーケンスから選択されたサブストリングを
交換する、ことを含む。

【００２３】本発明の請求項３の態様では、請求項２の
態様において、前記再構成インストラクションが実行さ
れて前記再構成データストリングにおいて前記第１及び
第２シーケンスからのサブストリングを１つ置きに配置
する、ことを含む。

【００２４】本発明の請求項４の態様では、請求項２又
は３の態様において、前記再構成インストラクションが
実行されて前記データストリングの各半分の１つ置きの
サブストリングを変わらない位置で保持し、変わらない
位置の前記第１及び最終サブストリングを保持する。

【００２５】本発明の請求項５の態様では、請求項１乃
至４の態様において、前記再構成インストラクションが
実行されてデータストリングの半分の奇数番目のサブス
トリング間に前記データストリングの他方の半分の奇数
番目のサブストリングを挿入する、ことを含む。

【００２６】本発明の請求項６の態様では、前述の請求
項のいずれかの態様において、データ記憶回路は各々が
単一のアドレスによってアドレス可能な予め決められた
ビット容量を有する複数のレジスタ記憶装置を有する。

【００２７】本発明の請求項７の態様では、請求項６の
態様において、データストリングは再構成インストラク
ションの実行の前に前記レジスタ記憶装置の一つに保持
される。

【００２８】本発明の請求項８の態様では、請求項６の
態様において、データストリングは二つのレジスタ記憶
装置の内容を有し再構成インストラクションの実行の前
に二つのレジスタ記憶装置に保持される。

【００２９】本発明の請求項９の態様では、コンピュー
タであって、前記コンピュータはプロセッサ、メモリ及
びデータストリング内の離散データのサブストリングを
形成するビットシーケンスを保持するデータ記憶回路を
有し、前記コンピュータはインストラクションシーケン
スを前記メモリに記憶し、そのインストラクションシー
ケンスはデータストリング内の前記サブストリングの識
別なしで前記データストリングのサブストリングに共通
動作を指定する第１インストラクション、データストリ
ング内の別個のサブストリングを識別し、少なくとも一
つのサブストリングを変わらない位置で保持しつつデー
タストリング内の少なくとも二つのサブストリングの位
置を互いに交換してデータストリングを再構成する第２
インストラクション及びデータストリング内の前記サブ
ストリングの識別なしで再構成されたデータストリング
のサブストリングに更に共通動作を指定する第３インス
トラクションを含む。

【００３０】本発明の請求項１０の態様では、請求項９
の態様において、前記第２インストラクションは前記デ
ータストリングにおいて前記データストリングの第１及
び最終サブストリングを変わらない位置で保持する。

【００３１】本発明の請求項１１の態様では、コンピュ
ータを動作させる方法であって、その方法は、離散デー
タを表しデータストリングの複数のサブストリングの一
つを形成する複数のビットシーケンスをデータ記憶装置
に保持し、各サブストリングは同じビット長を有する第
１サブストリング、最終サブストリング及び少なくとも
４つの中間サブストリングを含み、更に少なくとも一つ
のデータストリング再構成インストラクションを含むイ
ンストラクションシーケンスを実行し、再構成インスト
ラクション又は各再構成インストラクションが実行され
て前記再構成データストリングの第１の半分を形成する
第１ビットシーケンス及び前記再構成データストリング
の第２の半分を形成する第２ビットシーケンスによって
形成された偶数のサブストリングを含む再構成データス
トリングを生成し、前記再構成インストラクションが実
行されて互いに隣接する原データストリングの第１サブ
ストリング及び１つ置いた次のサブストリングを配置す
ることによって第１シーケンスを生成し、互いに隣接す
る原データストリングの第２サブストリング及び１つ置
いた次のサブストリングを配置することによって第２シ
ーケンスを生成する。

【００３２】本発明の請求項１２の態様では、コンピュ
ータを動作させる方法であって、その方法は、各々が離
散データを表しデータストリングの複数のサブストリン
グの一つを形成する複数のビットシーケンスをデータ記
憶装置に保持し、前記サブストリングはそれぞれ同じビ
ット長を有する第１サブストリング、最終サブストリン
グ及び少なくとも二つの中間サブストリングを含み、更
に少なくとも一つのデータストリング再構成インストラ
クションを含むインストラクションシーケンスを実行
し、前記再構成インストラクション又は各再構成インス
トラクションがデータストリングに実行されて第１及び
最終サブストリングを変わらない位置で保持し、再構成
されたデータストリングにおいて少なくとも二つの中間
サブストリングの位置を互いに交換する、ことを含む。

【００３３】本発明の請求項１３の態様では、請求項１
２の態様において、前記データストリングは前記データ
ストリングの第１の半分を形成する第１ビットシーケン
ス及び前記データストリングの第２の半分を形成する第
２ビットシーケンスによって形成された偶数のサブスト
リングを含み、前記再構成インストラクションが実行さ
れて前記第１シーケンスから選択されたサブストリング
と前記第２シーケンスから選択されたサブストリングを
交換する、ことを含む。

【００３４】本発明の請求項１４の態様では、請求項１
３の態様において、前記再構成インストラクションが実
行されて前記再構成データストリングにおいて前記第１
及び第２シーケンスからのサブストリングを１つ置きに
配置する、ことを含む。

【００３５】本発明の請求項１５の態様では、請求項１
３又は１４の態様において、前記再構成インストラクシ
ョンが実行されて前記データストリングの各半分の１つ
置きのサブストリングを変わらない位置で保持し変わら
ない位置の前記第１及び最終サブストリングを保持す
る。

【００３６】本発明の請求項１６の態様では、請求項１
３乃至１５の態様において、前記再構成インストラクシ
ョンが実行されてデータストリングの半分の奇数番目の
サブストリング間に前記データストリングの他方の半分
からの奇数番目のサブストリングを挿入する、ことを含
む。

【００３７】

【発明の実施の形態】本発明をより理解し、どのように
実行されるかを示すために、添付図面を例として参照さ
れる。

【００３８】図１は本発明の第１実施の形態に従ったプ
ロセッサを示す。プロセッサは三つの実行ユニットを有
し、これらのユニットは従来通りの演算ユニット２及び
メモリアクセスユニット４を有する。更に、パック演算
ユニット６も有する。プロセッサはインストラクション
フェッチャー８、インストラクションレジスタ１０、レ
ジスタファイル１２及びインストラクションポインタ１
４も有し、これらは全てプロセッサのコントロールユニ
ット１６の制御によって動作する。レジスタファイルは
レジスタのセットを有し、各レジスタは予め決められた
ビット容量を有し、単一のアドレスでアドレス可能であ
る。レジスタ内の個々の位置にアドレスすることは出来
ない。レジスタにアクセスすると、レジスタの全体的内
容が考慮される。プロセッサは更に定数ユニット１８及
び選択ユニット２０を有する。定数ユニット１８及び選
択ユニット２０も制御ユニット１６の制御によって動作
する。プロセッサはメモリ２２と協働して動作し、該メ
モリはプロセッサの動作を実行するためのインストラク
ション及びデータ値を保持する。データ値及びインスト
ラクションはデータバス２４を介してメモリ２２へ及び
該メモリ２２から与えられる。データバス２４はメモリ
データ入力２６を介してメモリ２２へ及び該メモリ２２
からデータ値を与える。データバス２４はフェッチャー
データ入力２８を介してインストラクションフェッチャ
ー８にデータを与え、メモリアクセス読み取り入力３０
を介してメモリアクセスユニット４にデータを与える。
メモリは選択ユニット２０を介してアドレス入力３２で
アドレスされる。選択ユニット２０は制御ユニット１６
からのフェッチ信号３４を介して制御されてフェッチャ
ー８からアドレス３６を選択するか又はメモリアクセス
ユニット４からアドレス３８を選択する。制御ユニット
１６からの読み書き制御ライン４０、４２はメモリ２２
から及び該メモリ２２への読み書き動作を制御する。イ
ンストラクションフェッチャー８は制御ユニット１６の
制御によってメモリ２２からのインストラクションを以
下のようにフェッチする。インストラクションが読み取
られるアドレス３６が選択ユニット２０を介してメモリ
２２に与えられる。これらのインストラクションはデー
タバス２４を介してフェッチャーデータ入力２８に与え
られる。インストラクションフェッチャーが次にインス
トラクションをフェッチすると、又は任意のイベントに
おいて次のインストラクションが実行可能になると、ラ
イン４４を介してReady 信号が制御ユニット１６に出さ
れる。実行されるインストラクションはインストラクシ
ョンラインInst４６に沿ってインストラクションレジス
タ１０に与えられ、実行中該レジスタに保持される。イ
ンストラクションポインタ１４は、インストラクション
ポインタライン４８を介してフェッチャー８から与えら
れ実行されるインストラクションのアドレスを保持す
る。制御ユニット１６からのNewInst 信号５３に応答し
たGet 信号４７によって、インストラクションレジスタ
１０はInstライン４６の次のインストラクションを記憶
し、フェッチャー８は次のインストラクションの準備を
する。NewInst 信号５３によってインストラクションポ
インタ１４は次のインストラクションのアドレスを記憶
する。制御ユニット１１６からのブランチライン５０に
よってフェッチャー８はブランチを実行する。

【００３９】インストラクションレジスタ１０は、ソー
ス１及ソース２レジスタアドレスをReg1及びReg2として
レジスタファイルに提供する。結果レジスタアドレスは
Destとして提供される。オペコードはライン５１に沿っ
て制御ユニット１６に与えられる。更に、幾つかのイン
ストラクションは一つの又は両方のソースレジスタをエ
ンコードする代わりに定数オペランドを与える。定数は
定数ユニット１８によって提供される。インストラクシ
ョンのソース値は、入力E1,E2 でS1Reg 及びS2Reg 信号
を適切に設定することによってソース１バス５２、ソー
ス２バス５４に与えられる。ライン５１のオペコードに
従って制御ユニット１６からのPack Ops、Mem Ops 及び
ALU Ops の適切な値を提供することによって正確な実行
ユニットがイネーブルとなる。イネーブルになったユニ
ットは普通結果バス５６に結果Res を与える。これは普
通レジスタファイル１２の選択された結果レジスタDest
に記憶される。これには幾つかの例外がある。

【００４０】幾つかのインストラクションはダブル長結
果を提供する。これらのインストラクションは結果の第
１部分を通常の方法で記憶する。連続する追加の段階で
は、結果の第２部分はDouble信号５８を表すことによっ
てレジスタファイル１２の次のレジスタに記憶される。

【００４１】Branch５０にはインストラクションポイン
タ１４を読み取り且つ調節することが要求される。これ
らのBranchによってS1Reg 信号は表されないため、イン
ストラクションポインタ１４はライン６０にソース１の
値を提供する。ソース２の値は通常の方法で（レジスタ
ファイル１２のレジスタからか又は定数ユニット１８か
ら）与えられる。演算ユニット２はブランチ演算を実行
し、その結果はレジスタファイル１２ではなくNew IP入
力６４でフェッチャー８に記憶されて制御ユニット１６
からのBranchライン５０によって信号が送られる。これ
によって新しいアドレスからフェッチャーがスタートす
る。

【００４２】条件ライン６２の状態に応じて二つの段階
で条件ブランチが実行されなければならない。第１段階
では、ReadDest信号４５を表すことによって別のソース
としてDestレジスタを使用する。条件が満たされると、
次に通常のブランチソースオペランドが読み取られブラ
ンチが実行される。

【００４３】コールはリターンアドレスをセーブしなけ
ればならない。これは、ブランチターゲットを計算する
前にデスティネーションレジスタにインストラクション
ポインタ値を記憶することによって行われる。

【００４４】本明細書で述べられるコンピュータは幾つ
かの重要な性質を有する。

【００４５】ソースオペランドは常に自然ワード長であ
る。一つ、二つ又は三つのソースオペランドがありう
る。

【００４６】結果は常に自然ワード長であるか又は自然
ワード長の２倍の長さである。自然ワード長の２倍の長
さである場合は、一つではなく二つのレジスタに記憶
し、二つのレジスタを占有する特別の段階を踏むため動
作ペナルティがある。このコンピュータでは、６４ビッ
トの自然ワード長とする。つまり、レジスタファイルの
各レジスタは６４ビットの予め決められた容量を有す
る。

【００４７】実行ユニット２、４、６はインストラクシ
ョン実行間に何らの状態も保持しない。従って、連続す
るインストラクションは独立的である。

【００４８】アンパックインストラクション演算ユニット２及びメモリアクセスユニット４は制御ユ
ニット１６と共に従来通りのインストラクションセット
の以下のインストラクションを実行することができる。
以下の定義において、レジスタは、当該技術分野の技術
者には公知であるように、レジスタの中身及び記憶位置
としてのレジスタ自体を示すために使用される。 mov 定数又はレジスタをレジスタに移動する。 add ２個のレジスタを加算して結果を第３レジスタ
（ソースのいずれかと同様である）に記憶する。 sub ２個のレジスタを減算し結果を第３レジスタに
記憶する。 load 一つのレジスタをアドレスとして使用してメモ
リの位置から読み取り結果を別のレジスタに記憶する。 store 一つのレジスタをアドレスとして使用し、別の
レジスタの中身をアドレスによって特定された位置でメ
モリに記憶する。 compe ２個のレジスタ（又はレジスタと定数）が等し
いかを比較する。等しい場合、１をデスティネーション
レジスタに記憶し、そうでない場合はゼロを記憶する。 compge ２個のレジスタ（又はレジスタと定数）の順序
性を比較する。２番目が１番目より小さくなければ、デ
スティネーションレジスタに１を記憶し、そうでない場
合はゼロを記憶する。 jump 新しい位置へ無条件にジャンプする。 jumpz 特定のレジスタの中身がゼロである場合、新し
いプログラム位置にジャンプする。 jumpnz 特定のレジスタの中身がゼロでなければ新し
いプログラム位置にジャンプする。 shr 定数又は別のレジスタによってレジスタのビッ
ト毎の右シフトを実行する。符号ビットはシフトの際複
製されるため、シフトは符号が付けられる。 shl 定数又は別のレジスタによってレジスタのビッ
ト毎の左シフトを実行して結果をデスティネーションレ
ジスタに記憶する。 or/xor ２個のレジスタでビット毎のロジック動作（or
/xor) を実行し、結果をデスティネーションレジスタに
記憶する。

【００４９】パックユニット図２はパック演算ユニット６のブロック図を示す。これ
は別個のユニットの集合として示され、各々はパック演
算インストラクションの幾つかのサブセットに対して応
答可能である。別の実施では異なる方法で機能を組み合
わせることがあり得るかもしれない。このユニットはバ
イト複製ユニット７０、ツイスト及びジップユニット７
４、明確なパック演算ユニット８０及び本明細書では説
明されないが他のパック演算ユニット７２、７６、７８
を含む。これらは演算ユニット７０乃至８０を選択的に
制御するルートオペコードユニット８２に応答して動作
する。演算ユニット７０乃至８０のオペランドはソース
１バス５２、ソース２バス５４に沿って与えられる。演
算ユニットからの結果は結果バス５６に与えられる。ル
ートオペコードユニット８２へのOP入力は制御ユニット
１６（図１）からのPack Opsインストラクションを受け
る。ソース１バス及びソース２バスに与えられるオペラ
ンドは演算ユニットのそれぞれの入力バッファにロード
され、結果は一つ又は二つの出力バッファからレジスタ
ファイル１２の一つ又は二つのディスティネーションレ
ジスタに与えられる。

【００５０】明確なパック演算明確なパック演算ユニット８０は、二つのソースオペラ
ンドを各々が幾つかのパックオブジェクトを含むものと
して扱い、二つのオペランドのオブジェクトの各ペアに
動作して各ソースと同じ数のパックオブジェクトを含む
結果を生成する。サポートされる動作は、加算、減算、
比較、乗算、左シフト、右シフト等である。上記に説明
されたように、単一のアドレスを使用してレジスタをア
ドレスすることによって、オペランドがアクセスされ
る。オペランドは個々にアドレスできない複数のオブジ
ェクトを有する。

【００５１】図３はパック演算ユニット６の演算ユニッ
トを例示した図において使用される記号を示す。

【００５２】図４は、パック１６ビット数の加算、減
算、比較及び乗算を実行することができる明確なパック
演算ユニットを示す。この場合、ソース及び結果バスの
幅は６４ビットであるため、４つのパックオブジェクト
があり、それぞれは各バスで１６ビットの長さである。

【００５３】明確なパック演算ユニット８０は４つの演
算ロジカルユニットALU0-ALU3 を有し、各ユニットはラ
イン１００のオペコードによって制御され、このライン
は図２のルートオペコードユニット８２から導出され
る。ソースレジスタ１SRC1から与えられた６４ビットワ
ードは４つのパックオブジェクトS1[0]-S1[3] を含む。
ソースレジスタ２SRC2から与えられた６４ビットワード
は４つのパックオブジェクトS2[0]-S2[3] を含む。これ
らは第１入力バッファ９０及び第２入力バッファ９２に
記憶される。第１演算ロジックユニットALU0は各オペラ
ンドの第１パックオブジェクトS1[0],S2[0] に動作して
結果R[0]を生成する。第２乃至第４演算ロジックユニッ
トALU1-ALU3 も同様にオブジェクトの第２ペア乃至第４
ペアを使用してそれぞれ結果R[1]乃至R[3]を生成する。
これらは結果バッファ１０２に記憶される。従って、結
果ワードは４つのパックオブジェクトを含む。イネーブ
ルユニット１０１はユニットのうちのいくつがアクティ
ブであるべきかを決定し、出力バッファがその出力を表
すかどうかを制御する。

【００５４】インストラクションは以下の通りに表され
る。 add2p 各S1[i] にその２の補数S2[i] を加えてR[i]を
生成する。オーバーフローは無視される。 sub2p 各S2[i] の２の補数S1[i] から各S2[i] を減算
してR[i]を生成する。オーバーフローは無視される。 cmpe2p S1[i] とS2[i] を比較する。等しい場合はR[i]
を全て１に設定し、異なる場合はR[i]をゼロに設定す
る。 cmpge2ps S1[i] と符号が付けられたその２の補数のS2
[i] を比較する。S1[i]がS2[i] より大きいかS2[i] に
等しい場合はR[i]を全てゼロに設定し、S1[i] がS2[i]
より小さければR[i]をゼロに設定する。 mul2ps S1[i] とその符号付き２の補数のS2[i] を乗
算してR[i]をフル（３２ビット）プロダクトの最下位１
６ビットに設定する。

【００５５】幾つかの明確なパック演算インストラクシ
ョンは、普通一つのパックソースオペランド及び一つの
アンパックソースオペランドを使用する。図５はそのよ
うなユニットを示す。

【００５６】図５のパック演算ユニットの中身は、実質
的には図４の中身と同様である。唯一異なる点は、第２
ソースオペランドの入力バッファ９２’はアンパック形
態のソースオペランドを受けることである。入力バッフ
ァ９２’は前のようにパック形態の第１ソースオペラン
ドを受ける。アンパックソースオペランド及びパックソ
ースオペランドを使用したインストラクションの一つの
例は、シフトインストラクションであり、シフトの量は
パックされないため、全てのパックオブジェクトに対し
て同じシフトが与えられる。シフト量はアンパックであ
る必要はないが、この方がより有益である。 shl2p S1[i] をS2（パックされていない）だけ左にシ
フトしてR[i]を結果に設定する。 shr2ps 各S1[i] をS2（パックされていない）だけ右に
シフトしてR[i]を結果に設定する。シフトの際符号ビッ
トが複製されるため、シフトは符号付きである。

【００５７】同じセットの動作がパック８ビット及びパ
ック３２ビットオブジェクトに与えられることが予想さ
れる。このインストラクションは類似した名前を有する
が、"２”を "１”又は "４に置き換えたものである。

【００５８】バイト複製図６はバイト複製ユニット７０を示す。バイト複製ユニ
ットは入力バッファ１０４を有し、このバッファは単一
のオペランドを受け、このオペランドは図６では８つの
パック８ビットオブジェクトS[0]乃至S[7]を含む６４ビ
ットワードとして例示される。第１マルチプレクサ１０
６は入力として第１オブジェクトS[0]及び第２オブジェ
クトS[1]を受ける。第２マルチプレクサ１０８は入力と
して第１オブジェクトS[0]及び第３オブジェクトS[2]を
受ける。第３マルチプレクサ１１０は入力として第１マ
ルチプレクサ１０８の出力及び第４オブジェクトS[3]を
受ける。バイト複製ユニットは出力バッファ１１２も有
する。出力バッファは８つの８ビットオブジェクトR[0]
乃至R[7]としてパックされた６４ビットワードを保持す
る。出力バッファ１１２の第１及び第５の８ビット位置
は入力バッファ１０４の第１の８ビットに直接接続す
る。出力バッファ１１２の第２及び第６の８ビット位置
は、第１マルチプレクサ１０６の出力を受けるように接
続される。出力バッファ１１２の第３及び第７の８ビッ
ト位置は第２マルチプレクサ１０８の出力を受けるよう
に接続される。出力バッファ１１２の第４及び第８の８
ビット位置は第３マルチプレクサ１１０の出力を受ける
ように接続される。出力バッファの８ビット結果オブジ
ェクトはR[0]乃至R[7]と称される。タイプユニット１１
４は図２のルートオペコードユニット８２から導出され
たライン１１８のオペコードを受ける。タイプユニット
は複製されるオブジェクトのサイズを選択して３つの出
力信号Do8,Do16,Do32 の内の一つを与える。これらの出
力信号はORゲート１２０に与えられる。ORゲートの出力
によって出力バッファ１１２がイネーブルとなる。Do16
及びDo32信号は第２ORゲート１２２への入力であり、そ
の出力は第１マルチプレクサ１０６を制御する。Do32信
号自体が第２マルチプレクサ１０８及び第３マルチプレ
クサ１１０を制御する。従って、バイト複製ユニットは
ソースオペランドの最下位オブジェクト（８、１６、又
は３２ビット）を使用してそれを８、４又は２倍に複製
して出力バッファ１１２に保持されるパック６４ビット
結果を生成する。動作は８ビットピースに分解され、S
[i]及びR[i]の各々は８ビットである。幾つかのロジッ
クが異なる複製において共有される。タイプユニット１
１４は１６ビットシーケンス又は３２ビットシーケンス
のどちらを複製するかを決定する。Do16又はDo32のどち
らの信号も表されない場合、８ビットシーケンスが複製
される。

【００５９】バイト複製ユニットによってサポートされ
る三つのインストラクションは以下の通りである。 re
plp S[0]をR[0]乃至R[7]のそれぞれに複製する。 rep2p S[0]及びS[1]をi が０から３までのR[2i] 及び
R[2i+1] に複製して１６ビットを複製する。 rep4p S[0]及びS[3]をi が０から１までのR[4i] から
R[4i+3] に複製して３２ビットを複製する。

【００６０】ツイスト及びジップツイスト及びジップユニット７４によって実行される再
構成動作には三つの種類がある。それらは以下の通りで
ある。 shuffle (zip) オブジェクトストリングのペアからな
るソースストリングを使用してオブジェクトストリング
のペアからオブジェクトをインターリーブしてソースス
トリングと同じ長さの単一のストリングを生成する。こ
れはパーフェクトシャッフルである。 Sort (unzip) オブジェクトペアを含むソースストリン
グを使用してこのペアをデインターリーブしてその結果
デインターリーブされたペアの連結からなるストリング
を生成する。これはパーフェクトソートである。 Transpose (flip) ４オブジェクトを含むソースストリ
ングを使用し、適切なソースオブジェクトを交換するこ
とによって結果ストリングを生成し、マトリックス転置
のセットを実行する。

【００６１】これらの動作のうちの任意の一つは他の二
つの動作の適切な組み合わせによって構成されることが
できる。

【００６２】これら全ての変換に対してソースストリン
グは複数のベクトルからなり、各ベクトルは同じサイズ
のオブジェクトを同じ数だけ含む。これらの変換を挙げ
るためには３つの数字が必要である。 number of vectors ソース及び結果ストリングのベク
トル数を特定する。 size of vector 各ベクトルのオブジェクトの数を
特定する。 size of object 各オブジェクトのビット数を特定
する。

【００６３】インストラクションネームは変換タイプ
（zip, unzip, flip) からなり、引き続きベクトルの数
"n"が付き、各ベクトルのサイズ "v"が付き、８ビット
バイトの数として表されるオブジェクトサイズ "p"が付
く。従って、インストラクションzip4n2vlp では、zip
はインストラクションタイプを示し、4n2vlpはオペラン
ドフォーマットを特定する。この場合、zip 動作は４ベ
クトルで実行され、それぞれは２つの１バイトオブジェ
クトである。この特定の動作を行うためには、各zip は
２つのベクトルを要求するため、２つの別個のジップが
実行される。

【００６４】ソース及び結果ストリングが全体で６４又
は１２８ビットである場合、図７に示されるような９個
の固有ジップ及びアンジップ変換がある。

【００６５】このジップ及びアンジップのセットはこの
実施によってサポートされる６４及び１２８ビットスト
リングに対しては完全である。より長いストリングのジ
ップ及びアンジップは従来のmoveインストラクションと
協働したこれらのインストラクションのシーケンスによ
って実行することができる。

【００６６】６４及び１２８ビットストリングに適切な
flipは図８に示されている。これらのうちの幾つかは図
７のジップ及びアンジップの幾つかと同様である。

【００６７】ジップ及びアンジップと同様に、このフリ
ップのセットも６４及び１２８ビットストリングに対し
て完全である。より長いストリングのフリップはフリッ
プのシーケンス及び従来のmoveインストラクションによ
って実行可能である。

【００６８】図９は６４ビットジップ及びアンジップを
処理するツイスト及びジップユニット７４の部分を示
す。図９に示されるツイスト及びジップユニットのジッ
プ及びアンジップ部分は、S[0]からS[7]の８つのパック
８ビットソースオブジェクトを含む入力バッファ１３０
を含む。結果バッファ１３２はR[0]からR[7]の８個のパ
ック８ビット結果オブジェクトを保持するために提供さ
れる。結果R[0]は第１ソースオブジェクトS[0]に直接接
続する。第２ソースオブジェクトS[1]は第１入力として
第１マルチプレクサ１３４、第２マルチプレクサ１３６
及び第３マルチプレクサ１３８に与えられる。第１、第
２及び第３マルチプレクサ１３４、１３６、１３８は、
第２入力として第５ソースオブジェクトS[4]を受ける。
第４マルチプレクサ１４０は一つの入力として第３ソー
スオブジェクトS[2]及び別の入力として第１マルチプレ
クサ１３４の出力を受ける。第４マルチプレクサの出力
は第２結果オブジェクトR[1]に提供される。第２マルチ
プレクサ１３６の出力は第３結果オブジェクトR[2]を提
供される。第５マルチプレクサ１４２は入力として第３
マルチプレクサ１３８の出力及び第６ソースオブジェク
トS[5]を受ける。第５マルチプレクサ１４２の出力は第
４結果オブジェクトR[3]に与えられる。第６マルチプレ
クサ１４４は一つの入力として第４ソースオブジェクト
S[3]及び別の入力として第７ソースオブジェクトS[6]を
受ける。第６マルチプレクサの出力は、第７マルチプレ
クサ１４６の一つの入力として与えられ、該マルチプレ
クサ１４６の別の入力は第３ソースオブジェクトS[2]で
ある。第７マルチプレクサ１４６の出力は第５結果オブ
ジェクトR[4]に与えられる。第８マルチプレクサ１５０
は一つの入力として第４ソースオブジェクトS[3]を受
け、別の入力として第７ソースオブジェクトS[6]を受け
て、出力を第６結果オブジェクトR[5]に与える。第９マ
ルチプレクサ１５２は一つの入力として第４ソースオブ
ジェクトS[3]を受け、別の入力として第７ソースオブジ
ェクトS[6]を受ける。第９マルチプレクサ１５２の出力
は第１０マルチプレクサ１５４に与えられ、該第１０マ
ルチプレクサは第２入力として第６ソースオブジェクト
S[5]を受ける。第１０マルチプレクサ１５４の出力は第
７結果オブジェクトR[6]を提供する。第８ソースオブジ
ェクトS7は第８結果オブジェクトR7を提供するように該
結果オブジェクトに直接接続する。タイプユニット１６
２は図２のルートオペコードユニット８２から導出され
たライン１６０のオペコードを受ける。タイプユニット
１６２はツイスト及びジップユニット７４のジップ及び
アンジップ部分で実行されるインストラクションを定め
る。この目的のために、該タイプユニットは４つの出力
信号zip2n2v2p 、unzip2n4vlp 、zip2n4vlp 及びzip4n2
vlp のうちの１つを与える。zip2n4vlp 及びzip4n2vlp
出力は第１ORゲート１６４に与えられ、その出力は第８
マルチプレクサ１５０を制御する。出力信号zip4n2vlp
は第２ORゲート１６６にも与えられ、このゲート１６６
はunzip2n4vlp の出力を受ける。第２ORゲートの出力は
第４、第５、第７及び第１０マルチプレクサを制御す
る。信号unzip2n4vlp は第３及び第６マルチプレクサを
制御する。出力zip2n2v2p は第１及び第９マルチプレク
サを制御する。タイプユニット１６２の４つ全ての出力
は第３ORゲート１６８に与えられ、そのゲート１６８は
出力バッファ１３２がイネーブルかどうかを決定する。
図９においてロジックパスの幾つかは共有されるため、
１０個の８ビットマルチプレクサしか必要としない。ソ
ース及び結果はパック８ビットオブジェクトとして示さ
れる。しかしながら、ある一つのインストラクションで
はこの実施はパック１６ビットオブジェクトのみに画定
され、これはソース及び結果８ビットオブジェクトのペ
アを使用することによって達成される。

【００６９】６４ビットジップ及びアンジップは以下の
通りである。 zip4n2v1p ２つの８ビットオブジェクトからなるベク
トルをジップ（インターリーブ）する。これは同じベク
トルのアンジップ（デインターリーブ）と同様である。 zip2n4v1p ４つの８ビットオブジェクトからなるベク
トルをジップ（インターリーブ）する。 unzip1n4v1p ４つの８ビットオブジェクトからなるベク
トルをアンジップ（デインターリーブ）する。 zip2n2v2p ２つの１６ビットオブジェクトからなるベ
クトルをジップ（インターリーブ）する。これは同じオ
ブジェクトのアンジップ（デインターリーブ）と同様で
ある。

【００７０】図１０はダブル長８ビットジップ及びアン
ジップインストラクションを実行するツイスト及びジッ
プユニットの部分を示す。このツイスト及びジップユニ
ットの部分は第１及び第２入力バッファ１７０、１７２
を有し、各バッファは６４ビットワードを保持する。入
力バッファ１７０、１７２に保持される６４ビットワー
ドは、S1[0] からS2[7] までラベル付けされた１６個の
オブジェクトを有する連続データストリングとしてみな
すことができる。第１及び第２出力バッファ１７４、１
７６があり、それぞれ６４ビットワードを保持する。結
果はライン１７８の出力である。６個の切り換えスイッ
チ１８０乃至１９０があり、それぞれ２つの入力及び２
つの出力を有する。図１０に例示されるように、切り換
えスイッチ１８０乃至１９０の入力は第１及び第２入力
バッファ１７０、１７２の位置に接続する。図１０に例
示されるように切り換えスイッチ１８０乃至１９０の出
力は第１及び第２出力バッファ１７４、１７６の位置に
接続する。図７に例示されたようなzip2n8v1p 動作又は
unzip2n8v1p 動作のいずれかが実施されるように接続さ
れる。図１０から分かるように、第１入力バッファS1
[0] の第１位置及び第２入力バッファS2[7] の最終位置
はそれぞれ出力バッファの第１位置R[0]及び第２出力バ
ッファの最終位置R[15] に接続する。このようにして、
第１及び最終オブジェクトのデータストリングはジップ
及びアンジップインストラクションに従ったデータスト
リングの再構成後も変化しないままである。タイプユニ
ット１９２は図２のルートオペコードユニット８２から
導出されたライン１６０のオペコードを受ける。タイプ
ユニット１９２は、再構成インストラクションがジップ
インストラクションであるか又はアンジップインストラ
クションであるか、即ち、zip2n8v1p であるか又はunzi
p2n8v1p であるかに応じて２つの信号を出力する。これ
らの出力信号はORゲート１９６に与えられる。unzip2n8
v1p 信号は切り換えスイッチ１８０乃至１９０を制御す
る。ORゲート１９６の出力は２つのAND ゲート１９８、
２００に与えられる。AND ゲート１９８はDouble信号５
８も受ける。AND ゲート２００は逆のDouble信号５８を
受ける。AND ゲート２００は第１出力バッファ１７４を
制御し、AND ゲート１９８は第２出力バッファ１７６を
制御する。２つの出力バッファはDouble信号によって制
御され、該Double信号によって第１出力バッファ１７４
はその中身をライン１７８に沿って第１デスティネーシ
ョンレジスタに与え、次に状態を変化させ、第２出力バ
ッファ１７６はその中身をライン１７８に沿ってレジス
タファイル１２の連続レジスタに与える。

【００７１】処理される２つのインストラクションは以
下の通りである。 zip2n8v1p ８個の８ビットオブジェクトからなるベク
トルをジップ（インターリーブ）する。 unzip2n8v1p ８個の８ビットオブジェクトからなるベク
トルをアンジップ（デインターリーブ）する。

【００７２】図１１はダブル長１６ビット及び３２ビッ
トジップ及びアンジップインストラクションを実行する
ツイスト及びジップユニットの部分を示す。この部分は
第１及び第２入力バッファ２０２、２０４を有し、それ
ぞれは４つのパック形態の１６ビットオブジェクトを画
定する６４ビットワードを保持する。２つのオブジェク
トは３２ビットジップインストラクションを使用するこ
とによって一緒に処理することができる。第１及び第２
出力バッファ２０６及び２０８はそれぞれ４つのパック
１６ビットオブジェクトR[0]乃至R[3]、R[4]乃至R[7]を
画定する６４ビットワードを保持する。結果はライン２
１０に与えられる。Double信号５８は出力バッファがそ
の出力を表すシーケンスを制御する。ツイスト及びジッ
プユニットの他の部分と同様に、第１オブジェクトの第
１入力バッファは第１出力バッファの第１オブジェクト
位置に直接接続する。同様に、第２入力バッファ２０４
の最終ソースオブジェクト位置は第２出力バッファ２０
８の最終結果オブジェクト位置R[7]に直接接続する。

【００７３】第１マルチプレクサ２１０は第１入力とし
てソースオブジェクトS1[1] 及び第２入力としてソース
オブジェクトS1[2] を受ける。第２マルチプレクサ２１
２は第１入力として第２ソースオブジェクトS1[1] 及び
第２入力として第３ソースオブジェクトS1[2] を受け
る。第３マルチプレクサ２１４は第１入力として第２ソ
ースオブジェクトS1[1] 及び第２入力として第２入力バ
ッファの第１ソースオブジェクトS2[0] を受ける。第４
マルチプレクサ２１６は第１入力としてソースオブジェ
クトS1[3] 及び第２入力としてソースオブジェクトS2
[2] を受ける。第５マルチプレクサ２１８は第１入力と
してソースオブジェクトS2[1] 及び第２入力としてソー
スオブジェクトS2[2] を受ける。第６マルチプレクサ２
２０は第１入力としてソースオブジェクトS2[1] 及び第
２入力としてソースオブジェクトS2[2] を受ける。第１
マルチプレクサ２１０の出力は第２出力バッファ２０８
の第１結果オブジェクトR[4]に与えられる。第２マルチ
プレクサ２１２の出力は第７マルチプレクサ２２２に与
えられ、この第７マルチプレクサは第２出力としてソー
スオブジェクトS2[0] を受ける。第２マルチプレクサ２
２２の出力は第１出力バッファ２０６の第２結果オブジ
ェクトR[1]に与えられる。第３マルチプレクサ２１４の
出力は第１出力バッファ２０６の第３結果オブジェクト
R[2]に与えられる。第４マルチプレクサ２１６の出力は
第２出力バッファ２０８の第２結果オブジェクトR[5]に
与えられる。第５マルチプレクサ２１８の出力は第８マ
ルチプレクサ２２４の第１出力として与えられ、この第
８マルチプレクサは第２入力としてソースオブジェクト
S1[3] を受ける。第８マルチプレクサ２２４の出力は第
２出力バッファ２０８の第３結果オブジェクトR[6]に与
えられる。第６マルチプレクサ２２０の出力は第１出力
バッファ２０６の第４結果オブジェクトR[3]に与えられ
る。タイプユニット２２６はライン１６０で図２のルー
トオペコードユニット８２から導出されたライン１６０
のオペコードを受ける。タイプユニットはツイスト及び
ジップユニットによって実行される再構成動作のタイプ
に応じて３つの出力信号を生成する。これらの信号は、
zip2n4vp2p、unzip2n4v2p 及びzip2n2v4p である。これ
らの信号はORゲート２２８に与えられ、その出力は二つ
のAND ゲート２３０及び２３２に与えられる。AND ゲー
ト２３０はDouble信号も受ける。AND ゲート２３２はDo
uble信号の逆転バージョンを受ける。AND ゲート２３
０、２３２の出力は出力バッファ２０６、２０８の動作
を制御する。

【００７４】zip2n4v2p 信号は第７及び第８マルチプレ
クサ２２２、２２４を制御する。unzip2n4v2p 信号は第
１、第２、第３、第４、第５及び第６マルチプレクサを
制御する。

【００７５】ツイスト及びジップユニットのこの部分に
よって処理される３つのインストラクションは以下の通
りである。 zip2n4v2p ４個の１６ビットオブジェクトからなるベ
クトルをジップ（インターリーブ）する。 unzip2n4v2p ４個の１６ビットオブジェクトからなる
ベクトルをアンジップ（デインターリーブ）する。 zip2n2v4p ２個の３２ビットオブジェクトからなる
ベクトルをジップ（インターリーブ）する。同じベクト
ルのアンジップ（デインターリーブ）と同様である。

【００７６】図１２は８ビットflipを実行するツイスト
及びジップユニットの部分を示す。これはシングル長及
びダブル長の両方の動作を行う。図１２において、２つ
の入力バッファ２３４及び２３６があり、それぞれは８
ビットオブジェクトとしてパックされた６４ビットワー
ドを含む。第１及び第２入力バッファ２３４、２３６の
隣接ペアはそれぞれマルチプレクサ２３８−２５２に与
えられる。マルチプレクサ２５４−２６４の第２セット
は以下のように配置される。第２セットの第１マルチプ
レクサ２５４は第１入力として第１出力バッファ２３４
の第２ソースオブジェクトを受け、第２入力として第１
セットの第３マルチプレクサ２４２の出力を受ける。第
２セットの第２マルチプレクサ２５６は第１入力として
第１出力バッファ２３４の第５ソースオブジェクトを受
け、第２入力として第１セットの第５マルチプレクサ２
４６の出力を受ける。第２セットの第３マルチプレクサ
２５８は第１入力として第１出力バッファ２３４の第４
ソースオブジェクトを受け、第２入力として第１セット
の第４マルチプレクサ２４４の出力を受ける。第２セッ
トの第４マルチプレクサ２６０は第１入力として第１出
力バッファ２３４の第７ソースオブジェクトを受け、第
２入力として第１セットの第６マルチプレクサの出力を
受ける。第２セットの第５マルチプレクサ２６２は第１
入力として第１出力バッファの第６ソースオブジェクト
を受け、第２入力として第１セットの第７マルチプレク
サ２５０の出力を受ける。第２セットの第６マルチプレ
クサ２６４は第１入力として第１出力バッファ２３４の
第８ソースオブジェクトを受け、第２入力として第１セ
ットの第８マルチプレクサ２５２の出力を受ける。ツイ
スト及びジップユニットの８ビットフリップ部分も出力
バッファ２６６を含み、８ビットパックオブジェクトと
して６４ビットワードを収容する。第１結果オブジェク
トは第１セットの第１マルチプレクサ２３８の出力とし
て与えられる。第２ソースオブジェクトは第２セットの
第２マルチプレクサ２５６の出力として与えられる。結
果の第３オブジェクトは第１セットの第２マルチプレク
サ２４０の出力として与えられる。結果の第４オブジェ
クトは第２セットの第４マルチプレクサ２６０の出力と
して与えられる。結果の第５オブジェクトは第２セット
の第１マルチプレクサ２５４の出力として与えられる。
結果の第６オブジェクトは第２セットの第５マルチプレ
クサ２６２の出力として与えられる。結果の第７オブジ
ェクトは第２セットの第３マルチプレクサ２５８の出力
として与えられる。結果の第８オブジェクトは第２セッ
トの第６マルチプレクサ２６４の出力として与えられ
る。タイプユニット２６８はライン１６０でオペコード
を受け、実行される再構成動作のタイプに応じて２つの
信号を生成する。これらの信号はflip2n4v1p及びflip2n
8v1pである。これらの信号はORゲート２７０に与えら
れ、その出力は出力バッファ２６６を制御する。Double
信号５８は第１セットのマルチプレクサ２３８−２５２
を制御する。Double信号はダブル長インストラクション
の上部分に対してのみアクティブである。第２セットの
マルチプレクサ２５４−２６４はflip2n8v1p信号によっ
て制御される。

【００７７】図１２では単一の６４ビット出力バッファ
のみが例示されている。flip2n4v1pインストラクション
が実行されているとき、バッファは図９に示される単一
の出力バッファに対応する。2n8v1pflipがインストラク
ションが実行されているとき、出力バッファは最初に結
果のRESULT LOW部分を保持してその部分を与え、Double
信号５８が表されると結果のRESULT HIGH 部分を保持
し、その部分を与える。

【００７８】ユニットによって処理される２つのインス
トラクションは以下の通りである。 flip2n4v1p ４個の８ビットオブジェクトからなるベ
クトルをフリップする。 flip2n8v1p ８個の８ビットオブジェクトからなるベ
クトルをフリップする。

【００７９】図１３は１６ビット及び３２ビットフリッ
プを実行するツイスト及びジップユニットの部分を示
す。８ビットフリップユニットと同様に、この部分もシ
ングル長及びダブル長の両方のフリップを実行する。３
２ビットオブジェクトは１６ビットオブジェクトのペア
として処理される。

【００８０】ユニットによって処理される３つのインス
トラクションは以下の通りである。 flip2n2v2p ２個の１６ビットオブジェクトからなる
ベクトルをフリップする。 flip2n4v2p ４個の１６ビットオブジェクトからなる
ベクトルをフリップする。 flip2n2v4p ２個の３２ビットオブジェクトからなる
ベクトルをフリップする。

【００８１】これら３つのフリップのうちの２つはジッ
プのうちの２つと同様である。従って、両方のインスト
ラクションセットがある場合、１つのハードウェアのセ
ットのみを実施すればよい。

【００８２】このツイスト及びジップユニットの部分は
第１及び第２入力バッファ２７２、２７４を有し、それ
ぞれのバッファは第１入力バッファではS1[0] からS1
[3] まで、第２入力バッファではS2[0] からS2[3] まで
の４つの１６ビットオブジェクトとしてパックされた６
４ビットワードを収容する。マルチプレクサ２７６乃至
２９０の第１セットは第１及び第２入力バッファ２７
２、２７４からの入力を以下のように受ける。第１セッ
トの第１マルチプレクサ２７６は第１入力として第１ソ
ースオブジェクトS1[0] を受け、第２入力として第３ソ
ースオブジェクトS1[2] を受ける。第１セットの第２マ
ルチプレクサ２７８は第１入力として第１ソースオブジ
ェクトS1[0] を受け、第２入力として第２ソースオブジ
ェクトS1[1]を受ける。第１セットの第３マルチプレク
サ２８０は第１入力として第２ソースオブジェクトS1
[1] を受け、第２入力として第４ソースオブジェクトS1
[3] を受ける。第１セットの第４マルチプレクサ２８２
は第１入力として第３ソースオブジェクトS1[2] を受
け、第２入力として第４ソースオブジェクトS1[3] を受
ける。第１セットの第５マルチプレクサ２８４は第１入
力として第２バッファ２７４の第１ソースオブジェクト
S2[0] を受け、第２入力として第３ソースオブジェクト
S2[2] を受ける。第１セットの第６マルチプレクサ２８
６は第１入力として第２バッファ２７４の第１ソースオ
ブジェクトS2[0] を受け、第２入力として第２ソースオ
ブジェクトS2[1] を受ける。第７マルチプレクサ２８８
は第１入力として第２ソースオブジェクトS2[1] を受
け、第２入力として第４ソースオブジェクトS2[3] を受
ける。第８マルチプレクサ２９０は第１入力として第２
入力バッファ２７４の第３ソースオブジェクトS2[2] を
受け、第２入力として第４ソースオブジェクトS2[3] を
受ける。マルチプレクサ２９２乃至２９８の第２セット
は以下のように入力を受ける。第２セットの第１マルチ
プレクサ２９２は、第１セットの第１及び第２マルチプ
レクサ２７６、２７８の出力を入力として受ける。第２
セットの第２マルチプレクサ２９４は第１セットの第３
及び第６マルチプレクサ２８０、２８６からの出力を入
力として受ける。第２セットの第３マルチプレクサ２９
６は第１セットの第４及び第５マルチプレクサ２８２、
２８４の出力を入力として受ける。第２セットの第４マ
ルチプレクサ２９８は第１セットの第７及び第８マルチ
プレクサ２８８、２９０の出力を入力として受ける。第
３セットのマルチプレクサ３００−３０４は以下のよう
に入力を受ける。第３セットの第１マルチプレクサ３０
０は第１入力バッファ２７２の第３ソースオブジェクト
S1[2] 及び第２セットの第２マルチプレクサ２９４の出
力を入力として受ける。第３セットの第２マルチプレク
サ３０２は第１入力バッファ２７２の第２ソースオブジ
ェクトS1[1] 及び第２セットの第３マルチプレクサ２９
６の出力を入力として受ける。第３セットの第３マルチ
プレクサ３０４は第１入力バッファ２７２の第４ソース
オブジェクトS1[3] 及び第２セットの第４マルチプレク
サ２９８の出力を入力として受ける。

【００８３】ツイスト及びジップユニットのこの部分も
４つの１６ビットオブジェクトとしてパックされた６４
ビットワードを収容することができる出力バッファ３０
６を含む。第１結果オブジェクトR[0]は第２セットの第
１マルチプレクサ２９２から導出される。第２結果オブ
ジェクトR[1]乃至第３結果オブジェクトR[3]は第３セッ
トのマルチプレクサ３００−３０４の出力から導出され
る。

【００８４】タイプユニット３０６はライン１６０で図
２のルートオペコードユニット８２からのオペコードを
受ける。タイプユニットはユニットのこの部分によって
実行される再構成インストラクションのタイプに応じて
３つの信号を生成する。この信号は、flip2n2v2p、flip
2n4v2p及びflip2n2v4pである。これらの信号はORゲート
３０８に与えられ、このゲートの出力は出力バッファ３
０６を制御する。Double信号５８は第１セットのマルチ
プレクサ２７６乃至２９０を制御する。flip2n2v4p信号
は第２セットのマルチプレクサを制御する。flip2n2v2p
信号は第３セットのマルチプレクサを制御する。

【００８５】ユニットのこの部分がflip2n2v2pユニット
を実行するために使用される場合、出力バッファはその
インストラクションのために図９に示された単一の出力
バッファである。flip2n4v2p又はflip2n2v4pインストラ
クションを実行するためにユニットのこの部分が使用さ
れると、出力バッファは図１２を参照して上記に述べら
れたように動作する。

【００８６】バイト複製及びバイトツイスト及びジップ
インストラクションの使用例が与えられる。以下の例に
おいて、アセンブリ表記はレジスタオペランドＲｎ（ｎ
は任意の数）を示す。定数オペランドはｎである。ダブ
ル長結果を生成するインストラクションはレジスタのペ
アの一番目のみを特定する。次に結果の上部分が次のレ
ジスタに書き込まれる。ラベルは "：" が続くアルファ
ベット及び数字からなるストリングによって示される。

【００８７】一つの有益な動作はマトリックス転置であ
る。

【００８８】マトリックス転置ジップ、アンジップ又はフリップはマトリックスを転置
するために使用される。単一のインストラクションだけ
で転置できないマトリックスは、より長いサブユニット
に動作する一連のステップで処理することができる。

【００８９】マトリックスは、左上からスタートして順
に各行に沿って右下まで進むことで表される。この行順
序付け表示は機能ユニットの図で使用された表示と逆で
ある。

【００９０】フリップの使用例えば、フリップを使用した１６ビットオブジェクトの
４×４マトリックスの転置において、４つの４分割部分
（それぞれは２×２の１６ビットオブジェクトである）
は個々に転置され、４×４マトリックスの右上及び左下
の４分割部分はスワッピングされる。これは、マトリッ
クスを３２ビットオブジェクトの２つのインターリーブ
された２×２マトリックスとして処理することによって
実行することができる。図１４はこれを実行するための
動作を示す。

【００９１】転置を実行するためのアセンブリコードは
外１に示される。

【００９２】

【外１】

【００９３】ジップの使用ジップ（パーフェクトシャッフル）を使用して同じマト
リックスを転置するためには、１６ビットオブジェク
ト、次に１６ビットオブジェクトのペア、更に４つの１
６ビットオブジェクトについての一連のシャッフルが要
求される。

【００９４】これを実行するためのアセンブリコードは
外２に示される。

【００９５】

【外２】

【００９６】アンジップの使用アンジップ（パーフェクトソート）を使用して同じマト
リックスを転置するためには、１６ビットオブジェクト
のソートが必要である。図１６はこれを実行するための
動作を示す。

【００９７】これを実行するためのアセンブリコードは
外３に示される。

【００９８】

【外３】

【００９９】外３はアンジップを使用したバイトの４×
４マトリックスの転置を示す。

【０１００】マトリックス乗算マトリックス乗算は乗算累積のセットからなる。最も一
般的なケースはベクトル（１次元）とマトリックス（２
次元）を乗算して別のベクトルを生成することである。Ｍ₀，₀．．．Ｍ₀，_M-1 Ｖ₀．．．Ｖ_N-1 Ｍ_N-1，₀．．．Ｍ_N-1，_M-1

【０１０１】[V] 及び[M] が１６ビットデータを含むな
らば、演算を行うためにパック１６ビット乗算を使用す
ることができる。

【０１０２】乗算を行うための一つの方法は、バイト複
製インストラクションを使用してベクトルの各要素を複
製し、複製された各要素とマトリックスの正確な行のパ
ック乗算を実行し、部分積のパック加算を行うことであ
る。マトリックス転置の必要はないことに注意すべきで
ある。これを実行するためのコードシーケンスは外４に
示される。

【０１０３】

【外４】

【０１０４】ベクトル要素の複製の別の方法はジップを
使用することである。図１７はこれを実行するための動
作を示す。

【０１０５】マトリックス乗算のために行うコードシー
ケンスは外５に示される。

【０１０６】

【外５】

【０１０７】データフォーマット変換異なるフォーマット間の変換はジップ及びアンジップに
よって実行されうる。より大きなフォーマットへの符号
付き変換には、符号ビットを複製することが必要であ
り、これは符号付き右シフトによって実行される。表１
は種々の符号なしフォーマット間の変換に要求されるイ
ンストラクションを示し、表２は符号付き変換を示す。

【０１０８】

【表１】

【０１０９】

【表２】

【０１１０】ストリングサーチストリングが特定のキャラクタを含んでいるかを知る必
要があるときにストリングサーチが使用される。サーチ
キャラクタを複製し、パック比較を実行することによっ
て、幾つかのキャラクタが同時にテストされることがで
きる。このサーチのコードシーケンスは外６に示され
る。

【０１１１】

【外６】

【０１１２】複製１、２又は４バイトオブジェクトの複製を実行するため
にジップ、アンジップ又はフリップを使用することが可
能である。外７、外８及び外９はそれぞれどのようにし
て最右のバイトを複製するかを示す。

【０１１３】

【外７】

【０１１４】

【外８】

【０１１５】

【外９】

【０１１６】ＲＧＢαと平面ビデオフォーマットとの変
換グラフィックス環境で使用するためには、ＲＧＢα（又
はパック）フォーマットは、単一のピクセルのレッド、
グリーン、ブルー及びアルファカラー情報を含む４つの
連続バイトである。従って、各ピクセルは４つの連続バ
イトを含む。平面フォーマットはレッド、グリーン、ブ
ルー及びアルファカラー情報の全てがメモリの別個の領
域に記憶されている場合である。従って全ての同じカラ
ー情報は連続的であり、各ピクセルはメモリの４つの非
連続バイトに対応する。

【０１１７】ＲＧＢαフォーマットと平面フォーマット
の変換はジップ又はアンジップによって実行される。ジ
ップを使用したＲＧＢαから平面への変換シーケンスは
外１０に示され、アンジップを使用した変換シーケンス
は外１１に示される。

【０１１８】

【外１０】

【０１１９】

【外１１】

【０１２０】ジップを使用した平面からＲＧＢαへの変
換シーケンスは外１２に示され、アンジップを使用した
変換シーケンスは外１３に示される。

【０１２１】

【外１２】

【０１２２】

【外１３】

【０１２３】フリップを使用して変換を実行することも
可能であるが、ピクセルがインターリーブするため望ま
しくない。

【０１２４】回転ジップ又はアンジップによってマトリックス回転を実行
することができる。このためのシーケンスは外１４及び
外１５に示される。グラフィックオブジェクトの回転を
サポートするために類似したシーケンスを使用すること
もできる。

【０１２５】

【外１４】

【０１２６】

【外１５】

【図面の簡単な説明】

【図１】コンピュータのプロセッサ及びメモリのブロッ
ク図である。

【図２】パック演算ユニットのブロック図である。

【図３】図面において使用される記号の意味を示す。

【図４】２つのパックソースオペランドに動作する明確
なパック演算ユニットのブロック図である。

【図５】パックソースオペランド及びアンパックソース
オペランドに動作する明確な演算パックユニットのブロ
ック図である。

【図６】バイト複製ユニットを示す。

【図７】ジップ及びアンジップ再構成動作を示す。

【図８】フリップ再構成動作を示す。

【図９】６４ビットジップ及びアンジップを実行するツ
イスト及びジップユニットの部分を示す。

【図１０】ダブル長８ビットジップ及びアンジップを実
行するツイスト及びジップユニットの部分を示す。

【図１１】ダブル長１６ビット及び３２ビットジップ
及びアンジップを実行するツイスト及びジップユニット
の部分を示す。

【図１２】８ビットフリップを実行するツイスト及びジ
ップユニットの部分を示す。

【図１３】１６ビット及び３２ビットフリップを実行す
るツイスト及びジップユニットの部分を示す。

【図１４】フリップインストラクションを使用したマト
リックス転置を示す。

【図１５】ジップインストラクションを使用したマトリ
ックス転置を示す。

【図１６】アンジップインストラクションを使用したマ
トリックス転置を示す。

【図１７】ジップインストラクションを使用して複製が
どのように実行されるかを示す。

───────────────────────────────────────────────────── フロントページの続き (72)発明者キャサリンルイスバーナビィーイギリス国ＢＳ17 ２ＱＹブリストルコールピットヒースラウンドウェイズ 183

Claims

【特許請求の範囲】

【請求項１】コンピュータであって、プロセッサ及び
離散データの複数のサブストリングを有するデータスト
リングを処理するためのデータ記憶回路を有し、前記サ
ブストリングは同じビット長を有する第１サブストリン
グ、最終サブストリング及び少なくとも四つの中間サブ
ストリングを有し、前記コンピュータは少なくとも一つ
のデータストリング再構成インストラクションを含むイ
ンストラクションセットを有し、前記再構成インストラ
クション又は各再構成インストラクションがデータスト
リングに実行されて前記第１及び最終サブストリングを
変わらない位置で保持し、再構成されたデータにおいて
少なくとも二つの中間サブストリングの位置を互いに交
換する、コンピュータ。
【請求項２】前記データストリングは前記データスト
リングの第１の半分を形成するビットの第１シーケンス
及び前記データストリングの第２の半分を形成するビッ
トの第２シーケンスによって形成された偶数のサブスト
リングを含み、前記再構成インストラクションが実行さ
れて前記第１シーケンスから選択されたサブストリング
と前記第２シーケンスから選択されたサブストリングを
交換する、請求項１記載のコンピュータ。
【請求項３】前記再構成インストラクションが実行さ
れて前記再構成データストリングにおいて前記第１及び
第２シーケンスからのサブストリングを１つ置きに配置
する、請求項２記載のコンピュータ。
【請求項４】前記再構成インストラクションが実行さ
れて前記データストリングの各半分の１つ置きのサブス
トリングを変わらない位置で保持し、変わらない位置の
前記第１及び最終サブストリングを保持する、請求項２
又は３記載のコンピュータ。
【請求項５】前記再構成インストラクションが実行さ
れてデータストリングの半分の奇数番目のサブストリン
グ間に前記データストリングの他方の半分の奇数番目の
サブストリングを挿入する、請求項１乃至４記載のコン
ピュータ。
【請求項６】データ記憶回路は各々が単一のアドレス
によってアドレス可能な予め決められたビット容量を有
する複数のレジスタ記憶装置を有する、前述の請求項の
いずれかに記載のコンピュータ。
【請求項７】データストリングは再構成インストラ
クションの実行の前に前記レジスタ記憶装置の一つに保
持される、請求項６記載のコンピュータ。
【請求項８】データストリングは二つのレジスタ記
憶装置の内容を有し再構成インストラクションの実行の
前に二つのレジスタ記憶装置に保持される、請求項６記
載のコンピュータ。
【請求項９】コンピュータであって、前記コンピュ
ータはプロセッサ、メモリ及びデータストリング内の離
散データのサブストリングを形成するビットシーケンス
を保持するデータ記憶回路を有し、前記コンピュータは
インストラクションシーケンスを前記メモリに記憶し、
そのインストラクションシーケンスはデータストリング
内の前記サブストリングの識別なしで前記データストリ
ングのサブストリングに共通動作を指定する第１インス
トラクション、データストリング内の別個のサブストリ
ングを識別し、少なくとも一つのサブストリングを変わ
らない位置で保持しつつデータストリング内の少なくと
も二つのサブストリングの位置を互いに交換してデータ
ストリングを再構成する第２インストラクション及びデ
ータストリング内の前記サブストリングの識別なしで再
構成されたデータストリングのサブストリングに更に共
通動作を指定する第３インストラクションを含む、コン
ピュータ。
【請求項１０】前記第２インストラクションは前記
データストリングにおいて前記データストリングの第１
及び最終サブストリングを変わらない位置で保持する、
請求項９記載のコンピュータ。
【請求項１１】コンピュータを動作させる方法であ
って、その方法は、離散データを表しデータストリング
の複数のサブストリングの一つを形成する複数のビット
シーケンスをデータ記憶装置に保持し、各サブストリン
グは同じビット長を有する第１サブストリング、最終サ
ブストリング及び少なくとも４つの中間サブストリング
を含み、更に少なくとも一つのデータストリング再構成
インストラクションを含むインストラクションシーケン
スを実行し、再構成インストラクション又は各再構成イ
ンストラクションが実行されて前記再構成データストリ
ングの第１の半分を形成する第１ビットシーケンス及び
前記再構成データストリングの第２の半分を形成する第
２ビットシーケンスによって形成された偶数のサブスト
リングを含む再構成データストリングを生成し、前記再
構成インストラクションが実行されて互いに隣接する原
データストリングの第１サブストリング及び１つ置いた
次のサブストリングを配置することによって第１シーケ
ンスを生成し、互いに隣接する原データストリングの第
２サブストリング及び１つ置いた次のサブストリングを
配置することによって第２シーケンスを生成する、コン
ピュータ動作方法。
【請求項１２】コンピュータを動作させる方法であ
って、その方法は、各々が離散データを表しデータスト
リングの複数のサブストリングの一つを形成する複数の
ビットシーケンスをデータ記憶装置に保持し、前記サブ
ストリングはそれぞれ同じビット長を有する第１サブス
トリング、最終サブストリング及び少なくとも二つの中
間サブストリングを含み、更に少なくとも一つのデータ
ストリング再構成インストラクションを含むインストラ
クションシーケンスを実行し、前記再構成インストラク
ション又は各再構成インストラクションがデータストリ
ングに実行されて第１及び最終サブストリングを変わら
ない位置で保持し、再構成されたデータストリングにお
いて少なくとも二つの中間サブストリングの位置を互い
に交換する、コンピュータ動作方法。
【請求項１３】前記データストリングは前記データ
ストリングの第１の半分を形成する第１ビットシーケン
ス及び前記データストリングの第２の半分を形成する第
２ビットシーケンスによって形成された偶数のサブスト
リングを含み、前記再構成インストラクションが実行さ
れて前記第１シーケンスから選択されたサブストリング
と前記第２シーケンスから選択されたサブストリングを
交換する、請求項１２記載の方法。
【請求項１４】前記再構成インストラクションが実
行されて前記再構成データストリングにおいて前記第１
及び第２シーケンスからのサブストリングを１つ置きに
配置する、請求項１３記載の方法。
【請求項１５】前記再構成インストラクションが実
行されて前記データストリングの各半分の１つ置きのサ
ブストリングを変わらない位置で保持し変わらない位置
の前記第１及び最終サブストリングを保持する請求項１
３又は１４記載の方法。
【請求項１６】前記再構成インストラクションが実
行されてデータストリングの半分の奇数番目のサブスト
リング間に前記データストリングの他方の半分からの奇
数番目のサブストリングを挿入する、請求項１３乃至１
５のいずれかに従った方法。