JPH05508499A

JPH05508499A - 特殊目的ブール演算装置のための方法およびその装置

Info

Publication number: JPH05508499A
Application number: JP3515589A
Authority: JP
Inventors: フェルプス，アンドルー　イー．; ビアード，ダグラス　アール．; ウッヅマンシー，マイケル　エイ．
Original assignee: クレイ、リサーチ、インコーポレーテッド
Priority date: 1990-06-11
Filing date: 1991-06-10
Publication date: 1993-11-25
Also published as: US5175862A; WO1991020027A1; KR930701786A; AU8525291A

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】特殊目的プール演算装置のための方法およびその装置技　術　分　野本発明は、コンピュータおよび電子論理システムにおいて用いられる算術論理関数装置に関する。さらに詳しく言えば、本発明は、極並列ビットレベルブール演算および行列操作を実行するための特殊目的プール演算装置のための方法およびその装置に関する。

先行技術最小並列コンピュータ処理システムにおいてベクトルプロセッサを使用する従来の高速スーパコンピュータの処理速度および柔軟性を向上させる努力において、本発明に対し先に提出された特許出願である、“Ｃ１ｕｓｔｅｒ　Ａｒｃｈｉｔｅｃｔｕｒｅ　ｆｏｒ　ａ　ＨＬｇｈｌｙ　Ｐａｒａｌｌｅｌ　５ｃａｌａｒ／Ｖｅｃｔ。

ｒ　Ｍｕｌｔｉｐｒｏｃｅｓｓｏｒ　Ｓｙｓｔｅｍ’と題する、ＰＣＴ出願番号ＰＣＴ／ＵＳ９０１０７６６５に記載された高度並列マルチプロセッサのためのクラスタアーキテクチャは、相当数のプロセッサを包含するように最小並列コンピュータ処理システムのプロセッサ間連絡の直接接続法を拡張するスーパコンビ、二一タアーキマルチプロセッサのためのプロセッサ間連絡および調整の問題に効果的に意を向けているが、極並列問題を演算する、大量並列の単一命令複数データ（ＳＩＭＤ）または多重命令多重データ（Ｍ　Ｉ　ＭＤ）プロセッサの効果的な代替とはなっていない。こうした形式の極並列または超微粒並行問題の場合、処理要素の個々の能力は、並行して使用できる処理要素の総数はどには重要ではない。

従来のベクトルプロセッサ型のスーパコンピュータは限られた数のプロセッサしか有していないので、それらは一般にそうした形式の開局に使用されていない。

従来のベクトルプロセッサ型、アレイプロセッサ型または大量並列コンピュータ型処理システムによって効率的に解決できない別の形式の極並列問題は、極並列ビットレベルブール演算、特にビット行列操作である。そのような極並列ビット操作問題の実例は、ＮＸＮビットアレイの移項である。この種のビットレベル操作を効率的に実行できるような、ある種のスタンドアロン型ハードワイヤードビット操作機が極めて専門的な目的のために生み出されている。しかしながら、より汎用的なコンピュータ処理システムはいずれも、極並列ピット操作問題を効率的に実行できる能力を有していない。

一部のＳＩＭＤおよびＭＩＭＤ’間遅は従来の大量並列型またはアレイプロセッサ型スーパコンピュータによって解決できるが、他の形式のスーパコンピュータにもそのような極並列問題を効率的に操作可能にするような方法および装置を付与することが望ましいであろう。さらに詳しく言えば、汎用コンピュータ処理システムから独立したスタンドアロン型の特殊なハードワイヤードプロセッサを使用せずに、極並列ビットレベルプール演算を効率的に解決できるような方法およびその装置を付与することが有利である。

発明の概要本発明は、極並列ビットレベルブール演算、特にビット行列操作を実行できる特殊目的ブール演算装置のための新規な方法および装置を供する。この特殊目的ブール演算装置は、特に、従来のベクトルプロセッサと協同して使用されるように適応されており、それにより、ベクトルプロセッサがアレイプロセッサまたは大量並列スーパコンピュータを要さずに極並列ＭＩＮＤまたはＳＩＭＤプール演算を効果的に解決できるようにする。本発明のプール演算装置は、従来のベクトルプロセッサにおいて各クロックサイクルでＮビット幅のオペランドをＮビット幅の結果に変換するためのユーザプログラム可能な、完全にバイブライン化された、並列ビット操作デバイスである。このビット操作デバイスは、ベクトルレジスタからＮＸＮビットステートアレイをロードすることによってプログラムされる。このビットステートアレイは、そのビット操作デバイスがベクトルレジスタからのオペランドのビットストリームに適用する論理変換を指定する。指定された論理変換は、ベクトルレジスタのオペランドがプール演算装置に適用された時にビット操作デバイスによって実行され、その論理変換の結果はベクトルレジスタに格納される。

本発明のプール演算装置は、従来のベクトルプロセッサを、極並列ビットレベル操作および行列問題と同様に、Ｓ　Ｉ　ＭＤ／Ｍ　Ｉ　ＭＤ極並列問題について効果的に使用できるようにする。信号処理のようなＳ　Ｉ　ＭＤ／Ｍ　Ｉ　ＭＤ問題の場合、そのビットステートアレイは、入力データをビットごとにフィルタするようにプログラムすることができる。この意味で、その個々のビット操作手段と組み合わされた、ＮＸＮビットステートアレイにおける各ビットは、単一の処理要素として動作する。好適な実施例では、そのプール演算装置は、一体となりで各クロックサイクルで６４ビット幅のオペランドを６４ビット幅の結果に変換することができる、４０９６個のそうした個々の処理要素から構成される。

本発明の目的は、並列ビットレベルブール演算を実行するように特に適応された特殊目的ブール演算装置のための方法およびその装置を供することである。

本発明の第２の目的は、従来のＳＩＭＤまたはＭＩＭＤアレイプロセッサまたは大量並列スーパコンピュータを用いずに極並列ＳＩＭＤ演算を解決できる特殊目的ブール演算装置のための方法およびその装置を供することである。

本発明の第３の目的は、従来のベクトルプロセッサにおいてビットレベル行列操作を実行できる特殊目的ブール演算装置を供することである。

本発明の上述その他の目的は、図面、好適な実施例の詳細な説明および添付した請求の範囲によって明白となるであろう。

図面の説明図１は、メインメモリにリンクを付与するアービトレーションノードに関係する単一のスカシ／ベクトルプロセッサのブロック図であり、本発明をそのベクトル処理手段に関係する特殊目的機能単位として示している。

図２は、図１に示したベクトル処理手段の詳細ブロック図である。

図３は、ベクトル処理手段内の本発明の好適な実施例によるプール演算装置の部分的なブロック図である。

図４ａ〜４ｇは、本発明のプール演算装置が実行できる各種演算を示すデータの概略図である。

図５は、本発明のプール演算装置のプール演算子の代替実施例である。

図６は、ベクトルレジスタユニットを備えたベクトルレジスタおよびスカシレジスタ、および、そのユニットの入力および出力経路を示す。

好適な実施例の説明まず、図１によって、本発明の好適な実施例のための環境を含む単一のプロセッサ１００を示すブロック図について説明する。本発明の特殊目的ブール演算装置は、多くの種類のプロセッサにおいて、かつ、本発明の範囲内において、実施できることが認識されるであろう。例えば、この特殊目的ブール演算装置は、ベクトルおよびスカシの両方の処理能力を持たない単一のベクトルプロセッサにおいても実施できよう。このプール演算装置はベクトルプロセッサと連係して使用されることが好ましいが、それをスカシプロセッサとともに用いることも可能である。しかしながら、単一命令とのそのような結合によって演算され得るそのビットステートアレイの大きさは、スカシプロセッサに関係する機能単位の大きさが小さくなるために、やはり小さくなるであろう。あるいはまた、ビットステートアレイをメモリから直接ロードする必要性のために速度が低下するかもしれない。

好適な実施例では、プロセッサ１００は、スカシ処理手段１０２およびベクトル処理手段１０４に、論理的かつ物理的に分割されている。スカシ処理手段１０２およびベクトル処理手段１０４の両者は、各自のレジスタセットおよび特殊目的の算術資源を有する。プロセッサ１００の全部のレジスタおよびデータ経路は、６４ピツ）（１ワード）幅である。スカシ処理手段１０２には、６４個のスカシＳレジスタおよび５１２個のローカルＬレジスタがある。ベクトル処理手段１０４は、１６個のベクトルレジスタを有する。このアーキテクチャは、プロセッサ１００の１個当たり総計２５６個のＳレジスタおよびＶレジスタの組合せまで支援することができる。

各プロセッサ１００はまた、そのプロセッサ１００全体に物理的に分散され、プロセッサ１００の動作に関係する制御情報を収集し設定するために使用される、制御Ｃレジスタ（図示せず）を最大２５６個まで有する。

はとんどの従来のスカシ／ベクトルプロセッサと異なり、好適な実施例の高速プロセッサ１００を含むスカラ処理手段１０２およびベクトル処理手段１０４は、同時演算の能力を有する。図１および図２に示したように、スカラ処理手段１０２およびベクトル処理手段１０４の両者は、算術機能単位１０６の形態で複数の算術資源を含んでいる。スカラ処理手段１０２では、算術機能単位１０６は、スカラユニットＳＵＯ（除算、ポツプおよびパリティ）１０６ａ、スカラユニットＳＵＩ　（浮動小数点乗算、整数乗算および論理演算）１０６ｂ、および、スカラユニット、５Ｕ２（浮動小数点加算、整数加算およびシフト演算）１０６ｃを含む。ベクトル処理手段１０４では、その算術機能単位１０６は、ベクトルユニットＶＵＯ（除算、ポツプ、パリティおよび本発明のプール演算装置）１０６ｄ、ベクトルユニットＶＵＩおよびＶＯ２（浮動小数点乗算、整数乗算および論理演算）１０６ｅ、および、ベクトルユニットＶＵ３およびＶＯ２（浮動小数点加算、整数加算、論理演算およびシフト演算）１０６ｆを含む。各機能単位１０６への内部経路１０８は、スカラ処理手段１０２およびベクトル処理手段１０４において独立して割り当てられることができ、各機能単位１０６は並行して動作することが可能で、それにより、スカラ処理手段１０２およびベクトル処理手段１０４も並行して動作することが可能になる。いずれの機能単位１０６も、スカラ処理手段１０２とベクトル処理手段１０４との間で共用されることはない。

次に図３によって、本発明のプール演算装置２００の動作について説明する。このプール演算装置２００は、ベクトル処理手段１０４に関係する機能単位１０６の一つの内部にある。プロセッサ１００の好適な実施例では、ワードの大きさは６４ビツトであるので、従って、プール演算装置２００は、６４Ｘ６４ビツトである。この実施例では、プール演算装置Ｅ２００は、ＶＵＯの機能単位１０６ｄに関係づけられている。プール演算装置２００の大きさおよびそのＮＸＮステートビットアレイならびに他の機能単位１０６に対するプール演算装置２００の位置は、プロセッサ１００のワードの大きさ、プロセッサ１００内の他の処理要素の大きさおよびプール演算装置２００に特殊目的で使用可能な回路の量に応じた設計上の選択となることが認識されるであろう。しかし、最適な効率のためには、プール演算装置２００は、有意ビット長を有するワードを入力として容易に受信し、等しい長さのワードを出力として容易に返信できるように、プロセッサ１００の近くに配置し、接続するべきであろう。

説明を容易にするために、図３は、プール演算装置２００の８×８ビット部分だけに関係する回路を示している。各ステートビット２０２は、好ましくは６４× ６４であるＮＸＮステートビットアレイの単一のステートビットを表している。

プール演算装置２００のビット操作手段２０４の動作の前に、ＮＸＮステートビットアレイの４０９６個の各ステートビット２０２は、ＬＤＢ００Ｌ命令を用いてベクトルレジスタから順次ロードされる。詳細には、行０はベクトル要素０からロードされ、行１はベクトル要素１からロードされるといったように、ベクトル要素６３からロードされる行６３まで、以下同様に行われる。好適な実施例では、■レジスタは、６４個の要素から成る。しかし、さらに大きいかまたは小さいベクトルレジスタが本発明と連係して使用することができることが認識されるであろう。例えば、ベクトル長およびベクトルオフセット制御レジスタを転送当たり６４要素だけ指定するように適切に設定してプール演算装置２００に入力値を与えるために、１２８個の要素を有するＶレジスタを使用することができよう。

このステートビットアレイは、オペランドのビットストリームで実行される論理変換を指定する。この変換は、ＢＯＯＬ命令が指定されたベクトルレジスタオペランドおよび出力ベクトルレジスタ（結果）によって実行された場合に行われる。ＬＤＢＯＯＬおよびＢＯＯＬ命令の仕様書の複写は、引用によって本明細書の一部となる付属書Ａとして本願書に付属されている。

ベクトル処理手段１０４によるＢＯＯＬ命令の実行は、入力ワード２１０からのベクトルオペランド（ベクトル要素Ｘベクトル要素）をプール演算装置２００へ入力させる。プール演算装置２００は、出力ワード２１２に格納されるベクトル結果（ベクトル要素Ｘベクトル要素）を生じるためにビット操作手段２０４を用いて変換を実行する。好適な実施例では、プール演算装置２００は、クロックサイクル当たり６４ビツトの速度で入力ワード２１０を演算し、同じ速度で出力ワード２１２に格納される結果を生成する。入力ワード２１０および出力ワード２１２の両者は、ベクトル処理手段１０４の各Ｖレジスタに内部経路および適切なマルチプレクサによって選択的に接続される。ステートビット２０２も同じく、内部経路および適切なマルチプレクサによってベクトル処理手段１０４の各Ｖレジスタに選択的に接続される。

その結果、プール演算装置２００とベクトル処理手段１０４のＶレジスタのいずれかの特定の集まりまたは群の間にはまったく依存関係がない。

次に図６によって、ベクトルレジスタユニット２３２およびその命令制ａｍ構について説明する。

ベクトル制御論理１３０は、命令発行・メモリインタフェース論理とのインタフェースを取る。この論理は、ベクトルレジスタユニット２３２の１０本の６４ビツトデータ経路入力１５０および１２本の６４ビツトデータ経路出力１５２を制御するためのマルチプレクサ（図示せず）を含む。

ベクトルレジスタへの１０本の６４ビツトデータ経路入力は、以下と結合されている。

メモリロードボー）１１６−０メモリロードボート１１６−１メモリロードボート１１６−２メモリロードボート１１６−３スカシレジスタ１２０加算、シフトおよび論理機能単位ＶＵ３加算、シフトおよび論理機能単位ＶＵ４乗算および論理機能単位ｖＵ１乗算および論理機能単位ＶＵ２除算、ポツプカウント、パリティ、先行ゼロおよびプール機能単位ＶＵＯベクトルレジスタからの１２本の６４ビツトデータ経路出力は、以下を含み、スカシレジスタ１２０と結合さメモリストアポート０／スカラレジスタ１１８−０メモリストアボート１／スカラレジスタ１１８−１除算、ポツプカウント、パリティ、先行ゼロおよびプール機能単位ＶＵＯ加算、シフトおよび論理機能単位ＶＵ３加算、シフトおよび論理機能単位ＶＵ４乗算および論理機能単位ＶＵ２／アドレス収集および分散ボート（９および１０）乗算および論理機能単位ＶＵＩベクトルレジスタユニット２３２は、１６個のベクトルレジスタｖＯ〜Ｖ１５、および、各機能単位ＶＵＯ〜ＶＵ４について１個ずつ、１群のスカシレジスタ１５４−〇〜１５４−４を含む。１６：１マルチプレクサ（図示せず）は、レジスタの出力を、機能単位ＶＵＯ−ＶＵ４のｊフィールド入力、データ書き込みポート１１８およびスカシレジスタ１２０ならびに収集／分散ボートに結合している。１７：１マルチプレクサは、現在実行中の命令のオペランドのいずれか一つがベクトルまたはスカシである場合にそれぞれ、Ｖレジスタの出力またはレジスタ１５４−０〜１５４−４の出力を機能単位ＶＵＯ〜ＶＵ４のにフィールド入力へ結合させる。第２のスカシレジスタ１５６−０〜１５６−４の集合は、各機能単位ＶＵＯ〜ＶＵ４の待ち行列の従属的に開始された命令のスカシデータについて付与される。従属的に開始された各命令がその機能単位での実行に付されると、そのスカシデータはそのレジスタ１５６−ｎから対応するレジスタ１５４−ｎへ移される。これらのレジスタは、後述のようにしてその５個のレジスタから充填される。

各ベクトルレジスタ（ｖＯ〜ｖ１５）は、クロック当たり１度読み書きすることができる。これは、単一のベクトルレジスタが、１度に２個以上の命令のオペランドを供給することができない、または、１度に２個以上の命令から結果を受け取ることができないということを意味している。ベクトルレジスタは、それが現在読み出されている場合、「読み出しを予約」される。これは、そのレジスタを読み出す別の命令の開始を抑える。同様に、ベクトルレジスタは、それが現在実行中の命令の目的の結果のレジスタである場合、「書き込みを予約」される。

これは、そのレジスタへ書き込むはずの以降の命令の開始を阻止する。

しかし、単一のベクトルレジスタは、そのレジスタが有効なベクトル命令のｊおよびにフィールドの両者によって指定された場合、単一の機能単位へ２つのオペランドを供給することができる。

ベクトル制御論理１３０はまた、複数のベクトル命令を連結するための機構も付与する。これは、ベクトルレジスタからの読み出し命令が、別の命令がそのレジスタにデータを書き込んでいる間に、開始することができるということを意味する。ベクトル制御は、その新しい命令が、それにデータを供給している先行の命令より優位にならないように保証する。

ベクトルレジスタが「読み出しを予約」されている場合、そのレジスタに書き込むための別の命令は開始されない。以前の読み出しが完了すると、数サイクルのオーバヘッドが存在し、その後、そのベクトルレジスタへの書き込みが開始することになる。

図３に示すような好適な実施例では、ビット操作手段２０４によって実施される論理変換は、ＡＮＤ／ＸＯＲブール関数である。従って、ビット操作手段２０４は、各行の末尾にＸＯＲ演算子２２２を伴い、その行の各ビットにＡＮＤ演算子２２０を使用している。入力ワード２１０は、ステートビットアレイの各行とビットごとに論理積をとられる。このＡＮＤ演算の結果は次に、排他的論理和をとられ、各行が出力ワード２１２に格納される単一の出力ビットを供給するように、ステートビットアレイの各行について減じられる。出力ワード２１２はその後、■レジスタの適切なベクトル要素へその結果として配信される。ＡＮＤ、ＯＲ，ＸＯＲ，ＮＡＮＤまたはＮＯＲといった他のプール演算子も同様に、他の形式のプール論理結果を生じるために本発明のビット操作手段２０４において一緒に組み合わせることができることを理解されるであろう。例えば、ＸＯＲ演算子２２２はＡＮＤ演算子と交替できるであろうし、ＡＮＤ演算子２２２はＸＯＲ演算子と交替できるであろう。この組合せは、特定のビットパターン結合のビット行列を探索する際に有効であろう。

次に図４ａ〜４ｇによって、本発明の好適な実施例のプール演算装置２００の想定可能な演算のいくつかを示す。これらの略図では、ビットステートアレイ２０２の内容が示されており、次に、入力ワード２１０ヘベクトル要素×ベクトル要素としてロードされる入力ベクトルの内容が続き、最後にベクトル要素Ｘベクトル要素として出力ワード２１０へ格納される際の出力ベクトルの内容が示されている。入力ベクトルおよび出力ベクトルの表の内容の表記法は、ｒｅｄ、６３Ｊはベクトル要素０、ビット６３を指し、ｒｅ６１．６２Ｊはベクトル要素６１、ビット６２を指すといったようになっている。

図４ａは、入力ベクトルが出力ベクトルに同一に再現される一致演算を示している。図４ｂは、入力ベクトルのビットの順序が行ごとに反転されるビット反転演算を示している。図４Ｃは、入力ベクトルの選択された列（この例では、列０，６２および６３）が抽出されるフィールド抽出演算を示している。図４ｄは、選択された列が抽出され、残りの列がその空白列を充填するために右シフトされる選択（バッキング）演算を示している。

図４ｅは、入力ビツトステートアレイ２０２による指定に従って列が「ランダムにシャツフル」される順列演算を示している。図４ｆは、入力ベクトルのビットの順序が列ごとに反転される回転演算を示している。この演算の場合、オペランドベクトルがビットステートアレイ２０２にロードされ、入力ベクトルは所望の論理演算を生じるために用いられる一定のビットステート行列を保持するために使用される点に留意されたい。最後に、図４ｇは、オペランドベクトルのビットの全部が列および行の両方について反転される移項演算を示している。

図４ｇは、本発明が、本発明によらなければ従来のベクトルプロセッサまたはアレイプロセッサにとっては極めて困難であるはずの並列ビット操作をいかにして実行できる能力があるかを述べる好例となろう。この移項演算は、ビット行列の完全な移項が望まれる信号または画像処理において使用される共通の行列演算である。

ＡＮＤ／ＸＯＲブール関数以外の補助的なプール演算子が複数の論理移項演算にお°ける選択を付与するためにビット操作手段２０４と交換可能に接続し得ることも認識されるであろう。例えば、図５に示すように、２つ以上の論理変換がビット操作手段２０４に関係する回路において実施できよう。その後、所望の論理変換がＢＯＯＬ命令の下位演算コードフィールドで指定できよう。この場合、下位演算コードフィールドが０であるＢＯＯＬ命令は、ＡＮＤ／ＸＯＲブール結合を選択するのに対し、下位演算コードフィールドが１であるＢＯＯＬ命令は、ＸＯＲ／ＡＮＤプール結合を選択することになろう。

アベンディクス　Ａ−１ＬＤＢＯＯＬｖ　２８ｘｘ　ｘｘＫＫブール演算装置にベクトルをロードするアセンブリ構文　１ｄｂｏｏｌ　ｖｋホールド発行条件　なしホールド初期化条件　ｖｋは読み出しに予約。

ＶＬは予約。

ＦＵＯ機能単位経路は予約。

機能　これは、ベクトルレジスタＶｋの内容をプール演算装置にロードする。要素０は出力ビット０に対応するワードにロードされ、以下同様。ペクトル長がプール演算装置の大きさより小さい場合、残りのワードは不変化。それらの要素０、、、（ＶＬ）−１だけが変更される。

完了時　ｖｋが読み出される：　ＴＢＤ＋　（ｖＬ）サイクルＦＵＯ機能単位経路は自由：（ＶＬ）サイクルまたはＴＢＤサイクル。いずれか大きいはう。

例外　なし注釈　ＶＭはこの演算にいかなる作用も持たない。

アベンディクス　Ａ〜２ＢＯＯＬｖｖ　２９１１ＸＸＫＫブール演算装置でベクトルを演算するアセンブリ構文　ｂｏｏｌ　ｖｋ　ｖｉホールド発行条件　なしホールド初期化条件　ｖｋは読み出しに予約、ｖｉは書き込みに予約。

ＶＬは予約。

ＦＵＯ機能単位経路は予約。

機能　ベクトルレジスタｖｋの各要素がプール演算装置に供給される。結果の各ビットはＡＮＤ−ＸＯＲ演算によって得られ、そのワードはそのビットについてプール演算装置に格納される。すなわち、結果の要素′　ｅ′のビット′ｂ′は、プール算術演算装置に最後に格納されたワード゛　ｂ′およびベクトルｖｋのワード′　ｅ′ の関数である。ｖｉのそれらの要素０．、、−（ＶＬ）−１だけが変更され、ＶＭの対応するビットが１である要素だけが変更される。

完了時　ｖｋが読み出される：　ＴＢＤ＋　（ＶＬ）サイクルＦＵＯ機能単位経路は自由：（ＶＬ）サイクルまたはＴＢＤ（未決定）サイクル。いずれか大きいほう。

例外　なし注釈　この機能は、チルト、ビット反転、ビット圧縮などを実施するために使用される。

好ましい実施例の説明を提示してきたが、本発明の精神を逸脱することなく、各種変更がなし得ることが想定される。従って、本発明の範囲は、好適な実施例の説明ではなく、添付請求の範囲によって決定されなければならないと意図する。

Ｆｉｇ、　１Ｆｉｇ、３Ｆｉｇ、４ａＦｉｇ、５要　約　書特殊目的プール演算装置（２００）は、極並列ビットレベルブール演算、特にビット行列操作を実行できる。

この特殊目的プール演算装置（２００）は、特に、従来ロセッサまたは大量並列スーパコンピュータを要さずに極並列ＭＩＭＤまたはＳＩＭＤプール演算を効果的に解決できるようにする。

国際調査報告

Claims

【特許請求の範囲】

１．特殊目的ブール演算装置であって、Ｎ行およびＮ列のＮ×Ｎ次元を有するブール行列のビットレベル値を格納するためのビットステートアレイ手段と、Ｎビット幅のオペランドのビットレベル値を供給するための入力ベクトル手段と、前記ビットステートアレイ手段および前記入力ベクトル手段に動作可能に接続されている、前記ブール行列および前記入力オペランドの各対応するビットのブール演算を実行するためのビット操作手段と、前記ビット操作手段に動作可能に接続されている、前記ブール演算の結果をＮビット幅の結果として受信するための出力ベクトル手段とを含むことを特徴とする特殊目的ブール演算装置。
２．請求項１記載のブール演算装置であって、前記入力ベクトル手段および前記出力ベクトル手段がベクトルプロセッサに動作可能に接続されていることを特徴とする特殊目的ブール演算装置。
３．請求項１記載のブール演算装置であって、前記ビット操作手段が、前記ビットステートアレイ手段および前記入力ベクトル手段の各ビット値に関係するＡＮＤ演算子、および、前記ブール行列の各行の各ＡＮＤ演算子の出力端子に動作可能に接続されたＸＯＲ演算子を含むことを特徴とする特殊目的ブール演算装置。
４．請求項１記載のブール演算装置であって、前記ビット操作手段が、各クロックサイクルで１つの入力オペランドを受信し、１つの出力ベクトルを生成する能力を有することを特徴とする特殊目的ブール演算装置。
５．請求項１記載のブール演算装置であって、前記ビット操作手段がさらに、前記ビット操作手段を呼び出す命令における下位演算コードフィールドに応答して前記ビット操作手段によって実行される１つ以上のブール演算を選択するための制御手段を含むことを特徴とする特殊目的ブール演算装置。
６．ベクトルオペランドについて極並列ビットレベル操作を実行するための方法であって、（ａ）Ｎビット幅のオペランドについて実行される論理変換を指定するビット行列を表現する１群のビット値を備えたＮ×Ｎビットステートアレイをロードする段階と、（ｂ）前記Ｎビット幅のオペランドを入力ワードをロードする段階と、（ｃ）行×行の結果を生成するために前記入力ワードの各ビットと前記ビットステートアレイの各行との間でビットごとに第１の論理演算を実行する段階と、（ｄ）各行の結果を単一ビット出力に減少するために第２の論理演算を実行する段階と、（ｅ）出力ワードの各行について前記単一のビット出力を格納する段階とを含むことを特徴とする方法。
７．請求項６記載の方法であって、段階（ａ）が前記Ｎ×Ｎビットステートアレイをベクトルレジスタから順次ロードすることによって実施されることを特徴とする方法。
８．請求項６記載の方法であって、段階（ｂ）が前記入力ワードをベクトルレジスタからロードすることによって実施されることを特徴とする方法。
９．請求項６記載の方法であって、段階（ａ）が前記Ｎ×Ｎビットステートアレイをベクトルレジスタから順次ロードすることによって実施され、段階（ｂ）が前記入力ワードをベクトルレジスタからロードすることによって実施され、かつ、（ｆ）前記出力ワードをベクトルレジスタに格納する段階をさらに含むことを特徴とする方法。
１０．請求項６記載の方法であって、前記第１の論理演算がＡＮＤ演算であり、前記第２の論理演算がＸＯＲ演算であることを特徴とする方法。
１１．請求項６記載の方法であって、前記第１の論理演算がＸＯＲ演算であり、前記第２の論理演算がＡＮＤ演算であることを特徴とする方法。
１２．請求項６記載の方法であって、１つの出力ベクトル結果が各クロックサイクルで生成されることを特徴とする方法。