JP2022506345A

JP2022506345A - ドット積計算機およびその演算方法

Info

Publication number: JP2022506345A
Application number: JP2021523664A
Authority: JP
Inventors: コナー、ファーガル; ベルナルド、デイヴィッド; ハンラハン、ニアル
Original assignee: モビディウスリミテッド
Priority date: 2018-11-08
Filing date: 2019-11-04
Publication date: 2022-01-17
Also published as: US11023206B2; US20210247961A1; US20200387350A1; WO2020094586A1; US20200150926A1; CN113330421B; CN113330421A; US11656845B2; KR20210092751A; DE112019005586T5; EP3877839A1; US10768895B2

Abstract

スパースベクトルを用いてドット積計算を実行する方法、装置、システムおよび製造物品が開示される。例示的ドット積計算機は、制御ベクトルのトレーリングバイナリカウントを決定するカウンタであって、制御ベクトルは、第１スパースベクトルの第１ビットマップ及び第２スパースベクトルの第２ビットマップに対する第１論理ＡＮＤ演算の第１結果に対応する、カウンタを備える。例示的ドット積計算機は、トレーリングバイナリカウントに基づいてマスクベクトルを生成するマスク生成器をさらに備える。例示的ドット積計算機は、インタフェースであって、第１ビットマップ及びマスクベクトルについての第２論理ＡＮＤ演算の第２結果に基づく第１スパースベクトルの第１の値にアクセスするため、および第２ビットマップおよびマスクベクトルについての第３論理ＡＮＤ演算の第３結果に基づく第２スパースベクトルの第２の値にアクセスするためのインタフェースをさらに備える。例示的ドット積計算機は、第１の値と第２の値とを乗算して、積を生成する乗算器をさらに備える。

Description

［関連出願］
本特許は、米国特許出願第１６／１８４，９８５号（出願日：２０１８年１１月８日）の恩恵を主張する出願から生じる。米国特許出願第１６／１８４，９８５号の内容は全て、参照により本願に組み込まれる。米国特許出願第１６／１８４，９８５号の優先権をここに主張する。

本開示は概して、プロセッサに関する。より詳しくは、ドット積計算機とその演算方法に関する。

近年、画像処理能力に対する要求は、高出力に特化したデスクトップハードウェアを超え、パーソナルおよび／または別のモバイルデバイスへの期待になっている。モバイルデバイスは、サイズの制約、温度管理の制約、および／または、電力制約により制限される処理能力を通常有する。

例示的な畳み込みニューラルネットワークエンジンの図のブロック実装である。

図１の例示的プロセッサのドット積計算機の例示的な実装のブロック図である。

図１のドット積計算機の例示的な実装のハードウェア図である。

図１、図２および／または図は３の例示的ドット積計算機により実行されるドット積プロトコルの例である。

図１および／または図２の例示的ドット積計算機を実装するために実行されてよく、２つのベクトルのビットマップを用いて２つのベクトルのドット積を決定する、例示的機械可読命令の代表的なフローチャートである。

図１および２における例示的ドット積計算機を実装するための、図５における命令を実行するために構成される、例示的な処理プラットフォームのブロック図である。

図は縮尺通りではない。概して、同じまたは同様の部分を指すために、同じ参照番号が図面および添付の書面の記述を通じて使用される。

パーソナルコンピュータおよび／またはモバイルデバイスを含む典型的なコンピューティングシステムは、高度画像処理、または人間の視覚が実行できるタスクを自動化するためのコンピュータビジョンアルゴリズムを採用する。コンピュータ視覚タスクは、デジタル画像を取得、処理、分析、および／または、理解することを含む。このようなタスクの一部は、デジタル画像から寸法データを抜き取ることを容易にして、数値および／または記号情報を生成する。コンピュータビジョンアルゴリズムは、数値および／または記号情報を用いることで、特に３次元（３－Ｄ）位置姿勢推定、イベント検出、物体認識、動画追尾などと関連する決定および／または別のオペレーションを行うことができる。拡張現実（ＡＲ）、仮想現実（ＶＲ）、ロボティクスおよび／またはその他のアプリケーションをサポートするためであれば、それに応じてこのようなタスクを迅速に（例えば、リアルタイムで、または、ほぼリアルタイムで）、且つ効率的に行うことは、重要である。

高度画像処理またはコンピュータビジョンアルゴリズムは、畳み込みニューラルネットワーク（ＣＮＮまたはＣｏｎｖＮｅｔ）を採用する場合がある。ＣＮＮは、深い、人工のニューラルネットワークで、画像を分類すること、類似性により画像をクラスタすること（例えば、画像検索）、および／または畳み込みを用いて画像内の物体認識を行うことに、通常用いられる。本願で用いられるように、畳み込みは、どのように関数１つの形状が、他方の関数の形状により修正されるかを表すインテグレーションにより２つの所与の関数から導き出される関数であると定義される。このように、ある画像特徴（例えば、水平線、２次元（２－Ｄ）形状など）に対応する１つまたは複数のフィルターの出力を入力画像に通して、入力画像内での画像特徴のマッチングを識別することで、ＣＮＮは、入力画像に含まれる顔、個人、道路標識、動物などを識別するために用いられることができる。

ＣＮＮは、１つまたは複数の関数を実行するための計算に用いられる、または保存される必要があるベクトル（例えば、多次元配列から細分化されるもの）を取得する。このように、ＣＮＮは、１つまたは複数の画像に対応するデータを含む多次元配列（例えば、テンソルまたはベクトルの行）を受け取ってよい。多次元配列は、ベクトルに細分化される。そのようなベクトルは、数千個の要素を含んでよい。そのような要素のそれぞれは、多数のビットを含んでよい。１０，０００個の１６ビット要素を持つベクトルは、１６０，０００ビットの情報に相当する。そのようなベクトルを保存するには大量のメモリが必要である。ただし、そのようなベクトルは、値が「０」である多数の要素を含むかもしれない。したがって、一部のＣＮＮまたは他の処理エンジンは、そのようなベクトルをスパースベクトル及びスパース性マップベクトル（例えば、ビットマップベクトル）に分割してよい。

本明細書で定義するように、スパースベクトルは、密ベクトルと同じ順序で、あるベクトルのすべての非ゼロ要素を含むが、すべてのゼロ要素を除外するベクトルである。本明細書で定義されるように、密ベクトルは、ゼロ及び非ゼロ要素の両方を含む入力ベクトルである。そのため、密ベクトル［０，０，５，０，１８，０，４，０］は、スパースベクトル［５，１８，４］に対応する。本明細書で定義されるように、スパース性マップは、密ベクトルの各要素がゼロであるか非ゼロであるかを識別する１ビット要素を含むベクトルである。したがって、スパース性マップは、密ベクトルの非ゼロ値を「１」に置換してよく、密ベクトルのゼロ値を「０」に置換してよい。上記の［０，０，５，０，１８，０，４，０］の密ベクトルに対して、（例えば、密ベクトルの３番目、５番目、及び７番目の要素が非ゼロ要素であるから）スパース性マップは、［０，０，１，０，１，０，１，０］であってよい。スパースベクトルとスパース性マップの組み合わせは、密ベクトル（例えば、密ベクトルは対応するスパースベクトル及びスパース性マップに基づいて生成／再編成され得る）を表す。したがって、ＣＮＮエンジンは、メモリに密ベクトルを保存することなく、対応するスパースベクトル及びスパース性マップに基づいて密ベクトルを生成／決定することができる。

（例えば、密ベクトルに十分な「０」があるとすれば）密ベクトルの代わりに、スパースベクトル及びスパース性マップをメモリに保存することは、メモリと処理リソースを節約する。例えば、上記の密ベクトルの各要素（例えば［０，０，５，０，１８，０，４，０］）が、１６ビット情報であった場合、密ベクトルを保存するのに必要なメモリ量は１２８ビット（例えば、８要素×１６ビット）である。しかし、対応するスパースベクトル（例えば、［５，１８，４］）及びスパース性マップ（例えば、［０，０，１，０，１，０，１，０］）を保存するのに必要なメモリ量は、６４ビット（例えば、（スパースベクトルの３要素×１６ビット）＋（スパース性マップの８要素×１ビット））である。したがって、対応する密ベクトルの代わりに、スパースベクトル及びスパース性マップを保存することは、そのようなベクトルを保存するのに必要なメモリ量を減らす。さらに、スパースベクトル及びスパース性マップを利用することで、計算エンジンに送達されるデータの量が減り、計算エンジンへの受け渡し速度を上げるので、帯域幅要件を改善する。

プログラムまたはアプリケーションの中には、２つの入力ベクトル（例えば、密ベクトル）間のドット積またはスカラー積を求めるものがあってよい。いくつかの状況では、入力ベクトルは、その入力ベクトルに対応するスパースベクトル及びスパース性マップとして、すでにメモリに保存されていてよい。従来、ドット／スカラー積が求められたとき、プロセッサは、対応するスパースベクトル及びスパース性マップに、メモリからアクセスして、対応する密ベクトルを再生成する。そして、密ベクトルは、ローカルのメモリに書き込まれる。よって、従来技術は、ドット積を計算する前に、密ベクトルを入力ベクトルとしてローカルのメモリに保存する。ひとたびアクセスしたら、プロセッサは、１つの密ベクトルの各要素を、他の密ベクトルの対応する要素と乗算し、且つそれらの積を合計する、従来のドット積計算を実行する。例えば、第１密ベクトルが［５，４１２，０，０，０，４，１９２］であり、第２密ベクトルが［２，０，０，４３２，５２，４，０］である場合、従来のドット積技術では、７つの乗算計算が実行され、それら７つの積が合計される（例えば、（５×２）＋（４１２×０）＋（０×０）＋（０×４３２）＋（０×５２）＋（４×４）＋（１９２×０））。しかし、そのような従来技術は、どちらでも任意の入力ベクトルの要素の数に相当するＸ個の乗算計算を必要とする。乗算計算は、複雑で、実行が遅く、行うために多くのリソースを必要とする。以下で背景技術とは対照の説明するように、本明細書で開示する例は、メモリを節約し、ドット積計算の速度を上げ、且つ、従来のドット積技術より少ない処理リソースを要する。

本明細書で開示する例は、（例えば、どんな数でも「０」との積は「０」なので）「０」である要素の乗算計算を少しも実行せずに、ドット／スカラー積計算を実行する。代わりに、本明細書で開示する例は、スパース性マップに基づいて、よりシンプルで、計算的に軽い計算を行う。このように、複雑で、計算的に重い乗算計算の数が減らされる。結果として、ドット積計算を実行するのに必要な時間量が減る。例えば、上記のように、第１密ベクトルが［５，４１２，０，０，０，４，１９２］であり、第２密ベクトルが［２，０，０，４３２，５２，３，０］である場合、従来技術では７つの乗算計算が必要だったのに対して、本明細書で開示する例での複雑な乗算計算の数は、２つ（例えば、（５×２）と（４×３））に減る。本明細書で開示する例は、シンプルな計算（例えば、論理ＡＮＤ、１の差し引き、ベクトルのバイナリーカウントなど）を実行して、どの要素が乗算される必要があるのかを特定する。それにより、ドット積を決定するのに必要な処理リソースを減らし、ドット積計算などを実行する速度を上げる。さらに、本明細書で開示する例は、スパース性マップに基づいてドット／スカラー積計算を実行するので、（例えば、「０」との乗算に伴う些細な計算を排除することで、）２つのベクトル間のドット積を計算するのに必要なローカルのメモリの量は減り、且つ、そのような計算の速度は上がる。

図１は、例示的ＣＮＮエンジン１００（例えば、畳み込みニューラルネットワークエンジン）のブロック図である。ＣＮＮエンジン１００は、スパース性ベクトル変換器１０２、例示的メモリインタフェース１０４、例示的メモリ１０５、及び例示的ドット積計算機１０６を含む。例示的ＣＮＮエンジン１００は、密ベクトルを受け取る、または、例示的ドット積結果１０８を入力及び出力する。

図１における例示的スパース性ベクトル変換器１０２は、密ベクトルを受け取り、密ベクトルをスパースベクトル（例えば、受け取ったベクトルの非ゼロ値のみを含むベクトル）とスパース性マップ（例えば、どの密ベクトルの要素がゼロで、どのベクトルの要素が非ゼロなのかを特定するビットマップ）とに変換する。例えば、スパース性ベクトル変換器１０２が、８×１次元密ベクトル［０；０；５３２；０；１４３２；４；０；０；１］を受け取った場合、スパース性ベクトル変換器１０２は、８×１次元密ベクトルを、密ベクトルの非ゼロ値を含み密ベクトルのゼロ値を排除した、４×１次元スパースベクトル（例えば、［５３２；１４３２；４；１］）に変換する。スパース性ベクトル変換器１０２はまた、８×１次元スパース性マップ（例えば、［０；０；１；０；１；１；０；０；１］）を生成する。これは、受け取った密ベクトルの各要素を単ビットで表したもので、対応する要素がゼロか非ゼロかどうかを特定する（例えば、ベクトルの対応する要素が「０」のときは「０」で、ベクトルの対応する要素が非ゼロの時は「１」）。密ベクトル（例えば、ゼロ値と非ゼロ値の両方を含むベクトル）は、スパース性マップ（例えば、密ベクトルのビットマップベクトル）を用いて、スパースベクトル（例えば、密ベクトルの非ゼロ値のみを含むベクトル）から再編成されることができる。ところで、密ベクトルが十分なゼロ値要素を含む場合には、スパースベクトルとスパース性マップとを保存することは、密ベクトルを保存するより少ないメモリを必要とする。例えば、上記の密ベクトルの各要素が１６ビットに相当する場合であれば、密ベクトルを保存するのに必要なビット数は７２ビット（例えば、９要素×８ビット＝７２ビット）である。しかし、対応するスパースベクトルは、４要素のみを含み、対応するスパース性マップは、各要素につき１ビットのみを要するから、対応するスパースベクトル及びスパース性マップを保存するのに必要となるのは４１ビット（例えば、（４要素×８ビット）＋（９要素×１ビット）＝４１ビット）である。ある例では、密ベクトルは他のプロセッサから取得される。ある例では、密ベクトルは、ユーザインタフェースを介してユーザから取得される。例示的スパース性ベクトル変換器１０２は、密ベクトルと対応する生成されたスパースベクトル及びスパース性マップを例示的メモリインタフェース１０４に送信する。

図１の例示的メモリインタフェース１０４は、生成されたスパースベクトルとスパース性マップを保存するために、且つ、例示的メモリ１０５内の情報にアクセスするために、例示的メモリ１０５とインタフェースで接続する。例えば、メモリインタフェース１０４が、密ベクトルに対応するスパースベクトル及びスパース性マップを受け取ったとき、メモリインタフェース１０４は、例示的メモリ１０５内にスパースベクトルとスパース性マップとを保存する。ドット／スカラー積の関数が求められたとき、ドット積計算機１０６は、メモリインタフェース１０４に、１つまたは複数のスパース性マップ、および／または、ドット／スカラー積計算で利用されるスパースベクトルの要素の値に対応する１つまたは複数のメモリアドレスにアクセスするよう命令する。メモリインタフェース１０４は、例示的メモリ１０５からの情報にアクセスし、要求された情報（例えば、スパースベクトル値）を例示的ドット積計算機１０６に戻す。

図１の例示的メモリ１０５は、スパースベクトルと、対応するスパース性マップとを保存する。例えば、メモリ１０５は、メモリ１０５内の１つまたは複数のアドレスにスパースベクトルの各要素を保存する。このように、スパースベクトルの各要素は１つまたは複数のメモリアドレスと対応する。したがって、メモリインタフェース１０４がスパースベクトル内のある位置に対応するスパースベクトルの要素にアクセスする命令を受け取ったとき、メモリインタフェース１０４は、各要素が保存されているアドレスに基づいて、スパースベクトル内での要請された位置にある各要素にアクセスすることができる。

図１の例示的ドット積計算機１０６は、スパースベクトル及び２つのスパースベクトルに対応するスパース性マップを用いて、２つのベクトル間のドット／スカラー積を計算する。例えば、すべての密ベクトルをローカルのメモリに保存し、且つ、要素別の乗算計算を実行する必要がある従来技術を用いて、２つのベクトル間のドット積を計算する代わりに、例示的ドット積計算機１０６は、乗算のためのスパースベクトル内の要素を特定するためのスパース性マップに基づいて、ドット積の計算をする。このアプローチは、従来の技術よりも、メモリ内のより小さいスペースを取り、より少ない乗算計算を必要とする。例示的ドット積計算機１０６は、より複雑でない計算によりドット積計算を実行するので、ドット積計算機１０６は、従来のドット積技術よりも、より少ないメモリ、より少ない処理リソース、及びより速い速度により、ドット積を決定することができる。ひとたび計算されると、例示的ドット積計算機１０６は、例示的ドット積結果１０８を出力する。例示的ドット積結果１０８は、ユーザに出力されてもよく、および／または、他のプロセッサやアプリケーションに出力されてもよく、および／または、ＣＮＮエンジン１００内のその後のプロセスで用いられる、若しくは、ＣＮＮエンジン１００に入力されてよい。例示的ドット積計算機１０６の例示的な実装はさらに、図２および図３と共に以下で説明される。

図２は、図１のドット積計算機１０６の例示的な実装に関するブロック図である。図２の例示的ドット積計算機１０６は、例示的インタフェース２００、例示的反復制御ベクトル生成器２０２、例示的論理ゲート２０４、例示的減算器２０６、例示的トレーリングバイナリカウンタ２０８、例示的マスク生成器２１０、例示的要素位置決定器２１２、例示的乗算器２１４、例示的加算器２１６、及び、例示的結果ストレージ２１８を備える。

図２の例示的インタフェース２００は、ドット積命令を受け取る。例えば、ユーザ、アプリケーションおよび／またはプログラムは、２つのベクトル（例えばベクトルＡとベクトルＢ）に対してドット積を行う命令を伝達してよい。さらに、インタフェース２００は図１のメモリインタフェース１０４と通信して、スパース性マップおよび／または入力ベクトルＡ及びＢの値にアクセスする。さらに、例示的インタフェース２００は、ひとたび例示的ドット積結果１０８が計算（例えば、決定）されたら、その結果を出力する。

図２の例示的反復制御ベクトル生成器２０２は、制御ベクトル（例えば、ベクトルＣ）を生成し、ドット積プロトコルの各反復により、制御ベクトルを更新する。最初に、反復制御ベクトル生成器２０２は、入力ベクトルＡとＢ（例えば、スパース性マップＡ_Ｍ及びＢ_Ｍ）のスパースマップに基づいて制御ベクトルを生成する。例えば、反復制御ベクトル生成器２０２の例示的論理ゲート２０４は、スパースマップＡ_Ｍ及びＢ_Ｍの論理ＡＮＤ関数／演算を実行することで、最初の制御ベクトルＣを生成する。反復制御ベクトル生成器２０２は、（例えば、Ａ_ＭＡＮＤＢ_Ｍに基づいて）制御ベクトルＣを生成することで、共に乗算される必要がある密ベクトルの非ゼロ要素を分離する。そのあとに続くドット積プロトコルの反復の間、例示的反復制御ベクトル生成器２０２は、制御ベクトルＣと差分ベクトルＣ－１（例えば、制御ベクトルＣから１を引いた値に相当する）に基づく論理ＡＮＤ関数を実行することで、制御ベクトルＣを更新し、それにより、あとに続く反復のための後端の「１」を排除する。このように、あとに続く反復は、これ以上分離されるべき後端の１がなくなるまで、密ベクトルから異要素を分離する。反復制御ベクトル生成器２０２の減算器２０６は、制御ベクトルＣのそれぞれの値からビット値１を減算することで、差分ベクトル（例えば、Ｃ－１）を計算する。例えば、制御ベクトルＣが［１，０，０，０］（例えば、十進法で８）である場合、減算器２０６は、ベクトルＣ－１を［０，１，１，１］（例えば、十進法で７）になるように生成する。ひとたび減算器２０６が差分ベクトル（例えば、Ｃ－１）を計算すれば、例示的論理ゲート２０４は、ベクトルＣ及びベクトルＣ－１について論理ＡＮＤ関数を実行することで、新たな／更新された制御ベクトルを生成する。例示的反復制御ベクトル生成器２０２は、制御ベクトルＣを新たな制御ベクトル（例えば、Ｃ＝ＣＡＮＤ（Ｃ－１））と置き換えることで、あとに続く反復のための制御ベクトルを更新する。例示的反復制御ベクトル生成器２０２は、新たな制御ベクトルの要素が全て同一の二進値（例えば、すべての要素が０）であるとき、ドット積プロトコルは完了した（例えば、これ以上走るべき反復は、ない）と決定する。

図２の例示的トレーリングバイナリカウンタ２０８は、ベクトルの後端の「０」の数（例えば、ベクトルにおいて非ゼロ値が発現する前の「０」に対応する最下位ビットの数）をカウントする。例えば、ベクトル［０，１，０，１，０，０，０］に対して、トレーリングバイナリカウンタ２０８は、ベクトル内で非ゼロ値が発現する前に、ベクトルの３つの最下位ビット（例えば、ベクトルにおける右端のビット）が「０」であるので、後端の「０」の数は３つであると決定する。他の例では、ベクトル［０，０，０，１］に対して、トレーリングバイナリカウンタ２０８は、ベクトル内に、後端の「０」がない（例えば、最下位ビットが１である）ので、後端の「０」の数は０つであると決定する。トレーリングゼロカウントは、密ベクトル内での要素のロケーションに対応する制御ベクトルと対応する。スパースベクトルでのこれらの要素の場所を示すために、マスクベクトルは、結果の「１」カウントを用いて、スパース性マップからビットを分離するように生成される。ドット積プロトコルにおいて、反復制御ベクトル生成器２０２が制御ベクトルを生成または更新した後、トレーリングバイナリカウンタ２０８は、制御ベクトルにおける後端の「０」の数を決定する。他の例において、トレーリングバイナリカウンタ２０８は、（例えば、ベクトルが反転された場合に）ベクトルの「１」値の数をカウントしてよい。加えて、または代替的に、例示的論理ゲート２０４は、ドットプロトコルの他の部分に対して論理関数を実行してよい。例えば、論理ゲート２０４は、論理ＡＮＤ関数をスパース性マップＡ_Ｍ／Ｂ_Ｍ、及び（例えばマスク生成器２１０により生成される）マスクについて実行してよい。このように、この例での要素位置決定器２１２は、以下にさらに説明するように、ドット積プロトコルに必要であるメモリ１０５に保存されるスパースベクトル内の値の要素位置を決定する。

図２の例示的マスク生成器２１０は、トレーリングバイナリカウント及び入力ベクトル内の要素の数に基づいて、マスクベクトルを生成する。例えば、トレーリングゼロカウントが４つで、各入力ベクトルの値の数が７である場合、マスク生成器２１０は、４つの最下位ビットが「１」、残りのビットが「０」（例えば、［０，０，０，１，１，１，１］）である、入力ベクトルと同じ次元のマスクベクトルを生成する。他の例では、トレーリングゼロカウントが０で、各入力ベクトルの値の数が４である場合、マスク生成器２１０は、（例えば、トレーリングゼロカウントがゼロなので）ビットが「１」のものがなく、残りのビットが「０」（例えば、［０，０，０，０］）である、入力ベクトルと同じ次元のマスクベクトルを生成する。マスクは、スキップしたい要素を分離し、関心のない要素を完全に取り除く。ひとたび例示的マスク生成器２１０がマスクベクトルを生成したら、例示的論理ゲート２０４は、論理ＡＮＤ関数をスパース性マップＡ_Ｍ及びマスクベクトルについて実行して第１結果を生成し、論理ゲート２０４は、論理ＡＮＤ関数をスパース性マップＢ_Ｍ及びマスクベクトルについて実行して第２結果を生成する。マスクベクトルは、関心のある要素を分離するために生成されるが、関心のある要素（例えば、乗算される要素）を分離する他の方法があってよい。例えば、例示的マスク生成器２１０は、制御ベクトルを１だけ減算（例えば、Ｃ－１）することや、制御ベクトルＣの反転を数え上げることでマスクベクトルを生成してもよく、例示的論理ゲート２０４は、制御ベクトル引く１と、制御ベクトルＣの反転を伴うそれ自体とに対して論理ＡＮＤ関数を実行してよい。

図２の例示的要素位置決定器２１２は、第１結果の「１」カウントに基づいて、スパースベクトルＡ_Ｓ内の要素の１番目の位置で、第２結果の「１」カウントに基づいて、スパースベクトルＢ_Ｓ内の要素の２番目の位置であると決定する。例えば、第１結果（例えば、Ａ_ＭＡＮＤマスク）が５つの「１」を備えるベクトルに帰着した場合であれば、要素位置決定器２１２は、ドット積プロトコルに必要な値は、スパースベクトルＡ_Ｓの５番目の位置であると決定する。そのような例では、第２結果（例えば、Ｂ_ＭＡＮＤマスク）が０つの「１」を備えるベクトルに帰着した場合であれば、要素位置決定器２１２は、ドット積プロトコルに必要な保存された値は、スパースベクトルＢ_Ｓの０番目の位置であると決定する。さらに、要素位置決定器２１２は、インタフェース２００に対して、例示的メモリ１０５内に保存された各スパースベクトルから、決定された位置に保存された値に、アクセスすることを命令する。

図２の例示的乗算器２１４は、（例えば、要素位置決定器２１２により決定された位置に対応する）例示的インタフェース２００によりアクセスされた値を乗算する。ひとたび乗算されると、例示的加算器２１６は、その積と結果ストレージ２１８内に保存された以前の結果とを合計する。最初に、結果ストレージ２１８内に保存された値は「０」であり、それは、ドット積プロトコルの各反復の後、更新される。このように、最初の反復の間、乗算器２１４は、インタフェース２００によりアクセスされた値を乗算し、結果ストレージ２１８にその積を保存する。その後の反復の間に、乗算器２１４は、インタフェース２００によりアクセスされた値を乗算し、加算器２１６は、その積と先行して保存された結果（例えば、先行する反復からの積の和）とを合計する。ひとたび例示的反復制御ベクトル生成器２０２が、ドット積プロトコルが完了した（例えば、新たな制御ベクトルがゼロ値のみを含むので、実行すべきこれ以上の反復がない）と決定すると、インタフェース２００は、結果ストレージ２１８内の結果にアクセスし、その結果をドット積結果１０８として出力する。ドット積プロトコルの例と２つの例示的ベクトルについて、図４と共に以下にさらに説明する。

図２の例示的ＣＮＮエンジン１００は、部分的に、命令を実行するプロセッサにより実装されてよい。図３は、図１のドット積計算機１０６の他の例示的な実装の図である。図３の例では、ドット積計算機１０６は、ハードウェア（例えば、専用回路）により実装される。ある例では、図３のハードウェアはプロセッサ内（例えばプロセッサパッケージや、チップ上のシステムの一部などの中）に組み込まれる。図３の例示的ドット積計算機１０６は、例示的ＡＮＤ論理ゲート３００、３０６、３１４、３１６、３２２、例示的マルチプレクサ（ＭＵＸｓ）３０２、３３２、例示的減算器３０４、例示的レジスタ３０８、３２８、３３４、例示的コンパレータ３１０、例示的ＮＯＴゲート３１２、例示的「１」カウンタ３１８、３２４、及び例示的加算器３２０、３２６、３３０を含む。ある例において、例示的構成要素の３００、３０２、３０４、３０６、３０８、３１０は、例示的反復制御ベクトル生成器２０２を実装するために使用されてよく、例示的論理ＡＮＤゲート３１６、３２２は、論理ゲート２０４を実装するために使用されてよく、例示的構成要素の３０４は、減算器２０６を実装するために使用されてよく、例示的「１」カウンタ３１８、３２４は、トレーリングバイナリカウンタ２０８を実装するために使用されてよく、例示的構成要素の３１２、３１４は、例示的マスク生成器２１０を実装するために使用されてよく、例示的加算器３２０、３２６は、例示的要素位置決定器２１２を実装するために使用されてよく、例示的乗算器３２８は、例示的乗算器２１４を実装するために使用されてよく、例示的加算器３３０は、例示的加算器２１６を実装するために使用されてよく、及び、例示的レジスタ３３４は、図２の例示的結果ストレージ２１８を実装するために使用されてよい。

ユーザ、アプリケーション、および／またはデバイス（例えば、他のプロセッサ）が、２つのスパースベクトル（例えばＡｓとＢｓ）に基づいて、ドット／スカラー積を決定する命令を送信するとき、２つの対応するスパース性マップ（例えばＡｍとＢｍ）は、例示的ＡＮＤ論理ゲート３００により、例示的メモリインタフェース１０４を介して例示的メモリ１０５から取得される。例示的ＡＮＤ論理ゲート３００は、ＡＮＤ論理関数を実行し、制御ベクトルＣを生成する。ＡＮＤ論理ゲート３００は、制御ベクトルＣを例示的ＭＵＸ３０２に出力する。例示的ＭＵＸ３０２は、スタート信号を受け取り、いつドット／スカラー積計算が開始したかを特定する。以下にさらに説明するように、図４の例と共に、スパース性マップＡｍとＢｍは、最初に制御ベクトルを決定するために利用される。しかし、その後の反復はスパース性マップＡｍとＢｍを利用することなく制御ベクトルを更新する。したがって、例示的ＡＮＤ論理ゲート３００が第１制御ベクトルＣを決定した後、例示的ＭＵＸ３０２は、もはや最初の制御ベクトルをさらなる計算に進めない。むしろ、ＭＵＸ３０２は、（例えば以下にさらに説明するように、例示的構成要素の３０４、３０６、３０８により生成された）後続の制御ベクトルを出力する。

図３の例示的ＭＵＸ３０２は、スタート信号により可能になったとき、例示的ＡＮＤ論理ゲート３００のアウトプットを、例示的減算器３０４に出力する（例えば最初の制御ベクトル）。例示的ＭＵＸ３０２は、スタート信号により可能にされなかったとき、例示的レジスタ３０８のアウトプットを出力する（例えば、後続の制御ベクトル）。例示的減算器３０４は、制御ベクトルを１の値だけ差し引き（例えばＣ－１）、例示的ＡＮＤ論理ゲート３０６は、制御ベクトル（Ｃ）と制御ベクトル引く１（Ｃ－１）について論理ＡＮＤ関数を実行して、例示的レジスタ３０８に保存されたその後の反復のための後続の制御ベクトルを生成する。例示的コンパレータ３１０は、後続の制御ベクトルが「０」に等しいか否かを決定する。後続の制御ベクトルが「０」に等しい場合であれば、ドット積処理が完了し、コンパレータ３１０は処理の終了を示すトリガー電力を出力する。後続の制御ベクトルが「０」に等しくない場合は、その処理は後続の制御ベクトルに続く。

図３の例示的構成要素の３０６、３０８がその後の反復のために後続の制御ベクトルの計算をする一方で、例示的構成要素の３０４、３１２、３１４は、現在の反復のためにマスキングベクトルを生成する。図３の例では、マスキングベクトル（例えば制御ベクトルのトレーリングゼロカウントに対応するベクトル）は、制御ベクトル引く１（Ｃ－１）と制御ベクトルの反転についての論理ＡＮＤ関数に基づいて、生成される。したがって、例示的論理ＮＯＴゲート３１２（例えばインバータ）が制御ベクトルの反転を計算する間に、例示的減算器３０４は、制御ベクトル引く１を生成する。例示的論理ＡＮＤゲート３１４は、制御ベクトルの反転と制御ベクトル引く１について論理ＡＮＤ関数を実行することで、結果として、マスクベクトルが生じる。さらにまたは代替的に、マスクベクトルを生成するために異なるハードウェア構成要素が存在してもよい。

ひとたびマスクベクトルが計算されると、図３の例示的論理ＡＮＤゲート３１６は、第１スパース性マップＡｍについて論理ＡＮＤ関数を実行し、例示的論理ＡＮＤゲート３２２は、第２スパース性マップＢｍについて論理ＡＮＤ関数を実行する。例示的「１」カウンタ３１８は、例示的論理ＡＮＤゲート３１６のアウトプットの「１」の合計数（例えば１＿ｃｏｕｎｔ（ＡｍＡＮＤマスク））を計算し、例示的「１」カウンタ３２４は、例示的論理ＡＮＤゲート３２２のアウトプットの「１」の合計数（例えば１＿ｃｏｕｎｔ（ＢｍＡＮＤｍａｓｋ））を計算する。例示的加算器３２０は、例示的「１」カウンタ３１８の「１」カウントをスパースベクトルＡｓのベースアドレスに加える。加算器３２６は、例示的「１」カウンタ３２４の「１」カウントをスパースベクトルＢｓのベースアドレスに加える。したがって、加算器３２０のアウトプットは、現在の反復のために乗算されるべきスパースベクトルＡｓの各要素のアドレスに対応し、加算器３２６のアウトプットは、現在の反復中に乗算されるべきスパースベクトルＢｓの各要素のアドレスに対応する。

図１の例示的メモリ１０５から、アドレスに保存された値を取得するために、スパースベクトルＡｓとＢｓのアドレス（例えばＡ＿ａｄｄｒ及びＢ＿ａｄｄｒ）は、例示的メモリインタフェース１０４に送信される。ひとたび取得すると、例示的メモリインタフェース１０４は、対応する値（例えばＡおよびＢ）を、例示的乗算器３２８に送信し、それらの値を乗算する。例示的乗算器３２８は、例示的加算器３３０に積を出力し、積を先行する反復の積に加える。先行する反復がない場合は、例示的加算器３３０は、以下にさらに説明するように、「０」を積に加える。例示的加算器３３０のアウトプットは、例示的レジスタ３３４に保存される。レジスタ３３４は、先行する反復の積の和を保存する。ドット／スカラー積計算が完了（例えば、全ての反復が完了）すると、レジスタ３３４は、アウトプットとドット積を保存する。例えば、レジスタ３３４は、計算完了（例えば、終了信号）に相当する例示的コンパレータ３１０の出力を受け取った後、最終ドット／スカラー積を出力する。

図３の例示的レジスタ３３４は、例示的ＭＵＸ３３２の現在保存されている第１インプットの値を出力する。例示的ＭＵＸ３３２は、加えて、「０」に相当する第２インプットと、スタート信号に相当する選択インプットを含む。このように、ドット積計算が開始されるとき、ＭＵＸ３３２は、「０」を出力する。ゼロ値は、加算器３３０に提供され、最初の反復の積に加えられる。しかし、第１反復の後、スタート信号は変化し、ＭＵＸ３３２は、例示的レジスタ３３４のアウトプットを出力する。上記のように、例示的レジスタ３３４のアウトプットは、すべての先行する反復の積の和を含む。したがって、加算器３３０は、現在の反復の積を、先行する反復の積の合計に加え、その結果、全ての反復が完了するとき、ドット積に対応する。

図４は、図２および／または図３の例示的ドット積計算機１０６により、ドット積プロトコル演算の例を説明する。図４は、例示的密ベクトル４００、４０２、例示的位置識別子４０４、例示的スパースベクトル４０６、４０８、スパースベクトル４１０の例示的要素位置、例示的スパース性マップ４１２、４１４、例示的制御ベクトル４１６、例示的トレーリングゼロカウント４１８、４３０、例示的マスク４２０、４３２、例示的スパースベクトル値４２２、４２４、４３４、４３６、例示的な積４２６、４３８、例示的差分ベクトル４２７、４４２、例示的更新された制御ベクトル４２８、及び例示的ドット積結果４４０を含む。

図４の例示的密ベクトル４００、４０２は、ドット積演算で使用するために特定され得るベクトルに対応する。例示的位置識別子４０４は、密ベクトル４００、４０２内の要素の位置に対応する。上記のように、スパース性ベクトル変換器１０２は、密ベクトル４００、４０２を例示的スパースベクトル４０６、４０８及び例示的スパース性マップ４１２、４１４に変換する。スパースベクトル４０６は、密ベクトル４００と同じ順で列挙される例示的密ベクトル４００の非ゼロ値と対応する。スパースベクトル４０８は、密ベクトル４００と同じ順で列挙される例示的密ベクトル４０２の非ゼロ値と対応する。スパースベクトル４０６、４０８の値は、例示的要素位置４１０（０から４）によりインデックスされる。スパース性マップ４１２は、各位置識別子４０４内の密ベクトル４００の要素が、ゼロ値に相当するのか、非ゼロ値に相当するのかに対応するビットマップベクトルである。例えば、密ベクトル４００の２番目、３番目、５番目及び６番目の位置は、非ゼロ値に相当するので、スパース性マップ４１２は、「１」を２番目、３番目、５番目及び６番目の位置に含む。スパース性マップ４１４も同様に、密ベクトル４０２のビットマップベクトルと対応する。

インタフェース２００が密ベクトル４００および４０２についてのドット積を演算するように命令を受け取ったとき、ドット積計算機１０６は、スパース性マップ４１２、４１４にアクセスし、反復制御ベクトル生成器２０２は、例示的スパース性マップ４１２及び例示的スパース性マップ４１４について論理ＡＮＤ関数を実行することで、例示的制御ベクトル４１６を生成する。第１反復（例えば、反復０）の間、２つのトレーリングゼロが制御ベクトルに存在すること（例えば、制御ベクトル内に「１」がある前に、制御ベクトルでの２つの最下位ビットがゼロであること）を理由として、トレーリングバイナリカウンタ２０８は、例示的トレーリングゼロカウント４１８が２であると決定する。それに応じて、例示的マスク生成器２１０は、トレーリングゼロカウント４１８に基づいて、例示的マスクベクトル４２０を生成する。例えばマスク生成器２１０は、マスクベクトル４２０を生成し、２つの最下位ビット（例えば、トレーリングゼロカウント２に等しい２ビット）を「１」に、残りのビットを「０」にする。例示的マスクベクトル４２０は、関心のある要素を分離するために生成されるが、関心のある要素（例えば、乗算される要素）を分離する他の方法があってよい。例えば、例示的マスク生成器２１０は、１だけ制御ベクトルを減算すること（例えば、Ｃ－１）や、制御ベクトルＣの反転を数え上げることで、例示的マスクベクトル４２０を生成してよく、例示的論理ゲート２０４は、制御ベクトル引く１と、制御ベクトルＣの反転を伴うそれ自体とに対して論理ＡＮＤ関数を実行してよい。

ひとたびマスク生成器２１０がマスクベクトル４２０を生成すると、論理ゲート２０４は、マスク４２０及び第１スパース性マップ４１２について論理ＡＮＤ関数を実行する。要素位置決定器２１２は、論理ゲート２０４からの結果の「１」カウントに基づいて、位置を決定する。例えば図４では、要素位置決定器２１２は、Ａ_ＭＡＮＤマスクの結果に１がないので、その位置はゼロであると決定する。インタフェース２００は、メモリ１０５から、０番目の位置における、スパースベクトル４０６の値にアクセスし、８（例えば、スパースベクトル４０６の０番目の値）である値４２２を戻す。同様に、マスク生成器２１０はマスクベクトル４２０を生成し、論理ゲート２０４は、マスク及び第２スパース性マップ４１４について論理ＡＮＤ関数を実行する。要素位置決定器２１２は、論理ゲート２０４から、結果の「１」カウントに基づいて、要素位置を決定する。例えば、図４において、要素位置決定器２１２は、Ｂ_ＭＡＮＤマスクの結果の中に２つの「１」があるため、位置が２であると決定する。インタフェース２００は、メモリ１０５から、スパースベクトル４０８の２番目の位置の要素／値にアクセスし、６１（例えば、スパースベクトル４０８の２番目の値）である値４２４を戻す。

ひとたびインタフェース２００が対応する値４２２、４２４（例えば、８と６１）にアクセスすると、例示的乗算器２１４は対応する値４２２、４２４を乗算して、第１の例示的積４２６（例えば、８×６１＝４８８）を生成する。第１の例示的積４２６は、例示的結果ストレージ２１８に保存される。第１反復が完了した後、例示的反復制御ベクトル生成器２０２は、制御ベクトル４１６を１だけ差し引き（例えば、Ｃ－１）、例示的差分ベクトル４２７を生成する。制御ベクトル生成器２０２は、制御ベクトル４１６及び差分ベクトル４２７について論理ＡＮＤ演算を実行する。結果が非ゼロ値（例えば、［０，０，１，０，０，０，０，０］）を含むことにより、反復制御ベクトル生成器２０２は、その後の反復が必要であり、制御ベクトル４１６を例示的新たな制御ベクトル４２８と置き換える必要があると決定する。

第２反復（例えば、反復１）の間、制御ベクトル４２８に５つの例示的トレーリングゼロがあること（例えば、制御ベクトル内で「１」がある前に、制御ベクトルでの５つの最下位ビットが「０」であること）により、トレーリングバイナリカウンタ２０８は、トレーリングゼロカウント４３０が５であると決定する。したがって、例示的マスク生成器２１０は、トレーリングゼロカウント４３０に基づいて例示的マスクベクトル４３２を生成する。例えば、マスク生成器２１０は、マスクベクトル４３２を生成し、５つの最下位ビットを「１」に、残りのビットを「０」にする。

ひとたびマスク生成器２１０がマスクベクトル４３２を生成すると、論理ゲート２０４は、マスク及び第１スパース性マップ４１２について論理ＡＮＤ関数を実行する。要素位置決定器２１２は、論理ゲート２０４から結果の「１」カウントに基づいて、要素位置を決定する。例えば、図４では、Ａ_ＭＡＮＤマスクの結果内に２つの「１」があるので、要素位置決定器２１２は、位置が２であると決定する。インタフェース２００は、メモリ１０５から、２番目の位置に保存される、スパースベクトル４０６の要素／値にアクセスし、４（例えば、スパースベクトル４０６の２番目の値）である値４３４を戻す。同様に、論理ゲート２０４は、マスク４３２及びスパース性マップ４１４について論理ＡＮＤ関数を実行する。要素位置決定器２１２は、論理ゲート２０４から、結果の「１」カウントに基づいて、要素位置を決定する。例えば、図４において、要素位置決定器２１２は、Ｂ_ＭＡＮＤマスクの結果の中に３つの「１」があるため、要素位置が３であると決定する。インタフェース２００は、スパースベクトル４０８の３番目の位置に対応するアドレスにおいて、メモリ１０５に保存される要素／値にアクセスし、６（例えば、スパースベクトル４０８の３番目の値）である値４３６を戻す。

ひとたびインタフェース２００が、対応する値４３４、４３６（例えば、３と６）にアクセスすると、例示的乗算器２１４は、対応する値４３４、４３６を乗算して、第１の例示的積４３８（例えば、１８）を生成する。これは第１反復ではないので、例示的加算器２１６は、先行して保存された積４２６と現在の積４３８を合計して（例えば、４８８＋１８＝５０６）現在の結果４４０を生成する。例示的結果ストレージ２１８は、現在の結果を保存する。図４のコンテキストで説明されるように、第２反復が完了した後、例示的反復制御ベクトル生成器２０２は、制御ベクトル４２８を１だけ差し引くことで（例えば、Ｃ－１）、例示的差分ベクトル４４２を生成し、かつ、制御ベクトル４２８及び差分ベクトル４４２について論理ＡＮＤ関数を実行する。図４のコンテキストで説明されるように、結果がゼロ値のみを含むことにより、反復制御ベクトル生成器２０２は、その後の反復は必要なく、且つドット積プロトコルは完了したと決定する。したがって、例示的インタフェース２００は、例示的結果ストレージ２１８内に保存される結果にアクセスし、それをドット積結果１０８として出力する。

図１の例示的ドット積計算機１０６を実装する例示的な方式は、図２で示されている一方、図２で示される１つまたは複数の要素、処理および／またはデバイスは、組み合わされてよく、分けられてよく、配置し直されてよく、省略されてよく、除外されてよく、および／または他のいずれの方式で実装されてよい。さらに、図２の例示的インタフェース２００、例示的反復制御ベクトル生成器２０２、例示的論理ゲート２０４、例示的減算器２０６、例示的トレーリングバイナリカウンタ２０８、例示的マスク生成器２１０、例示的要素位置決定器２１２、例示的乗算器２１４、例示的加算器２１６、例示的結果ストレージ２１８、および／または、より広くは、例示的ドット積計算機１０６は、ハードウェア、ソフトウェア、ファームウェアおよび／またはハードウェア、ソフトウェアおよび／またはファームウェアのあらゆる組み合わせにより実装されてよい。それと共に、例えば、図２の例示的インタフェース２００、例示的反復制御ベクトル生成器２０２、例示的論理ゲート２０４、例示的減算器２０６、例示的トレーリングバイナリカウンタ２０８、例示的マスク生成器２１０、例示的要素位置決定器２１２、例示的乗算器２１４、例示的加算器２１６、例示的結果ストレージ２１８、および／または、より広くは、例示的ドット積計算機１０６のいずれも、１つまたは複数のアナログまたはデジタル回路、論理回路、プログラマブルプロセッサ、プログラマブルコントローラ、グラフィック処理ユニット（ＧＰＵ）、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、プログラマブルロジックデバイス（ＰＬＤ）、および／または、フィールドプログラマブル論理デバイス（ＦＰＬＤ）により実装され得る。単にソフトウェアおよび／またはファームウェアの実装を網羅する本特許の装置請求項またはシステム請求項のいずれかを読む場合、図２の例示的インタフェース２００、例示的反復制御ベクトル生成器２０２、例示的論理ゲート２０４、例示的減算器２０６、例示的トレーリングバイナリカウンタ２０８、例示的マスク生成器２１０、例示的要素位置決定器２１２、例示的乗算器２１４、例示的加算器２１６ｍ例示的結果ストレージ２１８、および／または、より広くは、例示的ドット積計算機１０６の少なくとも１つは、ソフトウェアおよび／またはファームウェアを含んだ、非一時的コンピュータ可読ストレージデバイス、又は、メモリ、デジタル多用途ディスク（ＤＶＤ）、コンパクトディスク（ＣＤ）ブルーレイディスク等のストレージディスク、を含むものとして、ここに明白に定義される。また依然として、図２の例示的ドット積計算機１０６は、図２に示されものに加えて、又は、代わって、１つまたは複数の要素、プロセスおよび／またはデバイスを含んでよく、および／または図示された要素、プロセス、及びデバイスのいずれか又はすべてのうち１つ以上を含んでよい。本明細書で使用されるように、「と通信する」という表現は、その変形例を含み、１または複数の中間要素による直接通信および／または間接通信を包含し、直接的な物理的（例えば、有線）通信および／または常時通信を必要としないが、むしろ、周期的な間隔、スケジュールされた間隔、非周期的な間隔、および／または一度だけのイベントにおける選択的な通信を追加的に含む。

図５には、図１および／または図２の例示的ドット積計算機１０６を実装するための例示的なハードウェアロジック、機械可読命令、ハードウェア実装ステートマシンおよび／またはそれらの任意の組み合わせを表すフローチャートが示される。機械可読命令は、図６に関連して以下に論じられる例示的プロセッサプラットフォーム６００に示されるプロセッサ６１２などのコンピュータプロセッサによる実行のための実行可能プログラムまたは実行可能プログラムの一部であり得る。プログラムは、ＣＤ‐ＲＯＭ、フロッピーディスク、ハードドライブ、ＤＶＤ、ブルーレイディスク、またはプロセッサ６１２に関連付けられるメモリなどの非一時的コンピュータ可読記録媒体に保存されたソフトウェアで具現化され得るが、全体のプログラムおよび／またはその一部は、代替的に、プロセッサ６１２以外のデバイスにより実行されることおよび／またはファームウェアもしくは専用ハードウェアで具現化されることが可能である。また、例のプログラムは、図５に示されるフローチャートを基準に説明されるが、図２の例示的ドット積計算機１０６を実装するための多くの他の方法を代替的に用いてよい。例えば、ブロックの実行順序が変更され得、および／または説明されたブロックの一部が変更され得、除去され得、または組み合わされ得る。追加的にまたは代替的に、いずれかまたは全てのブロックは、ソフトウェアまたはファームウェアを実行することなく対応する動作を実行するように構造化された１または複数のハードウェア回路（例えば、ディスクリートおよび／または集積アナログおよび／またはデジタル回路、ＦＰＧＡ、ＡＳＩＣ、コンパレータ、演算増幅器（オペアンプ）、論理回路など）により実装され得る。

上述されるように、図５の例の処理は、非一時的コンピュータに保存された実行可能命令（例えば、コンピュータおよび／または機械可読命令）、および／またはハードディスクドライブ、フラッシュメモリ、リードオンリメモリ、コンパクトディスク、デジタル多用途ディスク、キャッシュ、ランダムアクセスメモリといった機械可読媒体、および／または任意の期間（例えば、長期間、永久に、短期間の瞬間、一時的バッファリング、および／または情報のキャッシング）に情報を保存する他のあらゆるストレージデバイスまたはストレージディスクを用いて実装されてよい。本明細書に使用される場合、非一時的コンピュータ可読媒体という用語は、任意の種類のコンピュータ可読ストレージデバイスおよび／またはストレージディスクを含み、伝搬する信号を排除し、送信媒体を排除するように明示的に定義される。

「含む（ｉｎｃｌｕｄｉｎｇ）」および「含む（ｃｏｍｐｒｉｓｉｎｇ）」（およびこれらのすべての形態および時制）は、本明細書ではオープンエンドの用語として用いられている。したがって、あらゆる形態の「ｉｎｃｌｕｄｅ（含む）」又は「ｃｏｍｐｒｉｓｅ（含む）」（例えば、ｃｏｍｐｒｉｓｅｓ、ｉｎｃｌｕｄｅｓ、ｃｏｍｐｒｉｓｉｎｇ、ｉｎｃｌｕｄｉｎｇ、ｈａｖｉｎｇなど）を、クレームがプリアンブルとして又はあらゆる種類のクレーム記述内で用いるときにはいつでも、さらなる要素、項目などが、対応するクレーム又は記述の範囲から外れることなく存在してよいことを理解されたい。本明細書で使用されるように、「少なくとも（ａｔｌｅａｓｔ）」という表現が移行部の用語、例えば、請求項のプリアンブルとして使用される場合、それは「備える」および「含む」という用語が非限定的であるのと同じように、非限定的である。「ａｎｄ／ｏｒ（及び／又は）」という用語は、例えば、Ａ、Ｂ、及び／又はＣなどの形で用いられると、Ａ、Ｂ、Ｃの任意の組み合わせ又はこれらのサブセット、例えば、（１）Ａだけ、（２）Ｂだけ、（３）Ｃだけ、（４）ＡとＢ、（５）ＡとＣ、（６）ＢとＣ、及び（７）ＡとＢとＣなどを意味する。

図５は、対応するスパースベクトル及びスパース性マップを用いて２つの密ベクトルのドット積計算を実行するために、図２および／または図３のドット積計算機１０６の例示的な実装により実行され得る例示的機械可読命令を代表するフローチャート５００の例である。図５のフローチャート５００は、図２および／または図３の例示的ドット積計算機１０６と共に説明されたが、他のタイプのドット積計算機および／または他のタイプのプロセッサが代わりに利用されてよい。

ブロック５０２で、例示的ドット積計算機１０６は、２つのベクトルについてドット積を実行するためにインタフェース２００が命令を受け取ったか（例えば、取得したか）を決定する。ドット積を実行するための命令が受け取られていなかった場合（ブロック５０２：ＮＯ）、プロセスは、命令が受け取られるまでブロック５０２に戻る。２つのベクトル（例えば、ＡとＢ）についてドット積を実行するための命令がインタフェース２００に受け取られた場合（ブロック５０２：ＹＥＳ）、例示的メモリ１０５から、例示的ドット積計算機１０６は、２つのベクトル（ＡとＢ）に対応するスパース性マップ（Ａ_ＭとＢ_Ｍ）にアクセスする（ブロック５０４）。例えば、インタフェース２００は、図５のメモリインタフェース１０４と通信し、例示的メモリ１０５から２つのベクトルに対応するスパース性マップにアクセスする。

ブロック５０６で、例示的反復制御ベクトル生成器２０２は、２つのスパース性マップ（Ａ_ＭとＢ_Ｍ）について論理ＡＮＤ関数を実行することで制御ベクトル（Ｃ）を生成する。例えば、論理ゲート２０４は、論理ＡＮＤ関数を実行して、制御ベクトル（例えば、Ｃ＝Ａ_ＭＡＮＤＢ_Ｍ）を生成する。ある例では、制御ベクトルＣがすべて「０」を含む場合、ドット積が完了し、インタフェース２００は、ドット積結果１０８として、（例えば、結果ストレージ２１８に初期設定された）「０」を出力する。制御ベクトルが、非ゼロ値を含まない場合（ブロック５０７：ＮＯ）、ドット積の結果は「０」（例えば、２つの密ベクトルの間で共通の非ゼロ要素がゼロ）であり、プロセスは、ブロック５３４に進み、例示的結果ストレージ２１８内に結果を出力する（例えば、０に初期化される）。制御ベクトルが非ゼロ値を含む場合（ブロック５０７：ＹＥＳ）、例示的トレーリングバイナリカウンタ２０８は、制御ベクトル（Ｃ）のトレーリングバイナリカウント（例えば、トレーリングゼロカウントまたはトレーリング１カウント）を決定する（ブロック５０８）。例えば、図２のトレーリングバイナリカウンタ２０８は、いくつの最下位ビットが制御ベクトルで「１」が発現する前で「０」なのかを決定する。（他の例では、トレーリングバイナリカウンタ２０８は、いくつの最下位ビットが制御ベクトルに「０」が発現する前で「１」なのかを決定する。）

ブロック５１０では、例示的マスク生成器２１０が、トレーリングゼロ／バイナリーカウントに基づいて、マスクベクトルを生成する。例えば、マスク生成器２１０は、入力ベクトル（ＡとＢ）と同じ次元のベクトルを生成してよく、マスクベクトルの第１Ｘ（例えば、Ｘは、トレーリングゼロカウント）最下位ビットは「１」であり、マスクベクトルの残りのビットは「０」である。（他の例では、マスク生成器２１０は、入力ベクトルと同じ次元のベクトルを生成してよく、マスクベクトルの第１Ｘ最下位ビットが「０」であり、マスクベクトルの残りのビットは、「１」である。）ブロック５１２では、例示的論理ゲート２０４は、マスク及び第１スパース性マップＡ_Ｍ（例えば、マスクＡＮＤＡ_Ｍ）について論理ＡＮＤ関数を実行することにより、第１結果を生成し、マスクと第２スパース性マップＢ_Ｍ（例えば、マスクＡＮＤＢ_Ｍ）について論理ＡＮＤ関数を実行することで、第２結果を生成する。

ブロック５１４では、例示的要素位置決定器２１２は、第１結果の「１」カウントに基づいて、第１ベクトル（Ａ）に対応する第１スパースベクトル（Ａ_Ｓ）の第１メモリ位置を決定する。例えば、要素位置決定器２１２は、第１結果での「１」（例えば、二進値）の数をカウントし、「１」（例えば、二進値）の数に基づいて、スパースベクトルの位置を決定する。ブロック５１６では、例示的要素位置決定器２１２は、第２結果の「１」カウントに基づいて、第２ベクトル（Ｂ）に対応する第２スパースベクトル（Ｂ_Ｓ）の第２メモリ位置を決定する。例えば、要素位置決定器２１２は、第２結果の「１」の数をカウントし、「１」の数に基づいて、スパースベクトルの位置を決定する。

ブロック５１８では、例示的インタフェース２００は、スパースベクトル（Ａ_ＳとＢ_Ｓ）の１番目及び２番目の位置に保存された値にアクセスする。例えば、第１スパースベクトルＡ_Ｓが［５；３１６；９３５；１７］であり、第１メモリ位置が２である場合、インタフェース２００は、例示的メモリ１０５に保存されたスパースベクトルから、９３５（例えば、Ａ_Ｓの２番目の位置に対応し、５は０番目の位置、３１６は１番目の位置、９３５は２番目の位置、１７は３番目の位置）の値にアクセスする。ブロック５２０では、例示的乗算器２１４は、対応するスパースベクトルからアクセスされた値を乗算して、積を取得する。例えば、第１スパースベクトルＡ_Ｓからアクセスされた値が９３５であり、第２スパースベクトルＢ_Ｓからアクセスされた値が５である場合、乗算器２１４は、値９３５と５を乗算して、５，６７５の積を生成する。

ブロック５２２では、加算器２１６は、積と、結果ストレージ２１８に保存された値（例えば、保存された結果）とを合計する。ブロック５２４では、結果ストレージ２１８が合計に基づいて、保存された結果を更新する。第１反復の間、結果ストレージ２１８に保存された値は、「０」である。したがって、ある例では、第１反復の間、ブロック５２２は、スキップされ得、結果ストレージ２１８は、結果ストレージ２１８に保存された結果として積を保存し得る。ブロック５２６では、例示的減算器２０６は、制御ベクトルＣの値に対応するものから、１を差し引いて、Ｃ－１ベクトル（例えば、差分ベクトル）を生成する。例えば、制御ベクトルＣが［１，０，０，０］（例えば、十進法で８）である場合、減算器２０６は、ベクトルＣ－１を［０，１，１，１］（例えば、十進法で７）となるように生成する。

ブロック５２８では、例示的反復制御ベクトル生成器２０２は、制御ベクトル（Ｃ）及び差分ベクトル（Ｃ－１）について論理ＡＮＤ関数を実行するために論理ゲート２０４を用いて、更新された制御ベクトルを生成する。ブロック５３０では、例示的反復制御ベクトル生成器２０２は、更新された制御ベクトルの要素がすべて同一の二進値に対応するかどうかを決定する（例えば、更新された制御ベクトルの各要素が「０」であるかを決定する）。例示的反復制御ベクトル生成器２０２が、更新された制御ベクトル要素がすべて同一の二進値に対応しないと決定した場合（ブロック５３０：ＮＯ）、反復制御ベクトル生成器２０２は、制御ベクトルを更新された制御ベクトルと置き換えて（ブロック５３２）、プロセスはブロック５０８に戻って後続の反復を実行する。例示的反復制御ベクトル生成器２０２が、更新された制御ベクトル要素がすべて同一の二進値（例えば、すべて「０」）に対応すると決定した場合（ブロック５３０：ＹＥＳ）、例示的インタフェース２００は、結果ストレージ２１８に保存された結果にアクセスし、保存された結果をドット積結果１０８として出力する（ブロック５３４）。

図６は、図２における例示的ドット積計算機１０６を実装するための図５における命令を実行するために構成される、例示的プロセッサプラットフォーム１０００のブロック図である。プロセッサプラットフォーム６００は、例えば、サーバ、パーソナルコンピュータ、ワークステーション、自己学習機械（例えば、ニューラルネットワーク）、モバイルデバイス（例えば、携帯電話、スマートフォン、ｉＰａｄ（登録商標）といったタブレット）、または他のあらゆるタイプのコンピューティングデバイスであり得る。

図示した例のプロセッサプラットフォーム６００はプロセッサ６１２を含む。図示した例のプロセッサ６１２はハードウェアである。例えば、プロセッサ６１２は、１または複数の集積回路、論理回路、マイクロプロセッサ、ＧＰＵ、ＤＳＰ、又は任意の所望の系統若しくはメーカーからのコントローラにより実装されてよい。ハードウェアプロセッサは、半導体ベース（例えば、シリコンベース）のデバイスであり得る。この例では、プロセッサは、例示的インタフェース２００、例示的反復制御ベクトル生成器２０２、例示的論理ゲート２０４、例示的減算器２０６、例示的トレーリングバイナリカウンタ２０８、例示的マスク生成器２１０、例示的要素位置決定器２１２、例示的乗算器２１４、及び例示的加算器２１６を実装する。

図示した例のプロセッサ６１２は、ローカルメモリ６１３（例えばキャッシュ）を含む。ある例では、ローカルメモリ６１３は例示的結果ストレージ２１８を実装する。示された例のプロセッサ６１２は、バス６１８を介して、揮発性メモリ６１４と不揮発性メモリ６１６とを含むメインメモリと通信する。ある例では、メインメモリは例示的メモリ１０５を実装する。揮発性メモリ６１４は、シンクロナスダイナミックランダムアクセスメモリ（ＳＤＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、ＲＡＭＢＵＳ（登録商標）ダイナミックランダムアクセスメモリ（ＲＤＲＡＭ（登録商標））および／または任意の他の種類のランダムアクセスメモリデバイスにより実装され得る。不揮発性メモリ６１６は、フラッシュメモリおよび／または任意の他の所望の種類のメモリデバイスにより実装されてよい。メインメモリ６１４、６１６へのアクセスが、メモリコントローラにより制御される。

図示した例のプロセッサプラットフォーム６００は、インタフェース回路６２０も含む。インタフェース回路６２０は、イーサネット（登録商標）インタフェース、ユニバーサルシリアルバス（ＵＳＢ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）インタフェース、近距離無線通信（ＮＦＣ）インタフェース、および／またはＰＣＩエクスプレスインタフェースなどの任意の種類のインタフェース規格により実装され得る。

図示した例において、１または複数の入力デバイス６２２はインタフェース回路６２０に接続される。入力デバイス６２２は、ユーザがプロセッサ６１２にデータおよび／またはコマンドを入力することを許可する。入力デバイスは、例えば、オーディオセンサ、マイク、カメラ（スチールまたはビデオ）、キーボード、ボタン、マウス、タッチスクリーン、トラッキングパッド、トラックボール、アイソポイントおよび／または音声認識システムにより実装され得る。

１または複数の出力デバイス６２４も、図示した例のインタフェース回路６２０に接続されている。出力デバイス６２４は、例えば、ディスプレイデバイス（例えば、発光ダイオード（ＬＥＤ）、有機発光ダイオード（ＯＬＥＤ）、液晶ディスプレイ（ＬＣＤ）、ブラウン管ディスプレイ（ＣＲＴ）、ｉｎ－ｐｌａｃｅｓｗｉｔｃｈｉｎｇ（ＩＰＳ）ディスプレイ、タッチスクリーンなど）、触知出力デバイス、プリンタおよび／またはスピーカにより実装され得る。したがって、示された例のインタフェース回路６２０は通常、グラフィックスドライバカード、グラフィックスドライバチップ、および／またはグラフィックスドライバプロセッサを含む。

また、示された例のインタフェース回路６２０は、ネットワーク６２６を介して外部機械（例えば、任意の種類のコンピューティングデバイス）とのデータ交換を容易にする、送信機、受信機、トランシーバ、モデム、レジデンシャルゲートウェイ、無線アクセスポイント、および／またはネットワークインタフェースなどの通信デバイスを含む。通信は、例えば、イーサネット接続、デジタル加入者回線（ＤＳＬ）接続、電話回線接続、同軸ケーブルシステム、衛星システム、有視界無線システム、セルラ電話システムなどを介してよい。

図示した例のプロセッサプラットフォーム６００は、ソフトウェアおよび／またはデータを保存するための１または複数の大容量ストレージデバイス６２８も含む。そのような大容量ストレージデバイス６２８の例は、フロッピーディスクドライブ、ハードドライブディスク、コンパクトディスクドライブ、ブルーレイディスクドライブ、独立ディスクの冗長アレイ（ＲＡＩＤ）システム、およびデジタル多用途ディスク（ＤＶＤ）ドライブを含む。

図６の機械実行可能命令６３２は、大容量ストレージデバイス６２８、揮発性メモリ６１４、不揮発性メモリ６１６、および／または、ＣＤやＤＶＤなどの取り外し可能非一時的コンピュータ可読保存媒体に保存されてよい。

上記の説明から、例示的方法、装置、製造物品は、スパースベクトルを用いたドット積計算を実行するものであることを開示したとして理解されたい。開示されている方法、装置、製造物品は、より小さなスパースベクトル（例えば、非ゼロ値のみを含むベクトル）及び大きい密ベクトルに相当するスパース性マップ／ベクトル（例えば、密ベクトルのビットマップ）を保存することで、大きい密ベクトル（例えば、ゼロ及び非ゼロ値の両方を含むベクトル）を保存するのに要するメモリ量を減らし、それによりコンピューティングデバイスの効率を向上する。加えて、本願で開示する例は、スパース性マップを用いてドット積を実行することで、ドット積の実行に要するローカルのメモリ量を減らし、且つ、従来技術に関するドット積を実行するのに要する複雑な乗算演算の量を減らす。したがって、本願で開示する例は、ドット積計算に要するプロセッサリソースの量を減らす（例えば、同じ計算を実行するのに必要なプロセッササイクルを減らす）ことでコンピューティングデバイスの効率を向上させ、それによりドット積計算の計算速度を上げる。開示されている方法、装置、製造物品は、したがってコンピュータの機能の１つまたは複数の向上に向けられている。

例１は、制御ベクトルのトレーリングバイナリカウントを決定するカウンタであって、制御ベクトルは、第１スパースベクトルの第１ビットマップ及び第２スパースベクトルの第２ビットマップに対する第１論理ＡＮＤ演算の第１結果に対応する、カウンタと、トレーリングバイナリカウントに基づいてマスクベクトルを生成するマスク生成器と、インタフェースであって、第１ビットマップ及びマスクベクトルについての第２論理ＡＮＤ演算の第２結果に基づく第１スパースベクトルの第１の値にアクセスする、且つ第２ビットマップおよびマスクベクトルについての第３論理ＡＮＤ演算の第３結果に基づく第２スパースベクトルの第２の値にアクセスするインタフェースと、第１の値と第２の値とを乗算し、積を生成する乗算器とを備えるドット積計算機を含む。

例２は、例1に記載のドット積計算機を含み、第１ビットマップは、第１ベクトルの第１要素がそれぞれ、ゼロ値または非ゼロ値に相当するかを特定するためのものであり、第２ビットマップは、第２ベクトルの第２要素がそれぞれ、ゼロ値または非ゼロ値に相当するかを特定するためのものであり、第１スパースベクトルは、第１密ベクトルの非ゼロ値に対応し、第２スパースベクトルは、第２密ベクトルの非ゼロ値に対応する。

例３は、インプットとしての第１ビットマップおよび第２ビットマップに対する第１論理ＡＮＤ演算に基づく制御ベクトルを生成する論理ゲートをさらに備える、例１のドット積計算機を含む。

例４は、マスク生成器は、例１に記載のドット積計算機を含み、最下位ビットに複数の第１二進値を含むマスクベクトルを生成するためのものであり、第１二進値の数は、トレーリングバイナリカウントに対応しており、マスク生成器は、第１ベクトルと同じ次元を有するマスクベクトルを生成する。

例５は、第２結果内の二進値の第１の数の決定であって、インタフェースは、二進値の第１の数に対応する第１アドレスに基づいて第１の値にアクセスする、決定と、第３結果内の二進値の第２の数の決定であって、インタフェースは、二進値の第２の数に対応する第２のアドレスに基づいて第２の値にアクセスする、決定とを行う要素位置決定器をさらに備える、例１に記載のドット積計算機を含む。

例６は、積を保存するストレージをさらに含む、例１に記載のドット積計算機を含む。

例７は、制御ベクトルのバイナリビットに対応する値から１を減算することにより差分ベクトルを生成する減算器と、制御ベクトル及び差分ベクトルについての論理ＡＮＤ演算に対応して更新された制御ベクトルを生成し、且つ、更新された制御ベクトルのすべての要素が同一の二進値に対応するかを決定する、反復制御ベクトル生成器とをさらに備える、例１に記載のドット積計算機を含む。

例８は、反復制御ベクトル生成器が、更新された制御ベクトルのすべての要素が同一の二進値に対応すると決定したとき、インタフェースは、積をドット積結果として出力する、例７に記載のドット積計算機を含む。

例９は、トレーリングバイナリカウントは、第１トレーリングバイナリカウントであり、マスクベクトルは第１マスクベクトルであり、積は、第１の積であり、反復制御ベクトル生成器が更新された制御ベクトルのすべての要素が同一の二進値に対応していないと決定したとき、カウンタは、更新された制御ベクトルの第２トレーリングバイナリカウントを決定し、マスク生成器は、第２トレーリングバイナリカウントに対応する第２マスクベクトルを生成し、インタフェースは、第１ビットマップ及び第２マスクベクトルについての第４論理ＡＮＤ演算の第４結果に基づく第１スパースベクトルの第３の値にアクセスし、且つ第２ビットマップ及び第２マスクベクトルについての第５論理ＡＮＤ演算の第５結果に基づく第２スパースベクトルの第４の値にアクセスし、乗算器は、第３の値を第４の値と乗算し、第２の積を生成し、ドット積計算機は、第１の積を第２の積と合計する加算器をさらに備える、例７に記載のドット積計算機を含む。

例１０は、差分ベクトルは、第１差分ベクトルであり、更新された制御ベクトルは、第１の更新された制御ベクトルであり、要素は第１要素であり、減算器は、更新された制御ベクトルの二進数変換したものから１を減算することにより、第２差分ベクトルを生成し、反復制御ベクトル生成器は、更新された制御ベクトル及び第２差分ベクトルについての論理ＡＮＤ演算に対応する第２の更新された制御ベクトルを生成し、インタフェースは、第２の更新された制御ベクトルのすべての第２要素が同一の二進値に対応するとき、第１の積と第２の積の和をドット積結果として出力する、例９に記載のドット積計算機を含む。

例１１は、実行されたとき、機械に少なくとも、制御ベクトルのトレーリングバイナリカウントの決定であって、制御ベクトルは、第１スパースベクトルの第１ビットマップ及び第２スパースベクトルの第２ビットマップに対する第１論理ＡＮＤ演算の第１結果に対応する、決定をさせて、トレーリングバイナリカウントに基づいて、マスクベクトルを生成させて、（Ａ）第１ビットマップ及びマスクベクトルについての第２論理ＡＮＤ演算の第２結果に基づく第１スパースベクトルの第１の値と、（Ｂ）第２ビットマップ及びマスクベクトルについての第３論理ＡＮＤ演算の第３結果に基づく第２ベクトルに対応する第２スパースベクトルの第２の値とを乗算させる命令を備える少なくとも１つの非一時的コンピュータ可読保存媒体を含む。

例１２は、第１ビットマップは、第１ベクトルのゼロ値または非ゼロ値をそれぞれ特定し、第２ビットマップは、第２ベクトルのゼロ値または非ゼロ値をそれぞれ特定し、第１スパースベクトルは、第１密ベクトルの非ゼロ値に対応し、第２スパースベクトルは、第２密ベクトルの非ゼロ値に対応する、例１１に記載のコンピュータ可読保存媒体を含む。

例１３は、命令は、機械に、インプットとしての第１ビットマップ及び第２ビットマップに対する第１論理ＡＮＤ演算に基づいて、制御ベクトルを生成させる、例１１に記載のコンピュータ可読保存媒体を含む。

例１４は、命令は、機械に、最下位ビットに複数の第１二進値を含むマスクベクトルを生成させて、第１二進値の数はトレーリングバイナリカウントに対応し、マスクベクトルは第１ベクトルと同じ次元を持つ、例１１に記載のコンピュータ可読保存媒体を含む。

例１５は、命令は、機械に、第２結果内の二進値の第１の数を決定させて、二進値の第１の数に対応する第１アドレスに基づく第１の値にアクセスさせて、第３結果内の二進値の第２の数を決定させて、二進値の第２の数に対応する第２のアドレスに基づいて第２の値にアクセスさせる、例１１に記載のコンピュータ可読保存媒体を含む。

例１６は、命令は、機械に、第１の値及びと第２の値との積をローカルメモリに保存させる、例１１に記載のコンピュータ可読保存媒体を含む。

例１７は、命令は、機械に、制御ベクトルのバイナリビットに対応する値から１を減算することで差分ベクトルを生成させて、制御ベクトル及び差分ベクトルについての論理ＡＮＤ演算に対応する更新された制御ベクトルを生成させて、更新された制御ベクトルのすべての要素が同一の二進値に対応するかを決定させる例１１に記載のコンピュータ可読保存媒体を含む。

例１８は、命令は、機械に、更新された制御ベクトルのすべての要素が同一の二進値に対応するとき、第１の値及びと第２の値との積をドット積結果として出力させる、例１７に記載のコンピュータ可読保存媒体を含む。

例１９は、トレーリングバイナリカウントは、第１トレーリングバイナリカウントであり、マスクベクトルは第１マスクベクトルであり、積は第１の積であり、更新された制御ベクトルのすべての要素が同一の二進値に対応していないとき、命令は、機械に、更新された制御ベクトルの第２トレーリングバイナリカウントを決定させ、第２トレーリングバイナリカウントに対応する第２マスクベクトルを生成させ、第１ビットマップ及び第２マスクベクトルについての第４論理ＡＮＤ演算の第４結果に基づく第１スパースベクトルの第３の値にアクセスさせ、第２ビットマップ及び第２マスクベクトルについての第５論理ＡＮＤ演算の第５結果に基づく第２スパースベクトルの第４の値にアクセスさせ、第３の値を第４の値と乗算し、第２の積を生成させ、かつ、第１の積を第２の積と合計させる、例１７に記載のコンピュータ可読保存媒体を含む。

例２０は、差分ベクトルは第１差分ベクトルであり、更新された制御ベクトルは、第１の更新された制御ベクトルであり、要素は第１要素であり、命令が機械に、更新された制御ベクトルの二進数変換したものから１を減算することで、第２差分ベクトルを生成させ、更新された制御ベクトルと第２差分ベクトルとの間の論理ＡＮＤ関数に対応する第２の更新された制御ベクトルを生成させ、第２の更新された制御ベクトルのすべての第２要素が同一の二進値に対応するとき、第１の積と第２の積との合計をドット積結果として出力させる、例１９に記載のコンピュータ可読保存媒体を含む。

例２１は、２つのベクトル間のドット積を決定する方法であって、少なくとも１つの論理回路、制御ベクトルのトレーリングバイナリカウント、第１ベクトルの第１ビットマップ及び第２ベクトルの第２ビットマップに対する第１論理ＡＮＤ演算の第１結果に対応する制御ベクトルを決定する段階と、トレーリングバイナリカウントに対応するマスクベクトルを、少なくとも１つの論理回路を用いて、生成する段階と、第１ビットマップ及びマスクベクトルについての第２論理ＡＮＤ演算の第２結果に基づいて第１ベクトルに対応する第１スパースベクトルの第１の値にアクセスする段階と、第２ビットマップ及びマスクベクトルについての第３論理ＡＮＤ演算の第３結果に基づいて第２ベクトルに対応する第２スパースベクトルの第２の値にアクセスする段階と、第１の値と第２の値を、少なくとも１つの論理回路を用いて、乗算することで、積を生成する段階とを備える方法を含む。

例２２は、第１ビットマップは、第１ベクトルの第１要素が、ゼロ値または非ゼロ値に相当するのかに対応して、第２ビットマップは、第２ベクトルの第２要素がゼロ値または非ゼロ値に相当するのかに対応して、第１スパースベクトルは、第１ベクトルの非ゼロ値に対応して、第２スパースベクトルは、第２ベクトルの非ゼロ値に対応する例２１に記載の方法を含む。

例２３は、インプットとしての第１ビットマップおよび第２ビットマップに対する第１論理ＡＮＤ演算に基づいて、制御ベクトルを生成する段階をさらに備える、例２１に記載の方法を含む。

例２４は、最下位ビットに複数の第１二進値を含むマスクベクトルを生成する段階であって、第１二進値の数は、トレーリングバイナリカウントに対応して、マスクベクトルは、第１ベクトルと同じ次元を有する、段階をさらに備える例２１に記載の方法を含む。

例２５は、第２結果内の二進値の第１の数を決定する段階と、二進値の第１の数に対応する第１アドレスに基づいて第１の値にアクセスする段階と、第３結果内の二進値の第２の数を決定する段階と、二進値の第２の数に対応する第２のアドレスに基づいて第２の値にアクセスする段階とをさらに備える例２１に記載の方法を含む。

例２６は、第１の値と第２の値との積をローカルメモリに保存する段階をさらに備える例２１に記載の方法を含む。

例２７は、制御ベクトルのバイナリビットに対応する値から１を減算することにより差分ベクトルを生成する段階と、制御ベクトルおよび差分ベクトルについての論理ＡＮＤ演算も対応する更新された制御ベクトルを生成する段階と、更新された制御ベクトルのすべての要素が同一の二進値に対応するかを決定する段階とをさらに備える例２１に記載の方法を含む。

例２８は、更新された制御ベクトルのすべて要素が、同一の二進値に対応するとき、第１の値と第２の値との積を、ドット積結果として出力する段階をさらに備える例２７に記載の方法を含む。

例２９は、トレーリングバイナリカウントは、第１トレーリングバイナリカウントであり、マスクベクトルは、第１マスクベクトルであり、積は、第１の積であり、更新された制御ベクトルのすべての要素が同一の二進値に対応していないとき、更新された制御ベクトルの第２トレーリングバイナリカウントを決定する段階と、第２トレーリングバイナリカウントに対応する第２マスクベクトルを生成する段階と、第１ビットマップおよび第２マスクベクトルについての第４論理ＡＮＤ演算の第４結果に基づく第１スパースベクトルの第３の値にアクセスする段階と、第２ビットマップおよび第２マスクベクトルについての第５論理ＡＮＤ演算の第５結果に基づく第２スパースベクトルの第４の値にアクセスする段階と、第３の値を第４の値と乗算し、第２の積を生成する段階と、第１の積を第２の積と合計する段階とをさらに備える例２７に記載の方法を含む。

例３０は、差分ベクトルは第１差分ベクトルであり、更新された制御ベクトルは第１の更新された制御ベクトルであり、要素は第１要素であり、更新された制御ベクトルの二進数変換したものから１を減算することで第２差分ベクトルを生成する段階と、更新された制御ベクトルおよび第２差分ベクトルについての論理ＡＮＤ演算に対応する第２の更新された制御ベクトルを生成する段階と、第２の更新された制御ベクトルのすべて第２要素が同一の二進値に対応するとき、第１の積と第２の積との和をドット積結果として出力する段階とをさらに備える例２９に記載の方法を含む。

例３１は、制御ベクトルのトレーリングバイナリカウントを決定するための第１手段であって、制御ベクトルは、第１スパースベクトルの第１ビットマップ及び第２スパースベクトルの第２ビットマップに対する第１論理ＡＮＤ演算の第１結果に対応する、第１手段と、トレーリングバイナリカウントに基づいてマスクベクトルを生成するための第２手段と、第３手段であって、第１ビットマップ及びマスクベクトルについての第２論理ＡＮＤ演算の第２結果に基づく第１スパースベクトルの第１の値にアクセスするため、および第２ビットマップおよびマスクベクトルについての第３論理ＡＮＤ演算の第３結果に基づく第２スパースベクトルの第２の値にアクセスするための第３手段と、第１の値と第２の値とを乗算して、積を生成するための第４手段とを備えるドット積計算機を含む。

例３２は、第１ビットマップは、第１ベクトルの第１要素がそれぞれ、ゼロ値または非ゼロ値に相当するかを特定するためのものであり、第２ビットマップは、第２ベクトルの第２要素がそれぞれ、ゼロ値または非ゼロ値に相当するかを特定するためのものであり、第１スパースベクトルは、第１密ベクトルの非ゼロ値に対応し、第２スパースベクトルは、第２密ベクトルの非ゼロ値に対応する、例３１に記載のドット積計算機を含む。

例３３は、インプットとしての第１ビットマップおよび第２ビットマップに対する第１論理ＡＮＤ演算に基づく制御ベクトルを生成するための第５手段をさらに備える、例３１に記載のドット積計算機を含む。

例３４は、第２手段は、最下位ビットに複数の第１二進値を含むマスクベクトルを生成するための手段を含んで、第１二進値の数は、トレーリングバイナリカウントに対応しており、第２手段は、第１ベクトルと同じ次元を有するマスクベクトルを生成するための手段を含む、例３１に記載のドット積計算機を含む。

例３５は、第２結果内の二進値の第１の数の決定であり、第３手段は、二進値の第１の数に対応する第１アドレスに基づいて第１の値にアクセスするための手段を含む、決定と第３結果内の二進値の第２の数の決定であり、第３手段は、二進値の第２の数に対応する第２のアドレスに基づいて第２の値にアクセスするための手段を含む、決定とを行う第６手段をさらに備える、例３１に記載のドット積計算機を含む。

例３６は、積を保存する第７手段をさらに含む、例３１に記載のドット積計算機を含む。

例３７は、制御ベクトルのバイナリビットに対応する値から１を減算することにより差分ベクトルを生成するための第８手段と、制御ベクトル及び差分ベクトルについての論理ＡＮＤ演算に対応して更新された制御ベクトルを生成するため、且つ更新された制御ベクトルのすべての要素が同一の二進値に対応するかを決定するための、第９手段とをさらに備える、例３１に記載のドット積計算機を含む。

例３８は、反復制御ベクトル生成器が、更新された制御ベクトルのすべての要素が同一の二進値に対応すると決定したとき、第３手段は、積をドット積結果として出力するための手段を含む、例３７に記載のドット積計算機を含む。

例３９は、トレーリングバイナリカウントは、第１トレーリングバイナリカウントであり、マスクベクトルは第１マスクベクトルであり、積は、第１の積であり、反復制御ベクトル生成器が更新された制御ベクトルのすべての要素が同一の二進値に対応していないと決定したとき、第１手段は、更新された制御ベクトルの第２トレーリングバイナリカウントを決定するための手段を含み、第２手段は、第２トレーリングバイナリカウントに対応する第２マスクベクトルを生成するための手段を含み、第３手段は、第１ビットマップ及び第２マスクベクトルについての第４論理ＡＮＤ演算の第４結果に基づく第１スパースベクトルの第３の値にアクセスするための、および第２ビットマップ及び第２マスクベクトルについての第５論理ＡＮＤ演算の第５結果に基づく第２スパースベクトルの第４の値にアクセスするための手段を含み、第４手段は、第３の値を第４の値と乗算し、第２の積を生成するための手段を含み、ドット積計算機は、第１の積を第２の積と合計する加算器をさらに備える例３７に記載のドット積計算機を含む。

例４０は、差分ベクトルは、第１差分ベクトルであり、更新された制御ベクトルは、第１の更新された制御ベクトルであり、要素は第１要素であり、第８手段は、更新された制御ベクトルの二進数変換したものから１を減算することにより、第２差分ベクトルを生成するための手段を含み、第９手段は、更新された制御ベクトル及び第２差分ベクトルについての論理ＡＮＤ演算に対応する第２の更新された制御ベクトルを生成するための手段を含み、第３手段は、第２の更新された制御ベクトルのすべての第２要素が同一の二進値に対応するとき、第１の積と第２の積の和をドット積結果として出力するための手段を含む例３９に記載のドット積計算機を含む。

特定の例の方法、装置および製造物品が本明細書において開示されているが、本特許の網羅する範囲はこれらに限定されない。むしろ、本特許は、本特許の請求項の範囲に公正に含まれるすべての方法、装置および製品を網羅する。

Claims

制御ベクトルのトレーリングバイナリカウントを決定するカウンタであって、前記制御ベクトルは、第１スパースベクトルの第１ビットマップ及び第２スパースベクトルの第２ビットマップに対する第１論理ＡＮＤ演算の第１結果に対応する、カウンタと、
前記トレーリングバイナリカウントに基づいてマスクベクトルを生成するマスク生成器と、
インタフェースであって、
前記第１ビットマップ及び前記マスクベクトルについての第２論理ＡＮＤ演算の第２結果に基づく前記第１スパースベクトルの第１の値にアクセスする、且つ
前記第２ビットマップおよび前記マスクベクトルについての第３論理ＡＮＤ演算の第３結果に基づく前記第２スパースベクトルの第２の値にアクセスするインタフェースと、
前記第１の値と前記第２の値とを乗算して、積を生成する乗算器と
を備えるドット積計算機。
前記第１ビットマップは、第１ベクトルの第１要素がそれぞれ、ゼロ値または非ゼロ値に相当するかを特定するためのものであり、前記第２ビットマップは、第２ベクトルの第２要素がそれぞれ、ゼロ値または非ゼロ値に相当するかを特定するためのものであり、
前記第１スパースベクトルは、第１密ベクトルの非ゼロ値に対応し、前記第２スパースベクトルは、第２密ベクトルの非ゼロ値に対応する
請求項１に記載のドット積計算機。
インプットとしての前記第１ビットマップおよび前記第２ビットマップについての前記第１論理ＡＮＤ演算に基づいて前記制御ベクトルを生成する論理ゲートをさらに備える、請求項１または２に記載のドット積計算機。
前記マスク生成器は、最下位ビットに複数の第１二進値を含む前記マスクベクトルを生成し、前記複数の第１二進値の数は、前記トレーリングバイナリカウントに対応しており、前記マスク生成器は、第１ベクトルと同じ次元を有する前記マスクベクトルを生成する、請求項１から３のいずれか一項に記載のドット積計算機。
前記第２結果内の二進値の第１の数の決定であって、前記インタフェースは、二進値の前記第１の数に対応する第１アドレスに基づいて前記第１の値にアクセスする、決定と、
前記第３結果内の二進値の第２の数の決定であって、前記インタフェースは、二進値の前記第２の数に対応する第２のアドレスに基づいて前記第２の値にアクセスする、決定とを
行う要素位置決定器をさらに備える、請求項１から４のいずれか一項に記載のドット積計算機。
前記積を保存するストレージをさらに含む、請求項１から５のいずれか一項に記載のドット積計算機。
前記制御ベクトルのバイナリビットに対応する値から１を減算することにより差分ベクトルを生成する減算器と、
前記制御ベクトル及び前記差分ベクトルについての論理ＡＮＤ演算に対応して更新された制御ベクトルを生成し、且つ
前記更新された制御ベクトルのすべての要素が同一の二進値に対応するかを決定する、
反復制御ベクトル生成器と
をさらに備える、請求項１から６のいずれか一項に記載のドット積計算機。
前記更新された制御ベクトルのすべての前記要素が前記同一の二進値に対応すると、前記反復制御ベクトル生成器が決定したとき、前記インタフェースは、前記積をドット積結果として出力する、請求項７に記載のドット積計算機。
前記トレーリングバイナリカウントは、第１トレーリングバイナリカウントであり、前記マスクベクトルは第１マスクベクトルであり、前記積は、第１の積であり、前記更新された制御ベクトルのすべての前記要素が前記同一の二進値に対応していないと、前記反復制御ベクトル生成器が決定したとき、
前記カウンタは、前記更新された制御ベクトルの第２トレーリングバイナリカウントを決定し、
前記マスク生成器は、前記第２トレーリングバイナリカウントに対応する第２マスクベクトルを生成し、
前記インタフェースは、
前記第１ビットマップ及び前記第２マスクベクトルについての第４論理ＡＮＤ演算の第４結果に基づく前記第１スパースベクトルの第３の値にアクセスし、且つ
前記第２ビットマップ及び前記第２マスクベクトルについての第５論理ＡＮＤ演算の第５結果に基づく前記第２スパースベクトルの第４の値にアクセスし、
前記乗算器は、前記第３の値を前記第４の値と乗算して、第２の積を生成し、前記ドット積計算機は、前記第１の積を前記第２の積と合計する加算器をさらに備える請求項７または８に記載のドット積計算機。
前記差分ベクトルは、第１差分ベクトルであり、前記更新された制御ベクトルは、第１の更新された制御ベクトルであり、前記要素は第１要素であり、
前記減算器は、前記更新された制御ベクトルの二進数変換したものから１を減算することにより、第２差分ベクトルを生成し、
前記反復制御ベクトル生成器は、前記更新された制御ベクトル及び前記第２差分ベクトルについての論理ＡＮＤ演算に対応する第２の更新された制御ベクトルを生成し、
前記インタフェースは、前記第２の更新された制御ベクトルのすべての第２要素が前記同一の二進値に対応するとき、前記第１の積と前記第２の積の和をドット積結果として出力する
請求項９に記載のドット積計算機。
コンピュータに、
実行されたとき、機械に少なくとも、制御ベクトルのトレーリングバイナリカウントを決定する手順であって、前記制御ベクトルは、第１スパースベクトルの第１ビットマップ及び第２スパースベクトルの第２ビットマップに対する第１論理ＡＮＤ演算の第１結果に対応する、手順と、
前記トレーリングバイナリカウントに基づいて、マスクベクトルを生成する手順と、
（Ａ）前記第１ビットマップ及び前記マスクベクトルについての第２論理ＡＮＤ演算の第２結果に基づく前記第１スパースベクトルの第１の値と、（Ｂ）前記第２ビットマップ及び前記マスクベクトルについての第３論理ＡＮＤ演算の第３結果に基づく第２ベクトルに対応する前記第２スパースベクトルの第２の値とを乗算する手順と
を実行させるためのプログラム。
前記第１ビットマップは、第１ベクトルのゼロ値または非ゼロ値をそれぞれ特定し、前記第２ビットマップは、前記第２ベクトルのゼロ値または非ゼロ値をそれぞれ特定し、
前記第１スパースベクトルは、第１密ベクトルの非ゼロ値に対応し、前記第２スパースベクトルは、第２密ベクトルの非ゼロ値に対応する
請求項１１に記載のプログラム。
前記コンピュータに、インプットとしての第１ビットマップ及び前記第２ビットマップについての前記第１論理ＡＮＤ演算に基づいて、前記制御ベクトルを生成する手順を実行させる、請求項１１または１２に記載のプログラム。
前記コンピュータに、最下位ビットに複数の第１二進値を含む前記マスクベクトルを生成する手順を実行させ、前記複数の第１二進値の数は前記トレーリングバイナリカウントに対応し、前記マスクベクトルは第１ベクトルと同じ次元を持つ、請求項１１から１３のいずれか一項に記載のプログラム。
前記コンピュータに、
前記第２結果内の二進値の第１の数を決定する手順と、
二進値の前記第１の数に対応する第１アドレスに基づく前記第１の値にアクセスする手順と、
前記第３結果内の二進値の第２の数を決定する手順と、
二進値の前記第２の数に対応する第２のアドレスに基づいて前記第２の値にアクセスする手順と
を実行させる、請求項１１から１４のいずれか一項に記載のプログラム。
前記コンピュータに、前記第１の値と前記第２の値との積をローカルメモリに保存する手順を実行させる、請求項１１から１５のいずれか一項に記載のプログラム。
前記コンピュータに、
前記制御ベクトルのバイナリビットに対応する値から１を減算することで差分ベクトルを生成する手順と、
前記制御ベクトル及び前記差分ベクトルについての論理ＡＮＤ演算に対応する更新された制御ベクトルを生成する手順と、
前記更新された制御ベクトルのすべての要素が同一の二進値に対応するかを決定する手順と
を実行させる、請求項１１から１６のいずれか一項に記載のプログラム。
前記コンピュータに、前記更新された制御ベクトルのすべての前記要素が前記同一の二進値に対応するとき、前記第１の値と前記第２の値との積をドット積結果として出力する手順を実行させる、請求項１７に記載のプログラム。
前記トレーリングバイナリカウントは、第１トレーリングバイナリカウントであり、前記マスクベクトルは第１マスクベクトルであり、積は第１の積であり、前記更新された制御ベクトルのすべての前記要素が前記同一の二進値に対応していないとき、前記コンピュータに、
前記更新された制御ベクトルの第２トレーリングバイナリカウントを決定する手順と、
前記第２トレーリングバイナリカウントに対応する第２マスクベクトルを生成する手順と、
前記第１ビットマップ及び前記第２マスクベクトルについての第４論理ＡＮＤ演算の第４結果に基づく前記第１スパースベクトルの第３の値にアクセスする手順と、
前記第２ビットマップ及び前記第２マスクベクトルについての第５論理ＡＮＤ演算の第５結果に基づく前記第２スパースベクトルの第４の値にアクセスする手順と、
前記第３の値を前記第４の値と乗算して、第２の積を生成する手順と、
前記第１の積を前記第２の積と合計する手順と
を実行させる、請求項１７または１８に記載のプログラム。
前記差分ベクトルは第１差分ベクトルであり、前記更新された制御ベクトルは、第１の更新された制御ベクトルであり、前記要素は第１要素であり、前記コンピュータに、
前記更新された制御ベクトルの二進数変換したものから１を減算することで、第２差分ベクトルを生成する手順と、
前記更新された制御ベクトルと前記第２差分ベクトルとの間の論理ＡＮＤ関数に対応する第２の更新された制御ベクトルを生成する手順と、
前記第２の更新された制御ベクトルのすべての第２要素が前記同一の二進値に対応するとき、前記第１の積と前記第２の積との和をドット積結果として出力する手順と
を実行させる、請求項１９に記載のプログラム。
２つのベクトル間のドット積を決定する方法であって、
少なくとも１つの論理回路、制御ベクトルのトレーリングバイナリカウント、第１ベクトルの第１ビットマップ及び第２ベクトルの第２ビットマップに対する第１論理ＡＮＤ演算の第１結果に対応する前記制御ベクトルを決定する段階と、
前記トレーリングバイナリカウントに対応するマスクベクトルを、前記少なくとも１つの論理回路を用いて、生成する段階と、
前記第１ビットマップ及び前記マスクベクトルについての第２論理ＡＮＤ演算の第２結果に基づいて前記第１ベクトルに対応する第１スパースベクトルの第１の値にアクセスする段階と、
前記第２ビットマップ及び前記マスクベクトルについての第３論理ＡＮＤ演算の第３結果に基づいて前記第２ベクトルに対応する第２スパースベクトルの第２の値にアクセスする段階と
前記第１の値と前記第２の値を、前記少なくとも１つの論理回路を用いて、乗算することで、積を生成する段階と
を備える方法。
前記第１ビットマップは、前記第１ベクトルの第１要素が、ゼロ値または非ゼロ値に相当するのかに対応して、前記第２ビットマップは、前記第２ベクトルの第２要素がゼロ値または非ゼロ値に相当するのかに対応し、
前記第１スパースベクトルは、前記第１ベクトルの非ゼロ値に対応し、前記第２スパースベクトルは、前記第２ベクトルの非ゼロ値に対応する
請求項２１に記載の方法。
インプットとしての第１ビットマップおよび前記第２ビットマップについての前記第１論理ＡＮＤ演算に基づいて、前記制御ベクトルを生成する段階をさらに備える、請求項２１または２２に記載の方法。
最下位ビットに複数の第１二進値を含む前記マスクベクトルを生成する段階であって、前記複数の第１二進値の数は、前記トレーリングバイナリカウントに対応し、前記マスクベクトルは、前記第１ベクトルと同じ次元を有する、段階をさらに備える請求項２１から２３のいずれか一項に記載の方法。
前記第２結果内の二進値の第１の数を決定する段階と、
二進値の前記第１の数に対応する第１アドレスに基づいて前記第１の値にアクセスする段階と、
前記第３結果内の二進値の第２の数を決定する段階と、
二進値の前記第２の数に対応する第２のアドレスに基づいて前記第２の値にアクセスする段階と
をさらに備える請求項２１から２４のいずれか一項に記載の方法。
前記第１の値と前記第２の値との前記積をローカルメモリに保存する段階をさらに備える請求項２１から２５のいずれか一項に記載の方法。
前記制御ベクトルのバイナリビットに対応する値から１を減算することにより差分ベクトルを生成する段階と、
前記制御ベクトルおよび前記差分ベクトルについての論理ＡＮＤ演算も対応する更新された制御ベクトルを生成する段階と、
前記更新された制御ベクトルのすべての要素が同一の二進値に対応するかを決定する段階と
をさらに備える請求項２１から２６のいずれか一項に記載の方法。
前記更新された制御ベクトルのすべて前記要素が、前記同一の二進値に対応するとき、前記第１の値と前記第２の値との前記積を、ドット積結果として出力する段階をさらに備える請求項２７に記載の方法。
前記トレーリングバイナリカウントは、第１トレーリングバイナリカウントであり、前記マスクベクトルは、第１マスクベクトルであり、前記積は、第１の積であり、前記更新された制御ベクトルのすべての前記要素が前記同一の二進値に対応していないとき、
前記更新された制御ベクトルの第２トレーリングバイナリカウントを決定する段階と、
前記第２トレーリングバイナリカウントに対応する第２マスクベクトルを生成する段階と、
前記第１ビットマップおよび前記第２マスクベクトルについての第４論理ＡＮＤ演算の第４結果に基づく前記第１スパースベクトルの第３の値にアクセスする段階と、
前記第２ビットマップおよび前記第２マスクベクトルについての第５論理ＡＮＤ演算の第５結果に基づく前記第２スパースベクトルの第４の値にアクセスする段階と、
前記第３の値を前記第４の値と乗算して、第２の積を生成する段階と、
前記第１の積を前記第２の積と合計する段階と
をさらに備える請求項２７または２８に記載の方法。
前記差分ベクトルは第１差分ベクトルであり、前記更新された制御ベクトルは第１の更新された制御ベクトルであり、前記要素は第１要素であり、
前記更新された制御ベクトルの二進数変換したものから１を減算することで第２差分ベクトルを生成する段階と、
前記更新された制御ベクトルおよび前記第２差分ベクトルについての論理ＡＮＤ演算に対応する第２の更新された制御ベクトルを生成する段階と、
前記第２の更新された制御ベクトルのすべて第２要素が前記同一の二進値に対応するとき、前記第１の積と前記第２の積との和をドット積結果として出力する段階と
をさらに備える請求項２９に記載の方法。
制御ベクトルのトレーリングバイナリカウントを決定するための第１手段であって、前記制御ベクトルは、第１スパースベクトルの第１ビットマップ及び第２スパースベクトルの第２ビットマップに対する第１論理ＡＮＤ演算の第１結果に対応する、第１手段と、
前記トレーリングバイナリカウントに基づいてマスクベクトルを生成するための第２手段と、
第３手段であって、
前記第１ビットマップ及び前記マスクベクトルについての第２論理ＡＮＤ演算の第２結果に基づく前記第１スパースベクトルの第１の値にアクセスするため、および
前記第２ビットマップおよび前記マスクベクトルについての第３論理ＡＮＤ演算の第３結果に基づく前記第２スパースベクトルの第２の値にアクセスするための第３手段と、
前記第１の値と前記第２の値とを乗算して、積を生成するための第４手段と
を備えるドット積計算機。
前記第１ビットマップは、第１ベクトルの第１要素がそれぞれ、ゼロ値または非ゼロ値に相当するかを特定するためのものであり、前記第２ビットマップは、第２ベクトルの第２要素がそれぞれ、ゼロ値または非ゼロ値に相当するかを特定するためのものであり、
前記第１スパースベクトルは、第１密ベクトルの非ゼロ値に対応し、前記第２スパースベクトルは、第２密ベクトルの非ゼロ値に対応する
請求項３１に記載のドット積計算機。
インプットとしての前記第１ビットマップおよび前記第２ビットマップについての前記第１論理ＡＮＤ演算に基づく前記制御ベクトルを生成するための第５手段をさらに備える、請求項３１または３２に記載のドット積計算機。
前記第２手段は、最下位ビットに複数の第１二進値を含む前記マスクベクトルを生成するための手段を含んで、前記複数の第１二進値の数は、前記トレーリングバイナリカウントに対応しており、前記第２手段は、第１ベクトルと同じ次元を有する前記マスクベクトルを生成するための手段を含む、請求項３１から３３のいずれか一項に記載のドット積計算機。
前記第２結果内の二進値の第１の数の決定であって、前記第３手段は、二進値の前記第１の数に対応する第１アドレスに基づいて前記第１の値にアクセスするための手段を含む、決定と、
前記第３結果内の二進値の第２の数の決定であって、前記第３手段は、二進値の前記第２の数に対応する第２のアドレスに基づいて前記第２の値にアクセスするための手段を含む、決定と
を行う第６手段をさらに備える、請求項３１から３４のいずれか一項に記載のドット積計算機。
前記積を保存する第７手段をさらに含む、請求項３１から３５のいずれか一項に記載のドット積計算機。
前記制御ベクトルのバイナリビットに対応する値から１を減算することにより差分ベクトルを生成するための第８手段と、
前記制御ベクトル及び前記差分ベクトルについての論理ＡＮＤ演算に対応して更新された制御ベクトルを生成するため、且つ
前記更新された制御ベクトルのすべての要素が同一の二進値に対応するかを決定するための、
第９手段と
をさらに備える、請求項３１から３６のいずれか一項に記載のドット積計算機。
反復制御ベクトル生成器が、前記更新された制御ベクトルのすべての前記要素が前記同一の二進値に対応すると決定したとき、前記第３手段は、前記積をドット積結果として出力するための手段を含む、請求項３７に記載のドット積計算機。
前記トレーリングバイナリカウントは、第１トレーリングバイナリカウントであって、前記マスクベクトルは第１マスクベクトルであって、前記積は、第１の積であって、反復制御ベクトル生成器が前記更新された制御ベクトルのすべての前記要素が前記同一の二進値に対応していないと決定したとき、
前記第１手段は、前記更新された制御ベクトルの第２トレーリングバイナリカウントを決定するための手段を含み、
前記第２手段は、前記第２トレーリングバイナリカウントに対応する第２マスクベクトルを生成するための手段を含み、
前記第３手段は、
前記第１ビットマップ及び前記第２マスクベクトルについての第４論理ＡＮＤ演算の第４結果に基づく前記第１スパースベクトルの第３の値にアクセスするための、および
前記第２ビットマップ及び前記第２マスクベクトルについての第５論理ＡＮＤ演算の第５結果に基づく前記第２スパースベクトルの第４の値にアクセスするための手段を含み、
前記第４手段は、前記第３の値を前記第４の値と乗算して、第２の積を生成するための手段を含み、前記ドット積計算機は、
前記第１の積を前記第２の積と合計する加算器をさらに備える
請求項３７または３８に記載のドット積計算機。
前記差分ベクトルは、第１差分ベクトルであり、前記更新された制御ベクトルは、第１の更新された制御ベクトルであり、前記要素は第１要素であり、
前記第８手段は、前記更新された制御ベクトルの二進数変換したものから１を減算することにより、第２差分ベクトルを生成するための手段を含み、
前記第９手段は、前記更新された制御ベクトル及び前記第２差分ベクトルについての論理ＡＮＤ演算に対応する第２の更新された制御ベクトルを生成するための手段を含み、
前記第３手段は、前記第２の更新された制御ベクトルのすべての第２要素が前記同一の二進値に対応するとき、前記第１の積と前記第２の積の和をドット積結果として出力するための手段を含む
請求項３９に記載のドット積計算機。