JP7194824B2

JP7194824B2 - 不可逆スパースロードｓｉｍｄ命令ファミリ

Info

Publication number: JP7194824B2
Application number: JP2021521289A
Authority: JP
Inventors: センサンチャリ; アレンアグレンデリック; リーグレイトハウスジョセフ
Original assignee: Advanced Micro Devices Inc
Current assignee: Advanced Micro Devices Inc
Priority date: 2018-11-19
Filing date: 2019-06-26
Publication date: 2022-12-22
Anticipated expiration: 2039-06-26
Also published as: EP3884379A1; KR20210090260A; CN113168324A; US20200159529A1; WO2020106321A1; JP2022505316A; US11663001B2; KR102598174B1

Description

（関連技術の説明）
新たな技術分野は、機械学習モデルの１つのタイプであるニューラルネットワークによる機械学習である。ニューラルネットワークは、手書き数字クラス分類及び顔検出等のタスクにおいて優れたパフォーマンスを実証している。また、ニューラルネットワークは、他のより困難な視覚クラス分類タスクにおいて良好に実行する可能性を示している。ニューラルネットワークの他のアプリケーションは、音声認識、言語モデリング、感情分析、テキスト予測等を含む。

ディープニューラルネットワーク（ＤＮＮ）は、それらの様々なデータ構造においてスパース性（sparsity）又はゼロ値を示すことが知られている。例えば、ＲｅｓＮｅｔ－５０及びＡｌｅｘＮｅｔにおける活性化は、それぞれ５８％及び５５％の平均スパース性を示すが、ＤｅｅｐＣｏｍｐｒｅｓｓｉｏｎＡｌｅｘＮｅｔにおける重みは、推論段階で６５％のスパース性を示す。ＤＮＮデータ構造におけるゼロ値は、結果として得られる積和（ＭＡＤ）演算を生じさせ、この積和演算は、乗累算（ＭＡＣ）演算の一部であり、不要であり非効率的となる可能性がある。この結果、一般的なハードウェアプラットフォーム上のＤＮＮの実装が非効率的になる。

添付図面と併せて以下の説明を参照することによって、本明細書に記載される方法及びメカニズムの利点をより良く理解することができる。

コンピューティングシステムの一実施形態のブロック図である。コンピューティングシステムの別の実施形態のブロック図である。計算ユニットロジックの一実施形態のブロック図である。ベクトル不可逆結合スパースロード命令（vector lossy combined sparse load instruction）を実行する方法の一実施形態を示す一般化されたフロー図である。ベクトル不可逆シングルスパースロード命令を実行する方法の一実施形態を示す一般化されたフロー図である。累積非ゼロカウントアレイを処理する方法の一実施形態を示す一般化されたフロー図である。ベクトル不可逆スパースロード及びスキップ命令を実行する方法の一実施形態を示す一般化されたフロー図である。不可逆スパースロード命令を実行する方法の一実施形態を示す一般化されたフロー図である。ニューラルネットワークを実装する方法の一実施形態を示す一般化されたフロー図である。一実施形態による内積及び外積行列乗算演算を実施するための擬似コードの例を示す図である。一実施形態によるベクトル不可逆結合スパースロード命令を実施するための擬似コードの一例を示す図である。ベクトル不可逆結合スパースロード命令を実施するためのロジックの一実施形態のブロック図である。一実施形態によるベクトル不可逆シングルスパースロード命令を実施するための擬似コードの一例を示す図である。一実施形態によるベクトル不可逆スパースロード及びスキップ命令を実施するための擬似コードの一例を示す図である。

以下の説明では、本明細書で提示される方法及びメカニズムの十分な理解をもたらすために、多くの具体的な詳細が記載される。しかしながら、当業者は、これらの具体的な詳細無しに様々な実施形態が実施され得ることを認識すべきである。場合によっては、本明細書で説明するアプローチを曖昧にすることを回避するために、周知の構造、コンポーネント、信号、コンピュータプログラム命令及び技術が詳細に示されていない。説明を簡単且つ明確にするために、図面に示される要素は、必ずしも縮尺通りに描かれていないことが理解されよう。例えば、いくつかの要素の寸法は、他の要素に対して誇張される場合がある。

本明細書では、不可逆スパースロード（lossy sparse load）の単一命令複数データ（ＳＩＭＤ）命令ファミリを実現するための様々なシステム、装置及び方法が開示されている。ディープニューラルネットワーク（ＤＮＮ）のデータ構造は、通常、ある程度のスパース性（すなわち、ゼロ値）を含む。様々な実施形態では、ＳＩＭＤ不可逆スパースロード命令ファミリ及び関連するマイクロアーキテクチャ拡張が、システムによって利用される。この命令ファミリは、ＤＮＮのトレーニング及び推論中に遭遇する動的なスパース性のために、プロセッサのパフォーマンス及びパワーを最適化する。一実施形態では、冗長な乗累算（ＭＡＣ）又は積和（ＭＡＤ）演算は、入力ベクトルオペランドをユーザ定義マスクに掛けることによって識別され、除去される。ユーザ定義マスクは、オプションで追加のスパース性を入力データ構造に付与し、特定のＤＮＮのレジリエンシ（resiliency）を利用することによってパフォーマンス及びパワーゲインを向上させる。様々な実施形態では、命令は、ブロックとして、又は、スキップキューを介して選択的に、ＳＩＭＤスケジューラによってウェーブフロント（wavefront）（すなわち、ワープ（warp））基準でスキップされる。

システムは、１つ以上のメモリに結合された複数の計算ユニットを有する少なくとも１つのプロセッサを含む。一実施形態では、各計算ユニットは、不可逆スパースロードユニットと、複数の処理要素と、を含む。一実施形態では、処理要素はＳＩＭＤユニットである。一実施形態では、不可逆スパースロードユニットは、ペンディング命令の１つ以上の入力ベクトルオペランドに存在する非ゼロ値の数を決定する。一実施形態では、不可逆スパースロードユニットは、１つ以上の入力ベクトルオペランド内の非ゼロ値の数が閾値以上であると決定したことに応じて、１つ以上の入力ベクトルオペランドを複数の処理要素によって処理させる。そうではなく、１つ以上の入力ベクトルオペランド内の非ゼロ値の数が閾値未満である場合、不可逆スパースロードユニットは、複数の処理要素による１つ以上の入力ベクトルオペランドの処理をスキップさせる。一実施形態では、閾値はプログラム可能である。

一実施形態では、システムは、システムの処理要素によって実行されるニューラルネットワークのプログラムコードを受信し、プログラムコードは、１つ以上の第１命令と、１つ以上の第２命令と、を含む。システムは、処理要素上で第１命令を実行し、第１及び第２命令の入力ベクトルオペランド内の非ゼロ値の数について第２命令の実行をスキップする。システムは、第１命令を実行し、第２命令をスキップすることによってニューラルネットワークを実装する。一実施形態では、システムは、ニューラルネットワークを実装して、第１データセットのクラス分類を生成する。上記の特性では、第１命令及び第２命令が事前に識別可能ではないことに留意されたい。むしろ、第１命令は、それらのオペランドが閾値量未満のスパース性を有することに基づいて実行時に識別され、第２命令は、それらのオペランドが閾値量以上のスパース性を有することに基づいて実行時に識別される。様々な実施形態では、スパース性の閾値量は、ニューラルネットワークの実施に対するエラーの許容度に基づいてユーザ設定可能である。

図１を参照すると、コンピューティングシステム１００の一実施形態のブロック図が示されている。一実施形態では、コンピューティングシステム１００は、ニューラルネットワーク１０５と、プロセッサ（複数可）１１０と、入力／出力（Ｉ／Ｏ）インタフェース１２０と、バス１２５と、メモリサブシステム１３０と、を少なくとも含む。他の実施形態では、コンピューティングシステム１００は、他のコンポーネントを含むことができ、及び／又は、異なるように構成され得る。様々な実施形態では、ニューラルネットワーク１０５は、様々な機械学習アルゴリズム又は機械学習モデルを実施するためのロジックを含む。一実施形態では、ニューラルネットワーク１０５は、畳み込みニューラルネットワークの１つ以上の層を実装する。例えば、この実施形態では、ニューラルネットワーク１０５は、１つ以上の畳み込み層及び／又は１つ以上の全結合層を実装する。別の実施形態では、ニューラルネットワーク１０５は、リカレントニューラルネットワークの１つ以上の層を実装する。様々な実施形態では、ニューラルネットワーク１０５は、確率的勾配降下法（ＳＧＤ）による逆方向伝播（backward propagation）アルゴリズムを使用してトレーニングされる。一実施形態では、ニューラルネットワーク１０５のロジックは、複数の乗累算（ＭＡＣ）ユニットと、周辺機器と、内部メモリストレージと、を含む。実施形態に応じて、様々なソフトウェア深層学習フレームワーク（例えば、Ｃａｆｆｅ、ＴｅｎｓｏｒＦｌｏｗ、Ｔｏｒｃｈ）の何れかが、特定の処理ユニット（例えば、グラフィックスプロセッシングユニット（ＧＰＵ））上でニューラルネットワーク１０５をトレーニングするために使用される。

ニューラルネットワーク１０５は、実施形態によって異なる様々なアプリケーションで利用される。例えば、一実施形態では、ニューラルネットワーク１０５は、ビデオフレームを分析して、ビデオフレームに対して１つ以上のラベル確率を生成する。例えば、可能性のあるユースケースは、少なくとも視線追跡（eye tracking）、物体認識（object recognition）、点群推定（point cloud estimation）、レイトレーシング（ray tracing）、ライトフィールドモデリング（light field modeling）、デプストラッキング（depth tracking）等を含む。視線追跡ユースケースの場合、ニューラルネットワーク１０５によって生成される確率は、学習されたパターン、ドウェル（dwell）、遷移角度、ブリンク（blink）等に基づいている。他の実施形態では、ニューラルネットワーク１０５は、他のタイプのユースケースのためにトレーニングされ、カスタマイズされる。

概して、ニューラルネットワークの実装は、２つの幅広いタイプのスパース性を示す。第１スパース性は、ネットワークをプルーニング（pruning）することによって生じる重みの静的スパース性である。第２スパース性は、トレーニングにおけるエラーと同様に、アクティブ化における動的スパース性である。アクティブ化におけるスパース性は、負の入力をゼロにする関数、ＲｅＬＵ（Rectified Linear Unit）等の活性化関数の存在によって生じる。対照的に、ＲｅＬＵ等の活性化関数の負の入力と、最大プーリング層の非最大入力と、に対してゼロが逆伝播され得るので、エラーにおけるスパース性は、活性化関数及び最大プーリング層の両方の存在に起因する。ニューラルネットワーク１０５によって処理されているデータ構造に存在する静的スパース性及び動的スパース性を利用するために、命令ファミリ及び関連するマイクロアーキテクチャ拡張が本開示において導入される。命令ファミリ及び関連するマイクロアーキテクチャ拡張により、ニューラルネットワーク１０５のパフォーマンスを改善し、消費電力を低減することができる。

プロセッサ（複数可）１１０は、任意の数及びタイプの処理ユニット（例えば、中央処理装置（ＣＰＵ）、グラフィックスプロセッシングユニット（ＧＰＵ）、デジタルシグナルプロセッサ（ＤＳＰ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ））を表す。一実施形態では、ニューラルネットワーク１０５に関連する処理のいくつかは、プロセッサ（複数可）１１０によって実行される。さらに、ニューラルネットワーク１０５は、これらのタイプの処理ユニット及び／又は他のタイプの処理要素の何れかを使用して実装される。メモリサブシステム１３０は、任意の数及びタイプのメモリデバイスを表す。例えば、メモリサブシステム１３０内のメモリのタイプは、高帯域幅メモリ（ＨＢＭ）、不揮発性メモリ（ＮＶＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、ＮＡＮＤフラッシュメモリ、ＮＯＲフラッシュメモリ、又は、強誘電体ランダムアクセスメモリ（ＦｅＲＡＭ）等を含むことができる。メモリサブシステム１３０は、ニューラルネットワーク１０５及びプロセッサ（複数可）１１０によってアクセス可能である。Ｉ／Ｏインタフェース１２０は、任意の数及びタイプのＩ／Ｏインタフェース（例えば、ペリフェラルコンポーネントインターコネクト（ＰＣＩ）バス、ＰＣＩ－Ｅｘｔｅｎｄｅｄ（ＰＣＩ－Ｘ）、ＰＣＩＥ（ＰＣＩＥｘｐｒｅｓｓ）バス、ギガビットイーサネット（登録商標）（ＧＢＥ）バス、ユニバーサルシリアルバス（ＵＳＢ））を表す。様々なタイプの周辺機器は、Ｉ／Ｏインタフェース１２０に結合され得る。このような周辺機器は、ディスプレイ、キーボード、マウス、プリンタ、スキャナ、ジョイスティック又は他のタイプのゲームコントローラ、メディア記録デバイス、外部記憶装置、及び、ネットワークインタフェースカード等を含むが、これらに限定されない。

様々な実施形態では、コンピューティングシステム１００は、コンピュータ、ラップトップ、モバイルデバイス、ゲームコンソール、サーバ、ストリーミングデバイス、ウェアラブルデバイス、又は、様々な他のタイプのコンピューティングシステム若しくはデバイスの何れかである。コンピューティングシステム１００のコンポーネントの数は、実施形態によって異なることに留意されたい。例えば、他の実施形態では、各コンポーネントの数は、図１に示す数よりも多い又は少ない。他の実施形態では、コンピューティングシステム１００は、図１に示されていない他のコンポーネントを含むことにも留意されたい。さらに、他の実施形態では、コンピューティングシステム１００は、図１に示す以外の他の方法で構成される。

図２を参照すると、コンピューティングシステム２００の別の実施形態のブロック図が示されている。一実施形態では、システム２００は、ＧＰＵ２０５と、システムメモリ２２５と、ローカルメモリ２３０と、を含む。一実施形態では、（図１の）ニューラルネットワーク１０５は、ＧＰＵ２０５上で実行される。また、システム２００は、図を曖昧にするのを回避するために図示されていない他のコンポーネントも含む。ＧＰＵ２０５は、コマンドプロセッサ２３５と、制御ロジック２４０と、ディスパッチユニット２５０と、計算ユニット２５５Ａ～２５５Ｎと、メモリコントローラ２２０と、グローバルデータ共有部２７０と、レベル１（Ｌ１）キャッシュ２６５と、レベル２（Ｌ２）キャッシュ２６０と、を少なくとも含む。他の実施形態では、ＧＰＵ２０５は、他のコンポーネントを含み、図示したコンポーネントのうち１つ以上を省略し、図２において１つのインスタンスのみが示されている場合であっても、コンポーネントの複数のインスタンスを有し、及び／又は、他の適切な方法で構成されている。

様々な実施形態において、コンピューティングシステム２００は、様々なタイプのソフトウェアアプリケーションの何れかを実行する。所定のソフトウェアアプリケーションの実行の一部として、コンピューティングシステム２００のホストＣＰＵ（図示省略）は、ＧＰＵ２０５上で実行されるカーネルを起動する。コマンドプロセッサ２３５は、ホストＣＰＵからカーネルを受信し、ディスパッチユニット２５０を使用して、カーネルを計算ユニット２５５Ａ～２５５Ｎにディスパッチする。制御ロジック２４０は、ＧＰＵ２０５の様々なリソースを監視し、ディスパッチユニット２５０が、ウェーブフロントを計算ユニット２５５Ａ～２５５Ｎにディスパッチする方法を決定するのを支援する。計算ユニット２５５Ａ～２５５Ｎ上で実行されるカーネル内のスレッドは、ＧＰＵ２０５内のグローバルデータ共有部２７０、Ｌ１キャッシュ２６５及びＬ２キャッシュ２６０に対してデータを読み書きする。図２には示されていないが、一実施形態では、計算ユニット２５５Ａ～２５５Ｎは、各計算ユニット２５５Ａ～Ｎ内に１つ以上のキャッシュ及び／又はローカルメモリも含む。

図３を参照すると、計算ユニットロジック３００の一実施形態のブロック図が示されている。一実施形態では、計算ユニットロジック３００は、（図２の）計算ユニット２５５Ａ～２５５Ｎの各々に含まれている。一実施形態では、ロジック３００は、不可逆スパースロードユニット（ＬＳＬＵ）３０５と、メモリ３１０と、ベクトル汎用レジスタ（ＶＧＰＲ）３１５と、単一命令複数データ（ＳＩＭＤ）ユニット３２０と、スケジューラ３２５と、を含む。ＬＳＬＵ３０５は、本明細書において「ロードユニット」とも呼ばれることに留意されたい。さらに、ＳＩＭＤユニット３２０は、本明細書において「処理要素」とも呼ばれることに留意されたい。一実施形態では、ロジック３００は、グラフィックスプロセッシングユニット（ＧＰＵ）内に含まれている。別の実施形態では、ロジック３００は、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）内に含まれている。さらなる実施形態では、ロジック３００は、特定用途向け集積回路（ＡＳＩＣ）内に含まれている。他の実施形態では、ロジック３００は、他のタイプの処理ユニット、コンピューティングデバイス、及び／又は、コンピューティングシステム内に含まれている。ロジック３００は、本明細書において「制御ロジック」とも呼ばれることに留意されたい。

一実施形態では、ＬＳＬＵ３０５は、メモリ３１０からＶＧＰＲ３１５にオペランドをロードし、次に、入力ベクトルオペランド内の非ゼロ値の数を決定する。別の実施形態では、ＬＳＬＵ３０５は、メモリ３１０からＶＧＰＲ３１５に入力ベクトルオペランドをロードする前に、入力ベクトルオペランド内の非ゼロ値の数を決定する。一実施形態では、「非ゼロ値」という用語は、ゼロに等しくない値として定義されることに留意されたい。別の実施形態では、「非ゼロ値」という用語は、閾値を上回る値、又は、閾値を上回る絶対値を有する値として定義される。例えば、一実施形態では、閾値は、プログラム可能な小さな正の値（例えば、０．１）である。いくつかの実施形態では、所定の入力ベクトルオペランド内の非ゼロ値の数が閾値未満である場合、ＬＳＬＵ３０５は、所定のベクトルオペランドをメモリ３１０からＶＧＰＲ３１５にロードしない。この閾値数は、ＬＳＬＵ３０５において、マスク／閾値３０６として示される。非ゼロ値の数を閾値数と比較するために使用される比較ロジックは、ＬＳＬＵ３０５において、比較器３０７として示される。他の実施形態では、ＬＳＬＵ３０５は、所定の入力ベクトルオペランド内の非ゼロ値の数が閾値数未満である場合でも、メモリ３１０からＶＧＰＲ３１５又はバッファ３０８に所定の入力ベクトルオペランドをロードするが、所定の入力ベクトルオペランド内の非ゼロ値の数が閾値数未満である場合、ＬＳＬＵ３０５は、ＶＧＰＲ３１５内の所定の入力ベクトルオペランドを破棄、無効化、及び／又は、上書きする。

また、ロジック３００には、ＳＩＭＤユニット３２０上で実行される命令を発行するスケジューラ３２５も示されている。一実施形態では、ＳＩＭＤユニット３２０は、スケジューラ３２５によって実行のために発行された命令の入力ベクトルオペランドに対して行列乗算を実行する。行列乗算は、実行される命令のタイプに応じて、内積又は外積の行列乗算とすることができる。他の実施形態では、ＳＩＭＤユニット３２０は、スケジューラ３２５によって実行のために発行された命令の入力ベクトルオペランドに対して他のタイプの演算を実行する。一実施形態では、所定の命令の入力ベクトルオペランド（複数可）が閾値未満の非ゼロ値の数を有するとＬＳＬＵ３０５が判別した場合、スケジューラ３２５は、ＳＩＭＤユニット３２０上で所定の命令をスケジュールしない。むしろ、スケジューラ３２５は、次の命令に進む。閾値未満の非ゼロ値の数を有する命令をスキップすることによって、ＳＩＭＤユニット３２０上でのニューラルネットワーク実装の効率が向上する。

図４を参照すると、ベクトル不可逆結合スパースロード命令を実行する方法４００の一実施形態が示されている。説明のために、この実施形態でのステップ、及び、図５～図９のステップが順番に示されている。ただし、説明する方法の様々な実施形態では、説明する要素の１つ以上が、同時に実行されてもよいし、図示した順序と異なる順序で実行されてもよいし、完全に省略されてもよいことに留意されたい。他の追加の要素も、必要に応じて実行される。本明細書で説明する様々なシステム又は装置の何れも、方法４００を実施するように構成されている。

不可逆スパースロードユニット（ＬＳＬＵ）は、現在のインデックスに加えてＡ及びＢの両方の入力ベクトルオペランドを、データセット及びこのデータセットについての最大インデックスにロードする（ブロック４０５）。次に、ＬＳＬＵは、Ａ及びＢの入力ベクトルオペランドの各々における非ゼロ値の数を決定する（ブロック４１０）。次いで、各入力ベクトルオペランド内の非ゼロ値の数が閾値未満であり、データセットへの現在のインデックスが最大インデックス未満である場合（条件ブロック４１５：「はい」）、ＬＳＬＵは、入力ベクトルオペランドのアドレスへのポインタをストライドだけインクリメントし、ＬＳＬＵは、現在のデータセットインデックスをインクリメントする（ブロック４２０）。ブロック４２０の後、方法４００はブロック４１０に戻る。何れかの入力ベクトルオペランド内の非ゼロ値の数が閾値以上である場合、又は、データセットへの現在のインデックスが最大インデックスに等しい場合（条件ブロック４１５：「いいえ」）、ＬＳＬＵは、ベクトルレジスタファイル内の入力ベクトルオペランドＡ及びＢの値に値を返す（ブロック４２５）。ブロック４２５の後、方法４００は終了する。一実施形態では、ベクトル不可逆結合スパースロード命令は、オペランドに対して乗累算（ＭＡＣ）演算を実行する前に、Ａ及びＢの各々に１つのオペランドを繰り返しロードする、ブロックサイズが１の最も単純な内積及び外積の実装を対象としている。

図５を参照すると、ベクトル不可逆シングルスパースロード命令を実行する方法５００の一実施形態が示されている。ＬＳＬＵは、指定されたアドレスに対する入力ベクトルオペランド、オペランド識別子（ＩＤ）及びＮ値についてのロード命令を受信し、Ｎ値は入力ベクトルオペランドの総数を指定する（ブロック５０５）。次に、ＬＳＬＵは、変数「ｉ」を０に等しく設定し（ブロック５１０）、次いで、ＬＳＬＵは、変数「ｉ」がウェーブフロントの総スレッド数未満であるかどうかをチェックする（条件ブロック５１５）。変数「ｉ」が総スレッド数未満である場合（条件ブロック５１５：「はい」）、ＬＳＬＵは、入力ベクトルオペランドをメモリからベクトルレジスタファイルにロードし、ＬＳＬＵは、入力ベクトルオペランド内の非ゼロ値の数をカウントし、この数を「ａｃｃＮＺＣｏｕｎｔ」アレイに記憶する（ブロック５２０）。次に、ＬＳＬＵは、変数「ｉ」をインクリメントし（ブロック５２５）、方法５００は条件ブロック５１５に戻る。変数「ｉ」がスレッド数と等しい場合（条件ブロック５１５：「いいえ」）、ＬＳＬＵは、ベクトル「ｖ」の値を返す（ブロック５３０）。ブロック５３０の後、方法５００は終了する。「ａｃｃＮＺＣｏｕｎｔ」アレイを処理するための一実施形態は、以下の図６に関連する記載において説明される。

図６を参照すると、累算された非ゼロカウント（すなわち、ａｃｃＮＺＣｏｕｎｔ）アレイを処理する方法６００の一実施形態が示されている。一実施形態では、方法６００は、方法５００で説明したベクトル不可逆シングルスパースロード命令の実行後に実行される。ＬＳＬＵは、ａｃｃＮＺＣｏｕｎｔアレイを受信する（ブロック６０５）。次に、変数「ｉ」がゼロに初期化される（ブロック６１０）。次いで、ＬＳＬＵは、変数「ｉ」がウェーブフロントの総スレッド数未満であるかどうかを判別する（条件ブロック６１５）。

変数「ｉ」がウェーブフロントの総スレッド数未満である場合（条件ブロック６１５：「はい」）、ＬＳＬＵは、２つの入力オペランドの各々における非ゼロ値の数が閾値（すなわち、ＮＺＴｈｒｅｓ）未満であるかどうかを判別する（条件ブロック６２０）。２つの入力オペランドの各々の非ゼロカウントが閾値未満である場合（条件ブロック６２０：「はい」）、スレッド冗長インジケータは、現在のインデックス「ｉ」について１に設定される（ブロック６２５）。そうではなく、２つの入力オペランドの何れかの非ゼロカウントが閾値以上である場合（条件ブロック６２０：「いいえ」）、スレッド冗長インジケータは、現在のインデックス「ｉ」について０に設定される（ブロック６３０）。ブロック６２５，６３０の後、現在のインデックス「ｉ」がインクリメントされ（ブロック６３５）、次に、方法６００は条件ブロック６１５に戻る。

変数「ｉ」が総スレッド数と等しい場合（条件ブロック６１５：「いいえ」）、ＬＳＬＵは、複数のスレッド冗長インジケータに対してビット単位のＡＮＤ演算を実行することによって、ウェーブフロント全体が冗長であるかどうかを判別する（ブロック６４０）。次に、ＬＳＬＵは、ウェーブフロント全体が冗長であるかどうかを示す冗長ウェーブフロント値を返す（ブロック６４５）。ブロック６４５の後、方法６００は終了する。

図７を参照すると、ベクトル不可逆スパースロード及びスキップ命令を実行する方法７００の一実施形態が示されている。ＬＳＬＵは、プログラムコード内のベクトル不可逆スパースロード及びスキップ命令を検出し、この命令の異なる符号化フィールドを取得する（ブロック７０５）。一実施形態では、符号化フィールドは、アドレス、Ｎ（入力ベクトルオペランドの総数）、ｒ＿ｏｆｆｓｅｔ１、ｒ＿ｏｆｆｓｅｔ２及びｒ＿ｂａｓｅを含み、これらを使用して、所定のゼロ値についての冗長インデックスを計算する。他の実施形態では、ベクトル不可逆スパースロード及びスキップ命令は、他の数及び／又はタイプの符号化フィールドを含む。

次に、ＬＳＬＵは、変数「ｉ」をゼロに設定する（ブロック７１０）。次いで、ＬＳＬＵは、変数「ｉ」が「Ｎ」値未満であるかどうかを判別する（条件ブロック７１５）。変数「ｉ」が「Ｎ」値未満である場合（条件ブロック７１５：「はい」）、ＬＳＬＵは、データセットからの次の値のグループを、メモリからベクトルレジスタファイルにロードし、ロードされた値のグループ内の非ゼロ値の数のカウントを生成する（ブロック７２０）。この非ゼロ値の数は、図７において「ＮＺＣｏｕｎｔ［ｉ］」で表される。

非ゼロ値の数が閾値（すなわち、ＮＺＴｈｒｅｓ）未満である場合（条件ブロック７２５：「はい」）、ＬＳＬＵは、冗長な乗累算（ＭＡＣ）インデックス（すなわち、ｒｉｄｘ）を生成し、冗長なＭＡＣインデックスをスキップキューに書き込む（ブロック７３０）。ブロック７３０の後にＬＳＬＵは変数「ｉ」をインクリメントし（ブロック７３５）、次に、方法７００は条件ブロック７１５に戻る。非ゼロ値の数が閾値以上である場合（条件ブロック７２５：「いいえ」）、ＬＳＬＵは変数「ｉ」をインクリメントし（ブロック７３５）、方法７００は条件ブロック７１５に戻る。変数「ｉ」が「Ｎ」値と等しい場合（条件ブロック７１５：「いいえ」）、ＬＳＬＵは値「ｖ」のグループを返す（ブロック７４０）。ブロック７４０の後に、方法７００は終了する。スケジューラは、実行される命令をＳＩＭＤユニットに発行する前にスキップキューにクエリを行い、この命令のインデックスがスキップキューに記憶されている場合に、次の命令に移ることに留意されたい。

図８を参照すると、不可逆スパースロード命令を実行する方法８００の一実施形態が示されている。不可逆スパースロードユニットは、実行される不可逆スパースロード命令を受信する（ブロック８０５）。不可逆スパースロードユニットは、受信した不可逆スパースロード命令の１つ以上の入力ベクトルオペランド内に含まれる非ゼロ値の数を決定する（ブロック８１０）。非ゼロ値の数が閾値未満である場合（条件ブロック８１５：「はい」）、不可逆スパースロードユニットは、１つ以上の入力ベクトルオペランドについての命令が実行のために発行されるのを抑制する（ブロック８２０）。換言すれば、ブロック８２０において、不可逆スパースロードユニットは、１つ以上の入力ベクトルオペランドの処理をスキップさせる。一実施形態では、閾値はユーザ設定可能である。一実施形態では、ユーザは、基礎となるニューラルネットワークにおけるエラーに対する許容度に基づいて閾値を設定する。非ゼロ値の数が閾値以上である場合（条件ブロック８１５：「いいえ」）、不可逆スパースロードユニットは、１つ以上の入力ベクトルオペランドについての命令を実行のために発行させる（ブロック８２５）。ブロック８２０，８２５の後、方法８００は終了する。不可逆スパースロードユニットが受信する不可逆スパースロード命令毎に方法８００が繰り返されることに留意されたい。

図９を参照すると、ニューラルネットワークを実装する方法９００の一実施形態が示されている。コンピューティングシステムは、ニューラルネットワークを実装するためのプログラムコードを受信する（ブロック９０５）。プログラムコードは、ニューラルネットワークを実装するための複数の命令を含む。一実施形態では、コンピューティングシステムは、複数の計算ユニットを含み、各計算ユニットは、不可逆スパースロードユニットを含む。

システムは、プログラムコードからの１つ以上の第１命令を複数の計算ユニット上で実行する（ブロック９１０）。また、システムは、プログラムコードからの１つ以上の第２命令の、複数の計算ユニット上での実行をスキップする（ブロック９１５）。システムは、１つ以上の第１命令を実行し、１つ以上の第２命令の実行をスキップすることによって、ニューラルネットワークを実装する（ブロック９２０）。

次いで、システムは、ニューラルネットワークを使用して、第１データセットのクラス分類を生成する（ブロック９２５）。ブロック９２５の後に、方法９００は終了する。一実施形態では、第１データセットは画像であり、クラス分類は、この画像が属する所定のカテゴリを識別する。別の実施形態では、第１データセットはビデオであり、クラス分類は、このビデオを所定のカテゴリに割り当てる。他の実施形態では、第１データセットは他のタイプのデータを含む。方法９００を複数回実施して、任意の数のデータセットのクラス分類を生成することができることに留意されたい。

図１０を参照すると、内積及び外積行列乗算演算を実施するための擬似コードの例が示されている。ＧＰＵ及び他のタイプの処理ユニット上で密行列乗算を実現するための多種多様な汎用行列乗算（ＧＥＭＭ）ルーチンが存在する。所定のシナリオにおける最適なルーチンは、オペランド行列のサイズ、ローカルメモリ及びグローバルメモリのサイズ、並びに、計算及び圧縮に利用可能なアクセラレータの機能によって決定される。ＧＥＭＭアルゴリズムは、内積を利用するか外積を利用するかに基づいて、大まかに区別され得る。擬似コード１００５は、内積行列乗算演算を実施するため一例として図１０の上部に示されている。ｍａｔｒｉｘＭｕｌ関数は、ＭｘＫ行列Ａと、ＫｘＰ行列Ｂとの間で密行列乗算を実行し、ＭｘＰ行列Ｃを生成する。擬似コード１００５は、行列Ａを行優先フォーマット（row major format）で記憶し、行列Ｂを列優先フォーマット（column major format）で記憶すると仮定する。ｍａｔｒｉｘＭｕｌ関数は、ｉｎｎｅｒＰｒｏｄ関数を繰り返し呼び出し、Ａのｉ番目の行と、Ｂのｊ番目の列との間で内積を実行することによって、各要素Ｃ［ｉ］［ｊ］を計算する。ＤＮＮ実装では、行列Ａは前の層の出力アクティベーションに対応し、行列Ｂは現在の層の重みに対応し、行列Ｃは現在の層の出力アクティベーションに対応する。

擬似コード１０１０は、外積行列乗算演算を実施するための一例として図１０の下部に示されている。ｍａｔｒｉｘＭｕｌ関数は、ｏｕｔｅｒＰｒｏｄ関数を繰り返し呼び出し、行列ＣにおけるＮ×Ｎ値のブロックを計算する。ｏｕｔｅｒＰｒｏｄ関数の名前は、Ａ［ｉ：ｉ＋Ｎ］［：］におけるＮサイズの列と、Ｂ［：］［ｊ：ｊ＋Ｎ］におけるＮサイズの行との間の外積を合計することに由来する。行列Ａ及びＢにおけるスパース性により、ｉｎｎｅｒＰｒｏｄ関数及びｏｕｔｅｒＰｒｏｄ関数で実行される乗累算（ＭＡＣ）演算が冗長になる。これらの関数の両方は、通常、ＳＩＭＤユニット毎にＧＰＵで並列化される。ＳＩＭＤユニットにおいて冗長ＭＡＣによって個々のスレッドをマスクするだけで、電力及びエネルギーを節約することができるが、実行時間を節約するには、冗長ウェーブフロント全体をスキップする必要がある。したがって、一実施形態では、ウェーブフロントの全てのスレッドが、Ａ又はＢの何れかからゼロオペランド値をロードする場合、ウェーブフロント全体が除去される。別の実施形態では、スレッドによってロードされる値の全てではないが殆どがゼロである場合に、ＤＮＮアプリケーションのレジリエンシを利用して、冗長であるウェーブフロントを識別することによって、冗長ウェーブフロントに遭遇する可能性を高める。一実施形態では、ウェーブフロントが冗長であるとみなされるためにゼロである必要がある値の数は、ユーザ設定可能である。この実施形態では、最終的なアプリケーションは、結果において許容可能な劣化で維持することのできる非ゼロの数（すなわち、不可逆性の量）を指示する。

図１１を参照すると、ベクトル不可逆結合スパースロード命令を実施するための擬似コード１１０５の一例が示されている。擬似コード１１０５は、ベクトル不可逆結合スパースロード（又は、Ｖ＿ＬＣＳＬＤ）命令を使用して内積行列乗算を実施するための一例として示されている。他の実施形態では、擬似コード１１０５は、他のタイプ及び／又は構成の命令を含むことができる。一実施形態では、Ｖ＿ＬＣＳＬＤ命令は、オペランドに対してＭＡＣ演算を実行する前に、行列Ａ及びＢの各々に１つのオペランドを繰り返しロードする、ブロックサイズが１の最も単純な内積及び外積の実装を主に対象としている。Ｖ＿ＬＣＳＬＤ命令は、両方のオペランドを組み合わせた形でメモリから読み出し、各オペランドの非ゼロの数が、設けられた不可逆閾値（ｔｈｒｅｓ）を超えた場合にのみ、値をベクトルレジスタファイル（ＶＧＰＲ）に返すことによって動作する。現在のロードが殆どのスレッドでゼロ値を返す場合、Ｖ＿ＬＣＳＬＤ命令は、次のＭＡＣのためのオペランドロードに自動的に進む。

一実施形態では、ｉｎｎｅｒＰｒｏｄ関数は、ｖＡ値及びｖＢ値に対してＭＡＣ演算を実行する前に、Ｖ＿ＬＣＳＬＤ関数を繰り返し呼び出して、ｖＡ値及びｖＢ値をロードする。Ｖ＿ＬＣＳＬＤ関数は、ウェーブフロント内の全てのスレッドについてのオペランドＡ及びＢを、それぞれベクトルｖＡ及びｖＢにロードする。次に、Ｖ＿ＬＣＳＬＤ関数は、ｖＡ及びｖＢ内の非ゼロ値の数をカウントする。ループの終了条件が満たされていない場合（すなわち、非ゼロの数がＮＺＴｈｒｅｓ内にあり、現在のループインデックスがｍａｘＩｄｘ未満の場合）、Ｖ＿ＬＣＳＬＤ関数は、次のオペランド値をロードし、このインデックス（すなわち、ｉｄｘ）をインクリメントする。終了時に、ｖＡ及びｖＢの現在の値が現在のｉｄｘ値とともに返され、最終的なｉｎｎｅｒＰｒｏｄ関数が正しく実行されるようになる。

図１２を参照すると、ベクトル不可逆結合スパースロード命令を実施するためのロジック１２００の一実施形態のブロック図が示されている。一実施形態では、ロジック１２００は、キャッシュ１２０５と、ゼロチェックロジック１２１０と、次アドレス生成器１２１５と、入力ベクトルオペランドＡ及びＢの非ゼロ値カウントロジック１２２０，１２２５と、を少なくとも含む。ベクトルＡ及びＢのオペランド内の非ゼロ値の数は、ロジック１２２０，１２２５の各々によってカウントされる。非ゼロ値の数は、Ａ及びＢのオペランドの閾値と比較され、これらの比較の出力がＯＲゲートに送られる。このＯＲゲートの出力は、入力ベクトルオペランドが冗長であるかどうかを示す「ＩｓＲｅｄｕｎｄａｎｔ」信号である。他の実施形態では、ロジック１２００は、他のコンポーネントを含むことができ、及び／又は、他の適切な方法で構成することができる。

図１３を参照すると、ベクトル不可逆シングルスパースロード命令を実施するための擬似コード１３０５の一例が示されている。擬似コード１３０５は、ベクトル不可逆シングルスパースロード（又は、Ｖ＿ＬＳＳＬＤ）命令を使用して外積行列乗算を実施するための一例として示されている。他の実施形態では、擬似コード１３０５は、他のタイプ及び／又は構成の命令を含むことができる。Ｖ＿ＬＳＳＬＤ命令は、Ｎ＞１のブロックサイズを有する外積実装を対象としている。Ｖ＿ＬＳＳＬＤ命令は、複数のオペランドロードのブロックに続く冗長ＭＡＣのブロックを正常にスキップする。Ｖ＿ＬＳＳＬＤ命令は、ＶＧＰＲにロードされた値の中のゼロの数をカウントし、オペランドのロードのブロック全体に亘ってカウントを累算する。ロード終了時に、Ｓ＿Ｚ＿ＣＨＥＣＫ＿ＢＲＡＮＣＨ命令は、累算値を、設けられた不可逆閾値と比較する。この比較は、現在のＭＡＣブロックが冗長である場合に、実行が、ＭＡＣに流入するか次のロードブロックに進むかを決定する。ａｃｃＮＺＣｏｕｎｔアレイは、ロードブロック内の異なるスレッドによってロードされたオペランド毎に遭遇した非ゼロの数を累算する。

図１４を参照すると、ベクトル不可逆スパースロード及びスキップ命令を実施するための擬似コード１４０５の一例が示されている。擬似コード１４０５は、ベクトル不可逆スパースロード及びスキップ（又は、Ｖ＿ＬＳＬＳ）命令を使用して外積行列乗算を実施するための一例として示されている。他の実施形態では、擬似コード１４０５は、他のタイプ及び／又は構成の命令を含むことができる。Ｖ＿ＬＳＬＳ命令は、散在したスパース性を有する行列上で動作するブロック化された外積の実装を対象とする。Ｖ＿ＬＳＬＳ命令によって、ＧＰＵは、オペランドロードのブロックに続くＭＡＣのブロック内の個々の冗長ＭＡＣ（ウェーブフロントレベルでの）をスキップすることができる。Ｖ＿ＬＳＬＳ命令は、冗長ＭＡＣインデックスのリストを含むｓｋｉｐＱｕｅｕｅに書き込む。ｓｋｉｐＱｕｅｕｅの先頭は、現在の命令が冗長であるかどうかをチェックするために、命令をフェッチ又はディスパッチする前にスケジューラによって読み出される。現在の命令が冗長である場合、スケジューラは、キューから現在の命令を削除した後に、次の命令をフェッチしてディスパッチすることに移る。そうでない場合、現在の命令が正常に実行される。

一実施形態では、Ｖ＿ＬＳＬＳ命令は、ＶＧＰＲにロードされた値の非ゼロの数をカウントする。Ｖ＿ＬＳＬＳ命令は、ロードされたベクトル内の非ゼロの数が閾値未満である場合に、どの命令が冗長になるかを判別する。この判別は、ｓｋｉｐＱｕｅｕｅに転送される。ｖ＿ｌｓｌｓ命令の引数ｒ＿ｓｉｚｅ、ｒ＿ｏｆｆｓｅｔ１、ｒ＿ｏｆｆｓｅｔ２及びｒ＿ｂａｓｅによって、Ｖ＿ＬＳＬＳ命令は、ｓｋｉｐＱｕｅｕｅに記憶する冗長ＭＡＣのプログラムカウンタオフセットを自動的に生成することができる。一実施形態では、引数ｒ＿ｓｉｚｅ、ｒ＿ｏｆｆｓｅｔ１、ｒ＿ｏｆｆｓｅｔ２及びｒ＿ｂａｓｅは、ＧＥＭＭコードの構造に基づいてコンパイラによってプログラムされる。一実施形態では、ｓｋｉｐＱｕｅｕｅは、ＬＳＬＵのバッファに実装される。ｓｋｉｐＱｕｅｕｅのサイズによって、スキップ可能なＭＡＣの最大数が決まる。したがって、一実施形態では、ｓｋｉｐＱｕｅｕｅは、外積の実装で遭遇すると予想される最大ブロックサイズを収容するサイズに設定される。

一実施形態では、ＤＮＮは、低精度のオペランドを利用する。低精度のオペランドを利用することによって、ウェーブフロント内のスレッドが、ロードするオペランド値を多くし、単一の命令内で実行するＭＡＣを多くすることができる。例えば、精度を３２ビットから８ビットに下げることによって、スレッドは、ロード命令毎に４倍の行列値をロードし、ＭＡＣ命令毎に単一の値ではなく、これらの値のうち４つの値に対して動作することができる。全ての値をゼロにする必要がある場合には、ＭＡＣは、ＭＡＣによって操作される全ての低精度値がゼロを含む場合にのみ冗長になるが、そのような場合に遭遇する確率は極めて低い。したがって、一実施形態では、新しい閾値「ｉｎｔｒａＭＡＣ」を導入して、ＭＡＣ演算の値が冗長とみなされているかどうかを判別する。新しい閾値「ｉｎｔｒａＭＡＣ」によって、各スレッドの単一のＭＡＣ命令内にいくつかの不可逆性が存在することを可能にし、低精度の非ゼロ値の数がｉｎｔｒａＭＡＣ未満である場合には、ＭＡＣ命令をスキップすることができる。本明細書で導入されるスパースロード命令ファミリは、精度の低い実装に容易に拡張することができる。

様々な実施形態では、ソフトウェアアプリケーションのプログラム命令を使用して、本明細書に記載された方法及び／又はメカニズムを実施する。例えば、汎用プロセッサ又は専用プロセッサによって実行可能なプログラム命令が考えられる。様々な実施形態において、そのようなプログラム命令は、高水準プログラミング言語によって表すことができる。他の実施形態では、プログラム命令は、高水準プログラミング言語からバイナリ、中間又は他の形式にコンパイルされてもよい。或いは、ハードウェアの動作又は設計を記述するプログラム命令を書き込むことができる。このようなプログラム命令を、Ｃ等の高水準のプログラミング言語によって表すことができる。或いは、Ｖｅｒｉｌｏｇ等のハードウェア設計言語（ＨＤＬ）を使用することができる。様々な実施形態では、プログラム命令は、様々な非一時的なコンピュータ可読記憶媒体の何れかに記憶される。記憶媒体は、プログラム実行のためにプログラム命令をコンピューティングシステムに提供するために、使用中にコンピューティングシステムによってアクセス可能である。一般的に、このようなコンピューティングシステムは、少なくとも１つのメモリと、プログラム命令を実行することができる１つ以上のプロセッサと、を含む。

上記の実施形態は、実装態様の非限定的な例に過ぎないことを強調しておきたい。上記の開示が十分に認識されると、当業者には多数の変形及び修正が明らかになるであろう。以下の特許請求の範囲は、このような変形及び修正の全てを包含すると解釈されることが意図されている。

Claims

複数の処理要素と、
制御ロジックと、を備えるシステムであって、
前記制御ロジックは、
１つ以上の入力ベクトルオペランドに含まれる非ゼロ値の数を決定することと、
前記１つ以上の入力ベクトルオペランド内の非ゼロ値の数が第１閾値以上であると決定したことに応じて、前記１つ以上の入力ベクトルオペランドをベクトルレジスタファイルに提供し、前記１つ以上の入力ベクトルオペランドを前記複数の処理要素によって処理させることと、
前記非ゼロ値の数が前記第１閾値未満であると決定したことに応じて、前記１つ以上の入力ベクトルオペランドを前記ベクトルレジスタファイルに提供することなく前記入力ベクトルオペランドのアドレスへのポインタをインクリメントし、前記複数の処理要素による前記１つ以上の入力ベクトルオペランドの処理をスキップさせることと、
を行うように構成されており、
前記システムは、１つ以上の第１入力ベクトルオペランドを処理し、１つ以上の第２入力ベクトルオペランドの処理をスキップすることによって、所定のアプリケーションを実行するように構成されている、
システム。
前記所定のアプリケーションは、第１データセットのクラス分類を生成するニューラルネットワーク実装であり、前記システムは、ニューラルネットワークの１つ以上の層に対する前記１つ以上の第２入力ベクトルオペランドに関連する処理をスキップすることによって、前記ニューラルネットワークを実装する場合の消費電力及び実行時間のうち少なくとも１つを低減するように構成されている、
請求項１のシステム。
非ゼロ値は、ゼロに等しくない任意の値、又は、絶対値が少なくとも閾値だけゼロよりも大きい値である、
請求項１のシステム。
前記第１閾値及び前記閾値は、プログラム可能である、
請求項３のシステム。
前記入力ベクトルオペランドは、行列乗算演算に用いられる、
請求項１のシステム。
前記制御ロジックは、所定の入力ベクトルオペランド内の非ゼロ値の数が前記第１閾値未満であると決定したことに応じて、前記所定の入力ベクトルオペランドを処理する命令のプログラムカウンタオフセットをスキップキューに記憶するように構成されている、
請求項１のシステム。
複数の処理要素に結合された制御ロジックが、１つ以上の入力ベクトルオペランドに含まれる非ゼロ値の数を決定することと、
前記１つ以上の入力ベクトルオペランド内の非ゼロ値の数が第１閾値以上であると決定したことに応じて、前記１つ以上の入力ベクトルオペランドをベクトルレジスタファイルに提供し、前記１つ以上の入力ベクトルオペランドを前記複数の処理要素によって処理させることと、
前記非ゼロ値の数が前記第１閾値未満であると決定したことに応じて、前記１つ以上の入力ベクトルオペランドを前記ベクトルレジスタファイルに提供することなく前記入力ベクトルオペランドのアドレスへのポインタをストライド値だけインクリメントし、前記複数の処理要素による前記１つ以上の入力ベクトルオペランドの処理をスキップさせることと、
１つ以上の第１入力ベクトルオペランドを処理し、１つ以上の第２入力ベクトルオペランドの処理をスキップすることによって、所定のアプリケーションを実行することと、を含む、
方法。
前記所定のアプリケーションは、第１データセットのクラス分類を生成するニューラルネットワーク実装であり、前記方法は、ニューラルネットワークの１つ以上の層に対する前記１つ以上の第２入力ベクトルオペランドに関連する処理をスキップすることによって、前記ニューラルネットワークを実装する場合の消費電力及び実行時間のうち少なくとも１つを低減することを含む、
請求項７の方法。
非ゼロ値は、ゼロに等しくない任意の値、又は、絶対値が少なくとも閾値だけゼロよりも大きい値である、
請求項７の方法。
前記第１閾値及び前記閾値は、プログラム可能である、
請求項９の方法。
前記入力ベクトルオペランドは、行列乗算演算に用いられる、
請求項７の方法。
所定の入力ベクトルオペランド内の非ゼロ値の数が前記第１閾値未満であると決定したことに応じて、前記所定の入力ベクトルオペランドを処理する命令のプログラムカウンタオフセットをスキップキューに記憶することを含む、
請求項７の方法。
複数の処理要素と、
スケジューラと、
不可逆スパースロードユニットと、を備える装置であって、
前記不可逆スパースロードユニットは、
１つ以上の入力ベクトルオペランドに含まれる非ゼロ値の数を決定することと、
前記１つ以上の入力ベクトルオペランド内の非ゼロ値の数が第１閾値以上であると決定したことに応じて、前記１つ以上の入力ベクトルオペランドをベクトルレジスタファイルに提供し、前記１つ以上の入力ベクトルオペランドを前記複数の処理要素によって処理させることと、
前記非ゼロ値の数が前記第１閾値未満であると決定したことに応じて、前記１つ以上の入力ベクトルオペランドを前記ベクトルレジスタファイルに提供することなく前記入力ベクトルオペランドのアドレスへのポインタをストライド値だけインクリメントし、前記複数の処理要素による前記１つ以上の入力ベクトルオペランドの処理をスキップさせることと、
を行うように構成されており、
前記装置は、１つ以上の第１入力ベクトルオペランドを処理し、１つ以上の第２入力ベクトルオペランドの処理をスキップすることによって、所定のアプリケーションを実行するように構成されている、
装置。
前記所定のアプリケーションは、第１データセットのクラス分類を生成するニューラルネットワーク実装であり、前記装置は、ニューラルネットワークの１つ以上の層に対する前記１つ以上の第２入力ベクトルオペランドに関連する処理をスキップすることによって、前記ニューラルネットワークを実装する場合の消費電力及び実行時間のうち少なくとも１つを低減するように構成されている、
請求項１３の装置。
非ゼロ値は、ゼロに等しくない任意の値、又は、絶対値が少なくとも閾値だけゼロよりも大きい値である、
請求項１３の装置。
前記第１閾値及び前記閾値は、プログラム可能である、
請求項１５の装置。
前記入力ベクトルオペランドは、行列乗算演算に用いられる、
請求項１３の装置。