JP2022540550A

JP2022540550A - ニューラルネットワークアクセラレータにおいてスパースデータを読み取るおよび書き込むためのシステムおよび方法

Info

Publication number: JP2022540550A
Application number: JP2021573172A
Authority: JP
Inventors: ガネシュヴェンカテーシュ，; リャンジェンライ，; ピアスイ－ジェンチャン，; モンリー，
Original assignee: Meta Platforms Technologies LLC
Current assignee: Meta Platforms Technologies LLC
Priority date: 2019-07-11
Filing date: 2020-05-28
Publication date: 2022-09-16
Also published as: US20210011846A1; US11954025B2; US11630770B2; US20230229591A1; KR20220031698A; WO2021006965A1; EP3997578A1; CN114207629A

Abstract

本明細書の開示は、ニューラルネットワークアクセラレータにおいてスパースデータを読み取るおよび書き込むためのシステム、方法、およびデバイスを含む。複数のスライスは、データワードのアクセスサイズを有するメモリにアクセスするように確立することができる。第１のスライスは、メモリ内のデータワードの第１の側にアクセスするように構成することができる。回路類は、ゼロでない値を有するデータワード内のバイト位置を識別するマスクにアクセスすることができる。回路類は、第１の側の端で開始する格納されたゼロでないバイト値、およびデータワードの残余内に格納された任意のゼロバイト値を有するようにデータワードを修正することができる。いくつかのゼロでないバイト値が第１のスライスの第１のアクセスサイズ以下であるかどうかの決定を行うことができる。回路類は、修正されたデータワードを少なくとも第１のスライスを介してメモリに書き込むことができる。【選択図】図２Ａ

Description

関連出願の相互参照
本出願は、参照によりその内容全体が全ての目的のために本明細書に組み込まれる、２０１９年７月１１日に出願された、米国特許出願第１６／５０９，１３８号の優先権を主張する。

本開示は、全体として、スパースデータを読み取るおよび／または書き込むためのシステムおよび方法を含むがこれに限定されない、ニューラルネットワークのデータの処理に関する。

コンピュータシステムは、データを格納および保持するために、メモリまたはメモリ構成要素を含むことができる。メモリは、書込みおよび読取り動作を介して情報およびデータを格納および取得することができる。しかしながら、メモリシステムがアクセスされるたびに、コンピュータシステムは、情報およびデータを格納するまたは取得するために様々な資源および様々なレベルの消費電力を利用する。

ニューラルネットワークアクセラレータにおいてスパースデータを読み取るおよび書き込むためのデバイス、システムおよび方法が、本明細書で提供される。いくつかの実施形態では、データワードのスパース性を決定することができ、本明細書に記載の回路類は、読取りおよび／または書込み動作中に回路類の電力使用量（または消費）を減らすために、データワードのスパース性に部分的に基づいて、それぞれのデータワードの読取りおよび／または書込み動作を実施することができる。メモリは、スライスに区画化することができ、データワードの異なる部分（例えば、バイト部分）は、それぞれの部分のバイト値に部分的に基づいて、１つまたは複数のスライス内にまたはそれらにわたって書き込むことができる。例えば、回路類は、ゼロでないバイト値を有するデータワードのバイト部分の数およびゼロバイト値を有するバイト部分の数を決定することができる。ゼロバイト値を有するバイト部分は、情報、値および／または重要性を有さない（または重要でないレベルしか有さない）として識別されたデータワードまたは部分のスパース部分に対応することができる。したがって、本明細書に記載のシステムおよび方法は、読取り／書込みアクセス動作中の回路類による電力使用量を減らすために、ゼロバイト値を有するバイト部分のうちの１つまたは複数のための読取り／書込みアクセス動作をスキップする、無視するまたは実施しないことが可能である。

いくつかの実施形態では、データワードは、ゼロでないバイト値を有するデータワードのバイト部分をグループ化または配置するおよびゼロでないバイト値を有するデータワードのバイト部分の後にゼロバイト値を有する残りのバイト部分を位置させるように修正することができる。例えば、回路類は、書込み動作を実施する際に全てのゼロでないバイト部分を第１のスライスの第１の端または左側にパックすることができる。読取り動作のために、回路類は、ゼロでないバイト値を有するデータワードのバイト部分の数およびゼロバイト値を有するバイト部分の数を識別するビットマスクを先ずフェッチし、（例えば、そこから読み取るために）いくつのバイト部分がゼロでないバイト値を含むかを検証することができる。いくつかの実施形態では、回路類は、回路類による電力使用量を減らすために、読取り／書込みアクセス中にゼロバイト値を有するバイト部分をスキップまたは無視することができる。したがって、本明細書に記載のシステムおよび方法は、アクセスレベル電力値または読取りおよび書込み動作を実施するための読取り／書込み電力を減らすことができる。

いくつかの実施形態では、それぞれのバイト部分が、ゼロバイト値を含む場合、回路類は、スライス（例えば、左右両方のスライス）への読取り／書込みアクセスをスキップするまたは実施しないことが可能である。いくつかの実施形態では、データワードのビットマスク値が、第１のスライスのアクセスサイズ以下である場合、回路類は、第１のスライスのみへの読取り／書込みアクセスを実施することができる。いくつかの実施形態では、データワードのビットマスク値が、第１のスライスのアクセスサイズより大きい場合、回路類は、第１のスライスおよび第２のスライスまたは第１のスライスに加えて複数のスライスへの読取り／書込みアクセスを実施することができる。

少なくとも１つの態様において、方法が提供される。方法は、複数のスライスのうちの第１のスライスがメモリ内のデータワードの第１の側にアクセスするように構成された、データワードのアクセスサイズを有するメモリにアクセスするための複数のスライスを、回路類によって、確立することを含むことができる。第１の側は、データワードよりも小さいサイズを含むことができる。方法は、ゼロでない値を有するデータワード内のバイト位置を識別するマスクに、回路類によって、アクセスすることを含むことができる。方法は、第１の側の端で開始する格納されたゼロでないバイト値、およびデータワードの残余内に格納された任意のゼロバイト値を有するようにデータワードを、回路類によって、修正することを含むことができる。方法は、第１の側の端で開始するいくつかのゼロでないバイト値が第１のスライスの第１のアクセスサイズ以下であるかどうかを、回路類によって、決定することを含むことができる。方法は、修正されたデータワードを少なくとも第１のスライスを介してメモリに、決定に応答して回路類によって、書き込むことを含むことができる。

いくつかの実施形態では、方法は、１バイトのマスクまたは２バイトのマスクのうちの１つとしてマスクを生成することを含むことができる。方法は、第１の側のいくつかのゼロでないバイト値は第１のスライスの第１のアクセスサイズ以下であると、回路類によって、決定することを含むことができる。方法は、第１のスライスのみを介して修正されたデータワードの第１の側を、回路類によって、書き込むことを含むことができる。方法は、第１の側の端で開始するいくつかのゼロでないバイト値は第１のスライスの第１のアクセスサイズより大きいと、回路類によって、決定することを含むことができる。方法は、第１のスライスを介する修正されたデータワードの第１の側のバイトおよび第２のスライスを介する残りのゼロでないバイトを、回路類によって、書き込むことを含むことができる。いくつかの実施形態では、複数のスライスのうちの第１のスライスの第１のアクセスサイズまたは第２のスライスの第２のアクセスサイズのうちの１つが、メモリにアクセスする際の回路類の電力使用量の所定の削減を実現するために、選択され得る。方法は、マスクに基づいて修正されたデータワードのゼロでないバイト値の数を、回路類によって、決定することを含むことができる。

少なくとも１つの態様において、方法が提供される。方法は、データワードのアクセスサイズを有するメモリにアクセスするために複数のスライスを、回路類によって、確立することを含むことができる。複数のスライスのうちの第１のスライスは、メモリ内のデータワードの第１の側にアクセスするように構成することができる。第１の側は、データワードよりも小さいサイズを含むことができる。方法は、ゼロでない値を有するデータワード内の位置を識別するマスクに、回路類によって、アクセスすることを含むことができる。方法は、データワードのいくつかのゼロでないバイト値は第１のスライスの第１のアクセスサイズ以下であると、マスクから、回路類によって、決定することを含むことができる。方法は、第１のスライスを介するメモリに格納されたデータワードのパックされた表現を、決定に応答して回路類によって、読み取ることを含むことができる。パックされた表現は、データワードの第１の側の端で開始する格納されたゼロでないバイト値およびデータワードの残余内に格納された任意のゼロバイト値を含むことができる。方法は、マスクによって示された位置にゼロでないバイト値およびゼロバイト値を有するデータワードを、パックされた表現から回路類によって、提供することを含むことができる。

いくつかの実施形態では、マスクは、１バイトベースまたは２バイトベースでゼロでないバイト値の位置を識別することができる。方法は、データワードのいくつかのゼロでないバイト値は第１のスライスの第１のアクセスサイズ以下であると、回路類によって、決定することを含むことができる。方法は、第１のスライスのみを介するデータワードのパックされた表現を、回路類によって、読み取ることを含むことができる。方法は、データワードのいくつかのゼロでないバイト値は第１のスライスの第１のアクセスサイズより大きいと、回路類によって、決定することを含むことができる。方法は、複数のスライスのうちの第１のスライスを介するデータワードの第１の側および第２のスライスを介する任意の残りのゼロでないバイトを、回路類によって、読み取ることを含むことができる。いくつかの実施形態では、複数のスライスのうちの第１のスライスの第１のアクセスサイズまたは第２のスライスの第２のアクセスサイズのうちの１つが、メモリから読み取る際の回路類の電力使用量の所定の削減を実現するために、選択され得る。

少なくとも１つの態様において、デバイスが提供される。デバイスは、データワードのアクセスサイズを有するメモリおよび回路類を含む。回路類は、メモリにアクセスするための複数のスライスを確立するように構成することができる。複数のスライスのうちの第１のスライスは、メモリ内のデータワードの左側にアクセスするように構成することができる。回路類は、ゼロでない値を有するデータワード内のバイト位置を識別するマスクにアクセスするように構成することができる。回路類は、データワードの第１の側の端で開始する格納されたゼロでないバイト値およびデータワードの残余内に格納された任意のゼロバイト値を有するようにデータワードを修正するように構成することができる。回路類は、修正されたデータワードの最も左のバイトのいくつかのゼロでないバイト値は第１のスライスの第１のアクセスサイズ以下であると決定するように構成することができる。回路類は、少なくとも第１のスライスを介して修正されたデータワードをメモリに、決定に応答して、書き込むように構成することができる。

いくつかの実施形態では、回路類は、少なくとも第１のスライスを介してメモリに格納されたデータワードのパックされた表現を読み取るように構成することができる。パックされた表現は、データワードの第１の側に格納されたゼロでないバイト値およびデータワードの残りのバイトに格納された任意のゼロバイト値を含むことができる。回路類は、ゼロでないバイト値およびビットマスクによって示された位置に格納されたゼロバイト値を有するようにデータワードを作成するように構成することができる。回路類は、複数のスライスのうちの第１のスライスを介するデータワードの第１の側および第２のスライスを介する任意の残りのゼロでないバイトを読み取るように構成することができる。いくつかの実施形態では、複数のスライスのうちの第１のスライスの第１のアクセスサイズまたは第２のスライスの第２のアクセスサイズのうちの１つは、メモリから読み取る際の回路類の電力使用量の所定の削減を実現するために、選択することができる。

上記および他の態様ならびに実現例について、以下で詳細に考察する。上述の情報および以下で詳述する説明は、様々な態様および実現例の実例を含み、特許請求する態様および実現例の性質ならびに特徴を理解するための概観または枠組みを提供する。図面は、様々な態様および実現例の例示ならびに更なる理解を提供し、本明細書に組み込まれるとともに本明細書の一部を構成する。

添付図面は縮尺通りに描かれることを意図しない。様々な図面における同様の参照番号および記号は同様の要素を示す。明瞭にするため、全ての図面において全ての構成要素に符号が付されるわけではない。

本開示の例示の一実現例による、人工知能（ＡＩ）に関連する処理を実施するシステムの一実施形態を示すブロック図である。本開示の例示の一実現例による、ＡＩに関連する処理を実施するデバイスの一実施形態を示すブロック図である。本開示の例示の一実現例による、ＡＩに関連する処理を実施するデバイスの一実施形態を示すブロック図である。本開示の例示の一実現例によるコンピューティング環境を示すブロック図である。本開示の例示の一実現例による、本明細書で提供されるニューラルネットワークアクセラレータにおいてスパースデータを書き込むためのシステムのブロック図である。本開示の例示の一実現例による、ニューラルネットワークアクセラレータにおいてスパースデータを読み取るためのシステムのブロック図である。本開示の例示の一実現例による、ニューラルネットワークアクセラレータにおいてスパースデータを読み取るおよび書き込むためのシステムのブロック図である。本開示の例示の一実現例による、ニューラルネットワークアクセラレータにおいてスパースデータを書き込むためのシステムのブロック図である。本開示の例示の一実現例による、ニューラルネットワークアクセラレータにおいてスパースデータを読み取るためのシステムのブロック図である。本開示の例示の一実現例による、ニューラルネットワークアクセラレータにおいてスパースデータを読み取るおよび書き込むためのプロセスまたは方法を示すフローチャートである。本開示の例示の一実現例による、ニューラルネットワークアクセラレータにおいてスパースデータを読み取るおよび書き込むためのプロセスまたは方法を示すフローチャートである。

特定の実施形態を詳細に示す図面に移る前に、本開示は、明細書に記載されるかまたは図面に例示される、詳細もしくは方法論に限定されないことが理解されるべきである。また、本明細書で使用する専門用語は、単に説明のためのものであって限定とみなされるべきでないことが理解されるべきである。

以下の本発明の様々な実施形態の説明を読むために、本明細書のセクションおよびそれらそれぞれの内容について、次の説明が有用であり得る。
セクションＡは、本発明のシステム、方法、およびデバイスの一実施形態を実践または実現するのに有用な、環境、システム、構成、および／または他の態様について記載する。
セクションＢは、ニューラルネットワークアクセラレータにおいてスパースデータを読み取るおよび書き込むためのデバイス、システムおよび方法の実施形態について記載する。

Ａ．人工知能に関連する処理のための環境
システム、デバイス、および／または方法の実施形態の詳細についてセクションＢで考察する前に、システム、デバイス、および／または方法の特定の実施形態を実践もしくは実現するのに有用な、環境、システム、構成、および／または他の態様について考察するのが有用であり得る。ここで図１Ａを参照すると、人工知能（ＡＩ）に関連する処理を実施するためのシステムの一実施形態が示される。概要では、システムは、入力データ１１０を使用してＡＩに関連する処理を実施することができる、１つまたは複数のＡＩアクセラレータ１０８を含む。ＡＩアクセラレータ１０８として参照しているが、場合によっては、ニューラルネットワークアクセラレータ（ＮＮＡ）、ニューラルネットワークチップもしくはハードウェア、ＡＩプロセッサ、ＡＩチップなどと呼ばれる。ＡＩアクセラレータ１０８は、入力データ１１０および／またはパラメータ１２８（例えば、重みおよび／またはバイアス情報）にしたがって、ＡＩに関連する処理を実施して、出力データ１１２を出力または提供することができる。ＡＩアクセラレータ１０８は、１つもしくは複数のニューラルネットワーク１１４（例えば、人工ニューラルネットワーク）、１つもしくは複数のプロセッサ、および／または１つもしくは複数の記憶デバイス１２を含むことができ、ならびに／あるいは実装することができる。

上述の要素または構成要素はそれぞれ、ハードウェア、またはハードウェアとソフトウェアの組み合わせの形で実装される。例えば、これらの要素または構成要素はそれぞれ、任意のアプリケーション、プログラム、ライブラリ、スクリプト、タスク、サービス、プロセス、あるいはデジタルおよび／またはアナログ要素（例えば、１つもしくは複数のトランジスタ、論理ゲート、レジスタ、メモリデバイス、抵抗素子、導電素子、容量素子）を含むことができる回路類などのハードウェア上で実行する、任意のタイプおよび形態の実行可能命令を含むことができる。

入力データ１１０は、ＡＩアクセラレータ１０８のニューラルネットワーク１１４を構成、調整、訓練、および／または活性化するための、ならびに／あるいはプロセッサ１２４によって処理するための、任意のタイプもしくは形態のデータを含むことができる。ニューラルネットワーク１１４は、場合によっては、人工ニューラルネットワーク（ＡＮＮ）と呼ばれる。ニューラルネットワークの構成、調整、および／または訓練は、履歴データなど、（例えば、入力データ１１０としての）訓練データセットがニューラルネットワークに提供されて処理される、機械学習のプロセスを指すかあるいは含むことができる。調整または構成は、ニューラルネットワーク１１４を訓練または処理して、ニューラルネットワークが精度を改善するのを可能にすることを指すかまたは含むことができる。ニューラルネットワーク１１４の調整または構成は、例えば、ニューラルネットワーク１１４に関する問題のタイプもしくは所望の目標に対して成功することが証明されているアーキテクチャを使用した、ニューラルネットワークの設計を含むことができる。場合によっては、１つまたは複数のニューラルネットワーク１１４は、同じもしくは類似のベースラインモデルで開始してもよいが、調整、訓練、または学習プロセスの間、ニューラルネットワーク１１４の結果は、ベースラインモデルであるかあるいは異なる目標もしくは目的のために調整または訓練された異なるニューラルネットワークよりも高いレベルの精度および信頼性で、特定のタイプの入力を処理し、特定のタイプの出力を生成するように、各ニューラルネットワーク１１４を調整することができるような、十分に異なるものであることができる。ニューラルネットワーク１１４の調整は、各ニューラルネットワーク１１４に対して異なるパラメータ１２８を設定すること、各ニューラルネットワーク１１４に対してパラメータ１１４を異なるように微調整すること、または異なる重み（例えば、ハイパーパラメータ、もしくは学習率）、テンソルフローなどを割り当てることを含むことができる。したがって、ニューラルネットワークならびに／あるいはシステムの調整または訓練プロセスおよび目標に基づいて、ニューラルネットワーク１１４に対して適切なパラメータ１２８を設定することで、システム全体の性能を改善することができる。

ＡＩアクセラレータ１０８のニューラルネットワーク１１４は、例えば、畳み込みニューラルネットワーク（ＣＮＮ）、深層畳み込みネットワーク、順伝播型ニューラルネットワーク（例えば、多層パーセプトロン（ＭＬＰ））、深層順伝播型ニューラルネットワーク、放射基底関数ニューラルネットワーク、コホネン自己組織化ニューラルネットワーク、回帰型ニューラルネットワーク、モジュール型ニューラルネットワーク、長期／短期メモリニューラルネットワークなど、任意のタイプのニューラルネットワークを含むことができる。ニューラルネットワーク１１４は、自然言語処理など、データ（例えば、画像、音声、映像）処理、オブジェクトもしくは特徴認識、レコメンダ機能、データもしくは画像分類、データ（例えば、画像）解析などを実施するために展開または使用することができる。

一例として、また１つまたは複数の実施形態では、ニューラルネットワーク１１４は、畳み込みニューラルネットワークとして構成することができ、または畳み込みニューラルネットワークを含むことができる。畳み込みニューラルネットワークは、それぞれ異なる目的に役立ち得る、１つもしくは複数の畳み込みセル（またはプーリング層）およびカーネルを含むことができる。畳み込みニューラルネットワークは、畳み込みカーネル（場合によっては、単に「カーネル」と呼ばれる）を含み、組み込み、および／または使用することができる。畳み込みカーネルは入力データを処理することができ、プーリング層は、例えば、ｍａｘなどの非線形関数を使用して、データを単純化し、それによって不要な特徴を低減することができる。畳み込みニューラルネットワークを含むニューラルネットワーク１１４は、画像、音声、または任意のデータの認識もしくは他の処理を容易にすることができる。例えば、（例えば、センサからの）入力データ１１０を、ファンネルを形成する畳み込みニューラルネットワークの畳み込み層に渡して、入力データ１１０の検出された特徴を圧縮することができる。畳み込みニューラルネットワークの第１の層は第１の特性を検出することができ、第２の層は第２の特性を検出することができ、その先も同様である。

畳み込みニューラルネットワークは、視覚心像、音声情報、および／または他の任意のタイプもしくは形態の入力データ１１０を解析するように構成された、深層順伝播型人工ニューラルネットワークのタイプであることができる。畳み込みニューラルネットワークは、最小限の前処理を使用するように設計された、多層パーセプトロンを含むことができる。畳み込みニューラルネットワークは、重み共有アーキテクチャおよび翻訳不変性特性に基づいて、シフト不変または空間不変人工ニューラルネットワークを含むことができ、またはそのように呼ぶことができる。畳み込みニューラルネットワークは、他のデータ分類／処理アルゴリズムと比較して相対的に少ない前処理を使用することができるので、畳み込みニューラルネットワークは、他のデータ分類／処理アルゴリズムのためにマニュアル設計されてもよいフィルタを自動的に学習して、ニューラルネットワーク１１４の構成、確立、またはセットアップと関連付けられた効率を改善することによって、他のデータ分類／処理技術と比べて技術的利点を提供することができる。

ニューラルネットワーク１１４は、ニューロンもしくはノードの、入力層１１６および出力層１２２を含むことができる。ニューラルネットワーク１１４はまた、ニューロンもしくはノードの、畳み込み層、プーリング層、全結合層、および／または正規化層を含むことができる、１つまたは複数の隠れ層１１８、１１９を有することができる。ニューラルネットワーク１１４では、各ニューロンは、前の層におけるいくつかの位置から入力を受信することができる。全結合層では、各ニューロンは、前の層の全ての要素からの入力を受信することができる。

ニューラルネットワーク１１４の各ニューロンは、前の層の受容野からの入力値に何らかの関数を適用することによって、出力値を計算することができる。入力値に適用される関数は、重みのベクトルおよびバイアス（一般的には実数）によって指定される。ニューラルネットワーク１１４における（例えば、訓練フェーズ中の）学習は、バイアスおよび／または重みを漸増的に調節することによって進行することができる。重みのベクトルおよびバイアスは、フィルタと呼ぶことができ、入力の何らかの特徴（例えば、特定の形状）を表すことができる。畳み込みニューラルネットワークの際立った特徴は、多くのニューロンが同じフィルタを共有できることである。これにより、各受容野が独自のバイアスおよび重みのベクトルを有するのではなく、単一のバイアスおよび重みの単一のベクトルを、該フィルタを共有する全ての受容野にわたって使用することができるので、メモリフットプリントが低減される。

例えば、畳み込み層では、システムは、畳み込み演算を入力層１１６に適用して、結果を次の層に渡すことができる。畳み込みは、個々のニューロンの応答をエミュレートして刺激を入力することができる。各畳み込みニューロンは、その受容野に対してのみデータを処理することができる。畳み込み演算は、全結合順伝播型ニューラルネットワークと比較して、ニューラルネットワーク１１４で使用されるニューロンの数を低減することができる。したがって、畳み込み演算は、自由パラメータの数を低減して、より少ないパラメータでネットワークをより深層化することを可能にすることができる。例えば、入力データ（例えば、画像データ）サイズにかかわらず、同じ共有重みをそれぞれ有するサイズ５×５のタイリング領域は、２５個のみの学習可能パラメータを使用してもよい。このように、畳み込みニューラルネットワークを有する第１のニューラルネットワーク１１４は、逆伝播を使用することによって多くの層を有する従来の多層ニューラルネットワークを訓練する際の、勾配消失または発散の問題を解決することができる。

ニューラルネットワーク１１４（例えば、畳み込みニューラルネットワークで構成される）は、１つまたは複数のプーリング層を含むことができる。１つまたは複数のプーリング層は、ローカルプーリング層またはグローバルプーリング層を含むことができる。プーリング層は、１つの層におけるニューロンクラスタの出力を組み合わせて、次の層における単一のニューロンとすることができる。例えば、最大プーリングは、前の層におけるニューロンのクラスタそれぞれからの最大値を使用することができる。別の例は、前の層におけるニューロンのクラスタそれぞれからの平均値を使用することができる、平均プーリングである。

ニューラルネットワーク１１４（例えば、畳み込みニューラルネットワークで構成される）は、全結合層を含むことができる。全結合層は、１つの層の全てのニューロンを別の層の全てのニューロンに結合することができる。ニューラルネットワーク１１４は、畳み込み層で重みを共有して構成することができ、それは同じフィルタが層内の各受容野に使用されることを指すことができ、それにより、メモリフットプリントが低減され、第１のニューラルネットワーク１１４の性能が改善される。

隠れ層１１８、１１９は、入力データ（例えば、仮想現実システムなどからのセンサデータ）に基づいて、情報を検出するように調整または構成されるフィルタを含むことができる。システムがニューラルネットワーク１１４（例えば、畳み込みニューラルネットワーク）の各層を通るにつれて、システムは、第１の層からの入力を翻訳し、変換された入力を第２の層に出力することができ、その先も同様である。ニューラルネットワーク１１４は、検出、処理、および／または計算されるオブジェクトもしくは情報のタイプ、ならびに入力データ１１０のタイプに基づいて、１つまたは複数の隠れ層１１８、１１９を含むことができる。

いくつかの実施形態では、畳み込み層は、ニューラルネットワーク１１４（例えば、ＣＮＮとして構成される）のコアビルディングブロックである。層のパラメータ１２８は、小さい受容野を有するが、入力ボリュームの深さ全体を通って延在する、学習可能なフィルタ（またはカーネル）のセットを含むことができる。順方向パスの間、各フィルタは、入力ボリュームの幅および高さにわたって畳み込まれて、フィルタのエントリと入力との間のドット積を計算し、該フィルタの二次元活性化マップを作成する。結果として、ニューラルネットワーク１１４は、入力のある空間位置である特定のタイプの特徴を検出すると活性化する、フィルタを学習させることができる。深さ次元に沿って全てのフィルタの活性化マップを積み重ねることで、畳み込み層の全出力ボリュームが形成される。したがって、出力ボリュームの全てのエントリは、入力の小さい領域に注目し、同じ活性化マップのニューロンとパラメータを共有する、ニューロンの出力として解釈することもできる。畳み込み層では、ニューロンは、前の層の制限されたサブエリアから入力を受信することができる。一般的に、サブエリアは正方形形状のもの（例えば、サイズ５×５）である。ニューロンの入力エリアはその受容野と呼ばれる。そのため、全結合層では、受容野は前の層全体である。畳み込み層では、受容エリアは前の層全体よりも小さいものであり得る。

第１のニューラルネットワーク１１４は、（例えば、入力データ１１０に基づいて、オブジェクト、イベント、ワード、および／または他の特徴の確率を検出もしくは決定することによって）入力データ１１０を検出、分類、セグメント化、および／または翻訳するように訓練することができる。例えば、ニューラルネットワーク１１４の第１の入力層１１６は、入力データ１１０を受信し、入力データ１１０を処理してデータを第１の中間出力に変換し、第１の中間出力を第１の隠れ層１１８に伝達することができる。第１の隠れ層１１８は、第１の中間出力を受信し、第１の中間出力を処理して第１の中間出力を第２の中間出力に変換し、第２の中間出力を第２の隠れ層１１９に伝達することができる。第２の隠れ層１１９は、第２の中間出力を受信し、第２の中間出力を処理して第２の中間出力を第３の中間出力に変換し、第３の中間出力を、出力層１２２に伝達することができる。出力層１２２は、第３の中間出力を受信し、第３の中間出力を処理して第３の中間出力を出力データ１１２に変換し、出力データ１１２を（例えば、場合によっては、ユーザに対するレンダリングのため、格納のためなど、後処理エンジンに）伝達することができる。出力データ１１２は、例として、オブジェクト検出データ、強化／翻訳／拡張されたデータ、推奨、分類、および／またはセグメント化されたデータを含むことができる。

再び図１Ａを参照すると、ＡＩアクセラレータ１０８は、１つまたは複数の記憶デバイス１２６を含むことができる。記憶デバイス１２６は、ＡＩアクセラレータ１０８と関連付けられた任意のタイプもしくは形態のデータを、格納、保持、または維持するように、設計または実装することができる。例えば、データは、ＡＩアクセラレータ１０８によって受信される入力データ１１０、および／または出力データ１１２（例えば、次のデバイスもしくは処理段階に出力される前）を含むことができる。データは、ニューラルネットワーク１１４および／またはプロセッサ１２４の処理段階のいずれかに使用される、またはいずれかからの、中間データを含むことができる。データは、記憶デバイス１２６から読み取るかまたはアクセスすることができる、ニューラルネットワーク１１４のニューロンに入力される、また該ニューロンで処理する、１つもしくは複数のオペランドを含むことができる。例えば、データは、記憶デバイス１２６に格納し、そこから読み取るかまたはアクセスすることができる、入力データ、重み情報、および／またはバイアス情報、活性化関数情報、ならびに／あるいは１つもしくは複数のニューロン（またはノード）のためのパラメータ１２８、および／またはニューラルネットワーク１１４の層を含むことができる。データは、記憶デバイス１２６に書き込み、またそこに格納することができる、ニューラルネットワーク１１４のニューロンからの出力データを含むことができる。例えば、データは、記憶デバイス１２６に転送するかもしくは書き込み、格納することができる、ニューラルネットワーク１１４の１つもしくは複数のニューロン（またはノード）および／または層のための、活性化データ、改良もしくは更新されたデータ（例えば、重み情報および／またはバイアス情報、活性化関数情報、および／または他のパラメータ１２８）を含むことができる。

いくつかの実施形態では、ＡＩアクセラレータ１０８は１つまたは複数のプロセッサ１２４を含むことができる。１つまたは複数のプロセッサ１２４は、ニューラルネットワーク１１４またはＡＩアクセラレータ１０８のうち任意の１つもしくは複数に対する入力データを前処理するための、ならびに／あるいはニューラルネットワーク１１４またはＡＩアクセラレータ１０８のうち任意の１つもしくは複数に対する出力データを後処理するための、任意の論理、回路類、および／または処理構成要素（例えば、マイクロプロセッサ）を含むことができる。１つまたは複数のプロセッサ１２４は、ニューラルネットワーク１１４またはＡＩアクセラレータ１０８の１つもしくは複数の演算を構成、制御、および／または管理するための、論理、回路類、処理構成要素、および／または機能性を提供することができる。例えば、プロセッサ１２４は、ニューラルネットワーク１１４と関連付けられたデータまたは信号を受信して、（例えば、ニューラルネットワーク１１４の演算を実装する回路類に対するクロックゲート制御を介して）消費電力を制御または低減してもよい。別の例として、プロセッサ１２４は、（例えば、ＡＩアクセラレータ１０８の様々な構成要素における）別個の処理のため、（例えば、ＡＩアクセラレータ１０８の同じ構成要素における、異なる時間での）逐次処理のため、あるいは記憶デバイスの異なるメモリスライスに、または異なる記憶デバイスに格納するため、データを区画化および／または再配置してもよい。いくつかの実施形態では、プロセッサ１２４は、特定の重み、活性化関数、および／またはパラメータ情報の識別、選択、ならびに／あるいはニューラルネットワーク１１４のニューロンおよび／または層へのロードによって、特定の文脈に対して演算を行い、特定のタイプの処理を提供し、ならびに／あるいは特定のタイプの入力データをアドレスするように、ニューラルネットワーク１１４を構成することができる。

いくつかの実施形態では、ＡＩアクセラレータ１０８は、ディープラーニングおよび／またはＡＩワークロードを扱うかもしくは処理するように、設計および／または実装される。例えば、ＡＩアクセラレータ１０８は、人工ニューラルネットワーク、マシンビジョン、および機械学習を含む人工知能用途のため、ハードウェアアクセラレーションを提供することができる。ＡＩアクセラレータ１０８は、ロボティックス、物のインターネット、または他のデータ集約的もしくはセンサ駆動のタスクを扱う演算向けに構成することができる。ＡＩアクセラレータ１０８は、マルチコアまたは複数の処理要素（ＰＥ）設計を含んでもよく、人工現実（例えば、仮想、拡張、もしくは混合現実）システム、スマートフォン、タブレット、およびコンピュータなど、様々なタイプおよび形態のデバイスに組み込むことができる。ＡＩアクセラレータ１０８の特定の実施形態は、少なくとも１つのデジタル信号プロセッサ（ＤＳＰ）、コプロセッサ、マイクロプロセッサ、コンピュータシステム、プロセッサのヘテロジニアスコンピューティング構成、グラフィックス処理装置（ＧＰＵ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、および／または特定用途向け集積回路（ＡＳＩＣ）を含むかあるいはそれらを使用して実装することができる。ＡＩアクセラレータ１０８は、トランジスタベース、半導体ベース、および／または量子コンピューティングベースのデバイスであることができる。

次に図１Ｂを参照すると、ＡＩに関連する処理を実施するためのデバイスの例示の一実施形態が示される。概要では、デバイスは、例えば、図１Ａに関連して上述した１つまたは複数の特徴を有する、ＡＩアクセラレータ１０８を含むかまたはそれに対応することができる。

ＡＩアクセラレータ１０８は、１つまたは複数の記憶デバイス１２６（例えば、スタティックランダムアクセスメモリ（ＳＲＡＭ）デバイスなどのメモリ）、１つまたは複数のバッファ、複数の処理要素（ＰＥ）回路またはＰＥ回路のアレイ、他の論理または回路類（例えば、加算器回路類）、ならびに／あるいは他の構造または構成（例えば、相互接続、データバス、クロック回路類、電力ネットワーク）を含むことができる。上述の要素または構成要素はそれぞれ、ハードウェア、または少なくともハードウェアとソフトウェアの組み合わせの形で実装される。ハードウェアは、例えば、回路要素（例えば、１つもしくは複数のトランジスタ、論理ゲート、レジスタ、メモリデバイス、抵抗素子、導電素子、容量素子、および／またはワイヤもしくは導電性コネクタ）を含むことができる。

ＡＩアクセラレータ１０８において実装されたニューラルネットワーク１１４（例えば、人工ニューラルネットワーク）では、ニューロンは、様々な形態を取ることができ、処理要素（ＰＥ）またはＰＥ回路と呼ぶことができる。ＰＥは接続されて、異なるパターンが異なる機能的目的に役立つ、特定のネットワークパターンまたはアレイとなる。人工ニューラルネットワークのＰＥは、（例えば、半導体の実現例では）電気的に動作し、アナログ、デジタル、またはハイブリッドのいずれかであってもよい。生体シナプスの作用に匹敵するために、ＰＥ間の接続に、適正なシステム出力を作成するように校正または「訓練」することができる、乗法的な重みを割り当てることができる。

ＰＥは、（例えば、ニューロンのマッカロック－ピッツモデルを表す）次式に関して定義することができる。
ζ＝Σ_ｉｗ_ｉｘ_ｉ（１）
ｙ＝σ（ζ）（２）
式中、ζは入力の重み付き合計（例えば、入力ベクトルおよびタップ重みベクトルの内積）であり、σ（ζ）は重み付き合計の関数である。重みおよび入力要素がベクトルｗおよびｘを形成する場合、重み付き合計ζは単純なドット積となる。
ζ＝ｗ・ｘ（３）
これは、活性化関数（例えば、閾値比較の場合）または伝達関数のどちらかと呼ばれることがある。いくつかの実施形態では、１つまたは複数のＰＥはドット積エンジンと呼ばれる場合がある。ニューラルネットワーク１１４に対する入力（例えば、入力データ１１０）ｘは、入力空間からのものであることができ、出力（例えば、出力データ１１２）は出力空間の一部である。いくつかのネットワークでは、出力空間Ｙは、｛０，１｝のように単純なものであってもよく、または複雑な多次元（例えば、複数チャネル）空間（例えば、畳み込みニューラルネットワークの場合）であってもよい。ニューラルネットワークは、入力空間の自由度ごとに１つの入力、および出力空間の自由度ごとに１つの出力を有する傾向がある。

再び図１Ｂを参照すると、ＰＥ１２０に対する入力ｘは、記憶デバイス１２６（例えば、ＳＲＡＭ）から読み取られる、入力ストリーム１３２の一部であることができる。入力ストリーム１３２は、ＰＥの１つの行（水平のバンクもしくはグループ）に方向付けることができ、ＰＥのうち１つもしくは複数にわたって共有するか、またはそれぞれのＰＥに対する入力としてのデータ部分（重なり合うもしくは重なり合わない部分）に区画化することができる。重みストリーム１３４（例えば、記憶デバイス１２６から読み取られる）における重み１３４（もしくは重み情報）は、ＰＥの列（垂直のバンクもしくはグループ）に方向付けるかまたは提供することができる。列のＰＥはそれぞれ、同じ重み１３４を共有するか、または対応する重み１３４を受信してもよい。標的のＰＥそれぞれに対する入力および／または重みは、標的のＰＥに（例えば、記憶デバイス１２６から）直接ルーティングすることができ、あるいは１つもしくは複数のＰＥを通して（例えば、ＰＥの行もしくは列に沿って）標的のＰＥにルーティングすることができる。各ＰＥの出力は、ＰＥアレイの外に直接、あるいは１つもしくは複数のＰＥを通して（例えば、ＰＥの列に沿って）ＰＥアレイを出るようにルーティングすることができる。ＰＥの各列の出力は、それぞれの列の加算器回路類において合算または加算し、ＰＥのそれぞれの列に対するバッファ１３０に提供することができる。バッファ１３０は、受信した出力を記憶デバイス１２６に提供、転送、ルーティング、書込み、および／または格納することができる。いくつかの実施形態では、記憶デバイス１２６に格納された出力（例えば、ニューラルネットワークの１つの層からの活性化データ）を、記憶デバイス１２６から検索するかまたは読み取り、後の時間における（ニューラルネットワークの後続層の）処理のため、ＰＥ１２０のアレイに対する入力として使用することができる。特定の実施形態では、記憶デバイス１２６に格納された出力を、ＡＩアクセラレータ１０８に対する出力データ１１２として、記憶デバイス１２６から検索するかまたは読み取ることができる。

次に図１Ｃを参照すると、ＡＩに関連する処理を実施するためのデバイスの例示の一実施形態が示される。概要では、デバイスは、例えば、図１Ａおよび図１Ｂに関連して上述した１つまたは複数の特徴を有する、ＡＩアクセラレータ１０８を含むかまたはそれに対応することができる。ＡＩアクセラレータ１０８は、１つまたは複数のＰＥ１２０、他の論理または回路類（例えば、加算器回路類）、ならびに／あるいは他の構造または構成（例えば、相互接続、データバス、クロック回路類、電力ネットワーク）を含むことができる。上述の要素または構成要素はそれぞれ、ハードウェア、または少なくともハードウェアとソフトウェアの組み合わせの形で実装される。ハードウェアは、例えば、回路要素（例えば、１つもしくは複数のトランジスタ、論理ゲート、レジスタ、メモリデバイス、抵抗素子、導電素子、容量素子、および／またはワイヤもしくは導電性コネクタ）を含むことができる。

いくつかの実施形態では、ＰＥ１２０は、１つもしくは複数の乗累算（ＭＡＣ）ユニットまたは回路１４０を含むことができる。１つまたは複数のＰＥは、場合によっては、ＭＡＣエンジンと呼ぶことができる。ＭＡＣユニットは、乗累算を実施するように構成される。ＭＡＣユニットは、乗算器回路、加算器回路、および／または累算器回路を含むことができる。乗累算は、２つの数字の積を計算し、その積を累算器に加える。ＭＡＣ演算は、累算器ａ、ならびに入力ｂおよびｃに関連して、次のように表すことができる。
ａ←ａ＋（ｂ×ｃ）（４）
いくつかの実施形態では、ＭＡＣユニット１４０は、組み合わせ論理に実装された乗算器とそれに続く加算器（例えば、組み合わせ論理を含むもの）、ならびに結果を格納する累算器レジスタ（例えば、順序および／または組み合わせ論理を含むもの）を含んでもよい。累算器レジスタの出力は、加算器の１つの入力にフィードバックすることができるので、各クロックサイクルにおいて、乗算器の出力をレジスタに加算することができる。

上述したように、ＭＡＣユニット１４０は、乗算および加算両方の機能を実施することができる。ＭＡＣユニット１４０は２つの段階で演算することができる。ＭＡＣユニット１４０は、最初に、第１の段階で所与の数（入力）の積を計算し、結果を第２の段階の演算（例えば、加算および／または累算）のために転送することができる。ｎビットのＭＡＣユニット１４０は、ｎビット乗算器、２ｎビット加算器、および２ｎビット累算器を含むことができる。

本明細書に記載する様々なシステムおよび／またはデバイスを、コンピューティングシステムに実装することができる。図１Ｄは、代表的なコンピューティングシステム１５０のブロック図を示している。いくつかの実施形態では、図１Ａのシステムは、コンピューティングシステム１５０の処理装置１５６の少なくとも一部を形成することができる。コンピューティングシステム１５０は、例えば、スマートフォン、他の移動電話、タブレットコンピュータ、ウェアラブルコンピューティングデバイス（例えば、スマートウォッチ、眼鏡、ヘッドマウントディスプレイ）、デスクトップコンピュータ、ラップトップコンピュータなどのデバイス（例えばコンシューマデバイス）として実装するか、あるいは分散型コンピューティングデバイスを実装することができる。コンピューティングシステム１５０は、ＶＲ、ＡＲ、ＭＲ体験を提供するために実装することができる。いくつかの実施形態では、コンピューティングシステム１５０は、プロセッサ１５６、記憶デバイス１５８、ネットワークインターフェース１５１、ユーザ入力デバイス１５２、およびユーザ出力デバイス１５４など、従来の専用またはカスタムのコンピュータ構成要素を含むことができる。

ネットワークインターフェース１５１は、（ローカル／リモート）サーバまたはバックエンドシステムのネットワークインターフェースも接続される、ローカル／ワイドエリアネットワーク（例えば、インターネット）に対する接続を提供することができる。ネットワークインターフェース１５１は、有線インターフェース（例えば、イーサネット）、ならびに／あるいはＷｉ－Ｆｉ、ブルートゥース、またはセルラーデータネットワーク規格（例えば、３Ｇ、４Ｇ、５Ｇ、６０ＧＨｚ、ＬＴＥなど）などの様々なＲＦデータ通信規格を実装する無線インターフェースを含むことができる。

ユーザ入力デバイス１５２は、ユーザがコンピューティングシステム１５０に信号を提供するのに用いることができる、任意のデバイス（または複数のデバイス）を含むことができ、コンピューティングシステム１５０は、特定のユーザ要求または情報を示すものとして信号を解釈することができる。ユーザ入力デバイス１５２は、キーボード、タッチパッド、タッチスクリーン、マウスもしくは他のポインティングデバイス、スクロールホイール、クリックホイール、ダイアル、ボタン、スイッチ、キーパッド、マイクロフォン、センサ（例えば、モーションセンサ、視線追跡センサなど）などのいずれかまたは全てを含むことができる。

ユーザ出力デバイス１５４は、コンピューティングシステム１５０がユーザに情報を提供するのに用いることができる、任意のデバイスを含むことができる。例えば、ユーザ出力デバイス１５４は、コンピューティングシステム１５０によって生成されるかまたは該システムに送達される画像を表示する、ディスプレイを含むことができる。ディスプレイは、例えば、液晶ディスプレイ（ＬＣＤ）、有機発光ダイオード（ＯＬＥＤ）を含む発光ダイオード（ＬＥＤ）、投影システム、陰極線管（ＣＲＴ）などの様々な画像生成技術を、サポートしている電子部品（例えば、デジタル・アナログもしくはアナログ・デジタル変換器、信号プロセッサなど）とともに組み込むことができる。入力および出力両方のデバイスとして機能する、タッチスクリーンなどのデバイスを使用することができる。出力デバイス１５４は、ディスプレイに加えてまたはディスプレイの代わりに提供することができる。例としては、インジケータ光、スピーカ、触覚「ディスプレイ」デバイス、プリンタなどが挙げられる。

いくつかの実現例としては、コンピュータプログラム命令をコンピュータ可読記憶媒体に格納する、マイクロプロセッサ、記憶装置、およびメモリなどの電子構成要素が挙げられる。本明細書に記載する特徴の多くは、コンピュータ可読記憶媒体として符号化されたプログラム命令のセットとして指定される、プロセスとして実現することができる。

これらのプログラム命令は、１つまたは複数のプロセッサによって実行されると、プログラム命令に示されている様々な動作をプロセッサに実施させる。プログラム命令またはコンピュータコードの例としては、コンパイラによって作成されるものなどの機械コード、およびインタープリタを使用してコンピュータ、電子構成要素、またはマイクロプロセッサによって実行される、より高次のコードを含むファイルが挙げられる。好適なプログラミングを通して、プロセッサ１５６は、コンピューティングシステム１５０に対して、サーバまたはクライアントによって実施されるものとして本明細書に記載する機能性、またはメッセージ管理サービスと関連付けられた他の機能性のいずれかを含む、様々な機能性を提供することができる。

コンピューティングシステム１５０は例示であり、変形および修正が可能であることが認識されるであろう。本開示と関連して使用されるコンピュータシステムは、本明細書には具体的に記載しない他の能力を有することができる。更に、コンピューティングシステム１５０について、特定のブロックを参照して記載しているが、該ブロックは説明の便宜上定義されているものであり、構成部品の特定の物理的配置を示唆しようとするものではないことが理解されるべきである。例えば、異なるブロックを、同じ設備に、同じサーバラックに、または同じマザーボード上に配置することができる。更に、ブロックは必ずしも物理的に別個の構成要素に対応していなくてもよい。ブロックは、例えば、プロセッサをプログラミングするか、または適切な制御回路類を提供することによって、様々な動作を実施するように構成することができ、様々なブロックは、初期の構成がどのように得られるかに応じて再構成可能であってもなくてもよい。

本開示の実現例は、回路類およびソフトウェアの任意の組み合わせを使用して実装される電子デバイスを含む、様々な装置で実現することができる。

Ｂ．ニューラルネットワークアクセラレータにおいてスパースデータを読み取るおよび書き込むための方法およびデバイス
本明細書の開示は、ニューラルネットワークアクセラレータにおいてスパースデータを読み取るおよび書き込むためのシステム、方法、およびデバイスの実施形態を含む。いくつかの実施形態では、書込みおよび読取り機能が、データの個々の部分のプロパティまたはプロファイルを使用してデータで実施されるように、データは、ワードごとに処理することができる。例えば、いくつかのゼロ値およびゼロでない値が、データワードの１つまたは複数の異なる部分について決定され得る。それらの部分は、データワードのバイトデータ値またはバイトデータ部分を含むことができるが、これに限定されない。本明細書に記載の回路類は、それぞれの部分がゼロ値またはゼロでない値に対応するかどうかに部分的に基づいて、データワードのそれぞれの部分を読み取るまたは書き込むことを決定することができる。いくつかの実施形態では、回路類は、読取りおよび／または書込み動作中に回路類のアクセスエネルギー値または消費電力を減らすために、ゼロ値に対応するデータワードの部分を無視またはスキップすることができる。

データを読み取るおよび書き込むことは、コンピューティングシステムの大量の資源（例えば、ハードウェアおよびソフトウェア）を使用し得る。更に、読取りおよび書込み動作を実施するためにメモリにアクセスすることは、それぞれのコンピューティングシステムの資源による大量の消費電力を必要とし得る。例えば、データを読み取るまたは書き込むためにメモリにアクセスすることは、要求されたまたは受信されたデータの全てを処理するために、それぞれの回路類で大量の電力を必要とし得る。

しかしながら、データは、スパース性のレベルを含むことができるもしくはそれによって特徴付けることができ、重要でない、無価値の、もしくはデータを含まない可能性がある部分を含むことができる。例えば、データは、メモリに読み出されるまたは書き込まれる必要がないゼロバイト値に対応する（例えば、それぞれの部分に重要データがない）部分を含むことができる。したがって、要求されたまたは受信されたデータの全てを処理することによって、回路類は、重要なデータ（例えば、ゼロでない値を有するバイト部分）およびデータワードの重要でないデータまたはスパース部分（例えば、ゼロ値を有するバイト部分）を読み取るおよび書き込むために、不必要な量の電力およびシステム資源を使用することがある。

アプリケーションを処理するニューラルネットワークにおいて、データのある特定のタイプおよび／またはソースが、スパースコンテンツまたはデータを有するものとして特徴付けられ得る。本明細書に記載の方法、システムおよびデバイスは、それぞれのデータワードのスパース性を決定されることによって、メモリにアクセスするための電力使用量を減らすことができる。例えば、回路類は、ゼロでないバイト値を含むデータワードの部分およびゼロバイト値を含むデータワードの部分を決定することができる。バイト値は、データのバイトの（任意の既定義数または長さのビットの）値を指すことができ、データのバイト内の全てのビットの集合的価値を示すことができる。ゼロバイト値を有するバイトは、バイト内の全てのビットがゼロ（「０」）、低いまたはヌルであることを示すことができる。ゼロでないバイト値を有するバイトは、ビットのうちの少なくとも１つが高い、１であるまたは０でないなど、バイト内の全てのビットがゼロ（「０」）、低いまたはヌルではないことを示すことができる。

メモリ（例えば、スタティックランダムアクセスメモリ（ＳＲＡＭ））は、複数のスライスを有するように構成することができる、または複数のスライスへと分割することができる。例えば、一実施形態において、データワードは、８つの１バイトデータ値を有する６４ビットワードを含むことができる。メモリは、例えば、８ビットの幅を有する１ビットマスクスライス、３２ビットの幅を有する第１のスライス（例えば、左のスライス）、および３２ビットの幅を有する第２のスライス（例えば、右のスライス）を含むことができるが、これに限定されない、複数のスライス（例えば、３つのスライス）へと構成するまたは（例えば、論理的にもしくは実質的に）区画化することができる。ゼロでないバイト値を有する部分が第１のスライスの第１の端で開始する、およびゼロバイト値を有するデータワードの部分が、ゼロでないバイト値を有する部分の後に、それに続いて、またはそれに次いで格納されるように、回路類は、データワードを再編成することができる。

例えば、新しいデータワードを書き込むとき、ビットマスクを生成することができ、ビットマスクの各ビットは、データワードのバイトがゼロでないバイト値に対応するかまたはゼロバイト値に対応するかを示す。いくつかの実施形態では、ビットマスクは、１バイトのビットの半分（例えば、４ビット）、または１バイトのうちの他の端数、またはデータの所定の数の（１つまたは複数の）バイトがゼロでない値またはゼロ値に対応することを示すビットマスクのビットと生成することができる。回路類は、第１のスライスの第１の端（例えば、左端、左部分）または他の所定の部分で開始するゼロでないバイト値を書き込むことができる。読取り動作のために、回路類は、データワードに対応するビットマスクを取得し、ゼロでないバイト値であるデータワードのバイトの数をチェックすることができる。回路類は、第１のスライスの第１の端（例えば、左端、左部分）または他の所定の部分で開始するゼロでないバイト値を読み取ることができる。

いくつかの実施形態では、ゼロバイト値は、書込みまたは読取り動作中に無視またはスキップすることができる。例えば、回路類は、いくつかのゼロでないバイト値が第１のスライスのサイズ以下であるかを決定することができる。いくつかのゼロでないバイト値が第１のスライスのサイズ以下である場合、回路類は、ゼロバイト値の書込みまたは読取り動作を無視またはスキップすることができる。いくつかのゼロでないバイト値が、第１のスライスのサイズより大きい場合、回路類は、ゼロバイト値およびゼロでないバイト値の書込みまたは読取り動作のために少なくとも第１のおよび第２のスライスにアクセスすることができる。

ここで図２Ａ～図２Ｂを参照すると、ニューラルネットワークアクセラレータ（例えば、図１ＡのＡＩアクセラレータ１０８）においてスパースデータを読み取るおよび書き込むためのシステムの実施形態が、示されている。概要では、図２Ａは、データワード２２０をメモリ２１０に書き込むためのシステムを示す。システムは、読取りおよび書込み動作のためにアクセスするためのメモリ２１０を有する回路類２０２を含むことができる。メモリ２１０は、複数のスライス２０４へと区画化または構成することができ、それぞれのスライスは所定のサイズ２０８または記憶容量を有する。回路類２０２は、データワード２２０のバイト２２２を書き込むまたはデータワード２２０のバイト２２２を読み取るために、メモリ２１０のスライス２０４にアクセスすることができる。

回路類２０２は、図１Ａに関して前述したプロセッサ１２４などの、しかしこれに限定されない、プロセッサを含むことができる。回路類２０２は、図１Ｄに関して前述したコンピューティングシステム１５０の構成要素または部分であることができる。メモリ２１０は、スタティックランダムアクセスメモリ（ＳＲＡＭ）または任意の他のタイプのメモリ、記憶ドライブまたは記憶レジスタを含むことができる。いくつかの実施形態では、メモリ２１０は、図１Ａ～図１Ｂの記憶デバイス１２６または図１Ｄのストレージ１５８を含むことができる、またはそれと同じであるもしくは実質的に類似することができる。メモリ２１０は、複数のスライス２０４ａ～２０４ｎへと区画化することができる。スライス２０４は、それぞれ、メモリ２１０の一部分またはセグメント、およびメモリ２１０のアドレスのうちの１つもしくは範囲に対応することができる。スライス２０４は、メモリ２１０の合計サイズより小さいまたは小さいサイズを有することができる。例えば、メモリ２１０は、複数のビットに対応するサイズまたはアクセスサイズ２１２を含むまたは有することができる。それぞれのスライス２０４は、メモリのアクセスサイズ２１２より小さいサイズ２０８を有することができる。

各スライス２０４のビット容量またはバイト容量は、メモリ２１０のビット容量またはバイト容量より小さくなり得る。いくつかの実施形態では、スライス２０４は、同じサイズ２０８を有する（例えば、同じビットまたは記憶容量を有する）ことができる。いくつかの実施形態では、１つまたは複数のスライス２０４は、１つまたは複数の他のまたは異なるスライス２０４（例えば、異なるビットまたは記憶容量）のサイズ２０８とは異なるサイズ２０８を有することができる。メモリ２１０は、非限定的例として、２つのスライス２０４ａ～２０４ｂを含むことができる。メモリ２１０は、例えば、３つのスライス２０４ａ～２０４ｃを含むことができる。メモリ２１０は、４つ以上のスライス２０４ａ～２０４ｎを含むことができる。

いくつかの実施形態では、メモリ２１０は、ビットマスクスライス２０４ｃを含むことができる。ビットマスクスライス２０４ｃは、ビットマスク２３０を格納することができる。いくつかの実施形態では、ビットマスクスライス２０４ｃは、異なるスライス（例えば、左のスライス、第１のスライス）の部分であることができる。例えば、回路類２０２は、別個のまたは独立したビットマスクスライス２０４ｃを有する代わりに、データワード２２０のビットマスク２３０に対応するビットマスクインジケータを格納することができる。ビットマスク２３０は、データワード２２０のプロパティまたはプロファイルを表すことができる。ビットマスク２３０は、複数のビット２３２を含むことができ、各ビットはデータワード２２０の少なくとも１つのバイト部分２２２に対応する。例えば、ビットマスクのビット２３２は、データワード内のデータワードの少なくとも１つのバイト２２２の位置（例えば、データワードの他のバイト２２２の位置に対する）を識別することができる。

メモリ２１０は、カウンタ２３４を含むことができる。カウンタ２３４は、母集団カウント（例えば、ビットマスク内のゼロでないビットの数を数えるために実装されたビットカウンタ）を含むまたはそれに対応することができる。カウンタ２３４は、ゼロでないバイト値を有するデータワード２２０のバイト２２２の数に対応する（または、示す）値を含むことができる。例えば、カウンタ２３４の値は、データワード２２０のゼロでないバイト値の数と同じまたは同等であることができる。

いくつかの実施形態では、図２Ａに示すように、回路類２０２は、複数のバイト２２２またはバイト部分２２２を有するデータワード２２０を受信することができる。バイト部分２２２は、ゼロでないバイト値またはゼロバイト値を含むことができる。例えば、それぞれのバイト部分２２２は、複数のビット（例えば、８ビット）を含むことができる。いくつかの実施形態では、それぞれのバイト部分２２２のビットの値は、ゼロでないバイト値（例えば、１）を含む、またはゼロでないバイト値（例えば、１）に結局もしくは合計してなることができる。いくつかの実施形態では、それぞれのバイト部分２２２のビットの値は、ゼロバイト値（例えば、０）を含む、またはゼロバイト値（例えば、０）に結局もしくは合計してなることができる。

回路類２０２は、ゼロでないバイト値を有するバイト部分２２２がともにグループ化またはともにパックされてデータワード２２０の修正されたデータワードまたはパックされた表現２２４を形成するように、バイト部分２２２を修正する、再編成する、並べ替える、並べ直すまたは他の方法で再配置することができる。回路類２０２は、ゼロバイト値を有するバイト部分２２２がともにグループ化されるまたはともにパックされるように、バイト部分２２２を修正または再配置することができる。

回路類２０２は、データワードの対応するバイト部分２２２がゼロでないバイト値を含むかまたはゼロバイト値を含むかを示すために、ビットマスク２３０のビット２３２を生成するまたは投入することができる。いくつかの実施形態では、回路類は、ビットマスク２３０のビット２３２を生成または投入して、データワード２２０のビットまたはバイトのグループ（例えば、それぞれのバイト部分２２２のビットの半分（例えば、４ビット）、またはそれぞれのバイト部分２２２のいくらかの他の端数、サブセットもしくはいくつかのビット、または所定の数のバイト部分２２２）がゼロでない値またはゼロ値を有することをそれぞれ示すことができる。ゼロでない値を含むバイト部分２２２の総量または数を示すデータワード２２０のカウンタ２３４または母集団カウント２３４が、決定され得る。例えば、対応するバイト部分２２２が、ゼロでないバイト値を含む場合、回路類２０２は、「１」の値をビットマスク２３０のビット２３２に割り当てることができ、そして、対応するバイト部分２２２がゼロバイト値を含む場合、回路類は、「０」の値をビットマスク２３０のビット２３２に割り当てることができる。プロセッサは、ビットマスク２３０の全ての割り当てられた値を（算術的に）合計してまたは加えて、カウンタ２３４に対応する合計値を提供することができる。回路類２０２は、データワード２２０を書き込むかまたはデータワード２２０をスキップする、無視する、もしくは他の方法で書き込まないかを決定するために、カウンタ２３４を書込み閾値２５０と比較することができる。例えば、データワード２２０が、ゼロの母集団カウント２３４を有するまたはゼロでないバイト値を含まない場合、回路類２０２は、データワード２２０をスキップする、無視する、または他の方法でメモリに書き込まないことが可能である。１つの実施形態において、書込み閾値は０であることができる。いくつかの実施形態では、カウンタ２３４が書込み閾値を超える場合、書込み動作が実施される。データワード２２０の母集団カウント２３４が、書込み閾値２５０より大きい場合、回路類２０２は、母集団カウント２３４をスライス２０４のアクセスサイズ閾値２５２と比較することができる。いくつかの実施形態では、アクセスサイズ閾値２５２は、複数のスライス２０４の第１のスライス２０４のサイズ２０８に対応することができる。アクセスサイズ閾値２５２は、複数のスライス２０４のうちのいくつのスライス２０４がデータワード２２０をメモリ２１０に書き込むために使用されることになるかを決定するために、使用することができる。母集団カウント２３４が、第１のスライス２０４のアクセスサイズ閾値２５２以下である場合、回路類２０２は、非バイト値を有するバイト部分２２２を複数のスライス２０４のうちの第１のスライス２０４に書き込むことができる。回路類２０２は、ゼロでないバイト値を有するバイト部分２２２を第１のスライス２０４の第１の側２０６の第１の位置で開始する第１のスライス２０４に書き込むことができ、データワード２２０の最初のフォーマットまたは構成におけるこれらのバイト部分２２２の順序に対応する（例えば、互いに対して同じ順序の）、互いに当接する順序でこれらのバイト部分２２２を書き込むことができる。

母集団カウント２３４が、第１のスライス２０４のアクセスサイズ閾値２５２より大きい場合、回路類２０２は、非バイト値を有するバイト部分２２２を複数のスライス２０４のうちの第１のスライス２０４および第２のスライス２０４、または複数のスライス２０４のうちの複数のスライス２０４に書き込むことができる。例えば、回路類２０２は、第１のスライスがいっぱいになるまたは容量に達するまで、非バイト値を有するバイト部分２２２を第１のスライス２０４の第１の側２０６の第１の位置で開始して第１のスライス２０４に書き込むことができ、データワード２２０の最初のフォーマットにおけるバイト部分２２２の順序に対応する順序で、第１のスライス２０４を越えて第２のスライス２０４または複数のスライス２０４に残りのバイト部分２２２を書き込むことができる。これは、データワード２２０のパッキングプロセスと呼ぶことができる。

いくつかの実施形態では、回路類２０２は、ビットマスク２３０において示されるものとしてのゼロバイト値を有するデータワード２２０のバイト部分２２２を無視する、スキップする、迂回する、または書き込まないことが可能である。回路類２０２は、ビットマスク２３０において示されるものとしてのゼロバイト値を有するデータワード２２０のバイト部分２２２のうちのいくつかを無視する、スキップする、迂回するまたは書き込まないことが可能であり、（例えば、スライス２０４を完全に投入するために）ゼロでないバイト値を有する少なくとも１つのバイト部分２２２を有するスライス２０４にゼロバイト値を有するデータワード２２０のバイト部分２２２のうちの１つまたは複数を書き込むことができる。いくつかの実施形態では、回路類２０２は、ビットマスク２３０において示されるものとしてのゼロバイト値を有するデータワード２２０のそれぞれのバイト部分２２２を無視する、スキップするまたは書き込まないことが可能である。例えば、回路類２０２は、ゼロでないバイト値を有するバイト部分２２２のみを書き込むことおよびゼロバイト値を有するバイト部分２２２を無視するまたは書き込まないことによって、書込み動作の電力使用量を減らすことができる。いくつかの実施形態では、回路類２０２は、ゼロでないバイト値を有するバイト部分２２２のみを書き込むことおよびゼロバイト値を有するバイト部分２２２を無視するまたは書き込まないことによって、書込み動作のための回路類２０２のエネルギー消費値または電力使用量を減らすことができる。

ここで図２Ｂを参照すると、メモリ２１０からデータワード２２０を読み取るためのシステムが、提供される。データワード２２０は、図２Ａにおいてメモリ２１０に書き込まれたデータワード２２０のパックされた表現２２４を含むことができる。例えば、データワード２２０のパックされた表現２２４は、ともにグループ化されたまたはメモリ２１０の１つまたは複数のスライス２０４において順番に書き込まれたゼロでないバイト値を有するバイト部分２２２を有する修正されたデータワード２２０を含むまたはそれに対応することができる。メモリ２１０からデータワード２２０のパックされた表現２２４を読み取るために、回路類は、ビットマスク２３０を使用して、ゼロでないバイト値を有するデータワード２２０のバイト部分２２２およびゼロバイト値を有するデータワードのバイト部分２２２を決定することができる。例えば、回路類２０２は、ビットマスク２３０にアクセスし、個々のビット２３２の値を使用してデータワードの対応するバイト部分２２２の値を決定することができる。回路類２０２は、データワード２２０の母集団カウント２３４を書込み閾値２５０と比較して、データワード２２０がゼロでないバイト値を有する任意のバイト部分２２２を含むかを決定することができる。回路類２０２は、データワード２２０の母集団カウント２３４をアクセスサイズ閾値２５２と比較して、メモリ２１０内にデータワード２２０のバイト部分２２２が書き込まれたスライス２０４がいくつあるかを決定することができる。

回路類２０２は、メモリ２１０の１つまたは複数のスライス２０４に格納されたデータワード２２０のパックされた表現２２４を読み取ることができる。例えば、回路類２０２は、第１のスライス２０４を介してまたは複数のスライス２０４（例えば、第１のスライスおよび第２のスライス）を介してメモリ２１０に格納されたデータワード２２０のパックされた表現２２４を読み取ることができる。パックされた表現２２４は、データワード２２０の第１の側２０６の端で開始する格納されたゼロでないバイト値（例えば、左側または最も重要なビット部分）およびデータワード２２０の残余内に格納された任意のゼロバイト値（例えば、右側または最も重要でないビット部分）を有するバイト部分２２２を含むことができる。回路類２０２は、データワード２２０がメモリ２１０に書き込まれる前に受信されたとき、データワード２２０のパックされた表現２２４をアンパックして、最初のフォーマットまたはデータワード２２０のフォーマットに対応する最初の順序（バイト部分２２２の）にデータワード２２０を復元することができる。例えば、回路類２０２は、ビットマスク２３０を使用してデータワード２２０のそれぞれのバイト部分２２２の最初の位置を決定することができる。回路類２０２は、ビットマスク２３０を使用して、データワード２２０のバイト部分２２２がゼロでないバイト値を含むかまたはゼロバイト値を含むかを決定することができる。回路類２０２は、ビットマスク２３０のビット２３２の順序に基づいてデータワード２２０を最初のフォーマットにリードバック、アンパックまたは再構築することができる。

ここで図２Ｃを参照すると、ニューラルネットワークアクセラレータにおいてスパースデータを読み取るおよび書き込むためのシステム２００の一実施形態が示されている。システム２００は、読取りおよび書込み動作のために、アクセスするためのメモリ２１０を有する回路類２０２を含む。図２Ｃに示す実施形態では、メモリ２１０は、３つのスライス、第１のスライス２０４ａ、第２のスライス２０４ｂおよびビットマスクスライス２０４ｃ、へと分割、区画化、または構成される。他の実施形態では、メモリ２１０は、３つより少ないスライスまたは４つ以上のスライス２０４を含むことができる。回路類２０２は、メモリ２１０のスライス２０４にアクセスしてデータワード２２０のバイト２２２を書き込むまたはデータワード２２０のバイト２２２を読み取ることができる。

それぞれのスライス２０４は、信号を受信または送信するために、複数のポート２６０を含むことができる。例えば、スライス２０４は、データワード２２０の部分を受信する、書き込むおよび／または格納する、あるいは書込み動作を実施するために、第１のポート２６０ａまたは書込みポートを含むことができる。スライス２０４は、データワード２２０のアドレスデータおよび／またはデータワード２２０のバイト部分２２２を受信するために、第２のポート２６０ｂまたはアドレスポートを含むことができる。スライス２０４は、データワード２２０の部分を読み出す、または読取り動作を実施する（例えば、メモリスライスのコンテンツまたはバイトを出力する）ために、第３のポート２６０ｃまたは読取りポートを含むことができる。いくつかの実施形態では、スライス２０４は、読取り動作のためにそれぞれのスライス２０４を有効にするために、第４のポート２６０ｄまたは読取り有効化ポートを含むことができる。いくつかの実施形態では、スライス２０４は、書込み動作のためにそれぞれのスライス２０４を有効にするために、第５のポート２６０ｅまたは書込み有効化ポートを含むことができる。

回路２０２は、制御信号をスライス２０４に送信または提供してメモリ２１０の読取りまたは書込み動作を開始するために、複数の回路または信号要素を含むことができる。例えば、回路２０２は、それぞれのラッチ要素２６２に提供された入力に応答する読取りおよび書込み動作のためにスライス２０４を有効にするおよび無効にするために、複数のレジスタまたはラッチ要素２６２を含むことができる。回路２０２は、アドレス信号入力２６８、データワード２２０またはデータワード２２０の部分をメモリ２１０に書き込むための書込み入力２７０、およびデータワード２２０またはデータワードの部分をメモリ２１０から提供するための読取り出力２７２を含むことができる。アドレス信号入力２６８は、ビットマスクスライス２０４ｃのアドレスポート２６０ｂ、少なくとも１つのラッチ２６２を介する第１のスライス２０４ａのアドレスポート２６０ｂ、および少なくとも１つのラッチ２６２を介する第２のスライス２０４ｂまたは複数のスライス２０４の第２のポート２６０ｂ（例えば、アドレスポート）と結合することができる。

書込み動作のために、回路２０２は、回路２０２の書込み入力２７０を介して書込み信号を受信することができる。いくつかの実施形態では、書込み信号は、書込み命令、１つまたは複数のスライス２０４に書き込まれることになるデータワード２２０および／または１つまたは複数のスライス２０４に書き込まれることになるデータワード２２０の部分を含むことができる。書込み入力２７０は、スパースカウンタ２３４ａの入力およびパッキング要素２６４の入力と結合することができる。スパースカウンタ２３４ａは、ゼロでないバイト値を有するデータワード２２０のバイト部分２２２の数を数えるまたは決定すること、およびカウンタ信号を生成して書込み動作のために１つまたは複数のスライスを有効にすることができる。例えば、スパースカウンタ２３４ａは、回路２０２の書込み入力２７０からの書込み信号に応答して書込みカウンタ信号を生成することができる。スパースカウンタ２３４ａは、ゼロでないバイト値を有するデータワード２２０のバイト部分２２２の番号の数に対応するカウンタ値を含むことができる。いくつかの実施形態では、スパースカウンタ２３４ａのカウンタ値は、ゼロでないバイト値を有するデータワード２２０の各バイト部分２２２について、例えば、１の値だけ、増やすことができる。スパースカウンタ２３４ａは、カウンタ値が書込み閾値より大きい（例えば、ゼロより大きい）ことに応答して書込みカウンタ信号を第１のスライス２０４ａの第５のポート２６０ｅ（例えば、書込み有効化ポート）に提供することができる。スパースカウンタ２３４ａは、カウンタ値が第１のスライス２０４ａのアクセスサイズ閾値より大きいことに応答して書込みカウンタ信号を第２のスライス２０４ｂの第５のポート２６０ｅ（例えば、書込み有効化ポート）にまたは複数のスライス２０４に提供することができる。スパースカウンタ２３４ａは、マスク信号をビットマスクスライス２０４ｃにおよび／またはデータワード２２０のビットマスク２３０値を示すパッキング要素２６４に提供することができる。

パッキング要素２６４は、書き込まれることになるそれぞれのデータワード２２０はゼロでないバイト値を有する１つまたは複数のバイト部分を含むことを示すスパースカウンタ２３４ａからのマスク信号、および回路書込み入力２７０からの書込み信号に応答して、パッキング信号を生成することができる。パッキング要素２６４は、それぞれのスライス２０４の書込み動作を開始または実施するために、パッキング信号および／または書込み信号をスライス２０４の第１のポート２６０ａ（例えば、書込みポート）に提供することができる。いくつかの実施形態では、パッキング信号は、パッキング信号を受信するそれぞれのスライス２０４に書き込まれることになるデータワード２２０の１つまたは複数のバイト部分２２２を含むことができる。

読取り動作のために、ビットマスクスライス２０４ｃは、読取り信号を生成し、読取り信号を母集団カウンタ２３４ｂおよび／またはアンパッキング要素２６６に提供することができる。例えば、ビットマスクスライス２０４ｃの第３のポート２６０ｃ（例えば、読取りポート）は、少なくとも１つのレジスタまたはラッチ要素２６２を介して母集団カウンタ２３４ｂの入力およびアンパッキング要素２６６と結合することができる。母集団カウンタ２３４ｂは、少なくとも１つのラッチ要素２６２を介するビットマスクスライス２０４ｃの第３のポート２６０ｃ（例えば、読取りポート）からの読取り信号に応答して読取りカウンタ信号を生成することができる。母集団カウンタ２３４ｂは、ゼロでないバイト値を有するデータワード２２０のバイト部分２２２の番号の数に対応するカウンタ値を含むことができる。いくつかの実施形態では、母集団カウンタ２３４ｂのカウンタ値は、ゼロでないバイト値を有するデータワード２２０の各バイト部分２２２について、例えば、１の値だけ、増やすことができる。いくつかの実施形態では、母集団カウンタ２３４ｂのカウンタ値は、スパースカウンタ２３４ａのカウンタ値と同じであり得る。母集団カウンタ２３４は、カウンタ値が読取り閾値より大きい（例えば、ゼロより大きい）ことに応答して、読取りカウンタ信号を第１のスライス２０４ａの第４のポート２６０ｄ（例えば、読取り有効化ポート）に提供することができる。

母集団カウンタ２３４は、カウンタ値が第１のスライス２０４ａのアクセスサイズ閾値より大きいことに応答して、読取りカウンタ信号を第２のスライス２０４ｂの第４のポート２６０ｄ（例えば、読取り有効化ポート）にまたは複数のスライス２０４に提供することができる。読取りカウンタ信号は、読取り動作をそれぞれのスライス２０４が開始することを可能にすることができる。第１のスライス２０４ａの第３のポート２６０ｃ（例えば、読取りポート）は、データワード２２０のパックされた表現２２４または第１のスライス２０４ａに格納されたデータワード２２０のパックされた表現２４の部分をアンパッキング要素２６６に提供するために、アンパッキング要素２６６の入力と結合することができる。第２のスライス２０４ｂまたは複数のスライス２０４の第３のポート２６０ｃ（例えば、読取りポート）は、第２のスライス２０４ｂまたは複数のスライス２０４に格納されたデータワード２２０のパックされた表現２２４の部分をアンパッキング要素２６６に提供するために、アンパッキング要素２６６の少なくとも１つの入力と結合することができる。アンパッキング要素２６６は、最初のフォーマットでまたはそれぞれのデータワード２２０がメモリ２１０に書き込まれる前のフォーマットでデータワード２２０を読み出すために、データワード２２０のパックされた表現２２４をアンパック、再構築または修正するように構成することができる。アンパッキング要素２６６の出力は、最初のフォーマットでまたはそれぞれのデータワード２２０がメモリ２１０に書き込まれる前のフォーマットでデータワード２２０を提供するために、回路２０２の読取り出力２７２と結合することができる。

ここで図２Ｄを参照すると、第１のハイブリッドモード書込み動作が提供される。図２Ｄでは、書込み動作は、マルチプレクサ２８０を使用してデータワード２２０をメモリ２１０の複数のスライス２０４の第１のスライス２０４に書き込むことを含むことができる。マルチプレクサ２８０は、ビットマスク２３０、データワード２２０のパックされた表現２２４、データワード２２０、およびゼロでないバイト値を有するデータワード２２０のバイト部分２２２のうちの２つ以上の組み合わせなどの、しかしこれに限定されない、複数の入力を含むことができる。マルチプレクサ２８０は、複数の入力を受信し、データワード２２０のパックされた表現２２４（例えば、多重化されたパックされた表現）に対応するまたはそれを表す単一の出力を提供することができる。例えば、いくつかの実施形態では、マルチプレクサ２８０は、ビットマスク２３０またはビットマスク２３０のビット２３２を受信することができ、データワード２２０のパックされた表現２２４は、単一の出力、ビットマスク２３０を含む、それに対応する、またはそれを表す多重化されたパックされた表現２２４、およびデータワード２２０のパックされた表現２２４を生成することができる。回路類２０２は、データワード２２０の多重化されたパックされた表現２２４を複数のスライス２０４の第１のスライス２０４ａに書き込むことができる。

したがって、回路類２０２は、ビットマスク２３０を第１のスライス２０４ａに書き込み、ビットマスク２３０の個々のまたは別個のスライスを確立しないことが可能である。

いくつかの実施形態では、回路類２０２は、ビットマスク２３０を使用して、データワード２２０の母集団カウント２３４を決定することができる。回路類２０２は、母集団カウント２３４を複数のスライス２０４の第１のスライス２０４ａのアクセスサイズ閾値２５２と比較することができる。母集団カウント２３４が、第１のスライス２０４ａのアクセスサイズ閾値２５２以下である場合、回路類２０２は、第１のスライス２０４ａの第１の側２０６の第１の位置または端で開始する第１のスライス２０４ａにデータワード２２０の多重化されたパックされた表現２２４を書き込むことができる。母集団カウント２３４が第１のスライス２０４ａのアクセスサイズ閾値２５２より大きい場合、回路類２０２は、第１のスライス２０４ａの第１の側２０６の第１の位置または端で開始する第１のスライス２０４ａにデータワード２２０の多重化されたパックされた表現２２４を書き込み、データワード２２０の残りのバイト部分２２２を複数のスライス２０４のうちの第２のスライス２０４ｂおよび／または他のスライス２０４に書き込むことができる。

ここで図２Ｅを参照すると、第１のハイブリッドモード読取り動作が提供される。図２Ｅでは、読取り動作は、マルチプレクサ２８０を使用してデータワード２２０をアンパックおよび出力することを含むことができる。いくつかの実施形態では、回路類２０２は、データワード２２０がパックされたか否かを決定することができる。データワード２２０が、パックされた場合、回路類２０２は、データワード２２０のビットマスク２３０にアクセスして、ゼロでないバイト値を有するデータワード２２０内のバイト部分２２２を識別することができる。回路類２０２は、複数の入力をマルチプレクサ２８０に提供して、データワード２２０を最初のフォーマットにアンパックまたは再構築することができる。例えば、回路類２０２は、第１のスライス２０４ａまたは複数のスライス２０４からのマルチプレクサへの入力としてデータワード２２０のパックされた表現２２４を提供することができる。

回路類２０２は、アンパックされたデータワード２２０をマルチプレクサ２８０への入力として提供することができる。アンパックされたデータワード２２０は、データワード２２０のパックされた表現２２４が書き込まれた第２のスライス２０４ｂまたは異なるスライス２０４からアクセスすることができる。回路類２０２は、メモリ２１０に書き込まれたときにそれぞれのデータワード２２０がパックされたか否かの指示をマルチプレクサ２８０指示に提供することができる。マルチプレクサ２８０を使用する回路類２０２は、データワード２２０が受信されたときにまたはデータワード２２０がメモリ２１０に書き込まれる前にバイト部分２２２の最初の位置に対応するそれらそれぞれの位置にゼロでないバイト値を有するバイト部分２２２およびゼロバイト値を有するバイト部分２２２を含むようにデータワード２２０をアンパックまたは再構築することができる。データワード２２０のそれぞれのバイト部分２２２が、ビットマスク２３０によって示された位置にあるように、回路類２０２は、データワード２２０のパックされた表現２２４をアンパックすることができる。

ここで図３Ａ～図３Ｂを参照すると、ニューラルネットワークアクセラレータのためのスパースデータを読み取るおよび書き込むための方法３００が提供される。概要では、方法３００は、複数のスライスを確立すること（３０２）、マスクにアクセスすること（３０４）、読取り動作か書込み動作かを決定すること（３０６）、データワードを修正すること（３０８）、バイト値を閾値と比較すること（３１０）、第１のスライスに書き込むこと（３１２）、第２のスライスまたは複数のスライスに書き込むこと（３１４）、バイト値を決定する（３１６）、バイト部分を読み取ること（３１８）、パックされた表現を修正すること（３２０）、およびデータワードを提供すること（３２２）を含むことができる。これらの動作のうちの１つまたは複数は、少なくとも１つのプロセッサおよび／または回路類によって実施することができる。

動作３０２において、いくつかの実施形態では、複数のスライス２０４を確立することができる。いくつかの実施形態では、回路類２０２またはプロセッサは、データワード２２０のアクセスサイズ２１２を有するメモリ２１０の複数のスライス２０４を確立することができる。メモリ２１０は、２つ以上のスライス２０４を含むように分割または区画化することができる。例えば、第１のスライス２０４ａを確立することができ、第２のスライス２０４ｂを確立することができる。いくつかの実施形態では、ビットマスクスライス２０４ｃを確立することができる。ビットマスクスライス２０４ｃは、第１のスライス２０４ａおよび第２のスライス２０４ｂと比較してメモリ２１０の別個の部分またはセグメントであり得る。いくつかの実施形態では、ビットマスクスライス２０４ｃは、第１のスライス２０４ａまたは第２のスライス２０４ｂの部分であるまたはそれと含まれることができる。メモリのスライス２０４の数は、変化することができる。いくつかの実施形態では、メモリ２１０は、３つのスライス２０４を含むことができる。いくつかの実施形態では、メモリ２１０は、４つ以上のスライス２０４を含むことができる。

いくつかの実施形態では、複数のスライス２０４のうちの第１のスライス２０４は、メモリ２１０においてデータワード２２０の第１の側２０６、第１の部分または第１のセグメントを格納するまたは提供するように構成することができる。第１の側２０６は、データワード２２０よりも小さいサイズを有することができる。例えば、第１の側２０６は、データワード２２０のビットの合計サイズまたは長さより小さいサイズを有することができる。第１の側２０６は、データワード２２０の１つまたは複数のバイト２２２に対応することができる。一実施形態において、第１の側２０６は、データワード２２０を形成するバイト２２２の総数よりもデータワード２２０の少ないバイト２２２を含むことができる。

いくつかの実施形態では、スライス２０４は、同じサイズ２０８または容量をそれぞれ有して、確立することができる。いくつかの実施形態では、１つまたは複数のスライス２０４は、１つまたは複数の他のスライス２４０と比較して異なるサイズ２０８または容量を有して、確立することができる。例えば、第１のスライス２０４ａおよび第２のスライス２０４ｂは、第１のサイズ２０８を有して、形成することができ、ビットマスクスライス２０４ｃは、第１のサイズ２０８とは異なる第２のサイズ２０８を有して、形成することができる。第１のスライス２０４ａは、第１のサイズを有して、形成することができ、第２のスライス２０４ｂは、第１のサイズ２０８とは異なる第２のサイズ２０８を有して、形成することができ、ビットマスクスライス２０４ｃは、第１のサイズ２０８および第２のサイズ２０８とは異なる第３のサイズ２０８を有して、形成することができる。

いくつかの実施形態では、スライス２０４のサイズ２０８は、回路類２０２のエネルギー消費値または電力使用量に部分的に基づいて決定することができる。例えば、１つまたは複数のスライス２０４のサイズ２０８は、１つもしくは複数のデータワード２２０を書き込むおよび／または１つもしくは複数のスライス２０４を使用する１つもしくは複数のデータワード２２０を読み取る際にアクセス当りの最低エネルギー値（例えば、ピコジュール／バイト（ｐＪ／バイト））あるいは回路類２０２の電力使用量の対応する／期待される削減を実現するサイズ２０８に部分的に基づいて、決定することができる。アクセス当りのエネルギー値は、データワード２２０を読み取るまたはメモリ２１０のスライス２０４に書き込むためのジュール／バイト（例えば、ｐＪ／バイト）でのエネルギー値に対応することができる。アクセス当りのエネルギー値は、データワード２２０を読み取るまたはメモリ２１０のスライス２０４に書き込むための回路類２０２の電力使用量の削減を決定するまたは示すために使用することができる。

回路類２０２は、データワード２２０の数、メモリ２１０のアクセスサイズ２１２もしくは容量および／または各データワード２２０のサイズに部分的に基づいてメモリ２１０のアクセス当りの最低エネルギー値を提供する、スライス２０４のサイズ２０８、またはそれらの範囲もしくはサイズ２０８を決定することができる。いくつかの実施形態では、回路類２０２は、メモリ２１０のアクセス当りの最低エネルギー値を提供するおよびそれぞれのサイズ２０８を有するスライス２０４を確立する、スライス２０４のサイズ２０８、または対応する範囲もしくはサイズ２０８を選択することができる。いくつかの実施形態では、回路類２０２は、電力使用量値の目標または所定の削減に基づいて、スライス２０４のサイズ２０８、またはそれらの範囲もしくはサイズ２０８を選択し、電力使用量値の目標または所定の削減を実現するそれぞれのサイズ２０８を有するスライス２０４を確立することができる。

ビットマスクスライス２０４ｃは、メモリ２１０の他のスライス２０４とは異なるサイズ２０８を有して、確立することができる。例えば、ビットマスクスライス２０４ｃは、メモリ２１０の第１のスライス２０４ａおよび第２のスライス２０４ｂとは異なるサイズ２０８を有して、確立することができる。ビットマスクスライス２０４ｃのビット２３２のサイズ２０８または数は、データワード２２０のバイト２２２の数に少なくとも部分的に基づいて、選択することができる。いくつかの実施形態では、ビットマスクスライス２０４ｃのビット２３２のサイズ２０８または数は、データワード２２０のバイト２２２の数と等しくてもよい。６４ビットのデータワード２２０を有する１つの実施形態で、ビットマスクスライス２０４ｃのサイズ２０８は、８ビットであり得る。ビットマスク２３０は、ビットマスクスライス２０４ｃにおいて格納するまたは保持することができる。ビットマスク２３０は、ビットマスクスライス２０４ｃのサイズに等しいまたは対応するいくつかのビット２３２を含むことができる。ビットマスク２３０の各ビット２３２の各値は、データワード２２０の少なくとも１つのバイト値２２２に対応するまたはそれを表すことができる。例えば、ビットマスク２３０の第１のビット２３２の第１の位置または第１の値は、データワード２２０の第１のバイト２２２に対応するまたはそれを表すことができる。いくつかの実施形態では、ビットマスク２３０の各ビット２３２の値（例えば、１、０）は、データワードの対応するバイト２２２の値（例えば、ゼロでないバイト、ゼロバイト）を示すまたは表すことができる。例えば、ビットマスク２３０のビット２３２のゼロでない値（例えば、１）は、データワードの対応するバイト２２２のゼロでないバイト値を示すまたは表すことができ、ビットマスク２３０のビット２３２のゼロ値（例えば、０）は、データワードの対応するバイト２２２のゼロバイト値を示すまたは表すことができる。ビットマスク２３０は、１バイトベースまたは２バイトベースでゼロでないバイト値の位置を識別することができる。例えば、いくつかの実施形態では、ビットマスク２３０のそれぞれのビット２３２は、データワード２２０の単一のバイト２２２を表すことができる。いくつかの実施形態では、ビットマスク２３０のそれぞれのビット２３２は、データワード２２０の２つのバイト２２２を表すことができる。

ここで動作３０４を参照すると、いくつかの実施形態で、マスク２３０は、アクセスすることができる。いくつかの実施形態で、回路類２０２は、ゼロでない値を有するデータワード２２０内のバイト位置２２２またはバイト部分２２２を識別するマスク２３０（例えば、ビットマスク）にアクセスすることができる。回路類２０２は、複数のビット２３２を有するビットマスク２３０にアクセスすることができる。ビットマスク２３０内のそれぞれのビット２３２は、データワード２２０の少なくとも１つのバイト位置２２２に対応するまたはそれを表すことができる。例えば、ビットマスク２３０の第１のビット２３２は、データワード２２０の第１のバイト位置２２２または第１のバイト２２２を表すことができ、ビットマスク２３０の第２のビット２３２は、データワード２２０の第２のバイト位置２２２または第２のバイト２２２を表すことができ、ビットマスク２３０の第Ｎのビット２３２は、データワード２２０の第Ｎのバイト位置２２２または第Ｎのバイト２２２を表すことができる。いくつかの実施形態では、ビットマスク２３０内のそれぞれのビット２３２は、データワード２２０の対応するバイト位置におけるバイト２２２の値を表すまたは示すゼロ値（例えば、０）またはゼロでない値（例えば、１）を有することができる。

例えば、ビットマスク２３０の第１のビット２３２の値は、データワード２２０の第１のバイト位置２２２におけるバイト２２２の値を示すことができ、ビットマスク２３０の第２のビット２３２の値は、データワード２２０の第２のバイト位置２２２におけるバイトの値を示すことができ、ビットマスク２３０の第Ｎのビット２３２の値は、データワード２２０の第Ｎのバイト位置２２２におけるバイト２２２の値を示すことができる。回路類２０２は、ビットマスク２３０にアクセスし、ビットマスク２３０の対応するビット２３２の値に基づいてゼロでない値を有するデータワード２２０のバイト位置２２２を決定することができる。回路類２０２は、ビットマスク２３０にアクセスし、ビットマスク２３０の対応するビット２３２の値に基づいてゼロ値を有するデータワード２２０のバイト位置２２２を決定することができる。

ここで動作３０６を参照すると、いくつかの実施形態では、命令または要求が書込み動作のためかまたは読取り動作のためかに関する決定が行われ得る。回路類２０２は、命令または要求が書込み動作のためかまたは読取り動作のためかを決定することができる。書込み動作のために、方法３００は、動作３０８に進むことができる。読取り動作のために、方法３００は動作３１８に進むことができる。

ここで動作３０８を参照すると、いくつかの実施形態では、データワード２２０を修正することができる。いくつかの実施形態では、回路類２０２は、第１の側２０６の端で開始する格納されたゼロでないバイト値、およびデータワード２２０の残余内に格納された任意のゼロバイト値を有するようにデータワード２２０を修正することができる。ゼロでないバイト値を有するバイト部分２２２が、第１の側２０６の第１の端におけるバイト位置に移動または再配置され、ゼロバイト値を有するバイト部分２２２が、ゼロでないバイト値を有する最後のバイト部分２２２の後に移動または再配置されるように、回路類２０２は、データワード２２０を修正することができる。例えば、ゼロでないバイト値を有するバイト部分２２２がゼロバイト値を有するバイト部分２２２の前に置かれるように、回路類は、ゼロでないバイト値を有する最後のバイト部分２２２の後の位置にゼロバイト値を有するバイト部分２２２をデータワード２２０内のそれらの最初の位置（例えば、受信された位置または順序）から移動または再配置することができる。

いくつかの実施形態では、回路類２０２は、パッキングアルゴリズムを実行してデータワード２２０をパックまたは修正することができる。例えば、パッキングアルゴリズムは、ファンイン／アウトレートを含むことができる。

ファンイン／アウトレートは、メモリ２１０またはメモリ２１０の少なくとも１つのスライス２０４内のメモリ位置への接続の数に対応するまたはそれと同等であり得る。回路類２０２は、パッキングアルゴリズムを実行してデータワード２２０のバイト部分２２２をメモリ２１０のスライス２０４内の１つまたは複数のメモリ位置にマップまたはパックすることができる。いくつかの実施形態では、パッキングアルゴリズムは、Ｎ×（Ｎ－ｌ）／２＝１／２Ｎ＾２－Ｎ／２のルーティング複雑性を有することができる。いくつかの実施形態では、第１のバイト部分２２２は、Ｎ対１マッピングを使用しなくてもよい。例えば、第１のＮ／２バイト値がゼロであるとき、回路類は、残りの部分をスライス２０４の第１の側の第１の端にコピーまたはマップすることができる。いくつかの実施形態では、パッキングアルゴリズムは、Ｎ／２×Ｎ／２＋Ｎ／２×（Ｎ／２－ｌ）／２＝３／８Ｎ＾２－Ｎ／４のルーティング複雑性を有することができる。ファンイン／アウトレートは、Ｎ／２と同等であり得る。いくつかの実施形態では、回路類２０２は、独立してＮ／２バイト部分２２２をパックし、それぞれのバイト部分２２２をともに連結することができる。例えば、そのような一実施形態で、パッキングアルゴリズムは、Ｎ／２×Ｎ／２＋Ｎ／２×（Ｎ／２－ｌ）／２＝３／８Ｎ＾２－Ｎ／４のルーティング複雑性を有することができる。ファンイン／アウトレートは、Ｎ／２と同等であり得る。

いくつかの実施形態では、回路類２０２は、互いに関してゼロでないバイト値を有するバイト部分２２２の順序を維持することができる。例えば、ゼロでないバイト値を有するバイト部分２２２が、最初に受信されたものとゼロでないバイト値を有する他のバイト部分２２２に関して同じ順序であるように、回路類２０２は、ゼロ値を有するバイト部分２２２を移動または再配置し、ゼロでない値を有するバイト部分２２２をゼロ値を有する１つまたは複数のバイト部分２２２によって前に占められていた位置に上げることができる。

いくつかの実施形態では、回路類２０２は、互いに関してゼロバイト値を有するバイト部分２２２の順序を維持または変更することができる。例えば、ゼロバイト値を有するバイト部分２２２が、最初に受信されたものとゼロバイト値を有する他のバイト部分２２２に関して同じ順番であるように、回路類２０２は、ゼロ値を有するバイト部分２２２を移動または再配置することができる。例えば、１つの実施形態において、データワード２２０は、ゼロでないバイト値を有する第１のバイト部分２２２、ゼロバイト値を有する第２のバイト部分２２２、ゼロバイト値を有する第３のバイト部分２２２、およびゼロでないバイト値を有する第４のバイト部分２２２を含むことができる。回路類２０２は、データワード２２０を修正して、ゼロでないバイト値を有する第４のバイト部分２２２の後にゼロバイト値を有する第２のバイト部分２２２を移動することができる。回路類２０２は、データワード２２０を修正して、修正されたデータワード２２０内のゼロでないバイト値を有する第４のバイト部分２２２の後に位置する第２のバイト部分２２２の後にゼロバイト値を有する第３のバイト部分２２２を移動することができる。したがって、第１のおよび第４のバイト部分２２２は、最初のデータワード２２０においてそれらが位置した（例えば、第１のバイト部分は第４のバイト部分の前である）ように、修正されたデータワード２２０において互いに関する順序を維持する。第２のおよび第３のバイト部分２２２は、最初のデータワード２２０においてそれらが位置した（例えば、第２のバイト部分は第３のバイト部分の前である）ように、修正されたデータワード２２０において互いに関する順序を維持することができる。いくつかの実施形態では、これらのバイト部分２２２は、同じコンテンツおよび値の全てなので、ゼロバイト値を有するバイト部分２２２の順序は、問題にならない。したがって、回路類２２は、パッキング中に順序を移動するまたは変更することができる（例えば、バイトシフトの全体量を最小限に抑えるために）。

ここで動作３１０を参照すると、閾値と非バイト値の比較を実施することができる。いくつかの実施形態では、回路類２０２は、第１の側２０６の端で開始するいくつかのゼロでないバイト値が第１のスライス２０４の第１のアクセスサイズ２０８以下であるかどうかを決定することができる。回路類２０２は、ビットマスク２３０の母集団カウント２３４を決定することができる。母集団カウント２３４は、データワード２２０のゼロでないバイト値の数を表すまたはそれに対応する値を含むことができる。例えば、ゼロでないバイト値を有する３つのバイト部分２２２を有するデータワード２２０について、データワード２２０の母集団カウント２３４は、３であり得る。ゼロでないバイト値を有する５つのバイト部分２２２を有するデータワード２２０について、データワード２２０の母集団カウント２３４は、５であり得る。

回路類２０２は、母集団カウント２３４を１つまたは複数の閾値と比較して、データワード２２０を書き込むかどうかおよびどのスライス２０４またはスライス２０４にデータワード２２０を書き込むかを決定することができる。いくつかの実施形態では、回路類２０２は、母集団カウント２３４を書込み閾値と比較することができる。いくつかの実施形態では、書込み閾値は、データワード２２０を書き込むかまたはデータワード２２０をスキップする、無視するもしくは他の方法で書き込まないかを示すことができる。例えば、データワード２２０が、ゼロの母集団カウント２３４（書込み閾値を超え損ねた）を有するまたはゼロでないバイト値を含まない場合、回路類２０２は、データワード２２０をスキップする、無視する、または他の方法で書き込まないことが可能である。１つの実施形態において、書込み閾値は、ゼロであり得る。

データワード２２０の母集団カウント２３４が、書込み閾値より大きい場合、回路類は、母集団カウント２３４を少なくとも１つのスライス２０４のアクセスサイズ閾値と比較して、どのスライス２０４またはスライス２０４にデータワード２２０を書き込むかを決定することができる。アクセスサイズ閾値は、１つまたは複数のスライス２０４のアクセスサイズ２０８であり得るまたはそれを含むことができる。いくつかの実施形態では、アクセスサイズ閾値は、第１のスライス２０４のアクセスサイズ２０８であり得るまたはそれを含むことができる。いくつかの実施形態では、アクセスサイズ閾値は、複数のスライスの最も小さいスライス２０４のアクセスサイズ２０８であり得るまたはそれを含むことができる。データワード２２０の母集団カウント２３４が、第１のスライス２０４の第１のアクセスサイズ閾値以下である場合、方法３００は、動作３１２に進むことができる。データワード２２０の母集団カウント２３４が、第１のスライス２０４の第１のアクセスサイズ閾値以下である場合、方法３００は、動作３１４に進むことができる。

ここで動作３１２を参照すると、１つまたは複数の実施形態で、修正されたデータワード２２０は、第１のスライス２０４に書き込むことができる。いくつかの実施形態では、回路類２０２は、少なくとも第１のスライス２０４を介してメモリ２１０に修正されたデータワード２２０を、決定または比較に応答して、書き込むことができる。回路類は、修正されたデータワード２２０の母集団カウント２３４は第１のスライス２０４のアクセスサイズ２０８以下であると決定することができる。回路類は、修正されたデータワード２２０のいくつかのゼロでないバイト値は第１のスライス２０４のアクセスサイズ２０８以下であると決定することができる。回路類２０２は、ゼロでないバイト値を有する修正されたデータワード２２０のバイト部分２２２を第１のスライス２０４に書き込むことができ、ゼロバイト値を有する修正されたデータワード２２０のバイト部分２２２をスキップする、無視する、またはメモリ２１０に書き込まないことが可能である。回路類２０２は、第１のスライス２０４のみを介して修正されたデータワード２２０の第１の側に書き込むことができる。例えば、修正されたデータワード２２０のいくつかのゼロでないバイト値が、第１のスライス２０４のアクセスサイズ２０８以下である場合、回路類は、ゼロでないバイト値を有するバイト部分２２２の全てを第１のスライス２０４に書き込むことができ、複数のスライス２０４の任意の他のスライス２０４にアクセスしないまたは書き込まないことが可能である。

いくつかの実施形態では、回路類２０２は、修正されたデータワード２２０を第１のスライス２０４に書き込むときに互いに関してゼロでないバイト値を有するバイト部分２２２の順序を維持することができる。例えば、ゼロでない値を有するバイト部分２２２が、最初に受信されたのとゼロでないバイト値を有する他のバイト部分２２２に関して同じ順序にあるように、回路類２０２は、修正されたデータワード２２０を第１のスライスに書き込むことができる。例えば、１つの実施形態において、回路類２０２は、ゼロでないバイト値を有する第１のバイト部分２２２を第１のスライス２０４の第１の側２０６の第１の端または第１の位置に書き込み、修正されたデータワード２２０の第１のバイト部分２２２の後の第１のスライス２０４の第１の側２０６の第２の位置にゼロでないバイト値を有する第２のバイト部分２２２を書き込むことができる。

ここで動作３１４を参照すると、いくつかの実施形態では、修正されたデータワード２２０は、第１のスライス２０４および第２のスライス２０４に書き込むことができる。いくつかの実施形態では、回路類２０２は、メモリ２１０の複数のスライス２０４を介してメモリ２１０に修正されたデータワード２２０を、決定または比較に応答して、書き込むことができる。回路類は、修正されたデータワード２２０の母集団カウント２３４は第１のスライス２０４のアクセスサイズ２０８より大きいと決定することができる。回路類は、修正されたデータワード２２０のいくつかのゼロでないバイト値は第１のスライス２０４のアクセスサイズ２０８より大きいと決定することができる。回路類２０２は、それぞれのスライス２０４のアクセスサイズ２３０８と比較したゼロでないバイト値を有する修正されたデータワード２２０のバイト部分２２２の数に部分的に基づいて、ゼロでないバイト値を有する修正されたデータワード２２０のバイト部分２２２を第１のスライス２０４および第２のスライス２０４に書き込むことまたはゼロでないバイト値を有する修正されたデータワード２２０のバイト部分２２２を３つ以上のスライス２０４に書き込むことができる。回路類２０２は、第１のスライス２０４を介する修正されたデータワード２２０の第１の側のバイト２２２またはバイト部分２２２および第２のスライス２０４を介する残りのゼロでないバイト２２２またはゼロでないバイト値を有するバイト部分２２２を書き込むことができる。

回路類２０２は、ゼロでないバイト値を有するそれぞれのバイト部分２２２が互いに関して最初のデータワード２２０内に配置された順序でスライス２０４にゼロでないバイト値を有するバイト部分２２２を書き込むことができる。例えば、回路類２０２は、修正されたデータワード２２０を第１のスライス２０４および第２のスライス２０４または複数のスライス２０４に書き込むときに互いに関してゼロでないバイト値を有するバイト部分２２２の順序を維持することができる。回路類２０２は、ゼロでない値を有するバイト部分２２２が、最初に受信されたのとゼロでないバイト値を有する他のバイト部分２２２に関して同じ順序にあるように、修正されたデータワード２２０を第１のスライスに書き込むことができ、第１のスライス２０４がいっぱいになったまたは容量に達した後は、ゼロでない値を有する残りのバイト部分２２２を第２のスライス２０４および／または追加のスライス２０４に書き込むことができる。

例えば、１つの実施形態において、第１のスライス２０４は、１０のアクセスサイズ２０８を有することができ、修正されたデータワード２２０は、ゼロでないデータ値を有する１５バイト部分２２２を含むことができる。回路類２０２は、第１のスライス２０４の第１の側２０６の第１の端または第１の位置に書き込まれたゼロでないバイト値を有する第１のバイト部分２２２とともに第１のスライス２０４にゼロでないバイト値を有する第１の１０バイト部分２２２を書き込むことができる。回路類２０２は、第２のスライス２０４の第１の側２０６の第１の端または第１の位置に書き込まれたゼロでないバイト値を有する第１１のバイト部分２２２とともに第２のスライス２０４にゼロでないバイト値を有する残りの５つのバイト部分２２２を書き込むことができる。したがって、修正されたデータワード２２０のゼロでないバイト値を有する１５バイト部分２２２は、同じ順序で維持することができ、メモリ２１０の複数のスライス２０４にわたって書き込むことができる。

ここで動作３１６を参照すると、１つまたは複数の実施形態で、ゼロでないバイト値の数を決定することができる。いくつかの実施形態では、回路類は、データワード２２０のいくつかのゼロでないバイト値は第１のスライス２０４の第１のアクセスサイズ２０８以下であると、マスク２３０から、決定することができる。回路類２０２は、読取り要求または読取り命令が少なくとも１つのデータワード２２０について受信されたと決定することができる。回路類２０２は、それぞれのデータワード２２０のビットマスク２３０を使用してゼロでないバイト値の数を決定することができる。回路類２０２は、データワード２２０の母集団カウント２３４またはデータワード２２０のいくつかのゼロでないバイト値は第１のスライス２０４のアクセスサイズ２０８以下であると決定することができる。データワード２２０のいくつかのゼロでないバイト値は、どの１つまたは複数のスライス２０４にデータワード２２０が格納されているかおよびデータワード２２０の異なるバイト部分２２２がいくつのスライス２０４にわたって格納されているかを示すことができる。例えば、データワード２２０のいくつかのゼロでないバイト値が、第１のスライス２０４のアクセスサイズ２０８以下である場合、回路類は、ゼロでないバイト値を有するデータワード２２０のそれぞれのまたは全てのバイト位置２２２は第１のスライス２０４に格納されていると決定することができる。データワード２２０のいくつかのゼロでないバイト値が、第１のスライス２０４のアクセスサイズ２０８より大きい場合、回路類は、ゼロでないバイト値を有するデータワード２２０のそれぞれのまたは全てのバイト位置２２２は複数のスライス２０４（例えば、第１のスライス２０４および第２のスライス２０４）に格納されていると決定することができる。

ここで動作３１８を参照すると、いくつかの実施形態では、データワード２２０を読み取ることができる。いくつかの実施形態では、回路類２０２は、第１のスライス２０４を介してメモリ２１０に格納されたデータワード２２０のパックされた表現２２４を、決定に応答して、読み取ることができる。

パックされた表現２２４は、データワード２２０の第１の側２０６の端で開始する格納されたゼロでないバイト値およびデータワード２２０の残余内に格納された任意のゼロバイト値を含むことができる。いくつかの実施形態では、パックされた表現２２４は、修正されたデータワード２２０に対応することができる。

回路類２０２は、第１のスライス２０４の第１の側２０６の第１の端または第１の位置において読取り動作を開始することができる。回路類２０２は、バイト部分２２２が第１のスライス２０４にまたはメモリ２１０の複数のスライス２０４に格納された順序でデータワード２２０のバイト部分２２２を読み取ることができる。例えば、回路類２０２は、最初に第１のスライス２０４の第１の側２０６の第１の位置に書き込まれたデータワード２２０の第１のバイト部分２２２を読み取ることができ、次に第１のスライス２０４の第１の側２０６の第２の位置に書き込まれたデータワード２２０の第２のバイト部分２２２を読み取ることができる。いくつかの実施形態では、回路類２０２は、データワード２２０のバイト部分２２２が１つまたは複数のスライス２０４に書き込まれた順序に基づいてゼロバイト値を有するバイト部分２２２を読み取る前にゼロでないバイト値を有するバイト部分２２２を読み取ることができる。いくつかの実施形態では、回路類２０２は、ゼロバイト値を有するバイト部分２２２を格納する、読み取るまたはそれにアクセスする必要はなく、アンパッキングプロセスにおいてビットマスクによって示された位置においてゼロバイト値を有するバイト部分２２２を代わりに挿入する。

データワード２２０のいくつかのゼロでないバイト値が第１のスライス２０４のアクセスサイズ２０８以下である、いくつかの実施形態では、回路類２０２は、第１のスライス２０４のみからデータワード２２０のパックされた表現２２４を読み取ることができる。例えば、データワード２２０のいくつかのゼロでないバイト値が、第１のスライス２０４のアクセスサイズ２０８以下であるとき、ゼロでないバイト値を有するバイト部分２２２の全てを第１のスライス２０４に書き込むことができる。回路類２０２は、第１のスライス２０４にアクセスしてデータワード２２０のパックされた表現２２４を読み取ることができる。データワード２２０のいくつかのゼロでないバイト値が第１のスライス２０４のアクセスサイズ２０８より大きい、いくつかの実施形態では、回路類２０２は、バイト部分２２２が複数のスライス２０４に書き込まれた順序で、データワード２２０のパックされた表現２２４のバイト部分２２２を読み取ることができる。例えば、回路類２０２は、第１のスライス２０４を介するデータワード２２０の第１の側または第１のバイト部分２２２と第１のスライス２０４の残りの部分または側を介するおよび複数のスライス２０４のうちの第２のスライス２０４を介する任意の残りのゼロでないバイトまたはゼロでないバイト値を有する残りのバイト部分２２２とを読み取ることができる。いくつかの実施形態では、回路類２０２は、最初にまたは第２のスライス２０４に書き込まれたバイト部分２２２を読み取る前に第１のスライス２０４に書き込まれたバイト部分２２２を読み取ることができる。

ここで動作３２０を参照すると、データワード２２０のパックされた表現２２４を修正することができる。いくつかの実施形態では、回路類２０２は、データワード２２０が受信されたときにまたはメモリ２１０に書き込まれる前に、データワード２２０のパックされた表現２２４を修正してデータワードのバイト部分２２２の順序に対応するバイト部分２２２の最初の順序を復元することができる。回路類２０２は、データワード２２０のパックされた表現２２４を修正して、最初のフォーマットまたはデータワード２２０が受信されたときもしくはメモリ２１０に書き込まれる前に対応するフォーマットにデータワード２２０を復元することができる。例えば、回路類２０２は、ビットマスク２３０を使用してデータワード２２０のゼロでないバイト値の数およびデータワード２２０のゼロバイト値の数を決定することができる。回路類２０２は、ビットマスク２３０の個々のビット２３２を使用してデータワード２２０のバイト部分２２２の構成または順序を決定することができる。ビットマスク２３０の各ビット２３２は、データワード２２０の少なくとも１つのバイト部分２２２を表すことができる。ビットマスク２３０を使用する、回路類２０２は、データワード２２０の最初のフォーマットにおけるゼロでないバイト値を有するバイト部分２２２の最初の位置付けを決定することができる。ビットマスク２３０を使用する、回路類２０２は、データワード２２０の最初のフォーマットにおけるゼロバイト値を有するバイト部分２２２の最初の位置付けを決定することができる。ビットマスク２３０を使用する、回路類２０２は、データワード２２０の最初のフォーマットにおけるゼロでないバイト値を有する１つまたは複数のバイト部分２２２が、それらの間にゼロバイト値を有する１つまたは複数のバイト部分２２２含んだかどうかを決定することができる。

ゼロでないバイト値を有するバイト部分２２２が、データワード２２０の最初のフォーマットにおける最初の位置に移動または再配置されるように、回路類２０２は、データワード２２０のパックされた表現２２４を修正することができる。ビットマスク２３０を使用する、回路類２０２は、データワード２２０の最初のフォーマットにおけるゼロでないバイト値を有する１つまたは複数のバイト部分２２２がそれらの間にゼロバイト値を有する１つまたは複数のバイト部分２２２を含んだかどうかを決定することができる。回路類２０２は、ゼロバイト値を有するバイト部分２２２をゼロバイト値を有する１つまたは複数のバイト部分２２２を含んだ最初のデータワード２２０の位置に挿入、移動または再配置することができる。データワード２２０のパックされた表現２２４は、最初のデータワード２２０を再構築するまたは再生成するために、修正することができる。

ここで動作３２２を参照すると、いくつかの実施形態では、データワード２２０のパックされた表現２２４を提供することができる。いくつかの実施形態では、回路類２０２は、マスク２３０によって示された位置においてゼロでないバイト値およびゼロバイト値を有するデータワード２２０を、パックされた表現２２４から、提供することができる。回路類２０２は、それぞれのデータワード２２０が受信されたときのような最初のフォーマットでまたはデータワード２２０がパックされるおよび／またはデータメモリ２１０に書き込まれるより前のデータワード２２０のフォーマットに対応するフォーマットでデータワード２２０を提供することができる。いくつかの実施形態では、回路類２０２は、図１Ａの出力１１２などの、しかしこれに限定されない、出力データとしてデータワード２２０を提供することができる。

いくつかの例示的な実現例について記載してきたが、上記は例示であって限定ではなく、例として提示されていることが明白である。特に、本明細書に提示する例の多くには、方法行為またはシステム要素の特定の組み合わせが関与するが、それらの行為および要素は、同じ目的を遂行するために他の形で組み合わせることができる。１つの実現例に関連して考察される行為、要素、および特徴は、他の１つまたは複数の実現例における類似の役割から除外されないものとする。

本明細書に開示する実施形態と関連して記載される、様々なプロセス、動作、例示の論理、論理ブロック、モジュール、および回路を実現するのに使用される、ハードウェアおよびデータ処理構成要素は、汎用シングルもしくはマルチチッププロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、または他のプログラマブル論理デバイス、離散的ゲートもしくはトランジスタ論理、離散的ハードウェア構成要素、または本明細書に記載の機能を実施するように設計された上記のものの任意の組み合わせを用いて、実現または実施されてもよい。汎用プロセッサは、マイクロプロセッサ、または任意の従来のプロセッサ、コントローラ、マイクロコントローラ、もしくは状態機械であってもよい。

プロセッサはまた、ＤＳＰとマイクロプロセッサとの組み合わせ、複数のマイクロプロセッサ、ＤＳＰコアと連動した１つもしくは複数のマイクロプロセッサ、または他の任意のかかる構成など、コンピューティングデバイスの組み合わせとして実現されてもよい。いくつかの実施形態では、特定のプロセスおよび方法は、所与の機能に特異的な回路類によって実施されてもよい。メモリ（例えば、メモリ、メモリユニット、記憶デバイスなど）は、本開示に記載する様々なプロセス、層、およびモジュールを完成させるかもしくは容易にする、データおよび／またはコンピュータコードを格納する、１つまたは複数のデバイス（例えば、ＲＡＭ、ＲＯＭ、フラッシュメモリ、ハードディスク記憶装置など）を含んでもよい。メモリは、揮発性メモリもしくは不揮発性メモリであるかまたはそれらを含んでもよく、本開示に記載する様々なアクティビティおよび情報構造をサポートする、データベース構成要素、オブジェクトコード構成要素、スクリプト構成要素、または他の任意のタイプの情報構造を含んでもよい。例示的実施形態によれば、メモリは、処理回路を介してプロセッサに通信可能に接続され、本明細書に記載の１つもしくは複数のプロセスを（例えば、処理回路および／またはプロセッサによって）実行するためのコンピュータコードを含む。

本開示は、様々な動作を遂行するための任意の機械可読媒体上における、方法、システム、およびプログラム製品を想到する。本開示の実施形態は、既存のコンピュータプロセッサを使用して、またはこの目的もしくは別の目的のために組み込まれる、適切なシステムのための専用コンピュータプロセッサによって、または配線接続システムによって、実現されてもよい。本開示の範囲内の実施形態は、格納された機械実行可能命令もしくはデータ構造を保持するかまたは有する、機械可読媒体を備えるプログラム製品を含む。かかる機械可読媒体は、汎用もしくは専用コンピュータ、またはプロセッサを有する他の機械によってアクセスすることができる、任意の利用可能な媒体であることができる。例として、かかる機械可読媒体は、ＲＡＭ、ＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、または他の光学ディスク記憶装置、磁気ディスク記憶装置もしくは他の磁気記憶デバイス、あるいは機械実行可能命令またはデータ構造の形態で所望のプログラムコードを保持または格納するのに使用することができ、汎用もしくは専用コンピュータまたはプロセッサを有する他の機械でアクセスすることができる、他の任意の媒体を含むことができる。上記のものの組み合わせはまた、機械可読媒体の範囲に含まれる。機械実行可能命令は、例えば、汎用コンピュータ、専用コンピュータ、または専用処理機械に、特定の機能または機能群を実施させる、命令およびデータを含む。

本明細書で使用する用語および専門用語は、説明のためのものであって限定とみなされるべきではない。本明細書における、「～を含む」、「～を備える」、「～を有する」、「～を含有する」、「～を伴う」、「～によって特徴付けられる」、「～を特徴とする」およびそれらの変形の使用は、該用語とともに列挙される項目、それらの等価物、および追加の項目、ならびに排他的に該用語とともに列挙される項目から成る代替実現例を網羅することを意味する。一実現例では、本明細書に記載するシステムおよび方法は、記載する要素、行為、または構成要素のうちの１つ、２つ以上の各組み合わせ、または全てから成る。

単数形で言及される本明細書のシステムおよび方法の実現例または要素または行為に対する任意の言及は、複数のこれらの要素を含む実現例も包含することができ、本明細書の任意の実現例または要素または行為に対する複数形での任意の言及は、単一の要素のみを含む実現例も包含することができる。単数形または複数形での言及は、本明細書に開示されるシステムもしくは方法、それらの構成要素、行為、または要素を、単数または複数の構成に限定しようとするものではない。任意の情報、行為、または要素に基づいた任意の行為または要素に対する言及は、行為または要素が、任意の情報、行為、または要素に少なくとも部分的に基づく場合の実現例を含むことができる。

本明細書に開示する任意の実現例は、他の任意の実現例または実施形態と組み合わせることができ、「ある実現例」、「いくつかの実現例」、「一実現例」などに対する言及は、必ずしも相互に排他的ではなく、実現例と関連して記載する特定の特徴、構造、または特性が、少なくとも１つの実現例または実施形態に含まれ得ることを示すものとする。かかる用語は、本明細書で使用するとき、必ずしも全てが同じ実現例を指すものではない。任意の実現例は、本明細書に開示する態様および実現例と一致する任意の手法で、他の任意の実現例と包括的または排他的に組み合わせることができる。

図面、詳細な説明、または任意のクレームにおける技術的特徴に参照符号が付される場合、参照符号は、図面、詳細な説明、およびクレームの了解度を向上するために含まれるものである。したがって、参照符号が存在してもしなくても、任意のクレーム要素の範囲に対する限定的影響を何ら有さない。

本明細書に記載するシステムおよび方法は、それらの特性から逸脱することなく、他の特定の形態で具体化されてもよい。「約」、「およそ」、「実質的に」、または他の程度を表す用語に対する言及は、別段の明示がない限り、所与の測定値、単位、または範囲から±１０％の変動を含む。結合された要素は、直接または介在要素を用いて、互いに電気的、機械的、または物理的に結合することができる。本明細書に記載するシステムおよび方法の範囲は、したがって、上述の記載ではなく添付のクレームによって示され、クレームの等価物の意味および範囲内にある変更は包含される。

「結合された」という用語およびその変形は、２つの部材を直接または間接的に互いに接合することを含む。かかる接合は、静的（例えば、恒久的もしくは固定）または可動（例えば、除去可能もしくは解放可能）であってもよい。かかる接合は、互いに直接結合され、または互いに対して結合された２つの部材によって、別個の介在部材および互いに結合された任意の追加の中間部材を使用して互いに結合された２つの部材によって、あるいは２つの部材の一方とともに単一の単位体として一体的に形成された介在部材を使用して互いに結合された２つの部材によって、達成されてもよい。「結合された」またはその変形が、追加の用語によって修正された場合（例えば、直接結合された）、上述の「結合された」の包括的定義は、追加の用語の平易な言葉の意味によって修正され（例えば、「直接結合された」は、任意の別個の介在部材を有さない２つの部材の接合を意味する）、それによって上述の「結合された」の包括的定義よりも狭い定義になる。かかる結合は機械的、電気的、または流体的であってもよい。

「または」に対する言及は包括的と解釈することができるので、「または」を使用して記載されるいずれの用語も、記載される用語の単一、２つ以上、および全てのいずれかを示すことができる。「『Ａ』および『Ｂ』のうち少なくとも１つ」は、「Ａ」のみ、「Ｂ」のみ、ならびに「Ａ」および「Ｂ」の両方を含むことができる。「備える」または他のオープンな用語と併せて使用されるかかる言及は、追加の項目を含むことができる。

様々な要素のサイズ、寸法、構造、形状、および比率、パラメータの値、取付け構造、材料使用、色、向きにおける変形例など、記載される要素および行為の修正は、本明細書に開示する主題の教示および利点から実質的に逸脱することなく行うことができる。例えば、一体的に形成されるものとして示される要素は、複数の部分または要素で構築することができ、要素の位置を反転させるかまたは別の形で変動させることができ、離散的要素または位置の性質もしくは数を改変または変更することができる。他の置換、修正、変更、および省略も、本開示の範囲から逸脱することなく、開示の要素および動作の設計、動作条件、および配置に対して行うことができる。

本明細書における要素の位置に対する言及（例えば、「上側」、「下側」、「上方」、「下方」）は単に、図面における様々な要素の向きを説明するために使用されるものである。様々な要素の向きは、他の例示的実施形態によって異なってもよく、かかる変形は本開示に包含されるものとする。

Claims

データワードのアクセスサイズを有するメモリにアクセスするための複数のスライスであって、前記複数のスライスのうちの第１のスライスがメモリ内の前記データワードの第１の側にアクセスするように構成され、前記第１の側が前記データワードよりも小さいサイズを有する、複数のスライスを、回路類によって確立することと、
ゼロでない値を有する前記データワード内のバイト位置を識別するマスクに、前記回路類によって、アクセスすることと、
前記第１の側の端で開始する格納されたゼロでないバイト値、および前記データワードの残余内に格納された任意のゼロバイト値を有するように前記データワードを、前記回路類によって、修正することと、
前記第１の側の前記端で開始するいくつかのゼロでないバイト値が前記第１のスライスの第１のアクセスサイズ以下であるかどうかを、前記回路類によって、決定することと、
修正された前記データワードを少なくとも前記第１のスライスを介して前記メモリに、前記決定に応答して前記回路類によって、書き込むことと
を含む、方法。
１バイトのマスクまたは２バイトのマスクのうちの１つとして前記マスクを生成することを更に含む、請求項１に記載の方法。
前記第１の側の前記いくつかのゼロでないバイト値は前記第１のスライスの前記第１のアクセスサイズ以下であると、前記回路類によって、決定することを更に含み、また好ましくは、前記第１のスライスのみを介して前記修正されたデータワードの前記第１の側を、前記回路類によって、書き込むことを更に含む、請求項１または２に記載の方法。
前記第１の側の前記端で開始する前記いくつかのゼロでないバイト値は前記第１のスライスの前記第１のアクセスサイズより大きいと、前記回路類によって、決定することを更に含み、また好ましくは、前記第１のスライスを介して前記修正されたデータワードの前記第１の側の前記バイトを、および第２のスライスを介して残りのゼロでないバイトを、前記回路類によって、書き込むことを更に含む、請求項１から３のいずれか一項に記載の方法。
前記複数のスライスのうちの、前記第１のスライスの前記第１のアクセスサイズまたは第２のスライスの第２のアクセスサイズのうちの１つが、前記メモリにアクセスする際の前記回路類の電力使用量の所定の削減を実現するように選択される、請求項１から４のいずれか一項に記載の方法。
前記マスクに基づいて前記修正されたデータワードのゼロでないバイト値の数を、前記回路類によって、決定することを更に含む、請求項１から５のいずれか一項に記載の方法。
データワードのアクセスサイズを有するメモリにアクセスするための複数のスライスであって、前記複数のスライスのうちの第１のスライスが、前記メモリ内の前記データワードの第１の側にアクセスするように構成され、前記第１の側が、前記データワードよりも小さいサイズを有する、複数のスライスを、回路類によって、確立することと、
ゼロでない値を有する前記データワード内の位置を識別するマスクに、前記回路類によって、アクセスすることと、
前記データワードのいくつかのゼロでないバイト値は前記第１のスライスの第１のアクセスサイズ以下であると、前記マスクから、前記回路類によって、決定することと、
前記第１のスライスを介して、メモリに格納された前記データワードのパックされた表現であって、前記データワードの前記第１の側の端で開始する格納された前記ゼロでないバイト値および前記データワードの残余内に格納された任意のゼロバイト値を含むパックされた表現を、前記決定に応答して前記回路類によって、読み取ることと、
前記マスクによって示された前記位置において前記ゼロでないバイト値および前記ゼロバイト値を有する前記データワードを、前記パックされた表現から前記回路類によって、提供することと
を含む、方法。
前記マスクが、１バイトベースまたは２バイトベースで前記ゼロでないバイト値の前記位置を識別する、請求項７に記載の方法。
前記データワードの前記いくつかのゼロでないバイト値は前記第１のスライスの前記第１のアクセスサイズ以下であると、前記回路類によって、決定することを更に含み、また好ましくは、前記第１のスライスのみを介して前記データワードの前記パックされた表現を、前記回路類によって、読み取ることを更に含む、請求項７または８に記載の方法。
前記データワードの前記いくつかのゼロでないバイト値は前記第１のスライスの前記第１のアクセスサイズより大きいと、前記回路類によって、決定することを更に含み、また好ましくは、前記複数のスライスのうちの、前記第１のスライスを介して前記データワードの第１の側を、および第２のスライスを介して任意の残りのゼロでないバイトを、前記回路類によって、読み取ることを更に含む、請求項７から９のいずれか一項に記載の方法。
前記複数のスライスのうちの、前記第１のスライスの前記第１のアクセスサイズまたは第２のスライスの第２のアクセスサイズのうちの１つが、前記メモリから読み取る際の前記回路類の電力使用量の所定の削減を実現するように選択される、請求項１から１０のいずれか一項に記載の方法。
データワードのアクセスサイズを有するメモリと、
回路類であって、
前記メモリにアクセスするための複数のスライスを確立することであって、前記複数のスライスのうちの第１のスライスが前記メモリ内のデータワードの左側にアクセスするように構成された、複数のスライスを確立すること、
ゼロでない値を有する前記データワード内のバイト位置を識別するマスクにアクセスすること、
前記データワードの第１の側の端で開始する格納されたゼロでないバイト値および前記データワードの残余内に格納された任意のゼロバイト値を有するように前記データワードを修正すること、
修正された前記データワードの最も左のバイトのいくつかのゼロでないバイト値は前記第１のスライスの第１のアクセスサイズ以下であると決定すること、および、
前記修正されたデータワードを少なくとも前記第１のスライスを介して前記メモリに、前記決定に応答して、書き込むこと
を行うように構成された回路類と
を備える、デバイス。
前記回路類が、少なくとも前記第１のスライスを介してメモリに格納された前記データワードのパックされた表現を読み取るように構成され、前記パックされた表現が、前記データワードの前記第１の側に格納された前記ゼロでないバイト値および前記データワードの残りのバイトに格納された任意のゼロバイト値を含み、また好ましくは、前記回路類が、前記ビットマスクによって示された前記位置に格納された前記ゼロでないバイト値および前記ゼロバイト値を有するように前記データワードを作成するように構成された、請求項１２に記載のデバイス。
前記回路類が更に、前記複数のスライスのうちの、前記第１のスライスを介して前記データワードの前記第１の側を、および第２のスライスを介して任意の残りのゼロでないバイトを読み取るように構成された、請求項１３に記載のデバイス。
前記複数のスライスのうちの、前記第１のスライスの前記第１のアクセスサイズまたは第２のスライスの第２のアクセスサイズのうちの１つが、前記メモリから読み取る際の前記回路類の電力使用量の所定の削減を実現するように選択される、請求項１４に記載のデバイス。