JP2024525333A

JP2024525333A - 深さ方向畳み込みのためのメモリ内計算アーキテクチャ

Info

Publication number: JP2024525333A
Application number: JP2023577151A
Authority: JP
Inventors: リー、レン
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2021-06-29
Filing date: 2022-06-28
Publication date: 2024-07-12

Abstract

いくつかの態様は、ニューラルネットワークにおける信号処理のための装置を提供する。装置は、概して、ニューラルネットワーク計算のための第１のカーネルとして構成された第１のメモリ内計算（ＣＩＭ）セルであって、ＣＩＭセルの第１のセットが、ＣＩＭアレイの１つ以上の第１の列及び第１の複数の行を含む、第１のＣＩＭセルを含む。装置はまた、ニューラルネットワーク計算のための第２のカーネルとして構成されたＣＩＭセルの第２のセットであって、ＣＩＭアレイの１つ以上の第１の列及び第２の複数の行を含むＣＩＭセルの第２のセットを含む。第１の複数の行は、第２の複数の行とは異なっていてもよい。

Description

関連出願の相互参照

[0001] 本出願は、本出願の譲受人に譲渡され、その全体が参照により本明細書に組み込まれている、２０２１年６月２９日に出願された米国出願第１７／３６１，８０７号の優先権を主張する。

[0002] 本開示の態様は、機械学習タスクを実行することに関し、具体的には、メモリ内で深さ方向分離可能畳み込みを実行するためのメモリ内計算アーキテクチャ及びデータフローに関する。

[0003] 機械学習は、一般に、アプリオリに知られる訓練データのセットへの一般化適合を表す、訓練されたモデル（例えば、人工ニューラルネットワーク、ツリー、又は他の構造）を作り出すプロセスである。訓練されたモデルを新しいデータに適用することにより、推論が生成され、推論は、新しいデータへの洞察を得るために使用することができる。場合によっては、モデルを新しいデータに適用することは、新しいデータに対して「推論を実行すること」として説明される。

[0004] 様々な機械学習（又は人工知能）タスクを可能にするために機械学習の使用が急増するにつれて、機械学習モデルデータのより効率的な処理の必要が生じてきた。場合によっては、機械学習アクセラレータなどの専用ハードウェアを使用して、機械学習モデルデータを処理する処理システムの能力を強化することができる。しかしながら、そのようなハードウェアは、空間及び電力を必要とし、これは、処理デバイス上で常に利用可能であるとは限らない。例えば、モバイルデバイス、常時オンデバイス、モノのインターネット（internet of things、ＩｏＴ）デバイスなどの「エッジ処理」デバイスは、処理能力と電力及びパッケージング制約とのバランスをとらなければならない。更に、アクセラレータは、共通データバスにわたってデータを移動させる必要がある場合があり、これは、かなりの電力使用を引き起こし、データバスを共有する他のプロセスに待ち時間を導入する可能性がある。したがって、機械学習モデルデータを処理するために、処理システムの他の態様が考慮されている。

[0005] メモリデバイスは、いわゆるメモリ内計算（computation in memory、ＣＩＭ）プロセスを通じて機械学習モデルデータの処理を実行するために活用することができる処理システムの別の態様の一例である。残念ながら、ＣＩＭプロセスは、デジタル乗算及び累算回路（digital multiply-and-accumulate circuits、ＤＭＡＣ）及び関連する周辺機器などの追加のハードウェア要素なしに、深さ方向分離可能畳み込みニューラルネットワークなどの複雑なモデルアーキテクチャの処理を実行することができない場合がある。これらの追加のハードウェア要素は、それらの実装において追加の空間、電力、及び複雑さを使用し、これは、追加の計算リソースとしてメモリデバイスを活用する利点を低減する傾向がある。処理システムの補助的な態様が、メモリ内で直接実行することができない処理を実行するために利用可能なＤＭＡＣを有する場合であっても、それらの補助的な態様との間でデータを移動させることは、時間及び電力を必要とし、したがって、ＣＩＭプロセスの利益を減らす。

[0006] したがって、深さ方向分離可能畳み込みニューラルネットワークなどの、より多種多様な機械学習モデルアーキテクチャのメモリ内計算を実行するためのシステム及び方法が必要とされる。

[0007] いくつかの態様は、ニューラルネットワークにおける信号処理のための装置を提供する。装置は、概して、深さ方向（depthwise、ＤＷ）ニューラルネットワーク計算のための第１のカーネルとして構成された第１のメモリ内計算（ＣＩＭ）セルであって、ＣＩＭセルの第１のセットが、ＣＩＭアレイの１つ以上の第１の列及び第１の複数の行を含む、第１のＣＩＭセルと、ニューラルネットワーク計算のための第２のカーネルとして構成されたＣＩＭセルの第２のセットであって、ＣＩＭアレイの１つ以上の第１の列及び第２の複数の行を含み、第１の複数の行が第２の複数の行とは異なっている、ＣＩＭセルの第２のセットと、を含む。装置はまた、点ごとの（pointwise、ＰＷ）ニューラルネットワーク計算のための第３のカーネルとして構成されたＣＩＭアレイのＣＩＭセルの第３のセットを含むことができる。

[0008] いくつかの態様は、ニューラルネットワークにおける信号処理の方法を提供する。この方法は、概して、ＣＩＭアレイの１つ以上の第１の列上の複数のＣＩＭセルグループを使用して実装された複数のカーネルを介して複数のＤＷ畳み込み演算を実行することと、複数のＤＷ畳み込み演算からの出力に基づいて、ＰＷ畳み込み演算のための入力信号を生成することと、を含む。この方法はまた、入力信号に基づいて、ＣＩＭアレイの１つ以上の第２の列上のＣＩＭセルグループを使用して実装されたカーネルを介して実行される、ＰＷ畳み込み演算を実行することを含む。

[0009] いくつかの態様は、処理システムの１つ以上のプロセッサによって実行されると、処理システムに、ニューラルネットワークにおける信号処理の方法を実行させる命令を有する非一時的コンピュータ可読媒体を提供する。この方法は、概して、ＣＩＭアレイの１つ以上の第１の列上の複数のＣＩＭセルグループを使用して実装された複数のカーネルを介して複数のＤＷ畳み込み演算を実行することと、複数のＤＷ畳み込み演算からの出力に基づいて、ＰＷ畳み込み演算のための入力信号を生成することと、を含む。この方法はまた、入力信号に基づいて、ＣＩＭアレイの１つ以上の第２の列上のＣＩＭセルグループを使用して実装されたカーネルを介して実行される、ＰＷ畳み込み演算を実行することを含む。

[0010] 他の態様は、前述の方法並びに本明細書に記載する方法を実行するように構成された処理システムと、処理システムの１つ以上のプロセッサによって実行されると、処理システムに、前述の方法並びに本明細書に記載する方法を実行させる命令を備える非一時的コンピュータ可読媒体と、前述の方法並びに本明細書に更に記載する方法を実行するコードを備えるコンピュータ可読記憶媒体上に具現化されたコンピュータプログラム製品と、前述の方法並びに本明細書に更に記載する方法を実行する手段を備える処理システムと、を提供する。

[0011] 以下の説明及び関連図面は、１つ以上の態様のいくつかの例示的な特徴を詳細に記載する。

[0012] 添付の図は、１つ以上の態様のうちのいくつかの態様を示し、したがって、本開示の範囲の限定と見なされるべきでない。
[0013] 様々なタイプのニューラルネットワークの例を示す図である。様々なタイプのニューラルネットワークの例を示す図である。様々なタイプのニューラルネットワークの例を示す図である。様々なタイプのニューラルネットワークの例を示す図である。 [0014] 従来の畳み込み演算の一例を示す図である。 [0015] 深さ方向分離可能畳み込み演算の例を示す図である。深さ方向分離可能畳み込み演算の例を示す図である。 [0016] 機械学習モデル計算を実行するように構成された例示的なメモリ内計算（ＣＩＭ）アレイを示す。 [0017] 図４のｂｉｔｃｃｅｌｌｓを表すことができる、例示的なビットセルの追加の詳細を示す図である。図４のｂｉｔｃｃｅｌｌｓを表すことができる、例示的なビットセルの追加の詳細を示す図である。 [0018] ＣＩＭアレイ演算中の様々な信号の例示的なタイミング図である。 [0019] ＣＩＭアレイによって実装された例示的な畳み込み層アーキテクチャを示す図である。 [0020] 本開示のいくつかの態様による、ＣＩＭアレイを含むＣＩＭアーキテクチャを示す図である。本開示のいくつかの態様による、ＣＩＭアレイを含むＣＩＭアーキテクチャを示す図である。 [0021] 本開示のいくつかの態様による、図８ＢのＣＩＭアーキテクチャを介した信号処理のための例示的な動作を示す図である。 [0022] 本開示のいくつかの態様による、処理効率を改善するためにサブバンクに分割されたＣＩＭアレイを示す図である。 [0023] 本開示のいくつかの態様による、処理精度を改善するために反復されたカーネルを用いて実装されたＣＩＭアレイを示す図である。 [0024] 本開示のいくつかの態様による、ニューラルネットワークにおける信号処理のための例示的な動作を示すフロー図である。 [0025] 本開示のいくつかの態様による、ニューラルネットワークにおける信号処理のための動作を実行するように構成された例示的な電子デバイスを示す図である。

[0026] 理解を容易にするために、可能な場合、図面に共通の同一の要素を指定するために同一の参照番号が使用されている。１つの態様の要素及び特徴が更なる記載なく他の態様に有益に組み込まれてもよいことが企図される。

[0027] 本開示の態様は、深さ方向（ＤＷ）分離可能畳み込みニューラルネットワークを含む機械学習モデルのメモリ内計算（ＣＩＭ）を実行するための装置、方法、処理システム、及びコンピュータ可読媒体を提供する。いくつかの態様は、ＣＩＭアレイ上に実装された２位相畳み込み技術を提供する。例えば、２つの位相のうちの１つは、ＣＩＭアレイ上に実装されたカーネルを使用するＤＷ畳み込み演算を含むことができ、２つの位相のうちの別の１つは、ＣＩＭアレイ上に実装されたカーネルを使用する点ごとの（ＰＷ）畳み込み演算を含むことができる。

[0028] 例えば、いくつかの態様は、ＤＷ畳み込みに使用される異なるカーネルのために構成されたＣＩＭアレイのＣＩＭセルを対象とし、カーネルは、ＣＩＭアレイの異なる行及び同じ列上に実装される。カーネルは、本明細書に記載されるように、位相手法を使用して処理することができる。カーネルを実装するセルの出力は、アナログデジタル変換器（analog-to-digital converter、ＡＤＣ）に結合することができる。ＤＷ計算の結果は、本明細書でより詳細に説明するように、更なる処理のために非線形活性化回路に入力され、点ごとの計算のために同じＣＩＭアレイに戻して入力されてもよい。本明細書に記載する態様は、本明細書でより詳細に説明するように、従来の実装形態と比較して、ＣＩＭアレイ上に実装することができるカーネルの数を増加させながら、ＤＷ畳み込み演算のためにオンデマンドで任意のＣＩＭアレイを構成する際に柔軟性を提供する。

[0029] ＣＩＭベースの機械学習（machine learning、ＭＬ）／人工知能（artificial intelligence、ＡＩ）タスクアクセラレータは、画像及びオーディオ処理を含む多種多様なタスクのために使用することができる。更に、ＣＩＭは、ダイナミックランダムアクセスメモリ（dynamic random access memory、ＤＲＡＭ）、スタティックランダムアクセスメモリ（static random access memory、ＳＲＡＭ）（例えば、図５のようなＳＲＡＭセルに基づく）、磁気抵抗ランダムアクセスメモリ（magnetoresistive random-access memory、ＭＲＡＭ）、及び抵抗ランダムアクセスメモリ（resistive random-access memory、ＲｅＲＡＭ）などの様々なタイプのメモリアーキテクチャに基づくことができ、中央プロセッサユニット（central processor units、ＣＰＵ）、デジタル信号プロセッサ（digital signal processors、ＤＳＰ）、グラフィカルプロセッサユニット（graphical processor units、ＧＰＵ）、フィールドプログラマブルゲートアレイ（field-programmable gate arrays、ＦＰＧＡ）、ＡＩアクセラレータなどを含む様々なタイプの処理ユニットに取り付けることができる。一般に、ＣＩＭは、メモリに出入りするデータの移動がデータの計算よりも多くの電力を消費する「メモリウォール」問題を有利に低減することができる。したがって、メモリ内で計算を実行することによって、著しい電力節約を実現することができる。これは、低電力エッジ処理デバイス、モバイルデバイスなどの様々なタイプの電子デバイスに特に有用である。

[0030] 例えば、モバイルデバイスは、データ及びメモリ内計算動作を記憶するように構成されたメモリデバイスを含むことができる。モバイルデバイスは、モバイルデバイスのカメラセンサによって生成された画像データなどの、モバイルデバイスによって生成されたデータに基づいて、ＭＬ／ＡＩ動作を実行するように構成することができる。したがって、モバイルデバイスのメモリコントローラユニット（memory controller unit、ＭＣＵ）は、別のオンボードメモリ（例えば、フラッシュ又はＲＡＭ）からメモリデバイスのＣＩＭアレイに重みをロードし、入力特徴バッファ及び出力（例えば、活性化）バッファを割り当てることができる。次いで、処理デバイスは、例えば、入力バッファ内の層をロードし、ＣＩＭアレイ内にロードされた重みを用いて層を処理することによって、画像データの処理を開始することができる。この処理は、画像データの層ごとに反復することができ、出力（例えば、活性化）は、出力バッファに記憶し、次いで、顔認識などのＭＬ／ＡＩタスクのためにモバイルデバイスによって使用することができる。

ニューラルネットワーク、深層ニューラルネットワーク、及び深層学習に関する簡単な背景
[0031] ニューラルネットワークは、相互接続されたノードの層に構成されている。一般に、ノード（又はニューロン）は、計算が行われる場所である。例えば、ノードは、入力データを増幅する又は減衰させる、のいずれかをする重み（又は係数）のセットと入力データを組み合わせてもよい。したがって、入力信号の増幅又は減衰は、ネットワークが学習しようとしているタスクに関する様々な入力への相対的重要性の割り当てと見なされてもよい。一般に、入力－重み積が加算（又は累積）され、次いで、信号がネットワーク内を更に進行すべきかどうか及びどのくらい進行すべきかを判定するために、この和がノードの活性化関数を通される。

[0032] ほとんどの基本的な実装形態では、ニューラルネットワークは、入力層と、隠れ層と、出力層とを有することができる。「深層」ニューラルネットワークは、一般に、２つ以上の隠れ層を有する。

[0033] 深層学習は、深層ニューラルネットワークを訓練する方法である。一般に、深層学習は、ネットワークへの入力をネットワークからの出力にマッピングし、したがって、任意の入力ｘと任意の出力ｙとの間の未知の関数ｆ（ｘ）＝ｙを近似するように学習することができるので、「万能近似器」と呼ばれることがある。言い換えれば、深層学習は、ｘをｙに変換するための正しいｆを見つける。

[0034] より具体的には、深層学習は、特徴の異なるセット、すなわち、前の層からの出力に基づいてノードの各層を訓練する。したがって、深層ニューラルネットワークの各連続層によって、特徴は、より複雑になる。したがって、深層学習は、各層において連続的により高い抽象レベルで入力を表すように学習し、それによって入力データの有用な特徴表現を構築することによって、入力データからより高いレベルの特徴を漸進的に抽出して、物体認識などの複雑なタスクを実行することができるので、強力である。

[0035] 例えば、視覚データが提示された場合、深層ニューラルネットワークの第１の層は、入力データにおけるエッジなどの比較的単純な特徴を認識するように学習することができる。別の例では、聴覚データが提示された場合、深層ニューラルネットワークの第１の層は、入力データの特定の周波数におけるスペクトル電力を認識するように学習することができる。次いで、深層ニューラルネットワークの第２の層は、第１の層の出力に基づいて、視覚データの単純な形状などの特徴の組み合わせ又は聴覚データの音の組み合わせを認識するように学習することができる。次いで、より上位の層は、視覚データにおける複雑な形状又は聴覚データにおける単語を認識するように学習することができる。更に上位の層は、一般的な視覚オブジェクト又は発話フレーズを認識するように学習することができる。したがって、深層学習アーキテクチャは、自然階層構造を有する問題に適用されたときに特に良好に機能することができる。

ニューラルネットワークにおける層結合性
[0036] 深層ニューラルネットワークなどのニューラルネットワークは、層間の様々な結合性パターンを用いて設計することができる。

[0037] 図１Ａは、全結合ニューラルネットワーク１０２の一例を示す。全結合ニューラルネットワーク１０２では、第１の層内のノードは、その出力を第２の層内のあらゆるノードに伝達し、その結果、第２の層内の各ノードは、第１の層内のあらゆるノードから入力を受信することになる。

[0038] 図１Ｂは、局所結合ニューラルネットワーク１０４の一例を示す。局所結合ニューラルネットワーク１０４では、第１の層内のノードは、第２の層内の限られた数のノードに結合されていてもよい。より一般的には、局所結合ニューラルネットワーク１０４の局所結合層は、ある層内の各ノードが同じ又は類似の結合性パターンを、しかし異なる値（例えば、１１０、１１２、１１４、及び１１６）を有することができる結合強度（又は重み）で有するように構成することができる。所与の領域の中の上位層ノードは、訓練を通じてネットワークへの全入力のうちの制約された部分の特性に調整される入力を受信することがあるので、局所結合の結合性パターンは、上位層内で空間的に別個の受容野を生じることがある。

[0039] １つのタイプの局所結合ニューラルネットワークは、畳み込みニューラルネットワークである。図１Ｃは、畳み込みニューラルネットワーク１０６の一例を示す。畳み込みニューラルネットワーク１０６は、第２の層内の各ノードに対する入力に関連付けられた結合強度が共有されるように構成することができる（例えば、１０８）。畳み込みニューラルネットワークは、入力の空間位置が意味のある問題に好適である。

[0040] １つのタイプの畳み込みニューラルネットワークは、深層畳み込みネットワーク（deep convolutional network、ＤＣＮ）である。深層畳み込みネットワークは、複数の畳み込み層のネットワークであり、例えば、プーリング層及び正規化層を用いて更に構成することができる。

[0041] 図１Ｄは、画像キャプチャデバイス１３０によって生成された画像１２６内の視覚特徴を認識するように設計されたＤＣＮ１００の一実施例を示す。例えば、画像キャプチャデバイス１３０がビークルに搭載されたカメラであった場合、ＤＣＮ１００は、交通標識、更には交通標識上の数字を識別するように、様々な教師あり学習技術を用いて訓練することができる。同様に、ＤＣＮ１００は、車線区分線を識別すること、又は交通信号を識別することなどの、他のタスクのために訓練することができる。これらは、いくつかの例示的なタスクに過ぎず、多くの他のタスクが可能である。

[0042] この実施例では、ＤＣＮ１００は、特徴抽出セクション及び分類セクションを含む。画像１２６を受信すると、畳み込み層１３２は、（例えば、図２に示して説明するように）画像１２６に畳み込みカーネルを適用して、特徴マップの第１のセット（又は中間活性化）１１８を生成する。一般に、「カーネル」又は「フィルタ」は、入力データチャネルの異なる態様を強調するように設計された重みの多次元アレイを含む。様々な実施例では、「カーネル」及び「フィルタ」は、畳み込みニューラルネットワークにおいて適用される重みのセットを指すために互換的に使用することができる。

[0043] 次いで、特徴マップの第１のセット１１８は、特徴マップの第２のセット１２０を生成するためにプーリング層（例えば、最大プーリング層、図示せず）によってサブサンプリングされてもよい。プーリング層は、モデル性能を改善するために、情報の多くを維持しながら、特徴マップの第１のセット１１８のサイズを低減することができる。例えば、特徴マップの第２のセット１２０は、プーリング層によって２８×２８から１４×１４にダウンサンプリングすることができる。

[0044] このプロセスは、多くの層を通して反復することができる。言い換えれば、特徴マップの第２のセット１２０は、特徴マップの１つ以上の後続のセット（図示せず）を生成するために、１つ以上の後続の畳み込み層（図示せず）を介して更に畳み込まれてもよい。

[0045] 図１Ｄの実施例では、特徴マップの第２のセット１２０は、全結合層１２４に提供され、全結合層１２４は次に、出力特徴ベクトル１２８を生成する。出力特徴ベクトル１２８の各特徴は、「標識」、「６０」、及び「１００」などの画像１２６の可能な特徴に対応する数を含んでもよい。場合によっては、ソフトマックス関数（図示せず）は、出力特徴ベクトル１２８における数を確率に変換してもよい。その場合、ＤＣＮ１００の出力１２２は、画像１２６が１つ以上の特徴を含む確率である。

[0046] ＤＣＮ１００を訓練する前に、ＤＣＮ１００によって生成された出力１２２は、不正確であり得る。したがって、出力１２２とアプリオリに知られるターゲット出力との間で誤差が計算されてもよい。例えば、ここでは、ターゲット出力は、画像１２６が「標識」及び数字「６０」を含むという指示である。次いで、既知のターゲット出力を利用して、ＤＣＮ１００の重みは、ＤＣＮ１００の後続の出力１２２がターゲット出力を達成するように、訓練を通して調整することができる。

[0047] ＤＣＮ１００の重みを調整するために、学習アルゴリズムは、重みに対する勾配ベクトルを算出してもよい。勾配は、重みが特定の方法で調整された場合に誤差が増加又は減少することになる量を示すことができる。次いで、重みは、誤差を低減するように調整されてもよい。重みを調整するこの方式は、ＤＣＮ１００の層を通じた「逆方向パス」を伴うので、「逆伝播法」と呼ばれることがある。

[0048] 実際には、重みの誤差勾配は、計算された勾配が真の誤差勾配に近似するように、少数の例にわたって計算されてもよい。この近似法は、確率的勾配降下法と呼ばれることがある。確率的勾配降下法は、システム全体の達成可能な誤差率が下げ止まるまで、又は誤差率がターゲットレベルに達するまで反復されてもよい。

[0049] 訓練の後、ＤＣＮ１００は、新しい画像を提示されてもよく、ＤＣＮ１００は、分類、又は様々な特徴が新しい画像内にある確率などの推論を生成することができる。

畳み込みニューラルネットワークのための畳み込み技術
[0050] 畳み込みは、一般に、入力データセットから有用な特徴を抽出するために使用される。例えば、上述したような畳み込みニューラルネットワークでは、畳み込みは、その重みが訓練中に自動的に学習されるカーネル及び／又はフィルタを使用した異なる特徴の抽出を可能にする。次に、抽出された特徴を組み合わせて推論を行う。

[0051] 活性化関数は、畳み込みニューラルネットワークの各層の前及び／又は後に適用することができる。活性化関数は、一般に、ニューラルネットワークのノードの出力を決定する数学関数（例えば、式）である。したがって、活性化関数は、ノードの入力がモデルの予測に関連するかどうかに基づいて、ノードが情報を渡すべきか否かを判定する。一実施例では、ｙ＝ｃｏｎｖ（ｘ）（すなわち、ｙ＝ｘの畳み込み）である場合、ｘとｙの両方は、一般に「活性化」と見なすことができる。しかしながら、特定の畳み込み演算に関して、ｘは、特定の畳み込みの前に存在するので、「事前活性化」又は「入力活性化」と呼ばれることもあり、ｙは、出力活性化又は特徴マップと呼ばれることがある。

[0052] 図２は、５×５×３の畳み込みカーネル２０４及び１のストライド（又はステップサイズ）を使用して、１２ピクセル×１２ピクセル×３チャネルの入力画像が畳み込まれる、従来の畳み込みの一例を示す。結果として得られる特徴マップ２０６は、８ピクセル×８ピクセル×１チャネルである。この例に見られるように、従来の畳み込みは、出力データと比較して入力データの次元数を（ここでは、１２×１２から８×８ピクセルに）、チャネル次元数（ここでは、３から１チャネルに）を含めて、変化させることができる。

[0053] 畳み込み層を備えるニューラルネットワークに関連付けられた計算負荷（例えば、１秒当たりの浮動小数点演算（floating point operations per second、ＦＬＯＰｓ）で測定される）及び数パラメータを低減するための１つの方法は、畳み込み層を因数分解することである。例えば、図２に示すような空間分離可能畳み込みは、２つの成分：（１）各空間チャネルが深さ方法畳み込みによって独立して畳みこまれる、深さ方法畳み込み（例えば、空間融合）、及び（２）全ての空間チャネルが線形結合される、点ごとの畳み込み（例えば、チャネル融合）に因数分解されてもよい。深さ方向分離可能畳み込みの例を図３Ａ及び図３Ｂに示す。一般に、空間融合の間、ネットワークは、空間平面から特徴を学習し、チャネル融合の間、ネットワークは、チャネルにわたるこれらの特徴間の関係を学習する。

[0054] 一実施例では、分離可能深さ方向畳み込みは、空間融合のための３×３のカーネルと、チャネル融合のための１×１のカーネルとを使用して実装することができる。具体的には、チャネル融合は、深さｄの入力画像内の全ての単一点を通して反復する１×１×ｄのカーネルを使用することができ、カーネルの深さｄは、概して、入力画像のチャネルの数に一致する。点ごとの畳み込みによるチャネル融合は、効率的な計算のための次元数低減に有用である。１×１×ｄのカーネルを適用し、カーネルの後に活性化層を追加することにより、ネットワークに追加された深さを与えることができ、これにより、その性能を高めることができる。

[0055] 図３Ａ及び図３Ｂは、深さ方向分離可能畳み込み演算の例を示す。

[0056] 具体的には、図３Ａでは、１２ピクセル×１２ピクセル×３チャネルの入力画像３０２は、各々が５×５×１の次元数を有する３つの別個のカーネル３０４Ａ～Ｃを備えるフィルタで畳み込まれて、８ピクセル×８ピクセル×３チャネルの特徴マップ３０６を生成し、各チャネルは、３０４Ａ～Ｃの中の個々のカーネルによって生成される。

[0057] 次いで、特徴マップ３０６は、カーネル３０８（例えば、カーネル）が次元数１×１×３を有する点ごとの畳み込み演算を使用して更に畳み込まれて、８ピクセル×８ピクセル×１チャネルの特徴マップ３１０を生成する。この例に示されているように、特徴マップ３１０は、次元数が低減されており（１チャネル対３）、これにより、特徴マップ３１０を用いたより効率的な計算が可能になる。本開示のいくつかの態様では、カーネル３０４Ａ～Ｃ及びカーネル３０８は、本明細書でより詳細に説明するように、同じメモリ内計算（ＣＩＭ）アレイを使用して実装することができる。

[0058] 図３Ａ及び図３Ｂにおける深さ方向分離可能畳み込みの結果は、図２における従来の畳み込みと実質的に同様であるが、計算の数は、大幅に低減され、したがって、深さ方向分離可能畳み込みは、ネットワーク設計が許す場合、大幅な効率利得を提供する。

[0059] 図３Ｂには示されていないが、複数（例えば、ｍ個）の点ごとの畳み込みカーネル３０８（例えば、フィルタの個々の構成要素）を使用して、畳み込み出力のチャネル次元数を増加させることができる。したがって、例えば、ｍ＝２５６個の１×１×３のカーネル３０８を生成することができ、そのそれぞれが８ピクセル×８ピクセル×１チャネルの特徴マップ（例えば、３１０）を出力し、これらの特徴マップを積み重ねて、８ピクセル×８ピクセル×２５６チャネルの結果として得られる特徴マップを得ることができる。結果として生じるチャネル次元数の増加により、訓練のためのより多くのパラメータを提供し、これにより、（例えば、入力画像３０２内の）特徴を識別する畳み込みニューラルネットワークの能力を改善することができる。

例示的なメモリ内計算（ＣＩＭ）アーキテクチャ
[0060] 図４は、本開示の態様による、機械学習モデル計算を実行するように構成された例示的なメモリ内計算（ＣＩＭ）アレイ４００を示す。この実施例では、ＣＩＭアレイ４００は、人工ニューラルネットワークのための混合アナログ／デジタル演算を使用してＭＡＣ演算をシミュレートするように構成されている。したがって、本明細書で使用されるとき、乗算及び加算という用語は、そのようなシミュレートされた演算を指すことがある。ＣＩＭアレイ４００を使用して、本明細書に記載される処理技術の態様を実装することができる。

[0061] 図示された態様では、ＣＩＭアレイ４００は、プリチャージワード線（precharge word lines、ＰＣＷＬ）４２５ａ、４２５ｂ、及び４２５ｃ（まとめて４２５）、読み出しワード線（read word lines、ＲＷＬ）４２７ａ、４２７ｂ、及び４２７ｃ（まとめて４２７）、アナログデジタル変換器（ＡＤＣ）４１０ａ、４１０ｂ、及び４１０ｃ（まとめて４１０）、デジタル処理ユニット４１３、ビット線４１８ａ、４１８ｂ、及び４１８ｃ（まとめて４１８）、ＰＭＯＳトランジスタ４１１ａ～１１１ｉ（まとめて４１１）、ＮＭＯＳトランジスタ４１３ａ～４１３ｉ（まとめて４１３）、並びにキャパシタ４２３ａ～４２３ｉ（まとめて４２３）を含む。

[0062] ニューラルネットワーク層に関連付けられた重みは、ＣＩＭアレイ４００のＳＲＡＭセルに記憶することができる。この実施例では、バイナリ重みが、ＣＩＭアレイ４００のＳＲＡＭビットセル４０５ａ～４０５ｉに示されている。入力活性化（例えば、入力ベクトルであってもよい入力値）は、ＰＣＷＬ４２５ａ～ｃ上に提供される。

[0063] 乗算は、ビット線に関連付けられたＣＩＭアレイ４００の各ビットセル４０５ａ～４０５ｉにおいて行われ、全てのビットセル乗算結果の累算（合計）は、１つの列について同じビット線上で行われる。各ビットセル４０５ａ～４０５ｉにおける乗算は、対応する活性化及び重みのＡＮＤ演算と等価な演算の形態であり、結果は、対応するキャパシタ４２３上の電荷として記憶される。例えば、活性化が１であり（ここでは、ＰＭＯＳが使用されているので、ＰＣＷＬは、１の活性化に対して０である）、かつ重みが１である場合にのみ、１の積、したがってキャパシタ４２３上の電荷が生成される。

[0064] 例えば、蓄積段階では、ＲＷＬ４２７は、（対応するビットセル（重み）及びＰＣＷＬ（活性化）値に基づく）キャパシタ４２３上の任意の電荷を対応するビット線４１８上に蓄積することができるように、ハイに切り替えられる。次いで、蓄積された電荷の電圧値は、ＡＤＣ４１０によってデジタル値に変換される（例えば、出力値は、総電荷が基準電圧よりも大きいかどうかを示すバイナリ値であってもよい）。これらのデジタル値（出力）は、次の層などの、機械学習モデルの別の態様への入力として提供することができる。

[0065] プリチャージワード線（ＰＣＷＬ）４２５ａ、４２５ｂ、及び４２５ｃ上の活性化が、例えば、１、０、１であるとき、ビット線４１８ａ～ｃの和は、０＋０＋１＝１、１＋０＋０＝１、及び１＋０＋１＝２それぞれに対応する。ＡＤＣ４１０ａ、４１０ｂ、及び４１０ｃの出力は、更なる処理のためにデジタル処理ユニット４１３に渡される。例えば、ＣＩＭ１００がマルチビット重み値を処理している場合、ＡＤＣ１１０のデジタル出力は、最終出力を生成するために合計することができる。

[0066] 例示的な３×３のＣＩＭ回路４００は、例えば、３要素カーネル（又はフィルタ）のための効率的な３チャネル畳み込みを実行するために使用することができ、各カーネルの重みは、３つの列の各々の要素に対応し、その結果、所与の３要素受容野（又は入力データパッチ）について、３つのチャネルの各々の出力が並列に計算される。

[0067] 特に、図４は、ＳＲＡＭセルを使用するＣＩＭの実施例を説明しているが、他のメモリタイプを使用することができる。例えば、他の実施形態では、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、磁気抵抗ランダムアクセスメモリ（ＭＲＡＭ）、及び抵抗ランダムアクセスメモリ（ＲｅＲＡＭ又はＲＲＡＭ（登録商標））を同様に使用することができる。

[0068] 図５Ａは、例示的なビットセル５００の追加の詳細を示す。

[0069] 図５Ａの態様は、図４の態様の例示であってもよく、又は別の様式でそれに関連することができる。ｐａｒｉｔｕｃｕｌａｒには、ビット線５２１は、ビット線４１８ａと同様であり、キャパシタ５２３は、図４のキャパシタ４２３と同様であり、読み出しワード線５２７は、図４の読み出しワード線４２７ａと同様であり、プリチャージワード線５２５は、図４のプリチャージワード線４２５ａと同様であり、ＰＭＯＳトランジスタ５１１は、図１のＰＭＯＳトランジスタ４１１ａと同様であり、ＮＭＯＳトランジスタ５１３は、図１のＮＭＯＳトランジスタ４１３と同様である。

[0070] ビットセル５００は、スタティックランダムアクセスメモリ（ＳＲＡＭ）セル５０１（図４のＳＲＡＭビットセル４０５ａを表すことができる）、並びにトランジスタ５１１（例えば、ＰＭＯＳトランジスタ）及びトランジスタ５１３（例えば、ＮＭＯＳトランジスタ）及び接地に結合されたキャパシタ５２３を含む。ＰＭＯＳトランジスタがトランジスタ５１１のために使用されているが、他のトランジスタ（例えば、ＮＭＯＳトランジスタ）を、それらのそれぞれの制御信号の対応する調整（例えば、反転）とともに、ＰＭＯＳトランジスタの代わりに使用することができる。同じことが、本明細書に記載される他のトランジスタにも当てはまる。追加のトランジスタ５１１及び５１３は、本開示の態様によるメモリ内計算アレイを実装するために含まれる。一態様では、ＳＲＡＭセル５０１は、従来の６トランジスタ（six transistor、６Ｔ）ＳＲＡＭセルである。

[0071] ビットセルにおける重みのプログラミングは、多数の活性化に対して１回実行されてもよい。例えば、動作中、ＳＲＡＭセル５０１は、書き込みワード線（write word line、ＷＷＬ）５１６を介してノード５１７及び５１９で１ビットの情報のみを受け取る。例えば、書き込み中（ＷＷＬ２１６がハイであるとき）、書き込みビット線（write bit line、ＷＢＬ）２２９がハイ（例えば、「１」）である場合、ノード２１７は、ハイに設定され、ノード２１９は、ロー（例えば、「０」）に設定され、又はＷＢＬ２２９がローである場合、ノード２１７は、ローに設定され、ノード２１９は、ハイに設定される。逆に、書き込み中（ＷＷＬ２１６がハイのとき）、書き込みビットバー線（write bit bar line、ＷＢＢＬ）２３１がハイである場合、ノード２１７は、ローに設定され、ノード２１９は、ハイに設定され、又はＷＢＢＬ２２９がローである場合、ノード２１７は、ハイに設定され、ノード２１９は、ローに設定される。

[0072] 重みのプログラミングの後に、対応する積に従ってキャパシタを充電するための活性化入力及び乗算ステップが続いてもよい。例えば、トランジスタ５１１は、乗算ステップを実行するために、メモリ内計算アレイのプリチャージワード線（ＰＣＷＬ）５２５を介した活性化信号（ＰＣＷＬ信号）によって活性化される。次に、トランジスタ５１３は、図４に関して上述したようになど、ビットセル５００からの乗算値とアレイの他のビットセルとの累算を実行するために、メモリ内計算アレイの別のワード線（例えば、読み出しワード線（ＲＷＬ）５２７）を介した信号によって活性化される。

[0073] ノード５１７が「０」である場合（例えば、記憶された重み値が「０」であるとき）、ローのＰＣＷＬがトランジスタ５１１のゲートにおける「１」の活性化を示す場合には、キャパシタ５２３は、充電されない。したがって、ビット線５２１には電荷が供給されない。しかしながら、重み値に対応するノード５１７が「１」であり、かつＰＣＷＬがローに設定されている場合（例えば、活性化入力がハイであるとき）、ＰＭＯＳトランジスタ５１１をオンにし、これにより、短絡として働き、キャパシタ５２３が充電されることを可能にする。キャパシタ５２３が充電された後、トランジスタ５１１は、オフにされ、その結果、電荷がキャパシタ５２３に蓄積される。電荷をキャパシタ５２３からビット線５２１に移動させるために、ＮＭＯＳトランジスタ５１３は、ＲＷＬ５２７によってオンにされ、ＮＭＯＳトランジスタ５１３を短絡として動作させる。

[0074] 表１は、図５Ａのビットセル５００によって実装することができるような、ＡＮＤ演算設定に従ったメモリ内計算アレイ演算の一例を示す。

[0075] 表１の第１の列（活性化）は、入力活性化信号の可能な値を含む。

[0076] 表１の第２の列（ＰＣＷＬ）は、本開示の態様による、メモリ内計算機能を実装するように設計されたトランジスタを活性化するＰＣＷＬ値を含む。この例におけるトランジスタ５１１は、ＰＭＯＳトランジスタであるので、ＰＣＷＬ値は、活性化値の逆数である。例えば、メモリ内計算アレイは、プリチャージワード線（ＰＣＷＬ）５２５を介して活性化信号（ＰＣＷＬ信号）によって活性化されるトランジスタ５１１を含む。

[0077] 表１の第３の列（セルノード）は、例えば、畳み込み演算において使用することができるような、重みテンソル中の重みに対応する、ＳＲＡＭセルノードに記憶された重み値を含む。

[0078] 表１の第４の列（キャパシタノード）は、キャパシタ上に電荷として蓄積される、結果として生じる生成物を示す。例えば、電荷は、キャパシタ５２３のノード又はキャパシタ４２３ａ～４２３ｉのうちの１つのノードに蓄積することができる。キャパシタ５２３からの電荷は、トランジスタ５１３が活性化されると、ビット線５２１に移動される。例えば、トランジスタ５１１を参照すると、セルノード５１７における重みが「１」（例えば、高電圧）であり、かつ入力活性化が「１」である（したがって、ＰＣＷＬが「０」である）とき、キャパシタ５２３は、充電される（例えば、キャパシタのノードは、「１」である）。他の全ての組み合わせに対して、キャパシタノードは、０の値を有する。

[0079] 図５Ｂは、別の例示的なビットセル５５０の追加の詳細を示す。

[0080] ビットセル５５０は、主に、追加のトランジスタ５５４に結合された追加のプリチャージワード線５５２を含むことに基づいて、図５Ａのビットセル５００とは異なる。

[0081] 表２は、図５Ｂのビットセル５５０によって実装することができるような、ＸＮＯＲ演算設定に従うことを除いて、表１と同様のメモリ内計算アレイ演算の一例を示す。

[0082] 表２の第１の列（活性化）は、入力活性化信号の可能な値を含む。

[0083] 表２の第２の列（ＰＣＷＬ１）は、本開示の態様による、メモリ内計算機能を実装するように設計されたトランジスタを活性化するＰＣＷＬ１値を含む。ここで再び、トランジスタ５１１は、ＰＭＯＳトランジスタであり、ＰＣＷＬ１値は、活性化値の逆数である。

[0084] 表２の第３の列（ＰＣＷＬ２）は、本開示の態様による、メモリ内計算機能を実装するように設計された更なるトランジスタを活性化するＰＣＷＬ２値を含む。

[0085] 表２の第４の列（セルノード）は、例えば、畳み込み演算において使用することができるような、重みテンソル中の重みに対応する、ＳＲＡＭセルノードに記憶された重み値を含む。

[0086] 表２の第５の列（キャパシタノード）は、キャパシタ５２３等のキャパシタ上に電荷として蓄積される、結果として生じる生成物を示す。

[0087] 図６は、メモリ内計算（ＣＩＭ）アレイ演算中の様々な信号の例示的なタイミング図６００を示す。

[0088] 図示の実施例では、タイミング図６００の第１の行は、ローになるプリチャージワード線ＰＣＷＬ（例えば、図４の４２５ａ又は図５Ａの５２５）を示す。この実施例では、ローのＰＣＷＬは、「１」の活性化を示す。ＰＭＯＳトランジスタは、ＰＣＷＬがローであるときにオンになり、これにより、（重みが「１」である場合）キャパシタの充電を可能にする。第２の行は、読み出しワード線ＲＷＬ（例えば、図４の読み出しワード線４２７ａ又は図５Ａの５２７）を示す。第３の行は、読み出しビット線ＲＢＬ（例えば、図４の４１８又は図５Ａの５２１）を示し、第４の行は、アナログデジタル変換器（ＡＤＣ）読み出し信号を示し、第５の行は、リセット信号を示す。

[0089] 例えば、図５Ａのトランジスタ５１１を参照すると、キャパシタ５２３からの電荷は、読み出しワード線ＲＷＬがハイであるときに読み出しビット線ＲＢＬに徐々に渡される。

[0090] 合計された電荷／電流／電圧（例えば、図４の４０３、又は図５Ａのビット線５２１から合計された電荷）は、コンパレータ又はＡＤＣ（例えば、図４のＡＤＣ４１１）に渡され、合計された電荷は、デジタル出力（例えば、デジタル信号／数）に変換される。電荷の加算は、タイミング図６００の蓄積領域において行われてもよく、ＡＤＣからの読み出しは、タイミング図６００のＡＤＣ読み出し領域に関連付けられてもよい。ＡＤＣ読み出しが得られた後、リセット信号は、活性化入力の次のセットを処理するのに備えて、キャパシタ（例えば、キャパシタ４２３ａ～４２３ｉ）の全てを放電する。

メモリにおける畳み込み処理の例
[0091] 図７は、メモリ内計算（ＣＩＭ）アレイ７０８によって実装された例示的な畳み込み層アーキテクチャ７００を示す。畳み込み層アーキテクチャ７００は、（例えば、図１Ｄに関して上述したように）畳み込みニューラルネットワークの一部であってもよく、テンソルデータなどの多次元データを処理するように設計されていてもよい。

[0092] 図示の実施例では、畳み込み層アーキテクチャ７００への入力７０２は、３８（高さ）×１１（幅）×１（深さ）の次元を有する。畳み込み層の出力７０４は、３４×１０×６４の次元を有し、これは畳み込みプロセスの一部として適用されるカーネルテンソル７１４の６４個のカーネルに対応する６４個の出力チャネルを含む。更に、この実施例では、カーネルテンソル７１４の６４個のカーネルの各カーネル（例えば、例示的なカーネル７１２）は、５×２×１の次元を有する（全体として、フィルタテンソル７１４のカーネルは、１つの５×２×６４のカーネルと等価である）。

[0093] 畳み込みプロセス中、各５×２×１のカーネルは、入力７０２と畳み込まれて、出力７０４の１つの３４×１０×１の層を生成する。畳み込みの間、カーネルテンソル７１４（５×２×６４）の６４０個の重みは、この実施例では各カーネルについての列（すなわち、６４個の列）を含むメモリ内計算（ＣＩＭ）アレイ７０８に記憶することができる。次いで、５×２の受容野（例えば、受容野入力７０６）の各々の活性化が、ワード線、例えば、７１６を使用してＣＩＭアレイ７０８に入力され、対応する重みで乗算されて、１×１×６４の出力テンソル（例えば、出力テンソル７１０）を生成する。出力テンソル７０４は、入力７０２の受容野（例えば、受容野入力７０６）の全てに対する１×１×６４の個々の出力テンソルの累積を表す。簡単にするために、図７のメモリ内計算アレイ７０８は、メモリ内計算アレイ７０８の入力及び出力のためのいくつかの例示的な線のみを示す。

[0094] 図示された実施例では、ＣＩＭアレイ７０８は、ＣＩＭアレイ７０８が受容野（例えば、受容野入力７０６）を受け取るワード線７１６、並びに（ＣＩＭアレイ７０８の列に対応する）ビット線７１８を含む。図示されていないが、ＣＩＭアレイ７０８はまた、（図４及び図５に関して上述したように）プリチャージワード線（ＰＣＷＬ）及び読み出しワード線ＲＷＬを含んでもよい。

[0095] この実施例では、ワード線７１６は、初期重み定義のために使用される。しかしながら、初期重み定義が行われると、活性化入力は、ＣＩＭビットセル内の特別に設計された線を活性化して、ＭＡＣ演算を実行する。したがって、ビット線７１８とワード線７１６との各交点は、カーネル重み値を表現し、これは、積を生成するために、ワード線７１６上の入力活性化によって乗算される。各ビット線７１８に沿った個々の積は、次いで、出力テンソル７１０の対応する出力値を生成するために加算される。合計値は、電荷、電流、又は電圧であってもよい。この実施例では、畳み込み層の入力７０２全体を処理した後の出力テンソル７０４の次元は、３４×１０×６４であるが、６４個のカーネル出力のみがＣＩＭアレイ７０８によってｔｍｅに生成される。したがって、入力７０２全体の処理は、３４×１０又は３４０サイクルで完了することができる。

深さ方向分離可能畳み込みのためのＣＩＭアーキテクチャ
[0096] ＣＩＭアーキテクチャのためにメモリ内に実装されるベクトル－行列乗算ブロックは、従来の畳み込みニューラルネットワーク処理を概して良好に実行することができるが、それらは、多くの最先端の機械学習アーキテクチャにおいて見出される、深さ方向分離可能畳み込みニューラルネットワークをサポートするために効率的ではない。

[0097] 効率を改善するための従来の解決策は、分離可能畳み込みの深さ方向部分に対する処理を扱うために別個のデジタルＭＡＣブロックを追加することを含む一方で、ＣＩＭアレイは、分離可能畳み込みの点ごとの部分を扱うことができる。しかしながら、このハイブリッド手法は、データ移動の増加をもたらし、これにより、ＣＩＭアーキテクチャのメモリ効率の利点を相殺する可能性がある。更に、ハイブリッド手法は、一般に、追加のハードウェア（例えば、デジタル乗算及び累算（ＤＭＡＣ）要素）を伴い、これにより、空間及び電力の必要性を増加させ、処理待ち時間を増加させる。更に、ＤＭＡＣの使用は、処理動作のタイミングに影響を与え、モデル出力タイミング制約（又は他の依存性）を超過させる可能性がある。その問題を解決するために、入力データのフレームレートを低減すること、処理システム要素（ＣＩＭアレイを含む）のクロックレートを増加させること、入力特徴サイズを低減することなど、様々な妥協をする場合がある。

[0098] 本明細書に記載するＣＩＭアーキテクチャは、深さ方向分離可能畳み込みのための処理動作のタイミング性能を改善する。これらの改善は、有益なことに、より多くのハードウェア（例えば、ＤＭＡＣ）及び／又はより多くのデータ移動を必要とする従来のアーキテクチャと比較して、深さ方向分離可能畳み込み演算のより短いサイクル時間をもたらし、処理電力のより高い１ワット当たりの１秒当たり総演算（total operations per second、ＴＯＰＳ）、すなわち、ＴＯＰＳ／Ｗを達成する。

[0099] 図８Ａ及び図８Ｂは、本開示のいくつかの態様による、ＣＩＭアレイ８０２を含むＣＩＭシステム８００を示す。図８Ａに示すように、ＣＩＭアレイ８０２を使用して、ＤＷ畳み込み演算のためのカーネル８０６、８０８、８０９、及びＰＷ畳み込み演算のためのカーネル８９０を実装することができる。例えば、図３Ａ及び図３Ｂに関して説明したように、カーネル８０６、８０８、８０９は、カーネル３０４Ａ、３０４Ｂ、３０４Ｃそれぞれに対応することができ、カーネル８９０は、カーネル３０８に対応することができる。ＤＷ畳み込み演算は、第１の位相（位相１）中に順次実行することができる。例えば、位相１－１中に、カーネル８０６が処理されてもよく、位相１－２中に、カーネル８０８が処理されてもよく、位相１－３中に、カーネル８０９が処理されてもよい。カーネル８０６、８０８、８０９に対するＤＷ畳み込み演算の出力を使用して、カーネル８９０が第２の位相においてＰＷ畳み込み演算を実行するための入力を生成することができる。このようにして、ＤＷ畳み込み演算とＰＷ畳み込み演算の両方を、単一のＣＩＭアレイ上に実装されたカーネルを使用して実行することができる。ＤＷカーネルは、ＣＩＭアレイの同じ列上に実装することができ、従来の実装形態と比較して、より多い数のＤＷカーネルがＣＩＭアレイ上に実装されることを可能にする。

[0100] 図８Ｂに示すように、ＣＩＭシステム８００は、ＤＷ畳み込みニューラルネットワーク計算及び点ごとの（ＰＷ）－ＣＮＮ計算（例えば、ＣＮＮ１×１）のために構成されたＣＩＭアレイ８０２を含む。ＤＷ畳み込み演算及びＰＷ畳み込み演算のためのカーネルは、図８Ａに関して説明したように、列の異なるグループ上に実装して、異なる位相中に別々に活性化することができる。いくつかの態様では、カーネル（例えば、３×３のカーネル）は、ＣＩＭアレイ８０２の同じ列（本明細書ではビット線とも呼ばれる）上に実装することができる。例えば、２ビット重み（すなわち、第１の２ビット値ｂ０１、ｂ１１、第２の２ビット値ｂ０２、ｂ１２などを含む９つの２ビット値）の３×３のカーネル８０６は、列８１０、８１２（例えば、重みの各ビット幅につき１つの列）並びに９つの行８１４－１、８１４－２～８１４－８、及び８１４－９（例えば、本明細書ではワード線（word-lines、ＷＬ）とも呼ばれ、行８１４と総称され、カーネル内の各値につき１つの行がある）上のＣＩＭセルを使用して実装することができる。別のカーネル８０８は、別の３×３のフィルタを実装するために、列８１０、８１２及び９つの行８２０－１～８２０－９（行８２０と総称される）上に実装することができる。したがって、カーネル８０６及び８０８は、異なる行上に実装されるが、同じ列上に実装される。結果として、カーネル８０６及び８０８は、順次動作することができる。言い換えれば、カーネル８０６、８０８のうちの一方の行を活性化することにより、カーネル８０６、８０８のうちの他方の行に影響を与えることはない。しかしながら、カーネル８０６、８０８のうちの一方の列を活性化することにより、カーネル８０６、８０８のうちの他方の列に影響を与える。したがって、カーネル８０６、８０８は、順次動作することができる。２つのカーネル８０６、８０８のみが示されているが、いくつかの態様では、２つより多いカーネルを実装することができる。例えば、図８Ａに示すカーネル８０６、８０８、８０９を、ＣＩＭアレイ８０２に実装することができる。

[0101] いくつかの態様では、各カーネルの入力活性化バッファは、前の層からの対応する出力で満たされる（例えば、記憶される）。各カーネルは、ＤＷ畳み込み出力を生成するために、１つずつ順次動作することができる。非アクティブカーネルの入力は、非アクティブカーネルの読み出しＢＬ（read BL、ＲＢＬ）出力が（例えば、３値モードビットセルにおいてサポートされるように）０であるように、０（例えば、論理ロー）で満たすことができる。このようにして、非アクティブカーネルは、列（ＢＬ）上に実装されたアクティブカーネルからの出力に影響を与えないことがある。

[0102] いくつかの態様では、カーネル８０６の行（例えば、行８１４）は、活性化バッファ８３０－１、８３０－２～８３０－８、及び８３０－９（活性化バッファ８３０と総称される）に結合されていてもよく、カーネル８０８の行（例えば、行８２０）は、活性化バッファ８３２－１～８３２－９（活性化バッファ８３２と総称される）に結合されていてもよい。カーネル８０６の（例えば、列８１０、８１２における）出力は、アナログデジタル変換器（ＡＤＣ）８４０に結合することができる。ＡＤＣ８４０は、列８１０、８１２からの信号を入力として受け取り、列８１２に記憶されたビットが列８１０に記憶されたビットよりもそれぞれの重みにおいて低い重要性を表すことを考慮して、信号のデジタル表現を生成する。

[0103] ＣＩＭアレイ８０２はまた、図示されるように、ＰＷ畳み込み計算のために列８１６、８１８上にＰＷ畳み込みセル８９０を含んでもよい。ＰＷ畳み込みセル８９０の（例えば、列８１６、８１８における）出力は、ＡＤＣ８４２に結合することができる。例えば、ＡＤＣ８４０の各入力は、列８１０、８１２の各々から行８１４の蓄積電荷を受信してもよく、ＡＤＣ８４２の各入力は、列８１６、８１８の各々から蓄積電荷を受信してもよく、それに基づいて、ＡＤＣ８４０、８４２の各々は、デジタル出力信号を生成する。例えば、ＡＤＣ８４２は、列８１６、８１８からの信号を入力として受け取り、列８１８に記憶されたビットが列８１６に記憶されたビットよりもそれぞれの重みにおいて低い重要性を表すことを考慮して、信号のデジタル表現を生成する。ＡＤＣ８４０、８４２は、２ビットの重みパラメータを有するカーネルのためのアナログデジタル変換を容易にするために、２つの列から信号を受信するものとして示されているが、本明細書に記載する態様は、任意の数の列（例えば、３ビットの重みパラメータを有するカーネルのためのアナログデジタル変換を実行するための３つの列）から信号を受信するように構成されたＡＤＣのために実装することができる。いくつかの態様では、ＡＤＣ８４０又は８４２などのＡＤＣは、８つの列に結合することができる。更に、いくつかの態様では、蓄積は、２つ以上のＡＤＣにわたって分散することができる。

[0104] ＡＤＣ８４０、８４２の出力は、いくつか例を挙げると、整流線形ユニット（rectified linear unit、ＲｅＬＵ）及び平均プーリング（average pooling、ＡｖｅＰｏｏｌ）などの１つ以上の非線形演算を（例えば、順に）実装するために、非線形演算回路８５０（及びバッファ）に結合することができる。非線形演算は、入力と出力との間の複雑なマッピングの生成を可能にし、したがって、非線形である又は高次元数を有する画像、ビデオ、オーディオ、及びデータセットなどの複雑なデータの学習及びモデル化を可能にする。非線形演算回路８５０の出力は、活性化出力バッファ回路８６０に結合することができる。活性化出力バッファ回路８６０は、ＰＷ畳み込みセル８９０を介したＰＷ畳み込み計算のためのＰＷ畳み込み入力として使用される非線形演算回路８５０からの出力を記憶することができる。例えば、活性化出力バッファ回路８６０の出力は、活性化バッファ８３０に提供することができる。活性化バッファ８３０に記憶された対応する活性化入力は、ＰＷ畳み込み計算を実行するためにＰＷ畳み込みセル８９０に提供することができる。

[0105] カーネル８０６、８０８の各々は、２ビットの重みがカーネルの各行に記憶されることを可能にする２つの列を含むが、カーネル８０６、８０８は、１ビットのバイナリ重みに対して１つの列、又はマルチビット重みに対して２つ以上の列などの、任意の数の適切な列を使用して実装することができる。例えば、カーネル８０６、８０８の各々は、３ビットの重みパラメータがカーネルの各行に記憶されることを容易にするために３つの列を使用して、又は１ビットの重みがカーネルの各行に記憶されることを容易にするために単一の列を使用して実装することができる。更に、カーネル８０６、８０８の各々は、理解を容易にするために３×３のカーネルについて９つの行を使用して実装されるが、カーネル８０６、８０８は、適切なカーネルサイズを実装するために任意の数の行を用いて実装することができる。更に、ＣＩＭアレイのセルのサブセットを使用して、２つより多いカーネルを実装することができる。例えば、ＣＩＭアレイ８０２は、１つ以上の他のカーネルを含むことができ、ＣＩＭアレイ８０２のカーネルは、異なる行及び同じ列上に実装される。

[0106] 本明細書に記載する態様は、ＤＷ畳み込み演算のためにオンデマンドで任意のＣＩＭアレイを構成する際の柔軟性を提供する。例えば、カーネル８０６、８０８の各々を実装するために使用される行の数を増やして、各それぞれのカーネルのサイズを増大させる（例えば、５×５のカーネルを実装する）ことができる。更に、いくつかの態様は、従来の実装形態と比較して、ＣＩＭアレイ上に実装することができるカーネルの数の増加を可能にする。言い換えれば、本開示のいくつかの態様は、同じ列上にＤＷ畳み込みのためのカーネルを実装することによって、ＤＷ畳み込み演算のために消費されるＣＩＭアレイ上の面積を低減する。このようにして、ＣＩＭアレイ上に実装することができるＤＷ畳み込みのためのカーネルの数は、従来の実装形態と比較して増やすことができる。例えば、合計１１３個の３×３のフィルタを、１０２４行を有するＣＩＭアレイ上に実装することができる。したがって、ＤＷ畳み込み演算を実装するための面積消費は、ＤＭＡＣハードウェアを使用することができる従来の実装と比較して低減することができる。

[0107] 図９は、本開示のいくつかの態様による、図８ＢのＣＩＭアーキテクチャ８００を介した信号処理のための例示的な動作９００を示す。１つのＣＩＭアレイをＤＷ畳み込み演算とＰＷ畳み込み演算の両方に使用してもよい。ＤＷ畳み込みのためのカーネルは、同じＣＩＭアレイハードウェア上で２つの位相において動作される。

[0108] ＤＷ畳み込みのための第１の位相の間、ＤＷ畳み込みカーネルによって使用される列８１０、８１２は、アクティブである。動作９００は、ＤＷ畳み込み層の処理で開始することができる。例えば、ブロック９０４において、ＤＷ畳み込み重みは、カーネルのためのＣＩＭセルにロードすることができる。すなわち、ブロック９０４において、ＤＷの３×３のカーネル重みは、行にグループ化して、図８のＣＩＭアレイ８０２のカーネル８０６、８０８のためのＣＩＭセルに書き込むことができる。すなわち、２ビットのカーネル重みが列８１０、８１２に提供されてもよく、メモリセル（例えば、図８に示すメモリセルｂ１１及びｂ０１）のパスゲートスイッチが、２ビットのカーネル重みをメモリセルに記憶するために閉じられてもよい。フィルタ重みは、カーネル８０６、８０８の各々の各行に記憶することができる。残りのＣＩＭ列を使用して、ＰＷ畳み込みセル８９０にＰＷ畳み込み重みを書き込むことができる。ＤＷ畳み込み重みとＰＷ畳み込み重みの両方が、後続の層の各々について更新される。いくつかの実装形態では、ＣＩＭアレイは、本明細書でより詳細に説明するように、トライステートモードで構成することができるタイルに分割することができる。いくつかの態様では、アクティブカーネルと同じ列上のタイルは、トライステートモードで構成することができる。トライステートモードでは、タイルのメモリセルの出力は、比較的高いインピーダンスを有するように構成することができ、出力に対するセルの影響を効果的に除去する。

[0109] ブロック９０６において、（例えば、活性化バッファ８３０における）ＤＷ畳み込み活性化入力は、カーネル８０６、８０８の行の各グループに順次適用して、各カーネルのためのＤＷ畳み込み出力を生成することができる。カーネル８０６、８０８のうちの１つのみが、同時にアクティブであり得る。非アクティブフィルタ行は、トライステート動作モードに置かれてもよい。

[0110] ブロック９０８において、ＡＤＣ８４０は、（例えば、列８１０、８１２における）カーネル８０６、８０８の畳み込み出力をアナログ領域からデジタル領域に変換することができる。ＤＷ畳み込みのためのＡＤＣ８４０の出力に基づいて、非線形演算回路８５０を介して非線形演算が実行されてもよい。非線形演算回路８５０からの出力は、（活性化出力バッファ回路８６０に記憶された）ＰＷ畳み込み入力に適用して、ＰＷ畳み込み演算を実行することができる。言い換えれば、ＰＷ畳み込み入力は、活性化バッファ８３０に書き込んで、行８１４、８２０及び列８１６、８１８上のＰＷ畳み込みセル８９０に適用することができる。

[0111] 動作９００は、ＰＷ畳み込み演算を処理することによって、位相２に続くことができる。例えば、ブロック９１２において、ＣＩＭアレイにＰＷ畳み込みのためのカーネルをロードすることができる。例えば、ＰＷ畳み込み列（例えば、列８１６、８１８）を有効にすることができ、ＤＷ畳み込み列（例えば、列８１０、８１２）を無効にすることができる。ブロック９１４において、ＰＷ畳み込みを実行することができ、ＰＷ畳み込みの出力は、ＡＤＣ８４２を介してデジタル信号に変換することができる。ブロック９１６において、ＡＤＣ８４２は、ＰＷ畳み込みセル８９０の出力をアナログ領域からデジタル領域に変換することができる。ＰＷ畳み込みのためのＡＤＣ８４２の出力に基づいて、非線形演算回路８５０を介して非線形活性化演算（例えば、ＲｅＬＵ）が実行されてもよい。

電力消費を低減してＣＩＭアレイ利用率を向上させる技術
[0112] 図１０は、本開示のいくつかの態様による、電力を節約するためにタイル（サブバンクとも呼ばれる）に分割されたＣＩＭアレイ１０００を示す。ＣＩＭアレイ１０００は、一実施例として、１０２４行及び２５６列を有することができる。行及び列の個々のタイルは、有効にしたり、又は無効にしたりすることができる。例えば、タイルは、１２８行及び２３列を含むことができる。一実施例として、（例えば、タイル１００４などの複数のタイルを含む）タイル１００２は、畳み込みのためにアクティブであってもよいが、残りのタイルは、無効にすることができる。言い換えれば、残りのタイルは、トライステートモードで構成することができる。

[0113] いくつかの実装形態では、行及び列フィラーセルは、ＣＩＭアレイ１０００内に実装することができる。フィラー回路（例えば、バッファ又はスイッチ）を使用して、ＣＩＭアレイのタイルを有効又は無効にし、電力を節約することができる。一実施例として、列フィラーセルは、ＡＮＤゲート論理を使用して実装することができ、行フィラーセルは、書き込みビット線（ＷＢＬ）上のバッファ、及び読み出しビット線（ＲＢＬ）上の伝送スイッチを使用して実装することができる。伝送スイッチのサイズ及びタイプは、線形性仕様に基づいて構成することができる。

[0114] ＤＷ畳み込みは、比較的小さいカーネル次元（３×３、５×５、．．．）を使用することができ、ＣＩＭアレイの不十分な利用率は、範囲圧縮に起因して出力信号対雑音比（signal to noise ratio、ＳＮＲ）に影響を及ぼす可能性がある（例えば、ニューラルネットワークの出力が非線形活性化に起因して小さい範囲内に分散される）。本開示のいくつかの態様は、図１１に関してより詳細に説明するように、ＳＮＲを改善するための技術を対象とする。

[0115] 図11は、本開示のいくつかの態様による、反復されたカーネルを用いて実装されたＣＩＭアレイを示す。

[0116] 図示されるように、カーネル８０６、８０８の各々を反復して、カーネルグループを形成することができる。例えば、カーネル８０６、１１０４、１１０６は、カーネルグループ１１０２を形成し、カーネル８０６、１１０４、及び１１０６の各々は、同じ重みを含む。更に、カーネルグループ１１０２及び１１０４などの複数のカーネルグループを同じ列上に実装することができる。グループ１１０２内の反復されたカーネル８０６、１１０４、１１０６は、同じ重みを有するので、同じ活性化入力を、グループ内の反復されたカーネルの各々に提供することができる。グループ１１０４についても同様である。

[0117] 反復されたカーネルは、各列（出力）において組み合わされる同じ出力信号を生成することができ、反復されたカーネルの出力におけるダイナミックレンジの増大をもたらす。例えば、３つの反復されたカーネルを使用することにより、ＡＤＣ（例えば、ＡＤＣ８４０）に提供される反復されたカーネルの出力におけるダイナミックレンジを３倍にすることができる。カーネルの出力におけるダイナミックレンジを増大させることにより、より広い範囲のＡＤＣを利用することができるので、より高い精度を有するアナログデジタル変換を容易にする。言い換えれば、ＡＤＣ入力の全範囲を使用することにより、ＡＤＣのデジタル出力が、ＡＤＣのアナログ入力をより正確に識別し、ＡＤＣの信号対雑音比（ＳＮＲ）を改善することを可能にする。

[0118] いくつかの態様では、ＤＷ畳み込み（例えば、１６行及び３２列）を実行するＣＩＭバンクのために比較的小さいタイルサイズを使用して、電力を節約するためにより多くの数のＣＩＭセルが非活性化されることを可能にすることができる。例えば、（例えば、複数のタイルを有する）３つのＣＩＭセルグループは、ニューラルネットワークアーキテクチャの逆ボトルネックを実行するように設計することができる。逆ボトルネック演算は、一般に、入力特徴を拡張するために使用される演算を指し、その後、ＤＷ畳み込み、及びＰＷ畳み込みを介したＤＷ出力次元の低減が続く。

[0119] 一実施例として、第１のＣＩＭセルグループ（ＣＩＭ１）は、ボトルネック演算のために使用することができ、第２のＣＩＭセルグループ（ＣＩＭ２）は、ＤＷ畳み込み演算のために使用することができ、第３のＣＩＭセルグループ（ＣＩＭ３）は、ボトルネック演算のために使用することができる。いくつかの態様では、ＤＷ畳み込みのためのＣＩＭ２は、ＣＩＭアレイ利用率を改善するために、より細かいタイリング構成（例えば、３×３のカーネルを実装するために１６行、又は５×５のカーネルを実装するために３２行）を有することができるが、ＣＩＭ１及びＣＩＭ３は、非ＤＷ畳み込み演算についてのフィラーセルの影響を回避するために、粗粒度のタイリング（例えば、６４行又は１２８行）を有することができる。このようにして、ＣＩＭアレイライブラリの再利用性は、ＤＷ演算及び非ＤＷ演算に対して倍増することができる。

[0120] 粗粒度のタイリング（例えば、各タイルが１０２４行を有するＣＩＭアレイの６４行及び３２列を使用する）による平均（例えば、近似）ＣＩＭ利用率は、３×３のカーネルに対して１３．８％、５×５のカーネルに対して３１．４４％であり得る。言い換えれば、ＣＩＭアレイ内のアクティブメモリセルの１３．８％のみを３×３のカーネルのために利用することができ、ＣＩＭアレイ内のアクティブメモリセルの３１．４４％を５×５のカーネルのために利用することができる。一方、（例えば、タイル当たり１６行及び３２列を使用する、及び１０２４行を有するＣＩＭアレイによる）細粒度タイリングによる平均ＣＩＭ利用率は、３×３のカーネルに対して４０．４６％、５×５のカーネルに対して４７．６４％であり得る。（例えば、１０２４行を有するＣＩＭアレイのタイル当たり３２行及び３２列を使用する）細粒度タイリングによる平均ＣＩＭ利用率は、３×３のカーネルに対して２４．１８％、５×５のカーネルに対して４７．６４％であり得る。したがって、細かいタイリングにより、（例えば、多くの一般的なＤＷ－ＣＮＮアーキテクチャに使用されるものなどの）より小さいカーネルサイズのフィルタに対してＣＩＭアレイ利用率が改善される。ＣＩＭアレイの利用率を改善することにより、利用されるアクティブメモリセルの割合が高くなり、利用されないアクティブメモリセルによって引き起こされる電力損失が低減される。

[0121] 一般に、利用率は、カーネルサイズにより近いタイリングサイズを（例えば、チップ設計中に）選択することによって改善することができる。例えば、１６のタイルサイズは、９のカーネルサイズに対して使用することができる。いくつかの態様では、タイルサイズは、異なるニューラルネットワークモデルを扱うための柔軟性を改善するために、カーネルサイズよりも２のべき乗（対数スケール）大きいように決定することができる。

ＣＩＭアレイにおいてニューラルネットワーク処理を実行するための例示的な動作
[0122] 図１２は、本開示のいくつかの態様による、ニューラルネットワークにおける信号処理のための例示的な動作１２００を示すフロー図である。動作１２００は、図１３に関して説明したＣＩＭコントローラ１３３２などのコントローラと、ＣＩＭシステム８００などのＣＩＭシステムとを含むことができる、ニューラルネットワークシステムによって実行することができる。

[0123] 動作１２００は、ブロック１２０５において、ニューラルネットワークシステムが、メモリ内計算（ＣＩＭ）アレイ（例えば、ＣＩＭアレイ８０２）の１つ以上の第１の列（例えば、列８１０、８１２）上の複数のＣＩＭセルグループを使用して実装された複数のカーネル（例えば、カーネル８０６、８０８、８０９）を介して複数の深さ方向（ＤＷ）畳み込み演算を実行することによって開始する。一実施例として、複数のＤＷ畳み込み演算を実行することは、１つ以上の第１の列を介して、複数のカーネルのうちの第１のカーネル（例えば、カーネル８０６）の第１の複数の重みパラメータを複数のＣＩＭセルグループのうちのＣＩＭセルの第１のセットであって、ＣＩＭアレイの第１の複数の行（例えば、行８１４）を含むＣＩＭセルの第１のセットにロードすることと、第１の複数の行に第１の活性化入力を（例えば、活性化ｂｕｇｇｅｒｓ８３０を介して）適用することを含む、第１のカーネルを介して複数のＤＷ畳み込み演算のうちの第１のＤＷ畳み込み演算を実行することと、を含むことができる。複数のＤＷ畳み込み演算を実行することはまた、１つ以上の第１の列を介して、複数のカーネルのうちの第２のカーネル（例えば、カーネル８０８）の第２の複数の重みパラメータを複数のＣＩＭセルグループのうちのＣＩＭセルの第２のセットであって、ＣＩＭアレイの１つ以上の第１の列及び第２の複数の行（例えば、行８２０）を含み、第１の複数の行が第２の複数の行とは異なっている、ＣＩＭセルの第２のセットにロードすることと、第２の複数の行に第２の活性化入力を（例えば、活性化バッファ８３２を介して）適用することを含む、第２のカーネルを介して複数のＤＷ畳み込み演算のうちの第２のＤＷ畳み込み演算を実行することと、を含むことができる。いくつかの態様では、ＣＩＭセルの第１のセットは、ＣＩＭアレイのセルのサブセットを含み、ＣＩＭセルの第２のセットは、ＣＩＭアレイのセルの別のサブセットを含む。

[0124] ブロック１２１０において、ニューラルネットワークシステムは、複数のＤＷ畳み込み演算からの出力に基づいて、（例えば、ＡＤＣ８４０及び非線形演算回路８５０を介して）ＰＷ畳み込み演算のための入力信号を生成することができる。ブロック１２１５において、ニューラルネットワークシステムは、入力信号に基づいて、ＣＩＭアレイの１つ以上の第２の列上のＣＩＭセルグループを使用して実装されたカーネルを介して実行される、ＰＷ畳み込み演算を実行することができる。例えば、ＰＷ畳み込み演算を実行することは、第３の複数の重みを１つ以上の第２の列上のカーネルのためのＣＩＭセルグループにロードすることを含むことができる。いくつかの態様では、ニューラルネットワークシステムは、複数のＤＷ畳み込み演算を実行した後に、１つ以上の第１の列における電圧をアナログ領域からデジタル領域に変換することによって、デジタル信号を生成することができる。１つ以上の第２の列上のＣＩＭセルグループへの入力信号は、デジタル信号に基づいて生成することができる。

[0125] いくつかの態様では、カーネルは、本明細書に記載するように、ＣＩＭアレイの利用率を改善し、かつＡＤＣダイナミックレンジを改善するために、反復することができる。例えば、ニューラルネットワークシステムは、第１のＤＷ畳み込み演算を実行するために、１つ以上の第１の列を介して、第１の複数の重みパラメータを複数のＣＩＭセルグループのうちのＣＩＭセルの第３のセットであって、ＣＩＭアレイの１つ以上の第１の列及び第３の複数の行を含むＣＩＭセルの第３のセットにロードすることができる。

位相選択畳み込みを実行するための例示的な処理システム
[0126] 図１３は、例示的な電子デバイス１３００を示す。電子デバイス１３００は、図１２に関して説明した動作１２００を含む、本明細書に記載する方法を実行するように構成することができる。

[0127] 電子デバイス１３００は、中央処理装置（central processing unit、ＣＰＵ）１３０２を含み、ＣＰＵ１３０２は、いくつかの態様では、マルチコアＣＰＵであってもよい。ＣＰＵ１３０２において実行される命令は、例えば、ＣＰＵ１３０２に関連付けられたプログラムメモリからロードされてよく、又はメモリ１３２４からロードされてもよい。

[0128] 電子デバイス１３００はまた、グラフィックス処理ユニット（graphics processing unit、ＧＰＵ）１３０４、デジタル信号プロセッサ（ＤＳＰ）１３０６、ニューラル処理ユニット（neural processing unit、ＮＰＵ）１３０８、マルチメディア処理ブロック１３１０、マルチメディア処理ブロック１３１０、及び無線接続処理ブロック１３１２などの、特定の機能に調整された追加の処理ブロックを含む。一実装形態では、ＮＰＵ１３０８は、ＣＰＵ１３０２、ＧＰＵ１３０４、及び／又はＤＳＰ１３０６のうちの１つ以上に実装される。

[0129] いくつかの態様では、無線接続処理ブロック１３１２は、例えば、第３世代（third generation、３Ｇ）接続、第４世代（fourth generation、４Ｇ）接続（例えば、４ＧＬＴＥ（登録商標））、第５世代接続（例えば、５Ｇ又はＮＲ）、Ｗｉ－Ｆｉ接続、Ｂｌｕｅｔｏｏｔｈ（登録商標）接続、及び無線データ伝送標準用の構成要素を含んでもよい。無線接続処理ブロック１３１２は、無線通信を容易にするために、１つ以上のアンテナ１３１４に更に接続されている。

[0130] 電子デバイス１３００はまた、任意の様式のセンサに関連付けられた１つ以上のセンサプロセッサ１３１６、任意の様式の画像センサに関連付けられた１つ以上の画像信号プロセッサ（image signal processors、ＩＳＰ）１３１８、並びに／又は、衛星ベースの測位システム構成要素（例えば、ＧＰＳ又はＧＬＯＮＡＳＳ）並びに慣性測位システム構成要素を含んでもよいナビゲーションプロセッサ１３２０を含んでもよい。

[0131] 電子デバイス１３００はまた、スクリーン、タッチ感知面（タッチ感知ディスプレイを含む）、物理ボタン、スピーカ、マイクロフォンなどの１つ以上の入力及び／又は出力デバイス１３２２を含んでもよい。いくつかの態様では、電子デバイス１３００のプロセッサのうちの１つ以上は、ＡＲＭ命令セットに基づいてもよい。

[0132] 電子デバイス１３００はまた、メモリ１３２４を含み、メモリは、ダイナミックランダムアクセスメモリ、フラッシュベーススタティックメモリなどの１つ以上のスタティック及び／又はダイナミックメモリを表す。この実施例では、メモリ１３２４は、コンピュータ実行可能構成要素を含み、これは、電子デバイス１３００の前述のプロセッサのうちの１つ以上又はＣＩＭコントローラ１３３２によって実行されてもよい。例えば、電子デバイス１３００は、本明細書に記載されるように、ＣＩＭアレイ８０２及びＣＩＭアレイ８０４などの１つ以上のＣＩＭアレイを含むＣＩＭ回路１３２６を含むことができる。ＣＩＭ回路１３２６は、ＣＩＭコントローラ１３３２を介して制御することができる。例えば、いくつかの態様では、メモリ１３２４は、畳み込みの（例えば、活性化入力を適用することによってＤＷ又はＰＷ畳み込み演算を実行する）コード１３２４Ｂを含むことができる。メモリ１３２４はまた、入力信号を生成するコード１３２４Ｃを含むことができる。メモリ１３２４はまた、任意選択的に、ロードする（例えば、重みパラメータをＣＩＭセルにロードする）コード１３２４Ａを含むことができる。図示のように、ＣＩＭコントローラ１３３２は、畳み込みの（例えば、活性化入力を適用することによってＤＷ又はＰＷ畳み込み演算を実行する）ための回路１３２８Ｂを含むことができる。ＣＩＭコントローラ１３３２はまた、入力信号を生成するための回路１３２８Ｃを含んでもよい。ＣＩＭコントローラ１３３２はまた、任意選択的に、ロードする（例えば、重みパラメータをＣＩＭセルにロードする）ための回路１３２８Ａを含んでもよい。図示の構成要素及び図示されていない他の構成要素は、本明細書に記載する方法の様々な態様を実行するように構成することができる。

[0133] 電子デバイス１３００がサーバデバイスである場合などのいくつかの態様では、マルチメディア処理ブロック１３１０、無線接続構成要素１３１２、アンテナ１３１４、センサプロセッサ１３１６、ＩＳＰ１３１８、又はナビゲーション１３２０のうちの１つ以上などの様々な態様は、図１３に示す態様から省略することができる。

実施例条項
[0134] 態様１．ニューラルネットワークにおける信号処理のための装置であって、深さ方向（ＤＷ）ニューラルネットワーク計算のための第１のカーネルとして構成された第１のメモリ内計算（ＣＩＭ）セルであって、ＣＩＭセルの第１のセットが、ＣＩＭアレイの１つ以上の第１の列及び第１の複数の行を含む、第１のＣＩＭセルと、ニューラルネットワーク計算のための第２のカーネルとして構成されたＣＩＭセルの第２のセットであって、ＣＩＭアレイの１つ以上の第１の列及び第２の複数の行を含み、第１の複数の行が第２の複数の行とは異なっている、ＣＩＭセルの第２のセットと、点ごとの（ＰＷ）ニューラルネットワーク計算のための第３のカーネルとして構成されたＣＩＭアレイのＣＩＭセルの第３のセットと、を備える、装置。

[0135] 態様２．ＣＩＭセルの第１のセットが、ＣＩＭアレイのセルのサブセットを含み、ＣＩＭセルの第２のセットが、ＣＩＭアレイのセルの別のサブセットを含む、態様１に記載の装置。

[0136] 態様３．ＣＩＭセルの第３のセットが、ＣＩＭアレイのセルの第３のサブセットである、態様２に記載の装置。

[0137] 態様４．ＣＩＭセルの第３のセットが、ＣＩＭアレイの１つ以上の第２の列及び第１の複数の行を含み、１つ以上の第２の列が、１つ以上の第１の列とは異なっている、態様１から３のいずれか一項に記載の装置。

[0138] 態様５．１つ以上の第１の列に結合されたアナログデジタル変換器（ＡＤＣ）を更に備える、態様１から４のいずれか一項に記載の装置。

[0139] 態様６．ＡＤＣの出力に結合された非線形回路を更に備える、態様５に記載の装置。

[0140] 態様７．ニューラルネットワーク計算のための第３のカーネルとして構成されたＣＩＭセルの第３のセットを更に備え、ＣＩＭセルの第３のセットが、ＣＩＭアレイの１つ以上の第１の列及び第３の複数の行を含む、態様１から６のいずれか一項に記載の装置。

[0141] 態様８．ニューラルネットワーク計算を実行するときに、同じ重みパラメータが、ＣＩＭセルの第１のセット及びＣＩＭセルの第３のセットに記憶されるように構成されている、態様７に記載の装置。

[0142] 態様９．第１の複数の行の各行上のＣＩＭセルの第１のセットのうちの１つ以上が、第１の重みパラメータを記憶するように構成されており、第２の複数の行の各行上のＣＩＭセルの第２のセットのうちの１つ以上が、第２の重みパラメータを記憶するように構成されている、態様１から８のいずれか一項に記載の装置。

[0143] 態様１０．１つ以上の第１の列の量が、第１の重みパラメータの１つ以上のビットの量に関連付けられている、態様９に記載の装置。

[0144] 態様１１．ニューラルネットワークにおける信号処理の方法であって、メモリ内計算（ＣＩＭ）アレイの１つ以上の第１の列上の複数のＣＩＭセルグループを使用して実装された複数のカーネルを介して複数の深さ方向（ＤＷ）畳み込み演算を実行することと、複数のＤＷ畳み込み演算からの出力に基づいて、点ごとの（ＰＷ）畳み込み演算のための入力信号を生成することと、入力信号に基づいて、ＣＩＭアレイの１つ以上の第２の列上のＣＩＭセルグループを使用して実装されたカーネルを介して実行される、ＰＷ畳み込み演算を実行することと、を含む、方法。

[0145] 態様１２．複数のＤＷ畳み込み演算を実行することが、１つ以上の第１の列を介して、複数のカーネルのうちの第１のカーネルの第１の複数の重みパラメータを複数のＣＩＭセルグループのうちのＣＩＭセルの第１のセットであって、ＣＩＭアレイの第１の複数の行を含むＣＩＭセルの第１のセットにロードすることと、第１の複数の行に第１の活性化入力を適用することを含む、第１のカーネルを介して複数のＤＷ畳み込み演算のうちの第１のＤＷ畳み込み演算を実行することと、１つ以上の第１の列を介して、複数のカーネルのうちの第２のカーネルの第２の複数の重みパラメータを複数のＣＩＭセルグループのうちのＣＩＭセルの第２のセットであって、ＣＩＭアレイの１つ以上の第１の列及び第２の複数の行を含み、第１の複数の行が第２の複数の行とは異なっている、ＣＩＭセルの第２のセットにロードすることと、第２の複数の行に第２の活性化入力を適用することを含む、第２のカーネルを介して複数のＤＷ畳み込み演算のうちの第２のＤＷ畳み込み演算を実行することと、を含む、態様１１に記載の方法。

[0146] 態様１３．ＣＩＭセルの第１のセットが、ＣＩＭアレイのセルのサブセットを含み、ＣＩＭセルの第２のセットが、ＣＩＭアレイのセルの別のサブセットを含む、態様１２に記載の方法。

[0147] 態様１４．ＰＷ畳み込み演算を実行することが、第３の複数の重みを１つ以上の第２の列上のカーネルのためのＣＩＭセルグループにロードすることを含む、態様１３に記載の方法。

[0148] 態様１５．複数のＤＷ畳み込み演算を実行した後に、１つ以上の第１の列における電圧をアナログ領域からデジタル領域に変換することによって、デジタル信号を生成することを更に含み、１つ以上の第２の列上のＣＩＭセルグループへの入力信号が、デジタル信号に基づいて生成される、態様１４に記載の方法。

[0149] 態様１６．第１のＤＷ畳み込み演算を実行するために、１つ以上の第１の列を介して、第１の複数の重みパラメータを複数のＣＩＭセルグループのうちのＣＩＭセルの第３のセットであって、ＣＩＭアレイの１つ以上の第１の列及び第３の複数の行を含むＣＩＭセルの第３のセットにロードすることを更に含む、態様１２から１５のいずれか一項に記載の方法。

[0150] 態様１７．処理システムの１つ以上のプロセッサによって実行されると、処理システムに、ニューラルネットワークにおける信号処理の方法を実行させる命令を備える非一時的コンピュータ可読媒体であって、方法が、メモリ内計算（ＣＩＭ）アレイの１つ以上の第１の列上の複数のＣＩＭセルグループを使用して実装された複数のカーネルを介して複数の深さ方向（ＤＷ）畳み込み演算を実行することと、複数のＤＷ畳み込み演算からの出力に基づいて、点ごとの（ＰＷ）畳み込み演算のための入力信号を生成することと、入力信号に基づいて、ＣＩＭアレイの１つ以上の第２の列上のＣＩＭセルグループを介して実行される、ＰＷ畳み込み演算を実行することと、を含む、非一時的コンピュータ可読媒体。

[0151] 態様１８．複数のＤＷ畳み込み演算を実行することが、１つ以上の第１の列を介して、複数のカーネルのうちの第１のカーネルの第１の複数の重みパラメータを複数のＣＩＭセルグループのうちのＣＩＭセルの第１のセットであって、ＣＩＭアレイの第１の複数の行を含むＣＩＭセルの第１のセットにロードすることと、第１の複数の行に第１の活性化入力を適用することを含む、第１のカーネルを介して複数のＤＷ畳み込み演算のうちの第１のＤＷ畳み込み演算を実行することと、１つ以上の第１の列を介して、複数のカーネルのうちの第２のカーネルの第２の複数の重みパラメータを複数のＣＩＭセルグループのうちのＣＩＭセルの第２のセットであって、ＣＩＭアレイの１つ以上の第１の列及び第２の複数の行を含み、第１の複数の行が第２の複数の行とは異なっている、ＣＩＭセルの第２のセットにロードすることと、第２の複数の行に第２の活性化入力を適用することを含む、第２のカーネルを介して複数のＤＷ畳み込み演算のうちの第２のＤＷ畳み込み演算を実行することと、を含む、態様１７に記載の非一時的コンピュータ可読媒体。

[0152] 態様１９．ＣＩＭセルの第１のセットが、ＣＩＭアレイのセルのサブセットを含み、ＣＩＭセルの第２のセットが、ＣＩＭアレイのセルの別のサブセットを含む、態様１８に記載の非一時的コンピュータ可読媒体。

[0153] 態様２０．ＰＷ畳み込み演算を実行することが、第３の複数の重みを１つ以上の第２の列上の第３のカーネルのためのＣＩＭセルグループにロードすることを含む、態様１９に記載の非一時的コンピュータ可読媒体。

[0154] 態様２１．方法が、複数のＤＷ畳み込み演算を実行した後に、１つ以上の第１の列における電圧をアナログ領域からデジタル領域に変換することによって、デジタル信号を生成することを更に含み、１つ以上の第２の列上のＣＩＭセルグループへの入力信号が、デジタル信号に基づいて生成される、態様２０に記載の非一時的コンピュータ可読媒体。

[0155] 態様２２．方法が、第１のＤＷ畳み込み演算を実行するために、１つ以上の第１の列を介して、第１の複数の重みパラメータを複数のＣＩＭセルグループのうちのＣＩＭセルの第３のセットであって、ＣＩＭアレイの１つ以上の第１の列及び第３の複数の行を含むＣＩＭセルの第３のセットにロードすることを更に含む、態様１８から２１のいずれか一項に記載の非一時的コンピュータ可読媒体。

追加の考慮事項
[0156] 先行する説明は、本明細書に記載した様々な態様をあらゆる当業者が実践することを可能にするために提供される。本明細書に記載した実施例は、特許請求の範囲に記載された範囲、適用可能性、又は態様を限定するものではない。これらの態様の様々な修正は、当業者に容易に明らかになり、本明細書で定義される一般原理は、他の態様に適用することができる。例えば、本開示の範囲から逸脱することなく、説明する要素の機能及び構成に変更を行うことができる。様々な実施例は、必要に応じて、様々な手順又は構成要素を省略してもよく、置換してもよく、又は追加してもよい。例えば、説明する方法は、説明する順序とは異なる順序で実行されてもよく、様々なステップが追加されてもよく、省略されてもよく、又は組み合わされてもよい。また、いくつかの実施例に関して説明する特徴は、いくつかの他の実施例に組み合わされてもよい。例えば、本明細書に記載する任意の数の態様を使用して、装置が実装されてもよく、又は方法が実践されてもよい。加えて、本開示の範囲は、本明細書に記載される本開示の様々な態様に加えて、又はそれらの態様以外に、他の構造、機能、又は構造及び機能を使用して実践されるそのような装置又は方法を包含することを意図している。本明細書で開示する開示のいずれの態様も、特許請求の範囲の１つ以上の要素によって具現化できることを理解されたい。

[0157] 本明細書で使用されるとき、「例示的」という語は、「例、事例、又は例示としての役割を果たすこと」を意味する。「例示的」として本明細書に記載したいかなる態様も、必ずしも他の態様よりも好ましい又は有利であると解釈されるべきではない。

[0158] 本明細書で使用されるとき、項目の列挙「のうちの少なくとも１つ」を指す句は、それらの項目の任意の組み合わせを指し、単一のメンバーを含む。例として、「ａ、ｂ、又はｃのうちの少なくとも１つ」は、ａ、ｂ、ｃ、ａ－ｂ、ａ－ｃ、ｂ－ｃ、及びａ－ｂ－ｃ、並びに複数の同じ要素を有する任意の組み合わせ（例えば、ａ－ａ、ａ－ａ－ａ、ａ－ａ－ｂ、ａ－ａ－ｃ、ａ－ｂ－ｂ、ａ－ｃ－ｃ、ｂ－ｂ、ｂ－ｂ－ｂ、ｂ－ｂ－ｃ、ｃ－ｃ、及びｃ－ｃ－ｃ、又はａ、ｂ、及びｃの任意の他の順序）を包含するものとする。

[0159] 本明細書で使用されるとき、「決定すること／判定すること（determining）」という用語は、多種多様なアクションを包含する。例えば、「決定すること／判定すること」は、計算すること、算出すること、処理すること、導出すること、調査すること、ルックアップすること（例えば、テーブル、データベース、又は別のデータ構造においてルックアップすること）、確認することなどを含んでもよい。また、「決定すること／判定すること」は、受信すること（例えば、情報を受信すること）、アクセスすること（例えば、メモリ内のデータにアクセスすること）などを含むことができる。また、「決定すること／判定すること」は、解決すること、選択すること、選出すること、確立することなどを含むことができる。

[0160] 本明細書で開示する方法は、方法を達成するための１つ以上のステップ又はアクションを含む。方法ステップ及び／又はアクションは、特許請求の範囲から逸脱することなく互いに入れ替えてもよい。言い換えれば、ステップ又はアクションの具体的な順序が指定されない限り、具体的なステップ及び／又はアクションの順序及び／又は使用は、特許請求の範囲の範囲から逸脱することなく修正されてもよい。更に、上述した方法の様々な動作は、対応する機能を実行することが可能な任意の適切な手段によって実行されてもよい。手段は、限定はされないが、回路、特定用途向け集積回路（application specific integrated circuit、ＡＳＩＣ）、又はプロセッサを含む、様々なハードウェア及び／又はソフトウェア構成要素（単数又は複数）及び／又はモジュール（単数又は複数）を含んでもよい。概して、図に示された動作がある場合、それらの動作は、類似の番号付けを伴う対応する相対物のミーンズプラスファンクション構成要素を有してもよい。

[0161] 以下の特許請求の範囲は、本明細書で示される態様に限定されるものではなく、特許請求の範囲の文言と一致する全範囲を与えられるべきである。請求項において、単数形の要素への言及は、「唯一無二の」と明記されていない限り、それを意味するものではなく、「１つ以上の」を意味するものとする。別段に明記されていない限り、「いくつかの」という用語は１つ以上を指す。請求項の要素は、要素が「の手段」という句を使用して明白に記載されていない限り、又は方法クレームの場合には、要素が「のステップ」という句を使用して記載されていない限り、米国特許法第１１２条（ｆ）の規定の下で解釈されるべきではない。当業者に知られている又は後で知られることになる、本開示全体にわたって説明した様々な態様の要素の全ての構造的及び機能的な均等物は、参照により本明細書に明確に組み込まれ、特許請求の範囲によって包含されることが意図される。その上、本明細書に開示するものはいずれも、そのような開示が特許請求の範囲において明示的に列挙されているかどうかにかかわらず、公に供されることを意図するものではない。

Claims

ニューラルネットワークにおける信号処理のための装置であって、
深さ方向（ＤＷ）ニューラルネットワーク計算のための第１のカーネルとして構成されたメモリ内計算（ＣＩＭ）セルの第１のセットと、前記ＣＩＭセルの第1のセルは、ＣＩＭアレイの１つ以上の第１の列及び第１の複数の行を含み、
前記ニューラルネットワーク計算のための第２のカーネルとして構成されたＣＩＭセルの第２のセットと、前記ＣＩＭセルの第２のセットは、前記ＣＩＭアレイの前記１つ以上の第１の列及び第２の複数の行を含み、前記第１の複数の行が前記第２の複数の行とは異なり、
点ごとの（ＰＷ）ニューラルネットワーク計算のための第３のカーネルとして構成された前記ＣＩＭアレイのＣＩＭセルの第３のセットと、
を備える、装置。
前記ＣＩＭセルの第１のセットが、前記ＣＩＭアレイのセルのサブセットを含み、前記ＣＩＭセルの第２のセットが、前記ＣＩＭアレイのセルの別のサブセットを含む、請求項１に記載の装置。
前記ＣＩＭセルの第３のセットが、前記ＣＩＭアレイのセルの第３のサブセットである、請求項２に記載の装置。
前記ＣＩＭセルの第３のセットが、前記ＣＩＭアレイの１つ以上の第２の列及び前記第１の複数の行を含み、前記１つ以上の第２の列が、前記１つ以上の第１の列とは異なっている、請求項１に記載の装置。
前記１つ以上の第１の列に結合されたアナログデジタル変換器（ＡＤＣ）を更に備える、請求項１に記載の装置。
前記ＡＤＣの出力に結合された非線形回路を更に備える、請求項５に記載の装置。
前記ニューラルネットワーク計算のための第３のカーネルとして構成されたＣＩＭセルの第３のセットを更に備え、前記ＣＩＭセルの第３のセットが、前記ＣＩＭアレイの前記１つ以上の第１の列及び第３の複数の行を備える、請求項１に記載の装置。
前記ニューラルネットワーク計算を実行するときに、同じ重みパラメータが、前記ＣＩＭセルの第１のセット及び前記ＣＩＭセルの第３のセットに記憶されるように構成されている、請求項７に記載の装置。
前記第１の複数の行の各行上の前記ＣＩＭセルの第１のセットのうちの１つ以上が、第１の重みパラメータを記憶するように構成されており、
前記第２の複数の行の各行上の前記ＣＩＭセルの第２のセットのうちの１つ以上が、第２の重みパラメータを記憶するように構成されている、
請求項１に記載の装置。
前記１つ以上の第１の列の量が、前記第１の重みパラメータの１つ以上のビットの量に関連付けられている、請求項９に記載の装置。
ニューラルネットワークにおける信号処理の方法であって、
メモリ内計算（ＣＩＭ）アレイの１つ以上の第１の列上の複数のＣＩＭセルグループを使用して実装された複数のカーネルを介して複数の深さ方向（ＤＷ）畳み込み演算を実行することと、
前記複数のＤＷ畳み込み演算からの出力に基づいて、点ごとの（ＰＷ）畳み込み演算のための入力信号を生成することと、
前記入力信号に基づいて、ＰＷ畳み込み演算を実行することと、前記ＰＷ畳み込み演算は、前記ＣＩＭアレイの１つ以上の第２の列上のＣＩＭセルグループを使用して実装されたカーネルを介して実行され、
を備える、方法。
前記複数のＤＷ畳み込み演算を実行することが、
前記１つ以上の第１の列を介して、前記複数のカーネルのうちの第１のカーネルの第１の複数の重みパラメータを前記複数のＣＩＭセルグループのうちのＣＩＭセルの第１のセットに、ロードすることと、前記ＣＩＭセルの第１のセットは、前記ＣＩＭアレイの第１の複数の行を備え、
前記第１のカーネルを介して前記複数のＤＷ畳み込み演算のうちの第１のＤＷ畳み込み演算を実行することと、前記第１のＤＷ畳み込み演算を実行することは、前記第１の複数の行に第１の活性化入力を適用することを備え、
前記１つ以上の第１の列を介して、前記複数のカーネルのうちの第２のカーネルの第２の複数の重みパラメータを前記複数のＣＩＭセルグループのうちのＣＩＭセルの第２のセットにロードすることと、前記ＣＩＭセルの第２のセットは、前記ＣＩＭアレイの前記１つ以上の第１の列及び第２の複数の行を備え、前記第１の複数の行は前記第２の複数の行とは異なり、
前記第２のカーネルを介して前記複数のＤＷ畳み込み演算のうちの第２のＤＷ畳み込み演算を実行することと、前記第２のＤＷ畳み込み演算を実行することは、前記第２の複数の行に第２の活性化入力を適用することを備え、
を備える、
請求項１１に記載の方法。
前記ＣＩＭセルの第１のセットが、前記ＣＩＭアレイのセルのサブセットを含み、前記ＣＩＭセルの第２のセットが、前記ＣＩＭアレイのセルの別のサブセットを含む、請求項１２に記載の方法。
前記ＰＷ畳み込み演算を実行することが、第３の複数の重みを前記１つ以上の第２の列上の前記カーネルのための前記ＣＩＭセルグループにロードすることを備える、請求項１３に記載の方法。
前記複数のＤＷ畳み込み演算を実行した後に、前記１つ以上の第１の列における電圧をアナログ領域からデジタル領域に変換することによって、デジタル信号を生成することを更に備え、
前記１つ以上の第２の列上の前記ＣＩＭセルグループへの前記入力信号が、前記デジタル信号に基づいて生成される、
請求項１４に記載の方法。
前記第１のＤＷ畳み込み演算を実行するために、前記１つ以上の第１の列を介して、前記第１の複数の重みパラメータを前記複数のＣＩＭセルグループのうちのＣＩＭセルの第３のセットに、ロードすること、前記ＣＩＭセルの第３のセットは、前記ＣＩＭアレイの前記１つ以上の第１の列及び第３の複数の行を備え、
を更に備える、請求項１２に記載の方法。
処理システムの１つ以上のプロセッサによって実行されると、前記処理システムに、ニューラルネットワークにおける信号処理の方法を実行させる命令を備える非一時的コンピュータ可読媒体であって、前記方法が、
メモリ内計算（ＣＩＭ）アレイの１つ以上の第１の列上の複数のＣＩＭセルグループを使用して実装された複数のカーネルを介して複数の深さ方向（ＤＷ）畳み込み演算を実行することと、
前記複数のＤＷ畳み込み演算からの出力に基づいて、点ごとの（ＰＷ）畳み込み演算のための入力信号を生成することと、
前記入力信号に基づいて、ＰＷ畳み込み演算を実行することと、前記ＰＷ畳み込み演算は、前記ＣＩＭアレイの１つ以上の第２の列上のＣＩＭセルグループを介して実行され、
を備える、
非一時的コンピュータ可読媒体。
前記複数のＤＷ畳み込み演算を実行することが、
前記１つ以上の第１の列を介して、前記複数のカーネルのうちの第１のカーネルの第１の複数の重みパラメータを前記複数のＣＩＭセルグループのうちのＣＩＭセルの第１のセットにロードすることと、前記ＣＩＭセルの第１のセットは、前記ＣＩＭアレイの第１の複数の行を備え、
前記第１のカーネルを介して前記複数のＤＷ畳み込み演算のうちの第１のＤＷ畳み込み演算を実行することと、前記第１のＤＷ畳み込み演算を実行することは、前記第１の複数の行に第１の活性化入力を適用することを備え、
前記１つ以上の第１の列を介して、前記複数のカーネルのうちの第２のカーネルの第２の複数の重みパラメータを前記複数のＣＩＭセルグループのうちのＣＩＭセルの第２のセットにロードすることと、前記ＣＩＭセルの第２のセットは、前記ＣＩＭアレイの前記１つ以上の第１の列及び第２の複数の行を備え、前記第１の複数の行は前記第２の複数の行とは異なり、
前記第２のカーネルを介して前記複数のＤＷ畳み込み演算のうちの第２のＤＷ畳み込み演算を実行することと、前記第２のＤＷ畳み込み演算を実行することは、前記第２の複数の行に第２の活性化入力を適用することを備え、
を備える、
請求項１７に記載の非一時的コンピュータ可読媒体。
前記ＣＩＭセルの第１のセットが、前記ＣＩＭアレイのセルのサブセットを含み、前記ＣＩＭセルの第２のセットが、前記ＣＩＭアレイのセルの別のサブセットを含む、請求項１８に記載の非一時的コンピュータ可読媒体。
前記ＰＷ畳み込み演算を実行することが、第３の複数の重みを前記１つ以上の第２の列上の第３のカーネルのための前記ＣＩＭセルグループにロードすることを備える、請求項１９に記載の非一時的コンピュータ可読媒体。
前記方法が、
前記複数のＤＷ畳み込み演算を実行した後に、前記１つ以上の第１の列における電圧をアナログ領域からデジタル領域に変換することによって、デジタル信号を生成することを更に備え、
前記１つ以上の第２の列上の前記ＣＩＭセルグループへの前記入力信号が、前記デジタル信号に基づいて生成される、
請求項２０に記載の非一時的コンピュータ可読媒体。
前記方法が、前記第１のＤＷ畳み込み演算を実行するために、前記１つ以上の第１の列を介して、前記第１の複数の重みパラメータを前記複数のＣＩＭセルグループのうちのＣＩＭセルの第３のセットにロードすること、前記ＣＩＭセルの第３のセットは、前記ＣＩＭアレイの前記１つ以上の第１の列及び第３の複数の行を備える、
を更に備える、請求項１８に記載の非一時的コンピュータ可読媒体。