JP7385657B2

JP7385657B2 - 深層学習人工ニューラルネットワークにおけるアナログニューラルメモリのプログラミングのための精密な調整

Info

Publication number: JP7385657B2
Application number: JP2021520973A
Authority: JP
Inventors: バントラン、ヒュー; レムケ、スティーブン; ティワリ、ビピン; ドー、ナン; レイテン、マーク
Original assignee: Silicon Storage Technology Inc
Current assignee: Silicon Storage Technology Inc
Priority date: 2018-10-16
Filing date: 2019-07-25
Publication date: 2023-11-22
Anticipated expiration: 2039-07-25
Also published as: TW202025172A; US11482530B2; US10741568B2; JP2024023266A; WO2020081140A1; CN112868063B; US20210098477A1; KR20210049179A; US20200119028A1; US20200335511A1; CN112868063A; JP2022505073A; US20230031487A1; KR102361803B1; TWI751441B; EP3867911B1; TW202213360A; TWI799006B; US11729970B2; KR20220025131A

Description

（優先権の主張）
本出願は、２０１８年１０月１６日に出願された「ＰｒｅｃｉｓｉｏｎＴｕｎｉｎｇＦｏｒｔｈｅＰｒｏｇｒａｍｍｉｎｇＯｆＡｎａｌｏｇＮｅｕｒａｌＭｅｍｏｒｙＩｎＡＤｅｅｐＬｅａｒｎｉｎｇＡｒｔｉｆｉｃｉａｌＮｅｕｒａｌＮｅｔｗｏｒｋ」と題する米国特許仮出願第６２／７４６，４７０号、及び２０１８年１２月２１日に出願された「ＰｒｅｃｉｓｉｏｎＴｕｎｉｎｇＦｏｒｔｈｅＰｒｏｇｒａｍｍｉｎｇＯｆＡｎａｌｏｇＮｅｕｒａｌＭｅｍｏｒｙＩｎＡＤｅｅｐＬｅａｒｎｉｎｇＡｒｔｉｆｉｃｉａｌＮｅｕｒａｌＮｅｔｗｏｒｋ」と題する米国特許出願第１６／２３１，２３１号の優先権を主張する。

（発明の分野）
人工ニューラルネットワーク内のベクトル行列乗算（ＶＭＭ）アレイ内の不揮発性メモリセルの浮遊ゲートに正確な量の電荷を精密かつ迅速に堆積させるための精密調整アルゴリズム及び装置の多数の実施形態が開示される。

人工ニューラルネットワークは、生物学的ニューラルネットワーク（動物の中枢神経系、特に脳）を模倣しており、多数の入力に依存し得、かつ、一般的に未知である関数を推定する又は近似するために使用される。人工ニューラルネットワークは、概して、メッセージを交換する相互接続した「ニューロン」の層を含む。

図１は人工ニューラルネットワークを示しており、図中、円は、入力又はニューロンの層を表す。接続（シナプスと呼ばれる）は、矢印によって表され、経験に基づいて調整され得る数値の重みを有する。これにより、ニューラルネットワークは入力に適応し、学習可能になる。典型的には、ニューラルネットワークは、複数の入力の層を含む。典型的には、１つ以上のニューロンの中間層、及びニューラルネットワークの出力を提供するニューロンの出力層が存在する。それぞれのレベルでニューロンは、シナプスから受け取ったデータに基づいて個々に又は合わせて決定を行う。

高性能情報処理用の人工ニューラルネットワークの開発における主要な課題の１つは、適切なハードウェア技術の欠如である。実際には、実用ニューラルネットワークは、非常に多数のシナプスに依拠しており、これによりニューロン間の高い接続性、すなわち、非常に高度な計算処理の並列化が可能となる。原理的には、このような複雑性は、デジタルスーパーコンピュータ又は専用ＧＰＵ（グラフィックプロセッシングユニット）クラスタによって実現が可能である。しかしながら、高コストに加え、これらのアプローチはまた、生物学的ネットワークが主として低精度のアナログ計算を実施するのではるかに少ないエネルギーしか消費しないのと比較して、エネルギー効率が劣っていることに悩まされている。人工ニューラルネットワークにはＣＭＯＳアナログ回路が使用されてきたが、ほとんどのＣＭＯＳ実装シナプスは、多数のニューロン及びシナプスを前提とすると、嵩高過ぎていた。

出願人は以前に、参照により組み込まれる米国特許出願第１５／５９４，４３９号において、シナプスとして１つ以上の不揮発性メモリアレイを利用する人工（アナログ）ニューラルネットワークを開示した。不揮発性メモリアレイは、アナログニューロモーフィックメモリとして動作する。ニューラルネットワークデバイスは、第１の複数の入力を受け取り、それから第１の複数の出力を生成するように構成されている第１の複数のシナプス、及び第１の複数の出力を受け取るように構成された第１の複数のニューロンを含む。第１の複数のシナプスは複数のメモリセルを含み、各メモリセルは、半導体基板内に形成された、間にチャネル領域が延在している離間したソース領域及びドレイン領域と、チャネル領域の第１の部分の上方に配設され、チャネル領域の第１の部分から絶縁された浮遊ゲートと、チャネル領域の第２の部分の上方に配設され、チャネル領域の第２の部分から絶縁された非浮遊ゲートと、を含む。複数のメモリセルのそれぞれは、浮遊ゲート上の多くの電子に対応する重み値を格納するように構成されている。複数のメモリセルは、第１の複数の入力に、格納された重み値を乗算して第１の複数の出力を生成するように構成される。

アナログニューロモーフィックメモリシステムに使用される各不揮発性メモリセルは、消去・プログラムに対応して、浮遊ゲート内に電荷、すなわち電子の数、を非常に特異的かつ正確な量で保持しなければならない。例えば、各浮遊ゲートはＮ個の異なる値のうちの１つを保持しなければならず、ここで、Ｎは、各セルによって示され得る異なる重みの数である。Ｎの例としては、１６、３２、６４、１２８及び２５６が挙げられる。

ＶＭＭシステムにおける１つの課題は、選択されたセルを、Ｎの異なる値に必要とされる精度及び粒度でプログラムする能力である。例えば、選択されたセルが６４個の異なる値のうちの１つを含むことができる場合、プログラム動作において極めて高い精度が必要とされる。

必要とされるのは、アナログニューロモーフィックメモリシステムにおいてＶＭＭと共に使用するのに適した、改善されたプログラミングシステム及び方法である。

人工ニューラルネットワーク内のベクトル行列乗算（ＶＭＭ）アレイ内の不揮発性メモリセルの浮遊ゲートに正確な量の電荷を精密かつ迅速に堆積させるための精密調整アルゴリズム及び装置について、多数の実施形態が開示される。それにより、選択されたセルは、Ｎ個の異なる値のうちの１つを保持するために、極めて高い精度でプログラミングすることができる。

人工ニューラルネットワークを示す図である。先行技術のスプリットゲート型フラッシュメモリセルを示す。別の先行技術のスプリットゲート型フラッシュメモリセルを示す。別の先行技術のスプリットゲート型フラッシュメモリセルを示す。別の先行技術のスプリットゲート型フラッシュメモリセルを示す。１つ以上の不揮発性メモリアレイを利用する例示的な人工ニューラルネットワークの各レベルを示す図である。ベクトル行列乗算システムを示すブロック図である。１つ以上のベクトル行列乗算システムを利用する例示的な人工ニューラルネットワークを示すブロック図である。ベクトル行列乗算システムの別の実施形態を示す。ベクトル行列乗算システムの別の実施形態を示す。ベクトル行列乗算システムの別の実施形態を示す。ベクトル行列乗算システムの別の実施形態を示す。ベクトル行列乗算システムの別の実施形態を示す。先行技術の長・短期記憶システムを示す。長・短期記憶システムで使用する例示的なセルを示す。図１５の例示的なセルの一実施形態を示す。図１５の例示的なセルの別の実施形態を示す。先行技術のゲート付き回帰型ユニットシステムを示す。ゲート付き回帰型ユニットシステムで使用する例示的なセルを示す。図１９の例示的なセルの一実施形態を示す。図１９の例示的なセルの別の実施形態を示す。不揮発性メモリセルをプログラミングする方法の一実施形態を示す。不揮発性メモリセルをプログラミングする方法の別の実施形態を示す。粗プログラミング方法の一実施形態を示す。不揮発性メモリセルのプログラミングで使用される例示的なパルスを示す。不揮発性メモリセルのプログラミングで使用される例示的なパルスを示す。セルの傾斜特性に基づいてプログラミングパラメータを調節する、不揮発性メモリセルのプログラミングのための較正アルゴリズムを示す。図２６の較正アルゴリズムで使用される回路を示す。不揮発性メモリセルのプログラミングのための較正アルゴリズムを示す。図２８の較正アルゴリズムで使用される回路を示す。プログラミング動作中に不揮発性メモリセルの制御ゲートに印加された電圧の例示的な進行を示す。プログラミング動作中に不揮発性メモリセルの制御ゲートに印加された電圧の例示的な進行を示す。ベクトル乗算行列システム内の不揮発性メモリセルのプログラミング中にプログラミング電圧を印加するためのシステムを示す。電荷加算器回路を示す。電流加算器回路を示す。デジタル加算器回路を示す。ニューロン出力用の積分型アナログデジタル変換器の一実施形態を示す。図３６Ａの積分型アナログデジタル変換器の経時的な電圧出力を示すグラフを示す。ニューロン出力用の積分型アナログデジタル変換器の別の実施形態を示す。図３６Ｃの積分型アナログデジタル変換器の経時的な電圧出力を示すグラフを示す。ニューロン出力用の積分型アナログデジタル変換器の別の実施形態を示す。ニューロン出力用の積分型アナログデジタル変換器の別の実施形態を示す。ニューロン出力用の逐次比較型アナログデジタル変換器を示す。ニューロン出力用の逐次比較型アナログデジタル変換器を示す。シグマデルタ型アナログデジタル変換器の一実施形態を示す。

本発明の人工ニューラルネットワークは、ＣＭＯＳ技術及び不揮発性メモリアレイの組み合わせを利用する。
不揮発性メモリセル

デジタル不揮発性メモリは、周知である。例えば、参照により本明細書に組み込まれる、米国特許第５，０２９，１３０号（「’１３０号特許」）は、フラッシュメモリセルの一種である、スプリットゲート型不揮発性メモリセルのアレイを開示する。このようなメモリセル２１０を図２に示す。各メモリセル２１０は、半導体基板１２内に形成されたソース領域１４とドレイン領域１６と、を含み、ソース領域１４とドレイン領域１６の間にはチャネル領域１８がある。浮遊ゲート２０は、チャネル領域１８の第１の部分の上方に形成され、チャネル領域１８の第１の部分から絶縁され（並びに、チャネル領域１８の第１の部分の導電性を制御して）、ソース領域１４の一部分の上方にかけて形成される。ワード線端子２２（典型的には、ワード線に結合される）は、チャネル領域１８の第２の部分の上方に配設され、チャネル領域１８の第２の部分から絶縁された、（並びに、チャネル領域１８の第２の部分の導電性を制御する）第１の部分と、上に向かって浮遊ゲート２０の上方にかけて延在する第２の部分と、を有する。浮遊ゲート２０及びワード線端子２２は、ゲート酸化物によって基板１２から絶縁される。ビット線２４はドレイン領域１６に結合される。

ワード線端子２２に高圧正電圧を印加することによって、メモリセル２１０に対して消去が行われ（電子が浮遊ゲートから除去される）、これによって、浮遊ゲート２０の電子は、浮遊ゲート２０からワード線端子２２までそれらの間にある絶縁体の中をファウラーノルドハイム（Fowler-Nordheim）トンネリングを介して通過する。

メモリセル２１０は、ワード線端子２２に正電圧、及びソース領域１４に正電圧を印加することによってプログラムされる（電子が浮遊ゲートに印加される）。電子電流は、ソース領域１４からドレイン領域１６に向かって流れる。電子は加速し、ワード線端子２２と浮遊ゲート２０との間の間隙に達すると、発熱する。熱せられた電子の一部が、浮遊ゲート２０からの静電引力に起因して、浮遊ゲート２０にゲート酸化物を介して注入される。

メモリセル２１０は、ドレイン領域１６及びワード線端子２２に正の読み出し電圧を印加する（ワード線端子の下方のチャネル領域１８の部分をオンにする）ことによって、読み出される。浮遊ゲート２０が正に帯電する（すなわち、電子を消去する）と、浮遊ゲート２０の下方のチャネル領域１８の部分も同様にオンになり、電流はチャネル領域１８を流れ、これは、消去された状態つまり「１」の状態として検知される。浮遊ゲート２０が負に帯電する（すなわち、電子でプログラムされる）と、浮遊ゲート２０の下方のチャネル領域の部分はほとんど又は完全にオフになり、電流はチャネル領域１８を流れず（又はほとんど流れず）、これは、プログラムされた状態つまり「０」の状態として検出される。

表１は、読み出し、消去、及びプログラム動作を実行するためのメモリセル１１０の端子に印加できる典型的な電圧範囲を示す。
表１：図３のフラッシュメモリセル２１０の動作

他の種類のフラッシュメモリセルとして、他のスプリットゲート型メモリセル構成も知られている。例えば、図３は、ソース領域１４と、ドレイン領域１６と、チャネル領域１８の第１の部分の上方にある浮遊ゲート２０と、チャネル領域１８の第２の部分の上方にある選択ゲート２２（典型的には、ワード線、ＷＬ、に結合される）と、浮遊ゲート２０の上方にある制御ゲート２８と、ソース領域１４の上方にある消去ゲート３０と、を含む４ゲートメモリセル３１０を示す。この構成は、あらゆる目的のため参照により本明細書に組み込まれる、米国特許第６，７４７，３１０号に記載されている。ここで、全てのゲートは、浮遊ゲート２０を除いて、非浮遊ゲートであり、つまり、それらは電圧源に電気的に接続される又は接続可能である。プログラミングは、熱せられた電子がチャネル領域１８から浮遊ゲート２０にその電子自体を注入することによって実行される。消去は、電子が浮遊ゲート２０から消去ゲート３０へトンネリングすることによって実行される。

表２は、読み出し、消去、及びプログラム動作を実行するためのメモリセル３１０の端子に印加され得る典型的な電圧範囲を示す。
表２：図３のフラッシュメモリセル３１０の動作

図４は、別の種類のフラッシュメモリセルである、３ゲートメモリセル４１０を示す。メモリセル４１０は、メモリセル４１０が別個の制御ゲートを有しないことを除いて、図３のメモリセル３１０と同一である。消去動作（消去ゲートの使用を通して消去が起こる）及び読み出し動作は、制御ゲートバイアスが印加されないことを除いて、図３のものと同様である。プログラミング動作もまた、制御ゲートバイアスなしで行われるため、結果として、プログラム動作中は、制御ゲートバイアスの不足を補償するため、より高い電圧がソース線に印加されなければならない。

表３は、読み出し、消去、及びプログラム動作を実行するためのメモリセル４１０の端子に印加され得る典型的な電圧範囲を示す。
表３：図４のフラッシュメモリセル４１０の動作

図５は、別の種類のフラッシュメモリセルである、積層ゲートメモリセル５１０を示す。メモリセル５１０は、浮遊ゲート２０がチャネル領域１８全体の上方にわたって延在し、制御ゲート２２（ワード線に結合される）が絶縁層（図示せず）によって分離された浮遊ゲート２０の上方に延在することを除いて、図２のメモリセル２１０と同様である。消去、プログラミング、及び読み出し動作は、メモリセル２１０について前述したものと同様の方法で動作する。

表４は、読み出し、消去、及びプログラム動作を実行するためのメモリセル５１０及び基板１２の端子に印加され得る典型的な電圧範囲を示す。
表４：図５のフラッシュメモリセル５１０の動作

上記の人工ニューラルネットワークにおける不揮発性メモリセルの種類のうちの１つを含むメモリアレイを利用するために、２つの修正が行われる。第１に、以下に更に説明されるように、アレイ内の他のメモリセルのメモリ状態に悪影響を与えずに各メモリセルを個々にプログラム、消去、及び読み出しできるように線を構成する。第２に、メモリセルの連続（アナログ）プログラミングを提供する。

具体的には、アレイ内の各メモリセルのメモリ状態（すなわち、浮遊ゲート上の電荷）を、完全に消去された状態から完全にプログラムされた状態へ、独立して、かつ他のメモリセルの異常が最小で、連続的に変更することができる。別の実施形態では、アレイ内の各メモリセルのメモリ状態（すなわち、浮遊ゲートの電荷）を、完全にプログラムされた状態から完全に消去された状態へ、及び逆もまた同様に、独立して、かつ他のメモリセルの異常が最小で、連続的に変更することができる。これはつまり、セル格納がアナログであるか、又は多数の不連続値（１６又は６４の異なる値など）のうちの１つを最低限格納できることを意味し、これにより、メモリアレイ内の全てのセルが非常に正確に、かつ個別に調整可能となり、またメモリアレイは格納に対して理想的になり、ニューラルネットワークのシナプシスの重みに微調整が可能となる。
不揮発性メモリセルアレイを使用するニューラルネットワーク

図６は、本実施形態の不揮発性メモリアレイを利用するニューラルネットワークの非限定実施例を概念的に示す。この例は、顔認識アプリケーション用に不揮発性メモリアレイニューラルネットワークを使用するが、不揮発性メモリアレイベースのニューラルネットワークを使用して他の適切なアプリケーションを実施することも可能である。

Ｓ０は入力層であり、この例では、５ビット精度の３２×３２ピクセルＲＧＢ画像である（すなわち、各色Ｒ、Ｇ、及びＢにつき１つずつで３つの３２×３２ピクセルアレイであり、各ピクセルは５ビット精度である）。入力層Ｓ０から層Ｃ１に行くシナプスＣＢ１は、一部のインスタンスには異なる重みのセットを適用し、他のインスタンスには共有の重みを適用し、入力画像を３×３ピクセルの重なり合うフィルタでスキャンし（カーネル）、１ピクセル（又はモデルによっては２ピクセル以上）ずつフィルタをシフトする。具体的には、画像の３×３部分における９ピクセルの値（すなわち、フィルタ又はカーネルと呼ばれる）はシナプスＣＢ１に提供され、そこでこれらの９個の入力値に適切な重みを乗算し、その乗算の出力を合計後、単一の出力値が決定され、特徴マップＣ１の層の１つのピクセルを生成するためにＣＢ１の第１のシナプスによって与えられる。３×３フィルタは次に、入力層Ｓ０内で右側に１ピクセルだけシフトされ（すなわち、３ピクセルの列を右側に追加し、左側で３ピクセルの列をドロップする）、これにより、この新しく位置づけられたフィルタの９ピクセル値はシナプスＣＢ１に提供され、そこでそれらに上記と同じ重みを乗算し、関連するシナプスによって第２の単一の出力値を決定する。このプロセスを、３×３フィルタが入力層Ｓ０の３２×３２ピクセル画像全体にわたって３色全て及び全てのビット（精度値）についてスキャンするまで続ける。プロセスは次に、層Ｃ１の特徴マップ全てが計算されるまで、異なる重みのセットを使用して繰り返されて、Ｃ１の異なる特徴マップを生成する。

本例では、層Ｃ１において、それぞれ３０×３０ピクセルを有する１６個の特徴マップが存在する。各ピクセルは、入力とカーネルとの乗算から抽出された新しい特徴ピクセルであり、したがって、各特徴マップは、２次元アレイであり、したがってこの例では、層Ｃ１は、２次元アレイの１６層を構成する（本明細書で言及される層及びアレイは、必ずしも物理的関係ではなく論理的な関係であり、すなわち、アレイは必ずしも物理的な２次元アレイに配向されないことに留意されたい）。層Ｃ１内の１６個の特徴マップの各々は、フィルタスキャンに適用された異なるシナプス重みのセット１６個のうちの１つによって生成される。Ｃ１特徴マップは全て、境界同定など、同じ画像特徴の異なる態様を対象とすることができる。例えば、第１のマップ（この第１のマップを生成するのに使用される全てのスキャンに共有される第１の重みセットを使用して生成される）は、円形エッジを識別することができ、第２のマップ（第１の重みセットと異なる第２の重みセットを使用して生成される）は、方形エッジ又は特定の特徴のアスペクト比などを識別することができる。

層Ｃ１から層Ｓ１へ行く前には、各特徴マップ内の重なり合わずに連続する２×２領域からの値をプールする活性化関数Ｐ１（プーリング）が適用される。プーリング関数の目的は、近隣の位置を平均すること（又はｍａｘ関数を使用することも可能である）、例えばエッジ位置の依存を低減すること、及び次の段階に行く前にデータサイズを低減することである。層Ｓ１において、１６個の１５×１５特徴マップ（すなわち、それぞれ１５×１５ピクセルの異なるアレイ１６個）が存在する。層Ｓ１から層Ｃ２に行くシナプスＣＢ２は、Ｓ１内のマップを４×４フィルタにより１ピクセルのフィルタシフトでスキャンする。層Ｃ２において、２２個の１２×１２特徴マップが存在する。層Ｃ２から層Ｓ２へ行く前には、各特徴マップ内の重なり合わずに連続する２×２領域からの値をプールする活性化関数Ｐ２（プーリング）が適用される。層Ｓ２において、２２個の６×６特徴マップが存在する。層Ｓ２から層Ｃ３へ行くシナプスＣＢ３では活性化関数（プーリング）が適用され、ここで層Ｃ３内の全てのニューロンは、ＣＢ３のそれぞれのシナプスを介して層Ｓ２内の全てのマップに接続する。層Ｃ３において、６４個のニューロンが存在する。層Ｃ３から出力層Ｓ３へと行くシナプスＣＢ４は、Ｃ３をＳ３に完全に接続する、すなわち、層Ｃ３内の全てのニューロンは、層Ｓ３内の全てのニューロンに接続される。Ｓ３における出力は、１０個のニューロンを含み、ここで出力が最も高いニューロンが、クラスを決定する。この出力は、例えば、元の画像の内容の同定又は分類を示すことができる。

シナプスの各層は、不揮発性メモリセルのアレイ又はアレイの一部を使用して実行される。

図７は、その目的のために使用可能なアレイのブロック図である。ベクトル行列乗算（Vector-by-matrix multiplication、ＶＭＭ）アレイ３２は、不揮発性メモリセルを含み、ある層と次の層との間のシナプス（図６のＣＢ１、ＣＢ２、ＣＢ３、及びＣＢ４など）として利用される。具体的には、ＶＭＭアレイ３２は、不揮発性メモリセルのアレイ３３、消去ゲート及びワード線ゲートデコーダ３４、制御ゲートデコーダ３５、ビット線デコーダ３６、並びにソース線デコーダ３７を含み、それらのデコーダは不揮発性メモリセルアレイ３３に対するそれぞれの入力をデコードする。ＶＭＭアレイ３２への入力は、消去ゲート及びワード線ゲートデコーダ３４から、又は制御ゲートデコーダ３５から行うことができる。この例におけるソース線デコーダ３７はまた、不揮発性メモリセルアレイ３３の出力をデコードする。あるいは、ビット線デコーダ３６が、不揮発性メモリセルアレイ３３の出力をデコードすることができる。

不揮発性メモリセルアレイ３３は、２つの目的を果たす。第１に、ＶＭＭアレイ３２によって使用される重みを格納する。第２に、不揮発性メモリセルアレイ３３は、不揮発性メモリセルアレイ３３に格納された重みによって、入力を有効に乗算して、それらを出力線（ソース線又はビット線）ごとに加算して、出力を生成し、この出力は次の層への入力又は最後の層への入力になる。不揮発性メモリセルアレイ３３が乗算及び加算の関数を実行することで、別個の乗算及び加算の論理回路の必要性はなくなり、また、メモリ内の計算により電力効率も良い。

不揮発性メモリセルアレイ３３の出力は、不揮発性メモリセルアレイ３３の出力を合計してその畳み込み用の単一の値を作成する、差動加算器（加算オペアンプ又は加算カレントミラーなど）３８に供給される。差動加算器３８は、正の重み及び負の重みの総和を実行するように配置される。

差動加算器３８の合計された出力値は、次に出力を整流する活性化関数回路３９に供給される。活性化関数回路３９は、シグモイド、ｔａｎｈ、又はＲｅＬＵ関数を提供し得る。活性化関数回路３９の整流された出力値は、次の層（例えば図６のＣ１）として特徴マップの要素になり、次いで、次のシナプスに適用されて次の特徴マップ層又は最後の層を生成する。したがって、この例では、不揮発性メモリセルアレイ３３は、複数のシナプスを構成し（ニューロンの前の層から、又は画像データベースなどの入力層から、入力を受け取る）、加算オペアンプ３８及び活性化関数回路３９は、複数のニューロンを構成する。

図７のＶＭＭアレイ３２への入力（ＷＬｘ、ＥＧｘ、ＣＧｘ、及び任意選択的にＢＬｘ及びＳＬｘ）は、アナログレベル、バイナリレベル、又はデジタルビット（この場合、ＤＡＣは、デジタルビットを適切な入力アナログレベルに変換するために提供される）であり得、出力は、アナログレベル、バイナリレベル、又はデジタルビットであり得る（この場合、出力ＡＤＣは出力アナログレベルをデジタルビットに変換するために提供される）。

図８は、図中でＶＭＭアレイ３２ａ、３２ｂ、３２ｃ、３２ｄ及び３２ｅとして標示されたＶＭＭアレイ３２の多数の層の使用を示すブロック図である。図８に示されるように、入力（Ｉｎｐｕｔｘで示される）は、デジタルアナログ変換器３１によってデジタルからアナログに変換され、入力ＶＭＭアレイ３２ａに提供される。変換されたアナログ入力は、電圧又は電流であり得る。第１の層の入力Ｄ／Ａ変換は、入力ＶＭＭアレイ３２ａの行列乗算器の適切なアナログレベルに入力Ｉｎｐｕｔｘをマッピングする関数又はＬＵＴ（ルックアップテーブル）を使用することによって行うことができる。入力変換はまた、外部アナログ入力を入力ＶＭＭアレイ３２ａへのマッピングされたアナログ入力に変換するために、アナログ－アナログ（Ａ／Ａ）変換器によって行うこともできる。

入力ＶＭＭアレイ３２ａによって生成された出力は、次に、次のＶＭＭアレイ（隠しレベル１）３２ｂへの入力として提供され、次に入力ＶＭＭアレイ（隠しレベル２）３２ｃへの入力として提供される出力を生成する、などとなる。ＶＭＭアレイ３２の様々な層は、畳み込みニューラルネットワーク（convolutional neural network、ＣＮＮ）のシナプス及びニューロンの各層として機能する。ＶＭＭアレイ３２ａ、３２ｂ、３２ｃ、３２ｄ及び３２ｅはそれぞれスタンドアローンの物理的不揮発性メモリアレイとすることができ、又は複数のＶＭＭアレイは、同じ物理的不揮発性メモリアレイの異なる部分を利用することができ、又は複数のＶＭＭアレイは、同じ物理的不揮発性メモリアレイの重なり合う部分を利用することができる。図８に示される例は、５つの層（３２ａ、３２ｂ、３２ｃ、３２ｄ、３２ｅ）、すなわち、１つの入力層（３２ａ）、２つの隠れ層（３２ｂ、３２ｃ）、及び２つの完全に接続された層（３２ｄ、３２ｅ）を含む。当業者であれば、これは単なる例示であり、代わりにシステムが２つを超える隠れ層及び２つを超える完全に接続された層を含み得ることを理解するであろう。
ベクトル行列乗算（ＶＭＭ）アレイ

図９は、図３に示されるメモリセル３１０に特に適したニューロンＶＭＭアレイ９００を示し、入力層と次の層との間でシナプス及びニューロンの一部として利用される。ＶＭＭアレイ９００は、不揮発性メモリセルのメモリアレイ９０１と、不揮発性基準メモリセルの基準アレイ９０２（アレイの頂部に位置する）と、を含む。あるいは、別の基準アレイが底部に位置することができる。

ＶＭＭアレイ９００では、制御ゲート線９０３などの制御ゲート線が垂直方向に延びており（したがって、行方向の基準アレイ９０２が、制御ゲート線９０３に直交する）、消去ゲート線９０４などの消去ゲート線が水平方向に延びている。ここで、ＶＭＭアレイ９００への入力は、制御ゲート線（ＣＧ０、ＣＧ１、ＣＧ２、ＣＧ３）に提供され、ＶＭＭアレイ９００の出力はソース線（ＳＬ０、ＳＬ１）に現れる。一実施形態では、偶数行のみが使用され、別の実施形態では、奇数行のみが使用される。各ソース線（それぞれＳＬ０、ＳＬ１）に加えられる電流は、その特定のソース線に接続されたメモリセルからの全ての電流の合計関数を実行する。

ニューラルネットワークについて本明細書に記載されているように、ＶＭＭアレイ９００の不揮発性メモリセル、すなわちＶＭＭアレイ９００のフラッシュメモリは、サブスレッショルド領域で動作するように構成されることが好ましい。

本明細書に記載される不揮発性基準メモリセル及び不揮発性メモリセルは、以下のように弱い反転でバイアスされる：
Ｉｄｓ＝Ｉｏ^*ｅ^(Vg-Vth)/kVt＝ｗ^*Ｉｏ^*ｅ^(Vg)/kVt
式中、ｗ＝ｅ^(-Vth)/kVtである。

メモリセル（基準メモリセル又は周辺メモリセルなど）又はトランジスタを使用して入力電流を入力電圧に変換するＩ－Ｖログ変換器を使用した場合：
Ｖｇ＝ｋ^*Ｖｔ^*ｌｏｇ［Ｉｄｓ／ｗｐ^*Ｉｏ］
式中、ｗｐは、基準又は周辺メモリセルのｗである。

ベクトル行列乗算器ＶＭＭアレイとして使用されるメモリアレイについて、出力電流は以下である：
Ｉｏｕｔ＝ｗａ^*Ｉｏ^*ｅ^(Vg)/kVt、すなわち
Ｉｏｕｔ＝（ｗａ／ｗｐ）^*Ｉｉｎ＝Ｗ^*Ｉｉｎ
Ｗ＝ｅ^{(Vthp-Vtha)/kVt}
式中、メモリアレイの各メモリセルのｗａ＝ｗである。

ワード線又は制御ゲートは、入力電圧のためのメモリセルの入力として使用することができる。

あるいは、本明細書に記載されたＶＭＭアレイのフラッシュメモリセルは、線形領域で動作するように構成することができる。
Ｉｄｓ＝β^*（Ｖｇｓ－Ｖｔｈ）^*Ｖｄｓ；β＝ｕ^*Ｃｏｘ^*Ｗ／Ｌ
Ｗ＝α（Ｖｇｓ－Ｖｔｈ）

ワード線又は制御ゲート又はビット線又はソース線は、線形領域内で動作するメモリセルの入力として使用することができる。

Ｉ－Ｖ線形変換器用に、線形領域で動作するメモリセル（基準メモリセル又は周辺メモリセルなど）又はトランジスタを使用して、入出力電流を入出力電圧に線形変換することができる。

図７のＶＭＭアレイ３２のための他の実施形態は、参照により本明細書に組み込まれる米国特許出願第１５／８２６，３４５号に記載されている。上記出願に記載されているように、ソース線又はビット線は、ニューロン出力（電流和出力）として使用することができる。

図１０は、図２に示されるメモリセル２１０に特に適したニューロンＶＭＭアレイ１０００を示し、入力層と次の層との間のシナプスとして利用される。ＶＭＭアレイ１０００は、不揮発性メモリセルのメモリアレイ１００３と、第１の不揮発性基準メモリセルの基準アレイ１００１と、第２の不揮発性基準メモリセルの基準アレイ１００２と、を含む。アレイの列方向に配置された基準アレイ１００１及び１００２は、端子ＢＬＲ０、ＢＬＲ１、ＢＬＲ２、及びＢＬＲ３に流入する電流入力を電圧入力ＷＬ０、ＷＬ１、ＷＬ２、及びＷＬ３に変換するように機能する。実際には、第１及び第２の不揮発性基準メモリセルは、電流入力が流入する状態で、マルチプレクサ１０１４（一部のみ示す）を通してダイオード接続される。基準セルは、標的基準レベルに調整（例えば、プログラム）される。標的基準レベルは、基準ミニアレイマトリックス（図示せず）によって提供される。

メモリアレイ１００３は、２つの目的を果たす。第１に、ＶＭＭアレイ１０００により使用される重みを、それぞれのメモリセルに格納する。第２に、メモリアレイ１００３は、メモリセルアレイ１００３に格納された重みによって、入力（すなわち、端子ＢＬＲ０、ＢＬＲ１、ＢＬＲ２、及びＢＬＲ３に提供された電流入力であり、これを基準アレイ１００１及び１００２が電圧入力に変換して、ワード線ＷＬ０、ＷＬ１、ＷＬ２、及びＷＬ３に供給する）を有効に乗算して、次いで、全ての結果（メモリセル電流）を加算して、それぞれのビット線（ＢＬ０～ＢＬＮ）上の出力を生成し、この出力は次の層への入力又は最後の層への入力となる。メモリアレイ１００３が乗算及び加算の関数を実行することで、別個の乗算及び加算の論理回路の必要性はなくなり、また、電力効率も良い。ここで、電圧入力はワード線ＷＬ０、ＷＬ１、ＷＬ２、及びＷＬ３に提供され、出力は、読み出し（推論）動作中にビット線ＢＬ０～ＢＬＮそれぞれに現れる。各々のビット線ＢＬ０～ＢＬＮに配置された電流は、その特定のビット線に接続された全ての不揮発性メモリセルからの電流の合計関数を実行する。

表５は、ＶＭＭアレイ１０００の動作電圧を示す。表中の列は、選択セルのワード線、非選択セルのワード線、選択セルのビット線、非選択セルのビット線、選択セルのソース線、及び非選択セルのソース線に加えられる電圧を示す。行は、読み出し、消去、及びプログラムの各動作を示す。
表５：図１０のＶＭＭアレイ１０００の動作

図１１は、図２に示されるメモリセル２１０に特に適したニューロンＶＭＭアレイ１１００を示し、入力層と次の層との間でシナプス及びニューロンの一部として利用される。ＶＭＭアレイ１１００は、不揮発性メモリセルのメモリアレイ１１０３と、第１の不揮発性基準メモリセルの基準アレイ１１０１と、第２の不揮発性基準メモリセルの基準アレイ１１０２と、を含む。基準アレイ１１０１及び１１０２は、ＶＭＭアレイ１１００の行方向に延びる。ＶＭＭアレイは、ＶＭＭアレイ１１００においてワード線が垂直方向に延びることを除いて、ＶＭＭ１０００と同様である。ここで、入力はワード線（ＷＬＡ０、ＷＬＢ０、ＷＬＡ１、ＷＬＢ２、ＷＬＡ２、ＷＬＢ２、ＷＬＡ３、ＷＬＢ３）に提供され、出力は、読み出し動作中にソース線（ＳＬ０、ＳＬ１）に現れる。各ソース線に加えられる電流は、その特定のソース線に接続されたメモリセルからの全ての電流の合計関数を実行する。

表６は、ＶＭＭアレイ１１００の動作電圧を示す。表中の列は、選択セルのワード線、非選択セルのワード線、選択セルのビット線、非選択セルのビット線、選択セルのソース線、及び非選択セルのソース線に加えられる電圧を示す。行は、読み出し、消去、及びプログラムの各動作を示す。
表６：図１１のＶＭＭアレイ１１００の動作

図１２は、図３に示されるメモリセル３１０に特に適したニューロンＶＭＭアレイ１２００を示し、入力層と次の層との間でシナプス及びニューロンの一部として利用される。ＶＭＭアレイ１２００は、不揮発性メモリセルのメモリアレイ１２０３と、第１の不揮発性基準メモリセルの基準アレイ１２０１と、第２の不揮発性基準メモリセルの基準アレイ１２０２と、を含む。基準アレイ１２０１及び１２０２は、端子ＢＬＲ０、ＢＬＲ１、ＢＬＲ２、及びＢＬＲ３に流入する電流入力を電圧入力ＣＧ０、ＣＧ１、ＣＧ２、及びＣＧ３に変換するように機能する。実際には、第１及び第２の不揮発性基準メモリセルは、電流入力がＢＬＲ０、ＢＬＲ１、ＢＬＲ２、及びＢＬＲ３を通って流入する状態で、マルチプレクサ１２１２（一部のみ示す）を通してダイオード接続される。マルチプレクサ１２１２は、読み出し動作中に第１及び第２の不揮発性基準メモリセルの各々のビット線（ＢＬＲ０など）上の一定電圧を確実にするために、それぞれのマルチプレクサ１２０５及びカスコーディングトランジスタ１２０４を各々含む。基準セルは、標的基準レベルに調整される。

メモリアレイ１２０３は、２つの目的を果たす。第１に、ＶＭＭアレイ１２００によって使用される重みを格納する。第２に、メモリアレイ１２０３は、メモリセルアレイに格納された重みによって、入力（端子ＢＬＲ０、ＢＬＲ１、ＢＬＲ２、及びＢＬＲ３に提供された電流入力であり、基準アレイ１２０１及び１２０２がこれらの電流入力を入力電圧に変換して、制御ゲート（ＣＧ０、ＣＧ１、ＣＧ２、及びＣＧ３）に供給する）を有効に乗算して、次いで、全ての結果（セル電流）を加算して出力を生成し、この出力はＢＬ０～ＢＬＮに出現し、次の層への入力又は最後の層への入力となる。メモリアレイが乗算及び加算の関数を実行することで、別個の乗算及び加算の論理回路の必要性がなくなり、また、電力効率も良い。ここで、入力は制御ゲート線（ＣＧ０、ＣＧ１、ＣＧ２、及びＣＧ３）に提供され、出力は、読み出し動作中にビット線（ＢＬ０～ＢＬＮ）に現れる。各ビット線に加えられる電流は、その特定のビット線に接続されたメモリセルからの全ての電流の合計関数を実行する。

ＶＭＭアレイ１２００は、メモリアレイ１２０３内の不揮発性メモリセルの一方向調整を実施する。すなわち、各不揮発性メモリセルは消去され、次いで、浮遊ゲート上の所望の電荷に達するまで部分的にプログラムされる。これは、例えば、以下に記載される新規の精密プログラミング技術を使用して実行することができる。過度に多くの電荷が浮遊ゲートに加えられる場合（誤った値がセルに格納されるなど）、セルは消去されなければならず、一連の部分的なプログラミング動作をやり直さなければならない。示されるように、同じ消去ゲート（ＥＧ０又はＥＧ１など）を共有する２つの行は、一緒に消去される必要があり（ページ消去として知られる）、その後、各セルは、浮遊ゲート上の所望の電荷に達するまで部分的にプログラムされる。

表７は、ＶＭＭアレイ１２００の動作電圧を示す。表中の列は、選択セルのワード線、非選択セルのワード線、選択セルのビット線、非選択セルのビット線、選択セルの制御ゲート、選択セルと同じセクタ内の非選択セルの制御ゲート、選択セルとは異なるセクタ内の非選択セルの制御ゲート、選択セルの消去ゲート、非選択セルの消去ゲート、選択セルのソース線、及び非選択セルのソース線に加えられる電圧を示す。行は、読み出し、消去、及びプログラムの各動作を示す。
表７：図１２のＶＭＭアレイ１２００の動作

図１３は、図３に示されるメモリセル３１０に特に適したニューロンＶＭＭアレイ１３００を示し、入力層と次の層との間でシナプス及びニューロンの一部として利用される。ＶＭＭアレイ１３００は、不揮発性メモリセルのメモリアレイ１３０３と、基準アレイ１３０１又は第１の不揮発性基準メモリセルと、第２の不揮発性基準メモリセルの基準アレイ１３０２とを含む。ＥＧ線ＥＧＲ０、ＥＧ０、ＥＧ１、及びＥＧＲ１は垂直に延び、ＣＧ線ＣＧ０、ＣＧ１、ＣＧ２、及びＣＧ３並びにＳＬ線ＷＬ０、ＷＬ１、ＷＬ２、及びＷＬ３は水平に延びる。ＶＭＭアレイ１３００は、ＶＭＭアレイ１３００が双方向調整を実装することを除いてＶＭＭアレイ１４００と同様であり、個々のセルは、個別のＥＧ線の使用により、浮遊ゲート上の所望の電荷量に達するために、完全に消去され、部分的にプログラムされ、必要に応じて部分的に消去することができる。示されるように、基準アレイ１３０１及び１３０２は、端子ＢＬＲ０、ＢＬＲ１、ＢＬＲ２及びＢＬＲ３内の入力電流を制御ゲート電圧ＣＧ０、ＣＧ１、ＣＧ２及びＣＧ３に変換し（マルチプレクサ１３１４を介したダイオード接続された基準セルの作用を通じて）、これらの電圧は行方向でメモリセルに印加される。電流出力（ニューロン）は、ビット線ＢＬ０～ＢＬＮ中にあり、各ビット線は、その特定のビット線に接続された不揮発性メモリセルからの全ての電流を合計する。

表８は、ＶＭＭアレイ１３００の動作電圧を示す。表中の列は、選択セルのワード線、非選択セルのワード線、選択セルのビット線、非選択セルのビット線、選択セルの制御ゲート、選択セルと同じセクタ内の非選択セルの制御ゲート、選択セルとは異なるセクタ内の非選択セルの制御ゲート、選択セルの消去ゲート、非選択セルの消去ゲート、選択セルのソース線、及び非選択セルのソース線に加えられる電圧を示す。行は、読み出し、消去、及びプログラムの各動作を示す。
表８：図１３のＶＭＭアレイ１３００の動作

長・短期記憶

先行技術は、長・短期メモリ（long short-term memory、ＬＳＴＭ）として知られる概念を含む。ＬＳＴＭユニットは、しばしば、ニューラルネットワーク内で使用される。ＬＳＴＭによって、ニューラルネットワークは所定の任意の期間にわたって情報を記憶し、後続の動作においてその情報を使用することができる。従来のＬＳＴＭユニットは、セル、入力ゲート、出力ゲート、及び忘却ゲートを含む。３つのゲートは、セル内及びセル外への情報の流れ、及び情報がＬＳＴＭ内で記憶される期間を調整する。ＶＭＭは、ＬＳＴＭユニットにおいて特に有用である。

図１４は、例示的なＬＳＴＭ１４００を示す。この例におけるＬＳＴＭ１４００は、セル１４０１、１４０２、１４０３及び１４０４を含む。セル１４０１は、入力ベクトルｘ₀を受け取り、出力ベクトルｈ₀及びセル状態ベクトルｃ₀を生成する。セル１４０２は、入力ベクトルｘ₁と、セル１４０１からの出力ベクトル（隠れ状態）ｈ₀と、セル１４０１からのセル状態ベクトルｃ₀とを受け取り、出力ベクトルｈ₁とセル状態ベクトルｃ₁とを生成する。セル１４０３は、入力ベクトルｘ₂と、セル１４０２からの出力ベクトル（隠れ状態）ｈ₁と、セル１４０２からのセル状態ベクトルｃ₁とを受け取り、出力ベクトルｈ₂とセル状態ベクトルｃ₂とを生成する。セル１４０４は、入力ベクトルｘ₃と、セル１４０３からの出力ベクトル（隠れ状態）ｈ₂と、セル１４０３からのセル状態ベクトルｃ₂とを受け取り、出力ベクトルｈ₃を生成する。追加のセルも使用可能であり、４つのセルを有するＬＳＴＭは、単なる例である。

図１５は、図１４のセル１４０１、１４０２、１４０３及び１４０４に使用可能なＬＳＴＭセル１５００の例示的な実装を示す。ＬＳＴＭセル１５００は、入力ベクトルｘ（ｔ）と、先行するセルからのセル状態ベクトルｃ（ｔ－１）と、先行するセルからの出力ベクトルｈ（ｔ－１）とを受け取り、セル状態ベクトルｃ（ｔ）及び出力ベクトルｈ（ｔ）を生成する。

ＬＳＴＭセル１５００は、シグモイド関数デバイス１５０１、１５０２、及び１５０３を含み、各々が０～１の数を適用することで、入力ベクトルの各成分が出力ベクトルに寄与する程度を制御する。ＬＳＴＭセル１５００はまた、入力ベクトルに双曲線正接関数を適用するためのｔａｎｈデバイス１５０４及び１５０５と、２つのベクトルを乗算するための乗算器デバイス１５０６、１５０７、及び１５０８と、２つのベクトルを加算するための加算デバイス１５０９と、を含む。出力ベクトルｈ（ｔ）は、システム内の次のＬＳＴＭセルに提供することができ、又は他の目的でアクセスすることができる。

図１６は、ＬＳＴＭセル１５００の一実装例であるＬＳＴＭセル１６００を示す。読者の便宜のために、ＬＳＴＭセル１５００からの同じ採番方法が、ＬＳＴＭセル１６００で使用される。シグモイド関数デバイス１５０１、１５０２及び１５０３、並びにｔａｎｈデバイス１５０４は各々、複数のＶＭＭアレイ１６０１及び活性化回路ブロック１６０２を含む。したがって、ＶＭＭアレイは、特定のニューラルネットワークシステムで使用されるＬＳＴＭセルにおいて特に有用であることが理解できる。

ＬＳＴＭセル１６００の代替例（及びＬＳＴＭセル１５００の実装の別の例）を図１７に示す。図１７では、シグモイド関数デバイス１５０１、１５０２及び１５０３、並びにｔａｎｈデバイス１５０４は、同じ物理ハードウェア（ＶＭＭアレイ１７０１及び活性化関数ブロック１７０２）を、時分割多重化された方式で共有する。ＬＳＴＭセル１７００はまた、２つのベクトルを乗算するための乗算器デバイス１７０３と、２つのベクトルを加算するための加算器デバイス１７０８と、（活性化回路ブロック１７０２を含む）ｔａｎｈデバイス１５０５と、シグモイド関数ブロック１７０２から出力される値ｉ（ｔ）を格納するレジスタ１７０７と、マルチプレクサ１７１０を介して乗算器デバイス１７０３から出力される値ｆ（ｔ）^*ｃ（ｔ－１）を格納するレジスタ１７０４と、マルチプレクサ１７１０を介して乗算器デバイス１７０３から出力される値ｉ（ｔ）^*ｕ（ｔ）を格納するレジスタ１７０５と、マルチプレクサ１７１０とマルチプレクサ１７０９を介して乗算器デバイス１７０３から出力される値ｏ（ｔ）^*ｃ～（ｔ）を格納する、レジスタ１７０６とを含む。

ＬＳＴＭセル１６００が複数のＶＭＭアレイ１６０１とそれぞれの活性化関数ブロック１６０２のセットを複数含むのに対し、ＬＳＴＭセル１７００は、ＬＳＴＭセル１７００の実施形態において複数の層を表すために使用されるＶＭＭアレイ１７０１と活性化関数ブロック１７０２のセットを１つのみ含む。ＬＳＴＭセル１７００は、ＬＳＴＭセル１６００と比較して、ＶＭＭ及び活性化関数ブロックのために必要とするスペースは１／４で済むので、ＬＳＴＭ１６００よりも必要とするスペースが少ない。

ＬＳＴＭユニットは典型的には複数のＶＭＭアレイを含み、これらは各々、加算器及び活性化回路ブロック及び高電圧生成ブロックなどの、ＶＭＭアレイの外側の特定の回路ブロックによって提供される機能を必要とすることが理解できる。各ＶＭＭアレイのための別個の回路ブロックを提供することは、半導体デバイス内のかなりの量のスペースを必要とし、幾分非効率的であろう。したがって、以下に記載される実施形態では、ＶＭＭアレイ自体の外側に必要とされる回路の最小化を試みる。
ゲート付き回帰型ユニット

アナログＶＭＭ実装は、ゲート付き回帰型ユニット（gated recurrent unit、ＧＲＵ）システムに利用することができる。ＧＲＵは、反復ニューラルネットワーク内のゲート機構である。ＧＲＵは、ＧＲＵセルが一般にＬＳＴＭセルよりも少ない構成要素を含むことを除いて、ＬＳＴＭに類似している。

図１８は、例示的なＧＲＵ１８００を示す。この例におけるＧＲＵ１８００は、セル１８０１、１８０２、１８０３及び１８０４を含む。セル１８０１は入力ベクトルｘ₀を受け取り、出力ベクトルｈ₀を生成する。セル１８０２は、入力ベクトルｘ₁と、セル１８０１からの出力ベクトルｈ₀とを受け取り、出力ベクトルｈ₁を生成する。セル１８０３は、入力ベクトルｘ₂と、セル１８０２からの出力ベクトル（隠れ状態）ｈ₁とを受け取り、出力ベクトルｈ₂を生成する。セル１８０４は、入力ベクトルｘ₃と、セル１８０３からの出力ベクトル（隠れ状態）ｈ₂とを受け取り、出力ベクトルｈ₃を生成する。追加のセルも使用可能であり、４つのセルを有するＧＲＵは、単なる例である。

図１９は、図１８のセル１８０１、１８０２、１８０３及び１８０４に使用可能なＧＲＵセル１９００の例示的な実装を示す。ＧＲＵセル１９００は、入力ベクトルｘ（ｔ）と、先行するＧＲＵセルからの出力ベクトルｈ（ｔ－１）とを受け取り、出力ベクトルｈ（ｔ）を生成する。ＧＲＵセル１９００は、シグモイド関数デバイス１９０１及び１９０２を含み、各々が、出力ベクトルｈ（ｔ－１）及び入力ベクトルｘ（ｔ）からの成分に０～１の数を適用する。ＧＲＵセル１９００はまた、入力ベクトルに双曲線正接関数を適用するためのｔａｎｈデバイス１９０３と、２つのベクトルを乗算するための乗算器デバイス１９０４、１９０５及び１９０６と、２つのベクトルを加算するための加算器デバイス１９０７と、１から入力を減算して出力を生成するコンプリメンタリデバイス１９０８とを含む。

図２０は、ＧＲＵセル１９００の一実装例であるＧＲＵセル２０００を示す。読者の便宜のために、ＧＲＵセル１９００からの同じ採番方法が、ＧＲＵセル２０００で使用される。図２０から分かるように、シグモイド関数デバイス１９０１及び１９０２、並びにｔａｎｈデバイス１９０３は各々、複数のＶＭＭアレイ２００１及び活性化関数ブロック２００２を含む。したがって、ＶＭＭアレイは、特定のニューラルネットワークシステムで使用されるＧＲＵセルにおいて特に使用されることが理解できる。

ＧＲＵセル２０００の代替例（及びＧＲＵセル１９００の実装の別の例）を図２１に示す。図２１において、ＧＲＵセル２１００は、ＶＭＭアレイ２１０１及び活性化関数ブロック２１０２を使用しており、シグモイド関数として構成された場合には、０～１の数を適用することで、入力ベクトルの各成分が出力ベクトルに寄与する程度を制御する。図２１では、シグモイド関数デバイス１９０１及び１９０２、並びにｔａｎｈデバイス１９０３は、同じ物理ハードウェア（ＶＭＭアレイ２１０１及び活性化関数ブロック２１０２）を、時分割多重化された方式で共有する。ＧＲＵセル２１００はまた、２つのベクトルを乗算するための乗算器デバイス２１０３と、２つのベクトルを加算するための加算器デバイス２１０５と、１から入力を減算して出力を生成するためのコンプリメンタリデバイス２１０９と、マルチプレクサ２１０４と、マルチプレクサ２１０４を介して乗算器デバイス２１０３から出力される値ｈ（ｔ－１）^*ｒ（ｔ）を保持するレジスタ２１０６と、マルチプレクサ２１０４を介して乗算器デバイス２１０３から出力される値ｈ（ｔ－１）^*ｚ（ｔ）を保持するレジスタ２１０７と、マルチプレクサ２１０４を介して乗算器デバイス２１０３から出力される値ｈ＾（ｔ）^*（１－ｚ（（ｔ））を保持するレジスタ２１０８と、を含む。

ＧＲＵセル２０００が複数のＶＭＭアレイ２００１と活性化関数ブロック２００２のセットを複数含むのに対し、ＧＲＵセル２１００は、ＧＲＵセル２１００の実施形態において複数の層を表すために使用されるＶＭＭアレイ２１０１と活性化関数ブロック２１０２のセット１つのみを含む。ＧＲＵセル２１００は、ＧＲＵセル２０００と比較して、ＶＭＭ及び活性化関数ブロックのために必要とするスペースは１／３で済むので、ＧＲＵセル２０００よりも必要とするスペースが少ない。

ＧＲＵシステムは典型的には複数のＶＭＭアレイを含み、これらは各々、加算器及び活性化回路ブロック及び高電圧生成ブロックなどの、ＶＭＭアレイの外側の特定の回路ブロックによって提供される機能を必要とすることが理解できる。各ＶＭＭアレイのための別個の回路ブロックを提供することは、半導体デバイス内にかなりの量のスペースを必要とし、幾分非効率的であろう。したがって、以下に記載される実施形態では、ＶＭＭアレイ自体の外側に必要とされる回路の最小化を試みる。

ＶＭＭアレイへの入力は、アナログレベル、バイナリレベル、又はデジタルビット（この場合、デジタルビットを適切な入力アナログレベルに変換するためにＤＡＣが必要とされる）であり、出力はアナログレベル、バイナリレベル、又はデジタルビット（この場合、出力アナログレベルをデジタルビットに変換するために出力ＡＤＣが必要とされる）であり得る。

ＶＭＭアレイ内の各メモリセルに関して、各重みｗは、単一のメモリセルによって、又は差分セルによって、又は２つのブレンドメモリセル（２つのセルの平均）によって実装することができる。差分セルの場合では、重みｗを差分重み（ｗ＝ｗ＋－ｗ－）として実装するために、２つのメモリセルが必要とされる。２つのブレンドメモリセルの場合は、２つのセルの平均として重みｗを実装するために２つのメモリセルが必要とされる。
ＶＭＭ内のセルの精密プログラミングのための実施形態

図２２Ａは、プログラミング方法２２００を示す。最初に、方法は、典型的には受け取られるプログラムコマンドに応じて、開始する（ステップ２２０１）。次に、一斉プログラム動作が、全てのセルを「０」状態にプログラムする（ステップ２２０２）。次いで、各セルが読み出し動作中に約３～５μＡの電流を引き込むように、ソフト消去動作が、全てのセルに対して中間弱消去レベルに消去を行う（ステップ２２０３）。これは、読み出し動作中に各セルが約２０～３０μＡの電流を引き込む、深く消去されたレベルとは対照的である。次いで、全ての非選択セルで非常に深いプログラムされた状態までセルの浮遊ゲートに電子を追加するハードプログラムが実行されて（ステップ２２０４）、それらのセルが本当に「オフ」であることを確実にし、すなわち、それらのセルは読み出し動作中に無視できる量の電流しか引き込まない。

次いで、粗プログラミング方法が、選択されたセルで実行され（ステップ２２０５）、続いて精密プログラミング方法が、選択されたセルで実行されて（ステップ２２０６）、各選択されたセルに所望される精密な値をプログラムする。

図２２Ｂは、プログラミング方法２２００と同様の別のプログラミング方法２２１０を示す。しかしながら、方法が開始した後（ステップ２２０１）、図２２Ａのステップ２２０２でのように全てのセルを「０」状態にプログラムするプログラム動作の代わりに、消去動作が使用されて、全てのセルに対して消去を行って「１」状態にする（ステップ２２１２）。次いで、各セルが読み出し動作中に約３～５ｕＡの電流を引き込むように、ソフトプログラム動作（ステップ２２１３）が使用されて、全てのセルを中間状態（レベル）にプログラムする。その後、図２２Ａの場合と同様に、粗プログラミング方法及び精密プログラミング方法が続く。図２２Ｂの実施形態の変形は、ソフトプログラミング方法（ステップ２２１３）を完全に除去する。

図２３は、検索及び実行方法２３００である、粗プログラミング方法２２０５の第１の実施形態を示す。最初に、ルックアップテーブル検索を実行して、選択されたセルの粗標的電流値（Ｉ_CT）を、その選択されたセルに記憶されることが意図される値に基づいて決定する（ステップ２３０１）。選択されたセルは、Ｎ個の可能な値（例えば、１２８、６４、３２など）のうちの１つを記憶するようにプログラムできるとする。Ｎ個の値のそれぞれは、選択されたセルによって読み出し動作中に引き込まれた異なる所望の電流値（Ｉ_D）に対応し得る。一実施形態では、ルックアップテーブルは、検索及び実行方法２３００の実施中に、選択されたセルの粗標的電流値Ｉ_CTとして使用する、Ｍ個の可能な電流値を含んでもよく、ＭはＮ未満の整数である。例えば、Ｎが８である場合、Ｍは４であってもよく、これは、選択されたセルが記憶することができる８つの可能な値が存在し、４つの粗標的電流値のうちの１つが検索及び実行方法２３００の粗標的として選択されることを意味する。すなわち、検索及び実行方法２３００（繰り返しになるが、粗プログラミング方法２２０５の実施形態である）は、選択されたセルを、所望の値（Ｉ_D）に幾分近い値（Ｉ_CT）に迅速にプログラムすることを意図しており、次いで、精密プログラミング方法２２０６は、所望の値（Ｉ_D）に極めて近くなるように、選択されたセルをより精密にプログラムすることを意図する。

セル値、所望の電流値、及び粗標的電流値の例を、Ｎ＝８及びＭ＝４の単純な例について表９及び１０に示す。
表９：Ｎ＝８の場合のＮ個の所望の電流値の例

表１０：Ｍ＝４の場合のＭ個の標的電流値の例

オフセット値Ｉ_CTOFFSETxは、粗調整中に所望の電流値をオーバーシュートしてしまうのを防止するために使用される。

粗標的電流値Ｉ_CTが選択されると、選択されたセルは、選択されたセルのセルアーキテクチャタイプ（例えば、メモリセル２１０、３１０、４１０、又は５１０）に基づいた、選択されたセルの適切な端子に電圧ｖ₀を印加することによってプログラムされる（ステップ２３０２）。選択されたセルが図３のメモリセル３１０のタイプである場合、電圧ｖ₀は制御ゲート端子２８に印加され、ｖ₀は粗標的電流値Ｉ_CTに応じて５～７Ｖであり得る。ｖ₀の値は、任意選択的に、粗標的電流値Ｉ_CTと対応させてｖ₀を記憶する電圧ルックアップテーブルから決定することができる。

次に、選択されたセルは、電圧ｖ_i＝ｖ_i-1＋ｖ_incrementを印加することによってプログラムされ、式中、ｉは１で開始し、このステップが繰り返されるたびに増分し、ｖ_incrementは、所望される変化の粒度に見合う程度のプログラミングを引き起こす小さい電圧である（ステップ２３０３）。したがって、第１の時間ステップ２３０３はｉ＝１で実行され、ｖ₁は、ｖ₀＋ｖ_incrementである。次いで、選択されたセルで読み出し動作が実行され、選択されたセルを通って引き込まれた電流（Ｉ_cell）が測定される、検証動作が行われる（ステップ２３０４）。Ｉ_cellがＩ_CT（ここでは第１のスレッショルド値である）以下である場合、検索及び実行方法２３００は完了し、精密プログラミング方法２２０６を開始することが可能となる。Ｉ_cellがＩ_CT以下でない場合、ステップ２３０３が繰り返され、ｉはインクリメントされる。

したがって、粗プログラミング方法２２０５が終了し、精密プログラミング方法２２０６が開始する時点で、電圧ｖ_iは、選択されたセルをプログラムするために使用される最後の電圧であり、選択されたセルは、粗標的電流値Ｉ_CTに関連付けられた値を記憶することになる。精密プログラミング方法２２０６の目標は、選択されたセルを、読み出し動作中に選択されたセルが電流Ｉ_D（５０ｐＡ以下などの許容可能な量の偏差を加減する）を引き込む点にプログラムすることであり、この電流は、選択されたセルに記憶されることが意図される値に関連付けられている所望の電流値である。

図２４は、精密プログラム方法２２０６中に、選択されたメモリセルの制御ゲートに印加することができる異なる電圧進行の例を示す。

第１のアプローチ下では、選択されたメモリセルを更にプログラムするために、増加する電圧が制御ゲートに漸次印加される。開始点はｖ_iであり、これは粗プログラミング方法２２０５中に印加された最後の電圧である。増分ｖ_p1がｖ₁に加えられ、次いで、電圧ｖ₁＋ｖ_p1が使用されて、選択されたセルをプログラムする（進行２４０１において左から第２のパルスによって示される）。ｖ_p1は、ｖ_increment（粗プログラミング方法２２０５中に使用される電圧増分）よりも小さい増分である。各プログラミング電圧が印加された後、ＩｃｅｌｌがＩ_PT1（第１の精密標的電流値であり、ここでは第２のスレッショルド値である）以下であるかどうかの判定が行われる、検証ステップ（ステップ２３０４と同様）が実行され、Ｉ_PT1＝Ｉ_D＋Ｉ_PT1OFFSETであり、Ｉ_PT1OFFSETは、プログラムオーバーシュートを防止するために加算されるオフセット値である。判定が偽である場合、別の増分ｖ_p1が、前に印加されたプログラミング電圧に加えられ、プロセスが繰り返される。Ｉ_cellがＩ_PT1以下である時点で、プログラミングシーケンスのこの部分は停止する。任意選択的に、Ｉ_PT1がＩ_Dに等しいか、又は十分な精度でＩ_Dにほぼ等しい場合、選択されたメモリセルは正常にプログラムされている。

Ｉ_PT1がＩ_Dに十分に近接していない場合は、より小さい粒度の更なるプログラミングを行うことができる。ここで、進行２４０２が使用される。進行２４０２の開始点は、進行２４０１下のプログラミングに使用された最後の電圧である。増分Ｖ_p2（ｖ_p1よりも小さい）がその電圧に加えられ、組み合わされた電圧が印加されて、選択されたメモリセルをプログラムする。各プログラミング電圧が印加された後、Ｉ_cellがＩ_PT2（第２の精密標的電流値であり、ここでは第３のスレッショルド値である）以下であるかどうかの判定が行われる、検証ステップ（ステップ２３０４と同様）が実行され、Ｉ_PT2＝ＩＤ＋Ｉ_PT2OFFSETであり、Ｉ_PT2OFFSETは、プログラムオーバーシュートを防止するために加算されるオフセット値である。判定が偽である場合、別の増分Ｖ_p2が、前に印加されたプログラミング電圧に加えられ、プロセスが繰り返される。Ｉ_cellがＩ_PT2以下である時点で、プログラミングシーケンスのこの部分は停止する。ここで、標的値が十分な精度で達成されているので、Ｉ_PT2はＩ_Dに等しいか、又はプログラミングが停止できるほどＩ_Dに十分に近接していると想定される。当業者は、使用されるプログラミング増分が段々と小さくなって追加の進行が適用され得ることを理解することができる。例えば、図２５では、２つだけではなく、３つの進行（２５０１、２５０２、及び２５０３）が適用される。

第２のアプローチが、進行２４０３に示される。ここで、選択されたメモリセルのプログラミング中に印加された電圧を増加させる代わりに、増加する期間の持続時間に対して同じ電圧が印加される。進行２４０１におけるｖ_p1及び進行２４０３におけるｖ_p2などの増分電圧を加える代わりに、各印加パルスが、前に印加されたパルスよりもｔ_p1だけ長くなるように、追加の時間増分ｔ_p1がプログラミングパルスに加えられる。各プログラミングパルスが印加された後、進行２４０１について前述したのと同じ検証ステップが実行される。任意選択的に、プログラミングパルスに加えられた追加の時間増分は前の使用された進行よりも短い持続時間である、追加の進行を適用できる。１つの時間的な進行のみが示されているが、当業者は、任意の数の異なる時間的進行が適用できることを理解するであろう。

ここで、粗プログラミング方法２２０５の２つの更なる実施形態について、更なる詳細が提供される。

図２６は、適応較正方法２６００である、粗プログラミング方法２２０５の第２の実施形態を示す。方法が開始する（ステップ２６０１）。セルは、デフォルトの開始値ｖ₀でプログラムされる（ステップ２６０２）。検索及び実行方法２３００とは異なり、ここでｖ₀は、ルックアップテーブルから得られず、代わりに比較的小さい初期値とすることができる。セルの制御ゲート電圧は、第１の電流値ＩＲ１（例えば、１００ｎａ）及び第２の電流値ＩＲ２（例えば、１０ｎａ）で測定され、サブスレッショルド傾斜は、それらの測定値に基づいて決定され（例えば、３６０ｍＶ／ｄｅｃ）、記憶される（ステップ２６０３）。

新しい所望の電圧ｖ_iが決定される。このステップが最初に実行されるとき、ｉ＝１であり、ｖ₁は、以下のようなサブスレッショルド式を使用して、記憶されたサブスレッショルド傾斜値並びに電流標的及びオフセット値に基づいて決定される。
Ｖｉ＝Ｖｉ－１＋Ｖｉｎｃｒｅｍｅｎｔ、
Ｖｉｎｃｒｅｍｅｎｔは、傾斜Ｖｇに比例する
Ｖｇ＝ｋ^*Ｖｔ^*ｌｏｇ［Ｉｄｓ／ｗａ^*Ｉｏ］
ここで、ｗａはメモリセルのｗであり、Ｉｄｓは電流標的プラスオフセット値である。

記憶された傾斜値が比較的急勾配である場合、比較的小さい電流オフセット値を使用することができる。記憶された傾斜値が比較的平坦である場合、比較的高い電流オフセット値を使用することができる。したがって、傾斜情報を決定することは、問題の特定のセルにカスタマイズされている電流オフセット値が選択されることを可能にする。これは、最終的に、プログラミングプロセスをより短くする。このステップが繰り返されると、ｉはインクリメントされ、ｖ_i＝ｖ_i-1＋ｖ_incrementである。次いで、セルは、ｖｉを使用してプログラムされる。ｖ_incrementは、標的電流値と対応させてｖ_incrementの値を記憶するルックアップテーブルから決定することができる。

次に、選択されたセルで読み出し動作が実行され、選択されたセルを通って引き込まれた電流（Ｉ_cell）が測定される、検証動作が行われる（ステップ２６０５）。Ｉ_cellがＩ_CT（ここでは粗標的スレッショルド値である）以下である場合（Ｉ_CT＝Ｉ_D＋Ｉ_CTOFFSETに設定され、Ｉ_CTOFFSETは、プログラムオーバーシュートを防止するために追加されるオフセット値である）、適応較正方法２６００は完了し、精密プログラミング方法２２０６が開始され得る。Ｉ_cellがＩ_CT以下でない場合、ステップ２６０４～２６０５が繰り返され、ｉはインクリメントされる。

図２７は、適応較正方法２６００の態様を示す。ステップ２６０３中、例示的な電流値ＩＲ１及びＩＲ２を選択されたセル（ここではメモリセル２７０２）に印加するために電流源２７０１が使用され、次いで、メモリセル２７０２の制御ゲートにおける電圧（ＩＲ１に対するＣＧＲ１及びＩＲ２に対するＣＧＲ２）が測定される。傾斜は、（ＣＧＲ２－ＣＧＲ１）／ｄｅｃである。

図２８は、絶対較正方法２８００である、粗プログラミング方法２２０５の第２の実施形態を示す。方法が開始する（ステップ２８０１）。セルは、デフォルトの出発値Ｖ₀でプログラムされる（ステップ２８０２）。セル（ＶＣＧＲｘ）の制御ゲート電圧は、電流値Ｉｔａｒｇｅｔで測定され、記憶される（ステップ２８０３）。新しい所望の電圧ｖ₁は、記憶された制御ゲート電圧並びに電流標的及びオフセット値Ｉｏｆｆｓｅｔ＋Ｉｔａｒｇｅｔに基づいて決定される（ステップ２８０４）。例えば、新しい所望の電圧ｖ₁は、以下のように計算することができる：ｖ₁＝ｖ₀＋（ＶＣＧＢＩＡＳ－記憶されたＶＣＧＲ）、式中、ＶＣＧＢＩＡＳ＝～１．５Ｖであり、これは、最大標的電流でのデフォルトの読み出し制御ゲート電圧であり、記憶されたＶＣＧＲは、ステップ２８０３の測定された読み出し制御ゲート電圧である。

次いで、セルは、ｖ_iを使用してプログラムされる。ｉ＝１のとき、ステップ２８０４からの電圧ｖ₁が使用される。ｉ＞＝２のとき、電圧ｖ_i＝ｖ_i-1＋Ｖ_incrementが使用される。ｖ_incrementは、標的電流値と対応させてｖ_incrementの値を記憶するルックアップテーブルから決定することができる。次に、選択されたセルで読み出し動作が実行され、選択されたセルを通って引き込まれた電流（Ｉ_cell）が測定される、検証動作が行われる（ステップ２８０６）。Ｉ_cellがＩ_CT（ここではスレッショルド値である）以下である場合、絶対較正方法２８００は完了し、精密プログラミング方法２２０６が開始され得る。Ｉ_cellがＩ_CT以下でない場合、ステップ２８０５～２８０６が繰り返され、ｉはインクリメントされる。

図２９は、絶対較正方法２８００のステップ２８０３を実装するための回路２９００を示す。電圧源（図示せず）はＶＣＧＲを生成し、これは、初期電圧で開始し、上昇する。ここで、ｎ＋１個の異なる電流源２９０１（２９０１－０、２９０１－１、２９０１－２、．．．、２９０１－ｎ）は、大きさが増加していく異なる電流ＩＯ０、ＩＯ１、ＩＯ２、．．．ＩＯｎを生成する。各電流源２９０１は、インバータ２９０２（２９０２－０、２９０２－１、２９０２－２、．．．、２９０２－ｎ）及びメモリセル２９０３（２９０３－０、２９０３－１、２９０３－２、．．．２９０３－ｎ）に接続されている。ＶＣＧＲが上昇するにつれて、各メモリセル２９０３は、増加する量の電流を引き込み、各インバータ２９０２への入力電圧は減少する。ＩＯ０＜ＩＯ１＜ＩＯ２＜．．．＜ＩＯｎであるため、ＶＣＧＲが増加するにつれて、最初にインバータ２９０２－０の出力が低から高に切り替わる。次にインバータ２９０２－１の出力が低から高に切り替わり、次いでインバータ２９０２－２が同様に切り替わり、以下インバータ２９０２－ｎの出力が低から高に切り替わるまで同様である。各インバータ２９０２は、スイッチ２９０４（２９０４－０、２９０４－１、２９０４－２、．．．、２９０４－ｎ）を制御し、その結果、インバータ２９０２の出力が高であるとき、スイッチ２９０４は閉じられ、これにより、ＶＣＧＲがコンデンサ２９０５（２９０５－０、２９０５－１、２９０５－２、．．．、２９０５－ｎ）によってサンプリングされる。したがって、スイッチ２９０４及びコンデンサ２９０５は、サンプルアンドホールド回路を形成する。ＩＯ０、ＩＯ１、ＩＯ２、．．．、ＩＯｎの値は、Ｉｔａｒｇｅｔの可能な値として使用され、それぞれのサンプリングされた電圧は、図２８の絶対較正方法２８００において関連する値ＶＣＧＲｘとして使用される。グラフ２９０６は、経時的に上昇するＶＣＧＲ、並びに様々な時間において低から高に切り替わるインバータ２９０２－０、２９０２－１、及び２９０２－ｎの出力を示す。

図３０は、適応較正方法２６００又は絶対較正方法２８００中に、選択されたセルをプログラミングするための例示的な進行３０００を示す。一実施形態では、電圧Ｖｃｇｐは、選択された行のメモリセルの制御ゲートに印加される。選択された行内の選択されたメモリセルの数は、例えば、３２である。したがって、選択された行内の最大３２個のメモリセルが、並行してプログラムされ得る。各メモリセルは、ビット線イネーブル信号によって、プログラミング電流Ｉｐｒｏｇに結合することが可能になる。ビット線イネーブル信号が非アクティブである場合（選択されたビット線に正電圧が印加されていることを意味する）、メモリセルはインヒビット状態である（プログラムされない）。図３０に示されるように、ビット線有効化信号Ｅｎ＿ｂｌｘ（ｘは１～ｎで変化し、ｎはビット線の数である）は、異なる時間に、そのビット線に所望されるＶｃｇｐ電圧レベルで（したがって、上記ビット線上の選択されたメモリに対して）有効化される。別の実施形態では、選択されたセルの制御ゲートに印加された電圧は、ビット線でのイネーブル信号を使用して制御することができる。各ビット線イネーブル信号により、そのビット線に対応する所望の電圧（図２８に記載のｖｉなど）がＶｃｇｐとして印加される。ビット線イネーブル信号はまた、ビット線に流れ込むプログラミング電流を制御することもできる。この例では、後続の制御ゲート電圧Ｖｃｇｐはそれぞれ、その前の電圧よりも高い。あるいは、後続の制御ゲート電圧はそれぞれ、その前の電圧より低くても、高くてもよい。Ｖｃｇｐの後続の増分はそれぞれ、その前の増分と等しいか又は等しくないかのいずれでもよい。

図３１は、適応較正方法２６００又は絶対較正方法２８００中に、選択されたセルをプログラミングするための例示的な進行３１００を示す。一実施形態では、ビット線イネーブル信号は、選択されたビット線（上記ビット線内の選択されたメモリセルを意味する）が、対応するＶｃｇｐ電圧レベルでプログラムされることを可能にする。別の実施形態では、選択されたセルの増分上昇を行う制御ゲートに印加された電圧は、ビット線イネーブル信号を使用して制御することができる。各ビット線イネーブル信号により、そのビット線に対応する所望の電圧（図２８に記載のｖｉなど）が制御ゲート電圧に印加される。この例では、後続の増分はそれぞれ、その前の増分と等しい。

図３２は、ＶＭＭアレイで読み出し又は検証するための入力及び出力方法を実装するためのシステムを示す。入力関数回路３２０１は、デジタルビット値を受け取り、それらのデジタル値をアナログ信号に変換して使用することで、制御ゲートデコーダ３２０２を介して決定した、アレイ３２０４内の選択されたセルの制御ゲートに電圧を印加する。同時に、ワード線デコーダ３２０３もまた、選択されたセルが位置する行を選択するために使用される。出力ニューロン回路ブロック３２０５は、アレイ３２０４内のセルの各列（ニューロン）の出力作用を実行する。出力回路ブロック３２０５は、積分型アナログデジタル変換器（ＡＤＣ）、逐次比較型（ＳＡＲ）ＡＤＣ、又はシグマデルタ型ＡＤＣを使用して実装することができる。

一実施形態では、入力関数回路３２０１に提供されるデジタル値は、例として４つのビット（ＤＩＮ３、ＤＩＮ２、ＤＩＮ１、及びＤＩＮ０）を含み、各種ビット値は、制御ゲートに印加された異なる数の入力パルスに対応する。パルスの数が大きいほど、セルの出力値（電流）は大きくなる。ビット値及びパルス値の例を表１１に示す。
表１１：デジタルビット入力と生成パルス数

上記の例では、セル値を読み出すための４ビットのデジタル値に対して最大１６個のパルスが存在する。各パルスは、１単位のセル値（電流）に等しい。例えば、Ｉｃｅｌｌ単位＝１ｎＡの場合、ＤＩＮ［３～０］＝０００１では、Ｉｃｅｌｌ＝１^*１ｎＡ＝１ｎＡであり、ＤＩＮ［３～０］＝１１１１では、Ｉｃｅｌｌ＝１５^*１ｎＡ＝１５ｎＡである。

別の実施形態では、デジタルビット入力は、表１２に示すように、セル値を読み出すためにデジタルビット位置加算を使用する。ここで、４ビットのデジタル値を評価するのに、４つのパルスのみが必要である。例えば、第１のパルスは、ＤＩＮ０を評価するために使用され、第２のパルスは、ＤＩＮ１を評価するために使用され、第３のパルスは、ＤＩＮ２を評価するために使用され、第４のパルスは、ＤＩＮ３を評価するために使用される。その後、４つのパルスからの結果は、ビット位置に応じて加算される。実現されるデジタルビット加算式は、以下のものである：出力＝２＾０^*ＤＩＮ０＋２＾１^*ＤＩＮ１＋２＾２^*ＤＩＮ２＋２＾３^*ＤＩＮ３）^*Ｉｃｅｌｌ単位。

例えば、Ｉｃｅｌｌ単位＝１ｎＡの場合、ＤＩＮ［３～０］＝０００１では、Ｉｃｅｌｌ合計＝０＋０＋０＋１^*１ｎＡ＝１ｎＡであり、ＤＩＮ［３～０］＝１１１１では、Ｉｃｅｌｌ合計＝８^*１ｎＡ＋４^*１ｎＡ＋２^*１ｎＡ＋１^*１ｎＡ＝１５ｎＡである。
表１２：デジタルビット入力加算

図３３は、検証動作中にＶＭＭの出力を合計して、出力を表す単一のアナログ値を得るために使用できる電荷加算器３３００の例を示しており、この単一のアナログ値は、任意選択的にデジタルビット値に変換することができる。電荷加算器３３００は、電流源３３０１と、スイッチ３３０２及びサンプルアンドホールド（Ｓ／Ｈ）コンデンサ３３０３を含むサンプルアンドホールド回路と、を含む。４ビットのデジタル値の例で示されるように、４つの評価パルスからの値を保持するための４つのＳ／Ｈ回路が存在し、これらの値はプロセスの終了時に合計される。Ｓ／Ｈコンデンサ３３０３は、そのＳ／Ｈコンデンサの２＾ｎ^*ＤＩＮｎビット位置に関連付けられる比率で選択され、例えば、Ｃ＿ＤＩＮ３＝ｘ８Ｃｕ、Ｃ＿ＤＩＮ２＝ｘ４Ｃｕ、Ｃ＿ＤＩＮ１＝ｘ２Ｃｕ、ＤＩＮ０＝ｘ１Ｃｕである。電流源３３０１もまた、それに応じて比率が乗じられる。

図３４は、検証動作中にＶＭＭの出力を合計するために使用できる電流加算器３４００を示す。電流加算器３４００は、電流源３４０１、スイッチ３４０２、スイッチ３４０３及びスイッチ３４０４、並びにスイッチ３４０５を含む。４ビットのデジタル値の例で示されるように、４つの評価パルスからの値を保持するための電流源回路が存在し、これらの値はプロセスの終了時に合計される。電流源は、２＾ｎ^*ＤＩＮｎビット位置に基づいて比率が乗じられ、例えば、Ｉ＿ＤＩＮ３＝ｘ８Ｉｃｅｌｌ単位、＿Ｉ＿ＤＩＮ２＝ｘ４Ｉｃｅｌｌ単位、Ｉ＿ＤＩＮ１＝ｘ２Ｉｃｅｌｌ単位、Ｉ＿ＤＩＮ０＝ｘ１Ｉｃｅｌｌ単位である。

図３５は、複数のデジタル値を受け取り、それらを一緒に合計し、入力の和を表す出力ＤＯＵＴを生成する、デジタル加算器３５００を示す。デジタル加算器３５００は、検証動作中に使用することができる。４ビットのデジタル値の例で示されるように、４つの評価パルスからの値を保持するためのデジタル出力ビットが存在し、これらの値はプロセスの終了時に合計される。デジタル出力は、２＾ｎ^*ＤＩＮｎビット位置に基づいてデジタルスケーリングされ、例えば、ＤＯＵＴ３＝ｘ８ＤＯＵＴ０、＿ＤＯＵＴ２＝ｘ４ＤＯＵＴ１、Ｉ＿ＤＯＵＴ１＝ｘ２ＤＯＵＴ０、Ｉ＿ＤＯＵＴ０＝ＤＯＵＴ０である。

図３６Ａは、セル電流をデジタル出力ビットに変換するために出力ニューロンに適用された二重傾斜積分型ＡＤＣ３６００を示す。積分オペアンプ３６０１及び積分コンデンサ３６０２からなる積分器は、基準電流ＩＲＥＦに対してセル電流ＩＣＥＬＬを積分する。図３６Ｂに示されるように、固定時間ｔ１の間、セル電流は上方に積分され（Ｖｏｕｔが上昇する）、次いで、基準電流が、時間ｔ２にわたって下方に積分される（Ｖｏｕｔが降下する）ように印加される。電流Ｉｃｅｌｌは、＝ｔ２／ｔ１^*ＩＲＥＦである。例えば、ｔ１に対して、１０ビットのデジタルビット解像度では、１０２４サイクルが使用され、ｔ２に対するサイクル数は、Ｉｃｅｌｌ値に応じて０～１０２４サイクルに変化する。

図３６Ｃは、セル電流をデジタル出力ビットに変換するために出力ニューロンに適用された単一傾斜積分型ＡＤＣ３６６０を示す。積分オペアンプ３６６１及び積分コンデンサ３６６２からなる積分器は、セル電流ＩＣＥＬＬを積分する。図３６Ｄに示されるように、時間ｔ１の間、セル電流が上方に積分され（ＶｏｕｔがＶｒｅｆ２に達するまで上昇する）、時間ｔ２の間、別のセル電流が上方に積分される。セル電流Ｉｃｅｌｌ＝Ｃｉｎｔ^*Ｖｒｅｆ２／ｔである。パルスカウンタは、積分時間ｔの間のパルス（デジタル出力ビット）の数をカウントするために使用される。例えば、図示されるように、ｔ１に対するデジタル出力ビットは、ｔ２のデジタル出力ビットよりも少なく、これは、ｔ１の間のセル電流がｔ２積分中のセル電流よりも大きいことを意味する。初期較正は、積分コンデンサ値を基準電流及び固定時間で較正するために行われ、Ｃｉｎｔ＝Ｔｒｅｆ^*Ｉｒｅｆ／Ｖｒｅｆ２である。

図３６Ｅは、セル電流をデジタル出力ビットに変換するために出力ニューロンに適用された二重傾斜積分型ＡＤＣ３６８０を示す。二重傾斜積分型ＡＤＣ３６８０は、積分オペアンプを利用しない。セル電流又は基準電流は、コンデンサ３６８２に直接積分される。パルスカウンタは、積分時間の間のパルス（デジタル出力ビット）をカウントするために使用される。電流Ｉｃｅｌｌは、＝ｔ２／ｔ１^*ＩＲＥＦである。

図３６Ｆは、セル電流をデジタル出力ビットに変換するために出力ニューロンに適用された単一傾斜積分型ＡＤＣ３６９０を示す。単一傾斜積分型ＡＤＣ３６８０は、積分オペアンプを利用しない。セル電流は、コンデンサ３６９２に直接積分される。パルスカウンタは、積分時間の間のパルス（デジタル出力ビット）をカウントするために使用される。セル電流Ｉｃｅｌｌ＝Ｃｉｎｔ^*Ｖｒｅｆ２／ｔである。

図３７Ａは、セル電流をデジタル出力ビットに変換するために出力ニューロンに適用されたＳＡＲ（逐次比較型）ＡＤＣを示す。セル電流は、抵抗器を横切って降下させて、ＶＣＥＬＬに変換することができる。あるいは、セル電流は、Ｓ／Ｈコンデンサをチャージアップして、ＶＣＥＬＬに変換することができる。ＭＳＢビット（最上位ビット）から始まるビットを計算するために、二分探索が使用される。ＳＡＲ３７０１からのデジタルビットに基づいて、適切なアナログ基準電圧をコンパレータ３７０３に設定するために、ＤＡＣ３７０２が使用される。コンパレータ３７０３の出力は、次のアナログレベルを選択するために、ＳＡＲ３７０１に順番にフィードバックされる。図３７Ｂに示されるように、４ビットのデジタル出力ビットの例では、４つの評価期間が存在し、アナログレベルを中間に設定することによってＤＯＵＴ３を評価するための第１のパルス、次いで、アナログレベルを上半分の中間又は下半分の中間に設定することによってＤＯＵＴ２を評価するための第２のパルスなどがある。

図３８は、セル電流をデジタル出力ビットに変換するために出力ニューロンに適用されたシグマデルタ型ＡＤＣ３８００を示す。オペアンプ３８０１及びコンデンサ３８０５からなる積分器は、選択されたセル電流からの電流と、１ビット電流ＤＡＣ３８０４からもたらされる基準電流との総和を積分する。コンパレータ３８０２は、基準電圧に対して積分出力電圧を比較する。クロックドＤＦＦ３８０３は、コンパレータ３８０２の出力に応じてデジタル出力ストリームを提供する。デジタル出力ストリームは、典型的には、デジタル出力ビットに出力される前にデジタルフィルタに進む。

本明細書で使用される場合、「の上方に（over）」及び「に（on）」という用語は両方とも、「の上に直接」（中間材料、要素、又は間隙がそれらの間に配設されていない）、及び「の上に間接的に」（中間材料、要素、又は間隙がそれらの間に配設されている）を包括的に含むことに留意されるべきである。同様に、「隣接した」という用語は、「直接隣接した」（中間材料、要素、又は間隙がそれらの間に配設されていない）、及び「間接的に隣接した」（中間材料、要素、又は間隙がそれらの間に配設されている）を含み、「に取り付けられた」は、「に直接取り付けられた」（中間材料、要素、又は間隙がそれらの間に配設されていない）、及び「に間接的に取り付けられた」（中間材料、要素、又は間隙がそれらの間に配設されている）を含み、「電気的に結合された」は、「に直接電気的に結合された」（要素を一緒に電気的に接続する中間材料又は要素がそれらの間にない）、及び「に間接的に電気的に結合された」（要素を一緒に電気的に接続する中間材料又は要素がそれらの間にある）を含む。例えば、要素を「基板の上方に」形成することは、その要素を基板に直接、中間材料／要素をそれらの間に伴わずに形成すること、及びその要素を基板の上に間接的に１つ以上の中間材料／要素をそれらの間に伴って形成することを含み得る。

Claims

選択された不揮発性メモリセルを、Ｎ個の可能な値のうちの１つを記憶するようにプログラミングする方法であって、Ｎは２よりも大きい整数であり、前記選択された不揮発性メモリセルは浮遊ゲートを含み、前記方法は、
前記選択された不揮発性メモリセルを「０」状態にプログラミングするステップと、
読み出し動作中に３～５μＡの電流を引き込むレベルに、前記選択された不揮発性メモリセルに対して消去を行うように、前記選択された不揮発性メモリセルでソフト消去動作を実行するステップと、
粗プログラミングプロセスを実行するステップであって、前記粗プログラミングプロセスが、
ルックアップテーブル内のＭ個の異なる電流値から粗標的電流値を第１のスレッショルド電流値として選択するステップであって、Ｍ＜Ｎである、ステップと、
前記浮遊ゲートに電荷を追加するステップと、
検証動作中に前記選択された不揮発性メモリセルを通る電流が前記第１のスレッショルド電流値以下になるまで、前記追加するステップを繰り返すステップと、を含む、ステップと、
検証動作中に前記選択された不揮発性メモリセルを通る電流が第２のスレッショルド電流値以下になるまで、精密プログラミングプロセスを実行するステップであって、前記粗プログラミングプロセスのプログラミングステップにおける増分よりも小さい増分の電荷が前記浮遊ゲートに追加される、ステップと、を含む、方法。
検証動作中に前記選択された不揮発性メモリセルを通る電流が第３のスレッショルド電流値以下になるまで、第２の精密プログラミングプロセスを実行するステップ、を更に含む、請求項１に記載の方法。
前記精密プログラミングプロセスは、前記選択された不揮発性メモリセルの制御ゲートに、大きさが増加していく電圧パルスを印加するステップを含む、請求項１に記載の方法。
前記精密プログラミングプロセスは、前記選択された不揮発性メモリセルの制御ゲートに、持続時間が増加していく電圧パルスを印加するステップを含む、請求項１に記載の方法。
前記第２の精密プログラミングプロセスは、前記選択された不揮発性メモリセルの制御ゲートに、大きさが増加していく電圧パルスを印加するステップを含む、請求項２に記載の方法。
前記第２の精密プログラミングプロセスは、前記選択された不揮発性メモリセルの制御ゲートに持続時間が増加していく電圧パルスを印加するステップを含む、請求項２に記載の方法。
前記選択された不揮発性メモリセルは、スプリットゲート型フラッシュメモリセルである、請求項１に記載の方法。
前記選択された不揮発性メモリセルは、アナログメモリディープニューラルネットワーク内のベクトル行列乗算アレイ内にある、請求項１に記載の方法。
前記選択された不揮発性メモリセルで読み出し動作を実行するステップと、
前記読み出し動作中に前記選択された不揮発性メモリセルによって引き込まれた前記電流を、積分型アナログデジタル変換器を使用してデジタルビットを生成するために積分するステップと、を更に含む、請求項１に記載の方法。
前記選択された不揮発性メモリセルで読み出し動作を実行するステップと、
前記読み出し動作中に前記選択された不揮発性メモリセルによって引き込まれた前記電流を、シグマデルタ型アナログデジタル変換器を使用してデジタルビットに変換するステップと、を更に含む、請求項１に記載の方法。