JP7152562B2

JP7152562B2 - マルチレベル超低電力推論エンジンアクセラレータ

Info

Publication number: JP7152562B2
Application number: JP2021103405A
Authority: JP
Inventors: アルバート・トランマイケル・ニコラス; マイケル・グロビス
Original assignee: SanDisk Technologies LLC
Current assignee: SanDisk Technologies LLC
Priority date: 2020-10-02
Filing date: 2021-06-22
Publication date: 2022-10-12
Anticipated expiration: 2041-06-22
Also published as: US11289171B1; CN114388039A; TW202215437A; DE102021115503A1; KR20220044642A; TWI783538B; US20220108759A1; JP2022060145A; KR102605890B1

Description

人工ニューラルネットワークは、人工知能及び機械学習アプリケーションにおける使用が増加している。人工ニューラルネットワークでは、１組の入力が、出力を生成するために１つ以上の中間層又は隠れ層を通じて伝播される。入力を出力に接続する層は、入力を出力にするための１組の数学的操作を決定し、それぞれの出力の確率を計算しながら層を移動することによって、訓練又は学習フェーズで生成される重みの組によって接続される。重みが確立されたら、それらを推論フェーズで使用して、１組の入力からの出力を決定することができる。かかるニューラルネットワークは、非常に正確な結果を提供し得るが、これらは非常に計算集約的であり、メモリから異なる層を接続する重みを読み出し、これらの重みを処理ユニットの処理ユニットに転送することに関与するデータ転送は、非常に集約的であり得る。

同様に番号付けされた要素は、異なる図で共通の構成要素を指す。

ホストに接続されたメモリシステムの一実施形態のブロック図である。

フロントエンドプロセッサ回路の一実施形態のブロック図である。いくつかの実施形態では、フロントエンドプロセッサ回路は、コントローラの一部である。

バックエンドプロセッサ回路の一実施形態のブロック図である。いくつかの実施形態では、バックエンドプロセッサ回路は、コントローラの一部である。

メモリパッケージの一実施形態のブロック図である。

メモリダイの一実施形態のブロック図である。

ウェハ間接合によってメモリ構造に結合された制御回路の例を示す。ウェハ間接合によってメモリ構造に結合された制御回路の例を示す。

畳み込みニューラルネットワーク（ＣＮＮ）の単純な例を示す。

人工ニューラルネットワーク内の全結合層の単純な例を示す。

１組の重みを生成するためにニューラルネットワークを訓練するためのプロセスの一実施形態を説明するフロー図である。

ニューラルネットワークを使用した推論のためのプロセスの一実施形態を説明するフロー図である。

畳み込みニューラルネットワークにおける畳み込み動作の概略図である。

ニューラルネットワークの全結合層における行列乗算の使用の概略図である。

クロスポイントアーキテクチャを有するメモリアレイの一部分の一実施形態を示す。クロスポイントアーキテクチャを有するメモリアレイの一部分の一実施形態を示す。クロスポイントアーキテクチャを有するメモリアレイの一部分の一実施形態を示す。

クロスポイントアレイと、アレイの動作に使用される制御回路のうちのいくつかを示す上面図である。

マルチレベル超低電力推論エンジンに使用されるメモリセル設計の第１の実施形態の概略図である。

マルチレベル超低電力推論エンジンに使用され得るグループ化された誘電体層を使用するメモリセル設計の別の１組の実施形態の概略図である。

プログラムされるメモリセルの選択のための半選択方式を示す。

複数の誘電体層で形成されたメモリセルを用いて、クロスポイントメモリを書き込むためのシーケンスの一実施形態の概略図である。

２階層化層の例における誘電破壊による書き込み機構を示す。２階層化層の例における誘電破壊による書き込み機構を示す。２階層化層の例における誘電破壊による書き込み機構を示す。

３階層化層の例における誘電破壊による書き込み機構を示す。３階層化層の例における誘電破壊による書き込み機構を示す。

推論エンジン用の極薄誘電体層を有するメモリセルを使用するクロスポイントアーキテクチャの使用のための一実施形態を示すフロー図である。

単一のＦＥＴに基づくアンチヒューズ、及びアンチヒューズをプログラムするバイアスの一実施形態の概略図である。

図２１のアンチヒューズベースのメモリセルを組み込んだクロスポイントアレイ構造の一部分の平面図である。

推論エンジン用のＦＥＴベースのアンチヒューズを有するメモリセルを使用するクロスポイントアーキテクチャのプログラミングのための一実施形態を示すフロー図である。

ニューラルネットワークが推論又は訓練動作を実行するとき、特に、畳み込み層及び全結合層などの多数の計算層数を伴い、これらの層を通じて入力が伝搬されるディープニューラルネットワーク、すなわちＤＮＮの場合、それぞれ大量のデータを伴う多数の計算が実行される。メモリデバイス内外への大量のデータの移動を回避するために、ニューラルネットワークに対する層の重みがメモリデバイスの不揮発性メモリアレイに記憶され、層のそれぞれの計算がデバイス上で実行される。性能を更に高めるために、速度の増加及び電力消費の低減という両方の観点から、ニューラルネットワークのための推論動作中に重みと入力との間のアレイ内ベクトル乗算を実行するために使用され得、特殊なオンチッププログラミングを必要とするマルチレベルメモリセル（ＭＬＣ）の実施形態を以下に提示する。推論エンジンのためのベクトル乗算デバイスは、それぞれのクロスポイント接点にメモリセルを有するクロスポイントアレイを含む。制御回路は、ワイヤの１つの平面内のそれぞれのワイヤ（すなわち、ワード線）に独立した入力電圧を供給し、他のワイヤ平面内のそれぞれのワイヤ（すなわち、ビット線）上に読み出し電流を供給するように構成される。ベクトル乗算は、入力電圧と、メモリセルによって符号化された行列重みとの乗算として、クロスポイントメモリアレイ内で実行される。クロスポイントアレイ内のメモリセルは、入力電圧のみを使用して個別にプログラムされ得る。第１の組の実施形態では、マルチレベルメモリセルは、金属層によって分離された複数の極薄誘電体層から形成され、メモリセルのプログラミングは、書き込み電圧レベルを選択することによって、１つ以上の誘電体層を選択的に破壊することによって行われる。第２の組の実施形態では、メモリセルは、アンチヒューズとして形成される。

図１は、ホスト１２０に接続されたメモリシステム１００の一実施形態のブロック図である。メモリシステム１００は、本明細書で提案される技術を実装することができ、ニューラルネットワーク入力又は他のデータはホスト１２０から受信される。実施形態に応じて、入力は、ホスト１２０から受信され、次いでメモリパッケージ１０４のメモリアレイに事前にプログラムされた重みに関する推論のためにメモリパッケージ１０４に提供され得る。多くの異なる種類のメモリシステムを、本明細書で提案される技術と共に使用することができる。例示的なメモリシステムは、ソリッドステートドライブ（「ＳＳＤ」）、メモリカード、及び埋め込みメモリデバイスを含む。しかしながら、他の種類のメモリシステムも使用され得る。

図１のメモリシステム１００は、コントローラ１０２、データを記憶するための不揮発性メモリ１０４、及びローカルメモリ（例えば、ＤＲＡＭ／ＲｅＲＡＭ）１０６を含む。コントローラ１０２は、フロントエンドプロセッサ（ＦＥＰ）回路１１０、及び１つ以上のバックエンドプロセッサ（ＢＥＰ）回路１１２を含む。一実施形態では、ＦＥＰ回路１１０はＡＳＩＣ上に実装される。一実施形態では、それぞれのＢＥＰ回路１１２は別個のＡＳＩＣ上に実装される。他の実施形態では、統合コントローラＡＳＩＣは、フロントエンド機能及びバックエンド機能の両方を併せ持ち得る。ＢＥＰ回路１１２及びＦＥＰ回路１１０のそれぞれのＡＳＩＣは、コントローラ１０２がシステムオンチップ（「ＳｏＣ」）として製造されるように、同じ半導体上に実装される。ＦＥＰ回路１１０及びＢＥＰ回路１１２は両方とも、それら自体のプロセッサを含む。一実施形態では、ＦＥＰ回路１１０及びＢＥＰ回路１１２は、ＦＥＰ回路１１０がマスターであり、それぞれのＢＥＰ回路１１２がスレーブであるマスタースレーブ構成として機能する。例えば、ＦＥＰ回路１１０は、メモリ管理（例えば、ガベージコレクション、ウェアレベリングなど）、論理アドレスから物理アドレスへの変換、ホストとの通信、ＤＲＡＭ（ローカル揮発性メモリ）の管理、及びＳＳＤ（又は他の不揮発性記憶システム）の全体動作の管理を実行する、フラッシュ変換層（ＦＴＬ）又はメディア管理層（ＭＭＬ）を実装する。ＢＥＰ回路１１２は、ＦＥＰ回路１１０の要求でメモリパッケージ／ダイ内のメモリ動作を管理する。例えば、ＢＥＰ回路１１２は、読み出し、消去、及びプログラミングプロセスを実施し得る。加えて、ＢＥＰ回路１１２は、バッファ管理の実行、ＦＥＰ回路１１０によって要求される特定の電圧レベルの設定、エラー訂正（ＥＣＣ）の実行、メモリパッケージに対するトグルモードインターフェースの制御などを行い得る。一実施形態では、それぞれのＢＥＰ回路１１２は、それ自体の組のメモリパッケージに関与する。

一実施形態では、不揮発性メモリ１０４は複数のメモリパッケージを含む。それぞれのメモリパッケージは、１つ以上のメモリダイを含む。したがって、コントローラ１０２は、１つ以上の不揮発性メモリダイに接続される。一実施形態では、メモリパッケージ１０４内のそれぞれのメモリダイは、ＮＡＮＤフラッシュメモリ（２次元ＮＡＮＤフラッシュメモリ及び／又は３次元ＮＡＮＤフラッシュメモリを含む）を利用する。他の実施形態では、メモリパッケージは、抵抗性ランダムアクセスメモリ（ＲｅＲＡＭ、ＭＲＡＭ、ＦｅＲＡＭ、又はＲＲＡＭなど）又は相変化メモリ（ＰＣＭ）に基づくストレージクラスメモリ（ＳＣＭ）などの他の種類のメモリを含み得る。

コントローラ１０２は、例えば、ＰＣＩＥｘｐｒｅｓｓ（ＰＣＩｅ）上のＮＶＭＥｘｐｒｅｓｓ（ＮＶＭｅ）のようなプロトコルを実装するインターフェース１３０を介してホスト１２０と通信する。メモリシステム１００と連動するために、ホスト１２０は、バス１２８に沿って接続されたホストプロセッサ１２２、ホストメモリ１２４、及びＰＣＩｅインターフェース１２６を含む。ホストメモリ１２４は、ホストの物理メモリであり、ＤＲＡＭ、ＳＲＡＭ、不揮発性メモリ、又は別のタイプの記憶装置であり得る。ホスト１２０は、メモリシステム１００の外部にあり、メモリシステム１００とは別個である。一実施形態では、メモリシステム１００はホスト１２０内に埋め込まれる。

図２は、ＦＥＰ回路１１０の一実施形態を示すブロック図である。図２は、ホスト１２０と通信するＰＣＩｅインターフェース１５０と、そのＰＣＩｅインターフェースと通信するホストプロセッサ１５２とを示す。ホストプロセッサ１５２は、実装に好適な、当該技術分野において既知の任意の種類のプロセッサであり得る。ホストプロセッサ１５２は、ネットワークオンチップ（ＮＯＣ）１５４と通信する。ＮＯＣは、典型的にＳｏＣ内のコア間にある、集積回路上の通信サブシステムである。ＮＯＣは、同期及び非同期クロックドメインにまたがるか、又はロックされていない非同期論理を使用し得る。ＮＯＣ技術は、ネットワーキング理論及び方法をオンチップ通信に適用し、従来のバス及びクロスバー相互接続に顕著な改善をもたらす。ＮＯＣは、他の設計と比較して、ＳｏＣの拡張性、及び複雑なＳｏＣの電力効率を向上させる。ＮＯＣのワイヤ及びリンクは、多くの信号によって共有される。ＮＯＣ内の全てのリンクが異なるデータパケット上で同時に動作することができるため、高レベルの並列性が達成される。したがって、統合サブシステムの複雑性が増大し続けると、ＮＯＣは、以前の通信アーキテクチャ（例えば、専用のポイントツーポイント信号ワイヤ、共有バス、又はブリッジを有するセグメント化バス）と比較して、向上した性能（スループットなど）及び拡張性をもたらす。ＮＯＣ１５４に接続され、ＮＯＣ１５４と通信するのは、メモリプロセッサ１５６、ＳＲＡＭ１６０及びＤＲＡＭコントローラ１６２である。ＤＲＡＭコントローラ１６２は、ＤＲＡＭ（例えば、ＤＲＡＭ１０６）を動作させ、ＤＲＡＭと通信するために使用される。ＳＲＡＭ１６０は、メモリプロセッサ１５６によって使用されるローカルＲＡＭメモリである。メモリプロセッサ１５６は、ＦＥＰ回路を実行し、様々なメモリ動作を実行するために使用される。また、ＮＯＣと通信するのは、２つのＰＣＩｅインターフェース１６４及び１６６である。図２の実施形態では、ＳＳＤコントローラは２つのＢＥＰ回路１１２を含むことになる。したがって、２つのＰＣＩｅインターフェース１６４／１６６が存在する。それぞれのＰＣＩｅインターフェースは、ＢＥＰ回路１１２のうちの１つと通信する。他の実施形態では、ＢＥＰ回路１１２は２つより多い場合も少ない場合もある。したがって、２つより多いＰＣＩｅインターフェースが存在し得る。

ＦＥＰ回路１１０はまた、フラッシュ変換層（ＦＴＬ）、又はより一般的には、メモリ管理（例えば、ガベージコレクション、ウェアレベリング、負荷バランシングなど）、論理アドレスから物理アドレスへの変換、ホストとの通信、ＤＲＡＭ（ローカル揮発性メモリ）の管理、及びＳＳＤ又は他の不揮発性記憶システムの全体動作の管理を行うメディア管理層（ＭＭＬ）１５８を含み得る。メディア管理層ＭＭＬ１５８は、メモリエラー及びホストとのインターフェースを扱い得るメモリ管理の一部として統合されてもよい。具体的には、ＭＭＬはＦＥＰ回路１１０内のモジュールであってもよく、メモリ管理の内部的特性に関与してもよい。具体的には、ＭＭＬ１５８は、ホストからの書き込みをダイのメモリ構造（例えば、下の図５の３２６）への書き込みに変換するメモリデバイスファームウェア内のアルゴリズムを含んでもよい。ＭＭＬ１５８は、１）メモリの耐久性が限られている場合があること、２）メモリ構造がページの倍数単位でのみ書き込むことができること、及び／又は３）メモリ構造はブロックとして消去されない限り書き込むことができないことから必要とされ得る。ＭＭＬ１５８は、ホストにとって可視でない可能性があるメモリ構造のこれらの潜在的制約を理解する。したがって、ＭＭＬ１５８は、ホストからの書き込みをメモリ構造への書き込みに変換しようと試みる。

図３は、ＢＥＰ回路１１２の一実施形態のブロック図である。図３は、ＦＥＰ回路１１０と通信する（例えば、図２のＰＣＩｅインターフェース１６４及び１６６のうちの１つと通信する）ためのＰＣＩｅインターフェース２００を示す。ＰＣＩｅインターフェース２００は、２つのＮＯＣ２０２及び２０４と通信する。一実施形態では、２つのＮＯＣが、１つの大型ＮＯＣに組み込まれ得る。それぞれのＮＯＣ（２０２／２０４）は、ＸＯＲエンジン（２２４／２５４）及びＥＣＣエンジン（２２６／２５６）を介して、ＳＲＡＭ（２３０／２６０）、バッファ（２３２／２６２）、プロセッサ（２２０／２５０）、及びデータ経路コントローラ（２２２／２５２）に接続される。ＥＣＣエンジン２２６／２５６は、当該技術分野において既知であるように、エラー訂正を実行するために使用される。ＸＯＲエンジン２２４／２５４は、データをＸＯＲ演算するために使用され、データは、プログラミングエラーがある場合に復元され得る様式で組み合わされ、記憶され得る。データ経路コントローラ２２２は、４つのチャネルを介してメモリパッケージと通信するためのインターフェースモジュールに接続される。したがって、上部のＮＯＣ２０２は、メモリパッケージと通信するための４つのチャネルのためのインターフェース２２８に関連付けられ、下部のＮＯＣ２０４は、メモリパッケージと通信するための４つの追加のチャネルのためのインターフェース２５８に関連付けられる。それぞれのインターフェース２２８／２５８は、４つのトグルモードインターフェース（ＴＭインターフェース）、４つのバッファ、及び４つのスケジューラを含む。チャネルのそれぞれに１つのスケジューラ、バッファ、及びＴＭインターフェースが存在する。プロセッサは、当該技術分野において既知の任意の標準プロセッサであり得る。データ経路コントローラ２２２／２５２は、プロセッサ、ＦＰＧＡ、マイクロプロセッサ、又は他のタイプのコントローラであり得る。ＸＯＲエンジン２２４／２５４及びＥＣＣエンジン２２６／２５６は、ハードウェアアクセラレータとして知られる専用ハードウェア回路である。他の実施形態では、ＸＯＲエンジン２２４／２５４及びＥＣＣエンジン２２６／２５６は、ソフトウェアに実装され得る。スケジューラ、バッファ、及びＴＭインターフェースは、ハードウェア回路である。

図４は、メモリバス（データ線及びチップイネーブル線）２９４に接続された複数のメモリダイ２９２を含むメモリパッケージ１０４の一実施形態のブロック図である。メモリバス２９４は、ＢＥＰ回路１１２のＴＭインターフェースと通信するためのトグルモードインターフェース２９６に接続する（例えば、図３を参照）。いくつかの実施形態では、メモリパッケージは、メモリバス及びＴＭインターフェースに接続された小型コントローラを含み得る。メモリパッケージは、１つ以上のメモリダイを有し得る。一実施形態では、それぞれのメモリパッケージは、８つ又は１６個のメモリダイを含む。ただし、他の数のメモリダイを実装することもできる。本明細書に記載される技術は、任意の特定数のメモリダイに限定されない。

図５は、メモリダイ３００の一実施形態の機能ブロック図である。図５に示す構成要素は、電気回路である。一実施形態では、それぞれのメモリダイ３００は、メモリ構造３２６、制御回路３１０、及び読み出し／書き込み回路３２８を含む。メモリ構造３２６は、行デコーダ３２４を介してワード線によりアドレス指定可能であり、列デコーダ３３２を介してビット線によりアドレス指定可能である。読み出し／書き込み回路３２８は、ＳＢ１、ＳＢ２、．．．、ＳＢｐ（感知回路）を含む複数のセンスブロック３５０を含み、メモリセルのページが並行して読み出される又はプログラムされることを可能にする。コマンド及びデータは、線３１８を介してコントローラとメモリダイ３００との間で転送される。一実施形態では、メモリダイ３００は、線３１８に接続する１組の入力及び／又は出力（Ｉ／Ｏ）ピンを含む。

制御回路３１０は、読み出し／書き込み回路３２８と協働して、メモリ構造３２６でメモリ動作（例えば、書き込み、読み出しなど）を実施し、ステートマシン３１２、オンチップアドレスデコーダ３１４、及び電力制御回路３１６を含む。ステートマシン３１２は、メモリ動作のダイレベル制御を提供する。一実施形態では、ステートマシン３１２は、ソフトウェアによってプログラム可能である。他の実施形態では、ステートマシン３１２は、ソフトウェアを使用せず、ハードウェア（例えば電気回路）内に完全に実装される。別の実施形態では、ステートマシン３１２は、マイクロコントローラによって置き換えられる。

オンチップアドレスデコーダ３１４は、コントローラ１０２によって使用されるアドレスと、デコーダ３２４及び３３２によって使用されるハードウェアアドレスとの間のアドレスインターフェースを提供する。電力制御モジュール３１６は、メモリ動作中にワード線及びビット線に供給される電力及び電圧を制御する。電力制御モジュール３１６は、電圧を生成するための電荷ポンプを含み得る。センスブロックは、ビット線ドライバを含む。

本文書の目的のために、語句「１つ以上の制御回路」は、不揮発性メモリを制御するために使用されるコントローラ、ステートマシン、マイクロコントローラ、及び／若しくは制御回路３１０、又は他の類似回路を含み得る。

一実施形態では、メモリ構造３２６は、ウェハなどの単一の基板上に複数のメモリレベルが形成される不揮発性メモリセルの３次元メモリアレイを含む。メモリ構造は、シリコン（又は他の種類の）基板上に配置された活性領域を有するメモリセルの１つ以上の物理レベルに、モノリシックに形成される任意の種類の不揮発性メモリを含み得る。一例では、不揮発性メモリセルは、例えば米国特許第９，７２１，６６２号に記載されているような電荷トラップ材料を有する垂直ＮＡＮＤストリングを含み、その全体が参照により本明細書に組み込まれる。

別の実施形態では、メモリ構造３２６は、不揮発性メモリセルの２次元メモリアレイを備える。一例では、不揮発性メモリセルは、例えば米国特許第９，０８２，５０２号に記載されているような浮動ゲートを利用するＮＡＮＤフラッシュメモリセルであり、その全体が参照により本明細書に組み込まれる。他の種類のメモリセル（例えば、ＮＯＲ型フラッシュメモリ）も使用することができる。

メモリ構造３２６に含まれるメモリアレイアーキテクチャ又はメモリセルの正確な種類は、上記の例に限定されない。多くの異なる種類のメモリアレイアーキテクチャ又はメモリ技術を使用して、メモリ構造３２６を形成することができる。本明細書で提案された新たに特許請求される実施形態の目的には、特定の不揮発性メモリ技術は必要とされない。メモリ構造３２６のメモリセルに好適な技術の他の例として、ＲｅＲＡＭメモリ（抵抗性ランダムアクセスメモリ）、磁気抵抗メモリ（例えば、ＭＲＡＭ、スピントランスファートルクＭＲＡＭ、スピン軌道トルクＭＲＡＭ）、ＦｅＲＡＭ、位相変化メモリ（例えばＰＣＭ）などが挙げられる。メモリ構造３２６のメモリセルアーキテクチャに適した技術の例として、２次元アレイ、３次元アレイ、クロスポイントアレイ、積層型２次元アレイ、垂直ビット線アレイなどが挙げられる。

ＲｅＲＡＭクロスポイントメモリの一例として、Ｘ線及びＹ線（例えば、ワード線及びビット線）によってアクセスされるクロスポイントアレイに配置された可逆抵抗スイッチング素子が挙げられる。別の実施形態では、メモリセルは、導電性ブリッジメモリ素子を含み得る。導電性ブリッジメモリ素子はまた、プログラム可能なメタライゼーションセルと呼ばれ得る。導電性ブリッジメモリ素子は、固体電解質内のイオンの物理的再配置に基づく状態変化素子として使用され得る。場合によっては、導電性ブリッジメモリ素子は、２つの電極間に固体電解質薄膜を有する、２つの固体金属電極を含んでもよく、一方は、比較的不活性であり（例えば、タングステン）、他方は、他の電気化学的に活性である（例えば、銀又は銅）。温度が上昇すると、イオンの移動度も増加し、導電性ブリッジメモリセルのプログラミング閾値が低下する。したがって、導電性ブリッジメモリ素子は、温度に対して広範囲のプログラミング閾値を有し得る。

磁気抵抗ランダムアクセスメモリ（ＭＲＡＭ）は、磁気記憶素子によってデータを記憶する。素子は、層としても知られる２つの強磁性薄膜から形成され、層のそれぞれは強磁性であり、薄い絶縁層によって分離されている。２つの層のうちの１つは、特定の極性に設定された永久磁石である。他方の層の磁化は、メモリを記憶するために外場の磁化と一致するように変更することができる。メモリデバイスは、このようなメモリセルのグリッドから構築される。プログラミングのための一実施形態では、各メモリセルは、互いに直角に、セルに平行に、セルの１つ上及び１つ下に配置された一対の書き込み線の間にある。電流がそれらを通過すると、誘導磁場が生成される。

位相変化メモリ（Phase change memory、ＰＣＭ）は、カルコゲナイドガラス特有の挙動を利用する。一実施形態は、単にレーザパルス（又は別の光源からの光パルス）でゲルマニウム原子の調整状態を変化させることによって、非熱位相変化を達成するために、ＧｅＴｅ－Ｓｂ２Ｔｅ３超格子を使用する。したがって、プログラミングの線量はレーザーパルスである。メモリセルは、メモリセルが光を受信することをブロックすることによって抑制され得る。他のＰＣＭ実施形態では、メモリセルは、電流パルスによってプログラムされる。本書では「パルス」の使用は方形波を必要としないが、（連続的又は非連続的な）音の振動若しくはバースト、電流、電圧光、又はその他の波を含む。

当業者であれば、本明細書に記載されるこの技術は、単一の特定のメモリ構造、メモリ構成、又は材料組成に限定されず、本明細書に記載され、当業者によって理解されるように、技術の趣旨及び範囲内で、多くの関連するメモリ構造を包含することを理解するであろう。

図５の素子は、メモリセルのメモリ構造３２６と、他の素子の全てを含む周辺回路との２つの部分に分類することができる。メモリ回路の重要な特性はその容量であり、その容量は、メモリ構造３２６に与えられるメモリダイ３００の面積を増加させることによって増加され得る。しかしながら、これにより、周辺回路に利用可能なメモリダイ３００の面積が低減する。これは、これらの周辺素子に非常に厳しい制限を課し得る。例えば、センス増幅器回路を利用可能な面積に収めることの必要性は、センス増幅器設計アーキテクチャに対する重要な制限であり得る。オンダイ制御回路３１０に関して、面積の利用可能性が低減することにより、オンチップに実装され得る利用可能な機能が制限され得る。その結果、メモリダイ３００の設計における基本的なトレードオフは、メモリ構造３２６に当てられる面積の量、及び周辺回路に当てられる面積の量である。

メモリ構造３２６及び周辺回路がしばしば対立する別の面積は、これらの領域の形成に関与する処理にある。これらの領域は多くの場合、異なる処理技術及び単一ダイ上に異なる技術を有するトレードオフを含むことが多いためである。例えば、メモリ構造３２６がＮＡＮＤフラッシュである場合、これはＮＭＯＳ構造であり、周辺回路は、多くの場合、ＣＭＯＳベースである。例えば、センスブロック３５０内のセンス増幅器回路、電力制御ブロック３１６内の電荷ポンプ、ステートマシン３１２内の論理素子、及び他の周辺回路は、多くの場合、ＰＭＯＳデバイスを使用する。ＣＭＯＳダイを製造するための処理動作は、多くの態様において、ＮＭＯＳフラッシュＮＡＮＤメモリ又は他のメモリセル技術に対して最適化された処理動作と異なる。

これらの制限を改善するために、以下に記載される実施形態は、図５の素子を別個に形成されたダイ上に分けることができ、それらのダイはその後１つに接合される。より具体的には、メモリ構造３２６を１つのダイ上に形成することができ、１つ以上の制御回路を含む周辺回路素子の一部又は全部を別個のダイ上に形成することができる。例えば、メモリダイは、フラッシュＮＡＮＤメモリ、ＰＣＭメモリ、ＲｅＲＡＭメモリ、又は他のメモリタイプのメモリセルのアレイなど、メモリ素子のみから形成され得る。次いで、デコーダ及びセンス増幅器などの素子を更に含む周辺回路の一部又は全てを別個のダイに移動させることができる。これにより、メモリダイのそれぞれは、その技術に従って個別に最適化されることを可能になる。例えば、ＣＭＯＳ処理のために最適化され得る別個の周辺回路ダイ上に既に移動されたＣＭＯＳ素子の心配をすることなく、ＮＡＮＤメモリダイをＮＭＯＳベースのメモリアレイ構造用に最適化することができる。これにより、周辺素子に対するより多くの空間が可能になり、メモリセルアレイを保持する同じダイのマージンに制限されて容易に組み込むことができなかった追加機能を組み込むことができる。次いで、２つのダイを１つに接合して、接合マルチダイメモリ回路にすることができ、一方のダイ上のアレイは他方のメモリ回路上の周辺素子に接続される。以下は、１つのメモリダイ及び１つの周辺回路ダイの接合メモリ回路に焦点を合わせているが、他の実施形態は、例えば、２つのメモリダイ及び１つの周辺回路ダイなど、より多くのダイを使用することができる。

図６Ａ及び図６Ｂは、接合されたダイ対６０４を提供するためにウェハ間接合を使用して実装され得る、図５の配置の代替配置を示す。図６Ａは、メモリダイ６１０内に形成されたメモリ構造３２６に結合された周辺回路又は制御ダイ６０８に形成された制御回路を含む周辺回路の例を示す。共通の構成要素は、図５のように番号付けされている。制御回路３１０、読み出し／書き込み回路３２８、及び行デコーダ３２４（ＣＭＯＳプロセスによって形成され得る）は、制御ダイ６０８内に位置していることが分かる。コントローラ１０２からの機能などの追加の素子も、制御ダイ６０８に移動され得る。制御回路３１０、読み出し／書き込み回路３２８、行デコーダ３２４、及び列デコーダ３３２は、一般的なプロセス（例えば、ＣＭＯＳプロセス）によって形成されてもよく、それにより、メモリコントローラ１０２上により典型的に見られる素子及び機能を追加するのに、追加のプロセス工程はほとんど又はまったく必要なくなる可能性がある（すなわち、コントローラ１０２を製造するために使用される同じプロセス工程を、制御回路３１０、読み出し／書き込み回路３２８、及び行デコーダ３２４を製造するためにも使用することができる）。したがって、メモリダイ３００などのダイからかかる回路を移動することで、かかるダイを製造するのに必要な工程数が減る一方、制御ダイ６０８などのダイにかかる回路を追加するのに、任意の追加のプロセス工程は必要なくなる可能性がある。

図６Ａは、電気経路６１２を介してメモリダイ６１０上のメモリ構造３２６に結合された制御ダイ６０８上の読み出し／書き込み回路３２８を示す。例えば、電気経路６１２は、読み出し／書き込み回路３２８とメモリ構造３２６のビット線との間の電気的接続を提供し得る。電気経路は、メモリ構造３２６のビット線に接続されたメモリダイ６１０の対応するパッドに接合された制御ダイ６０８上のパッドを介して、制御ダイ６０８内の読み出し／書き込み回路３２８から延在し得る。メモリ構造３２６のそれぞれのビット線は、読み出し／書き込み回路３２８に接続する一対の接合されたパッドを含む、電気経路６１２内の対応する電気経路を有し得る。同様に、行デコーダ回路３２４は、電気経路６１４を介してメモリ構造３２６に結合される。電気経路６１４のそれぞれは、ワード線、ダミーワード線、又は選択ゲート線に対応し得る。また、制御ダイ６０８とメモリダイ６１０との間に追加の電気経路が提供されてもよい。

図６Ｂは、接合されたダイ対６０４の統合メモリアセンブリの一実施形態の配置をより詳細に示すブロック図である。メモリダイ６１０は、平面６２０又はメモリセルのアレイを含む。メモリダイ６１０は、追加の平面又はアレイを有してもよい。それぞれの平面又はアレイ６２０に対する１つの代表的なビット線（ＢＬ）及び代表的なワード線（ＷＬ）が示されている。それぞれの平面又はアレイ６２０当たりに数千又は数万のかかるビット線が存在し得る。一実施形態では、アレイ又は平面は、破断のないワード線及び破断のないビット線の共通の組を共有する、接続されたメモリセルのグループを表す。

制御ダイ６０８は、多数のセンス増幅器（ＳＡ）３５０を含む。それぞれのセンス増幅器３５０は、１つのビット線に接続されるか、又はいくつかの実施形態では、複数のビット線に接続されてもよい。センス増幅器は、ビット線ドライバを含む。このため、センス増幅器は、それが接続されるビット線に電圧を提供し得る。センス増幅器は、ビット線の状態を感知するように構成されている。一実施形態では、センス増幅器は、ビット線に流れる電流を感知するように構成されている。一実施形態では、センス増幅器は、ビット線上の電圧を感知するように構成されている。

制御ダイ６０８は、多数のワード線ドライバ６６０（１）～６６０（ｎ）を含む。ワード線ドライバ６６０は、ワード線に電圧を提供するように構成されている。この例では、アレイ又は平面メモリセル当たり「ｎ」個のワード線が存在する。メモリ動作がプログラム又は読み出しである場合、一実施形態では、選択されたブロック内の１つのワード線がメモリ動作のために選択される。メモリ動作が消去である場合、一実施形態では、選択されたブロック内のワード線の全てが消去のために選択される。ワード線ドライバ６６０（例えば、電力制御３１６の部分）は、メモリダイ６１０内のワード線に電圧を提供する。図６Ａに関して上述したように、制御ダイ６０８はまた、ワード線ドライバ６６０及び／又はビット線ドライバに電圧を提供するために使用され得る電荷ポンプ、電圧発生器などを含み得るが、これらは図６Ｂに示されていない。

メモリダイ６１０は、メモリダイ６１０の第１の主面６８２上に、多数のボンドパッド６７０ａ、６７０ｂを有する。対応する「ｎ」個のワード線ドライバ６６０（１）～６６０（ｎ）から電圧を受け取るために、「ｎ」個のボンドパッド６７０ａが存在し得る。平面６２０に関連付けられたビット線ごとに１つのボンドパッド６７０ｂが存在し得る。参照番号６７０は、一般に、主面６８２上のボンドパッドを参照するために使用される。

いくつかの実施形態では、コードワードのそれぞれのデータビット及びそれぞれのパリティビットは、異なるボンドパッド対６７０ｂ、６７４ｂを介して転送される。コードワードのビットは、ボンドパッド対６７０ｂ、６７４ｂを介して並行して転送されてもよい。これは、例えば、メモリコントローラ１０２と統合メモリアセンブリ６０４との間でデータを転送することに対して、非常に効率的なデータ転送を提供する。例えば、メモリコントローラ１０２と統合メモリアセンブリ６０４との間のデータバスは、例えば、並行して転送される８ビット、１６ビット、又は恐らく３２ビットを提供し得る。しかしながら、メモリコントローラ１０２と統合メモリアセンブリ６０４との間のデータバスは、これらの例に限定されない。

制御ダイ６０８は、制御ダイ６０８の第１の主面６８４上に、多数のボンドパッド６７４ａ、６７４ｂを有する。対応する「ｎ」個のワード線ドライバ６６０（１）～６６０（ｎ）からメモリダイ６１０に電圧を送達するために、「ｎ」個のボンドパッド６７４ａが存在し得る。平面６２０に関連付けられたビット線ごとに１つのボンドパッド６７４ｂが存在し得る。参照番号６７４は、一般に、主面６８２上のボンドパッドを参照するために使用される。ボンドパッド対６７０ａ／６７４ａ及びボンドパッド対６７０ｂ／６７４ｂが存在し得ることに留意されたい。いくつかの実施形態では、ボンドパッド６７０及び／又は６７４は、フリップチップボンドパッドである。

一実施形態では、ボンドパッド６７０のパターンは、ボンドパッド６７４のパターンと一致する。ボンドパッド６７０は、ボンドパッド６７４に接合される（例えば、フリップチップ接合される）。このため、ボンドパッド６７０、６７４は、メモリダイ６１０を制御ダイ６０８に電気的及び物理的に結合する。

また、ボンドパッド６７０、６７４は、メモリダイ６１０と制御ダイ６０８との間の内部信号転送を可能にする。このため、メモリダイ６１０及び制御ダイ６０８は、ボンドパッドと一緒に接合される。図６Ａは、１つのメモリダイ６１０に接合された１つの制御ダイ６０８を示すが、別の実施形態では、１つの制御ダイ６０８は複数のメモリダイ６１０に接合されている。

本明細書では、「内部信号転送」は、制御ダイ６０８とメモリダイ６１０との間の信号転送を意味する。内部信号転送は、制御ダイ６０８上の回路がメモリダイ６１０内のメモリ動作を制御することを可能にする。したがって、ボンドパッド６７０、６７４は、メモリ動作信号転送のために使用され得る。本明細書では、「メモリ動作信号転送」は、メモリダイ６１０内のメモリ動作に関係する任意の信号を指す。メモリ動作信号転送は、電圧を提供すること、電流を提供すること、電圧を受け取ること、電流を受け取ること、電圧を感知すること、及び／又は電流を感知することを含み得るが、これらに限定されない。

ボンドパッド６７０、６７４は、例えば、銅、アルミニウム、及びこれらの合金から形成されてもよい。ボンドパッド６７０、６７４と主面（６８２、６８４）との間にライナーが存在してもよい。ライナーは、例えば、チタン／窒化チタンスタックで形成されてもよい。ボンドパッド６７０、６７４及びライナーは、蒸着及び／又はめっき技術によって適用されてもよい。ボンドパッド及びライナーは共に７２０ｎｍの厚さを有してもよいが、更なる実施形態では、この厚さはより大きくても小さくてもよい。

金属相互接続及び／又はビアは、ダイ内の様々な素子をボンドパッド６７０～６７４に電気的に接続するために使用され得る。金属相互接続及び／又はビアによって実装され得るいくつかの導電経路が示されている。例えば、センス増幅器３５０は、経路６６４によってボンドパッド６７４ｂに電気的に接続され得る。図６Ａに関して、電気経路６１２は、経路６６４、ボンドパッド６７４ｂ、及びボンドパッド６７０ｂに対応し得る。数千のかかるセンス増幅器、経路、及びボンドパッドが存在し得る。ＢＬは、ボンドパッド６７０ｂへの直接接続を必ずしも行わないことに留意されたい。ワード線ドライバ６６０は、経路６６２によってボンドパッド６７４ａに電気的に接続され得る。図６Ａに関して、電気経路６１４は、経路６６２、ボンドパッド６７４ａ、及びボンドパッド６７０ａに対応し得る。経路６６２は、それぞれのワード線ドライバ６６０（１）～６６０（ｎ）に対して別個の導電経路を備えてもよいことに留意されたい。同様に、それぞれのワード線ドライバ６６０（１）～６６０（ｎ）に対して別個のボンドパッド６７４ａが存在してもよい。メモリダイ６１０のブロック２内のワード線は、経路６６４によってボンドパッド６７０ａに電気的に接続され得る。図６Ｂでは、ブロック内の対応する「ｎ」個のワード線に対して「ｎ」個の経路６６４が存在する。それぞれの経路６６４に対して、ボンドパッド６７０ａ、６７４ａの別個の対が存在し得る。

図５に関連して、図６Ａのオンダイ制御回路はまた、その論理素子内の追加機能として、メモリコントローラ１０２に典型的に見られるものよりも汎用的な能力と一部のＣＰＵ能力との両方に加え、アプリケーション特有の特徴も含み得る。例えば、これらの活性化関数は、積和（Multiple and ACcumulation、ＭＡＣ）演算の累積部分に使用される加算及び閾値決定演算のほか、シグモイド関数又はｔａｎｈ関数などのより高度な演算を含み得る。

以下では、図６Ａの制御ダイ６０８上に描画された他の回路及び図５の類似の素子のうちの全て又は一部と組み合わせたステートマシン３１２及び／又はコントローラ１０２（又は同等に機能する回路）は、本明細書に記載される役割を果たす１つ以上の制御回路の一部とみなされ得る。制御回路は、ハードウェアのみ、又はハードウェアとソフトウェア（ファームウェアを含む）との組み合せを含むことができる。例えば、本明細書に記載する機能を実施するためにファームウェアによってプログラムされたコントローラは、制御回路の一例である。制御回路は、プロセッサ、ＦＧＡ、ＡＳＩＣ、集積回路、又は他の種類の回路を含み得る。

ここで、不揮発性メモリデバイスに記憶され得るデータの種類を考慮すると、以下の考察で対象となるデータの種類の特定の例は、畳み込みニューラルネットワーク、すなわちＣＮＮなどの人工ニューラルネットワークで使用される重みである。「畳み込みニューラルネットワーク」という名称は、ネットワークが、特殊な種類の線形演算である、畳み込みと呼ばれる数学的演算を用いることを示す。畳み込みネットワークは、それらの層のうちの少なくとも１つで、一般的な行列乗算の代わりに畳み込みを使用するニューラルネットワークである。ＣＮＮは、多数の中間隠れ層と共に、入力層及び出力層から形成される。ＣＮＮの隠れ層は、典型的には、乗算又は他のドット積と「畳み込み」する一連の畳み込み層である。

ニューラルネットワーク内のそれぞれのニューロンは、前の層内の受容野から来る入力値に特定の関数を適用することによって出力値を計算する。入力値に適用される関数は、重み及びバイアスのベクトルによって決定される。ニューラルネットワークにおける学習は、これらのバイアス及び重みに対する反復調整を行うことによって進行する。重み及びバイアスのベクトルは、フィルタと呼ばれ、入力の特定の特徴（例えば、特定の形状）を表す。ＣＮＮの際立った特徴は、多くのニューロンが同じフィルタを共有し得ることである。

図７は、ＣＮＮの例を示す概略図である。図７は、画素値のアレイの初期入力画像、それに続く多数の畳み込み層、次いでそれに続く多数の全結合層を示し、その最後に出力が提供される。第１の畳み込み層（Ｃｏｎ１）内のそれぞれのニューロンは、入力画像のｎ×ｎ画素サブ領域から入力データを取る。ニューロンの学習された重みは、集合的にその畳み込みフィルタと呼ばれ、入力に応答してニューロンの単一値出力を決定する。畳み込み層では、ニューロンのフィルタは、入力領域を画像のｘ及びｙ次元に沿ってスライドさせることによって入力画像に適用されて、畳み込み層の値が生成される。実際には、同等の畳み込みは、通常、異なる入力領域へのニューロンの静的に同一のコピーによって実装される。それぞれの層の学習された重みを使用して、畳み込み層（Ｃｏｎ１～ＣｏｎＮ）のそれぞれを通してプロセスが繰り返され、その後、それらの学習された重みを使用して全結合層（Ｌ１～ＬＭ）を介して伝播される。

図８は、ニューラルネットワークのいくつかの全結合層をより詳細に示す。図８では、人工ニューラルネットワークの示されている３つの層は、円によって表されるノード又は人工ニューロンの相互接続されたグループ、及び１つの人工ニューロンの出力から別の入力への１組の接続として表されている。この実施例は、３つの入力ノード（Ｉ_１、Ｉ_２、Ｉ_３）及び２つの出力ノード（Ｏ_１、Ｏ_２）のほか、４つの隠れノード又は中間ノード（Ｈ_１、Ｈ_２、Ｈ_３、Ｈ_４）の中間層を示す。人工ニューラルネットワークのノード、又は人工ニューロン／シナプスは、ホスト又は他の処理システムの論理素子によって、１つ以上の入力を受信し、それらを合計して出力を生成する数学関数として実装される。通常、それぞれの入力は別個に重み付けされ、合計がノードの数学関数に渡されてノードの出力が提供される。

一般的な人工ニューラルネットワークの実装形態では、ノード（人工ニューロン／シナプス）間の接続部の信号は実数であり、それぞれの人工ニューロンの出力は、その入力の合計のいくつかの非線形関数によって計算される。ノード及びそれらの接続部は、典型的には、学習プロセスの進行に従って調整する重みを有する。この重みは、接続時の信号の強度を増減させる。ノードは、集約信号がその閾値を横切る場合にのみ信号が送信されるように閾値を有してもよい。典型的には、ノードは層に集約される。異なる層は、それらの入力に対して異なる種類の変換を実行し得る。信号は、おそらくは層を複数回横断した後に、最初の層（入力層）から最後の層（出力層）へと移動する。図７は、単一の中間層又は隠れ層のみを示しているが、複雑なディープニューラルネットワーク（ＤＮＮ）は、多くのそのような中間層を有し得る。

教師あり人工ニューラルネットワークは、入力を供給し、次いで出力をチェック及び補正することによって「訓練」される。例えば、犬種を認識するように訓練されたニューラルネットワークは、１組の画像を処理し、画像内のイヌが特定の犬種である確率を計算する。ユーザは、結果を確認し、ネットワークが表示し（特定の閾値を上回るなど）、提案されるラベルを返すべき確率を選択することができる。そのようなそれぞれの数学的操作は層とみなされ、複雑なニューラルネットワークは多くの層を有する。多数の中間層又は隠れ層によって提供される深さにより、ニューラルネットワークは、訓練されるにつれて複雑な非線形関係をモデル化することができる。

図９Ａは、１組の重みを生成するためにニューラルネットワークを訓練するためのプロセスの一実施形態を説明するフロー図である。訓練プロセスは、多くの場合、クラウド内で実行され、付加的な又はより強力な処理へのアクセスを可能にする。工程９０１では、１組の画像などの入力が受信される（例えば、図７の画像入力）。工程９０３では、入力は、現在のフィルタ又は１組の重みを使用して入力を次の層（例えば、図７のＣＯＮ１）に接続する層を介して伝搬される。次いで、工程９０５においてニューラルネットワークの出力は次の層（例えば、図７のＣＯＮ２）で受信され、１つの層からの出力として受信された値は、次の層への入力として機能する。第１の層からの入力は、それらが出力に達するまで中間層又は隠れ層の全てを通じてこのように伝播される。前の段落のイヌの品種の例では、入力は、多数のイヌの画像データであり、中間層は、現在の重み値を使用して画像内のイヌが特定の犬種である確率を計算し、工程９０５で提案される犬種ラベルが返される。次いで、ユーザは、工程９０７で結果を確認してニューラルネットワークが返すべき確率を選択し、現在の１組の重みが十分に正確なラベル付けを供給しているかどうかを決定することができ、そうである場合、訓練は完了する（工程９１１）。結果が十分に正確ではない場合、ニューラルネットワークは、ユーザが選択した確率に基づいて工程９０９で重みを調整し、続いて工程９０３にループバックして、調整された重みを用いて入力データを再び実行する。ニューラルネットワークの１組の重みが決定されると、それらは、決定された重みを使用してデータ入力からニューラルネットワークへの出力結果を生成するプロセスである「推論」に使用され得る。工程９１１で重みが決定されると、それらは、次いで、後の使用のために不揮発性メモリに記憶され得る。不揮発性メモリへのこれらの重みの記憶については、以下で更に詳細に論じる。

図９Ｂは、推定された精度を使用して入力データの「意味」を予測するための、ニューラルネットワークを使用した教師あり学習の推論フェーズのプロセスを説明するフロー図である。その場合に応じて、ニューラルネットワークでは、クラウド内で推論されることも、エッジデバイス（例えば、スマートフォン、自動車プロセス、ハードウェアアクセラレータ）プロセッサによって推論されることも可能である。工程９２１において、上で使用した例ではイヌの画像のように、入力が受信される。以前に決定された重みが、ニューラルネットワークアプリケーションを実行するデバイス内に存在しない場合、それらは工程９２２でロードされる。例えば、ニューラルネットワークを実行するホストプロセッサ上で、重みは、それらが記憶されているＳＳＤから読み出され、ホストデバイス上のＲＡＭにロードされ得る。工程９２３では、入力データは次いで、ニューラルネットワークの層を介して伝播される。工程９２３は、図９Ｂの工程９０３と同様であるが、ここでは、工程９１１で訓練プロセスの終了時に確立された重みを使用する。中間層を介して入力が伝搬された後は、次いで、工程９２５において出力が提供される。

図１０は、入力画像とフィルタとの間の畳み込み動作、又は１組の重みの概略図である。この例では、入力画像は６×６アレイの画素値のであり、フィルタは３×３アレイの重みである。畳み込み動作は、３×３フィルタと入力画像の３×３ブロックとの行列乗算によって実行される。例えば、画像の最左上の３×３ブロックとフィルタとの乗算により、出力行列の左上の値が得られる。次いで、フィルタを画像上で１画素だけ横にスライドさせて、出力の次のエントリを生成することができ、このようにして出力用の最上行の４つの要素を生成することができる。フィルタを一度に１画素下にスライドさせてこれを繰り返すことにより、４×４の出力行列が生成される。同様の動作が層のそれぞれに対して実行される。実際のＣＮＮでは、データセットのサイズ及び実行される畳み込みの数は、非常に多数のかかる動作が非常に大量のデータを伴って実行されることを意味する。

図１１は、ニューラルネットワークの全結合層における行列乗算の使用の概略図である。行列乗算、又はＭａｔＭｕｌは、ニューラルネットワークの訓練フェーズ及び推論フェーズの両方において一般的に使用されるアプローチであり、機械学習のためのカーネル法で使用される。上の図１１は、図８と同様であり、入力層と出力層との間に単一の隠れ層のみが示されている。入力データは、入力ノードの数に対応する長さのベクトルとして表される。重みは重み行列で表され、列の数は、隠れ層内の中間ノードの数に対応し、行の数は入力ノードの数に対応する。出力は、入力ベクトルと重み行列との行列乗算によって決定され、出力ベクトルのそれぞれの要素は、入力データの多重成分ベクトルと重み行列の列とのドット積である。

行列乗算を実行する一般的な手法は、積和演算器（ＭＡＣ、又はＭＡＣ単位）の使用によるものである。しかしながら、これはいくつかの問題を有する。再び図９Ｂを参照すると、推論位相は、行列乗算が工程９２３での伝搬によって実行される前に、工程９２２でニューラルネットワークの重みをロードする。しかしながら、関与するデータの量は非常に大きくなり得るため、推論のための積和演算器の使用は、重みのロードに関連するいくつかの問題を有する。これらの問題のうちの１つは、必要とされるビット幅を有する大きいＭＡＣアレイを使用しなければならないことに起因する高エネルギー散逸である。別の問題は、ＭＡＣアレイの制限されたサイズに起因する高エネルギー散逸であり、論理とメモリとの間の大きいデータ移動と、論理演算自体で使用されるよりもはるかに高くなり得るエネルギー散逸とをもたらす。

これらの制限を回避させるために、積和演算器アレイの使用を他のメモリ技術に置き換えることができる。例えば、ＲｅＲＡＭ、ＰＣＭ、ＦｅＲＡＭ、又はＭＲＡＭベースのメモリセルに基づくものなど、ＮＡＮＤメモリ及びストレージクラスメモリ（ＳＣＭ）の特性を活用することによって、メモリアレイ内で行列乗算が計算され得る。これにより、ニューラルネットワーク入力は、読み出しコマンドを介して提供され、ニューラルの重みは、推論のために予めロードされることが可能になる。インメモリコンピューティングの使用により、これは、ＭＡＣアレイ内で行列乗算を実行する論理の必要性、及びメモリとＭＡＣアレイとの間でデータを移動させる必要性を除去することができる。

以下は、メモリセル内のニューラルネットワークの層の重みを記憶し、アレイのワード線上の電圧レベルとして層に対する入力を適用することによって、メモリセルのアレイ内の推論動作の入力値と重みとの間の乗算を実行し得る、インメモリコンピューティングを行うＤＮＮの実施形態を提示する。ビット線上に結果として生じる電流は、入力と重みとの積に対応し、複数のかかる乗算は同時に実行され得る。このような推論エンジンによって消費される電力を低減するために、以下の考察は、クロスポイント構造を有するアレイの一部である金属層によって分離された複数の極薄誘電体層で形成されたマルチレベルメモリセルに基づく実施形態を提示する。メモリセルの実施形態は、十分に分離された低抵抗状態及び高抵抗状態を有する一方、低抵抗状態の場合にも高抵抗値を依然として有し、推論時の非常に低い電力消費を可能にする。ＤＮＮの重みを記憶するために、メモリセルは、プログラミング電圧の選択によって誘電体層のうちの１つ以上を選択的に破壊するために、入力電圧の使用によって個々にプログラムされ得る。

クロスポイントアーキテクチャの使用は、ベクトル乗算が、アレイ内のセルの抵抗値で行列重みが符号化される電圧－電流変換プロセスによって実装される、より小さいフットプリントを有するアレイを可能にする。記載されるメモリセルは、最低抵抗状態と２倍を超える最高抵抗状態との間にメモリウィンドウを有すると同時に、Ｒ_ＬＲＳ＞１０ＭＯｈｍのように抵抗が依然として非常に高い最低抵抗状態を有し得る。他のメモリセル技術と比較して、本明細書に記載されるメモリセルは、厳格なプログラミング要件をほとんど有さず、比較的低い電力オンチップ回路でプログラムされ得るマルチレベルセル（ＭＬＣ）を可能にする。加えて、プログラミング方法は、ビットごとに専用の選択トランジスタを必要とせずにデバイスの選択を可能にし、それぞれのビットのフットプリントを低減する。メモリデバイスが推論に使用されるとき、メモリデバイスは、顧客に供給される前に、前もって決定されたＤＮＮの重み値を用いて予めプログラムされ得る。

より具体的には、マルチレベル記憶及び電界プログラミングを伴うクロスポイント推論エンジンの実施形態が提示される。記載される設計は、超低電力、低コストであり、特殊なオンチッププログラミングを必要としない、マルチレベルセル（ＭＬＣ）ベクトル乗算デバイスに関する。推論エンジン又はベクトル乗算デバイスは、それぞれのクロスポイント接点にセルを有するクロスポイントアレイと、ワイヤの一方の平面（すなわち、ワード線）内のそれぞれのワイヤに独立した入力電圧を供給し、他方のワイヤ平面（すなわちビット線）内のそれぞれのワイヤに読み出し電流を供給するように構成された制御（又は周辺）回路と、で構成される。ベクトル乗算は、入力電圧とメモリセルによって符号化された行列重みとの乗算を伴う。制御回路及び１つ以上のかかるアレイを保持するメモリダイは、図６Ａ及び図６Ｂに関して上述したように、同一のダイ又は制御ダイ及びメモリダイの接合されたダイ対の一部であり得る。本明細書に提示される実施形態では、クロスポイントアレイのメモリセルは、入力電圧のみを使用して、複数の抵抗状態のうちの１つに個別にプログラムされ得る。以下に記載される第１の組の実施形態では、ＭＬＣメモリセルは、金属層によって分離された複数の極薄誘電体層で形成され、メモリセルのプログラミングは、プログラミング電圧レベルの選択により、誘電体層のうちの１つ以上を選択的に破壊し、ひいてはメモリセルの電気抵抗を設定することによって行われる。別の１組の実施形態では、メモリセルは、アンチヒューズに基づき、アンチヒューズベースのメモリセルのプログラミングは、それぞれのセルを通る電流によって、かつ電流フローを制限するコンプライアンスを設定することによって実行される。

図１２Ａは、斜めから見た、クロスポイントアーキテクチャを形成するメモリアレイ３２６の一部分の一実施形態を示す。図１２Ａのメモリアレイ３２６は、図５におけるメモリアレイ３２６の実装形態の一例である。ビット線ＢＬ_１～ＢＬ_５は、第１の方向に配置され（ページの中に入るように表わされている）、ワード線ＷＬ_１～ＷＬ_５は第１の方向と直交する第２の方向に配置されている。図１２Ａは、ワード線ＷＬ_１～ＷＬ_５及びＢＬ_１～ＢＬ_５が両方とも基板に対して水平方向に走る水平クロスポイント構造の一例であり、一方、１２０１に示されているうちの２つのメモリセルは、電流が垂直方向に走るように配向されている。メモリセルの追加層を有するメモリアレイでは、ビット線及びワード線の対応する追加層が存在する。

図１２Ａに示すように、メモリアレイ３２６は、複数のメモリセル１２０１を含む。メモリセル１２０１は、ＲｅＲＡＭ、ＭＲＡＭ、ＰＣＭ、又はプログラム可能な抵抗を有する他の材料を使用して実装され得るような、書き換え可能メモリセルを含んでもよい。以下の考察は、不揮発性メモリセルの特定の構造に焦点を当てているが、この考察の大半をより一般的に適用することができる。第１のメモリレベルのメモリセル内の電流は、矢印Ｉ_ｃｅｌｌによって示されるように上方に流れ得る。

図１２Ｂ及び図１２Ｃは、それぞれ、図１２Ａのクロスポイント構造の側面図及び上面図を示す。図１２Ｂの側面図は、１つの下部ワイヤ、又はワード線ＷＬ_１、及び上部ワイヤ、又はビット線ＢＬ_１～ＢＬ_Ｎを示す。それぞれの上部ワイヤと下部ワイヤとの間のクロスポイントには、マルチレベルメモリセル１２０１がある。図１２Ｃは、ｍ個の下部ワイヤＷＬ_１～ＷＬ_ｍ及びｎ個の上部ワイヤＢＬ_１～ＢＬ_ｎのクロスポイント構造を示す上面図である。マルチレベルの実施形態では、それぞれのクロスポイントにおけるメモリセルは、２～５レベルなど、２つより多くの抵抗状態のうちの１つにプログラムされ得る。メモリセル設計に関する実施形態、及びそれらのプログラミングのための手法については、以下に詳細に説明する。

図１２Ａ～図１２Ｃのアレイ構造は、推論動作のアレイ乗算を実行するために使用され得、ニューラル機能の層に対する行列重みが、それらの電気抵抗としてメモリセルに記憶される。ワード線の入力に電圧ベクトルＶ_ｉ ^ｉｎを印加することで、入力電圧とメモリセル抵抗によって符号化された重みとのベクトル乗算を基準とするビット線の出力に電流が生成される。重みは、ワード線ＷＬ_ｉ及びビット線ＢＬ_ｊのクロスポイントにおけるメモリセルの抵抗Ｒ_ｉ，ｊの逆数である、コンダクタンスｂ_ｉ，ｊとして符号化される。

ニューラルネットワークの層の入力が、それぞれのワード線ＷＬ_ｉに印加される電圧Ｖ_ｉ ^ｉｎとして符号化される場合、それぞれのビット線ＢＬ_ｊ上の電流は、以下の積となる。

式中、合計はｉを超える。実施形態に応じて、重みはバイナリ値としてバイナリメモリセルに記憶されてもよく、又は後述のようにＭＬＣメモリセルに記憶されるマルチレベル値であってもよい。同様に、実施形態に応じて、入力は、バイナリ値にされてもよく又はより多くの値を有してもよい。複数の選択ワード線に対して感知動作を同時に実行することにより、クロスポイント構造は、層に対する入力と重みの積を自動的に計算する。

この配置では、ビット線に沿った複数のメモリセルは、感知のために同時に選択され、対応する入力電圧は、対応するワード線に印加されることに留意されたい。現在のＩ_ｊ ^ｏｕｔは、これらのメモリセルの全ての組み合わせ結果に対応し、このプロセスは、結果として、単一のメモリセルの状態が決定される通常の読み出し動作とは異なる。かかる推論動作のＩ_ｊ ^ｏｕｔから、決定されるのは組み合わせ結果であり、個々のメモリセルの寄与は不明となる。

図１３は、クロスポイントアレイと、アレイの動作に使用される制御回路のうちのいくつかを示す上面図であり、アレイの３×３区間が示されている。それぞれのワード線ＷＬ_ｉ及びビット線ＢＬ_ｊのクロスポイントに、メモリセルＭ_ｉ，ｊ１３０１_ｉ，ｊがある。ニューラルネットワークの層に対する入力ＩＮ_ｉは、デジタル・アナログ変換器１３１１_ｉで入力値から電圧レベルへと、対応する電圧レベルに変換される。入力ＩＮ_ｉは、ネットワークに対する初期入力、又は先行する層の出力であり得る。バイナリ実施形態では、入力値１が高読み出し電圧Ｖ_ｒｅａｄに変換され得、入力値０が、０Ｖ又は接地などの低読み出し電圧に変換され得、この場合、ＤＡＣ１３１１_ｉは１ビットのＤＡＣになり得る。マルチビット入力の場合、ＤＡＣ１３１１_ｉは、対応するビット数のものとなる。ビット線ＢＬ_ｊのそれぞれに対するアナログ電流Ｉ_ｊ ^ｏｕｔは、対応するアナログ・デジタル変換器ＡＤＣ１３１１_ｊ内のデジタル値に変換されて、デジタル出力ＯＵＴ_ｊを生成する。出力値ＯＵＴ_ｊは、次いで、デジタル計算ブロック１３１５に進むことができ、デジタル計算ブロック１３１５は、積和演算の累積などの動作を実行し、活性化を適用し、ニューラルネットワークを介して入力を伝搬する一環として実行される他のかかる動作を実行し得る。図５及び図６Ａを再び参照すると、ＤＡＣ１３１１_ｉ、ＡＤＣ_ｊ１３１１_ｊ、及びデジタル計算ブロック１３１５は、制御回路３１０の構成要素と共に、行デコーダ３２４、列デコーダ３３２、及び読み出し／書き込み回路３２８の一部とみなされ得る。ＤＡＣ及び／又はＡＤＣは、ｎ＞１で２^ｎレベルに量子化された信号を生成又は出力することができるマルチビットデバイスであり得る。

図１４は、マルチレベル超低電力推論エンジンで使用され得るメモリセル設計の第１の実施形態の概略図である。アレイは、クロスポイントアーキテクチャを使用し、それぞれのセルは、それぞれ異なる抵抗Ｒ_ｉ及び破壊電圧Ｖ_ＢＤ，ｉを有する複数の誘電体層を有する。図１４では、メモリセルはワード線１４０１とビット線１４１１との間のクロスポイントに位置する。メモリセルは、Ｎ個の誘電体層を有し、そのうちの３つは、Ｒ_１及びＶ_ＢＤ，１の誘電体１１４０７、Ｒ_ｉ及びＶ_ＢＤ，ｉを有する誘電体ｉ１４０５、並びにＲ_Ｎ及びＶ_ＢＤ，Ｎを有する誘電体Ｎ１４０３として示される。誘電体層の間には、１４０４及び１４０６に示されるような導電層がある。また、金属層１４０２が、ワード線１４０１と誘電体層のうちの最も隣接したもの、ここでは誘電体Ｎ１４０３との間に含まれてもよく、金属層１４０８もビット線１４１１と誘電体層の最も隣接するもの、ここでは誘電体１１４０７との間に含まれ得る。本明細書の実施例では、誘電体層は、それらの抵抗レベルがＲ_１からＲ_Ｎまで漸進的に減少するように配置されているが、他の順序を使用することもできる。誘電体層は、異なる層の抵抗レベル間の差が、異なるプログラム状態を明確に定義するのに十分な大きさになるように形成される。

所与の誘電体層について、誘電体層の破壊電圧Ｖ_ＢＤは、誘電体層が高抵抗状態から電気的短絡Ｒ_{ｓｈｏｒｔ}＜＜Ｒ_ｉになる電圧である。例示的な実施形態では、誘電体層は、初期抵抗（Ｒ_１、．．．、Ｒ_Ｎ）及び破壊強度（Ｖ_ＢＤ，１、．．．、Ｖ_ＢＤ，Ｎ）が、より高い抵抗を有する層がより低いＶ_ＢＤを有するように調整されるように形成される。抵抗及び破壊強度は、それぞれの誘電体層の厚さ、欠陥密度、及び材料組成を調整することによって制御され得る。このようにして、メモリセルの抵抗は、プログラミングストレスを漸進的に高めて、より多くの誘電体層を破壊し、セル全体の抵抗を低下させることによって設定され得る。

例えば、３つの誘電体層を有するセルのプログラミングを見ると、セルは、Ｒ_１＞＞Ｒ_２＞＞Ｒ_３及びＶ_ＢＤ，１＜＜Ｖ_ＢＤ，２＜＜Ｖ_ＢＤ，３となるように形成される。この実施例では、ほぼ全ての電圧が、最も高い抵抗の（又は数字の添え字が最も小さい）非短絡誘電体層にわたって降下する。最初に、全ての誘電体層が無傷の状態で、セルは最も高い抵抗状態で開始する：Ｒ_ｃｅｌｌ＝Ｒ_１＋Ｒ_２＋Ｒ_３≒Ｒ_１。例えば、Ｒ_３の抵抗を有するようにメモリセルをプログラムするには、プログラミング又は書き込み電圧Ｖ_ｗｒをメモリセル全体に配置して、層１及び２を破壊し、層３は破壊しない：Ｖ_ＢＤ，１＜Ｖ_ＢＤ，２＜Ｖ_ｗｒ＜Ｖ_ＢＤ，３。これは、Ｒ_ｃｅｌｌ＝Ｒ_３となるように、誘電体層３を無傷のままにする。

図１５は、マルチレベル超低電力推論エンジンに使用され得るグループ化された誘電体層を使用するメモリセル設計の別の１組の実施形態の概略図である。図１４のように、メモリセルは、ワード線１５０１とビット線１５１１との間のクロスポイントに位置し、多数の交互の誘電体層及び導電層から形成されるが、ここで誘電体層は、異なる数の層を有する階層にグループ化されるが、階層内の層は同一又は非常に類似した特性を有する。この例では、階層ｉにはｉ層が存在することになるが、他の実施形態は異なる配置になり得る。図１５は、Ｎ個の階層の例を示し、それぞれがＮ個の層で構成され、階層１及び２、並びに階層Ｎの最後の層のみが明示的に示されている。誘電体階層Ｔ１は、１つの層Ｌ１１５２７－１を有し、金属層１５３０によってビット線１５１１から、また金属層１５２８によって階層２の誘電体層１５２５－１及び１５２５－２から分離されている。第２の誘電体階層は、層間金属層１５２６によって分離され、階層２が金属層１５２４によって階層３の第１の層から分離されている層Ｌ１１５２５－１及びＬ２１５２５－２の対から形成される。第Ｎの階層の第Ｎの層１５２３－Ｎを除き、階層３の第１の層及び他の介在する誘電体層及び金属層は図示されておらず、第Ｎの層１５２３－Ｎは、次いで、金属層１５２２によってワード線１５０１から分離されている。

図１５の例示的な実施形態では、階層は、より低い番号の階層がより高い抵抗を有し、より高い番号の階層がより低い番号の階層よりも多くの層を含み得るように順序付けられている。例えば、層Ｔ_ｉの抵抗は、

であり、式中、合計はｎを超え、Ｔｉは階層Ｔ（ｉ＋１）より層が少ないが、Ｒ_Ｔｉ＞Ｒ_{Ｔ（ｉ＋１）}となる。１組の実施形態では、全ての層の破壊電圧Ｖ_ＢＤは、名目上同じになるように形成され得る。このようにして、電圧ｎ^＊Ｖ_ＢＤを印加することは、階層ｎまでの全ての階層を破壊することになる。

合計（１＋２＋３＝）６層に対して３つの階層を有する例においてセルをプログラムするための手順を考慮すると、層は、Ｒ_Ｔ１＞＞Ｒ_Ｔ２＞＞Ｒ_Ｔ３となり、それぞれの層のＶ_ＢＤが類似するように設計され、形成され得る（抵抗は、典型的には、厚さに対して指数関数的に敏感であり、Ｖ_ＢＤは、厚さに線形的にのみ依存する）。図１４の実施形態の場合と同様に、メモリセルの全抵抗の大部分は、最も抵抗の高い（ここで示されるように添え字の番号が最も低い階層）階層である無傷の階層から得られ、メモリセル全体に印加される電圧の大部分は、この最も抵抗の高い非短絡階層にわたって降下する。例えば、抵抗Ｒ_Ｔ３を有するようにセルをプログラムするには、プログラミング電圧Ｖ_ｗｒを印加して、階層Ｔ１及びＴ２内の層のそれぞれを破壊する。この場合、Ｖ_ｗｒは、２^＊Ｖ_ＢＤ＜Ｖ_ｗｒ＜３^＊Ｖ_ＢＤとなるように取られる。

アレイへのデータの書き込み（すなわち、重み値）を考慮すると、本明細書で提示される実施形態は、印加電圧を使用して、図１４及び図１５に関して説明されたようなメモリセルを複数の抵抗値のうちの１つに選択的にプログラムする。例えば、Ｎ個の層／階層を有する実施形態は、Ｎ個の状態にプログラムすることができるが、複数のワード線に沿った同時感知の低電力推論の場合、誘電体の全てが短絡された状態を回避することはでき、いくつかの実施形態では、追加の抵抗をセルと直列に形成して、過剰な電流を回避することができる。書き込まれるように選択されたメモリセルの電気的選択は、図１６に関連して示されるように、半選択方式を用いて行われる。

図１６は、プログラムされるメモリセルの選択のための半選択方式を示す。書き込まれることが意図されるビット線に沿ったセルが、下部ワイヤ及び上部ワイヤにわたって印加される電圧の書き込み電圧Ｖ_ｗｒを有するように、上部（ビット線）ワイヤ及び下部（ワード線）ワイヤに電圧が印加され、Ｖ_ｗｒの値は、目標データ状態のプログラミング電圧を提供するように選択される。書き込まれないセルは、電圧降下の半分のみ（Ｖ_ｗｒ／２）を経験するか、又は電圧降下を経験しないかのいずれかである。図１６の例では、ビット線ＢＬ_{（Ｎ－１）}とワード線ＷＬ_１及びＷＬ_{（Ｍ－１）}との交点における２つのセルが書き込み用に選択され、Ｖ_ｗｒが選択ワード線に印加され、０Ｖが選択ビット線に印加される。他のワード線及びビット線は、１／２Ｖ_ｗｒに設定される。これにより、選択メモリセルにはＶ_ｗｒ、及び非選択メモリセルには０Ｖ又は１／２Ｖ_ｗｒのいずれかの差が生じる。Ｖ_{ｗｒ．ｍａｘ}が最大プログラミング電圧であり、Ｖ_{ｗｒ．ｍｉｎ}が最小プログラミング電圧である場合、これらの値は、１／２Ｖ_{ｗｒ．ｍａｘ}＜Ｖ_{ｗｒ．ｍｉｎ}になるように構成されるべきであり、そうでなければ、半選択電圧は非選択セルの一部を破壊することになる。プログラミングは、以下でより詳細に論じられるように、ビット線ごとに順次実行され得る（本明細書に記載される半選択プロセスでは、低電圧レベルは０Ｖで取られ、半選択値１／２Ｖ_ｗｒが使用される。より一般的には、半選択プロセスが不必要なプログラミング又は読み出し値を誘発しない限り、これらは別の低電圧値であり得、半選択電圧レベルは、Ｖ_ｗｒと低電圧との中間の他の電圧レベルであり得る）。

複数の誘電体層を用いたクロスポイント推論エンジンにおけるメモリセルプログラミングは、最も高い抵抗状態に残すように選択されていないメモリセルに対しては、適切なプログラム電圧Ｖ_ｗｒを印加することによって誘電体層の一部又は全てを選択的に破壊することを通じて行われる。各セルにおけるレベルの数は、１／２Ｖ_{ｗｒ．ｍａｘ}＜Ｖ_{ｗｒ．ｍｉｎ}になるような最大半選択電圧（１／２Ｖ_{ｗｒ．ｍａｘ}）と最小選択電圧（Ｖ_{ｗｒ．ｍｉｎ}）との間のマージンと、誘電体層の抵抗分布を制御する能力と、マルチレベルメモリセルの形成の厚さを制限する任意の設計規則とによって制限される。他のメモリ技術と比較して、このメモリセル構造は、実装されるほとんど全ての抵抗状態の組み合せを可能にし、半導体製造工場（ＳｉＯ_２、ＨｆＯ_２、ＭｇＯなど）において一般的に利用可能な任意の材料の単純な誘電体層から形成され得る。メモリセルは、一度限りプログラムされ得るが、推論エンジンとしてのアプリケーションでは、ニューラルネットワークの層の重みは、デバイスがエンドユーザに提供される前に書き込まれ得る。一例を挙げると、デバイスが典型的に受ける試験プロセスの最後に製造施設で行われたり、自律走行車両などのアプリケーションにＤＮＮを実装するプロセッサによって使用されるメモリアレイに、それらのＤＮＮモデルの重みをプログラムする相手方ブランド製造業者などのサードパーティによって行われたりし得る。

図１７は、複数の誘電体層で形成されたメモリセルを用いて、クロスポイントメモリを書き込むためのシーケンスに関する一実施形態の概略図である。ニューラルネットワーク又は他のデータのネットワーク重み値をクロスポイントアレイに書き込むためのプログラミング動作は、典型的には、ワード線の全て又は大部分、ビット線の全て又は大部分にアクセスし、データ状態の全てをプログラムする必要があり、これには、非バイナリ実施形態のために複数のＶ_ｗｒ値が必要となる。非常に稀なデータ値の組以外、これらの異なる組み合せの全てを同時に達成することはできないため、書き込み動作は順次動作を伴うことになる。図１６に関して記載されるように、プログラミングは、共有ワード線に沿った１つ以上のワード線上のメモリセルに対して実行することが可能であり、そのため、ワード線を個別にプログラムすることも、又は並行性を高めるために複数のワード線を現在プログラムすることもできる。同時にプログラムされ得るワード線の数は、アレイのワード線の全てであってもよく、又は電力／電流の考慮事項によって数が制限される場合には、より少ない数であってもよい。マルチレベルセルの実施形態では、プログラミング動作において、対応する数の異なるＶ_ｗｒ値が使用される。所与のビット線に関して、複数のＶ_ｗｒを同時に印加して、複数のデータ状態を同時にプログラムすることができる。しかしながら、半選択実施形態において適切にバイアスされていないと、複数のデータ状態を同時にプログラムすることで、非選択メモリセルに対するプログラミングが誘発され得る。本明細書の例示的な実施形態は、ビット線の全てが同じ状態にプログラムされるように、単一ビット線上の選択メモリセルを書き込む。実施形態に応じて、プログラミングシーケンスは、所与のデータ状態についてビット線ごとに実行され、次いでデータ状態の全てをカバーするために繰り返されるか、又は、所与のビット線に対して、次のビット線に移動する前に全てのデータ状態がプログラムされるかのいずれかであり得る。

図１７は、アレイ内のそれぞれのビット線の、ＢＬ_０から始まり、ＢＬ_ｎまで順次進行する順序どおりのプログラミングを示す。図１７では、選択ビット線上にプログラムされるように選択されたメモリセルは、Ｓとラベル付けされ、プログラムされるように選択されていないメモリセルは、ＮＳとラベル付けされている。プログラムされるビット線は、それぞれのビット線を接地するか、又は低電圧に設定し、他の全てのビット線をＶ_ｗｒ／２、又は中間の「半選択」書き込み電圧に設定することによって選択される。ビット線上にプログラムされるように選択されたメモリセルは、Ｖ_ｗｒをそれぞれのワード線に印加し、他の全てのワード線をＶ_ｗｒ／２に設定することによって選択される。マルチレベルセルの実施形態では、選択ビット線に関して、Ｖ_ｗｒ値は、対応するプログラミング電圧レベルの全てを通って進行し得る。例えば、図１７の左側では、ビット線ＢＬ_１並びにワード線ＷＬ_２及びＷＬ_ｍ上のメモリセルが、プログラムされた状態のうちの１つに書き込まれるように選択され、図１７の右側では、ビット線ＢＬ_ｎ及びワード線ＷＬ_１上のメモリセルが、プログラムされた状態のうちの１つに書き込まれるように選択される。

シーケンス内の次のビット線に移動する前に、データ状態の全てが所与のビット線上のメモリセルに書き込まれる実施形態では、非選択ワード線及びビット線は、１／２Ｖ_ｗｒで半選択され、その結果、ステップアップもされることになり、同時にプログラミング電圧Ｖ_ｗｒが上昇して異なるデータ状態がプログラムされる。プログラミング電圧のシーケンスにおいて次のＶ_ｗｒでビット線の全てを循環する前に、１つのＶ_ｗｒについてビット線の全てが循環される代替実施形態では、非選択ワード線及びビット線は、ビット線の所与の循環の間に同じ１／２Ｖ_ｗｒに留まることになり、プログラミングフローが所与のＶ_ｗｒについてビット線を循環する際に、ビット線は、ビット線が選択／選択解除されるときに１／２Ｖ_ｗｒと０Ｖとの間で切り換わり、ワード線は、ワード線が選択／選択解除されるときに１／２Ｖ_ｗｒとＶ_ｗｒとの間で切り換わる。

再び図５及び図６Ａを参照すると、メモリセルの読み出し及び書き込みに関与する制御回路は、ステートマシン３１２など、制御回路３１０の構成要素に加え、行デコーダ３２４、列デコーダ３３２、及び読み出し／書き込み回路３２８の一部であり得る。書き込み動作中、行デコーダ３２４及び列デコーダ３３２内のドライバ／バイアス回路は、メモリセルがプログラミングのために個別に選択されるように、図１９に関して示されるようにワード線及びビット線をバイアスし得る。

個々のメモリセルのデータ状態を決定するのではなく、図１２Ｃに関して説明されるように、推論動作におけるデータの読み出しに関しては、行デコーダ３２４内のバイアス回路は、ネットワークの層に対する入力ベクトルを１組のＶ^ｉｎ値に変換し、これらの値は、選択された１組のビット線のメモリセルのワード線に同時に適用される。列デコーダ３３２及びセンス増幅器３５０を含む読み出し／書き込み回路３２８は、入力ベクトルと対応するビット線に沿って記憶された重み値との積を示すために、複数ビット感知動作としてワード線のそれぞれに沿った合計Ｉ^ｏｕｔを決定する。本明細書に記載されるメモリセルは、最低抵抗状態であっても高い抵抗値を有し得るため、複数のメモリセルを同時に感知する場合であっても、電流値は依然として比較的低く、推論プロセスは低電力プロセスであり得る。次いで、メモリデバイス上の制御回路は、積和演算の一部として乗算結果を累積して、ニューラルネットワークの層の出力を決定することができ、これは、後続の層への入力又はネットワークの出力のいずれかになり得る。

図１８Ａ～図１８Ｃは、２つの階層化層の実施例における誘電破壊による書き込み機構を示す。図１８Ａは、２階層メモリセルの概略図である。第１の階層は、破壊電圧Ｖ_ＢＤ及び抵抗Ｒ_１が導電体層１８０６と導電体層１８０８との間に形成された単一層の誘電体１１８０７である。導電層１８０２と導電層１８０６との間の第２の階層は、誘電体２Ａ１８０５及び誘電体２Ｂ１８０３の２つの層で形成され、それぞれ破壊電圧Ｖ_ＢＤ及び抵抗Ｒ_２を有し、導電層１８０４によって分離されている。対応するワード線及びビット線によってメモリセル全体に印加されるプログラミング電圧Ｖ_ｗｒは、電圧源１８０１によって表される。メモリセルは、誘電体層が破壊されていない状態で最も高い抵抗状態に対応するレベル０であり得、レベル１では、誘電体１１８０７が破壊されているとき、誘電体２Ａ１８０５及び２Ｂ１８０３は無傷であり、レベル２では、誘電体２Ａ１８０５及び２Ｂ１８０も破壊される。バイナリ実施形態では、レベル０及び１が使用され、それぞれ高抵抗状態及び低抵抗状態に対応する。３状態デバイスとして動作するとき、レベル０は高抵抗状態、レベル１は中間抵抗状態、及びレベル２は低抵抗状態である。全ての誘電体層がレベル２で短絡されると、レベル２は非常に低い抵抗を有する可能性があり、より多くの電力を消費することになる。３状態メモリセルとして動作するとき、いくつかの実施形態は、低電力推論のための使用を可能にするために、メモリセルに直列抵抗を付加し得る。

図１８Ｂは、破壊電圧Ｖ_ＢＤに対して正規化された、階層のそれぞれに対する電圧と、Ｖ_ＢＤに関して再び正規化された、電圧源１８０１からメモリセル全体に対して印加された電圧とを対比させたプロットである。図１８Ｂの例では、Ｒ_１＝１０Ｒ_２であり、その結果、メモリセルは分圧器として作用し、それぞれの層にわたって降下した相対電圧は、その抵抗と全セル抵抗との比によって変化する。これは、図１８Ｂのプロットに反映され、１８２１は誘電体１１８０７にわたる電圧降下であり、１８２３は誘電体２Ａ１８０５及び誘電体２Ｂ１８０３のそれぞれにわたる電圧降下である。

印加電圧Ｖ_ＢＤ（正規化スケールで１）で開始する全メモリセルにわたる印加電圧を見ると、１．０Ｖ_ＢＤでは、誘電体１１８０７にわたる電圧降下は、電圧の一部が階層２にわたって降下するときのＶ_ＢＤより小さい。印加電圧が増加されると、誘電体層の全てにわたる電圧は、メモリセルにわたる電圧が約１．２Ｖ_ＢＤになるまで増加され、誘電体１１８０７は破壊する。誘電体１１８０７が破壊された後は、誘電体１１８０７にわたる電圧降下はなくなり、その結果、印加電圧は誘電体２Ａ１０８５及び誘電体２Ｂ１８０３にわたって降下し、誘電体２Ａ１０８５及び誘電体２Ｂ１８０３が同じ抵抗Ｒ_２を有するときに、それらの誘電体のそれぞれにわたって印加電圧の半分が降下する。

階層２の誘電体、誘電体２Ａ１８０５及び誘電体２Ｂ１８０３を破壊するには、印加電圧が２Ｖ_ＢＤを超える必要がある。したがって、レベル１のデータ値をメモリセルにプログラムするために、プログラム電圧Ｖ_ｗｒは、約１．２Ｖ_ＢＤ＜Ｖ_ｗｒ＜２Ｖ_ＢＤのようになるべきである。Ｖ_{ｂｄ．ｅｆｆｉ}が階層ｉの実効破壊電圧である場合、電圧分割器を考慮すると、誘電体１１８０７に対して最初に見られる破壊電圧は、Ｖ_{ｂｄ．ｅｆｆ．１}＝Ｖ_ｂｄ ^＊（Ｒ_１＋２^＊Ｒ_２）／Ｒ_１である。誘電体１１８０７が破壊された後は、Ｖ_{ｂｄ．ｅｆｆ．２}＝２^＊Ｖ_ｂｄとなるように、電圧降下の全てが誘電体２Ａ１８０５及び誘電体２Ｂ１８０３の直列対にわたって発生する。レベル０とレベル１との間に十分なマージンを有する条件は、Ｖ_{ｂｄ．ｅｆｆ．１}＜Ｖ_{ｂｄ．ｅｆｆ．２}であり、Ｒ_１＞２^＊Ｒ_２となる。

図１８Ａに示すように、メモリセルのアレイにデータをプログラムするとき、図１８Ｃは、図１７に関して上述したように、プログラムされるメモリセルに対応するワード線に印加する書き込み電圧Ｖ_ｗｒの一連のステップの波形を示す。図１８Ｃの波形は、書き込み動作において選択ワード線に印加されるＶ_ｗｒレベルの実施形態である。最初に、メモリセルの全てはレベル０にあり、目標状態がレベル０状態のメモリセルは、この初期状態からプログラムされない。レベル１状態を書き込むために、プログラミング電圧Ｖ_ｗｒは、Ｖ_ｗｒ＞Ｖ_{ｂｄ．ｅｆｆ．１}及びＶ_ｗｒ＜２Ｖ_ＢＤとなるように選択ワード線に印加される。また、誘電体２Ａ１８０５及び誘電体２Ｂ１８０３がレベル２のために破壊される場合、レベル２に書き込まれるように選択されたメモリセルに対してＶ_ｗｒがＶ_ｗｒ＞２Ｖ_ＢＤに上昇される。

図１９Ａ及び図１９Ｂは、３階層化層のメモリセルの例における誘電破壊による書き込み機構を示す。図１９Ａは、かかる３階層メモリセルの概略図であり、第１の階層は、導電層１９１４と導電層１９１２との間に破壊電圧Ｖ_ＢＤ及び抵抗Ｒ_１を有する単一層誘電体１１９１３である。第２の層は、導電層１９０８と導電層１９１２との間に形成されており、それぞれ破壊電圧Ｖ_ＢＤ及び抵抗Ｒ_２を有し、導電層１９０８によって分離された誘電体２Ａ１９１１及び誘電体２Ｂ１９０９の２つの層を有する。導電層１９０８と導電層１９０２との間の第３の階層は、誘電体３Ａ１９０７、誘電体３Ｂ１９０５、及び誘電体３Ｃ１９０３の３つの層で形成され、誘電体間の導電層１９０６及び１９０４を有する。対応するワード線及びビット線によってメモリセル全体に印加されるプログラミング電圧Ｖ_ｗｒは、電圧源１９０１によって表される。メモリセルは、いずれの誘電体層も破壊されない最高抵抗状態に対応するレベル０と、誘電体１１９１３が破壊される一方、誘電体２Ａ１９１１及び２Ｂ１９０９、並びに誘電体３Ａ１９０７、３Ｂ１９０５、及び３Ｃ１９０３は無傷であるレベル１と、誘電体２Ａ１９１１及び２Ｂ１９０９も破壊されるレベル２と、階層３の誘電体１９０７、１９０５、及び１９０３が破壊されるレベル３と、になり得る。３つ組の実施形態では、レベル０、１、及び２が使用され、それぞれ高抵抗状態、中間抵抗状態、及び低抵抗状態に対応する。４状態デバイスとして動作するとき、レベル０は、高抵抗状態、レベル１及び２は中間抵抗状態、及びレベル３は低抵抗状態となる。誘電体層の全てがレベル３で短絡されると、レベル３は非常に低い抵抗を有する可能性があり、より多くの電力を消費することになるため、３状態メモリセルとして動作するとき、いくつかの実施形態は、低電力推論のための使用を可能にするために、メモリセルに直列抵抗を加え得る。３レベル、３階層化システムでは、マージン条件は、１／２Ｖ_{ｗｒ．ｍａｘ}＜Ｖ_{ｗｒ．ｍｉｎ}を満たすために０．５＜ｉ＜１となるように、Ｖ_{ｂｄ．ｅｆｆ．１}＜Ｖ_{ｂｄ．ｅｆｆ．２}、又は係数ｉの場合はＶ_{ｂｄ．ｅｆｆ．１}＝ｉ^＊Ｖ_{ｂｄ．ｅｆｆ．２}となる。同様に、Ｖ_{ｂｄ．ｅｆｆ．２}＜Ｖ_{ｂｄ．ｅｆｆ．３、}又は、係数ｎの場合はＶ_{ｂｄ．ｅｆｆ．２}＝ｎ^＊Ｖ_{ｂｄ．ｅｆｆ．３}であり、式中、ｎ＜１である。Ｖ_ｂｄ及びＲ_３の単位では、これは条件Ｒ_２＝３／（３^＊ｎ－２）及びＲ_１＝３ｎ^＊Ｒ_２／（３^＊ｎ^＊ｉ－１）を与える。

図１９Ａに示すように、メモリセルのアレイにデータをプログラムするとき、図１９Ｂは、図１７に関して上述したように、プログラムされるメモリセルに対応するワード線に印加する一連のＶ_ｗｒステップの波形を示す。図１９Ｂの波形は、書き込み動作において選択ワード線に印加されるＶ_ｗｒレベルの実施形態である。最初に、メモリセルの全てはレベル０であり、目標状態がレベル０のメモリセルは、この初期状態からプログラムされない。レベル１状態を書き込むため、プログラミング電圧Ｖ_ｗｒは、階層１の誘電体を破壊するが、階層２又は階層３の誘電体を破壊しないためにＶ_ｗｒ＞Ｖ_{ｂｄ．ｅｆｆ．１}及びＶ_ｗｒ＜Ｖ_{ｂｄ．ｅｆｆ．２}になるように、選択ワード線に印加される。レベル２状態を書き込むため、プログラミング電圧Ｖ_ｗｒは、階層２の誘電体を破壊するが、階層３の誘電体を破壊しないためにＶ_ｗｒ＞Ｖ_{ｂｄ．ｅｆｆ．２}及びＶ_ｗｒ＜３Ｖ_ＢＤとなるように、選択ワード線に印加される。また、誘電体３Ａ１９０７、誘電体３Ｂ１９０５、及び誘電体３Ｃ１９０３がレベル３のために破壊される場合、レベル３に書き込まれるように選択されたメモリセルに対して、Ｖ_ｗｒはＶ_ｗｒ＞３Ｖ_ＢＤに上昇される。

図２０は、推論エンジン用の極薄誘電体層を有するメモリセルを使用するクロスポイントアーキテクチャの使用のための一実施形態を示すフロー図である。図２０のフローは、クロスポイントメモリアレイをプログラムするための方法（工程２００１～２００７）と、推論のためのメモリアレイの後続の使用（２０１１～２０１９）との両方の実施形態を含む。本明細書の説明は、ニューラルネットワークに関する推論エンジンの環境におけるものであり、記載される構造及び技術は、かかる用途において特定の有用性をもち得るが、これらの構造及び技術は、より一般的に適用することができ、高い保持率を有する低電力不揮発性メモリを多くの環境で使用することができる。

工程２００１において、アレイは、ビット線のうちの選択ビット線に対してバイアスされ、プログラミングシーケンスは、図１７に関連して示されるように、ＢＬ０で開始し得る。例えば、選択ビット線は接地にバイアスされ、他のビット線及び非選択ワード線は、現在のＶ_ｗｒ値に対して１／２Ｖ_ｗｒで半選択され得る。工程２００３では、プログラミング電圧Ｖ_ｗｒが、Ｖ_ｗｒに対応するデータ状態にプログラムされるメモリセルに対応するワード線に印加される。工程２００１及び工程２００３においてワード線及びビット線をバイアスすることは、１つ以上の制御回路によって実行可能であり、行デコーダ３２４及び列デコーダ３３２内の回路並びに読み出し／書き込み回路３２８をバイアスすることを含む。

工程２００１及び工程２００３のプロセスは、それぞれのビット線に対して、及びマルチレベルセル実施形態の場合は、それぞれのＶ_ｗｒ値に対して繰り返される。図２０の実施形態では、Ｖ_ｗｒループはビットラインループ内にあるが、他の実施形態はこの順序を逆転させ得る。工程２００４では、選択ビット線に対するプログラミング電圧Ｖ_ｗｒがそれ以上存在するかどうかが確認され、存在する場合、工程２００５において、例えば、次の階層の誘電体層又は次の誘電体層を短絡させることに対応するＶ_ｗｒ値にステップされるなど、Ｖ_ｗｒ値が次のプログラミング値にインクリメントされ、次いで工程２００１にループバックし、それに応じて現在非選択のワード線が半選択されるように再バイアスされる。工程２００４で書き込むＶ_ｗｒ値がそれ以上存在しない場合、フローは工程２００６に進み、書き込むためのビット線がそれ以上存在するかどうかを確認し、存在する場合、工程２００７でビット線はインクリメントされてから、工程２００１にループバックされる。存在しない場合は、メモリアレイのプログラミングは完了する。

推論エンジンなどのアプリケーションでは、アレイのプログラミングは、典型的には、エンドユーザに提供される前に行われる。例えば、メモリアレイは、新しいデバイス上で一般的に実行される試験プロセスの終了時など、出荷前に製造業者によってプログラムされ得る。あるいは、メモリアレイは、エンドユーザに供給される前に中間者によってプログラムされ得る。例えば、プログラムされていないメモリアレイ（初期化又は未初期化のいずれか）が相手方ブランド製造業者（ＯＥＭ）に提供される可能性があり、ＯＥＭは、次いでそれらのデータ（ＤＮＮモデルの重みなど）をプログラムし、次いでプログラムされたアレイを組み込む製品をＯＥＭの顧客に提供する。これは、例えば、ニューラルネットワークに依拠する自律走行車両の場合に当てはまり、製造業者は、車両がエンドオペレータに提供される前に、それらのニューラルネットワークモデルの重みをアレイにプログラムするであろう。

メモリアレイは、典型的には、エンドユーザに供給される前に一度だけプログラムされるため、いくつかの実施形態では、プログラミング電圧Ｖ_ｗｒは、メモリデバイス自体では生成されないが、プログラミング中に外部から供給される場合がある。この場合、電力制御３１６などのメモリデバイス上の１つ以上の制御回路は、より高い電圧を処理するための電荷ポンプ及び回路が回避され得るように、Ｖ_ｗｒ及び回路素子を生成する機能を有する必要はなく、これらの回路のための面積及び電力消費を節約することができる。

工程２０１１～２０１９は、メモリアレイが、重みがアレイのメモリセル内の値として記憶されるニューラルネットワーク内の推論エンジンネットワークとして使用され、入力が入力値のベクトルとなる場合を考慮している。図１３に関して上述したように、入力ベクトルＩＮ_ｉは、ＤＡＣ１３１１_ｉによって対応するワード線ＷＬ_ｉに印加される電圧レベルＶ_ｉ ^ｉｎに変換され、入力値は、実施形態に応じてバイナリ又はマルチレベルであり得る。ワード線ＷＬ_ｉとＢＬ_ｊとの間を流れる電流は、入力ベクトル成分Ｖ_ｉ ^ｉｎとメモリセル１３０１_ｉ，ｊに記憶された行列重みｂ_ｉ，ｊとの積に対応する。合計電流Ｉ_ｊ ^ｏｕｔは、電圧レベルＶ_ｉ ^ｉｎによって表される入力ベクトルのベクトル積の合計に等しくなり、ｊ番目の行列列内の値は、対応するＢＬ_ｊのメモリ１３０１_ｉ，ｊに記憶された重みによって表される。出力電流Ｉ_ｊは、方程式１及び２によって上述したように、メモリ内行列乗算の出力ベクトルを表す。

工程２０１５は、方程式２の積に対応するビット線ＢＬ_ｊのそれぞれに対する電流Ｉ_ｊ ^ｏｕｔを決定し、この値がＡＤＣ１３１３_ｊによってＯＵＴ_ｊに変換される。次いで、工程２０１７で、個々の列のこれらの部分的な積がデジタル計算ブロック１３１５に蓄積されて層の出力が生成され得る。工程２０１９は、工程２０１７からの出力の更なる伝搬に対応する。実施形態に応じて、工程２０１７は、活性化関数を適用すること、追加の値に対して推論動作の初期工程を繰り返すこと、層の出力を提供すること、又はこれらのいくつかの組み合せを含み得る。次いで、層の出力は、ネットワーク内の層の場所に応じて、ネットワークの後続の層への入力として、又はネットワークの最終出力として使用され得る。

代替の１組の実施形態では、クロスポイントアーキテクチャを有する推論エンジンは、アンチヒューズ型メモリセルに基づくことができ、それぞれのメモリセルは、それぞれのクロスポイントにアンチヒューズを含む。薄型誘電体層に基づく実施形態と同様に、アンチヒューズの実施形態は追記型（write once, read many）のアレイであり、プログラミングは、バイナリ実施形態において図２０に関して記載されたものと同様のフローによって実行される。アンチヒューズベースの実施形態は、非常に高い抵抗レベル（ギガΩ又はテラΩ範囲など）を達成することができ、低抵抗レベルは、大きな直列抵抗体を使用することによって上昇させることができる。アンチヒューズ技術は、小さなスケール（すなわち、１０ｎｍ）まで実装することができ、マルチレベル抵抗状態を実装することができる。

アンチヒューズは、プログラムされていない状態で通常はオフであり、プログラムされた状態で通常はオンである、ワンタイムプログラム可能なデバイスであるが、いくつかの実施形態では、アンチヒューズのバイアスを修正し、コンプライアンス電流をもたらすことによって、プログラミング後に複数の抵抗レベルを規定することが可能である。アンチヒューズの一般的な設計は、供給レベルとビット線との間でアンチヒューズトランジスタと直列に接続された選択トランジスタである。選択トランジスタは、読み出しワード線に接続された制御ゲートを有し、アンチヒューズトランジスタは、プログラミングワード線に接続されたゲートを有する。アンチヒューズは、高電圧をプログラミングワード線に印加して、アンチヒューズトランジスタ内の酸化物を破壊し、アンチヒューズトランジスタを短絡させることによってプログラムされる。アンチヒューズを読み出すため、プログラミングワード線が低い間に、電圧を読み出しワード線に印加して選択トランジスタをオンにし、その結果、電流は、プログラムされたアンチヒューズを通して流れ得るが、プログラムされていないアンチヒューズは電流を伝導しない。

以下の考察は、単一のノーマリオフ型電界効果トランジスタ（ＦＥＴ）アンチヒューズセルを使用する、クロスポイントメモリの実施形態を提示する。このアンチヒューズセルは、金属酸化物ゲート（例えば、高ｋ金属ゲート）又は半導体酸化物ゲート（例えば、ＳｉＯ_２）を有するＦＥＴに基づく。ＦＥＴチャネルは、その初期状態で非導電性であり、ゲート酸化物がプログラムされた後、すなわち電気的に破壊された後に短絡状態になる。材料の仕様に関する実施形態は、設計のために選択されたリソグラフィノードに応じて変化する。アンチヒューズのプログラミングは、図２１に関して例示され得る。

図２１は、単一のＦＥＴに基づくアンチヒューズ、及びアンチヒューズをプログラムするバイアスの一実施形態の概略図である。ＦＥＴトランジスタ２１０１は、ビット線ＢＬ２１０５とワード線ＷＬ２１０３との間に接続される。第３の線又はプログラミングワード線、ＷＬＰ２１０７は、ＦＥＴ２１０１の制御ゲートに接続される。図２１は、プログラミングのためのＦＥＴ２１０１のバイアスを示し、アンチヒューズのプログラミングは、ワード線ＷＬ２１０３を接地し、ビット線ＢＬ２１０５を１／２Ｖ_ｗｒに設定している間に、プログラミングワード線ＷＬＰ２１０７を書き込み電圧Ｖ_ｗｒに上昇させることによって実行される。プログラミング電圧Ｖ_ｗｒは、アンチヒューズトランジスタの酸化物破壊をもたらすのに十分であるように選択される一方、１／２Ｖ_ｗｒは、酸化物破壊を引き起こさず、クロスポイントアレイにおけるセル選択を可能にする。低抵抗状態の抵抗を増大させるために、それぞれのアンチヒューズＦＥＴ２１０１は、ビット線ＢＬ２１０５とワード線ＷＬ２１０３との間に直列に接続された抵抗を有し得る（本明細書に記載される半選択プロセスでは、低電圧レベルは０Ｖで取られ、半選択値１／２Ｖ_ｗｒが使用されるが、より一般的には、半選択プロセスが不必要なプログラミング又は読み出し値を誘発しない限り、これらは別の低電圧値であり得、半選択電圧レベルは、Ｖ_ｗｒと低電圧との中間の他の電圧レベルであり得る）。

図２２は、図２１のアンチヒューズベースのメモリセルを組み込んだクロスポイントアレイ構造の一部分の平面図である。図２２は、図１２Ｃ又は図１７と同様であるが、それぞれのクロスポイントのアンチヒューズメモリセルを表し、ここでは更にプログラミング線ＷＬＰ１～ＷＬＰ４を含む。例えば、メモリセル２２０１は、ワード線ＷＬ４とビット線ＢＬ３との間に接続され、ＷＬＰ３に接続された制御ゲートを有する。図を簡略化するために示されていないが、抵抗体は、低抵抗状態の値を増加させるために、アンチヒューズメモリセルのそれぞれと直列に接続され得る。

図２２は、一実施形態では、メモリセル２２０１をプログラムするようにバイアスされたクロスポイントアレイの図示された部分を示し、電気選択は、プログラミングワード線プログラムに印加されるプログラミング電圧Ｖ_ｗｒと組み合わされた半選択方式を使用して行われる。選択重み値をアンチヒューズ２２０１に書き込むため、対応するプログラミングワード線ＷＬＰ３はＶ_ｗｒに設定され、対応するワード線ＷＬ４は０Ｖに設定され、対応するビット線ＢＬ３は１／２Ｖ_ｗｒに設定される。非選択ビット線のうちのビット線も、非選択ワード線と同様に、１／２Ｖ_ｗｒに設定される。非選択メモリセルに対するプログラミングワード線は０Ｖに設定され、プログラミングは、図１７に関する上述と同様に、プログラミングワード線ごとに順次実行され得るが、シーケンスは、ここではビット線（ここでは、選択メモリセルと非選択メモリセルとの両方に対して半選択のままである）ではなく、プログラミングワード線を対象とする。プログラム選択されたアンチヒューズメモリセル（この例ではＷＬＰ３）とプログラミングワード線を共有する非選択アンチヒューズセルは、ゲートソース電圧又はゲートドレイン電圧が１／２Ｖ_ｗｒに留まるため、酸化物破壊を経験しない。アレイがプログラムされると、プログラムワード線は、薄型誘電体層ベースのメモリセルに関して上述したものと同様に実行される読み出し動作に必要がなくなる。

図２３は、推論エンジン用のＦＥＴベースのアンチヒューズを有するメモリセルを使用するクロスポイントアーキテクチャのプログラミングのための一実施形態を示すフロー図である。図２３のフローは、クロスポイントメモリアレイをプログラムするための方法（工程２３０１～２３０７）の実施形態を含み、推論のためのメモリアレイの後続の使用は、図２０の工程２０１１～２０１９に関して上述したものと同様であり得る。本明細書の説明は、ニューラルネットワークに関する推論エンジンの環境におけるものであり、記載される構造及び技術は、かかる用途において特定の有用性をもち得るが、これらの構造及び技術は、より一般的に適用することができ、高い保持率を有する低電力不揮発性メモリを多くの環境で使用することができる。

工程２３０１では、アレイは選択されたプログラミングワード線に対してバイアスされ、プログラミングシーケンスは、図１７に関して示されるビット線のシーケンスと同様に、ＷＬＰ０で開始し得るが、ここではプログラミングワード線を対象とする。例えば、ビット線及び非選択ワード線の全ては、半選択され、１／２Ｖ_ｗｒでバイアスされ得、選択メモリセルに対応するワード線は、接地にバイアスされ得る。工程２３０３では、プログラミング電圧Ｖ_ｗｒが選択プログラミングワード線に印加される。工程２３０１及び工程２３０３におけるワード線、プログラミングワード線、及びビット線のバイアスは、１つ以上の制御回路によって実行可能であり、行デコーダ３２４及び列デコーダ３３２内の回路並びに読み出し／書き込み回路３２８をバイアスすることを含む。

工程２３０１及び工程２３０３のプロセスは、プログラミングワード線ごとに繰り返される。工程２３０５では、書き込むプログラミングビット線がそれ以上存在するかどうかを確認し、存在する場合、ビット線は工程２３０７でインクリメントされ、その後工程２３０１にループバックされる。存在しない場合、メモリアレイのプログラミングは完了する。メモリアレイが、ニューラルネットワークの重みを用いてプログラムされると、図２０の工程２０１１～２０１９に関して上述したように、メモリアレイは推論エンジンとして使用され得る。

上述の実施形態と同様に、推論エンジンとしてのアプリケーションでは、アレイのプログラミングは、典型的には、エンドユーザに提供される前に行われる。例えば、メモリアレイは、新しいデバイス上で一般的に実行される試験プロセスの終了時など、出荷前に製造業者によってプログラムされ得る。あるいは、メモリアレイは、エンドユーザに供給される前に中間者によってプログラムされ得る。例えば、プログラムされていないメモリアレイ（初期化又は未初期化のいずれか）が相手方ブランド製造業者（ＯＥＭ）に提供される可能性があり、ＯＥＭは、次いでそれらのデータ（ＤＮＮモデルの重みなど）をプログラムし、次いでプログラムされたアレイを組み込む製品をＯＥＭの顧客に提供する。これは、例えば、ニューラルネットワークに依拠する自律走行車両の場合に当てはまり、製造業者は、車両がエンドオペレータに提供される前に、それらのニューラルネットワークモデルの重みをアレイにプログラムするであろう。

メモリアレイは、典型的には、エンドユーザに供給される前に一度だけプログラムされるため、いくつかの実施形態では、プログラミング電圧Ｖ_ｗｒは、メモリデバイス自体では生成されないが、プログラミング中に外部から供給される場合がある。この場合、電力制御３１６などのメモリデバイス上の１つ以上の制御回路は、Ｖ_ｗｒを生成する機能を有する必要はなく、より高い電圧を処理するための電荷ポンプ及び回路などの回路素子を回避して、これらの回路のための面積及び電力消費を節約することができる。

第１の組の態様によれば、装置は、１つ以上のビット線に沿って接続された複数のマルチレベルメモリセルに接続するように構成された制御回路を含み、それぞれのメモリセルは、導電層によって分離された複数の誘電体層から形成される。制御回路は、対応する複数の書き込み電圧のうちの１つを印加して、書き込み選択メモリセルの誘電体層のうちの１つ以上を破壊することによって、書き込み選択メモリセルを複数のデータ状態のうちの１つに個別にプログラムし、第１の複数のメモリセルに印加された１組の対応する第１の複数の入力電圧に応答して、第１のビット線に沿って接続された第１の複数のメモリセルを同時に感知するように構成されている。

追加の態様では、方法は、１つ以上の第１の選択メモリセルを複数のデータ状態のうちの第１のデータ状態に同時にプログラムするためにメモリセルのアレイをバイアスすることを含み、アレイは、メモリセルが対応するビット線と対応するワード線との間に接続され、メモリセルのそれぞれが、導電層によって分離された複数の誘電体層から形成されるクロスポイントアーキテクチャに従って形成される。バイアスは、１つ以上の第１の選択メモリセルに対応するアレイのビット線を低電圧値に設定することと、１つ以上の第１の選択メモリセルに対応しないアレイのビット線を第１の中間電圧レベルに設定することと、１つ以上の第１の選択メモリセルに対応しないアレイのワード線を第１の中間電圧レベルに設定することと、を含む。１つ以上の第１の選択メモリセルを複数のデータ状態のうちの第１のデータ状態に同時にプログラムするためにメモリセルのアレイをバイアスすると同時に、第１の書き込み電圧は、１つ以上の第１の選択メモリセルに対応するアレイのワード線に印加され、第１の書き込み電圧は、第１の選択メモリセルを複数のデータ状態のうちの第１のデータ状態にプログラムするために、第１の選択メモリセルの誘電体層のうちの１つ以上を破壊するために選択され、第１の中間電圧レベルは、低電圧値と第１の書き込み電圧との中間にある。

別の１組の態様では、不揮発性メモリデバイスは、メモリアレイと、メモリアレイに接続された１つ以上の制御回路とを含む。メモリアレイは、複数のワード線と、複数のビット線と、複数のプログラミング線と、複数のアンチヒューズメモリセルと、を含む。メモリアレイは、クロスポイントアーキテクチャを有し、それぞれのアンチヒューズメモリセルは、ビット線のうちの対応するビットとワード線のうちの対応するワード線との間に接続され、かつプログラミング線のうちの対応するプログラミング線に接続された制御ゲートを有する電界効果トランジスタ（ＦＥＴ）を含む。アンチヒューズメモリセルのそれぞれは、メモリセルのゲート酸化物を破壊することによって、高抵抗状態から低抵抗状態にプログラム可能である。１つ以上の制御回路は、対応するプログラミング線に書き込み電圧を印加して選択メモリセルのゲート酸化物を破壊すると同時に、選択メモリセル間に電圧差を設けるように、対応するワード線及び対応するビット線をバイアスすることによって、アンチヒューズメモリセルのうちの選択されたものをプログラムし、プログラミング線を接地に設定すると同時に、対応する複数のワード線に印加された１組の対応する第１の複数の入力電圧に応答して、共有ビット線に沿って接続された第１の複数のメモリセルを同時に感知するように構成されている。

本明細書の目的のために、明細書中の「実施形態」、「一実施形態」、「いくつかの実施形態」又は「別の実施形態」に対する言及は、異なる実施形態又は同一の実施形態について記述するために使用されることがある。

本明細書の目的のために、接続とは、直接的な接続又は間接的な接続（例えば、１つ又は複数の他の部分を介して）であり得る。場合によっては、ある要素が別の要素に接続されるか又は結合されると言及される場合、この要素は、他の要素に直接的に接続されてもよく、又は、介在要素を介して他の要素に間接的に接続されてもよい。ある要素が別の要素に直接的に接続されていると言及される場合、この要素と他の要素との間には介在要素は存在しない。２つのデバイスは、それらが互いの間で電子信号を交換することができるように直接的に又は間接的に接続されている場合、「通信状態」にある。

本明細書の目的のために、「基づいて」という用語は、「少なくとも部分的に基づいて」と読むことができる。

本明細書の目的のために、追加の文脈がない、「第１の」物体、「第２の」物体、及び「第３の」物体などの数値的な用語の使用は、物体の順序を示唆するものではなく、代わりに、異なる物体を識別するための識別目的で使用されることがある。

本明細書の目的のために、物体の「組」という用語は、複数の物体のうちの１つ又は複数の物体の「組」を指すことがある。

前述の詳細な説明は、例示及び説明の目的のために提示されている。前述の詳細な説明は、網羅的であること、又は開示された正確な形態に限定することを意図したものではない。上記の教示に鑑みて多くの修正及び変形が可能である。説明した実施形態は、提案した技術の原理及びその実際の用途を最もよく説明するために選択されたものであり、それによって、当業者が様々な実施形態で、企図される特定の使用法に適するように様々な修正を伴って、この技術を最も良いように利用することを可能にする。本範囲は、本明細書に添付の特許請求の範囲によって定義されることが意図される。

Claims

装置であって、
１つ以上のビット線に沿って接続された複数のマルチレベルメモリセルであり、かつ、導電層によって分離された複数の誘電体層で形成された前記複数のマルチレベルメモリセルのそれぞれに接続するように構成された制御回路であって、前記制御回路は、
対応する複数の書き込み電圧のうちの１つを印加して、書き込み選択メモリセルの前記誘電体層のうちの１つ以上を破壊することによって、前記書き込み選択メモリセルを複数のデータ状態のうちの１つに個別にプログラムし、
第１の複数のメモリセルに印加された対応する１組の第１の複数の入力電圧に応答して、第１のビット線に沿って接続された前記第１の複数のメモリセルを同時に感知するように構成されている、制御回路を備える、装置。
前記制御回路は、
前記第１の複数のメモリセルに印加された前記１組の対応する第１の複数の入力電圧に応答して、前記第１のビット線内の電流の値を受信し、前記電流からマルチビット出力値を決定するように構成されている、アナログ・デジタル変換器を含む、請求項１に記載の装置。
前記制御回路が制御ダイ上に形成され、前記装置は、
前記メモリセルを含むメモリダイであって、前記メモリダイは、前記制御ダイとは別個に形成され、前記制御ダイに接合されている、メモリダイを更に備える、請求項１に記載の装置。
メモリダイがメモリセルのアレイを含み、前記メモリセルのアレイは、
前記メモリセルと、
前記第１のビット線を含む複数のビット線と、
複数のワード線と、を含み、前記アレイは、前記メモリセルのそれぞれが、前記ビット線のうちの対応するビット線と前記ワード線のうちの対応するワード線との間に接続されるクロスポイントアーキテクチャに従って形成されている、請求項３に記載の装置。
前記メモリセルのそれぞれは、
複数の誘電体層であって、前記誘電体層のそれぞれは、複数の異なる実効破壊電圧のうちの１つを有し、かつ複数の異なる抵抗値のうちの１つを有するように形成され、そのため、前記誘電体層の前記抵抗値が高いほど、前記誘電体層の前記実効破壊電圧が低くなる、複数の誘電体層と、
１つ以上の導電層であって、前記導電層は、前記誘電体層と交互になっている、１つ以上の導電層と、を含む、請求項４に記載の装置。
前記メモリセルのそれぞれは、
複数の階層であって、前記階層のそれぞれは１つ以上の誘電体層を有し、前記誘電体層のそれぞれは、共通の実効破壊電圧を有し、かつ複数の抵抗値のうちの１つを有するように形成され、同じ階層の前記誘電体層は、同じ抵抗値を有するように形成され、異なる階層の前記誘電体層は、異なる抵抗値を有するように形成され、そのため、前記階層内の層数が多いほど、前記階層の前記誘電体層の前記抵抗値は低くなる、複数の階層と、
複数の導電層であって、前記導電層は前記誘電体層と交互になっている、複数の導電層と、を含む、請求項４に記載の装置。
選択ビット線に沿った１つ以上の書き込み選択メモリセルを第１のデータ状態にプログラムするために、前記制御回路が、
前記選択ビット線を低電圧レベルにバイアスすることと、
前記書き込み選択メモリセルに対応する前記ワード線を前記第１のデータ状態に対応する前記書き込み電圧にバイアスすることと、
前記書き込み選択メモリセルに対応しないワード線、及び前記選択ビット以外のビット線を、前記低電圧レベルと前記第１のデータ状態に対応する前記書き込み電圧との中間の電圧レベルにバイアスすることと、を同時に行うように構成されている、請求項４に記載の装置。
前記制御回路は、
前記ビット線に接続され、前記ワード線に印加された前記１組の対応する入力電圧に応答して、前記ビット線のそれぞれの中の電流の値を受信し、前記電流のそれぞれからマルチビット出力値を決定するように構成されている、１つ以上のアナログ・デジタル変換器を含む、請求項４に記載の装置。
前記制御回路は、
前記１つ以上のアナログ・デジタル変換器に接続され、前記マルチビット出力値を蓄積するように構成されているデジタル計算回路を含む、請求項８に記載の装置。
前記メモリセルは、ニューラルネットワークの層の重みを記憶するように構成されており、前記制御回路は、
前記ニューラルネットワークの前記層に対するベクトル入力値を受信することであって、入力値の前記ベクトルは複数の成分を有する、ことと、
前記入力ベクトルの前記成分を１組の電圧レベルに変換することと、
前記１組の電圧レベルのそれぞれを対応する１組の前記ワード線に印加することと、を行うように更に構成されている、請求項９に記載の装置。
前記制御回路は、
前記１組の電圧レベルのそれぞれを前記対応する１組の前記ワード線に印加することに応答して、複数の前記ビット線からの前記マルチビット出力を同時に蓄積するように更に構成されている、請求項１０に記載の装置。
制御回路は、
ニューラルネットワークの層に対する複数の重み値を受信し、
前記重み値を前記メモリセルにデータ状態としてプログラムし、
前記重み値を前記メモリセルにプログラムすることに続いて、前記ニューラルネットワークの前記層に対する入力ベクトルを受信し、
前記入力ベクトルを前記第１の複数の入力電圧に変換し、
前記第１の複数の入力電圧を前記メモリセルに印加することによって、前記入力ベクトルと前記重み値とのアレイ内乗算を実行するように更に構成されている、請求項１に記載の装置。
方法であって、
１つ以上の第１の選択メモリセルを複数のデータ状態のうちの第１のデータ状態に同時にプログラムするためにメモリセルのアレイをバイアスすることであって、前記アレイは、前記メモリセルが対応するビット線と対応するビット線との間に接続され、前記メモリセルのそれぞれが、導電層によって分離された複数の誘電体層から形成されるクロスポイントアーキテクチャに従って形成され、前記バイアスは、
前記１つ以上の第１の選択メモリセルに対応する前記アレイのビット線を低電圧値に設定することと、
前記１つ以上の第１の選択メモリセルに対応しない前記アレイのビット線を第１の中間電圧レベルに設定することと、
前記１つ以上の第１の選択メモリセルに対応しない前記アレイのワード線を前記第１の中間電圧レベルに設定することと、を含む、ことと、
１つ以上の第１の選択メモリセルを前記複数のデータ状態のうちの前記第１のデータ状態に同時にプログラムするために前記メモリセルのアレイをバイアスすると同時に、前記１つ以上の第１の選択メモリセルに対応する前記アレイのワード線に第１の書き込み電圧を印加することであって、前記第１の書き込み電圧は、前記第１の選択メモリセルを前記複数のデータ状態のうちの前記第１のデータ状態にプログラムするために、前記第１の選択メモリセルの前記誘電体層のうちの１つ以上を破壊するために選択され、前記第１の中間電圧レベルは、前記低電圧値と前記第１の書き込み電圧との中間である、ことと、を含む、方法。
前記第１の選択メモリセルを同時にプログラムするために前記メモリセルのアレイをバイアスすることに続いて、前記第１の選択メモリセルに対応する前記アレイの前記ビット線に接続された１つ以上の第２の選択メモリセルを、複数のデータ状態のうちの第２のデータ状態に同時にプログラムするために前記アレイをバイアスすることであって、１つ以上の第２の選択メモリセルを同時にプログラムするために前記アレイをバイアスすることは、
前記１つ以上の第１の選択メモリセルに対応する前記アレイのビット線を低電圧値に設定することと、
前記１つ以上の第２の選択メモリセルに対応しない前記アレイのビット線を第２の中間電圧レベルに設定することと、
前記１つ以上の第２の選択メモリセルに対応しない前記アレイのワード線を前記第２の中間電圧レベルに設定することと、を含む、ことと、
１つ以上の第２の選択メモリセルを前記複数のデータ状態のうちの前記第２のデータ状態に同時にプログラムするために前記メモリセルのアレイをバイアスすると同時に、前記第２の選択メモリセルに対応する前記アレイのワード線に第２の書き込み電圧を印加することであって、前記第２の書き込み電圧は、前記第２の選択メモリセルを前記複数のデータ状態のうちの前記第２のデータ状態にプログラムするために、前記第２の選択メモリセルの前記誘電体層のうちの１つ以上を破壊するために選択され、前記第２の中間電圧レベルは、前記低電圧値と前記第２の書き込み電圧との中間である、ことと、を更に含む、請求項１３に記載の方法。
前記アレイの前記メモリセルは、ニューラルネットワークの層の重みを記憶するようにプログラムされており、前記方法は、
前記ニューラルネットワークの前記層に対する入力ベクトルを受信することと、
前記入力ベクトルと前記ニューラルネットワークの前記重みとのアレイ内乗算を実行することと、
入力ベクトルを１組の電圧レベルに変換することと、
前記１組の電圧レベルを前記アレイの前記ワード線に印加することと、を更に含む、請求項１３に記載の方法。