JP7480391B2

JP7480391B2 - インメモリコンピューティングのための記憶装置

Info

Publication number: JP7480391B2
Application number: JP2023071918A
Authority: JP
Inventors: 函庭呂; 子軒徐; 騰豪葉; 志昌謝; 俊雄洪; 永駿李
Original assignee: 旺宏電子股▲ふん▼有限公司
Priority date: 2022-07-13
Filing date: 2023-04-26
Publication date: 2024-05-09
Anticipated expiration: 2043-04-26
Also published as: US20240028211A1; JP2024012076A; KR20240009334A

Description

本発明は、記憶装置に関し、特に、インメモリコンピューティングのための記憶装置に関する。

ベクトル行列乗算（VMM）は、ディープニューラルネットワーク（DNN）、余弦類似度、およびシミュレーテッドアニーリングにおける「メモリ中心コンピューティング」に適したアプローチである。VMMアクセラレータは高密度、高帯域幅がフォン・ノイマン（Von－Neumann）ディジタルアプローチを補完するのに適している。

ベクトル行列乗算のためのインメモリコンピューティングの使用にはいくつかの問題がある。第一に、VMMはしばしば正（＋）と負（－）の入力と重みの両方を含む。したがって、正および負の極性に対してアナログ回路をどのように実装するかは、困難なトピックである。さらに、入力と重みは多くの場合、マルチビット解像度（ソフトウェアでは３２b－FP であるが、エッジDNN では４ビットに減らすことができ、類似検索ではさらに少なくなる（２～３ビットなど）である。

従って、VMMアクセラレータの開発は本分野における主要な課題である。

本発明は、３D AND型NORフラッシュメモリを用いて構成されたVMMアクセラレータを提供する。

本発明の一実施形態によれば、メモリアレイと、複数の入力ワード線対と、信号処理回路とを含む、インメモリコンピューティングのための記憶装置が提供される。メモリアレイは、複数の第１の一対のメモリセルと、複数の第２の一対のメモリセルとを含む。複数の第１の一対のメモリセルの各々は、第１のグローバルビット線に結合された第１のメモリセルセットと、第２のグローバルビット線に結合された第２のメモリセルセットとを含み、複数の第２の一対のメモリセルの各々は、第１のグローバルビット線に結合された第３のメモリセルセットと、第２のグローバルビット線に結合された第４のメモリセルセットとを含む。複数の入力ワード線対の各々は、第１の入力ワード線及び第２の入力ワード線を含む。第１の入力ワード線は第１のメモリセルセットおよび第２のセットメモリセルに結合され、第２の入力ワード線は第３のメモリセルセットおよび第４のセットのメモリセルに結合される。信号処理回路は、第１のグローバルビット線と第２のグローバルビット線とに結合される。

上記に基づいて、本発明の一実施形態によれば、インメモリコンピューティングのための記憶装置の動作アーキテクチャは、３D AND型NORフラッシュメモリを使用して構築される。このように、本発明の実施形態では、メモリ内のデータは、別のALUによって計算される外部には読み取られなくてもよいので、システムデータを保存することができ、データ更新は、データを外部記憶装置に読み出すために必ずしも必要ではない。さらに、本発明のアーキテクチャは、高容量、高速、および高効率のインメモリコンピューティングを達成することができる。従って、画像処理、顔認識、深いニューラルネットワーク等のようなビッグデータ又はAI用途において一般的に使用されているVMMコンピューティング、IMSコンピューティング等は、本発明のアーキテクチャを介して実施することが可能である。

添付図面は、本発明のさらなる理解を提供するために含まれ、本明細書の一部に組み込まれ、本明細書の一部を構成する。図面は、本発明の例示的な実施形態を図示し、説明とともに、本発明の原理を説明する役割を果たす。

本発明示の一実施形態による３D AND型NORフラッシュメモリ装置の構造を示す模式図である。本発明の一実施形態による３D NOR型フラッシュメモリ装置の等価回路を示す模式図である。本発明の一実施形態による３D NOR型フラッシュメモリ装置が行うベクトル行列乗算演算を示す説明図である。本発明の一実施形態による３D AND型NOR型フラッシュメモリ装置により実行されるベクトル行列乗算演算を示す別の説明図である。ゲート電圧と読み出し電流Icellの分布図(左）、トリミング後のメモリセル読み出し電流と標準偏差σの分布図（中）、および正のプラニングRTNとビット数の分布図（右）を示す。メモリセルの読み出し電流の分布を示す模式図である。デジタル領域で４つの入力、４つの重み（４I４W）を生成するためのアーキテクチャを示す模式図である。本発明の一実施形態による固体駆動モジュールを示す模式図である。本発明の一実施形態による、余弦類似度を計算するために適用される３D AND型NORフラッシュメモリのアーキテクチャおよび動作を示す。図６Ａのアーキテクチャの下にあるメモリセルの読み出し電流Icellの分布を示す模式図である。

本発明は、インメモリコンピューティングのためのアーキテクチャに関する。このアーキテクチャにより、メモリに記憶されたデータを読み出して、コンピューティング用の外部算術論理ユニット（ALU）に送信する必要がなくなる。読出し電流（Icell）は、記憶部に記憶された重みとワード線により入力された電圧値を感知することにより直接求めることができる。読み出し電流を累積した後、直接、ベクトル行列乗算（VMM）、余弦類似度、またはインメモリ検索（IMS）を行うことができる。３D AND型NORフラッシュメモリ装置は、このようなインメモリコンピューティング（CIM）に適したアーキテクチャである。

図１は、本発明の一実施形態による３D AND型NORフラッシュメモリ装置の構造を示す模式図である。３D AND型NORフラッシュメモリ装置は、図１に示す複数の積層構造１０を含むことができる。例えば、積層構造１０は、垂直方向（Z方向）に延在して複数のゲート層２０を形成し、このゲート層は、ワード線（図示せず）として機能する導電層にさらに結合されてもよい。ONO層２２は、ゲート層２０とチャネル柱１８との間に形成されている。積層構造１０は、垂直方向Zに沿って延在する中空チャネル柱１８を含む。垂直方向Zに沿って延在する２つの導電柱１２および１４が、中空チャネル柱１８内に形成され、中空チャネル柱１８は、メモリセルのソースおよびドレインとして機能し得る。２つの導電柱１２及び１４は、２つの導電柱１２及び１４を隔離するために垂直方向Zに沿って延在する隔離構造１６を有している。

積層構造１０は、例えば、３２層構造であってもよく、これは、大量のCIMに使用するために、小さな粒径で容易に数十億個のメモリセルを生成することができる。他の実施形態において、積層構造１０は、６４層構造以上であってもよい。

図２は、本発明の一実施形態による３D NOR型フラッシュメモリ装置の等価回路を示す模式図である。図２に示すように、３D NORフラッシュメモリ装置１００は、スタック１１０、スタック１１１などのスタック構造として構成される。各積層体は、複数のメモリセルCが積層されて形成されている。例えば、積層体１００は、複数のローカルビット線LBL１～LBL１６と、複数のローカルソース線LSL１～LSL１６とを含んでいる。ローカルビット線LBL１からLBL１６のそれぞれは、垂直に延在し、各メモリセルの第１の端部（ソース／ドレイン端）に接続されており、各スタックの各ローカルビット線（例えば、１１０、１１１）は、図２に示すように、ビット線BL１、BL８、BL９、BL１６などのビット線BL１からBL１６の対応する１つに結合される。また、各ローカルソース線LSL１～LSL１６は、それぞれ垂直に延びており、各メモリセルの第二端部（他のソース／ドレイン端部）に接続されており、各スタックのローカルソース線LSL１～LSL１６（例えば、１１０、１１１）のそれぞれは、図２に示すように、ソース線SL１、SL８、SL９、SL１６などのソース線SL１～SL１６のうちの対応する１つに結合されている。

さらに、ビット線の１つのセットBL１、BL８等が、それぞれ、ビット線トランジスタBLT１、BLT８などを介して第１のグローバルビット線GBL（N）にさらに結合される。すなわち、図２を例にとると、２つの第１のドレイン側導電ストリング（BL１、BL８）は、メモリセルおよび第１のグローバルビット線GBL (N)に結合されている。ビット線の他のセットBL９、BL１６などは、それぞれ、ビット線トランジスタBLT９、BLT１６などを介して第２のグローバルビット線GBLB（N）にさらに結合される。すなわち、２つの第２のドレイン側導電ストリング（BL９、BL１６）は、メモリセルおよび第２のグローバルビット線GBLB（N）に結合される。さらに、ソースビット線SL１、SL８、SL９、SL１６などは、それぞれ、ソース線トランジスタSLT１、SLT８、SLT９、SLT１６などを介して、共通ソース線CSLにさらに結合される。

また、各スタックの同一層内のメモリセルCの制御端（ゲート）は、同一のワード線WLに結合されている。例として、１２８セクタの４Kワード線WLがある。さらに、第１のグローバルビット線GBL（N）及び第２のグローバルビット線GBLB（N）は、感知増幅器比較器１５０に結合される。通常読み出しモードにおいては、感知増幅器比較器１５０は、選択されたメモリセルCを流れる読み出し電流Icellを感知する。

通常読み出しモードでは、図２において丸で囲まれたメモリセルCが読み出し対象であると仮定すると、Vread = ７Vのように、メモリセルCに対応するワード線WLには読み出し電圧Vread (選択ワード線）が印加され、他の未選択メモリセルCに対応するワード線には、０のような未選択電圧が印加される。また、ビット線トランジスタBLT１がオン状態となり、他のビット線トランジスタBLT８、BLT９、BLT１６等がオフ状態となる。同時に、ソース線トランジスタSLT１がオン状態となり、その結果、ソース線SL１は共通ソース線CSLに結合（例えば０V印加）し、他のソース線トランジスタSLT８、SLT９、SLT１６はオフ状態となる。第１のグローバルビット線GBL（N）及び第２のグローバルビット線GBLB（N）は、例えば１．２Vで印加される。したがって、選択されたメモリセルの読み出し電流Icellは、感知増幅器比較器１５０に送信される。したがって、選択されたメモリセルCの読み出し電流Icellは、第１のグローバルビット線GBL（N）を通して感知することができ、このとき、第１のグローバルビット線GBL（N）は、読み出し経路として働く。さらに、第２のグローバルビット線GBLB（N）は容量性マッチング経路として働く。

図３Ａは、本発明の一実施形態による３D NOR型フラッシュメモリ装置が行うベクトル行列乗算演算を示す説明図である。上記３D NORフラッシュメモリ装置を適用して、ベクトル行列乗算（VMM）、または、いわゆるインメモリコンピューティング（CIM）を実行する方法を以下に説明する。本実施形態は、単一レベル重みCIMの例を説明する。

VMMに適用されると、図２の記憶装置１００は記憶装置２００として再構成される。同じ又は同様の参照番号が引き続き使用されることになり、相違点のみが示される。図３Ａに示されるように、メモリアレイ（例えば、図２に示される積層１１０及び１１１で構成される）は、複数の第１の一対のメモリセル、及び複数の第２の一対のメモリセルを含む。ここでは、簡単のために、１つの第１の一対のメモリセルおよび１つの第２の一対のメモリセルのみが図示されている。第１の一対のメモリセルは、第１のグローバルビット線GBL（N）に結合された第１のメモリセルセット（または第１のメモリセルを参照）２１５と、第２のグローバルビット線GBLB（N）に結合された第２のメモリセルセット（または第２のメモリセルを参照）２１６とを含み、第２の一対のメモリセルは、第１のグローバルビット線GBL（N）に結合された第３のメモリセルセット（または第３のメモリセルを参照）２１７と、第２のグローバルビット線GBLB（N）に結合された第４のメモリセルセット（または第４のメモリセルを参照）２１８と、を含む。本実施形態では、第１～第４のメモリセルセット２１５～２１８はそれぞれ、１つのメモリセルを含む。

記憶装置２００は、さらに、複数の入力ワード線対２２０を含み、そのうちの１つはここでは一例として図示されている。入力ワード線対２２０の各々は、第１の入力ワード線input＿１と第２の入力ワード線input＿１Bとを含む。第１の入力ワード線input＿１は第１のメモリセルセット２１５および第２のメモリセルセット２１６に結合され、第２の入力ワード線input＿１Bは第３のメモリセルセット２１７および第４のメモリセルセット２１８に結合される。記憶装置２００はさらに、第１のグローバルビット線GBL（N）および第２のグローバルビット線GBLB（N）に結合された信号処理回路２５０を含む。本実施形態では、信号処理回路２５０は差動アナログ－デジタル変換器（ADC）２５０によって実現される。入力ワード線対２２０は、２進又は３進入力信号を供給することができる。さらに、ここでの入力ワード線対２２０への入力は、単一レベル（SLC）入力である。

さらに、第１のメモリセルセット２１５および第３のメモリセルセット２１７のビット線（例えばBL１）は、ビット線トランジスタBLT１を介して、第１のグローバルビット線GBL（N）に結合され、第２のメモリセルセット２１６および第４のメモリセルセット２１８のビット線（例えばBL９）は、ビット線トランジスタBLT９を介して、第２のグローバルビット線GBLB（N）に結合され得る。第１のグローバルビット線GBL（N）及び第２のグローバルビット線GBLB（N）は出力として働き、差動アナログ－デジタル変換器２５０に結合される。ここで、第１のグローバルビット線GBL（N）は、０よりも大きいVMM積を表す読み出し電流を収集するために使用されてもよく、第２のグローバルビット線GBLB（N）は、０よりも小さいVMM積を表す読み出し電流を収集するために使用されてもよい。

差動アナログ－デジタル変換器２５０は、第１のグローバルビット線GBL（N）及び第２のグローバルビット線GBLB（N）のどの経路がより大きな電流値を有するかを検出するように構成される。実施形態の１つでは、第１のグローバルビット線GBL（N）および第２のグローバルビット線GBLB（N）の検出後に、差動アナログ－デジタル変換器２５０は、２つの経路において電流を互いに打ち消し合い、ADC値を得る。

図３Ａのメモリアレイを用いてVMMコンピューティングが行われるとき、ソース線トランジスタSLT１及びSLT９はオンにされ、ソース線トランジスタSLT８及びSLT１６はオフにされ、その結果、ソース線SL１及びSL９は共通ソース線CSLに結合される。例えば、共通ソース線CSLは、０Vの電圧で印加される。さらに、ビット線トランジスタBLT１およびBLT９がオンにされ、ビット線トランジスタBLT８およびBLT１６がオフにされ、それによってソース線BL１は第１のグローバルビット線GBL（N）に結合され、ビット線BL９は第２のグローバルビット線GBLB（N）に結合される。例えば、最初のグローバルビット線GBL（N）および２番目のグローバルビット線GBLB（N）の両方が、０．２Vの電圧で印加される。

第１のメモリセルセット２１５、第２のメモリセルセット２１６、第３のメモリセルセット２１７、および第４のメモリセルセット２１８の各々に記憶されるデータは、例えば、単一レベルの重みである。

VMMコンピューティングを実行すると、コンピューティング結果は正と負とで微分される。さらに、上述のように、第１のグローバルビット線GBL（N）は、０よりも大きいVMM積を表す読み出し電流Icellを収集するために使用することができ、第２のグローバルビット線GBLB（N）は、０よりも小さいVMM積を表す読み出し電流Icellを収集するために使用することができる。したがって、正および負の入力（ワード線電圧）と正および負の重みを生成するために、回路の動作が必要となる。本実施形態では、VMMコンピューティングのために適用される物理的な負の入力および負の重みは存在しない。新しいアルゴリズムを設計する予定である。

上述したように、本発明の実施形態によれば、入力ワード線対２２０は、電圧（ワード線に印加される電圧）を入力する際に用いられる。第１の入力ワード線input＿１は、１または０を入力することができ、第２の入力ワード線input＿１Bは、１または０を入力することもできる。ここで、１または０はロジックを表す。１が入力された場合、例えば、約３Vの電圧がワード線に印加され、０が入力された場合、例えば、約０Vの電圧がワード線に印加され得る。したがって、入力ワード線対２２０の第１の入力ワード線input＿１と第２の入力ワード線input＿１Bとの入力の組合せを通じて、三進入力信号を生成することができる。例えば、第１の入力ワード線input＿１は１を入力し、第２の入力ワード線input＿１Bは０を入力し、それは正の入力（＋１）を生成する。第１の入力ワード線input＿１は０を入力し、第２の入力ワード線input＿１Bは０を入力し、それはゼロの入力（０）を生成する。そして、第１の入力ワード線input＿１は０を入力し、第２の入力ワード線input＿１Bは１を入力し、これは負の入力（－１）を生成する。したがって、本発明は、物理的に負の入力を供給することなく、三進入力信号（＋１、０、－１）を生成することができる。さらに、二進入力信号もこの方法で生成できる。

正および負の重みに関しては、本発明の実施形態によれば、例えば、第１のメモリセルセット２１５および第４のメモリセルセット２１８が、読み出し電流Icellを読み出すことが可能であり、かつ、第２のメモリセルセット２１６および第３のメモリセルセット２１７の読み出し電流Icellが０である場合、正の重み（＋１）を、この状況において生成することが可能である。第２のメモリセルセット２１６及び第３のメモリセルセット２１７が読取り電流Icellを読取ることができ、かつ、第１のメモリセルセット２１５及び第４のメモリセルセット２１８の読取り電流Icellが０であるとき、この状況において負の重み（－１）を生成することができる。さらに、第１のメモリセルセット２１５から第４のメモリセルセット２１８までの読み出し電流Icellがすべて０である場合、ゼロの重みが生成される。

図３Ａの記憶装置を動作させるとき、正の電圧が入力される場合、入力電圧は第１の入力ワード線input＿１に印加され、第１のメモリセルセット２１５が正の重みを有する場合、それらの乗算は正の読み出し電流Icellを表す。このとき、読み出し電流Icellは、正の積を表す第１のグローバルビット線GBL（N）を介して差動アナログ－デジタル変換器２５０に流れる。同様に、入力電圧が第１の入力ワード線input＿１に印加されるとき、第２のメモリセルセット２１６は負の重みを有し、それらの乗算は負の読み出し電流Icellを表す。このとき、読み出し電流Icellは、負の積を表す第２のグローバルビット線GBLB（N）を介して差動アナログ－デジタル変換器２５０に流れる。同様に、入力電圧が第２の入力ワード線input＿１Bに印加されると（入力が負であることを表す）、第３のメモリセルセット２１７は負の重みを有し、それらの乗算は正の読み出し電流Icellを表す。このとき、読み出し電流Icellは、正の積を表す第１のグローバルビット線GBL（N）を介して差動アナログ－デジタル変換器２５０に流れる。同様に、入力電圧が第２の入力ワード線input＿１Bに印加されると（入力が負であることを表す）、第４のメモリセルセット２１８は正の重みを有し、それらの乗算は負の読み出し電流Icellを表す。このとき、読み出し電流Icellは、負の積を表す第２のグローバルビット線GBLB（N）を介して差動アナログ－デジタル変換器２５０に流れる。

図３Ｂは、本発明の一実施形態による３D AND型NOR型フラッシュメモリ装置により実行されるベクトル行列乗算演算を示す別の説明図である。上記３D AND型NORフラッシュメモリ装置を適用して、ベクトル行列乗算（VMM）、または、いわゆるインメモリコンピューティング（CIM）を行う方法を以下に説明する。本実施形態は、多重レベル重みCIMの例を説明する。

VMMに適用されると、図２の記憶装置１００は記憶装置２００として再構成される。同じ又は同様の参照番号が引き続き使用されることになり、相違点のみが示される。図３Ｂに示されるように、メモリアレイ（例えば、図２に示される積層１１０及び１１１で構成される）は、複数の第１の一対のメモリセルと複数の第２の一対のメモリセルとを含む。ここでは、簡単のために、１つの第１の一対のメモリセルおよび１つの第２の一対のメモリセルのみが図示されている。第１の一対のメモリセルは、第１のグローバルビット線GBL（N）に結合された第１のメモリセルセット２１１と、第２のグローバルビット線GBLB（N）に結合された第２のメモリセルセット２１２とを含み、第２の一対のメモリセルは、第１のグローバルビット線GBL（N）に結合された第３のメモリセルセット２１３と、第２のグローバルビット線GBLB（N）に結合された第４のメモリセルセットとを含む。ここでは、各メモリセルセット２１１、２１２、２１３、および２１４は２つのメモリセルを含むものとして図示されているが、その数は本発明の実施形態を限定するものではない。記憶装置２００は、さらに、複数の入力ワード線対２２０を含み、そのうちの１つはここでは一例として図示されている。入力ワード線対２２０の各々は、第１の入力ワード線input＿１と第２の入力ワード線input＿１Bとを含む。第１の入力ワード線input＿１は第１のメモリセルセット２１１および第２のメモリセルセット２１２に結合され、第２の入力ワード線input＿１Bは第３のセットメモリセルセット２１３および第４のメモリセルセット２１４に結合される。記憶装置２００はさらに、第１のグローバルビット線GBL（N）および第２のグローバルビット線GBLB（N）に結合された信号処理回路２５０を含む。本実施形態では、信号処理回路は差動アナログ－デジタル変換器（ADC）２５０によって実現される。入力ワード線対２２０は、２進又は３進入力信号を提供することができる。さらに、ここでの入力ワード線対２２０への入力は、単一レベル（SLC）入力である。

さらに、図１に示す３D NORフラッシュメモリ構造に従って、記憶装置２００は、２つの第１のドレイン側導電ストリング、及び２つの第２のドレイン側導電ストリングを含み、これらはそれぞれ、ローカルビット線LBL１、LBL８、LBL９、及びLBL１６に対応している。２つの第１のドレイン側導電ストリングはそれぞれ、第１のメモリセルセット２１１および第３のメモリセルセット２１３に結合され、第１のグローバルビット線GBL（N）に結合される。２つの第２のドレイン側導電ストリングはそれぞれ、第２のメモリセルセット２１２および第４のメモリセルセット２１４に結合され、第２のグローバルビット線GBLB（N）に結合される。さらに、記憶装置２００は、２つの第１のソース側導電ストリングおよび２つの第２のソース側導電ストリングを含む。２つの第１のソース側導電ストリングは、それぞれ、第１のメモリセルセット２１１及び第３のメモリセルセット２１３に結合され、共通ソース線CSLに結合される。２つの第２のソース側導電ストリングは、それぞれ、第２のメモリセルセット２１２及び第４のメモリセルセット２１４に結合され、共通ソース線CSLに結合される。

さらに、第１のメモリセルセット２１１および第３のメモリセルセット２１３の各ビット線（例えば、BL１、BL８）は、ビット線トランジスタBLT１およびBLT８をそれぞれ介して、第１のグローバルビット線GBL（N）に結合されてもよく、第２のメモリセルセット２１２および第４のメモリセルセット２１４の各ビット線（例えば、BL９、BL１６）は、ビット線トランジスタBLT９およびBLT１６をそれぞれ介して、第２のグローバルビット線GBLB（N）に結合されてもよい。第１のグローバルビット線GBL（N）及び第２のグローバルビット線GBLB（N）は出力として働き、差動アナログ－デジタル変換器２５０に結合される。ここで、第１のグローバルビット線GBL（N）は、０よりも大きいVMM積を表す読み出し電流を収集するために使用されてもよく、第２のグローバルビット線GBLB（N）は、０よりも小さいVMM積を表す読み出し電流を収集するために使用されてもよい。

図３Ｂのメモリアレイを用いてVMMコンピューティングが行われるとき、ソース線トランジスタSLT１、SLT８、SLT９及びSLT１６がオンにされ、その結果、ソース線SL１、SL８、SL９及びSL１６が共通ソース線CSLに結合される。例えば、共通ソース線CSLは、０Vの電圧で印加される。さらに、ビット線トランジスタBLT１、BLT８、BLT９、BLT１６をオンにすることにより、ビット線BL１、BL８は第１のグローバルビット線GBL（N）に結合され、ビット線BL９、BL１６は第２のグローバルビット線GBLB（N）に結合される。例えば、第１のグローバルビット線GBL（N）および第２のグローバルビット線GBLB（N）の両方が、０．２Vの電圧で印加される。

第１のメモリセルセット２１１、第２のメモリセルセット２１２、第３のメモリセルセット２１３、および第４のメモリセルセット２１４に記憶されるデータは、例えば、４レベルの重みである。この実施例では、各メモリセルセットは２つのメモリセルを有するので、８レベルの重みを生成することができる。さらに、より多くのレベルの重みデータが必要とされる場合、各メモリセルセットは、より多くのレベルの重みを生成するために、並列に接続されたより多くのメモリセルを有してもよい。

上述したように、本発明の実施形態によれば、入力ワード線対２２０は、電圧（ワード線に印加される電圧）を入力する際に用いられる。第１の入力ワード線input＿１は、１または０を入力することができ、第２の入力ワード線input＿１Bは、１または０を入力することもできる。ここで、１または０はロジックを表す。１が入力された場合、例えば、約３Vの電圧がワード線に印加され、０が入力された場合、例えば、約０Vの電圧がワード線に印加され得る。したがって、入力ワード線対２２０の第１の入力ワード線input＿１と第２の入力ワード線input＿１Bとの入力の組合せを通じて、三進入力信号を生成することができる。例えば、第１の入力ワード線input＿１は１を入力し、第２の入力ワード線input＿１Bは０を入力し、それは正の入力（＋１）を生成する。第１の入力ワード線input＿１は０を入力し、第２の入力ワード線input＿１Bは０を入力し、それはゼロの入力（０）を生成する。そして、第１の入力ワード線input＿１は０を入力し、第２の入力ワード線input＿１Bは１を入力し、これは負の入力（－１）を生成する。したがって、本発明は、物理的に負の入力を供給することなく、三進入力信号（＋１、０、－１）を生成することができる。さらに、バイナリ入力信号もこの方法で生成できる。

正および負の重みに関しては、本発明の実施形態によれば、例えば、第１のメモリセルセット２１１および第４のメモリセルセット２１４が、読み出し電流Icellを読み出すことが可能であり、かつ、第２のメモリセルセット２１２および第３のメモリセルセット２１３の読み出し電流Icellが０である場合、状況において正の重み（＋１）を生成することが可能である。第２のメモリセルセット２１２及び第３のメモリセルセット２１３が読取り電流Icellを読取ることができ、かつ第１のメモリセルセット２１１及び第４のメモリセルセット２１４の読取り電流Icellが０であるとき、状況において負の重み（－１）を生成することができる。さらに、第１のメモリセルセット２１１から第４のメモリセルセット２１４までの読み出し電流Icellがすべて０である場合、ゼロの重みを生成することができる。

図３Ｂの記憶装置を動作させるとき、正の電圧が入力されると、入力電圧が第１の入力ワード線input＿１に印加され、第１のメモリセルセット２１１が正の重みを有する場合、それらの乗算は正の読み出し電流Icellを表す。このとき、読み出し電流Icellは、正の積を表す第１のグローバルビット線GBL（N）を介して差動アナログ－デジタル変換器２５０に流れる。同様に、入力電圧が第１の入力ワード線input＿１に印加されるとき、第２のメモリセルセット２１２は負の重みを有し、それらの乗算は負の読み出し電流Icellを表す。このとき、読み出し電流Icellは、負の積を表す第２のグローバルビット線GBLB（N）を介して差動アナログ－デジタル変換器２５０に流れる。同様に、入力電圧が第２の入力ワード線input＿１Bに印加されると（入力が負であることを表す）、第３のメモリセルセットは負の重みを有し、それらの乗算は正の読み出し電流Icellを表す。このとき、読み出し電流Icellは、正の積を表す第１のグローバルビット線GBL（N）を介して差動アナログ－デジタル変換器２５０に流れる。同様に、入力電圧が第２の入力ワード線input＿１Bに印加されると（入力が負であることを表す）、第４のメモリセルセット２１４は正の重みを有し、それらの乗算は負の読み出し電流Icellを表す。このとき、読み出し電流Icellは、負の積を表す第２のグローバルビット線GBLB（N）を介して差動アナログ－デジタル変換器２５０に流れる。

まとめると、下記表Ｉは、Input＿１およびInput＿１B の入力（正、ゼロおよび負の入力）と重み（正、ゼロおよび負の重み）に関連して、GBL（N）およびGBLB（N）の出力をリストする。

従って、全てのワード線及びビット線において、正の読み出し電流Icellが加算されて正のVMM積及び負のVMM積が生成され、比較のために差動アナログ－デジタル変換器２５０に伝送されて、デジタル値が生成される。

合計するために、図３Ｂに示されるアーキテクチャおよびアルゴリズムを介して、第１のグローバルビット線GBL（N）の読み出し電流Icellが合計された後に、その合計は、正のVMM積値VMM (正）を表すことができ、第２のグローバルビット線GBLB（N）の読み出し電流Icellが合計された後に、その合計は、負のVMM積値VMM (負）を表すことができる。上記２つの計算は以下の通りである。
ここで、g_m（i、k）はメモリセルのトランスコンダクタンスであり、V_WL（i）はワード線に適用される電圧であり、iはワード線の数であり、kはビット線の数であり、jはグローバルビット線の数である。したがって、ワード線に適用される電圧V_WL（i）に、メモリセルのトランスコンダクタンスg_m（i，k）を乗じたものが、メモリセルの読み出し電流Iセルに対応する。このトランスコンダクタンスg_m（i，k）は上述の重みに対応する。したがって、p_i x q_i＞０（VMM積は０より大きい）およびp_i x q_i＜０（VMM積は０より小さい）は、メモリアレイのメモリセルの読み出し電流の合計から得ることができる。p_iおよびq_iは任意の数値であり、すなわち、上述のワード線電圧V_WL（i）および重みg_m（i、k）を用いて計算できる値である。

図３Ｃは、ゲート電圧と読み出し電流Icellの分布図(左）、トリミング後のメモリセル読み出し電流と標準偏差σの分布図（中）、および正のプラニングRTNとビット数の分布図（右）を示す。図３Ｃの左側に示すように、インクリメンタルステップパルスプログラミング（ISPP）が行われたときのドレイン電流（Id）及びゲート電圧（Vg）の測定図である。横軸はゲート電圧Vg、すなわちワード線に印加される電圧を表し、縦軸はビット線電圧V_BLが０．２Vの場合の読み出し電流Icellを表す。ここで、読み出し電流Icellは、低ビット線電圧V_BL＝０．２V（通常読み出し時のビット線電圧V_BL＝１．２V）で動作させる場合に制御できることが望ましい。上述の実施例では、入力電圧（ワード線電圧V_WL）は約２V～３Vであるため、図３ＣにおいてVg=２V～３V間の対応する電流を見つけ出し、サブ－１００nA～サブ－１μAの範囲のような異なった読み出し電流Icellの範囲をトリムすることが可能である。図３Ｃの中央の図によれば、読み出し電流Icellはサブ－１μAの範囲の方が良く、図３Ｃの右側の図によれば、サブ－１μAの範囲の方が小さいRTNがある。

図３Ｄは、メモリセルの読み出し電流Icellの分布を示す模式図である。上述のように、インメモリコンピューティングが良好な結果を有するためには、読み出し電流Icellの狭くかつ適切に間隔を置いた分布を生成し、より小さいRTNおよび良好な保持を有することが望ましい。したがって、入力電圧（ワードライン電圧）が約２V～３Vである場合、読み出し電流Icellの分布は、２００nA、４００nA、６００nA、および８００nAなど、図３Dに示すようにサブ－１μAの範囲の分布にトリミングされることが好ましい。入力電圧が２V～３V付近の場合、読み出し電流Icellの分布をサブ－１μAの範囲に補正することが好ましい。したがって、４レベルの重みを得ることができる。

第１の対のメモリセルの第１のメモリセルセット２１１（正の重みを記憶する）および第２のメモリセルセット２１２（負の重みを記憶する）を例にとると、各メモリセルセットは２つのメモリセルを含むので、第１の対のメモリセルは合計４つのメモリセルを含み、各メモリセルは４レベルの読み出し電流Icellを有し、これは４レベルの重みを表す。４つのビット線トランジスタBLT１、BLT８、BLT９、およびBLT１６を全てオンにすると、合計１６レベルの重み（例えば、負の重みに対して－８から－１、正の重みに対して０から＋７）を発生させることができ、すなわち、４ビットの分解能である。

上記のアーキテクチャでは、入力信号は主にシングルレベル入力である。マルチレベル入力が生成されるべきである場合、上記の図３Ｂに基づく複数のアーキテクチャを使用することができる。図４は、デジタル領域で４つの入力、４つの重み（４I４W）を生成するためのアーキテクチャを示す模式図である。

図４に示されるように、記憶装置３００は、４つのメモリアレイ３０１a、３０１b、３０１c、及び３０１d（４つのタイル）を含む。メモリアレイ３０１a、３０１b、３０１c、及び３０１dは、それぞれ、Xデコーダ３０２a、３０２b、３０２c、及び３０２dと、これに対応するＡＤ変換器（アナログ－デジタル変換器）３０３a、３０３b、３０３c、及び３０３dを有している。ここで、メモリアレイ３０１a、３０１b、３０１c、及び３０１dのそれぞれ、対応すXデコーダる３０２a、３０２b、３０２c、及び３０２d、並びに対応するＡＤ変換器（アナログ－デジタル変換器）３０３a、３０３b、３０３c、及び３０３dは、図３Bに示されたアーキテクチャを使用することができる。メモリアレイ３０１a、３０１b、３０１c、及び３０１dの各々は、４ビットの重み、すなわち、４つのビット線トランジスタBLTを備えた４レベルの読み出し電流Icellを有する。したがって、ここでのメモリセルは、複数レベルセル（MLC）であり、この実施例では４つのレベルを有する。

さらに、メモリアレイ３０１a、３０１b、３０１c、及び３０１dの各々のワード線は単一レベル（SLC）入力を受信するが、入力電圧は異なる。例えば、メモリアレイ３０１aの入力は a₀であり、メモリアレイ３０１bの入力は a₁であり、メモリアレイ３０１cの入力は a₂であり、メモリアレイ３０１dの入力は a₃である。

さらに、４つのメモリアレイ３０１a、３０１b、３０１c、および３０１dが、周期的に計算を繰り返して結果を出力し、最後に、４つのＡＤ変換器の出力が加算される。これは、シフターと加算器を使用して実現できる。メモリアレイ３０１aの出力は、最下位ビット（LSB）に等しく、メモリアレイ３０１dの出力は、最上位ビット（MSB）に等しい。したがって、４つのメモリアレイ３０１a、３０１b、３０１c、および３０１dの出力は、それぞれ、１（＝２⁰）、２（＝２¹）、４（＝２²）、８（＝２³）などの対応する重み係数によって乗算される。

上記のアーキテクチャにより、正と負の極性を持つ４つの入力、４つの重み（４I４W）のアーキテクチャを生成できた。要約すると、このアーキテクチャの生成は、以下を要件とする。
[１] 正と負の極性を生成するために２つのタイルで４つのメモリセルを設計すること。
[２] ４つの読み出し電流Icell (４つの重み（W０、W１、W２、W３）に対応）を生成するためのマルチレベルユニットメモリセル（本例では４レベル）。
[３] 各ビット線に接続された４個のビット線トランジスタBLT。
[４] ４ビット入力（a₀、a₁、a₂、およびa₃）を生成するための４つのタイル。

最後に、上記の記憶装置３００のVMM出力は、次の式で表すことができる。
VMM = (W３W２W１W０）×１×a₀＋（W３W２W１W０）×２×a₁＋（W３W２W１W０）×４×a₂＋（W３W２W１W０）×８×a₃

図５は、本発明の一実施形態による固体駆動モジュールを示す模式図である。図５に示す固体駆動モジュール（SSDモジュール）３５０は、例えば、大量のデータのためのコンピューティング、特に行列乗算コンピューティングを実行する必要があるAI推論システムに適用することができる。図５に示すように、固体の駆動モジュール３５０は、コントローラチップ３５２および一般行列乗算（GEMM）チップ３５４を含み、データ送信は、インターフェース３５６を介してコントローラチップ３５２と一般行列乗算チップ３５４との間で行うことができる。このインターフェースは、例えば、DDR４／５と同等または類似するインターフェースとすることができる。さらに、コントローラチップ３５２は、複数の一般行列乗算チップ３５４に結合することができる。他の実施形態では、一般行列乗算チップ３５４はスタンドアロンチップである。

上記の図３Ｂから構築された（すなわち、３D NORフラッシュメモリを用いた）一般行列乗算チップ３５４は、例えば、５１２入力（４ビット）及び１０２４出力（４ビット）を有することができる。各GEMMチップ３５４は、大きなニューラルネットワーク内の数十億個のパラメータを直接計算するために複数のGBメモリセルをサポートすることができる。GEMMチップ３５４は、DDR５（４．８Gbps、１６ I／O）などのインタフェース３５６を介してコントローラチップ３５２に接続される。制御回路に加えて、コントローラチップ３５２は、AIデータフローを制御するためのメタデータを記憶するのに適切なサイズのSRAMのみを必要とし、ベクトル行列乗算（VMM）をサポートするために、多数のALUおよび複数コア（例えば、SOC ASICアーキテクチャは、等価計算を達成するために１００コア以上を必要とする）を必要としない。このアーキテクチャの下では、すべてのVMMコンピューティングは、GEMMチップ３５４において実行される。前述の４I４Wアーキテクチャの下で、内部最大VMMコンピューティング帯域幅は～３．７ TOPSで、DDR５のI／Oよりはるかに大きい。また、チップ当りの消費電力は１Wより小さい。従って、GEMMチップ３５４は高速であり、低消費電力である。

このアーキテクチャでは、全てのベクトル行列乗算演算がGEMMチップ３５４内で実行されるため、コントローラチップ３５２はGEMMチップ３５４に入力を供給するだけでよい。GEMMチップ３５４は、ベクトル行列乗算演算を実行し、次にコントローラチップ３５２に出力を供給する。したがって、このアーキテクチャでは、メモリ内のデータを読み出してから、ALUを介して計算を実行する必要はない。その結果、大量のデータに対するベクトル行列乗算を効率的かつ迅速に行うことができた。

図６Ａは、本発明の一実施形態による、余弦類似度を計算するために適用される３D AND型NORフラッシュメモリのアーキテクチャおよび動作を示す。図６Ａに示すように、このアーキテクチャは、基本的に図３Ａのアーキテクチャと同様である。以下では相違点のみを説明し、その他の詳細は図３Ａと同様である。余弦類似度計算はインメモリ検索（IMS）の実行に適用できる。

記憶装置４００のメモリアレイは、複数の第１の一対のメモリセルと、複数の第２の一対のメモリセルとを含んでいる。ここでは、簡単のために、１つの第１の一対のメモリセルおよび１つの第２の一対のメモリセルのみが図示されている。第１の一対のメモリセルは、第１のグローバルビット線GBL（N）に結合された第１のメモリセルセット（または第１のメモリセルを参照）４１１と、第２のグローバルビット線GBLB（N）に結合された第２のメモリセルセット（または第２のメモリセルを参照）４１２とを含み、第２の一対のメモリセルは、第１のグローバルビット線GBL（N）に結合された第３のメモリセルセット（または第３のメモリセルを参照）４１３と、第２のグローバルビット線GBLB（N）に結合された第４のメモリセルセット（または第４のメモリを参照）４１４とを含む。本実施形態では、メモリセルセット４１１～４１４の各々は、１つのメモリセルを含む。

記憶装置４００はさらに、複数の入力ワード線対４２０を含む。複数の入力ワード線対４２０の各々（例えば、WL１対）は、第１の入力ワード線input＿１および第２の入力ワード線input＿１Bを含む。第１の入力ワード線input＿１は第１のメモリセル４１１および第２のメモリセル４１２に結合され、第２の入力ワード線input＿１Bは第３のメモリセル４１３および第４のメモリセル４１４に結合される。複数の入力ワード線対の各々は、三進入力信号、すなわち、上述した三進入力（＋１，０，－１）を供給する。詳細については、図３Ａまたは３Ｂの説明を参照されたい。

ここで、正の入力信号（＋１）は、入力ワード線対４２０の第１の入力ワード線input＿１をオン（WL１対を例にとる）とし、第２の入力ワード線input＿１Bをオフとし、ゼロ入力信号（０）は、入力ワード線対４２０の第１の入力ワード線input＿１をオフ（WL１対を例にとる）とし、第２の入力ワード線input＿１Bをオフとし、負の入力信号（－１）は、入力ワード線対４２０の第１の入力ワード線input＿１をオフ（WL１対を例にとる）とし、第２の入力ワード線input＿１Bをオンとする。同様に、ここでの入力ワード線対４２０への入力は単一レベル（SLC）入力である。

記憶装置４００はさらに、第１のグローバルビット線GBL（N）と第２のグローバルビット線GBLB（N）に接続された信号処理回路４５０を含む。本実施形態では、信号処理回路４５０は差動感知増幅器によって実現される。このアーキテクチャを余弦類似度計算に使用すると、主に入力信号とメモリに記憶されたデータとを比較する。実施形態の１つにおいて、図３Ａ又は図３Ｂに示す差動アナログ－デジタル変換器３５０は不要である。

加えて、図３Ａまたは３ＢのVMMコンピューティングと同じように、メモリアレイは、IMSコンピューティングに使用される重み情報を記憶する。正のIMSの重みは第１のメモリセル４１１及び第４のメモリセル４１４に記憶され、負のIMSの重みは第２のメモリセル４１２及び第３のメモリセル４１３に記憶される。

更に、記憶装置４００は、メモリアレイに結合された制御回路４６０と、余弦類似度計算を実行するためにメモリアレイを制御するための複数の入力ワード線対とを更に含み得る。例えば、制御回路４６０は、入力信号を対応する入力ワード線対に入力するためのデコーダを含むことができる。記憶装置４００は、比較器４５２および基準電流発生器４５４をさらに含んでもよい。比較器４５２は、差動感知増幅器４５０と基準電流発生器４５４とに結合される。基準電流発生器４５４は基準信号Irefを生成し、比較器４５２は差動感知増幅器４５０の出力を基準信号Irefと比較する。実施形態において、基準信号Irefは、余弦類似度計算閾値に対応して調整可能である。

加えて、図３Ａまたは図３Ｂで説明した動作と同じ、第１のグローバルビット線GBL（N）は、正の読み出し電流Icellを収集し、第２のグローバルビット線GBLB（N）は、負の読み出し電流Icellを収集する。正の読み出し電流Icellの合計および負の読み出し電流Icellの合計は、差動感知増幅器４５０に送られ、正の読み出し電流Icellの合計と負の読み出し電流Icellの合計の差が出力される。

余弦類似度計算は次のように表される。
余弦類似度計算もベクトル行列乗算の応用である。ここで、p_iは、ワード線対４２０から入力された入力ベクトル（クエリ）、すなわち、入力信号（例えば、＋１、０、－１の三進信号）である。q_iは、メモリに記憶されたデータ、すなわち重みの情報である。

余弦類似度計算では、メモリセルは、図６Ｂに示されるような単一レベルの読み出し電流分布、好ましくは、２００nAの読み出し電流Icellによる分布を使用する。この分布では、標準偏差σは４％である。

さらに、このアーキテクチャの下では、５１２のワード線WLおよび１０２４の出力、すなわち１０２４の差動感知増幅器に対応することができる。さらに、スレッドは約１００nsであり、類似性検索の帯域幅は５１２×１０２４／１００ns、すなわち５TB／sである。これにより、大容量で高速な演算処理を実現することができる。

したがって、比較器４５２が感知増幅器４５０の出力を基準信号Irefと比較した後、入力信号がメモリに記憶されたデータと一致するか（合格）、または一致しないか（不合格）を検出することができる。したがって、インメモリコンピューティングを余弦類似度コンピューティングに適用すると、顔認識のために使用することができる。このアーキテクチャの下では、探索のために記憶装置内のデータを読み出す必要はなく、入力信号（例えば、確認する顔データ）を記憶装置内に入力するだけでIMSコンピューティングを行うことができる。その後、記憶装置は外部システムに検索を供給する。さらに、上述のような本発明による記憶装置は、十分に大きな容量および十分に速い実行速度を有し、システムリソースを占有することなく、検索を迅速に出力することができる。

本発明の一実施形態によれば、インメモリコンピューティングのための記憶装置の動作アーキテクチャは、３D AND型NORフラッシュメモリを使用して構築される。このように、本発明の実施形態では、メモリ内のデータは、別のALUによって計算される外部には読み取られなくてもよいので、システムデータを保存することができ、データ更新は、データを外部記憶装置に読み出すために必ずしも必要ではない。

さらに、本発明のアーキテクチャは、高容量、高速、および高効率のインメモリコンピューティングを達成することができる。従って、画像処理、顔認識、深いニューラルネットワーク等のようなビッグデータ又はAI用途において一般的に使用されているVMMコンピューティング、IMSコンピューティング等は、本発明のアーキテクチャを介して実施することが可能である。

１０積層構造
１２,１４導電柱
１６隔離構造
１８中空チャネル柱
２０ゲート層
１００,２００記憶装置
１１０,１１１積層
１５０検知増幅器比較器
２１１～２１８第１～第４のメモリセルセット
２２０入力ワード線対
２５０差動アナロ－グディジタル変換器
３００記憶装置
３０１a、３０１b、３０１c、３０１d メモリアレイ
３０２a、３０２b、３０２c、３０２d X デコーダ
３０３a、３０３b、３０３c、３０３d ＡＤ変換器
３５０固体駆動モジュール
３５２コントローラチップ
３５４一般行列乗算（GEMM）チップ
３５６インタフェース
４００記憶装置
４１１～４１４第１～第４のメモリセル
４２０入力ワード線対
４５０差動感知増幅器
４５２比較器
４５４基準電流発生器
４６０制御回路
BL１、BL８、BL９、BL１６ビット線
SL１、SL８、SL９、SL１６ソース線
LBL１、LBL８、LBL９、LBL１６ローカルビット線
LSL１、LSL８、LSL９、LSL１６ローカルソース線
CSL 共通ソース線
SLT１、SLT８、SLT９、SLT１６ソース線トランジスタ
BLT１、BLT８、BLT９、BLT１６ビット線トランジスタ
WL ワード線
input＿１第１の入力ワード線
input＿１B 第２の入力ワード線
C メモリセル
GBL（N）第１のグローバルビット線
GBLB（N）第２のグローバルビット線
Iref 基準電流

Claims

インメモリコンピューティングのための記憶装置であって、該記憶装置は、
複数の第１の一対のメモリセルと複数の第２の一対のメモリセルを備えるメモリアレイであって、前記複数の第１の一対のメモリセルの各々は第１のグローバルビット線に結合された第１のメモリセルセットと第２のグローバルビット線に結合された第２のメモリセルセットとを備え、複数の第２の一対のメモリセルの各々は前記第１のグローバルビット線に結合された第３のメモリセルセットと前記第２のグローバルビット線に結合された第４のメモリセルセットとを備える、メモリアレイと、
複数の入力ワード線対の各々は、第１の入力ワード線及び第２の入力ワード線を備え、前記第１の入力ワード線は、前記第１のメモリセルセット及び前記第２のメモリセルセットに結合され、前記第２の入力ワード線は、前記第３のメモリセルセット及び前記第４のメモリセルセットに結合されている、複数の入力ワード線対と、
前記第１のグローバルビット線及び前記第２のグローバルビット線に結合された信号処理回路と、を備える、記憶装置。
前記複数の入力ワード線対は、２進又は３進入力信号を供給する、請求項１に記載の記憶装置。
前記メモリアレイはインメモリコンピューティングのための重み情報を記憶し、第１のVMM重みが第１のメモリセルセットと第４のメモリセルセットに記憶され、第２のVMM重みが第２のメモリセルセットと第３のメモリセルセットに記憶される、請求項２に記載の記憶装置。
前記信号処理回路は差動アナログ－デジタル変換器であり、前記第１から前記第４のメモリセルセットはそれぞれ１つのメモリセルを備える、請求項１に記載の記憶装置。
前記信号処理回路は差動アナログ－デジタル変換器であり、前記第１から前記第４のメモリセルセットはそれぞれ２つのメモリセルを備え、前記記憶装置は、さらに、
前記第１のメモリセルセット、前記第３のメモリセルセット、及び前記第１のグローバルビット線に結合された２つの第１のドレイン側導電ストリングと、
前記第４のメモリセルセット、前記第２のメモリセルセット、及び前記第２のグローバルビット線に結合された２つの第２のドレイン側導電ストリングと、を備える、請求項１に記載の記憶装置。
前記２つの第１のドレイン側導電ストリングと前記第１のグローバルビット線との間に結合され、かつ、前記２つの第２のドレイン側導電ストリングと前記第２のグローバルビット線との間に結合される、複数のビット線トランジスタを、さらに備える、請求項５に記載の記憶装置。
前記第１のメモリセルセット及び前記第３のメモリセルセットにそれぞれ結合され、かつ、共通ソース線に結合された２つの第１のソース側導電ストリングと、
前記第２のメモリセルセット及び前記第４のメモリセルセットにそれぞれ結合され、かつ、前記共通ソース線に結合された２つの第２のソース側導電ストリングと、を、さらに備える、請求項５に記載の記憶装置。
前記メモリアレイに記憶される前記重み情報は、４レベルの重みを含む、請求項３に記載の記憶装置。
前記第１のグローバルビット線及び前記第２のグローバルビット線は、前記メモリアレイからのメモリセル電流を加算するように構成され、前記メモリアレイの１つのメモリセルに対する前記メモリセル電流は１００nAよりも大きく、１μAよりも小さい、請求項１に記載の記憶装置。
前記メモリアレイからのメモリセル電流を加算するために、前記第１グローバルビット線及び前記第２グローバルビット線に感知電圧が印加され、前記感知電圧は０．２Vよりも小さい、請求項１に記載の記憶装置。
前記複数の入力ワード線対の各々は、１ビットの入力信号を供給する、請求項１に記載の記憶装置。
前記メモリアレイが３D NORフラッシュメモリである、請求項１に記載の記憶装置。
２つの第１ドレイン側導電ストリング及び２つの第２ドレイン側導電ストリングはドープされたポリシリコンプラグである、請求項１に記載の記憶装置。
前記第１から前記第４のメモリセルセットはそれぞれ１つのメモリセルを備え、前記記憶装置はインメモリ検索を行うように構成され、
前記信号処理回路は差動感知増幅器であり、前記差動感知増幅器は前記第１のグローバルビット線及び前記第２のグローバルビット線に結合されている、請求項１に記載の記憶装置。
前記複数の入力ワード線対の各々は、２進又は３進入力信号を提供する、請求項１４に記載の記憶装置。
前記メモリアレイはインメモリ検索のための重み情報を記憶し、第１のIMS重みが第１のメモリセル及び第４のメモリセルに記憶され、第２のIMS重みが第２のメモリセル及び第３のメモリセルに記憶される、請求項１４に記載の記憶装置。
前記メモリアレイ及び前記複数の入力ワード線対に結合され、前記メモリアレイを制御して、余弦類似度計算を実行して、前記インメモリ検索を実行させる制御回路と、
前記差動感知増幅器及び基準信号発生器に結合された比較器と、を、さらに備え、前記基準信号発生器は基準信号を生成し、比較器は、差動感知増幅器の出力を前記基準信号と比較する、請求項１４に記載の記憶装置。
前記基準信号が、余弦類似度計算閾値に対応して調整可能である、請求項１７に記載の記憶装置。
コントローラチップと、
請求項１に記載のインメモリコンピューティングのための記憶装置であり、前記コントローラチップに結合される、メモリチップと、
前記コントローラチップと前記メモリチップに結合されるインタフェースと、を備える、固体駆動モジュール。
前記インタフェースがDDR４又はDDR５である、請求項１９に記載の固体の駆動モジュール。