JP7206531B2

JP7206531B2 - メモリデバイスおよびその動作方法

Info

Publication number: JP7206531B2
Application number: JP2022012871A
Authority: JP
Inventors: フハン－ウェン; リユン－チュン; リンボ－ロン; ワンフアイ－ム
Original assignee: 旺宏電子股▲ふん▼有限公司
Priority date: 2021-04-16
Filing date: 2022-01-31
Publication date: 2023-01-18
Anticipated expiration: 2042-01-31
Also published as: CN115220690A; US11656988B2; KR20220143562A; JP2022164559A; US20220334964A1; TWI788128B; TW202242873A

Description

本開示は、概してインメモリコンピューティングのメモリデバイスおよびその動作方法に関する。

最近、多くの分野の非常に効果的なソリューションとして、人工知能（「ＡＩ」）が台頭している。このＡＩにおける重要な問題とは、ＡＩが積和（ＭＡＣ）演算を行うために大量の入力データ（例えば、入力特徴マップ）および重みを取り込むということである。

しかしながら、現在のＡＩ構造は通常、ＩＯ（入力／出力）のボトルネックおよび非効率的なＭＡＣ演算フローに直面する。

高い精度を実現するためには、マルチビットの入力およびマルチビットの重みを有するＭＡＣ演算を行うことになるであろう。しかし、ＩＯのボトルネックは悪化し、効率は低くなる。

インメモリコンピューティング（「ＩＭＣ」）は、ＩＭＣがプロセス中心のアーキテクチャにおける算術論理演算装置（ＡＬＵ）の複雑さを低減し、メモリ内のＭＡＣ演算の大量並列処理を提供できるので、ＭＡＣ演算を加速させることができる。

ＩＭＣを実行する際に、演算速度が向上するならば、ＩＭＣ性能も向上することになる。

１つの実施形態によれば、メモリデバイスが提供され、本メモリデバイスは、入力データを格納する複数のページバッファと、これらのページバッファに結合された複数のメモリプレーンであって、メモリプレーンの受信済みアドレスに基づいて、複数の重みがメモリプレーンに格納され、メモリプレーンは複数の重みとページバッファに含まれる入力データとに対してビット乗算を並列に行い、複数のビット乗算結果を並列に生成し、ビット乗算結果はページバッファに戻されて格納される、複数のページバッファと、これらのページバッファに結合された少なくとも１つの累算回路であって、メモリプレーンのビット乗算結果に対してビット累算を並列にまたは順番に行って積和（ＭＡＣ）演算結果を生成するための少なくとも１つの累算回路とを含む。

別の実施形態によれば、メモリデバイスの動作方法が提供される。この動作方法は、入力データを複数のページバッファに格納する段階と、複数のメモリプレーンの受信済みアドレスに基づいて、複数のメモリプレーンに格納された複数の重みと、入力データとに対して、メモリプレーンがビット乗算を並列に行って複数のビット乗算結果を並列に生成する段階であって、複数のビット乗算結果はページバッファに戻されて格納される、生成する段階と、メモリプレーンの複数のビット乗算結果に対してビット累算を並列にまたは順番に行って積和（ＭＡＣ）演算結果を生成する段階とを含む。

本願の第１実施形態によるＩＭＣ（Ｉｎ－Ｍｅｍｏｒｙ－Ｃｏｍｐｕｔｉｎｇ：インメモリコンピューティング）メモリデバイスの機能ブロック図を示している。

本願の第１実施形態によるメモリプレーンおよび累算回路の機能ブロック図を示している。

本願の第１実施形態によるデータマッピングを示している。

本願の第１実施形態によるデータマッピングの可能な例を示している。本願の第１実施形態によるデータマッピングの可能な例を示している。本願の第１実施形態によるデータマッピングの可能な例を示している。

本願の第１実施形態による乗算演算の一例を示している。

本願の第１実施形態によるグルーピング演算（多数決演算）および計数を示している。本願の第１実施形態によるグルーピング演算（多数決演算）および計数を示している。

本願の第１実施形態によるＭＡＣ演算フローを示している。本願の第１実施形態によるＭＡＣ演算フローを示している。

本願の第２実施形態によるＩＭＣ（Ｉｎ－Ｍｅｍｏｒｙ－Ｃｏｍｐｕｔｉｎｇ：インメモリコンピューティング）メモリデバイスの機能ブロック図を示している。

本願の第２実施形態によるＭＡＣ演算フローを示している。本願の第２実施形態によるＭＡＣ演算フローを示している。

本願の第３実施形態によるメモリデバイスの動作方法に関するフローチャートを示している。

以下の詳細な説明では、説明を目的として、開示される実施形態の十分な理解を提供するために、多数の具体的な詳細が記載されている。しかしながら、こうした具体的な詳細がなくても、１つまたは複数の実施形態が実施され得ることは明らかであろう。他の例では、図面を簡略にするために、よく知られている構造およびデバイスが概略的に示されている。

本開示の専門用語は、本開示の技術分野における一般的定義に基づいている。本開示で１つまたはいくつかの用語が記載されるか説明される場合、その用語の定義は本開示の記載または説明に基づいている。開示される実施形態のそれぞれは、１つまたは複数の技術的特徴を持っている。実行可能な実装において、当業者であれば、本開示の任意の実施形態の一部または全部の技術的特徴を選択的に実装するか、あるいは本開示の実施形態の一部または全部の技術的特徴を選択的に組み合わせるであろう。

［第１実施形態］

図１は、本願の第１実施形態によるＩＭＣ（Ｉｎ－Ｍｅｍｏｒｙ－Ｃｏｍｐｕｔｉｎｇ：インメモリコンピューティング）メモリデバイス１００の機能ブロック図を示している。メモリデバイス１００は、複数のメモリプレーンと、複数のページバッファと、複数の変換部と、１つの累算検出回路１２０と、１つの出力ラッチ１３０と、１つの累算回路１４０とを含む。変換部は例えば、限定されないが、アナログデジタル変換器（ＡＤＣ）である。

簡略化するために、図１では、メモリデバイス１００は４つのメモリプレーンＭＰ０～ＭＰ３と、４つのページバッファＰＢ０～ＰＢ３と、４つの変換部ＡＤＣ０～ＡＤＣ３と、１つの累算検出回路１２０と、１つの出力ラッチ１３０と、１つの累算回路１４０とを含む。しかし、本願はこれによって限定されない。

ページバッファＰＢ０～ＰＢ３は、入力データＩＮを格納し、この入力データＩＮをメモリプレーンＭＰ０～ＭＰ３に送出してよい。メモリプレーンＭＰ０～ＭＰ３により生成された複数のビット乗算結果ＢＭ０～ＢＭ３が、ページバッファＰＢ０～ＰＢ３に戻されて格納される。さらに、出力ラッチ１３０は、ページバッファ選択信号ＰＢ＿ＳＥＬにより制御されて、対応するページバッファＰＢ０～ＰＢ３に格納された、累算回路１４０へのビット乗算結果ＢＭ０～ＢＭ３を選択する。

メモリプレーンＭＰ０～ＭＰ３は、ページバッファＰＢ０～ＰＢ３に結合される。メモリプレーンＭＰ０～ＭＰ３は、メモリプレーンＭＰ０～ＭＰ３に格納された重みに対して、ページバッファＰＢ０～ＰＢ３からの入力データＩＮとのビット乗算演算（例えば、ビットＡＮＤ演算）を並列に行い、ビット乗算結果ＢＭ０～ＢＭ３を並列に生成する。ビット乗算結果ＢＭ０～ＢＭ３は、ページバッファＰＢ０～ＰＢ３に戻されて格納される。さらに、メモリプレーンＭＰ０～ＭＰ３の１つまたは複数のメモリセルストリングを選択して、センシング動作を有効にする。メモリプレーンＭＰ０～ＭＰ３に格納された重みと、ページバッファＰＢ０～ＰＢ３からの入力データＩＮとがビット乗算されると、メモリプレーンＭＰ０～ＭＰ３の複数のメモリセルが複数のメモリセル電流ＩＭＣ０～ＩＭＣ３を生成し、これらのメモリセル電流ＩＭＣ０～ＩＭＣ３は通常、変換部ＡＤＣ０～ＡＤＣ３に入力される。

変換部ＡＤＣ０～ＡＤＣ３は、メモリプレーンＭＰ０～ＭＰ３に結合される。メモリプレーンＭＰ０～ＭＰ３のメモリセル電流ＩＭＣ０～ＩＭＣ３はそれぞれ、変換部ＡＤＣ０～ＡＤＣ３に入力される。変換部ＡＤＣ０～ＡＤＣ３は、メモリプレーンＭＰ０～ＭＰ３のメモリセル電流ＩＭＣ０～ＩＭＣ３を変換して、複数の変換結果ＡＭＡＣＯ０～ＡＭＡＣＯ３にする。

累算検出回路１２０は、変換部ＡＤＣ０～ＡＤＣ３に結合される。累算検出回路１２０は、変換部ＡＤＣ０～ＡＤＣ３の変換結果ＡＭＡＣＯ０～ＡＭＡＣＯ３をそれぞれ閾値と比較して、出力ラッチ１３０へのページバッファ選択信号ＰＢ＿ＳＥＬを生成し、且つ累算回路１４０への累算イネーブル信号ＡＣＣ＿ＥＮを生成する。変換結果ＡＭＡＣＯ０～ＡＭＡＣＯ３が閾値より高い場合、出力ラッチ１３０は、ページバッファ選択信号ＰＢ＿ＳＥＬに応答して、対応するページバッファＰＢ０～ＰＢ３に格納された、累算回路１４０への対応するビット乗算結果ＢＭ０～ＢＭ３を選択する。

変換結果ＡＭＡＣＯ０～ＡＭＡＣＯ３の中の少なくとも１つが閾値より高い場合、累算イネーブル信号ＡＣＣ＿ＥＮは有効状態になり、そうでなければ、この累算イネーブル信号ＡＣＣ＿ＥＮは無効状態になる。

出力ラッチ１３０は、累算検出回路１２０およびページバッファＰＢ０～ＰＢ３に結合される。出力ラッチ１３０は、ページバッファ選択信号ＰＢ＿ＳＥＬに応答して、対応するページバッファＰＢ０～ＰＢ３に格納された、累算回路１４０への対応するビット乗算結果ＢＭ０～ＢＭ３を選択する。例えば、限定されないが、変換部ＡＤＣ０およびＡＤＣ１からの変換結果ＡＭＡＣＯ０およびＡＭＡＣＯ１が閾値より高い場合、出力ラッチ１３０は、ページバッファ選択信号ＰＢ＿ＳＥＬに応答して、対応するページバッファＰＢ０～ＰＢ１に格納された、累算回路１４０への対応するビット乗算結果ＢＭ０～ＢＭ１を選択する。

累算回路１４０は、出力ラッチ１３０および累算検出回路１２０に結合される。累算回路１４０は、累算イネーブル信号ＡＣＣ＿ＥＮによって有効になると、出力ラッチ１３０からのビット乗算結果ＢＭ０～ＢＭ３に対してビット累算演算を行ってＭＡＣ演算結果ＯＵＴを生成する。この詳細については、後述する。

図２は、本願の第１実施形態によるメモリプレーンおよび累算回路の機能ブロック図を示している。図２のメモリプレーンＭＰは、図１のメモリプレーンＭＰ０～ＭＰ３を実装するのに用いられてよい。図２に示すように、メモリプレーンＭＰは、メモリブロック２１０と乗算回路２２０とを含む。累算回路１４０は、グルーピング回路２４０と計数部２５０とを含む。乗算回路２２０はアナログ方式であるが、累算回路１４０、グルーピング回路２４０、および計数部２５０はデジタル方式である。

メモリブロック２１０は、複数のメモリセル２１１を含む。本願の１つの実施形態において、メモリセル２１１は例えば、限定されないが、不揮発性メモリセルである。ＭＡＣ演算において、メモリセル２１１は重みを格納するのに用いられる。

乗算回路２２０は、メモリブロック２１０に結合される。乗算回路２２０は、複数の単ビット乗算部２２１を含む。これらの単ビット乗算部２２１のそれぞれは、入力ラッチ２２１Ａ、センスアンプ（ＳＡ）２２１Ｂ、出力ラッチ２２１Ｃ、および共通データラッチ（ＣＤＬ）２２１Ｄを含む。入力ラッチ２２１Ａは、メモリブロック２１０に結合される。センスアンプ２２１Ｂは、入力ラッチ２２１Ａに結合される。出力ラッチ２２１Ｃは、センスアンプ２２１Ｂに結合される。共通データラッチ２２１Ｄは、出力ラッチ２２１Ｃに結合される。乗算回路２２０からのビット乗算結果ＢＭは、ページバッファＰＢに戻されて格納される。

メモリセル２１１に格納された重みが論理レベル１であり、対応する入力データＩＮも論理レベル１である場合、メモリセル２１１はセル電流を生成する。メモリセル２１１からのセル電流が積算されて、メモリセル電流ＩＭＣになる。

本願の第１実施形態では、「デジタル累算」とは、累算回路１４０は有効であるが、変換部ＡＤＣ０～ＡＤＣ３は有効ではないことを指している。「ハイブリッド累算」とは、累算回路１４０および変換部ＡＤＣ０～ＡＤＣ３が有効であることを指している。すなわち、本願の第１実施形態において、変換部ＡＤＣ０～ＡＤＣ３は任意選択的に作動する。

本願の１つの実施形態では、変換部の作動は、無用なデータを迅速に選別してＭＡＣ演算速度を高めるのに用いられてよく、累算回路１４０は、未選別データを累算してＭＡＣ演算精度を高めることができる。ハイブリッド累算は、低解像度の量子化を用いることによる変動の影響を排除し、無用なデータの累算を防ぎ、解像度を維持することができる。

グルーピング回路２４０は、出力ラッチ１３０に結合される。グルーピング回路２４０は、複数のグルーピング部２４１を含む。グルーピング部２４１は、ビット乗算結果ＢＭ０～ＢＭ３に対してグルーピング演算を行って、複数のグルーピング結果を生成する。本願の１つの実行可能な実施形態において、このグルーピング方式は多数決方式（例えば、多数決関数方式）で実施されてよく、グルーピング回路２４０は、多数決関数方式に基づく多数決グルーピング回路により実装されてよく、グルーピング部２４１は、分散型多数決グルーピング部により実装されてよいが、これらによって、本願を限定することは意図されていない。グルーピング方式は、他の同様な方式で実施されてもよい。

計数部２５０は、グルーピング回路２４０に結合される。本願の１つの実施形態において、計数部２５０は、グルーピング回路２４０からのグルーピング結果（すなわち、多数決結果）に対してビット単位の計数またはビット単位の累算を行い、ＭＡＣ演算結果ＯＵＴを生成するためのものである。本願の１つの実施形態において、計数部２５０は、既知の計数回路（例えば、限定されないが、リップルカウンタ）によって実装される。本願において、用語「計数」および「累算」は置き換え可能であり、計数器および累算器は実質的に同じ意味である。

本願の第１実施形態では、図１および図２の回路構造により、各メモリプレーンからの電流は個々に量子化されてよい。さらに、累算回路１４０は複数のメモリプレーンにより共有されてよく、これにより、回路面積がさらに縮小され得る。

ここで、本願の１つの実施形態によるデータマッピングを示す図３を参照する。図３に示すように、それぞれの入力データおよびそれぞれの重みは、８ビット精度のＮ次元（Ｎは正の整数）であるが、本願はこれに限定されない。

入力データのデータマッピングが一例として説明されるが、本願はこれに限定されない。以下の説明は、重みのデータマッピングにも適している。

入力データ（または重み）が２進８ビット形式で表されている場合、入力データ（または重み）は最上位ビット（ＭＳＢ）ベクトルおよび最下位ビット（ＬＳＢ）ベクトルを含む。８ビットの入力データ（または重み）のＭＳＢベクトルはビットＢ７～Ｂ４を含み、８ビットの入力データ（または重み）のＬＳＢベクトルはビットＢ３～Ｂ０を含む。

入力データのＭＳＢベクトルおよびＬＳＢベクトルの各ビットは、単進符号（値形式）で表される。例えば、入力データのＭＳＢベクトルのビットＢ７はＢ７_０～Ｂ７_７として表されてよく、入力データのＭＳＢベクトルのビットＢ６はＢ６_０～Ｂ６_３として表されてよく、入力データのＭＳＢベクトルのビットＢ５はＢ５_０～Ｂ５_１として表されてよく、入力データのＭＳＢベクトルのビットＢ４はＢ４として表されてよい。

次に、単進符号（値形式）で表される入力データのＭＳＢベクトルの各ビットおよび入力データのＬＳＢベクトルの各ビットをそれぞれ複数回複製して、展開ドット積（ｕｎＦＤＰ）形式にする。例えば、入力データのＭＳＢベクトルのそれぞれは（２^４－１）回複製され、同様に、入力データのＬＳＢベクトルのそれぞれも（２^４－１）回複製される。そうすることで、入力データはｕｎＦＤＰ形式で表される。同様に、重みもｕｎＦＤＰ形式で表される。

入力データ（ｕｎＦＤＰ形式）および重み（ｕｎＦＤＰ形式）に対して乗算演算を行い、複数の乗算結果を生成する。

理解のために、データマッピングの１つの例が説明されるが、本願はこれに限定されない。

ここで、本願の第１実施形態による１次元のデータマッピングに関する１つの実行可能な例を示す図４Ａを参照する。図４Ａに示すように、入力データは（ＩＮ_１，ＩＮ_２）＝（２，１）であり、重みは（Ｗｅ_１，Ｗｅ_２）＝（１，２）である。入力データのＭＳＢおよびＬＳＢは２進形式で表されているので、ＩＮ_１＝１０であり、ＩＮ_２＝０１である。同様に、重みのＭＳＢおよびＬＳＢも２進形式で表されているので、Ｗｅ_１＝０１であり、Ｗｅ_２＝１０である。

次に、入力データのＭＳＢおよびＬＳＢ、並びに重みのＭＳＢおよびＬＳＢを符号化して、単進符号（値形式）にする。例えば、入力データのＭＳＢを符号化して「１１０」とし、入力データのＬＳＢを符号化して「００１」とする。同様に、重みのＭＳＢを符号化して「００１」とし、重みのＬＳＢを符号化して「１１０」とする。

次に、入力データのＭＳＢ（１１０、単進符号に符号化済み）の各ビットと入力データのＬＳＢ（００１、単進符号に符号化済み）の各ビットとを複数回複製して、ｕｎＦＤＰ形式で表す。例えば、入力データのＭＳＢ（１１０、値形式で表されている）の各ビットを３回複製する。こうして、入力データのＭＳＢのｕｎＦＤＰ形式は、１１１１１１０００となる。同様に、入力データのＬＳＢ（００１、値形式で表されている）の各ビットを３回複製する。こうして、入力データのＬＳＢのｕｎＦＤＰ形式は、００００００１１１となる。

入力データ（ｕｎＦＤＰ形式で表されている）および重みに対して乗算演算を行い、ＭＡＣ演算結果を生成する。ＭＡＣ演算結果は、１×０＝０、１×０＝０、１×１＝１、１×０＝０、１×０＝０、１×１＝１、０×０＝０、０×０＝０、０×１＝０、０×１＝０、０×１＝０、０×０＝０、０×１＝０、０×１＝０、０×０＝０、１×１＝１、１×１＝１、１×０＝０となる。これらの値が積算されて、０＋０＋１＋０＋０＋１＋０＋０＋０＋０＋０＋０＋０＋０＋０＋１＋１＋０＝４になる。

上記の説明から、入力データが「ｉ」ビットであり、重みが「ｊ」ビットである場合（「ｉ」および「ｊ」は両方とも正の整数）、ＭＡＣ（または乗算）演算に用いられるメモリセル総数は、（２^ｉ－１）×（２^ｊ－１）になる。

ここで、本願の第１実施形態によるデータマッピングに関する別の可能な例を示す図４Ｂを参照する。図４Ｂに示すように、入力データは（ＩＮ_１）＝（２）であり、重みは（Ｗｅ_１）＝（１）である。入力データおよび重みは４ビットである。

入力データは２進形式で表されているので、ＩＮ_１＝００１０である。同様に、重みも２進形式で表されているので、Ｗｅ_１＝０００１である。

入力データおよび重みを符号化して、単進符号（値形式）にする。例えば、入力データの最高位ビット「０」を符号化して「００００００００」とし、入力データの最低位ビット「０」を符号化して「０」とするといった具合である。同様に、重みの最高位ビット「０」を符号化して「００００００００」とし、重みの最低位ビット「１」を符号化して「１」とする。

次に、入力データ（単進符号に符号化済み）の各ビットを、ｕｎＦＤＰ形式で表されるように複数回複製する。例えば、入力データ（単進符号に符号化済み）の最高位ビット４０１Ａを１５回複製してビット４０３Ａとし、入力データ（単進符号に符号化済み）の最低位ビット４０１Ｂを１５回複製してビット４０３Ｂとする。

重み４０２（単進符号に符号化済み）を１５回複製して、ｕｎＦＤＰ形式で表す。

入力データ（ｕｎＦＤＰ形式で表されている）および重み（ｕｎＦＤＰ形式で表されている）に対して乗算演算を行い、ＭＡＣ演算結果を生成する。詳しくは、入力データのビット４０３Ａを重み４０２と掛け合わせる、入力データのビット４０３Ｂを重み４０２と掛け合わせるといった具合である。これらの乗算値を加算することで、ＭＡＣ演算結果（「２」）が生成される。

ここで、本願の第１実施形態によるデータマッピングに関する別の可能な例を示す図４Ｃを参照する。図４Ｃに示すように、入力データは（ＩＮ_１）＝（１）であり、重みは（Ｗｅ_１）＝（５）である。入力データおよび重みは４ビットである。

入力データは２進形式で表されているので、ＩＮ_１＝０００１である。同様に、重みも２進形式で表されているので、Ｗｅ_１＝０１０１である。

次に、入力データおよび重みを符号化して、単進符号（値形式）にする。

次に、入力データ（単進符号に符号化済み）の各ビットを、ｕｎＦＤＰ形式で表されるように複数回複製する。図４Ｃでは、入力データの各ビットおよび重みの各ビットを複製するときに、ビット「０」を追加する。例えば、入力データ（単進符号に符号化済み）の最高位ビット４１１Ａを１５回複製し、ビット「０」を追加して、ビット４１３Ａを形成する。また、入力データ（単進符号に符号化済み）の最低位ビット４１１Ｂを１５回複製し、ビット「０」を追加して、ビット４１３Ｂを形成する。そうすることで、入力はｕｎＦＤＰ形式で表される。

同様に、重み４１２（単進符号に符号化済み）を１５回複製し、さらにビット「０」を重み４１４のそれぞれに追加する。そうすることで、重みはｕｎＦＤＰ形式で表される。

入力データ（ｕｎＦＤＰ形式で表されている）および重み（ｕｎＦＤＰ形式で表されている）に対して乗算演算を行い、ＭＡＣ演算結果を生成する。詳しくは、入力データのビット４１３Ａを重み４１４と掛け合わせる、入力データのビット４１３Ｂを重み４１４と掛け合わせるといった具合である。これらの乗算値を加算することで、ＭＡＣ演算結果（「５」）が生成される。

従来技術では、８ビットの入力データおよび８ビットの重みに対するＭＡＣ演算において、直接ＭＡＣ演算を用いる場合、この直接ＭＡＣ演算に用いられるメモリセル総数は、２５５×２５５×５１２＝３３，２９２，８２２になる。

これに対して、本願の１つの実施形態では、８ビットの入力データおよび８ビットの重みに対するＭＡＣ演算において、直接ＭＡＣ演算に用いられるメモリセル総数は１５×１５×５１２×２＝１１５，２００×２＝２３０，４００になる。したがって、本願の１つの実施形態によるＭＡＣ演算に用いられるメモリセル数は、従来技術で用いられるメモリセル数の約０．７％である。

本願の１つの実施形態では、ｕｎＦＤＰベースのデータマッピングを用いることで、ＭＡＣ演算に用いられるメモリセル数が削減されるので、演算コストも削減される。さらに、ＥＣＣ（エラー訂正符号）コストも削減され、フェイルビット効果の許容誤差が改善される。

あらためて、図１および図２を参照する。本願の１つの実施形態では、乗算演算において、重み（相互コンダクタンス）はメモリブロック２１０のメモリセル２１１に格納され、入力データ（電圧）はページバッファによって格納され、読み出されて共通データラッチ２２１Ｄに送信される。共通データラッチ２２１Ｄは、入力データを入力ラッチ２２１Ａに出力する。

本願の１つの実施形態の乗算演算を説明するために、ここで、本願の１つの実施形態の乗算演算に関する１つの例を示す図５を参照する。図５は、選択されたビット線の読み出し機能をメモリデバイスがサポートする場合に用いられる。図５において、入力ラッチ２２１Ａは、ラッチ５０５とビット線スイッチ５１０とを含む。

図５に示すように、重みは図３に示すような単進符号（値形式）で表される。こうして、重みの最高位ビットが８つのメモリセル２１１に格納され、重みの２番目の最高位ビットが４つのメモリセル２１１に格納され、重みの３番目の最高位ビットが２つのメモリセル２１１に格納され、重みの最低位ビットが１つのメモリセル２１１に格納される。

同様に、入力データも（図３に示すような）単進符号（値形式）で表される。こうして、入力データの最高位ビットが８つの共通データラッチ２２１Ｄに格納され、入力データの２番目の最高位ビットが４つの共通データラッチ２２１Ｄに格納され、入力データの３番目の最高位ビットが２つの共通データラッチ２２１Ｄに格納され、入力データの最低位ビットが１つの共通データラッチ１２１Ｄに格納される。入力データは、共通データラッチ２２１Ｄからラッチ５０５に送出される。

図５では、複数のビット線スイッチ５１０が、メモリセル２１１とセンスアンプ２２１Ｂとの間に結合される。ビット線スイッチ５１０は、ラッチ５０５の出力によって制御される。例えば、ラッチ５０５がビット「１」を出力すると、ビット線スイッチ５１０は導通し、ラッチ５０５がビット「０」を出力すると、ビット線スイッチ５１０は切断される。

さらに、メモリセル２１１に格納された重みがビット１であり、且つビット線スイッチ５１０が導通している（すなわち、入力データがビット１である）場合、ＳＡ２２１Ｂはメモリセル電流を検知して乗算結果「１」を生成する。メモリセル２１１に格納された重みがビット０であり、且つビット線スイッチ５１０が導通している（すなわち、入力データがビット１である）場合、ＳＡ２２１Ｂはメモリセル電流を検知しない。メモリセル２１１に格納された重みがビット１であり、且つビット線スイッチ５１０が切断されている（すなわち、入力データがビット０である）場合、ＳＡ２２１Ｂはメモリセル電流を検知しない（その結果、乗算結果「０」を生成する）。メモリセル２１１に格納された重みがビット０であり、且つビット線スイッチ５１０が切断されている（すなわち、入力データがビット０である）場合、ＳＡ２２１Ｂはメモリセル電流を検知しない。

すなわち、図５に示すレイアウトによって、入力データがビット１であり且つ重みがビット１である場合、ＳＡ２２１Ｂはメモリセル電流を検知する（その結果、乗算結果「１」を生成する）。他の状況では、ＳＡ２２１Ｂはメモリセル電流を検知しない（その結果、乗算結果「０」を生成する）。ＳＡ２２１Ｂの乗算結果は、出力ラッチ２２１Ｃに送出される。出力ラッチ２２１Ｃの出力（ビット乗算結果ＢＭを形成する）は、共通データラッチ２２１Ｄを介してページバッファＰＢに戻されて格納される。

メモリセル２１１からのメモリセル電流ＩＭＣは、積算されて変換部ＡＤＣ０～ＡＤＣ３のうちの１つに入力される。

入力データと、重みと、デジタル乗算結果と、アナログメモリセル電流ＩＭＣとの間の関係は、以下の表の通りである。

上記の表では、ＨＶＴおよびＬＶＴはそれぞれ、高閾値メモリセルおよび低閾値メモリセルを指しており、ＩＨＶＴおよびＩＬＶＴは、入力データが論理レベル１の場合に、高閾値メモリセル（重みは０（ＨＶＴ））および低閾値メモリセル（重みは＋１（ＬＶＴ））により生成されるそれぞれのアナログメモリセル電流ＩＭＣを指している。

本願の１つの実施形態では、乗算演算において、選択ビット線読み出し（ＳＢＬ－ｒｅａｄ）コマンドは、単ビット表現による変動の影響を低減するのに再利用されてよい。

ここで、本願の１つの実施形態によるグルーピング演算（多数決演算）およびビット単位の計数を示す図６Ａを参照する。図６Ａに示すように、「ＧＭ１」は入力データの１番目のＭＳＢベクトルに重みをビット単位で掛け合わせて得られた第１の乗算結果を指し、「ＧＭ２」は入力データの２番目のＭＳＢベクトルに重みをビット単位で掛け合わせて得られた第２の乗算結果を指し、「ＧＭ３」は入力データの３番目のＭＳＢベクトルに重みをビット単位で掛け合わせて得られた第３の乗算結果を指し、「ＧＬ」は入力データのＬＳＢベクトルに重みをビット単位で掛け合わせて得られた第４の乗算結果を指す。グルーピング演算（多数決演算）の後に、第１の乗算結果「ＧＭ１」に対して行われたグルーピング結果が第１のグルーピング結果ＣＢ１（その累算重みは２^２）であり、第２の乗算結果「ＧＭ２」に対して行われたグルーピング結果が第２のグルーピング結果ＣＢ２（その累算重みは２^２）であり、第３の乗算結果「ＧＭ３」に対して行われたグルーピング結果が第３のグルーピング結果ＣＢ３（その累算重みは２^２）であり、第４の乗算結果「ＧＬ」に対する直接計数結果が第４のグルーピング結果ＣＢ４（その累算重みは２^０）である。

図６Ｂは、図４Ｃの１つの累算例を示している。図４Ｃおよび図６Ｂを参照されたい。図６Ｂに示すように、入力データ（図４Ｃ）のビット４１３Ｂを重み４１４と掛け合わせる。入力データ（図４Ｃ）のビット４１３Ｂを重み４１４と掛け合わせて生成された乗算結果の最初の４つのビット（「００００」）が、第１の乗算結果「ＧＭ１」としてグルーピングされる。同様に、入力データ（図４Ｃ）のビット４１３Ｂを重み４１４と掛け合わせて生成された乗算結果の５番目～８番目のビット（「００００」）が、第２の乗算結果「ＧＭ２」としてグルーピングされる。入力データ（図４Ｃ）のビット４１３Ｂを重み４１４と掛け合わせて生成された乗算結果の９番目～１２番目のビット（「１１１１」）が、第３の乗算結果「ＧＭ３としてグルーピングされる。入力データ（図４Ｃ）のビット４１３Ｂを重み４１４と掛け合わせて生成された乗算結果の１３番目～１６番目のビット（「００１０」）が、直接的にカウントされる。

グルーピング演算（多数決演算）の後に、第１のグルーピング結果ＣＢ１は「０」（その累算重みは２^２）であり、第２のグルーピング結果ＣＢ２は「０」（その累算重みは２^２）であり、第３のグルーピング結果ＣＢ３は「１」（その累算重みは２^２）である。計数の際に、それぞれのグルーピング結果ＣＢ１～ＣＢ４をそれぞれの累算重みと掛け合わせて累算することにより、ＭＡＣ結果が生成される。例えば、図６Ｂに示すように、ＭＡＣ演算結果ＯＵＴは、ＣＢ１×２^２＋ＣＢ２×２^２＋ＣＢ３×２^２＋ＣＢ４×２^０＝０×２^２＋０×２^２＋１×２^２＋１×２^０＝０００００００００００００００００００００００００００００１０１＝５である。

本願の１つの実施形態において、グルーピング規則（例えば、多数決規則）は以下の通りである。

上記の表において、ケースＡでは、このグループが正しいビットを有する（「１１１１」はエラービットがないことを意味する）ため、多数決結果は１である。同様に、上記の表において、ケースＥでは、このグループが正しいビットを有する（「００００」）はエラービットがないことを意味する）ため、多数決結果は０である。

ケースＢでは、このグループがエラービットを１つ有する（「１１１０」の中でビット「０」はエラーである）ため、多数決関数によって、グループ「１１１０」は「１」と判定される。ケースＤでは、このグループがエラービットを１つ有する（「０００１」の中でビット「１」はエラーである）ため、多数決関数によって、グループ「０００１」は「０」と判定される。

ケースＣでは、このグループがエラービットを２つ有する（「１１００」の中でビット「００」または「１１」はエラーである）ため、多数決関数によって、グループ「１１００」は「１」または「０」と判定される。

こうして、本願の１つの実施形態では、グルーピング（多数決）関数によってエラービットが減少する。

グルーピング回路２４０からの多数決結果は、ビット単位の計数のために計数部２５０に入力される。

計数の際に、ＭＳＢベクトルの乗算結果についての計数結果と、ＬＳＢベクトルの乗算結果についての計数結果とが、加算されるか、または累算される。図６Ａに示すように、２つの累算器が用いられる。第１累算器には、大きい累算重み（例えば２^２）が割り当てられる。第１累算器は、（１）乗算結果ＧＭ１に対してグルーピング演算（多数決演算）を行ったことによるグルーピング結果（多数決結果）（１つのビットを有する）と、（２）乗算結果ＧＭ２に対してグルーピング演算（多数決演算）を行ったことによるグルーピング結果（多数決結果）（１つのビットを有する）と、（３）乗算結果ＧＭ３に対してグルーピング演算（多数決演算）を行ったことによるグルーピング結果（多数決結果）（１つのビットを有する）とを累算している。第１累算器による累算結果には、大きい累算重み（例えば、２^２）が割り当てられる。第２累算器には、小さい累算重み（例えば、２^０）が割り当てられる。第２累算器は、乗算結果ＧＬ（複数のビットを有する）を直接的に累算する。この２つの累算器による２つの累算結果を加算して、ＭＡＣ演算結果ＯＵＴを出力する。例えば、限定されないが、（１）乗算結果ＧＭ１に対してグルーピング（多数決）演算を行ったことによるグルーピング結果（多数決結果）（１つのビットを有する）が「１」（１つのビット）である、（２）乗算結果ＧＭ２に対してグルーピング（多数決）演算を行ったことによるグルーピング結果（多数決結果）（１つのビットを有する）が「０」（１つのビット）である、（３）乗算結果ＧＭ３に対してグルーピング（多数決）演算を行ったことによるグルーピング結果（多数決結果）（１つのビットを有する）が「１」（１つのビット）である。重み付け後の第１累算器による累算結果は、２（＝１＋０＋１）×２^２＝８である。乗算結果ＧＬは４（３つのビットを有する）である。ＭＡＣ演算結果ＯＵＴは、８＋４＝１２である。

上記のことから、本願の１つの実施形態では、計数または累算において、入力データはｕｎＦＤＰ形式であり、ＣＤＬに格納されたデータはＭＳＢベクトルおよびＬＳＢベクトルにグルーピングされる。グルーピング（多数決）関数によって、ＭＳＢベクトルおよびＬＳＢベクトルに含まれるエラービットは減少する。

さらに、本願の１つの実施形態では、従来型の累算器（従来型の計数器）を用いても、計数および累算の時間コストが同様に削減される。これは、本願の１つの実施形態にはデジタル計数コマンド（エラービットの計数）が適用され、異なるベクトル（ＭＳＢベクトルおよびＬＳＢベクトル）が異なる累算重みによって割り当てられるためである。１つの実行可能な例において、累算演算の時間コストは約４０％に削減される。

図７Ａおよび図７Ｂは、本願の１つの実施形態におけるＭＡＣ演算フローを示している。図７Ａは、変換部ＡＤＣ０～ＡＤＣ３が作動する場合のＭＡＣ演算フローを示しており、このＭＡＣ演算フローはハイブリッド型ＭＡＣ演算フローとも呼ばれることがある。図７Ｂは、変換部ＡＤＣ０～ＡＤＣ３が作動しない場合のＭＡＣ演算フローを示しており、このＭＡＣ演算フローはデジタルＭＡＣ演算フローとも呼ばれることがある。変換部ＡＤＣ０～ＡＤＣ３が作動しない場合、出力ラッチ１３０はビット乗算結果ＢＭ０～ＢＭ３をビット累算のために累算回路１４０に出力する（すなわち、出力ラッチ１３０はページバッファ選択信号ＰＢ＿ＳＥＬによって制御されることはなく、累算回路１４０も累算イネーブル信号ＡＣＣ＿ＥＮによって制御されることはない。

図７Ａにおいて、期間Ｔ１１では、入力がブロードキャストされる（すなわち、入力データが受信される）。期間Ｔ１２では、メモリプレーンの複数のアドレスが受信される。メモリプレーンは、異なるアドレスに基づいて演算を行う。しかしながら、本願の１つの実施形態は、いくつかのメモリプレーンが同じアドレスを用いるという状況を防ぐので、メモリプレーンは異なるアドレスを用いる。期間Ｔ１３では、メモリプレーンの受信済みアドレスに基づいて、ビット乗算が行われる。期間Ｔ１４では、ビット乗算結果が出力される（例えば、メモリプレーンから累算回路に出力される）。期間Ｔ１５では、ビット累算が行われる。異なるメモリプレーンでのビット累算が順番に実行される。例えば、図７Ａに示すように、変換結果ＡＭＡＣＯ０およびＡＭＡＣＯ２は閾値より高く、メモリプレーンＭＰ０およびＭＰ２でのビット累算が順番に実行されるのに対して、メモリプレーンＭＰ１およびＭＰ３でのビット累算は実行されない。当然ながら、ビット累算の順序は、図７Ａによって限定されるものではない。図７Ａでは、メモリプレーンＭＰ２でのビット累算が最初に実行され、それからメモリプレーンＭＰでのビット累算が後で実行される。こうしたことも本願の趣旨および範囲に含まれる。期間Ｔ１６では、ＭＡＣ演算結果が出力され、メモリプレーンの次のアドレスも出力される。

図７Ｂでは、期間Ｔ２１～Ｔ２４およびＴ２６が期間Ｔ１１～Ｔ１４およびＴ１６と同じであるか、または類似している。期間Ｔ２５（ビット累算）では、変換部ＡＤＣ０～ＡＤＣ３が作動しないため、ビット累算において、全メモリプレーンでのビット累算が順番に実行される。例えば、図７Ｂに示すように、メモリプレーンＭＰ０、ＭＰ１、ＭＰ２、およびＭＰ３でのビット累算が順番に実行される。当然ながら、ビット累算の順序は図７Ｂによって限定されるものではなく、ビット累算の他の実行順序も可能であり、こうしたことも本願の趣旨および範囲に含まれる。

図７Ａおよび図７Ｂに示すように、本願の第１実施形態では、異なるメモリプレーンでのビット乗算演算が並列に行われるのに対して、異なるメモリプレーンでのビット累算演算が順番に行われる。こうして、本願の第１実施形態では、スケジューリングが集中制御されるので、回路面積および消費電力が削減される。

図７Ａおよび図７Ｂから、本願のこの実施形態におけるＭＡＣ演算には２種類の副演算がある。１つ目の副演算は、入力データを重みと掛け合わせる乗算であり、これは選択ビット線読み出しコマンドに基づいている。２つ目の副演算は、累算（データ計数）、特にフェイルビット計数である。本願の他の実行可能な実施形態では、より多くの計数部を用いて計数または累算演算を加速させてもよい。

［第２実施形態］

図８は、本願の第２実施形態によるＩＭＣ（Ｉｎ－Ｍｅｍｏｒｙ－Ｃｏｍｐｕｔｉｎｇ：インメモリコンピューティング）メモリデバイス８００の機能ブロック図を示している。メモリデバイス８００は、複数のメモリプレーンと、複数のページバッファと、複数の変換部と、複数の累算検出回路と、１つの出力ラッチ８３０と、複数の累算回路とを含む。変換部は例えば、限定されないが、アナログデジタル変換器（ＡＤＣ）である。

簡略化するために、図８では、メモリデバイス８００は４つのメモリプレーンＭＰ０～ＭＰ３と、４つのページバッファＰＢ０～ＰＢ３と、４つの変換部ＡＤＣ０～ＡＤＣ３と、４つの累算検出回路８２０－０～８２０－３と、１つの出力ラッチ８３０と、４つの累算回路８４０－０～８４０－３とを含む。しかし、本願はこれによって限定されない。

ページバッファＰＢ０～ＰＢ３は、入力データＩＮを格納し、この入力データＩＮをメモリプレーンＭＰ０～ＭＰ３に送出してよい。メモリプレーンＭＰ０～ＭＰ３により生成された複数のビット乗算結果ＢＭ０～ＢＭ３が、ページバッファＰＢ０～ＰＢ３に戻って、累算回路８４０－０～８４０－３に送出するために格納される。

メモリプレーンＭＰ０～ＭＰ３は、ページバッファＰＢ０～ＰＢ３に結合される。メモリプレーンＭＰ０～ＭＰ３は、メモリプレーンＭＰ０～ＭＰ３に格納された重みに対してページバッファＰＢ０～ＰＢ３からの入力データＩＮとのビット乗算演算（例えば、ビットＡＮＤ演算）を並列に行い、ビット乗算結果ＢＭ０～ＢＭ３を並列に生成する。ビット乗算結果ＢＭ０～ＢＭ３は、ページバッファＰＢ０～ＰＢ３に戻されて格納される。さらに、メモリプレーンＭＰ０～ＭＰ３の１つまたは複数のメモリセルストリングを選択して、センシング動作を有効にする。メモリプレーンＭＰ０～ＭＰ３に格納された重みと、ページバッファＰＢ０～ＰＢ３からの入力データＩＮとがビット乗算されると、メモリプレーンＭＰ０～ＭＰ３の複数のメモリセルが複数のメモリセル電流ＩＭＣ０～ＩＭＣ３を生成し、これらのメモリセル電流ＩＭＣ０～ＩＭＣ３は通常、変換部ＡＤＣ０～ＡＤＣ３に入力される。

累算検出回路８２０－０～８２０－３は、変換部ＡＤＣ０～ＡＤＣ３に結合される。累算検出回路８２０－０～８２０－３は、変換部ＡＤＣ０～ＡＤＣ３の変換結果ＡＭＡＣＯ０～ＡＭＡＣＯ３と閾値とを比較して、累算回路８４０－０～８４０－３への複数の累算イネーブル信号ＡＣＣ＿ＥＮ０～ＡＣＣ＿ＥＮ３を生成する。変換結果ＡＭＡＣＯ０～ＡＭＡＣＯ３が閾値より高い場合、対応する累算イネーブル信号ＡＣＣ＿ＥＮ０～ＡＣＣ＿ＥＮ３は有効状態になり、そうでなければ、これらの累算イネーブル信号ＡＣＣ＿ＥＮ０～ＡＣＣ＿ＥＮ３は無効状態になる。

累算回路８４０－０～８４０－３は、累算検出回路８２０－０～８２０－３に結合される。累算回路８４０－０～８４０－３は、累算イネーブル信号ＡＣＣ＿ＥＮ０～ＡＣＣ＿ＥＮ３によって有効になると、メモリプレーンＭＰ０～ＭＰ３からのビット乗算結果ＢＭ０～ＢＭ３に対してビット累算演算を行って、複数のデジタル累算結果ＤＭＡＣＯ０～ＤＭＡＣＯ３を生成する。

出力ラッチ８３０は、累算回路８４０－０～８４０－３に結合される。出力ラッチ８３０は、累算回路８４０－０～８４０－３からのデジタル累算結果ＤＭＡＣＯ０～ＤＭＡＣＯ３をＭＡＣ演算結果ＯＵＴに出力する。

累算回路８４０－０～８４０－３は、図２の累算回路１４０と同じまたは類似した回路構造および演算を有してよいので、詳細については省略する。同様に、図２のメモリプレーンＭＰは、図８のメモリプレーンＭＰ０～ＭＰ３を実装するのに用いられてよい。

本願の第２実施形態において、各メモリプレーンのセル電流は個々に量子化される。

第２実施形態のデータマッピングは、第１実施形態のデータマッピングと同じでも、類似していてもよいので、詳細については省略する。

図９Ａおよび図９Ｂは、本願の第２実施形態におけるＭＡＣ演算フローを示している。図９Ａは、変換部ＡＤＣ０～ＡＤＣ３が作動する場合のＭＡＣ演算フローを示しており、このＭＡＣ演算フローはハイブリッド型ＭＡＣ演算フローとも呼ばれることがある。図９Ｂは、変換部ＡＤＣ０～ＡＤＣ３が作動しない場合のＭＡＣ演算フローを示しており、このＭＡＣ演算フローはデジタルＭＡＣ演算フローとも呼ばれることがある。変換部ＡＤＣ０～ＡＤＣ３が作動しない場合、累算回路８４０－０～８４０－３は、ビット乗算結果ＢＭ０～ＢＭ３に対してビット累算を行う（すなわち、累算回路８４０－０～８４０－３は累算イネーブル信号ＡＣＣ＿ＥＮ０～ＡＣＣ＿ＥＮ３によって制御されない）。

図９Ａでは、期間Ｔ３１～Ｔ３４およびＴ３６が期間Ｔ１１～Ｔ１４およびＴ１６と同じであるか、または類似している。期間Ｔ３５では、ビット累算が行われる。ビット累算では、異なるメモリプレーンでのビット累算が並列に実行される。例えば、図９Ａに示すように、変換結果ＡＭＡＣＯ０およびＡＭＡＣＯ２は閾値より高く、メモリプレーンＭＰ０およびＭＰ２でのビット累算が並列に実行されるのに対して、メモリプレーンＭＰ１およびＭＰ３でのビット累算は実行されない。

図９Ｂでは、期間Ｔ４１～Ｔ４４およびＴ４６が期間Ｔ１１～Ｔ１４およびＴ１６と同じであるか、または類似している。期間Ｔ４５では、変換部ＡＤＣ０～ＡＤＣ３が作動しないため、ビット累算において、全メモリプレーンでのビット累算が並列に実行される。

図９Ａおよび図９Ｂに示すように、本願の第２実施形態では、異なるメモリプレーンでのビット乗算演算が並列に行われるのに対して、異なるメモリプレーンでのビット累算演算が並列に行われる。こうして、本願の第２実施形態では、スケジューリングが分散制御されることにより、ＭＡＣ演算が高速化される。

図３、図４Ａ～図４Ｃ、図５、および図６Ａ～図６Ｂも、本願の第２実施形態に適用可能である。

［第３実施形態］

図１０は、本願の第３実施形態によるメモリデバイスの動作方法を示している。本願の第３実施形態によるメモリデバイスの動作方法は、入力データを複数のページバッファに格納する段階（１０１０）と、複数のメモリプレーンの受信済みアドレスに基づいて、複数のメモリプレーンに格納された複数の重みと、入力データとに対して、メモリプレーンがビット乗算を並列に行って複数のビット乗算結果を並列に生成する段階であって、複数のビット乗算結果はページバッファに戻されて格納される、生成する段階（１０２０）と、メモリプレーンの複数のビット乗算結果に対してビット累算を並列にまたは順番に行って積和（ＭＡＣ）演算結果を生成する段階であって、ＭＡＣ演算結果が出力され、メモリプレーンの次のアドレスも出力される、生成する段階（１０３０）とを含む。段階１０１０～１０３０の詳細については、上述した通りなので省略する。

読み出し電圧は、ＡＤＣからの出力値とビット１の読み出しとに影響を与えることがある。本願の第１実施形態～第３実施形態では、動作条件（例えば、限定されないが、プログラミングサイクル、温度、または読み出しディスターブ）に基づいて、読み出し電圧が周期的に較正され、高い精度と高い信頼性とを保つことができる。

本願の第１実施形態～第３実施形態は、ＮＡＮＤ型フラッシュメモリ、または記憶保持や熱変動に敏感なメモリデバイス、例えば、限定されないが、ＮＯＲ型フラッシュメモリ、相変化メモリ、磁気ＲＡＭ、または抵抗変化型ＲＡＭに適用される。

本願の第１実施形態～第３実施形態は、３Ｄ構造のメモリデバイスおよび２Ｄ構造のメモリデバイス、例えば、限定されないが、２Ｄ／３ＤのＮＡＮＤ型フラッシュメモリ、２Ｄ／３ＤのＮＯＲ型フラッシュメモリ、２Ｄ／３Ｄの相変化メモリ、２Ｄ／３Ｄの磁気ＲＡＭ、または２Ｄ／３Ｄの抵抗変化型ＲＡＭに適用される。

本願の第１実施形態～第３実施形態では、入力データおよび／または重みがＭＳＢベクトルおよびＬＳＢベクトル（すなわち、２つのベクトル）に分割されるが、本願はこれによって限定されることはない。本願の他の実行可能な実施形態では、入力データおよび／または重みがより多くのベクトルに分割されるが、それでも本願の趣旨および範囲に含まれる。

本願の第１実施形態～第３実施形態は、多数決グルーピング方式に適用されるだけでなく、累算を加速させる他のグルーピング方式にも適用される。

本願の第１実施形態～第３実施形態はＡＩ方式であり、例えば、限定されないが顔識別である。

本願の第１実施形態～第３実施形態では、変換部は電流モードＡＤＣ、電圧モードＡＤＣ、またはハイブリッドモードＡＤＣによって実装されてよい。

本願の第１実施形態～第３実施形態は、シリアルＭＡＣ演算またはパラレルＭＡＣ演算に適用されてよい。

本願の第１実施形態～第３実施形態は、不揮発性メモリまたは揮発性メモリに適用されてよい。

開示された実施形態に対して様々な修正および変形を施せることが、当業者には明らかであろう。本明細書および実施例は例示的であるとしかみなされず、本開示の真の範囲は以下の特許請求の範囲およびその均等物によって示されることが意図されている。

Claims

入力データを格納する複数のページバッファと、
前記複数のページバッファに結合された複数のメモリプレーンであって、複数の重みが前記複数のメモリプレーンに格納され、前記複数のメモリプレーンの受信済みアドレスに基づいて、前記複数のメモリプレーンが前記複数の重みと前記複数のページバッファに含まれる前記入力データとに対してビット乗算を並列に行い、複数のビット乗算結果を並列に生成し、前記複数のビット乗算結果が前記複数のページバッファに戻されて格納される、複数のメモリプレーンと、
前記複数のページバッファに結合された少なくとも１つの累算回路であって、前記複数のメモリプレーンの前記複数のビット乗算結果に対してビット累算を並列にまたは順番に行って積和（ＭＡＣ）演算結果を生成するための少なくとも１つの累算回路と
を備えるメモリデバイス。
前記メモリデバイスがさらに、
前記複数のメモリプレーンに結合された複数の変換部であって、前記複数のメモリプレーンからの複数のメモリセル電流を変換して複数の変換結果にするための複数の変換部と、
前記複数の変換部に結合された累算検出回路であって、前記複数の変換部の前記複数の変換結果と閾値とをそれぞれ比較してページバッファ選択信号を生成し且つ累算イネーブル信号を生成するための累算検出回路と、
前記累算検出回路に結合された出力ラッチであって、前記ページバッファ選択信号に応答して、前記出力ラッチが、対応する前記複数のページバッファに格納された、前記少なくとも１つの累算回路への対応する前記複数のビット乗算結果を選択する、出力ラッチと
を備え、
前記累算イネーブル信号に応答して、前記少なくとも１つの累算回路が、前記出力ラッチからの前記複数のビット乗算結果に対してビット累算演算を順番に行って前記ＭＡＣ演算結果を生成する、請求項１に記載のメモリデバイス。
前記複数の変換部が作動する場合、前記メモリデバイスがハイブリッドＭＡＣ演算を行い、前記少なくとも１つの累算回路が前記複数の変換結果の中の少なくとも１つの対象変換結果に対してビット累算を順番に行い、前記少なくとも１つの対象変換結果が前記閾値より高く、
前記複数の変換部が作動しない場合、前記メモリデバイスがデジタルＭＡＣ演算を行い、前記複数の変換結果が前記閾値より高いか高くないかに関係なく、前記少なくとも１つの累算回路が前記複数の変換結果の全てに対してビット累算を順番に行い、
前記少なくとも１つの累算回路が、前記複数のメモリプレーンからの前記複数のビット乗算結果に対してグルーピング演算を行って複数のグルーピング結果を生成するためのグルーピング回路と、前記複数のグルーピング結果に対してビット単位の計数を行って前記ＭＡＣ演算結果を生成するための、前記グルーピング回路に結合された計数部とを含み、
前記入力データのそれぞれまたは前記複数の重みのそれぞれの複数のビットが複数のビットベクトルに分割され、
前記複数のビットベクトルの各ビットが２進形式から単進符号に変換され、
前記単進符号で表された前記複数のビットベクトルの前記各ビットが複数回複製されて、ｕｎＦＤＰ（展開ドット積）形式になり、
乗算回路が、前記ｕｎＦＤＰ形式で表された前記入力データおよび前記複数の重みに対して乗算演算を行って前記複数のビット乗算結果を生成する、請求項２に記載のメモリデバイス。
前記メモリデバイスがさらに、
前記複数のメモリプレーンに結合された複数の変換部であって、前記複数のメモリプレーンからの複数のメモリセル電流を変換して複数の変換結果にするための複数の変換部と、
前記複数の変換部に結合された複数の累算検出回路であって、前記複数の変換部の前記複数の変換結果と閾値とをそれぞれ比較して複数の累算イネーブル信号を生成するための複数の累算検出回路と、
出力ラッチと
を備え、
前記少なくとも１つの累算回路が前記複数の累算検出回路に結合された複数の累算回路を含み、前記累算回路が、前記複数の累算イネーブル信号によって有効になると、前記複数のメモリプレーンからの前記複数のビット乗算結果に対してビット累算演算を並列に行って複数のデジタル累算結果を生成し、
前記出力ラッチが、前記複数の累算回路からの前記複数のデジタル累算結果を前記ＭＡＣ演算結果に出力するために前記複数の累算回路に結合される、請求項１に記載のメモリデバイス。
前記複数の変換部が作動する場合、前記メモリデバイスがハイブリッドＭＡＣ演算を行い、前記複数の累算回路が前記複数の変換結果の中の少なくとも１つの対象変換結果に対してビット累算を並列に行い、前記少なくとも１つの対象変換結果が前記閾値より高く、
前記複数の変換部が作動しない場合、前記メモリデバイスがデジタルＭＡＣ演算を行い、前記複数の変換結果が前記閾値より高いか高くないかに関係なく、前記複数の累算回路が前記複数の変換結果の全てに対してビット累算を並列に行い、
前記入力データのそれぞれまたは前記複数の重みのそれぞれの複数のビットが複数のビットベクトルに分割され、
前記複数のビットベクトルの各ビットが２進形式から単進符号に変換され、
前記単進符号で表された前記複数のビットベクトルの前記各ビットが複数回複製されて、ｕｎＦＤＰ（展開ドット積）形式になり、
乗算回路が、前記ｕｎＦＤＰ形式で表された前記入力データおよび前記複数の重みに対して乗算演算を行って前記複数のビット乗算結果を生成する、請求項４に記載のメモリデバイス。
メモリデバイスの動作方法であって、前記動作方法が、
入力データを複数のページバッファに格納する段階と、
複数のメモリプレーンの受信済みアドレスに基づいて、前記複数のメモリプレーンに格納された複数の重みと、前記入力データとに対して、前記複数のメモリプレーンがビット乗算を並列に行って複数のビット乗算結果を並列に生成する段階であって、前記複数のビット乗算結果は前記複数のページバッファに戻されて格納される、生成する段階と、
前記複数のメモリプレーンの前記複数のビット乗算結果に対してビット累算を並列にまたは順番に行って積和（ＭＡＣ）演算結果を生成する段階と
を備える、メモリデバイスの動作方法。
前記メモリデバイスの動作方法がさらに、
前記複数のメモリプレーンから複数のメモリセル電流を変換して複数の変換結果にする段階と、
前記複数の変換結果と閾値とをそれぞれ比較してページバッファ選択信号を生成し且つ累算イネーブル信号を生成する段階と、
前記ページバッファ選択信号および前記累算イネーブル信号に応答して、対応する前記複数のページバッファに格納された対応する前記複数のビット乗算結果を選択して、ビット累算演算を順番に行い且つ前記ＭＡＣ演算結果を生成する段階と
を備える、請求項６に記載のメモリデバイスの動作方法。
ハイブリッドＭＡＣ演算を行うときには、前記複数の変換結果の中の少なくとも１つの対象変換結果に対してビット累算を順番に行い、前記少なくとも１つの対象変換結果が前記閾値より高く、
デジタルＭＡＣ演算を行うときには、前記複数の変換結果が前記閾値より高いか高くないかに関係なく、前記複数の変換結果の全てに対してビット累算を順番に行い、
前記複数のメモリプレーンからの前記複数のビット乗算結果に対してグルーピング演算を行って複数のグルーピング結果を生成し、前記複数のグルーピング結果に対してビット単位の計数を行って前記ＭＡＣ演算結果を生成し、
前記入力データのそれぞれまたは前記複数の重みのそれぞれの複数のビットが複数のビットベクトルに分割され、
前記複数のビットベクトルの各ビットが２進形式から単進符号に変換され、
前記単進符号で表された前記複数のビットベクトルの前記各ビットが複数回複製されて、ｕｎＦＤＰ（展開ドット積）形式になり、
乗算回路が、前記ｕｎＦＤＰ形式で表された前記入力データおよび前記複数の重みに対して乗算演算を行って前記複数のビット乗算結果を生成する、請求項７に記載のメモリデバイスの動作方法。
前記メモリデバイスの動作方法がさらに、
前記複数のメモリプレーンからの複数のメモリセル電流を変換して複数の変換結果にする段階と、
前記複数の変換結果と閾値とをそれぞれ比較して複数の累算イネーブル信号を生成する段階と、
前記複数の累算イネーブル信号に応答して、前記複数のメモリプレーンからの前記複数のビット乗算結果に対してビット累算演算を並列に行って複数のデジタル累算結果を生成する段階と、
前記複数のデジタル累算結果を前記ＭＡＣ演算結果に出力する段階と
を備える、請求項６に記載のメモリデバイスの動作方法。
ハイブリッドＭＡＣ演算を行うときには、前記複数の変換結果の中の少なくとも１つの対象変換結果に対してビット累算を並列に行い、前記少なくとも１つの対象変換結果が前記閾値より高く、
デジタルＭＡＣ演算を行うときには、前記複数の変換結果が前記閾値より高いか高くないかに関係なく、前記複数の変換結果の全てに対してビット累算を並列に行い、
前記複数のメモリプレーンからの前記複数のビット乗算結果に対してグルーピング演算を行って複数のグルーピング結果を生成し、前記複数のグルーピング結果に対してビット単位の計数を行って前記ＭＡＣ演算結果を生成し、
前記入力データのそれぞれまたは前記複数の重みのそれぞれの複数のビットが複数のビットベクトルに分割され、
前記複数のビットベクトルの各ビットが２進形式から単進符号に変換され、
前記単進符号で表された前記複数のビットベクトルの前記各ビットが複数回複製されて、ｕｎＦＤＰ（展開ドット積）形式になり、
乗算回路が、前記ｕｎＦＤＰ形式で表された前記入力データおよび前記複数の重みに対して乗算演算を行って前記複数のビット乗算結果を生成する、請求項９に記載のメモリデバイスの動作方法。