JP2022045333A

JP2022045333A - メモリデバイスおよびその動作方法

Info

Publication number: JP2022045333A
Application number: JP2021136884A
Authority: JP
Inventors: フハン－ウェン; han-wen Hu; リーユン－チュン; Yung-Chung Lee; リンボ－ロン; bo-rong Lin; ワンフアイ－ム; Huai-Mu Wang
Original assignee: Macronix International Co Ltd
Current assignee: Macronix International Co Ltd
Priority date: 2020-09-08
Filing date: 2021-08-25
Publication date: 2022-03-18
Anticipated expiration: 2041-08-25
Also published as: US11809838B2; US20220075599A1; KR20220033020A; JP7279293B2; CN114153419A; KR102603795B1

Abstract

【課題】イン・メモリ・コンピューティング（ＩＭＣ）型の積和演算を行うメモリデバイス及びその動作方法を提供する。
【解決手段】ＩＭＣメモリデバイスは、複数の重みを記憶するための複数のメモリセルを有するメモリアレイと、メモリアレイに結合され複数の入力データおよび重みに対してビット単位の乗算を行って複数の乗算結果を生成する乗算回路と、乗算回路に結合され乗算結果に対してビット単位の計数を行いＭＡＣ（積和）演算結果を生成する計数ユニットと、を備える。さらに、シングルビット乗算ユニット１２１からの複数の乗算結果に対してグルーピング演算を行って、複数のグルーピング結果を生成する複数のグルーピングユニット１４１を有するグルーピング回路１４０を備えてもよい。
【選択図】図１

Description

本開示は、一般的には、イン・メモリ・コンピューティング型のメモリデバイスおよびその動作方法に関する。

人工知能（「ＡＩ」）は、近年、多くの分野で非常に効果的なソリューションとして台頭してきている。ＡＩの重要な問題点は、ＡＩには大量の入力データ（例えば、入力フィーチャーマップ）と、積和（ＭＡＣ）を行うための重みが含まれていることである。

しかしながら、現在のＡＩ構造では、通常、ＩＯ（入力／出力）のボトルネックや非効率なＭＡＣ演算フローが発生してしまう。

そこで高精度を実現するためには、複数ビットの入力と複数ビットの重みを有するＭＡＣ演算を行うことになる。しかし、ＩＯボトルネックが悪化し、また効率が低下する。

イン・メモリ・コンピューティング（「ＩＭＣ」）は、プロセス中心アーキテクチャにおける複雑な算術論理演算装置（ＡＬＵ）を削減し、かつメモリ上でのＭＡＣ演算の大規模な並列処理を提供し得るため、ＭＡＣ演算を高速化することができる。

不揮発性ＩＭＣ（ＮＶＭベースのＩＭＣ）の利点は、不揮発性ストレージやデータ移動の削減に因る。しかしながら、ＮＶＭベースのＩＭＣの課題としては、重み付け後の合計電流が大きくなることによる電力バジェットの多大な要件、最上位ビット（ＭＳＢ）を表すためのエラービットの作用、区別不可な複数の電流合計結果、ならびに消費電力とチップサイズの増加につながる多数のＡＤＣ／ＤＡＣがあげられる。

「コンピューティング・イン・メモリチップおよびメモリセルアレイ構造」と題された米国特許出願公開第２０２１０１５１１０６号明細書では、コンピューティング・イン・メモリチップおよびメモリセルアレイ構造において、その中のメモリセルアレイがアレイ状に配置された複数のメモリセルサブアレイを備えることが開示されている。各メモリセルサブアレイは、複数のスイッチユニットと、アレイ状に配置された複数のメモリセルとを有し、各列のすべてのメモリセルの第１の端子はソース線に接続され、すべてのメモリセルの第２の端子はビット線に接続され、各行のすべてのメモリセルの第３の端子はスイッチユニットを介してワード線に接続され、複数のメモリセル行は複数のスイッチユニットに対応して接続され、複数のスイッチユニットの制御端子はメモリセルサブアレイのローカルワード線に接続され、このメモリセルセブアレイを活性化するか否かは、ローカルワード線を制御することにより制御される。

一実施形態によれば、複数の重みを記憶するための複数のメモリセルを有するメモリアレイと、このメモリアレイに結合され複数の入力データおよび重みに対してビット単位の乗算を行って複数の乗算結果を生成する乗算回路と、この乗算回路に結合され乗算結果に対してビット単位の計数を行ってＭＡＣ（積和）演算結果を生成する計数ユニットとを備えるメモリデバイスが提供される。

別の実施形態によれば、メモリデバイスの動作方法が提供される。本動作方法は、メモリデバイスのメモリアレイの複数のメモリセルに複数の重みを記憶する段階と、複数の入力データおよび重みに対してビット単位の乗算を行って、複数の乗算結果を生成する段階と、乗算結果に対してビット単位の計数を行って、ＭＡＣ（積和）演算結果を生成する段階とを備える。

本願の一実施形態に係るＩＭＣ（イン・メモリ・コンピューティング）メモリデバイスの機能ブロック図を示す。

本願の一実施形態に係るデータマッピングを示す。

本願の実施形態に係るデータマッピングの可能な例を示す。本願の実施形態に係るデータマッピングの可能な例を示す。本願の実施形態に係るデータマッピングの可能な例を示す。

本願の一実施形態の乗算演算の例を示す。本願の一実施形態の乗算演算の例を示す。

本願の一実施形態に係るグルーピング演算（多数決演算）および計数を示す。本願の一実施形態に係るグルーピング演算（多数決演算）および計数を示す。

先行技術と本願の一実施形態とを比較したＭＡＣ演算フローを示す。

本願の一実施形態における固定メモリページのプログラミングを示す。本願の一実施形態における読み出し電圧調整のフローチャートを示す。

本願の一実施形態に係るＭＡＣ演算フローを示す。

下記の詳細な記載においては、説明を目的として、開示された実施形態の完全な理解を提供するために、多数の具体的な詳細が記載される。なお、これらの具体的な詳細がなくても、１つまたは複数の実施形態を実施し得ることは明らかであろう。他の例では、図面を簡略化するために、よく知られた構造や装置を模式的に示している。

本開示の技術用語は、本開示の技術分野における一般的な定義に基づくものとする。ただし、本開示に１つまたはいくつかの用語が記載または説明されている場合、それら用語の定義は、本開示の記載または説明に基づくものとする。本開示の各実施形態は、１つまたは複数の技術的特徴を有する。可能な実施においては、当業者であれば、本開示の任意の実施形態の一部またはすべての技術的特徴を選択的に実施するか、または本開示の実施形態の一部またはすべての技術的特徴を選択的に組み合わせるであろう。

図１は、本願の一実施形態に係るＩＭＣ（イン・メモリ・コンピューティング）メモリデバイス１００の機能ブロック図を示している。ＩＭＣメモリデバイス１００は、メモリアレイ１１０、乗算回路１２０、入出力回路１３０、グルーピング回路１４０、および計数ユニット１５０を備える。メモリアレイ１１０および乗算回路１２０はアナログであり、一方、グルーピング回路１４０および計数ユニット１５０はデジタルである。

メモリアレイ１１０は、複数のメモリセル１１１を有する。本願の一実施形態では、メモリセル１１１は、例えば、不揮発性のメモリセルであるが、これに限定されない。ＭＡＣ演算では、メモリセル１１１は、重みを記憶するのに使用される。

乗算回路１２０は、メモリアレイ１１０に結合される。乗算回路１２０は、複数のシングルビット乗算ユニット１２１を有する。シングルビット乗算ユニット１２１のそれぞれは、入力ラッチ１２１Ａ、センシングアンプ（ＳＡ）１２１Ｂ、出力ラッチ１２１Ｃ、共通データラッチ（ＣＤＬ）１２１Ｄを含む。入力ラッチ１２１Ａは、メモリアレイ１１０に結合される。センシングアンプ１２１Ｂは、入力ラッチ１２１Ａに結合される。出力ラッチ１２１Ｃは、センシングアンプ１２１Ｂに結合される。共通データラッチ１２１Ｄは、出力ラッチ１２１Ｃに結合される。

入出力回路１３０は、乗算回路１２０、グルーピング回路１４０、および計数ユニット１５０に結合される。入出力回路１３０は、入力データを受信し、メモリデバイス１００により生成されたデータを出力するためのものである。

グルーピング回路１４０は、乗算回路１２０に結合される。グルーピング回路１４０は、複数のグルーピングユニット１４１を有する。グルーピングユニット１４１は、シングルビット乗算ユニット１２１からの複数の乗算結果に対してグルーピング演算を行って、複数のグルーピング結果を生成する。本願の可能な一実施形態では、グルーピング技法は、例えば、多数決関数技法などの多数決技法によって実施可能であり、グルーピング回路１４０は、多数決関数技法に基づく多数決グルーピング回路によって実施可能であり、またグルーピングユニット１４１は、分散型多数決グルーピングユニットによって実施可能であるが、これは本願を限定することを意図するものではない。グルーピング技法は、他の類似な技法により実施されてもよい。本願の一実施形態では、グルーピング回路１４０は任意である。

計数ユニット１５０は、グルーピング回路１４０または乗算回路１２０に結合される。本願の一実施形態では、計数ユニット１５０は、乗算回路からの乗算結果に対してビット単位の計数またはビット単位の累積を行って、ＭＡＣ演算結果を生成するためのものである（メモリデバイス１００がグルーピング回路１４０を含まない場合）。あるいは、計数ユニット１５０は、グルーピング回路１４０からのグルーピング結果（すなわち、多数決結果）に対してビット単位の計数またはビット単位の累積を行って、ＭＡＣ演算結果を生成するためのものである（メモリデバイス１００がグルーピング回路１４０を含む場合）。本願の一実施形態では、計数ユニット１５０は、限定されるわけではないが、例えば、リップルカウンタなどの既知の計数回路によって実施される。本願では、「計数」と「累積」という用語は交換可能であり、カウンタおよびアキュムレータは実質的に同じ意味を持つ。

以下、本願の一実施形態に係るデータマッピングを示す図２を参照する。図２に示すように、各入力データおよび各重みは、８ビット精度のＮ次元（Ｎは正の整数）を有するが、本願はこれに限定されない。

入力データのデータマッピングを例に挙げて説明したが、本願はこれに限定されない。以下の記載は、重みのデータマッピングにも適している。

入力データ（または重み）が２進数８ビット形式で表される場合、入力データ（または重み）は最上位ビット（ＭＳＢ）ベクトルと最下位ビット（ＬＳＢ）ベクトルとを含む。８ビットの入力データ（または重み）のＭＳＢベクトルは、ビットＢ７～Ｂ４を含み、８ビットの入力データ（または重み）のＬＳＢベクトルは、ビットＢ３～Ｂ０を含む。

入力データのＭＳＢベクトルとＬＳＢベクトルの各ビットは、単進符号（バリュー形式）で表される。例えば、入力データのＭＳＢベクトルのビットＢ７はＢ７_０～Ｂ７_７として表され得るものであり、入力データのＭＳＢベクトルのビットＢ６はＢ６_０～Ｂ６_３として表され得るものであり、入力データのＭＳＢベクトルのビットＢ５はＢ５_０、Ｂ５_１として表され得るものであり、また入力データのＭＳＢベクトルのビットＢ４はＢ４として表され得る。

次いで、入力データのＭＳＢベクトルの各ビットと、単進符号（バリュー形式）で表された入力データのＬＳＢベクトルの各ビットとをそれぞれ複数回複製して、展開ドット積（ｕｎＦＤＰ）形式にする。例えば、入力データのＭＳＢベクトルをそれぞれ（２^４－１）倍ずつ複製し、同様に入力データのＬＳＢベクトルをそれぞれ（２^４－１）倍ずつ複製する。そうすることで、入力データはｕｎＦＤＰ形式で表される。同様に、重みもｕｎＦＤＰ形式で表される。

乗算演算は、入力データ（ｕｎＦＤＰ形式）および重み（ｕｎＦＤＰ形式）に対して行われ、複数の乗算結果を生成する。

なお、理解のために、データマッピングの一例を説明するが、本願はそれによって限定されるものではない。

以下、本願の一実施形態に係る１次元のデータマッピングの可能な一例を示す図３Ａを参照する。図３Ａに示すように、入力データは（ＩＮ_１，ＩＮ_２）＝（２，１）であり、重みは（Ｗｅ_１，Ｗｅ_２）＝（１，２）である。入力データのＭＳＢおよびＬＳＢは２進法形式で表され、これによりＩＮ_１＝１０であるのに対して、ＩＮ_２＝０１である。同様に、重みのＭＳＢおよびＬＳＢも２進法形式で表され、これによりＷｅ_１＝０１であるのに対して、Ｗｅ_２＝１０である。

次いで、入力データのＭＳＢおよびＬＳＢ、ならびに重みのＭＳＢおよびＬＳＢを単進符号（バリュー形式）に符号化する。例えば、入力データのＭＳＢは「１１０」に符号化され、一方、入力データのＬＳＢは「００１」に符号化される。同様に、重みのＭＳＢは「００１」に符号化され、一方、重みのＬＳＢは「１１０」に符号化される。

次いで、入力データのＭＳＢの各ビット（１１０、単進符号に符号化）および入力データのＬＳＢの各ビット（００１、単進符号に符号化）を複数回複製し、ｕｎＦＤＰ形式で表す。例えば、入力データのＭＳＢの各ビット（１１０、バリュー形式で表記）は、３回複製されて、これにより入力データのｕｎＦＤＰ形式のＭＳＢは１１１１１１０００となる。同様に、入力データのＬＳＢの各ビット（００１、バリュー形式で表記）も、３回複製されて、これにより入力データのｕｎＦＤＰ形式のＬＳＢは００００００１１１となる。

乗算演算を入力データ（ｕｎＦＤＰ形式で表記）および重み（ｕｎＦＤＰ形式で表記）に対して行い、ＭＡＣ演算結果を生成する。ＭＡＣ演算結果は、１×０＝０、１×０＝０、１×１＝１、１×０＝０、１×０＝０、１×１＝１、０×０＝０、０×０＝０、０×１＝０、０×１＝０、０×１＝０、０×０＝０、０×１＝０、０×１＝０、０×０＝０、１×１＝１、１×１＝１、１×０＝０である。これらの値は合計されて、０＋０＋１＋０＋０＋１＋０＋０＋０＋０＋０＋０＋０＋０＋０＋１＋１＋０＝４になる。

以上の記載から、入力データが「ｉ」ビットであり、一方、重みが「ｊ」ビット（「ｉ」、「ｊ」ともに正の整数）である場合、ＭＡＣ（または乗算）演算に使用されるメモリセルの総数は（２^ｉ－１）×（２^ｊ－１）となる。

以下、本願の一実施形態に係るデータマッピングの可能な他の例を示す図３Ｂを参照する。図３Ｂに示すように、入力データは、（ＩＮ_１）＝（２）であり、重みは（Ｗｅ_１）＝（１）である。入力データおよび重みは、４ビットである。

入力データを２進法形式で表すことにより、ＩＮ_１＝００１０となる。同様に、重みも２進法形式で表すことにより、Ｗｅ_１＝０００１となる。

入力データおよび重みは、単進符号（バリュー形式）に符号化される。例えば、入力データの最高位ビット「０」は「００００００００」に符号化され、一方、入力データの最低位ビット「０」は「０」に符号化される等である。同様に、重みの最高位ビット「０」は「００００００００」に符号化され、一方、重みの最低位ビット「１」は「１」に符号化される。

次いで、入力データの各ビット（単進符号に符号化）を複数回複製し、ｕｎＦＤＰ形式で表す。例えば、入力データの最高位ビット３０１Ａ（単進符号に符号化）は、１５回複製されてビット３０３Ａとなり、一方、入力データの最低位ビット３０１Ｂ（単進符号に符号化）は、１５回複製されてビット３０３Ｂとなる。

重み３０２（単進符号に符号化）を１５回複製して、ｕｎＦＤＰ形式で表す。

乗算演算を入力データ（ｕｎＦＤＰ形式で表記）および重み（ｕｎＦＤＰ形式で表記）に対して行って、ＭＡＣ演算結果を生成する。詳しくは、入力データのビット３０３Ａに重み３０２を乗算し、入力データのビット３０３Ｂに重み３０２を乗算する等である。ＭＡＣ演算結果（「２」）は、乗算値を加算して生成される。

以下、本願の一実施形態に係るデータマッピングの可能な他の例を示す図３Ｃを参照する。図３Ｃに示すように、入力データは、（ＩＮ_１）＝（１）であり、重みは（Ｗｅ_１）＝（５）である。入力データおよび重みは、４ビットである。

入力データを２進法形式で表すことにより、ＩＮ_１＝０００１となる。同様に、重みも２進法形式で表すことにより、Ｗｅ_１＝０１０１となる。

次いで、入力データおよび重みを単進符号（バリュー形式）に符号化する。

そして、入力データの各ビット（単進符号に符号化）を複数回複製して、ｕｎＦＤＰ形式で表す。図３Ｃでは、入力データの各ビットおよび重みの各ビットを複製する際に、ビット「０」が加算される。例えば、入力データの最高位ビット３１１Ａ（単進符号に符号化）は、１５回複製されて、ビット「０」が加算されてビット３１３Ａを形成し、一方、入力データの最低位ビット３１１Ｂ（単進符号に符号化）は、１５回複製されて、ビット「０」が加算されてビット３１３Ｂを形成する。そうすることで、入力データがｕｎＦＤＰ形式で表される。

同様に、重み３１２（単進符号に符号化）を１５回複製し、ビット「０」をそれぞれに追加的に加算して重み３１４のそれぞれとする。そうすることで、重みがｕｎＦＤＰ形式で表される。

入力データ（ｕｎＦＤＰ形式で表記）および重み（ｕｎＦＤＰ形式で表記）に対して乗算演算を行って、ＭＡＣ演算結果を生成する。詳しくは、入力データのビット３１３Ａに重み３１４を乗算し、入力データのビット３１３Ｂに重み３１４を乗算する等である。ＭＡＣ演算結果（「５」）は、乗算値を加算して生成される。

先行技術では、８ビットの入力データおよび８ビットの重みに対するＭＡＣ演算において、ダイレクトＭＡＣ演算を使用する場合、このダイレクトＭＡＣ演算で使用されるメモリセルの総数は２５５×２５５×５１２＝３３，２９２，８２２となる。

これに対して、本願の一実施形態では、８ビットの入力データおよび８ビットの重みに対するＭＡＣ演算において、ダイレクトＭＡＣ演算で使用されるメモリセルの総数は１５×１５×５１２×２＝１１５，２００×２＝２３０，４００となる。このように、本願の一実施形態に係るＭＡＣ演算で使用されるメモリセル数は、先行技術で使用されるメモリセル数の約０．７％である。

本願の一実施形態では、ｕｎＦＤＰベースのデータマッピングを使用することにより、ＭＡＣ演算で使用されるメモリセル数が減少し、これによって演算コストも削減される。さらに、ＥＣＣ（誤り訂正符号）のコストも削減され、フェイルビット効果の許容度が向上する。

再度、図１を参照する。本願の一実施形態では、乗算演算において、重み（トランスコンダクタンス）をメモリアレイ１１０のメモリセル１１１に記憶させ、入力データ（電圧）を入出力回路１３０により記憶し読み出して共通データラッチ１２１Ｄに送信する。共通データラッチ１２１Ｄは、入力データを入力ラッチ１２１Ａに出力する。

ここで、本願の一実施形態の乗算演算を説明するために、本願の一実施形態の乗算演算の２つの例を示す図４Ａおよび図４Ｂを参照する。図４Ａは、メモリデバイスが選択されたビット線読み出し機能をサポートしている場合に使用され、図４Ｂは、メモリデバイスが選択されたビット線読み出し機能をサポートしていない場合に使用される。図４Ａでは、入力ラッチ１２１Ａは、ラッチ（第１のラッチ）４０５と、ビット線スイッチ４１０とを含み、図４Ｂでは、入力ラッチ１２１Ａは、ラッチ（第２のラッチ）４１５と、論理ＡＮＤゲート４２０とを含む。

図４Ａに示すように、重みは、図２に示すような単進符号（バリュー形式）に表される。このように、重みの最高位ビットは８つのメモリセル１１１に記憶され、重みの２番目の高位ビットは４つのメモリセル１１１に記憶され、重みの３番目の高位ビットは２つのメモリセル１１１に記憶され、重みの最低位ビットは１つのメモリセル１１１に記憶される。

同様に、入力データは、単進符号（バリュー形式）で表される（図２に示すように）。このように、入力データの最高位ビットは８つの共通データラッチ１２１Ｄに記憶され、入力データの２番目の高位ビットは４つの共通データラッチ１２１Ｄに記憶され、入力データの３番目の高位ビットは２つの共通データラッチ１２１Ｄに記憶され、入力データの最低位ビットは１つの共通データラッチ１２１Ｄに記憶される。入力データは、共通データラッチ１２１Ｄからラッチ４０５に送信される。

図４Ａでは、複数のビット線スイッチ４１０は、メモリセル１１１とセンシングアンプ１２１Ｂとの間に結合される。ビット線スイッチ４１０は、ラッチ４０５の出力によって制御される。例えば、ラッチ４０５がビット「１」を出力する場合、ビット線スイッチ４１０が導通し、一方、ラッチ４０５がビット「０」を出力する場合、ビット線スイッチ４１０が切断される。

さらに、メモリセル１１１に記憶されている重みがビット１であり、ビット線スイッチ４１０が導通している場合（すなわち、入力データがビット１である場合）、ＳＡ１２１Ｂはメモリセル電流を検知して乗算結果「１」を生成する。メモリセル１１１に記憶されている重みがビット０であり、ビット線スイッチ４１０が導通している場合（すなわち、入力データがビット１である場合）、ＳＡ１２１Ｂはメモリセル電流を検知しない。メモリセル１１１に記憶されている重みがビット１であり、ビット線スイッチ４１０が切断されている場合（すなわち、入力データがビット０である場合）、ＳＡ１２１Ｂはメモリセル電流を検知しない（乗算結果「０」を生成する）。メモリセル１１１に記憶されている重みがビット０であり、ビット線スイッチ４１０が切断されている場合（すなわち、入力データがビット０である場合）、ＳＡ１２１Ｂはメモリセル電流を検知しない。

すなわち、入力データがビット１であり、重みがビット１である場合、図４Ａに示すレイアウトを介して、ＳＡ１２１Ｂはメモリセル電流を検知する（乗算結果「１」を生成する）。他の状況では、ＳＡ１２１Ｂは、メモリセル電流を検知しない（乗算結果「０」を生成する）。

図４Ｂでは、入力データを共通データラッチ１２１Ｄからラッチ４１５に送信する。論理ＡＮＤゲート４２０の一方の入力は、ＳＡ１２１Ｂの検知結果（すなわち、重み）を受信し、論理ＡＮＤゲート４２０の他方の入力は、ラッチ４１５の出力ビット（すなわち、入力データ）を受信する。メモリセル１１１に記憶されている重みがビット１の場合、ＳＡ１２１Ｂの検知結果はロジックハイ（すなわち、ＳＡ１２１Ｂがメモリセル電流を検知している）であり、メモリセル１１１に記憶されている重みがビット０の場合、ＳＡ１２１Ｂの検知結果はロジックロー（すなわち、ＳＡ１２１Ｂはメモリセル電流を検知していない）である。

ラッチ４１５がビット１を出力し（すなわち、入力データがビット１であり）、ＳＡ１２１Ｂの検知結果がロジックハイ（すなわち、重みがビット１である）である場合、論理ＡＮＤゲート４２０は、ビット１をグルーピング回路１４０または計数ユニット１５０に出力する（乗算結果「１」を生成する）。他の状況では、論理ＡＮＤゲート４２０は、ビット「０」をグルーピング回路１４０または計数ユニット１５０に出力する（乗算結果「０」を生成する）。

図４Ｂに示す実施形態は、不揮発性メモリおよび揮発性メモリの両方に適用される。

本願の一実施形態では、乗算演算において、選択されたビット線リード（ＳＢＬ－ｒｅａｄ）コマンドを再利用して、シングルビット表現による変動影響を低減し得る。

以下、本願の一実施形態に係るグルーピング演算（多数決演算）とビット単位の計数とを示す、図５Ａを参照する。図５Ａに示すように、「ＧＭ１」とは、入力データの第１のＭＳＢベクトルに重みをビット単位で乗算して得られた第１の乗算結果を指し、「ＧＭ２」とは、入力データの第２のＭＳＢベクトルに重みをビット単位で乗算して得られた第２の乗算結果を指し、「ＧＭ３」とは、入力データの第３のＭＳＢベクトルに重みをビット単位で乗算して得られた第３の乗算結果を指し、「ＧＬ」とは、入力データのＬＳＢベクトルに重みをビット単位で乗算して得られた第４の乗算結果を指す。グルーピング演算（多数決演算）の後、第１の乗算結果「ＧＭ１」に対して行われたグルーピング結果は、第１のグルーピング結果ＣＢ１（その累積重みは２^２である）となり、第２の乗算結果「ＧＭ２」に対して行われたグルーピング結果は、第２のグルーピング結果ＣＢ２（その累積重みは２^２である）となり、第３の乗算結果「ＧＭ３」に対して行われたグルーピング結果は、第３のグルーピング結果ＣＢ３（その累積重みは２^２である）となり、第４の乗算結果「ＧＬ」に対して行われたダイレクト計数結果は、第４のグルーピング結果ＣＢ４（その累積重みは２^０である）となる。

図５Ｂは、図３Ｃの１つの累積例を示す。図３Ｃおよび図５Ｂを参照する。図５Ｂに示すように、入力データ（図３Ｃにおける）の複数ビット３１３Ｂに重み３１４を乗算する。入力データ（図３Ｃにおける）の複数ビット３１３Ｂに重み３１４を乗算することにより生成された、乗算結果の最初の４ビット（「００００」）は、第１の乗算結果「ＧＭ１」としてグループ化される。同様に、入力データ（図３Ｃにおける）の複数ビット３１３Ｂに重み３１４を乗算することにより生成された、乗算結果の５番目～８番目のビット（「００００」）は、第２の乗算結果「ＧＭ２」としてグループ化される。入力データ（図３Ｃにおける）の複数ビット３１３Ｂに重み３１４を乗算することにより生成された、乗算結果の９番目～１２番目のビット（「１１１１」）は、第３の乗算結果「ＧＭ３」としてグループ化される。入力データ（図３Ｃにおける）の複数ビット３１３Ｂに重み３１４を乗算することにより生成された、乗算結果の１３番目～１６番目のビット（「００１０」）は、直接計数される。

グルーピング演算（多数決演算）の後、第１のグルーピング結果ＣＢ１は「０」（その累積重みは２^２）となり、第２のグルーピング結果ＣＢ２は「０」（その累積重みは２^２）となり、第３のグルーピング結果ＣＢ３は「１」（その累積重みは２^２）となる。計数においては、ＭＡＣ結果は、各累積重みで乗算された各グルーピング結果ＣＢ１～ＣＢ４を累積することにより生成される。例えば、図５Ｂに示すように、ＭＡＣ結果は、ＣＢ１×２^２＋ＣＢ２×２^２＋ＣＢ３×２^２＋ＣＢ４×２^０＝０×２^２＋０×２^２＋１×２^２＋１×２^０＝０００００００００００００００００００００００００００００１０１＝５である。

本願の一実施形態では、グルーピングの原則（例えば、多数決の原則）は以下の通りである。

上記の表では、ケースＡにおいて、グループが正しいビット（エラービットがないことを意味する、「１１１１」）を有するので、多数決結果は、１となる。同様に、上記の表では、ケースＥにおいて、グループが正しいビット（エラービットがないことを意味する、「００００」）を有するので、多数決結果は、０となる。

ケースＢにおいて、グループが１つのエラービット（「１１１０」のうち、ビット「０」がエラー）を有するため、多数決関数によりグループ「１１１０」は「１」と判定される。ケースＤにおいて、グループが１つのエラービット（「０００１のうち、ビット「１」がエラー）を有するため、多数決関数によりグループ「０００１」は「０」と判定される。

ケースＣにおいて、グループが２つのエラービット（「１１００」のうち、ビット「００」または「１１」がエラー）を有するため、多数決関数によりグループ「１１００」は「１」または「０」と判定される。

このように、本願の一実施形態では、グルーピング（多数決）関数により、エラービットが削減される。

グルーピング回路１４０から得られた多数決結果は、ビット単位で計数するための計数ユニット１５０に入力される。

計数においては、ＭＳＢベクトルの乗算結果に対する計数結果とＬＳＢベクトルの乗算結果に対する計数結果とを加算または累積する。図５Ａに示すように、２つのアキュムレータが使用される。第１のアキュムレータには、重い累積重み（例えば２^２）が割り当てられる。第１のアキュムレータは、（１）乗算結果ＧＭ１に対して、グルーピング演算（多数決演算）を行って得られたグルーピング結果（多数決結果）（１ビットを有する）を、（２）乗算結果ＧＭ２に対して、グルーピング演算（多数決演算）を行って得られたグルーピング結果（多数決結果）（１ビットを有する）を、（３）乗算結果ＧＭ３に対して、グルーピング演算（多数決演算）を行って得られたグルーピング結果（多数決結果）（１ビットを有する）を累積する。第１のアキュムレータにより得られる累積結果は、重い累積重み（例えば２^２）が割り当てられる。第２のアキュムレータには、軽い累積重み（例えば２^０）が割り当てられる。第２のアキュムレータは、乗算結果ＧＬ（複数ビットを有する）を直接累積する。これら２つのアキュムレータによる２つの累積結果が加算され、ＭＡＣ演算結果が出力される。例えば、これらに限定されないが、（１）乗算結果ＧＭ１に対してグルーピング（多数決）演算を行って得たグルーピング結果（多数決結果）（１ビットを有する）が「１」（１ビット）であり、（２）乗算結果ＧＭ２に対してグルーピング（多数決）演算を行ったグルーピング結果（多数決結果）（１ビットを有する）が「０」（１ビット）あり、ならびに（３）乗算結果ＧＭ３に対してグルーピング（多数決）演算を行ったグルーピング結果（多数決結果）（１ビットを有する）が「１」（１ビット）である。重み付け後の第１アキュムレータによる累積結果は、２（＝１＋０＋１）×２^２＝８である。乗算結果ＧＬは、４（３ビットを有する）である。ＭＡＣ演算結果は、８＋４＝１２となる。

以上より、本願の一実施形態では、計数または累積において、入力データはｕｎＦＤＰ形式であり、ＣＤＬに記憶されたデータは、ＭＳＢベクトルおよびＬＳＢベクトルにグループ化される。グルーピング（多数決）関数により、ＭＳＢベクトルおよびＬＳＢベクトルにおけるエラービットが削減される。

さらに、本願の一実施形態では、従来のアキュムレータ（従来のカウンタ）を使用しても、計数や累積にかかる時間的コストも削減される。これは、本願の一実施形態ではデジタルカウントコマンド（エラービットカウント）が適用され、異なるベクトル（ＭＳＢベクトルおよびＬＳＢベクトル）は異なる累積重みが割り当てられるためである。可能な一例では、累積演算にかかる時間的コストが約４０％にまで削減される。

図６は、先行技術と本願の一実施形態とを比較したＭＡＣ演算フローを示す。先行技術および本願の一実施形態のＭＡＣ演算フローでは、入力データがメモリデバイスに送信される。ビット線設定およびワード線設定は同時に行われる。ビット線設定の後、検知が行われる。次いで、累積が行われる。累積結果が戻される。以上のステップを、すべての入力データを処理するまで繰り返す。

図６より、本願の実施形態におけるＭＡＣ演算は、２種類のサブ演算を有する。第１のサブ演算は、選択されたビット線読み出しコマンドに基づいて、入力データと重みを乗算するための乗算である。第２のサブ演算は、累積（データカウント）、特にフェイルビットカウントである。本願の他の可能な実施形態では、より多くの計数ユニットを使用して、計数または累積演算を高速化し得る。

本願の一実施形態では、先行技術と比較して、累積演算がより速いため、ＭＡＣ演算もより速い。

さらにまた、本願の一実施形態では、読み出し電圧も調整される。図７Ａは、本願の一実施形態における固定メモリページのプログラミングを示す。図７Ｂは、本願の一実施形態における読み出し電圧調整のフローチャートを示す。

図７Ａに示すように、ステップ７１０では、既知の入力データが固定メモリページにプログラムされ、ここで、この既知の入力データのビットレートは、ビット「０」が５０％およびビット「１」が５０％である。

図７Ｂに示すように、ステップ７２０では、固定メモリページが読み込まれ、ビット「１」のビットレートが計数される。ステップ７３０では、ビット「１」のビットレートが５０％に近いかどうかを判定する。ステップ７３０においてＮＯの場合、フローはステップ７４０に進む。ステップ７３０においてＹＥＳの場合、フローはステップ７５０に進む。

ステップ７４０では、ビット「１」のビットレートが５０％より小さい場合、読み出し電圧を増加させ、一方、ビット「１」のビットレートが５０％より大きい場合、読み出し電圧を減少させる。ステップ７４０の後では、フローはステップ７２０に戻る。

ステップ７５０では、その後の読み出し動作のために、現在の読み出し電圧が記録される。

読み出し電圧は、ビット１の読み出しに影響を与え得る。本願の一実施形態では、演算条件（例えば、これらに限定されないが、プログラミングサイクル、温度、または読み出し妨害）に基づいて、高精度かつ高信頼性を維持するために読み出し電圧を定期的に較正してもよい。

図８は、本願の一実施形態に係るＭＡＣ演算フローを示す。ステップ８１０では、読み出し電圧を定期的にチェックする。読み出し電圧を較正しようとする場合は、図７Ｂのフローに従って読み出し電圧が較正される。

ステップ８２０では、入力データを共通データラッチ１２１Ｄに記憶する。

ステップ８３０では、入力データを共通データラッチ１２１Ｄから入力ラッチ１２１Ａに転送する。

ステップ８４０では、選択されたビット線読み出しコマンドが有効（サポートされている）か、選択されたビット線読み出しコマンドが有効でない（サポートされていない）かのいずれかにおいて、乗算演算を行う。

ステップ８５０では、累積を行う。

ステップ８６０では、ＭＡＣ演算結果を（例えば、入出力回路３０を介して）出力する。

本願の一実施形態は、ＮＡＮＤ型フラッシュメモリ、または保持力や熱変動に敏感なメモリデバイス、例えば、これらに限定されないが、ＮＯＲ型フラッシュメモリ、相変化メモリ、磁気ＲＡＭ、または抵抗ＲＡＭなどに適用される。

本願の一実施形態は、３Ｄ構造のメモリデバイスおよび２Ｄ構造のメモリデバイス、例えば、これらに限定されないが、２Ｄ／３ＤＮＡＮＤ型フラッシュメモリ、２Ｄ／３ＤＮＯＲ型フラッシュメモリ、２Ｄ／３Ｄ相変化メモリ、２Ｄ／３Ｄ磁気ＲＡＭ、または２Ｄ／３Ｄ抵抗ＲＡＭなどに適用される。

なお、本願の実施形態では、入力データおよび／または重みをＭＳＢベクトルおよびＬＳＢベクトル（すなわち、２つのベクトル）に分割しているが、本願はこれに限定されない。本願の他の可能な実施形態では、入力データおよび／または重みをより多くのベクトルに分割しているが、これも本願の趣旨および範囲内である。

本願の実施形態は、多数決のグルーピング技法だけでなく、他のグルーピング技法にも適用し、累積を高速化させる。

本願の実施形態は、ＡＩ技術であり、例えば、これに限定されないが、顔認証である。

なお、本開示の実施形態において様々な変更や変形が可能であることは、当業者にとっては明らかであろう。本明細書および実施例は例示的なものとしてのみ考えられ、本開示の真の範囲は以下の特許請求の範囲およびそれらの等価物によって示されることが意図される。

Claims

複数の重みを記憶するための複数のメモリセルを有するメモリアレイと、
前記メモリアレイに結合され、複数の入力データおよび前記複数の重みに対してビット単位の乗算を行って、複数の乗算結果を生成する乗算回路と、
前記乗算回路に結合され、前記複数の乗算結果に対してビット単位の計数を行って、ＭＡＣ（積和）演算結果を生成する計数ユニットと
を備えるメモリデバイス。
前記乗算回路は、複数のシングルビット乗算ユニットを有し、
前記複数のシングルビット乗算ユニットのそれぞれは、
前記メモリアレイに結合された入力ラッチと、
前記入力ラッチに結合されたセンシングアンプと、
前記センシングアンプに結合された出力ラッチと、
前記出力ラッチに結合された共通データラッチと
を含み、
前記共通データラッチは、前記複数の入力データを前記入力ラッチに送信する、
請求項１に記載のメモリデバイス。
前記複数のシングルビット乗算ユニットは、前記複数の乗算結果を生成し前記計数ユニットに送信する、請求項２に記載のメモリデバイス。
前記乗算回路および前記計数ユニットに結合され、前記乗算回路からの前記複数の乗算結果に対してグルーピング演算を行って複数のグルーピング結果を生成し、前記複数のグルーピング結果を前記計数ユニットに送信するグルーピング回路をさらに備え、前記複数のシングルビット乗算ユニットは、前記複数の乗算結果を生成し前記グルーピング回路に送信する、請求項２または３に記載のメモリデバイス。
前記乗算回路および前記計数ユニットに結合され、前記複数の入力データを受信し前記メモリデバイスにより生成された前記ＭＡＣ演算結果を出力する入出力回路をさらに備える、請求項１から４のいずれか一項に記載のメモリデバイス。
前記グルーピング回路は、前記複数の乗算結果に対してグルーピング演算を行って、前記複数のグルーピング結果を生成する複数のグルーピングユニットを有する、請求項４に記載のメモリデバイス。
前記複数の入力データのそれぞれの、または前記複数の重みのそれぞれの複数のビットは複数のビットベクトルに分割され、
前記複数のビットベクトルの各ビットは、２進法形式から単進符号に変換され、
前記単進符号で表された前記複数のビットベクトルの前記各ビットは、複数回複製されてｕｎＦＤＰ（展開ドット積）形式となり、
前記乗算回路は、前記ｕｎＦＤＰ形式で表された前記複数の入力データおよび前記複数の重みに対して乗算演算を行って、前記複数の乗算結果を生成する、
請求項１から６のいずれか一項に記載のメモリデバイス。
前記メモリアレイおよび前記乗算回路はアナログであり、前記グルーピング回路および前記計数ユニットはデジタルである、請求項４または６に記載のメモリデバイス。
複数の前記入力ラッチのそれぞれは、第１のラッチおよびビット線スイッチを含み、前記第１のラッチは、前記共通データラッチからの前記複数の入力データを受信し、前記ビット線スイッチは、前記複数のメモリセルと前記センシングアンプとの間に結合され、前記ビット線スイッチは、前記複数のメモリセル内に記憶された前記複数の重みを前記センシングアンプに伝えるか否かを制御するように前記第１のラッチに記憶された前記複数の入力データにより制御され、前記センシングアンプは、前記ビット線スイッチからの出力を検知することにより前記複数の乗算結果を生成する、請求項２に記載のメモリデバイス。
前記入力ラッチのそれぞれは、第２のラッチおよび論理ゲートを含み、前記第２のラッチは、前記共通データラッチからの前記複数の入力データを受信し、前記センシングアンプは、前記複数のメモリセルに記憶された前記複数の重みを検知し、前記論理ゲートは、前記第２のラッチから送信された前記複数の入力データと前記複数のメモリセルに記憶された前記複数の重みとに基づいて、前記センシングアンプを介して前記複数の乗算結果を生成する、請求項２に記載のメモリデバイス。
前記複数の乗算結果に対してグルーピング演算を行う際に、前記グルーピング回路は、前記複数の乗算結果に対してそれぞれのグルーピング演算を行って、前記複数のグルーピング結果を生成する、請求項６に記載のメモリデバイス。
ビット単位の計数において、前記複数のグルーピング結果はそれぞれ異なる累積重みが割り当てられ、ＭＡＣ演算結果を生成する、請求項１１に記載のメモリデバイス。
前記グルーピング回路は、複数の多数決ユニットを有する多数決回路である、請求項４に記載のメモリデバイス。
メモリデバイスの動作方法であって、
前記メモリデバイスのメモリアレイの複数のメモリセルに、複数の重みを記憶する段階と、
複数の入力データおよび前記複数の重みに対してビット単位の乗算を行って、複数の乗算結果を生成する段階と、
前記複数の乗算結果に対してビット単位の計数を行って、ＭＡＣ（積和）演算結果を生成する段階と
を備える、メモリデバイスの動作方法。
前記複数の乗算結果に対してグルーピング演算を行って、複数のグルーピング結果を生成する段階をさらに備える、請求項１４に記載のメモリデバイスの動作方法。
前記複数の入力データのそれぞれの、または前記複数の重みのそれぞれの複数のビットは、複数のビットベクトルに分割され、
前記複数のビットベクトルの各ビットは、２進法形式から単進符号に変換され、
前記単進符号で表された前記複数のビットベクトルの前記各ビットは、複数回複製されてｕｎＦＤＰ（展開ドット積）形式となり、
前記ｕｎＦＤＰ形式で表された前記複数の入力データおよび前記複数の重みに対して乗算演算を行って、前記複数の乗算結果を生成する、
請求項１４または１５に記載のメモリデバイスの動作方法。
ビット単位の計数において、前記複数のグルーピング結果はそれぞれ異なる累積重みが割り当てられ、前記ＭＡＣ演算結果を生成する、請求項１５に記載のメモリデバイスの動作方法。
前記複数の乗算結果に対してグルーピング演算を行う段階は、前記複数の乗算結果に対して多数決演算を行うことにより実施される、請求項１５から１７のいずれか一項に記載のメモリデバイスの動作方法。