JP2022125660A

JP2022125660A - 記憶装置及び記憶方法

Info

Publication number: JP2022125660A
Application number: JP2021023376A
Authority: JP
Inventors: まりな山口; Marina Yamaguchi; 健介太田; Kensuke Ota; 和彦山本; Kazuhiko Yamamoto; 真澄齋藤; Masumi Saito
Original assignee: Kioxia Corp
Current assignee: Kioxia Corp
Priority date: 2021-02-17
Filing date: 2021-02-17
Publication date: 2022-08-29
Also published as: US20220262422A1; US11514970B2

Abstract

【課題】データの信頼性を向上させること。【解決手段】実施形態の記憶装置は、複数の第１配線と、複数の第２配線と、複数の第１メモリセルと、制御回路と、を含む。制御回路は、制御対象の状態に関する情報を取得することが可能であり、状態に基づいた行動を制御対象に実行させることが可能であり、状態に基づいて読み出し動作及び書き込み動作のそれぞれを実行することが可能である。１回目からｍ回目（ｍは２以上の整数）の試行処理の罰則処理において、制御回路は、選択された第１配線と非選択の第２配線とに接続された第１メモリセルに対する書き込み動作を省略する。（ｍ＋１）回目以降の試行処理の罰則処理において、制御回路は、選択された第１配線と非選択の第２配線とに接続された第１メモリセルに対して、第１方向の書き込み電圧を印加する。【選択図】図１３

Description

実施形態は、記憶装置及び記憶方法に関する。

データを不揮発に記憶することが可能なクロスポイント型メモリセルアレイを有する記憶装置が知られている。

特開２０２０－００４３１３号公報

データの信頼性を向上させること。

実施形態の記憶装置は、複数の第１配線と、複数の第２配線と、複数の第１メモリセルと、制御回路と、を含む。複数の第２配線の各々は、複数の第１配線と交差して設けられる。複数の第１メモリセルは、複数の第１配線と複数の第２配線との間の複数の交差部分にそれぞれ設けられる。複数の第１メモリセルの各々は、複数の第１配線のうち１つの第１配線と複数の第２配線のうち１つの第２配線とに接続される。制御回路は、制御対象の状態に関する情報を取得することが可能であり、状態に基づいた行動を制御対象に実行させることが可能であり、状態に基づいて読み出し動作及び書き込み動作のそれぞれを実行することが可能である。制御回路は、各々が第１動作と第２動作と第３動作とを含む複数の試行処理を実行する。第１動作において、制御回路は、制御対象が第１状態であることに基づいて複数の第１配線から選択された第１配線と、複数の第２配線との間に接続された複数の第１メモリセルに対する第１読み出し動作を実行し、第１読み出し動作により取得された前記複数の第２配線のそれぞれの読み出し電流の大きさに基づいて第２配線を選択する。第２動作において、制御回路は、選択された第２配線に関連付けられた行動を制御対象に実行させ、制御対象の状態が第２状態に遷移する。第３動作において、制御回路は、制御対象が第２状態であることに基づいて、選択された第１配線を対象とした第１処理又は第２処理を実行する。第１処理において、制御回路は、選択された第１配線と選択された第２配線とに接続された第１メモリセルに、第１方向の書き込み電圧を印加し、選択された第１配線と非選択の第２配線とに接続された第１メモリセルに、第１方向と異なる第２方向の書き込み電圧を印加する。１回目からｍ回目（ｍは２以上の整数）の試行処理の第２処理において、制御回路は、選択された第１配線と選択された第２配線とに接続された第１メモリセルに、第２方向の書き込み電圧を印加し、選択された第１配線と非選択の第２配線とに接続された第１メモリセルに対する書き込み動作を省略する。（ｍ＋１）回目以降の試行処理の第２処理において、制御回路は、選択された第１配線と選択された第２配線とに接続された第１メモリセルに、第２方向の書き込み電圧を印加し、選択された第１配線と非選択の第２配線とに接続された第１メモリセルに対して、第１方向の書き込み電圧を印加する。

第１実施形態に係る記憶装置の構成の一例を示すブロック図。第１実施形態に係る記憶装置が備えるメモリセルアレイの回路構成の一例を示す回路図。第１実施形態に係る記憶装置が備えるメモリセルアレイの平面レイアウトの一例を示す平面図。第１実施形態に係る記憶装置が備えるメモリセルアレイの断面構造の一例を示す、図３のＩＶ－ＩＶ線に沿った断面図。第１実施形態に係る記憶装置が備えるメモリセルアレイの周辺回路の構成の一例を示すブロック図。第１実施形態に係る記憶装置が備える制御回路の機能構成の一例を示すブロック図。第１実施形態に係る記憶装置の第１読み出し動作の一例を示す概略図。第１実施形態に係る記憶装置の第２読み出し動作の一例を示す概略図。第１実施形態に係る記憶装置の第１書き込み動作の一例を示す概略図。第１実施形態に係る記憶装置の第２書き込み動作の一例を示す概略図。強化学習のアルゴリズムの一例を示す概略図。第１実施形態に係る記憶装置が備えるメモリセルアレイに対する強化学習の機能の割り当ての一例を示す概略図。第１実施形態に係る記憶装置の第１試行処理の一例を示すフローチャート。第１実施形態に係る記憶装置の第２試行処理の一例を示すフローチャート。第１実施形態に係る記憶装置の第１試行処理において選択された状態の各メモリセルに対して実行される書き込み動作の一例を示すテーブル。第１実施形態に係る記憶装置の第２試行処理において選択された状態の各メモリセルに対して実行される書き込み動作の一例を示すテーブル。第１実施形態に係る記憶装置の記憶動作の一例を示すフローチャート。第２実施形態に係る記憶装置において記憶部が記憶する情報の一例を示す概略図。第２実施形態に係る記憶装置の第３読み出し動作の一例を示す概略図。第２実施形態に係る記憶装置の第３試行処理の一例を示すフローチャート。第２実施形態に係る記憶装置の記憶動作の一例を示すフローチャート。第３実施形態に係る記憶装置が備えるメモリセルアレイの回路構成の一例を示す回路図。第３実施形態に係る記憶装置が備える制御回路の機能構成の一例を示すブロック図。第３実施形態に係る記憶装置の第３書き込み動作の一例を示す概略図。第３実施形態に係る記憶装置の記憶完了動作の一例を示すフローチャート。第３実施形態に係る記憶装置の劣化確認動作の一例を示すフローチャート。第３実施形態に係る記憶装置のリフレッシュ動作の一例を示すフローチャート。第３実施形態に係る記憶装置における、リテンション性能と学習性能の維持時間との関係性の一例を示すグラフ。第４実施形態に係る記憶装置が備えるメモリセルアレイの回路構成の一例を示す回路図。第４実施形態に係る記憶装置の記憶完了動作の一例を示すフローチャート。第４実施形態に係る記憶装置のリフレッシュ動作の一例を示すフローチャート。

以下に、実施形態について図面を参照して説明する。図面は、模式的又は概念的なものである。各図面の寸法及び比率等は、必ずしも現実のものと同一とは限らない。以下の説明において、略同一の機能及び構成を有する構成要素については、同一の符号が付されている。参照符号を構成する文字の後の数字等は、同じ文字を含んだ参照符号によって参照され、且つ同様の構成を有する要素同士を区別するために使用される。同じ文字を含んだ参照符号で示される要素を相互に区別する必要がない場合、これらの要素は文字のみを含んだ参照符号により参照される。

［１］第１実施形態
第１実施形態に係る記憶装置１は、強化学習に使用可能なメモリシステムの一種である。以下に、第１実施形態に係る記憶装置１について説明する。

［１－１］構成
［１－１－１］記憶装置１の全体構成
図１は、第１実施形態に係る記憶装置１の構成の一例を示すブロック図である。図１に示すように、記憶装置１は、例えば、メモリセルアレイ１０、第１ドライバ回路２０、第２ドライバ回路３０、読み出し回路４０、制御回路５０、センサ６０、及びアクチュエータ７０を備えている。

メモリセルアレイ１０は、ワード線ＷＬ及びビット線ＢＬに関連付けられたメモリセルＭＣの集合である。メモリセルＭＣは、抵抗変化素子を含み、整流機能を有する。メモリセルＭＣの抵抗値は、書き込み動作や消去動作によって変化し得る。メモリセルＭＣは、その抵抗値に基づいてデータを記憶する。例えば、メモリセルＭＣは、高抵抗状態である場合に“１”データを記憶し、低抵抗状態である場合に“０”データを記憶する。メモリセルＭＣの抵抗値に対するデータの割り付けは、その他の設定であってもよい。

第１ドライバ回路２０は、メモリセルアレイ１０に設けられた複数のワード線ＷＬに接続される。第１ドライバ回路２０は、メモリセルＭＣの読み出し動作、書き込み動作、消去動作等で使用される電圧を生成する。そして、第１ドライバ回路２０は、生成した電圧を、複数のワード線ＷＬのそれぞれに印加し得る。

第２ドライバ回路３０は、メモリセルアレイ１０に設けられた複数のビット線ＢＬに接続される。第２ドライバ回路３０は、メモリセルＭＣの読み出し動作、書き込み動作、消去動作等で使用される電圧を生成する。そして、第２ドライバ回路３０は、生成した電圧を、複数のビット線ＢＬのそれぞれに印加し得る。

読み出し回路４０は、メモリセルアレイ１０に設けられた複数のビット線ＢＬに接続される。読み出し回路４０は、読み出し動作時に使用される。読み出し回路４０は、メモリセルＭＣに記憶されたデータの判別や、ビット線ＢＬに流れている読み出し電流量の計測や、複数のビット線ＢＬ間での読み出し結果の比較等を実行し得る。

制御回路５０は、記憶装置１の全体の動作を制御する。制御回路５０は、ＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）、及びＲＯＭ（Read Only Memory）等を含み得る。ＣＰＵは、制御プログラム等を実行し得る。ＲＡＭは、ＣＰＵの作業領域として使用される。ＲＯＭは、記憶装置１の制御プログラムや、制御プログラム等で参照されるデータ等を含む。制御回路５０は、例えば、外部のコントローラから受信したコマンドや制御プログラムに基づいて、第１ドライバ回路２０、第２ドライバ回路３０、及び読み出し回路４０を制御して、読み出し動作、書き込み動作、及び消去動作等を実行し得る。また、制御回路５０は、強化学習に使用可能な動作を実行し得る。

センサ６０は、制御回路５０の制御に基づいて、強化学習の対象となる装置（以下、エージェントとも呼ぶ）の状態を検知可能に構成される。そして、センサ６０は、検知結果を制御回路５０に入力する。

アクチュエータ７０は、制御回路５０の制御に基づいて、エージェントを制御する。アクチュエータ７０は、制御回路５０から指示された行動を、エージェントに実行させることができる。

尚、記憶装置１は、その他の構成であってもよい。例えば、強化学習がソフトウェア上で表現できる場合には、記憶装置１からセンサ６０やアクチュエータ７０が省略されてもよい。制御回路５０は、外部接続されたＲＡＭやＲＯＭを使用してもよい。

［１－１－２］メモリセルアレイ１０の構成
記憶装置１では、クロスポイント構造のメモリセルアレイ１０が使用される。以下に、メモリセルアレイ１０の構成の一例について説明する。以下で参照される図面において、Ｘ方向はワード線ＷＬの延伸方向に対応し、Ｙ方向はビット線ＢＬの延伸方向に対応し、Ｚ方向は記憶装置１が形成される基板の表面に対する鉛直方向に対応している。

（メモリセルアレイ１０の回路構成）
図２は、第１実施形態に係る記憶装置１が備えるメモリセルアレイ１０の回路構成の一例を示す回路図である。図２に示すように、メモリセルアレイ１０は、例えば、ワード線ＷＬ０～ＷＬ３と、ビット線ＢＬ０～ＢＬ３及びＢＬｘと、複数のメモリセルＭＣとを含む。尚、ワード線ＷＬとビット線ＢＬとのそれぞれの数は、その他の数であってもよい。

複数のワード線ＷＬと複数のビット線ＢＬとは、交差している。１つのメモリセルＭＣが、１本のワード線ＷＬと１本のビット線ＢＬとの交差部分に設けられ、当該１本のワード線ＷＬと当該１本のビット線ＢＬとの間に接続される。

具体的には、ワード線ＷＬ０に、メモリセルＭＣ００、ＭＣ０１、ＭＣ０２、ＭＣ０３、及びＭＣ０ｘのそれぞれの一端が接続される。ワード線ＷＬ１に、メモリセルＭＣ１０、ＭＣ１１、ＭＣ１２、ＭＣ１３、及びＭＣ１ｘのそれぞれの一端が接続される。ワード線ＷＬ２に、メモリセルＭＣ２０、ＭＣ２１、ＭＣ２２、ＭＣ２３、及びＭＣ２ｘのそれぞれの一端が接続される。ワード線ＷＬ３に、メモリセルＭＣ３０、ＭＣ３１、ＭＣ３２、ＭＣ３３、及びＭＣ３ｘのそれぞれの一端が接続される。

ビット線ＢＬ０に、メモリセルＭＣ００、ＭＣ１０、ＭＣ２０、及びＭＣ３０のそれぞれの他端が接続される。ビット線ＢＬ１に、メモリセルＭＣ０１、ＭＣ１１、ＭＣ２１、及びＭＣ３１のそれぞれの他端が接続される。ビット線ＢＬ２に、メモリセルＭＣ０２、ＭＣ１２、ＭＣ２２、及びＭＣ３２のそれぞれの他端が接続される。ビット線ＢＬ３に、メモリセルＭＣ０３、ＭＣ１３、ＭＣ２３、及びＭＣ３３のそれぞれの他端が接続される。ビット線ＢＬｘに、メモリセルＭＣ０ｘ、ＭＣ１ｘ、ＭＣ２ｘ、及びＭＣ３ｘのそれぞれの他端が接続される。

第１実施形態に係る記憶装置１では、複数のメモリセルＭＣが２つのメモリグループＭＧに分類される。メモリグループＭＧ１は、ビット線ＢＬ０～ＢＬ３のいずれかに接続されたメモリセルＭＣを含む。メモリグループＭＧ２は、ビット線ＢＬｘに接続されたメモリセルＭＣを含む。メモリグループＭＧ１は、例えば、強化学習の結果を記憶する。メモリグループＭＧ２は、例えば、強化学習時に参照される情報を記憶する。以下では、ビット線ＢＬｘに接続されたメモリセルＭＣのことを、“参照セル”とも呼ぶ。

（メモリセルアレイ１０の構造）
図３は、第１実施形態に係る記憶装置１が備えるメモリセルアレイ１０の平面レイアウトの一例を示す平面図である。図３に示すように、メモリセルアレイ１０は、複数の導電体層１１と、複数の導電体層１２とを含む。

各導電体層１１は、Ｘ方向に延伸して設けられた部分を有する。複数の導電体層１１は、Ｙ方向に並んで配置される。複数の導電体層１１は、互いに離れている。複数の導電体層１１は、それぞれワード線ＷＬ０～ＷＬ３として使用される。導電体層１１の数は、ワード線ＷＬの本数に対応している。

各導電体層１２は、Ｙ方向に延伸して設けられた部分を有する。複数の導電体層１２は、Ｘ方向に並んで配置される。複数の導電体層１１は、互いに離れている。複数の導電体層１２は、それぞれビット線ＢＬ０～ＢＬ３及びＢＬｘとして使用される。導電体層１２の数は、ワード線ＷＬの本数に対応している。

導電体層１１及び１２の交差部分のそれぞれに、１つのメモリセルＭＣが設けられる。言い換えると、メモリセルＭＣは、複数の導電体層１１と複数の導電体層１２との間の複数の交差部分のそれぞれに設けられる。各メモリセルＭＣは、１つの導電体層１１と１つの導電体層１２とによって、Ｚ方向に挟まれている。

図４は、第１実施形態に係る記憶装置が備えるメモリセルアレイ１０の断面構造の一例を示す、図３のＩＶ－ＩＶ線に沿った断面図である。図４に示すように、メモリセルＭＣは、例えば、常誘電体膜１３と強誘電体膜１４とを含む。

常誘電体膜１３は、導電体層１２（ビット線ＢＬ）の上に設けられる。強誘電体膜１４は、常誘電体膜１３の上に設けられる。導電体層１１（ワード線ＷＬ）は、強誘電体膜１４の上に設けられる。常誘電体膜１３の誘電率は、強誘電体膜１４の誘電率よりも低い。また、常誘電体膜１３のバンドギャップは、強誘電体膜１４のバンドギャップよりも広い。常誘電体膜１３は、例えば、シリコン酸化膜、シリコン酸窒化膜、又は金属酸化物である。強誘電体膜１４は、例えば、ハフニウム酸化物、ジルコニウム酸化物、ハフニウム酸化物とジルコニウム酸化物との化合物、又はシリケート膜（ＨｆＳｉＯｘ）である。これにより、メモリセルＭＣは、下部電極（導電体層１２）と、上部電極（導電体層１１）とによって挟まれた２端子のＦＴＪ（Ferroelectric Tunnel Junction）素子として機能する。

ＦＴＪ素子は、抵抗変化素子の一種である。ＦＴＪ素子は、低電流、低電圧駆動、高速スイッチングが実現可能であり、整流特性を有する。メモリセルＭＣでは、導電体層１２から導電体層１１に電子が向かう方向が順方向に対応し、導電体層１１から導電体層１２に電子が向かう方向が逆方向に対応している。メモリセルＭＣの抵抗値は、強誘電体膜１４の分極量に応じて変わり得る。強誘電体膜１４の分極量は、メモリセルＭＣに順方向の書き込み電圧、又は逆方向の書き込み電圧が印加されることによって変化する。メモリセルＭＣの抵抗値は、順方向の書き込み電圧が印加された場合に下がり、逆方向の書き込み電圧が印加された場合に上がる。尚、メモリセルＭＣは、ＦＴＪ素子に限定されない。メモリセルＭＣは、整流機能を有する抵抗変化素子であれば、その他の構成であってもよい。本例では、導電体層１２（ビット線ＢＬ）の上方に導電体層１１（ワード線ＷＬ）が設けられているが、導電体層１２と導電体層１１とが入れ替えられてもよい。ワード線ＷＬとビット線ＢＬとの接続関係に応じて、メモリセルＭＣ内の常誘電体膜１３と強誘電体膜１４との積層順番が変更されてもよい。

［１－１－３］周辺回路の構成
図５は、第１実施形態に係る記憶装置１が備えるメモリセルアレイ１０の周辺回路（第１ドライバ回路２０、第２ドライバ回路３０、及び読み出し回路４０）の構成の一例を示すブロック図である。図５に示すように、第１ドライバ回路２０は、複数の電圧発生器２１と、複数のトランジスタ２２とを含む。第２ドライバ回路３０は、複数の電圧発生器３１と、複数のトランジスタ３２とを含む。読み出し回路４０は、例えば、複数のセンス回路４１と、複数のトランジスタ４２と、比較回路４３と、計測回路４４とを含む。

複数の電圧発生器２１は、複数のトランジスタ２２のそれぞれの一端にそれぞれ接続される。複数のトランジスタ２２のそれぞれの他端は、複数のワード線ＷＬ０～ＷＬ３にそれぞれ接続される。電圧発生器２１は、制御回路５０の制御に基づいて電圧を生成する。そして、電圧発生器２１は、生成した電圧を、トランジスタ２２を介して、関連付けられたワード線ＷＬに印加する。各電圧発生器２１が生成する電圧は、制御回路５０によって個別に制御され得る。複数のトランジスタ２２のそれぞれのゲート電圧は、制御回路５０によって個別に制御され得る。

複数の電圧発生器３１は、複数のトランジスタ３２のそれぞれの一端にそれぞれ接続される。複数のトランジスタ３２のそれぞれの他端は、複数のビット線ＢＬ０～ＢＬ３及びＢＬｘにそれぞれ接続される。電圧発生器３１は、制御回路５０の制御に基づいて電圧を生成する。そして、電圧発生器３１は、生成した電圧を、トランジスタ３２を介して、関連付けられたビット線ＢＬに印加する。各電圧発生器３１が生成する電圧は、制御回路５０によって個別に制御され得る。複数のトランジスタ３２のそれぞれのゲート電圧は、制御回路５０によって個別に制御され得る。

複数のセンス回路４１は、複数のトランジスタ４２のそれぞれの一端にそれぞれ接続される。複数のトランジスタ４２のそれぞれの他端は、複数のビット線ＢＬ０～ＢＬ３及びＢＬｘにそれぞれ接続される。センス回路４１には、関連付けられたビット線ＢＬで流れている電流が、トランジスタ４２を介して流れ込み得る。そして、センス回路４１は、流れ込んできた電流に基づいて、メモリセルＭＣに記憶されたデータを判定し得る。尚、センス回路４１は、メモリセルＭＣに記憶されたデータをビット線ＢＬの電圧に基づいて判定する回路構成を有していてもよい。

比較回路４３は、例えば、メモリグループＭＧ１に関連付けられたビット線ＢＬに接続されたセンス回路４１に接続される。そして、比較回路４３は、メモリグループＭＧ１に関連付けられた複数のビット線ＢＬのそれぞれの電流値を比較する。それから、比較回路４３は、メモリグループＭＧ１に関連付けられた複数のビット線ＢＬのうち、最も電流量が大きいビット線ＢＬの情報を、制御回路５０に通知する。比較回路４３としては、Ｗｉｎｎｅｒ－Ｔａｋｅ－Ａｌｌ回路が使用され得る。Ｗｉｎｎｅｒ－Ｔａｋｅ－Ａｌｌ回路は、複数の電流入力から最大の電流を選び出す回路である。Ｗｉｎｎｅｒ－Ｔａｋｅ－Ａｌｌ回路の入力インピーダンスは、メモリセルＭＣの抵抗値に対して無視できる程に小さい。尚、比較回路４３は、センス回路４１を介してビット線ＢＬに接続されていなくてもよい。比較回路４３は、少なくとも、メモリグループＭＧ１に関連付けられたビット線ＢＬの電流を検知することが可能に構成されていればよい。

計測回路４４は、例えば、メモリグループＭＧ２に関連付けられたビット線ＢＬに接続されたセンス回路４１に接続される。そして、計測回路４４は、メモリグループＭＧ２に関連付けられたビット線ＢＬｘの電流値を計測する。それから、計測回路４４は、ビット線ＢＬｘを流れる電流値の計測結果を、制御回路５０に通知する。尚、計測回路４４は、センス回路４１を介してビット線ＢＬに接続されていなくてもよい。計測回路４４は、少なくとも、メモリグループＭＧ２に関連付けられたビット線ＢＬｘの電流を計測することが可能に構成されていればよい。

尚、周辺回路は、その他の構成であってもよい。例えば、ビット線ＢＬの一端に第２ドライバ回路３０が接続され、且つビット線ＢＬの他端に読み出し回路４０が接続されていなくてもよく、第２ドライバ回路３０と読み出し回路４０との両方が、ビット線ＢＬの一方側に接続されてもよい。第２ドライバ回路３０及び読み出し回路４０は、上述された機能を使用することが可能であれば、統合されてもよいし、その他の構成であってもよい。比較回路４３及び計測回路４４は、制御回路５０に含まれていてもよい。電圧発生器２１は、ワード線ＷＬ毎に設けられなくてもよいし、電圧発生器３１は、ビット線ＢＬ毎に設けられなくてもよい。所望の電圧をビット線ＢＬやワード線ＷＬに印加することが可能であれば、電圧発生器が適宜共有されてもよい。

［１－１－４］制御回路５０の構成
図６は、第１実施形態に係る記憶装置１が備える制御回路５０の機能構成の一例を示すブロック図である。図６に示すように、制御回路５０は、例えば、状態取得部５１、試行制御部５２、第１ドライバ制御部５３、第２ドライバ制御部５４、読み出し制御部５５、行動実行部５６、及び記憶部５７を含む。第１実施形態における制御回路５０の各機能構成は、例えば、制御回路５０が備えるＣＰＵやＲＡＭ等によって実現される。

状態取得部５１は、センサ６０の検知結果を受け取る。そして、状態取得部５１は、受け取った計測結果から、エージェントの状態が予め分類された状態のどれに対応するのかを確認する。それから、状態取得部５１は、確認されたエージェントの状態を、試行制御部５２に通知する。

試行制御部５２は、後述される記憶動作及び試行動作の全体を制御する。試行制御部５２は、状態取得部５１から通知された計測対象の状態に基づいてワード線ＷＬを選択して、読み出し動作や書き込み動作を実行する。また、試行制御部５２は、読み出し動作の結果に基づいた命令を、行動実行部５６に実行させる。

第１ドライバ制御部５３は、試行制御部５２の制御に基づいて、第１ドライバ回路２０を制御する。

第２ドライバ制御部５４は、試行制御部５２の制御に基づいて、第２ドライバ回路３０を制御する。

読み出し制御部５５は、試行制御部５２の制御に基づいて、読み出し回路４０を制御する。また、読み出し制御部５５は、読み出し回路４０から比較結果や計測結果を受け取る。比較結果は、電流量の最も大きいビット線ＢＬの情報を含む。読み出し制御部５５は、受け取った比較結果を、試行制御部５２に転送する。計測結果は、電流量の情報を含む。読み出し制御部５５は、受け取った計測結果を、記憶部５７に転送する。

行動実行部５６は、試行制御部５２の制御に基づいて、アクチュエータ７０を制御する。エージェントは、アクチュエータ７０の制御に基づいて、試行制御部５２によって指定された行動を実行し得る。例えば、行動実行部５６は、指定された行動を実行するための機械的な信号を生成する。

記憶部５７は、強化学習時に参照される情報を記憶する。例えば、記憶部５７は、参照情報ＲＩを記憶する。参照情報ＲＩは、読み出し制御部５５から受け取った計測結果の情報（後述される参照値ＲＶ）を蓄積する。各参照値ＲＶは、例えば記憶された時期が分かるように記憶され、例えば時刻情報が関連付けられる。試行制御部５２は、参照情報ＲＩの状態に応じて、強化学習の方法を変更し得る。

［１－２］動作
次に、第１実施形態に係る記憶装置１の動作について説明する。尚、以下の説明では、選択されたメモリセルＭＣのことを、選択メモリセルＭＣと呼ぶ。選択メモリセルＭＣに関連付けられたワード線ＷＬ及びビット線ＢＬの組を、それぞれ選択ワード線ＷＬ及び選択ビット線ＢＬと呼ぶ。選択ワード線ＷＬ以外のワード線ＷＬのことを、非選択ワード線ＷＬと呼ぶ。選択ビット線ＢＬ以外のビット線ＢＬのことを非選択ビット線ＢＬと呼ぶ。選択ワード線ＷＬに接続され且つ非選択ビット線ＢＬに接続されたメモリセルＭＣと、選択ビット線ＢＬに接続され且つ非選択ワード線ＷＬに接続されたメモリセルＭＣとのそれぞれのことを、半選択メモリセルＭＣと呼ぶ。非選択ワード線ＷＬに接続され且つ非選択ビット線ＢＬに接続されたメモリセルＭＣのことを、非選択メモリセルＭＣと呼ぶ。ワード線ＷＬに電圧が印加されることは、電圧発生器２１がトランジスタ２２を介してワード線ＷＬに電圧を印加することに対応している。ビット線ＢＬに電圧が印加されることは、電圧発生器３１がトランジスタ３２を介してビット線ＢＬに電圧を印加することに対応している。ビット線ＢＬに電圧が印加されないことは、トランジスタ３２がオフ状態になっていることに対応している。

［１－２－１］読み出し動作
第１実施形態に係る記憶装置１は、制御回路５０の制御に基づいて、第１読み出し動作と第２読み出し動作とを実行することができる。以下に、第１読み出し動作と第２読み出し動作とのそれぞれの詳細について順に説明する。

（第１読み出し動作）
図７は、第１実施形態に係る記憶装置１の第１読み出し動作の一例を示す概略図であり、ある時刻において各配線に印加される電圧を示している。図７に示すように、第１読み出し動作において、制御回路５０は、１本のワード線ＷＬと、複数のビット線ＢＬとを選択した読み出し動作を実行する。以下に、ワード線ＷＬ０とビット線ＢＬ０～ＢＬ３とが選択された場合の第１読み出し動作について例示する。

選択ワード線ＷＬ０には、Ｖｒｅａｄが印加される。非選択ワード線ＷＬ１～ＷＬ３のそれぞれには、Ｖｓｓが印加される。選択ビット線ＢＬ０～ＢＬ３のそれぞれには、Ｖｓｓが印加される。非選択ビット線ＢＬｘには、例えば、電圧が印加されない、又は、Ｖｒｅａｄ／２が印加される。Ｖｓｓは、接地電圧（例えば０Ｖ）である。Ｖｒｅａｄは、Ｖｓｓよりも高い読み出し電圧である。

このように、第１読み出し動作において、選択メモリセルＭＣと半選択メモリセルＭＣとのそれぞれには、順方向電圧が印加される。選択メモリセルＭＣの両端の電圧差は、半選択メモリセルＭＣの両端の電圧差よりも大きい。選択メモリセルＭＣの両端の電圧差は、例えば“０”データを記憶するメモリセルＭＣの閾値電圧以上である。半選択メモリセルＭＣの両端の電圧差は、例えば“０”データを記憶するメモリセルＭＣの閾値電圧よりも低い。非選択メモリセルＭＣの両端には略同一の電圧が印加され、非選択メモリセルＭＣの両端における電圧差が抑制される。

その結果、選択ワード線ＷＬ０から、選択メモリセルＭＣ００、ＭＣ０１、ＭＣ０２、及びＭＣ０３をそれぞれ介する電流が流れ得る。選択メモリセルＭＣ００を介して選択ビット線ＢＬ０に流れる読み出し電流Ｉｃｅｌｌ０と、選択メモリセルＭＣ０１を介して選択ビット線ＢＬ１に流れる読み出し電流Ｉｃｅｌｌ１と、選択メモリセルＭＣ０２を介して選択ビット線ＢＬ２に流れる読み出し電流Ｉｃｅｌｌ２と、選択メモリセルＭＣ０３を介して選択ビット線ＢＬ３に流れる読み出し電流Ｉｃｅｌｌ３とのそれぞれは、読み出し回路４０内の比較回路４３に供給される。半選択メモリセルＭＣ０ｘでは、読み出し電流が抑制され、当該半選択メモリセルＭＣ０ｘに対するディスターブが抑制される。

そして、第１実施形態の第１読み出し動作では、読み出し回路４０内の比較回路４３が、メモリグループＭＧ１に関連付けられた選択ビット線ＢＬのうち、最も読み出し電流が大きいビット線ＢＬを検出して、検出結果を制御回路５０に通知する。

（第２読み出し動作）
図８は、第１実施形態に係る記憶装置１の第２読み出し動作の一例を示す概略図であり、ある時刻において各配線に印加される電圧を示している。図８に示すように、第２読み出し動作において、制御回路５０は、複数のワード線ＷＬと、１本のビット線ＢＬとを選択した読み出し動作を実行する。以下に、ワード線ＷＬ０～ＷＬ３とビット線ＢＬｘとが選択された場合の第２読み出し動作について例示する。

選択ワード線ＷＬ０～ＷＬ３のそれぞれには、Ｖｒｅｆが印加される。選択ビット線ＢＬｘには、Ｖｓｓが印加される。非選択ビット線ＢＬには、例えば、電圧が印加されない、又は、Ｖｒｅａｄ／２が印加される。Ｖｒｅｆは、Ｖｓｓよりも高い読み出し電圧である。

このように、第２読み出し動作において、選択メモリセルＭＣと半選択メモリセルＭＣとのそれぞれには、順方向電圧が印加される。選択メモリセルＭＣの両端の電圧差は、半選択メモリセルＭＣの両端の電圧差よりも大きい。選択メモリセルＭＣの両端の電圧差は、例えば“０”データを記憶するメモリセルＭＣの閾値電圧以上である。半選択メモリセルＭＣの両端の電圧差は、例えば“０”データを記憶するメモリセルＭＣの閾値電圧よりも低い。非選択メモリセルＭＣの両端には略同一の電圧が印加され、非選択メモリセルＭＣの両端における電圧差が抑制される。

その結果、選択ワード線ＷＬ０～ＷＬ３のそれぞれから、選択メモリセルＭＣ０ｘ、ＭＣ１ｘ、ＭＣ２ｘ、及びＭＣ３ｘをそれぞれ介する電流が流れ得る。選択メモリセルＭＣ０ｘを介して選択ビット線ＢＬｘに流れる読み出し電流Ｉｒｅｆ０と、選択メモリセルＭＣ１ｘを介して選択ビット線ＢＬｘに流れる読み出し電流Ｉｒｅｆ１と、選択メモリセルＭＣ２ｘを介して選択ビット線ＢＬｘに流れる読み出し電流Ｉｒｅｆ２と、選択メモリセルＭＣ３ｘを介して選択ビット線ＢＬｘに流れる読み出し電流Ｉｒｅｆ３とのそれぞれは、読み出し回路４０内の計測回路４４に供給される。半選択メモリセルＭＣでは、読み出し電流が抑制され、当該半選択メモリセルＭＣに対するディスターブが抑制される。

そして、第１実施形態の第２読み出し動作では、読み出し回路４０内の計測回路４４が、メモリグループＭＧ２に関連付けられた複数の選択メモリセルＭＣを流れる読み出し電流の合計（参照電流Ｉｒｅｆ）の電流値を計測して、計測結果を制御回路５０に通知する。

［１－２－２］書き込み動作
第１実施形態に係る記憶装置１は、制御回路５０の制御に基づいて、第１書き込み動作と第２書き込み動作とを実行することができる。第１書き込み動作は、選択メモリセルＭＣの抵抗値を下げる書き込み動作である。第２書き込み動作は、選択メモリセルＭＣの抵抗値を上げる書き込み動作である。以下に、第１読み出し動作と第２読み出し動作とのそれぞれの詳細について順に説明する。

（第１書き込み動作）
図９は、第１実施形態に係る記憶装置１の第１書き込み動作の一例を示す概略図であり、ある時刻において各配線に印加される電圧を示している。図９に示すように、制御回路５０は、例えば１つのメモリセルＭＣを選択して、第１書き込み動作を実行する。以下に、メモリセルＭＣ００が選択された場合の第１書き込み動作について例示する。

選択ワード線ＷＬ０には、Ｖｓｅｔが印加される。非選択ワード線ＷＬ１～ＷＬ３のそれぞれには、Ｖｓｅｔ／２が印加される。選択ビット線ＢＬ０には、Ｖｓｓが印加される。非選択ビット線ＢＬには、Ｖｓｅｔ／２が印加される。Ｖｓｅｔは、Ｖｒｅａｄよりも高い順方向の書き込み電圧である。

このように、第１書き込み動作において、選択メモリセルＭＣと半選択メモリセルＭＣとのそれぞれには、順方向電圧が印加される。選択メモリセルＭＣの両端の電圧差は、少なくとも順方向の書き込み電圧以上であればよい。半選択メモリセルＭＣの両端の電圧差は、順方向の書き込み電圧よりも低い。非選択メモリセルＭＣの両端には略同一の電圧が印加され、非選択メモリセルＭＣの両端における電圧差が抑制される。

その結果、順方向の書き込み電圧が印加された選択メモリセルＭＣ００の強誘電体膜１４の分極量が変化し、選択メモリセルＭＣ００の抵抗値が下がる。一方で、半選択メモリセルＭＣと非選択メモリセルＭＣとのそれぞれの抵抗値の変化は、抑制される。尚、制御回路５０は、複数のメモリセルＭＣを対象とした第１書き込み動作を実行する場合に、図９を用いて説明されたように１つずつ選択メモリセルＭＣの抵抗値を変化させてもよいし、複数の選択メモリセルＭＣの抵抗値を一括で変化させてもよい。第１書き込み動作において複数の選択メモリセルＭＣの抵抗値が一括で変更される場合、例えば、１本のワード線ＷＬと複数のビット線ＢＬとが選択される。

（第２書き込み動作）
図１０は、第１実施形態に係る記憶装置１の第２書き込み動作の一例を示す概略図であり、ある時刻において各配線に印加される電圧を示している。図１０に示すように、制御回路５０は、例えば１つのメモリセルＭＣを選択して、第２書き込み動作を実行する。以下に、メモリセルＭＣ００が選択された場合の第２読み出し動作について例示する。

選択ワード線ＷＬ０には、Ｖｒｅｓｅｔが印加される。非選択ワード線ＷＬ１～ＷＬ３のそれぞれには、Ｖｒｅｓｅｔ／２が印加される。選択ビット線ＢＬ０には、Ｖｓｓが印加される。非選択ビット線ＢＬには、Ｖｒｅｓｅｔ／２が印加される。Ｖｒｅｓｅｔは、Ｖｓｓよりも低い逆方向の書き込み電圧である。

このように、第２書き込み動作において、選択メモリセルＭＣと半選択メモリセルＭＣとのそれぞれには、逆方向電圧が印加される。選択メモリセルＭＣの両端の電圧差は、少なくとも逆方向の書き込み電圧以下であればよい。半選択メモリセルＭＣの両端の電圧差は、逆方向の書き込み電圧よりも高い。非選択メモリセルＭＣの両端には略同一の電圧が印加され、非選択メモリセルＭＣの両端における電圧差が抑制される。

その結果、逆方向の書き込み電圧が印加された選択メモリセルＭＣ００の強誘電体膜１４の分極量が変化し、選択メモリセルＭＣ００の抵抗値が上がる。一方で、半選択メモリセルＭＣと非選択メモリセルＭＣとのそれぞれの抵抗値の変化は、抑制される。尚、制御回路５０は、複数のメモリセルＭＣを対象とした第２書き込み動作を実行する場合に、図１０を用いて説明されたように１つずつ選択メモリセルＭＣの抵抗値を変化させてもよいし、複数の選択メモリセルＭＣの抵抗値を一括で変化させてもよい。第２書き込み動作において複数の選択メモリセルＭＣの抵抗値が一括で変更される場合、例えば、１本のワード線ＷＬと複数のビット線ＢＬとが選択される。

［１－２－３］強化学習の概要
図１１は、強化学習のアルゴリズムの一例を示す概略図である。図１１に示すように、学習者（エージェント）は、強化学習を実行し得る。強化学習は、試行錯誤を通じて、成功報酬を最大化する方策を学習する方法である。

具体的には、まず、エージェントは、ある環境下における現在の状態Ｓ（ｉ）（ｉは０以上の整数）を観察する（状態観察）。状態Ｓ（ｉ）には、一つ以上のパラメータが使用される。例えば、各パラメータは、所定の範囲を有する複数領域に分割される。そして、複数のパラメータ間の組み合わせのそれぞれに、１つの状態Ｓが設定される。本例では、状態Ｓ０～ＳＮ（Ｎは１以上の整数）が設定されている。

それから、エージェントは、現在の状態Ｓ（ｉ）に対して取るべき行動Ａ（ｉ）を決定する（行動選択）。各行動Ａには、エージェントが実行し得る行動が割り当てられている。本例では、行動Ａ０～ＡＭ（Ｍは１以上の整数）が設定されている。エージェントは、状態Ｓ（ｉ）に関連付けられた行動Ａ（ｉ）を確認して、行動Ａ（ｉ）を実行する。

エージェントの状態Ｓ（ｉ）は、行動Ａ（ｉ）が実行された結果、状態Ｓ（ｉ＋１）に変化する。そして、エージェントは、状態Ｓ（ｉ＋１）に変化した結果に応じて、環境から報酬Ｒ（ｉ）を得る（報酬の受け取り）。エージェントは、状態Ｓ（ｉ＋１）が所定の条件を満たしている場合に、報酬Ｒ（ｉ）として成功報酬を得る。一方で、エージェントは、状態Ｓ（ｉ＋１）が所定の条件を満たしていない場合に、報酬Ｒ（ｉ）として罰則を得る。以下では、エージェントに成功報酬を与える処理のことを報酬処理と呼び、エージェントに罰則を与える処理のことを罰則処理と呼ぶ。

強化学習において、エージェントは、以上で説明された状態観察と行動選択と報酬の受け取りとの一連の動作を繰り返すことによって、成功報酬が最も多く得られるような方策（状態Ｓと行動Ａとの組み合わせ）を学習する。第１実施形態に係る記憶装置１では、強化学習に、クロスポイント構造のメモリセルアレイ１０を使用する。

図１２は、第１実施形態に係る記憶装置１が備えるメモリセルアレイ１０に対する強化学習の機能の割り当ての一例を示す概略図である。図１２に示すように、第１実施形態に係る記憶装置１では、状態Ｓ０～Ｓ３が、ワード線ＷＬ０～ＷＬ３にそれぞれ割り当てられ、行動Ａ０～Ａ３が、ビット線ＢＬ０～ＢＬ３にそれぞれ割り当てられる。

つまり、記憶装置１では、エージェントの状態Ｓ（ｉ）が、ワード線ＷＬのアドレスに関連付けられている。制御回路５０は、エージェントの状態Ｓ（ｉ）に応じてワード線ＷＬのアドレスを選択し得る。例えば、制御回路５０は、第１読み出し動作によって、選択ワード線ＷＬに接続され且つメモリグループＭＧ１に関連付けられた複数のビット線ＢＬのうち、最も読み出し電流が大きいビット線ＢＬを特定及び選択する。

同様に、エージェントの行動Ａ（ｉ）が、ビット線ＢＬのアドレスに関連付けられている。制御回路５０は、選択された状態Ｓから導出された行動Ａ（ｉ）を、エージェントに実行させ得る。例えば、制御回路５０は、第１読み出し動作によって選択されたビット線ＢＬに関連付けられた行動Ａ（ｉ）を実行する。すると、エージェントの状態Ｓ（ｉ）は、新たな状態Ｓ（ｉ＋１）に変化する。

状態Ｓ（ｉ＋１）が所定の条件（成功条件）を満たしている場合、制御回路５０は、当該方策に対する報酬処理を実行する。報酬処理は、状態Ｓ（ｉ）と行動Ａ（ｉ）とに関連付けられたメモリセルＭＣ（選択メモリセルＭＣ）を対象とした第１書き込み動作を含む。一方で、状態Ｓ（ｉ＋１）が所定の条件（成功条件）を満たしていない場合、制御回路５０は、当該方策に対する罰則処理を実行する。罰則処理は、選択メモリセルＭＣを対象とした第２書き込み動作を含む。つまり、選択メモリセルＭＣの抵抗値は、報酬処理が実行された場合に下がり、罰則処理が実行された場合に上がる。

以上のように、第１実施形態に係る記憶装置１では、行動Ａ０～Ａ３が、メモリグループＭＧ１に関連付けられた複数のビット線ＢＬに割り当てられている。一方で、メモリグループＭＧ２に関連付けられたビット線ＢＬｘには、行動Ａが割り当てられない。ビット線ＢＬｘに接続されたメモリセルＭＣ０ｘ、ＭＣ１ｘ、ＭＣ２ｘ、及びＭＣ３ｘのそれぞれは、強化学習時に使用される参照セルとして使用される。記憶動作において制御回路５０は、ワード線ＷＬを共有する選択メモリセルＭＣに対する報酬処理又は罰則処理と同様の動作を、参照セルに対して実行し得る。

［１－２－４］記憶動作
第１実施形態に係る記憶装置１は、制御回路５０の制御に基づいて記憶動作を実行し得る。記憶動作は、第１試行処理と第２試行処理とを含む。各試行処理は、状態観察と行動選択と報酬の受け取りとの一連の動作を含む。以下に、第１試行処理と、第２試行処理と、第１試行処理と第２試行処理とのそれぞれで実行される書き込み動作の具体例と、第１実施形態の記憶動作とのそれぞれの詳細について説明する。

尚、以下の説明では、“状態Ｓ（ｉ）のメモリセルＭＣ”は、状態Ｓ（ｉ）が割り当てられたワード線ＷＬに接続されたメモリセルＭＣのことを示している。“状態Ｓ（ｉ）の選択メモリセルＭＣ”は、状態Ｓ（ｉ）が割り当てられたワード線ＷＬと、選択された行動Ａ（ｉ）が割り当てられたビット線ＢＬとのそれぞれに接続されたメモリセルＭＣのことを示している。“状態Ｓ（ｉ）の非選択メモリセルＭＣ”は、状態Ｓ（ｉ）が割り当てられたワード線ＷＬと、選択されなかった行動Ａが割り当てられたビット線ＢＬとのそれぞれに接続されたメモリセルＭＣのことを示している。

（第１試行処理）
図１３は、第１実施形態に係る記憶装置１の第１試行処理の一例を示すフローチャートである。図１３に示すように、記憶装置１は、第１試行処理において、ステップＳＴ１０～ＳＴ１６、ＳＴ２０、ＳＴ２１、及びＳＴ３０～ＳＴ３２のそれぞれの処理を実行し得る。以下に、第１試行処理の詳細について説明する。

制御回路５０は、例えば、後述される第１実施形態に係る記憶装置１の記憶動作のフローに応じて、第１試行処理を開始する（開始）。

まず、制御回路５０（試行制御部５２）が、エージェントの状態Ｓ（ｉ）を確認する（ステップＳＴ１０）。尚、各試行処理における初期の状態Ｓ（ｉ）の設定には、様々な方法が適用され得る。例えば、状態Ｓ（ｉ）は、制御回路５０によって設定されてもよいし、外部から入力された情報に基づいて設定されてもよい。

次に、制御回路５０が、メモリグループＭＧ１内で状態Ｓ（ｉ）の複数のメモリセルＭＣを対象とした第１読み出し動作を実行する（ステップＳＴ１１）。言い換えると、制御回路５０が、状態Ｓ（ｉ）に割り当てられたワード線ＷＬを選択して、メモリグループＭＧ１に含まれた複数のメモリセルＭＣを対象とした第１読み出し動作を実行する。制御回路５０は、第１読み出し動作によって、メモリグループＭＧ１に関連付けられた複数のビット線のうち読み出し電流が最大であるビット線ＢＬを確認する。

次に、制御回路５０が、行動Ａ（ｉ）を選択する（ステップＳＴ１２）。具体的には、行動実行部５６が、試行制御部５２の制御に基づいて、ステップＳＴ１１の第１読み出し動作の結果に基づいて選択されたビット線ＢＬに関連付けられた行動Ａ（ｉ）を実行する。すると、エージェントの状態が、状態Ｓ（ｉ）から状態Ｓ（ｉ＋１）に変化する。

次に、制御回路５０が、状態Ｓ（ｉ＋１）を確認する（ステップＳＴ１２）。制御回路５０は、状態Ｓ（ｉ＋１）を、例えばセンサ６０の検知結果に基づいて把握する。そして、制御回路５０は、状態Ｓ（ｉ＋１）が所定の条件を満たしているか（“成功”）、所定の条件を満たされていないかを確認する（“失敗”）。この所定の条件は、強化学習の対象毎に適宜設定され得る。

制御回路５０は、ステップＳ１４の処理において所定の条件が満たされていないことが確認された場合に、罰則処理を実行する（ステップＳＴ１４、失敗）。第１試行処理の罰則処理では、制御回路５０が、ステップＳＴ２０及びＳＴ２１のそれぞれの処理を順に実行する。尚、ステップＳＴ２０及びＳＴ２１のそれぞれの処理が実行される順番は、その他の順番であってもよい。

ステップＳＴ２０の処理において、制御回路５０は、メモリグループＭＧ１内で状態Ｓ（ｉ）の選択メモリセルＭＣを対象とした第２書き込み動作を実行する。ステップＳＴ２０の処理によって、メモリグループＭＧ１内で状態Ｓ（ｉ）の選択メモリセルＭＣの抵抗値が上がる。

ステップＳＴ２１の処理において、制御回路５０は、メモリグループＭＧ２内で状態Ｓ（ｉ）のメモリセルＭＣを対象とした第２書き込み動作を実行する。ステップＳＴ２１の処理によって、メモリグループＭＧ２内で状態Ｓ（ｉ）のメモリセルＭＣ（参照セル）の抵抗値が上がる。

制御回路５０は、ステップＳ１４の処理において所定の条件が満たされていることが確認された場合に、報酬処理を実行する（ステップＳＴ１４、成功）。第１試行処理の報酬処理では、制御回路５０が、ステップＳＴ３０、ＳＴ３１、及びＳＴ３２のそれぞれの処理を順に実行する。尚、ステップＳＴ３０、ＳＴ３１、及びＳＴ３２のそれぞれの処理が実行される順番は、その他の順番であってもよい。

ステップＳＴ３０の処理において、制御回路５０は、メモリグループＭＧ１内で状態Ｓ（ｉ）の選択メモリセルＭＣを対象とした第１書き込み動作を実行する。ステップＳＴ３０の処理によって、メモリグループＭＧ１内で状態Ｓ（ｉ）の選択メモリセルＭＣの抵抗値が下がる。

ステップＳＴ３１の処理において、制御回路５０は、メモリグループＭＧ２内で状態Ｓ（ｉ）のメモリセルＭＣを対象とした第１書き込み動作を実行する。ステップＳＴ３１の処理によって、メモリグループＭＧ２内で状態Ｓ（ｉ）のメモリセルＭＣ（参照セル）の抵抗値が下がる。

ステップＳＴ３２の処理において、制御回路５０は、メモリグループＭＧ１内で状態Ｓ（ｉ）の各非選択メモリセルＭＣを対象とした第２書き込み動作を実行する。この第２書き込み動作は、非選択メモリセルＭＣ毎に実行されてもよいし、一括で実行されてもよい。ステップＳＴ３２の処理によって、メモリグループＭＧ１内で状態Ｓ（ｉ）の各非選択メモリセルＭＣの抵抗値が上がる。

罰則処理又は報酬処理の後に、制御回路５０は、メモリグループＭＧ２内の複数のメモリセルＭＣ（参照セル）を対象とした第２読み出し動作を実行する（ステップＳＴ１５）。ステップＳＴ１５の処理において、読み出し回路４０の計測回路４４は、ビット線ＢＬｘに接続された複数のメモリセルＭＣを流れる読み出し電流の合計値（参照値ＲＶ）を計測する。言い換えると、ステップＳＴ１５の処理では、例えば全ての参照セルを流れる読み出し電流の総和が読み出され、計測される。

次に、制御回路５０は、計測結果を記録する（ステップＳＴ１６）。具体的には、制御回路５０の記憶部５７が、ステップＳ１５の処理によって計測された参照値ＲＶを参照情報ＲＩに記録する。そして、制御回路５０は、第１試行処理を終了する（終了）。

（第２試行処理）
図１４は、第１実施形態に係る記憶装置１の第２試行処理の一例を示すフローチャートである。図１４に示すように、記憶装置１は、第２試行処理において、ステップＳＴ１０～ＳＴ１６、ＳＴ２０～ＳＴ２２、及びＳＴ３０～ＳＴ３２のそれぞれの処理を実行し得る。以下に、第２試行処理の詳細について説明する。

制御回路５０（試行制御部５２）は、例えば、後述される第１実施形態に係る記憶装置１の記憶動作のフローに応じて、第２試行処理を開始する（開始）。

まず、制御回路５０は、第１試行処理と同様に、ステップＳＴ１０～ＳＴ１４のそれぞれの処理を順に実行する。ステップＳＴ１４の処理が完了すると、制御回路５０は、罰則処理又は報酬処理を実行する。

第２試行処理の罰則処理（ステップＳＴ１４、失敗）では、制御回路５０が、ステップＳＴ２０、ＳＴ２１、及びＳＴ２２のそれぞれの処理を順に実行する。尚、ステップＳＴ２０、ＳＴ２１、及びＳＴ２２のそれぞれの処理が実行される順番は、その他の順番であってもよい。

第２試行処理におけるステップＳＴ２０及びＳＴ２１の処理は、それぞれ第１試行処理におけるステップＳＴ２０及びＳＴ２１の処理と同様である。

ステップＳＴ２２の処理において、制御回路５０は、メモリグループＭＧ１内で状態Ｓ（ｉ）の各非選択メモリセルＭＣを対象とした第１書き込み動作を実行する。この第１書き込み動作は、非選択メモリセルＭＣ毎に実行されてもよいし、一括で実行されてもよい。ステップＳＴ２２の処理によって、メモリグループＭＧ１内で状態Ｓ（ｉ）の各非選択メモリセルＭＣの抵抗値が下がる。

第２試行処理の報酬処理（ステップＳＴ１４、成功）では、制御回路５０が、第１試行処理と同様に、ステップＳＴ３０、ＳＴ３１、及びＳＴ３２のそれぞれの処理を順に実行する。

罰則処理又は報酬処理の後に、制御回路５０は、第１試行処理と同様に、ステップＳＴ１５及びＳＴ１６のそれぞれの処理を順に実行する。ステップＳＴ１６の処理が完了すると、制御回路５０は、第２試行処理を終了する（終了）。

（罰則処理及び報酬処理の具体例）
図１５及び図１６は、それぞれ第１実施形態に係る記憶装置１の第１及び第２試行処理において選択された状態の各メモリセルＭＣに対して実行される書き込み動作の一例を示すテーブルである。図１５及び図１６のそれぞれは、メモリセルＭＣ００に関連付けられた方策が選択された場合の罰則処理及び報酬処理で実行される書き込み動作において、選択ワード線ＷＬに印加される電圧を例示している。“属性”の項目における“選択”は、選択メモリセルＭＣに対応していることを示している。“属性”の項目における“非選択”は、非選択メモリセルＭＣに対応していることを示している。“属性”の項目における“参照”は、参照セルに対応していることを示している。

図１５に示すように、第１試行処理の罰則処理では、選択メモリセルＭＣ００とメモリセルＭＣ０ｘ（参照セル）とのそれぞれにＶｒｅｓｅｔが印加され、非選択メモリセルＭＣ０１、ＭＣ０２、及びＭＣ０３のそれぞれに対する書き込み動作が省略される。第１試行処理の報酬処理では、選択メモリセルＭＣ００とメモリセルＭＣ０ｘ（参照セル）とのそれぞれにＶｓｅｔが印加され、非選択メモリセルＭＣ０１、ＭＣ０２、及びＭＣ０３のそれぞれにＶｒｅｓｅｔが印加される。

図１６に示すように、第２試行処理の罰則処理では、選択メモリセルＭＣ００とメモリセルＭＣ０ｘ（参照セル）とのそれぞれにＶｒｅｓｅｔが印加され、非選択メモリセルＭＣ０１、ＭＣ０２、及びＭＣ０３のそれぞれにＶｓｅｔが印加される。第２試行処理の報酬処理では、第１試行処理と同様に、選択メモリセルＭＣ００とメモリセルＭＣ０ｘ（参照セル）とのそれぞれにＶｓｅｔが印加され、非選択メモリセルＭＣ０１、ＭＣ０２、及びＭＣ０３のそれぞれにＶｒｅｓｅｔが印加される。

（記憶動作の詳細）
図１７は、第１実施形態に係る記憶装置１の記憶動作の一例を示すフローチャートである。図１７に示すように、第１実施形態に係る記憶装置１は、記憶動作において、ステップＳＴ１００、ＳＴ２００、ＳＴ３００、及びＳＴ４００の処理を実行し得る。以下に、図１７を参照して、第１実施形態に係る記憶装置１の記憶動作の詳細について説明する。

制御回路５０（試行制御部５２）は、例えばユーザの指示に応じて、記憶動作を開始する（開始）。

まず、制御回路５０は、第１試行処理を実行する（ステップＳＴ１００）。第１試行処理において、制御回路５０は、罰則処理又は報酬処理を実行する。また、制御回路５０は、当該第１試行処理において、複数の参照セルを対象とした第２読み出し動作によって取得した参照値ＲＶを参照情報ＲＩに記録する。

次に、制御回路５０は、第１条件が満たされているか否かを判定する（ステップＳＴ２００）。第１条件は、例えば、連続した第１試行処理の結果から得られた参照情報ＲＩにおいて、ＲＶｎｏｗ＜ＲＶｂｆｒが満たされた後に、ＲＶｎｏｗ＞ＲＶｂｆｒが満たされているか否かである。ＲＶｎｏｗは、直前の第１試行処理において記録された参照値ＲＶである。ＲＶｂｆｒは、直前の第１試行処理の１つ前の第１試行処理において記録された参照値ＲＶである。つまり、ステップＳＴ２００では、制御回路５０は、例えば、連続した２回の第１試行処理で、複数の参照セルを対象とした第２読み出し動作で計測される読み出し電流が、減少した後に増加しているか否かを確認する。

ステップＳＴ２００で第１条件が満たされていない場合に（ステップＳＴ２００、ＮＯ）、制御回路５０は、ステップＳＴ１００の処理に進む。つまり、制御回路５０は、第１条件が満たされるまで、第１試行処理を繰り返し実行する。

ステップＳＴ２００で第１条件が満たされている場合に（ステップＳＴ２００、ＹＥＳ）、制御回路５０は、第２試行処理を実行する（ステップＳＴ３００）。第２試行処理において、制御回路５０は、罰則処理又は報酬処理を実行する。また、制御回路５０は、当該第２試行処理において、複数の参照セルを対象とした第２読み出し動作によって取得した参照値ＲＶを参照情報ＲＩに記録する。

次に、制御回路５０は、第２条件が満たされているか否かを判定する（ステップＳＴ４００）。第２条件は、強化学習の終了条件に対応している。例えば、第２条件は、各状態Ｓにおいて、学習完了の条件が満たされたことに対応している。学習完了の条件は、例えば、各状態Ｓで少なくとも１回の報酬処理が実行されることである。尚、強化学習の終了条件は、報酬処理が実行されていない状態Ｓを含んでいてもよく、適宜設定され得る。

ステップＳＴ４００で第２条件が満たされていない場合に（ステップＳＴ４００、ＮＯ）、制御回路５０は、ステップＳＴ３００の処理に進む。つまり、制御回路５０は、第２条件が満たされるまで、第２試行処理を繰り返し実行する。

ステップＳＴ４００で第２条件が満たされている場合に（ステップＳＴ４００、ＹＥＳ）、制御回路５０は、記憶動作を終了する（終了）。

以上で説明された記憶動作によって、制御回路５０は、ある１つのワード線ＷＬとある１つのビット線ＢＬとが対となるように、メモリグループＭＧ１内のメモリセルＭＣの抵抗値を制御する。また、制御回路５０は、対となるワード線ＷＬとビット線ＢＬとの間に接続されたメモリセルＭＣの抵抗値が、当該ワード線ＷＬに接続され且つ他のビット線ＢＬに接続されたメモリセルＭＣの抵抗値よりも低くなるように制御する。さらに、制御回路５０は、当該ワード線ＷＬに実行される報酬処理及び罰則処理に基づいて、メモリグループＭＧ２内のメモリセルＭＣ（参照セル）の抵抗値を制御する。これにより、記憶装置１は、ある１つのワード線ＷＬ（状態Ｓ）に対して、メモリグループＭＧ１に属するある１つのビット線ＢＬ（行動Ａ）を関連付けることができる。以下では、記憶動作により関連付けられたワード線ＷＬ及びビット線ＢＬに接続されたメモリセルＭＣのことを、“最適行動のメモリセルＭＣ”と呼ぶ。

複数の参照セルの抵抗値に基づいている参照値ＲＶは、記憶動作の進行に応じて変化し得る。ステップＳＴ２００における第１条件の判定は、続けて示す方法であってもよい。制御回路５０は、記憶動作の開始直後に参照値ＲＶｂｆｒとＲＶｎｏｗを比較して、ＲＶｂｆｒ＞ＲＶｎｏｗを観測すると、フラグを立てる。そして、制御回路５０は、第１試行処理の繰り返しの度に、ＲＶｂｆｒとＲＶｎｏｗとを比較し、ＲＶｂｆｒ＜ＲＶｎｏｗが観測された場合にフラグを下げて、罰則処理の動作方式を切り替える制御信号を発生させる。言い換えると、制御回路５０は、時系列で変わる参照値ＲＶを参照して、ＲＶｂｆｒ＞ＲＶｎｏｗの状況とＲＶｂｆｒ＜ＲＶｎｏｗの状況とが順に発生したことを検出したことに基づいて動作の切り替えのトリガを発生させ、記憶動作において実行する試行処理を第１試行処理から第２試行処理に切り替える。

その結果、第１実施形態に係る記憶装置１は、１回目の試行処理からｍ回目（ｍは２以上の整数）の試行処理における罰則処理として、選択メモリセルＭＣを対象とした第２書き込み動作を実行し、非選択メモリセルＭＣに対する処理を省略する。その後、記憶装置１は、（ｍ＋１）回目以降の試行処理における罰則処理として、選択メモリセルＭＣを対象とした第２書き込み動作と、非選択メモリセルＭＣに対する第１書き込み動作とを実行する。この場合、“ｍ”は、記憶装置１が記憶動作を開始してから、初めて選択メモリセルＭＣが正解になった際の試行処理の処理回数に対応している。

［１－３］第１実施形態の効果
以上で説明された第１実施形態に係る記憶装置１によれば、データの信頼性を向上させることができる。以下に、第１実施形態に係る記憶装置１の効果の詳細について説明する。

ロボット制御、画像認識、物体検知等に使用され得る強化学習システムに対して、クロスポイント構造のメモリセルアレイ１０を活用することが考えられている。クロスポイント構造のメモリセルアレイ１０では、メモリセルＭＣ毎に選択トランジスタが設けられず、抵抗変化型のメモリセルＭＣが使用される。つまり、クロスポイント構造のメモリセルアレイ１０では、学習済の情報が、メモリセルＭＣの抵抗値に関連づけられて記憶される。

メモリセルアレイ１０を用いた強化学習における報酬処理及び罰則処理のそれぞれは、メモリセルＭＣに対して電圧が印加されることによって実現される。報酬処理及び罰則処理のそれぞれは、例えば、選択メモリセルＭＣと非選択メモリセルＭＣとのそれぞれを対象とした書き込み動作を含む。この場合、報酬処理及び罰則処理のそれぞれは、１回の試行処理でメモリセルアレイ１０内の全てのビット線ＢＬを対象として実行される。

しかしながら、書き込み動作の回数が増えると、メモリセルＭＣが破壊される可能性が高くなる。クロスポイント構造のメモリセルアレイ１０においてメモリセルＭＣの破壊不良が発生した場合、破壊されたメモリセルＭＣを介した大きなリーク電流が発生し得る。具体的には、破壊された半選択メモリセルＭＣの読み出し電流が、選択メモリセルＭＣの読み出し電流よりも著しく大きくなり、正確な読み出し結果が得られなくなる。メモリセルＭＣの破壊不良を避けるためには、学習時にメモリセルＭＣに対する電圧の印加回数が抑制され、メモリセルＭＣに対するストレスが低減されることが好ましい。

そこで、第１実施形態に係る記憶装置１は、記憶動作（強化学習）において、学習の進行に応じて罰則処理の方法を変更する。具体的には、記憶装置１は、１～ｍ回目の試行処理の罰則処理では、選択メモリセルＭＣのみを対象として第２書き込み動作（抵抗値を上げる書き込み動作）を実行する。そして、記憶装置１は、（ｍ＋１）回目以降の試行処理の罰則処理では、選択メモリセルＭＣを対象とした第２書き込み動作と、非選択メモリセルＭＣを対象とした第１書き込み動作（抵抗値を下げる書き込み動作）とを実行する。

また、第１実施形態に係る記憶装置１は、学習結果を記憶するメモリグループＭＧ１と、記憶動作において参照される参照セルを含むメモリグループＭＧ２とを備える。参照セルは、罰則処理の方法を切り替えるトリガとして使用される。記憶装置１は、各試行処理において、選択メモリセルＭＣに対する報酬処理又は罰則処理を、同じ状態Ｓを共有する参照セルに対しても実行する。これにより、学習時に、複数の参照セルから読み出される電流の総和が、行動Ａが成功したか否かに応じて時系列で変化する。そして、制御回路５０が、複数の参照セルから取得された参照値ＲＶの時間変化を確認することによって、選択メモリセルＭＣに割り当てられた行動Ａが初めて成功したか否かを判定する。

具体的には、行動Ａが失敗すると、参照セルに対する第２書き込み動作が実行され、当該参照セルの抵抗値が上がる。この場合、現在の参照値ＲＶｎｏｗが、一つ前の参照値ＲＶｂｆｒよりも高い値になる。一方で、行動Ａが成功すると、参照セルに対する第１書き込み動作が実行され、当該参照セルの抵抗値が下がる。この場合、現在の参照値ＲＶｎｏｗが、一つ前の参照値ＲＶｂｆｒよりも低い値になる。このように、制御回路５０は、参照値ＲＶの時間変化に基づいて、行動Ａが成功したか否かを判定することができる。

それから、第１実施形態に係る記憶装置１は、参照値ＲＶの大小関係が反転するタイミングに基づいて、罰則処理の切り替えタイミングを決定する。強化学習の序盤における罰則処理で非選択メモリセルに対する第１書き込み動作が省略されることによる学習性能への影響は小さく、ほぼ無視することが可能である。

従って、第１実施形態に係る記憶装置１は、学習性能をほぼ劣化させることなく、強化学習に要する時間を短縮することができる。第１実施形態に係る記憶装置１の記憶動作は、記憶動作の直後に行動Ａが成功したとしても、第１実施形態の比較例と同等のパフォーマンスを発揮させることができる。また、第１試行処理において、罰則処理における非選択メモリセルＭＣに対する第１書き込み動作が省略されるため、記憶装置１は、これらの非選択メモリセルＭＣに対するストレスを低減させることができる。その結果、第１実施形態に係る記憶装置１は、データの信頼性を向上させることができる。

［１－４］第１実施形態の変形例
第１実施形態に係る記憶装置１は、種々の変形が可能である。例えば、図１７に示された第１条件は、ＲＶｎｏｗ＞ＲＶｂｆｒが満たされた回数が２回以上連続したか否かであってもよい。第１条件は、少なくともＲＶｎｏｗとＲＶｂｆｒとの関係性を用いて設定されていればよい。記憶装置１は、第１条件においてＲＶｎｏｗ＞ＲＶｂｆｒが満たされた回数を１回に近く設定するほど、学習精度を向上させることができる。つまり、第１実施形態に係る記憶装置１において、第１条件は、ＲＶｎｏｗ＞ＲＶｂｆｒが満たされた回数が１回であるか否かに設定されることが好ましい。

第１実施形態に係る記憶装置１において、参照セルが、複数列設けられてもよい。言い換えると、メモリグループＭＧ２に複数のビット線ＢＬが関連付けられ、複数列のメモリセルＭＣを含んでいてもよい。１つの状態Ｓに複数の参照セルが設けられる場合、当該複数の参照セルの一方が冗長領域として使用されてもよいし、当該複数の参照セルのそれぞれに対して第１実施形態と同様の動作が実行されてもよい。例えば、制御回路５０は、複数列の参照セルから取得する参照値ＲＶ等を平均化することによって、計測結果のばらつきを抑制することができ、第１条件等の判定精度を向上させることができる。

第１実施形態に係る記憶装置１は、後述される実施形態に関する動作を実行しない場合に、第２試行処理におけるステップＳＴ１５及びＳＴ１６の処理を省略してもよい。

［２］第２実施形態
第２実施形態に係る記憶装置１のハードウェア構成は、第１実施形態と同様である。第２実施形態に係る記憶装置１は、記憶動作において、学習済みの状態Ｓの各メモリセルＭＣに対する報酬処理及び罰則処理を省略する。以下に、第２実施形態に係る記憶装置１について、第１実施形態と異なる点を説明する。

［２－１］制御回路５０の構成
図１８は、第２実施形態に係る記憶装置１において記憶部５７が記憶する情報の一例を示す概略図である。図１８に示すように、第２実施形態の記憶部５７は、参照情報ＲＩ０、ＲＩ１、ＲＩ２、及びＲＩ３を記憶する。参照情報ＲＩ０、ＲＩ１、ＲＩ２、及びＲＩ３は、それぞれ状態Ｓ０、Ｓ１、Ｓ２、及びＳ３に関連付けられている。参照情報ＲＩ０、ＲＩ１、ＲＩ２、及びＲＩ３には、それぞれ状態Ｓ０、Ｓ１、Ｓ２、及びＳ３の参照セルの読み出し結果が記録される。また、参照情報ＲＩ０、ＲＩ１、ＲＩ２、及びＲＩ３には、それぞれ状態Ｓ０、Ｓ１、Ｓ２、及びＳ３における学習状態が記憶されてもよい。参照情報ＲＩ０、ＲＩ１、ＲＩ２、及びＲＩ３は、カウンタとして使用されてもよい。言い換えると、制御回路５０は、状態Ｓ毎にカウンタを有し得る。第２実施形態に係る記憶装置１のその他の構成は、第１実施形態と同様である。

［２－２］動作
第２実施形態に係る記憶装置１は、制御回路５０の制御に基づいて、第３読み出し動作を実行することができる。以下に、第３読み出し動作と、第２実施形態における記憶動作とのそれぞれの詳細について説明する。

［２－２－１］第３読み出し動作
図１９は、第２実施形態に係る記憶装置１の第３読み出し動作の一例を示す概略図であり、ある時刻において各配線に印加される電圧を示している。図１９に示すように、第３読み出し動作において、制御回路５０は、１本のワード線ＷＬと、１本のビット線ＢＬとを選択した読み出し動作を実行する。以下に、ワード線ＷＬ０とビット線ＢＬｘとが選択された場合の第３読み出し動作について例示する。

選択ワード線ＷＬ０には、Ｖｒｅｆが印加される。非選択ワード線ＷＬ１～ＷＬ３のそれぞれには、Ｖｓｓが印加される。選択ビット線ＢＬｘには、Ｖｓｓが印加される。非選択ビット線ＢＬには、例えば、電圧が印加されない、又は、Ｖｒｅｆ／２が印加される。

このように、第３読み出し動作において、選択メモリセルＭＣと半選択メモリセルＭＣとのそれぞれには、順方向電圧が印加される。選択メモリセルＭＣの両端の電圧差は、半選択メモリセルＭＣの両端の電圧差よりも大きい。選択メモリセルＭＣの両端の電圧差は、例えば“０”データを記憶するメモリセルＭＣの閾値電圧以上である。半選択メモリセルＭＣの両端の電圧差は、例えば“０”データを記憶するメモリセルＭＣの閾値電圧よりも低い。非選択メモリセルＭＣの両端には略同一の電圧が印加され、非選択メモリセルＭＣの両端における電圧差が抑制される。

その結果、選択ワード線ＷＬ０から、選択メモリセルＭＣ０ｘを介した電流が流れ得る。選択メモリセルＭＣ０ｘを介して選択ビット線ＢＬｘに流れる読み出し電流Ｉｒｅｆ０は、読み出し回路４０内の計測回路４４に供給される。半選択メモリセルＭＣ１ｘ、ＭＣ２ｘ、及びＭＣ３ｘのそれぞれでは、読み出し電流が抑制され、当該半選択メモリセルＭＣ、ＭＣ２ｘ、及びＭＣ３ｘに対するディスターブが抑制される。

そして、第２実施形態の第３読み出し動作では、読み出し回路４０内の計測回路４４が、メモリグループＭＧ２に関連付けられた１つの選択メモリセルＭＣ（参照セル）を流れる読み出し電流の電流値を計測して、計測結果を制御回路５０に通知する。

［２－２－２］記憶動作
第２実施形態の記憶動作は、第３試行処理を含む。以下に、第３試行処理と、第２実施形態の記憶動作とのそれぞれの詳細について説明する。

（第３試行処理）
図２０は、第２実施形態に係る記憶装置１の第３試行処理の一例を示すフローチャートである。図２０に示すように、記憶装置１は、第３試行処理において、ステップＳＴ１０～ＳＴ１４、ＳＴ２０～ＳＴ２２、ＳＴ３０～ＳＴ３２、及びＳＴ４０～ＳＴ４２のそれぞれの処理を実行し得る。以下に、第３試行処理の詳細について説明する。

制御回路５０（試行制御部５２）は、後述される第２実施形態に係る記憶装置１の記憶動作のフローに応じて、第３試行処理を開始する（開始）。

まず、制御回路５０は、第１試行処理と同様に、ステップＳＴ１０～ＳＴ１３のそれぞれの処理を順に実行する。ステップＳＴ１３の処理が完了すると、制御回路５０は、状態Ｓ（ｉ）の学習状態を確認する（ステップＳＴ４０）。具体的には、制御回路５０は、記憶部５７の参照情報ＲＩｉを参照して、ステップＳＴ１０において選択された状態Ｓ（ｉ）の学習が完了しているか否かを判定する。

学習が完了している場合（ステップＳＴ４０、学習完了）、制御回路５０は、第３試行処理を終了する（終了）。

学習が完了していない場合（ステップＳＴ４０、学習未完）、制御回路５０は、第１実施形態と同様に、ステップＳＴ１４の処理を実行する。そして、制御回路５０は、ステップＳＴ１４の結果に基づいて、罰則処理又は報酬処理を実行する。

第３試行処理の罰則処理（ステップＳＴ１４、失敗）では、制御回路５０が、第２試行処理と同様に、ステップＳＴ２０、ＳＴ２１、及びＳＴ２２のそれぞれの処理を順に実行する。

第３試行処理の報酬処理（ステップＳＴ１４、成功）では、制御回路５０が、第１試行処理と同様に、ステップＳＴ３０、ＳＴ３１、及びＳＴ３２のそれぞれの処理を順に実行する。

罰則処理又は報酬処理の後に、制御回路５０は、メモリグループＭＧ２内で状態Ｓ（ｉ）のメモリセルＭＣ（参照セル）を対象とした第３読み出し動作を実行する（ステップＳＴ４１）。ステップＳＴ４１の処理において、読み出し回路４０の計測回路４４は、状態Ｓ（ｉ）が割り当てられたワード線ＷＬに接続され、且つビット線ＢＬｘに接続されたメモリセルＭＣ（参照セル）を流れる読み出し電流の値（参照値ＲＶ）を計測する。言い換えると、ステップＳＴ４１の処理では、選択された状態Ｓに対応する参照セルを流れる読み出し電流が計測される。

次に、制御回路５０は、計測結果を記録する（ステップＳＴ４２）。具体的には、制御回路５０の記憶部５７が、ステップＳ４１の処理によって計測された参照値ＲＶを、状態Ｓ（ｉ）に関連付けられた参照情報ＲＩｉに記録する。そして、制御回路５０は、第３試行処理を終了する（終了）。

尚、以上で説明された第３試行処理のステップＳＴ４０において、制御回路５０は、少なくとも参照情報ＲＩｉに基づいて学習状態を確認していればよい。例えば、制御回路５０は、参照情報ＲＩｉにおいてＲＶｎｏｗ＞ＲＶｂｆｒが２回連続したことを検出すると、当該状態Ｓ（ｉ）の学習が完了したものと判定する。言い換えると、制御回路５０は、参照情報ＲＩｉにおいて、最新から３回分の参照値ＲＶを参照して、参照値ＲＶが２回連続して上昇していることを検出すると、当該状態Ｓ（ｉ）の学習が完了したものと判定する。すなわち、当該状態Ｓ（ｉ）が学習済みであると判定される。

ステップＳＴ４０の処理は、その他の方法であってもよい。例えば、制御回路５０は、メモリグループＭＧ２に対する第２読み出し動作によって、時系列の参照値ＲＶを得る。制御回路５０は、参照値ＲＶの記録の際に、ＲＶｂｆｒ＜ＲＶｎｏｗであることを検出すると、参照情報ＲＩｉのカウンタに“１”を加算する。一方で、制御回路５０は、参照値ＲＶの記録の際に、ＲＶｂｆｒ＞ＲＶｎｏｗであることを検出すると、参照情報ＲＩｉのカウンタを“０”に戻す。第３試行処理の繰り返しによって参照情報ＲＩｉのカウンタが２以上になると、制御回路５０は、当該参照情報ＲＩｉに関連付けられた状態Ｓの学習が完了したものとみなす。そして、制御回路５０は、学習が完了した以降で、学習が完了している状態Ｓｉが選択された報酬処理及び罰則処理を省略する。

（記憶動作の詳細）
図２１は、第２実施形態に係る記憶装置１の記憶動作の一例を示すフローチャートである。図２１に示すように、第２実施形態に係る記憶装置１の記憶動作は、第１実施形態で図１７を参照して説明された記憶動作において、ステップＳＴ３００がステップＳＴ５００に置き換えられた構成を有する。

具体的には、制御回路５０（試行制御部５２）は、ステップＳＴ２００で第１条件が満たされている場合に、ステップＳＴ５００の処理を実行する。ステップＳ５００の処理において、記憶装置１は、第３試行処理を実行する。第３試行処理において、制御回路５０は、学習状態に応じて、罰則処理又は報酬処理を実行し得る。第３試行処理が完了した後に、記憶装置１は、ステップＳ４００の処理を実行する。

ステップＳＴ４００で第２条件が満たされていない場合に（ステップＳＴ４００、ＮＯ）、制御回路５０は、ステップＳＴ５００の処理に進む。つまり、制御回路５０は、第２条件が満たされるまで、第３試行処理を繰り返し実行する。

ステップＳＴ４００で第２条件が満たされている場合に（ステップＳＴ４００、ＹＥＳ）、制御回路５０は、記憶動作を終了する（終了）。第２実施形態に係る記憶装置１のその他の動作は、第１実施形態と同様である。

尚、第２実施形態の記憶動作では、ステップＳＴ１００及びＳＴ２００の処理が省略されてもよい。この場合、強化学習は、第３試行処理の繰り返しによって進行する。

［２－３］第２実施形態の効果
以上で説明されたように、第２実施形態に係る記憶装置１は、状態Ｓ毎に参照セルの状態をモニターすることによって、状態Ｓ毎に複数回の報酬処理が連続したことを検知する。そして、記憶装置１は、例えば２回連続で報酬処理が実行された状態Ｓを学習済みと判定し、以降の試行処理において、学習済みの状態ＳのメモリセルＭＣを対象とした報酬処理及び罰則処理を省略する。

その結果、第２実施形態に係る記憶装置１は、学習が完了した後に書き込み動作が実行されることによるメモリセルＭＣに対するストレスを抑制することができる。従って、第２実施形態に係る記憶装置１は、第１実施形態よりもメモリセルＭＣの破壊リスクを抑制することができ、データの信頼性を向上させることができる。

［２－４］第２実施形態の変形例
第２実施形態に係る記憶装置１は、種々の変形が可能である。例えば、図２０に示された学習完了の条件は、ＲＶｎｏｗ＞ＲＶｂｆｒが満たされた回数が３回以上連続したか否かであってもよい。記憶装置１は、学習完了の判定におけるＲＶｎｏｗ＞ＲＶｂｆｒを連続で満たした回数の設定を大きくするほど、学習精度を向上させることができる。一方で、記憶装置１は、この回数の設定を小さくするほど、記憶動作の時間を短縮することができる。このように、第２実施形態に係る記憶装置１は、記憶完了の条件を適宜設定することによって、強化学習における時間と精度のバランスを整えることができる。

［３］第３実施形態
第３実施形態に係る記憶装置１は、記憶動作が完了した後に、メモリグループＭＧ１に記憶されたデータ（学習結果）を保障するための動作を実行する。以下に、第３実施形態に係る記憶装置１について、第１及び第２実施形態と異なる点を説明する。

［３－１］構成
［３－１－１］メモリセルアレイ１０の構成
図２２は、第３実施形態に係る記憶装置１が備えるメモリセルアレイ１０の回路構成の一例を示す回路図である。図２２に示すように、第３実施形態におけるメモリセルアレイ１０は、第１実施形態で図２を参照して説明されたメモリセルアレイ１０に対して、メモリセルＭＣ０ｙ、ＭＣ１ｙ、ＭＣ２ｙ、及びＭＣ３ｙと、ビット線ＢＬｙとが追加された構成を有する。

具体的には、メモリセルＭＣ０ｙは、ワード線ＷＬ０とビット線ＢＬｙとの間に接続されている。メモリセルＭＣ１ｙは、ワード線ＷＬ１とビット線ＢＬｙとの間に接続されている。メモリセルＭＣ２ｙは、ワード線ＷＬ２とビット線ＢＬｙとの間に接続されている。メモリセルＭＣ２ｙは、ワード線ＷＬ０とビット線ＢＬｙとの間に接続されている。

第３実施形態に係る記憶装置１では、例えば、複数のメモリセルＭＣが３つのメモリグループＭＧに分類される。メモリグループＭＧ１は、ビット線ＢＬ０～ＢＬ３のいずれかに接続されたメモリセルＭＣを含む。メモリグループＭＧ２は、ビット線ＢＬｘに接続されたメモリセルＭＣを含む。メモリグループＭＧ３は、ビット線ＢＬｙに接続されたメモリセルＭＣを含む。メモリグループＭＧ１及びＭＧ２のそれぞれの役割は、第１実施形態と同様である。メモリグループＭＧ３は、リフレッシュ動作に関する情報を記憶する。ビット線ＢＬｙに接続されたメモリセルＭＣは、フラグセルと呼ばれてもよい。

［３－１－２］制御回路５０の構成
図２３は、第３実施形態に係る記憶装置１が備える制御回路５０の機能構成の一例を示すブロック図である。図２３に示すように、制御回路５０は、例えば、タイマ８０、リフレッシュ制御部８１、カウンタ８２、第１ドライバ制御部５３、第２ドライバ制御部５４、読み出し制御部５５、及び記憶部５７を含む。第３実施形態における制御回路５０の各機能構成は、例えば、制御回路５０が備えるＣＰＵやＲＡＭ等によって実現される。

タイマ８０は、現在の時刻を示す。タイマ８０が生成した時刻情報は、リフレッシュ制御部８１によって参照される。この時刻情報は、制御回路５０が各種動作を実行するトリガとして使用され得る。リフレッシュ制御部８１は、第１ドライバ制御部５３、第２ドライバ制御部５４、及び読み出し制御部５５を制御して、読み出し動作や書き込み動作を実行し得る。また、リフレッシュ制御部８１は、所定の条件に基づいて、後述される劣化確認動作とリフレッシュ動作とのそれぞれを実行し得る。所定の条件は、例えば、記憶部５７に記憶された参照情報ＲＩに基づいている。所定の条件の詳細については後述する。カウンタ８２は、リフレッシュ制御部８１によって使用される。第３実施形態に係る記憶装置１におけるその他の構成は、第１実施形態と同様である。

［３－２］動作
第３実施形態に係る記憶装置１は、制御回路５０の制御に基づいて、第３書き込み動作を実行することができる。また、第３実施形態に係る記憶装置１は、記憶動作（すなわち強化学習）が完了すると、記憶完了動作を実行する。さらに、第３実施形態に係る記憶装置１は、記憶完了動作が完了した後に、例えば定期的に劣化確認動作を実行し、劣化確認動作の結果に基づいてリフレッシュ動作を実行する。以下に、第３読み出し動作と、記憶完了動作と、劣化確認動作と、リフレッシュ動作とのそれぞれの詳細について説明する。

［３－２－１］第３書き込み動作
図２４は、第３実施形態に係る記憶装置１の第３書き込み動作の一例を示す概略図である。図２４に示すように、記憶装置１は、第３書き込み動作において、プログラムループを繰り返し実行する。本例における書き込み動作は、Ｎ回（Ｎは１以上の整数）のプログラムループを含んでいる。プログラムループの回数は、メモリセルトランジスタＭＴの状態に応じて変わり得る。プログラムループは、プログラム動作（“Program”）とベリファイ動作（“Verify”）とを含んでいる。

プログラム動作は、選択メモリセルＭＣの抵抗値を下げる動作である。プログラム動作において、制御回路５０は、第１書き込み動作と同様に、各ワード線ＷＬと各ビット線ＢＬとに電圧が印加される。例えば、プログラム動作では、選択ワード線ＷＬに書き込み電圧Ｖｓｅｔが印加される。

これにより、選択メモリセルＭＣの分極量が変化し、選択メモリセルＭＣの抵抗値が下がる。第３書き込み動作において、書き込み電圧Ｖｓｅｔは、プログラムループが繰り返される度にステップアップされる。言い換えると、選択ワード線ＷＬに印加される書き込み電圧Ｖｓｅｔは、プログラムループの回数に応じて高くなるように設定される。

ベリファイ動作は、選択メモリセルＭＣの書き込み状況を確認する動作である。ベリファイ動作において、制御回路５０は、当該プログラムループのプログラム動作と同じ選択メモリセルＭＣに対して、ベリファイ電圧Ｖｖｆｙを用いた第３読み出し動作を実行する。制御回路５０は、第３読み出し動作によって選択メモリセルＭＣから“１”データが読み出された場合、すなわち選択メモリセルＭＣの閾値電圧がベリファイ電圧Ｖｖｆｙ以下である場合に、ベリファイフェイルと判定し、次のプログラムループを実行する。一方で、制御回路５０は、第３読み出し動作によって選択メモリセルＭＣから“０”データが読み出された場合、すなわち選択メモリセルＭＣの閾値電圧がベリファイ電圧Ｖｖｆｙを超えた場合に、ベリファイパスと判定し、第３書き込み動作を終了する。

［３－２－２］記憶完了動作
図２５は、第３実施形態に係る記憶装置１の記憶完了動作の一例を示すフローチャートである。図２５に示すように、記憶装置１は、記憶完了動作において、ステップＳＴ５０～ＳＴ５７のそれぞれの処理を実行し得る。以下に、記憶完了動作の詳細について説明する。

制御回路５０（リフレッシュ制御部８１）は、第１実施形態や第２実施形態で説明された記憶動作が完了すると、記憶完了動作を開始する（開始）。

まず、制御回路５０は、カウンタ８２をリセットする（ステップＳ５０、ｋ＝０）。“ｋ”は、カウンタ８２の保持する数値を示している。

次に、制御回路５０は、メモリグループＭＧ２内で状態Ｓ（ｋ）のメモリセルＭＣ（参照セル）を対象とした第３読み出し動作を実行する（ステップＳＴ５１）。

次に、制御回路５０は、ステップＳＴ５１の読み出し結果を確認する（ステップＳＴ５２）。本例では、参照セルが低抵抗状態である場合に“０”データが読み出され、参照セルが高抵抗状態である場合に“１”データが読み出される。参照セルに記憶された“０”データは、当該参照セルに割り当てられた状態Ｓ（ｋ）が学習済みであることを示している。参照セルに記憶された“１”データは、当該参照セルに割り当てられた状態Ｓ（ｋ）に、学習済みのデータが存在しないことを示している。

ステップＳＴ５２の処理において“０”データが確認された場合（ステップＳＴ４０、学習完了）、制御回路５０は、メモリグループＭＧ３内で状態Ｓ（ｋ）のメモリセルＭＣ（フラグセル）を対象とした第３書き込み動作を実行する（ステップＳＴ５３）。ステップＳＴ５３の処理では、状態Ｓ（ｋ）に学習されたデータが存在することを示すデータ（フラグ）が、ベリファイ動作を含む書き込み動作によって、状態Ｓ（ｋ）のメモリセルＭＣ（フラグセル）に書き込まれる。ステップＳＴ５３の処理が完了すると、制御回路５０は、ステップＳＴ５４の処理に進む。

ステップＳＴ５２の処理において“１”データが確認された場合（ステップＳＴ４０、学習未完）、制御回路５０は、ステップＳＴ５４の処理に進む。

ステップＳＴ５４の処理では、制御回路５０が、カウンタ８２の数値が“３”であるか否かを判定する（ステップＳＴ５４、ｋ＝＝３）。ステップＳＴ５３でカウンタ８２の数値との比較に使用される数値“３”は、状態Ｓが割り当てられたワード線ＷＬの数に応じて適宜変更され得る。

ｋ＝＝３でない場合（ステップＳＴ５４、ＮＯ）、制御回路５０は、カウンタ８２をインクリメントする（ステップＳＴ５５、ｋ＝ｋ＋１）。すなわち、制御回路５０は、カウンタ８２の数値“ｋ”に“１”を加算する。制御回路５０は、ステップＳ５５の処理の後、ステップＳＴ５１の処理に進む。つまり、制御回路５０は、ステップＳＴ５４の条件を満たすまで、異なる状態Ｓを対象としたステップＳＴ５１～ＳＴ５３のそれぞれの処理を実行する。

ｋ＝＝３である場合（ステップＳＴ５４、ＹＥＳ）、制御回路５０は、メモリグループＭＧ３内の複数のメモリセルＭＣ（フラグセル）を対象とした第２読み出し動作を実行する（ステップＳＴ５６）。ステップＳＴ５６の処理において、読み出し回路４０の計測回路４４は、ビット線ＢＬｙに接続された複数のメモリセルＭＣを流れる読み出し電流の合計値（学習直後の参照値ＲＶｉｎｉｔ）を計測する。言い換えると、ステップＳＴ５６の処理では、全てのフラグセルを流れる読み出し電流の総和が読み出され、計測される。

次に、制御回路５０は、計測結果を記録する（ステップＳＴ５７）。具体的には、制御回路５０の記憶部５７が、ステップＳ５６の処理によって計測された参照値ＲＶｉｎｉｔを参照情報ＲＩに記録する。その後、制御回路５０は、記憶完了動作を終了する（終了）。

［３－２－３］劣化確認動作
図２６は、第３実施形態に係る記憶装置１の劣化確認動作の一例を示すフローチャートである。図２６に示すように、記憶装置１は、劣化確認動作において、ステップＳＴ６０～ＳＴ６４のそれぞれの処理を実行し得る。以下に、劣化確認動作の詳細について説明する。

制御回路５０（リフレッシュ制御部８１）は、例えばタイマ８０を参照することにより、定期的に劣化確認動作を開始する（開始）。尚、劣化確認動作は、ユーザの指示に基づいて実行されてもよいし、その他の条件に基づいて実行されてもよい。

まず、制御回路５０は、メモリグループＭＧ３内のメモリセルＭＣ（フラグセル）を対象とした第２読み出し動作を実行する（ステップＳＴ６０）。ステップＳＴ６０の処理において、読み出し回路４０の計測回路４４は、ビット線ＢＬｙに接続された複数のメモリセルＭＣを流れる読み出し電流の合計値（参照値ＲＶｎｏｗ）を計測する。言い換えると、ステップＳＴ６０の処理では、例えば全てのフラグセルを流れる読み出し電流の総和が読み出され、計測される。

次に、制御回路５０は、計測結果を記録する（ステップＳＴ６１）。具体的には、制御回路５０の記憶部５７が、ステップＳ６０の処理によって計測された参照値ＲＶｎｏｗを参照情報ＲＩに記録する。

次に、制御回路５０は、現在の参照値ＲＶｎｏｗと、学習直後の参照値ＲＶｉｎｉｔとを比較する（ステップＳＴ６２）。これにより、制御回路５０は、メモリグループＭＧ３内の複数のメモリセルＭＣの劣化状況を把握することができる。

次に、制御回路５０は、ＲＶｎｏｗがＲＶｉｎｉｔの５０％未満の値であるか否かを判定する（ステップＳＴ６３）。尚、ステップＳＴ６３で判定に使用される“５０％”は、例えばデータの信頼性の要求の度合いに応じて適宜変更され得る。

ＲＶｎｏｗがＲＶｉｎｉｔの５０％未満の値である場合（ステップＳＴ６３、ＹＥＳ）、制御回路５０は、後述するリフレッシュ動作を実行する（ステップＳＴ６４）。リフレッシュ動作が完了すると、制御回路５０は、劣化確認動作を終了する（終了）。

ＲＶｎｏｗがＲＶｉｎｉｔの５０％以上の値である場合（ステップＳＴ６３、ＮＯ）、制御回路５０は、劣化確認動作を終了する（終了）。

［３－２－４］リフレッシュ動作
図２７は、第３実施形態に係る記憶装置１のリフレッシュ動作の一例を示すフローチャートである。図２７に示すように、記憶装置１は、リフレッシュ動作において、ステップＳＴ７０～ＳＴ７７のそれぞれの処理を実行し得る。以下に、リフレッシュ動作の詳細について説明する。

制御回路５０（リフレッシュ制御部８１）は、図２６を参照して説明されたように、ステップＳＴ６４の処理においてリフレッシュ動作を開始する（開始）。

まず、制御回路５０は、カウンタ８２をリセットする（ステップＳ７０、ｋ＝０）。“ｋ”は、カウンタ８２の保持する数値を示している。

次に、制御回路５０は、メモリグループＭＧ３内で状態Ｓ（ｋ）のメモリセルＭＣ（フラグセル）を対象とした第３読み出し動作を実行する（ステップＳＴ７１）。

次に、制御回路５０は、ステップＳＴ７１の読み出し結果を確認する（ステップＳＴ７２）。本例では、フラグセルが低抵抗状態である場合に“０”データが読み出され、フラグセルが高抵抗状態である場合に“１”データが読み出される。フラグセルに記憶された“０”データは、当該フラグセルに割り当てられた状態Ｓ（ｋ）が学習済みであることを示している。フラグセルに記憶された“１”データは、当該フラグセルに割り当てられた状態Ｓ（ｋ）に、学習済みのデータが存在していないことを示している。

ステップＳＴ７２の処理において“０”データが確認された場合（ステップＳＴ７２、“０”データ）、制御回路５０は、メモリグループＭＧ１内で状態Ｓ（ｋ）のメモリセルＭＣを対象とした第１読み出し動作を実行する（ステップＳＴ７３）。

そして、制御回路５０は、ステップＳＴ７３の第１読み出し動作の結果に基づいて、状態Ｓ（ｋ）における最適行動のメモリセルＭＣを確認する（ステップＳＴ７４）。最適行動のメモリセルＭＣは、第１読み出し動作において比較回路４３により検出された、最も電流量の大きいビット線ＢＬに接続されたメモリセルＭＣに対応している。

それから、制御回路５０は、メモリグループＭＧ１内で状態Ｓ（ｋ）のメモリセルＭＣを対象としたリフレッシュ書き込み動作を実行する（ステップＳＴ７５）。リフレッシュ書き込み動作は、ステップＳＴ７４によって確認された、状態Ｓ（ｋ）の最適行動のメモリセルＭＣに対する第１書き込み動作と、状態Ｓ（ｋ）のフラグセルに対する第３書き込み動作とを含む。リフレッシュ書き込み動作では、状態Ｓ（ｋ）の最適行動のメモリセルＭＣに対する第３書き込み動作が実行されてもよいし、最適行動以外のメモリセルＭＣに対する第２書き込み動作が実行されてもよい。ステップＳＴ７５の処理が完了すると、制御回路５０は、ステップＳＴ７６の処理に進む。

ステップＳＴ７２の処理において“１”データが確認された場合（ステップＳＴ７２、“１”データ）、制御回路５０は、ステップＳ７６の処理に進む。

ステップＳＴ７６の処理では、制御回路５０が、カウンタ８２の数値が“３”であるか否かを判定する（ステップＳＴ７６、ｋ＝＝３）。ステップＳＴ７５でカウンタ８２の数値との比較に使用される数値“３”は、状態Ｓが割り当てられたワード線ＷＬの数に応じて適宜変更され得る。

ｋ＝＝３でない場合（ステップＳＴ７６、ＮＯ）、制御回路５０は、カウンタ８２をインクリメントする（ステップＳＴ７７、ｋ＝ｋ＋１）。すなわち、制御回路５０は、カウンタ８２の数値“ｋ”に“１”を加算する。制御回路５０は、ステップＳ７７の処理の後、ステップＳＴ７１の処理に進む。つまり、制御回路５０は、ステップＳＴ７６の条件を満たすまで、異なる状態Ｓを対象としたステップＳＴ７１～ＳＴ７５のそれぞれの処理を適宜実行する。

ｋ＝＝３である場合（ステップＳＴ７７、ＹＥＳ）、制御回路５０は、メモリグループＭＧ３内の複数のメモリセルＭＣ（フラグセル）を対象とした第２読み出し動作を実行する（ステップＳＴ７８）。ステップＳＴ７８の処理において、読み出し回路４０の計測回路４４は、ビット線ＢＬｙに接続された複数のメモリセルＭＣを流れる読み出し電流の合計値（参照値ＲＶｉｎｉｔ）を計測する。

次に、制御回路５０は、計測結果を記録する（ステップＳＴ７９）。具体的には、制御回路５０の記憶部５７が、ステップＳ７８の処理によって計測された参照値ＲＶｉｎｉｔを参照情報ＲＩに記録する。これにより、参照値ＲＶｉｎｉｔが、リフレッシュ書き込み動作によって変化した値に更新される。その後、制御回路５０は、記憶完了動作を終了する（終了）。

以上で説明されたように、第３実施形態に係る記憶装置１は、劣化確認動作によって、複数のフラグセルを対象とした定期的な第２読み出し動作により参照値ＲＶを記憶部５７に蓄積させる。そして、記憶装置１は、参照値ＲＶの変化に基づいてリフレッシュ動作を実行する。リフレッシュ動作は、メモリグループＭＧ１内の複数のメモリセルのうちワード線ＷＬを共有する複数のメモリセルＭＣで最も抵抗値の低いメモリセルＭＣの抵抗値を下げる書き込み動作を含む。

［３－３］シミュレーション結果
図２８は、第３実施形態に係る記憶装置１における、リテンション性能と学習性能の維持時間との関係性の一例を示すグラフである。図２８の縦軸は、学習性能の維持時間を示している。学習性能の維持時間は、目標時間に達していることが好ましい。学習性能の維持時間が目標時間に達していないことは、学習結果が理想的な状態から外れていることを示している。図２８の横軸は、データのリテンション性能を示している。リテンション性能は、記憶装置１の放置後の電流値／書き込み直後の電流値）を示している。記憶装置１の放置後の電流値は、参照値ＲＶｎｏｗに対応している。書き込み直後の電流値は、参照値ＲＶｉｎｉｔに対応している。

図２８に示すように、リテンション性能が５０％～９０％である場合には、学習性能の維持時間が目標時間を達成している。一方で、リテンション性能が例えば５０％よりも小さくなるにつれて、学習性能の維持時間が下降する傾向（劣化傾向）が見られる。従って、図２６に示されたステップＳＴ６３の処理における判定条件は、“ＲＶｎｏｗがＲＶｉｎｉｔの５０％未満の値である”ことが好ましい。これにより、第３実施形態に係る記憶装置１は、目標の学習性能を維持することができる。尚、この判定条件は、メモリセルＭＣの特性や、要求する信頼性の性能に応じて適宜変更され得る。

［３－４］第３実施形態の効果
記憶動作が実行された後のメモリセルＭＣの抵抗値は、メモリセルアレイ１０内でばらつきを有する。また、記憶動作で実行される第１書き込み動作及び第２書き込み動作はベリファイ動作を含まないため、学習済みの状態Ｓの複数のメモリセルＭＣにおいて、最適行動のメモリセルＭＣとその他のメモリセルＭＣとの間のオン／オフ比のマージンが小さい場合がある。このように各状態Ｓにおけるオン／オフ比のマージンが小さい場合、リテンションやノイズの影響が大きくなる。例えば、リテンションやノイズの影響により、選択メモリセルＭＣのオン電流の最大値と、非選択メモリセルＭＣのオフ電流との最大値との差が小さくなり、最適行動のビット線ＢＬの選択が困難になるおそれがある。

そこで、第３実施形態に係る記憶装置１は、状態Ｓ毎のフラグセルを含むメモリグループＭＧ３を備えている。フラグセルは、関連付けられた状態Ｓが学習済みのデータを含むか否かを示す。フラグセルは、第３書き込み動作によってデータが書き込まれるため、オン／オフ比のマージンが十分に確保された低抵抗状態になる。すなわち、フラグセルのリテンション性能は、メモリグループＭＧ１のメモリセルＭＣよりも高くなる。

そして、第３実施形態に係る記憶装置１は、第１実施形態で説明された参照セルと同様に複数のフラグセルに対して第２読み出し動作を実行し、メモリグループＭＧ３から取得された参照値ＲＶの変化（メモリセルＭＣの劣化状態）をモニタする。それから、記憶装置１は、現在の参照値ＲＶｎｏｗが、初期の参照値ＲＶｉｎｉｔに対して所定の数値（例えば５０％）未満に低下したことに基づいて、リフレッシュ動作を実行する。リフレッシュ動作は、最適行動のメモリセルＭＣを対象としたリフレッシュ書き込み動作を含む。

リフレッシュ書き込み動作において、記憶装置１は、メモリグループＭＧ１内の最適行動のメモリセルＭＣの抵抗状態がより良好な状態（すなわち低抵抗な状態）になるように、適宜書き込み動作を実行する。リフレッシュ書き込み動作が実行されると、メモリグループＭＧ１に対する第１読み出し動作において、最適行動のメモリセルＭＣの読み出し電流が、最適行動以外のメモリセルＭＣによる読み出し電流に対して際立つようになる。

その結果、第３実施形態に係る記憶装置１は、ビット線ＢＬの選択、すなわち行動Ａの選択精度を向上させることができ、強化学習済みのデータの信頼性を向上させることができる。また、第３実施形態に係る記憶装置１は、フラグセルを参照することによって、学習済みである状態Ｓに対して選択的にリフレッシュ書き込み動作を実行することができる。これにより、第３実施形態に係る記憶装置１は、不要なリフレッシュ書き込み動作を省略することができ、リフレッシュ動作の処理時間を短縮することができる。

［３－５］第３実施形態の変形例
以上で説明された第３実施形態に係る記憶装置１は、種々の変形が可能である。

第３実施形態で説明されたフラグセルの役割が、参照セルに割り当てられてもよい。この場合、図２２に示されたメモリセルアレイ１０から、ビット線ＢＬｙと、ビット線ＢＬｙに接続された複数尾メモリセルＭＣ（フラグセル）とが省略される。また、この場合、記憶完了動作のステップＳＴ５３の処理において、制御回路５０が、メモリグループＭＧ２内で状態Ｓ（ｋ）のメモリセルＭＣ（参照セル）を対象とした第３書き込み動作を実行する。ステップＳＴ５６の処理において、制御回路５０が、メモリグループＭＧ２内の複数のメモリセルＭＣを対象とした第２読み出し動作を実行して、この読み出し結果から参照値ＲＶｉｎｉｔを取得する。劣化確認動作のステップＳＴ６０の処理において、制御回路５０が、メモリグループＭＧ２内のメモリセルＭＣを対象とした第２読み出し動作を実行して、この読み出し結果から参照値ＲＶｎｏｗを取得する。

制御回路５０は、記憶動作において学習が完了している状態Ｓの情報を記憶部５７に記憶させているのであれば、図２５を参照して説明した記憶完了動作において、ステップＳＴ５１の処理を省略し、ステップＳＴ５２の処理において対象の状態Ｓにおける学習完了の有無のみを確認してもよい。この場合、例えば、学習完了の状態Ｓのフラグセルに対してステップＳＴ５３の第３書き込み動作が実行され、学習未完の状態Ｓのフラグセルに対する第３書き込み動作が省略される。

図２７を参照して説明したリフレッシュ書き込み動作においてフラグセルに適宜第３書き込み動作が実行されると、メモリグループＭＧ３の複数のフラグセルに対する第２読み出し動作により得られる参照値ＲＶが、記憶完了動作において記録された参照値ＲＶｉｎｉｔに近くなることが推測される。このため、リフレッシュ動作において、ステップＳＴ７８及びＳＴ７９の処理が省略されてもよい。この場合、参照値ＲＶｉｎｉｔが、リフレッシュ動作の後においても、記憶完了動作で記録された値を維持する。また、ステップＳＴ７８及びＳＴ７９の処理が省略されることによって、リフレッシュ動作の時間が短縮される。

［４］第４実施形態
第４実施形態に係る記憶装置１は、記憶動作が完了した後におけるメモリグループＭＧ１に記憶されたデータの保障を、第３実施形態と異なる方法で実行する。以下に、第４実施形態に係る記憶装置１について、第１～第３実施形態と異なる点を説明する。

［４－１］メモリセルアレイ１０の構成
図２９は、第４実施形態に係る記憶装置１が備えるメモリセルアレイ１０の回路構成の一例を示す回路図である。図２９に示すように、第４実施形態におけるメモリセルアレイ１０は、第３実施形態で図２２を参照して説明されたメモリセルアレイ１０に対して、メモリセルＭＣ０ｚ０～ＭＣ０ｚ３、ＭＣ１ｚ０～ＭＣ１ｚ３、ＭＣ２ｚ０～ＭＣ２ｚ３、及びＭＣ３ｚ０～ＭＣ３ｚ３と、ビット線ＢＬｚ０～ＢＬｚ３とが追加された構成を有する。

具体的には、メモリセルＭＣ０ｚ０～ＭＣ０ｚ３は、それぞれワード線ＷＬ０とビット線ＢＬｚ０～ＢＬｚ３のそれぞれとの間に接続されている。メモリセルＭＣ１ｚ０～ＭＣ１ｚ３は、それぞれワード線ＷＬ１とビット線ＢＬｚ０～ＢＬｚ３のそれぞれとの間に接続されている。メモリセルＭＣ２ｚ０～ＭＣ２ｚ３は、それぞれワード線ＷＬ２とビット線ＢＬｚ０～ＢＬｚ３のそれぞれとの間に接続されている。メモリセルＭＣ３ｚ０～ＭＣ３ｚ３は、それぞれワード線ＷＬ３とビット線ＢＬｚ０～ＢＬｚ３のそれぞれとの間に接続されている。

第４実施形態に係る記憶装置１では、例えば、複数のメモリセルＭＣが４つのメモリグループＭＧに分類される。メモリグループＭＧ１は、ビット線ＢＬ０～ＢＬ３のいずれかに接続されたメモリセルＭＣを含む。メモリグループＭＧ２は、ビット線ＢＬｘに接続されたメモリセルＭＣを含む。メモリグループＭＧ３は、ビット線ＢＬｙに接続されたメモリセルＭＣを含む。メモリグループＭＧ３は、ビット線ＢＬｚ０～ＢＬｚ３のいずれかに接続されたメモリセルＭＣを含む。メモリグループＭＧ１、ＭＧ２、及びＭＧ３のそれぞれの役割は、第３実施形態と同様である。

そして、第４実施形態に係る記憶装置１では、メモリグループＭＧ４が、メモリグループＭＧ１に記憶されたデータを待避するための記憶領域として使用される。このため、例えば、メモリグループＭＧ１に含まれたメモリセルＭＣの数と、メモリグループＭＧ４に含まれたメモリセルＭＣの数とが略等しい。そして、メモリグループＭＧ４に含まれた各メモリセルＭＣは、メモリグループＭＧ１内で強化学習に使用される複数のメモリセルＭＣのいずれかに関連付けられている。

具体的には、メモリセルＭＣ０ｚ０～ＭＣ０ｚ３は、それぞれメモリセルＭＣ００～ＭＣ０３に関連付けられている。メモリセルＭＣ１ｚ０～ＭＣ１ｚ３は、それぞれメモリセルＭＣ１０～ＭＣ１３に関連付けられている。メモリセルＭＣ２ｚ０～ＭＣ２ｚ３は、それぞれメモリセルＭＣ２０～ＭＣ２３に関連付けられている。メモリセルＭＣ３ｚ０～ＭＣ３ｚ３は、それぞれメモリセルＭＣ３０～ＭＣ３３に関連付けられている。第４実施形態に係る記憶装置１におけるその他の構成は、第３実施形態と同様である。

［４－２］記憶完了動作
図３０は、第４実施形態に係る記憶装置１の記憶完了動作の一例を示すフローチャートである。図３０に示すように、第４実施形態に係る記憶装置１の記憶完了動作は、第３実施形態で図２５を参照して説明された記憶完了動作に、ステップＳＴ８０及びＳＴ８１のそれぞれの処理が追加された構成を有する。ステップＳＴ８０及びＳＴ８１は、ステップＳ５３及びＳＴ５４の間に挿入されている。

具体的には、制御回路５０は、ステップＳＴ５３の処理が完了すると、ステップＳＴ８０の処理に進む。ステップＳＴ８０の処理において、制御回路５０は、メモリグループＭＧ１内で状態Ｓ（ｋ）のメモリセルＭＣを対象とした第１読み出し動作を実行する。この第１読み出し動作によって、制御回路５０は、状態Ｓ（ｋ）において最適行動であることを示すメモリセルＭＣ、すなわちメモリグループＭＧ１内で最も抵抗値の低いメモリセルＭＣを確認する。

制御回路５０は、ステップＳＴ８０の処理が完了すると、ステップＳＴ８１の処理に進む。ステップＳＴ８１の処理において、制御回路５０は、ステップＳＴ８０の読み出し結果に基づいて、制御回路５０は、メモリグループＭＧ１内で状態Ｓ（ｋ）の最適行動であることを示すメモリセルＭＣに関連付けられた、メモリグループＭＧ４内のメモリセルＭＣに対して、第３書き込み動作を実行する。これにより、メモリグループＭＧ４内で最適行動に関連付けられたメモリセルＭＣの抵抗値が下がる。

制御回路５０は、ステップＳＴ８１の処理が完了すると、ステップＳＴ５４の処理に進む。第４実施形態の記憶完了動作のその他の動作は、第３実施形態の記憶完了動作と同様である。

以上で説明された記憶完了動作によって、記憶装置１は、メモリグループＭＧ１における最適行動のメモリセルＭＣのマッピングを、メモリグループＭＧ４に反映（コピー）させることができる。これにより、制御回路５０は、メモリグループＭＧ４において最も抵抗値の低いメモリセルＭＣを探索することによって、最適行動のメモリセルＭＣのアドレスを把握することができる。第４実施形態における記憶完了動作は、“マッピング動作”若しくは“セルアドレスマッピング動作”と呼ばれてもよい。

［４－３］リフレッシュ動作
図３１は、第４実施形態に係る記憶装置１のリフレッシュ動作の一例を示すフローチャートである。図３１に示すように、第４実施形態に係る記憶装置１のリフレッシュ動作は、第３実施形態で図２７を参照して説明されたリフレッシュ動作において、ステップＳＴ７３がステップＳＴ９０に置き換えられた構成を有する。

ステップＳＴ９０の処理では、制御回路５０が、メモリグループＭＧ４内で状態Ｓ（ｋ）の複数のメモリセルＭＣを対象とした第１読み出し動作を実行する。メモリグループＭＧ４はメモリグループＭＧ１からコピーされたデータを記憶しているため、制御回路５０は、ステップＳＴ９０における第１読み出し動作の結果から、当該状態Ｓ（ｋ）における最適行動のメモリセルＭＣを特定することができる。そして、制御回路５０は、第３実施形態と同様に、メモリグループＭＧ１のメモリセルＭＣを対象としたリフレッシュ書き込み動作等を実行することができる。言い換えると、制御回路５０は、フラグセルを参照することによって、学習済みの状態Ｓ（ワード線ＷＬ）のみを対象としたリフレッシュ書き込み動作を実行することができる。第４実施形態に係る記憶装置１のその他の動作は、第３実施形態と同様である。

［４－３］第４実施形態の効果
第４実施形態に係る記憶装置１は、リフレッシュ動作に使用するための領域（メモリグループＭＧ４）を備えている。メモリグループＭＧ４は、メモリグループＭＧ１のコピーデータが記憶されるミラー領域として使用される。また、メモリグループＭＧ４に対する書き込み動作としては、ベリファイ動作を含む第３書き込み動作が使用される。

このため、メモリグループＭＧ４のメモリセルＭＣのリテンション性能は、メモリグループＭＧ１のメモリセルＭＣよりも高くなる。そして、記憶装置１は、リフレッシュ動作において、メモリグループＭＧ４に対する第１読み出し動作を実行することによって、各状態Ｓにおける最適行動のメモリセルＭＣのアドレスを把握することができる。

その結果、第４実施形態に係る記憶装置１は、メモリグループＭＧ１よりも信頼性の高いメモリグループＭＧ４のデータを用いて、メモリグループＭＧ１のデータをリフレッシュさせることができる。従って、第４実施形態に係る記憶装置１は、第３実施形態よりもデータの信頼性を向上させることができる。

［４－４］第４実施形態の変形例
以上で説明された第１実施形態に係る記憶装置１は、種々の変形が可能である。例えば、メモリグループＭＧ４のサイズがメモリグループＭＧ１と同様である場合について例示したが、これに限定されない。

例えば、メモリグループＭＧ４は、最適行動のメモリセルＭＣのアドレス情報のみを記憶してもよい。この場合、制御回路５０は、メモリグループＭＧ１に記憶された学習結果をメモリグループＭＧ４に書き込む際に、最適行動のメモリセルＭＣのアドレスを、状態Ｓ毎にメモリグループＭＧ４内の複数のメモリセルＭＣに記憶させる。このような場合においても、記憶装置１は、第４実施形態と同様の動作のリフレッシュ動作を実行することができ、第４実施形態と同様の効果を得ることができる。また、本変形例は、メモリグループＭＧ４の記憶容量をメモリグループＭＧ１よりも小さくすることができるため、メモリセルアレイ１０の面積を縮小することができる。

また、ユーザは、メモリグループＭＧ４に記憶されたデータを学習結果として使用してもよい。この場合、メモリグループＭＧ１のメモリセルＭＣは、学習時にのみ使用されることになる。記憶装置１は、学習結果がメモリグループＭＧ４に最終的に書き込むことによって、ディスターブの影響が少ないメモリセルＭＣに学習結果を記憶させることができる。また、記憶装置１は、メモリグループＭＧ４に対する学習結果の書き込みに第３書き込み動作を使用することによって、オン／オフ比のマージンの大きい状態で学習結果を使用することができる。

［５］その他
各実施形態で説明された記憶装置１は、１回の記憶動作（強化学習）が実行された後に、その記憶結果（学習モデル）を用いて特定の動作を長期間実行するチップとして使用され得る。言い換えると、記憶装置１は、要求される動作に必要な学習（記憶動作）を１度実施し、学習が完了した後に、そのモデルを使ってある程度の長期間、特定の制御を繰り返し実施するシステムとして使用され得る。具体的には、記憶装置１は、ロボットのアーム制御や、ゲーム等で使用され得る。この場合、記憶完了動作によって設定されたワード線ＷＬ及びビット線ＢＬの対は、時間や入力データによって更新されず、不変である。

また、以上で説明された各実施形態は、種々の変形が可能である。

上記実施形態で説明された動作の詳細は、メモリセルＭＣとして使用される抵抗変化素子の種類に応じて適宜変更され得る。例えば、上記実施形態では、メモリセルＭＣがＦＴＪ素子である場合に、制御回路５０が、第１読み出し動作において最も読み出し電流の大きいビット線ＢＬを選択した動作（ステップＳＴ１２の行動Ａ（ｉ）等）を実行する場合について例示したが、これに限定されない。制御回路５０は、第１読み出し動作により取得された複数のビット線ＢＬのそれぞれの読み出し電流の大きさに基づいて、ビット線ＢＬを選択していればよい。言い換えると、制御回路５０は、少なくとも第１読み出し動作により取得された読み出し電流の差異に応じてビット線ＢＬを選択していればよい。例えば、制御回路５０は、第１読み出し動作において、複数のビット線ＢＬのうち最も読み出し電流の小さいビット線ＢＬを選択してもよい。

制御回路５０によって使用される記憶回路の一部に、フラッシュメモリなどの半導体メモリ素子、ハードディスク、光ディスク等が使用されてもよい。記憶回路は、ＬＡＮ（Local Area Network）やインターネットなどにより伝達されたプログラムをダウンロードして記憶又は一時記憶した記憶媒体であってもよい。また、記憶回路が使用する記憶媒体は１つに限定されず、複数の記憶媒体を使用してもよい。

制御回路５０のＣＰＵの替わりに、ＭＰＵ（Micro Processing Unit）やＧＰＵ（Graphical Processing Unit）等の汎用プロセッサが使用されてもよい。各実施形態において説明された処理のそれぞれは、専用のハードウェアによって実現されてもよい。例えば、制御回路５０としては、ＡＳＩＣ（Application Specific Integrated Circuit）、プログラマブル論理デバイス（例えば、ＳＰＬＤ（Simple Programmable Logic Device）、ＣＰＬＤ（Complex Programmable Logic Device）、ＦＰＧＡ（Field Programmable Gate Array）等）が使用されてもよい。各実施形態で説明された動作は、ソフトウェアにより実行される処理と、ハードウェアによって実行される処理とが混在していてもよいし、どちらか一方のみであってもよい。

各実施形態において、動作の説明に使用されたフローチャートは、あくまで一例である。各動作は、同様の結果が得られるのであれば、処理の順番が可能な範囲で入れ替えられてもよいし、その他の処理が追加されてもよいし、一部の処理が省略されてもよい。例えば、図１３に示されたステップＳＴ１５及びＳＴ１６の処理が、ステップＳＴ１１の処理の直後に挿入されてもよい。この場合、ステップＳＴ１５の第２読み出し動作と、ステップＳＴ１３の行動Ａ（ｉ）とが並行して実行され得る。図１７に示された記憶処理のフローにおいて、ステップＳＴ２００の処理が、第１試行処理に挿入されても良い。この場合、制御回路５０は、第１条件が満たされたことを検知すると、直ちに罰則処理のフローを第２試行処理に切り替える。他の動作についても同様に、条件判定のタイミングと、処理の切り替えのタイミングとは、適宜変更され得る。

尚、本明細書において、“ワード線ＷＬ”は、横方向配線と呼ばれてもよい。“ビット線ＢＬ”が、縦方向配線と呼ばれてもよい。ワード線ＷＬ及びビット線ＢＬのそれぞれが、単に“配線”と呼ばれてもよい。メモリセルＭＣの閾値電圧は、例えば、低抵抗状態のメモリセルＭＣに順方向電圧が印加された場合に、所定の読み出し電流量を超える電圧のことを示している。“接続”とは、電気的に接続されている事を示し、例えば間に別の素子を介することを除外しない。“メモリセルＭＣの一端”は、例えば、メモリセルＭＣの上部電極（導電体層１１）に対応している。“メモリセルＭＣの他端”は、例えば、メモリセルＭＣの下部電極（導電体層１２）に対応している。第１ドライバ回路２０や第２ドライバ回路３０等によって配線に電圧が印加されることは、“制御回路５０が当該配線に電圧を印加する”と表現されてもよく、制御回路５０を主体として説明されてもよい。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１…記憶装置、１０…メモリセルアレイ、１１…導電体層、１２…導電体層、１３…常誘電体膜、１４…強誘電体膜、２０…第１ドライバ回路、２１…電圧発生器、２２…トランジスタ、２３…トランジスタ、３０…第２ドライバ回路、３１…電圧発生器、３２…トランジスタ、４０…読み出し回路、４１…センス回路、４２…トランジスタ、４３…比較回路、４４…計測回路、５０…制御回路、５１…状態取得部、５２…試行制御部、５３…第１ドライバ制御部、５４…第２ドライバ制御部、５５…読み出し制御部、５６…行動実行部、５７…記憶部、６０…センサ、７０…アクチュエータ、８０…タイマ、８１…リフレッシュ制御部、８２…カウンタ、ＢＬ…ビット線、ＷＬ…ワード線、ＭＣ…メモリセル、ＭＧ…メモリグループ、ＲＩ…参照情報、ＲＶ…参照値

Claims

複数の第１配線と、
各々が前記複数の第１配線と交差する複数の第２配線と、
前記複数の第１配線と前記複数の第２配線との間の複数の交差部分にそれぞれ設けられ、各々が前記複数の第１配線のうち１つの第１配線と前記複数の第２配線のうち１つの第２配線とに接続された複数の第１メモリセルと、
制御対象の状態に関する情報を取得することが可能であり、前記状態に基づいた行動を前記制御対象に実行させることが可能であり、前記状態に基づいて読み出し動作及び書き込み動作のそれぞれを実行することが可能な制御回路と、を備え、
前記制御回路は、各々が第１動作と第２動作と第３動作とを含む複数の試行処理を実行し、
前記第１動作では、前記制御対象が第１状態であることに基づいて前記複数の第１配線から選択された第１配線と、前記複数の第２配線との間に接続された複数の第１メモリセルに対する第１読み出し動作を実行し、前記第１読み出し動作により取得された前記複数の第２配線のそれぞれの読み出し電流の大きさに基づいて第２配線を選択し、
前記第２動作では、前記選択された第２配線に関連付けられた行動を前記制御対象に実行させ、前記制御対象の状態が第２状態に遷移し、
前記第３動作では、前記制御対象が前記第２状態であることに基づいて、前記選択された第１配線を対象とした第１処理又は第２処理を実行し、
前記第１処理では、前記選択された第１配線と前記選択された第２配線とに接続された第１メモリセルに、第１方向の書き込み電圧を印加し、前記選択された第１配線と非選択の第２配線とに接続された第１メモリセルに、前記第１方向と異なる第２方向の書き込み電圧を印加し、
１回目からｍ回目（ｍは２以上の整数）の試行処理の第２処理では、前記選択された第１配線と前記選択された第２配線とに接続された第１メモリセルに、前記第２方向の書き込み電圧を印加し、前記選択された第１配線と非選択の第２配線とに接続された第１メモリセルに対する書き込み動作を省略し、
（ｍ＋１）回目以降の試行処理の第２処理では、前記選択された第１配線と前記選択された第２配線とに接続された前記第１メモリセルに、前記第２方向の書き込み電圧を印加し、前記選択された第１配線と非選択の第２配線とに接続された第１メモリセルに対して、前記第１方向の書き込み電圧を印加する、
記憶装置。
前記複数の第１配線と交差する第３配線と、
前記複数の第１配線と前記第３配線との間の複数の交差部分にそれぞれ設けられ、各々が前記複数の第１配線のうち１つの第１配線と前記第３配線とに接続された複数の第２メモリセルと、
前記試行処理に関する情報を記憶することが可能な記憶回路と、をさらに備え、
前記試行処理は、前記複数の第２メモリセルを対象とした第２読み出し動作を含み、
前記制御回路は、前記第２読み出し動作によって取得された前記複数の第２メモリセルのそれぞれの読み出し電流の総和を第１参照値として前記記憶回路に記憶させる、
請求項１に記載の記憶装置。
前記制御回路は、前記複数の試行処理において、ｎ回目（ｎは２以上の整数）の試行処理により取得された第１参照値が（ｎ－１）回目の試行処理により取得された第１参照値よりも下がったことを初めて検知すると、（ｎ＋１）回目以降の試行処理の第２処理で（ｍ＋１）回目以降の前記第２処理を実行する、
請求項２に記載の記憶装置。
前記第１読み出し動作において、前記制御回路は、前記選択された第１配線に第１電圧を印加し、非選択の第１配線に前記第１電圧よりも低い第２電圧を印加し、前記複数の第２配線に前記第２電圧を印加する、
請求項１に記載の記憶装置。
前記第２読み出し動作において、前記制御回路は、前記複数の第１配線に第３電圧を印加し、前記第３配線に前記第３電圧よりも低い第４電圧を印加する、
請求項２に記載の記憶装置。
前記制御回路は、
前記選択された第１配線と前記選択された第２配線とに接続された前記第１メモリセルに前記第１方向の書き込み電圧を印加する際に、前記選択された第１配線に第５電圧を印加し、前記選択された第２配線に前記第５電圧よりも低い第６電圧を印加し、前記非選択の第１配線と前記非選択の第２配線とのそれぞれに前記第５電圧と前記第６電圧との間の第７電圧を印加し、
前記選択された第１配線と前記選択された第２配線とに接続された前記第１メモリセルに前記第２方向の書き込み電圧を印加する際に、前記選択された第１配線に第８電圧を印加し、前記選択された第２配線に前記第８電圧よりも高い第９電圧を印加し、前記非選択の第１配線と前記非選択の第２配線とのそれぞれに前記第８電圧と前記第９電圧との間の第１０電圧を印加する、
請求項１に記載の記憶装置。
前記複数の第１配線と交差する第３配線と、
前記複数の第１配線と前記第３配線との間の複数の交差部分にそれぞれ設けられ、各々が前記複数の第１配線のうち１つの第１配線と前記第３配線とに接続された複数の第２メモリセルと、
前記試行処理に関する情報を記憶することが可能な記憶回路と、をさらに備え、
前記試行処理は、前記選択された第１配線に接続された第２メモリセルを対象とした第３読み出し動作を含み、
前記制御回路は、前記第３読み出し動作によって取得された前記第２メモリセルの読み出し電流の値を第２参照値として、前記第１配線毎の第２参照値を、前記記憶回路に記憶させる、
請求項１に記載の記憶装置。
前記制御回路は、前記選択された第１配線に関連付けられた第２参照値が２回以上連続で低下していることを検知した場合の試行処理において、前記第１処理及び前記第２処理を省略する、
請求項７に記載の記憶装置。
前記複数の第１配線と交差する第４配線と、
前記複数の第１配線と前記第４配線との間の複数の交差部分にそれぞれ設けられ、各々が前記複数の第１配線のうち１つの第１配線と前記第４配線とに接続された複数の第４メモリセルと、をさらに備え、
前記制御回路は、前記複数の試行処理が完了した後に、１つの第１配線と１つの第２配線とが関連付けられている場合に、前記１つの第１配線に接続された第４メモリセルに対して、ベリファイ動作を含む書き込み動作を実行する、
請求項１に記載の記憶装置。
前記試行処理に関する情報を記憶することが可能な記憶回路をさらに備え、
前記制御回路は、前記複数の試行処理の後に、前記複数の第４メモリセルを対象とした第４読み出し動作を実行し、前記第４読み出し動作によって取得された前記複数の第４メモリセルのそれぞれの読み出し電流の総和を第３参照値として前記記憶回路に記憶させる、
請求項９に記載の記憶装置。
前記制御回路は、前記複数の試行処理が完了した後に、前記複数の第４メモリセルを対象とした定期的な前記第４読み出し動作により第３参照値を前記記憶回路に蓄積させ、前記第３参照値の変化に基づいて、前記複数の第１メモリセルのうち第１配線を共有する複数の第１メモリセルで最も抵抗値の低い第１メモリセルの抵抗値を下げる書き込み動作を含むリフレッシュ動作を実行する、
請求項１０に記載の記憶装置。
前記制御回路は、前記複数の試行処理が完了した後でｋ回目（ｋは２以上の整数）に取得した第３参照値が、前記複数の試行処理の後で最初に取得した第３参照値の５０％未満である場合に、前記リフレッシュ動作を実行する、
請求項１１に記載の記憶装置。
前記複数の第１配線と交差し、前記複数の第２配線と同じ本数である複数の第５配線と、
前記複数の第１配線と前記複数の第５配線との間の複数の交差部分にそれぞれ設けられ、各々が前記複数の第１配線のうち１つの第１配線と前記複数の第５配線のうち１つの第５配線とに接続され、前記複数の第１メモリセルにそれぞれ関連付けられた複数の第５メモリセルと、をさらに備え、
前記制御回路は、前記第１配線を共有する複数の第１メモリセルと複数の第５メモリセルとの組のそれぞれにおいて、最も抵抗値の低い第１メモリセルに関連付けられた第５メモリセルに対して、ベリファイ動作を含む書き込み動作を実行し、前記複数の第５メモリセルに対する読み出し動作の結果に基づいて、前記複数の第１メモリセルのうち第１配線を共有する複数の第１メモリセルで最も抵抗値の低い第１メモリセルの抵抗値を下げる書き込み動作を含むリフレッシュ動作を実行する、
請求項１に記載の記憶装置。
前記複数の第１配線と交差する複数の第６配線と、
前記複数の第１配線と前記複数の第６配線との間の複数の交差部分にそれぞれ設けられ、各々が前記複数の第１配線のうち１つの第１配線と前記複数の第６配線のうち１つの第６配線とに接続された複数の第６メモリセルと、をさらに備え、
前記制御回路は、前記複数の試行処理が完了した後に、前記第１配線を共有する複数の第１メモリセルと複数の第６メモリセルとの組のそれぞれで、最も抵抗値の低い第１メモリセルのアドレス情報を、前記第１配線を共有する前記複数の第６メモリセルに記憶させ、前記複数の第６メモリセルに記憶された前記アドレス情報に基づいて、前記複数の第１メモリセルのうち第１配線を共有する複数の第１メモリセルで最も抵抗値の低い第１メモリセルの抵抗値を下げる書き込み動作を含むリフレッシュ動作を実行する、
請求項１に記載の記憶装置。
前記第１メモリセルは、強誘電体膜と、常誘電体膜とを備え、前記強誘電体膜と前記常誘電体膜とは、前記第１配線と前記第２配線との間に設けられている、
請求項１乃至請求項１４のいずれか一項に記載の記憶装置。
複数の第１配線と、各々が前記複数の第１配線と交差する複数の第２配線と、前記複数の第１配線と前記複数の第２配線との間の複数の交差部分にそれぞれ設けられ、各々が前記複数の第１配線のうち１つの第１配線と前記複数の第２配線のうち１つの第２配線とに接続された複数の第１メモリセルとを備える記憶装置の記憶方法であって、
各々が第１動作と第２動作と第３動作とを含む複数の試行処理を実行することと、
第１動作において、制御対象が第１状態であることに基づいて前記複数の第１配線から選択された第１配線と、前記複数の第２配線との間に接続された複数の第１メモリセルに対する第１読み出し動作を実行し、前記第１読み出し動作により取得された前記複数の第２配線のそれぞれの読み出し電流の大きさに基づいて第２配線を選択することと、
前記第２動作において、前記選択された第２配線に関連付けられた行動を前記制御対象に実行させることと、
前記第３動作において、前記制御対象が第２状態であることに基づいて、前記選択された第１配線を対象とした第１処理又は第２処理を実行することと、
前記第１処理において、前記選択された第１配線と前記選択された第２配線とに接続された第１メモリセルに、第１方向の書き込み電圧を印加し、前記選択された第１配線と非選択の第２配線とに接続された第１メモリセルに、前記第１方向と異なる第２方向の書き込み電圧を印加することと、
１回目からｍ回目（ｍは２以上の整数）の試行処理の第２処理において、前記選択された第１配線と前記選択された第２配線とに接続された第１メモリセルに、前記第２方向の書き込み電圧を印加し、前記選択された第１配線と非選択の第２配線とに接続された第１メモリセルに対する書き込み動作を省略することと、
（ｍ＋１）回目以降の試行処理の第２処理において、前記選択された第１配線と前記選択された第２配線とに接続された前記第１メモリセルに、前記第２方向の書き込み電圧を印加し、前記選択された第１配線と非選択の第２配線とに接続された第１メモリセルに対して、前記第１方向の書き込み電圧を印加することと、を備える、
記憶方法。
前記記憶装置が、前記複数の第１配線と交差する第３配線と、前記複数の第１配線と前記第３配線との間の複数の交差部分にそれぞれ設けられ、各々が前記複数の第１配線のうち１つの第１配線と前記第３配線とに接続された複数の第２メモリセルと、をさらに備え、
前記試行処理は、前記複数の第２メモリセルを対象とした第２読み出し動作を含み、
前記第２読み出し動作において取得された前記複数の第２メモリセルのそれぞれの読み出し電流の総和を第１参照値として記憶回路に記憶させることと、
前記複数の試行処理において、ｎ回目（ｎは２以上の整数）の試行処理により取得された第１参照値が（ｎ－１）回目の試行処理により取得された第１参照値よりも下がったことを初めて検知すると、（ｎ＋１）回目以降の試行処理の第２処理で（ｍ＋１）回目以降の前記第２処理を実行することと、を備える、
請求項１６に記載の記憶方法。
前記記憶装置が、前記複数の第１配線と交差する第３配線と、前記複数の第１配線と前記第３配線との間の複数の交差部分にそれぞれ設けられ、各々が前記複数の第１配線のうち１つの第１配線と前記第３配線とに接続された複数の第３メモリセルと、をさらに備え、
前記試行処理は、前記選択された第１配線に接続された第３メモリセルを対象とした第３読み出し動作を含み、
前記第３読み出し動作において取得された前記第３メモリセルの読み出し電流の値を、前記第１配線に関連付けられた第２参照値として記憶回路に記憶させることと、
前記選択された第１配線に関連付けられた第２参照値が２回以上連続で低下していることを検知した場合の試行処理において、前記第１処理及び前記第２処理を省略することと、を備える、
請求項１６に記載の記憶方法。
前記記憶装置が、前記複数の第１配線と交差する第４配線と、前記複数の第１配線と前記第４配線との間の複数の交差部分にそれぞれ設けられ、各々が前記複数の第１配線のうち１つの第１配線と前記第４配線とに接続された複数の第４メモリセルと、をさらに備え、
前記複数の試行処理の後に、前記複数の第４メモリセルを対象とした第４読み出し動作を定期的に実行することと、
前記第４読み出し動作によって取得された前記複数の第４メモリセルのそれぞれの読み出し電流の総和を第３参照値として記憶回路に記憶させることと、
前記第３参照値の変化に基づいて、前記複数の第１メモリセルのうち第１配線を共有する複数の第１メモリセルで最も抵抗値の低い第１メモリセルの抵抗値を下げる書き込み動作を含むリフレッシュ動作を実行することと、を備える
請求項１６に記載の記憶方法。
前記複数の試行処理が完了した後でｋ回目（ｋは２以上の整数）に取得した第３参照値が前記複数の試行処理の後で最初に取得した第３参照値の５０％未満である場合に、前記リフレッシュ動作を実行すること、を備える
請求項１９に記載の記憶方法。