JP2018124790A - 意思決定装置 - Google Patents

意思決定装置 Download PDF

Info

Publication number
JP2018124790A
JP2018124790A JP2017016294A JP2017016294A JP2018124790A JP 2018124790 A JP2018124790 A JP 2018124790A JP 2017016294 A JP2017016294 A JP 2017016294A JP 2017016294 A JP2017016294 A JP 2017016294A JP 2018124790 A JP2018124790 A JP 2018124790A
Authority
JP
Japan
Prior art keywords
decision
electrolyte
electrodes
voltage
electrode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017016294A
Other languages
English (en)
Other versions
JP6872226B2 (ja
Inventor
敬志 土屋
Takashi Tsuchiya
敬志 土屋
寺部 一弥
Kazuya Terabe
一弥 寺部
徹 鶴岡
Toru Tsuruoka
徹 鶴岡
成主 金
Narikazu Kin
成主 金
青野 正和
Masakazu Aono
正和 青野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute for Materials Science
Original Assignee
National Institute for Materials Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute for Materials Science filed Critical National Institute for Materials Science
Priority to JP2017016294A priority Critical patent/JP6872226B2/ja
Publication of JP2018124790A publication Critical patent/JP2018124790A/ja
Application granted granted Critical
Publication of JP6872226B2 publication Critical patent/JP6872226B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

【課題】簡易で小型化可能なデバイスにより、綱引き原理に正確に基づいて意思決定が可能な意思決定装置を提供する。【解決手段】電荷の蓄積により学習を行う学習手段、事象の行動に応じた電荷を学習手段に与える電荷供給手段、及び学習手段の電圧を読み取る電圧読み取り手段を有し、電圧読み取り手段で読み取った電圧により意思を決定する意思決定装置であって、学習手段は、電場によるイオンの輸送が可能な電解質材料層を2以上の電極で挟んだ電解質素子からなる。【選択図】図2

Description

本発明は、事象情報を電気信号にして与えときに報酬確率の高い行動を選択する意思決定装置に関する。
近年、高効率な意思決定の重要性が増している。例えば、金融においては、刻一刻と変動する相場情報を基に安全に危険資産の管理を行う必要がある。コグニティブ無線では、端末の位置や時間帯によって最適な無線方式、周波数帯を選択する必要がある。囲碁、将棋といった競技は変動する環境で意思決定が問題となる典型例であり、近年、人間とコンピュータとの対戦が話題となっている。
こうした問題は、多本腕バンディット問題として取り扱われ、通常、SOFTMAX法やε−GREEDY法といった従来型アルゴリズムを用いた計算処理により解決される。しかし、このような手法は万能ではなく、より高速かつ正確な解法が求められている。
近年、こうした多本腕バンディット問題の効率的な解法として「綱引き原理」が提案された(非特許文献1から3、及び特許文献1)。例えば、報酬確率の異なる2つの行動を選択する場合、それぞれの行動に対する試行錯誤において得られる報酬に応じて変位(綱引き)する物体を用いることによって、より報酬確率の高い行動を選択する。これを意思決定と呼ぶ。
図1を参照しながら報酬確率80%の行動Aと20%の行動Bの2つの行動を選択する場合を考える。行動AとBの報酬確率はプレイヤーにとって未知であるため、それぞれの行動を選択し報酬を得る、あるいは得られないという経験を基に報酬確率を予測し、より報酬確率の高い行動を選択(意思決定)する。綱引き原理では、プレイヤーが行動AやBを選択し、得た報酬に応じて物体を刻一刻と変位させていくことによって、より報酬確率の高い行動を選択(意思決定)する。例えば、試行錯誤の過程で行動Aを選択し、報酬を得た場合は+1、報酬を得られなかった場合は‐ωの変位を物体に与える。逆に行動Bを選択し、報酬を得た場合は‐1、報酬を得られなかった場合は+ωの変位を物体に与える。物体の変位がどちらかに偏ることにより、選択(意思決定)をしたと見做せばよい。ここで、ωはγ/2‐γで定義される。図1の場合、γは行動Aの報酬確率(80%)と行動Bの報酬確率(20%)の和を100で割った値である1.0となる(非特許文献1)。
綱引き原理は、従来手法と比較すると報酬確率の高い行動への収束が高速であるだけでなく、環境(それぞれの行動が持つ報酬確率)の変化に対して適応性が高いという利点を有している。さらに、他の解法が計算処理に依拠するプログラムであることに対して、綱引き原理は物理現象に依拠するため、プログラムにおいて問題となる計算処理量の増大とそれに伴って生じる処理数の限界を回避することが可能となる。
綱引き原理を用いた意思決定手段を様々な物理現象を利用して実装して、強化学習に用いる試みがなされている(非特許文献4から7)。例えば、ナノダイヤモンドの窒素欠陥を光子源として用いると、単一光子の粒子性と確率性を利用することで綱引き原理を物理的に実装することが出来る(非特許文献6)。しかし、このような方法では大規模な光学回路が必要となるため、デバイス、回路の小型化には適さないという課題が残る。また、比較的小さな空間で金属フィラメントの生成・切断を行い意思決定に用いようとする試みもある(非特許文献7)。しかしながらこの方法は、綱引き原理を原理上精度良く再現出来ないという根本的な問題を内包しており、実用的とは言い難い。このように、綱引き原理に正確に基づき、かつ小型化可能なデバイスによって意思決定するという意思決定装置の課題は解決されていない。
特開2014−191598号公報
New J.Phys.,vol.17,p.083023(2015) Biosystems,vol.101,pp.29−36(2010) LNCS,vol.6079,pp.69−80(2010) Sci.Rep.,vol.3,p.2370(2013) J.Appl.Phys.,vol.116,p.154303(2014) AIMS Mater.Sci.,vol.3,pp.245−259(2016) DOI:10.1039/c6nr00690f(2016)
本発明の課題は、簡易で小型化可能なデバイスにより、綱引き原理に正確に基づいて意思決定が可能な意思決定装置を提供することである。
本発明の構成を下記に示す。
(構成1)
電荷の蓄積により学習を行う学習手段、事象の行動に応じた電荷を前記学習手段に与える電荷供給手段、及び前記学習手段の電圧を読み取る電圧読み取り手段を有し、前記電圧読み取り手段で読み取った電圧により意思を決定する意思決定装置であって、
前記学習手段は、電場によるイオンの輸送が可能な電解質材料層を2以上の電極で挟んだ電解質素子からなる、意思決定装置。
(構成2)
前記2以上の電極間に前記電荷の流入による電流を流して前記イオンを輸送し、前記電極間に電圧を生じさせる、構成1記載の意思決定装置。
(構成3)
前記イオンの前記2以上の電極のうちの少なくとも1の電極側への移動または電極内への侵入により、前記2以上の電極に電子及び正孔が生成されて電圧が発生する、構成1または2記載の意思決定装置。
(構成4)
前記電解質材料層は液体電解質または固体電解質を含む、構成1から3の何れか1に記載の意思決定装置。
(構成5)
前記液体電解質は、テトラメチルアンモニウムイオン(TMA)、テトラエチルアンモニウムイオン(TEA)、テトラブチルアンモニウムイオン(TBA)、テトラフルオロホウ酸イオン(BF )、N,N−ジエチル−N−メチル−N−(2−メトキシエチル)アンモニウム−ビス(トリフルオロメタンスルホニル)イミド(DEME−TFSI)、N,N−ジエチル−N−メチル−N−(2−メトキシエチル)アンモニウム−テトラフルオロボラート(DEME−BF)からなる群の少なくとも1を含む、構成4記載の意思決定装置。
(構成6)
前記電解質材料は可動イオンを有する高分子化合物を含む構成4に記載の意思決定装置。
(構成7)
前記高分子化合物はポリエチレンオキシドまたはナフィオンの少なくとも何れかを含む、構成6に記載の意思決定装置。
(構成8)
前記電解質材料層は可動イオンを有する金属酸化物またはケイ酸(SiO) の少なくとも何れかを含む、構成4に記載の意思決定装置。
(構成9)
前記金属酸化物は、酸化セリウム(CeO)、酸化タンタル(Ta)、酸化ジルコニウム(ZrO)、酸化ニオブ(Nb)、酸化タングステン(WO)、酸化リチウム(LiO)からなる群の少なくとも1を含む、構成8に記載の意思決定装置。
(構成10)
前記2以上の電極は電子伝導性を有する金属または半導体の少なくとも何れかを含む、構成4に記載の意思決定装置。
(構成11)
前記金属は、金、白金、銀、パラジウム、アルミニウム、鉄、銅、タングステン、チタン、タンタルからなる群の少なくとも1を含む、構成10に記載の意思決定装置。
(構成12)
前記半導体は、炭素、シリコン、コバルト酸リチウムからなる群の少なくとも1を含む、構成10に記載の意思決定装置。
(構成13)
前記金属及び半導体は、電場下でイオンとの化学反応が可能な活性物質を含む、構成10に記載の意思決定装置。
(構成14)
前記金属及び半導体は、電場下でイオン輸送が可能な電解質を含み、前記電解質材料層内及び前記2以上の電極のうちの一方の電極内のイオンが移動して他方の電極内に前記イオンが侵入する、構成10に記載の意思決定装置。
(構成15)
前記意思決定装置は配線切替手段を有する、構成1から14の何れかに記載の意思決定装置。
本発明によれば、簡易で小型化可能なデバイスにより、綱引き原理に正確に基づいて意思決定が可能な意思決定装置を提供することが可能になる。
綱引き原理による意思決定を説明する概念図。 意思決定装置の構成を示す構成図。 電源スイッチ部の構成を電気回路で示す回路図。 電源スイッチ部の構成を電気回路で示す回路図。 電解質素子の構成を示す断面図。 電解質素子の動作原理を示す説明図。 学習、意思決定過程における電解質素子の電気特性を説明する説明図。 電解質素子の構成を示す断面図。 電解質素子の動作原理を示す説明図。 意思決定装置の構成を示す構成図。 学習記憶装置部の構成を示す構成図。 学習記憶装置部の動作原理を示す説明図。 学習記憶装置部の動作原理を示す説明図。 報酬確率(P,P)を(80%、20%)としたときの電解質素子の起電力の変化を示す特性図。 報酬確率(P,P)を(80%、20%)と(20%、80%)で繰り返し切り替えた場合の正答確率の推移を示す特性図。 報酬確率(P,P)を(70%、30%)と(30%、70%)で繰り返し切り替えた場合の正答確率の推移を示す特性図。 報酬確率(P,P)を(60%、40%)と(40%、60%)で繰り返し切り替えた場合の正答確率の推移を示す特性図。
以下本発明を実施するための形態を図面を参照しながら説明する。
(実施の形態1)
<意思決定装置の構成>
本発明の意思決定装置は、電荷の蓄積により学習を行う学習手段、事象の行動に応じた電荷を学習手段に与える電荷供給手段、及び学習手段の電圧を読み取る電圧読み取り手段からなり、その構成を図2に示す。
ここで、電荷の蓄積により学習を行う学習手段は、電場によるイオン輸送が可能な電解質材料層を2以上の電極で挟んだ電解質素子11からなる。
電荷供給手段は、事象の行動の学習をさせるための入力信号を基に電源から電荷を供給する電源スイッチからなり、電圧を読み取る手段は電圧計14からなる。電圧計は、この回路を流れる電流に対してなるべく影響を与えないように、高抵抗(高インピーダンス)のものを用いることが好ましい。
電源スイッチは、電源と入力信号により電圧の印加と切断、電圧の正負及びその電圧の大きさの調整を行う機能を有する。図1では、電源スイッチは、電解質素子11に入力信号15を基に第1の電圧を印加及びその切断が可能な第1の電源スイッチ12と、入力信号16を基に第1の電源とは逆向きの電圧を印加及びその切断することが可能な第2の電源スイッチ13からなる場合を示す。但し、これは一例であり、電源スイッチは、1つの電源から入力信号を基に、電解質素子11に正負を含む所定の電圧を印加したり、電圧の印加を中断したりすることが可能なスイッチを有するものでもよい。
電源スイッチ12としては、例えば図3に示すように、MOSトランジスタスイッチ21、直流電源22、可変抵抗23からなるものが挙げられる。学習を与えるための入力信号13がMOSトランジスタ21のゲート24に入力されると、MOSトランジスタ21がオンの状態になって、電解質素子11に電圧が印加される。入力信号13が入力されない場合は、MOSトランジスタ21はオフの状態になって電解質素子11へは電圧は印加されない。ここで、電解質素子11に印加される電圧の大きさは可変抵抗23によって所定の値に調整される。
電源スイッチ13としては、例えば図4に示すように、MOSトランジスタスイッチ25、直流電源26、可変抵抗27からなるものが挙げられる。ここで、直流電源26は、直流電源22の電圧の正負とは逆の正負を与える電源にしておく。学習を与えるための入力信号16がMOSトランジスタ25のゲート28に入力されると、MOSトランジスタ25がオンの状態になって、電解質素子11に電源スイッチ12からの電圧とは逆向きの電圧が印加される。入力信号16が入力されない場合は、MOSトランジスタ25はオフの状態になって電解質素子11へは電圧は印加されない。ここで、電源スイッチ12と同様に、電解質素子11に印加される電圧の大きさは可変抵抗27によって所定の値に調整される。
<電解質素子の構造>
実施の形態1では、その構成と機能をわかりやすくすることも考慮して、電極が2つからなる電解質素子11(2端子電解質素子11)の場合について説明する。
電解質素子11の構造を断面図である図5に示す。電解質素子11は、陰イオン1と陽イオン2が移動出来る電解質材料層3を第1の電極4と第2の電極5で挟んだ積層構造になっている。電流印加による効果は、第1の電極4と第2の電極5との間の電圧(起電力)として測定可能である。
なお、図5及び以降の概念図は本発明を概念的に示すものであるため、実際の構造がこれらの図に示す構造と完全に相似形となることが必要とされるわけではないし、またこれらの図には明示されていない要素を追加したり、同等な別の要素で置換することもできる。
電解質材料層3の材料としては、例えば、液体電解質であるテトラメチルアンモニウム−テトラフルオロボラート(TMA−BF)を用いることができる。電解質としては、テトラメチルアンモニウムイオン(TMA)、テトラエチルアンモニウムイオン(TEA)、テトラブチルアンモニウムイオン(TBA)、テトラフルオロホウ酸イオン(BF )、N,N−ジエチル−N−メチル−N−(2−メトキシエチル)アンモニウム−ビス(トリフルオロメタンスルホニル)イミド(DEME−TFSI)、N,N−ジエチル−N−メチル−N−(2−メトキシエチル)アンモニウム−テトラフルオロボラート(DEME−BF)からなる群の少なくとも1を含む液体電解質を使用することもできる。また、電解質材料には電解質以外に各種の添加物を加えることもできる。また、電解質の材料としては他に固体電解質、可動イオンを含む高分子化合物、可動イオンを有する金属酸化物及びケイ酸(SiO)も使用可能である。
ここで、可動イオンを含む高分子化合物としては、ポリエチレンオキシド、ナフィオンを挙げることができ、可動イオンを有する金属酸化物としては、酸化セリウム(CeO)、酸化タンタル(Ta)、酸化ジルコニウム(ZrO)、酸化ニオブ(Nb)、酸化タングステン(WO)、酸化リチウム(LiO)を挙げることができる。
第1の電極4及び第2の電極5の材料としては、例えば、電解質との化学反応について比較的不活性であるグラファイトを用いることができる。グラファイト以外にも、電子伝導性を有する金属、例えば、金、白金、銀、パラジウム、アルミニウム、鉄、銅、タングステン、チタン、タンタルを用いることができる。また、第1の電極4及び第2の電極5として、電子伝導性を有する半導体、例えば、炭素、シリコン、コバルト酸リチウムを用いることもできる。これらの金属及び半導体は、電場下でイオンとの化学反応が可能な活性物質を含んでいる。
<意思決定装置の動作>
図6と図7を参照しながら、本発明の動的に強化学習可能な意思決定装置の動作を説明する。図6は、図5に示した2端子電解質素子11に対して第2の電極側から電流を流すことによって、第1の電極4と第2の電極5の間の電圧(起電力)を変化させることができることを示している。
図6に示す電解質素子11を作製した段階(原点状態)では、図5に示す様に、電解質材料層3内には陰イオン1と陽イオン2が均一に分布している。次に、電解質素子11の第1の電極4側から電流を流すと、電解質材料層3内の負の電荷を有する陰イオン1は、第1の電極4と電解質材料層3の界面(以下、第1の電極側界面と称する。また、第2の電極5と電解質材料層3との界面を第2の電極側界面と称する。)付近に移動し、場合によっては一部が第1の電極内に侵入して、濃化する。このとき、陰イオン1の濃化により、第1の電極4には正の電荷h(正の極性の伝導キャリア)が蓄積される。一方、第1の電極と対向する第2の電極5においては、陰イオン1が減少して、正の極性のイオンである陽イオン2が残される。そのため、第2の電極5には負の電荷e(負の極性の伝導キャリア)が蓄積される。
この状態は平行極板キャパシタに蓄電したのと類似の状態であるので、第1の電極4と第2の電極5との間に、第1の電極4を正の極性とした電圧(Vで表し、第1の電極4側の電圧を印加電圧の極性とする。)が起電力として生じる。ここで、この起電力Vは、流れる電流や電解質材料層3内におけるイオン伝導度、イオン輸率によって変化する。なお、電流を流す時間は数ミリ秒から数秒が好ましい。
本装置で生じた起電力Vは電流により蓄積した電荷によるものなので、電流を停止して回路を開放しても起電力はすぐには失われない。そして、さらに電流を流すことにより、起電力を増減させることが可能である。
次に、図7を用いて強化学習及び意思決定の手順を、報酬確率P、P(%)を持つ二つの行動A、Bの選択を行う場合を例に挙げて説明する。意思決定装置100は、結果的に、正の起電力(電圧)を示す場合は行動Aを選択し、Pの確率で報酬を得るとする。逆に100‐P(%)の確率で報酬は得られない。同様に、負の起電力(電圧)を示す場合は行動Bを選択し、Pの確率で報酬を得るとする。このときは、100‐P(%)の確率で報酬が得られない。
図7のtに示す時点で起電力を正と判定すると、行動Aを選択するのでPの確率で報酬を得るが、装置上では、この報酬に対応する予め定めた値の正の電流を一定時間流しておく。正の電流により、起電力Vは正の極性で増大する(Vに対応)。電流を止めて回路を一定時間開くと、起電力Vの減衰が起こる(Vに対応)。回路を開いた状態でtの時点で起電力Vを判定した後、tの時点から再び電流(この場合は上記とは逆向きの電流)を流し、tの時点で起電力Vを判定する。そして、tの時点で回路を開き(Vに対応)、同様の過程を繰り返す。図7の時刻tからtの過程(図7のT)を1回の試行とし、この試行を繰り返し行う。試行回数を増すに従い、起電力が正、もしくは負に偏っていく。これを以て装置が行動A、もしくは行動Bを選択したと判断する。例えば、P>Pであれば、正の起電力に偏っていくとき、意思決定装置100は報酬確率がより高い行動を正しく選択したと解釈される。
本発明の意思決定装置100では、事象の行動に応じて電荷を電解質素子11に蓄積させていき、試行を繰り返した結果、最終的に蓄積された電荷による起電力により意思決定を行っている。本発明では、この電荷の蓄積素子として電気化学動作を行う電解質を用いたことが1つの要となっている。
例えば、電解質素子11に置き換えて、電子を蓄積するコンデンサーを電荷蓄積素子として用いた場合を考える。コンデンサーの場合は、電流印加によって蓄積された電荷をQとすると、報酬確率の変動に対応するために失われなければならない電荷も‐Qになる。コンデンサーの場合はこの関係性が厳密に成立する。意思決定工程を、パチンコを例に例えて言うと、1台のパチンコ台を使って10万円儲けた遊戯者は、その台で10万円以上損をするまでその台を諦められない状態に相当し、賢い意思決定とは言い難い状況になる。
一方、電荷蓄積素子として電解質素子を用いている本発明では、電気化学反応が進行することにより電荷が少しずつ失われていくため、報酬確率の変動に対応するために失われなければならないQはかなり小さくなる。上記のパチンコの例で言うと、10万円儲かった台で例えば3万円損をした段階で見切りをつけて他の台を選択するという判断が可能になり、より賢い意思決定ができる。
(実施の形態2)
一連の強化学習と意思決定は2つ以上の行動に対しても、対応する電極を適宜増設することによって実施することが可能である。具体的には、上述の起電力の判定基準を、最も高いもしくは低い起電力を示す行動を選択する、と改めればよい。よって、原理上は取り扱うことが出来る行動の数には制限がない。
以下、図を用いて詳細に説明する。
電極の数を第1の電極4、第2の電極5、そして第3の電極6と3つに増やした電解質素子51の例を図8に示す。ここで、第1の電極4、第2の電極5、第3の電極6をそれぞれ行動A、B、Cに対応させた場合を考える。実施の形態1で述べた2端子電解質素子1を用いた場合と同様に、図9に示すように、報酬確率Pに対応する電流を第1の電極4、第2の電極5、第3の電極6の間に流す。こうした試行を繰り返すことで、最も報酬確率の高い行動を選択することが可能になる。
電極の数が3つの3端子電解質素子31を用いた意思決定装置110の例を図10に示す。図10の意思決定装置110では、第1の電極33は、電解質材料層32からなる層を挟んで第2の電極34及び第3の電極35と対向した場合であるが、電極が並列に並んでいる3端子電解質素子51とその機能は変わらない。意思決定装置110では、電源スイッチ41、42、44、45、47,48、及び電圧計43,46,49を使って、実施の形態1と同様の手法で行動A、B、Cに対応して、報酬確率の高い行動を選択することが可能である。
(実施の形態3)
本技術を用いた場合、電解質素子1個による試行では最も報酬確率が高い行動のみしか決定出来ないのに対し、素子を増やすことによってより困難な問題を解くことが可能になる。電極を複数取り付けた電解質素子7及び8を、配線切替機9を介して電源(直流電源)60に接続した学習記憶装置部120を図11に示す。ここで、学習記憶装置部120は、意思決定装置の一部で、学習手段と電荷供給手段からなるモジュールである。
電解質素子8の最も高い電位を示す電極が第1の電極61の場合、第1の電極61に報酬確率Pに対応する電流を流す。このとき、図12に示すように、電解質素子8の第1の電極64と電解質素子7の第1の電極61とを電気的に繋ぎ、電解質素子7の第1の電極61以外の電極、例えば第3の電極63と、それに対応する電解質素子8の第3の電極66を電源(直流電源)60に電気的に繋ぎ、電流を流す。この場合、電解質素子7の第3の電極63と電解質素子8のそれに対応する第3の電極66には、それぞれ逆の符合の電荷が蓄積される。
次に、電解質素子7の第1の電極61以外の電極として第2の電極62を選択した場合は、図13に示すように、ここでも電解質素子7の第2の電極62と電解質素子8の第2の電極65にはそれぞれ逆の符合の電荷が蓄積される。
こうした試行を第1の電解質素子7と第2の電解質素子8で交互に繰り返していくことで、最終的に電解質素子7と電解質素子8は異なった行動を選択するが、これは報酬確率の最も高い上位2つの行動に対応する。
このように、電解質素子1個による試行では最も報酬確率が高い行動のみしか決定出来ないのに対し、電解質素子の数を増やし、配線切替機(配線切替手段)を用いて適宜各電解質素子間の電極の電気的接合と切り離し、電源への接合と切り離しを行うことで上位2つ以上を決定するというより困難な問題を解くことが可能になる。
以下、実施例により本発明をさらに詳細に説明するが、当然のこととして、本発明は以下の実施例に限定されるものではなく、特許請求の範囲のみにより規定されるものであることに注意されたい。
(実施例1)
実施例1では、図2に示す意思決定装置100を用いて、意思決定の評価を行った。そこでは、電解質素子11の電極数を2とし、報酬化率P、Pに応じてその2つの電極間に電源スイッチ15及び16を通じて下記所定の電圧を印加して、起電力の変化を電圧計14でモニターした。電解質素子11の電極4,5にはグラファイトを用い、電解質材料層3の電解質としては液体電解質であるテトラメチルアンモニウム-テトラフルオロボラート(TMA−BF)を用いた(図5参照)。
行動A及びBの報酬確率をそれぞれP=80%、P=20%とし、正の起電力を示した場合に行動Aを選択、負の起電力を示した場合に行動Bを選択するとした。それぞれの行動A、BにおいてP、Pの確率で報酬を得た場合に印加する電流値を4mA、得なかった場合の電流値を3.9mAとした。また、電流の印加時間と回路解放時間をそれぞれ1秒間とした。以上の条件で行った試行により両電極間に生じた起電力変化の例を図14に示す。図7を用いて説明したのと同様の起電力変化が数100mV程度の大きさで実際に観察されていることがわかる。これは電流印加により電極界面近傍の電気二重層が変調されることに起因する。
時間に対して報酬確率が変化する行動群の中から場面に応じた強化学習によって最適な行動を選択させるという観点から、P、Pの変化に対する追従性が重要となる。そこで、この測定では試行回数100回毎にPとPの大きさを入れ替えている。その際に装置が報酬確率の高い行動を正しく選択した確率(正答確率)を試行回数に対してプロットすると図15となる。試行回数0回から10回では正答確率が40%以下であるが、試行回数40回でほぼ90%以上に到達している。次に、試行回数100回を超えた時点でPとPの値を反転させた所、直後は正答確率が0%に落ち込んだ。しかし、報酬確率の変動に対応して再び正答確率を高め、試行回数150回で再び正答確率がほぼ90%に達した。報酬確率の変動をさらに与えたが、同様に速やかに正答確率を回復させる挙動が観察された。
図16にP、Pを70%、30%として図15と同様に試行回数100回毎に入れ替えた際の正答確率の変化を示す。正答確率が90%以上に収束する試行回数が50回から70回と相対的に増加している。これは、図15での試行と比較してPとPの値が近く、意思決定までにより多くの試行回数を要する難しい問題であることと対応しており、合理的な結果と言える。
(実施例2)
実施例2では、実施例1で用いた装置の電解質のみを液体電解質から固体電解質であるナフィオンに代えて実施例1と同様の測定を行った場合を示す。報酬確率P、Pを60%、40%として試行回数200回毎に入れ替えて測定を行った結果を図17に示すが、その図から実施例1と同様の正答確率の変化が確認出来る。これは、液体、固体という電解質の状態に関わらずイオン伝導性によって強化学習、及びそれに伴う意思決定が可能となっていることを示している。この例ではナフィオン中を伝導するプロトンによって機能が得られている。
綱引き原理は、学習結果を強く反映した強化学習に位置づけられている。本発明の意思決定装置は、小型で簡易なデバイスでかつ複雑な計算を必要とせずに、その強化学習に基づいて効率的に意思決定を行うことが可能である。このため、本発明の意思決定装置は産業分野で大いに利用される可能性がある。
1:陰イオン
2:陽イオン
3:電解質材料層
4:第1の電極
5:第2の電極
6:第3の電極
7:電解質素子
8:電解質素子
9:配線切替機
11:電解質素子
12:第1の電源スイッチ
13:第2の電源スイッチ
14:電圧計
15,16:入力信号
21,25: MOSトランジスタ
22,26:直流電源
23,27:可変抵抗
24,28:ゲート
31:電解質素子
32:電解質材料層
33:第1の電極
34:第2の電極
35:第3の電極
41,42,44,45,47,48:電源スイッチ
43,46,49:電圧計
51:電解質素子
60:電源(直流電源)
100,110:意思決定装置
120:学習記憶装置部

Claims (15)

  1. 電荷の蓄積により学習を行う学習手段、事象の行動に応じた電荷を前記学習手段に与える電荷供給手段、及び前記学習手段の電圧を読み取る電圧読み取り手段を有し、前記電圧読み取り手段で読み取った電圧により意思を決定する意思決定装置であって、
    前記学習手段は、電場によるイオンの輸送が可能な電解質材料層を2以上の電極で挟んだ電解質素子からなる、意思決定装置。
  2. 前記2以上の電極間に前記電荷の流入による電流を流して前記イオンを輸送し、前記電極間に電圧を生じさせる、請求項1記載の意思決定装置。
  3. 前記イオンの前記2以上の電極のうちの少なくとも1の電極側への移動または電極内への侵入により、前記2以上の電極に電子及び正孔が生成されて電圧が発生する、請求項1または2記載の意思決定装置。
  4. 前記電解質材料層は液体電解質または固体電解質を含む、請求項1から3の何れか1に記載の意思決定装置。
  5. 前記液体電解質は、テトラメチルアンモニウムイオン(TMA)、テトラエチルアンモニウムイオン(TEA)、テトラブチルアンモニウムイオン(TBA)、テトラフルオロホウ酸イオン(BF )、N,N−ジエチル−N−メチル−N−(2−メトキシエチル)アンモニウム−ビス(トリフルオロメタンスルホニル)イミド(DEME−TFSI)、N,N−ジエチル−N−メチル−N−(2−メトキシエチル)アンモニウム−テトラフルオロボラート(DEME−BF)からなる群の少なくとも1を含む、請求項4記載の意思決定装置。
  6. 前記電解質材料は可動イオンを有する高分子化合物を含む請求項4に記載の意思決定装置。
  7. 前記高分子化合物はポリエチレンオキシドまたはナフィオンの少なくとも何れかを含む、請求項6に記載の意思決定装置。
  8. 前記電解質材料層は可動イオンを有する金属酸化物またはケイ酸(SiO) の少なくとも何れかを含む、請求項4に記載の意思決定装置。
  9. 前記金属酸化物は、酸化セリウム(CeO)、酸化タンタル(Ta)、酸化ジルコニウム(ZrO)、酸化ニオブ(Nb)、酸化タングステン(WO)、酸化リチウム(LiO)からなる群の少なくとも1を含む、請求項8に記載の意思決定装置。
  10. 前記2以上の電極は電子伝導性を有する金属または半導体の少なくとも何れかを含む、請求項4に記載の意思決定装置。
  11. 前記金属は、金、白金、銀、パラジウム、アルミニウム、鉄、銅、タングステン、チタン、タンタルからなる群の少なくとも1を含む、請求項10に記載の意思決定装置。
  12. 前記半導体は、炭素、シリコン、コバルト酸リチウムからなる群の少なくとも1を含む、請求項10に記載の意思決定装置。
  13. 前記金属及び半導体は、電場下でイオンとの化学反応が可能な活性物質を含む、請求項10に記載の意思決定装置。
  14. 前記金属及び半導体は、電場下でイオン輸送が可能な電解質を含み、前記電解質材料層内及び前記2以上の電極のうちの一方の電極内のイオンが移動して他方の電極内に前記イオンが侵入する、請求項10に記載の意思決定装置。
  15. 前記意思決定装置は配線切替手段を有する、請求項1から14の何れかに記載の意思決定装置。
JP2017016294A 2017-01-31 2017-01-31 意思決定装置 Active JP6872226B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017016294A JP6872226B2 (ja) 2017-01-31 2017-01-31 意思決定装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017016294A JP6872226B2 (ja) 2017-01-31 2017-01-31 意思決定装置

Publications (2)

Publication Number Publication Date
JP2018124790A true JP2018124790A (ja) 2018-08-09
JP6872226B2 JP6872226B2 (ja) 2021-05-19

Family

ID=63109684

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017016294A Active JP6872226B2 (ja) 2017-01-31 2017-01-31 意思決定装置

Country Status (1)

Country Link
JP (1) JP6872226B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020059723A1 (ja) * 2018-09-18 2020-03-26 学校法人慶應義塾 意思決定装置、及び意思決定装置の制御方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0335347A (ja) * 1989-06-30 1991-02-15 Matsushita Electric Ind Co Ltd 情報処理素子
JP2012256657A (ja) * 2011-06-08 2012-12-27 National Institute For Materials Science シナプス動作素子

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0335347A (ja) * 1989-06-30 1991-02-15 Matsushita Electric Ind Co Ltd 情報処理素子
JP2012256657A (ja) * 2011-06-08 2012-12-27 National Institute For Materials Science シナプス動作素子

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020059723A1 (ja) * 2018-09-18 2020-03-26 学校法人慶應義塾 意思決定装置、及び意思決定装置の制御方法
JP7403739B2 (ja) 2018-09-18 2023-12-25 慶應義塾 意思決定装置、及び意思決定装置の制御方法

Also Published As

Publication number Publication date
JP6872226B2 (ja) 2021-05-19

Similar Documents

Publication Publication Date Title
Upadhyay et al. Emerging memory devices for neuromorphic computing
Lee et al. Charge transition of oxygen vacancies during resistive switching in oxide-based RRAM
Lübben et al. Active electrode redox reactions and device behavior in ECM type resistive switching memories
CN110622313B (zh) 记忆性结构
Parejiya et al. Improving contact impedance via electrochemical pulses applied to lithium–solid electrolyte interface in solid-state batteries
O’Kelly et al. A single nanoscale junction with programmable multilevel memory
Meuffels et al. Fundamental issues and problems in the realization of memristors
Celano et al. Understanding the dual nature of the filament dissolution in conductive bridging devices
Erlandsson et al. Electrolysis‐reducing electrodes for electrokinetic devices
Choi et al. Structural engineering of Li-based electronic synapse for high reliability
Marchante et al. An electrically driven and readable molecular monolayer switch based on a solid electrolyte
Terabe et al. A variety of functional devices realized by ionic nanoarchitectonics, complementing electronics components
Duncan et al. Hydrogen doping in HfO2 resistance change random access memory
Erokhin et al. Electrochemically controlled polymeric device: a memristor (and more) found two years ago
Stoliar et al. Nonvolatile multilevel resistive switching memory cell: A transition metal oxide-based circuit
Dananjaya et al. Unidirectional threshold switching induced by Cu migration with high selectivity and ultralow off current under gradual electroforming treatment
JP6872226B2 (ja) 意思決定装置
Jin et al. Ferroelectrically modulated ion dynamics in Li+ electrolyte-gated transistors for neuromorphic computing
Huang et al. Three-terminal resistive switch based on metal/metal oxide redox reactions
Zhai et al. Reconfigurable 2D-ferroelectric platform for neuromorphic computing
Sial et al. Artificial nociceptor using liquid ionic memory
Gao et al. Correlation between diode polarization and resistive switching polarity in Pt/TiO2/Pt memristive device
Demin et al. Electrochemical model of polyaniline-based memristor with mass transfer step
Liu et al. Proton-assisted redox-based three-terminal memristor for synaptic device applications
JP6712413B2 (ja) 磁場下でのイオン輸送を利用する帯電状態の制御方法及びその用途

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191223

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210330

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210412

R150 Certificate of patent or registration of utility model

Ref document number: 6872226

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250