JP6896678B2 - 強化学習システム - Google Patents
強化学習システム Download PDFInfo
- Publication number
- JP6896678B2 JP6896678B2 JP2018125761A JP2018125761A JP6896678B2 JP 6896678 B2 JP6896678 B2 JP 6896678B2 JP 2018125761 A JP2018125761 A JP 2018125761A JP 2018125761 A JP2018125761 A JP 2018125761A JP 6896678 B2 JP6896678 B2 JP 6896678B2
- Authority
- JP
- Japan
- Prior art keywords
- voltage
- action
- state
- memristor
- voltage signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11C—STATIC STORES
- G11C11/00—Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor
- G11C11/54—Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using elements simulating biological cells, e.g. neuron
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
- G06N3/065—Analogue means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11C—STATIC STORES
- G11C13/00—Digital stores characterised by the use of storage elements not covered by groups G11C11/00, G11C23/00, or G11C25/00
- G11C13/0002—Digital stores characterised by the use of storage elements not covered by groups G11C11/00, G11C23/00, or G11C25/00 using resistive RAM [RRAM] elements
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11C—STATIC STORES
- G11C13/00—Digital stores characterised by the use of storage elements not covered by groups G11C11/00, G11C23/00, or G11C25/00
- G11C13/0002—Digital stores characterised by the use of storage elements not covered by groups G11C11/00, G11C23/00, or G11C25/00 using resistive RAM [RRAM] elements
- G11C13/0021—Auxiliary circuits
- G11C13/004—Reading or sensing circuits or methods
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11C—STATIC STORES
- G11C13/00—Digital stores characterised by the use of storage elements not covered by groups G11C11/00, G11C23/00, or G11C25/00
- G11C13/0002—Digital stores characterised by the use of storage elements not covered by groups G11C11/00, G11C23/00, or G11C25/00 using resistive RAM [RRAM] elements
- G11C13/0021—Auxiliary circuits
- G11C13/0061—Timing circuits or methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Neurology (AREA)
- Computer Hardware Design (AREA)
- Logic Circuits (AREA)
- Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
Description
まず、強化学習の原理を交えながら、本実施形態の基本的な考え方を説明する。強化学習は、エージェントと呼ばれる主体が、ある「状態」において何らかの「行動」を選択し、その結果、変化した環境やエージェントの状態に応じて、エージェントが「報酬」を受け取るというシステムにおいて、エージェントが報酬を最大化するような行動を取るように学習させるという機械学習アルゴリズムである。なお、行動選択については、確率的であっても、決定論的であっても構わない。
図4は、本実施形態に係る強化学習システムの構成例を示す図である。この強化学習システムは、図4に示すように、クロスバー型のメモリスタアレイ10と、第1電圧印加部20と、第2電圧印加部30と、行動決定回路40と、プロセッサ回路50と、記憶回路60とを備える。プロセッサ回路50には、環境(あるいはエージェント)の「状態」を観測するためのセンサ70と、エージェントの「行動」を実現するためのアクチュエータ80とが接続される。
VPT>b0>b1>・・・>bN−2>bN−1>VPT−a>0 ・・・(1)
次に、第2実施形態について説明する。上述の第1実施形態では、メモリスタ13に印加する電圧の大きさを第1電圧信号の振幅bによって制御していたが、本実施形態では、第2電圧信号の振幅aによって制御する。なお、強化学習システムの構成や基本的な動作は上述した第1実施形態と同様のため、以下では、第1実施形態との差分についてのみ説明する。
VPT>a0>a1>・・・>aN−2>aN−1>VPT−b>0 ・・・(2)
11 横方向配線
12 縦方向配線
13 メモリスタ
20 第1電圧印加部
21 電圧発生器
22 行動記憶部
23 トレース記憶部
30 第2電圧印加部
31 電圧発生器
40 行動決定回路
50 プロセッサ回路
60 記憶回路
70 センサ
80 アクチュエータ
Claims (7)
- 複数の第1方向配線と複数の第2方向配線とが交差して配置され、各交点にそれぞれメモリスタが設けられたクロスバー型のメモリスタアレイであって、前記複数の第1方向配線の各々が、環境が取り得る複数の状態のうちの1つに対応し、前記複数の第2方向配線の各々が、エージェントが取り得る複数の行動のうちの1つに対応するメモリスタアレイと、
前記複数の第1方向配線に個別に電圧を印加する第1電圧印加部と、
前記複数の第2方向配線に個別に電圧を印加する第2電圧印加部と、
前記複数の第1方向配線のうちの1つに読み出し電圧が印加されたときに前記複数の第2方向配線を流れる電流の大きさに基づいて、読み出し電圧が印加された第1方向配線に対応する状態のときにエージェントが選択すべき行動を決定する行動決定回路と、
環境が取り得る各状態に対し、その状態のときにエージェントが選択した行動を記憶する行動記憶部と、
環境が取り得る各状態に対し、環境がその状態であった時刻を記憶するトレース記憶部と、
を備える強化学習システム。 - 報酬が与えられるとき、
前記第1電圧印加部は、前記複数の第1方向配線のうち、報酬が与えられるまでの間に遷移した各状態に対応する各第1方向配線に対し、前記行動記憶部が記憶するエージェントが選択した行動と、前記トレース記憶部が記憶する時刻と、報酬の極性とに応じたパターンの第1電圧信号を印加し、
前記第2電圧印加部は、前記複数の第2方向配線の各々に対し、所定パターンの第2電圧信号を印加し、
前記第1電圧信号が印加された第1方向配線と前記第2電圧信号が印加された第2方向配線との交点に設けられたメモリスタは、第1方向配線に接続する端子と第2方向配線に接続する端子との間の電位差に応じてコンダクタンスが変化する
請求項1に記載の強化学習システム。 - 報酬が与えられるとき、
前記第1電圧印加部は、前記複数の第1方向配線のうち、報酬が与えられるまでの間に遷移した各状態に対応する各第1方向配線に対し、前記行動記憶部が記憶するエージェントが選択した行動と報酬の極性とに応じた波形を有し、かつ、前記トレース記憶部が記憶する時刻に応じた振幅を持つパターンの前記第1電圧信号を印加する
請求項2に記載の強化学習システム。 - 報酬が与えられるまでの間に遷移した状態数をNとし、報酬が与えられるまでの間に遷移した各状態に対応する各第1方向配線に印加する前記第1電圧信号の振幅を、前記トレース記憶部が記憶する時刻が新しい順にb0,b1,・・・,bN−2,bN−1とし、前記第2電圧信号の振幅をaとし、メモリスタのコンダクタンスが変化する境界電圧をVPTとしたときに、
VPT>b0>b1>・・・>bN−2>bN−1>VPT−a>0
の関係を満たす
請求項3に記載の強化学習システム。 - 報酬が与えられるとき、
前記第1電圧印加部は、前記複数の第1方向配線のうち、報酬が与えられるまでの間に遷移した各状態に対応する各第1方向配線に対し、前記行動記憶部が記憶するエージェントが選択した行動と、前記トレース記憶部が記憶する時刻と、報酬の極性とに応じた波形を有し、かつ、所定の振幅を持つパターンの前記第1電圧信号を印加し、
前記第2電圧印加部は、前記複数の第2方向配線の各々に対し、遡るべき行動選択の数に対応する数の振幅を持つパターンの前記第2電圧信号を時間差をつけて印加する
請求項2に記載の強化学習システム。 - 遡るべき行動選択の数をNとし、前記第2電圧信号のN個の振幅を大きい順にa0,a1,・・・,aN−2,aN−1とし、前記第1電圧信号の振幅をbとし、メモリスタのコンダクタンスが変化する境界電圧をVPTとしたときに、
VPT>a0>a1>・・・>aN−2>aN−1>VPT−b>0
の関係を満たす
請求項5に記載の強化学習システム。 - 報酬が与えられるとき、
前記第1電圧印加部は、前記複数の第1方向配線のうち、報酬が与えられるまでの間に遷移した各状態に対応する各第1方向配線に対して、各々異なるパターンの前記第1電圧信号を同時に印加する
請求項2乃至6のいずれか一項に記載の強化学習システム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018125761A JP6896678B2 (ja) | 2018-07-02 | 2018-07-02 | 強化学習システム |
US16/291,400 US11586897B2 (en) | 2018-07-02 | 2019-03-04 | Reinforcement learning system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018125761A JP6896678B2 (ja) | 2018-07-02 | 2018-07-02 | 強化学習システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020004313A JP2020004313A (ja) | 2020-01-09 |
JP6896678B2 true JP6896678B2 (ja) | 2021-06-30 |
Family
ID=69055197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018125761A Active JP6896678B2 (ja) | 2018-07-02 | 2018-07-02 | 強化学習システム |
Country Status (2)
Country | Link |
---|---|
US (1) | US11586897B2 (ja) |
JP (1) | JP6896678B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112651495B (zh) * | 2020-12-16 | 2021-10-12 | 郑州轻工业大学 | 一种面向情绪自稳态调节和联想记忆的神经网络电路 |
CN112686373B (zh) * | 2020-12-31 | 2022-11-01 | 上海交通大学 | 一种基于忆阻器的在线训练强化学习方法 |
JP2022125660A (ja) | 2021-02-17 | 2022-08-29 | キオクシア株式会社 | 記憶装置及び記憶方法 |
CN113364430A (zh) * | 2021-05-25 | 2021-09-07 | 北京智芯微电子科技有限公司 | 一种可变衰减器 |
CN117292119B (zh) * | 2023-11-24 | 2024-03-22 | 国网智能科技股份有限公司 | 一种输电多尺度目标检测方法及系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8892487B2 (en) | 2010-12-30 | 2014-11-18 | International Business Machines Corporation | Electronic synapses for reinforcement learning |
US9715655B2 (en) * | 2013-12-18 | 2017-07-25 | The United States Of America As Represented By The Secretary Of The Air Force | Method and apparatus for performing close-loop programming of resistive memory devices in crossbar array based hardware circuits and systems |
US10248907B2 (en) | 2015-10-20 | 2019-04-02 | International Business Machines Corporation | Resistive processing unit |
JP6481667B2 (ja) * | 2016-07-20 | 2019-03-13 | 株式会社デンソー | ニューラルネットワーク回路 |
US9715656B1 (en) | 2016-09-12 | 2017-07-25 | International Business Machines Corporation | Killing asymmetric resistive processing units for neural network training |
-
2018
- 2018-07-02 JP JP2018125761A patent/JP6896678B2/ja active Active
-
2019
- 2019-03-04 US US16/291,400 patent/US11586897B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US11586897B2 (en) | 2023-02-21 |
US20200005130A1 (en) | 2020-01-02 |
JP2020004313A (ja) | 2020-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6896678B2 (ja) | 強化学習システム | |
US11544538B2 (en) | Pulse driving apparatus for minimising asymmetry with respect to weight in synapse element, and method therefor | |
US9779355B1 (en) | Back propagation gates and storage capacitor for neural networks | |
US10740671B2 (en) | Convolutional neural networks using resistive processing unit array | |
US4773024A (en) | Brain emulation circuit with reduced confusion | |
US20200117986A1 (en) | Efficient processing of convolutional neural network layers using analog-memory-based hardware | |
US11087204B2 (en) | Resistive processing unit with multiple weight readers | |
CN111587440A (zh) | 用于更新精确突触权重值的神经形态芯片 | |
US20210374546A1 (en) | Row-by-row convolutional neural network mapping for analog artificial intelligence network training | |
JP7118930B2 (ja) | スパイキングニューラルネットワーク装置およびその学習方法 | |
Ibrayev et al. | On-chip face recognition system design with memristive hierarchical temporal memory | |
Michaelis et al. | Robust trajectory generation for robotic control on the neuromorphic research chip Loihi | |
KR20200000686A (ko) | 웨이트 행렬 입력 회로 및 웨이트 행렬 회로 | |
US11195089B2 (en) | Multi-terminal cross-point synaptic device using nanocrystal dot structures | |
US10489705B2 (en) | Discovering and using informative looping signals in a pulsed neural network having temporal encoders | |
Shi et al. | Exploiting memristors for neuromorphic reinforcement learning | |
KR20230029759A (ko) | 아날로그 크로스바 어레이들을 업데이트하기 위한 희소 수정가능 비트 길이 결정 펄스 생성 | |
Waner et al. | Evolutionary learning of complex modes of information processing | |
Bossens et al. | Learning to learn with active adaptive perception | |
US11868893B2 (en) | Efficient tile mapping for row-by-row convolutional neural network mapping for analog artificial intelligence network inference | |
JP6817922B2 (ja) | 演算装置 | |
Hassan et al. | Designing neuromorphic computing systems with memristor devices | |
Richardson et al. | Cubic spline as an alternative to methods of machine learning | |
US20240160944A1 (en) | Rapid learning with high localized synaptic plasticity | |
AU2021296187B2 (en) | Suppressing undesired programming at half-selected devices in a crosspoint array of 3-terminal resistive memory |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200618 |
|
TRDD | Decision of grant or rejection written | ||
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210428 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210511 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210609 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6896678 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |