JP5968259B2 - 線形モデルに基づく強化学習方法とその装置とプログラム - Google Patents
線形モデルに基づく強化学習方法とその装置とプログラム Download PDFInfo
- Publication number
- JP5968259B2 JP5968259B2 JP2013082569A JP2013082569A JP5968259B2 JP 5968259 B2 JP5968259 B2 JP 5968259B2 JP 2013082569 A JP2013082569 A JP 2013082569A JP 2013082569 A JP2013082569 A JP 2013082569A JP 5968259 B2 JP5968259 B2 JP 5968259B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- state information
- action
- model parameter
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 42
- 230000002787 reinforcement Effects 0.000 title claims description 40
- 230000009471 action Effects 0.000 claims description 65
- 230000006870 function Effects 0.000 claims description 31
- 238000004364 calculation method Methods 0.000 claims description 18
- 239000013598 vector Substances 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 15
- 238000012937 correction Methods 0.000 claims description 10
- 230000006399 behavior Effects 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 5
- 239000003795 chemical substances by application Substances 0.000 description 9
- 238000012545 processing Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Landscapes
- Feedback Control In General (AREA)
Description
実施例の説明の前にこの発明の新しい考え方を説明する。この発明は、パターン認識の分野で用いられるオンライン学習法を強化学習に応用したものであり、線形モデルを前提としたOPA(Online Passive Aggressive)アルゴリズムを強化学習に転用する考えに基づく。
図3に、学習部112の機能構成例を示す。その動作フローを図4に示す。学習部112は、素性残差算出手段1120と、推定誤差算出手段1121と、補正量演算手段1122と、モデルパラメータ更新手段1123と、を具備する。
Claims (7)
- 行動選択・実行部が、制御対象の時刻tにおける状態情報stを入力として行動情報atを選択し、当該行動情報atを上記制御対象に出力し、当該出力の応答として状態情報st+1と報酬情報rt+1を入手し当該状態情報st+1から行動情報at+1を選択し、上記状態情報st+1と上記行動情報at+1と上記報酬情報rt+1と上記状態情報stと上記行動情報atを学習部に出力する行動選択・実行過程と、
学習部が、上記状態情報stと上記行動情報atと上記状態情報st+1と上記行動情報at+1と上記報酬情報rt+1を入力として、線形モデルで近似した方策関数のモデルパラメータの更新幅を求め、当該更新幅で上記モデルパラメータを、時刻tごとに更新してモデルパラメータ記録部に記録する学習過程と、
時刻更新部が、時刻tを更新する時刻更新過程と、
を備える線形モデルに基づく強化学習方法。 - 請求項1に記載した線形モデルに基づく強化学習方法において、
上記学習過程は、
素性残差算出手段が、上記状態情報stと上記行動情報atと上記状態情報st+1と上記行動情報at+1と上記報酬情報rt+1を入力として、状態情報と行動情報に基づく素性ベクトルVtとVt+1を生成し、上記素性ベクトルVt+1に割引率を乗じた値から上記素性ベクトルVtを減じた素性残差Xを算出する素性残差算出ステップと、
推定誤差算出手段が、上記素性残差Xと時刻tのモデルパラメータΦtとの内積を求め、当該内積値に上記報酬rt+1を加算した推定誤差Eを求める推定誤差算出ステップと、
補正量演算手段が、上記推定誤差Eを補正係数で除したモデルパラメータの更新幅ηを求める補正量演算ステップと、
モデルパラメータ更新手段が、上記素性残差Xと上記更新幅ηを入力として、上記モデルパラメータΦtから上記素性残差Xと上記更新幅ηを乗じた値を減じてモデルパラメータΦt+1を更新するモデルパラメータ更新ステップと、
を含むことを特徴とする線形モデルに基づく強化学習方法。 - 制御対象の時刻tにおける状態情報stを入力として行動情報atを選択し、当該行動情報atを上記制御対象に出力し、当該出力の応答として状態情報st+1と報酬情報rt+1を入手し当該状態情報st+1から行動情報at+1を選択し、上記状態情報st+1と上記行動情報at+1と上記報酬情報rt+1と上記状態情報stと上記行動情報atを学習部に出力する行動選択・実行部と、
上記状態情報stと上記行動情報atと上記状態情報st+1と上記行動情報at+1と上記報酬情報rt+1を入力として、線形モデルで近似した方策関数のモデルパラメータの更新幅を求め、当該更新幅で上記モデルパラメータを、時刻tごとに更新してモデルパラメータ記録部に記録する学習部と、
時刻tを更新する時刻更新部と、
を具備する線形モデルに基づく強化学習装置。 - 請求項4に記載した線形モデルに基づく強化学習装置において、
上記学習部は、
上記状態情報stと上記行動情報atと上記状態情報st+1と上記行動情報at+1と上記報酬情報rt+1を入力として、状態情報と行動情報に基づく素性ベクトルVtとVt+1を生成し、上記素性ベクトルVt+1に割引率を乗じた値から上記素性ベクトルVtを減じた素性残差Xを算出する素性残差算出手段と、
上記素性残差Xと時刻tのモデルパラメータΦtとの内積を求め、当該内積値に上記報酬rt+1を加算した推定誤差Eを求める推定誤差算出手段と、
上記推定誤差Eを補正係数で除したモデルパラメータの更新幅ηを求める補正量演算手段と、
上記素性残差Xと上記更新幅ηを入力として、上記モデルパラメータΦtから上記素性残差Xと上記更新幅ηを乗じた値を減じてモデルパラメータΦt+1を更新するモデルパラメータ更新手段と、
を備えることを特徴とする線形モデルに基づく強化学習装置。 - 請求項4乃至6の何れか1項に記載した線形モデルに基づく強化学習装置としてコンピュータを動作させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013082569A JP5968259B2 (ja) | 2013-04-11 | 2013-04-11 | 線形モデルに基づく強化学習方法とその装置とプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013082569A JP5968259B2 (ja) | 2013-04-11 | 2013-04-11 | 線形モデルに基づく強化学習方法とその装置とプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014206795A JP2014206795A (ja) | 2014-10-30 |
JP5968259B2 true JP5968259B2 (ja) | 2016-08-10 |
Family
ID=52120317
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013082569A Expired - Fee Related JP5968259B2 (ja) | 2013-04-11 | 2013-04-11 | 線形モデルに基づく強化学習方法とその装置とプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5968259B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210049486A1 (en) * | 2019-08-13 | 2021-02-18 | Fujitsu Limited | Policy improvement method, policy improvement program storage medium, and policy improvement device |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6522488B2 (ja) * | 2015-07-31 | 2019-05-29 | ファナック株式会社 | ワークの取り出し動作を学習する機械学習装置、ロボットシステムおよび機械学習方法 |
JP6240689B2 (ja) | 2015-07-31 | 2017-11-29 | ファナック株式会社 | 人の行動パターンを学習する機械学習装置、ロボット制御装置、ロボットシステム、および機械学習方法 |
DE102016009030B4 (de) | 2015-07-31 | 2019-05-09 | Fanuc Corporation | Vorrichtung für maschinelles Lernen, Robotersystem und maschinelles Lernsystem zum Lernen eines Werkstückaufnahmevorgangs |
JP6088613B1 (ja) * | 2015-09-30 | 2017-03-01 | ファナック株式会社 | ロータにおける磁石の配置位置を学習する機械学習装置および方法ならびに該機械学習装置を備えたロータ設計装置 |
JP6616170B2 (ja) * | 2015-12-07 | 2019-12-04 | ファナック株式会社 | コアシートの積層動作を学習する機械学習器、積層コア製造装置、積層コア製造システムおよび機械学習方法 |
JP6730843B2 (ja) * | 2016-05-06 | 2020-07-29 | 日本ユニシス株式会社 | コミュニケーション支援システム |
JP7031603B2 (ja) * | 2016-11-29 | 2022-03-08 | ソニーグループ株式会社 | 情報処理装置及び情報処理方法 |
JP7092138B2 (ja) * | 2017-09-08 | 2022-06-28 | 日本電気株式会社 | メンテナンス範囲最適化装置、メンテナンス範囲最適化方法、及びプログラム |
WO2019064322A1 (ja) * | 2017-09-26 | 2019-04-04 | 株式会社日立製作所 | 機器制御システム |
CN108944940B (zh) * | 2018-06-25 | 2020-05-19 | 大连大学 | 基于神经网络的驾驶员行为建模方法 |
WO2020065810A1 (ja) * | 2018-09-27 | 2020-04-02 | 日本電気株式会社 | 情報処理装置及びシステム、並びに、モデル適応方法及びプログラムが格納された非一時的なコンピュータ可読媒体 |
US11580445B2 (en) * | 2019-03-05 | 2023-02-14 | Salesforce.Com, Inc. | Efficient off-policy credit assignment |
JP7188194B2 (ja) | 2019-03-07 | 2022-12-13 | 富士通株式会社 | 方策改善方法、方策改善プログラム、および方策改善装置 |
CN111273677B (zh) * | 2020-02-11 | 2023-05-12 | 哈尔滨工程大学 | 基于强化学习技术的自主水下机器人速度和艏向控制方法 |
CN114454160B (zh) * | 2021-12-31 | 2024-04-16 | 中国人民解放军国防科技大学 | 基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法及系统 |
JPWO2023170783A1 (ja) * | 2022-03-08 | 2023-09-14 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007065929A (ja) * | 2005-08-30 | 2007-03-15 | Okinawa Institute Of Science & Technology | 制御器、制御方法および制御プログラム |
-
2013
- 2013-04-11 JP JP2013082569A patent/JP5968259B2/ja not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210049486A1 (en) * | 2019-08-13 | 2021-02-18 | Fujitsu Limited | Policy improvement method, policy improvement program storage medium, and policy improvement device |
US11983642B2 (en) * | 2019-08-13 | 2024-05-14 | Fujitsu Limited | Policy improvement method, policy improvement program storage medium, and policy improvement device |
Also Published As
Publication number | Publication date |
---|---|
JP2014206795A (ja) | 2014-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5968259B2 (ja) | 線形モデルに基づく強化学習方法とその装置とプログラム | |
CN107765347B (zh) | 一种高斯过程回归和粒子滤波的短期风速预测方法 | |
Triebe et al. | Ar-net: A simple auto-regressive neural network for time-series | |
Yassin et al. | Binary particle swarm optimization structure selection of nonlinear autoregressive moving average with exogenous inputs (NARMAX) model of a flexible robot arm | |
Martinez et al. | H-infinity set-membership observer design for discrete-time LPV systems | |
US9286573B2 (en) | Cost-aware non-stationary online learning | |
Tronarp et al. | Sigma-point filtering for nonlinear systems with non-additive heavy-tailed noise | |
Yuan et al. | Design and performance analysis of deterministic learning of sampled-data nonlinear systems | |
CN111433689B (zh) | 用于目标系统的控制系统的生成 | |
Xu et al. | Continuous-action reinforcement learning with fast policy search and adaptive basis function selection | |
JP6283112B2 (ja) | データに基づく関数モデルを定めるための方法及び装置 | |
Zucchet et al. | Beyond backpropagation: bilevel optimization through implicit differentiation and equilibrium propagation | |
JP6631540B2 (ja) | 情報処理システム、変化点検出方法、およびプログラム | |
Kumaraswamy et al. | Context-dependent upper-confidence bounds for directed exploration | |
Wang et al. | Suboptimal adaptive Kalman filtering based on the proportional control of prior error covariance | |
Sun et al. | PiSL: Physics-informed Spline Learning for data-driven identification of nonlinear dynamical systems | |
Blier et al. | Unbiased methods for multi-goal reinforcement learning | |
Romanova | Multi-objective optimization of dynamic systems and problem of the Pareto front control | |
Wijesuriya et al. | Bayes-adaptive planning for data-efficient verification of uncertain Markov decision processes | |
JP6919856B2 (ja) | 強化学習プログラム、強化学習方法、および強化学習装置 | |
Knight et al. | Stable reinforcement learning with recurrent neural networks | |
Kim et al. | Multi-pass sequential mini-batch stochastic gradient descent algorithms for noise covariance estimation in adaptive kalman filtering | |
Esposito et al. | Bellman residuals minimization using online support vector machines | |
Kocijan et al. | System identification with GP models | |
CN114450645A (zh) | 智能过程异常检测和趋势预估系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150714 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160616 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160628 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160705 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5968259 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |