JP7035734B2 - 強化学習プログラム、強化学習方法、および強化学習装置 - Google Patents
強化学習プログラム、強化学習方法、および強化学習装置 Download PDFInfo
- Publication number
- JP7035734B2 JP7035734B2 JP2018070133A JP2018070133A JP7035734B2 JP 7035734 B2 JP7035734 B2 JP 7035734B2 JP 2018070133 A JP2018070133 A JP 2018070133A JP 2018070133 A JP2018070133 A JP 2018070133A JP 7035734 B2 JP7035734 B2 JP 7035734B2
- Authority
- JP
- Japan
- Prior art keywords
- reinforcement learning
- action
- behavior
- policy
- learned
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Automation & Control Theory (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Feedback Control In General (AREA)
Description
図1は、実施の形態にかかる強化学習方法の一実施例を示す説明図である。強化学習装置100は、強化学習を用いて、制御対象110に対する行動を決定することにより、制御対象110を制御するコンピュータである。強化学習装置100は、例えば、サーバ、PC(Personal Computer)などである。
次に、図2を用いて、強化学習装置100のハードウェア構成例について説明する。
次に、図3を用いて、履歴テーブル300の記憶内容について説明する。履歴テーブル300は、例えば、図2に示した強化学習装置100のメモリ202や記録媒体205などの記憶領域により実現される。
次に、図4を用いて行動価値テーブル400の記憶内容について説明する。なお、以下の行動価値テーブル400の説明は、強化学習手法としてQ学習等の一部の強化学習手法を用いる場合であり、利用する強化学習手法によっては、利用する記憶内容等は異なるものとなる。行動価値テーブル400は、例えば、図2に示した強化学習装置100のメモリ202や記録媒体205などの記憶領域により実現される。
次に、図5を用いて、強化学習装置100の機能的構成例について説明する。
次に、図6を用いて、強化学習装置100の動作例について説明する。
次に、図7を用いて、探索行動を決定する行動範囲の変化について具体的に説明する。
次に、j番目の強化学習にかかる学習回数の低減化を図るバリエーションについて説明する。強化学習装置100は、行動がm次元であり、行動を表す変数がm個ある場合、n個未満の変数をランダムに変化させて、探索行動を決定する場合があってもよい。例えば、強化学習装置100は、j番目の強化学習において一部の空調を選択して探索行動を決定する場合があってもよい。
次に、図8および図9を用いて、制御器を統合するマージ処理について説明する。
次に、図10および図11を用いて、強化学習装置100が、強化学習を繰り返した結果について説明する。図10および図11の例では、制御対象110は、各部屋に空調機が存在する3部屋の室温である。目的は、各部屋の現在の室温と、目標とする温度の誤差の二乗和を最小化することである。サンプリング時間は、1分であり、一日あたり1440ステップである。学習繰り返し数(エピソード数)は、1500であり、300エピソードごとに新たな制御器RLjを追加する。
次に、図12~図14を用いて、制御対象110の具体例について説明する。
次に、図15を用いて、強化学習装置100が実行する、強化学習処理手順の一例について説明する。強化学習処理は、例えば、図2に示したCPU201と、メモリ202や記録媒体205などの記憶領域と、ネットワークI/F203とによって実現される。
制御対象の状態に対する行動を規定した基本制御器により得られる行動を用いて、前記制御対象についての行動範囲限界より小さい行動範囲における第1の強化学習を実施し、
前記第1の強化学習により学習された方策により得られる行動を用いて、前記行動範囲限界より小さい行動範囲における第2の強化学習を実施する、
処理を実行させることを特徴とする強化学習プログラム。
直前に実施された第2の強化学習により学習された方策により得られる行動を用いて、前記行動範囲限界より小さい行動範囲における新たな第2の強化学習を実施する、処理を繰り返し実行させることを特徴とする付記1に記載の強化学習プログラム。
前記第2の強化学習は、直前に学習された方策と、当該方策により得られる行動からの前記行動範囲限界より小さい行動範囲における補正量を規定する制御器とを含む方策を学習する、ことを特徴とする付記1または2に記載の強化学習プログラム。
制御対象の状態に対する行動を規定した基本制御器により得られる行動を用いて、前記制御対象についての行動範囲限界より小さい行動範囲における第1の強化学習を実施し、
前記第1の強化学習により学習された方策により得られる行動を用いて、前記行動範囲限界より小さい行動範囲における第2の強化学習を実施する、
処理を実行することを特徴とする強化学習方法。
前記第1の強化学習により学習された方策により得られる行動を用いて、前記行動範囲限界より小さい行動範囲における第2の強化学習を実施する、
制御部を有することを特徴とする強化学習装置。
110 制御対象
200 バス
201 CPU
202 メモリ
203 ネットワークI/F
204 記録媒体I/F
205 記録媒体
210 ネットワーク
300 履歴テーブル
400,800 行動価値テーブル
500 記憶部
510 制御部
511 設定部
512 状態取得部
513 行動決定部
514 報酬取得部
515 更新部
516 出力部
601~60x 行動範囲
600,700,710,720 表
810,900,910,920 制御器
1200 自律移動体
1201 移動機構
1300 サーバルーム
1301 サーバ
1302 冷却器
1400 発電機
Claims (5)
- コンピュータに、
制御対象の状態に対する行動を規定した基本制御器により得られる行動を用いて、前記制御対象についての行動範囲限界より小さい行動範囲における第1の強化学習を実施し、
前記第1の強化学習により学習された方策により得られる行動を用いて、前記行動範囲限界より小さい行動範囲における第2の強化学習を実施する、
処理を実行させることを特徴とする強化学習プログラム。 - 前記コンピュータに、
直前に実施された第2の強化学習により学習された方策により得られる行動を用いて、前記行動範囲限界より小さい行動範囲における新たな第2の強化学習を実施する、処理を繰り返し実行させることを特徴とする請求項1に記載の強化学習プログラム。 - 前記第1の強化学習は、前記基本制御器と、前記基本制御器により得られる行動からの前記行動範囲限界より小さい行動範囲における補正量を規定する制御器とを含む方策を学習し、
前記第2の強化学習は、直前に学習された方策と、当該方策により得られる行動からの前記行動範囲限界より小さい行動範囲における補正量を規定する制御器とを含む方策を学習する、ことを特徴とする請求項1または2に記載の強化学習プログラム。 - コンピュータが、
制御対象の状態に対する行動を規定した基本制御器により得られる行動を用いて、前記制御対象についての行動範囲限界より小さい行動範囲における第1の強化学習を実施し、
前記第1の強化学習により学習された方策により得られる行動を用いて、前記行動範囲限界より小さい行動範囲における第2の強化学習を実施する、
処理を実行することを特徴とする強化学習方法。 - 制御対象の状態に対する行動を規定した基本制御器により得られる行動を用いて、前記制御対象についての行動範囲限界より小さい行動範囲における第1の強化学習を実施し、
前記第1の強化学習により学習された方策により得られる行動を用いて、前記行動範囲限界より小さい行動範囲における第2の強化学習を実施する、
制御部を有することを特徴とする強化学習装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018070133A JP7035734B2 (ja) | 2018-03-30 | 2018-03-30 | 強化学習プログラム、強化学習方法、および強化学習装置 |
US16/293,724 US11366433B2 (en) | 2018-03-30 | 2019-03-06 | Reinforcement learning method and device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018070133A JP7035734B2 (ja) | 2018-03-30 | 2018-03-30 | 強化学習プログラム、強化学習方法、および強化学習装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019179518A JP2019179518A (ja) | 2019-10-17 |
JP7035734B2 true JP7035734B2 (ja) | 2022-03-15 |
Family
ID=68054264
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018070133A Active JP7035734B2 (ja) | 2018-03-30 | 2018-03-30 | 強化学習プログラム、強化学習方法、および強化学習装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11366433B2 (ja) |
JP (1) | JP7035734B2 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6975685B2 (ja) * | 2018-06-15 | 2021-12-01 | 株式会社日立製作所 | 学習制御方法及び計算機システム |
US20190042979A1 (en) * | 2018-06-28 | 2019-02-07 | Intel Corporation | Thermal self-learning with reinforcement learning agent |
WO2020032947A1 (en) * | 2018-08-09 | 2020-02-13 | Siemens Aktiengesellschaft | Manufacturing process control using constrained reinforcement machine learning |
TWI780333B (zh) * | 2019-06-03 | 2022-10-11 | 緯創資通股份有限公司 | 動態處理並播放多媒體內容的方法及多媒體播放裝置 |
KR102461732B1 (ko) * | 2019-07-16 | 2022-11-01 | 한국전자통신연구원 | 강화 학습 방법 및 장치 |
JP7207289B2 (ja) * | 2019-12-23 | 2023-01-18 | トヨタ自動車株式会社 | 車両用制御装置、車両用制御システム、車両用学習装置、および車両用学習方法 |
JP7207290B2 (ja) * | 2019-12-23 | 2023-01-18 | トヨタ自動車株式会社 | 車両用制御装置、車両用制御システム、車両用学習装置、および車両用学習方法 |
JP7399724B2 (ja) * | 2020-01-21 | 2023-12-18 | 東芝エネルギーシステムズ株式会社 | 情報処理装置、情報処理方法、およびプログラム |
US11605026B2 (en) * | 2020-05-15 | 2023-03-14 | Huawei Technologies Co. Ltd. | Methods and systems for support policy learning |
CN113721655B (zh) * | 2021-08-26 | 2023-06-16 | 南京大学 | 一种控制周期自适应的强化学习无人机稳定飞行控制方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004348394A (ja) | 2003-05-21 | 2004-12-09 | Toyota Central Res & Dev Lab Inc | 環境変化装置及び行動指針情報生成提示装置 |
JP2010092247A (ja) | 2008-10-07 | 2010-04-22 | Internatl Business Mach Corp <Ibm> | 制御器、制御方法及び制御プログラム |
JP2011505030A (ja) | 2007-10-31 | 2011-02-17 | シーメンス アクチエンゲゼルシヤフト | 技術システムの状態をコンピュータ支援のもとで探査する方法 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007065929A (ja) | 2005-08-30 | 2007-03-15 | Okinawa Institute Of Science & Technology | 制御器、制御方法および制御プログラム |
JP5330138B2 (ja) * | 2008-11-04 | 2013-10-30 | 本田技研工業株式会社 | 強化学習システム |
JP5916466B2 (ja) | 2012-03-27 | 2016-05-11 | 国立大学法人広島大学 | 機械学習システムおよび機械学習方法 |
US8996177B2 (en) * | 2013-03-15 | 2015-03-31 | Brain Corporation | Robotic training apparatus and methods |
US9764468B2 (en) * | 2013-03-15 | 2017-09-19 | Brain Corporation | Adaptive predictor apparatus and methods |
US10839302B2 (en) * | 2015-11-24 | 2020-11-17 | The Research Foundation For The State University Of New York | Approximate value iteration with complex returns by bounding |
US10885432B1 (en) * | 2015-12-16 | 2021-01-05 | Deepmind Technologies Limited | Selecting actions from large discrete action sets using reinforcement learning |
US11288568B2 (en) * | 2016-02-09 | 2022-03-29 | Google Llc | Reinforcement learning using advantage estimates |
JP6618395B2 (ja) | 2016-03-18 | 2019-12-11 | Kddi株式会社 | 行動価値によって調査対象の位置を予測する装置、プログラム及び方法 |
US10065654B2 (en) * | 2016-07-08 | 2018-09-04 | Toyota Motor Engineering & Manufacturing North America, Inc. | Online learning and vehicle control method based on reinforcement learning without active exploration |
US10960539B1 (en) * | 2016-09-15 | 2021-03-30 | X Development Llc | Control policies for robotic agents |
CN115338859A (zh) * | 2016-09-15 | 2022-11-15 | 谷歌有限责任公司 | 机器人操纵的深度强化学习 |
US11062207B2 (en) * | 2016-11-04 | 2021-07-13 | Raytheon Technologies Corporation | Control systems using deep reinforcement learning |
US20180165602A1 (en) * | 2016-12-14 | 2018-06-14 | Microsoft Technology Licensing, Llc | Scalability of reinforcement learning by separation of concerns |
CN107479368B (zh) * | 2017-06-30 | 2021-09-21 | 北京百度网讯科技有限公司 | 一种基于人工智能的训练无人机控制模型的方法及系统 |
EP3616129A1 (en) * | 2017-09-20 | 2020-03-04 | Google LLC | Optimizing policy controllers for robotic agents using image embeddings |
US11886988B2 (en) * | 2017-11-22 | 2024-01-30 | International Business Machines Corporation | Method for adaptive exploration to accelerate deep reinforcement learning |
US10792810B1 (en) * | 2017-12-14 | 2020-10-06 | Amazon Technologies, Inc. | Artificial intelligence system for learning robotic control policies |
US11709462B2 (en) * | 2018-02-12 | 2023-07-25 | Adobe Inc. | Safe and efficient training of a control agent |
-
2018
- 2018-03-30 JP JP2018070133A patent/JP7035734B2/ja active Active
-
2019
- 2019-03-06 US US16/293,724 patent/US11366433B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004348394A (ja) | 2003-05-21 | 2004-12-09 | Toyota Central Res & Dev Lab Inc | 環境変化装置及び行動指針情報生成提示装置 |
JP2011505030A (ja) | 2007-10-31 | 2011-02-17 | シーメンス アクチエンゲゼルシヤフト | 技術システムの状態をコンピュータ支援のもとで探査する方法 |
JP2010092247A (ja) | 2008-10-07 | 2010-04-22 | Internatl Business Mach Corp <Ibm> | 制御器、制御方法及び制御プログラム |
Also Published As
Publication number | Publication date |
---|---|
US11366433B2 (en) | 2022-06-21 |
US20190302708A1 (en) | 2019-10-03 |
JP2019179518A (ja) | 2019-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7035734B2 (ja) | 強化学習プログラム、強化学習方法、および強化学習装置 | |
CN109274314A (zh) | 机器学习装置、伺服电动机控制装置、伺服电动机控制系统以及机器学习方法 | |
US20200193333A1 (en) | Efficient reinforcement learning based on merging of trained learners | |
JP2019537132A (ja) | アクション選択ニューラルネットワークをトレーニングすること | |
Mehndiratta et al. | Automated tuning of nonlinear model predictive controller by reinforcement learning | |
CN114761966A (zh) | 用于以轨迹为中心的基于模型的强化学习的稳健优化的系统及方法 | |
JP2016100009A (ja) | 機械の動作を制御する方法、および機械の動作を反復的に制御する制御システム | |
US20200233384A1 (en) | Reinforcement learning method, recording medium, and reinforcement learning apparatus | |
US11023827B2 (en) | Machine learning device, servo control device, servo control system, and machine learning method for suppressing variation in position error using feedforward control | |
JP7379833B2 (ja) | 強化学習方法、強化学習プログラム、および強化学習システム | |
US20200174432A1 (en) | Action determining method and action determining apparatus | |
JP6977733B2 (ja) | パラメータ最適化装置、パラメータ最適化方法、及びプログラム | |
Li et al. | Dealing with the unknown: Pessimistic offline reinforcement learning | |
KR102326733B1 (ko) | 엑츄에이터 조절 시스템을 작동시키기 위한 방법 및 장치, 컴퓨터 프로그램 및 기계 판독가능한 저장 매체 | |
Caruntu et al. | Network delay predictive compensation based on time-delay modelling as disturbance | |
US11958635B2 (en) | Linear programming problem solving system, solution candidate calculation device, optimal solution calculation device, thruster control device for spacecraft, flying object control device, and linear programming problem solving method | |
Liu et al. | Her-pdqn: A reinforcement learning approach for uav navigation with hybrid action spaces and sparse rewards | |
Rizvi et al. | Experience replay–based output feedback Q‐learning scheme for optimal output tracking control of discrete‐time linear systems | |
JP7468619B2 (ja) | 学習装置、学習方法、及び、記録媒体 | |
US20220100153A1 (en) | Model-free control of dynamical systems with deep reservoir computing | |
CN116512237B (zh) | 工业机器人视觉伺服方法、装置、电子设备及存储介质 | |
JP4301491B2 (ja) | 電動機制御システムの自律設計方法及び自律設計装置並びに電動機制御システム | |
JP7159883B2 (ja) | 強化学習方法、強化学習プログラム、および強化学習装置 | |
Jiang et al. | Fast and smooth composite local learning-based adaptive control | |
Reichensdörfer et al. | Grammatical evolution of robust controller structures using wilson scoring and criticality ranking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210113 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211228 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220201 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220214 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7035734 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |