JP7188194B2 - 方策改善方法、方策改善プログラム、および方策改善装置 - Google Patents
方策改善方法、方策改善プログラム、および方策改善装置 Download PDFInfo
- Publication number
- JP7188194B2 JP7188194B2 JP2019041997A JP2019041997A JP7188194B2 JP 7188194 B2 JP7188194 B2 JP 7188194B2 JP 2019041997 A JP2019041997 A JP 2019041997A JP 2019041997 A JP2019041997 A JP 2019041997A JP 7188194 B2 JP7188194 B2 JP 7188194B2
- Authority
- JP
- Japan
- Prior art keywords
- policy
- parameter
- policy improvement
- controlled object
- function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
- G06F17/13—Differential equations
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1658—Programme controls characterised by programming, planning systems for manipulators characterised by programming language
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F24—HEATING; RANGES; VENTILATING
- F24F—AIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
- F24F11/00—Control or safety arrangements
- F24F11/62—Control or safety arrangements characterised by the type of control or by internal processing, e.g. using fuzzy logic, adaptive control or estimation of values
- F24F11/63—Electronic processing
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
- G06F17/12—Simultaneous equations, e.g. systems of linear equations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/38—Arrangements for parallely feeding a single network by two or more generators, converters or transformers
- H02J3/381—Dispersed generators
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2300/00—Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
- H02J2300/20—The dispersed energy generation being of renewable origin
- H02J2300/28—The renewable source being wind energy
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- Evolutionary Computation (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Mechanical Engineering (AREA)
- Databases & Information Systems (AREA)
- Operations Research (AREA)
- Automation & Control Theory (AREA)
- Algebra (AREA)
- Computational Linguistics (AREA)
- Chemical & Material Sciences (AREA)
- Fuzzy Systems (AREA)
- Combustion & Propulsion (AREA)
- Power Engineering (AREA)
- Robotics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Feedback Control In General (AREA)
Description
図1は、実施の形態にかかる方策改善方法の一実施例を示す説明図である。方策改善装置100は、所定のタイミングで、方策(policy)を改善し、方策によって制御対象110に対する入力(input)を決定することにより、制御対象110を制御するコンピュータである。方策改善装置100は、例えば、サーバやPC(Personal Computer)、マイクロコントローラなどである。
次に、図2を用いて、図1に示した方策改善装置100のハードウェア構成例について説明する。
次に、図3を用いて、方策改善装置100の機能的構成例について説明する。
次に、図4を用いて、強化学習の実施例について説明する。
方策が、上記式(8)により表現される場合、時刻0で状態xから強化学習による制御対象110の制御を開始すると、累積コストVは、フィードバック係数行列Fと状態xとの関数である状態価値関数ν(x:F)によって表現される。
ここで、例えば、フィードバック係数行列Fと同じ大きさの摂動行列ρを加えることにより、フィードバック係数行列Fのすべての成分に纏めて摂動を加える場合が考えられる。この場合、上記式(8)のFtに代わり、フィードバック係数行列F+ρを用いて、入力決定を行うことになるため、状態価値関数ν(x:F)は、下記式(16)により表現される。ρ=[ρij]∈Rm×nである。|ρij|≦ε≦1である。
次に、図5~図7を用いて、制御対象110の具体例について説明する。
次に、図8および図9を用いて、強化学習処理手順の一例について説明する。
次に、図10を用いて、ステップS805の具体例であって、方策改善装置100がフィードバック係数行列Fを更新し、方策を改善する方策改善処理手順の一例について説明する。ステップS905の具体例も、ステップS805の具体例と同様である。
次に、図11を用いて、ステップS1005の具体例であって、係数Fijに関する状態価値関数の偏導関数の推定関数を算出する推定処理手順の一例について説明する。
次に、図12を用いて、ステップS1005の具体例であって、方策改善装置100がフィードバック係数行列Fを更新する更新処理手順の一例について説明する。
前記方策を与える第1のパラメータの複数の成分に対して摂動を加え、
前記複数の成分に対して摂動を加えて得られた第2のパラメータを用いた方策により、前記強化学習における制御対象に対する入力決定を行った結果に基づいて、前記第1のパラメータに関する前記状態価値関数の勾配関数を推定し、
推定した前記勾配関数を用いて、前記第1のパラメータを更新する、
処理をコンピュータが実行することを特徴とする方策改善方法。
前記第1のパラメータのすべての成分に対して摂動を加える、ことを特徴とする付記1に記載の方策改善方法。
前記第1のパラメータの複数の成分に対して摂動を加え、前記複数の成分に対して摂動を加えて得られた第2のパラメータを用いた方策により、前記制御対象に対する入力決定を行うことを複数回繰り返し、
前記推定する処理は、
前記複数回のそれぞれの回に応じて得られた前記制御対象に対する入力決定を行った結果に基づいて、前記勾配関数を推定する、ことを特徴とする付記1~3のいずれか一つに記載の方策改善方法。
前記それぞれの回に応じて得られた前記制御対象に対する入力決定を行った結果に基づいて、前記それぞれの回に対応するTD誤差を算出し、
前記第1のパラメータのそれぞれの成分について、前記それぞれの回に対応するTD誤差を、当該回において当該成分に加えた摂動で除算し、
除算した結果と、前記状態価値関数を前記それぞれの成分で微分した結果とを対応付けて、前記勾配関数を推定する、ことを特徴とする付記4に記載の方策改善方法。
前記強化学習は、前記空調設備の設定温度と前記空調設備の設定風量との少なくともいずれかを入力とし、前記空調設備がある部屋の内部の温度と前記空調設備がある部屋の外部の温度と気候との少なくともいずれかを状態とし、前記空調設備の消費電力量をコストとする、ことを特徴とする付記1~5のいずれか一つに記載の方策改善方法。
前記強化学習は、前記発電設備の発電機トルクを入力とし、前記発電設備の発電量と前記発電設備のタービンの回転量と前記発電設備のタービンの回転速度と前記発電設備に対する風向と前記発電設備に対する風速との少なくともいずれかを状態とし、前記発電設備の発電量を報酬とする、ことを特徴とする付記1~5のいずれか一つに記載の方策改善方法。
前記強化学習は、前記産業用ロボットのモータートルクを入力とし、前記産業用ロボットの撮影した画像と前記産業用ロボットの関節位置と前記産業用ロボットの関節角度と前記産業用ロボットの関節角速度との少なくともいずれかを状態とし、前記産業用ロボットの生産量を報酬とする、ことを特徴とする付記1~5のいずれか一つに記載の方策改善方法。
前記方策を与える第1のパラメータの複数の成分に対して摂動を加え、
前記複数の成分に対して摂動を加えて得られた第2のパラメータを用いた方策により、前記強化学習における制御対象に対する入力決定を行った結果に基づいて、前記第1のパラメータに関する前記状態価値関数の勾配関数を推定し、
推定した前記勾配関数を用いて、前記第1のパラメータを更新する、
処理をコンピュータに実行させることを特徴とする方策改善プログラム。
前記方策を与える第1のパラメータの複数の成分に対して摂動を加え、
前記複数の成分に対して摂動を加えて得られた第2のパラメータを用いた方策により、前記強化学習における制御対象に対する入力決定を行った結果に基づいて、前記第1のパラメータに関する前記状態価値関数の勾配関数を推定し、
推定した前記勾配関数を用いて、前記第1のパラメータを更新する、
制御部を有することを特徴とする方策改善装置。
110 制御対象
200 バス
201 CPU
202 メモリ
203 ネットワークI/F
204 記録媒体I/F
205 記録媒体
210 ネットワーク
300 記憶部
301 観測部
302 推定部
303 決定部
304 出力部
500 サーバルーム
501 サーバ
502 冷却器
600 発電機
700 産業用ロボット
Claims (10)
- 状態価値関数による強化学習の方策を改善する方策改善方法であって、
前記方策を与える第1のパラメータの複数の成分に対して摂動を加え、
前記複数の成分に対して摂動を加えて得られた第2のパラメータを用いた方策により、前記強化学習における制御対象に対する入力決定を行った結果に基づいて、前記第1のパラメータに関する前記状態価値関数の勾配関数を推定し、
推定した前記勾配関数を用いて、前記第1のパラメータを更新する、
処理をコンピュータが実行することを特徴とする方策改善方法。 - 前記加える処理は、
前記第1のパラメータのすべての成分に対して摂動を加える、ことを特徴とする請求項1に記載の方策改善方法。 - 前記複数の成分のそれぞれの成分に対して加えられる摂動は、互いに独立に決定され、かつ、等確率で絶対値が等しい正値と負値とのいずれかに決定される、ことを特徴とする請求項1または2に記載の方策改善方法。
- 前記加える処理は、
前記第1のパラメータの複数の成分に対して摂動を加え、前記複数の成分に対して摂動を加えて得られた第2のパラメータを用いた方策により、前記制御対象に対する入力決定を行うことを複数回繰り返し、
前記推定する処理は、
前記複数回のそれぞれの回に応じて得られた前記制御対象に対する入力決定を行った結果に基づいて、前記勾配関数を推定する、ことを特徴とする請求項1~3のいずれか一つに記載の方策改善方法。 - 前記推定する処理は、
前記それぞれの回に応じて得られた前記制御対象に対する入力決定を行った結果に基づいて、前記それぞれの回に対応するTD誤差を算出し、
前記第1のパラメータのそれぞれの成分について、前記それぞれの回に対応するTD誤差を、当該回において当該成分に加えた摂動で除算し、
除算した結果と、前記状態価値関数を前記それぞれの成分で微分した結果とを対応付けて、前記勾配関数を推定する、ことを特徴とする請求項4に記載の方策改善方法。 - 前記制御対象は、空調設備であり、
前記強化学習は、前記空調設備の設定温度と前記空調設備の設定風量との少なくともいずれかを入力とし、前記空調設備がある部屋の内部の温度と前記空調設備がある部屋の外部の温度と気候との少なくともいずれかを状態とし、前記空調設備の消費電力量をコストとする、ことを特徴とする請求項1~5のいずれか一つに記載の方策改善方法。 - 前記制御対象は、発電設備であり、
前記強化学習は、前記発電設備の発電機トルクを入力とし、前記発電設備の発電量と前記発電設備のタービンの回転量と前記発電設備のタービンの回転速度と前記発電設備に対する風向と前記発電設備に対する風速との少なくともいずれかを状態とし、前記発電設備の発電量を報酬とする、ことを特徴とする請求項1~5のいずれか一つに記載の方策改善方法。 - 前記制御対象は、産業用ロボットであり、
前記強化学習は、前記産業用ロボットのモータートルクを入力とし、前記産業用ロボットの撮影した画像と前記産業用ロボットの関節位置と前記産業用ロボットの関節角度と前記産業用ロボットの関節角速度との少なくともいずれかを状態とし、前記産業用ロボットの生産量を報酬とする、ことを特徴とする請求項1~5のいずれか一つに記載の方策改善方法。 - 状態価値関数による強化学習の方策を改善する方策改善プログラムであって、
前記方策を与える第1のパラメータの複数の成分に対して摂動を加え、
前記複数の成分に対して摂動を加えて得られた第2のパラメータを用いた方策により、前記強化学習における制御対象に対する入力決定を行った結果に基づいて、前記第1のパラメータに関する前記状態価値関数の勾配関数を推定し、
推定した前記勾配関数を用いて、前記第1のパラメータを更新する、
処理をコンピュータに実行させることを特徴とする方策改善プログラム。 - 状態価値関数による強化学習の方策を改善する方策改善装置であって、
前記方策を与える第1のパラメータの複数の成分に対して摂動を加え、
前記複数の成分に対して摂動を加えて得られた第2のパラメータを用いた方策により、前記強化学習における制御対象に対する入力決定を行った結果に基づいて、前記第1のパラメータに関する前記状態価値関数の勾配関数を推定し、
推定した前記勾配関数を用いて、前記第1のパラメータを更新する、
制御部を有することを特徴とする方策改善装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019041997A JP7188194B2 (ja) | 2019-03-07 | 2019-03-07 | 方策改善方法、方策改善プログラム、および方策改善装置 |
US16/810,329 US11385604B2 (en) | 2019-03-07 | 2020-03-05 | Policy improvement method, recording medium, and policy improvement apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019041997A JP7188194B2 (ja) | 2019-03-07 | 2019-03-07 | 方策改善方法、方策改善プログラム、および方策改善装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020144713A JP2020144713A (ja) | 2020-09-10 |
JP7188194B2 true JP7188194B2 (ja) | 2022-12-13 |
Family
ID=72336292
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019041997A Active JP7188194B2 (ja) | 2019-03-07 | 2019-03-07 | 方策改善方法、方策改善プログラム、および方策改善装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11385604B2 (ja) |
JP (1) | JP7188194B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102461732B1 (ko) * | 2019-07-16 | 2022-11-01 | 한국전자통신연구원 | 강화 학습 방법 및 장치 |
CN115128960B (zh) * | 2022-08-30 | 2022-12-16 | 齐鲁工业大学 | 一种基于深度强化学习双足机器人运动控制方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019005206A1 (en) | 2017-06-26 | 2019-01-03 | Google Llc | NON-LINEAR CALIBRATION OF A QUANTUM COMPUTER APPARATUS |
US20200210575A1 (en) | 2018-12-28 | 2020-07-02 | Mcafee, Llc | Methods and apparatus to detect adversarial malware |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007065929A (ja) | 2005-08-30 | 2007-03-15 | Okinawa Institute Of Science & Technology | 制御器、制御方法および制御プログラム |
JP5968259B2 (ja) | 2013-04-11 | 2016-08-10 | 日本電信電話株式会社 | 線形モデルに基づく強化学習方法とその装置とプログラム |
JP6958808B2 (ja) * | 2017-09-15 | 2021-11-02 | 富士通株式会社 | 方策改善プログラム、方策改善方法、および方策改善装置 |
US20190130337A1 (en) * | 2018-12-21 | 2019-05-02 | Intel Corporation | Disturbance event detection in a shared environment |
-
2019
- 2019-03-07 JP JP2019041997A patent/JP7188194B2/ja active Active
-
2020
- 2020-03-05 US US16/810,329 patent/US11385604B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019005206A1 (en) | 2017-06-26 | 2019-01-03 | Google Llc | NON-LINEAR CALIBRATION OF A QUANTUM COMPUTER APPARATUS |
US20200210575A1 (en) | 2018-12-28 | 2020-07-02 | Mcafee, Llc | Methods and apparatus to detect adversarial malware |
Non-Patent Citations (1)
Title |
---|
SASAKI, Tomotake, et al.,Policy gradient reinforcement learning method for discrete-time linear quadratic regulation problem using estimated state value function,2017 56th Annual Conference of the Society of Instrument and Control Engineers of Japan (SICE)[online], [検索日:2022.10.18],pp.653-657,米国,IEEE,2017年11月13日,インターネット:<URL:https://ieeexplore.ieee.org/document/8105539>,<DOI:10.23919/SICE.2017.8105539> |
Also Published As
Publication number | Publication date |
---|---|
JP2020144713A (ja) | 2020-09-10 |
US20200285205A1 (en) | 2020-09-10 |
US11385604B2 (en) | 2022-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Online dynamic mode decomposition for time-varying systems | |
JP6958808B2 (ja) | 方策改善プログラム、方策改善方法、および方策改善装置 | |
Si et al. | Prognostics for linear stochastic degrading systems with survival measurements | |
JP7188194B2 (ja) | 方策改善方法、方策改善プログラム、および方策改善装置 | |
JP7044077B2 (ja) | モデル推定システム、方法およびプログラム | |
JPH052404A (ja) | 最適化装置、費用を最小化する装置および観測系/制御系装置 | |
CN114692494A (zh) | 一种锂电池温度场在线建模方法及系统 | |
JP2020144484A (ja) | 強化学習方法、強化学習プログラム、および強化学習システム | |
JP2020095586A (ja) | 強化学習方法、および強化学習プログラム | |
JP6444260B2 (ja) | シミュレーション方法、シミュレーションプログラム、及びシミュレーション装置 | |
JP7357813B2 (ja) | データ駆動型モデル適応を用いる制御のための装置および方法 | |
Melo et al. | A data‐driven particle filter for terrain based navigation of sensor‐limited autonomous underwater vehicles | |
Ng et al. | Model predictive control and transfer learning of hybrid systems using lifting linearization applied to cable suspension systems | |
JP6919856B2 (ja) | 強化学習プログラム、強化学習方法、および強化学習装置 | |
JP7263980B2 (ja) | 強化学習方法、強化学習プログラム、および強化学習装置 | |
JP2021064222A (ja) | 方策改善方法、方策改善プログラム、および方策改善装置 | |
JP6984597B2 (ja) | 線形パラメータ変動モデル推定システム、方法およびプログラム | |
JP7351135B2 (ja) | 方策改善方法、方策改善プログラム、および方策改善装置 | |
Elinger et al. | Information theoretic causality measures for system identification of mechanical systems | |
Patil et al. | Studies on identification of an efficient and accurate integration scheme for piecewise linear dynamic problems | |
JP2010108451A (ja) | 形状最適化方法、形状最適化装置、及び、プログラム | |
CN116360504B (zh) | 无人机集群任务的确定方法、装置、电子设备及存储介质 | |
CN114237044B (zh) | 一种基于递阶引力搜索的循环流化床锅炉模型辨识方法 | |
JP2023074434A (ja) | 将来状態推定装置 | |
US20220253578A1 (en) | Converting implicit dynamic models into explicit dynamic models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211208 |
|
TRDD | Decision of grant or rejection written | ||
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221020 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221101 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221114 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7188194 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |