JP2021033767A - 強化学習方法、強化学習プログラム、および強化学習装置 - Google Patents
強化学習方法、強化学習プログラム、および強化学習装置 Download PDFInfo
- Publication number
- JP2021033767A JP2021033767A JP2019154803A JP2019154803A JP2021033767A JP 2021033767 A JP2021033767 A JP 2021033767A JP 2019154803 A JP2019154803 A JP 2019154803A JP 2019154803 A JP2019154803 A JP 2019154803A JP 2021033767 A JP2021033767 A JP 2021033767A
- Authority
- JP
- Japan
- Prior art keywords
- target
- state
- reinforcement learning
- action
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 367
- 238000000034 method Methods 0.000 title claims description 131
- 230000009471 action Effects 0.000 claims abstract description 313
- 238000005259 measurement Methods 0.000 claims abstract description 55
- 238000010248 power generation Methods 0.000 claims description 71
- 230000008569 process Effects 0.000 claims description 59
- 239000011159 matrix material Substances 0.000 claims description 56
- 238000004378 air conditioning Methods 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 23
- 238000011156 evaluation Methods 0.000 claims description 21
- 238000005728 strengthening Methods 0.000 claims description 6
- 238000004519 manufacturing process Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 56
- 230000006399 behavior Effects 0.000 description 42
- 238000003860 storage Methods 0.000 description 36
- 230000001186 cumulative effect Effects 0.000 description 24
- 238000010586 diagram Methods 0.000 description 18
- 230000007704 transition Effects 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 11
- 230000008859 change Effects 0.000 description 11
- 239000006185 dispersion Substances 0.000 description 7
- 238000009826 distribution Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 230000002411 adverse Effects 0.000 description 4
- 238000005284 basis set Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000036632 reaction speed Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Computational Mathematics (AREA)
- Biomedical Technology (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Algebra (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Automation & Control Theory (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Manipulator (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【解決手段】強化学習装置は、今回の行動を決定するにあたり、状態計測が行われる将来のそれぞれの時点における対象の状態を予測した結果を取得する。強化学習装置は、将来のそれぞれの時点における対象の状態を予測した結果に基づいて、制約条件に対する、将来のそれぞれの時点における対象の状態についての危険度を算出する。強化学習装置は、将来のそれぞれの時点における対象の状態についての危険度と、今回の行動による将来のそれぞれの時点における対象の状態に対する影響度とに応じて調整した探索範囲に基づいて、今回の行動を決定する。
【選択図】図2
Description
図1および図2は、実施の形態にかかる強化学習方法の一実施例を示す説明図である。強化学習装置100は、強化学習により対象110を制御するためのコンピュータである。強化学習装置100は、例えば、サーバやPC(Personal Computer)、または、マイクロコントローラなどである。
次に、図3を用いて、図1および図2に示した強化学習装置100のハードウェア構成例について説明する。
次に、図4を用いて、履歴テーブル400の記憶内容の一例について説明する。履歴テーブル400は、例えば、図3に示した強化学習装置100のメモリ302や記録媒体305などの記憶領域により実現される。
次に、図5を用いて、強化学習装置100の機能的構成例について説明する。
次に、図6〜図10を用いて、強化学習装置100の動作例について説明する。
ここで、強化学習および対象110に関しては、下記4つの特性が仮定される。1つ目の特性は、強化学習が、確率的に行動を決定する方策を用いており、行動を決定する際に用いられる確率密度関数の分散共分散行列を、いずれのタイミングにも変更可能であるという性質である。
動作例において、下記式(1)〜下記式(22)によって、対象110と、即時コストと、制約条件と、追加条件と、制御目的とが規定され、問題設定が行われる。また、下記式(23)〜下記式(31)によって、動作例において仮定される、強化学習および対象110に関する各種特性が規定される。
次に、制御問題の実例を用いて、強化学習装置100の動作の具体例について説明する。ここで、対象110が、2つの容器であり、2つの容器内の温度を、目標温度となるように制御する問題を実例として、強化学習装置100の動作の具体例について説明する。それぞれの容器への行動は、共通であるとする。また、互いの容器間の温度干渉はないとする。
次に、図13〜図15を用いて、強化学習を適用する対象110の具体例について説明する。
次に、図16を用いて、強化学習装置100が実行する、全体処理手順の一例について説明する。全体処理は、例えば、図3に示したCPU301と、メモリ302や記録媒体305などの記憶領域と、ネットワークI/F303とによって実現される。
次に、図17を用いて、強化学習装置100が実行する、決定処理手順の一例について説明する。決定処理は、例えば、図3に示したCPU301と、メモリ302や記録媒体305などの記憶領域と、ネットワークI/F303とによって実現される。
予測した前記対象の状態の結果に基づいて、前記対象の状態に関する制約条件に対する、前記それぞれの時点における前記対象の状態についての危険度を算出し、
算出した前記それぞれの時点における前記対象の状態についての危険度と、前記対象への今回の行動による前記それぞれの時点における前記対象の状態に対する影響度とに応じて前記対象への今回の行動に関する探索範囲を特定し、
特定した前記対象への今回の行動に関する探索範囲に基づいて、前記対象への今回の行動を決定する、
処理をコンピュータが実行することを特徴とする強化学習方法。
前記危険度が大きいほど狭くなるように、かつ、前記影響度が大きいほど狭くなるように、前記探索範囲を特定する、ことを特徴とする付記1に記載の強化学習方法。
前記制約条件の充足に関する確率的な評価指標の下で、前記探索範囲を特定し、
前記決定する処理は、
特定した前記探索範囲に基づいて、前記対象への今回の行動を、確率的に決定する、ことを特徴とする付記1〜3のいずれか一つに記載の強化学習方法。
算出した前記それぞれの時点における前記対象の状態についての危険度が閾値未満である場合、前記制約条件の充足に関する確率的な評価指標の下で、前記探索範囲を特定し、
前記決定する処理は、
算出した前記期間に含まれるいずれかの時点における前記対象の状態についての危険度が閾値以上である場合、前記対象への行動を所定値に決定し、算出した前記それぞれの時点における前記対象の状態についての危険度が閾値未満である場合、特定した前記探索範囲に基づいて、前記対象への今回の行動を、確率的に決定する、ことを特徴とする付記1〜4のいずれか一つに記載の強化学習方法。
算出した前記それぞれの時点における前記対象の状態についての危険度が閾値未満である場合、前記対象への今回の行動が取りうる平均値を算出し、算出した前記それぞれの時点における前記対象の状態についての危険度と、前記対象への今回の行動による前記それぞれの時点における前記対象の状態に対する影響度とに応じて、前記制約条件の充足に関する確率的な評価指標の下で分散共分散行列を算出し、算出した前記平均値と前記分散共分散行列とを用いて、前記探索範囲を特定する、ことを特徴とする付記5に記載の強化学習方法。
処理を前記コンピュータが実行することを特徴とする付記1〜8のいずれか一つに記載の強化学習方法。
前記事前知識は、前記発電設備の仕様値と前記発電設備のパラメータの公称値と前記発電設備のパラメータの許容差の少なくともいずれかに基づく情報であり、
前記算出する処理、前記特定する処理、および前記決定する処理は、
前記発電設備の発電機トルクを行動とし、前記発電設備の発電量と前記発電設備のタービンの回転量と前記発電設備のタービンの回転速度と前記発電設備に対する風向と前記発電設備に対する風速との少なくともいずれかを状態とし、前記発電設備の発電量を報酬とし、前記対象を制御する方策を学習する強化学習において実行され、
前記対象の状態計測が行われる時間間隔は、前記発電設備の発電量と前記発電設備のタービンの回転量と前記発電設備のタービンの回転速度と前記発電設備に対する風向と前記発電設備に対する風速との少なくともいずれかを計測する時間間隔であり、
前記対象への行動決定が行われる時間間隔は、前記発電設備の発電機トルクを決定する時間間隔である、ことを特徴とする付記9に記載の強化学習方法。
前記事前知識は、前記空調設備の仕様値と前記空調設備のパラメータの公称値と前記空調設備のパラメータの許容差の少なくともいずれかに基づく情報であり、
前記算出する処理、前記特定する処理、および前記決定する処理は、
前記空調設備の設定温度と前記空調設備の設定風量との少なくともいずれかを行動とし、前記空調設備がある部屋の内部の温度と前記空調設備がある部屋の外部の温度と気候との少なくともいずれかを状態とし、前記空調設備の消費電力量をコストとし、前記対象を制御する方策を学習する強化学習において実行され、
前記対象の状態計測が行われる時間間隔は、前記空調設備がある部屋の内部の温度と前記空調設備がある部屋の外部の温度と気候との少なくともいずれかを計測する時間間隔であり、
前記対象への行動決定が行われる時間間隔は、前記空調設備の設定温度と前記空調設備の設定風量との少なくともいずれかを決定する時間間隔である、ことを特徴とする付記9または10に記載の強化学習方法。
前記事前知識は、前記産業用ロボットの仕様値と前記産業用ロボットのパラメータの公称値と前記産業用ロボットのパラメータの許容差の少なくともいずれかに基づく情報であり、
前記算出する処理、前記特定する処理、および前記決定する処理は、
前記産業用ロボットのモータートルクを行動とし、前記産業用ロボットの撮影した画像と前記産業用ロボットの関節位置と前記産業用ロボットの関節角度と前記産業用ロボットの関節角速度との少なくともいずれかを状態とし、前記産業用ロボットの生産量を報酬とし、前記対象を制御する方策を学習する強化学習において実行され、
前記対象の状態計測が行われる時間間隔は、前記産業用ロボットの撮影した画像と前記産業用ロボットの関節位置と前記産業用ロボットの関節角度と前記産業用ロボットの関節角速度との少なくともいずれかを計測する時間間隔であり、
前記対象への行動決定が行われる時間間隔は、前記産業用ロボットのモータートルクを決定する時間間隔である、ことを特徴とする付記9〜11のいずれか一つに記載の強化学習方法。
前記モデル情報と、今回の行動決定が行われる時点より後であり、次回の行動決定が行われる時点以前である期間に含まれる、前記対象の状態計測が行われるそれぞれの時点における、前記対象の状態の予測値に含まれる誤差の上限とに基づいて、前記予測値を算出する、ことを特徴とする付記13に記載の強化学習方法。
前記対象の状態が初期化されてから前記対象の状態が前記制約条件を充足しなくなるまでの期間、または、前記対象の状態が初期化されてから一定時間が経過するまでの期間を単位とするエピソード型の強化学習において実行される、ことを特徴とする付記1〜14のいずれか一つに記載の強化学習方法。
予測した前記対象の状態の結果に基づいて、前記対象の状態に関する制約条件に対する、前記それぞれの時点における前記対象の状態についての危険度を算出し、
算出した前記それぞれの時点における前記対象の状態についての危険度と、前記対象への今回の行動による前記それぞれの時点における前記対象の状態に対する影響度とに応じて前記対象への今回の行動に関する探索範囲を特定し、
特定した前記対象への今回の行動に関する探索範囲に基づいて、前記対象への今回の行動を決定する、
処理をコンピュータに実行させることを特徴とする強化学習プログラム。
予測した前記対象の状態の結果に基づいて、前記対象の状態に関する制約条件に対する、前記それぞれの時点における前記対象の状態についての危険度を算出し、
算出した前記それぞれの時点における前記対象の状態についての危険度と、前記対象への今回の行動による前記それぞれの時点における前記対象の状態に対する影響度とに応じて前記対象への今回の行動に関する探索範囲を特定し、
特定した前記対象への今回の行動に関する探索範囲に基づいて、前記対象への今回の行動を決定する、
制御部を有することを特徴とする強化学習装置。
101 強化学習器
110 対象
200,600,610,800,900,910,1100,1200 グラフ
201,202 範囲
300 バス
301 CPU
302 メモリ
303 ネットワークI/F
304 記録媒体I/F
305 記録媒体
310 ネットワーク
400 履歴テーブル
500 記憶部
501 取得部
502 算出部
503 決定部
504 学習部
505 出力部
510 制御部
700 実数空間
701〜703,1001〜1003,1005〜1008 状態
901〜903 確率密度
911 確率分布
1300 サーバルーム
1301 サーバ
1302 冷却器
1400 発電設備
1500 産業用ロボット
Claims (14)
- 強化学習における制御の対象の状態計測が行われる時間間隔が前記対象への行動決定が行われる時間間隔とは異なる状態で、今回の行動決定が行われる時点より後であり、次回の行動決定が行われる時点以前である期間に含まれる、前記対象の状態計測が行われるそれぞれの時点における前記対象の状態を予測し、
予測した前記対象の状態の結果に基づいて、前記対象の状態に関する制約条件に対する、前記それぞれの時点における前記対象の状態についての危険度を算出し、
算出した前記それぞれの時点における前記対象の状態についての危険度と、前記対象への今回の行動による前記それぞれの時点における前記対象の状態に対する影響度とに応じて前記対象への今回の行動に関する探索範囲を特定し、
特定した前記対象への今回の行動に関する探索範囲に基づいて、前記対象への今回の行動を決定する、
処理をコンピュータが実行することを特徴とする強化学習方法。 - 前記特定する処理は、
前記危険度が大きいほど狭くなるように、かつ、前記影響度が大きいほど狭くなるように、前記探索範囲を特定する、ことを特徴とする請求項1に記載の強化学習方法。 - 前記対象への行動決定が行われる時間間隔は、前記対象の状態計測が行われる時間間隔よりも長い、ことを特徴とする請求項1または2に記載の強化学習方法。
- 前記特定する処理は、
前記制約条件の充足に関する確率的な評価指標の下で、前記探索範囲を特定し、
前記決定する処理は、
特定した前記探索範囲に基づいて、前記対象への今回の行動を、確率的に決定する、ことを特徴とする請求項1〜3のいずれか一つに記載の強化学習方法。 - 前記特定する処理は、
算出した前記それぞれの時点における前記対象の状態についての危険度が閾値未満である場合、前記制約条件の充足に関する確率的な評価指標の下で、前記探索範囲を特定し、
前記決定する処理は、
算出した前記期間に含まれるいずれかの時点における前記対象の状態についての危険度が閾値以上である場合、前記対象への行動を所定値に決定し、算出した前記それぞれの時点における前記対象の状態についての危険度が閾値未満である場合、特定した前記探索範囲に基づいて、前記対象への今回の行動を、確率的に決定する、ことを特徴とする請求項1〜4のいずれか一つに記載の強化学習方法。 - 前記特定する処理は、
算出した前記それぞれの時点における前記対象の状態についての危険度が閾値未満である場合、前記対象への今回の行動が取りうる平均値を算出し、算出した前記それぞれの時点における前記対象の状態についての危険度と、前記対象への今回の行動による前記それぞれの時点における前記対象の状態に対する影響度とに応じて、前記制約条件の充足に関する確率的な評価指標の下で分散共分散行列を算出し、算出した前記平均値と前記分散共分散行列とを用いて、前記探索範囲を特定する、ことを特徴とする請求項5に記載の強化学習方法。 - 前記所定値は、0である、ことを特徴とする請求項5または6に記載の強化学習方法。
- 前記制約条件は、前記対象の状態に対して線形である、ことを特徴とする請求項1〜7のいずれか一つに記載の強化学習方法。
- 前記対象に関する事前知識を用いて、前記期間に含まれる前記それぞれの時点における前記対象の状態を予測する、
処理を前記コンピュータが実行することを特徴とする請求項1〜8のいずれか一つに記載の強化学習方法。 - 前記対象は、発電設備であり、
前記事前知識は、前記発電設備の仕様値と前記発電設備のパラメータの公称値と前記発電設備のパラメータの許容差の少なくともいずれかに基づく情報であり、
前記算出する処理、前記特定する処理、および前記決定する処理は、
前記発電設備の発電機トルクを行動とし、前記発電設備の発電量と前記発電設備のタービンの回転量と前記発電設備のタービンの回転速度と前記発電設備に対する風向と前記発電設備に対する風速との少なくともいずれかを状態とし、前記発電設備の発電量を報酬とし、前記対象を制御する方策を学習する強化学習において実行され、
前記対象の状態計測が行われる時間間隔は、前記発電設備の発電量と前記発電設備のタービンの回転量と前記発電設備のタービンの回転速度と前記発電設備に対する風向と前記発電設備に対する風速との少なくともいずれかを計測する時間間隔であり、
前記対象への行動決定が行われる時間間隔は、前記発電設備の発電機トルクを決定する時間間隔である、ことを特徴とする請求項9に記載の強化学習方法。 - 前記対象は、空調設備であり、
前記事前知識は、前記空調設備の仕様値と前記空調設備のパラメータの公称値と前記空調設備のパラメータの許容差の少なくともいずれかに基づく情報であり、
前記算出する処理、前記特定する処理、および前記決定する処理は、
前記空調設備の設定温度と前記空調設備の設定風量との少なくともいずれかを行動とし、前記空調設備がある部屋の内部の温度と前記空調設備がある部屋の外部の温度と気候との少なくともいずれかを状態とし、前記空調設備の消費電力量をコストとし、前記対象を制御する方策を学習する強化学習において実行され、
前記対象の状態計測が行われる時間間隔は、前記空調設備がある部屋の内部の温度と前記空調設備がある部屋の外部の温度と気候との少なくともいずれかを計測する時間間隔であり、
前記対象への行動決定が行われる時間間隔は、前記空調設備の設定温度と前記空調設備の設定風量との少なくともいずれかを決定する時間間隔である、ことを特徴とする請求項9または10に記載の強化学習方法。 - 前記対象は、産業用ロボットであり、
前記事前知識は、前記産業用ロボットの仕様値と前記産業用ロボットのパラメータの公称値と前記産業用ロボットのパラメータの許容差の少なくともいずれかに基づく情報であり、
前記算出する処理、前記特定する処理、および前記決定する処理は、
前記産業用ロボットのモータートルクを行動とし、前記産業用ロボットの撮影した画像と前記産業用ロボットの関節位置と前記産業用ロボットの関節角度と前記産業用ロボットの関節角速度との少なくともいずれかを状態とし、前記産業用ロボットの生産量を報酬とし、前記対象を制御する方策を学習する強化学習において実行され、
前記対象の状態計測が行われる時間間隔は、前記産業用ロボットの撮影した画像と前記産業用ロボットの関節位置と前記産業用ロボットの関節角度と前記産業用ロボットの関節角速度との少なくともいずれかを計測する時間間隔であり、
前記対象への行動決定が行われる時間間隔は、前記産業用ロボットのモータートルクを決定する時間間隔である、ことを特徴とする請求項9〜11のいずれか一つに記載の強化学習方法。 - 強化学習における制御の対象の状態計測が行われる時間間隔が前記対象への行動決定が行われる時間間隔とは異なる状態で、今回の行動決定が行われる時点より後であり、次回の行動決定が行われる時点以前である期間に含まれる、前記対象の状態計測が行われるそれぞれの時点における前記対象の状態を予測し、
予測した前記対象の状態の結果に基づいて、前記対象の状態に関する制約条件に対する、前記それぞれの時点における前記対象の状態についての危険度を算出し、
算出した前記それぞれの時点における前記対象の状態についての危険度と、前記対象への今回の行動による前記それぞれの時点における前記対象の状態に対する影響度とに応じて前記対象への今回の行動に関する探索範囲を特定し、
特定した前記対象への今回の行動に関する探索範囲に基づいて、前記対象への今回の行動を決定する、
処理をコンピュータに実行させることを特徴とする強化学習プログラム。 - 強化学習における制御の対象の状態計測が行われる時間間隔が前記対象への行動決定が行われる時間間隔とは異なる状態で、今回の行動決定が行われる時点より後であり、次回の行動決定が行われる時点以前である期間に含まれる、前記対象の状態計測が行われるそれぞれの時点における前記対象の状態を予測し、
予測した前記対象の状態の結果に基づいて、前記対象の状態に関する制約条件に対する、前記それぞれの時点における前記対象の状態についての危険度を算出し、
算出した前記それぞれの時点における前記対象の状態についての危険度と、前記対象への今回の行動による前記それぞれの時点における前記対象の状態に対する影響度とに応じて前記対象への今回の行動に関する探索範囲を特定し、
特定した前記対象への今回の行動に関する探索範囲に基づいて、前記対象への今回の行動を決定する、
制御部を有することを特徴とする強化学習装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019154803A JP7263980B2 (ja) | 2019-08-27 | 2019-08-27 | 強化学習方法、強化学習プログラム、および強化学習装置 |
US17/001,706 US20210063974A1 (en) | 2019-08-27 | 2020-08-25 | Method for reinforcement learning, recording medium storing reinforcement learning program, and reinforcement learning apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019154803A JP7263980B2 (ja) | 2019-08-27 | 2019-08-27 | 強化学習方法、強化学習プログラム、および強化学習装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021033767A true JP2021033767A (ja) | 2021-03-01 |
JP7263980B2 JP7263980B2 (ja) | 2023-04-25 |
Family
ID=74676600
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019154803A Active JP7263980B2 (ja) | 2019-08-27 | 2019-08-27 | 強化学習方法、強化学習プログラム、および強化学習装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20210063974A1 (ja) |
JP (1) | JP7263980B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11645498B2 (en) * | 2019-09-25 | 2023-05-09 | International Business Machines Corporation | Semi-supervised reinforcement learning |
CN113296413B (zh) * | 2021-06-02 | 2022-06-14 | 中国人民解放军国防科技大学 | 基于深度强化学习的多阶段装备发展规划方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013206363A (ja) * | 2012-03-29 | 2013-10-07 | Hitachi Ltd | プラントの制御装置及び火力発電プラントの制御装置 |
JP2017157112A (ja) * | 2016-03-03 | 2017-09-07 | 三菱日立パワーシステムズ株式会社 | 制御パラメータ自動調整装置、制御パラメータ自動調整方法、及び制御パラメータ自動調整装置ネットワーク |
JP2020144484A (ja) * | 2019-03-04 | 2020-09-10 | 富士通株式会社 | 強化学習方法、強化学習プログラム、および強化学習システム |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8429097B1 (en) * | 2009-08-12 | 2013-04-23 | Amazon Technologies, Inc. | Resource isolation using reinforcement learning and domain-specific constraints |
US20160148246A1 (en) * | 2014-11-24 | 2016-05-26 | Adobe Systems Incorporated | Automated System for Safe Policy Improvement |
WO2018053187A1 (en) * | 2016-09-15 | 2018-03-22 | Google Inc. | Deep reinforcement learning for robotic manipulation |
JP7059557B2 (ja) * | 2017-10-06 | 2022-04-26 | 富士通株式会社 | 風車制御プログラム、風車制御方法、および風車制御装置 |
JP7064356B2 (ja) * | 2018-03-14 | 2022-05-10 | 株式会社日立製作所 | 将来状態推定装置および将来状態推定方法 |
WO2020032947A1 (en) * | 2018-08-09 | 2020-02-13 | Siemens Aktiengesellschaft | Manufacturing process control using constrained reinforcement machine learning |
JP6982557B2 (ja) * | 2018-08-31 | 2021-12-17 | 株式会社日立製作所 | 報酬関数の生成方法及び計算機システム |
WO2020092437A1 (en) * | 2018-10-29 | 2020-05-07 | Google Llc | Determining control policies by minimizing the impact of delusion |
US11676064B2 (en) * | 2019-08-16 | 2023-06-13 | Mitsubishi Electric Research Laboratories, Inc. | Constraint adaptor for reinforcement learning control |
-
2019
- 2019-08-27 JP JP2019154803A patent/JP7263980B2/ja active Active
-
2020
- 2020-08-25 US US17/001,706 patent/US20210063974A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013206363A (ja) * | 2012-03-29 | 2013-10-07 | Hitachi Ltd | プラントの制御装置及び火力発電プラントの制御装置 |
JP2017157112A (ja) * | 2016-03-03 | 2017-09-07 | 三菱日立パワーシステムズ株式会社 | 制御パラメータ自動調整装置、制御パラメータ自動調整方法、及び制御パラメータ自動調整装置ネットワーク |
JP2020144484A (ja) * | 2019-03-04 | 2020-09-10 | 富士通株式会社 | 強化学習方法、強化学習プログラム、および強化学習システム |
Non-Patent Citations (2)
Title |
---|
三村 明寛 ほか: "動的環境下における危険度予測法に基づく適応的強化学習", 2010年度人工知能学会全国大会(第24回)論文集 [CD−ROM], vol. 1A3−3, JPN6023009701, 9 June 2010 (2010-06-09), JP, pages 1 - 4, ISSN: 0005011643 * |
伊藤 秀将 ほか: "グラフ構造深層強化学習による電力系統制御", FIT2019 第18回情報科学技術フォーラム 講演論文集 第2分冊, vol. F−012, JPN6023004517, 20 August 2019 (2019-08-20), JP, pages 277 - 281, ISSN: 0005011644 * |
Also Published As
Publication number | Publication date |
---|---|
JP7263980B2 (ja) | 2023-04-25 |
US20210063974A1 (en) | 2021-03-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7379833B2 (ja) | 強化学習方法、強化学習プログラム、および強化学習システム | |
JP6513015B2 (ja) | 機械の動作を制御する方法、および機械の動作を反復的に制御する制御システム | |
JP2018195308A (ja) | プロセス及び製造業における業績評価指標のデータに基づく最適化のための方法及びシステム | |
JP7225923B2 (ja) | 強化学習方法、強化学習プログラム、および強化学習システム | |
Zhu et al. | Controller dynamic linearisation‐based model‐free adaptive control framework for a class of non‐linear system | |
US11513851B2 (en) | Job scheduler, job schedule control method, and storage medium | |
Rinaldi et al. | Multi-objective optimization of the operation and maintenance assets of an offshore wind farm using genetic algorithms | |
JP2021033767A (ja) | 強化学習方法、強化学習プログラム、および強化学習装置 | |
JP2020067980A (ja) | 予測プログラム、予測方法及び予測装置 | |
CN112232495A (zh) | 预测模型的训练方法、装置、介质和计算设备 | |
JP7152938B2 (ja) | 機械学習モデル構築装置および機械学習モデル構築方法 | |
CN113597582A (zh) | 使用因果模型调谐pid参数 | |
Lu et al. | Radial Basis Function Neural Network Based on an Improved Exponential Decreasing Inertia Weight‐Particle Swarm Optimization Algorithm for AQI Prediction | |
US20220215256A1 (en) | Edge-side federated learning for anomaly detection | |
CN113821903B (zh) | 温度控制方法和设备、模块化数据中心及存储介质 | |
US20160246277A1 (en) | Model Predictive Control with Uncertainties | |
WO2016203757A1 (ja) | 制御装置、それを使用する情報処理装置、制御方法、並びにコンピュータ・プログラムが格納されているコンピュータ読み取り可能な記憶媒体 | |
Liu et al. | Residual useful life prognosis of equipment based on modified hidden semi-Markov model with a co-evolutional optimization method | |
Abd Elminaam et al. | CPSMP_ML: Closing price Prediction of Stock Market using Machine Learning Models | |
JP6984597B2 (ja) | 線形パラメータ変動モデル推定システム、方法およびプログラム | |
Elinger et al. | Information theoretic causality measures for system identification of mechanical systems | |
US11314212B2 (en) | HTM-based predictions for system behavior management | |
Ghatak et al. | Introduction to machine learning | |
Li et al. | Extreme learning machine based actuator fault detection of a quadrotor helicopter | |
Ruan et al. | Human operator decision support for highly transient industrial processes: a reinforcement learning approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220517 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230222 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230314 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230327 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7263980 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |