JP7225923B2 - 強化学習方法、強化学習プログラム、および強化学習システム - Google Patents
強化学習方法、強化学習プログラム、および強化学習システム Download PDFInfo
- Publication number
- JP7225923B2 JP7225923B2 JP2019039032A JP2019039032A JP7225923B2 JP 7225923 B2 JP7225923 B2 JP 7225923B2 JP 2019039032 A JP2019039032 A JP 2019039032A JP 2019039032 A JP2019039032 A JP 2019039032A JP 7225923 B2 JP7225923 B2 JP 7225923B2
- Authority
- JP
- Japan
- Prior art keywords
- controlled object
- state
- control input
- information processing
- processing apparatus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002787 reinforcement Effects 0.000 title claims description 144
- 238000000034 method Methods 0.000 title claims description 112
- 230000006870 function Effects 0.000 claims description 76
- 238000010248 power generation Methods 0.000 claims description 53
- 230000008569 process Effects 0.000 claims description 50
- 239000011159 matrix material Substances 0.000 claims description 45
- 238000012545 processing Methods 0.000 claims description 32
- 238000011156 evaluation Methods 0.000 claims description 23
- 230000001667 episodic effect Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000010365 information processing Effects 0.000 description 259
- 238000003860 storage Methods 0.000 description 32
- 238000010586 diagram Methods 0.000 description 25
- 230000001186 cumulative effect Effects 0.000 description 20
- 230000007704 transition Effects 0.000 description 12
- 238000009826 distribution Methods 0.000 description 9
- 239000006185 dispersion Substances 0.000 description 8
- 230000000694 effects Effects 0.000 description 8
- 230000014509 gene expression Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 230000002411 adverse Effects 0.000 description 4
- 230000000712 assembly Effects 0.000 description 4
- 238000000429 assembly Methods 0.000 description 4
- 230000008602 contraction Effects 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000004378 air conditioning Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005315 distribution function Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Programme-control systems
- G05B19/02—Programme-control systems electric
- G05B19/04—Programme control other than numerical control, i.e. in sequence controllers or logic controllers
- G05B19/042—Programme control other than numerical control, i.e. in sequence controllers or logic controllers using digital processors
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Programme-control systems
- G05B19/02—Programme-control systems electric
- G05B19/04—Programme control other than numerical control, i.e. in sequence controllers or logic controllers
- G05B19/042—Programme control other than numerical control, i.e. in sequence controllers or logic controllers using digital processors
- G05B19/0426—Programming the control sequence
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/20—Pc systems
- G05B2219/26—Pc applications
- G05B2219/2619—Wind turbines
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/34—Director, elements to supervisory
- G05B2219/34082—Learning, online reinforcement learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Automation & Control Theory (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Algebra (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Mathematical Optimization (AREA)
- Feedback Control In General (AREA)
- Testing And Monitoring For Control Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
図1~図3は、実施の形態にかかる強化学習方法の一実施例を示す説明図である。情報処理装置100は、強化学習により制御対象110を制御するためのコンピュータである。情報処理装置100は、例えば、サーバやPC(Personal Computer)、または、マイクロコントローラなどである。
次に、図4を用いて、図1~図3に示した情報処理装置100のハードウェア構成例について説明する。
次に、図5を用いて、情報処理装置100の機能的構成例について説明する。
次に、図6~図8を用いて、情報処理装置100の動作例1について説明する。
ここで、強化学習および制御対象110に関しては、下記3つの特性が仮定される。1つ目の特性は、強化学習が、確率的に制御入力を決定する方策を用いており、制御入力を決定する際に用いられる確率密度関数の分散共分散行列を、いずれのタイミングにも変更可能である性質である。
動作例1において、下記式(1)~下記式(14)によって、制御対象110と、即時コストと、制約条件と、制御目的とが規定され、問題設定が行われる。また、下記式(15)~下記式(20)によって、動作例1において仮定される、強化学習および制御対象110に関する特性が規定される。
次に、制御問題の実例を用いて、情報処理装置100の動作の具体例について説明する。ここで、下記式(29)および下記式(30)で規定される2変数関数を一例として、情報処理装置100の動作の具体例について説明する。下記式(29)は、f(0)=0を満たす。
次に、図11~図13を用いて、強化学習を適用する制御対象110の具体例について説明する。
次に、図14を用いて、情報処理装置100が実行する、動作例1における全体処理手順の一例について説明する。全体処理は、例えば、図4に示したCPU401と、メモリ402や記録媒体405などの記憶領域と、ネットワークI/F403とによって実現される。
次に、図15を用いて、情報処理装置100が実行する、動作例1における決定処理手順の一例について説明する。決定処理は、例えば、図4に示したCPU401と、メモリ402や記録媒体405などの記憶領域と、ネットワークI/F403とによって実現される。
次に、図16および図17を用いて、情報処理装置100の動作例2について説明する。
ここで、強化学習および制御対象110に関しては、下記4つの特性が仮定される。1つ目の特性は、強化学習が、確率的に制御入力を決定する方策を用いており、制御入力を決定する際に用いられる確率密度関数の分散共分散行列を、いずれのタイミングにも変更可能である性質である。
動作例2において、上記式(1)~上記式(7)、上記式(12)、上記式(13)、および、下記式(52)~下記式(55)によって、制御対象110と、即時コストと、制約条件と、制御目的とが規定され、問題設定が行われる。また、上記式(15)~上記式(19)、下記式(57)および下記式(58)によって、動作例2において仮定される、強化学習および制御対象110に関する特性が規定される。
次に、制御問題の実例を用いて、情報処理装置100の動作の具体例について説明する。ここで、上記式(29)および上記式(30)で規定される2変数関数を一例として、情報処理装置100の動作の具体例について説明する。上記式(29)は、f(0)=0を満たす。
次に、図20を用いて、情報処理装置100が実行する、動作例2における全体処理手順の一例について説明する。全体処理は、例えば、図4に示したCPU401と、メモリ402や記録媒体405などの記憶領域と、ネットワークI/F403とによって実現される。
次に、図21を用いて、情報処理装置100が実行する、動作例2における決定処理手順の一例について説明する。決定処理は、例えば、図4に示したCPU401と、メモリ402や記録媒体405などの記憶領域と、ネットワークI/F403とによって実現される。
算出した前記危険度が大きいほど狭くなるように、算出した前記危険度に応じて定まる範囲の中から、前記現在の時点における前記制御対象への制御入力を決定する、
処理をコンピュータが実行することを特徴とする強化学習方法。
算出した前記危険度が閾値以上である場合、前記制御対象への制御入力を所定値に決定し、算出した前記危険度が閾値未満である場合、前記制約条件の充足に関する確率的な評価指標の下で、前記現在の時点における前記制御対象への制御入力を確率的に決定する、ことを特徴とする付記1に記載の強化学習方法。
算出した前記危険度が閾値未満である場合、前記現在の時点における前記制御対象への制御入力が取りうる平均値を算出し、前記評価指標の下で分散共分散行列を算出し、算出した前記平均値と前記分散共分散行列とを用いて、前記現在の時点における前記制御対象への制御入力を確率的に決定する、ことを特徴とする付記2に記載の強化学習方法。
前記将来の時点における前記制御対象の状態の予測値に基づいて、前記制御対象の状態に関する複数の制約条件のそれぞれの制約条件に対する、現在の時点における前記制御対象の状態についての危険度を算出し、
前記決定する処理は、
前記複数の制約条件のいずれかの制約条件に対して算出した前記危険度が閾値以上である場合、前記制御対象への制御入力を所定値に決定し、前記それぞれの制約条件に対して算出した前記危険度が閾値未満である場合、前記複数の制約条件を同時に充足する確率的な評価指標の下で、前記現在の時点における前記制御対象への制御入力を確率的に決定する、ことを特徴とする付記1~4のいずれか一つに記載の強化学習方法。
前記制御対象の状態が初期化されてから前記制御対象の状態が前記制約条件を充足しなくなるまでの期間、または、前記制御対象の状態が初期化されてから一定時間が経過するまでの期間を単位とするエピソード型の強化学習において実行される、ことを特徴とする付記1~5のいずれか一つに記載の強化学習方法。
前記算出する処理および前記決定する処理は、
前記風力発電設備の発電機トルクを制御入力とし、前記風力発電設備の発電量と前記風力発電設備のタービンの回転量と前記風力発電設備のタービンの回転速度と前記風力発電設備に対する風向と前記風力発電設備に対する風速との少なくともいずれかを状態とし、前記風力発電設備の発電量を報酬とし、前記制御対象を制御する方策を学習する強化学習において実行される、ことを特徴とする付記1~6のいずれか一つに記載の強化学習方法。
算出した前記危険度が大きいほど狭くなるように、算出した前記危険度に応じて定まる範囲の中から、前記現在の時点における前記制御対象への制御入力を決定する、
処理をコンピュータに実行させることを特徴とする強化学習プログラム。
算出した前記危険度が大きいほど狭くなるように、算出した前記危険度に応じて定まる範囲の中から、前記現在の時点における前記制御対象への制御入力を決定する、
ことを特徴とする強化学習システム。
101 強化学習器
110 制御対象
200,700,900,1000,1800,1900 グラフ
201,202 範囲
400 バス
401 CPU
402 メモリ
403 ネットワークI/F
404 記録媒体I/F
405 記録媒体
410 ネットワーク
500 記憶部
501 取得部
502 算出部
503 決定部
504 学習部
505 出力部
600,1600 実数空間
601~603,801~805,1601~1603,1701~1705 状態
1100 サーバルーム
1101 サーバ
1102 冷却器
1200 発電設備
1300 産業用ロボット
Claims (9)
- 強化学習により方策を学習していく最中に、
制御対象の状態と前記制御対象への制御入力との関係を規定するモデル情報から求められた、将来の時点における前記制御対象の状態の予測値に基づいて、前記制御対象の状態に関する制約条件に対する、現在の時点における前記制御対象の状態についての危険度を算出し、
算出した前記危険度が大きいほど狭くなるように、算出した前記危険度に応じて定まる範囲の中から、前記現在の時点における前記制御対象への制御入力を決定する、
処理をコンピュータが実行し、
前記決定する処理は、
算出した前記危険度が閾値以上である場合、前記制御対象への制御入力を所定値に決定し、算出した前記危険度が閾値未満である場合、前記制約条件の充足に関する確率的な評価指標の下で、前記現在の時点における前記制御対象への制御入力を確率的に決定する、
ことを特徴とする強化学習方法。 - 前記決定する処理は、
算出した前記危険度が閾値未満である場合、前記現在の時点における前記制御対象への制御入力が取りうる平均値を算出し、前記評価指標の下で分散共分散行列を算出し、算出した前記平均値と前記分散共分散行列とを用いて、前記現在の時点における前記制御対象への制御入力を確率的に決定する、ことを特徴とする請求項1に記載の強化学習方法。 - 前記所定値は、0である、ことを特徴とする請求項1または2に記載の強化学習方法。
- 前記算出する処理は、
前記将来の時点における前記制御対象の状態の予測値に基づいて、前記制御対象の状態に関する複数の制約条件のそれぞれの制約条件に対する、現在の時点における前記制御対象の状態についての危険度を算出し、
前記決定する処理は、
前記複数の制約条件のいずれかの制約条件に対して算出した前記危険度が閾値以上である場合、前記制御対象への制御入力を所定値に決定し、前記それぞれの制約条件に対して算出した前記危険度が閾値未満である場合、前記複数の制約条件を同時に充足する確率的な評価指標の下で、前記現在の時点における前記制御対象への制御入力を確率的に決定する、ことを特徴とする請求項1~3のいずれか一つに記載の強化学習方法。 - 前記算出する処理および前記決定する処理は、
前記制御対象の状態が初期化されてから前記制御対象の状態が前記制約条件を充足しなくなるまでの期間、または、前記制御対象の状態が初期化されてから一定時間が経過するまでの期間を単位とするエピソード型の強化学習において実行される、ことを特徴とする請求項1~4のいずれか一つに記載の強化学習方法。 - 前記制御対象は、風力発電設備であり、
前記算出する処理および前記決定する処理は、
前記風力発電設備の発電機トルクを制御入力とし、前記風力発電設備の発電量と前記風力発電設備のタービンの回転量と前記風力発電設備のタービンの回転速度と前記風力発電設備に対する風向と前記風力発電設備に対する風速との少なくともいずれかを状態とし、前記風力発電設備の発電量を報酬とし、前記制御対象を制御する方策を学習する強化学習において実行される、ことを特徴とする請求項1~5のいずれか一つに記載の強化学習方法。 - 前記モデル情報は、いずれかの時点における前記制御対象の状態を示す変数および前記いずれかの時点における前記制御対象への制御入力を示す変数を用いて、前記いずれかの時点の次の時点における前記制御対象の状態についての関数を線形近似して表す、ことを特徴とする請求項1~6のいずれか一つに記載の強化学習方法。
- 強化学習により方策を学習していく最中に、
制御対象の状態と前記制御対象への制御入力との関係を規定するモデル情報から求められた、将来の時点における前記制御対象の状態の予測値に基づいて、前記制御対象の状態に関する制約条件に対する、現在の時点における前記制御対象の状態についての危険度を算出し、
算出した前記危険度が大きいほど狭くなるように、算出した前記危険度に応じて定まる範囲の中から、前記現在の時点における前記制御対象への制御入力を決定する、
処理をコンピュータに実行させ、
前記決定する処理は、
算出した前記危険度が閾値以上である場合、前記制御対象への制御入力を所定値に決定し、算出した前記危険度が閾値未満である場合、前記制約条件の充足に関する確率的な評価指標の下で、前記現在の時点における前記制御対象への制御入力を確率的に決定する、
ことを特徴とする強化学習プログラム。 - 強化学習により方策を学習していく最中に、
制御対象の状態と前記制御対象への制御入力との関係を規定するモデル情報から求められた、将来の時点における前記制御対象の状態の予測値に基づいて、前記制御対象の状態に関する制約条件に対する、現在の時点における前記制御対象の状態についての危険度を算出し、
算出した前記危険度が大きいほど狭くなるように、算出した前記危険度に応じて定まる範囲の中から、前記現在の時点における前記制御対象への制御入力を決定するにあたり、算出した前記危険度が閾値以上である場合、前記制御対象への制御入力を所定値に決定し、算出した前記危険度が閾値未満である場合、前記制約条件の充足に関する確率的な評価指標の下で、前記現在の時点における前記制御対象への制御入力を確率的に決定する、
ことを特徴とする強化学習システム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019039032A JP7225923B2 (ja) | 2019-03-04 | 2019-03-04 | 強化学習方法、強化学習プログラム、および強化学習システム |
US16/797,515 US11543789B2 (en) | 2019-03-04 | 2020-02-21 | Reinforcement learning method, recording medium, and reinforcement learning system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019039032A JP7225923B2 (ja) | 2019-03-04 | 2019-03-04 | 強化学習方法、強化学習プログラム、および強化学習システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020144484A JP2020144484A (ja) | 2020-09-10 |
JP7225923B2 true JP7225923B2 (ja) | 2023-02-21 |
Family
ID=72336294
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019039032A Active JP7225923B2 (ja) | 2019-03-04 | 2019-03-04 | 強化学習方法、強化学習プログラム、および強化学習システム |
Country Status (2)
Country | Link |
---|---|
US (1) | US11543789B2 (ja) |
JP (1) | JP7225923B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102461732B1 (ko) * | 2019-07-16 | 2022-11-01 | 한국전자통신연구원 | 강화 학습 방법 및 장치 |
JP7263980B2 (ja) * | 2019-08-27 | 2023-04-25 | 富士通株式会社 | 強化学習方法、強化学習プログラム、および強化学習装置 |
JP2022111784A (ja) * | 2021-01-20 | 2022-08-01 | 三菱重工業株式会社 | 学習装置の学習方法、設計パターンの設計方法、積層体の製造方法及び設計パターンの設計装置 |
CN113325721B (zh) * | 2021-08-02 | 2021-11-05 | 北京中超伟业信息安全技术股份有限公司 | 一种工业系统无模型自适应控制方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008111077A (ja) | 2006-10-31 | 2008-05-15 | Central Res Inst Of Electric Power Ind | 石炭ガス化炉運転制御方法、石炭ガス化炉運転制御装置および石炭ガス化炉運転制御プログラム |
JP2009198137A (ja) | 2008-02-25 | 2009-09-03 | Hitachi Ltd | ボイラの制御装置及びボイラの制御方法 |
JP2009289199A (ja) | 2008-05-30 | 2009-12-10 | Okinawa Institute Of Science & Technology | 制御器、制御方法および制御プログラム |
JP2013206363A (ja) | 2012-03-29 | 2013-10-07 | Hitachi Ltd | プラントの制御装置及び火力発電プラントの制御装置 |
JP2017157112A (ja) | 2016-03-03 | 2017-09-07 | 三菱日立パワーシステムズ株式会社 | 制御パラメータ自動調整装置、制御パラメータ自動調整方法、及び制御パラメータ自動調整装置ネットワーク |
JP2018178900A (ja) | 2017-04-18 | 2018-11-15 | 株式会社日立製作所 | 風力発電システム |
JP2018185678A (ja) | 2017-04-26 | 2018-11-22 | 株式会社日立製作所 | 運用計画立案装置、運用制御システム、および、運用計画立案方法 |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8914300B2 (en) | 2001-08-10 | 2014-12-16 | Rockwell Automation Technologies, Inc. | System and method for dynamic multi-objective optimization of machine selection, integration and utilization |
WO2003038531A1 (en) * | 2001-10-31 | 2003-05-08 | Occidental Forest Farms Llp | Environmental controls system and method |
JP3700682B2 (ja) * | 2002-06-20 | 2005-09-28 | 日産自動車株式会社 | アクセルペダル装置 |
US6898513B2 (en) * | 2003-03-15 | 2005-05-24 | Alpine Electronics, Inc. | Navigation method and system for dynamic access to different degrees of navigation function |
JP2007065929A (ja) | 2005-08-30 | 2007-03-15 | Okinawa Institute Of Science & Technology | 制御器、制御方法および制御プログラム |
JP4876057B2 (ja) | 2007-11-20 | 2012-02-15 | 株式会社日立製作所 | プラントの制御装置、及び火力発電プラントの制御装置 |
US8135653B2 (en) | 2007-11-20 | 2012-03-13 | Hitachi, Ltd. | Power plant control device which uses a model, a learning signal, a correction signal, and a manipulation signal |
EP2286963B1 (en) * | 2009-05-22 | 2019-05-15 | Toyota Motor East Japan, Inc. | Work-assisting robot system |
US8429097B1 (en) | 2009-08-12 | 2013-04-23 | Amazon Technologies, Inc. | Resource isolation using reinforcement learning and domain-specific constraints |
US9132773B2 (en) * | 2009-12-07 | 2015-09-15 | Cobra Electronics Corporation | Mobile communication system and method for analyzing alerts associated with vehicular travel |
JP2012012960A (ja) * | 2010-06-29 | 2012-01-19 | Nippon Soken Inc | 粒子状物質検出センサ |
JP5251938B2 (ja) | 2010-08-31 | 2013-07-31 | 株式会社日立製作所 | プラントの制御装置及び火力発電プラントの制御装置 |
JP5750657B2 (ja) | 2011-03-30 | 2015-07-22 | 株式会社国際電気通信基礎技術研究所 | 強化学習装置、制御装置、および強化学習方法 |
GB201112769D0 (en) * | 2011-07-26 | 2011-09-07 | Armstrong Peter M | Immersion controller |
US9500636B2 (en) * | 2011-12-16 | 2016-11-22 | The Regents Of The University Of California | Multiscale platform for coordinating cellular activity using synthetic biology |
US9793753B2 (en) * | 2012-09-21 | 2017-10-17 | Schneider Electric It Corporation | Power quality detector |
US8706357B1 (en) * | 2013-03-14 | 2014-04-22 | Drs C3 & Aviation Company | Flight recorder deployment system and method |
US10422727B2 (en) * | 2014-08-10 | 2019-09-24 | Harry Leon Pliskin | Contaminant monitoring and air filtration system |
EP3133268B1 (en) * | 2015-08-21 | 2020-09-30 | Ansaldo Energia IP UK Limited | Method for operating a power plant |
JP6067876B2 (ja) * | 2015-08-31 | 2017-01-25 | 株式会社小松製作所 | 鉱山の管理システム |
US9796410B2 (en) * | 2016-01-28 | 2017-10-24 | Denso Corporation | Motor controller |
US11327475B2 (en) | 2016-05-09 | 2022-05-10 | Strong Force Iot Portfolio 2016, Llc | Methods and systems for intelligent collection and analysis of vehicle data |
DE112017002604T5 (de) | 2016-06-21 | 2019-02-21 | Sri International | Systeme und Verfahren für das maschinelle Lernen unter Verwendung eines vertrauenswürdigen Modells |
JP6706173B2 (ja) * | 2016-08-09 | 2020-06-03 | 株式会社日立製作所 | 制御装置、制御方法、および制御プログラム |
US10794363B2 (en) * | 2017-02-10 | 2020-10-06 | Inventus Holdings, Llc | Wind turbine curtailment control for volant animals |
US20190026473A1 (en) * | 2017-07-21 | 2019-01-24 | Pearson Education, Inc. | System and method for automated feature-based alert triggering |
WO2020040763A1 (en) | 2018-08-23 | 2020-02-27 | Siemens Aktiengesellschaft | Real-time production scheduling with deep reinforcement learning and monte carlo tree search |
US11876464B2 (en) | 2019-02-14 | 2024-01-16 | The Board Of Trustees Of The University Of Alabama | Systems, methods and devices for neural network control for IPM motor drives |
US11836582B2 (en) | 2019-12-28 | 2023-12-05 | Asper.AI Inc. | System and method of machine learning based deviation prediction and interconnected-metrics derivation for action recommendations |
-
2019
- 2019-03-04 JP JP2019039032A patent/JP7225923B2/ja active Active
-
2020
- 2020-02-21 US US16/797,515 patent/US11543789B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008111077A (ja) | 2006-10-31 | 2008-05-15 | Central Res Inst Of Electric Power Ind | 石炭ガス化炉運転制御方法、石炭ガス化炉運転制御装置および石炭ガス化炉運転制御プログラム |
JP2009198137A (ja) | 2008-02-25 | 2009-09-03 | Hitachi Ltd | ボイラの制御装置及びボイラの制御方法 |
JP2009289199A (ja) | 2008-05-30 | 2009-12-10 | Okinawa Institute Of Science & Technology | 制御器、制御方法および制御プログラム |
JP2013206363A (ja) | 2012-03-29 | 2013-10-07 | Hitachi Ltd | プラントの制御装置及び火力発電プラントの制御装置 |
JP2017157112A (ja) | 2016-03-03 | 2017-09-07 | 三菱日立パワーシステムズ株式会社 | 制御パラメータ自動調整装置、制御パラメータ自動調整方法、及び制御パラメータ自動調整装置ネットワーク |
JP2018178900A (ja) | 2017-04-18 | 2018-11-15 | 株式会社日立製作所 | 風力発電システム |
JP2018185678A (ja) | 2017-04-26 | 2018-11-22 | 株式会社日立製作所 | 運用計画立案装置、運用制御システム、および、運用計画立案方法 |
Also Published As
Publication number | Publication date |
---|---|
US11543789B2 (en) | 2023-01-03 |
JP2020144484A (ja) | 2020-09-10 |
US20200285208A1 (en) | 2020-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7225923B2 (ja) | 強化学習方法、強化学習プログラム、および強化学習システム | |
JP7379833B2 (ja) | 強化学習方法、強化学習プログラム、および強化学習システム | |
US11366433B2 (en) | Reinforcement learning method and device | |
CN110647042A (zh) | 一种基于数据驱动的机器人鲁棒学习预测控制方法 | |
CN112232495B (zh) | 预测模型的训练方法、装置、介质和计算设备 | |
Wang et al. | Deep deterministic policy gradient with compatible critic network | |
US20210310461A1 (en) | Distributed reinforcement learning and consensus control of energy systems | |
CN111079343A (zh) | 一种基于宽度学习的风电机组有效风速估计方法 | |
JP2020095586A (ja) | 強化学習方法、および強化学習プログラム | |
Kim et al. | Multi-condition multi-objective optimization using deep reinforcement learning | |
Allamaraju et al. | Human aware UAS path planning in urban environments using nonstationary MDPs | |
JP2020091611A (ja) | 行動決定プログラム、行動決定方法、および行動決定装置 | |
JP7263980B2 (ja) | 強化学習方法、強化学習プログラム、および強化学習装置 | |
US20160246277A1 (en) | Model Predictive Control with Uncertainties | |
Bernini et al. | A few lessons learned in reinforcement learning for quadcopter attitude control | |
Ding et al. | Multi-zone hvac control with model-based deep reinforcement learning | |
US11385604B2 (en) | Policy improvement method, recording medium, and policy improvement apparatus | |
CN116360504A (zh) | 无人机集群任务的确定方法、装置、电子设备及存储介质 | |
Lin et al. | Hpt-rl: Calibrating power system models based on hierarchical parameter tuning and reinforcement learning | |
CN113688875B (zh) | 工业系统故障识别方法及装置 | |
CN110675424A (zh) | 一种图像中目标物的跟踪方法、系统及相关装置 | |
CN117557870B (zh) | 基于联邦学习客户端选择的分类模型训练方法及系统 | |
Silva et al. | Optimal resource allocation in wireless control systems via deep policy gradient | |
US11983642B2 (en) | Policy improvement method, policy improvement program storage medium, and policy improvement device | |
Lampton et al. | Multiresolution state-space discretization method for q-learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211208 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221031 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221101 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221221 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230110 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230123 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7225923 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |