JP2024036985A - 学習システム、学習方法、学習プログラム及び自律制御装置 - Google Patents
学習システム、学習方法、学習プログラム及び自律制御装置 Download PDFInfo
- Publication number
- JP2024036985A JP2024036985A JP2022141583A JP2022141583A JP2024036985A JP 2024036985 A JP2024036985 A JP 2024036985A JP 2022141583 A JP2022141583 A JP 2022141583A JP 2022141583 A JP2022141583 A JP 2022141583A JP 2024036985 A JP2024036985 A JP 2024036985A
- Authority
- JP
- Japan
- Prior art keywords
- learning
- agent
- controlled object
- state
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 30
- 230000007613 environmental effect Effects 0.000 claims abstract description 47
- 230000007704 transition Effects 0.000 claims abstract description 43
- 238000011156 evaluation Methods 0.000 claims abstract description 35
- 230000002787 reinforcement Effects 0.000 claims abstract description 28
- 230000006399 behavior Effects 0.000 description 35
- 238000010586 diagram Methods 0.000 description 8
- 238000006073 displacement reaction Methods 0.000 description 8
- 238000004088 simulation Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Feedback Control In General (AREA)
Abstract
【課題】強化学習を効率よく実行すること。【解決手段】制御対象を制御するエージェントを強化学習させるための処理部を備える学習システムにおいて、前記処理部は、所定の状態にある前記エージェントが、所定の環境下において所定の行動を実行することにより得られる報酬に基づいて、方策を更新するまでのステップを、評価ステップとして繰り返し実行しており、前記評価ステップの更新は、前記エージェントが所定の行動を実行したときに前記制御対象が第1の環境状態から予め規定された第2の環境状態に遷移することをイベントとするイベントドリブンで規定されている。【選択図】図2
Description
本開示は、学習システム、学習方法、学習プログラム及び自律制御装置に関するものである。
従来、単位時間で設定される時間変数tの経過毎に、学習モデルの更新を行う強化学習装置が知られている(例えば、特許文献1参照)。
一般的に、強化学習においては、特許文献1のように、適用する問題において十分に小さいと思われる制御周期もしくは行動決定周期を、1ステップ(学習における単位時間)と定義して学習を行うことが多い。ここで、制御対象に対する行動決定問題を強化学習によって取り扱う場合、制御対象の行動の種類によっては、決定した行動を実行するまでの時間が異なるものとなっている。例えば、制御対象が無人航空機であって、行動として、カメラによる撮像という行動決定をした場合は、決定から行動の完了まで通常、0.数秒オーダの時間が必要になる。一方で、行動として、右に旋回するという行動決定をした場合は、決定から行動の完了まで数秒オーダの時間が必要になる。このような決定した行動を実行するまでの時間が異なるものが混在する行動決定問題の場合、1ステップの単位時間は、より時間間隔が小さい方の行動決定問題の0.数秒オーダに基づく単位時間が採用される。
このように、制御対象を制御するエージェントの行動の中で、環境へ反映されるまでの時間が1ステップよりも長いものが存在する場合、エージェントが行動に対する環境の変化を認識可能とするためには、複数ステップに渡り同じ行動を出力する必要がある。しかしながら、同じ行動を出力している間、類似した学習データ(行動、状態、報酬の組)によって学習が行われるため、学習効率が低くなるという問題がある。
そこで、本開示は、強化学習を効率よく実行することができる学習システム、学習方法、学習プログラム及び自律制御装置を提供することを課題とする。
本開示の学習システムは、制御対象を制御するエージェントを強化学習させるための処理部を備える学習システムにおいて、前記処理部は、所定の状態にある前記エージェントが、所定の環境下において所定の行動を実行することにより得られる報酬に基づいて、方策を更新するまでのステップを、評価ステップとして繰り返し実行しており、前記評価ステップの更新は、前記エージェントが所定の行動を実行したときに前記制御対象が第1の環境状態から予め規定された第2の環境状態に遷移することをイベントとするイベントドリブンで規定されている。
本開示の学習方法は、制御対象を制御するエージェントを強化学習させる学習システムにおいて実行される学習方法であって、前記学習システムに、所定の状態にある前記エージェントが、所定の環境下において所定の行動を実行することにより得られる報酬に基づいて、方策を更新するまでのステップを、評価ステップとして繰り返し実行させており、前記評価ステップの更新は、前記エージェントが所定の行動を実行したときに前記制御対象が第1の環境状態から予め規定された第2の環境状態に遷移することをイベントとするイベントドリブンで規定されている。
本開示の学習プログラムは、制御対象を制御するエージェントを強化学習させる学習システムにおいて実行される学習プログラムであって、前記学習システムに、所定の状態にある前記エージェントが、所定の環境下において所定の行動を実行することにより得られる報酬に基づいて、方策を更新するまでのステップを、評価ステップとして繰り返し実行させており、前記評価ステップの更新は、前記エージェントが所定の行動を実行したときに前記制御対象が第1の環境状態から予め規定された第2の環境状態に遷移することをイベントとするイベントドリブンで規定されている。
本開示の自律制御装置は、学習後の方策に基づいてエージェントが制御対象を制御する制御部を備える自律制御装置であって、前記制御部は、前記制御対象の環境状態に基づいて、前記エージェントが前記方策から所定の行動を選択して出力するまでのステップを、実行ステップとして繰り返し実行しており、前記実行ステップの更新は、前記エージェントが所定の行動を実行したときに前記制御対象が第1の環境状態から予め規定された第2の環境状態に遷移することをイベントとするイベントドリブンで規定されている。
本開示によれば、強化学習を効率よく実行することができる。
以下に、本開示に係る実施形態を図面に基づいて詳細に説明する。なお、この実施形態によりこの開示が限定されるものではない。また、下記実施形態における構成要素には、当業者が置換可能かつ容易なもの、あるいは実質的に同一のものが含まれる。さらに、以下に記載した構成要素は適宜組み合わせることが可能であり、また、実施形態が複数ある場合には、各実施形態を組み合わせることも可能である。
[本実施形態]
本実施形態に係る学習システム1は、制御対象を制御するエージェントAを強化学習するシステムとなっている。制御対象としては、例えば、無人航空機または蒸気タービンプラントであり、特に限定されない。なお、以下の説明では、制御対象として、無人航空機に適用した場合について説明する。
本実施形態に係る学習システム1は、制御対象を制御するエージェントAを強化学習するシステムとなっている。制御対象としては、例えば、無人航空機または蒸気タービンプラントであり、特に限定されない。なお、以下の説明では、制御対象として、無人航空機に適用した場合について説明する。
図1は、本実施形態に係る学習システムを模式的に表した図である。図2は、本実施形態に係る学習方法に関するフローを示す図である。
(学習システム)
学習システム1は、例えば、コンピュータを用いて構成され、仮想空間となる環境下において、制御対象を制御するエージェントAの強化学習を実行する。制御対象としては、例えば、無人航空機、または蒸気タービンプラントであり、特に限定されない。また、学習システム1において、制御対象は、制御対象モデル20としてモデル化されており、その動作が仮想空間内でシミュレートされる。なお、以下では、制御対象として無人航空機に適用して説明する。エージェントAは、例えば、人工知能(AI:Artificial Intelligence)である。制御対象が無人航空機である場合、エージェントAは、AIパイロットとなる。
学習システム1は、例えば、コンピュータを用いて構成され、仮想空間となる環境下において、制御対象を制御するエージェントAの強化学習を実行する。制御対象としては、例えば、無人航空機、または蒸気タービンプラントであり、特に限定されない。また、学習システム1において、制御対象は、制御対象モデル20としてモデル化されており、その動作が仮想空間内でシミュレートされる。なお、以下では、制御対象として無人航空機に適用して説明する。エージェントAは、例えば、人工知能(AI:Artificial Intelligence)である。制御対象が無人航空機である場合、エージェントAは、AIパイロットとなる。
図1に示すように、学習システム1は、処理部10と、記憶部11とを備える。学習システム1は、単一の装置で構成されていてもよいし、複数の装置からなるシステムとして構成されていてもよく、特に限定されない。
処理部10は、例えば、CPU(Central Processing Unit)等の集積回路を含んでいる。処理部10は、学習部21と、環境部22とを有し、仮想空間における制御対象モデル20の動作をシミュレートしている。処理部10は、学習部21からエージェントAの行動(アクション)Atを制御対象モデル20へ向けて出力する。処理部10は、行動Atに基づく制御対象モデル20の動作をシミュレートして、制御対象モデル20の動作結果となる環境情報を、制御対象モデル20から環境部22へ出力させる。環境情報は、例えば、制御対象モデル20に設けられる各種センサから出力されるセンサ情報である。処理部10は、環境情報を環境部22へ入力させ、環境情報に基づいて算出される状態(ステート)St及び報酬(リワード)Rtを、環境部22から学習部21へ出力させる。処理部10は、状態St及び報酬Rtを学習部21へ入力させ、報酬Rtに基づく学習を学習部21に実行させると共に、状態Stに基づく行動Atを、学習部21から制御対象モデル20へ出力させる。
学習部21は、エージェントAが意思決定を行う方策πを学習して更新する処理を実行する。方策πは、所定の状態Stに基づきエージェントAの所定の行動Atを決定するための意思決定を行う意思決定モデルである。学習部21は、行動決定部31と、方策更新部32と、行動出力部33と、を含む。行動決定部31は、環境部22から入力される状態Stに基づいて、方策πから行動Atを決定している。方策更新部32は、環境部22から付与される報酬(リワード)Rtに基づく学習を実行して方策πを評価ステップごとに更新する。なお、更新された方策πは、記憶部11に記憶される。行動出力部33は、行動決定部31により決定した行動Atに基づいて、制御対象モデル20に入力される制御入力を算出し、算出した制御入力を制御対象モデル20へ向けて出力する。
環境部22は、エージェントA及び制御対象モデル20に対して環境を提供する。環境部22は、状態遷移判定部34と、報酬付与部35と、状態取得部36と、を含む。報酬付与部35は、エージェントAの行動At及び制御対象モデル20の環境情報に基づいて、エージェントAに付与する報酬Rtを算出する。状態取得部36は、制御対象モデル20から入力される環境情報に基づいて、エージェントAに入力する状態Stを算出する。状態遷移判定部34は、学習部21が方策πを更新するまでのステップである評価ステップを1ステップ進めるか否かを判定する。つまり、状態遷移判定部34は、状態St及び報酬Rtを、状態St+1及び報酬Rt+1へ進めている。
ここで、状態遷移判定部34について説明する。状態遷移判定部34は、評価ステップを1ステップ進める更新を、イベントドリブンとして規定している。すなわち、エージェントAが所定の行動Atを実行したときに制御対象モデル20が第1の環境状態から予め規定された第2の環境状態に遷移することをイベントとし、評価ステップを1ステップ進めるまでの更新間隔をイベントが発生するまでの期間とするイベントドリブンとして規定している。イベントとしては、例えば、制御対象モデル20が無人航空機である場合において、エージェントAが右旋回の方位角度の変位が5[deg]となるように所定の行動Atを実行した場合において、制御対象モデル20となる無人航空機が、右旋回前の初期位置(第1の環境状態)から、右旋回の方位角度の変位が5[deg](第2の環境状態)となることである。イベントドリブンは、上記のイベントに限らず、制御対象モデル20が実行するイベントに応じて、適宜設定されている。
また、状態遷移判定部34は、タイムアウト時間を予め設定している。状態遷移判定部34は、イベントが発生するまでの期間がタイムアウト時間を超えた場合、方策πを更新する。タイムアウト時間は、イベントに応じて適宜設定されている。また、タイムアウト時間は、制御対象モデル20の環境条件及び動作条件等に応じて変化させてもよい。例えば、制御対象モデル20となる無人航空機を、5[deg]右旋回させる場合、高度が高いほど、タイムアウト時間が長くなるように設定してもよい。
記憶部11は、半導体記憶デバイス及び磁気記憶デバイス等の任意の記憶デバイスである。記憶部12は、各種プログラム及び各種データを記憶している。記憶部11は、各種プログラムとして、エージェントAの強化学習を行う学習プログラムPが記憶されている。また、記憶部12は、各種データとして、方策πを記憶する。記憶される方策πは、学習が更新される度に記憶される。また、各種データとしては、設定されるイベントドリブン及びタイムアウト時間を記憶していてもよい。
(学習方法)
次に、図2を参照して、学習システム1が学習プログラムPを実行することで行われる学習方法について説明する。学習方法では、先ず、処理部10が、強化学習における各種設定を初期化する(ステップS1)。ステップS1では、例えば、評価ステップを初期値としたり、環境下において経過する環境時間(シミュレート時間)を初期化したりする。
次に、図2を参照して、学習システム1が学習プログラムPを実行することで行われる学習方法について説明する。学習方法では、先ず、処理部10が、強化学習における各種設定を初期化する(ステップS1)。ステップS1では、例えば、評価ステップを初期値としたり、環境下において経過する環境時間(シミュレート時間)を初期化したりする。
続いて、学習方法では、処理部10の学習部21が、初期化された環境部22から状態Stを取得する(ステップS2)。続いて、学習方法では、学習部21が状態Stに基づいて、方策πから行動Atを選択し、制御対象モデル20へ出力する(ステップS3)。処理部10は、行動Atに基づいて制御対象モデル20の動作を、シミュレート時間の単位時間分だけ進める(ステップS4)。この後、環境部22の状態遷移判定部34は、行動Atに対応する制御対象モデル20の環境状態が変位分だけ発生したか、すなわち、イベントが発生したか否かを判定する(ステップS5)。状態遷移判定部34は、行動Atに対応する変位が発生したと判定すると(ステップS5:Yes)と、評価ステップを1ステップ進める。これを受けて状態取得部36は、行動Atに基づいて制御対象モデル20から出力された環境情報から、状態St+1を算出し、状態St+1を学習部21へ出力すると共に、報酬付与部35は、行動Atに対する報酬Rt+1を算出して、学習部21へ出力する(ステップS7)。
一方で、状態遷移判定部34は、行動Atに対応する変位が発生していないと判定すると(ステップS5:No)と、タイムアウト時間を経過したか否かを判定する(ステップS6)。具体的に、ステップS6では、状態遷移判定部34が、環境下におけるシミュレート時間がタイムアウト時間よりも大きくなったか否かに基づいて、タイムアウト時間の経過を判定している。状態遷移判定部34は、タイムアウト時間を経過したと判定する(ステップS6:Yes)と、ステップS7を実行する。一方で、状態遷移判定部34は、タイムアウト時間を経過していないと判定する(ステップS6:No)と、ステップS4に進んで再度実行する。
ステップS7の実行後、学習部21は、行動At、環境部22から取得した状態St、状態St+1、報酬(リワード)Rt+1に基づく学習を実行して方策πを更新する(ステップS8)。この後、処理部10は、学習を終了するか否かを判定し(ステップS9)、学習を終了すると判定する(ステップS9:Yes)ことで、エージェントAの強化学習を終了する。一方で、処理部10は、学習を終了しないと判定する(ステップS9:No)と、ステップS2に進み、ステップS7で算出した状態St+1を新たな評価ステップの状態StとしてステップS2からステップS9を、学習が終了するまで評価ステップを進めながら繰り返し実行する。
(自律制御装置)
次に、図3及び図4を参照して、自律制御装置について説明する。図3は、本実施形態に係る自律制御装置を模式的に表した図である。図4は、本実施形態に係る自律制御に関するフローを示す図である。
次に、図3及び図4を参照して、自律制御装置について説明する。図3は、本実施形態に係る自律制御装置を模式的に表した図である。図4は、本実施形態に係る自律制御に関するフローを示す図である。
本実施形態に係る自律制御装置50は、学習システム1により学習した方策πを用いて、制御部51が制御対象40を制御する装置となっている。また、制御対象40は、現実空間で動作する実物となっている。
図3に示すように、自律制御装置50は、制御部51と、記憶部52とを備える。制御部51は、処理部10と同様に、CPU(Central Processing Unit)等の集積回路を含んでいる。制御部51は、推論部55と、環境部56とを有し、現実空間における制御対象40の動作を制御している。制御部51は、推論部55からエージェントAの行動Atに基づく制御出力を、制御対象40へ向けて出力する。制御対象40は、制御出力に基づく動作を実行して、動作結果となる環境情報を制御部51の環境部56に出力する。環境部56は、環境情報に基づいて算出される状態Stを、環境部56から推論部55に出力する。推論部55は、状態Stに基づいて方策πから行動Atを決定し、決定した行動Atに基づく制御出力を、制御対象40へ向けて出力する。制御部51は、推論部55から制御出力を制御対象40へ出力して、環境部56から状態Stが出力されるまでのステップを実行ステップとして繰り返し実行する。
推論部55は、学習システム1において学習済みの方策πを用いて、状態Stに基づく行動Atを実行する。推論部55は、行動決定部61と、行動出力部63と、を含む。なお、行動決定部61及び行動出力部63は、学習システム1の行動決定部31及び行動出力部33と同様であるため、説明を省略する。推論部55は、行動決定部61が、環境部56から入力される状態Stに基づいて、方策πから行動Atを決定し、行動出力部63が、行動決定部61により決定した行動Atに基づいて、制御対象40に入力される制御出力を算出し、算出した制御出力を制御対象40へ向けて出力する。
環境部56は、エージェントAに対して環境を提供する。環境部56は、状態遷移判定部64と、状態取得部66と、を含む。なお、状態遷移判定部64及び状態取得部66は、学習システム1の状態遷移判定部34及び状態取得部36と同様であるため、説明を省略する。なお、学習システム1の状態遷移判定部34は、状態St+1及び報酬Rt+1を算出していたが、自律制御装置50の状態遷移判定部64は、状態St+1及び報酬Rt+1を算出する一方で、算出した状態St+1及び報酬Rt+1を方策πの更新に用いない処理としてもよいし、状態St+1及び報酬Rt+1を算出しない処理としてもよく、何れの処理であってもよい。環境部56は、状態遷移判定部64が、制御対象40から取得した環境情報に基づいてイベントが発生したか否かを判定し、状態取得部66が、制御対象40から取得した環境情報に基づいて、エージェントAに入力する状態Stを算出する。
次に、図4を参照して、自律制御装置50によって実行される制御対象40の自律制御方法について説明する。自律制御方法では、先ず、制御部51が、自律制御における各種設定を初期化する(ステップS11)。ステップS11では、例えば、実行ステップを初期値とする。
続いて、自律制御方法では、制御部51の推論部55が、初期化された環境部56から状態Stを取得する(ステップS12)。続いて、自律制御方法では、推論部55が状態Stに基づいて、方策πから行動Atを選択し、選択した行動Atに基づく制御出力を制御対象40へ出力する(ステップS13)。制御対象40は、制御出力に基づく動作を実行し、制御部51は、行動Atを選択してから経過した経過時間をカウントする(ステップS14)。この後、環境部56の状態遷移判定部64は、行動Atに対応する制御対象40の環境状態が変位分だけ発生したか、すなわち、イベントが発生したか否かを判定する(ステップS15)。状態遷移判定部64は、行動Atに対応する変位が発生したと判定すると(ステップS15:Yes)と、状態取得部36は、行動Atに基づいて制御対象40から出力された環境情報から、状態Stを算出し、状態Stを推論部55へ出力する(ステップS17)。
一方で、状態遷移判定部64は、行動Atに対応する変位が発生していないと判定すると(ステップS15:No)と、タイムアウト時間を経過したか否かを判定する(ステップS16)。具体的に、ステップS16では、状態遷移判定部64が、行動Atを選択してから経過した経過時間が、タイムアウト時間よりも大きくなったか否かに基づいて、タイムアウト時間の経過を判定している。状態遷移判定部64は、タイムアウト時間を経過したと判定する(ステップS16:Yes)と、ステップS17を実行する。一方で、状態遷移判定部64は、タイムアウト時間を経過していないと判定する(ステップS16:No)と、ステップS14に進んで再度実行する。
ステップS17の実行後、制御部51は、自律制御を終了するか否かを判定し(ステップS18)、自律制御を終了すると判定する(ステップS18:Yes)ことで、エージェントAによる制御対象40の自律制御を終了する。一方で、制御部51は、自律制御を終了しないと判定する(ステップS18:No)と、ステップS13に進み、ステップS13からステップS18を、自律制御が終了するまで繰り返し実行する。
なお、自律制御装置50では、状態遷移判定部64を用いてイベントの発生を判定したが、状態遷移判定部64を省いた構成であってもよい。つまり、イベントの発生を判定せずに、所定の単位時間ごとに状態St及び行動Atの更新を行ってもよい。
以上のように、本実施形態に記載の学習システム1、学習方法、学習プログラムP及び自律制御装置50は、例えば、以下のように把握される。
第1の態様に係る学習システム1は、制御対象モデル20を制御するエージェントAを強化学習させるための処理部10を備える学習システム1において、前記処理部10は、所定の状態Stにある前記エージェントAが、所定の環境下において所定の行動Atを実行することにより得られる報酬Rtに基づいて、方策πを更新するまでのステップを、評価ステップとして繰り返し実行しており、前記評価ステップの更新は、前記エージェントAが所定の行動Atを実行したときに前記制御対象(制御対象モデル20)が第1の環境状態から予め規定された第2の環境状態に遷移することをイベントとするイベントドリブンで規定されている。
この構成によれば、イベントの発生毎に評価ステップを更新することができる。このため、類似した学習データによる強化学習を低減し、更新頻度を低下させることができることから、学習効率を向上させることができる。
第2の態様として、前記評価ステップの更新は、予め規定されたタイムアウト時間が設定されており、前記処理部10は、前記イベントが前記タイムアウト時間を超えた場合、前記方策πを更新する。
この構成によれば、イベントが発生するまでの時間が長かったり、イベントが発生しなかったりする場合であっても、評価ステップを更新することができる。
第3の態様に係る学習方法は、制御対象モデル20を制御するエージェントAを強化学習させる学習システム1において実行される学習方法であって、前記学習システム1に、所定の状態Stにある前記エージェントが、所定の環境下において所定の行動Atを実行することにより得られる報酬Rtに基づいて、方策πを更新するまでのステップを、評価ステップとして繰り返し実行させており、前記評価ステップの更新は、前記エージェントAが所定の行動を実行したときに前記制御対象が第1の環境状態から予め規定された第2の環境状態に遷移することをイベントとするイベントドリブンで規定されている。
この構成によれば、イベントの発生毎に評価ステップを更新することができる。このため、類似した学習データによる強化学習を低減し、更新頻度を低下させることができることから、学習効率を向上させることができる。
第4の態様に係る学習プログラムPは、制御対象モデル20を制御するエージェントAを強化学習させる学習システム1において実行される学習プログラムPであって、前記学習システム1に、所定の状態にある前記エージェントAが、所定の環境下において所定の行動Atを実行することにより得られる報酬Rtに基づいて、方策πを更新するまでのステップを、評価ステップとして繰り返し実行させており、前記評価ステップの更新は、前記エージェントAが所定の行動Atを実行したときに前記制御対象が第1の環境状態から予め規定された第2の環境状態に遷移することをイベントとするイベントドリブンで規定されている。
この構成によれば、イベントの発生毎に評価ステップを更新することができる。このため、類似した学習データによる強化学習を低減し、更新頻度を低下させることができることから、学習効率を向上させることができる。
第5の態様に係る自律制御装置50は、学習後の方策πに基づいてエージェントAが制御対象40を制御する制御部51を備える自律制御装置50であって、前記制御部51は、前記制御対象40の環境状態に基づいて、前記エージェントAが前記方策πから所定の行動Atを選択して出力するまでのステップを、実行ステップとして繰り返し実行しており、前記実行ステップの更新は、前記エージェントAが所定の行動Atを実行したときに前記制御対象40の第1の環境状態から予め規定された第2の環境状態に遷移することをイベントとするイベントドリブンで規定されている。
この構成によれば、イベントの発生毎に実行ステップを更新することができる。このため、実行ステップの更新頻度を低下させることができることから、制御負荷を軽減することができる。
1 学習システム
10 処理部
11 記憶部
20 制御対象モデル
21 学習部
22 環境部
31 行動決定部
32 方策更新部
33 行動出力部
34 状態遷移判定部
35 報酬付与部
36 状態取得部
40 制御対象
50 自律制御装置
51 制御部
52 記憶部
55 推論部
56 環境部
61 行動決定部
63 行動出力部
64 状態遷移判定部
66 状態取得部
A エージェント
π 方策
10 処理部
11 記憶部
20 制御対象モデル
21 学習部
22 環境部
31 行動決定部
32 方策更新部
33 行動出力部
34 状態遷移判定部
35 報酬付与部
36 状態取得部
40 制御対象
50 自律制御装置
51 制御部
52 記憶部
55 推論部
56 環境部
61 行動決定部
63 行動出力部
64 状態遷移判定部
66 状態取得部
A エージェント
π 方策
Claims (5)
- 制御対象を制御するエージェントを強化学習させるための処理部を備える学習システムにおいて、
前記処理部は、
所定の状態にある前記エージェントが、所定の環境下において所定の行動を実行することにより得られる報酬に基づいて、方策を更新するまでのステップを、評価ステップとして繰り返し実行しており、
前記評価ステップの更新は、前記エージェントが所定の行動を実行したときに前記制御対象が第1の環境状態から予め規定された第2の環境状態に遷移することをイベントとするイベントドリブンで規定されている学習システム。 - 前記評価ステップの更新は、予め規定されたタイムアウト時間が設定されており、
前記処理部は、前記イベントが前記タイムアウト時間を超えた場合、前記方策を更新する請求項1に記載の学習システム。 - 制御対象を制御するエージェントを強化学習させる学習システムにおいて実行される学習方法であって、
前記学習システムに、
所定の状態にある前記エージェントが、所定の環境下において所定の行動を実行することにより得られる報酬に基づいて、方策を更新するまでのステップを、評価ステップとして繰り返し実行させており、
前記評価ステップの更新は、前記エージェントが所定の行動を実行したときに前記制御対象が第1の環境状態から予め規定された第2の環境状態に遷移することをイベントとするイベントドリブンで規定されている学習方法。 - 制御対象を制御するエージェントを強化学習させる学習システムにおいて実行される学習プログラムであって、
前記学習システムに、
所定の状態にある前記エージェントが、所定の環境下において所定の行動を実行することにより得られる報酬に基づいて、方策を更新するまでのステップを、評価ステップとして繰り返し実行させており、
前記評価ステップの更新は、前記エージェントが所定の行動を実行したときに前記制御対象が第1の環境状態から予め規定された第2の環境状態に遷移することをイベントとするイベントドリブンで規定されている学習プログラム。 - 学習後の方策に基づいてエージェントが制御対象を制御する制御部を備える自律制御装置であって、
前記制御部は、
前記制御対象の環境状態に基づいて、前記エージェントが前記方策から所定の行動を選択して出力するまでのステップを、実行ステップとして繰り返し実行しており、
前記実行ステップの更新は、前記エージェントが所定の行動を実行したときに前記制御対象が第1の環境状態から予め規定された第2の環境状態に遷移することをイベントとするイベントドリブンで規定されている自律制御装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022141583A JP2024036985A (ja) | 2022-09-06 | 2022-09-06 | 学習システム、学習方法、学習プログラム及び自律制御装置 |
PCT/JP2023/032264 WO2024053615A1 (ja) | 2022-09-06 | 2023-09-04 | 学習システム、学習方法、学習プログラム及び自律制御装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022141583A JP2024036985A (ja) | 2022-09-06 | 2022-09-06 | 学習システム、学習方法、学習プログラム及び自律制御装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024036985A true JP2024036985A (ja) | 2024-03-18 |
Family
ID=90191200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022141583A Pending JP2024036985A (ja) | 2022-09-06 | 2022-09-06 | 学習システム、学習方法、学習プログラム及び自律制御装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2024036985A (ja) |
WO (1) | WO2024053615A1 (ja) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7142605B2 (ja) * | 2019-05-20 | 2022-09-27 | ヤフー株式会社 | 学習装置、学習方法及び学習プログラム |
JP7366860B2 (ja) * | 2020-08-17 | 2023-10-23 | 株式会社日立製作所 | 攻撃シナリオシミュレーション装置、攻撃シナリオ生成システム、および攻撃シナリオ生成方法 |
-
2022
- 2022-09-06 JP JP2022141583A patent/JP2024036985A/ja active Pending
-
2023
- 2023-09-04 WO PCT/JP2023/032264 patent/WO2024053615A1/ja unknown
Also Published As
Publication number | Publication date |
---|---|
WO2024053615A1 (ja) | 2024-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gabor et al. | A simulation-based architecture for smart cyber-physical systems | |
KR101961421B1 (ko) | 소스 시스템들의 운영 데이터를 사용하여 초기에 트레이닝되는 제 1 재귀 신경망 모델 및 제 2 재귀 신경망 모델을 별도로 트레이닝함으로써 타겟 시스템을 제어하기 위한 방법, 제어기, 및 컴퓨터 프로그램 제품 | |
JP6926218B2 (ja) | ニューラルネットワークを使用する強化学習のための行動選択 | |
Precup et al. | Novel adaptive gravitational search algorithm for fuzzy controlled servo systems | |
EP3899797A1 (en) | Multi-agent reinforcement learning with matchmaking policies | |
US11759947B2 (en) | Method for controlling a robot device and robot device controller | |
CN108830376B (zh) | 针对时间敏感的环境的多价值网络深度强化学习方法 | |
US11269656B2 (en) | Method and device for setting operating system | |
WO2021244745A1 (en) | A bilevel method and system for designing multi-agent systems and simulators | |
CN110389556A (zh) | 控制装置以及控制方法 | |
CN105867427A (zh) | 一种面向动态环境的机器人寻径在线控制方法 | |
WO2024053615A1 (ja) | 学習システム、学習方法、学習プログラム及び自律制御装置 | |
CN112215363A (zh) | 用于为机器人创建策略的方法、设备和计算机程序 | |
Acampora et al. | Efficient modeling of MIMO systems through timed automata based neuro-fuzzy inference engine | |
EP3304218B1 (en) | System and method for background element switching for models in model predictive estimation and control applications | |
JP7065969B2 (ja) | 実生産プロセスを制御するための方法および制御システム | |
CN111356959B (zh) | 用于计算机辅助地控制技术系统的方法 | |
JP7396478B2 (ja) | モデル訓練プログラム、モデル訓練方法および情報処理装置 | |
Encapera et al. | A new reinforcement learning algorithm with fixed exploration for semi-markov control in preventive maintenance | |
JP2560908B2 (ja) | 評価パラメータ学習方式 | |
JP7525032B1 (ja) | 性能評価装置、性能評価方法、及びプログラム | |
JP2023084566A (ja) | 推定装置、推定方法および推定プログラム | |
CN102177476A (zh) | 用于电厂设备中的设备控制的方法 | |
JP4905782B2 (ja) | プラント制御システム、プラント制御方法およびプラント制御のためのプログラム | |
JP2735271B2 (ja) | プログラマブルコントローラ |