JP2024036985A

JP2024036985A - 学習システム、学習方法、学習プログラム及び自律制御装置

Info

Publication number: JP2024036985A
Application number: JP2022141583A
Authority: JP
Inventors: 聡太郎唐鎌; Sotaro Karakama; 夏樹松波; Natsuki Matsunami; 雅幸伊藤; Masayuki Ito
Original assignee: Mitsubishi Heavy Industries Ltd
Current assignee: Mitsubishi Heavy Industries Ltd
Priority date: 2022-09-06
Filing date: 2022-09-06
Publication date: 2024-03-18
Also published as: WO2024053615A1; EP4528603A1

Abstract

【課題】強化学習を効率よく実行すること。【解決手段】制御対象を制御するエージェントを強化学習させるための処理部を備える学習システムにおいて、前記処理部は、所定の状態にある前記エージェントが、所定の環境下において所定の行動を実行することにより得られる報酬に基づいて、方策を更新するまでのステップを、評価ステップとして繰り返し実行しており、前記評価ステップの更新は、前記エージェントが所定の行動を実行したときに前記制御対象が第１の環境状態から予め規定された第２の環境状態に遷移することをイベントとするイベントドリブンで規定されている。【選択図】図２

Description

本開示は、学習システム、学習方法、学習プログラム及び自律制御装置に関するものである。

従来、単位時間で設定される時間変数ｔの経過毎に、学習モデルの更新を行う強化学習装置が知られている（例えば、特許文献１参照）。

特開２０２０－１１９００８号公報

一般的に、強化学習においては、特許文献１のように、適用する問題において十分に小さいと思われる制御周期もしくは行動決定周期を、１ステップ（学習における単位時間）と定義して学習を行うことが多い。ここで、制御対象に対する行動決定問題を強化学習によって取り扱う場合、制御対象の行動の種類によっては、決定した行動を実行するまでの時間が異なるものとなっている。例えば、制御対象が無人航空機であって、行動として、カメラによる撮像という行動決定をした場合は、決定から行動の完了まで通常、０．数秒オーダの時間が必要になる。一方で、行動として、右に旋回するという行動決定をした場合は、決定から行動の完了まで数秒オーダの時間が必要になる。このような決定した行動を実行するまでの時間が異なるものが混在する行動決定問題の場合、１ステップの単位時間は、より時間間隔が小さい方の行動決定問題の０．数秒オーダに基づく単位時間が採用される。

このように、制御対象を制御するエージェントの行動の中で、環境へ反映されるまでの時間が１ステップよりも長いものが存在する場合、エージェントが行動に対する環境の変化を認識可能とするためには、複数ステップに渡り同じ行動を出力する必要がある。しかしながら、同じ行動を出力している間、類似した学習データ（行動、状態、報酬の組）によって学習が行われるため、学習効率が低くなるという問題がある。

そこで、本開示は、強化学習を効率よく実行することができる学習システム、学習方法、学習プログラム及び自律制御装置を提供することを課題とする。

本開示の学習システムは、制御対象を制御するエージェントを強化学習させるための処理部を備える学習システムにおいて、前記処理部は、所定の状態にある前記エージェントが、所定の環境下において所定の行動を実行することにより得られる報酬に基づいて、方策を更新するまでのステップを、評価ステップとして繰り返し実行しており、前記評価ステップの更新は、前記エージェントが所定の行動を実行したときに前記制御対象が第１の環境状態から予め規定された第２の環境状態に遷移することをイベントとするイベントドリブンで規定されている。

本開示の学習方法は、制御対象を制御するエージェントを強化学習させる学習システムにおいて実行される学習方法であって、前記学習システムに、所定の状態にある前記エージェントが、所定の環境下において所定の行動を実行することにより得られる報酬に基づいて、方策を更新するまでのステップを、評価ステップとして繰り返し実行させており、前記評価ステップの更新は、前記エージェントが所定の行動を実行したときに前記制御対象が第１の環境状態から予め規定された第２の環境状態に遷移することをイベントとするイベントドリブンで規定されている。

本開示の学習プログラムは、制御対象を制御するエージェントを強化学習させる学習システムにおいて実行される学習プログラムであって、前記学習システムに、所定の状態にある前記エージェントが、所定の環境下において所定の行動を実行することにより得られる報酬に基づいて、方策を更新するまでのステップを、評価ステップとして繰り返し実行させており、前記評価ステップの更新は、前記エージェントが所定の行動を実行したときに前記制御対象が第１の環境状態から予め規定された第２の環境状態に遷移することをイベントとするイベントドリブンで規定されている。

本開示の自律制御装置は、学習後の方策に基づいてエージェントが制御対象を制御する制御部を備える自律制御装置であって、前記制御部は、前記制御対象の環境状態に基づいて、前記エージェントが前記方策から所定の行動を選択して出力するまでのステップを、実行ステップとして繰り返し実行しており、前記実行ステップの更新は、前記エージェントが所定の行動を実行したときに前記制御対象が第１の環境状態から予め規定された第２の環境状態に遷移することをイベントとするイベントドリブンで規定されている。

本開示によれば、強化学習を効率よく実行することができる。

図１は、本実施形態に係る学習システムを模式的に表した図である。図２は、本実施形態に係る学習方法に関するフローを示す図である。図３は、本実施形態に係る自律制御装置を模式的に表した図である。図４は、本実施形態に係る自律制御に関するフローを示す図である。

以下に、本開示に係る実施形態を図面に基づいて詳細に説明する。なお、この実施形態によりこの開示が限定されるものではない。また、下記実施形態における構成要素には、当業者が置換可能かつ容易なもの、あるいは実質的に同一のものが含まれる。さらに、以下に記載した構成要素は適宜組み合わせることが可能であり、また、実施形態が複数ある場合には、各実施形態を組み合わせることも可能である。

［本実施形態］
本実施形態に係る学習システム１は、制御対象を制御するエージェントＡを強化学習するシステムとなっている。制御対象としては、例えば、無人航空機または蒸気タービンプラントであり、特に限定されない。なお、以下の説明では、制御対象として、無人航空機に適用した場合について説明する。

図１は、本実施形態に係る学習システムを模式的に表した図である。図２は、本実施形態に係る学習方法に関するフローを示す図である。

（学習システム）
学習システム１は、例えば、コンピュータを用いて構成され、仮想空間となる環境下において、制御対象を制御するエージェントＡの強化学習を実行する。制御対象としては、例えば、無人航空機、または蒸気タービンプラントであり、特に限定されない。また、学習システム１において、制御対象は、制御対象モデル２０としてモデル化されており、その動作が仮想空間内でシミュレートされる。なお、以下では、制御対象として無人航空機に適用して説明する。エージェントＡは、例えば、人工知能（ＡＩ：Artificial Intelligence）である。制御対象が無人航空機である場合、エージェントＡは、ＡＩパイロットとなる。

図１に示すように、学習システム１は、処理部１０と、記憶部１１とを備える。学習システム１は、単一の装置で構成されていてもよいし、複数の装置からなるシステムとして構成されていてもよく、特に限定されない。

処理部１０は、例えば、ＣＰＵ（Central Processing Unit）等の集積回路を含んでいる。処理部１０は、学習部２１と、環境部２２とを有し、仮想空間における制御対象モデル２０の動作をシミュレートしている。処理部１０は、学習部２１からエージェントＡの行動（アクション）Ａｔを制御対象モデル２０へ向けて出力する。処理部１０は、行動Ａｔに基づく制御対象モデル２０の動作をシミュレートして、制御対象モデル２０の動作結果となる環境情報を、制御対象モデル２０から環境部２２へ出力させる。環境情報は、例えば、制御対象モデル２０に設けられる各種センサから出力されるセンサ情報である。処理部１０は、環境情報を環境部２２へ入力させ、環境情報に基づいて算出される状態（ステート）Ｓｔ及び報酬（リワード）Ｒｔを、環境部２２から学習部２１へ出力させる。処理部１０は、状態Ｓｔ及び報酬Ｒｔを学習部２１へ入力させ、報酬Ｒｔに基づく学習を学習部２１に実行させると共に、状態Ｓｔに基づく行動Ａｔを、学習部２１から制御対象モデル２０へ出力させる。

学習部２１は、エージェントＡが意思決定を行う方策πを学習して更新する処理を実行する。方策πは、所定の状態Ｓｔに基づきエージェントＡの所定の行動Ａｔを決定するための意思決定を行う意思決定モデルである。学習部２１は、行動決定部３１と、方策更新部３２と、行動出力部３３と、を含む。行動決定部３１は、環境部２２から入力される状態Ｓｔに基づいて、方策πから行動Ａｔを決定している。方策更新部３２は、環境部２２から付与される報酬（リワード）Ｒｔに基づく学習を実行して方策πを評価ステップごとに更新する。なお、更新された方策πは、記憶部１１に記憶される。行動出力部３３は、行動決定部３１により決定した行動Ａｔに基づいて、制御対象モデル２０に入力される制御入力を算出し、算出した制御入力を制御対象モデル２０へ向けて出力する。

環境部２２は、エージェントＡ及び制御対象モデル２０に対して環境を提供する。環境部２２は、状態遷移判定部３４と、報酬付与部３５と、状態取得部３６と、を含む。報酬付与部３５は、エージェントＡの行動Ａｔ及び制御対象モデル２０の環境情報に基づいて、エージェントＡに付与する報酬Ｒｔを算出する。状態取得部３６は、制御対象モデル２０から入力される環境情報に基づいて、エージェントＡに入力する状態Ｓｔを算出する。状態遷移判定部３４は、学習部２１が方策πを更新するまでのステップである評価ステップを１ステップ進めるか否かを判定する。つまり、状態遷移判定部３４は、状態Ｓｔ及び報酬Ｒｔを、状態Ｓｔ＋１及び報酬Ｒｔ＋１へ進めている。

ここで、状態遷移判定部３４について説明する。状態遷移判定部３４は、評価ステップを１ステップ進める更新を、イベントドリブンとして規定している。すなわち、エージェントＡが所定の行動Ａｔを実行したときに制御対象モデル２０が第１の環境状態から予め規定された第２の環境状態に遷移することをイベントとし、評価ステップを１ステップ進めるまでの更新間隔をイベントが発生するまでの期間とするイベントドリブンとして規定している。イベントとしては、例えば、制御対象モデル２０が無人航空機である場合において、エージェントＡが右旋回の方位角度の変位が５［ｄｅｇ］となるように所定の行動Ａｔを実行した場合において、制御対象モデル２０となる無人航空機が、右旋回前の初期位置（第１の環境状態）から、右旋回の方位角度の変位が５［ｄｅｇ］（第２の環境状態）となることである。イベントドリブンは、上記のイベントに限らず、制御対象モデル２０が実行するイベントに応じて、適宜設定されている。

また、状態遷移判定部３４は、タイムアウト時間を予め設定している。状態遷移判定部３４は、イベントが発生するまでの期間がタイムアウト時間を超えた場合、方策πを更新する。タイムアウト時間は、イベントに応じて適宜設定されている。また、タイムアウト時間は、制御対象モデル２０の環境条件及び動作条件等に応じて変化させてもよい。例えば、制御対象モデル２０となる無人航空機を、５［ｄｅｇ］右旋回させる場合、高度が高いほど、タイムアウト時間が長くなるように設定してもよい。

記憶部１１は、半導体記憶デバイス及び磁気記憶デバイス等の任意の記憶デバイスである。記憶部１２は、各種プログラム及び各種データを記憶している。記憶部１１は、各種プログラムとして、エージェントＡの強化学習を行う学習プログラムＰが記憶されている。また、記憶部１２は、各種データとして、方策πを記憶する。記憶される方策πは、学習が更新される度に記憶される。また、各種データとしては、設定されるイベントドリブン及びタイムアウト時間を記憶していてもよい。

（学習方法）
次に、図２を参照して、学習システム１が学習プログラムＰを実行することで行われる学習方法について説明する。学習方法では、先ず、処理部１０が、強化学習における各種設定を初期化する（ステップＳ１）。ステップＳ１では、例えば、評価ステップを初期値としたり、環境下において経過する環境時間（シミュレート時間）を初期化したりする。

続いて、学習方法では、処理部１０の学習部２１が、初期化された環境部２２から状態Ｓｔを取得する（ステップＳ２）。続いて、学習方法では、学習部２１が状態Ｓｔに基づいて、方策πから行動Ａｔを選択し、制御対象モデル２０へ出力する（ステップＳ３）。処理部１０は、行動Ａｔに基づいて制御対象モデル２０の動作を、シミュレート時間の単位時間分だけ進める（ステップＳ４）。この後、環境部２２の状態遷移判定部３４は、行動Ａｔに対応する制御対象モデル２０の環境状態が変位分だけ発生したか、すなわち、イベントが発生したか否かを判定する（ステップＳ５）。状態遷移判定部３４は、行動Ａｔに対応する変位が発生したと判定すると（ステップＳ５：Ｙｅｓ）と、評価ステップを１ステップ進める。これを受けて状態取得部３６は、行動Ａｔに基づいて制御対象モデル２０から出力された環境情報から、状態Ｓｔ＋１を算出し、状態Ｓｔ＋１を学習部２１へ出力すると共に、報酬付与部３５は、行動Ａｔに対する報酬Ｒｔ＋１を算出して、学習部２１へ出力する（ステップＳ７）。

一方で、状態遷移判定部３４は、行動Ａｔに対応する変位が発生していないと判定すると（ステップＳ５：Ｎｏ）と、タイムアウト時間を経過したか否かを判定する（ステップＳ６）。具体的に、ステップＳ６では、状態遷移判定部３４が、環境下におけるシミュレート時間がタイムアウト時間よりも大きくなったか否かに基づいて、タイムアウト時間の経過を判定している。状態遷移判定部３４は、タイムアウト時間を経過したと判定する（ステップＳ６：Ｙｅｓ）と、ステップＳ７を実行する。一方で、状態遷移判定部３４は、タイムアウト時間を経過していないと判定する（ステップＳ６：Ｎｏ）と、ステップＳ４に進んで再度実行する。

ステップＳ７の実行後、学習部２１は、行動Ａｔ、環境部２２から取得した状態Ｓｔ、状態Ｓｔ＋１、報酬（リワード）Ｒｔ＋１に基づく学習を実行して方策πを更新する（ステップＳ８）。この後、処理部１０は、学習を終了するか否かを判定し（ステップＳ９）、学習を終了すると判定する（ステップＳ９：Ｙｅｓ）ことで、エージェントＡの強化学習を終了する。一方で、処理部１０は、学習を終了しないと判定する（ステップＳ９：Ｎｏ）と、ステップＳ２に進み、ステップＳ７で算出した状態Ｓｔ＋１を新たな評価ステップの状態ＳｔとしてステップＳ２からステップＳ９を、学習が終了するまで評価ステップを進めながら繰り返し実行する。

（自律制御装置）
次に、図３及び図４を参照して、自律制御装置について説明する。図３は、本実施形態に係る自律制御装置を模式的に表した図である。図４は、本実施形態に係る自律制御に関するフローを示す図である。

本実施形態に係る自律制御装置５０は、学習システム１により学習した方策πを用いて、制御部５１が制御対象４０を制御する装置となっている。また、制御対象４０は、現実空間で動作する実物となっている。

図３に示すように、自律制御装置５０は、制御部５１と、記憶部５２とを備える。制御部５１は、処理部１０と同様に、ＣＰＵ（Central Processing Unit）等の集積回路を含んでいる。制御部５１は、推論部５５と、環境部５６とを有し、現実空間における制御対象４０の動作を制御している。制御部５１は、推論部５５からエージェントＡの行動Ａｔに基づく制御出力を、制御対象４０へ向けて出力する。制御対象４０は、制御出力に基づく動作を実行して、動作結果となる環境情報を制御部５１の環境部５６に出力する。環境部５６は、環境情報に基づいて算出される状態Ｓｔを、環境部５６から推論部５５に出力する。推論部５５は、状態Ｓｔに基づいて方策πから行動Ａｔを決定し、決定した行動Ａｔに基づく制御出力を、制御対象４０へ向けて出力する。制御部５１は、推論部５５から制御出力を制御対象４０へ出力して、環境部５６から状態Ｓｔが出力されるまでのステップを実行ステップとして繰り返し実行する。

推論部５５は、学習システム１において学習済みの方策πを用いて、状態Ｓｔに基づく行動Ａｔを実行する。推論部５５は、行動決定部６１と、行動出力部６３と、を含む。なお、行動決定部６１及び行動出力部６３は、学習システム１の行動決定部３１及び行動出力部３３と同様であるため、説明を省略する。推論部５５は、行動決定部６１が、環境部５６から入力される状態Ｓｔに基づいて、方策πから行動Ａｔを決定し、行動出力部６３が、行動決定部６１により決定した行動Ａｔに基づいて、制御対象４０に入力される制御出力を算出し、算出した制御出力を制御対象４０へ向けて出力する。

環境部５６は、エージェントＡに対して環境を提供する。環境部５６は、状態遷移判定部６４と、状態取得部６６と、を含む。なお、状態遷移判定部６４及び状態取得部６６は、学習システム１の状態遷移判定部３４及び状態取得部３６と同様であるため、説明を省略する。なお、学習システム１の状態遷移判定部３４は、状態Ｓｔ＋１及び報酬Ｒｔ＋１を算出していたが、自律制御装置５０の状態遷移判定部６４は、状態Ｓｔ＋１及び報酬Ｒｔ＋１を算出する一方で、算出した状態Ｓｔ＋１及び報酬Ｒｔ＋１を方策πの更新に用いない処理としてもよいし、状態Ｓｔ＋１及び報酬Ｒｔ＋１を算出しない処理としてもよく、何れの処理であってもよい。環境部５６は、状態遷移判定部６４が、制御対象４０から取得した環境情報に基づいてイベントが発生したか否かを判定し、状態取得部６６が、制御対象４０から取得した環境情報に基づいて、エージェントＡに入力する状態Ｓｔを算出する。

次に、図４を参照して、自律制御装置５０によって実行される制御対象４０の自律制御方法について説明する。自律制御方法では、先ず、制御部５１が、自律制御における各種設定を初期化する（ステップＳ１１）。ステップＳ１１では、例えば、実行ステップを初期値とする。

続いて、自律制御方法では、制御部５１の推論部５５が、初期化された環境部５６から状態Ｓｔを取得する（ステップＳ１２）。続いて、自律制御方法では、推論部５５が状態Ｓｔに基づいて、方策πから行動Ａｔを選択し、選択した行動Ａｔに基づく制御出力を制御対象４０へ出力する（ステップＳ１３）。制御対象４０は、制御出力に基づく動作を実行し、制御部５１は、行動Ａｔを選択してから経過した経過時間をカウントする（ステップＳ１４）。この後、環境部５６の状態遷移判定部６４は、行動Ａｔに対応する制御対象４０の環境状態が変位分だけ発生したか、すなわち、イベントが発生したか否かを判定する（ステップＳ１５）。状態遷移判定部６４は、行動Ａｔに対応する変位が発生したと判定すると（ステップＳ１５：Ｙｅｓ）と、状態取得部３６は、行動Ａｔに基づいて制御対象４０から出力された環境情報から、状態Ｓｔを算出し、状態Ｓｔを推論部５５へ出力する（ステップＳ１７）。

一方で、状態遷移判定部６４は、行動Ａｔに対応する変位が発生していないと判定すると（ステップＳ１５：Ｎｏ）と、タイムアウト時間を経過したか否かを判定する（ステップＳ１６）。具体的に、ステップＳ１６では、状態遷移判定部６４が、行動Ａｔを選択してから経過した経過時間が、タイムアウト時間よりも大きくなったか否かに基づいて、タイムアウト時間の経過を判定している。状態遷移判定部６４は、タイムアウト時間を経過したと判定する（ステップＳ１６：Ｙｅｓ）と、ステップＳ１７を実行する。一方で、状態遷移判定部６４は、タイムアウト時間を経過していないと判定する（ステップＳ１６：Ｎｏ）と、ステップＳ１４に進んで再度実行する。

ステップＳ１７の実行後、制御部５１は、自律制御を終了するか否かを判定し（ステップＳ１８）、自律制御を終了すると判定する（ステップＳ１８：Ｙｅｓ）ことで、エージェントＡによる制御対象４０の自律制御を終了する。一方で、制御部５１は、自律制御を終了しないと判定する（ステップＳ１８：Ｎｏ）と、ステップＳ１３に進み、ステップＳ１３からステップＳ１８を、自律制御が終了するまで繰り返し実行する。

なお、自律制御装置５０では、状態遷移判定部６４を用いてイベントの発生を判定したが、状態遷移判定部６４を省いた構成であってもよい。つまり、イベントの発生を判定せずに、所定の単位時間ごとに状態Ｓｔ及び行動Ａｔの更新を行ってもよい。

以上のように、本実施形態に記載の学習システム１、学習方法、学習プログラムＰ及び自律制御装置５０は、例えば、以下のように把握される。

第１の態様に係る学習システム１は、制御対象モデル２０を制御するエージェントＡを強化学習させるための処理部１０を備える学習システム１において、前記処理部１０は、所定の状態Ｓｔにある前記エージェントＡが、所定の環境下において所定の行動Ａｔを実行することにより得られる報酬Ｒｔに基づいて、方策πを更新するまでのステップを、評価ステップとして繰り返し実行しており、前記評価ステップの更新は、前記エージェントＡが所定の行動Ａｔを実行したときに前記制御対象（制御対象モデル２０）が第１の環境状態から予め規定された第２の環境状態に遷移することをイベントとするイベントドリブンで規定されている。

この構成によれば、イベントの発生毎に評価ステップを更新することができる。このため、類似した学習データによる強化学習を低減し、更新頻度を低下させることができることから、学習効率を向上させることができる。

第２の態様として、前記評価ステップの更新は、予め規定されたタイムアウト時間が設定されており、前記処理部１０は、前記イベントが前記タイムアウト時間を超えた場合、前記方策πを更新する。

この構成によれば、イベントが発生するまでの時間が長かったり、イベントが発生しなかったりする場合であっても、評価ステップを更新することができる。

第３の態様に係る学習方法は、制御対象モデル２０を制御するエージェントＡを強化学習させる学習システム１において実行される学習方法であって、前記学習システム１に、所定の状態Ｓｔにある前記エージェントが、所定の環境下において所定の行動Ａｔを実行することにより得られる報酬Ｒｔに基づいて、方策πを更新するまでのステップを、評価ステップとして繰り返し実行させており、前記評価ステップの更新は、前記エージェントＡが所定の行動を実行したときに前記制御対象が第１の環境状態から予め規定された第２の環境状態に遷移することをイベントとするイベントドリブンで規定されている。

第４の態様に係る学習プログラムＰは、制御対象モデル２０を制御するエージェントＡを強化学習させる学習システム１において実行される学習プログラムＰであって、前記学習システム１に、所定の状態にある前記エージェントＡが、所定の環境下において所定の行動Ａｔを実行することにより得られる報酬Ｒｔに基づいて、方策πを更新するまでのステップを、評価ステップとして繰り返し実行させており、前記評価ステップの更新は、前記エージェントＡが所定の行動Ａｔを実行したときに前記制御対象が第１の環境状態から予め規定された第２の環境状態に遷移することをイベントとするイベントドリブンで規定されている。

第５の態様に係る自律制御装置５０は、学習後の方策πに基づいてエージェントＡが制御対象４０を制御する制御部５１を備える自律制御装置５０であって、前記制御部５１は、前記制御対象４０の環境状態に基づいて、前記エージェントＡが前記方策πから所定の行動Ａｔを選択して出力するまでのステップを、実行ステップとして繰り返し実行しており、前記実行ステップの更新は、前記エージェントＡが所定の行動Ａｔを実行したときに前記制御対象４０の第１の環境状態から予め規定された第２の環境状態に遷移することをイベントとするイベントドリブンで規定されている。

この構成によれば、イベントの発生毎に実行ステップを更新することができる。このため、実行ステップの更新頻度を低下させることができることから、制御負荷を軽減することができる。

１学習システム
１０処理部
１１記憶部
２０制御対象モデル
２１学習部
２２環境部
３１行動決定部
３２方策更新部
３３行動出力部
３４状態遷移判定部
３５報酬付与部
３６状態取得部
４０制御対象
５０自律制御装置
５１制御部
５２記憶部
５５推論部
５６環境部
６１行動決定部
６３行動出力部
６４状態遷移判定部
６６状態取得部
Ａエージェント
π 方策

Claims

制御対象を制御するエージェントを強化学習させるための処理部を備える学習システムにおいて、
前記処理部は、
所定の状態にある前記エージェントが、所定の環境下において所定の行動を実行することにより得られる報酬に基づいて、方策を更新するまでのステップを、評価ステップとして繰り返し実行しており、
前記評価ステップの更新は、前記エージェントが所定の行動を実行したときに前記制御対象が第１の環境状態から予め規定された第２の環境状態に遷移することをイベントとするイベントドリブンで規定されている学習システム。
前記評価ステップの更新は、予め規定されたタイムアウト時間が設定されており、
前記処理部は、前記イベントが前記タイムアウト時間を超えた場合、前記方策を更新する請求項１に記載の学習システム。
制御対象を制御するエージェントを強化学習させる学習システムにおいて実行される学習方法であって、
前記学習システムに、
所定の状態にある前記エージェントが、所定の環境下において所定の行動を実行することにより得られる報酬に基づいて、方策を更新するまでのステップを、評価ステップとして繰り返し実行させており、
前記評価ステップの更新は、前記エージェントが所定の行動を実行したときに前記制御対象が第１の環境状態から予め規定された第２の環境状態に遷移することをイベントとするイベントドリブンで規定されている学習方法。
制御対象を制御するエージェントを強化学習させる学習システムにおいて実行される学習プログラムであって、
前記学習システムに、
所定の状態にある前記エージェントが、所定の環境下において所定の行動を実行することにより得られる報酬に基づいて、方策を更新するまでのステップを、評価ステップとして繰り返し実行させており、
前記評価ステップの更新は、前記エージェントが所定の行動を実行したときに前記制御対象が第１の環境状態から予め規定された第２の環境状態に遷移することをイベントとするイベントドリブンで規定されている学習プログラム。
学習後の方策に基づいてエージェントが制御対象を制御する制御部を備える自律制御装置であって、
前記制御部は、
前記制御対象の環境状態に基づいて、前記エージェントが前記方策から所定の行動を選択して出力するまでのステップを、実行ステップとして繰り返し実行しており、
前記実行ステップの更新は、前記エージェントが所定の行動を実行したときに前記制御対象が第１の環境状態から予め規定された第２の環境状態に遷移することをイベントとするイベントドリブンで規定されている自律制御装置。