JP2023165310A

JP2023165310A - 学習装置、学習方法及び学習プログラム

Info

Publication number: JP2023165310A
Application number: JP2022076198A
Authority: JP
Inventors: 裕次郎片岡; Yujiro Kataoka; 雅幸伊藤; Masayuki Ito; 夏樹松波; Natsuki Matsunami
Original assignee: Mitsubishi Heavy Industries Ltd
Current assignee: Mitsubishi Heavy Industries Ltd
Priority date: 2022-05-02
Filing date: 2022-05-02
Publication date: 2023-11-15
Also published as: WO2023214585A1

Abstract

【課題】学習中の学習モデルの中から性能が良い学習モデルを適切に選定することができる学習装置、学習方法及び学習プログラムを提供する。【解決手段】エージェントの学習モデルを学習させるための学習装置１０であって、学習部は、エージェントが所定の環境において付与される報酬が最大となるように学習モデルを学習させる強化学習部と、学習モデルの第１指標値と第２指標値とを算出する評価指標値算出部と、学習ステップ数が所定以上の学習モデルを学習済みモデルとして抽出するモデル抽出部と、を備える。モデル抽出部は、学習済みモデルのうち、第１指標値と第２指標値との各々が所定の条件を満たす学習済みモデルを、評価対象の学習済みモデルとして選定する。【選択図】図２

Description

本開示は、学習装置、学習方法及び学習プログラムに関する。

機械学習において、複数の機械学習モデルの中から予測精度の高い機械学習モデルを抽出する技術が知られている。例えば、特許文献１には、複数の学習モデルから、より高精度な学習モデルを、コンピュータの資源への負荷を低減しつつ、高速で自動的に抽出する技術が記載されている。

特許第６８０１１４９号公報

強化学習において、報酬が疎である問題や、高次元の状態を有する問題では、学習が安定しないため、学習の経過に伴い性能が良いモデルに収束するとは限らない。報酬が疎である問題は、学習を促すため設計者の経験則に基づき密な報酬を設計する必要があり報酬によっては、本来達成すべきことよりも報酬を獲得することを学習してしまうことがある。この場合、学習モデルは、獲得報酬は高いが性能が低いモデルに収束する可能性がある。一方で、収束には至らない、もしくは意図しないモデルに収束した場合でも、学習の過程で一時的に性能の良いモデルを得ることはあり得る。細目に学習中のモデルを評価する場合、学習中に学習処理を一時的に停止し、テストデータを用いて、汎化性能を確認する必要がある。そのため、膨大な計算時間を伴うと共に多くのコンピュータ資源を占有してしまうという課題がある。

そこで、本開示は、学習中の学習モデルの中から性能が良い学習モデルを適切に選定することのできる学習装置、学習方法及び学習プログラムを提供することを課題とする。

本開示の学習装置は、エージェントの学習モデルを学習させるための学習装置であって、前記エージェントが所定の環境において付与される報酬が最大となるように前記学習モデルを学習させる強化学習部と、前記学習モデルの第１指標値と第２指標値とを算出する評価指標値算出部と、学習ステップ数が所定以上の前記学習モデルを学習済みモデルとして抽出するモデル抽出部と、を備え、前記モデル抽出部は、前記学習済みモデルのうち、前記第１指標値と前記第２指標値との各々が所定の条件を満たす前記学習済みモデルを、評価対象の前記学習済みモデルとして選定する。

本開示の学習方法は、エージェントの学習モデルを、学習装置を用いて学習させるための学習方法であって、前記エージェントが所定の環境において付与される報酬が最大となるように前記学習モデルを学習させるステップと、前記学習モデルの第１指標値と第２指標値とを算出するステップと、学習ステップ数が所定以上の前記学習モデルを学習済みモデルとして抽出するステップと、前記学習済みモデルのうち、前記第１指標値と前記第２指標値との各々が所定の条件を満たす前記学習済みモデルを、評価対象の前記学習済みモデルとして選定するステップと、を含む。

本開示の学習プログラムは、エージェントの学習モデルを、学習装置を用いて学習させるための学習プログラムであって、前記エージェントが所定の環境において付与される報酬が最大となるように前記学習モデルを学習させるステップと、前記学習モデルの第１指標値と第２指標値とを算出するステップと、学習ステップ数が所定以上の前記学習モデルを学習済みモデルとして抽出するステップと、前記学習済みモデルのうち、前記第１指標値と前記第２指標値との各々が所定の条件を満たす前記学習済みモデルを、評価対象の前記学習済みモデルとして選定するステップと、を前記学習装置に実行させる。

本開示によれば、学習中の学習モデルの中から性能が良い学習モデルを適切に選定することができる。

図１は、本実施形態に係る学習モデルを用いた学習に関する説明図である。図２は、実施形態に係る学習装置の構成例を示すブロック図である。図３は、比較例を説明するための図である。図４は、実施形態に係る学習済みモデル抽出処理の一例を示すフローチャートである。図５は、実施形態に係る学習済みモデルを選定する方法を説明するための図である。

以下に、本発明に係る実施形態を図面に基づいて詳細に説明する。なお、この実施形態によりこの発明が限定されるものではない。また、下記実施形態における構成要素には、当業者が置換可能かつ容易なもの、あるいは実質的に同一のものが含まれる。さらに、以下に記載した構成要素は適宜組み合わせることが可能であり、また、実施形態が複数ある場合には、各実施形態を組み合わせることも可能である。

［実施形態］
本実施形態に係る学習装置１０及び学習方法は、ハイパーパラメータを含む学習モデルを学習させる装置及び方法となっている。図１は、本実施形態に係る学習モデルを用いた学習に関する説明図である。図２は、実施形態に係る学習装置の構成例を示すブロック図である。

（学習モデルを用いた学習）
先ず、図１を参照して、学習モデルＭを用いた学習について説明する。学習モデルＭは、行動（アクション）Ａｔを実行するエージェント２に搭載される。エージェント２となる対象としては、例えば、ロボット、車両、船舶または航空機等の動作を実行可能な機械が適用される。エージェント２は、学習モデルＭを用いて、所定の環境４下において所定の行動Ａｔを実行する。

図１に示すように、学習モデルＭは、複数のノードを有するニューラルネットワークとなっている。ニューラルネットワークは、複数のノードを結合したネットワークとなっており、複数の階層を有すると共に、各階層に複数のノードが設けられている。ニューラルネットワークのパラメータとしては、ノード間の重み及びバイアスがある。また、ニューラルネットワークのパラメータとしては、階層の層数、ノード数及び学習率等のハイパーパラメータがある。本実施形態では、学習モデルＭのノード間の重み及びバイアスを学習している。

次に、学習モデルＭを用いた学習について説明する。学習としては、模倣学習と強化学習とがある。模倣学習は、教師あり学習であり、エージェント２が所定の環境４下において、所定の状態Ｓｔが入力された場合に、所定の行動Ａｔを実行するように、学習モデルＭのハイパーパラメータを学習している。強化学習は、教師なし学習であり、エージェント２が所定の環境４下において付与される報酬（リワード）Ｒｔが最大となるように、学習モデルＭのノード間の重み及びバイアスを学習している。

強化学習では、エージェント２が、環境４から状態Ｓｔを取得し、また、環境４から報酬Ｒｔを取得する。すると、エージェント２は、取得した状態Ｓｔ及び報酬Ｒｔに基づいて、学習モデルＭから行動Ａｔを選択する。エージェント２が選択した行動Ａｔを実行すると、環境４においてエージェント２の状態Ｓｔが、状態Ｓｔ＋１に遷移する。また、エージェント２には、実行した行動Ａｔ、遷移前の状態Ｓｔ及び遷移後の状態Ｓｔ＋１に基づく報酬Ｒｔ＋１が付与される。そして、強化学習では、エージェント２に付与される報酬Ｒｔが最大となるように、上記の学習を評価可能な所定のステップ数分だけ繰り返す。

学習装置１０は、対称性環境および非対称性環境を問わず、競争的環境の強化学習におけるエージェントの行動の強化学習を実行する。学習装置１０は、強化学習を試みる問題において、学習中に得られる評価指標（累積報酬、積算勝率等）を用いて予め性能が良いと思われる学習中モデルを抽出し、学習後に学習中に抽出したモデルのみ評価を行う。

（比較例）
本実施形態を説明する前に、本実施形態の比較例について説明する。図３は、比較例を説明するための図である。

図３は、強化学習の実行結果の一例を示すグラフである。図３において、横軸はステップ数を示し、縦軸は累積報酬を示す。

比較例に係る技術では、例えば、図３に示すようにグラフＧ１に基づいて、どのステップの学習済みモデルの性能が高いかを推定して、一定のステップ間隔で学習済みモデルを抽出する。そして、比較例に係る技術では、抽出した学習済みモデルと、評価基準となる対戦相手と複数回の対戦を行い、例えば、対戦相手との勝率で学習済みモデルの性能を評価する。

比較例に係る技術は、学習済みモデルが、「獲得報酬は高いが性能が低いモデル」に収束する可能性がある。そのため、比較例に係る評価では、図３に示すとおり、例えば、範囲Ｒ１内の累積報酬が比較的高い区間において、学習中に学習処理を一時的に停止し、テストデータを用いて、汎化性能を確認する必要がある。このため、比較例に係る技術は、膨大な計算時間を伴うと共に多くのコンピュータ資源を占有してしまう。また、比較例に係る技術では、学習の過程で一時的に性能の良いモデルが得られていたとしても評価せずに破棄されてしまっている。

（学習装置）
図２に戻る。図２に示すように、学習装置１０は、環境部１２と、記憶部１４と、制御部１６と、を備える。

環境部１２は、学習済みモデルに対して強化学習を実行するための環境を提供する。環境部１２は、運動モデル２０と、対戦モデル２２と、環境モデル２４と、報酬モデル２６とを有する。環境部１２は、運動モデル２０と、対戦モデル２２と、環境モデル２４と、報酬モデル２６とに基づいて、強化学習を実行するための環境を提供する。具体的には、環境部１２は、学習済みモデルに対して報酬を付与したり、行動によって遷移する学習済みモデルの状態を導出したりする。

記憶部１４は、各種の情報を記憶するメモリである。記憶部１４は、例えば、制御部１６の演算内容、およびプログラムなどの情報を記憶する。記憶部１４は、例えば、ＲＡＭ（Random Access Memory）と、ＲＯＭ（Read Only Memory）のような主記憶装置、ＨＤＤ（Hard Disk Drive）などの外部記憶装置とのうち、少なくとも１つ含む。記憶部１４は、強化学習モデル３０を記憶している。

強化学習モデル３０は、強化学習における複数の学習済みモデルを含む。強化学習モデル３０は、例えば、学習ステップごとに学習された複数の学習済みモデルを記憶する。

制御部１６は、学習装置１０の各部の動作を制御する。制御部１６は、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、記憶部１４などに記憶されたプログラムがＲＡＭ等を作業領域として実行されることにより実現される。制御部１６は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現されてもよい。制御部１６は、ハードウェアと、ソフトウェアとの組み合わせで実現されてもよい。

制御部１６は、設定部４０と、学習部４２と、を備える。

設定部４０は、機械学習を実行するための各種の条件を設定する。設定部４０は、例えば、行動判断モデル(状態および行動)、報酬関数、深層強化学習アルゴリズム、モデルの粒度、ハイパーパラメータなどを設定する。

学習部４２は、学習モデルの学習を実行する。学習部４２は、強化学習部５０と、評価指標値算出部５２と、モデル抽出部５４と、を備える。

強化学習部５０は、環境部１２から付与される報酬に基づいて学習を実行する。強化学習部５０の詳細は、後述する。

評価指標値算出部５２は、学習済みモデルの性能を評価するための評価指標値を算出する。具体的には、評価指標値算出部５２は、学習済みモデルの性能を評価するための第１評価指標値と、第１評価指標値とは異なる第２評価指標値との２つの評価指標値を算出する。評価指標値算出部５２は、３つ以上の評価指標値を算出してもよい。評価指標値算出部５２の詳細は、後述する。

モデル抽出部５４は、複数の学習済みモデルのうち、所定の条件を満たす学習済みモデルを抽出する。モデル抽出部５４は、例えば、評価指標値算出部５２が算出した評価指標値に基づいて、学習済みモデルを抽出する。モデル抽出部５４の詳細は、後述する。

（学習済みモデル抽出処理）
図４を用いて、実施形態に係る学習済みモデル抽出処理について説明する。図４は、実施形態に係る学習済みモデル抽出処理の一例を示すフローチャートである。

設定部４０は、強化学習を実行するためにハイパーパラメータを設定する（ステップＳ１０）。そして、ステップＳ１２に進む。本実施形態では、設定するハイパーパラメータは、予め適切な値が検討済みであるものとする。

強化学習部５０は、強化学習を実行する（ステップＳ１２）。具体的には、強化学習部は、例えば、学習済みモデルに付与される報酬が最大化するように学習を実行する。そして、ステップＳ１４に進む。

評価指標値算出部５２は、評価指標値を算出する（ステップＳ１４）。具体的には、評価指標値算出部５２は、累積報酬の値と、積算勝率の値とを評価指標値として算出する。そして、ステップＳ１６に進む。

強化学習部５０は、強化学習を実行したステップ数が所定ステップ数以上であるか否かを判定する（ステップＳ１６）。所定ステップ数は、扱う問題などに応じて任意に設定してよい。ステップ数が所定ステップ数以上であると判定された場合（ステップＳ１６；Ｙｅｓ）、ステップＳ１８に進む。ステップ数が所定ステップ数以上でないと判定された場合（ステップＳ１６；Ｎｏ）、ステップＳ１２に進む。すなわち、本実施形態では、所定ステップ数に到達するまでは、強化学習と、評価指標値の算出の処理を繰り返す。

ステップＳ１６でＹｅｓと判定された場合、モデル抽出部５４は、学習済みモデルを抽出する（ステップＳ１８）。具体的には、モデル抽出部５４は、所定ステップ数以上に強化学習を実行した、学習済みモデルを全て抽出する。そして、ステップＳ２０に進む。

強化学習部５０は、強化学習を実行したステップ数が最大ステップ数に到達したか否かを判定する（ステップＳ２０）。最大ステップ数は、扱う問題などに応じて任意に設定してよい。ステップ数が最大ステップ数に到達したと判定された場合（ステップＳ２０；Ｙｅｓ）、ステップＳ２２に進む。ステップ数が最大ステップ数に到達したと判定されない場合（ステップＳ２０；Ｎｏ）、ステップＳ１８に進む。

ステップＳ２０でＹｅｓと判定された場合、モデル抽出部５４は、学習済みモデルを選定する（ステップＳ２２）。具体的には、モデル抽出部５４は、累積報酬の値と、積算勝率の値との両方が所定の条件を満たす学習済みモデルを抽出する。図５は、実施形態に係る学習済みモデルを選定する方法を説明するための図である。図５の上の図は、横軸が学習ステップ数、縦軸が累積報酬を示すグラフである。図５の下の図は、横軸が学習ステップ数、縦軸が積算勝率を示すグラフである。図５において、グラフＧ１と、グラフＧ２とに示すように、範囲Ｒ１１は、学習ステップ数に対する積算勝率の傾きが正であり、かつ微分値が所定以上の範囲を示す。グラフＧ１と、グラフＧ２とに示すように、範囲Ｒ１２は、学習ステップ数に対する積算勝率の傾きが正であり、かつ微分値が所定以上の範囲を示し、累積報酬の値が所定以上の範囲を示す。この場合、モデル抽出部５４は、範囲Ｒ１２の学習済みモデルを、評価対象の学習済みモデルとして選定する、モデル抽出部５４は、例えば、範囲Ｒ１２の学習済みモデルを評価対象の学習済みモデルと選定する。モデル抽出部５４は、例えば、累積報酬の値と、積算勝率の値との両方が所定の条件を満たさない学習済みモデルについては、破棄する。そして、ステップＳ２４に進む。なお、モデル抽出部５４は、選定した学習済みモデルを記憶部１４に記憶させてよい。

学習部４２は、選定された学習済みモデルの評価を行う（ステップＳ２４）。そして、図４の処理を終了する。本実施形態では、学習中に汎化性能を確認することなくモデル抽出を行えるため、学習中の評価時間の削減が可能となる。また、本実施形態では、あらかじめ候補となるモデルを事前に抽出し、保存しておくことで、学習後の評価時間の削減が可能となる。

本実施形態に記載の学習装置、学習方法及び学習プログラムは、例えば、以下のように把握される。

第１の態様の学習装置は、エージェントの学習モデルを学習させるための学習装置１０であって、エージェントが所定の環境において付与される報酬が最大となるように学習モデルを学習させる強化学習部５０と、学習モデルの第１指標値と第２指標値とを算出する評価指標値算出部５２と、学習ステップ数が所定以上の学習モデルを学習済みモデルとして抽出するモデル抽出部と、を備える。モデル抽出部５４は、学習済みモデルのうち、第１指標値と第２指標値との各々が所定の条件を満たす学習済みモデルを、評価対象の前記学習済みモデルとして選定する。これにより、第１の態様の学習装置は、学習中の学習モデルの中から性能が良い学習モデルを適切に選定することができる。また、第１の態様の学習装置は、学習中に汎化性能を確認することなくモデル抽出を行えるため、学習中の評価時間を削減することができる。また、第１の態様の学習装置は、あらかじめ候補となるモデルを事前に抽出し、保存しておくことで、学習後の評価時間を削減することができる。

第２の態様の学習装置は、評価指標値算出部５２は、学習モデルの積算勝率値と、累積報酬値とを算出する。これにより、第２の態様の学習装置は、学習モデルの性能を評価する指標値として、学習モデルの積算勝率値と、累積報酬値とを用いることができる。

第３の態様の学習装置は、モデル抽出部５４は、累積報酬値が所定以上の学習済みモデルを評価対象の学習済みモデルとして選定する。これにより、第３の態様の学習装置は、学習中の学習モデルの中から性能が良い学習モデルをより適切に選定することができる。

第４の態様の学習装置は、モデル抽出部５４は、学習ステップ数に対する積算勝率値の傾きが正であり、微分値が所定以上となる範囲の前記学習済みモデルを評価対象の学習済みモデルとして選定する。これにより、第５の態様の学習装置は、学習中の学習モデルの中から性能が良い学習モデルをより適切に選定することができる。

第５の態様の学習装置は、エージェントの学習モデルを、学習装置を用いて学習させるための学習方法であって、エージェントが所定の環境において付与される報酬が最大となるように学習モデルを学習させるステップと、学習モデルの第１指標値と第２指標値とを算出するステップと、学習ステップ数が所定以上の学習モデルを学習済みモデルとして抽出するステップと、学習済みモデルのうち、第１指標値と第２指標値との各々が所定の条件を満たす学習済みモデルを、評価対象の学習済みモデルとして選定するステップと、を含む。

第６の態様の学習プログラムは、エージェントの学習モデルを、学習装置を用いて学習させるための学習プログラムであって、エージェントが所定の環境において付与される報酬が最大となるように学習モデルを学習させるステップと、学習モデルの第１指標値と第２指標値とを算出するステップと、学習ステップ数が所定以上の前記学習モデルを学習済みモデルとして抽出するステップと、学習済みモデルのうち、第１指標値と第２指標値との各々が所定の条件を満たす学習済みモデルを、評価対象の学習済みモデルとして選定するステップと、を学習装置に実行させる。

以上、本開示の実施形態を説明したが、これら実施形態の内容により本開示が限定されるものではない。また、前述した構成要素には、当業者が容易に想定できるもの、実質的に同一のもの、いわゆる均等の範囲のものが含まれる。さらに、前述した構成要素は適宜組み合わせることが可能である。さらに、前述した実施形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換又は変更を行うことができる。

１０学習装置
１２環境部
１４記憶部
１６制御部
２０運動モデル
２２対戦モデル
２４環境モデル
２６報酬モデル
３０強化学習モデル
４０設定部
４２学習部
５０強化学習部
５２評価指標値算出部
５４モデル抽出部

Claims

エージェントの学習モデルを学習させるための学習装置であって、
前記エージェントが所定の環境において付与される報酬が最大となるように前記学習モデルを学習させる強化学習部と、
前記学習モデルの第１指標値と第２指標値とを算出する評価指標値算出部と、
学習ステップ数が所定以上の前記学習モデルを学習済みモデルとして抽出するモデル抽出部と、を備え、
前記モデル抽出部は、前記学習済みモデルのうち、前記第１指標値と前記第２指標値との各々が所定の条件を満たす前記学習済みモデルを、評価対象の前記学習済みモデルとして選定する、学習装置。
前記評価指標値算出部は、前記学習モデルの積算勝率値と、累積報酬値とを算出する、
請求項１に記載の学習装置。
前記モデル抽出部は、前記累積報酬値が所定以上の前記学習済みモデルを評価対象の前記学習済みモデルとして選定する、
請求項２に記載の学習装置。
前記モデル抽出部は、学習ステップ数に対する積算勝率値の傾きが正であり、微分値が所定以上となる範囲の前記学習済みモデルを評価対象の前記学習済みモデルとして選定する、
請求項２または３に記載の学習装置。
エージェントの学習モデルを、学習装置を用いて学習させるための学習方法であって、
前記エージェントが所定の環境において付与される報酬が最大となるように前記学習モデルを学習させるステップと、
前記学習モデルの第１指標値と第２指標値とを算出するステップと、
学習ステップ数が所定以上の前記学習モデルを学習済みモデルとして抽出するステップと、
前記学習済みモデルのうち、前記第１指標値と前記第２指標値との各々が所定の条件を満たす前記学習済みモデルを、評価対象の前記学習済みモデルとして選定するステップと、
を含む、学習方法。
エージェントの学習モデルを、学習装置を用いて学習させるための学習プログラムであって、
前記エージェントが所定の環境において付与される報酬が最大となるように前記学習モデルを学習させるステップと、
前記学習モデルの第１指標値と第２指標値とを算出するステップと、
学習ステップ数が所定以上の前記学習モデルを学習済みモデルとして抽出するステップと、
前記学習済みモデルのうち、前記第１指標値と前記第２指標値との各々が所定の条件を満たす前記学習済みモデルを、評価対象の前記学習済みモデルとして選定するステップと、
を前記学習装置に実行させる、学習プログラム。