JP2023165309A

JP2023165309A - 学習装置、学習方法及び学習プログラム

Info

Publication number: JP2023165309A
Application number: JP2022076197A
Authority: JP
Inventors: 裕次郎片岡; Yujiro Kataoka; 雅幸伊藤; Masayuki Ito; 夏樹松波; Natsuki Matsunami
Original assignee: Mitsubishi Heavy Industries Ltd
Current assignee: Mitsubishi Heavy Industries Ltd
Priority date: 2022-05-02
Filing date: 2022-05-02
Publication date: 2023-11-15
Also published as: WO2023214584A1

Abstract

【課題】多様な対戦相手であっても、ハイパーパラメータを含む学習モデルの学習を、適切に効率よく実行する。
【解決手段】エージェント同士が対戦する対戦環境下において、前記エージェントの学習モデルを強化学習させるための処理部を備える学習装置であって、前記学習モデルは、ハイパーパラメータを含み、前記処理部は、学習対象となる前記エージェントの対戦相手となる複数の前記エージェントの強さを評価するステップと、学習対象となる前記エージェントに対して、対戦相手となる前記エージェントの強さに応じた対戦確率を設定するステップと、前記対戦確率に基づいて、対戦相手となる前記エージェントを設定するステップと、設定後の対戦相手となる前記エージェントを対戦させて、学習対象となる前記エージェントの強化学習を実行するステップと、を実行する。
【選択図】図３

Description

本開示は、学習装置、学習方法及び学習プログラムに関するものである。

従来、エージェント同士の対戦結果に基づいて、エージェントの強化学習を行うことが知られている（例えば、特許文献１参照）。

特開２０１９－１９７５９２号公報

ここで、学習対象となるエージェント５の対戦相手が固定の場合、強化学習を行った結果、その対戦相手に特化した方策となる学習モデルが生成されてしまう可能性がある。このため、方策の異なる対戦相手を複数設定し、各対戦相手を一定の学習ステップ(スワップステップともいう)に応じて交代させ、対戦を通して学習させることにより、汎用性を有する学習モデルを得ることが考えられる。

しかしながら、一定の学習ステップに応じて対戦相手を交代する場合、学習モデルは、勝利し易い特定の対戦相手との対戦で多くの報酬を獲得することを学習してしまう可能性が高い。このため、多様な対戦相手に対して多くの報酬を獲得できる汎用モデルが得られ難いという課題がある。

そこで、本開示は、多様な対戦相手であっても、ハイパーパラメータを含む学習モデルの学習を、適切に効率よく実行することができる学習装置、学習方法及び学習プログラムを提供することを課題とする。

本開示の学習装置は、エージェント同士が対戦する対戦環境下において、前記エージェントの学習モデルを強化学習させるための処理部を備える学習装置であって、前記学習モデルは、ハイパーパラメータを含み、前記処理部は、学習対象となる前記エージェントの対戦相手となる複数の前記エージェントの強さを評価するステップと、学習対象となる前記エージェントに対して、対戦相手となる前記エージェントの強さに応じた対戦確率を設定するステップと、前記対戦確率に基づいて、対戦相手となる前記エージェントを設定するステップと、設定後の対戦相手となる前記エージェントを対戦させて、学習対象となる前記エージェントの強化学習を実行するステップと、を実行する。

本開示の学習方法は、エージェント同士が対戦する対戦環境下において、前記エージェントの学習モデルを、学習装置を用いて強化学習させるための学習方法であって、前記学習モデルは、ハイパーパラメータを含み、前記学習装置に、学習対象となる前記エージェントの対戦相手となる複数の前記エージェントの強さを評価するステップと、学習対象となる前記エージェントに対して、対戦相手となる前記エージェントの強さに応じた対戦確率を設定するステップと、前記対戦確率に基づいて、対戦相手となる前記エージェントを設定するステップと、設定後の対戦相手となる前記エージェントを対戦させて、学習対象となる前記エージェントの強化学習を実行するステップと、を実行させる。

本開示の学習プログラムは、エージェント同士が対戦する対戦環境下において、前記エージェントの学習モデルを、学習装置を用いて強化学習させるための学習プログラムであって、前記学習モデルは、ハイパーパラメータを含み、前記学習装置に、学習対象となる前記エージェントの対戦相手となる複数の前記エージェントの強さを評価するステップと、学習対象となる前記エージェントに対して、対戦相手となる前記エージェントの強さに応じた対戦確率を設定するステップと、前記対戦確率に基づいて、対戦相手となる前記エージェントを設定するステップと、設定後の対戦相手となる前記エージェントを対戦させて、学習対象となる前記エージェントの強化学習を実行するステップと、を実行させる。

本開示によれば、多様な対戦相手であっても、ハイパーパラメータを含む学習モデルの学習を、適切に効率よく実行することができる。

図１は、本実施形態に係る学習モデルを用いた学習に関する説明図である。図２は、本実施形態に係る学習装置を模式的に表した図である。図３は、本実施形態に係る学習方法に関するフローを示す図である。図４は、本実施形態に係る学習方法に関する説明図である。

以下に、本発明に係る実施形態を図面に基づいて詳細に説明する。なお、この実施形態によりこの発明が限定されるものではない。また、下記実施形態における構成要素には、当業者が置換可能かつ容易なもの、あるいは実質的に同一のものが含まれる。さらに、以下に記載した構成要素は適宜組み合わせることが可能であり、また、実施形態が複数ある場合には、各実施形態を組み合わせることも可能である。

［実施形態］
本実施形態に係る学習装置１０及び学習方法は、ハイパーパラメータを含む学習モデルを学習させる装置及び方法となっている。図１は、本実施形態に係る学習モデルを用いた学習に関する説明図である。図２は、本実施形態に係る学習装置を模式的に表した図である。図３は、本実施形態に係る学習方法に関するフローを示す図である。図４は、本実施形態に係る学習方法に関する説明図である。

（学習モデルを用いた学習）
先ず、図１を参照して、学習モデルＭを用いた学習について説明する。学習モデルＭは、行動（アクション）Ａｔを実行するエージェント５に搭載される。エージェント５となる対象としては、例えば、ロボット、車両、船舶または航空機等の動作を実行可能な機械が適用される。エージェント５は、学習モデルＭを用いて、所定の環境６下において所定の行動Ａｔを実行する。

図１に示すように、学習モデルＭは、複数のノードを有するニューラルネットワークとなっている。ニューラルネットワークは、複数のノードを結合したネットワークとなっており、複数の階層を有すると共に、各階層に複数のノードが設けられている。ニューラルネットワークのパラメータとしては、ノード間の重み及びバイアスがある。また、ニューラルネットワークのパラメータとしては、階層の層数、ノード数及び学習率等のハイパーパラメータがある。本実施形態では、学習モデルＭの学習において、ハイパーパラメータを含む学習モデルＭに関する学習を行っている。

次に、学習モデルＭを用いた学習について説明する。学習としては、強化学習がある。強化学習は、教師なし学習であり、エージェント５が所定の環境６下において付与される報酬（リワード）Ｒｔが最大となるように、学習モデルＭにおけるノード間の重み及びバイアスを学習している。

強化学習では、エージェント５が、環境６（後述する環境部２２）から状態Ｓｔを取得し、また、環境６から報酬Ｒｔを取得する。すると、エージェント５は、取得した状態Ｓｔ及び報酬Ｒｔに基づいて、学習モデルＭから行動Ａｔを選択する。エージェント５が選択した行動Ａｔを実行すると、環境６においてエージェント５の状態Ｓｔが、状態Ｓｔ＋１に遷移する。また、エージェント５には、実行した行動Ａｔ、遷移前の状態Ｓｔ及び遷移後の状態Ｓｔ＋１に基づく報酬Ｒｔ＋１が付与される。そして、強化学習では、エージェント５に付与される報酬Ｒｔが最大となるように、上記の学習を評価可能な所定のステップ数分だけ繰り返す。

（学習装置）
次に、図２を参照して、学習装置１０について説明する。学習装置１０は、仮想空間となる環境下において、エージェント５の強化学習を実行する。学習装置１０は、環境部２２と、学習部２３と、を備えている。なお、環境部２２及び学習部２３は、エージェントの学習モデルを学習させるための処理部、及び学習で用いる各種データを記憶する記憶部として機能している。なお、学習装置１０において、ハードウェア構成については、特に限定されない。本実施形態において、図２では、方形状で示す図が処理部において機能しており、円筒形状で示す図が記憶部において機能している。

環境部２２は、エージェント５に対して、エージェント５同士が対戦する対戦環境を提供する。具体的に、環境部２２は、エージェント５に対して報酬Ｒｔを付与したり、行動Ａｔによって遷移するエージェント５の状態Ｓｔを導出したりする。環境部２２には、運動モデルＭａ、環境モデルＭｂ、対戦モデルＭｃ等の各種モデルが記憶されている。対戦モデルＭｃは、学習対象となるエージェント５に対して、対戦相手となるエージェント５の学習モデルとなっており、対戦相手Ａから対戦相手Ｎまでの対戦モデルＭｃが用意されている。環境部２２は、運動モデルＭａ、環境モデルＭｂ及び対戦モデルＭｃを用いて、エージェント５が行った行動Ａｔを入力として、出力となるエージェント５の状態Ｓｔを算出している。算出した状態Ｓｔは、学習部２３へ向けて出力される。また、環境部２２には、報酬を算出するための報酬モデルＭｄが記憶されている。報酬モデルＭｄは、エージェント５が行った行動Ａｔ、状態Ｓｔ及び遷移先の状態Ｓｔ＋１を入力として、出力となるエージェント５に付与する報酬Ｒｔを算出するモデルである。算出した報酬Ｒｔは、学習部２３へ向けて出力される。

学習部２３は、学習モデルＭの学習を実行している。学習部２３は、学習として、強化学習を実行する。学習部２３は、対戦モデルＭｃの強さを比較するモデル比較部３１と、対戦モデルＭｃの強さに応じた対戦確率を計算する対戦確率計算部３２と、強化学習を行う強化学習部３３と、を有している。また、学習部２３は、強化学習によって得られた学習結果としての強化学習モデルＭ（以下、単に学習モデルＭともいう）を記憶するデータベース３５を有している。

モデル比較部３１は、一例として、学習対象となるエージェント５の学習モデルＭの強さと、対戦相手となるエージェント５の対戦モデルＭｃの強さとをそれぞれ比較し、比較結果に基づいて、学習モデルＭに対して対戦モデルＭｃが強いか否かを評価している。具体的に、モデル比較部３１は、学習停止後（学習済み）の学習モデルＭと、対戦モデルＭｃとを対戦させ、対戦モデルＭｃに対する勝率またはレーティングを、強さの評価指標としている。モデル比較部３１は、学習モデルＭに対して対戦モデルＭｃの勝率またはレーティングが高い場合、対戦モデルＭｃが強いと判定する一方で、学習モデルＭに対して対戦モデルＭｃの勝率またはレーティングが低い場合、対戦モデルＭｃが弱いと判定する。

なお、モデル比較部３１は、対戦モデルＭｃ同士の強さを比較し、比較結果に基づいて、対戦モデルＭｃが強いか否かを評価してもよい。具体的に、モデル比較部３１は、所定の対戦モデルＭｃを基準とし、基準の対戦モデルＭｃと、他の対戦モデルＭｃとを対戦させ、対戦モデルＭｃに対する勝率またはＥＬＯレーティングを、強さの評価指標としている。モデル比較部３１は、基準の対戦モデルＭｃに対して対戦モデルＭｃの勝率またはレーティングが高い場合、対戦モデルＭｃが強いと判定する一方で、基準の対戦モデルＭｃに対して対戦モデルＭｃの勝率またはレーティングが低い場合、対戦モデルＭｃが弱いと判定する。

また、モデル比較部３１は、勝率またはレーティングに代えて、ＫＬダイバージェンス（ＫＬ距離）を用いてもよい。ＫＬダイバージェンスは、モデル同士の状態Ｓｔ及び行動Ａｔの確率分布の類似性を示す指標であり、モデル同士としては、学習モデルＭと対戦モデルＭｃ、または、対戦モデルＭｃ同士である。ＫＬダイバージェンスが小さければ類似度が高く、ＫＬダイバージェンスが大きければ類似度が低いものとなる。モデル比較部３１は、ＫＬダイバージェンスが予め設定したしきい値以上であれば、対戦モデルＭｃが強いと判定する一方で、ＫＬダイバージェンスがしきい値よりも小さければ、対戦モデルＭｃが弱いと判定する。

対戦確率計算部３２は、対戦モデルＭｃの強さに応じて、対戦確率を計算し、設定している。具体的に、対戦確率計算部３２は、モデル比較部３１において評価した対戦相手となるエージェント５の強さが弱いほど、対戦確率が低くなるように計算している。換言すれば、対戦確率計算部３２は、モデル比較部３１において評価した対戦相手となるエージェント５の強さが強いほど、対戦確率が高くなるように計算している。ここで、対戦確率は、複数の対戦相手となるエージェント５のそれぞれが、学習対象となるエージェント５と対戦する割合となっており、複数の対戦モデルＭｃの全ての対戦確率の合計が１００％となるように計算される。例えば、図４に示すように、対戦相手として３つの対戦モデルＭｃが用意されており、弱い対戦モデルＭｃ（対戦相手Ａ）の対戦確率は１０％、強い対戦モデルＭｃ（対戦相手Ｂ）の対戦確率は６０％、互角となる対戦モデルＭｃ（対戦相手Ｃ）の対戦確率は３０％となっている。

強化学習部３３は、環境部２２から付与される報酬Ｒｔに基づく学習を実行しており、学習モデルＭの強化学習を実行している。具体的に、強化学習部３３は、各エージェント５に付与される報酬Ｒｔを最大化するように、各種パラメータを更新しながら、学習モデルＭの強化学習を所定の学習ステップＴ分だけ実行する。ここで、所定の学習ステップＴとしては、対戦相手ごとに設定されるスワップステップと、対戦相手の変更終了となる一定ステップと、学習終了となる最大学習ステップとがある。また、強化学習部３３は、学習モデルＭの強化学習を実行することで、強化学習の学習結果となる強化学習モデルＭを取得すると共に、ノード間の重み及びバイアスの更新ごとに取得した強化学習モデルＭを、データベース３５に記憶する。ノード間の重み及びバイアスの初期値を０とし、更新値をＮとすると共に、学習ステップＴの初期ステップを０とし、最終ステップをＳとすると、データベース３５には、強化学習モデルＭ_０から強化学習モデルＭ_Ｎまでの学習モデルが記憶されると共に、各強化学習モデルＭ_０～Ｍ_Ｎにおいて、学習ステップＴ_０から学習ステップＴ_Ｓまでの強化学習モデルＭが記憶される。

（学習方法）
次に、図３及び図４を参照して、学習装置１０により実行される学習方法について説明する。学習方法では、先ず、学習装置１０が、学習モデルＭのハイパーパラメータのパラメータ値を設定するステップを実行する（ステップＳ１）。ステップＳ１では、ハイパーパラメータのパラメータ値を任意に設定している。

続いて、学習方法では、学習装置１０のモデル比較部３１が、対戦相手の強さを評価するステップを実行する（ステップＳ２）。具体的に、ステップＳ２では、モデル比較部３１が、対戦相手の勝率、レーティングまたはＫＬダイバージェンス等の対戦モデルＭｃの強さの評価指標を算出する。

次に、学習方法では、学習装置１０の対戦確率計算部３２が、ステップＳ２において算出した対戦モデルＭｃの強さに応じた対戦確率を設定するステップを実行する（ステップＳ３）。ステップＳ３では、対戦確率計算部３２が、ステップＳ２で算出した対戦モデルＭｃの強さの評価指標から、各対戦モデルＭｃのそれぞれに設定される対戦確率を算出する。

ステップＳ３の実行後、学習方法では、学習装置１０が、ステップＳ３で算出した対戦確率に基づいて、対戦相手となるエージェント５（対戦モデルＭｃ）を設定するステップを実行する（ステップＳ４）。ステップＳ４では、学習装置１０が、対戦確率に基づくランダム抽選によって、対戦相手となるエージェント５を設定している。

そして、学習方法では、ステップＳ４で設定した対戦モデルＭｃと、学習対象となるエージェント５の学習モデルＭとを対戦させて、学習モデルＭの強化学習を実行するステップを行う（ステップＳ５）。ステップＳ５では、学習装置１０の強化学習部３３が、エージェント５に付与される報酬Ｒｔを最大化するように、学習モデルＭの強化学習を実行する。また、ステップＳ５では、強化学習部３３が、強化学習を実行することで得られた学習モデルＭ_０～Ｎを、データベース３５に記憶させる。

次に、学習方法では、学習装置１０の強化学習部３３が、学習ステップＴがスワップステップに達したか否かを判定する（ステップＳ６）。ステップＳ６において、強化学習部３３が、学習ステップＴがスワップステップに達したと判定する（ステップＳ６：Ｙｅｓ）と、対戦確率に基づくランダム抽選によって対戦相手を変更するステップを実行する（ステップＳ７）。ステップＳ７では、ステップＳ４と同様に、学習装置１０が、ステップＳ３で算出した対戦確率に基づいて、対戦相手となるエージェント５（対戦モデルＭｃ）を変更する。

一方で、ステップＳ６において、強化学習部３３が、学習ステップＴがスワップステップに達していないと判定する（ステップＳ６：Ｎｏ）と、再びステップＳ５に進み、学習ステップＴがスワップステップに達するまで、ステップＳ５からステップＳ６までを繰り返し実行する。

ステップＳ７の実行後、学習方法では、学習装置１０の強化学習部３３が、学習ステップＴが一定ステップに達したか否かを判定する（ステップＳ８）。ステップＳ８において、強化学習部３３が、学習ステップＴが一定ステップに達したと判定する（ステップＳ８：Ｙｅｓ）と、モデル比較部３１が、強化学習済みの学習モデルＭに対する対戦相手の強さを計算し評価する（ステップＳ９）。ステップＳ９では、学習装置１０のモデル比較部３１が、強化学習済みの学習モデルＭを基準として、ステップＳ２と同様の評価手法により、対戦相手の強さを評価するステップを実行している。

一方で、ステップＳ８において、強化学習部３３が、学習ステップＴが一定ステップに達していないと判定する（ステップＳ８：Ｎｏ）と、再びステップＳ５に進み、学習ステップＴが一定ステップに達するまで、ステップＳ５からステップＳ８までを繰り返し実行する。

ステップＳ９の実行後、学習方法では、学習装置１０の強化学習部３３が、学習ステップＴが最大学習ステップＳに達したか否かを判定する（ステップＳ１０）。ステップＳ１０において、強化学習部３３が、学習ステップＴが最大学習ステップＳに達したと判定する（ステップＳ１０：Ｙｅｓ）と、強化学習を終了し、一連の学習方法を終了する。一方で、ステップＳ１０において、強化学習部３３が、学習ステップＴが最大学習ステップＳに達していないと判定する（ステップＳ１０：Ｎｏ）と、ステップＳ３に進み、最大学習ステップＳとなるまで、ステップＳ３からステップＳ１０までを繰り返し実行する。

このように、上記のステップＳ１からステップＳ１０を実行する学習部２３が、エージェント５を強化学習させるための処理部として機能している。そして、学習装置１０には、上記の学習方法を実行するための学習プログラムＰが、学習装置１０の記憶部に記憶されている。

図４は、上記した学習方法に関する説明図となっている。図４に示すように、学習モデルＭは、学習ステップＴがスワップステップに達するまで、対戦確率に基づいて設定された所定の強さとなる対戦相手（図４では強い対戦相手Ｂ）との対戦により強化学習を実行する。この後、対戦確率に基づいて対戦相手を変更し、再び、学習モデルＭは、学習ステップＴがスワップステップに達するまで、所定の強さとなる対戦相手（図４では互角の対戦相手Ｃ）との対戦により強化学習を実行する。対戦確率に基づく対戦相手の変更では、弱い対戦相手の対戦確率が低いことから、弱い対戦相手との対戦機会は強い対戦相手に比して減ることとなる。

以上のように、本実施形態に記載の学習装置１０、学習方法及び学習プログラムＰは、例えば、以下のように把握される。

第１の態様に係る学習装置１０は、エージェント５同士が対戦する対戦環境下において、前記エージェント５の学習モデルＭを強化学習させるための処理部を備える学習装置１０であって、前記学習モデルＭは、ハイパーパラメータを含み、前記処理部は、学習対象となる前記エージェント５の対戦相手となる複数の前記エージェント５の強さを評価するステップＳ２と、学習対象となる前記エージェント５に対して、対戦相手となる前記エージェント５の強さに応じた対戦確率を設定するステップＳ３と、前記対戦確率に基づいて、対戦相手となる前記エージェント５を設定するステップＳ４と、設定後の対戦相手となる前記エージェント５を対戦させて、学習対象となる前記エージェント５の強化学習を実行するステップＳ５と、を実行する。

この構成によれば、対戦相手の強さに応じた学習機会とすることができるため、対戦相手の強さに応じた学習モデルＭの強化学習を実行することができる。このため、対戦環境下において、多様な対戦相手であっても、ハイパーパラメータを含む学習モデルＭの学習を、適切に効率よく実行することができる。

第２の態様として、前記対戦確率を設定するステップＳ３では、対戦相手となる複数の前記エージェント５の中において、対戦相手となる前記エージェント５の強さが弱いほど、対戦確率を低くする。

この構成によれば、対戦相手の強さが強い場合に、学習モデルＭの強化学習の学習機会を多くすることができ、一方で、対戦相手の強さが弱い場合に、学習モデルＭの強化学習の学習機会を少なくすることができる。このため、対戦相手に応じた適切な強化学習を実行することができる。

第３の態様として、前記エージェント５の強さを評価するステップＳ２では、前記エージェント５の強さの指標として、対戦勝率、レーティング、ＫＬダイバージェンスの少なくとも一つを含む。

この構成によれば、対戦相手の強さを適切に評価することができる。

第４の態様に係る学習方法は、エージェント５同士が対戦する対戦環境下において、前記エージェント５の学習モデルＭを、学習装置１０を用いて強化学習させるための学習方法であって、前記学習モデルＭは、ハイパーパラメータを含み、前記学習装置１０に、学習対象となる前記エージェント５の対戦相手となる複数の前記エージェント５の強さを評価するステップＳ２と、学習対象となる前記エージェント５に対して、対戦相手となる前記エージェント５の強さに応じた対戦確率を設定するステップＳ３と、前記対戦確率に基づいて、対戦相手となる前記エージェント５を設定するステップＳ４と、設定後の対戦相手となる前記エージェント５を対戦させて、学習対象となる前記エージェント５の強化学習を実行するステップＳ５と、を実行させる。

第５の態様に係る学習プログラムＰは、エージェント５同士が対戦する対戦環境下において、前記エージェント５の学習モデルＭを、学習装置１０を用いて強化学習させるための学習プログラムであって、前記学習モデルＭは、ハイパーパラメータを含み、前記学習装置１０に、学習対象となる前記エージェント５の対戦相手となる複数の前記エージェント５の強さを評価するステップＳ２と、学習対象となる前記エージェント５に対して、対戦相手となる前記エージェント５の強さに応じた対戦確率を設定するステップＳ３と、前記対戦確率に基づいて、対戦相手となる前記エージェント５を設定するステップＳ４と、設定後の対戦相手となる前記エージェント５を対戦させて、学習対象となる前記エージェント５の強化学習を実行するステップＳ５と、を実行させる。

５エージェント
１０学習装置
２２環境部
２３学習部
３１モデル比較部
３２対戦確率計算部
３３強化学習部
３５データベース
Ｍ学習モデル
Ｍａ運動モデル
Ｍｂ環境モデル
Ｍｃ対戦モデル
Ｍｄ報酬モデル
Ｐ学習プログラム

Claims

エージェント同士が対戦する対戦環境下において、前記エージェントの学習モデルを強化学習させるための処理部を備える学習装置であって、
前記学習モデルは、ハイパーパラメータを含み、
前記処理部は、
学習対象となる前記エージェントの対戦相手となる複数の前記エージェントの強さを評価するステップと、
学習対象となる前記エージェントに対して、対戦相手となる前記エージェントの強さに応じた対戦確率を設定するステップと、
前記対戦確率に基づいて、対戦相手となる前記エージェントを設定するステップと、
設定後の対戦相手となる前記エージェントを対戦させて、学習対象となる前記エージェントの強化学習を実行するステップと、を実行する学習装置。
前記対戦確率を設定するステップでは、対戦相手となる複数の前記エージェントの中において、対戦相手となる前記エージェントの強さが弱いほど、対戦確率を低くする請求項１に記載の学習装置。
前記エージェントの強さを評価するステップでは、前記エージェントの強さの指標として、対戦勝率、レーティング、ＫＬダイバージェンスの少なくとも一つを含む請求項１または２に記載の学習装置。
エージェント同士が対戦する対戦環境下において、前記エージェントの学習モデルを、学習装置を用いて強化学習させるための学習方法であって、
前記学習モデルは、ハイパーパラメータを含み、
前記学習装置に、
学習対象となる前記エージェントの対戦相手となる複数の前記エージェントの強さを評価するステップと、
学習対象となる前記エージェントに対して、対戦相手となる前記エージェントの強さに応じた対戦確率を設定するステップと、
前記対戦確率に基づいて、対戦相手となる前記エージェントを設定するステップと、
設定後の対戦相手となる前記エージェントを対戦させて、学習対象となる前記エージェントの強化学習を実行するステップと、を実行させる学習方法。
エージェント同士が対戦する対戦環境下において、前記エージェントの学習モデルを、学習装置を用いて強化学習させるための学習プログラムであって、
前記学習モデルは、ハイパーパラメータを含み、
前記学習装置に、
学習対象となる前記エージェントの対戦相手となる複数の前記エージェントの強さを評価するステップと、
学習対象となる前記エージェントに対して、対戦相手となる前記エージェントの強さに応じた対戦確率を設定するステップと、
前記対戦確率に基づいて、対戦相手となる前記エージェントを設定するステップと、
設定後の対戦相手となる前記エージェントを対戦させて、学習対象となる前記エージェントの強化学習を実行するステップと、を実行させる学習プログラム。