JP2023165309A - 学習装置、学習方法及び学習プログラム - Google Patents
学習装置、学習方法及び学習プログラム Download PDFInfo
- Publication number
- JP2023165309A JP2023165309A JP2022076197A JP2022076197A JP2023165309A JP 2023165309 A JP2023165309 A JP 2023165309A JP 2022076197 A JP2022076197 A JP 2022076197A JP 2022076197 A JP2022076197 A JP 2022076197A JP 2023165309 A JP2023165309 A JP 2023165309A
- Authority
- JP
- Japan
- Prior art keywords
- learning
- agent
- model
- opponent
- strength
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 34
- 230000002787 reinforcement Effects 0.000 claims abstract description 70
- 230000002860 competitive effect Effects 0.000 claims abstract description 16
- 238000010586 diagram Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 239000000470 constituent Substances 0.000 description 2
- 238000009826 distribution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Feedback Control In General (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【課題】多様な対戦相手であっても、ハイパーパラメータを含む学習モデルの学習を、適切に効率よく実行する。
【解決手段】エージェント同士が対戦する対戦環境下において、前記エージェントの学習モデルを強化学習させるための処理部を備える学習装置であって、前記学習モデルは、ハイパーパラメータを含み、前記処理部は、学習対象となる前記エージェントの対戦相手となる複数の前記エージェントの強さを評価するステップと、学習対象となる前記エージェントに対して、対戦相手となる前記エージェントの強さに応じた対戦確率を設定するステップと、前記対戦確率に基づいて、対戦相手となる前記エージェントを設定するステップと、設定後の対戦相手となる前記エージェントを対戦させて、学習対象となる前記エージェントの強化学習を実行するステップと、を実行する。
【選択図】図3
【解決手段】エージェント同士が対戦する対戦環境下において、前記エージェントの学習モデルを強化学習させるための処理部を備える学習装置であって、前記学習モデルは、ハイパーパラメータを含み、前記処理部は、学習対象となる前記エージェントの対戦相手となる複数の前記エージェントの強さを評価するステップと、学習対象となる前記エージェントに対して、対戦相手となる前記エージェントの強さに応じた対戦確率を設定するステップと、前記対戦確率に基づいて、対戦相手となる前記エージェントを設定するステップと、設定後の対戦相手となる前記エージェントを対戦させて、学習対象となる前記エージェントの強化学習を実行するステップと、を実行する。
【選択図】図3
Description
本開示は、学習装置、学習方法及び学習プログラムに関するものである。
従来、エージェント同士の対戦結果に基づいて、エージェントの強化学習を行うことが知られている(例えば、特許文献1参照)。
ここで、学習対象となるエージェント5の対戦相手が固定の場合、強化学習を行った結果、その対戦相手に特化した方策となる学習モデルが生成されてしまう可能性がある。このため、方策の異なる対戦相手を複数設定し、各対戦相手を一定の学習ステップ(スワップステップともいう)に応じて交代させ、対戦を通して学習させることにより、汎用性を有する学習モデルを得ることが考えられる。
しかしながら、一定の学習ステップに応じて対戦相手を交代する場合、学習モデルは、勝利し易い特定の対戦相手との対戦で多くの報酬を獲得することを学習してしまう可能性が高い。このため、多様な対戦相手に対して多くの報酬を獲得できる汎用モデルが得られ難いという課題がある。
そこで、本開示は、多様な対戦相手であっても、ハイパーパラメータを含む学習モデルの学習を、適切に効率よく実行することができる学習装置、学習方法及び学習プログラムを提供することを課題とする。
本開示の学習装置は、エージェント同士が対戦する対戦環境下において、前記エージェントの学習モデルを強化学習させるための処理部を備える学習装置であって、前記学習モデルは、ハイパーパラメータを含み、前記処理部は、学習対象となる前記エージェントの対戦相手となる複数の前記エージェントの強さを評価するステップと、学習対象となる前記エージェントに対して、対戦相手となる前記エージェントの強さに応じた対戦確率を設定するステップと、前記対戦確率に基づいて、対戦相手となる前記エージェントを設定するステップと、設定後の対戦相手となる前記エージェントを対戦させて、学習対象となる前記エージェントの強化学習を実行するステップと、を実行する。
本開示の学習方法は、エージェント同士が対戦する対戦環境下において、前記エージェントの学習モデルを、学習装置を用いて強化学習させるための学習方法であって、前記学習モデルは、ハイパーパラメータを含み、前記学習装置に、学習対象となる前記エージェントの対戦相手となる複数の前記エージェントの強さを評価するステップと、学習対象となる前記エージェントに対して、対戦相手となる前記エージェントの強さに応じた対戦確率を設定するステップと、前記対戦確率に基づいて、対戦相手となる前記エージェントを設定するステップと、設定後の対戦相手となる前記エージェントを対戦させて、学習対象となる前記エージェントの強化学習を実行するステップと、を実行させる。
本開示の学習プログラムは、エージェント同士が対戦する対戦環境下において、前記エージェントの学習モデルを、学習装置を用いて強化学習させるための学習プログラムであって、前記学習モデルは、ハイパーパラメータを含み、前記学習装置に、学習対象となる前記エージェントの対戦相手となる複数の前記エージェントの強さを評価するステップと、学習対象となる前記エージェントに対して、対戦相手となる前記エージェントの強さに応じた対戦確率を設定するステップと、前記対戦確率に基づいて、対戦相手となる前記エージェントを設定するステップと、設定後の対戦相手となる前記エージェントを対戦させて、学習対象となる前記エージェントの強化学習を実行するステップと、を実行させる。
本開示によれば、多様な対戦相手であっても、ハイパーパラメータを含む学習モデルの学習を、適切に効率よく実行することができる。
以下に、本発明に係る実施形態を図面に基づいて詳細に説明する。なお、この実施形態によりこの発明が限定されるものではない。また、下記実施形態における構成要素には、当業者が置換可能かつ容易なもの、あるいは実質的に同一のものが含まれる。さらに、以下に記載した構成要素は適宜組み合わせることが可能であり、また、実施形態が複数ある場合には、各実施形態を組み合わせることも可能である。
[実施形態]
本実施形態に係る学習装置10及び学習方法は、ハイパーパラメータを含む学習モデルを学習させる装置及び方法となっている。図1は、本実施形態に係る学習モデルを用いた学習に関する説明図である。図2は、本実施形態に係る学習装置を模式的に表した図である。図3は、本実施形態に係る学習方法に関するフローを示す図である。図4は、本実施形態に係る学習方法に関する説明図である。
本実施形態に係る学習装置10及び学習方法は、ハイパーパラメータを含む学習モデルを学習させる装置及び方法となっている。図1は、本実施形態に係る学習モデルを用いた学習に関する説明図である。図2は、本実施形態に係る学習装置を模式的に表した図である。図3は、本実施形態に係る学習方法に関するフローを示す図である。図4は、本実施形態に係る学習方法に関する説明図である。
(学習モデルを用いた学習)
先ず、図1を参照して、学習モデルMを用いた学習について説明する。学習モデルMは、行動(アクション)Atを実行するエージェント5に搭載される。エージェント5となる対象としては、例えば、ロボット、車両、船舶または航空機等の動作を実行可能な機械が適用される。エージェント5は、学習モデルMを用いて、所定の環境6下において所定の行動Atを実行する。
先ず、図1を参照して、学習モデルMを用いた学習について説明する。学習モデルMは、行動(アクション)Atを実行するエージェント5に搭載される。エージェント5となる対象としては、例えば、ロボット、車両、船舶または航空機等の動作を実行可能な機械が適用される。エージェント5は、学習モデルMを用いて、所定の環境6下において所定の行動Atを実行する。
図1に示すように、学習モデルMは、複数のノードを有するニューラルネットワークとなっている。ニューラルネットワークは、複数のノードを結合したネットワークとなっており、複数の階層を有すると共に、各階層に複数のノードが設けられている。ニューラルネットワークのパラメータとしては、ノード間の重み及びバイアスがある。また、ニューラルネットワークのパラメータとしては、階層の層数、ノード数及び学習率等のハイパーパラメータがある。本実施形態では、学習モデルMの学習において、ハイパーパラメータを含む学習モデルMに関する学習を行っている。
次に、学習モデルMを用いた学習について説明する。学習としては、強化学習がある。強化学習は、教師なし学習であり、エージェント5が所定の環境6下において付与される報酬(リワード)Rtが最大となるように、学習モデルMにおけるノード間の重み及びバイアスを学習している。
強化学習では、エージェント5が、環境6(後述する環境部22)から状態Stを取得し、また、環境6から報酬Rtを取得する。すると、エージェント5は、取得した状態St及び報酬Rtに基づいて、学習モデルMから行動Atを選択する。エージェント5が選択した行動Atを実行すると、環境6においてエージェント5の状態Stが、状態St+1に遷移する。また、エージェント5には、実行した行動At、遷移前の状態St及び遷移後の状態St+1に基づく報酬Rt+1が付与される。そして、強化学習では、エージェント5に付与される報酬Rtが最大となるように、上記の学習を評価可能な所定のステップ数分だけ繰り返す。
(学習装置)
次に、図2を参照して、学習装置10について説明する。学習装置10は、仮想空間となる環境下において、エージェント5の強化学習を実行する。学習装置10は、環境部22と、学習部23と、を備えている。なお、環境部22及び学習部23は、エージェントの学習モデルを学習させるための処理部、及び学習で用いる各種データを記憶する記憶部として機能している。なお、学習装置10において、ハードウェア構成については、特に限定されない。本実施形態において、図2では、方形状で示す図が処理部において機能しており、円筒形状で示す図が記憶部において機能している。
次に、図2を参照して、学習装置10について説明する。学習装置10は、仮想空間となる環境下において、エージェント5の強化学習を実行する。学習装置10は、環境部22と、学習部23と、を備えている。なお、環境部22及び学習部23は、エージェントの学習モデルを学習させるための処理部、及び学習で用いる各種データを記憶する記憶部として機能している。なお、学習装置10において、ハードウェア構成については、特に限定されない。本実施形態において、図2では、方形状で示す図が処理部において機能しており、円筒形状で示す図が記憶部において機能している。
環境部22は、エージェント5に対して、エージェント5同士が対戦する対戦環境を提供する。具体的に、環境部22は、エージェント5に対して報酬Rtを付与したり、行動Atによって遷移するエージェント5の状態Stを導出したりする。環境部22には、運動モデルMa、環境モデルMb、対戦モデルMc等の各種モデルが記憶されている。対戦モデルMcは、学習対象となるエージェント5に対して、対戦相手となるエージェント5の学習モデルとなっており、対戦相手Aから対戦相手Nまでの対戦モデルMcが用意されている。環境部22は、運動モデルMa、環境モデルMb及び対戦モデルMcを用いて、エージェント5が行った行動Atを入力として、出力となるエージェント5の状態Stを算出している。算出した状態Stは、学習部23へ向けて出力される。また、環境部22には、報酬を算出するための報酬モデルMdが記憶されている。報酬モデルMdは、エージェント5が行った行動At、状態St及び遷移先の状態St+1を入力として、出力となるエージェント5に付与する報酬Rtを算出するモデルである。算出した報酬Rtは、学習部23へ向けて出力される。
学習部23は、学習モデルMの学習を実行している。学習部23は、学習として、強化学習を実行する。学習部23は、対戦モデルMcの強さを比較するモデル比較部31と、対戦モデルMcの強さに応じた対戦確率を計算する対戦確率計算部32と、強化学習を行う強化学習部33と、を有している。また、学習部23は、強化学習によって得られた学習結果としての強化学習モデルM(以下、単に学習モデルMともいう)を記憶するデータベース35を有している。
モデル比較部31は、一例として、学習対象となるエージェント5の学習モデルMの強さと、対戦相手となるエージェント5の対戦モデルMcの強さとをそれぞれ比較し、比較結果に基づいて、学習モデルMに対して対戦モデルMcが強いか否かを評価している。具体的に、モデル比較部31は、学習停止後(学習済み)の学習モデルMと、対戦モデルMcとを対戦させ、対戦モデルMcに対する勝率またはレーティングを、強さの評価指標としている。モデル比較部31は、学習モデルMに対して対戦モデルMcの勝率またはレーティングが高い場合、対戦モデルMcが強いと判定する一方で、学習モデルMに対して対戦モデルMcの勝率またはレーティングが低い場合、対戦モデルMcが弱いと判定する。
なお、モデル比較部31は、対戦モデルMc同士の強さを比較し、比較結果に基づいて、対戦モデルMcが強いか否かを評価してもよい。具体的に、モデル比較部31は、所定の対戦モデルMcを基準とし、基準の対戦モデルMcと、他の対戦モデルMcとを対戦させ、対戦モデルMcに対する勝率またはELOレーティングを、強さの評価指標としている。モデル比較部31は、基準の対戦モデルMcに対して対戦モデルMcの勝率またはレーティングが高い場合、対戦モデルMcが強いと判定する一方で、基準の対戦モデルMcに対して対戦モデルMcの勝率またはレーティングが低い場合、対戦モデルMcが弱いと判定する。
また、モデル比較部31は、勝率またはレーティングに代えて、KLダイバージェンス(KL距離)を用いてもよい。KLダイバージェンスは、モデル同士の状態St及び行動Atの確率分布の類似性を示す指標であり、モデル同士としては、学習モデルMと対戦モデルMc、または、対戦モデルMc同士である。KLダイバージェンスが小さければ類似度が高く、KLダイバージェンスが大きければ類似度が低いものとなる。モデル比較部31は、KLダイバージェンスが予め設定したしきい値以上であれば、対戦モデルMcが強いと判定する一方で、KLダイバージェンスがしきい値よりも小さければ、対戦モデルMcが弱いと判定する。
対戦確率計算部32は、対戦モデルMcの強さに応じて、対戦確率を計算し、設定している。具体的に、対戦確率計算部32は、モデル比較部31において評価した対戦相手となるエージェント5の強さが弱いほど、対戦確率が低くなるように計算している。換言すれば、対戦確率計算部32は、モデル比較部31において評価した対戦相手となるエージェント5の強さが強いほど、対戦確率が高くなるように計算している。ここで、対戦確率は、複数の対戦相手となるエージェント5のそれぞれが、学習対象となるエージェント5と対戦する割合となっており、複数の対戦モデルMcの全ての対戦確率の合計が100%となるように計算される。例えば、図4に示すように、対戦相手として3つの対戦モデルMcが用意されており、弱い対戦モデルMc(対戦相手A)の対戦確率は10%、強い対戦モデルMc(対戦相手B)の対戦確率は60%、互角となる対戦モデルMc(対戦相手C)の対戦確率は30%となっている。
強化学習部33は、環境部22から付与される報酬Rtに基づく学習を実行しており、学習モデルMの強化学習を実行している。具体的に、強化学習部33は、各エージェント5に付与される報酬Rtを最大化するように、各種パラメータを更新しながら、学習モデルMの強化学習を所定の学習ステップT分だけ実行する。ここで、所定の学習ステップTとしては、対戦相手ごとに設定されるスワップステップと、対戦相手の変更終了となる一定ステップと、学習終了となる最大学習ステップとがある。また、強化学習部33は、学習モデルMの強化学習を実行することで、強化学習の学習結果となる強化学習モデルMを取得すると共に、ノード間の重み及びバイアスの更新ごとに取得した強化学習モデルMを、データベース35に記憶する。ノード間の重み及びバイアスの初期値を0とし、更新値をNとすると共に、学習ステップTの初期ステップを0とし、最終ステップをSとすると、データベース35には、強化学習モデルM0から強化学習モデルMNまでの学習モデルが記憶されると共に、各強化学習モデルM0~MNにおいて、学習ステップT0から学習ステップTSまでの強化学習モデルMが記憶される。
(学習方法)
次に、図3及び図4を参照して、学習装置10により実行される学習方法について説明する。学習方法では、先ず、学習装置10が、学習モデルMのハイパーパラメータのパラメータ値を設定するステップを実行する(ステップS1)。ステップS1では、ハイパーパラメータのパラメータ値を任意に設定している。
次に、図3及び図4を参照して、学習装置10により実行される学習方法について説明する。学習方法では、先ず、学習装置10が、学習モデルMのハイパーパラメータのパラメータ値を設定するステップを実行する(ステップS1)。ステップS1では、ハイパーパラメータのパラメータ値を任意に設定している。
続いて、学習方法では、学習装置10のモデル比較部31が、対戦相手の強さを評価するステップを実行する(ステップS2)。具体的に、ステップS2では、モデル比較部31が、対戦相手の勝率、レーティングまたはKLダイバージェンス等の対戦モデルMcの強さの評価指標を算出する。
次に、学習方法では、学習装置10の対戦確率計算部32が、ステップS2において算出した対戦モデルMcの強さに応じた対戦確率を設定するステップを実行する(ステップS3)。ステップS3では、対戦確率計算部32が、ステップS2で算出した対戦モデルMcの強さの評価指標から、各対戦モデルMcのそれぞれに設定される対戦確率を算出する。
ステップS3の実行後、学習方法では、学習装置10が、ステップS3で算出した対戦確率に基づいて、対戦相手となるエージェント5(対戦モデルMc)を設定するステップを実行する(ステップS4)。ステップS4では、学習装置10が、対戦確率に基づくランダム抽選によって、対戦相手となるエージェント5を設定している。
そして、学習方法では、ステップS4で設定した対戦モデルMcと、学習対象となるエージェント5の学習モデルMとを対戦させて、学習モデルMの強化学習を実行するステップを行う(ステップS5)。ステップS5では、学習装置10の強化学習部33が、エージェント5に付与される報酬Rtを最大化するように、学習モデルMの強化学習を実行する。また、ステップS5では、強化学習部33が、強化学習を実行することで得られた学習モデルM0~Nを、データベース35に記憶させる。
次に、学習方法では、学習装置10の強化学習部33が、学習ステップTがスワップステップに達したか否かを判定する(ステップS6)。ステップS6において、強化学習部33が、学習ステップTがスワップステップに達したと判定する(ステップS6:Yes)と、対戦確率に基づくランダム抽選によって対戦相手を変更するステップを実行する(ステップS7)。ステップS7では、ステップS4と同様に、学習装置10が、ステップS3で算出した対戦確率に基づいて、対戦相手となるエージェント5(対戦モデルMc)を変更する。
一方で、ステップS6において、強化学習部33が、学習ステップTがスワップステップに達していないと判定する(ステップS6:No)と、再びステップS5に進み、学習ステップTがスワップステップに達するまで、ステップS5からステップS6までを繰り返し実行する。
ステップS7の実行後、学習方法では、学習装置10の強化学習部33が、学習ステップTが一定ステップに達したか否かを判定する(ステップS8)。ステップS8において、強化学習部33が、学習ステップTが一定ステップに達したと判定する(ステップS8:Yes)と、モデル比較部31が、強化学習済みの学習モデルMに対する対戦相手の強さを計算し評価する(ステップS9)。ステップS9では、学習装置10のモデル比較部31が、強化学習済みの学習モデルMを基準として、ステップS2と同様の評価手法により、対戦相手の強さを評価するステップを実行している。
一方で、ステップS8において、強化学習部33が、学習ステップTが一定ステップに達していないと判定する(ステップS8:No)と、再びステップS5に進み、学習ステップTが一定ステップに達するまで、ステップS5からステップS8までを繰り返し実行する。
ステップS9の実行後、学習方法では、学習装置10の強化学習部33が、学習ステップTが最大学習ステップSに達したか否かを判定する(ステップS10)。ステップS10において、強化学習部33が、学習ステップTが最大学習ステップSに達したと判定する(ステップS10:Yes)と、強化学習を終了し、一連の学習方法を終了する。一方で、ステップS10において、強化学習部33が、学習ステップTが最大学習ステップSに達していないと判定する(ステップS10:No)と、ステップS3に進み、最大学習ステップSとなるまで、ステップS3からステップS10までを繰り返し実行する。
このように、上記のステップS1からステップS10を実行する学習部23が、エージェント5を強化学習させるための処理部として機能している。そして、学習装置10には、上記の学習方法を実行するための学習プログラムPが、学習装置10の記憶部に記憶されている。
図4は、上記した学習方法に関する説明図となっている。図4に示すように、学習モデルMは、学習ステップTがスワップステップに達するまで、対戦確率に基づいて設定された所定の強さとなる対戦相手(図4では強い対戦相手B)との対戦により強化学習を実行する。この後、対戦確率に基づいて対戦相手を変更し、再び、学習モデルMは、学習ステップTがスワップステップに達するまで、所定の強さとなる対戦相手(図4では互角の対戦相手C)との対戦により強化学習を実行する。対戦確率に基づく対戦相手の変更では、弱い対戦相手の対戦確率が低いことから、弱い対戦相手との対戦機会は強い対戦相手に比して減ることとなる。
以上のように、本実施形態に記載の学習装置10、学習方法及び学習プログラムPは、例えば、以下のように把握される。
第1の態様に係る学習装置10は、エージェント5同士が対戦する対戦環境下において、前記エージェント5の学習モデルMを強化学習させるための処理部を備える学習装置10であって、前記学習モデルMは、ハイパーパラメータを含み、前記処理部は、学習対象となる前記エージェント5の対戦相手となる複数の前記エージェント5の強さを評価するステップS2と、学習対象となる前記エージェント5に対して、対戦相手となる前記エージェント5の強さに応じた対戦確率を設定するステップS3と、前記対戦確率に基づいて、対戦相手となる前記エージェント5を設定するステップS4と、設定後の対戦相手となる前記エージェント5を対戦させて、学習対象となる前記エージェント5の強化学習を実行するステップS5と、を実行する。
この構成によれば、対戦相手の強さに応じた学習機会とすることができるため、対戦相手の強さに応じた学習モデルMの強化学習を実行することができる。このため、対戦環境下において、多様な対戦相手であっても、ハイパーパラメータを含む学習モデルMの学習を、適切に効率よく実行することができる。
第2の態様として、前記対戦確率を設定するステップS3では、対戦相手となる複数の前記エージェント5の中において、対戦相手となる前記エージェント5の強さが弱いほど、対戦確率を低くする。
この構成によれば、対戦相手の強さが強い場合に、学習モデルMの強化学習の学習機会を多くすることができ、一方で、対戦相手の強さが弱い場合に、学習モデルMの強化学習の学習機会を少なくすることができる。このため、対戦相手に応じた適切な強化学習を実行することができる。
第3の態様として、前記エージェント5の強さを評価するステップS2では、前記エージェント5の強さの指標として、対戦勝率、レーティング、KLダイバージェンスの少なくとも一つを含む。
この構成によれば、対戦相手の強さを適切に評価することができる。
第4の態様に係る学習方法は、エージェント5同士が対戦する対戦環境下において、前記エージェント5の学習モデルMを、学習装置10を用いて強化学習させるための学習方法であって、前記学習モデルMは、ハイパーパラメータを含み、前記学習装置10に、学習対象となる前記エージェント5の対戦相手となる複数の前記エージェント5の強さを評価するステップS2と、学習対象となる前記エージェント5に対して、対戦相手となる前記エージェント5の強さに応じた対戦確率を設定するステップS3と、前記対戦確率に基づいて、対戦相手となる前記エージェント5を設定するステップS4と、設定後の対戦相手となる前記エージェント5を対戦させて、学習対象となる前記エージェント5の強化学習を実行するステップS5と、を実行させる。
この構成によれば、対戦相手の強さに応じた学習機会とすることができるため、対戦相手の強さに応じた学習モデルMの強化学習を実行することができる。このため、対戦環境下において、多様な対戦相手であっても、ハイパーパラメータを含む学習モデルMの学習を、適切に効率よく実行することができる。
第5の態様に係る学習プログラムPは、エージェント5同士が対戦する対戦環境下において、前記エージェント5の学習モデルMを、学習装置10を用いて強化学習させるための学習プログラムであって、前記学習モデルMは、ハイパーパラメータを含み、前記学習装置10に、学習対象となる前記エージェント5の対戦相手となる複数の前記エージェント5の強さを評価するステップS2と、学習対象となる前記エージェント5に対して、対戦相手となる前記エージェント5の強さに応じた対戦確率を設定するステップS3と、前記対戦確率に基づいて、対戦相手となる前記エージェント5を設定するステップS4と、設定後の対戦相手となる前記エージェント5を対戦させて、学習対象となる前記エージェント5の強化学習を実行するステップS5と、を実行させる。
この構成によれば、対戦相手の強さに応じた学習機会とすることができるため、対戦相手の強さに応じた学習モデルMの強化学習を実行することができる。このため、対戦環境下において、多様な対戦相手であっても、ハイパーパラメータを含む学習モデルMの学習を、適切に効率よく実行することができる。
5 エージェント
10 学習装置
22 環境部
23 学習部
31 モデル比較部
32 対戦確率計算部
33 強化学習部
35 データベース
M 学習モデル
Ma 運動モデル
Mb 環境モデル
Mc 対戦モデル
Md 報酬モデル
P 学習プログラム
10 学習装置
22 環境部
23 学習部
31 モデル比較部
32 対戦確率計算部
33 強化学習部
35 データベース
M 学習モデル
Ma 運動モデル
Mb 環境モデル
Mc 対戦モデル
Md 報酬モデル
P 学習プログラム
Claims (5)
- エージェント同士が対戦する対戦環境下において、前記エージェントの学習モデルを強化学習させるための処理部を備える学習装置であって、
前記学習モデルは、ハイパーパラメータを含み、
前記処理部は、
学習対象となる前記エージェントの対戦相手となる複数の前記エージェントの強さを評価するステップと、
学習対象となる前記エージェントに対して、対戦相手となる前記エージェントの強さに応じた対戦確率を設定するステップと、
前記対戦確率に基づいて、対戦相手となる前記エージェントを設定するステップと、
設定後の対戦相手となる前記エージェントを対戦させて、学習対象となる前記エージェントの強化学習を実行するステップと、を実行する学習装置。 - 前記対戦確率を設定するステップでは、対戦相手となる複数の前記エージェントの中において、対戦相手となる前記エージェントの強さが弱いほど、対戦確率を低くする請求項1に記載の学習装置。
- 前記エージェントの強さを評価するステップでは、前記エージェントの強さの指標として、対戦勝率、レーティング、KLダイバージェンスの少なくとも一つを含む請求項1または2に記載の学習装置。
- エージェント同士が対戦する対戦環境下において、前記エージェントの学習モデルを、学習装置を用いて強化学習させるための学習方法であって、
前記学習モデルは、ハイパーパラメータを含み、
前記学習装置に、
学習対象となる前記エージェントの対戦相手となる複数の前記エージェントの強さを評価するステップと、
学習対象となる前記エージェントに対して、対戦相手となる前記エージェントの強さに応じた対戦確率を設定するステップと、
前記対戦確率に基づいて、対戦相手となる前記エージェントを設定するステップと、
設定後の対戦相手となる前記エージェントを対戦させて、学習対象となる前記エージェントの強化学習を実行するステップと、を実行させる学習方法。 - エージェント同士が対戦する対戦環境下において、前記エージェントの学習モデルを、学習装置を用いて強化学習させるための学習プログラムであって、
前記学習モデルは、ハイパーパラメータを含み、
前記学習装置に、
学習対象となる前記エージェントの対戦相手となる複数の前記エージェントの強さを評価するステップと、
学習対象となる前記エージェントに対して、対戦相手となる前記エージェントの強さに応じた対戦確率を設定するステップと、
前記対戦確率に基づいて、対戦相手となる前記エージェントを設定するステップと、
設定後の対戦相手となる前記エージェントを対戦させて、学習対象となる前記エージェントの強化学習を実行するステップと、を実行させる学習プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022076197A JP2023165309A (ja) | 2022-05-02 | 2022-05-02 | 学習装置、学習方法及び学習プログラム |
PCT/JP2023/017149 WO2023214584A1 (ja) | 2022-05-02 | 2023-05-02 | 学習装置、学習方法及び学習プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022076197A JP2023165309A (ja) | 2022-05-02 | 2022-05-02 | 学習装置、学習方法及び学習プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023165309A true JP2023165309A (ja) | 2023-11-15 |
Family
ID=88646505
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022076197A Pending JP2023165309A (ja) | 2022-05-02 | 2022-05-02 | 学習装置、学習方法及び学習プログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2023165309A (ja) |
WO (1) | WO2023214584A1 (ja) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021038759A1 (ja) * | 2019-08-28 | 2021-03-04 | 富士通株式会社 | モデル選択方法、モデル選択プログラムおよび情報処理装置 |
CN112016704B (zh) * | 2020-10-30 | 2021-02-26 | 超参数科技(深圳)有限公司 | Ai模型训练方法、模型使用方法、计算机设备及存储介质 |
CN113282100A (zh) * | 2021-04-28 | 2021-08-20 | 南京大学 | 基于强化学习的无人机对抗博弈训练控制方法 |
CN114330754A (zh) * | 2022-03-04 | 2022-04-12 | 中国科学院自动化研究所 | 一种策略模型训练方法、装置及设备 |
-
2022
- 2022-05-02 JP JP2022076197A patent/JP2023165309A/ja active Pending
-
2023
- 2023-05-02 WO PCT/JP2023/017149 patent/WO2023214584A1/ja unknown
Also Published As
Publication number | Publication date |
---|---|
WO2023214584A1 (ja) | 2023-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Alhejali et al. | Using genetic programming to evolve heuristics for a Monte Carlo Tree Search Ms Pac-Man agent | |
CN112488310A (zh) | 一种多智能体群组协作策略自动生成方法 | |
CN111856925A (zh) | 基于状态轨迹的对抗式模仿学习方法及装置 | |
CN113952733A (zh) | 一种多智能体自适应采样策略生成方法 | |
CN116090549A (zh) | 一种基于知识驱动的多智能体强化学习决策方法、系统及存储介质 | |
Mousavi et al. | Applying q (λ)-learning in deep reinforcement learning to play atari games | |
Pena et al. | Learning and evolving combat game controllers | |
Singh et al. | Fuzzy logic based cricket player performance evaluator | |
Nam et al. | Generation of diverse stages in turn-based role-playing game using reinforcement learning | |
Wiering et al. | Reinforcement learning soccer teams with incomplete world models | |
WO2023214584A1 (ja) | 学習装置、学習方法及び学習プログラム | |
WO2023214583A1 (ja) | 学習装置、学習方法及び学習プログラム | |
Anthony | Expert iteration | |
CN111882072A (zh) | 一种与规则对弈的智能模型自动化课程训练方法 | |
Somasundaram et al. | Double Q–learning Agent for Othello Board Game | |
WO2023214582A1 (ja) | 学習装置、学習方法及び学習プログラム | |
Kao et al. | Gumbel MuZero for the Game of 2048 | |
Büttner et al. | Training a reinforcement learning agent based on XCS in a competitive snake environment | |
Mozgovoy et al. | Building a believable agent for a 3D boxing simulation game | |
WO2023214585A1 (ja) | 学習装置、学習方法及び学習プログラム | |
Liu et al. | An evolutionary game tree search algorithm of military chess game based on neural value network | |
Baláž et al. | AlphaZero with Real-Time Opponent Skill Adaptation | |
Zhao et al. | Building a 3-player Mahjong AI using deep reinforcement learning | |
Neto et al. | Improving the accuracy of the cases in the automatic case elicitation-based hybrid agents for checkers | |
Xu et al. | Parametrized control in soccer simulation with deep reinforcement learning |