JP7014181B2

JP7014181B2 - 学習装置および学習方法

Info

Publication number: JP7014181B2
Application number: JP2018559025A
Authority: JP
Inventors: 健人中田; 拓也成平; 洋貴鈴木; 章人大里
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2016-12-26
Filing date: 2017-12-14
Publication date: 2022-02-01
Anticipated expiration: 2037-12-14
Also published as: WO2018123606A1; US20190244133A1; CN110088779A; JPWO2018123606A1; EP3561740A1; EP3561740A4

Description

本開示は、学習装置および学習方法に関し、特に、ユーザ入力に基づいて強化学習モデルを容易に修正することができるようにした学習装置および学習方法に関する。

エージェント、環境、行動、および報酬が与えられた際に、報酬を最大化する方策を学習する強化学習モデルがある（例えば、非特許文献１参照）。

"Maximum Entropy Inverse Reinforcement Learning", Brian D. Ziebart, Andrew Maas, J.Andrew Bagnell, and Anind K. Dey，the Association for the Advancement of Artificial Intelligence (AAAI),2008.7.13

しかしながら、ユーザ入力に基づいて強化学習モデルを容易に修正することは考案されていなかった。

本開示は、このような状況に鑑みてなされたものであり、ユーザ入力に基づいて強化学習モデルを容易に修正することができるようにするものである。

本開示の一側面の学習装置は、強化学習モデルにより学習された方策を示す方策情報である強化学習モデル情報と、前記方策に基づいて算出された前記方策におけるゴールに至る確率密度の等高線とを表示部に表示させる表示制御部と、前記強化学習モデル情報に対する方策の教示に基づいて、前記強化学習モデルを修正する修正部とを備える学習装置である。

本開示の一側面の学習方法は、本開示の一側面の学習装置に対応する。

本開示の一側面においては、強化学習モデルにより学習された方策を示す方策情報である強化学習モデル情報と、前記方策に基づいて算出された前記方策におけるゴールに至る確率密度の等高線とが表示部に表示され、前記強化学習モデル情報に対する方策の教示に基づいて、前記強化学習モデルが修正される。

なお、本開示の一側面の学習装置は、コンピュータにプログラムを実行させることにより実現することができる。

また、本開示の一側面の学習装置を実現するために、コンピュータに実行させるプログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。

本開示の一側面によれば、ユーザ入力に基づいて強化学習モデルを容易に修正することができる。

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

本開示を適用した学習装置としてのＰＣの第１実施の形態の構成例を示すブロック図である。環境マップを説明する図である。環境マップを説明する他の図である。方策情報が重畳された環境マップの例を示す図である。移動方策の第１の教示方法を説明する図である。移動方策の第１の教示方法を説明する他の図である。移動方策の第２の教示方法を説明する図である。図１のＰＣの移動方策学習処理を説明するフローチャートである。図８の修正処理を説明するフローチャートである。本開示を適用した学習装置としてのＰＣの第２実施の形態の構成例を示すブロック図である。報酬関数情報が重畳された環境マップの例を示す図である。報酬関数の教示方法を説明する図である。図１０のＰＣの移動方策学習処理を説明するフローチャートである。図１３の修正処理を説明するフローチャートである。移動方策の方策情報が重畳された環境マップの他の例を示す図である。コンピュータのハードウエアの構成例を示すブロック図である。

以下、本開示を実施するための形態（以下、実施の形態という）について説明する。なお、説明は以下の順序で行う。
１．第１実施の形態：パーソナルコンピュータ（ＰＣ）（図１乃至図９）
２．第２実施の形態：パーソナルコンピュータ（ＰＣ）（図１０乃至図１４）
３．第３実施の形態：VR（Virtual Reality）機器（図１５）
４．第４実施の形態：コンピュータ（図１６）

＜第１実施の形態＞
（ＰＣの第１実施の形態の構成例）
図１は、本開示を適用した学習装置としてのＰＣの第１実施の形態の構成例を示すブロック図である。

図１のＰＣ１０は、環境設定部１１、初期化部１２、学習部１３、表示制御部１４、表示部１５、受付部１６、および修正部１７により構成される。ＰＣ１０は、例えばコンピュータにより構成され、エージェントの移動方策を強化学習する。

具体的には、ＰＣ１０の環境設定部１１は、エージェントがシミュレーションなどの仮想世界に存在する場合、エージェントの動作環境ファイルなどに基づいて仮想世界上にエージェントの周辺環境を構築する。そして、環境設定部１１は、その周辺環境を示すGUI（Graphical User Interface）画像である環境マップ（環境情報）を生成する。

一方、エージェントが実世界に存在するロボットなどである場合、環境設定部１１は、実世界においてエージェントの各種センサにより観測されたデータに基づいて、エージェントの周辺環境の環境マップを生成する。環境設定部１１は、生成された環境マップを表示制御部１４に供給する。

初期化部１２は、受付部１６から供給される価値関数または移動方策の初期値に基づいて、エージェントの移動方策を学習する強化学習モデルの初期化を行う。このとき、強化学習モデルに用いられる報酬関数の初期値も設定される。ここでは、報酬関数モデルは、予め登録された報酬基底関数群の中から選択された所定の報酬基底関数群を重み付け加算する線形基底関数モデルであるものとするが、これに限定されない。初期化部１２は、初期化された強化学習モデルを学習部１３に供給する。

学習部１３は、初期化部１２または修正部１７から供給される強化学習モデルを最適化し、最適化された強化学習モデルに基づいて移動方策を学習する。学習部１３は、最適化された強化学習モデルを修正部１７に供給し、学習された移動方策を表示制御部１４に供給する。また、学習部１３は、移動方策の最終的な学習結果を出力する。さらに、学習部１３は、必要に応じて、学習された移動方策を保持する。

表示制御部１４は、環境設定部１１から供給される環境マップを表示部１５に供給し、表示部１５に表示させる。また、表示制御部１４は、学習部１３または修正部１７から供給される移動方策を示すGUI画像である方策情報などを、強化学習モデルに関する強化学習モデル情報として生成する。表示制御部１４は、環境マップに方策情報などを重畳し、表示部１５に供給して表示させる。さらに、表示制御部１４は、必要に応じて、報酬基底関数の追加の有無を選択する選択画面を生成し、表示部１５に供給して表示させる。

受付部１６は、ユーザからの入力を受け付ける。例えば、受付部１６は、ユーザから入力される価値関数または移動方策の初期値を受け付け、初期化部１２に供給する。また、受付部１６は、表示部１５に表示された方策情報などを見たユーザから、方策情報に対する移動方策の間接的な教示としての移動経路の入力を受け付け、その移動経路を修正部１７に供給する。

修正部１７は、各種の逆強化学習の手法にしたがって、受付部１６から供給される移動経路に基づいて、移動方策を最適化するように、学習部１３から供給される強化学習モデルを修正する。このとき、修正部１７は、必要に応じて、強化学習モデルの報酬基底関数を追加する。逆強化学習の手法としては、例えば、非特許文献１に記載されている手法を用いることができる。

移動方策πの最適化は、例えば、エージェントの周辺環境をＭとし、受付部１６から供給され移動経路をＺ_Ｅ（ｓ，ａ）としたとき、以下の式（１）で定義される。

なお、ｓは、エージェントの位置などのエージェントの状態を表し、ａはエージェントの行動を表し、Ｐは確率を表す。

一般に、上述した式（１）を満たす移動方策π^＊は多数存在し、これを１つに制約するために、種々の問題設定方法が存在する。何れの問題設定方法においても、移動方策πを最適化する途中で、報酬関数も間接的に修正される。修正部１７は、修正後の強化学習モデルを学習部１３に供給し、最適化された移動方策を表示制御部１４に供給する。

（環境マップの説明）
図２および図３は、環境マップを説明する図である。

図２および図３の例では、エージェント３１の周囲にエージェント３１が移動可能な領域３２と移動不可能な領域３３が存在し、移動可能な領域３２内に正の報酬値が設定されたゴール３４と移動において障害となる障害物３５とが存在する。

この場合、まず、環境設定部１１は、図２に示すように、エージェント３１、領域３２、領域３３、ゴール３４、および障害物３５を含む周辺環境を２次元で示すGUI画像３０を生成する。次に、環境設定部１１は、GUI画像３０を強化学習モデルの直交座標系に基づくグリッド（格子点）に分割して、環境マップ５０を生成する。このグリッドは、強化学習モデルの報酬関数や確率密度分布の単位となる。

（方策情報が重畳された環境マップの例）
図４は、修正部１７による修正前の強化学習モデルにより学習された移動方策の方策情報が重畳された環境マップの例を示す図である。

図３の環境マップ５０が生成されている場合、表示制御部１４は、図４に示すように、修正部１７による修正前の強化学習モデルにより学習された、エージェント３１の現在の位置からゴール３４までの移動方策に基づく移動経路を矢印で示す方策情報７１を生成する。

また、表示制御部１４は、学習部１３から供給される移動方策から、各グリッドにエージェント３１が存在する場合にエージェント３１がゴール３４に至る確率密度分布（移動予測分布）を計算する。そして、表示制御部１４は、移動予測分布の確率の等高線のGUI画像である等高線画像７２乃至７５を生成する。なお、等高線画像７２，７３，７４，７５の順に、移動予測分布の確率は高い。

表示制御部１４は、以上のようにして生成された方策情報７１と等高線画像７２乃至７５を環境マップ５０に重畳して表示部１５に表示させる。

なお、障害物３５は、移動において障害となるが、移動可能な領域３２内に存在するため、図４に示すように、修正前の強化学習モデルにより学習された移動方策に基づく移動経路は、障害物３５を通過する経路となる可能性がある。また、等高線画像７２乃至７５は環境マップ５０に重畳されなくてもよい。

（移動方策の第１の教示方法の説明）
図５および図６は、図４の方策情報７１に対する移動方策の第１の教示方法を説明する図である。

図４に示したように、環境マップ５０に対して方策情報７１と等高線画像７２乃至７５が重畳される場合、ユーザは、図５に示すように、例えば、エージェント３１の現在の位置から障害物３５を通過せずにゴール３４に向かう移動経路１１１を入力する。これにより、ユーザは、その移動経路１１１に対応する移動方策を所望の移動方策として教示する。

この場合、修正部１７は、移動経路１１１に基づいて、移動方策を最適化するように強化学習モデルを修正し、最適化された移動方策を表示制御部１４に供給する。表示制御部１４は、修正部１７から供給される移動方策に基づく移動経路を矢印で示す方策情報１２１を生成する。また、表示制御部１４は、その移動方策から移動予測分布を計算し、その移動予測分布の確率の等高線画像１２２乃至１２５を生成する。そして、表示制御部１４は、図６に示すように、環境マップ５０に対して方策情報１２１と等高線画像１２２乃至１２５を重畳し、表示部１５に表示させる。なお、等高線画像１２２，１２３，１２４，１２５の順に、移動予測分布の確率は高い。

（移動方策の第２の教示方法の説明）
図７は、図４の方策情報７１に対する移動方策の第２の教示方法を説明する図である。

図４に示したように、環境マップ５０に対して方策情報７１と等高線画像７２乃至７５が重畳される場合、ユーザは、図７に示すように、例えば、エージェント３１の現在の位置から障害物３５を通過せずにゴール３４に向かう移動経路の途中までの移動経路１３１を入力する。これにより、ユーザは、その移動経路１３１に対応する移動方策を所望の移動方策として教示する。

この場合、修正部１７は、移動経路１３１に基づいて、移動経路１３１を通ってゴール３４に向かう移動経路に対応する移動方策を最適化するように、強化学習モデルを修正し、最適化された移動方策を表示制御部１４に供給する。表示制御部１４は、修正部１７から供給される移動方策に基づく移動経路のうちの移動経路１３１以降の経路を矢印で示す方策情報１４１を生成する。また、表示制御部１４は、その移動方策から移動予測分布を計算し、その移動予測分布の確率の等高線画像１４２乃至１４５を生成する。

そして、表示制御部１４は、図７に示すように、環境マップ５０に対して、移動経路１３１、方策情報１４１、および等高線画像１４２乃至１４５を重畳し、表示部１５に表示させる。なお、等高線画像１４２，１４３，１４４，１４５の順に、移動予測分布の確率は高い。

移動経路１１１（１３１）の入力方法としては、例えば、図示せぬマウスを用いて移動経路１１１（１３１）の軌跡を入力する方法、移動経路上のグリッドの座標を入力する方法などがある。

（ＰＣの処理の説明）
図８は、図１のＰＣ１０の移動方策学習処理を説明するフローチャートである。

図８のステップＳ３１において、ＰＣ１０の環境設定部１１は、エージェントが仮想世界に存在するかどうかを判定する。ステップＳ３１でエージェントが仮想世界に存在すると判定された場合、ステップＳ３２において、環境設定部１１は、エージェントの動作環境ファイルなどを取得する。

ステップＳ３３において、環境設定部１１は、ステップＳ３２で取得されたエージェントの動作環境ファイルなどに基づいて仮想世界上にエージェントの周辺環境を構築し、その周辺環境の環境マップを生成する。そして、環境設定部１１は、生成された環境マップを表示制御部１４に供給し、処理をステップＳ３６に進める。

一方、ステップＳ３１でエージェントが仮想世界に存在しないと判定された場合、即ち、エージェントが実世界に存在する場合、処理はステップＳ３４に進む。ステップＳ３４において、環境設定部１１は、実世界においてエージェントの各種センサにより観測されたデータを取得する。

ステップＳ３５において、環境設定部１１は、ステップＳ３４で取得されたデータに基づいて、エージェントの周辺環境の環境マップを生成し、表示制御部１４に供給して、処理をステップＳ３６に進める。

ステップＳ３６において、表示制御部１４は、環境設定部１１から供給される環境マップを表示部１５に供給し、表示部１５に表示させる。

ステップＳ３７において、受付部１６は、価値関数または移動方策の初期値が入力されたかどうかを判定する。ステップＳ３７でまだ価値関数または移動方策の初期値が入力されていないと判定された場合、価値関数または移動方策の初期値が入力されるまで、待機する。

一方、ステップＳ３７で価値関数または移動方策の初期値が入力されたと判定された場合、受付部１６は、ユーザから入力される価値関数または方策の初期値を受け付け、初期化部１２に供給する。そして、ステップＳ３８において、初期化部１２は、受付部１６から供給される価値関数または移動方策に基づいて強化学習モデルの初期化を行う。初期化部１２は、初期化された強化学習モデルを学習部１３に供給する。

ステップＳ３９において、学習部１３は、ユーザからの入力などにより、強化学習モデルの最適化手法を選択する。最適化手法としては、例えばMDP（Markov decision process)などがある。

ステップＳ４０において、学習部１３は、ステップＳ３９により選択された最適化手法で、初期化部１２または修正部１７から供給される強化学習モデルを最適化（探索）し、最適化された強化学習モデルに基づいて移動方策を学習（改善）する。学習部１３は、最適化された強化学習モデルを修正部１７に供給する。学習部１３は、学習された移動方策を表示制御部１４に供給する。

ステップＳ４１において、表示制御部１４は、学習部１３から供給される移動方策に基づいて、方策情報と等高線画像を生成し、環境マップに重畳する。

ステップＳ４２において、表示制御部１４は、方策情報と等高線画像が重畳された環境マップを表示部１５に供給し、表示させる。

ステップＳ４３において、受付部１６は、表示部１５に表示された方策情報などを見たユーザから、方策情報に対して移動方策が教示されたかどうかを判定する。ステップＳ４３で移動方策が教示されたと判定された場合、受付部１６は、移動方策の教示としての移動経路の入力を受け付け、その移動経路を修正部１７に供給して、処理をステップＳ４４に進める。

ステップＳ４４において、修正部１７は、受付部１６から供給される移動経路に基づいて、学習部１３から供給される強化学習モデルを修正する修正処理を行う。この修正処理の詳細は、後述する図９を参照して説明する。

ステップＳ４５において、ＰＣ１０は、処理を終了するかどうかを判定する。例えば、強化学習モデルが収束した場合、または、ユーザにより終了が指示された場合、ステップＳ４５において、ＰＣ１０は、処理を終了すると判定する。そして、学習部１３は、現在の移動方策を最終的な学習結果として出力し、処理を終了する。

一方、強化学習モデルがまだ収束しておらず、ユーザにより終了が指示されていない場合、ステップＳ４５において、ＰＣ１０は、処理を終了しないと判定し、処理をステップＳ４０に戻す。

また、ステップＳ４３で移動方策が教示されていないと判定された場合、処理はステップＳ４０に戻る。

なお、最初のステップＳ４０の処理は、ユーザから最適化（探索）の開始が指示された場合に開始されるようにしてもよい。

図９は、図８のステップＳ４４の修正処理を説明するフローチャートである。

図９のステップＳ５１において、修正部１７は、各種の逆強化学習の手法にしたがって、受付部１６から供給される移動経路に基づいて、学習部１３から供給される強化学習モデルの方策最適化問題を解くことにより、強化学習モデルを修正する。修正部１７は、最適化された移動方策を表示制御部１４に供給する。

ステップＳ５２において、表示制御部１４は、修正部１７から供給される移動方策に基づいて、方策情報と等高線画像を生成し、環境マップに重畳する。

ステップＳ５３において、表示制御部１４は、方策情報と等高線画像が重畳された環境マップを表示部１５に供給し、表示させる。

ステップＳ５４において、修正部１７は、予め登録された報酬基底関数群のうちの、修正後の強化学習モデルにおいて用いられているｎ個の報酬基底関数φ_１（ｓ，ａ）乃至φ_ｎ（ｓ，ａ）ではない報酬基底関数を、報酬基底関数φ_ｎ＋１（ｓ，ａ）として追加するかどうかを判定する。

例えば、修正部１７は、予め登録された報酬基底関数群のうちの、報酬基底関数φ_１（ｓ，ａ）乃至φ_ｎ（ｓ，ａ）以外の各報酬基底関数を順に報酬基底関数φ_ｎ＋１（ｓ，ａ）として追加する。なお、報酬基底関数φ_ｉは、状態ｓにのみ依存する報酬基底関数φ_ｉ（ｓ）であってもよい。修正部１７は、受付部１６から供給される移動経路に基づいて、報酬基底関数φ_ｎ＋１（ｓ，ａ）が追加された強化学習モデルの方策最適化問題を解く。

その結果、追加前の強化学習モデルと比較して問題設定に対応する目的関数が改善した報酬基底関数φ_ｎ＋１（ｓ，ａ）が少なくとも１つ存在する場合、ステップＳ５４において、修正部１７は、目的関数が最も改善した報酬基底関数φ_ｎ＋１（ｓ，ａ）を追加すると判定する。一方、目的関数が改善した報酬基底関数φ_ｎ＋１（ｓ，ａ）が１つも存在しない場合、ステップＳ５４において、修正部１７は、報酬基底関数φ_ｎ＋１（ｓ，ａ）を追加しないと判定する。

ステップＳ５４で報酬基底関数φ_ｎ＋１（ｓ，ａ）を追加すると判定された場合、ステップＳ５５において、表示制御部１４は、報酬基底関数の追加の有無を選択する選択画面を表示部１５に表示させる。

ステップＳ５６において、受付部１６は、選択画面を見たユーザから、基底関数の追加の有りを選択する入力が行われたかどうかを判定する。ステップＳ５６で基底関数の追加の有りを選択する入力が行われたと判定された場合、受付部１６は、その入力を受け付ける。

ステップＳ５７において、修正部１７は、受付部１６から供給される移動経路に基づいて、ステップＳ５１の処理と同様に、報酬基底関数φ_ｎ＋１（ｓ，ａ）が追加された強化学習モデルの方策最適化問題を解くことにより、強化学習モデルを修正する。修正部１７は、修正後の強化学習モデルを学習部１３に供給し、最適化された移動方策を表示制御部１４に供給する。

ステップＳ５８およびＳ５９の処理は、ステップＳ５２およびＳ５３の処理と同様であるので、説明は省略する。ステップＳ５９の処理後、処理は図８のステップＳ４４に戻り、ステップＳ４５に進む。

一方、ステップＳ５４で報酬基底関数φ_ｎ＋１（ｓ，ａ）を追加しないと判定された場合、または、ステップＳ５６で報酬基底関数φ_ｎ＋１（ｓ，ａ）の追加の有りを選択する入力が行われていないと判定された場合、報酬基底関数φ_ｎ＋１（ｓ，ａ）は追加されない。そして、修正部１７は、ステップＳ５１で修正された強化学習モデルを学習部１３に供給し、処理を図８のステップＳ４４に戻し、ステップＳ４５に進める。

なお、ステップＳ５４の処理の前に、修正部１７は、ステップＳ５１で最適化された移動方策とユーザにより教示された移動方策との差分（距離尺度）が閾値より大きいかどうかを判定し、閾値より大きい場合、処理をステップＳ５４に進めるようにしてもよい。この場合、距離尺度が閾値以下であるとき、報酬基底関数φ_ｎ＋１（ｓ，ａ）は追加されず、修正部１７は、ステップＳ５１で修正された強化学習モデルを学習部１３に供給し、処理を図８のステップＳ４４に戻してステップＳ４５に進める。

以上のように、ＰＣ１０は、方策情報を表示部１５に表示させる。従って、ユーザは、表示部１５に表示された方策情報を見ることにより、現在の方策を認識することができる。よって、ユーザは、方策情報を見ながら、GUIを介して所望の移動方策を直感的に教示し、強化学習モデルを直接的に容易に修正することができる。即ち、ユーザは、ＰＣ１０との双方向のやり取りにより、強化学習モデルを直接的に容易に修正することができる。その結果、ユーザが明らかに不適切と考える移動方策の学習を防止することが可能となり、移動方策の改善や強化学習モデルの最適化を効率的に行うことができる。

＜第２実施の形態＞
（ＰＣの第２実施の形態の構成例）
図１０は、本開示を適用した学習装置としてのＰＣの第２実施の形態の構成例を示すブロック図である。

図１０に示す構成のうち、図１の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。

図１０のＰＣ２００の構成は、学習部１３、表示制御部１４、受付部１６、修正部１７が、学習部２０３、表示制御部２０４、受付部２０６、修正部２０７に代わる点が、図１のＰＣ１０の構成と異なる。ＰＣ２００では、ユーザが、強化学習モデルの修正を、移動方策の教示により直接的に行うのではなく、報酬関数の教示により間接的に行う。

具体的には、ＰＣ１０の学習部２０３は、初期化部１２または修正部２０７から供給される強化学習モデルを最適化し、最適化された強化学習モデルに基づいて移動方策を学習する。学習部２０３は、最適化された強化学習モデルを修正部２０７に供給し、最適化された強化学習モデルにおける報酬関数（報酬値分布）を表示制御部２０４に供給する。また、学習部２０３は、移動方策の最終的な学習結果を出力する。さらに、学習部２０３は、必要に応じて、学習された移動方策を保持する。

表示制御部２０４は、環境設定部１１から供給される環境マップを表示部１５に供給し、表示部１５に表示させる。また、表示制御部２０４は、学習部２０３または修正部２０７から供給される報酬関数を示すGUI画像である報酬関数情報を、強化学習モデル情報として生成する。表示制御部２０４は、環境マップに報酬関数情報を重畳し、表示部１５に供給して表示させる。

受付部２０６は、ユーザからの入力を受け付ける。例えば、受付部２０６は、ユーザから入力される価値関数または移動方策の初期値を受け付け、初期化部１２に供給する。また、受付部２０６は、表示部１５に表示された報酬関数情報などを見たユーザから、報酬関数情報に対する報酬関数の教示としてのグリッド単位の報酬値の入力を受け付け、そのグリッド単位の報酬値を修正部２０７に供給する。

修正部２０７は、各種の逆強化学習の手法にしたがって、受付部２０６から供給されるグリッド単位の報酬値に基づいて、そのグリッド単位の報酬値に報酬関数が近似するように、学習部２０３から供給される強化学習モデルにおける報酬関数を修正する。このとき、修正部２０７は、必要に応じて、強化学習モデルの報酬基底関数を追加する。逆強化学習の手法としては、例えば、非特許文献１に記載されている手法を用いることができる。

報酬関数の近似は、報酬関数を構成するｎ個の報酬基底関数をφ_ｉ（ｓ，ａ）（ｉ=1,2,...,n）とし、報酬基底関数φ_ｉに対する重みをｗ_ｉとしたとき、最小二乗法を用いて、重みｗ_ｉを以下の式（２）により更新することにより行われる。

なお、Ｒ_Ｅ（ｓ，ａ）は、状態ｓおよび行動ａにおいて教示されたグリッド単位の報酬値の分布を示す。Φは計画行列、Ｉは単位行列、λは正則化パラメタを表す。

報酬関数の近似方法は、式（２）を用いた方法に限定されない。また、報酬基底関数φ_ｉは、状態ｓにのみ依存する報酬基底関数φ_ｉ（ｓ）であてもよく、この場合、分布Ｒ_Ｅは、状態ｓにのみ依存する分布Ｒ_Ｅ（ｓ）である。

修正部２０７は、報酬関数が修正された強化学習モデルを学習部２０３に供給し、修正された報酬関数を表示制御部２０４に供給する。

（報酬関数情報が重畳された環境マップの例）
図１１は、修正部２０７による修正前の強化学習モデルにおける報酬関数の報酬関数情報が重畳された環境マップの例を示す図である。

図３の環境マップ５０が生成されている場合、表示制御部２０４は、図１１に示すように、修正部２０７による修正前の強化学習モデルにおける報酬関数に基づいて、各グリッドの報酬値を色や模様等で示す報酬関数情報２２１（報酬値マップ）を生成する。そして、表示制御部２０４は、報酬関数情報２２１を環境マップ５０に重畳して表示部１５に表示させる。

図１１の例では、ゴール３４に対応するグリッドの報酬値が正であり、その他のグリッドの報酬値が０である。従って、報酬関数情報２２１は、ゴール３４に対応するグリッドの色（図１１の例ではグレー）が他のグリッドの色（図１１の例では透明色）とは異なるGUI画像である。

（報酬関数の教示方法の説明）
図１２は、図１１の報酬関数情報２２１に対する報酬関数の教示方法を説明する図である。

図１１に示したように、環境マップ５０に対して報酬関数情報２２１が重畳される場合、ユーザは、図１２に示すように、例えば、障害物３５の領域２４１内の各グリッドに対して、負の報酬値－ｒ_１を入力する。また、ユーザは、エージェント３１に対してゴール３４とは上下方向で反対側の領域２４２内の各グリッドに対して、負の報酬値－ｒ_２を入力する。

以上により、ユーザは、ゴール３４に対応するグリッドの報酬値が正であり、領域２４１内の各グリッドの報酬値が報酬値－ｒ_１であり、領域２４２内の各グリッドの報酬値が報酬値－ｒ_２である報酬関数を所望の報酬関数として教示する。

この場合、修正部２０７は、領域２４１内の各グリッドの報酬値－ｒ_１および領域２４２内の各グリッドの報酬値－ｒ_２に基づいて、ユーザにより教示された報酬関数に近似するように、強化学習モデルにおける報酬関数を修正する。そして、修正部２０７は、修正後の報酬関数を表示制御部２０４に供給する。表示制御部２０４は、修正部２０７から供給される報酬関数の報酬関数情報を生成し、環境マップ５０に重畳して表示部１５に表示させる。

（ＰＣの処理の説明）
図１３は、図１０のＰＣ２００の移動方策学習処理を説明するフローチャートである。

図１３のステップＳ１３１乃至Ｓ１３９の処理は、図８のステップＳ３１乃至Ｓ３９の処理と同様であるので、説明は省略する。

ステップＳ１４０において、学習部２０３は、ステップＳ１３９により選択された最適化手法で、初期化部１２または修正部２０７から供給される強化学習モデルを最適化し、最適化された強化学習モデルに基づいて移動方策を学習する。学習部２０３は、最適化された強化学習モデルを修正部２０７に供給し、最適化された強化学習モデルにおける報酬関数を表示制御部２０４に供給する。

ステップＳ１４１において、表示制御部２０４は、学習部２０３から供給される報酬関数に基づいて、報酬関数情報を生成し、環境マップに重畳する。

ステップＳ１４２において、表示制御部２０４は、報酬関数情報が重畳された環境マップを表示部１５に供給し、表示させる。

ステップＳ１４３において、受付部２０６は、表示部１５に表示された報酬関数情報を見たユーザから、報酬関数情報に対して報酬関数情報が教示されたかどうかを判定する。ステップＳ１４３で報酬関数情報が教示されたと判定された場合、受付部２０６は、報酬関数情報の教示としてのグリッド単位の報酬値を受け付け、その報酬値を修正部２０７に供給して、処理をステップＳ１４４に進める。

ステップＳ１４４において、修正部２０７は、受付部２０６から供給されるグリッド単位の報酬値に基づいて、学習部２０３から供給される強化学習モデルを修正する修正処理を行う。この修正処理の詳細は、後述する図１４を参照して説明する。

ステップＳ１４５において、ＰＣ２００は、ステップＳ４５の処理と同様に、処理を終了するかどうかを判定する。ステップＳ１４５で処理を終了すると判定された場合、学習部２０３は、現在の移動方策を最終的な学習結果として出力し、処理を終了する。

一方、ステップＳ１４５で処理を終了しないと判定された場合、処理はステップＳ１４０に戻る。また、ステップＳ１４３で報酬関数が教示されていないと判定された場合、処理はステップＳ１４０に戻る。

なお、最初のステップＳ１４０の処理は、ユーザから最適化の開始が指示された場合に開始されるようにしてもよい。

図１４は、図１３のステップＳ１４４の修正処理を説明するフローチャートである。

図１４のステップＳ１５１において、修正部２０７は、各種の逆強化学習の手法にしたがって、ｎ個の報酬基底関数φ_１（ｓ，ａ）乃至φ_ｎ（ｓ，ａ）を有する報酬関数モデルを用いて、受付部２０６から供給される報酬値で更新された現在の報酬値の分布を近似する回帰問題を解く。これにより、強化学習モデルにおける報酬関数が修正される。修正部２０７は、修正された報酬関数を表示制御部２０４に供給する。

ステップＳ１５２において、表示制御部２０４は、修正部２０７から供給される報酬関数に基づいて、報酬関数情報を生成し、環境マップに重畳する。

ステップＳ１５３において、表示制御部２０４は、報酬関数情報が重畳された環境マップを表示部１５に供給し、表示させる。

ステップＳ１５４において、修正部２０７は、予め登録された報酬基底関数群のうちの、修正後の強化学習モデルにおいて用いられているｎ個の報酬基底関数φ_１（ｓ，ａ）乃至φ_ｎ（ｓ，ａ）ではない報酬基底関数を、報酬基底関数φ_ｎ＋１（ｓ，ａ）として追加するかどうかを判定する。

例えば、修正部２０７は、予め登録された報酬基底関数群のうちの、報酬基底関数φ_１（ｓ，ａ）乃至φ_ｎ（ｓ，ａ）以外の各報酬基底関数を順に報酬基底関数φ_ｎ＋１（ｓ，ａ）として追加する。そして、修正部２０７は、上述した式（２）により、報酬基底関数φ_ｎ＋１（ｓ，ａ）が追加された報酬関数の近似を行い、近似された報酬関数と報酬分布Ｒ_Ｅの残差の絶対値Ｄ（距離尺度）を以下の式（３）により求める。

追加前の絶対値Ｄに比べて絶対値Ｄが減少する（改善する）報酬基底関数φ_ｎ＋１（ｓ，ａ）が少なくとも１つ存在する場合、ステップＳ１５４において、修正部２０７は、絶対値Ｄが最も小さい報酬基底関数φ_ｎ＋１（ｓ，ａ）を追加すると判定する。一方、追加前の絶対値Ｄに比べて絶対値Ｄが減少する報酬基底関数φ_ｎ＋１（ｓ，ａ）が１つも存在しない場合、ステップＳ１５４において、修正部２０７は、報酬基底関数φ_ｎ＋１（ｓ，ａ）を追加しないと判定する。

ステップＳ１５４で報酬基底関数φ_ｎ＋１（ｓ，ａ）を追加すると判定された場合、処理はステップＳ１５５に進む。ステップＳ１５５およびＳ１５６の処理は、図９のステップＳ５５およびＳ５６の処理と同様であるので、説明は省略する。

ステップＳ１５７において、修正部２０７は、報酬基底関数φ_ｎ＋１（ｓ，ａ）が追加された報酬関数モデルを用いて、ステップＳ１５１の処理と同様に、受付部２０６から供給される報酬値で更新された現在の報酬値の分布を近似する回帰問題を解く。これにより、強化学習モデルにおける報酬関数が修正される。修正部２０７は、報酬関数が修正された強化学習モデルを学習部２０３に供給し、修正された報酬関数を表示制御部２０４に供給する。

ステップＳ１５８およびＳ１５９の処理は、ステップＳ１５２およびＳ１５３の処理と同様であるので、説明は省略する。ステップＳ１５９の処理後、処理は図１３のステップＳ１４４に戻り、ステップＳ１４５に進む。

一方、ステップＳ１５４で報酬基底関数φ_ｎ＋１（ｓ，ａ）を追加しないと判定された場合、または、ステップＳ１５６で報酬基底関数φ_ｎ＋１（ｓ，ａ）の追加の有りを選択する入力が行われていないと判定された場合、報酬基底関数φ_ｎ＋１（ｓ，ａ）は追加さない。そして、修正部２０７は、ステップＳ１５１で修正された強化学習モデルを学習部２０３に供給し、処理を図１３のステップＳ１４４に戻し、ステップＳ１４５に進める。

なお、ステップＳ１５４の処理の前に、修正部２０７は、ステップＳ１５１で修正された報酬関数とユーザにより教示された報酬値で更新された現在の報酬値の分布との距離尺度が閾値より大きいかどうかを判定し、閾値より大きい場合、処理をステップＳ１５４に進めるようにしてもよい。この場合、距離尺度が閾値以下であるとき、報酬基底関数φ_ｎ＋１（ｓ，ａ）は追加されず、修正部２０７は、ステップＳ１５１で修正された強化学習モデルを学習部１３に供給し、処理を図１３のステップＳ１４４に戻してステップＳ１４５に進める。

以上のように、ＰＣ２００は、報酬関数情報を表示部１５に表示させる。従って、ユーザは、表示部１５に表示された報酬関数情報を見ることにより、報酬関数を認識することができる。よって、ユーザは、報酬関数情報を見ながら、GUIを介して、エージェントに行うべき行動を行わせる報酬関数を直感的に教示し、強化学習モデルを間接的に容易に修正することができる。即ち、ユーザは、ＰＣ２００との双方向のやり取りにより、強化学習モデルを間接的に容易に修正することができる。その結果、ユーザが明らかに不適切と考える報酬関数を用いた強化学習モデルによる学習を防止することが可能となり、移動方策の改善や強化学習モデルの最適化を効率的に行うことができる。

なお、第１および第２実施の形態において、表示部１５と受付部１６（受付部２０６）は、一体化してタッチパネルを構成するようにしてもよい。この場合、受付部１６は、ユーザのタッチパネルに対する操作による入力を受け付ける。ユーザは、例えば、第２実施の形態において、タッチパネル上の環境マップのうちの報酬値を入力する領域に対して、ピンチイン/ピンチアウト動作などを行うことにより、その領域の報酬値を修正（上げ下げ）し、修正後の報酬値の入力を行う。

また、第１および第２実施の形態では、環境マップは、エージェントの周辺環境を俯瞰したGUI画像であったが、エージェントを視点としたGUI画像であってもよい。この場合、エージェントは、環境マップに含まれない。

さらに、第１および第２実施の形態では、環境マップは、周辺環境を２次元で示すGUI画像であったが、１次元や３次元で示すGUI画像であってもよい。

また、上述した説明では、移動方策が教示されるＰＣ１０において方策情報が環境マップに重畳され、報酬関数が教示されるＰＣ２００において報酬関数情報が環境マップに重畳されるようにしたが、教示内容と重畳内容は対応しなくてもよい。即ち、ＰＣ１０が報酬関数情報を環境マップに重畳し、ＰＣ２００が方策情報を環境マップに重畳してもよい。この場合、ＰＣ１０のユーザは、報酬関数情報が重畳された環境マップを見ながら方策情報を教示し、ＰＣ２００のユーザは、方策情報が重畳された環境マップを見ながら報酬関数を教示する。

＜第３実施の形態＞
（方策情報が重畳された環境マップの例）
本開示を適用した学習装置としてのVR機器の一実施の形態の構成は、エージェントが必ず仮想世界に存在する点、および、表示部１５がユーザの頭部に装着されるヘッドマウントディスプレイである点を除いて、図１のＰＣ１０の構成と同様である。従って、VR機器の各部の説明は、図１のＰＣ１０の各部を用いて行う。VR機器は、エージェント視点の仮想世界の体感を提供する。

図１５は、このようなVR機器の表示部１５に表示される、修正部１７による修正前の強化学習モデルにより学習された移動方策の方策情報が重畳された環境マップの例を示す図である。

図１５に示すように、VR機器の表示部１５に表示される環境マップ２６０は、エージェントを視点とした周辺環境を３次元で示すGUI画像である。図１５の例では、エージェントの前、左、および右に壁２６１乃至２６３が存在し、壁２６１乃至２６３よりエージェント側の空間が移動可能な領域２６４となっている。また、移動可能な領域２６４内には、エージェントの移動を妨害する障害物２６５が存在し、移動可能な領域２６４内の障害物２６５を介してエージェントと反対側には正の報酬値が設定されたゴール２６６が存在する。

なお、図１５の例では、環境マップ２６０の視点がエージェントであり、エージェント自体は環境マップ２６０に存在しないが、環境マップ２６０の視点がエージェントより少し後方であり、環境マップ２６０にエージェントの後ろ姿等が含まれるようにしてもよい。

環境マップ２６０が生成されている場合、表示制御部１４は、図１５に示すように、修正部１７による修正前の強化学習モデルにより学習された、エージェントの現在の位置からゴール２６６までの移動方策に基づく移動経路を矢印で示す方策情報２８１を生成する。そして、表示制御部１４は、方策情報２８１を環境マップ２６０に重畳して表示部１５に表示させる。なお、図１５の環境マップ２６０においても、図４の場合と同様に等高線画像が重畳されるようにしてもよい。

障害物２６５は、移動において障害となるが、移動可能な領域２６４内に存在するため、図１５に示すように、修正前の強化学習モデルにより学習された移動方策に基づく移動経路は、障害物２６５を通過する経路となる場合がある。

このような場合、ユーザは、例えば、図示せぬコントローラを操作して、図１５に示すように、エージェントの現在の位置から障害物２６５を通過せずにゴール２６６に向かう移動経路２８２を入力する。これにより、ユーザは、その移動経路２８２に対応する移動方策を所望の移動方策として教示する。

なお、本開示を適用した学習装置としてのVR機器の構成は、図１０のＰＣ２００の構成と同様にすることもできる。

VR機器では、受付部１６（受付部２０６）が、頭部に表示部１５を装着したユーザの視線方向を連続的に検知する視線検知部を有し、視線検知部が、ユーザの視線方向へ移動する移動経路の入力を受け付けるようにしてもよい。また、受付部１６（受付部２０６）が、ユーザの動きを検知する動き検知部を有し、動き検知部が、ユーザの動きに応じた移動経路の入力を受け付けるようにしてもよい。

また、ＰＣ１０（ＰＣ２００）やVR機器の受付部１６（受付部２０６）は、ユーザのハンドジェスチャを検知するハンドジェスチャ検知部を有し、ハンドジェスチャ検知部が、特定のハンドジェスチャに基づいてユーザからの入力を受け付けるようにしてもよい。この場合、例えば、ユーザは、特定の手の形をしたまま腕を右方向に振ることで、右方向へ移動する移動経路の入力を行う。

さらに、ＰＣ１０（ＰＣ２００）やVR機器の受付部１６（受付部２０６）は、ユーザの音声を認識する音声認識部を有し、音声認識部が、ユーザの発話に基づいてユーザからの入力を受け付けるようにしてもよい。

また、上述した報酬基底関数を追加するかどうかの判断は、Preference IRLに着想を得たランダムサンプリング手法により実現されてもよい。Preference IRLの詳細は、例えば、“APRIL: Active Preference-learning based Reinforcement Learning”, Riad Akrour, Marc Schoenauer, and Mich`ele Sebag, European Conference, ECML PKDD 2012, Bristol, UK, September 24-28, 2012. Proceedings, Part IIに記載されている。

さらに、上述した説明では、強化学習モデルに追加される報酬基底関数は、予め登録された報酬基底関数群の中から選択されたが、予め登録された報酬基底関数群以外の新しい報酬基底関数であってもよい。

また、ＰＣ１０（ＰＣ２００）やVR機器で行われる処理の内容は、図示せぬデータベースに保存され、処理を再現可能にしてもよい。

ＰＣ１０（ＰＣ２００）やVR機器は、様々な周辺環境において、ユーザからの入力に基づいて強化学習モデルを修正することで、修正後の強化学習モデルにおいて、ロバストな移動方策を学習可能にすることができる。

＜第４実施の形態＞
（本開示を適用したコンピュータの説明）
上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

図１６は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

コンピュータ４００において、CPU（Central Processing Unit）４０１，ROM（Read Only Memory）４０２，RAM（Random Access Memory）４０３は、バス４０４により相互に接続されている。

バス４０４には、さらに、入出力インタフェース４０５が接続されている。入出力インタフェース４０５には、入力部４０６、出力部４０７、記憶部４０８、通信部４０９、及びドライブ４１０が接続されている。

入力部４０６は、キーボード、マウス、マイクロフォンなどよりなる。出力部４０７は、ディスプレイ、スピーカなどよりなる。記憶部４０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部４０９は、ネットワークインタフェースなどよりなる。ドライブ４１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア４１１を駆動する。

以上のように構成されるコンピュータ４００では、CPU４０１が、例えば、記憶部４０８に記憶されているプログラムを、入出力インタフェース４０５及びバス４０４を介して、RAM４０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ４００（CPU４０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア４１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータ４００では、プログラムは、リムーバブルメディア４１１をドライブ４１０に装着することにより、入出力インタフェース４０５を介して、記憶部４０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部４０９で受信し、記憶部４０８にインストールすることができる。その他、プログラムは、ROM４０２や記憶部４０８に、あらかじめインストールしておくことができる。

なお、コンピュータ４００が実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本開示は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

また、本開示は、移動以外の行動の方策を強化学習する学習装置にも適用することができる。移動以外の行動としては、例えば、エージェントとしての自動車のクラクションなどの注意喚起やウィンカなどの他のエージェントへの間接的意思表示、これらと移動との組み合わせなどがある。

さらに、本開示は、複数のエージェント（マルチエージェント）の方策を同時に強化学習する学習装置にも適用することができる。この場合、移動方策や報酬関数の教示は、エージェントごとに、エージェントを指定した後に行われる。

なお、本開示は、以下のような構成もとることができる。

（１）
強化学習モデルに関する強化学習モデル情報を表示部に表示させる表示制御部と、
前記強化学習モデル情報に対するユーザの入力に基づいて、前記強化学習モデルを修正する修正部と
を備える学習装置。
（２）
前記強化学習モデル情報は、前記強化学習モデルにより学習された方策を示す方策情報である
ように構成された
前記（１）に記載の学習装置。
（３）
前記強化学習モデル情報は、前記強化学習モデルにおいて用いられる報酬関数を示す報酬関数情報である
ように構成された
前記（１）に記載の学習装置。
（４）
前記ユーザの入力は、方策の教示である
ように構成された
前記（１）乃至（３）のいずれかに記載の学習装置。
（５）
前記修正部は、前記強化学習モデルにおいて用いられる報酬関数の基底関数を追加することにより目的関数が改善する場合、前記報酬関数の基底関数を追加する
ように構成された
前記（４）に記載の学習装置。
（６）
前記ユーザの入力は、報酬関数の教示である
ように構成された
前記（１）乃至（３）のいずれかに記載の学習装置。
（７）
前記修正部は、前記強化学習モデルにおいて用いられる報酬関数の基底関数を追加することにより、前記ユーザの入力として教示された報酬関数と前記ユーザの入力に基づいて修正された前記強化学習モデルの報酬関数との差分が減少する場合、前記報酬関数の基底関数を追加する
ように構成された
前記（６）に記載の学習装置。
（８）
前記表示制御部は、環境を示す環境情報に前記強化学習モデル情報を重畳して前記表示部に表示させる
ように構成された
前記（１）乃至（７）のいずれかに記載の学習装置。
（９）
学習装置が、
強化学習モデルに関する強化学習モデル情報を表示部に表示させる表示制御ステップと、
前記強化学習モデル情報に対するユーザの入力に基づいて、前記強化学習モデルを修正する修正ステップと
を含む学習方法。

１０ＰＣ，１４表示制御部，１５表示部，１７修正部，７１方策情報，５０環境マップ，２００ＰＣ，２０４表示制御部，２０７修正部，２２１報酬関数情報，２６０環境マップ, ２８１方策情報

Claims

強化学習モデルにより学習された方策を示す方策情報である強化学習モデル情報と、前記方策に基づいて算出された前記方策におけるゴールに至る確率密度の等高線とを表示部に表示させる表示制御部と、
前記強化学習モデル情報に対する方策の教示に基づいて、前記強化学習モデルを修正する修正部と
を備える学習装置。
前記表示制御部は、環境を示す環境情報に前記強化学習モデル情報と前記等高線を重畳して前記表示部に表示させる
ように構成された
請求項１に記載の学習装置。
前記方策は、エージェントの移動方策であり、
前記確率密度は、前記エージェントがゴール地点に至る確率密度である
ように構成された
請求項２に記載の学習装置。
前記環境情報は、前記エージェントおよび前記ゴール地点を含む環境を示す情報である
ように構成された
請求項３に記載の学習装置。
前記修正部は、前記強化学習モデルにおいて用いられる報酬関数の基底関数を追加することにより目的関数が改善する場合、前記報酬関数の基底関数を追加する
ように構成された
請求項１に記載の学習装置。
学習装置が、
強化学習モデルにより学習された方策を示す方策情報である強化学習モデル情報と、前記方策に基づいて算出された前記方策におけるゴールに至る確率密度の等高線とを表示部に表示させる表示制御ステップと、
前記強化学習モデル情報に対する方策の教示に基づいて、前記強化学習モデルを修正する修正ステップと
を含む学習方法。