JP7014181B2 - 学習装置および学習方法 - Google Patents

学習装置および学習方法 Download PDF

Info

Publication number
JP7014181B2
JP7014181B2 JP2018559025A JP2018559025A JP7014181B2 JP 7014181 B2 JP7014181 B2 JP 7014181B2 JP 2018559025 A JP2018559025 A JP 2018559025A JP 2018559025 A JP2018559025 A JP 2018559025A JP 7014181 B2 JP7014181 B2 JP 7014181B2
Authority
JP
Japan
Prior art keywords
unit
reward
learning model
reinforcement learning
policy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018559025A
Other languages
English (en)
Other versions
JPWO2018123606A1 (ja
Inventor
健人 中田
拓也 成平
洋貴 鈴木
章人 大里
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JPWO2018123606A1 publication Critical patent/JPWO2018123606A1/ja
Application granted granted Critical
Publication of JP7014181B2 publication Critical patent/JP7014181B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/14Display of multiple viewports
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N99/00Subject matter not provided for in other groups of this subclass
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/003Details of a display terminal, the details relating to the control arrangement of the display terminal and to the interfaces thereto
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2354/00Aspects of interface with display user

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Processing Or Creating Images (AREA)

Description

本開示は、学習装置および学習方法に関し、特に、ユーザ入力に基づいて強化学習モデルを容易に修正することができるようにした学習装置および学習方法に関する。
エージェント、環境、行動、および報酬が与えられた際に、報酬を最大化する方策を学習する強化学習モデルがある(例えば、非特許文献1参照)。
"Maximum Entropy Inverse Reinforcement Learning", Brian D. Ziebart, Andrew Maas, J.Andrew Bagnell, and Anind K. Dey,the Association for the Advancement of Artificial Intelligence (AAAI),2008.7.13
しかしながら、ユーザ入力に基づいて強化学習モデルを容易に修正することは考案されていなかった。
本開示は、このような状況に鑑みてなされたものであり、ユーザ入力に基づいて強化学習モデルを容易に修正することができるようにするものである。
本開示の側面の学習装置は、強化学習モデルにより学習された方策を示す方策情報である強化学習モデル情報と、前記方策に基づいて算出された前記方策におけるゴールに至る確率密度の等高線とを表示部に表示させる表示制御部と、前記強化学習モデル情報に対する方策の教示に基づいて、前記強化学習モデルを修正する修正部とを備え学習装置である。
本開示の側面の学習方法は、本開示の側面の学習装置に対応する。
本開示の側面においては、強化学習モデルにより学習された方策を示す方策情報である強化学習モデル情報と、前記方策に基づいて算出された前記方策におけるゴールに至る確率密度の等高線とが表示部に表示され、前記強化学習モデル情報に対する方策の教示に基づいて、前記強化学習モデルが修正される
なお、本開示の側面の学習装置は、コンピュータにプログラムを実行させることにより実現することができる。
また、本開示の側面の学習装置を実現するために、コンピュータに実行させるプログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。
本開示の側面によれば、ユーザ入力に基づいて強化学習モデルを容易に修正することができる。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
本開示を適用した学習装置としてのPCの第1実施の形態の構成例を示すブロック図である。 環境マップを説明する図である。 環境マップを説明する他の図である。 方策情報が重畳された環境マップの例を示す図である。 移動方策の第1の教示方法を説明する図である。 移動方策の第1の教示方法を説明する他の図である。 移動方策の第2の教示方法を説明する図である。 図1のPCの移動方策学習処理を説明するフローチャートである。 図8の修正処理を説明するフローチャートである。 本開示を適用した学習装置としてのPCの第2実施の形態の構成例を示すブロック図である。 報酬関数情報が重畳された環境マップの例を示す図である。 報酬関数の教示方法を説明する図である。 図10のPCの移動方策学習処理を説明するフローチャートである。 図13の修正処理を説明するフローチャートである。 移動方策の方策情報が重畳された環境マップの他の例を示す図である。 コンピュータのハードウエアの構成例を示すブロック図である。
以下、本開示を実施するための形態(以下、実施の形態という)について説明する。なお、説明は以下の順序で行う。
1.第1実施の形態:パーソナルコンピュータ(PC)(図1乃至図9)
2.第2実施の形態:パーソナルコンピュータ(PC)(図10乃至図14)
3.第3実施の形態:VR(Virtual Reality)機器(図15)
4.第4実施の形態:コンピュータ(図16)
<第1実施の形態>
(PCの第1実施の形態の構成例)
図1は、本開示を適用した学習装置としてのPCの第1実施の形態の構成例を示すブロック図である。
図1のPC10は、環境設定部11、初期化部12、学習部13、表示制御部14、表示部15、受付部16、および修正部17により構成される。PC10は、例えばコンピュータにより構成され、エージェントの移動方策を強化学習する。
具体的には、PC10の環境設定部11は、エージェントがシミュレーションなどの仮想世界に存在する場合、エージェントの動作環境ファイルなどに基づいて仮想世界上にエージェントの周辺環境を構築する。そして、環境設定部11は、その周辺環境を示すGUI(Graphical User Interface)画像である環境マップ(環境情報)を生成する。
一方、エージェントが実世界に存在するロボットなどである場合、環境設定部11は、実世界においてエージェントの各種センサにより観測されたデータに基づいて、エージェントの周辺環境の環境マップを生成する。環境設定部11は、生成された環境マップを表示制御部14に供給する。
初期化部12は、受付部16から供給される価値関数または移動方策の初期値に基づいて、エージェントの移動方策を学習する強化学習モデルの初期化を行う。このとき、強化学習モデルに用いられる報酬関数の初期値も設定される。ここでは、報酬関数モデルは、予め登録された報酬基底関数群の中から選択された所定の報酬基底関数群を重み付け加算する線形基底関数モデルであるものとするが、これに限定されない。初期化部12は、初期化された強化学習モデルを学習部13に供給する。
学習部13は、初期化部12または修正部17から供給される強化学習モデルを最適化し、最適化された強化学習モデルに基づいて移動方策を学習する。学習部13は、最適化された強化学習モデルを修正部17に供給し、学習された移動方策を表示制御部14に供給する。また、学習部13は、移動方策の最終的な学習結果を出力する。さらに、学習部13は、必要に応じて、学習された移動方策を保持する。
表示制御部14は、環境設定部11から供給される環境マップを表示部15に供給し、表示部15に表示させる。また、表示制御部14は、学習部13または修正部17から供給される移動方策を示すGUI画像である方策情報などを、強化学習モデルに関する強化学習モデル情報として生成する。表示制御部14は、環境マップに方策情報などを重畳し、表示部15に供給して表示させる。さらに、表示制御部14は、必要に応じて、報酬基底関数の追加の有無を選択する選択画面を生成し、表示部15に供給して表示させる。
受付部16は、ユーザからの入力を受け付ける。例えば、受付部16は、ユーザから入力される価値関数または移動方策の初期値を受け付け、初期化部12に供給する。また、受付部16は、表示部15に表示された方策情報などを見たユーザから、方策情報に対する移動方策の間接的な教示としての移動経路の入力を受け付け、その移動経路を修正部17に供給する。
修正部17は、各種の逆強化学習の手法にしたがって、受付部16から供給される移動経路に基づいて、移動方策を最適化するように、学習部13から供給される強化学習モデルを修正する。このとき、修正部17は、必要に応じて、強化学習モデルの報酬基底関数を追加する。逆強化学習の手法としては、例えば、非特許文献1に記載されている手法を用いることができる。
移動方策πの最適化は、例えば、エージェントの周辺環境をMとし、受付部16から供給され移動経路をZ(s,a)としたとき、以下の式(1)で定義される。
Figure 0007014181000001
なお、sは、エージェントの位置などのエージェントの状態を表し、aはエージェントの行動を表し、Pは確率を表す。
一般に、上述した式(1)を満たす移動方策πは多数存在し、これを1つに制約するために、種々の問題設定方法が存在する。何れの問題設定方法においても、移動方策πを最適化する途中で、報酬関数も間接的に修正される。修正部17は、修正後の強化学習モデルを学習部13に供給し、最適化された移動方策を表示制御部14に供給する。
(環境マップの説明)
図2および図3は、環境マップを説明する図である。
図2および図3の例では、エージェント31の周囲にエージェント31が移動可能な領域32と移動不可能な領域33が存在し、移動可能な領域32内に正の報酬値が設定されたゴール34と移動において障害となる障害物35とが存在する。
この場合、まず、環境設定部11は、図2に示すように、エージェント31、領域32、領域33、ゴール34、および障害物35を含む周辺環境を2次元で示すGUI画像30を生成する。次に、環境設定部11は、GUI画像30を強化学習モデルの直交座標系に基づくグリッド(格子点)に分割して、環境マップ50を生成する。このグリッドは、強化学習モデルの報酬関数や確率密度分布の単位となる。
(方策情報が重畳された環境マップの例)
図4は、修正部17による修正前の強化学習モデルにより学習された移動方策の方策情報が重畳された環境マップの例を示す図である。
図3の環境マップ50が生成されている場合、表示制御部14は、図4に示すように、修正部17による修正前の強化学習モデルにより学習された、エージェント31の現在の位置からゴール34までの移動方策に基づく移動経路を矢印で示す方策情報71を生成する。
また、表示制御部14は、学習部13から供給される移動方策から、各グリッドにエージェント31が存在する場合にエージェント31がゴール34に至る確率密度分布(移動予測分布)を計算する。そして、表示制御部14は、移動予測分布の確率の等高線のGUI画像である等高線画像72乃至75を生成する。なお、等高線画像72,73,74,75の順に、移動予測分布の確率は高い。
表示制御部14は、以上のようにして生成された方策情報71と等高線画像72乃至75を環境マップ50に重畳して表示部15に表示させる。
なお、障害物35は、移動において障害となるが、移動可能な領域32内に存在するため、図4に示すように、修正前の強化学習モデルにより学習された移動方策に基づく移動経路は、障害物35を通過する経路となる可能性がある。また、等高線画像72乃至75は環境マップ50に重畳されなくてもよい。
(移動方策の第1の教示方法の説明)
図5および図6は、図4の方策情報71に対する移動方策の第1の教示方法を説明する図である。
図4に示したように、環境マップ50に対して方策情報71と等高線画像72乃至75が重畳される場合、ユーザは、図5に示すように、例えば、エージェント31の現在の位置から障害物35を通過せずにゴール34に向かう移動経路111を入力する。これにより、ユーザは、その移動経路111に対応する移動方策を所望の移動方策として教示する。
この場合、修正部17は、移動経路111に基づいて、移動方策を最適化するように強化学習モデルを修正し、最適化された移動方策を表示制御部14に供給する。表示制御部14は、修正部17から供給される移動方策に基づく移動経路を矢印で示す方策情報121を生成する。また、表示制御部14は、その移動方策から移動予測分布を計算し、その移動予測分布の確率の等高線画像122乃至125を生成する。そして、表示制御部14は、図6に示すように、環境マップ50に対して方策情報121と等高線画像122乃至125を重畳し、表示部15に表示させる。なお、等高線画像122,123,124,125の順に、移動予測分布の確率は高い。
(移動方策の第2の教示方法の説明)
図7は、図4の方策情報71に対する移動方策の第2の教示方法を説明する図である。
図4に示したように、環境マップ50に対して方策情報71と等高線画像72乃至75が重畳される場合、ユーザは、図7に示すように、例えば、エージェント31の現在の位置から障害物35を通過せずにゴール34に向かう移動経路の途中までの移動経路131を入力する。これにより、ユーザは、その移動経路131に対応する移動方策を所望の移動方策として教示する。
この場合、修正部17は、移動経路131に基づいて、移動経路131を通ってゴール34に向かう移動経路に対応する移動方策を最適化するように、強化学習モデルを修正し、最適化された移動方策を表示制御部14に供給する。表示制御部14は、修正部17から供給される移動方策に基づく移動経路のうちの移動経路131以降の経路を矢印で示す方策情報141を生成する。また、表示制御部14は、その移動方策から移動予測分布を計算し、その移動予測分布の確率の等高線画像142乃至145を生成する。
そして、表示制御部14は、図7に示すように、環境マップ50に対して、移動経路131、方策情報141、および等高線画像142乃至145を重畳し、表示部15に表示させる。なお、等高線画像142,143,144,145の順に、移動予測分布の確率は高い。
移動経路111(131)の入力方法としては、例えば、図示せぬマウスを用いて移動経路111(131)の軌跡を入力する方法、移動経路上のグリッドの座標を入力する方法などがある。
(PCの処理の説明)
図8は、図1のPC10の移動方策学習処理を説明するフローチャートである。
図8のステップS31において、PC10の環境設定部11は、エージェントが仮想世界に存在するかどうかを判定する。ステップS31でエージェントが仮想世界に存在すると判定された場合、ステップS32において、環境設定部11は、エージェントの動作環境ファイルなどを取得する。
ステップS33において、環境設定部11は、ステップS32で取得されたエージェントの動作環境ファイルなどに基づいて仮想世界上にエージェントの周辺環境を構築し、その周辺環境の環境マップを生成する。そして、環境設定部11は、生成された環境マップを表示制御部14に供給し、処理をステップS36に進める。
一方、ステップS31でエージェントが仮想世界に存在しないと判定された場合、即ち、エージェントが実世界に存在する場合、処理はステップS34に進む。ステップS34において、環境設定部11は、実世界においてエージェントの各種センサにより観測されたデータを取得する。
ステップS35において、環境設定部11は、ステップS34で取得されたデータに基づいて、エージェントの周辺環境の環境マップを生成し、表示制御部14に供給して、処理をステップS36に進める。
ステップS36において、表示制御部14は、環境設定部11から供給される環境マップを表示部15に供給し、表示部15に表示させる。
ステップS37において、受付部16は、価値関数または移動方策の初期値が入力されたかどうかを判定する。ステップS37でまだ価値関数または移動方策の初期値が入力されていないと判定された場合、価値関数または移動方策の初期値が入力されるまで、待機する。
一方、ステップS37で価値関数または移動方策の初期値が入力されたと判定された場合、受付部16は、ユーザから入力される価値関数または方策の初期値を受け付け、初期化部12に供給する。そして、ステップS38において、初期化部12は、受付部16から供給される価値関数または移動方策に基づいて強化学習モデルの初期化を行う。初期化部12は、初期化された強化学習モデルを学習部13に供給する。
ステップS39において、学習部13は、ユーザからの入力などにより、強化学習モデルの最適化手法を選択する。最適化手法としては、例えばMDP(Markov decision process)などがある。
ステップS40において、学習部13は、ステップS39により選択された最適化手法で、初期化部12または修正部17から供給される強化学習モデルを最適化(探索)し、最適化された強化学習モデルに基づいて移動方策を学習(改善)する。学習部13は、最適化された強化学習モデルを修正部17に供給する。学習部13は、学習された移動方策を表示制御部14に供給する。
ステップS41において、表示制御部14は、学習部13から供給される移動方策に基づいて、方策情報と等高線画像を生成し、環境マップに重畳する。
ステップS42において、表示制御部14は、方策情報と等高線画像が重畳された環境マップを表示部15に供給し、表示させる。
ステップS43において、受付部16は、表示部15に表示された方策情報などを見たユーザから、方策情報に対して移動方策が教示されたかどうかを判定する。ステップS43で移動方策が教示されたと判定された場合、受付部16は、移動方策の教示としての移動経路の入力を受け付け、その移動経路を修正部17に供給して、処理をステップS44に進める。
ステップS44において、修正部17は、受付部16から供給される移動経路に基づいて、学習部13から供給される強化学習モデルを修正する修正処理を行う。この修正処理の詳細は、後述する図9を参照して説明する。
ステップS45において、PC10は、処理を終了するかどうかを判定する。例えば、強化学習モデルが収束した場合、または、ユーザにより終了が指示された場合、ステップS45において、PC10は、処理を終了すると判定する。そして、学習部13は、現在の移動方策を最終的な学習結果として出力し、処理を終了する。
一方、強化学習モデルがまだ収束しておらず、ユーザにより終了が指示されていない場合、ステップS45において、PC10は、処理を終了しないと判定し、処理をステップS40に戻す。
また、ステップS43で移動方策が教示されていないと判定された場合、処理はステップS40に戻る。
なお、最初のステップS40の処理は、ユーザから最適化(探索)の開始が指示された場合に開始されるようにしてもよい。
図9は、図8のステップS44の修正処理を説明するフローチャートである。
図9のステップS51において、修正部17は、各種の逆強化学習の手法にしたがって、受付部16から供給される移動経路に基づいて、学習部13から供給される強化学習モデルの方策最適化問題を解くことにより、強化学習モデルを修正する。修正部17は、最適化された移動方策を表示制御部14に供給する。
ステップS52において、表示制御部14は、修正部17から供給される移動方策に基づいて、方策情報と等高線画像を生成し、環境マップに重畳する。
ステップS53において、表示制御部14は、方策情報と等高線画像が重畳された環境マップを表示部15に供給し、表示させる。
ステップS54において、修正部17は、予め登録された報酬基底関数群のうちの、修正後の強化学習モデルにおいて用いられているn個の報酬基底関数φ(s,a)乃至φ(s,a)ではない報酬基底関数を、報酬基底関数φn+1(s,a)として追加するかどうかを判定する。
例えば、修正部17は、予め登録された報酬基底関数群のうちの、報酬基底関数φ(s,a)乃至φ(s,a)以外の各報酬基底関数を順に報酬基底関数φn+1(s,a)として追加する。なお、報酬基底関数φは、状態sにのみ依存する報酬基底関数φ(s)であってもよい。修正部17は、受付部16から供給される移動経路に基づいて、報酬基底関数φn+1(s,a)が追加された強化学習モデルの方策最適化問題を解く。
その結果、追加前の強化学習モデルと比較して問題設定に対応する目的関数が改善した報酬基底関数φn+1(s,a)が少なくとも1つ存在する場合、ステップS54において、修正部17は、目的関数が最も改善した報酬基底関数φn+1(s,a)を追加すると判定する。一方、目的関数が改善した報酬基底関数φn+1(s,a)が1つも存在しない場合、ステップS54において、修正部17は、報酬基底関数φn+1(s,a)を追加しないと判定する。
ステップS54で報酬基底関数φn+1(s,a)を追加すると判定された場合、ステップS55において、表示制御部14は、報酬基底関数の追加の有無を選択する選択画面を表示部15に表示させる。
ステップS56において、受付部16は、選択画面を見たユーザから、基底関数の追加の有りを選択する入力が行われたかどうかを判定する。ステップS56で基底関数の追加の有りを選択する入力が行われたと判定された場合、受付部16は、その入力を受け付ける。
ステップS57において、修正部17は、受付部16から供給される移動経路に基づいて、ステップS51の処理と同様に、報酬基底関数φn+1(s,a)が追加された強化学習モデルの方策最適化問題を解くことにより、強化学習モデルを修正する。修正部17は、修正後の強化学習モデルを学習部13に供給し、最適化された移動方策を表示制御部14に供給する。
ステップS58およびS59の処理は、ステップS52およびS53の処理と同様であるので、説明は省略する。ステップS59の処理後、処理は図8のステップS44に戻り、ステップS45に進む。
一方、ステップS54で報酬基底関数φn+1(s,a)を追加しないと判定された場合、または、ステップS56で報酬基底関数φn+1(s,a)の追加の有りを選択する入力が行われていないと判定された場合、報酬基底関数φn+1(s,a)は追加されない。そして、修正部17は、ステップS51で修正された強化学習モデルを学習部13に供給し、処理を図8のステップS44に戻し、ステップS45に進める。
なお、ステップS54の処理の前に、修正部17は、ステップS51で最適化された移動方策とユーザにより教示された移動方策との差分(距離尺度)が閾値より大きいかどうかを判定し、閾値より大きい場合、処理をステップS54に進めるようにしてもよい。この場合、距離尺度が閾値以下であるとき、報酬基底関数φn+1(s,a)は追加されず、修正部17は、ステップS51で修正された強化学習モデルを学習部13に供給し、処理を図8のステップS44に戻してステップS45に進める。
以上のように、PC10は、方策情報を表示部15に表示させる。従って、ユーザは、表示部15に表示された方策情報を見ることにより、現在の方策を認識することができる。よって、ユーザは、方策情報を見ながら、GUIを介して所望の移動方策を直感的に教示し、強化学習モデルを直接的に容易に修正することができる。即ち、ユーザは、PC10との双方向のやり取りにより、強化学習モデルを直接的に容易に修正することができる。その結果、ユーザが明らかに不適切と考える移動方策の学習を防止することが可能となり、移動方策の改善や強化学習モデルの最適化を効率的に行うことができる。
<第2実施の形態>
(PCの第2実施の形態の構成例)
図10は、本開示を適用した学習装置としてのPCの第2実施の形態の構成例を示すブロック図である。
図10に示す構成のうち、図1の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。
図10のPC200の構成は、学習部13、表示制御部14、受付部16、修正部17が、学習部203、表示制御部204、受付部206、修正部207に代わる点が、図1のPC10の構成と異なる。PC200では、ユーザが、強化学習モデルの修正を、移動方策の教示により直接的に行うのではなく、報酬関数の教示により間接的に行う。
具体的には、PC10の学習部203は、初期化部12または修正部207から供給される強化学習モデルを最適化し、最適化された強化学習モデルに基づいて移動方策を学習する。学習部203は、最適化された強化学習モデルを修正部207に供給し、最適化された強化学習モデルにおける報酬関数(報酬値分布)を表示制御部204に供給する。また、学習部203は、移動方策の最終的な学習結果を出力する。さらに、学習部203は、必要に応じて、学習された移動方策を保持する。
表示制御部204は、環境設定部11から供給される環境マップを表示部15に供給し、表示部15に表示させる。また、表示制御部204は、学習部203または修正部207から供給される報酬関数を示すGUI画像である報酬関数情報を、強化学習モデル情報として生成する。表示制御部204は、環境マップに報酬関数情報を重畳し、表示部15に供給して表示させる。
受付部206は、ユーザからの入力を受け付ける。例えば、受付部206は、ユーザから入力される価値関数または移動方策の初期値を受け付け、初期化部12に供給する。また、受付部206は、表示部15に表示された報酬関数情報などを見たユーザから、報酬関数情報に対する報酬関数の教示としてのグリッド単位の報酬値の入力を受け付け、そのグリッド単位の報酬値を修正部207に供給する。
修正部207は、各種の逆強化学習の手法にしたがって、受付部206から供給されるグリッド単位の報酬値に基づいて、そのグリッド単位の報酬値に報酬関数が近似するように、学習部203から供給される強化学習モデルにおける報酬関数を修正する。このとき、修正部207は、必要に応じて、強化学習モデルの報酬基底関数を追加する。逆強化学習の手法としては、例えば、非特許文献1に記載されている手法を用いることができる。
報酬関数の近似は、報酬関数を構成するn個の報酬基底関数をφ(s,a)(i=1,2,...,n)とし、報酬基底関数φに対する重みをwとしたとき、最小二乗法を用いて、重みwを以下の式(2)により更新することにより行われる。
Figure 0007014181000002
なお、R(s,a)は、状態sおよび行動aにおいて教示されたグリッド単位の報酬値の分布を示す。Φは計画行列、Iは単位行列、λは正則化パラメタを表す。
報酬関数の近似方法は、式(2)を用いた方法に限定されない。また、報酬基底関数φは、状態sにのみ依存する報酬基底関数φ(s)であてもよく、この場合、分布Rは、状態sにのみ依存する分布R(s)である。
修正部207は、報酬関数が修正された強化学習モデルを学習部203に供給し、修正された報酬関数を表示制御部204に供給する。
(報酬関数情報が重畳された環境マップの例)
図11は、修正部207による修正前の強化学習モデルにおける報酬関数の報酬関数情報が重畳された環境マップの例を示す図である。
図3の環境マップ50が生成されている場合、表示制御部204は、図11に示すように、修正部207による修正前の強化学習モデルにおける報酬関数に基づいて、各グリッドの報酬値を色や模様等で示す報酬関数情報221(報酬値マップ)を生成する。そして、表示制御部204は、報酬関数情報221を環境マップ50に重畳して表示部15に表示させる。
図11の例では、ゴール34に対応するグリッドの報酬値が正であり、その他のグリッドの報酬値が0である。従って、報酬関数情報221は、ゴール34に対応するグリッドの色(図11の例ではグレー)が他のグリッドの色(図11の例では透明色)とは異なるGUI画像である。
(報酬関数の教示方法の説明)
図12は、図11の報酬関数情報221に対する報酬関数の教示方法を説明する図である。
図11に示したように、環境マップ50に対して報酬関数情報221が重畳される場合、ユーザは、図12に示すように、例えば、障害物35の領域241内の各グリッドに対して、負の報酬値-rを入力する。また、ユーザは、エージェント31に対してゴール34とは上下方向で反対側の領域242内の各グリッドに対して、負の報酬値-rを入力する。
以上により、ユーザは、ゴール34に対応するグリッドの報酬値が正であり、領域241内の各グリッドの報酬値が報酬値-rであり、領域242内の各グリッドの報酬値が報酬値-rである報酬関数を所望の報酬関数として教示する。
この場合、修正部207は、領域241内の各グリッドの報酬値-rおよび領域242内の各グリッドの報酬値-rに基づいて、ユーザにより教示された報酬関数に近似するように、強化学習モデルにおける報酬関数を修正する。そして、修正部207は、修正後の報酬関数を表示制御部204に供給する。表示制御部204は、修正部207から供給される報酬関数の報酬関数情報を生成し、環境マップ50に重畳して表示部15に表示させる。
(PCの処理の説明)
図13は、図10のPC200の移動方策学習処理を説明するフローチャートである。
図13のステップS131乃至S139の処理は、図8のステップS31乃至S39の処理と同様であるので、説明は省略する。
ステップS140において、学習部203は、ステップS139により選択された最適化手法で、初期化部12または修正部207から供給される強化学習モデルを最適化し、最適化された強化学習モデルに基づいて移動方策を学習する。学習部203は、最適化された強化学習モデルを修正部207に供給し、最適化された強化学習モデルにおける報酬関数を表示制御部204に供給する。
ステップS141において、表示制御部204は、学習部203から供給される報酬関数に基づいて、報酬関数情報を生成し、環境マップに重畳する。
ステップS142において、表示制御部204は、報酬関数情報が重畳された環境マップを表示部15に供給し、表示させる。
ステップS143において、受付部206は、表示部15に表示された報酬関数情報を見たユーザから、報酬関数情報に対して報酬関数情報が教示されたかどうかを判定する。ステップS143で報酬関数情報が教示されたと判定された場合、受付部206は、報酬関数情報の教示としてのグリッド単位の報酬値を受け付け、その報酬値を修正部207に供給して、処理をステップS144に進める。
ステップS144において、修正部207は、受付部206から供給されるグリッド単位の報酬値に基づいて、学習部203から供給される強化学習モデルを修正する修正処理を行う。この修正処理の詳細は、後述する図14を参照して説明する。
ステップS145において、PC200は、ステップS45の処理と同様に、処理を終了するかどうかを判定する。ステップS145で処理を終了すると判定された場合、学習部203は、現在の移動方策を最終的な学習結果として出力し、処理を終了する。
一方、ステップS145で処理を終了しないと判定された場合、処理はステップS140に戻る。また、ステップS143で報酬関数が教示されていないと判定された場合、処理はステップS140に戻る。
なお、最初のステップS140の処理は、ユーザから最適化の開始が指示された場合に開始されるようにしてもよい。
図14は、図13のステップS144の修正処理を説明するフローチャートである。
図14のステップS151において、修正部207は、各種の逆強化学習の手法にしたがって、n個の報酬基底関数φ(s,a)乃至φ(s,a)を有する報酬関数モデルを用いて、受付部206から供給される報酬値で更新された現在の報酬値の分布を近似する回帰問題を解く。これにより、強化学習モデルにおける報酬関数が修正される。修正部207は、修正された報酬関数を表示制御部204に供給する。
ステップS152において、表示制御部204は、修正部207から供給される報酬関数に基づいて、報酬関数情報を生成し、環境マップに重畳する。
ステップS153において、表示制御部204は、報酬関数情報が重畳された環境マップを表示部15に供給し、表示させる。
ステップS154において、修正部207は、予め登録された報酬基底関数群のうちの、修正後の強化学習モデルにおいて用いられているn個の報酬基底関数φ(s,a)乃至φ(s,a)ではない報酬基底関数を、報酬基底関数φn+1(s,a)として追加するかどうかを判定する。
例えば、修正部207は、予め登録された報酬基底関数群のうちの、報酬基底関数φ(s,a)乃至φ(s,a)以外の各報酬基底関数を順に報酬基底関数φn+1(s,a)として追加する。そして、修正部207は、上述した式(2)により、報酬基底関数φn+1(s,a)が追加された報酬関数の近似を行い、近似された報酬関数と報酬分布Rの残差の絶対値D(距離尺度)を以下の式(3)により求める。
Figure 0007014181000003
追加前の絶対値Dに比べて絶対値Dが減少する(改善する)報酬基底関数φn+1(s,a)が少なくとも1つ存在する場合、ステップS154において、修正部207は、絶対値Dが最も小さい報酬基底関数φn+1(s,a)を追加すると判定する。一方、追加前の絶対値Dに比べて絶対値Dが減少する報酬基底関数φn+1(s,a)が1つも存在しない場合、ステップS154において、修正部207は、報酬基底関数φn+1(s,a)を追加しないと判定する。
ステップS154で報酬基底関数φn+1(s,a)を追加すると判定された場合、処理はステップS155に進む。ステップS155およびS156の処理は、図9のステップS55およびS56の処理と同様であるので、説明は省略する。
ステップS157において、修正部207は、報酬基底関数φn+1(s,a)が追加された報酬関数モデルを用いて、ステップS151の処理と同様に、受付部206から供給される報酬値で更新された現在の報酬値の分布を近似する回帰問題を解く。これにより、強化学習モデルにおける報酬関数が修正される。修正部207は、報酬関数が修正された強化学習モデルを学習部203に供給し、修正された報酬関数を表示制御部204に供給する。
ステップS158およびS159の処理は、ステップS152およびS153の処理と同様であるので、説明は省略する。ステップS159の処理後、処理は図13のステップS144に戻り、ステップS145に進む。
一方、ステップS154で報酬基底関数φn+1(s,a)を追加しないと判定された場合、または、ステップS156で報酬基底関数φn+1(s,a)の追加の有りを選択する入力が行われていないと判定された場合、報酬基底関数φn+1(s,a)は追加さない。そして、修正部207は、ステップS151で修正された強化学習モデルを学習部203に供給し、処理を図13のステップS144に戻し、ステップS145に進める。
なお、ステップS154の処理の前に、修正部207は、ステップS151で修正された報酬関数とユーザにより教示された報酬値で更新された現在の報酬値の分布との距離尺度が閾値より大きいかどうかを判定し、閾値より大きい場合、処理をステップS154に進めるようにしてもよい。この場合、距離尺度が閾値以下であるとき、報酬基底関数φn+1(s,a)は追加されず、修正部207は、ステップS151で修正された強化学習モデルを学習部13に供給し、処理を図13のステップS144に戻してステップS145に進める。
以上のように、PC200は、報酬関数情報を表示部15に表示させる。従って、ユーザは、表示部15に表示された報酬関数情報を見ることにより、報酬関数を認識することができる。よって、ユーザは、報酬関数情報を見ながら、GUIを介して、エージェントに行うべき行動を行わせる報酬関数を直感的に教示し、強化学習モデルを間接的に容易に修正することができる。即ち、ユーザは、PC200との双方向のやり取りにより、強化学習モデルを間接的に容易に修正することができる。その結果、ユーザが明らかに不適切と考える報酬関数を用いた強化学習モデルによる学習を防止することが可能となり、移動方策の改善や強化学習モデルの最適化を効率的に行うことができる。
なお、第1および第2実施の形態において、表示部15と受付部16(受付部206)は、一体化してタッチパネルを構成するようにしてもよい。この場合、受付部16は、ユーザのタッチパネルに対する操作による入力を受け付ける。ユーザは、例えば、第2実施の形態において、タッチパネル上の環境マップのうちの報酬値を入力する領域に対して、ピンチイン/ピンチアウト動作などを行うことにより、その領域の報酬値を修正(上げ下げ)し、修正後の報酬値の入力を行う。
また、第1および第2実施の形態では、環境マップは、エージェントの周辺環境を俯瞰したGUI画像であったが、エージェントを視点としたGUI画像であってもよい。この場合、エージェントは、環境マップに含まれない。
さらに、第1および第2実施の形態では、環境マップは、周辺環境を2次元で示すGUI画像であったが、1次元や3次元で示すGUI画像であってもよい。
また、上述した説明では、移動方策が教示されるPC10において方策情報が環境マップに重畳され、報酬関数が教示されるPC200において報酬関数情報が環境マップに重畳されるようにしたが、教示内容と重畳内容は対応しなくてもよい。即ち、PC10が報酬関数情報を環境マップに重畳し、PC200が方策情報を環境マップに重畳してもよい。この場合、PC10のユーザは、報酬関数情報が重畳された環境マップを見ながら方策情報を教示し、PC200のユーザは、方策情報が重畳された環境マップを見ながら報酬関数を教示する。
<第3実施の形態>
(方策情報が重畳された環境マップの例)
本開示を適用した学習装置としてのVR機器の一実施の形態の構成は、エージェントが必ず仮想世界に存在する点、および、表示部15がユーザの頭部に装着されるヘッドマウントディスプレイである点を除いて、図1のPC10の構成と同様である。従って、VR機器の各部の説明は、図1のPC10の各部を用いて行う。VR機器は、エージェント視点の仮想世界の体感を提供する。
図15は、このようなVR機器の表示部15に表示される、修正部17による修正前の強化学習モデルにより学習された移動方策の方策情報が重畳された環境マップの例を示す図である。
図15に示すように、VR機器の表示部15に表示される環境マップ260は、エージェントを視点とした周辺環境を3次元で示すGUI画像である。図15の例では、エージェントの前、左、および右に壁261乃至263が存在し、壁261乃至263よりエージェント側の空間が移動可能な領域264となっている。また、移動可能な領域264内には、エージェントの移動を妨害する障害物265が存在し、移動可能な領域264内の障害物265を介してエージェントと反対側には正の報酬値が設定されたゴール266が存在する。
なお、図15の例では、環境マップ260の視点がエージェントであり、エージェント自体は環境マップ260に存在しないが、環境マップ260の視点がエージェントより少し後方であり、環境マップ260にエージェントの後ろ姿等が含まれるようにしてもよい。
環境マップ260が生成されている場合、表示制御部14は、図15に示すように、修正部17による修正前の強化学習モデルにより学習された、エージェントの現在の位置からゴール266までの移動方策に基づく移動経路を矢印で示す方策情報281を生成する。そして、表示制御部14は、方策情報281を環境マップ260に重畳して表示部15に表示させる。なお、図15の環境マップ260においても、図4の場合と同様に等高線画像が重畳されるようにしてもよい。
障害物265は、移動において障害となるが、移動可能な領域264内に存在するため、図15に示すように、修正前の強化学習モデルにより学習された移動方策に基づく移動経路は、障害物265を通過する経路となる場合がある。
このような場合、ユーザは、例えば、図示せぬコントローラを操作して、図15に示すように、エージェントの現在の位置から障害物265を通過せずにゴール266に向かう移動経路282を入力する。これにより、ユーザは、その移動経路282に対応する移動方策を所望の移動方策として教示する。
なお、本開示を適用した学習装置としてのVR機器の構成は、図10のPC200の構成と同様にすることもできる。
VR機器では、受付部16(受付部206)が、頭部に表示部15を装着したユーザの視線方向を連続的に検知する視線検知部を有し、視線検知部が、ユーザの視線方向へ移動する移動経路の入力を受け付けるようにしてもよい。また、受付部16(受付部206)が、ユーザの動きを検知する動き検知部を有し、動き検知部が、ユーザの動きに応じた移動経路の入力を受け付けるようにしてもよい。
また、PC10(PC200)やVR機器の受付部16(受付部206)は、ユーザのハンドジェスチャを検知するハンドジェスチャ検知部を有し、ハンドジェスチャ検知部が、特定のハンドジェスチャに基づいてユーザからの入力を受け付けるようにしてもよい。この場合、例えば、ユーザは、特定の手の形をしたまま腕を右方向に振ることで、右方向へ移動する移動経路の入力を行う。
さらに、PC10(PC200)やVR機器の受付部16(受付部206)は、ユーザの音声を認識する音声認識部を有し、音声認識部が、ユーザの発話に基づいてユーザからの入力を受け付けるようにしてもよい。
また、上述した報酬基底関数を追加するかどうかの判断は、Preference IRLに着想を得たランダムサンプリング手法により実現されてもよい。Preference IRLの詳細は、例えば、“APRIL: Active Preference-learning based Reinforcement Learning”, Riad Akrour, Marc Schoenauer, and Mich`ele Sebag, European Conference, ECML PKDD 2012, Bristol, UK, September 24-28, 2012. Proceedings, Part IIに記載されている。
さらに、上述した説明では、強化学習モデルに追加される報酬基底関数は、予め登録された報酬基底関数群の中から選択されたが、予め登録された報酬基底関数群以外の新しい報酬基底関数であってもよい。
また、PC10(PC200)やVR機器で行われる処理の内容は、図示せぬデータベースに保存され、処理を再現可能にしてもよい。
PC10(PC200)やVR機器は、様々な周辺環境において、ユーザからの入力に基づいて強化学習モデルを修正することで、修正後の強化学習モデルにおいて、ロバストな移動方策を学習可能にすることができる。
<第4実施の形態>
(本開示を適用したコンピュータの説明)
上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
図16は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
コンピュータ400において、CPU(Central Processing Unit)401,ROM(Read Only Memory)402,RAM(Random Access Memory)403は、バス404により相互に接続されている。
バス404には、さらに、入出力インタフェース405が接続されている。入出力インタフェース405には、入力部406、出力部407、記憶部408、通信部409、及びドライブ410が接続されている。
入力部406は、キーボード、マウス、マイクロフォンなどよりなる。出力部407は、ディスプレイ、スピーカなどよりなる。記憶部408は、ハードディスクや不揮発性のメモリなどよりなる。通信部409は、ネットワークインタフェースなどよりなる。ドライブ410は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア411を駆動する。
以上のように構成されるコンピュータ400では、CPU401が、例えば、記憶部408に記憶されているプログラムを、入出力インタフェース405及びバス404を介して、RAM403にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ400(CPU401)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア411に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータ400では、プログラムは、リムーバブルメディア411をドライブ410に装着することにより、入出力インタフェース405を介して、記憶部408にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部409で受信し、記憶部408にインストールすることができる。その他、プログラムは、ROM402や記憶部408に、あらかじめインストールしておくことができる。
なお、コンピュータ400が実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本開示は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
また、本開示は、移動以外の行動の方策を強化学習する学習装置にも適用することができる。移動以外の行動としては、例えば、エージェントとしての自動車のクラクションなどの注意喚起やウィンカなどの他のエージェントへの間接的意思表示、これらと移動との組み合わせなどがある。
さらに、本開示は、複数のエージェント(マルチエージェント)の方策を同時に強化学習する学習装置にも適用することができる。この場合、移動方策や報酬関数の教示は、エージェントごとに、エージェントを指定した後に行われる。
なお、本開示は、以下のような構成もとることができる。
(1)
強化学習モデルに関する強化学習モデル情報を表示部に表示させる表示制御部と、
前記強化学習モデル情報に対するユーザの入力に基づいて、前記強化学習モデルを修正する修正部と
を備える学習装置。
(2)
前記強化学習モデル情報は、前記強化学習モデルにより学習された方策を示す方策情報である
ように構成された
前記(1)に記載の学習装置。
(3)
前記強化学習モデル情報は、前記強化学習モデルにおいて用いられる報酬関数を示す報酬関数情報である
ように構成された
前記(1)に記載の学習装置。
(4)
前記ユーザの入力は、方策の教示である
ように構成された
前記(1)乃至(3)のいずれかに記載の学習装置。
(5)
前記修正部は、前記強化学習モデルにおいて用いられる報酬関数の基底関数を追加することにより目的関数が改善する場合、前記報酬関数の基底関数を追加する
ように構成された
前記(4)に記載の学習装置。
(6)
前記ユーザの入力は、報酬関数の教示である
ように構成された
前記(1)乃至(3)のいずれかに記載の学習装置。
(7)
前記修正部は、前記強化学習モデルにおいて用いられる報酬関数の基底関数を追加することにより、前記ユーザの入力として教示された報酬関数と前記ユーザの入力に基づいて修正された前記強化学習モデルの報酬関数との差分が減少する場合、前記報酬関数の基底関数を追加する
ように構成された
前記(6)に記載の学習装置。
(8)
前記表示制御部は、環境を示す環境情報に前記強化学習モデル情報を重畳して前記表示部に表示させる
ように構成された
前記(1)乃至(7)のいずれかに記載の学習装置。
(9)
学習装置が、
強化学習モデルに関する強化学習モデル情報を表示部に表示させる表示制御ステップと、
前記強化学習モデル情報に対するユーザの入力に基づいて、前記強化学習モデルを修正する修正ステップと
を含む学習方法。
10 PC, 14 表示制御部, 15 表示部, 17 修正部, 71 方策情報, 50 環境マップ, 200 PC, 204 表示制御部, 207 修正部, 221 報酬関数情報, 260 環境マップ, 281 方策情報

Claims (6)

  1. 強化学習モデルにより学習された方策を示す方策情報である強化学習モデル情報と、前記方策に基づいて算出された前記方策におけるゴールに至る確率密度の等高線とを表示部に表示させる表示制御部と、
    前記強化学習モデル情報に対する方策の教示に基づいて、前記強化学習モデルを修正する修正部と
    を備え学習装置。
  2. 前記表示制御部は、環境を示す環境情報に前記強化学習モデル情報と前記等高線を重畳して前記表示部に表示させる
    ように構成された
    請求項1に記載の学習装置。
  3. 前記方策は、エージェントの移動方策であり、
    前記確率密度は、前記エージェントがゴール地点に至る確率密度である
    ように構成された
    請求項2に記載の学習装置。
  4. 前記環境情報は、前記エージェントおよび前記ゴール地点を含む環境を示す情報である
    ように構成された
    請求項3に記載の学習装置。
  5. 前記修正部は、前記強化学習モデルにおいて用いられる報酬関数の基底関数を追加することにより目的関数が改善する場合、前記報酬関数の基底関数を追加する
    ように構成された
    請求項1に記載の学習装置。
  6. 学習装置が、
    強化学習モデルにより学習された方策を示す方策情報である強化学習モデル情報と、前記方策に基づいて算出された前記方策におけるゴールに至る確率密度の等高線とを表示部に表示させる表示制御ステップと、
    前記強化学習モデル情報に対する方策の教示に基づいて、前記強化学習モデルを修正する修正ステップと
    を含学習方法。
JP2018559025A 2016-12-26 2017-12-14 学習装置および学習方法 Active JP7014181B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016251901 2016-12-26
JP2016251901 2016-12-26
PCT/JP2017/044839 WO2018123606A1 (ja) 2016-12-26 2017-12-14 学習装置および学習方法

Publications (2)

Publication Number Publication Date
JPWO2018123606A1 JPWO2018123606A1 (ja) 2019-10-31
JP7014181B2 true JP7014181B2 (ja) 2022-02-01

Family

ID=62708175

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018559025A Active JP7014181B2 (ja) 2016-12-26 2017-12-14 学習装置および学習方法

Country Status (5)

Country Link
US (1) US20190244133A1 (ja)
EP (1) EP3561740A4 (ja)
JP (1) JP7014181B2 (ja)
CN (1) CN110088779A (ja)
WO (1) WO2018123606A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11597394B2 (en) 2018-12-17 2023-03-07 Sri International Explaining behavior by autonomous devices
US20200320435A1 (en) * 2019-04-08 2020-10-08 Sri International Multi-level introspection framework for explainable reinforcement learning agents
GB201906551D0 (en) * 2019-05-09 2019-06-26 Microsoft Technology Licensing Llc Training behavior of an agent
US11775860B2 (en) 2019-10-15 2023-10-03 UiPath, Inc. Reinforcement learning in robotic process automation
CN111882030B (zh) * 2020-06-29 2023-12-05 武汉钢铁有限公司 一种基于深度强化学习的加锭策略方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013030278A (ja) 2011-07-26 2013-02-07 Hitachi High-Technologies Corp 荷電粒子線装置
US20150217449A1 (en) 2014-02-03 2015-08-06 Brain Corporation Apparatus and methods for control of robot actions based on corrective user inputs

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8756177B1 (en) * 2011-04-18 2014-06-17 The Boeing Company Methods and systems for estimating subject intent from surveillance

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013030278A (ja) 2011-07-26 2013-02-07 Hitachi High-Technologies Corp 荷電粒子線装置
US20150217449A1 (en) 2014-02-03 2015-08-06 Brain Corporation Apparatus and methods for control of robot actions based on corrective user inputs

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
田丸 順基、外1名,繰り返し状態系列から時刻依存の報酬関数を推定する逆強化学習の提案,電気学会研究会資料,日本,一般社団法人電気学会,2013年11月24日,PP.7-12
野川 博司、外1名,自律的な行動学習を利用し教示の意味学習,FIT2004 第3回情報科学技術フォーラム 一般講演論文集 第2分冊 データベース 自然言語・文書・ゲーム 人工知能 音声・音楽 生体情報科学,日本,社団法人電子情報通信学会,2004年08月20日,PP.319-321

Also Published As

Publication number Publication date
WO2018123606A1 (ja) 2018-07-05
US20190244133A1 (en) 2019-08-08
CN110088779A (zh) 2019-08-02
JPWO2018123606A1 (ja) 2019-10-31
EP3561740A1 (en) 2019-10-30
EP3561740A4 (en) 2020-01-08

Similar Documents

Publication Publication Date Title
JP7014181B2 (ja) 学習装置および学習方法
JP6695843B2 (ja) 装置、及びロボットシステム
US20220063089A1 (en) Machine learning methods and apparatus related to predicting motion(s) of object(s) in a robot's environment based on image(s) capturing the object(s) and based on parameter(s) for future robot movement in the environment
US20240017405A1 (en) Viewpoint invariant visual servoing of robot end effector using recurrent neural network
US10860927B2 (en) Stacked convolutional long short-term memory for model-free reinforcement learning
US11741666B2 (en) Generating synthetic images and/or training machine learning model(s) based on the synthetic images
US20200279134A1 (en) Using simulation and domain adaptation for robotic control
US20200276703A1 (en) Optimizing policy controllers for robotic agents using image embeddings
EP3402633B1 (en) Machine learning methods and apparatus related to predicting motion(s) of object(s) in a robot's environment based on image(s) capturing the object(s) and based on parameter(s) for future robot movement in the environment
WO2020065001A1 (en) Learning motor primitives and training a machine learning system using a linear-feedback-stabilized policy
JP2019036167A (ja) 画像処理装置、画像処理方法
US11170559B2 (en) Sub-pixel data simulation system
US11449975B2 (en) Object count estimation apparatus, object count estimation method, and computer program product
JP6895563B2 (ja) ロボットシステム、モデル生成方法、及びモデル生成プログラム
JP2021065955A (ja) ロボット制御システム及びその制御方法及びプログラム
CN114041828B (zh) 超声扫查控制方法、机器人及存储介质
KR102401115B1 (ko) UX-bit, Skip connection 구조 및 Channel-wise concatenation 구조를 이용한 자동 디자인 생성 인공신경망 장치 및 방법
US20240118667A1 (en) Mitigating reality gap through training a simulation-to-real model using a vision-based robot task model
US20200379262A1 (en) Depth map re-projection based on image and pose changes
JP2012212323A (ja) 情報処理装置、情報処理方法、及び、プログラム
JP7095467B2 (ja) 訓練データ評価装置、訓練データ評価方法、およびプログラム
JP7179672B2 (ja) 計算機システム及び機械学習方法
US11514693B2 (en) Model-based image labeling and/or segmentation
JP7164008B2 (ja) データ生成方法、データ生成装置及びプログラム
KR102261055B1 (ko) 클릭율 최대화를 위한 이미지 디자인 파라미터 최적화 방법 및 시스템

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201027

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210907

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210917

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211019

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211221

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220103