JP2018198012A - ネットワーク学習装置、行動決定装置、ネットワーク学習方法、及びプログラム - Google Patents

ネットワーク学習装置、行動決定装置、ネットワーク学習方法、及びプログラム Download PDF

Info

Publication number
JP2018198012A
JP2018198012A JP2017103087A JP2017103087A JP2018198012A JP 2018198012 A JP2018198012 A JP 2018198012A JP 2017103087 A JP2017103087 A JP 2017103087A JP 2017103087 A JP2017103087 A JP 2017103087A JP 2018198012 A JP2018198012 A JP 2018198012A
Authority
JP
Japan
Prior art keywords
action
unit
moving object
behavior
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017103087A
Other languages
English (en)
Other versions
JP6840363B2 (ja
Inventor
鈴木 潤
Jun Suzuki
潤 鈴木
慶雅 鶴岡
Yoshimasa Tsuruoka
慶雅 鶴岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
University of Tokyo NUC
Original Assignee
Nippon Telegraph and Telephone Corp
University of Tokyo NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, University of Tokyo NUC filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017103087A priority Critical patent/JP6840363B2/ja
Publication of JP2018198012A publication Critical patent/JP2018198012A/ja
Application granted granted Critical
Publication of JP6840363B2 publication Critical patent/JP6840363B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Manipulator (AREA)

Abstract

【課題】報酬が得られる状態に到達できる確率が低い環境でも、効率的に学習する。【解決手段】移動物の行動を決定するためのネットワーク学習装置であって、決定された移動物の行動を行うように移動物を制御し、行動後の移動物の環境を表す状態データ、及び行動に対する報酬を取得し、行動に対する報酬と、移動物の環境を表す状態データとに基づいて、状態データが過去に経験した状態データに対応しているかどうかを表す探索評価値を計算し、行動に対する報酬と、計算された探索評価値とに基づいて、移動物の行動を決定するための多層ニューラルネットワークのモデルパラメタを更新し、移動物の環境を表す入力データを入力として、多層ニューラルネットワークの各要素を計算し、その出力層の値に基づいて、移動物の行動を決定する。【選択図】図1

Description

本発明は、機械を実環境で制御し、自律的に行動させる際に用いるネットワーク学習装置、行動決定装置、ネットワーク学習方法、及びプログラムであって、特に、自律的に行動させるために必要な行動決定の方策を実データから自動的に学習するネットワーク学習装置、行動決定装置、ネットワーク学習方法、及びプログラムに関する。
自律的に活動する機械(ロボット)を実現することは、近年発展が著しい人工知能研究の重要な課題である。ここでは、自動車の自動運転、ドローンの自動飛行等、実環境で人間が介在しない状況で機械が自動で活動する状況を想定する。
この場合、センサーデータ、画像データ、GPS(位置)データ等を入力とし、機械(自動車、ドローン等)が、現時点の状況からどのような行動(加速、減速、右折、左折)を選択するのが適切か、時々刻々と変化する状況に合わせて、逐次選択していく問題と言える。
このような機械の自律的な行動には、周囲の環境と自身の状態とを把握し、どのような行動を選択すればよいかを逐次判断することが機械に求められる。任意の環境に対して、適切な行動を行うために、環境に対してどのような行動をすべきかを、何らかの形で機械に与えなくてはいけない。
人間が作成するルールのようなもので、あらゆる状況を網羅し適切な行動を選択させるのは困難であるため、一般的には、実データから機械学習法などを用いて行動を学習する。このような行動を学習する場合には、必ずしも「正解」と呼べる行動が唯一存在するわけではない。
しかし、一連の行動の結果、各々の行動が良かったか悪かったかといった絶対的あるいは相対的な評価を行うことは可能な場合が多い。このような問題設定の場合に、実データから機械が取るべき最良の行動を自動的に学習する方法論の一つとして、強化学習の枠組みが知られている。特に、近年は深層学習の枠組みを用いて強化学習を行うDeep Q−Networks(DQN)等の出現により、限定された環境では、人間よりもより適切に機械を動かすことが可能であることも徐々に示されつつある(非特許文献3を参照)。
また、非特許文献3に開示されている技術をさらに改良した、分散並列処理により学習を高速化させるasynchronous advantage actor−critic(A3C)と呼ばれる方法も提案されている(非特許文献2を参照)。
Tze Leung Lai and Herbert Robbins. Asymptotically efficient adaptive allocation rules. Advances in applied mathematics, 6(1):4-22, 1985. Volodymyr Mnih, Adria Puigdomenech Badia, Mehdi Mirza, Alex Graves, Timothy P Lillicrap, Tim Harley, David Silver, and Koray Kavukcuoglu. Asynchronous methods for deep reinforcement learning. In International Conference on Machine Learning, 2016. Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Andrei A Rusu, Joel Veness, Marc G Bellemare, Alex Graves, Martin Riedmiller, Andreas K Fidjeland, Georg Ostrovski, et al. Human-level control through deep reinforcement learning. Nature, 518(7540):529-533, 2015.
機械が行動決定する際に利用する「行動決定の方策」を実データから自動的に学習する「学習フェーズ」と、学習フェーズで得られた行動決定の方策を用いて、実環境で実際に行動をおこなう「評価フェーズ」と、の大きく分けて二つの状況を含む場合について考える。
この場合、ある環境下での機械が適切な行動をとれるような行動決定の方策を学習する課題に取り組む。また、そのためのベースとなる方法論として上述したA3Cによる学習の枠組みを用いる。
非特許文献2では、画像を入力信号とし、入力信号から得られる画素情報から次の行動を選択する。行動決定の方策は、多層ニューラルネットワークにより表現される。よって、学習は、事前に構築された多層ニューラルネットワークのパラメタを適切に決定するプロセスとなる。また、学習時には、行動が適切であったかどうかを数値的に評価する評価値が与えられ、この評価値の期待値が高くなる行動を選択しやすくするように、多層ニューラルネットワークのパラメタを決定することになる。
ここでは、例えば、環境内を自由に移動している任意の物体にぶつからないようにスタート地点からより多くのチェックポイントへ移動できるかという問題を考える。ただし、移動可能な範囲が非常に広大であると想定する。また、チェックポイント、ぶつからないように回避すべき物体等が、環境の広さに対して非常に少ない環境を想定する。このような設定の場合は、強化学習の観点では、報酬(ペナルティ(マイナスの値)含む)を得る状態になる確率がかなり低い。つまり、機械が取れる選択肢の自由度が非常に大きいため、学習が効率的に行われない可能性があるという問題点がある。
実際に、このような自由度が非常に高い場合は、従来法で学習を行っても、報酬が得られる状態に到達しないために、その場から大きく動くことなく、所望するチェックポイントの方へ行動をおこすことがない、といったことがしばしば発生する。
本発明は、以上のような事情に鑑みてなされたものであり、報酬が得られる状態に到達できる確率が低い環境でも、効率的に学習することができるネットワーク学習装置、行動決定装置、ネットワーク学習方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明のネットワーク学習装置は、移動物の行動を決定するためのネットワーク学習装置であって、決定された移動物の行動を行うように前記移動物を制御する行動制御部と、行動後の前記移動物の環境を表す状態データ、及び行動に対する報酬を取得するデータ取得部と、前記行動に対する報酬と、前記移動物の環境を表す状態データとに基づいて、前記状態データが過去に経験した状態データに対応しているかどうかを表す探索評価値を計算する探索評価値計算部と、前記行動に対する報酬と、前記計算された探索評価値とに基づいて、前記移動物の行動を決定するための多層ニューラルネットワークのモデルパラメタを更新するパラメタ更新部と、前記移動物の環境を表す入力データを入力として、前記多層ニューラルネットワークの各要素を計算するネットワーク計算部と、前記多層ニューラルネットワークの出力層の値に基づいて、前記移動物の行動を決定する行動決定部と、予め定められた反復終了条件を満たすまで、前記行動制御部による制御、前記データ取得部による取得、前記探索評価値計算部による計算、前記パラメタ更新部による更新、前記ネットワーク計算部による計算、及び前記行動決定部による決定を繰り返させる終了判定部と、を含む。
なお、前記探索評価値計算部は、前記行動に対する報酬と、現時点の時刻と、前記移動物の環境を表す状態データに対応する状態データの経験回数とに基づいて、前記探索評価値を計算するようにしても良い。
また、前記パラメタ更新部は、前記行動に対する報酬に基づいて、前記移動物の行動を決定するための行動決定用の多層ニューラルネットワークのモデルパラメタを更新し、前記計算された探索評価値に基づいて、前記移動物の行動を決定するための探索用の多層ニューラルネットワークのモデルパラメタを更新し、前記ネットワーク計算部は、前記移動物の環境を表す入力データを入力として、前記探索用の多層ニューラルネットワークの各要素を計算し、前記行動決定部は、前記探索用の多層ニューラルネットワークの出力層の値に基づいて、前記移動物の行動を決定するようにしても良い。
上記目的を達成するために、本発明の行動決定装置は、移動物の行動を決定するための行動決定装置であって、決定された移動物の行動を行うように前記移動物を制御する行動制御部と、行動後の前記移動物の環境を表す状態データを取得するデータ取得部と、前記移動物の環境を表す入力データを入力として、請求項3記載のネットワーク学習装置によって得られた前記行動決定用の多層ニューラルネットワークの各要素を計算するネットワーク計算部と、前記行動決定用の多層ニューラルネットワークの出力層の値に基づいて、前記移動物の行動を決定する行動決定部と、予め定められた反復終了条件を満たすまで、前記行動制御部による制御、前記データ取得部による取得、前記ネットワーク計算部による計算、及び前記行動決定部による決定を繰り返させる終了判定部と、を含む。
上記目的を達成するために、本発明のネットワーク学習方法は、行動制御部、データ取得部、探索評価値計算部、パラメタ更新部、ネットワーク計算部、行動決定部、及び終了判定部を含む、移動物の行動を決定するためのネットワーク学習装置であって、前記行動制御部が、決定された移動物の行動を行うように前記移動物を制御するステップと、データ取得部が、行動後の前記移動物の環境を表す状態データ、及び行動に対する報酬を取得するデータ取得部と、前記探索評価値計算部が、前記行動に対する報酬と、前記移動物の環境を表す状態データとに基づいて、前記状態データが過去に経験した状態データに対応しているかどうかを表す探索評価値を計算するステップと、前記パラメタ更新部が、前記行動に対する報酬と、前記計算された探索評価値とに基づいて、前記移動物の行動を決定するための多層ニューラルネットワークのモデルパラメタを更新するステップと、前記ネットワーク計算部が、前記移動物の環境を表す入力データを入力として、前記多層ニューラルネットワークの各要素を計算するステップと、前記行動決定部が、前記多層ニューラルネットワークの出力層の値に基づいて、前記移動物の行動を決定するステップと、前記終了判定部が、予め定められた反復終了条件を満たすまで、前記行動制御部による制御、前記データ取得部による取得、前記探索評価値計算部による計算、前記パラメタ更新部による更新、前記ネットワーク計算部による計算、及び前記行動決定部による決定を繰り返させるステップと、を有する。
上記目的を達成するために、本発明のプログラムは、コンピュータを、本発明のネットワーク学習装置を構成する各部、又は本発明の行動決定装置を構成する各部として機能させるためのプログラムである。
本発明によれば、報酬が得られる状態に到達できる確率が低い環境でも、効率的に学習することが可能となる。
実施形態に係る移動物、移動障害物、及び環境の一例を示す模式図である。 実施形態に係る移動物の行動の一例を示す模式図である。 実施形態に係る行動決定装置に入力されるカメラ画像の一例を示す模式図である。 実施形態に係る行動決定装置に用いられる多層ニューラルネットワークの一例を示す模式図である。 実施形態に係る行動決定装置の構成の一例を示す機能ブロック図である。 実施形態に係る行動決定装置により実行される学習処理の流れを示すフローチャートである。 実施形態に係る行動決定装置により実行される行動決定処理の流れを示すフローチャートである。
以下、本発明の実施形態について図面を用いて説明する。
強化学習により自動で行動決定の方策を得るためには、なんとかして報酬が得られる状態に到達し、その経験を学習に結びつける以外に方法はない。つまり、たとえ報酬(ペナルティ含む)が得られる状態に到達する確率が低い環境だとしても、何かしらの方法で、報酬が得られる状態を見つけ出さなくてはいけない。
本実施形態では、実際に得られる真の報酬とは別に、対象とする環境をどの程度探索できたか、という擬似的な報酬を定義する。その擬似報酬は、真の報酬と違い、全ての状態で0よりも大きい値をもつように定義する。また、各状態での評価値は相対的に探索がどの程度進んでいるかを示す値と考える。
より具体的には、現在到達した状態と同じ、或いは、ほぼ等価とみなしてよい状態を過去に経験したか否かを基準に評価する。その評価値が相対的に高ければこれまでにあまり経験したことのない状態と考える。逆に、評価値が低ければこれまでに経験したことがあるとみなす。
従来の強化学習ではより高い報酬が得られる方向に行動をとるように行動決定の方策は更新されていく。つまり、擬似的な探索スコアが高い方向に行動決定の方策は更新されていくことになるので、結果として探索があまり進んでいない状態に向かって行動していくような行動決定方策を学習することになる。この結果、今までに到達していない状態に向かってより行動を起こしやすくなる。また、最終的に報酬が得られる状態まで到達する可能性が高まる。
このような仕組みにより、報酬が得られる状態をいくつか発見できれば、その経験に基づいて学習を行うことが可能となる。このことから、効果的な探索の評価方法をいかに決定し、それを計算するかが大きなポイントとなる。本実施形態では、この効果的な探索の評価方法として、非特許文献1に開示されている、upper confidence bound(UCB)と呼ばれる計算式に基づいた新しい評価計算式を導入する。
また、探索の評価値をより効果的に利用するために、探索の評価値と真の報酬とはパラメタを共有しているが、別の方策として学習する処理方式を用いる。
本実施形態の説明とその効果を簡単に述べるために、非常に限定された状況と条件下で、機械が自動で行動選択を行う方法と、その行動選択の方策をデータから自動的に学習する方法を述べる。
ここでは、一例として図1及び図2に示すように、制御対象となる自律機械が、環境内に一台存在する状況を想定する。また、制御対象ではない、同様の自律機械が、環境内に複数存在することとする。全ての自律機械が取れる行動

は、簡単のため、「右に回転」、「左に回転」、「前進」、及び「動かない」の4種類とする。
なお、簡単のため、ここでは制御対処の自律機械を「移動物」、環境内のそれ以外の自律機械を「移動障害物」と呼ぶ。
この設定で移動物が、移動障害物に接触せずにチェックポイントとする複数の地点へより多く到達するよう行動を決定する方策を自動的に獲得する問題に取り組む。これは、現実の世界での車やドローンの自動運転を簡略化した設定だと想定しており、移動障害物に接触することは、すなわち現実世界で車同士が接触することを意味するので、非常に大きな問題となる。よって、接触せずに行動する方策を自動的に獲得する方法を構築することは非常に重要な課題である。
移動物の周囲の環境は、移動物に付属された前方が確認できるカメラ映像(画像)とする。
また、移動障害物は、積極的に移動物を妨害するようなことはなく、正面のカメラに移動物がいれば、移動物同様に接触しないように適切と思われる行動をとる。ただし、カメラの範囲に移動物がいなければ、当然回避行動は行われる保証はない。
一例として図3に示すように、時刻をtとし、ここでは、一時刻単位として、1/60秒のように非常に短い時間単位を想定する。つまり、カメラで撮影される1/60秒毎の映像データを1枚の画像データとして扱う。また、各時刻tでは、4単位時刻前までの4枚の画像をまとめて入力として扱う。つまり、1回に入力される画像データは、1/15秒分のデータとなっていると言える。
具体的な報酬として、ここでは、移動障害物に接触した場合、チェックポイント(目標の一つ)に到達した場合、及び、それ以外の場合の3種類を用いる。また、前述のように、現実の状況に即して移動障害物に接触することは非常に問題が大きいことから、障害物に接触する場合の報酬は大きい負の値とし、さらに強制的に終了条件を満たしたと判定され、そこで終了となる。例えば、取り得る報酬の値集合



と設定する。
移動物の実態は、一例として図4に示すように、行動決定のための多層ニューラルネットワークである。ここでは、多層ニューラルネットワーク全体をMθで表す。また、利用する多層ニューラルネットワークの最終層に相当する部分が、行動を決定する方策πと価値関数vとなる。
行動決定の方策πは、現在の状態から、とり得る行動

に対して、その行動をとるべきかそうでないかを確率値(以下、「評価値」という。)によりモデル化する。一方、価値関数vは、現在の状態に対する報酬を学習したものとする。つまり、その状態に到達すべきと判断される場合は、高い値となり、そうでない場合は低い値をとる。
次に、θを価値関数v用のモデルパラメタとし、θπを行動選択の方策π用のモデルパラメタとする。
本実施形態では、さらに探索用の行動決定の方策

を用意する。実態は、πと同等であるが、πと同じものを2つ用意したことに相当する。

を探索用の行動選択の方策

用のモデルパラメタとする。
ここで、図5に示すように、本実施形態に係る行動決定装置10は、入力部12、データ取得部14、14a、探索評価値計算部16、パラメタ更新部18、パラメタ記憶部20、終了判定部22、22a、ネットワーク計算部24、24a、行動決定部26、26a、及び、行動制御部28、28aを備える。
入力部12は、移動物に搭載されたカメラによって撮像されたカメラ画像を入力する。
データ取得部14、14aは、移動物の行動毎に、入力されたカメラ画像を、行動後の移動物の環境を表す状態データとし、また、カメラ画像から、行動に対する報酬を取得する。
探索評価値計算部16は、行動に対する報酬と、現時点の時刻と、移動物の環境を表す状態データの経験回数とに基づいて、状態データが過去に経験した状態データに対応しているかどうかを表す探索評価値を計算する。
本実施形態では、上述したUCBと呼ばれる計算式に対応する計算式に基づいて、探索評価値を算出する。UCBは、下記(1)式に従って計算される。

……(1)
ここでは、r(a)を時刻tで選択した行動aに対して得られた報酬とし、n(a)を、時刻tで選択した行動aと同じ行動をこれまでに選択した回数とする。UCBに基づく行動選択を無限回行うと、最も良い行動を得るような評価値となることが知られている。
このUCBの評価値に従って、時刻tでの状態sに対する探索評価値eを下記(2)式に従って計算する。

……(2)
直感的には、訪れた状態から算出される値が分母側にあるので,その状態を経験すればするほど評価値は減少する。一方、任意の状態に訪問した回数から算出される値が分子側にあるので、分子側は単調に増加する関数となっている。つまり、選択されない状態に関しては徐々に評価値が大きくなっていく仕組みになっている。
また、一定回数、探索が行われた状態に対しても、他の状態の探索が進むに連れて、次第にまた値が大きくなっていくため、改めて探索が行われるような仕組みになっている。
このような探索の評価値を用いることで、真の報酬が0であった場合でも、これまでに到達したことがありそうな状態か、そうでないかを、評価値として利用することができる。
次に、状態の選択回数n(s)の評価方法を考える。現実の状態は、離散的な記号のようにきっちり他と分離して定義できるようなものではない。実際、ここでの例でも、入力画像に基づいて状態が定義されるので、連続的な要素をもっている。ここでは、入力画像を何かしらの離散変換を行い状態の選択回数を計算できるようにする。具体的には、例えば、画像の画素情報から計算できるハッシュ値などを用いればよい。
ただし、この離散変換は、状態を精度良く切り分けることができればどのような処理を用いてもよい。
パラメタ更新部18は、行動に対する報酬と、計算された探索評価値とに基づいて、移動物の行動を決定するための多層ニューラルネットワークのモデルパラメタを更新し、更新したモデルパラメタをパラメタ記憶部20に記憶させる。
本実施形態では、多層ニューラルネットワークの学習時に、ネットワークのモデルパラメタを更新するための値を算出する。具体的には、入力として、実際にとった行動、ネットワークによって予測した価値、実際に得られた報酬、探索の評価値の4つの情報を受け取る。その4つの情報から、より良い行動が選択できるように多層ニューラルネットワークのモデルパラメタを更新するための値を算出する。
ただし、上述したように、実際に適用する環境ではあまり報酬が得られない設定となっているため、基本的に得られる真の報酬は0の場合がほとんどと考えられる。そのため、ほとんどの学習データが報酬0の場合に偏って学習されることとなる。報酬0の場合を不当に多く学習しても、実際の行動決定としては得られるものは少ない。
そこで、真の報酬の学習は、非零の報酬が得られた時のみと考える。まず、Rt−i,tを時刻tからi時刻前までの間に得られた報酬の(重み付き)総和とする。同様に、Et−i,tを時刻t−iから時刻tの間に獲得した探索の評価値の(重み付き)総和とする。このとき、3種のモデルパラメタを以下のように更新する。
(1)報酬Rt−i,tを用いて行動決定の方策πのモデルパラメタθπを更新する。
(2)探索評価値Et−i,tを用いて行動決定の方策

のモデルパラメタ

を更新する。
(3)探索評価値Et−i,tを用いて価値関数vのモデルパラメタθを更新する。
具体的には、θ

、θπの勾配は下記(3)乃至(5)式で求められる。なお、下記(3)乃至(5)式における価値関数vは、時刻t−iにおける価値関数である。

……(3)

……(4)

……(5)
これらの値を用いて、勾配法に基づく最適化法の一つを用いてモデルパラメタθ

、θπを更新する。
パラメタ記憶部20は、パラメタ更新部18により更新されたモデルパラメタθ

、θπを記憶する。
終了判定部22は、行動の決定に関して終了状態であるか否かを判定し、終了状態であると判定されるまで、データ取得部14による取得、探索評価値計算部16による計算、パラメタ更新部18による更新、ネットワーク計算部24による計算、及び行動決定部26による決定、及び行動制御部28による制御を繰り返させる。
終了判定部22aは、行動の決定に関して終了状態であるか否かを判定し、終了状態であると判定されるまで、データ取得部14aによる取得、ネットワーク計算部24aによる計算、及び行動決定部26aによる決定、及び行動制御部28aによる制御を繰り返させる。
ネットワーク計算部24は、移動物の環境を表す状態データを入力として、モデルパラメタ

を用いた多層ニューラルネットワークの各要素を計算する。
ネットワーク計算部24aは、移動物の環境を表す状態データを入力として、モデルパラメタθπを用いた多層ニューラルネットワークの各要素を計算する。
行動決定部26、26aは、多層ニューラルネットワークの出力層の値に基づいて、移動物の行動を決定する。
行動制御部28、28aは、決定された移動物の行動を行うように移動物を制御する。
なお、本実施形態に係る行動決定装置10は、例えば、CPU(Central Processing Unit)、RAM(Random Access Memory)、各種プログラムを記憶するROM(Read Only Memory)を備えたコンピュータ装置で構成される。また、行動決定装置10を構成するコンピュータは、ハードディスクドライブ、不揮発性メモリ等の記憶部を備えていても良い。本実施形態では、CPUがROM、ハードディスク等の記憶部に記憶されているプログラムを読み出して実行することにより、上記のハードウェア資源とプログラムとが協働し、上述した機能が実現される。
以上のような機能を備えた行動決定装置10によって実行される処理は、多層ニューラルネットワークの学習方式と、行動決定方式と、に分けられる。
多層ニューラルネットワークの学習方式における学習処理には、入力部12、データ取得部14、探索評価値計算部16、パラメタ更新部18、パラメタ記憶部20、終了判定部22、ネットワーク計算部24、行動決定部26、及び、行動制御部28が用いられる。また、行動決定方式における行動決定処理には、入力部12、データ取得部14a、パラメタ記憶部20、終了判定部22a、ネットワーク計算部24a、行動決定部26a、及び、行動制御部28aが用いられる。すなわち、行動決定方式における行動決定処理を行う場合には、ネットワーク計算部24aの代わりにネットワーク計算部24による処理が行われ、探索評価値計算部16による処理、及びパラメタ更新部18による処理は行われない。
まず、本実施形態に係る行動決定装置10による学習方式における学習処理の流れの概要を、図6に示すフローチャートを用いて説明する。
ステップS101では、入力部12が、移動物に搭載されたカメラで撮像されたカメラ画像を入力する。
ステップS103では、データ取得部14が、入力されたカメラ画像を、行動後の移動物の環境を表す状態データとし、また、入力されたカメラ画像から、行動に対する報酬を取得すると共に、終了状態であるか否かを示す終了フラグfを取得する。
ステップS105では、探索評価値計算部16が、行動に対する報酬と、移動物の環境を表す状態データとに基づいて、探索の評価値を計算する。
ステップS107では、パラメタ更新部18が、行動に対する報酬と、計算された探索評価値とに基づいて、移動物の行動を決定するための多層ニューラルネットワークのモデルパラメタθ

、θπを更新し、更新したモデルパラメタをパラメタ記憶部20に記憶させる。
ステップS109では、終了判定部22が、取得された終了フラグfに基づいて、行動の決定に関して終了状態であるか否かを判定する。ステップS109で行動の決定に関して終了状態であると判定した場合(S109,Y)は、本学習処理のプログラムの実行を終了する。また、ステップS109で行動の決定に関して終了状態でないと判定した場合(S109,N)は、ステップS111に移行する。
ステップS111では、ネットワーク計算部24が、移動物の環境を表す状態データを入力として、モデルパラメタ

を用いた多層ニューラルネットワークの各要素を計算する。
ステップS113では、行動決定部26が、多層ニューラルネットワークの出力層の値に基づいて、移動物の行動を決定する。
ステップS115では、行動制御部28が、決定された移動物の行動を行うように移動物を制御し、ステップS101に戻る。
次に、本実施形態に係る行動決定装置10による行動決定方式における行動決定処理の流れの概要を、図7に示すフローチャートを用いて説明する。
ステップS201では、入力部12が、移動物に搭載されたカメラで撮像されたカメラ画像を入力する。
ステップS203では、データ取得部14aが、入力されたカメラ画像を、行動後の移動物の環境を表す状態データとすると共に、終了状態であるか否かを示す終了フラグfを取得する。
ステップS205では、終了判定部22aが、取得された終了フラグfに基づいて、行動の決定に関して終了状態であるか否かを判定する。ステップS205で行動の決定に関して終了状態であると判定した場合(S205,Y)は、本行動決定処理のプログラムの実行を終了する。また、ステップS205で行動の決定に関して終了状態でないと判定した場合(S205,N)は、ステップS207に移行する。
ステップS207では、ネットワーク計算部24aが、移動物の環境を表す状態データを入力として、モデルパラメタθπを用いた多層ニューラルネットワークの各要素を計算する。
ステップS209では、行動決定部26aが、多層ニューラルネットワークの出力層の値に基づいて、移動物の行動を決定する。
ステップS211では、行動制御部28aが、決定された移動物の行動を行うように移動物を制御し、ステップS201に戻る。
以上のように、本実施形態に係る行動決定装置10は、決定された移動物の行動を行うように移動物を制御した際に、行動後の移動物の環境を表す状態データ、及び行動に対する報酬を取得する。また、行動に対する報酬と、移動物の環境を表す状態データとに基づいて、状態データが過去に経験した状態データに対応しているかどうかを表す探索評価値を計算すると共に、行動に対する報酬と、計算された探索評価値とに基づいて、移動物の行動を決定するための多層ニューラルネットワークのモデルパラメタを更新する。また、移動物の環境を表す入力データを入力として、多層ニューラルネットワークの各要素を計算し、多層ニューラルネットワークの出力層の値に基づいて、移動物の行動を決定する。予め定められた反復終了条件を満たすまで、行動制御部28による制御、データ取得部14による取得、探索評価値計算部16による計算、パラメタ更新部18による更新、ネットワーク計算部24による計算、及び行動決定部26による決定を繰り返させる。
これにより、本来得られる報酬とは別に、環境に対する探索がどの程度進んでいるかを評価する擬似報酬を現時点までの情報だけでなく、未来に起こる状況を推定しながら、適切な硬度を選択することが可能となる。これにより、例えば、局所的にはよい行動でも大局的に見るとよくない行動を選択するといった可能性が減り、より無駄の少ない機械の行動制御が可能となる。また、これは、無駄な行動を選択することが減ることに繋がる。実世界においては、機械が行動するためには、電力や燃料の消費といった全ての行動にコストが発生するので,省エネルギーによる機械の自律的な行動が可能になることが期待できる。
なお、本実施形態では、行動決定装置10によって、多層ニューラルネットワークの学習方式の処理と、行動決定方式の処理とが行われる場合を例に説明したが、これに限定されるものではなく、多層ニューラルネットワークの学習方式の処理と、行動決定方式の処理とが別々の装置によって行われてもよい。例えば、多層ニューラルネットワークの学習方式の処理を行うネットワーク学習装置と、行動決定方式の処理とを行う行動決定装置とに分けてもよい。この場合には、ネットワーク学習装置は、入力部12、データ取得部14、探索評価値計算部16、パラメタ更新部18、パラメタ記憶部20、終了判定部22、ネットワーク計算部24、行動決定部26、及び、行動制御部28を備えていればよく、行動決定装置は、入力部12、データ取得部14a、パラメタ記憶部20、終了判定部22a、ネットワーク計算部24a、行動決定部26a、及び、行動制御部28aを備えていればよい。
また、図1に示す機能の構成要素の動作をプログラムとして構築し、行動決定装置10として利用されるコンピュータにインストールして実行させるが、これに限らず、ネットワークを介して流通させても良い。
また、構築されたプログラムをハードディスクやフレキシブルディスク、CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールしたり、配布したりしても良い。
10 行動決定装置
12 入力部
14、14a データ取得部
16 探索評価値計算部
18 パラメタ更新部
20 パラメタ記憶部
22、22a 終了判定部
24、24a ネットワーク計算部
26、26a 行動決定部
28、28a 行動制御部

Claims (6)

  1. 移動物の行動を決定するためのネットワーク学習装置であって、
    決定された移動物の行動を行うように前記移動物を制御する行動制御部と、
    行動後の前記移動物の環境を表す状態データ、及び行動に対する報酬を取得するデータ取得部と、
    前記行動に対する報酬と、前記移動物の環境を表す状態データとに基づいて、前記状態データが過去に経験した状態データに対応しているかどうかを表す探索評価値を計算する探索評価値計算部と、
    前記行動に対する報酬と、前記計算された探索評価値とに基づいて、前記移動物の行動を決定するための多層ニューラルネットワークのモデルパラメタを更新するパラメタ更新部と、
    前記移動物の環境を表す入力データを入力として、前記多層ニューラルネットワークの各要素を計算するネットワーク計算部と、
    前記多層ニューラルネットワークの出力層の値に基づいて、前記移動物の行動を決定する行動決定部と、
    予め定められた反復終了条件を満たすまで、前記行動制御部による制御、前記データ取得部による取得、前記探索評価値計算部による計算、前記パラメタ更新部による更新、前記ネットワーク計算部による計算、及び前記行動決定部による決定を繰り返させる終了判定部と、
    を含むネットワーク学習装置。
  2. 前記探索評価値計算部は、前記行動に対する報酬と、現時点の時刻と、前記移動物の環境を表す状態データに対応する状態データの経験回数とに基づいて、前記探索評価値を計算する請求項1記載のネットワーク学習装置。
  3. 前記パラメタ更新部は、前記行動に対する報酬に基づいて、前記移動物の行動を決定するための行動決定用の多層ニューラルネットワークのモデルパラメタを更新し、前記計算された探索評価値に基づいて、前記移動物の行動を決定するための探索用の多層ニューラルネットワークのモデルパラメタを更新し、
    前記ネットワーク計算部は、前記移動物の環境を表す入力データを入力として、前記探索用の多層ニューラルネットワークの各要素を計算し、
    前記行動決定部は、前記探索用の多層ニューラルネットワークの出力層の値に基づいて、前記移動物の行動を決定する請求項1又は2記載のネットワーク学習装置。
  4. 移動物の行動を決定するための行動決定装置であって、
    決定された移動物の行動を行うように前記移動物を制御する行動制御部と、
    行動後の前記移動物の環境を表す状態データを取得するデータ取得部と、
    前記移動物の環境を表す入力データを入力として、請求項3記載のネットワーク学習装置によって得られた前記行動決定用の多層ニューラルネットワークの各要素を計算するネットワーク計算部と、
    前記行動決定用の多層ニューラルネットワークの出力層の値に基づいて、前記移動物の行動を決定する行動決定部と、
    予め定められた反復終了条件を満たすまで、前記行動制御部による制御、前記データ取得部による取得、前記ネットワーク計算部による計算、及び前記行動決定部による決定を繰り返させる終了判定部と、
    を含む行動決定装置。
  5. 行動制御部、データ取得部、探索評価値計算部、パラメタ更新部、ネットワーク計算部、行動決定部、及び終了判定部を含む、移動物の行動を決定するためのネットワーク学習装置であって、
    前記行動制御部が、決定された移動物の行動を行うように前記移動物を制御するステップと、
    データ取得部が、行動後の前記移動物の環境を表す状態データ、及び行動に対する報酬を取得するデータ取得部と、
    前記探索評価値計算部が、前記行動に対する報酬と、前記移動物の環境を表す状態データとに基づいて、前記状態データが過去に経験した状態データに対応しているかどうかを表す探索評価値を計算するステップと、
    前記パラメタ更新部が、前記行動に対する報酬と、前記計算された探索評価値とに基づいて、前記移動物の行動を決定するための多層ニューラルネットワークのモデルパラメタを更新するステップと、
    前記ネットワーク計算部が、前記移動物の環境を表す入力データを入力として、前記多層ニューラルネットワークの各要素を計算するステップと、
    前記行動決定部が、前記多層ニューラルネットワークの出力層の値に基づいて、前記移動物の行動を決定するステップと、
    前記終了判定部が、予め定められた反復終了条件を満たすまで、前記行動制御部による制御、前記データ取得部による取得、前記探索評価値計算部による計算、前記パラメタ更新部による更新、前記ネットワーク計算部による計算、及び前記行動決定部による決定を繰り返させるステップと、
    を含むネットワーク学習方法。
  6. コンピュータを、請求項1〜請求項3の何れか1項に記載のネットワーク学習装置、又は請求項4に記載の行動決定装置を構成する各部として機能させるためのプログラム。
JP2017103087A 2017-05-24 2017-05-24 ネットワーク学習装置、行動決定装置、ネットワーク学習方法、及びプログラム Active JP6840363B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017103087A JP6840363B2 (ja) 2017-05-24 2017-05-24 ネットワーク学習装置、行動決定装置、ネットワーク学習方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017103087A JP6840363B2 (ja) 2017-05-24 2017-05-24 ネットワーク学習装置、行動決定装置、ネットワーク学習方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2018198012A true JP2018198012A (ja) 2018-12-13
JP6840363B2 JP6840363B2 (ja) 2021-03-10

Family

ID=64663384

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017103087A Active JP6840363B2 (ja) 2017-05-24 2017-05-24 ネットワーク学習装置、行動決定装置、ネットワーク学習方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6840363B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109960880A (zh) * 2019-03-26 2019-07-02 上海交通大学 一种基于机器学习的工业机器人避障路径规划方法
JP2020125102A (ja) * 2019-01-31 2020-08-20 株式会社ストラドビジョンStradvision,Inc. ライダ、レーダ及びカメラセンサのデータを使用する強化学習に基づく自律走行時の最適化されたリソース割当てのための方法及び装置
CN112633591A (zh) * 2020-12-30 2021-04-09 成都艾特能电气科技有限责任公司 一种基于深度强化学习的空间搜索方法及设备
JP2021077286A (ja) * 2019-11-13 2021-05-20 オムロン株式会社 ロボット制御モデル学習方法、ロボット制御モデル学習装置、ロボット制御モデル学習プログラム、ロボット制御方法、ロボット制御装置、ロボット制御プログラム、及びロボット
JP6950117B1 (ja) * 2020-04-30 2021-10-13 楽天グループ株式会社 学習装置、情報処理装置、及び学習済の制御モデル
WO2021220467A1 (ja) * 2020-04-30 2021-11-04 楽天株式会社 学習装置、情報処理装置、及び学習済の制御モデル

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020125102A (ja) * 2019-01-31 2020-08-20 株式会社ストラドビジョンStradvision,Inc. ライダ、レーダ及びカメラセンサのデータを使用する強化学習に基づく自律走行時の最適化されたリソース割当てのための方法及び装置
CN109960880A (zh) * 2019-03-26 2019-07-02 上海交通大学 一种基于机器学习的工业机器人避障路径规划方法
CN109960880B (zh) * 2019-03-26 2023-01-03 上海交通大学 一种基于机器学习的工业机器人避障路径规划方法
JP2021077286A (ja) * 2019-11-13 2021-05-20 オムロン株式会社 ロボット制御モデル学習方法、ロボット制御モデル学習装置、ロボット制御モデル学習プログラム、ロボット制御方法、ロボット制御装置、ロボット制御プログラム、及びロボット
WO2021095464A1 (ja) * 2019-11-13 2021-05-20 オムロン株式会社 ロボット制御モデル学習方法、ロボット制御モデル学習装置、ロボット制御モデル学習プログラム、ロボット制御方法、ロボット制御装置、ロボット制御プログラム、及びロボット
JP7400371B2 (ja) 2019-11-13 2023-12-19 オムロン株式会社 ロボット制御モデル学習方法、ロボット制御モデル学習装置、ロボット制御モデル学習プログラム、ロボット制御方法、ロボット制御装置、ロボット制御プログラム、及びロボット
JP6950117B1 (ja) * 2020-04-30 2021-10-13 楽天グループ株式会社 学習装置、情報処理装置、及び学習済の制御モデル
WO2021220467A1 (ja) * 2020-04-30 2021-11-04 楽天株式会社 学習装置、情報処理装置、及び学習済の制御モデル
WO2021220528A1 (ja) * 2020-04-30 2021-11-04 楽天グループ株式会社 学習装置、情報処理装置、及び学習済の制御モデル
CN113892070A (zh) * 2020-04-30 2022-01-04 乐天集团股份有限公司 学习装置、信息处理装置、及完成学习的控制模型
CN113892070B (zh) * 2020-04-30 2024-04-26 乐天集团股份有限公司 学习装置、信息处理装置、及完成学习的控制模型
CN112633591A (zh) * 2020-12-30 2021-04-09 成都艾特能电气科技有限责任公司 一种基于深度强化学习的空间搜索方法及设备

Also Published As

Publication number Publication date
JP6840363B2 (ja) 2021-03-10

Similar Documents

Publication Publication Date Title
JP6840363B2 (ja) ネットワーク学習装置、行動決定装置、ネットワーク学習方法、及びプログラム
JP6550678B2 (ja) 行動決定装置、未来予測モデル学習装置、ネットワーク学習装置、方法、及びプログラム
JP6963627B2 (ja) 畳み込みニューラルネットワークのためのニューラルアーキテクチャ検索
JP6935550B2 (ja) 強化学習を使用した環境ナビゲーション
JP6926203B2 (ja) 補助タスクを伴う強化学習
Kahn et al. Uncertainty-aware reinforcement learning for collision avoidance
CN110520868B (zh) 用于分布式强化学习的方法、程序产品和存储介质
US11263531B2 (en) Unsupervised control using learned rewards
KR102590411B1 (ko) 로봇 에이전트용 제어 정책
US11627165B2 (en) Multi-agent reinforcement learning with matchmaking policies
EP3788549B1 (en) Stacked convolutional long short-term memory for model-free reinforcement learning
JP2021513128A (ja) 方策オフ型アクタークリティック強化学習を使用する分散型の訓練
CN112135717B (zh) 基于像素的模型预测控制的系统和方法
JP7419547B2 (ja) 学習済み隠れ状態を使用するエージェント制御のためのプランニング
JP7448683B2 (ja) マルチタスク強化学習におけるメタ勾配を用いたアクション選択のための学習オプション
KR102303126B1 (ko) 사용자 선호에 따른 강화학습 기반 자율주행 최적화 방법 및 시스템
US20220036186A1 (en) Accelerated deep reinforcement learning of agent control policies
EP3616128A1 (en) Batched reinforcement learning
JP7354460B2 (ja) ブートストラップされた潜在性の予測を使用するエージェント制御のための学習環境表現
EP3788554B1 (en) Imitation learning using a generative predecessor neural network
KR20230157488A (ko) 가중 정책 프로젝션을 사용한 다중 목적 강화 학습
CN114047745A (zh) 机器人运动控制方法、机器人、计算机装置和存储介质
US20220176554A1 (en) Method and device for controlling a robot
JP2024519271A (ja) 弁別器モデルの集合を使用した強化学習
JP2024522051A (ja) 重み付けされたポリシー投影を使用した多目的強化学習

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170707

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190627

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200529

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200714

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200904

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210201

R150 Certificate of patent or registration of utility model

Ref document number: 6840363

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250