JP2017211913A

JP2017211913A - 行動決定装置、未来予測モデル学習装置、ネットワーク学習装置、方法、及びプログラム

Info

Publication number: JP2017211913A
Application number: JP2016106196A
Authority: JP
Inventors: 鈴木　潤; Jun Suzuki; 潤鈴木; 慶雅鶴岡; Yoshimasa Tsuruoka
Original assignee: Nippon Telegraph and Telephone Corp; University of Tokyo NUC
Current assignee: Nippon Telegraph and Telephone Corp; University of Tokyo NUC
Priority date: 2016-05-27
Filing date: 2016-05-27
Publication date: 2017-11-30
Anticipated expiration: 2036-05-27
Also published as: JP6550678B2

Abstract

【課題】ネットワーク内部で直接的に将来起こりそうな状況を予測しつつ、その情報を加味した上で、現在最良と思われる行動を選択するようにする。【解決手段】ネットワーク計算部１２２が、自律機械の環境を表す入力データを入力として、多層ニューラルネットワークの各要素を計算する。予測部１２４が、多層ニューラルネットワークの最終隠れ層の値と、未来予測モデルとに基づいて、未来の時刻における最終隠れ層の値を予測する。行動決定部１２６が、多層ニューラルネットワークの最終隠れ層の値と、予測された未来の時刻における最終隠れ層の値とに基づいて、多層ニューラルネットワークの出力層の値を推定し、推定された出力層の値に基づいて、自律機械の行動を決定する。【選択図】図１０

Description

本発明は、行動決定装置、未来予測モデル学習装置、ネットワーク学習装置、方法、及びプログラムに係り、特に、移動物の行動を決定するための行動決定装置、未来予測モデル学習装置、ネットワーク学習装置、方法、及びプログラムに関する。

自律的に活動する機械（ロボット）を実現することは、近年発展が著しい人工知能研究の重要な課題である。ここでは、自動車の自動運転やドローンの自動飛行など、実環境で人間が介在しない状況で機械が自動で活動する状況を想定する。この場合、センサーデータ、画像データ、GPS（位置）データなどを入力とし、機械（自動車、ドローン）が、現時点の状況からどのような行動（加速、減速、右折、左折）を選択するのが適切か、時々刻々と変化する状況に合わせて、逐次選択していく問題と言える。

このような機械の自律的な行動には、周囲の環境と自身の状態を把握し、どのような行動を選択すればよいかを逐次判断することが機械に求められる。任意の環境に対して、適切な行動をおこなうために、環境に対してどのような行動をすべきかを、なんらかの形で機械に与えなくてはいけない。人間が作成するルールのようなもので、あらゆる状況を網羅し適切な行動を選択させるのは困難であるため、一般的には、実データから機械学習法などを用いて行動を学習する。このような行動を学習する場合には、必ずしも「正解」と呼べる行動が唯一存在するわけではない。しかし、一連の行動の結果、それがよかったか悪かったかといった絶対的あるいは相対的な評価を行うことは可能な場合が多い。このような問題設定の場合に、実データから機械が取るべき最良の行動を自動的に学習する方法論の一つとして、強化学習の枠組みが知られている。特に、近年は深層学習の枠組みを用いて強化学習を行うDeep Q-Networks(DQN)などの出現により、限定された環境では、人間よりもより適切に機械を動かすことが可能であることも徐々に示されつつある(非特許文献1)。

本発明は、機械が行動決定する際に利用する「行動モデル」を実データから自動的に学習する「学習フェーズ」と、学習フェーズで得られた行動モデルを用いて、実環境で実際に行動をおこなう「評価フェーズ」の大きくわけて二つの状況を含む。

Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Andrei A. Rusu, Joel Veness, Marc G. Bellemare, AlexGraves, Martin Riedmiller, Andreas K. Fidjeland, Georg Ostrovski, Stig Petersen, Charles Beattie, Amir Sadik, Ioannis Antonoglou, Helen King, Dharshan Kumaran, Daan Wierstra, Shane Legg, Demis Hassabis, Human-level control through deep reinforcement learning. Nature (Letter), Vol. 518, pp. 529-533, 2015/02/26/print Sepp Hochreiter, Jrgen Schmidhuber, Long short-term memory. Neural Computation, Vol. 9 (8), pp. 1735-1780, 1997

議論を簡単にするため、例えば、環境内を自由に移動している任意の物体にぶつからないようにスタート地点からゴール地点へ移動する問題を考える。人間の場合は、環境内を移動している物体がなんであるか、どのような状態か、これまでどのような移動軌跡をとっているか、といった情報から、自身の経験に照らし合わせて、将来の位置を予測し、それに即してぶつからないように自分の行動を選択する、というようなことを、特に意識せずとも行っている、と思われる。これは、未来の状況を想定せず、現時点の情報だけで最良と思われる行動を選択しても、最終的にそれが必ずしもよい結果を生むとは限らないからである。自律移動する機械の場合にも、同様の未来予測を加味した上で適切な行動を選択できることが望ましい。

本発明では、ある環境下での機械が適切な行動をとれるような行動モデルを学習する課題に取り組む。また、そのためのツールとして前記DQNの枠組みを用いる。上記非特許文献１では、画像を入力信号とし、そこから得られる画素情報から次の行動を選択する。f行動モデルは、多層ニューラルネットワークにより表現される。よって、学習は、事前に構築された多層ニューラルネットワークのパラメタを適切に決定するプロセスとなる。また、学習時には、行動が適切であったかどうかを数値的に評価する評価値が与えられ、この評価値の期待値が高くなる行動を選択しやすくするように、多層ニューラルネットワークのパラメタを決定することになる。

前述のように、未来の状態を予測して現在の行動を決定するためには、行動モデルの学習時に、未来の状態を予測したモデルを取り込んで学習を行えばよい。その意味では、DQNの枠組みでは、ある任意の時刻の行動は、将来的に得られる評価値によっても間接的に評価されるので、将来起こり得る情報を用いて現在の行動を決定するプロセスになっていると解釈することもできなくはない。ただし、これは学習の枠組みとして、このように最終的に得られた評価値により一連の行動が評価されるとはいえ、各行動が将来的にどのような影響を及ぼすのかを直接予測してその結果を反映して行動を決定する行動モデルになっているわけではない。つまり、学習済みの行動モデルを実環境で用いる「評価フェーズ」では、将来起こり得る状況を反映した行動を選択するといった処理は全く含まれていない。

本発明では、上記事情を鑑みてなされたものであり、ネットワーク内部で直接的に将来起こりそうな状況を予測しつつ、その情報を加味した上で、現在最良と思われる行動を選択することができる行動決定装置、方法、及びプログラムを提供することを目的とする。

また、ネットワーク内部で直接的に将来起こりそうな状況を予測することができる未来予測モデルを学習する未来予測モデル学習装置、及びプログラムを提供することを目的とする。

また、ネットワーク内部で直接的に将来起こりそうな状況を予測しつつ、その情報を加味した上で、現在最良と思われる行動を選択することができる多層ニューラルネットワークを学習することができるネットワーク学習装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、本発明に係る行動決定装置は、移動物の行動を決定する行動決定装置であって、前記移動物の環境を表す入力データを入力として、前記移動物の行動を決定するための予め学習された多層ニューラルネットワークの各要素を計算するネットワーク計算部と、前記多層ニューラルネットワークの最終隠れ層の値と、予め学習された未来予測モデルとに基づいて、未来の時刻における前記最終隠れ層の値を予測する予測部と、前記多層ニューラルネットワークの最終隠れ層の値と、前記予測部によって予測された未来の時刻における前記最終隠れ層の値とに基づいて、前記多層ニューラルネットワークの出力層の値を推定し、推定された出力層の値に基づいて、前記移動物の行動を決定する行動決定部と、を含んで構成されている。

本発明に係る行動決定方法は、移動物の行動を決定する行動決定装置における行動決定方法であって、ネットワーク計算部が、前記移動物の環境を表す入力データを入力として、前記移動物の行動を決定するための予め学習された多層ニューラルネットワークの各要素を計算し、予測部が、前記多層ニューラルネットワークの最終隠れ層の値と、予め学習された未来予測モデルとに基づいて、未来の時刻における前記最終隠れ層の値を予測し、行動決定部が、前記多層ニューラルネットワークの最終隠れ層の値と、前記予測部によって予測された未来の時刻における前記最終隠れ層の値とに基づいて、前記多層ニューラルネットワークの出力層の値を推定し、推定された出力層の値に基づいて、前記移動物の行動を決定する。

本発明に係る未来予測モデル学習装置は、各時刻の移動物の環境を表す入力データを入力として、各時刻について、前記移動物の行動を決定するための予め学習された多層ニューラルネットワークの各要素を計算するシミュレーション部と、前記シミュレーション部による計算結果に基づいて、各時刻についての前記多層ニューラルネットワークの最終隠れ層の値を取得する学習データ取得部と、前記学習データ取得部によって取得した各時刻についての前記最終隠れ層の値に基づいて、未来の時刻における前記最終隠れ層の値を予測するための未来予測モデルを学習するモデル学習部と、を含んで構成されている。

本発明に係る未来予測モデル学習方法は、シミュレーション部が、各時刻の移動物の環境を表す入力データを入力として、各時刻について、前記移動物の行動を決定するための予め学習された多層ニューラルネットワークの各要素を計算し、学習データ取得部が、前記シミュレーション部による計算結果に基づいて、各時刻についての前記多層ニューラルネットワークの最終隠れ層の値を取得し、モデル学習部が、前記学習データ取得部によって取得した各時刻についての前記最終隠れ層の値に基づいて、未来の時刻における前記最終隠れ層の値を予測するための未来予測モデルを学習する。

本発明に係るネットワーク学習装置は、移動物の環境を表す入力データと、前記移動物の行動と、評価値とからなる教師データに基づいて、前記移動物の行動を決定するための多層ニューラルネットワークを学習するネットワーク学習部と、各時刻の移動物の環境を表す入力データを入力として、各時刻について、前記ネットワーク学習部によって学習された前記多層ニューラルネットワークの各要素を計算し、各時刻についての前記多層ニューラルネットワークの最終隠れ層の値を取得し、各時刻についての前記最終隠れ層の値に基づいて、未来の時刻における前記最終隠れ層の値を予測するための未来予測モデルを学習する未来予測モデル学習部と、前記教師データに含まれる前記移動物の環境を表す入力データを入力として、前記多層ニューラルネットワークの各要素を計算し、前記多層ニューラルネットワークの最終隠れ層の値と、前記未来予測モデルとに基づいて、未来の時刻における前記最終隠れ層の値を予測し、前記多層ニューラルネットワークの最終隠れ層の値と、前記予測された未来の時刻における前記最終隠れ層の値とに基づいて、前記多層ニューラルネットワークの出力層の値を推定し、推定された出力層の値と、前記教師データに含まれる前記移動物の行動及び前記評価値とに基づいて、前記多層ニューラルネットワークを再学習するネットワーク再学習部と、を含んで構成されている。

本発明に係るネットワーク学習方法は、ネットワーク学習部が、移動物の環境を表す入力データと、前記移動物の行動と、評価値とからなる教師データに基づいて、前記移動物の行動を決定するための多層ニューラルネットワークを学習し、未来予測モデル学習部が、各時刻の移動物の環境を表す入力データを入力として、各時刻について、前記ネットワーク学習部によって学習された前記多層ニューラルネットワークの各要素を計算し、各時刻についての前記多層ニューラルネットワークの最終隠れ層の値を取得し、各時刻についての前記最終隠れ層の値に基づいて、未来の時刻における前記最終隠れ層の値を予測するための未来予測モデルを学習し、ネットワーク再学習部が、前記教師データに含まれる前記移動物の環境を表す入力データを入力として、前記多層ニューラルネットワークの各要素を計算し、前記多層ニューラルネットワークの最終隠れ層の値と、前記未来予測モデルとに基づいて、未来の時刻における前記最終隠れ層の値を予測し、前記多層ニューラルネットワークの最終隠れ層の値と、前記予測された未来の時刻における前記最終隠れ層の値とに基づいて、前記多層ニューラルネットワークの出力層の値を推定し、推定された出力層の値と、前記教師データに含まれる前記移動物の行動及び前記評価値とに基づいて、前記多層ニューラルネットワークを再学習する。

また、本発明のプログラムは、コンピュータを、上記の行動決定装置、未来予測モデル学習装置、又はネットワーク学習装置を構成する各部として機能させるためのプログラムである。

以上説明したように、本発明の行動決定装置、方法、及びプログラムによれば、未来予測モデルに基づいて、未来の時刻における最終隠れ層の値を予測し、予測された未来の時刻における最終隠れ層の値に基づいて、多層ニューラルネットワークの出力層の値を計算し、移動物の行動を決定することにより、ネットワーク内部で直接的に将来起こりそうな状況を予測しつつ、その情報を加味した上で、現在最良と思われる行動を選択することができる。

また、本発明の未来予測モデル学習装置、方法、及びプログラムによれば、各時刻についての前記多層ニューラルネットワークの最終隠れ層の値を取得し、未来の時刻における前記最終隠れ層の値を予測するための未来予測モデルを学習することにより、ネットワーク内部で直接的に将来起こりそうな状況を予測することができる未来予測モデルを学習することができる。

また、本発明のネットワーク学習装置、方法、及びプログラムによれば、多層ニューラルネットワークを学習し、学習された前記多層ニューラルネットワークの各要素を計算し、各時刻についての前記最終隠れ層の値に基づいて、未来予測モデルを学習し、前記多層ニューラルネットワークと未来予測モデルとに基づいて、多層ニューラルネットワークの出力層の値を計算し、教師データに含まれる移動物の行動及び評価値に基づいて、多層ニューラルネットワークを再学習することにより、ネットワーク内部で直接的に将来起こりそうな状況を予測しつつ、その情報を加味した上で、現在最良と思われる行動を選択することができる多層ニューラルネットワークを学習することができる。

本発明の実施の形態を適用する問題の例を示す図である。入力データの一例を示す図である。多層ニューラルネットワークの一例を示す図である。未来の情報を予測し現在の行動を決定する方法を説明するための図である。未来予測モデルの学習データを説明するための図である。未来予測モデルを学習する方法を説明するための図である。多層ニューラルネットワーク及び未来予測モデルの一例を示す図である。本発明の実施の形態に係るネットワーク学習装置の構成を示すブロック図である。本発明の実施の形態に係るネットワーク学習装置の未来予測モデル学習部の構成を示すブロック図である。本発明の実施の形態に係る行動決定装置の構成を示すブロック図である。本発明の実施の形態に係るネットワーク学習装置におけるネットワーク学習処理ルーチンの内容を示すフローチャートである。本発明の実施の形態に係るネットワーク学習装置における未来予測モデルを学習する処理の流れを示すフローチャートである。本発明の実施の形態に係るネットワーク学習装置における多層ニューラルネットワークを再学習する処理の流れを示すフローチャートである。本発明の実施の形態に係る行動決定装置における行動決定処理ルーチンの内容を示すフローチャートである。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜本発明の実施の形態の概要＞
本発明に係る実施の形態は、未来予測機能付きの行動モデルを構築するために、ベースとなる多層ニューラルネットワークに、ニューラルネットワークによる未来予測モデルを追加する。この未来予測モデルの役割は、現在のネットワークの状態と選択する行動の情報から、次のネットワークの状態を推定することである。

つまり、未来の時刻の観測データそのものを正確に予測するのは比較的困難であるため、その代わりに、将来の画像入力に基づいてネットワークのパラメタがどのように変化していくかをニューラルネットワークで予測することで、未来の状態の予測とする。また、その予測結果を利用して、現在の行動を決定するように変更する。このようなモデルを構築することで、例えば、未来予測モデルの予測精度が非常に高いと仮定すると、ネットワークの汎化した表現として、未来に起こる事象を正確に推定できていることを意味するので、その情報を元に現在の行動を決定することで、計算上は、未来を予測しながら現在の行動を決定するという行動モデルを構築することができる。

＜本発明の実施の形態の原理＞
本発明の実施の形態の説明とその効果を簡単に述べるために、非常に限定された状況と条件下で、機械が自動で行動選択を行う方法と、その行動選択のモデルをデータから自動的に学習する方法を述べる。

ここでは、制御対象となる自律機械が環境内を一定の速度で前方へ必ず進んでいる状況を想定する。

また、同様な自律機械が環境内に複数存在することとする。全ての自律機械が取れる行動

は、簡単のため、「右に移動」「左に移動a_l」「左右には動かないａ_s」の3種類とする。

ただし、注意点として、このとき自律機械は一定の速度で進んでいるため、「左右に移動しない」を選択することは前進することを意味し、それぞれ「右に移動」「左に移動」も、実際には、右前方に移動あるいは左前方に移動という動きになる。簡単のため、ここでは制御対象の自律機械を「自律機械」、環境内のそれ以外の自律機械を「移動障害物」と呼ぶこととする（図１参照）。

ここでは、この設定で自律機械が、移動障害物に接触せずにできる限り前方へ到達するよう行動を行うモデルを自動的に獲得する問題に取り組む。これは、現実の世界での車やドローンの自動運転を簡略化した設定だと想定しており、移動障害物に接触することは、すなわち現実世界で車同士が接触することを意味するので、非常に大きな問題となる。よって、接触せずに行動するモデルを自動的に獲得する方法を構築することは非常に重要な課題である。

自律機械の周囲の環境は、自律機械に付属された前方が確認できるカメラ映像（画像）とする。また、移動障害物は、積極的に自律機械を妨害するようなことはなく、正面のカメラに自律機械がいれば、自律機械同様に接触しないように適切と思われる行動をとる。ただし、カメラの範囲に自律機械がいなければ、当然回避行動は行われる保証はない。

時刻をtとする。ここでは、一時刻単位は、1/60 秒のように非常に短い時間単位を想定する。つまり、カメラで撮影される1/60秒毎の映像データを一枚の画像データとして扱う。また、各時刻tでは4単位時刻前までの4枚の画像をまとめて入力として扱う。つまり、一入力は1/15秒分の情報となっていると言える（図２参照）。

[未来予測機能付き行動決定処理]
行動モデルとして、ここでは、多層ニューラルネットワークを想定する。例えば、非特許文献１で示されているように、画像を直接多層ニューラルネットワークに入力し、次の行動を決定するモデルである（図３参照）。

時刻tの状態を

、時刻tで選択した行動を

とする。この時、自律機械の各時刻の行動は、以下の１．〜８．のような行動モデルの計算を元に選択される。

1. (初期化) t = 0、多層ニューラルネットワークの構成を読み込み、多層ニューラルネットワークを構築する。

2. t，t-1，t-2，t-3の4単位時刻分の画像情報を入力する。ただし時刻t=0より前はダミーの初期画像が入力されたと仮定して、通常通り処理を行う。

3. 画像を受け取り、画像を固定の矩形領域で切り取り、その領域のRGBの数値を入力データとして、上記1．で構築したネットワークの入力層に入力する。

4. 入力データと、上記1．で構築したネットワークの定義に従ってネットワークの各要素の値を計算する。

5. ネットワークの最終隠れ層の情報を用いて、f時刻分先の最終隠れ層を予測する。

6. 上記5．で予測したf個の最終隠れ層と、時刻tの最終隠れ層の計f+1個の最終隠れ層の情報を用いて、ネットワークの出力層の値を計算する。

7. 時刻tの行動として、出力層の値から最も期待評価値が高くなる行動ａ_tを選択する。

8. 選択した行動によって、終了状態を判定する。

終了状態であれば、終了とし、終了状態でなければ、t←t+1として、上記2．に戻る。

ここでは、前述のように、移動障害物に接触することは本来起こってはいけないことなので、接触した場合は、終了条件を満たしたと判定し、終了となる設定とする。つまり、ここでは、極力長く接触せずに前進する行動を取れることが、良い行動であると言える。

また、上記処理のポイントは、処理5．で未来の予測を行う点と、処理6．でその予測結果を用いて現在の行動を決定する方法論になっている点である（図４参照）。

以下、上記ネットワークの構築方法（学習方法）について述べる。

[未来予測機能付き多層ニューラルネットワークの学習方式]
時刻tで得られる評価値（報酬）を

とする。学習時には、この評価値が高くなる行動をとるように学習を進める。

具体的な評価値として、ここでは、移動障害物に接触した場合、移動障害物の接触直前の距離まで近づいた場合、一定時間経過した場合、それ以外の離散値の4種類を用いる。また、前述のように、現実の状況に即して移動障害物に接触することは非常に問題が大きいことから、障害物に接触する場合の評価値は大きい負の値とし、さらに強制的に終了条件を満たしたと判定され、そこで終了となる。次に、移動障害物の非常に接近した場合は、危険であり極力起こらないことが望まれるという判定として、小さい負の値とする。また、一定期間経過するごとに小さな正の値の評価が与えられることとする。例えば、取り得る評価値の値集合

を

と設定する。

実環境での一回の試行は、基本的に自律機械が移動障害物に接触し、終了条件を満たすまで継続する。つまり、それまでに獲得した累計の評価値が高ければ高いほど、自律機械は適切な行動をしたという評価になる。

本発明の実施の形態では、行動モデルとなるネットワークの学習は３段階に分割して実行される。

段階1. DQNにより多層ニューラルネットワークのパラメタを学習する。

段階2. 上記1．の学習結果より得られるネットワークを用いて、未来予測モデルを学習する。

段階3. 上記2．の未来予測モデルを使って、上記1．のネットワークの最終隠れ層と出力層間のパラメタを部分的に再学習する。

段階2，3のモデルは、前の処理のモデルに依存関係があるので、順番に学習を行う。また、各モデルは、学習後に次の段階のモデル学習に不要なパラメタは全て固定し、次の段階の学習時に値が変更されないこととする。

[学習処理1：DQNによるネットワークのパラメタ学習]

この部分の学習は、非特許文献1に記載の方法をそのまま用いればよい。

[学習処理2：最終隠れ層の未来予測モデルの学習]
学習処理1で獲得したネットワークを用いて、シミュレーションを行う（評価値が与えられる必要は無い）。例えば、一回のシミュレーション結果が時刻Tで終了したと仮定する。すると、時刻tの最終隠れ層をh_t、出力層をo_t、とおくと、(h_t，o_t)といった、最終隠れ層と出力層のペアがt=1からt=TまでのT個生成することができる。これを、

と記載する（図５参照）。

このデータを学習用のデータとして、未来予測モデルを作成する。つまり、時刻tのデータ(h_t,o_t)から，h_t+fを予測するモデルを構築することに相当する。ただし、予測は時刻t以降の各時刻毎に予測する形式になるので、ここでは自然な形として時系列予測のモデルを採用する。具体的には、非特許文献２で提案された、再帰型ニューラルネットワークの一種であるlog-short-term memory(LSTM)ユニットを用いる。

この再帰型のニューラルネットワークは、過去の情報を再帰計算が行われる隠れ層に保持しながら計算が行われるため、時系列データの予測モデルに適していると考えられる。よって、ここでは、まず初期状態としてtのデータを用いて時刻t+1の最終隠れ層の状態を推定し、その結果から出力層を計算し、さらにそれを次の入力としてt+2の最終隠れ層の状態を推定する、というように、時刻t+fまで予測することができる。次に、実際に観測された学習用のデータを用いて、差分を誤差逆伝搬法を用いて修正する形で、学習が進んでいく。ただしt+f≦Tとする（図６参照）。

具体的には、以下の１．〜２．の処理が行われる。

1. 事前に決めた規定回数だけ、以下の（ａ）〜（ｅ）の計算を繰り返す。

(a) 学習済みネットワークを用いてシミュレーションを行う。

(b) シミュレーション結果から未来予測モデル用学習データ

を取得する。

(c) （初期化）tをランダムに決定し、i = tとする。LSTM ユニットの初期値としてh_tを代入する。

(d) o_iをLSTMユニットに入力しLSTM ユニットの隠れ層としてh’_i+1を得る。

(e) h_i+1とh’_i+1の誤差が小さくなるように、誤差逆伝搬法でパラメタを更新する。

2. 終了判定を行う。累積誤差がε以下の場合は終了とし、累積誤差がε以下でない場合は、上記1．に戻る。

この未来予測モデルは、時刻tのネットワークの最終隠れ層の情報を初期値として、時刻t+1からt+fまでの最終隠れ層を予測するモデルになっている。つまり、現在の時刻tの最終隠れ層と出力層の情報のみを用いて、未来の時刻である時刻t+fまでの最終隠れ層の状態を推定する。

また、その際に、時系列データを効率的に学習できるLSTMユニットを用いることで、可変長の未来の状態をモデル化することが可能である。

この学習のメリットは、正解がモデルから得られる最終隠れ層の値なので、評価値の獲得や人手による正解データ作成といったコストが不要な点である。

[学習処理3：未来予測モデルを取り入れたネットワークの再学習]
最後に、学習処理2で獲得した未来予測モデルを用いて、ネットワークを再学習し、未来の予測を反映した行動選択が可能な行動モデルを構築する。ここでは、学習済みのネットワークの構成を極力変更したくないので、最終隠れ層と出力層との間のパラメタのみを変更する学習を行う。

具体的には、以下の１．〜５．の処理が行われる。

1. 学習済みネットワークを用いてシミュレーションを行う。

2. 時刻tにおいて、未来予測モデルを用いて時刻t+fまでの最終隠れ層の予測結果を取得する。

3. 時刻tからt+fまでのf+1個の最終隠れ層の予測結果を用いて、時刻tの出力層o_tを推定する（図７参照）。

4. o_tと評価値r_tの二乗誤差が小さくなるように、誤差逆伝搬法でパラメタを更新する。

5. 終了判定を行う。累積誤差がε以下の場合は終了とし、累積誤差がε以下でない場合は、上記1．に戻る。

＜ネットワーク学習装置のシステム構成＞
次に、本発明の実施の形態に係るネットワーク学習装置の構成について説明する。図８に示すように、本発明の実施の形態に係るネットワーク学習装置１００は、ＣＰＵと、ＲＡＭと、後述するネットワーク学習処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。このネットワーク学習装置１００は、機能的には図８に示すように教師データ入力部１０と、演算部２０と、パラメタ記憶部４０とを備えている。

教師データ入力部１０は、教師データの入力を受け付ける。ここで、教師データは、自律機械の環境を各時刻の画像情報と、自律機械の各時刻の行動と、評価値とからなる複数のデータセットである。

演算部２０は、教師データベース２２と、ネットワーク学習部２４と、未来予測モデル学習部２６と、ネットワーク再学習部２８とを備えている。

教師データベース２２には、教師データ入力部１０により受け付けた教師データが格納される。

ネットワーク学習部２４は、教師データベース２２に格納された教師データに基づいて、非特許文献１に記載のDQNの手法により、自律機械の行動を決定するための多層ニューラルネットワークを学習する。

未来予測モデル学習部２６は、各時刻の自律機械の環境を表す画像情報を入力として、各時刻について、ネットワーク学習部２４によって学習された多層ニューラルネットワークの各要素を計算し、各時刻についての多層ニューラルネットワークの最終隠れ層の値を取得し、各時刻についての最終隠れ層の値に基づいて、未来の時刻における最終隠れ層の値を予測するための未来予測モデルを学習する。

具体的には、図９に示すように、未来予測モデル学習部２６は、シミュレーション部３０と、学習データ取得部３２と、モデル学習部３４とを備えている。

シミュレーション部３０は、各時刻の自律機械の環境を表す画像情報を入力として、各時刻について、ネットワーク学習部２４によって学習された多層ニューラルネットワークの各要素を計算する。なお、各時刻の自律機械の環境を表す画像情報は、教師データと同様のものでもよいし、別のデータであってもよい。

学習データ取得部３２は、シミュレーション部３０による計算結果に基づいて、各時刻についての多層ニューラルネットワークの最終隠れ層の値と出力層の値とを取得する。

モデル学習部３４は、学習データ取得部３２によって取得した各時刻についての最終隠れ層の値と出力層の値とに基づいて、未来の時刻における最終隠れ層の値を予測するための未来予測モデルを学習する。

ネットワーク再学習部２８は、教師データに含まれる自律機械の環境を表すある時刻ｔの画像情報を入力として、多層ニューラルネットワークの各要素を計算し、多層ニューラルネットワークの最終隠れ層の値と、出力層の値と、未来予測モデル学習部２６によって学習された未来予測モデルとに基づいて、未来の時刻ｔ＋１〜ｔ＋ｆにおける最終隠れ層の値を予測する。ネットワーク再学習部２８は、多層ニューラルネットワークの最終隠れ層の値と、予測された未来の時刻ｔ＋１〜ｔ＋ｆにおける最終隠れ層の値とに基づいて、多層ニューラルネットワークの出力層の値を推定し、推定された出力層の値と、教師データに含まれる自律機械の行動及び評価値とに基づいて、多層ニューラルネットワークの最終隠れ層と出力層との間のパラメタを再学習する。

ネットワーク学習部２４、未来予測モデル学習部２６、及びネットワーク再学習部２８による学習で得られたパラメタが、パラメタ記憶部４０に格納される。

＜行動決定装置のシステム構成＞
前述のネットワーク学習装置１００で得られたパラメタを用いて、行動決定装置１５０によって、自律機械の環境を表す各時刻の画像情報を入力として、各時刻の自律機械の行動を決定する。

図１０は、本発明の実施の形態に係る行動決定装置１５０を示すブロック図である。この行動決定装置１５０は、ＣＰＵと、ＲＡＭと、後述する行動決定処理ルーチンを実行するためのプログラムを記憶したＲＯＭと、を備えたコンピュータで構成され、機能的には次に示すように構成されている。

本実施の形態に係る行動決定装置１５０は、図１０に示すように、入力部１１０と、演算部１２０と、出力部１４０とを備えている。

入力部１１０は、自律機械の環境を表す各時刻の画像情報を入力として受け付ける。

演算部１２０は、ネットワーク計算部１２２、予測部１２４、行動決定部１２６、パラメタ記憶部１２８、及び終了判定部１３０を備えている。

パラメタ記憶部１２８には、上記ネットワーク学習装置１００によって学習された、多層ニューラルネットワーク及び未来行動予測モデルのパラメタが格納される。

ネットワーク計算部１２２は、時刻ｔについて、自律機械の環境を表す時刻ｔ、ｔ−１、ｔ−２、ｔ−３の画像情報を入力として、多層ニューラルネットワークの各要素を計算する。

予測部１２４は、時刻ｔについて、ネットワーク計算部１２２によって計算された多層ニューラルネットワークの最終隠れ層の値と、未来予測モデルとに基づいて、未来の時刻ｔ＋１〜ｔ＋ｆにおける最終隠れ層の値を予測する。

行動決定部１２６は、各時刻ｔについて、時刻ｔの多層ニューラルネットワークの最終隠れ層の値と、予測部１２４によって予測された未来の時刻ｔ＋１〜ｔ＋ｆにおける最終隠れ層の値とに基づいて、多層ニューラルネットワークの出力層の値を推定し、推定された出力層の値に基づいて、自律機械の行動を決定する。

終了判定部１３０は、終了状態であるか否かを判定し、終了状態であると判定されるまで、ネットワーク計算部１２２、予測部１２４、及び行動決定部１２６による各処理を繰り返させる。

出力部１４０は、決定された各時刻の自律機械の行動を出力する。

＜ネットワーク学習装置の作用＞
次に、本実施の形態に係るネットワーク学習装置１００の作用について説明する。まず、教師データが、ネットワーク学習装置１００に入力されると、ネットワーク学習装置１００によって、入力された教師データが、教師データベース２２へ格納される。

そして、ネットワーク学習装置１００によって、図１１に示すネットワーク学習処理ルーチンが実行される。

まず、ステップＳ１００において、教師データに基づいて、多層ニューラルネットワークのパラメタを学習し、パラメタ記憶部４０に格納する。

次のステップＳ１０２では、各時刻の自律機械の環境を表す画像情報と、上記ステップＳ１００で学習された多層ニューラルネットワークとに基づいて、未来予測モデルを学習し、パラメタ記憶部４０に格納する。

上記ステップＳ１０２は、図１２に示す処理ルーチンによって実現される。

ステップＳ１１０では、各時刻の自律機械の環境を表す画像情報を入力として、上記ステップＳ１００で学習された多層ニューラルネットワークと、後述するステップＳ１１８でパラメタが更新された未来予測モデルであるＬＳＴＭユニットとを用いてシミュレーションを行って、各時刻に対し、多層ニューラルネットワークの各要素を計算する。

ステップＳ１１２では、上記ステップＳ１１０で得られたシミュレーション結果から、未来予測モデル用学習データ

を取得する。

次のステップＳ１１４では、時刻ｔをランダムに決定し、i= tとする。そして、ステップＳ１１６では、未来予測モデルであるLSTMユニットの初期値として、時刻ｔの最終隠れ層の値h_tを代入し、時刻ｔの出力層の値o_iをLSTMユニットに入力して、LSTMユニットによって予測される最終隠れ層の値としてh’_i+1を得る。

ステップＳ１１８では、上記ステップＳ１１２で得られた未来予測モデル用学習データに含まれる最終隠れ層の値h_i+1と、上記ステップＳ１１６で得られた最終隠れ層の値h’_i+1との誤差が小さくなるように、誤差逆伝搬法で、未来予測モデルであるLSTMユニットのパラメタを更新する。

ステップＳ１２０では、時刻ｔが終了状態であるか否かを判定し、終了状態でない場合には、ステップＳ１２２へ移行し、時刻ｔをｔ＋１として、上記ステップＳ１１６へ戻る。

一方、時刻ｔが終了状態である場合には、ステップＳ１２４へ移行し、上記ステップＳ１１０〜Ｓ１２２までの処理を、既定回数だけ繰り返したか否かを判定する。上記ステップＳ１１０〜Ｓ１２２までの処理を、既定回数繰り返していない場合には、上記ステップＳ１１０へ戻る。一方、上記ステップＳ１１０〜Ｓ１２２までの処理を、既定回数だけ繰り返した場合には、ステップＳ１２６へ移行する。

ステップＳ１２６では、上記ステップＳ１１８で得られる誤差の累積誤差が、閾値以下であるか否かを判定する。上記ステップＳ１１８で得られる誤差の累積誤差が、閾値より大きい場合には、上記ステップＳ１１０へ戻って、再度、上記ステップＳ１１０〜Ｓ１２２までの処理を、既定回数だけ繰り返す。一方、上記ステップＳ１１８で得られる誤差の累積誤差が、閾値以下である場合には、処理ルーチンを終了する。

図１１のステップＳ１０４では、教師データと、上記ステップＳ１００で学習された多層ニューラルネットワークと、上記ステップＳ１０２で学習された未来予測モデルとに基づいて、多層ニューラルネットワークの最終隠れ層と出力層との間のパラメタを再学習し、パラメタ記憶部４０に格納する。

ステップＳ１０４は、図１３に示す処理ルーチンによって実現される。

ステップＳ１３０では、教師データに含まれる、各時刻の自律機械の環境を表す画像情報を入力として、上記ステップＳ１００で学習された多層ニューラルネットワークと、上記ステップＳ１０２で学習された未来予測モデルであるＬＳＴＭユニットとを用いてシミュレーションを行って、各時刻に対し、多層ニューラルネットワークの各要素を計算する。

ステップＳ１３２では、上記ステップＳ１３０で得られた時刻ｔの最終隠れ層の値、出力層の値、未来予測モデルを用いて、時刻ｔ＋１〜時刻t+fまでの最終隠れ層の予測結果を取得する。

ステップＳ１３４では、上記ステップＳ１３０、Ｓ１３２で得られた、時刻ｔの最終隠れ層の値、及び時刻t＋１からt+fまでのf個の最終隠れ層の予測結果を用いて、時刻tの出力層o_tを推定する。

ステップＳ１３６では、上記ステップＳ１３４で推定された時刻ｔの出力層の値o_tと教師データの評価値r_tとの二乗誤差が小さくなるように、誤差逆伝搬法で、多層ニューラルネットワークの最終隠れ層と出力層との間のパラメタを更新する。

そして、ステップＳ１３８では、上記ステップＳ１３６で得られる誤差の累積誤差が、閾値以下であるか否かを判定する。上記ステップＳ１３６で得られる誤差の累積誤差が、閾値より大きい場合には、上記ステップＳ１３０へ戻る。一方、上記ステップＳ１３６で得られる誤差の累積誤差が、閾値以下である場合には、処理ルーチンを終了する。

＜行動決定装置の作用＞
次に、本実施の形態に係る行動決定装置１５０の作用について説明する。まず、ネットワーク学習装置１００のパラメタ記憶部４０に記憶されている多層ニューラルネットワーク及び未来予測モデルのパラメタが、行動決定装置１５０に入力されると、パラメタ記憶部１２８に格納される。そして、自律機械の環境を表す画像情報が逐次、行動決定装置１５０に入力されているときに、行動決定装置１５０によって、図１４に示す行動決定処理ルーチンが実行される。

まず、ステップＳ１５０において、時刻ｔ＝０に初期化すると共に、パラメタ記憶部１２８から、多層ニューラルネットワークの構成を読み込み、多層ニューラルネットワークを構築する。

ステップＳ１５２では、時刻t，t-1，t-2，t-3の4単位時刻分の画像情報を取得する。

ステップＳ１５４では、上記ステップＳ１５２で取得した画像を固定の矩形領域で切り取り、その領域のRGBの数値を入力データとして、上記ステップＳ１５０で構築した多層ニューラルネットワークの入力層に入力する。

ステップＳ１５６では、多層ニューラルネットワークの各要素の値を計算する。

ステップＳ１５８では、上記ステップＳ１５６で得られた時刻ｔの最終隠れ層の値、出力層の値、及び未来予測モデルを用いて、時刻ｔ＋１〜ｔ＋ｆの最終隠れ層の値を予測する。

ステップＳ１６０では、上記ステップＳ１５８で予測したf個の最終隠れ層の値と、上記ステップＳ１５６で得られた時刻tの最終隠れ層の値とを用いて、多層ニューラルネットワークの出力層の値を推定する。

次のステップＳ１６２では、時刻tの行動として、出力層の値から最も期待評価値が高くなる行動ａ_tを選択し、出力部１４０により出力する。

ステップＳ１６４では、上記ステップＳ１６２で選択した行動によって、終了状態を判定し、終了状態でない場合には、上記ステップＳ１５２へ戻る。一方、終了状態であると判定された場合には、行動決定処理ルーチンを終了する。

以上説明したように、本発明の実施の形態に係る行動決定装置によれば、未来予測モデルに基づいて、未来の時刻における最終隠れ層の値を予測し、予測された未来の時刻における最終隠れ層の値に基づいて、多層ニューラルネットワークの出力層の値を推定し、移動物の行動を決定することにより、ネットワーク内部で直接的に将来起こりそうな状況を予測しつつ、その情報を加味した上で、現在最良と思われる行動を選択することができる。

また、現時点までの情報だけでなく、未来に起こる状況を推定しながら、適切な行動を選択することが可能となる。これにより、例えば、局所的にはよい行動でも大局的に見るとよくない行動を選択するといった可能性が減り、より無駄の少ない機械の行動制御が可能となる。また、これは、無駄な行動を選択することが減ることに繋がる。実世界においては、機械が行動するためには、電力や燃料の消費といった全ての行動にコストが発生するので、省エネルギーによる機械の自律的な行動が可能になることが期待できる。

また、本発明の実施の形態に係るネットワーク学習装置によれば、各時刻についての多層ニューラルネットワークの最終隠れ層の値を取得し、未来の時刻における最終隠れ層の値を予測するための未来予測モデルを学習することにより、ネットワーク内部で直接的に将来起こりそうな状況を予測することができる未来予測モデルを学習することができる。

また、多層ニューラルネットワークを学習し、学習された多層ニューラルネットワークの各要素を計算し、各時刻についての最終隠れ層の値に基づいて、未来予測モデルを学習し、多層ニューラルネットワークと未来予測モデルとに基づいて、多層ニューラルネットワークの出力層の値を計算し、教師データに含まれる移動物の行動及び評価値に基づいて、多層ニューラルネットワークを再学習することにより、ネットワーク内部で直接的に将来起こりそうな状況を予測しつつ、その情報を加味した上で、現在最良と思われる行動を選択することができる多層ニューラルネットワークを学習することができる。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、未来予測モデルの入力を、最終隠れ層の値と出力層との値とする場合を例に説明したが、これに限定されるものではなく、未来予測モデルの入力を、最終隠れ層の値のみとしてもよい。

また、パラメタ記憶部４０、１２８及び教師データベース３３は、外部に設けられ、ネットワーク学習装置１００及び行動決定装置１５０とネットワークで接続されていてもよい。

また、上記実施の形態では、ネットワーク学習装置１００と行動決定装置１５０とを別々の装置として構成する場合を例に説明したが、ネットワーク学習装置１００と行動決定装置１５０とを１つの装置として構成してもよい。

また、ネットワーク学習装置１００の未来予測モデル学習部２６を備えた未来予測モデル学習装置として構成してもよい。

上述のネットワーク学習装置１００及び行動決定装置１５０は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。

例えば、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

１０教師データ入力部
２０演算部
２２教師データベース
２４ネットワーク学習部
２６未来予測モデル学習部
２８ネットワーク再学習部
３０シミュレーション部
３２学習データ取得部
３３教師データベース
３４モデル学習部
４０パラメタ記憶部
１００ネットワーク学習装置
１１０入力部
１２０演算部
１２２ネットワーク計算部
１２４予測部
１２６行動決定部
１２８パラメタ記憶部
１３０終了判定部
１４０出力部
１５０行動決定装置

Claims

移動物の行動を決定する行動決定装置であって、
前記移動物の環境を表す入力データを入力として、前記移動物の行動を決定するための予め学習された多層ニューラルネットワークの各要素を計算するネットワーク計算部と、
前記多層ニューラルネットワークの最終隠れ層の値と、予め学習された未来予測モデルとに基づいて、未来の時刻における前記最終隠れ層の値を予測する予測部と、
前記多層ニューラルネットワークの最終隠れ層の値と、前記予測部によって予測された未来の時刻における前記最終隠れ層の値とに基づいて、前記多層ニューラルネットワークの出力層の値を推定し、推定された出力層の値に基づいて、前記移動物の行動を決定する行動決定部と、
を含む行動決定装置。
各時刻の移動物の環境を表す入力データを入力として、各時刻について、前記移動物の行動を決定するための予め学習された多層ニューラルネットワークの各要素を計算するシミュレーション部と、
前記シミュレーション部による計算結果に基づいて、各時刻についての前記多層ニューラルネットワークの最終隠れ層の値を取得する学習データ取得部と、
前記学習データ取得部によって取得した各時刻についての前記最終隠れ層の値に基づいて、未来の時刻における前記最終隠れ層の値を予測するための未来予測モデルを学習するモデル学習部と、
を含む未来予測モデル学習装置。
移動物の環境を表す入力データと、前記移動物の行動と、評価値とからなる教師データに基づいて、前記移動物の行動を決定するための多層ニューラルネットワークを学習するネットワーク学習部と、
各時刻の移動物の環境を表す入力データを入力として、各時刻について、前記ネットワーク学習部によって学習された前記多層ニューラルネットワークの各要素を計算し、各時刻についての前記多層ニューラルネットワークの最終隠れ層の値を取得し、各時刻についての前記最終隠れ層の値に基づいて、未来の時刻における前記最終隠れ層の値を予測するための未来予測モデルを学習する未来予測モデル学習部と、
前記教師データに含まれる前記移動物の環境を表す入力データを入力として、前記多層ニューラルネットワークの各要素を計算し、前記多層ニューラルネットワークの最終隠れ層の値と、前記未来予測モデルとに基づいて、未来の時刻における前記最終隠れ層の値を予測し、前記多層ニューラルネットワークの最終隠れ層の値と、前記予測された未来の時刻における前記最終隠れ層の値とに基づいて、前記多層ニューラルネットワークの出力層の値を推定し、推定された出力層の値と、前記教師データに含まれる前記移動物の行動及び前記評価値とに基づいて、前記多層ニューラルネットワークを再学習するネットワーク再学習部と、
を含むネットワーク学習装置。
移動物の行動を決定する行動決定装置における行動決定方法であって、
ネットワーク計算部が、前記移動物の環境を表す入力データを入力として、前記移動物の行動を決定するための予め学習された多層ニューラルネットワークの各要素を計算し、
予測部が、前記多層ニューラルネットワークの最終隠れ層の値と、予め学習された未来予測モデルとに基づいて、未来の時刻における前記最終隠れ層の値を予測し、
行動決定部が、前記多層ニューラルネットワークの最終隠れ層の値と、前記予測部によって予測された未来の時刻における前記最終隠れ層の値とに基づいて、前記多層ニューラルネットワークの出力層の値を推定し、推定された出力層の値に基づいて、前記移動物の行動を決定する
行動決定方法。
シミュレーション部が、各時刻の移動物の環境を表す入力データを入力として、各時刻について、前記移動物の行動を決定するための予め学習された多層ニューラルネットワークの各要素を計算し、
学習データ取得部が、前記シミュレーション部による計算結果に基づいて、各時刻についての前記多層ニューラルネットワークの最終隠れ層の値を取得し、
モデル学習部が、前記学習データ取得部によって取得した各時刻についての前記最終隠れ層の値に基づいて、未来の時刻における前記最終隠れ層の値を予測するための未来予測モデルを学習する
未来予測モデル学習方法。
ネットワーク学習部が、移動物の環境を表す入力データと、前記移動物の行動と、評価値とからなる教師データに基づいて、前記移動物の行動を決定するための多層ニューラルネットワークを学習し、
未来予測モデル学習部が、各時刻の移動物の環境を表す入力データを入力として、各時刻について、前記ネットワーク学習部によって学習された前記多層ニューラルネットワークの各要素を計算し、各時刻についての前記多層ニューラルネットワークの最終隠れ層の値を取得し、各時刻についての前記最終隠れ層の値に基づいて、未来の時刻における前記最終隠れ層の値を予測するための未来予測モデルを学習し、
ネットワーク再学習部が、前記教師データに含まれる前記移動物の環境を表す入力データを入力として、前記多層ニューラルネットワークの各要素を計算し、前記多層ニューラルネットワークの最終隠れ層の値と、前記未来予測モデルとに基づいて、未来の時刻における前記最終隠れ層の値を予測し、前記多層ニューラルネットワークの最終隠れ層の値と、前記予測された未来の時刻における前記最終隠れ層の値とに基づいて、前記多層ニューラルネットワークの出力層の値を推定し、推定された出力層の値と、前記教師データに含まれる前記移動物の行動及び前記評価値とに基づいて、前記多層ニューラルネットワークを再学習する
ネットワーク学習方法。
コンピュータを、請求項１に記載の行動決定装置、請求項２に記載の未来予測モデル学習装置、又は請求項３に記載のネットワーク学習装置を構成する各部として機能させるためのプログラム。